小米开源首个原生端到端语音模型
小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio。
小米表示,该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并在预训练观察到明显的“涌现”行为。后训练进一步激发了Xiaomi-MiMo-Audio的智商、情商、表现力与安全性在内的跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

图源:Xiaomi MiMo公众号
在通用语音理解及对话等多项标准评测基准中,MiMo-Audio大幅超越了同参数量的开源模型,取得7B最佳性能;在音频理解基准MMAU的标准测试集上,MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio超越了OpenAI闭源语音模型GPT-4o-Audio-Preview。
从创新贡献上来看,Xiaomi-MiMo-Audio首次证明把语音无损压缩预训练Scaling至1亿小时可以“涌现”出跨任务的泛化性,表现为Few-Shot Learning能力;首个明确语音生成式预训练的目标和定义,并开源了一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系;首个把Thinking同时引入语音理解和语音生成过程中的开源模型,支持混合思考。

图源:Xiaomi MiMo公众号
此次开源,进一步推动MiMo与早前开源的Vela物联网系统、米家智能家居协议深度绑定。对开发者来说,基于MiMo开发的语音助手,未来可直接接入小米智能家居设备,或借助车载推理引擎无缝对接小米汽车OS系统。
自2016年组建AI团队以来,小米人工智能团队经过7年6次扩展,相关领域人员规模已达3000多人,其AI技术能力已覆盖视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态方向,并逐步接入手机、汽车、AIoT、机器人等业务板块。2023年4月,小米AI实验室大模型团队正式组建,栾剑担任大模型团队负责人。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
