小米开源首个原生端到端语音模型

刘峰

2025-09-19 09:54

小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio。

小米表示，该模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，并在预训练观察到明显的“涌现”行为。后训练进一步激发了Xiaomi-MiMo-Audio的智商、情商、表现力与安全性在内的跨模态对齐能力，语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源：Xiaomi MiMo公众号

在通用语音理解及对话等多项标准评测基准中，MiMo-Audio大幅超越了同参数量的开源模型，取得7B最佳性能；在音频理解基准MMAU的标准测试集上，MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash；在面向音频复杂推理的基准Big Bench Audio S2T任务中，MiMo-Audio超越了OpenAI闭源语音模型GPT-4o-Audio-Preview。

从创新贡献上来看，Xiaomi-MiMo-Audio首次证明把语音无损压缩预训练Scaling至1亿小时可以“涌现”出跨任务的泛化性，表现为Few-Shot Learning能力；首个明确语音生成式预训练的目标和定义，并开源了一套完整的语音预训练方案，包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系；首个把Thinking同时引入语音理解和语音生成过程中的开源模型，支持混合思考。

图源：Xiaomi MiMo公众号

此次开源，进一步推动MiMo与早前开源的Vela物联网系统、米家智能家居协议深度绑定。对开发者来说，基于MiMo开发的语音助手，未来可直接接入小米智能家居设备，或借助车载推理引擎无缝对接小米汽车OS系统。

自2016年组建AI团队以来，小米人工智能团队经过7年6次扩展，相关领域人员规模已达3000多人，其AI技术能力已覆盖视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态方向，并逐步接入手机、汽车、AIoT、机器人等业务板块。2023年4月，小米AI实验室大模型团队正式组建，栾剑担任大模型团队负责人。

声明

1、该内容为作者独立观点，不代表电商派观点或立场，文章为作者本人上传，版权归原作者所有，未经允许不得转载。
2、电商号平台仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。
3、如对本稿件有异议或投诉，请联系：info@dsb.cn