小米自研声音识别算法性能国际排名第一

9月13日消息，小米自研声音识别算法近日取得了最新进展，算法模型领先其他机构，性能国际排名第一。

小米是在Google发布的AudioSet音频标记任务中获得的这一突破。它是音频标记任务影响力最大的数据集，被认为是声音领域的ImageNet （注：计算机视觉领域最著名的数据集，由著名学者李飞飞等主持发布），有较高的权威性。

format-jpg

图源：小米公司公众号

Google将AudioSet数据集分为三个子集，前两个子集用于训练，被合并称为 “AudioSet-2M”。正是在这个合并后的训练集中，小米的声音识别算法模型首次在业界突破了50mAP，刷新了音频标记技术指标，成为截至目前性能最好的模型。此外，小米还发布了一个Mini版模型，适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一，远小于其他机构的模型，但性能却优于其他所有机构。

这项技术的突破意味着小米的声音识别算法能力再次精进，小米的众多智能硬件设备应用此项技术后，可以更敏锐地捕捉和识别环境声音，大幅提升硬件的智能化程度，从而为用户创造更加便捷的智能生活体验。

format-jpg

图源：小米公司公众号

这项算法技术还广泛应用于小米机器人的研发中，大幅提升了机器人的感知能力。小米历时10个月全栈自研的第一代全尺寸人形机器人CyberOne，可以识别85种环境声音，能够通过听觉感知6类、45种人类情绪。而小米第二代仿生四足机器人CyberDog 2则可以识别38种环境声音，实现更强大的动态响应能力。

目前，小米的声学语音团队已将自研声学语音技术全面应用于小米手机、音箱、电视、耳机、手表、机器人等79个品类，共计5000多款智能产品中。而小爱同学的月活跃用户数量则达到了1.15亿，是世界上最忙的语音助手之一。

据悉，小米自2016年组建AI团队以来，人工智能团队经过7年6次扩展，人员规模已达3000多人。同时，小米AI的技术能力目前已经覆盖了视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态等众多方向，并全面赋能了手机、汽车、AIoT、机器人等多个业务板块。今年4月，小米还正式组建了AI大模型团队，全面拥抱大模型，目前陆续有了一些应用尝试。其中第一个应用大模型，就是将智能语音助理小爱同学升级了大模型版本，并开启邀请测试。

format-jpg

图源：小米公司公众号

值得一提的是，9月11日，小米正式成立集团科协暨院士专家工作站。

中国工程院院士丁文华成为小米院士专家工作站的首位进站院士。他指出，在以手机镜头为代表的成像技术领域，小米实现了光学镜头小型化的重大突破，是行业的佼佼者。小米已经牵头成立了智能图像处理北京市工程研究中心，他希望未来能够努力升级为国家工程研究中心。