小米自研声音识别算法性能国际排名第一

云合
2023-09-13 11:38

9月13日消息,小米自研声音识别算法近日取得了最新进展,算法模型领先其他机构,性能国际排名第一。

小米是在Google发布的AudioSet音频标记任务中获得的这一突破。它是音频标记任务影响力最大的数据集,被认为是声音领域的ImageNet (注:计算机视觉领域最著名的数据集,由著名学者李飞飞等主持发布),有较高的权威性。

format-jpg

图源:小米公司公众号

Google将AudioSet数据集分为三个子集,前两个子集用于训练,被合并称为 “AudioSet-2M”。正是在这个合并后的训练集中,小米的声音识别算法模型首次在业界突破了50mAP,刷新了音频标记技术指标,成为截至目前性能最好的模型。此外,小米还发布了一个Mini版模型,适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一,远小于其他机构的模型,但性能却优于其他所有机构。

这项技术的突破意味着小米的声音识别算法能力再次精进,小米的众多智能硬件设备应用此项技术后,可以更敏锐地捕捉和识别环境声音,大幅提升硬件的智能化程度,从而为用户创造更加便捷的智能生活体验。

format-jpg

图源:小米公司公众号

这项算法技术还广泛应用于小米机器人的研发中,大幅提升了机器人的感知能力。小米历时10个月全栈自研的第一代全尺寸人形机器人CyberOne,可以识别85种环境声音,能够通过听觉感知6类、45种人类情绪。而小米第二代仿生四足机器人CyberDog 2则可以识别38种环境声音,实现更强大的动态响应能力。

目前,小米的声学语音团队已将自研声学语音技术全面应用于小米手机、音箱、电视、耳机、手表、机器人等79个品类,共计5000多款智能产品中。而小爱同学的月活跃用户数量则达到了1.15亿,是世界上最忙的语音助手之一。

据悉,小米自2016年组建AI团队以来,人工智能团队经过7年6次扩展,人员规模已达3000多人。同时,小米AI的技术能力目前已经覆盖了视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态等众多方向,并全面赋能了手机、汽车、AIoT、机器人等多个业务板块。今年4月,小米还正式组建了AI大模型团队,全面拥抱大模型,目前陆续有了一些应用尝试。其中第一个应用大模型,就是将智能语音助理小爱同学升级了大模型版本,并开启邀请测试。

format-jpg

图源:小米公司公众号

值得一提的是,9月11日,小米正式成立集团科协暨院士专家工作站。

中国工程院院士丁文华成为小米院士专家工作站的首位进站院士。他指出,在以手机镜头为代表的成像技术领域,小米实现了光学镜头小型化的重大突破,是行业的佼佼者。小米已经牵头成立了智能图像处理北京市工程研究中心,他希望未来能够努力升级为国家工程研究中心。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
未来增长靠出海。
9月23日,可灵AI基座模型再升级,视频生成推出可灵2.5 Turbo 模型,效果进一步提升。动态效果进一步增强,能生成动态幅度更大的动作和运镜,在提升运动呈现幅度和强度的同时,更流畅,更稳定。风格保持、美学效果等进一步提升,在色彩影调、光影分布、笔触质感和整体氛围以及风格统一性上显著提升。同时,可灵2.5 Turbo 模型高品质模式下生成5秒长度的视频仅需25灵感值,相比2.1模型同档位便宜近30%。
受影响城市9月23日-24日入住的酒店订单,飞猪将为消费者提供免费退改保障。
9月23日消息,双节假期出行需求高,为鼓励司机出车提供好服务,让师傅们优劳优得,共度佳节,滴滴将发放超4亿元司机补贴,推出“单超多,0佣金”奖励活动,为师傅们免费派发60万份月饼礼盒。
中国美妆品牌的出海征程正进行得如火如荼。
每一个政策的微调都可能引发市场的波澜,成为卖家们发展路上的关键转折点。
进一步明确直播电商平台、直播间运营者、直播营销人员及其服务机构等主体的法律责任。
“民以食为天”,厨具品类作为跨境市场的常青树,始终由庞大的刚性需求所支撑。