阿里开源全模态大模型Qwen3-Omni,可像人类一样听说写

电商派
2025-09-24 14:18

9月24日,2025年云栖大会开幕,阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。通过引入多种架构升级和技术迭代,Qwen3-Omni系列的模型表现和效率大幅提升。在36个音视频基准测试中,22项达到SOTA水平,其中32项取得开源模型最佳效果。语音识别、音频理解与语音对话能力可比肩Gemini 2.5-Pro。

作为全模态模型,Qwen3-Omni能够实现全模态输入和全模态输出。类似于人类婴儿一出生就全方位感知世界,Qwen3-Omni一开始就加入了“听”、“说”、“写”多模态混合训练。在预训练过程中,Qwen3-Omni采用了混合单模态和跨模态数据。此前,模型在混合训练后,各个功能会相互掣肘甚至降智,比如音频理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在实现强劲音频与音视频能力的同时,单模态文本与图像性能均保持稳定,这是业内首次实现这一训练效果。

Qwen3-Omni的优异表现源于多种架构升级。Qwen2.5-Omni采用了双核架构Thinker-Talker,让大模型拥有了人类的“大脑”和“发声器”。Qwen3-Omni的Thinker-Talker架构进一步加强,结合AuT预训练构建强通用表征,配合多码本设计,响应延迟压缩至最低。相较于半年前推出的Qwen2.5-Omni,Qwen3-Omni的交互速度更快,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms;支持的语言更多,包括19种语言音频输入、10种语言输出。

作为一款“会说话”的模型,Qwen3-Omni应用场景广泛,未来可部署于车载、智能眼镜和手机等。用户还可设定个性化角色、调整对话风格,打造专属的个人IP。相较于传统的录音转文字软件,Qwen3-Omni能够处理长达 30 分钟的音频文件,无需切割音频,即可精准识别语音、深度理解内容。

目前,Qwen3-Omni系列已开源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner,值得关注的是,擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型,可以清晰描述用户输入音频的特征,填补了开源社区空白。

Qwen3-Omni现已在Hugging Face和ModelScope上开放,用户可访问Qwen Chat免费体验Qwen3-Omni-Flash。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

【图说】:Qwen3-Omni测评分数

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
9月25日消息,交银国际发布研报称,按SOTP上调阿里巴巴-W目标价,由159港元升至195港元,维持“买入”评级。报告指,阿里大会9月24日召开,发布多款模型,包括Qwen3-Max、视觉语言模型Qwen3-VL、全模态模型Qwen3-Omni,并展示AI技术突破与生态布局。阿里积极推进此前3800亿元人民币AI基础设施建设,并计划追加投资,预计到2032年,阿里全球数据中心能耗提升10倍。该行认为,阿里在芯片算力、应用及服务全栈式布局已经形成,将推动国内AI应用加速落地。
2月25日消息,阿里百炼推出包含Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5四大开源模型API服务的Coding Plan。目前,全球厂商中仅阿里提供这一服务。
7月24日消息,阿里公布AI编程大模型Qwen3-Coder定价,每百万Tokens最低输入和输出价格分别为4元和16元。此外,2025年7月23日至8月23日期间,上下文长度128K-256K、128K-1M版本可享五折优惠。
5月8日消息,智能财税龙头企业百望股份与阿里近日在北京签署全面战略合作协议,双方将继续深化计算与数据智能融合,以大模型为创新场景研发方向,联合成立“数据智能联合实验室”。同时,首个深度融合通义千问Qwen3(简称千问3)大模型的财税行业垂类MCP服务已上线阿里百炼MCP广场。
2月25日消息,阿里宣布Qwen3.5开源家族扩容。继旗舰模型Qwen3.5-397B-A17B首次开源后,现进一步开源Qwen3.5-122B-A10B、Qwen3.5-35B-A3B、Qwen3.5-27B(Dense)。同时,Qwen3.5-Flash API已正式上线阿里百炼。
11月13日消息,阿里大模型服务平台百炼发布通知,由于产品策略调整,阿里百炼语音识别模型sensevoice-v1将于2026年3月9日下线。同时,建议用户升级选择fun-asr、fun-asr-mtl、qwen3-asr-flash等多款新模型作为替换方案。
9月24日消息,在2025栖大会上,阿里智能集团首席技术官周靖人分享中透露,截至目前,通义千问已累计开放300+开源模型,覆盖全尺寸、全模态模型,开源模型下载量已经突破6亿+。大会上,阿里还新发布了Qwen3-VL等多款模型。据周靖人透露,通义万象目前已经生成了超过3.9亿张图片,7000万多个视频。
10月22日消息,阿里通义千问宣布Qwen3-VL家族再扩列,新增2B与32B两个密集(Dense)模型尺寸。截至目前,Qwen3-VL共开源2B、4B、8B、32B四款Dense模型以及30B-A3B、235B-A22B两款MoE模型,每款模型均推出Instruct和Thinking两大版本,以及12个模型相应的FP8量化版,累计24个Qwen3-VL开源权重模型均可在魔搭社区和Hugging Face免费下载商用。
10月4日消息,阿里通义千问宣布开源Qwen3-VL-30B-A3B-Instruct与Thinking,还同步推出FP8版本,以及超大规模模型Qwen3-VL-235B-A22B的FP8版本。
2月25日消息,继除夕开源Qwen3.5-397B-A17B之后,阿里继续开源千问3.5系列模型。本次开源三款中等规模的新模型,包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B。此次开源的三款千问3.5模型均创下中等尺寸模型的性能新高,超越了更大尺寸的上代旗舰模型Qwen3-235B-A22B和Qwen3-VL,多榜单表现均明显优于GPT-5 mini。目前,基于Qwen3.5-35B-A3B的托管模型Qwen3.5-Flash已上线阿里百炼,每百万Token输入低至0.2元。