阿里开源全模态大模型Qwen3-Omni，可像人类一样听说写

电商派

2025-09-24 14:18

9月24日，2025年云栖大会开幕，阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。通过引入多种架构升级和技术迭代，Qwen3-Omni系列的模型表现和效率大幅提升。在36个音视频基准测试中，22项达到SOTA水平，其中32项取得开源模型最佳效果。语音识别、音频理解与语音对话能力可比肩Gemini 2.5-Pro。

作为全模态模型，Qwen3-Omni能够实现全模态输入和全模态输出。类似于人类婴儿一出生就全方位感知世界，Qwen3-Omni一开始就加入了“听”、“说”、“写”多模态混合训练。在预训练过程中，Qwen3-Omni采用了混合单模态和跨模态数据。此前，模型在混合训练后，各个功能会相互掣肘甚至降智，比如音频理解能力提升，文字理解能力反而降低了。但Qwen3-Omni在实现强劲音频与音视频能力的同时，单模态文本与图像性能均保持稳定，这是业内首次实现这一训练效果。

Qwen3-Omni的优异表现源于多种架构升级。Qwen2.5-Omni采用了双核架构Thinker-Talker，让大模型拥有了人类的“大脑”和“发声器”。Qwen3-Omni的Thinker-Talker架构进一步加强，结合AuT预训练构建强通用表征，配合多码本设计，响应延迟压缩至最低。相较于半年前推出的Qwen2.5-Omni，Qwen3-Omni的交互速度更快，纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms；支持的语言更多，包括19种语言音频输入、10种语言输出。

作为一款“会说话”的模型，Qwen3-Omni应用场景广泛，未来可部署于车载、智能眼镜和手机等。用户还可设定个性化角色、调整对话风格，打造专属的个人IP。相较于传统的录音转文字软件，Qwen3-Omni能够处理长达 30 分钟的音频文件，无需切割音频，即可精准识别语音、深度理解内容。

目前，Qwen3-Omni系列已开源三款模型：Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner，值得关注的是，擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型，可以清晰描述用户输入音频的特征，填补了开源社区空白。

Qwen3-Omni现已在Hugging Face和ModelScope上开放，用户可访问Qwen Chat免费体验Qwen3-Omni-Flash。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

【图说】：Qwen3-Omni测评分数

声明

1、该内容为作者独立观点，不代表电商派观点或立场，文章为作者本人上传，版权归原作者所有，未经允许不得转载。
2、电商号平台仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。
3、如对本稿件有异议或投诉，请联系：info@dsb.cn