阿里开源全模态大模型Qwen3-Omni,可像人类一样听说写

电商派
2025-09-24 14:18

9月24日,2025年云栖大会开幕,阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。通过引入多种架构升级和技术迭代,Qwen3-Omni系列的模型表现和效率大幅提升。在36个音视频基准测试中,22项达到SOTA水平,其中32项取得开源模型最佳效果。语音识别、音频理解与语音对话能力可比肩Gemini 2.5-Pro。

作为全模态模型,Qwen3-Omni能够实现全模态输入和全模态输出。类似于人类婴儿一出生就全方位感知世界,Qwen3-Omni一开始就加入了“听”、“说”、“写”多模态混合训练。在预训练过程中,Qwen3-Omni采用了混合单模态和跨模态数据。此前,模型在混合训练后,各个功能会相互掣肘甚至降智,比如音频理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在实现强劲音频与音视频能力的同时,单模态文本与图像性能均保持稳定,这是业内首次实现这一训练效果。

Qwen3-Omni的优异表现源于多种架构升级。Qwen2.5-Omni采用了双核架构Thinker-Talker,让大模型拥有了人类的“大脑”和“发声器”。Qwen3-Omni的Thinker-Talker架构进一步加强,结合AuT预训练构建强通用表征,配合多码本设计,响应延迟压缩至最低。相较于半年前推出的Qwen2.5-Omni,Qwen3-Omni的交互速度更快,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms;支持的语言更多,包括19种语言音频输入、10种语言输出。

作为一款“会说话”的模型,Qwen3-Omni应用场景广泛,未来可部署于车载、智能眼镜和手机等。用户还可设定个性化角色、调整对话风格,打造专属的个人IP。相较于传统的录音转文字软件,Qwen3-Omni能够处理长达 30 分钟的音频文件,无需切割音频,即可精准识别语音、深度理解内容。

目前,Qwen3-Omni系列已开源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner,值得关注的是,擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型,可以清晰描述用户输入音频的特征,填补了开源社区空白。

Qwen3-Omni现已在Hugging Face和ModelScope上开放,用户可访问Qwen Chat免费体验Qwen3-Omni-Flash。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

【图说】:Qwen3-Omni测评分数

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
9月25日消息,交银国际发布研报称,按SOTP上调阿里巴巴-W目标价,由159港元升至195港元,维持“买入”评级。报告指,阿里大会9月24日召开,发布多款模型,包括Qwen3-Max、视觉语言模型Qwen3-VL、全模态模型Qwen3-Omni,并展示AI技术突破与生态布局。阿里积极推进此前3800亿元人民币AI基础设施建设,并计划追加投资,预计到2032年,阿里全球数据中心能耗提升10倍。该行认为,阿里在芯片算力、应用及服务全栈式布局已经形成,将推动国内AI应用加速落地。
7月24日消息,阿里公布AI编程大模型Qwen3-Coder定价,每百万Tokens最低输入和输出价格分别为4元和16元。此外,2025年7月23日至8月23日期间,上下文长度128K-256K、128K-1M版本可享五折优惠。
5月8日消息,智能财税龙头企业百望股份与阿里近日在北京签署全面战略合作协议,双方将继续深化计算与数据智能融合,以大模型为创新场景研发方向,联合成立“数据智能联合实验室”。同时,首个深度融合通义千问Qwen3(简称千问3)大模型的财税行业垂类MCP服务已上线阿里百炼MCP广场。
9月24日消息,在2025栖大会上,阿里智能集团首席技术官周靖人分享中透露,截至目前,通义千问已累计开放300+开源模型,覆盖全尺寸、全模态模型,开源模型下载量已经突破6亿+。大会上,阿里还新发布了Qwen3-VL等多款模型。据周靖人透露,通义万象目前已经生成了超过3.9亿张图片,7000万多个视频。
2月1日消息,阿里近日发布百炼qwen-max系列模型价格调整通知,qwen-max、qwen-max-2025-01-25、qwen-max-latest三款模型输入输出价格调整,qwen-max batch和cache同步降价。
11月21日消息,Qwen2.5-Turbo上线阿里百炼平台,模型上下文长度扩展至百万tokens。据介绍,Qwen2.5-Turbo是通义千问团队回应社区对处理更长序列的需求推出的全新版本模型。该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字。
9月19日消息,今日栖大会,阿里CTO周靖人发布通义千问新一代开源模型Qwen2.5,其中,旗舰模型Qwen2.5-72B性能超越Llama 405B,再登全球开源大模型王座。Qwen2.5涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架100多个模型,刷新业界纪录。截至2024年9月中旬,通义千问开源模型累计下载量已突破4000万,成为仅次于Llama的世界级模型群。
1月26日消息,阿里公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩。
9月25日消息,阿里智能首席技术官周靖人在通义千问开源发布会上宣布,将全新开源性能更强的大模型Qwen-14B,该模型基于140亿参数,3万亿token训练的开源大模型提供更强大的推理、认知、规划和记忆能力。此外,相比之前的开源版本,新的QWEN-7B模型能力普遍提升,核心指标最高提升22.5%。