蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0

2026-02-11 11:38:57

2月11日消息，蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0，是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐。用户用自然语言下指令，可对音色、语速、语调、音量、情绪与方言等进行控制。模型在推理阶段实现了3.1Hz的极低推理帧率，实现了分钟级长音频的实时高保真生成。

[查看原文]

更加详细情况，请关注本站最新动态。

7X24h快讯

京东与全球十余家优质厨具品牌达成战略合作
1小时前
货拉拉2026新春拉货节：日均完单量增长41%
1小时前
抖音生活服务“春节不打烊”服务保障专项正式启动
1小时前
Lyft 2025年全年总预订额达185亿美元
1小时前
2025年抖音平台非遗相关短视频播放量达8065亿
1小时前
中信建投：字节Seedance2.0视频模型发布，持续看好AI漫剧
1小时前
蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0
1小时前
同程旅行“首乘无忧”服务合作机场数量已超过40个
1小时前
蚂蚁集团：2025年超千万入境游客用“支付宝”游中国
1小时前
极智嘉发布全球首款人形通用仓储机器人
1小时前