小米推出MiMo-V2系列三款大模型
3月19日消息,小米官宣推出MiMo-V2家族三款新模型:Pro、Omni和TTS。这些模型现已登陆Xiaomi miclaw、MiMo Studio、金山办公、小米浏览器,通过OpenClaw、OpenCode、KiloCode、Blackbox、Cline接入,可限时免费体验一周。
Xiaomi MiMo-V2-Pro专为现实世界中高强度的Agent工作场景而打造。其拥有超过1T的总参数量(42B激活参数),采用创新的混合注意力架构,并支持1M超长上下文长度。小米还在更为广泛的Agent场景中持续Scaling算力,进一步拓展了智能的动作空间,实现了从Coding到Claw的重要泛化。在Artificial Analysis排行榜上,MiMo-V2-Pro位列全球第八,国内第二。

图源:小米
此前,一款代号为“Hunter Alpha”的神秘模型悄然上线全球最大API聚合平台OpenRouter,短短七天内累计调用量突破1万亿Token,连续多日登顶榜单,一度被误认为是“DeepSeek V4”的早期版本。
随着小米发布新一代基础大模型体系,谜底也正式揭晓,“Hunter Alpha”就是MiMo-V2-Pro的内部测试版本。这款模型不仅是小米在大模型领域的“新作业”,也被视为其全面押注Agent时代的重要信号。OpenRouter数据显示,其调用量快速增长,且主要集中在代码生成与开发工具领域,反映出其在真实工程场景中的高可用性与稳定性。
在实际测试中,MiMo-V2-Pro展现出明显区别于传统对话模型的“执行能力”。它不仅能够理解复杂指令,还可以在一次提示中完成从设计到实现的完整任务闭环。MiMo-V2-Pro解决了Agent的“大脑”逻辑问题,同步亮相的MiMo-V2-Omni与MiMo-V2-TTS则补齐了感知与表达的最后两块拼图。
作为全模态基座模型,MiMo-V2-Omni的核心价值在于实现了音频、图像、视频的对齐。在实际应用中,这意味着Agent能够像人一样,通过视听信息感知世界并直接生成执行指令。而MiMo-V2-TTS小米自主研发的语音合成大模型,摒弃了传统合成语音的机械感,基于小米自研的Audio Tokenizer和多码本联合建模架构,实现了对语音风格和情绪的精准调节。
这两款模型的发布,标志着小米的大模型战略已从单一的文本交互,转向构建一套完整的、可闭环的多模态Agent基础设施。


图源:小米
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn