突发，华为首个开源大模型来了

今时不同往日，华为一改当年“绝不开源”的态度。

一、华为态度两极反转，从“绝不开源”到主动开放

短短两年，华为对盘古大模型的态度，来了个180 度大转弯。

还记得2023年，华为云开发者大会上，华为常务董事、华为云CEO张平安正式发布盘古3.0大模型时，明确表示盘古大模型不会开源。

图源：抖音

做出这一决定，在当时对华为来说并不是任性而为。

彼时，国际科技竞争激烈，“卡脖子”风险高悬头顶。

而华为盘古大模型走的是全栈自研路线，从底层芯片到模型算法，每一步都是华为自己研发出来的，没有采用任何开源技术。

并且，据张平安介绍，盘古大模型定位是行业赋能，深度应用在矿山、电力等众多领域，涉及大量客户机密数据，开源可能会带来数据泄露的安全隐患。

直到今天，2025年6月30日，华为画风突变，正式宣布开源盘古70亿参数的稠密模型以及盘古Pro MoE 720亿参数的混合专家模型，还一并开源了基于昇腾的模型推理技术。

图源：微信

今时不同往日，华为的这一决策背后，是外部环境变化、技术成熟度的提升以及对生态建设的深远考量。

此次开源的盘古70亿参数的稠密模型，具有参数量适中、性能均衡、部署门槛较低的特点。它在智能客服、知识库等多种场景中均可应用，能够为不同行业的企业提供高效、灵活的解决方案。

模型的开源，意味着更多的开发者和企业可以基于它进行二次开发和创新，从而推动人工智能在更多领域的应用落地。

而盘古Pro MoE 720亿参数的混合专家模型，更是“王炸”级别的存在。

它独创MoGE（分组混合专家）架构，通过动态激活专家网络，仅需160亿激活参数，就能媲美千亿级模型的性能。

比如在SuperCLUE 2025年5月的开源模型排行榜上，盘古Pro MoE 72B名列前茅，与阿里的Qwen3-32B(Thinking)一齐成为千亿以下超强性能的国产开源大模型。

图源：SuperCLUE官网

再说说基于昇腾平台的模型推理技术。

据华为方面介绍：“我们以前很少对外发声，盘古也没有开源，所以大家对昇腾算力具体的情况不是特别了解，对模型的情况也不了解，外界就充满了猜疑。甚至认为昇腾训练不出来先进的大模型。”

“昇腾算力能够训练出世界一流的大模型，训练高效率，推理高性能，系统高可用。第三方模型迁移到昇腾上可以做到：Day0迁移，一键部署。”

值得注意的是，华为此前曾强调盘古大模型与ChatGPT不在同一轨道。

ChatGPT 走的是 Transformer 架构的“暴力美学”路线，更偏向消费级对话场景；而盘古采用Encoder - Decoder架构，在多模态融合和物理推理上优势明显，聚焦工业、气象等垂直领域。

就拿气象预测来说，盘古的气象模型预测速度比传统方法快1万倍，还被欧洲中期天气预报中心采用，这是两者的本质区别。

二、华为开源背后的战术考量

其实，今年以来，中国AI 行业掀起了一股开源热潮，多家企业都改变了闭源的思路，其中就包括大家耳熟能详的OpenAI，还有百度。

要说是什么让这些大佬纷纷转变态度，DeepSeek的横空出世居功至伟。

秉持着开源理念的DeepSeek用更小的训练成本却带来了性能媲美国内外顶尖模型的DeepSeek-R1，并将推理模型向全球数十亿用户普及，给了以往坚持“闭源才是王道”的企业足够的心灵冲击。

图源：抖音

在这样的背景下，华为此次宣布开源盘古大模型，可以说是顺应潮流，但其背后也有自己的考量。

华为官方表示，开源盘古大模型是践行昇腾生态战略的关键举措，旨在推动大模型技术的研究与创新发展，加速人工智能在千行百业的应用与价值创造。

从华为的角度来看，这一决策确实能为其带来不少潜在好处。

一方面，盘古模型深度依赖昇腾芯片，开源后企业若想更好的落地应用，就需要采购昇腾服务器或云服务，这能大大加速昇腾芯片的规模化渗透，抢占国产算力市场；

图源：开源开发者平台GitGo

另一方面，不同规模的开源模型能吸引不同需求的开发者，例如盘古70亿模型适合高校科研，而Pro MoE模型则更吸引企业开发者。

通过开源吸引更多ISV（独立软件开发商）加入昇腾生态，形成“模型-工具-应用”的正向循环；

再者，开源能够加速人工智能技术的普及和应用。随着盘古大模型的开源，企业和开发者又多了一种以低的成本获取强大AI技术实力的方式，从而推动人工智能在更多行业的应用和落地。

此外，开源还能够提升华为在国际AI领域的影响力和话语权。一举多得，何乐而不为？

三、中国AI百花齐放，百家争鸣

如今的中国AI 领域，可谓是百花齐放、百家争鸣，几家领先的人工智能企业都在各自赛道上发力，不断推陈出新。

阿里通义千问持续升级迭代。先是在5月9日发布通义千问2.5版本，相比之前，理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

前几天又发布了多模态统一理解与生成模型Qwen VLo，支持文本、图像、视频多模态理解与生成，在电商领域，还能自动生成商品详情页和营销文案，效率提升300%，妥妥的“全能王”。

图源：微博

字节跳动豆包也是动作频频。6月11日，火山引擎发布豆包大模型1.6、豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型，并升级Agent开发平台等AI云原生服务。

而同样在今天，豆包公众号宣布“深入研究”功能在App、网页端、电脑版开启测试，不断拓展应用场景，力争成为场景化的“爆款制造机”。

图源：豆包

百度文心一言同样在今天放出大招，正式开源文心大模型4.5系列10款模型，涵盖47B、3B激活参数的混合专家（MoE）模型，与0.3B参数的稠密模型等，并实现了预训练权重和推理代码的完全开源。

文心大模型4.5系列在多文本和多模态基准测试中达到了SOTA水平（当前最高水平），尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现出色。

图源：微博

当然，华为的盘古大模型的最新成果也并没有停留在上述提到的盘古Pro MoE 72B。

6月20日，盘古大模型迎来了5.5版本的发布，该版本的自然语言处理（NLP）能力比肩国际一流模型，并在多模态世界模型方面做到全国首创。

盘古大模型5.5包含了五大基础模型，分别面向NLP、多模态、预测、科学计算、CV领域，进一步推动了大模型成为行业数智化转型的核心动力。

盘古Ultra MoE、盘古Pro MoE、盘古Embedding等一系列模型的推出，不仅展示了华为在AI领域的深厚技术积累，也为行业提供了更多高效、实用的解决方案。

更为关键的是，盘古Ultra MoE是718B（7180亿）参数的MoE深度思考模型。也就是说，华为甚至还小藏了一手，估计后续会有更重磅的开源。

所以DeepSeek呢？上面提到这么多优秀企业的发展进度，DeepSeek怎么样了？

随着2025年已经过去了一半，AI行业的蓬勃发展让人们对DeepSeek R2的期待愈发强烈。DeepSeek的上一次更新，还停留在上个月。

5月底，DeepSeek R1迎来重磅更新，这次更新增强了模型的思维深度和推理能力，提升了响应速度和对话稳定性，减少了“遗忘设定”或“跑题”的情况。详情可以关注我们的《》这篇文章。

而据多方消息透露，DeepSeek-R2的训练成本有望降至0.07美元/百万token，推理速度还能比R1快上2倍，并支持代码、数学、法律等专业领域深度推理。

一旦发布，必将再次震撼整个行业。