突发,华为首个开源大模型来了

李迎
2025-07-01 09:12

今时不同往日,华为一改当年“绝不开源”的态度。

一、华为态度两极反转,从“绝不开源”到主动开放

短短两年,华为对盘古大模型的态度,来了个180 度大转弯。

还记得2023年,华为云开发者大会上,华为常务董事、华为云CEO张平安正式发布盘古3.0大模型时,明确表示盘古大模型不会开源

图片

图源:抖音

做出这一决定,在当时对华为来说并不是任性而为。

彼时,国际科技竞争激烈,“卡脖子”风险高悬头顶。

而华为盘古大模型走的是全栈自研路线,从底层芯片到模型算法,每一步都是华为自己研发出来的,没有采用任何开源技术

并且,据张平安介绍,盘古大模型定位是行业赋能,深度应用在矿山、电力等众多领域,涉及大量客户机密数据,开源可能会带来数据泄露的安全隐患。

直到今天,2025年6月30日,华为画风突变,正式宣布开源盘古70亿参数的稠密模型以及盘古Pro MoE 720亿参数的混合专家模型,还一并开源了基于昇腾的模型推理技术

图片

图源:微信

今时不同往日,华为的这一决策背后,是外部环境变化技术成熟度的提升以及对生态建设的深远考量。

此次开源的盘古70亿参数的稠密模型,具有参数量适中性能均衡部署门槛较低的特点。它在智能客服、知识库等多种场景中均可应用,能够为不同行业的企业提供高效、灵活的解决方案。

模型的开源,意味着更多的开发者和企业可以基于它进行二次开发和创新,从而推动人工智能在更多领域的应用落地。

而盘古Pro MoE 720亿参数的混合专家模型,更是“王炸”级别的存在。

它独创MoGE(分组混合专家)架构,通过动态激活专家网络,仅需160亿激活参数,就能媲美千亿级模型的性能。

比如在SuperCLUE 2025年5月的开源模型排行榜上,盘古Pro MoE 72B名列前茅,与阿里的Qwen3-32B(Thinking)一齐成为千亿以下超强性能的国产开源大模型。

图片

图源:SuperCLUE官网

再说说基于昇腾平台的模型推理技术。

据华为方面介绍:“我们以前很少对外发声,盘古也没有开源,所以大家对昇腾算力具体的情况不是特别了解,对模型的情况也不了解,外界就充满了猜疑。甚至认为昇腾训练不出来先进的大模型。

“昇腾算力能够训练出世界一流的大模型,训练高效率,推理高性能,系统高可用。第三方模型迁移到昇腾上可以做到:Day0迁移,一键部署。”

值得注意的是,华为此前曾强调盘古大模型与ChatGPT不在同一轨道

ChatGPT 走的是 Transformer 架构的“暴力美学”路线,更偏向消费级对话场景;而盘古采用Encoder - Decoder架构,在多模态融合和物理推理上优势明显,聚焦工业气象等垂直领域。

就拿气象预测来说,盘古的气象模型预测速度比传统方法快1万倍,还被欧洲中期天气预报中心采用,这是两者的本质区别。

二、华为开源背后的战术考量

其实,今年以来,中国AI 行业掀起了一股开源热潮,多家企业都改变了闭源的思路,其中就包括大家耳熟能详的OpenAI,还有百度

要说是什么让这些大佬纷纷转变态度,DeepSeek的横空出世居功至伟。

秉持着开源理念的DeepSeek用更小的训练成本却带来了性能媲美国内外顶尖模型的DeepSeek-R1,并将推理模型向全球数十亿用户普及,给了以往坚持“闭源才是王道”的企业足够的心灵冲击。

图片

图源:抖音

在这样的背景下,华为此次宣布开源盘古大模型,可以说是顺应潮流,但其背后也有自己的考量。

华为官方表示,开源盘古大模型是践行昇腾生态战略的关键举措,旨在推动大模型技术的研究与创新发展,加速人工智能在千行百业的应用与价值创造。

从华为的角度来看,这一决策确实能为其带来不少潜在好处。

一方面,盘古模型深度依赖昇腾芯片,开源后企业若想更好的落地应用,就需要采购昇腾服务器或云服务,这能大大加速昇腾芯片的规模化渗透,抢占国产算力市场;

图片

图源:开源开发者平台GitGo

另一方面,不同规模的开源模型能吸引不同需求的开发者,例如盘古70亿模型适合高校科研,而Pro MoE模型则更吸引企业开发者。

通过开源吸引更多ISV(独立软件开发商)加入昇腾生态,形成“模型-工具-应用”的正向循环;

再者,开源能够加速人工智能技术的普及和应用。随着盘古大模型的开源,企业和开发者又多了一种以低的成本获取强大AI技术实力的方式,从而推动人工智能在更多行业的应用和落地。

此外,开源还能够提升华为在国际AI领域的影响力和话语权。一举多得,何乐而不为?

三、中国AI百花齐放,百家争鸣

如今的中国AI 领域,可谓是百花齐放、百家争鸣,几家领先的人工智能企业都在各自赛道上发力,不断推陈出新。

阿里通义千问持续升级迭代。先是在5月9日发布通义千问2.5版本,相比之前,理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

前几天又发布了多模态统一理解与生成模型Qwen VLo,支持文本、图像、视频多模态理解与生成,在电商领域,还能自动生成商品详情页和营销文案,效率提升300%,妥妥的“全能王”。

图片

图源:微博

字节跳动豆包也是动作频频。6月11日,火山引擎发布豆包大模型1.6、豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型,并升级Agent开发平台等AI云原生服务。

而同样在今天,豆包公众号宣布“深入研究”功能在App、网页端、电脑版开启测试,不断拓展应用场景,力争成为场景化的“爆款制造机”。

图片

图源:豆包

百度文心一言同样在今天放出大招,正式开源文心大模型4.5系列10款模型,涵盖47B、3B激活参数的混合专家(MoE)模型,与0.3B参数的稠密模型等,并实现了预训练权重推理代码的完全开源。

文心大模型4.5系列在多文本和多模态基准测试中达到了SOTA水平(当前最高水平),尤其在指令遵循世界知识记忆视觉理解和多模态推理任务上表现出色。

图片

图源:微博

当然,华为的盘古大模型的最新成果也并没有停留在上述提到的盘古Pro MoE 72B。

6月20日,盘古大模型迎来了5.5版本的发布,该版本的自然语言处理(NLP)能力比肩国际一流模型,并在多模态世界模型方面做到全国首创。

盘古大模型5.5包含了五大基础模型,分别面向NLP、多模态、预测、科学计算、CV领域,进一步推动了大模型成为行业数智化转型的核心动力。

盘古Ultra MoE、盘古Pro MoE、盘古Embedding等一系列模型的推出,不仅展示了华为在AI领域的深厚技术积累,也为行业提供了更多高效、实用的解决方案。

更为关键的是,盘古Ultra MoE是718B(7180亿)参数的MoE深度思考模型。也就是说,华为甚至还小藏了一手,估计后续会有更重磅的开源。

所以DeepSeek呢?上面提到这么多优秀企业的发展进度,DeepSeek怎么样了?

随着2025年已经过去了一半,AI行业的蓬勃发展让人们对DeepSeek R2的期待愈发强烈。DeepSeek的上一次更新,还停留在上个月。

5月底,DeepSeek R1迎来重磅更新,这次更新增强了模型的思维深度和推理能力,提升了响应速度和对话稳定性,减少了“遗忘设定”或“跑题”的情况。详情可以关注我们的《》这篇文章。

而据多方消息透露,DeepSeek-R2的训练成本有望降至0.07美元/百万token推理速度还能比R1快上2倍,并支持代码、数学、法律等专业领域深度推理。

一旦发布,必将再次震撼整个行业。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
华为盘古模型5.0发布
6月21日消息,华为盘古模型5.0发布,提供三个方面升级:提供全场景全系列模型;升级多模态能力,比如增加10K分辨率图像理解能力;强思维能力。
7月31日消息,华为云数字文娱AI创新峰会2023日前在上海举行。会上,华为云全球Marketing与销售服务总裁石冀琳表示,今年以来,华为基于模型的AIGC技术在影视、游戏、音频、动漫等多个领域落地应用,给数字文娱产业带来了可预见的巨大价值。在AI算力层面,华为云以昇腾AI云服务的方式提供给行业客户,单集群2000P Flops澎湃算力。石冀琳表示,华为云能够为客户提供全栈AI服务,盘古模型3.0包括三层架构,完全契合行业应用模型需求。
华为今日发布模型时代AI存储新品。
9月11日消息,在华为云与润达医疗联合主办的“至则通达·模型赋能医疗健康行业创新大会”上,搭载华为模型的医疗模型全场景应用--“CDx良医小慧”重磅发布。这款具备完全国产自主知识产权的模型原生解决方案,基于华为云盘古模型打造,由润达医疗团队训练,搭载昇腾算力,可覆盖AI医疗全生态。它的推出不仅标志着医疗行业在数据处理能力迈上了全新阶段,更为医疗资源均衡化和精准医疗发展开辟了创新路径。
4月10日消息,余承东发布微博宣布,华为全新的笔记本电脑旗舰产品华为MateBook X Pro将于4月11日下午两点半发布,这款产品将首次支持华为盘古模型,AI体验更进一步。
2月22日消息,据华为官微消息, 2月26日华为产品与解决方案发布会,即将首发华为通信模型
3月22日消息,在“华为云&华为终端云 创新峰会2024”上,华为云计算技术有限公司与乐聚 机器人技术有限公司签署战略合作协议,旨在共同探索“华为盘古模型+夸父人形机器人”应用场景,打造通用具身智能解决方案,建设“人形机器人+”开放生态平台。
7月7日消息,华为云开发者大会2023上,华为常务董事、华为云CEO张平安表示,华为盘古模型“不做诗,只做事”,聚焦价值场景,深耕政务、金融、制造、煤矿等行业。张平安介绍,华为盘古模型和山东能源集团云顶科技深度合作,已经开发了7个系统和21个场景化应用,并在全国8个矿井复制在使用,覆盖1000+个细分场景。
盘古模型5.0,在全系列、多模态、强思维三个方面做了全新升级。