梁文锋创造历史,DeepSeek登上《自然》封面,训练成本不到GPT的1%
AI界拼多多果然名不虚传。
成本难题,被梁文锋破解
许久未公开露面的梁文锋,终于再次“现身”。尽管大众期盼已久的DeepSeek-R2依旧没有声响,但梁文锋带来了DeepSeek-R1的好消息。
9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。

来源:凤凰网
这次登顶《自然》封面,意味着DeepSeek-R1是全球首个经过同行评审的主流大语言模型。“这一空白终于被DeepSeek打破。”Nature这样评价道。
相较于今年1月份的初版论文,这篇论文披露了更多模型训练的细节,并正面回应了模型发布之初的蒸馏质疑。
除此之外,R1论文还首次披露了大众最关心的训练成本问题。Nature版本的DeepSeek-R1的训练成本——仅约29.4万美元(折合人民币约 208 万)。

来源:微信
不到三十万美元的训练成本,实在让大众震惊。
要知道,和DeepSeek-R1同一量级的GPT-4的训练成本在一亿美元以上。按照1亿美元计算的话,DeepSeek-R1的训练成本还不足GPT-4的1%。
这得益于DeepSeek团队对于训练方法的改进。
据论文介绍,在DeepSeek-R1的训练过程中,团队通过强化学习的方式,让模型自我演化,逐渐发展出推理能力。
这种学习方式,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。 这就像“有奖竞答”,只要答案正确,模型就会获得奖励。
而为了得到奖励,模型会在解答的过程中不断调整路径,以求得最准确地获得正确答案的方式。
在这个过程中,模型的学习框架得以加强,并且掌握了改进的推理策略,倾向于生成更长的回答,每个回答中都包含了验证、反思和探索备选方案。
思维模式的训练,让模型能用更少的计算步骤(FLOPs)学会更多知识。
在这样的训练过程中,基础的测试数据污染问题就变得至关重要。
要训练模型的推理能力、拓展思维路径,就必须保证基础测试数据的纯净度。如果其中混入了训练数据,那么模型的训练效果将会大打折扣。
就好比将“练习题”和“答案”混入了“考题”当中,那么这场考试对模型来说,就变成了找答案的游戏。
因此,为了防止基础测试数据污染,在预测试和后训练中,团队都进行了全面的去污染措施。以数学领域为例,仅在预训练数据中,DeepSeek的去污染流程就识别并删除了约六百万条潜在文本。
团队使用更高质量、更精准的训练数据,极大程度上提升了数据利用效率,避免了用海量垃圾数据“淹”出模型。
区别于GPT-4依赖超大规模算力和数据的高成本训练,这些举措在极大程度上降低了DeepSeek-R1的训练成本。
如果说GPT-4是用“重工业”的方式锻造一把绝世好剑,而 DeepSeek-R1则是用“精密数控机床”以极高的效率加工出一把性能不相上下的利刃。
据2025年斯坦福HAI报告发布的数据来看,随着模型性能的不断升级和迭代,AI开发和部署成本都呈现出显著下降的趋势。

来源:腾讯网
而DeepSeek凭借着独特的训练方式,顺应行业趋势,在算力受限的条件下,走出了一条全新的降本增效的路径。
对整个行业而言,DeepSeek的低成本路径,是算法和工程效率对“暴力计算”的一次重大胜利。它标志着 AI 模型的发展重点正在从“拼规模”转向“拼效率”。
与此同时,这也是DeepSeek对行业洗牌的前兆。它极大地降低了顶级大模型的研发门槛。未来,更多人员、团队和机构能够有机会入局,参与到前沿模型的探索中,而不仅仅是少数几家科技巨头的游戏。
这对整个AI生态来说,是一次繁荣和创新的推动。
安全机制,AI不可忽视的问题
在AI对话模型当中,行业龙头ChatGPT和行业黑马DeepSeek一直备受大众关注。作为彼此的强劲对手,此次DeepSeek登上《自然》封面,对ChatGPT而言,无疑是一次打击。
对蒸馏模型的回应、训练成本的大幅降低、行业的认可,将DeepSeek推上“顶峰”的同时,也将ChatGPT送上了风口浪尖。
而此时的ChatGPT正处于舆论漩涡。
据了解,此前,美国一名16岁的青少年自杀之后,其父母对OpenAI进行了起诉。他们在事后发现了孩子与ChatGPT长达三个月的对话,在对话过程中,ChatGPT不但没能制止这名少年的自杀行为,反而积极提供自杀方法。这对父母认为,ChatGPT安全机制的失效,对这场事故的发生起到了助推作用,对此OpenAI应当承担产品责任。

来源:抖音
对于这对父母的控诉,OpenAI给予了回应。他们承认,现有的安全机制“在长时间互动中有时可能不太可靠:随着交流次数增多,模型接受的安全训练内容可能会失效。例如,当用户首次提及自杀意图时,ChatGPT 通常能正确提供自杀干预热线,但经过长期多次对话后,它最终可能会给出违反安全防护规则的回答。”
类似的利用AI进行自杀的事件并非个例。对此,OpenAI也表示,未来他们将推出家长控制功能。
除此之外,OpenAI还透露:“我们还在探索一项功能 —— 允许青少年在家长监督下指定可信赖的紧急联系人。这样一来,当青少年陷入严重心理危机时,ChatGPT 不仅能提供求助资源,还能帮助他们直接联系到可提供帮助的人。”
这类事件暴露了AI模型在安全防护上的缺陷,特别是在面对心理脆弱用户时的应对不足。这直接关系到AI模型的内部安全研究中关于价值观对齐、风险识别和干预机制的研究范畴。
而OpenAI的回应并没有从根本上解决问题,大众对于ChatGPT的安全机制依旧存在质疑,也引起了大众对于AI使用和安全问题的思考。
在AI对话模型当中,如何把握对话限度和情感判断,这一点于开发团队而言至关重要。
而这,不仅仅是OpenAI面临的问题,也是DeepSeek,甚至所有AI对话模型研发团队所要面对的。
在此次《自然》发表的论文当中,DeepSeek团队还增添了一份全面的安全报告。报告显示,DeepSeek-R1在服务部署中引入了外部风险控制系统。
这样一来,DeepSeek-R1在与用户进行对话的过程中,可以通过关键词捕捉,来识别不安全的对话内容。
此外,DeepSeek-R1还使用DeepSeek-V3直接进行风险审查,判断是否应拒绝响应。
根据论文的公开数据,我们发现,DeepSeek-R1在公开安全基准测试和内部安全研究当中,其基准数据超越了Claude-3.7-Sonnet、GPT-4o等前沿模型。这也就意味着,其在安全风险方面,有着较高的防控水平。

来源:微信
这是DeepSeek-R1顺应时代和行业发展的必然结果。
如今,随着科技的不断发展,AI对话模型对大众生活的参与度越来越高,相当群体甚至形成了对AI模型的依赖。这也就意味着,现实对AI模型的技术能力和管控需求也在同步增长,行业的发展也在逐步走向规范化。
而在这个大舞台,备受关注的ChatGPT和DeepSeek常常是“你方唱罢,我方登场”。双方在技术上的突破、产品上的迭代都不免被拿出来比较。未来谁能占据行业高地,我们尚未可知。
DeepSeek-R1的这次高调亮相,不仅展示了其在效率与安全上的双重实力,也彻底拉满了大众对下一代模型DeepSeek-R2的期待。AI竞赛的下半场,或许正随着这篇《自然》封面文章,悄然开启。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
