梁文锋创造历史，DeepSeek登上《自然》封面，训练成本不到GPT的1%

AI界拼多多果然名不虚传。

成本难题，被梁文锋破解

许久未公开露面的梁文锋，终于再次“现身”。尽管大众期盼已久的DeepSeek-R2依旧没有声响，但梁文锋带来了DeepSeek-R1的好消息。

9月17日，由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了国际权威期刊《自然（Nature）》的封面。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

来源：凤凰网

这次登顶《自然》封面，意味着DeepSeek-R1是全球首个经过同行评审的主流大语言模型。“这一空白终于被DeepSeek打破。”Nature这样评价道。

相较于今年1月份的初版论文，这篇论文披露了更多模型训练的细节，并正面回应了模型发布之初的蒸馏质疑。

除此之外，R1论文还首次披露了大众最关心的训练成本问题。Nature版本的DeepSeek-R1的训练成本——仅约29.4万美元（折合人民币约 208 万）。

来源：微信

不到三十万美元的训练成本，实在让大众震惊。

要知道，和DeepSeek-R1同一量级的GPT-4的训练成本在一亿美元以上。按照1亿美元计算的话，DeepSeek-R1的训练成本还不足GPT-4的1%。

这得益于DeepSeek团队对于训练方法的改进。

据论文介绍，在DeepSeek-R1的训练过程中，团队通过强化学习的方式，让模型自我演化，逐渐发展出推理能力。

这种学习方式，模型正确解答数学问题时会获得高分奖励，答错则会受到惩罚。这就像“有奖竞答”，只要答案正确，模型就会获得奖励。

而为了得到奖励，模型会在解答的过程中不断调整路径，以求得最准确地获得正确答案的方式。

在这个过程中，模型的学习框架得以加强，并且掌握了改进的推理策略，倾向于生成更长的回答，每个回答中都包含了验证、反思和探索备选方案。

思维模式的训练，让模型能用更少的计算步骤（FLOPs）学会更多知识。

在这样的训练过程中，基础的测试数据污染问题就变得至关重要。

要训练模型的推理能力、拓展思维路径，就必须保证基础测试数据的纯净度。如果其中混入了训练数据，那么模型的训练效果将会大打折扣。

就好比将“练习题”和“答案”混入了“考题”当中，那么这场考试对模型来说，就变成了找答案的游戏。

因此，为了防止基础测试数据污染，在预测试和后训练中，团队都进行了全面的去污染措施。以数学领域为例，仅在预训练数据中，DeepSeek的去污染流程就识别并删除了约六百万条潜在文本。

团队使用更高质量、更精准的训练数据，极大程度上提升了数据利用效率，避免了用海量垃圾数据“淹”出模型。

区别于GPT-4依赖超大规模算力和数据的高成本训练，这些举措在极大程度上降低了DeepSeek-R1的训练成本。

如果说GPT-4是用“重工业”的方式锻造一把绝世好剑，而 DeepSeek-R1则是用“精密数控机床”以极高的效率加工出一把性能不相上下的利刃。

据2025年斯坦福HAI报告发布的数据来看，随着模型性能的不断升级和迭代，AI开发和部署成本都呈现出显著下降的趋势。

来源：腾讯网

而DeepSeek凭借着独特的训练方式，顺应行业趋势，在算力受限的条件下，走出了一条全新的降本增效的路径。

对整个行业而言，DeepSeek的低成本路径，是算法和工程效率对“暴力计算”的一次重大胜利。它标志着 AI 模型的发展重点正在从“拼规模”转向“拼效率”。

与此同时，这也是DeepSeek对行业洗牌的前兆。它极大地降低了顶级大模型的研发门槛。未来，更多人员、团队和机构能够有机会入局，参与到前沿模型的探索中，而不仅仅是少数几家科技巨头的游戏。

这对整个AI生态来说，是一次繁荣和创新的推动。

安全机制，AI不可忽视的问题

在AI对话模型当中，行业龙头ChatGPT和行业黑马DeepSeek一直备受大众关注。作为彼此的强劲对手，此次DeepSeek登上《自然》封面，对ChatGPT而言，无疑是一次打击。

对蒸馏模型的回应、训练成本的大幅降低、行业的认可，将DeepSeek推上“顶峰”的同时，也将ChatGPT送上了风口浪尖。

而此时的ChatGPT正处于舆论漩涡。

据了解，此前，美国一名16岁的青少年自杀之后，其父母对OpenAI进行了起诉。他们在事后发现了孩子与ChatGPT长达三个月的对话，在对话过程中，ChatGPT不但没能制止这名少年的自杀行为，反而积极提供自杀方法。这对父母认为，ChatGPT安全机制的失效，对这场事故的发生起到了助推作用，对此OpenAI应当承担产品责任。

来源：抖音

对于这对父母的控诉，OpenAI给予了回应。他们承认，现有的安全机制“在长时间互动中有时可能不太可靠：随着交流次数增多，模型接受的安全训练内容可能会失效。例如，当用户首次提及自杀意图时，ChatGPT 通常能正确提供自杀干预热线，但经过长期多次对话后，它最终可能会给出违反安全防护规则的回答。”

类似的利用AI进行自杀的事件并非个例。对此，OpenAI也表示，未来他们将推出家长控制功能。

除此之外，OpenAI还透露：“我们还在探索一项功能 —— 允许青少年在家长监督下指定可信赖的紧急联系人。这样一来，当青少年陷入严重心理危机时，ChatGPT 不仅能提供求助资源，还能帮助他们直接联系到可提供帮助的人。”

这类事件暴露了AI模型在安全防护上的缺陷，特别是在面对心理脆弱用户时的应对不足。这直接关系到AI模型的内部安全研究中关于价值观对齐、风险识别和干预机制的研究范畴。

而OpenAI的回应并没有从根本上解决问题，大众对于ChatGPT的安全机制依旧存在质疑，也引起了大众对于AI使用和安全问题的思考。

在AI对话模型当中，如何把握对话限度和情感判断，这一点于开发团队而言至关重要。

而这，不仅仅是OpenAI面临的问题，也是DeepSeek，甚至所有AI对话模型研发团队所要面对的。

在此次《自然》发表的论文当中，DeepSeek团队还增添了一份全面的安全报告。报告显示，DeepSeek-R1在服务部署中引入了外部风险控制系统。

这样一来，DeepSeek-R1在与用户进行对话的过程中，可以通过关键词捕捉，来识别不安全的对话内容。

此外，DeepSeek-R1还使用DeepSeek-V3直接进行风险审查，判断是否应拒绝响应。

根据论文的公开数据，我们发现，DeepSeek-R1在公开安全基准测试和内部安全研究当中，其基准数据超越了Claude-3.7-Sonnet、GPT-4o等前沿模型。这也就意味着，其在安全风险方面，有着较高的防控水平。

来源：微信

这是DeepSeek-R1顺应时代和行业发展的必然结果。

如今，随着科技的不断发展，AI对话模型对大众生活的参与度越来越高，相当群体甚至形成了对AI模型的依赖。这也就意味着，现实对AI模型的技术能力和管控需求也在同步增长，行业的发展也在逐步走向规范化。

而在这个大舞台，备受关注的ChatGPT和DeepSeek常常是“你方唱罢，我方登场”。双方在技术上的突破、产品上的迭代都不免被拿出来比较。未来谁能占据行业高地，我们尚未可知。

DeepSeek-R1的这次高调亮相，不仅展示了其在效率与安全上的双重实力，也彻底拉满了大众对下一代模型DeepSeek-R2的期待。AI竞赛的下半场，或许正随着这篇《自然》封面文章，悄然开启。