GPT-5口碑翻车,DeepSeek蓄势待发,网友:梁文锋可能在憋大招
AI行业风起云涌,DeepSeek-R2将掀起一场更大的波涛。
GPT-5深夜空降,从大学生到博士级专家的蜕变
“GPT-3像是高中生,GPT-4像大学生,而GPT-5则变成了专家,一名各领域的专家。”回顾GPT的历程,Altman给出了这样生动的比喻。
显然,OpenAI发布的这款GPT-5,相较于过去的GPT-3和GPT-4而言,似乎实现了质的飞跃。

图源:微博
自发布起,GPT-5就一直在热搜榜居高不下,数条词条霸榜,阅读总量超4000万。不少博主称自己一夜没睡,就为了GPT-5的到来。
而面对空降的GPT-5,网友的评论呈现出鲜明的两极分化。有人直呼:“GPT-5太牛了!”“世界上只有两种AI,一个是chatGPT-5,一个是其他的。”

图源:微博
也有网友表示失望,GPT-5研究了两年半,却并没有跨代的感觉。甚至有网友表示:“GPT-5一点也不好用,还我4.5。”毕竟这一次GPT-5发布的同时,GPT-4o、o3等其他模型被全部下架。

图源:微博
关于GPT-5的讨论一直在持续,但要对其有一个明确的态度和看法,还需要我们从GPT-5的性能和创新点出发,来看看这次的GPT-5到底有什么突破之处,是否真的像Altman说的那样实现了从大学生到博士级专家的蜕变。
首先,GPT-5实现了架构的统一。过往在使用chatGPT时,就有网友表示使用体验非常混乱。因为打开应用,用户会看见多个选项,如GPT-4o、o3等。尽管每个模型都各有所长,用户可以按照个人要求进行选择,但过度的选择反而让人眼花缭乱,普通用户甚至出现无从下手的情况。
这也不禁让人发问:一个如此智慧的AI,为什么不能直接帮助用户做出选择的判断呢?
这样的问题在这次更新当中得到了解决。GPT-5整合了GPT系列和推理模型,用户无需再手动切换模型,只要提出问题,GPT-5汇自行判断任务复杂程度,自动切换模式。
除此之外,此次的更新还有三大亮点。
一是编程能力的超越。
在GPT-5的发布会中,数据显示,GPT-5 Pro的在Python编程测试中达到了100%的准确率。网友惊讶于这个数据的同时,也开始质疑:程序员这个职业不会要成为历史了吧?
而GPT-5的能力远不止于此,在发布会的演示当中,仅凭一句话的描述,GPT-5不到30秒就能生成一个精致的学习网站。
二是写作水平的突破。
这主要表现在GPT-5的诗歌创作方面,它能够完美驾驭莎士比亚十四行诗“ABABCDCDEFEFGG”的韵式。要知道,文学当中,诗歌本就是一种难以书写的题材,而诗歌对韵的要求更是让诗歌创作难上加难。
三是健康咨询准确化。
在GPT-5的发布会当中,一位患有三种癌症的女士在面对检测报告当中的专业术语手足无措时,GPT-5几秒钟就将其医疗报告解码,所有复杂的医疗术语都被翻译成了容易被理解的大白话。甚至在医生都无法为这位女士的治疗方案达成共识时,GPT-5在基于充分的医疗数据下为这位女士提供了专业的治疗意见,并且获得了医生们的认可。
总的来说,这正如OpenAI在新闻稿中写的:GPT-5在编码、数学、写作、健康、视觉感知等领域均拥有卓越的性能。
这是基于GPT-5发布会的演示效果得出来的结论。
然而,有眼尖的网友发现,GPT-5发布会上的PPT有明显的数据显示问题。在展示GPT-5在编程方面较过去模型实现超越时,PPT上所展示的柱状图显示52.8大于69.1。

图源:GPT-5发布会
这样的错误在PPT出现不止一次。
在讲解GPT-5相较于其他模型在幻觉率方面实现了降低时,PPT上的图示呈现出47.4远大于50.0的效果。

图源:GPT-5发布会
这样的低级错误使网友产生怀疑GPT-5发布会公布的数据真实性,甚至对GPT-5的实用效果产生质疑。
官方的数据和对GPT-5的产品展示让大众对GPT-5产生了初步的认知,但比数据更真切的,是用户对GPT-5的切身体验。
虽然官方声称GPT-5的幻觉率大幅降低,用户在具体的使用当中却表示GPT-5的幻觉率并没有下降多少。在逻辑方面,有用户表示自己询问GPT-5一个逻辑性的小知识点,GPT-5却回答错误,直到用户换一个问法GPT-5才回答上来。

图源:抖音
或许以上问题的出现,才导致有大量声音表示:GPT-5并没有跨代的感觉,不及预期。
聚光灯汇集,DeepSeek-R2将如何登场?
GPT-5发布后,褒贬声音不断。各方声音争论的同时,DeepSeek作为国内AI大模型TOP级的存在,在GPT-5的话题评论区中频频现身。在GPT-5的发布之际,DeepSeek不免被拿来与之相比较。
有网友从二者的逻辑方面出发,认为DeepSeek可以轻易超越GPT,甚至有人认为DeepSeek可以吊打chatGPT。

图源:抖音
也有网友觉得DeepSeek和GPT-5已经不可同日而语了,认为DeepSeek已经“烂尾”。

图源:抖音
大众对DeepSeek与chatGPT的这场科技较量津津乐道,不同的人持有不同的态度和立场。也正因为如此,GPT-5的发布,让聚光灯汇聚到了DeepSeek身上。
不少人开始发问:DeepSeek-R2什么时候上线呢?

图源:微博

图源:抖音
疑问的背后隐藏着强烈的期待,大众期待着DeepSeek-R2会带来怎样的突破,而这样的突破又是否能够和GPT-5较量一番。
提及DeepSeek-R2的发布,不得不让人想起今年3月份DeepSeek-R2发布的乌龙事件。
今年3月11日深夜,一则关于“DeepSeek-R2模型正式发布”的消息在开发者社区引发热议。许多人被这则消息震惊,因为这位匿名发布者在发布这则所谓的“确切消息”的同时,附上了相关的界面截图和参数表格,宣称R2模型已实现“全模态认知突破”。甚至还有官方技术文档链接。
这一消经过了八个小时的发酵,最终得到了官方的辟谣。DeepSeek技术委员会发布紧急公告,明确指出该消息为伪造信息,相关信息和数据均属杜撰。

来源:每日经济新闻
事实上,早在今年2月份,就有传言宣称DeepSeek-R2将在今年5月份发布。如今5月早已过去,许多人纷纷猜测,DeepSeek-R2是否“难产”了呢?
今年6月份,The Information报道表示,DeepSeek-R2或将推迟发布,一方面是梁文锋对DeepSeek-R2的性能不满;另一方面,受限于美国政府对芯片的新一轮出口管制,算力短缺正实质性阻碍新模型的训练与部署。
这表明,网友对DeepSeek-R2“难产”的担忧,并不是空穴来风。
DeepSeek-R2迟迟未发布,让网友浮想联翩的同时,也为DeepSeek带来了新的问题——用户流失。
QuestMobile数据显示,DeepSeek活跃用户规模从2025年3月的1936.1万降至6月的1629.5万,下滑趋势明显。
同时通过对流失的用户进行追踪发现:56.0%的用户转用百度,42.1%选择QQ浏览器,39.4%流向豆包,27.8%改用夸克。

图源:QuestMobile公众号
尽管用户的流失不等于用户对DeepSeek的放弃,但从中我们也能窥见DeepSeek所存在的问题。
自从上线以来,就有用户表示DeepSeek的服务稳定性差,经常在检索过程中出现“服务器繁忙”的现象,其深度思考功能四个小时内限用一次。这样的问题一下就将人拒之门外,让用户失去对DeepSeek的使用兴趣。
功能和体验的短板,同样是其用户流失的一大原因。尤其是专业幻觉率方面,DeepSeek出现的胡乱编造数据、时间错乱的现象,让人无法对其产生深度的信任。
与此同时,豆包、文心一言的更新和发展,丰富了用户的选择。豆包、文心一言等在交互体验方面的优化,让仅支持文本交互的DeepSeek落了下风。
面对DeepSeek用户流失的问题,周鸿祎是这样回复的:“梁文锋从未想过认真做To C产品,起精力都放在AGI的研发和开源上。”
事实也确实如此。众多国内公司,包括360的智能体基座模型,都基于DeepSeek改造。DeepSeek给中国大模型产业打下了基础,证明了开源路线和开放生态的价值。
用户流量的流失,并不等于失败。
关于DeepSeek-R2的研发,据The Tech Basic报道,DeepSeek-R2在内部基准测试中始终无法实现对 R1 的全面碾压,尤其在多语言、编程等关键能力上“提升有限”。
而梁文锋对此态度坚决:不达标准,绝不发布。
如此看来,似乎真的像网友所推测的那样:梁文锋在憋大招。

图源:抖音
这也能解释,为何大众在GPT-5发布之际,频繁看向DeepSeek。
我们也同样期待,DeepSeek-R2会交出怎样一份答卷。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
