ChatGPT重磅升级,影响太大,行业彻底沸腾
OpenAI扳回一局。
一、ChatGPT Agent正式登场,三位一体刷爆全网
2025年的版本答案是Agent,几乎成为一种共识。
昨夜,奥特曼亲自带队四位OpenAI 的研究员,用25分钟的高能直播重磅发布了ChatGPT agent,ChatGPT和Deep Research、Operator完成首次“三位一体”。由此,OpenAI再次打出了一张让全世界为之震惊的牌。

图源:微博
简单来说,ChatGPT agent是一个综合体,融合了Operator的网页交互能力、Deep Research的信息整合与分析能力、以及ChatGPT的自然语言对话优势。
在这种模式下,用户可以直接给ChatGPT下任务,让它来扮演一个打工人的角色,复杂的任务10分钟就能搞定。
比如,输入想完成的任务,ChatGPT agent 能自动浏览相关网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,工作场景中的PPT、表格等任务也都不在话下。
从发布起,Pro、Plus和Team用户直接可以开启体验,在对话框中选择“Agent mode”就可以。Pro用户每月有400次的额度,Plus和Team有每月40次。

图源:微博
看到这里,有一些用户就会问了,这些功能和其他智能体,比如Manus、Claude Agent相比,有什么区别?
一方面,ChatGPT Agent是单一端到端模型,通过内部强化学习直接整合能力,实现推理与执行的闭环。任务执行时无需外部调用多个模型,能够减少延迟和错误率。
其他模型如Manus,则是调用多个底层模型,更像是“外部缝合”,稳定性较差。
另一方面,ChatGPT Agent在多种工具自主调用上进行了专门训练,学会了如何在接受复杂任务时子啊不同工具之间流畅切换并协同工作。用户仅需一个自然语言指令(如“分析竞品并生成PPT”),即可自动完成数据爬取→筛选→分析→生成可编辑文件的全流程。
除此之外,在人机交互和断点续传上,ChatGPT Agent也是有一定优势的。比如用户可以随时中断任务、调整指令,Agent则会从中断点继续执行且不丢失进度(如修改PPT排版或补充数据)。
-800.gif?x-oss-process=image/auto-orient,1/quality,q_90/watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20)
图源:现场直播
这一点上,部分传统智能体则需重新触发任务,在使用体验上则会有所削减。
如此看来,ChatGPT agent 并非简单的功能叠加,而是重新定义了智能体的“自主性”边界。
当然,对于对手来势汹汹的挑战,Manus 也正面回应了 OpenAI 进入这场游戏。

图源:小红书
总之,目前看来,正如OpenAI CEO奥特曼在发布会后写下的:看着 ChatGPT agent 使用计算机完成复杂任务,对我来说是一次真实的“感受AGI”的时刻。看到计算机思考、计划和执行,感觉格外与众不同。

图源:X
二、ChatGPT Agent:超级打工人
用户任务评估不一般,ChatGPT agent的跑分数据也不简单。
在综合性考试“人类的最后考试”(Humanity’s Last Exam)中,其单次通过率达到了41.6%,并行策略下提升至44.4%,刷新了pass@1最高纪录。

图源:OpenAI
在目前已知最难的数学基准测试FrontierMath中,ChatGPT agent借助代码终端等工具,实现了27.4%准确率,大幅超越o3和o4-mini。

图源:OpenAI
此外,在内部设计的“高经济价值知识工作”测试中,有半数的案例,ChatGPT agent的输出质量与人类相当,甚至优于 o3 和 o4-mini 模型。

图源:OpenAI
不仅如此,在评估数据科学生产力任务的DSBench中,ChatGPT agent更是以显著的优势超越了人类表现。

图源:OpenAI
当然还有对Excel表格优秀的编辑能力,在 SpreadsheetBench 中,其拿到 45.5%,超过 Copilot in Excel 的 20%。此外,它在 BrowseComp、WebArena 等浏览评测里均刷新了SOTA。

图源:OpenAI
以及,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新纪录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。

图源:OpenAI
最后,在投行分析师1-3年级建模任务的内部评估中,ChatGPT agent底层模型也做到了碾压Deep Research和o3模型。

图源:OpenAI
由此看来,ChatGPT agent带来的冲击力是显而易见的,甚至说以一己之力推动行业洗牌也不为过。
不过,山姆·奥特曼在发布会结束后,也发布了一条文章,提醒外界ChatGPT Agent仍存在风险。
奥特曼表示:我们尚不清楚具体会造成什么影响,但不法分子可能会试图“诱骗”用户的 AI 代理提供不该提供的私人信息并采取不该采取的行动,而这其中的方式我们无法预测。
举个例子,由于太过于“丝滑了”,使用过程中若授权了Gmail、GitHub等账户,则有可能导致隐私泄露。

图源:微博
三、ChatGPT背后的故事
值得一提的是,OpenAI还有一个播客,目前更新到了第二期。
在最新节目中,前工程师安德鲁・梅恩(Andrew Mayne)、首席研究官马克・陈(Mark Chen)和ChatGPT负责人尼克・特利(Nick Turley)参与录制谈话,爆料了一些关于ChatGPT的故事。

图源:微博
其中,他们提到:直到ChatGPT发布前一晚,团队还没有确定好名字,最早想用“Chat with GPT-3.5”,后来将它缩写成为了今天的ChatGPT,而对于这个的释义团队至今仍有分歧。
此外,他们还提到ChatGPT发布前,OpenAI团队还吵得很厉害。马克・陈回忆:“当时用10个难题测试模型,大概只有5个答案让他满意,发布前一晚我们还在纠结要不要发。”

OpenAI播客 图源:微博
为什么有这种犹豫,是他们意识到,作为开发者研究久了,自然很快便能适应模型,但刚刚接触模型的用户可不一定。
最终,团队决定用偏保守的策略,即“不扩大模型范围,先尽快拿到用户反馈数据,毕竟真实反馈,比‘闭门造车’有价值多了。”
由此,ChatGPT一炮而红,直到今天仍领跑行业,也在人类大模型历史上留下了浓墨重彩的一笔。
除了ChatGPT,OpenAI的图像生成技术——ImageGen,一直以来也在模型领域扮演着重要角色。

图源:网页截图
尼克·特利表示:“发布的那个周末,印度约5%的互联网用户都涌入体验,这种爆发式场面类似于ChatGPT刚推出时的景象。”
他还注意到用户群发生了变化,许多此前未接触过ChatGPT的人被图像生成功能吸引,因为它大幅降低了使用门槛。
团队更意外的是用户使用场景的转变,原本预计会以娱乐为主,结果涌现出了装修设计模拟、商业演示插图等实用用途。
值得一提的是,他还透露了一个非常有意思的现象。
对于ChatGPT,团队预期它会是一个纯粹的实用产品,但实际上不少人拿来娱乐:“越来越多的Z世代把ChatGPT当作思考伙伴,用于处理人际关系或规划职业发展。”
而对于ImageGen,本来设想是用来玩梗的娱乐产品,果大部分都是用于实际工作,如装修设计模拟、PT插图等。
综合以上,正如在发布会上提到的“AI杠杆”这个概念。OpenAI团队认为:2025年之后,AI智能体将成为一种全新的杠杆。
因为它不仅能代替人类完成工作,还能通过代码的复制无限扩展,10个人的小团队,借助这个AI杠杆,便有机会撬起想要的“地球”。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
