GPT-5来了,所有人免费使用,马斯克急了
时至今日,OpenAI也玩起了价格战。
一、GPT-5来了,马斯克表示不服
自GPT-3.5一炮而红,开启人类对“第四次工业革命”的想象后,很长一段时间,ChatGPT都是友商的唯一对标产品。
在此之后,OpenAI明显放慢了脚步,从GPT-3到GPT-4,OpenAI花了接近三年,GPT-4到GPT-5,又经历了两年半。
昨夜,OpenAI终于端上来了这盘大菜,推出了迄今最先进的大型语言模型GPT-5。
上线后,GPT-5不出意外地“杀遍天下无敌手”,迅速屠榜大模型竞技场LMArena,所有细分类目中,都稳稳拿下了第一。

图源:LMArena

图源:LMArena
与上一代相比,GPT-5最大的结构变化是采用集成模型架构,首次将大语言模型(GPT系列)与推理模型(o系列)深度融合。这意味着,系统将自主判断问题的复杂度,必要时调用更多计算资源进行“深度思考”。
奥尔特曼称,这是普通用户首次接触OpenAI的“测试时间计算”技术,即在面对数学推导或复杂推理时,模型会主动延长计算时间以提高准确性。
同时,这次还有一个让外界沸腾的重大信号,是GPT-5将免费提供给用户,这意味着,所有人都能用上这个“博士生水平的AI”。
当然,付费版Plus会员可获得更多使用量,Pro 会员则可访问GPT-5 Pro版本,以及免费用户在配额使用完后将被分配到GPT-5 mini模型。

图源:智能涌现
对于这个“诚意之作”,OpenAI CEO 山姆·奥特曼给出了极高评价:拥有 GPT-5 这样的 AI 模型,在历史上任何时候都是难以想象的。
当然,“老对手”马斯克也不请自来“蹭热度”,顺便暗中拉踩,宣传一波自家产品。
马斯克表示:Grok 4 在 ARC-AGI 测试中击败了 GPT-5, 而Grok 5 将于今年年底前发布,预计表现将更加出色。

图源:X
值得一提的是,在GPT-5 发布前,OpenAI就按捺不住,提前偷跑了好几次。
8月3日,OpenAI CEO奥特曼先是在X上用“20 Hours Left”虚晃一枪,吊人胃口,又在接下来的几天,频频进行一些“骚操作”:
8月5日,ChatGPT上线了“防沉迷弹窗”。
8月6日,时隔六年,OpenAI终于再次宣布开源新模型,但这次还不是GPT-5,而是gpt-oss-120b和gpt-oss-20b两款模型。
在这个过程中,竞争对手们也不是吃素的,纷纷选择“跟团”。
谷歌、Anthropic在不到24小时内接连甩出了王炸。其中,Anthropic上线了Claude 4.1,主打编程能力;谷歌DeepMind更是直接祭出了“创世引擎”——Genie 3。
外媒更是将Genie 3的发布称为“重演了ChatGPT时刻”。

图源:X
接下来,让我们来看看这个让无数人凌晨蹲守直播的所谓“地表最强大模型”GPT-5 ,有什么值得一看的表现。
这次发布的GPT-5拥有四个版本:
GPT-5:在不同领域中进行Coding和执行任务的标准模式;
GPT-5 mini:轻量版版本,适用于明确界定的任务和场景;
GPT-5 nano:强调运行速度和性价比;
GPT-5 Chat:ChatGPT中使用的版本。

图源:OpenAI
以上前三个版本是面向开发者,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。
更狠的是,GPT-5 上演了一波“价格屠夫”。
对于开发者API用户来,GPT-5给出了一个几乎难以拒绝的价格:每百万token输入1.25美元,输出10美元。
这个价格不仅仅是Claude Opus4.1的1/15,甚至比一直以“性价比”著称的Gemini2.5 Pro更便宜。
根据OpenAI评估,GPT-5 在编程、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。
编程方面,据介绍,GPT-5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。因此,它可以在一个提示中创建美观且响应迅速的网站、应用程序和游戏
比如,官方给出了示例——创建一个单页应用,包含在一个HTML文件中,具体要求为:
- 名称:跳跃球跑者
- 目标:跳过障碍物尽可能长时间生存。
- 特性:速度递增、高分追踪、重试按钮以及动作和事件的有趣音效。
- 用户界面应色彩丰富,并具有视差滚动背景。
- 角色应看起来卡通化,观看时有趣。
- 游戏应适合所有人玩。

动图图源:OpenAI
此外,还有像素艺术、打字游戏、架子鼓模拟器、Lofi 可视化器等多个案例,感兴趣的朋友可以前往GPT-5官网查看。
与此同时,GPT-5 也在多项基准测试中刷新了纪录:
数学方面:AIME 2025 (no tools)测试得分 94.6%;编程方面:SWE-bench Verified(With thinking)得分 74.9%,Aider Polyglot(With thinking)得分 88%;多模态理解:MMMU 得分 84.2%;健康领域:HealthBench Hard 得分 46.2%。

图源:OpenAI

图源:OpenAI

图源:OpenAI

图源:OpenAI
除此之外,和o3相比,GPT-5 在减少推理时间与输出字数的同时,仍能优于 o3 完成任务,效率提升 50%-80%。

图源:OpenAI
不过,话说回来,跑分虽然强劲,这次GPT-5被吐槽的也不少。
一方面,发布会上草台班子属性尽显。
虽然图表是对的,跑分却惊现“反常识”比较:52.8大于69.1等于30.8。

图源:OpenAI

图源:OpenAI
对此,有网友锐评:OpenAI不等式,52.8>69.1。
另一方面,在写作和情商能力上,不少实测显示,甚至不如GPT 4.5。
Latent.Space有开发者深度测评后直言:“GPT‑5是目前最接近AGI的模型,但写作能力比GPT‑4.5还差很多”,在表达自然与语言魅力方面逊色明显。
社交平台不少网友也发表评论:

图源:公众号评论区截图

图源:微博截图
为何会出现这种“倒退”?
或许和GPT‑5与GPT‑4.5设计理念上的不同有关。GPT‑5聚焦“结构化推理+工具协作”,通俗点说,偏向于“理科生”;GPT‑4.5 则注重“语言的表达与现实感”,推理能力不是最顶尖,但在语言流畅、情感表达上更贴近人类,也就是偏向“文科生”。
综合来看,这个OpenAI押注的“诚意之作”,编码能力、幻觉减少方面升级非常明显,但与“颠覆性升级”这个词可能还有一段距离。
二、AI圈掀起“开源热”,压力给到OpenAI
刚刚过去的7月,是史无前例疯狂的开源月:阿里(Qwen)、月之暗面(Kimi)、智谱(GLM)等十多家AI公司都跟了开源模型。
在开源模型性能持续追赶的现状下,始终坚持闭源路线的OpenAI压力是不小的。这不,最近匆忙也“跟团”开源了两款大模型,即便如此,主模型GPT-5的路线仍是闭源的。
在这个过程中,人们也很难不把目光聚焦到DeepSeek R2的上线及表现。

图源:微博
2025年初,DeepSeek成为第一个复现OpenAI o1的模型公司,以一己之力引领了这半年的开源模型浪潮。
不过,据周鸿祎透露,梁文锋现在一门心思想搞AGI。若DeepSeek R2还只是单一模型,目前团队重心不在它身上,它的上线时间只会比我们想的更晚。
并且,若梁文锋想在DeepSeek R2上直接实现智能体或者AGI的雏形,那他的研发必定很艰巨,上线的时间同样不会很快。
当然,目光从DeepSeek R2上移开,国内大厂近期在大模型上也是“卷疯了”。
腾讯这边,近期开源了全新的混元大模型,提供了从5亿、12亿、36亿到70亿等不同参数规模的模型版本,以适应从轻量级端侧应用到服务器级别任务的不同需求。
阿里巴巴这边,通义千问系列7月、8月进行了连续的更新升级。
最新消息传言,百度在紧急迭代,奔着OpenAI去了。
知情人士称,百度最快将在8月底推出文心大模型最新版推理模型,目前该模型正在全力测试中。在逻辑推理、复杂计算等能力上,文心新版推理模型将超越OpenAI o3满血版。
此外,百度还计划未来数月内发布文心基座大模型最新版,有内部人士指出,新模型大概率在百度世界大会上发布。
回到开头,开源模型持续洗刷全球市场格局的背景下,OpenAI要想在激烈的竞争中保持闭源模型的领先优势,压力不言而喻。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
