[译文]这条关于 GPT-5 的传言会改变一切
如果我告诉你,GPT-5 不仅是真的,而且已经从你看不到的地方开始塑造这个世界呢?以下是我的假设:OpenAI 已经构建了 GPT-5,但他们将其留作内部使用,因为相较于向数百万 ChatGPT 用户发布,保留在内部的投资回报率要高得多。而且,这种“投资回报”并不是金钱上的。从这个角度看,结论非常简单;但要做成完整论证,需要把散落的线索穿成一条链。这篇文章会深挖我为什么认为所有细节都恰好吻合。
![[译文]这条关于 GPT-5 的传言会改变一切](/content/images/size/w2000/2025/01/61d7c2f7-6d0d-4624-9498-e006d3b5bc96_1792x1024.webp)
如果我告诉你,GPT-5 不仅是真的,而且已经从你看不到的地方开始塑造这个世界呢?以下是我的假设:OpenAI 已经构建了 GPT-5,但他们将其留作内部使用,因为相较于向数百万 ChatGPT 用户发布,保留在内部的投资回报率要高得多。而且,这种“投资回报”并不是金钱上的。从这个角度看,结论非常简单;但要做成完整论证,需要把散落的线索穿成一条链。这篇文章会深挖我为什么认为所有细节都恰好吻合。
先说清楚:这只是一种推测。证据都来自公共信息,并没有内部消息或泄露可以证实我的观点。事实上,我是通过这篇文章构建这个理论,而不是单纯分享既有结论。我也没有什么特权信息——要真有,那肯定早签了保密协议。之所以感觉这个假设很有说服力,是因为它“很合理”。而且老实说,这也足够让流言蜚语盛行了。
你可以选择不相信我。即便我错了(未来我们终会知道),我也认为这不过是个有趣的侦探游戏。我欢迎大家在评论区脑洞大开,但请保持建设性和思考深度。并且,先把这篇文章看完。除此之外,怎么讨论都可以。
在深入探讨 GPT-5 之前,我们得先去拜访一下它的远房表亲,也是同样“下落不明”的家伙:Anthropic 的 Claude Opus 3.5。
正如你所知,最顶尖的三大 AI 实验室——OpenAI、Google DeepMind 和 Anthropic——都提供了多款模型,以满足价格/延迟与性能之间的多样化需求。OpenAI 有 GPT-4o、GPT-4o mini,以及 o1、o1-mini;Google DeepMind 则有 Gemini Ultra、Pro 和 Flash;Anthropic 对应的则是 Claude Opus、Sonnet 和 Haiku。目标很清晰:尽可能满足各种客户需求。有的客户不惜一切代价追求极致性能,有的则需要价格实惠、“够用就好”的方案。目前为止,一切都挺顺理成章。
但在 2024 年 10 月,出现了一件怪事。所有人都以为 Anthropic 会发布 Claude Opus 3.5,以回应 2024 年 5 月上线的 GPT-4o(链接)。然而,10 月 22 日,他们却只发布了一个更新版的 Claude Sonnet 3.5(大家后来叫它 Sonnet 3.6),Opus 3.5 却毫无动静,仿佛 Anthropic 并没有能与 GPT-4o 正面抗衡的旗舰级产品。这真的很奇怪。以下是 Opus 3.5 究竟发生了什么的时间线,以及人们的讨论:
- 10 月 28 日,我在这个每周评述里写道:“有传言称 Sonnet 3.6……其实是一个失败的 Opus 3.5 训练检查点。” 同一天,一篇帖子出现在 r/ClaudeAI 版块,题为“Claude 3.5 Opus 已经被放弃”,并附上了Anthropic 模型页面的链接——到现在也找不到 Opus 3.5 的任何信息。有些人猜测,之所以撤掉该信息,可能是为了在即将进行的融资前稳住投资者的信心。
- 11 月 11 日,Anthropic CEO Dario Amodei 在 Lex Fridman 的播客中否认 Opus 3.5 被废弃了:“我不能给你确切的日期,但目前我们依然打算发布 Claude 3.5 Opus。” 虽然话里比较谨慎模糊,但也并未否认。
- 11 月 13 日,彭博社也加入了讨论,证实了早先的传言:“训练完之后,Anthropic 发现 3.5 Opus 的评测结果比旧版本更好,但与它的规模和昂贵的训练成本相比,并没有达到预期的提升幅度。” 看得出来,Dario 不想给具体日期,是因为虽然这次训练并不算彻底失败,但结果不如预期。需要注意的是,这里的重点在于“与成本的对比”,而不单单是性能。
- 12 月 11 日,半导体专家 Dylan Patel 及其 Semianalysis 团队进一步给出解释,把所有已知信息串联起来:“Anthropic 完成了 Claude 3.5 Opus 的训练,并且它的表现不错,扩展性也如预测……但他们并没有发布它,而是转而用它来生成合成数据,同时用于对 Claude 3.5 Sonnet 的奖励模型训练,从而极大提升了后者的性能。”
总的来说,Anthropic 确实训练了 Claude Opus 3.5,但因为它表现不够惊艳,就没有对外发布。Dario 相信换个训练思路会提高效果,所以才不公布上线日期。彭博社证实它比现有模型更好,却不足以抵消昂贵的推理成本(推理成本就是用户实际使用时的开销)。Dylan 则披露了 Opus 3.5 与那次“Sonnet 3.6”的神秘联系:Opus 3.5 被用来在内部生成合成数据,帮助 Sonnet 3.6 大幅提升。
我们可以想象出类似这样的过程:

使用一个更强大、更昂贵的模型来生成数据,从而增强一个略逊但更便宜的小模型,这个流程被称为蒸馏(distillation)。这在业界是常见做法。它能让实验室把小模型的弱势抹平,提高到大模型单靠预训练也不一定能实现的程度。
蒸馏方法多种多样,但这不是我们的关注重点。你只需知道,“教师”模型越强,小模型(学生模型)在[小、便宜、快]的同时,依然能变得[更强]。对 Anthropic 来说,Opus 3.5 就相当于一个“金矿”。正如 Dylan 所说,他们选择不发布的原因在于这个金矿内部使用价值巨大。用它来蒸馏 Sonnet 3.6,哪怕性能只略逊于 Opus 3.5,却能避免高昂的用户推理费用。
最让人惊讶的是,Sonnet 3.6 不仅仅“还不错”,而是达到业界前沿水平,甚至超过了 GPT-4o。Anthropic 的中端模型居然打败了 OpenAI 的旗舰模型,这在很大程度上归功于来自 Opus 3.5 的蒸馏(当然也可能有其他原因,AI 行业五个月足以发生很多变化)。一时间,“高成本 = 高性能”成了一种不再可靠的逻辑。
“参数越多就越好”的时代也许真的结束了?OpenAI CEO Sam Altman 就警告过这个趋势已到尽头,我也曾写过。当各大实验室对核心信息愈发保密后,我们无法再像过去那样单纯以模型规模来衡量;于是,我们更明智地转向看实际性能评分。OpenAI 官方最后一次公布自家模型规模是在 2020 年的 GPT-3,当时 1750 亿参数;到 2023 年 6 月时,就有传言称 GPT-4 是一个拥有大约1.8 万亿参数的专家混合模型;不久后,Semianalysis 在 2023 年 7 月进一步证实,GPT-4 大约有 1.76 万亿参数。
直到 2024 年 12 月,也就是一年半以后,来自 EpochAI 的研究员 Ege Erdil 推测当前最先进的一批模型(包括 GPT-4o 和 Sonnet 3.6)其实都比 GPT-4 小得多(但在各种基准测试上都超越了 GPT-4):
……现今的前沿模型,比如原始的 GPT-4o 和 Claude 3.5 Sonnet,可能比 GPT-4 小一个数量级,大约分别是 2000 亿和 4000 亿参数……不过鉴于估算方法比较粗,这个数据可能有两倍的误差。
他详细阐述了在实验室不公开架构细节的情况下,如何估算规模,不过那些细节对我们而言没那么重要。重要的是:随着迷雾渐渐散去,Anthropic 和 OpenAI 好像都走在一条类似的道路上:他们最新的模型不仅性能更优,还比上一代模型更小、更便宜。我们已经知道 Anthropic 通过让 Opus 3.5 蒸馏到 Sonnet 3.6 实现了这一点。那么,OpenAI 是怎么做到的呢?

有人也许会认为 Anthropic 的蒸馏做法是他们的“特例”——毕竟 Opus 3.5 的训练结果不尽人意。但实际上,这种情况并不特殊。Google DeepMind 和 OpenAI 最近也都公开表示,他们的新一轮训练结果没能如想象中那样完美。(当然,不代表模型更差,只是没有预期的那么大幅度提升。)至于为什么表现不达预期,对我们来说并不关键:训练数据不足,Transformer 架构本身的极限,预训练规模定律开始瓶颈等等,总之 Anthropic 的情况并非什么异数。
可还记得彭博社怎么说的吗?“好”或“坏”的评判,最主要还是看和成本之间的对比。这点在各大实验室应该也是相通的。Ege 也告诉我们,这一切其实都来自 ChatGPT/GPT-4 横空出世后,Generative AI 的需求迅猛增长,实验室为了满足用户需求损耗巨大,导致连年亏损。大家都必须想办法削减推理成本(训练费用只交一次,而推理费用会随着用户规模和使用次数不断增加)。3 亿人每周使用你的 AI,一不留神运营费用就会压垮你。
对 Anthropic 来说,“蒸馏”一招完美解决这个成本难题,也避免了“性能不足预期”的舆论打击,不把大模型放出来,就没人会批评它不够强。这样做同样也适用于 OpenAI,而且影响可能还要更大。正如 Ege 所说,蒸馏能把这两大普遍难题转化为优势:用更小的模型服务大众,成本可控;而因为这小模型是从大模型蒸馏而来,性能依然不错。
Ege 猜测,OpenAI 或许也选择了另一种替代方案:过度训练(overtraining)——即把一个小模型拿去训练更多的 token 超过所谓的最优计算量:“当推理费用在整体开支中非常可观时,在一个小模型上训练更多的 token 可能更划算。” 但如今继续过度训练的可能性几乎没有了。高质量数据源早已被用尽。马斯克和Ilya Sutskever最近也都承认这点。
那还是得回到蒸馏上来。Ege 总结:“我认为 GPT-4o 和 Claude 3.5 Sonnet 很可能都是从更大的模型蒸馏下来的。”
把所有线索串起来看:OpenAI 应该和 Anthropic 做了一件类似的事:训练一个大模型并隐藏起来(就像 Anthropic 对 Opus 3.5 做的),然后通过相同的蒸馏手段去“赋能”更小的模型,用于对外发布,原因也是同样的(不够惊艳+成本考量)。这可以算是我们的一个重大发现。但问题是,Anthropic 的 Opus 3.5 现在还藏着,那 OpenAI 对应的“大模型”在哪儿呢?会藏在他们的数据库里吗?你想不想猜测它的名字?

刚才谈到 Anthropic 的案例,是因为它的信息最透明,可帮我们构建思路。然后引入蒸馏的概念,以此联系到 OpenAI。接着我们得考虑到的一点是:OpenAI 与 Anthropic 面临的环境确实相似,但有时更艰难,因为 OpenAI 是这个领域的先驱,它们可能还会遇到一些其他挑战。
其中一个挑战,就是训练 GPT-5 对硬件资源的要求。Sonnet 3.6 相比 GPT-4o,发布时间差了五个月左右。而 GPT-5 的规模和复杂度无疑要更高,也意味着更贵。不仅推理成本高,连训练本身的费用都可能数以数亿计美金。现有的硬件能支撑这么昂贵的训练吗?
Ege 再一次做了解释:是的,可以训练出这样的怪兽,但要把它服务给全世界 3 亿人,成本可就吓人了。
理论上,即使用当前硬件,也可以加载比 GPT-4 大得多的模型,比如 GPT-4 的 50 倍,约 100 万亿参数,推理费用约每百万输出 token 3000 美金,速度大概能达到 10-20 token/s。可问题是,只有当这些大模型能为客户创造足够的经济价值,才能支撑这样的花销。
如果要把这么大规模的推理费用消化掉,Microsoft、Google 或亚马逊——这些 OpenAI、DeepMind、Anthropic 的金主——都吃不消。那怎么办?很简单:只有在这款模型要面对公众时,它才需要为外部客户创造巨额经济价值。但如果它根本不对外开放,就不需要。
所以过程是这样的:他们完成了训练。发现它确实比现有可用模型更强。然而,考虑到维护运行这么一个庞然大物的成本,他们必须接受:这并不值得。他们对外说:“它的表现并没有好到足以证明继续部署它是合理的。”(这是不是和《华尔街日报》一个月前关于 GPT-5 的报道用语惊人地相似呢?和彭博社评价 Opus 3.5 的报道也几乎一个调调。)
他们解释训练成绩没有大突破,暗示或明示“结果不尽如人意”,继续把这款庞大的模型藏在内部做“教师”蒸馏用途。然后才上线那些更小更便宜的模型,比如 Sonnet 3.6、GPT-4o 或 o1。用户看到的依然是物美价廉的模型,对“Opus 3.5”和“GPT-5”还保持着期待。与此同时,OpenAI 的金库也像个金矿般闪闪发光。
在研究到这里时,我还没有完全被说服。证据看上去都对,但“合理”不等于“真实”。我没法给你更确凿的证据——毕竟这确实只是推测。不过,我可以进一步找些可能的佐证。
OpenAI 以前有过类似的操作吗?除了性能与成本,他们还有别的理由不放出 GPT-5 吗?那些关于 GPT-5 的公开表态是否也能提供线索?他们不会担心一再延期发布 GPT-5 会伤了名声吗?毕竟 OpenAI 是行业门面,而 Anthropic 还算默默跟随,后者可以比较容易地来“暗箱操作”,可 OpenAI 是否就能轻松这么做?
说到钱,我们再去看看 OpenAI 与微软合作的一些背景。大家都知道那个“AGI 条款”:在OpenAI 关于自身结构的博文中,列了五大条款,描述了它和非营利组织、董事会以及微软之间的关系。其中第五条提到 AGI 定义为“在多数经济价值领域超越人类的高度自主系统”,并规定一旦董事会宣布达到了 AGI,“此类系统将不受与微软相关的知识产权许可及其他商业条款约束,这些条款只适用于 AGI 诞生前的技术。”
毫无疑问,两家公司都不想让这段合作关系破裂。OpenAI 设立这条款,但同样会尽全力避免触发。另一种做法就是推迟发布可能被贴上 “AGI” 标签的系统。你也许会说:“GPT-5 肯定还没到 AGI 的地步啊!” 我想说的是,有一个几乎没人知道的事实:OpenAI 与微软在法律上偷偷定义了什么叫 AGI,这一定义和科学探索无关,但对合作条款却是关键:AGI 是指“能够创造至少 1000 亿美金利润的 AI 系统”。
如果 OpenAI 真要隐瞒 GPT-5,理由是“还不够成熟”,那他们还能多收获一层好处:不必声明它是否可能带来 1000 亿美金利润,从而被贴上“AGI” 标签。要是有野心的客户基于 GPT-5 真的能赚到这么多,那就不一样了。另一方面,我们也得承认:如果 OpenAI 自己预计能用 GPT-5 拉动 1000 亿美金以上的收入,那他们也不介意触发 AGI 条款并与微软“分手”。
坊间对 OpenAI 不发布 GPT-5 大多是“它还不够好”这种解释。即便事实确实如此,也没人想过,也许 OpenAI 有更好的内部使用场景,而非只是一味寻求外部收入。要做一个优秀的模型和要做一个能便宜稳定地服务 3 亿人的模型,完全是两码事。如果做不到,或者暂时没必要做到,那就干脆先不发。他们曾愿意让大家使用最好的模型,是因为过去需要我们给他们提供数据。可现在不需要了。他们也不怎么缺钱。OpenAI 的目标是冲向 AGI、再到 ASI,他们更想要的是最终的那份“人类未来”上的成就。

说到这里也差不多了。我觉得已经有足够多的论据来说明:OpenAI 很可能确实拥有某个内部版本的 GPT-5,就像 Anthropic 对 Opus 3.5 所做的那样。甚至可能永远都不会放出 GPT-5。现在大众已经有 o1/o3 来做性能标尺,而不仅仅盯着 GPT-4o 或者 Claude Sonnet 3.6。随着 OpenAI 不断试验推理时的扩展性(test-time scaling laws),GPT-5 面临的期望值反而越来越高。怎么发布一个明显优于 o1、o3,以及后续一波又一波 o 系列的 GPT-5 呢?何况他们也不再指望从用户那里挣钱和收集海量数据了。
从内部角度看,训练新一代基础模型 —— GPT-5、GPT-6、乃至之后 —— 一直都会有意义,但对外公开它们当商品卖,却未必有意义。也许这事已经结束了。对他们来说,现在真正要紧的事是继续不断生成更优质的数据,以支持下一代模型的研发。由此看来,基础模型可能只会在幕后发挥作用,给其他模型“打辅助”,就像一位隐藏在山洞里的老隐士,只是不断向外传授他的智慧,而我们也许永远见不到他,但却能感受到他对世界带来的影响。

即便 GPT-5 最终发布了,现在看来也没那么重要。如果 OpenAI 和 Anthropic 真的开始进行某种程度的“自循环自改进”(尽管还有人类在中间把控),那对外给什么似乎已经不再是关注点。他们会越走越远,就像宇宙以超光速膨胀,我们永远无法再看到远方的星系。
也许他们就是这样在短短三个月内从 o1 跃迁到 o3,并会继续跳到 o4、o5。这也可能就是为什么他们最近在社交媒体上如此兴奋——因为他们成功搭建了新一轮的改进流程。
你真的以为接近 AGI 的过程,会意味着你手中的工具越来越强?你以为他们会把每一次飞跃都毫无保留地呈现在你眼前?他们之前就说过,新模型的出现会把他们带入一个别人无法追上的高度。每一代模型都是一次“逃逸速度”的引擎。他们也许早已在平流层上空挥手和我们说再见。
至于会不会回头,就看他们怎么想了。