Z Highlights
- OpenAI 的 GPT-5 项目研发进度已落后于预定计划,且目前取得的成果尚未充分证明其高昂成本的价值。该项目已经开发超过 18 个月,至少进行了两次大型训练,每次都需要数月的时间来处理大量数据。
- 尽管 GPT-5 的性能据称有所提升,但这一进步幅度并未足以证明维持其运行所需的高额成本是合理的。为期 6 个月的训练,单单计算成本就可能要花费约5亿美元。
- OpenAI 面临着内部动荡和竞争对手几乎不断试图挖走其顶尖研究人员的问题,有时甚至提供数百万美元的报酬。
- 在 Orion 的挣扎中,OpenAI 研究人员找到了让 LLM 更聪明的新方法:推理。研究人员表示,花费很长时间“思考”可以让 LLMs 解决他们未经过训练的困难问题。
据 The Wall Street Journal 报道,OpenAI 的新人工智能项目进度滞后,费用巨大。目前尚不清楚何时——或者是否——能够成功。世界上可能没有足够的数据使其足够智能。
该项目正式名称为 GPT-5,代号为 Orion,已经开发超过 18 个月,旨在成为推动 ChatGPT 技术的重大进步。知情人士表示,OpenAI 最亲密的合作伙伴和最大投资者微软,原本预计在 2024 年中期看到新模型。
OpenAI 至少进行了两次大型训练,每次都需要数月的时间来处理大量数据,目的是让 Orion 更聪明。项目相关人士表示,每次都会出现新问题,软件未能达到研究人员所期望的结果。
他们说,最好的情况下,Orion 的表现优于 OpenAI 目前的产品,但尚未进步到足以证明维持新模型运行的巨大成本。根据对训练各个方面的公开和私有估计,六个月的训练运行仅计算成本就可能花费约五亿美元。
OpenAI 及其大胆的首席执行官山姆·奥特曼在两年前推出 ChatGPT 时震动了硅谷。人工智能承诺将不断展现出戏剧性的进步,并渗透到我们生活的几乎所有方面。分析师预测,科技巨头在未来几年可能会在人工智能项目上花费 1 万亿美元。
这些期望的重担主要落在 OpenAI 身上,这家公司位于人工智能繁荣的中心。
投资者在十月份给予 OpenAI 的 1570 亿美元估值在很大程度上基于奥特曼的预测,即 GPT-5 将在各种主题和任务中代表一个“显著的飞跃”。
GPT-5 应该能够解锁新的科学发现,并完成日常人类任务,如预订约会或航班。研究人员希望它能比今天的人工智能犯更少的错误,或者至少承认不确定性——这是当前模型面临的挑战,因为它们可以以明显的自信产生错误,这被称为幻觉。
AI 聊天机器人运行在称为大型语言模型的基础技术上,或称为 LLM。消费者、企业和政府已经依赖它们来处理从编写计算机代码到美化营销文案和策划派对的所有事务。OpenAI 的模型称为 GPT-4,这是该公司自 2015 年成立以来开发的第四个 LLM。
虽然 GPT-4 表现得像一个聪明的高中生,但前 OpenAI 高管表示,最终的 GPT-5 在某些任务上实际上会像博士生。今年早些时候,奥特曼在斯坦福大学的一次演讲中告诉学生,OpenAI 可以“以很高的科学确定性”说 GPT-5 将比当前模型聪明得多。
没有设定的标准来确定何时一个模型足够智能,可以被称为 GPT-5。OpenAI 可以在数学和编码等领域测试其LLMs。是否将该模型称为 GPT-5,主要取决于公司高管的直觉,或者正如许多技术专家所说的,“氛围”。
到目前为止,气氛不对。
OpenAI 和微软拒绝对此文章发表评论。奥特曼在 11 月表示,该初创公司不会在 2024 年发布任何名为 GPT-5 的产品。
一、训练日
从GPT-4 在 2023 年 3 月发布的那一刻起,OpenAI 就一直在开发 GPT-5。
长期从事人工智能研究的学者表示,开发像LLMs这样的系统既是一门艺术,也是一门科学。世界上最受尊敬的人工智能科学家因其对如何获得更好结果的直觉而受到赞誉。
模型在训练过程中进行测试,这是一个持续的时期,模型可以接收数万亿个称为标记的词片段。一次大型训练可能需要几个月的时间,在一个拥有数万个昂贵且受欢迎的计算机芯片的数据中心进行,通常来自Nvidia。
在一次训练过程中,研究人员在电脑前弯腰工作数周甚至数月,试图将世界上大部分知识输入到一个人工智能系统中,使用一些最昂贵的硬件在遥远的数据中心。
奥特曼表示,训练 GPT-4 的成本超过 1 亿美元。未来的人工智能模型预计将超过 10 亿美元。一次失败的训练就像一枚火箭在发射后不久在天空中爆炸。
研究人员通过在较小的规模上进行实验来尽量减少这种失败的可能性——在真正的实验之前进行试运行。
从一开始,GPT-5 的计划就存在问题。
在 2023 年中,OpenAI 开始了一次训练运行,同时也是对 Orion 提议的新设计的测试。但这个过程进展缓慢,表明更大规模的训练运行可能需要非常长的时间,这反过来又会使其变得极其昂贵。而这个名为 Arrakis 的项目的结果表明,创建 GPT-5 的过程不会像预期的那样顺利。
OpenAI 研究人员决定对 Orion 进行一些技术调整以增强其性能。他们还得出结论,认为需要更多多样化的高质量数据。他们觉得公共互联网的数据不足。
通常,人工智能模型在处理的数据越多,其能力就越强。对于LLMs来说,这些数据主要来自书籍、学术出版物和其他受人尊敬的来源。这些材料帮助LLMs更清晰地表达自己,并处理各种任务。
对于其之前的模型,OpenAI 使用了从互联网抓取的数据:新闻文章、社交媒体帖子和科学论文。
为了让 Orion 更智能,OpenAI 需要让它更大。这意味着它需要更多的数据,但目前还不够。
“这变得非常昂贵,并且很难找到更多同等高质量的数据,”DatologyAI 的首席执行官 Ari Morcos 说,该初创公司开发工具以改善数据选择。Morcos 正在用更少但更好的数据构建模型,他认为这种方法将使今天的人工智能系统比所有顶级人工智能公司(如 OpenAI)所采用的策略更具能力。
OpenAI 的解决方案是从零开始创建数据。
它正在招聘人员为 Orion 编写新的软件代码或解决数学问题以供学习。这些工人中有些是软件工程师和数学家,他们还与 Orion 分享他们工作的解释。
许多研究人员认为,代码,软件的语言,可以帮助LLMs解决它们尚未见过的问题。
让人们解释他们的思考加深了新创建数据的价值。这为LLM提供了更多的语言输入;这也是模型未来如何解决类似问题的地图。
“我们正在将人类智慧从人类思维转移到机器思维中,”Turing 的首席执行官兼联合创始人乔纳森·西达特说。Turing 是一家与 OpenAI、Meta等公司合作的人工智能基础设施公司。
在人工智能训练中,Turing 高管表示,软件工程师可能会被要求编写一个有效解决复杂逻辑问题的程序。数学家可能需要计算由一百万个篮球构成的金字塔的最大高度的答案——更重要的是,如何得出这些答案——然后被纳入人工智能训练材料中。
OpenAI 与理论物理等领域的专家合作,解释他们将如何解决该领域一些最棘手的问题。这也可以帮助 Orion 变得更聪明。
这个过程非常缓慢。GPT-4 的训练数据估计为 13 万亿个标记。1000 人每天写 5000 个单词需要几个月才能产生 10 亿个标记。
OpenAI 还开始开发被称为合成数据的数据,即由 AI 创建的数据,以帮助训练 Orion。研究表明,AI 为 AI 创建数据的反馈循环往往会导致故障或产生无意义的答案。
OpenAI 的科学家认为,他们可以通过使用其另一个 AI 模型生成的数据来避免这些问题,该模型称为 o1,知情人士表示。
OpenAI 原本就困难的任务因内部动荡和竞争对手几乎不断试图挖走其顶尖研究人员而变得更加复杂,有时甚至提供数百万美元的报酬。
去年,奥特曼被 OpenAI 的董事会突然解雇,一些研究人员担心公司是否会继续运营。奥特曼很快被重新任命为首席执行官,并着手改革 OpenAI 的治理结构。
今年已有超过二十位关键高管、研究人员和长期员工离开了 OpenAI,包括联合创始人兼首席科学家伊利亚·苏茨凯弗和首席技术官米拉·穆拉提。上周四,广受尊敬的研究人员亚历克·拉德福德宣布离职,他在 OpenAI 工作了大约八年,并担任多篇科学论文的首席作者。
二、重启
到 2024 年初,管理层开始感受到压力。GPT-4 已经发布一年,竞争对手开始迎头赶上。来自 Anthropic 的一款新LLM被业内许多人评为优于 GPT-4。几个月后,谷歌推出了今年最具病毒传播性的 AI 应用,名为 NotebookLM。
随着 Orion 的停滞,OpenAI 开始开发其他项目和应用程序。它们包括精简版的 GPT-4 和 Sora,一个可以生成 AI 视频的产品。
这导致了在新产品开发团队和 Orion 研究人员之间对有限计算资源的争夺,知情人士表示。
人工智能实验室之间的竞争变得如此激烈,以至于主要科技公司发布的关于最新发现或突破的论文比科学界的典型数量要少。两年前,随着资金涌入市场,科技公司开始将这些研究成果视为需要保护的商业机密。一些研究人员对此非常认真,他们不愿在飞机、咖啡店或任何可能有人从旁边窥视他们工作的地方工作。
这种保密的态度让许多长期从事人工智能研究的人感到沮丧,包括 Meta 的首席人工智能科学家 Yann LeCun。LeCun 表示,OpenAI 和 Anthropic 的工作不应再被视为研究,而应被视为“高级产品开发”。
“如果你在商业时钟上进行这项工作,那就不叫研究,”LeCun 在最近的一次 AI 会议上说,当时 OpenAI 的参与很少。“如果你在秘密中进行,那就不叫研究。”
在 2024 年初,OpenAI 准备再次尝试 Orion,这次配备了更好的数据。研究人员在年初的几个月内进行了几次小规模的训练,以增强信心。
到五月,OpenAI 的研究人员决定他们准备好进行另一次大规模的 Orion 训练,这次训练预计将持续到十一月。
一旦训练开始,研究人员发现数据存在一个问题:它并不像他们想象的那样多样化,这可能限制了 Orion 的学习能力。
这个问题在小规模的努力中并不明显,只有在大型训练运行开始后才变得明显。OpenAI 已经花费了太多时间和金钱,无法重新开始。
相反,研究人员急忙寻找更广泛的数据来在训练过程中为模型提供支持。目前尚不清楚这一策略是否有效。
Orion 的问题向 OpenAI 的一些人发出了信号,表明曾推动其早期成功的“更多即是更多”策略正在失去动力。
OpenAI 并不是唯一一家担心进展遇到瓶颈的公司。在整个行业中,关于人工智能的改进是否开始停滞的辩论正在激烈进行。
Ilya Sutskever 最近共同创办了一家名为安全超级智能(SSI)的新人工智能公司,他在最近的一次人工智能会议上宣称,最大数据时代已经结束。“数据没有增长,因为我们只有一个互联网,”他对一群研究人员、政策专家和科学家说。“你甚至可以说数据是人工智能的化石燃料。”
而那燃料开始耗尽了。
三、推理
他们在 Orion 的挣扎使 OpenAI 研究人员找到了让LLM更聪明的新方法:推理。研究人员表示,花费很长时间“思考”可以让LLMs解决他们未经过训练的困难问题。
在幕后,OpenAI 的 o1 为每个问题提供多个回答,并分析它们以找到最佳答案。它可以执行更复杂的任务,比如撰写商业计划或创建填字游戏,同时解释其推理过程——这有助于模型从每个答案中学习一点。
苹果的研究人员最近发布了一篇论文,认为推理模型,包括 o1 的版本,很可能是在模仿它们在训练中看到的数据,而不是实际解决新问题。
苹果研究人员表示,如果问题被更改为包含无关细节——例如将关于猕猴桃的数学问题调整为提到一些水果比其他水果小,他们发现“灾难性的性能下降”。
在九月份,OpenAI 推出了其 o1 推理模型的预览,并在本月早些时候发布了 o1 的完整版本。
所有这些额外的脑力成本很高。OpenAI 现在支付费用以生成对单个查询的多个答案,而不仅仅是一个。
在一次最近的 TED 演讲中,OpenAI 的一位高级研究科学家强调了推理的优势。
“结果发现,让机器人在一手扑克中思考 20 秒,获得的性能提升与将模型规模扩大 100,000 倍并训练 100,000 倍的时间相同,”OpenAI 科学家诺姆·布朗说道。
一个更先进和高效的推理模型可以构成 Orion 的基础。OpenAI 的研究人员正在追求这种方法,并希望将其与旧的方法结合起来,即更多的数据,其中一些数据可能来自 OpenAI 的其他 AI 模型。然后,OpenAI 可以用人类生成的材料来完善结果。
在星期五,奥特曼宣布了一种新的推理模型的计划,这种模型比公司之前发布的任何模型都要智能。他没有提到何时或是否会推出一个值得称为 GPT-5 的模型。