欢迎光临
我们一直在努力

深度|OpenAI 今秋发布“草莓”模型!应用于旗舰模型 Orion 训练和即将推出的 Agent,微软合作条款也将发生变化

aigc阅读(23)

OpenAI 正在寻求更多资本支持的同时,其研究人员正尝试推出一款他们认为能够比现有 AI 更好地解决复杂问题的新型 AI 产品。 本月早些时候,CEO Sam Altman 在推特上发布了一张草莓的图片,但没有做出解释,这引发了人们对即将推出的产品的猜测。据知情人士透露,今年夏天,OpenAI 还向国家安全官员展示了 Strawberry 的演示。

Altman 还在寻求为公司筹集更多资金,并寻找减少亏损的方法。自 2019 年以来,OpenAI 已从微软筹集了约 130 亿美元资金,作为与这家企业软件巨头合作的一部分,该合作协议将持续到 2030 年。

据知情人士透露,合作协议的条款可能会发生变化,包括 OpenAI 向微软支付租用云服务器开发 AI 的费用。其中,云服务器是 OpenAI 最大的成本。

01 关于 “Strawberry”

根据 The Information,两位参与 OpenAI 该项目的人员透露,研究人员计划在今年秋季推出代号为“Strawberry”(此前称为 Q*,发音为 Q Star)的新型 AI,并有可能将其作为 ChatGPT 的一部分。

Strawberry 的起源可以追溯到研究领域。它的研究始于前 OpenAI 首席科学家 Ilya Sutskever。在他离职之前,OpenAI 研究人员 Jakub Pachocki 和 Szymon Sidor 在 Sutskever 的工作基础上开发了一种新的数学解决模型 Q*,这让一些专注于 AI 安全的研究人员感到担忧。

就在 Q* 诞生之前,OpenAI 的研究人员开发了一种称为测试时计算的概念变体,旨在提升 LLM 的解决问题能力,该方法使得模型在执行某人的命令或回答问题时能够花更多时间考虑所有部分。当时,Sutskever 还发表了一篇与此相关的博客文章。

Strawberry 可以解决此前未见过的数学问题,这是现今的聊天机器人无法可靠完成的任务。此外,它还经过训练以解决编程相关的问题,但它的能力并不限于回答技术性问题。

在给予更多时间“思考”的情况下,Strawberry 模型还可以回答客户关于更主观话题的问题,比如产品营销策略。

为了展示 Strawberry 在语言相关任务上的能力,OpenAI 的员工向同事展示了 Strawberry 如何解决《纽约时报》复杂的文字游戏 Connections。

The Information 认为,能够解决复杂数学问题的 AI 可能是一项潜在的有利可图的应用,因为现有的 AI 在航空航天和结构工程等数学密集型领域表现不佳。

研究人员发现 ChatGPT 容易给出错误答案,为了改善模型的推理能力,一些初创公司已经开始使用一种廉价的解决办法,将问题分解为更小的步骤,尽管这种变通方法既慢又昂贵。

02 减少下一代模型 Orion 幻觉

Strawberry 最重要的应用之一是为OpenAI 正在开发的下一个旗舰大型语言模型Orion 生成高质量的训练数据。

OpenAI 的前景在一定程度上取决于其正在开发的新旗舰模型 Orion 的最终发布。该模型旨在改进去年早些时候推出的现有旗舰模型 GPT-4。

OpenAI 研究人员表示,使用 Strawberry 可以帮助 Orion 减少幻觉或错误的数量。通过更大的 Strawberry 模型来生成训练 Orion 的数据,这种由 AI 生成的数据被称为“合成数据”。

Altman 在五月的一次活动中表示:“我们觉得我们有足够的数据来开发下一个模型。”他还表示:“我们进行了各种实验,包括生成合成数据。”

这意味着 Strawberry 可能有助于 OpenAI 克服获取足够高质量数据的限制,从而通过从互联网中获取文本或图像等现实世界数据来训练新模型。

此外,Strawberry 可能会帮助即将推出的 OpenAI Agent。Minion AI  CEO 兼 GitHub Copilot 前首席架构师 Alex Graveley 表示,OpenAI 或通过 Strawberry 生成更高质量的训练数据可能有助于 OpenAI 减少模型幻觉的数量。

他还表示,想象一个没有幻觉的模型,当你问它一个逻辑难题时,它能第一次就给出正确答案。模型能够做到这一点的原因是训练数据中的歧义更少,因此它的猜测也更少。

03 基于 Orion 模型的 ChatGPT

推出 Strawberry 的努力是 OpenAI 为了在对话式 AI 或 LLM 领域继续保持领先地位的一部分。这项技术还对未来产品有着重要影响,这些产品被称为 Agent,旨在解决多步骤任务。

OpenAI 及其竞争对手希望这些 Agent 人能够开辟更多的收入机会。OpenAI 的业务正以惊人的速度增长:其向企业销售 LLM 和 ChatGPT 订阅服务的收入大约是去年同期的三倍,每月收入达 2.83 亿美元,尽管其月度亏损可能高于此数,公司估值 860 亿美元。

然而,其他竞争对手已经推出了与 GPT-4 性能相当的模型。目前尚不清楚 Strawberry 的聊天机器人版本能否在今年成功推出。

据悉,这个聊天机器人版本是 Strawberry 模型的一个更小、更简化的版本,称为蒸馏模型,它试图在保持较大模型相同性能的同时,更易于操作并降低成本。

此外,OpenAI 内部也在努力通过一种名为“提炼”的过程来简化和缩小 Strawberry ,以便在 Orion 发布之前将其用于基于聊天的产品。鉴于顶级 AI 开发商之间的竞争日益激烈,这应该并不令人意外。

目前还不确定以 Strawberry 为基础的产品会是什么样子,但一个显而易见的想法是将 Strawberry 改进的推理能力融入 ChatGPT 中。

例如,本月早些时候,谷歌在 OpenAI 之前推出了 AI 驱动的语音助手,尽管 OpenAI 最早在五月宣布了其版本,该助手能够灵活应对用户的打断和话题突然变化。

The Information 认为,这意味着 Strawberry 可能不适合用户期望立即响应的应用程序,例如 OpenAI SearchGPT 搜索引擎,但非常适合对时间不太敏感的用例,例如修复 GitHub 中的非关键编码错误。

无论 Strawberry 是否作为产品发布,随着 OpenAI 寻求继续领先竞争对手并保持显著的收入增长,人们对 Orion 的期待都在不断增加。

Coatue 在最新的 EMW 2024 中表示,英伟达 3 万亿市值对技术主导的“操作系统”而言已经成为一种常态。

语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

aigc阅读(33)

Transformer和Diffusion,终于有了一次出色的融合。

自此,语言模型和图像生成大一统的时代,也就不远了!

这背后,正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。

论文地址:https://arxiv.org/abs/2408.11039

英伟达高级科学家Jim Fan盛赞:之前曾有很多尝试,去统一Transformer和Diffusion,但都失去了简洁和优雅。

现在,是时候来一次Transfusion,来重新激活这种融合了!

在X上,论文共一Chunting Zhou,为我们介绍了Transfusion其中的「玄机」。

为何它能让我们在一个模型中,同时利用两种方法的优势?

这是因为,Transfusion将语言建模(下一个token预测)与扩散相结合,这样,就可以在混合模态序列上训练单个Transformer。

研究者从头开始,在混合文本和图像数据上预训练了参数量高达70亿的Transfusion模型。

使用文本和图像数据的混合,他们建立了一系列单模态和跨模态基准的缩放定律。

实验表明,Transfusion在单模态和多模态基准测试中,相较于对图像进行量化并在离散图像token上训练语言模型,很明显具有更好的扩展性。

研究者发现,Transfusion能够生成与相似规模的扩散模型相媲美的高质量图像,而且,它同时也保持了强大的文本生成能力。

作者强调,团队着重做了建模的创新。

首先,全局因果注意力加上每个图像内的双向注意力,是至关重要的。

另外,引入模态特定的编码和解码层后,可以提高性能,并且可以将每个图像压缩到64甚至16个块!

总之,研究者成功地证明了,将Transfusion方法扩展到70亿参数和2万亿多模态token后,可以生成与类似规模的扩散模型和语言模型相媲美的图像和文本。

这就充分利用了两者的优势!

最后,作者激动地畅想道——

Transfusion为真正的多模态AI模型开启了激动人心的可能性。

这些模型可以无缝处理任何离散和连续模态的组合!无论是长篇视频生成、与图像或视频的交互式编辑/生成会话,我们都可以期待了。

01 生图效果秒杀DALL-E 2和Stable Diffusion

Transfusion的生图效果如何?

让我们来检验一下。

以下这些,都是用在2万亿多模态token上训练的70亿参数Transfusion生成的图像——

可以看出,它的生图质量非常之高。

在GenEval基准测试上,它直接超越了DALL-E 2和Stable Diffusion XL!

研究者训练了一个具有U-Net编码/解码层(2×2潜在像素块)的70亿参数模型,处理相当于2T tokens的数据,其中包括1T文本语料库tokens和35亿张图像及其标注。

表9显示,Transfusion在性能上与高性能图像生成模型如DeepFloyd相当,同时超越了先前发布的模型,包括SDXL。

虽然Transfusion在SD 3后面稍显逊色,但该模型通过反向翻译利用合成图像标注,将其GenEval性能在小规模上提升了6.5%(0.433→0.498)。

此外,Transfusion模型也可以生成文本,并且其性能与在相同文本数据分布上训练的Llama模型相当。

02 图像编辑

以下这些,则是用微调后的70亿参数Transfusion模型编辑的图像——

研究者使用仅包含8000个公开可用图像编辑示例的数据集对70亿参数模型进行了微调,其中每个示例包括一个输入图像、一个编辑提示词和一个输出图像。

对EmuEdit测试集中随机示例的人工检查表明,微调的Transfusion模型可以按照指示进行图像编辑。

也就是说,Transfusion模型确实可以适应并泛化到新的模态组合。

03 让语言和图像大一统的模型来了

我们都知道,多模态生成模型需要能够感知、处理和生成离散元素(如文本或代码)和连续元素(例如图像、音频和视频数据)。

不过,离散元素和连续元素,却很难在同一个模型中大一统起来。

在离散模态中,是语言模型占主导地位,它靠的是在下一个token预测目标上训练的。

而在生成连续模态上,则是扩散模型及其泛化一直处于最前沿。

有没有可能将二者相结合呢?

此前,学界曾尝试了多种方法,包括扩展语言模型,以使用扩散模型作为工具,或者通过将预训练的扩散模型移植到语言模型上。

此外,还有人通过量化连续模态,在离散tokens上训练标准语言模型,从而简化模型架构。

然而这样做的代价,就是信息的丢失。而Meta的研究者在这项工作中,通过训练单个模型,来同时预测离散文本tokens和扩散连续图像,他们成功地做到了完全整合两种模态,而不丢失信息。

他们的方法就是——引入Transfusion。

这是一种训练单一统一模型的方法,可以无缝理解和生成离散和连续的模态。

研究者的主要创新就在于,他们针对不同的模态使用了不同的损失——文本使用语言建模,图像使用扩散——从而在共享的数据和参数上进行训练

研究者在50%的文本和50%的图像数据上预训练了一个Transformer模型,不过对于两种模态来说,分别使用了不同的目标。

前者的目标是,预测文本的下一个token;而后者的目标,则是图像的扩散。

在每个训练步骤中,模型都会同时接触到这两种模态和损失函数。标准嵌入层将文本tokens转换为向量,而块化层(patchification layer)则将每个图像表征为一系列块向量。

随后,研究者对文本tokens应用因果注意力,对图像块应用双向注意力。

在推理时,他们引入了一种解码算法,它结合了语言模型的文本生成和扩散模型的图像生成的标准实践。

从此,有望训练真正的多模态模型

在文本到图像生成中,研究者发现:Transfusion在计算量不到三分之一的情况下,FID和CLIP分数均超过了Chameleon的离散化方法。

在控制FLOPs的情况下,Transfusion的FID分数比Chameleon模型低约2倍。

在图像到文本生成中,也可以观察到类似的趋势:Transfusion在21.8%的FLOPs下与Chameleon匹敌。

令人惊讶的是,Transfusion在学习文本到文本预测方面也更有效,在大约50%到60%的Chameleon FLOPs下实现了文本任务的困惑度平价。

同时,研究者观察到:图像内的双向注意力非常重要,如果用因果注意力替代它,就会损害文本到图像生成。

他们还发现,通过添加U-Net上下块来编码和解码图像,就可以使Transfusion在相对较小的性能损失下,压缩更大的图像块,从而能将服务成本降低到多达64倍。

最后,研究者证明了:Transfusion可以生成与其他扩散模型相似质量的图像。

他们在2万亿tokens上,从零开始训练了一个7B参数的Transformer,它增强了U-Net的下采样/上采样层(0.27B参数)。

在这2万亿tokens中,包含1万亿的文本tokens,以及大约5个周期的692M图像及标注,相当于另外1万亿个patches/tokens。

在GenEval基准上,Transfusion模型优于其他流行模型,如DALL-E 2和SDXL。

而且,与那些图像生成模型不同的是,它还可以生成文本,在文本基准上达到了Llama 1级别的性能水平。

总之,实验表明:Transfusion是一种十分有前途的方法,可以用于训练真正的多模态模型。

数据表征

研究者在两种模态上进行了数据实验:离散文本和连续图像。

每个文本字符串被标记化为来自固定词汇表的离散token序列,其中每个token被表征为一个整数。

每个图像被编码为使用VAE的潜在块,其中每个块被表征为一个连续向量;这些块从左到右、从上到下排序,以从每个图像创建一个块向量序列。

对于混合模态的例子,研究者在将图像序列插入文本序列之前,用特殊的图像开始(BOI)和图像结束(EOI)token包围每个图像序列。

因此,就得到了一个可能同时包含离散元素(表征文本token的整数)和连续元素(表征图像块的向量)的单一序列。

模型架构

模型的大部分参数属于一个单一的Transformer,它会处理每个序列,无论模态如何。

Transformer将一个高维向量序列作为输入,并生成类似的向量作为输出。

为了将数据转换到这个空间,研究者使用了具有不共享参数的轻量级模态组件。

对于文本,这些自己组件是嵌入矩阵,会将每个输入整数转换为向量空间,并将每个输出向量转换为词汇表上的离散分布。

对于图像,研究者则尝试了两种方法,将k×k块向量的局部窗口压缩为单个Transformer向量(反之亦然):(1)一个简单的线性层,以及(2)U-Net的上下块。

研究者使用预训练的VAE(变分自编码器)将图像和潜在表征进行互相转换,然后通过简单的线性层或U-Net下采样块,将其转换为patch表征

Transfusion注意力

语言模型通常使用因果掩码,来有效地计算整个序列的损失和梯度,只需一次前向-后向传递,而不会泄露未来token的信息。

相比之下,图像通常会使用不受限制的(双向)注意力来建模。

而Transfusion通过对序列中的每个元素应用因果注意力,并在每个单独图像的元素内应用双向注意力,来结合这两种注意力模式。

这样,每个图像块就可以在关注同一图像中其他块的同时,只关注序列中先前出现的文本或其他图像的块。

结果显示,启用图像内注意力显著提升了模型性能。

在因果掩码上扩展后,Transfusion就允许同一图像的patch相互为条件

训练目标

为了训练模型,研究者将语言建模目标LLM应用于文本token的预测,将扩散目标LDDPM应用于图像块的预测。

LM损失是逐个token计算的,而扩散损失是逐个图像计算的,这可能跨越序列中的多个元素(图像块)。

具体来说,他们根据扩散过程,向每个输入潜在图像x0添加噪声ε,以在块化之前产生xt,然后计算图像级别的扩散损失。

通过简单地将每种模态上计算出的损失与平衡系数λ结合,研究者合并了这两种损失:

这个公式,也是一个更广泛想法的具体实例:将离散分布损失和连续分布损失结合,就可以优化同一模型。

推理

为了反映训练目标,解码算法也需要在两种模式之间切换:LM和扩散。

在LM模式中,从预测分布中逐个token进行采样。当采样到一个BOI token时,解码算法切换到扩散模式。

具体来说,这需要将形式为n个图像块的纯噪声xT附加到输入序列中(取决于所需的图像大小),并在T步内去噪。

在每一步t中,噪声会被预测并使用它生成x_(t−1),然后将其覆盖在序列中的x_t上。即,模型始终基于噪声图像的最后一个时间步进行条件处理,无法关注之前的时间步。

一旦扩散过程结束,就将一个EOI token附加到预测的图像上,并切换回LM模式。

如此一来,就可以生成任意混合的文本和图像模态。

04 实验

与Chameleon的比较

研究者在不同模型规模(N)和token计数(D)下,比较了Transfusion与Chameleon,并使用两者的组合作为FLOPs(6ND)的代理。

为了简化和参数控制,这些实验中的Transfusion变体使用简单的线性图像编码器/解码器,块大小为2×2,以及双向注意力。

如图5所示,在每个基准测试中,Transfusion始终表现出比Chameleon更好的scaling law。

受参数、数据和计算控制的不同规模的Transfusion和Chameleon模型的性能,其中所有轴都是对数的

表3则显示了模型的评估结果,以及平价FLOP比率。

其中,平价FLOP比率用来估算相对计算效率:Transfusion和Chameleon达到相同性能水平所需的FLOPs数量之比。

计算效率的差异在图像生成中特别显著,其中FID Transfusion以1/34的计算量实现了与Chameleon的平价。

最大(7B)Transfusion和Chameleon模型在受控环境中的性能,两个模型均在0.5T token上进行训练

令人惊讶的是,纯文本基准测试也显示出Transfusion的更好性能,即使Transfusion和Chameleon以相同方式建模文本。

与原始Llama 2配方相比,0.76B Transfusion和Chameleon模型在纯文本基准上的性能

架构消融

1)注意力掩码

表5显示,在所有基准测试中,启用这种注意力模式比标准因果注意力效果更好,并且在使用图像编码/解码架构时也是如此。特别是,在使用线性编码层时,FID的改善最为显著(61.3→20.3)。

在仅因果的架构中,序列中后出现的块不会向前面的块传递信息;由于U-Net块内含有双向注意力,并独立于Transformer的注意力掩码,因此这种差距不太明显。

有/无图像内双向注意力的0.76B Transfusion模型的性能

2)块大小

Transfusion模型可以在不同尺寸的潜在像素块上定义。较大的块大小允许模型在每个训练批次中打包更多图像,并显著减少推理计算量,但可能会带来性能损失。

表6显示,虽然随着每个图像由更少的线性编码块表征,性能确实一致下降,但使用U-Net编码的模型在涉及图像模态的任务中受益于较大的块。

这可能是因为训练期间看到的总图像(和扩散噪声)数量更大。

此外,随着块逐渐变大,文本性能也在变差。

这可能是因为Transfusion需要投入更多资源(即参数)来学习如何处理具有较少块的图像,从而减少推理计算。

3)块编码/解码架构

实验表明,使用U-Net的上升和下降块比使用简单的线性层有优势。

一个可能的原因是模型受益于U-Net架构的归纳偏置;另一种假设是,这种优势来自于U-Net层引入的整体模型参数的显著增加。

为了分离这两个混杂因素,研究者将核心Transformer扩展到70亿个参数,同时保持U-Net参数量(几乎)不变;在这种设置下,额外的编码器/解码器参数仅占总模型参数的3.8%增加,相当于token嵌入参数的量。

表7显示,尽管随着Transformer的增长,U-Net层的相对优势缩小,但并未消失。

例如,在图像生成中,U-Net编码器/解码器使得较小的模型能够获得比使用线性块化层的70亿模型更好的FID分数。

在图像描述中,也有类似的趋势——添加U-Net层让1.4B Transformer(总计1.67B)的CIDEr得分超过了线性70亿模型的性能。

总体而言,U-Net对图像的编码和解码确实具有归纳偏置的优势。

Transfusion的线性和U-Net变体在不同模型大小上的性能

4)图像加噪

实验中,80%的图像-标注对按照标注优先的顺序排列,图像依赖于标注,这基于图像生成可能比图像理解更需要数据的直觉。剩下的20%对则是标注依赖于图像。

然而,这些图像需要作为扩散目标的一部分被加噪。

为此,研究者测量了在20%的情况下限制扩散噪声到最大t=500,即图像在标注之前出现时的效果。

表8显示,限制噪声显著改善了图像描述,CIDEr得分显著提高,同时对其他基准测试的影响相对较小(小于1%)。

结论

这项研究探讨了如何弥合离散序列建模(下一个token预测)与连续媒体生成(扩散)之间的差距。

研究者提出了一个简单但以前未被探索的解决方案:在两个目标上训练一个联合模型,将每种模态与其偏好的目标联系起来。

实验表明,Transfusion可以有效扩展,几乎没有参数共享成本,同时能够生成任何模态。

作者介绍

Chunting Zhou

共同一作Chunting Zhou,是Meta AI的研究科学家,研究兴趣是高效且可扩展的生成模型。

她于2022年在卡耐基梅隆大学计算机科学学院的语言技术研究所获得博士学位,从事的是自然语言处理的研究。此前,她于2016年在香港大学获得计算机科学硕士学位,于2014年在大连理工大学获得计算机软件工程学士学位。

Lili Yu

另一位共同一作Lili Yu,也是Meta AI的研究科学家。

她于2016年在麻省理工学院获得电气工程与计算机科学博士学位,于2011年在北京大学获得物理学学士学位。

Xuezhe Ma

在这篇论文中,还有一位华人作者Xuezhe Ma,是南加州大学信息科学研究所的研究主管和计算机科学系的研究助理教授。

原则上,表征学习可以自动学习在数学和计算上便于处理的表征。对此Xuezhe Ma认为,基于深度学习方法的表征学习技术可以从根本上改变传统的特征设计范式。

他的研究重点是通过开发和分析深度学习技术来实现这一转变,以提高表征学习的有效性、效率、可解释性和鲁棒性。

主要贡献如下:

– 多模态大语言模型(LLMs)的效率开发了高效的统一神经架构和学习算法,以学习各种数据模态的通用语义空间。

– 大语言模型中的高效且鲁棒的长上下文建模开发了高效且鲁棒的架构和方法,用于在大语言模型中建模长程依赖关系。

– 多模态大语言模型在长序列数据中的应用和评估方法将长上下文大语言模型应用于实际任务,并开发可靠的评估指标。

他在卡耐基梅隆大学语言技术研究所获得博士学位,师从Eduard Hovy教授,并在上海交通大学获得了计算机科学硕士和学士学位。

参考资料:

https://the-decoder.com/metas-transfusion-blends-language-models-and-image-generation-into-one-unified-model/

https://x.com/violet_zct/status/1826243212530610389

https://x.com/DrJimFan/status/1827116592951652823

剑指「智能体」

aigc阅读(38)

关于ChatGPT做搜索的新闻,我一直挺感兴趣。

上个月25号,OpenAI在当地推出了一个新产品,名叫“SearchGPT”。官方说,产品能给用户提供带链接的搜索结果,用户还可以继续问问题,系统会根据上下文给出回答。

我看到消息后,马上申请内测。但一个月过去,官方还没给我权限;现在网上办法多。我就通过特殊朋友渠道,弄到了一个测试账号,体验了一把。

体验之后什么感觉呢?

一句话总结即:perplexity AI解决不了的问题,SearchGPT也解决不了。

比如:AI幻觉。一千个观众有一千个哈姆雷特,不同的人看同一信息可能得出不同的结论。就算是同一个人,今天看到的东西和明天可能理解也会有所不同。

这就像AI面对复杂、多变的人类思维一样,如果AI不能真正地“站在你的角度”去理解问题,感受你的感受,那它很难独立地给出人们真正想要的答案。

因此,除非AI能达到这样高级的理解和适应能力,不然,AI永远无法避开幻觉问题。所以,怎么办呢?

01

来看看另一个新闻:

不久前,Twitter上有个名叫@iruletheworldmo的用户频繁爆料,谈到Project Strawberry(草莓计划),这是OpenAI的一个项目,以前叫Q-Star。

这个计划目标是让AI变得更聪明,更能自主。简单来说,他们希望训练出来的AI能自己处理很多事,不需要人来监督。

这意味着,AI将能自己搜索信息,深入研究问题,甚至自己创造数据,这样就能减少对人类的依赖。也就是说,AI可能会变得更像人,更会思考。

这条推文引起了不少人的关注,大家都在猜到底是不是OpenAI内部信息,但还没等到官方回复,就有人跳出来了,这人叫Div Garg,是MultiOn公司的创始人。

他说:

OpenAI的“Q”还没正式出来,但我们已经推出了一个新的智能体,叫“Agent Q”,并且邀请大家来试试,很多人怀疑他在利用OpenAI的秘密项目来做广告。

我查了查,发现MultiOn这家公司确实在2023年接受了OpenAI、DeepMind等公司、高管个人的投资;所以,让人不禁猜想,OpenAI做的搜索项目,和他们到底有没有关系?

好吧。姑且,不论这事,来看看MultiOn这家公司。

MultiOn专门做AI智能体,目标是,通过智能体帮助人们完成日常任务,比如:网页浏览、网购和邮件处理,他们希望构建一个能在数字世界里,能自主完成复杂任务的AI系统。

这么一看,两者之间确实有些相似。相似在哪呢?

我们换个角度:

请问,你解决不了AI搜索幻觉的问题,还要不要解决?作为普通人的我们当然觉得,要。必须解决。其实,单一视角往往会限制我们。

系统科学家罗素·艾可夫(Russell L. Ackoff),在作品《问题解决的艺术》中提到:

复杂问题往往源于问题定义本身,如果能够以新的视角、新框架重新定义问题,有时能发现原本看似复杂的问题,其实有更简单的解决之道,或者,原本的问题根本就不需要以传统的方式解决。

也就是说:解决一个复杂问题,最好的办法是,绕开把它转成一个非问题。

举个通俗的例子:

想象一下,你家厨房每次做完饭都一团糟。通常,你可能会选择在烹饪后进行一次大扫除,这样虽然能清理干净,但每次要花费大量时间和精力。

如果你换一个角度来看就不一样了。类似,重新组织厨房物品,把常用的厨具、调料放在容易拿到的地方,不常用的东西则收好。

改进烹饪流程,做饭时,边做边清洗用过的器具,甚至,在操作台上放一个垃圾桶,用于临时收集厨余和垃圾。

这样,是不是做饭过程中就能持续保持厨房整洁了?这就是,非问题化;重新定义问题和调整处理方式,使原本要解决的问题变得不再是问题。

02

那么,这和搜索与智能体之间有什么关系呢?来看看,OpenAI首席执行官Sam Altman在2024年4月25日斯坦福大学的演讲。

他说,AI实现通用人工智能(AGI)要经过五个阶段:

  • 一级:能够进行对话交互的人工智能;
  • 二级:系统能够解决博士级别的问题。
  • 三级:系统能够代表用户工作几天;
  • 四级:人工智能能够开发创新。
  • 五级:人工智能系统可以执行组织的工作。

他并指出,目前OpenAI处于第一级,接近第二级。

考虑到进展,请思考一下,这样一个AI行业巨头,如何从当前阶段过渡到更高级阶段,比如“三级或四级,或者说,如何让弱人工智能到强人工智能?让技术更能满足每个用户第一场景使用情况?

答案很明显:AI智能体。

因为,智能体是过度解决问题的最好办法。想象一下,在理想状态下,面对亿万用户时,如果能够展示数千万个AI解决方案,来帮助大家解决各种问题,那么,无疑是最有效的。

毕竟,每个人都能找到符合自己需求的解决方案,极大提到了解决问题的效率和质量。

为什么是智能体?

昨天,一个朋友抱怨说,买房后要还贷款,未来几十年每月都要还几千块钱;他让我帮忙算一算,到目前为止,他一共还了多少本金和利息,如果他想提前还款,根据现在的政策,可以节省多少钱。

这种复杂的问题我怎么能解决?于是,我把它给了豆包。

我先描述基本情况,让豆包记住,然后,再把其他想法和诉求告诉它。大概几十轮的对话后,豆包帮我详细计算了出来,并生成一份大约600字的详细分析报告。

这份报告包括了完整的背景信息、我的具体诉求、计算过程和对比分析等。

你用过豆包,或者其他可以和AI对话的工具么?不知道你有没有发现,现在此类对话工具,连续上下文逻辑能力变强了。

我再说一个贴身经历:

最近几天,经常接到一些奇怪的电话,涉及内容如贷款、房产购买、京东优惠等。

这些电话中,上来就问需要、不需要、行或者不行。我发现,对方语气很像真人,但当我给出它们设定范围以外的问题时,它无法回答了。

这说明,智能体已经在不知不觉中融入了日常生活,它们,能够在特定的环境中模仿人类的互动方式。

所以,一个完整智能体,能够充分与环境互动,这包括智能体自身和它所处的环境两个部分;就像人类在物理世界中的行为一样,智能体在其“外部环境”中也能执行任务。

说白了,我可以与它交互,也能设定好指令,界定范围,让它帮我完成目标。

对比下来,是不是不难看出,智能体无疑是绕过AI搜索中幻觉问题、并成功商用的有效方式之一?

为什么这么说?

你想想看,考虑传统AI搜索和提问时,AI搜索直接给出答案,这种答案比较扁平化,不具备连贯性。换言之,你提出一个问题,AI直接给你一个结论,结论会引用来自多个信息源的数据。就结束了。

智能体工作方式不同。

它不仅对单一问题做出反应,还会引入外部信息,在一连串多轮问答中,会反复接受来自你的信号,通过这种互动,它更能理解你的诉求。

在解决问题之后,它能生成一篇简短的文章、总结方案,把整个互动过程指标串联在一起;很明显,智能体不是一个简单的AI提问、总结工具,是一个完全符合每个人需求的系统。

因此,智能体能完美绕过AI幻觉,毕竟过程中,你不满意时,能一次次纠正它的错误。

03

纵观国内市场,目前谁在做智能体呢?我查阅了一下,据说有超过4500家,比如:大家耳熟能详的百度、科大讯飞、云从科技、字节跳动和腾讯等。

所以,谁在做智能体,这个问题不好解答。与其这样,不如换种思考方式:智能体类型有哪些?我们通过类型看各家所在的生态位。

我盘点结果是:

智能体(Agent)平台大体上分为两类:一类基于知识库和数据库的。就像聊天机器人(Chatbot)这种简单的平台;另一类是用来解决更复杂问题的。这种平台有多工作流编排的能力,比较高级。

国外Orkes Conductor、ControlFlow by Team Prefect、和 Flyte等平台,就是专为复杂工作流和数据处理设计的。

这些平台主要用户包括数据科学家、工程师、开发者,他们用平台来建立和优化复杂的工作流程,提高数据处理的效率和自动化水平。

国内也有类似的平台。像扣子Coze、百度智能云的千帆AgentBuilder、科大讯飞的星火智能体平台,还有腾讯的元气和阿里云的AgentScope等。

他们利用大模型搭建 AI 原生应用工作台,给开发者提供 RAG、Agent、GBI 等应用框架,赋能他们开发出来文生文、对话、文生表等垂直应用,以帮助企业和个人解决问题。

我根据对象、流程和代码复杂程度,把它细分成三类:

  1. 面向公众和非开发人员
  2. 面向开发者的平台
  3. 企业级开发平台

第一种,主要偏向低代码平台,不要你懂太多编程。

像GPTs这样的工具,提供很标准的操作界面和流程,主要用来做基于知识库的聊天机器人。给你一个模板,你按步骤填信息就行,不用自己调整太多东西。

字节跳动的扣子(国内版),就是被设计来帮助人们轻松创建下一代的AI聊天机器人。

第二种平台功能更强大,可以让开发者用各种API、第三方库,还能自己编写代码和调整参数,来精细控制智能体的行为。

Coze海外版很受欢迎,它的功能全面,支持很多高级操作。像百度、阿里和亚马逊也提供这样的平台,让开发者可以用各种AI模型来做更复杂的应用。

企业开发平台,专为企业设计,重点是帮助企业自动化他们的工作流程。

比如:

实在智能的TARS-RPA-Agent和壹沓科技的“数字员工团队”CubeAgent,它们是用来自动化企业日常操作的。

还有国外的Torq和国内澜码科技的AskXbot平台,也提供了大模型结合企业知识库的解决方案,帮助企业自动化处理更多复杂任务。

三种类型各有千秋,这么说,是不是更清楚一些?那么,站在AI搜索和智能体中间来看,智能体属于那种呢?

04

解答该问题,不妨站在行业结构视角看。我盘了一下,智能体(Agent)行业结构有四层,分别为:基础工具层、运营平台层、开发工具层,以及服务与培训平台层。

组件是做智能体必不可少的基础。有各种智能模块、记忆模块,比如语言模型、数据库,还有一些安全工具和通信工具,就像盖房子的砖块和水泥。

运营层,包括制作Agent组件的厂商和各种运营集成平台。如GitHub这样的Agent框架发布平台,它们提供必要的环境和服务,支持智能体运行。

开发层相对容易理解了。

像Agent工具集成平台AgentLego、或提供专属云环境及沙盒环境的平台等,它们使开发者能够构建、测试和部署智能体。

值得一提的是,像NexusGPT、Relevance AI等平台,它们提供数字员工Agent的训练服务,目的帮助企业把智能体整合进现有的工作流程中,或者帮助个人创建能自动完成任务的AI团队,这反而是目前很多企业刚需。

国内也有类似的公司。例如:

金柚网的梧桐数字员工、壹沓科技的数字员工平台1Data Agent,以及实在智能的RPA Agent。

这些平台的特点是允许用户通过聊天,轻松与智能体互动,管理和优化各种业务流程,使智能体理解和执行复杂任务,让日常更高效。

不论怎么说,从短期发展看,智能体要解决两个问题:

  1. 丰富通用工作流和场景工作流,类似于AI搜索下的大搜,还要在处理数据训练、多轮对话的准确性上下功夫。
  2. 让智能体成为知识专家,形成可持续的服务能力。有点像针对特定领域进行深入挖掘。

比如,假设我是做消费品营销的,如果有一个专门的智能体,它学了很多关于社交媒体趋势、消费者行为的知识,那么,它就能真正帮到业务。

当然,智能体在其他行业也在不断爆发,像游戏,金融、医疗等,总体上说,基于LLM的能力,下一步基础智能体必将是绕不开的一步。

总结

让它光思考,远远不够。

想实现真正全面AGI,得把对话模型变成基本智能体,让它参与到实际使用中去;就像人们常说的,从实践中来,到实践中去一样。

所以,AI生成避免不了幻觉,但智能体的轮番交互,可以微调,可以解决具体问题,至少,使用场景下,这是闭环的正向反馈动作。

7000字详解!幼儿园都能看懂的Stable Diffusion工作原理

aigc阅读(52)

事先声明!本文没有苦涩难懂的各种专业术语和代码公式,请大家放心食用!!

在过去的一年里,AIGC在绘画领域的蓬勃发展对设计行业的冲击相信大家都有目共睹。各个公司都在要求设计师必须会使用 AIGC 的相关工具,其中以 Stable Diffusion 为基础的系列工具和 Midjourney 应用范围最广。

AI绘画领域能够取得如此巨大的进展,很大的功劳要归属于Stability AI发布了开源的Stable Diffusion。

它除了降低硬件要求,使其可以在相对普通的硬件上运行外。也正是因为它的开源性,应运而生的相关研究和为了更好控制模型的各种插件才发展的尤为繁荣。

本文也将从 Stable Diffusion 从发,聊一聊它的工作原理,希望能够帮助大家更好的理解和使用它。

为什么需要了解 SD 的工作原理

在使用 Stable Diffusion相关工具时,并非一定需要了解它的工作原理,但了解它对后续的使用会很有帮助。当遇到生成图片质量低,各种参数不知道怎么调整时,不会举手无措。因为你会知道它的配置参数比如:种子、采样器、步数、CFG 比例或去噪强度等是如何去影响最终生成图片的,能够帮助我们自定义调整算法以适应特定的设计需求和偏好,从而生成更符合预期的视觉内容。

在接下来的内容中,我会通过类比的方式让大家了解 Stable Diffusion的内部工作原理,以及它是如何能够通过提示词、图像参考等输入条件来生成各种创意图像的,再次强调本文没有苦涩难懂的各种专业术语和代码公式,几乎适合所有人。如果你在使用 Stable Diffusion 生图得时候,出图总是差强人意,相信看完这篇文章会对你有很大的帮助。

一、生成式模型的发展

生成模型发展初期主要是基于生成对抗网络(GAN),但在2021年随着扩散模型性能的显著提升和生成质量的大幅度改进逐渐成为主流。

因为它更接近人的思维模式,能够实现更自然和多样化的生成内容。

与传统的GAN相比,扩散模型在生成样本的质量、多样性和稳定性上具有一定的优势。并且在跨模态应用中表现出色,例如OpenAI的GLIDE和DALL·E 2、谷歌的Imagen、以及Stability AI的Stable Diffusion等都是基于扩散模型的应用,凸显了它在文本到图像生成中的强大能力。

下面我们先来介绍一下两者的工作原理,放心你一定能看懂!

1. 生成对抗网络(GAN)的工作原理

生成对抗网络(GAN)是由两部分组成的深度学习模型,它的核心思想是让两个网络一个生成器(Generator)和一个判别器(Discriminator)相互对抗,以此来提高生成数据的质量。

接下来我们用设计师做比喻来解释一下生成对抗网络(GAN)的工作原理,想象一个由两位设计师组成的团队:一位是设计实习生(生成器),另一位是设计总监(判别器)。他们相互配合完成客户所要求的视觉作品。

设计实习生(生成器):

实习生的职责是创造出新的视觉作品,比如海报、广告等。他的要求是制作出让客户满意漂亮的作品,以至于让客户相信是出自一位设计大师之手。

在初始阶段他的作品可能看起来比较生硬和不自然,很容易被识别出是新手做的。

设计总监(判别器):

总监主要是评价实习生的作品,并判断它画面是否和谐,字体、颜色等设计是否合理。总监具备视觉鉴赏的敏感眼光,能够识别出画面中的问题。

他的目标是确保提交的方案在视觉上没有问题,画面表达符合客服要求,保持高质量的方案产出。

工作流程:

第一步: 设计实习生提交他的初步设计给设计总监。早期的设计可能很容易出现视觉上的问题,因为缺乏工作经验和设计技法,需要不断地学习。

第二步: 设计总监审核这些设计,并提供反馈,指出画面哪些部分有问题或者没有很好的表达客户的需求。在这个过程中会逐渐提高对实习生的要求。

第三步: 设计实习生根据这些反馈调整他的创作方法,学习新的技术,尝试改进他的画面,让它们更加精细美观,能够更好的表达客户的需求。

重复: 这个过程不断重复,实习生不断改进他的作品,而总监也在不断提高对实习生的作品的视觉要求。

结果:

经过多次迭代后,如果实习生能够创造出,即使是非常有经验的设计总监都难以挑出问题的作品。到这一步就可以说生成对抗网络(GAN)已经训练完成了,生成器(设计实习生)已经能够制作出足够优秀的视觉作品,判别器(设计总监)的审美和视觉评判能力也得到了提升。通过两者不断地提高要求,GAN用于视觉生成,能够产生质量非常高的图像。

2. 生成对抗网络(GAN)被逐渐放弃的原因

GAN的训练不稳定:

设计总监过于挑剔:对设计师的每一项作品都持怀疑态度,并拒绝接受大部分设计方案。

设计师走捷径:为了通过审查,设计师开始不断重复相似的设计作品(模式崩溃),最终丧失了创造力和多样性。

难以评估设计质量:

缺乏明确标准:没有清晰的设计审美标准,很难判断设计师的作品是否符合期望。

设计总监的个人喜好:有时会因为自身的审美偏好对设计师的作品产生偏见,从而影响作品质量的评估。

对资源要求高:

设计师与设计总监的持续对抗需要大量的精力和时间,使得整个设计过程漫长而耗费资源。

设计师需要反复与总监沟通调整,沟通成本较高。

与GAN不同,扩散模型就像是拥有明确方向且稳定的设计团队,通过渐进式的优化逐步达成高质量的设计效果。下面我们继续来看一下扩散模型的工作原理。

二、扩散模型(Diffusion Models) 的工作原理

扩散模型之所以这样命名,是因为它的生成过程和物理学上的分子扩散过程非常相似,就像把冰融化为水再把水冻结成冰,水会在这个过程中逐渐移动和扩散。

扩散模型也是由主要的两个步骤组成,正向扩散和反向扩散,正向扩散是逐步增加噪声直至原始图像没有任何可以辨别的特征,反向扩散是逐步去除噪声直至恢复原始的数据让画面可辨认。

看不懂没有关系,同样我们做个比喻,比如用文物修复师的角色来形容扩散模型的工作原理,文物修复师的工作是修复一件经历了严重损坏的古老珍贵文物。

1. 损坏模拟(正向扩散的加噪过程)

  • 修复师修复文物的时候,首先需要完全了解损坏的过程。因此他采取了一个看似逆向的方法:他先对一个完好无损的相似文物进行人工老化和损坏处理,逐步施加各种损害,比如裂纹、掉漆、褪色等,模拟多年来可能发生的自然磨损。
  • 这个过程相当于扩散模型中的正向过程,即逐步增加噪声。这里的“噪声”不是字面意义上的声音,而是指对文物中的各种损坏因素(裂纹、掉漆、褪色等),让它从完好的状态逐渐变为完全损坏的状态。

2. 文物修复(反向扩撒的去噪过程)

  • 接下来就到了修复师把老化的文物恢复到它原始未受损的状态。这需要非常高超的技术和对文物原始状态的深刻理解。修复师会使用各种工具和化学物质,仔细地去除每一处人为的损坏,包括填补裂缝、重新上色、并修复褪色和磨损的部分。
  • 这一过程对应扩散模型中的逆向过程,即逐步去除噪声。在这里,“去除噪声”意味着修复师在消除之前刻意添加的所有损坏的同时,逐步还原文物的原始状态。

3. 噪声

在这个过程中,”噪声”指的是刻意施加到文物上的各种损坏因素。

这些“噪声”被有计划地逐步加入到文物的破坏中,来模拟文物被随机破坏。这个过程的目的是,在修复训练中创建一个从完全有序到完全无序的连续过程,以便文物修复师学习如何把随机破坏的文物重新恢复出完好的、精美的原始状态。

4. 噪声预测器和采样

噪声预测器和采样在反向扩散中是不可或缺的关键技术。

噪声预测器可以想象成一个高级的诊断工具,文物修复师使用它来分析艺术品的损坏程度和类型。这个工具能够精确地确定每一处损伤的位置、深度和影响,为修复工作提供依据。

采样过程可以视为修复过程中的实际操作步骤,每一步操作都基于噪声预测器提供的数据。由于解决某一个破损的问题有很多种方法,所以采样的实际操作步骤也可以分为很多种。对应到模型中就是各种采样器,比如:Euler, Euler Ancestral, DDIM, DPM++ 2M Karras等。再简单点来说,比如同一道数学题有多种解法,每一种解法就是一个个的采样器。

通过上面的形容,把扩散模型的“加噪”和“去噪”用文物修复的过程来描述,相信大家应该都懂了,其中文物修复师不仅要理解文物人为加速老化过程,还要掌握如何从极端损坏中恢复出文物的原始状态。经过这样不断的双重过程,加上修复工具(噪声预测器和采样等)的使用,先破坏再修复的方式,能够让文物修复师的能力逐渐提升,达到高质量还原文物的目的。回到扩散模型,就是让扩散模型在不断的加噪和去噪中不断训练,提高模型的能力,让其能够生成更高质量的图片或其它逼真数据的目的。

我们经常听到的Stable Diffusion,与扩散模型(Diffusion Models)并不相等,扩散模型是通用的底层技术。而Stable Diffusion是一种实现了特定技术应用的扩散模型,OK,下面我们继续来看一下Stable Diffusion 的工作流程。

三、Stable Diffusion 的工作流程

Stable Diffusion虽然与扩散模型的基本原理相同,但它更注重条件生成,名称中的Stable(稳定的)也强调了这一点,也正是因为条件生成的各项技术,才能让模型更接近我们的想法来生成图片,所以条件生成也是Stable Diffusion的核心功能。

条件生成

条件生成技术在视觉领域扮演着核心角色,我们最常使用的文生图(Text-to-Image)就是其最基础的功能之一, 除了文本到图像的转换。如图像到图像(Image-to-Image)、图像修复(Inpainting)、图像扩展(Outpainting)以及深度到图像(Depth-to-Image)等。这些技术都在各个不同的方向解决控制视觉和图形的任务,下面来看一下它们具体是如何工作的。

文生图(Text-to-Image):文本到图像的转换

将文本转换为计算机能够理解的内容是Stable Diffusion最基本的功能,也就是我们常说的文生图功能。它由以下几部分组成。

分词器(Embedding):

由于计算机不能直接理解人类的语言,只能处理数字和符号。分词器的任务是把我们人类的语言转换成计算机可以理解的数字表示。举个例子,比如:“一只在草地上跳舞的猫”,经过分词器处理后可能是:‘一只’,‘在’,‘草地上’,‘跳舞’,‘的’,‘猫’。通过预先定义的词汇表,将每个词语映射成一个唯一的数字编号。比如:{‘一只’: 1,‘在’: 2, ‘草地上’: 3,‘跳舞’: 4,‘的’:5,‘猫’: 6}。

嵌入(Embedding):

分词器把文本处理好以后,嵌入将数字编号转换为计算机可以处理的数字向量。嵌入向量可以让模型理解文本的含义,并进行后续的任务,例如文本分类、翻译或图像生成,也就是赋予词汇意义。

语言-图像对比预训练模型-CLIP(Contrastive Language-Image Pre-training):

通过学习大量的图像和对应的文本描述,CLIP可以将两者联系在一起,使得模型能够根据图像找到相关的文本描述,根据文本描述找到相关的图像。为计算机提供理解自然语言和视觉内容之间关联的能力,来指导图像的生成。

类标签(Class Labels)

类标签作为条件信息,可以帮助模型生成特定类别的图像。它作为一种补充信息能够提高生成图像的准确性。比如:“一支鲜花插在牛粪上”,可以使用“花”这个标签来确保生成图像中包含花的元素。还可以与特定的风格相关联,比如“漫画风格”“赛博朋克”等,或者与其他类别标签结合,比如:“赛博朋克风格的花插在牛粪上”,模型可以学习到每个类标签与特定图像风格的关联性,从而生成符合标签描述的风格图像。

虽然在Stable Diffusion中主要依赖于文本提示(prompt)来指导图像生成,但类标签在某些应用场景中可以进一步加强生成图像的准确性和多样性。

CFG Scale值(Classification Free Guidance Scale)

CFG Scale值是一种调节参数,它可以控制生成图像多大程度上符合我们给的文本描述或其他条件,数值越大与提示词的匹配度越高,反之越小。CFG Scale值的范围一般在5到15之间,较高值通常在7-12可以生成更符合描述的图像,较低在5以下,可以生成更具创意的多样化图像。在WebUI中CFG Scale值过高出现的过拟合现象,就是模型在尽可能的把提示词中的元素全部画出来,呈现的效果细节会非常多效果很差,这种情况是因为采样的迭代步数不够,不能够画出所有的细节,提高迭代步数你会发现画面会比低CFG Scale值更加精细,画面也不会出现崩坏,但出图占用更多的算力,出图时间很长。

图生图(Image-to-Image)

图生图在Stable Diffusion中可以实现图像风格转换、图像修复、图像扩展、图像编辑与变化、草图到完整图像等工作,它是以用户提供初始图像作为生成的基础,模型从初始图像开始,逐步增加或去除噪声,结合文本描述等其它条件逐渐从初始图像变为符合目标条件的最终图像。

图像深度(Depth-to-Image)

利用深度传感器或者深度估计模型来生成图像深度图,把图像的深度信息作为条件引导,可以让模型理解图像中各个物体到摄像机的距离,能够更好地把握整个场景的几何结构,提高图像的准确性。

ControlNet

ControlNet 是一种神经网络,它以Stable Diffusion的U-Net架构作为基础,加入额外的网络分支,用于处理特定的条件输入。可以理解为在Stable Diffusion本身的条件输入外加入额外的限制条件,ControlNet通过额外的控制输入(如深度图、姿态图、草图等),可以实现对图像生成过程的精确控制。

潜在空间(Latent Space)

潜在空间在Stable Diffusion中起着连接高维图像空间与条件信息的桥梁作用。

就像是PS,文本描述、类标签、ControlNet等就像是ps里的各个功能,并且设置好了动作,然后点一下就生成图像

我们可以把它看做是一个巨大的存满各种各样画作的收藏馆,这里的画不是真正的画,而是包含图像主要特征的各种元素,就像一幅没有拼起来的拼图。Stable Diffusion是这个收藏馆的管理员,文本描述、类标签、ControlNet 等就像是寻找指南,告诉管理员(Stable Diffusion)要寻找那一幅画作,最终根据各种要求快速的找到符合描述的画作。

变分自编码器(Variational Autoencoder,简称VAE)

VAE是一种生成模型,用于学习数据的潜在表示并生成类似的样本。我们同样以画作收藏馆做比喻来理解一下它,VAE是收藏馆的理货员,负责藏馆的画作的摆放和目录的整理,它能够帮助管理员(Stable Diffusion)快速找到目标画作,由于画作是一个个拼图块,它还需要将其拼成完整的图像交给管理员。在Stable Diffusion的工作流程中,VAE起着潜在空间和扩散模型之间的桥梁作用。

工作流程

潜在噪声张量生成:基于固定或随机种子生成具有潜在噪声的张量;文物修复师拿到一件被破坏掉的文物,这是他开始工作的基础。

条件嵌入生成:将文本描述、深度图或类标签等条件信息转换为嵌入向量,以多个维度存储特征。文本描述、深度图、类标签等就像修复师的修复指南,帮助他知道文物原来样子。

CLIP Transformer处理:使用交叉注意力技术计算嵌入向量之间的关系,提供图像生成的指导。CLIP Transformer就像修复师的“详情说明书”,将修复指南转化为详细的修复步骤。

U-Net去噪过程:U-Net根据CLIP Transformer的结果引导去噪过程,以逐步生成符合目标描述的潜在向量。U-Net就像修复师,根据转换好的详情说明逐步还原被破坏的文物,让它逐渐显露出文物完好的形象。

采样与噪声调度器:采样算法生成噪声并从初始张量中减去,噪声调度器控制去噪的非线性进度。采样算法和噪声调度器就像修复师的“工作计划”,决定每次修复的细节和顺序。

VAE与潜在空间:

  • 编码器:VAE编码器将原始图像压缩成潜在向量,形成潜在空间中的索引。VAE编码器就像修复师的“修复指南目录”,负责将文物的形象特征记录下来。
  • 潜在空间:存储由编码器生成的潜在向量,是图像的低维特征表示空间。潜在空间就像修复师的“特征库”,存放着所有文物的形象特征。
  • 解码器:VAE解码器将潜在向量解码成完整的高分辨率图像。VAE解码器就像“文物特征组装器”,将文物的特征转换成完整的文物形象。

最终图像生成:去噪过程完成后,张量通过VAE解码器离开潜在空间,文物修复师通过最终的修复步骤,呈现出完整的文物形象。

写在最后

作为一款开源工具,Stable Diffusion为我们提供了强大的可定制和控制能力,它不仅降低了硬件要求,让大部分人都可以使用外,还通过丰富的插件生态系统拓展了模型的应用范围。了解它的工作原理,能帮助我们更好地调整参数,提高图像质量,满足特定的设计需求和偏好。

在当前的环境下,熟悉使用AIGC技术已经成为企业要求的必备能力,它不仅大幅降低了设计内容的制作成本与时间,还拓展提高了设计的能力边界,不再需要设计师为某种风格而去学习一门技法。但也降低了设计师工作的门槛,所以保持终身学习紧跟前沿技术,才能立于不败之地,愿你我共勉!

今天就写到这里,bay~

大模型的“掘金卖铲”生意,AI Infra的最佳机会来了?

aigc阅读(41)

在19世纪的淘金热中,最赚钱的并不是挖金矿的,反而是那些卖铲子、卖牛仔裤的人。正如卖铲人在淘金热中成为最大赢家,在当今AIGC时代,AI Infra也扮演着类似的角色。

如果用云计算三层构架做类比,AI Infra与PaaS层级相似,是链接算力和应用的中间层基础设施,包括硬件、软件、工具链和优化方法等,为大模型应用开发提供一站式模型算力部署和开发工具平台。算力、算法、数据可以看作IaaS层,各种开源和闭源模型则是SaaS在大模型时代的新演变,即MaaS。

随着大模型应用落地的进程不断加速,AI Infra的价值潜力被进一步释放。中金数据预测,目前,AI Infra产业处于高速增长的发展早期,未来3-5年内各细分赛道空间或保持30%的高速增长。

当大模型进入大规模应用落地时期,提供大模型训练、部署和应用时所需的基础设施成为关键一环,AI Infra成为大模型应用爆发背后“掘金卖铲”的最佳生意。

一、中台模式解锁AI生产力

从ICT产业的演进轨迹来看,三层架构似乎是宿命般的终极图景。在传统的本地部署阶段,操作系统、数据库、中间件等基础软件通过控制硬件交互、存储管理数据、网络通信调度等功能,解决底层硬件系统的复杂性难题,让上层应用开发者能专注于业务逻辑进行创新。

在云定义一切的时代,也形成了IaaS、PaaS、SaaS协同进化的经典架构,其中PaaS层提供应用开发环境和数据分析管理等服务,为云计算加速渗透奠定了坚实基础。

经历了漫长的蛰伏期后,AIGC按下了人工智能通用化进程的快进键,整个产业在狂飙突进的氛围中急速重构。算力与应用无疑是最耀眼的主角,但二者之间的鸿沟堪比天堑,大模型面临“悬浮”或“踏空”的风险。

从这个意义上讲,AI Infra犹如一座桥,可以承担类似基础软件或PaaS曾经扮演的角色——通过构建新型的软件栈及综合服务,赋能算力挖潜、模型优化和应用开发,成为连接算力与应用的中坚力量。

AI Infra涵盖一切跟开发部署相关的工具和流程。随着云计算的不断发展,又逐渐衍生出了DataOps、ModelOps、DevOps、MLOps、LLMOps等一些XOps的概念。

从宏观的角度来看,所有XOps本质上是为了开发部署生命周期的提效。比如DataOps是为IaaS层的存储和PaaS层的数据处理提效的,DevOps、MLOps实际上是为PaaS层开发部署提效的,LLMOps是为MaaS层提效的。

事实上,在AIGC风起云涌之前,关于AI中台的理论与实践就已如火如荼地展开。但当时的AI中台更像是“救火队员”,功能比较庞杂,干了不少“脏活”、“累活”,却难以获得上下游的认可。

大模型为AI平台化搭建起更宽广的舞台,也让AI Infra“掘金卖铲”的逻辑更具确定性,进而赢得可观的发展空间。相关机构预测显示,未来3~5年AI Infra产业将保持30%+的高速增长。

就像“三明治”的两片面包间可以有无数种夹层选择,身处算力与应用之间的AI Infra同样不拘一格。从广义上看,AI Infra涵盖人工智能基础框架技术,涉及大模型训练、部署领域的各种底层设施;狭义而言,基础软件栈是AI Infra的核心组成部分,优化算力算法、促进应用落地是其主要目标。

AI Infra定义的相对开放为不同的路径探索提供了更多可能。基于各自的资源禀赋与市场定位,业界的资深厂商与新兴玩家正在积极拓展AI Infra的疆界,不少做法值得借鉴。

  二、 AI Infra将是下一个应用热点?

相比模型价值,卷AI应用成为行业共识。李彦宏坚信,基础模型之上将诞生数以百万计的应用,它们对于现有业态的改造作用,比从0到1的颠覆作用更大。

如今AI应用的供给在不断增加,IDC在年初时预测,2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。

最近,视频生成类模型产品扎堆出现,快手的可灵、字节跳动的即梦、商汤的Vimi集体亮相,此外还有AI搜索产品、AI陪伴类产品等层出不穷。

大模型应用爆发趋势已然确定,根据InfoQ研究中心数据,2030年AGI应用市场规模将达4543.6亿元,模型应用层的巨大机会已经吸引了几乎各行各业的参与。

而在大模型应用之下,AI Infra成为其爆发的隐藏推手。

目前,大模型产业链大致可以分为数据准备、模型构建、模型产品三个层次。在国外,AI大模型的产业链比较成熟,形成了数量众多的AI Infra(架构)公司,但这一块市场在国内还相对空白。

在充满不确定性的道路上,率先找到清晰的赛道,快速建立显著的里程碑尤为重要。AI Infra市场尚处于混沌期,每个科技巨头都希望在自己的生态中形成闭环。

在国内,巨头们都有一套自己的训练架构。

比如,华为的模型采用的是三层架构,其底层属于通识性大模型,具备超强的鲁棒性的泛化性,在这之上是行业大模型和针对具体场景和工作流程的部署模型。这种构架的好处是,当训练好的大模型部署到垂类行业时,可以不必再重复训练,成本仅是上一层的5%~7%。

阿里则是为AI打造了一个统一底座,无论是CV、NLP、还是文生图大模型都可以放进去这个统一底座中训练,阿里训练M6大模型需要的能耗仅是GPT-3的1%。

百度和腾讯也有相应的布局,百度拥有覆盖超50亿实体的中文知识图谱,腾讯的热启动课程学习可以将万亿大模型的训练成本降低到冷启动的八分之一。

整体来看,各个大厂之间的侧重点虽然有所不同,但主要特点就是降本增效,而能够实现这一点,很大程度上就是受益于“一手包办”的闭环训练体系。

反观国外,成熟的AI产业链形成了数量众多的AI Infra公司。

如果把开发AI应用看成建房子,那么AI Infra就是提供水泥钢筋的施工队。AI Infra施工队的价值点在于它是一个集成平台,将下层的算力芯片层与上层的AI应用层打通,让开发者实现一键调用,并且实现降低算力成本、提升开发效率并且保持模型优秀性能的效果。

让应用更简单,让AI落地更便捷,是AI Infra的使命。可以说,AI应用的市场有多大,AI Infra的机会就有多大。

AI Infra公司有的专门做数据标注、做数据质量、或者模型架构等。这些企业的专业性,能够让他们在某一个单一环节的效率、成本、质量上都要比大厂亲自下场做得更好。

比如,数据质量公司Anomalo就是Google Cloud和Notion的供应商,它可以通过ML自动评估和通用化数据质量检测能力,来实现数据深度观察和数据质量检测。

这些公司就像汽车行业的Tier 1,通过专业的分工,能够让大模型企业不必重复造轮子,而只需要通过整合供应商资源,就能快速地搭建起自己模型构架,从而降低成本。

但国内在这一方面并不成熟,原因在于:一方面国内大模型的主要玩家都是大厂,他们都有一套自己的训练体系,外部供应商几乎没有机会进入;另一方面,国内也缺乏足够庞大的创业生态和中小企业,AI供应商也很难在大厂之外找到生存的空间。

以谷歌为例,谷歌愿意将自己训练的数据结果分享给它的数据质量供应商,帮助供应商提高数据处理能力,供应商能力提升之后,又会反过来给谷歌提供更多高质量数据,从而形成一种良性循环。

国内AI Infra生态的不足,直接导致的就是大模型创业门槛的拔高。如果将在中国做大模型比喻成吃上一顿热乎饭,那必须从挖地、种菜开始。

目前,在AI 2.0的热潮中,一个重要的特点就是“两极化”:最热门的要么是大模型层、要么就是应用层。而类似AI Infra的中间层,反而是很大的真空地带,也可能是下一个机遇所在。

 三、铲子难卖,金矿难挖

尽管在大模型应用爆发的当下,AI Infra层潜藏着巨大的生意。但是对于这些做AI Infra的公司来说,即使他们在自己的专业领域如此强大,在潮水的变化面前依然脆弱。

英伟达CUDA生态已经发展了20年,在AI领域,最先进的模型和应用都首先在CUDA上跑起来。

每个硬件之间都有不同的接口,CUDA统一了不同接口之间的语言,让使用者能够用一套标准语言去使用不同硬件。在模型开发过程中,开发者势必会趋同于在同一个语言体系中去完成自己的开发。而这实际上就构成了英伟达CUDA生态厚度。

目前,CUDA生态在AI算力市场占据了90%以上的份额。不过随着AI模型的标准化,模型之间结构差异变小,不再需要调度多种大小模型,英伟达CUDA生态厚度在变薄。

即使如此,英伟达在算力市场也是绝对王者。据业内人士预测,英伟达在接下来的3~5年当中,还会是整个AI硬件提供商中绝对的领头羊,市场发展占有率不会低于80%。

对AI Infra层的卖铲厂商来说,外有英伟达守矿人,堵在门口卖门票与铲子,好不容易找到一条进入金矿的小路,却发现,里面的挖矿人已经习惯“徒手”挖矿,不再接受新铲子。

在国内,企业为软件付费意愿低,且大多习惯集成式服务。国内SaaS投资已经降到冰点,如果AI Infra层厂商单靠卖硬件或软件难以实现商业化。

伴随AI应用的快速发展,未来谁能够为多样化的应用场景提供高效便捷的大模型一站式部署方案,谁就有可能在这场竞争中胜出。而这其中,底层技术、中层平台、上层应用缺一不可,只有让各方面能力得到更全面、均衡地发展,才能在AI之路上走得更远、更稳健。

放眼未来,人工智能重塑千行百业的进程刚拉开帷幕,Al Infra铺就的厚雪长坡有助于这个超级赛道行稳致远。今年,数据基础设施已在顶层设计中“独立门户”,人工智能基础设施战略地位的跃迁亦不遥远。

ChatGPT成8岁娃「导师」,外国家长们慌了!

aigc阅读(38)

虽然OpenAI还没靠AI大模型真正实现盈利,GenAI已经迎来了一个坚实的用户群体——各国的中小学。

根据《金融时报》、《华盛顿邮报》、《纽约时报》等多家媒体的报道,已经有不止一个国家和地区计划在中小学课堂上使用AI辅助教学。

一、AI走入中小学课堂

伦敦的一所私立学校David Game College高中正在使用ChatGPT等人工智能工具取代教师,以帮助一些学生准备考试。

在这所学校9月开始的试点计划中,20名15岁左右的学生将在参加GCSE(中等教育通用证书,相当于高中文凭)考试之前使用人工智能工具一年,备考科目包括英语、数学、生物、化学和计算机科学。

除了AI工具,每名学生还将配备三名全职学习教练,以获得个性化的学习路径。

在AI技术氛围更浓厚的加州,甚至有年龄更小的孩子开始在学习过程中使用AI工具。

即使美国各地的学校都禁止使用ChaGPT,防止作弊或模型幻觉对学生造成长期伤害,可汗实验室学校依旧引入了与OpenAI合作开发的模型Khanmigo。

可汗实验室学校依旧是一所私立学校,每年的学费超过3.1万美元。由于地处硅谷,许多学生家长本就身处AI行业,学生们也对各种技术概念十分熟悉。

可汗学院创始人Salman Khan表示,「大多数家长对此都非常兴奋并能看到其中的力量,他们只是想要合理的护栏。」

8岁的Alisha Agrawal在人工智能导师Khanmigo的帮助下,在加州Palo Alto的可汗实验室学校进行课堂练习

以上的教育试验都只停留在个别的私立学校层面,而韩国的行为似乎更加激进,他们已经从教育部开始自上而下地在全国范围内引入由AI驱动的数字教科书。

韩国教育部长表示,有AI功能的平板电脑,是教育系统改革中的「关键」。这项技术由LG、三星等韩国公司开发,他们计划明年引入,面向年仅8岁的学生。

到2028年,除音乐、美术、体育和思想品德外,所有学科都将引入AI相关的app,教师可以通过数字仪表板监控学生的活动。

除了教科书,也将引入其他方面的AI工具,包括课堂对话的自动转录系统和回答学生提问的移动机器人。

与此同时,学生将接受数字素养方面的培训,以学会如何负责任地部署、使用使用AI工具。

对于这项改革计划,官方解释如下:

「我们都同意需要从单向的、以记忆为基础的课堂,转变为学生可以参与并掌控学习的空间。2025年是这一变革的关键节点,我们需要利用AI教科书来帮助教师转变课程模式。」

二、省钱省力,还能因材施教

为什么这么多国家的学校要争先恐后地在课堂中部署AI?仅仅是因为「时髦」吗?

在很多决策者看来,用AI辅助教学有诸多好处。首先是更好地促进「因材施教」,促进学生主动的创造性学习。

根据《金融时报》的分析,虽然韩国在OECD组织的对各国学生的评估测试中一直名列前茅,但首尔政府担心传统的以记忆为基础的学习方法正在扼杀创新,因此AI才成为了这场教育改革的关键。

根据韩国教育部的说法,他们将采用可定制平板电脑,AI软件可以根据每个学生的数据评估其学习水平和进度,分辨出「快速学习者」和「慢速学习者」,从而生成不同复杂程度的任务,为每个人提供量身定制的教育。

大量的韩国学生都会进行课下补习,导致同一课堂往往存在不同的进度——有些人因为学过觉得太简单因而昏昏欲睡,其他人则跟不上课程。

教育部官员表示,AI教科书可以解决这个问题:「因为它能为任何情况提供各种内容,激发学生的学习兴趣并帮助他们进行创造性思考。」

伦敦David Game College的校长John Dalton也表达了类似的看法。

班级的整体进度并不适用于每个人,而AI驱动的自适应学习将让学生受益匪浅。他们可以按照自己的节奏来,不必强求必须与整个班级保持一致。

Dalton表示,这种「因材施教」的方法可以大大提高教授核心科目的效率,学校可以利用剩余时间发展「素质教育」,比如关注学生的自我意识、批判性思维、积极的公民意识、数字素养、艺术表达、公共演讲和企业家精神等等。

参与试点的这20名学生就将在下午参加「多样化的辅助课程」,包括学习如何辩论、培养创业技能、探索AI和金融素养,并参与烹饪和绘画等创意活动。

此外,不同于和人类教师的互动,学生们可以放心大胆地向AI助手提出那些可能让教师感到不适的问题。即使学习速度缓慢或者犯错,也不必担心来自AI教师的评判。

让学生在一个安全的环境中按照自己的节奏学习,可以增强他们的自信心,在促进知识掌握的同时改善心理健康。

此外,Dalton补充说,引入AI教学并不代表完全排除人类教师的参与,「如果学生愿意,他们仍然可以和老师互动」。

除了这些直接优势外,一些教育工作者还看到了其他方面的价值。

他们认为,这可以帮助解决英格兰多年来面临的教师短缺和过度劳累问题。随着班级规模的不断扩大,教师和学生之间缺乏一对一互动的负面影响,或许也能用AI弥补。

三、家长不满,老师针锋相对

韩国教育部引入AI教科书的计划受到许多教师的欢迎。根据教师协会的统计,54%的公立学校教师表示支持。

然而,这个计划引起了许多家长的强烈反对,他们担心这会让孩子过度接触数字设备,以及受到AI给出的潜在错误信息的影响。

已经有超过5万名家长签署请愿书,要求政府更加关注学生的整体福祉,其中写道:「作为家长,因为孩子们接触数字设备,我们已经遇到了许多前所未有的问题。」

41岁的Lee Sun-young是两个学龄儿子的母亲,她表示,与AI教科书相比,她更希望看到更多的课后辅导老师来帮助学生。

「我担心,过多使用数字设备可能会对他们的大脑发育、注意力时长和解决问题的能力产生负面影响——他们已经过度使用智能手机和平板电脑了」。

首尔中央大学社会学教授Shin Kwang-Young也不认同这种改革措施,他表示,「政府过于仓促地推出AI教科书,而没有正确评估其副作用,只是因为人工智能是当今的大趋势」。

在课堂上使用AI技术会引来多方面的风险,考虑到虚假信息、剽窃和泄露学生个人信息的潜在可能性。课堂上的人工智能面临着「失控」的风险。

而在韩国教育部的计划中,并没有说明这类AI教育工具将如何运作,以及如何防止人工智能产生幻觉或错误的倾向。

Shin Kwang-young补充说,想要转变「死记硬背」的学习模式是合理的,但需要「适当地」改革教育系统,包括考试方法,而非一味寄希望于AI。

教育咨询公司Higher Learning Group总监Hadida Grabow的看法相对乐观一些,但她依旧认为AI无法取代高水平的人类教师,只能作为有价值的辅助工具。

虽然我们看到了一些「有前景的案例」,比如谷歌的Socratic和可汗学院的AI教学助手,但Grabow表示:「我们没有看到任何可以替代高质量教育者的东西。」

在可汗学院对Khanmigo的使用中,我们最无法忽视的,是AI可能给出的错误信息和幻觉。

在使用AI的过程中,教师们需要始终提醒学生「Khanmigo可能会犯错」、「需要始终仔细检查从Khanmigo那里获得的任何信息」。

此外,AI系统无法判断学生的语气或面部表情,而这些是「教学时判断学生是否理解的关键指标」。

泰晤士报的意见撰稿人Jessica Grose长期报道教育领域,今年以来她撰写了多篇有关在课堂上使用最新AI技术的报道。

采访了多名中学和大学教师关于AI的使用体验后,她的总体看法是:尽管在学校使用AI有一些实际的好处——比如更快地添加引用以及完成基本编码等机械任务——但缺点是显著的。

Leila Wheless从1991年开始进入教育行业,她尝试对中学的英语和语言艺术课堂使用AI保持「开放的心态」,但学生们使用AI的结果令人沮丧。

她给学生布置了研究「先知」的作业,结合AI进行搜索后,她的学生给出了这样的答案:「基督教先知摩西因去除T恤上的巧克力污渍而闻名。」

令Wheless更惊讶且难以理解的是,这名学生甚至没有想到问一问老师来求证这个荒谬的结果。

虽然AI会产生幻觉和谬误是几乎人尽皆知的事实,但八年级的学生似乎没有相关的背景知识,也缺少智识方面的耐性去质疑AI给出的答案。

这个案例让我们看到,使用AI最大的问题或许不在于作弊——毕竟学生们一直以来都在用各种工具尝试作弊——或者得到荒谬的错误答案。

更棘手的问题是,当学生将头脑风暴和写作外包给ChatGPT这样的GenAI工具时,他们可能正在失去批判性思考的能力,而且难以在完成艰难任务的过程中获得克服挫折感的能力。

在加州教授高中英语的Sarah Martin表示,比猖獗的作弊和学术不端更令她困扰的是,这些学生身上不再有任何「韧性」。

在她教书的七年中,学生们愿意花在挑战性任务上的时间变得越来越短。

以前,很多学生会花几天时间自我斗争尝试掌握一个概念。但现在,如果学生们无法在几分钟内理解,就可能直接放弃脑力方面的努力,寻找替代方案,无论是聊天机器人还是向朋友求助。

今年4月,Jessica Grose撰写了一篇文章,名为《课堂上的每一个技术工具都应该被无情地评估》。

AI让很多人获取知识变得更加方便容易,包括学生,但这并不是没有代价的。更加「因材施教」、「量身定制」的另一面,是让青少年失去学习的耐心和韧性的风险。

密歇根大学教育技术教授、《学习的技术:美国教育系统的研究、趋势和问题》一书的作者Mesut Duran表示,课堂上使用的许多技术并不是为学生而开发的。

「大多数技术最初都是为了商业目的而创建的,然后我们才决定如何在学校使用它们。」

有趣的是,这种描述非常符合GenAI的现状。谁能说OpenAI推出ChatGPT时有多少是考虑到在教育场景下的应用?

经过几周的对谈,文章作者Grose表达了这样的观点:

「我们需要彻底重新思考在课堂上评估和使用技术的方式;我希望看到的总体变化是,学校中的技术使用(设备和应用程序)应该由教育工作者驱动,而不是科技公司。」

参考资料:

https://www.ft.com/content/1f5c5377-5e85-4174-a54f-adc8f19fa5cb

https://www.washingtonpost.com/technology/2023/04/03/chatgpt-khanmigo-tutor-silicon-valley/

https://www.nytimes.com/2024/08/14/opinion/ai-schools-teachers-students.html

https://www.businessinsider.com/chatgpt-ai-tools-replace-teachers-high-school-students-learning-education-2024-8

关于AI算力的若干神话与现实

aigc阅读(39)

算力将是未来很长一段时间最重要的“战略资源”之一,这一点已经得到了专业人士和资本市场的普遍认可。正因为算力实在太重要,与算力相关的产业链又太长太复杂,所以围绕着算力总是会产生许多“神话”。各种各样的人都在发表与这个话题有关的言论,有些纯粹是出于兴趣,有些则是出于利益(最典型的例子是炒股票)。无论在中文互联网还是英文互联网上,英伟达每天都在被颠覆,台积电则每周或每个月都在被颠覆,甚至连GPU这个概念也经常被颠覆。

有人说,华为昇腾芯片的算力已经超过了英伟达的“大卡”,而且证据确凿。还有人说,新兴芯片设计公司Groq的自研芯片的推理效率远远高于英伟达的同类产品,至少可以在推理端实现对英伟达的替代。上述两个神话的共同点是:都有一定的基础论据,不是完全的空想,但都与事实相去甚远。就好比盲人摸象,有人只摸到了大象身上的一根毛发,就激动地自称抓住了大象的本质——这就是关于算力的“神话”层出不穷的根本原因。

此时此刻,关于AI算力有三个最引人注目、也最富争议的“神话”:

  1. 英伟达的护城河没有多宽,很容易被竞争对手攻破;
  2. 只要攻破了英伟达的护城河,我们就能解决AI算力的紧缺问题;
  3. AI算力很快将从数据中心下放到端侧,从而为“AI手机”等消费级产品带来机遇。

对于第一个“神话”,只有做过AI研发的人最能理解其荒谬性。外人往往认为,衡量硬件算力的唯一标准是技术指标,只要在关键技术指标上超越了英伟达,就可以取而代之——如果真的这么简单就好了!英伟达的L40“中卡”,在某些技术指标上甚至超过了自家的H100“大卡”,更不要说与上一代“大卡”A100相比了。AMD的数据中心GPU产品线,也不乏在某些技术指标上超过H100的产品。为什么没有想到用这些产品代替H100?

因为英伟达的护城河不止硬件本身,还包括CUDA软件社区和NVLink互联技术。有些AI开发者把英伟达称为“三头怪”:竞争对手必须同时砍下硬件、CUDA和NVLink三个头,才能将其击败。在这三大护城河当中,硬件层面已经是最容易逾越的了!假设不考虑成本、不考虑兼容性和使用效率,华为、阿里等国内科技公司都有能力开发出“看上去比英伟达更好”的数据中心GPU,在全世界范围内具备这种能力的公司就更多了;可是有什么用呢?“看上去比英伟达更好”是毫无意义的。

目前主流的AI训练服务器包括8块H100 GPU;英伟达的下一代“超级芯片”GB200包括两块B200 GPU和一块Grace CPU,一台服务器由多块这样的“超级芯片”组成。GPU与GPU之间、GPU与CPU之间无时无刻不在交换数据,而NVLink是一种高速的、久经考验的芯片互联解决方案。在2014年NVLink发布之前,市面上最流行的芯片互联技术是英特尔、IBM、戴尔和惠普共同开发的PCI Express(简称PCIe),它适用于绝大多数的主流芯片,问题是速度太慢、而且对通用计算GPU的优化程度不够。NVLink 4.0的传输速率能够达到PCIe 5.0的7倍以上,能源消耗则只有后者的五分之一。在实践中,大部分用户都认可NVLink在所有类似的解决方案当中是最快的。

按照英伟达的说法,NVLink把GPU变成了“乐高积木”:8个GPU组成一个服务器,32个服务器组成一个算力集群;微软、亚马逊这样的大厂还可以组建更大规模的超级算力集群,直至所谓“万卡集群”,GPT-4就是在这样的集群上训练出来的。当然,NVLink只适用于英伟达的产品,以及英伟达的技术合作伙伴IBM的Power系列产品。准确地说,即便在英伟达的GPU当中,也只有“大卡”具备完整的NVLink支持,“中卡”“小卡”要么根本不支持NVLink,要么只支持很低的传输速率。这显然是英伟达为了区分产品层级而使用的谋略:要训练大模型,就必须买昂贵的“大卡”,想通过组合大批“中卡”瞒天过海是不可能的。

如果企业客户选择英伟达之外的GPU,就只能使用PCIe等通用互联技术,组建算力集群的效率要下一个台阶。PCIe也在不断进化,但是其与NVLink的差距不是几年内能弥补的。理论上,客户也可以自己“魔改”,强行在英伟达“中卡”甚至其竞争对手的显卡上使用NVLink技术,但是这样做的风险实在太大。从NVLink首次发布至今已经经历了十年以上,任何竞争对手若想做出足以取而代之的技术,恐怕要花费同样长的时间。

至于推理环节,芯片互联的需求没那么大,确实可以不考虑NVLink,以Groq为代表的专业推理芯片设计公司有机会,国内科技企业也有机会。但是,对于一般的企业客户来说,采购英伟达的“中卡”“小卡”可以完成多种任务,还可以做图形渲染、做云游戏;而其他公司推出的“专业推理芯片”往往是高度特化的,只适合执行大模型推理任务。对于科技巨头来说,就连推理环节也出现了以英伟达“大卡”代替“中卡”的趋势,因为这样能提升推理速度、实现算力的灵活配置。综合各项显性和隐性成本考虑,绝大部分企业不会主动考虑在推理环节把英伟达替换掉。

至于CUDA的重要性,更是怎么高估也不过分:它包括一系列代码库、一整套工具和开发环境,数以百计的软件开发商是其长期合作伙伴。开发者不需要熟悉GPU的底层架构即可上手。更重要的是,CUDA积累了数以百万计的开发者群体。从学术界到产业界,到处是精通CUDA的开发者,他们也会教自己的下属和后辈使用CUDA。在你使用CUDA开发的时候,你其实是站在无数前人经验的基础之上。一位在国内从事AI开发的技术人员告诉我:“全球拥有博士学位的CUDA开发者可能有50万人,他们精通高性能计算,由此实现了CUDA社区资源的良性循环。整个英伟达生态的线下线上免费活动非常多,我自己就加入了好几个英伟达中国交流群,每天收到各种会议交流信息。除非实在没有使用CUDA的条件,否则很难想象有人会主动放弃CUDA!”

不可否认的是,在十多年的发展历程中,CUDA变得日益臃肿、复杂,开发难度逐渐提升了。曾任职于苹果和AMD的著名芯片架构师吉姆·凯勒(Jim Keller)曾指出:“CUDA是一片沼泽,而不是护城河。CUDA并不漂亮,它是通过一次次堆积功能而构建起来的。”与其说这是英伟达的问题,倒不如说是所有大型应用开发生态的共同问题:需要实现的功能太多,而且必须保持向下兼容的特性,于是生态系统变得越来越复杂混乱,开发效率不断降低。除非推倒重来,这样的问题是不能避免的;而专业开发人员都知道,CUDA就算再臃肿,也远远没到需要推倒重来的地步。

真正能对英伟达构成威胁的力量来自开源社区。英伟达的显卡驱动程序是闭源的,因此饱受诟病。2022年,由于受到黑客的威胁,英伟达对部分GPU驱动程序的内核模块(Kernel Module)进行了开源,但只是聊胜于无,实用价值不大。外部开发者以反向工程的技术手段开发了一些英伟达显卡的开源驱动程序,可想而知,它们的技术水平不会很高。英伟达坚持闭源的原因很简单,就是要最大限度地保持对自家产品的控制、谋取最高的利润,这一点对于盈利性公司而言无可厚非。

英伟达的老对手AMD则于2014年推出了名为”AMDGPU”的开源驱动程序。作为落后幅度很大的追赶者,AMD必须通过开源实现差异化,力争建立一个足以与英伟达竞争的开源软件生态。在信息科技的历史上,我们经常看到“一个强大的闭源产品VS一个丰富的开源生态”的竞争格局——闭源的Windows和开源的Linux共同构成了PC操作系统的双峰,而闭源的iOS和开源的安卓又构成了智能手机操作系统的双峰。遗憾的是,由于AMD的产品力太弱,开源策略还不足以让它真正挑战英伟达。Linux和安卓的成功,很大程度上是因为它们是“纯软件”,开源社区的包容性和创造力足以做出能与商用软件匹敌的产品;英伟达的统治地位却是软硬件一体化的产物,要让开源社区一口气砍掉它的“三个头”,实属强人所难。

再说第二个“神话”。假如明天发生奇迹,市面上骤然出现几个性能比英伟达更好、软件生态比英伟达更发达的竞品,全球算力紧缺的问题是不是就能解决呢?当然不能。无论是谁设计出了世界上最好的GPU,在当前情况下,它都要去找台积电代工,因为那是全球5纳米以下制造能力最强、良品率最高的半导体制造企业。而且,台积电的5纳米及3纳米产能,几乎全部位于台湾南部工业园区的第18号晶圆厂.至于广受外界关注的台积电美国亚利桑那工厂,其一号和二号工厂分别要到2025年和2028年才投产;号称使用最先进技术的三号工厂,至今尚未确定投产日期。

芯片制造是典型的重资产行业,重资产行业的特点就是供需关系很少完美匹配,总是处于供不应求和供大于求的循环之中。因为资本开支需要时间转化为产能,而客户需求往往呈现突发性增长的态势,等到产能追上来了,需求增长可能也就结束了。ChatGPT引发的生成式AI浪潮出乎所有人的意料,台积电当然不可能事先为之拟定资本开支计划。老实说,现在最希望三星和英特尔能够追上台积电的,应该是英伟达。

1990年代以前,美国芯片制造业一度占据过世界领先地位,后来是它自己半主动地放弃了这个地位,这也是美国“去制造业化”进程的一部分。现在,《芯片法案》试图促进芯片代工厂回流美国,通过该法案拿到补贴、在美国设厂的不止台积电一家。然而,台积电创始人反复表达过自己不看好美国重振芯片制造业的努力:第一是因为美国工程师不及东亚地区的人勤奋,第二是因为美国地广人稀、难以通过基础设施实现产业链的富集效应。

三星、英特尔面临的问题说明了一个事实:光刻机不是决定芯片产业发展的唯一因素。如果买上几台最先进的光刻机就能做好芯片代工,美国商务部完全可以直接买下大批光刻机并送给英特尔等美国本土芯片制造商,而不是花大力气劝说台积电来建厂。过去三十多年,芯片制造业积累了太多的技术流程知识(technological know-how),只有经验丰富的工程师、中层经理和管理层加在一起,才能完整地掌握并使用这些知识。中芯国际的崛起,既得益于曾长期在台湾工作的创始人张汝京,也离不开一批在台湾半导体产业积累了深厚经验的技术骨干和经理人。

在台湾,除了台积电,还存在联电等一批芯片代工厂;可是近二十年来,它们与台积电的差距越拉越大。这种“马太效应”的形成,固然有企业自身决策和执行力的影响,但也是由芯片制造业的特性决定的——资本开支太大、技术迭代太快,最优质的客户只会选择最先进的代工厂,从而形成“强者恒强”的趋势。台积电在台湾半导体产业的领先地位早在2003年前后就已形成,而在全球半导体行业的领先地位则是在2014年苹果全面转移芯片订单之后才确立的。2022年,英伟达把H100芯片代工合约全部交给台积电,一方面体现了对台积电5纳米以下制程技术的认可,一方面也进一步打消了三星在短期内追上来的希望!

总结下来就是:算力供应的瓶颈在于台积电,解决瓶颈只有两种可能性——要么等待台积电把产能扩张出来,要么等待三星、英特尔或其他代工厂的技术水平赶上来。因此我们可以理解,为何英伟达在财报当中反复指出“下一代芯片仍将处于供不应求的状态”。这种持续的供不应求,对所有人都造成了影响,但是科技巨头受到的影响相对较小,因为它们总能得到英伟达的优待。算力紧缺的时代也是科技行业重新洗牌的时代,创业公司必须牢牢抱住算力资源丰富的大厂的大腿,大厂的统治力其实更加稳固了。

至于第三个“神话”,其实有一定的实现可能性,只是市场在短期的期望值太高了。所谓“端侧计算”(Terminal Computing)的概念其实并不新鲜了,我们日常使用的电脑、智能手机乃至智能家电都是“客户端”,也都具备一定的算力。以玩游戏为例,常见的游戏方式是把游戏下载到本地、由“端侧算力”运行游戏程序;云游戏则是在数据中心运行游戏程序,计算结果通过串流的方式输出到客户端。到底哪一种方式更优越?考虑到网络串流有延迟,在客户端硬件条件较好的情况下,大部分人会首选“端侧计算”。

但是在生成式AI方面,情况明显不同:绝大部分桌面级电脑的显卡算力不足以执行大模型推理任务,手机算力就更不够了。在当前的主流消费级显卡当中,只有英伟达的RTX系列可以胜任一定程度的推理任务,所以英伟达正在推广“基于RTX的桌面AI推理”;可是RTX对一般消费者而言还是太贵了,只有游戏发烧友买得起。何况,英伟达推广桌面推理的主要对象并不是消费者,而是轻量级的专业开发者。

在全球范围内,已经有多家手机厂商提出了“AI手机”的概念。不过,迄今还没有一家主流手机厂商推出过具备完整的“端侧AI算力”的手机。严格地说,“AI手机”不一定意味着要通过端侧算力进行AI推理;手机厂商完全可以租用大量云平台算力,或者自己储备一批算力,专门用于解决自身用户的AI推理需求——苹果可能正在做这样的事情。除了算力,手机厂商还有很多可以做的事情,包括推出自己的大模型,基于大模型开发更好的聊天应用和生产力工具,把AI与手机的硬件功能更紧密地结合起来,等等。算力固然很重要,但算力不是全部。

不过,如果手机厂商非要尝试把算力下放到端侧,又该怎么做呢?我们知道,为了降低耗电量和发热量,智能手机采用的都是低功耗的ARM架构芯片。英特尔曾经尝试把x86芯片用于手机,以惨败告终。现在ARM也可以胜任复杂的计算任务了,英伟达在2023年推出的Grace CPU就是基于ARM架构;但是,用于数据中心和桌面工作站的ARM芯片,其功耗水平还是手机端完全无法接受的。在现有技术条件下,硬要为智能手机设计“端侧推理芯片”,得到的恐怕只是推理能力孱弱、功耗远高于一般水平的四不像。

算力究竟应该放在云端还是终端,是由具体需求决定的。在游戏场景中,用户对传输延迟的忍受程度很低,所以云游戏至今没有成为主流。而在生成式AI场景中,到目前为止,用户对传输延迟不太敏感。因为AI大模型推理本身消耗的时间就很长了,网络传输所消耗的时间压根算不了什么。哪怕我们真能在手机上搭载专业级的推理芯片,从而节约几十毫秒的传输时间,用户可能根本就感受不到;我们如何说服用户为自己感受不到的功能付费呢?

因此,五到十年乃至更长的时间以后,完全可能出现端侧算力和云端算力同时承担AI推理任务的情况。我们的电脑、手机、汽车、智能电视乃至扫地机器人都会具备一定的推理算力。至于这些端侧算力究竟要强大到什么地步?推理算力在端侧和云端究竟会以什么比例分配?那就完全无从预测了。

这就是消费电子厂商的困境所在:它们对未来毫无头绪,不知道该采取什么动作,还是该安静地等待一阵子。这也是2023-2024年苹果在硅谷科技巨头当中股价表现较差、失去市值最大公司地位的根本原因。

从这个角度讲,还是A股机构投资者具备天然优势——他们不需要真正理解世界上发生的任何事情,只需要沉浸在自己(以及上市公司)营造的幻觉之中,就可以一路遥遥领先,创造神话。至于这种遥遥领先是如何把他们带到灭亡边缘的,那就是另一个故事了。

本文摘自互联网怪盗团新书《巨浪:生成式AI的史诗与现实》一书的第五章,有删节。原书第五章题为《算力战争》,全面描述了英伟达、台积电等芯片产业链巨头在算力经济中的地位,以及全球AI算力紧缺的原因和发展态势。

世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!

aigc阅读(55)

LLM离世界模型,究竟有多远?

去年,MIT的一篇文章发现了惊人的结论:在LLM内部,存在一个世界模型。

LLM不仅学习了表面的统计数据,还学习了包括空间和时间等基本纬度的世界模型。

Llama-2-70B竟然能够描绘出研究人员真实世界的文字地图

不仅如此,MIT最近又发现:在LLM的深处,发展出了一种对现实的模拟,它们对语言的理解,已经远远超出了简单的模仿!

论文地址:https://arxiv.org/abs/2305.11169

具体来说,MIT计算机科学和人工智能实验室 (CSAIL)的两名学者发现——

尽管只用「预测下一个token」这种看似只包含纯粹统计概率的目标,来训练LLM学习编程语言,模型依旧可以学习到程序中的形式化语义。

这表明,语言模型可能会发展自己对现实的理解,以此作为提高其生成能力的一种方式。

因此,LLM在未来的某一天,可能会比今天更深层次地理解语言。

目前这篇文章已被ICML 2024接收,实验所用代码也已经公布在GitHub上。

仓库地址:https://github.com/charlesjin/emergent-semantics

01 没有眼睛,LLM就「看」不到吗?

如果让GPT-4去闻一下被雨水浸湿的露营地的味道,它会礼貌地拒绝你。

不过,它仍然会给你一个诗意的描述:有新鲜的泥土香气,和清爽的雨味,还有松树或湿树叶的痕迹。

GPT-4没见过下雨,也没有鼻子,但它能模仿大量训练数据中存在的文本。

缺少一双眼睛,是不是就意味着语言模型永远无法理解「狮子比家猫更大」?

LLM能理解现实世界和各种抽象概念吗?还是仅仅在「鹦鹉学舌」,纯粹依靠统计概率预测下一个token?

LLM的工作原理,依旧是未解之谜。AI圈的大佬们,时不时就要因为这个问题展开一场论战。

LeCun坚定认为,LLM的智能绝对被高估了!他最著名的论断,就是那句「大语言模型不如家里养的猫」。

「猫可以记忆,可以理解物理世界,可以计划复杂的行动,可以进行一定程度的推理,这实际上已经比最大的模型要好了,意味着我们在概念层面有重要的缺失,无法让机器像动物和人类一样聪明。」

没有感官,不耽误ChatGPT为你描述各种气味和图片;没有生活经验,很多用户依旧「遇事不决,ChatGPT解决」;看起来完全没有共情能力,Character.ai上的「心理学家」还是能俘获美国一千万青少年的心。

很多人将此解释为纯粹的统计现象,LLM只是在「鹦鹉学舌」,对大量训练语料中存在的文本进行模仿,并不是像人类一样拥有同等水平的智能或感知。

但现在,MIT的研究证明,并非如此!

LLM内部,绝对存在着对现实世界的理解。

02 LLM破解卡雷尔谜题,意味着什么

为了探究这个谜团,MIT CSAIL的研究者们,开发了一套小型卡雷尔谜题(Karel Puzzle)。

简单介绍下,什么是卡雷尔谜题

其中包括让模型用指令在模拟环境中控制机器人的行动。

卡雷尔语法规范

然后他们在训练LLM学习一种特定的解决方案,但没有演示其中的工作原理。

最后,作者提出了一种名为「探针」(probing)的机器学习技术,用于在模型生成新解决方案时,深入了解其中的「思维过程」。

研究者通过对随机参考程序进行采样来构建训练示例,然后对5个随机输入进行采样并执行程序,以获得相应的5个输出。LM由交错输入和输出组成的示例语料库上进行下一个token预测训练,然后是参考程序。在测试时,研究者向LM提供看不见的输入输出规范,并使用贪婪解码来预测程序

在超过100万个随机谜题上进行训练后,研究人员发现,模型自发地形成了对底层模拟环境的概念!尽管训练期间,它们并没有接触过这方面的信息。

这个结果,不仅挑战了我们对LLM的固有印象,也质疑了我们对思维过程本质的认知——

在学习语义的过程中,究竟哪些类型的信息才是必需的?

实验刚开始时,模型生成的随机指令几乎无法运行;但完成训练时,指令的正确率达到了92.4%。

论文一作Jin表示,「这是一个非常激动人心的时刻,因为我们认为,如果语言模型能以这种准确度完成任务,我们也会期望,它能理解语言的含义。」

「这给了我们一个起点,来探索LLM是否确实能理解文本,现在我们看到,模型的能力,远不止于盲目地将单词拼接在一起。」

03 打开LLM的大脑

在这项实验中,Jin亲眼目睹了这一进展。

LLM为什么会认为,这些指令指的是这个意思?

他发现,LLM已经开发了自己的内部模拟,来模拟机器人如何响应每条指令而移动。

而随着模型解决难题的能力越来越高,这些概念也就变得越来越准确,这就表明:LM开始理解指令了。

不久之后,LLM就能始终如一地将各部分正确地拼接在一起,形成工作指令。

通过不同的探针分类器测量的语义内容(绿色)

1. 思维探针

而为上述发现做出主要贡献的,就是一种「思维探针」。

这是一种介入LLM思维过程的有效工具,论文将它称为「probing」。

具体而言,LM的状态中包含输入和生成程序的纯语法层面的记录,但probe似乎可以学习理解其中的抽象解释。

实际的实验中,作者首先构建LLM的状态跟踪数据集,再用标准的监督学习方法训练一个小型模型作为探针,比如线性分类器或2层MLP。

训练后半段当前和接下来两个抽象状态的语义内容(1层MLP)

然而,其中一个重要的问题在于,必须将probe和模型实际的思考过程或生成的指令进行分离。

虽然探针的唯一目的,只是「进入LLM的大脑」,但如果它也为模型做了一些思考,该怎么办呢?

研究者需要确保的是,LLM能够独立于探针理解指令,而不是由探针根据LLM对语法的掌握来推断机器人的动作。

想象一下,有一堆编码LLM思维过程的数据,其中probe的角色就像一名取证分析师。

我们把这堆数据交给了分析师,告诉ta:「这是机器人的动作,试着在这堆数据中,找出机器人是怎么动的。」分析师表示,自己知道这堆数据中的机器人是怎么回事。

但是,假如这堆数据只是对原始指令进行了编码,而分析人员已经想出了一些巧妙的方法来提取指令,并按照指令进行相应的操作呢?

在这种情况下,LLM就根本没有真正了解到这些指令的含义。

为此,研究者特意做了一个巧妙的设计:它们为模型打造了一个「奇异世界」。

在这个世界中,probe的指令含义被反转了,比如「向上」其实意味着「向下」。

例如,原始语义中的exec(turnRight,·)是将使机器人顺时针旋转90度,而exec adversarial(turnRight,·)是将机器人推进一个空间

这就保证了,probe并不是在「投机取巧」,直接学习理解LLM对指令的编码方式。

一作Jin这样介绍道——

如果探针是将指令翻译成机器人的位置,那么它应该同样能够根据离奇的含义翻译指令。

但如果探头实际上是在语言模型的思维过程中,寻找原始机器人动作的编码,那么它应该很难从原始思维过程中提取出怪诞的机器人动作。

结果发现,探针出现了翻译错误,无法解释具有不同指令含义的语言模型。

这就意味着,原始语义被嵌入了语言模型中,表明LLM能够独立于原始探测分类器,理解所需的指令。

上半部分描述了在干预前,两种情况如何导致测量的高语义内容。下半部分显示了为什么将两个假设分开: 如果LM表示仅包含语法(左下),那么应该可以训练探针alt来学习根据替代状态prog(粗体红色结果)解释记录;然而,如果LM表示编码原始抽象状态(右下),则探测alt需要从原始状态prog中提取替代状态’prog,从而产生较低的语义内容(粗体灰色结果)

2. LLM理解语言,就像孩童一样

有趣的是,Jin发现,LLM对语言的理解是分阶段发展的,就像孩子学习语言时分多个步骤一样。

开始,它会像婴儿一样牙牙学语,说出的话是重复的,而且大多数都难以理解。

然后,LLM会开始获取语法或语言规则,这样,它就能够生成看起来像是真正解决方案的指令了,但此时它们仍然不起作用。

不过,LLM的指令会逐渐进步。

一旦模型获得了意义,它就会像孩子造句一样,开始产生正确执行所要求规范的指令。

结果如图2所示,可以看出LLM对语言的理解大致分为3个阶段,就如同孩童学习语言一样。

  1. 牙牙学语(babbling,灰色部分):占据整个训练过程约50%,生成高度重复的程序,准确率稳定在10%左右
  2. 语法习得(syntax acquisition,橙色部分):训练过程的50%~75%,生成结果的多样性急剧增加,句法属性发生显著变化,模型开始对程序的token进行建模,但生成的准确率的提升并不明显
  3. 语义习得(semantics acquisition,黄色部分):训练过程的75%到结束,多样性几乎不变,但生成准确率大幅增长,表明出现了语义理解

实验使用了三种不同的probe架构作为对比,分别是线性分类器、单层MLP和2层MLP。

提前2步预测时,2层MLP预测准确率的绝对值高于用当前状态预测的基线模型。或许可以得出这样一种推测:LLM在生成指令前,其思维过程,以及生成指令的「意图」已经存储在模型内部了。

04 LLM = 世界模型?

这项研究解释了LLM如何思考训练数据中每条指令的含义,如何在内部状态中模拟机器人对指令的响应。

这些都直指当前AI研究的一个核心问题——LLM令人惊讶的能力,仅仅是由于大规模的统计相关性,还是对它们现实产生了有意义的理解?

研究表明,LLM开发了一个模拟现实的内部模型,尽管它从未接受过开发该模型的训练。

而且,语言模型还可以进一步加深对语言的理解。

然而,仅靠一篇论文显然不能完全回答这个问题。

作者Jin也承认,这项研究存在一些局限性:他们仅使用了非常简单的编程语言Karel,以及非常简单的probe模型架构。

未来的工作将关注更通用的实验设置,也会充分利用对于LLM「思维过程」的见解来改进训练方式。

本文另一位作者Rinard表示,「一个有趣的悬而未决的问题是,在解决机器人导航问题时,LLM是在用内部现实模型来推理现实吗?」

虽然论文展现的结果可以支持这一结论,但实验并不是为回答这个问题而设计的。

布朗大学计算机科学和语言学系助理教授Ellie Pavlick高度赞扬了这项研究。

她表示,对LLM工作原理的理解,可以让我们对这项技术的内在可能性和局限性有更合理的期望。这项研究正是在受控环境中探索这个问题。

计算机代码像自然语言一样,既有语法又有语义;但与自然语言不同的是,代码的语义更直观,并可以根据实验需要直接控制。

「实验设计很优雅,他们的发现也很乐观,这表明也许LLM可以更深入地了解语言的『含义』。」

05 作者介绍

本文一作Charles Jin是MIT EECS系和CSAIL实验室的在读博士,导师Martin Rinard是本文的另一位作者,他的研究主要关注稳健的机器学习和程序合成。

Jin本科和硕士毕业于耶鲁大学,获得了计算机科学和数学双学位,曾经在Weiss资产管理公司担任分析师,博士期间曾在Google Brain担任研究实习生。

参考资料:

https://the-decoder.com/training-language-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814

大模型厂商,寻找赚钱“搭子”

aigc阅读(57)

当被誉为“不沉之船”的泰坦尼克号接近冰山时,瞭望员只能看到露出水面的部分,冰川大部分体积仍隐藏在水面之下。

AI行业亦是如此,水面之上是风头正盛的大模型新秀,零一万物、月之暗面、百川智能近期接连被曝融资。截至目前,国内已有三家大模型创业公司估值水平达到200亿元以上。

融资是闯入大模型游戏下一关的筹码,但资本也将这些当红“炸子鸡们”置于烈火上烤,被迫加快项目进程和商业化的步伐。或许用不了多久,他们便不得不面对一个残酷的现实:一旦钱烧尽,靠什么活下去?

“大模型只有两个梯队,OpenAI和其他,用国内任何一家大模型都一样”,多位AI行业从业者谈道。

于是,才有了水面之下的合纵连横。

以阿里、腾讯为代表的大厂,一面以投资的方式押注大模型公司,一面又以ToB项目制的方式与创业公司合作交付;以智谱为代表的大模型公司,一边做底部通用大模型,另一边投资下游孵化AI应用;初创公司则更加灵活,游走在大厂和大模型公司之间。

“大模型厂商、互联网大厂、PC厂商都是我们的投流渠道”,“我们和大厂充分合作,解决客户的问题”,AiPPT.cn创始人、CEO赵充和未来式智能联合创始人、COO邹阳分别表达了相似的观点。

大模型战场表面争得头破血流,但实则是一场没有硝烟的战场,进入下半场,玩家都在抱团取暖。以及在牌桌留到最后,如何在新生态尚未成熟就提前占据一席之地。

一、遍地都是Agent

“卷模型没有意义,ToB能马上商业化,基本不用烧钱。”

进入今年,朱啸虎式的大模型论断被越来越多人接受。市场上的创业者们大多抛弃了幻想,把落地和赚钱作为了首要目标。

今年2月,一场最高行政级别的“人工智能专题推进会”召开,会上十家中央企业签订倡议书,“将主动向社会开放人工智能应用场景”。诸如此类的政策让AI公司看到了希望,政策支持意味有预算,能直接转化为营收。

据给力讯息和非凡产研联合发布的《2024年上半年中国AIGC行业商情报告》显示。2024年上半年,大模型中标数量共计207个。其中,国有企业占据了主导地位,共计126家,较去年全年相比,上半年增长110%。国有企业累计中标金额连续两年最高,2024年上半年累计中标金额3.7亿元,涉及众多行业和领域,如能源、交通、通信、金融等。

光子星球了解到,国有企业和政府及事业单位应用最频繁的场景有:知识库问答、招标书写作、报告写作和合同审核等。

为了能让大模型落地到国企当中,诸多创业公司都瞄准了Agent。在上个月,给力讯息主办的AIGC应用商业峰会上,做Agent的企业就占据了80%以上。

未来式智能邹阳认为,可以把Agent视为大模型应用落地的一种框架,其作用是能在客户的真实业务场景跑通,并产生价值。实际落地过程中可能会涉及多项复合性技术,大模型提供理解和推理能力,基于RAG的知识库承载生产过程中显性的知识,构建Workflow充当隐性可复制的经验,模拟专家的思考链路。基于此,一个可落地的行业数字专家便诞生了。后面再通过调取API、执行RPA流程等就可实现全自动化执行。

沿着上述思路,市面上涌现出了各类型的Agent公司,比如做AI医助的全诊通,做能源、保险行业的未来式智能,做RPA的实在智能以及做小说、长文本的波形智能等。

这些ToB公司基本遵循了一个法则,从行业到场景再到产品。对于ToB而言,唱得好不如做得好,Agent公司为了尽快打开市场,积累case经验,往往会遵循“标杆效应”法则。

邹阳讲述,他们的第一个客户是某省级电网公司,在了解完其需求后,利用其公司灵塔Agent PaaS平台的先进生产力,极短时间内针对客户的核心业务诉求实现了合同审核核心场景的Demo,并推进后续成功合作。

同样利用Agent PaaS平台的优势,可以快速基于客户业务场景进行需求实现,比如复杂的知识库问答(支持多模态、多库编排、动态数据NL2BI)、复杂制式文档写作等知识加工流水线的工作场景。邹阳表示,“大型国企、央企业在各地有很多分支机构,业务模式总部集团有SOP要求,突破一个场景可以在各地区迅速做规模化复制。”

在医学领域,全诊通CFO潘守翔说,团队经常被问“某某Top医院有没有用”,所以在推行AI病历的初期就选择了虽然难度更高,但市场潜力更大的“先大型医院,后中小医院”的策略。

潘守翔介绍,去年年底在产品刚有雏形的时候,他们就在浙江大学医学院附属邵逸夫医院试点,“先上了几个科室测试准确度和速度,后来范围扩大到整个门诊所有科室”。在试点了四个月后,进一步向同级的超大型医院推广,又过了三个月,产品趋于稳定后,才再向全国范围推广。截至目前,全诊通已经覆盖了全国40多家一线医院。

二、大模型战场无硝烟

Agent创业公司切ToB,不可能大包大揽,本着追求极致投入产出比的原则,他们会优先考虑与生态中的玩家合作。

市场上各类关系错综复杂,最直接的便是投资与被投资关系。首先是大厂主导了明星大模型公司的投资,阿里最为活跃,把“大模型五虎”(百川智能、智谱、月之暗面、MiniMax、零一万物)投了个遍;腾讯也在加快投资节奏,不仅首次投资月之暗面,还赶上了百川智能、智谱的新一轮融资。

如今,动作布局最像大厂的智谱也开始投资上下游。据不完全统计,截至目前为止,智谱至少参投了十四家AI初创公司,尤为偏好清华系出身的创业者。近期,智谱也是动作频频,先是联合出资2.6亿元成立投资基金,后又举办了首届创业路演活动。

即使是最直接的投资,大模型厂商和大厂之间还是难免存在竞争,比如站在许多做应用的创业公司角度,就会面临选择百度文心还是智谱等模型的问题。但创业公司却可以充当润滑油,以多重合作身份游走在大厂、大模型厂商中间。

一个典型的案例是AiPPT.cn,其股东是智谱,出现在了智谱的路演名单上。除此之外,该公司前后还与百度文心一言和月之暗面达成合作。

AiPPT.cn主打“一句话生成PPT”功能,于去年8月上线,到11月就实现了百万元收入。6月AI产品榜单数据显示,平台月访问量超过500万,跻身国内AI产品总榜前十。

爱设计&AiPPT.cn创始人/CEO赵充告诉我们,他们对外的合作模式主要为“互相调用API”。即智谱、月之暗面、百度底层开放给AiPPT.cn大模型的API,反过来,赵充再把AiPPT的API开放给上面大模型厂商来用。

AiPPT.cn的功能曾以插件的形式嵌入百度文心一言,最近又以“Kimi+”的形式嵌入到了Kimi智能助手。赵充坦言,“大模型厂商如同流量入口,真正落地到工作场景的是应用,彼此之间的生态合作是必然趋势。”

 (图源:Kimi 智能助手)

无论是创业公司还是大模型提供方,本质上,双方都在弥补不足。

邹阳在拜访客户常常听到的一句话便是:“你不要讲PPT了,我们已经被各种PPT教育了很多次了,我们的业务需求就是这些,你能做就直接上干货吧”。邹阳告诉光子星球,他非常认可朱啸虎的“一面成交”理论,当用户看到我们提前准备的Demo眼睛立马就亮了,笑着说“这就是我要的东西”的时候,是他最有成就感的时刻。

对未来式智能这样创业公司来说,承担了技术到落地的中间角色。大厂或模型厂商就像是超市,里面摆满了各式食材,邹阳和团队需要先从超市里采购食材,再把菜炒好端到客户的餐桌上。

“现在跟大厂和模型厂商的合作非常融洽,他们提供成熟的平台级产品,但对客户不能直接用。所以我们去完成这最后一公里,通过我们的Agent平台的高效生产力去解决客户业务问题”,邹阳说道。

截至目前,未来式智能已经与腾讯、阿里、火山引擎和智谱等多家厂商达成了合作。腾讯为其牵线了第一个标杆客户,与AiPPT一样未来式智能也出现在了智谱的路演名单上,同时也是火山引擎重点推荐的Agent ToB产品。

三、互搭“顺风车”赚钱

大厂、大模型公司和初创公司互相合作,现阶段无非是想获得更多的用户以及营收。这里面涉及到两个问题:自己怎么赚钱以及怎么和生态合作伙伴分配利润。

大模型甩卖至“白菜价格”,对做应用层面的企业来说,调用API的成本就会非常友好。今天的大模型一如当初云计算,越来越成为像水电基础设施的存在。

赵充现场给我们算了一笔账,用AI制作PPT,平均一个PPT有二十页,每页五百字,一套PPT算下来使用token量约在1万。以最极端的情况估算,假设五百万的月浏览用户每人都制作一套PPT,按照智谱官方GLM-4-Air的API报价计算,AiPPT.cn每月需要支付3万元,一年下来仅为36万元。相比于投流营销的价格,企业在大模型上的支出显得杯水车薪。

不过在更普遍的情况下,为了能达成合作,大模型厂商和创业公司都会主动退让一步,除API以外,AiPPT.cn也采用了“带参链接”模式。合作双方都允许对方免费调用API,从大模型厂商导流过来产生的付费用户收入,再进行五五分润。

目前来看,这是一种互利共赢的方式。大模型厂商向创业公司提供底座能力,同时也为后者导流,而创业公司搭上大公司的顺风车,先一起把盘子做大,再分钱。

当然,底层模型厂商也需要连接各个细分赛道的创业公司,通过树立典型案例来证明其大模型基础能力和深耕行业的能力。

全诊通目前是百度智能云在医疗赛道上的优先级合作伙伴,近期刚合作落地了常州一院的医疗AI大模型应用项目。全诊通是早期百度ERNIE Speed模型的内测用户,在盲测过程中,团队发现该款模型的推理能力、相应速度、准确性和语义理解能力都十分契合AI诊疗场景。这同时也让百度找到了模型落地的场景,才有了后面的深入合作。

不同于PPT场景,全诊通调用的token量级较大。医院往往在定价时不能严格限制医院调用次数,只能大致划定调用区间。在其服务的40多家医院里,多家医院门诊量在300万以上。但有了与百度的合作关系,API的调用成本被打到了很便宜的量级,用潘守翔的原话来说,“百度给我们的价格很有竞争力”。

即便如此,仍不可忽略一个事实:目前为止,大模型的吸金能力十分有限。

光子星球综合了解下来,新成立的创业公司无法以单独的名义去接招标的单子,加之业务分工不同,所以往往只能打包进云服务商、通信运营商以及大厂的项目中。大模型应用项目的中标金额跨度很大,从几十万到几千万不等,较其他ToB项目而言,价格偏低。由于市场到现在还没有一个清晰的定价标准,具体每位参与者能拿多少,还要按实际case来定。

“现阶段,公司要想活下去,还得靠其他业务喂养大模型。”

很多创业公司认为趁竞争对手还有限的时候,快速进入市场形成壁垒才是首要,“能产生收入,已是不易。”