欢迎光临
我们一直在努力

垂直软件,才是AI的终极未来

aigc阅读(49)

软件,被看作是AI落地最重要的场景之一。红杉资本曾提到,AI有可能用软件取代服务,催生数十万亿美元的市场机会。

尽管机会巨大,但对于AI软件如何实现真正的落地,仍然没有一个清晰路径。关于这个问题,Bessemer在不久前提出了一个很有价值的观点:

垂直AI软件将成为未来。

说起Bessemer,熟悉SaaS行业的人可能并不陌生。它是美国SaaS领域最专业的投资机构之一,在过去10年投资了200多家SaaS企业。

为了完整阐述“垂直AI软件将成为未来”这一观点,Bessemer发布了垂直AI路线图,总共四个部分。本文是Bessemer的垂直AI路线图的第一篇文章。在这篇文章中,Bessemer会分享其对以下问题的思考:

垂直AI应用与传统垂直SaaS的差异?为什么垂直AI能够取得更大的成功?以及垂直AI究竟应该如何落地?

01 垂直AI的潜力正在显现

过去,SaaS的发展路径大致可以分为两种,横向SaaS和纵向SaaS。所谓的横向SaaS是指通过标准化的产品去覆盖广泛的市场。而纵向SaaS则可以理解为服务特定行业的软件。

在上一波,SaaS浪潮中,横向SaaS确实远远领先于纵向SaaS。一个体现是,Salesforce上市比Veeva Systems早整整十年。前者是全球领先的SaaS服务商,而后者是服务医疗领域的SaaS巨头。

我们之所以对垂直AI产品的看好,是因为这些产品的早期数据很亮眼。从功能上看,大多数垂直AI软件通常是对传统SaaS产品(如果有的话)的补充,而不是取代现有产品。

在数据方面,这批新的垂直AI软件公司(成立时间为2019年至今)的平均合同价值(ACV)已经达到了传统垂直SaaS软件的80%。ACV是指一个客户合同在一年内的总价值,它是评估SaaS公司收入和预测未来收入增长的重要指标之一。

同时,这批新的垂直AI软件公司还保持着400%的增速,以及约65%的毛利率。按这样的增长速度,我们判断,未来两到三年内将至少出现五家年度经常性收入(ARR)超过1亿美元的垂直AI公司,未来三年内将出现首家垂直AI软件公司IPO。

事实上,垂直AI公司的价值,已经通过并购开始体现。2023年,汤森路透以6.5亿美元收购了CaseText,一年后,DocuSign以1.65亿美元收购了Lexion。

02 垂直AI的三个价值支点

为什么我们认为垂直AI能够取得成功,源于主要有三个:

1、扩大总目标市场(TAM)

TAM,代表目标市场中有多少客户需要相应的产品或服务。

过去,软件开发商一直致力于通过产品扩张,推动TAM扩张,而忽略了细分场景的价值。垂直AI的价值在于,通过AI扩大软件服务的价值,进而解锁了以前被认为规模太小而无法建立可持续SaaS业务的细分市场。

以EvenUp为例,它可自动生成人身伤害律师的索赔信函,允许公司以更低的成本接收更多客户(从而提高利润)。EvenUp已经超越了传统SaaSTAM,而传统SaaS TAM只能提供改进索赔信函管理工作流程的解决方案。

根据美国劳工统计局数据,软件支出占美国GDP的1%,而商业和专业服务行业(主要从事重复性语言任务)占美国GDP的比重高达13%。

我们预测,随着垂直AI进入更多服务场景,并催生出独特的新业务模式来服务这一类别,垂直AI的市值将至少是传统垂直SaaS的10倍。

2、解锁新功能和垂直领域

传统垂直软件取代了过时且繁琐的系统,并将许多行业(比如酒店业)的业务形态带入了线上。但并不是所有行业都愿意采用软件。原因是,在许多情况下,单靠软件解决方案的投资回报率不足以说服决策者,也不足以证明建立软件系统所需基础设施、培训员工等前期成本是合理的。

相比传统垂直软件,垂直AI公司能够更彻底地改善工作流程,甚至还能完全接管部分工作。

这让垂直AI能够进入很多传统软件无法进入的市场。我们注意到,很多行业的大型企业开始接受AI技术,甚至主动寻找AI工具,因为他们担心竞争对手会抢先采用这些工具,从而超越他们。

例如,在医疗保健行业,SaaS的交易周期非常长,供应商正在采用Abridge(将患者与医生的对话转化为临床笔记)和ClinicalKey AI(一个人工智能医疗搜索平台)等AI解决方案来接管繁琐的工作并支持临床决策。

再比如,律师事务所很少使用CRM,但现在他们也开始采用基于Co-Pilot(副驾驶)的解决方案来处理合同签订、需求摘要生成、案件接收和其他耗时任务。

3、提供前所未有的价值

未来,根据能力的不同,AI应用可以融入每个行业,从家庭服务到会计。不过,人工智能的潜在渗透率将因行业而异。

最有可能诞生垂直AI公司的领域,是那些以前仅靠人力无法完成或成本太高的工作。一个常见的AI应用案例是,通过分析大量的数据,来简化工作流程,甚至实现自动化。

例如,Axion Ray通过分析物联网和远程信息处理、现场故障、生产和供应商数据中的大量产品数据来帮助制造商。

同样,JusticeText会自动审查数百小时的摄像机镜头,以帮助公设辩护人建立案件——这对于律师在调查期间进行的工作非常耗时,也会分散他们建立案件的注意力。

03 垂直AI的两种落地路径

上一波垂直SaaS的赢家,针对服务不足的特定市场创建了云平台,并在平台上添加了更多的集成产品和服务,最终为特定的垂直行业提供一体化解决方案。

正如我们在之前所讨论的,垂直AI企业可以通过更有效率的服务模式,在特定市场中获得更大的TAM,因此他们不需要向传统垂直SaaS公司那样建立如此庞大的产品体系。

事实上,已经有垂直AI初创公司,通过解决目标客户的一两个工作流程,就实现了可观的回报。梳理这些案例后,我们将AI应用的工作流程分为两类:核心工作流程和支持工作流程。

先说核心工作流程,指的是工作的主要功能,比如投行人员的财务建模或律师的合同起草。

从目前看,文本和数据工作最容易实现自动化。因此,用AI完成核心工作,更有可能发生在传统办公室里的工作,比如法律、财务等等,而不是需要大量体力劳动的行业(例如家庭服务和制造业)。

例如,投资组合公司Fieldguide正在彻底改变审计师的核心工作流程,他们利用生成式AI提高了审计师的效率,从而显著提高了审计师的生产力。

当然,AI适不适合在核心工作流程应用,不仅要看工作内容,还要看客户的意愿。在这方面,不同行业的情况会有很大差异。例如,投行人员可能会使用AI简化PPT制造流程,但不太可能用AI语音向客户进行演示,因为这个领域人际关系很重要。

再说支持工作流程,指的是与工作或业务无关但仍必不可少的工作流程,比如牙医的营销和患者关系管理(即Weave)或托运人的货运采购(即GoodShip)。

支持性工作流程,可能是垂直AI更好的应用场景,他们扮演工作辅助的角色,处理那些烦心、冗杂的工作,从而让人将更多的精力集中到更重要的事情上。比如,医生既有治疗患者的专业知识和兴趣,但对做笔记和文书工作甚至订购医疗用品不太感兴趣。

这就是为什么我们看到市场对支持性工作AI解决方案的需求很高。然而,利用AI解决支持工作流程并非没有挑战。

首先,这些行业中许多技术领先的横向企业已经开始将人工智能纳入其平台,而垂直AI初创公司需要提供更好的解决方案才能参与竞争。

从好的方面来看,垂直特定的AI初创公司更有可能捕捉特定行业的精确需求,并与底层系统(如CRM)集成,进而创造一种新的体验。而常规的AI解决方案很难做到。

例如,专门为家庭服务构建的AI解决方案可以识别客户的问题,并引导技术人员更快、更有效地修复太阳能电池板。而常规AI解决方案只能根据客户的要求进行预约。

无论是为核心工作流,还是支持工作流构建AI,创始人都需要具备良好的判断力、对客户需求的深刻理解、有效的反馈渠道以及对监管环境的清晰把握,以便寻找适合AI解决方案的特定行业和任务。

深度|​Andrej Karpathy 最新思考:小模型有巨大潜力,大模型用来处理多任务,AI 模型未来聚焦于处理重要信息的能力

aigc阅读(52)

这是前特斯拉 AI 总监& OpenAI 创始成员 Andrej Karpathy 近日与硅谷知名投资人 Sara Guo 和 Elad Gil 的最新对话。

Karpathy 强调,Transformer 不仅是另一个神经网络,而是一个极具通用性的“差分计算机”。它通过前向和后向传播进行自我调整,能够高效处理复杂任务。Transformer 的扩展性是 AI 领域的重大突破,使得大规模模型成为可能。

虽然当前的大模型非常强大,但 Karpathy 认为未来的小模型也会有巨大的潜力。通过蒸馏技术,能够将大模型的能力压缩到更小的模型中,实现更高效的认知处理,甚至 1~10 亿参数的小模型就能完成复杂任务。

随着互联网数据接近枯竭,未来 AI 发展将依赖于合成数据的生成。Karpathy 提到,在训练大模型时,保持数据集的多样性和丰富性至关重要,合成数据在生成高质量训练数据时将扮演关键角色。

此外,他认为大模型不仅适用于单一任务,而是能够并行处理多个任务。这种“集群化”或“分层化”模型结构类似于一个生态系统或公司,不同的模型负责不同的领域,相互协作以解决复杂的问题。

模型未来将聚焦于“认知核心”,即处理重要信息的能力,而非记忆海量不相关的数据。通过专注于解决问题和决策的核心部分,未来的AI模型会更加高效和专注。

以下为这次对话的全部内容,enjoy~

Sara Guo:

你曾负责 Tesla 的自动驾驶,现在我们实际上已经有了完全自动驾驶的乘用车在路上行驶。你如何解读我们在能力发展上的现状?我们多快能看到能力的提升或自动驾驶车辆的普及?

Andrej Karpathy:

是的,我在自动驾驶领域大概工作了五年。我觉得这是一个非常有趣的领域。现在这个领域的发展情况是,我常常会把自动驾驶和其他领域进行类比,也许是因为我比较熟悉它。

但我觉得在自动驾驶领域,我们已经达到了一定的瓶颈。现在有一些系统,你作为付费客户可以在某些地方使用,比如在旧金山 Waymo 非常常见。你可能已经乘坐过 Waymo 了。

我乘坐了很多次,它真的很棒。我可以开到很多地方,而且你为它付费,它是一个商品。让我觉得有趣的是,我第一次体验 Waymo 是在大约十年前,也就是 2014年。

当时我的一个朋友在那工作,他带我体验了一下。当时车带我绕着街区行驶,表现得非常完美。但从那次演示到如今能付费使用的产品,花了整整十年时间,才达到如今的城市规模,并且还在扩展中。

Sara Guo:

你认为这十年中的进展主要是由技术推动的吗?

Andrej Karpathy:

技术并不是在一次 30 分钟的演示中就能展现出来的。你没有遇到他们在过去十年中需要处理的所有问题。所以演示和产品之间有很大的差距。其中很多是由于监管等因素。不过我确实觉得我们在自动驾驶领域已经达到了一个瓶颈,至少在某种程度上。而真正有趣的是,这一技术还没有全球化。

你可以进行一次演示,但世界还没有真正发生改变,这将需要很长时间。从一次演示到全球化之间有很大的鸿沟。

这与  AGI  也有相似之处,最终我们也会看到类似的发展轨迹。在自动驾驶领域,有些人认为 Waymo 领先于 Tesla ,但我个人认为 Tesla 更具优势,尽管从表面上看并不像这样。

我对 Tesla 的自动驾驶项目仍然充满信心。Tesla 面临的是软件问题,而 Waymo 面临的是硬件问题。我觉得软件问题相对更容易解决。

Tesla 拥有大量已部署在全球的汽车,当它们能够真正部署并有效工作时,那将是非常了不起的。我昨天刚刚测试了最新的版本,确实有了很大的改进。最近我一直在使用它,效果真的不错。

昨天它在某些情况下表现得非常出色,所以我对团队的工作印象深刻。我仍然认为 Tesla 主要面临软件问题,而 Waymo 主要面临硬件问题。

虽然看起来 Waymo 现在似乎领先,但我相信在十年后,当我们看实际规模化部署和收入来源时, Tesla 会更具优势。

Elad Gil:

你认为我们离解决软件问题还有多远,能达到与你提到的等效水平?显然, Waymo 的车装有许多昂贵的激光雷达和其他传感器,这些传感器帮助其软件系统运作。

而 Tesla 的做法是只使用摄像头,从而摆脱了大量的成本和复杂性,可以应用于更多种类的汽车。你认为这种转变会在什么时候发生?可能是在未来几年内?

Andrej Karpathy:

我希望会是这样的。但实际上有趣的是,我不确定大家是否意识到, Tesla 实际上也使用了很多昂贵的传感器,只不过是在训练阶段使用。

许多车使用激光雷达等传感器来进行不具有规模化的操作,它们有额外的传感器并进行地图构建等工作。

但这些传感器的作用主要是在训练阶段,然后将其精简为测试阶段的包,在车上只需依靠视觉。这是一种对昂贵传感器的“套利”,这是一种非常聪明的策略,可能还没有被充分认可。

这个策略会奏效,因为像素中包含了必要的信息,而神经网络能够处理这些信息。在训练阶段,传感器的确非常有用,但在测试阶段就没有那么必要了。

Elad Gil:

看来我们已经从很多边界情况的设计转向了端到端的深度学习。这也是最近发生的一个转变。你愿意多谈谈这个变化吗?

Andrej Karpathy:

我想说, Tesla 的情况是,神经网络正在逐渐取代整个系统堆栈。当我加入时,系统中有大量的 C++ 代码,但现在在车上运行的测试包中 C++ 代码少得多了。

尽管在后端仍然有很多内容,但神经网络基本上在“吃掉”整个系统。最初它只是在图像层面进行检测,然后是多个图像,给予预测,接着是多张图像随时间积累的预测,C++ 代码逐渐减少,最终只输出转向命令。

所以 Tesla 正在一步步替代整个堆栈。我的理解是,当前 Waymo 并没有采用这种方法,尽管他们尝试了,但并未坚持下去。

这是我现在的理解,但我不确定,因为他们并不公开讨论。但我坚信这种方法是可行的。

如果要从头思考这个问题,最终 10 年后的 Tesla 自动驾驶系统可能就是一个神经网络:视频流输入神经网络,输出驾驶指令。这需要逐步构建,分阶段实现,包括所有中间的预测和我们已经做的其他事情。

我并不认为中间的这些预测误导了开发进程,相反,它们是有很多实际意义的。因为纯粹的端到端驾驶系统(模仿人类)提供的监督信号非常有限,而训练一个庞大的神经网络需要大量的监督信号。

因此,这些中间的表示帮助开发各种特征和检测器,使得最终实现端到端解决方案变得更加容易。我怀疑,即使我不再是团队中的一员,但有大量的预训练在进行,以便之后可以对端到端模型进行微调。

因此,逐步实现这个过程是必要的,而这也是 Tesla 所采用的正确方法。看起来它确实正在起作用,我对未来非常期待。

Sara Guo:

如果你一开始就没有数据,那这种方法确实很有意义。你离开 Tesla 之前还参与了 Tesla 的人形机器人项目,我有很多问题想问你,首先是,哪些技术可以在这里转移?

Andrej Karpathy:

基本上所有的技术都可以转移,我觉得人们没有意识到这一点。

Sara Guo:

这是一个很大的断言,我觉得这是一个非常特殊的问题。

Andrej Karpathy:

当你实际查看这些技术时,你会发现它们的确能够转移。其实, Tesla 并不是一家汽车公司,我觉得这是一种误导。它实际上是一家规模化的机器人公司。

我会说规模本身也是一个独立的变量。他们并不仅仅是在制造单个产品,他们是在制造制造产品的机器,这是一件完全不同的事情。

Tesla 是一家规模化的机器人公司,而从汽车到人形机器人之间的技术转移并没有那么多工作量。

实际上,Optimus 的早期版本几乎以为自己是一辆车,因为它们使用的是完全相同的计算机和摄像头。当时我们还在机器人上运行汽车的神经网络,但机器人在办公室里走来走去,试图识别可行驶的空间。

不过现在这些空间变成了可以行走的空间,它实际上有一些广泛的泛化能力。当然需要一些微调,但它的确在“驾驶”,只不过实际上是在移动环境中行走。

Sara Guo:

把它理解为一个机器人,它能够进行很多技术转移,但你需要额外解决的问题是驱动和动作控制,这样理解合理吗?

Andrej Karpathy:

是的。还有一个部分是,很多东西都是可以转移的,比如 Optimus 的启动速度让我印象深刻。Elon 一宣布我们要做这个,相关的人员和工具很快就到位了,CAD 模型、供应链等所有东西迅速呈现。

我觉得, Tesla 内部在机器人制造方面有非常强的专业知识。所有的工具其实是一样的,只不过从汽车的配置重新调整了一下,就像《变形金刚》电影中的情节。

所有组件基本相同,不管是硬件层面的规模问题,还是软件和控制系统层面的“大脑”,都需要考虑相同的事情。神经网络和标签团队的协调方式、采取的技术手段等也有很多相同之处。

有大量的技术可以转移。那么你认为人形机器人或类似的机器人最早会在哪些领域应用?很多人会设想它们在家里为你做家务,但那会是比较晚期的应用。

B2C 的起点并不适合,因为我们不希望一个机器人在家里意外伤害到人,比如撞倒奶奶之类的场景。这样太有法律风险了。

Sara Guo:

这个例子很恰当。

Andrej Karpathy:

是啊,它们可能会摔倒或发生一些意外,这些东西还不完美,需要进一步改进。所以我觉得最好的客户是你自己,我想 Tesla 可能会这样做。大家应该也能看出来,我对 Tesla 很有信心。

第一步应该是自我孵化,比如在工厂里进行大量的物料搬运等操作,这样你不需要和第三方签订合同,避免了很多法律问题。接下来,会进军 B2B 。

Tesla 可能会与大型仓库合作,进行物料搬运等操作。合同会拟定好,围栏也会建好,所有这些事都做好后,才会进一步推广到 B2C 应用领域。

我确实相信我们会看到面向消费者的机器人,比如类似 Unitree 这样的产品。我个人非常期待的一个应用场景是清理街道上的落叶。

我希望能看到 Optimus 机器人走在街上,捡起每一片落叶,这样我们就不需要用吹叶机了。这是一个很棒的任务,希望这是其中一个早期应用。甚至像是耙叶这样的任务也很适合。

Sara Guo:

耙叶的确也是很不错的工作。

Elad Gil:

而且还很安静。

Sara Guo:

对。实际上,现在已经有一些机器人能够执行这些任务,只不过它们不是人形的。我们谈到的重点是人形机器人。

最简单的理解方式是,世界是为人类设计的,所以你应该设计一套能够在人类设计的环境中执行越来越多任务的硬件。

但另一种观点认为,人类并不是最适合所有任务的形态。你可以让机器人更强壮、更大、更小等等。那么你如何看待这个问题?

Andrej Karpathy:

我觉得人们可能低估了任何单一平台的固定成本的复杂性。对于任何平台来说,都有很大的固定成本,因此集中化并让一个平台完成所有任务是很有意义的。

我还认为人形平台的吸引力在于人们可以轻松地进行遥控操作,这对于数据收集非常有帮助,因为人们能够非常容易地操作它。我觉得这一点经常被忽视。当然,正如你提到的,世界是为人类设计的,这一点也很重要。

未来我们可能会看到人形平台的某些变体,但每个平台的固定成本都是巨大的。而且,另一个重要的维度是,不同任务之间的迁移学习的巨大好处。

在 AI 中,你希望有一个神经网络能够进行多任务处理,从而获取所有的智能和能力。这也是为什么语言模型如此有趣,因为它们在单一的文本领域内进行多任务处理,各种问题之间共享知识,并被耦合在一个神经网络中。

你需要这样的平台,所有的数据都可以为其他任务提供好处。如果你为某个特定任务构建了专用平台,你将无法从其他任务之间的知识迁移中受益。

Sara Guo:

是的,有一种观点是,像 G1 这种机器人价格大概是 3 万美元,但似乎在某个成本下很难构建一个功能非常强大的人形机器人。如果你只想要一个带轮子的机械臂去执行任务,可能在初期有更便宜的通用平台方案。你觉得这个观点合理吗?

Andrej Karpathy:

用硬件角度来看,采用廉价的通用平台是合理的,比如给机器人装上轮子而不是腿等。我感觉这种做法可能让我们陷入了一个局部最优解。

但构建完美的平台是一个长期的好赌注。此外,我觉得人形平台会让人感到熟悉,人们可能更容易理解它的操作方式。

这也是我觉得人形平台在心理上有优势的原因,除非人们害怕它,反而更喜欢抽象的非人类形态的机器人。但我不确定那样会不会像某种怪物在做事情一样让人感到可怕。

Elad Gil:

是的,有趣的是,像 Unitree 的狗形态机器人似乎更友好、更熟悉。

Andrej Karpathy:

是的,但人们看过《黑镜》后,可能会觉得狗形机器人突然变得很吓人。所以很难判断,我只是觉得心理上人们更容易理解人形机器人在做什么。

Elad Gil:

你认为在人形机器人或其他形式的机器人领域,要实现这一未来还缺少哪些技术上的里程碑?

Andrej Karpathy:

我不确定我是否有很清晰的看法。我觉得在人形机器人的下半身控制方面,可能不需要像上半身那样通过模仿学习来获取数据,因为下半身更多是摆动控制。

而对于上半身,你需要大量的遥控操作、数据收集、端到端学习等。所以在这个层面上,机器人系统会变得非常混合。我也不确定这些系统会如何交互。

Elad Gil:

我和一些人聊过,他们通常会关注驱动和操作以及数字操作的挑战。

Andrej Karpathy:

我预计一开始会有很多遥控操作,用于将任务从地面启动起来,通过模仿让机器人可以完成 95% 的任务,然后开始逐步减少人类的介入,转向更多的监督机器人工作,而不是直接进行操作。

所有这些都会逐步发生。我不认为有某个特定的技术瓶颈阻碍我们前进。更多的是基础工作。大多数工具现在已经具备了,比如 Transformer 是一个非常出色的工具,你可以用它来处理各种任务。

我们只需要获取数据,将其放入正确的形式,进行训练、实验、部署并迭代。没有某个单一的技术问题在阻碍我们。

Sara Guo:

你觉得当前的“大模型”研究状态如何?

Andrej Karpathy:

关于“大模型”研究的现状,我们处于一个非常好的阶段。我不确定是否已经有人完全认识到,Transformer 比其他神经网络要强大得多。它不仅仅是另一个神经网络,而是一个非常通用的、非常强大的神经网络。

例如,当人们谈论神经网络中的扩展规律时,这种规律在很大程度上是 Transformer 的特性。之前,使用 LSTM 堆叠等模型时,你并不能获得良好的扩展规律,这些模型训练效果不好,也无法很好地工作。

而 Transformer 是第一个真正能够随数据扩展的模型,你能获得清晰的扩展规律,一切都很合理。

所以我把它看作是一台“差分计算机”,你可以给它输入和输出,然后通过反向传播训练它,它会自行排列形成能够执行任务的系统。

我们在算法领域发现了一个非常神奇的东西。其背后有几个关键的创新,比如残差连接、层归一化、注意力模块,以及没有使用一些会导致梯度消失的激活函数(如双曲正切等)。

这些创新共同组成了 Transformer,而谷歌的那篇论文展示了它如何真正开始工作。它的出现解锁了很多可能性。

Sara Guo:

你觉得这种解锁的极限还远未到吗?毕竟现在也有人讨论数据壁垒和下一代规模的成本问题。你怎么看待这些问题?

Andrej Karpathy:

现在神经网络的架构不再是根本性的瓶颈了,Transformer 之前的确是瓶颈,但现在已经不是了。如今的瓶颈在于损失函数和数据集,尤其是数据集。

所以现在大多数活动都集中在如何改进数据集和损失函数上。这也是为什么很多公司在应用这些技术时并不关注 Transformer 的架构。

Transformer 在过去五年几乎没有什么变化。最重要的变化可能是我们加入了“rope positional”这种位置编码,但除此之外,架构基本没变。因此,大部分的创新都集中在数据集和损失函数上。

Sara Guo:

但有人认为,当时我们获取的是互联网上的数据,而现在这些数据已经枯竭了。你怎么看这个问题?

Andrej Karpathy:

是的,互联网上的数据确实快用完了,现在很多研究都集中在生成合成数据或更昂贵的数据收集上。

实际上,互联网上的数据虽然能帮你走得很远,但并不是 Transformer 最理想的数据。互联网上的数据大多是网页,而我们真正想要的是你大脑中解决问题的内在思维轨迹。

Sara Guo:

对,确实是这样,大脑中的思维轨迹。

Andrej Karpathy:

如果我们有十亿个这种思维轨迹的数据,  AGI  可能就离我们不远了。但现实是我们没有这些数据。所以现在的很多研究都集中在将数据集重新组织成这种内在思维轨迹的格式上。同时,还有大量的合成数据生成工作在帮助我们向这个方向迈进。更有趣的是,现有的模型也在帮助我们构建下一代模型。

Elad Gil:

是的,就像一段逐步上升的台阶。你觉得合成数据能帮助我们走多远?毕竟,每个模型都会帮助你更好地训练下一个模型,尤其是在数据标注方面,部分可能会依赖合成数据。你觉得合成数据有多重要?

Andrej Karpathy:

合成数据是我们唯一的前进途径,我们必须让它发挥作用。不过在使用合成数据时需要非常小心,因为这些模型会默默地“坍缩”。比如,当你去问 ChatGPT 讲个笑话时,它可能只会讲几个重复的笑话。

这是因为模型的分布坍缩了,而这一点是很难察觉的。当你看单个输出时,你可能没注意到这个问题,但从整体分布来看,模型丧失了多样性和丰富性。

因此,在生成合成数据时,你需要确保保持数据集的熵,也就是多样性和丰富性。我们有很多技术可以实现这一点。比如,有人发布了一个“persona dataset”,它包含了十亿个人物的背景信息,模拟了各种人类的个性和背景。

这个数据集包括“我是老师”或“我是艺术家,我住在某地,我做什么”等背景描述。合成数据生成不仅仅是“完成这个任务并以这种方式进行”,你还可以加入个性化的描述信息,这样可以强迫模型探索更多的空间,保持数据集的熵。

所以,在这方面需要非常小心,确保数据集的多样性被保留,这也是当前最大的挑战之一。

Sara Guo:

你觉得我们从这些研究中学到了关于人类认知的什么?

Andrej Karpathy:

我不确定我们是否真的学到了很多。

Sara Guo:

也许我们正在探索推理轨迹的形态,这其实对理解大脑的工作方式也很有帮助。

Andrej Karpathy:

我觉得使用类比时需要小心,因为它们其实是非常不同的事物。不过我确实认为有些类比是可以借鉴的。

比如说,在某些方面,Transformer 实际上比人类大脑更出色。Transformer 是一个效率更高的系统。之所以它目前还没有达到人脑的水平,主要是因为数据问题,这是的第一个近似原因。

比如在记忆序列方面,Transformer 远胜于人类。如果你给它一个序列,并进行一次前向和后向传播,那么当你给它提供这个序列的前几个元素时,它会自动完成剩下的部分。而人类如果只看一次序列,几乎不可能记住它。

所以 Transformer 的梯度优化过程(前向和后向更新)在某些方面比大脑的学习机制更加高效。这些模型的确更好,只是它们还没有完全展现出它们的潜力。但在很多认知方面,它们会逐渐显现出优势。

Sara Guo:

在正确的输入下,它们会变得更好。

Andrej Karpathy:

这确实是计算机在各种应用中的趋势。

Elad Gil:

对,我觉得人类的记忆能力也有局限。

Andrej Karpathy:

没错。人类大脑的工作记忆非常有限,而 Transformer 拥有更大的工作记忆容量,而且这种优势会持续下去。Transformer 是更高效的学习者,而人类大脑则受到各种约束的限制,比如环境条件等。所以这些 AI 系统有可能在未来超越人类大脑,只是目前还未实现。

Elad Gil:

你怎么看待未来人类与 AI 系统的结合?你觉得这是一个可能的方向吗?比如通过AI模型增强人类的能力。

Andrej Karpathy:

当然,这是一个非常有可能的方向。实际上,使用 AI 工具的外部版本已经是一种抽象的增强方式。然后还有“融合”的场景,很多人都在讨论这一点。

Elad Gil:

是的,很多人讨论这种“融合”,但目前我们主要是通过指尖与工具进行交互。

Andrej Karpathy:

是的,这是一种瓶颈。人们已经讨论了几十年技术工具如何扩展人类能力,比如说计算机被称为人类大脑的自行车。我们已经看到技术作为工具的外延,但一些AI研究者认为,未来我们可能会通过某种形式的“神经链接”来解决潜在的人机冲突,或者通过这种融合进一步增强人类能力。

我不确定这种“融合”最终会是什么样子,但我能想象减少人与工具之间的输入输出瓶颈是一个重要方向。我把它看作是一个“外部大脑皮层”(exo-cortex),就像在我们的大脑皮层上添加了一层新功能,只不过这层新功能在云端,但它确实是大脑的下一个层次。

Elad Gil:

是的,早在 2000 年代初的《加速》(*Accelerando*)一书中就有类似的设想,一切都通过与大脑相连的计算设备实现,如果你失去了这些设备,就仿佛失去了记忆的一部分。

Andrej Karpathy:

我觉得这非常有可能。而且今天的智能手机已经几乎具备了这种功能。如果你失去了这些科技设备,你会感觉失去了一部分自我。

Sara Guo:

就像失去了部分智力一样。

Elad Gil:

是的,这是非常有趣的现象。一个简单的例子就是导航,现在很多人发现自己已经无法在城市中自行导航了,因为总是依赖于逐步的导航提示。如果这种技术更进一步,比如即时翻译系统,人们可能就会失去与不讲英语的人交流的能力。

Andrej Karpathy:

我不认为这种技术的实现太遥远了。一旦这种即时翻译系统成为主流,如果你不再依赖它,可能就无法与讲不同语言的人交流。

Sara Guo:

我对这种情景很有信心,可以把大脑的这部分功能释放出来,投入到更深的研究中。

Andrej Karpathy:

你可能看到过那个小孩拿着一本杂志,试图在杂志上滑动,就像滑动屏幕一样。这让我感到惊讶的是,这个孩子无法分辨自然界的东西和技术叠加的东西,因为这些技术太透明了。

我觉得未来可能会有类似的情况,人们会开始认为这些工具是自然而然的一部分。等到你把这些工具拿走时,才意识到原来这些是技术,而不是本能。

Sara Guo:

是的,如果我们谈论外部大脑皮层(exo-cortex),这似乎是一个非常重要的概念,如何将其民主化,人人都能使用。你怎么看待目前AI研究领域的市场结构?比如现在只有少数大型实验室有能力推进下一代训练,这会如何影响未来的技术普及?

Andrej Karpathy:

你刚才提到的可能是关于生态系统的现状。现在我们有几家主导性的封闭平台,以及一些相对落后的开源平台,比如 Meta 的 Llama。

这种情况其实有点类似于开源生态系统的格局。当我们开始把这些东西看作“外部大脑皮层”(exo-cortex)时,这就像加密货币中的一句话:“没有你的密钥,就没有你的币”。

那么,是否可以说,如果不是你拥有的权重,那也不是你的大脑?这很有趣,因为公司实际上在控制你的一部分“外部大脑皮层”。

Elad Gil:

是的,听起来确实有点侵入性。

Sara Guo:

如果这是我的外部大脑皮层,我想我会更加在意拥有权的问题。

Andrej Karpathy:

对,你会意识到你是在租用你的大脑,这听起来很奇怪,像是在租用大脑。

Sara Guo:

如果有一个思想实验,你愿意放弃所有权并租用一个更好的大脑吗?我想我会愿意。

Andrej Karpathy:

是的,这是我们需要权衡的东西。也许我们会默认使用那些封闭版本,因为它们的效果非常好,但在某些情况下,我们可以依赖一些备用方案。

我觉得这就是现在的发展方向。比如,当一些封闭源提供商的API出现问题时,人们会实现备用方案,转向自己完全控制的开源生态系统。这让他们感觉更加自主。

Sara Guo:

所以,开源系统的持续进步非常重要。

Andrej Karpathy:

我 100% 同意。这可能现在并不是一个大家都认可的观点,但它是非常重要的。

Elad Gil:

我一直在想,最小的高效模型可以做到什么程度?无论是在参数大小上还是其他方面,你对此怎么看?你对小型模型的蒸馏有很多思考。

Andrej Karpathy:

模型可以非常小。现在的模型浪费了大量容量,记住了一些无关紧要的东西,比如它们记住了散列值和过时的信息。

Sara Guo:

是因为数据集没有经过筛选,最好的部分没有被突出。

Andrej Karpathy:

这种情况会改变。我们只需要找到认知核心,这个核心可以非常小。它只需要处理最重要的事情,其他信息如果需要可以通过工具获取。

Sara Guo:

那这个认知核心需要 30 亿参数还是 200 亿参数?

Andrej Karpathy:

甚至 10 亿参数可能就足够了,模型可以非常小。我之所以这么说,主要是因为蒸馏过程非常有效。你可以用一个非常大的模型,通过大量计算,去教一个小模型,而这个小模型可以保留大模型的能力。

Elad Gil:

你能把这种蒸馏过程量化为某种数学表达式吗?有没有一种信息理论的方式去表示这个过程?感觉我们应该可以通过某种方式来计算出需要的模型大小。

Andrej Karpathy:

我们现在处理的是互联网数据,互联网数据的有用信息可能只占很小一部分,大部分都是噪音。关键是提取出有用的“认知”部分。

Elad Gil:

可能另一种方式是将认知能力与模型大小相关联,或者说如何用某种方式捕捉认知能力相对于模型大小的表现,也许没有一个很好的方式去表示这种关系。但10亿参数可能已经可以提供一个非常好的认知核心。

Andrej Karpathy:

我觉得可能是这样的,甚至 10 亿参数可能都多了。

Sara Guo:

想到这一点还是很令人兴奋的,尤其是考虑到这种小模型可以部署在边缘设备上,而不是依赖云计算。

Elad Gil:

是的,这确实对模型的使用方式带来了很大的改变,这很激动人心。

Sara Guo:

少于 10 亿参数,意味着我可以在本地设备上拥有我的“外部大脑皮层”。

Andrej Karpathy:

是的,我觉得未来可能不是单一的模型,而是多模型并行合作的系统。并行处理在未来会变得越来越重要,而不只是依赖顺序处理。

像公司一样,信息处理也是分层级的,某些信息需要不同层次的处理,这也是公司内部的一种并行化工作方式。

未来的模型会像公司一样分布在不同的层级和领域,比如某个模型是程序员,另一个是程序管理者。多个模型可以并行工作,协同完成计算任务。

Elad Gil:

这听起来更像是一个生物生态系统,不同的角色和生态位相互合作。

Sara Guo:

根据问题的难度和不同的专业领域,你可以自动地将任务升级到“集群”的其他部分。

Andrej Karpathy:

是的,可能某些模型是高性能的云端模型,而其他模型可能是更廉价的资源模型。

Sara Guo:

而且每个人的成本函数可能是不同的。

Andrej Karpathy:

这确实很有趣。

Sara Guo:

你离开  OpenAI ,开始从事教育领域的工作。你一直以来都是教育者,为什么决定做这个?

Andrej Karpathy:

我一直以来都热爱教育,喜欢学习和教学。这一直是我非常热情的领域。而另一个推动我的原因是,我觉得现在 AI 的很多应用都是在取代人类工作,但我更感兴趣的是那些能赋能人类的 AI。

我不希望看到一个人类被边缘化的未来,而是希望看到一个人类变得更加优秀的未来。如果每个人都有一个完美的导师来学习各个科目,人类可以走得很远。

我们看到有钱人雇佣私人教师,确实能取得很好的结果。通过 AI,我们可以实现类似的效果,甚至是超越。

Elad Gil:

是的,1980 年代有一个经典的研究显示,一对一辅导可以使学生的成绩提高一个标准差。你觉得 AI 如何能够实现这样的效果?哪些产品会首先帮助实现这一点?

Andrej Karpathy:

我受到一些灵感的启发。当前,我正在尝试构建一门 AI 课程,我想让它成为每个人学习AI时首先想到的课程。

我曾经在斯坦福教授 AI 课程,但问题是,如何让课程规模化,能够覆盖全球80亿人,并适应不同语言、不同水平的学生?单靠一个教师是无法做到这一点的,所以我在考虑如何用 AI 来扩展这种教师的能力。

我的想法是,教师负责课程的创建和设计,而AI则成为前端,与学生进行互动,帮助他们学习。教师不再直接接触学生,而是在幕后设计材料,AI则负责讲解。

Sara Guo:

我是否可以把这看作是“AI 助教”?

Andrej Karpathy:

可以这么理解。AI 是学生的前端接口,引导他们完成课程。这是目前可以实现的,虽然还没有完全存在,但我相信这是可行的。

随着 AI 能力的提升,未来可能会对课程结构进行重构。我专注于找到那些今天AI能力可以胜任的任务,这种思路让我能够设计出更加实际的产品。

Sara Guo:

你提到的一点让我感到非常鼓舞,特别是来自你对研究现状的深刻理解。我们不知道在人类具备更好工具的情况下,学习能力的极限在哪里。

就像我们在最近的奥运会上看到的,运动员的成绩比十年前大大提高,因为他们从小就开始训练,使用了更科学的训练方法和设备。

你相信人类的学习能力在未来可以通过更完善的工具和课程得到大幅提升,这一点真的非常振奋人心。

Andrej Karpathy:

是的,我觉得我们连可能性的表面都还没触及。这里有两个维度:一个是全球化的维度,我希望每个人都能获得优质教育。

另一个是个体层面的,探索单个个体能走多远。我觉得这两点都非常有趣和激动人心。

Elad Gil:

通常人们在讨论一对一学习时,谈论的是个性化学习,即根据学生的水平挑战他们。你觉得AI可以做到这一点吗?还是目前AI的重点在于覆盖范围和多语言支持?

Andrej Karpathy:

目前 AI 在翻译和多语言支持方面已经非常出色,这些是现成的成果。至于个性化适应学生背景的能力,这仍然是一个需要解决的问题,但并不太遥远。

如果学生有物理学背景,AI 可以根据这个信息进行调适,这在教育中是非常有用的。我想这将是我们要努力实现的方向,虽然目前还不完全具备这种能力。

Elad Gil:

是的,个性化学习的难点在于,不同学生在不同领域的学习速度不同,如何根据学生的情况调整教学内容是一大挑战。不过,我相信随着时间推移,AI模型会越来越擅长这一点。

Andrej Karpathy:

是的,AI 的很多能力现在可以通过简单的提示实现,但从演示到实际产品之间还有一定距离。我会说,演示已经很接近了,但产品化还需要一些时间。

Elad Gil:

在科研界,人们常常讨论不同实验室的背景,很多诺贝尔奖得主曾在其他诺奖得主的实验室工作。你觉得在以 AI 为中心的教育世界里,如何保持这种知识传承和文化传播?

Andrej Karpathy:

我不希望生活在一个“背景”太重要的世界里。我希望AI能够打破这种结构,因为它有点像是对稀缺资源的把控,比如拥有某种背景的人的数量有限。我希望AI能够改变这一点。

我觉得在考虑未来的教育系统时,它可能不仅仅是一个单一模型,而是多个模型并行合作的系统。类似于公司的结构,不同的模型会有不同的角色和职责,它们在并行处理复杂任务时会互相协调,就像一个“集群”系统一样。

我想我们会看到越来越多的模型专注于不同的任务领域,比如程序员、程序管理者等,它们会像一个公司一样相互协作。

Elad Gil:

这有点像一个生物生态系统,不同的角色和生态位互相协作。

Sara Guo:

是的,取决于问题的难度和专业领域,任务可以自动升级到“集群”的其他部分。

Andrej Karpathy:

是的,可能某些模型是高性能的云端模型,其他模型可能是资源更廉价的模型,它们各自承担不同的任务。

Sara Guo:

你离开  OpenAI  开始从事教育,你一直以来都热衷于教育,为什么选择这个方向?

Andrej Karpathy:

我一直以来都喜欢学习和教学,这一直是我非常热情的领域。另一方面,我觉得现在很多 AI 应用都是在替代人类的工作,但我更感兴趣的是那些能够赋能人类的 AI。

我希望未来的人类能够通过 AI 变得更加强大,而不是被边缘化。我想知道,如果每个人都有一个完美的导师,他们能够走多远。如果我们能够通过 AI 提供这种教育,这将非常令人兴奋。

Elad Gil:

你提到教育作为娱乐的理念非常有趣,尤其是你谈到未来人类可以通过更好的工具大幅提升学习能力。你觉得 AI 能在多大程度上帮助人们实现这些目标?

Andrej Karpathy:

AI 能极大地改善学习体验,尤其是在全球范围内提供优质教育。今天的很多学习动机来自于经济需要,比如找工作或提升自己的经济地位。

在未来的后  AGI  社会中,教育可能会变得更多是出于娱乐和自我提升的目的。我希望人们不仅仅是在追求实用性,而是从教育中获得满足感,像是去健身房锻炼大脑一样。

Sara Guo:

你提到教育是一种类似于健身房锻炼的体验。教育本身确实需要付出努力,但这种努力也是一种满足感的来源。

Andrej Karpathy:

是的,教育的确需要付出努力,但这种努力也是一种特别的“乐趣”。人们从中获得成就感,感觉自己变得更好。我希望在未来的世界中,人们不仅在身体上去健身房,也会在心理和智力上“锻炼”,让教育成为一种崇尚的追求。

Sara Guo:

那么你正在开发的这门课程的目标受众是谁?

Andrej Karpathy:

我设想的受众主要是大学本科水平的学生,特别是那些在技术领域学习的人。尽管如此,随着社会的快速变化,教育将不再局限于传统的学制内。

未来人们会更多地回到“学校”或学习新的技能。所以这门课程虽然针对本科生,但实际上任何有技术背景的人,不论年龄,都可以从中受益。

课程的发布时间原计划是今年年底,但现在可能要推迟到明年初,因为我有很多其他项目需要处理。

Elad Gil:

最后一个问题,假如你今天有小孩子,你会建议他们学习什么,以便在未来拥有更有价值的技能?

Andrej Karpathy:

在我看来,正确的答案是数学、物理、计算机科学这些学科。我之所以这么说,是因为这些学科能帮助培养思维能力。

我个人的背景可能有些偏颇,但这些学科是最好的思维训练核心。比如我自己学习数学和物理课程,它们塑造了我的思维方式,非常有助于解决问题。

如果我们还处于  AGI  之前的世界,这些技能非常有用;即使是在 AGI 之后的世界,你仍然希望人类能够在各种能力下保持自主和强大。所以这就是人们应该学习的正确内容,既实用又有价值。

特别是在关键的成长时期,人们有很多时间和注意力,这时候应该更多地花在那些需要简单操作和思考的任务上,而不是记忆为主的任务。

Elad Gil:

我学过数学,感觉自己脑子里开辟了一个全新的领域,有点太多了。

Sara Guo:

是的,而且在之后的生活中很难再去开辟新的思维路径。

Elad Gil:

当然,我并不反对其他学科。广泛的知识涉猎非常美妙,但我确实认为80%的时间应该用来学习这些核心学科。

Sara Guo:

我们不是很擅长记忆,与我们的工具相比更是如此。

LLM 进化分岔口:多模态、成本、代码推理

aigc阅读(45)

头部模型的新一代模型的是市场观测、理解 LLM 走向的风向标。

即将发布的 OpenAI GPT-Next 和 Anthropic Claude 3.5 Opus 无疑是 AGI 下半场最关键的事件。

本篇研究是拾象团队对 OpenAI 和 Anthropic 在 2024 年至今重要技术动作、产品投入、团队变化的总结和分析,我们希望从这些关键细节来理解头部模型公司的核心主线,更深入地把握 LLM 的进化方向。

在这个过程中,我们很明显能感受到,虽然 OpenAI 和 Anthropic 的新一代模型都选择了 self-play RL 技术路线,但两家公司其实在 LLM 接下来要怎么进化的问题上出现了分叉:

  • 对于 OpenAI 来说,模型成本下降和多模态能力的提升是最重要的主线,4o-mini 的发布就比最早的 GPT-4 成本下降了 150 倍,并且 OpenAI 也在积极地尝试新的产品方向;
  • Anthropic 的关注点显然放在了推理能力上,尤其是在代码生成能力上下功夫。在模型产品线上,也能感受到 Anthropic 明确的取舍,多模态不是它们的未来重心,尤其视频生成是一定不会在产品中加入的。

OpenAI 和 Anthropic 之间的差异既和创始人风格、团队技术审美、商业 roadmap 等因素相关,也是 LLM 领域各派声音的集中呈现。

本系列会保持半年一次的更新频率,希望为市场理解 LLM 带来方向性启发。

01. 模型更新

OpenAI

主线 1:成本下降

LLM 大模型的成本下降趋势是非常明确的,在 GPT-3.5 和 GPT-4 的模型定价上都体现得尤其明显。

4o 的模型设计初衷除了大家熟知的多模态之外,就是为了推理成本优化而设计的。在这基础上,甚至 4o-mini 可以再下降 33 倍的成本,这个成本下降幅度是非常惊人的。

我们相信未来随着时间推进和工程 infra 的优化,4o 模型可能还有 10 倍的成本下降空间,很多当前模型能力下的 use case 都能迎来 ROI 打正的时刻。

同时值得一提的是,OpenAI 推出了新的 batch API 方案:API 不实时返回结果,而是在未来 24 小时内返回结果,这能使 API 价格打对折。这适用于对时间不敏感的大批量任务,可以大量节省成本。这个方法能降成本是因为目前的实时推理中 long context 和短的会放在一个 batch 中处理浪费很多资源,而降低实时性能够将相 context length 放在一起计算来降低成本。

OpenAI 还没有推出 Anthropic 使用的 prompt caching,不确定是否已经用类似方式进行降本了:Claude 在 long context 下可以通过把部分常用 prompt 存在缓存中来节省 90% 成本,降低 85% latency。这个方法在 RL 技术路线下会非常有用,因为模型 self-play 探索时会有大量重复 context。

另外 4o 对多语言数据的 tokenizer 效率提升,也能带来更低的成本。多语种在压缩过程中的 token 消耗量都显著降低,例如一句话原本需要 34 个中文 token,现在 24 个就能够实现。

主线 2:多模态交互能力提升

模型能力角度上,OpenAI 在今年上半年最大的进展在多模态能力上:

理解侧

1)GPT-4o 模型的发布实现了端到端的多模态能力,在语音对话和多模态能力上有明显提升的同时,降低了成本且没有降低推理能力。其语音功能至今仍未大面积推出, advanced mode 还在缓慢 roll out 中。

speech-to-text:显著领先于 Whisper。端到端模型在语音上显示出了一定的 emergent capability,比如何时能打断并介入与用户的对话。等大规模铺开后在语音陪伴等场景的 PMF 可能迎来新一波的机会。

视觉理解:显著高于其他模型,但没有出现多模态 unify 带来的智能涌现。视频数据的信噪比太低,在当前架构下和文本数据放在一起,并没有带来显著的多模态智能,这是多模态理解领域上需要解决的问题。

生成侧:

a. 在 vision 方面发布了 Sora 视频生成模型,Sora 发布后视频生成领域的 SOTA 暂时收敛到了 DiT 架构。由于 Sora 目前还在 demo 阶段,我们预期下半年会发布给公众使用。

b. 4o 模型作为一个端到端生成模型,也在探索用端到端 autoregressive 的方式生成图片。

Anthropic

主线 1:模型推理能力增强

2024 年上半年,Anthropic 在 Claude 模型系列上取得了显著进展。3 月 4 日,公司推出了 Claude 3 系列,包括 Opus、Sonnet 和 Haiku 三个版本,每个版本都针对不同的应用场景和需求进行了优化。President Daniela Amodei 在最近的一次公开分享中提到,他们设计时的想法是 :

• Opus 为复杂推理、研究场景设计。Opus 是第一个超越 GPT-4 的模型,但定价偏高性价比差。

• Sonnet 是为企业常用需求如 RAG 设计的,可能是因此第一个做了 3.5 版本。

• Haiku 是为实时性强的客服等对话场景设计(由此推测,他们也可能在 voice 领域推出端到端模型)。

6 月 21 日 Anthropic 又发布了 Claude 3.5 Sonnet,进一步提升了模型的性能和能力。Anthropic 还预告将在 2024 年晚些时候推出 Claude 3.5 系列,包括 Haiku 和 Opus 版本。Opus 版本是最值得期待的,看其是否能够大幅超越 GPT-4 的推理水平。

在性能方面,Claude 模型取得了很大进步。

Claude 3.5 Sonnet 在很多领域的表现超越了 GPT-4,特别是在研究生级推理和编程能力方面。直到 9 月,其他所有模型的更新都无法在 Coding 和复杂推理能力上超越 Sonnet 3.5。

其 coding 能力提升也带来了一系列 AI coding 产品的实现:Cursor 作为 IDE 的开发体验一下子流畅了很多,甚至 Websim 这样在上半年看起来是 toy project 的产品在现在也有了不错的效果。背后原因都是 Claude Sonnet 3.5 能生成上百行的可靠代码,而之前的 SOTA 模型只能生成 20 行左右。

模型的其他维度能力也在各个 use case 得到了全面扩展。Claude 3.5 Sonnet 的推理速度是 Claude 3 Opus 的两倍,可以处理 200K token 的上下文窗口,相当于约 500 页文档的内容。多模态能力也得到显著增强,特别是在视觉理解方面,包括图表解读和从不完美图像中准确转录文本的能力。

主线 2:模型拟人能力增强

Anthropic 首次在 Claude 3 系列中引入了”性格训练”(Character Training),这项能力是在 post training 加入的。这项创新旨在赋予模型良好的性格特征,通过生成数据和自我排序来内化这些特征。这不仅提高了模型的吸引力和互动性,用户反馈也表明与模型的对话变得更加有趣。

训练方式:首先要求 Claude 生成各种与特定性格特征相关的人类消息——例如,关于价值观的问题或关于 Claude 自身的问题。然后向 Claude 展示这些性格特征,并让它针对每条消息产生符合其性格的不同回应。之后,Claude 会根据每个回应与其性格的契合程度对这些回答进行排序。通过对这些回答的排序训练一个偏好模型,我们可以教导 Claude 内化其性格特征,而无需人类的交互或反馈。

尽管这个训练流程仅使用 Claude 自身生成的合成数据,但构建和调整这些特征仍然是一个相对手动的过程,需要人类研究人员密切检查每个特征如何改变模型的行为。

这个方向结合他们的 interpretability 的研究,可以看到他们在模型的可控性上下了很多功夫。

用户评价

我们也收集了一系列用户对 4o 模型和 Claude 3.5 的用户使用评价:

GPT-4o 优势:

  • 速度快,响应迅速:在 iOS 应用中使用 GPT-4o 时,几乎感觉不到延迟,能够实现类似实时对话的体验。
  • 多模态能力强:GPT-4o 有更完备的语音对话和图片识别能力,且语音识别准确度、对话智能度很高,还有创作图片的能力。
  • 在一般对话和简单任务中表现良好。
  • ROI 高:用户普遍表示,对于需要频繁使用 AI 但预算有限的情况,GPT-4o 提供了很好的性价比。

GPT-4o 劣势:

  • 在复杂推理、数学和编程任务中表现不佳 :例如有用户提到在使用 GPT-4o 编写 C++的类型定义时,4o 不能特别好的理解复杂需求。
  • 输出冗长,常忽视简洁指令:即使用户明确要求简短回答,GPT-4o 仍倾向于提供详细解释,有时甚至重写整个段落/代码块而非只给出必要修改。
  • 在专业问题下不如早期的 GPT-4 版本:一些用户提到在处理特定领域的专业问题时,GPT-4o 的表现不如早期的 GPT-4 模型,可能和其模型进行量化降成本有关。

Claude 3.5 Sonnet 优势:

  • 在复杂推理、长文本处理和编程方面表现优异:多位用户提到 Claude 在处理 C#和 C++等编程语言的复杂任务时表现出色,能够准确理解和执行复杂指令。
  • 更好地遵循复杂指令:用户发现 Claude 能够准确执行多步骤任务,如在学术研究中按特定格式生成报告并同时进行数据分析。
  • 创意写作和人性化交流能力强 用户表示 Claude 能够更好地捕捉和模仿特定的写作风格,产生的内容往往更贴近人类作者的水平。
  • 在 C#、C++等特定编程语言中表现出色:一位用户提到,在使用 Claude 重写 C#方法时,生成的代码通常可以直接使用。

Claude 3.5 Sonnet 劣势:

  • 模型外部能力局限:Claude 无法生成图像,没有实时网络搜索功能,也没有语音交互的能力。
  • 某些用户反映最近性能有所下降:有用户提到 Claude 在某些特定领域的回答质量不如以前准确,可能是由于成本优化导致的。

02. 产品进展

OpenAI

用户数据上涨:多模态带动交互创新,4o 让产品再度扩圈。

1)ChatGPT 用量随 4o 的发布大幅增长:

a. OpenAI 的访问量自 2023 年 5 月达到峰值后,因为暑假开始下降,后续变进入波动,直到今年 5 月 GPT-4o  发布后再次飙升,在 2024 年 6 月的访问量达到 2.9 亿次,比 2024 年 5 月增长了 15.6%,而 2024 年 5 月则比历史最高值增长了 40%(2023 年 5 月),GPT-4o 对用户量的拉动是极为明显的。

b. 去年访问量在夏季下降,今年没有出现这种趋势,主要得益于 GPT-4o 推出,OpenAI 能够持续保留和吸引新用户。(一定程度上也得益于 GPT-4o 多模态能力使得 ChatGPT 进一步向生活场景拓展,而非仅仅是一个效率工作产品)。但节日趋势在其他产品上还是明显存在的:C.AI 流量上升,Perplexity 流量下降。

c. 截止到今年 6 月的 Web MAU 约为 2.3 亿,移动端 DAU 约为 320 万。

2)放在搜索引擎语境下,ChatGPT 的用量持续超越 Bing 和 Perplexity,与 Google 仍有量级上的差距,但开始逐渐蚕食传统搜索引擎的心智。

尽管 Google 整体搜索份额还比较稳定在 91%+,但其桌面端被拿份额的趋势比较明显,美国和全球数据都是这个趋势。ISI 发布了一份报告介绍他们对 1000 多名消费者的调查结果。他们注意到,从6月到8月,Google 作为首选搜索引擎的份额从80%下降到74%,而ChatGPT的份额从1%增加到8%。

• 6 月份 ChatGPT / Perplexity 流量略降,Claude 有个跳涨,和 Sonnet 3.5 模型能力显著提升有关。

3)对 AI 产品流量和商业模式的思考

a. 在 AI 时代流量最大的产品不一定产生最大的价值,完成任务的难度更重要。这个观点的前提是广告模式不是 AI 时代最后的 business model。

b. 大模型公司的商业模式不比移动互联网简单,更像传统零售的库存模式:资源都分配给训练用户用不上产品,那就是库存积压;资源给推理太多模型能力跟不上,是库存短缺。

c. 目前看到的大模型公司商业模式,要明显比互联网广告和软件订阅的商业模式差很多。后两者最重要的特征是 ① 提供服务的边际成本几乎是零,或是持续显著下降。② 黏性/用户留存极强。意味着企业只要投入建立平台/软件产品及获客,后续收入的利润率极高,且持续性很强。大模型无论是 API 还是订阅制,定价端很难提价,而随着模型能力增强,用户query/任务会更加复杂,服务用户需求的成本还可能是上升的。

从生产力助手到 Agent 探索:

feature 更新和收购并行

根据 chatgpt 今年 1 月-7 月的产品升级,可以发现如下几个趋势,他们是明显在从生产力助手往 agent 方向在探索:

• 新的交互模式已经有了雏形,在日常生活中的应用场景大大扩宽:通过对多模态能力的不断强化,目前能够对图片进行解读、翻译和推荐、实时语音交流、屏幕读取功能。

• 工作效率产品逐渐完善:针对数据分析需求,ChatGPT 新增了与云存储服务如 Google Drive 和 Microsoft OneDrive 的直接集成,以及实时表格交互和可定制的图表功能。

• 在逐步搭建生态系统,尽可能多的平台整合:与苹果等大平台的整合,推出桌面版,提升了在不同操作系统和应用中的可用性和用户接触点。

• memory 功能加入:目前还只是把文字内容总结成简单的一个标签放进 system prompt。下一步结合 Rockset 的收购可能为外部互联网和每个用户的聊天记录建立 index,做到更强的个性化。

同时也值得分析一下他们是收购三家公司的价值,和他们实现 agent 的愿景高度相关:

1)Rockset(2024 年 6 月收购):

Rockset 是一家专注于实时分析数据库的公司,以其先进的数据索引和查询能力而闻名,成立于 2016 年。OpenAI 收购 Rockset 的战略动机主要是为了增强其检索基础设施。这将使 OpenAI 能够提供更强大和高效的数据处理能力,特别是在实时搜索和 RAG 上。此次收购预计将显著提升 OpenAI 在数据 retrieval、分析和检索方面的能力,使其 AI 解决方案更加强大,能更好地响应实时数据需求。这也增强了 OpenAI 在与其他 AI 模型提供商和全栈生成 AI 平台竞争时的技术实力。

此外,未来的 agent 中最关键的工程设计在于 memory 的设计,前面这套在 RAG 和 search 的方案也可以用在未来 agent 的记忆机制上。

2)Multi(原 Remotion,2024 年 6 月收购):

Multi 是一家开发实时协作工具的初创公司,允许用户共享屏幕并在编码等任务上协同工作。OpenAI 收购 Multi 的战略目的是利用其技术来增强远程协作能力和 AI 驱动的内容摘要功能。这与 OpenAI 通过 AI 改善团队协作和生产力的更广泛目标相一致。这次收购的一个重要意义可能是实现未来人与 AI agent 在屏幕前的共同协作。

3)Global Illumination(2023 年 8 月收购):

Global Illumination 是一家专注于创意工具、基础设施和数字体验的公司,由来自 Instagram、Facebook、YouTube、Google、Pixar 和 Riot Games 的前关键设计师创立。收购 Global Illumination 的目的是增强 OpenAI 的核心产品,包括 ChatGPT。此外我们也猜想,他们之前的产品也可能适合成为 virtual agent 的进行强化学习的交互环境。

Anthropic

交互:Artifact 时软件生成 task engine 的早期形态

Artifacts 是我们使用 Claude 产品时会出现的动态 workspace,能把我们需要完成的任务转换成代码,并用代码的方式来实现基础的任务。我们可以认为它是 OpenAI Code Interpreter 基础上对 UI/UX 的创新。

Claude 团队给 Artifact 的未来定位是企业团队将能够安全地将他们的知识、文档和正在进行的工作集中在一个 Artifact 这个 workspace 中进行交互,而 Claude 则根据需求作为 copilot 对这个workspace 进行交互。所以可以认为 Artifact 是 Anthropic 团队对下一代 AI-native 协作平台和工作流的想象。

在实际使用场景中,现在还是开发者使用 artifact 制作初步代码比较多:

• 示例一:一行 prompt 制作日历 app,artifact 直接呈现出 code 和 UI,不需要自己动手写基础代码

• 示例二:上传一本书后,边读边通过 artifact 总结每一页的内容

Agent 探索:

还在 tool use 阶段,未来 roadmap 可期

Tool use 能力的提升标志着 Anthropic 在 agent 技术上比较稳健的一次进步。2024 年 5 月,Anthropic 为 Claude 3 系列模型增加了与外部工具和 API 交互的能力,这一进展大大拓展了模型的实用性。这项功能使得 Claude 能够执行更为复杂和实际的任务,不再局限于纯粹的文本生成。用户只需用自然语言描述他们的需求,Claude 就能智能地选择合适的工具并执行相应的操作。这种自然语言接口大大降低了使用门槛,使得即使非技术背景的用户也能轻松地利用 AI 的强大能力。

Anthropic 展示的 agent 应用场景涵盖了多个领域,充分体现了其技术的广泛适用性和潜力。首先,在数据处理方面,Claude 能够从非结构化文本中提取结构化数据,这对于自动化数据录入和分析具有重要意义。其次,Claude 可以将自然语言请求转换为结构化 API 调用,这大大简化了系统间的交互过程。在信息检索方面,Claude 能够通过搜索数据库或使用 Web API 来回答问题,提供即时且准确的信息。对于日常任务自动化,Claude 可以通过软件 API 执行简单任务,提高工作效率。

其中最特别的一个例子是 Claude 能够协调多个快速子 agent 来完成细粒度任务,这是复杂任务的分解和并行处理的未来方向。这种阶梯式的模型分工方法可能涉及多个专门化的 agent 协同工作,每个 agent 负责特定的任务或领域。这种架构不仅能提高整体系统的效率和灵活性,还能更好地处理复杂的多步骤任务。通过让不同的子代理各司其职,系统可以更有效地利用资源,并且能够根据任务的需求动态调整工作流程。

Anthropic 在官网公布了他们的未来方向,其中他们对 agent 的长期规划是宏大而全面的:

• 知识融合(结合多个领域的交叉知识)

• 超越现有训练数据、本科生水平的知识推理

• 自主执行端到端科研项目

• 提出新假设和设计的能力

• 隐性知识(只能通过在实验室中的学徒制获得的那种知识)

• 需要做出连续决策才能实现的 long horizon task

• 自动化数据分析

这些能力的实现都会和我们期待的 agent 有着方向上的汇合。仔细看会发现 Anthropic 对 AI 的期待很多都落在软件和科学发现上。

03. 人才更新

OpenAI

OpenAI 依旧保持快速增长状态,已经从纯粹的 AI Lab 演进至更加工程、产品、收入导向的公司。公司目前有 400 名以上的 Researcher,超过 1200 位非研究类员工,包含工程、销售、产品、后台支持等,对比 2023 的 770 人增加近乎一倍。

从招聘侧重点看,近三个月,有 460 人新加入 OpenAI,其中 Member of Technical Staff 依旧占主要,共有 130 人,偏工程类员工占整体 MTS new hire 的 80%。Go-to-market 是招聘数量第二多的团队,新招聘 46 人。产品新招聘 24 人,其中包括新加入的 CPO Kevin Weil。

离开的关键人才

• Ilya 于 2024 年 5 月与 SuperAlignment Co-lead Jan Leike 接连离职。Ilya 在离职后创办了 SSI,致力于构建安全超级智能 。而 GPT-4 的核心人物 Jakub 接任了 Chief Scientist 的角色。Ilya 对于 OpenAI 是指明方向的灵魂人物。但也有观点是 Ilya 的远见对于 OpenAI 初期带来很大帮助,但在 OpenAI 已经明确远期方向后,Illya离开的影响并不大。

• 同样为 OpenAI 早期灵魂人物的 Greg 会休假至年底后再回归公司。

• Andrej Karpathy 在加入 OpenAI 一年后于 2024 年 2 月离开 OpenAI,离职后创办 Eureka Labs 的 AI 课程教育公司,自己担任讲师帮助学生更好理解 AI 与 LLM 训练。

• John Schulman 离开 OpenAI 加入 Anthropic。晋升为 alignment lead 前,John 曾是 reinforcement learning team lead,是 RLHF 的开创者,确定了 OpenAI RL 的路线。John 是 OpenAI 创始团队之一,师从 Pieter Abbeel。离开 OpenAI 后,John 加入 Anthropic。

• Jan Leike 跟随 Ilya 一同离职后加入 Anthropic,继续负责 Alignment 方向工作。John Schulman 和 Jan Leike 的加入意味着 OpenAI 的研究路线图对于 Anthropic 团队几乎是一张明牌。

• Peter Deng 作为 Product VP 离开 OpenAI,Kevin Weil 作为 OpenAI 新加入的 CPO 继续领导 OpenAI 的产品工作。Kevin 在加入 OpenAI 前为 Meta Diem、Instagram 的 VP of product,在 Instagram 任职期间帮助 Instagram 在与 Snap 竞争阶段获得优势。从 Peter 的离职也能感受到 OpenAI 对新产品开发落地的激进程度。

• Aleksander Madry 于一年前从 MIT 教职暂时离开,加入 OpenAI 创办 Preparedness 团队,目标是通过理论研究帮助 OpenAI 提前控制可能发生的重大风险。Aleksander 于 2024 年 7 月离开,接任者为 Joaquin Quiñonero Candela,加入 OpenAI 半年时间,先前在 Meta 带领 Responsible AI 团队近九年。

• Jeffrey Wu 是 GPT- 2 的核心贡献者,参与了 GPT 的可解释性、可拓展监督方向的工作。也作为核心参与了 InstructGPT 这一 RLHF 的重要项目。Jeffrey 于 OpenAI 任职 6 年,于 2024 年 7 月离职,加入 Anthropic。

• Yuri Burda 是 OpenAI reasoning team 的创始成员之一,负责 OpenAI 的数学方向研究,并于早期项目:Dota、Codex 中有核心贡献。离开 OpenAI 后 Yuri 加入 Anthropic。

值得关注的新团队和岗位

我们也观察到 OpenAI 出现了一些新的小组:

1)Solution Architect

在 Success Team 下新增了 Solutions Architect 团队,隶属于 Success Team 下。目前整体团队大约 20 人,均为一年内加入 OpenAI,对 Enterprise 提供整体部署解决方案。Solutions Architect 团队源于 OpenAI 的策略调整:OpenAI 为了防御 Azure 捆绑销售策略下的折扣定价,承诺可以为大客户根据需求定制软件。

2)集群硬件

OpenAI 从 0 到 1 搭建了新的硬件团队。从团队配置看,更像是计划搭建数据中心集群所需要的人才。目前硬件团队还是一个不到 10 人的小团队,由 Richard Ho 带领。Richard 先前于 Google 任职近十年,是 Google TPU 的 Senior Engineer Director。先前有报告提及 OpenAI 至少要等到 2025 年才可以自己开发芯片,并且目前在与博通商讨合作设计的形式,Richard 做为 Google TPU 的负责人,在 OpenAI 的定位会是 lead 起 co-design 任务的角色。

Richard 团队内,Reza Khiabani 先前于 Tesla Dojo、Google TPU 负责数据中心液冷方向工作。Xin Li 先前于 Google 负责数据中心电源工作。

3)投资了 Opal 团队

此外,消费硬件层面,OpenAI 于 2024 年 8 月投资了 Opal,有可能在之后一起合作 AI 硬件。Opal 的产品为高清摄像头,并且十分重视设计。

Opal 于 2020 年成立,是一个 15 人的小团队。创始团队为 Uber 背景。CEO Veeraj Chugh 在创办 Opal 前于 Uber 任职 3 年,先后负责 Uber Freight、Uber New Mobility 的产品运营工作。Co-founder Stefan Sohlstrom 是设计背景出身,2014 年作为第 5 号员工加入 Plaid,担任 Plaid 的 Head of Design。2017 年开始于 Uber Freight 从设计职责转换成产品经理,成为 Uber Freight Shipper Platform 的产品 Head。

4)Model Behavior scientist

对于 Model Behavior 研究人员的招募可能揭示 OpenAI 希望增强模型的可控性并且希望能够发展新的交互方式,同时提升模型的创造能力。

5)mid-training scientist

Mid-training 已经被正式定义为一个新的训练阶段。其主要环节可能包括一些比较接近模型基本能力的 alignment,与 human feedback 离得相对远、更靠前。

Anthropic

2024 年以来,公司人数从 300 人增加至 500 人左右。2024 起,公司招聘共 180 名新的 Member of Technical Staf,使 Anthropic 整体 Member of Technical 数量达到约 260 人,其中 90 名 Researcher,210 名 Engineer。Anthropic 的第二大招聘重心为产品团队,2024 年前,Anthropic 的产品团队共 10 人,而今年已经是接近 30 名,包含产品经理、Product Partnerships / Marketing 相关员工的团队。

Anthropic 和 OpenAI 相比更看重 Alignment、可解释性、AI 社会影响三个方向研究,也是 Anthropic 官网上 Research 部分的三个主要构成部分。

可解释性团队由 Shan Carter 带领,现已经是 20 余人的团队。Shan 先前于 OpenAI、Google Research 工作,主要负责可解释性方向研究,曾与 Co-founder Chris Olah 于 Google 时参与 Google 重要可解释性研究:The building blocks of interpretability。

可解释性团队在 Claude3 发布后发了一篇新论文:Scaling Monosemanticity:  Extracting Interpretable Features from Claude 3 Sonnet,突破了模型的透明度并且建立了新解决黑盒问题的机制。

除了前面提到的几位从 OpenAI 离职的几位早期重要 researchers 之外,还有这样几位重要 OpenAI / DeepMind 出身的重要科学家加入:

• Pavel Izmailov 自 2023 年 6 月加入 OpenAI,工作一年后离开加入 Anthropic。于 OpenAI 期间 Pavel 是 superalignment 的成员,加入 Anthropic 也有大概率与 Jan 继续合作 alignment 方向工作。

• Steven Bills 于 2022 年 3 月加入 OpenAI,是 superalignment 团队的成员,参与了 OpenAI 发布 GPT 后的可解释性研究:Language models can explain neurons in language models。

• David Choi:David 于 2017 年至 2023 年 12 月于 Deepmind 担任 Staff Research Engineer。先前是 Deepmind 的 AlphaCode Co-lead,是 Deepmind 在 2022 年时的核心代码生成模型。David 在 agent 方向的研究可以追溯至 2019 年与 xAI 的 Igor 共为一作的 AlphaStar 论文。

• Jascha Sohl-Dickstein:Diffusion model 核心一作,曾是 Google 的首席科学家。于 2024 年 1 月加入 Anthropic,此外,Jascha 曾发布了 Score-based SDE,构建了生成 Diffusion 模型理论的框架。

Anthropic 产品团队最大的更新是新 CPO 的加入。Mike Krieger 原先是 Instagram 的 Co-founder & CTO,经历了在 Instagram 被收购后从只有 6 位全栈工程师成长到包含 300 位工程师的 full function 工程团队的过程。Mike 于 2021 年时与 Instagram CEO Kevin 开始做 AI 新闻推送创业 ARTIFACT,于 2024 年 5 月停止项目,加入 Anthropic。Mike 本身的经历和 Anthropic 经历了只有 80+人的小团队,但创造出了 SOTA 模型,之后迅速扩张的过程非常相符。加入 Anthropic 后 Mike 带领 Claude APP,以及企业服务的产品工程、管理、设计工作。

Anthropic 的产品团队自 2024 年也快速扩张,目前 30 位产品成员大多数来自于 Stripe、Google、AWS 三家诞生了出色的 enterprise 产品的公司。

Artifacts

Artifacts 是 Mike 加入 Anthropic 后负责的新产品,外部对 Artifacts 的评价是“又懂模型、又懂产品的人做出的产品”,对比 OpenAI “互联网风格”的产品会更 AI-native。而 Artifacts 的名字和 Logo,都与 Mike 先前创业项目 ARTIFACT 高度相似。

Mike 的 Artifact 项目

Artifacts 与 Claude 的 Logo

与 Mike 一同加入的还有先前共创 Artifact 的工程师 Justin Bisignano。Justin 2020 年加入 Instagram 团队任安卓工程师,所写的代码支持了 20 亿用户。2022 年 7 月加入 Artifact 任职至 2024 年 4 月后加入 Anthropic,负责 Claude 的产品工程方向工作。

04. 研究更新

OpenAI

Prover-Verifier Games improve legibility of language model outputs

新的训练方法:OpenAI 开发了一种称为”Prover-Verifier Games”的新训练方法,旨在平衡模型的性能和可读性。

解决关键问题:这种方法解决了之前模型在性能和可读性之间存在的权衡问题。过去,注重可读性可能导致幻觉(hallucination),而过度注重正确性则可能降低可读性。

训练机制:

• 使用一个强大的模型(prover)和一个较弱的模型(verifier)。

• verifier 经过训练,预测 prover 生成解决方案的正确性。

• prover 被指示扮演”helpful”或”sneaky”角色,分别生成正确或错误的高分解决方案。

• 通过多轮训练,verifier 不断学习识别错误解决方案,迫使 prover 探索新策略。

意义:

• 通过 multi-agent 分工的方式实现,在减少人类直接干预的情况下,实现对超智能 AI 系统的对齐。

CriticGPT, Finding GPT-4’s mistakes with GPT-4

• 基于 GPT-4 开发的模型,旨在发现 ChatGPT 代码输出中的错误。

• 实验表明,使用 CriticGPT 辅助的人在代码审查中,60%的情况下表现优于没有辅助的人。

研究意义:

• OpenAI 正在努力将类似 CriticGPT 的模型集成到他们的 RLHF(Reinforcement Learning from Human Feedback)标注流程中。

• 这将为他们的训练人员提供明确的 AI 辅助。

局限性和未来发展方向:

• 目前 CriticGPT 主要针对较短的 ChatGPT 答案进行训练。

• 未来需要开发能够帮助训练人员理解长期和复杂任务的方法,以便监督未来的 AI 代理。

• 模型仍存在幻觉问题,有时训练人员会因这些幻觉而做出错误标注。

• 当前研究主要关注可在一处指出的错误,未来需要解决分散在多个部分的错误。

• CriticGPT 的辅助能力有限:对于极其复杂的任务或响应,即使是有模型辅助的专家也可能无法正确评估。

长期目标:

• 开发能够处理长文本的能力。

• 最终目标是使用这种技术来监督 AI agent 的训练。

Anthropic

Scaling Monosemanticity, Extracting Interpretable Features from Claude 3 Sonnet

• 使用机器学习中“dictionary learning”的方式,并借助训练大模型的 scaling law techniques,将这个技术沿用到大模型上,从中 isolate 出大模型激活神经元的 pattern,解读模型激活神经元的方式。文章中提到探索了几种能力:

◎ 针对不同 entities(景点如 golden gate,抽象概念如程序 bugs,gender bias),神经元被激活,并且是 multilingual 和 multim – modal 的。

◎ 可以根据激活神经元方式的不同,计算特征之间的“distance”,做近邻计算。

◎ 可以人为改变特征被激活的方式,会直接影响模型生成的答案。也能从中发现一些模型可能被潜在激活的不好的方向,为之后监控这些潜在威胁        提供了工具。

• Anthropic 真正做到了 interpretability 的 scale-up:使用 sparse autoencoder 来做到解读神经网络中的 feature。之前主要使用数学统计模型无法 scale-up,sparse autoencoder 的稀疏性可以很好的捕捉到一些关键点,其他不关键信息在 vector 中都不会激活。

• 对比 OpenAI 的可解释性工作:

◎ OpenAI 的研究较为浅层,主要捕捉 LLM 的行为模式;Anthropic 的研究更深入,挖掘到了不同单词和实体在神经元激活上的规律。

◎ Anthropic 的研究通过干预可以直接改变模型的输出结果,而 OpenAI 的研究主要停留在观察层面。

这几篇研究可以看出一些对 RL 方向研究的端倪,也可以发现 Anthropic 团队对可解释性的追求是更强的,很可能他们未来会给予可解释性设计更多的模型可控性feature。我们也期待这些研究能带来下一波 AI-native use case 的解锁。

30日留存用户数趋零,如何破局国产AIGC大模型产品现状

aigc阅读(89)

一、获客成本

无论是传统互联网还是AIGC获取新客户的成本都很高。

而获客成本是评价企业是否长期可持续增长的关键指标之一。需要注意的是,获客成本不仅仅是广告开支,还包括营销和销售人员的人工成本,创意、内容产出方面的额外成本等以及一些其他运营成本等,所有这些因素都应该算进获客成本里。

笔者统计了古早互联网到移动互联网2021年各大互联网企业的获客成本

一个明显的趋势是,各大互联网企业的获客成本都在不断攀升。互联网行业所面临的增量空间也逐步收窄,无论对于互联网巨头还是中小企业,新增流量都已然成为了稀缺资源。

获客成本贵,谁能留住用户,谁赢!

二、字节跳动自身获客运营成本

时下说字节跳动为流量之王应该没有争议,但是字节跳动抖音自身的获客成本极其昂贵,且新用户增长放缓。

2020年3月25日 字节跳动通过传统渠道的获客成本已经高达60元,获客成本已经高于同期的微博,继续扩张需要支付更高昂的获客成本和推广费。

如今花旗、高盛和摩根大通是字节跳动寻求95亿美元贷款融资的协调银行,贷款期限三年,最多可延长至五年。

这些资金也将用作营运资金。

字节跳动APP全球月活超过25亿,但是依然再缺流量的状态。

对字节跳动来说靠娱乐内容圈进来的用户,能够每个环节将流量变现才能赢!

三、国产AI大模型产品30日留趋0

国产大语言模型产品用户30日留存几乎为零。

这样的用户留存不仅让人发问中国AIGC大模型会不会是昙花一现?30日后,国产AI大模型用户流失严重,从字节的豆包,到百度的文心一言(现在改名文小言),用户下载之后的30日内,使用率就都低于1%

为何大语言模型几乎没2C的用户,再怎么猛推就不行?

因为真正生产力场景,大家还是首选国外ChatGPTClaude的。

因为国产AI大模型先天营养不良之外,投资枯竭也是中国AI落后的原因之一。

从整体AI融资频次看,2024年,欧洲的AI初创公司进行了超过1700轮融资,其中超1亿美元的融资高达14笔,仅次于美国。今年上半年,中国Al领域的融资总共只有265起。大模型炙手可热,但AI训练是需要海量资金和素材的。

我有个网友是开餐厅的,从2019年在老静安一条弄堂深处做餐饮,第一年亏损过几百万,第二年继续亏损,直到2023年餐厅才开始盈利,一开始亏损但坚持高规格,就是按照米其林黑珍珠的标准做饭,最后到如今算是亏损出来了,可能大语言模型产品需要像这家餐厅一样需要资本坚持到太阳升起的那一刻。

但是这家餐厅在不停的迭代菜品、升级服务体验和淘汰不合格的工作人员,不知道国产大语言模型有没有这么迭代产品。

大语言模型产品一方面花费巨额营销成本引流、另外一方面技术产品运营又在流失所有用户。一根火柴两头烧,很快会烧疼肉!运营、产品、技术再不破局国产大语言模型将迎来破产潮!

四、技术差距真有这么大?

技术差距缩短到半年,集体进化到Turbo水平

2023年大模型领域,争吵的最大话题,是国产大模型到底距离OpenAI,还有多远的差距。

百度创始人李彦宏说只差两个月,王小川说怎么可能,如今这一答案基本明了。

ChatGPT-4 Turbo是在2023年11月7日的OpenAI开发者大会上发布,让当时的大模型界振聋发聩。但距离GPT上次更新已遥遥8个月,国产大模型在这期间分秒必争,如今基本宣布自己已经达到或超过ChatGPT-4 Turbo,也即意味着差距至少在半年之久。

但也有个别领域差异化领先,OpenAI宣布封禁国内地区的API调用的第二天,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。智谱开源了其第四代的GLM模型—GLM-4-9B。GLM-4-9B开源模型综合能力相比 ChatGLM3-6B 提升 40% ,中文学科能力提升 50%,最高支持达 1 百万 tokens 长文本,支持 26 种语言。

技术上有锚点,可以学习对方的长处,去从开源LLM中借鉴预训练的架构,层、和工程配置。

但是将技术制成产品确实差距比较明显。微软小冰做TTS(文本转语音)历史时间没有10年也有8年了,这个技术本身貌似很成熟,但是等到2017年Transformers架构出来之后微软小冰的TTS再也不香了。

一个技术上看似差别不大,从技术产品架构到制成产品上,其给用户的体验结果会差别非常大。

五、大语言模型面临的生死边界

1. 降价

“比行业同类产品便宜90%”“两款产品免费”“全线降价”——近2个月,字节、百度、阿里云、智谱AI等国内大模型领军企业纷纷宣布调降生成式人工智能大模型(以下简称“大模型”)产品和服务使用价格,不少大模型产品价格降幅达50%以上,有的产品价格降幅甚至超过90%。

阿里云宣布通义千问GPT—4级主力模型Qwen—Turbo、Qwen—Plus等9款主力AI大模型全面降价。其中,Qwen—Long API输入价格从0.02元/千tokens降至0.0005元/千tokens,最高直降97%。估算,降价后1元钱大约可以买到200万字符,相当于5本《新华字典》的文字量。

字节跳动旗下火山引擎推出的豆包大模型以“更强模型,更低价格,更易落地”为服务特色,降价后豆包大模型最强版本的主力模型推理输入定价只有0.0008元/千tokens。

降价就是内卷,且不算技高一筹的竞争,勉强适合大厂,不适合大语言模型创业公司也不适合六小龙。

2. 2B还是2C

这是大语言模型产品团队是否有智慧的问题。

2B是考验产品稳定性,运营的推广力,针对大语言模型LLM的功能是否能够赋能B端企业用户的需求,是否能够在LLM技术上持续的引领技术潮流。

2B的大语言模型产品需要团队相对稳定,技术相对领先、运维能力卓越、有持续的亏钱能力也很关键。

2C就是产品技术运营体系流畅,技术的新颖性吸引用户,产品流畅度激发用户分享,产品粘性运营留住用户。

2B适合血战、2C适合有创意的产品,前者适合大厂资本储备雄厚,后者适合小厂创新能力卓越!

六、没有应用,大语言模型一切归0

2B是将大语言模型的API接口吐给B端企业,这类企业很多是2C、2B都有在做,假如大语言模型的应用没有创意,那么后面的企业不会再接接口对接。

开源和闭源,没有王牌应用无论开源还是闭源都会死翘翘。谷歌的Android之所以开源非常成功,是因为移动手机上Ios闭源能够做非常成功的应用,谷歌顺水推舟将这一个项目开源给无需验证结果是否有用的企业用户。

大语言模型无论闭源还是开源都没有见证过Killer APP的价值点在哪。

大语言模型是否没有应用价值?我认为大语言模型有非常高的应用价值,只是目前的大语言模型公式没有做出杀手级应用而已。

七、什么样的大语言模型应用应该算好应用?

1. 用户数和商业模式

今日头条在2012年8月上线后,运营90天就获得了1000万用户。不到半年,在加入字节跳动全面负责商业化的张利东的操盘下,以国美北太平庄店的一条促销广告,跑通了个性化推荐的信息流广告模式。

到2016年,字节跳动的广告收入飙升到80亿左右。

抖音的赚钱速度与规模,比今日头条更快。2019年,字节跳动整体收入在1200-1400亿元量级,其中广告收入占比超85%,抖音贡献了约一半。

AIGC的杀手级应用会比字节跳动的用户增长更快,商业模式更棒,因为AIGC的数据更精准,AIGC的效率也就更高。

2. 国内和跨境

AIGC具有天然的全球属性,AIGC对自然语言的理解能力能够通过各种跨语种的考验,所以杀手级应用的出现不会局限于某一个地域,一出生就会全球化。

3. 产品技术谁更重要

笔者本人是读软件工程专业的,特别了解很多同学的作风,每个工程师都觉得自己很牛,有的工程师还不好意思承认自己的弱点,例如有的工程师认为做市场就是丢人,自己工程能力这么牛,不愿意去了解市场。导致工程师闭门造车。

这里借用乔布斯的一句名言:“光有技术是不够的。技术只有与人文相结合,才会带来让我们心灵歌唱的结果。”

AIGC上半场是算法工程人员引领团队做数据清洗、做数据集、做预训练,做调优,做基础模型。当这些做完一轮之后。AIGC的下半场是要挖掘AIGC的应用场景,塑造AIGC的案例,打造AIGC的工具,然后总结出AIGC的方法。

所以AIGC接下来需要AI产品带领AIGC团队像上半场AIGC算法工程带领团队一样突破!

AIGC的杀手级应用不再局限于手机、不再局限于智能家居、不再局限于智能汽车,AIGC的杀手级应用是可以贯穿手机、机器人、汽车和万物互联!AIGC杀手级应用将在2026年前展现于市场!!!

2万字长文,如何成为一个“懂”AI 的产品经理?

aigc阅读(70)

注:本文成文与 2024 年 9 月 1 日,随着时间推移,文章中的结论可能会发生变化。

此外,本文面向的读者是非算法团队的产品经理,为了保障文章的可读性,可能会省略部分细节,同时文章重点是工程落地而非学术探讨,不具备任何辩经的价值。

一、理解 AI 产品的工程化

坦率来说 2024 年围绕大模型,产品的发展速度比之前预期的要低一些,比如在 BI 领域,Chat BI 声量很大,但落地下来效果并不好,这个也很正常,因为每个人总是会在短期内高估技术带来的价值,而在长期范围低估技术带来的价值。

这里面有客观的原因,一项技术基底在真的应用到行业的方方面面本身就是需要过程的,因为这项技术需要去和原本的实现方案做竞争,就像俞军给的知名的需求公式:

用户价值= 新体验– 旧体验– 替换成本

很多时候即使用了新技术,收益可能也没有想象的那么大,这是一个事实。

另一个原因就是从业者的理解问题,哪怕是在一些大型互联网公司内部,大部分人对大模型的优势和劣势分别是什么,这个“事实”是存在一些理解上的代差的。

因为现在技术进步的很快,各种实践路径五花八门,有的人会觉得这玩意无所不能,有的人会觉得这个东西根本没法用。

为什么不同的人对这个东西理解的差异这么大?很大程度上是因为他们没有理解大模型作为一个接口和大模型作为一个产品的区别。

大模型可以被视作为是一个函数,一个 API,它本身只能被调用,而大模型产品才是真正面向用户的东西。

比如我给大模型的 API一个 Excel,它会告诉我,不好意思我没办法读取这个文件的内容。但是我们在 Kimi 的聊天框里面,就可以让 Kimi 解释 Excel 内的内容,为什么有这个差异?

因为 Kimi 是大模型产品,背后跑的是 Moonshot-v1 的模型,Kimi Chat 会读取你的 Excel,然后转化成XML 信息给到大模型。(我猜的)

模型在做工程化变成产品的时候往往会添加很多限制,这些限制可能是做在产品层面的, 而不是 API 本身限制的,比如很多产品为了降低成本会限制用户上传 PDF 的大小,但是如果用 API,就没有这个限制,或者限制可以放的很大,但前提是需要首先把 PDF 转化成模型能够理解的文件形式。

市面上产品做了很多的工程转化,甚至是 Function Recall 的工作,直接使用产品,不利于产品经理了解大模型的优势和劣势,就不利于应用大模型,改进现有产品。

那么为什么我认为产品经理比起大模型产品,更应该关注大模型本身(API),因为从 API 到产品,这中间的工程转化过程,是产品经理们最需要关注的。

大模型好比是一个大脑,工程师和产品经理就需要给大模型设计五官,躯干和四肢。脑残和手残都是残,所以工程师和产品经理对于决定一个 AI 产品最后好不好用是非常重要的,头脑发达四肢简单和四肢发达头脑简单最终都解决不了用户的产品。

甚至可能前者对于用户来说会更糟糕一些。

要做出优秀的 AI 产品,不仅仅需要优秀的大模型,还需要优秀的工程师和产品经理来辅助大模型。

这就需要产品经理非常了解两件事:

  1. 现阶段的大模型有哪些局限性,这些局限性哪些是可以通过模型迭代得到解决的,哪些是不能的。
  2. 从更底层的业务角度去分析,大模型在商业意义上真正的价值在哪?注意,这里强调的是业务视角,不是让产品经理去读论文。

二、大模型的局限性是什么?

2.1 一些可能永远都无法被解决的问题

2.1.1 成本、性能与响应速度

想要追求性能越强的大模型,就越需要越高的计算成本。

计算成本会带来两个问题:

  1. 直接造成的金钱成本;
  2. 响应速度;

下图是 Apple Intelligence 的架构图,其中在端上有两个模型,而在云端还有一个基于隐私云计算的大模型。

为什么苹果要做这种工程上大小模型的设计?

因为苹果希望大模型的响应速度能够追上 Siri 现在的性能,同时移动设备对功耗本身是有要求的,再加上苹果非常重视隐私,希望 80% 的问题能够在用户本地得到解决,所以采用了这样的架构。

运行 meta 最新开源的 llama 3.1,70 b 版本需要大概 70 GB 的显存,405 b 版本可能需要 400 GB 的显存,可能需要并联 100台 iPhone 才能运行这些模型。

这种大小模型的设计,需不需要产品经理,当然需要,什么问题适合小模型解决,什么问题适合大模型解决,这显然不仅仅是 RD 需要去回答的,也需要有产品经理参与,负责如下部分:

  • 收集目前用户的 Query;
  • 从解决难度、隐私、对时效性的要求、对准确性的要求对 Query 进行分类;
  • 设计基准测试,获得大小模型分界的标准;
  • 持续追踪优化;

在未来至少很长一段时间,还是会有大量的本地/联网之争的,这个就是产品经理的机会。

2.1.2 窗口大小与不稳定

我们经常会看到,XXX 大模型支持 128K 上下文了,引来大家的一阵狂欢。

我们又会经常看见,XXX 大模型幻觉问题很严重,引来一阵吐槽。

上下文是什么意思?其实就是大模型在一次请求的过程中,能够接收的最大的信息的数量。我们在和 ChatGPT 聊天的时候会发现有的时候它聊着聊着会忘记之前自己说过的话,其实就是因为聊天记录已经超过了上下文的数量。

幻觉的意思则是大模型很容易会胡说八道,胡编乱造一些事实上不存在的东西,尤其是当它已经忘记前面和你说什么之后,你再问他类似的问题,它就会开始胡说。

很像一个渣男,你们已经牵手了。

你问:“我叫什么名字?”

他回答:“当然叫亲爱的啦。”

其实他已经不记得名字了,所以就开始胡编乱造了,绝了,这玩意真的很像人类。

根据英伟达的论文 《RULER: What’s the Real Context Size of Your Long-Context Language Models?》来看,大部分模型宣传的上下文窗口基本上就是在扯淡,在极限长度的情况下,各家大模型对正确水平,是没有保障的。

比如说一个模型宣传自己支持 128k 的上下文(意思是差不多可以读一篇 20 万字的小说),但是实际上如果你随机塞一些句子进这篇小说,然后让大模型回答和这些句子有关的知识,它是有比较大概率答不出来的,它的性能会随着上下文窗口的变大而衰减。

如下图所示,以 GPT4 来说,当上下文超过 64k 时,性能就开始骤降:

实际情况来说,我认为这些模型的表现会比你想象的更加糟糕。

我让 Claude 3.5 Sonnet 模型分析了一段的 SQL,这是一个 700 行的复杂 SQL,但是总体来说逻辑应该是比较简单的, 而且几乎每一行 SQL 都有注解,在这种情况下,Sonnet 就开始胡说八道了,说了一个 SQL 里面根本不存在的表。

不排除是因为我在 Monica 的客户端里面调用 Sonnet 造成的,不知道 Monica 调用的时候是不是加了什么 Prompt 干扰了模型。

如何在保证解决用户问题的时候,避免受到上下文的影响和干扰呢?

其实这个事情也需要产品经理的干预,比如:

  • 研究能否把长文本切成多个段文本,并且不影响最终的结果;
  • 研究怎么给 AI 外挂一些能够超长时间记忆的记忆库;

举例来说,掘金上面有一篇文章《多轮对话中让AI保持长期记忆的8种优化方式(附案例和代码)》,就讲述了 8 种主流的方法,这些方法都应该是产品经理根据业务场景去选择的。

文章地址:https://juejin.cn/post/7329732000087736360

最后聊一聊为什么我认为上下文窗口与不稳定的问题是一个长期内很难解决的问题。

在过去的一段时间,上下文窗口大小的问题其实是的到了一定程度的缓解的,但是根据英伟达的论文我们也可以发现,上下文窗口的大小和稳定的抽取内容避免幻觉这两个指标在很大程度上就是互斥的,就像是推荐系统的准确率和召回率指标一样。

这也就意味着在很长一段时间我们可能都没有两全之策,除非突然出现一个模型一方面解决幻觉问题,一方面能保证巨大的窗口。

而且在实践的时候我们往往需要避免极端 Case 的发生(比如我自己遇到的 700 行 SQL 解析错误),减少上下文的规模是很重要的手段,此外不同的检测手段下其实模型的表现并不完全一致,也就是说不同的业务场景,幻觉问题的严重程度其实是不一样的。

模型能够容纳的最大窗口和有效工作窗口是两个概念,并且不同的任务的有效窗口大小可能是非常不一致的。

我当然希望我的想法是错的,目前而言我看不到任何模型能够在这件事情上有突破的可能性, 有一家公司叫 Magic,推出了一个号称具备了 1 亿 token 上下文窗口的模型,但截止到目前为止(2024.9.1)并没有发布任何的论文或者更实际的东西。

还是那句话,最大窗口和有效工作窗口是两个概念。

此外,多模态的发展某种角度来说会加剧窗口大小不足的问题。

2.1.3 函数本身不可能被自调用

有的时候会尝试在提示词里面撰写,比如我给你一个 xml,希望你能够遍历。通常来说,大模型是不会执行这个要求的。

原因也很简单,它本身作为一个函数,无法自我调用,而这个函数因为幻觉的问题,也不可能做到精确回复,甚至会把 N 行数据混杂在一起去分析,所以这类循环遍历的要求,通常得不到满足。

不支持自调用的原因也很简单,一次请求交互内,如果支持循环,那么就可能在 API 内直接调用大模型成百上千次,这个调用成本 API 的提供方是不可能承担的,

由于大模型本身是高度不稳定的,所以我们会非常需要通过一个循环/条件判断来去控制它,不支持自调用就意味着我们必须要在外部通过工程化来实现哪怕在人类看来最简单的遍历操作。

2.2 一些工程上的难点

2.2.1 不再互联的互联网

Apple 开创了移动互联网时代,但是也造成了一个最为人诟病的现象——花园围墙。

原本大部分网站是面向搜索引擎和人类搭建的,也就是说爬虫可以很简单的获取一个网站超过 90% 的内容。

这些对于 AI 来说至关重要,我举个例子,就是针对同一个问题,豆包和元宝的回答质量差异:

很明显,豆包的回答质量更加差,说一句又臭又长不过分,RAG 领域的最新进展确实是微软开源的 GraphRAG,这点在豆包的回答里面根本没有体现。

比较逗的是,腾讯混元引用了火山引擎的资料,但是豆包引用了一个不知道媒体的资料。

豆包的模型能力是比腾讯的混元大模型要强的,混元大模型用腾讯内部的话说,狗都不用,为什么从最终的呈现结果来说,豆包的结果不如混元呢?

因为头条的数据没有微信公众号的数据好。

为了解决互联网不在互联的问题,Apple 希望从操作系统层面把 UI 打造的面向大模型更友好,并且发布了一篇名为《Ferret-UI:基于多模态大语言模型的移动 UI 理解》(https://arxiv.org/pdf/2404.05719)的论文,但是我觉得更加开放的 API 和内容才是根本途径,因为苹果的互联互通是仅限于 iOS 生态的。

而对于产品经理来说这些自然也是发挥的空间:

  1. 上哪搞到更好的数据;
  2. 如何让 AI 调用别人家的 API 并且把结果拿来为自己所用;
  3. 怎么把苹果最新的 Ferret-UI 研究明白;

这些都是十分值得研究的命题。

2.2.2 爹味十足的厂商

所有的大模型都自带安全机制,而且这个安全机制是写死在模型里面的,不是说 API 有个开关可以把安全机制关掉,你可以选择把安全等级调低,但是这玩意是没办法关闭的。当然市面上会有很多突破安全机制的方法,但是这些都算是漏洞,被厂商发现之后很容易被封堵。

比如如果你和大模型说我和别人吵架吵输了,你教我怎么骂人,大模型会拒绝。就我自己而言,我认为把安全机制做在模型里面并且不给开关的行为真的很爹味,但是这个没办法。

所以市面上有很多的本地部署的模型的卖点就是没有安全机制,黄赌毒色情暴力 18+ 怎么黄暴怎么来,但是这玩意就是人性。这也是一个机会,值得各位 PM 关注。

此外有一点值得关注,同样的内容,在不同的语言下面安全的阈值是不一样的,举个例子:

通过 Google Gemini Pro 1.5 翻译西单人肉包子故事,翻译成英语/西语的时候,模型会报错,提示内容过于黄暴,模型拒绝生成,但是日语版本就没有任何问题。

说明什么?说明日语的语料真的很变态,间接可以说明日本人确实是全世界最变态的人。

2.3 目前存在,但是未来可能会被解决的问题

2.3.1 较弱的意图理解/创作/推理能力

大模型的意图理解,创作和推理能力,目前来看整体和人类的顶尖水平还是有较大差距的。

如果试图让大模型做一些“创造性”的工作,就需要非常强的提示词工程。

不同水平的提示词下,大模型的水平差异确实会非常大,但是我认为随着模型的迭代,我们的提示词对模型生成的结果质量影响会越来越小,主要的作用是提升精确性。

当然,如果两个模型有一些代差,生成的结果肯定是有质量上的差异的:

所以要不要对模型的提示词做大量优化呢?我认为这个取决于优化提示词的目的是什么。

如果是为了保证格式和输出结果的稳定性以及一致性,是很有必要的, 因为很多时候我们的产品业务上需要这个一致性,比如要求大模型输出的格式必须是 Josn,保证下游系统可以正常展示。

如果是为了提升质量,我认为是没有必要的,因为模型会升级,升级之后带来的提升肯定比提示词工程雕花带来的提升要多。

https://github.com/Kevin-free/chatgpt-prompt-engineering-for-developers

这是吴恩达的提示词工程课程,应该是目前市面上最权威的提示词工程课程,并且提供中英文双版本。

此外,长链路的 SOP、工作流和推理过程,我建议通过多个 AI Agent 实现,而非试图在一轮对话里面解决,原因在上面的局限性里面已经说的很清楚了。

2.3.2 跨模态数据读取/生成能力

如果这里有一个视频,希望 AI 总结视频的内容,应该怎么实现?

以 5.1K Star 的知名开源项目 BibiGPT 为例子。这个项目最早的一个版本应该是只做了一件事情(根据表现逆向猜测的),用 OCR 识别字幕,同时把视频转音频,ASR 出来文字,然后让 GPT 3.5 去总结。

项目地址:https://github.com/JimmyLv/BibiGPT-v1

当然更新到今天这个项目肯定不是做的这么简单多了,比如应该运用了大量的视频截图然后要求支持多模态的模型去识别里面的关键内容。

但是让我们回到 BibiGPT 第一个版本,它其实还是做了一个视频转文字的这样的动作。

这样的动作理论上来说现在已经没有必要做了,因为 Google 最新的模型 Gemini 已经支持对视频本身的解析了,只不过用起来很贵,下面是 Google 官方提供的 Gemini 处理视频、音频和图片的文档。

https://cloud.google.com/vertex-ai/generative-ai/docs/samples/generativeaionvertexai-gemini-all-modalities?hl=zh-cn

我个人并不建议大家在跨模态这个事情去做一些雕花的工作。因为用工程手段解决跨模态最大的问题是会造成信息的损耗。此外模型迭代一定是会端到端解决跨模态的问题的,我们应该重点解决上面提到的可能永远无解的问题,不要去和模型内卷,是不可能卷赢的。

但是需要强调的事,把一个博客网页的文本去提取出来转化成 MD 格式,或者把一个 PDF 转化成 MD 格式,这个不是跨模态,只是数据清洗,需要严格区分二者的关系。

数据清洗这件事情,最好还是用工程方法解决。

三、从《理解媒介》的角度探讨大模型的更底层的长处是什么

注:这一段会对麦克卢汉的《理解媒介》的基础上做一些发散;

想要理解大模型以及 AIGC 的商业价值,私以为最重要的是要能够首先理解媒介。

因为大模型生产的东西本质上是内容,想要能够对大模型有更深刻的理解,就要对内容以及媒介有比较清楚的认识,比起搞清楚大模型的本质是什么,我认为搞清楚内容的一些底层逻辑,其实对于应用大模型更重要。

对于产品经理来说,业务场景总是比技术手段更值得深入研究。

在讲述一些枯燥的概念之前,我想先讲一个关于媒介的小故事来方便大家理解。

3.1 关于媒介的小故事

在现实生活中,我们可能很难理解媒介的概念,但是在艺术界,媒介这个概念其实是被解构的很彻底,并且被比较赤裸地摆放出来的。

2017 年,知名的 MoMA 为史蒂芬·肖尔举办了一场个人摄影作品回顾展。

在回顾展的后半段,照片不存在于相框之中,展厅内部是一台又一台的 iPad,观众需要通过 iPad 观看肖尔使用 iPhone 拍摄并且发布到 Ins 上的照片。iPad 就是这些照片的相框。

媒介的作用就如同社会科学领域的议程设置一样,会深刻地影响所有人观看事物的方式。

肖尔的展览赤裸裸地把这个命题展现给了所有人。肖尔想通过这样的方式告诉大家,看一张照片,照片本身可能确实存在图像内容,但是让你通过 iPad 看,和让你通过打印出来的照片看,观看感受就是不一样的。

当你在博物馆看到一张照片,不论这张照片拍的有多屎,只要照片被很精致的打印,放大,挂载一面墙上,旁边再标上一个已经被拍卖的标签,看的人可能都会觉得,我靠牛逼,毒德大学!

当你在 Ins 上面刷到一张照片,你会觉得,哦,这就是一张照片。

现在肖尔在博物馆里面放一张照片,但是这个照片得用 iPad 看,这种强烈的反差会促使人们去思考,媒介对于内容究竟有多大的影响。

如果站在内容创作者的角度来看,现在生产了一个内容,希望它的价值被尽可能放大,是不是应该把这个内容输出到尽可能多的媒介上面去?

因为不同的人喜欢的媒介是不同的,同一个人在不同的媒介看到同一个内容获得的感受也是不一样的,这就是一个商业机会。

比如拍了个短视频,是不是最好抖音、小红书、B 站都发一遍?最好微信公众号再发一遍文字稿!

但是实际上只有头部的内容生产者才有资格做的这么细致,为什么?因为内容在媒介之间的转换是有成本的。

哪怕一个视频从抖音发到 B 站,对观众来说其实已经产生不好的观感了,因为一个是横屏一个是竖屏,一个是长视频一个是短视频,如果内容创作者要保持全平台最佳观感,其实成本是非常高的。

就我自己的体会来说,如果仔细看同一个内容创作者在 B 站和抖音发的视频会发现即使是一模一样的内容,抖音的视频普遍会被剪辑的更短。

最后,为了方便下文讨论,我会按照自己的理解对几个概念做简单定义,这些定义并不严格,仅仅作为本文讨论时方便使用。

  • 模态:人类与现实世界的交互模式,通常与感知器官有紧密联系,常见的模态有文字、静态/动态图像、声音等;
  • 内容:内容是人类通过感知器官对于现实世界进行数据采集,处理和再加工的产物;
  • 媒介:针对特定内容的一种承载、编排与传播范式,把 10 张照片按照顺序放在博物馆里面,作为一个展览展出。在这句话里面,照片是媒介(因为照片本身是一张纸,是物质的),10 张是编排方式,博物馆和展览也可以认为是一个媒介,只有照片里面的图像才是内容;
  • 互联网平台:一种特定媒介,它们的特点就是会通过数字化手段严格限制媒介的格式、展示方式、分发逻辑,并且它们通常不会自行生产内容;

3.2 内容具有原生媒介

每个内容在创作时都会自带一个原生媒介,因为人脑能够容纳的上下文是有限的,当一个作者在试图进行创作时,他必须要把创作的阶段性成果存储在某个媒介之上,并且这个媒介需要确保内容可以被再次输出以便作者做阶段性的回顾与质量检查。脱离了媒介作为存储介质,作者本人也无法理解自己曾经的创作。

所以我们也可以认为,一个内容是无法脱离于媒介独立存在的。

这种创作过程中就使用的媒介,我们通常称之为原生媒介,一个内容通常有且仅有一个原生媒介,当然可能会有辅助的媒介,比如一个广播演讲的原生媒介是音频,但是会辅以文字稿件作为补充。

一个内容只有通过原生媒介展示时才是能做到尽可能还原作者意图的,反过来也可以说,内容被发布到非原生媒介时会产生大量的信息损耗。

通常来说在一个媒介或者互联网平台内最流行的内容,几乎无一例外都是把这类媒介当成原生媒介的内容。

这也就是为什么抖音和 B 站的内容在互相转化的时候这么困难的原因。

B 站最早是一个网站,B 站的视频也是横屏的,因为看网站用的显示器天然就是横屏的,而显示器是横屏的原因是因为人类的两个眼睛是横着排列而不是纵向排列的。

抖音从诞生的时候就是一个 App,而且搭配了很多手机拍摄视频的功能,所以抖音视频天然就应该是竖屏的,因为人类用手机就是竖着抓的。

假如我们现在的主流手机不是 iPhone 定义的,而是日本的夏普定义的,说不定抖音就压根不会存在。

这种媒介上的区别就好像是难以逾越的天堑一般。

上面说的这些好像是常识,但是完全可以把这个分析思路套用到其他的内容上面去。几乎所有内容产品都可以在这个框架内进行分析。

一个看逐字稿会觉得是无聊对话的播客节目,听感有可能会非常出众,比如一些以“聊天”和“插科打诨”为卖点的播客节目,因为在播客节目中有语气和情感,这是文字稿很难表现的。

反过来说,假使一场广播演讲,演讲者根本没有用心关注内容,也没有通过演讲彩排做阶段性回顾,只知道逐字念稿,撰写演讲稿的人过分关注文字本身,这些就会导致演讲听上去干瘪无力,不如把演讲稿直接发给读者看来的更顺畅,因为这场演讲在创作时使用的就是文字而非声音。

在小红书上面,专业的脱口秀演员也会表达类似的观点,这些在道理上都是相通的。

优秀的演讲者往往会选择先写大纲,口播转文字再对文字进行调整,以此保证听众体验。

3.3 媒介之间的本质区别

不同媒介之间的根本性差异在哪?

个人目前观察来看主要有两点,模态和瞬间性。

媒介=模态*瞬间性

模态,人类与现实世界的交互模式,通常与感知器官有紧密联系,常见的模态有文字、静态/动态图像、声音等。

这三个基本模态根植于人类的视觉和听觉,锥体经验理论认为人类大部分学习过程都依赖于视觉和听觉,从这个角度来看,这些基本上的模态恰好被理论所命中。

当然这也可能是鸡生蛋蛋生鸡的关系。不同的模态自带的信息含量是不一样的,文字是最抽象的,包含的信息含量最低,而图像是最具象的,包含的信息含量最高。所以人们常说,看小说可以让人发挥想象,看电视剧则会被束缚,正是因为文字的信息含量低,所以才有想象的空间。

当然,这里的信息含量指的是“绝对信息含量”,比如文本文件就是比图像文件更小,但是这不代表念书学习效率会比看图效率低,因为人类能够摄取一个内容中的信息含量的能力是有限的。

好比和一个人交谈一定是比通过电子邮件交流具备更加丰富的信息的,因为这个人有微表情,有神态,但并不每个人都能获取和接收这些信息。

瞬间性是媒介的另一个根本特征,瞬间性是指对于一个内容来说,当它被某个媒介承载时,观看者回顾其中某一个内容切片的成本。

下面是一组媒介和他们的瞬间性大小的排布,瞬间性越强,回顾成本越高:

单张图片 = 短文字 < 组图 < 长图文 < 流媒体平台上的视频 < 播客平台上的播客 < 电影院电影 < 音乐会的音乐 < 线下脱口秀

为什么线下脱口秀最难复制,因为它的创作过程都是伴随线下的灵光乍现以及与观众的亲密互动,人们再也无法踏入同一条河流。

对于单张图片来说,虽然想要 100% 复制有困难,但是至少可以基于特定工艺进行打印,然后在对应亮度和色温的灯光下观看,就能获得近乎于原作的效果。

瞬间性越强的媒介,对于情绪的要求就越高(对创作者和观众来说都是这样),一组文字可以冷冰冰,但是播客不能有气无力,并且这种媒介越可能要求创作者把创作和传播本身融为一体。

还是拿脱口秀举例子,脱口秀本身就是在舞台上才能实现作品的完整创作的,所以创作过程和传播过程本身就是一体的。

同时一个媒介越是强调编排,瞬间性就会被体现的越强,强调编排意味着读者如果跳着阅读或者跳跃回顾,都很难通过上下文获得相同的体验,只有完整的重新按照编排顺序阅读,才能获得接近于第一次阅读的体验。

3.4 AIGC 的意义在于降低内容跨媒介甚至跨模态的门槛

在工作中其实我经常会有一个疑惑,为什么文档写了,还要问?

其实原因很简单,因为人作为一个媒介,比文档作为一个媒介对于人来说更加的友好。在某些场景下面提问者的问题是比较简单的,看文档就会很重。但是对于回答者来说,重复回答问题是不经济的,这种矛盾就很适合用 AI 来解决。

很多时候我们觉得一个内容读起来不舒服,可能不是内容本身的问题,而是这个内容的媒介导致的。

在英剧《是,大臣》中,汉弗莱曾经表示大臣的演讲就是很无聊,因为内阁大臣演讲稿撰写目标不是取悦台下的听众,而是上报纸。

所以为什么政客们在电视上的演讲那么无聊,这下大家都明白了吧,因为他们大部分在念一些“会以文字形式发下去”的材料。

理论上来说我们如果要让一个内容尽可能多渠道传播,我们需要有人去做这个媒介的翻译,并且这个成本非常高,举例来说:如果想要把一个以文字作为原生媒介的内容转化成播客录音,这个转化成本就会很高,因为这意味着在转化过程中需要增加额外的信息(比如语气和情感),这本身近乎于创作。

又比如对于一个公众人物来说,如果不针对性的做演讲训练,拿到一个演讲稿直接讲的效果一定会很差,因为撰稿人是基于文字媒介撰稿,而听众则通过声音这个媒介来接收信息。声音比干巴巴的文字稿会多出来更多的信息,语气、语速、抑扬顿挫等,这些如果指望演讲者临场发挥,那对演讲者来说要求真的很高。

因为如果一个内容的原生媒介的瞬间性很强,大概率意味着它会包含更多的信息,不论是编排层面还是情感层面。

但是现在,AIGC 很大程度上就能替代人去完成其中最枯燥的 80 % 的工作了。比如如何把一个文本转换成语音,可以用豆包 TTS 大模型,深情并茂。

在 AIGC 诞生之前,这是几乎不可解的问题,一定是需要人类录音的。

3.5 为什么要从媒介的角度去理解大模型的商业价值

其实大概就在 1 年前,我曾经尝试总结大模型能做什么,当时总结的用途是:

  • 总结:根据特定的要求分析大段的内容,并且按照内容给出对应的结论;
  • 扩写:根据特定的要求和范式,将少量内容扩充成大段内容;
  • 翻译:根据特定要求把一段内容无损的转化成另一段内容;
  • 意图理解:大语言模型有非常强的意图识别能力,可以非常好的理解用户的意图;

这些总结不能说是错的,但是有几个比较致命的问题。

  1. 仅针对文字模态,没有考虑多模态的情况;
  2. 这更多的是一种归纳,并不能保证从逻辑上是 MECE 的;

如果从归纳法的角度来说,我们会认为大模型能干这个,不能干那个,可以举无穷多的例子,但是如果想要试图搞清楚这个东西擅长什么,不擅长什么,天花板在哪里,归纳法是没有那么靠谱的。

如果从媒介的角度去看待大模型,我们可以发现它具有几个能力是以前的技术不具备的:

  1. 它能够一定程度上理解内容,但是要想凭空创造内容还是有难度的;
  2. 它在理解内容的基础上,可以将一个内容修饰成另更适合一个媒介内容,也就是我们常说的总结、扩写、翻译;
  3. 它能够在理解内容的基础上,将一个内容转化成另一个模态的内容,也就是我们常说的文生图;
  4. 它能够基于自己对大量素材的学习,在内容进行媒介或者模态转化的时候,补充最合适的信息进去;
  5. 因为它进行了大量的学习,所以如果它能够被精确的控制意图,它的效果会非常好;

所以让我们回到上面的小节,回顾一下媒介的瞬间性的排序:

单张图片 = 短文字 < 组图 < 长图文 < 流媒体平台上的视频 < 播客平台上的播客 < 电影院电影 < 音乐会的音乐 < 线下脱口秀

在 AIGC 诞生之前,我们可能只能把右边的内容转化成左边的内容。

在 AIGC 诞生之后,我们是可以把左边的内容转换成右边的内容的,因为我们有了无中生有的能力!

这就是 AIGC 在媒介层面的意义,这个从生产角度来说是划时代的。

还是拿上文提到的竖屏与横屏例子来说,B 站的视频是横屏的,抖音是竖屏的,对于创作者来说,如何低成本的转化呢?答案是用 AI 生成,扩展画面。

四、以 RAG 的进化来探讨围绕大模型的长处和短处来制作产品

4.1 AI Agent 是什么?

GoogleMind和普林斯顿联合发表了一篇论文《ReAct: Synergizing Reasoning and Acting in Language Models》,被公认为基于LLM的智能体的开山之作。

研究人员发现,在问答和事实验证任务中,ReAct 通过与简单的Wikipedia API交互,克服了推理中普遍存在的幻觉和错误传播问题。

这个比去强化模型训练强很多倍,原因是什么,大模型的大脑已经很强大了,很多时候再训练下去边际效用递减很严重,给他一个 API,相当于给这个大脑增加“五官”,它自然就一下子进化了。

4.2 Auto GPT,第一个出圈的 AI Agent

AutoGPT 可以说是第一个真正意义上出圈的 AI Agent。

它尝试设计了一个流程,任何问题都有一个通用的元思路去解决,每个负责解决问题的模块都由一个 GPT 4 去驱动。

AutoGPT 的设计者认为这世界上几乎所有的问题解决步骤都是类似的,明确问题,明确解决问题需要的步骤,完成任务,检查,总结。

所以按照这个 SOP,他们涉及了一个互相之间传递信息的 AI Agent,每个模块都是独立记忆的模型,好像几个人类在分工,一个专门负责明确问题,一个专门负责拆解问题。

AutoGPT 是由Significant Ggravitas 于 2023 年 3 月 30 日发布在 GitHub 上开源的AI代理应用程序。它使用 GPT-4 作为驱动基础,允许 AI 自主行动,完全无需用户提示每个操作,因其简单易用在用户中大受欢迎。上线仅三周,其 GitHub 的 Star 数量已飙升至接近10万,早已超越了 Pytorch(65K),可以称得上开源领域star数增长最快的现象级项目。

Auto-GPT 是基于 OpenAI API 开发的,它的核心在于基于最少的人工输入/提示,利用 GPT-4 的推理能力解决更广泛、更复杂的问题。在具体的执行上,程序会访问互联网搜索和收集信息,使用 GPT-4 生成文本和代码,使用 GPT-3.5 存储和汇总文件。

但是很快大家就发现这个 AI Agent 是有缺陷的,比如它很容易陷入死循环,或者是不能很好的解决不确定性的,带有探索性质的问题,但是这个思路本身给大家带来了非常多的提示。

扩展阅读,Auto GPT 工作原理:

https://www.leewayhertz.com/autogpt

4.3 RAG 和 AutoGPT 的区别

RAG 其实就是检索+生成的缩写,明确了这个 SOP 主要的作用就是从特定的地方检索出来信息,然后再以更加友好的形式展现出来。

如果一个产品有十几篇说明文档,那么 RAG 就好像是一个熟读了文档的客服。

最简单的 RAG 可以参考 AI 搜索引擎 ThinkAny 第一版的原理:

MVP 版本实现起来很简单,使用 NextJs 做全栈开发,一个界面 + 两个接口。
两个接口分别是:
/api/rag-search
这个接口调用 serper.dev 的接口,获取谷歌的检索内容。输入用户的查询 query,输出谷歌搜索的前 10 条信息源。
/api/chat
这个接口选择 OpenAI 的 gpt-3.5-turbo 作为基座模型,把上一步返回的 10 条检索结果的 title + snippet 拼接成上下文,设置提示词,请求大模型做问答输出。
以上文字引用自:
https://mp.weixin.qq.com/s/25eXZi1QgGYIPpXeDzkQrg

它 RAG 可以被视为是一种针对特定业务场景的 AI Agent,它和 AutoGPT 最大的区别在于三点:

  1. RAG 的流程是一个串行流而不是一个循环,它没有所谓的自我检查然后重新生成的过程,一方面是为了响应速度,另一方面也是为了避免自我检查造成的死循环;
  2. RAG 的流程中,是检索+生成,检索的部分并不是由大模型完成的,而是通过传统的搜索引擎(向量数据库、关键词匹配)来完成的,这和 AutoGPT 中几乎所有关键节点都是用 GPT 4 完成是有天壤之别的,这意味着大家意识到一个问题,在一些对上下文窗口有要求的,输出精确排序的场景,GPT 一点也不好用;
  3. RAG 并不是万能的,它设计出来也不指望自己能解决所有问题,实际上它更多的是解决“如何快速给答案”这个问题,有 10 篇文档,怎么快速到找用户需要的答案;

发展到这一步,大家已经意识到一个事情:这个世界上可能不存在一个万能的 AI Agent,也就是说并没有一个万能的许愿机。

至少目前工程界很少有人会再尝试投人力去做万能的 Agent,学术界还在继续。

可能有人会纠结概念,RAG 和 AI Agent 是两个完全不相关的东西,而且 RAG 最早可以追溯到 2020 年的一篇论文,历史比 AI Agent 更为久远。但是其实我认为他们在工程落地上是非常相似的,都是强调基于工具,外部数据,存储机制来弥补 AI 的缺陷,唯一的区别是 RAG 不会强调要求 AI 具备自我探索自行规划任务的能力。

现在市面上的文章,尤其是面向非技术的同学的文章,关注概念多过关注落地,这不是一个好现象。工程领域本来就有很多约定俗成的叫法,比如广告系统的 DMP,全名是 Data management platform,但是实践的时候几乎只管人群数据,总不能因为名字和实际干的事有差别就天天在那辩经。

这篇文章在介绍 RAG 的时候,就是希望从实现思路着手,给 AI 这个大脑一步一步配上了多套工具,乃至到最后替 AI 做了一部分流程设计。

希望通过这个文档去展现一个循序渐进的,也是从抽象到具象的具体落地过程,为了保证文档本身的可读性,列举的项目并不是完全一脉相承的,但是我认为这样的写作顺序对于读者来说是最友好也是最具有启发性的。

4.4 RAG 的缺陷是什么?

论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》中列举了 RAG 的 7 个弱点。

论文地址:https://arxiv.org/abs/2401.05856

通过这些故障点,我们可以发现一个问题,其实有很多故障点本身和大模型没有关系,比如搜索文档 Top K 的排序不够精确,比如无法从文档中读取信息,因为文档格式错误或者文档太脏了。

就像我们前面所说的比喻,大模型本质是一个大脑,AI 产品才是大脑搭配上五官,躯干和四肢。

不能只优化大脑,不优化四肢,那是一种偷懒行为,不要把大模型视作为万能的许愿机器。

最后让我用一个儿歌来总结一下这篇文档的核心思想:

人有两个宝,双手和大脑。
双手会做工,大脑会思考。
用手又用脑,才能有创造。

4.5 Graph RAG — 一种 RAG 的进化版本

Graph RAG 是微软开放的一个开源的 RAG 框架,可以被视作为是一种进一步变化和迭代的 RAG SOP,根据公开资料参考,我猜测这套技术实现思路广泛地应用在了微软的 Copilot 系统上,当然我没有找到可以证实的材料。

Graph RAG 和原本的 RAG 的区别是什么呢?

传统 RAG 的主要工作是这三个步骤:

  1. 把待搜索的知识做向量化处理(可离线处理);
  2. 当用户提出来一个关键词 or 问题,根据相似性查询查出来最相关的内容(必须是在线服务);
  3. 将查询出来的 Top N 的相关内容作为上下文,和用户提出的问题一起交给大模型来生成内容(必须是在线服务);

相似性查询的效果其实是比较不尽如人意的,因为它完全是根据文字的相似水平来进行检索,和文本的语义一点关系都没有。这就导致最终 RAG 的效果往往会比较糟糕。

当然这三个步骤中间出问题的可能性很多,就像上文提到的 RAG 的 7 个待优化点,但是检索的准确性是一个最容易优化并且收益也最大的问题,那么微软是怎么做的呢?

微软认为用户可能会词不达意,同时检索也需要更加智能,所以微软将向量化检索的方法替换成借助知识图谱的检索方法。

Graph RAG 的主要工作是下面三个步骤:

  1. 将待搜索的知识进行一个三元组抽取(主谓宾),这个抽取的动作需要 LLM 介入,存入图数据库中(可离线处理);
  2. 将用户提出来的关键词,用 LLM 做一次扩散,扩散出来同义词,近义词等,然后在图数据库进行检索,找到相关文档(必须是在线服务);
  3. 将查询出来的相关内容作为上下文,和用户提出的问题一起交给大模型来生成内容(必须是在线服务);

整体的步骤和架构其实没有更多的变化,但是在关键步骤上引入了大模型,作为两个独立的处理步骤。

注意,这里的独立处理步骤是非常关键的。

4.6 RAG 再进化(雕花)

在微软发布了 GraphRAG 之后,很多人都试用了,然后又发现一堆问题,于是有人发了这篇论文:《A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning》。

论文地址:https://arxiv.org/abs/2408.05141

Hybrid RAG 在原来的基础上,做了几件事。

工作 1、Document 在 Loader 之前,先用 LLM 做一轮格式上的处理。

工作 2、问题分类机器

这个问题分类机器本身是一个 SVM 分类器,但是这个分类器的训练数据不是人工标注的,而是用大模型来标注的,以此减少成本和开销。

工作 3、利用大模型调用外部的计算库

当然,这篇论文里面还写了很多思路,感兴趣的同学可以自己去看论文。

这个论文质量还是很高的,6 个作者中的 5 个是北京大学人工智能实验室的学者。

五、为什么我们曾经高估了大模型的影响力

5.1 我们原本设想的端到端的场景问题是什么?

现在人类生产视频的工业化流程是:

  1. 看一下市面上热门视频的共性,往往依靠标签
  2. 根据热门标签生产一些脚本;
  3. 拍摄;
  4. 发到线上看数据反馈,再做迭代;

在大模型刚刚诞生的时候,其实有一个假设,假如大模型可以直接生成视频,能不能让它看抖音上的大部分视频,训练它,然后让它生产一部分。

让用户给这些大模型生产的视频点赞,大模型再把高赞的视频拿来作为正反馈继续生成视频。

如果这条路能走通,对于抖音这样的内容平台绝对是颠覆性的,现在看这个流程可以说是走不通的,其中自然有视频生成模型质量不好、不可控的原因,但是我认为更多的原因在于:

  1. 模型的上下文窗口限制
  2. 模型的成本太高

这两个是几乎无解的问题,估计未来相当长(10 年)的时间都很难解决,所以我不认为这种端到端的场景是可行的。

但是 AI 生成视频一定会成为视频工作者未来工作环节的重要补充,这点是不需要怀疑的。

5.2 所有应用都值得用 AI 重做一遍吗?

显然不,因为这个世界上 90% 的事情用规则就已经可以运转的很好,模型低效又不稳定。

很多时候我们对一个产品的要求就是,简单、高效、可以依赖,现阶段模型的不稳定性注定了它在很多场景下是不可依赖的,哪就很难谈得上取代原有产品。

还是重读一遍俞军给的知名的需求公式:

用户价值= 新体验– 旧体验– 替换成本

很多时候用了新技术,收益可能也没有想象的那么大,这是一个事实。认为所有应用都值得用 AI 重做一遍的人显然是高估了 AI,很多人喜欢把 AI 和移动互联网类比,这是不恰当的。

从冯诺依曼计算机的架构来看,移动互联网直接把计算机的输入输出设备给改了,这首先带来了交互上的革命性变化,但这不是最重要的。

从市场上来看移动互联网真正的价值并不是交互革命,而是极大的降低了用户接入互联网的成本,使得用户数量得到了翻倍,延长了用户互联网的使用时间。

上面这两个革命性的变革,显然是这轮 AI 浪潮所不能及的,AI 既不能扩大市场,短期内也不能改变计算设备的形态。

大模型的变革更多的会体现在生产端,从而影响消费端,正如在上文理解媒介一个章节中提到的,它能带来的是生产力的极大提升,但我们现在面临的问题更多的是市场不足,生产过剩问题。

5.3 LUI 是万能的吗?

有人说这一轮 AI 会带来交互革命,从今天起我们只需要一个有聊天框的超级 App 就可以啦!

我现在就可以下这个结论,说这话的人一定是云玩家,如果这种人在公司里面,我是他的上级,我就要惩罚他晋升答辩不准写 PPT 和文档,只允许口播。

任何一种媒介和交互都是有最佳实践和独特价值的,LUI 显然不是万能的,程序员写个代码还会考虑 IDE 的 GUI 好不好使,Language UI 信徒们哪来的自信这玩意可以彻底取代图形界面?

LUI 最大的问题就是效率低,让我以企业级软件举例:

Excel 也好,PowerPoint 也好,哪怕是 BI 软件也好,软件除了降低门槛之外,还有一个很重要的作用就是「约束」使用者。

在这个场景下约束不是一个贬义词,是一个褒义词。这些软件内置的所有功能都是在漫长的时光中迭代出来的,里面凝聚了无数软件开发者与使用软件的企业的经验和最佳实践。

打开 Sensors Analysis(神策数据旗下)和 DataFinder (火山引擎旗下)这两个产出自不同公司的行为分析软件时,会发现二者的功能极为相似,事件分析、漏斗(转化)分析、留存分析等等。我甚至怀疑使用这些软件的企业客户们使用习惯也会高度类似,因为这些软件里面凝聚的功能本身就是最佳实践。

对于一个没有什么统计分析能力的运营来说,让他去面对 GPT 的文本框描述清楚自己需要一个漏斗分析实在是太困难了,还是用神策比较简单。

GPT 如果能够获得关于漏斗分析的详细计算逻辑,也可以一定程度上的引导用户,但前提是用户得能说出来“漏斗分析”这四个字,实际上脱离了界面很多人都不见得能描述的清楚自己想要的是什么。

LUI 不是万能的,对 LUI 的过度追求,甚至把 LUI 与 AI native 划等号这种想法都是错误的。LUI 只是在特定范式下才是有意义的。

5.4 复杂的 UI 是一段弯路吗?

现在市面上最领先的开源文生图 UI 叫做 ComfyUI,如下图所示:

ComfyUI 和我们脑子里面想的敲敲文本就能调用的文生图 AI 差异很大,感觉更像是一个低代码平台,为什么?

因为在工业界需要追求精确控制,纯粹用提示词是无法准确表达精确控制的语义的,必须得用 GUI 才能表达出来。

比如上面这个图,其实里面做的事情就是把一个建筑物换成另外一个建筑物,并且尽可能不要改变其他东西,这种精确控制对于模型这种本质依靠数学概率驱动的东西来说是非常困难的,所以才搞得这么复杂。

那么问题来了,上面这种 UI 是一段弯路吗?

其实我乍一看我也觉得这个太离谱了,如果让我用 Photoshop 或者醒图类似的事情应该也能做,而且 UI 应该没有复杂,但是细想之后我认为这个东西非常有价值。

我认为如果把这种 UI 给到用户,这肯定是一段弯路,但是如果我们把上面这个操作包装成一个场景,给用户的就是让用户上传两张图这样的动作,这不就是一个最简单的产品了吗?

也就是说我上面说的,醒图和 PhotoShop 的功能,其实以后完全是可能用这样的 UI 搭建出来然后包装给用户的。

所以上面的 UI 是完全可以提供给专业用户的,这样的 UI 可以变成一个引擎,产品内成千上百的功能都可以通过这么一个元引擎被源源不断地生产出来。

这就是大模型真正的价值,这是生产力成百倍的提升。

5.5 大模型真正的价值是什么?

如果大模型既不能给交互带来质的变化,又不是一个万能的许愿机,甚至连端到端生成 Feed 流都做不到,那么大模型真正的价值是什么呢?

大模型真正的价值在于给产品经理和工程师这样具备非凡创造力的人一个增幅器。

这是一个不需要训练的万能模型,而且大概率比专属模型更强。

这意味着产品经理和工程师只要能想清楚 SOP,想清楚哪些问题可以用大模型来解决,就一定能以比较低的成本解决,原本一些需要训练自己私有模型的事,现在依靠公有模型就可以解决了。

很多原本像高山一样的成本,现在也是可以逾越的,金钱和数据量不再是训练模型的拦路虎,你只需要会写 prompt ,会搭工作流就可以了。

六、对产品经理的工作方法启示是什么?

6.1 业务!业务!业务!数据!数据!数据!

新鲜的数据和能持续产生新鲜数据的业务,是一个大模型的生命力所在。

一个 RAG 做的再牛逼,如果数据库很糟糕,结果就是很糟糕的。

一个模型再挫,只要数据足够好,照样是一个好工具。

在 AI 时代,数据的问题只会被放的更大,AI 搜索如果在一堆屎山数据里面做搜索,充其量不过是又造了一根搅屎棍。

任何时候,能持续生产真实交易数据和优秀内容的业务都比大模型本身重要。

6.2 看论文不是产品经理避免 FOMO 的最佳途径,动手尝试可以避免 FOMO

我认为一个比较清晰的事实是,目前工业界短期内一定高估了大模型的作用。

前段时间我写了一个段子:每一个 App 都值得思考是否能用 AI 重做一遍,然后就会发现值得重做的只有 10%。

短期内的资源投入很大程度上是源自于投资人和大厂决策者的 FOMO 心态,这种心态某种角度来说是不健康的。这种 FOMO 的心态也会传导给产品经理,于是很多产品经理都开始看论文(比如本文作者),但在我看来产品经理看论文其实没什么用,图一乐的作用更大。

论文都是锤子,但是对于 PM 来说更重要的是钉子在哪里。所以与其关心最新的学术界又发了什么,不如关心一下 Product Hunt 上面哪些 AI 产品又登上了当日第一,并且赚钱了。

与其 FOMO,不如动手多用用,以前移动互联网刚刚兴起的时候,大部分产品经理手机里面不得装小几百个 App,天天研究来研究去的。去用一下市面上最好的应用,并且尝试逆向它,会有多很收获。

写这篇文章,写接近 2 万字,发现大模型那么多的坑,而且每个坑都能找到一些关联的论文。不是因为闲的蛋疼去看论文,而是因为一直在捣鼓 AI,然后发现这也有问题那也有问题,不得已去搜索,搜到了论文。

原来大家都有这个问题,有的人就是有钻研精神,发现了问题还会深入研究,然后写一篇论文。哎,人比人真的气死人。

如果仔细看就会发现我看的大部分论文都是工程师论文而不是算法论文,因为就像我强调的,大模型的弱点需要工程弥补,工程是研发和产品经理共同搭建的,看不懂算法的论文不打紧,看不懂工程师的论文可能真的得反思一下。

6.3 产品经理必须要学会自己调用 API

正如文提到的,未来 AI 产品团队的能力,不取决于谁家模型更强,反正开源模型一定最终会变得最强,而取决于谁家能用好 AI 模型。

而谁能用好 AI 模型,又取决于哪个团队做实验的本里强,谁能更快的做完更多的实验,谁就牛逼。

有的人可能会问,我用 coze 或者是 KimiChat 行不行,我的答案是不行。

因为这两个本身就已经是 AI 产品了,和 AI 的 API 差距很大,给 KimiChat 传个 PDF,人家解读的又快又好,你怎么知道它解读的好是因为模型牛逼,还是因为 PDF 格式转 MD 数据清理的好呢?

这就需要产品经理必须要具备非常快速的裸调用 API 做实验的能力。

那么不会写代码,怎么快速获得这种能力?用 Dify 或者 n8n 这样的低代码平台来解决。

就我自己来看,我认为 n8n 更靠谱。n8n 是一个 Coze 的开源免费上位替代,一个可视化低代码自动化 Workflow 平台,能够方便的让不会写代码的朋友体验 AI 开发的乐趣和效果。

用它可以轻易的创建很多扣子完成不了的复杂自动化 Workflow。比如 Webhook 触发,比如 1000 多种第三方接入,比如发起自定义的 HTTP Request。

并且因为 n8n 不是从这一轮 AI 浪潮才开始做的,所以它的生态也比这一轮 AI 后才涌现出的 Workflow 工具(比如 Dify)更完善,官方接入的集成服务更多,社区更活跃。

n8n 就是大模型的五官、躯干和四肢,动手又动脑,才能有创造。

在这里我推荐一个 n8n 的中文教程《简单易懂的现代魔法》,这应该是目前市面上最好的 n8n 中文教程。

教程地址:https://n8n.akashio.com/

6.4 几个 AI Agent 实践的建议

6.4.1 设计 Agent 的关键思路

想象一下 20 个实习生帮你干活,你要怎么分配任务?实习生的特点是什么?

  • 能执行
  • 无法拆解复杂问题
  • 执行顺序可能是有问题的,你如果不规定执行顺序,会怎么样?可能会拖慢项目进度
  • 记忆力一般,一下子太多任务记不住,可能会忘记
  • 可能会出错,所以最好有交叉验证

所以如果你把 AI 视作为一个又一个不知疲倦的实习生,你认为他们能干嘛?当然是设计好 SOP 和产出物标准,让他们去做这些量大且重复性的工作啦。

当然实习生和 AI 有一个比较大的差别,就是 AI 确实比实习生,甚至不少正式员工在解决特定问题的时候强很多。

也贵很多,GPT-4 回答一个问题一个来回 API 的定价可能在 3 美分左右。

人比机器便宜,可能是未来大家不被 AI 淘汰的重要理由(bushi)。

6.4.2 把任务拆小拆细,避免互相影响

把一个复杂问题拆成多个简单问题,然后再让模型处理有两个好处:

第一、正如上文所描述,大模型的不稳定性和它接收的文本规模大小完全是呈正相关的,如果把问题拆小就意味着单词任务模型要处理的文本变少。

第二、一些简单的问题根本没必要用大模型,甚至可以用简单的模型或者是纯逻辑去判断,更便宜、速度更快,甚至效果可能会更好。

6.4.3 区分离线任务和在线任务

以 Grpah RAG 架构为例子, 它一共分为三个步骤:

  1. 将待搜索的知识进行一个三元组抽取(主谓宾),这个抽取的动作需要 LLM 介入,存入图数据库中(可离线处理);
  2. 将用户提出来的关键词,用 LLM 做一次扩散,扩散出来同义词,近义词等,然后在图数据库进行检索,找到相关文档(必须是在线服务);
  3. 将查询出来的相关内容作为上下文,和用户提出的问题一起交给大模型来生成内容(必须是在线服务);

其中前两个步骤是离线任务,离线任务意味着可以花费较多的时间对数据做精细化的处理,比如我们可以用一个开源但是性能强悍的大模型,用自己的服务器去跑任务,以此来在保证质量的时候降低成本。

而在线任务则意味着需要较强的时效性,如果在线任务本身复杂度并不高,也可以选择更加轻量级的模型来保证回复速度。

同时离线任务的结果会被存储并且反复调用,用质量更好的模型相当于做了一些固定成本的投入,而在线任务都是和用户交互直接相关的,这些本质上是边际成本。

6.4.4 每一个离线任务都可以考虑用模型来解决

在 Hybrid RAG 中,对 html 转 MD 的工作用的是 Python 库进行的,其实这项工作如果纯粹追求效果的话,完全可以考虑直接用大模型来做。

当然具体是用 Python 库还是用大模型,其实是取决于成本和效果的考量的,这个也需要通过实验来证明。

我自己的经验是这种数据清洗的工作适合用 Python 库做一轮,再用大模型做一轮清洗,效果可能会更好,但是很多时候 Python 库已经足够干净了,中间夹杂一些错误的格式编码其实也不影响后续大模型的判断,这种情况下做不做都是无所谓的。

总而言之大模型在特定环节的工作能力是非常强的,如果不是考虑成本,其实几乎每个环节都可以用大模型解决。

6.4.5 成本和效果要做 Trade off

众所周知,大模型回答有一定的随机性,要怎么解决这个问题呢?当然是一个问题重复问几遍啦。

比如论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》中提到的如何测试两种 RAG 方法的效果,用人力标注太麻烦了,所以他们连检查样本的工作都交给大模型来做了,真是牛逼(有钱)。

为了保证结果正确,一个标注要重复做 4-5 遍,成本自然也是 4-5 倍。

对于设计产品的同学来说就非常需要判断成本和效果之间怎么平衡了。

6.4.6、Agent、微调、提示词之间的边界与最佳实践

如果我们把提示词工程、Agent 的建设和模型微调对应到我们给一个人布置任务,就可以这么理解。

  • 提示词工程相当于你在布置任务的时候说的很详细。
  • Agent 建设相当于你给这个人布置任务的时候,把 SOP 拆清楚,并且告诉他公司里面有哪些工具可以用。
  • 模型微调相当于做培训。

所以完成一个任务,可能三种手段都需要用上,但是三种手段的成本是不一样的。

而为了完成一个任务,应该用哪种优化手段,这就是目前工程、算法、产品、学者这几方面都非常模糊的地方,这个就好像是在航海或者挖矿,又像是临床医学,怎么决定用什么手段,本质上是一个“实验”,而不是一个“推理”。

这也就是为什么上面列出来的每一篇论文都需要列非常多的基准测试,因为设计这些 Agent 的人自己都不知道结果到底好不好,需要实验才能验证。

所以我认为,未来哪个团队应用 AI 的能力强,哪个团队应用 AI 的能力弱,其实就取决于:

  1. 这个团队有没有牛逼的基准测试参考答案;
  2. 这个团队能不能有一个平台可以更快的验证自己的设计是不是合理的;

谁实验做得快,谁就牛逼,工程化产品化反而是最后一步。

最后我个人建议是能不要微调,就不要微调,因为微调会改变模型的参数层,成本很高而且无法迁移。而且微调的本质是在和大模型团队卷算法,卷数据,内卷在长期来看,是没有意义的。

90%的“AI搜索”都是“套牌”

aigc阅读(39)

2024年AI应用层迎来爆发,各个赛道开始全面拥抱AI。搜索赛道上,也正经历新一轮的技术升级,正在逐步从旧搜索时代走向新搜索时代

业内普遍认为,在AI能力的加持下,搜索引擎将迈入下一阶段,也就是我们说的“新搜索”,它将具备更好的用户语义理解能力,更强的个性化推荐能力,以及跨模态、跨语言的信息整合能力,将能提供远超传统搜索的用户体验。

具体能怎么结合?

仅仅是搜索+AI,还是会进化出全新的产品形态?

在9月4日,在搜索领域有深厚积累的百度给出了答案,宣布旗下文心一言APP全新升级为“文小言”,一个新搜索智能助手。

01 什么是新搜索?

新搜索,新在哪?

在于用新的AI 技术,跟搜索相结合,为用户塑造全新的体验。所以,区别新、老搜索的一个简单的标准是:是否具备AI能力。

然后,有 AI 能力就够了吗?

更重要的,还是要回归搜索的本质:问,新搜索的本质也是问,进一步洞察用户「问题」背后的需求,其实「问」背后涵盖了更多的用户场景,包括:

  1. 「搜」:比如搜天气、音乐、导航、餐厅推荐
  2. 「创」:比如“如何写一篇年终总结”、“如何写简历”、“如何修图”
  3. 「聊」:比如“感觉孤独怎么办”、“怎样提升口语”

新搜索将深度理解上述场景背后用户的底层诉求,通过生成式AI、多轮交互、个性化互动、智能体等AI能力,为用户提供更好的体验。

打个比方,原本我们搜索“如何提升英语口语”,其实背后想得到的,不仅仅是一些技巧经验,而是需要实际提升英语口语水平,在这个场景下,基于AI智能体的“口语教练”就可以直接跟我们进行口语交流,更直接地去满足用户需求。

除此之外,区别于过往搜索的被动响应模式,新搜索产品也将变成一个全新的角色,从工具变成更懂用户喜好,更主动的伙伴,能够在身边随时响应我们的需求。

02 文小言新搜索能力开箱

具体文小言是如何落新搜索呢?从这个部分开始,我们将体验文小言的新搜索能力,重点关注在不同场景下,文小言能带来哪些新的体验。

1. 更低门槛「搜」更多相关信息

大家回想下自己之前搜索的经历,是否遇到过不知道怎么搜的问题,特别是当搜索的内容无法通过关键词描述清楚时,比如看到一些风景很好的地方想去旅游,但不知道是哪,最终面对搜索框不知怎么搜。

这个问题,在文小言这可以通过“多模态输入”的能力得到完美解决,我们可以直接语音提问,也可以上传图片后提问,它便可以基于图片内容来进行回答,在实际体验中我就上传了一张游戏界面截图,了解是哪款游戏:

除了降低搜的门槛外,在搜知识的场景下,之前我们为了尽量地全面搜集信息,需要扩大搜索范围,并且人工识别信息相关性,然后再逐步建立起全貌。

针对这个场景,文小言提供了深度解读的能力,从下面第一张图可以看到,我提问之后,文小言回答的内容出现了一个“深度解读”的按钮,点击后便会为我呈现一个结构化的解读大纲,对于复杂问题而言,这有助于我们先建立全局的认知

在解读内容后面,我们还可以通过“你可能想问”、“你可能想看”,进一步找跟当前知识相关的内容,进一步搜集更多信息。

2. 更便捷地完成「创」作

过往在旧搜索产品上,我们可能是搜“怎样写一个年终总结”或“怎样设计一个动漫头像”,现在通过文小言的“文本与图片创作”能力,可以直接变成“帮我写一篇年终终结”、“帮我设计一个动漫头像”,最高效率提提升了我们在内容创作场景的效率。

除了上文 2 种方式外,文小言中还有各种AI 智能体,能帮助我们完成更多场景下的创作工作,涵盖工作、学习、生活等方方面面,包括写论文、写新媒体文案等。

3. 像身边的一个伙伴,提供更人性化的体验

1)具备「记忆」:除了记住信息,还能记住你交代的事

如何理解记忆能力?可以先看看,在不具备记忆能力的情况下,假设我们现在要提问了解怎么做职业规划,会得到一个通用的回答:

有了记忆能力,我就可以先告诉文小言自己的职业,触发它的记忆生成:

生成记忆后,如果我们再搜之前一样的问题,无需额外的提示词,文小言就已经能自己自动根据记忆中掌握的信息,来生成针对性的回答:

随着使用增多,文小言也将越来懂得我们的需求,当然,它除了能变得更熟悉我们之外,我们有事情处理也可以交代给它来完成。

比如要让文小言在每天周五给我们整理本周的AI热点,也只需告诉它,它也会将这个任务保存到记忆中,到点了就自动帮我们执行。

2)能像和朋友一样「聊」天互动

在文小言中我们可以通过多种方式来跟数字人沟通,除了可以发文字、发语音外,也可以直接打电话,无论是提问、学习还是聊天。

我们还可以选择跟其他人设的数字人互动,比如“口语老师”。

过往通过传统搜索上,我们只能搜“怎样提高英语口语能力”,然后得到一篇如何提升口语的技巧总结文章,但现在在文小言APP中,我们可以直接语音和这位虚拟口语老师对话,对话结束后它还能像老师一样对我们给出评价和建议,帮助我们实实在在完成提升口语的目标。

目前文小言 App 也集成了一个专业化的智能体团队,包括法务顾问、医学顾问等角色,我们也能直接通过跟他们聊天,获取诸如法律、教育、医疗等服务。

03 总结

这次通过对文小言APP新搜索能力的测评,可以看到新搜索在「搜」、「创」、「聊」等场景上都进行了体验升级,除了更进一步满足场景背后的诉求外,也让新搜索产品变得更加人性化而非工具,它能记住我们的喜好、记住我们交代的事情,还能让它的朋友们(AI智能体团队)来帮我们解决问题。

结合IDC《移动端大模型应用市场竞争力分析》报告,目前文小言App提供的新搜索能力,在同类产品中已经获得综合测评第一的成绩。

搜索的边界正在扩大,在 AI 加持的新搜索时代,不变的仍是持续提升用户体验,文小言在这方面可以说是目前新搜索领域最好用、最原生、最彻底的一款应用。

告别傻白甜-如何让AI助手从呆萌变聪明

aigc阅读(31)

自ChatGPT诞生以来,对话式AI技术迎来了爆发式的增长。国内众多科技公司纷纷推出了自己的AI智能助手,如豆包、文心一言、讯飞星火等。

在这样的大背景下,赶集也推出了自己的对话生成式AI求职助手——小集。

小集的问世,是对公司AI技术的一次挑战,也是对用户体验的一次革新。但相较国内外主流AI技术,我们的AI技术仍显稚嫩。

面对这样的现状,我们不仅深思:一个不够聪明的对话式AI求职助手该怎样做?

经过深思熟虑,我们决定运用设计的力量,以创新的视角和方法,赋予我们的AI产品以智慧。

01 视觉智能

视觉智能–打造智能IP形象我们首先着手于赶集求职助手的智能IP形象设计,致力于在视觉上赋予AI求职助手以智慧的外在表现。

基于去年对四个主要城市用户的广泛调研,我们提炼出了IP设计的三个核心要素:智能、科技、自然。

这些关键词为我们的设计提供了明确的方向,也确保了小集的形象能够满足用户的预期。

借助最新的AI图像生成技术,我们使用 MJ+SD+PS精心打造了小集这一独特的IP形象。

她自信智慧,展现出强烈的未来感,同时不失人类的亲和力。

在氛围设计上,我们还将科技与艺术相结合,利用深邃的暗色背景和炫彩的动感氛围,创造出了强烈的视觉冲击力和科技感。

此外我们还为小集增添了数字点阵、独特的logo和油彩印记等设计元素,不仅丰富了她的视觉效果,也传递出了品牌探索未知、引领未来的创新精神。

通过这些精心设计的细节,让小集的形象变得更加立体和生动,她不仅是一个智能助手,更是一个能够激发用户想象力和探索欲望的品牌形象。

为了进一步丰富小集的形象并迎合不同用户的个性化需求,我们还创作了多套风格迥异的服装。

这些服装使得小集不仅仅是一个AI助手,更是一个能够与用户建立深厚情感联系的伙伴,让每一次交流都充满温度。

我们还精心提炼了小集IP形象中最具标志性的视觉元素,打造了一系列设计组件,并制定了相关设计规范。

通过对色彩、布局、字体和图标的细致打磨,确保了每个界面元素都能与小集的形象相得益彰,营造出既和谐又富有未来感的视觉体验。

这些设计组件的应用,不仅提升了用户界面的美观度和易用性,也极大地增强了用户与AI助手互动时的沉浸感。

通过视觉的连贯性和一致性,使用户在使用过程中感受到流畅和愉悦,从而加深用户与小集之间的情感连接。

为了提升小集这一IP形象的吸引力和表现力,我们还在设计中巧妙地引入了多样化的动态效果。这些动效不仅丰富了小集的视觉呈现,还赋予了其更加立体和生动的个性,让小集的每一个动作和表情都流转得更加流畅自然,显得更加亲切和真实。

至此,我们完成了赶集求职助手的视觉智能设计。

02 结构智能

结构智能–打造智能的对话框架这两种对话界面,大家认为哪种界面更聪明呢?

许多人可能会凭直觉认为第一种界面更为智能,因为它提供了一个直接对话的窗口,给人一种与真人交流的感觉。

然而,这种直觉并不准确。

在分析之后,我们发现第二种界面实际上更为聪明。

因为第二种界面相较于第一种界面,展现了其独特的三大优势,使其在复杂的求职场景中尤为突出:

  1. 上下文记忆:它能够捕捉并记住对话的历史,每次回应都是连贯且相关的。
  2. 多轮对话管理:即便对话持续多个回合,界面仍能维持话题的连贯性,深入理解用户的问题,并给出恰当的回答。
  3. 高拓展性:它具备强大的多功能集成能力,为未来技术的升级和功能的扩展提供了广阔的空间。

鉴于这些优势,我们选择了第二个界面,并对其进行了页面结构设计,以适应信息量大且复杂的求职需求。

我们将界面结构设计划分为五层,每一层都承载着独特的功能和目的:

  1. 背景层:奠定产品的基调,为用户营造沉浸式的体验环境。
  2. 消息层:作为对话的核心载体,保障了对话内容的顺畅交流和清晰展示。
  3. 结构化信息层:通过直观的布局快速传达关键信息,提升信息获取的效率。
  4. 智能标签层:利用智能技术提供联想提示,辅助用户深入挖掘和探索更多可能性。
  5. 输入层:鼓励用户用自然语言进行交流,简化了用户输入,使对话更加贴近自然交流。

这五层设计相互融合,共同塑造了一个直观高效的用户界面,为用户提供了一个连贯的求职体验。

通过界面分层设计,我们完成了赶集求职助手的结构智能设计。

03 交流智能

交流智能–打造智能的对话体验让我们深入比较赶集求职助手以下两个版本的界面:

在1.0版本中,我们采用了一套预设的问答模式,针对既定问题提供既定选项。而2.0版本则迈入了更高层次的交互——它不仅能够回答问题,更能深入理解对话的流程和上下文,保持交流的连贯性,支持用户进行多轮、深入的对话。

2.0版本是真正的对话生成式AI,这种AI的交互可以形象地概括为一问一答的自然对话模式——用户发言后AI作出回应,如此往复,形成对话流。

尽管对话生成式AI提供了高度的自由度,但这种自由有时也会让用户感到迷茫,不确定如何开始对话。

为了解决这一问题,我们在用户与助手的互动中进行了创新,引入了两个关键环节:预览矫正和辅助引导,以确保对话的流畅性和准确性。

预览矫正功能允许用户在输入时或输入后进行即时的检查和调整,确保他们的话语更加清晰完整。

这一环节帮助用户精确地表达自己的意图,提高交流效率。

辅助引导则在对话过程中发挥作用,它能够智能地调整AI的回复方向和内容,确保对话始终围绕主题进行。

通过这种方式,我们引导用户沿着一个有逻辑、有组织的对话路径前进,避免了偏题或无效交流。

在对话中我们增加了多项预览矫正与辅助引导的功能模块,如职位卡片、简历卡片、多场景切换入口、简历提词器、智能联想标签、AI简历预览等。

这些功能模块的加入,极大地提升了对话式交互的智能化水平,使得对话生成式AI更加智能和高效,帮助用户快速达到他们的目标。

以AI求职助手的主界面为例,我们设计了一个直观而高效的用户交互流程:

  1. 用户进入主界面,即可通过语音或文字输入自由表达他们的需求和想法。
  2. 我们提供了实时预览功能,无论是语音还是文字输入,用户都可以在发送前进行细致的检查,确保信息准确传达。
  3. 用户发送的消息会立即触发AI助手的反应,它将迅速进行分析并给出回复,或根据用户的求职意向推荐合适的职位。
  4. 如果推荐职位未能满足用户的期望,AI助手将运用智能引导技术,继续与用户进行对话,收集更多关键信息,以便进行更精准的职位匹配。

这个过程是动态循环的,AI助手会不断学习和收集用户的反馈,直至用户找到心仪的职位。

AI帮写简历功能也是如此,可通过用户输入-预览矫正-产品输出-辅助引导流程循环,最终完成简历填写与职位推荐。

通过这些精心设计的功能,我们完成了赶集求职助手的交流智能设计,为用户提供了一个更加智能、个性化的求职体验。

04 写在最后

上线后,AI求职助手在职位连接率和人均推荐轮次上表现突出,均有显著增长。

这些增长不仅是数字上的提升,也是设计创新所带来深远影响的有力证明。

借助视觉智能、结构智能、交流智能的融合创新,我们让赶集求职助手不再傻白甜,从呆萌变聪明。

未来我们也将继续在设计领域进行探索和创新,在提升用户体验和服务质量中发挥更大的作用。

我们相信,通过不断努力和创新设计,赶集求职助手将变得更加智能,为用户带来更加美好的求职体验。

大模型抵抗幻觉,如何解决企业内部的效率问题?

aigc阅读(46)

现在大模型to C的场景,在chat bot的场景上还是非常不错的,从PC应用、web、还是移动端来看,使用率和用户的反馈还是不错的。

在现在这个时机,能选择开始使用大模型应用的用户,这个场景就能过滤掉了非常多普通用户,基本上是“学习能力强”“思考力强”的用户,并且大部分使用者,是有“大模型有幻觉”的意识的。

所以在此时的大模型产品开发者对输出的准确率不做强负责,默认用户会有一定的分辨能力。

然而,如果是for企业内部的应用场景,如何解决准确率的问题,还有如何让用户(员工)用起来的动力。

作为企业应用,有一个核心的问题是,“好多事情和大家的绩效挂钩”

(如果你找到了一个真人,请教一些事情,不论是否有答复,或者说是这个答复是对是错,都没问题,有责任人,我甩锅也算是有对象。

但是如果在很多“培训”“咨询”的场景,引入“大模型的助手”,很容易出现,没有人对结果负责,

锅没地儿甩了,总不能让提问的人来甩吧

所以抵抗幻觉,做好准确率这事,现在就很蛋疼。

但是话说回来,对于已经工作的人来说,让人对回复多看两眼,做好风险提示,也算是说的过去。

一、拆解一下企业内部的场景

现在来看,landing比较丝滑的场景,仍然是问答

并且,这种场景的复用性也是高的,作为产品经理也是愿意干这个的,我在A企业做完,去B企业可以有经验再来一遍。

所以,在大模型的内部应用来看,我也在引导业务通过这样的方式来实现。

最近的调研下来来看,基本上是通过【prompt角色扮演+RAG知识库+强限制】来实现的。

prompt工程来看,这个是好解决的,无外乎,修改测试验证

但是后两者是难点,

知识库的吞吐流程

1)知识库里的“知识”

首先是知识本身的准确率,在一些企业,存档做的还不错,这个也算是能提供

但是如何让我们的能够读明白的文档,让大模型本身也读的明白,

Excel、图标的ppt、流程图、脑图等等不同形式的文档信息,如何“一键向量化”

这可太难了。

所以我们的解决方案,就是运营同学或者各类目文档的维护人员按照识别效果还不错的格式,整理一遍。

* 其实这里是有强管理动作在的,管理知识的人不需要问,所以关于这个繁杂的工作如何让人愿意做,在企业内部也是需要耗费精力去做的。

整理完毕文档之后,我们上传大模型平台,

不管直接的知识库产品工具,还是自建的知识库能力。

2)知识的切片

都会进入切片的场景,这里就有一个切的准不准,有没有切开的问题。

现在常见的知识库切片逻辑:

按照格式、标点居多。

再或者“适当”的字数,根据语意切的不多见。

切的这个步骤,基本在图片和表格的信息,就不太能用了。

对了插一句,现在豆包对图片的识别能力来看,

3)如何通过query找到知识

大模型的逻辑是,先把query语意理解了,然后找到关联度最高的知识库知识,

4)大模型输出的答案:

然后把这些知识和问题按照prompt进行总结输出。

这里是关于通话大模型进行问答的信息。

所以每个步骤都有不小的风险,一定需要产品亲自做测试验证的。

但是,预防针是,就算每个步骤都参与设定配置,也一定会有偶尔的抽风。

再来一步,作为产品,也需要解决这些抽风问题

提供几个思路

1. 提供一个“最终解释权归属人”,得让这个大模型助手又机灵又死板,给自己整个免责声明。

大模型助手os:“我可以给出答案,但是答案不是我说的”

比如输出的答案:

-输入:“如何客户退款20元的问题?

-输出:小王在《如何处理客户投诉问题》内提到:“处理投诉的原文……”

或者,在xxx系统查询到的xxxx

根据以上查询的知识,建议方案:…..

(嗯这样,把整个锅给提问者找来了,真出问题就能甩了)

2. 让大模型助手的服务态度好一点

企业内部还有一个痛点是,大家都挺忙的,无法解决的问题,也是让你A找B,再找C,然后拉个群等等。

所以咱们大模型助手遇到不知道的问题,不妨服务态度好一点,不要直接回复“我不知道”,可以拉满情绪价值,给打工人一些安慰剂。

就算提问的用户想要给你个差评,毕竟咱小助手服务态度好,提前不好意思了。

3. 让专家教教小助手,小助手再教新人

通过上面两个,

对大模型助手能回答的和不能回答的问题有了一个buffer

但是如何小助手如何成长的机制还没有建立,

专家对输出信息的准出进行“调教”

设定一些敏感信息的指定回答方案。并且定期review知识本身的数据

如何解决让用户/员工用起来的问题

作为平级部门,我们做了个一个很好用的工具,能帮你解决80%的dirty work,你会用吗

如果公司内部有强有力的1号位把这个AI工具提到了战略层级,通过管理手段让用户用起来是好的,

但是就算这种情况大概率工具会面临“甩锅”的问题,做提效工具的反而被背刺

但是,如果发现这里有一个助手收录了行业的关键词条(哪怕是互联网的),并且收录了公司的各种文档,还有更多的sop,那么作为提问人,去找这个不是人的人问一下,会不会降低一下提问人的羞耻感呢

或者说,有业务要向产品提需求,总是被diss没想清楚,方案不成熟,

那用户是否有机会和这个大模型助手先描述一遍你要实现什么场景呢,(其实这个倒是很简单了,提供一个需求分析的prompt给大模型助手即可)

所以这里就又推理出了一个方案,

提供一些角色扮演

(类似公司的岗位,通过prompt让他具备这个行业的一些基础能力)

集成在大模型助手内,让他具备一些个新场景。

除此之外,就是和上文的知识库类似,

找到owner为知识库负责。

AI大模型实战篇:AI Agent设计模式,ReAct

aigc阅读(70)

《大佬们都在关注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(下篇)》中,风叔简单介绍了AI Agent的八种设计模式。对于这八种设计模式,风叔整理了一张图,来阐明它们之间的关系。

ReAct模式最早出现的Agent设计模式,目前也是应用最广泛的。从ReAct出发,有两条发展路线:

一条更偏重Agent的规划能力,包括REWOO、Plan & Execute、LLM Compiler。

另一条更偏重反思能力,包括Basic Reflection、Reflexion、Self Discover、LATS。

在后续文章中,风叔将沿着上图的脉络,结合产品流程和源代码,详细介绍这八种AI Agent设计模式。

为什么选择结合源代码呢?因为在AI大模型时代,很多的概念和方法都太新了。只有结合源代码,产品经理才能真正理解背后的原理和逻辑,才能知道什么能做,什么不能做,AI的边界在哪里,以及该如何与人类经验配合。

下面,我们先从ReAct模式开始。

一、ReAct的概念

ReAct的概念来自论文《ReAct: Synergizing Reasoning and Acting in Language Models》,这篇论文提出了一种新的方法,通过结合语言模型中的推理(reasoning)和行动(acting)来解决多样化的语言推理和决策任务。ReAct 提供了一种更易于人类理解、诊断和控制的决策和推理过程。

它的典型流程如下图所示,可以用一个有趣的循环来描述:思考(Thought)→ 行动(Action)→ 观察(Observation),简称TAO循环。

  • 思考(Thought):面对一个问题,我们需要进行深入的思考。这个思考过程是关于如何定义问题、确定解决问题所需的关键信息和推理步骤。
  • 行动(Action):确定了思考的方向后,接下来就是行动的时刻。根据我们的思考,采取相应的措施或执行特定的任务,以期望推动问题向解决的方向发展。
  • 观察(Observation):行动之后,我们必须仔细观察结果。这一步是检验我们的行动是否有效,是否接近了问题的答案。
  • 循环迭代

如果观察到的结果并不匹配我们预期的答案,那么就需要回到思考阶段,重新审视问题和行动计划。这样,我们就开始了新一轮的TAO循环,直到找到问题的解决方案。

和ReAct相对应的是Reasoning-Only和Action-Only。在Reasoning-Only的模式下,大模型会基于任务进行逐步思考,并且不管有没有获得结果,都会把思考的每一步都执行一遍。在Action-Only的模式下,大模型就会处于完全没有规划的状态下,先进行行动再进行观察,基于观察再调整行动,导致最终结果不可控。

假设我们正在构建一个智能助手,用于管理我们的日程安排。

在reason-only模式中,智能助手专注于分析和推理,但不直接采取行动。

  • 你告诉智能助手:“我明天有个会议。”
  • 智能助手分析这句话,确定明天的会议时间、地点等细节。
  • 它可能会提醒你:“明天下午3点有个会议,在公司会议室。”

在action-only模式中,智能助手专注于执行任务,但不做深入的推理或分析。

  • 你告诉智能助手:“把我明天的会议改到上午10点。”
  • 智能助手立即执行这个任务,将会议时间修改为上午10点。
  • 它可能会简单确认:“您的会议已改到明天上午10点。”

在ReAct模式中,智能助手结合推理和行动,形成一个循环的感知-动作循环。不仅分析了你的需求(推理),还实际修改了日程安排(行动)。

  • 你告诉智能助手:“我明天有个会议,但我想提前到上午10点。”
  • 智能助手首先分析这句话,确定会议的原始时间和地点(感知阶段)。
  • 然后,它更新你的日程安排,将会议时间改为上午10点(决策和动作执行阶段)。
  • 最后,智能助手确认修改,并提供额外的信息:“您的会议已成功改到明天上午10点。提醒您,会议地点不变。

二、ReAct的实现过程

下面,风叔通过实际的源码,详细介绍ReAct模式的实现方法。在手机端阅读源代码的体验不太好,建议大家在PC端打开。

大家可以私信风叔,或者在评论区留言“ReAct源码”,获取ReAct设计模式的示例源代码。

第一步 准备Prompt模板

在实现ReAct模式的时候,首先需要设计一个清晰的Prompt模板,主要包含以下几个元素:

  • 思考(Thought):这是推理过程的文字展示,阐明我们想要LLM帮我们做什么,为了达成目标的前置条件是什么
  • 行动(Action):根据思考的结果,生成与外部交互的指令文字,比如需要LLM进行外部搜索
  • 行动参数(Action Input):用于展示LLM进行下一步行动的参数,比如LLM要进行外部搜索的话,行动参数就是搜索的关键词。主要是为了验证LLM是否能提取准确的行动参数
  • 观察(Observation):和外部行动交互之后得到的结果,比如LLM进行外部搜索的话,那么观察就是搜索的结果。

Prompt模板示例:

TOOL_DESC = """{name_for_model}: Call this tool to interact with the {name_for_human} API. What is the {name_for_human} API useful for? {description_for_model} Parameters: {parameters} Format the arguments as a JSON object."""
REACT_PROMPT = """Answer the following questions as best you can. You have access to the following tools:
{tool_descs}
Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can be repeated zero or more times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question
Begin!
Question: {query}"""

第二步 构建Agent

一个ReAct Agent需要定义好以下元素

  • llm:背后使用的LLM大模型
  • tools:后续会用到的Tools集合
  • stop:什么情况下ReAct Agent停止循环
class LLMSingleActionAgent {
  llm: AzureLLM
  tools: StructuredTool[]
  stop: string[]
  private _prompt: string = '{input}'
  constructor({ llm, tools = [], stop = [] }: LLMSingleActionAgentParams) {
    this.llm = llm
    this.tools = tools
    if (stop.length > 4)
      throw new Error('up to 4 stop sequences')
    this.stop = stop
  }
 }

第三步 定义Tools

Tools有两个最重要的参数,name和description。

Name就是函数名,description是工具的自然语言描述,LLM 根据description来决定是否需要使用该工具。工具的描述应该非常明确,说明工具的功能、使用的时机以及不适用的情况。

export abstract class StructuredTool {
  name: string
  description: string
  constructor(name: string, description: string) {
    this.name = name
    this.description = description
  }

  abstract call(arg: string, config?: Record<string, any>): Promise<string>

  getSchema(): string {
    return `${this.declaration} | ${this.name} | ${this.description}`
  }

  abstract get declaration(): string
}

我们先简单地将两个描述信息拼接一下,为Agent提供4个算数工具:

1. Addition Tool: A tool for adding two numbers
2. Subtraction Tool: A tool for subtracting two numbers
3. Division Tool: A tool for dividing two numbers
4.MultiplicationTool: Atoolformultiplyingtwonumbers

一个很有意思的事情是,这几个算数工具函数并不需要实际的代码,大模型可以仅靠自身的推理能力就完成实际的算数运算。当然,对于更复杂的工具函数,还是需要进行详细的代码构建。

第四步 循环执行

执行器executor是在Agent的运行时,协调各个组件并指导操作。还记得ReAct模式的流程吗?Thought、Action、Observation、循环,Executor的作用就是执行这个循环。

class AgentExecutor {
  agent: LLMSingleActionAgent
  tools: StructuredTool[] = []
  maxIterations: number = 15

  constructor(agent: LLMSingleActionAgent) {
    this.agent = agent
  }
  
  addTool(tools: StructuredTool | StructuredTool[]) {
    const _tools = Array.isArray(tools) ? tools : [tools]
    this.tools.push(..._tools)
  }
}

executor会始终进行如下事件循环直到目标被解决了或者思考迭代次数超过了最大次数:

  • 根据之前已经完成的所有步骤(Thought、Action、Observation)和 目标(用户的问题),规划出接下来的Action(使用什么工具以及工具的输入)
  • 检测是否已经达成目标,即Action是不是ActionFinish。是的话就返回结果,不是的话说明还有行动要完成
  • 根据Action,执行具体的工具,等待工具返回结果。工具返回的结果就是这一轮步骤的Observation
  • 保存当前步骤到记忆上下文,如此反复
async call(input: promptInputs): Promise<AgentFinish> {
    const toolsByName = Object.fromEntries(
      this.tools.map(t => [t.name, t]),
    )

    const steps: AgentStep[] = []
    let iterations = 0

    while (this.shouldContinue(iterations)) {
      const output = await this.agent.plan(steps, input)
      console.log(iterations, output)

      // Check if the agent has finished
      if ('returnValues' in output)
        return output

      const actions = Array.isArray(output)
        ? output as AgentAction[]
        : [output as AgentAction]

      const newSteps = await Promise.all(
        actions.map(async (action) => {
          const tool = toolsByName[action.tool]

          if (!tool)
            throw new Error(`${action.tool} is not a valid tool, try another one.`)

          const observation = await tool.call(action.toolInput)

          return { action, observation: observation ?? '' }
        }),
      )

      steps.push(...newSteps)

      iterations++
    }

    return {
      returnValues: { output: 'Agent stopped due to max iterations.' },
      log: '',
    }
  }

第五步 实际运行

我们提出一个问题,看看Agent怎么通过ReAct方式进行解决。 “一种减速机的价格是750元,一家企业需要购买12台。每台减速机运行一小时的电费是0.5元,企业每天运行这些减速机8小时。请计算企业购买及一周运行这些减速机的总花费。”

describe('agent', () => {
  const llm = new AzureLLM({
    apiKey: Config.apiKey,
    model: Config.model,
  })
  const agent = new LLMSingleActionAgent({ llm })
  agent.setPrompt(REACT_PROMPT)
  agent.addStop(agent.observationPrefix)
  agent.addTool([new AdditionTool(), new SubtractionTool(), new DivisionTool(), new MultiplicationTool()])

  const executor = new AgentExecutor(agent)
  executor.addTool([new AdditionTool(), new SubtractionTool(), new DivisionTool(), new MultiplicationTool()])
  it('test', async () => {
    const res = await executor.call({ input: '一种减速机的价格是750元,一家企业需要购买12台。每台减速机运行一小时的电费是0.5元,企业每天运行这些减速机8小时。请计算企业购买及一周运行这些减速机的总花费。' })
    expect(res).toMatchInlineSnapshot(`
      {
        "log": "Final Answer: The total cost of purchasing and operating the gearboxes for a week is 9336 yuan.",
        "returnValues": {
          "output": "The total cost of purchasing and operating the gearboxes for a week is 9336 yuan.",
        },
      }
    `)
  }, { timeout: 50000 })
})

我们来看一下Agent的输出,以及Agent在这个过程,是如何思考和行动的。可以看到,通过Thought、Action、Observation的循环,AI Agent很好地一步步完成最终答案的输出。

Question:一种减速机的价格是750元,一家企业需要购买12台。每台减速机运行一小时的电费是0.5元,企业每天运行这些减速机8小时。请计算企业购买及一周运行这些减速机的总花费
Thought:I need to calculate the total cost of purchasing and operating the gearboxes for a week.
Action: Multiplication Tool
Action Input: [750, 12]
Observation: 9000
Thought: Now I need to calculate the cost of operating the gearboxes for a day.
Action: Multiplication Tool
ActionInput:[0.5,8,12]
Observation: 48
Thought: Now I need to calculate the cost of operating the gearboxes for a week.
Action: Multiplication Tool
Action Input: [48, 7]
Observation: 336
Thought: Now I need to calculate the total cost of purchasing and operating the gearboxes for a week.
Action: Addition Tool
Action Input: [9000, 336]
Observation: 9336

总结

在AI Agent的多种实现模式中,ReAct模式是最早出现、也是目前使用最广泛的模式。ReAct的核心思想就是模拟人思考和行动的过程,通过Thought、Action、Observation的循环,一步步解决目标问题。

ReAct模式也存在很多的不足:

  • 首先是LLM大模型的通病,即产出内容不稳定,不仅仅是输出内容存在波动,也体现在对复杂问题的分析,解决上存在一定的波动
  • 然后是成本,采用ReAct方式,我们是无法控制输入内容的。因为在任务提交给LLM后,LLM对任务的拆解、循环次数是不可控的。因此存在一种可能性,过于复杂的任务导致Token过量消耗。
  • 最后是响应时间,比起大部分API接口毫秒级的响应,LLM响应时间是秒级以上。在ReAct模式下,这个时间变得更加不可控。因为无法确定需要拆分多少步骤,需要访问多少次LLM模型。因此在在秒级接口响应的背景下,做成同步接口显然是不合适的,需要采用异步的方式。而异步方式,又会影响用户体验,对应用场景的选择又造成了限制。

但是无论如何,ReAct框架提出了一种非常好的思路,让现有的应用得到一次智能化的进化机会。现在很多场景已经有了非常成熟的ReAct Agent应用,比如智能客服、知识助手、个性化营销、智能销售助理等等。

在下一篇文章中,风叔将介绍另一种AI Agent设计模式,REWOO。