AIGC-IT极限技术分享汇-第10页

关于AI算力的若干神话与现实

2024-08-19aigc阅读(65)

算力将是未来很长一段时间最重要的“战略资源”之一，这一点已经得到了专业人士和资本市场的普遍认可。正因为算力实在太重要，与算力相关的产业链又太长太复杂，所以围绕着算力总是会产生许多“神话”。各种各样的人都在发表与这个话题有关的言论，有些纯粹是出于兴趣，有些则是出于利益（最典型的例子是炒股票）。无论在中文互联网还是英文互联网上，英伟达每天都在被颠覆，台积电则每周或每个月都在被颠覆，甚至连GPU这个概念也经常被颠覆。

有人说，华为昇腾芯片的算力已经超过了英伟达的“大卡”，而且证据确凿。还有人说，新兴芯片设计公司Groq的自研芯片的推理效率远远高于英伟达的同类产品，至少可以在推理端实现对英伟达的替代。上述两个神话的共同点是：都有一定的基础论据，不是完全的空想，但都与事实相去甚远。就好比盲人摸象，有人只摸到了大象身上的一根毛发，就激动地自称抓住了大象的本质——这就是关于算力的“神话”层出不穷的根本原因。

此时此刻，关于AI算力有三个最引人注目、也最富争议的“神话”：

英伟达的护城河没有多宽，很容易被竞争对手攻破；
只要攻破了英伟达的护城河，我们就能解决AI算力的紧缺问题；
AI算力很快将从数据中心下放到端侧，从而为“AI手机”等消费级产品带来机遇。

对于第一个“神话”，只有做过AI研发的人最能理解其荒谬性。外人往往认为，衡量硬件算力的唯一标准是技术指标，只要在关键技术指标上超越了英伟达，就可以取而代之——如果真的这么简单就好了！英伟达的L40“中卡”，在某些技术指标上甚至超过了自家的H100“大卡”，更不要说与上一代“大卡”A100相比了。AMD的数据中心GPU产品线，也不乏在某些技术指标上超过H100的产品。为什么没有想到用这些产品代替H100？

因为英伟达的护城河不止硬件本身，还包括CUDA软件社区和NVLink互联技术。有些AI开发者把英伟达称为“三头怪”：竞争对手必须同时砍下硬件、CUDA和NVLink三个头，才能将其击败。在这三大护城河当中，硬件层面已经是最容易逾越的了！假设不考虑成本、不考虑兼容性和使用效率，华为、阿里等国内科技公司都有能力开发出“看上去比英伟达更好”的数据中心GPU，在全世界范围内具备这种能力的公司就更多了；可是有什么用呢？“看上去比英伟达更好”是毫无意义的。

目前主流的AI训练服务器包括8块H100 GPU；英伟达的下一代“超级芯片”GB200包括两块B200 GPU和一块Grace CPU，一台服务器由多块这样的“超级芯片”组成。GPU与GPU之间、GPU与CPU之间无时无刻不在交换数据，而NVLink是一种高速的、久经考验的芯片互联解决方案。在2014年NVLink发布之前，市面上最流行的芯片互联技术是英特尔、IBM、戴尔和惠普共同开发的PCI Express（简称PCIe），它适用于绝大多数的主流芯片，问题是速度太慢、而且对通用计算GPU的优化程度不够。NVLink 4.0的传输速率能够达到PCIe 5.0的7倍以上，能源消耗则只有后者的五分之一。在实践中，大部分用户都认可NVLink在所有类似的解决方案当中是最快的。

按照英伟达的说法，NVLink把GPU变成了“乐高积木”：8个GPU组成一个服务器，32个服务器组成一个算力集群；微软、亚马逊这样的大厂还可以组建更大规模的超级算力集群，直至所谓“万卡集群”，GPT-4就是在这样的集群上训练出来的。当然，NVLink只适用于英伟达的产品，以及英伟达的技术合作伙伴IBM的Power系列产品。准确地说，即便在英伟达的GPU当中，也只有“大卡”具备完整的NVLink支持，“中卡”“小卡”要么根本不支持NVLink，要么只支持很低的传输速率。这显然是英伟达为了区分产品层级而使用的谋略：要训练大模型，就必须买昂贵的“大卡”，想通过组合大批“中卡”瞒天过海是不可能的。

如果企业客户选择英伟达之外的GPU，就只能使用PCIe等通用互联技术，组建算力集群的效率要下一个台阶。PCIe也在不断进化，但是其与NVLink的差距不是几年内能弥补的。理论上，客户也可以自己“魔改”，强行在英伟达“中卡”甚至其竞争对手的显卡上使用NVLink技术，但是这样做的风险实在太大。从NVLink首次发布至今已经经历了十年以上，任何竞争对手若想做出足以取而代之的技术，恐怕要花费同样长的时间。

至于推理环节，芯片互联的需求没那么大，确实可以不考虑NVLink，以Groq为代表的专业推理芯片设计公司有机会，国内科技企业也有机会。但是，对于一般的企业客户来说，采购英伟达的“中卡”“小卡”可以完成多种任务，还可以做图形渲染、做云游戏；而其他公司推出的“专业推理芯片”往往是高度特化的，只适合执行大模型推理任务。对于科技巨头来说，就连推理环节也出现了以英伟达“大卡”代替“中卡”的趋势，因为这样能提升推理速度、实现算力的灵活配置。综合各项显性和隐性成本考虑，绝大部分企业不会主动考虑在推理环节把英伟达替换掉。

至于CUDA的重要性，更是怎么高估也不过分：它包括一系列代码库、一整套工具和开发环境，数以百计的软件开发商是其长期合作伙伴。开发者不需要熟悉GPU的底层架构即可上手。更重要的是，CUDA积累了数以百万计的开发者群体。从学术界到产业界，到处是精通CUDA的开发者，他们也会教自己的下属和后辈使用CUDA。在你使用CUDA开发的时候，你其实是站在无数前人经验的基础之上。一位在国内从事AI开发的技术人员告诉我：“全球拥有博士学位的CUDA开发者可能有50万人，他们精通高性能计算，由此实现了CUDA社区资源的良性循环。整个英伟达生态的线下线上免费活动非常多，我自己就加入了好几个英伟达中国交流群，每天收到各种会议交流信息。除非实在没有使用CUDA的条件，否则很难想象有人会主动放弃CUDA！”

不可否认的是，在十多年的发展历程中，CUDA变得日益臃肿、复杂，开发难度逐渐提升了。曾任职于苹果和AMD的著名芯片架构师吉姆·凯勒(Jim Keller)曾指出：“CUDA是一片沼泽，而不是护城河。CUDA并不漂亮，它是通过一次次堆积功能而构建起来的。”与其说这是英伟达的问题，倒不如说是所有大型应用开发生态的共同问题：需要实现的功能太多，而且必须保持向下兼容的特性，于是生态系统变得越来越复杂混乱，开发效率不断降低。除非推倒重来，这样的问题是不能避免的；而专业开发人员都知道，CUDA就算再臃肿，也远远没到需要推倒重来的地步。

真正能对英伟达构成威胁的力量来自开源社区。英伟达的显卡驱动程序是闭源的，因此饱受诟病。2022年，由于受到黑客的威胁，英伟达对部分GPU驱动程序的内核模块(Kernel Module)进行了开源，但只是聊胜于无，实用价值不大。外部开发者以反向工程的技术手段开发了一些英伟达显卡的开源驱动程序，可想而知，它们的技术水平不会很高。英伟达坚持闭源的原因很简单，就是要最大限度地保持对自家产品的控制、谋取最高的利润，这一点对于盈利性公司而言无可厚非。

英伟达的老对手AMD则于2014年推出了名为”AMDGPU”的开源驱动程序。作为落后幅度很大的追赶者，AMD必须通过开源实现差异化，力争建立一个足以与英伟达竞争的开源软件生态。在信息科技的历史上，我们经常看到“一个强大的闭源产品VS一个丰富的开源生态”的竞争格局——闭源的Windows和开源的Linux共同构成了PC操作系统的双峰，而闭源的iOS和开源的安卓又构成了智能手机操作系统的双峰。遗憾的是，由于AMD的产品力太弱，开源策略还不足以让它真正挑战英伟达。Linux和安卓的成功，很大程度上是因为它们是“纯软件”，开源社区的包容性和创造力足以做出能与商用软件匹敌的产品；英伟达的统治地位却是软硬件一体化的产物，要让开源社区一口气砍掉它的“三个头”，实属强人所难。

再说第二个“神话”。假如明天发生奇迹，市面上骤然出现几个性能比英伟达更好、软件生态比英伟达更发达的竞品，全球算力紧缺的问题是不是就能解决呢？当然不能。无论是谁设计出了世界上最好的GPU，在当前情况下，它都要去找台积电代工，因为那是全球5纳米以下制造能力最强、良品率最高的半导体制造企业。而且，台积电的5纳米及3纳米产能，几乎全部位于台湾南部工业园区的第18号晶圆厂.至于广受外界关注的台积电美国亚利桑那工厂，其一号和二号工厂分别要到2025年和2028年才投产；号称使用最先进技术的三号工厂，至今尚未确定投产日期。

芯片制造是典型的重资产行业，重资产行业的特点就是供需关系很少完美匹配，总是处于供不应求和供大于求的循环之中。因为资本开支需要时间转化为产能，而客户需求往往呈现突发性增长的态势，等到产能追上来了，需求增长可能也就结束了。ChatGPT引发的生成式AI浪潮出乎所有人的意料，台积电当然不可能事先为之拟定资本开支计划。老实说，现在最希望三星和英特尔能够追上台积电的，应该是英伟达。

1990年代以前，美国芯片制造业一度占据过世界领先地位，后来是它自己半主动地放弃了这个地位，这也是美国“去制造业化”进程的一部分。现在，《芯片法案》试图促进芯片代工厂回流美国，通过该法案拿到补贴、在美国设厂的不止台积电一家。然而，台积电创始人反复表达过自己不看好美国重振芯片制造业的努力：第一是因为美国工程师不及东亚地区的人勤奋，第二是因为美国地广人稀、难以通过基础设施实现产业链的富集效应。

三星、英特尔面临的问题说明了一个事实：光刻机不是决定芯片产业发展的唯一因素。如果买上几台最先进的光刻机就能做好芯片代工，美国商务部完全可以直接买下大批光刻机并送给英特尔等美国本土芯片制造商，而不是花大力气劝说台积电来建厂。过去三十多年，芯片制造业积累了太多的技术流程知识(technological know-how)，只有经验丰富的工程师、中层经理和管理层加在一起，才能完整地掌握并使用这些知识。中芯国际的崛起，既得益于曾长期在台湾工作的创始人张汝京，也离不开一批在台湾半导体产业积累了深厚经验的技术骨干和经理人。

在台湾，除了台积电，还存在联电等一批芯片代工厂；可是近二十年来，它们与台积电的差距越拉越大。这种“马太效应”的形成，固然有企业自身决策和执行力的影响，但也是由芯片制造业的特性决定的——资本开支太大、技术迭代太快，最优质的客户只会选择最先进的代工厂，从而形成“强者恒强”的趋势。台积电在台湾半导体产业的领先地位早在2003年前后就已形成，而在全球半导体行业的领先地位则是在2014年苹果全面转移芯片订单之后才确立的。2022年，英伟达把H100芯片代工合约全部交给台积电，一方面体现了对台积电5纳米以下制程技术的认可，一方面也进一步打消了三星在短期内追上来的希望！

总结下来就是：算力供应的瓶颈在于台积电，解决瓶颈只有两种可能性——要么等待台积电把产能扩张出来，要么等待三星、英特尔或其他代工厂的技术水平赶上来。因此我们可以理解，为何英伟达在财报当中反复指出“下一代芯片仍将处于供不应求的状态”。这种持续的供不应求，对所有人都造成了影响，但是科技巨头受到的影响相对较小，因为它们总能得到英伟达的优待。算力紧缺的时代也是科技行业重新洗牌的时代，创业公司必须牢牢抱住算力资源丰富的大厂的大腿，大厂的统治力其实更加稳固了。

至于第三个“神话”，其实有一定的实现可能性，只是市场在短期的期望值太高了。所谓“端侧计算”(Terminal Computing)的概念其实并不新鲜了，我们日常使用的电脑、智能手机乃至智能家电都是“客户端”，也都具备一定的算力。以玩游戏为例，常见的游戏方式是把游戏下载到本地、由“端侧算力”运行游戏程序；云游戏则是在数据中心运行游戏程序，计算结果通过串流的方式输出到客户端。到底哪一种方式更优越？考虑到网络串流有延迟，在客户端硬件条件较好的情况下，大部分人会首选“端侧计算”。

但是在生成式AI方面，情况明显不同：绝大部分桌面级电脑的显卡算力不足以执行大模型推理任务，手机算力就更不够了。在当前的主流消费级显卡当中，只有英伟达的RTX系列可以胜任一定程度的推理任务，所以英伟达正在推广“基于RTX的桌面AI推理”；可是RTX对一般消费者而言还是太贵了，只有游戏发烧友买得起。何况，英伟达推广桌面推理的主要对象并不是消费者，而是轻量级的专业开发者。

在全球范围内，已经有多家手机厂商提出了“AI手机”的概念。不过，迄今还没有一家主流手机厂商推出过具备完整的“端侧AI算力”的手机。严格地说，“AI手机”不一定意味着要通过端侧算力进行AI推理；手机厂商完全可以租用大量云平台算力，或者自己储备一批算力，专门用于解决自身用户的AI推理需求——苹果可能正在做这样的事情。除了算力，手机厂商还有很多可以做的事情，包括推出自己的大模型，基于大模型开发更好的聊天应用和生产力工具，把AI与手机的硬件功能更紧密地结合起来，等等。算力固然很重要，但算力不是全部。

不过，如果手机厂商非要尝试把算力下放到端侧，又该怎么做呢？我们知道，为了降低耗电量和发热量，智能手机采用的都是低功耗的ARM架构芯片。英特尔曾经尝试把x86芯片用于手机，以惨败告终。现在ARM也可以胜任复杂的计算任务了，英伟达在2023年推出的Grace CPU就是基于ARM架构；但是，用于数据中心和桌面工作站的ARM芯片，其功耗水平还是手机端完全无法接受的。在现有技术条件下，硬要为智能手机设计“端侧推理芯片”，得到的恐怕只是推理能力孱弱、功耗远高于一般水平的四不像。

算力究竟应该放在云端还是终端，是由具体需求决定的。在游戏场景中，用户对传输延迟的忍受程度很低，所以云游戏至今没有成为主流。而在生成式AI场景中，到目前为止，用户对传输延迟不太敏感。因为AI大模型推理本身消耗的时间就很长了，网络传输所消耗的时间压根算不了什么。哪怕我们真能在手机上搭载专业级的推理芯片，从而节约几十毫秒的传输时间，用户可能根本就感受不到；我们如何说服用户为自己感受不到的功能付费呢？

因此，五到十年乃至更长的时间以后，完全可能出现端侧算力和云端算力同时承担AI推理任务的情况。我们的电脑、手机、汽车、智能电视乃至扫地机器人都会具备一定的推理算力。至于这些端侧算力究竟要强大到什么地步？推理算力在端侧和云端究竟会以什么比例分配？那就完全无从预测了。

这就是消费电子厂商的困境所在：它们对未来毫无头绪，不知道该采取什么动作，还是该安静地等待一阵子。这也是2023-2024年苹果在硅谷科技巨头当中股价表现较差、失去市值最大公司地位的根本原因。

从这个角度讲，还是A股机构投资者具备天然优势——他们不需要真正理解世界上发生的任何事情，只需要沉浸在自己（以及上市公司）营造的幻觉之中，就可以一路遥遥领先，创造神话。至于这种遥遥领先是如何把他们带到灭亡边缘的，那就是另一个故事了。

本文摘自互联网怪盗团新书《巨浪：生成式AI的史诗与现实》一书的第五章，有删节。原书第五章题为《算力战争》，全面描述了英伟达、台积电等芯片产业链巨头在算力经济中的地位，以及全球AI算力紧缺的原因和发展态势。

大模型厂商，寻找赚钱“搭子”

2024-08-15aigc阅读(80)

当被誉为“不沉之船”的泰坦尼克号接近冰山时，瞭望员只能看到露出水面的部分，冰川大部分体积仍隐藏在水面之下。

AI行业亦是如此，水面之上是风头正盛的大模型新秀，零一万物、月之暗面、百川智能近期接连被曝融资。截至目前，国内已有三家大模型创业公司估值水平达到200亿元以上。

融资是闯入大模型游戏下一关的筹码，但资本也将这些当红“炸子鸡们”置于烈火上烤，被迫加快项目进程和商业化的步伐。或许用不了多久，他们便不得不面对一个残酷的现实：一旦钱烧尽，靠什么活下去？

“大模型只有两个梯队，OpenAI和其他，用国内任何一家大模型都一样”，多位AI行业从业者谈道。

于是，才有了水面之下的合纵连横。

以阿里、腾讯为代表的大厂，一面以投资的方式押注大模型公司，一面又以ToB项目制的方式与创业公司合作交付；以智谱为代表的大模型公司，一边做底部通用大模型，另一边投资下游孵化AI应用；初创公司则更加灵活，游走在大厂和大模型公司之间。

“大模型厂商、互联网大厂、PC厂商都是我们的投流渠道”，“我们和大厂充分合作，解决客户的问题”，AiPPT.cn创始人、CEO赵充和未来式智能联合创始人、COO邹阳分别表达了相似的观点。

大模型战场表面争得头破血流，但实则是一场没有硝烟的战场，进入下半场，玩家都在抱团取暖。以及在牌桌留到最后，如何在新生态尚未成熟就提前占据一席之地。

一、遍地都是Agent

“卷模型没有意义，ToB能马上商业化，基本不用烧钱。”

进入今年，朱啸虎式的大模型论断被越来越多人接受。市场上的创业者们大多抛弃了幻想，把落地和赚钱作为了首要目标。

今年2月，一场最高行政级别的“人工智能专题推进会”召开，会上十家中央企业签订倡议书，“将主动向社会开放人工智能应用场景”。诸如此类的政策让AI公司看到了希望，政策支持意味有预算，能直接转化为营收。

据给力讯息和非凡产研联合发布的《2024年上半年中国AIGC行业商情报告》显示。2024年上半年，大模型中标数量共计207个。其中，国有企业占据了主导地位，共计126家，较去年全年相比，上半年增长110%。国有企业累计中标金额连续两年最高，2024年上半年累计中标金额3.7亿元，涉及众多行业和领域，如能源、交通、通信、金融等。

光子星球了解到，国有企业和政府及事业单位应用最频繁的场景有：知识库问答、招标书写作、报告写作和合同审核等。

为了能让大模型落地到国企当中，诸多创业公司都瞄准了Agent。在上个月，给力讯息主办的AIGC应用商业峰会上，做Agent的企业就占据了80%以上。

未来式智能邹阳认为，可以把Agent视为大模型应用落地的一种框架，其作用是能在客户的真实业务场景跑通，并产生价值。实际落地过程中可能会涉及多项复合性技术，大模型提供理解和推理能力，基于RAG的知识库承载生产过程中显性的知识，构建Workflow充当隐性可复制的经验，模拟专家的思考链路。基于此，一个可落地的行业数字专家便诞生了。后面再通过调取API、执行RPA流程等就可实现全自动化执行。

沿着上述思路，市面上涌现出了各类型的Agent公司，比如做AI医助的全诊通，做能源、保险行业的未来式智能，做RPA的实在智能以及做小说、长文本的波形智能等。

这些ToB公司基本遵循了一个法则，从行业到场景再到产品。对于ToB而言，唱得好不如做得好，Agent公司为了尽快打开市场，积累case经验，往往会遵循“标杆效应”法则。

邹阳讲述，他们的第一个客户是某省级电网公司，在了解完其需求后，利用其公司灵塔Agent PaaS平台的先进生产力，极短时间内针对客户的核心业务诉求实现了合同审核核心场景的Demo，并推进后续成功合作。

同样利用Agent PaaS平台的优势，可以快速基于客户业务场景进行需求实现，比如复杂的知识库问答（支持多模态、多库编排、动态数据NL2BI）、复杂制式文档写作等知识加工流水线的工作场景。邹阳表示，“大型国企、央企业在各地有很多分支机构，业务模式总部集团有SOP要求，突破一个场景可以在各地区迅速做规模化复制。”

在医学领域，全诊通CFO潘守翔说，团队经常被问“某某Top医院有没有用”，所以在推行AI病历的初期就选择了虽然难度更高，但市场潜力更大的“先大型医院，后中小医院”的策略。

潘守翔介绍，去年年底在产品刚有雏形的时候，他们就在浙江大学医学院附属邵逸夫医院试点，“先上了几个科室测试准确度和速度，后来范围扩大到整个门诊所有科室”。在试点了四个月后，进一步向同级的超大型医院推广，又过了三个月，产品趋于稳定后，才再向全国范围推广。截至目前，全诊通已经覆盖了全国40多家一线医院。

二、大模型战场无硝烟

Agent创业公司切ToB，不可能大包大揽，本着追求极致投入产出比的原则，他们会优先考虑与生态中的玩家合作。

市场上各类关系错综复杂，最直接的便是投资与被投资关系。首先是大厂主导了明星大模型公司的投资，阿里最为活跃，把“大模型五虎”（百川智能、智谱、月之暗面、MiniMax、零一万物）投了个遍；腾讯也在加快投资节奏，不仅首次投资月之暗面，还赶上了百川智能、智谱的新一轮融资。

如今，动作布局最像大厂的智谱也开始投资上下游。据不完全统计，截至目前为止，智谱至少参投了十四家AI初创公司，尤为偏好清华系出身的创业者。近期，智谱也是动作频频，先是联合出资2.6亿元成立投资基金，后又举办了首届创业路演活动。

即使是最直接的投资，大模型厂商和大厂之间还是难免存在竞争，比如站在许多做应用的创业公司角度，就会面临选择百度文心还是智谱等模型的问题。但创业公司却可以充当润滑油，以多重合作身份游走在大厂、大模型厂商中间。

一个典型的案例是AiPPT.cn，其股东是智谱，出现在了智谱的路演名单上。除此之外，该公司前后还与百度文心一言和月之暗面达成合作。

AiPPT.cn主打“一句话生成PPT”功能，于去年8月上线，到11月就实现了百万元收入。6月AI产品榜单数据显示，平台月访问量超过500万，跻身国内AI产品总榜前十。

爱设计&AiPPT.cn创始人/CEO赵充告诉我们，他们对外的合作模式主要为“互相调用API”。即智谱、月之暗面、百度底层开放给AiPPT.cn大模型的API，反过来，赵充再把AiPPT的API开放给上面大模型厂商来用。

AiPPT.cn的功能曾以插件的形式嵌入百度文心一言，最近又以“Kimi+”的形式嵌入到了Kimi智能助手。赵充坦言，“大模型厂商如同流量入口，真正落地到工作场景的是应用，彼此之间的生态合作是必然趋势。”

（图源：Kimi 智能助手）

无论是创业公司还是大模型提供方，本质上，双方都在弥补不足。

邹阳在拜访客户常常听到的一句话便是：“你不要讲PPT了，我们已经被各种PPT教育了很多次了，我们的业务需求就是这些，你能做就直接上干货吧”。邹阳告诉光子星球，他非常认可朱啸虎的“一面成交”理论，当用户看到我们提前准备的Demo眼睛立马就亮了，笑着说“这就是我要的东西”的时候，是他最有成就感的时刻。

对未来式智能这样创业公司来说，承担了技术到落地的中间角色。大厂或模型厂商就像是超市，里面摆满了各式食材，邹阳和团队需要先从超市里采购食材，再把菜炒好端到客户的餐桌上。

“现在跟大厂和模型厂商的合作非常融洽，他们提供成熟的平台级产品，但对客户不能直接用。所以我们去完成这最后一公里，通过我们的Agent平台的高效生产力去解决客户业务问题”，邹阳说道。

截至目前，未来式智能已经与腾讯、阿里、火山引擎和智谱等多家厂商达成了合作。腾讯为其牵线了第一个标杆客户，与AiPPT一样未来式智能也出现在了智谱的路演名单上，同时也是火山引擎重点推荐的Agent ToB产品。

三、互搭“顺风车”赚钱

大厂、大模型公司和初创公司互相合作，现阶段无非是想获得更多的用户以及营收。这里面涉及到两个问题：自己怎么赚钱以及怎么和生态合作伙伴分配利润。

大模型甩卖至“白菜价格”，对做应用层面的企业来说，调用API的成本就会非常友好。今天的大模型一如当初云计算，越来越成为像水电基础设施的存在。

赵充现场给我们算了一笔账，用AI制作PPT，平均一个PPT有二十页，每页五百字，一套PPT算下来使用token量约在1万。以最极端的情况估算，假设五百万的月浏览用户每人都制作一套PPT，按照智谱官方GLM-4-Air的API报价计算，AiPPT.cn每月需要支付3万元，一年下来仅为36万元。相比于投流营销的价格，企业在大模型上的支出显得杯水车薪。

不过在更普遍的情况下，为了能达成合作，大模型厂商和创业公司都会主动退让一步，除API以外，AiPPT.cn也采用了“带参链接”模式。合作双方都允许对方免费调用API，从大模型厂商导流过来产生的付费用户收入，再进行五五分润。

目前来看，这是一种互利共赢的方式。大模型厂商向创业公司提供底座能力，同时也为后者导流，而创业公司搭上大公司的顺风车，先一起把盘子做大，再分钱。

当然，底层模型厂商也需要连接各个细分赛道的创业公司，通过树立典型案例来证明其大模型基础能力和深耕行业的能力。

全诊通目前是百度智能云在医疗赛道上的优先级合作伙伴，近期刚合作落地了常州一院的医疗AI大模型应用项目。全诊通是早期百度ERNIE Speed模型的内测用户，在盲测过程中，团队发现该款模型的推理能力、相应速度、准确性和语义理解能力都十分契合AI诊疗场景。这同时也让百度找到了模型落地的场景，才有了后面的深入合作。

不同于PPT场景，全诊通调用的token量级较大。医院往往在定价时不能严格限制医院调用次数，只能大致划定调用区间。在其服务的40多家医院里，多家医院门诊量在300万以上。但有了与百度的合作关系，API的调用成本被打到了很便宜的量级，用潘守翔的原话来说，“百度给我们的价格很有竞争力”。

即便如此，仍不可忽略一个事实：目前为止，大模型的吸金能力十分有限。

光子星球综合了解下来，新成立的创业公司无法以单独的名义去接招标的单子，加之业务分工不同，所以往往只能打包进云服务商、通信运营商以及大厂的项目中。大模型应用项目的中标金额跨度很大，从几十万到几千万不等，较其他ToB项目而言，价格偏低。由于市场到现在还没有一个清晰的定价标准，具体每位参与者能拿多少，还要按实际case来定。

“现阶段，公司要想活下去，还得靠其他业务喂养大模型。”

很多创业公司认为趁竞争对手还有限的时候，快速进入市场形成壁垒才是首要，“能产生收入，已是不易。”

爆火毒舌AI每小时赚2.8万！每分钟36个新用户，火遍全球只因改了一句提示词

2024-08-13aigc阅读(63)

爆款AI应用开发者来晒收入了：

每小时赚4000美元！（约2.8万元）

说的就是病毒式传播的“毒舌AI”Twitter Personality，只需输入一个推特用户名，就能得到AI根据历史发言做的犀利点评。

而且只要是公开账号就行，并不需要获取任何权限，除了查看AI对自己的看法，还可以用来恶搞朋友，甚至名人。

比如马斯克是肯定逃不过这一劫的。

首先AI会总结出几个能代表这个人的表情符号：火箭（SpaceX）、电池（特斯拉）、大脑（Neuralink）、金钱、地球、机器人……AI看来是真的懂老马。

下面就开始一顿输出了，马斯克数次推迟赛博皮卡的黑历史、自负的性格都没有放过。

这款毒舌AI最火的时候主打一个刷屏，全球网友不停分享的结果看不过来，根本看不过来。

目前他们已经达到了500万用户里程碑，并在8小时内赚到了22000美元（约15.7万元）。

就在这个能大割特割的关键时刻，作者Kyzo却站出来宣布：我们在GitHub上完全开源。

所有代码、包括提示词都是开源的，你们可以尽管拿走，去创造自己的套壳应用。
我们没什么可隐藏的，是时候开始创造了。

一、创始人紧急求助：不收费就要破产了

“毒舌AI”Twitter Personality构建在低代码开发平台Wordware之上。

如果你消息灵通，前几天就玩到了，那么恭喜你，当时还可以免费试玩。

自从8月7日用户一波暴涨之后，他们就感觉网站流量和大模型token都开始烧不起了。

创始人之一Filip紧急在线发帖求助，请大家帮忙出主意，到底怎么加点收入合适，不然只能遗憾关闭，谁也玩不了了。

他们还想找Anthropic白嫖点Claude API积分，从中也可以看出，他们使用的大模型正是最新Claude-3.5-Sonnet。

然鹅现实根本不会等他们想好主意，疯狂涌入的用户每一秒都能烧掉大量金钱。

最终他们只能简单开启付费墙，并随时调整价格，走一步看一步。

作者Kyzo透露，用户增长过快时他们就开启收费，一段时间后增长不足了就恢复免费，再带来一波病毒式传播。

从收入随时间变化图表上可以看到明显的周期性。

价格本身也是随时动态调整，以及根据不同地区消费能力分别制定的。

发达地区6.99美元玩一次（约50元），消费能力不高的地区定在1美元左右（约7.17元）。

不过如果有人为一个账号付过款了，后来的用户也可以免费直接查看结果。

后来功能更新，还增加了查看两个账号是否合拍的功能，也是50元才能玩一次。

就有点朋友圈“想知道你和ta的缘分指数吗？发送：你的姓名+心仪对象姓名，如：郭靖+黄蓉，并v我50”的feel了。

而且自从在日本火了之后，他们发现日本用户不光真的爱玩这个，而且是真的肯付费，也就在日本的晚间黄金时段达成了4000美元一小时的成就。

那么这款美国AI应用是怎么在日本和全球市场开始流行的呢？

根据Filip分享，最初只因修改了一句提示词：使用该账号大多数推文所用的语言回复。

没有修改代码，没有额外投入宣发。修改一句话就能打开全球市场。

这就是大模型“自然语言编程”带来的魅力吧。

二、背后开发平台Wordware，估值1.8亿

背后低代码开发平台Wordware，可谓是ProductHunt新品发布平台现象级产品，让任何人都可以构建复杂的AI Agent和APP。

其团队成员表示，过去24小时内，平均每分钟就有36.03位新用户注册。不是一个空洞的宣传口径，他们甚至直接晒出了后台数据库查询截图。

上一个在ProductHunt如此火爆的，还是风靡全球的笔记工具Notion在2018年的2.0大改版。

在操作上，Wordware也和Notion一样是模块化的，同样以“一行”为可操作的最小单位，同样熟悉的斜杠调出命令菜单。

用户可在一个编辑器里构建、测试、协作并部署提示词及其相关的逻辑，用简单的文字就能构建app。

Wordware名字与软件（Software）、硬件（Hardware）同源，或许可以翻译为“词件”。

基于Wordware构建的APP则统称为WordApps。

Wordware今年春获YC投资，在YC前估值已达2500万美元（约1.8亿元）。

团队目前只有3个人，创始人Filip Kozera、Robert Chandler，十年前在剑桥因对机器学习和大语言模型的共同爱好成为好友。

团队成员Kamil Ruczynski也经常活跃在社交平台，今年三月份加入Wordware，任增长主管。

俩人都曾在不同领域推出过机器学习产品，在“AI Ops”这个词还没爆火的时候，就开始研究BERT、GPT-2等一些早期的大模型，创建高性能技术栈。

创立Wordware前，Filip Kozera也创过业，共同创立了一家致力于增强人类记忆的公司，名为KRISTALIC，融资超1000万美元。

生活上他的爱好也非常广泛，旅行到过103个国家，并参与过多次高海拔登山救援行动，还参加帆船、滑翔伞、风筝冲浪和拳击等活动。

而Robert Chandler，是英国公司FiveAI的首批工程师之一，领导其离线感知团队。

FiveAI是一家致力于用最新AI技术实现自动驾驶的公司，后来被德国汽车零部件巨头博世集团收购。

2021年Wordware成立，Filip Kozera任CEO，Robert Chandler任CTO。

Kamil Ruczynski曾在哥本哈根商学院攻读建筑技术和建筑管理专业，后辍学。又在SGH华沙经济学院读管理学，两年内完成了三年制课程。

领英显示，Kamil Ruczynski曾在外卖平台foodpanda担任亚太地区高级经理、还在管理咨询公司EY-Parthenon担任过高级战略顾问。

而这次“毒舌AI”Twitter Personality的主要作者Kyzo是一位独立开发者、数字游民，与Wordware官方合作密切。

目前Twitter Personality是整个平台上最成功的应用，以及金字招牌，在谷歌上搜索Wordware就会发现他们把它放在了主页之后的第一个。

点进去之后可以看到，除了试玩之外，利用这泼天的流量给平台宣传放到了同等重要的位置。

只需点击注册，就可以在此基础上直接二次开发。

就这样，爆款应用的全部秘密不过800字提示词+简单的爬虫代码，就这样公开了。‍

或者说只要把产品的想法描述出来，产品也就有了，点击“Run”按钮就可运行。

CEO Filip Kozera透露过去的两年半他和Robert Chandler其实是在逆境中建立起的坚固的伙伴关系，而他们的终极目标是：

彻底改变企业应用AI的方式。

他们坚信领域专家在AI应用开发中的重要性，因为各领域专家知道什么是好的回答，而程序员不知道。

同时他们也提出“AI增强人类能力”，AI能够处理大量数据并识别人类可能忽视的模式，但最终的决策往往需要人类的判断考量，必须让人类参与其中。

事实上这个理念几乎已经是AI圈的共识，早在ChatGPT刚发布的时候，OpenAI创始成员Karpathy就认为，大模型让英语成了一种编程语言。

到了2024年，英伟达创始人黄仁勋也在公开场合发表“人类语言是最新的编程语言，世界上的每个人都是程序员了”这样的观点。

有网友评价Wordware正是老黄这个理念的产品化体现。

试玩地址：https://twitter.wordware.ai

参考链接：

[1]https://x.com/ky__zo/status/1822187239117308264

[2]https://www.ycombinator.com/companies/wordware

[3]https://x.com/kozerafilip/status/1820957760458281317

[4]https://www.youtube.com/watch?v=S0FQiqVQkVM

深度｜吴恩达最新 Ark Invest 洞察：AI 基础模型竞争激烈，训练成本每年下降75%，推理下降86%，大厂优势难长期保证

2024-08-11aigc阅读(57)

近日，吴恩达（Andrew Ng）与 ARK Invest 首席投资策略师 Charlie Roberts 以及首席未来学家 Brett Winton 展开了一次对谈，吴恩达分享了关于 Agent Systems 和开源技术的一些极具启发性的观点。

吴恩达表示，他对 Agent Systems 的高度信心，认为这些系统不仅已经出现，而且在技术层面几乎没有太多的风险，主要挑战在于如何有效执行。

此外，他认为开源所带来的优势远远超越了潜在的风险，引用 GPT-2 的例子来说明，即使当初被认为太危险而无法公开的技术，如今却被广泛应用，证明了开源在推动技术进步中的巨大潜力。

吴恩达还特别强调了分销渠道在 AI 系统部署中的关键作用。他指出，拥有强大的分销渠道不仅能够加速系统的发布，还能在实际应用中快速验证和改进这些系统，这对于 AI 技术在商业化进程中的竞争优势至关重要，也预示着在未来，渠道的有效性可能会成为决定 AI 技术成败的关键因素。

ARK 预测，到 2030 年 AI 软件将会是一个 13 万亿美元的收入市场，相比之下，但今天的整个 IT 支出大约为 4～5 万亿美元。

吴恩达最新 Snowflake DevDay 演讲：除了下一代基础模型，Agent 工作流如何推动更多 AI 进步？

吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式，相比 LLM 更强调迭代与对话。

以下为这次对话的主要内容：

Charlie Roberts

Andrew 是 AI 领域最具影响力的研究人员和教育家之一，他在多个高调的角色中都取得了巨大成就，如 Google Brain 的联合创始人和领导者、百度的首席科学家、 Coursera 的联合创始人，以及在 Coursera 上教授了许多最受欢迎的课程，同时还是 AI Fund 和LandingAI 等多家公司的联合创始人和董事。

我觉得最让我感动的数据是你告诉我，全球每千人中就有一人参加过你的 AI 课程，这对整个社区和生态系统来说都是一个巨大的贡献，真是令人鼓舞。所以，我很高兴能够与你讨论 AI 的未来和其他相关话题。

Brett Winton

非常高兴见到你，我想或许可以请你从概述一下你对当前 AI 发展阶段的看法开始。关于 AI 的讨论很多，其实已经有一段时间了。

有人说 AI 遇到了瓶颈，或者我们在性能上的进步不会带来实际的生产力提升。你怎么看目前 AI 的能力和未来的发展轨迹？你如何评估这个问题？

Andrew Ng

在过去的 10～15 年里，总有少数声音在说 AI 遇到了瓶颈，我觉得这些说法一次又一次地被证明是错误的。我们距离碰到瓶颈还很远，我甚至惊讶有人在这个时候会认真这么说。

AI 是一种通用技术，它的发展已经非常迅速，现在有一些新的突破即将出现，未来我们将看到 AI 在多个领域的应用快速增长。

目前，大家对生成式 AI 和 LLM 非常关注，我们已经能够让这些模型完成的任务，远远超过了目前已经部署的内容。很明显，更多的推理能力、更多的 GPU 或其他类型的硬件是将更多 AI 推向世界的瓶颈，这个问题我们知道将会得到解决。

为了供应链、 GPU 和其他硬件的供应，有非常强的经济动机来解决这个问题。因此，即使 AI 不再发明任何新技术，在未来几年中 AI 的部署量仍会大幅增加。

当然，更好的消息是，还有更多的新技术正在研发中，并将叠加在现有技术之上，推动未来更多的应用。

Brett Winton

总结一下，你的意思是我们现在拥有的能力实际上还没有真正进入商业市场，所以仅仅通过部署这些能力就能带来大量的生产力提升。此外，在技术架构方面的改进还会进一步提升能力，这是正确的理解方式吗？

Andrew Ng

是的，事实上，我与一些有想法甚至是已经开发出原型的人交谈过，他们希望通过 AI 实现显著的投资回报率，但由于各种原因，他们无法获取 GPU ，或者成本有点高，或者他们没有足够的软件工程师来实现这些想法，所以这些项目还没有真正落实。

因此，已经有很多经过验证的想法可以带来显著的投资回报率，但由于硬件限制或其他原因，这些项目还没有被部署。我百分之百相信，未来一到两年内，这些问题将会得到解决，这就是为什么我对未来将有更多有价值的 AI 项目感到非常有信心。问题在于如何获取和部署 GPU ，以及解决供应链问题。

一旦这些问题得到解决，更多的项目将会落地。我对即将到来的技术感到非常兴奋，比如 AI Agent 或我们称之为 Agentic Workflow 的技术。现在很多人使用的 LLM 的方式是，你输入一个提示，它输出一个结果，然后就结束了。这就像让一个人写一篇文章，但要求他一次性完成，不允许使用退格键。

当然，人们可以这样写作，但我们最好的写作并不是这样完成的。我们更倾向于使用迭代的工作流程，比如在线写作，先写一个初稿，然后进行编辑、研究等等，这是一个更加迭代的过程，可以帮助人们交付更好的工作成果。Agentic Workflow 也类似，它能显著提高很多 AI 应用的准确性。

当然， Agentic Workflow 的一个瓶颈是我们需要更快的推理能力，因为你需要多次调用它，反复迭代产品。然而，许多人正在努力解决这个问题，我非常有信心，随着更好的硬件上线，这些工作将会得到更大的改进，不仅在 AI 训练方面，而且在 AI 推理方面，更多的工作将会完成。

我受到你们的报告的启发，其中你们估计训练成本每年下降 75%，推理成本每年下降 86%。虽然我不确定这些确切的数字是否准确，但我确实看到成本在迅速下降，这对于进一步的创新是非常有利的。训练和推理成本的下降将会推动更多的应用。

Brett Winton

是的，我们的基本观点是，不仅成本在下降，还有大量投资资金涌入，因此你将成本下降和投资资金相结合，最终在两到三年内预期能力提升一百倍甚至一千倍。

你认同像 John Locond 所说的那样，系统在运行时会有一定的错误率，即使是 Agent Systems ，这个错误率会随着时间的推移而累积，实际上你正在处理的工作流程越长，生产力就越会受到影响，因为错误在累积。

你认为在当前的架构下，这个问题是可以克服的吗？还是我们需要新的架构来让 Agentic Workflow 真正稳定地工作？

Andrew Ng

如果你在做开放式工作流，那么是的，每一步都需要完美无缺，但是一旦你实现了 Agentic Workflow ，你就可以回顾步骤并修复错误，那么累积问题就会大大改善。举个例子，我曾经设定了一个非常简单的 Agent 来进行在线研究，它的任务是撰写一份报告。

我记得我在斯坦福大学做现场演示时，由于某些原因，那个时候调用的网络搜索失败了，我当时心想“糟糕，演示要失败了”，但出乎我意料的是， Agent 说“网络搜索失败了，让我用维基百科搜索代替吧”，而我完全忘了我还给它设置了维基百科搜索的备用方案。所以， Agent 在面对失败时能够自主切换到备用方案，演示仍然成功了。

Agentic Workflow 虽然不是魔法，也会犯错，但它们有能力在出错时回顾并修复，这使得系统更加稳健。我不想过分类比 AI 和人类，它们有很大不同，但就像人类一样，我们在做事情时第一次可能不会成功，但我们有反思和修复的能力，这使得人类在执行任务时更加稳健。AI Agent 也能够做到这一点。

Brett Winton

你认为要实现真正的 Agentic Workflow ，我们是否需要一个像 Transformer 那样的架构级别的改进？还是说可能通过有效结合现有的工具，比如 LLM，加上强化学习，甚至可能再加上扩散模型，已经足够了？你觉得目前这些工具能帮助我们实现这一目标吗？

Andrew Ng

Agentic Workflow 在现有的 Transformer 模型下已经工作得很好了。我知道有研究人员在探索 Transformer 替代模型，这些模型很有前景，值得进一步研究和测试。虽然拥有更好的模型会很棒，但我并不认为这是绝对必要的。

然而，有一个方面被低估了，那就是快速推理和快速生成控制的能力。直到最近，很多大公司都在花费巨额预算购买 GPU 用于训练，这很好，因为它为我们带来了大规模的基础模型，包括专有和开源的模型。

但我发现，快速推理的能力正成为许多应用的瓶颈。当 Meta 发布 Llama 3 70B 模型时，这是一个非常出色的开源模型，如果我们能将推理速度提高 10 倍，我们就能让这些 Agentic Workflow 运行得更快。

对于人类来说，阅读速度大约是每秒 6 个 token ，所以你不需要生成比每秒 6 个 token 更快的内容。但对于 Agentic Workflow 和 AI ，可能需要草拟草稿并修复错误，这意味着它需要生成大量的 token ，可能需要在人工干预之前完成大量工作。

有时， Agentic Workflow 可能需要花费 25 分钟的时间来处理工作，如果我们能将这 25 分钟的处理时间压缩到2分钟，这将是一个改变游戏规则的突破。

这会显著改变客户体验，从20到25分钟缩短到1到2分钟，因此在快速生成 token 方面还有很多工作要做，这将有助于推动下一波 AI 的应用。

Brett Winton

这些工作与训练密切相关，对吧？AI 推理和训练中的一个有趣动态是，如果我在系统上投入更多的训练资金，像 Meta 正在做的那样，我可以将更多的信息压缩到一个更小的参数模型中，从而可以更快、更便宜地运行。

这使得性能提升和成本下降同时发生，这就是一个有趣的动态，这取决于你在训练计算上投入了多少资金。

Andrew Ng

是的，这些都会有所帮助。即使你使用一个大型模型，比如一些商用网站上的 LLM 可能每秒生成 10 个 token 左右，这个速度已经非常快了。

我们大多数人每秒阅读大约 6 个 token ，所以每秒 6～10 个 token 的速度已经足够了。虽然模型不同，但我们可以生成更多的 token ，而且有些公司也在生成每秒数百个 token 的内容。还有一些公司在私下里分享说，他们也在开发便宜且超快的 token 生成技术。

这些公司的工作将解锁许多新的能力，而这种超快的 token 生成技术，每秒超过100个 token 对于大模型来说是非常重要的，这让我们能够做出非常复杂的事情。我实际上很高兴看到更多的半导体制造商认真对待推理，因为推理现在是很多应用的瓶颈。

另一个有趣的现象是，一些大公司完全合理地投资了 GPU 基础设施用于训练，他们拥有非常出色的 GPU 团队，建立了卓越的训练基础设施，然而，这些团队也倾向于说“我们已经建立了最佳的训练基础设施，那么我们也来建立推理基础设施吧”，因为他们在训练方面做得很好，所以自然就去做推理了。

但是，我们现在应该认真思考，训练和推理基础设施是否应该是同一套基础设施？还是说它们之间有足够的差异，甚至需要新的架构？这是一个值得讨论的问题。

Brett Winton

当然，如果是在终端设备上，它们肯定是不同的，对吧？例如，如果我要在特斯拉车辆中安装芯片，这就是完全不同的架构栈了。你可以辩称，从消费者的实用性角度来看，有很多令人信服的理由说明为什么有些甚至大部分的处理应该转移到终端设备上。

Andrew Ng

是的，在设备上的确如此，即使是在云端，训练和推理工作流之间也存在足够的差异，这值得我们从架构和软件堆栈的角度进行思考。

Brett Winton

Andrew ，在教学方面，你的一大贡献之一就是强调人们和开发人员在学习机器学习时需要关注 MLOps ，不仅是研究方面，还有实际应用。我想知道，在 MLOps 中，你是否看到未来有可能将推理与训练分开进行的趋势？

Andrew Ng

是的，因为 LLM 应用还是很新，所以 LLM Ops这个领域还在探索阶段，如何构建、部署和维护 LLM 仍然是一个相对新的领域。

AI 堆栈正在发生巨大变化，云服务提供商正在推出有趣的编排层，比如 Harrison Chase 在 LangChain 上做得很好，Jerry Liu 在 LlamaIndex 上也做得很好，这些都是编排层。

还有其他应用程序构建在这些基础之上，另一个即将出现的有趣框架是 Agentic Framework，这可能是另一种编排层。

我花了很多时间在应用层，因为我发现有很多机会，比如在 AI Fund，我们与企业合作，他们带给我们很多用例，我们环顾四周，发现几乎没有竞争对手。这说明在应用层面仍然有很多新机会，而且竞争没有基础模型层那么激烈。

Brett Winton

对于那些应用层面的公司，他们如何思考自己接入的底层模型，比如基础模型？他们是选择使用现成的 GPT-4 ，还是会设计成能够切换到另一个基础模型？或者他们会对 Llama 进行微调？你怎么看待应用层面在竞争中的策略，以及它将如何影响底层堆栈的竞争？

Andrew Ng

这个领域变化非常快。在很多项目的初始阶段，团队往往会使用 GPT-4 ，最近几周， Llama 3 变得越来越有竞争力，我听到很多团队使用 GPT-4 ，这在当前是最常见的选择。

但一个瓶颈是评估，开发成本和时间比以前大大缩短，你可以在一天内构建出一个有吸引力的应用程序，但评估可能需要花费更多的时间，这使得人们不太愿意切换模型。

如果你开始使用 GPT-4 ，但无法有效评估其他模型，你可能会继续使用最初的选择。但我看到很多人正在努力开发更好的评估工具，以便更高效地比较不同的模型。

Brett Winton

我们对 Claude 的发展感到非常兴奋， Claude 是我们从风险投资基金中最早投资的公司之一，我们与公司保持密切联系，非常看好它的前景。

您对当前关于开源的讨论有何看法？这似乎是一个非常两极化的讨论，尤其是在数据科学和机器学习领域，许多人对这个问题有非常强烈的看法。

Andrew Ng

开源非常重要，我们应该尽力推动开源，因为它会让世界变得更好。我对去年反对开源的强烈游说活动感到非常惊讶，这些活动实际上会扼杀美国的创新，也会压制全球的创新。

你可以理解，当有人在大规模训练基础模型上投入了数十亿美元，然后发现其他人通过开源稀释了这些昂贵投资的价值，这让他们感到非常沮丧。游说活动开始时的主要论点是 AI 可能会失控并关闭系统，这一论点在华盛顿特区失去了信誉。

游说者没有放弃，他们转而声称 AI 可能会被用来制造生物武器，但随后出现了报告显示， AI 并不比电子表格更容易被用来制造生物武器。

AI 不太可能制造生物武器的恐惧并没有得到证实，这让生物武器的论点失去了很大一部分信誉。

然而，游说者没有放弃，他们现在的论点是国家安全问题，认为开源可能会让欧洲竞争对手受益。我对这些游说活动的力度感到惊讶，他们不断改变论点以推动关闭开源的议程。

开源是全球 AI 技术供应链的一部分，它反映了各国的价值观。例如，很多国家使用 Google Docs ，而 Google Docs 在共享文档时非常容易，但它在锁定文档时相对较难。这反映了 Google 内部开放的文化。

而 iMessage 的端到端加密则反映了注重隐私的价值观。每个国家的技术往往会反映其价值观，如果民主国家不参与 AI 的供应链，那么其他国家将会填补这一空白。

Brett Winton

撇开对开源的监管压力不谈，你认为在未来的状态下， Meta 投下数十亿美元训练这些模型并将其公开发布的努力，是否会削弱封闭的 LLM 基础模型类玩家的经济效益？这是否会对 OpenAI 和 Anthropic 等公司的商业盈利能力构成威胁？

Andrew Ng

目前，在基础模型层面确实存在挑战。根据你们的报告，成本每年下降 75%，这使得保持领先地位变得非常困难。

令人沮丧的是，你可能花费了 1 亿美元来训练一个模型，但一年后，竞争对手只需要 2500 万美元就能做到，接着再过一年，这个成本可能又会下降四分之一。那么这种情况下的动力在哪里呢？

不仅仅是纯粹的基础模型层面，其他层面可能会有所不同，也许对消费者来说会有所变化。今天来看， LLM 的成本优势非常明显，或许有些问题需要重新审视，但变化不大。

我们会看到这些技术的进一步发展，未来可能会有其他技术组件来增强基础模型的竞争力。如果只看基础模型，而没有其他内容，我不知道这种模式能有多大的护城河。

Brett Winton

你认为 Meta 之所以能够进入这个领域，是因为在 ChatGPT 推出之前，团队乐于公开他们的研究成果，他们会说“这是我们的配方，这是我们构建它的方法”，有一种公开的精神。即使模型是封闭的，它们也是出于安全原因而封闭的，并且共享了架构和方法。

随着 GPT-4 的推出，情况发生了变化，现在人们不再愿意公开分享他们的方法。所以，是否有更多的机会让团队之间的性能差异更加明显，因为现在这些配方不再公开共享了？

Andrew Ng

各个公司之间的人才流动和想法传播仍然很强烈，因此很难长期保守住秘密。你可能会在短期内获得一些优势，但长期来看，防御性的作用不大。

我看到的情况是，在大科技公司之间的竞争中，尤其是在 AI 和云业务方面，确实可以获得短期优势，但长期优势我不确定能否持续。

你提到人们以安全的名义保守秘密，这确实很有趣。在过去的十年中，每当有人说“我的技术太危险了，我要保密”时，通常过了一两年，类似的技术就被开源了，而且带来的好处远远超过了潜在的危害。

我并不是说没有危害存在，确实有一些不良分子利用开源技术，但总体上，每当有人说“我的技术太危险了”，通常过不了多久就会有开源版本出现，而开源带来的好处远远超过了潜在的危害。

以 Llama 3 为例，最初的版本有一个有限的上下文窗口长度，但因为它是开源的，现在开发者已经修改了 Llama 3，扩展了它的上下文窗口长度。我们无法在封闭模型中实现这一点。所以开源创新的力量非常强大。我们现在能够以非常低的成本提供这种恐惧感，这是开源带来了大量的创新。

Brett Winton

Llama 开源的商业逻辑并不神秘。实际上，我看到 Meta 在开发 PyTorch 时也采取了类似的策略。Meta 意识到自己需要一个开源的平台来构建业务，而不是依赖于竞争对手的专有平台，比如 TensorFlow 。

Andrew Ng

是的， Meta 对依赖其他平台的敏感性并不令人意外。例如，当 iOS 更改其隐私规则时，这会影响 Meta 的业务，因为 iOS 是一个专有平台。

当我的前团队在 Google Brain 开发 TensorFlow 时，我们实际上雇佣了 Reggie Monger，他是一个出色的领导者，负责开发 TensorFlow 。

Reggie 和我都是出色的工程师，当你意识到主流的深度学习开发平台可能会被竞争对手的专有平台控制时， Meta 的做法非常聪明。

Meta 没有试图拥有这个平台，而是创建了开源的 PyTorch ，随后它获得了大量的动能，并且大大降低了被其他人控制深度学习平台的风险。

由于 Meta 并没有运营大型云业务，因此它只需要一个开源的平台来构建社交网络和通信业务。

从商业角度来看， Meta 确保有一个开源的基础模型和生态系统是非常理性的，因为这样一来， Meta 就可以在此基础上进行构建，而不必担心依赖于封闭的平台，比如 iOS 可能在某个时候改变规则。

因为 Meta 没有运营大型云服务，所以它没有动机保持封闭状态以销售 API 调用。总的来说，这是一个非常理性的商业决策。但这也不影响我们对 Meta 开源这一宝贵举动的感激之情，即使它背后有着非常合理的商业模式。

Brett Winton

你认为对于 AI 应用公司来说，比如某家公司如果设计的能力水平达到了 GPT-4 的水平，那么他们其实可能是在犯一个大错，因为我们很快就会有更强大的能力，也许就在今年或明年。

那么，你是否预见到这样的战略格局：OpenAI 推出非常有意义的进步，然后其他公司大约六个月后才跟上？在 AI 应用方面，这种技术进步的速度是否会改变你对可能具有商业化潜力的 AI 应用的看法或做法？

Andrew Ng

听起来这是一个很好的领导者，自从他还是本科生时，我就认识他了。他当时在我父亲的实验室工作，很久以前的事了。我非常尊重 OpenAI 的一点是，他们在推动 AI 方面非常积极进取。他们确实很大胆，做出了很多赌注。

当你这样做时，并不意味着每一个赌注都会成功，但只需要少数几个成功的赌注，你就可以取得巨大的成果。所以 OpenAI 确实在做很多不同的事情。

我不想猜测他们所有的计划，但我确实认为训练基础模型是非常重要的，我很期待看到 GPT-5 的发布，我确信它将比 GPT-4 更强大得多。但我也相信，GPT-5 仍然会有很多事情做不到，很多其他应用仍然需要在它之上构建。

我的团队做了一个小研究，表明在编码问题上使用 GPT-3.5 与使用 Agentic Workflow 的 GPT-4 相比， GPT-3.5 的表现其实更好。所以虽然从 GPT-3.5 到 GPT-4 的进步非常令人兴奋，但使用 Agentic Workflow 带来的改进实际上超过了这个进步。

我非常乐观地认为，不管是 GPT-5 还是 Gemini 2，当它们发布时，我都很期待它们的表现，但我也相信，现有模型的 Agentic Workflow 和其他创新仍然能在解决非常有价值的业务问题和应用问题上走得很远。

Charlie Roberts

关于这个问题， Andrew ，我记得你多年来对医疗保健非常感兴趣，我相信你家里也有医学背景的人。

Mustafa Suleyman 在他的书《 Becoming Human 》中提到了他对现代图灵测试的看法，他举的例子是，如果你能给一个 Agentic 系统 10 万美元，并让它生成 100 万美元的年收入，这将是一个令人惊叹的成就，比如它需要去设立一家公司，编写营销计划，并开始执行这些任务。

你有没有想过，无论是在医疗领域还是其他领域，有没有一个现代版的图灵测试是你希望看到的，可能在不久的将来 Agentic 系统能达到的目标？

Andrew Ng

AI 和人类智能是非常不同的。两者都非常有价值，我们总是试图将 AI 与人类可以做的事情进行比较，这没什么坏处，但，由于人类智能如此独特，实际上很难让 AI 做所有人类可以做的事情。

当然，我们希望 AI 能够做到，希望我们有生之年能看到这一天的到来，但即使在我们试图让 AI 达到人类水平之前， AI 已经能够在很多领域远远超越任何一个活着的人类，这本身就具有巨大的价值。

所以我更关注的是一步步的进展，这种进展正在非常迅速地发生，这个进展包括 AI 能够做的事情的范围，以及各个行业的应用，而不是仅仅试图达到某种类似图灵测试的标准。当然，对于研究人员来说，这样的测试也是很好的研究方向。

Brett Winton

最终来说，基准测试有用之处在于它们能够指示某种可以商业化并大规模应用的实际应用，这样才能变得真正有意义和现实化。而你非常专注于将 AI 带入市场的实际应用。

你对语言生成之外的应用有何看法？你怎么看待语言以外的应用，比如机器人技术、自动驾驶出租车和医疗领域？你对这些领域的进展速度有何期待，你认为这些是值得关注的领域吗？

Andrew Ng

我们正在朝着那个方向前进。文本革命首先通过 LLM 到来，但我看到图像处理革命也将随后到来。我指的不仅仅是生成图像，而是分析图像。

比如，LandingAI 正在进行关于大型视觉模型的工作，在未来很短的几年内，我们将在 AI 分析图像的能力上取得很大进展。不仅仅是文本分析，图像分析也会迅速发展。

至于应用和 AI Fund 所涉及的领域，我们实际上试图保持行业中立。因此，我们重新设计了我们的战略，目的是通过视觉表达 AI 技术。我们知道 AI 的能与不能，但由于 AI 是一种通用技术，适用于医疗保健、金融服务、物流、教育等多个领域，我们无法同时掌握或关注所有这些领域。

因此，我们在 AI Fund 中的策略是，我们非常喜欢与拥有专业知识的企业合作，这些企业通常是我们的 LP，也可能不是LP。

我们与拥有深厚行业专业知识的大型公司合作，这些公司在特定领域有深厚的市场知识和技术知识，我们通过合作，共同开发出一些非常独特的东西。

我们确实在医疗保健领域有所涉足，这是我们的一个示例。在我们最近的医疗保健项目中，我们与在某些地理区域拥有深厚专业知识的合作伙伴合作，他们不仅在市场和市场进入方面有深厚的知识，而且还能与我们的技术知识相辅相成，让我们尝试在美国以外的医疗保健市场中构建一些非常独特的东西，因为我们认为这些市场可能更容易首先攻克。

有趣的是，每当我们与大型公司合作并进行头脑风暴时，我们总是会得到比我们或他们能够实施的想法多得多的创意。创意的数量总是让人既高兴又烦恼，因为它远远超过了我们能够动用的资源。

Charlie Roberts

从你在 AI Fund 中的经验和与大型企业的对话中，你对 AI 的应用和商业案例有着非常深刻的理解。

在未来五年内，你认为市场上哪些大问题 AI 可能仍无法解决？反之，哪些大问题可能会因为 AI 的出现而完全消失，而这些问题是市场或大众尚未意识到的？

Andrew Ng

这些变化会需要时间。许多行业的转型都需要时间。在深度学习和 AI 浪潮中，我们正在做很多工业自动化的重复性任务。

众所周知，物质的转移是缓慢的，所以当我们处理涉及到现实世界中物质重新配置的事情时，我们会有所进展，但这通常需要时间。

同样，当涉及到文化变革和内部变革管理时，这种转型也可能出人意料地缓慢。然而，我依然对我们能够帮助许多企业重新思考工作流程的速度持乐观态度。

虽然在改变物质配置时，这可能是一个缓慢的过程，但当涉及到比特和变革管理流程时，有时仍然需要几年时间。

所以，尽管我们已经大幅度地变革了许多知识型工作，每个知识型工作今天都可以通过生成式 AI 获得效率提升，这令人兴奋。而我们也将继续推动这些可能性的发展。

摸着石头过河的具身智能公司，正在寻求“确定性”

2024-08-09aigc阅读(70)

“具身智能注定会成为最具价值的AI应用，未来还可能会改变我们与科技的交互方式。”

2024年5月，英国自动驾驶独角兽Wayve完成了10.5亿美元C轮融资，这也是英国史上最大规模的AI融资，本次融资方除了老股东微软，还有新入局的软银集团和英伟达。值得注意的是，上述正是Wayve联合创始人兼CEO在完成融资当天写下的一句话。

令人好奇的是，为什么一家自动驾驶公司要在融资当天提到具身智能，甚至还极为看好？不仅如此，仔细研究融资方还能发现，在不少具身智能公司里，都有英伟达的身影，比如年初的Figure。

实际上，从自动驾驶到具身智能，每一个前沿AI领域都少不了英伟达的参与。那么，自动驾驶与具身智能究竟有何关系？

如果说，“自动驾驶的存在是取代司机，那么具身智能的存在就是替代整个人类。”当然，这只是跟随如今互联网风格的一种狭隘理解。自动驾驶与具身智能的真正相似之处是，从技术到底层逻辑的相似。而一种更好的理解则是，既然2024是自动驾驶的商业化元年，那么同样地，它也见证了具身智能的“元年”。

据南方都市报统计，从2023下半年至今，与具身智能概念相关的公司，已有12家实现融资。而更夸张的是，华为天才少年“稚晖君”辞职后创立的智元机器人，过去一年时间就完成6轮融资，估值一路飙升至70亿元。

具身智能赛道的疯狂还不止于此，从马斯克到AI知名学者李飞飞，从英伟达、OpenAI甚至到国内几乎所有互联网大厂，全部纷纷涌入具身智能赛道，用脚投票一致看好这个如今AI大模型加持下的机器人产业。

然而，这个看起来波涛的赛道，如今真的如此光明吗？摆在它前方的，究竟是何种机遇和挑战？

一、2024，机器人开始有了人的“身体”

回溯过去70多年人工智能的历史长河中，有几个极为关键的标志性事件，其中一件就发生在70年代的日本。1964年，日本早稻田大学教授加藤一郎开始潜心研究人工下肢，五年时间，世界上第一个双足机器人WABOT-1诞生。

这个当时行走一步要45秒，步伐也仅有10厘米左右的机器人马上就引起了全世界的轰动，要知道，彼时的人工智能才刚刚起步，从操控到感知，一切都还处于探索初期。因此，WABOT-1的问世则也标志着整个人工智能发展史上的一个重要里程碑。

不仅如此，世界上第一个双足机器人在日本诞生后，对于抓住了先机的日本，汽车和电子制造业的崛起也随之而来。而在机器人领域，日本更是占据了整个机器人产业的半壁江山。

尽管早在70年代人形机器人就有了“雏形”，然而从自然语言到操控、感知、决策等等人工智能领域的关键性技术都未有突破，这也导致在过去很长一段时间，关于人形机器人的发展也不得不按下暂停键。

而此后的机器人领域则开始围绕着“非人形”机器人展开，比如工业场景里常见的机械臂。可以说，由“ABB、库卡KUKA、发那科FANUC和安川电机YASKAWA”组成的机器人“四大家族”，地位至今都难以撼动。

如果说当年，世界上第一个人形机器人的诞生对后续的人工智能发展，发挥了至关重要的作用；那么今天，人工智能领域的重大突破，同时也让停滞不前的“人形机器人”产业重新找回属于自己的光环。

据不完全统计，在AI大模型风口上的2023年，单单是以“人形机器人”或“具身智能”概念入局的创业公司就有24家；而到了今年，截至2024年8月，这条赛道共聚集了29家创业公司。

在这其中，不仅有一年内连续融资6次，估值达70亿人民币的智元机器人，更有不少被阿里、腾讯、华为、美团等“选中”的初创公司。

而在过去这一年，资本的疯狂也再一次证明了人形机器人的“觉醒”：据IT桔子统计，2023年中国一级市场机器人行业融资金额达240亿元，单笔十亿元量级以上投资事件约4起。

在2024年世界人工智能大会上，一场“人形机器人盛宴”让其火热程度更加具像化。

而与此同时，在海外，这场盛宴则要更为壮观，从特斯拉的“擎天柱”（Optimus）到今年3月刷屏的Figure AI，再到英伟达的人形机器人通用基础模型GR00T，可以说，对于这些逐梦AI的硅谷科技企业而言，它们对人形机器人的追逐和野心，以及害怕错过（FOMO）的焦虑，无一不暴露在这场盛宴之下。

同样地，作为走在AI前沿的国内科技企业，也并没有人想错过入局人形机器人的最佳时间点。

对此，一些自身有大模型能力的科技大厂，选择的是投资，并以大模型赋能机器人的方式入局这一新赛道，如华为、百度、腾讯、阿里、字节；甚至一些有硬件研发基础的企业不惜重金自研入局，如科大讯飞、小米。

而另一些更聚焦实际场景的科技企业则是用投资的方式，更垂直、也更有针对性地为特定场景打造属于他们的人形机器人，如美团、小米。

2023年，有鹿机器人联合阿里云通义千问共同发布了具身智能大模型LPLM-10B；同年12月29日，人形机器人第一股“优必选”正式登陆港交所，腾讯成为优必选最大机构股东。而就在最近，北京银河通用机器人有限公司也完成了7亿元的天使轮融资，其中投资方就包括了美团。

上述种种信号都在表明，在科技企业、创业公司、老牌机器人厂商等等参与者的合力之下，人形机器人正在一步步走向产业，走向有着千家万户的现实世界。

二、通用机器人之前：人形机器人的形态之争

从1970年的世界首个人形机器人到以机器人四大家族为首的非人形机器人，再到今天重新觉醒的人形机器人，为什么一有“机会”就会发展人形机器人？而机器人又为何必须是“人形”？人形机器人的魅力究竟在哪？

对此，产业各界都给出了不同的解释。更为感性的说法是，机器人的形态越像人，就越符合大众对机器人的幻想，这也是为什么科幻电影中的机器人大多都与真人无异。

但如果站在更为理性和客观的角度，机器人之所以是人形，实际上是为了更符合人类对一个全能、通用机器人的期待。UniX AI创始人兼CEO杨丰瑜告诉产业家，“我更愿意将人形机器人称之为通用的具身智能机器人。当机器人进入到L5阶段，只需一个通用的机器人即可完成扫地、洗衣服、取快递等全部家务。”

因此，一个更好的理解便是，无论是目前的人形机器人，还是具身智能，他们都是为了走向未来的通用机器人。而至于机器人的形态，究竟是人形还是非人形，是双足还是轮式，目前业界可以分为三个派别，分别是激进派、温和派和保守派。

首先是身为激进派的马斯克，在6月的特斯拉股东大会上，其宣称将于明年量产1000台双足人形机器人Optimus。

相比之下，国内一众机器人创业者则较为温和。比如，银河通用所发布的GALBOT就是一个身高173CM的轮式双臂人形机器人，再比如，上半年刚成立的UniX AI，已发布并即将量产的Wanda也同样是轮式双臂机器人；而与此同时，据产业家了解，双方公司都在默默研发双足人形机器人，并正在着手解决相关技术难题。

而对于机器人的形态问题，也有不少“保守派”不认可或不看好双足。

在这其中，最为典型的两个代表，一个是猎户星空，其董事长兼CEO傅盛认为，“双足机器人目前很难成功商业化，如果落地到产线上工作，没有三五年根本不可能。”另一个则是知名人形机器人公司Sanctuary AI，其创始人Geordie Rise则是最近在X平台上发文称，“几乎所有工作都更适合在有轮子的环境下完成”，甚至又补充道，“双足人形机器人是愚蠢的”。

然而，在如今这场机器人的形态之争下，无论是双足还是轮式，大家的终点都只有一个，即通用机器人。

三、从技术路线到场景，具身智能企业“摸着石头过河”

简单来理解通用机器人，就是既会做饭、洗衣服，又会打扫卫生、取快递，而这也就意味着机器人需要能够更好地掌握真实的物理世界。

“在此之前，上一代的机器人并没有环境感知能力，其单纯依靠外围设备的节拍信号驱动来执行固定运动，也没有智能可言；而未来的人形机器人则一定是具身大模型+通用的人形机器人，两者缺一不可。”银河通用向产业家表示。

而这也就诠释了为什么具身智能，或人形机器人的风口出现在如今大模型的浪潮之下。

从整个人工智能的发展角度来看，AI大模型为机器人领域所带来的是更强大的感知能力。 在银河通用看来，这种强感知能力是建立在“大参数模型和巨量数据展现出来的智能，它能将长任务拆解成短任务，再将短任务拆解成机器人的运动”。

在机器人领域，一个最大的难点便是缺乏与物理世界的真实数据，而得不到这些数据，就无从对机器人进行训练；即使是互联网上得到的信息，在过去也很难根据这些信息进行扩展，并使机器人更好地理解世界。

而大模型则很好地解决了这一问题。在杨丰瑜看来，如今的大语言模型已经实现了视觉语言上的智能涌现，这就意味着，通过互联网上的数据，机器人的感知已经出现了相当强的泛化，因此能够更好地理解真实的物理世界。

实际上，除了具身智能，被大模型随之带火的还有自动驾驶。像开篇提到的英国自动驾驶独角兽Wayve在融资当天，不惜花大量笔墨描绘了一个属于“具身智能”的未来，类似的言论也同样出现在不少机器人公司的内部。

其中，银河通用在对具身智能的诠释中就提到，“具身智能是一个相对宽泛的概念，像自动驾驶、扫地机器人，严格意义上来说都属于具身智能，当然也包括我们今天在做的拥有具身大模型，能主动干活的人形机器人。”

此外，关于自动驾驶与具身智能的相似性，UniX AI创始人杨丰瑜则进行了更具象的类比，“如今的具身智能，其实更像2015、2016年的自动驾驶，仍然处于缺少真实数据的阶段。而如果以L0-L5几个阶段来诠释，目前大多数具身智能公司都在L0到L4的过程中，而到真正的L5则还有一段距离。具体而言，L4状态指大多数场景下，机器人可以完成某个指定动作；而L5则指任意场景下，机器人可以完成某一动作。现阶段，大家所缺少的便是真实数据。”

但自动驾驶和具身智能也都各有各的难点，前者的难点在于安全性，而后者的难点则在于数据获取。

为解决具身智能目前的种种挑战，目前市面上不同企业内部的技术路线都各不相同。从具身智能公司的创始团队背景就得以窥见，从大厂机器人实验室到智驾公司，甚至连从AI顶尖院校毕业的创业者都来自不同科系，可以说，在这个仍发展初期的具身智能赛道上，各路大神在各显神通。

无法达成共识的还不仅是技术路线，对于机器人的落地场景，尤其是未来走向通用机器人的人形机器人，究竟谁能更快地实现商业化，或哪些更适合当下的具身智能机器人？目前都还并没有定论。

“目前整个行业，大家都还处于摸索PMF的阶段，很难说B端和C端哪条路更容易或有利于商业化。”杨丰瑜向产业家说到。

的确如此，如果说在过去非人形机器人阶段，商业化较为成熟的场景是生活服务、智能仓储和智能制造。那么对于如今的具身智能的人形机器人阶段，则既有面向B端的，也有从C端入手的。

比如，具身智能公司UniX AI即将发布的轮式双臂机器人Wanda面向的就是家庭场景。而之所以先选择C端，有几方面考虑。在杨丰瑜看来，首先，针对具身智能缺乏真实数据的特点，如果能用脱敏处理从用户端获取更广泛的真实数据，从而形成数据飞轮，从这一角度来讲则可以极大地增强机器人的泛化能力。

然而，对于处于发展初期的当下，究竟何种场景更有利于具身智能发展还是未知数，因此UniX也并没有完全将场景限定在C端。另一方面，相较于B端“强替代”的场景，C端的容错率也更高。

通常来讲，在B端，企业选择是否要大规模使用某类机器人则要根据人工成本进行对比，因此这也决定了B端更复杂的商业逻辑。

然而，毋庸置疑的是，从机器人产品本身出发，不同于C端场景，B端场景并不会如此多样化。与此同时，这也意味着，在缺乏数据的当下，B端机器人的技术难度也相对较低。

对此，目前不少具身智能公司都选择从toB出发。最为代表的则是银河通用，在他们看来，“现阶段先落地在B端场景是更好的选择，当技术积累到一定的程度，再推动其走进家庭。”据银河通用机器人透露，目前GALBOT计划在商超、车厂、工业、物流、科研等领域进行更深入的场景验证和应用落地。

可以看到，从相差各异的技术路线，到难决高下的落地场景，如今具身智能企业都正在探寻更适合自己的路。

四、人形机器人的「确定性」在哪？

英国自动驾驶独角兽Wayve之所以成立自动驾驶公司，其更深层次的意义实际上是实现“具身智能”的愿景。

“从理论上，如果说自动驾驶的感知和决策已经达到成熟，那么具身智能的技术成熟度也没有问题。”具身智能领域的某业内人士告诉产业家。

但如果说，2024是自动驾驶的商业化元年，那么，具身智能的“确定性”又在哪？

目前看来，从机器人形态到技术路线，从落地场景再到商业模式，关于具身智能的一切似乎都充满了不确定性。

甚至更夸张地讲，在过去很长一段时间，究竟什么是人形机器人，什么是通用机器人？又该如何定义具身智能？概念都还并不清晰。而实际上，业界人士对具身智能不同定义的背后，反映的正是各家技术路线的差异。

比如有些企业将具身智能定义为需要与物理世界交互的智能体，而有些则将其定义为一具属于AI的身体。而这两者的区别就在于，前者更注重数据获取，后者则更注重AI或大模型技术的积累。

而如果抛开现实层面的阻碍去谈理想。具身智能的未来是面向通用机器人。但如今，我们距离通用机器人究竟有多远？

如果用L0-L5做类比，在上文中提到，UniX AI创始人杨丰瑜认为，如今的具身智能机器人正在接近L4阶段的过程中。而真正的通用机器人则是L5阶段。

根据全球顶级对冲基金Coatue近日发布的一篇关于“具身智能”的报告《The Path to General-Purpose Robots》（通往通用机器人之路），如果将具身智能的阶段与自动驾驶的阶段做类比，“过去无人驾驶汽车从L1到L2花了大约20年，而从L2到现在的L4只用了不到10年；那么人型机器人从L1到L2用了大约50年，从L2到L4预计只需要不到5年。”

最后，从商业化周期来看，摆在具身智能企业面前的，也不只有技术及数据获取障碍，单从研发周期和研发成本以及硬件成本来算，具身智能的商业化之路也同样充满了不确定。

五源资本董事总经理Peter将目前的通用机器人比作1980年的PC。早在机器人还未出现在大众视野时，Peter就已为这条赛道洒下了希望的种子。但多年来的投资经验依然告诉Peter，“目前的通用机器人很难，商业化也遥遥无期”。

Peter认为，这条赛道上的商业化标准并不像其他赛道，动辄年销量几个亿，对于机器人赛道而言，100万台就足以称之为商业化标准。然而国内能达到这个标准的并不多。

然而，在种种不确定因素之下，在具身智能领域，唯一可以确定的是，其未来巨大的市场空间。对此，从纷纷入局的科技巨头、创业公司的市场现状即可窥见一二。

要记得，过去几年的自动驾驶也是抛开层层迷雾，才得以在今天看见曙光。

而对于如今的具身智能领域而言，从目前“各显神通”的技术路线来看，很难确定具身智能未来的周期会如何发展。但有一点可以确定，站在如今大模型和自动驾驶的臂膀上，具身智能的成熟期将来得更快。

Gary Marcus：生成式AI泡沫将退，神经符号AI才是未来

2024-08-08aigc阅读(125)

近日，人类神经科学和人工智能交叉领域的学者Gary Marcus发文，对生成式人工智能的未来做出了大胆预测：在接下来的12个月内，当前围绕生成式人工智能的泡沫将会破裂。他认为，“生成式人工智能最根本的缺陷在于其可靠性问题”，系统仍会产生幻觉进而生成虚假信息。

Marcus近年因在神经科学和人工智能交叉领域的研究而闻名，也是“呼吁暂停研究比GPT-4更强大的AI系统训练6个月”公开信的签名学者之一。一直以来，Marcus都认为当前的大语言模型（LLMs）是“近似于语言使用而非语言理解”。

这位既是AI学者又有AI创业经验的专家，将支撑生成式AI背后的大语言模型（LLMs）比作“乘法表”——GPT们能熟记表内乘法并给出正确答案，但对表外乘法的答案得靠碰运气，更多时候因不具备自我验证能力而给出错误答案。

在他看来，为了避免幻觉导致的错误信息，研发LLMs的公司不得不造更大的模型，塞更多的数据，但这没有解决从根本上解决LLMs无法对自己的工作进行健全性检查的问题。

由于有认知心理学、神经学与人工智能交叉领域的学术背景，Marcus一直倡导神经符号学人工智能——一种将神经网络技术与逻辑学、计算机编程以及传统人工智能中普遍应用的符号方法融入AI研究的理论，他认为这一方法是自主AI的路径之一。

而Marcus认为，神经符号学AI因学术权威打压、资本担忧创新风险而无法成为AI研发的主流。不过，令Marcus欣慰的是，Google DeepMind的两套AI系统AlphaProof和 AlphaGeometry2正验证了神经符号学AI的可行性。在他看来，Google的方向更接近AGI的路径。

以下是Gary Marcus《AlphaProof、AlphaGeometry、ChatGPT，为什么人工智能的未来是神经符号学？》全文编译：

引言

生成式人工智能（Generative AI）以其标志性的聊天机器人ChatGPT为代表，已经在全球范围内引发了广泛的关注和想象，然而，这种热潮可能即将退去，但不会完全消散。

曾经，“生成式AI最终将证明是无效”的观点被视为边缘意见，备受轻视。但如今，这一观点已经转变为广泛接受的预期，每天都有新的评论在主流媒体上发表，呼应着这一看法。我坚信，在接下来的一年内，我们将目睹生成式AI泡沫的破裂，原因众多：

当前的技术方法似乎已抵达一个发展的瓶颈期
缺乏那种能够彻底改变游戏规则的杀手级应用
系统仍然会产生幻觉，即在没有确凿依据的情况下生成虚假信息
依然存在一些低级错误，反映出技术的不成熟
没有一家公司或技术能够建立起持久的竞争优势，即所谓的”护城河”

人们开始逐渐意识到上述问题。

当生成式人工智能的泡沫逐渐破裂，一些人可能会因其高估和过度炒作而感到庆幸，而另一些人则可能对其衰退感到悲哀。我本人则持有一种矛盾的情感：虽然我认为生成式AI的光环被过分夸大，但我同样忧虑，它的衰退可能会触发一场类似20世纪80年代中期的“AI寒冬”，那时的“专家系统”经历了快速的崛起与跌落。

尽管如此，我确信这场即将到来的崩溃不会标志着人工智能的终极消亡。毕竟，人工智能领域牵涉到的利益关系太过深远。

生成式AI的衰退或许会在一段沉寂之后迎来复兴的曙光，它可能不再像过去一年那样备受追捧，但新的技术革新将应运而生，它们将更为高效，能够弥补生成式AI的不足之处。

生成式人工智能最根本的缺陷在于其可靠性问题，鉴于其固有性质，我认为这个问题永远无法解决。在考虑生成式人工智能之后可能出现的情况之前，我们需要了解生成式人工智能的固有性质。

因此，本文将分为两部分：第一部分是对生成式AI及其局限的直观阐释；第二部分则探讨了可能克服这些局限的解决之道，特别是围绕Google DeepMind近期的一项令人瞩目的新成果——这是今年为数不多让我感到振奋的AI进展之一。

一、大语言模型为何有效又为何失败？

尽管我们能够编写大型语言模型（LLMs）的代码，却没有人能够完全理解它们的内部机制，或是预测它们在任何特定时刻的行为。部分原因在于，它们的输出极大地依赖于其训练数据的细节。然而，即便如此，我们仍能培养出一种基本的直觉，即便这种直觉略显粗糙。

在某种程度上，我们可以将生成式AI比作一个查找表，就像大家熟悉的乘法表。乘法表对于其内部包含的条目非常有用，但对于表外的情况则无能为力。例如，如果你的乘法表只覆盖到12乘以12，那么当你需要计算13乘以14时，你会发现自己束手无策，因为答案并不存在于表中。

系统性研究发现，LLMs在处理数学问题时也表现出类似的局限性，它们在处理较小的乘法问题（如四位数乘以四位数）时表现得更为出色，而在处理更大的问题（如六位数乘以六位数）时则力不从心。此外，它们在处理曾经训练过的问题时比处理未训练过的问题更为得心应手。

LLMs虽不是简单的查找表——它们能够进行一定程度的泛化——但它们与查找表的相似性足以帮助我们建立起直观的理解。经验一再告诉我们，LLMs在处理它们曾经遇到过的问题时，比处理新问题更为有效。当新问题在关键和微妙层面与旧问题不同时，它们会表现得尤其糟糕。

在众多GPT模型的”失败”案例中，统计学家兼机器学习专家Colin Fraser提供的许多例子最具启发性，他喜欢用细微的变化来考验最新模型的极限。以下是一个典型的例子：

仔细观察不难意识到ChatGPT给出的答案明显违背了常识，“医生是男人的另一位父母——他的母亲”完全错误，因为前文提到男人的母亲已经去世。

为什么ChatGPT会把事情搞得这么糟？

原因在于ChatGPT系统依赖于训练集中的传统谜题（其查找表功能的输入）来生成答案，但它未能深入理解问题的本质。举例来说，ChatGPT可能曾接受过这样的训练案例：

一位父亲和他的儿子遭遇车祸。父亲当场死亡，儿子被送往最近的医院。医生进来大喊：“我不能给这个男孩做手术。”

“为什么不呢？”护士问。

“因为他是我的儿子，”医生回答。

在ChatGPT错误引用的这个经典案例中，医生确实是患者的母亲。然而，作为一个单纯的文本预测器，ChatGPT根本无法识别它记忆的答案（“孩子的母亲”）在Fraser的复述中没有意义。它没有真正地推理（LLMs本质上并不具备这样的能力），而是检索了一个类似但有细微差别的问题答案，结果是错误的。

Fraser还探讨了经典的“带狼、山羊和卷心菜过河”的谜题，同样的现象也会出现。经典版本如下：

一个农夫想要过一条河，并带着一只狼、一只山羊和一颗卷心菜。

有一艘可以容纳他自己的船，外加一只狼、一只山羊或一棵卷心菜。

如果狼和山羊单独在岸边，狼会吃掉山羊。如果山羊和卷心菜单独在岸边，山羊会吃掉卷心菜。

农夫怎样才能让狼、山羊和白菜过河呢？

这需要精心的计划和多个步骤。

然而，当Fraser提出一个幽默的变体时，ChatGPT给出的答案在文本上类似于经典谜题的解答，但在这种情况下却完全不适用。它提出的解决方案不仅极其低效，而且缺乏常识。

每当Fraser或其他人（比如我自己）在社交媒体上分享这样的案例时，总会有爱好者提出自己的变体，使用不同的提示和LLMs。但结果总是一样，一些系统能够正确处理某些变体，但很少有系统能够做到始终可靠。总的来说，这些系统是不可靠的，这也是财富500强公司在最初的炒作后对LLMs失去了信心的原因之一。

我研究神经网络已有30多年（这是我论文的一部分），并且从2019年开始研究LLMs。我强烈的直觉是，LLMs根本就不可能可靠地发挥作用，至少不会像去年许多人所希望的那样以一般形式发挥作用。也许最深层次的问题是，LLMs实际上无法对自己的工作进行健全性检查。

LLMs本质上只是下一个词的预测器——或者，正如我曾经说过的，“超级自动完成”——没有内在的方式来验证它们的预测是否正确。缺乏这种检查导致它们在算术上犯错、犯愚蠢的错误、编造事实、诽谤他人等等，在从GPT-2、GPT-3到GPT-4再到最新的SearchGPT，每一个模型都是如此。用一句可能源自12-step社区的名言来说：“疯狂的定义是一遍又一遍地做同样的事情，并期望不同的结果。”

因此，LLMs中的任何“推理”或“计划”都是偶然的，如果特定情况的细节足够接近训练集中的内容，那么它是可行的，但如果不是就会非常脆弱。正如马克·吐温所说，“几乎正确的词和正确的词之间的区别真的很大”，这就像 “萤火虫和闪电之间的区别”。

真正可靠的人工智能方法和偶尔通过类比存储的示例起作用的方法之间，区别也同样巨大。

幻觉、推理上的愚蠢错误以及我所说的“理解失调”，在我看来是LLMs不可避免的副产品。在某些时候，我们必须做得更好。

二、神经符号学人工智能指明了方向

鉴于大型语言模型（LLMs）不可避免地会产生幻觉，并且在本质上无法对自己的输出进行合理性检验，我们实际上面临两种选择：要么放弃这些模型，要么将它们融入更庞大的系统中，作为这些系统的一部分来实现更高级的推理和规划。

这类似于成年人和年长儿童使用乘法表辅助解决乘法问题，而不是依赖它作为唯一的解决方案。

在我的整个职业生涯中，无论是在认知科学的背景下，还是专注于人工智能的研究，我都提倡采用混合方法——神经符号学AI。这种方法融合了当前流行的神经网络技术（其设计灵感大致来源于1960年代的神经科学发现）与逻辑、计算机编程以及传统人工智能中普遍应用的符号方法。

我们的目标是汇聚两种方法的优势：利用神经网络在处理熟悉示例时的快速直觉能力（类似于丹尼尔·卡尼曼所说的系统I），同时结合显式的符号系统，运用形式逻辑和其他推理工具进行深入分析（类似于卡尼曼的系统II）。

这正是我在2001年出版的《代数思维》一书中的核心议题。该书副标题所表达的是尝试将连接主义（即神经网络）与操纵符号的认知科学相结合。

然而，科学界的权力结构和学术社会学已经让AI领域遭受了不小的损失。

在AI界，两位极具影响力的人物（在我看来也是最具误导性的人物） Geoffrey Hinton和Yann LeCun，多年来一直反对这种潜在的方法，并通过无休止的人身攻击来抵制不同的声音，尽管原因各不相同，但从未得到充分解释。

LeCun最近对神经符号学方法表达了悲观态度，他表示：“至少可以说，我对神经符号学方法非常怀疑。你不能使逻辑推理与基于梯度的学习兼容，因为它是离散的，不可微的。”（在我看来，这表明想象力不足，我们将在下文中讨论这个问题）

Hinton则认为将符号与神经网络结合，就像是将过时的燃气发动机无端地附加在更先进的电动机上。他们的质疑和嘲讽在学术界引起了共鸣。Hinton还认为，符号（很大程度上是由他的曾曾祖父乔治·布尔开发的）就像燃素一样，是一个巨大的科学错误。

OpenAI在很大程度上追随了Hinton和LeCun的理念，将主要精力投入到“扩展”LLMs上，即让模型规模越来越大，数据量越来越丰富，并尽量避免使用符号和符号规则，即便在不可避免时也将其隐藏起来。

大多数其他的大型企业和投资者也采取了相似的策略，他们更倾向于追求那些立竿见影的短期成果，而不是冒险投资于那些可能真正颠覆现有领域的创新思想。

正如Phil Libin在今天的短信中向我指出的，“AI的进步需要算法上的创新，而不仅仅是规模的扩大。为何这会引起争议？因为算法创新是不可预测的，是民主化的。现在的金钱主宰着一切，它急功近利，专横跋扈。作为一个投资者，我更愿意投资一万亿美元去建造芯片工厂（并在过程中获得一些收益），也不愿意在未来的发明上冒险。”

这种以短期投资为主的氛围极大地限制了对真正新奇和创新思维的追求。

因此，我们发现自己陷入了一个局面，几乎所有的主要技术公司都在制造本质上相同的产品——基于大量数据的庞大LLMs，得到的成果也几乎如出一辙（一系列GPT-4级别的模型，它们之间几乎没有区别，都在与幻觉和愚蠢的错误作斗争），而对其他任何事物的投资却微乎其微。

好消息是，在这股潮流中，Google DeepMind（以下简称GDM）从未如此教条并以冒险精神脱颖而出，值得称赞。不同于其他公司固守传统，GDM始终保持着探索未知的勇气。

让我印象深刻的是GDM近期在国际数学奥林匹克竞赛中取得的进展。他们不仅荣获银牌，更是以卓越成绩超越了大多数人类的能力。

这一成就的背后是GDM开发的两个先进系统：专注于定理证明的AlphaProof，以及专注于几何问题、更新版的AlphaGeometry2。这两个系统都是神经符号学AI的典范，它们将神经网络的直觉力与符号推理的严谨性完美结合。

正如GDM明确指出，AlphaGeometry是一个结合了神经语言模型和符号推理引擎的神经符号学系统，它们协同工作，为复杂的几何定理寻找证明。这种设计类似于人类思维中的“快速思考”与“慢速思考”，一个系统提供快速直观的想法，另一个则进行深思熟虑、理性的分析。

今年早些时候，GDM 明确指出了AlphaGeometry的神经符号本质：AlphaGeometry是一个结合了神经语言模型和符号推理引擎的神经符号学系统，它们协同工作，为复杂的几何定理寻找证明。这种设计类似于人类思维中的“快速思考”与“慢速思考”，一个系统提供快速直观的想法，另一个则进行深思熟虑、理性的分析。

在描绘原始 AlphaGeometry 的图中（新系统尚未提供，但它们看起来基本相似），你可以非常直接地在中间框中看到其“直观”语言模型（LLM）与审议符号引擎之间的交互。

而在新的系统中，GDM进一步强化了这种交互，采用了基于Gemini、经过大量合成数据训练的语言模型，并引入了AlphaProof这一新系统，它同样采用了神经符号学结构，将语言模型的输入用于在Lean证明助手系统中搜索和验证形式证明。

尽管我对这两个系统充满敬意，但它们也存在一个明显的缺陷：它们依赖于人类编码者将奥林匹克的输入句子翻译成数学形式。这表明，如果没有人类编码者的参与，我们还不能实现真正的自主AI。

这让我回想起我曾写过的Doug Lenat的复杂符号系统，他在《人工智能的下一个十年》中展示了如何用符号系统解读《罗密欧与朱丽叶》。尽管符号推理表现出色，但背后依然需要人类的翻译工作。

尽管存在争议，GDM的最新成就却是对概念验证的一次有力展示！它证明了神经网络与符号系统的结合不仅可行，而且能够取得显著成果，这与Hinton和LeCun的怀疑态度形成了鲜明对比。

谷歌DeepMind已经勇敢地迈出了这一步，尽管还有许多其他研究者也在这一领域取得了进展，但GDM的成果无疑是其中最引人注目的。

Doug Lenat，以其开创性的常识知识库Cyc而闻名，是人工智能领域真正的思想巨人。他对推理的微妙性和挑战有着深刻的理解，远超许多当代AI研究者。去年夏天，我有幸与Doug合作，完成了他生前最后一篇论文，题为《从生成式人工智能到可信赖人工智能：LLMs可能从Cyc学到什么》。

在这篇论文中，我们探讨了神经符号学人工智能的潜力，并在文末提出了五种将符号系统集成的方法。AlphaProof和AlphaGeometry2正是我们讨论的第一种方法的体现，它们利用类似于Cyc这样的正式系统来审查由LLMs生成的解决方案。

我们还提出了使用像Cyc这样的符号系统作为真理的源泉，引导LLMs朝着正确性发展。事实上，这种方法已经在为AlphaProof和AlphaGeometry2生成合成数据时得到了应用，虽然不是直接使用Cyc，但采用了在关键方面与Cyc类似的系统。

尽管如此，神经符号学方法的发展空间仍然巨大。正如我在其他场合所强调的，神经符号学本身并非万能钥匙或灵丹妙药。我们还需要更多的基础建设，包括知识基础设施的构建，以及从文本和视频等输入中派生出认知模型的方法。但这些步骤对于我们走向更遥远的旅程是必不可少的。

归根结底，期望AI在没有符号操作的“系统II”机制下实现通用人工智能（AGI），无异于期待熊能解决量子力学问题。没有神经符号人工智能，我们无法找到通往AGI的道路。我很高兴看到Google DeepMind已经朝着这个方向迈出了坚实的步伐。

酷毙了 or 糟透了，品牌到底要不要做AI广告？

2024-08-07aigc阅读(72)

自从今年二月，OpenAI发布了Sora后，各界关于AI生成视频的讨论就没有停下过。上半年一大批视频生成模型现世，抖音的即梦、快手的可灵、美图推出WHEE、科大讯飞推出星火绘境……导演、摄像、剪辑：行呗，轮到我们失业了？营销人：好哦，又省一笔钱。

一、AI生成广告片，除了省钱还有什么

在存量市场里厮杀，降本增效是第一要义。此前，某全球快消巨头就曾告诉Morketing，“我们投放品牌广告时，也会要求换一些可能促进转化的资源”，更别说对ROI要求更极致的新消费品牌。品牌在广告片上的预算自然也会慎之又慎。

而此时视频生成模型的横空出世无异于让瞌睡的广告主找到了枕头。今年6月发布的《2024中国广告主营销趋势调查报告》显示，78.9%的广告主预期应用AIGC，相比去年提升9个百分点。其中，广告主使用AIGC主要体现在创意生成内容上，文生文、文生图、文生视频等基础功能。

广告主们选择AIGC广告片无外乎两点，一方面是为了节约成本，另一方面是想用新技术玩点新花样，希望通过AIGC更好地表达品牌理念，沟通年轻人。

玩具反斗城，世界知名老牌玩具厂商，六月推出了由Sora生成的AI广告片。广告片描述的是玩具反斗城创始人Charles Lazarus如何将一个自行车店，一步步打造成孩子们心中的玩具王国，整条片子主打一个奇幻色彩，让人梦回童年。

且先不说效果如何，这条片子的成本足够让人震惊，作为Sora的商业广告片首秀，据玩具反斗城表示该视频从构思到最终完成仅用了几周时间。AI内容社区故事接龙StoryStorm的发起人宋东桓也曾在第五届中国智能大屏行业发展峰会上预估过Sora的制作成本，大概达到2500美刀每分钟，再加上素材成片比，也就是说一个3分钟片子，你可能要准备20万人民币左右的算力成本。

这个数字对于普通人来说着实还很高，但对于拍个广告片动辄上成千上百万的企业来说，别说三分钟，15秒花出去几百万都是很正常的事情，20万可以说就是个零头。相比起传统TVC拍摄动辄以月份计算，如此省时省力的AIGC广告片，势必会让更多的品牌方重新考量传统TVC的必要性和成本。

那么除了节省成本以外，选择AIGC广告片的品牌还看重它自身的潮流的表现形式。东阿阿胶，中华老字号，近几年的品牌策略是占领年轻、高端市场。怎么表达品牌和年轻人是一伙的？东阿阿胶连着两条节气广告片都是AI生成，以示老字号也跟得上潮流。两条片子虽然没有大爆，但整体评价都还不错，画面清新，有想象力是最常提到的。

二、失去灵魂的AIGC广告片，降本增效成伪命题？

但是值得所有营销人思考的问题是，成本是削减了下来，但效果真的达到了吗？

让我们回顾科特勒在《营销管理》里对TVC的定义：电视广告是一种向顾客介绍公司及其产品、增强顾客偏好和忠诚度以及提升销量和利润的有效方式。

也就是说，一支合格的TVC至少有两个要素，一个是体现出了品牌形象，另一个是让更多的消费者通过这条片子爱上这个品牌。但AIGC广告片的痛点就在于争议太大了，无法保证生成的作品一定会让大多数消费者喜欢，网友对AI广告片的厌恶甚至会牵连品牌。

上文提到的玩具反斗城的AIGC广告片就遭到了两极化的评级，在 X 上，被一些网友痛批：“制作一则关于孩子无限想象的广告，却用毫无灵魂的 AI 来演绎，这简直是讽刺”；“我们曾为玩具反斗城的重生欢欣鼓舞，如今却恨不得亲手将其打入地狱。这对整个玩具行业而言无疑是一记响亮的耳光，更别提那充满创意的游戏理念了，这简直是对所有参与者的侮辱。”

比起效果广告，TVC其实是在用更绵长的情感去和消费者链接，广告片里人的一个眼神和一次情绪的表达，都会影响着屏幕外观众的感受，但如何精准地传递情绪是AIGC广告片所不擅长的。

前段时间，健力宝40周年AI献礼短片《1984中国气》也遭到了网友吐槽：明明是想表达中国人的“志气、朝气、骨气、锐气、傲气、神气”，结果AI生成出来的片子只让人感觉到一股“暮气”。

为什么这部广告片会被如此评价，本质上来看是观众出现了期待偏差，这部广告片目的是想通过奥运赛场上激动人心的时刻，来表达40年来中国人向上的精气神，所以按照惯性思维观众期待看到的是恢弘的场面，观众欢呼喜悦的表情，运动员挥洒的汗水，等一系列有质感的画面，因为大多数献礼式广告片都是这么拍的。

当然大场面观众看到了，这些元素广告片里也都有，只不过在AI的渲染下，少了最关键的两个字“质感”。其实这部广告片的细节之处已经做得很不错了，但这里的质感更多指的是一种真实感，一种存在过的质感，既是讲述过去，真实才更有说服力。

AI生成视频的底层逻辑是，教一个模型了解模仿物体在物理世界的运行规律，然后再创造，这事儿听起来是真浪漫。但要注意的是AI的优势在创造，而不是单纯的模仿和还原。理解品牌用AI生成广告片是希望尝试一些新鲜的技术，让自己品牌形象变得年轻一些，但新技术有风险使用需谨慎，拿AI硬套传统广告片就很容易翻车。

北京天与空首席执行官张锋荣对Morketing表示：“AIGC广告片肯定是一个科技与时代的进步，但能否承载品牌的与用户的情感价值链接还需要提升，目前在产品展示上的制作与效率上是不错的。优点不用说，成本肯定可节约一些，但毕竟还缺少洞察思维、创意人文思考等，出来的片子未必能完全满足品牌、产品所贴合的卖点，而且也不容易满足品牌方很多老板的修改意见。”

时趣SVP木刀也有类似的观点，AI是新质生产力，但从目前来看，当前AI技术还不具备广告内容的制作生产能力，“的确有不少品牌进行了AI生产方面的探索尝试，但充其量只能算是信息错位下的营销噱头，值得鼓励，但实效聊胜于无。”

更加犀利的是，他指出：“提升效率、降本增效等我们早期认为的优势实际上并没有发生，只是进入到一个新的效率与成本进程而已，至少在内容生产层面，尤其在极端塔尖化的创意行业，AI当下的内容生产能力连基础门槛都够不上，经历了元宇宙、web3，理性地说我们不应该再在基础设施不完备的情况下贸然尝鲜，除非你是可口可乐或者Chanel。”

三、被称赞的AIGC广告片长什么样

所以，可口可乐是怎么做的呢？“物物而不物于物”，简单讲就是人驾驭技术，而不是技术反制人。正如张锋荣所说：“广告人核心还是靠卖策略思维以及创意，我更相信AI是广告人利用的工具，可以更好地为创意服务，加分。”

利用AI，但是把AI作为反面案例，一样能够呈现出有趣的广告片。超级碗期间，可口可乐旗下体育饮料品牌BodyArmor的广告片《Field of Fake》是一个经典范例。

片子前半段都是由AI生成，扭曲的肢体，奇怪的表情，混乱的画面搭配上旁白：Artificial flavor（人造香精），视觉的粘连，转化成口腔的黏腻，这种通感瞬间让人回忆起来喝人造香精饮料时候的口感，确实巧妙。

后半段真人实拍，画面瞬间清爽了很多，文案点明“nothing in sports should be artificial because there’s no substitute for real sweeteners, real flavors, real love of sport. ”（在体育中没有什么应该是人造的，因为真正的甜味、真正的口味和对体育的真正热爱是无法替代的）。

片子通过前后反差来强调产品用料、口味、功效的真实，给人一种视觉冲击。团队利用AI的缺点，反而呈现出一条贴合产品的广告片。

饿了么采取的手段也是AI和现实相结合，AIGC片段用作转场，起到点睛之笔的作用。片子里，益禾堂的古风推荐官，通过AI转化为一点点的店员；店员举起一颗蔓越莓，AI转场让这颗果子再长回树上……这其实是一种很取巧的做法，即引入了AI元素，给广告片增加了一些风味，又避免了大面积使用AI给人造成的不适感。

目前来看，Morketing认为AI适合做一些轻的广告片，或者是干脆就是科幻大片类型的，单纯的对现实的模仿，反而会磨灭掉AI的优势，好钢没有用到刀刃上。

就像木刀所说：“人脑始终是最重要的竞争力，AI或许能帮助拓宽一些思路，提供一些呈现形式上的新对策，但故事最打动人的部分，一定还是故事本身。”

AI智能体产品案例深度思考和分享（全球顶级公司实践细节，做AI智能体必读）

2024-08-05aigc阅读(72)

在过去的六个月里，在领英我们的团队一直致力于开发一种新的 AI 驱动的产品体验。我们想重新构想会员们进行求职和浏览专业内容的方式。

生成式人工智能的爆发让我们停下脚步，思考现在能够实现而一年前还无法实现的事情。我们尝试了许多想法，但都不怎么灵。最终以信息流和招聘启事切入找到了释放AI强大力量的方法，它可以帮助用户：

总结关键点，例如从帖子中总结要点或了解各个公司的最新动态。
关联不同信息，例如评估自己与某个职位的匹配度。
获取建议，例如改进个人资料或准备面试。
等等……

那么，这活容易么？哪些进展顺利，哪些不好搞？在生成式人工智能的基础上构建应用其实很麻烦的。我们遇到了一堆难题。

我们希望揭开这活的的神秘面纱，分享具体哪些部分好搞，哪些部分不好搞，以及接下来还需要搞定什么。

一、概览

让我们通过一个真实场景来展示这个系统是如何工作的。

AI智能体产品案例深度思考和分享（全球顶级公司实践细节，做AI智能体必读）

想象一下，你正在浏览领英的动态，偶然发现了一篇关于产品设计中确保残障人士可访问性（注:就是那种系统里可以把字体放大好多倍的功能）的有趣帖子。在帖子旁边，你看到了几个入门问题，以便你更深入地了解这个主题。你感到好奇，点击了“有哪些例子说明确保残障人士可访问性可以推动科技公司的商业价值？”

这时候，在幕后发生了以下事情：

选择合适的智能体：这是一切的原点。我们的系统接收你的问题，并决定哪个AI智能体最适合处理它。在上面这个例子中，它识别出你对科技公司中如何确保残障人士可访问性感兴趣，就会将你的问题导引到负责一般知识性问题的AI智能体。
收集信息：然后就得做些基础工作。AI智能体会调用内部API和Bing，搜索具体的例子和研究案例，这些例子和研究案例突出了设计中的确保这种可访问性与科技公司商业价值的关联。这些就是产生最终回答的原始素材库。
编写回答：有了回答所需要的原始信息，智能体就开始编写回答了。它将数据过滤并综合成一个连贯、信息丰富的答案，为你提供明确回答。为了避免生成太多的文字并使体验更具互动性，会调用内部API来对回答进行修饰，比如加入文章链接或帖子中提到的人物的资料。

作为用户你可能会接着问“我如何将自己的职业转向这个领域？”，然后我们会重复上面这三个步骤，但这次会将你路由到职业和工作的AI智能体。只需点击几下，你就可以深入了解任何主题，获得可操作的见解或找到你下一个大好机会。

这一切在很大程度上得益于大语言模型（LLMs）的出现，我们认为进一步分享我们在构建这些功能时面临的挑战和幕后故事会很有趣。

1. 整体设计

AI智能体产品案例深度思考和分享（全球顶级公司实践细节，做AI智能体必读）

图1：简化的用户查询过程。

KSA代表“知识共享智能体”，是数十个能够处理用户查询的智能体之一

大家可能已经注意到，我们的流程遵循了检索增强生成（RAG），这是生成式AI系统中常见的设计模式。构建这个流程比我们预期的要容易得多。在短短几天内，我们就搭建好了基本框架并使其运行起来：

路由(Routing)：判断问题是否在处理范围内，是的话将其转发给哪个AI智能体。智能体的例子包括：岗位评估、理解公司、帖子要点提取等各种智能体。
检索(Retrival)：这是一个逐步确定详细信息的步骤（召回率导向的步骤），AI智能体决定调用哪些服务以及如何调用（例如，LinkedIn People Search、Bing API等）。
生成(Generation)：这是一个精准度导向的步骤，它筛选检索到的各种数据，过滤它，并产生最终响应内容。

鉴于“路由”和“检索”的分类性质，微调它们相对顺畅：我们构建了开发测试集，并使用提示词工程和内部模型进行优化。然而，“生成”则是一个完全不同的故事。它遵循80/20法则；很快可以达到80%的准确度，但剩下的20%却耗费了我们大部分人的所有工作时间。当你的产品期望99%以上的答案都非常出色时，即使使用最先进的模型，每一个1%的进步也仍然需要大量的工作和创造力。

对我们而言好使的招数是：

固定的三步流程
用小模型干路由/检索，用大模型干生成
基于内存数据库的EBR（Embedding-Based Retrieval (EBR) ），直接将响应示例注入到我们的提示词中（穷人版微调）。（注：EBR是个技术名词，感兴趣的自己再查吧。）
在路由和检索过程中针对每个步骤做特定评估

2. 开发速度

我们希望多个团队并行快速推进，因此决定将任务拆分为由不同人员开发的独立智能体（即AI智能体）：岗位评估、理解公司、帖子要点提取等智能体分别由不同团队负责。

这种方法带来了显著的不良影响（compromise）。通过并行处理任务，我们在速度上取得了优势，但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时，保持统一的用户体验变得极其具有挑战性。

为了解决这个问题，我们采用了一个简单的组织结构：

1）一个小型“横向”工程小组，负责处理公共组件并专注于整体体验。这包括：

各种支撑此产品的基础服务
评估/测试工具
所有垂直领域使用的全局提示词模板（例如，智能体的全局身份标识、对话历史、越狱攻击的防护等）
iOS/Android/Web客户端的共享UX组件（注：一般就是指按钮、下拉列表这些）
一个服务器端驱动的UI框架，用于发布新的UI更改，而无需更改或发布客户端代码。（注：因为UI在服务端，那就需要有个在服务端生成UI的框架，很麻烦的一个东西）

2）多个“纵向”工程小组，各自对其智能体拥有自主权，例如：

个性化帖子摘要
岗位匹配度评估
面试技巧

3）那些东西对我们有用：

分而治之，但限制智能体的数量
建立一个中心化的，通过多轮对话支撑的评估过程
共享提示词模板（如“身份”定义）、UX模板、工具及指令

3. 评价输出好坏

评估我们回答的质量比预期的要困难得多。这些挑战大致来自三个方面：制定指南、扩展标注和自动评估。

制定指南：以岗位评估为例：点击“评估我是否适合这份工作”却得到“你非常不适合”的结果其实没啥用。我们希望它既具有事实性又充满同理心。有些用户可能正在考虑转行到他们目前并不十分适合的领域，并需要帮助了解差距和下一步行动。不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。
扩展标注：最初，团队中的每个人都参与了讨论（产品、工程、设计等），但我们知道我们需要一个更加有原则的方法，拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程，使我们能够每天评估多达500次对话，并获得以下方面的指标：整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。
自动评估是终极目标，但仍在进行中：没有它，工程师只能依靠主观判断和对有限示例的测试，并且需要1天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标，并允许更快的实验，我们在幻觉检测方面取得了一些成功（但这并不容易！）。

AI智能体产品案例深度思考和分享（全球顶级公司实践细节，做AI智能体必读）

图2：我们执行的评估步骤。

工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈，但大约需要1天的时间。测试成员是最终的评判者，并为我们提供规模性的反馈，但单个更改的某些度量可能需要3天以上的时间。

还在死磕的事：端到端自动评估流程，以实现更快的迭代。

4. 调用内部API

领英拥有大量关于人、公司、技能、课程等的独特数据，这些数据对于构建具有独特和差异化价值的产品至关重要。然而，大语言模型（LLMs）并未经过这些信息的训练，因此无法直接用于推理和生成响应。为了解决这个问题，一个标准的做法是设置检索增强生成（RAG）流程，通过该流程调用内部API，并将它们的响应注入到后续的大语言模型提示词中，以提供额外的上下文来支持生成响应。

这些独特的数据中有很多是通过各种微服务中的远程过程调用（RPC）API在内部公开的。这些API虽然这对于人类通过编程方式调用非常方便，但对于大语言模型来说并不友好。我们通过把这些API“包装”成技能来解决这个问题。每个技能(Skill)都包含以下组件：

人类（和大语言模型）友好的描述：说明API的功能以及何时使用它。
RPC API调用配置：包括端点、输入、输出schema等。

大语言模型友好的输入和输出schema：

基本类型（如字符串/布尔值/数字）
JSON风格的输入和输出schema

业务逻辑：用于在大语言模型友好的schema与实际RPC schema之间进行映射。

（注：schema是个编程术语，也许可以翻译成模式，拿excel表作类比，表头是schema）

这样的技能使大语言模型能够执行与我们的产品相关的各种任务，如查看个人资料、搜索文章/人员/职位/公司，甚至查询内部分析系统。同样的技术也用于调用非LinkedIn API，如Bing搜索和新闻。

AI智能体产品案例深度思考和分享（全球顶级公司实践细节，做AI智能体必读）

图3：使用技能调用内部API

我们编写了提示词，要求大语言模型（LLM）决定使用哪种技能来解决特定任务（通过规划来完成技能选择），然后输出调用该技能所需的参数（函数调用）。由于调用参数必须与输入schema匹配，我们要求LLM以结构化的方式输出它们。大多数LLM都经过YAML和JSON的结构化输出训练。我们选择YAML是因为它更简洁，因此消耗的tokens比JSON少。

我们遇到的一个挑战是，虽然大约90%的时间里，LLM的响应包含了正确格式的参数，但有大约10%的时间，LLM会出错（注：经常说的幻觉），并且经常输出不符合要求的数据，或者更糟糕的是，甚至不是有效的YAML。虽然这些错误对人类来说微不足道，但会导致解析它们的代码出错。由于10%的比例足够高，我们不能忽视这些微不足道的错误，因此我们着手解决这个问题。

解决这个问题的标准方法是检测到错误，然后重新发提示词给大语言模型，要求它在这些额外指示下纠正错误。虽然这种方法有效，但它增加了不小的延迟，并且由于额外的LLM调用而消耗了宝贵的GPU算力。为了绕过这些限制，我们最终编写了一个内部防御性YAML解析器。

通过对各种调用参数（payload）的分析，我们确定了LLM常犯的错误，并编写了代码来在解析之前检测和适当修补这些错误。我们还修改了提示词，以便在这些常见错误周围注入提示词，以提高我们修补的准确性。最终，我们将这些错误的发生率降低到了约0.01%。（注：这其实是用规则补足模型的不足，降低成本）

还在死磕的事是：构建一个统一的技能注册机制，以便在我们的生成式AI产品中动态发现和调用封装为LLM友好技能的API/智能体。（注：可以想象是个技能商店，智能音箱那种能够动态添加天气、音乐技能的机制）

5. 保持统一的质量

团队在首月内实现了我们目标体验的80%，随后又额外花费了四个月时间，致力于将我们的全面体验完成度提升至95%以上——我们勤勉地工作，对各个方面进行精细化调整、优化和改进。然而，我们低估了检测和减轻幻觉现象的挑战，以及质量评分提升的难度（注：原文是速度应该是笔误）——起初迅速攀升，随后便迅速达到瓶颈期。

对于那些容忍一定错误率的产品而言，采用生成式AI进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望，初期的快速进展营造了一种“即将达成”的错觉，而随着后续每1%提升的改进速度显著放缓，这种快速改进的错觉变得令人沮丧。

构建该助手感觉像是偏离了“原则性”的机器学习，而更像是在专家系统中调整规则。因此，尽管我们的评估变得越来越复杂，但我们的“训练”却主要是提示词工程，这更像是一门艺术而非科学。

还在死磕的事：对大语言模型（LLMs）进行微调，以使我们的流程更加数据驱动。（注：其实是肯定会出问题，所以修的要快）

6. 容量与延迟

容量和成员感知到的延迟始终是我们最关心的问题。以下是一些维度：

质量 vs 延迟：像“思维链”（Chain of Thought, CoT）这样的技术非常有效地提高了质量并减少了幻觉现象。但它们需要成员从未预想过的tokens，因此增加了成员感知到的延迟。
吞吐量 vs 延迟：在运行大模型时，通常情况是“首个Token响应时间”（TimeToFirstToken, TTFT）和“Token间响应时间”（TimeBetweenTokens, TBT）会随着使用率的增加而增加。在TBT的情况下，有时延迟甚至会呈现线性增长。如果你愿意牺牲这两个方面的度量，获得每秒Tokens数（TokensPerSecond, TPS）的两倍或三倍增加是很容易的，但我们最初必须将它们限制得很紧。（注：否则用户会觉得慢）
成本：GPU集群并不容易获得且成本高昂。在初期，我们甚至不得不为产品测试设定时间表，因为测试会消耗太多tokens并阻止开发人员工作。
端到端流式传输：一个完整的答案可能需要几分钟才能完成，因此我们让所有请求进行流式传输以减少感知到的延迟。更重要的是，我们实际上在流程内部实现了端到端的流式传输。例如，大语言模型（LLM）的响应会逐步解析出应调用的API，并在参数准备好后立即发起API调用，而无需等待完整的LLM响应。最终合成的响应也会通过我们的实时消息传递基础设施进行流式传输，并对信任/负责任的AI分类等内容进行增量处理，直至到达客户端。（注：就是通过流式提升可感知的响应速度，非流式会导致你等半天突然所有结果出来了）
异步非阻塞管道：由于LLM调用可能需要很长时间来处理，我们通过构建一个完全异步非阻塞的管道来优化服务吞吐量，该管道不会因I/O阻塞的线程而浪费资源。

这些因素之间有时会产生有趣的相互作用。举个例子，我们最初只限制了首个Token响应时间（TimeToFirstToken, TTFT），因为这对于我们初期产品延迟有直接影响。然而，随着我们解决幻觉问题，并且思维链（Chain of Thought, CoT）在我们的提示词中变得突出，如果我们忽略了Token间响应时间（TimeBetweenTokens, TBT）会对我们造成更大的伤害，因为任何“推理”token都会增加产品的延迟（例如，对于一个200个tokens的推理步骤，即使是10毫秒的TBT增加也意味着额外的2秒延迟）。这会导致我们公共平台上的某些任务突然发出超时警告，我们不得不迅速增加算力以缓解这一问题。

还在死磕的事：

将更简单的任务转移到内部进行，并使用微调后的自己的模型进行处理。（注：潜在意思是专门化的模型要和通用大模型进行搭配）
为大语言模型（LLM）部署构建更可预测的基础设施。（注：不理解，我猜是LLM吞吐量伸缩需要更可控）
减少每个步骤中浪费的tokens。

二、收获

我们说的够多了，为什么不让产品自己说话呢？

AI智能体产品案例深度思考和分享（全球顶级公司实践细节，做AI智能体必读）

这还不错！特别是后续的建议中让产品可以像维基百科那样带你进入一个充满好奇心的“知识黑洞”的功能。

随着我们不断提高质量、开发新功能并优化流程以加快速度，我们很快就会向更多用户推出上述功能。

能够走到这一步，离不开一群优秀人士的巨大努力，我们将继续学习并很快分享更多技术细节。敬请期待！

注：这里的产品、工程实践其实和琢磨事之前分享的各种内容基本全部吻合，参见

原文链接：https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product

原作者是：Juan Pablo BottaroandCo-authored byKarthik Ramgopal

AI工具，还未给短剧开光

2024-08-05aigc阅读(152)

早期AI视频测试中，AI短剧导演赵康（化名）无意中发现了可灵的bug，“文生图生成出来有一种快手风”。彼时，他脑海中只有一句话：“老铁，上链接”。

AI视频创作者晓磊（化名），试过市面上所有的工具，“东市买辔头，西市买鞍马”，凑不出一套能用的工具，“流水的AI，铁打的MJ（Midjourney）”。

“爱诗PixVerse的运动笔刷，字节即梦的首尾帧，可灵的逻辑理解”，AI创作者们逐渐摸索出了一点门道。

AI视频究竟能用在哪里，大厂和创作者们不约而同地瞄准了短剧赛道。

快手借助自研视频生成大模型“可灵”的热度，早早放出了《山海奇镜之劈波斩浪》的预告片，精良的制作拉走了所有关注。然而，实际抢到“第一AI短剧”彩头的其实是抖音。7月8日，博纳影业与抖音AIGMS制作中心出品的《三星堆：未来启示录》（后文简称“三星堆”）上线。

7月12日，快手星芒短剧才上线《山海奇镜之劈波斩浪》（后文简称“劈波斩浪”）。光子星球了解到， 6月中旬《劈波斩浪》已经完成了最后一轮修改，但导演陈坤坚持要用“可灵”最新的模型优化。“我希望我的东西出来一定要代表行业最高水准。”

即便AI短剧造势不小，但到现在也只能算得上个噱头。AI对于整个短剧制作流程的提效仍有限，成本和制作周期甚至不降反增。AI工具虽然渗透在每个环节中，但就像沙滩上的贝壳，需要创作者们耗费大量力气捡拾起来。

“把一两个功能做到极致就有市场，可以拿出来商业化”，陈坤道。

一、AI短剧的“账本”

新技术蒙眼向前奔跑，到现在为止，业界对AI短剧或AI短片还没有清晰定义。目前，AI短剧的形态有两个源流，一个是短剧制剧模式的变化，另一个是AI视频工具的迭代。

短剧制作层面主要涉及到剧本创作者、承制方、MCN机构，从文本创作到发行前，累计需要5-8周时间。阿亮在2021年创作过多部短剧，其中不乏流水千万的爆款，他告诉光子星球，创作一部5万字左右的百集短剧脚本需要4周左右。“一些压榨员工的流水线短剧公司，多人创作剧本，最快两周能出一部。”

当剧本出炉后，会有投资人或者MCN机构注入资金，并寻找承制方制剧。王现（化名）是一位承制方之一，他参与过多部短剧，今年转而以“独立承制人”和演员等多重身份参与制作。“前期沟通剧本和协调演员，平均3-7天基本能进入到拍摄阶段，拍摄时间在7天左右，大部分时间浪费在后期制作上。”

时间成本之外，短剧的制剧成本因题材和精良程度而有所不同。阿亮从2021-2023年与九州等头部MCN合作过多部短剧剧本，买断剧本的均价在1-2万，部分公司会与剧本作者签署爆款提成的条款。“最火的那部剧，加上提成一共分到了30多万。”

人力占据了短剧制作的成本大头，以郑州为例，主创人员成本占比很高，男女主角每天平均薪资在3000元上下，群演在150元/天（含中间人抽成），如果加上后期制作，整体成本在40-100万之间。

“今年以来，现场分工有接近电视剧拍摄的趋势，早前导演、演员、摄像（1-3个机位）、服装，以及化妆师，今年有专门的道具师，部分短剧还有专职场控。”拍摄完成后，会外包给第三方进行后期制作，周期在1-2周不等。

AI进入到短剧制剧环节之中，理论上可以实现降本增效，但我们从两位AI视频资深创作者得到了截然不同的答案。至少目前来看，无论是基于快手可灵、字节即梦、爱诗PixVerse，或者混用Runway、Luma这类视频工具，周期和成本整体上高于传统短剧。

AI艺术家陈刘芳几乎完整经历了AI视频工具的变迁史，她最早接触的技术叫VQGAN（训练 Transformer 以实现高分辨率图像合成），随后是CLIP guide Diffusion（通过Clip引导扩散模型生成），这是Stable Diffusion（后文简称“SD”）的前身，几个月后SD才诞生。

AI短剧或短片还处于立标杆、探索制作路径的阶段，我们很难量化一部片子的完整制作成本。

《劈波斩浪》是快手定制短剧，在制作过程中，可灵团队协调了不少技术资源与导演陈坤的团队共创。一位知情人士表示，“给陈坤提供技术支持，毕竟是快手‘亲儿子’。”

陈刘芳在2023年情人节时，以 Stable Diffusion为基础，从创意、脚本、分镜、动画制作、音乐整个流程成片都用AI创作，完成了一部一分钟左右的短片《地球爱情终曲》。第二部短片诞生于 8月，改编自阿瑟·克拉克科幻小说的《遥远地球之歌》。

陈刘芳目前组建了一只专业AI短片创作团队，招募兼具传统动画创作专业技能和能驾驭AI工具的创作者，外部还得到了多家大公司技术专家的支持。

今年国内外视频生成大模型层出不穷，因此当下AI视频呈现“大模型厂商模型的上限就是创作者的上限”。

目前，市场上 AI 短片制作与传统短剧有着诸多不同，单从金钱和时间上就差异巨大。

经光子星球调研发现，AI短片的制剧成本根据质量要求浮动非常大，单集制剧成本下可到万元级别，上可达百万。通常情况下，分为三档：电影级别的头部与准头部质量在10万元每分钟，传统动画内容级别的中等偏上水准在3-5万每分钟，教育动画与普通动画可以低至千元。对比短剧平均万元每集而言，AI短片的制作成本显然要高不少。

值得一提的事，投入成本中有大量为一次性投入，因而很难靠复用分摊。时间周期上，一部10分钟以内的短片，约需要1个月时间。陈坤早前为电影频道M盛典制做的AI宣传片《凤鸣山海》也花费半个月时间。长周期、高成本，使得目前AI短剧真正的“金主爸爸”，其实来自G端。

“G端客户对新技术的热情，远比想象中要高得多。”陈刘芳表示。

技术处于不断迭代的进程中，在落地时也势必引发一系列bug等问题。赵康经历了完整的研发、落地、商业化过程，当我们问他遇到技术瓶颈怎么办时，他的回答是：“说服甲方。”稍作停顿后补充道：“当你解决不了问题的时候，就解决提出问题的人。”

二、制剧的AI“变形记”

包括陈刘芳在内的很多创作者都认为，即使步入AI时代，市场对好内容的标准依然未变。因此一部AI短剧或短片最底层的驱动力仍来源于一个好故事、好想法。

在灵感构思和剧本创作这个环节，市面上出现了以“小说创作”为切入场景的AI工具。

AI写作方向自媒体“不知”介绍，此前创作者耗费大量时间在收集素材上，一名作者为了写一篇古文言文，前期需要收集十万多句材料。但有了AI，不知感受到了明显提速，一周多才能完成的短篇，现在缩短至两天，还是在没有灵感的情况下。

AI创业公司波形智能CPO万磊认为，小说写作场景是一个“枢纽地带”，向前是文本创作，向后向剧本、短剧转化，以此“打通文学创作的全链路”。

波形智能旗下“蛙蛙写作”是一款针对内容创作者的产品。官方数据显示，截至7月份，蛙蛙写作平台累计注册用户24万，日平均使用时长4.7小时，AI累计输出100亿字。近期，该平台升级2.0版本，新增“小说转视频”功能，先拆解文章里的主要人物，生成该角色的形象，再分镜制作视频，试图推动创作者向AI短剧方向延伸。

对于有专业背景的短剧/短片创作者来说，更倾向于“文生图”到“图生视频”生产流程。虽然这条路径已经跑通，但AI起到的作用仍然有限。

目前在AI短剧/短片领域，大致可以分为如下题材，奇幻/科幻、现实主义/半奇幻半现实主义。一般AI视频创作者多以奇幻/科幻的题材切入，既减轻了传统科幻题材重资产、重投入的问题，又契合了AI天马行空技术调性。相对于更接近表达人类情感的现实主义题材，观众对于打破想象边界的科幻题材容忍度也更高。

陈坤在一开始便坚持用“纯AI”来创作短片。不过，他坦言：“AI只能部分取代原来的制作流程”。

传统影视制作流程被分为前期（创意讨论、剧本创作等）、中期（筹备、拍摄准备、拍摄、现场管理等）和后期（剪辑、视觉特效、色彩矫正、配乐等）。

前期导演要和编剧开会讨论剧本，之后再由导演做出来分镜剧本。AI目前只能扮演“插件”的作用，比如用ChatGPT扩写创意，检查是否出现文本错误等，“涉及核心创意工作还是得大量靠人力”。

AI替代程度最深的是中期阶段。以前是导演担任统筹攒一个局，凑齐灯光、音响、摄像、演员、化妆师、服装师这套班底，再把实际内容拍摄出来。现在作为导演只要利用Midjourney、Stable Diffusion和国内外AI视频生成工具，从文字直接生成图片，图片生成视频片段。

“以前，作为导演我要告诉制片选什么场地，告诉灯光需要正光还是侧逆光，告诉摄像镜头应该怎么运动，现在都变成了告知AI”，陈坤表示道。

虽然当前市场上AI视频公司对外宣称可生成几分钟，但落到实际操作流程中，仅能生成3-5秒可用的素材。也就是说，一条三分钟的片子，至少需要生成36-60个片段，前提是保证可用。常见的情况是，在可灵、即梦、PixVerse、Runway、Luma等软件间反复横跳，不断抽卡直至生成满意的素材。

AI短剧/短片的重头戏落在了后期上。制作团队需要把上面几十个片段剪在一起，配乐、特效、字幕、音效、调色一个都不能少。若是在剪辑过程中，团队发现缺少素材，还得回到上一步。以陈坤曾经制作的北冰洋广告短片为例，纯AI制作，一分多钟的片子，包括后期做了两周。

赵康告诉光子星球，AI短片后期占比高达80%-90%。而在传统短剧的极限操作下，每集五分钟，总长三十五集的短剧，可以做到三天出剧本，四天拍完，一周完成剪辑之后上线。如此比较下来，AI短剧行业“既费马达又费电”。

如果用AI来表现贴近人类真实生活的片子，制作难度和投入成本只会更高。陈刘芳在《致亲爱的自己》里就做了一次探索技术边界的尝试。

其负责性体现在片子实拍和训练模型的过程中。陈刘芳介绍，在拿到故事原作后，先将其做了影视化改编。在绿棚实拍的同时，她的团队也在训练所需的角色模型和风格模型。“角色换一套装扮就是一个模型”，为了达到更好的效果，她训练了将近20个模型。实拍好的内容一部分进入后期软件做合成，一部分用于场景搭建，最后通过AI转绘功能，得到初步的视频画面。

转绘过后，还要上手修修补补，陈刘芳表示，“大概10%左右的镜头，需要手动化调整，比如细小的物体和细腻的角色表演”。

AI反而让短片制作的难度又上升了一个level。集结了国内超头部的导演和AI创作者，《致亲爱的自己》制作周期有两个半月之久，最终获得了第十四届北京国际电影节AIGC电影短片单元最佳影片奖项。

三、从插件到工具，AI视频最终将走向集成

陈坤有个习惯，每当出现新的AI视频工具，他就会重置一版旧作品。当被人问及，为何他做得与众不同时，陈坤只是笑笑回答道：“不过是熟练运用工具而已”。

AI视频工具厂商十分热衷于邀请行业内AI创作者来站台，陈坤前后分别与爱诗和快手合作过，陈刘芳所在的Ainimate Lab也刚刚与智谱清影、生数Vidu合作发布了AI动画短片。

这些厂商希望通过专业的AI视频创作者来宣传能达到的效果，但细究之下满是“创作者特供”，例如可控性更强的平台，额外的技术指导等等。

目前，AI视频创作者使用频率较高的国内工具有爱诗PixVerse、字节即梦和快手可灵。赵康告诉我们，“如果制作视频有一百个功能，那每家也只开发了一到两项”。

看似都在宣传生成长度、清晰度以及准确度，但实则各家都有所差异。创作者们为了能准确地生产内容，都在不断测试不同工具的长处。

“在A工具难以解决的任务，可能在B工具里就变一键功能了”，陈刘芳道。

不过，现阶段还处于让创作者主动适配工具的阶段，而原生AI应用落地姿态应当是工具适应人。

综合多位AI视频创作者反馈，爱诗PixVerse是国内最早引进运动笔刷功能的公司。对标Runway Gen-2的Motion brush，爱诗推出了Magic brush。对于专业创业者来说，意味着可以对内容画面有了控制力。相较于Motion brush，Magic brush使用门槛更低，操作也更简便，不用调节复杂的参数，仅凭“拖拉箭头”也能控制物体的运动。

对于像陈刘芳一样的创作者，爱诗PixVerse“角色锁定”功能给她带来很大便利。Pixverse在工具平台提供了创造新角色的入口，创作者可以指定角色去表演和生成镜头，锁定角色后可以保持角色人设前后的一致性。

字节的即梦就像是个平平无奇的好学生，或许不够惊艳，但是每科都能拿个70分。很多创作者反映，在快手可灵出现前，很长时间内，他们在使用即梦制作可交付的片子。AI视频厂商宣传得再天花乱坠，都抵不过落到工作流中的“可用性”和“可商业化”，而这恰好是字节的强项。

即梦还有一项独家功能：首尾帧功能。如果要生成一段3秒钟的视频，只需上传初始和结尾状态的照片，AI就能自动填充中间的变化。

陈坤《凤鸣山海》中的经典镜头“青鸾喷火”就运用了首尾帧功能。首帧插入一张鸟在空中盘旋的图片，尾帧插入一张鸟喷火的图片，就自然呈现出了鸟喷火的过程。

后来者可灵上来便开始造势，风头无两。官方数据显示，上线一个月内申请人数超50万。

可灵对世界物理定律的理解，令首批测试用户印象深刻。其中最核心的是能通过prompt来“无中生有”，比如它可以在原画面的基础上响应“举起手”“拿起杯子”“喝咖啡”等提示词，生成符合逻辑的新视频。

赵康透露，他发现可灵特别适合制作整活儿和偏向天马行空的片子。“抽卡成功率还挺高的，大概有30%-50%”。

短期内，创作者游走在各个AI视频创作平台的情况或许无法改变。一是各家资源投入有限，二是视频创作流程过于复杂，无法做到完全覆盖。这其实给了后来者居上的机会，在AI领域几乎不存在“躺平”，任何公司都要随时做好“被超越”的觉悟。

但若将视线拉长，上述反人类的操作迟早要被推翻。参考Adobe的思路，把单点的功能集成在一个工作流软件中才是实现协作和降本增效的解决方案。

未来可能需要一个平台，能够集成爱诗、可灵、即梦、生数、智谱清影等各自AI视频功能。创作者按需调用各种功能，同时Agent助手还可以辅助制作。再进一步，AI视频创作流程与整个分发生态打通，实现“制作-分发-投流”的内容创作闭环。

上述平台就像是车间，创作者提供原材料，在车间生产线加工，最后成品上架在视频商店，供市场挑选。

人类抵抗，番茄小说的AI作者上岗失败

2024-08-02aigc阅读(62)

7月上旬，多位在字节跳动旗下免费阅读平台番茄小说更新作品的网络文学作者，收到了后台系统发送的“AI训练补充协议”签署提醒。其中提到，一旦签署，其作品内容及相关信息，将被用于平台AI模型训练或其他技术研发应用场景。

由于番茄小说并未设置官方作者论坛，作者们纷纷在网络文学交流互动平台“龙的天空”、小红书等社交平台讨论、吐槽，甚至考虑更换创作平台，彻底抛弃“烂番茄”。一位今年上半年在番茄小说完结了第一部作品的作者告诉电厂，她原本对取得的成绩比较满意，甚至开始推进第二部作品的大纲，“结果番茄来这么一出，我之前还有些犹豫，要不要等到毕业之后全职写作，现在直接马不停蹄地面试实习了”。

尽管在后续的处理中，番茄小说删除了作品签约协议中的AI相关条款，并声明“没有发布过任何纯AI写作的作品，也不会违背作者个人意愿使用AI写作能力”，深感被欺骗的作者们却并不买账，他们担心，这只是一个开始。

AI创作引发的争议是全球性的。2023年12月，《纽约时报》披露，其已经对微软和OpenAI发起诉讼，后者未经许可使用“数百万篇”版权文章训练Copilot、ChatGPT背后的AI模型，以打造替代产品。此案仍然在审理中，而AI的发展对原创作品版权及其作者造成的潜在威胁，是人类无法回避的问题。

对番茄小说的作者们而言，当AI能够以大量网络文学作品作为学习资料、持续进化，进而更高效地完成内容生产、面向用户之时，就等于从“辅助”走向了“替代”，而他们，不愿让自己的心血成为AI进化的养料。

一、一纸协议，朋友变成了敌人

在因为“AI协议”引发作者声讨之前，番茄小说在一些作者眼里，其实还算是一个“不错的平台”——门槛低、上手快、限制少、机会多。

这里往往是新人作者试水的第一站。同人小说作者江月此前出没于LOFTER和贴吧，2024年初开始在番茄小说更新原创作品。她对电厂提到，由于晋江签约要求“比较高”，加上觉得自己的笔力“可能不够”，她最终选择来到番茄小说，后者“只要写满2万字就可以签约、拿稿费”。

第一部作品，江月在番茄小说实现了全勤，获得的收益足够覆盖为家人更换手机、给OC（Original Character，指原创角色）约稿，以及奖励自己吃几顿美食。作品完结至今，依然在产生收益。她对此感到满意，已经开始构思第二部作品，希望可以再接再厉，甚至萌生了成为全职作者的想法。

然而，番茄小说增设的“AI训练补充协议”及其引发的后续风波，打乱了她的计划。

所谓的“AI训练补充协议”，即2023年底起番茄小说陆续在签约作品合作协议中新增的3.2.10条款。其中提到：“甲方（番茄小说）可将签约作品的全部/部分内容及相关信息（如作品名称、简介、大纲、章节、人物、作者个人信息、封面图等）作为数据、语料、文本、素材等用于标注、合成数据/数据库建设、AI人工智能研发、机器学习、模型训练、深度合成、算法研发等目前已知或未来开发的新技术研发/应用领域。”

今年7月上旬，多位作者在社交平台反馈，收到了番茄小说发送的“AI训练补充协议”签署提醒。但这并不是面向所有作者，2020年开始在番茄小说发布作品的林静就始终没有收到相关消息，甚至有作者发帖称，是在事态发酵后查找自己曾经签署的合同，才发现已经被添加了这一条款——番茄小说的签约对象为作品，由于都是名为“2021分成”的制式合同，多数作者在再次签约时，并不会仔细翻看，只是按照惯性提交。

谈到自己的作品可能被平台用来训练AI这一话题，林静的态度是“坚决反对”。“AI虽然代表了科技的进步和发展，但是把作者的作品当作养料，这不就是欺负人吗？回过头来砸作者的饭碗，谁也不可能同意。”

在作者的抗议与舆论的风波之下，番茄小说上线了相关条款的功能入口，并发布了关于AI辅助写作条款的补充说明，称初衷是为了“开发能够帮助作者大幅提升写作效率与阅读体验的辅助工具”。“番茄官方没有发布过任何纯AI写作的作品，也不会违背作者个人意愿使用AI写作能力。我们相信人的价值，尊重并展现所有创作者的才华和梦想。AI始终只是辅助创作者实现梦想的一个创作工具。”

不过，在愤怒的作者们看来，这只是一个“玩文字游戏”的回复——不是“纯AI写作”，却无法排除“较高AI写作占比+较少人工修改”的可能。而AI辅助创作的作品，是否具备著作权法定义的作品属性、享有著作权，存在一定争议。此外，我国《生成式人工智能服务管理暂行办法》第七条规定，人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型；涉及知识产权的，不得侵害他人依法享有的知识产权。

他们之中，一部分人在呼吁更多的作者联合起来、停止对作品的更新，以实际行动表达对平台的抗议；一部分人在分享举报内容填写模板，通过12315等渠道进行实名投诉、反馈，希望借此引起广泛关注；还有一部分人，准备将写作的阵地转移至其他平台。

江月计划将第二部作品放在晋江文学城更新，尽管作品可能面临文笔、提纲、人设、看点等各个方向上的审视与要求，但她不能容忍“资本将真人作者的孩子榨成骨泥、喂给AI，AI再反刍出来喂给读者”。“反正不管怎样，番茄小说我是不会再去了。”

二、AI写网文，作者和读者双输？

AI与网络文学创作结合的例子，不只是番茄小说一家。

去年7月，阅文集团发布了行业首个大模型“阅文妙笔”和基于这一大模型的应用产品“作家助手妙笔版”。阅文集团CEO侯晓楠将AIGC之于作家的意义比作“从手动驾驶升级到辅助驾驶”。同月，七猫中文网推出“AI小助理”功能，为作者解答创作过程中遇到的问题、提供参考，其能力来自百度文心一言。去年10月，中文在线发布了AI辅助创作大模型“中文逍遥大模型”，可以根据作者创意生成故事概要、章节写作大纲，还具有续写、模拟角色对话等辅助创作功能。

番茄小说的不同之处在于，它是第一家在作品协议中明确提出将使用作者的作品内容等信息进行AI训练、进而引发大规模讨论的平台。事实上，今年5月，番茄小说就已经上线了AI写作工具功能，涉及改写、扩写、续写、起名、自定义描写、提供梗概和大纲灵感、针对卡点生成后续情节、查询资料等方面，希望“在作者写书的各个阶段、各个场景中，助力作者高效创作”。林静曾经使用过其中的扩写功能，虽然她觉得呈现效果“很尴尬，非常生硬，还不如我瞎写的”。

这也是多位作者对于AI生成作品的阅读感受。此前，有作者发现，“江沅说书”“南山没有郁金香”等多个番茄小说账号疑似AI作者。一位读者称，随意点开“江沅说书”的3部作品，开头基本雷同。“一个是‘熙熙攘攘的街道，阳光如何如何’，另一个是‘阳光洒下，熙熙攘攘的街道如何如何，还有一个是‘忙碌的街道，夏日阳光如何如何’，这不就是随机排列组合吗？”。

作品质量或许一般，但AI胜在速度。以目前已经无法查询到账号的“江沅说书”为例，其在3个月内共上架了200多部作品，每部几万字左右，多部作品同时连载，而林静日均码字4000字，番茄后台提示，已经超越了90%的平台作者。“比量，真人肯定是比不过AI的，所以这次大家才会这么强烈地反对。”

江月的忧虑集中在两个方面。一方面来自AI的学习能力——即便现在AI作者的作品“缺乏人味儿”，随着作品的沉淀、写作能力的升级，“一定会写得越来越好”，必然威胁到身处其中的作者。另一方面则是平台的动作——她认为，由于番茄小说不存在作者个人IP的打造，如果平台不加标注和区分地推荐AI作者的作品，基于流量的灌注，许多真人作者的作品将难以被读者发现并阅读。

如果AI作者的养料来自真人作者和他们的作品，那么所谓的“辅助创作者实现梦想”就变成了“糟蹋作者的心血”“扼杀作者的梦想”。发展空间被挤占，对作者、尤其是成长中的新人作者而言，无异于毁灭性的打击。“完全隔绝、打断了作者积累受众、以勤补拙的过程。”江月补充。

一位读者意识到，不仅是作者，当AI作品在网络文学行业大行其道，读者同样失去了触及精彩脑洞和绝妙创意的机会，相当于作者和读者的双输。“现在，AI生成的剧情是套路化的，文笔是程式化的，大量同质化的内容涌入市场，作为读者，只能从垃圾堆里回收心仪的作品。就算之后这些作品和真人作品一样，几乎难以分辨，我需要的仍旧是真人作者的输出，是真实的情感体验。每一位作者的灵感都无比珍贵，作者与读者的双向奔赴，难道是AI作品可以代替的吗？”

三、流量生意，需要更低成本

字节跳动官网上，对旗下产品番茄小说的描述是“一个面向网文热爱者的免费阅读平台，拥有海量正版小说，涵盖青春、言情、玄幻、校园、仙侠、都市、悬疑等全部主流网文类型，致力于为读者提供畅快不花钱的极致阅读体验。目前用户规模超过1亿，是小说类产品中的新兴国民级产品”。

番茄小说上线于2019年，主打“免费阅读+广告”模式，用户不需要付费订阅小说章节，只要将广告浏览完毕，即可顺利通往故事的下一站。林静记得，彼时和作者签约的还是木叶文学网，后者“高价保底、到处挖人”，作品可以在番茄小说、今日头条App进行分发。

免费阅读，是番茄小说吸引用户的基础；较低的门槛，则是其招徕作者的关键。在番茄小说，只有签约作品才能够获得平台推荐、读者打赏、作品稿费。目前，作者在番茄小说完成实名认证后，作品创作满2万字可以申请签约，达到8万字可以开启推荐分发，创作空间相对宽泛，没有文笔和风格层面的限制。

至于作者的收益，分为以下几个部分：番茄小说App内阅读和听书产生的广告收益分成、内外部渠道收益分成、内外部版权收益分成，所有签约作者还可以获得读者赠送礼物收益的70%。另外，买断或保底签约的作者可以获得千字15-3000元的保底或买断稿费，番茄小说还额外设置了全勤奖、完本续签奖以及平台激励计划等多项奖励措施。

江月表示，番茄小说的收益“不是很透明”。每天中午12点，平台会为作者更新前一天的收益情况，“但你不知道这些收益是按照什么标准计算的，所谓的单价都是作者自行比对的结果”。可以确定的是，每3-5章一条的广告，是读者解锁章节的钥匙，读者阅读或听书的点击量越高、读者浏览广告次数越大，作者获得的收益也就越多。

无论是从作者还是平台的角度来说，这都是一桩与流量直接挂钩的生意——通过免费阅读壮大用户规模，用户产生内容消费、浏览广告，广告主的投放为平台和作者创造收益，平台与作者进行分成，作者获得收益后持续创作。江月对电厂透露：“番茄小说的老读者是‘不值钱’的，如果你的作品都是以前的读者来看，单价会逐渐变低，只有带动更多新人来看，这部作品的价值才会提高。”

QuestMobile发布的最新报告显示，36岁以上年龄段用户、三四线城市用户构成了在线阅读平台的高粘性用户群。下沉，一直是番茄小说的读者标签。江月平时坐公交车或打车时，经常遇见将手机放在一边听书的司机、大爷。“在番茄小说听书是可以赚钱的，这些用户不会在意作品来自真人还是AI，就算知道了可能也不在乎，打发时间又能刷个几块钱，这不就行了吗？”

在前述读者看来，真人作者需要稿费，这是平台不得不付出的成本。如果AI作者能够取代一部分真人作者，在满足下沉市场大部分读者需求的同时，既降低了平台的成本、又提高了作品的创作效率。“霸总、穿越、萌宝、修仙、战神、复仇，需求催生供给，先瞄准下沉市场的主要题材类型，把读者培养起来，之后再针对AI作品提供流量，不是一样看吗？这些读者什么也不知道，就自动成为了链条上的一环。”

林静在番茄小说的最新作品即将完结，“AI协议”事件发生后，她不打算继续在这里更新。“以前觉得写文起码能写到老，不会失业，现在真的说不准了。”然而，“想跑就跑”并不适用于所有作者。江月告诉电厂：“小作者的沉没成本是很低的，卖了版权的那些高等级作者也可以躺着收钱。中间的作者很多都是全职的，他们最惨。”

（文中江月、林静均为化名。）

上一页
1
···
7
8
9
10
11
12
13
...
下一页
共 26 页

AIGC 第10页

一、遍地都是Agent

二、大模型战场无硝烟

三、互搭“顺风车”赚钱

一、创始人紧急求助：不收费就要破产了

二、背后开发平台Wordware，估值1.8亿

一、2024，机器人开始有了人的“身体”

二、通用机器人之前：人形机器人的形态之争

三、从技术路线到场景，具身智能企业“摸着石头过河”

四、人形机器人的「确定性」在哪？

引言

一、大语言模型为何有效又为何失败？

二、神经符号学人工智能指明了方向

一、AI生成广告片，除了省钱还有什么

二、失去灵魂的AIGC广告片，降本增效成伪命题？

三、被称赞的AIGC广告片长什么样

一、概览

1. 整体设计

2. 开发速度

3. 评价输出好坏

4. 调用内部API

5. 保持统一的质量

6. 容量与延迟

二、收获

一、AI短剧的“账本”

二、制剧的AI“变形记”

三、从插件到工具，AI视频最终将走向集成

一、一纸协议，朋友变成了敌人

二、AI写网文，作者和读者双输？

三、流量生意，需要更低成本