欢迎光临
我们一直在努力

爆火毒舌AI每小时赚2.8万!每分钟36个新用户,火遍全球只因改了一句提示词

aigc阅读(42)

爆款AI应用开发者来晒收入了:

每小时赚4000美元!(约2.8万元)

说的就是病毒式传播的“毒舌AI”Twitter Personality,只需输入一个推特用户名,就能得到AI根据历史发言做的犀利点评。

而且只要是公开账号就行,并不需要获取任何权限,除了查看AI对自己的看法,还可以用来恶搞朋友,甚至名人。

比如马斯克是肯定逃不过这一劫的。

首先AI会总结出几个能代表这个人的表情符号:火箭(SpaceX)、电池(特斯拉)、大脑(Neuralink)、金钱、地球、机器人……AI看来是真的懂老马。

下面就开始一顿输出了,马斯克数次推迟赛博皮卡的黑历史、自负的性格都没有放过。

这款毒舌AI最火的时候主打一个刷屏,全球网友不停分享的结果看不过来,根本看不过来。

目前他们已经达到了500万用户里程碑,并在8小时内赚到了22000美元(约15.7万元)。

就在这个能大割特割的关键时刻,作者Kyzo却站出来宣布:我们在GitHub上完全开源。

所有代码、包括提示词都是开源的,你们可以尽管拿走,去创造自己的套壳应用。
我们没什么可隐藏的, 是时候开始创造了。

一、创始人紧急求助:不收费就要破产了

“毒舌AI”Twitter Personality构建在低代码开发平台Wordware之上。

如果你消息灵通,前几天就玩到了,那么恭喜你,当时还可以免费试玩。

自从8月7日用户一波暴涨之后,他们就感觉网站流量和大模型token都开始烧不起了。

创始人之一Filip紧急在线发帖求助,请大家帮忙出主意,到底怎么加点收入合适,不然只能遗憾关闭,谁也玩不了了。

他们还想找Anthropic白嫖点Claude API积分,从中也可以看出,他们使用的大模型正是最新Claude-3.5-Sonnet。

然鹅现实根本不会等他们想好主意,疯狂涌入的用户每一秒都能烧掉大量金钱。

最终他们只能简单开启付费墙,并随时调整价格,走一步看一步。

作者Kyzo透露,用户增长过快时他们就开启收费,一段时间后增长不足了就恢复免费,再带来一波病毒式传播。

从收入随时间变化图表上可以看到明显的周期性。

价格本身也是随时动态调整,以及根据不同地区消费能力分别制定的。

发达地区6.99美元玩一次(约50元),消费能力不高的地区定在1美元左右(约7.17元)。

不过如果有人为一个账号付过款了,后来的用户也可以免费直接查看结果。

后来功能更新,还增加了查看两个账号是否合拍的功能,也是50元才能玩一次。

就有点朋友圈“想知道你和ta的缘分指数吗?发送:你的姓名+心仪对象姓名,如:郭靖+黄蓉,并v我50”的feel了。

而且自从在日本火了之后,他们发现日本用户不光真的爱玩这个,而且是真的肯付费,也就在日本的晚间黄金时段达成了4000美元一小时的成就。

那么这款美国AI应用是怎么在日本和全球市场开始流行的呢?

根据Filip分享,最初只因修改了一句提示词:使用该账号大多数推文所用的语言回复。

没有修改代码,没有额外投入宣发。修改一句话就能打开全球市场。

这就是大模型“自然语言编程”带来的魅力吧。

二、背后开发平台Wordware,估值1.8亿

背后低代码开发平台Wordware,可谓是ProductHunt新品发布平台现象级产品,让任何人都可以构建复杂的AI Agent和APP。

其团队成员表示,过去24小时内,平均每分钟就有36.03位新用户注册。不是一个空洞的宣传口径,他们甚至直接晒出了后台数据库查询截图。

上一个在ProductHunt如此火爆的,还是风靡全球的笔记工具Notion在2018年的2.0大改版。

在操作上,Wordware也和Notion一样是模块化的,同样以“一行”为可操作的最小单位,同样熟悉的斜杠调出命令菜单。

用户可在一个编辑器里构建、测试、协作并部署提示词及其相关的逻辑,用简单的文字就能构建app。

Wordware名字与软件(Software)、硬件(Hardware)同源,或许可以翻译为“词件”。

基于Wordware构建的APP则统称为WordApps。

Wordware今年春获YC投资,在YC前估值已达2500万美元(约1.8亿元)。

团队目前只有3个人,创始人Filip Kozera、Robert Chandler,十年前在剑桥因对机器学习和大语言模型的共同爱好成为好友。

团队成员Kamil Ruczynski也经常活跃在社交平台,今年三月份加入Wordware,任增长主管。

俩人都曾在不同领域推出过机器学习产品,在“AI Ops”这个词还没爆火的时候,就开始研究BERT、GPT-2等一些早期的大模型,创建高性能技术栈。

创立Wordware前,Filip Kozera也创过业,共同创立了一家致力于增强人类记忆的公司,名为KRISTALIC,融资超1000万美元。

生活上他的爱好也非常广泛,旅行到过103个国家,并参与过多次高海拔登山救援行动,还参加帆船、滑翔伞、风筝冲浪和拳击等活动。

而Robert Chandler,是英国公司FiveAI的首批工程师之一,领导其离线感知团队。

FiveAI是一家致力于用最新AI技术实现自动驾驶的公司,后来被德国汽车零部件巨头博世集团收购。

2021年Wordware成立,Filip Kozera任CEO,Robert Chandler任CTO。

Kamil Ruczynski曾在哥本哈根商学院攻读建筑技术和建筑管理专业,后辍学。又在SGH华沙经济学院读管理学,两年内完成了三年制课程。

领英显示,Kamil Ruczynski曾在外卖平台foodpanda担任亚太地区高级经理、还在管理咨询公司EY-Parthenon担任过高级战略顾问。

而这次“毒舌AI”Twitter Personality的主要作者Kyzo是一位独立开发者、数字游民,与Wordware官方合作密切。

目前Twitter Personality是整个平台上最成功的应用,以及金字招牌,在谷歌上搜索Wordware就会发现他们把它放在了主页之后的第一个。

点进去之后可以看到,除了试玩之外,利用这泼天的流量给平台宣传放到了同等重要的位置。

只需点击注册,就可以在此基础上直接二次开发。

就这样,爆款应用的全部秘密不过800字提示词+简单的爬虫代码,就这样公开了。‍

或者说只要把产品的想法描述出来,产品也就有了,点击“Run”按钮就可运行。

CEO Filip Kozera透露过去的两年半他和Robert Chandler其实是在逆境中建立起的坚固的伙伴关系,而他们的终极目标是:

彻底改变企业应用AI的方式。

他们坚信领域专家在AI应用开发中的重要性,因为各领域专家知道什么是好的回答,而程序员不知道。

同时他们也提出“AI增强人类能力”,AI能够处理大量数据并识别人类可能忽视的模式,但最终的决策往往需要人类的判断考量,必须让人类参与其中。

事实上这个理念几乎已经是AI圈的共识,早在ChatGPT刚发布的时候,OpenAI创始成员Karpathy就认为,大模型让英语成了一种编程语言。

到了2024年,英伟达创始人黄仁勋也在公开场合发表“人类语言是最新的编程语言,世界上的每个人都是程序员了”这样的观点。

有网友评价Wordware正是老黄这个理念的产品化体现。

试玩地址:https://twitter.wordware.ai

参考链接:

[1]https://x.com/ky__zo/status/1822187239117308264

[2]https://www.ycombinator.com/companies/wordware

[3]https://x.com/kozerafilip/status/1820957760458281317

[4]https://www.youtube.com/watch?v=S0FQiqVQkVM

深度|吴恩达最新 Ark Invest 洞察:AI 基础模型竞争激烈,训练成本每年下降75%,推理下降86%,大厂优势难长期保证

aigc阅读(32)

近日,吴恩达(Andrew Ng)与 ARK Invest 首席投资策略师 Charlie Roberts 以及首席未来学家 Brett Winton 展开了一次对谈,吴恩达分享了关于 Agent Systems 和开源技术的一些极具启发性的观点。

吴恩达表示,他对 Agent Systems 的高度信心,认为这些系统不仅已经出现,而且在技术层面几乎没有太多的风险,主要挑战在于如何有效执行。

此外,他认为开源所带来的优势远远超越了潜在的风险,引用 GPT-2 的例子来说明,即使当初被认为太危险而无法公开的技术,如今却被广泛应用,证明了开源在推动技术进步中的巨大潜力。

吴恩达还特别强调了分销渠道在 AI 系统部署中的关键作用。他指出,拥有强大的分销渠道不仅能够加速系统的发布,还能在实际应用中快速验证和改进这些系统,这对于 AI 技术在商业化进程中的竞争优势至关重要,也预示着在未来,渠道的有效性可能会成为决定 AI 技术成败的关键因素。

ARK 预测,到 2030 年 AI 软件将会是一个 13 万亿美元的收入市场,相比之下,但今天的整个 IT 支出大约为 4~5 万亿美元。

吴恩达最新 Snowflake DevDay 演讲:除了下一代基础模型,Agent 工作流如何推动更多 AI 进步?

吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式,相比 LLM 更强调迭代与对话。

以下为这次对话的主要内容:

Charlie Roberts

Andrew 是 AI 领域最具影响力的研究人员和教育家之一,他在多个高调的角色中都取得了巨大成就,如 Google Brain 的联合创始人和领导者、百度的首席科学家、 Coursera 的联合创始人,以及在 Coursera 上教授了许多最受欢迎的课程,同时还是 AI Fund 和LandingAI 等多家公司的联合创始人和董事。

我觉得最让我感动的数据是你告诉我,全球每千人中就有一人参加过你的 AI 课程,这对整个社区和生态系统来说都是一个巨大的贡献,真是令人鼓舞。所以,我很高兴能够与你讨论 AI 的未来和其他相关话题。

Brett Winton

非常高兴见到你,我想或许可以请你从概述一下你对当前 AI 发展阶段的看法开始。关于 AI 的讨论很多,其实已经有一段时间了。

有人说 AI 遇到了瓶颈,或者我们在性能上的进步不会带来实际的生产力提升。你怎么看目前 AI 的能力和未来的发展轨迹?你如何评估这个问题?

Andrew Ng

在过去的 10~15 年里,总有少数声音在说 AI 遇到了瓶颈,我觉得这些说法一次又一次地被证明是错误的。我们距离碰到瓶颈还很远,我甚至惊讶有人在这个时候会认真这么说。

AI 是一种通用技术,它的发展已经非常迅速,现在有一些新的突破即将出现,未来我们将看到 AI 在多个领域的应用快速增长。

目前,大家对生成式 AI 和 LLM 非常关注,我们已经能够让这些模型完成的任务,远远超过了目前已经部署的内容。很明显,更多的推理能力、更多的 GPU 或其他类型的硬件是将更多 AI 推向世界的瓶颈,这个问题我们知道将会得到解决。

为了供应链、 GPU 和其他硬件的供应,有非常强的经济动机来解决这个问题。因此,即使 AI 不再发明任何新技术,在未来几年中 AI 的部署量仍会大幅增加。

当然,更好的消息是,还有更多的新技术正在研发中,并将叠加在现有技术之上,推动未来更多的应用。

Brett Winton

总结一下,你的意思是我们现在拥有的能力实际上还没有真正进入商业市场,所以仅仅通过部署这些能力就能带来大量的生产力提升。此外,在技术架构方面的改进还会进一步提升能力,这是正确的理解方式吗?

Andrew Ng

是的,事实上,我与一些有想法甚至是已经开发出原型的人交谈过,他们希望通过 AI 实现显著的投资回报率,但由于各种原因,他们无法获取 GPU ,或者成本有点高,或者他们没有足够的软件工程师来实现这些想法,所以这些项目还没有真正落实。

因此,已经有很多经过验证的想法可以带来显著的投资回报率,但由于硬件限制或其他原因,这些项目还没有被部署。我百分之百相信,未来一到两年内,这些问题将会得到解决,这就是为什么我对未来将有更多有价值的 AI 项目感到非常有信心。问题在于如何获取和部署 GPU ,以及解决供应链问题。

一旦这些问题得到解决,更多的项目将会落地。我对即将到来的技术感到非常兴奋,比如 AI Agent 或我们称之为 Agentic Workflow 的技术。现在很多人使用的 LLM 的方式是,你输入一个提示,它输出一个结果,然后就结束了。这就像让一个人写一篇文章,但要求他一次性完成,不允许使用退格键。

当然,人们可以这样写作,但我们最好的写作并不是这样完成的。我们更倾向于使用迭代的工作流程,比如在线写作,先写一个初稿,然后进行编辑、研究等等,这是一个更加迭代的过程,可以帮助人们交付更好的工作成果。Agentic Workflow 也类似,它能显著提高很多 AI 应用的准确性。

当然, Agentic Workflow 的一个瓶颈是我们需要更快的推理能力,因为你需要多次调用它,反复迭代产品。然而,许多人正在努力解决这个问题,我非常有信心,随着更好的硬件上线,这些工作将会得到更大的改进,不仅在 AI 训练方面,而且在 AI 推理方面,更多的工作将会完成。

我受到你们的报告的启发,其中你们估计训练成本每年下降 75%,推理成本每年下降 86%。虽然我不确定这些确切的数字是否准确,但我确实看到成本在迅速下降,这对于进一步的创新是非常有利的。训练和推理成本的下降将会推动更多的应用。

Brett Winton

是的,我们的基本观点是,不仅成本在下降,还有大量投资资金涌入,因此你将成本下降和投资资金相结合,最终在两到三年内预期能力提升一百倍甚至一千倍。

你认同像 John Locond 所说的那样,系统在运行时会有一定的错误率,即使是 Agent Systems ,这个错误率会随着时间的推移而累积,实际上你正在处理的工作流程越长,生产力就越会受到影响,因为错误在累积。

你认为在当前的架构下,这个问题是可以克服的吗?还是我们需要新的架构来让 Agentic Workflow 真正稳定地工作?

Andrew Ng

如果你在做开放式工作流,那么是的,每一步都需要完美无缺,但是一旦你实现了 Agentic Workflow ,你就可以回顾步骤并修复错误,那么累积问题就会大大改善。举个例子,我曾经设定了一个非常简单的 Agent 来进行在线研究,它的任务是撰写一份报告。

我记得我在斯坦福大学做现场演示时,由于某些原因,那个时候调用的网络搜索失败了,我当时心想“糟糕,演示要失败了”,但出乎我意料的是, Agent 说“网络搜索失败了,让我用维基百科搜索代替吧”,而我完全忘了我还给它设置了维基百科搜索的备用方案。所以, Agent 在面对失败时能够自主切换到备用方案,演示仍然成功了。

Agentic Workflow 虽然不是魔法,也会犯错,但它们有能力在出错时回顾并修复,这使得系统更加稳健。我不想过分类比 AI 和人类,它们有很大不同,但就像人类一样,我们在做事情时第一次可能不会成功,但我们有反思和修复的能力,这使得人类在执行任务时更加稳健。AI Agent 也能够做到这一点。

Brett Winton

你认为要实现真正的 Agentic Workflow ,我们是否需要一个像 Transformer 那样的架构级别的改进?还是说可能通过有效结合现有的工具,比如 LLM,加上强化学习,甚至可能再加上扩散模型,已经足够了?你觉得目前这些工具能帮助我们实现这一目标吗?

Andrew Ng

Agentic Workflow 在现有的 Transformer 模型下已经工作得很好了。我知道有研究人员在探索 Transformer 替代模型,这些模型很有前景,值得进一步研究和测试。虽然拥有更好的模型会很棒,但我并不认为这是绝对必要的。

然而,有一个方面被低估了,那就是快速推理和快速生成控制的能力。直到最近,很多大公司都在花费巨额预算购买 GPU 用于训练,这很好,因为它为我们带来了大规模的基础模型,包括专有和开源的模型。

但我发现,快速推理的能力正成为许多应用的瓶颈。当 Meta 发布 Llama 3 70B 模型时,这是一个非常出色的开源模型,如果我们能将推理速度提高 10 倍,我们就能让这些 Agentic Workflow 运行得更快。

对于人类来说,阅读速度大约是每秒 6 个 token ,所以你不需要生成比每秒 6 个 token 更快的内容。但对于 Agentic Workflow 和 AI ,可能需要草拟草稿并修复错误,这意味着它需要生成大量的 token ,可能需要在人工干预之前完成大量工作。

有时, Agentic Workflow 可能需要花费 25 分钟的时间来处理工作,如果我们能将这 25 分钟的处理时间压缩到2分钟,这将是一个改变游戏规则的突破。

这会显著改变客户体验,从20到25分钟缩短到1到2分钟,因此在快速生成 token 方面还有很多工作要做,这将有助于推动下一波 AI 的应用。

Brett Winton

这些工作与训练密切相关,对吧?AI 推理和训练中的一个有趣动态是,如果我在系统上投入更多的训练资金,像 Meta 正在做的那样,我可以将更多的信息压缩到一个更小的参数模型中,从而可以更快、更便宜地运行。

这使得性能提升和成本下降同时发生,这就是一个有趣的动态,这取决于你在训练计算上投入了多少资金。

Andrew Ng

是的,这些都会有所帮助。即使你使用一个大型模型,比如一些商用网站上的 LLM 可能每秒生成 10 个 token 左右,这个速度已经非常快了。

我们大多数人每秒阅读大约 6 个 token ,所以每秒 6~10 个 token 的速度已经足够了。虽然模型不同,但我们可以生成更多的 token ,而且有些公司也在生成每秒数百个 token 的内容。还有一些公司在私下里分享说,他们也在开发便宜且超快的 token 生成技术。

这些公司的工作将解锁许多新的能力,而这种超快的 token 生成技术,每秒超过100个 token 对于大模型来说是非常重要的,这让我们能够做出非常复杂的事情。我实际上很高兴看到更多的半导体制造商认真对待推理,因为推理现在是很多应用的瓶颈。

另一个有趣的现象是,一些大公司完全合理地投资了 GPU 基础设施用于训练,他们拥有非常出色的 GPU 团队,建立了卓越的训练基础设施,然而,这些团队也倾向于说“我们已经建立了最佳的训练基础设施,那么我们也来建立推理基础设施吧”,因为他们在训练方面做得很好,所以自然就去做推理了。

但是,我们现在应该认真思考,训练和推理基础设施是否应该是同一套基础设施?还是说它们之间有足够的差异,甚至需要新的架构?这是一个值得讨论的问题。

Brett Winton

当然,如果是在终端设备上,它们肯定是不同的,对吧?例如,如果我要在特斯拉车辆中安装芯片,这就是完全不同的架构栈了。你可以辩称,从消费者的实用性角度来看,有很多令人信服的理由说明为什么有些甚至大部分的处理应该转移到终端设备上。

Andrew Ng

是的,在设备上的确如此,即使是在云端,训练和推理工作流之间也存在足够的差异,这值得我们从架构和软件堆栈的角度进行思考。

Brett Winton

Andrew ,在教学方面,你的一大贡献之一就是强调人们和开发人员在学习机器学习时需要关注 MLOps ,不仅是研究方面,还有实际应用。我想知道,在 MLOps 中,你是否看到未来有可能将推理与训练分开进行的趋势?

Andrew Ng

是的,因为 LLM 应用还是很新,所以 LLM Ops这个领域还在探索阶段,如何构建、部署和维护 LLM 仍然是一个相对新的领域。

AI 堆栈正在发生巨大变化,云服务提供商正在推出有趣的编排层,比如 Harrison Chase 在 LangChain 上做得很好,Jerry Liu 在 LlamaIndex 上也做得很好,这些都是编排层。

还有其他应用程序构建在这些基础之上,另一个即将出现的有趣框架是 Agentic Framework,这可能是另一种编排层。

我花了很多时间在应用层,因为我发现有很多机会,比如在 AI Fund,我们与企业合作,他们带给我们很多用例,我们环顾四周,发现几乎没有竞争对手。这说明在应用层面仍然有很多新机会,而且竞争没有基础模型层那么激烈。

Brett Winton

对于那些应用层面的公司,他们如何思考自己接入的底层模型,比如基础模型?他们是选择使用现成的 GPT-4 ,还是会设计成能够切换到另一个基础模型?或者他们会对 Llama 进行微调?你怎么看待应用层面在竞争中的策略,以及它将如何影响底层堆栈的竞争?

Andrew Ng

这个领域变化非常快。在很多项目的初始阶段,团队往往会使用 GPT-4 ,最近几周, Llama 3 变得越来越有竞争力,我听到很多团队使用 GPT-4 ,这在当前是最常见的选择。

但一个瓶颈是评估,开发成本和时间比以前大大缩短,你可以在一天内构建出一个有吸引力的应用程序,但评估可能需要花费更多的时间,这使得人们不太愿意切换模型。

如果你开始使用 GPT-4 ,但无法有效评估其他模型,你可能会继续使用最初的选择。但我看到很多人正在努力开发更好的评估工具,以便更高效地比较不同的模型。

Brett Winton

我们对 Claude 的发展感到非常兴奋, Claude 是我们从风险投资基金中最早投资的公司之一,我们与公司保持密切联系,非常看好它的前景。

您对当前关于开源的讨论有何看法?这似乎是一个非常两极化的讨论,尤其是在数据科学和机器学习领域,许多人对这个问题有非常强烈的看法。

Andrew Ng

开源非常重要,我们应该尽力推动开源,因为它会让世界变得更好。我对去年反对开源的强烈游说活动感到非常惊讶,这些活动实际上会扼杀美国的创新,也会压制全球的创新。

你可以理解,当有人在大规模训练基础模型上投入了数十亿美元,然后发现其他人通过开源稀释了这些昂贵投资的价值,这让他们感到非常沮丧。游说活动开始时的主要论点是 AI 可能会失控并关闭系统,这一论点在华盛顿特区失去了信誉。

游说者没有放弃,他们转而声称 AI 可能会被用来制造生物武器,但随后出现了报告显示, AI 并不比电子表格更容易被用来制造生物武器。

AI 不太可能制造生物武器的恐惧并没有得到证实,这让生物武器的论点失去了很大一部分信誉。

然而,游说者没有放弃,他们现在的论点是国家安全问题,认为开源可能会让欧洲竞争对手受益。我对这些游说活动的力度感到惊讶,他们不断改变论点以推动关闭开源的议程。

开源是全球 AI 技术供应链的一部分,它反映了各国的价值观。例如,很多国家使用 Google Docs ,而 Google Docs 在共享文档时非常容易,但它在锁定文档时相对较难。这反映了 Google 内部开放的文化。

而 iMessage 的端到端加密则反映了注重隐私的价值观。每个国家的技术往往会反映其价值观,如果民主国家不参与 AI 的供应链,那么其他国家将会填补这一空白。

Brett Winton

撇开对开源的监管压力不谈,你认为在未来的状态下, Meta 投下数十亿美元训练这些模型并将其公开发布的努力,是否会削弱封闭的 LLM 基础模型类玩家的经济效益?这是否会对 OpenAI 和 Anthropic 等公司的商业盈利能力构成威胁?

Andrew Ng

目前,在基础模型层面确实存在挑战。根据你们的报告,成本每年下降 75%,这使得保持领先地位变得非常困难。

令人沮丧的是,你可能花费了 1 亿美元来训练一个模型,但一年后,竞争对手只需要 2500 万美元就能做到,接着再过一年,这个成本可能又会下降四分之一。那么这种情况下的动力在哪里呢?

不仅仅是纯粹的基础模型层面,其他层面可能会有所不同,也许对消费者来说会有所变化。今天来看, LLM 的成本优势非常明显,或许有些问题需要重新审视,但变化不大。

我们会看到这些技术的进一步发展,未来可能会有其他技术组件来增强基础模型的竞争力。如果只看基础模型,而没有其他内容,我不知道这种模式能有多大的护城河。

Brett Winton

你认为 Meta 之所以能够进入这个领域,是因为在 ChatGPT 推出之前,团队乐于公开他们的研究成果,他们会说“这是我们的配方,这是我们构建它的方法”,有一种公开的精神。即使模型是封闭的,它们也是出于安全原因而封闭的,并且共享了架构和方法。

随着 GPT-4 的推出,情况发生了变化,现在人们不再愿意公开分享他们的方法。所以,是否有更多的机会让团队之间的性能差异更加明显,因为现在这些配方不再公开共享了?

Andrew Ng

各个公司之间的人才流动和想法传播仍然很强烈,因此很难长期保守住秘密。你可能会在短期内获得一些优势,但长期来看,防御性的作用不大。

我看到的情况是,在大科技公司之间的竞争中,尤其是在 AI 和云业务方面,确实可以获得短期优势,但长期优势我不确定能否持续。

你提到人们以安全的名义保守秘密,这确实很有趣。在过去的十年中,每当有人说“我的技术太危险了,我要保密”时,通常过了一两年,类似的技术就被开源了,而且带来的好处远远超过了潜在的危害。

我并不是说没有危害存在,确实有一些不良分子利用开源技术,但总体上,每当有人说“我的技术太危险了”,通常过不了多久就会有开源版本出现,而开源带来的好处远远超过了潜在的危害。

以 Llama 3 为例,最初的版本有一个有限的上下文窗口长度,但因为它是开源的,现在开发者已经修改了 Llama 3,扩展了它的上下文窗口长度。我们无法在封闭模型中实现这一点。所以开源创新的力量非常强大。我们现在能够以非常低的成本提供这种恐惧感,这是开源带来了大量的创新。

Brett Winton

Llama 开源的商业逻辑并不神秘。实际上,我看到 Meta 在开发 PyTorch 时也采取了类似的策略。Meta 意识到自己需要一个开源的平台来构建业务,而不是依赖于竞争对手的专有平台,比如 TensorFlow 。

Andrew Ng

是的, Meta 对依赖其他平台的敏感性并不令人意外。例如,当 iOS 更改其隐私规则时,这会影响 Meta 的业务,因为 iOS 是一个专有平台。

当我的前团队在 Google Brain 开发 TensorFlow 时,我们实际上雇佣了 Reggie Monger,他是一个出色的领导者,负责开发 TensorFlow 。

Reggie 和我都是出色的工程师,当你意识到主流的深度学习开发平台可能会被竞争对手的专有平台控制时, Meta 的做法非常聪明。

Meta 没有试图拥有这个平台,而是创建了开源的 PyTorch ,随后它获得了大量的动能,并且大大降低了被其他人控制深度学习平台的风险。

由于 Meta 并没有运营大型云业务,因此它只需要一个开源的平台来构建社交网络和通信业务。

从商业角度来看, Meta 确保有一个开源的基础模型和生态系统是非常理性的,因为这样一来, Meta 就可以在此基础上进行构建,而不必担心依赖于封闭的平台,比如 iOS 可能在某个时候改变规则。

因为 Meta 没有运营大型云服务,所以它没有动机保持封闭状态以销售 API 调用。总的来说,这是一个非常理性的商业决策。但这也不影响我们对 Meta 开源这一宝贵举动的感激之情,即使它背后有着非常合理的商业模式。

Brett Winton

你认为对于 AI 应用公司来说,比如某家公司如果设计的能力水平达到了 GPT-4 的水平,那么他们其实可能是在犯一个大错,因为我们很快就会有更强大的能力,也许就在今年或明年。

那么,你是否预见到这样的战略格局:OpenAI 推出非常有意义的进步,然后其他公司大约六个月后才跟上?在 AI 应用方面,这种技术进步的速度是否会改变你对可能具有商业化潜力的 AI 应用的看法或做法?

Andrew Ng

听起来这是一个很好的领导者,自从他还是本科生时,我就认识他了。他当时在我父亲的实验室工作,很久以前的事了。我非常尊重 OpenAI 的一点是,他们在推动 AI 方面非常积极进取。他们确实很大胆,做出了很多赌注。

当你这样做时,并不意味着每一个赌注都会成功,但只需要少数几个成功的赌注,你就可以取得巨大的成果。所以 OpenAI 确实在做很多不同的事情。

我不想猜测他们所有的计划,但我确实认为训练基础模型是非常重要的,我很期待看到 GPT-5 的发布,我确信它将比 GPT-4 更强大得多。但我也相信,GPT-5 仍然会有很多事情做不到,很多其他应用仍然需要在它之上构建。

我的团队做了一个小研究,表明在编码问题上使用 GPT-3.5 与使用  Agentic Workflow 的 GPT-4 相比, GPT-3.5 的表现其实更好。所以虽然从 GPT-3.5 到 GPT-4 的进步非常令人兴奋,但使用 Agentic Workflow 带来的改进实际上超过了这个进步。

我非常乐观地认为,不管是 GPT-5 还是 Gemini 2,当它们发布时,我都很期待它们的表现,但我也相信,现有模型的 Agentic Workflow 和其他创新仍然能在解决非常有价值的业务问题和应用问题上走得很远。

Charlie Roberts

关于这个问题, Andrew ,我记得你多年来对医疗保健非常感兴趣,我相信你家里也有医学背景的人。

Mustafa Suleyman 在他的书《 Becoming Human 》中提到了他对现代图灵测试的看法,他举的例子是,如果你能给一个 Agentic 系统 10 万美元,并让它生成 100 万美元的年收入,这将是一个令人惊叹的成就,比如它需要去设立一家公司,编写营销计划,并开始执行这些任务。

你有没有想过,无论是在医疗领域还是其他领域,有没有一个现代版的图灵测试是你希望看到的,可能在不久的将来 Agentic 系统能达到的目标?

Andrew Ng

AI 和人类智能是非常不同的。两者都非常有价值,我们总是试图将 AI 与人类可以做的事情进行比较,这没什么坏处,但,由于人类智能如此独特,实际上很难让 AI 做所有人类可以做的事情。

当然,我们希望 AI 能够做到,希望我们有生之年能看到这一天的到来,但即使在我们试图让 AI 达到人类水平之前, AI 已经能够在很多领域远远超越任何一个活着的人类,这本身就具有巨大的价值。

所以我更关注的是一步步的进展,这种进展正在非常迅速地发生,这个进展包括 AI 能够做的事情的范围,以及各个行业的应用,而不是仅仅试图达到某种类似图灵测试的标准。当然,对于研究人员来说,这样的测试也是很好的研究方向。

Brett Winton

最终来说,基准测试有用之处在于它们能够指示某种可以商业化并大规模应用的实际应用,这样才能变得真正有意义和现实化。而你非常专注于将 AI 带入市场的实际应用。

你对语言生成之外的应用有何看法?你怎么看待语言以外的应用,比如机器人技术、自动驾驶出租车和医疗领域?你对这些领域的进展速度有何期待,你认为这些是值得关注的领域吗?

Andrew Ng

我们正在朝着那个方向前进。文本革命首先通过 LLM 到来,但我看到图像处理革命也将随后到来。我指的不仅仅是生成图像,而是分析图像。

比如,LandingAI 正在进行关于大型视觉模型的工作,在未来很短的几年内,我们将在 AI 分析图像的能力上取得很大进展。不仅仅是文本分析,图像分析也会迅速发展。

至于应用和 AI Fund 所涉及的领域,我们实际上试图保持行业中立。因此,我们重新设计了我们的战略,目的是通过视觉表达 AI 技术。我们知道 AI 的能与不能,但由于 AI 是一种通用技术,适用于医疗保健、金融服务、物流、教育等多个领域,我们无法同时掌握或关注所有这些领域。

因此,我们在 AI Fund 中的策略是,我们非常喜欢与拥有专业知识的企业合作,这些企业通常是我们的 LP,也可能不是LP。

我们与拥有深厚行业专业知识的大型公司合作,这些公司在特定领域有深厚的市场知识和技术知识,我们通过合作,共同开发出一些非常独特的东西。

我们确实在医疗保健领域有所涉足,这是我们的一个示例。在我们最近的医疗保健项目中,我们与在某些地理区域拥有深厚专业知识的合作伙伴合作,他们不仅在市场和市场进入方面有深厚的知识,而且还能与我们的技术知识相辅相成,让我们尝试在美国以外的医疗保健市场中构建一些非常独特的东西,因为我们认为这些市场可能更容易首先攻克。

有趣的是,每当我们与大型公司合作并进行头脑风暴时,我们总是会得到比我们或他们能够实施的想法多得多的创意。创意的数量总是让人既高兴又烦恼,因为它远远超过了我们能够动用的资源。

Charlie Roberts

从你在 AI Fund 中的经验和与大型企业的对话中,你对 AI 的应用和商业案例有着非常深刻的理解。

在未来五年内,你认为市场上哪些大问题 AI 可能仍无法解决?反之,哪些大问题可能会因为 AI 的出现而完全消失,而这些问题是市场或大众尚未意识到的?

Andrew Ng

这些变化会需要时间。许多行业的转型都需要时间。在深度学习和 AI 浪潮中,我们正在做很多工业自动化的重复性任务。

众所周知,物质的转移是缓慢的,所以当我们处理涉及到现实世界中物质重新配置的事情时,我们会有所进展,但这通常需要时间。

同样,当涉及到文化变革和内部变革管理时,这种转型也可能出人意料地缓慢。然而,我依然对我们能够帮助许多企业重新思考工作流程的速度持乐观态度。

虽然在改变物质配置时,这可能是一个缓慢的过程,但当涉及到比特和变革管理流程时,有时仍然需要几年时间。

所以,尽管我们已经大幅度地变革了许多知识型工作,每个知识型工作今天都可以通过生成式 AI 获得效率提升,这令人兴奋。而我们也将继续推动这些可能性的发展。

摸着石头过河的具身智能公司,正在寻求“确定性”

aigc阅读(45)

“具身智能注定会成为最具价值的AI应用,未来还可能会改变我们与科技的交互方式。”

2024年5月,英国自动驾驶独角兽Wayve完成了10.5亿美元C轮融资,这也是英国史上最大规模的AI融资,本次融资方除了老股东微软,还有新入局的软银集团和英伟达。值得注意的是,上述正是Wayve联合创始人兼CEO在完成融资当天写下的一句话。

令人好奇的是,为什么一家自动驾驶公司要在融资当天提到具身智能,甚至还极为看好?不仅如此,仔细研究融资方还能发现,在不少具身智能公司里,都有英伟达的身影,比如年初的Figure。

实际上,从自动驾驶到具身智能,每一个前沿AI领域都少不了英伟达的参与。那么,自动驾驶与具身智能究竟有何关系?

如果说,“自动驾驶的存在是取代司机,那么具身智能的存在就是替代整个人类。”当然,这只是跟随如今互联网风格的一种狭隘理解。自动驾驶与具身智能的真正相似之处是,从技术到底层逻辑的相似。而一种更好的理解则是,既然2024是自动驾驶的商业化元年,那么同样地,它也见证了具身智能的“元年”。

据南方都市报统计,从2023下半年至今,与具身智能概念相关的公司,已有12家实现融资。而更夸张的是,华为天才少年“稚晖君”辞职后创立的智元机器人,过去一年时间就完成6轮融资,估值一路飙升至70亿元。

具身智能赛道的疯狂还不止于此,从马斯克到AI知名学者李飞飞,从英伟达、OpenAI甚至到国内几乎所有互联网大厂,全部纷纷涌入具身智能赛道,用脚投票一致看好这个如今AI大模型加持下的机器人产业。

然而,这个看起来波涛的赛道,如今真的如此光明吗?摆在它前方的,究竟是何种机遇和挑战?

一、2024,机器人开始有了人的“身体”

回溯过去70多年人工智能的历史长河中,有几个极为关键的标志性事件,其中一件就发生在70年代的日本。1964年,日本早稻田大学教授加藤一郎开始潜心研究人工下肢 ,五年时间,世界上第一个双足机器人WABOT-1诞生。

这个当时行走一步要45秒,步伐也仅有10厘米左右的机器人马上就引起了全世界的轰动,要知道,彼时的人工智能才刚刚起步,从操控到感知,一切都还处于探索初期。因此,WABOT-1的问世则也标志着整个人工智能发展史上的一个重要里程碑。

不仅如此,世界上第一个双足机器人在日本诞生后,对于抓住了先机的日本,汽车和电子制造业的崛起也随之而来。而在机器人领域,日本更是占据了整个机器人产业的半壁江山。

尽管早在70年代人形机器人就有了“雏形”,然而从自然语言到操控、感知、决策等等人工智能领域的关键性技术都未有突破,这也导致在过去很长一段时间,关于人形机器人的发展也不得不按下暂停键。

而此后的机器人领域则开始围绕着“非人形”机器人展开,比如工业场景里常见的机械臂。可以说,由“ABB、库卡KUKA、发那科FANUC和安川电机YASKAWA”组成的机器人“四大家族”,地位至今都难以撼动。

如果说当年,世界上第一个人形机器人的诞生对后续的人工智能发展,发挥了至关重要的作用;那么今天,人工智能领域的重大突破,同时也让停滞不前的“人形机器人”产业重新 找回属于自己的光环。

据不完全统计,在AI大模型风口上的2023年,单单是以“人形机器人”或“具身智能”概念入局的创业公司就有24家;而到了今年,截至2024年8月,这条赛道共聚集了29家创业公司。

在这其中,不仅有一年内连续融资6次,估值达70亿人民币的智元机器人,更有不少被阿里、腾讯、华为、美团等“选中”的初创公司。

而在过去这一年,资本的疯狂也再一次证明了人形机器人的“觉醒”:据IT桔子统计,2023年中国一级市场机器人行业融资金额达240亿元,单笔十亿元量级以上投资事件约4起。

在2024年世界人工智 能大会上,一场“人形机器人盛宴”让其火热程度更加具像化。

而与此同时,在海外,这场盛宴则要更为壮观,从特斯拉的“擎天柱”(Optimus)到今年3月刷屏的Figure AI,再到英伟达的人形机器人通用基础模型GR00T,可以说,对于这些逐梦AI的硅谷科技企业而言,它们对人形机器人的追逐和野心,以及害怕错过(FOMO)的焦虑,无一不暴露在这场盛宴之下。

同样地,作为走在AI前沿的国内科技企业,也并没有人想错过入局人形机器人的最佳时间点。

对此,一些自身有大模型能力的科技大厂,选择的是投资,并以大模型赋能机器人的方式入局这一新赛道,如华为、百度、腾讯、阿里、字节;甚至一些有硬件研发基础的企业不惜重金自研入局,如科大讯飞、小米。

而另一些更聚焦实际场景的科技企业则是用投资的方式,更垂直、也更有针对性地为特定场景打造属于他们的人形机器人,如美团、小米。

2023年,有鹿机器人联合阿里云通义千问共同发布了具身智能大模型LPLM-10B;同年12月29日,人形机器人第一股“优必选”正式登陆港交所,腾讯成为优必选最大机构股东。而就在最近,北京银河通用机器人有限公司也完成了7亿元的天使轮融资,其中投资方就包括了美团。

上述种种信号都在表明,在科技企业、创业公司、老牌机器人厂商等等参与者的合力之 下,人形机器人正在一步步走向产业,走向有着千家万户的现实世界。

二、通用机器人之前:人形机器人的形态之争

从1970年的世界首个人形机器人到以机器人四大家族为首的非人形机器人,再到今天重新觉醒的人形机 器人,为什么一有“机会”就会发展人形机器人?而机器人又为何必须是“人形”?人形机器人的魅力究竟在哪?

对此,产业各界都给出了不同的解释。更为感性的说法是,机器人的形态越像人,就越符合大众对机器人的幻想,这也是为什么科幻电影中的机器人大多都与真人无异。

但如果站在更为理性和客观的角度,机器人之所以是人形,实际上是为了更符合人类对一个全能、通用机器人的期待。UniX AI创始人兼CEO杨丰瑜告诉产业家,“我更愿意将人形机器人称之为通用的具身智能机器人。当机器人进入到L5阶段,只需一个通用的机器人即可完成扫地、洗衣服、取快递等全部家务。”

因此,一个更好的理解便是,无论是目前的人形机器人,还是具身智能,他们都是为了走向未来的通用机器人。而至于机器人的形态,究竟是人形还是非人形,是双足还是轮式,目前业界可以分为三个派别,分别是激进派、温和派和保守派。

首先是身为激进派的马斯克,在6月的特斯拉股东大会上,其宣称将于明年量产1000台双足人形机器人Optimus。

相比之下,国内一众机器人创业者则较为温和。比如,银河通用所发布的GALBOT就是一个身高173CM的轮式双臂人形机器人,再比如,上半年刚成立的UniX AI,已发布并即将量产的Wanda也同样是轮式双臂机器人;而与此同时,据产业家了解,双方公司都在默默研发双足人形机器人,并正在着手解决相关技术难题。

而对于机器人的形态问题,也有不少“保守派”不认可或不看好双足。

在这其中,最为典型的两个代表,一个是猎户星空,其董事长兼CEO傅盛认为,“双足机器人目前很难成功商业化,如果落地到产线上工作,没有三五年根本不可能。”另一个则是知名人形机器人公司Sanctuary AI,其创始人Geordie Rise则是最近在X平台上发文称,“几乎所有工作都更适合在有轮子的环境下完成”,甚至又补充道,“双足人形机器人是愚蠢的”。

然而,在如今这场机器人的形态之争下,无论是双足还是轮式,大家的终点都只有一个,即通 用机器人。

三、从技术路线到场景,具身智能企业“摸着石头过河”

简单来理解通用机器人,就是既会做饭、洗衣服,又会打扫卫生、取快递,而这也就意味着机器人需要能够更 好地掌握真实的物理世界。

“在此之前,上一代的机器人并没有环境感知能力,其单纯依靠外围设备的节拍信号驱动来执行固定运动,也没有智能可言;而未来的人形机器人则一定是具身大模型+通用的人形机器人,两者缺一不可。”银河通用向产业家表示。

而这也就诠释了为什么具身智能,或人形机器人的风口出现在如今大模型的浪潮之下。

从整个人工智能的发展角度来看,AI大模型为机器人领域所带来的是更强大的感知能力。 在银河通用看来,这种强感知能力是建立在“大参数模型和巨量数据展现出来的智能,它能将长任务拆解成短任务,再将短任务拆解成机器人的运动”。

在机器人领域,一个最大的难点便是缺乏与物理世界的真实数据,而得不到这些数据,就无从对机器人进行训练;即使是互联网上得到的信息,在过去也很难根据这些信息进行扩展,并使机器人更好地理解世界。

而大模型则很好地解决了这一问题。在杨丰瑜看来,如今的大语言模型已经实现了视觉语言上的智能涌现,这就意味着,通过互联网上的数据,机器人的感知已经出现了相当强的泛化,因此能够更好地理解真实的物理世界。

实际上,除了具身智能,被大模型随之带火的还有自动驾驶。像开篇提到的英国自动驾驶独角兽Wayve在融资当天,不惜花大量笔墨描绘了一个属于“具身智能”的未来,类似的言论也同样出现在不少机器人公司的内部。

其中,银河通用在对具身智能的诠释中就提到,“具身智能是一个相对宽泛的概念,像自动驾驶、扫地机器人,严格意义上来说都属于具身智能,当然也包括我们今天在做的拥有具身大模型,能主动干活的人形机器人。”

此外,关于自动驾驶与具身智能的相似性,UniX AI创始人杨丰瑜则进行了更具象的类比,“如今的具身智能,其实更像2015、2016年的自动驾驶,仍然处于缺少真实数据的阶段。而如果以L0-L5几个阶段来诠释,目前大多数具身智能公司都在L0到L4的过程中,而到真正的L5则还有一段距离。具体而言,L4状态指大多数场景下,机器人可以完成某个指定动作;而L5则指任意场景下,机器人可以完成某一动作。现阶段,大家所缺少的便是真实数据。”

但自动驾驶和具身智能也都各有各的难点,前者的难点在于安全性,而后者的难点则在于数据获取。

为解决具身智能目前的种种挑战,目前市面上不同企业内部的技术路线都各不相同。从具身智能公司的创始团队背景就得以窥见,从大厂机器人实验室到智驾公司,甚至连从AI顶尖院校毕业的创业者都来自不同科系,可以说,在这个仍发展初期的具身智能赛道上,各路大神在各显神通。

无法达成共识的还不仅是技术路线,对于机器人的落地场景,尤其是未来走向通用机器人的人形机器人,究竟谁能更快地实现商业化,或哪些更适合当下的具身智能机器人?目前都还并没有定论。

“目前整个行业,大家都还处于摸索PMF的阶段,很难说B端和C端哪条路更容易或有利于商业化。”杨丰瑜向产业家说到。

的确如此,如果说在过去非人形机器人阶段,商业化较为成熟的场景是生活服务、智能仓储和智能制造。那么对于如今的具身智能的人形机器人阶段,则既有面向B端的,也有从C端入手的。

比如,具身智能公司UniX AI即将发布的轮式双臂机器人Wanda面向的就是家庭场景。而之所以先选择C端,有几方面考虑。在杨丰瑜看来,首先,针对具身智能缺乏真实数据的特点,如果能用脱敏处理从用户端获取更广泛的真实数据,从而形成数据飞轮,从这一角度来讲则可以极大地增强机器人的泛化能力。

然而,对于处于发展初期的当下,究竟何种场景更有利于具身智能发展还是未知数,因此UniX也并没有完全将场景限定在C端。另一方面,相较于B端“强替代”的场景,C端的容错率也更高。

通常来讲,在B端,企业选择是否要大规模使用某类机器人则要根据人工成本进行对比,因此这也决定了B端更复杂的商业逻辑。

然而,毋庸置疑的是,从机器人产品本身出发,不同于C端场景,B端场景并不会如此多样化。与此同时,这也意味着,在缺乏数据的当下,B端机器人的技术难度也相对较低。

对此,目前不少具身智能公司都选择从toB出发。最为代表的则是银河通用,在他们看来,“现阶段先落地在B端场景是更好的选择,当技术积累到一定的程度,再推动其走进家庭。”据银河通用机器人透露,目前GALBOT计划在商超、车厂、工业、物流、科研等领域进行更深入的场景验证和应用落地。

可以看到,从相差各异的技术路线,到难决高下的落地场景,如今具身智能企业都正在探寻更适合自己的路。

四、人形机器人的「确定性」在哪?

英国自动驾驶独角兽Wayve之所以成立自动驾驶公司,其更深层次的意义实际上是实现“具身智能”的愿景。

“从理论上,如果说自动驾驶的感知和决策已经达到成熟,那么具身智能的技术成熟度也没有问题。”具身智能领域的某业内人士告诉产业家。

但如果说,2024是自动驾驶的商业化元年,那么,具身智能的“确定性”又在哪?

目前看来,从机器人形态到技术路线,从落地场景再到商业模式,关于具身智能的一切似乎都充满了不确定性。

甚至更夸张地讲,在过去很长一段时间,究竟什么是人形机器人,什么是通用机器人?又该如何定义具身智能?概念都还并不清晰。而实际上,业界人士对具身智能不同定义的背后,反映的正是各家技术路线的差异。

比如有些企业将具身智能定义为需要与物理世界交互的智能体,而有些则将其定义为一具属于AI的身体。而这两者的区别就在于,前者更注重数据获取,后者则更注重AI或大模型技术的积累。

而如果抛开现实层面的阻碍去谈理想。具身智能的未来是面向通用机器人。但如今,我们距离通用机器人究竟有多远?

如果用L0-L5做类比,在上文中提到,UniX AI创始人杨丰瑜认为,如今的具身智能机器人正在接近L4阶段的过程中。而真正的通用机器人则是L5阶段。

根据全球顶级对冲基金Coatue近日发布的一篇关于“具身智能”的报告《The Path to General-Purpose Robots》(通往通用机器人之路),如果将具身智能的阶段与自动驾驶的阶段做类比,“过去无人驾驶汽车从L1到L2花了大约20年,而从L2到现在的L4只用了不到10年;那么人型机器人从L1到L2用了大约50年,从L2到L4预计只 需要不到5年。”

最后,从商业化周期来看,摆在具身智能企业 面前的,也不只有技术及数据获取障碍,单从研发周期和研发成本以及硬件成本来算,具身智能的商业化之路也同样充满了不确定。

五源资本董事总经理Peter将目前的通用机器人比作1980年的PC。早在机器人还未出现在大众视野时,Peter就已为这条赛道洒下了希望的种子。但多年来的投资经验依然告诉Peter,“目前的通用机器人很难,商业化也遥遥无期”。

Peter认为,这条赛道上的商业化标准并不像其他赛道,动辄年销量几个亿,对于机器人赛道而言,100万台就足以称之为商业化标准。然而国内能达到这个标准的并不多。

然而,在种种不确定因素之下,在具身智能领域,唯一可以确定的是,其未来巨大的市场空间。对此,从纷纷入局的科技巨头、创业公司的市场现状即可窥见一二。

要记得,过去几年的自动驾驶也是抛开层层迷雾,才得以在今天看见曙光。

而对于如今的具身智能领域而言,从目前“各显神通”的技术路线来看,很难确定具身智能未来的周期会如何发展。但有一点可以确定,站在如今大模型和自动驾驶的臂膀上,具身智能的成熟期将来得更快。

Gary Marcus:生成式AI泡沫将退,神经符号AI才是未来

aigc阅读(97)

近日,人类神经科学和人工智能交叉领域的学者Gary Marcus发文,对生成式人工智能的未来做出了大胆预测:在接下来的12个月内,当前围绕生成式人工智能的泡沫将会破裂。他认为,“生成式人工智能最根本的缺陷在于其可靠性问题”,系统仍会产生幻觉进而生成虚假信息。

Marcus近年因在神经科学和人工智能交叉领域的研究而闻名,也是“呼吁暂停研究比GPT-4更强大的AI系统训练6个月”公开信的签名学者之一。一直以来,Marcus都认为当前的大语言模型(LLMs)是“近似于语言使用而非语言理解”。

这位既是AI学者又有AI创业经验的专家,将支撑生成式AI背后的大语言模型(LLMs)比作“乘法表”——GPT们能熟记表内乘法并给出正确答案,但对表外乘法的答案得靠碰运气,更多时候因不具备自我验证能力而给出错误答案。

在他看来,为了避免幻觉导致的错误信息,研发LLMs的公司不得不造更大的模型,塞更多的数据,但这没有解决从根本上解决LLMs无法对自己的工作进行健全性检查的问题。

由于有认知心理学、神经学与人工智能交叉领域的学术背景,Marcus一直倡导神经符号学人工智能——一种将神经网络技术与逻辑学、计算机编程以及传统人工智能中普遍应用的符号方法融入AI研究的理论,他认为这一方法是自主AI的路径之一。

而Marcus认为,神经符号学AI因学术权威打压、资本担忧创新风险而无法成为AI研发的主流。不过,令Marcus欣慰的是,Google DeepMind的两套AI系统AlphaProof和 AlphaGeometry2正验证了神经符号学AI的可行性。在他看来,Google的方向更接近AGI的路径。

以下是Gary Marcus《AlphaProof、AlphaGeometry、ChatGPT,为什么人工智能的未来是神经符号学?》全文编译:

引言

生成式人工智能(Generative AI)以其标志性的聊天机器人ChatGPT为代表,已经在全球范围内引发了广泛的关注和想象,然而,这种热潮可能即将退去,但不会完全消散。

曾经,“生成式AI最终将证明是无效”的观点被视为边缘意见,备受轻视。但如今,这一观点已经转变为广泛接受的预期,每天都有新的评论在主流媒体上发表,呼应着这一看法。我坚信,在接下来的一年内,我们将目睹生成式AI泡沫的破裂,原因众多:

  • 当前的技术方法似乎已抵达一个发展的瓶颈期
  • 缺乏那种能够彻底改变游戏规则的杀手级应用
  • 系统仍然会产生幻觉,即在没有确凿依据的情况下生成虚假信息
  • 依然存在一些低级错误,反映出技术的不成熟
  • 没有一家公司或技术能够建立起持久的竞争优势,即所谓的”护城河”

人们开始逐渐意识到上述问题。

当生成式人工智能的泡沫逐渐破裂,一些人可能会因其高估和过度炒作而感到庆幸,而另一些人则可能对其衰退感到悲哀。我本人则持有一种矛盾的情感:虽然我认为生成式AI的光环被过分夸大,但我同样忧虑,它的衰退可能会触发一场类似20世纪80年代中期的“AI寒冬”,那时的“专家系统”经历了快速的崛起与跌落。

尽管如此,我确信这场即将到来的崩溃不会标志着人工智能的终极消亡。毕竟,人工智能领域牵涉到的利益关系太过深远。

生成式AI的衰退或许会在一段沉寂之后迎来复兴的曙光,它可能不再像过去一年那样备受追捧,但新的技术革新将应运而生,它们将更为高效,能够弥补生成式AI的不足之处。

生成式人工智能最根本的缺陷在于其可靠性问题,鉴于其固有性质,我认为这个问题永远无法解决。在考虑生成式人工智能之后可能出现的情况之前,我们需要了解生成式人工智能的固有性质。

因此,本文将分为两部分:第一部分是对生成式AI及其局限的直观阐释;第二部分则探讨了可能克服这些局限的解决之道,特别是围绕Google DeepMind近期的一项令人瞩目的新成果——这是今年为数不多让我感到振奋的AI进展之一。

一、大语言模型为何有效又为何失败?

尽管我们能够编写大型语言模型(LLMs)的代码,却没有人能够完全理解它们的内部机制,或是预测它们在任何特定时刻的行为。部分原因在于,它们的输出极大地依赖于其训练数据的细节。然而,即便如此,我们仍能培养出一种基本的直觉,即便这种直觉略显粗糙。

在某种程度上,我们可以将生成式AI比作一个查找表,就像大家熟悉的乘法表。乘法表对于其内部包含的条目非常有用,但对于表外的情况则无能为力。例如,如果你的乘法表只覆盖到12乘以12,那么当你需要计算13乘以14时,你会发现自己束手无策,因为答案并不存在于表中。

系统性研究发现,LLMs在处理数学问题时也表现出类似的局限性,它们在处理较小的乘法问题(如四位数乘以四位数)时表现得更为出色,而在处理更大的问题(如六位数乘以六位数)时则力不从心。此外,它们在处理曾经训练过的问题时比处理未训练过的问题更为得心应手。

LLMs虽不是简单的查找表——它们能够进行一定程度的泛化——但它们与查找表的相似性足以帮助我们建立起直观的理解。经验一再告诉我们,LLMs在处理它们曾经遇到过的问题时,比处理新问题更为有效。当新问题在关键和微妙层面与旧问题不同时,它们会表现得尤其糟糕。

在众多GPT模型的”失败”案例中,统计学家兼机器学习专家Colin Fraser提供的许多例子最具启发性,他喜欢用细微的变化来考验最新模型的极限。以下是一个典型的例子:

仔细观察不难意识到ChatGPT给出的答案明显违背了常识,“医生是男人的另一位父母——他的母亲”完全错误,因为前文提到男人的母亲已经去世。

为什么ChatGPT会把事情搞得这么糟?

原因在于ChatGPT系统依赖于训练集中的传统谜题(其查找表功能的输入)来生成答案,但它未能深入理解问题的本质。举例来说,ChatGPT可能曾接受过这样的训练案例:

一位父亲和他的儿子遭遇车祸。父亲当场死亡,儿子被送往最近的医院。医生进来大喊:“我不能给这个男孩做手术。”

“为什么不呢?”护士问。

“因为他是我的儿子,”医生回答。

在ChatGPT错误引用的这个经典案例中,医生确实是患者的母亲。然而,作为一个单纯的文本预测器,ChatGPT根本无法识别它记忆的答案(“孩子的母亲”)在Fraser的复述中没有意义。它没有真正地推理(LLMs本质上并不具备这样的能力),而是检索了一个类似但有细微差别的问题答案,结果是错误的。

Fraser还探讨了经典的“带狼、山羊和卷心菜过河”的谜题,同样的现象也会出现。经典版本如下:

一个农夫想要过一条河,并带着一只狼、一只山羊和一颗卷心菜。

有一艘可以容纳他自己的船,外加一只狼、一只山羊或一棵卷心菜。

如果狼和山羊单独在岸边,狼会吃掉山羊。如果山羊和卷心菜单独在岸边,山羊会吃掉卷心菜。

农夫怎样才能让狼、山羊和白菜过河呢?

这需要精心的计划和多个步骤。

然而,当Fraser提出一个幽默的变体时,ChatGPT给出的答案在文本上类似于经典谜题的解答,但在这种情况下却完全不适用。它提出的解决方案不仅极其低效,而且缺乏常识。

每当Fraser或其他人(比如我自己)在社交媒体上分享这样的案例时,总会有爱好者提出自己的变体,使用不同的提示和LLMs。但结果总是一样,一些系统能够正确处理某些变体,但很少有系统能够做到始终可靠。总的来说,这些系统是不可靠的,这也是财富500强公司在最初的炒作后对LLMs失去了信心的原因之一。

我研究神经网络已有30多年(这是我论文的一部分),并且从2019年开始研究LLMs。我强烈的直觉是,LLMs根本就不可能可靠地发挥作用,至少不会像去年许多人所希望的那样以一般形式发挥作用。也许最深层次的问题是,LLMs实际上无法对自己的工作进行健全性检查。

LLMs本质上只是下一个词的预测器——或者,正如我曾经说过的,“超级自动完成”——没有内在的方式来验证它们的预测是否正确。缺乏这种检查导致它们在算术上犯错、犯愚蠢的错误、编造事实、诽谤他人等等,在从GPT-2、GPT-3到GPT-4再到最新的SearchGPT,每一个模型都是如此。用一句可能源自12-step社区的名言来说:“疯狂的定义是一遍又一遍地做同样的事情,并期望不同的结果。”

因此,LLMs中的任何“推理”或“计划”都是偶然的,如果特定情况的细节足够接近训练集中的内容,那么它是可行的,但如果不是就会非常脆弱。正如马克·吐温所说,“几乎正确的词和正确的词之间的区别真的很大”,这就像 “萤火虫和闪电之间的区别”。

真正可靠的人工智能方法和偶尔通过类比存储的示例起作用的方法之间,区别也同样巨大。

幻觉、推理上的愚蠢错误以及我所说的“理解失调”,在我看来是LLMs不可避免的副产品。在某些时候,我们必须做得更好。

二、神经符号学人工智能指明了方向

鉴于大型语言模型(LLMs)不可避免地会产生幻觉,并且在本质上无法对自己的输出进行合理性检验,我们实际上面临两种选择:要么放弃这些模型,要么将它们融入更庞大的系统中,作为这些系统的一部分来实现更高级的推理和规划。

这类似于成年人和年长儿童使用乘法表辅助解决乘法问题,而不是依赖它作为唯一的解决方案。

在我的整个职业生涯中,无论是在认知科学的背景下,还是专注于人工智能的研究,我都提倡采用混合方法——神经符号学AI。这种方法融合了当前流行的神经网络技术(其设计灵感大致来源于1960年代的神经科学发现)与逻辑、计算机编程以及传统人工智能中普遍应用的符号方法。

我们的目标是汇聚两种方法的优势:利用神经网络在处理熟悉示例时的快速直觉能力(类似于丹尼尔·卡尼曼所说的系统I),同时结合显式的符号系统,运用形式逻辑和其他推理工具进行深入分析(类似于卡尼曼的系统II)。

这正是我在2001年出版的《代数思维》一书中的核心议题。该书副标题所表达的是尝试将连接主义(即神经网络)与操纵符号的认知科学相结合。

然而,科学界的权力结构和学术社会学已经让AI领域遭受了不小的损失。

在AI界,两位极具影响力的人物(在我看来也是最具误导性的人物) Geoffrey Hinton和Yann LeCun,多年来一直反对这种潜在的方法,并通过无休止的人身攻击来抵制不同的声音,尽管原因各不相同,但从未得到充分解释。

LeCun最近对神经符号学方法表达了悲观态度,他表示:“至少可以说,我对神经符号学方法非常怀疑。你不能使逻辑推理与基于梯度的学习兼容,因为它是离散的,不可微的。”(在我看来,这表明想象力不足,我们将在下文中讨论这个问题)

Hinton则认为将符号与神经网络结合,就像是将过时的燃气发动机无端地附加在更先进的电动机上。他们的质疑和嘲讽在学术界引起了共鸣。Hinton还认为,符号(很大程度上是由他的曾曾祖父乔治·布尔开发的)就像燃素一样,是一个巨大的科学错误。

OpenAI在很大程度上追随了Hinton和LeCun的理念,将主要精力投入到“扩展”LLMs上,即让模型规模越来越大,数据量越来越丰富,并尽量避免使用符号和符号规则,即便在不可避免时也将其隐藏起来。

大多数其他的大型企业和投资者也采取了相似的策略,他们更倾向于追求那些立竿见影的短期成果,而不是冒险投资于那些可能真正颠覆现有领域的创新思想。

正如Phil Libin在今天的短信中向我指出的,“AI的进步需要算法上的创新,而不仅仅是规模的扩大。为何这会引起争议?因为算法创新是不可预测的,是民主化的。现在的金钱主宰着一切,它急功近利,专横跋扈。作为一个投资者,我更愿意投资一万亿美元去建造芯片工厂(并在过程中获得一些收益),也不愿意在未来的发明上冒险。”

这种以短期投资为主的氛围极大地限制了对真正新奇和创新思维的追求。

因此,我们发现自己陷入了一个局面,几乎所有的主要技术公司都在制造本质上相同的产品——基于大量数据的庞大LLMs,得到的成果也几乎如出一辙(一系列GPT-4级别的模型,它们之间几乎没有区别,都在与幻觉和愚蠢的错误作斗争),而对其他任何事物的投资却微乎其微。

好消息是,在这股潮流中,Google DeepMind(以下简称GDM)从未如此教条并以冒险精神脱颖而出,值得称赞。不同于其他公司固守传统,GDM始终保持着探索未知的勇气。

让我印象深刻的是GDM近期在国际数学奥林匹克竞赛中取得的进展。他们不仅荣获银牌,更是以卓越成绩超越了大多数人类的能力。

这一成就的背后是GDM开发的两个先进系统:专注于定理证明的AlphaProof,以及专注于几何问题、更新版的AlphaGeometry2。这两个系统都是神经符号学AI的典范,它们将神经网络的直觉力与符号推理的严谨性完美结合。

正如GDM明确指出,AlphaGeometry是一个结合了神经语言模型和符号推理引擎的神经符号学系统,它们协同工作,为复杂的几何定理寻找证明。这种设计类似于人类思维中的“快速思考”与“慢速思考”,一个系统提供快速直观的想法,另一个则进行深思熟虑、理性的分析。

今年早些时候,GDM 明确指出了AlphaGeometry的神经符号本质:AlphaGeometry是一个结合了神经语言模型和符号推理引擎的神经符号学系统,它们协同工作,为复杂的几何定理寻找证明。这种设计类似于人类思维中的“快速思考”与“慢速思考”,一个系统提供快速直观的想法,另一个则进行深思熟虑、理性的分析。

在描绘原始 AlphaGeometry 的图中(新系统尚未提供,但它们看起来基本相似),你可以非常直接地在中间框中看到其“直观”语言模型(LLM)与审议符号引擎之间的交互。

而在新的系统中,GDM进一步强化了这种交互,采用了基于Gemini、经过大量合成数据训练的语言模型,并引入了AlphaProof这一新系统,它同样采用了神经符号学结构,将语言模型的输入用于在Lean证明助手系统中搜索和验证形式证明。

尽管我对这两个系统充满敬意,但它们也存在一个明显的缺陷:它们依赖于人类编码者将奥林匹克的输入句子翻译成数学形式。这表明,如果没有人类编码者的参与,我们还不能实现真正的自主AI。

这让我回想起我曾写过的Doug Lenat的复杂符号系统,他在《人工智能的下一个十年》中展示了如何用符号系统解读《罗密欧与朱丽叶》。尽管符号推理表现出色,但背后依然需要人类的翻译工作。

尽管存在争议,GDM的最新成就却是对概念验证的一次有力展示!它证明了神经网络与符号系统的结合不仅可行,而且能够取得显著成果,这与Hinton和LeCun的怀疑态度形成了鲜明对比。

谷歌DeepMind已经勇敢地迈出了这一步,尽管还有许多其他研究者也在这一领域取得了进展,但GDM的成果无疑是其中最引人注目的。

Doug Lenat,以其开创性的常识知识库Cyc而闻名,是人工智能领域真正的思想巨人。他对推理的微妙性和挑战有着深刻的理解,远超许多当代AI研究者。去年夏天,我有幸与Doug合作,完成了他生前最后一篇论文,题为《从生成式人工智能到可信赖人工智能:LLMs可能从Cyc学到什么》。

在这篇论文中,我们探讨了神经符号学人工智能的潜力,并在文末提出了五种将符号系统集成的方法。AlphaProof和AlphaGeometry2正是我们讨论的第一种方法的体现,它们利用类似于Cyc这样的正式系统来审查由LLMs生成的解决方案。

我们还提出了使用像Cyc这样的符号系统作为真理的源泉,引导LLMs朝着正确性发展。事实上,这种方法已经在为AlphaProof和AlphaGeometry2生成合成数据时得到了应用,虽然不是直接使用Cyc,但采用了在关键方面与Cyc类似的系统。

尽管如此,神经符号学方法的发展空间仍然巨大。正如我在其他场合所强调的,神经符号学本身并非万能钥匙或灵丹妙药。我们还需要更多的基础建设,包括知识基础设施的构建,以及从文本和视频等输入中派生出认知模型的方法。但这些步骤对于我们走向更遥远的旅程是必不可少的。

归根结底,期望AI在没有符号操作的“系统II”机制下实现通用人工智能(AGI),无异于期待熊能解决量子力学问题。没有神经符号人工智能,我们无法找到通往AGI的道路。我很高兴看到Google DeepMind已经朝着这个方向迈出了坚实的步伐。

酷毙了 or 糟透了,品牌到底要不要做AI广告?

aigc阅读(50)

自从今年二月,OpenAI发布了Sora后,各界关于AI生成视频的讨论就没有停下过。上半年一大批视频生成模型现世,抖音的即梦、快手的可灵、美图推出WHEE、科大讯飞推出星火绘境……导演、摄像、剪辑:行呗,轮到我们失业了?营销人:好哦,又省一笔钱。

一、AI生成广告片,除了省钱还有什么

在存量市场里厮杀,降本增效是第一要义。此前,某全球快消巨头就曾告诉Morketing,“我们投放品牌广告时,也会要求换一些可能促进转化的资源”,更别说对ROI要求更极致的新消费品牌。品牌在广告片上的预算自然也会慎之又慎。

而此时视频生成模型的横空出世无异于让瞌睡的广告主找到了枕头。今年6月发布的《2024中国广告主营销趋势调查报告》显示,78.9%的广告主预期应用AIGC,相比去年提升9个百分点。其中,广告主使用AIGC主要体现在创意生成内容上,文生文、文生图、文生视频等基础功能。

广告主们选择AIGC广告片无外乎两点,一方面是为了节约成本,另一方面是想用新技术玩点新花样,希望通过AIGC更好地表达品牌理念,沟通年轻人。

玩具反斗城,世界知名老牌玩具厂商,六月推出了由Sora生成的AI广告片。广告片描述的是玩具反斗城创始人Charles Lazarus如何将一个自行车店,一步步打造成孩子们心中的玩具王国,整条片子主打一个奇幻色彩,让人梦回童年。

且先不说效果如何,这条片子的成本足够让人震惊,作为Sora的商业广告片首秀,据玩具反斗城表示该视频从构思到最终完成仅用了几周时间。AI内容社区故事接龙StoryStorm的发起人宋东桓也曾在第五届中国智能大屏行业发展峰会上预估过Sora的制作成本,大概达到2500美刀每分钟,再加上素材成片比,也就是说一个3分钟片子,你可能要准备20万人民币左右的算力成本。

这个数字对于普通人来说着实还很高,但对于拍个广告片动辄上成千上百万的企业来说,别说三分钟,15秒花出去几百万都是很正常的事情,20万可以说就是个零头。相比起传统TVC拍摄动辄以月份计算,如此省时省力的AIGC广告片,势必会让更多的品牌方重新考量传统TVC的必要性和成本。

那么除了节省成本以外,选择AIGC广告片的品牌还看重它自身的潮流的表现形式。东阿阿胶,中华老字号,近几年的品牌策略是占领年轻、高端市场。怎么表达品牌和年轻人是一伙的?东阿阿胶连着两条节气广告片都是AI生成,以示老字号也跟得上潮流。两条片子虽然没有大爆,但整体评价都还不错,画面清新,有想象力是最常提到的。

二、失去灵魂的AIGC广告片,降本增效成伪命题?

但是值得所有营销人思考的问题是,成本是削减了下来,但效果真的达到了吗?

让我们回顾科特勒在《营销管理》里对TVC的定义:电视广告是一种向顾客介绍公司及其产品、增强顾客偏好和忠诚度以及提升销量和利润的有效方式。

也就是说,一支合格的TVC至少有两个要素,一个是体现出了品牌形象,另一个是让更多的消费者通过这条片子爱上这个品牌。但AIGC广告片的痛点就在于争议太大了,无法保证生成的作品一定会让大多数消费者喜欢,网友对AI广告片的厌恶甚至会牵连品牌。

上文提到的玩具反斗城的AIGC广告片就遭到了两极化的评级,在 X 上,被一些网友痛批:“制作一则关于孩子无限想象的广告,却用毫无灵魂的 AI 来演绎,这简直是讽刺”;“我们曾为玩具反斗城的重生欢欣鼓舞,如今却恨不得亲手将其打入地狱。这对整个玩具行业而言无疑是一记响亮的耳光,更别提那充满创意的游戏理念了,这简直是对所有参与者的侮辱。”

比起效果广告,TVC其实是在用更绵长的情感去和消费者链接,广告片里人的一个眼神和一次情绪的表达,都会影响着屏幕外观众的感受,但如何精准地传递情绪是AIGC广告片所不擅长的。

前段时间,健力宝40周年AI献礼短片《1984中国气》也遭到了网友吐槽:明明是想表达中国人的“志气、朝气、骨气、锐气、傲气、神气”,结果AI生成出来的片子只让人感觉到一股“暮气”。

为什么这部广告片会被如此评价,本质上来看是观众出现了期待偏差,这部广告片目的是想通过奥运赛场上激动人心的时刻,来表达40年来中国人向上的精气神,所以按照惯性思维观众期待看到的是恢弘的场面,观众欢呼喜悦的表情,运动员挥洒的汗水,等一系列有质感的画面,因为大多数献礼式广告片都是这么拍的。

当然大场面观众看到了,这些元素广告片里也都有,只不过在AI的渲染下,少了最关键的两个字“质感”。其实这部广告片的细节之处已经做得很不错了,但这里的质感更多指的是一种真实感,一种存在过的质感,既是讲述过去,真实才更有说服力。

AI生成视频的底层逻辑是,教一个模型了解模仿物体在物理世界的运行规律,然后再创造,这事儿听起来是真浪漫。但要注意的是AI的优势在创造,而不是单纯的模仿和还原。理解品牌用AI生成广告片是希望尝试一些新鲜的技术,让自己品牌形象变得年轻一些,但新技术有风险使用需谨慎,拿AI硬套传统广告片就很容易翻车。

北京天与空首席执行官张锋荣对Morketing表示:“AIGC广告片肯定是一个科技与时代的进步,但能否承载品牌的与用户的情感价值链接还需要提升,目前在产品展示上的制作与效率上是不错的。优点不用说,成本肯定可节约一些,但毕竟还缺少洞察思维、创意人文思考等,出来的片子未必能完全满足品牌、产品所贴合的卖点,而且也不容易满足品牌方很多老板的修改意见。”

时趣SVP木刀也有类似的观点,AI是新质生产力,但从目前来看,当前AI技术还不具备广告内容的制作生产能力,“的确有不少品牌进行了AI生产方面的探索尝试,但充其量只能算是信息错位下的营销噱头,值得鼓励,但实效聊胜于无。”

更加犀利的是,他指出:“提升效率、降本增效等我们早期认为的优势实际上并没有发生,只是进入到一个新的效率与成本进程而已,至少在内容生产层面,尤其在极端塔尖化的创意行业,AI当下的内容生产能力连基础门槛都够不上,经历了元宇宙、web3,理性地说我们不应该再在基础设施不完备的情况下贸然尝鲜,除非你是可口可乐或者Chanel。”

三、被称赞的AIGC广告片长什么样

所以,可口可乐是怎么做的呢?“物物而不物于物”,简单讲就是人驾驭技术,而不是技术反制人。正如张锋荣所说:“广告人核心还是靠卖策略思维以及创意,我更相信AI是广告人利用的工具,可以更好地为创意服务,加分。”

利用AI,但是把AI作为反面案例,一样能够呈现出有趣的广告片。超级碗期间,可口可乐旗下体育饮料品牌BodyArmor的广告片《Field of Fake》是一个经典范例。

片子前半段都是由AI生成,扭曲的肢体,奇怪的表情,混乱的画面搭配上旁白:Artificial flavor(人造香精),视觉的粘连,转化成口腔的黏腻,这种通感瞬间让人回忆起来喝人造香精饮料时候的口感,确实巧妙。

后半段真人实拍,画面瞬间清爽了很多,文案点明“nothing in sports should be artificial because there’s no substitute for real sweeteners, real flavors, real love of sport.  ”(在体育中没有什么应该是人造的,因为真正的甜味、真正的口味和对体育的真正热爱是无法替代的)。

片子通过前后反差来强调产品用料、口味、功效的真实,给人一种视觉冲击。团队利用AI的缺点,反而呈现出一条贴合产品的广告片。

饿了么采取的手段也是AI和现实相结合,AIGC片段用作转场,起到点睛之笔的作用。片子里,益禾堂的古风推荐官,通过AI转化为一点点的店员;店员举起一颗蔓越莓,AI转场让这颗果子再长回树上……这其实是一种很取巧的做法,即引入了AI元素,给广告片增加了一些风味,又避免了大面积使用AI给人造成的不适感。

目前来看,Morketing认为AI适合做一些轻的广告片,或者是干脆就是科幻大片类型的,单纯的对现实的模仿,反而会磨灭掉AI的优势,好钢没有用到刀刃上。

就像木刀所说:“人脑始终是最重要的竞争力,AI或许能帮助拓宽一些思路,提供一些呈现形式上的新对策,但故事最打动人的部分,一定还是故事本身。”

AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读)

aigc阅读(51)

在过去的六个月里,在领英我们的团队一直致力于开发一种新的 AI 驱动的产品体验。我们想重新构想会员们进行求职和浏览专业内容的方式。

生成式人工智能的爆发让我们停下脚步,思考现在能够实现而一年前还无法实现的事情。我们尝试了许多想法,但都不怎么灵。最终以信息流和招聘启事切入找到了释放AI强大力量的方法,它可以帮助用户:

  • 总结关键点,例如从帖子中总结要点或了解各个公司的最新动态。
  • 关联不同信息,例如评估自己与某个职位的匹配度。
  • 获取建议,例如改进个人资料或准备面试。
  • 等等……

那么,这活容易么?哪些进展顺利,哪些不好搞?在生成式人工智能的基础上构建应用其实很麻烦的。我们遇到了一堆难题。

我们希望揭开这活的的神秘面纱,分享具体哪些部分好搞,哪些部分不好搞,以及接下来还需要搞定什么。

一、概览

让我们通过一个真实场景来展示这个系统是如何工作的。

AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读)

想象一下,你正在浏览领英的动态,偶然发现了一篇关于产品设计中确保残障人士可访问性(注:就是那种系统里可以把字体放大好多倍的功能)的有趣帖子。在帖子旁边,你看到了几个入门问题,以便你更深入地了解这个主题。你感到好奇,点击了“有哪些例子说明确保残障人士可访问性可以推动科技公司的商业价值?”

这时候,在幕后发生了以下事情:

  1. 选择合适的智能体:这是一切的原点。我们的系统接收你的问题,并决定哪个AI智能体最适合处理它。在上面这个例子中,它识别出你对科技公司中如何确保残障人士可访问性感兴趣,就会将你的问题导引到负责一般知识性问题的AI智能体。
  2. 收集信息:然后就得做些基础工作。AI智能体会调用内部API和Bing,搜索具体的例子和研究案例,这些例子和研究案例突出了设计中的确保这种可访问性与科技公司商业价值的关联。这些就是产生最终回答的原始素材库。
  3. 编写回答:有了回答所需要的原始信息,智能体就开始编写回答了。它将数据过滤并综合成一个连贯、信息丰富的答案,为你提供明确回答。为了避免生成太多的文字并使体验更具互动性,会调用内部API来对回答进行修饰,比如加入文章链接或帖子中提到的人物的资料。

作为用户你可能会接着问“我如何将自己的职业转向这个领域?”,然后我们会重复上面这三个步骤,但这次会将你路由到职业和工作的AI智能体。只需点击几下,你就可以深入了解任何主题,获得可操作的见解或找到你下一个大好机会。

这一切在很大程度上得益于大语言模型(LLMs)的出现,我们认为进一步分享我们在构建这些功能时面临的挑战和幕后故事会很有趣。

1. 整体设计

AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读)

图1:简化的用户查询过程。

KSA代表“知识共享智能体”,是数十个能够处理用户查询的智能体之一

大家可能已经注意到,我们的流程遵循了检索增强生成(RAG),这是生成式AI系统中常见的设计模式。构建这个流程比我们预期的要容易得多。在短短几天内,我们就搭建好了基本框架并使其运行起来:

  • 路由(Routing):判断问题是否在处理范围内,是的话将其转发给哪个AI智能体。智能体的例子包括:岗位评估、理解公司、帖子要点提取等各种智能体。
  • 检索(Retrival):这是一个逐步确定详细信息的步骤(召回率导向的步骤),AI智能体决定调用哪些服务以及如何调用(例如,LinkedIn People Search、Bing API等)。
  • 生成(Generation):这是一个精准度导向的步骤,它筛选检索到的各种数据,过滤它,并产生最终响应内容。

鉴于“路由”和“检索”的分类性质,微调它们相对顺畅:我们构建了开发测试集,并使用提示词工程和内部模型进行优化。然而,“生成”则是一个完全不同的故事。它遵循80/20法则;很快可以达到80%的准确度,但剩下的20%却耗费了我们大部分人的所有工作时间。当你的产品期望99%以上的答案都非常出色时,即使使用最先进的模型,每一个1%的进步也仍然需要大量的工作和创造力。

对我们而言好使的招数是:

  • 固定的三步流程
  • 用小模型干路由/检索,用大模型干生成
  • 基于内存数据库的EBR(Embedding-Based Retrieval (EBR) ),直接将响应示例注入到我们的提示词中(穷人版微调)。(注:EBR是个技术名词,感兴趣的自己再查吧。)
  • 在路由和检索过程中针对每个步骤做特定评估

2. 开发速度

我们希望多个团队并行快速推进,因此决定将任务拆分为由不同人员开发的独立智能体(即AI智能体):岗位评估、理解公司、帖子要点提取等智能体分别由不同团队负责。

这种方法带来了显著的不良影响(compromise)。通过并行处理任务,我们在速度上取得了优势,但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时,保持统一的用户体验变得极其具有挑战性。

为了解决这个问题,我们采用了一个简单的组织结构:

1)一个小型“横向”工程小组,负责处理公共组件并专注于整体体验。这包括:

  • 各种支撑此产品的基础服务
  • 评估/测试工具
  • 所有垂直领域使用的全局提示词模板(例如,智能体的全局身份标识、对话历史、越狱攻击的防护等)
  • iOS/Android/Web客户端的共享UX组件(注:一般就是指按钮、下拉列表这些)
  • 一个服务器端驱动的UI框架,用于发布新的UI更改,而无需更改或发布客户端代码。(注:因为UI在服务端,那就需要有个在服务端生成UI的框架,很麻烦的一个东西)

2)多个“纵向”工程小组,各自对其智能体拥有自主权,例如:

  • 个性化帖子摘要
  • 岗位匹配度评估
  • 面试技巧

3)那些东西对我们有用:

  • 分而治之,但限制智能体的数量
  • 建立一个中心化的,通过多轮对话支撑的评估过程
  • 共享提示词模板(如“身份”定义)、UX模板、工具及指令

3. 评价输出好坏

评估我们回答的质量比预期的要困难得多。这些挑战大致来自三个方面:制定指南、扩展标注和自动评估。

  1. 制定指南:以岗位评估为例:点击“评估我是否适合这份工作”却得到“你非常不适合”的结果其实没啥用。我们希望它既具有事实性又充满同理心。有些用户可能正在考虑转行到他们目前并不十分适合的领域,并需要帮助了解差距和下一步行动。不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。
  2. 扩展标注:最初,团队中的每个人都参与了讨论(产品、工程、设计等),但我们知道我们需要一个更加有原则的方法,拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程,使我们能够每天评估多达500次对话,并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。
  3. 自动评估是终极目标,但仍在进行中:没有它,工程师只能依靠主观判断和对有限示例的测试,并且需要1天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标,并允许更快的实验,我们在幻觉检测方面取得了一些成功(但这并不容易!)。

AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读)

图2:我们执行的评估步骤。

工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈,但大约需要1天的时间。测试成员是最终的评判者,并为我们提供规模性的反馈,但单个更改的某些度量可能需要3天以上的时间。

还在死磕的事:端到端自动评估流程,以实现更快的迭代。

4. 调用内部API

领英拥有大量关于人、公司、技能、课程等的独特数据,这些数据对于构建具有独特和差异化价值的产品至关重要。然而,大语言模型(LLMs)并未经过这些信息的训练,因此无法直接用于推理和生成响应。为了解决这个问题,一个标准的做法是设置检索增强生成(RAG)流程,通过该流程调用内部API,并将它们的响应注入到后续的大语言模型提示词中,以提供额外的上下文来支持生成响应。

这些独特的数据中有很多是通过各种微服务中的远程过程调用(RPC)API在内部公开的。这些API虽然这对于人类通过编程方式调用非常方便,但对于大语言模型来说并不友好。我们通过把这些API“包装”成技能来解决这个问题。每个技能(Skill)都包含以下组件:

  • 人类(和大语言模型)友好的描述:说明API的功能以及何时使用它。
  • RPC API调用配置:包括端点、输入、输出schema等。

大语言模型友好的输入和输出schema:

  • 基本类型(如字符串/布尔值/数字)
  • JSON风格的输入和输出schema

业务逻辑:用于在大语言模型友好的schema与实际RPC schema之间进行映射。

(注:schema是个编程术语,也许可以翻译成模式,拿excel表作类比,表头是schema)

这样的技能使大语言模型能够执行与我们的产品相关的各种任务,如查看个人资料、搜索文章/人员/职位/公司,甚至查询内部分析系统。同样的技术也用于调用非LinkedIn API,如Bing搜索和新闻。

AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读)

图3:使用技能调用内部API

我们编写了提示词,要求大语言模型(LLM)决定使用哪种技能来解决特定任务(通过规划来完成技能选择),然后输出调用该技能所需的参数(函数调用)。由于调用参数必须与输入schema匹配,我们要求LLM以结构化的方式输出它们。大多数LLM都经过YAML和JSON的结构化输出训练。我们选择YAML是因为它更简洁,因此消耗的tokens比JSON少。

我们遇到的一个挑战是,虽然大约90%的时间里,LLM的响应包含了正确格式的参数,但有大约10%的时间,LLM会出错(注:经常说的幻觉),并且经常输出不符合要求的数据,或者更糟糕的是,甚至不是有效的YAML。虽然这些错误对人类来说微不足道,但会导致解析它们的代码出错。由于10%的比例足够高,我们不能忽视这些微不足道的错误,因此我们着手解决这个问题。

解决这个问题的标准方法是检测到错误,然后重新发提示词给大语言模型,要求它在这些额外指示下纠正错误。虽然这种方法有效,但它增加了不小的延迟,并且由于额外的LLM调用而消耗了宝贵的GPU算力。为了绕过这些限制,我们最终编写了一个内部防御性YAML解析器。

通过对各种调用参数(payload)的分析,我们确定了LLM常犯的错误,并编写了代码来在解析之前检测和适当修补这些错误。我们还修改了提示词,以便在这些常见错误周围注入提示词,以提高我们修补的准确性。最终,我们将这些错误的发生率降低到了约0.01%。(注:这其实是用规则补足模型的不足,降低成本)

还在死磕的事是:构建一个统一的技能注册机制,以便在我们的生成式AI产品中动态发现和调用封装为LLM友好技能的API/智能体。(注:可以想象是个技能商店,智能音箱那种能够动态添加天气、音乐技能的机制)

5. 保持统一的质量

团队在首月内实现了我们目标体验的80%,随后又额外花费了四个月时间,致力于将我们的全面体验完成度提升至95%以上——我们勤勉地工作,对各个方面进行精细化调整、优化和改进。然而,我们低估了检测和减轻幻觉现象的挑战,以及质量评分提升的难度(注:原文是速度应该是笔误)——起初迅速攀升,随后便迅速达到瓶颈期。

对于那些容忍一定错误率的产品而言,采用生成式AI进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望,初期的快速进展营造了一种“即将达成”的错觉,而随着后续每1%提升的改进速度显著放缓,这种快速改进的错觉变得令人沮丧。

构建该助手感觉像是偏离了“原则性”的机器学习,而更像是在专家系统中调整规则。因此,尽管我们的评估变得越来越复杂,但我们的“训练”却主要是提示词工程,这更像是一门艺术而非科学。

还在死磕的事:对大语言模型(LLMs)进行微调,以使我们的流程更加数据驱动。(注:其实是肯定会出问题,所以修的要快)

6. 容量与延迟

容量和成员感知到的延迟始终是我们最关心的问题。以下是一些维度:

  1. 质量 vs 延迟:像“思维链”(Chain of Thought, CoT)这样的技术非常有效地提高了质量并减少了幻觉现象。但它们需要成员从未预想过的tokens,因此增加了成员感知到的延迟。
  2. 吞吐量 vs 延迟:在运行大模型时,通常情况是“首个Token响应时间”(TimeToFirstToken, TTFT)和“Token间响应时间”(TimeBetweenTokens, TBT)会随着使用率的增加而增加。在TBT的情况下,有时延迟甚至会呈现线性增长。如果你愿意牺牲这两个方面的度量,获得每秒Tokens数(TokensPerSecond, TPS)的两倍或三倍增加是很容易的,但我们最初必须将它们限制得很紧。(注:否则用户会觉得慢)
  3. 成本:GPU集群并不容易获得且成本高昂。在初期,我们甚至不得不为产品测试设定时间表,因为测试会消耗太多tokens并阻止开发人员工作。
  4. 端到端流式传输:一个完整的答案可能需要几分钟才能完成,因此我们让所有请求进行流式传输以减少感知到的延迟。更重要的是,我们实际上在流程内部实现了端到端的流式传输。例如,大语言模型(LLM)的响应会逐步解析出应调用的API,并在参数准备好后立即发起API调用,而无需等待完整的LLM响应。最终合成的响应也会通过我们的实时消息传递基础设施进行流式传输,并对信任/负责任的AI分类等内容进行增量处理,直至到达客户端。(注:就是通过流式提升可感知的响应速度,非流式会导致你等半天突然所有结果出来了)
  5. 异步非阻塞管道:由于LLM调用可能需要很长时间来处理,我们通过构建一个完全异步非阻塞的管道来优化服务吞吐量,该管道不会因I/O阻塞的线程而浪费资源。

这些因素之间有时会产生有趣的相互作用。举个例子,我们最初只限制了首个Token响应时间(TimeToFirstToken, TTFT),因为这对于我们初期产品延迟有直接影响。然而,随着我们解决幻觉问题,并且思维链(Chain of Thought, CoT)在我们的提示词中变得突出,如果我们忽略了Token间响应时间(TimeBetweenTokens, TBT)会对我们造成更大的伤害,因为任何“推理”token都会增加产品的延迟(例如,对于一个200个tokens的推理步骤,即使是10毫秒的TBT增加也意味着额外的2秒延迟)。这会导致我们公共平台上的某些任务突然发出超时警告,我们不得不迅速增加算力以缓解这一问题。

还在死磕的事:

  • 将更简单的任务转移到内部进行,并使用微调后的自己的模型进行处理。(注:潜在意思是专门化的模型要和通用大模型进行搭配)
  • 为大语言模型(LLM)部署构建更可预测的基础设施。(注:不理解,我猜是LLM吞吐量伸缩需要更可控)
  • 减少每个步骤中浪费的tokens。

二、收获

我们说的够多了,为什么不让产品自己说话呢?

AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读)

这还不错!特别是后续的建议中让产品可以像维基百科那样带你进入一个充满好奇心的“知识黑洞”的功能。

随着我们不断提高质量、开发新功能并优化流程以加快速度,我们很快就会向更多用户推出上述功能。

能够走到这一步,离不开一群优秀人士的巨大努力,我们将继续学习并很快分享更多技术细节。敬请期待!

注:这里的产品、工程实践其实和琢磨事之前分享的各种内容基本全部吻合,参见

原文链接:https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product

原作者是:Juan Pablo BottaroandCo-authored byKarthik Ramgopal

AI工具,还未给短剧开光

aigc阅读(126)

早期AI视频测试中,AI短剧导演赵康(化名)无意中发现了可灵的bug,“文生图生成出来有一种快手风”。彼时,他脑海中只有一句话:“老铁,上链接”。

AI视频创作者晓磊(化名),试过市面上所有的工具,“东市买辔头,西市买鞍马”,凑不出一套能用的工具,“流水的AI,铁打的MJ(Midjourney)”。

“爱诗PixVerse的运动笔刷,字节即梦的首尾帧,可灵的逻辑理解”,AI创作者们逐渐摸索出了一点门道。

AI视频究竟能用在哪里,大厂和创作者们不约而同地瞄准了短剧赛道。

快手借助自研视频生成大模型“可灵”的热度,早早放出了《山海奇镜之劈波斩浪》的预告片,精良的制作拉走了所有关注。然而,实际抢到“第一AI短剧”彩头的其实是抖音。7月8日,博纳影业与抖音AIGMS制作中心出品的《三星堆:未来启示录》(后文简称“三星堆”)上线。

7月12日,快手星芒短剧才上线《山海奇镜之劈波斩浪》(后文简称“劈波斩浪”)。光子星球了解到, 6月中旬《劈波斩浪》已经完成了最后一轮修改,但导演陈坤坚持要用“可灵”最新的模型优化。“我希望我的东西出来一定要代表行业最高水准。”

即便AI短剧造势不小,但到现在也只能算得上个噱头。AI对于整个短剧制作流程的提效仍有限,成本和制作周期甚至不降反增。AI工具虽然渗透在每个环节中,但就像沙滩上的贝壳,需要创作者们耗费大量力气捡拾起来。

“把一两个功能做到极致就有市场,可以拿出来商业化”,陈坤道。

一、AI短剧的“账本”

新技术蒙眼向前奔跑,到现在为止,业界对AI短剧或AI短片还没有清晰定义。目前,AI短剧的形态有两个源流,一个是短剧制剧模式的变化,另一个是AI视频工具的迭代。

短剧制作层面主要涉及到剧本创作者、承制方、MCN机构,从文本创作到发行前,累计需要5-8周时间。阿亮在2021年创作过多部短剧,其中不乏流水千万的爆款,他告诉光子星球,创作一部5万字左右的百集短剧脚本需要4周左右。“一些压榨员工的流水线短剧公司,多人创作剧本,最快两周能出一部。”

当剧本出炉后,会有投资人或者MCN机构注入资金,并寻找承制方制剧。王现(化名)是一位承制方之一,他参与过多部短剧,今年转而以“独立承制人”和演员等多重身份参与制作。“前期沟通剧本和协调演员,平均3-7天基本能进入到拍摄阶段,拍摄时间在7天左右,大部分时间浪费在后期制作上。”

时间成本之外,短剧的制剧成本因题材和精良程度而有所不同。阿亮从2021-2023年与九州等头部MCN合作过多部短剧剧本,买断剧本的均价在1-2万,部分公司会与剧本作者签署爆款提成的条款。“最火的那部剧,加上提成一共分到了30多万。”

人力占据了短剧制作的成本大头,以郑州为例,主创人员成本占比很高,男女主角每天平均薪资在3000元上下,群演在150元/天(含中间人抽成),如果加上后期制作,整体成本在40-100万之间。

“今年以来,现场分工有接近电视剧拍摄的趋势,早前导演、演员、摄像(1-3个机位)、服装,以及化妆师,今年有专门的道具师,部分短剧还有专职场控。”拍摄完成后,会外包给第三方进行后期制作,周期在1-2周不等。

AI进入到短剧制剧环节之中,理论上可以实现降本增效,但我们从两位AI视频资深创作者得到了截然不同的答案。至少目前来看,无论是基于快手可灵、字节即梦、爱诗PixVerse,或者混用Runway、Luma这类视频工具,周期和成本整体上高于传统短剧。

AI艺术家陈刘芳几乎完整经历了AI视频工具的变迁史,她最早接触的技术叫VQGAN(训练 Transformer 以实现高分辨率图像合成),随后是CLIP guide Diffusion(通过Clip引导扩散模型生成),这是Stable Diffusion(后文简称“SD”)的前身,几个月后SD才诞生。

AI短剧或短片还处于立标杆、探索制作路径的阶段,我们很难量化一部片子的完整制作成本。

《劈波斩浪》是快手定制短剧,在制作过程中,可灵团队协调了不少技术资源与导演陈坤的团队共创。一位知情人士表示,“给陈坤提供技术支持,毕竟是快手‘亲儿子’。”

陈刘芳在2023年情人节时,以 Stable Diffusion为基础,从创意、脚本、分镜、动画制作、音乐整个流程成片都用AI创作,完成了一部一分钟左右的短片《地球爱情终曲》。第二部短片诞生于 8月,改编自阿瑟·克拉克科幻小说的《遥远地球之歌》。

陈刘芳目前组建了一只专业AI短片创作团队,招募兼具传统动画创作专业技能和能驾驭AI工具的创作者,外部还得到了多家大公司技术专家的支持。

今年国内外视频生成大模型层出不穷,因此当下AI视频呈现“大模型厂商模型的上限就是创作者的上限”。

目前,市场上 AI 短片制作与传统短剧有着诸多不同,单从金钱和时间上就差异巨大。

经光子星球调研发现,AI短片的制剧成本根据质量要求浮动非常大,单集制剧成本下可到万元级别,上可达百万。通常情况下,分为三档:电影级别的头部与准头部质量在10万元每分钟,传统动画内容级别的中等偏上水准在3-5万每分钟,教育动画与普通动画可以低至千元。对比短剧平均万元每集而言,AI短片的制作成本显然要高不少。

值得一提的事,投入成本中有大量为一次性投入,因而很难靠复用分摊。时间周期上,一部10分钟以内的短片,约需要1个月时间。陈坤早前为电影频道M盛典制做的AI宣传片《凤鸣山海》也花费半个月时间。长周期、高成本,使得目前AI短剧真正的“金主爸爸”,其实来自G端。

“G端客户对新技术的热情,远比想象中要高得多。”陈刘芳表示。

技术处于不断迭代的进程中,在落地时也势必引发一系列bug等问题。赵康经历了完整的研发、落地、商业化过程,当我们问他遇到技术瓶颈怎么办时,他的回答是:“说服甲方。”稍作停顿后补充道:“当你解决不了问题的时候,就解决提出问题的人。”

二、制剧的AI“变形记”

包括陈刘芳在内的很多创作者都认为,即使步入AI时代,市场对好内容的标准依然未变。因此一部AI短剧或短片最底层的驱动力仍来源于一个好故事、好想法。

在灵感构思和剧本创作这个环节,市面上出现了以“小说创作”为切入场景的AI工具。

AI写作方向自媒体“不知”介绍,此前创作者耗费大量时间在收集素材上,一名作者为了写一篇古文言文,前期需要收集十万多句材料。但有了AI,不知感受到了明显提速,一周多才能完成的短篇,现在缩短至两天,还是在没有灵感的情况下。

AI创业公司波形智能CPO万磊认为,小说写作场景是一个“枢纽地带”,向前是文本创作,向后向剧本、短剧转化,以此“打通文学创作的全链路”。

波形智能旗下“蛙蛙写作”是一款针对内容创作者的产品。官方数据显示,截至7月份,蛙蛙写作平台累计注册用户24万,日平均使用时长4.7小时,AI累计输出100亿字。近期,该平台升级2.0版本,新增“小说转视频”功能,先拆解文章里的主要人物,生成该角色的形象,再分镜制作视频,试图推动创作者向AI短剧方向延伸。

对于有专业背景的短剧/短片创作者来说,更倾向于“文生图”到“图生视频”生产流程。虽然这条路径已经跑通,但AI起到的作用仍然有限。

目前在AI短剧/短片领域,大致可以分为如下题材,奇幻/科幻、现实主义/半奇幻半现实主义。一般AI视频创作者多以奇幻/科幻的题材切入,既减轻了传统科幻题材重资产、重投入的问题,又契合了AI天马行空技术调性。相对于更接近表达人类情感的现实主义题材,观众对于打破想象边界的科幻题材容忍度也更高。

陈坤在一开始便坚持用“纯AI”来创作短片。不过,他坦言:“AI只能部分取代原来的制作流程”。

传统影视制作流程被分为前期(创意讨论、剧本创作等)、中期(筹备、拍摄准备、拍摄、现场管理等)和后期(剪辑、视觉特效、色彩矫正、配乐等)。

前期导演要和编剧开会讨论剧本,之后再由导演做出来分镜剧本。AI目前只能扮演“插件”的作用,比如用ChatGPT扩写创意,检查是否出现文本错误等,“涉及核心创意工作还是得大量靠人力”。

AI替代程度最深的是中期阶段。以前是导演担任统筹攒一个局,凑齐灯光、音响、摄像、演员、化妆师、服装师这套班底,再把实际内容拍摄出来。现在作为导演只要利用Midjourney、Stable Diffusion和国内外AI视频生成工具,从文字直接生成图片,图片生成视频片段。

“以前,作为导演我要告诉制片选什么场地,告诉灯光需要正光还是侧逆光,告诉摄像镜头应该怎么运动,现在都变成了告知AI”,陈坤表示道。

虽然当前市场上AI视频公司对外宣称可生成几分钟,但落到实际操作流程中,仅能生成3-5秒可用的素材。也就是说,一条三分钟的片子,至少需要生成36-60个片段,前提是保证可用。常见的情况是,在可灵、即梦、PixVerse、Runway、Luma等软件间反复横跳,不断抽卡直至生成满意的素材。

AI短剧/短片的重头戏落在了后期上。制作团队需要把上面几十个片段剪在一起,配乐、特效、字幕、音效、调色一个都不能少。若是在剪辑过程中,团队发现缺少素材,还得回到上一步。以陈坤曾经制作的北冰洋广告短片为例,纯AI制作,一分多钟的片子,包括后期做了两周。

赵康告诉光子星球,AI短片后期占比高达80%-90%。而在传统短剧的极限操作下,每集五分钟,总长三十五集的短剧,可以做到三天出剧本,四天拍完,一周完成剪辑之后上线。如此比较下来,AI短剧行业“既费马达又费电”。

如果用AI来表现贴近人类真实生活的片子,制作难度和投入成本只会更高。陈刘芳在《致亲爱的自己》里就做了一次探索技术边界的尝试。

其负责性体现在片子实拍和训练模型的过程中。陈刘芳介绍,在拿到故事原作后,先将其做了影视化改编。在绿棚实拍的同时,她的团队也在训练所需的角色模型和风格模型。“角色换一套装扮就是一个模型”,为了达到更好的效果,她训练了将近20个模型。实拍好的内容一部分进入后期软件做合成,一部分用于场景搭建,最后通过AI转绘功能,得到初步的视频画面。

转绘过后,还要上手修修补补,陈刘芳表示,“大概10%左右的镜头,需要手动化调整,比如细小的物体和细腻的角色表演”。

AI反而让短片制作的难度又上升了一个level。集结了国内超头部的导演和AI创作者,《致亲爱的自己》制作周期有两个半月之久,最终获得了第十四届北京国际电影节AIGC电影短片单元最佳影片奖项。

三、从插件到工具,AI视频最终将走向集成

陈坤有个习惯,每当出现新的AI视频工具,他就会重置一版旧作品。当被人问及,为何他做得与众不同时,陈坤只是笑笑回答道:“不过是熟练运用工具而已”。

AI视频工具厂商十分热衷于邀请行业内AI创作者来站台,陈坤前后分别与爱诗和快手合作过,陈刘芳所在的Ainimate Lab也刚刚与智谱清影、生数Vidu合作发布了AI动画短片。

这些厂商希望通过专业的AI视频创作者来宣传能达到的效果,但细究之下满是“创作者特供”,例如可控性更强的平台,额外的技术指导等等。

目前,AI视频创作者使用频率较高的国内工具有爱诗PixVerse、字节即梦和快手可灵。赵康告诉我们,“如果制作视频有一百个功能,那每家也只开发了一到两项”。

看似都在宣传生成长度、清晰度以及准确度,但实则各家都有所差异。创作者们为了能准确地生产内容,都在不断测试不同工具的长处。

“在A工具难以解决的任务,可能在B工具里就变一键功能了”,陈刘芳道。

不过,现阶段还处于让创作者主动适配工具的阶段,而原生AI应用落地姿态应当是工具适应人。

综合多位AI视频创作者反馈,爱诗PixVerse是国内最早引进运动笔刷功能的公司。对标Runway Gen-2的Motion brush,爱诗推出了Magic brush。对于专业创业者来说,意味着可以对内容画面有了控制力。相较于Motion brush,Magic brush使用门槛更低,操作也更简便,不用调节复杂的参数,仅凭“拖拉箭头”也能控制物体的运动。

对于像陈刘芳一样的创作者,爱诗PixVerse“角色锁定”功能给她带来很大便利。Pixverse在工具平台提供了创造新角色的入口,创作者可以指定角色去表演和生成镜头,锁定角色后可以保持角色人设前后的一致性。

字节的即梦就像是个平平无奇的好学生,或许不够惊艳,但是每科都能拿个70分。很多创作者反映,在快手可灵出现前,很长时间内,他们在使用即梦制作可交付的片子。AI视频厂商宣传得再天花乱坠,都抵不过落到工作流中的“可用性”和“可商业化”,而这恰好是字节的强项。

即梦还有一项独家功能:首尾帧功能。如果要生成一段3秒钟的视频,只需上传初始和结尾状态的照片,AI就能自动填充中间的变化。

陈坤《凤鸣山海》中的经典镜头“青鸾喷火”就运用了首尾帧功能。首帧插入一张鸟在空中盘旋的图片,尾帧插入一张鸟喷火的图片,就自然呈现出了鸟喷火的过程。

后来者可灵上来便开始造势,风头无两。官方数据显示,上线一个月内申请人数超50万。

可灵对世界物理定律的理解,令首批测试用户印象深刻。其中最核心的是能通过prompt来“无中生有”,比如它可以在原画面的基础上响应“举起手”“拿起杯子”“喝咖啡”等提示词,生成符合逻辑的新视频。

赵康透露,他发现可灵特别适合制作整活儿和偏向天马行空的片子。“抽卡成功率还挺高的,大概有30%-50%”。

短期内,创作者游走在各个AI视频创作平台的情况或许无法改变。一是各家资源投入有限,二是视频创作流程过于复杂,无法做到完全覆盖。这其实给了后来者居上的机会,在AI领域几乎不存在“躺平”,任何公司都要随时做好“被超越”的觉悟。

但若将视线拉长,上述反人类的操作迟早要被推翻。参考Adobe的思路,把单点的功能集成在一个工作流软件中才是实现协作和降本增效的解决方案。

未来可能需要一个平台,能够集成爱诗、可灵、即梦、生数、智谱清影等各自AI视频功能。创作者按需调用各种功能,同时Agent助手还可以辅助制作。再进一步,AI视频创作流程与整个分发生态打通,实现“制作-分发-投流”的内容创作闭环。

上述平台就像是车间,创作者提供原材料,在车间生产线加工,最后成品上架在视频商店,供市场挑选。

人类抵抗,番茄小说的AI作者上岗失败

aigc阅读(39)

7月上旬,多位在字节跳动旗下免费阅读平台番茄小说更新作品的网络文学作者,收到了后台系统发送的“AI训练补充协议”签署提醒。其中提到,一旦签署,其作品内容及相关信息,将被用于平台AI模型训练或其他技术研发应用场景。

由于番茄小说并未设置官方作者论坛,作者们纷纷在网络文学交流互动平台“龙的天空”、小红书等社交平台讨论、吐槽,甚至考虑更换创作平台,彻底抛弃“烂番茄”。一位今年上半年在番茄小说完结了第一部作品的作者告诉电厂,她原本对取得的成绩比较满意,甚至开始推进第二部作品的大纲,“结果番茄来这么一出,我之前还有些犹豫,要不要等到毕业之后全职写作,现在直接马不停蹄地面试实习了”。

尽管在后续的处理中,番茄小说删除了作品签约协议中的AI相关条款,并声明“没有发布过任何纯AI写作的作品,也不会违背作者个人意愿使用AI写作能力”,深感被欺骗的作者们却并不买账,他们担心,这只是一个开始。

AI创作引发的争议是全球性的。2023年12月,《纽约时报》披露,其已经对微软和OpenAI发起诉讼,后者未经许可使用“数百万篇”版权文章训练Copilot、ChatGPT背后的AI模型,以打造替代产品。此案仍然在审理中,而AI的发展对原创作品版权及其作者造成的潜在威胁,是人类无法回避的问题。

对番茄小说的作者们而言,当AI能够以大量网络文学作品作为学习资料、持续进化,进而更高效地完成内容生产、面向用户之时,就等于从“辅助”走向了“替代”,而他们,不愿让自己的心血成为AI进化的养料。

一、一纸协议,朋友变成了敌人

在因为“AI协议”引发作者声讨之前,番茄小说在一些作者眼里,其实还算是一个“不错的平台”——门槛低、上手快、限制少、机会多。

这里往往是新人作者试水的第一站。同人小说作者江月此前出没于LOFTER和贴吧,2024年初开始在番茄小说更新原创作品。她对电厂提到,由于晋江签约要求“比较高”,加上觉得自己的笔力“可能不够”,她最终选择来到番茄小说,后者“只要写满2万字就可以签约、拿稿费”。

第一部作品,江月在番茄小说实现了全勤,获得的收益足够覆盖为家人更换手机、给OC(Original Character,指原创角色)约稿,以及奖励自己吃几顿美食。作品完结至今,依然在产生收益。她对此感到满意,已经开始构思第二部作品,希望可以再接再厉,甚至萌生了成为全职作者的想法。

然而,番茄小说增设的“AI训练补充协议”及其引发的后续风波,打乱了她的计划。

所谓的“AI训练补充协议”,即2023年底起番茄小说陆续在签约作品合作协议中新增的3.2.10条款。其中提到:“甲方(番茄小说)可将签约作品的全部/部分内容及相关信息(如作品名称、简介、大纲、章节、人物、作者个人信息、封面图等)作为数据、语料、文本、素材等用于标注、合成数据/数据库建设、AI人工智能研发、机器学习、模型训练、深度合成、算法研发等目前已知或未来开发的新技术研发/应用领域。”

今年7月上旬,多位作者在社交平台反馈,收到了番茄小说发送的“AI训练补充协议”签署提醒。但这并不是面向所有作者,2020年开始在番茄小说发布作品的林静就始终没有收到相关消息,甚至有作者发帖称,是在事态发酵后查找自己曾经签署的合同,才发现已经被添加了这一条款——番茄小说的签约对象为作品,由于都是名为“2021分成”的制式合同,多数作者在再次签约时,并不会仔细翻看,只是按照惯性提交。

谈到自己的作品可能被平台用来训练AI这一话题,林静的态度是“坚决反对”。“AI虽然代表了科技的进步和发展,但是把作者的作品当作养料,这不就是欺负人吗?回过头来砸作者的饭碗,谁也不可能同意。”

在作者的抗议与舆论的风波之下,番茄小说上线了相关条款的功能入口,并发布了关于AI辅助写作条款的补充说明,称初衷是为了“开发能够帮助作者大幅提升写作效率与阅读体验的辅助工具”。“番茄官方没有发布过任何纯AI写作的作品,也不会违背作者个人意愿使用AI写作能力。我们相信人的价值,尊重并展现所有创作者的才华和梦想。AI始终只是辅助创作者实现梦想的一个创作工具。”

不过,在愤怒的作者们看来,这只是一个“玩文字游戏”的回复——不是“纯AI写作”,却无法排除“较高AI写作占比+较少人工修改”的可能。而AI辅助创作的作品,是否具备著作权法定义的作品属性、享有著作权,存在一定争议。此外,我国《生成式人工智能服务管理暂行办法》第七条规定,人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权。

他们之中,一部分人在呼吁更多的作者联合起来、停止对作品的更新,以实际行动表达对平台的抗议;一部分人在分享举报内容填写模板,通过12315等渠道进行实名投诉、反馈,希望借此引起广泛关注;还有一部分人,准备将写作的阵地转移至其他平台。

江月计划将第二部作品放在晋江文学城更新,尽管作品可能面临文笔、提纲、人设、看点等各个方向上的审视与要求,但她不能容忍“资本将真人作者的孩子榨成骨泥、喂给AI,AI再反刍出来喂给读者”。“反正不管怎样,番茄小说我是不会再去了。”

二、AI写网文,作者和读者双输?

AI与网络文学创作结合的例子,不只是番茄小说一家。

去年7月,阅文集团发布了行业首个大模型“阅文妙笔”和基于这一大模型的应用产品“作家助手妙笔版”。阅文集团CEO侯晓楠将AIGC之于作家的意义比作“从手动驾驶升级到辅助驾驶”。同月,七猫中文网推出“AI小助理”功能,为作者解答创作过程中遇到的问题、提供参考,其能力来自百度文心一言。去年10月,中文在线发布了AI辅助创作大模型“中文逍遥大模型”,可以根据作者创意生成故事概要、章节写作大纲,还具有续写、模拟角色对话等辅助创作功能。

番茄小说的不同之处在于,它是第一家在作品协议中明确提出将使用作者的作品内容等信息进行AI训练、进而引发大规模讨论的平台。事实上,今年5月,番茄小说就已经上线了AI写作工具功能,涉及改写、扩写、续写、起名、自定义描写、提供梗概和大纲灵感、针对卡点生成后续情节、查询资料等方面,希望“在作者写书的各个阶段、各个场景中,助力作者高效创作”。林静曾经使用过其中的扩写功能,虽然她觉得呈现效果“很尴尬,非常生硬,还不如我瞎写的”。

这也是多位作者对于AI生成作品的阅读感受。此前,有作者发现,“江沅说书”“南山没有郁金香”等多个番茄小说账号疑似AI作者。一位读者称,随意点开“江沅说书”的3部作品,开头基本雷同。“一个是‘熙熙攘攘的街道,阳光如何如何’,另一个是‘阳光洒下,熙熙攘攘的街道如何如何,还有一个是‘忙碌的街道,夏日阳光如何如何’,这不就是随机排列组合吗?”。

作品质量或许一般,但AI胜在速度。以目前已经无法查询到账号的“江沅说书”为例,其在3个月内共上架了200多部作品,每部几万字左右,多部作品同时连载,而林静日均码字4000字,番茄后台提示,已经超越了90%的平台作者。“比量,真人肯定是比不过AI的,所以这次大家才会这么强烈地反对。”

江月的忧虑集中在两个方面。一方面来自AI的学习能力——即便现在AI作者的作品“缺乏人味儿”,随着作品的沉淀、写作能力的升级,“一定会写得越来越好”,必然威胁到身处其中的作者。另一方面则是平台的动作——她认为,由于番茄小说不存在作者个人IP的打造,如果平台不加标注和区分地推荐AI作者的作品,基于流量的灌注,许多真人作者的作品将难以被读者发现并阅读。

如果AI作者的养料来自真人作者和他们的作品,那么所谓的“辅助创作者实现梦想”就变成了“糟蹋作者的心血”“扼杀作者的梦想”。发展空间被挤占,对作者、尤其是成长中的新人作者而言,无异于毁灭性的打击。“完全隔绝、打断了作者积累受众、以勤补拙的过程。”江月补充。

一位读者意识到,不仅是作者,当AI作品在网络文学行业大行其道,读者同样失去了触及精彩脑洞和绝妙创意的机会,相当于作者和读者的双输。“现在,AI生成的剧情是套路化的,文笔是程式化的,大量同质化的内容涌入市场,作为读者,只能从垃圾堆里回收心仪的作品。就算之后这些作品和真人作品一样,几乎难以分辨,我需要的仍旧是真人作者的输出,是真实的情感体验。每一位作者的灵感都无比珍贵,作者与读者的双向奔赴,难道是AI作品可以代替的吗?”

三、流量生意,需要更低成本

字节跳动官网上,对旗下产品番茄小说的描述是“一个面向网文热爱者的免费阅读平台,拥有海量正版小说,涵盖青春、言情、玄幻、校园、仙侠、都市、悬疑等全部主流网文类型,致力于为读者提供畅快不花钱的极致阅读体验。目前用户规模超过1亿,是小说类产品中的新兴国民级产品”。

番茄小说上线于2019年,主打“免费阅读+广告”模式,用户不需要付费订阅小说章节,只要将广告浏览完毕,即可顺利通往故事的下一站。林静记得,彼时和作者签约的还是木叶文学网,后者“高价保底、到处挖人”,作品可以在番茄小说、今日头条App进行分发。

免费阅读,是番茄小说吸引用户的基础;较低的门槛,则是其招徕作者的关键。在番茄小说,只有签约作品才能够获得平台推荐、读者打赏、作品稿费。目前,作者在番茄小说完成实名认证后,作品创作满2万字可以申请签约,达到8万字可以开启推荐分发,创作空间相对宽泛,没有文笔和风格层面的限制。

至于作者的收益,分为以下几个部分:番茄小说App内阅读和听书产生的广告收益分成、内外部渠道收益分成、内外部版权收益分成,所有签约作者还可以获得读者赠送礼物收益的70%。另外,买断或保底签约的作者可以获得千字15-3000元的保底或买断稿费,番茄小说还额外设置了全勤奖、完本续签奖以及平台激励计划等多项奖励措施。

江月表示,番茄小说的收益“不是很透明”。每天中午12点,平台会为作者更新前一天的收益情况,“但你不知道这些收益是按照什么标准计算的,所谓的单价都是作者自行比对的结果”。可以确定的是,每3-5章一条的广告,是读者解锁章节的钥匙,读者阅读或听书的点击量越高、读者浏览广告次数越大,作者获得的收益也就越多。

无论是从作者还是平台的角度来说,这都是一桩与流量直接挂钩的生意——通过免费阅读壮大用户规模,用户产生内容消费、浏览广告,广告主的投放为平台和作者创造收益,平台与作者进行分成,作者获得收益后持续创作。江月对电厂透露:“番茄小说的老读者是‘不值钱’的,如果你的作品都是以前的读者来看,单价会逐渐变低,只有带动更多新人来看,这部作品的价值才会提高。”

QuestMobile发布的最新报告显示,36岁以上年龄段用户、三四线城市用户构成了在线阅读平台的高粘性用户群。下沉,一直是番茄小说的读者标签。江月平时坐公交车或打车时,经常遇见将手机放在一边听书的司机、大爷。“在番茄小说听书是可以赚钱的,这些用户不会在意作品来自真人还是AI,就算知道了可能也不在乎,打发时间又能刷个几块钱,这不就行了吗?”

在前述读者看来,真人作者需要稿费,这是平台不得不付出的成本。如果AI作者能够取代一部分真人作者,在满足下沉市场大部分读者需求的同时,既降低了平台的成本、又提高了作品的创作效率。“霸总、穿越、萌宝、修仙、战神、复仇,需求催生供给,先瞄准下沉市场的主要题材类型,把读者培养起来,之后再针对AI作品提供流量,不是一样看吗?这些读者什么也不知道,就自动成为了链条上的一环。”

林静在番茄小说的最新作品即将完结,“AI协议”事件发生后,她不打算继续在这里更新。“以前觉得写文起码能写到老,不会失业,现在真的说不准了。”然而,“想跑就跑”并不适用于所有作者。江月告诉电厂:“小作者的沉没成本是很低的,卖了版权的那些高等级作者也可以躺着收钱。中间的作者很多都是全职的,他们最惨。”

(文中江月、林静均为化名。)

AI进内娱,群众不答应?

aigc阅读(48)

相较于AI翻唱、AI换脸、AI智能体等在二创领域的风生水起,随着近期AI明确宣告进入专业创作领域,却引起了一连串意料之中和意料之外的群众反弹。如果AI内部也开组织扩大会议,应该也要说一句:改革进入深水区。

在奥运到来之前,AI创作是整个7月的舆论大热点、群众大雷点。一连串关联名单里既包括大明星成龙、大导演乌尔善,也有从番茄小说到AI助手“豆包”、国产办公软件WPS等一系列互联网大厂产品。同一时间段,抖音、快手也分别推出了自己的AI短剧。‍‍

AI创作在7月集中爆发,各方却明显仍在调试期。首当其冲的“受害者”是乌尔善。新片《异人之下》与《封神》的命运截然相反,其大众槽点是擦边软色情,比较小众的争议则在于:片中有近20分钟的画面是在AI技术辅助下、由真人实拍素材转化而成的动画。拍时废了老大劲,片方也将其作为卖点之一,观众却并不买账。

原因不难理解。男色变女色尚算一脉相承,但主动引入AI、宣扬AI,任由成片画面流露出AI味儿,与《封神》时期主打的真材实料、匠人精神可谓背道而驰。

从短视频上涌现的花式AI整活儿,到电影中的AI成龙、AI特效,以及面向网文作者的AI协议,AI攻入专业内容生产的速度超出人们的想象。而这些还仅仅是冰山一角,另外还有一些小事件没能分得那么多声量,但绝不代表它们不重要。

一、文字+AI,萝卜带出泥?

浅做一下事件回顾。今年6月,就有番茄小说作者发帖表示,收到了平台的一份“AI训练补充协议”,其中提到,平台有权将签约作品的“作品全部/部分内容及相关信息”用于包括AI人工智能模型训练在内的新开发技术研发/应用领域,并且乙方不得因此主张侵权。

在作者们多平台奔走宣传、乃至停更抗议的努力下,事件在7月份持续发酵,赢得了更多网友的关注声援。这个过程还印证了众人最可怕的那条猜想:有人扒出番茄小说站内已经出现一些疑似AI写书的账号,更新的频率与数量有明显异常,或是开篇方式高度雷同。

待到7月中旬,番茄小说官方终于作出回应,表示平台没有发布过任何纯AI写作的作品,不会违背作者个人意愿使用AI写作能力,同时上线了解除相关条款的功能入口。

但仍有作者表示,在解除条款之后,自己的作品疑似遭遇限流。要知道,番茄小说当初正是以免费模式与大数据推送手段吸引了无数读者作者,乱拳打翻付费老师傅。若真存在平台限流,这之于作者是非常实际的制裁。之于平台,这样的指控也意味着彼此的信任一去不返。

同为AI进入创作领域,AI电影引发的是观众的小规模吐槽,番茄小说事件则引发了更激烈的抗议与更广泛的共情,其区别就在于网文的多重属性。

网文的文首先是文学的文,对于单个作者来说,创意与版权都有意义,值得保护。然而,商业模式的纯熟又令它不可能只是个体的创意挥洒、为爱发电。

拉到宏观层面,它又是一种强调工业化、规模化的产品,有明确的套路可循,红利期也足够漫长。因此新人可以随时跟着教程入行,就算搞不出大IP,也能靠勤劳赚稿费过活儿。

每个读者都是潜在的作者,这是番茄小说事件的大众共情基础。

AI来袭,最先受冲击的就是这类“副业”作者。而作为免费阅读巨头,番茄小说上聚集着大量这类作者。因此,尽管搞AI的网文平台绝不止番茄一家,矛盾却率先在这里爆发。有媒体将这一事件比作网文圈的“萝卜快跑来袭”,不无道理。

事实上,到现在为止,作者们的疑虑也没能得到真正解决。只不过属于这一热点的“七天”之期已到,后续的一切又回到了小圈子里。

有趣的是,由于官方迟迟不作回应,也由于AIGC技术来得太快太猛、大众普遍对其一知半解,这半个多月中涌现出不少有谱的、没谱的猜测,字节系的AI助手“豆包”、国产办公软件WPS都被卷入其中。

涉及到授权与隐私,影响范围便不限于网文作者。很多不搞创作的普通人突然意识到,就算不去主动学习新技术,却免不了被新技术围猎。契机可能就是常用软件的每一次更新,或每一份“太长不看”的用户协议。

二、影视+AI,距离产生美?

事实上,国内专业影视领域对AI技术的应用远比AI成龙、《异人之下》要早。但之前主要是用在幕后,从作品看不出来,也并未对公众大肆宣传。

例如,用AI提升长篇网文的评估与改编效率,优化拍摄中的制片管理流程,辅助生成宣传物料等等。为了降本增效、又或者为了讲故事,三大长视频平台在这方面都十分积极。阿里甚至在不久前推出了一个影视妆造大模型。

电影领域,郭帆导演也曾经在行业论坛上分享过自己的经验。不难想象,《流浪地球》这样的科幻大片,后期特效何等烧钱,前期工序又何等繁琐,AI能够在剧本会、概念图这样的环节为他们节省相当的时间精力。

但此类应用方式通常不会在正片环节留下痕迹,观众也没必要知晓。《传说》的AI成龙与《异人之下》的AI转制动画引发争议的原因很简单:它们首次将AI带到了台前,作为正片的一部分看点来售卖。但拿出来的东西又不比短视频上网友自制的AI换脸、AI绘画好多少,让观众作为消费者深感不值。

毕竟,不管未来如何,电影到目前为止还是对双方都要求最高的一种专业内容——要掏钱买票、要在大银幕观看,还顶着第七艺术的名头,品质与独创性是重要的评价标准。硬糖君建议,下次如果不是真有把握惊艳众人,电影咱还是偷偷用AI降本增效就好。

而在微短剧界,对AI技术的想象与反馈又是另外一番光景。今年初,就有许多媒体报道过某些公司试图用“AI配音+换脸老外”让短剧一键出海。到了年中,随着AI视频技术日新月异,市面上已经开始涌现主打AIGC的短片与短剧:

6月,中央广播电视影视剧纪录片中心在央视频上线了3部AI短剧《英雄》《爱永无终止》《奇幻专卖店》。7月,抖快狭路相逢,“即梦”对战“可灵”,前者拿出了与电影公司博纳合作的《三星堆:未来启示录》,后者拿出了扶持新人导演的《山海奇镜之劈波斩浪》。

不难发现,这些AI短剧主要分布在幻想类题材。这主要是为了扬长避短,AI长在以低廉成本去呈现超现实画面,短处则是微表情与讲故事。

以硬糖君的实际感受,《三星堆》还带有浓重的动态漫画感。《山海奇镜》更自然一些,但显然团队承担不了更大的素材量,全季5集、其中最长的不过3分钟,剧情推进像电影解说一样匆忙。

可想而知,这两部短剧对于平台来说其实“广而告之”的意味更浓一些,播放表现也不算突出。不过短视频用户一如既往展现出了相当的宽容度,有些会犀利指出人物表情僵硬、长相变来变去,也有些冲着新鲜与免费不吝美言夸奖,顺便拉踩几句内娱鲜肉。

微短剧之所以是公认的影视鄙视链底端,是因为它并不把品质放在第一位。只要能提供充足的情绪价值,用户会对千篇一律的剧情与拙劣浮夸的表演照单全收,因此制作方也没那么多动力去砸钱搞精品化。

未来如若AI短剧真能解决面瘫问题,用户未必不会欢迎。问题反而在于制作方是否愿意付出前期的学习成本,因为就目前来说,还是压榨人类牛马更划算一些。想来短时间内,也就平台有这个动力和财力了。

三、营业+AI,革新长尾效应?

在这些引发热议的大事件之外,这个暑期档的剧集大战还推出了另一种玩法,也就是AI角色号——可以视为剧宣角色号的AI化、永久化;也可视为长视频拒绝让星野、ChatGPT等中间商赚差价,不必再由粉丝去创建和调教野生智能体,官方直接把一切准备好。

AI角色号目前的主要玩家是爱奇艺和腾讯视频。爱奇艺在主站推出了“桃豆”板块,并与微博合作,双端上线了一批角色号,包括《苍兰诀》的东方青苍、小兰花,《云之羽》的宫尚角、宫远徵等。

在微博,这些已播剧角色号主要是加入@评论罗伯特、@花果山_孙悟空这类“赛博街溜子”的行列中,主动闪现到评论区或者等待用户召唤互动。

在爱奇艺主站则有更多互动方式。网络资料显示,围绕热播剧《唐朝诡事录之西行》,爱奇艺推出了单个角色对话、探案小剧场、推理游戏、加入主角团群聊等四种互动玩法。

腾讯视频的角色AI则是与自家的AI应用“腾讯元宝”合作,用热剧为其引流。这一联动在《庆余年2》时期上线,到《长相思2》全面引爆。

《长相思》身为热剧的同时还主打雄竞,播到第二季,粉丝间的大战已进入白热化,角色AI互动值也就成为新的战场。“相柳”扮演者檀健次在直播中与AI互动,也提供了一个很好的事件营销。

目前来看,或许因为玩法太新、或者过于粉丝向,AI角色号的影响力还仅限于粉圈的一亩三分地,与成为真正的追剧日常还有一段距离。

但平台在这一业务的投入力度、宣传力度不小。因为它不仅是一种粉丝福利、一种新的剧宣方式,更代表了将剧集IP的长尾红利维持得更久、以及更多沉淀在主站的可能。

通常来说,剧粉的诉求是“只愿长醉不复醒”。但演员不可能为一个角色停留,活人运营的官微与角色号到期也可能会注销,甚至会被新剧顶替。日前,相柳在剧中战死之后角色号又注销,用粉丝的话说,以后连“赛博哭坟”的地方都没了。AI角色号则可以避免这种情况,或者,至少能够避免这种情况发生后,角色粉全被演员本人提走。

AI技术对资本的最大诱惑就在于将人工的、一次性的东西转化为可留存的数字资产,以后用来降本增效、反复收割。AI角色号如此,虚拟拍摄如此(搭一次实景,之后都可改用LED),“AI成龙”、AKA数字人也是如此。

如此,尽管真人主演一时半会不太会被取代,毕竟AI成龙匍匐在前。但其他工作机会可能会被压缩,例如真人到场可改为肖像授权。

“积极”的一面是,明星之于影视行业的重要性将会下降——来到了许多人喜闻乐见的痛击208w环节。但还有一个更朴素的逻辑,就是我们消费文娱产品,还是希望其中能够蕴含人类的巧思与情感,收获对人类自身的思考、对人类力量的肯定。成龙的高成就来自以血肉之躯玩命拍片、比肩特效,就算有朝一日AI成龙能够完美还原年轻的他,也很难带给观众同等的战栗与震撼。

至于剧集市场,我们口中的“内娱”,在没AI时也已经流水线、抄袭拼贴与空心偶像泛滥成灾,实在不需要更多的科技与狠活儿。其实就像任何领域一样,技术浪潮势不可挡,法律与行业共识也得抓进跟上,将对AI的应用控制在一个度,对所有人都好。

爆“卷”的AI视频,大厂向左,创企向右

aigc阅读(30)

“生成的人物一转身就变成老外,怎么解决呢?”

“没有办法,10s中动作大的,人物一致性有问题,只能抽卡,多刷几个,选择一个变化不大的。”

在一个以Ruanway学院为主题的群中,不断有各种针对AI视频生成的问题产生,而群内有AI视频生成使用经验的,则也在积极分享自己的使用方法论,并解答相关问题。

这样的AI视频生成相关的群聊并不在少数,且每个群都相当活跃,大部分用户对AI视频生成工具都保持了相当高的兴趣,并在各种平台上分享自己基于AI视频生成工具所创造出的视频内容。

国内用户积极对AI视频生成工具探索和使用的背后,是今年2月份Sora的发布,作为行业发展风向标,彻底引爆了国内AI视频大模型生成赛道。

3月字节跳动旗下剪映Dreamina(即梦)开放内测;4月,AI企业生数科技发布号称首个国产自研视频生成大模型Vidu;6月,快手可灵AI正式开放内测。

7月,商汤推出最新AI视频模型 Vimi,阿里达摩院也发布AI视频创作平台“寻光”,爱诗科技则发布PixVerse V2,快手可灵宣布基础模型再次升级,并全面开放内测,而智谱AI也宣布AI生成视频模型清影(Ying)正式上线智谱清言。

同时,这些AI视频大模型生成工具大部分都已经向公众开放使用。7月30日,生数科技的AI视频大模型Vidu也正式面向全球公众开放使用。

历经大半年,国内大模型赛道终于进入Sora时刻。从AI跳舞、火柴人,到5秒~16秒的高质量视频生成,AI视频大模型的生成能力整体都迈入了下一个阶段。

不过,相比于至今仍未开放的Sora,中国的AI视频大模型已然开启加速模式。在技术能力不断迭代升级的同时,还在持续进行技术应用和商业化落地探索。

事实上,相比于ChatGPT等聊天机器人,AI视频生成大模型作为一个具有工具属性的产品,天然就具备商业化变现能力,现阶段开放给公众使用的AI视频生成工具也皆采用付费模式。

如智谱清影上线的定价策略是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。

不过,当前AI视频生成赛道的商业化仍处于非常早期阶段。

“说实话,我们也不知道未来商业策略会是什么样,或什么形式最好,目前所谓的收费策略更多是一种早期尝试,试试看市场和用户反馈,后面会及时调整。”智谱AI CEO张鹏如此说道。

AIGC智能创意平台筷子科技创始人兼CEO陈万锋也表示:“目前C端用户基于AI视频大模型平台开发出的视频应用指向型不强,这些平台也并不知道C端用户将会如何使用这些视频。”

从技术的迭代更新,到探寻技术的应用和商业化变现,国内AI视频生成赛道玩家们无疑是在加足马力狂奔。但从当前行业现状来说,却也仍存在诸多挑战。

一、AI视频军备竞赛,都在“卷”什么

用AI生成视频,并不是新物种,只不过此前AI视频生成的时长一直卡在2s-4s,且整体视频生成效果体验并不足够令人惊艳。

Sora一发布,则直接展示了其生成的1分钟视频,且其视频所展示的画面效果惊人,就算在视频动态运动情况下,随着空间的移动和旋转,视频中出现的人物和物体也会保持场景一致性移动。

这可以说震惊了整个AI届。Sora背后的技术架构,也被业界所了解并跟进。

此前AI视频生成的技术路线主要有2大类:

  • 一类是Diffusion Model(扩散模型技术路线),主要玩家包括Runway、Pika Labs等。
  • 一类是基于Transformer架构的大语言模型生成视频技术路线。

去年12月底,谷歌发布了基于大语言模型的生成式AI视频模型VideoPoet,这在当时被视为生成视频领域中,扩散模型之外的另外一种解法和出路。

Diffusion Model将一张图片通过引入噪声使其变成原始马赛克,在通过引入“神经网络”,如基于卷积神经网络(CNN)的UNet结构,从某个时间点的画面,减去预测的噪音,得到的就是最原始没有噪音的画面,也就是最终生成的画面。

大语言模型则是通过视频数据来对大模型进行训练,使其能够理解视频数据中的基本Token词汇以及所对应的视频画面。当用户给予指令词之后,其就能够根据学习到的Token词汇生成对应的视频内容。

两种技术路线都存在各自的优劣势,单一模型所生成的视频在时长和画面效果上,都难以实现根本性突破。Sora则选择了将扩散模型和Transformer模型结合的技术架构体系-DiT(Diffusion + Transformer )架构。

有业内观点认为,Sora是将Diffusion扩散模型中的U-Net架构替换成了Transformer架构。

两者的结合效果,一个AI从业者形象的解释为:扩散模型就像是一个雕塑过程,将石料上不应该存在的部分去掉,创造出雕塑作品。而Transformer通过自注意力机制,理解时间线之间的关联,则让这尊雕塑从石座上走了下来。

AIGC创业者洋芋酱AIgen(艺名)也认为:“视频是一帧一帧的图像,采用UNet结构的逻辑是按照生产图像的方式做视频,AI每生成一张图像都是随机的,所以整个画面看起来很闪。而用视频训练的AI,其产出的画面就相对稳定,不会狂闪,具有合理的连续的帧。”

因此,Sora发布之后,DiT技术架构也成AI视频玩家的主流技术架构,并将其视为通往AGI的关键技术。

目前,市面上主流AI视频工具在生成4秒-10s左右的视频片段。

生数科技此次Vidu开放文生视频、图生视频两个功能,提供4s和8s两种时长选择,分辨率最高达1080P。在速度上,生成一段4秒片段的实测推理速度只需30秒。

爱诗科技的PixVerse V2,可支持生成单个时长8s的片段,且支持一键生成1-5段连续的视频内容,片段之间也会自动保持主体形象、画面风格和场景元素的一致性。

智谱AI的智谱清影可生成6秒的视频,时间只要30秒左右,清晰度可达1440×960(3:2)。

快手可灵生成的视频时长在5s,但其有将视频时长延长的功能,可以将视频时长延长至10s,但在生成视频的速度上,却相对较慢,往往需要2-3分钟时间。

从技术的积累上来看,虽然都在布局DiT架构,但国内AI视频生成企业还处于追赶阶段,AI视频生成的时长和效果,尚未达到Sora的水平。

张鹏也坦言:“Sora的演示效果不错,我们还是一个初步的阶段性成果,达不到像Sora演示出来那么好、那么长的视频。我们从来都很坦诚承认与OpenAI、和世界顶级水平之间的差距。”

但国产大模型也在坚持用自己的方式追赶OpenAI,比如“怎么把视频生成算力成本降下来,响应速度提升上去,我们在追求技术高度的同时,也同步追求技术的可普及性和成本。”张鹏说。

无疑,技术上国内AI视频大模型赛道玩家还在追赶,但在应用和商业化上却已然走在前列。

二、图生视频成主流,不稳定、一致性仍是问题

在技术架构升级之后,现如今的AI视频生成的视频效果与时长,已经与年初有了本质的区别。

当前,各AI视频大模型产品主要提供2大核心能力,一个是文生视频,一个是图生视频。两个核心功能的工作流并不一致,文生视频可通过一句指令生成一个想要的视频。

而图生视频的工作流更为复杂,要先用文字指令词通过Midjourney或Stable Diffusion等工具生成自己想要的图片,再基于图片通过AI视频生成工具生成视频内容。

于普通的业务爱好者而言,想要体验AI视频生成效果,文生视频功能已经够用。

但对于想要基于此进行视频内容商业化交付的从业者而言,“基本上,没有人用文生视频。”星贤文化创始人、AI原创玄幻IP《山海奇镜》制作人陈坤对光锥智能说道。

对此,陈坤解释到,文生视频无法保持前后内容的一致性。就单个镜头来说,文生视频可以满足要求,会很好看,很惊喜,但却无法保证下一个镜头与前一个镜头的一致性。毕竟AI技术尚不能通过一段文字描述就能够让人物和空间美学保持一致性。

“为了保持作品风格的一致性或者人物的一致性,必须用图生视频控制住画面里的内容。”洋芋酱AIgen也如此说道。

去年12月,陈坤带领团队利用 PixVerse 制作《山海奇镜之劈波斩浪》的4K分辨率预告片。

今年7月13日,陈坤基于快手可灵大模型重新打磨的《山海奇镜之劈波斩浪》正式上线快手平台,19日单日播放量达到了2026.7万,上线十天累计播放量达到了5164.9万,后续荣登德塔文短剧指数榜第一。

在陈坤看来:“半年前,AI影视很难用生动的表演表现复杂叙事,很多的动作场面也需要通过蒙太奇的剪辑来实现,在制作过程中,由于3—4秒的单个镜头时长限制(在当时就是这个时长),整个片子的节奏感会受到影响。”

“就AI影视赛道来看,可灵的能力确实很厉害,既有文生视频,也有图生视频,且其画面中的动作幅度展示都很不错。”陈坤如此说道,“不过,每家AI视频生成工具都有自己的特点,比如Runway,它的Gen3镜头偏电影感,尽管之前只有文生视频功能,但很多创作者也很喜欢用。现在它也推出了图生视频功能”

作为一个资深玩家,洋芋酱AIgen也认为:“目前最好用的是可灵、luma 和Runway。”另一位影视从业者琪琪(化名)则表示,Sora的整体效果应该最好,但其并未开放。

不过,在实际的体验过程中,虽然现阶段相比于半年前在视频时长和效果上有了质的飞跃,但仍存在画面人物变形、画面不稳定以及前后不一致性等问题。

总结下来,从业者在使用AI视频时,主要有5大痛点:包括人物一致性,场景一致性,人物表演,动作交互,运动幅度等。

“由于大模型技术并不完善,在视频生成过程中画面不可避免的产生畸变。”陈坤称。

对此,行业从业者就会通过不停“抽卡”(让AI不断自主随机生成相关画面)的方式,最终得到一个相对满意的效果画面。

“即便我们用可灵,在一个火神和水神打架的镜头上,还‘抽卡’不下100次,但也并未抽到我特别满意的镜头,后来实际用的画面其实也是带了一定畸变的。”陈坤说道。

从现阶段的技术手段来看,短期内可能无法解决这一问题。张鹏认为:“最简单的可控,就是我说什么模型做什么,而想要实现这一可控,强烈依赖于模型能不能够理解这个内容,而这也是多模态大模型发展的初衷。”

用发展中的技术去解决发展中的问题,将是AI视频大模型未来发展迭代升级的关键。“内容生成,尤其是视频内容生成,绝大部分情况下还是由‘人用语言描述’的方式来控制。从自然语言到视频生成,这才是真正的可控,更高层面的可控,这是技术层面的事情。”张鹏如此说道。

现阶段AI视频大模型技术仍处于比较早期阶段,并未有任何一家AI视频生成工具爬到了山顶。而在各家攀登山顶的过程中,生态体系的建设以及商业化变现也成为关键。

三、黄金赛道的起点

“技术应用到行业的速度,远慢于技术自身的发展。”陈万锋如此说道,“AI技术发展很快,但渗透到产业中,产生价值的速度可能要慢十倍。”

纯技术路线发展的角度来看,从单模态,到多模态,最终的目标是达成AGI。但将AI进行产业化落地应用,与技术升级迭代是两码事。

现阶段,国内众多大模型公司的技术追赶已经过了一个阶段,将会把更多的精力聚焦在落地和应用上,通过与场景的结合,数据的反馈,再推进底层技术迭代升级。

而相比于ChatGPT这种聊天机器工具,AI视频生成则是大模型技术商业化落地的黄金赛道。

之所以说其是黄金赛道,主要基于两个方面:

一个是作为AI视频生成工具,其天然具有收费优势。

目前大多数AI视频生成工具,面向C端用户采用的是会员体系。以可灵为例,其目前会员共分为黄金、铂金、钻石三个类别,优惠后三档月卡的价格分别为33元、133元和333元,对应分别获得660、3000 、8000“灵感值”,可生成约66个、300个或800个标准视频。

面向B端企业级用户,则可以支持通过调用API的方式进行收费。如智谱AI,其除了会员制收费方式外,还在开放平台开放了API,收入一定的费用。

另外一个方面,AI视频生成工具让创作者和消费者之间的界限变得模糊,尤其是快手和抖音平台上,这些视频博主属于C端消费者,但其又可以基于AI视频工具进行视频创作,变成B端视频生产方。光锥智能认为,“大C小B的消费者是很重要的,甚至可能是最重要的,ToB和ToC的界限越来越模糊。”

不过,从商业化生态角度来讲,大厂和创企在变现的思路上也并不一致。

像抖音、快手这种已经行业头部视频平台,其可以依托自身海量的用户,通过提供AI视频生成工具,让用户通过这一工具创作相关内容,丰富自己视频生态体系。

“大厂不需要卖工具,而是通过用户进行商业化变现。”陈万锋如此说道,“C端为应用付费模式(对创业公司来讲)在国内并不现实,未来或许只有巨头才有机会,因为其用户数量庞大。”

与此同时,对于现阶段各平台采取的会员制收费方式,陈坤坚定地对光锥智能表示:“我不看好这个会员制,现在即便再便宜,也只对真正能够商业化闭环的创作者有效。如果不是一个商业化闭环的创作者,后续的付费率和付费意愿都不会很高。”

陈坤对此解释道,一方面C端收取的会员制费用相对于大厂研发九牛一毛,都不够大模型训练一次。另一方面,一旦AI视频大模型技术达到天花板,这些巨头一定会进行价格战,目的就是为了抢夺用户数量,“大厂最终一定会选择用户数量,而不是去赚这些钱。”

因此,于大模型创企来说,如果单纯的是卖工具,“在中国只能ToB不能ToC。”陈坤如此说道,“而只有面向企业端,才是能够商业化变现的唯一方式。”

而企业端愿意为其付费的原因,则在于其能够实现视频的商业化交付,产生营收,能够支持其对应的成本支出。

比如陈坤通过AI短剧进行商业变现,洋芋酱AIgen则会根据客户的视频内容需求,为客户制作AI视频内容,“最高一个月能接8单客户需求,平均每个月有3-4单。”

而筷子科技,是通过AI视频的生产工作流和短视频平台的投放结合,来赚品牌的应用工具及服务的钱。

基于此,不难看出,在AI视频的商业化中,C端还是巨头会更成功,创业者的机会则在B端。面向未来,快手视觉生成与互动中心负责人万鹏飞也表示,随着大模型技术能力的提升,视频创作者和消费者的界限逐渐模糊,促进视频平台生态繁荣。