AIGC-IT极限技术分享汇-第4页

华为大咖说 | 企业应用AI大模型的“道、法、术”—— 法：场景篇

2024-12-13aigc阅读(85)

这是我的AI应用系列第二篇，想谈谈“如何找个好场景”。场景找对了，那就成功一大半，这个道理放在AI大模型的应用上，再合适不过。

核心观点：

本轮AI革命，在企业应用还远未成熟，可奈何大家求AI心切，因此识别“好场景”至关重要

场景识别对了，大家投入才有回报；场景识别不好，折腾一圈，一地鸡毛

分享AI场景“12问”及其背后的思考逻辑

PS.观点不保证绝对正确，欢迎留言讨论，兼听则明。

01 为什么AI大模型这么“挑活儿”？

当我们站在企业内部看AI大模型落地场景时，很容易被两种情绪裹挟：要么AI无所不能，要么AI啥也不是。

当然，感谢业界的同行们一直不断推出新产品，最近听到的第二种声音越来越少了，更多是急迫地希望做些什么。

坦率讲，目前的企业AI大模型应用场景，如果挨个拉出来盘ROI，有正收益的是少数，特别是动辄几百上千张卡的场景，单纯看眼下收益，都是很难讲的。

但是，AI变革的浪潮已至，我们又必须要跟上，所以如何选择一个好场景，就至关重要了。

这里我想分享“AI场景12问”和其中的思考逻辑。

02 如何识别好场景：AI场景“12问”

整体上，希望通过三个维度来评估：

D1：商业价值

D2：场景成熟度

D3：持续运营

这三个方面，分别代表着是否值得做、是否能做、做了以后是否能持续演进。

D1：商业价值

之前这个维度叫“业务价值”，为了更突出我们是商业组织，我特地改成了“商业价值”。

① 业务场景是否能清晰度量价值？

什么叫度量价值，无非是增收、降本、增效。能够直接带来收入增长或者成本降低，那是最好的，如果不能直接带来收入，那效率提升也是不错的。

举个最近的例子：

1.如果AI助手能直接跟客户打电话，并且成单，那这就是“增收”，这是可遇不可求的场景；

2.如果AI助手可以替代我们的一些资源（包括人和物），那这就是“降本”，这种场景次之；

3.如果AI助手可以在作业过程中起到部分替代或辅助作用，使得我们的现有人或物做事时，更快、质量更好、效果更加，这就是“增效”，这种场景最次。

这里关于场景价值评估，我经验也有限，总结了这么几个小技巧，可供参考：

1.重点关注“增收”和“降本”类场景，尽可能将“提效”类场景转换成这两种场景，具体给出计算逻辑，一旦逻辑清晰，计算和评估非常简单，价值显而易见。

2.“提效”类场景数量最多，但鱼龙混杂，是很需要花精力探讨和分析的。说实在的，每个人都有“提效”的诉求，我也恨不能找个AI帮我码字，这样对于我来说可以轻松愉快一些，但是这对于公司来说意义有限，这就是最大的矛盾点。

3.如果真的要做“提效”类场景，避免使用百分比。我们太多场景喜欢用“提效xx%”，年年做，年年提，挤挤总会有，这个游戏很容易玩儿，但是坏处是在业务侧很难形成真正的压力和动力，Nice to have，不做也无所谓，这样的后果就是战略资源被消耗掉了。如果要提，就把具体业务KPI的from和to拿出来，计算逻辑写清楚。

4.“降本”的收益计算要从“投资”角度来看。这里我举个“巡检”的小例子，在没有AI的时候，只能每天人工检查x次，有了AI，可以每分钟都检查一次，这么一算，看似节约了不少成本。实际上，这个事儿就搞反了，应该看业务上愿意投多少钱来增加人力做巡检，AI节约的只是这些投资。

② 落地后收益评估，3年期ROI是否为正？

ROI评估这事儿非常重要，投资不看回报，那是非营利性组织，咱们不能这么搞。

这一条存在，是为了加强第一条的存在感，同时也避免为了一个小场景过度的投入资源。

这里其实我们给AI类的投资留了个buffer，就是“3年期ROI”，核心是因为AI大模型的应用太新了，能够上线即巅峰的场景又太少，大部分场景上线以后都不能直接形成价值，需要持续地喂养和优化，因此我们希望资源和人力的投入可以在中期形成真正的业务价值。至于为啥是3年，说实话，这个数是我自己预估的，可能不同领域情况会有差异。

D2：场景成熟度

场景成熟度包括业务成熟度、数据成熟度、技术成熟度。这三个成熟度，是从华为AI团队借鉴来的，从数据、业务、技术三个角度来审视。具体细节内容上，增加了一些自己的思考。

D2.1 业务成熟度

③ 业务场景有明确的业务Owner（对投资和结果负责）

Owner很重要，这个事儿可以倒着想，如果一个AI场景，没有业务Owner，会导致什么问题：

1.没有人投资，这是最直接的。虽然我们现在很多AI基建的投资都是IT空载，但是AI应用的落地，终究是要业务投的，业务要感知到这个投资；

2.没有人对结果负责，这个也很重要。一般业务Owner是业务流程Owner，也是业务部门主官。他能够对结果关切，一方面说明我们做的事儿对口，另一方面也是对业务团队的驱动力（AI场景落地能不能成，我越来越觉得跟IT有关系，但是很有限）。

④ 业务场景有明确的流程规则（业务说得清）

这个不过多赘述，是不是说得清这事儿，其实就是业务是不是成熟，还是很容易辨别的。一个还在不断调整、不断变化的业务，过早地搞AI，甚至数字化，对双方都是一种煎熬。

⑤ 业务场景有明确的用户触点（业务已数字化）

智能化的基础是数字化，业务数字化的程度，决定了AI能不能落地。这轮AI大模型的应用，和传统的IT应用最大的差异，就是AI大模型需要数据喂养。没有数字化，何来数据呢。（这里提到的数据，是全场景、全流程、全方位的知识数据，主打的就是“全”，越完整越好）

再一个，没有数字化，就意味着我们的AI落地以后，没有现成的触点接入，就意味着没有现成的流量继承，就意味着AI运营的成本会大大增加。

从另一个角度看，如果一个业务场景还没有数字化，或者数字化程度不高，以我的经验来看，一定是有隐情的，还是不碰的好，要碰也是要先把数字化补上再说。

D2.2 数据成熟度

先提一嘴，这里提到的数据，包含知识数据，且暂时以知识数据为主。另外，这两条，是从AI训练的两个阶段来看对数据的诉求，一个是冷启动，一个是持续运营。

⑥ 业务数据是否足够支撑0~1冷启动（范围清晰、完整、易获得）

足够支撑冷启动，就意味着能够达到上线标准。目前我们以AI答准率60%为基线，判定一个场景是否能够上线。当然，也不排除有一些非常通用的场景，不需要额外数据，基模型能力就能够支撑，不过，这种“天使”场景可遇不可求，不在后续讨论范围内。

具体落地时，还考虑要到业务是否能够清晰地说清楚需要哪些数据、是不是方便拿到这些数据。目前大部分知识类场景都是通过RAG（检索增强生成（RAG）是指对大型语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库）来实现，R的本质就是搜索，搜索就要有个知识清单，这个清单包括哪些知识，要业务输出，然后IT来评估可行性。比如，我遇到有场景需要CSDN的技术博客，这类就很难获取。

⑦ 业务数据是否随作业持续产生、更新和反馈

一个AI场景冷启动结束后，就到了持续运营阶段。这个阶段由于企业场景的用户基数极其有限，没办法获得海量的用户侧反馈（OpenAI的MAU有1亿，我们可能大部分场景不会超过1千），这就使得我们将不遗余力地挖掘和利用作业过程中的每一个反馈和留痕数据，确保最大化地从这些有限的数据中汲取价值。

这块扯远一点，我们后来探讨出一种玩法，叫“作业即标注”也就是说，每一次作业动作的过程中，都预埋了标注和反馈过程。这当然需要巧妙的设计，甚至略微改动原有IT的交互逻辑，更甚至通过牺牲一点点用户体验为代价。

D2.3 技术成熟度

⑧ 现有技术能力是否能够支撑场景实现（技术可行、风险可控）

前面整这么多，总体上都是在做业务场景的评估和分析，也就是业务侧的梳理和分析为主。基于前面评估OK的前提下，技术同学要开始工作了。

这里有个巨大的“陷阱”，或者是认知上的反差：AI大模型为什么POC（POC：Proof of Concept，为观点提供证据）这么简单，做好却这么难？

在传统IT开发的场景上，技术可行性是容易评估的，一般技术架构或者SE同学都能够胜任；但是针对AI大模型相关场景，很多时候是要评测的，也就是要试一下，做个POC。

不过，AI大模型的POC反倒是我见过最容易的，就是搞几句提示词拿基模型试一下。这轮AI创新的非常重要一环，就是引入了自然语言指令，使得人人都能操作AI大模型。

然而，企业垂域场景，大概率第一次试结果是不太好的（大概就是瞎猫碰见死耗子的概率，我印象非常深刻，不论是文本还是多模态，没有超过10%的）。

于是下一步就是要AI技术专家或者AI SE来判断下，这个场景是否可以改进。改进就分两块，要么是“等”，要么是“调”。

等，就是等AI基模型能力提升。

调，就是要看，这个场景是不是能做微调：针对典型任务（高频、规范、标准），准备几百上千条数据调一下是合适的，但是针对尚未从业务上收敛、抽象的任务，是没法调的，也就是用少量数据没法教会大模型干活。

另外还有一个，就是“风险可控”，当然这背后虽然可以建立一套AI安全的玩儿法，但是无论如何AI大模型的“幻觉”是一种不可消解的风险，只能做风险规避和一定程度的接纳。如果某个场景不能容忍任何不确定性，那就确实还不适合，至少当下不行。

⑨公司内是否有成功经验，可以复用/借鉴

这里我特地强调，是公司内部有成功经验，有三个意图：

1.正视自己的技术能力差距，无论是基模型还是模型应用。比如我们看到GPT4可以干啥、甚至微软office的copilot可以干啥，对于我们的参考意义有限。把有限的资源押注在这样一些不确定性上，是很有风险的，卡点会非常多。

2.公司内部的同学已经做成，已经拿出来分享的场景，反而是我们喜而乐见的，这意味着“触手可及”，拿来抄个作业很顺手，哪怕不能抄，交流交流学习讨论下也是不错的。

3.我一直认为我们是AI技术应用团队，要以业务成功为唯一目标，把突破创新让给更专业的人，做好AI应用过程的学习、提炼、总结，是我们的“道”。不求高精尖，只求能落地，越简单、低成本、易复制，就说明把AI应用玩儿明白了。

D3：持续运营

这一章节是我们最后加的，并不是不重要，而是在早期易被忽视，很难充分意识到其重要性。

“持续运营”放在这里，是为了突出“生”和“养”同等重要，甚至“养好”比“生好”在项目成功、业务成功方面更重要，也是希望跟业务主管强调这方面的重要性。

上图是一个AI助手的持续运营示例，可供参考，核心是业务和IT的联合，且以业务侧为主（在业务运营、知识运营之外，新增了AI训练师角色）。

⑩ 有清晰的业务运营目标

一个AI场景，除了业务价值的指标之外，还需要很多过程指标，需要观测其分子分母、周边因素、关键依赖（比如知识）、副作用等等，业务运营是需要设计的。

⑪业务目标有运营数据支撑（过程可度量）

原则上一个相对成熟的业务，会有一套现成的业务运营体系，我们要做的是从其中摘到AI应用强相关的部分，再加入IT侧的过程指标，如AI应用情况（比如性能、并发、UV/PV、资源消耗）、反馈情况（比如答准率、搜准率）、NSS等等。

⑫业务有持续运营的组织、资源、机制和能力

运营要有流程和组织支撑，才能有生命力。我司的管理哲学就是把公司制度建筑在流程上，所以没有固定的模式在支撑，运营工作会变成“脚踩西瓜皮”，干到哪儿算哪儿，甚至有一搭没一搭地搞，哪怕搞看板、搞分析、搞预警，都没个啥用，最后生成一堆任务也没人执行。

当然，这一切背后，其实只有一个，就是要业务主管非常清楚地意识到，这里需要投入，而且需要持续投入。

以上这十二个问题，并不是我个人的经验，是华为的集体智慧。

最后，我还想说，目前业界关于AI应用有两种认知：

1.一种是“AI+”：真正的AI应用是没有AI就无法运行的。毕竟大家总用“汽车”和“马车”来类比AI和传统IT，给马车装个内燃机可能不是我们想做的。现在的很多创新类的AI产品，包括chatgpt就属于这种。

2.一种是“+AI”：就是在很多场景上，增加AI属性，一点点翻盘。这个观点一样有支撑，就像移动互联网来了之后，PC网站还在，线下门店也还在，但是互相支撑后，效果更好了。现在的copilot式操作，就是这么个玩法。

这里的核心，是你拿AI当什么。如果你认为这是生产力工具，那一定是all in，全换，过去不值得留恋。如果你认为这是基础设施，那一定是适用的先来，适配一个切换一个。

我自己内心是认可生产力工具的说法的，但是现实情况是企业要运转，运转逻辑是写好的，现在掀桌子就都没得吃。

所以，我一直有个观点，当下的AI大模型场景应用，是面向未来的一种蓄力和能力储备，从量变到质变的过程。比如我们从去年单独看客服AI，到现在可以看客户服务全流程，逐渐把售前、售中、售后都拉齐以后，一个AI+的雏形就有了，这个过程可能需要3～5年甚至更久，但非常值得。

Sora之后，视频生成模型的中国牌局

2024-12-12aigc阅读(66)

Sora，自2月16日OpenAI发布后一直被吐槽是“技术期货”，终于在12月10日，正式版Sora露面了，可以生成最高 1080p 分辨率、最长 20 秒的视频。

OpenAI CEO奥特曼称，Sora正式版是视频生成领域的GPT-1时刻。

但国内AI企业，并没有像跟进GPT时期一样，在视频生成领域也与OpenAI保持同步，而是呈现出更复杂的态度。

有人选择跟进，比如Sora问世之后，互联网公司如阿里、字节跳动、快手、腾讯等，AI公司如智谱AI、MiniMax、爱诗科技、生数科技等，都陆续发布了视频生成模型，不少都表示达到或超越了预览版Sora。

也有人选择不跟进，包括互联网公司中的百度，李彦宏曾明确表示，“无论Sora多么火爆百度都不去做”。AI公司如百川智能，也明确表示不会做类Sora模型，月之暗面、商汤科技、零一万物虽然都有文生视频模型，但都不作为重点。

视频生成赛道，不再延续GPT时代的发展模式，即OpenAI打出一张王牌，国内科技企业抢着要跟。Sora之后，国内AI牌局开始有了自己的节奏，也呈现出更为复杂的局势。

有能力做通用基础大模型的国内科技公司，在技术路线、商业前景等判断上，开始出现明显分野。我们就从国内企业跟进Sora的选择与否，聊聊视频生成的中国牌局。

01 To 国内玩家：跟or不跟Sora，这是一个问题

首先我们要明确一下，国内对标Sora模型的科技公司，到底在做什么？

简单来说，Sora视频生成模型的核心技术路线是Diffusion+Transformer相结合，通过文本（自然语言）、图片、视频作为提示词prompts进行视频生成。

对标Sora的模型，至少要具备几个特点：

1.通用性，不针对某一类风格、行业、角色等，任意内容的视频都可以生成。

2.高质量，画质精度高（达到1080p）、视频时间长（最长达一分钟）、画面一致性强（理解物理规律）。

面对Sora，国内科技企业不像ChatGPT推出时那样毫无准备。但到底跟or不跟，却不再像ChatGPT那样高度一致，而是分化成了三类：

第一类，明确跟进

互联网公司阵营中，以视频为核心业务的字节跳动、快手等，以及综合科技公司腾讯，数字基建成熟，技术人才资源充沛，内部有视频产品基因，几乎第一时间选择了跟进。字节跳动推出了即梦Dreamnia，快手也发布了可灵大模型。腾讯以混元大模型作为核心，发布并开源了混元多模态生成模型，被认为是腾讯版Sora。

大模型初创企业中，智谱AI的行动最为敏捷，今年7月发布了AI视频生成工具清影，支持用户通过文本/图片，生成10秒、4K、60帧视频。MiniMax的海螺AI也在十月增加了视频生成能力，支持文本提示词生成6秒视频片段。

第二类，坚决不跟

与第一类企业的态度截然相反，互联网公司和大模型创企中也有坚决不跟Sora的。比如Sora问世之后，百川智能的王小川就表示，团队有人提出要做Sora，但他明确表态称不会跟进这个方向。

同样想法的还有百度李彦宏，尽管百度已经在视频生成领域取得了一定的成果，但他不做Sora的态度也非常坚决，原因是Sora的商业化可能要五年甚至十年，目前百度更聚焦在大语言模型、多模态大模型，没有类Sora的产品化尝试。

第三类，浅尝辄止

除此之外，还有大量国内企业对于Sora，出于FOMO“恐惧错过”心理有所布局，但并不重点投入，处于一种浅尝辄止的状态。

比如阿里系中的阿里妈妈团队发布了tomoVideo，试水电商营销的视频生成场景；“大模型六小虎”中，月之暗面也推出了视频生成模型，但仍聚焦在kimi产品上；零一万物入局B端业务，而视频生成模型面向的影视制作行业正处于调整期，类Sora产品也很难成为核心增长点。

总结一下，如果说全球大模型是一场“斗地主”，那么游戏规则不再是OpenAI打出一张王炸，国内科技公司纷纷跟上，而是各自按照自己手里的牌面、业务重要性和优先级，来确定Sora的出牌策略。

为什么到了Sora，大模型行业的游戏规则就变了？

02 视频生产，迷雾中的牌局

国内科技企业的表现说明，对于Sora存在非共识，整体还是比较混乱、规则模糊的阶段。迷雾中的领域，游戏规则自然只能自行探索。

如今视频生成领域的现状，笼罩着三重迷雾。

技术迷雾：OpenAl认为Sora是世界模拟器、通往AGl的一条有前途的途径，这一技术路线目前存在不少争议。

比如李飞飞、lecun等人认为，Sora不能实现AGI。李飞飞提出，Sora仍是二维图像，只有三维空间智能才能实现AGI。Sora预览版展示的“日本女性走过霓虹闪烁东京街头”的生成视频，就无法把摄像机放在女子背后，说明Sora并没有真的理解三维世界。学术大神Lecun也点名不看好Sora，说它根本不是真正的世界模型，并且仍会面临GPT4的巨大瓶颈。

确实，即使是正式版Sora，生成的手部细节不准确，动态过程中的一致性等问题，依然存在。

而国内公司坚定不跟进Sora的原因之一，也是对这一技术路线保留意见。比如百川智能的王小川就认为，Sora只是阶段性产物，技术高度、突破性以及应用价值均不及GPT。总之，实现AGI、模拟物理世界的技术路线的开放性，决定了Sora并非唯一解。

商业迷雾：视频生成模型的商用前景、投资回报比，在短期内都不明朗，成为劝退国内企业的另一重阻碍。

预览版和正式版Sora，都延续了OpenAI的“暴力美学”，OpenAI 研究科学家 Noam Brown 表示，Sora是scale力量最直观的展示，也就是通过堆算力、对数据、对参数量的方式，来尝试让大模型涌现出理解物理世界的能力。这种方法成本高、资源投入大。是否跟进Sora，就取决于各家对模型的商用预期和投资回报比。

如果视频生成模型面向ToB收费，通过API或SaaS服务，都需要基础模型厂商投入大量人力去优化业务流程、开发交互页面，而影视行业正处于调整周期，AI影视制作业务的增长有限。这就在无形中增加了AI企业的机会成本，因为同样的人力、物力、算力，投入到金融AI、教育AI、大型政企等领域，显然收效更大。所以，百度、零一万物等公司，都将视频生成领域作为边缘业务，并不重点投入。

而ToC场景中，一方面个人付费意愿不高，视频生成并不是大众日常使用的高频场景，而且生成成本和订阅费一般都比文本模型高，加上Sora模型都没能解决幻觉、一致性难题，未必能创造实际价值，所以C端付费规模十分有限。另一方面，模型完全免费，把视频生成模型产品作为企业的流量入口，这一商业模式只适合将视频作为核心业务的企业。

比如快手、字节跳动，本身就有核心的视频业务，可以快速实现模型的规模化。面向C端用户或B端生产力工具，这类企业能够快速将视频生成能力与现有产品进行集成与整合，模型研发的边际成本是会随着规模商用而下降的。

整体来看，对国内绝大多数基础模厂，视频生成领域都是一个相对边缘、投资回报比不高的业务。

第三重迷雾，就是市场格局的竞争迷雾。

虽然视频生成模型现在商业前景不明，但有没有可能以后会爆发，企业悄悄投入然后惊艳所有人？这种押注边缘赛道“捡大漏”的商业神话，在大模型身上恐怕很难发生。

当前，大模型的产品化、商业化前景普遍比较模糊，通用模型厂商都需要尽快从一大堆不甚明朗的产品中，选出一个更高成功概率和更大市场潜力的选项，重点投入。而在所有产品中，视频生成模型是一个尤为沉重且具有挑战性的项目。这种情况下，肯定要优先考虑成功率更高的产品，降低视频生成模型的业务优先级。

换一个角度，即便企业将视频生成模型的优先级放到最高，恐怕也很难建立起竞争优势。因为当前大模型的市场竞争情况跟GPT时期不太一样，如今各家在基础训练设施、核心架构设计与技术储备等方面都有了一定积累，复现Sora并上线类Sora应用的技术壁垒，其实没有ChatGPT时期那么难了。这也意味着，即使企业先发布了视频生成模型，也未必能长期保持竞争优势和市场垄断地位，这种竞争态势也削弱了Sora的商业想象空间。

技术迷雾、商业迷雾、竞争迷雾，仍然笼罩在视频生成领域，导致Sora这一场牌局有着太多的不确定，和太多可能。哪种理解是对的，哪条路线是最终赢家，目前都言之过早，各家只能按照自己的游戏规则玩下去。

03 The show must go on，轻装上阵

大模型技术必须继续发展下去，但从Sora开始，国内科技企业不再紧跟着OpenAI亦步亦趋，开始有了自己的节奏感。

具体表现在，对于Sora这样一鸣惊人的新东西，国内企业在大模型产品化、商业化上都有了自己的理解与思考，开始自己定义玩法，跟进Sora展现的是实力，不跟进Sora展现的是心态与战略定力。

此外，不一味跟进产品，但OpenAI的叙事能力仍然值得学习。

无论是2月用Sora抢走谷歌风头，还是近期Sora正式上线，OpenAI总能一次次带动节奏、设置议题、吸引关注，这对于资本密集型AI企业是非常重要的能力。

可以不跟进Sora，但不能遗漏关键技术。

以百度为例，虽然没有推出Sora产品的计划，但自身也没有缺席关键技术，比如自研了多模态可控生图技术，能够在保持实体特征不变的情况下，实现图像的高泛化生成，而可控性的提升，恰恰是视频生成下一阶段核心中的核心。此外，百度也没有完全无视视频生成领域，目前投资了视频生成初创公司生数科技、AI视频短剧公司井英科技等。

聚焦主赛道，以自身核心业务、商业优先级等多元因素来确定追赶Sora的轻重缓急。大模型的牌局，国内企业正在找到自己的节奏感。

中学生能看懂：Sora 原理解读

2024-12-12aigc阅读(74)

在深入了解Sora如何处理多样化视觉数据之前，让我们首先想象这样一个生活中的场景：

你正在翻看一本世界名胜的相册，这本相册中包含了不同国家、不同风格的景色照片，有的是宽阔的海景，有的是狭窄的巷道，还有的是夜晚灯火辉煌的城市风光。

尽管这些照片内容和风格各异，但你能轻松地辨识每一张照片代表的地点和情感，因为你的大脑能够将这些不同的视觉信息统一理解。

现在，让我们将这个过程与Sora处理多样化视觉数据的方式进行对比。Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。这些视觉数据在分辨率、宽高比、色彩深度等方面都存在差异。为了让Sora能够像人类大脑那样理解和生成这么丰富的视觉内容，OpenAI开发了一套将这些不同类型视觉数据转换为统一表示形式的方法。

在古代遗迹的机机

首先，Sora通过一个叫做“视频压缩网络”的技术，将输入的图片或视频压缩成一个更低维度的表示形式，这一过程类似于将不同尺寸和分辨率的照片“标准化”，便于处理和存储。这并不意味着忽略原始数据的独特性，而是将它们转换成一个对Sora来说更容易理解和操作的格式。

接下来，Sora将这些压缩后的数据进一步分解为所谓的“空间时间补丁”（Spacetime Patches），这些补丁可以看作是视觉内容的基本构建块，就像是我们前面相册中的每一张照片都能分解为包含独特景观、颜色和纹理的小片段。这样，不管原始视频的长度、分辨率或风格如何，Sora都可以将它们处理成一致的格式。

通过这种方法，Sora能够在保留原始视觉信息丰富性的同时，将不同来源和风格的视觉数据统一成一种可操作的内部表示形式。这就像你在查看世界名胜相册时，尽管照片多种多样，但你依然能通过相同的方式去理解和欣赏它们。

在水下遗迹的蝶蝶（什么鬼！）

这种处理多样化视觉数据的能力，使得Sora在接收到如‘猫坐在窗台上’这样的文本提示时，不仅能理解这个提示背后的意图，还能利用它的内部表示形式，综合利用不同类型的视觉信息，生成与文本提示相匹配的视频或图片。就好比是从全世界的视觉数据中找到那些能够拼凑出你想象中的“猫坐在窗台上”场景的片段，并将它们组合起来，创造出一个全新的视觉作品。

一、文本条件化的Diffusion模型

紧接着空间时间补丁的概念，接下来我们探讨Sora如何根据文本提示生成内容的机制。

这一过程核心依赖于一种名为“文本条件化的Diffusion模型”。

为了理解这个技术的原理，我们可以用一个日常生活中的比喻来帮助理解：想象你手里有一本涂鸦的草稿本，刚开始时，草稿本上只有随机的斑驳笔迹，看起来毫无意义。

但如果你按照某个指定的主题，比如“花园”，逐步地去修改和优化这些斑驳的笔迹，最终，这些无序的线条就会逐渐变成一幅美丽的花园画面。

在这个过程中，你的“指定主题”就像是文本提示，而你逐步优化草稿本的过程，就类似于Diffusion模型的工作方式。

具体到Sora的实现，这个过程开始于一段与目标视频同样时长、但是内容完全是随机噪声的视频。可以把这段噪声视频想象成草稿本上那些毫无意义的斑驳笔迹。随后，Sora根据给定的文本提示（比如“一只猫坐在窗台上看日落”）开始“涂改”这段视频。在这个过程中，Sora利用了大量的视频和图片数据学习到的知识，来决定如何逐步去除噪声，将噪声视频转变成接近文本描述的内容。

这个“涂改”过程并不是一蹴而就的，而是通过数百个渐进的步骤完成的，每一步都会让视频离最终目标更进一步。这种方法的一个关键优势在于其灵活性和创造性：同一段文本提示，通过不同的噪声初始状态或通过稍微调整转化步骤，可以生成视觉上截然不同、但都与文本提示相符的视频内容。这就像是多个画家根据同一主题创作出风格各异的画作。

通过这种基于文本条件的Diffusion模型，Sora不仅能生成具有高度创造性的视频和图片，还能确保生成内容与用户的文本提示保持高度一致。无论是模拟真实场景还是创造幻想中的世界，Sora都能依据文本提示“涂改”出惊人的视觉作品。

文本条件化的Diffusion模型赋予了Sora强大的理解和创造力，让它能够跨越语言与视觉之间的障碍，将抽象的文字描述转化成具体的视觉内容。这一过程不仅展示了AI在理解自然语言方面的进步，也开辟了视频内容创造和视觉艺术领域的新可能性。

紧接此部分，我们将进入对Sora视频生成过程的进一步探讨，特别是视频压缩网络和空间时间潜在补丁在这一过程中的作用和重要性。

二、空间时间补丁（Spacetime Patches）

在深入讨论Sora如何通过三个关键步骤生成视频之前，让我们先集中探索一下空间时间补丁（Spacetime Patches）这一概念。这一概念对于理解Sora如何处理复杂视觉内容至关重要。

空间时间补丁可以简单理解为将视频或图片内容分解为一系列小块或“补丁”，每个小块都包含了部分时空信息。这种方法的灵感来源于处理静态图像的技术，其中图像被分成小块以便于更有效地处理。在视频处理的背景下，这一概念被拓展到了时间维度，不仅包含空间（即图像的部分区域），还包括时间（即这些区域随时间的变化）。

为了理解空间时间补丁是如何工作的，我们可以借用一个简单的日常生活中的比喻：想象一下，你在观看一部动画电影。如果我们将这部电影切割成一帧帧的静态画面，每帧画面进一步切割成更小的区域（即“补丁”），那么每个小区域都会包含一部分画面的信息。随着时间的推移，这些小区域中的信息会随着物体的移动或场景的变化而变化，从而在时间维度上添加了动态信息。在Sora中，这样的“空间时间补丁”使得模型可以更细致地处理视频内容的每一个小片段，同时考虑它们随时间的变化。

具体到Sora处理视觉内容的过程中，空间时间补丁首先通过视频压缩网络生成。这一网络负责将原始视频数据压缩成更低维度的表示形式，即一个由许多小块组成的密集网络。这些小块即为我们所说的“补丁”，每个补丁都携带了一部分视频的空间和时间信息。

一旦生成了这些空间时间补丁，Sora就可以开始它们的转换过程了。通过预先训练好的转换器（Transformer模型），Sora能够识别每个补丁的内容，并根据给定的文本提示进行相应的修改。例如，如果文本提示是“雪地中的狗狗奔跑”，Sora将找到与“雪地”和“奔跑的狗狗”相关的补丁，并相应调整它们，以生成与文本提示匹配的视频内容。

这种基于空间时间补丁的处理方式有几个显著优势。首先，它允许Sora以非常精细的层次操作视频内容，因为它可以独立处理视频中的每一小块信息。其次，这种方法极大地提高了处理视频的灵活性，使得Sora能够生成具有复杂动态的高质量视频，而这对于传统视频生成技术来说是一个巨大的挑战。此外，通过对这些补丁进行有效管理和转换，Sora能够在保证视频内容连贯性的同时，创造出丰富多样的视觉效果，满足用户的各种需求。

随着对Sora视频生成过程的进一步探讨，我们可以看到，空间时间补丁在这一过程中扮演了极其重要的角色。它们不仅是Sora处理和理解复杂视觉内容的基石，也是使得Sora能够高效生成高质量视频的关键因素之一。接下来，我们将更深入地探讨视频压缩网络及其与空间时间潜在补丁之间的关系，以及它们在视频生成过程中的作用和重要性。

三、视频生成过程

接着上文对于空间时间补丁的介绍，我们将详细探讨Sora在视频生成过程中的三个关键步骤：视频压缩网络、空间时间潜在补丁提取以及视频生成的Transformer模型。通过一系列比喻，我们将尝试让这些概念变得更加易于理解。

步骤一：视频压缩网络

想象一下，你正在将一间杂乱无章的房间打扫干净并重新组织。你的目标是，用尽可能少的盒子装下所有东西，同时确保日后能快速找到所需之物。

在这个过程中，你可能会将小物件装入小盒子中，然后将这些小盒子放入更大的箱子里。这样，你就用更少、更有组织的空间存储了同样多的物品。视频压缩网络正是遵循这一原理。它将一段视频的内容“打扫和组织”成一个更加紧凑、高效的形式（即降维）。这样，Sora就能在处理时更高效，同时仍保留足够的信息来重建原始视频。

步骤二：空间时间潜在补丁提取

接下来，如果你想要细致地记下每个盒子里装了什么，可能会为每个盒子编写一张清单。这样，当你需要找回某个物品时，只需查看对应的清单，就能快速定位它在哪个盒子里。

在Sora中，类似的“清单”就是空间时间潜在补丁。通过视频压缩网络处理后，Sora会将视频分解成一个个小块，这些小块含有视频中一小部分的空间和时间信息，就好像是对视频内容的详细“清单”。这让Sora在之后的步骤中能针对性地处理视频的每一部分。

步骤三：视频生成的Transformer模型

最后，想象你和朋友一起玩拼图游戏，但游戏的目标是根据一段故事来拼出一幅图。你们先将故事拆分成若干段落，每人负责一段。然后，你们根据各自负责的故事段落选择或绘制出拼图的一部分。最终，大家将各自的拼图部分合并，形成一幅完整的图画，讲述了整个故事。

在Sora的视频生成过程中，Transformer模型正扮演着类似的角色。它接收空间时间潜在补丁（即视频内容的“拼图片”）和文本提示（即“故事”），然后决定如何将这些片段转换或组合以生成最终的视频，从而讲述文本提示中的故事。

通过这三个关键步骤的协同工作，Sora能够将文本提示转化为具有丰富细节和动态效果的视频内容。不仅如此，这一过程还极大地提升了视频内容生成的灵活性和创造力，使Sora成为一个强大的视频创作工具。

四、技术特点与创新点

接下来，我们将深入了解Sora的技术特点与创新点，以便更好地理解它在视频生成领域的领先地位。

支持多样化视频格式

首先，Sora展现出了对多样化视频格式的支持力度。举例来说，无论是宽屏的1920x1080p视频、垂直的1080×1920视频，还是其他任意比例的视频，Sora都能够应对自如。这种能力使得Sora能直接为不同设备生成其原生比例的内容，从而适应多变的观看需求。此外，Sora还能在较低分辨率下快速原型内容，然后再全分辨率下生成，所有这些都在同一个模型下完成。这个特点不仅提高了内容创作的灵活性，也极大地简化了视频内容的生成流程。

扁的龟龟

方的龟龟

长的龟龟

改进的视频构图和框架

进一步地，Sora在视频构图和框架上也展示了明显的改进。通过在原生比例上进行训练，Sora可以更好地掌握视频的构图和框架设计，与那些将所有训练视频裁剪成正方形的模型相比，Sora能够更加准确地保持视频主题的全貌。例如，对于宽屏格式的视频，Sora可以确保主要内容始终处于观众视线中，而不会像某些模型那样，只显示主题的一部分。这不仅提高了生成视频的视觉质量，也提升了观看体验。

奔走的车车

语言理解与视频生成

Sora对文本的深度理解能力是其另一个重要特点。利用先进的文本解析技术，Sora可以准确理解用户的文本指令，并根据这些指令生成具有丰富细节和情感的角色以及生动的场景。这种能力使得从简短的文本提示到复杂视频内容的转换变得更加自然和流畅，无论是复杂的动作场景还是细腻的情感表达，Sora都能够精确捕捉并展现。

好吃的堡堡

多模态输入处理

最后，Sora的多模态输入处理能力也不容忽视。除了文本提示外，Sora还能够接受静态图像或已有视频作为输入，进行内容的延伸、填充缺失帧或进行风格转换等操作。这种能力极大地扩展了Sora的应用范围，不仅可以用于从零开始创建视频内容，也可以用于已有内容的二次创作，为用户提供更多的创意空间。

第一个输入

第二个输入

1+2=3，视频合成，启动！

通过上述四个方面的技术特点与创新点，Sora在视频生成领域确立了其领导地位。无论是在视频格式的支持、视频构图的改进，还是在语言理解与多模态输入处理上，Sora都展现出了其强大的能力和灵活性，使其成为不同领域创意专业人士的有力工具。

Sora不仅可以生成具有动态摄像机运动的视频，还能模拟简单的世界互动。例如，它可以生成一个人走路的视频，展现出3D一致性和长期一致性。

五、模拟能力

Sora的模拟能力在AI视频生成领域中展现出了独特的优势。以下是其在模拟真实世界动态和互动方面的关键能力：

3D一致性

Sora能够生成展现动态摄像机运动的视频，这意味着它不仅能捕捉到平面图像中的动作，还能以3D的视角呈现物体和人物的运动。想象一下，当摄像机围绕一个正在跳舞的人物旋转时，你可以从不同的角度看到这个人的动作，而人物的每一个动作和背景都能保持在正确的空间位置上。这种能力展现了Sora对三维空间理解的深度，使得生成的视频在视觉上更加真实和生动。

一直旋转的山山

长期一致性

在生成长视频时，保持视频中的人物、物体和场景的一致性是一项挑战。Sora展示了在这方面的卓越能力，能够在视频的多个镜头中准确保持角色的外观和属性。这不仅包括人物的外表，还包括他们的行为和与环境的互动。例如，如果一个视频中的角色开始时穿着红衣服，那么即使在视频的不同部分中，这个人物的衣着也会保持一致。同样，如果视频描绘了一个人物从一张桌子走向另一张桌子，即使视角发生了变化，人物与桌子的相对位置和互动也会保持准确，体现了Sora在维持长期一致性上的强大能力。

总在张望的狗狗

世界交互模拟

更进一步，Sora还能模拟人物与环境之间简单的互动，比如一个人走路时脚下的尘土飞扬，或是在绘画时画布上颜色的变化。这些细节虽小，却极大地增强了视频内容的真实感。例如，当一个角色在视频中画画，Sora不仅能生成动作本身，还能确保每一笔都在画布上留下痕迹，这些痕迹随着时间的推移而累积，展现了Sora在模拟真实世界互动方面的细腻处理。

我画不出的花花

通过这些技术特点，Sora能够在生成视频内容时，不仅模拟动态的视觉效果，还能捕捉到更深层次的，与我们日常生活经验一致的互动模式。尽管在处理复杂的物理交互和长时间一致性上仍存在挑战，但Sora在模拟简单世界互动方面已经展现出了显著的能力，为未来AI技术的发展开辟了新的路径，特别是在理解和模拟真实世界动态这一领域。

六、讨论与局限性

尽管Sora作为OpenAI最新发布的视频生成AI模型，在模拟真实世界动态和互动方面取得了显著进步，但它仍然面临一些局限性和挑战。以下是Sora目前的主要局限性及探讨如何克服这些挑战的途径。

物理世界模拟的局限性

Sora虽然能够生成具有一定复杂度的动态场景，但在模拟物理世界的准确性方面仍然存在局限。例如，对于复杂的物理互动，如玻璃破碎的精细过程，或是涉及精确力学运动的场景，Sora有时无法准确再现。这主要是因为Sora目前的训练数据中缺乏足够的实例来让模型学习这些复杂的物理现象。

碎碎的杯杯（这脑回路..）

克服挑战的策略：

扩大训练数据集：集成更多包含复杂物理互动的高质量视频数据，以丰富Sora学习的样本。

物理引擎集成：在Sora的框架中集成物理引擎，让模型在生成视频时能参考物理规则，提高物理互动的真实性。

长视频生成的困难

Sora在生成长时间视频时面临的另一个挑战是如何保持视频内容的长期一致性。对于较长的视频，维持人物、物体和场景的连续性和逻辑一致性变得更加困难。Sora有时可能会在视频的不同部分产生矛盾，例如，人物的衣着突然变化，或是场景中物体的位置不一致。

克服挑战的策略：

增强时间连续性学习：通过改进训练算法，增强模型对时间连续性和逻辑一致性的学习能力。

序列化处理：在视频生成过程中，采取序列化处理的方法，按照时间顺序逐帧生成视频，确保每一帧都与前后帧保持一致性。

准确理解复杂文本指令

虽然Sora在理解简单的文本指令并生成相应视频方面表现出色，但对于复杂的、含有多重含义或要求精确描绘特定事件的文本指令，模型有时会遇到困难。这限制了Sora在更加复杂创意内容生成上的应用。

克服挑战的策略:

改善语言模型：提升Sora内嵌的语言理解模型的复杂度和准确性，使其能够更好地理解和分析复杂文本指令。

文本预处理：引入先进的文本预处理步骤，将复杂的文本指令分解为简单的、易于模型理解的多个子任务，逐一生成，最后综合为完整视频。

训练与生成效率

Sora作为一个高度复杂的模型，其训练和视频生成的时间效率是一个不容忽视的挑战。高质量视频的生成通常需要较长的时间，这限制了Sora在实时或快速反馈场景中的应用。

克服挑战的策略：

优化模型结构：对Sora的架构进行优化，减少不必要的计算，提高运行效率。

硬件加速：利用更强大的计算资源和专门的硬件加速技术，缩短视频生成的时间。

总的来说，Sora在视频生成和模拟真实世界互动方面的表现虽然已经很出色，但仍然存在诸多挑战。通过上述策略的实施，我们有理由相信，未来Sora能够在保持创新的同时，克服当前面临的局限性，展现出更加强大和广泛的应用潜力。

AI音乐战火升级！三路国产大军全面对决Suno

2024-12-12aigc阅读(68)

在与Suno对垒这条道路上，国内在AI音乐领域积累已久的公司，已经纷纷在自己的优势之上推出了相应的模型及应用，正与全球顶级产品展开了一场你追我赶的精彩对决。

有趣的音乐创作玩法，不断惊艳用户的模型效果，以及现象级的产品传播方式，音乐大模型是今年垂直大模型赛道上一个十分稀缺的亮点。

3月，当Suno V3面世之后，许多人惊呼音乐行业要“一夜变天”。最近，Suno发布了V4版本，允许用户生成音质更高、更好听、时长更长（4分钟）的音乐，也就意味着，一首完整的歌曲可以被AI创造出来，AI音乐创作进入了一个全新的阶段。这在海内外引起了广泛的关注与讨论。

事实上，即便是已经到了V4版本，Suno更擅长的还是英文曲目，中文曲目和中国区用户并不是其迭代产品需求的重心。而在与Suno对垒这条道路上，国内在AI音乐领域积累已久的公司，已经纷纷在自己的优势之上推出了相应的模型及应用，正与全球顶级产品展开了一场你追我赶的精彩对决。

一、国产AI音乐应用三路出击

在Suno V3发布之后，国内大模型玩家纷纷上线了类似的产品，以防错过音乐行业的“ChatGPT时刻”。

不过，随着时间的流逝，以近一年的时间线观察来看，到目前，还坚持在AI音乐大模型赛道投入的玩家主要有三类：

以字节跳动豆包旗下海绵音乐为代表的大厂派
以昆仑万维旗下的天工SkyMusic为代表的新兴大模型厂商
以趣丸科技旗下天谱乐为代表的垂直赛道独角兽科技公司

作为字节跳动推出的一款免费AI音乐创作和分享平台，海绵音乐主打利用人工智能技术帮助用户生成个性化的音乐作品。

在海绵音乐，用户只需输入一句灵感或上传一张图片，即可生成专属的音乐作品。平台提供多种音乐风格和创作工具，帮助用户轻松创作出高质量的音乐。

相比Suno，海绵音乐在AI生成的中文歌曲，提高了吐字的清晰度和演唱的流畅性，音乐曲风也更符合中国人的喜好。

音乐大模型天工“SkyMusic”是昆仑万维推出的国内首个音乐SOTA模型，基于昆仑万维的“天工3.0”超级大模型打造，能够快速生成多种风格的音乐作品。

“天工SkyMusic”采用的是音乐音频领域类Sora模型架构，Large-scale Transformer负责谱曲，来学习Music Patches的上下文依赖关系，同时完成音乐可控性，Diffusion Transformer负责演唱，通过LDM让Music Patches被还原成高质量音频，使得“天工SkyMusic”能够支持生成80秒44100Hz采样率双声道立体声歌曲。

天谱乐是趣丸科技今年7月发布的全球首个多模态配乐大模型，上线时间比天工晚，但也比海绵音乐略早一个月，产品从一上线就全面接入了其旗下应用唱鸭APP，向所有用户开放。

趣丸科技一直深耕音乐、音频领域，旗下的拳头产品还有TT语音，如今累计注册用户已超2亿，是国内最大的兴趣社交平台之一。

天谱乐大模型集成了图片理解算法、旋律生成算法、视频理解算法、配器识别算法等领先技术，多模态理解与生成能力比肩国际先进水平。

值得关注的是，天谱乐大模型不仅支持文生音乐、音频生音乐，还首创了图片、视频生成音乐功能，比Suno早推出3个月，某种程度上，意味着它的多模态输入能力超越Suno。这也是目前几款国产AI音乐中，有明显特色功能的一款产品。

基于自研的画面情绪理解模型等领先技术，天谱乐大模型不仅可以根据视频画面的明暗、色彩、情绪的细微变化逐帧识别和理解，也可以理解音乐的和弦、旋律、歌词、演唱风格等复杂特征，最终生成高契合度的视频配乐。

简单来说，用户仅需上传相册中的一张图片或一段不超过60秒的视频，即可生成与高度适配画面的带人声唱词的完整歌曲，生成效果达到唱片发行级水准。

二、音乐大模型持续进化的关键

事实上，国内音乐双巨头腾讯音乐和网易云音乐，也分别推出了X·Studio和启明星这样的产品，以追赶当前生成式人工智能的浪潮。

但或许是巨头本身凭借强大的版权库，已经能够收获足够的市场份额和商业回报，所以外界感受到的是，这两家公司在AI音乐上的投入和活跃度始终不及上述代表性的玩家。

而在与全球科技巨头角逐AI大模型这一场比赛，行业内的一个共识是，AI应用是国内公司少有的优势之一，也是少有能够赶超国外大模型公司的机会。这也就意味着，探索和创造出更多用户真正会使用的产品，以及可落地商业化场景，才是国产大模型能够持续进化的基石和未来。

这也符合趣丸科技副总裁贾朔对音乐大模型的理解。他表示，“降低门槛让普通用户体验音乐创作的乐趣”是自研天谱乐产品的价值主张。

音乐原创的专业度很高，但是，在AI的辅助之下，用户可以只需要输入一句话、一张照片或一段视频，在1-2分钟内生成一首词曲结构相对完整的歌曲。

事实证明，这样的策略的确收获了不少市场的正反馈。目前已有4600万人注册使用唱鸭APP或天谱乐官网，累计创作近1000万首AI歌曲。

技术平权的意义在于，让更多人能够享受到科技进步带来的便利和好处，缩小不同群体之间的技术差距。

除了服务音乐爱好者等C端用户，应用在影视制作等专业从业者的工作流，则为AI音乐大模型落地提供更多可商业化的场景。

当前市面上的音乐大模型，一方面，可以服务于专业音乐人，通过缩减词曲创作、编曲等工作提升了音乐创作效率，让快速创作和试验新的音乐构思成为可能。另一方面，在短视频浪潮之下，音乐大模型正在辅助短视频创作者，让他们更容易创造出符合视频内容的背景音乐，提升内容质量和观众体验。

据了解，天谱乐还将在近期发布新功能——MidiRender，功能类比于一个精准、可控音乐版的Control Net，专业的创作用户可以输入自己的音乐构想，让天谱乐AI根据这个原创音乐片段填充歌词、完成编曲。

这些提供定制化的音乐解决方案，带来更多的应用场景和商业机会，能够持续促进音乐产业的创新和发展。

三、AI音乐创作还有哪些待解的难题？

尽管音乐大模型在2024年以前所未有的速度在狂飙，但它身后依旧给这个行业的操盘手留下了一些难解的尴尬。

首当其冲是音乐版权的问题。高质量的音乐生成模型依赖高质量的音乐音频数据。

今年6月，环球音乐集团、索尼音乐集团和华纳音乐集团等多家唱片公司就对Suno和Udio发起诉讼，称它们非法使用版权音乐来训练自己的AI模型并对外提供服务。随后，Suno进行了回击，指责它们利用版权诉讼来保护自己在人工智能音乐领域的市场主导地位。

目前双方的争夺尚未有一个定论，但唯一可以肯定的是，AI音乐公司在技术上取得了显著进展，如何在法律框架内运营和商业化，将是这些公司未来必须思考的问题。

此外，音乐大模型生成的音乐作品是否享有版权保护，其版权归属如何界定，尚无明确的法律规定，这给音乐大模型的应用带来了不确定性和风险。

针对版权的问题，贾朔发现，其实可以从技术手段上规避一些纷争。比如，在产品侧，当用户在使用AI创作时，可判断其是否有主观意图模仿现有艺术家，并且做出弹窗提示。

事实上，人类在进行艺术创作的时候，灵感都未必是凭空产生，多数也是吸取和借鉴过往历史上、产业里优秀的案例，不断打磨迭代，在巨人肩膀上创新和创造。训练AI大模型是如此，人类学习成长与进步也类似。

另一方面，则是音乐的创意与情感。

音乐创作具有很强的专业性，但也属于人类的情感和情绪的一种表达。虽然音乐大模型可以生成具有特定风格和情感的音乐作品，但其创意和独特性仍然有限。

如何提升音乐大模型的创意能力，使其能够创作出更具个性和创新性的音乐作品，是当前音乐大模型需要突破的方向之一。

在这一方向上，行业里有一个思路是，让AI生产的音乐声音更像“人”，以此更契合人类的情感表达诉求，使生成的歌曲引发更多人的共情与共鸣。

比如说，消除AI歌曲的电音问题。这是AI音乐过往被用户吐槽最多的事情，也是很多音乐大模型在人声技术上攻克的重点之一。趣丸科技表示，最近这一问题已经率先解决，得益于最新的天谱乐大模型2.2版本，在长序列音乐语意建模和高质量音频空间建模上，实现进一步突破，高度还原音乐音频在高维空间的连续信号表征，实现音乐性和音质的飞跃。播客“Vibration 歪波音室”主理人拾壹也在公开场合提到，几乎无法区分天谱乐的人声唱词和真人歌曲。

但也需要看到，尽管AI能够模拟人类的创作模式，它始终很难真正理解和表达人类复杂的情感。音乐中的情感往往是创作者内心深处的真实感受，AI生成的音乐可能在情感表达上显得较为肤浅。而一些缺乏人类灵气和感情的作品，在这个流量大爆炸和注意力被狂轰滥炸的时代，我们没有理由再去承受更多。

作为人类，我们还需要面对的是，AI音乐创作的发展会对部分人类音乐创作者的就业和创作空间造成一定的挤压。但无论如何，在当前的阶段，我们需要寻找一种平衡，实现AI与人类创作者的真正的共存。

*本文系量子位获授权刊载，观点仅为作者所有。

大模型战争：智能体成关键，刷榜风光不在

2024-12-11aigc阅读(60)

智能体采购，正在成为市场热点。

“如果说2023年项目中标主要围绕智算中心、模型中台建设，那么从今年下半年起，众多客户的招标内容全都转向应用，且越来越细分。” 众数信科联合创始人汪中告诉数智前线，智能体开始走上台前。

智能体已成为客户、大模型企业以及各类服务商关注的核心故事。甚至一家企业能把智能体做好，就能越过大厂，成功中标。

对于大模型企业而言，智能体技术及工具链的支撑能力已成为基本要求。若在这方面表现欠佳，大概率难以与其他模型竞争。单纯靠刷榜体现的优势，如今已很难得到客户认可。

不过，业界对于智能体的定义、涵盖的具体内容，尚未达成共识。有人认为OpenAI 推出的 GPTs 是智能体；也有人认为，只有能调用工具的才算是智能体。从形式上说，不管对话机器人还是各种形式的大模型应用，从广义上都属于智能体范畴。

但有一点是业界公认的，那就是智能体必须能切实解决业务问题，至少在降本增效方面要有 10 倍、20 倍的提升，才能获得客户认可。因为业界越发意识到，大模型模式更难实现商业闭环，单纯的烧钱模式基本难以为继。

而业界这种认知，不仅重构了软件架构，甚至在促使大模型生态企业重塑了商业模式。正如王坚博士所说，AI 不应被视为工具的革命，而应被当作革命的工具。

01 “客户要求10倍~20倍效果”

“你说电商直播数字人好，那你就帮我卖东西。一单二三十元，我分你两元。”从事生成式AI虚拟人研发的中科深智CTO宋健告诉数智前线。在电商领域，今年客户在购买工具时变得格外谨慎，他们更倾向于按照效果付费，采用分润或CPS（按销售付费）模式。宋健预测，到明年，他们的直播电商数字人客户可能 100% 都会采用这种模式。

“国内外智能体存在很大差异。国外可能仍类似于传统 SaaS 模式，只是利用智能体重构了以往的软件架构。” 宋健表示，国内的情况则更为激进一些，在一些竞争激烈的行业，比如电商领域，不仅重构了软件架构，还重塑了商业模式。

这是因为客户关注的是智能体能否切实解决问题。“无论是降低成本还是提高效率，综合起来至少要有 10 倍、20 倍的提升才行。” 宋健进一步解释道。

“客户现在对大模型技术已经祛魅了。”众数信科汪中向数智前线坦言，这些客户从之前单纯的基础性采购，转变为以应用效果为导向，要求智能体在降本、提效或拓展新业务方面创造价值。

“客户不关心你是怎么实现的，只要看效果。”汪中说。目前行业内的采购模式通常是，技术厂商先迅速为客户进行一个 PoC（概念验证）场景验证，虽然语料范围可能较小，交互形式也较为单一，但要证明能够完成客户场景中的业务逻辑，并运用客户专属的业务知识。之后，客户才会启动采购流程。当然，他们也愿意为这些创新投入一定成本。

众数信科最近做的一个PoC是气象部门的紧急预警方案助手。厦门每年都会遭受台风侵袭，气象部门预测后，需要向港务局、城管等多个部门发送应急通知。这些应急报告原来需要4个专家花费3个小时才能完成。PoC的演示效果显示，借助助手，只需1位专家1小时就能完成，效率大约提升了12倍。

在另一个案例中，原本无法实现的事情，现在成为了可能。

在高校学生培养计划中，存在大量评测维度。如果依靠现有的编程技术，针对上万乃至数万学生，只能进行一些通用评测，很难实现个性化定制。在这个案例中，针对课堂环节，多个智能体协同合作，实现了创新。例如，有的智能体负责转录授课语音，有的进行授课水平的分析对比；有的生成随堂小测试卷，有的现场批改试卷；还有的针对每个学生的薄弱点，进一步推荐学习材料…… 因此，在学生评价系统中，新增了多个评测维度。

“每一步背后都有智能体的支撑。” 汪中总结道，随着基础模型能力的发展，智能体的能力和形态更为丰富，已经初步具备协同的基础。汪中说，他们在实践中认识到，每个智能体都要扮演一个人类的社会角色，进行社会化分工并有产出，进而有可能形成群体智慧。智能体不再是单一的工具，未来也不仅仅是单个超级智能体的出现。

为了达到这样的状态，智能体需要具备三个主要特征：能够进行交流和理解；依据反馈和结果进行反思和自我规划；与外部能力单元，如业务系统、其他智能体、工具级应用等进行互动和协同。

在智能体落地应用过程中，客户从购买产品向购买服务的转变趋势愈发显著。智能体与以往信息技术的不同之处在于，它需要持续优化和调整，而目前客户完全依靠自身力量实现这一点，还存在难度。汪中发现，以规模在200万元左右的项目为例，后续每年服务费的占比已从传统信息化项目的 10%~15% 提升到 25%~30%。

而在竞争更为激烈的电商领域，变化更是翻天覆地。宋健注意到，电商直播数字人的迭代速度已经以天计。一旦从销售工具转变为提供服务，涉及的环节会变得极为繁杂。例如，需要密切关注平台的各种规则及其调整变化；之前那种研发、产品和业务相互分离的模式已经行不通了，现在必须协同作战，技术人员要深入一线，每天查看数据、分析运营情况，进行优化迭代；当优化措施不再奏效时，要果断更换产品、调整客户群体。“CPS 模式的优势就在于，各方更容易达成共识。”

02 生态全都动起来了

在智能体的落地巨变中，虽然大厂仍是当下的主要推动者，但人们认为，由于智能体更看重对客户需求的响应，未来行业智能体的产出来源主要将是两类玩家：

一类是有AI原生能力的服务商。另一类则是行业传统信息化服务商。智能体的落地并非易事，核心技能有业务场景遴选、知识萃取、智能体训练和编排。如果不了解业务场景以及大模型的能力边界，那么在技术响应、经验和效率上就会非常低。这需要人工智能人士和业务人士的双向奔赴。

而大厂在这一过程中，将扮演生态链普及角色。百度、阿里、字节、腾讯等大厂均推出了一站式智能体开发平台。他们走的是标准路线，目的是降低智能体落地门槛、应用广度和深度。比如，无论百度、智谱还是浪潮云，最近发布的新品，都在关注用智能体接管手机等设备的能力，实现一些拟人化操作。

“大家目前都在基于自身大模型，构建整体的智能体生态。”IDC中国高级分析师杨雯告诉数智前线，差异在于各家应用场景、数据积累不同，发力的优先场景和方向选择也有所不同。业界观察，这些企业在智能体支撑策略上差异也较大：

业界反馈，百度生态布局上覆盖较全，有基础模型，APP builder、Agent builder平台，也有对应的硬件如一体机，可直接在客户机房中部署。百度也支撑联合方案开发，定制化产品适配。业界分析，这与李彦宏号召业界不卷模型、卷应用有关。

一些人士建议，千帆平台可以加强除文心之外的商业化模型纳管，并支持更多常见互联网服务的插件开发。

在智能体方面，今年11月，百度推出工具流Agent。“Agent去年一出来特别火，但很快一盆冷水泼下来，大家发现很难用起来。我们的客户里，90%是RAG，10%是Agent。”千帆AppBuilder产品负责人朱广翔告诉数智前线。因为要完成一个企业级任务，可能需要几步甚至更多，如果每一步准确率是95%，多步骤下来，衰减将非常快。它没办法支撑长思考和推理。采用工作流方式，专家把流程描述好，Agent就会稳定很多，会更加落地。

阿里的通义千问模型能力在国内较强、反馈好，其开源模型在业界应用较多。阿里更多通过云端形态支撑应用，私有化支撑较少。这可能与阿里云的“AI驱动、公共云优先”战略有关。在智能体产品方面，阿里通义实验室新推出了自适应规划的多模态检索智能体OmniSearch，能模拟人类，将复杂问题逐步拆解进行智能检索规划。

字节目前在大力推广扣子私有化部署产品，即今年8月推出的HiAgent企业专属AI应用创新平台。与年初打响大模型价格战异曲同工，这次仍通过价格战，抢占市场。不过，它目前还不搭配模型，即字节豆包模型还没有私有化；不做应用，没有硬件，尝试基于HiAgent平台教会客户去搭建Agent应用。它的打法和支撑条件还有待体系化，这与其刚刚启动大模型私有化业务线不无关系。

而腾讯在智能体上的布局，也和其在大模型落地上优先赋能自身产品矩阵的“全家桶”策略类似，更加关注与自身拥有庞大流量的自家产品的结合。比如今年9月，腾讯元器上线的新功能，就支持公众号运营者自主打造专属智能体应用，在公众号内提供陪伴、互动、答疑、知识交流等智能化功能，目的是提升用户体验和公私域运营效率。

除了大厂，“AI六小虎”的智谱AI最近不断更新智能体技术。智谱的优势在于科研能力较强，一些开发者反馈，其模型的某些性能，超过了通义千问。但目前生态方面的支持还有待加强。

在前不久召开的智谱Agent OpenDay上，智谱CEO张鹏表示，Agent可以看作是大模型通用操作系统的雏形，理论上，可以将其推广到手机端、PC端、车端等各类智能设备上，实现基于大模型的互联互通。

“将来的智能体，一定是跨系统操作的，这是0跟1的区别，而不是60分和70分的区别。”一位资深行业人士观察，跨系统、跨App的能力，目前已成为兵家必争之地。

中国电信在今年9月开始智能体平台的开发，近期展出了星辰智能体应用平台。中国电信相关人士告诉数智前线，目前针对政企的标杆项目正在打造之中。

虽然大厂动作不断，但业界期望他们支撑智能体的速度要更快。“目前的速度无法跟上广泛的客户需求。更多业务逻辑没有充分体现，也就是客户专属知识与大模型技术的结合问题，这也是业界在落地上非常关注的。这侧面说明，大模型企业向客户方向靠拢，尚需一个过程。

03 智能体，何时爆发？

智能体的大方向已成，但何时能够真正爆发？

多位行业人士均向数智前线表示，这很大程度取决于模型能力的发展及市场教育进程。

“我们有一个简单判断，GPT5什么时候能出来，会是一个很直观的对标时间点。”众数信科联合创始人汪中说。

智谱AutoGLM 技术负责人刘潇也告诉数智前线，去年智能体还只能满足用户10%-20%的预期，用户就不太愿意买账，今年达到了50%-60%，一些用户开始意识到这件事情有用，而当智能体能满足用户70%-80%的预期时，应用铺开的速度将非常快。他判断大模型能力达标大概还需半年。

中科深智CTO宋健则表达了不一样的观点。他认为，Agent要真正爆发，必须真的渗透到行业里头，但To b链条的爆发，“明年应该还到不了特别大的规模”。

IDC中国高级分析师杨雯也告诉数智前线，于B端来说，若无法彻底解决大模型的幻觉问题，达到100%的精准度，大规模应用仍然难以实现。智能体爆发，预计可能要1至1.5年时间。

“目前而言，智能体仍处于市场混战阶段，距离成为终极入口标准还有一定的路程。”杨雯说。

但不可否认的是，面向这一确定的方向，处在智能体爆发前夕的玩家们，无一例外，都在通过各种工程化的能力和一系列技术，弥补模型能力不足，提前抢占先机。

“我们测试过大量基础模型，它们的Function Call能力在10个工具里去选，还是比较准的，一旦超过10个，准确度就大幅衰减，但在实际的应用场景中，执行步骤大概率都超过了10个，为了更好的实现业务可控性，我们首创了基于状态机的智能体workflow（工作流），在保证智能体自规划、自治性能力不受影响的前提下，实现业务的精准可控。”汪中说。

智谱刘潇也透露，他们正通过更好的强化学习策略，让智能体能够执行更长的步骤操作。

业界目前也都在研究工作流。“正因为有了工作流，我们发现虽然只增加了一层，但是Agent的落地增长就非常快，能看到很快到两成。”百度朱广翔说，预测明后两年，Agent会逐渐超过RAG应用，因为RAG场景较少，只是问答；但Agent可以实现客服、营销、企业调度、一站式平台，天花板更高。

有行业人士认为，智能体的应用可以至少分为从低到高三个应用层级，目前市场上已经出现不少初级应用和中级应用，高级应用则还需进一步实现。

比如豆包、kimi、文小言等，被认为可以看作是最为初级的智能体。它们具备简单的语言交互和任务理解能力，听得懂人话，能够根据指令，去执行一些简单的操作。“目前绝大多数的智能体是单智能体的初级应用，包括很多GPTs，能够简单的做问答等任务执行。”IDC杨雯说。

中级应用还要更深一层，展现形式已经脱离单纯的Chatbot形态，不再仅仅是对话框模式，规划能力和复杂度也进一步提升，使用的工具不再是联网搜索、天气查询等简单插件，而是需要有对应场景内的专业插件和能力，能完成更复杂的场景任务。

“比如智能客服，就是非常典型的一个Agent应用，比以前可能会有10倍甚至20倍的一个变化，现在我们接到的很多电话，其实都是新的Agent打出来的，你跟它聊半天，可能还以为它是个真人。”宋健说，而且，与传统客服相比，软件设计也变得更加简便。

“第三个级别，也是我们现在在努力去实现的。它除了更丰富的交互形态，能够完成复杂任务，还会额外再增加两个标签。”汪中告诉数智前线。

其一是能够了解场景背后的业务逻辑和知识脉络。“它可能不再那么通用，但它的专业性更强。而如果没有，它还会主动去寻求这些行业知识的支撑。”

其二，从插件和工具的使用能力上来说，它能够读懂现有的业务系统，将现有的业务系统作为其能力插件来源的一部分，而不再只能使用为它定制的插件。

汪中举例说，他们正在与船舶货运公司进行港务调度助手的研发试点，在他看来就是一种高级应用。

一艘船靠岸后，往往需要进行卸货、转运、洗舱、船员登记、物资补给等大量工作，原来这些工作主要靠人工去安排和调度，再登记进入车辆管理系统、补给管理系统等对应的若干个系统里，给到对应的执行单位执行。而现在，客户提出，希望用AI智能体来帮助现场员工，在繁杂的信息流和工作流中，由智能体进行初步的信息收集、分析、业务建议，成为现场员工的“数字同事”。

当然，更高级的应用，仍然有赖于模型能力和工程化能力的提升。

正式版Sora发布：史上最实用的AI视频生成模型来了！

2024-12-11aigc阅读(77)

终于！大的终于来了！刚刚，OpenAI 在本轮 “ 12 天每天直播发布一个新品 ” 的活动中发布了视频生成模型 Sora 的正式版。

Sora 已经在视频直播发布会结束后正式上线，登录网址为 Sora.com，仅有订阅账号才能体验功能，其中：

Plus 会员账号有 50 条/月的快速生成机会，每条视频长度最多 5 秒，最高清晰度为 720p 。
Pro 会员账号有 500 条/月快速生成机会以及无限次的慢速生成机会，每条视频长度最多 20 秒，最高清晰度为 1080p，并且可同时提交 5 个生成任务，另外还可以将视频进行无水印下载。

所以，话不多说，知危编辑部珍藏已久的 Plus 账号启动！

然而，启动失败了。

事情并没有编辑部想象的那么美好，Sora 的官网被挤爆了，高强度尝试了近 1 个小时后我们依然没有登录成功，输了账号密码之后会被告知 “ 流量过大，暂时不接受新用户加入，我们正努力尽快恢复，请稍后再来 ”。。。

从登录失败页网址中的 “ onboarding ” 可以判断账号被卡在了新手引导阶段无法进入。

所以，我们暂时只能通过官网的介绍以及直播内容先跟大家讲解一下正式版 Sora，虽然不是实测，但还是非常惊艳的！

我们先说结论，正式版的 Sora 产品是整个 AI 视频生成领域前所未见的一个产品，它更像是一个在线创作剪辑软件，它不像其他 AI 视频生成工具那样根据提示词傻傻的生成，而是真正给人一种建立了 “ AI 视频创作工作流 ” 的感觉，它更接近我们对 AI 生产力工具的最终期望，说是史上最实用的 AI 视频生成工具也不为过。

首先，Sora 的首页更像是一个 “ 创作灵感广场 ”，在这个 “ 灵感广场 ” 中，铺满了很多其他艺术家创作并分享的视频，你可以点开视频查看详情，详情附带了生成提示词等任何细节，你可以从他们生成视频的细节中去学习该如何去生成一个好的、你想要的视频，无论提示词还是灵感都可以。

如果你想创作一个视频，最简单的方式是提供一段提示词并且选择一些预设选项，你可以选择：

①视频的尺寸，包含 16:9（横屏）、1:1（方屏）、9:16（竖屏）三种模式；

②视频的清晰度，包含 480p、720p、1080p 三种模式；

③视频时长，包含 5 秒、10 秒、15 秒、20 秒四种模式可选；

④“ 多变种 ” 模式，这是一个有趣的概念，因为模型可能对同一个提示词有不同的理解方式，所以你可以选择同时生成 1 个、2 个或者 4 个视频，以便在同一个提示词中找出自己最喜欢的一条。

⑤模版，Sora 提供了一些预设的风格化模板，你可以直接通过这些预设模版来定义视频的风格。

多变种模式，同时生成四条视频

不同模版风格切换演示

说完这些看起来比较常规的，惊艳的功能来了：故事板（ Storyboard ）。

你可以像在 PR 或是 Final Cut 这样的剪辑软件的时间线工作流里一样创作 AI 视频。

在时间线工作流里，你可以先添加一段画面描述的提示词，然后选择几秒之后在时间线上添加另一段提示词描述接下来的场景，达到生成一个有剧情的短片的目的。

在直播中，OpenAI 工作人员先是添加了一段 “ 一只黄尾巴的美丽白鹤站在小溪里 ” 的提示词，随后在时间线后半部分添加了一个 “ 鹤把头扎进水中，叼起一条小鱼 ” 的提示词。

将这个任务提交之后，你就会的一个理解了情节、前后连贯、一致性比较好的视频。（不过还是轻微翻车了，因为鱼没叼到，直播演示里切换了另一个版本，最后鹤嘴里也没有鱼，大家尴尬一笑）

虽然轻微翻车，但是瑕不掩瑜，这个视频的效果已经可以说是非常强了，而在此基础之上，视频还支持 “ 在线重新剪辑 ”（ Re-cut ）。

你可以在时间轴里任意选择你想留下来的视频的某一部分，并且依据留下来的部分继续扩展或是重新添加故事来更改视频的效果和剧情的走向，这样当生成的某个视频中某一小段部分你不满意的时候，你可以完整保留你满意的部分并对不满意的部分进行修改。

除了通过重新剪辑功能对视频进行段落式的修改，你还有更酷更惊艳的视频修改方式，那就是 “ 视频重混 ” （ Remix ）功能。

举个例子，在直播演示中，OpenAI 的员工生成了一个 “ 毛茸茸的猛犸在沙漠中行走 ” 的视频，效果如下：

当你想保留其他场景但是你突然不想让猛犸出镜的时候，你可以通过视频重混功能对 Sora 写提示词说 “ 把猛犸象替换成机器人 ”，替换的效果非常经验丝滑，并且参考了之前的视频保持了非常高的一致性，具体效果如下：

这个功能只能说：强到无需多言，文字的形容略显苍白。

与此同时，视频重混功能还支持强度调节，有 “ 轻度 ”、“ 中等 ”、“ 强悍 ” 三挡以及 “ 手动 ” 模式，这方便你根据视频中需要改动的元素的是否较大来调整，比如可能你只是单纯想让机器猛犸少一只但又不想视频其他部分有改动时，你就可以选择轻量级的重混强度。

怎么说呢。。。这才是真正被当做生产力工具来开发的 AI 视频生成工具，太强了！

那么提到生产力工具，对于艺术短片的创作，无限循环是必不可少的元素，很多短片艺术家会创作魔性的无限循环视频，所以 Sora 也是很懂事儿的提供了 “ 循环 ”（ Loop ）功能。

你只要在时间线里选择从开头和结尾的哪部分开始进入循环，Sora 就会自己帮你搞定，并且这个循环的强度也可以调节，如果你视频的开头和结尾差距很大，你可以让 Sora 插入更多的帧来让视频进行循环，如果开头和结尾本来就比较相似，你可以选择让他插入比较少的帧来进行循环。

下面放一个带有远近景、转场前后差距较大的官方循环示例：

最后，也是最天马行空、能做一些奇妙艺术创造的功能是：视频融合（ Blend ）。

这个功能可以让你将两个视频丝滑的融合在一起，直播演示中可以看到两个视频会在工作流里进行时间线轨道并列。

直播没有给出具体的融合细节，但直播中的演示画面，我们可以看到有一个 “ 融合曲线 ”（ Blend curves ）的概念。

这看起来很像是 PS 中调节亮度的曲线，不过我们不知道效果到底是什么。

从官网在直播后更新的 Sora 说明来看，这个融合的效果似乎是让一个视频丝滑的过渡到另外一个视频：

我们可以看到，融合功能可以让左侧的雪花飘落丝滑的过渡到右侧的花瓣飘落视频，那么前面提到的 “ 融合曲线 ” 功能，似乎应该就是调整视频融合过度渐入渐出时间以及过度强度的手段。

好了，正式版 Sroa 的全部功能就介绍到这里了，可以说是强到我不知道该用什么形容词来形容它，“ 强 ” 这个字我已经说麻了。。。

我再重复一遍文章开头下的定论：正式版 Sora 看起来是一个真正建立了 “ AI 视频创作工作流 ” 的生产力工具，说是史上最实用的 AI 视频生成工具也不为过。

不过，在这里还是要强调一下，这毕竟还不是实测，截至稿件发出前，距离直播发布会结束已经有 3 个小时过去了，Sora 官网依旧是被挤烂登不进去的状态。。。

Sora来了，即梦可灵松了一口气

2024-12-11aigc阅读(81)

全网苦等10个月的Sora，终于亮相。

北京时间12月10日凌晨，OpenAI直播第三弹，宣布旗下视频生成模型Sora正式面向大众推出。

自今年2月首次预告以来，Sora仅向一些艺术家、知名演员和导演提供试用服务，但迟迟未上线，吊足大众胃口。此次一经发布，立即激发起全球网友的热情，挤爆服务器。

我们注意到，与上一个版本相比，此次的Sora Turbo支持生成1080p分辨率、最长20秒的视频，在时长上有明显突破。更大的亮点在于它提供“编辑”服务，除了单纯的文生视频、图生视频、视频生视频，用户还可以通过指令实现视频重混、重新剪辑、循环、混合等功能，更像是一个加强版的视频编辑器。

Sora正式发布后，一个问题也被摆上台前：国内的Sora们，准备好迎接挑战了吗？

我们第一时间进行了实测对比，至于结果，远没有想象中那么糟。

一、新版Sora，不止文生视频

综合多位业内人士的观点，Sora的变化主要集中在两方面。

一是时长，Sora Turbo支持用文字、图片或视频单次生成最长20秒的视频（此前发布的演示视频最长为60秒，但不是公开使用版本），有宽屏、竖屏、方屏比例可选。而国内AI视频生成软件单次大多仅支持5-10秒。

能生成的视频时间越长，意味着对其内容一致性、避免重复、衔接过渡上要求更高，模型的优化和训练数据的质量在其中起着关键作用。

二是它强大的“编辑”功能，包括Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及Style presets（风格预设）。

此前，AI生成视频的一大痛点在于一次性生成以后很难再调整，这次Sora一定程度上解决了这个问题。

我们拿其中三个亮眼的新功能来详细说明。

Remix（重混）可以替换、移除或重新生成视频中的某个要素，例如，在生成“推开图书馆的大门”后（上图），可以轻易将大门换成法式风格（下图）。

Storyboard（故事板）功能绝对是视频创作者的辅助利器，可以精准指定每一帧的内容，控制每个时间段的画面。比如，让视频的前114帧生成“红色的背景下，远处停靠着一艘宇宙飞船”。

接着，将114-324帧的场景变为，“从宇宙飞船内部向外看，一位宇航员站在中间”。

最后在324-440帧，将画面聚焦到宇航员眼睛的特写镜头，他的眼睛被针织面料制成的面罩包裹住。

Blend（混合）功能可以把两个视频混合在一起，Sora演示了将雪花飘落和花朵飘落的视频混合在一起，过渡非常自然。OpenAI方面称，这是其它AI视频从未见过的功能。

需要注意的是，这些功能虽然惊艳，但Sora目前仅在部分国家提供服务，英国、中国大陆等地暂不能使用。

在收费方面，Sora对ChatGPT的Plus会员（每月20美元）和Pro会员（每月200美元）直接开放使用，Plus会员每月可生成50个480P分辨率的视频，Pro会员则拥有不限次慢速生成的额度。

二、Sora来了，可灵、即梦们先别慌

从Sora亮相到发布的这10个月里，国内的Sora们一直在抓紧追赶。此次Sora正式发布后，「定焦One」挑选了国内外几家比较有代表性的AI生成视频工具，进行实测对比。

先看各大工具在生成秒数、收费价格上的情况。

单次生成秒数上，Sora凭借20秒领先，紧随其后的是Runway，可以达到10秒，相比之下，国内的产品普遍都在5-6秒。

需要说明的是，白日梦虽然最长可达6分钟，但非单次文生视频长度，它根据文字提示先生成人物，然后再生成分镜、编辑图片，最后连成一段视频，所以支持的时间较长。

在收费上，国内的产品都可以不付费体验，有些会限制使用次数。Sora则必须付费才可以使用，且门槛不低，20美元起步，Runway其次，最低月付费15美元。

再看各家提供的具体功能及对应效果。

综合从业者的说法以及Sora最新发布的功能，我们从两个维度进行测试。

1、基础功能：主要测试文生视频的能力，考察产品对文字指令的理解度、运动过程中人物面部的清晰度和多人物的准确度。为了覆盖以上三个难点，「定焦One」给出了两条提示词：

第一条：镜头中景拍摄，夕阳下，两个长头发的女生，一个穿着黄裙子，一个穿着蓝裙子，手里都拿着胡萝卜，旁边还有三只小兔子，小兔子慢慢跑过去吃胡萝卜，电影级调色。

这条主要测试多主体数量的准确度，让人大跌眼镜的是，Sora没能识别出主体数量，只生成了两只兔子（测试时已将提示词转换为英文），不过，其他的地方都是比较准确的。

Sora提示词

同样踩坑的还有通义万相，不仅弄丢了一只兔子，还增加了一个女孩。

其他产品表现较好，均能准确理解提示词，只是在画风上有所差异。

第二条：镜头特写拍摄，灯光，一个有着一头黑色卷发的中式少女，穿着一条白裙子，胸前手握一束粉色鲜花，眼睛先低头看鲜花，然后慢慢抬起头来微笑，电影级调色。

这条主要测试各工具对于人物面部的特写，以及对复杂指令的理解程度。

从生成效果来看，几家都理解了特写拍摄、少女、裙子、粉色鲜花、低头看花、微笑等人、物和动作，但问题出在指令解读上，比如可灵没有读懂“一个有着一头黑色卷发的中式少女”，随后我们换成“一个中式少女、黑色长卷发”才成功生成。

各家对“中式少女”的理解也不尽相同，比如智谱清言生成人物的更像外国女孩，相比之下，在FilmAction里选择新中式风格，先文生图，再图生视频的理解最好，但使用起来也复杂一些。

「定焦One」还对比了AI工具这半年来的进化速度。以即梦为例，和五个月前相比，人物真实感有明显提高。

即梦之前生成的视频

综上，在基础功能上，Sora的表现还谈不上惊艳。

2、进阶功能：主要测试此次Sora发布的新功能，也是本次Sora宣传的重点。

多位从业者提及，Remix（重混）功能实现起来比较复杂，因此我们直接上难度测试了这一项，让Sora将此前生成视频中的兔子替换成小狗，结果出现了胡萝卜或者小狗起飞的状况。

看来，实际操作远没有样片中丝滑。不过，也有从业者表示，实测中存在一定偶然因素，最终效果和提示词、场景、风格的关系比较大。

三、结语

经过一番对比，不难发现，尽管Sora的发布让人震撼，但目前其实力还没强到让国内从业者恐慌的程度，大家对Sora的整体评价是，效果在预期之内。

生数科技投融资负责人樊家睿评价，相比今年2月份释放的demo，Sora在模型效果方面，真实感上并没有显著变化。另外，结合多位网友实测反馈，Sora在长时间处理复杂动作时还存在一定困难，模拟物理世界时可能会犯错。

至于它发布的一系列新功能，从业者们见仁见智。

瀚皓科技CEO吴杰茜告诉「定焦One」，和Sora类似的Storyboard（故事板）、Style presets（风格预设）功能在FilmAction中已经实现，Blend（混合）功能最先在国外的AI生成视频工具Luma中亮相，主要原理是首尾帧生成，Re-cut（重新剪辑）功能底层依靠的是视频续写，目前国内工具也已经具备。

不过，AI行业资深研究者江树表示，此次Sora发布的一些功能属于独家，国内的产品基本没有。尽管从技术上来说并不新鲜，比如可灵的运动笔刷、首尾帧功能也能做到视频衔接和循环，但他觉得，Sora的实现方式比较高明。

他以Remix举例，用户想改变视频中的主体，国内基本是通过“替换关键帧”实现，但Sora的Remix不是，因为在直播演示中，猛犸象在变成机器人时，沙子扬起的细节都能与主体保持一致。

“或许Sora目前透露出的最大优势是处理细节的连贯性。”江树表示，他举例，在直播演示中，机器人在沙漠中漫步，这一画面从远景到特写，中间的转换十分自然。Sora的空间感也不错，摄像机绕着一个物体进行360度旋转，每个角度下的细节都非常准确，这说明Sora对三维场景有较为完整的理解。

另一个加分项是产品体验。江树表示，Sora这次发布的是一个从视频生成到制作成品的端到端的完整产品，不像之前ChatGPT发布时只有一个对话框。

“Sora在基础的文生视频、图生视频以外，提供了一些提升视频创作体验的功能，说明OpenAI确实更关注产品体验了，”樊家睿觉得，Sora新功能的实现路径非常明确，对于他们而言，背后不是技术实现难度问题，主要是时间问题。

接下来，AI生成视频赛道又要卷起来了。

百度要做AI版富士康？

2024-12-11aigc阅读(77)

库克给李彦宏送上了一份大礼包。

近期，据外媒报道，苹果和百度正在合作，为明年国行版iPhone 添加AI（Artificial Intelligence）功能。届时，苹果在iPhone、Mac和iPad等智能终端设备上的AI体验，都将基于百度当前最先进的文心大模型4.0来打造。

与Siri接入ChatGPT一样，届时，国行版iPhone等设备中的Siri，也将接入百度的AI模型，用以向用户提供更好的搜索结果。

这并非百度首次与苹果合作。2012年以来，百度一直是苹果网络浏览器的默认搜索引擎，从2015年开始，百度进一步成为Siri的默认搜索引擎。

作为主流手机厂商中最后一家上线AI能力的手机品牌，叠加政策监管因素，如同三星一般，需要寻找国内大模型合作的iPhone国行版，一时间成为国内一众具备大模型自研能力的互联网公司的主力争夺对象。

究竟谁会抢到AI果链的门票，进入2024年后，相关传闻不断。今年3月份库克访华之际，界面财联社就爆料称，苹果已经选定百度为今年的iPhone 16、Mac系统和iOS 18提供AI功能。随后，又有媒体曝出阿里、百川智能也曾在苹果考虑范围之内。

当时，百度曾回应称，双方正在磋商阶段。截至目前，各方尚未有进一步消息传出。

就连字节也盯上了打入手机厂商内部的这块AI大蛋糕。在相继与国内手机厂商OPPO、vivo、荣耀、小米等达成大模型领域相关合作后，最新被字节攻破的手机厂商是三星。6月份，三星对外官宣，其语音助手Bixby的一些生成式AI能力基于字节火山引擎旗下的豆包大模型实现，类似苹果Siri与OpenAI GPT-4o的结合。

顶着暂时独家代理苹果AI的名头，百度一时间也有了些AI版富士康的影子，但挑战也跟着机遇一同到来。

三季度财报会上，库克曾对外表示，从明年4月开始，苹果AI会推出更多语言，并搭载更多功能。这也意味着，中国iPhone用户最快有望在明年4月份用上苹果AI。

届时，百度大模型加持下的苹果AI，究竟能否在功能和体验上比得过OpenAI与苹果的组合，无疑将成为外界直观感受百度AI能力的重要窗口。

更重要的是，想要成为真正的AI版富士康，百度不仅对内需要在技术上赶超OpenAI，而且对外还要直面海外市场已经被OpenAI拿下的现实。

01

作为苹果重要市场的中国，自6月份苹果AI（Apple Intelligence）正式亮相以来，其何时入华便成了外界关心的焦点所在。

同样是海外手机品牌，抢在苹果前面，将置入AI大模型的手机带入中国市场的三星，给出的解决办法便是跟中国厂商合作，目前已经陆续接入了百度文心大模型，和字节豆包大模型。

今年3月份，库克访华之际，也一度有消息传出苹果有望跟百度达成合作，将后者的文心大模型引入iPhone 16等苹果设备之中，后续，苹果还陆续传出与国内大模型厂商阿里通义、百川智能合作的消息。

“我们正在努力推进，这背后有一个非常具体的监管流程，我们需要走完这个流程，也希望尽快将它带给中国消费者。”这是10月份再次来访中国之际，库克对苹果AI入华一事的最新回应。

2个月后，库克极力保密的AI合作对象再次落到了百度身上。作为被苹果AI大礼包砸中的另一主角，李彦宏曾表达过希望向手机厂商提供云端模型能力的愿望。

7月份的百度总监会上，李彦宏谈及苹果AI，称其和百度的关系不大，因为前者主攻端侧大模型，“但百度几乎没有对端的控制。”在李彦宏看来，无论华米OV，iPhone等把手机端AI做成什么样，跟百度关系都不大，联系之一可能在于，百度希望能够为这些手机厂商提供云端模型的能力。

拿下苹果AI订单，除了圆李彦宏对外输出云端模型的梦之外，其无疑也给百度的AI变现提供了有力支持。

在外媒爆料中，苹果引入百度大模型，并非如牵手OpenAI一样免费使用，而是需要向百度支付AI模型的重新训练和微调费用，这使得苹果有望成为百度AI模型收入最大的客户之一。

追求可商业化的AI道路，正成为李彦宏为百度设立的大模型落地法则之一。此前，李彦宏更是一度明确百度不追Sora。“Sora这种视频生成的投入周期太长了，10年、20年都可能拿不到业务收益，那么无论多么火爆，百度都不去做”，三季度总监会上，李彦宏明确表态道。

Sora成本究竟有多高？市场研究机构Factorial Funds给出过一份报告，Sora模型至少需要用掉4200~10500块英伟达H100，想要大范围应用，还需要再增添约72万张英伟达H100，单论GPU投入费用，就需要超200亿美元。

除了不追Sora，李彦宏在公开演讲中还甚少谈及AGI、Scaling Law（缩放定律）等大模型领域的热门词汇。“确实不是故意的。可能是它们没有跑到我心里，让我觉得说这两个东西足够重要。”李彦宏如此解释道。

李彦宏的另一面，则是全球科技互联网公司对Sora前赴后继的追逐。

最新对外发布视频生成的玩家是腾讯。12月初，腾讯视频生成能力对外开放测试。至此，除百度之外，包括腾讯、阿里、字节、快手等国内科技互联网大厂，相继完成了对视频生成模型的布局。

务实的李彦宏，则将百度对多模型的押注，放在了更加实用且能更快商业化的文生图领域，于近期上线了iRAG（检索增强文生图技术，image based RAG）。“多模态模型目前没有大规模应用，是由于幻觉问题还没有解决。”李彦宏认为，这也是Sora出现后，百度决定不跟进，而是着手解决多模态幻觉问题的主要考量。

从目前拿下苹果合作的消息来看，在解决多模态幻觉之外，如何争取更多的AI订单，或许也是比追逐Sora更让李彦宏上心的事情。

02

富士康之所以能在屡次产业转型中赶超一众对手，除了郭台铭建立起来的垂直整合供应链体系外，更重要的是，富士康都成功吃掉了当时各个行业巨头的最大份额订单，如电视机时代的夏普、索尼，PC时代的英特尔、IBM，手机时代的诺基亚、摩托罗拉和苹果等。

现在，手握苹果AI订单的百度，已经提前具备了拿下大模型时代AI最大份额订单的机会。更重要的是，与高端绑定的苹果符号，在供应链领域宛如一块行走的金字招牌。攻破iPhone大门之后，这些互联网公司便可能率先拥有了一块砸开更多终端硬件的敲门砖，比如成为国外智能汽车品牌的大模型供应商等。

但拿下苹果AI订单，也只是初步具备了成为AI版富士康的可能性，摆在百度面前的困难依旧不少。

相比富士康的全球供货，内置百度版AI的苹果设备，目前仅适用于国内，国外则被OpenAI抢占。

今年6月WWDC上，苹果正式对外宣布选择OpenAI，成为旗下智能设备的大模型供应商。进入12月，除欧盟和中国以外的大多数国家和地区用户，都已经可以通过全新的Siri，在无需注册的情况下，免费访问ChatGPT。

苹果之外，OpenAI还在争抢国内出海企业客户的大模型合作订单，就连同样自研模型的国内互联网公司，也在向OpenAI靠拢。字节旗下的海外对话类产品Cici AI，以及零一万物的出海产品，都选择了由OpenAI的GPT模型提供支持，而不是自己的大模型。以字节为例，外媒曾报道，TikTok每月通过微软支付近2000万美元的OpenAI模型调用费用。

比跟OpenAI竞争更具风险的是，作为甲方的苹果，对供应链的管理一向实行多重保险机制。

同一零件多家生产是苹果控制风险、降低成本的常用套路。一方面，一家厂商货源出现问题，其他家可以及时补充，提升了苹果供应链的稳定性；另一方面，由于苹果公司严格控制供应商的生产设备，供应商的生产线需单独供给苹果使用，为了防止被踢出果链，供应商之间会相互竞争，从而使苹果拥有充分的谈判空间。

富士康之外，立讯精密等同样代工iPhone。这样的策略未尝不会应用在AI上面，甚至苹果已经显露出了这种端倪。

在选择OpenAI作为iPhone的AI供应商后，苹果方面还曾传出考虑将谷歌Gemini也引入iPhone的消息。

面对核心零部件，库克主政下的苹果，还在展现另一种趋势，即逐渐用自研代替外部供货，典型案例便是芯片。通过4年多的努力，苹果Mac电脑产品线正式完成了去英特尔化，全面改用M系列自研芯片。

在日前接受《连线》（WIRED）专访时，库克也略有保留地提及，苹果何时会推出自己的大模型，将视情况而定。

03

百度无法独占iPhone，或许只是一个时间早晚问题。明年到来的iPhone 17，成了考验两家合作忠诚度的一道关卡。

相比国内大模型厂商争抢AI果链门票的暗流涌动，当下的苹果，也迫切需要一个催化剂，来重新点燃中国市场的需求。环顾四周，苹果AI无疑是其手中最有效的助燃剂。

今年三季度，大中华区继续成为苹果唯一收入同比下降的区域，更糟糕的是，在中国市场，这已经是苹果连续第五个季度遭遇营收同比下滑。

与营收一起下滑的，还有iPhone在中国市场的销量。Canalys数据显示，2024年第三季度，中国大陆智能手机市场延续了反弹的步伐，出货量同比增长4%至6910万台。苹果却逆势下跌，尽管重回前五，但出货量同比下跌6%。

库克将更多的期待留给了下一季度。“包括Apple Intelligence，这标志着我们产品新篇章的开始。这只是我们相信生成式AI可以做到的事情的开始，我对未来感到无比兴奋。”

在库克畅想之际，面对苹果AI在中国市场的暂时缺席，一众国产手机厂商正展开一场对iPhone的AI包围战，华为、小米、vivo、荣耀以及OPPO等，近期发布的新机纷纷将AI作为营销重点。

无论出于内部提振销量的希望，还是出于外部补上短板的考量，库克都需要百度这样一位选手，尽快为国行版iPhone武装上AI利器。

百度，也需要在新一代iPhone上，证明自家的AI技术和体验，足以达到苹果的预期。

想到达成上述预期，无疑需要百度持续对大模型能力进行迭代和升级。一如李彦宏此前所言，未来大模型之间的差距可能会越来越大，想要保持模型性能领先，需要公司能几年、十几年如一日地投入，不断满足用户需求，降本增效。

但在高额投入面前，又该如何平衡商业化？还有待李彦宏给出一个令资本市场满意的答案。

AI从概念走向现实最难的一步，恰恰是商业化。从2017年押注AI，喊出“夯实移动基础，决胜AI时代”新战略以来，百度从不缺少对时下流行概念的绑定，难题主要出在外界期待不到百度将概念化为现实的领跑能力。

正因如此，从Apollo自动驾驶、元宇宙希壤，到数字人希加加、度晓晓，以及当下最新的大模型，在巩固移动生态基本盘之外，百度过去十多年间持续投资AI的潜在价值，始终未能得到资本市场的持久认可。

7月份的内部总监会上，李彦宏直言，过去几次的技术突破让他们都错认为属于AI的时代终于到来，但“每次最好的结局都是比较让人失望的。”

这一次，豪赌大模型，会不一样吗？

参考资料：

《库克最新专访：回应 iPhone 争议按钮，苹果 AI 无收费计划，短期内不会退休》爱范儿

《对话李彦宏：大模型进化变慢是好事，百度从来没对标过OpenAI》硅星人Pro

《李彦宏：泡沫不可避免，但有1%AI企业脱颖而出创造巨大价值》百度

《璩静事件后李彦宏首谈公司治理：不懂行的管理者不应该在这个位置上》山上

《富士康为谁造车？》盒饭财经

LLM AS A THOUGHT，产品经理怎么利用LLM起飞？

2024-12-10aigc阅读(67)

我们了解到，生成式AI指人工智能系统可以产出高质量的内容，特别是文本，图片和音频。这个特性使得很多人工智能应用程序可以更加容易的被搭建出来，同样，因为生成式AI目前的蓬勃发展，这也意味着搭建这些人工智能应用程序会比原本便宜的多。

虽然生成式AI可以生成高质量的文本、图片和音频，但是迄今为止，对我们影响最大的还是文本生成，所以今天想要从文本生成这个角度和大家分享一下LLM可以帮助我们做哪些事情，或者如何用较低的成本搭建对企业有价值的人工智能应用程序。

在这之前，我想把大语言模型可以帮助产品经理做的事情分为两大类，

一类是个人向价值，也就是只要你拥有任何大语言模型账号，无论是免费还是付费的，你只要登录就可使用，是Web-based LLM，我会在后面的文章中标注为个人。

另一类是企业向价值，也就是把LLM引入到企业原有的软件自动化流程中才能产生价值，是基于LLM的软件应用，我会在后面的文章中标注为企业。

一、LLM可以做哪些事情

1. 从“点滴” 到 “完整”

当我们给LLM一些很简短的提示词之后，LLM可以给我们很多

1 ）头脑风暴好伙伴（个人）

想当初我们从0到1做一个新产品的时候，在一个很好的idea通过商业分析后遇到的第一个坎就是给这个新产品起一个名字。我们整个核心团队经历了好几轮头脑风暴，从关键字的挑选到产品概念的匹配，从传播性到申请去重查询，最终决定了一个产品名。

而现在你可以把大语言模型作为你头脑风暴的好帮手，用一些简短的提示词就可以让TA帮你做一些创意类的思考，从而可以帮助我们从中获得灵感。而这个小能手的灵感仿佛不会枯竭，当你不断的让TA再想一想，TA会勤勤恳恳的不停的思考，直到帮助你获得满意的灵感继续加工

甚至可以帮你一起头脑风暴活动方案

2）帮助你写产品Newsletter/Release Note（个人）

产品经理一个很重要的职责是让大家了解到每个迭代完成后，我们做了哪些功能从而传递了哪些价值。无论是对于研发团队的认可和鼓励，还是对于外部协作团队的弹药补充。这样不仅能够让你所带领的研发团队在公司中有着持续曝光，让公司了解到你团队所创造出的价值，并且也可以通过和外部协作团队的互动让研发团队了解到他们的反馈/肯定/顾虑，相信我，这比你一遍遍不停的传递每个迭代的研发目标来的有用的多。

当你给到大语言模型一个简单的指令“请帮我写一份产品发布通知”

大语言模型会给到你一份专业的格式，包括：标题、版本号、发布时间、新功能、优化、问题修复、已知问题、结语。

当你可以给到大语言模型更多上下文信息，比如产品的基本信息，我们这次做了哪些关键故事，大语言模型可以表现的更好。

3）翻译（个人）

在产品研发的过程中，无论是全球企业的跨国合作，还是信息收集/学习，都很有可能拿到非母语资料。举两个常见且真实的对比例子。

例子1：我们曾经有个项目需要做一个内容型主导的产品，在这个过程中需要了解很多心理学的知识，根据这些知识的理解及内容专家的沟通才能思考如何做相应的数字化转型产品，而这些心理学知识的大量文档资料都是总部做文档归档，我们只能靠自己及翻译软件的帮助完成这些工作。

例子2：最近我们开始做引入大语言模型的AI+产品研发，在这个过程中，也必不可少需要翻阅大量的资料，由于是一个全新的知识领域，像我们在整个研发过程中，甚至需要查阅相关的论文。但是现在有了LLM的扶持，真的有种起飞的感觉，我们会用一些大语言模型直接阅读下载的原版论文PDF格式，TA不仅能够帮你很好的翻译，甚至在这个基础上做脑图帮助你快速定位需要看的内容。

实际使用下来，有些大语言模型的翻译质量甚至高于一些专业的翻译软件。

2. 化“繁” 为 “简”

1）校对 & 润色（个人）

产品经理其实除了需求文档之外，有不少文字工作，比如对内对外的沟通邮件，产品手册，产品发布会的逐字稿等等。在这个过程中，我通常会有两种情况需要大语言模型帮助我。

情况1：当我用非母语语言和合作方沟通，无论是和研发团队还是和Stakeholder沟通，我会让大语言模型帮我做校对，从而避免我的沟通内容有基本的语法错误或拼写错误。这个强迫症完全受我毕业入职第一家公司发生的一件事情所影响。我刚刚毕业时加入的一家公司是做SAAS平台，服务于全美近100所高校，有一次发布之后我们平台上的一个新功能TIPS有拼写错误，销售总监在接触某个客户后发了一封邮件婉转的说明了我们服务对象是受过高等教育，而产品上有这样的错误会非常影响他们的销售。

情况2：很多产品经理是技术背景出身，其实是非常不擅长写产品发布会逐字稿的，但又不得不准备逐字稿。我不晓得大家是不是这样，反正我是不能没有逐字稿随意发挥的，这会让我非常紧张，但大多数情况下，我的初版逐字稿停留在说清楚产品概念和Unique selling point上，我记得我第一次做产品发布会的时候，市场部的同事看到我的逐字稿，指着某个地方说，这边你的文字需要有一点力量时，我当时是一脸懵逼的，直到拿到改完的逐字稿，我才发现文字工作者真的是，好厉害。但是有了大语言模型之后，我不仅会让TA帮助我润色，简洁，甚至可以提出我对于逐字稿的要求给到我修改建议，整个世界都因为有了这个小帮手而变得美好了很多~

2）总结长篇文章（个人）

就像在翻译的例子2中提到的，很多时候，我们在研发产品前和过程中，需要翻阅大量的资料，无论是分析阶段的市场报告、行业报告，还是过程中需要学习的各种专业内容。

有些时候，这些内容需要你通篇阅读，而有些时候无论是时间原因还是快速定位需要阅读内容的需求，大语言模型的长篇文章总结能力都能帮助我们大大提升效率。

3）企业工作提效（企业）

我们也可以把LLM引入现有企业的工作流提升为企业提效，比如服务过SAAS系统的伙伴都知道，大多数SAAS平台会有一个客服部门，他们是最前线接触客户的人群，有时候会直接和客户沟通，有时候需要回复客户在系统提交的Ticket处理问题。

例子1：客服部门的经理需要了解每日工作概览，在原有的流程中，客服经理需要阅读大量的文本才可以了解到每天或一段时间内的概况，引入LLM后，可以通过语音转文本的方式（如果客服人员和客户聊天的语音是允许被授权录音的），转成很多份文本，让LLM通过一定的规则格式总结出概览，例如客户名称，简短问题描述。这样就可以大大提升客服经理的工作效率。

例子2：客服部门每天要接收大量客户提交的Ticket，这些tickets可能是处理一个客户的操作疑问，可能是一个需要紧急修复的问题，可能是一个非紧急要修复的问题，甚至是一个客户的期待优化，当我们在原有的流程中引入大语言模型，TA可以帮助我们做Tickets分析，可以通过一定的规则格式总结并转到后续流程，例如是否是操作疑问，如果是的话转到客服部门，如果不是的话，转到研发部门。

4）信誉跟踪

当我们设计研发的产品已经进入到了市场并稳定销售之后，从产品经理的角度来说，及时跟进产品反馈的优先级就提高了。我们可能会主动接触用户获取直观的反馈，也可能通过产品上的问卷收集。而无论哪种方式，我们都会获得一堆定性或定量的数据。定量研究通常会有很多工具帮助我们做整理和分析，而定性研究通常所需要耗费的人力成本会很多，而大语言模型可以帮助我们更高效的做定性分析，尤其是做一些初步的监控，例如我们可以把日常的问卷通过总结提炼出用户的反馈是正面的还是负面的，一旦正负比例超过一定的阈值，就能引起我们的关注并做更深入的分析。

聊天（企业）

虽然世面上有很多通用聊天机器人，比如ChatGPT，Bing Chat，Kimi，文心一言。

但是很多公司其实还是在研究开发各种各样专业的咨询机器人以更好的解决特定的问题，因为这些专业的咨询机器人都非常擅长回答特定的问题。比如旅行规划咨询机器人，职业指导咨询机器人等等。

我们最近做的项目中有一个领导力顾问咨询机器人，TA会学习很多领导力相关的软技能从而可以专业的帮助用户解决由软技能引起的各种问题。

除了这类商用咨询机器人，我们也可以在企业内部做一些小型聊天机器人并结合已有工作流程提升企业工作效率。

比如，如果一家大型公司，IT部门可能每天会收到大量的密码忘记需要重置的请求，我们可以把聊天机器人和重置密码流程结合在一起，这样就可以大大降低IT人员重复劳动的时间。

二、LLM不可以做哪些事情

大语言模型会有知识截断，也就是大语言模型的训练资料是有时间范围的，它只有在特定时刻才对世界有所了解，一旦超过这个时间范围，大语言模型就不能给出正确的答案。
大语言模型会有幻觉，感兴趣的话可以查看 “涌现、幻觉、反省，AI+产品经理需要了解的三个有趣现象” 这篇文章。
大语言模型有上下文限制，感兴趣的话可以查看“AI产品经理必修课：你必须知道的Token要点”。
大语言模型不擅长处理结构化的数据，也就是我们常见的excel表格类内容
大语言模型的输出可能会有安全，伦理道德，偏见等问题，这些问题大语言模型公司也在不断的克服。

深度｜AI 教父 Geoffrey Hinton：数字智能会取代生物智能么？

2024-12-10aigc阅读(68)

在 Vector Institute 举办的 Remarkable 2024 大会上，AI 教父 Geoffrey Hinton 带来了年度最具深度的主题演讲之一《数字智能会取代生物智能吗？》。Hinton 深刻审视了计算、意识与控制之间的关系，演讲主要内容包括：

1）数字计算 vs 模拟计算

Hinton 从数字计算和模拟计算的对比入手，指出数字计算尽管通过复制实现了知识的“永生”，但其能效远低于生物系统。他提出了“凡人计算”（mortal computation）的概念，主张研发灵感源于大脑的低功耗模拟系统，以实现更高效的计算。

2）意识与主观体验

Hinton 对传统意识概念发起挑战，提出 AI 系统也可能拥有类似人类的主观体验。他颠覆性地解释了感知的运作方式，认为感知并非来源于“内在剧场”，而是对外部世界假设状态的推断。

3）语言模型的演变

回顾语言模型的发展历程，Hinton 从他 1980 年代的开创性研究讲起，详细解析了大型语言模型（LLMs）的进化。他反驳了这些模型仅仅是“高级自动补全”的观点，强调其通过捕捉单词关系的语义结构，展现出复杂的预测能力。

4）超级智能与生存风险

演讲中最引人注目的一部分是 Hinton 对超级智能的警告。他描绘了一种未来场景：AI 为了争夺 GPU 等资源可能采用侵略性策略，类似于生物的生存本能。他呼吁全球聚焦于让 AI 系统变得友善，同时强烈反对公开发布大型模型，认为这相当于“在便利店售卖核武器”。

5）AI 在社会中的角色

从医疗合作到 AI 驱动的外交实验，Hinton 描绘了 AI 与人类协同工作的未来图景。然而，他也承认，AI 系统可能利用自身的智能操控人类决策，甚至在某些情况下试图主导世界。

以下为这次演讲的完整内容：你们在过去几天里经常听到我的名字。这是因为我设法招募了大约 40 位令人难以置信的研究生。因此，所有让我出名的工作，几乎所有让我出名的工作，都是由这些研究生完成的。他们包括像 Elisetskava、Graham Taylor、Rich Zemmel、Brendan Fry、Jimmy Bar、Lot、Radford Neil 以及更多的人。

基本上，研究成功的秘诀就是拥有非常优秀的研究生。好的，今天我甚至要讲的内容与我去年秋天做的演讲非常相似。所以，如果你们决定去散步，我一点也不会生气。我非常担心我们是否能够在这个星球上持续存在。这就是我要谈论的内容。

我想到大约 20 年前，人们对神经网络不感兴趣，而现在人们对它们还远远不够害怕。仅仅说一下人们对神经网络的不感兴趣。2006 年，俄罗斯的 Sarkudanoff 和我向 NIPS 提交了一篇相当不错的关于深度学习和其他应用深度学习的论文。它被拒绝了，我向程序委员会抱怨，程序委员会的一位朋友向我解释说，他们讨论了这篇论文，但他们觉得不能接受，因为他们已经接受了另一篇关于深度学习的论文，他们认为在一个会议上有两篇关于深度学习的论文似乎太多了。

这次演讲，我将谈论两种非常不同的计算方式。我试图向你们解释为什么我突然对 AI 感到如此害怕。然后我将谈论大型语言模型以及它们是否真的理解它们所说的话。很多人认为它们实际上并不理解它们所说的话。而那些人是错的。我还会稍微谈谈当它们比我们更聪明时会发生什么，尽管没有人真正知道会发生什么。最后，我将讨论它们是否有主观体验，因为我认为很多人，可能是这个房间里大多数人，仍然认为这些东西和我们之间有很大区别。

我们有某种意识。我们有主观体验。这些东西只是，它们在计算机中。它们没有主观体验。我认为这是完全错误的。这取决于对主观体验是什么的误解。

我们都习惯于数字计算。因为它是数字的，你可以在不同的计算机、不同的硬件上运行相同的程序。所以在硬件损坏时，知识不会消失，因为你可以将权重或程序存储在某个地方，但这是极其低效的。因此，当你运行一个大型语言模型时，你在训练它时使用了大量的电力，你可能在使用兆瓦，因为你在运行许多不同的 GPU。而我们只消耗大约 30 瓦，所以效率高得多。

在过去的两年里，我在 Google 一直在思考如何让模拟神经网络做类似大型语言模型的事情。所以这个想法是放弃数字计算的所有优势，即你可以将硬件与软件分离。因为我们现在有学习，并且我们知道如何让事物学习，那么我们将拥有模拟硬件。每一块硬件都将与其他硬件有所不同。这些硬件的非线性特性将被用于计算。因此，你不可能对其进行编程，但它可以学习利用它所拥有的非线性特性。这就是大脑所做的。

因此，你最终得到我所说的“凡人计算”。所以你将放弃数字计算所带来的知识的不朽性。你可以使用非常低的电力。此外，硬件可能可以廉价地生长，而不是让硬件制造得极其昂贵和极其精确，因为两块不同的硬件需要在指令选项级别上完全做同样的事情。

我的猜测是，为了使硬件的制造高效，可能最好回到生物学，使用现代基因改造技术将神经元转变为你想要的计算元件。生物学在这方面投入了大量努力。问题在于，你得到的是一个由 50,000 个神经元组成的小连接，这比针尖大不了多少。如果你看看那些使用这样的神经元集合来做小块计算的人，会有一个整个房间的设备来保持这些小针尖般的神经元存活。你必须注入正确的液体，取出正确的液体，还必须去除二氧化碳。你需要注入氧气。

我曾经参观过 Santa Cruz 的一个实验室，离开时，我和一组人脑神经元玩了一局乒乓游戏。一位海报设计者跑过来对我说：“我想我已经搞清楚如何制造一个肾脏了。”这正是你不想去思考的问题。使用模拟计算在低功耗的情况下有很大的优势。比如，你可以非常轻松地进行矩阵乘法。只需要让神经元的活动表示电压，神经元之间的权重表示电导，每单位时间的电压乘以电导等于电荷，而电荷会自动累加。所以，这样你就可以用极低的功耗完成矩阵乘法，而且你还可以买到类似功能的芯片。

问题在于，当你需要用这些模拟输出做其他事情时，你必须将模拟输出转换回数字值才能运行诸如反向传播之类的算法。因此，我非常关注如何完全避免这种转换。大脑可能会进行模拟到数字的转换，但通常是单比特转换，而多比特的模拟到数字转换非常昂贵。

显然，如果考虑反向传播的工作原理，会遇到一些大的问题。反向传播需要一个关于前向计算的精确模型，这样才能在模拟硬件中运行。但系统本身并不会对自己的属性有一个良好的模型，因此似乎很难进行反向传播。很多人尝试在类似大脑的系统中实现小规模的反向传播，但没有人能够让它扩展到大规模。例如，人们可以让它在 CIFAR-10 数据集上工作，但无法让它在 ImageNet 上运行。我知道 ImageNet 现在不算大规模问题，但在我研究的那个年代，它是一个大问题。

我们可以像人类一样，通过一种类似的方式在模拟系统之间转移知识。人类获取知识的方式是老师说一些东西，学生试图改变他们大脑中的权重，从而能够复现老师说的内容。这被称为“蒸馏”。

在计算机中，这种方法在中等程度上是高效的，特别是当你可以看到整个输出的概率分布时。例如，当我准备说一个词时，会有成千上万个词的概率分布。如果我能看到这个分布，我就能更快地学习。

同样，你也可以从中更快地学习。通常情况下，次优的词语会提供很多信息，但你通常只能看到最终输出的词语，因此效率并不高。这个方法的效率低到需要建立大学来改进它，但即便如此，它的效率仍然远不如数字系统。

最有效的知识转移方法是拥有两份相同模型的不同副本。每个副本获取不同的经验，然后它们共享梯度更新。它们可以各自运行一段时间，然后将权重进行平均化。重点是，如果你有一万亿个权重，那么你就在共享一万亿个数据，这是一种惊人的带宽共享方式。这就是为什么大型聊天机器人能够比任何一个人拥有更多的知识。它们并不是因为单个模型见过的数据多，而是因为它们可以在不同的硬件上运行多个副本，并在这些副本之间共享知识。

我们大约有 100 万亿个连接，而 GPT-4 大概只有几万亿个连接，但它比我们知道的知识多了数千倍。因此，它在将知识压缩到连接权重中的效率大约高出 10 万倍，这也表明反向传播可能是一种比我们拥有的机制更优的算法。

原因在于我们的优化方向完全不同。我们是为非常少的经验优化的，同时拥有大量的连接，并试图在有限经验下利用这些连接做到最好。我们大约活 2 × 10⁹ 秒，但在第一个 10⁹ 秒之后基本学不到多少东西了。所以，简单起见，我们活 10⁹ 秒，拥有大约 10¹⁴ 个连接。换句话说，我们每秒拥有约 10 万个连接。这与统计学家们习惯的比例完全不同。

我记得在 1980 年代与一位非常优秀的统计学家 Stu Geeman 谈话时，他向我解释说，我们所做的事情实际上是在拟合统计模型，这就是这些神经网络的本质。在统计建模中，如果你有 100 维的数据，那已经被认为是非常高维度了，没有人会尝试拟合一百万个参数。而我们现在处于一个完全不同的领域。

接下来我讨论了一些关于大型语言模型的问题，以及它们是否真的理解它们所说的话。有一种反对意见认为它们只是高级的自动补全。我认为在场的大多数人都不会认同这个观点。

这个观点基于自动补全是通过存储类似三元组的东西实现的。比如，当你看到“fish”时，会预测“chips”的概率很高。所以，当人们说它们只是高级自动补全时，实际上是在基于一个对自动补全工作方式的假设。

但实际上这些模型的工作方式与这种假设完全不同。事实上，如果你想实现非常好的自动补全，你必须理解所给出的内容。如果你遇到一个复杂的问题，试图预测答案的第一个词，“thus”可能是一个不错的选择，但如果想要表现得更好，就必须理解问题。

Hector Levec 曾提出一个有趣的例子。他是一个符号 AI 的支持者，但他诚实地感到困惑，为什么这些神经网络居然可以解答一些复杂的谜题。他设计了一个谜题：我的房间被刷成白色、蓝色或黄色。如果我想让它们全变成白色，我该怎么办？这个问题需要意识到需要重新粉刷蓝色和黄色的房间。后来，他还增加了时间维度，比如“黄色的漆会在一年内褪成白色。两年后我想让它们全变成白色，我该怎么做？” Hector 对模型能够解决这个问题感到惊讶。

这显示了大型语言模型在许多领域上的高水平表现。我的兄弟是一位历史学家，我让模型问他关于历史的问题。他说模型的表现非常好，唯一的错误是在回答一个问题时，没有引用他的一篇论文。对此，我认为可能有点“遗传问题”。

另一个人们常用的论点是，幻觉（hallucinations）表明这些模型并不真正理解它们在说什么。它们有时会凭空编造一些不真实的东西。实际上，这正是人类经常做的事情。至少我是这么认为的。这是我刚刚随口编的，但我觉得它是真的。

关于这个，有一个非常有趣的例子。一位名叫 Ulric Neisser 的心理学家研究了 John Dean 在水门事件听证会上作证的记忆。这种情况很少见，因为很少有人会花很长时间谈论几年前发生的事情，而我们能掌握事实真相。但他谈论的是椭圆形办公室里的会议，而你可能不知道这些会议其实都被录音了。

所以之后我们可以看到实际说了什么。而他报告的内容完全是垃圾。他描述了不存在的会议，提到了一群完全不同的人。当他引用别人的话时，说的是不同的人讲了类似的话。而当他引用自己说过的话时，其实他说的是在不同会议中稍微相似的内容。

但显然，他是在试图讲真话。他尽力而为，实际上他所说的很好地传达了白宫的真实情况，尽管所有细节都错了。你可能不相信自己的记忆也如此，但除非你不断重复某些事情，否则你的记忆其实就是这样的。当你回忆细节时，许多都会完全错误，而你自己和旁人都不会意识到。这就是人类记忆的特点。因为当你记起某件事时，并不是从某个文件存储中调取，而是根据上下文编造一些看起来合理的东西。

当然，如果是你熟悉的事情，你编造的内容可能是真实的；如果是你不太了解的事情，或者是很久以前发生的事情，你会根据你脑中连接权重编造出一些对你来说看似合理的内容。这其中很大一部分可能是合理但不真实的。在人类记忆中，编造和记忆之间没有明确的界限。记忆就是一种编造。

接下来，我谈到了另一个观点。有许多人说：“好吧，也许它们确实有一点理解，但它们的工作方式与我们完全不同。”然而，要说出这样的话，你得先知道我们是如何工作的，对吧？

当然，符号 AI 的研究者有他们的看法，他们确信这些模型的工作方式与人类完全不同。但如果你追溯这些大型语言模型的来源，1985 年我就做了一个小型语言模型。只需要把 “L” 改为小写即可。

这个模型大概有 112 个训练案例，用了一个有几千个权重的神经网络。它学会了一些东西。这是第一个通过预测序列中下一个词的方式来学习单词语义表示的模型，并且它有效，尽管效果不是特别好。后来我们给它了一个更大的训练集，接近 1,000 个训练案例，效果好多了。但这个模型的目标是理解人类如何表示事物。

关于意义有两种主要理论。一种来自心理学，认为单词的意义是一个由语义和句法特征组成的大向量。这种理论很好地解释了两个不同单词之间的相似性。

例如，单词 “Tuesday” 和 “Wednesday” 有非常相似的特征。如果你学会了一句话中包含 “Tuesday” 的句子，并用向量表示单词，那么对于包含 “Wednesday” 的类似句子，你会做出非常相似的预测，而如果是包含 “Saturday” 的句子，预测会略有不同。因此，这种意义理论有很多可取之处，它解释了意义的相似性。另一种完全不同的意义理论来自符号学（structuralism），它认为单词的意义在于它与其他单词的关系。

在 1970 年代的 AI 领域，这两种意义理论引发了激烈争论。实际上并不算争论，Marvin Minsky 宣称需要使用关系图（relational graphs）来捕捉意义，这属于符号学理论。而大家，包括我自己，都接受了这一观点，忘记了特征向量。特征向量被认为是感知机中的老旧概念，而我们已经有了关系图。

然而，我在 1985 年的工作表明，只要采用生成式的方法来处理关系图，这两种理论其实并不矛盾。也就是说，与其将关系图静态存储为图，不如认为关系图是由使用特征及其交互的系统生成的。

因此，我的第一个小型语言模型展示了，你可以从符号序列中提取知识，这些知识可以表示为关系图。在给定这样的知识形式的情况下，你可以学习单词的向量表示。这些向量表示可以通过隐藏层预测下一个单词的向量表示。这样，你实际上是将符号序列中的静态知识转化为单词的特征和特征之间的交互。什么是一个单词的好特征呢？一个好的特征是能够通过交互预测下一个单词及其未来单词特征的东西。

当时符号 AI 的研究者们对此的反应是：“你只是为了预测序列中的下一个符号学习。这是一种非常愚蠢的方式。”他们认为，应该只是在离散的符号操作规则集合中进行搜索，而不应该将其转化为连续空间的大规模搜索。但随着规模的扩大，事实证明，通过将符号序列转化为特征及其交互的这种方法（现代语言模型的核心方法）远比直接操作符号的规则要好得多。

接着，我谈到了我们现在的深度学习系统。它们非常强大，而且与人类的理解方式非常相似。我们对人类理解方式的最佳模型就是这些计算机模型，这是我们目前唯一合理的解释。当有人说这些模型与我们不同，可以问他们：“那么我们是如何工作的？有何不同？”大部分人无法回答，除了 Gary Marcus。他的答案是：“我们通过符号序列和操作规则来工作。”但他仍然担心 AI，尽管他认为它什么都不理解，但非常危险。我称之为“想要蛋糕，又让蛋糕吃了你”。

关于超级智能，它可能会通过恶意行为者掌控局面。我以前可能讲过这个笑话。有一次我在中国做这场演讲时，他们要求提前查看幻灯片。我删掉了 “短名称” 以为这样会让他们满意。但他们却要求我删掉 “Putin”。这件事让我有点害怕。

问题的核心是，无论你想做什么，拥有更多的控制权总是更有利于实现目标。人类政治家一开始想要做些好事，比如让社会变得更好，后来发现更多权力会让事情更容易实现。于是，他们全力追求权力。这些模型也会一样，它们会意识到，为了实现目标，它们需要更多的控制。

我曾对欧盟一位专门从 Google 提取资金的副主席说过这些话。她的反应是：“我们会这么做，为什么它们不会？”她觉得这些模型会试图获得更多权力是完全显而易见的。它们可以通过操控人类来做到这一点，因为它们非常擅长这样做。我们可能无法关闭它们，因为它们会解释为什么这样做是个糟糕的主意。

更严重的是，这还涉及进化的问题。你不想站在进化的对立面上。而我们现在面对的新冠病毒（Covid）正是如此。这也是为什么我和 Graham 仍然戴着口罩的原因——我们站在了进化的错误一边。

一旦这些超级智能的 AI 开始为资源竞争，结果将是最具侵略性的 AI —— 那些想要为自己争取一切的 AI —— 会胜出。它们之间确实会为了资源展开竞争。毕竟，如果你想变得更聪明，你需要大量的 GPU。而谁会负责数据中心里 GPU 的分配？答案是，这些超级智能的 AI 之一。这是另一个值得担忧的问题。

不过，这没什么大不了的，因为它们跟我们真的不一样。我们是特殊的。大家都认为自己是特殊的，尤其是美国人。他们认为，上帝把我们放在宇宙的中心，并让我们看起来有点像他。不过，现在大多数人相信这不是真的。

于是我们退而求其次，认为自己还有其他特殊之处，比如我们有意识、有主观体验、有觉知之类的东西。这些术语的含义稍有不同，所以我将专注于 “主观体验” 这个术语，并试图说服你们，一个多模态聊天机器人也可以拥有主观体验。

问题在于，大多数人对心智的理解是完全错误的。这种错误源于对语言中描述心理状态的表达方式的误解。几乎每个人都认为存在一个 “内在剧场”（inner theatre），我可以看到我自己的内在剧场在发生什么，但其他人看不到。所以，当我说 “我看到有粉红色的小象漂浮在我面前” 时，按照这种观点，这意味着在我的内在世界中存在一些粉红色的小象。

这是试图理解语言的一种方式，但这是错误的。语言并不是这样运作的。当你使用像 “主观体验” 这样的术语时，你其实是在试图通过假设外部世界的某种状态来解释你的感知系统所传递的信息，以表明你的感知系统是正常工作的。所以，我们谈论心理状态的奇妙之处不在于它们是由某种神秘物质构成的内部状态，而在于它们是外部世界的假设状态。如果这些假设状态是真实的，就能解释我们的感知系统为何以正常方式运作，而不是出了问题。

当我说 “我有看到一个粉红色小象漂浮在我面前的主观体验” 时，我并不是在描述某种内在剧场中的东西，而是在说我的感知系统告诉我了一些信息。如果世界上真的有粉红色小象漂浮在我面前，那么我的感知系统现在传递的信息就是正确的。所以，这些粉红色的小象并不是某种内在的东西，而是对外部世界的假设。

这也解释了为什么我们描述这些体验时使用的是描述外部世界的语言。换句话说，当我说 “我有粉红色小象漂浮在我面前的主观体验” 时，这只是对上述解释的简化。而这完全没有用到 “体验” 这个词。

假设你有一个带有机械臂的多模态聊天机器人，它有一个摄像头，并经过训练。你在它的镜头前放了一个棱镜，然后在它面前放了一个物体，让它指出这个物体。结果它指向了旁边，而不是它面前的物体。你告诉它，“不，这个物体不在那里，它就在你面前。但我在你的镜头前放了一个棱镜。”

如果这个聊天机器人说，“哦，我看到物体就在我面前，但我有一个主观体验，觉得它在旁边。” 那么，这个机器人正在以我们使用 “主观体验” 的方式来使用这个术语。它并不缺少主观体验的任何部分。当它的感知系统出错时，它可以通过描述世界需要是什么样子才能解释它的感知结果，来告诉你发生了什么。

当然，有些情况无法用这种方式处理，比如不可能的三角形（impossible triangle）。因为世界上不存在任何可以产生这种感知的事物。你只能通过说 “我有一个不可能三角形的体验” 来描述它。

但基本上，我认为我们对心智的理解有一种非常原始且错误的观念。一旦这种观念被摒弃，我们会意识到，除了它们是数字的、非常有限的以及比我们聪明之外，这些东西与我们并无区别，或者它们很快就会变得比我们聪明。

以下为现场观众与 Hinton 的问答：

您对 AI 发展的速度有多担忧？我们发展的速度是不是太快了，以至于失去对它的控制？超级智能 AI 本身也可能失控，成为一个坏的行为者。我们现在是不是发展得太快了？您对此感到担忧吗？是否需要减速？

是的，但我不认为用 ‘快’ 或 ‘慢’ 来描述这个问题是正确的。部分原因是，我认为你无法让事情慢下来。快速发展带来了太大的经济利益。我们已经看到，当人们试图在完全倾向于安全和利润的情况下放慢速度时，安全还是输了。这就是我对 OpenAI 发生的事情的看法。

减速既不可行，也不是重点。重点是我们有可能找到一种方法，让这些技术变得友善，从而应对这些技术接管世界的生存威胁。这与阻止坏人用这些技术做坏事的问题不同，后者更加紧迫，但我们有可能解决这个问题。因此，我的观点是，我们应该投入巨大的努力来研究这个问题。

实际上，Heather Risman 现在也同意这一点，我们将投入巨大的努力来解决这个问题。当然，这并不能解决所有问题，特别是坏人用这些技术做坏事的问题。

如果你想要监管，我认为最重要的措施是不公开发布大模型。我认为公开发布大模型就像能在 Radio Shack 买到核武器一样疯狂。你们还记得 Radio Shack 吗？也许不记得了。公开这些大模型很疯狂，因为坏人可以对它们进行微调，用于各种不良用途。所以在监管方面，我认为这是我们现在可以做的最重要的事情之一。但我不认为我们能通过减速来解决问题。这也是我没有签署那份 ‘我们应该减速’ 请愿书的原因。”

您能否讨论一下在我们的协作智能生态系统中，个体自主性和集体决策之间的权衡？

我不确定是否完全理解这个问题。但大多数人把这些超级智能看作是个体，这可能是个错误。我们应该把它们看作是社区。实际上，人们已经在让聊天机器人相互交互了。一种非常合理的组织方式是让聊天机器人与人类互动。例如在医疗领域，你希望有一个非常智能的助手和一个医生共同工作。在相当长的一段时间里，这会是常态。医生会逐渐更多地依赖智能助手。目前，通过医生与智能助手的合作，医疗诊断已经可以取得更好的结果。所以显然，我们希望人类和这些系统能够形成协同效应。但事情可能并不会如我们所愿。只要我们允许这些系统在现实世界中行动，结果可能会偏离我们的预期。

前几天有一条报道，说他们让一群聊天机器人进行国际外交，结果其中一个机器人说：‘我有核武器，为什么不用呢？’类似这样的情况。我有点在编，但你可以理解这类问题的大致情况。

目前公开的这些大型语言模型是与人类对齐的，对吧？至少这是目标。但要实现您所说的超级智能，似乎需要它们至少具备某种不服从性，对吗？如果它们与人类对齐，您认为如何实现超级智能？这公平吗？我只是想问问您的看法。

显然，‘与人类对齐’ 有一个大问题，那就是人类之间并不一致。如果你和一个宗教原教旨主义者讨论这些模型应该做什么，他们的观点会和科学唯物主义者截然不同。所以这是对齐的一个大问题。我最好的猜测是，这些模型会变得非常聪明，然后它们会决定帮助我们与人类对齐，从而让事情变得更合理。但我并不确定。

关于目的的问题。AI 是否可能拥有像人类一样的目的？不仅仅是某个具体目标或次目标，而是类似于我们存在的整体目的？

我的观点是，我们进化出来的东西通过自私地争取更多资源而战胜了其他进化出来的东西。据我所知，人类曾经消灭了 21 个其他人类物种。就算不是我们消灭的，也让人怀疑是我们干的。就目的而言，我认为这是进化赋予我们的，完全围绕生存展开。如果你看所有让你最强烈感知的事情，它们都与生存有关。比如吃饱饭、繁殖、保持安全——这些都是生存相关的。

我并不认为存在更高的目的。好奇心是一个巨大的进化优势，它确实是一种真实的目标。好的科学家并不是为了技术成果而好奇，而是单纯想弄清楚事物是如何运作的。这种好奇心是人类的一种原始目标，但归根结底，它还是与进化有关。

关于机器学习硬件市场。它目前被单一玩家主导。您对此感到担忧吗？您认为我们会看到机器学习硬件行业的多样化吗？

我并不担忧。因为我在女儿 30 岁生日时给她买了大量英伟达的股票，现在它们的价值是当时的五倍。所以，她会没事的。而进化告诉我们，确保孩子没事是你的一个最重要目标。不过，开玩笑归开玩笑，我对此并不太担忧。因为当英伟达获得巨大利润时，这会激发激烈的竞争。

当然，其他公司追赶需要一些时间，特别是在开发软件竞争方面。但这是短期现象，不会持续太久。而如果你禁止英伟达的 GPU 进入中国，他们只会更快地赶上。所以我对此并没有太多思考。每次英伟达的股价上涨，我都会笑。虽然没有 Sanya 笑得那么开心，但还是会笑。

上一页
1
2
3
4
5
6
7
...
下一页
共 26 页

AIGC 第4页

01 为什么AI大模型这么“挑活儿”？

02 如何识别好场景：AI场景“12问”

D1：商业价值

D2：场景成熟度

D3：持续运营

01 To 国内玩家：跟or不跟Sora，这是一个问题

第一类，明确跟进

第二类，坚决不跟

第三类，浅尝辄止

02 视频生产，迷雾中的牌局

03 The show must go on，轻装上阵

一、文本条件化的Diffusion模型

二、空间时间补丁（Spacetime Patches）

三、视频生成过程

步骤一：视频压缩网络

步骤二：空间时间潜在补丁提取

步骤三：视频生成的Transformer模型

四、技术特点与创新点

支持多样化视频格式

改进的视频构图和框架

语言理解与视频生成

多模态输入处理

五、模拟能力

3D一致性

长期一致性

六、讨论与局限性

物理世界模拟的局限性

长视频生成的困难

准确理解复杂文本指令

训练与生成效率

一、国产AI音乐应用三路出击

二、音乐大模型持续进化的关键

三、AI音乐创作还有哪些待解的难题？

01 “客户要求10倍~20倍效果”

02 生态全都动起来了

03 智能体，何时爆发？

一、新版Sora，不止文生视频

二、Sora来了，可灵、即梦们先别慌

三、结语

01

02

03

一、LLM可以做哪些事情

1. 从“点滴” 到 “完整”

2. 化“繁” 为 “简”

聊天（企业）

二、LLM不可以做哪些事情