欢迎光临
我们一直在努力

400亿短剧市场,出现了新的MVP

aigc阅读(36)

国家级媒体和大厂正在竞相发布AIGC短剧。(AIGC,即利用AI技术自动生成内容的生产方式,目前已广泛运用于绘画、写文、视频等多个领域)

3月底,央视频AI频道正式上线,其打造的国内首部AI全流程微短剧《中国神话》也和观众见面。当时,中央广播电视总台宣布将联合各地推出城市文旅系列AI微短剧,助力打造城市名片。

6月底,三部AI微短剧《英雄》《爱永无终止》《奇幻专卖店》在央视频上线,制作方是中央广播电视总台影视剧纪录片中心。

7月,《三星堆:未来启示录》和《山海奇镜之劈波斩浪》先后上线,前者通过抖音和优酷进行分发,而后者仅发布在账号@快手星芒短剧 ,二者均免费。截至发稿,《三星堆》同名话题在抖音的播放量为7703.2万,《山海奇镜》全集在快手的播放量为5240.4万。

自今年初Sora爆火以来,国内涌现了大量AI视频生成模型:快手的可灵AI、抖音的即梦AI、阿里巴巴的寻光视频创作平台、美图的WHEE和MOKI、爱诗科技的PixVerse 、清华大学联合生数科技共同发布的Vidu、智象未来推出的Pixeling、右脑科技的VegaAI……

所有镜头均由AI生成的短剧是这些大模型应用的演练场。借助AI大模型视频生成能力,短剧的生产速度在加快,现在半个月就能制作一部短剧,其题材也和之前的真人短剧有些区别,神话、文旅、非遗、玄幻、科幻、穿越等主题的AI短剧不断涌现。

AI能为短剧行业带来哪些新变量?纯使用AI制作的短剧,是否会成为未来短剧赛道的顶流?

一、AI短剧哪家强?

在星罗棋布的AIGC短剧、以AI为主题的短剧中 ,卡思挑选了4部来做具体分析:

从题材来看,央视频推出的《中国神话》,抖快推出的《三星堆》《山海奇镜》都含有奇幻、冒险的元素或主题,制作方和出品方均不以盈利为目的立项,而是在“打样”或者说“尝试”,《重生之我在AI世界当特工》略特殊,是真人拍摄的品牌定制剧,并在剧情中植入AI产品。

《中国神话》是中国传统神话题材,共六集,分别为《补天》《逐日》《奔月》《填海》《治水》《尝百草》,由经典神话故事起笔,借助AI技术拓展人们对神话的想象。比如,《逐日》篇中夸父与天基太阳天文台“夸父一号”、《奔月》篇中嫦娥与“嫦娥五号”实现了梦幻联动。该剧的美术、分镜、视频、配音、配乐均由AI完成,出品方是央视频、总台人工智能工作室、清华大学新闻与传播学院元宇宙文化实验室。

《三星堆》尝试将AIGC和文旅题材结合,故事设定在不远的未来,地球上的古文明遗迹突然发生异变,引起了全球古文明研究组织的高度关注。主角考古学家江城生自四川广汉一个世代从事三星堆考古的家庭,家族几代人都在研究三星堆遗址的秘密。机缘巧合下,江城与科学家吴星言联手揭开了古蜀国和南方丝绸之路的神秘面纱,寻找拯救文明的密码。这部短剧由抖音和博纳影业联合出品,抖音自研的大模型即梦AI担任首席技术支持。

图源:《三星堆:未来启示录》

《山海奇镜》的主题是类似”沉香劈山救母”的经典叙事,海底的怪兽九婴抓走了村民和主角李行舟的母亲,为了救人,李行舟独自冒险,拿到水神戟,劈开无望海,斩杀九婴,救下被变成鲛人的亲人和村民。

图源:《山海奇镜》

据了解,《山海奇镜》的编剧、剪辑、配音是真人,但画面都由 AI 实现,先用 Midjourney 文生图,再用快手可灵图生视频,部分配乐也通过 AI 生成。该剧制片人陈坤是从业二十余年的传统影视人,今年刚转行成为AI影视工作者,其公司星贤文化也从传统影视公司转变为AI原生影视公司。陈坤在个人公众号回顾,该剧从2024年1月4日初具想法,到7月13日正式上线,历经了半年时间。

《重生之我在AI世界当特工》中的男主角陆子衡和女主角苏沐本是AI世界的特工和死对头,在一次抢夺任务的过程中意外穿越到2024年,变成了豪门夫妻。两人需要完成任务,才能重回现实世界,于是两人被迫合作,在相处和找寻真相的过程中慢慢爱上对方,并借助先进的AI装备解决任务中遇到的棘手问题。这部短剧是定制化营销内容,由京东独家冠名,快手、京东共同出品,鸣白联合出品。

卡思观察到,一些特定的题材比较适合展示AI的技术实力。比如,神话、玄幻、战神和穿越等带有奇幻色彩题材,往往需要呈现出各种奇幻的场景、角色和特效。AIGC技术辅助下的特效制作,能够更高效地创作出逼真的奇幻场景、异类角色和动作效果,创造震撼的视觉体验。

从互动数来看,讨论度相对较高的《三星堆》《山海奇镜》差距不大,但似乎没有达到出圈级别。两者的噱头亮点都是AIGC,用户对其背后技术的讨论多于对剧情内容的关注。

比如,用户的讨论焦点集中在AI呈现和真人的比较上。有的用户认为,AI生成的图片过于“科技感”,数字人的形象“AI味太浓”。有观众表示,“《三星堆》《山海奇境》有一样的问题,就是不能像真人实拍一样有连贯的人物动态表演,看起来更像‘台词+MV’,是碎片化的情节组合,要靠观众脑补。”

在博纳的抖音评论区,有观众提到,“说实话AI人物的表情动作很不自然。可是AI生成的图片特效很棒。”她建议,“可以取长避短。制作一部动画CG电影,因为画面特效真的很棒。或者可以利用真人拍摄人物动作片段,然后再利用AI布景特效。”

实际上,用AI布景,真人拍摄这种方式制作短剧,行业中也已经有人在尝试。《爱永无终止》是中央广播电视总台首部采用“AI+真人”相结合的短剧,结合真人实拍和AIGC数字人/内容合成/置景合成,讲述祖孙三代间亲情与爱的守护的故事。从成片来看,真人拍摄的质感要好于AI技术呈现。

总结来看,现在AI短剧的关注者仍然局限于部分短剧深度用户和对新技术感兴趣的泛从业者,仍然需要一部真正出圈、有爆点、有大众话题度的AI短剧作品,让更多机构和创作者愿意加入其中,形成变革性的力量。

二、AI能为短剧带来哪些变量?

艾瑞咨询发布的《2024年中国微短剧行业研究报告》显示,2023年全年规划备案短剧3574部、上线备案584部;2023年微短剧行业市场规模已达到358.6亿元,预计2024年将增长至484.6亿元。

短剧市场有巨大的吸引力和广泛的受众基础。

公开数据显示,快手平台短剧日活用户从2023年的2.7亿人次增长至2024年一季度的3亿人次,同比增长11%;重度用户从9400万人次增长至14600万人次,同比增长55.3%。近8成短剧用户,每周都要看短剧。

2023年抖音上每天主动搜索微短剧的用户数量增长2倍,播放量破亿的微短剧达500部,其中12部作品的播放量破10亿大关,微短剧日播放量增长了一倍。

短剧产业的产业链已较为成熟,对链条上的每个玩家也提出了更高的要求。

《新民周刊》2023年底的报道显示,现在即使用传统模式制作短剧,时间周期也明显缩短,当前一部短剧的平均拍摄周期通常在7-10天,算上前期筹备与后期剪辑,整个过程不会超过一个月。但在拍摄成本上,短剧行业已经水涨船高,平均制作成本达到了50万元,有些短剧的制作费甚至超过了200万元。在甜宠剧、战神剧、逆袭剧这些最常见的短剧题材之外,有出品方想尝试玄幻科幻题材,但这些题材意味着后期复杂的特效,成本也相应提高。

广电总局对短剧的发展也越来越重视。自2022年6月1日起,总局对包含微短剧在内的网络剧片正式发放行政许可,短剧从“上线备案”迈入“网标”新时代。今年,在加大对短剧内容质量和合规性的监管力度的同时,“短剧+”模式不断渗透到各行各业,这才出现了AI短剧。

当短剧发展进入规范期,各大平台也出台了相应的扶持计划,作品的内容质量逐渐提升。2024 China Joy短剧创新论坛公布的数据显示,制作质量与剧情题材成为网络微短剧能否成功的关键指标,从观众调查来看,54.14%的网友会因为短剧的制作质量精良而受吸引;43.90%的网友会受剧情题材吸引。

面对新的竞争环境和用户需求,AI大模型刚好能部分解决从业者的痛点。

首先,在短剧制作上,AI能够帮助从业者更轻松地突破题材限制,成为显著提升制作效率的工具。

在之前的文章中,卡思曾写道,现阶段很多热门短剧的题材限制在“霸道总裁爱上我”“绝命毒妻复仇记”“赘婿翻身做主人”这类或甜或爽的叙事中,内容司空见惯,玩不出新花样,已经引起了审美疲劳。(点此阅读:日赚3个亿的拼多多,盯上短剧这块“肥肉”)

AI短剧可以做到大量科幻、玄幻场景的快速生成,就节省了特效成本和拍摄时间,对启动资金不够充足的非头部项目来说具备较大吸引力。

陈坤在接受媒体采访时表示,若真人做一部10分钟左右的短剧,需要动辄上百人的团队。但在AI技术的加持下,十几个人的团队就能完成,放诸影视行业,成本至少降低四分之一。

值得注意的是,虽然文生图,文生视频技术已被大量应用,但还需要专职人士进行调教和优化才能形成精美的画面。

尽管AI在数据处理、模式识别等方面展现出强大的能力,在核心创意和人物情感动机上存在较大的缺陷。因此,AI短剧仍需要专业人才进行核心内容创作和把关,AI不能取代人类,而是服务于人、赋能于人。

《央视频》公众号记录了《中国神话》的幕后故事:在“文生图”环节最需要发挥文字功力,创作者需要上百次地打磨提示词,并干预现有AI工具的欧美化审美,以生成想象中独具东方韵味的神话人物与场景;在“图生视频”环节,为最大限度地去提升角色的“演技”,探索剧情人物的动作连贯与情感表达,制作团队尝试对人物主体的动态感做多种参数搭配,以克服主体运动幅度和画面稳定性不同步的技术难题。

另据《北京青年报》报道,《三星堆》技术总监李康康介绍,AIGC(生成式人工智能)并非是将一切扔给电脑,而是需要“人机共创”,通过传统的电影美术等对AI进行内容把控,“其中有很多的人工干预,比如,搭建场景、训练模型以及对角色的一致性控制。”

AI 为短剧带来的另一层变量是能够实现更低成本地“出海”。

从2023年以来,短剧出海市场持续升温。Sensor Tower 显示,今年2月,已有多达 40 多款短剧应用试水海外市场,累计下载量近5500万次。 与下载量同步攀升的,是出海短剧市场的收入。TikTok for Business首次对外发布《2024 短剧出海营销白皮书》预计,未来出海短剧产业将形成百亿美元量级的市场。

语言和文化差异是短剧出海需要面临的一大挑战。现在出海的短剧主要有两种,一种是国产翻译剧,另一种是本土剧,相对于国产翻译剧,本土化制作的短剧成本更高。

AI换脸和配音相关技术的应用,提供了新解法。通过AI换脸技术将国产短剧的角色面孔替换为海外观众更熟悉的当地演员长相,再用本地化的翻译和配音,一鱼多吃,降低了出海的成本。

据《DataEye短剧观察》消息,剪映全年会员(年费约600元)支持字幕生成和视频翻译功能等AI功能,目前支持使中英日三种语言相互翻译;绘影字幕网站能兼容110种语言翻译和字幕时长的AI字幕生成平台,年费在960-1920港币;在换脸和配音服务方面,某网站的价格最高达7200/次,和实地拍摄相比,仍具有价格优势。

每一次技术浪潮的变革都深刻影响了商业秩序的重建。卡思认为,现阶段AI为短剧行业带来的并不是“颠覆性的力量”,但是我们能从中看到一些突破现有题材限制、成本困境的希望和可能性,这是更为实际的意义。

苹果AI版iOS首日火爆:聊天秒变高情商,大模型成最强嘴替,Siri华丽变身

aigc阅读(38)

它来了它来了,苹果的Apple Intelligence终于与果粉见面了!

随着iOS 18.1 Beta版的上线,注册开发者从即日起就能体验到苹果AI的部分功能。

最明显的一处就是Siri的全面换新,变身成了Apple Intelligence & Siri。

另一项重磅更新就是写作功能了,它可以帮忙润色推特评论,三下五除二就能把高级表达方式安排起来。

甚至dirty words也能分分钟变得儒雅随和:

开启Apple Intelligence后,苹果自研的端侧大模型就会被下载到设备当中。

根据手快的网友体验反馈,不像其他家的AI那样动不动就是拒绝服务。

与此同时,苹果自家大模型的报告也已出炉,披露了大量技术细节。

报告显示,在指令遵循、文本总结等任务上,苹果云端大模型取得了超过GPT-4的成绩。

苹果基础大模型团队负责人庞若鸣(Ruoming Pang)也表示,其模型与一些同类最佳模型相比具有竞争力。

庞若鸣是普林斯顿计算机博士,本硕分别毕业于上海交大和南加州大学,于2021年加入苹果,此前在谷歌担任了15年的工程师。

Apple Intelligence的主要对话功能,正是由他率领的团队研发的模型提供支持。

这次他还强调,这些基础模型“并不是聊天机器人”,而是支持广泛的功能,包括摘要、写作帮助、工具使用和代码。

另外,苹果也研发了许多自研算法,为提高模型表现提供了加持,具体信息也在报告中被披露。

还有细心的网友从中发现了华点——

苹果大模型的训练用的是谷歌TPU集群,英伟达含量竟然为零。

二、Siri升级,但ChatGPT暂未接入

要想体验到苹果的Apple Intelligence,需要满足的条件有不少。

首先,搭载它的iOS 18.1 Beta版目前是99美金一年的注册开发者限定,所以普通用户还得等等。

还有就是之前说过的,只支持M系和A17 Pro芯片,也就是说iPhone中只有部分地区的15 Pro和15 Pro Max能用。

除了硬件和身份要求,系统设置也需要修改,要将地区设置为美国,且设备和Siri的语言都要改成英语。

满足了所有这些要求之后,就可以……加入等待队列了。

此次上线的Apple Intelligence是部分功能,主要围绕文本生成、Siri和相册这几个模块。

先说文本生成,作为苹果AI的重要组成部分,该功能的视适用范围不局限于苹果官方应用。

只要使用标准输入文本系统,在第三方应用程序当中也能利用该功能进行文本总结、校对和重写。

另外结合iOS 18 Beta的语音备忘录中已经上线的音频转录功能,文本生成系统还可以为录音生成摘要。

第二个比较重要的更新就是Siri了。

界面上,新版Siri不再是一个圆形图标,在运行时会有环绕屏幕的彩色光不断闪动。

而且还给不想语音对话的用户提供了文本对话方式,双击屏幕底部即可调出键盘,与Siri打字交流。

内容方面,新版Siri将能够解答与苹果产品相关的问题,帮助用户进行故障排除。

另外,新的Siri还可以够理解从一个查询到下一个查询的上下文,例如要求Siri创建日历事件,然后请求创建提醒,而无需重述正在谈论的内容。

不过,之前介绍的屏幕感知功能,并未包含在此次Siri 的更新当中。

相册的更新则让用户可以用自然语言搜索特定照片,甚至是视频当中的具体时刻。

以上就是本次开发者测试版本中有关AI的大致内容,需要指出的是,这只是之前发布会上所展示的功能中的一部分,还有很多没有上线。

特别地,之前提到过的ChatGPT集成,此次更新也暂未接入。解密苹果大模型

苹果已经说过,ChatGPT在苹果AI中不是必选项,主要功能是由自家的大模型驱动。

而关于这个模型,苹果也在上线的同时发布了全面的技术报告。

模型的名字简单粗暴,就叫苹果基础模型(Apple Foundation Model,简称AFM),有端侧(on-device)和云侧(server)两个版本。

端侧模型的参数量在3B左右,云侧则未具体透露,只说是比端侧更大,二者都有32k的上下文窗口。

三、训练过程英伟达含量为0

模型的训练通过自家基于JAX的AXLearn框架进行,并采用了张量并行、流水并行等策略。

硬件则采用的是谷歌TPU,其中云侧用了8192颗TPUv4芯片,端侧用了2048颗TPUv5p芯片,总之英伟达含量为0。

数据则主要来源于通过Applebot爬取的网页,以及有公共许可的代码和数学数据集。

值得一提的是,苹果选用的数据集中无一使用GPL,都是MIT、Apache、CC0这些开放程度更高的开源协议。

流程上,AFM的预训练过程共分三个阶段——核心训练、继续训练和上下文延长。

在核心训练阶段中,云侧版本的数据量有6.3T tokens,窗口长度为4096,端侧版本则是在此基础之上蒸馏得到。

继续训练时,低质量数据的权重会被降低,并使用数学、代码以及获得授权的高质量数据,对模型能力进行提升。

该过程使用了1T tokens的数据,窗口长度也从4096变成了8192。

到了下一阶段,窗口长度被进一步扩充到32k,涉及长序列文本和合成数据,总量为100B tokens。独创强化学习新算法

AFM的后训练则包括指导监督微调(SFT)、人类反馈强化学习(RLHF)等工作。

其中SFT阶段使用了合成数据与人类标注数据,合成数据主要关于数学、工具使用和代码。

而在RLHF阶段,苹果自创了iTeC和MDLOO两种强化学习算法。

iTeC全称Iterative Teaching Committee,可译作“迭代教学委员会”,是一种用于强化学习后训练的算法,旨在通过多轮迭代优化模型的性能。

其核心思想是结合不同的偏好优化算法,包括拒绝采样、直接偏好优化(DPO),使得模型能够从多种优化策略中受益,从而提高其对特定任务的适应性和性能。

在每次迭代中,iTeC会从最新的模型中选择一组表现最好的模型,形成一个“模型委员会”。这些模型是经过SFT、RS、DPO/IPO和RL等不同训练方法得到的。

通过收集人类对模型响应的偏好反馈,iTeC不断更新其奖励模型,并用于训练新的模型集合。

每收集一批人类偏好数据后,iTeC会刷新其奖励模型,并训练新的模型集合,以此循环进行多轮迭代,逐步提升模型性能。

MDLOO则是一种在线强化学习算法,特别设计用于优化模型的响应质量。

作为在线算法,它能在模型训练过程中实时解码响应,并应用RL算法来最大化奖励。

也就是说,这种方法使得模型能够在训练过程中不断学习和调整其策略,以生成更符合人类偏好的响应。

具体实现上,它结合了留一法(Leave-One-Out,LOO)优势估计器和镜像下降策略优化(MDPO),以实现更稳定和有效的策略更新。端侧混合精度量化

为了让端侧模型更高效运行,同时避免占用过多内存资源,苹果对AFM的端侧版本进行了量化操作。

具体来说,苹果采用了混合精度的量化方式,针对不同环节采用了不同的量化精度。

苹果采用的方式被称为“调色板”策略,在调色板量化中,权重不是每个单独量化,而是将它们分组,并让组内的权重共享相同的量化常数。

对于投影权重,每16列/行共享相同的量化常数,并且使用K-means算法进行4位量化。

针对嵌入层,由于是输入和输出共享的,采用了8位整数进行每通道量化,另外还有某些重要性相对较低的层被进一步压缩到2位量化。

为了恢复量化后损失的性能,以保持模型的输出质量和准确性,苹果还引入了准确性恢复适配器(Accuracy-Recovery Adapters)。

该适配器是小型的神经网络模块,可以插入到预训练模型的特定层中,在量化模型的基础上进行训练,通过微调来学习如何补偿量化带来的影响。部分任务超越GPT-4

应用了一系列优化技术之后,也到了验收模型表现的时候了。

在这过程中,苹果采用了人类评估与自动化评估相结合的策略。

先说人工评估,评估人员设计了涵盖分析推理、头脑风暴、聊天机器人等方面的多类问题,并让模型生成相应。

同时,问题也会被提给用于对比的其他模型,然后由评估人员评判哪个模型的输出更好。

结果,无论是云侧还是端侧模型,都有至少60%的概率不输给Llama 3、GPT-4等对比模型。

其余的测试主要利用数据集实现。

在指令遵循能力上,苹果进行了IFEval测试,结果在指令和prompt两个层次上,云侧AFM都超过了GPT-4,成为了新的SOTA。

端侧模型的表现,也超过了Llama 3-8B、Mistral-7B等近似规模的模型。

在AlpacaEval当中,端侧和云侧AFM也都取得了第二名的成绩。

再看具体任务上的表现,AFM在写作类Benchmark当中的总结任务上取得了SOTA,撰写任务上也与第一名接近。

数学上,苹果用GSM8K和MATH两个数据集进行了评估。

结果端侧模型在GSM8K上不敌Llama 3-8B和微软的Phi 3 mini,云侧被GPT-4和Llama 3-70B超越,但优于GPT-3.5。

MATH上的成绩相对高些,端侧版领先了同规模模型,云侧版也超越了Llama 3-70B。

性能之外,安全性也十分重要,苹果通过人工方式对AFM抵御对抗性攻击的能力进行了评估。

结果显示,AFM在面对对抗性提示时,实现的违反率显著低于其他开源和商业模型。

以上就是苹果大模型技术报告中一些值得关注的内容,更多详情可参阅报告原文。One More Thing

虽然Apple Intelligence已经提供给开发者进行测试,但彭博社爆料说,正式版可能会延迟上线。

的确,按照苹果此前的版本发布规律,18.1的版本号也意味着,这些功能不会随着9月的新机发布一同上线。

对此分析师Gene Munster建议,苹果应该考虑推迟iPhone 16的发布日期,以与Apple Intelligence保持一致。

至于库克会不会考虑这个建议,就拭目以待了。

报告地址:

https://machinelearning.apple.com/research/apple-intelligence-foundation-language-models

参考链接:

[1]https://x.com/reach_vb/status/1818014366555586611

[2]https://www.cnbc.com/2024/07/29/apple-releases-apple-intelligence-its-long-awaited-ai-features.html

[3]https://www.tomsguide.com/phones/iphones/ios-181-developer-beta-is-live-with-apple-intelligence-heres-all-the-new-iphone-ai-features

[4]https://www.businessinsider.com/apple-intelligence-delay-wont-hurt-new-iphone-sales-analysts-2024-7

入口机会:AI 时代的「二维码」,在哪里?

aigc阅读(64)

2011 年 11 月,微信更新了 v3.1,首发在了诺基亚的塞班上,带来了「二维码」。一周后,这一功能也上线到了安卓和 iOS。

来源:微信官网

2012 年 5 月,张小龙发了一条朋友圈:“互联网的入口在搜索框,移动互联网的入口在二维码。”

张小龙发的朋友圈

故事的结局大家都知道,微信赢下全场。

那么,AI 时代的「二维码」,在哪里?

以及,在 AI 时代,会不会有可以深挖的地方,而不是简单粗暴的「卖课」?

一、二维码的复盘

思考:移动互联网兴起的时候,我们撞出了哪些生态缺位?

我认为:新的流量,尚未与传统需求打通

智能手机兴起的时候,我们开始有了即时信息交互的需求,并高位替代“打电话问问”。与 PC 流量相比,更能满足在不同场景下的所需,如:几个人起意决定去吃东西,通过手机可以迅速搜索、预订、导航等。

但很显然,传统服务端尚未适应这一变化(也无从满足),导致一系列的体验断层。而二维码的出现,借用手机的摄像头,通过扫码的方式,让信息可以「无人值守」的快速传递。

在实际落地中,「双边效应」是二维码能快速普及的一大原因。

回顾 2013~2015,微信支付刚刚兴起,那时:很多用户询问商贩是否支持扫码付款;另一方面商贩主动向用户展示收款码。这种互动推动了「扫码」的快速普及,形成了良性循环。

「我扫你」这个词,也被出口了

进而,我们发现,如果希望一个东西快速承接新的场景流量,就有两条可行策略:

  1. 需要绑定人与人、人与事儿之间的高频场景(引起行业自推广)
  2. 需要让用户,无需额外成本,用手里的东西就可以完成(降低推广门槛)

于是,我们看到了在支付、登录、加好友上,扫码成了必然。同时,微信也成为了大家通用的扫码枪。

二、AI 的不同

在我看来,AI 从产业角度,带来的是信息处理的不同:

  • 互联网时期:你输入一个问题,由人或者机器,把相关的材料找到,然后返回并展示给你
  • AI 的当下:你输入一个问题,AI 检索到材料(来自你的提供、AI 的训练数据,数据库或者联网搜索),然后生成并展示给你

因此,当有需求时,我可以把所有信息都提供给 AI,让它筛选和录入,并根据我的输入识别意图,以更好的方式把结果返回给我。如果数据是实时、自动注入的,这就是所谓的 Copilot 模式。

我用 coze,搭了个公众号排版器

顺道提一嘴,在当前的路径下,AI 不存在「又变天了」。大模型从头到尾只在做一件事:输入足够的信息,然后输出相应的内容。如果用 y = f(x) 来表示,大模型做的事情就是:

结果 = 大模型(提示词)

在产品里,这个过程可能会不断重复,比如在 agent 场景中的反思,就是让它先用 f(x) 输出一个结果,再用 g(x) 来检查。而多轮对话,就是把 f(x) 中的 x 改成历史对话。

再多嘴一句,绝绝绝大多数的 AI 产品,都只是对大模型 API 进行简单封装,找到着力的业务场景,结合行业 knowhow 和交互优化,来做品牌创新。

AI 在应用层,从来不是技术驱动。

三、AI 的缺位

首先,我提一个暴论:人类对AI的使用,既没有先天的基因,也没有后天的学习。因此使用门槛极高,存在巨大的差距。要弥补这一差距,需要在交互上进行创新。

如何理解“先天基因没有”?

在历史上,如果有两批男性,一批对军事和政治更感兴趣,而另一批则兴致寥寥,那么我们会认为,前者更适应人类社会的竞争,并会更广泛地传播自己的基因。进而,现在的男性普遍更喜欢竞技类和策略类的事物,也更喜欢看相关视频和玩这类游戏。

相比之下,AI是一个全新的事物,没有经过这样的社会达尔文过程,因此没有人天生会使用AI。

我们终其一生,在学习和基因共存

如何理解“后天学习没有”?

骑自行车是一个反直觉的技能,与AI有些相似。人们需要通过长时间的学习和训练才能掌握骑自行车的技巧。自行车经过了长期的发展,虽然不在学校课程中,但我们从小就看到身边的人在使用,也有各种各样的辅助工具(比如侧边的小轮子)。

而AI呢?刚刚崛起,变化迅速,没有现成的学习工具和环境。因此,我们需要创造一种新的方式,将AI的使用与我们已经熟悉的事物相结合,降低学习成本,让更多人能够轻松使用AI,真正发挥它的潜力。

iPhone 在最早期,大量使用了拟物设计,方便人们理解

额外

做产品的时候,要顺人性,有一个事实是:我们在接受教育的普遍过程,是被动灌输,而非主动提问。

那么,一个更符合当下用户需求的产品,不应让用户主动提问:应该预设一个场景,让用户参与。

截图来自知乎

四、我的实践

作为 AI 从业者,我自己也在思考,如何更好的和 AI 进行交互。也尝试贡献了一些方案:

  • 前几天热议的「浏览器滑词弹框」交互,可能是我最早用在 AI 上的。去年 2 月,我写了款开源程序 Fluentify,可能是最早一批“AI 浏览器插件”,带来了划词弹框和右边栏的交互。
  • 去年收到 OpenAI 的邀请,在 ChatGPT 里实现了联网和搜索。
  • 应该下周的时候,我还会带来一些新的交互

Fluentify 带来了「划词+侧边」,大概是去年 2 月

Fluentify 被 FuturePedia 评为了本周最有趣的项目

于此同时,作为产品经理的我,也在寻找更多更好的解决方案:

  • 更好的陪伴响应
  • 更好的信息输入(不应该是让用户主动发问)
  • 更好的信息呈现

无需用户额外购买设备

五、好的探索 – PC

先说 PC 端,这里我认为最佳实践是俩:

  1. Copilot
  2. Copilot

你没看错,都叫 copilot – 微软这胡闹的品牌部门,简直瞎搞 ahhhhhh

前者是 Github Copilot,代码补全工具,或者说是这一类工具(比如前段时间我介绍到的 MarsCode)

他懂 114514,很牛逼

后者是 Windows 里的期货,可以帮你自动操作电脑

注1:夸赞仅针对发布会里的演示视频

注2:产品以实物为准,谨防电信诈骗

这俩都有相同的特点:

  • 在不破坏原有流程的前提下,集成到了工作环境中
  • AI 自动进行实时的数据录入
  • 以用户熟悉的方式,进行处理结果交付(比如代码自动补全在各种 ide 里都有)

我们通常认为,PC 负责生成,工具要偏向于生产力工具;手机负责消费,让你快速的奶头乐。因此在落地的时候,会看到移动端的一些不同:

  • 优势:更加一致&有效的交互方式,比如语音输入;更多传感器
  • 限制:不能常驻后台,但要处理各种即时访问(如果做高频场景)
  • 挑战:解决输入问题,解决跨应用的结果交付问题

六、好的探索 – 手机

移动端中,在过去一年里,我看到的2个有趣的尝试:

  1. ChatGPT 小组件
  2. 海螺的悬浮球

先说 ChatGPT 的小组件,允许你将 ChatGPT 放到锁屏页面下,点一下就能打开,在这里:

  • 缩短了用户「从现实业务」(手机并没有被打开),到 AI 询问之间的路径
  • 变相实现了「AI」常驻前台

但也存在一个问题:这种操作还是颇为小众,所以相信用过的人不多。

大概长这样

海螺的悬浮球,算是小组件的升级版:允许 AI 长期处于待命状态,放在屏幕最上层。形态就是系统层级的 Assistive Touch,辅助触控。就是这个小圆圈,点一下就能呼起自定义功能。

我假定:你知道海螺是 MiniMax 旗下的 ChatBot

冷知识:辅助控制是为了帮助肌无力,无法按下 Home 键的朋友设计的,之后广受好评。

我可以把唤起行为,改成海螺提供的「识别屏幕」

这里有几个设计上的巧思:

  • 屏幕上的小圆圈,这个交互来自乔帮主,iPhone4 时代的产物,iPhone 用户挺熟悉的
  • 唤起的方法,是通过捷径实现,过程是明牌,避免了隐私麻烦
  • 默认的交互是发送当前页面截图(有手机上 copilot 的感觉了)

用起来的话,典型的场景是… 我拿他去写评价,薅个代金券

点评/美团/饿了么,完美伴侣

另一些我认为比较合适的用法,包括不仅限于教你打游戏,帮你算满减,帮你规避套路,等等。毕竟这些场景下的所有信息,都没办法直接复制,只能截屏。

杀戮尖塔 yyds

但还是得说一下,目前大模型对于图像的识别,以及指令遵循,还没有到非常好的程度。但我相信他会很快进化的,等风来就好了。

我再顺着给悬浮窗多设计一个交互 – 长按(这个不一定能通过「捷径」实现):

  • 长按后,唤起语音对话
  • 长按结束后,将语音和当前屏幕内容发送(左右滑动,决定是否发送屏幕信息)
  • 获取到 AI 的反馈后,可以一键复制,并进行包括不仅限于:进入对话,修改文字和追问等操作

比如在我炉石的时候(马上回归了!),面对一年没打的手牌,就可以让 AI 随时 copilot 的为我服务了。

停服?什么时候停服过?

七、SuperAPP,在哪里?

提问:SuperAPP 的机会,在哪里?

我的回答:机会可能不多

这个问题,在过去的一年里,我被很多朋友问过。我的思考很简单:

在以往,一个准 SuperAPP 在崛起的之初,因其先发优势,心智势能和资本开挂,在进入大众视野的前几周、几个月,可以迅速获得市场认可,进而成为头部明星。

在当下,由于 AI 和类 Coze 产品的出现,点子可以被快速复制&落地,其流量也将被迅速分化,进而无法形成品牌合力(因此我一直在关注 Coze,并常与人说:Coze 是 VC 最大的竞争对手 – 它猎食了独角兽)

glif 做了个爆火的梗图生成器,几个小时后 coze 上到处是

八、复刻时代机会,在哪里?

我觉得:在「超级入口」,人与 AI 共生的超级入口。

当功能本身不再是壁垒时,心智资源则变得弥足重要,要让你的产品成为用户的肌肉记忆,比如扫码微信

去年二月,我做了一场分享「与AI共生」

在未来的时间里,AI应用将更加注重如何无缝地融入用户的生活、工作以及其他场景,以更直观有效的方式与用户进行交互。这种交互,或许是类似 copilot 的实时补充,也或许会像锁屏按钮一样,不打扰地守在用户身边,直到一次触摸发生。

但最佳实践是什么,依然需要我们这些从业者不断地从各方面进行试探:无论是 transformer 的路线创新,还是 openai 的工程实践,又或是上文中所提到的悬浮球交互。

当下似不起眼,若以十年后回望,或是人与 AI 的指尖,首次相触。

恕我直言:AIGC的泡沫,比SaaS还要大

aigc阅读(29)

写这篇文章,我已经做好了挨骂的准备。

就像我私下找一家 SaaS 公司的高管沟通,问他们 AIGC 产品发展得如何了。

他直接回复我:老板不让我们唱衰,但是和您这种资深人士说那些虚的也没意义。

所以,现在是很多人不允许唱衰。

但是,我认为,我们所看到的 AIGC 繁荣,很大一部分是假象。如果不及时调整,2 年后行业必然一片哀嚎。

当然了,我也要提前说明一下:我并非否认 AIGC 的价值,AIGC 在部分行业部分场景的落地,肯定是有价值的。

但是,至少在最近 1、2 年, AIGC 在 B端的价值恐怕是被高估了。

01 被高估的 AIGC

在去年,SaaS 高管群就有创业者开发出了落地的行业 AIGC 产品,市场反馈也很正面,某投资大佬也表达了投资的意愿。

但是今年他告诉我:

AIGC 产品最大的价值就是让软件卖得更贵了,但实际上,由于 AIGC 生成的内容只有 90% 的准确性,而他所在的领域却要求 100% 的准确性,所以AIGC 产品根本就产生不了真正的业务价值。

至于为什么客户还愿意付费,这位 CEO解释到:其实客户也需要向上汇报智能化的成绩,而 AIGC 显然很对上面的胃口。

另一位头部 SaaS 公司的产品 VP 也告诉我:ChatGPT发布后,他们第一时间就开始研究 AIGC 产品,但是1 年多过去了,实际上只跑出来 1、2 个场景。

他的结论是:在他们的领域,AIGC目前还不适合大规模应用。

那问题的出在哪呢?

其实并不是AIGC 的技术不成熟,而是 AIGC 在本质上就只是一个相关逻辑。

比如它知道 1+1=2,但并不是因为它懂数学,而是它根据历史数据,推断 1+1=的后面99%的概率会出现 2,于是就给出了 2 的结果。

但是我们的企业管理更多的不是相关逻辑,而是因果逻辑,比如客户购买了 2 个商品,那么订单金额肯定就是 2 个商品乘以它的单价,这个绝对不能用概率去推断。

大家可以去梳理一下,企业业务场景,是不是至少 90% 都是因果逻辑?

比如采购、销售、库存、生产制造、财务核算、供应链管理。

哪怕是一些看起来不需要 100% 准确的场景,其实也没有我们想象中那么随意,比如:

  • 秘书写一份会议纪要,1% 的关键错误也是不能接受的;
  • 设计做一个宣传海报,也是100% 要符合企业 UI 规范的;
  • 客服回答客户的问题,1% 的误导也是不能接受的。
  • 医生写一份诊断报告,1% 的结论错误也是要出大问题的。

所以,如果真的用 AIGC 去处理企业的大部分业务,哪怕只有 1% 的概率出错,也会给企业带来很大的损失。

其实,ChatGPT发布已经接近 2 年了,但现在我们最苦恼的“居然”还是它在什么场景下有用?!

这难道还不能说明问题吗?

而且哪怕是在 AIGC 最擅长的场景,比如文字生成、图片生成,在大部分情况下,AIGC 的效果也远远达不到企业的预期。

你可能会说,AIGC 还在不断进化。

但是不管怎么进化,它始终是个相关逻辑,始终都做不到 100% 的准确,这是它的基因所决定的。

这就决定了,AIGC 只可能在少数场景下发挥出真正的价值。

但是显然很多人还不愿意承认这个问题的严重性。

02 AIGC 必然面临市场天花板问题

即便 AIGC最终能找到适合他的业务场景,但是我敢说,它在中国的发展也达不到欧美的水平。

AIGC 落地在 B 端,其本质也是企业软件。那么,AIGC 接下来要走的路,SaaS其实已经帮他走过了。

SaaS 崛起的关键是移动互联网在 B 端的落地。甚至可以这么说:

SaaS=企业软件+移动互联网。

这就是为什么 2015 年被称为 SaaS 元年,因为 2014 年移动互联网的普及,是 SaaS 爆发的最大驱动力。

和 AIGC 相比,移动互联网在 B 端的落地是非常顺利的,毕竟企业很多业务场景都可以进行移动化。

即便如此,SaaS 在中国的发展仍然远没有达到预期。

这里面有 2 点非常关键的原因。

第一,中国 SaaS 的问题,不是产品问题,而是市场问题。

有人说中国 SaaS产品不好,中国SaaS 公司能力不行、认知不够。但即便是飞书、钉钉这样的大厂产品,现在也没有实现规模化盈利。

中国 SaaS 的主要问题,还是客户不认可软件的价值、付费能力有限的问题。

这一点在后面我会用 3 个关键数字来说明。

第二,中国 SaaS 的目标客户群体和 AIGC 的目标客户群体,是基本重合的。

这就意味着,中国 SaaS 没有解决的市场问题,AIGC 都要一一面对。

比如,前段时间李开复说:在中国,很多企业没有认识到软件的价值,不愿为软件付费。加之许多大模型公司参与竞标,价格越竞越低,极大地压缩了利润,做一单赔一单。

再比如,一位 AIGC 创业公司的高管告诉我:客户对 AIGC 的付费意愿并不强,而且项目的定制化程度普遍很高,导致投入产出比很低,交付和回款周期也很长,根本养不活研发团队。

是不是熟悉的场景,是不是熟悉的味道?

给大家看三个重要数字,看完你就会知道 SAAS 和 AIGC 所共同面临的问题了。

第一个数字,根据国家统计局的数据,2024 年上半年中国最大的两个行业分别是制造业和批发零售业,合计占 GDP 的比例接近 40%。

数据来源:国家统计局

但是这两个行业都偏传统产业,业务线上化程度不高,因此对软件的认可度也不高。

相比之下,美国的第三产业更发达,比如高科技、金融业,拥有70%的市场主体,他们的业务以线上化为主,非常看重信息处理和协同效率,当然对软件的认可度也更高。

这方面我们也可以参考飞书。

飞书的特点就是用户体验好,协同效率高,但是价格偏贵,所以真正能够认可飞书价值的,往往都是互联网、金融等第三产业的企业。

因为他们都是人才密集型企业。

第二个数字,根据2021年赛迪智库发布的《中美500强企业对比研究白皮书》,自2016年以来,美国制造业入围企业的平均利润,约为中国制造业入围企业的4.9倍。

也就是说,即便是同行业对比,美国企业的利润水平也远高于中国企业。

利润水平越高,当然也更愿意在企业软件这种非刚性需求上投资。

第三个数字,根据 Gartner 的数据,2021年全球IT支出中,约42%投入到IT服务与应用软件,仅有 19% 投入到硬件。

数据来源:Gartner,《财经》整理

相比之下,中国企业有19%投入到IT服务与应用软件,但是有 31% 投入到硬件。

也就是说,相对于全球水平,中国企业更喜欢买硬件,而不是买软件。

以上 3 个数字,其实都说明了一件事情,那就是中国企业对软件的付费意愿和能力都不强。

而这个问题,AIGC 必然也需要面对。

所以,不要迷信 AIGC,它可能会在美国成功,因为那里有完全不同的市场土壤。

但是在中国,可能就是另一个故事了。

03 怎么办?

如果我们承认 AIGC的问题,那么从今天开始,就要对 AIGC 项目采取更加谨慎的策略,不能再走中国 SaaS 的老路。

在早期,很多 SaaS 公司都是赚钱的,或者说,商业模型都是很健康的。

但是,对资本的过度渴望,行业的无序内卷最终让整个行业陷入亏损。

而 AIGC 如果现在就重视这个问题,我觉得有可能避免这种糟糕的局面。

1、不要过度融资

AIGC在 B 端的路还很长,未来可能会很美好,但是当下还有很难的路要走。

悲观一些,保持最小化运作,为 MVP 打造预留更长的时间。

可以融资,但是不要造假数据融资,特别是不要对赌融资。

一个还靠着做定制项目勉强生存的产业,怎么看都不具备快速规模化的潜力。

这就意味着,融资越多,压力越大,动作越容易变形。

2、利润第一,规模第二

如果我们承认 AIGC 在 B 端的市场天花板问题,那么就不要指望“先亏钱做大规模,再通过规模化赚钱”。

因为面对一个规模有限的市场,努力做大规模的结果,一定是恶性竞争和严重亏损。

做一个小而美的团队,先赚钱养活自己,然后静待市场出现积极变化,不管是从行业角度出发,还是从整个经济走势出发,都是更为合理的选择。

李开复说:坚决不做亏本的 AIGC项目!

这次我支持李开复。

3、错位竞争,避免同质化

中国 SaaS 竞争为什么如此惨烈?一个很重要的原因就是同质化太严重。

最近有 SaaS 创业者号召不要随意打折。但实际上,价格是供求关系的结果。如果客户买一个软件,有十几家产品服务差不多的同行去竞争,你不打折就意味着放弃订单。

当你看到一个好的软件出现,就想着去 copy,以为靠着自己的勤奋、聪明可以取胜,那我可以告诉你:在中国软件这个赛道,那就是自取灭亡。

因为你在 copy 的时候,还有一堆人也同时在 copy,而且每个人都以为自己更勤奋、更聪明。

结果必然是大家都赚不到钱。

所以,为什么不做一个差异化的产品,做一个赚钱的生意呢?

4、标准化、产品化,尽可能的PLG(产品驱动增长)

SaaS本来是一个高毛利的生意,但硬生生被我们做成了一个低毛利的生意。

核心原因有两点,一是定制化严重,二是销售费用高企。

而背后的本质,还是我们过度依赖销售驱动,忽略了产品本身的建设。

好的标准化产品,可以大幅度降低交付成本。

好的产品+好的服务,可以带来好的客户案例。

好的产品+好的客户案例可以实现 PLG(产品驱动增长),或者让我们的 SLG(销售驱动增长)更加的高效。

当然,在中国做企业软件,不依赖 SLG 是很难的。

但是,在早期,我们应该尽量减少对 SLG 的依赖,提高财务指标的健康度。

这样大概率会损失掉很多销售额,但是也会大大提高效率,从而提高利润率。

04 最后

其实我很不想写这篇文章,因为很多朋友都在视频号给我的留言:

王老师,你作为行业人士,为啥老在说行业的坏话?为啥你不能多做一点正面引导?

其实,我也想多宣传正面的消息,但是我更在意的,是自己有没有说真话。

哪怕这个真话会刺痛很多人。

深度|SIGGRAPH 2024 黄仁勋 & 扎克伯格最新对谈:信息流与推荐系统值得用生成式 AI 重做一遍

aigc阅读(33)

7 月 30 日早上 6 点,英伟达 CEO黄仁勋与 Meta 创始人&CEO 扎克伯格在 SIGGRAPH 2024 上展开了对谈,共同探讨了加速计算、生成式 AI 以及推动下一波创新、虚拟世界和机器人技术突破的研究。

黄仁勋强调了英伟达在计算机图形学、图像处理、AI 和机器人技术方面的领导地位,特别是在 AI 与模拟交叉领域的突破。

他提到,英伟达通过 AI 帮助模拟变得更大规模、更快,并利用模拟环境生成合成数据。这些技术的结合,正在推动 AI 与模拟技术的融合发展。

扎克伯格指出,未来的 AI 将不仅用于内容推荐系统,还将用于即时内容生成和从现有内容中整合新内容,这将彻底改变 Instagram 和 Facebook 等平台的信息流和推荐系统。

扎克伯格还表示,智能眼镜将成为下一代计算平台的移动版,而混合现实头戴设备则更像是工作站或游戏主机,Meta与 EssilorLuxottica 合作,推出了集成摄像头、麦克风和 AI 对话功能的 Ray-Ban 智能眼镜……

以下是这次对谈快速整理的内容,enjoy~

Jensen Huang

你知道吗?90% 的博士生。所以, SIGGRAPH 的真正伟大之处在于,这是计算机图形学、图像处理、 AI 和机器人技术相结合的展示。一些公司多年来在这里展示和揭示了惊人的东西,从迪士尼、皮克斯、Adobe、Epic Games,当然还有 Nvidia ,我们在这里做了很多工作。今年,我们在 AI 和模拟的交叉点上介绍了20篇论文。我们正在利用 AI 来帮助模拟变得更大规模、更快,例如可微分物理学。我们使用模拟来创建合成数据生成的模拟环境,用于 AI 。

所以这两个领域真的在结合起来,我们为我们在这里所做的工作感到非常自豪。在 Meta ,你们做了很多了不起的 AI 工作。我觉得有趣的是,当媒体写关于 Meta 在过去几年跳入 AI 领域时,好像 FAIR( Meta 的 AI 研究实验室)一直在工作,我们都在使用 Meta 的PyTorch,你们在计算机视觉、语言模型、实时翻译方面的工作都是开创性的。我第一个问题是,你如何看待 Meta 今天在生成式 AI 方面的进展,以及你如何应用它来增强你的运营或引入你提供的新功能?

Mark Zuckerberg

这里有很多东西要解读。首先,很高兴来到这里。Meta 已经做了很多工作,并且在 SIGGRAPH 已经有八年了。所以,我的意思是,我们相比你们是新来的。但那是在 2018 年。

我们展示了我们 VR 和混合现实头戴设备的一些早期手部追踪工作。我想我们已经谈了很多关于我们在 Codec Avat AR s 方面的进展,这些是我们希望能够通过消费级头戴设备来驱动的照片级逼真的化身,我们离这个目标越来越近了,所以对此非常兴奋。还有我们在显示系统方面所做的大量工作。

因此,我们展示了很多未来的原型和研究,以便使混合现实头戴设备能够非常薄,但具有相当先进的光学堆叠和显示系统,集成系统。通常这些是我们第一次在这里展示。所以,来到这里很兴奋。这里我不仅在谈论元宇宙的东西,还有所有的 AI 部分,就像你说的,当我们开始 FAIR( AI 研究中心)时,那时候还是 Facebook ,现在是 Meta ,在我们开始现实实验室之前,我们已经在这方面工作了一段时间。所有关于生成式 AI 的东西,这是一个有趣的革命。

它最终会使我们所有的不同产品以一种有趣的方式发生变化。所以,我可以列举一下,我们已经拥有的主要产品线。像是 Instagram 和 Facebook 上的信息流和推荐系统,我们已经在这个旅程中,从只是关于与你的朋友联系开始。排名总是很重要,因为即使你只是关注朋友,如果有人做了一些非常重要的事情,比如你表弟生了孩子,你希望它出现在顶部。如果我们把它埋在你的信息流中,你会很生气。

所以排名很重要,但在过去几年中,它变成了更多的是来自不同的公共内容。推荐系统非常重要,因为现在,不仅仅是几百或几千个来自朋友的潜在候选帖子,还有数百万条内容。这变成了一个非常有趣的推荐问题。随着生成式 AI 的发展,我们很快会进入一个区域,不仅是你今天在 Instagram 上看到的大部分内容是来自世界各地与你的兴趣匹配的推荐内容,而不管你是否关注那些人。

未来很多东西都会使用这些工具来创建。有些是创作者使用工具来创建新内容,最终会是为你即时创建的内容,或者是从不同的现有内容中整合和合成的内容。所以,这只是一个例子,说明我们所做的核心部分将如何演变。而这已经在过去20年中不断演变。

Jensen Huang

人们会意识到,世界上最大的计算系统之一是推荐系统。

Mark Zuckerberg

但这是一个完全不同的路径。它不是那种人们谈论的生成式 AI 的热点,但就像所有的 Transformer 架构一样,它是一个类似的事情,只是建立越来越多的通用模型,将非结构化数据嵌入特征中。

我的意思是,一个驱动质量改进的重要因素是,你过去有不同的模型来处理不同类型的内容。最近的一个例子是,我们有一个模型来排名和推荐reels,另一个模型来排名和推荐更长的格式的视频。然后需要一些产品工作,使系统能够显示任何内容在一行中。但你创建越通用的推荐模型,它们就会越好。

所以,我的一部分梦想是,有一天,你几乎可以想象所有的 Facebook 或 Instagram 都是一个单一的 AI 模型,它统一了所有这些不同类型的内容和系统,实际上有不同的目标在不同的时间范围内。一部分是展示你今天想看的有趣内容,另一部分是帮助你长期建立你的网络,比如你可能认识的人或你可能想关注的账户。

Jensen Huang

这些多模态模型在识别模式、弱信号等方面往往表现更好。所以有趣的是, AI 在你们公司如此深入,你们一直在构建 GPU 基础设施运行这些大型推荐系统。

不过一旦你开始进入这个领域,你就会深入其中。你深入其中,并且非常投入。如今,当我使用 WhatsApp 时,我感觉自己在与 WhatsApp 合作。我喜欢想象,当我打字时,它会生成图像。我回过头来改变我的话语,它又会生成其他图像。

Mark Zuckerberg

那是上周的事情。非常兴奋。现在想象一下我,花了很多时间和我的女儿们在一起,想象她们是美人鱼,过去一周里一直很有趣。我的意思是,这就是另一半。许多生成式 AI 的东西,一方面,它将成为所有我们长期以来的工作流程和产品的重大升级。

但另一方面,这些完全新的东西现在可以被创造出来。所以, Meta AI 的想法是拥有一个 AI 助手,可以帮助你完成我们世界中的不同任务,并且非常具有创造性。像你所说的那样。它们非常通用。所以你不需要仅限于此。它将能够回答任何问题。

随着时间的推移,当我们从 Llama3 模型进化到 Llama4 及其后续版本时,它会感觉不再像是一个聊天机器人,你给它一个提示,它就会回应,然后你再给它一个提示,它再回应。而是你给它一个意图。它实际上可以在多个时间框架内工作。,它会预先承认你给了它一个意图。我的意思是,有些事情,会启动计算任务,这些任务可能需要几周或几个月才能完成。然后回来告诉你发生了什么事情,这将会非常强大。

Jensen Huang

今天的 AI ,正如你所知,是有些单调的。你说点什么,它就回你点什么。但显然,当我们考虑一个任务或问题时,我们会思考多个选项,或者也许我们会提出一个决策树,并沿着这个决策树走,模拟在我们心中,每个决策可能产生的不同结果。所以,我们在做计划。将来, AI 也会这么做。当你谈到你的创造者 AI 愿景时,我感到非常兴奋,这是一个非常棒的想法。告诉大家关于创造者 AI 和 AI Studio 的情况吧。

Mark Zuckerberg

其实,这正是我们所谈论的,今天我们将其推出得更广泛。我们的愿景是,我不认为只会有一个 AI 模型。这是行业中一些其他公司在做的事情,他们在构建一个中央 Agent 。我们会有一个可以使用的 Meta AI 助手,但我们的愿景是我们希望赋能所有使用我们产品的人,让他们为自己创建 Agent 。

这就是平台上许多的创造者或数以百万计的小企业。我们最终希望能够快速整合你们的所有内容,并快速创建一个商业 Agent ,可以与客户互动,进行销售和客户支持。我们现在刚刚开始推出的是我们称之为 AI Studio 的东西。它基本上是一套工具,最终将使每个创造者能够建立一个自己的 AI 版本,作为他们社区可以互动的 Agent 或助手。

这里有一个基本问题,那就是时间不够用。如果你是一个创造者,你想更多地与社区互动,但时间有限。同样地,你的社区也希望与你互动,但时间有限。所以,下一步就是让人们能够创建这些人工制品。它是一个 Agent ,你将它训练成代表你,以你希望的方式表现。这是一种非常创造性的工作,几乎像是一件艺术品或内容,你在发布出去。

当然,很明显它不是在与创造者本人互动,但这将是另一种有趣的方式,就像创造者在这些社交系统上发布内容一样,能够有 Agent 做同样的事情。同样地,将会有一种情况,人们基本上为各种不同的用途创建自己的 Agent 。有些是定制的实用程序,他们想要完成的任务,他们想要微调和训练 Agent 。有些是娱乐,某些人创造的东西只是搞笑和不同方式的搞怪,或带有一种有趣的态度,这些可能我们不会在 Meta AI 作为助手中构建进去,但人们对此非常感兴趣,想要与之互动。

然后,一个有趣的用例是人们使用这些 Agent 进行支持。这让我有点惊讶的是, Meta AI 的一个主要用例是人们基本上用它来模拟社交场景,不论是专业场景,例如“我想向经理询问如何获得晋升或加薪?”或者是和朋友的争执,或者是和女朋友的困难情况,模拟这种对话,看看对话会如何进行,并获得反馈。

很多人不想与同一种 Agent 互动,不论是 Meta AI 还是 ChatGPT 或其他人使用的东西。他们想要创建自己的东西。这就是 AI Studio 的大致方向。但这都是我们更大愿景的一部分,我们认为不应该只有一个大 AI 让人们互动。我们认为如果有各种不同的东西,世界会更好、更有趣。

前 a16z 合伙人:ChatGPT 从科研到 1 亿用户可能是陷阱,硅谷的集体押注需要传统市场迈过 PMF。

Jensen Huang

你可以变得非常酷。如果你是一位艺术家并且有自己的风格,你可以把你的风格、你所有的作品,微调一个模型。

Mark Zuckerberg

然后这就变成了一个可以进行提示的 AI 模型。

Jensen Huang

你可以让我创作一些符合我艺术风格的东西。你甚至可以给我一幅画作为灵感,我可以为你生成一些东西。你来找我的 AI 做这些。将来每个餐厅、每个网站可能都会有这些 AI 。

Mark Zuckerberg

我觉得将来每个企业都会像有电子邮件地址、网站和社交媒体账号一样,拥有一个 AI Agent 来与客户互动。历史上这些事情一直很难做到。如果你考虑任何公司,可能会有客户支持部门,这和销售部门是分开的,而作为 CEO 你不希望这种情况,因为这是不同的技能。

Jensen Huang

我是你的客户支持,就为了工作。显然我是。每次马克需要什么东西,我不知道是聊天机器人还是艺术,但他只是我的聊天机器人。

Mark Zuckerberg

我想这就是,当你是 CEO 时,你必须做所有的事情。但当你在组织中构建抽象层时,很多时候这些组织是分开的,因为它们为了不同的目标而优化。理想的情况是它们是一个整体。作为客户,你不在乎在买东西时和遇到问题时会走不同的路径。你只希望有一个地方可以解答你的问题并与企业互动。这对创作者也适用。对消费者而言,这些与客户的互动,

Jensen Huang

特别是投诉,会让你的公司变得更好。完全同意。所有与 AI 的互动会捕捉到机构知识,这些都可以进入分析,进一步改进 AI ,如此循环往复。

Mark Zuckerberg

商业版本可能会更多整合,但我们还处于早期阶段。通过 AI Studio ,人们可以创建他们的 UGC Agent 和不同的东西,并在这个飞轮上起步。我对此非常兴奋。

Jensen Huang

所以我可以用 AI Studio 来微调我的图像,我的图像收藏吗?

Mark Zuckerberg

我们会做到的。

Jensen Huang

那么我可以给它我写的所有东西,用它作为我的 RAG 吗?基本上是这样。好的。然后每次我回到它那里,它会加载上次的记忆,我们可以继续我们的对话,就像什么都没发生一样。

Mark Zuckerberg

就像任何产品一样,随着时间的推移会变得更好,训练工具也会变得更好。不仅仅是你想说什么,通常创作者和企业也有他们想避开的主题。他们在这方面越来越擅长。理想情况是,不只是文字,你几乎希望能够进行视频聊天,这与我们正在做的一些编解码器头像工作有交集。我们会实现这一点。这些东西离我们并不远,飞轮转得很快。这很令人兴奋。有很多新东西要做。

即使基础模型的进展现在停止了,我们有五年的产品创新期来弄清楚如何最有效地使用已有的东西。但实际上基础模型和基础研究的进展在加速。这是一个相当疯狂的时代。

Jensen Huang

你的愿景是每个人都可以有一个 AI ,每个企业都可以有一个 AI 。在我们的公司,我希望每个工程师和每个软件开发者都有一个 AI ,甚至多个 AI 。你对每个人和每个公司都能制作自己的 AI 的愿景让我很喜欢,你开源了 Llama2.1,顺便说一下,Llama2 是去年 AI 领域最大的事件。

Mark Zuckerberg

还有 H100,但这是鸡和蛋的问题。

Jensen Huang

这是鸡和蛋的问题。哪个先来?H100。Llama2 实际上不是 H100,而是 A100。所以,这是最大的事件,因为当它出来时,它激活了每个公司、每个企业和每个行业。

突然间,每个医疗保健公司都在构建 AI ,每个公司都在构建 AI ,每个大公司、小公司,初创公司都在构建 AI 。它使每个研究人员都能重新参与 AI ,因为他们有了一个起点。

现在 Llama3.1 出来了,兴奋程度非常高。我们与合作伙伴一起部署 Llama3.1,将其带到全球的企业。兴奋程度超乎想象。它将启用各种应用程序。

但告诉我你的开源哲学。它从哪里来的?你开源了 PyTorch。现在这是进行 AI 的框架。你又开源了 Llama3.1 或 Llama,围绕它构建了整个生态系统,但这一切是从哪里来的?

Mark Zuckerberg

这有很多历史。我们做了很多开源工作。部分原因是坦率地说,我们在一些其他科技公司之后才开始构建分布式计算基础设施和数据中心。因此,当我们构建这些东西时,它们不再是竞争优势。我们想,既然如此,不如开源,这样我们就能从生态系统中受益。因此我们有很多这样的项目。

最大的项目可能是开放计算,我们公布了服务器设计、网络设计,最终是数据中心设计。通过让它成为行业标准,供应链也围绕它组织起来,这样可以为每个人节省成本。通过公开这些设计,我们基本上节省了数十亿美元。

Jensen Huang

开放计算让我们能够设计 Nvidia HGX,使其在某个数据中心内突然变得可能。

Mark Zuckerberg

它在每个数据中心都能工作。在每个数据中心都能工作,太棒了。所以我们有一个很棒的体验。然后我们也用了一些基础设施工具,比如 React、PyTorch。我想说在 Llama 出现之前,我们已经对这种事情持积极态度。

对于 AI 模型来说,我有一些看法。首先,在过去20年里,构建东西非常有趣。最困难的事情之一是我们不得不通过竞争对手的移动平台来发布我们的应用程序。一方面,移动平台对行业来说是一个巨大的推动力。

另一方面,通过竞争对手的平台发布产品是很有挑战性的。我成长的时代,第一版 Facebook 是在网络上的,那是开放的。然后随着向移动端的转变,好处是每个人现在都有口袋电脑。

不好的地方是,我们能做的事情变得更加受限了。当你看这些计算机代际变化时,有一种偏见,大家只看移动设备,认为这是封闭的生态系统,因为苹果基本上赢得了市场并设定了标准。我知道技术上有更多的安卓手机,但苹果基本上占据了整个市场,并且所有的利润,安卓在开发方面基本上是跟随苹果的,苹果显然赢得了这一代。

即使你回顾上一代,苹果做的是封闭的事情,但微软相对来说是更开放的, Windows 运行在不同的 OEM 和硬件上,是一个更开放的生态系统, Windows 是领先的生态系统。在PC时代,开放的生态系统获胜了。我希望在下一代计算中,开放的生态系统再次成为领先者。始终会有封闭和开放的两个系统,两者都有理由存在,各有优势。我不是一个狂热者,我们也做封闭源代码的东西,但并不是所有发布的东西都是开放的。

但总的来说,对整个行业来说,如果软件特别是开放的,那是有很大价值的。这真的塑造了我的哲学。对于 Llama AI 和我们在 AR 和 VR 中所做的工作,我们基本上在构建一个开放操作系统,就像 Android 或 Windows 一样,基本上使我们能够与许多不同的硬件公司合作,制造各种各样的设备。

我们基本上只是希望将生态系统恢复到那个水平,我对下一代的开放系统将获胜持乐观态度。对我们来说,我只是想确保我们能够构建我们将在其上构建社交体验的基本技术,因为有太多事情我试图构建,但被平台提供商拒绝了,所以我对下一个世代的目标是从头构建所有东西。

Jensen Huang

这是一个很棒的世界,人们致力于构建尽可能最好的 AI ,并将其作为服务提供给世界。但是,如果你想构建自己的 AI ,你仍然可以构建自己的 AI 。因此,使用 AI 的能力,有很多东西我不想自己制作这件夹克,我更喜欢有人为我制作这件夹克。

你明白我的意思吗?所以皮革是开源的对我来说没有什么意义。但拥有出色服务、令人难以置信的服务以及开放服务、开放可用性是很好的概念。

你们做的 3.1 真的很棒,有 4.5 B,有 70 B的 API,可以用于生成合成数据,使用较大的模型来教小模型。

尽管较大的模型更通用,但它不那么脆弱。你仍然可以构建适合任何操作领域或操作成本的小模型。因此,现在你们构建模型的方式是透明的,你们有世界级的安全团队、世界级的伦理团队,可以以所有人都知道的方式正确构建它,我真的很喜欢这一点。

Mark Zuckerberg

我之前岔开话题了,但我要补充一点。我们这样做是因为我们希望这种东西存在,并且我们不希望被某个封闭的模型排除在外。但这不仅仅是一块可以构建的软件,你需要一个生态系统。

如果我们不开放源代码,它几乎不会运作得很好。我们这样做不是因为我们是利他主义者,尽管这对生态系统有帮助,但我们这样做是因为我们认为这会使我们构建的东西最好,因为有一个强大的生态系统。

Jensen Huang

看看有多少人为 PyTorch 生态系统做出了贡献?数以百计的工程师。Nvidia 公司单独就有几百名工程师专注于让 PyTorch 更好、更可扩展、更高效等等。

Mark Zuckerberg

而且当某些东西成为行业标准时,其他人会围绕它做工作。所以所有的硅和系统最终会优化以很好地运行这东西,这将有利于所有人,但也会与我们构建的系统配合得很好。这只是如何变得非常有效的一个例子。所以,开源策略将是一个很好的商业策略。人们还没有完全理解。

Jensen Huang

我认识到重要的事情,Llama 确实很重要。我们围绕它构建了一个叫做  AI Factory、  AI Foundry 的概念,以便我们可以帮助每个人构建。很多人有构建 AI 的愿望,对他们来说拥有 AI 很重要,因为一旦他们将其纳入他们的数据飞轮,他们公司的知识就会被编码并嵌入到 AI 中。所以他们不能让 AI 飞轮、数据飞轮、经验飞轮在别处。开源让他们能做到这一点。但他们不知道如何将整个事情变成 AI 。

所以我们创建了这个叫  AI Foundry 的东西,我们提供工具、提供专长、Llama 技术,我们有能力帮助他们将整个事情转变成 AI 服务。当我们完成后,他们拥有它。输出是我们称之为 NIM 的东西,它神经微服务。可以下载它,拿去运行在任何他们喜欢的地方,包括在本地。

我们有一整套合作伙伴生态系统,从可以运行 NIM OEM 到我们训练并与之合作创建基于 Llama NIM 和流水线的 GSI。现在我们正在全球各地帮助企业这样做。这真的很令人兴奋,都是 Llama 开源引发的。

Mark Zuckerberg

特别是帮助人们从大模型中训练出自己的模型,这将是一个非常有价值的新事物。正如我们在产品方面谈到的,我不认为将会有一个主要的 AI Agent ,所有人都会与之对话。我也不认为将会有一个所有人都使用的模型。

Jensen Huang

我们有芯片设计 AI ,我们有软件编码 AI 。我们的软件编码 AI 理解USD,因为我们为 Omniverse 编写USD。我们有软件 AI 理解 Verilog,我们的Verilog。我们有软件 AI 理解我们的 bug 数据库,知道如何帮助我们分类 bug,并发送给合适的工程师。

每个 AI 都是基于 Llama 进行微调的。我们微调它们,为它们设置防护。如果我们有一个用于芯片设计的 AI ,我们不希望它回答政治和宗教问题。所以我们为它们设置防护。每家公司基本上会有适用于每个功能的 AI 。他们需要帮助才能做到这一点。

Mark Zuckerberg

未来的一个大问题是,人们在多大程度上会使用更大、更复杂的模型,而不是为他们的特定用途训练自己的模型。至少将会有各种不同模型的广泛普及。

Jensen Huang

我们使用最大的模型。原因是我们的工程师时间非常宝贵。我们现在正在优化 405B 模型的性能。405B 模型不适合任何 GPU ,无论多大。所以MV Link 性能非常重要。每一个 GPU 都通过这个非阻塞交换机连接。在 HGX 中,例如,有两个这样的交换机。我们使所有这些 GPU 能够高效运行 405B 模型。我们这样做是因为工程师时间对我们来说非常宝贵,我们希望使用尽可能好的模型。事实上,这种成本效益并不重要。所以我们只是想确保为他们提供最佳质量的结果。

Mark Zuckerberg

405B 的推理成本大约是 GPT-4o 模型的一半。所以我要补充这一点。这已经很不错了。人们在设备上做一些事情或希望使用更小的模型时,他们会将其简化。所以那是完全不同的一组服务。

Jensen Huang

AI 在运行。假设我们雇佣 AI 来设计芯片,每小时可能花费 10 美元。如果你不断使用它,并且将它与许多工程师共享,那么每个工程师可能都有一个 AI 在他们旁边。这并不昂贵。我们支付工程师很多钱。所以对我们来说,每小时几美元就能增强某个非常有价值的人的能力。

如果你还没有雇佣 AI ,马上去做。这就是我们要说的。让我们谈谈下一波浪潮。我非常喜欢你们所做的工作,计算机视觉。我们内部经常使用的一个模型是“分割一切”。我们现在在训练 AI 模型理解视频,以便我们能够更好地建模现实世界。

在我们的用例中,主要用于机器人技术和工业数字化,并将这些 AI 模型连接到 Omniverse ,以便更好地建模和表示物理世界。我有一些在这些 Omniverse 世界中运行得更好的机器人。你的Rayband Meta glass应用,将 AI 引入虚拟世界的愿景真的很有趣。告诉我们有关它的情况。

Mark Zuckerberg

好吧,我们其实正在这里展示该模型的下一版本 SIGRAF Segment Anything 2。它现在更快了。它在视频中也能工作。因为它是开放的,很多更严肃的应用也能在各行各业中使用。科学家用这个研究珊瑚礁和自然栖息地的演变。但能够在视频中做到这一点,并且能够零样本并与之交互,告诉它你想跟踪什么,是非常酷的研究。

Jensen Huang

例如,为什么我们使用它呢?例如,你有一个仓库,里面有很多摄像头,仓库的 AI 监控所有事情,假设有一堆箱子倒了或有人把水洒在地上,或任何事故即将发生。AI 识别它,生成文本,发送给某人,并帮助解决问题。这是使用它的一种方式。与其录制一切,如果发生事故,开始记录每一纳秒的视频并回放那个时刻,它只记录重要的部分,因为它知道在看什么。所以有一个视频理解模型,一个视频语言模型,对所有这些有趣的应用非常有用。现在你们还在研究什么?

Mark Zuckerberg

有所有的智能眼镜。我们将下一个计算平台分为混合现实头戴设备和智能眼镜。智能眼镜更容易被人理解,因为几乎每个人都在戴眼镜,最终都会升级到智能眼镜,而世界上有超过十亿人戴眼镜。所以这将是一个非常大的市场。VR MR头戴设备,有些人觉得它适合游戏或其他用途,有些人还不感兴趣。我的观点是,两者都会存在于世界上。智能眼镜会成为下一代计算平台的移动版,混合现实头戴设备则更像是你的工作站或游戏主机,当你想进行更沉浸式的会话时,你会坐下来使用更多计算能力。眼镜体积很小,有很多限制,就像你不能在手机上做同样水平的计算。

Jensen Huang

它正好赶上了生成式 AI 的所有突破。

Mark Zuckerberg

对于智能眼镜,我们从两个不同的方向来解决问题。一方面,我们在构建理想的全息 AR 眼镜的所需技术。我们正在进行所有定制的硅工作、定制的显示堆栈工作,所有使其工作的技术。而且它是眼镜,不是头戴设备,不像 VR MR头戴设备。它们看起来像眼镜。但与现在你戴的眼镜仍有很大差距。

Ray-Bans虽然很好,但还不能完全容纳所有需要的技术以实现全息 AR 。我们正在接近,未来几年会更接近。价格还会很高,但这将开始成为产品。另一个角度是从外观好看的眼镜开始。与世界上最好的眼镜制造商合作,如 EssilorLuxottica,他们制造所有的大品牌,如 Ray-Ban、Oakley、Oliver Peoples 等,这基本上是EssilorLuxottica的天下。

所以我们与他们合作,Ray-Ban 眼镜已进入第二代。目标是限制在一个看起来很好的眼镜内,尽可能多地放入技术。理解我们不可能完全实现我们的理想。但它最终会是看起来很好的眼镜。现在它有摄像头可以拍照和录像,可以直播到 Instagram ,可以进行 WhatsApp 视频通话,并向对方展示你所看到的。它有麦克风和扬声器,开放式耳机,许多人觉得比耳塞更舒适。

可以听音乐,像私人体验。可以接电话。但传感器包恰好可以与 AI 对话。这是一个意外。如果你五年前问我,我们会先得到全息 AR 还是 AI ,我会说是全息 AR 。因为显示技术和虚拟现实和混合现实技术在不断进步。

但 LLM 的突破改变了这一点。我们有了高质量的 AI ,并且以很快的速度变得更好,这比全息 AR 早。我们运气好,因为我们在研发这些产品。最终会有一系列不同的眼镜产品,不同价格和技术水平。我猜没有显示屏的 AI 眼镜,大约 300 美元,会是一个很大的产品,成千上万甚至数百万人会拥有。所以你会有超级互动的 AI 与你对话。

Jensen Huang

你展示了视觉语言理解。你有实时翻译。你可以用一种语言对我说话,我会用另一种语言听到。

Mark Zuckerberg

显示器显然也会很棒,但这会给眼镜增加一点重量,也会让它们更贵。所以会有很多人想要那种全息显示,但也会有很多人希望最终能有真的很薄的眼镜。

Jensen Huang

在工业应用和一些工作应用中,我们需要那种全息显示。

Mark Zuckerberg

在消费品中也是如此。

Jensen Huang

你这么认为吗?

Mark Zuckerberg

我在疫情期间想了很多,当时大家都远程办公。这很好,很棒我们有这个,但未来,我们距离能够进行虚拟会议的时代不远了,就像我没有真的在这里,而是我的全息影像。这种感觉就像我们在那里一样,物理上在场。我们可以一起工作和合作。这对于 AI 来说尤其重要。

Jensen Huang

我可以接受一种不需要一直佩戴的设备。

Mark Zuckerberg

但我们会达到这个点。在眼镜中,有薄框和厚框,有各种风格。所以我不认为我们离拥有全息眼镜的形式还很远。但在一副时尚的稍厚框的眼镜中实现这个目标并不遥远。

我试图成为一种风格的领导者,以便在眼镜上市之前能影响它。但我看到很多,现在还早。我觉得如果未来业务的一个重要部分是打造人们愿意佩戴的时尚眼镜,那么我应该开始更多地关注这一点。

所以我们可能需要告别我每天穿同样东西的版本。眼镜也是一样的。与手表或手机不同,人们真的不希望看起来都一样。所以这会是一个开放生态系统,因为人们会对款式和风格有巨大的需求。不像每个人都想戴同一副眼镜,那样行不通。

Jensen Huang

你是对的,Mark,这真是不可思议的时代,整个计算堆栈正在被重新定义。我们如何看待软件,从 软件一代到软件二代,现在我们基本上进入了软件三代。从通用计算到生成性神经网络处理的计算方式,能力和应用程序现在是过去难以想象的。

这项技术,无论是通用的还是 VI(视觉智能),我不记得有哪项技术以如此快的速度影响消费者、企业和科学领域。能够跨越气候技术、生物技术、物理科学等各个科学领域。生成式 AI  正在每个我们遇到的领域中进行根本性转变。此外,生成式 AI  将对社会产生深远影响,影响我们制造的产品。

有人问我,是否会有一个 Jensen AI ?这正是你所说的创意 AI ,我们可以自己构建 AI ,并加载我写过的所有内容。然后用我回答问题的方式进行微调。希望随着时间的推移,通过使用的积累,它会成为一个真正优秀的助手和伴侣。它不会带有评判性,所以你可以随时与之互动。这些真的是令人难以置信的事情。我们一直在写很多东西。

想象一下,只需提供三四个主题,它就能以我的语气写作并作为起点。所以我们现在可以做的事情真的太多了。与你合作真的很棒。我知道建立一家公司并不容易,你从桌面到移动设备,再到 VR ,再到 AI 所有这些设备的转变。视频领域也多次发生转变,我深知这有多难。我们多年来都遭受了很多挫折,但这正是成为先锋和创新者所需要的。所以,看着你真的很棒。

Mark Zuckerberg

如果你继续做之前做的事情,也不确定是否是转型。但这很不错。但这是一点增加。这一切还有更多的章节。而且我觉得,对于你们来说也是一样的——看你们走过的这段旅程真是有趣。我们经历了一个阶段,每个人都觉得,所有事情都要转向这些设备。这只是要变得超级便宜的计算能力。而你们只是继续坚持下去。实际上,你们会需要这些能够并行处理的大型系统。

Jensen Huang

我们走了另一条路,而不是制造越来越小的设备,我们做了一台计算机。我们开始制造图形芯片, GPU 。现在,当你部署一个 GPU 时,你仍然称它为 Hopper H100。所以你们知道,当 Mark 称它为 H100 时,他的数据中心有 H100,你们即将达到 60 万,我们是很好的客户。

Mark Zuckerberg

有一天,你说,几周后,我们在 SIGGRAPH 做这件事。我说,我那天没有什么安排,听起来很有趣。

Jensen Huang

完全正确。我那天下午没事。你就出现了。事情就是如此不可思议,这些系统你们建造的,这些巨大的系统,难以协调,难以运行。你说你们比大多数人晚进入 GPU 领域。但你们操作的规模比几乎任何人都大。这真是不可思议。祝贺你们所做的一切。

黄仁勋对谈扎克伯格:Llama 4或将摆脱聊天机器人形态

aigc阅读(41)

北京时间7月30日清晨,英伟达创始人兼CEO黄仁勋与Meta创始人兼CEO马克·扎克伯格,在美国丹佛举行的第50届SIGGRAPH图形大会上完成了一场60分钟的公开对话。

上周刚刚发布最新开源模型Llama 3.1的Meta已经爬出股价黑洞,成为AI浪潮中最重要的玩家之一。正如今年刚满40岁的扎克伯格,已经成功从科技宅男形象转型为精心打理卷发,时刻戴着金链子的潮男。

Meta在今年4月发布了专门为AI训练和推理工作设计的自主研发芯片MTIA的最新版本。和许多科技大厂类似,外界认为Meta也希望借此降低对英伟达等芯片厂商的依赖。但总体来讲,Meta与英伟达保持着密切的联系。扎克伯格今年早些时候曾表示,为了构建自己的AGI,Meta会在年底前采购约35万块英伟达H100GPU。

3月底,扎克伯格还在Instagram上发布了与黄仁勋互换外套的照片。照片中,扎克伯格身穿黄仁勋标志性的黑色皮夹克,而黄仁勋穿上了扎克伯格此前穿过的棕色外套。这张照片也在对谈现场得以重新展示。

本届SIGGRAPH于7月28日至8月1日举行,近100家参展商将在大会上展示图形技术如何引领未来。自 1974 年在科罗拉多州博尔德市首次举办以来,SIGGRAPH一直走在创新的最前沿,曾经向全世界展示了“Aspen Movie Map”,这是谷歌街景地图的前身。SIGGRAPH还是皮克斯首部CG动画《小台灯》的首映地之一。

在这场难得的面对面对话上,黄仁勋和扎克伯格共同探讨了Meta的开源哲学,同时扎克伯格正式发布了AI Studio,将允许用户构建具有自定义个性的虚拟角色和聊天机器人。而Meta最终的愿景是让每个人都能为自己创建个性化的AI Agent。

尽管两人的年龄差超过20岁,但作为科技行业少数仍留在公司一线的资深创始人,黄仁勋与扎克伯格的惺惺相惜贯穿始终。扎克伯格也不忘向黄仁勋吐槽说:“你的头发变白了,我的头发只是变长了。” 而黄仁勋表示:“你的头发明明变卷了。”但扎克伯格澄清说:“我头发一直是卷的,只是之前非常短!”

相比于大学本科期间就打造出Facebook并退学创业的扎克伯格,黄仁勋是在30岁才成为英伟达的联合创始人。于是他提到:“我要是知道得花这么长时间才能成功的话……”

“你打从一开始就不会做这些了?”扎克伯格问道。

“不,我会像你一样从大学辍学然后早点开始。” 黄仁勋表示。

一、信息流推荐的未来

在对谈中,黄仁勋肯定了Meta打造的AI框架Pytorch的行业地位,以及Meta过去几年里在计算机视觉、语言模型、实时翻译等方面的成果。他提出的第一个问题是扎克伯格会如何看待Meta在生成式AI方面的进展。

扎克伯格首先回溯了2018年,Meta展示的早期VR功能,以及如何通过打造逼真的形象来推动消费级头戴设备的发展。同时Meta做了很多研究来保证头戴设备足够薄,再加上先进的光学堆栈和显示系统,这些才是Meta通常在SIGGRAPH图形大会上会展示的元宇宙进展。

不过现在的Meta已经离不开人工智能的话题。扎克伯格提到,Meta旗下分别拥有超过十亿用户的Instagram和Facebook拥有大量信息流,因此内容排序及其背后的推荐系统很重要。但和早期Facebook上只刷亲朋好友的动态不同,有了生成式人工智能以后,如今Instagram会根据用户的兴趣推荐数百万其他用户的内容,构成其信息流的绝大部分,无论他们是否关注过这些用户。

扎克伯格认为这才是推荐系统的未来,要么是即时创建的内容,要么是通过现有的不同内容汇集综合而成的内容。这和当前的生成式人工智能热潮略有不同。当然它还是基于Transformer和类似的架构,但会越来越通用。

具体来说,过去Meta会为每种类型的内容建立不同的模型,比如有一个模型用于对视频进行排序和推荐,另一个模型用于对更长的视频进行排序和推荐。但更通用的推荐基础模型可以涵盖所有内容,当获取内容的池子越广,就越容易规避不同池子获取内容的低效问题。

“我梦想着有一天,你可以把Facebook或Instagram都当成像单一的AI模型,所有不同的内容类型和系统集合在一起,这些内容在不同的时间范围内有不同的目标,有些只是向你展示你今天想要看到的有趣的内容,但有些是在帮你建立长期的人际网络。” 扎克伯格表示。

从另一个层面来看,扎克伯格认为新一代人工智能会让我们所有的工作流程和产品实现重大升级,每个人都会拥有自己的通用人工智能助手来完成不同的任务。“当我们从Llama 3系列模型转向Llama 4及更高版本时,我认为它不会再像聊天机器人那样,你给它一个提示,它再回应。它会很快进化成:只要你给它一个意图,它就可以在不同的时间范围内完成任务,比如有些计算工作可能需要几周或几个月的时间,然后结果才会返回到你这里,就像世界上其他地方发生了什么事一样。”

黄仁勋也给出类似的人类逻辑,指出人工智能的发展方向:今天的人工智能是回合制的。你说一些话,它会回复你一些话。但当我们思考时,当我们被赋予一个任务或问题时,我们会考虑多种选择,在脑海中模拟一个决策树,设想每个决定的不同结果。”

二、个人创建Agent

扎克伯格还提到其他公司在构建中央Agent,但Meta的愿景是让所有用户都能为自己创建Agent。“无论是平台上的数百万创作者,还是数亿中小企业,我们最终都希望能够收集你们的所有内容,迅速为你们建立一个业务Agent与你们的客户互动。”

于是扎克伯格在现场宣布,Meta将为人们提供一个名为AI Studio的工具,用于构建具有自定义个性、特征和兴趣的虚拟角色。创作者还可以用这样一种数字替身与私信中的粉丝互动。

来源:Meta

Meta在新闻稿表示,AI Studio将从今天开始向Instagram Business帐户用户推出,并将在未来几周内向美国的所有Meta用户开放。

“每天的时间都不够用。” 扎克伯格表示。创作者时间有限,所以需要训练Agent代表自己。很明显这就不再是和创作者本人互动,但扎克伯格相信这会是另一种有趣的方式,用户会为各种不同的用途创建自己的Agent。

扎克伯格注意到,Meta AI的主要应用在于人们会在遇到困难的社交场合使用它。比如“我想问我的经理我该如何获得晋升或加薪?或者我和朋友吵架了,或者我和女朋友遇到了什么困难,这场谈话该如何进行等等”。但问题在于,很多人不想只与同一个Agent互动,无论是Meta AI,ChatGPT还是其他应用。用户想创造自己的东西,这就是AI Studio的目标。

“就像每个企业都有电子邮件地址、网站和社交媒体账户一样,未来每个企业都会有一个与客户互动的Agent。而消费者如果买到的东西有问题,也只是想找到一个地方解决问题,通过Agent以不同的方式与企业互动。我认为这也适用于创作者。” 扎克伯格表示。

三、开源哲学来自微软

在对谈中,黄仁勋不忘吹捧Meta称:“我认为Llama 2可能是去年人工智能领域最重要的事件。” 而扎克伯格回应称:我还以为(最重要的事件)是H100。”

黄仁勋认为,Llama 2激活了所有行业。突然之间,每个大中小公司都在开发人工智能。所以他向扎克伯格询问,Meta的开源哲学来自何处。

扎克伯格首先承认,Meta构建分布式计算基础设施和数据中心的时间比其他科技公司晚:“当我们建造这些东西的时候,它已经没有竞争优势了。好吧,那我们不如把它开放,这样我们将受益于周边生态系统。”

而Meta参与的最大项目就是Open Compute Project:“通过让它成为某种行业标准,所有的供应链基本上都围绕它组织起来了,这样做的好处是为每个人省钱,基本上可以节省数十亿美元。”

在Facebook创立二十周年之际,扎克伯格认为,过去 20 年里最困难的事情之一就是必须通过竞争对手的移动平台来发布应用,并且他以隐晦地方式批评了苹果的封闭系统。“每个人认为这应该是封闭的生态系统,因为苹果基本上是唯一一家(主导)。当然市场上有更多安卓手机,但苹果基本拥有整个市场和所有利润,安卓在开发方面基本上是跟随苹果的。所以我认为苹果显然赢得了这一代的竞争。”

然而回到上一个时代,微软虽然不是完全开放的公司,但Windows系统可以在不同的软硬件上运行,是更加开放并且领先的生态系统。也就是说从PC时代开始,开放的生态系统就一直存在。“对于整个行业正在构建的计算平台来说,如果软件是开放的,它的价值会很大,这塑造了我的哲学。我很乐观地认为,下一个时代,开放的生态系统会获胜。”扎克伯格表示。

同时他承认,Meta这样做并不是因为他们是利他主义者,而在于这的确会让Meta打造的成果受益于强大的生态系统。黄仁勋也附和称,仅英伟达内就有数百人致力于让Meta的PyTorch变得更好。但他也提出温和的异议:“我可能不想自己制作这件夹克,我更喜欢让别人为我做这件夹克。皮革可以开源这件事对我来说不是有用的概念。当然你仍然可以拥有令人难以置信的开放的服务。”

针对模型的多样化,扎克伯格进一步提出,帮助人们从大模型中提取自己的模型将会成为非常有价值的新事物。“不会存在一个模型或者一个Agent供所有人使用。人们会在多大程度上仅仅使用更大、更复杂的模型,还是训练自己的模型自己使用?我敢打赌,它们将会是不同模型的大量扩散版本。”

黄仁勋也赞同称,如果雇佣AI做芯片设计,每小时大概需要 10 美元。如果与一群工程师共享这个人工智能,每个工程师可能都有专属的人工智能陪伴他们,这个人工智能的成本并不高,而付给工程师的钱却很多。所以对英伟达来说,每小时花几美元就能放大一个人的能力将会非常具有经济潜力。

四、人工智能进入虚拟世界

这场对谈中的另一项重磅发布是Meta的SAM2,也就是新一代Meta Segment Anything Model,它能够在不需要任何标注的情况下,对任何图像中的任何物体进行分割。

扎克伯格在现场也展示了SAM2的功能,并且“凡尔赛”地表示:“它可以识别并跟踪奶牛,制作很多有趣的效果。顺便提一句,这些都是我家夏威夷牧场的牛。”

显然,它也是开源的。扎克伯格表示,科学家可以利用SAM2研究珊瑚礁和自然栖息地以及景观的演变等,并且在视频中做到这一点,人们可以与它进行交互,告诉它你想要跟踪什么。

在工业应用中,黄仁勋表示:“例如你有一个仓库,里面有一大堆摄像头,仓库人工智能正在监视一切。假设有一堆箱子掉下来了,或者有人把水洒在地上,人工智能都会识别并生成文本,派人过来帮忙。这是使用它的一种方式。如果发生事故,它不会记录所有内容,而是开始记录每纳秒的视频,回溯并检索那一刻。它只记录重要的东西,因为它知道自己在看什么。”

对谈中的最后一个主要话题是颇受市场欢迎的智能眼镜,由Meta和雷朋眼镜合作开发。扎克伯格表示:“如果你五年前问我,我们会在人工智能之前获得全息AR吗?我会说应该是吧。但真正的突破发生在大语言模型上。在全息AR出现之前,我们现在已经拥有非常高质量的人工智能,而且进步速度非常快。这是一种我没想到的逆转。”

至于未来的眼镜市场,扎克伯格认为最终会产生一系列不同价位,采用不同技术水平的智能眼镜产品,其中300美元价位的智能眼镜将成为最受欢迎的一款,有望迎来数亿消费者。不过眼镜作为一种可穿戴的时尚单品也有自己的烦恼:“它不像手表或手机,人们不想看起来都一样。” 已经成为硅谷潮男的扎克伯格指出。

最后,黄仁勋表示,看着扎克伯格把Meta的业务从桌面电脑转向移动设备,再涉足虚拟现实和人工智能等等,他知道这些转型有多难。“这些年来,我们俩都遭受了很多挫折,但这就是成为先驱和创新者所需要的。祝贺你们取得的成果。而且你现在可是时尚偶像了。”

对此,扎克伯格谦虚地表示:“还在早期阶段”。随后他转身掏出一个盒子,里面是为黄仁勋新买的一件毛领黑夹克。而黄仁勋也把自己为SIGGRAPH新准备的皮夹克交换给了扎克伯格穿,再一次完成两人亲密无间的互换外套活动。

(封面图及未说明来源:英伟达)

浅谈当前的AI剪辑工具

aigc阅读(28)

半年前,我写了篇文章——《浅淡游戏行业当前的AI视频工具》,将视频制作流程分成了寻找灵感、制作草稿、收集素材、剪辑成稿。

其中需要的AI视频能力分为了以下4类方向。

  1. 视频分析:利用人工智能的分析和理解能力,提炼出美术设计所关注的核心信息,将大量缩成关键要点,从而提高寻找灵感的效率。
  2. 素材搜索匹配:基于视频分析的AI技术,通过对素材库中的视频进行分析、解构和标记,再根据用户提供的关键词匹配最适合的视频内容,提高视频类资源制作的效率。
  3. 视频生成:基于生成式AI技术,能够通过文本和图像内容生成视频内容。
  4. 剪辑工具类:辅助视频资源的制作,提高制作效率。

而最近在“视频生成”方向,各家“视频生成”厂商接连内卷,先是快手可灵公布,然后是Luma公布,紧接着Runway公布了Gen3模型。用户能够在“没有素材”或者“仅有图片素材”时,使用这些工具进行“文生视频”、“图生视频”生成视频素材,随着行业的发展,当前“视频生成”也已发展到“抽多几次还勉强能用”的阶段。加上目前各家视频生成能力平均成本为几毛钱/1s,也就意味着平均几块钱能生成一个能用于生产的视频素材片段,相比以前“将静态图片变成动态”的“K帧”动作“1人1天的工作量”成本,AI现在已经能在某些场景下起到替代人力的作用了。

但是,这只是理想情况,在实际的业务中,AI视频生成还是存在诸多问题的。

在和业务同事访谈时,问到“如何看待当前AI视频生成能力时”,业务同事是这样表示的,“偶尔抽多几次,能抽到自己想要的东西。但有时候还是抽到想砸电脑,生成的东西总差点意思,想改又改不了。”

以下几个例子,或许能帮助大家更直观地认知。

可见,虽然AI能生成视频片段素材,但是存在“指令识别不准”、“无法修改”、“模糊”、“主体不一致”、“物理运动BUG”等问题。这导致“视频生成”仅仅能在“视频质量”要求较低的场景发挥作用。对于像是高精度的视频诉求,AI无法满足。

那么,像是“视频分析、素材搜索匹配、剪辑工具类”的发展情况如何呢?这些能力或多或少有在目前的AI剪辑工具上有体现,因此我特地研究了几家AI剪辑相关的厂商的产品,下面我浅浅盘下。各AI剪辑厂商的发展情况

由于认知和精力有限,仅仅选取了几个个人接触较多的AI剪辑工具。 

01 剪映 

提到AI剪辑,第一个肯定是字节旗下的剪映。背靠字节的大模型底层能力、抖音系视频生态提供的庞大剪辑需求量、多年的产品积累,剪映是所有AI工具中较为突出的那一个。下面我盘点下其部分部分AI能力。

1. 营销成片

该功能可以基于输入视频素材片段和文案生成,对画面内容进行分析并裁剪,匹配最合适的视频片段进行混剪视频,然后加上BGM、字幕、配音,并支持导出与继续编辑。

其中文案支持AI生成,用户只需要提供产品名称和相关的属性,AI便能生成多个文案供用户挑选。但个人觉得这个功能只能用于辅助激发创意,AI生成的结果往往不能直接使用,或者说生成的效果比较差。

选择好文案后,AI会生成多个结果供用户挑选,用户可选中需要的内容进行继续编辑或者直接导出。

体验下来,个人觉得这功能有点别扭,可能只能满足非企业用户(ToC)和成片质量较低的企业用户(ToB)的需求。(不是说功能不好,因为我是B端用户,不满足我的需求。)

“营销成片”这个功能,很明显是面向企业用户(ToB)的。企业会需要在批量产生视频素材的时候需要这类功能,那么企业的核心诉求是“较低成本产出符合业务最低限度诉求的大批量素材”,其中的要点是“低成本”、“符合业务最低限度诉求”、“大批量”。

剪映的“营销成片”这里有个问题,在生成时可配置的内容太少了,比如混剪逻辑、字体颜色、BGM这些内容都无法配置,用户只能按AI识别的内容获得生成的结果,这是个不可控的“黑盒”。对非企业用户(ToC)来说,这是个很好的功能,他能降低使用门槛。但是对企业用户(ToB)来说,这些不能配置的内容会降低AI成品的质量,导致不符合“业务最低限度诉求”。假设业务需要按音乐节拍混剪、字体使用制定字体、配音需要使用不那么呆AI配音,那么现在的“营销成片”便无法满足,需要人力额外花费时间修改。

所以ToB是最好能够提供配置能力,在一开始预设好该配置的参数,然后提交生成任务给计算机,人力就释放出来去干其他事情了。而不是让人力守在电脑前,一个个审核,然后去一个个编辑。如果用户有精力一个个编辑修改,还不如从一开始就自己混剪,批量混剪一批视频,也才几个小时的工作量,都能和一个个编辑修改持平了。

对于成片质量要求较高的企业用户来说,AI的“高黑盒程度”导致AI成片无法满足“符合业务最低限度诉求”,因此需要额外的人力成本进行修正,所以也无法满足“低成本”和“大批量”的需求了。

2. 智能裁剪

该功能可以识别视频人物主体位置,从而修改视频的运镜,保证人物主体在中心位置。这适用于运镜较多的人物视频,用于跟踪人物主体。

视频片段来自于B站主页推荐的up“芋圆有点甜-”

3. 图文成片

“图文成片”这个功能有点和“营销成片”类似,但是生成的是图片拼成的视频,而且更多面向于非企业用户(ToC)。

该功能也是基于AI生成或者自己撰写的脚本文案,再选上合适的AI音色,最后选择自行上传素材匹配 或是 交给剪映智能识别匹配。剪映匹配的内容支持表情包和素材,这明显是给非企业用户生成娱乐向内容用的。

尝试了下,剪映匹配的素材能一定程度上匹配文本内容,给到对应的图片素材。我试了下生成绝区零的宣传视频,结果生成的静态图片素材带有水印,多少有点尴尬。

而试了下生成螺蛳粉的宣传视频,其中也出现了不知名品牌的片段。

这说明这里的图文成片所匹配的素材库,多少有点版权相关的风险,所以这项能力并不能用于企业用户(ToB)的设计场景,还需要等图片素材库和AI匹配算法再发展一会儿。

而且如果要企业用户(ToB)使用,这项能力和“营销成片”存在同样的问题,其可配置的内容太少了,AI的“高黑盒程度”导致AI成片无法满足“符合业务最低限度诉求”,因此需要额外的人力成本进行修正,所以也无法企业用户(ToB)满足“低成本”和“大批量”的需求了。

4. 视频翻译

这项能力可以在用户上传本人视频的时候,将用户口播的内容翻译成指定语言,并将口型转换成对应语言的口型。在上传视频时候,需要进行本人认证,所以导致无法使用他人的视频,避免直接搬运他人的视频翻译后上传到别的网络。

目前功能仅支持6种语言,而且转换口型之后,在人物动作幅度或者角度不正的时候,嘴部有一些明显的瑕疵。(有点好奇,后续剪映上线某些较长的语种的时候,会采用怎么样的翻译方案。)

5. 编辑器中的能力

剪映除了上面提到的AI功能,在视频编辑器中也融入了AI能力,用于辅助视频生产者提效。

这里涉及到的功能很多,比如生成文本、文本生成配音、识别字幕、识别音乐、镜头分割、人生分离,就不一一赘述了。

02 即创 

即创是巨量引擎旗下的“一站式智能创意生产与管理平台”,用于帮助企业用户在营销场景下提供AI帮助的。相比起剪映,即创的能力直接面向企业用户(ToB)。

其中的AI工具有视频创作、图文创作、直播创作模块,而视频创作相关的仅有“智能成片”和“AI视频脚本”。

1. 智能成片

该功能通过添加脚本、音乐、口播等配置能力,利用AI生成多个版本的成片视频。为了方便入门用户和高度自定义用户,即创还提供了“一键成片”和“高阶成片”模式。

“一键成片”和前面提到的剪映的“营销成片”一样,可控制的元素太少了(混剪逻辑、BGM、声音等都不可控),只能满足成片质量较低的企业用户(ToB)的需求。而且相比起剪映,即创还无法二次修改,AI生成错误的内容,想救也救不了。

比如下面的案例,即创会识别脚本中的关键文案,然后生成一些奇怪的特效。关键是这个特效抓得也不准,在成品中意义不明,也无法去掉。

“高阶成片”在“一键成片”的基础上增加了视频前后贴、数字人、配音、音乐、字幕等的自定义选项,这较大程度上解决了“一键成片”和剪映的“营销成片”的问题,使得企业用户能“较低成本产出符合业务最低限度诉求的大批量素材”。

2. AI视频脚本

该功能分为“脚本生成”和“脚本裂变”。

“脚本生成”是基于输入的信息,利用AI生成脚本文案,支持跳转到“智能成片”中进行快速生成。

就是个人感觉AI生成的脚本,估计只能满足成片质量较低的企业用户(ToB)的需求。

“脚本裂变”则是基于已有的脚本进行派生,用AI模仿已有脚本批量生成更多的脚本。相对来说,“脚本裂变”生成的效果会相对更好,因为等于进行了提示词工程,减少了AI发散的情况。

3. AI灵感

AI灵感功能会根据用户当前主体下,历史触达人群、售卖商品、素材偏好、品牌调性、营销偏好等多维历史信息为用户推荐素材内容,以便激发用户灵感创作。其中AI灵感功能便捷地提供了素材投放数据、视频要点拆解和一键生成类似脚本的能力,方便用户进行创作。

03 智能创作云 

智能创作云是火山引擎旗下的AI剪辑工具,也是一款面向企业用户(ToB)的AI剪辑工具。其中涵盖的能力有视频混剪、智能脚本工具、自动剪辑成片、视频拆条、视频编辑器、视频裁剪、虚拟背景、智能配音、添加品牌等。

由于能力有点多,下面挑一些重点来讲解。

1. 视频混剪

该能力可对目标混剪素材进行分组,并对每组素材进行排列/组合+内容算法的智能拼接。根据多素材进行视频混剪,裂变出更多视频。适用于矩阵号投放场景,大幅降低营销成本,迅速起号转化。

相比起剪映和即创的能力,智能创作云的配置项更多,能力更抽象,能满足更多B端业务场景。比如其支持按镜头组设置混剪,而不像剪映和即创完全依赖AI进行视频编排。

2. 自动剪辑成片

自动剪辑成片支持用户自定义导入图片/视频素材一键生成精美视频,提供卡点、运镜、动画、特效等多种视频效果元素,降低创作门槛,赋能创作表达。

但是测试了下,成品效果比较一般,里面由AI控制的部分太多了。

3. 其余能力

剩下这些能力就简单文字概况下好了,和剪映、即创的能力有所重合。

  • 视频编辑器:类似于剪映的视频编辑器,提供包含音视频裁剪、文字、特效、滤镜、贴纸、转场、字幕、配乐等常用能力。
  • 视频裁剪:可更改视频尺寸,并在部分有主体的视频中,识别主体位置(类似于剪映的“智能裁剪”能力)。
  • 视频拆条:可以结合视频内容进行拆分,可将长视频分成多个短视频。
  • 智能配音:将输入的文字转化为智能虚拟人声配音,并支持添加背景音乐,生成MP3或WAV格式的音频。

04 其他AI剪辑工具 

除了上面提到的剪映、即创、智能创作云,AI剪辑工具还有很多,比如:汇量科技的playturbo、美图的奇觅、网易的见外工作室、筷子科技……

05 AI剪辑工具的发展思路

我们可以整体发现,各家AI剪辑工具厂家提供的能力,其实和剪映、即创、智能创作云的大同小异。而且,个人觉得大体的功能建设思路差不多,都是:

  • 结合业务流程提供AI能力支持,积累AI单点能力。
  • 结合高频需求串联多个AI单点能力,构建工作流能力。

“结合业务流程提供AI能力支持,积累AI单点能力”这个很好理解。

工具类产品目的是在业务流程上提供“使能”与“提效”的辅助。但是直接给整个业务流程进行辅助难度很大。所以我们需要“把复杂的问题简单化”。我们可以将业务流程拆解成多个核心环节,同时拆解出每个核心环节所需的能力,并基于这些能力需求提供AI单点能力。相比起直接提供面向整个流程的能力,基于单点诉求提供AI支持反而很简单。因此这种基于业务流程提供AI单点能力支持是很好的AI功能切入点。

视频制作的业务流程可分为“寻找灵感、制作草稿、收集素材、剪辑成稿”这四个阶段。

  1. 寻找灵感:该环节重点是知道要做一个怎么的视频,这个视频需要达到什么样的目的,并构思其题材、内容、音乐、字幕等相关内容。因此能激发创作者灵感的功能都可视为该环节的内容,比如即创的“灵感库”。
  2. 制作草稿:将灵感构思落地成脚本稿或者分镜稿,形成视频的主体框架大纲,并与相关的业务人员进行确认与核对。利用AI生成脚本稿的功能属于该环节,比如即创的“AI视频脚本”、剪映“营销成片”中的AI生成脚本稿能力。
  3. 收集素材:该环节需要收集用于成片的素材内容,包括但不限于图片、视频片段、特效、配音、字幕、BGM等等。其中AI生成的图片、视频工具都属于该环节。
  4. 剪辑成稿:基于收集到的素材,基于大纲进行剪辑,从而输出成品稿。剪映的各项视频剪辑工具就属于该环节。

如下图,基本上AI剪辑工具都能对应上一个环节。

基于这四个阶段的能力建设,各家厂商还会提供将多个流程串联起来的自动化能力。这便是前面提到的“结合高频需求串联多个AI能力,构建工作流能力”思路。

比如各家厂商都有将“制作草稿、收集素材、剪辑成稿”三个环节串联起来,提供一键生成成品的能力。

如果AI生成的成品准确度够高,那么用户只需要收集到灵感,就可以快速走完“制作草稿、收集素材、剪辑成稿”三个环节,大批量低成本地生成符合需求的视频内容了。

因为单点AI能力的辅助提升是有限的,用户一般在实际的业务中会使用到多个单点能力。假设用户使用了AI脚本制作视频的脚本稿,然后使用AI配音能力生成配音,紧接着使用视频拆条功能剪辑视频,最后到视频剪辑器上完成剪辑。在多个功能上跳转、传输素材文件十分耗费人力,而且其中存在很多机械的重复工作。

因此,基于这些机械重复的场景,将多个AI单点能力串联成工作流,能进一步提升业务的效率,让用户做到一站式输入输出,极大释放生产力。

06 后续思路推测

前两个阶段是当前能从市面上AI剪辑工具看出的建设思路,那在这之后呢?

个人觉得后续的思路会和我之前思考过的作文《浅谈数字员工的实现路径问题》有点类似。

之前梳理到的数字员工建设四个阶段:

  1. 从“实习生”到“核心成员”。
  2. 将数字员工拆解成“技能”,把复杂问题简单化。
  3. 业务流程数字化、线上化,并贴合业务流程聚合“员工技能”。
  4. 行为数据采集,用于进一步训练AI模型,实现AI数字员工。

当前AI剪辑工具的两个阶段可以理解为各家厂商在尝试构造“AI数字员工”的各项剪辑能力,各家厂商需要持续发力,将AI剪辑能力建设到一定程度,以让AI能够覆盖各个视频制作流程,并一定程度能够替代人力。这等同于跑通了数字员工的前三个阶段。

然后各家AI剪辑厂商可以采集用户AI的使用数据、参数设置、成品数据等内容,用于训练AI数字员工所需的AI模型。AI数字员工适用于“AI Agent”框架,即感知、计划、行动三个模块。

各家厂商实现的“AI剪辑能力”属于“行动”模块的构建。

“感知”模块则是用户的需求输入、素材输入、业务的数据等外部情况。

“计划”模块则是我们所训练的AI模型,“计划”模块需要感知用户的需求、素材输入、业务的数据等外部信息,输出所需要产出的视频内容需求,然后调用合适的AI剪辑能力,进行视频的产出,实现视频的“无中生有”。

如此一来,各家AI剪辑厂商就可以配备自己的AI视频员工能力,帮助各行各业自动化、智能化生产视频内容了。

07 谁更容易卷成

既然各家的核心思路都一致,小的就产生了一个新的疑惑——那么最终哪家能在这场AI剪辑领域的内卷中胜出呢?

小的无法准确了解到每家公司的实际情况,但是个人觉得,能够在这场竞争中卷成功的AI剪辑工具必定满足以下条件:

  1. 用AI剪辑工具能吸引到足够的目标用户。(有用户)
  2. 能够跑通与用户价值交换的商业逻辑。(能赚钱)
  3. 在前两个过程中构建自己的竞争壁垒,以源源不断进行价值交换。(有壁垒)

先讲讲第一点“有用户”的思考。

虽然AI剪辑工具都是为了视频制作业务服务,但是也会根据对用户进行细分,这里有四个分类方向。

  1. 按用户类型:按用户类型可分为非企业用户(ToC)和企业用户(ToC),非企业用户会更倾向于制作内容向的视频,企业用户则会有较大一部分是制作营销向的视频。
  2. 按行业类型:指比如游戏、动漫、电商等行业。
  3. 按视频类型:可分为内容向和营销向。内容向是指有进行非营销目的内容输出与表达的视频,比如游戏解说、电影解说、舞蹈、动漫混剪、vlog等。而营销向则是指有一定营销目的的视频,比如产品推广、品牌宣传等视频。当然,视频可以同时属于内容向和营销向两个类别。
  4. 按视频质量:视频也是有高低质量之分的,有些视频会包含良好的创意脚本、精美的画面、优秀的分镜、动听的BGM等内容,这项视频可视为高质量的视频。但是有些视频脚本粗糙、画面低劣、分镜简陋,是低质量的视频。不过,低质量视频并不意味着这些视频没用,低视频也是有能发挥作用的地方,比如在广告投放场景上,低质量也能起到低成本获客的作用。

AI剪辑工具会有自己的目标人群、所服务行业、视频类型/视频质量制作倾向。

比如剪映的官网标语是“轻而易剪”,其目的是提供简单的易用的剪辑工具,因此剪映的服务群体会相对更泛,各种用户、行业、视频类型都会涵盖。

而即创和智能创作云是ToB的AI剪辑工具,一个是挂在广告买量平台上,一个作为SaaS工具被售卖,可见主打的就是给企业提供视频制作服务。

不同的群体意味着有不同倾向的剪辑需求。AI剪辑工具如何把AI能力点(比如混剪、文生脚本、AI配音、视频拆条等)结合用户的需求和场景提供合适的工作流能力支持?并平衡好功能的标准化与定制化建设?这个问题是吸引用户留存的关键。

比如面向C端用户,功能不能太复杂,最好是一键式的傻瓜操作。而面向B端用户,功能要有较好的标准化程度,才能更多地满足企业在不同场景下的需求。

就拿各家都有的“混剪成片”能力来举例说明,即剪映的“营销成片”、即创的“智能成片”、智能创作云的“视频混剪”,这几个能力都是基于“混剪”这个AI能力点进行产品功能设计的。

所谓标准化,在B端产品设计中经常用到,是指将多个类型的业务按统一的标准进行规范,使得在业务流程进行的过程中,不同类型的业务能按统一的标准进行,从而减少效率的损失。

如果在“混剪成片”能力上进行高度标准化建设,能使得“混剪成片”能力可满足大部分的混剪需求。

在研究到的示例中,智能创作云的“视频混剪”、即创的“智能成片”是标准化程度较高的,其中的混剪逻辑、视频前后贴、数字人、配音、音乐、字幕等选项都可以自定义。但这样带来一个问题——功能复杂度提高,这导致用户的学习成本变高了,实际生产中的操作成本也变高了。

所谓定制化,是指给特定的场景进行功能定制,使得在某些特定场景上做到“低配置成本的输入和输出”。而剪映的“营销成片”能力就是相对定制化的能力,其可配置的输入项做了减法,意在让更多人上手这项功能能力。这也可能和“剪映的用户群体涵盖更多的非企业用户”有关系,所以他们的功能需要更简单、更容易上手,从而让更多人能用上这些能力。

可见目前看到的各家剪辑工具,AI剪辑功能呈现上大体上都是较为符合用户群体的需求的,差距就在于后续的功能推出、产品运营、产品营销方面的手段差距了,这一块暂时未能看出任何结论。

那么接下来是“能赚钱”这一点。

个人觉得,AI剪辑工具的商业模式是:AI剪辑工具通过提供视频制作流程上的“使能”和“提效”服务,用户为这项服务能力进行付费。只要AI剪辑能力能给到业务“使能”和“提效”的帮助,并且这个成本低于产出同等质量和量级内容的人力成本。

BTW,剪映在这一块还会有点区别,因为剪映背后有抖音,其核心目的还有“为抖音的短视频内容生态提供生产辅助”,所以付费盈利不一定是剪映的核心商业模式。

目前各家AI剪辑工具都是直接开启商业化,要么是按点数收费、要么是会员制,不存在亏本获客,除非后续运营手段层面搞价格战、搞买量、搞政策扶持,搞到ROI为负数、无法回本。

最后就是“有壁垒”这一点。

值得一提的是,除开自行训练的大模型,AI剪辑中的大多数能力其实算不上“壁垒”。因此这些能力大多数都有开源的技术,或者说通用的底层大模型能力,其他家厂商稍微研究研究也能做到同等的程度。因此要在后续继续卷赢,必须得有自己的壁垒,这些壁垒可以是:

  • 自行训练的大模型:除非企业基于自有的数据进行大模型训练,且大模型有较好的效果,且其他厂商不能使用这个大模型,能够给到与其他AI编辑工具有差异化的效果。那么,该大模型能力便可以算是技术层面的壁垒。
  • 剪辑能力:由于AI幻觉问题的存在,AI生成的结果中往往有一定的错误比例,如果能够提供强大的编辑器作为兜底能力,便能一定程度环节壁垒的影响。比如剪映的编辑器已经发展了好几年,能够提供十分完善的剪辑能力,相比起即创的“抽盲盒”模式,剪映的体验会更好。
  • 素材库:如果AI剪辑功能能够调用庞大的素材库,并对这些素材进行准确的AI分析分类,AI剪辑工具能在用户的“寻找灵感”、“制作草稿”、“收集素材”环节提供高效的辅助。比如在特定场景上,提供一键成片能力,通过输入的脚本关键词,匹配准确的视频片段画面。

这些能力依赖于企业有垂直于用户所属行业的庞大素材库,并且企业需要能够有资源进行这些素材的处理和AI模型训练。这个方向往往是需要企业能够背靠庞大的视频市场,比如背靠抖音的剪映、背靠巨量的即创。

  • 行业赋能能力:由于AI剪辑工具有行业之间的区别,如果能垂直赋能某一行业,给某个行业提供更高效的能力支持,同时沉淀一些该行业的能力支持、最佳实践案例(比如行业素材模板、工作流模板等等),那么企业也能在某个领域守住自己的一亩三分地。

08 总结

总的来说,AI剪辑工具目前也处于快速发展的阶段,目前还存在一些技术和应用上的局限,但其潜力和前景不容忽视。随着技术的成熟和市场的适应,我们有理由相信,AI将在视频制作领域发挥更加关键的作用。

而其中谁能从中胜出,暂且也无从得知。但是个人认为,在其中能卷出头的AI剪辑工具,必定符合“有用户”、“能赚钱”、“有壁垒”这三个特点。

OpenAI要再次带国内大模型玩家飞?

aigc阅读(24)

被传了几个月,OpenAI终于官宣入局AI搜索。

北京时间7月26日,OpenAI在官网发布消息,宣布推出AI搜索产品SearchGPT。

OpenAI CEO山姆·奥特曼在X(前推特)公布喜讯,比起夸自己,更像是diss前人:“我们认为如今的搜索还有改进的空间”,还说:“我惊喜地发现比起传统的搜索方式,我有多喜欢这个新方式,而且我适应得非常快。”

中文说“传统”听起来其实都客气了,奥特曼用的英文原词是“Old-school”,这个词说不上有贬义,但有明显的新旧之分。至于这里说的老派搜索是谁,奥特曼不说大家也知道。

这不,OpenAI推出SearchGPT的消息一出,隔壁“老派搜索”的代言人谷歌股价应声下跌3%。这可以说是雪上加霜了,在前一个交易日,谷歌刚刚因为发布财报股价下跌5%。一来二去,谷歌两个工作日市值蒸发超过1700亿美元。

不过这次SearchGPT的“惊喜”不止于此。很快,CNBC的一名科技记者就从OpenAI官方演示之中发现了数个错误。如问八月的音乐节,SearchGPT连甩好几个答案都是已经结束的六月、七月的音乐节。

AI产品初发布时不完美,这并不稀奇。但如此“低级”的错误对OpenAI来说并不常见。且不说SearchGPT该不该犯这样的错误,更让人匪夷所思的是,如此明显的事实错误,OpenAI的团队居然没有发现,还放进了演示中。

这不禁让人怀疑,OpenAI是不是有些心急?

从近日的另一则报道中也许可以窥见线索。就在SearchGPT被官宣的前一日,The Information发布了一篇报道,称OpenAI今年的亏损可能高达50亿美元。ChatGPT的付费订阅以及与企业间的合作,是目前OpenAI最主要的收入来源,很明显,这些收入不足以支撑其大步前行。

进军AI搜索,是OpenAI商业化的又一尝试。

不仅是OpenAI,从微软掏出新必应高喊要颠覆搜索,Perplexity这样的AI搜索初创公司成长为估值百亿美元的硅谷新星,到“千模大战”被高成本拖累后,越来越多的玩家盯上AI搜索,“搜索”一直是这波AI浪潮中令巨头和初创公司觊觎的肥肉。

在国内,搜索老玩家百度、360搜索、夸克等,都已经积极做了AI搜索改造,甚至推出单独的应用。新入局的字节豆包、Kimi也纷纷将AI搜索作为高亮功能,在7月上线浏览器插件,轻量化落地应用。

遥想ChatGPT带飞国内掀起千模大战,又有文生视频工具Sora引得国产大模型厂商竞逐“国产Sora”。如今OpenAI正式入局搜索,会不会再次带飞大洋彼岸的它们?

01

目前,SearchGPT还只是“原型”。据OpenAI发言人透露,SearchGPT由GPT-4驱动,目前只为10000人开放测试,广大用户可以在官网申请进入候选名单。

不过,OpenAI放出了若干演示动图和视频,可以一窥SearchGPT工作起来的样子。

直接观感来讲,可以看到SearchGPT的几个特点:对话式搜索、援引高质量信息源(如出版社和权威媒体)、图文并茂。

比如在一则演示中,用户搜索“2024年8月北卡罗来纳州布恩的音乐节”,SearchGPT会生成一个清单对结果进行陈列,每个音乐节配有其海报图片。在左侧,则会显示内容来源的链接。

字母榜(ID:wujicaijing)使用Perplexity做了同样的搜索,发现二者的展示逻辑基本一样:做AI概述,即用自然语言总结查询到的结果;与此同时,对内容源的链接做单独的集中展示。不过二者给出的结果(也就是有哪些音乐节)几乎都不一样,这个待会儿再说。

同时字母榜也用国内的豆包、Kimi、天工AI测试了这个问题的本土化版“2024年中国的音乐节”,其展示内容与逻辑与SearchGPT也是一样的。最明显的区别就是SearchGPT会同时展示海报,做到了图文并茂。

不过这种图文并茂也并不稀奇,谷歌此前上线的AI概述功能也能做到这一点。最近微软必应也开始小范围内测在传统搜索链接之上加上AI概述,显示效果也很不错。

从产品展示来看,SearchGPT并不是一个像Sora那样“遥遥领先”的家伙,但有几点值得注意。

第一是对信息源的重视。也许是被之前ChatGPT遭受的各种侵权争议搞怕了,OpenAI这次再三强调信息源的问题。在官宣博文中是这么说的:“山姆和OpenAI才华横溢的团队始终明白,AI驱动的搜索要想有效,就必须建立在可信来源提供的最高质量、最可靠的信息之上。”“技术和内容必须共生,信息来源必须得到保护。”

简单来说,OpenAI的SearchGPT的信息全部来自合作出版商的高质量资料,与训练ChatGPT所用的海量语料库隔绝。甚至即使有网站选择不参与ChatGPT的训练,也可以出现在搜索结果中。

除此之外,OpenAI接受出版商的反馈,且允许出版商管理其内容在SearchGPT中的显示方式。

相比于直接在ChatGPT基础上做AI搜索,这对OpenAI而言是一条成本更加高昂的路径。

除了OpenAI自身受到的指摘之外,谷歌此前的AI概述功能,一会儿建议用户在披萨里加胶水,一会儿让情绪低落的用户直接从金门大桥一跃而下,频频翻车,也为OpenAI提供了前车之鉴。

第二个值得注意的点是,OpenAI对SearchGPT未来的规划。

SearchGPT最终将会是ChatGPT的一部分。OpenAI还透露SearchGPT未来将提供“视觉化答案”,不过目前没有给出相关案例演示。大胆猜测,在目前已经有图片展示的情况下,OpenAI所说未来的“视觉化答案”,兴许会与其视频生成模型Sora相关。

02

OpenAI发布的产品并非总是完美。

还未发布就声名大噪的Sora,就时不时被揪出错误。比如日本网友发现Sora生成视频中,东京街头的日文招牌大多数并不准确,街景中也会出现不合常规的障碍物。再比如视频中的人和动物有时会出现物理错误,走路的人连续两次右脚在前、双腿交叉时发生变形、狗狗在跑动时出现神秘的“第五条腿”等等。

更别说OpenAI的招牌ChatGPT,到现在也没有完全攻克“AI幻觉”的难题。

但这些还都是一些该领域普遍面临的难题,不管是ChatGPT还是Sora的“出错”,彰显着它们远未达到完美,但依然掩盖不了其光芒。

但这一次,在SearchGPT发布后被发现的错误就显得有些“不OpenAI”。在前文提到针对“2024年8月北卡罗来纳州布恩的音乐节”的回答中,SearchGPT被发现提供的好几个音乐节都早已经结束。这也意味着SearchGPT“准确回答用户问题”的能力也许并不突出,以相同的问题询问Perplexity,其未出现类似错误。

更能说明问题的,是这样一个明显且初级的错误,被放置在了OpenAI官宣博文的演示当中。

这倒是更像谷歌会犯的错误——在这场如火如荼的AI浪潮的初期,被各方质疑速度太慢的谷歌慌乱之中推出ChatGPT的竞品Bard,却在演示视频中将天文望远镜“张冠李戴”,导致其市值两天蒸发近1700亿美元。

在被动之中心急,被认为是谷歌犯错的主要原因。那OpenAI呢?

就在SearchGPT被官宣的前一日,The Information发表了一篇“基于此前未披露的内部财务数据和业务相关人士的分析”的报道,估算OpenAI今年亏损可能高达50亿美元。

其中OpenAI今年的员工成本是15亿美元,而AI培训和推理成本今年可能达到70亿美元。另外The Information估计,今年OpenAI的收入在35亿美元到45亿美元之间。这个估算与之前媒体报道的奥特曼向员工透露的年化收入34亿美元相符合。

如果年亏损50亿美元的估算没有错,结合之前OpenAI已经烧掉了27亿美元,那么这意味着去年1月微软给的100亿美元离耗尽也不远了,OpenAI也许很快就需要开启新一轮融资。

另一边,OpenAI最有力的竞争者Anthropic,也在近日被报道今年将烧掉27亿美元。而它的运营效率还远低于OpenAI——此前该公司预计,到2024年年底,将创造8亿美元年收入,但由于其与亚马逊共享收入,扣除之后,Anthropic的年化收入可能还要减掉25%到50%。

AI烧钱,这是一个老生常谈的问题。但头部企业如OpenAI也面临收入难题,实在很难令人不对这个赛道捏一把汗。

OpenAI自然会有赚钱的焦虑。一方面是降本,OpenAI已经表示,通过新技术,已经大幅削减了AI模型的运行成本。而更加长远的打算,则是降低甚至摆脱对芯片供应商英伟达的依赖,为此奥特曼正在积极推进其自研芯片的“伟业”。

另外一方面自然是增加收入。在目前OpenAI的收入中,最主要的仍旧是ChatGPT的订阅收入,以及向开发者开放接口、与to B的企业合作带来的收入。

其中ChatGPT带来的年收入预估有20亿美元,但近来OpenAI允许不注册使用、向免费用户也开放使用的做法,使得数百万的免费用户增加其计算成本,又不产生任何额外的收入。而截至今年3月,应用程序编程接口API带来的月收入在8000万美元水平。

对于增加收入,OpenAI也有失败的尝试。奥特曼在其去年被赶下CEO之位前,曾宣布了“GPT商店”的宏图,被外界看作ChatGPT平台化的重要一步,对标苹果的App Store。但此举并未如期待般带来“生态繁荣”,而是搞了一地鸡毛,奇葩的、侵权的各类定制GPT层出不穷。据Sametime Web数据,今年2月GPTs访问量仅占ChatGPT网页端1.5%。

专为应用开发者做产品分析的公司Hintloop的创始人曾透露,在他分析的36000多个GPT商店的定制聊天机器人中,大约有5%每天有150到500个活跃用户,但是绝大多数每天只有一到两个用户。

03

不管各种产品与功能的最终结果如何,不可否认的是OpenAI的“带货能力”。

就以GPT商店为例,其消息在去年11月宣布,产品在今年1月正式上线,即刻引发各类公司的跟进,包括国内的一众AI玩家,已经有类似产品的赶紧升级,没有的就现捣鼓。

消息公布后的2023年12月,百度就将其“灵境矩阵”升级为“文心大模型智能体平台”。今年2月,字节跳动开发的AI Bot开发平台“扣子”上线。又过了两个月,4月,阿里钉钉上线AI助理市场。5月,月之暗面旗下大模型明星产品Kimi也新增了被称作“Kimi+”的功能,提供四大类共计24个Kimi+分身,适配用户的不同需求。

同样的情况在OpenAI今年2月官宣文生视频工具Sora之后也上演了。

最出圈的消息,当属今年2月Sora被官宣,9天之后,抖音CEO张楠就辞任该职务,转而亲自带队剪映,并称AI图像生成对她产生很大的触动,决定“放下一切”,义无反顾地出发。不久后,剪映“即梦”上线,支持文生视频和图生视频等。

不仅字节,快手在6月正式开放可灵AI。快手披露的数据显示,可灵大模型上线一个月,累计申请用户数50万以上,开通用户数30万以上,生成视频数700万。仅在今年上半年,定位文生视频的初创公司生数科技、爱诗科技等,就相继完成了多轮亿元级别的融资。

对于已经布局AI搜索的企业来说,OpenAI推出SearchGPT,无疑将是一个利好消息。

目前,搜索领域的老玩家如百度、360等早已尽数强化AI搜索,或翻新搜索引擎,或推出独立的新产品。搜索创始人王小川的AI创业公司百川智能同样推出“懂搜索”的百小应。

觊觎搜索许久的科技巨头再次发起尝试。腾讯有元宝APP,字节有豆包,阿里旗下的夸克如今也强调AI搜索,如今在苹果应用商店搜索夸克,“AI搜索”是明晃晃的C位。

这一波浪潮中崭露头角的AI公司自然也不会放过搜索,月之暗面的Kimi、昆仑万维的天工AI,以及秘塔AI搜索等等,都已悉数就位。

2019年时,谷歌搜索负责人本·戈麦斯(Ben Gomes)曾经忧心忡忡地在内部邮件中称,搜索“离钱太近了”,他担心“增长会是谷歌唯一考虑的事情”。

而如今,AI企业们正担心“离钱不够近”,搜索成为人人想偷的塔。

然而,“搜索离钱很近”大体是因为离广告很近。

如今的AI搜索们,则在宣传时高举“无广告搜索”之旗帜。就像OpenAI言称“老派搜索”指的只能是谷歌一样,“无广告搜索”针对的是谁大家也都明白。

房间里的大象仍然是商业化怎么搞,如果不用广告,AI搜索用什么赚钱?

不幸的是,目前没有人给出一个新颖的答案,更尴尬的是,“AI搜索”的探路者们已经开始想走谷歌的路。

微软新必应在去年2月发布,一个月之后,微软副总裁就称公司在探索在必应聊天过程中植入广告。今年4月,“谷歌杀手”Perplexity也向广告低头,而且不做“硬广”,专做软广——Perplexity的广告计划是从“相关问题”着手,将广告融入内容,而且是在用户深入某个话题时才会出现(越看越像竞价排名)。

在一些国内的AI搜索产品中,已经可以看出商业变现入口的可能性。如360AI搜索的网页版,首页搜索框下的提示语、大家正在搜、今日热搜以及右上角滚动提示等多个位置在向广告招手。

要知道,Preplexity在今年1月以5.2亿美元的估值完成了7360万美元的B轮融资,这也是今年互联网搜索初创企业筹集的最大一笔资金。同时据披露,Perplexity的月活用户已达千万,截至2023年已处理超过5亿个搜索请求,在手机上安装其APP的用户数也达到百万。微软自不必说,是总市值超过3万亿美元的科技巨头。

虽然GPT商店目前并未创造奇迹,可以称得上是OpenAI一次失败的尝试,但其平台思维、生态思维还是令AI玩家们看到了另一种变现可能。如今OpenAI入局搜索,从产品上来看可能并不会带来多少新意,人们更期待的,是它能回答微软、Perplexity都没能回答的问题:如果说搜索离钱很近,AI搜索究竟该怎么赚钱?

国内的AI搜索玩家已经就位,静待OpenAI用想象力煽动一阵风。

OpenAI大杀器SearchGPT横空出世,单挑谷歌千亿美元搜索帝国!

aigc阅读(46)

OpenAI,忽然深夜放大招了——

今天半夜,OpenAI宣布推出名为Search GPT的AI搜索引擎,正式狙击搜索霸主谷歌。

据《金融时报》称,OpenAI已准备好攻进谷歌1750亿美元的搜索业务市场。

奥特曼在X上官宣此消息,大胆直言:「当今的搜索功能还有改进空间」!

没等来GPT-4o的语音功能,但ChatGPT的更新先来了。

尝试过SearchGPT的奥特曼,对于自己的全新搜索非常满意,表示跟老式搜索相比,自己更喜欢这种方式。

甚至「我适应得如此之快,这让我感到震惊!」

更暴击的是,SearchGPT的优质功能还将集成到ChatGPT中。目前SearchGPT还未开放公测,仅有1万名用户被邀请,其余想加入内测的用户,还得在官网手动申请。

申请地址:https://chatgpt.com/search

好消息是,根据奥特曼的说法,alpha测试将于下周开始开放给付费用户。

网友直言,SearchGPT对Perplexity、谷歌、必应都是迎头重击,让游戏开始吧!

SearchGPT对Perplexity、谷歌、必应是一个重大打击,直接与它们的搜索服务竞争。

凭借其实时获取信息和与主要新闻机构的合作伙伴关系,SearchGPT准备颠覆搜索引擎市场

一、颠覆搜索,看来是真的

从官方放出的预览demo来看,似乎不仅仅是集成了实时网络信息,应该也包括类似于「多步推理」的功能。问:我周末何时能在半月湾看到裸腮类动物?对于包含如此具体时空细节的提问,谷歌是完全束手无策,给出的模糊答案看了就头疼。

SearchGPT则不跟你玩虚的,简单明快打直球,给出准确的时间点——

并且解释道,这类动物经常出现在潮间带和岸边岩石上,你应该在退潮时段去。

预测潮汐网站的参考链接,也贴心地附了出来。

更多的细节问题,也可以随口问它,比如那里天气如何?这周末半月湾的天气预测,就会一一给出。

同样的问题,Perplexity倒是给出了一系列相关小tips,但对于核心问题,它并没有给出有力的答案,只是含糊地推荐「退潮期」。

这一轮对决,谷歌和Perplexity是妥妥输了。

二、实时响应,多轮对话,取代搜索引擎

SearchGPT和谷歌搜索的体验,为何差距如此之大?OpenAI发言人Kayla Wood表示,目前SearchGPT的服务由GPT-4系列模型驱动, 采用类似ChatGPT的对话式界面和工作方式。

按照传统的搜索方式,用户在网络上检索时,往往需要多次搜索不同关键词,费时费力。

而SearchGPT颠覆了传统的搜索模式,只需像真人对话一样,表达自己的搜索诉求,即可获得实时响应,而且支持多轮对话。

以实时信息为基础,借助AI的理解推理和总结能力,找到想要的内容so easy。

跟传统搜索相比,SearchGPT的优化主要体现在两个方面:

其一,搜索结果更快速准确,充分发挥LLM的文本能力。

显然,对比基于关键词搜索的传统搜索引擎,AI搜索在理解问题和汇总信息方面有着显著的优势。

比如在搜索框内输入「八月份在北卡罗莱纳周Boone地区的音乐节」。

SearchGPT瞬间把几个相关的音乐节排列得清清楚楚,点击左侧边栏的链接按钮,还可以看到信息的来源,一键跳转买票。

而且,SearchGPT会为你提供指向相关来源的清晰链接。

2024巴黎奥运会什么时候举行?法国准备得怎么样了?它会援引路透社的报道

根据《连线》杂志的推测,SearchGPT很可能使用了检索增强生成(RAG)方法来减少回答中的幻觉,提高可信度并生成内容来源。

其二,不但能搜索结果,还能就一个细节和延申话题继续对话。

你一定有这样的体验,在搜索过程中会产生一些相关的新问题时,只能另起窗口接着搜,浏览器中开出十多个页面变成了工作日常。

传统搜索引擎就属于单次性搜索产品,检索完一个问题就结束。

而AI搜索附带有生成和对话的能力,每次查询都共享同一个上下文,让用户可以丝滑地继续话题。

最近用过ChatGPT的人,对这种体验一定不陌生。

比如它出了一些西红柿品种后,我们可以继续问:哪些是现在可以种的?

它会详细列出,在七月的明尼苏达州最适合种植的西红柿。

再比如,经过上一轮的搜索,你对Jones House比较感兴趣,就可以直接继续提问,「Jones House适合全家一起去看吗?」

SearchGPT也秒回,「是的,Jones House免费且向公众开放,适合所有年龄段,一家人可以带一块毯子在草坪上享受音乐盛宴。」繁琐的音乐节做功课、看细节和买票等等全在SearchGPT一站式搞定,快速便捷又省心。

这种贴心高效的搜索体验,让人感慨OpenAI果然是最懂用户心的公司,把产品做到了极致。

三、谷歌危了?

而谷歌、Perplexity等搜索巨头们,接下来恐怕不好过了。

奥特曼所言的「搜索功能有改进的空间」,嘲讽意味拉满,内涵的对象自不必多说。

当然,OpenAI也同样瞄准了在AI搜索领域打天下的Perplexity AI。

OpenAI的目标是,最终将AI搜索功能重新整合到旗舰聊天机器人中。

此举是OpenAI挑战谷歌,做出的最新努力。不言而喻,OpenAI在打造强大的AI聊天机器人的早期竞赛中一直处于领先地位。

而在过去20年,谷歌一直在在线搜索领域占据主导地位。

截止6月,谷歌在全球搜索引擎市场中占到了91.05%的份额。微软必应只有3.7%的份额,而Pplexity的份额太低,无法衡量。

不甘落后的谷歌也在过去两年里,尝试将AI植入搜索引擎当中,并在去年带来了1750亿美元的收入,占总销售额一半以上。

与此同时,AI超进化为包括Perplexity在内的竞争对手,开辟了新道路。

这家成立仅两年的初创,专注于一件事「回答引擎」,现估值飙升至10亿美元。

不过,谷歌「一家独大」格局、AI初创单点布局,正在面临被OpenAI颠覆的危险,OpenAI的帖子和博客发出后,谷歌母公司Alphabet的股价也变成了绿油油的一片。

事实上,谷歌在5月召开的I/O大会上就已经抢先OpenAI,发布了自己的AI搜索功能。

当天,CEO劈柴本人站台,自信满满地表示,要用Gemini的AI能力重塑搜索!

后来发生的事情我们都知道了——上线的AI Overview效果过于惨烈,「吃石头」、「披萨涂胶水」等各种翻车案例频发,被全网找乐子。

或许像SearchGPT这样先发布内测,再逐步开放,可以更好地把控产品的质量和口碑。

但也有网友担心,OpenAI又会再次放所有人的鸽子,SearchGPT的上线依旧遥遥无期。

Mistral和Meta: 发模型!
OpenAI:发博客!

四、与出版商和创作者合作

OpenAI表示,SeachGPT不仅仅是搜索,而且致力于打造更佳的用户与出版商和创作者互动体验。

一直以来,搜索引擎一直是出版商和创作者接触用户的主要方式。

现在,利用AI的对话界面,可以帮助用户更快找到理想的高质量内容,并提供多种互动机会。

搜索结果中会包含清晰的内容来源和链接,用户也可以在侧边栏中快速访问更多带有源链接的结果。

News Corp首席执行官Robert Thomson表示,奥特曼和其他OpenAI领导人都认为,任何人工智能驱动的搜索都必须依赖于「由可信来源提供的最高质量、最可靠的信息」。

OpenAI还在博客中特意声明,搜索结果与GenAI模型的训练是分开的。即使不向OpenAI提供训练数据,相关内容也会出现在SearchGPT中。

最近一段时间,OpenAI与多家顶级出版商建立了合作,包括《大西洋月刊》、美联社和Business Insider的母公司Axel Springer,似乎也包括下辖《华尔街日报》、《泰晤士报》、《太阳报》的媒体巨头News Corp。

OpenAI代表向这些出版商展示了搜索功能的原型,并表示,他们可以自行选择内容来源在SerchGPT中的呈现方式。

OpenAI这种谨慎的合作态度似乎是吸取了前段时间的教训,有意规避风险。

上个月,Perplexity在搜索结果中使用了《福布斯》的一篇报道,但没有准确注明来源,直到页面底部才提及。

结果,Perplexity的CEO直接收到了《福布斯》的信函,声称要对这种侵权行为采取法律行动。

由于最近普遍的流量下降趋势,以及AI对内容行业的冲击,出版商对AI重塑新闻的方式越来越感到不安。

他们普遍担心,OpenAI或谷歌的AI搜索工具将根据原始新闻内容提供完整的答案,让用户无需阅读原始文章,进而造成在线流量和广告收入的锐减。

许多出版商都认为,向科技巨头们出售其知识产权的访问权是有价值的,因为他们需要大量数据和内容来完善其人工智能系统并创建SearchGPT等新产品。

或许,从OpenAI与媒体的合作中,我们可以推知它如此急于开展搜索业务的原因。

根据The Information本周的报道,OpenAI正在陷入财务风暴,今年的亏损可能高达50亿美元。

恰好,搜索是一项极其吸金的业务。除了可以与媒体、出版商合作,还有机会通过广告盈利。

财报显示,谷歌搜索业务仅今年第一季度的收入就达到了460亿美元。

有如此丰厚的利润前景,或许奥特曼不会舍得让SearchGPT像Sora和《Her》那样一直鸽下去。

参考资料:

https://openai.com/index/searchgpt-prototype/

https://www.ft.com/content/16c56117-a4f4-45d6-8c7b-3ef80d17d254

横店,到底相不相信AI?

aigc阅读(45)

横店,一个被竖屏短剧占领的地方,正在被AI分成两半。

一半是对AI兴趣缺缺的短剧制造者们。

在横店的各种拍摄招募信息中,周期为3~7天的项目占去了大部分的版面,数不清的演员、导演、摄影师、化妆师组成了稳定的生产流水线,把扇巴掌、下跪、撒钞票这些程序化的情节组合在一起,源源不断地制造出霸屏抖快的土味短剧。

“99%的短剧都是实拍。”在7月的一场活动中,快手文娱业务负责人陈弋弋说道。

另一半,则是用AI把短剧投流价格打下来的“短剧推手”。

“三分剧、七分投。”一般而言,短剧的投流成本占总成本高达80%~90%,也是决定短剧生死的关键。

以前,一个剪辑手每天的工资几百元,能剪出大概30条~100 条信息流素材;投流手负责拿这些素材,一遍遍地买量做测试,单个短剧需要测试1~2天,找到最佳投放方式。

而现在,有人开始借助AI一键搞定剪辑投流了。

不仅传统投流公司正在尝试AI化,还有基于AI的新型投流公司,已经开始与短剧方合作,进入商业化验证了,例如AI剪辑投流星空智能,正与短剧方以达人CPS分成的方式合作分发短剧。

投放速度的提升,意味着AI素材能够抢先一步占据流量,率先完成从用户观看到用户付费的过程。

AI在短剧的生产和投流端,为什么会产生一冷一热的差异?AI对投流端的改变,会让暴利的短剧更暴利吗?

一、A面:制作方7天一部剧,没时间吃AI的大饼

在网文和影视发展了几十年的工业化生产能力之上,短剧生产在五年之内就达到了成熟期。在很多制作方眼中,严丝合缝的短剧生产链条,已经没有留给AI的空间了。

例如,从这条产业链的起点,也是剧本的环节来看,表面上,短剧剧本的底层逻辑就是公式化的套路,也应该是大模型的舒适区。目前,市面上确实也出现了大量的AI写作类产品,例如,蛙蛙写作、WriteWise(喜马拉雅旗下网文和小说AI写作工具)等等。

但在整个短剧商业模式中,短剧的内容恰恰是最不重要的。一直以来,短剧方的制作逻辑,都是买足够多的剧本,拍足够多的剧,赌其中出现爆款的概率。

在内容数量上,像九州这类短剧平台,本身就有写手团队、编辑团队,能够以超低的成本囤积短剧。一个短剧的总制作成本在30万~100万元之间,大平台的普遍剧本报价在1万~3万元之间,小平台的剧本报价可能只有几千元,AI没有价格优势反而增加学习成本。

剧本并不稀缺,稀缺的是好剧本,但好剧本却很难定义。

之所以短剧会形成赌概率的机制,恰恰是因为在抖音、快手的算法机制之下,爆款的方法论并没有一套通用的公式。

相比于去钻研捉摸不透的用户心理和算法黑盒,短剧制作方更实际的做法,是在大力出奇迹的基础之上,找一个经常出爆款的编剧,赌更大的概率,或者在一个题材的影视剧、短剧、电影爆火后,迅速扒稿、拍摄、投放,直接模仿刚刚被验证过的成功路径。

例如,今年春节,贾玲导演的电影《热辣滚烫》热映之际,短剧公司迅速推出《热辣滚烫之华丽变身》,还有靠撞名“吸食”流量大盘的《乘风破浪的婚姻》之于《乘风破浪的姐姐》,《与凤行之战神妈妈不装了》之于《与凤行》等等……

紧接着,为了赌概率,就要扩大短剧产能,在短剧拍摄的环节, 最重要的就是速度快,在这一点上,目前的AI技术完全跟不上人类。

一个很明显的对比是:闲人一坤的《山海奇镜》15分钟用了半年的时间来制作;而一个横店短剧的拍摄周期已经从2周,压缩到了7天,甚至是3天、1天,可能剧组人员还没记住彼此,一天拍完,剧组就解散了。他们没必要也不愿意花时间去探索如何用AI取代传统拍摄。

哪怕一时爆火的AI换脸短剧出海,在成本和时效性上碾压了原生海外短剧,由于用户不买单,也很快归于沉寂,这也是短剧行业的另一个特性——向钱看齐。

相比找海外演员拍摄的近30万美元制作成本,用AI换脸的全流程的制作费用只需要数万元,成本降了5倍。

但是最终效果没能经住市场的验证。由于AI换脸技术有大量的微表情瑕疵,导致最终换脸短剧的用户留存率和付费率很低。TikTok for Business发布的《2024短剧出海营销白皮书》中提到,在内容剧目上,本土原创剧和翻译剧并行,但爆款剧目主要集中在本土原创剧。

这也意味着,尽管短剧对于演员的演技要求和电视剧和电影不同,可以粗糙、荒诞,但要足够直接,保证快节奏、情绪化,信息密度高,而AI视频当前最擅长的,却是空镜和慢镜头。

人物表演,也是当前AI制作的一大痛点。闲人一坤在探索AIGC作品的过程中就发现,“通过文生图、图生视频的方法,已经能够让AI视频在动作一致性、场景一致性上可控了,但是动作幅度和人物表演还需要加强。”用户看复仇酸爽短剧的目的,往往是为了代入自己,AI味十足的假人只会让人出戏。

为了规避人物表演的问题,最近密集上线的AI 短剧《山海奇镜》《三星堆:未来启示录》《奇幻专卖店》等等,都是非真实画面的玄幻、科幻题材,更强调想象力的展示、视觉效果的震撼,适合AI生成来展示。

从整个生产链的各个环节来看,在横店高速运转的机制下,追求短、平、快的短剧制作方们压根没空理AI。

二、B面:AI剪辑投流,比人快10倍不止

拍短剧的人对AI兴趣寥寥,但分发短剧的人,已经开始进入AI探索阶段了。

毕竟,对短剧来说,投流定生死,在付费和CPS短剧中,投流消耗的数量基本就反映了短剧的营收。所以短剧喜报除了公布自己充值金额、分账金额,更常用的统计维度其实是消耗,即广告投流花了多少钱。

这是因为在投流的过程中,只要达到了设定预设的ROI,投手就会一直买流量,冲击更高的付费。粗略计算,以ROI 1.2为例,这意味着一部短剧想要收入120元的用户付费,就要投入100元的买量成本。如果一部剧的总消耗低于100万,意味着收入低于120万,投流利润低于20万,就连制作成本也没有覆盖下来。

不过,短剧投流作为短剧行业中成本最高的环节,也是当下行业最大的痛点。

从宏观数据来看,随着短剧方增多,短剧大盘流量增速放缓,买量的价格越来越高,付费量越来越难拿到。

数据显示,大盘投流规模已经开始萎缩了。7月10日,DataEye研究院发布了上半年的微短剧投流数据报告,预计2024年全年微短剧投流规模在250亿-300亿元水平,而在年初,这一数据预估还是420亿元,甚至低于2023年312亿元的投流规模,报告中提到主要原因是行业竞争快速加速、盗版影响,以及监管趋严三个原因。

短剧本身就是一个流量生意。而投流高度依赖分发平台的算法黑盒,投流方只能不断地做广告素材测试,把钱投进平台的口袋。

在这个过程中,主要是剪辑手和投流手的配合。剪辑手负责根据爽点、卡点,源源不断地生产短剧片段素材,而投手负责根据这些素材的类型,配置相应的投放计划,例如选择哪个广告账户、投给什么人群、什么时间投放,并通过实时的投放反馈,调整投放素材和计划。

举个例子,投手先通投100块,分析出了主要受众是50岁中年女性,然后根据自身经验判断出,这类人群喜欢看伦理纠纷,于是和剪辑手交流,调整素材的侧重点,将全剧中最能突出婆媳等家庭关系的戏份剪进素材,再去投一轮广告,根据数据反馈,优化出最佳投放模型。

从投手再到剪辑手再到市场验证的一整个链式反应,只需要一轮一轮地测试,没有太高的壁垒。

特别是因为投流需要垫钱,为了扩大传播量,短剧方往往希望有尽可能多的人参与到分发的过程中,所以市场上,大大小小的投流公司甚至个人分发“散户”都很多。

由此,投放又会变成一场速度比拼,比拼谁能更早地测出来、更快地抢到付费用户。

在竞速赛之下,投流方的素材生产压力越来越大。去年年底,一位短剧投流负责人提到,“投流业务本身利润就很低,现在一个素材可能3天就跑废了,我们的剪辑手每天生产的素材有限,如果想要增加素材产量,又要额外招人,但靠人力来堆,就没有规模化效应了。”

而这些问题,AI恰好都能解决了。

据一位AI智能剪辑投放的创业者孙志鹏介绍,目前他们已经跑通了基于多个大模型组合的AI剪辑投放流程,开始和2个短剧方做分发合作了。

AI剪辑投放的逻辑,大致是先用AI的多模态识别能力分析短剧内容,批量剪辑出1分钟左右的短剧素材,在分发的过程中,通过接入抖音等平台的API,让AI根据实时的投放效果,重新理解市场需求,调整新一轮的素材剪辑方式,然后不断循环,直到找到最佳的素材和投放的合作模式。

“和以前的算法只能分析数据不一样,现在的多模态模型,能够把画面数据、字幕文本数据、声音数据以及投放数据拉到一个参数维度上去比较,甚至能比人分析出的维度更多。”孙志鹏说道。

在这个过程中,大模型能够理解、剪辑短剧,也能够分析数据,自主学习如何调整素材效果,相当于把投手和剪辑师连在了一起。

“之前,都是一个投手配4、5个剪辑师,前两天频繁地开会讨论、做测试,4~5个小时测一组;而以现在的逻辑,AI全自动的一个小时就可以测几十组,然后不断迭代。”他说道。

尽管AI在单个任务上的生成能力可能还无法比人更好,但在处理人力密集型的可迭代的流水线作业时,却很有优势。

AI确实还没有颠覆短剧行业,但已经开始慢慢改变游戏规则了。