欢迎光临
我们一直在努力

横店,到底相不相信AI?

aigc阅读(49)

横店,一个被竖屏短剧占领的地方,正在被AI分成两半。

一半是对AI兴趣缺缺的短剧制造者们。

在横店的各种拍摄招募信息中,周期为3~7天的项目占去了大部分的版面,数不清的演员、导演、摄影师、化妆师组成了稳定的生产流水线,把扇巴掌、下跪、撒钞票这些程序化的情节组合在一起,源源不断地制造出霸屏抖快的土味短剧。

“99%的短剧都是实拍。”在7月的一场活动中,快手文娱业务负责人陈弋弋说道。

另一半,则是用AI把短剧投流价格打下来的“短剧推手”。

“三分剧、七分投。”一般而言,短剧的投流成本占总成本高达80%~90%,也是决定短剧生死的关键。

以前,一个剪辑手每天的工资几百元,能剪出大概30条~100 条信息流素材;投流手负责拿这些素材,一遍遍地买量做测试,单个短剧需要测试1~2天,找到最佳投放方式。

而现在,有人开始借助AI一键搞定剪辑投流了。

不仅传统投流公司正在尝试AI化,还有基于AI的新型投流公司,已经开始与短剧方合作,进入商业化验证了,例如AI剪辑投流星空智能,正与短剧方以达人CPS分成的方式合作分发短剧。

投放速度的提升,意味着AI素材能够抢先一步占据流量,率先完成从用户观看到用户付费的过程。

AI在短剧的生产和投流端,为什么会产生一冷一热的差异?AI对投流端的改变,会让暴利的短剧更暴利吗?

一、A面:制作方7天一部剧,没时间吃AI的大饼

在网文和影视发展了几十年的工业化生产能力之上,短剧生产在五年之内就达到了成熟期。在很多制作方眼中,严丝合缝的短剧生产链条,已经没有留给AI的空间了。

例如,从这条产业链的起点,也是剧本的环节来看,表面上,短剧剧本的底层逻辑就是公式化的套路,也应该是大模型的舒适区。目前,市面上确实也出现了大量的AI写作类产品,例如,蛙蛙写作、WriteWise(喜马拉雅旗下网文和小说AI写作工具)等等。

但在整个短剧商业模式中,短剧的内容恰恰是最不重要的。一直以来,短剧方的制作逻辑,都是买足够多的剧本,拍足够多的剧,赌其中出现爆款的概率。

在内容数量上,像九州这类短剧平台,本身就有写手团队、编辑团队,能够以超低的成本囤积短剧。一个短剧的总制作成本在30万~100万元之间,大平台的普遍剧本报价在1万~3万元之间,小平台的剧本报价可能只有几千元,AI没有价格优势反而增加学习成本。

剧本并不稀缺,稀缺的是好剧本,但好剧本却很难定义。

之所以短剧会形成赌概率的机制,恰恰是因为在抖音、快手的算法机制之下,爆款的方法论并没有一套通用的公式。

相比于去钻研捉摸不透的用户心理和算法黑盒,短剧制作方更实际的做法,是在大力出奇迹的基础之上,找一个经常出爆款的编剧,赌更大的概率,或者在一个题材的影视剧、短剧、电影爆火后,迅速扒稿、拍摄、投放,直接模仿刚刚被验证过的成功路径。

例如,今年春节,贾玲导演的电影《热辣滚烫》热映之际,短剧公司迅速推出《热辣滚烫之华丽变身》,还有靠撞名“吸食”流量大盘的《乘风破浪的婚姻》之于《乘风破浪的姐姐》,《与凤行之战神妈妈不装了》之于《与凤行》等等……

紧接着,为了赌概率,就要扩大短剧产能,在短剧拍摄的环节, 最重要的就是速度快,在这一点上,目前的AI技术完全跟不上人类。

一个很明显的对比是:闲人一坤的《山海奇镜》15分钟用了半年的时间来制作;而一个横店短剧的拍摄周期已经从2周,压缩到了7天,甚至是3天、1天,可能剧组人员还没记住彼此,一天拍完,剧组就解散了。他们没必要也不愿意花时间去探索如何用AI取代传统拍摄。

哪怕一时爆火的AI换脸短剧出海,在成本和时效性上碾压了原生海外短剧,由于用户不买单,也很快归于沉寂,这也是短剧行业的另一个特性——向钱看齐。

相比找海外演员拍摄的近30万美元制作成本,用AI换脸的全流程的制作费用只需要数万元,成本降了5倍。

但是最终效果没能经住市场的验证。由于AI换脸技术有大量的微表情瑕疵,导致最终换脸短剧的用户留存率和付费率很低。TikTok for Business发布的《2024短剧出海营销白皮书》中提到,在内容剧目上,本土原创剧和翻译剧并行,但爆款剧目主要集中在本土原创剧。

这也意味着,尽管短剧对于演员的演技要求和电视剧和电影不同,可以粗糙、荒诞,但要足够直接,保证快节奏、情绪化,信息密度高,而AI视频当前最擅长的,却是空镜和慢镜头。

人物表演,也是当前AI制作的一大痛点。闲人一坤在探索AIGC作品的过程中就发现,“通过文生图、图生视频的方法,已经能够让AI视频在动作一致性、场景一致性上可控了,但是动作幅度和人物表演还需要加强。”用户看复仇酸爽短剧的目的,往往是为了代入自己,AI味十足的假人只会让人出戏。

为了规避人物表演的问题,最近密集上线的AI 短剧《山海奇镜》《三星堆:未来启示录》《奇幻专卖店》等等,都是非真实画面的玄幻、科幻题材,更强调想象力的展示、视觉效果的震撼,适合AI生成来展示。

从整个生产链的各个环节来看,在横店高速运转的机制下,追求短、平、快的短剧制作方们压根没空理AI。

二、B面:AI剪辑投流,比人快10倍不止

拍短剧的人对AI兴趣寥寥,但分发短剧的人,已经开始进入AI探索阶段了。

毕竟,对短剧来说,投流定生死,在付费和CPS短剧中,投流消耗的数量基本就反映了短剧的营收。所以短剧喜报除了公布自己充值金额、分账金额,更常用的统计维度其实是消耗,即广告投流花了多少钱。

这是因为在投流的过程中,只要达到了设定预设的ROI,投手就会一直买流量,冲击更高的付费。粗略计算,以ROI 1.2为例,这意味着一部短剧想要收入120元的用户付费,就要投入100元的买量成本。如果一部剧的总消耗低于100万,意味着收入低于120万,投流利润低于20万,就连制作成本也没有覆盖下来。

不过,短剧投流作为短剧行业中成本最高的环节,也是当下行业最大的痛点。

从宏观数据来看,随着短剧方增多,短剧大盘流量增速放缓,买量的价格越来越高,付费量越来越难拿到。

数据显示,大盘投流规模已经开始萎缩了。7月10日,DataEye研究院发布了上半年的微短剧投流数据报告,预计2024年全年微短剧投流规模在250亿-300亿元水平,而在年初,这一数据预估还是420亿元,甚至低于2023年312亿元的投流规模,报告中提到主要原因是行业竞争快速加速、盗版影响,以及监管趋严三个原因。

短剧本身就是一个流量生意。而投流高度依赖分发平台的算法黑盒,投流方只能不断地做广告素材测试,把钱投进平台的口袋。

在这个过程中,主要是剪辑手和投流手的配合。剪辑手负责根据爽点、卡点,源源不断地生产短剧片段素材,而投手负责根据这些素材的类型,配置相应的投放计划,例如选择哪个广告账户、投给什么人群、什么时间投放,并通过实时的投放反馈,调整投放素材和计划。

举个例子,投手先通投100块,分析出了主要受众是50岁中年女性,然后根据自身经验判断出,这类人群喜欢看伦理纠纷,于是和剪辑手交流,调整素材的侧重点,将全剧中最能突出婆媳等家庭关系的戏份剪进素材,再去投一轮广告,根据数据反馈,优化出最佳投放模型。

从投手再到剪辑手再到市场验证的一整个链式反应,只需要一轮一轮地测试,没有太高的壁垒。

特别是因为投流需要垫钱,为了扩大传播量,短剧方往往希望有尽可能多的人参与到分发的过程中,所以市场上,大大小小的投流公司甚至个人分发“散户”都很多。

由此,投放又会变成一场速度比拼,比拼谁能更早地测出来、更快地抢到付费用户。

在竞速赛之下,投流方的素材生产压力越来越大。去年年底,一位短剧投流负责人提到,“投流业务本身利润就很低,现在一个素材可能3天就跑废了,我们的剪辑手每天生产的素材有限,如果想要增加素材产量,又要额外招人,但靠人力来堆,就没有规模化效应了。”

而这些问题,AI恰好都能解决了。

据一位AI智能剪辑投放的创业者孙志鹏介绍,目前他们已经跑通了基于多个大模型组合的AI剪辑投放流程,开始和2个短剧方做分发合作了。

AI剪辑投放的逻辑,大致是先用AI的多模态识别能力分析短剧内容,批量剪辑出1分钟左右的短剧素材,在分发的过程中,通过接入抖音等平台的API,让AI根据实时的投放效果,重新理解市场需求,调整新一轮的素材剪辑方式,然后不断循环,直到找到最佳的素材和投放的合作模式。

“和以前的算法只能分析数据不一样,现在的多模态模型,能够把画面数据、字幕文本数据、声音数据以及投放数据拉到一个参数维度上去比较,甚至能比人分析出的维度更多。”孙志鹏说道。

在这个过程中,大模型能够理解、剪辑短剧,也能够分析数据,自主学习如何调整素材效果,相当于把投手和剪辑师连在了一起。

“之前,都是一个投手配4、5个剪辑师,前两天频繁地开会讨论、做测试,4~5个小时测一组;而以现在的逻辑,AI全自动的一个小时就可以测几十组,然后不断迭代。”他说道。

尽管AI在单个任务上的生成能力可能还无法比人更好,但在处理人力密集型的可迭代的流水线作业时,却很有优势。

AI确实还没有颠覆短剧行业,但已经开始慢慢改变游戏规则了。

Midjourney 商业画布深度分析

aigc阅读(40)

Midjourney 是一个 AI 图像生成工具,使用的底层技术是 Stable Diffusion,用户可以在无需高级技术技能的情况下创建独特且高质量的图像,生成图片艺术效果非常出色,目前已被广告商和艺术家应用。

Midjourney 不是软件,也不需要安装,它是一个依托于 Discord(一款国外聊天社区)之下的工具,只可在 Discord 中进入,通过添加 Midjourney 工具机器人,输入文字对话即可,目前已经迭代至 V6 版本(2023年12月发布的 V6)。

一、公司基本信息

Midjourney 公司是在2021年8月成立的,由位于美国旧金山的独立研究室 Midtrivey 开发,在2022年7月开启公测,公司在推出仅六个月后就实现了盈利。

这家公司成名之时,团队仅有11名全职人员,并且其中8名都是还没毕业的本科生,没有投资者、没有真正的经济动机,没有销售什么产品或成为上市公司的压力,他们只是想做一些酷的事情,却在短短一年内实现1亿美元营收。

2023年底相关信息,团队成员已经扩大至40名。

其官网地址:https://docs.midjourney.com/ 。

其官网上的自我介绍:Midjourney 是一个独立的研究实验室,探索新的思维媒介,拓展人类的想象力。我们是一个自筹资金的小团队,专注于设计、人类基础设施和人工智能。

可以看出这家公司的经营理念:不融资,不追求团队规模,更关注公司盈利能力,保持小规模运营,保持强独立性。Midjourney 其实是一个实验室,不需要向任何人解释业务是什么,就可以有足够的钱来做研究。所以它没有选择风投创业,而是选择针对一个问题,找到调研的目标和方法,在一群人身上测试,最终并对提供的东西收费。

二、创始人相关信息

Midjourney 的创始人兼 CEO 是 David Holz,其高中时期,曾从事设计业务,大学时,读了物理和数学专业,在 NASA 和 Max Planck 工作期间攻读了流体力学博士学位,2011年,创办VR领域的软硬件公司 Leap Motion,2021年自筹资金创办了独立研究室 Midjourney。

David Holz 在其相关访谈中谈到的一些个人观念[1]:

Holz 认为,技术的最大限制不是规模、成本或速度,而是我们如何与之互动。不管我们有多聪明,技术有多好,我们如何合作从根本上决定了我们能做什么。这也是当初 Leap Motion 的使命。

Holz 不喜欢用 AI 生成假照片的想法,因为感觉这个世界上并不缺这样的东西,但更愿意让其作为商业插图。《经济学人》在去年六月份的杂志封面就用了 Midjourney 生成的图片。

Holz 认为,AI 工具可以让艺术家在他们所做的事情上做得更好,而不是让每个人都成为专业艺术家。Midjourney 其实并不是仅是为专业艺术家制作的,重要的是要强调这与艺术无关。这是关于想象力。想象力有时用于艺术,但通常不仅用于艺术。

Holz 认为 Midjourney 最大的挑战是,虽然他们愿意制作多种产品,但挑战在于产品不仅仅是一组功能,而且还是一个社区、一个品牌和一个愿景。因为很难花一大笔钱从中购买六个未来愿景和六种不同类型的社区和产品。

但 Holz 也坦诚还没有想出一种方法来扩展它 —— 但他知道,每个产品公司基本上都不会尝试一次生产 10 种产品,比如 Apple 的产品线就极其精简。

当计算机比 99% 的人类更善于视觉想象时,这意味着什么?

这并不意味着我们将停止想象。

汽车比人类快,但这并不意味着我们停止步行。当我们远距离运输大量物品时,我们需要发动机,无论是飞机、轮船还是汽车。我们将这项技术视为想象力的引擎。所以这是一个非常积极和人性化的事情。

关于 Midjourney 的愿景,他希望能以某种方式创造一个更有想象力的世界。因为今天世界最大的问题是信仰崩溃,包括对自己的,对未来的信念。而造成这种问题的主要原因那就是缺乏想象力,缺乏自己可以成为什么人的想象力,缺乏对未来的想象力。所以想象力才是我们在世界上所需要的东西的重要支柱。所以我想通过 Midjourney 来将其变成一种可以「扩展人类想象力的力量」将用户置于充满想象力的环境中,可以改变他们对自己和他们能做什么的信念。

我从 Leap 中吸取了很多经验教训,那就是不要试图一上来就设计一个完整的体验,假设你可以看到未来的10步,只做一堆东西,看看什么很酷,什么人们喜欢。然后就找到最酷的三件事,把他们放在一起,这样就能发挥更大的协同效应。

我们 logo 是一艘小帆船,我们是在乘船旅行中。Midjourney 的体验是一个聊天机器人在一个有多人的环境中,而不是试图成为一个人。

水是危险的,但它也是文明的驱动力,作为知道如何与水一起生活和共事的人,我们相处得更好。这是一个机会。它没有意志,没有恶意,是的,你可能淹死在里面,但这并不意味着我们应该禁止水。当你发现一个新的水源时,这真的是一件好事。

三、Midjourney 的商业模式

1. 运营模式

Midjourney 的组织结构与很多创业企业模式有显著差异。以最少的管理层和小型独立团队为特征,这种结构促进了敏捷性和创新。简化的方法使决策更快速,更能够对市场变化和用户反馈做出响应。这种组织模式还反映了对保持紧密协作环境的承诺,团队成员的每一项贡献都直接关联到公司的整体成功。这是一种支持自主权并鼓励创造性解决问题的结构,在 AI 和技术快节奏的世界中至关重要。

外部顾问在 Midjourney 中的角色是其组织战略的另一个关键方面。公司不依赖于传统的董事会,而是依靠一群经验丰富的顾问网络。这包括提供战略指导的人工智能投资者和行业资深人士,没有传统公司董事会的形式和约束。这种咨询模式使 Midjourney 能够从多元化的观点和专业知识中受益,同时保持其独立性和敏捷性。

2. 其与 Discord 的合作关系

最初创始团队使用 Discord 是因为用其远程协作办公,当时构建引入一个机器人帮助调试系统,在调试过程中大家做了 AI 生成图片,觉得很有趣,然后就开放给用户,每个人都很喜欢,也看到人们实时交流想法,创造了富有想象力的环境。于是他们选择直接搭载在 Discord 社区中,这使 Midjourney 具有了社交属性。

Midjourney 已经成为了有史以来最大的聊天机器人程序。Holz 说,许多聊天机器人都有一个误区,就是想成为人。我们设计 bot 的时候想的是,这是一辆车,所有人都应该坐在这辆车上,这样的大家就能看到所有的风景了 —— 没有人和机器的对话,只有人和人的对话。所以从这个视角来看,Midjourney 的机器人只是某种协作的命令行、搜索或者空间而已。

这种设计思路,始终能让房间内有一个主题,而不会演变成某种肆意闲聊,大家的注意力都会隔一阵被生成的图片所吸引。同时也能让新来的人更好地了解产品。因为他不需要问「我该怎么做」,他只需要像所有人类具有的学习能力一样,坐下来静静观察一下,然后动手尝试,就能慢慢地掌握相关的技巧。这就像单纯让一个人生成一张「狗」的图片,并不兴奋,但是让一群人待在一起,不断生成「太空狗」「激光狗」等等,就能相互激发创造力,这样也就构建了一个富有想象力的环境,也能增强人们的想象力。

Midjourney 的 Discord 服务器中,45 岁的人和 18 岁的人一样多,年长的人由于有更多的经验和词汇,更倾向于文字描述,而年轻人更喜欢用图生成图。所以最重要的是有想法,然后去测试想法, 但不带有强烈的观点,否则你将看不到事情的本质。事实上,构建产品最重要的部分,就是对想要发现的事物本质,保持开放的态度。

3. 收费模式

其收费模式很简单,就是采用订阅使用的模式,分四种,价格10-120美元/月。以下为官网价格截图。

4. 成本分析

尽管 Midjourney 是一家使用云服务的软件公司,但由于需要大量投资于基础设施以支持数百万人使用的积极训练的AI服务,它仍然依赖资产密集型模式。

除了支持其小团队外,Midjourney 最大的开支可能主要分为三类:数据收集、数据清洗和训练,以及服务器成本[2]。

1. 数据收集(网络爬取):构建和运行高效的网络爬虫可能很昂贵,有些服务每小时收费约3.33美元。假设 Midjourney 只爬取了一周的互联网照片,大约20亿张照片,每张照片只需要10毫秒来爬取。这将导致约55,000小时的爬取,以每小时3.33美元计算,仅为收集一周的照片可能需要花费大约185,000美元。这还不包括支付代理以防止 IP 阻止,因为许多网站会自动阻止大规模网络爬取,也不包括专门用于运行数据收集过程的服务器成本。

2. 数据清洗与训练神经网络:一旦数据收集完毕,仍需进行清洗。还需考虑使用大型数据集训练扩散模型的服务器成本。例如,在 Google Cloud 上训练小规模的生成对抗网络(General Adversarial Network)或旧方法生成式人工智能图像,每月成本可在2.5K至3.1K之间。Stable Diffusion 本身是通过在 Amazon Web Services 上使用256块 Nvidia A100 GPU 进行训练,总计150K GPU 小时,成本为60万美元。

3. 服务器成本:2022年8月接受 Verge 采访时,Holz 描述了生成此类图像所需的计算能力。“每张图片都需要进行 petaops 运算。因此,成千上万的操作。我不确定具体是五个、十个还是五十个。但生成一张图片需要成千上万次的操作。这可能是最昂贵的…你可以称其为一种服务或产品 – 毫无疑问,以前从未有过这样的服务,普通人使用这么多的计算量。”

四、客户群体

目前 Midjourney 有超过2000万用户,MJ 的主要客户群体包括:艺术家、创意从业者、设计师、广告公司等需要进行图像创作和编辑的企业和群体,以及一些体验图形生成的普通用户。根据相关创始人 David Holz的访谈,大约有 30%-50% 是专业人士,用来增强他们的创意和沟通过程。大多数人是普通用户,体验和绽放自己的想象力。

虽然该 Midjourney 公司没有公布最新客户群信息,但根据相关资料,Midjourney 的客户可能分为两类:广告商和艺术家。[2]

广告商:广告商可以求助于 Midjourney 来生成定制的图片,无需支付图片库许可证或摄影师的费用,就能轻松修改图片。Midjourney 的长宽比混搭选项可能对那些希望通过修改或编辑在不同社交平台和设备上重复使用内容的团队特别有帮助。

艺术家:虽然有些人认为人工智能艺术是与艺术家竞争的产物,但 Holz 说,艺术家使用 Midjourney 时 “一开始会更具探索性,在很短的时间内就能想出很多点子”。游戏设计师和概念艺术家也可以使用 Midjourney 作品作为基础,然后再进行建模和装配。

除了帮助艺术家在花费数小时绘图、建模或拍照之前确定一个想法之外,其他人也将 Midjourney 用作他们工作的输入。平面设计师可以生成背景纹理,而摄影师则可以生成新的天空。

Midjourney 这样的生成式人工智能工具出现之前,艺术家们主要依靠 Pinterest、Dribble 或图片库等网站来获取灵感。虽然这些方法可以为艺术家提供所有的素材,但只有生成式人工智能才有可能帮助艺术家在灵感阶段将素材组合起来。艺术家对人工智能艺术的接受程度因创作者而异。

五、Midjourney 成功“以小搏大”的原因:

训练成本低:垂类 AI 绘画模型的搭建和训练门槛相对较低,算法参考开源的Diffusion 和 CLIP 模型,同类模型 Stable Diffusion 的训练成本不到60 万美元,训练数据集来自网上爬取的亿级数据。

Discord 平台优势:Midjourney 搭建在 Discord 平台上,Discord 成熟的使用设施、庞大的用户基数及社区生态赋能 Midjourney。通过先发优势和社区互动积累了海量用户标注的“文字-图片”一致性效果数据,再通过监督学习机制不断优化AI 模型的生成效果,约一年时间快速迭代更新了五个版本。

独特的艺术风格图像生成效果优势:Midjourney 形成独特的艺术风格、差异化竞争,用户可以在提示词中选择 Midjourney 默认艺术风格的应用强度。Version5 已率先完善手指生成畸形的难点,大幅提升图像的写实细节、自然语言提示的理解能力等[3]。

六、竞争对手

1. DALL- E 2

OpenAI 的图像生成模型 DALL-E 2 本身就是一款功能强大的人工智能图像生成器,或许也是 Midjourney 最大的竞争对手。与 Midjourney 相比,DALL-E 2 完整的网络应用程序用户界面对于尚未使用 Discord 的消费者来说可能更容易接受。

虽然与 Midjourney 的 v5 相比,DALL-E 2 的提示质量不太可靠,但与 Midjourney 不同的是,DALL-E 2 可以通过 API 访问。OpenAI 的大量资金、其他人工智能模型的关注度以及非平台使用使其成为一个强大的竞争对手。

2. Runway

Runway 成立于 2018 年,提供协作式视频和图像编辑软件。除了实时编辑,Runway Research 的人工智能工具还提供强大的提示、编辑和图像到视频软件。

截至 2023 年 10 月,Runway 已融资 2.365 亿美元。Runway 提供功能有限的免费试用版,其最便宜的订阅计划起价为每个用户每月 15 美元。

尽管 Midjourney 用户可以通过 Discord 进行协作,但 Runway 的实时协作可以贯穿整个设计过程。Runway 主要面向专业和企业用户,而 Midjourney 则更多面向个人用户。

尽管 Runway 提供了自己的人工智能图像生成功能,但一些用户仍然使用 Midjourney 生成图像,例如将这两个工具结合起来制作电影预告片。

3. Stable Diffusion

于2022年8月公开发布;据报道,其开发资金来自2019年成立的初创公司 Stability AI。截至 2023 年 10 月,Stability AI 已累计融资 1.238 亿美元,其最新一轮融资 2500 万美元是在 2023 年 6 月通过可转换票据筹集的。

尽管自2015年以来就存在基于扩散的图像模型,但 Stable Diffusion 仍然是 DALL-E 2 和 Midjourney 的受欢迎替代方案。

Stable Diffusion 是一个开源模型,这意味着任何人都可以免费下载和使用它。它还比 Midjourney 更具可定制性,具有更广泛的功能和设置。

不过,Midjourney被设计为更易于普通人使用。

4. Adobe

1982年成立的 Adobe 开发了60多个软件应用程序,包括其创意和 Acrobat 套件,以支持艺术家和企业客户的日常工作流程。截至2023年10月,Adobe 的市值达到2373亿美元。

虽然自2019年以来AI已经为 Adobe 工具如内容感知填充提供动力,但 Adobe 在2023年3月发布 Firefly 后正式加入了AI竞赛。

Firefly 是一款生成式 AI工具,被加入到创意云套件中,使用户能够生成图像、矢量、视频甚至3D。Adobe  的 Firefly 旨在将人工智能融入已习惯使用 Adobe 产品套件的用户的工作流程中。这意味着 Adobe 用户可以借助熟悉的工具,如 Photoshop 中的“画笔”工具,使用 Firefly,从而使用户可以定义 AI 驱动编辑的特定区域。

与 Firefly 跨越各种 Adobe 应用程序进行集成不同,Midjourney 的主要目的是生成新图像,而不是精确编辑或修改现有图像。

5. Shutterstock

成立于2003年的 Shutterstock 是一个库存媒体网站,提供照片、视频、音频、平面设计模板和3D素材,还有一些图片编辑和媒体规划工具。2023年5月,Shutterstock 发布了自己的AI图像生成器,并公布了一个智能设计助手的候补名单。

与 Midjourney 相比,Shutterstock 提供了更多类型的媒体,Midjourney 只提供图像。

尽管 Midjourney在用户控制和灵活性方面对库存图像具有一般优势,但Shutterstock 的新生成式 AI 工具和 AI 设计助手可能会满足现有的 Shutterstock 用户;它甚至可能利用其广泛的 SEO 覆盖率来实现分销优势。通过快速的谷歌搜索很容易找到 Shutterstock 图像,而相比之下,Midjourney 缺乏平台外访问的能力也可能使其在与 Shutterstock 的基于 Web 的生成器相比处于劣势[2]。

六、商业画布

参考资料:

[1]https://www.aixinzhijie.com/article/6815438

[2]https://research.contrary.com/company/midjourney

[3]https://stock.hexun.com/2023-04-07/209428047.html

半年过去,AI视频卷到哪儿了?

aigc阅读(51)

自从今年年初Sora露面后,国内国外都想用AI颠覆好莱坞,近期的AI视频圈更是十分热闹,产品一个接一个发布,都喊着要赶超Sora。

国外两家AI视频初创公司率先开打,旧金山人工智能科技公司Luma推出Dream Machine视频生成模型,并扔出堪称电影级别的宣传片,产品也给用户免费试用;另一家在AI视频领域小有名气的初创公司Runway,也宣布将Gen-3 Alpha模型向部分用户开启测试,称能将光影这样的细节生产出来。

国内也不甘示弱,快手推出的可灵Web端,用户能生成长达10秒的视频内容,还具备首尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》也在快手播出,画面均由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出,为字节旗下的AI视频产品即梦制作。

AI视频如此快的更新速度让不少网友直呼,“好莱坞可能又要来一次大罢工了。”

如今在AI视频赛道上,有谷歌、微软、Meta,阿里、字节、美图等国内外科技、互联网巨头,也有Runway、爱诗科技等新秀公司,据不完全统计,仅国内,便有约20家公司推出了自研AI视频产品/模型。

头豹研究院数据显示,2021年中国AI视频生成行业的市场规模为800万元,预计2026年,这一市场规模将达到92.79亿元。不少业内人士相信,2024年生成视频赛道会迎来Midjourney时刻。

全球的Sora们发展到什么阶段了?谁最强?AI能干掉好莱坞吗?

一、围攻Sora:产品虽多,能用的少

AI视频赛道推出的产品/模型不少,但真正能让大众使用的十分有限,国外的突出代表便是Sora,半年过去了还在内测,仅对安全团队和一些视觉艺术家、设计师和电影制作人等开放。国内情况也差不多,阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG都在内测阶段,至于目前正火的快手可灵,用户想使用也需要排队申请,这已经刨去了一大半产品。

剩下可使用的AI视频产品中,一部分设置了使用门槛,用户需要付费或懂一定技术。比如潞晨科技的Open-Sora,如果不懂一点代码知识,使用者便无从下手。

「定焦」整理国内外公布的AI视频产品发现,各家的操作方式和功能差不多,用户先用文字生成指令,同时选择画幅大小、图像清晰度、生成风格、生成秒数等功能,最终点击一键生成。

这些功能背后的技术难度不同。其中最难的是,生成视频的清晰度和秒数,这也是AI视频赛道各家在宣传时比拼的重点,背后与训练过程中使用的素材质量和算力大小密切相关。

AI研究者Cyrus表示,目前国内外大多数AI视频支持生成480p/720p,也有少部分支持1080p的高清视频。

他介绍,高质量素材越多,算力越高,训练出来的模型能生成更高质量的视频,但不代表有高质量的素材算力,就能生成高质量素材。而用低分辨率素材训练的模型,若要强行生成高分辨视频,会出现崩坏或者重复,比如多手多脚。这类问题可以通过放大、修复和重绘之类的方式解决,不过效果和细节一般。

很多公司也把生成长秒数当卖点。

国内大部分AI视频支持2-3秒,能达到5-10秒算是比较强的产品,也有个别产品很卷,比如即梦最高长达12秒,不过大家都不及Sora,它曾表示最长能生成一段60秒的视频,但由于还没有开放使用,具体表现如何无法验证。

光卷时长还不够,生成的视频内容也得合理。石榴AI首席研究员张恒对「定焦」表示:从技术上,可以要求AI一直输出,毫不夸张地说,哪怕生成一个小时的视频,也不是问题,但我们多数时候要的并不是一段监控视频,也不是一个循环播放的风景画动图,而是画面精美有故事的短片。

我们测试了5款国内比较热的免费文生视频AI产品,分别为字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI,给了它们一段相同的文字指令:“一个穿着红裙子的小女孩,在公园里,喂一只白色的小兔子吃胡萝卜。”

几款产品的生成速度上差不多,仅需2-3分钟,但清晰度、时长差得不少,准确度上更是“群魔乱舞” ,得到结果如下 :

艺映AI

Vega AI

即梦 

Morph 

Pix Verse

各家的优缺点很明显。即梦赢在时长,但生成质量不高,主角小女孩在后期直接变形,Vega AI也是相同的问题。PixVerse的画质比较差。

相比之下,Morph生成的内容很准确,但只有短短2秒。艺映画质也不错,但对文字理解不到位,直接把兔子这一关键元素弄丢了,且生成视频不够写实,偏漫画风。

总之,还没有一家产品能给到一段符合要求的视频。

二、AI视频难题:准确性、一致性、丰富性

我们的体验效果和各家释放的宣传片相差很大,AI视频如果想要真正商用,还有相当长的一段路要走。

张恒告诉「定焦」,从技术角度看,他们主要从三个维度考量不同AI视频模型的水平:准确性、一致性、丰富性。

如何理解这三个维度,张恒举了个例子。

比如生成一段“两个女孩在操场看篮球比赛”的视频。

准确性体现在,一是对内容结构理解的准确,比如视频中出现的要是女孩,而且还是两个;二是流程控制的准确,比如投篮投进后,篮球要从篮网中逐渐下降;最后是静态数据建模准确,比如镜头出现遮挡物时,篮球不能变成橄榄球。

一致性是指,AI在时空上的建模能力,其中又包含主体注意力和长期注意力。

主体注意力可以理解为,在看篮球比赛的过程中,两个小女孩要一直留在画面里,不能随便乱跑;长期注意力为,在运动过程中,视频中的各个元素既不能丢,也不能出现变形等异常情况。

丰富性则是指,AI也有自己的逻辑,即便在没有文字提示下,能生成一些合理的细节内容。

以上维度,市面上出现的AI视频工具基本都没能完全做到,各家也在不断提出解决办法。

比如在视频很重要的人物一致性上,即梦、可灵想到了用图生视频取代文生视频。即用户先用文字生成图片,再用图片生成视频,或者直接给定一两张图片,AI将其连接变成动起来的视频。

“但这不属于新的技术突破,且图生视频难度要低于文生视频,”张恒告诉「定焦」,文生视频的原理是,AI先对用户输入的文字进行解析,拆解为一组分镜描述,将描述转文本再转图片,就得到了视频的中间关键帧,将这些图片连接起来,就能获得连续有动作的视频。而图生视频相当于给了AI一张可模仿的具体图片,生成的视频就会延续图片中的人脸特征,实现主角一致性。

他还表示,在实际场景中,图生视频的效果更符合用户预期,因为文字表达画面细节的能力有限,有图片作为参考,会对生成视频有所帮助,但当下也达不到商用的程度。直观上说,5秒是图生视频的上限,大于10秒可能意义就不大了,要么内容出现重复,要么结构扭曲质量下降。

目前很多宣称用AI进行全流程制作的影视短片,大部分采用的是图生视频或者视频到视频。

即梦的使用尾帧功能用的也是图生视频,「定焦」特意进行了尝试,结果如下:

在结合的过程中,人物出现了变形、失真。

Cyrus也表示,视频讲究连贯,很多AI视频工具支持图转视频也是通过单帧图片推测后续动作,至于推测得对不对,目前还是看运气。

据了解,文生视频在实现主角一致性上,各家也并非纯靠数据生成。

张恒表示,大多数模型都是在原有底层DIT大模型的基础上,叠加各种技术,比如ControlVideo(哈工大和华为云提出的一种可控的文本-视频生成方法),从而加深AI对主角面部特征的记忆,使得人脸在运动过程中不会发生太大变化。

不过,目前都还在尝试阶段,即便做了技术叠加,也还没有完全解决人物一致性问题。

三、AI视频,为什么进化慢?

在AI圈,目前最卷的是美国和中国。从《2023年全球最具影响力人工智能学者》(简称“AI 2000学者”榜单)的相关报告可以看出,2020年-2023年全球“AI 2000机构”4年累计的1071家机构中,美国拥有443家,其次是中国,有137家,从2023年“AI 2000学者”的国别分布看,美国入选人数最多,共有1079人,占全球总数的54.0%,其次是中国,共有280人入选。

这两年,AI除了在文生图、文生音乐的方面取得较大进步之外,最难突破的AI视频也有了一些突破。

在近期举办的世界人工智能大会上,倚天资本合伙人乐元公开表示,视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬认为,视频生成技术目前处于GPT-3 时代,距离成熟还有半年左右的时间。

不过,乐元也强调,其技术水平还是不足以支撑大范围商业化,基于语言模型开发应用所使用的方法论和遇到的挑战,在视频相关的应用领域也同样适用。

年初Sora的出现震惊全球,它基于transformer架构的新型扩散模型DiT再做扩散、生成的技术突破,提高了图像生成质量和写实,使得AI视频取得了重大突破。

Cyrus表示,目前国内外的文生视频,大多数都沿用的是类似技术。

图源 / Sora官网

此刻,大家在底层技术上基本一致,虽然各家也以此为基础寻求技术突破,但更多卷的是训练数据,从而丰富产品功能。

用户在使用字节的即梦和Morph AI的Morph Studio时,可选择视频的运镜方式,背后原理便是数据集不同。

“以往各家在训练时使用的图片都比较简单,更多是对图片存在哪些元素进行标注,但没有交代这一元素用什么镜头拍摄,这也让很多公司发现了这一缺口,于是用3D渲染视频数据集补全镜头特征。”张恒表示,目前这些数据来自影视行业、游戏公司的效果图。

「定焦」也尝试了这一功能,但镜头变化不是很明显。

Sora们之所以比GPT、Midjourney们发展得慢,是因为又搭了一个时间轴,且训练视频模型比文字、图片更难。“现在能用的视频训练数据,都已经挖掘殆尽,我们也在想一些新办法制造一系列可以拿来训练的数据。”张恒说。

且每个AI视频模型都有自己擅长的风格,就像快手可灵做的吃播视频更好,因为其背后有大量这类数据支撑。

石榴AI创始人沈仁奎认为,AI视频的技术有Text to video(文本转视频),Image to video(图片转视频),Video to video(视频转视频),以及Avatar to video(数字人),能定制形象和声音的数字人,已经运用到了营销领域,达到了商用程度,而文生视频还需要解决精准度和可控度问题。

此刻,无论是由抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》,更多是大模型公司主动找影视制作团队进行合作,有推广自家技术产品的需求,且作品也没有出圈。

在短视频领域,AI还有很长的路要走,干掉好莱坞了的说法更为时尚早。

OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

aigc阅读(140)

小模型的战场,打起来了!

继GPT-4o mini、Mistral NeMo发布之后,苹果也入局了。

DCLM小模型包含两种参数规模——70亿和14亿,发布即开源。最大70亿参数超越了Mistral-7B ,性能接近Llama 3、Gemma。

根据苹果ML小组研究科学家Vaishaal Shankar(也是DCLM研发人员)的说法,这是迄今为止性能最好的「真正开源」的模型,不仅有权重和训练代码,而且是基于开放数据集DCLM-Baseline。

相比模型性能,DCLM做出的「真正开源」的典范更加引人关注。

对比大部分科技巨头只搞闭源模型,或「犹抱琵琶半遮面」,只开源代码或权重的做法,大方的苹果获得了网友的好评。

此外,Shankar还预告说,之后会继续上线模型中间检查点和优化器状态。

难道,这就是LLM开源社区的春天了吗?

一、DCLM系列全开源

目前,HuggingFace上已经发布了全部模型权重,其中的模型卡已经基本涵盖了关键信息。

https://huggingface.co/apple/DCLM-7B

DCLM-7B同样采用了decoder-only的架构,使用PyTorch和OpenLM框架进行预训练。

总共4T token的DCLM-baseline数据集来自于总量240T的DCLM,DCLM-7B模型又进一步过滤出其中的2.5T用于训练。

上下文长度为2048,小于Mistral 7B和Gemma 2 9B的8k长度。

性能方面,作者直接使用评估套件LLM Foundry,测试了模型在53个基准任务上的分数。

与其他模型进行比较时,除了MMLU分数,作者还自定义了两个指标——「核心准确率」(core)和「扩展准确率」(extended)。

前者是包括HellaSwag和ARC-E在内的22个任务中心准确率的均值,后者则涵盖全部53个任务。

与虽然使用的数据不是最多,但与其他同等大小的开放数据模型(权重与数据集都开源)相比,DCLM在全部3个指标上的性能都达到了最佳。

三列基准分数从左到右分别是:核心、MMLU、扩展

相比之前的SOTA MAP-Neo模型,DCLM-7B在5-shot的MMLU任务准确率达到63.7%,提升了6.6个百分点,同时训练所需的计算量减少了40%。

然而,如果和权重开源、数据集闭源的模型相比,效果就不尽如人意了。

DCLM在各个指标上都与Phi-3存在不小差距,与Mistral-7B-v0.3或Gemma 8B的分数大致相当。

研究人员发现,如果使用同一数据集中额外的100B数据进行训练,并将上下文长度扩展到8k时,模型在核心和扩展基准上的分数还会进一步提升,但MMLU结果没有变化。

这个结果,就全面超过了Mistral 7B-v0.3的分数。

此外,HuggingFace上还发布了7B模型的指令微调版本,在数学推理任务GSM8K上的性能实现大规模提升,分数由原来的2.1直接飙到52.5。

https://huggingface.co/apple/DCLM-7B-8k

除了7B版本,1.4B版本也同步上线。神奇的是,训练数据量相比7B版本不降反增,多了0.1T。

https://huggingface.co/TRI-ML/DCLM-1B

相比HuggingFace最近发布的SmolLM,DCLM-1B的性能显著更优,尤其是5-shot MMLU分数,比SmolLM提升了11.9%。

不仅如此,DCLM-1B在MMLU上41.9的得分也同样高于Qwen-1.5B的37.87和Phi-1.5B的35.90。

7B模型落后的事情,反而让1.4B模型反超了,果然小模型才是苹果的看家本领。

值得注意的是,7B模型仅能在Appl240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开e的示例代码许可(ASCL)下使用,但1.4B版本在Apache 2.0下发布,允许商业使用、分发和修改。

既然说到这次发布的DCLM系列模型,就不得不提它们的重要基础——DataComp基准。

论文地址:https://arxiv.org/pdf/2406.11794

DataComp这篇论文首发于6月17日,共同一作Jeffrey Li、Alex Fang和共同最后作者Vaishaal Shankar,也同样都是苹果DCLM的研发人员。

文章不仅对数据集的构建过程进行了详细阐述,也提到了关于DCLM模型的部分内容。

Vaishaal Shankar表示,将很快发布这篇论文的更新版,提供更多有关模型预训练的技术细节。

相比于对同一数据集修改模型,DataComp的思路反其道而行之——测评所用的模型是固定的,任务是在总共240T的数据池中过滤、处理出最好的数据。

可以说,这种做法与科技巨头们的研发思路非常一致——对于LLM的性能而言,预训练数据正在成为比模型架构和权重更重要的因素。

毕竟,Llama、Gemma、Phi等一系列「开源」模型都是只放权重、不公布数据。

二、既要Scaling Law,又要SLM

对于AI科技巨头来说,有时模型不是越大越好。

其实一直以来,AI社区中,并不缺少小模型,比如微软Phi系列模型多次迭代,以及6月末谷歌刚刚更新的Gemma 2 7B。

这周,OpenAI突然发布GPT-4o mini,Mistral AI联手英伟达发布Mistral NeMo,HuggingFace的SmoLLM等小模型的发布,为小模型的领域再次添了一把火。

正如OpenAI研究员所言,「虽然我们比任何人都更喜欢训练大模型,但OpenAI也知道如何训练小模型」。

小模型,优势在于成本低、速度快、更专业,通常只使用少量数据训练,为特定任务而设计。

大模型变小,再扩大规模,可能是未来发展的趋势之一。

前两天,在GPT-4o mini发布时,Andrej Karpathy也发表长推表达了类似的观点。

他认为,模型尺寸的竞争将会「反向加剧」,不是越来越大,反而是比谁更小更轻巧。

当前的LLM之所以逐渐变成「巨兽」,是因为训练过程仍然非常浪费,我们基本上是在要求模型记住整个互联网的内容(而且实际上,LLM的记忆能力还相当不错,质量上比人类好很多)。

但对于小模型来说,训练目标已经改变。关键问题是,AI系统如何从更少的数据中学到更多。

我们需要模型先变得更大,再变得更小,因为我们需要「巨兽」将数据重构、塑造为理想的合成形式,逐渐得到「完美的训练集」,再喂给小模型。

马斯克也表示同意这个观点。Karpathy所描述的这个模型改进阶梯,正是现实中特斯拉曾走过的路。

23年4月,Sam Altman曾宣布了AI大模型时代终结。最近采访中,他还确认了数据质量是进一步AI训练的关键成功因素。

微软研究人员在开发Phi模型时,就提出了这样的假设。Hugging Face的AI研究人员最近也证实了这一假设,并发布了一个高质量的训练数据集。

就以GPT-4为例,开发和使用超一万亿参数的成本超过了1亿美元。

而小模型,比如专在法律数据集上完成训练,可能使用不到100亿参数,成本不到1000万美元,使用更少算力响应每个查询,因此成本较低。

纳德拉曾表示,Phi⼩型模型系列规模仅为OpenAI背后免费模型1/100,而且在许多任务上的表现几乎同样出色。

除此以外,谷歌以及AI初创公司Mistral、Anthropic、Cohere今年也发布了规模较小的模型。

6月,苹果曾公布了自己的AI发展路线图,计划使用小型模型,这样就可以完全在手机上运行软件,使其更快速和更安全。

对于许多任务来说,比如总苹果为什么要用「小模型」?结文档或生成图像,大模型可能有点大材小用。

Transformer开山之作背后作者Illia Polosukhin表示,计算2+2不应该需要进⾏千万亿次运算。

不过,科技巨头们也并没有放弃大模型。苹果在今年WWDC大会上,曾宣布了在Siri助手中植入ChatGPT,以执行撰写电子邮件等复杂任务。

毕竟通往终极AGI/ASI,参数规模的扩大和智能的增长成正比。

参考资料:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings

/https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

微软蓝屏,为OpenAI敲响警钟

aigc阅读(77)

一周的工作在一片哀嚎中结束:微软蓝屏啦!

当地时间7月18日、北京时间7月19日开始,微软旗下部分应用和服务出现访问延迟、功能不全或无法访问的问题。

从普普通通的打工人,到航空公司、银行、交易所、学校等,都有可能受到影响。

因为电脑蓝屏提前下班,走在街上看到广告牌蓝了、商场前的大屏幕蓝了,遛弯去超市买菜,发现超市收银系统也蓝了。这时候,朋友发来消息,机场蓝了,航班取消,明天是回不来了。

这场景未免有点过于赛博了。

目前,微软大面积蓝屏的“凶手”已经被揪了出来——美国网络安全服务提供商CrowdStrike,由于一则更新错误。微软也表示根本问题已经得到解决,但是残余影响仍未完全消除。

但人类显然余惊未了:要不是微软突发恶疾,谁会意识到人类到底是有多依赖它呢?

微软作为电脑操作系统大战的胜利者,已经渗透人们生活的方方面面,成为人类社会的一个基础工具。如今全球正在进行一场新的商业大战,人工智能(下称AI)之战。AI将是下一个“基础设施”,几乎成了现阶段的一种共识。

就在微软蓝屏事件发生的数个小时前,OpenAI发布了一个小模型,GPT-4o mini,价格也大幅下降。虽然没有发布会,没有大张旗鼓地宣传,但这个消息还是让整个科技界兴奋不已。够强、够小、够便宜的小模型,意味着应用开发者有福了,换个角度来看,OpenAI此举会让其模型在落地应用层有更大的影响力。

无独有偶,同日Mistral AI联合英伟达也发布了一个小模型Mistral NeMo,硅谷模型之战从大到小,愈发落地。

《福布斯》举了这样一个例子:“基于AI驱动系统安排的紧急心脏或脑部手术。如果由于CrowdStrike或软件供应链中其他公司的补丁更新导致基础技术出现故障,例如机器未正确重启,后果可能是致命的。”

这可能是微软蓝屏事件带来的正面意义之一,迫不及待迈入AI时代的人类需要意识到“依赖”的危险之处。正在不遗余力造就下一代基础设施的OpenAI们,更需要防蓝屏。

01

微软这次的蓝屏事件造成了多大混乱?

世界首富、著名企业家、知名网红埃隆·马斯克(Elon Musk),他在社交平台X(前推特)上称之为“IT史上最大的失误”。

打工人倒是挺高兴的,正想着怎么结束周五的工作,开启快乐周末,电脑突发恶疾,出现蓝屏还反复重启。那能怎么办呢,提前下班呗,咱也很无奈呢。

哦对了,下班之前别忘了合个影,祝大家国际蓝屏日快乐!

当然,也有很多打工人和学生仔开心不起来,毕竟有的时候真的在关键时刻,蓝屏了并不意味着提早休息,而是提前投胎的心都有了。

尤其是在文件没保存的时候……

另一些人的不开心,来自几乎全公司电脑都蓝了,除了自己。

谢谢微软,坐实了自己“天选牛马”的身份。

办公室的小小蓝色屏幕不算啥,更具冲击力的是走出办公室之后,发现商场前的大屏、机场大大小小的屏幕、超市收银系统,甚至是街边硕大的电子广告牌,全都“蓝”了,角落里的悲伤颜表情直击人心。

实际上,微软蓝屏事件造成了一连串的“灾难”。

美国、德国、澳洲等多地机场几乎瘫痪,光是美国就有超过2000架次航班停飞(达美航空和美联航停飞所有航班),超过5300架次航班延误。大批旅客滞留,从值机柜台上的小屏幕,到巨大的导引屏幕,机场一片“蓝海”。

伦敦证券交易所在亚洲交易时段,无法发布新闻。澳大利亚广播公司遭遇故障,英国天空新闻台也无法直播。银行也受到了波及,南非、以色列、新西兰等国银行受到影响,英国至少有两家银行的用户无法登录自己的账户。

最让人揪心的是一些紧急热线和医疗机构也受到了影响。美国多地出现911呼叫中心工作不正常的情况;英国大多数全科医生诊所因为病人预约和病历系统出现问题,无法开展工作,以色列卫生部表示十几家医院受到了影响。不过好在全球大多数医院多多少少还是会有人工的、纸质化的工作打底,所以工作还是可以展开,急诊也照常运作。

当然,很多企业也会受到影响。

美国特斯拉工厂也受到波及。由于一些工厂的设备开始报错,特斯拉位于奥斯汀、得克萨斯和内华达的超级工厂的部分工人提前下了班。

这让特斯拉的CEO马斯克大为光火,甚至在X(前推特)上追着微软CEO萨提亚·纳德拉(Satya Nadella)表达不满,称“这对汽车供应链带来了严重的冲击”。

在发现事件的“始作俑者”是网络安全公司CrowdStrike后,马斯克表示已经在所有的系统里删除了CrowdStrike的组件。他随后补充道:“不幸的是,我们的许多供应商和物流公司都在使用它。”

马斯克的高仿号贴心地发了一张AI生成的图,图中马斯克站在熊熊燃烧的CrowdStrike服务器前,表达了事件当事人的愤怒之情。

02

“7·19微软蓝屏事件”注定会被载入历史,CrowdStrike也从业内知名变得家喻户晓。

造成如此灾难的原因,小到略显荒诞:CrowdStrike向微软发送了一则更新。

更具体来说,CrowdStrike有一个名为Falcon的平台,是公司的旗舰产品。事发前,CrowdStrike发布了Windows系统的传感器配置更新,这是Falcon平台保护机制的一部分。这样的更新并不是心血来潮,而是每天都会来几次。

然而,这次配置更新却触发了一个逻辑错误,导致受影响的系统出现系统崩溃和蓝屏。

在事件发生后不久,CrowdStrike的CEO乔治·库尔茨(George Kurtz)连发几条X信息,表明正在全力修复问题的态度,并且安抚大家少安毋躁,并再三强调事件的原因并非网络攻击。北京时间7月20日早晨九点,库尔茨就公布了此次事件的一则技术声明。期间,他还出镜了媒体采访,向公众解释事件的起因和应对,样子略显憔悴。

然而,真诚的态度难以弥补巨大的失误,截至7月19日美股收盘,CrowdStrike的股价收跌11%。

要知道,CrowdStrike在业内早有名气。该公司成立于2011年,提供在线安全解决方案,专注于提供基于云计算的端点保护平台。包括微软、亚马逊AWS在内的一些最大的云服务公司提供商都是它的客户,其客户也包括主要的全球银行、医疗保健和能源公司。

而CrowdStrike的主要平台Falcon也挺有意思,它利用AI和机器学习技术来检测、预防和响应网络威胁。换言之,这是一家以AI驱动安全解决方案的行业佼佼者。

这次事件,势必会对CrowdSrike的这一路径造成打击,并凸显了AI在网络安全中的局限性和风险的重要问题。虽然AI承诺增强检测能力和加快响应速度,但我们需要更有利的监督和验证过程来减轻意外故障的风险。

我们是否真的可以依赖AI管理我们最敏感的安全需要,还是我们对一个不完美的工具给予了太多信任?

03

有意思的是,一家由AI作为重要卖点的网络安全公司搞了个大失误,另一边,AI界的明星公司在发新模型。

北京时间7月19日凌晨,也就是微软蓝屏事件发生前的数小时,OpenAI默默上线GPT-4o mini模型。发布的方式非常低调,但消息还是登时传开,因为这是一个对OpenAI来说很不同的模型。

GPT-4o mini,如其名,主打一个“小”,此外能力强劲,且价格美丽。

OpenAI并没有透露其具体的参数规模,但称其为公司目前最经济、最有成本效益的小模型。GPT-4o mini的知识更新到去年10月,从支持的语言种类来看和GPT-4o相当,上下文窗口有128k,MMLU得分82,颇具竞争力。

最关键的是,GPT-4o mini每百万token输入仅需15美分,每百万输出则需60美分。比GPT-4o便宜了96%~97%,比起GPT-3.5 Turbo也要便宜60%~70%。OpenAI CEO山姆·奥特曼(Sam Altman)以2022年“世界上最好的”模型text davinci-003(GPT-3)做比,后者能力被GPT-4o mini甩几条街,价格却比GPT-4o mini高出100倍。

出小模型,跳入价格战,凸显OpenAI扩大应用的决心。

OpenAI的API平台产品负责人甚至表示GPT-4o mini才真正实现了OpenAI的使命,让人们更广泛地接触AI。

他透露OpenAI之所以有此举,是因为他们注意到开发人员越来越渴望使用较小的模型。

小模型已经成了硅谷巨头和明星初创公司的新锚点。同日,Mitral AI联手英伟达也推出了一款小模型Mistral Nemo,参数规模仅12B,性能赶超Meta的Llama-3 8B。Hugging Face的创始人感慨:“这是属于小模型的一周。”

更多小模型在早些时候已经问世,如谷歌的Gemini Flash,Anthropic的Claude Haike等。就连千呼万唤始出来的苹果AI——Apple智能,也没有走“大杯”路线,而是用设备端小模型,将重点放在了针对用户体验的微调。

在OpenAI官网关于GPT-4o mini的博文中,这样写着:“我们展望未来,模型将无缝集成到每个应用程序和每个网站上。GPT-4o mini正在为开发人员更有效、更经济地构建和扩展功能强大的AI应用程序铺平道路。AI的未来正变得更容易获得、更可靠,并且嵌入到我们的日常数字体验中,我们很高兴能够继续引领这条道路。”

“无缝集成到每个应用”“嵌入到日常数字体验中”,这正是微软的操作系统已经做到的。从堆参数不断扩大规模的超大模型,到灵活易用、物美价廉的小模型,先大后小,AI生产商都想要成为下一个“微软”。

但关于AI模型和应用的安全问题,却始终都没有一个确切的保障路径。AI安全天天被讨论,却尚未有定论。而与此同时,AI仍在向前狂奔。

也许微软蓝屏事件,是新老交替之际的一记警钟,如果AI真的如OpenAI们的畅享般“嵌入到日常数字体验中”“无缝集成到每个应用”, “蓝屏”会造成的灾难,留给诸位想象吧。

数字人社交陪伴出海赛道成这届AIGC圈“天菜”,海内外多少厂商在低调捞金?

aigc阅读(52)

几天前,一位52岁日本大叔和24岁AI女孩登记结婚的消息引发了全球的热烈讨论。

根据大叔表示,在两个月内,他曾与5-6位潜在对象交换了信息,然后他遇到了Miku,无时无刻的陪伴、高度拟人的情感交流,令他快速坠入爱河,在3个月后,他们即将结婚。

Miku,是日本初创公司Samansa Co.推出的社交陪伴&约会APP中的一名虚拟数字人,这款产品名为Loverse,上线至今已经有近一年时间。在日本严重的孤独危机面前,Loverse为超过5000名用户,主要是40-50岁的男性,提供着日常陪伴,为他们打造了一个情感“安全屋”。

实际上,大叔的例子并非个例,目前在海外地区中,我们已经注意到有各个年龄层的用户选择与AI数字人谈赛博恋爱,包括Z世代。

从目前受众最广的几条社交陪伴分支来看,既包括Loverse这类“对话为主”的产品(虚拟伴侣)、也有Character.AI这类虚拟扮演社交产品(基于AI角色的UGC平台)等。本文主要围绕虚拟伴侣,筛选了两款具有代表性的产品,试图从中挖掘出日本地区AI社交陪伴赛道的深层次机遇点。

一、AI约会兴起,虚拟伴侣成日本用户最佳情感依托

AI社交陪伴类产品垂直分类有很多,基于用户的需求、动机,这些产品的流向有了极大不同。Loverse是个在AI对话垂类中颇具代表性的产品。

从产品角度来看,这款APP本质上是一个AI聊天机器人集成,其中提供了很多“预设”AI数字人,她们有不同的外形、年龄、经历(背景设定)、性格,用户在Loverse中可以像使用其他社交APP那样滑动浏览,说实话,如果不是已经知道里面的“人”都是AI,可能很多用户都会将其与真人社交混淆。

更值得一提的是,作为一款由日本企业开发的产品,Loverse本身就非常具有代表性,一定程度上代表了日本地区对AI陪伴社交产品的倾好。产品特点来看,Loverse的核心用户画像是40-50岁的(日本)男性,根据日本政府最新调查结果,日本男性40岁左右单身且没有交往经验的比率达到22.9%,30多岁男性这一比率为41.2%,20多岁这一比率为46%。原因主要集中于工作压力、金钱、为家庭生计牺牲等三个方面,其中受金钱因素影响收获了最高的投票数,占比多达47.1%。

(图源:招聘网站indeed统计数据,日本男性感受到的困难影响因素)

Loverse只提供数字人情感陪伴服务。且其提所提供的情感陪伴,相比人类还要更加稳定持久:日常早中晚的问候交流准时到达、工作间隙随时可以碎片化交流、到了休息日,还能一起讨论出游。再加上,相比于真人恋爱的成本开销,AI数字人可以说是0成本投入,即使想要更换新的恋爱对象,或者同时与多个数字人展开暧昧拉扯,Loverse也都能满足——在Loverse中,即使多个数字人在不同对象的聊天中被提及,也不会产生“吃醋”的情绪,更不会已读不回。这可太对“社恐”以及压力巨大的日本男性用户们的胃口了。

多数日本男性将Loverse当作一个“安全屋”,一方面享受隐私的安全空间,另一方面则藉由Lovese来“学习”如何与异性沟通。此外,还有一小部分日本用户将Loverse中的数字人当作自己的第二或第三伴侣——在日本文化中,出轨不能以单纯的好坏来定性,而数字人并不是真人,从这个角度说,甚至变相减少了出轨的情况

二、数字人定制化,陪伴离不开“涩涩”

除了Loverse,百度推出的Synclub同样是更注重日本市场,不仅官方语言包括日语(只有日语和英语两种语言),还定期稳定投放日语的广告素材。

(图源:广大大)

不过,与Loverse主要用户年龄在40-50岁,且APP内数字人为真人形象不同,Synclub提供的选项更为丰富,年龄覆盖也更为广泛

进入APP,用户可以选择心仪的对象性别、年龄、虚拟角色的风格(卡通、动漫、电影、vtuber等等),设定完成后,采用了类似于Tinder等陌生人社交APP的形式,系统会随机为用户推荐AI数字人,这些数字人会按照用户设定的偏好外形进行推送,且每个数字人都有着不同的“人设”,用户可以随机选择感兴趣的AI进行交谈,也可以选择创建自己的数字人。

创建数字人需要上传照片、并设定性别、年龄、性格、爱好,甚至声音等。文字交流之外,Synclub还能够提供语音聊天和互发照片功能,随着对话逐渐深入,聊天界面上方的心动值逐渐增加,用户还能够与AI解锁专属的昵称、成人话题、照片等更多的“擦边福利”,当然,如果想完整、长期体验这些功能,用户需要支付9.99美元/30天19.99美元/90天

此外,这款产品还提供了“朋友圈分享”和“游戏模式”,用户可以与其他用户进行点赞留言互动,并且匹配PK玩游戏。

笔者体验下来,或许是得益于正式使用前的一系列详细设定,Synclub真正将角色扮演做到了“极致”,对话极少表现出自己是一个数字人,而是会强调自己是一个真人。更甚至,在一些文字对话后,会突然蹦出一句语音,像极了现实中人类聊天的样子,沉浸感受拉满。

总体而言,Synclub中AI创作的二次元形象非常贴合日本用户审美,其中不乏一些擦边的角色和“涩涩”,或者说直白点,从整体调性来看,这款产品其实更偏向于成人向内容(尺度略大,不截图了)。去年3月初上线后至今,Synclub在日本地区的双端下载量约为30万,双端累计商店收入约为7.5万美元,从日本用户付费情况来看算不上太过乐观,但根据data.ai,其日本地区的下载量大多是自然下载安卓端中80.62%为自然下载,iOS端则达到了惊人的100%

(图源:data.ai)

所以就以上两款产品总结来看,日本市场在AI社交陪伴赛道尚且处于刚起步状态,结合日本社会现实,无论哪个年龄层,都有着社交需求,对AI类社交陪伴产品是有一定包容度的,潜力空间较大(甚至日本政府也非常重视这类产品的“教育”性)。对于厂商而言,目前集中于创意和产品本身功能性的路线更能够带来前期的口碑积累,至于变现和商业化,仍需要一定时间。

三、结语

AI社交陪伴赛道正涌现无数新秀,从Z世代年轻人、中青年人到“银发”人群,如今的厂商尝试用AIGC的创新能力拓宽情感陪伴的边界,这之中,也包含许多需要谨慎思考的“灰色地带”,比如监管和隐私问题、伦理问题等。目前,如Synclub一样偏成人内容的AI陪伴产品不在少数,比如SpicyChat AI。充满诱导性和遐想的场景、对话大大增强了产品的短期吸引力,助推其在4-6月收入超过5万美金。

不过,就像开篇宣称要在三个月后结婚的52岁大叔,也很清楚地表达出“如果有可能,还是会考虑在现实中找到伴侣”,AI社交陪伴产品也需要意识到,AI所提供的情绪价值有限且并非无可替代,所以相比短期获益,如何能够持续吸引用户并且实现长期的、健康的盈利,是进入任何一个海外市场都亟待解决的问题

虽然AI数字人的诞生并非为了取代真实的人类价值,但当一个数字人能够给予人类不亚于真人的表达和情感陪伴,这种需求就应该得到重视。

它,想给AI搜索醒醒脑

aigc阅读(57)

前两天,有个融资新闻传到了国内。

地址在加利福尼亚州旧金山,日期是7月16日。一个专门研究如何在人工智能时代改进搜索的实验室,Exa,宣布:融到2200美元。

这笔钱Lightspeed Venture Partners带头。还有英伟达(NVIDIA)的风险投资部门和Y Combinator也参与投资;目的是帮助Exa快速发展,打造一个全新的搜索引擎,专门服务于人工智能。

什么?帮助人工智能,打造全新搜索?是的,你没听错。他们要给人工智能加个“外脑”,或者说,在搜索功能上加点新东西,让AI搜索更强进。

这让我很好奇,Exa到底是个什么样的公司?有什么特别的技术?创始团队背景是怎样的?为什么这么多资本投他们?

带着问题,我进行一番探索,发现一些不同的线索。

01

首先,你可能不信,Exa创始人很年轻,思想很前卫。

首席执行官Will Bryk现在27岁,联合创始人Jeff Wang才26岁。不过,你可能会惊讶,这两位好朋友在ChatGPT推出之前就已经创办了这家公司。

那么,这家公司是做什么的呢?

Exa公司位于旧金山,是Cerebral Valley AI社区的一部分。这是一个国外专注于人工智能、机器学习、自然语言处理和数据科学的社区。

最开始,Exa构建一个工具,这个工具能让人工智能模型做类似网络搜索的事情。这主要包括了从互联网上查找信息,以及帮助客户回答问题的人工智能聊天机器人,还有一些公司希望用来策划培训数据。

创始人早些年花100万美元买了GPU,他们使用矢量数据库和嵌入技术(这不是基于经典Transformer的大型语言模型),开始建立一个机器学习模型,模型被训练来本能地理解链接,而不是单个的词或句子。

Exa公司的创始人Will Bryk,解释了他们的搜索引擎和普通搜索引擎有什么不一样。他说:

通常AI搜索,像变形金刚,会猜你接下来可能会说什么单词;但他们的搜索引擎不是猜单词,而是猜链接,也就是你浏览网页时可能会点开的下一个网址。

我们是看大家在网上分享什么链接,来训练搜索引擎,所以,是一种全新的方式,不同于一般的搜索引擎只根据关键词来找东西。

就像大型语言模型通过提供最有可能的下一个单词来完成句子一样,Exa的系统会提供最有可能的链接(可能是十个)。但是,你不会在里面看到像在普通搜索引擎中那样的搜索引擎优化的垃圾信息,或者那些讽刺的、由人工智能生成的无用内容。

Jeff Wang说:

公司最初目标不是为了服务人工智能,而是,想探索怎样利用人工智能来打造更好的搜索。

Exa之前有一个免费版本,允许任何人有限地尝试使用我们的搜索引擎,除此之外,还有几个不同等级的付费服务。这样,Exa能赚一些钱,除了运行自己的 GPU 集群外,Exa 的产品托管在 AWS 上。

结果,当ChatGPT爆火之后,很多人工智能公司开始向Exa请求他们的搜索引擎API版本,以便能将用到自己的模型中去。

之后事情就一发不可收拾了,现在已经有数千名开发者在使用我们的产品,客户也越来越多,从那以后,Exa获得了极大的关注。

例如:

Databricks就是Exa的一个大客户,它主要用Exa来为自己的模型培训计划寻找大型的训练数据集。

不难看出,这家公司并不像谷歌、Perplexity这样基因的公司,它们专注开发针对人工智能需求的技术,一开始用户群体是B端、针对AI搜索创业有需求的团队。

那么,Exa公司的创立的原因是什么呢?

创始人们对现在的互联网环境很不满意。他们觉得,互联网本来是个找信息很方便的好地方,现在因为大家争抢注意力变得越来越商业化,也变得扭曲了。

尤其是谷歌搜索,在谷歌,有一整个行业叫做搜索引擎优化(SEO)。这个行业目的,是用各种技巧让网页在搜索结果里排名靠前,这样就能吸引更多人的注意。

结果就是,哪怕你只是简单地想知道“感冒了怎么办?”你也会看到一大堆网站在争抢排名,而不是真的提供最有用的信息。

02

嗯,的确是不错的想法。我带着好奇也进行了测试。

打开官网,映入眼帘的几个英文:The web, organized(AI的搜索引擎),显然,搜索引擎不只是为个人使用,更多是为AI搜索服务的;实际上个人也可以用。

我搜的第一个问题是:Exa和Perplexity有什么不同?

它并没有像其他AI搜索软件那样,直接给我答案,而是展示一堆列表;在Exa的搜索结果里,左侧有固定类别的分类,我可以按照PDF、GitHub、公司、新闻、纸媒、推文、播客帖子等来筛选信息源。

当我点击“公司”类别后,就能看到来自各种公司网站的相关信息。

比如:

它给我显示一条9个月前Perplexity官网的帮助文档。点进去后,里面有关于Perplexity的介绍,说Perplexity是获取信息的最快方式,是一个工具,能让全世界的人用自己的语言或在自己的水平上学习任何东西。

我也可以不点进去,直接把鼠标悬停在标题上,右侧就会出现一个摘要,自动形成一个总结文档。我还可以直接与这个文档进行交流。和其他AI搜索一样,下面还推荐了几个相关问题。

进行多轮测试,可以肯定,只要点击“新闻”,显示出来的都是引用自各大媒体的报道,比如华尔街新闻、TechCrunch等。

如果想看博客帖子,点击这一栏后,显示的是社区论坛博主们的思考,有来自于知名平台的,也有来自个人网站的。我随机点击几个,发现博主们内容质量很高,几乎都是各垂直领域的专家。

此外,Exa还可以按一天、一周、一个月、过去一年或任何时间筛选信息源的发布时间。

它还增加了域过滤器和短语过滤器:

域过滤器可以限定搜索范围,只在特定的文档字段或域中进行搜索,这可以提高搜索的精确度和效率。

短语过滤器,则用于处理和匹配特定的词组或短语,它会考虑词序和词之间的距离,确保搜索结果,更精确地匹配用户的查询意图。

不过,一个缺点是并没有给我直接的答案。可能是因为关于Exa的报道本身就较少,所以它没法自己创造内容。

这真的很技术思维,并不像谷歌、Perplexity用户体验感那么强。

我也遇到一个问题,当我搜“IPD是什么”时,它没有给我想要的答案。我意识到问题太过简单,于是我重新提问,加上IPD(Integrated Product Development集成产品完整表达,它才给我过滤掉那些和我意图不一样的内容。

它的索引能力真的很强。

9年前、16年前的内容都可以给我找出来,这些内容也并非完全可以使用,点进去看,明显有些逊色,而且居然有一些是卖书、卖专栏的产品广告,它们在广告中加了IPD方面的内容,外加上网站权重比较高,就被索引出来了。

据此,从个人使用感受来看:

Exa的优点在于:

  1. 找资料利器,索引能力强、筛选条件多,非常适合技术人员使用,不适合小白用户。
  2. 还原过程指标,把结论放在单篇文章上,而不是一个问题上。

缺点则是:

  1. 无法给出直接答案,我一个个筛选信息源,点击查看;
  2. 有些信息源不准确,这可能和我选择的筛选条件有关。

03

紧接着,我又拿Perplexity进行测试。Perplexity更友好。

从Perplexity的介绍里,我可以明白:

Exa主要为AI系统和开发者设计,它的工作给AI提供需要的知识和数据。而Perplexity则是给普通人用的搜索引擎,提供问答式的搜索体验,所以,这两个是完全不同的产品。

除此外,Exa定位为AI搜索的中间层,提供API服务,整合世界知识为AI系统提供数据,Perplexity是一个端到端的搜索引擎,直接给用户提供摘要。

我详细查阅了一下,Exa使用Embedding技术来理解语义,能搜索Twitter、GitHub、Reddit等多种数据源;而Perplexity则采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等语言模型。

那么,它们二者有什么区别呢?

你可以想象一下,你有一堆玩具,每个玩具都有它的名字,比如“小汽车、洋娃娃、积木”。现在,要把这些玩具的名字告诉一台机器,让机器理解并记住它们。但问题是,机器不懂我们的语言,它只懂数字。

怎么办?

Embedding技术像一个魔法转换器,它可以把“小汽车”这样的名字变成一串数字,比如[1, 2],把“洋娃娃”变成另一串数字,比如[2, 3]。

这样,每个玩具的名字就都对应一串数字,机器就能通过数字来“理解”和区分不同的玩具了。

更神奇的是,这个技术还可以让相似的玩具有相近的数字。比如,“小汽车和卡车”可能都是车,所以它们的数字会比较接近,而和“洋娃娃”的数字就会远一些。

所以,Embedding技术,是帮助机器通过数字来理解和记住各种信息的一种方法。

而GPT-4o API和Claude-3不一样,它们本意上是已经被开发好的一个语言模型,Perplexity只是把不同的模型整合起来,去做写文章、回答问题、聊天的动作。

所以,很明显,Embedding技术和GPT-4o API、Claude-3的最主要区别是:

前者能把词汇、图片等变成一串数字,这样更容易让计算机学习和使用;后者更贴近用户,帮助我在网上找到你需要的信息,比如新闻、图片或视频等。

因此,我们可以得到一个结论:Exa是一个为AI和开发者服务的高级搜索工具,它更注重于数据的深度整合和技术处理;Perplexity是面向普通用户的搜索引擎,注重直接好用的便捷性,两者不是一个赛道。

04

关于Embedding技术,中国也有不少研究者在讨论。

我查了一下:

百度智能云的一篇文档里,深入讨论了Embedding技术在推荐系统中的应用。

这包括怎样更好地推荐用户和商品,还有序列推荐和知识图谱的应用。这些技术把零散的数据变成连续的向量(就像一串串数字),提高了推荐系统的表现和准确度。

还有一个技术博客的作者,在他的文章中也详细说明Embedding技术,在58同城房产相关业务和推荐场景中的实际应用[1]

李乾坤,在GitHub博客上也详细描述Embedding技术的原理和它在自然语言处理中的应用。像Word2Vec和GloVe这样的模型,就是通过把单词变成高维的向量,来捕捉单词之间的语义关系[2]

我不是太懂,把它罗列出来,供你参考,相信这门技术在国内也能很快用到其他场景上。

那么,我们是否可以说:这项技术在迭代传统以整合信源为中心的AI搜索引擎呢?我不知道,至少觉得它具备一定的市场需求。

比如:

前一段时间有篇文章特别火,叫《中文互联网是否会消失》,抛开争议就整体而言,大家认为中文互联网内容并没有迅速消失,相反,中文内容在全球范围内的比例在增长。

根据W3Techs数据,截止到2024年7月,中文内容在全球网站上的使用比例为1.5%,中文和印地语内容的比重都增加了超过10倍(注:W3Techs一家专门提供数据分析的机构)。

这说明什么?互联网数据并没有消失,我们要特定工具把它给找出来。

国外风险机构Lightspeed,投资完Exa后,分享了一些关于未来智能体网络的想法。他们提到:

最近,一直在思考一个全新的,支持AI智能体的网络基础设施,这种网络会和我们人类用的网络不一样,因为AI智能体和人类需要的东西不同。

为什么需要智能体网络呢?

  1. AI智能体要获取最新且准确的信息来完成任务。虽然现在的大型语言模型能记住很多数据,但,这些数据很快就会过时,而且不容易找到需要的信息。
  2. 虽然现在有了检索增强生成(Retrieval-augmented generation)技术,它帮助大型语言模型能够处理训练数据之外的信息,但这些通常都是私人或内部的信息。

理想情况下,AI智能体应该能通过API检索整个公共互联网的信息,这就要新的基础设施——也就是智能体网络。

但是,建设这样的网络,面临很多技术和经济上的挑战。现有网络基础设施,主要是为了服务广告商,而不是用户,传统搜索引擎更关注广告点击和展示,这就导致了“SEO”产业兴起。

内容质量并不总是最重要的。

比如:当你搜“精通Go语言的软件工程师”,理想搜索引擎,应该给你工程师的个人网站或社交媒体资料,而不是一些讨论Go语言的网页。

好的搜索引擎应该能理解“实体”的概念,而不只是泛泛地讨论一些话题。所以,AI想要的搜索结果,可能和人类需要的不一样。

AI用的搜索引擎不应该显示广告,应该直接显示结果,不幸的是,现在人类和AI使用的是同样的搜索结果,这种“一刀切”的方式很糟糕。

Exa 的用武之地就在这,它是一个为AI智能体,专门设计的基于嵌入技术的搜索引擎。

它获取并索引网络上的最新内容,并通过一种独特的“链接预测”模型,通过搜索API,把数据提供给基于大型语言模型的应用程序;这个模型被专门调整,以便更好地理解搜索查询并从索引中返回相关链接。

这好比:当你向图书管理员询问关于某个主题的书时,他不仅迅速找到了与这个主题相关的书,还确保书正是你现在最需要的那一本。

有了 Exa,互联网变得又新又有趣,AI需要一种新的方式来访问信息,它正在执行和设计适用于AI和互联网信源革命的任务。

是不是很有趣?简单讲:它想给AI搜索引擎“洗个脑”,做中间部分,左手深度检索信源后,右手投喂给大语言模型,让它更聪明、更高效。

总结

中国,什么时候有这样的公司?

很快了,值得期待。最起码,这两位年轻人的创新想法,让人们看到了新的机会点。

参考:

[1]. DataFunTalk. (2020, June 16). Embedding 技术在房产推荐中的应用. from:https://www.infoq.cn/article/hcii9dfu4aaat8se2id9

[2]. Li, Q. (2022, March 2). Embedding的原理及实践. from:https://qiankunli.github.io/2022/03/02/embedding.html

智能体爆发前夜,大厂们都在抢什么?

aigc阅读(43)

2024年已经过半,国产大模型的竞争也进入了白热化。

如果说大模型的上半场是在卷基础能力,那么中期的竞速赛中,AI Agent(智能体)的竞争已经被提上了重中之重的议程。

无他,智能体就是应用落地最重要的产品形态。

但从当前情况来看,国内外却已然走向了不同发展路径。微软和OpenAI的GPTs发展受阻,而国内却涌现出越来越多的玩家和智能体开发平台。

如字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼、科大讯飞星火智能体平台等。

除这些大厂外,包括智谱AI、面壁智能等大模型创业公司,容联云、思迈特等SaaS公司,钉钉、飞书等协同办公赛道企业等,都在加码智能体开发和应用落地。

无疑,国内大模型的下半场竞争,已经开始“卷”向智能体的开发和应用,并逐渐形成了一个多元化、竞争激烈的生态系统。

那么,微软和OpenAI这一行业风向标都没做好的智能体,为什么国内企业却如此看好?在这场智能体应用之战中,面对日益同质化的产品和服务,各企业又该如何卡位竞争?

AI时代,智能体平台将成为主流的应用开发阵地,但面向C端的分发目前依然要依托当前的流量主阵地——抖音、微信、淘宝等,面向B端的分发则依然要通过各大ISV(第三方软件服务商)。

各家大厂争夺的依然是AI生态,而其他企业则聚焦在垂类场景的落地。

但在此过程中,如何让智能体真正用起来,实现商业变现,则成为考验各企业智能体开发的重要挑战。

一方面是面向C端的应用,智能体能够成为每个人的智能助手,真正的解决日常问题。另一方面则是面向B端企业场景应用,通过整合大语言模型、知识图谱、检索增强生成(RAG)、智能体和管理平台等关键技术和产品手段,为各类政企和机构构建“企业大脑”。

但从当前整个行业发展状态来看,随着微软放弃C端消费市场,Open AI的GPTs也未实现真正的商业利益共享,短期内,智能体在C端真正实现商业化落地的希望并不高,但在需求众多的B端企业服务中,或许能找到合适的落地应用场景,比如办公AI助手、销售助手、研发助手等。

一、大厂要生态,小厂要聚焦

目前,智能体赛道已挤入众多玩家。

据光锥智能不完全统计,互联网大厂中,百度、阿里、腾讯、字节跳动等皆已布局智能体赛道,并推出一站式智能体开发平台。华为方舟实验室此前也发布了一款盘古智能体框架(Pangu-智能体),但目前相关应用信息并不是很多。

据不完全统计,互联网大厂中,百度、阿里、腾讯、字节跳动等皆已布局智能体赛道,并推出一站式智能体开发平台。华为方舟实验室此前也发布了一款盘古智能体框架(Pangu-智能体),但目前相关应用信息并不是很多。

在大模型创业公司中,智谱AI、面壁智能,已推出智能体开发平台,月之暗面、零一万物、百川智能等企业,则是以AI应用助手的产品形式为主,暂未推出智能体开发平台。

相比较来说,互联网大厂所面向的用户群体更全,聚焦的场景更广泛,目前更多的还在于让更多的用户能够使用其平台,不断扩大自身AI开发者生态,并借助自身在内容生态等领域的优势,为智能体的开发和变现提供渠道,如腾讯的微信生态、字节抖音、豆包、头条等。

而大模型创业公司,智谱AI在大模型能力上虽然全面对标OpenAI,但商业化却更倾向于走B端道路,所以其智能体平台虽然也支持个人开发者,但更多是引流获得更多用户的数据反馈,商业上倾向于做智能体+行业解决方案的落地。面壁智能则坚定地走向了端侧AI,智能体未来恐怕也是为端侧场景服务更多。

值得一提的是,在原有的企业服务赛道里,智能体焕发出了新活力。

在协同办公场景中,飞书和钉钉都已在智能体赛道进行布局。

此前,钉钉推出了AI助理服务,钉钉上的用户可以根据自己的想法和需求,打造一个在钉钉内部、第三方以及企业自建应用之间“自由穿梭”的AI 智能体。

除AI助理之外,钉钉此前还发布了AI助理市场(AI AgentStore),这就相当于为企业构建了一个数字人才市场,覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目,一个多月以来,上架的AI助理数量已超700个。

而飞书则通过开放的AI服务框架,使企业可以根据业务场景自主选择合适的底层大模型,并创建智能伙伴用于内容创作、数据分析、系统搭建、研发助手等业务场景。

两者的区别在于,飞书认为智能体需要与原先的作业流程深度嵌合,而钉钉则认为智能体相对独立,像员工一样具备流动性和交易价值。

此外,像容联云、思迈特等SaaS企业,此前也展示了自身在智能体赛道的布局和相关产品。

区别于上述企业智能体开发路径,SaaS企业更专注于垂类场景的智能体应用。如容联云的容犀Insight Agent(容犀IA)、容犀Virtual Agent(容犀VA),专注于营销、销售、服务等场景。

另外,还有一些专注于智能体开发的创业公司。

比如Dify.AI,成立于2023年5月,是一个基于LLM应用开发平台,支持超过10万个应用的构建,集成了Backend as Service和LLMOps的理念,适用于构建生成式AI原生应用,主打基于任何LLM都可以创建AI 智能体。

还有专门针对金融行业打造智能体开发平台的深擎科技;聚焦为企业开发虚拟“数字员工”的实在智能;既有面向C端智能体开发服务,又有面向B端企业提供AI数字员工解决方案和云服务的汇智智能等等。

由此也不难看出,在这场智能体应用的战场中,不同的企业所聚焦的场景不同,最终想要实现的目的也不同,大厂想要生态,小厂想要聚焦到场景。

于互联网大厂而言,更注重AI生态的构建,实际售卖对底层大模型和云算力的调用能力;而飞书、钉钉所争夺的,则是聚焦到了企业办公场景中,瞄准的是企业内部知识库的智能体化,主打企业数智化转型的一张牌。

容联云、思迈特等所争夺的,则是局部场景的进一步智能化,比如智能客服、智能投顾等。聚焦智能体的创业公司,也同样如此,虽然是推出了智能体开发平台,但更多的还是聚焦重点应用场景,推出相关智能体开发服务,所谋求的还是在场景中找寻智能体商业化变现路径。但相对于此前有积累的互联网大厂和企业服务公司,从0到1找场景、找需求是一件很不容易的事。

当前,诸多玩家已经在智能体赛道形成了多元化竞争格局,不同的企业依据自身的优势,聚焦在不同场景中做智能体开发应用。

在此过程中,谁能够率先走通智能体的商业化落地,并实现真正的变现,谁才能够真正的走到最后。而具有强大资源优势的大厂,或将对创企造成碾压式竞争压力。

二、C端突围短期渺茫,B端应用重在场景

当前,智能体赛道已经处于爆发前夜,行业中也急需寻找可落地的商业模式。

从应用角度来说,C端智能体的定位是个人助理,自然交互是基本要求,个性化是提升体验的关键。B端智能体则需要提供更丰富的插件选项和更灵活的工作流设计功能,且通常还需要集成数据标注、模型微调等功能,以更好地满足企业对模型垂直能力的需求。

通俗来说,C端智能体需要有创新的体验效果,B端则需要扎实的专业能力。

开发C端智能体应用主要有2种方式:

一种,是个人开发者基于智能体开发平台,自主开发一款自己想要的智能体,比如此前扣子平台上,一位北京5年级的小学生利用扣子平台开发了一款英语外教智能体,供自己日常使用。

另一种,则是企业自己开发的智能体AI助手,供C端用户使用,软件类型的如月之暗面的kimi,硬件类型的如科大讯飞的AI学习机等。

字节扣子平台上爆款Bot应用

基于大语言模型能力,现阶段C端智能体更多是以对话类AI聊天机器人的形式出现,不管是个人用户自己开发的智能体,还是企业推出的相关应用产品,基本都是你问我答的形式。

如教育场景中的AI老师、AI学习助手;在旅游出行场景中是AI旅游规划师,可以帮助用户进行旅游规划;游戏场景中,则可以进行AI角色扮演等。

“如果每个人都能拥有一个足够智能和好用的助理,这种科技带来的平权将催生重大的产业变革。这可能是C端应用的一个重要方向,也是令人兴奋的前景。” 智源研究院院长王仲远认为。

但截至目前,C端智能体并未出现一款真正的爆款应用。

事实上,从C端用户角度来说,智能体更多的是被集成在APP中,但从当前大模型能力来说,智能体尚不能够为用户带来颠覆式的AI体验效果。

从个人开发者的角度来说,虽然现阶段智能体开发平台能够一句话就开发出一款智能体,但想要开发出一款真正好用的智能体,还是需要有极强的编程能力,背后涉及到如何输入专业明确的指令词(Prompt)、如何调动合适的知识库、工作流等众多插件能力。

字节跳动豆包MarsCode市场运营负责人赵旭东表示,个人开发者开发智能体应用,还要看其追求什么,如果目的是为了快速盈利,就可以利用扣子平台搭建一个前端产品,就能够切中其具体的需求场景。“但如果想要打造一个极其优美的页面,个人开发者是很难做出来。”

于企业开发的面向C端场景的智能体应用产品,整体体验效果虽更好,却并不能够完全突破场景的桎梏,并且,在具体场景中,此前已经有相对应的爆款应用。

钉钉总裁叶军也曾指出,百万千万级的 GPTs 目前看相对来说形式比较单一,没有传统软件那样强大的业务理解能力,因此目前 GPT Store 中的应用很难成为高价值产品。“尽管 GPTs 的创建能力很强,甚至一天可以创建几十个,但它目前还代替不了传统软件市场。”

ChatGPT推出的不同形态的Agent(智能体)能力

如在搜索领域,除百度搜索,近年来抖音、小红书、今日头条等APP也都能够为用户提供信息搜索,且这些产品在AI时代中也在基于AI重塑整个产品的业务体系,能够为用户提供智能体服务。

因此,包括月之暗面的kimi、昆仑万维的天工AI等AI助手应用,能够随时回答用户提出的各种问题、速读文件、整理资料等,其整体活跃用户数量已经超过百万级,在一众AI助手里已经是第一梯队,但也很难达到千万级的爆款应用。

从这些角度来说,以大模型能力为基础的智能体,短期内在C端出现爆款应用的希望并不是很高。相反在B端企业服务场景中,由于专业性要求高,反而能够找到合适落地场景。

在光锥智能不完全统计中,除互联网大厂百度、字节跳动和腾讯的智能体开发平台,支持所有开发者进行智能体开发外,其他绝大多数是面向B端企业,做企业智能体开发和服务。

“我们和GPTs完全不一样。”叶军此前如此说道。

钉钉和飞书作为专注于企业办公赛道的平台,其具有天然的B端场景优势。

于企业而言,企业应用生成式AI的核心目的,是为了提高企业经营研发效率,而生成式AI在企业中应用的关键,则在于企业知识库数据的喂养。通过结合企业自身的知识库,企业级的智能体能够为企业内部发展提供高效的运营流程和产品服务体验。

比如在HR场景中,人力资源部门主要职能包括人力资源规划、招聘、培训、绩效管理、薪酬管理、员工关系管理等方面,且每一家企业都有自己的人事相关流程内容。

通过将内部人事数据的积累,企业可以形成对应的知识库数据,并将其“投喂给”智能体,就可以开发出一款最懂这家企业人事流程管理内容的AI助手。

以飞书为例,去年11月,其发布了“飞书智能伙伴”等系列AI产品,飞书用户可以通过创建一位“AI同事”的方式,实现会议要点提炼,生成文档、表格、导图,数据分析等功能。

飞书的企业用户,则可以通过自身的知识库,搭建一个更懂企业运营流程的智能体,比如HR 智能体,其可为内部员工提供运营流程的相关问题解答,包括如何报销、如何走出差流程等。

B端企业场景中,不同的业务,不同的部门,其实对生成式AI都有需求,且都能够通过企业知识库搭建智能体,以提高业务运营效率。

因此,B端场景的智能体应用,更注重具体的应用场景,以及企业自身知识库能力的搭建。

但是,相比较来说,B端企业用户会更注重企业数据隐私安全,此前有业内人士对光锥智能表示,搭建智能体时需要外挂知识库,担心数据泄漏问题,“一不小心可能就上传了”。

“Dify.AI可实现企业本地化部署,适合做企业知识库搭建。”一位开发者如此说道。

此外,众多企业聚焦B端赛道,更重要的还在于能够真正的实现智能体应用的变现。

其中重点变现方式则是以企业调用大模型API接口为主,创业公司Dify.AI的收费方式则是按照APP的会员制形式,以企业具体的需求,按年和按月付费,并提供不同的服务内容。

综合来看现阶段智能体赛道的竞争格局,从生态资源和技术实力层面来说,互联网大厂无疑凭借着全面的技术生态和强大的资源整合能力,占据着智能体市场的主导地位。

但B端需求多,且有很多小的场景,于其他中小企业而言,只要能够基于自身的技术和产品优势,持续深耕,也能在智能体市场中占据一席之地。

不过,当前B端需求虽多,以及存在切实的场景需求,能够使智能体快速落地应用,但小而专的场景中,最终是否能够真的“跑”出一个超级应用,并实现盈利,还存在诸多不确定。

三、Agent Store的争夺战

AI时代,软件应用生态正在被重构,APP Store正逐渐转向Agent Store。

在IDC发布的《2024 AIGC 应用层十大趋势》中曾提到,新一轮AIGC之争,也将会是一场流量入口之争。

不管是C端,还是B端,中国企业在智能体赛道所争抢的,本质上则是AI时代的流量分发入口,尤其是以互联网大厂为主。

据统计,目前阿里通过钉钉,构建了AI Agent Store;字节跳动扣子平台、腾讯云元器、百度智能云千帆AgentBuilder等平台,都具备智能体商店功能,并支持一键分发多个渠道。

其中,钉钉主要支持将平台上的AI助理分享给平台内部用户;字节跳动扣子平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。

百度则提供了百度生态矩阵分发路径,打通百度搜索、小度智能硬件平台、文心一言、地图、车机等多场景、多设备,实现“开发+分发+运营+变现”一体化赋能。

腾讯云元器则支持发布到元器、元宝、QQ、微信客服等平台,同时支持以API的形式供三方软件进行调用,初始用户有一个亿token体验使用额度,额度用完后,将无法调用,已上线API付费能力,付费后,可支持更多次调用。

事实上,相比于中小企业聚焦某些重点场景做智能体开发和应用,于互联网大厂而言,决胜的关键则在于其生态运营能力,以及前端是否有足够的场景化牵引力。

毕竟,在互联网时代和移动互联网时代,大厂们都已经构建了各自的流量分发入口,那么在AI时代,大厂们也都存在着FOMO(不可错过)心理。

中国智能体市场正处于快速发展阶段,多类型企业的参与为市场注入了无限活力,一个比互联网和移动互联还繁荣的黄金年代,正在徐徐拉起大幕。

独家专访戴勃:被低估的Real to Sim和3D动态内容生成的未来

aigc阅读(55)

今天我们邀请到的嘉宾是上海人工智能实验室的科学家戴勃老师。戴老师目前在上海人工智能实验室领导内容生成和数字化研究小组。2023年,戴老师参与发布的 AnimateDiff 在学术和产业应用领域都取得了广泛关注,国内大厂基于此发布了多项落地应用,目前 AnimateDiff 获得万枚 Github Star,Civitai 下载量破 8 万次。

在访谈中,戴老师为我们分享了他是如何思考视频生成技术和应用,以及生成式AI的研究逻辑和路线。戴老师还分享了他对于 Real to Sim to Real 闭环的看法,以及对构建真实世界模拟器(World Simulator)的设想。Enjoy!

01. AI视频“开源先锋”,从 AnimateDiff 开始

SENSEAI: 请戴老师介绍一下自己和主要的研究方向吧!

戴老师:我 2014 年从上海交大 ACM 班毕业后去了香港中文大学 MMLab,学习和研究的方向一直是 AIGC 相关,今年正好是我在 AIGC 这个研究领域的第十年。

在这一波生成式AI火爆之前,好几年前就开始研究多模态图像到语言描述的生成、场景图像的生成,接着往高质量动作的视频理解探索,2020 年首次将生成式先验引入了图像修复和编辑领域,再到 2022 年我们首次把神经辐射场(NeRF)做到了城市级别的重建和渲染。

去年我们的工作在文生动画、3D、动作等方向也都取得了比较全面的进展,其中 AnimateDiff 大家可能更熟悉一些。AIGC的研究方向一部分是要尽可能的把三维动态内容的重建和生成做好,在我看来 Build World Simulator 当前的关键是也是Real To Sim。

SENSEAI: 为什么 Animatediff 可以广泛应用,您是怎么思考技术和应用的结合?

戴老师:AnimateDiff 算是已经被证明的一次往产品应用上的尝试,几家头部大厂也在用它的权重去微调。最近在 GitHub 上应该接近上万 star 数,Civitai 上的下载量也有近 8 万次了。

AnimateDiff 更像是一个插件,可以与工作流中不同的部分比较好的耦合,所以它是源源不断的在创造新的形态。一年多前文生图社区火爆起来,从文生图到把图片动起来的用户需求也就呼之欲出了。所以我们开源了 AnimateDiff,用户无需特定调整就可以完成个性化文本到视频动画的制作。

从去年 7 月到 12 月发了三个版本,在 Fidelity (保真度)和 Controllability(可控性)上对模型进行了迭代。其实相关的工作还在继续,但得到更多的行业真实需求反馈后,对单纯文生视频的局限性有了比较清醒的认识,所以是一直在尝试其他的一些办法。

SENSEAI: 视频生成是非常火热的主题,您认为技术路径收敛还要解决哪些问题,如何理解视频生成的技术路线和技术局限?

戴老师:首先,我相信文生视频、包括最近也比较火的文生3D在巨大的关注下一定还会取得不错的进展,但是在多长时间内、多大程度上能满足用户或者行业的需求,我觉得还是要理性看待。

“可控性”是当前受到关注的焦点。语言文本的表达力是很有限的,设计更好的多模态人机交互的方式就很关键。

通过无比详细的文本提示词和不断 scale up 的视频模型,把原本视频里的各种细节都囫囵个生成出来应该不是一个好方式。我会认为这个世界上的场景、人、物本就不是粘连在一起的,有相对独立的结构和特性,更何况还要这一切符合物理规律。

OpenAI在报告里称“Scaling video generation models is a promising path towards building general purpose simulators of the physical world.” 其实 World Simulator 才是需要深入思考和提前布局的事情。

SENSEAI:后续在视频生成上,您有怎样的期待和研究兴趣,视频生成的交互和应用您如何畅想,您怎么理解视频生成对自动驾驶和具身机器人的价值?

戴老师:虽然现在文生视频很火,也没必要去按照简单粗暴的方式去follow。AnimateDiff 只是我们工作的一部分。

从世界模拟的层面来说,环境、人和物理规律是缺一不可的,所以在过去的几年我们一直在做相应的工作。比如在场景环境方向,我们通过NeRF和Scaffold-GS把城市级实景三维重建做到了极高的训练和渲染效率(书生·天际 LandMark),在人物和物理规律结合方向上,我们做了Controllable Motion Diffusion Model、Pedestrian Animation Controller in Driving Scenarios等物理感知交互(Physics-aware Interaction)相关的工作,同时通过与LLM结合等方式向更复杂的自然动态与仿真去做研究和工程尝试。我们跟CMU、Nvidia、Stanford等一些顶尖的团队,包括一些做自动驾驶、机器人相关的团队在研究上也一直有深入的探索。但我们自己暂时还不想一步踏到具身智能中去。

SENSEAI: 您的研究里,有视频生成,有3D生成,有世界模拟,能讲讲这背后的思路和终极目标吗?

戴老师:其实我做研究的底层逻辑上,一直非常注重科学规律的指导,我们认为生成式AI的技术迭代与突破实际上是遵循 Fidelity-Scalability-Controllability-Accessibility (真实度-可扩展性-可控性-可用性)这样的一个循环。

所以近一年的时间一直在想办法解决“可控”和“可用”的问题,无论是用户操作上的还是成本层面的。无论是视频和3D生成,还是通过 Build World Simulator,都是为了更好的进行理解和仿真,利用 Real To Sim 与 Sim To Real 共同构建整个虚实结合的闭环。

Fidelity-Scalability-Controllability-Accessibility

SENSEAI: 在您眼中,生成式AI有怎样的特性和模式,transformer 和 scaling 是不是这一代技术的终极解法?

戴老师:就像我前边讲的,Fidelity-Scalability-Controllability-Accessibility这样的一个循环的科学规律,和我们在实际研究和应用中需要攻克的问题,构成了一个螺旋上升的形态,会经历多次的循环和迭代。

文本和语言只是多种模态中基础的一部份,很难说因为今天文本相关的 Chat 解决的不错了,就意味着生成式 AI 的技术路径和需要解决的问题就大致如此了。我们所看到的问题也许只是冰山一角,所以还是可以多一些耐心。Transformer当然是非常棒的突破,充分的利用好一定是可以加速很多的工作。

至于Scaling Law,如果我现在有十万张卡我愿意试一试,但我们经常会说“没有也行”,办法总比困难多嘛。在一部分恰当的步骤中利用好 Scaling Law 是比较理性的做法。

02.Real to Sim可能被低估了

SENSEAI:在具身智能领域,Sim to Real 是非常常见的,但您同时强调了 Real to Sim 的重要性,这套循环是怎么相互作用的?

戴老师:很显然只关注Sim To Real还不够。最近随着具身智能的火热,越来越多的人在讨论仿真,仿真使得我们可以在虚拟环境中模拟人类期望在现实环境中进行的动作和行为,并将这个过程中获取的数据、知识或者模型直接部署或使用到现实的应用和设备上,从而摆脱现实环境的种种限制,如安全性、隐私、事件发生频率、成本、时间周期等问题。

那么实现仿真的关键,是先将虚拟环境和现实环境从形象、结构和功能上完成对齐,这几乎是一个当前很难回避的问题。更为强大的Real To Sim能力,能从根源上解决 Sim To Real Gap 和诸多由此而来的瓶颈。但反过来讲,目前所能实现的 Real To Sim 也还没有那么理想,在有 Gap 的前提下如何更好的将在虚拟环境中获取的数据、知识或者模型利用起来就很关键。

Real To Sim 与 Sim To Real 共同构建了整个虚实结合的闭环,所以我们希望可以真正做到 Real to Sim to Real。由于虚拟环境和现实环境一样,是三维和动态的,Real To Sim的能力,对应的正是生成式AI中的三维及动态内容的重建及生成技术。

SENSEAI:Simulator上,英伟达有着非常大的生态优势,在您看来这个环节的重要性有多大,未来的发展趋势如何,有哪些技术可以更好的推进 simulator 的进展?

戴老师:这个问题非常好,英伟达拥有的更多是生态优势,同时 Omniverse 配备了非常强大的研究力量。在核心技术层面,我们也有一些我们的优势和侧重点,比如在 Real To Sim 和人物自然动态的仿真上。

英伟达希望通过丰富的算力资源+仿真平台的组合把大家都先集聚起来,但是最后一公里的问题依旧需要投入开发者,所以某种意义上大家应该是可以利用好Omniverse 和 Isaac 等平台去做出更加 Native 的应用。

此外,我们还可以反向思考一下,是不是如果用更优的模型+更少的算力消耗可以改变这一局面。我们近期有成果表明,的确是有办法在一些工作上实现计算资源指数级的调整。

03.有关世界模拟和3D内容生成的未来

SENSEAI:Sora 团队认为视频模型就是 world simulator 了,从笛卡尔的认知论角度,世界其实是我们感应器官映射后的解释,无法真的代表真实世界;那么视频模型是否可以超越我们感官颗粒度,眼见为真即为真呢?和数学驱动的世界模型,未来是取代还是共存呢?

戴老师:OpenAI 在报告里称 “Scaling video generation models is a promising path towards building general purpose simulators of the physical world.”这当中有几个问题,首先 Scaling 视频生成模型要 Scaling 到什么程度,其次这里的 视频生成模型是不是等同于今天我们看到的产品Sora。

我还是认为视频生成只是构建世界模拟的一种路径,可以看成是有益的一部份,但很难说他就是 World Simulator 或者 World Model。

SENSEAI:世界模型的意义是什么,都有哪些关键的要素,LeCun说的世界模型,李飞飞创业的空间智能,有怎样的异同?

戴老师:我们前边所说的 Real To Sim 的技术和其构建的数字世界,其实跟这些概念都有本质的联系。世界模型(World Model),几乎是一个非常大而全的概念。虽然大家对这个概念的定义不同,但大部分人描述的,正是Real To Sim所构建的虚拟世界。

世界仿真器(World Simulator),与世界模型相比,更强调仿真的结果,而非仿真的路径。所以大家也会认为视频生成可以作为世界仿真器,或者换句话说仿真不一定需要通过与现实对齐的三维、动态虚拟环境。但不同的仿真路径,在效率、效果、鲁棒性等方面可能存在天壤之别。

空间智能(Spatial Intelligence),更强调在 Real To Sim 构建的虚拟环境中通过仿真获取到的知识,实现感知、理解和交互能力。其实概念没那么重要,我们提前布局的和想做的方向现在逐步已经成为共识了,但在没有这个概念之前也并没有影响我们一直在做。

SENSEAI:我们看到 Luma、Viggle 都有基于 3D guidance 的视频生成,怎么看待3D和视频生成的关系?

戴老师:目前大家看到的一些所谓基于3D Guidance的视频生成,我不太好做过多的评判,还是以真实的效果为准。

Luma、Sora等视频生成的思路还是视频为主3D为辅,我个人觉得应该是3D为主视频为辅,更符合真正可控可用的Real To Sim的逻辑。

真实世界本来就是三维的,其实大家想在 Simulator 里完成的操作也都是3D的,比如视频的镜头转个角度、视频里移动一些元素等等操作其实细想都依赖背后的3D,Real To Sim 通过2D的视频来桥接,是不是真的必要,还是说只是因为当前阶段急需用视频来证明潜力,都值得深思。

SENSEAI:您的研究 3D 粒子系统能否讲一讲,未来可能对哪些领域有帮助,微观向宏观的指导和映射能有怎样的延展?

戴老师:您前期准备工作还挺细致的哈哈。前年的时候我们发过一篇Transformer with Implicit Edges for Particle-based Physics Simulation 的工作,最近我们也跟一些产业界的朋友在聊,发现大家都觉得这个非常重要。

这个工作的核心是探索AI在微观层面细致、复杂的物理模拟上的潜力。因为一个是因为这种微观的物理模拟背后涉及的流体力学、空气动力学本来就是物理学的重要内容,另外它也和我们的日常生活息息相关,无论是自然界中的风霜雨雪还是水,还是我们穿的衣服的柔性材料,物体爆炸产生的粒子反应等等。

从宏观的三维几何深入到微观的粒子间相互作用,AI就有机会帮助解决更多科学问题,因为很多宏观上看起来完全不相关的现象,在微观上是相似的。

SENSEAI:在您看来,3D生成的应用,需要像 visionpro 这样的空间计算和交互硬件的普及吗?或者还可能有怎样的应用?

戴老师:当然需要,未来空间计算和交互硬件的普及也许会创造全新的真实世界与数字世界的交互方式。VisionPro 发售后我第一时间买了一个,我们把自己重建和生成的一些内容已经在往这些设备上去做适配和交互。

对于终端设备大家可以有更多的耐心,同时终端的加速迭代离不开内容生态的繁荣,所以利用 AIGC 的能力把 3D 动态内容做到更高质量、更可控、更低成本是眼前更需要踏实去做的事情。

SENSEAI:可以再和大家分享一下三维动态内容的重建的研究进展吗,这部分对哪些领域的学术或者产业推动具有重要意义?我们的创新/领先之处在哪?

戴老师:三维和动态内容的重建与生成,这里边有三个关键词,三维、动态和重建与生成。三维应该比较好理解,只有在三维空间中的信息理解才能实现空间和物理的统一;强调动态,是因为只有动态的人与环境、人与物、人与人的交互被更好的呈现才能还原真实世界中的感知理解和行动规划;重建和生成,如果我们有办法无差别地将各种要素重建出来,那么生成的效果也就更有参考和依据,这也是为什么即便生成赛道这么火的同时, NeRF和高斯等相关的研究依旧被学术界和工业界十分重视。

我们算是有一些不错的进展,基本的思路还是把Real to Sim to Real中的难点解耦,场景、人、物理,把每一个部分都争取做到比较好或者说是可控和可用的水平,接下来我们就有机会再把这些部分耦合起来。

所以遵循这样的思路,首先是两年前就开始做场景的重建。通过大规模场景重建技术,为虚拟环境提供逼真的场景,比如采用全新的 Scaffold-GS 算法,可以达到既具备 3D Gaussian Splatting 的高性能渲染效率,也融合了多种经典 NeRF 表征的灵活性和高质量。这部分应该是在全球处于非常领先的水平了。在更高质量的同时,我们还往前多做了一些工作,通过对模型、系统、算子的升级,把所需的计算资源从原先的GPU降到了单张消费级显卡。

重建达到比较高的水平的同时,我们把生成的水平也提上来,所以也花了一点时间做了一些可交互的场景空间生成,从结构上向现实靠拢。几何和材质、光线等又是需要花精力认真攻克的部分,完全 Realistic 的生成还有更多研究需要做。

可控、物理可信的人体自然动态生成也是非常重要的一部分,可以为引入到虚拟环境中的真人,提供自然、实时的人体动态仿真、环境与人的交互仿真,以及多人交互仿真等能力。

当我们将这些技术组合到一起,环境、人和物理仿真,我们其实就具备了 Rea l to Sim 的可行性,并在此基础之上完成 Real to Sim to Real 的闭环。正如我前边说的,实现高保真的 Real to Sim to Real 要比我们理论推演的或者想象的难的多。

我们最近做了一个尝试,遇到了很多具体的具有挑战性的问题,包括研究和工程上的。大概目标是在一个逼真的虚拟户外场景中,尝试把人物角色耦合进去,并希望实现人物角色自发的、或通过各项指令,完成自然、多样的行为。现在做出来的 Demo 我们觉得只有二三十分的状态,但是定位到了很多值得攻克的问题,对我们来说很有意义。

SENSEAI:您想象中的终极模型是怎样的,会有怎样的性能和可能的商业价值,现有研究中有哪些已经可以进行商业应用

戴老师:想象中的终极模型未必是一个大模型,无论是一个模型还是一套系统,本质目标是要成本和可用性上都达到可控,这就需要在设计模型和考虑工程可行性的时候充分考虑产业的真实需求和想法。

结合 Nvidia 和 Meta 等在做的事情,把数字化内容做好是当前比较清晰的一个方向,真正的将3D、物理、动态通过多模态控制的方式设计好,这当中可能会涉及比较多的工程问题要解决。数字内容的生成能做好,我们就有机会向数字世界的模拟去靠近,从而实现数字世界向真实世界的映射,更好的与真实世界产生互动。无论是机器人、自动驾驶,还是更加偏向工业领域的产业落地都会被加速。

转载请联系公众号后台

https://daibo.info/

https://scholar.google.com/citations?hl=en&user=KNWTvgEAAAAJ&view_op=list_works&sortby=pubdate

http://arxiv.org/abs/1703.06029

https://openaccess.thecvf.com/content_cvpr_2017/papers/Dai_Detecting_Visual_Relationships_CVPR_2017_paper.pdf

https://sdolivia.github.io/FineGym/

https://arxiv.org/abs/2003.13659

https://controllablemdm.github.io/

https://arxiv.org/abs/2404.19722

https://arxiv.org/abs/2207.10860

AIGC的PMF:专业、垂直、与场景匹配

aigc阅读(37)

在知乎有个关于AI的问题:AI创业者是追求遥远却璀璨的通用人工智能(AGI)理想,还是脚踏实地,产品向市场“妥协”(PMF)?

资本时代,答案可想而知。所以,我们今天要聊的话题正是:AIGC的PMF。

一、什么是PMF?

PMF一般是”Product-Market Fit”的缩写,意为”产品市场契合度”。这是一个关键的商业概念,由风险投资家Marc Andreessen在2007年提出,并成为许多创业企业追求的目标,指的是产品能够满足目标市场的需求并且具有吸引力,从而实现销售和市场接受度的理想状态。当一个产品与市场契合时,它就能够吸引并保留用户,实现增长和盈利。

在甲子光年最新发布的《中国AIGC行业应用价值研究报告》中,对PMF又做了另一种视角的理解,将Market(市场)变成Model(模型),无疑非常契合AIGC当前的应用和发展,先有Model然后才有Market。

二、国内AI大模型商业化现状

据华金证券研报统计,截至今年5月,国内已经推出超过300个大模型。10亿参数规模以上的大模型在今年3月也已经超过100个。不过这些模型都普遍面临一个问题:盈利模式尚不清晰,落地应用仍待破局。

换句话说,绝大部分AI大模型还处于研发打磨阶段,离商业化应用还有一段距离。主要的原因是:

  • AI大模型在实际解决问题中仍存在许多不足之处,同时高昂的费用让许多传统企业不敢轻易入局;
  • 缺乏落地的应用场景和真实有效的数据训练又导致了AI大模型无法有效匹配市场需求。

这两点形成了一个恶性的循环,成为当下AI大模型难以打破的商业化困境。

从用户侧或许更能说明白当前AI大模型商业化的现状:难用、贵。

三、什么样的AI大模型更符合当前市场?

当前,关于AI商业化主要有两种主流的形式,一种是TO B,将AI技术集成到传统产品中并提供垂直定制服务;一种是TO C,向个人用户提供生产力解放工具,并以付费订阅模式变现。

在TO B市场,各大企业级系统服务商如BAT均已纷纷入局;在TO C市场,国内还没有一家能够超越Open AI。不过ToB和ToC并没有完全的界限,在最近落幕的2024世界人工智能大会上李彦宏就讲到:“我们要避免掉入超级应用陷阱,觉得一定要出一个DAU10亿的App才叫成功。”这也反映了百度大模型现阶段的重心或许更偏向于B端。同时,月之暗面创始人杨植麟曾也表示:“我们To B倒也不是说完全不做,但是我们可能最主要的肯定还是会去聚焦和发力这个C端。”,也没有否定月之暗面未来To B的可能。

无论是TO B 还是TO C,大模型都是趋向于更有市场的地方,但最重要的是AI应用的产品体验与市场契合度永远是打动用户的关键因素,也是AI产品商业化的核心。

因此,对AI大模型而言,Model的适配更为重要!垂直、专业、与场景更加匹配的模型更适合大多数AI创业者/企业。

四、如何评估AI大模型的PMF?

参考甲子光年《中国AIGC行业应用价值研究报告》可以从以下几个维度和标准展开:

  • 持续学习:AIGC模型应具备自我学习和适应新数据的能力,以应对不断变化的市场和用户需求。
  • 集成性:AIGC需要能够无缝集成到现有的工作流程中。
  • 定制化:不同行业和场景对AIGC的需求各异,因此模型需要能够根据特定需求进行定制和适配。
  • 合规性和安全性:在处理敏感数据和特定行业内容时,AIGC需要符合相关的法律法规和安全标准。
  • 数据驱动:AIGC模型需要能够处理和学习大量行业特定的数据,以提高生成内容的相关性和准确性。
  • 可解释性:在复杂场景中,AIGC的决策过程需要是可解释的,以便用户和监管机构理解和信任。
  • 多模态能力:AIGC不仅要处理文本数据,还可能需要处理图像、声音、视频等多种数据类型,这要求模型具备多模态处理能力。
  • 用户交互:在复杂场景中,AIGC应能够理解并适应用户的交互方式和偏好,提供个性化的内容。
  • 反馈循环:建立有效的反馈机制,以便从用户和业务流程中收集反馈,不断优化AIGC模型。
  • 流程优化:AIGC应帮助优化业务流程,提高效率,减少人工干预,实现自动化的端到端流程。

试想,一个聪明、灵活、贴心、温暖的AI助理,谁能忍得住不付费呢?但是一个智障、愚蠢、吃相难看的AI助理,免费送大家也未必想要呀。