欢迎光临
我们一直在努力

我深度扒了某款换衣 AI 大模型,发现有人在套壳,有人在搞事情

aigc阅读(2)

最近,AI 换衣着实火出圈了!不管是在电商平台上,想网购衣服时,通过 AI 就能让自己或虚拟模特快速试穿各种款式,轻松解决 “这件衣服到底适不适合我” 的纠结;还是在日常娱乐里,大家把自己的照片上传到换衣 AI 大模型中,瞬间就能变身时尚达人,体验各种风格穿搭,甚至还能搞怪一把,让自己穿上奇装异服,这些都让 AI 换衣成为了热门话题。

走在时尚前沿的弄潮儿们,早已按捺不住对新鲜事物的热情,纷纷投身这场 AI 换衣的狂欢。在社交媒体上,到处都是大家分享自己 AI 换衣后的惊艳照片或搞笑视频,点赞、评论、转发量直线飙升。这股热潮,就像一阵旋风,迅速席卷了各个年龄层和社会群体。

电商行业更是敏锐地捕捉到了这一商机,众多平台纷纷推出自家的 AI 换衣功能,以此吸引消费者的目光。在这个快节奏的时代,谁能为消费者提供更便捷、有趣的购物体验,谁就能在激烈的市场竞争中抢占先机。AI 换衣功能的出现,无疑为电商行业注入了一剂强心针。

然而,在这看似一片繁荣的景象背后,是否隐藏着一些不为人知的秘密呢?今天,作为一个热衷于技术探索的博主,我决定深入扒一扒这些换衣 AI 大模型,看看它们究竟是货真价实的创新,还是徒有其表的 “伪装者”。

一、AI 换衣大模型的 “闪亮登场”

在这股 AI 换衣热潮中,几款备受瞩目的大模型迅速崭露头角,成为了大众关注的焦点。

就拿可图大模型来说,自其宣布开源后,可谓是赚足了眼球。

在 2024 WAIC 上海人工智能大会上,它的 AI 试衣功能首次亮相,便惊艳全场。这一功能基于可图基座模型,巧妙地引入了衣服 SKU 保持网络,就像一位技艺精湛的裁缝,能够精准地提取和表征服饰的细节特征。无论衣服上的图案多么复杂,文字花纹多么精致,它都能完美呈现。同时,通过引入人物 pose 姿势和 Mask 掩码图像作为条件特征,它实现了人物姿势保持的换衣效果。

想象一下,你上传一张自己运动时的照片,无论你是在奔跑、跳跃还是伸展,换上新衣服后,姿势依然自然流畅,仿佛这件衣服就是你当时所穿。而且,它还复用了可图背景修复技术,经过大量高质量人物衣服 pair 对大数据的训练,在不同衣服款式、人物姿势以及复杂背景条件下,都能生成自然美观的试穿效果。不仅如此,可图大模型还支持跨越不同年龄、性别、种族的人物模特及背景生成,满足了商家多样化的模特需求。再结合可灵图生视频能力,它能生成运动连贯的 AI 试衣短视频,让用户全方位、动态地感受试穿效果。

谷歌的 TryOnDiffusion 模型也毫不逊色。它成功解决了 AI 换装领域长期以来的两大难题 —— 既保留衣服细节,又能随意变换姿势。

以往的一些模型,在这两个方面总是难以两全。而 TryOnDiffusion 通过提出一种基于扩散的框架,将两个 Parallel – Unet 统一起来,就像搭建了一座桥梁,让衣服细节和姿势变换能够和谐共处。

在这个模型中,不需要使用文字,而是通过一组成对的图片(一张是衣服或穿着衣服的模特,另一张是模特),每张图片被发送到自己的神经网络(U – net),并通过 “交叉注意力” 的过程相互共享信息,最终输出新的穿着这件衣服的模特的逼真图像。

在实际效果中,衣服在人物身上的变形极其自然,衣服的褶皱、垂坠等细节都还原得十分到位,仿佛这件衣服就是量身定制的一样。

还有一些电商平台自研的 AI 换衣模型,它们紧密贴合电商购物场景。以银泰百货的喵街 “AI 试衣间” 为例,用户可以在喵街小程序中,用 AI 生成以本人为蓝本的数字人去试穿全品类衣物。这些数字人既真实又美观,区别于传统的卡通形象换衣 app。而且,这里的衣服都以银泰百货线下售卖的服饰为基础,材质、褶皱等细节一目了然,非常逼真。用户不仅可以随心搭配,还能与 AI 搭配师互动,获取专业的穿搭建议。此外,还能参与穿搭 PK,增添了不少购物的趣味性。在这个过程中,用户仿佛置身于一个虚拟的时尚秀场,尽情享受着换装的乐趣。

这些主流的换衣 AI 大模型,凭借各自独特的功能特点,在电商购物、短视频创作等多个应用场景中发挥着重要作用。在电商领域,它们为消费者提供了更加直观、便捷的购物体验。消费者无需再为 “这件衣服穿在我身上好不好看” 而烦恼,只需上传照片,就能快速看到试穿效果,大大提高了购物决策的效率,同时也降低了商家的退货成本。在短视频创作方面,创作者们利用这些模型的 “变装” 特效,制作出了各种新颖有趣的内容,如明星同款穿搭展示、卡点变装视频等,吸引了大量用户的关注和点赞,为短视频平台增添了新的活力。

二、扒皮行动:疑似套壳现象曝光

技术相似性剖析

在深入研究这些换衣 AI 大模型的过程中,我发现部分模型存在一些令人疑惑的现象,疑似存在套壳行为。从技术层面来看,一些换衣 AI 大模型在代码结构上与已知的开源模型有着极高的相似度。就好比搭建房子,开源模型是按照某种特定的设计蓝图构建的,而这些被质疑的模型,其内部的 “房间布局”“支撑结构” 等代码层面的架构,几乎与开源模型如出一辙。这可不是简单的巧合就能解释得通的。

算法逻辑上,它们也表现出了惊人的相似性。以图像特征提取和融合这一关键环节为例,开源模型采用了一种独特的算法,能够精准地捕捉人物和衣服的特征,并将它们巧妙地融合在一起,实现自然的换衣效果。而某些被怀疑套壳的模型,在处理这一过程时,不仅使用的算法原理相同,连参数设置都相差无几。这就好像两个厨师做同一道菜,从食材的选择、处理方式,到烹饪的火候、调料的用量,都一模一样,很难不让人怀疑其中一个厨师是不是直接照搬了另一个厨师的菜谱。

模型架构方面,一些模型的整体框架与已有的成熟模型极为相似。比如,在神经网络的层次结构、各层之间的连接方式以及数据的流向等方面,几乎没有明显的差异。这种相似性不仅仅是表面上的,深入到模型的内部细节,也能发现诸多雷同之处。这就如同建造桥梁,不同的工程师可能会根据实际需求和设计理念,采用不同的桥梁结构,但如果两座桥梁在结构、材料、施工工艺等方面都高度相似,那就不得不让人怀疑其中一座桥梁是否是模仿另一座建造的。

案例深度解读

为了更直观地说明问题,我们以具体的某几款被质疑套壳的换衣 AI 大模型为例进行深入分析。就说之前在网上引发热议的 A 模型吧,它在推出后,凭借着宣传中的一些亮点功能,吸引了不少用户的关注。然而,当技术人员对其进行拆解分析后,发现它的核心代码与一款开源的 B 模型相似度极高。从函数的命名规则、代码的注释风格,到关键算法的实现细节,都能找到明显的对应关系。

进一步研究发现,A 模型在功能实现上,几乎完全依赖于 B 模型的开源代码。在遇到一些复杂的换衣场景时,A 模型所表现出的处理能力和 B 模型如出一辙,甚至在一些特定情况下出现的错误和缺陷都相同。这就好比一个人穿着别人的衣服,还试图伪装成自己的风格,但举手投足间却暴露了真实身份。

这种套壳行为对行业创新产生了极其不良的影响。它严重打击了原创研发团队的积极性。那些投入大量时间、精力和资金进行研发的团队,本期望通过创新为行业带来新的突破和发展,却发现自己的成果被他人轻易抄袭、套壳,这无疑是对他们辛勤付出的极大不尊重。就像农民辛苦耕耘,种下了种子,精心呵护,眼看就要收获果实了,却被别人偷走,种在了自己的地里,还声称是自己的劳动成果,这怎能不让人感到心寒呢?

套壳行为阻碍了整个行业的技术进步。如果套壳现象得不到有效遏制,将会有更多的企业和团队选择走捷径,放弃自主研发,转而依赖套壳来推出产品。这样一来,行业内就会缺乏真正的创新动力,技术发展也会陷入停滞。长此以往,我们将无法享受到更加先进、高效、智能的 AI 换衣技术,整个行业也将失去持续发展的活力,无法在全球科技竞争中占据优势地位。

三、乱象丛生:背后的 “黑暗勾当”

隐私侵犯风暴

在这场 AI 换衣的热潮中,隐藏着一股令人毛骨悚然的隐私侵犯风暴。一些不法分子将罪恶的目光投向了换衣 AI 技术,他们如同隐匿在黑暗中的窃贼,肆意窃取、滥用用户的照片,对个人隐私进行了无情的践踏。

在网络的某些阴暗角落,存在着一些非法网站,它们打着各种幌子,暗中收集用户的照片。这些照片一旦落入他们手中,便可能被用于各种非法商业用途。比如,一些不良商家为了推广自己的产品,未经用户同意,擅自将用户的 AI 换衣照片用于广告宣传,让用户在不知情的情况下成为了 “代言人”。更有甚者,将这些照片出售给其他不法分子,形成了一条隐秘的个人信息贩卖产业链。

还有一些人恶意传播用户的照片,将普通人的形象暴露在公众视野中,对用户的生活造成了极大的困扰。曾经有一位女性网友,在某社交平台分享了自己使用 AI 换衣的照片,本是为了展示时尚穿搭,却没想到被别有用心的人下载,并在一些低俗网站上传播。这些照片被配上了不堪入目的文字描述,给这位女网友带来了极大的精神压力,她不仅遭受了网友的恶意评论和骚扰,甚至在现实生活中也受到了异样的眼光,正常的工作和生活完全被打乱。

色情敲诈产业链

除了隐私侵犯,AI 换衣技术还被卷入了一条更为恶劣的色情敲诈产业链中。这一犯罪链条如同一张无形的大网,从制作、传播到实施敲诈,环环相扣,给受害者带来了身心和财产的双重巨大伤害。

一些犯罪分子利用换衣 AI 技术,精心制作色情内容。他们通过获取他人的照片,利用技术手段将照片中的人物 “换装” 成裸体或穿着暴露的样子,再通过合成技术,将这些照片与一些色情场景相结合,制造出以假乱真的淫秽图片和视频。这些图片和视频制作完成后,便通过各种渠道在网络上广泛传播,比如一些非法的色情网站、私密的社交群组等。他们以此吸引更多的人关注,同时也为后续的敲诈勒索行为埋下伏笔。

一旦这些色情内容传播开来,犯罪分子便开始实施敲诈勒索。他们通过各种方式找到照片的主人,以公开这些淫秽图片或视频为威胁,要求受害者支付巨额钱财。受害者往往在恐惧和羞耻的双重压力下,被迫就范。以深圳的吴先生为例,他突然收到一条陌生彩信,里面是他与一名陌生女子在酒店房间内的不雅照片,对方威胁他必须在指定时间内转账,否则就将照片发送给他的亲朋好友和同事。吴先生顿时陷入了极度的恐慌之中,他完全不知道这些照片是如何被伪造出来的,但又担心照片公开后会给自己的名誉和家庭带来毁灭性的打击。无奈之下,他只能选择报警。警方经过侦查,成功打掉了这个利用 AI 换脸技术合成不雅照进行敲诈勒索的犯罪团伙,但吴先生所遭受的精神创伤却难以在短时间内抚平。

据相关数据显示,近年来,这类利用 AI 技术进行色情敲诈的案件呈逐年上升趋势。仅在 2023 年,全国就发生了多起类似案件,涉及金额高达数百万元。这些案件不仅严重侵犯了公民的人身权利和财产安全,也对社会的公序良俗和道德风尚造成了极大的冲击。

四、行业反应与社会影响

面对 AI 换衣大模型领域出现的套壳现象以及隐私侵犯、色情敲诈等乱象,行业内的反应迅速而强烈。许多专注于 AI 技术研发的企业纷纷发表声明,谴责这种不正当的行为。他们强调,套壳行为不仅违反了行业的道德规范,也破坏了公平竞争的市场环境。一家知名的 AI 企业在声明中表示:“我们一直致力于通过自主研发和创新,为用户提供高质量、安全可靠的 AI 产品和服务。套壳行为是对整个行业的亵渎,我们呼吁所有从业者共同抵制这种行为,维护行业的健康发展。”

行业组织也积极行动起来,发出了强烈的呼吁。中国人工智能产业发展联盟就发布了相关倡议,要求成员企业严格遵守法律法规,加强自律,杜绝套壳、侵权等不正当行为。同时,联盟还呼吁相关部门加强监管,建立健全的行业标准和规范,为 AI 产业的发展营造良好的环境。

这些不良现象对社会产生了多方面的负面影响。在社会公序良俗方面,色情敲诈等行为严重违背了道德伦理,给社会风气带来了极大的污染。它让人们对网络环境产生了恐惧和不信任,尤其是女性群体,她们在使用网络服务时,不得不时刻担心自己的照片被滥用,这种心理压力对个人的身心健康造成了极大的伤害。

从网络安全角度来看,隐私侵犯行为使得用户的个人信息处于高度危险之中。一旦这些信息被泄露,用户可能会面临各种风险,如账号被盗、诈骗电话和短信的骚扰等。这些风险不仅会给用户带来财产损失,还可能影响到用户的正常生活和工作。

消费者对 AI 换衣技术的信任也受到了严重的打击。原本,AI 换衣技术为消费者提供了便捷、有趣的体验,让他们能够更轻松地选择适合自己的服装。然而,套壳现象和隐私侵犯等问题的出现,让消费者开始对这项技术产生怀疑。他们担心自己在使用 AI 换衣服务时,个人信息会被泄露,或者得到的是低质量、抄袭的服务。这种信任危机不仅会影响到 AI 换衣技术在电商等领域的应用和推广,也会阻碍整个 AI 产业的发展。

五、未来展望:呼唤规范与光明

面对当前 AI 换衣大模型领域的种种乱象,我们不能坐视不管,而应积极探寻解决之道,为其未来发展照亮前行的道路。

政府部门应发挥主导作用,加大监管力度。一方面,要尽快制定和完善相关法律法规,明确 AI 换衣技术在研发、应用等各个环节的法律规范和责任界限。对于套壳行为,应制定严格的处罚措施,包括高额罚款、责令停产整顿等,让违法者付出沉重代价,从而有效遏制这种不正当竞争行为。另一方面,针对隐私侵犯和色情敲诈等犯罪行为,要加强执法打击力度,建立专门的执法队伍,提高案件侦破效率,依法严惩犯罪分子,切实维护公民的合法权益。

行业内部的自律也至关重要。企业和开发者应树立正确的价值观和道德观,加强自我约束。企业要建立健全内部管理制度,加强对技术研发和应用的审核,确保自身的产品和服务符合法律法规和道德规范。同时,行业协会可以发挥组织协调作用,制定行业自律公约,加强对会员企业的监督和管理,定期开展行业自查自纠活动,对于违反自律公约的企业,进行公开曝光和行业内通报批评,促使企业自觉遵守行业规范。

对于广大用户来说,增强自我保护意识是防范风险的关键。在使用 AI 换衣服务时,要仔细阅读隐私政策和用户协议,了解自己的权利和数据的使用方式。避免在不可信的平台上上传个人照片,选择正规、有信誉的 AI 换衣应用。同时,要提高对网络诈骗和敲诈勒索的警惕性,一旦发现异常情况,及时向相关部门举报。

我们期待未来的 AI 换衣大模型能够在规范的轨道上健康发展。企业能够将更多的精力投入到技术创新中,不断提升 AI 换衣技术的准确性、自然度和用户体验。例如,通过改进算法,实现更精准的人体姿态识别和衣服贴合效果,让虚拟试穿更加真实可信;利用更先进的图像处理技术,呈现出更加细腻、逼真的服装材质和纹理。

在应用场景方面,AI 换衣大模型有望进一步拓展。除了电商购物和短视频创作,它还可以在时尚设计领域发挥更大作用,帮助设计师快速预览不同设计方案的效果,提高设计效率;在虚拟现实(VR)和增强现实(AR)场景中,为用户打造沉浸式的试衣体验,让用户仿佛置身于真实的服装店中。

相信在各方的共同努力下,AI 换衣大模型一定能够摆脱当前的困境,迎来更加光明的未来,为我们的生活带来更多的惊喜和便利,推动整个行业向着更加美好的方向发展。

AI网红李开复

aigc阅读(4)

如果要在大模型领域选出一位兼具行业影响力和行业争议度的人物,那李开复一定榜上有名。

2023年中决定亲自下场担任零一万物CEO时,李开复一度被业内拿来跟王慧文做比较,讨论两者的创业项目究竟谁更贵。随着王慧文因病退出,一年多后,还留在大模型牌桌上的李开复,同样麻烦缠身。

最新的争议发生在1月初。“阿里收购零一万物”消息传出的当晚,李开复便率先在朋友圈做了辟谣,并在次日接受了好几波媒体的专访,以告诉外界零一万物并非解散,只是放弃了对超大规模参数模型的训练,未来仍将专注训练中小模型,并发力应用侧。

在此之前,零一万物还曾陷入“套壳Meta开源大模型LLaMA”以及放弃预训练的多轮质疑声中。

顶着中国“AI教父”头衔下场搏斗的李开复,在自己选中的大模型赛道被反复质疑,甚至有激进行业人士,直接将李开复和其背后的零一万物称之为“大模型混子”,恒业资本创始合伙人江一告诉我们,“其实我们更早都知道了(李开复)要放弃预训练的事情,这在行业里不算是一个太大的秘密。”

不同于此前二十多年在中国的布道者角色,调转身份成为创业者的李开复,这次与其他人站到了同一起跑线,技术、产品和商业化,正化身一道道选择题,一边筛掉落伍者,一边比出优胜者。空留影响力而暂时缺乏行业认可度的李开复,其身上AI教父的气质,也越来越让渡给AI网红的新形象。

如同雷军选择汽车作为自己最后一次创业一般,李开复则将大模型视为自己的最后一舞。2022年11月ChatGPT亮相后,看到它的那刻,李开复“意识到它的出现比我预期的要快……我不能错过这个机会,我必须参与其中。”

对更大成功的渴望,成为驱使雷军和李开复这类早已功成名就之人,再次躬身入局的最大诱因。

2010年,雷军终于决定投身智能手机创业后,小米联合创始人黎万强和林斌都不理解,反问雷军“你什么都有了,创业图什么?”

雷军曾反思自己在小米之前的创业经历,觉得很多产品都离成功只有一步之遥,却总是失之交臂,并认为“这是时代使然,公司基因使然,回天乏力。”

尤其是2007年10月,金山在香港上市后,看着市值只有一家主流互联网上市公司的零头,雷军曾告诉《财经》,他曾以为金山可以承载他的梦想。现在,他想做一家百亿乃至千亿美元的公司,“否则你做一家又一家10亿美金的公司价值有多大?一次又一次复制自己是没有价值的。”

李开复对成功的渴望比雷军还要大10倍。之所以放弃投资方式而选择自己下场做,李开复给出的原因是自己“想要创建一个伟大的企业”,并相信在微软时期的职业经历,使自己学到了打造下一个潜在万亿美元市值的公司所需的能力。

只不过,随着李开复丢弃掉AGI(通用人工智能)梦想,他的万亿公司愿景,也变得更虚幻了一些。

01

在ChatGPT出现2年来的国内大模型创业浪潮中,李开复还是那个最高频发布朋友圈辟谣消息的AI创业者。

1月初网传“阿里收购零一万物”消息后,李开复便再次通过朋友圈辟谣,然后才指挥零一万物官方发布了辟谣声明。

综合李开复的对外回应信息,经历最新组织架构调整后的零一万物,未来超大模型训练会交给阿里,自己则主攻中小参数的行业模型。

这一转变更早来自于李开复去年5月份的思考。当时,零一万物已经选择不再盲目追求扩大参数量,并舍弃了训练原定万亿参数的超大模型Yi-X-Large的计划,转而训练了更小更快更便宜的MoE混合专家模型Yi-Lightning。

辟谣“阿里收购零一万物”消息之前,去年10月份,李开复还通过发朋友圈辟谣了零一万物停止预训练的消息,并在当时坚定回应称,零一万物绝不会放弃预训练工作。

更早之前的2023年11月,立志研发通用大模型底座的李开复,则陷入一场套壳Meta开源大模型LLaMA的质疑之中。当时,李开复也是第一时间通过朋友圈予以澄清。

尽管三次辟谣的内容指向不同,但导致这些谣言轮番找上零一万物的一大主因,还在于公司太穷了。

在同为大模型六小虎(零一万物之外,还包括月之暗面、MiniMax、智谱、百川智能、阶跃星辰)的其他几家相继拿下一众知名投资机构和大厂的多轮融资之后,零一万物成立至今,被曝出的融资消息只有两条:一是2023年10月完成由阿里云领投的新一轮融资,投后估值超10亿美元,跻身中国大模型创业公司独角兽行列;二是去年8月完成数亿美元新融资,投资方包括某国际战投、东南亚财团等。

阿里云成了零一万物当前唯一公开明确的投资人。比融资数额少更糟糕的是,融资环境正变得越来越难。江一表示,进入2025年,行业对大模型的投资会变得更为谨慎,“类似李开复做出放弃预训练的决定,在六小虎中几乎都不同程度存在,就看它们资金能撑到什么时候来对外宣布自己的战略调整了。”

除了大模型自身商业变现艰难之外,生态链的错位,也让这波AI创业显得愈发不易。在同样开发大模型的国内创业者李辉看来,原本大家期望中的场景是,芯片赚最少的钱,平台赚一定的钱,应用赚最多的钱。但现实却是提供GPU芯片的英伟达,一家赚走了行业超八成的利润,“但这种倒三角局面不会一直持续下去,2025年,随着AI原生应用的爆发,会有所改变。”

暂时等不到生态环境改观的零一万物,从成立伊始,就走上了一条勤俭节约做AI的路径。

去年6月份接受极客公园创始人张鹏采访时,李开复就曾预言,未来一年内可能会看到有一半公司放弃预训练。“有些创业公司就融不到钱了,如果你是个创业公司,就剩比如说1亿美金了,然后一个月要烧2000万美金,是五个月把它烧完赌一赌,最后烧一个模型打败谷歌,还是用三年拿这1亿美金打造一个APP?这个不用我多说了。”

未来,李开复明确零一万物将不再追求训练超级大模型,这也意味着零一万物成为行业第一家宣布放弃追寻AGI的玩家。“从商业角度考虑,我们认为只有大公司能继续做超大模型。”

字节成了李开复上述判断的最好例证。在大模型赛道一度处于落后位置的字节,通过一年多时间的追赶,到2024年底,一跃跻身国内一线梯队,其不仅补齐了基础模型的技术性能,还在产品上相继布局了豆包、Cici、Coze、星绘、猫箱、豆包爱学、即梦等,涵盖了AI智能助手、AI社交、AI工具和AI教育、AI视频等主流应用赛道。

但将AGI拱手相让给大公司后的李开复,无疑将会迎接未来更多的审视和质疑。

02

如果将时间回拨到20年前,当下对李开复的质疑,多少有些难以想象。

2005年7月,决定加入谷歌的李开复,开始迎来人生的一场世纪大诉讼。在被前东家微软以违反竞业协议告上法庭之时,时任微软CEO的鲍尔默便曾将李开复称为中国的“教父”,以此来佐证李开复在中国的影响力。

鲍尔默彼时给李开复带上的教父头衔,多少还算不上实至名归。随后,通过筹建谷歌中国,并将前沿科技宣传给国内更多人的李开复,正式得到业内认可,并冠上了中国“AI教父”的美誉。

李开复的一生也与AI结下了不解之缘。1983年,以计算机系第一名的成绩从哥伦比亚大学毕业后,李开复进入卡内基·梅隆大学攻读计算机专业博士,并选定了语音识别研究方向,成功开发出了全世界第一个“非特定人连续语音识别系统”的应用程序,1988年《商业周刊》因该项创造授予李开复“最重要科学创造奖”荣誉称号。

1990年夏天,28岁的李开复,决定放弃卡内基·梅隆大学的助理教授职位,从学界投身产业界,加盟苹果,领导团队发明了QuickTime,并成为苹果公司最年轻的副总裁。随后,李开复从苹果又相继跳槽到SGI、微软和谷歌。

参与创建微软中国研究院和谷歌中国的经历,使得李开复不仅与更多AI人才有了交集,也借此培养和发掘了一大批相关人才。脱身于微软中国研究院的微软亚洲研究院,更是一度成为中国互联网以及AI领域的黄埔军校,张宏江、张亚勤、沈向洋、王坚等业内赫赫有名的大佬,均出身于此。

产业界的努力之外,李开复还格外重视跟大学生的交流。早在1990年,李开复就曾在北京信息工程学院开个四个星期的课程,向中国大学生介绍前沿AI知识。2003年,李开复还自己出资创立了与学生交流互动的平台“开复学生网”,2006年,其更名为“我学网”。在上面,李开复自述其回答了上万个中国学生的问题。

创新工场的筹办,则成为塑造李开复中国“AI教父”的最后一层砝码。

到2008年,在谷歌中国的工作,已无法满足李开复的自我追求,“我越来越意识到,管理更大的团队不是我心中的目标,我更喜欢从无到有的创造,而不是经营一个巨无霸。”

不容忽视的一个现实背景是,当时的中国,正处在从PC时代向移动互联网时代过渡的前夜,一大帮创投机构都冒了出来。2009年8月,李开复也创立了自己的投资机构——创新工场,并投中了一批知名公司,如摩拜单车、知乎、豌豆荚、墨迹天气、美图等。

借助李开复在科技领域的多年经验,创新工场抢先押注前沿科技赛道,“投早、投小、投科技”一度成为其最重要的标签之一。

到2016年,“人机大战”——阿尔法狗战胜围棋九段李世石的爆发,让原本局限在科学和科幻领域的AI变成了人人挂在嘴边的大众热点话题。创新工场也开始进一步聚焦,同年成立人工智能工程院,李开复亲任院长,致力于AI技术与科研、实验室、高校、人才的生态链接和技术转化,开创了一套“VC+AI”的投资新模式,官方宣传称投资了10多家人工智能独角兽公司。

2012年被投资的旷视科技,成为创新工场投资的第一家AI公司,随后创新工场的这份AI独角兽名单中相继加入了美图、地平线、第四范式、驭势科技、Momenta、文远知行、比特大陆、飞步科技、极飞科技、镁伽、创新奇智等的身影。

但投资前沿科技的风险也随之而来,这些公司大多因为超前布局尚未能做到盈亏平衡,其中也只有显得不那么前沿的美图,实现了盈利。

其他要么如驭势科技、Momenta、极飞科技等暂未传出上市消息,要么如比特大陆、旷视科技等,上市遇挫。

尤其是作为创新工场AI投资首秀的旷视科技,即便顶着上一波AI创业“四小龙”的名头,在港交所、科创板等上市大门前兜兜转转3年之后,还是选择了放弃。去年12月,旷视科技正式撤回上市申请。

那些已经成功上市的公司,如地平线、文远知行、第四范式、创新奇智等,则如李开复所创立的零一万物一样,仍然面临着何时盈利的灵魂拷问,且其股价均经历了一波下滑的抛物线,目前都处在股价跌破发行价的状态之中。

此时就显现出了作为投资人的好处来。早在2018年初AI大热之际,李开复在对外采访中就明言,大家过分高估了AI的商业变现能力,“每个创业者都很想把自己的创业公司包装成一个AI公司,每个VC也都想要标榜自己是一个AI投资人。但是AI投资其实不适合新手参与。如果对AI技术本身没有了解就急着参与到AI的早期阶段来,这样的人会赔得连裤子都不剩。”

这其中显然不包括被称为中国“AI教父”的李开复。在2019年被晚点问及创新工场回报最好的基金是哪一期时,李开复回答:“投AI项目最多的回报最好……比如旷视回报400倍、VIPKID回报1200倍。”

03

在旁观者的投资人身份之外,叠加一层AI创业者的新角色后,李开复也不得不直面AI商业化的难题。

在宣布零一万物不再追求训练超级大模型,转而继续训练参数适中的更快、更便宜的模型,基于后者打造可以赚钱的应用之前,李开复已经调转了公司的商业化路径:在国内优先发展To B领域,To C应用则先做国外,再做国内。李开复给出的理由是,国外的付费意愿比较高,先探索商业化最快的路径,国内以后C端也会有机会。

但这条新的坚持训练中小模型的策略,李开复还能坚持多久则要打个问号。

继千亿参数模型Yi-Large之后,去年10月,零一万物对外发布新旗舰模型Yi-Lightning,“后续零一万物的模型参数量可能也不会再大于Yi-Lightning。”李开复说道。

去年10月对外辟谣放弃预训练时,李开复给出了大模型公司要不要做预训练的两个衡量标准:一看自己能不能预训练出一个比开源足够好的模型;二看预训练的花费能否承担得起,且训练出来以后它能用多久?

眼下,李开复坚持继续做中小模型预训练的理由之一是,自己的Yi-Lightning模型依然能打,“所以肯定自己要做。当然务实地说,如果哪天开源模型打败了我们,我们肯定也要思考是不是就别做了。”

而一旦失去模型层的支撑,李开复一开始构想的“Infra+模型+应用”三位一体布局,或许也将不得不重新调整。

在李开复设想中,零一万物要做的是一个生态系统,而不仅仅只是一个大模型公司,就如同PC时代的微软。“当时,微软做Windows kernel,相当于今天的大模型;做Windows,相当于今天的API和平台;做Office,相当于今天的应用;然后做基础设施,相当于今天的 Azure Cloud。”李开复举例说道。

除了基础设施和模型需要一起做,模型和应用也必须一起做,“因为它们实际上是一体的。”李开复判断道。

但当零一万物越来越走到与企业客户利益绑定后的行业大模型领域,在获取确定性商业回报之外,也令其失去了大规模扩张的可能性。

失去AGI创业机会后,留给创业者做出下一个BAT的机会也变得无限渺茫。傅盛在这方面比李开复更早有了清醒的认识,“我已经放弃BAT的创业梦了,那的确没机会。”

在最近接受晚点采访时,面对想打造AGI时代的微软的梦想,是否随着放弃超大规模预训练而破灭了的提问时,李开复回答道,“当然没有……只能说我们现在是从应用起步。谁都可以仰望星空,更重要的是脚踏实地。”

参考资料:

《他第一个讲了出来,不再追求 AGI》晚点对话

《对话李开复:为了变道,筹备了数月》虎嗅

《李开复独家回应:盲目坚持负担不起的东西,并不是健康的选择》36氪

《连线Insight对话李开复:不愿“透支”未来,零一万物全面转向“小而美”》连线Insight

《对话李开复:如果美国形成AGI霸权,我们应该怎么办?》腾讯科技

《对话李开复:不走OpenAI“烧模型”之路,大模型to B要有新打法》中国企业家杂志

《李开复:中国落后美国大模型差距缩小为 6 个月,疯狂降价是双输》AI科技大本营

《对话李开复:价格战烧不出 AI 超级应用,好模型有贵的道理》极客公园《已经有人在问“李开复和王慧文谁估值更贵”了》投中网

《世界因你不同:李开复自传》中信出版集团

AI+法律科技:如何提高合同智能审查的质量(含法律科技领域宏观数据分析)

aigc阅读(4)

今天我们来聊聊AI在法律科技领域中的应用

如何通过AI赋能,来提升合同智能审查的输出质量

文章会分为三部分进行介绍:

  • 第一部分:法律科技领域的市场规模与主要的细分领域
  • 第二部分:CLM合同生命周期管理概览介绍以及市场上的主要玩家
  • 第三部分:分享如何通过AI赋能提升合同审查的输出的质量与准确性

01 法律科技市场规模&细分领域

1. 法律科技领域的市场规模

法律科技(Legal technology)是指运用人工智能、大数据、区块链等技术手段,提升法律工作效率和质量,也使法律服务更加普惠,法律科技领域与法律行业相互促进,共同发展。

在2024年法律科技领域的全球市场规模超过291.8亿美元,预计2025-2037年复合年增长率GAGR超过9.6%,2025年预计市场规模为315.2亿美元。

图片来源:Legal Technology Market Statistics Report 2025-2037 — Research Nester

其中亚太地区增长最快,北美市场规模最大,但整体的市场集中度偏低,没有出现绝对领域的头部玩家。

图片来源:Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts

图片来源:Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts

2. 法律科技的细分领域

法律科技的细分领域主要包括:

图片来源:Legal Technology Market Statistics Report 2025-2037 — Research Nester

1) E-Discovery(电子发现):是指在法律诉讼或调查过程中,对电子形式的信息,如邮件,音视频等信息,进行识别、收集、保存、处理,通过获取和梳理与案件相关的电子证据链,来支撑了法律论证。

2) Legal Research(法律研究):是指能够快速检索和筛选海量的法律文献、案例资料等信息,帮助法律从业者更精准地找到所需的法律依据. 例如:用户输入一个复杂的法律问题,系统可以迅速在庞大的法律数据库中定位到最相关的案例和法规,并进行初步的分析和总结。

3) Legal analytics(法律分析):是指在从大量的法律文本、案例、法规等数据中提取有价值的信息,以辅助法律决策、风险评估和案件策略制定. 例如,律师可以让AI分析过往类似案件的判决结果和相关因素,为当前案件提供参考和预测,帮助律师和法律从业者了解法律趋势和潜在风险。

4) Contract Lifecycle Management(合同生命周期管理):是对合同从创建、谈判、审查、审批、签署、履行到续约或终止的全过程进行系统化管理工具,其核心作用是通过自动化的合同管理流程,提升合同处理的速度,确保合同的合规性和风险控制,从而帮助企业更有效地跟踪和履行合同义务,优化供应商和客户关系,最终提高业务收益和竞争力。

5) Time-Tracking & Billing(记时追踪与计费):是为律师事务所和法律从业者提供高效的时间记录和费用管理工具,其(它的)核心作用是通过自动化法律服务的计时计费工具,确保账单的准确性和透明度,从而增强财务管理和业务收益。

02 CLM-合同生命周期管理&主要市场玩家

1. CLM-合同生命周期管理概览介绍

Contract Lifecycle Management(合同生命周期管理) ,是增长最快的细分领域之一。

图片来源:Contract Lifecycle Management Market — Astute Analytica

2024年市场规模达到36.1亿美元,2025-2033年预测的复合年增长率达13.55%。

合同生命周期管理,是对合同从创建、谈判、合规审查、审批、签署、履约、续约到终止全流程进行系统化和自动化的管理系统,用于提高合同管理的效率,把控合同的风险与合规性,帮助企业高效管理,降低合规风险与法律风险。

图片来源:中国CLM(合同全生命周期管理)市场产业全景研究报告 – TE智库

其中合同的合规风险审查,是CLM中的关键环节,接下来我们聚焦于CLM中的合规审查模块,看看如何通过AI赋能,来识别合同中签在的法律风险和不合规条款,帮助企业规避合同风险。

图片来源:Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts

图片来源:康达律师事务所

以上是两个很直观的案例:

图一统计了自从2018年5月GDPR生效以来,截止至2024年9月,罚款超过了24亿欧元。

GDPR (General Data Protection Regulation) 通用数据保护条例 -> 由欧盟出台的关于数据隐私保护的法规。

图二统计了在2021-2023年国有企业民事纠纷案件数据统计中,合同风险成为企业经营的主要风险,诉讼案件占比高达65%。

所以如何降低合同的法律风险与合规风险,是企业组织经营过程中的强需求 

2. 合同智能审查的主要玩家

合同审查这个细分领域的主要玩家可以分为两类:

一类是传统的CLM厂商,在已有CLM的模块中,做深合同审查的功能模块,如:

Icertis

主打产品:Lcertis Contract Intelligence (ICI) 合同生命周期管理平台

市值&融资情况:市值超50亿美元,累计融资5.2亿美元,ARR预估2.5亿美元。

Ironclad

主打产品:Ironclad CLM

市值&融资情况:市值约32亿美元,累计融资3.34亿美元,ARR预估1.112亿美元

Docusign

主打产品:DocuSign eSignature(电子签),DocuSign CLM(合同生命周期管理),DocuSign IAM(智能协议管理)

市值&融资情况:市值约101.6亿美元,累计融资5.13亿美元,ARR预估10.6亿美元。

另一类是AI驱动的智能合同厂商,如:

  • LexCheck
  • 法大大的“iTerms合同智审系统
  • 幂律智能的MeCheck
  • iCourt的AlphaGPT

03 如何提升合同智能审查的输出质量?

合同审查这个活是一个既不允许出错又容易出错的“苦差事”:

  • 不许出错:是因为出错后的代价极高,不出错和规避合同风险是合同审查的核心目标。
  • 容易出错:是因为审合同这件事情的专业属性高,不仅需要具备专业的法律知识,还需要根据企业所处行业和自身业务情况进行综合判断。

所以合同审查最终输出审查结果的准确度至关重要,直接决定了产品是否可以用。

合同智能审查常规的处理流程是:

用户上传需要审查的合同文件 -> 然后系统来进行合同的风险识别与评估 -> 最后生成风险评估结果与修改建议。

其中合同的风险识别与评估是合同审查的关键环节,可以将其拆分为两个流程节点:

  • 合同信息要素的抽取
  • 合同信息要素的审查

这两个流程节点决定了审查的准确性,合同信息要素抽取的准不准?抽取后对合同信息要素分析的准不准?是否能够识别到其中的风险点?能否给风险进行评级,能否基于识别到的风险给出修改建议等等,以上这些问题环环相扣,都影响着合同审查的输出结果。

目前对于合同智能审查的主流解决方案:

模型 + RAG + 法律场景下的工程化解决方案

1. 模型方面

在模型方面,像主流的大模型厂商OpenAI,Anthronpic,Meta,字节,阿里,DeepSeek等通用模型能力在都不断提升,同时像PowerLawGLM,LaWGPT,JurisLMs等垂直法律大模型也在不断迭代发展,随着时间的推移,模型对信息要素提取与处理的能力肯定会不断地增强。

但模型只是决定了合同智能审查输出质量的下限。

因为大语言模型它本质上是基于概率预测进行内容的生成,所以“幻觉”问题一直是一个无法避免的问题。

图片来源:Hallucination-Free?Assessing the Reliability of Leading AI Legal Research Tools – Stanford

这是斯坦福研究团队对比了不同AI法律工具在输出质量上对于“幻觉”与“输出不完整性”的数据数表现情况。

而合同审查又是一个严肃且不容出错的业务场景,所以只靠大语言模型本身来做合同审查这项一下复杂的推理任务,是远远不够的,所以就进入到下一个阶段:模型+RAG。

2. RAG 检索增强生成

RAG检索增强生成(Retrieval-Augmented Generation)

现在只要涉及到垂直领域的智能体应用,RAG几乎是一个标配模块,用于增强大语言模型的信息输入,从而提升大语言模型的输出质量。

图片来源:Hallucination-Free?Assessing the Reliability of Leading AI Legal Research Tools – Stanford

通过RAG的方式,能够检索到权威的法律法规与企业自建的风险案例库,识别到合同中存在的风险隐患后,再生成针对性的风险提示与修改建议,确保审查的输出结果有理有据。

大模型+RAG,已经在一定程度上提高了合同审查的输出质量,但是仅做到这一步还不够,因为合同审查是一个复杂的法律推理任务,不仅涉及多领域的法律融合,需要识别出条款间的相互影响,而且还需识别潜在的法律和商业风险,权衡交易主体的利益。

所以在大模型+RAG的基础上,还需要再增加一些“工程化”的解决策略。

3. 法律场景下的工程化解决方案

1) 策略一:人工预设审查规则

审查清单和审查规则是合同审查的基础,只有知道要审什么,怎么审,才能够审对。

不同行业,不同合同类型,审查的内容都不同,要确保审查结果的准确性,需要企业的法务团队将日常审查工作的Know-How进行结构化的知识梳理,输出不同合同类型的审查清单与审查规则,再结合提示词工程的技巧,让模型更好理解。

常见的方式有两种:

第一种是将审查规则与合同类型绑定:软件服务商将审查清单与审查规则与合同类型进行绑定,简化用户审查合同的操作门槛,只需选择对应的合同类型,即可完成合同审查,再通过对话式交互与在线编辑的方式,来修改合同细节。

图片来源:Robin AI

图片来源:Robin AI

第二种是在第一种的基础之上,新增信息输入的维度,比如在用户上传完审查合同后,新增“审查立场”,“审查目的”和 “审查清单”列表,并且支持用户自定义添加和修改审查目的与审查清单,通过提供更丰富的审查背景信息,来提升合同审查的输出质量。

图片来源:无忧吾律

图片来源:AlphaGPT

2) 工作流来拆解复杂任务

一个复杂的法律推理问题,其实都是由环环相扣的小问题组成。

刚刚有介绍过合同审查最基本的两个环节,合同信息要素抽取与合同信息要素审查,由此就可以推出两个基本的工作流节点 (信息抽取与信息审查)。

当然我们要应用在实际业务中,还需要做更细致的工作流拆解。

比方说以审查“违约责任”这个审查点为例,需要先判断合同中是否存在“违约责任”的条款,然后明确“违约行为”的定义,接着再审查违约责任的形式(如:违约金数额计算方式,损害赔偿的范围,解除合同的条件等等),接着再审查免责条款的合法性以及不可抗力条款的关联性,最终若发现问题,再提出修改意见,确保违约责任条款完善,合法,有效。

以上这些问题都能通过工作流的方式进行拆分。

将复杂任务拆分为具体明确的简单任务,通过提高每一个节点推理的准确性,从而提升整体工作流链路的透明度和准确性。

参考资料

  1. Legal Technology Market Statistics Report 2025-2037 — Research Nester
  2. Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts (2025-2030)
  3. Contract Lifecycle Management Market — Astute Analytica
  4. Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools – Stanford
  5. 中国CLM(合同全生命周期管理)市场产业全景研究报告 – TE智库

AI爆程序员失业潮!小扎正开发编程智能体,「中级程序员」剩最后一年?

aigc阅读(9)

今年,编程可能从就业市场上最受追捧的技能之一,变成一种可以完全自动化的技能。

从小扎最近「信心满满」的发言来看,这并不是空穴来风:

到2025年,我们Meta以及其他正在研究这一领域的公司,很可能会开发出一种AI,它能够发挥相当于中级工程师的作用,具备编写代码的能力。

甚至,他还提出了一个「终极设想」——Meta大部分代码的编写,以及AI系统的开发,都将由「人·工智能」工程师来完成,不是「人·类」工程师!

按小扎的话说,未来的人类将从重复性工作中解放出来,去探索更多的可能性,并拥有更强的创造力。

Meta软件工程师的薪酬从E3级别每年18.4万美元,到E9级别每年325.1万美元不等。其中,中级软件工程师的年薪约为50万美元

其实,自2024年末,科技圈便开始充斥着这类雄心勃勃的「预言」。

各个大厂的研究人员和高管们,开始急切地讨论超级智能系统的降临,仿佛一场智能革命即将席卷而来。

Salesforce的老板Marc Bernioff更是放出豪言称,公司今年将停招软件工程师

马斯克:超级AI将于2030年问世

在去年12月的一条推文中,马斯克表示:「到2025年底,AI会超越所有人类个体的智能水平,而到2027-2028年期间,将会超越全体人类的个体智能。」

「到2030年,AI几乎必然会超越全人类的智能总和(概率接近100%)。」

奥特曼:AI将在2025年全面进入就业市场

类似的,OpenAI CEO奥特曼也在今年1月的博客中表示,OpenAI已经掌握构建传统意义上的AGI的方法。

并且他相信,在2025年,可能会看到AI智能体首次「加入劳动力市场」,并实质性地改变公司的产出。

Dario Amodei:2025-2027年有望实现AGI

去年6月,Anthropic CEO Dario Amodei表示,他认为在未来1-3年内实现AGI的「可能性很大」。

一、如何解读AI圈的「未来宣言」?

正如宾大教授Ethan Mollick指出,这些来自业内人士的大胆预测有着明显的目的——他们在筹集资金,抬高股票估值,或许还在说服自己正在创造历史。

而大模型本身,也在稳定性方面存在本质上的缺陷:在某些任务上表现卓越,却在看似更简单的任务上显得力不从心。这种「能力参差不齐」是当前AI系统的核心特征,短期内难以得到根本改善。

但是,将这些预测简单地归类为炒作,是非常不明智的。

无论出于什么目的,AI实验室里的研究人员和工程师,似乎确实真诚地相信他们正在见证一个前所未有的突破。

仅凭他们的这种确信或许不足以令人信服——但越来越多的公开基准测试和演示,开始揭示他们为何会有如此想法。

就像潮水正在以超乎想象的速度上涨。

潮水渐涨

12月下旬,OpenAI发布了全球最强「推理模型」——o3。它在一系列测试中所表现出的令人震惊的进步,可以说完全超出了我们对AI技术水平的预期。

在这之中,有三个基准特别值得关注:

1. GPQA:即便用谷歌也无法解答的博士级测试。

测试中,可以利用互联网的博士在其专业领域内的得分为81%,而在领域之外则跌到了34%。相比之下,o3在整体上实现了高达87%的正确率,首次超越了人类专家。

2. Frontier Math:由数学家创建的非公开数学问题。

这项测试难度极高,此前没有任何AI能够获得超过2%的得分,而o3却取得了25%的正确率。

3. ARC-AGI,题目对于人类相对容易但对AI来说很难的智能体测试。

在这里,o3再次击败了所有之前的AI以及人类基准水平,得分达到了87.5%。

虽然这些测试都有局限性,但它们表明,我们之前认为AI无法逾越的门槛实际上可能会很快被突破。

AI智能体

随着AI变得越来越智能,它们成为了更高效的AI智能体。

智能体又是一个定义模糊的术语,通常指的是能自主实现一系列目标能力的AI。

之前的文章中已经展示了一些早期的智能体系统,而过去几周的发展也向我们证明,至少在一些细分但具有重要经济价值的领域中,实用性的AI智能体已经变得可行。

一个典型例子是谷歌的Gemini及其Deep Research功能——一个定制的研究型AI智能体。

比如,我们问它「从创始人的角度研究,比较高增长创业公司的各种融资方式」。智能体就会立刻制定计划,并阅读了多达173个网站。

几分钟后,一份完整的分析报告就出炉了!其中,包含118个参考文献,篇幅长达17页。

那么,质量如何呢?

作为在沃顿商学院教授创业入门课程超过十年的教师,Ethan Mollick不仅在这个领域发表过文章,自己创办过公司,还写过创业方面的书。

他认为,这份报告相当扎实,也没有发现任何明显的错误,感兴趣的读者可以查看原文进行验证。

此外,教授还指出,AI智能体目前最大的局限不在于准确性,而是只能访问公开的非付费网站,无法获取学术或付费出版物的内容。并且,它的分析也略显肤浅,在面对相互矛盾的证据时缺乏有力的论证。

总结来说,它虽然还比不上最优秀的人类专家,但已经超过了他所见过的许多报告的水平。

Deep Research项目的负责人透露,这仅仅是一个小团队的试点项目。因此可以推测,意愿更强、规模更大团队和公司,也能够实现类似成果。

如今,特定领域的AI智能体已经是实际的产品,而不再是遥不可及的设想。

这就引发了一个问题:是否很快就会出现通用型AI智能体?用户只需提问,这些通用型AI智能体就能通过计算机和互联网来完成任务。

随着时间推移,谜底迟早揭晓。

一旦通用型智能体系统能够可靠且安全地运作,将会带来巨变,因为AI智能体能将在现实世界中,真正发挥作用。

「小进步」不断

智能体和超级智能是实现革命性AI所需的核心要素,但还有许多其他领域也在快速发展。包括AI记忆容量(上下文窗口)的提升,以及赋予它们视觉和语音能力的多模态技术。

回顾一下过往的发展历程,我们就能清晰地看到这种进步。

举个例子,从ChatGPT发布之前,Ethan Mollick就一直用「坐飞机使用wifi的水獭」这个提示词来测试图像和视频模型。

在2023年10月,这个提示词只能生成一个令人毛骨悚然的怪物形象。而仅仅18个月后,多个图像创作工具就能完美驾驭这个提示词了。

根据教授的测试,最新的谷歌Veo 2只需不到15分钟的操作,就可以完成一段30秒的视频生成。(当然还需要一些时间等待视频渲染完成)可以看到,画面中阴影和光线的质量,以及水獭打开笔记本电脑这个细节的处理,都非常精彩。随后,教授再次提升难度,将这个水獭的奇妙故事改编成了80年代风格的科幻动画,让水獭遨游太空。并且,还利用Suno配上了复古风格的主题曲。同样,创作过程几乎不需要人工干预。

二、「洪水」将至,未雨绸缪

纵观这些发展,我们该如何看待各AI实验室关于智能浪潮即将来临的预测?

如今,我们已经看到了AI足以改变诸多脑力工作的能力:o3基准测试突破了之前的壁垒;特定领域的AI智能体能够进行复杂研究;多模态系统可以创造越来越精妙的内容。

而这还仅仅是个开始,更强大的系统和通用型AI智能体即将问世。

面对这些预测,令人担忧的不是这个时间表准确与否,而是我们连应对当前AI能力的准备都不充分,更遑论面对预测成真的可能性了。

当AI研究人员专注于对齐问题时,却很少有人试图勾勒和阐述AI深度渗透的世界会是什么模样——这不仅仅是一个技术问题,更关乎如何选择和部署AI。

生命未来研究所、基础问题研究所和Metaculus的联合创始人,Anthony Aguirre曾写道:

科技公司之所以构建价值万亿美元的AI基础设施,并不是因为指望你每月支付20美元,使用AI工具提高生产力。而是因为他们知道,如果有可能的话,你的老板愿意花数百甚至数千美元,用AI来取代你。

正如开篇Marc Bernioff的「证言」:Salesforce不会在2025年招聘软件工程师,因为AI已经带来了显著的生产力提升。

这波浪潮中,打工人的命运可能被改变,企业可能要转型……它可能与每个人都息息相关。

即将到来的智能浪潮本身并无善恶之分,关键在于我们如何未雨绸缪,如何适应变革。

最重要的是,我们选择如何驾驭它:这些将决定它是成为推动进步的动力,还是引发动荡的源头。

此时此刻就是展开这些讨论的最佳时机,等到浪潮汹涌而至之时,为时晚矣!

参考资料:

https://www.businessinsider.com/mark-zuckerberg-meta-ai-replace-engineers-coders-joe-rogan-podcast-2025-1

https://www.oneusefulthing.org/p/prophecies-of-the-flood

https://controlai.news/p/the-unknown-future-predicting-ai

AIGC「占领」抖音热点

aigc阅读(9)

2024年,UGC平台的内容悄然迭代,头部效应不再明显,AIGC成为UGC平台最重要的玩法之一。

小猫开口唱歌、一键变换发型,最近,抖音刮起了一股AI特效视频风,用户上传图片,即可生成视频内容。

我们观察到,2024年,UGC平台的内容悄然迭代,头部效应不再明显,AIGC成为UGC平台最重要的玩法之一。5月,Remini的黏土风格滤镜在全网风靡,吸引了抖音近三百万用户的参与,此后毛毡滤镜、柯南动画风、绘本风、油画风等一系列的AI滤镜玩法成为抖音用户的创作风向标。

借助于抖音挑战赛的裂变玩法,用户使用这些特效生成的内容在站内刷屏式传播,并多次登上抖音挑战榜,柯南动画风特效相关话题「申请加入柯南侦探团」播放量达到26.8亿次,

技术的飞速进步不断丰富玩法,仅半年时间,AI滤镜的玩法升级,从此前的「图生图」进化到「图生视频」,唱着《APT》的小猫在抖音吸引了1.2亿次的播放,仅需上传一张图片,人或者宠物就可以在AI特效的助力下唱歌、跳舞,面部表情和肢体动作都被调动起来,此类AI特效内容逐渐占据抖音热点。

最近,抖音还推出的新年玩法「AI生成年度单曲」,AI可以根据用户上传的图片,识别并生成相关的年度单曲,产出视频内容。

这一变化是抖音对于内部生态主动调整的结果,2023年妙鸭相机把AI玩图带入大众视野,也展现了其强大的社交带动力。2024年,AI玩法开始逐渐渗透到字节的多个业务线,5月剪映上线了AI内容平台「即梦」,剪映业务负责人张楠称,「抖音,是一个『真实世界』的相机,借助GenAI技术,即梦希望成为想象力世界的相机。」

一、AIGC重塑抖音内容生态

2024年5月,一股黏土风特效席卷全网,这一特效源于AI修图软件「Remini」。Remini在国内每周订阅价格是68元,但在抖音、小红书等社交媒体,用户可以无门槛免费使用这款特效,这种丑萌的风格一定程度上消弭了对于「人」的审美的差距,引发用户的情感共鸣,也展现了AI在内容生态中应用的可能性。

随着AI技术的成熟,此类滤镜开始「量产」,仿佛置身童话世界的「绘本风」、一键成为画中人的「莫奈花园」滤镜等特效不断给用户带来新奇的互动体验,还衍生了一系列IP联动玩法,如切换到平行世界的《模拟人生》滤镜、柯南动画风特效以及借《哈利波特》系列重映而走红的「巫师猫」等,在社交裂变下,AI滤镜重塑了用户与数字内容的交互方式,

技术的飞速迭代也让AI特效玩法从量变到质变,到了2024年下半年,「图生图」逐渐进阶为「图生视频」。

小猫邪魅一笑,说道「我可不是娇滴滴的女王,有的是力气和手段」,一系列让宠物说话的特效开始走红,在这些AI特效的加持下,原本只能靠人工配音和剪辑的宠物内容,借助于AI开始有了表情和性格,「拟人化」的动态让宠物看起来更生动。抖音爆款神曲《APT》也进入这一赛道,通过特效让宠物张嘴唱歌,「APT可爱版」调动了178万用户的参与。

在「羊毛卷」特效中,不管什么发型、什么物种,都可以动态生成羊毛卷,甚至画风逐渐离谱,「万物皆可羊毛卷」话题在抖音播放量达到2亿次,AIGC已经成为抖音内容生态重要的元素。

AI特效之所以能够在抖音刷屏式传播,有赖于「挑战赛」的裂变玩法。抖音特效团队前研发负责人王国晖在作客播客时解释,「字节内部,很长一段时把特效叫做道具。这种创作工具是抖音、TikTok的重要抓手,帮助普通人克服心理障碍,放松表达自己,此外特效也具备更强的跟拍和示范效应,而抖音是很强调跟拍心智的。」

参与门槛低是此类内容能够激发用户参与热情的一大原因,就像此前的对口型、手势舞等跟拍内容,对于普通用户来说,几乎没有创作难度。

AI特效的出现更是让创作「极简化」,用户只需要上传一张图片,即可生成一张特效图片或视频。同时,此类内容又满足了用户的个性化需求,在特效风格基础上,生成的AI内容也有一定的不确定性,带给用户「开盲盒」式的体验。

二、以量搏爆款

技术的进步也意味着创作门槛的降低,突破壁垒后批量制造,不断为用户带来新鲜的互动体验,这也是AI特效热度居高不下的原因。

妙鸭相机创始人张月光此前也提到过,这种新鲜感需要建立在「产品生态化」的基础上,也就是平台提供工具,吸引部分有专业能力的用户参与到模版生产中,以此推陈出新。

抖音平台的各类AI特效模板源源不断输送进内容生态中,也正是基于抖音多年搭建起来的「生态化」特效制作团队。目前抖音的AI特效制作团队主要分为三类,抖音官方、独立特效师和第三方AI特效制作团队。

在抖音的每个AI特效主页,都会注明其创作者,如「治愈绘本风」就源自于抖音官方团队;宠物跳舞的特效「AI图片会跳舞」是源自于认证抖音原创特效师的「强强白绘」;一些宠物唱歌特效则是在小程序「FacePlay」上生成。

早在2017年,抖音就已经组建了特效制作团队,彼时的特效以静态为主,如早期的狗头特效、变漫画脸等,玩法主要是在用户上传的内容上「做加法」。

基于特效的内容创作,早已成为抖音用户核心的创作方式之一,抖音2021年发布的《抖音特效数据报告》中显示,2021年上半年,抖音平台平均每天推出100多个新特效;平均每五个提交的内容中就有一个使用了特效。

之后抖音喊出「人人都是特效师」的口号,吸引外部作者加入,作者可以在特效开放平台「像塑」上制作模版,但对于创作者有一定的技术门槛,有创作者在采访中表示,要会用PS和AE等一些软件设计图案,还需要一些3D内容的制作能力。

目前包括「强强白绘」等在内的抖音特效师的AI模板大都是在「像塑」平台创作,「像塑」会给予现金激励、粉丝增长以及多平台推广的扶持政策,成功打造出爆款特效的创作者,平台还会给特效师对接商单,以及一系列的营销活动,因此大多特效师都靠量产特效搏爆款。

例如创作了「APT可爱版」特效的特效师「椰汁糕」,共在抖音上传了269个特效,但互动超过5万的仅有三个;创作出220万人使用的「AI对口型」特效的「together with you」共上传了617个特效,其绝大多数特效的使用次数都是个位数。

还有一部分AI特效是借助于「AI Mate」「FacePlay」这些第三方平台完成的,用户通常在平台内找到相应的模板生成视频后,再上传到抖音等社交平台。这些平台以会员付费模式为主,如在「FacePlay」app端内,周会员17元、年会员398元,但在其抖音小程序中,用户可以观看广告兑换使用模板的权益。截至目前,抖音的「FacePlay」小程序,已经有1.1亿人使用过,「宠物对口型AI合成」是其主打产品。

通过大量的AI模板输入进抖音生态中,用户的创作门槛不断被拉低,且选择范围扩大,只需要在心仪的模板中上传图片,即可获得对应的特效内容。

三、AI特效同质化

目前特效师在「像塑」平台创作特效并上传到抖音的生产模式,尽管带动了更广泛的创作力量,但更像是抖音在培养特效制作人才,却无法控制人才的流动。剪映推出的AI创作工具「即梦」,一定程度上解决了这一痛点,最核心的生产技术依然捏在平台手里,用户是末端的使用者。

2024年2月,抖音原CEO张楠在卸任后全身心投入到剪映业务中,5月剪映推出了「即梦」。12月有媒体报道称,字节计划提升即梦的产品优先级,尝试用新的路径打造AI时代的「抖音」。不久,张楠首次作为剪映负责人公开现身,提出了相似的想法。

在演讲中,张楠提到,即梦最关注的事情,就是想象的力量,「想象的世界,是不是也可以有一个像抖音一样,用来记录和表达的相机呢?」

动物赛道是即梦首个落地的「想象的世界」,从去年10月起,一批基于动物AI特效的账号悄然起号。

比如「萌宠真萌」以熊猫为主角,通过AI技术生成「拟人」的日常,在视频中,熊猫会买菜、做饭,跟老虎朋友一起玩,甚至还会画眼影和弹琵琶,相似的还有猫的打工和生活日常。此类账号画风和内容大致相同,单条视频却不乏数十万点赞,且涨粉迅速,已然在抖音形成了一种新的内容风格。

当下,UGC平台增长见顶,头部网红以及全民狂欢式的热点内容在减少,与此同时,由于AIGC的使用门槛在降低,尤其是在抖音平台,用户使用AI滤镜几乎没有技术门槛,这种新鲜的内容生成方式给了用户带来个性化的互动体验,此类内容在平台不断升温。

不过这些内容当下还未能承担起关于「即梦」愿景中的创造力和想象力,其生产模式依旧是「批量复制」。不论是上述的AI特效滤镜还是基于AI特效的账号,都存在严重同质化的问题,大量相似内容无疑会加速用户的审美疲劳。

风靡一时的妙鸭相机、黏土特效在风潮过去后再无水花,Remini至今也没能打造出黏土特效2.0。这种低门槛的创作方式也意味着内容迭代迅速,尽管短时间内可以调动用户活力,但就平台内容生态而言,并非健康的生产模式,需要不断推陈出新来维持热度,最核心的创意能力依然是无法补足。

Agent 最全 Playbook:场景、记忆和交互创新

aigc阅读(19)

AI Agent 是我们紧密追踪的范式变化,Langchain 的一系列文章对理解 Agent 的发展趋势很有帮助。在本篇编译中,第一部分是 Langchain 团队发布的 State of AI Agent 报告。他们采访了 1,300 多位从业者,包含开发者、产品经理、公司高管,揭示了 Agent 在今年的现状和落地瓶颈:九成公司都对 AI Agent 有计划和需求,但 Agent 能力的局限让用户只能在少数流程和场景中落地。比起成本和 latency,大家更在乎 Agent 能力的提升,和对其行为的可观测和可控性。

第二部分我们编译了 LangChain 官网的 In the Loop 系列文章中对 AI Agent 关键要素的分析:规划能力、UI/UX 交互创新和记忆机制。文中分析了 5 种 LLM-native 产品的交互方式,类比了 3 种人类的复杂记忆机制,对理解 AI Agent,对理解这些关键要素有所启发。在这一部分我们还加入了一些有代表性的 Agent 公司 case study,如 Reflection AI 创始人的访谈,来展望接下来 2025 年 AI Agent 的关键突破口。

在这个分析框架下,我们期待 2025 年 AI Agent 应用开始涌现,步入人机协作的新范式。对于 AI Agent 的规划能力,以 o3 为首的模型正在展现出很强的反思和推理能力,模型公司的进展正在从 reasoner 逼近到 Agent 阶段。随着推理能力持续提升,Agent 的“最后一公里”会是产品交互和记忆机制,这更可能是创业公司突破的机会。关于交互,我们一直期待 AI 时代的“GUI时刻“;关于记忆,我们相信 Context 会成为 Agent 落地的关键词,个人层面的 context 个性化、企业层面的 context 统一都会让 Agent 的产品体验得到大幅提升。

01.State of AI Agent

Agent 使用趋势:每个公司都在计划部署 Agent

Agent 领域的竞争正在变激烈。在过去一年中,许多 Agent 框架变得普及:例如使用 ReAct 结合 LLM 进行推理和行动、使用 multi-agent 框架进行编排,或者是使用类似 LangGraph 这样更可控的框架。

关于 Agent 的讨论并不全是 Twitter 上的炒作。大约 51%的受访者目前正在生产中使用 Agent。根据 Langchain 按公司规模的数据,100-2000 员工的中型公司在 Agent 投入生产方面最为积极,比例达到63%。

此外,78%的受访者有在近期内将采用将 Agent 投入生产的计划。很明显,大家对 AI Agent 有很强烈的兴趣,但实际要做好一个 production-ready 的 Agent 对许多人来说仍然是一个难题。

尽管技术行业通常被认为是早期的 Agent 使用者,但所有行业对 Agent 的兴趣都在与日俱增。在非技术公司工作的受访者中,有90%已经或计划将Agent投入生产(与技术公司的比例几乎相同,为89%)。

Agent 的常用 use case

Agent 最常用的 use case 包括进行研究和总结(58%),其次是通过定制化的 Agent 简化工作流程 (53.5%)。

这些反映了人们希望有产品来处理那些过于消耗时间的任务。用户可以依赖 AI Agent 从大量信息中提取关键信息和见解,而不是自己从海量的数据中筛选,再进行资料回顾或研究分析。同样,AI Agent 可以通过协助日常任务来提升个人生产力,使用户能够专注于重要事项。

不仅个人需要这种效率的提升,公司和团队也同样需要。客服(45.8%)是 Agent的另一个主要应用领域,Agent 帮助公司处理咨询、故障排除,并加快跨团队的客户响应时间;排在第四、第五位的是更底层的 code 和 data 应用。

监控:Agent 应用需要可观测和可控性

随着 Agent 实现功能变得更加强大,就需要管理和监控 Agent 的方法。追踪和可观测性工具位列必备清单之首,帮助开发人员了解 Agent 的行为和性能。很多公司还使用 guardrail(防护控制)以防止 Agent 偏离轨道。

在测试 LLM 应用程序时,离线评估(39.8%)比在线评估(32.5%)被更常被使用,这反映了实时监控 LLM 的困难。在 LangChain 提供的开放式回答中,许多公司还让人类专家手动检查或评估响应,作为额外的预防层。

尽管人们对 Agent 的热情很高,但在 Agent 权限上普遍还是比较保守。很少有受访者允许他们的 Agent自由地读取、写入和删除。相反,大多数团队只允许读取权限的工具权限,或需要人类批准 Agent 才可以做更有风险的行动,如写入或删除。

不同规模的公司在 Agent 控制方面也有不同的优先级。不出所料,大型企业(2000名以上员工)更加谨慎,严重依赖 “read-only” 权限以避免不必要的风险。他们也倾向于将 guardrail 防护与离线评估相结合,不希望客户看到任何问题。

与此同时,小型公司和初创公司(少于100名员工)更专注于追踪以了解其 Agent 应用程序中发生了什么(而不是其他控制)。根据 LangChain 的调查数据,较小的公司倾向于专注于通过查看数据来理解结果;而大型企业则在全面范围内设置了更多的控制措施。

将 Agent 投入生产的障碍和挑战

保证 LLM 的高质量 performance 很难,回答需要有高准确性,还要符合正确的风格。这是 Agent 开发使用者们最关心的问题——比成本、安全等其他因素的重要性高出两倍多。

LLM Agent 是概率式的内容输出,意味着较强的不可预测性。这引入了更多的错误可能性,使得团队难以确保其 Agent 始终如一地提供准确、符合上下文的回应。

对于小型公司尤其如此,性能质量远远超过了其他考虑因素,有 45.8 %的人将其作为主要关注点,而成本(第二大关注点)仅为22.4%。这一差距强调了可靠、高质量的性能对于组织将 Agent 从开发转移到生产的重要性。

安全问题对于需要严格合规,并敏感处理客户数据的大型公司也普遍存在。

挑战不止于质量。从 LangChain 提供的开放式回答中,许多人对公司是否要持续投入开发和测试 Agent 仍保持怀疑。大家提到两个突出的阻碍:开发 Agent 需要的知识很多,且需要一直跟进技术前沿;开发部署 Agent 需要的时间成本很大,是否能可靠运行的收益又不太确定。

其他新兴主题

在开放性问题中,大家对 AI Agent 展示出的这些能力有很多称赞:

  • 管理多步骤任务:AI Agent 能够进行更深入的推理和上下文管理,使它们能够处理更复杂的任务;
  • 自动化重复性任务:AI Agent 继续被视为处理自动化任务的关键,这可以为用户解放时间,让他们去解决更有创造性的问题;
  • 任务规划和协作:更好的任务规划确保正确的 Agent 在正确的时间处理正确的问题,特别是在 Multi-agent 系统中;
  • 类似人类的推理:与传统LLM不同,AI Agent可以追溯其决策,包括根据新信息回顾并修改过去的决策。

此外大家还有两个最期待的进展:

  1. 对开源 AI Agent 的期待:人们对开源 AI Agent 的兴趣明显,许多人提到集体智慧可以加速 Agent 的创新;
  2. 对更强大的模型的期待:许多人正在期待由更大、更强大的模型驱动的 AI Agent 的下一次飞跃—在那时,Agent 能够以更高的效率和自主性处理更复杂的任务。

问答中很多人也提到了 Agent 开发时最大的挑战:如何理解 Agent 的行为。一些工程师提到他们在向公司 stakeholder 解释 AI Agent 的能力和行为时会遇到困难。部分时候可视化插件可以帮助解释 Agent 的行为,但在更多情况下 LLM 仍然是一个黑箱。额外的可解释性负担留给了工程团队。

02.AI Agent 中的核心要素

什么是 Agentic 系统

在 State of AI Agent 报告发布之前,Langchain 团队已经在 Agent 领域写了自己的 Langraph 框架,并通过 In the Loop 博客讨论了很多 AI Agent 中的关键组件,接下来就是我们对其中关键内容的编译。

首先每个人对 AI Agent 的定义都略有不同,LangChain 创始人 Harrison Chase 给出的定义如下:

AI Agent 是一个用 LLM 来做程序的控制流决策的系统。
An AI agent is a system that uses an LLM to decide the control flow of an application.

对其实现方式,文章中引入了 Cognitive architecture(认知架构) 的概念,认知架构是指 Agent 如何进行思考、系统如何去编排代码/ prompt LLM:

  • Cognitive:Agent 使用 LLM 来语义推理该如何编排代码/ Prompt LLM;
  • Architecture: 这些 Agent 系统仍然涉及大量类似于传统系统架构的工程。

下面这张图展示了不同层次 Cognitive architecture 的例子:

  • 标准化的软件代码(code) :一切都是 Hard Code ,输出或输入的相关参数都直接固定在源代码中,这不构成一个认知架构,因为没有 cognitive 的部分;
  • LLM Call ,除了一些数据预处理外,单个 LLM 的调用构成了应用程序的大部分,简单的 Chatbot 属于这一类;
  • Chain:一系列 LLM 调用,Chain 尝试将问题的解决分成若干步,调用不同的 LLM 解决问题。复杂的 RAG 属于这一种:调用第一个 LLM 用来搜索、查询,调用第二个 LLM 用于生成答案;
  • Router:在前面的三种系统中,用户可以提前知道程序会采取的所有步骤,但在 Router 中,LLM 自行决定调用哪些 LLM ,采取怎样的步骤,这增加了更多的随机性和不可预测性;
  • State Machine ,将 LLM 与 Router 结合使用,这将更加不可预测,因为这样结合放入循环中,系统可以(理论上)做无限次的 LLM 调用;
  • Agentic 的系统:大家也会称为“ Autonomous Agent ”,使用 State Machine 时,对于可以采取哪些操作以及在执行该操作后执行哪些流程仍然存在限制;但当使用 Autonomous Agent 时,这些限制将被删除。LLM 来决定采取哪些步骤、怎样去编排不同的 LLM ,这可以通过使用不同的 Prompt 、工具或代码来完成。

简单来说,一个系统越是“ Agentic ”,LLM 就越大程度地决定系统的行为方式。

Agent 的关键要素

规划

Agent 可靠性是一个很大的痛点。常常会有公司使用 LLM 构建了 Agent,却提到 Agent 无法很好地规划和推理。这里的规划和推理是什么意思呢?

Agent的计划和推理指的是 LLM 思考要采取什么行动的能力。这涉及短期和长期 reasoning ,LLM 评估所有可用信息,然后决定:我需要采取哪些一系列步骤,哪些是我现在应该采取的第一个步骤?

很多时候开发者使用 Function calling(函数调用)来让 LLM 选择要执行的操作。Function calling 是 OpenAI 于 2023 年 6 月首次添加到 LLM api 的能力,通过 Function calling ,用户可以为不同的函数提供 JSON 结构,并让 LLM 匹配其中一个(或多个)结构。

要成功完成一项复杂的任务,系统需要按顺序采取一系列行动。这种长期规划和推理对于 LLM 非常复杂:首先 LLM 必须考虑一个长期的行动规划,再回到要采取的短期行动中;其次,随着 Agent 执行越来越多的操作,操作的结果将反馈给 LLM ,导致上下文窗口增长,这可能会导致 LLM “分心”并表现不佳。

改进规划的最容易解决的办法是确保 LLM 拥有适当推理/计划所需的所有信息。尽管这听起来很简单,但通常传递给 LLM 的信息根本不足以让 LLM 做出合理的决定,添加检索步骤或阐明 Prompt 可能是一种简单的改进。

之后,可以考虑更改应用程序的认知架构。这里有两类认知架构来改进推理,通用认知架构和特定领域的认知架构:

1)通用认知架构

通用认知架构可以应用于任何任务。这里有两篇论文提出了两种通用的架构,一个是 “plan and solve” 架构,在 Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models 一文中提出,在该架构中,Agent 首先提出一个计划,然后执行该计划中的每个步骤。另一种通用架构是 Reflexion 架构,这一架构在 Reflexion: Language Agents with Verbal Reinforcement Learning 中提出,在该架构中,Agent 执行任务后有一个明确的 “反射” 步骤,以反映它是否正确执行了该任务。这里不赘述,详细可看上两篇论文。

尽管这些想法显示出改进,但它们通常过于笼统,无法被 Agent 在生产中实际使用。(译者注:这篇文章发布时还没有 o1 系列模型)

2)特定领域的认知架构

相反,我们看到 Agent 是使用特定领域的认知架构构建的。这通常表现在特定领域的分类/规划步骤、特定领域的验证步骤中。规划和反思的一些思想可以在这里应用,但它们通常以特定领域的方式应用。

AlphaCodium 的一篇论文中举了一个特定的例子:通过使用他们所谓的 “流工程”(另一种谈论认知架构的方式)实现了最先进的性能。

可以看到 Agent 的流程对于他们试图解决的问题非常具体。他们告诉 Agent 分步骤做什么:提出测试,然后提出解决方案,然后迭代更多测试等。这种认知架构是高度专注特定领域的,不能泛化到其他领域。

Case Study:

Reflection AI 创始人  Laskin 对 Agent 未来的愿景

在红杉资本对 Reflection AI 创始人 Misha Laskin 的访谈中,Misha 提到他正在开始实现他的愿景:即通过将 RL 的 Search Capability 与 LLM 相结合,在他的新公司 Reflection AI 中构建最佳的 Agent 模型。他和联合创始人 Ioannis Antonoglou(AlphaGo、AlphaZero 、Gemini RLHF 负责人)正在训练为 Agentic Workflows 设计的模型,访谈中的主要观点如下:

• 深度是 AI Agent 中缺失的部分。 虽然当前的语言模型在广度方面表现出色,但它们缺乏可靠完成任务所需的深度。Laskin 认为,解决“深度问题”对于创建真正有能力的 AI Agent 至关重要,这里的能力是指:Agent 可以通过多个步骤规划和执行复杂的任务;

• 将 Learn 和 Search 相结合是实现超人性能的关键。 借鉴 AlphaGo 的成功,Laskin 强调 AI 中最深刻的理念是 Learn(依靠 LLM)和 Search(找到最优路径)的结合。这种方法对于创建在复杂任务中可以胜过人类的 Agent 至关重要;

• Post-training 和 Reward modeling 带来了重大挑战。 与具有明确奖励的游戏不同,现实世界的任务通常缺乏真实奖励。开发可靠的 reward model,是创建可靠的 AI Agent 的关键挑战

• Universal Agents 可能比我们想象的更接近。 Laskin 估计,我们可能只用三年时间就可以实现“digital AGI”,即同时具有广度和深度的 AI 系统。这一加速的时间表凸显了在能力发展的同时解决安全性和可靠性问题的紧迫性

• 通往 Universal Agents 的道路需要一种的方法。 Reflection AI 专注于扩展 Agent 功能,从一些特定的环境开始,如浏览器、coding 和计算机操作系统。他们的目标是开发 Universal Agents ,使其不局限于特定任务。

UI/UX 交互

在未来几年,人机交互会成为 research 的一个关键领域:Agent 系统与过去的传统计算机系统不同,因为延迟、不可靠性和自然语言界面带来了新的挑战。因此,与这些 Agent 应用程序交互的新 UI/UX 范式将出现。Agent 系统仍处于早期阶段,但已经出现多种新兴的 UX 范式。下面分别进行讨论:

1)对话式交互 (Chat UI)

聊天一般分为两种:流式聊天(streaming chat)、非流式聊天(non-streaming Chat)。

流式聊天是目前最常见的 UX。它是一个 Chatbot,以聊天格式将其思想和行为流回——ChatGPT 是最受欢迎的例子。这种交互模式看起来很简单,但也有不错的效果,因为:其一,可以使用自然语言与 LLM 进行对话,这意味着客户和 LLM 没有任何障碍;其二,LLM 可能需要一段时间才能工作,流式处理使用户能够准确了解后台发生的事情;其三,LLM 常常会出错,Chat 提供了一个很好的界面来自然地纠正和指导它,大家已经非常习惯于在聊天中进行后续对话和迭代讨论事情。

但流式聊天也有其缺点。首先,流式聊天是一种相对较新的用户体验,因此我们现有的聊天平台(iMessage、Facebook Messenger、Slack 等)没有这种方式;其次,对于运行时间较长的任务来说,这有点尴尬—用户只是要坐在那里看着 Agent 工作吗;第三,流式聊天通常需要由人类触发,这意味着还需要大量 human in the loop。

非流式聊天的最大区别在于响应是分批返回的, LLM 在后台工作,用户并不急于让 LLM 立刻回答,这意味着它可能更容易集成到现有的工作流程中。人们已经习惯了给人类发短信——为什么他们不能适应用 AI 发短信呢?非流式聊天将使得与更复杂的 Agent 系统交互变得更加容易—这些系统通常需要一段时间,如果期望即时响应,这可能会令人沮丧。非流式聊天通常会消除这种期望,从而更轻松地执行更复杂的事情。

这两种聊天方式有以下优缺点:

2)后台环境 (Ambient UX)

用户会考虑向 AI 发送消息,这是上面谈到的 Chat,但如果 Agent 只是在后台工作,那我们该如何与 Agent 交互呢?

为了让 Agent 系统真正发挥其潜力,就需要有这种允许 AI 在后台工作的转变。当任务在后台处理时,用户通常更能容忍更长的完成时间(因为他们放宽了对低延迟的期望)。这使 Agent 可以腾出时间做更多的工作,通常比在聊天 UX 中更仔细、勤奋做更多推理。

此外,在后台运行 Agent 能扩展我们人类用户的能力。聊天界面通常限制我们一次只能执行一项任务。但是,如果 Agent 在后台环境运行,则可能会有许多 Agent 同时处理多个任务。

让 Agent 在后台运行,是需要用户信任的,该如何建立这种信任?一个简单的想法是:向用户准确展示 Agent 在做什么。显示它正在执行的所有步骤,并让用户观察正在发生的事情。虽然这些步骤可能不会立即可见(就像在流式传输响应时一样),但它应该可供用户点击并观察。下一步是不仅让用户看到发生了什么,还让他们纠正 Agent 。如果他们发现 Agent 在第 4 步(共 10 步)中做出了错误的选择,客户可以选择返回第 4 步并以某种方式更正 Agent 。

这种方法将用户从 “In-the-loop” 转变为 “On-the-loop”。“On-the-loop”要求能够向用户显示 Agent 执行的所有中间步骤,允许用户中途暂停工作流,提供反馈,然后让 Agent 继续。

AI 软件工程师 Devin 是实现类似 UX 的一个应用程序。Devin 运行时间较长,但客户可以看到所采取的所有步骤,倒回特定时间点的开发状态,并从那里发布更正。尽管 Agent 可能在后台运行,但这并不意味着它需要完全自主地执行任务。有时 Agent 不知道该做什么或如何回答,这时,它需要引起人类的注意并寻求帮助。

一个具体的例子是 Harrison 正在构建的电子邮件助理 Agent 。虽然电子邮件助理可以回复基本电子邮件,但它通常需要 Harrison 输入某些不想自动化的任务,包括:审查复杂的 LangChain 错误报告、决定是否要参加会议等。在这种情况下,电子邮件助理需要一种方法来向 Harrison 传达它需要信息来响应。请注意,它不是要求其直接回答;相反,它会征求 Harrison 对某些任务的意见,然后它可以使用这些任务来制作和发送一封漂亮的电子邮件或安排日历邀请。

目前,Harrison 在 Slack 中设置了这个助手。它向 Harrison 发送一个问题,Harrison 在 Dashboard 中回答它,与其工作流程原生集成。这种类型的 UX类似于客户支持 Dashboard 的 UX。此界面将显示助手需要人工帮助的所有区域、请求的优先级以及任何其他数据。

3)电子表格 (Spreadsheet UX)

电子表格 UX 是一种支持批量处理工作的超级直观且用户友好的方式。每个表格、甚至每一列都成为自己的 Agent,去研究特定的东西。这种批量处理允许用户扩展与多个 Agent 交互。

这种 UX 还有其他好处。电子表格格式是大多数用户都熟悉的 UX,因此它非常适合现有的工作流程。这种类型的 UX 非常适合数据扩充,这是一种常见的 LLM 用例,其中每列可以表示要扩充的不同属性。

Exa AI、Clay AI、Manaflow 等公司的产品都在使用这种 UX,下以 Manaflow举例展示这种电子表格 UX 如何处理工作流程。

Case Study:

Manaflow 如何使用电子表格进行 Agent 交互

Manaflow 的灵感来源于创始人 Lawrence 曾任职的公司 Minion AI,Minion AI 构建的产品是 Web Agent 。Web Agent 可以控制本地的 Geogle Chrome,允许其与应用程序交互,例如订机票、发送电子邮件、安排洗车等。基于Minion AI 的灵感,Manaflow 选择让 Agent 去操作电子表格类的工具,这是因为 Agent 不擅长处理人类的 UI 界面,Agent 真正擅长的是 Coding。因此 Manaflow 让 Agent 去调用 UI 界面的的 Python 脚本,数据库接口,链接API,然后直接对数据库进行操作:包括阅读时间、预定、发邮件等等。

其工作流如下:Manaflow 的主要界面是一个电子表格(Manasheet),其中每列代表工作流程中的一个步骤,每行对应于执行任务的 AI Agent。每个电子表格的 workflow 都可以使用自然语言进行编程(允许非技术用户用自然语言描述任务和步骤)。每个电子表格都有一个内部依赖关系图,用于确定每列的执行顺序。这些顺序会分配给每一行的 Agent 并行执行任务,处理数据转换、API 调用、内容检索和发送消息等流程:

生成 Manasheet 可以的方法为:输入类似上面红色框里的自然语言,如上图中想向客户可以发送定价的邮件,就可以通过 Chat 输入 Prompt,来生成 Manasheet。通过 Manasheet 可以看到有客户的姓名,客户的邮箱,客户所属的行业,是否已经发送邮件等信息;点击 Execute Manasheet 即可执行任务。

4)生成式 UI (Generative UI)

“生成式 UI”有两种不同的实现方式。

一种方式是由模型自行生成需要的的原始组件。这类似于 Websim 等产品。在后台,Agent 主要编写原始 HTML,使其能够完全控制显示的内容。但是这种方法允许生成的 web app 质量有很高的不确定性,因此最终结果可能看起来波动较大。

另一种更受约束的方法为:预定义一些 UI 组件,这通常是通过工具调用来完成的。例如,如果 LLM 调用天气 API,则它会触发天气地图 UI 组件的渲染。由于渲染的组件不是真正生成的(但是有更多选择),因此生成的 UI 将更加精致,尽管它可以生成的内容不完全灵活。

Case Study:

Personal AI 产品 dot

举例来说,在 2024 年曾被称为最好的 Personal AI 产品的 Dot,就是一个很好的生成式 UI 产品。

Dot 是 New Computer 公司的产品:其目标是成为用户的长期伴侣,而并不是更好的任务管理工具,据联合创始人Jason Yuan讲,Dot 的感觉是,当你不知道该去哪里、该做什么或该说什么时,你就会求助于 Dot。这里举两个例子介绍产品是做什么的:

• 创始人 Jason Yuan 常常在深夜让 Dot 推荐酒吧,说自己想要一醉方休,断断续续几个月,某天下班之后,Yuan 再次问了相似的问题,Dot 竟然开始劝解 Jason,不能再这样下去了;

• Fast Company 记者 Mark Wilson,也和 Dot 相处了几个月的时间。有一次,他向 Dot 分享了书法课上他手写的一个「O」,Dot 竟然调出了几周前他手写「O」的照片,夸他的书法水平提高了。

• 随着使用Dot的时间越来越多,Dot 更加理解了用户喜欢打卡咖啡馆,主动推送给主人附近的好咖啡馆,附上了为何这个咖啡馆好,最后还贴心的询问是否要导航.

可以看到在这个咖啡馆推荐的例子中,Dot 通过预定义 UI 组件,来达到 LLM-native 的交互效果。

5)协作式 UX(Collaborative UX)

当 Agent 和人类一起工作时会发生什么?想想 Google Docs,客户可以在其中与团队成员协作编写或编辑文档,但倘如协作者之一是 Agent 呢?

Geoffrey Litt 和 Ink & Switch 合作的 Patchwork项目是人类- Agent 合作的一个很好的例子。(译者注:这可能是最近 OpenAI Canvas 产品更新的灵感来源)。

协作式 UX 与前面讨论的 Ambient UX 相比如何?LangChain创始工程师 Nuno 强调了两者之间的主要区别,在于是否有并发性:

  • 在协作式 UX 中,客户和LLM 经常同时工作,以彼此的工作为输入;
  • 在环境 UX 中,LLM 在后台持续工作,而用户则完全专注于其他事情。

记忆

记忆对于好的 Agent 体验至关重要。想象一下如果你有一个同事从来不记得你告诉他们什么,强迫你不断重复这些信息,这个协作体验会非常差。人们通常期望 LLM 系统天生就有记忆,这可能是因为 LLM 感觉已经很像人类了。但是,LLM 本身并不能记住任何事物。

Agent 的记忆是基于产品本身需要的,而且不同的 UX 提供了不同的方法来收集信息和更新反馈。我们能从 Agent 产品的记忆机制中看到不同的高级记忆类型——它们在模仿人类的记忆类型。

论文 CoALA: Cognitive Architectures for Language Agents 将人类的记忆类型映射到了 Agent 记忆上,分类方式如下图的所示:

1)程序记忆(Procedural Memory):有关如何执行任务的长期记忆,类似于大脑的核心指令集

• 人类的程序记忆:记住如何骑自行车。

• Agent 的程序记忆:CoALA 论文将程序记忆描述为 LLM 权重和 Agent 代码的组合,它们从根本上决定了 Agent 的工作方式。

在实践中,Langchain 团队还没有看到任何 Agent 系统会自动更新其 LLM 或重写其代码,但是确实存在一些 Agent 更新其 system prompt 的例子。

2)语义记忆(Semantic Memory): 长期知识储备

• 人类的语义记忆:它由信息片段组成,例如在学校学到的事实、概念以及它们之间的关系。

• Agent 的语义记忆:CoALA 论文将语义记忆描述为事实存储库。

在实践中上,常常是通过使用 LLM 从 Agent 的对话或交互中提取信息来实现的。此信息的确切存储方式通常是特定于应用程序的。然后这些信息在将来的对话中检索并插入到 System Prompt 中 以影响 Agent 的响应。

3)情景记忆(Episodic Memory):回忆特定的过去事件

• 人类的情景记忆:当一个人回忆起过去经历的特定事件(或“情节”)时。

• Agent 中的情景记忆:CoALA 论文将情景记忆定义为存储 Agent 过去动作的序列。

这主要用于让 Agent 按预期执行动作。在实践中,情景记忆的更新通过 Few-Shots Prompt 的方法实现。如果相关更新的 Few-Shots Prompt 足够多,那么接下来的更新就通过 Dynamic Few-Shots Prompt 来完成。

如果一开始就有指导 Agent 正确完成操作的办法,后面面对同样的问题就可以直接使用这种办法;相反,如果不存在正确的操作方式,或者如果 Agent 不断做新的事情,那么语义记忆就会更重要,反而在前面的例子中,语义记忆不会有太大帮助。

除了考虑要在 Agent 中更新的记忆类型外,开发人员还要考虑如何更新 Agent 的记忆:

更新 Agent 记忆的第一种方法是 “in the hot path”。在这种情况下, Agent 系统会在响应之前记住事实(通常通过工具调用), ChatGPT 采取这种方法更新其记忆;

更新 Agent 记忆的另一种方法是 “in the background” 。在这种情况下,后台进程会在会话之后运行以更新记忆。

比较这两种方法,“in the hot path” 方法的缺点是在传递任何响应之前会有一些延迟,它还需要将 memory logic 与 agent logic 相结合。

但是, “in the background ”可以避免这些问题 – 不会增加延迟,并且 memory logic 保持独立。但是“in the background ”也有其自身的缺点:记忆不会立即更新,并且需要额外的 logic 来确定何时启动后台进程。

更新记忆的另一种方法涉及用户反馈,这与情景记忆特别相关。例如,如果用户对某次交互标评分较高(Postive Feedback),Agent 可以保存该反馈以备将来调用。

基于以上编译内容,我们期待规划、交互、记忆三个组件的同时进步,会让我们在 2025 年看到更多可用的 AI Agent,进入人机协同工作的新时代。

Reference

https://www.langchain.com/stateofaiagents

https://blog.langchain.dev/tag/in-the-loop/

https://www.sequoiacap.com/podcast/training-data-misha-laskin/

https://www.youtube.com/watch?v=pBBe1pk8hf4

https://www.qodo.ai/products/alpha-codium/?ref=blog.langchain.dev

https://news.ycombinator.com/item?id=41259754

https://arxiv.org/pdf/2309.02427

https://github.com/mem0ai/mem0

AI创新加速:揭秘Coze、元器、Dify、千帆、百炼如何推动Agent开发新纪元

aigc阅读(14)

随着大模型迭代的浪潮一波接一波地推高技术前沿,Agent技术已经成为大模型落地的主流选择,并被视为赋予大模型更广阔能力的最佳路径。从理解复杂的指令,到处理多模态信息,从简单的问答系统到复杂的决策支持系统,从个性化推荐到自动化的业务流程管理,陆续在更多领域展现出其巨大的潜力和价值,它正在为社会带来深刻的变革。

在这场趋之若鹜的群体行动中,面对这项持续发展变化的技术簇,我们应采取一种积极探索与谨慎评估并重的策略——既要保持理性,也要保持乐观,以此来应对不确定性。技术的更新迭代需要时间与耐心,而技术的应用则需了解其限制和准确判断业务场景。

要有效利用大模型,首先,必须明确他们的优势和不足(图1)。接下来,整理业务操作流程即业务SOP,确保对业务场景有深刻理解和准确的认知。其次,对领域知识进行必要的梳理。第四,在搭建Agent的过程中,尽可能的规避LLM的局限(例如,通过多轮对话精准捕捉识别用户意图)。第五,要做好企业内专业资料的处理和必要工具的建设。最后,准备好对Agent进行持续的优化(效果优化),从而在应用大型模型时发挥其优势,规避弱点。

一、大模型原生能力&局限

大模型擅长语义理解、逻辑推理以及生成和创作内容。然而,它们目前存在一些限制,包括对特定领域的深入理解和时效性不足、有限的记忆能力、在实际情况中的鲁棒性不够,导致错误、潜在的安全风险、推理和规划能力尚待提升、缺少合作意识而无法协同解决复杂问题、以及缺乏视觉和听觉等感官能力,有时生成的信息可能不精确或是虚构的。在构建Agent时,可以通过集成其他技术和能力来补充和改进大模型的这些不足。

另外,一些限制更多地取决于大型模型自身能力的提升。例如,泛化能力和过度拟合现象,这可能导致对含糊不清的信息的理解出现歧义,或者混淆了特定领域的知识。模型处理上下文的能力也受到长度的限制。模型的可解释性和可调试性不足,使其在某些情况下表现得像一个局部的黑箱。由于模型参数众多,推理过程耗时较长。此外,微调模型对高性能的GPU和TPU计算资源的需求也相对较大。

二、Agent

为让大模型更充分的发挥价值,突破当前的局限,主流趋势是通过Agent增强能力(大脑),为大模型增加眼耳鼻口手脚的能力。

2.1 Agent框架

Agent为大模型提供了执行复杂任务、与环境交互、自主决策和长期记忆等关键能力,使得大模型的应用从单纯的语言处理扩展到更广泛的领域,包括自动化任务执行、客户服务、内容创作等,极大地扩展了AI的实用性和影响力。为了实现这样一套解决方案(图2),背后需要用工程化的手段落地——工具链。

2.2 一站式AI Agent开发工具链

Agent开发平台是面向智能体生产场景的一站式开发工具,具备智能体编排、流程搭建、知识库管理、大小模型交互、计量、开放、私有化部署等功能,能够有效提升智能体研发效率,降低研发成本。目前国内知名的Agent开发平台包括百度的千帆、阿里的百炼、字节的Coze、Dify以及腾讯的元器等。

2.3 工具链竞品分析

1)字节Coze

Coze平台专为零代码或低代码(可视化编排)开发者设计,极大地降低了开发门槛,使得非技术人员也能快速上手。

优势:

  • 功能强大(图像流、通过触发器实现自动化的任务调度和执行、多渠道发布)
  • 高度可定制
  • 支持丰富的主流第三方插件
  • 数据源多样

但整体的动线繁琐,用好的门槛比较高。

2)腾讯元器

网站风格一如既往的“节制”,功能布局清晰易懂,用户无需花费脑力去理解网站的结构、布局和导航。该有的元素都有,后续在生态建设上,期待看到更多的可能,包括且不限于更丰富的大模型可选、插件……

3)Dify

是做LLM应用开发平台中最早的一批之一,且功能性甚至比国内头部大厂更突出,相比之下,目前它是是Github上Star数最多的大模型应用开发工具(54000星),是全球LLM Tools增速Top1的开源项目(300万的安装量)。

优势:

  • AI生态相对最好:支持40多家厂商的大模型,对接大模型平台、对接开源大模型,全链路免费。上百种插件
  • 成功打开海外市场
  • 提供云服务和本地部署两种方式,满足了不同用户的需求,同时支持多平台发布应用
  • 自动化流程搭建和数据处理方面具有明显的优势,适合需要构建复杂自动化流程或处理大量数据的用户

4)百度千帆AppBuilder

千帆AppBuilder提供全面便捷的应用开发套件与资源环境,包括大模型驱动的开发组件(文字识别、文生图等多模态能力),内置RAG(检索增强生成)、Agent(智能体)、GBI(智能数据分析)等常用的AI原生应用框架,语音识别、TTS、文生图等AI能力组件,以及各类IAAS云资源。使得开发者能够在一个平台上完成从应用开发到部署的全过程,大大提高了开发效率。

优势:

  • 千帆大模型平台提供了从模型设计、训练到部署、优化的全流程支持
  • 平台42个大模型,预置41个数据集。内置103套Prompt模版及自动化Prompt工程能力
  • 预置的安全模块可以有效控制输入和输出的安全风险,为用户提供全面的模型安全、内容安全和数据安全保障
  • 自研集群,为企业节约了算力成本和时间成本
  • 生态能力强大,预置100+优质官方组件
  • 自主规划准确,支持人工编排以高效还原业务SOP

5)阿里百炼

优势:

  • 开放的模型非常多,除了阿里系之外,支持主流的三方大模型,百川、智谱、零一万物、Meta……
  • 支持进行多轮对话配置,模型支持将选定的历史对话信息作为输入
  • 允许企业开发应用时引入自研插件,与业务场景充分融合

6)竞品分析:核心功能

从Agent构建(编排)、节点(及节点管理)、生态、发布渠道、OPS,5个一级维度,70个三级维度,来评估5个头部供应商的功能,可以看出,在过去一年多的时间里,各家的开发工具链都在快速演进和迭代。

2.4 参与方

以企业内部自建or私有化部署Agent开发平台角度看,利益相关者有Agent开发平台的建造者(自建)or维护人(外采)。有小白用户,有研发能力的Agent开发者(包括插件的开发、知识库的建设等围绕大模型应用的一系列的元素建设),还有外部的三方服务商(提供底层基座大模型、Agent开发套件、解决方案、甚至是上手帮企业调Agent)。

2.5 沉淀的AI资产——生态市场

在大模型的范畴内,新型的AI资产是企业核心价值力的一种体现。包括各种Agent(Mult-Agent)、Flow工作流、业务的SOP、大&小模型、Prompt、插件、知识库、知识图谱、语料、评测集、评测排行榜(含报告)……。这些资产在具体的业务领域应用中,像变形金刚一样,可以单打独斗,也可以组合变形,以解决文本编辑、图像处理、语音识别、智能助手等形态推进企业的产品创新、服务质量的提升、运营效率的改进、营销效果的高转化。

三、Agent开发生命周期

上文介绍了Agent开发工具,有了这些利器,接下来的关键点在于如何巧妙的运用它们?构建并完善Agent,以确保业务效率的显著提升,是展现大模型价值的最佳途径。企业内部做Agent一般经过3个步骤:

其一,业务提需求,搭建Agent,确保POC符合业务预期

其二,正式开发Agent,以及对接业务系统,上线交付

其三,持续运营优化Agent,不断提升效果

四、行业发展趋势VS企业落地关键点

在企业实际搭建Agent的过程中,有三个关键步骤极其重要,必须由企业内部人员主动参与并领导,这是无法通过购买第三方服务来取代的。

其一,是让大型模型理解企业内部的数据、信息和知识,为Agent提供高质量、精确的数据资源,以便让大型模型输出符合业务预期的答案是至关重要的。数据到信息,信息到知识,知识到智慧的转化过程,需要从最终使用者的角度反向思考。如何采集、处理和加工数据、信息、知识才能达到预期效果。这需要在六个方面进行思考:准确性、完整性、全面性、粒度(粗糙或详细)、关联性以及访问或使用权限。信息处理的效果对于企业有效利用大型模型至关重要,这需要具备专业知识的人员掌握与大型模型互动的专门技巧,如提示(Prompt)和知识库或记忆技巧。

其二,通过使用插件,可以实现Agent与企业现有系统的无缝集成,从而提升系统的智能化程度。这一过程通常由开发团队负责编码(或使用如Cursor等代码生成工具)。在此过程中,需要重视元数据的完整性(AI资产管理),以便实现最大程度的复用性,从而提高企业内部系统对接的效率。

其三,在构建Agent之前,我们需要理清业务的标准操作流程(SOP)。在编辑工作流时,开发者需要参照SOP,将大模型、知识库、插件等原始元素进行编排,并通过逻辑节点将流程连贯起来,从而“虚拟重现”业务场景。这三个方面的推进效率和质量,决定了一个企业应用大型模型的效率和效果,也决定了在这场生产力革命中的排位。

可以预见,在2025年,大模型应用将给我们带来更多令人惊叹的“哇哦”时刻,让我们拭目以待~

受作者领域认知深度所限及技术无时无刻不在更新迭代,业界对LLM、AGI、Agent、GPT……的衍生应用必定是珠零锦粲。无法在一篇中尽现全貌,未来可能会彻底推翻当下的种种尝试而不得知。能为大家带去一点点新的启发,以深感欣慰。文中难免有纰漏或不准确的地方,欢迎大家批评指正。

撰写中参考网络上各位同仁的最新观点,拿来主义未打招呼,还望见谅。若有任何建议或意见,欢迎联系作者探讨。

2024年,多少人被AI“割韭菜”?

aigc阅读(6)

随着大模型飞速发展,AI应用也逐渐成熟。过去一年,在很多人还在琢磨能用AI来干啥的时候,已经有不少人靠着AI产品和信息差赚到了“真金白银”。

不过,在一个个看似“钱途光明”的项目里,有些引发了伦理争议,有些是利用噱头炒作的“伪概念”,还有些,则是实打实的骗局。

01.“数字人”以假乱真,AI换脸成“生意”?

2024年,社媒平台上用AI制作的内容明显增多。“小猫张嘴唱歌”“甄嬛机关枪扫射四郎”……AI生成内容成为当下最火的自媒体赛道之一。

有些账号通过Stable Diffusion、midjourney、可灵或即梦生成动漫形象,配上文案,便可收获大批粉丝关注,随后通过商务推广或橱窗带货变现。例如最近迅速涨粉的“人间清醒柒奶奶”“宝藏罗奶奶”等各类奶奶,就成了很多网友的心灵导师和情绪树洞。

图源:小红书截图

值得一提的是,有的社媒平台检测出内容是由AIGC生成,会给作品加上“疑似包含AI创作”的提示;然而由于识别难度越来越大,相当一部分AI作品和账号都能逃过检测。

2024年下半年,有网友称自己在小红书上通过账号矩阵管理软件同时操控1327个AI美女账号,没有任何一个被平台识别出来。

图源:微信截图

如今,很多AI账号仍在受追捧。有用户直言,“好看就可以了,难道那些真人博主就长得和照片一模一样?既然都不真实,是不是AI又有什么所谓?”

于是,“AI数字人”成了很多人“牟利”的手段。有信息流从业者表示,自己通过数字人混剪+真人口播做成广告素材,在各平台投放吸引用户下单,广告投放金额越高,带来的收益也越高,不到四天,便有保健品的广告素材投放突破了30万元。

图源:公众号截图

除了用“数字人”,还有人通过“AI换脸”技术冒充名人进行带货。国家传染病医学中心医生张文宏此前曾表示,短视频平台上有很多用AI合成自己脸和声音的视频,带货蛋白棒等医药保健类产品,自己多次向平台投诉,但仍然层出不穷。

AI换脸内容制作成本低,平台监管却不容易。微信和抖音都曾对使用插件、AI等工具生成虚拟形象直播判定违规或封禁处理。资深产业经济观察家梁振鹏认为,数字人直播带货以及数字人账号的监管难点,主要在于如何辨别这些数字人是否真实存在,以及它们所宣传的产品是否真实可靠;此外,监管机构还需要考虑如何处理涉及名人的仿冒行为,以及如何平衡保护消费者权益和促进创新之间的关系。

这些用AI合成的“诈骗视频”瞄准的通常是辨识能力差、警惕性不高的中老年人。除了张文宏,靳东、雷军等名人,也是经常被“AI换脸”的对象。前段时间,江西宜春一位老年女性就因“靳东”在网络上向“借钱拍戏”,险些向对方转过去200万元。

图源:微博截图

2024年10月,香港警方还曾破获一起AI换脸的“杀猪盘”,通过伪造条件优越的女性吸引男性转账,涉案金额超过3.6亿港元。

随着视频生成模型的发展,平台上的内容很可能会更加“真假难辨”。梁振鹏表示,这无疑会加大平台内容监管的难度;未来,监管机构需要不断提高自身的技术水平,平台也需要积极履行社会责任,加强自我约束和自我管理。

值得一提的是,目前至少有60多个国家制定和实施了人工智能治理政策,我国《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等规定的相继落地,也让刚性治理有了更多具体抓手。

02.智能家电、AI玩具…“沾上”AI就涨价?

2024年是大模型卷应用、卷落地的一年。学习机、眼镜、玩具、甚至床垫,都纷纷做起了“AI+”,强调自身的“智能化”和“陪伴感”。然而,限于技术的成熟度,过去一年大部分搭载AI的硬件或产品实际上并未带来颠覆性的使用体验。

此前,远程控制、网络连接、自动识别与控制是家居产品主打的智能化功能,AI概念火了后,家居产品争相在AI上“整活”:床垫内置AI算法,能根据不同的人体曲线调整高度;洗衣机集成AI智能投放系统,能根据衣物的重量与脏污程度,自动调整洗涤剂的用量……

然而,在很多消费者看来,这些家电的AI功能解决的并不是核心痛点,而且实际使用上也达不到宣传中的智能。某品牌AI床垫的用户表示,护腰气囊晚上间歇性打气噪音不小,睡眠监测时间也不太准确,“感觉像是交了智商税”。

图源:微博截图

家电行业分析师刘步尘表示,目前家电与AI的结合仍处于初级阶段。“过去十几年,家电产品基本上完成了从功能型家电向智能化家电的转变,但家电产品功能需求的本质未变,对AI的要求没有想象的那么紧迫,所以家电也很难成为AI技术应用的典范。”

体验升级不多,但不少融合AI概念产品的价格却先涨了上来。有售卖卡萨帝AI冰箱的销售人员对“搜狐财经”表示,目前AI其实和智能没有什么区别,暂时还做不到帮助用户识别食材、记录保鲜、临期提醒等等。然而,其店内两款AI冰箱产品售价分别为6.9万元和10万元,相比之下不带智能大屏的同类型冰箱价格大约2万到3万;由此计算,“AI冰箱”的溢价能达到2至5倍左右。

图源:微博截图

除了家电,面向儿童、青少年群体的玩具、学习机等产品,结合AI概念后的价格也出现了明显的上涨。

有AI玩具的从业者对新媒体“Tech星球”表示,毛绒AI玩具的硬件成本一般只占到产品售价的十分之一,甚至更低,其搭载的AI方案才是这类玩具卖到几百元、上千元的关键。

然而,玩具的AI对话功能也是“见仁见智”的地方。有家长表示,AI玩具能回答孩子的“十万个为什么”,很省心;但也有家长认为,目前所谓的AI功能还配不上这个价格。Haivivi(跃然创新)的一款佩戴式AI玩具的评论区里,有消费者表示,玩具的价格比天猫精灵还贵了不止一倍,但只有对话功能正常使用,播放音乐和讲故事的功能都不能满足孩子需求。

图源:淘宝截图

互联网分析师张书乐曾对“贝壳财经”表示,目前的AI玩具的价值整体上仍然在对话上体现,AI玩具所能提供的教育能力依然还不足以达成真正的教育意义。盘古智库高级研究院江瀚则认为,AI玩具的优势在于能够结合玩具的趣味性和AI的交互性,未来要解决互动体验和内容创新的问题,使AI玩具能够更好地理解和回应儿童的指令和情感。

03.AI培训课,“小白”最好“割”?

每次有新技术出现,比应用跑得更快的往往是“教你如何用”的培训课程。2024年,AI相关的课程层出不穷,甚至有从业者直言,任何行业都可以用AI来做一遍知识付费。

AI付费课里最热门的,要属以AI绘画、视频创作为主的AI工具应用类课程。这类课程主要面向渴望提升工作技能和发展副业的年轻人,课程价格大多在千元以上,也是被吐槽“割韭菜”的重灾区。

图源:小红书截图

社交平台上很多网友都提到,付费课里的知识、教程在B站和知乎等都能找到类似的免费内容,这些培训机构大多只是将免费的素材和教程进行系统整合,其实赚的还是“信息差”的钱。

不擅长信息检索、又很少体验知识付费的“小白用户”,很容易被包装高大上的课程海报和话术吸引;有网友表示,想报AI课程的主要原因是觉得有老师能答疑,上课互动性更好。这类更习惯传统教学方式的用户,也是各类AI付费课程的主力。

小白们学习新技术的需求,养活了不少培训机构。2024上半年,清华博士李一舟因为违规售卖AI工具类培训课程被封禁,如今仍有人在这一赛道闷声赚钱。

“趣解商业”观察到,如今仍有不少教AI制图、视频创作的课程宣称结课后给学员提供商单帮助变现。例如,有机构的AI绘画相关课程,价格高达5880元,助教表示,如果顺利完成课业测试,学完后100%能接到商单。

图源:微信截图

“趣解商业”发现,商单包括室内设计、AI电商换装图等多种类型的需求,每单价格在20-30元左右;由此计算,要完成将近近200单需求才能回本学费。对有全职工作的学员而言,这显然是件相当考验耐力和兴趣的“副业”;还有单亲妈妈表示,其实并没有想象中好学,除了AI工具,也要会用PS,课时和学习时间都比想象中要长,暂时还没能力接单变现。

在“黑猫投诉”平台上,消费者投诉AI培训机构的案例层出不穷,大部分均是针对交费后“老师找不到人”、被诱导付费后难退款、与承诺的效果不符等问题。

04.套壳AI骗融资,“热钱”涌向大模型?

如果说AI知识付费只是“割韭菜”的初级手段,那用AI概念来圈钱、骗融资,绝对称得上这一领域的“高级骗局”。

2024年,不止一家AI科技公司被曝出财务造假、业务注水。

近期,美国AI教育科技公司AllHere的创始人兼CEOJoanna Smith-Griffin因涉嫌证券欺诈、电汇欺诈和严重身份盗窃被批捕。该公司主推促进家校沟通的聊天机器人,自2020年11月启动A轮融资以来,直至公司于2024年6月倒闭,其创始人一直向投资者传递虚假的财务信息,误导他们对公司的收入、客户群体以及现金储备情况。

图源:微博截图

早在2024年6月,国内一家名为“极目银河”的AI领域明星创业公司“财务爆雷”,CEO陈群在自己租来的别墅中留下一封自白信后消失,信中写道:“(我)是个诈骗犯……(公司)合计有62亿的资金缺口”。根据“36氪”报道,这家公司套壳AI等多个数字科技业务以吸纳融资,实际上,公司多年来一直都没有成熟的产品和业务,项目逐渐无法通过融资获利,最终整个公司走向破产。

图源:微博截图

随着大模型赛道竞争日益激烈,不少创业公司都被“卷”进了墙角。有从业者表示,2024上半年,投资市场还在为争抢大模型创业公司的份额头疼,到了年底,大模型投资人讨论的话题已经变成了“如何卖掉部分手里的大模型创业公司股份?”

有参与过大模型企业融资的投资人对新媒体“Tech星球”表示,比起过去投资看好技术、前景、团队就入手的逻辑,不少机构的内部决策周期越来越长,还会反复计算、评估新钱投出去的回报率。2025年,大模型赛道的融资或许会更加严峻。

新技术带来变革的同时,也会引发乱象和假象。从虚拟人引发的伦理与诈骗问题,到产品借AI之名的价格虚高,再到AI培训课程的良莠不齐以及创业公司的骗融资行径,都在提醒着从业者和消费者“AI汹涌”。比追逐浪潮更重要的,是保持清醒––不被短期的利益蒙蔽,也不被诱人的噱头牵着走。

后Transformer时代,AI将何去何从?(下)|【十万字】深度研报

aigc阅读(8)

展望AI未来

目前AI算法和人类神经系统的区别

数量上

人类的大脑估计已经包含860亿个(10^11次方)神经元,这些细胞信号传递到对方通过多达100万亿(10^15)突触连接。

GPT-4是8个2200亿参数组成的混合专家模型,8 x 220B = 1.76万亿连接,与真实人脑仍然差50多倍。

功耗上

人脑功耗10w。

‌一张NVIDIA A100功耗250w,更别说万卡集群,简单计算相差25万倍。

机制上

人脑神经元种类多样、神经递质多样,多为化学信号,维度信息高。

人工神经元结构简单单一,传递为简单电信号,维度信息低。

结构上

人工神经元之间的连接则是一开始就被固定好了的,比如根据实际需求需要设计一个多大的神经网络网络模型,那么这个网络模型的参数和连接方式就基本已经被固定了。虽然可以通过神经元之间的随机失活等方法可以局部的改变神经网络内部的连接,但是这种改变仍然无法让人工神经元像生物神经元一样根据外界输入的数据信息而选择性的提取需要的特征信息。

生物的神经元之间是没有任何顺序的,可以随时根据外界传入的信息有条件的随意连接,但是人工神经网络内部的神经元之间是有顺序排列的,也就是神经网络的层数,人工神经元只能在神经网络的不同层之间发生连接,由于数学矩阵运算的规律,在同一层神经网络之间的神经元是无法连接的。

而且无论从目前效果和上述的巨大区别上,目前的LLM离真正的AGI还有很大的差距,想象看一个人类拥有互联网级别信息的时候,智慧程度会跟现在LLM一样吗?

所以很多人说数据即将用尽的观点是偏颇的,算法倒是学习效率低下才是本质。

但也说明深度仿生的联结主义潜力巨大。但未来会如何呢?

Transfomer后时代的观点

辛顿和伊利亚 — 压缩即智能

奥特曼在今年10月份接受采访说:伊利亚(OpenAI前首席科学家伊利亚·苏茨克维)总是说,这些模型的真正意义在于压缩,我们要找出如何压缩尽可能多的知识,这就是我们打造人工智能的方式。压缩就像是智慧密钥,我已经对此冥想很久,但我确信自己仍然没有完全理解它,但那里有些更深刻的东西。

就上上文提及到的注意力机制一样。随着进化的脚步,生命体本身由简至繁,而人类历史发展到今天,我们的生存环境和所需要学习、掌握的工作任务和过去的丛林生活复杂到不知多少。为了应对这个变化,大脑会如何进化呢?是发展成一个同时处理庞大的信息并且容量超大的大脑,还是发展成虽然容量不大,但可以迅速地分析信息,并配有一个高效率信息选择和投注机制,将所有计算能力都放在重要的任务上的大脑呢?很明显的,后者更有优势,而且大自然也为我们选择了这个目标。

人脑的注意力是一个用来分配有限的信息处理能力的选择机制。而Transfomer的自注意力是通过概率分布和权重分配实现该机制。

“预测即压缩, 压缩即智能”

这一观点最早由Ilya Sutskever在其博文和访谈中提出。Ilya Sutskever在不同场合提到,当我们谈论“预测下一个Token”时,本质上是在进行信息压缩。一个理想的预测模型, 应该能够以最简洁的形式(即最短的程序或描述)来表示输入数据中的关键模式和规律。预测是通过生成特定数据集的最短程序来实现的【46】。

Geoffrey Hinton从另一个角度阐释了压缩与智能之间的联系。他指出, 人工智能系统之所以能够展现出理解、类比、创新等高级认知能力, 关键在于它们能够发现并利用不同事物和概念之间的共同结构。如果AI系统能够掌握这种高度概括的表示,就可以实现跨域的类比和泛化。而要做到这一点,就需要AI系统从大量表面差异巨大的事例中提炼和压缩出最本质的共性。换言之, 机器要成为一个智能的类比推理者, 首先需要成为一个高效的信息压缩者。

可以抽象的理解为:压缩就是寻找第一性原理的过程,数据越多,总结出的第一性原理更具有普遍性。

综合Sutskever和Hinton的观点, 我们可以得出以下几点认识:

1. 从信息论的角度看, 学习的本质是一个逐步压缩数据的过程。通过在输入数据中发现可泛化的模式和规律, 学习系统可以用更简洁的表示来重构原始信息, 从而降低其描述复杂度;同时减少信息在压缩中的损失。

2. 大规模机器学习, 尤其是基于海量数据训练的深度神经网络, 可以看作是朝着最优压缩逐步逼近的过程。随着模型规模和数据量的增大, 神经网络能够捕捉到越来越抽象和一般化的特征, 其内部表示可以压缩更多的信息。

3. 压缩能力与智能水平密切相关。一个高度智能的系统, 应该能够基于少量信息对世界进行大量的重构和预测。这就要求系统在学习过程中最大限度地提取和内化数据中的关键模式和规律。因此,追求更强的压缩能力, 可以为我们指引通往AGI(通用人工智能)的道路。

杨立昆 — 世界大模型

杨立昆在题为《朝向能学习、思考和计划的机器进发》的演讲中,清晰地指明了以自监督学习为代表的 AI 系统的优缺点。

我们今天正在使用的LLM还无法做到真正的理解世界,这其中有很多原因,但最主要的原因是:LLM的训练方式是用一段缺失了部分文字的文本去训练一个神经网络来预测缺失的文字。事实上,LLM并不预测词语,而是生成字典中所有可能词语的概率分布,然后从概率分布中选择一个词放入文本序列的尾部,再用新生成的文本去预测下一个词,这就是所谓的自回归预测【47】。

但这种自回归的方式与人类的思维方式有很大的不同。人类大部分的思考和规划都是在更抽象的表征层面上进行的–人类对思考的意识只存在于高级表征中-比如人类不是靠像素点识别物体的,而是又像素点形成的光影、轮廓等,知识来源于此,而不是在更深层次的神经网络中,换句话来说,如果输出的是语言(说出的话)而不是肌肉动作,人类会在给出答案之前先思考好答案。但是LLM不这样做,它们只是本能地一个接一个地输出文字,就像人类的某些下意识动作一样。

然而,单靠这种方式,我们并不能真正做到推理,也很难处理非离散的复杂现实数据。要实现人类级别的智能,我们仍然缺少一些至关重要的要素。比如,一个十岁的孩子学会收拾餐桌、把碗盘放进洗碗机,只需看一遍就能学会。而一个17岁的青少年经过大约20小时的练习就能学会开车。然而,我们还没有达到五级自动驾驶,也没有能够帮忙收拾餐桌的家用机器人。

实现真正的智能需要的一个关键能力是“分层规划”,也就是我们人类在面对复杂问题时,能够分阶段、分层次地进行解决。比如从纽约去巴黎,我们会先计划怎么到机场,而不是从一开始就去计算整个行程中每一步的肌肉动作。如何让AI具备这种分层规划能力,目前仍是一个未解的难题。

真正的世界模型是:我对某时刻T时世界状态的想法,叠加此时我可能采取的行动,来预测在时间T+1时的世界状态。这里所指的世界状态并不需要代表世界的一切,不一定需要包含所有的细节,它只需要代表与这次行动规划相关的足够多的信息。

十年来,我们使用生成式模型和预测像素的模型,试图通过训练一个系统来预测视频中将发生什么来学习直观物理,但失败了,我们无法让它们学习良好的图像或视频表征,这表示,我们无法使用生成式模型来学习对物理世界的良好表征。

目前,看起来可以更好地构建世界模型的一种新方法是”联合嵌入”,称为JEPA(联合嵌入式预测架构),其基本思路是获取完整的图像及其损坏或转换的版本,然后将它们同时通过编码器运行(一般来说,编码器是相同的,但也不一定),然后在这些编码器之上训练一个预测器,以根据损坏输入的表征来预测完整输入的表征。JEPA与LLM有什么区别?【48】

LLM是通过重建方法生成输入,生成未损坏、未转换的原始输入,因此必须预测所有像素和细节。而JEPA并不尝试预测所有像素,只是尝试预测输入的抽象表征,从本质上学习世界的抽象表征(例如风吹树叶,JEPA在表征空间中预测,会告诉你树叶在动,但不会预测每个树叶的像素)。

JEPA的真正含义是,以自我监督的方式学习抽象表征,这是智能系统的一个重要组成部分。人类有多个抽象层次来描述世界万象,从量子场论到原子理论、分子、化学、材料,一直延伸到现实世界中的具体物体等,因此,我们不应只局限于以最低层次进行建模。

基于该理念设计的 V-JEPA 是一种“非生成模型”,通过预测抽象表示空间中视频的缺失或屏蔽部分来进行学习。

四、大模型产业链——综述

产业链的价值规则

框架根据具体的工作流尽可能的列出行业,有价值的笔者总结性多讲,没有变动的且基础的介绍一下。

关键的热点行业,笔者会综合讲述中美企业和商业环境的不同之处。

笔者对有价值的定义:

  1. 技术颠覆 — 先发的知识(人才)壁垒
  2. 商业模式颠覆 — 确保和大公司尽量在同一起跑线
  3. 有一定的市场规模的想象空间

五、基础层

算力

这里只讲述整装硬件层面的算力提供商以及基础的软件的趋势。不涉及芯片行业的上游。

LLM对算力的需求飙升

我们看到,为追求Scaling law带来的涌现效应,在位厂商模型训练的算力规模不断扩大,对AI算力基础设施的需求形成支撑。根据中国信通院《中国算力发展白皮书(2023)》,GPT-3的模型参数约为1,746亿个,训练一次需要的总算力约为3,640 PF-days,即以每秒一千万亿次计算,需要运行3,640天;2023年推出的GPT-4参数量可能达到1.8万亿个,训练算力需求上升至GPT-3的68倍,在2.5万个A100上需训练90-100天【49】。

针对LLM的新供应

通用芯片和专用芯片之争

按照芯片的设计理念及用途,AI算力芯片可分为通用芯片和专用芯片,二者各有特点。

通用芯片为解决通用任务而设计,主要包括CPU、GPU(含GPGPU)和FPGA。

专用芯片(ASIC)为执行特定运算而设计,具备算法固化特性,主要包括TPU(Tensor Processing Unit,张量处理器)、NPU(Neural Network Processing Unit,神经网络处理器)等。

在通用算力芯片当中,CPU内核数量有限,采用串行方式处理指令,适合于顺序执行的任务;GPU采用众核结构,最初开发用于图形处理,而后凭借其强大的并行计算能力适用于AI通用计算(GPGPU);FPGA是具备可编程硬件结构的集成电路,其可编程性和灵活性可快速适应AI领域的算法变化。与专用芯片相比,通用芯片主要优势在于灵活性及生态系统的完善性,可适应高速迭代的算法任务,同时GPU保留的渲染能力可适应大模型的多模态发展,而其主要劣势则在于较高的功耗水平和较低的算力利用率。

专用芯片的优势则在于通过算法固化实现了更高的利用率和能耗比,以及更低的器件成本,同时ASIC更适合大规模矩阵运算;其主要劣势是前期投入成本高、研发时间长,且只针对某个特殊场景,灵活性不及通用芯片【50】。

ASIC(Application Specific Integrated Circuit)是专用集成电路,针对用户对特定电子系统的需求,从根级设计、制造的专用应用程序芯片,其计算能力和效率根据算法需要进行定制,是固定算法最优化设计的产物。经过算法固化后,专用芯片与软件适配性较高,从而能够调动更多硬件资源,提高芯片利用率。而通用芯片由于算法不固定,其硬件往往会产生冗余,导致芯片利用率较低。

目前价值最大的仍然是GPU,它更适应高并发多分布式的训练,LLM训练和推理以它为主,95%的算力的都是由它提供。

就像工厂一样,一开始会去买标准的设备(通用芯片)进行生产,后续规模扩大了,更了解客户的需求后,产品变的差异化,这时候会去找产线集成商如西门子,定制化产线(专用芯片);本质上来说,背后就是需求和厂商供应的trade-off(成本等),但是需求是第一位,大规模量产和定制化的前提都是同质化的需求在支撑。

目前,我们对LLM的训练和推理算法皆有不同程度的优化,商业场景还在积极探索,甚至是算法本身都在快速变化,ASIC等专用芯片为时尚早。

GPU适应LLM大规模计算的新技术指标

深度神经网络对计算芯片的需求主要围绕解决两个问题展开:

(1)解决AI计算芯片和存储间数据通信需求,AI模型中,大量运算资源被消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。

(2)在控制功耗的同时不断提升专用计算能力,对AI芯片进行定制,在特定场景下实现AI芯片的高性能和低功耗,解决对卷积、残差网络等各类AI计算模型的大量计算需求。

算力不足如何解决?

众所周知的芯片断供原因,国内厂商无法在正常的渠道买到高端的芯片,如何弥补?

除了走私外,异构芯片的混训(国产芯片+国外芯片;本地计算+云计算)成为了主流,但随着算力的不断补充和IDC的建立,并且模型参数的变小,此类问题将快速解决。能看到的是A100芯片的租赁价格几经对折。

国外的算力中心如特斯拉、谷歌、亚马逊的万卡集群都将在近期建设完成。特斯拉的有10万块H100。

新AI算力市场推算

GPT-4的训练,推理算力成本拆解

训练成本

GPT-4的一次训练费用高达6300万美元,2.15e25 的 FLOPS,使用了约 25,000 个 A100 GPU,训练了 90 到 100 天,利用率(MFU)约为 32% 至 36%。这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。如果他们在云端的每个 A100 GPU 的成本大约为每小时 1 美元,那么仅此次训练的成本将达到约 6300 万美元【51】。

推理成本高于训练成本

ChatGPT 每天在计算硬件成本方面的运营成本为 694,444 美元。OpenAI 需要约 3,617 台 HGX A100 服务器(28,936 个 GPU)来为 Chat GPT 提供服务。我们估计每次查询的成本为 0.36 美分。ChatGPT一年将花费至少2.5亿美元,而训练一个模型仅需一次性花费6300万美元。

训练芯片

在给定训练GPT-3模型所需运算操作数量的情况下,即便得知单卡算力,以及要求的训练时间,量化加速卡数量实际上也存在难度,因为数据集精度、数据集迭代次数,以及GPU的使用效率等等因素都是未知变量【51】。

在此,我们直接采用OpenAI训练集群模型估算结果作为参考:标准大小的175亿参数GPT3模型大概需要375-625台8卡DGX A100服务器进行训练(耗费10天左右时间)。目前来看,训练大模型的硬件投入基本3,000张-5,000张A100 GPU来完成。那么,以单A100卡售价10,000美元来计算,生产大模型所需的训练用GPU一次性采购拉动在千万美元级别,具体金额决定于参与生产大模型的终端用户家数,中性情形下,我们假设8家厂商采购训练卡,单一厂商需求量500台DGX A100服务器,可带来的训练AI加速卡市场空间约为3.2亿美元。

推理芯片

推理应用和实际业务上线关系紧密,硬件需求要结合对效率要求来进行部署。以A100 GPU单卡单字输出需要350ms为基准计算,假设每日访问客户数量为2,000万人,单客户每日发问ChatGPT应用10次,单次需要50字回答,则每日消耗GPU的计算时间为972,222个运行小时(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,对应的GPU需求数量为40,509个。同样以单卡10,000美元的售价计算,2,000万用户上线在推理端所创造的AI芯片市场空间约4亿美元左右,但在中性情形下,假设日活用户数达到1亿用户,在单客户发问次数、单次回答字数不变的情况下,我们测算出推理相关用AI芯片市场空间有望达到20亿美元【51】。

GPU芯片&服务器提供商

国内外芯片市场

全球GPU市场竞争格局较为集中,当前NVIDIA处于市场领导地位,根据Verified Market Research数据,2022年在全球独立GPU市场当中占比约80%。

国产AI云端训练和推理芯片厂商参与者众多,大部分涌现于2017年以后。

(1)华为Atlas 300T训练卡(型号9000)基于昇腾910 AI芯片,单卡算力280TFLOPS FP16;

(2)寒武纪思元370单卡算力256TOPS INT8,是第二代产品思元270算力的2倍;

(3)百度昆仑芯2代AI芯片单卡算力为256TOPS INT8 / 128TFLOPS FP16;

(4)海光DCU的优势则体现在生态兼容性,其ROCm GPU的计算生态和英伟达CUDA[1]高度相似,被称为“类CUDA”,有利于用户可快速迁移,2022年海光深算一号DCU已商业化应用,深算二号正在研发中【52】。

目前国产产品依然与全球领先水平存在2-3年的差距。

国产最强的AI芯片性能大约为512Tflops,不仅不如NVIDIA的A100,甚至只有H100的四分之一左右。例如,寒武纪的思元590在某些特定应用场景下接近A100 90%的性能,但综合性能仍只能达到A100的80%左右。

国产AI芯片企业虽作为后发者,依然拥有市场机会。一方面来看,摩尔定律的迭代放缓使得海外龙头企业开发新产品面临更大的挑战,中国企业有望以更快的速度向海外现有产品看齐,但供应链方面存在不确定性,对后发企业构成利好【53】。

CUDA

GPU的算法和生态系统构建也是GPU设计中的重要部分。GPU算法需要与硬件紧密结合,以提高GPU的性能和效率。同时,GPU的软件生态系统还需要支持各种开发工具和框架,以便开发人员可以更轻松地利用GPU进行高性能计算和机器学习。

基于高层次抽象,英伟达通过CUDA统一编程平台提供了一套完整的开发工具链,包括编译器、调试器和性能分析工具,以及丰富的库函数(加速算子执行、实现卡间通信),为开发者提供了便利,降低使用成本。且CUDA统一编程平台可支持多个操作系统,且支持各类GPU(包括数据中心级产品、消费级产品);全球安装的CUDA兼容的NVIDIA GPU数量已经达到了数亿级别【50】。

由于硬件端AI领域的先发优势,大量的AI深度学习训练开源项目和框架如PyTorch、TensorFlow等与英伟达GPU后端实现了原生适配,且兼容DeepSpeed、Megatron-LM等分布式加速工具;推理端来看,英伟达同样拥有Tensor-RT引擎。总结来说,主流AI软件栈的最佳优化方案均与英伟达CUDA生态及GPU深度耦合。通过日积月累,英伟达硬件环境上的开发者数量众多,有庞大而活跃的社区以及大量可用的文档、教程、论文,开发人员对CUDA的熟悉程度和专业度更高,导致新人采用CUDA面临的时间成本更低。到2023年底,CUDA软件包已累计下载4800万次,证明其广泛的用户基础和开发者社区的活跃度。

英伟达对外部企业、学校、以及不同应用领域均有良好的解决方案,对不同类型客户进行深度绑定服务。

可以说其系统生态的繁荣为其GPU硬件平台提供了最大的开发生态护城河!

能和其英伟达一较高下的,恐怕只有同时掌握前后端并拥有独立开发生态的华为了。

其余的大部分做ai芯片的公司短暂的收入提升来源于国内IDC的建设,渠道为主,生态意识低。

集成算力提供商

AI服务器

一般来讲,服务器的定制化程度高,大厂的服务器是自己采购,自己搭建,中小企业购买会多一点。再加上云计算的趋势,保密单位的需求会硬一点,否则云计算性价比更高。

AI服务器(多个GPU等芯片集成)竞争格局方面,当前互联网云计算厂商的白牌服务器占主导,未来随着边缘侧应用的成熟,品牌服务器厂商份额也有望提升。AI服务器分为品牌和白牌两类。所谓白牌,是由互联网云计算大厂在云计算的规模效应下,与传统的服务器代工厂EMS企业合作开发定制化的“白牌”服务器;所谓品牌,是由专门的服务器厂商开发的面向企业、政府、运营商和金融等销售的通用型服务器【52】。

智算中心

政府

2023年以来,政府智算中心建设的规模与节奏均有显著提升。通过梳理各地政府官网信息,我们整理了2020年-2024年政府智算中心建设情况,发现:

1)2023年以来智算中心建设明显加速,各省市地方政府均在积极推进智算中心建设;

2)2020年-2023年间已投运政府智算中心单期算力建设规模一般在500P以下,而随着AI带动算力需求的提升,单个智算中心的体量提升,2023年下半年之后建设与投运的智算中心出现较多1000P以上的算力规模【49】。

华为昇腾、寒武纪等国产AI算力芯片成为政府主导的智算中心的重要算力基座。北京昇腾人工智能计算中心利用“政府引导+市场化运作”平台建设模式,政府负责顶层设计、政策保障;中关村发展集团负责设施建设、配套服务、提供空间载体,最终使用华为自主研发的昇腾芯片,互利共赢。长沙昇腾人工智能创新中心由长沙市政府和湖南湘江新区共同出资建设,采用基于昇腾910处理器的兆瀚CA9900 AI集群硬件,总算力最高可达1024 PFLOPS(FP16)。政府智算中心建设提速,有望进一步拉动国产AI芯片的需求。

三大运营商

根据三大运营商2024年资本开支指引,运营商投资重心将继续向算力网络建设倾斜。具体来看,中国移动计划2024年在算力网络领域投资475亿元,占当期资本开支的27.5%,同比增长21.5%;中国电信资本开支在产业数字化方面的投资占比同比提升2.5ppt至38.5%,绝对额达到370亿元,其中公司计划在云/算力投入180亿元;中国联通则表示算网数智投资坚持适度超前、加快布局【49】。

三大运营商智算中心建设持续推进。根据2023年度业绩发布会,中国移动计划2024年加快算力多元供给,累计智算规模规划超过17 EFLOPS,新部署智算增幅接近70%;中国电信持续推进智能算力建设,2023年公司智算算力新增8.1EFLOPS,增幅高达279.3%,累计规模达到11.0 EFLOPS,2024年公司预计智算规模将继续提升10 EFLOPS至21 EFLOPS(FP16);根据公司公告,中国联通算力中心已覆盖国家8大枢纽节点和31个省份,数据中心机架规模超40万架,完成29省千架资源布局,骨干云池城市覆盖超230城,MEC节点超600个。我们认为,运营商对智算场景投入的持续加码有望带动服务器、网络设备等算力基础设施需求节节攀升,在电信云网设备侧具备稳定供应能力的厂商有望充分受益。

大型企业

腾讯、百度、阿里、字节、商汤等企业积极推进智算中心布局,阿里张北超级智算中心总建设规模达12000PFLOPS 百度与腾讯均已在全国多个地区建立了智算中心,包括广州、上海、北京等,字节跳动则依托于润泽科技等进行智算中心相关的IDC投资【49】。

互联网厂商当前算力构成仍以英伟达为主。根据TrendForce,中国云计算厂商目前使用的高端AI芯片中英伟达的芯片占比约为80%,当前的国产化率水平较低。考虑到贸易摩擦的影响,海外核心高端AI芯片难以进入大陆市场,国产替代需求迫切性高。

国内AI加速芯片厂商把握发展机遇,有望渗透进入互联网市场。根据TrendForce,2023年在全球AI服务器采购需求中,字节跳动/百度/腾讯/阿里等中国互联网厂商采购占比约8.5%,为AI服务器的重要需求方。我们认为随着AI大模型加速迭代,国内互联网厂商对于AI服务器需求有望进一步提升,国产AI芯片潜在市场空间广阔。

我们看到,互联网厂商积极推动与国产算力芯片的合作,根据公司公告,海光DCU支持包括文心一言在内的多个大模型的适配和应用;百度飞桨与海光DCU实现生态兼容性认证;而华为与百度合作推进昇腾AI上与飞桨+文心大模型的适配。我们认为,随着芯片的性能迭代及生态完善,国产算力芯片在互联网侧的应用有望逐步增加。

总而言之,由于断供的风险,国内芯片的国产化率逐渐提升,但在AI算力方面,主力军仍是英伟达。目前AI将会以通用芯片为主。

算法

这里的算法指的是流派、学习范式等AI底层知识和洞悉的集合,由稀缺的人才掌握,是产业链里的核心的核心,没有之一,算法决定了一切,主流算法的改变,可以改变所有的工作流和产业链行业的价值。

例如之前的CNN等算法的学习范式是监督学习,数据的输入和输出是pair的(匹配的),且需要标准的数据–大量的人工标注,催生了人力密集的数据标注行业,但是自回归的decoder-only transfomer算法下是自监督学习,数据不需要标注,请问新的大模型下,预训练还需要人工标注嘛?RLHF和微调的部分还会需要少量的人工,但也是大大减少了需求。

算法的产出来自于关键的实验室和大公司;可以关注其论文的产出,来跟进;一些跟踪的渠道将会在最后展示。

RVKW

最新RVKW-相比transfomer这种方法有效地捕获了序列中不同位置之间的依赖关系,同时减少了模型的计算复杂度和存储需求;它是RNN的一种,建议大家持续关注,目前该算法还在雏形中,为时尚早,有意思的是,发明该算法的人是中国人彭博。

数据

数据来源

AI公司获取语料数据一般有开源数据库、自有/自建数据–爬虫、购买数据产品授权–专业语料数据服务商处这三种方式。

以GPT-3为例,其训练时使用的语料库数据主要来源为Common Crawl爬虫(60%)、WebText2(22%)、Books1&2(各8%)和Wikipedia(3%)

拥有更高质量、相关的数据,可以更好的训练or微调模型;可获得的数据取决于行业和公司业务,是大模型产业链里最重要的壁垒之一;也往往是大公司的先发优势,初创公司出来公开的数据集,必须通过创新的商业模式来获取更多的数据。

不同国家的数据管理

当然避不开不同国家数据管控问题。

国外:欧盟将数据分割为“个人数据”和“非个人数据”,但个人数据严格属于自然人,企业数据使用权受到极大限制;美国的数据要素制度采取实用主义原则,回避了数据所有权问题,未对数据进行综合立法,只有针对跨境数据主权、行业隐私法、消费者隐私等分别立法。

国内:2022年12月,中共中央国务院《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)对外发布,提出构建中国特色的数据产权制度、流通交易制度、收益分配制度和数据要素治理制度,其中创新数据产权观念,淡化所有权、强调使用权,聚焦数据使用权流通,创造性提出建立数据资源持有权、数据加工使用权和数据产品经营权“三权分置”的数据产权制度框架。三权分置的产权制度,淡化所有权、强调使用权。

生成式数据的版权问题一直是AI发展的法律限制性因素,随着马斯克支持特朗普上台,向特朗普提议解绑前沿科技的法律限制,会是一变动因素。

数据不够?

关于数据量(Training Tokens)和模型大小(Parameters)对于模型的影响,OpenAI在2022年发表的论文有过讨论:在计算量增加10倍时,模型大小增加5倍,数据大小增加约2倍;而计算量再增加10倍时,模型大小增加25倍,数据大小仅增加4倍。

根据非营利研究机构Epoch AI的最新论文,大语言模型会在2028年耗尽互联网文本数据。

这里说的数据仅仅是真实数据,合成or仿真数据将会在AI Infra层详细讲述。

我的观点如上述章节一致,本质上是算法导致的学习效率低下的问题,不是数据规模问题。

六、AI Infra层

软件的市场演进规律

在正式进入介绍产业链前:我先对齐下大家对软件行业的规律:

先有一个breakthrough的应用程序,然后这个突破性的应用程序激发了一个创新阶段,在这个阶段建立基础设施,使类似的应用程序更容易建立,并且基础设施使得这些应用程序被消费者广泛使用【54】。

一家软件公司的成功,通常需要经历以下 4 个阶段【55】:

1. 由于行业、趋势、场景的变化,新的需求出现,这个时候有需求(刚性需求)但没有标准化产品,大型企业尤其是科技公司便在企业内部自建团队,靠几名高技术水平开发者从 0 到 1 手动搭建产品和框架,并在后续自主维护。

2. 技术和解决方案在实验室或企业内部运行一段时间后,开始有人试图抽象出相对通用的框架和产品,并向市场发布,有开源产品–营销、也有闭源产品,1争夺行业标准(技术)。当用户购买产品的 ROI 比使用“开源架构+内部自建团队+维护更新”的方案更高(要有技术开发壁垒)时,2 用户开始付费(商业模式创新切入)。

3. 随着需求的增长,越来越多的客户使用和筛选各类产品,经过一段时间的市场检验,最终收敛到 1-2 款产品(成功找到商业化产品的核心应用场景和 Product/Market Fit),行业标准形成。

4. 成为行业标准的产品和公司将基于现有的技术和产品,提供更多更有价值的功能和服务,提升产品和商业化能力,在商业化方面取得成功,注重防守–全栈解决方案,增加转换难度。

To C差不多,制胜的目标变成了利用生态截取大量流量,再转化。

流量的进出顺序为硬件终端(pc、手机等)> 软件(检索工具 > 社交软件 > 其他);所以依托硬件去做流量的转化有天然的优势,毕竟流量在前,软件公司只能听苹果or安卓终端公司生态摆布,著名的例子就是腾讯想通过微信小程序来躲过苹果商城的苹果税,结果被苹果起诉;当然中国可以没有苹果,但不能没有微信(支付、社交、出行等等的完全生态),唯一软件打得过硬件的反例。

苹果公司在2017年推出的应用服务条款,通过虚拟货币的打赏,应当被视为应用内购买,苹果将从中提取30%的分成,而且必须走苹果支付渠道。所以大家知道为什么国内女主播要求苹果手机用户打赏要走微信小程序打赏or其他非苹硬件了吧。还有ios的游戏充值也比正常渠道贵。

这也是为什么谷歌还自己做了手机等硬件,还有meta扎克伯格疯狂炒元宇宙,想用vr、眼镜等穿戴式设备其他硬件范式推翻移动互联网时代的手机生态,由于光学成像等等原因,很可惜还有很大的距离。

AI Infra产业链

以下对 AI 工作流总体可以拆解成四个垂直模块:数据准备,模型训练,模型部署和产品整合。

LLM流行前,AI模型通用性较低,项目落地停留在“手工作坊”阶段,流程难以统一规范。人工智能已有数十年的发展历史,尤其是2006年以来以深度学习为代表的训练方法的成熟推动第三波发展浪潮。

然而,由于传统的机器学习模型没有泛化能力,大部分AI应用落地以定制化项目的形式,包括需求、数据、算法设计、训练评估、部署和运维等阶段,其中,数据和训练评估阶段往往需要多次循环,较难形成一套标准化的端到端的流程和解决方案,也由此造成了边际成本高、重复造轮子等问题【56】。

大规模预训练模型完成了“从0到1”的技术统一,泛化能力和通用性释放出“从1到100”的落地需求,且存在相对标准化的流程,衍生出AI Infra投资机会。

总而言之,就是算法的变化导致了infra层的变化:有的工作流不需要了,也有新的工作流,且流程相对标准。

数据准备

数据标注

作用:标注机器学习输入 (X, y) 中的 y 部分,在一部分目标变量 y 缺失的业务场景为 AI 模型提供人类先验知识的输入。作为上一代 AI 兴起时最旺盛的需求,在计算视觉领域使用场景相对较多【56】。

重要公司:国外:Scale AI(人工数据标注供应商),Snorkel(使用模型对数据进行合成 / 标注)。国内:海天瑞声等。

商业价值评价:低

LLM无需求,LLM 本身具有很强的自监督属性,输入的数据和输出的数据并不是标准的pair的状态。

由于OpenAI和LLAMA 2的RLHF(Reinforcement Learning from Human Feedback)强调高质量数据对模型训练结果影响的表述;且在训练模型中参与科学家人数和工时最多参与数据反馈。对原来低质量数据标注方法的颠覆,LLM模型不再使用标注数据,而使用人类少量的高质量的反馈。

按照meta 2023年训练llama2购买3万条高质量人类反馈*预计市场参与者10家*一年4次训练模型=2023年美国市场需要120万条,再*10美元的单价=最多1200万美元市场规模。

竞争形式预测:没有大的改变,业务变高端了,邀请专家来反馈,提高单价增值;价值较低,资源壁垒随时可破。大模型公司自己都可以做,没必要外包。

特征仓库

作用:管理机器学习输入 (X, y) 中的 X 部分,离线特征工程,在训练时更灵活地调整需要使用的特征组合和加工方式;在线实时预测,将线上的数据流灵活地提供给 model serving;和线上数据监控,保障模型使用的数据分布与质量的安全性【56】。

在 LLM 大语言模型的场景下,训练和推理数据不以这种形式进行组织,故 Feature Store 在 LLMOps 下没有使用前景。

合成数据

作用:真实数据的补充。做真实数据的“平替”,用AIGC反哺AI。一项来自Epoch AI Research团队的研究预测存量的高质量语言数据将在2026年耗尽,低质量的语言和图像数据存量也将在未来的数十年间枯竭。

面对潜在的数据瓶颈,合成数据即运用计算机模拟生成的人造数据,提供了一种成本低、具有多样性、规避了潜在隐私安全风险的解决方法,生成式AI的逐渐成熟进一步提供技术支撑。

比如,自然语言修改图片的Instruct-Pix2Pix模型在训练的时候就用到GPT3和Stable Diffusion来合成需要的提示词和图像的配对数据集;Amazon也利用合成数据来训练智能助手Alexa,以避免用户隐私问题。合成数据市场参与者较多,独立公司/项目如gretel、MOSTLY AI、datagen、hazy等,数据标注厂商如Scale亦推出相关产品,此外主流科技公司英伟达、微软、亚马逊等均有不同场景的尝试。

图:Instruct-Pix2Pix借助GPT-3、Stable Diffusion生成指令-图像训练数据集

商业价值评价:中

那么在LLM里,合成数据真的有效嘛?答案是否定的,合成数据提取了样本的特征,并进行相似性的替换,特征仍然无变化;且数据本身会和真实数据混合,导致真实的数据特征漂移,噪声变多,大模型过拟合。

但在以强化学习和模仿学习为主自动驾驶算法领域一级具身领域(神经网络端到端的FSD),算法无法覆盖到未曾见过的场景–强化学习的缺点,也就是所谓的coner case,这时候使用合成数据,在仿真平台中训练模型,确实可以提升其在coner case的性能,但仍然有限。

目前英伟达的sim saac等平台也可以做到仿真生成环境,解决coner case的市场规模较小再加上汽车企业的账期较长8-12个月,所以商业价值较中。

国内公司有光轮智能、智平方、Hillbot和银河通用。

查询工具&数据科学工具及平台

作用:广义的数据科学涵盖利用各类工具、算法理解数据蕴藏含义的全过程,机器学习可以视为其中的一种方式和手段;狭义的数据科学也可以仅指代机器学习的前置步骤,包括准备、预处理数据并进行探索性分析等【56】。

一般在开源框架上自研,无商业价值。

模型训练

模型库

作用:机器学习届的 Github,以更 AI-native 的方式组织 AI 开源社区,为 AI 研发提供安卓式的环境【56】。

重要公司:典型代表厂商包括海外的Hugging Face、Replicate,国内关注Gitee(开源中国推出的代码托管平台)和ModelScope(阿里达摩院推出的AI开源模型社区)OpenCSG等项目。

商业价值评价:低

占据着数据科学工作流的入口位置,用户数量较大;但其开源属性增大了其商业化难度,目前变现手段不多。

传统 ML 模型规模小,训练成本低,基本不依赖 Model Hub;大语言模型场景下许多科学家和工程师通过 Model Hub 调用开源的预训练模型和参数,来减少自己从头训练和定制化模型的成本。

小客户开发demo的场景更多!但做自己的模型肯定是脱离模型库的,可以理解为交流模型的论坛。已有龙头,且商业化机会对于专业开发客户小,仅作为营销平台(广告盈利)和做demo。

大模型训练框架

作用:AI 模型训练与推理的核心框架,使模型能够高效的实现计算。以深度学习框架为例,其内嵌实现了以下事情:可以绕开手写 CUDA 代码,直接简单地使用 GPU 搭建模型。这使得深度学习框架门槛变低很多,只需要定义神经网络的结构与损失函数,即可跑通一个基本的模型。可以理解为深度学习的开发软件。

重要产品:Tensorflow (Google), PyTorch (Meta), Jax。

Tensorflow 先发优势明显,早期占据了业界的主流。但其版本管理做得不好,易用性也略逊于 PyTorch,在学界被 PyTorch 后发超越。目前在业界使用 PyTorch 的公司也在变多,但由于迁移成本高,Tensorflow 也有一定公司在使用,况且 Tensorflow 是使用谷歌开发的 TPU 的主要选择。Paddlepaddle(百度)、Mindspore(华为)。大公司掌握,为其深度学习的生态之一,免费使用。

商业潜力:低

尽管这一领域没有显著的商业潜力,但还是在这里介绍一下这类框架,因为这是当前所有 AI 模型的基石,有着很强的生态意义。

训练和推理阶段的计算优化

作用:通过芯片层面或者算法层面优化开发成本和推理计算成本

由于LLM的算法的改变,所有之前的优化办法基本失效。在这里对LLM算法和计算机体系的全面的洞悉是稀缺性的,具有非常高的壁垒(又有大规模语言模型的训练经验,又有对计算机底层系统-存储、计算等的了解的人非常少)。

同时,降低模型的训练和推理成本,是大模型企业竞争的重点,目前价格和成本昂贵是导致大模型没有被大规模使用的头号问题;不管是大模型公司,还是使用大模型的公司付费意愿强,客户覆盖众多。

市场规模上来说:训练和推理的计算成本是大模型企业的最高占比成本。且推理优化的上限要比训练优化的上限更高,具体数字已在算力层表述。无论是采取订阅制还是API的盈利形式,市场规模都将是百亿甚至千亿美金的级别。

商业潜力:极高

目前主要是两种技术路线进行优化:两种一种是硬件层面的优化,一种是直接在AI算法上优化。但国内企业仍需要突破一体机的商业模式。

硬件层面的优化

目前国内硬件优化的公司为主,并且率先商业化,但在在硬件层面上,技术可创造的 margin(提升空间)不大了。比如硬件利用率,理论上最高是 60% 多,现在大家用英伟达的系统和软件已能做到 40%~50%,可提高的空间就是百分之十几。并且GPU优化技术面临着严重的同质化问题,各厂商之间的性能差异并不显著。

潞晨科技:

潞晨的产品重点在于训练与推理一体化解决方案,尤其侧重于训练领域,在推理技术路线上,潞晨仍然主要集中在GPU优化方面。

硅基流动:

硅基流动专注于MaaS模式,通过云端向用户提供Token服务。这一模式要求其具备广泛的模型兼容能力,以支持多种不同的模型和技术手段,并结合云计算管理等一系列增值服务。

清昴智能:

清昴团队源自清华大学计算机系媒体与网络实验室,专注于构建模型部署平台,在底层不同GPU芯片的适配及模型部署服务方面积累了丰富的工程实践经验。团队最近主要集中于与部署相关的MLOps算子以及对国产芯片兼容支持的算子开发。

无问芯穹:

无问团队主要成员来源于清华大学电子工程系。在技术路线的选择上,该团队主要聚焦于GPU利用率和通信的优化以及计算机集成系统优化。

总体而言,纯粹依赖于GPU优化的技术方案面临严重的同质化挑战,现有的开源框架已经达到了较高的性能,使得各厂商在性能表现上的差异化优势不再显著。

AI算法上优化

算法上优化的是没有上限的,潜力最高。

以存换算的推理算法优化+全系统协同优化的趋境科技是该行业的黑马:由清华系MADsys高性能计算机实验室团队组成。

利用推理阶段的KVcache缓存,存储多次提问的相似的问题和答案,避免重复计算,特别是未来的CoT的长推理场景,需要重复推理,成本可以直线下降。

趋境科技创新性地设计了“融合推理(Fusion Attention)”思路来利用存储空间,即便是面对全新的问题也可以从历史相关信息中提取可复用的部分内容,与现场信息进行在线融合计算。这一技术显著提升了可复用的历史计算结果,进而降低了计算量。

尤其在RAG场景中,“以存换算”能够降低把响应延迟降低20倍,性能提升10倍。

在此基础上,趋境科技首创的“全系统异构协同”架构设计也成为重要技术支撑。该架构是首个允许在单GPU卡上支持1Million超长上下文的推理框架,以及首个单GPU上运行2000亿参数MoE超大模型等等。

目前,趋境科技已联合清华大学一起将异构协同推理框架的个人版,名为KTransformers的框架在GitHub开源,并在Hugging Face等开源社区引起广泛关注和讨论。行业合作伙伴也对此兴趣颇高,已有多家知名大模型公司主动抛出橄榄枝,与其共同发起大模型推理相关的项目建设。

模型部署

模型安全和监控

作用:保障线上模型可用性和可观测性,实时保持对模型输出结果和指标的监控。未来会是模型可解释性和安全的重要领域【56】。

重要公司:Fiddler, Arize, Arthur, Whylab。

商业价值评价:目前低

LLMOps 需求:增加,LLM 语境下的 AI 安全将成为重要命题。

LLM 大语言模型的性质比传统 ML 模型更为复杂,有包括 Prompt Engineering 等激活和微调方法存在。为了保障安全性和可解释性,随着 LLM 在软件中的深入落地,对模型的监控和后续管理会有着更高的要求。目前已经有新型公司,如 HumanLoop 在专注这个领域,之前的公司中 Whylab 也在做相应的尝试。

目前,大模型公司本身并不注重安全性,还是在追求性能上,安全问题是否会被大模型公司外包?目前以RLHF为主要对齐手段上,确实不需要外部公司参与模型微调。

模型部署和Serving

作用:模型部署是指把训练好的模型在特定环境中运行的过程。过程中需要最大化资源利用效率,且保证模型部署上线后在用户使用时有优异的性能。出色的部署工具能够解决模型框架兼容性差和模型运行速度慢这两大问题。具体使用场景可以参考下图:

重要公司:BentoML, OctoML【56】。

LLMOps 需求:增加

商业价值评价:目前低

基于 AI 的应用和产品会越来越多,优秀的模型部署能降低模型的推理成本并提高性能,模型部署和 serving 会在 LLMOps 重要的需求,且可能会衍生出模型剪枝、蒸馏等能压缩模型冗余的部署 serving 需求。但都是大模型公司本身在做。

二次开发

开发者工具

作用:为开发出agent工具,提供调用各种细分工具的平台,产出智力成果。

Agent作为最终的LLM产品形态,属于大模型的智能能力的关键一部分,一定会研发,且难度非常小。一方面LLM会将开发者和c端的流量卡在自己平台上,一定会提供不同程度的自定义开发平台(GPT2023年末已经推出agent开发工具商店以及GPTs:无代码的agent应用开发)。

商业价值取决于大模型公司是否会向后整合。

目前有两种商业模式:

1 提供开发工具的开发者平台

国内(Fabarta),模型开发者工具Langchain,Together AI。

2 无代码的agent开发

公司有CoLingo、AutoAgents.ai、Babel、Dify.AI。

向量数据库

作用:非结构化数据库,储存的数据形式为向量 embedding,在推荐系统、搜索引擎、异常检测、LLM、多模态等场景下都是数据输出、搜索、召回的重要形态【56】。

重要公司:Pinecone, Zilliz;国内英飞流/InfiniFlow等

LLM需求:增加,但商业潜力:较低

在 LLM 语境下,向量搜索和查询会在软件中扮演更重要的作用,而向量数据库则会成为这一方向中最重要的基础设施之一。

首先,向量数据库比较核心的技术就是索引(FLAT、HNSW、IVF)、相似度计算(余弦相似)、Embedding(将各种信息转化成向量,降低信息复杂性);这些技术在大模型火之前就有了,时至今日本质上没有显著变化。

其次,赛道进入门槛比较低。无论是大模型提供方,还是传统数据库厂商都可以转型进入这部分业务;这也就导致竞争会变得非常激烈。对于初创型公司来说,无论是拼财力还是拼客户都完全没有优势。

由于其降低成本和实现关键agent检索能力,模型大厂还有云计算厂商主动纳入其能力。

七、大模型层

大模型层,无论海外还是中国,竞争格局非常统一的都是初创公司和互联网企业。

开源 vs 闭源

在生成式 AI 向前推进的过程中,围墙花园依然存在。OpenAI 并不 open 地仅开放商业化付费 API 作为 GPT-3 的使用方式,谷歌的大模型也并未开源。

下图展示了开源社区追赶 AI 模型的时间线,可以看到技术追赶速度正在逐渐变快。那么这个趋势是否会持续呢?如果差距持续缩小或较为稳定,AI 模型开发可能成为 iOS vs 安卓的格局;而还有另一种可能,则是差距逐渐放大,AI 研究所专业化地研发大模型,开源团队主要做中小模型的工作。这一判断的关键因素,会是各团队对 GPT 模仿与超越的进度。

但总归而言:闭源比开源好!且公司一旦做出效果,也会闭源!

大公司采取完全闭源或者部分开源的方式(META开源-为了集中智慧,更好的优化模型;但是训练数据并不开放和输出限制,并不符合最新的开源标准)

1 闭源有数据飞轮,将模型训练的更好

2 开源的盈利模式,只能提供非标准的开发服务,没有规模效应

3 开源发展慢于闭源,但商业化的竞争已然开始,以开源模型为基础的软件,性能和商业化落后

4 软件类的历史,都是开源先,再做闭源产品,天下没有免费的午餐

开源没有但使用者多,生态建立快,使用者还可根据业务需求自行增减功能或进行模型迭代,但是企业开发成本过高,无法及时收回成本,后面只能做为他人开发模型的工作,不具备规模经济优势,注定盈利模式走不通,但可以做营销。

对于下游的应用层开发者来说:

模型选择的问题,企业可以先用好的开源模型开发,再等待闭源模型技术发展突破(也可以同时开发,比较效果),再跟上(大模型层公司一定会提供标准化的工具)。

LLM

LLM的大模型公司是行业里主导玩家,整个产业都会由于该行业的竞争行为而变化。

从公开测试来看,中国大模型与国外模型仍有不小的差距。不过在scaling law的边际效应减小的情况下,仍然可以在最多1年内追上。

海外

直接网站MAU数据说话,Chatgpt和借用OpenAI技术的微软的Bing断崖领先。还有app数据,考虑到大家使用都是通过网站入口进入,app的数据影响较少。

海外的商业化和技术进展整体快于国内市场,有非常好的借鉴意义。

初创企业

1 OpenAI

具有绝对优势地位!利用技术优势的时间差,正在快速商业化和防守!

团队:掏空硅谷人才的顶尖公司,但是由于众所周知的不再“open”和改变企业性质为盈利组织后,一次团队“政变后”,关键科学家伊利亚以及安全团队的出走,企业后续的顶层技术设计能力堪忧。CEO奥特曼是美国孵化器YC(国内奇绩创坛的前身)的总裁。

事实上,近期OpenAI的人事变动颇为频繁,大量关键科研人才流动。此前在今年5月,OpenAI超级对齐团队负责人Jan Leike以及联合创始人、前首席科学家Ilya Sutskever在同一天宣布离职。此外有消息显示,OpenAI另一位联合创始人Andrej Karpathy也已在今年2月离职,并且去年加入该公司的产品负责人Peter Deng也已离职。

随后在8月初,OpenAI联合创始人John Schulman宣布离职,并表示将加入AI初创公司Anthropic。彼时OpenAI公司发言人曾透露,总裁Greg Brockman将休假至今年年底,并且Greg Brockman本人表示这是其自9年前创立OpenAI以来第一次放松。

今年9月OpenAI首席技术官Mira Murati也宣布离职,并表示,“经过深思熟虑,我做出了离开OpenAI这一艰难决定。离开这个深爱的地方从来没有一个理想的时间,但感觉此刻就是最好的选择”。

本月初OpenAI旗下Sora AI视频生成项目负责人Tim Brooks宣布离职,加入OpenAI的主要竞争对手谷歌DeepMind。近日,OpenAI高级研发人员、OpenAI o1推理模型负责人Luke Metz宣布即将从OpenAI离职。

目前OpenAI的招聘重点已经从基础研究转向产品开发和应用领域。

战略方向:根据开发者大会,可以确认OpenAI重点将在继续开发多模态大模型(寻找下一代的Scaling Law以及Cot等等)和寻找商业化(1为基于gpt的开发者提供全栈的开发工具和方案–免代码的GPTs和Assitant 2运营应用软件的平台-Store 3To C的搜索引擎以及Canvas工作台);向后向前整合关键能力。特别是C端,OpenAI一定会去尝试去做大市场的生意。

To C类(获取流量):提供Chatgpt,GPTs agent和GPT-store,奥特曼长期如果想要推翻谷歌,成为新的检索入口,必须要找到新商业模式和生态!(特别是找到和广告商收费,但又不破坏C端客户使用体验的商业模式)。

OpenAI确实在产品化上有所不足,目前OpenAI的招聘重点已经从基础研究转向产品开发和应用领域。此前在2021年,该公司发布的招聘职位中有23%属于一般研究类职位,但在2024年这个比例已降至4.4%。

对于B端(ISV生态工具栈):短期内参考苹果生态(广泛吸引开发团队入住),市场上对C产品收取高额月费享受ai服务,可以短期收钱,但是目前来看大模型竞争随时赶上,赚钱的服务也将会被垂类公司赚走,如何获取和留存大流量;提供统一模型微调和训练工具。为了应对谷歌等大公司整体生态的竞争,必须要走出商业差异化!

与互联网大厂合作:微软占有49%的股份,引用至自己的终端(copolit agent–LLM版搜索引擎救活了微软无人问津的浏览器edge–两年内从8%的市场份额提升至15%!直接挑战谷歌chrome),同时也投资了另一家大模型公司,大公司都会使用大模型来对其企业产品进行agent化和云服务的协同工作!微软同时投资mistral和引入inflection ai的ceo,说明对OpenAI的掌控不强,所以才做的多手准备。BTW,微软云计算的azure上的GPT的api费用要低于OpenAI官网的价格。

对于OpenAI来说,一方面的投资有算力的加成,快速训练,一方面微软也对奥特曼的支持导致了伊利亚想把奥特曼踢出团队的失败。另外根据协议,OpenAI一旦开发出AGI(第五级-AI可以完成一个组织的工作),微软就将失去OpenAI的技术。

总而言之,OpenAI拿算力、数据;微软拿到OpenAI的技术作出产品,赋能业务。

2 Anthropic

创始人达里奥是一个技术天才,在OpenAI的5年间,他先后带领团队开发了OpenAI的早期产品GPT-2和GPT-3,成为首批记录人工智能规模定律和规模化的技术大牛。

正是这段经历,达里奥逐渐意识到AI可能比想象中强大,它带来的安全问题也比想象中更严峻,然而,OpenAI似乎并不能解决他的顾虑。2020年6月,GPT-3问世,半年后他与妹妹丹妮拉决定一同辞职。

OpenAI核心团队出来创业,Anthropic 已经和 亚马逊、Google、Salesforce 达成了战略合作,使用 Google 提供的云服务,并且集成到 Slack 中;Anthropic也表示会进一步扩大与AWS的合作,提出将“从芯片到软件的技术基础,共同推动下一代人工智能研究和开发。”其中就包括合作开发AI芯片,以及AWS业务的进一步渗透。

Anthropic 的成功源于其独特的技术路线和商业策略。首先,Claude 3.5 Sonnet 模型在性能上实现了质的飞跃。根据 Anthropic 官方的数据,该模型在研究生水平推理能力(GPQA)、本科水平知识(MMLU)和编码能力(HumanEval)等多个基准测试中均表现出色,甚至超越了其前身 Claude 3 Opus。

基于Anthropic发布了一项革命性的技术——模型上下文协议(Model Context Protocol,MCP)目标是实现LLM应用程序与外部数据源和工具之间的无缝集成。

因为允许LLM访问和利用外部资源,它的功能性和实用性都会大大增强。解决LLM数据孤岛的问题。使得开发者更容易开发自己的产品。

无论是构建AI驱动的IDE、聊天界面,还是创建自定义的AI工作流,MCP都提供了一种标准化的方式,来连接LLM与它们所需的上下文。

Claude 3.5 Sonnet 引入了革命性的”计算机使用”功能。这项功能允许 AI 模型像人类一样与计算机图形用户界面交互,包括解释屏幕图像、移动鼠标指针、点击按钮,甚至通过虚拟键盘输入文本。这种创新大大拓展了 AI 的应用范围,为企业用户提供了前所未有的灵活性。

此外,Anthropic 还推出了”Artifacts”功能,允许用户直接在聊天界面中与模型输出进行交互和操作。这不仅提高了生产效率,还促进了人机协作的创新。

Anthropic 的成功也得益于其在安全性和道德方面的重视。公司率先提出了”宪法 AI”的概念,为其 AI 模型制定了一套道德准则和行为指南。这种做法不仅赢得了用户的信任,也为整个行业树立了标杆。模型与人类道德强对齐。

3 Mistral AI

Mistral AI成立于法国和2023年4月,由DeepMind和Meta的前科学家共同组建,专注于开源模型及企业级服务。公司成立之初,就获得了英伟达、微软和Salesforce等科技巨头的投资。Mistral AI被视为OpenAI在欧洲的主要竞争对手,据该公司介绍,其开源模型Mixtral 8x22B是市面上参数规模第二大的开源模型,仅次于马斯克的Grok-1。

不过,在与科技巨头的竞争中,Mistral AI面临很大的挑战。今年前三个月,Meta、Google和微软在数据中心建设和其他基础设施的投资总额超过了320亿美元。不过,Mistral AI已与微软建立了长期合作伙伴关系,利用Azure AI的超级计算基础设施训练模型,并共同为客户提供Mistral AI的模型服务。

互联网企业

还有meta、谷歌、亚马逊、推特等自研的模型!谷歌的Gemini和meta的Llama模型,性能都非常不错。且有流量的优势,agent产品化后搭载在自己硬件如谷歌手机,软件如Meta的app上。

关键是谁会赢?

在基础的算力和数据上,初创公司远远不如互联网企业,唯独在算法层面,或者更具体的说:AI算法认知领先,在智能工程上(数据、计算机系统)有一定的开发领先知识和经验。预计和大厂们有个最多8个月的技术优势。然而在scaling law大概率失效下,这个时间将会被快速拉短。

本身大厂们就是算法领域知识产出的主要来源(推荐算法、cv都是互联网厂商的深度学习的拿手好戏,适应新算法很快),本身的transformer算法也是由谷歌提出,且互联网大厂的业务就是cash cow,不缺利润,后期追上很快。只是现在为了市场的竞争,快速合作,ai化产品赋能业务增长,实际上都在自己做模型。

在这种博弈下,初创公司只能不断创造壁垒,保持技术上的领先的同时,找到一条可以挑战互联网企业的商业化路径(至少这里还有无限的可能),否则会被互联网初期免费的策略竞争(基本上互联网企业的模型都免费,或者api价格远低于初创企业,Llama都直接开源的)。所以初创企业和终端应用层的界限将会十分模糊,大模型企业除了提供MAAS的api等服务外,也会提供丰富的产品给到用户。

如果无法成功商业化,那么初创企业基本上就会和上一时代的CV公司一样:商汤、旷世依靠给互联网大厂卖人脸识别api起家,技术成熟后,同质化竞争,单次识别人脸的单价从几毛钱直接降到几厘钱,甚至更低;然后开始寻找二次增长曲线,各种行业(自动驾驶、医疗、to c等等),搞渠道,做非标总包定制化,毛利下降。。。。。

总而言之,初创企业必须找到自己的有壁垒的盈利池,特别是to c领域作为大头,拿到互联网算力和投资后,把握好关系避免过于深入参与业务,要充满想象力和勇敢挑战互联网大厂的业务,否则到头来就是个大厂外包研发团队,有业务能量和技术的等待并购or直接下牌桌。

那么这次的LLM浪潮到底是互联网大厂们的流量竞争的延续还是新时代的降临呢?

国内

初创企业

智谱ai:同时投资生数科技(美术类)和幂律智能(法律类),补充能力和应用层,商业化最成熟,主要面向to b;有语音、文本和图像,有开发平台;智谱 AI 已拥有超2000家生态合作伙伴、超1000个大模型规模化应用,另有200多家企业跟智谱AI进行了深度共创。

近期,在11月末智谱推出自己手机版的AutoGLM之前–可用语言操控手机的agent(LUI),下面应用层,会详细讲述,他的股东蚂蚁集团的著名app-支付宝,在9月份早早就推出了“支小宝”,人们可以和他对话,在支付宝上进行订外卖、订机票等等操作。

月之暗面:to c(主要定位)商业化最好:Kimi智能助手在2024年1月的访问量达142万,在大模型创业公司的“AI ChatBots”产品中居于首位,月环比增长率为94.1%,增长速度也在大模型创业公司中排名第一;技术优势,250ktokens的长文本输入,主打无损记忆;但只有文字,to c入手;最近又有了CoT能力,数字推理能力加强不少。

互联网企业

上述榜单为app使用榜单,非网页版,更符合大家对模型和应用层使用的市场认知。豆包的使用是断崖式的,和自己app业务的赋能,飞书等app内置豆包免费使用,加上宣发和教育板块的扩张。

字节的豆包、360、华为、百度、阿里、美团等等都在出自己的模型。这里面字节和360做的商业化和模型成果结合的不错,流量好。这里要说一句,幻方的deepssek模型通过优化注意力机制和量化的大量GPU(除了字节外,最大的英伟达算力方了),获得了非常好的效果,性能位居世界前列,但不商业化,不赚钱,只开源模型,模型的竞争实在过于强烈。

国内国外的竞争态势几乎一样。不再赘述。

八、应用层——软件

AI应用软件综述

目前应用层的问题在于,大家都是尝试在用,后续使用次数不多,无法利用好大模型的特性与需求贴合。

所以应用层的成功的关键是基于场景的深度理解,做出复用率高的产品!所以MAU、复购率等为关键指标。还是得回到应用场景的关键词:

刚需  长期  高频

应用层公司的模型选择路径

1 利用已有的闭源大模型用自己的数据微调模型:(但要找到合适的盈利模式,抵消流量费用)

训练费用和调用费用:OpenAI对训练和api调用收费。这通常基于使用的计算资源量和使用的模型。

  • GPT-4v训练价格:$0.00800/1K tokens ,promt/输出价格:$0.00900/1K tokens 训练价格:$0.00800/1K tokens,1K tokens 大约750个英文单词,500个汉字,10个亿中文。
  • 训练3次,仅花费35万人民币,关键在使用收费–交互2000次/1美元,大互联网公司一天估计有10亿次交互,每月要缴纳1500万美元,不如直接开发自己的大模型。

2 自研

3 开源大模型再训练

基本上应用层的公司还是微调模型,不自研,也就是所谓的“套壳”,所以他们的壁垒就在于对场景和LLM的理解从而开发出PMF的产品,而技术层面上来说,所有套壳公司要做的事情就是提示词工程-通过LLM偏好的语言习惯,引导LLM最优化的输出结果。

To B & To G–企业服务

海外龙头公司:Saleforce、SAP、Zoom、Adobe、云服务公司等

国内:钉钉、企业微信、飞书、金蝶、用友等

针对大模型的已有的创造和归纳推理能力,可以部分替代美术创意、文字推理归纳。

(一)信息管理类

CRM — AI客服

大型企业如 Salesforce、SAP 和 Workday 也推出自己的 AI Agent 产品。其中,Sales Agent 是目前 AI Agent 主要落地和商业化场景之一。硅谷 VC 围绕 Sales Agent 概念投资了很多 club deal,如完成了 5000 万美元的 B 轮融资,估值 3.5 亿美元的 AI SDR (Sales Development Representative,销售开发代表) 11X,Greenoaks Capital 领投新一轮的 Sierra 估值也达到了 40 亿美金【57】。

与此同时,Agent 公司从按 seats 数量收费的 SaaS 定价模式转向基于结果定价,带来了更大的市场空间和想象力。

目前的 Sales Agent Startup 大多专注于替代或优化销售流程中的某些环节。

AI客服历史

客服市场从上世纪 50 年代发展到今天,主要经历了四个阶段【58】:

传统电话客服(2000 年以前)—多渠道客服(2000 年-2010 年)—云客服(2010 年-2015 年)—AI 客服(2015年至今)。但是即使发展到今天,客服市场竞争格局仍然十分分散。在 LLM 之前,AI 客服依赖于自然语言理解(NLU) 和机器学习,不同的行业需要不同的语料库,客服公司通常仅能在一至两个垂直行业做深,难Scale。

第四阶段的 AI 客服也叫 “对话式 AI(Conversational AI)”,国际主要玩家包括 Kore.ai、Amelia 等。

AI客服技术路径

早期基于 Rule-Base 的 Chatbot 对答是可控、可预测、可重复的,但对话缺乏“人情味”,并且通常不保留已发生的响应,存在重复和循环对话的风险。传统 Chatbot 架构和工具非常成熟,主要包括四个部分:NLU 自然语言理解,对话流程管理(对话流和响应消息,基于固定和硬编码逻辑)、信息抽象(预定每个对话的机器人响应)、知识库检索(知识库和语义相似性搜索)。传统 Chatbot 唯一基于机器学习和 AI 模型的组件是 NLU 组件,负责根据模型预测意图和实体。这种 NLU 引擎的优点是:有众多开源模型、占用空间小/无需过多资源、存在大量的命名实体语料库、有大量垂直行业的数据。后来的 Chatbot 采用更复杂的算法,包括自然语言处理(NLP)和机器学习,来提供动态和上下文相关的交互,从而解决早期基于模板的方法的缺点。

Chatbot 发展到后期出现了 Voicebot。Voicebot 的基本方程式是:Voicebot = ASR(Automatic Speech Recognition) + Chatbot + TTS(Text To Speech)。这些变化增加了复杂性,提供更好的对话效果、更长的对话时间和更多的对话轮次,以及更复杂的对话元素(如自我纠正、背景噪音等)。然而,Voicebot 出现的同时也带来了一系列挑战:有延迟问题、需要更复杂的流程、需要加翻译层、容易出现对话离题、用户打断对话难以解决等。

因此,开发者依然在渴望一个灵活且真正智能的对话管理系统。LLM 的出现从开发到运行都颠覆了 Chatbot  IDE 生态系统:不仅加速了 Chatbot 的开发设计,大大提高了Scalability;而且在对话运行中可以实现上下文交互、灵活且智能的回复。但缺点是稳定性、可预测性较差,以及在某种程度上的可重复性弱。

AI客服需求场景

根据销售工作流,可以将 AI 客服分为几类:

1)营销类外呼:售前场景因为对于模型的理解和智能能力要求较低,是目前比较好的落地场景。Voice agent可以带来更自然的对话体验,同时能够结合分析历史通话数据,实现营销转化的提高。如果遇到太难的问题,LLM 也可以检测后发给普通的客服。

2)销售中:目前LLM还比较少的被应用到直面leads,因为受能力限制,失败了损失过大。但被充分应用于客服培训中,一方面节省了因为电销频繁离职导致的过多培训时间成本;另一方面可以做到知识库实时对齐,成为电销的语音 copilot。

3)投诉/售后服务、客户回访(占比50%):AI 可以帮助客服收集客户投诉,解决简单的售后服务问题(不一定要使用LLM)。同时可以进行大规模的客户回访,也开始被企业广泛的采用。

市场规模

根据 Morgan Stanley 的报告,目前全球大约有 1700 万名客服代理人员,代表着大约 2000 亿美元的全球劳动力市场。随着多渠道协调响应的需求增加(例如电子邮件、社交媒体、聊天),这个市场从传统的客服中心向云服务转型。根据 Morgan Stanley 估计,目前高达 50 % 的客服互动都属于简单直接的类型(例如密码重置、包裹查询、需要退货),随着 AI 解决方案的改进,这些互动未来可能不需要人工客服的参与。但是考虑到客户强烈希望与真人客服交谈的偏好,在保守情况下,未来 5 年内,可由 AI 处理的客服业务将占 10-20 %,并且这一比例预期将增长。因此,Morgan Stanley 认为在未来 5 年内,Contact Center 市场(包括 CCaaS 和 对话式 AI )2027 年市场规模可达约 260 亿美元。

市场格局推测

Sales AI 领域非常Crowded,主要竞争对手可分为三大类:大型公司的销售自动化产品、同类 Gen AI 初创公司、以及上一代 AI 销售软件。

垂直行业的语料库和客户资源在客服 NLU 时代是玩家的竞争壁垒(数据、行业认知和客户资源),所以客户在选择供应商时更看重供应商在垂直行业的经验,因此截至目前 AI 客服市场格局仍然较分散。根据专家访谈,AI 客服市场未来很可能有 20-30 位玩家同时留在场上,重要玩家的收入体量大约可达到 10-30 亿美元。假设 LLM 落地成熟,考虑到 LLM 的通用性,市场格局有可能由分散变为更加集中,更利好头部公司。

众所周知的原因-中国市场的暂未接受订阅制导致软件公司无法像国外企业一样,获得高额的收入。但这也是商业进程问题,美国经历了软硬件一体机的IBM垄断,到Oracle等软硬分离的订阅制挑战,再到目前大模型的API-用多少买多少;每次盈利模式背后都是市场受够了被生产者垄断的剩余剥削,选择了更加平等的盈利模式;中国市场还需要时间。

所以即使收入增长很快,国内企业服务目前在融资低谷(大家更希望看到并购整合,只为活出资本寒冬)。但是原有的AI客服公司明显在新浪潮下,具有更大的先发优势:技术上-只需微调模型;但有大量的数据和场景理解;商业上有固定的渠道客户,新的盈利模式带来进行溢价的升级。期待商业模式的转折,重新将软件类估值抬回应有的水平。

LLM 对 AI 客服市场的技术风险

真正到了落地阶段客户仍更多采用传统机器学习/NLP 的解决方案(客户有定制化和垂直行业解决方案的需求,LLM 对垂直行业的理解和准确性反而不如传统方案),需要限制LLM的幻觉。需要因此目前主要是成立年限较长、有一定行业经验和客户积累的传统公司受益。但传统方案基于关键词进行回答,灵活度较差,用户体验也不够真实,因此该情况有可能仅是过渡阶段。

国内公司有:句子互动、斑头雁、追一科技、百应科技、Stepone等

ERP — 企业搜索

根据 ReportLinker 预测,2028 年,全球企业搜索市场规模将达到$6.9B,2022-2028年 CAGR 为 8.3%【59】。

供需:企业搜索产品的目标用户主要为知识工作者,企业客户覆盖大、中、小型公司,但以大型企业和中等规模公司为主,因为随着企业越来越庞大,积累的结构化、非结构化数据越来越多,员工与员工之间沟通也越来越低效,因此企业越大对企业搜索的需求就越大。

海外企业搜索大致经历了三个阶段:

1. 第一阶段是基于关键词的搜索,用户需要输入关键词或关键词组合进行搜索;

2. 第二阶段是基于语义的搜索,用户可以输入自然语言完成搜索,且搜索的相关性和准确性和第一阶段相比有很大提升。

前面两个阶段的共同特点是,均为用户输入关键词或自然语言,搜索引擎根据相关性对搜索结果进行排序,且搜索结果为网站;

3.第三阶段,也就是现在,搜索出现了新的玩法,ChatGPT 或 Bard 等搜索的结果不再是一条条网站,而是直接提供问题的答案。Glean 属于比较积极拥抱搜索行业的变化的玩家,技术上同时提供语义搜索和关键词搜索的能力,产品上同时提供答案生成和网页排序两种形式。

企业搜索的需求非常明显和稳定,因此该赛道一直比较拥挤,主要玩家包括微软、Google、Amazon、IBM、Oracle 等大型科技企业,以及专注做企业搜索的公司,如 Coveo、Lucidworks、Glean、Mindbreeze 等,这其中有像 Glean 这样新成立的公司,也有像 Coveo 这样已经成立十几年的公司。

与企业服务公司产品为互补品,可拆分,客户离不开原有的企业服务产品,且数据均在原公司,企业检索为增值服务,可短时间内自研。

Glean(谷歌搜索团队创业)

客户:Glean 早期将科技公司视为目标客户,后来更聚焦于成长期科技公司,这些公司的员工数量通常是 500-2,000 人,公司处于高速发展之中,愿意尝试新事物且快速行动。

技术:Glean 利用多维方法将矢量搜索、传统关键字搜索和个性化结合到了一个混合搜索系统中,从而提高了搜索的相关性和准确性。

核心功能是搜索;亮点是个性化和跨应用。

商业价值:Glean 的跨应用搜索相当于在所有 SaaS 产品之上架了一层,用户不需要再逐一打开 SaaS 应用,在 Glean 上就可以查到企业数据,并完成部分高频工作;流量进入入口,并且还能直接有生产力,目前最多的还是员工入职场景(培养使用习惯!)。

商业模式:纯 to B 的模式,未向个人用户开放。Glean 通常为企业提供两种定价模型,一是 Per-Seat 的定价模型,每个 Seat 每月 100 美金以内;二是针对企业级解决方案的个性化定价模型。

竞争优势:1易用性(链接多个SaaS合作),冷启动快(3天)2搜索能力的数据飞轮,形成个性化 3员工的网络效应。

但是无法沉淀业务数据,数据都在SaaS,有搜索数据沉淀,提供企服的公司一般也提供(并购逻辑),国外使用SaaS较多,所以需要企业搜索来使其串联,不像国内统一化。

未来的期待:想办法有一定的数据沉淀,未来要成为中心平台,需要再多做一些高价值工作替代or形成行业工作流的替代,让使用者继续使用。

国内

主要是大模型层公司在做,一种是帮助企业员工进行企业内部知识搜索和总结-私有化部署(项目制,商业潜力弱);一种是ERP公司使用大模型进行搜索并进行SaaS调用。

关注数据获取留存以及如何商业化,是否考虑垂直行业工作流的agent化!泛化能力不强,先抓住垂直客户的高价值需求,先商业化。感觉业务有些迷茫,目前客服和数据预处理都有大量玩家参与,大的ERP公司例如金蝶、用友等可以尝试调用大模型复制Glean,完善自己的企业软件使用入口,进行优化,通过大模型调用各类SaaS。

国内ERP公司目前的超万级的ISV和生态完整的工具栈壁垒是模型层完全无法竞争的,大概率做个内部技术支持。

HCM — 数字人面试&员工培训

主要是数字人视频来代替面试(企业减少招聘投入并提供面试者之前机器面试的体验感)和新员工的入职培训视频。

数字人互动直播与录播有点类似,只是录播少了互动。在录播时会先把视频录制好,然后通过OBS推流,推到直播平台就可以了。如果需要互动流程时,要获取直播弹幕,判断弹幕是否满足回答条件,如果需要回答则生成答案,然后在走一遍视频制作流程,然后推流。

技术上无壁垒,商业上直播不允许用录制的视频,作用只能在短视频平台进行视频成本的下降。大厂都有在做。

目前对于可重复性多的视频生成场景,有较高的价值,例如网课、入职培训等教育和营销领域。看好出海,收入增长快的公司。特别是出海,详细分析请看下述的视频生成赛道。

初创公司代表:硅基智能、Fancytech、Heygen等,其他数字人中小公司也很多。

法律

根据服务对象划分,Legal Tech 的种类可以分为 ToL 服务律师事务所、ToB 服务企业法务部门及 ToC 服务消费者。但值得注意的是,无论是 ToL 还是 ToB,企业才是最终付费方。即便产品的客户是律师事务所,由于律师事务所是为企业服务的,律师事务所会把 Legal Tech 工具转交给客户报销【60】。

LLM 出现前的法律 AI (以 NLP 为主)主要运用于合同管理,但这些工具以信息检索为主,很难对信息进行深度的处理与分析!

产品:

  • 法律写作:撰写长篇、格式化的法律文件,帮助起草合同,撰写客户备忘录,作为工作起点
  • 掌握专业法律知识,可以回答复杂的法律问题
  • 进行合同及文件的理解与处理
  • 定制公司特有的模型:使用客户特有工作产品和模板训练,以嵌入工作流,类似新员工加入律师事务所时的入职培训等
  • 律所工作流:客户诉求的沟通与拆分、法律研究(法条检索和判例研究)、客户方案设计、合同、诉讼文书或其他法律文件的处理,以及其他涉及到法律适用问题的工作

模型层:

法律 LLM 创业公司主要直接接入 API 或 finetune 大模型,不同公司选择了不同的供应商,Harvey、CoCounsel、Spellbook 接了 GPT4,其中 Harvey 和 CoCounsel 2022 年下半年就获得了 GPT4 的优先使用权,Robin AI 则选择了与 Anthropic 的 Claude 合作;公司多采取多个模型组合去完成不同细分任务。

数据层:

不同公司能获得的优质数据不同,这对于 LLM 的表现会产生较大影响。CoCounsel 因具有 Casetext 多年的数据积累,并被汤森路透收购,可以使用其世界级法律内容库,在数据维度具有较大优势;Lexis AI 背靠 LexisNexis 也有类似的优势。而 Harvey、Robin AI 等新兴创业公司选择与头部律师事务所、四大审计公司绑定的方式获得优质训练数据。

看好有大模型训练能力、行业专业数据库、深入大客户工作流的切入团队是关键。

市场规模:

中国机会更大,2023年中国各类案件接受3200万件,400万件未处理,还有1400万调解(每年还以30%速度增长,这些都是强制未上升至受理案件的!中国法律服务能力缺口极大!),还有各类监管审查工作,ai的出现可以极大缓解公检法的极大压力!中国律师事务所4万家,每年增加2000家,中国约 57 万名律师。保底110 美元/月/人+超量使用+定制开发,目前市场规模60个亿元,且将会不断快速增长30%!

在中国to b法律领域有个重要问题就是,律师普遍工资不高,实现替换意愿不强,目前商业化进展缓慢。但需要持续关注。

笔者更关注庞大的C端市场!中国人需要一款专业的法律询问APP,依法治国的前提。

美国Harvey(openai投资),CoCounsel

中国:幂律智能(有数据、模型开发已完成)智普AI和北大的Chatlaw

审计合规

需求:国家和行业合规要求–GDPR,PCI-DSS,HIPAA,SOC 2,避免罚款和停止运营;合规和审计成本高–大型企业完成SOC2审计的单次成本超过100万元;工作量巨大,只能通过抽查来减少工作量,跨多部门,工作协调困难,数据隐私保护缺失,通过海量数据的采集和分析做到高效证据获取,最终生成可支持审计目标的合规报告。大大降低合规的成本(预计提升效率40倍)–人工审查+审计;同行检举过多,罚钱多。

两大业务:审计(出海大公司)和数据合规(出海公司)

工作流:1理解当地法律法规 2梳理业务场景 3找到敏感违规业务流 4合理规避法律风险 5定期人工检查 6生成报告

市场测算:

数据合规(出海的中小型公司)

2027年,出海企业72万家,每年新增5万家,所有的涉及数据获取的企业都要符合当地规定,会遭同行举报,有天价罚款。假设渗透率20%,10万一年,中小型增量就有150亿人民币。大型公司将根据用量收款。

还有审计(出海大公司),想象空间大

发展趋势:IT合规自动化平台在国内尚无明显领先者–主要是法律新规,美国欧洲很成熟,中国刚刚起步,没有竞争对手,出海和国外上市公司需要。

(二)研发设计类

从技术来说,LLM+Diffusion的生成技术就是完美契合该类行业,甚至幻想本身就是一种创造力。从商业价值上来说,创造是最好的切入工作流的入口!先创造后修改!

美术类工具

在讲美术生成式的行业之前,笔者先讲下国外几家在做的事情以及思考,方便大家理解整体市场。

Stability AI

基于 Diffusion Model的Open model + Private Data,主要是针对B,G端的用户

战略:针对B端用户做模型的开发,支持开源为了证明技术、模型可控性和低成本技术外包!C端用户顺便收取费用。但是哪款产品都不是爆款,缺乏规划。目前团队商业化和管理能力弱。

技术:Diffusion开源模型(Stable Diffusion 由开源社区、Stability AI 及 Runway 研究员合作完成,Stability AI 并不独立拥有该模型的知识产权,Stable Diffusion 生成的作品版权遵循 CC0 协议,不归属于任何个人和公司,但可以用于商业用途):使用门槛低、模型调优灵活度高、生成效果好,加上 Stability AI 出色的运营能力,Stable Diffusion 成为了第一个拥有极强生态的开源模型(提供算力和资金支持–外包团队)。但是Stable Diffusion 中大量的数据反馈由于其开源属性无法形成优化模型的反馈回路,在更新模型上速度缓慢。

Diffusion的技术要解决精细化的问题!

LLM:StableLM 看起来又是一个营销胜于实际工作的例子。根据用户测评,与其他开源模型相比结果相当平庸,与 GPT 也相差甚远。

产品:付费应用 DreamStudio,大公司的api Plug-in,定制化咨询和大模型开发服务;通过开源,与生态合作,快速成长。

客户:常见的 B 端客户,还会为发展中国家的 G 端提供服务。

盈利模式:

1)服务大公司,提供定制模型和咨询服务:Stability AI 的核心业务是为大公司建立专门的团队,形成合作伙伴关系,出售模型(扩展和定制 Stable Diffusion 或其他大型生成模型,每个模型的报价约几千万美元),并为企业提供咨询服务,帮助大型公司和政府对 AI 模型的采用。

2)付费应用:孵化社区生态中的技术与应用,推出商业化版本,如以 Stable Diffusion 为基础的 DreamStudio,上线第一个月,收入就达到数百万美金,用户数量达到 180 万。

3)API:通过提供开源模型的 API 收费,并提供增值服务。Photoshop等公司的插件。

成本:Stability AI 作为开源生态的基础设施,为开源社区提供算力及资金支持是一笔极大的开支。

据说目前 Stability AI 拥有在 AWS 运行的、由 4000 多个 Nvidia A100 GPU 组成的集群,用于训练包括 Stable Diffusion 的 AI 系统,导致其运营和云服务方面的支出超过了 5000 万美元。

团队:创始人为印度人,无AI经历,团队来自世界各地,管理风格自由,这增加了成本,减缓了产品开发,没有总体的规划。

图片生成的竞对Midjourney进化之快得益于其出色的产品设计和闭源属性带来的的数据飞轮。MJ 做了较强的风格化处理,使得 to C 用户体感更好,但是我们注意到,SD 开源社区的 Finetune、Alignment 模型风格化后也能达到较好的效果,所以不排除 Stability AI 也有能力做到,只是重心不同。

除了 Midjourney 等通用型文生图软件,垂直类应用也层出不穷。不同行业对生成图片有着不同的要求,需要使用特定数据集训练,这给垂类赛道的创业企业提供了机会。如专注于 Logo 与网站设计的 looka,专注二次元形象生成的 NovelAI,专注游戏资产生成的 Scenario,以及专注头像生成的 Lensa。这些垂类应用目前来看很难成长为大体量公司,但盈利能力强,如 Lensa 在发售后的短短几周就赚了 4000 – 5000 万美元。

目前Runway/Pika的定位是Video Making Interface,AI native tools,图像视频编辑工具,关键是能从好用的单点工具闭环成用户不可或缺的工作流产品!视频生成是编辑的一部分。

目前Runway/Pika产品跟Adobe-Premiere和抖音-剪映比,只是AI增值性的提升,而没有颠覆整体的工作流,也很难颠覆他们的产品生态;同时大公司也在进行AI的研发;Sora的出现有新解法,仅作为视频创作源,不入侵到视频编辑本身,但这两个公司没有那么钱和资源去竞争一家微软的子公司。

在专业视频编辑场景,Runway 难以撼动 Adobe 的护城河,其编辑工具目前无法应对专业精细化的要求,同时专业编辑软件 Adobe 和达芬奇(Davinci Reslove)也在 Runway 发布的新功能半年后就更新 AI 工具插件。在轻量化视频制作场景,Runway 面对高度嵌入抖音(TikTok)工作流体系的剪映。目前仅作为补充品存在。

Midjourney(专注文生图)

壁垒:设计师风格–差异化!高质量数据和模型(后期可加入tansformer现实世界模型)

技术:构建了自己的闭源模型,数据质量及数据标注质量的重要性远远超过模型本身,迭代非常快。

产品:艺术风格在市场上具有差异化优势。产品搭载在 Discord 中,用户通过与 Midjourney bot 进行对话式交互,提交 非常短的Prompt(文本提示词)来快速获得想要的图片。

客户:创意设计人群、工业设计人群、Web3 & NFT 从业者以及个人爱好者。若对标 Canva 的用户群,以 Midjourney 目前订阅价格计算,未来收入能达到约 23 亿美元。目前1000万用户量。

盈利模式:

目前采取 SaaS 订阅制模式,价格为 10 – 60 美元/月。虽未公布具体付费用户数量,但根据客户访谈可知用户付费意愿较强。以目前用户数量保守估计,年营收能到达约 1 亿美元。

Midjourney 采取 SaaS 订阅制模式。最初使用时,用户可以免费生成 25 张照片。之后按照订阅制收费。月付制为 10、30、60 美元,或者使用年付制,价格为 8、24、48 美元/月。值得注意的是,用户只有在订阅之后,才能拥有使用 Midjourney 创作的图片的版权。

成本:目前来看,Midjourney 的毛利率约为 80%。Midjourney 搭建在 Discord 上,Discord 会收取约 10% 的手续费。虽不清楚 Midjourney 的模型训练成本,但 Stable Diffusion 的训练共使用了 256 张 Nvidia A100,耗时 15 万小时,成本为 60 万美元。每次生成图像的推理在云端的 GPU 上完成,生成一张图片的成本约 0.5 美分一张,且未来成本会不断压缩。相对于订阅收入,生成图片的成本可以逐渐忽略不计。

中美的主要不同在于,中国式电商场景更多,生成式的商业化也会有所不同。

专业编辑

总体市场规模测算:

图片:Adobe,短视频:剪映,长视频:Adobe等专业软件

仅短视频:Instagram 月活用户为 20 亿,而 Tiktok 用户为 20 亿

目前数字媒体领域市场规模达到1500亿美元,由于短视频的快速增长(渗透率20&假设,增量将达到400亿),(非专业的客户也能使用ai和集成工具)增速极快。

专业编辑赛道工作流:视频制作过程,视频制作的后期则包括了逻辑剪辑、音乐制作、粗调成片、细调和字幕添加等工作,它们占据了专业视频编辑工作的 80%,Runway 有提供音频去噪、自动风格变换等功能。不仅如此,许多专业视频还要包括视觉特效的制作,而在特效制作过程中,最费力的工作便是 Green Screen(绿幕抠图)及 Inpainting(图像修复)。

竞争情况:

短视频领域要突破抖音生态!

但在专业美术领域有机会:Adobe采用的是Stable Diffusion的技术,而Stable Diffusion是开源,不具备长期优势;Adobe对新技术和新商业模式反应缓慢,即使推出Express对标Canva,也无法与其竞争,专注于专业领域的打磨产品。

国内竞争对手较多像素蛋糕,剪映等.

切入机会:关键工作流切入,但是要有自己的大模型和艺术风格等各工作流差异化–原工作流比较固定,并赶上1精细化的技术壁垒!可以先从垂类赛道和c端切入,积累数据和商业化。形成2完善的工具和3素材库+4云协作5独特艺术风格差异化!

国内无初创企业切入专业领域,持续关注。

美术设计生成

场景:游戏开发/建筑/工业设计美术生成,主要还是游戏领域。

市场规模测算:游戏全球3000亿美元,中国增速较快;分为IP/版权方、游戏发行方和开发(50%),其中美术占了50%的市场–750亿美元(20%软件+80%人工),假设去掉50%的人工和增加100%的软件费用,美术市场(主要是图片+3d模型的设计)将有600亿美元,全球增速6%,中国14%。

工作流:其中开发又分为

  • 策划:负责游戏的数值、系统、剧情、战斗和关卡设计等。
  • 程序:负责编写使游戏运行的代码。这可能包括引擎编程、AI编程、网络编程等。
  • 美术:负责游戏的视觉效果,包括角色设计、场景设计、UI设计等。
  • 音效:负责游戏的音乐和声音效果。
  • QA(测试):负责在开发过程中找出和报告游戏中的错误和问题。

游戏核心在:故事讲述、游戏性上!AI长期内没有替换的能力!

竞争情况:目前龙头大公司还不具备AI研发的能力,都用的其他家的AI公司功能进行嵌入!

切入机会:在角色美术设计,3D建模,关卡设计等工作流实现创作!但是3D建模是根据美术概念来的(图片+文字),需要多模态的能力和大量设计数据,要求高。

挑战企业:

国外:

  • Midjounry,Stable-Diffusion,Pika,Runway;国外新游戏引擎Jabali

国内:

  • 图片:TIAMAT、 LiblibAI奇点星宇、nolibox计算美学、智象未来 HiDream.ai
  • 图片+视频:右脑科技、生数科技、爱诗科技
  • 3D生成:空间直觉Microfeel、Vast

营销设计

即使在经济不好的时候,企业也较少削减营销预算,缩减品牌营销相关投入会引发市场份额下降、销售额滑坡、品牌重建的长期成本上升等问题,反而得不偿失。

工作流:策略规划、内容创作、内容发布、效果反馈和优化这四个环节

市场规模:BtoC平均营销占收入15% /BtoB平均营销占收入10%,其中50%用来内容创作,TAM可达千亿美元,根据statia,全球内容营销行业市场规模为720亿美元;市场够大。

针对的客户:品牌企业或大型企业关注品牌效益和经济效益(目前AI还无法到达此水准),中小企业受限于营销预算,则更关注成本。

后续发展:要试图切入CRM赛道!抓住出海趋势(中国72万家公司出海,每年新增4万家)!

海外初创公司:Typeface

国内企业:衔远科技、FancyTech、WorkMagic、奥创光年

工业建模工具

竞争情况:国外龙头AutoCAD、SolidWork和达索;且需要数据和经验积累!

总结:中国市场较小100亿,有专业团队深耕可以;目前Diffusion技术不达标(图片集成效果不好和精细化不足)。

文字类

Devops-代码生成

总结:Visual Studio一家独大(还和copoilt-openai联盟),新公司产品差异化(仅在ui/ux)不明显,未看到颠覆其商业模式和技术。

切入IDE(Integrated Development Environment)不仅是开发者的超级入口,也有机会完整地收集到测试、环境配置和 Debug 等环节的复杂推理过程的重要数据信息,因此,是最有机会、最早能够出现 Coding Agent 的场景。

工作流:环境搭建、需求、代码编写、测试、代码scanning、代码重构、debug、部署

Copilot 用户已有 46% 的代码由模型生成,能让这些用户节省 55% 的开发时间;Copilot 建议代码接受率在 30%以上 ,并在用户上手半年后能提高到 36% 左右。

市场规模:2022 年,全球 DevOps 总收入规模在 80-100 亿美元左右,并正以每年 20-30% 的增速增长

竞争情况:因为流量和产品先发优势,IDE 目前几乎是被微软的 Visual Studio(免费)和 Github Copolit 联盟(18个月1亿ARR)所垄断还有Jetbrain 吃下了 IDE 市场 18% 份额(IDE 工具及商店抽成),Tabnine 、Codeium、Cursor 以及 CodeWhisperer 等 LLM-first IDE 团队则试图基于 LLM 提供更具差异化的用户体验挑战,模型能力相当,短期内收入可以。

写作类

市场长期PMF待验证,目前看下来,大模型性能好,也可以做,界限模糊。

波形智能-已被oppo收购、写作工具–深言科技。

音乐类

AI 生成音乐是一个发展了很长时间的研究领域,但之前生成的作品还停留在“人工智障”的阶段,Transformer 架构为音乐生成体验带来了 10x 的提升,2023 年出现的一系列基于 Transformer 的模型,包括 Google 的 MusicLM、Meta 的 MusicGen 以及 Suno 的 Bark,让 AI 生成的歌曲变成了可欣赏内容【61】。

技术变化

声音领域在 2015 年左右由于 Seq2Seq 的成熟曾有过识别技术的突破,但在生成方向的成熟比图像和文字更晚一些。其背后的原因主要是声音领域的信息密度更低:一个文字,一句歌词可以对应着很多种声音的表达形式,且生成的声音比文字本身的数据量要大很多。

直到去年,技术路线基本收敛到 Autoregressive Transformer 和 Diffusion model 并存的模型结构。Transformer 架构对音乐生成的质量提升帮助很大,因为音乐是一个有长距离结构(多次主歌+副歌,且有呼应)的内容形态。Diffusion model 的加入,能有效避免避免了自回归模型容易产生的韵律/节奏不稳定、词语重复/遗漏等问题。

2023 年 Google 团队提出了 MusicLM 使用了 Autoregressive 结构,实现了从文本描述生成高保真音乐片段,并支持对音高、速度等的精细控制。同一年 Stability 团队的 Stable Audio 工作中也开始有 Diffusion model 的加入,使音乐生成的效果更加稳定,Stable Audio V2 中使用了和 Sora 一样结合 Transformer 和 Diffusion 的 DiT(Diffusion Transformer 结构)。

Suno AI 音乐生成对语义有着很好的理解能力,对不同风格的规律、长距离的结构都能比较好地捕捉,我们判断 Suno 一定用了 Transformer 结构,带来了能 scale up 的智能。同时,Suno 生成的稳定性也远好于其他模型,Diffusion 模型架构应该在其中使用。音乐生成的模型结构会与 Sora 的 DiT 结构比较接近,由几个部分组成:

这个模型结构看起来很简单,和 LLM 和视频生成有很多相似之处,这可以被 Suno 创始人在访谈中的一个分享验证:Suno 团队在训练模型的时候,尽量不让模型中融入关于音乐或音频的先验知识,比如融入声素等元素,而是让模型自主学习。这种方法起初优势并不明显,但随着 scaling up 的推移优势开始显现。

谈到 scale,根据其他 TTS 模型参数量和目前的定价预估, Suno AI 的音乐生成模型的预估参数最大不超过 5-10b。音乐生成模型在数十亿参数量级就能做好很不错的效果了,与参数量相比同样重要的还有数据。

如果优秀人类的作品为 10 分,我们认为 Suno 可以到达 7 分普通歌手、“抖音网红歌”的水平:拥有多风格的作曲能力,可以创作出吸引人的旋律和节奏,但在音质、创新度上达不到专业作曲家的要求。但是已经可以为专业音乐玩家–Pro C,提供创意idea。

音乐市场

音乐的应用广泛,除了音乐专业制作,广告、影视、游戏、动漫、企业宣传都会用到音乐。音乐专业制作市场(the recording industry)的产业链主要分为以下环节:

  • 上游 – 音乐创作与录制:包括进行词曲创作、编曲、录音、混音等制作环节。参与的人有作曲家、编曲家、录音工程师、音频编辑师、混音师、母带制作师等。
  • 中游 – 音乐的出版运营、宣传推广:发行人会对音乐作品进行版权运营、数字分销。在宣传推广环节,通常会制作音乐 MV,通过各类媒体进行音乐推广。
  • 下游 – C 端用户消费音乐:主要通过流媒体平台等渠道向听众传播音乐,同时开办演唱会、制作文创产品等,实现音乐 IP 的商业化。经纪公司也会对艺人进行宣传,组织演出等。

AI 生成音乐的应用机会不仅在为上游为音乐的制作环节降本增效,而且有机会将多个音乐制作参与角色合一,让每个创作者成为“全栈音乐人”,同时打通上游、下游,再造创作、消费一体化的 AI 音乐平台,也是我们期待的 Suno 的未来形态。下文针对受到 AI 生成音乐影响的上游和下游市场展开分析。

音乐制作市场

音乐制作为音乐产业链的上游环节,涵盖创作、编曲、录音和混音等环节,需要使用的工具包括 DAW、虚拟乐器、录音设备、音频效果器、MIDI 键盘、混音设备等,目前部署一套基础的设备需要约几千美元,更早期需要的投资更多。制作周期取决于音乐类型和规模,从几天~几个月不等,成本从几千~几十万美金不等。根据多家咨询公司的估算,市场空间大致为 $5-10B 左右,主要业务包括销售软件许可证、插件、硬件设备以及提供相关服务。

AI 有望进一步降低成本、缩短制作周期,将多个音乐制作参与角色合一,让每个创作者成为“全栈音乐人”。Suno 已经可以帮助用户生成音轨等组件,加速音乐创作流程。但本身该市场空间并不大,且比较分散,引入 AI 可能会导致 ToB 音乐制作市场的进一步缩水。

根据 A16Z 的判断,还有可能出现基于 AI 技术自动生成音乐的“生成性乐器”。硬件设备有可能与 AI 模型交互。例如,一个 DJ 控制器可能能够根据现场的氛围和节奏,自动生成鼓点或旋律,辅助 DJ 进行即兴创作。

To C 消费市场趋势

根据国际唱片业协会联合会(IFPI)统计,2022 年全球音乐市场规模达到 262 亿美元,增长 9%,其中流媒体收入占 67%,增长 10.3%。包括两块业务,一块是广告支持流媒体(Ad-supported streams),占 18.7%,通过展示广告来为用户提供免费的音乐流媒体服务,一块是订阅音频流媒体(Subscription audio streams),如 Spotify Premium、Apple Music 订阅,占 48.3%,约 130 亿美元。全球有 5.89 亿流媒体付费订阅用户,占全球总人口 7.5%。根据市场格局可以看出,流媒体音乐平台是音乐市场中最大的组成部分。

近十年音乐市场增长的另一个重要趋势来自于短视频。国际唱片业协会(IFPI)调研发现用户听音乐的时间显著增长,每周聆听音乐的时间从 2021 年的 18.4 小时增加到 20.1 小时,个性化需求也日益明显。国际唱片业协会(IFPI)也统计了用户听音乐的方式,发现人们在听音乐的时候,经常会和视觉相结合,很多情况下带有社交属性。

尽管分发渠道和用户消费形式出现了变化,但生产制作侧的垄断趋势还是比较明显:在 2022 年财报中,向索尼、环球等 record label companies 支付的版权费用占了 Spotify 收入的七成左右,因此流媒体平台当前还很难直接盈利。而当 AI 音乐生成降低了生产的制作与成本,是否能带来生产关系的变化呢?我们能期待 AI 有可能让版权优势不只被大公司垄断,而来自更多长尾、个性化的创作者。大众创作的时代。

市场竞争

Suno 最大的竞争来自于两个方面,一是 OpenAI 发布音乐生成领域的“Sora”,直接在产品效果上的碾压;一是版权公司和 Youtube、Spotify 等音乐平台公司,利用其数据和流量优势推出竞争产品,但他们面临更高的数据版权风险。同时,Suno 还面临着其他创业公司及开源体验的竞争。

OpenAI 是否会重现音乐生成的 “Sora”?

音乐生成模型的效果很大程度上是由数据质量决定的,这一方面取决于团队是否能拥有充足的数据源,懂得处理数据的方式,另一方面是否有充足的 GPU 进行训练。OpenAI “大力出奇迹” 的 Sora 一推出,对其他视频生成公司的打击有目共睹。OpenAI 目前已经注册了商标 Voice Engine™,包括”基于自然语言提示、文本、语音、视觉提示、图像和/或视频创建和生成语音和音频输出”,很可能包括了音乐生成产品。

如果 OpenAI 在音乐生成领域重现“Sora”将是 Suno 很大的竞争威胁。但我觉得细分市场的壁垒在于对场景的理解,提供丰富的工具,而且个性化的曲风的数据也是竞争的壁垒,不只是技术。

来自版权公司和音乐音乐平台的竞争

现有音乐公司对 AI 进行了积极的尝试,也采取了很多防御性的策略,包括 Spotify 刚刚推出的 Gen-Playlist,以及 QQ 音乐推出了 Suno 专区,但目前并没有出现类似 Suno 的出圈产品。一方面是 Suno 的产品具有一定技术壁垒,大公司的行动速度远慢于创业公司;另一方面大公司受限更多,会有更多版权、伦理上的限制。以及,我们所认为的平台、版权公司拥有的数据积累优势可能并不成立。生成高质量的 AI 音乐需要歌曲原始的分轨数据,但这是音乐平台也不拥有的,而原始分轨数据分散在各个版权公司和明星演艺公司,获得大量的数据很困难,购买成本也非常高。

音乐市场本身头部效应明显,有成熟的版权公司和流媒体公司;且音乐是一个反复收听次数最多的内容形态,因为这需要大众的情感共鸣,造成用户消费心智对新歌的需求频次低,对老歌的反复收听次数高。长尾、个性化的 AI 创作市场比较难以验证。

长期来看,我们认为 Spotify、Youtube 等现有大公司将对 Suno 产生更大的挑战。如用户在 Youtube 可以实现多模态音乐创作→发布的一体化,这其实与我们对视频生成格局的判断类似。Suno 的取胜关键是持续保持最好的生成效果、以及找到自己独特的产品形态。

总而言之,笔者非常看好音乐生成市场,可以先从to Pro C和to B层赚取创意费用,丰富编辑工具的同时,大步迈向to C市场,颠覆流媒体和ip拥有者的生态,将创作的能力、权力和收益给到热爱音乐的每一人。时间的尺度上一定是长期的,团队必须对此保持极大的热情。

SUNO

Suno 团队由音乐家和 AI 专家组成,目前仅有约 12 名员工。Suno 官网上写道公司文化以音乐为核心,鼓励声音的实验和创新,在办公环境中音乐无处不在。联合创始人包括 Mikey Shulman、Georg Kucsko、Martin Camacho 和 Keenan Freyberg,四人此前共同在被收购的金融数据 AI 科技创业公司 Kensho 工作。其中 Shulman 和 Camacho 是音乐爱好者,他们在 Kensho 工作时常常一起即兴演奏。

从经历来看,创始人有成功的创业退出经历,并且在物理、科学领域有极强的造诣。创始成员还有在 Tiktok、Meta 等互联网公司的从业经验。AI、物理领域的造诣以及对音乐的热爱,使得团队对开发 AI 音乐生成产品具有很强的适配性。

团队以自己训练的开源语音生成模型 Bark 为基础,开发了SOTA 的 AI 音乐生成产品。Suno 团队认为目前音乐听众数量远远超过音乐制作者是“失衡”的,期待用 Suno 让每个人都能将自己的想法转化成音乐,打破普通人与想象中音乐之间的障碍。

类似 Midjourney 让人人都可作画,Suno AI 作为第一款普通人可用、带有人声、歌曲生成效果接近商业化水平的产品,为全球 5.89 亿音乐流媒体付费订阅用户提供了创作工具,开辟了增量市场。

音乐制作效果被用户称为 “the next level of music generation”,在硅谷核心圈得到了广泛的流传,实现了用户的持续增长,根据 Similarweb 的数据,目前已经达到了约 220 万 MAU。

Suno 团队从开源 TTS 模型 Bark 开始,转型做音乐模型,从 Discord 服务器到自己的 UX 交互流媒体播放器,都行动非常快在半年内发布了成熟的产品。

Suno 网页版本的产品形态很简单,远没有到达 Spotify 等产品的复杂度。主要由 Explore、Create、Library 组成。Microsoft copilot 也集成了 suno,用户可以通过 chat 的方式来进行音乐创作。

Explore 界面,会展示歌曲创作的 prompt 指引,以及用户创作的最火、或最新的 AI 歌曲。暂不清楚推荐逻辑,但不同用户登录后看到的歌曲是一样的,可见还没有针对用户偏好进行个性化推荐。

但是目前还无法做到对于生成音乐的精细化控制。期待“未来几年能够利用技术从各个方面对音乐的生成进行控制”。

通过追踪 Discord 社区,我们发现 Suno 用户大致分为:

  • 音乐爱好者,他们本不会写歌,Suno 带给他们创作歌曲的能力。这类用户希望通过 AI 辅助创作出有趣的音乐作品,用于个人娱乐或社交媒体分享。他们的需求常常类似于,为自己的猫写一首 Taylor Swift 风格的歌。
  • 专业音乐制作人,他们将 Suno 作为创作的灵感来源,或生成音乐素材,结合自己的专业知识进行后期制作。Suno 帮助专业音乐人更高效的输出作品,他们也开始将 Suno 应用在商业场景。
  • AI 创作工具探索者,对音乐生成的技术感兴趣,尝试使用 Suno 进行实验性创作。

在与用户的交流过程中,我们发现部分用户对于 Suno 非常沉迷,Discord 社区中也保持了持续的高活跃。根据 Smiliarweb,Suno AI 的 MAU 持续增长,2024 年 2 月 MAU 已经达到约 220 万,Suno 的国家分布并不集中,其中美国、波兰的用户最多,各占约 10%。以男性用户居多,占据了约 68%,在年龄以 18-34 岁的年轻人为主。

具体使用场景较为广泛,并不仅仅局限在专业音乐作曲,可以做如下划分

商业模式上,Suno 采取订阅付费的模式,Suno 目前更像一个创作工具,参考工具类产品的订阅比例,简单假设目前 Suno 约 220 万的 MAU 有 10% 是付费用户,其中 8% 为 Pro Plan、2% 为 Premier Plan,Suno 的月收入大致估算为 250 万美金。创作生态的丰富,Suno 平台也有机会出现广告和内容订阅价值,为 UGC 提供收入渠道;或为音乐创作提供增值服务,比如提供一站式的音乐创作和分发解决方案。

国内公司:DeepMusic灵动音(清华音乐制作人),致力于通过AI词曲编录混技术,全方位降低音乐创作制作门槛并提升效率,为音乐行业提供新的产品体验和解决方案;音乐生成加轻量编辑工作站。

DeepMusic是一家基于人工智能技术的音乐创作服务商,该公司主要运用神经网络学习现存的音乐作品,并从中寻找规律,从而进行音乐创作,其创作的音乐作品可用于短视频配乐等方面。

但商业模式只是停留在Pro C层面。

AI4S

AI for Science(AI4S),是让人工智能利用自身强大的数据归纳和分析能力去学习科学规律和原理,得出模型,生成式的来解决实际的科研问题,辅助科学家在不同的假设条件下进行大量重复的验证和试错,加速科研探索的进程。

主要在生物结构预测;其余在化学、材料上,整体市场规模由于过于细分不会太大,也比较难判断项目,需要对其研发设计的工作流有相当程度的了解。

关注生成式的大模型在工业领域的扩展:例如工艺的生成等,不过基于设计产线等频率低,市场不会太大。颠覆掉原来研发工具例如CAD、Solidwork等,还是会在设计数据、工作流理解上以及设计工具生态上有不小的困难。

(三)生产控制类

MES、SCM

业务对应工业生产控制类服务软件-资产管理:ERPMRP、供应链管理:SRM、生产管理:MESAPS、物流管理:WMS、研发管理:PLM

图:工业生产场景工作流及对应软件

目前我国工业软件整体面临“管理软件强、工程软件弱,低端软件多、高端软件少”问题,研发设计类国产化替代空间较大。

MES:计划下达+生产调度。MES(制造执行系统)是从生产计划下达到生产调度、组织、执行、控制,直至生产出合格产品全过程的信息化管理系统。MES 主要集中在制造运营层,位于生产控制层和运营管理层之间,核心功能包括资源分配、车间排产、工序调度、过程管理等,扩展功能包括能源管理、质量管理、仓储管理等。

全球 MES 市场规模或在 1,420 亿元。据华经产业研究院,2022 年全球 MES 市场规模或达 1,420 亿元,同比增长 15.2%。2017~2022 年 CAGR 达 15.5%,2024 年市场规模或达1898.6 亿元。我国 MES 市场规模或达 57.2 亿元。据华经情报网,2022 年我国 MES 市场规模或达 57.2亿元,2020~2022 年 CAGR 达 13%。

MES 市场高度分散,参与厂商众多。MES 软件市场中的 SaaS 子市场,以及航空航天船舶、整车及汽车零部件、装备制造等六个细分行业 MES 解决方案市场空间及厂商份额都在市场中占有较大份额。各细分行业呈现出不同的特点,但与 MES 软件总市场相比,细分行业解决方案市场碎片化更加明显,仅有石化化工、钢铁及有色金属等行业保持较高的服务商集中度。

MES 国产替代空间较大,Top8 中本土厂商占到五席。2021 年我国 MES 市占率 Top8 分别为西门子、SAP、宝信软件、鼎捷软件、罗克韦尔、黑湖制造、新核云及中控技术,其中,海外大厂居于前两位,仍处于相对主导地位,本土厂商占到五席,加速国产替代势在必行。与国际大厂相比,我国本土厂商 MES 覆盖行业相对较少,未来或需在多行业多点发力推进自主可控进程。

竞争对手主要为传统MES厂商、涉及工业的大模型公司、初创AI工业软件公司

  • 传统厂商为:西门子、SAP、宝信软件、鼎捷软件、罗克韦尔、黑湖制造、新核云及中控技术等
  • 涉及工业的大模型公司:百度、华为等
  • 初创企业为:剑及智能和Evergine等

持续关注由LLM带来柔性生产的实现(不一定要软件、生产线、机器人都行),由规模经济生产转向范围经济范式(一条产线生产多种物品),由此提供低成本提供多元化定制化的产品,价值潜力大。

To C

日常Agent

对标大厂的Siri、小爱同学等等,通过agent来完成对软硬件的操作。GUI-图像用户交互转向LUI-语言用户交互,下方ai硬件会详细讲述,这里是软件。

硬件、互联网大厂和大模型公司的竞争流量的高地!不再详细讲述。

教育

多轮对话的LLM,必然也天然的适合教育场景。

目前教育市场分为:

1)基于录播课的异步学习公开资源和工具(如 Youtube 视频、google 翻译、慕课等免费录播课)

2)工具类服务,将学习中的某类需求或学习过程抽象为标准化产品,例如Chegg、Duolingo 等

3)真人老师的实时授课,包括线上、线下的大班课和1对1私教。(效果最好,国内知道200-300/小时,但AI是一个月)

AI的领域从错题解释扩展到了对话练习的role扮演:

工作流:特别是在语言学习上,依赖和人对话的训练,听说读写,都可以实现ai对人的替代,实现多场景人群的教育(k-12、海外工作、移民、旅游、兴趣等)。

市场规模:国内需要学习语言的人太多,TAM难以估算–2亿人,以Duolingo、Speak的700一年标准计算,就是1400亿元的大市场

壁垒:课程设计、对话等教育数据、微调技术

龙头:Duolingo和Speak

国外的语言教育的AI应用非常火,为出国旅游和移民群体提供多轮对话场景,但是这种教学方式,对于国内水土不服,国内是应试教育为主。

国内新AI教育场景会更适合学龄前儿童的教育场景(新的交互寓教于乐的方法-具体看ai硬件),短期内小学及以上场景教育国内格局不会变动,用AI也只是,增强体验和溢价。

游戏

目前游戏主流是聊天陪伴类(具有情感的人物切入,完成一定的情绪价值提供任务)

市场:模型质量高且完全虚拟的场景,并不追求准确!但是是为行业切入的入口,寻求正确的解决方案。

国外:Character.ai,Replika、ChAI

国内:LynkSoulAI心影随形,Glow,星野(国内外基本上都是搞擦边起家)

Character.AI

产品:Character.AI 搭建了用户创建 AI 角色并与之聊天的平台及社区。AI 角色有官方创建、社区成员 UGC 两大类。用户自行训练的、深度个性化的 AI 聊天机器人能够与人们建立真正的关系,拥有更大的想象空间和更多的使用场景。

客户:粘性强,所有用户的平均活跃时长为 24 分钟/天,18岁至24岁的用户,他们贡献了约60%的网站流量,9 月的总 DAU 约为 350 万,MAU 约为 1400 万。

通过幻想满足客户的情感诉求,45% 的用户主要和恋爱、浪漫类角色交流,22% 和游戏角色交流,17% 的用户和安慰、心理疗愈类角色交流。

盈利模式:每月收费9.99美元–可以与多个AI互动,玩场景游戏。

技术:底层模型以包含解码器的神经语言模型(Neural language models)为基础,类似 GPT 和 LaMDA,对话效果质量和推理成本好于GPT3。技术不足:记忆和幻觉,但不需要智力水平极高的模型来做情感,角色是否能表达连贯的情感可能也不像人们想象的那么重要。

团队:创始人 Noam Shazeer 是前 Google 首席软件工程师,Transformer 作者之一,并开创了大规模预训练(Large-scale pretraining);联合创始人 Daniel de Freitas 领导了 Meena 和 LaMDA 的开发。(自研能力)

战略方向总结:正与谷歌讨论融资,准备训练其大模型,深度绑定的合作伙伴,承担模型训练成本;防守壁垒大,增长速度快,需要正确选择攻击方向。

优势–1 情感交互,获得极高粘性流量且转换成本大,从而可以切入相关领域;2 全栈能力壁垒-且低训练和推理成本;3 高质量数据-模型的飞轮效应。

未来突破点:

1 需要考虑聊天机器人无需用户点击将挑战优质内容-点击-广告 内容平台商业模式飞轮,如何加入广告!

2 技术上导致的使用体验有限:有限的上下文容量,幻觉,在逻辑、规划、使用仍然有不准确性。最主要的是与人类的记忆不对齐,聊天容易丢失上下文,没有对的记忆,如何培养感情?

3 站住虚拟聊天市场,提供更沉浸式虚拟体验-UI、图片、语音等,把握互联网。

成本:自研模型(模型更加精致),每个 Query 的成本是 ChatGPT 的 1/3,训练仅花费60万美元。同时通过积累用户数据形成飞轮,能够不断提升用户的个性化体验。

整体竞争非常激烈,国内外要有20多家公司在做,如何针对需求,提高粘性是主要的指标。

虚拟聊天机器人代表公司包括 Replika、ChAI;国内类似创业企业有 Glow、聆心智能、彩云小梦;垂直领域也存在业务交叉,如心理疗愈机器人 Woebot;游戏领域的 NPC 在线交互平台 AI Dungeon,AI 角色驱动的元宇宙平台 Inworld.AI。

以及最近在测试阶段的自然选择AI-针对恋爱场景设计的“超级对齐”。

Character.AI在对话质量上完胜一筹,推理成本也更低,其他公司均采用微调的大模型。

模型本身技术壁垒跨越还需要时间。

检索类

使用大模型进行网页搜索。国外:Pelexity、大模型和大厂等

短期收现金可以,这个地方是搜索引擎和大模型公司会做的事情。重塑搜索引擎的工作流,关键是通过更好的生成来提升用户的搜索体验,并引入广告等创新商业模式。

九、应用层——硬件AI应用硬件

综述

ChatGPT 推出以后,AI 硬件就成为了热门赛道【62】。

AI Pin、Rabbit R1、以及 Meta 的雷朋眼镜,还有豆包推出的智能耳机,有成功的,也有不少失败的。

在大模型热潮持续一年之后,或许可以看一下,AI 硬件未来的机会到底在哪里。

硬件虽是中国的主场,但仍然软件才是核心。

回顾移动互联网时代,4G/5G的成熟在底层技术架构上为短视频等高信息密度应用的新形态打下了基础,而iPhone开创的触控交互体验真正为应用的繁荣打开了大门。

苹果也因为在交互模式上的创新获得了移动互联网时代最大的红利,时至今日依然可以向软件生态征收“苹果税”。强如Meta,几乎盘踞了海外C端流量和广告收入,也因为缺乏硬件设备而如鲠在喉。Zuckerberg近年来在Reality Labs上的激进投入,狂烧500亿美金就是为了占据下一个时代的硬件入口/计算中心。

在当前格局下, Google ,Meta,苹果和字节跳动等移动互联网巨头从硬件到软件牢牢把持了用户生态,并基于计算中心/物理空间、流量/网络效应、时间/用户习惯这几个核心要素形成了深厚的壁垒。如果这个局面不被打破,AI大模型技术将停留在更先进的生产工具(”enabler”)定位,从结果上丰富了移动互联网生态的内容供给和用户体验,“为他人做嫁衣”。科技巨头依然是最大受益者,过去5年强者恒强的局面将会延续。

因此针对AI大模型重新设计的硬件和交互将是GenAI时代挑战者必须攻克的堡垒。这也是为什么Sam Altman很早就联系传奇设计师Jony Ive开始在硬件方向进行探索。

软件带来的变量主要体现在以下两个方面

AI硬件的三层架构

在原生多模态AI大模型出现后,结合硬件会出现新的信息交互和处理模式,大体上可以分为三个层次:

  1. 多模态信号输入 -> 传感器
  2. 模型处理和计算 -> 计算中心
  3. 交互方式 -> UIUX设计

在这三层架构中,计算中心(如手机)将为AI大模型提供端侧和云端运行能力,而AI大模型技术的能力进步驱动整个闭环用户体验的提升,具体表现为让硬件在原有功能的基础上拓展能力边界,在第三层输出更好的效果。反过来中间层需要硬件作为传感器获得更多context来更好地输出模型运算结果。

LUI是否能成为下一代交互方式

「The UI of AGI」是AI硬件从业者需要思考的圣杯问题。

“套壳”其实就是一种最直接的尝试,Arc浏览器,Perplexity,Monica.im都在各个方向积极探索。但LUI(Language User Interface)或者基于语音的交互方式(Voice-first UI)是否能取代触控时代主流的GUI(Graphical User Interface)是在行业内被讨论最多的问题。

我认为GPT4o为代表的低延迟、多情感、高智能原生多模态模型虽然为LUI的落地提供了技术支持,并在某些特定场景有较好的体验,但现在看起来LUI并不能独立成为最主流的交互方式。我认为思考这个问题的关键因素是I/O密度。I即input,指在人机交互中用户向系统输入信息。O即output,指系统向用户反馈信息。

在I端,LUI能很好地解决当下信息输入门槛过高的问题,阵列麦克风技术的发展配合AI大模型的多语言识别和总结能力,让用户在I端更加轻松自如(flowvoice.ai等公司已经有产品落地)。

但在O端,LUI的信息密度有很大的局限,特别是与GUI相比。Vela在「Voice-first,闭关做一款语音产品的思考」中做了详细的解析。

声音在交互上的局限性主要表现在:

1. 输出线性

很难实现多线程多任务操作

用户很难通过前进倒退精准定位碎片化信息点

2. 记不住

LUI是线性的而思维是树/图结构,语音无法单独呈现人脑所需要的信息组织形式

结果需要简单明确,最好用最小来回对话解决

在音频自身限制和AI大模型现阶段长程推理能力缺失的情况下,LUI目前只适合做目标明确的单点任务,且输出结果信息密度不宜过高。从数据上看,天猫精灵使用最多的场景是询问天气和设定闹钟。

因此,LUI配合GUI结合使用我认为是能将I/O密度最大化的交互体验。

与大厂的竞争

手机短期内依然是生态位核心。

手机在AI硬件三层架构可以在一定程度上覆盖所有三个维度,并占据计算中心的核心价值位。现阶段对其他硬件设备的主要机会在于成为手机的传感器,收集手机目前尚不能覆盖的细分场景信息 – 主要是息屏、用户双手被占用无法拿起手机、无法快速开启手机内置传感器(为描述方便,下文统称“手机空白场景”)- 并尝试探索新的交互体验。

对AI硬件团队来说,市场足够大的品类依次是耳机、智能手表、眼镜和配饰类设备。

整个智能穿戴设备生态都脱离不了一个主题:Survival is the name of the game

手机厂商因为占住了核心生态位,穿戴设备的新机会都在其射程之内,我们讨论的所有穿戴设备品类都逃脱不了激烈的竞争。对新玩家来说有两种现实的选择:

1) 在市场足够大的赛道,争取成为小米华为苹果身后的第三/四名;

2)在大厂看不上,小公司搞不定的赛道做差异化竞争。

第一种路线考验的是团队的执行力,需要面对的竞争包括:

1 硬件玩家

第一梯队:华为,小米,苹果;优势无需赘述,且已经有手机、耳机、眼镜等成熟产品线,用户基数大

第二梯队:Oppo/Vivo,大疆,安克等;有成熟的供应链资源和分销渠道,成熟业务可以产生稳定现金流

第三梯队:科大讯飞、韶音、雷鸟、Rokid等;在垂类中有领先市场份额

2 互联网公司:字节跳动、阿里、腾讯等;拥有大量承接UIUX的场景

竞争确实激烈,但也并不是全无机会。AI硬件时代的一个重要变量是对团队的复合型要求:即软硬件结合的能力。正如文初提到的,这一轮AI硬件本质上是软件驱动的,与硬件龙头竞争,新团队需要具备更强的软件能力,努力将产品向AI硬件三层架构的后两层做价值延伸。而互联网公司,强如字节跳动和meta都将一起竞争。无论怎样,资本价值都比较大。

当然,也可以选择第二条路线。这就要求团队对消费者需求有深度的洞察和提前的预判。一个可以参考的思路是将软件功能硬件化。核心是找到一个软件端有需求的场景,并通过极简的设计,将多步操作压缩到一步。Plaud就是看到Live Transcribe这个app巨大的用户基础,将录音这个本来可以在app端完成的场景硬件化。将原本需要掏出手机,解锁,找到app,打开app,开启录音的一系列操作融合到简单的一键到位。

目前主流的AI硬件有:智能眼镜、智能陪伴和录音

智能眼镜

Rayban Meta

近期Rayban Meta意外大卖,增强了Zuckerberg对智能眼镜这个形态的信心。小扎对此如此笃定不无道理,因为眼镜作为传感器定位的智能穿戴设备确实有得天独厚的优势。

一个具有对话功能,识别物体,录像的眼镜。通过“hey,meta唤醒”。

信息密度最大:眼睛是人类的窗户,因为视觉是人类获取信息密度最大的渠道;同理眼镜同样可以便捷地获取视觉和音频信息;目前手机做不到。

第一视角POV:“see what you see” + “hear what your hear”,POV视角不但可以提供了模型最需要的用户视角的context;解放双手的设定也适配手机空白场景。

在现有形态上创新空间相对最大:相比耳机和智能手表(叠加AI功能对本身形态改变不大),带摄像头的智能眼镜相对是新的形态,为新玩家提供空间。

此外,摄像眼镜在传播上也有天生的优势,从目前用户的行为来看,摄影摄像是主要的使用场景。Rayban Meta在内容创作者和大V中非常受欢迎,他们创作的POV视角的内容在社交媒体传播容易形成潮流效应,从而形成自传播,摄像头。

在Rayban Meta取得成功后,海外大厂已经形成共识:Google决定与硬件合作伙伴三星探索类似形态,落地在Google I/O上惊鸿一瞥的Project Astra,苹果也开始重新审视自己的Vision产品线。

智能眼镜形态的主要划分和优劣势

智能眼镜根据功能组合和视场角(“FOV”)大致可以分为以下几类:

1. 不带显示的智能眼镜(已经能将重量控制在50g以内,符合轻量化要求)

音频眼镜:因为前文分析LUI的局限性,在用户端提供的功能非常有限

摄像+音频眼镜:Rayban Meta取得阶段性成功,价位$300

2. 带显示的智能眼镜(能控制在100g以内,但在轻量化上还有提升空间)

40-50度FOV(雷鸟X2):轻显示,价位$500-1,000

50-70度FOV(Orion):现实增强,有原型机,无法量产

100度FOV:接近VR视觉体验,但采用OST方案;在目前技术边界之外

不带显示的智能眼镜在轻量化和成本控制上已经相对成熟。但目前只覆盖AI硬件三层架构的第一层,并通过LUI提供有限的交互。纯音频眼镜收集信号密度有限,同时受制于系统权限,产品功能单薄,且与TWS耳机重合度高。另外电子消费品追求标准化的模式,并不能满足消费者对眼镜个性化多SKU的需求。从华为和小米的实际销量上看,只搭载音频带来的功能增强并没有提供足够强的说服力。

而带有摄像头的智能眼镜,在保留音频功能的同时,通过与手机配合使用,能解锁更多延伸场景,提供较好的基础体验。

在带显示方案的眼镜产品中,现有的成熟量产方案只能提供40-50度FOV的轻显示,定位鸡肋。一方面需要搭载光机带来额外的重量和成本,另一方面视场角有限,实际上只起到了通知中心(push center)和widget看板的功能。运用新一代技术的Even Realities G1等产品,虽然在轻量化上更进一步,但这类产品的落地场景目前集中于:实时翻译、导航、提词器等场景。这些场景中确实有不错的体验,但可以试想一下普通人使用上述三个场景的频次。

AI功能目前也仅限基于识图的任务延伸(类似Apple 16展示的功能)。除此之外,不少人幻想的使用场景,在OST方案中都在目前的技术边界之外。Orion也只能勉强提供几个鸡肋的场景。在某种程度上智能眼镜除摄影摄像和音频之外的功能都可以被智能手表覆盖。

选择比努力重要。对试错成本更高的硬件创业公司来说更是如此,虽然上海显耀等Micro LED公司近年取得一些技术突破,但显示方案受制于FOV,即使落地也无法独立支撑太多的应用场景,现在看来并不是最优的技术路线。

而Rayban Meta则为智能眼镜指明了方向,短期内取代不了手机,但眼镜保有量大,若出现类似汽车电动化的眼镜智能化趋势,市场体量也相当可观。但目前的主要缺陷是因为轻量化无法搭载高容量电池的情况下,如何控制芯片功耗从而实现更长续航。

期待更多爆款的功能,提高Pro C的粘性。

智能陪伴

AI 玩具

玩具是搭载LUI的理想硬件载体。一方面,小朋友需要的信息密度和精度要求相对不高,且语音的流式交互也可以被硬件一部分承载。另一方面,相比于纯软件的形态,通过硬件具象化也更方便用户代入情感寄托,提供更高的情绪价值。这个品类也符合“熟悉的陌生感”逻辑,用户教育门槛低,基本上手即可使用。

需要注意的是AI教育的使用者和购买决策者分离,团队需要在软件后台针对家长的诉求(主要是安全控制和成长记录)有相对应的设计。

2024年OpenAI引入了Coursera前高管并重点发展AI教育,国内的学而思、小猿学练都陆续推出了AI在教育领域的产品,主要是面向课内应试教育场景。不同于AI玩具,学伴切入的是更广义、更刚需的教育成长,关键还是得对孩子成长和教育文化有深度理解的,做出和孩子成长高粘性的产品。

该行业出色的公司众多,我们以灵宇宙为例:

凭借卓越的软件和算法平台能力,以及对大模型计算的深刻理解,灵宇宙打造了一系列AI-Agent 终端产品,通过学伴进入家庭,未来在深刻理解家庭场景和空间数据的基础上,将拓展至4D空间交互的OS层领域,首款产品即将在2025年CES大会产品面向全球发布。

创始人顾嘉唯,前百度人工智能研究院IDL人机交互负责人、百度少帅、微软研究院HCI科学家,MIT TR35(2016年唯一入选企业家),曾是物灵科技的创始人兼CEO (儿童绘本阅读机器人Luka卢卡全球销量近千万台)。联合创始人徐持衡是商汤科技 001号联合创始人兼 CTO。

产品经验丰富:团队深耕硬件赛道超十年,历史上经手数十款AI硬件产品,包括曾登上时代杂志封面的家用机器人 Jibo、百度小度机器人、百度无人车、随身硬件百度BaiduEye、度秘等,无论在大厂还是创业阶段产品力都已验证,产品定义经验丰富。核心团队均为从0到1厮杀的胜利者,做过的互联网及AI产品累计覆盖9亿用户。团队对儿童教育场景的深度理解,凭借产品数百万量级销量的成功经验,在产品逻辑上具有巨大的优势。

技术实力雄厚:来自微软、谷歌、百度、商汤以及国际知名学者的核心技术团队,持续在交互智能智能领域深耕,将通过自有产品的数据闭环,做4D空间智能OS。获得来自商汤等八家战略或市场化机构的投资、以及国家级的上海浦江实验室和鹏城实验室的算力及底层基础模型技术支持,在软硬件技术方面均突出。

录音

PLAUD NOTE是一款由GPT驱动的AI智能录音设备,提供录音、语音转文字和内容总结的一站式解决方案,凭借其精准的PMF和技术优势,不到1年时间已在全球范围内积累了几十万的用户数量,在全球所有AI硬件中名列前茅,为中国出海AI硬件第一。未来,录音这个场景,科大讯飞也会去做。

先看看Plaud长啥样:

卡片式,差不多身份证大小,挺薄(0.29cm),可以磁吸在手机机身背后。

吸在手机上后,最重要的功能就是录音。

官方资料显示,Plaud电池容量为400mAh,满电Plaud可以连续录音30个小时,可录制和存储约480个小时的音频资料。

Plaud身上有3个麦克风,其中1个是震动传导传感器(VCS),另外2个则是用来采集外部环境音的空气传导传感器。

震动传导传感器支持Plaud的通话录音模式,利用固体传导振动,进行录音。

根本不需要系统内安装新App,或者获取授权。

非常外挂式地解决了“iPhone手机通话不能录音”的情况。但是现在可以了,但会通知对方,现在正在录音;但是微信等还是不可以。是一个非常好的统一录音硬件。

加上AI的转录和云端,直接成了爆品。但未来会面临大厂例如科大讯飞的竞争。

具身智能

核心:只有软件的性能完善,才会带来本体的放量和标准,才会带来上游电机、材料等标准。

本体

对于硬件厂商的投资逻辑主要为:

1 基本的收入支撑:之前有四足等相关机器人的业务量

2 人形机器人的成本控制:自研电机、结构设计等等

3 人形机器人可实现的运动效果:折叠、翻滚、走路等

4 软件:开发者友好的开发生态;成熟的电机以及运控集成算法

该行业出色的公司众多,以云深处为例:

2024年11月,云深处推出的“山猫”四足机器人,收获了国内外不少关注和认可,不仅在B站、视频号、Youtube等平台全网刷爆、新华每日电讯官方账号数万人点赞评论、Figure AI创始人也在X平台转发并点赞了这条视频。

在惊艳的产品能力背后,我们了解到云深处有着深厚的软硬件技术储备:

硬件方面:在四足领域目前已推出绝影X30、Lite3等平台、在轮足领域已推出“山猫”机器人平台、在人形机器人领域今年下半年已推出DR01平台、在零部件方面已推出J系列一体化关节产品,构筑了丰富、高性能的产品矩阵。

软件方面:云深处创始团队在人形机器人运动控制、强化学习RL等技术上是国内最早一批研究者,2019年起便与国外学者合作开展RL相关研究,2020年研究成果已登上机器人顶刊《Science Robotics》的封面,长期的研发积累是云深处能够在四足、人形领域不断突破产品力极限的关键。

大脑

目前物理大模型的属性主要分为:

LLM/VLM模型驱动和扩散模型为主要驱动的模型,两者可以统一

原生 VS 组装式开源微调

分层化端到端 VS 整体端到端

除此之外,学习范式、数据和训练环境也是次要需考虑的方向重点。

(3)学习范式

模仿学习+强化学习 VS 监督/无监督学习+强化学习

(4)数据

就像在之前具身部分解释的一样,快速收敛模型和算法是主要目前的竞争,如何Scale out可以在各个模型选择上看出一二,无论怎样就像GPT一样,在大规模算力和数据输入前,模型需要几个基本特质:

相信同时具有大模型训练和商业化能力的团队。

1 原生模型,自研设计并训练,相比于调用别人LLM或者VLM模型微调,可以底层优化算法,进行改动。

2 最大化容纳数据的种类,来弥补机器人数据的不足。

3 极度精简的模型结构,减少数据压缩的损失。

4 低成本的学习范式:无监督学习最优,模仿和强化都需要大量数据和仿真(小脑路径不在此范围)。

最近优秀的大脑公司众多,这里我们以智澄AI为例:

颠覆式AI原生机器人技术:完全自研大小脑融合模型,区别于任何一家大脑公司的架构;空间感知,物理世界理解推理和执行all in端到端具身智能大模型的神经网络:鲁棒性高,泛化性强,GPT时刻前夕-展现出的强大的可Scale out和Zero-shot能力。

领先的智能工程化能力:区别于前沿实验室的组装式开源大模型,智澄AI在前沿技术融合应用、异构数据搭建、空间感知、简洁模型架构、安全可靠性等方面拥有多项独到模块创新,能够更低成本、更高效率实现Best Practice学习范式的收敛。

硬软件快速迭代能力:2024年6-8月相继完成产品原型TR1、TR2,人形本体将在2025年初下线,已有数家场景客户合作方,伴随技术研发产品逐步落地。

多位国际AI大厂资深科学家及高管领衔:平均拥有20年AI经验积累,CEO曾任Meta首席工程负责人,在Meta对于感知世界和物理世界模型有最新的认识;联创包括Meta首席AI研究科学家和微软大中华区CTO,Meta、亚马逊、蚂蚁、华为资深AI专家及海外顶级高校机器人、AI大模型背景人才梯队。

产业、政府、高校顶级合作与资源:已获得杭州市政府、产业方在资金、算力方面大力支持,合作伙伴包括华为、菜鸟、欧琳、清华、浙大、北大、哈佛、斯坦福等顶级高校。

参考资料

再次感谢各位的知识分享,在此之上我们做了更进一步的研究,并将之“开源”!

【1】来源:知乎,作者:瞻云,回答问题:大脑为什么自己不明白自己的工作机理呢?链接:https://www.zhihu.com/question/490949334/answer/2161395464

【2】来源:知乎,作者:bird,文章:人脑工作机制分析和猜想(01):关于人脑——脑的演变过程及当前的系统架构,链接:https://zhuanlan.zhihu.com/p/414408970

【3】来源:知乎,作者:花卷神经科学,回答问题:脑科学进展为何如此缓慢?链接:https://www.zhihu.com/question/34936606/answer/3300145691

【4】来源:知乎,作者:bird,回答问题:脑科学进展为何如此缓慢?链接:https://www.zhihu.com/question/34936606/answer/3300145691

【5】来源:知乎,作者:神经美学 茂森,回答问题:大脑神经元的的建立过程是怎样的?链接:https://www.zhihu.com/question/268720152/answer/3546965051

【6】来源:知乎,作者:一起读PCB,回答问题:神经元的工作原理是怎样的?链接:https://www.zhihu.com/question/408206230/answer/3426676360

【7】来源:知乎,作者:Liang Shi,回答问题:神经细胞有哪些细胞种类&各种类的功能分别有哪些?链接:https://www.zhihu.com/question/457254607/answer/1921579805

【8】来源:知乎,作者:Liang Shi,回答问题:抑制神经元和兴奋神经元是怎么区别的,或者说抑制神经元产生抑制递质,兴奋神经元产生兴奋递质?链接:https://www.zhihu.com/question/392758414/answer/1202650268

【9】来源:知乎,作者:赛壳学习笔记,文章:神经元的工作原理——电信号和化学信号的紧密合作,链接:https://zhuanlan.zhihu.com/p/361601594

【10】来源:知乎,作者:东单情感,回答问题:神经元的工作原理是怎样的?链接:https://www.zhihu.com/question/408206230/answer/1614246705

【11】“Architectures of neuronal circuits”,Liqun Luo,Science,3 Sep 2021, Vol 373,  Issue 6559,DOI: 10.1126/science.abg7285

【12】来源:知乎,作者:林文丰 Jason,文章:认知神经科学 第三版,链接:https://zhuanlan.zhihu.com/p/709723778

【13】来源:知乎,作者:呸PER无一郎,回答问题:人的大脑是如何识别某一物体并检测到运动的?链接:https://www.zhihu.com/question/26430414/answer/3115980831

【14】来源:知乎,作者:赵思家,回答问题:注意力的认知神经机制是什么?链接:https://www.zhihu.com/question/33183603/answer/71783580

【15】来源:知乎,作者:OwlLite,回答问题:人类是通过语言介质进行思考的吗?链接:https://www.zhihu.com/question/483263643/answer/2163239073

【16】来源:科技日报,文章:识别情绪的大脑回路发现,链接:https://www.hfnl.ustc.edu.cn/detail?id=22115

【17】来源:知乎,作者:林文丰 Jason,文章:《智能简史:进化、人工智能和造就我们大脑的五大突破》,链接:https://zhuanlan.zhihu.com/p/714025058

【18】来源:知乎,作者:蔡叫兽,回答问题:如何看待饶毅的「人工智能还是伪智能」命题?链接:https://www.zhihu.com/question/27716888/answer/37866993

【19】来源:知乎,作者:周鹏程,文章:一场twitter争论:人工智能是否需要神经科学,链接:https://zhuanlan.zhihu.com/p/576570463

【20】来源:知乎,作者:泳鱼,文章:一文概览人工智能(AI)发展历程,链接:https://zhuanlan.zhihu.com/p/375549477

【21】来源:知乎,作者:ZOMI酱,文章:【AI系统】AI 发展驱动力,链接:https://zhuanlan.zhihu.com/p/914397847

【22】来源:知乎,作者:机器之心,文章:一文简述深度学习优化方法——梯度下降,链接:https://zhuanlan.zhihu.com/p/39842768

【23】来源:知乎,作者:我勒个矗,文章:模仿学习(Imitation Learning)介绍,链接:https://zhuanlan.zhihu.com/p/25688750

【24】来源:知乎,作者:泳鱼,文章:通俗讲解强化学习!,链接:https://zhuanlan.zhihu.com/p/459993357

【25】来源:知乎,作者:IT胖熊猫,文章:AI知识体系概述,链接:https://zhuanlan.zhihu.com/p/706229733

【26】来源:知乎,作者:DoubleV,文章:详解深度学习中的梯度消失、爆炸原因及其解决方法,链接:https://zhuanlan.zhihu.com/p/33006526

【27】来源:知乎,作者:普适极客,回答问题:怎么形象理解embedding这个概念?链接:https://www.zhihu.com/question/38002635/answer/1364549217

【28】来源:知乎,作者:猛猿,回答问题:如何理解 Transformer 论文中的 positional encoding,和三角函数有什么关系?链接:https://www.zhihu.com/question/347678607/answer/2301693596

【29】来源:知乎,作者:北方的郎,回答问题:对人工智能毫无了解,导师让看transformer和BERT的两篇论文。好几天了,基本没看懂,何解?链接:https://www.zhihu.com/question/568969384/answer/3390204563

【30】来源:知乎,作者:猛猿,回答问题:如何理解attention中的Q,K,V?链接:https://www.zhihu.com/question/298810062/answer/2320779536

【31】来源:知乎,作者:书中有李,文章:GPT 理解:关于 transform attention 中的 QKV,链接:https://zhuanlan.zhihu.com/p/636889198

【32】来源:知乎,作者:猛猿,文章:Transformer学习笔记二:Self-Attention(自注意力机制),链接:https://zhuanlan.zhihu.com/p/455399791

【33】来源:知乎,作者:佳人李大花,回答问题:为什么现在的LLM都是Decoder only的架构?链接:https://www.zhihu.com/question/588325646/answer/3383505083

【34】“Scaling Laws for Neural Language Models”,Jared Kaplan,arXiv,23 Jan 2020,cited as arXiv:2001.08361

【35】来源:知乎,作者:玖歌,文章:LLM Scaling Laws,链接:https://zhuanlan.zhihu.com/p/694664603

【36】来源:知乎,作者:程序猿阿三,回答问题:能大致讲一下ChatGPT的原理吗?链接:https://www.zhihu.com/question/598243591/answer/3446096328

【37】来源:知乎,作者:程序锅,文章:OpenAI首次揭秘GPT训练细节,链接:https://zhuanlan.zhihu.com/p/633202668

【38】来源:知乎,作者:猛猿,回答问题:谁能讲解下扩散模型中Unet的注意力机制?链接:https://www.zhihu.com/question/597701864/answer/3080511687

【39】白辰甲,许华哲,李学龙;《大模型驱动的具身智能: 发展与挑战》;中国科学 : 信息科学 2024 年 第 54 卷 第 9 期: 2035–2082

【40】来源:知乎,作者:lijun,文章:MPC(模型预测控制) 原理及理论推导,链接:https://zhuanlan.zhihu.com/p/698526965

【41】来源:知乎,作者:王建明,文章:对话罗剑岚:强化学习+真机操作可以很Work,链接:https://zhuanlan.zhihu.com/p/6329634561

【42】来源:知乎,作者:高乐,文章:基于扩散基础模型RDT(Robotics Diffusion Transformer)的人形机器人双臂操作,链接:https://zhuanlan.zhihu.com/p/2020035331

【43】来源:知乎,作者:善与净,文章:大模型评测的几个榜单,链接:https://zhuanlan.zhihu.com/p/713849119

【44】来源:知乎,作者:爱生活Ai工作,文章:全球AI大比拼!GPT-4o稳居第一,阿里Qwen2为何跌至第八?,链接:https://zhuanlan.zhihu.com/p/703544557

【45】来源:海外独角兽公众号,作者:Cage,文章:LLM的范式转移:RL带来新的 Scaling Law,链接:https://mp.weixin.qq.com/s/JPfgF6UtgIYwWXwNQHOoqQ

【46】来源:知乎,作者:白老师AI学堂,文章:预测即压缩, 压缩即智能?——从信息论视角看大语言模型的本质与未来,链接:https://zhuanlan.zhihu.com/p/702188556

【47】来源:知乎,作者:DeepTech深科技,文章:争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?,链接:https://zhuanlan.zhihu.com/p/636522807

【48】来源:知乎,作者:安晓心,回答问题:如何评价Yann LeCun的 世界模型?链接:https://www.zhihu.com/question/632009707/answer/3422307013

【49】智算未来系列十:智算中心加码,国产算力提速;中金点睛,链接:https://mp.weixin.qq.com/s/sfRIUaMY0iua0ediPzUppQ

【50】AI浪潮之巅系列:云端算力芯片,科技石油;中金点睛,链接:https://mp.weixin.qq.com/s/RHgYjrhvqRoqVqLoUPvVzg

【51】ChatGPT启新章,AIGC引领云硬件新时代;中金点睛,链接:https://mp.weixin.qq.com/s/V0Jch3MS-ch4azwMwIXDLQ

【52】AI浪潮之巅系列:服务器,算力发动机;中金点睛,链接:https://mp.weixin.qq.com/s/W2AwPTsOfvsGOeLhCYo7Nw

【53】智算未来系列七:国产云端AI芯片破局,路在何方?;中金点睛,链接:https://mp.weixin.qq.com/s/ptGlPPdIzfGzw4X7SVqRiw

【54】来源:知乎,作者:Na Liu,文章:科技演变的规律和投资方法论小感,链接:https://zhuanlan.zhihu.com/p/445923243

【55】来源:海外独角兽公众号,作者:Cage,文章:Anyscale:Databricks 创始人再下场,ML 领域最值得期待的公司?,链接:https://mp.weixin.qq.com/s/lKaEJsRkKnRkdDE9C2uOiQ

【56】来源:海外独角兽公众号,作者:Cage,文章:拾象AI投资图谱:大浪已至,展望Infra百亿美金公司机遇,链接:https://mp.weixin.qq.com/s/uBIpXFloAoda5lrquzyvDg

【57】来源:海外独角兽公众号,作者:haina,文章:Sales Agent 接管企业销售,11x.ai 是企业数字员工的雏形吗?,链接:https://mp.weixin.qq.com/s/IuJlFuZMNBaKQne6Kn2r5Q

【58】来源:海外独角兽公众号,作者:kefei,文章:Kore.ai:LLM能否为AI客服带来新一轮洗牌与机遇,链接:https://mp.weixin.qq.com/s/IsS-xeh63ul82yw14EZOSA

【59】来源:海外独角兽公众号,作者:kefei,文章:Glean:大模型时代的企业内入口级产品,最了解员工的“AI同事”,链接:https://mp.weixin.qq.com/s/ibqKqUJJ1uZ0rAHx34yqGQ

【60】来源:海外独角兽公众号,作者:程天一,文章:AI重塑法律行业:为80%的工作带来10x提升,链接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg

【61】来源:海外独角兽公众号,作者:程天一,文章:Suno AI:音乐生成迎来MidJourney时刻,Suno能否挑战Spotify?,链接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg

【62】来源: 鹿其鹿粦Chilling公众号,作者:Aaron Qian,文章:EP.3 | 一年之后:AI大模型航海我们身在何处 将驶向何方 (II) – 硬件篇,链接:https://mp.weixin.qq.com/s/9ra-9iQ_HjAfsethunVOrA

2024 大模型年度五问:等不来GPT 5怎么过?

aigc阅读(23)

2024这一年中,我们见证了AI行业诸多令人兴奋,却又有些坎坷的进步。

从跳票一年终亮相的Sora,到o3掀开推理侧大发展的序幕,以及DeepSeek V3带来的惊喜与争议,这一切的繁荣,似乎让人觉得AGI似乎就在不远的前方。

然而,另一方面,大模型商业化、落地的困境,却仍旧没有得到解决,众人期待中的SuperApp,也还是没有出现。

与此同时,近乎耗尽的训练数据,以及Scaling Law 即将“撞墙”的传闻,也不由让人对AI的远大前景产生了一丝隐忧。

今天,在2024行将结束之际,就让我们一一盘点今年AI行业的几大主要进展及趋势,并通过5个核心问题,探寻2025年大模型走向何方?

一、要不要做预训练,Scaling Law是否还有效?

当有人质疑本次的AI革命,是否会重蹈前两次革命失败的覆辙时,Scaling Law总能让人拾起信心。

因为它让当前的AI,找到了一种基于“数据-规模-能力”的正向循环系统。这也是AI实现持续进化的根本所在。

然而,这个让奇迹不断涌现的“黄金定律”,今年似乎不再那么灵了。

今年11月,The Information的一份独家爆料声称,GPT系列模型改进缓慢,下一代旗舰模型Orion并不像前代实现巨大的飞跃。

这篇文章直击OpenAI痛点,提出Scaling Law逐渐放缓,原因之一是高质量文本数据越来越少。

此文一出,AI圈立刻炸了锅,众人对LLM能否通向AGI的质疑声此起彼伏。

然而,没过多久,OpenAI研究员Adam称,Scaling刚刚找到了另一套「齿轮」!o1系列模型scaling的两个重要维度——训练时间和测试(推理)时间。

一时间,Scaling的定义似乎悄然发生了改变,在这个新的维度,模型性能不再仅仅受限于预训练阶段,现在可以通过增加推理计算资源来提升模型表现。

于是,以o1为代表的,一批试着以“深度推理”改变Scaling范式的大模型纷纷涌现了出来。

例如,DeepSeek (深度求索)推出了 R1-Lite ;Kimi(月之暗面)推出了主打数学能力的推理能力强化模型 k0-math;阿里先后推出 Marco-o1、QwQ 两款推理模型;昆仑万维推出了 Skywork o1 。

在具备深度推理能力后,大模型的自我反思、学习能力提升明显。

在OpenAI和智谱给出的“通往AGI五阶段”的定义中,二者均将多模态和大语言模型能力归在L1阶段,也就是最为基础的能力配备。而o1的出现,则标志着大模型能力突破到了L2阶段。

国产选手里,确实有不少深度推理类大模型,在推理链上做了不少功夫,例如R1-Lite这类大模型,在处理复杂问题时,思路展示得特别详细清晰。

差距最明显的地方,说白了就是”深度”和”连贯性”。

拿数学题来说,DeepSeek-R1-Lite、K0-math这类模型,面对长链路推理时,模型思维链有时会失败,会承认超出能力范围,但也会陷入死循环状态。相较之下,o1却能一口气推导出8-10个步骤,而且每步都严丝合缝。

12天春晚发布的o3,进化幅度更是夸张。从 0% 到o1的 5%,整整花了五年的时间;从o1的 5% 到o3的 87.5%,只花了半年。

GPT 5迟迟不能出现的情况下,大模型在推理侧疯狂生长。

二、Sora不如预期,现实还能存在多久?

如果要为2024年的大模型,找一个最耀眼的类别,那这样的桂冠,或许非视频生成类大模型莫属。

在2024年2月初,OpenAI推出的文生视频模型Sora,以惊艳的表现震撼了全球科技圈。凭借通过文字生成高清、流畅视频的能力,AI让人们看到了“一键生成万千世界”的可能。

当时业内甚至有人认为,其对现实物理规律的模拟能力,是打造“世界模型”,并让人类最终通往AGI的途径之一。

“Sora类”模型突破的背后,则是DiT(Diffusion Transformer)架构的创新。

DiT架构赋予Sora等视频生成模型前所未有的时间—空间建模能力,通过将扩散模型的去噪机制与Transformer的动态特性结合,提升了视频生成的连贯性和灵活性,使其能够高效生成长时序、高分辨率且视觉一致的视频内容。

从字节跳动的“即梦”到快手的“可灵”,再到智谱的“清影”,以及后来MinMax的海螺AI,都代表了国产文生视频技术在这一年迅速发展。

在众人对Sora望眼欲穿的日子里,可灵凭借2分钟、1080P、每秒30帧的高规格视频生成能力,满足了人们对文生视频AI最大的渴望。

然而,兴奋之余,务实的人们却发现,大模型商业化的困境,却没有随着文生视频类AI的“奇迹”迎刃而解。

虽然在2024年,《山海奇镜》等AI短剧的出现,似乎为这一赛道增添了几分光彩。

然而,这种由少数专业团队支撑起来的“奇观”,影响仍局限在业内的小范围。

高昂的生成成本、不稳定的输出质量,以及有限的应用场景,共同构成了阻碍文生视频AI大规模商业化的重重屏障。

据业内调研显示,目前5秒左右的高质量AI视频生成成本约为1-3元,但由于AI生成的不稳定性,创作者往需要反复生成,才能得到满意的结果。例如《白骨精前传》的AI短剧作者Danny,就花了五六千块。

这一成本,仍然令普通的C端用户望而却步。

同时,一种AI版的“恐怖谷”效应,也成了除了直接的技术外,阻碍AI视频被大众接受的“工艺”问题。

好在2024年,尚显稚嫩的视频AI,仍在蹒跚学步,但12月份Sora的正式发布,以及可灵1.6和Google Veo 2给这一片惆怅的灰色中,增加了一抹新的色彩。

在12月的“12 Days of OpenAI”活动期间,OpenAI终于宣布推出“鸽”了10个月之久的Sora模型,相比于早期版本,Sora Turbo的生成效率大幅提升。

Sora在模型端的表现并不令人惊喜,甚至比国产的没有表现更好。但其对视频的可编辑性,对Sora类工具走向实际应用的产品化,迈出了重要一步。这样的收尾,总算是给不太圆满的视频AI,在年末画上了一个振奋人心的句号。

三、AI coding兴起,程序员会失业吗?

回望2024年AI编程领域的变化,一个最瞩目的问题是:AI真的会取代程序员吗?

2024年,随着 AI编程领域开始从Copilot向Agent转型,对专业开发者而言,AI将逐步承担代码测试、审查和迁移等重复性工作,提高开发效率。

而在众多涌现的AI编程工具中,Cursor则像一匹黑马,凭借AI驱动的智能代码助手和用户友好的工具界面迅速蹿红,甚至引发了行业内对AI代理未来可能性的讨论。

这个4名本科生打造的编程“神器”Cursor,年化收入已经达到了6500万美元。

要说Cursor为什么这么火,其实答案很简单:它抓住了开发者真正需要的东西,同时又做得特别聪明、特别到位。

和传统的代码编辑器比起来,它直接就把AI变成了开发过程的核心助手。你不用再花时间到处找插件、改配置,从代码补全到自动生成逻辑,全都内置搞定。

同样地,OpenAI的Canvas也是今年的重头戏之一。Canvas基于GPT-4o,为用户提供了一个专门的协作平台。其最大的亮点是透明化了代码修改的过程,程序员不仅能看到改动的细节,还能通过自然语言指令快速优化代码结构。

而谷歌的Jules则瞄准了更深层次的编程应用。这款工具不仅结合了Google的Gemini 2.0模型和深度代码分析能力,自动生成解决方案,甚至可以与GitHub等平台无缝集成,完成从需求分析到代码实现的全流程。

要说今年的AI编程,为何取得了如此大的进展,那恐怕要归功于ReAct(Reasoning and Acting)框架的突破。

这是让AI编程助手实现从”辅助”到”自主”转变的关键技术。它通过将推理(Reasoning)和行动(Acting)紧密结合,建立了一套”思考-行动-反馈”的循环机制,让AI首次具备了真正的问题解决能力,而不是简单的模式匹配和代码生成。

在这样的突破下,有人调侃,有了AI,将来写代码就像聊天一样简单,用自然语言说出需求,AI就能给你一套解决方案。AI似乎正在把软件开发这个高大上的领域,变得像做PPT一样简单。

这样的进步,让人产生了一种“将来程序员都要失业了”的错觉,确实,AI现在帮我们搞定了很多从前费时费力的活儿,但在专业的业内大佬看来,AI Coding 虽然功能强大,但偶尔生成的逻辑会让人觉得“AI还在学走路”。

就连谷歌CEO劈柴也承认:”所有AI代码都必须经过工程师的“人工”审核和验收”。尽管如此,今年的AI Coding,确实打开了想象的空间,让软件开放从“纯人脑的作品”开始逐渐变成“人与机器协作的产物”。

四、真Siri来临,能开启智能硬件第二春?

2024年的语音AI发展,用一种革命性的方式,重新定义了人机交互范式。

回想《Her》里那个温暖有感情的虚拟助手Samantha,不少人曾以为这是遥不可及的幻想。

但今年,OpenAI的GPT-4o、科大讯飞的星火模型、字节跳动的豆包,还有智谱清言等,都在用各自的技术证明,这种科幻的想象,现在真的照进了现实。

与传统的TTS(文本到语音转换)技术相比,像GPT-4o这样的新一代端到端语音大模型的最大亮点,就在于它能“懂场合”、“通人性”。

简单来说,传统的TTS技术多半是以静态规则为主,比如为特定句子设计语调模板,但GPT-4o这样端到端语音模型,不仅能通话中实时做到感知上下文,且能灵活选择声音的节奏、语气,甚至能被打断和停顿。

有了这种更“人性”的特点后,各个AI企业各显高招,从总体上看,实时语音AI的赛道,在2024年,大致呈现出了“多语言”、“个性化”的特点。

例如科大讯飞的星火大模型4.0 Turbo,不仅支持74种语言和方言,还引入了“超拟人”特性,通过个性化定制功能,让用户可以和AI助手形成更贴近现实的交流方式。

虽然在2024年,语音AI已经让人觉得“科幻照进现实”,但这个“现实”还有点“昂贵”。

从行业角度看,这波实时语音AI的竞争,比拼的其实是”算力经济学”。

为了应对实时语音的高昂成本,聪明的公司开始搞”算力分层”。简单对话用轻量级模型,复杂问题才上重型火力。

这也是为什么,在视频通话这种场景下,如果涉及到多模态交互,尤其是需要结合视觉线索或复杂上下文理解的时候(例如长文章或代码),语音AI的表现也常常不如文本模式下的大语言模型——回复的深度和质量会明显逊色。

总体来说,当前的语音AI,虽然给了行业惊鸿一瞥的惊喜,但要真正成为一个得力的智能助手,它需要的不只是更流利的语音,而是多项功能的整合。

五、AI Agent,噱头还是即将落地?

2024年的AI Agent,不再仅仅是大模型的附属品,而是开始以独立角色,重新定义智能交互的边界。

像智谱的AutoGLM、Anthropic的Claude Computer Use,荣耀的手机AI助手,以及谷歌刚刚在年末发布的浏览器Agent助手Project Mariner等,正在逐渐将科幻里的“万能助手”变成现实。

从总体上看,今年的AI Agent,大致呈现出了两个方面的特征:

一是跨APP的Agent能力更强

以前一直有句话叫App墙,不同APP直接难以逾越。

现在这种“执行层”的变革,让AI摆脱了传统APP间的界限,使未来一种统领“千百APP”的超级应用成为了可能;

以谷歌的Project Mariner为例,这款浏览器Agent可以理解和操作网页上的所有元素,包括文本、代码、图片和表单。它不只是单纯浏览,而是能够完成从信息搜索到购买、表单填写等一系列操作。

而Anthropic的Claude Computer Use,则专注于电脑端操作,能用鼠标和键盘模拟用户行为,完成文件编辑和多程序协作。二者都展示了Agent在处理复杂的多模态任务时,进行多种工具调用的适配能力。

二就是CUI时代渐渐来临

一句话点200杯咖啡,一句话发2万的红包。

像智谱的AutoGLM,以及荣耀的手机AI助手,可以通过简单的语音指令完成手机端和跨APP的复杂任务,比如订咖啡、对比航班价格甚至建群发红包。

如今,正从GUI(图形用户界面)向CUI(对话式用户界面)时代转变。

苹果在对GUI的巨大贡献,引发了一场交互革命,如今AI公司正在引发新的交互颠覆性创新。

此外,2024年的AI Agent技术,带来的另一个惊喜,是AI在游戏行业的突破。

尤其是网易伏羲在《永劫无间》手游和腾讯的《暗区突围》的AI队友,在结合了多模态技术后,已经不仅仅是传统意义上的“NPC”,而是一个能听懂语音指令、实时调整策略、甚至和玩家情感互动的“智能队友”。

这些突破性的应用,让AI不再只是游戏中的“工具”,而是玩家的真正伙伴。

从趋势来看,AI Agent正在向多模态能力和更深层次的智能化发展。

结合视觉、语音、文本等多模态信息,它们能够更全面地理解用户需求,并从一个“对话工具”成长为“得力助手”,逐渐正带领我们进入一个更加无缝和高效的智能时代。六、结语

在这个充满变数与惊喜的2024年,AI就像一个正在成长的孩子——有时笨拙,有时惊艳,但始终充满无限可能。

尽管道路上有数据枯竭的忧虑,有商业化的阵痛,有技术的不完美。大模型支撑着AI原生应用高速发展,2025年被誉为AI发展元年,未来会越来越精彩。