欢迎光临
我们一直在努力

我深度扒了某款换衣 AI 大模型,发现有人在套壳,有人在搞事情

aigc阅读(109)

最近,AI 换衣着实火出圈了!不管是在电商平台上,想网购衣服时,通过 AI 就能让自己或虚拟模特快速试穿各种款式,轻松解决 “这件衣服到底适不适合我” 的纠结;还是在日常娱乐里,大家把自己的照片上传到换衣 AI 大模型中,瞬间就能变身时尚达人,体验各种风格穿搭,甚至还能搞怪一把,让自己穿上奇装异服,这些都让 AI 换衣成为了热门话题。

走在时尚前沿的弄潮儿们,早已按捺不住对新鲜事物的热情,纷纷投身这场 AI 换衣的狂欢。在社交媒体上,到处都是大家分享自己 AI 换衣后的惊艳照片或搞笑视频,点赞、评论、转发量直线飙升。这股热潮,就像一阵旋风,迅速席卷了各个年龄层和社会群体。

电商行业更是敏锐地捕捉到了这一商机,众多平台纷纷推出自家的 AI 换衣功能,以此吸引消费者的目光。在这个快节奏的时代,谁能为消费者提供更便捷、有趣的购物体验,谁就能在激烈的市场竞争中抢占先机。AI 换衣功能的出现,无疑为电商行业注入了一剂强心针。

然而,在这看似一片繁荣的景象背后,是否隐藏着一些不为人知的秘密呢?今天,作为一个热衷于技术探索的博主,我决定深入扒一扒这些换衣 AI 大模型,看看它们究竟是货真价实的创新,还是徒有其表的 “伪装者”。

一、AI 换衣大模型的 “闪亮登场”

在这股 AI 换衣热潮中,几款备受瞩目的大模型迅速崭露头角,成为了大众关注的焦点。

就拿可图大模型来说,自其宣布开源后,可谓是赚足了眼球。

在 2024 WAIC 上海人工智能大会上,它的 AI 试衣功能首次亮相,便惊艳全场。这一功能基于可图基座模型,巧妙地引入了衣服 SKU 保持网络,就像一位技艺精湛的裁缝,能够精准地提取和表征服饰的细节特征。无论衣服上的图案多么复杂,文字花纹多么精致,它都能完美呈现。同时,通过引入人物 pose 姿势和 Mask 掩码图像作为条件特征,它实现了人物姿势保持的换衣效果。

想象一下,你上传一张自己运动时的照片,无论你是在奔跑、跳跃还是伸展,换上新衣服后,姿势依然自然流畅,仿佛这件衣服就是你当时所穿。而且,它还复用了可图背景修复技术,经过大量高质量人物衣服 pair 对大数据的训练,在不同衣服款式、人物姿势以及复杂背景条件下,都能生成自然美观的试穿效果。不仅如此,可图大模型还支持跨越不同年龄、性别、种族的人物模特及背景生成,满足了商家多样化的模特需求。再结合可灵图生视频能力,它能生成运动连贯的 AI 试衣短视频,让用户全方位、动态地感受试穿效果。

谷歌的 TryOnDiffusion 模型也毫不逊色。它成功解决了 AI 换装领域长期以来的两大难题 —— 既保留衣服细节,又能随意变换姿势。

以往的一些模型,在这两个方面总是难以两全。而 TryOnDiffusion 通过提出一种基于扩散的框架,将两个 Parallel – Unet 统一起来,就像搭建了一座桥梁,让衣服细节和姿势变换能够和谐共处。

在这个模型中,不需要使用文字,而是通过一组成对的图片(一张是衣服或穿着衣服的模特,另一张是模特),每张图片被发送到自己的神经网络(U – net),并通过 “交叉注意力” 的过程相互共享信息,最终输出新的穿着这件衣服的模特的逼真图像。

在实际效果中,衣服在人物身上的变形极其自然,衣服的褶皱、垂坠等细节都还原得十分到位,仿佛这件衣服就是量身定制的一样。

还有一些电商平台自研的 AI 换衣模型,它们紧密贴合电商购物场景。以银泰百货的喵街 “AI 试衣间” 为例,用户可以在喵街小程序中,用 AI 生成以本人为蓝本的数字人去试穿全品类衣物。这些数字人既真实又美观,区别于传统的卡通形象换衣 app。而且,这里的衣服都以银泰百货线下售卖的服饰为基础,材质、褶皱等细节一目了然,非常逼真。用户不仅可以随心搭配,还能与 AI 搭配师互动,获取专业的穿搭建议。此外,还能参与穿搭 PK,增添了不少购物的趣味性。在这个过程中,用户仿佛置身于一个虚拟的时尚秀场,尽情享受着换装的乐趣。

这些主流的换衣 AI 大模型,凭借各自独特的功能特点,在电商购物、短视频创作等多个应用场景中发挥着重要作用。在电商领域,它们为消费者提供了更加直观、便捷的购物体验。消费者无需再为 “这件衣服穿在我身上好不好看” 而烦恼,只需上传照片,就能快速看到试穿效果,大大提高了购物决策的效率,同时也降低了商家的退货成本。在短视频创作方面,创作者们利用这些模型的 “变装” 特效,制作出了各种新颖有趣的内容,如明星同款穿搭展示、卡点变装视频等,吸引了大量用户的关注和点赞,为短视频平台增添了新的活力。

二、扒皮行动:疑似套壳现象曝光

技术相似性剖析

在深入研究这些换衣 AI 大模型的过程中,我发现部分模型存在一些令人疑惑的现象,疑似存在套壳行为。从技术层面来看,一些换衣 AI 大模型在代码结构上与已知的开源模型有着极高的相似度。就好比搭建房子,开源模型是按照某种特定的设计蓝图构建的,而这些被质疑的模型,其内部的 “房间布局”“支撑结构” 等代码层面的架构,几乎与开源模型如出一辙。这可不是简单的巧合就能解释得通的。

算法逻辑上,它们也表现出了惊人的相似性。以图像特征提取和融合这一关键环节为例,开源模型采用了一种独特的算法,能够精准地捕捉人物和衣服的特征,并将它们巧妙地融合在一起,实现自然的换衣效果。而某些被怀疑套壳的模型,在处理这一过程时,不仅使用的算法原理相同,连参数设置都相差无几。这就好像两个厨师做同一道菜,从食材的选择、处理方式,到烹饪的火候、调料的用量,都一模一样,很难不让人怀疑其中一个厨师是不是直接照搬了另一个厨师的菜谱。

模型架构方面,一些模型的整体框架与已有的成熟模型极为相似。比如,在神经网络的层次结构、各层之间的连接方式以及数据的流向等方面,几乎没有明显的差异。这种相似性不仅仅是表面上的,深入到模型的内部细节,也能发现诸多雷同之处。这就如同建造桥梁,不同的工程师可能会根据实际需求和设计理念,采用不同的桥梁结构,但如果两座桥梁在结构、材料、施工工艺等方面都高度相似,那就不得不让人怀疑其中一座桥梁是否是模仿另一座建造的。

案例深度解读

为了更直观地说明问题,我们以具体的某几款被质疑套壳的换衣 AI 大模型为例进行深入分析。就说之前在网上引发热议的 A 模型吧,它在推出后,凭借着宣传中的一些亮点功能,吸引了不少用户的关注。然而,当技术人员对其进行拆解分析后,发现它的核心代码与一款开源的 B 模型相似度极高。从函数的命名规则、代码的注释风格,到关键算法的实现细节,都能找到明显的对应关系。

进一步研究发现,A 模型在功能实现上,几乎完全依赖于 B 模型的开源代码。在遇到一些复杂的换衣场景时,A 模型所表现出的处理能力和 B 模型如出一辙,甚至在一些特定情况下出现的错误和缺陷都相同。这就好比一个人穿着别人的衣服,还试图伪装成自己的风格,但举手投足间却暴露了真实身份。

这种套壳行为对行业创新产生了极其不良的影响。它严重打击了原创研发团队的积极性。那些投入大量时间、精力和资金进行研发的团队,本期望通过创新为行业带来新的突破和发展,却发现自己的成果被他人轻易抄袭、套壳,这无疑是对他们辛勤付出的极大不尊重。就像农民辛苦耕耘,种下了种子,精心呵护,眼看就要收获果实了,却被别人偷走,种在了自己的地里,还声称是自己的劳动成果,这怎能不让人感到心寒呢?

套壳行为阻碍了整个行业的技术进步。如果套壳现象得不到有效遏制,将会有更多的企业和团队选择走捷径,放弃自主研发,转而依赖套壳来推出产品。这样一来,行业内就会缺乏真正的创新动力,技术发展也会陷入停滞。长此以往,我们将无法享受到更加先进、高效、智能的 AI 换衣技术,整个行业也将失去持续发展的活力,无法在全球科技竞争中占据优势地位。

三、乱象丛生:背后的 “黑暗勾当”

隐私侵犯风暴

在这场 AI 换衣的热潮中,隐藏着一股令人毛骨悚然的隐私侵犯风暴。一些不法分子将罪恶的目光投向了换衣 AI 技术,他们如同隐匿在黑暗中的窃贼,肆意窃取、滥用用户的照片,对个人隐私进行了无情的践踏。

在网络的某些阴暗角落,存在着一些非法网站,它们打着各种幌子,暗中收集用户的照片。这些照片一旦落入他们手中,便可能被用于各种非法商业用途。比如,一些不良商家为了推广自己的产品,未经用户同意,擅自将用户的 AI 换衣照片用于广告宣传,让用户在不知情的情况下成为了 “代言人”。更有甚者,将这些照片出售给其他不法分子,形成了一条隐秘的个人信息贩卖产业链。

还有一些人恶意传播用户的照片,将普通人的形象暴露在公众视野中,对用户的生活造成了极大的困扰。曾经有一位女性网友,在某社交平台分享了自己使用 AI 换衣的照片,本是为了展示时尚穿搭,却没想到被别有用心的人下载,并在一些低俗网站上传播。这些照片被配上了不堪入目的文字描述,给这位女网友带来了极大的精神压力,她不仅遭受了网友的恶意评论和骚扰,甚至在现实生活中也受到了异样的眼光,正常的工作和生活完全被打乱。

色情敲诈产业链

除了隐私侵犯,AI 换衣技术还被卷入了一条更为恶劣的色情敲诈产业链中。这一犯罪链条如同一张无形的大网,从制作、传播到实施敲诈,环环相扣,给受害者带来了身心和财产的双重巨大伤害。

一些犯罪分子利用换衣 AI 技术,精心制作色情内容。他们通过获取他人的照片,利用技术手段将照片中的人物 “换装” 成裸体或穿着暴露的样子,再通过合成技术,将这些照片与一些色情场景相结合,制造出以假乱真的淫秽图片和视频。这些图片和视频制作完成后,便通过各种渠道在网络上广泛传播,比如一些非法的色情网站、私密的社交群组等。他们以此吸引更多的人关注,同时也为后续的敲诈勒索行为埋下伏笔。

一旦这些色情内容传播开来,犯罪分子便开始实施敲诈勒索。他们通过各种方式找到照片的主人,以公开这些淫秽图片或视频为威胁,要求受害者支付巨额钱财。受害者往往在恐惧和羞耻的双重压力下,被迫就范。以深圳的吴先生为例,他突然收到一条陌生彩信,里面是他与一名陌生女子在酒店房间内的不雅照片,对方威胁他必须在指定时间内转账,否则就将照片发送给他的亲朋好友和同事。吴先生顿时陷入了极度的恐慌之中,他完全不知道这些照片是如何被伪造出来的,但又担心照片公开后会给自己的名誉和家庭带来毁灭性的打击。无奈之下,他只能选择报警。警方经过侦查,成功打掉了这个利用 AI 换脸技术合成不雅照进行敲诈勒索的犯罪团伙,但吴先生所遭受的精神创伤却难以在短时间内抚平。

据相关数据显示,近年来,这类利用 AI 技术进行色情敲诈的案件呈逐年上升趋势。仅在 2023 年,全国就发生了多起类似案件,涉及金额高达数百万元。这些案件不仅严重侵犯了公民的人身权利和财产安全,也对社会的公序良俗和道德风尚造成了极大的冲击。

四、行业反应与社会影响

面对 AI 换衣大模型领域出现的套壳现象以及隐私侵犯、色情敲诈等乱象,行业内的反应迅速而强烈。许多专注于 AI 技术研发的企业纷纷发表声明,谴责这种不正当的行为。他们强调,套壳行为不仅违反了行业的道德规范,也破坏了公平竞争的市场环境。一家知名的 AI 企业在声明中表示:“我们一直致力于通过自主研发和创新,为用户提供高质量、安全可靠的 AI 产品和服务。套壳行为是对整个行业的亵渎,我们呼吁所有从业者共同抵制这种行为,维护行业的健康发展。”

行业组织也积极行动起来,发出了强烈的呼吁。中国人工智能产业发展联盟就发布了相关倡议,要求成员企业严格遵守法律法规,加强自律,杜绝套壳、侵权等不正当行为。同时,联盟还呼吁相关部门加强监管,建立健全的行业标准和规范,为 AI 产业的发展营造良好的环境。

这些不良现象对社会产生了多方面的负面影响。在社会公序良俗方面,色情敲诈等行为严重违背了道德伦理,给社会风气带来了极大的污染。它让人们对网络环境产生了恐惧和不信任,尤其是女性群体,她们在使用网络服务时,不得不时刻担心自己的照片被滥用,这种心理压力对个人的身心健康造成了极大的伤害。

从网络安全角度来看,隐私侵犯行为使得用户的个人信息处于高度危险之中。一旦这些信息被泄露,用户可能会面临各种风险,如账号被盗、诈骗电话和短信的骚扰等。这些风险不仅会给用户带来财产损失,还可能影响到用户的正常生活和工作。

消费者对 AI 换衣技术的信任也受到了严重的打击。原本,AI 换衣技术为消费者提供了便捷、有趣的体验,让他们能够更轻松地选择适合自己的服装。然而,套壳现象和隐私侵犯等问题的出现,让消费者开始对这项技术产生怀疑。他们担心自己在使用 AI 换衣服务时,个人信息会被泄露,或者得到的是低质量、抄袭的服务。这种信任危机不仅会影响到 AI 换衣技术在电商等领域的应用和推广,也会阻碍整个 AI 产业的发展。

五、未来展望:呼唤规范与光明

面对当前 AI 换衣大模型领域的种种乱象,我们不能坐视不管,而应积极探寻解决之道,为其未来发展照亮前行的道路。

政府部门应发挥主导作用,加大监管力度。一方面,要尽快制定和完善相关法律法规,明确 AI 换衣技术在研发、应用等各个环节的法律规范和责任界限。对于套壳行为,应制定严格的处罚措施,包括高额罚款、责令停产整顿等,让违法者付出沉重代价,从而有效遏制这种不正当竞争行为。另一方面,针对隐私侵犯和色情敲诈等犯罪行为,要加强执法打击力度,建立专门的执法队伍,提高案件侦破效率,依法严惩犯罪分子,切实维护公民的合法权益。

行业内部的自律也至关重要。企业和开发者应树立正确的价值观和道德观,加强自我约束。企业要建立健全内部管理制度,加强对技术研发和应用的审核,确保自身的产品和服务符合法律法规和道德规范。同时,行业协会可以发挥组织协调作用,制定行业自律公约,加强对会员企业的监督和管理,定期开展行业自查自纠活动,对于违反自律公约的企业,进行公开曝光和行业内通报批评,促使企业自觉遵守行业规范。

对于广大用户来说,增强自我保护意识是防范风险的关键。在使用 AI 换衣服务时,要仔细阅读隐私政策和用户协议,了解自己的权利和数据的使用方式。避免在不可信的平台上上传个人照片,选择正规、有信誉的 AI 换衣应用。同时,要提高对网络诈骗和敲诈勒索的警惕性,一旦发现异常情况,及时向相关部门举报。

我们期待未来的 AI 换衣大模型能够在规范的轨道上健康发展。企业能够将更多的精力投入到技术创新中,不断提升 AI 换衣技术的准确性、自然度和用户体验。例如,通过改进算法,实现更精准的人体姿态识别和衣服贴合效果,让虚拟试穿更加真实可信;利用更先进的图像处理技术,呈现出更加细腻、逼真的服装材质和纹理。

在应用场景方面,AI 换衣大模型有望进一步拓展。除了电商购物和短视频创作,它还可以在时尚设计领域发挥更大作用,帮助设计师快速预览不同设计方案的效果,提高设计效率;在虚拟现实(VR)和增强现实(AR)场景中,为用户打造沉浸式的试衣体验,让用户仿佛置身于真实的服装店中。

相信在各方的共同努力下,AI 换衣大模型一定能够摆脱当前的困境,迎来更加光明的未来,为我们的生活带来更多的惊喜和便利,推动整个行业向着更加美好的方向发展。

AI网红李开复

aigc阅读(92)

如果要在大模型领域选出一位兼具行业影响力和行业争议度的人物,那李开复一定榜上有名。

2023年中决定亲自下场担任零一万物CEO时,李开复一度被业内拿来跟王慧文做比较,讨论两者的创业项目究竟谁更贵。随着王慧文因病退出,一年多后,还留在大模型牌桌上的李开复,同样麻烦缠身。

最新的争议发生在1月初。“阿里收购零一万物”消息传出的当晚,李开复便率先在朋友圈做了辟谣,并在次日接受了好几波媒体的专访,以告诉外界零一万物并非解散,只是放弃了对超大规模参数模型的训练,未来仍将专注训练中小模型,并发力应用侧。

在此之前,零一万物还曾陷入“套壳Meta开源大模型LLaMA”以及放弃预训练的多轮质疑声中。

顶着中国“AI教父”头衔下场搏斗的李开复,在自己选中的大模型赛道被反复质疑,甚至有激进行业人士,直接将李开复和其背后的零一万物称之为“大模型混子”,恒业资本创始合伙人江一告诉我们,“其实我们更早都知道了(李开复)要放弃预训练的事情,这在行业里不算是一个太大的秘密。”

不同于此前二十多年在中国的布道者角色,调转身份成为创业者的李开复,这次与其他人站到了同一起跑线,技术、产品和商业化,正化身一道道选择题,一边筛掉落伍者,一边比出优胜者。空留影响力而暂时缺乏行业认可度的李开复,其身上AI教父的气质,也越来越让渡给AI网红的新形象。

如同雷军选择汽车作为自己最后一次创业一般,李开复则将大模型视为自己的最后一舞。2022年11月ChatGPT亮相后,看到它的那刻,李开复“意识到它的出现比我预期的要快……我不能错过这个机会,我必须参与其中。”

对更大成功的渴望,成为驱使雷军和李开复这类早已功成名就之人,再次躬身入局的最大诱因。

2010年,雷军终于决定投身智能手机创业后,小米联合创始人黎万强和林斌都不理解,反问雷军“你什么都有了,创业图什么?”

雷军曾反思自己在小米之前的创业经历,觉得很多产品都离成功只有一步之遥,却总是失之交臂,并认为“这是时代使然,公司基因使然,回天乏力。”

尤其是2007年10月,金山在香港上市后,看着市值只有一家主流互联网上市公司的零头,雷军曾告诉《财经》,他曾以为金山可以承载他的梦想。现在,他想做一家百亿乃至千亿美元的公司,“否则你做一家又一家10亿美金的公司价值有多大?一次又一次复制自己是没有价值的。”

李开复对成功的渴望比雷军还要大10倍。之所以放弃投资方式而选择自己下场做,李开复给出的原因是自己“想要创建一个伟大的企业”,并相信在微软时期的职业经历,使自己学到了打造下一个潜在万亿美元市值的公司所需的能力。

只不过,随着李开复丢弃掉AGI(通用人工智能)梦想,他的万亿公司愿景,也变得更虚幻了一些。

01

在ChatGPT出现2年来的国内大模型创业浪潮中,李开复还是那个最高频发布朋友圈辟谣消息的AI创业者。

1月初网传“阿里收购零一万物”消息后,李开复便再次通过朋友圈辟谣,然后才指挥零一万物官方发布了辟谣声明。

综合李开复的对外回应信息,经历最新组织架构调整后的零一万物,未来超大模型训练会交给阿里,自己则主攻中小参数的行业模型。

这一转变更早来自于李开复去年5月份的思考。当时,零一万物已经选择不再盲目追求扩大参数量,并舍弃了训练原定万亿参数的超大模型Yi-X-Large的计划,转而训练了更小更快更便宜的MoE混合专家模型Yi-Lightning。

辟谣“阿里收购零一万物”消息之前,去年10月份,李开复还通过发朋友圈辟谣了零一万物停止预训练的消息,并在当时坚定回应称,零一万物绝不会放弃预训练工作。

更早之前的2023年11月,立志研发通用大模型底座的李开复,则陷入一场套壳Meta开源大模型LLaMA的质疑之中。当时,李开复也是第一时间通过朋友圈予以澄清。

尽管三次辟谣的内容指向不同,但导致这些谣言轮番找上零一万物的一大主因,还在于公司太穷了。

在同为大模型六小虎(零一万物之外,还包括月之暗面、MiniMax、智谱、百川智能、阶跃星辰)的其他几家相继拿下一众知名投资机构和大厂的多轮融资之后,零一万物成立至今,被曝出的融资消息只有两条:一是2023年10月完成由阿里云领投的新一轮融资,投后估值超10亿美元,跻身中国大模型创业公司独角兽行列;二是去年8月完成数亿美元新融资,投资方包括某国际战投、东南亚财团等。

阿里云成了零一万物当前唯一公开明确的投资人。比融资数额少更糟糕的是,融资环境正变得越来越难。江一表示,进入2025年,行业对大模型的投资会变得更为谨慎,“类似李开复做出放弃预训练的决定,在六小虎中几乎都不同程度存在,就看它们资金能撑到什么时候来对外宣布自己的战略调整了。”

除了大模型自身商业变现艰难之外,生态链的错位,也让这波AI创业显得愈发不易。在同样开发大模型的国内创业者李辉看来,原本大家期望中的场景是,芯片赚最少的钱,平台赚一定的钱,应用赚最多的钱。但现实却是提供GPU芯片的英伟达,一家赚走了行业超八成的利润,“但这种倒三角局面不会一直持续下去,2025年,随着AI原生应用的爆发,会有所改变。”

暂时等不到生态环境改观的零一万物,从成立伊始,就走上了一条勤俭节约做AI的路径。

去年6月份接受极客公园创始人张鹏采访时,李开复就曾预言,未来一年内可能会看到有一半公司放弃预训练。“有些创业公司就融不到钱了,如果你是个创业公司,就剩比如说1亿美金了,然后一个月要烧2000万美金,是五个月把它烧完赌一赌,最后烧一个模型打败谷歌,还是用三年拿这1亿美金打造一个APP?这个不用我多说了。”

未来,李开复明确零一万物将不再追求训练超级大模型,这也意味着零一万物成为行业第一家宣布放弃追寻AGI的玩家。“从商业角度考虑,我们认为只有大公司能继续做超大模型。”

字节成了李开复上述判断的最好例证。在大模型赛道一度处于落后位置的字节,通过一年多时间的追赶,到2024年底,一跃跻身国内一线梯队,其不仅补齐了基础模型的技术性能,还在产品上相继布局了豆包、Cici、Coze、星绘、猫箱、豆包爱学、即梦等,涵盖了AI智能助手、AI社交、AI工具和AI教育、AI视频等主流应用赛道。

但将AGI拱手相让给大公司后的李开复,无疑将会迎接未来更多的审视和质疑。

02

如果将时间回拨到20年前,当下对李开复的质疑,多少有些难以想象。

2005年7月,决定加入谷歌的李开复,开始迎来人生的一场世纪大诉讼。在被前东家微软以违反竞业协议告上法庭之时,时任微软CEO的鲍尔默便曾将李开复称为中国的“教父”,以此来佐证李开复在中国的影响力。

鲍尔默彼时给李开复带上的教父头衔,多少还算不上实至名归。随后,通过筹建谷歌中国,并将前沿科技宣传给国内更多人的李开复,正式得到业内认可,并冠上了中国“AI教父”的美誉。

李开复的一生也与AI结下了不解之缘。1983年,以计算机系第一名的成绩从哥伦比亚大学毕业后,李开复进入卡内基·梅隆大学攻读计算机专业博士,并选定了语音识别研究方向,成功开发出了全世界第一个“非特定人连续语音识别系统”的应用程序,1988年《商业周刊》因该项创造授予李开复“最重要科学创造奖”荣誉称号。

1990年夏天,28岁的李开复,决定放弃卡内基·梅隆大学的助理教授职位,从学界投身产业界,加盟苹果,领导团队发明了QuickTime,并成为苹果公司最年轻的副总裁。随后,李开复从苹果又相继跳槽到SGI、微软和谷歌。

参与创建微软中国研究院和谷歌中国的经历,使得李开复不仅与更多AI人才有了交集,也借此培养和发掘了一大批相关人才。脱身于微软中国研究院的微软亚洲研究院,更是一度成为中国互联网以及AI领域的黄埔军校,张宏江、张亚勤、沈向洋、王坚等业内赫赫有名的大佬,均出身于此。

产业界的努力之外,李开复还格外重视跟大学生的交流。早在1990年,李开复就曾在北京信息工程学院开个四个星期的课程,向中国大学生介绍前沿AI知识。2003年,李开复还自己出资创立了与学生交流互动的平台“开复学生网”,2006年,其更名为“我学网”。在上面,李开复自述其回答了上万个中国学生的问题。

创新工场的筹办,则成为塑造李开复中国“AI教父”的最后一层砝码。

到2008年,在谷歌中国的工作,已无法满足李开复的自我追求,“我越来越意识到,管理更大的团队不是我心中的目标,我更喜欢从无到有的创造,而不是经营一个巨无霸。”

不容忽视的一个现实背景是,当时的中国,正处在从PC时代向移动互联网时代过渡的前夜,一大帮创投机构都冒了出来。2009年8月,李开复也创立了自己的投资机构——创新工场,并投中了一批知名公司,如摩拜单车、知乎、豌豆荚、墨迹天气、美图等。

借助李开复在科技领域的多年经验,创新工场抢先押注前沿科技赛道,“投早、投小、投科技”一度成为其最重要的标签之一。

到2016年,“人机大战”——阿尔法狗战胜围棋九段李世石的爆发,让原本局限在科学和科幻领域的AI变成了人人挂在嘴边的大众热点话题。创新工场也开始进一步聚焦,同年成立人工智能工程院,李开复亲任院长,致力于AI技术与科研、实验室、高校、人才的生态链接和技术转化,开创了一套“VC+AI”的投资新模式,官方宣传称投资了10多家人工智能独角兽公司。

2012年被投资的旷视科技,成为创新工场投资的第一家AI公司,随后创新工场的这份AI独角兽名单中相继加入了美图、地平线、第四范式、驭势科技、Momenta、文远知行、比特大陆、飞步科技、极飞科技、镁伽、创新奇智等的身影。

但投资前沿科技的风险也随之而来,这些公司大多因为超前布局尚未能做到盈亏平衡,其中也只有显得不那么前沿的美图,实现了盈利。

其他要么如驭势科技、Momenta、极飞科技等暂未传出上市消息,要么如比特大陆、旷视科技等,上市遇挫。

尤其是作为创新工场AI投资首秀的旷视科技,即便顶着上一波AI创业“四小龙”的名头,在港交所、科创板等上市大门前兜兜转转3年之后,还是选择了放弃。去年12月,旷视科技正式撤回上市申请。

那些已经成功上市的公司,如地平线、文远知行、第四范式、创新奇智等,则如李开复所创立的零一万物一样,仍然面临着何时盈利的灵魂拷问,且其股价均经历了一波下滑的抛物线,目前都处在股价跌破发行价的状态之中。

此时就显现出了作为投资人的好处来。早在2018年初AI大热之际,李开复在对外采访中就明言,大家过分高估了AI的商业变现能力,“每个创业者都很想把自己的创业公司包装成一个AI公司,每个VC也都想要标榜自己是一个AI投资人。但是AI投资其实不适合新手参与。如果对AI技术本身没有了解就急着参与到AI的早期阶段来,这样的人会赔得连裤子都不剩。”

这其中显然不包括被称为中国“AI教父”的李开复。在2019年被晚点问及创新工场回报最好的基金是哪一期时,李开复回答:“投AI项目最多的回报最好……比如旷视回报400倍、VIPKID回报1200倍。”

03

在旁观者的投资人身份之外,叠加一层AI创业者的新角色后,李开复也不得不直面AI商业化的难题。

在宣布零一万物不再追求训练超级大模型,转而继续训练参数适中的更快、更便宜的模型,基于后者打造可以赚钱的应用之前,李开复已经调转了公司的商业化路径:在国内优先发展To B领域,To C应用则先做国外,再做国内。李开复给出的理由是,国外的付费意愿比较高,先探索商业化最快的路径,国内以后C端也会有机会。

但这条新的坚持训练中小模型的策略,李开复还能坚持多久则要打个问号。

继千亿参数模型Yi-Large之后,去年10月,零一万物对外发布新旗舰模型Yi-Lightning,“后续零一万物的模型参数量可能也不会再大于Yi-Lightning。”李开复说道。

去年10月对外辟谣放弃预训练时,李开复给出了大模型公司要不要做预训练的两个衡量标准:一看自己能不能预训练出一个比开源足够好的模型;二看预训练的花费能否承担得起,且训练出来以后它能用多久?

眼下,李开复坚持继续做中小模型预训练的理由之一是,自己的Yi-Lightning模型依然能打,“所以肯定自己要做。当然务实地说,如果哪天开源模型打败了我们,我们肯定也要思考是不是就别做了。”

而一旦失去模型层的支撑,李开复一开始构想的“Infra+模型+应用”三位一体布局,或许也将不得不重新调整。

在李开复设想中,零一万物要做的是一个生态系统,而不仅仅只是一个大模型公司,就如同PC时代的微软。“当时,微软做Windows kernel,相当于今天的大模型;做Windows,相当于今天的API和平台;做Office,相当于今天的应用;然后做基础设施,相当于今天的 Azure Cloud。”李开复举例说道。

除了基础设施和模型需要一起做,模型和应用也必须一起做,“因为它们实际上是一体的。”李开复判断道。

但当零一万物越来越走到与企业客户利益绑定后的行业大模型领域,在获取确定性商业回报之外,也令其失去了大规模扩张的可能性。

失去AGI创业机会后,留给创业者做出下一个BAT的机会也变得无限渺茫。傅盛在这方面比李开复更早有了清醒的认识,“我已经放弃BAT的创业梦了,那的确没机会。”

在最近接受晚点采访时,面对想打造AGI时代的微软的梦想,是否随着放弃超大规模预训练而破灭了的提问时,李开复回答道,“当然没有……只能说我们现在是从应用起步。谁都可以仰望星空,更重要的是脚踏实地。”

参考资料:

《他第一个讲了出来,不再追求 AGI》晚点对话

《对话李开复:为了变道,筹备了数月》虎嗅

《李开复独家回应:盲目坚持负担不起的东西,并不是健康的选择》36氪

《连线Insight对话李开复:不愿“透支”未来,零一万物全面转向“小而美”》连线Insight

《对话李开复:如果美国形成AGI霸权,我们应该怎么办?》腾讯科技

《对话李开复:不走OpenAI“烧模型”之路,大模型to B要有新打法》中国企业家杂志

《李开复:中国落后美国大模型差距缩小为 6 个月,疯狂降价是双输》AI科技大本营

《对话李开复:价格战烧不出 AI 超级应用,好模型有贵的道理》极客公园《已经有人在问“李开复和王慧文谁估值更贵”了》投中网

《世界因你不同:李开复自传》中信出版集团

AI+法律科技:如何提高合同智能审查的质量(含法律科技领域宏观数据分析)

aigc阅读(93)

今天我们来聊聊AI在法律科技领域中的应用

如何通过AI赋能,来提升合同智能审查的输出质量

文章会分为三部分进行介绍:

  • 第一部分:法律科技领域的市场规模与主要的细分领域
  • 第二部分:CLM合同生命周期管理概览介绍以及市场上的主要玩家
  • 第三部分:分享如何通过AI赋能提升合同审查的输出的质量与准确性

01 法律科技市场规模&细分领域

1. 法律科技领域的市场规模

法律科技(Legal technology)是指运用人工智能、大数据、区块链等技术手段,提升法律工作效率和质量,也使法律服务更加普惠,法律科技领域与法律行业相互促进,共同发展。

在2024年法律科技领域的全球市场规模超过291.8亿美元,预计2025-2037年复合年增长率GAGR超过9.6%,2025年预计市场规模为315.2亿美元。

图片来源:Legal Technology Market Statistics Report 2025-2037 — Research Nester

其中亚太地区增长最快,北美市场规模最大,但整体的市场集中度偏低,没有出现绝对领域的头部玩家。

图片来源:Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts

图片来源:Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts

2. 法律科技的细分领域

法律科技的细分领域主要包括:

图片来源:Legal Technology Market Statistics Report 2025-2037 — Research Nester

1) E-Discovery(电子发现):是指在法律诉讼或调查过程中,对电子形式的信息,如邮件,音视频等信息,进行识别、收集、保存、处理,通过获取和梳理与案件相关的电子证据链,来支撑了法律论证。

2) Legal Research(法律研究):是指能够快速检索和筛选海量的法律文献、案例资料等信息,帮助法律从业者更精准地找到所需的法律依据. 例如:用户输入一个复杂的法律问题,系统可以迅速在庞大的法律数据库中定位到最相关的案例和法规,并进行初步的分析和总结。

3) Legal analytics(法律分析):是指在从大量的法律文本、案例、法规等数据中提取有价值的信息,以辅助法律决策、风险评估和案件策略制定. 例如,律师可以让AI分析过往类似案件的判决结果和相关因素,为当前案件提供参考和预测,帮助律师和法律从业者了解法律趋势和潜在风险。

4) Contract Lifecycle Management(合同生命周期管理):是对合同从创建、谈判、审查、审批、签署、履行到续约或终止的全过程进行系统化管理工具,其核心作用是通过自动化的合同管理流程,提升合同处理的速度,确保合同的合规性和风险控制,从而帮助企业更有效地跟踪和履行合同义务,优化供应商和客户关系,最终提高业务收益和竞争力。

5) Time-Tracking & Billing(记时追踪与计费):是为律师事务所和法律从业者提供高效的时间记录和费用管理工具,其(它的)核心作用是通过自动化法律服务的计时计费工具,确保账单的准确性和透明度,从而增强财务管理和业务收益。

02 CLM-合同生命周期管理&主要市场玩家

1. CLM-合同生命周期管理概览介绍

Contract Lifecycle Management(合同生命周期管理) ,是增长最快的细分领域之一。

图片来源:Contract Lifecycle Management Market — Astute Analytica

2024年市场规模达到36.1亿美元,2025-2033年预测的复合年增长率达13.55%。

合同生命周期管理,是对合同从创建、谈判、合规审查、审批、签署、履约、续约到终止全流程进行系统化和自动化的管理系统,用于提高合同管理的效率,把控合同的风险与合规性,帮助企业高效管理,降低合规风险与法律风险。

图片来源:中国CLM(合同全生命周期管理)市场产业全景研究报告 – TE智库

其中合同的合规风险审查,是CLM中的关键环节,接下来我们聚焦于CLM中的合规审查模块,看看如何通过AI赋能,来识别合同中签在的法律风险和不合规条款,帮助企业规避合同风险。

图片来源:Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts

图片来源:康达律师事务所

以上是两个很直观的案例:

图一统计了自从2018年5月GDPR生效以来,截止至2024年9月,罚款超过了24亿欧元。

GDPR (General Data Protection Regulation) 通用数据保护条例 -> 由欧盟出台的关于数据隐私保护的法规。

图二统计了在2021-2023年国有企业民事纠纷案件数据统计中,合同风险成为企业经营的主要风险,诉讼案件占比高达65%。

所以如何降低合同的法律风险与合规风险,是企业组织经营过程中的强需求 

2. 合同智能审查的主要玩家

合同审查这个细分领域的主要玩家可以分为两类:

一类是传统的CLM厂商,在已有CLM的模块中,做深合同审查的功能模块,如:

Icertis

主打产品:Lcertis Contract Intelligence (ICI) 合同生命周期管理平台

市值&融资情况:市值超50亿美元,累计融资5.2亿美元,ARR预估2.5亿美元。

Ironclad

主打产品:Ironclad CLM

市值&融资情况:市值约32亿美元,累计融资3.34亿美元,ARR预估1.112亿美元

Docusign

主打产品:DocuSign eSignature(电子签),DocuSign CLM(合同生命周期管理),DocuSign IAM(智能协议管理)

市值&融资情况:市值约101.6亿美元,累计融资5.13亿美元,ARR预估10.6亿美元。

另一类是AI驱动的智能合同厂商,如:

  • LexCheck
  • 法大大的“iTerms合同智审系统
  • 幂律智能的MeCheck
  • iCourt的AlphaGPT

03 如何提升合同智能审查的输出质量?

合同审查这个活是一个既不允许出错又容易出错的“苦差事”:

  • 不许出错:是因为出错后的代价极高,不出错和规避合同风险是合同审查的核心目标。
  • 容易出错:是因为审合同这件事情的专业属性高,不仅需要具备专业的法律知识,还需要根据企业所处行业和自身业务情况进行综合判断。

所以合同审查最终输出审查结果的准确度至关重要,直接决定了产品是否可以用。

合同智能审查常规的处理流程是:

用户上传需要审查的合同文件 -> 然后系统来进行合同的风险识别与评估 -> 最后生成风险评估结果与修改建议。

其中合同的风险识别与评估是合同审查的关键环节,可以将其拆分为两个流程节点:

  • 合同信息要素的抽取
  • 合同信息要素的审查

这两个流程节点决定了审查的准确性,合同信息要素抽取的准不准?抽取后对合同信息要素分析的准不准?是否能够识别到其中的风险点?能否给风险进行评级,能否基于识别到的风险给出修改建议等等,以上这些问题环环相扣,都影响着合同审查的输出结果。

目前对于合同智能审查的主流解决方案:

模型 + RAG + 法律场景下的工程化解决方案

1. 模型方面

在模型方面,像主流的大模型厂商OpenAI,Anthronpic,Meta,字节,阿里,DeepSeek等通用模型能力在都不断提升,同时像PowerLawGLM,LaWGPT,JurisLMs等垂直法律大模型也在不断迭代发展,随着时间的推移,模型对信息要素提取与处理的能力肯定会不断地增强。

但模型只是决定了合同智能审查输出质量的下限。

因为大语言模型它本质上是基于概率预测进行内容的生成,所以“幻觉”问题一直是一个无法避免的问题。

图片来源:Hallucination-Free?Assessing the Reliability of Leading AI Legal Research Tools – Stanford

这是斯坦福研究团队对比了不同AI法律工具在输出质量上对于“幻觉”与“输出不完整性”的数据数表现情况。

而合同审查又是一个严肃且不容出错的业务场景,所以只靠大语言模型本身来做合同审查这项一下复杂的推理任务,是远远不够的,所以就进入到下一个阶段:模型+RAG。

2. RAG 检索增强生成

RAG检索增强生成(Retrieval-Augmented Generation)

现在只要涉及到垂直领域的智能体应用,RAG几乎是一个标配模块,用于增强大语言模型的信息输入,从而提升大语言模型的输出质量。

图片来源:Hallucination-Free?Assessing the Reliability of Leading AI Legal Research Tools – Stanford

通过RAG的方式,能够检索到权威的法律法规与企业自建的风险案例库,识别到合同中存在的风险隐患后,再生成针对性的风险提示与修改建议,确保审查的输出结果有理有据。

大模型+RAG,已经在一定程度上提高了合同审查的输出质量,但是仅做到这一步还不够,因为合同审查是一个复杂的法律推理任务,不仅涉及多领域的法律融合,需要识别出条款间的相互影响,而且还需识别潜在的法律和商业风险,权衡交易主体的利益。

所以在大模型+RAG的基础上,还需要再增加一些“工程化”的解决策略。

3. 法律场景下的工程化解决方案

1) 策略一:人工预设审查规则

审查清单和审查规则是合同审查的基础,只有知道要审什么,怎么审,才能够审对。

不同行业,不同合同类型,审查的内容都不同,要确保审查结果的准确性,需要企业的法务团队将日常审查工作的Know-How进行结构化的知识梳理,输出不同合同类型的审查清单与审查规则,再结合提示词工程的技巧,让模型更好理解。

常见的方式有两种:

第一种是将审查规则与合同类型绑定:软件服务商将审查清单与审查规则与合同类型进行绑定,简化用户审查合同的操作门槛,只需选择对应的合同类型,即可完成合同审查,再通过对话式交互与在线编辑的方式,来修改合同细节。

图片来源:Robin AI

图片来源:Robin AI

第二种是在第一种的基础之上,新增信息输入的维度,比如在用户上传完审查合同后,新增“审查立场”,“审查目的”和 “审查清单”列表,并且支持用户自定义添加和修改审查目的与审查清单,通过提供更丰富的审查背景信息,来提升合同审查的输出质量。

图片来源:无忧吾律

图片来源:AlphaGPT

2) 工作流来拆解复杂任务

一个复杂的法律推理问题,其实都是由环环相扣的小问题组成。

刚刚有介绍过合同审查最基本的两个环节,合同信息要素抽取与合同信息要素审查,由此就可以推出两个基本的工作流节点 (信息抽取与信息审查)。

当然我们要应用在实际业务中,还需要做更细致的工作流拆解。

比方说以审查“违约责任”这个审查点为例,需要先判断合同中是否存在“违约责任”的条款,然后明确“违约行为”的定义,接着再审查违约责任的形式(如:违约金数额计算方式,损害赔偿的范围,解除合同的条件等等),接着再审查免责条款的合法性以及不可抗力条款的关联性,最终若发现问题,再提出修改意见,确保违约责任条款完善,合法,有效。

以上这些问题都能通过工作流的方式进行拆分。

将复杂任务拆分为具体明确的简单任务,通过提高每一个节点推理的准确性,从而提升整体工作流链路的透明度和准确性。

参考资料

  1. Legal Technology Market Statistics Report 2025-2037 — Research Nester
  2. Global Legal Tech Market size & Share Analysis – Growth trends and Forecasts (2025-2030)
  3. Contract Lifecycle Management Market — Astute Analytica
  4. Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools – Stanford
  5. 中国CLM(合同全生命周期管理)市场产业全景研究报告 – TE智库

AI爆程序员失业潮!小扎正开发编程智能体,「中级程序员」剩最后一年?

aigc阅读(105)

今年,编程可能从就业市场上最受追捧的技能之一,变成一种可以完全自动化的技能。

从小扎最近「信心满满」的发言来看,这并不是空穴来风:

到2025年,我们Meta以及其他正在研究这一领域的公司,很可能会开发出一种AI,它能够发挥相当于中级工程师的作用,具备编写代码的能力。

甚至,他还提出了一个「终极设想」——Meta大部分代码的编写,以及AI系统的开发,都将由「人·工智能」工程师来完成,不是「人·类」工程师!

按小扎的话说,未来的人类将从重复性工作中解放出来,去探索更多的可能性,并拥有更强的创造力。

Meta软件工程师的薪酬从E3级别每年18.4万美元,到E9级别每年325.1万美元不等。其中,中级软件工程师的年薪约为50万美元

其实,自2024年末,科技圈便开始充斥着这类雄心勃勃的「预言」。

各个大厂的研究人员和高管们,开始急切地讨论超级智能系统的降临,仿佛一场智能革命即将席卷而来。

Salesforce的老板Marc Bernioff更是放出豪言称,公司今年将停招软件工程师

马斯克:超级AI将于2030年问世

在去年12月的一条推文中,马斯克表示:「到2025年底,AI会超越所有人类个体的智能水平,而到2027-2028年期间,将会超越全体人类的个体智能。」

「到2030年,AI几乎必然会超越全人类的智能总和(概率接近100%)。」

奥特曼:AI将在2025年全面进入就业市场

类似的,OpenAI CEO奥特曼也在今年1月的博客中表示,OpenAI已经掌握构建传统意义上的AGI的方法。

并且他相信,在2025年,可能会看到AI智能体首次「加入劳动力市场」,并实质性地改变公司的产出。

Dario Amodei:2025-2027年有望实现AGI

去年6月,Anthropic CEO Dario Amodei表示,他认为在未来1-3年内实现AGI的「可能性很大」。

一、如何解读AI圈的「未来宣言」?

正如宾大教授Ethan Mollick指出,这些来自业内人士的大胆预测有着明显的目的——他们在筹集资金,抬高股票估值,或许还在说服自己正在创造历史。

而大模型本身,也在稳定性方面存在本质上的缺陷:在某些任务上表现卓越,却在看似更简单的任务上显得力不从心。这种「能力参差不齐」是当前AI系统的核心特征,短期内难以得到根本改善。

但是,将这些预测简单地归类为炒作,是非常不明智的。

无论出于什么目的,AI实验室里的研究人员和工程师,似乎确实真诚地相信他们正在见证一个前所未有的突破。

仅凭他们的这种确信或许不足以令人信服——但越来越多的公开基准测试和演示,开始揭示他们为何会有如此想法。

就像潮水正在以超乎想象的速度上涨。

潮水渐涨

12月下旬,OpenAI发布了全球最强「推理模型」——o3。它在一系列测试中所表现出的令人震惊的进步,可以说完全超出了我们对AI技术水平的预期。

在这之中,有三个基准特别值得关注:

1. GPQA:即便用谷歌也无法解答的博士级测试。

测试中,可以利用互联网的博士在其专业领域内的得分为81%,而在领域之外则跌到了34%。相比之下,o3在整体上实现了高达87%的正确率,首次超越了人类专家。

2. Frontier Math:由数学家创建的非公开数学问题。

这项测试难度极高,此前没有任何AI能够获得超过2%的得分,而o3却取得了25%的正确率。

3. ARC-AGI,题目对于人类相对容易但对AI来说很难的智能体测试。

在这里,o3再次击败了所有之前的AI以及人类基准水平,得分达到了87.5%。

虽然这些测试都有局限性,但它们表明,我们之前认为AI无法逾越的门槛实际上可能会很快被突破。

AI智能体

随着AI变得越来越智能,它们成为了更高效的AI智能体。

智能体又是一个定义模糊的术语,通常指的是能自主实现一系列目标能力的AI。

之前的文章中已经展示了一些早期的智能体系统,而过去几周的发展也向我们证明,至少在一些细分但具有重要经济价值的领域中,实用性的AI智能体已经变得可行。

一个典型例子是谷歌的Gemini及其Deep Research功能——一个定制的研究型AI智能体。

比如,我们问它「从创始人的角度研究,比较高增长创业公司的各种融资方式」。智能体就会立刻制定计划,并阅读了多达173个网站。

几分钟后,一份完整的分析报告就出炉了!其中,包含118个参考文献,篇幅长达17页。

那么,质量如何呢?

作为在沃顿商学院教授创业入门课程超过十年的教师,Ethan Mollick不仅在这个领域发表过文章,自己创办过公司,还写过创业方面的书。

他认为,这份报告相当扎实,也没有发现任何明显的错误,感兴趣的读者可以查看原文进行验证。

此外,教授还指出,AI智能体目前最大的局限不在于准确性,而是只能访问公开的非付费网站,无法获取学术或付费出版物的内容。并且,它的分析也略显肤浅,在面对相互矛盾的证据时缺乏有力的论证。

总结来说,它虽然还比不上最优秀的人类专家,但已经超过了他所见过的许多报告的水平。

Deep Research项目的负责人透露,这仅仅是一个小团队的试点项目。因此可以推测,意愿更强、规模更大团队和公司,也能够实现类似成果。

如今,特定领域的AI智能体已经是实际的产品,而不再是遥不可及的设想。

这就引发了一个问题:是否很快就会出现通用型AI智能体?用户只需提问,这些通用型AI智能体就能通过计算机和互联网来完成任务。

随着时间推移,谜底迟早揭晓。

一旦通用型智能体系统能够可靠且安全地运作,将会带来巨变,因为AI智能体能将在现实世界中,真正发挥作用。

「小进步」不断

智能体和超级智能是实现革命性AI所需的核心要素,但还有许多其他领域也在快速发展。包括AI记忆容量(上下文窗口)的提升,以及赋予它们视觉和语音能力的多模态技术。

回顾一下过往的发展历程,我们就能清晰地看到这种进步。

举个例子,从ChatGPT发布之前,Ethan Mollick就一直用「坐飞机使用wifi的水獭」这个提示词来测试图像和视频模型。

在2023年10月,这个提示词只能生成一个令人毛骨悚然的怪物形象。而仅仅18个月后,多个图像创作工具就能完美驾驭这个提示词了。

根据教授的测试,最新的谷歌Veo 2只需不到15分钟的操作,就可以完成一段30秒的视频生成。(当然还需要一些时间等待视频渲染完成)可以看到,画面中阴影和光线的质量,以及水獭打开笔记本电脑这个细节的处理,都非常精彩。随后,教授再次提升难度,将这个水獭的奇妙故事改编成了80年代风格的科幻动画,让水獭遨游太空。并且,还利用Suno配上了复古风格的主题曲。同样,创作过程几乎不需要人工干预。

二、「洪水」将至,未雨绸缪

纵观这些发展,我们该如何看待各AI实验室关于智能浪潮即将来临的预测?

如今,我们已经看到了AI足以改变诸多脑力工作的能力:o3基准测试突破了之前的壁垒;特定领域的AI智能体能够进行复杂研究;多模态系统可以创造越来越精妙的内容。

而这还仅仅是个开始,更强大的系统和通用型AI智能体即将问世。

面对这些预测,令人担忧的不是这个时间表准确与否,而是我们连应对当前AI能力的准备都不充分,更遑论面对预测成真的可能性了。

当AI研究人员专注于对齐问题时,却很少有人试图勾勒和阐述AI深度渗透的世界会是什么模样——这不仅仅是一个技术问题,更关乎如何选择和部署AI。

生命未来研究所、基础问题研究所和Metaculus的联合创始人,Anthony Aguirre曾写道:

科技公司之所以构建价值万亿美元的AI基础设施,并不是因为指望你每月支付20美元,使用AI工具提高生产力。而是因为他们知道,如果有可能的话,你的老板愿意花数百甚至数千美元,用AI来取代你。

正如开篇Marc Bernioff的「证言」:Salesforce不会在2025年招聘软件工程师,因为AI已经带来了显著的生产力提升。

这波浪潮中,打工人的命运可能被改变,企业可能要转型……它可能与每个人都息息相关。

即将到来的智能浪潮本身并无善恶之分,关键在于我们如何未雨绸缪,如何适应变革。

最重要的是,我们选择如何驾驭它:这些将决定它是成为推动进步的动力,还是引发动荡的源头。

此时此刻就是展开这些讨论的最佳时机,等到浪潮汹涌而至之时,为时晚矣!

参考资料:

https://www.businessinsider.com/mark-zuckerberg-meta-ai-replace-engineers-coders-joe-rogan-podcast-2025-1

https://www.oneusefulthing.org/p/prophecies-of-the-flood

https://controlai.news/p/the-unknown-future-predicting-ai

AIGC「占领」抖音热点

aigc阅读(150)

2024年,UGC平台的内容悄然迭代,头部效应不再明显,AIGC成为UGC平台最重要的玩法之一。

小猫开口唱歌、一键变换发型,最近,抖音刮起了一股AI特效视频风,用户上传图片,即可生成视频内容。

我们观察到,2024年,UGC平台的内容悄然迭代,头部效应不再明显,AIGC成为UGC平台最重要的玩法之一。5月,Remini的黏土风格滤镜在全网风靡,吸引了抖音近三百万用户的参与,此后毛毡滤镜、柯南动画风、绘本风、油画风等一系列的AI滤镜玩法成为抖音用户的创作风向标。

借助于抖音挑战赛的裂变玩法,用户使用这些特效生成的内容在站内刷屏式传播,并多次登上抖音挑战榜,柯南动画风特效相关话题「申请加入柯南侦探团」播放量达到26.8亿次,

技术的飞速进步不断丰富玩法,仅半年时间,AI滤镜的玩法升级,从此前的「图生图」进化到「图生视频」,唱着《APT》的小猫在抖音吸引了1.2亿次的播放,仅需上传一张图片,人或者宠物就可以在AI特效的助力下唱歌、跳舞,面部表情和肢体动作都被调动起来,此类AI特效内容逐渐占据抖音热点。

最近,抖音还推出的新年玩法「AI生成年度单曲」,AI可以根据用户上传的图片,识别并生成相关的年度单曲,产出视频内容。

这一变化是抖音对于内部生态主动调整的结果,2023年妙鸭相机把AI玩图带入大众视野,也展现了其强大的社交带动力。2024年,AI玩法开始逐渐渗透到字节的多个业务线,5月剪映上线了AI内容平台「即梦」,剪映业务负责人张楠称,「抖音,是一个『真实世界』的相机,借助GenAI技术,即梦希望成为想象力世界的相机。」

一、AIGC重塑抖音内容生态

2024年5月,一股黏土风特效席卷全网,这一特效源于AI修图软件「Remini」。Remini在国内每周订阅价格是68元,但在抖音、小红书等社交媒体,用户可以无门槛免费使用这款特效,这种丑萌的风格一定程度上消弭了对于「人」的审美的差距,引发用户的情感共鸣,也展现了AI在内容生态中应用的可能性。

随着AI技术的成熟,此类滤镜开始「量产」,仿佛置身童话世界的「绘本风」、一键成为画中人的「莫奈花园」滤镜等特效不断给用户带来新奇的互动体验,还衍生了一系列IP联动玩法,如切换到平行世界的《模拟人生》滤镜、柯南动画风特效以及借《哈利波特》系列重映而走红的「巫师猫」等,在社交裂变下,AI滤镜重塑了用户与数字内容的交互方式,

技术的飞速迭代也让AI特效玩法从量变到质变,到了2024年下半年,「图生图」逐渐进阶为「图生视频」。

小猫邪魅一笑,说道「我可不是娇滴滴的女王,有的是力气和手段」,一系列让宠物说话的特效开始走红,在这些AI特效的加持下,原本只能靠人工配音和剪辑的宠物内容,借助于AI开始有了表情和性格,「拟人化」的动态让宠物看起来更生动。抖音爆款神曲《APT》也进入这一赛道,通过特效让宠物张嘴唱歌,「APT可爱版」调动了178万用户的参与。

在「羊毛卷」特效中,不管什么发型、什么物种,都可以动态生成羊毛卷,甚至画风逐渐离谱,「万物皆可羊毛卷」话题在抖音播放量达到2亿次,AIGC已经成为抖音内容生态重要的元素。

AI特效之所以能够在抖音刷屏式传播,有赖于「挑战赛」的裂变玩法。抖音特效团队前研发负责人王国晖在作客播客时解释,「字节内部,很长一段时把特效叫做道具。这种创作工具是抖音、TikTok的重要抓手,帮助普通人克服心理障碍,放松表达自己,此外特效也具备更强的跟拍和示范效应,而抖音是很强调跟拍心智的。」

参与门槛低是此类内容能够激发用户参与热情的一大原因,就像此前的对口型、手势舞等跟拍内容,对于普通用户来说,几乎没有创作难度。

AI特效的出现更是让创作「极简化」,用户只需要上传一张图片,即可生成一张特效图片或视频。同时,此类内容又满足了用户的个性化需求,在特效风格基础上,生成的AI内容也有一定的不确定性,带给用户「开盲盒」式的体验。

二、以量搏爆款

技术的进步也意味着创作门槛的降低,突破壁垒后批量制造,不断为用户带来新鲜的互动体验,这也是AI特效热度居高不下的原因。

妙鸭相机创始人张月光此前也提到过,这种新鲜感需要建立在「产品生态化」的基础上,也就是平台提供工具,吸引部分有专业能力的用户参与到模版生产中,以此推陈出新。

抖音平台的各类AI特效模板源源不断输送进内容生态中,也正是基于抖音多年搭建起来的「生态化」特效制作团队。目前抖音的AI特效制作团队主要分为三类,抖音官方、独立特效师和第三方AI特效制作团队。

在抖音的每个AI特效主页,都会注明其创作者,如「治愈绘本风」就源自于抖音官方团队;宠物跳舞的特效「AI图片会跳舞」是源自于认证抖音原创特效师的「强强白绘」;一些宠物唱歌特效则是在小程序「FacePlay」上生成。

早在2017年,抖音就已经组建了特效制作团队,彼时的特效以静态为主,如早期的狗头特效、变漫画脸等,玩法主要是在用户上传的内容上「做加法」。

基于特效的内容创作,早已成为抖音用户核心的创作方式之一,抖音2021年发布的《抖音特效数据报告》中显示,2021年上半年,抖音平台平均每天推出100多个新特效;平均每五个提交的内容中就有一个使用了特效。

之后抖音喊出「人人都是特效师」的口号,吸引外部作者加入,作者可以在特效开放平台「像塑」上制作模版,但对于创作者有一定的技术门槛,有创作者在采访中表示,要会用PS和AE等一些软件设计图案,还需要一些3D内容的制作能力。

目前包括「强强白绘」等在内的抖音特效师的AI模板大都是在「像塑」平台创作,「像塑」会给予现金激励、粉丝增长以及多平台推广的扶持政策,成功打造出爆款特效的创作者,平台还会给特效师对接商单,以及一系列的营销活动,因此大多特效师都靠量产特效搏爆款。

例如创作了「APT可爱版」特效的特效师「椰汁糕」,共在抖音上传了269个特效,但互动超过5万的仅有三个;创作出220万人使用的「AI对口型」特效的「together with you」共上传了617个特效,其绝大多数特效的使用次数都是个位数。

还有一部分AI特效是借助于「AI Mate」「FacePlay」这些第三方平台完成的,用户通常在平台内找到相应的模板生成视频后,再上传到抖音等社交平台。这些平台以会员付费模式为主,如在「FacePlay」app端内,周会员17元、年会员398元,但在其抖音小程序中,用户可以观看广告兑换使用模板的权益。截至目前,抖音的「FacePlay」小程序,已经有1.1亿人使用过,「宠物对口型AI合成」是其主打产品。

通过大量的AI模板输入进抖音生态中,用户的创作门槛不断被拉低,且选择范围扩大,只需要在心仪的模板中上传图片,即可获得对应的特效内容。

三、AI特效同质化

目前特效师在「像塑」平台创作特效并上传到抖音的生产模式,尽管带动了更广泛的创作力量,但更像是抖音在培养特效制作人才,却无法控制人才的流动。剪映推出的AI创作工具「即梦」,一定程度上解决了这一痛点,最核心的生产技术依然捏在平台手里,用户是末端的使用者。

2024年2月,抖音原CEO张楠在卸任后全身心投入到剪映业务中,5月剪映推出了「即梦」。12月有媒体报道称,字节计划提升即梦的产品优先级,尝试用新的路径打造AI时代的「抖音」。不久,张楠首次作为剪映负责人公开现身,提出了相似的想法。

在演讲中,张楠提到,即梦最关注的事情,就是想象的力量,「想象的世界,是不是也可以有一个像抖音一样,用来记录和表达的相机呢?」

动物赛道是即梦首个落地的「想象的世界」,从去年10月起,一批基于动物AI特效的账号悄然起号。

比如「萌宠真萌」以熊猫为主角,通过AI技术生成「拟人」的日常,在视频中,熊猫会买菜、做饭,跟老虎朋友一起玩,甚至还会画眼影和弹琵琶,相似的还有猫的打工和生活日常。此类账号画风和内容大致相同,单条视频却不乏数十万点赞,且涨粉迅速,已然在抖音形成了一种新的内容风格。

当下,UGC平台增长见顶,头部网红以及全民狂欢式的热点内容在减少,与此同时,由于AIGC的使用门槛在降低,尤其是在抖音平台,用户使用AI滤镜几乎没有技术门槛,这种新鲜的内容生成方式给了用户带来个性化的互动体验,此类内容在平台不断升温。

不过这些内容当下还未能承担起关于「即梦」愿景中的创造力和想象力,其生产模式依旧是「批量复制」。不论是上述的AI特效滤镜还是基于AI特效的账号,都存在严重同质化的问题,大量相似内容无疑会加速用户的审美疲劳。

风靡一时的妙鸭相机、黏土特效在风潮过去后再无水花,Remini至今也没能打造出黏土特效2.0。这种低门槛的创作方式也意味着内容迭代迅速,尽管短时间内可以调动用户活力,但就平台内容生态而言,并非健康的生产模式,需要不断推陈出新来维持热度,最核心的创意能力依然是无法补足。

Agent 最全 Playbook:场景、记忆和交互创新

aigc阅读(70)

AI Agent 是我们紧密追踪的范式变化,Langchain 的一系列文章对理解 Agent 的发展趋势很有帮助。在本篇编译中,第一部分是 Langchain 团队发布的 State of AI Agent 报告。他们采访了 1,300 多位从业者,包含开发者、产品经理、公司高管,揭示了 Agent 在今年的现状和落地瓶颈:九成公司都对 AI Agent 有计划和需求,但 Agent 能力的局限让用户只能在少数流程和场景中落地。比起成本和 latency,大家更在乎 Agent 能力的提升,和对其行为的可观测和可控性。

第二部分我们编译了 LangChain 官网的 In the Loop 系列文章中对 AI Agent 关键要素的分析:规划能力、UI/UX 交互创新和记忆机制。文中分析了 5 种 LLM-native 产品的交互方式,类比了 3 种人类的复杂记忆机制,对理解 AI Agent,对理解这些关键要素有所启发。在这一部分我们还加入了一些有代表性的 Agent 公司 case study,如 Reflection AI 创始人的访谈,来展望接下来 2025 年 AI Agent 的关键突破口。

在这个分析框架下,我们期待 2025 年 AI Agent 应用开始涌现,步入人机协作的新范式。对于 AI Agent 的规划能力,以 o3 为首的模型正在展现出很强的反思和推理能力,模型公司的进展正在从 reasoner 逼近到 Agent 阶段。随着推理能力持续提升,Agent 的“最后一公里”会是产品交互和记忆机制,这更可能是创业公司突破的机会。关于交互,我们一直期待 AI 时代的“GUI时刻“;关于记忆,我们相信 Context 会成为 Agent 落地的关键词,个人层面的 context 个性化、企业层面的 context 统一都会让 Agent 的产品体验得到大幅提升。

01.State of AI Agent

Agent 使用趋势:每个公司都在计划部署 Agent

Agent 领域的竞争正在变激烈。在过去一年中,许多 Agent 框架变得普及:例如使用 ReAct 结合 LLM 进行推理和行动、使用 multi-agent 框架进行编排,或者是使用类似 LangGraph 这样更可控的框架。

关于 Agent 的讨论并不全是 Twitter 上的炒作。大约 51%的受访者目前正在生产中使用 Agent。根据 Langchain 按公司规模的数据,100-2000 员工的中型公司在 Agent 投入生产方面最为积极,比例达到63%。

此外,78%的受访者有在近期内将采用将 Agent 投入生产的计划。很明显,大家对 AI Agent 有很强烈的兴趣,但实际要做好一个 production-ready 的 Agent 对许多人来说仍然是一个难题。

尽管技术行业通常被认为是早期的 Agent 使用者,但所有行业对 Agent 的兴趣都在与日俱增。在非技术公司工作的受访者中,有90%已经或计划将Agent投入生产(与技术公司的比例几乎相同,为89%)。

Agent 的常用 use case

Agent 最常用的 use case 包括进行研究和总结(58%),其次是通过定制化的 Agent 简化工作流程 (53.5%)。

这些反映了人们希望有产品来处理那些过于消耗时间的任务。用户可以依赖 AI Agent 从大量信息中提取关键信息和见解,而不是自己从海量的数据中筛选,再进行资料回顾或研究分析。同样,AI Agent 可以通过协助日常任务来提升个人生产力,使用户能够专注于重要事项。

不仅个人需要这种效率的提升,公司和团队也同样需要。客服(45.8%)是 Agent的另一个主要应用领域,Agent 帮助公司处理咨询、故障排除,并加快跨团队的客户响应时间;排在第四、第五位的是更底层的 code 和 data 应用。

监控:Agent 应用需要可观测和可控性

随着 Agent 实现功能变得更加强大,就需要管理和监控 Agent 的方法。追踪和可观测性工具位列必备清单之首,帮助开发人员了解 Agent 的行为和性能。很多公司还使用 guardrail(防护控制)以防止 Agent 偏离轨道。

在测试 LLM 应用程序时,离线评估(39.8%)比在线评估(32.5%)被更常被使用,这反映了实时监控 LLM 的困难。在 LangChain 提供的开放式回答中,许多公司还让人类专家手动检查或评估响应,作为额外的预防层。

尽管人们对 Agent 的热情很高,但在 Agent 权限上普遍还是比较保守。很少有受访者允许他们的 Agent自由地读取、写入和删除。相反,大多数团队只允许读取权限的工具权限,或需要人类批准 Agent 才可以做更有风险的行动,如写入或删除。

不同规模的公司在 Agent 控制方面也有不同的优先级。不出所料,大型企业(2000名以上员工)更加谨慎,严重依赖 “read-only” 权限以避免不必要的风险。他们也倾向于将 guardrail 防护与离线评估相结合,不希望客户看到任何问题。

与此同时,小型公司和初创公司(少于100名员工)更专注于追踪以了解其 Agent 应用程序中发生了什么(而不是其他控制)。根据 LangChain 的调查数据,较小的公司倾向于专注于通过查看数据来理解结果;而大型企业则在全面范围内设置了更多的控制措施。

将 Agent 投入生产的障碍和挑战

保证 LLM 的高质量 performance 很难,回答需要有高准确性,还要符合正确的风格。这是 Agent 开发使用者们最关心的问题——比成本、安全等其他因素的重要性高出两倍多。

LLM Agent 是概率式的内容输出,意味着较强的不可预测性。这引入了更多的错误可能性,使得团队难以确保其 Agent 始终如一地提供准确、符合上下文的回应。

对于小型公司尤其如此,性能质量远远超过了其他考虑因素,有 45.8 %的人将其作为主要关注点,而成本(第二大关注点)仅为22.4%。这一差距强调了可靠、高质量的性能对于组织将 Agent 从开发转移到生产的重要性。

安全问题对于需要严格合规,并敏感处理客户数据的大型公司也普遍存在。

挑战不止于质量。从 LangChain 提供的开放式回答中,许多人对公司是否要持续投入开发和测试 Agent 仍保持怀疑。大家提到两个突出的阻碍:开发 Agent 需要的知识很多,且需要一直跟进技术前沿;开发部署 Agent 需要的时间成本很大,是否能可靠运行的收益又不太确定。

其他新兴主题

在开放性问题中,大家对 AI Agent 展示出的这些能力有很多称赞:

  • 管理多步骤任务:AI Agent 能够进行更深入的推理和上下文管理,使它们能够处理更复杂的任务;
  • 自动化重复性任务:AI Agent 继续被视为处理自动化任务的关键,这可以为用户解放时间,让他们去解决更有创造性的问题;
  • 任务规划和协作:更好的任务规划确保正确的 Agent 在正确的时间处理正确的问题,特别是在 Multi-agent 系统中;
  • 类似人类的推理:与传统LLM不同,AI Agent可以追溯其决策,包括根据新信息回顾并修改过去的决策。

此外大家还有两个最期待的进展:

  1. 对开源 AI Agent 的期待:人们对开源 AI Agent 的兴趣明显,许多人提到集体智慧可以加速 Agent 的创新;
  2. 对更强大的模型的期待:许多人正在期待由更大、更强大的模型驱动的 AI Agent 的下一次飞跃—在那时,Agent 能够以更高的效率和自主性处理更复杂的任务。

问答中很多人也提到了 Agent 开发时最大的挑战:如何理解 Agent 的行为。一些工程师提到他们在向公司 stakeholder 解释 AI Agent 的能力和行为时会遇到困难。部分时候可视化插件可以帮助解释 Agent 的行为,但在更多情况下 LLM 仍然是一个黑箱。额外的可解释性负担留给了工程团队。

02.AI Agent 中的核心要素

什么是 Agentic 系统

在 State of AI Agent 报告发布之前,Langchain 团队已经在 Agent 领域写了自己的 Langraph 框架,并通过 In the Loop 博客讨论了很多 AI Agent 中的关键组件,接下来就是我们对其中关键内容的编译。

首先每个人对 AI Agent 的定义都略有不同,LangChain 创始人 Harrison Chase 给出的定义如下:

AI Agent 是一个用 LLM 来做程序的控制流决策的系统。
An AI agent is a system that uses an LLM to decide the control flow of an application.

对其实现方式,文章中引入了 Cognitive architecture(认知架构) 的概念,认知架构是指 Agent 如何进行思考、系统如何去编排代码/ prompt LLM:

  • Cognitive:Agent 使用 LLM 来语义推理该如何编排代码/ Prompt LLM;
  • Architecture: 这些 Agent 系统仍然涉及大量类似于传统系统架构的工程。

下面这张图展示了不同层次 Cognitive architecture 的例子:

  • 标准化的软件代码(code) :一切都是 Hard Code ,输出或输入的相关参数都直接固定在源代码中,这不构成一个认知架构,因为没有 cognitive 的部分;
  • LLM Call ,除了一些数据预处理外,单个 LLM 的调用构成了应用程序的大部分,简单的 Chatbot 属于这一类;
  • Chain:一系列 LLM 调用,Chain 尝试将问题的解决分成若干步,调用不同的 LLM 解决问题。复杂的 RAG 属于这一种:调用第一个 LLM 用来搜索、查询,调用第二个 LLM 用于生成答案;
  • Router:在前面的三种系统中,用户可以提前知道程序会采取的所有步骤,但在 Router 中,LLM 自行决定调用哪些 LLM ,采取怎样的步骤,这增加了更多的随机性和不可预测性;
  • State Machine ,将 LLM 与 Router 结合使用,这将更加不可预测,因为这样结合放入循环中,系统可以(理论上)做无限次的 LLM 调用;
  • Agentic 的系统:大家也会称为“ Autonomous Agent ”,使用 State Machine 时,对于可以采取哪些操作以及在执行该操作后执行哪些流程仍然存在限制;但当使用 Autonomous Agent 时,这些限制将被删除。LLM 来决定采取哪些步骤、怎样去编排不同的 LLM ,这可以通过使用不同的 Prompt 、工具或代码来完成。

简单来说,一个系统越是“ Agentic ”,LLM 就越大程度地决定系统的行为方式。

Agent 的关键要素

规划

Agent 可靠性是一个很大的痛点。常常会有公司使用 LLM 构建了 Agent,却提到 Agent 无法很好地规划和推理。这里的规划和推理是什么意思呢?

Agent的计划和推理指的是 LLM 思考要采取什么行动的能力。这涉及短期和长期 reasoning ,LLM 评估所有可用信息,然后决定:我需要采取哪些一系列步骤,哪些是我现在应该采取的第一个步骤?

很多时候开发者使用 Function calling(函数调用)来让 LLM 选择要执行的操作。Function calling 是 OpenAI 于 2023 年 6 月首次添加到 LLM api 的能力,通过 Function calling ,用户可以为不同的函数提供 JSON 结构,并让 LLM 匹配其中一个(或多个)结构。

要成功完成一项复杂的任务,系统需要按顺序采取一系列行动。这种长期规划和推理对于 LLM 非常复杂:首先 LLM 必须考虑一个长期的行动规划,再回到要采取的短期行动中;其次,随着 Agent 执行越来越多的操作,操作的结果将反馈给 LLM ,导致上下文窗口增长,这可能会导致 LLM “分心”并表现不佳。

改进规划的最容易解决的办法是确保 LLM 拥有适当推理/计划所需的所有信息。尽管这听起来很简单,但通常传递给 LLM 的信息根本不足以让 LLM 做出合理的决定,添加检索步骤或阐明 Prompt 可能是一种简单的改进。

之后,可以考虑更改应用程序的认知架构。这里有两类认知架构来改进推理,通用认知架构和特定领域的认知架构:

1)通用认知架构

通用认知架构可以应用于任何任务。这里有两篇论文提出了两种通用的架构,一个是 “plan and solve” 架构,在 Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models 一文中提出,在该架构中,Agent 首先提出一个计划,然后执行该计划中的每个步骤。另一种通用架构是 Reflexion 架构,这一架构在 Reflexion: Language Agents with Verbal Reinforcement Learning 中提出,在该架构中,Agent 执行任务后有一个明确的 “反射” 步骤,以反映它是否正确执行了该任务。这里不赘述,详细可看上两篇论文。

尽管这些想法显示出改进,但它们通常过于笼统,无法被 Agent 在生产中实际使用。(译者注:这篇文章发布时还没有 o1 系列模型)

2)特定领域的认知架构

相反,我们看到 Agent 是使用特定领域的认知架构构建的。这通常表现在特定领域的分类/规划步骤、特定领域的验证步骤中。规划和反思的一些思想可以在这里应用,但它们通常以特定领域的方式应用。

AlphaCodium 的一篇论文中举了一个特定的例子:通过使用他们所谓的 “流工程”(另一种谈论认知架构的方式)实现了最先进的性能。

可以看到 Agent 的流程对于他们试图解决的问题非常具体。他们告诉 Agent 分步骤做什么:提出测试,然后提出解决方案,然后迭代更多测试等。这种认知架构是高度专注特定领域的,不能泛化到其他领域。

Case Study:

Reflection AI 创始人  Laskin 对 Agent 未来的愿景

在红杉资本对 Reflection AI 创始人 Misha Laskin 的访谈中,Misha 提到他正在开始实现他的愿景:即通过将 RL 的 Search Capability 与 LLM 相结合,在他的新公司 Reflection AI 中构建最佳的 Agent 模型。他和联合创始人 Ioannis Antonoglou(AlphaGo、AlphaZero 、Gemini RLHF 负责人)正在训练为 Agentic Workflows 设计的模型,访谈中的主要观点如下:

• 深度是 AI Agent 中缺失的部分。 虽然当前的语言模型在广度方面表现出色,但它们缺乏可靠完成任务所需的深度。Laskin 认为,解决“深度问题”对于创建真正有能力的 AI Agent 至关重要,这里的能力是指:Agent 可以通过多个步骤规划和执行复杂的任务;

• 将 Learn 和 Search 相结合是实现超人性能的关键。 借鉴 AlphaGo 的成功,Laskin 强调 AI 中最深刻的理念是 Learn(依靠 LLM)和 Search(找到最优路径)的结合。这种方法对于创建在复杂任务中可以胜过人类的 Agent 至关重要;

• Post-training 和 Reward modeling 带来了重大挑战。 与具有明确奖励的游戏不同,现实世界的任务通常缺乏真实奖励。开发可靠的 reward model,是创建可靠的 AI Agent 的关键挑战

• Universal Agents 可能比我们想象的更接近。 Laskin 估计,我们可能只用三年时间就可以实现“digital AGI”,即同时具有广度和深度的 AI 系统。这一加速的时间表凸显了在能力发展的同时解决安全性和可靠性问题的紧迫性

• 通往 Universal Agents 的道路需要一种的方法。 Reflection AI 专注于扩展 Agent 功能,从一些特定的环境开始,如浏览器、coding 和计算机操作系统。他们的目标是开发 Universal Agents ,使其不局限于特定任务。

UI/UX 交互

在未来几年,人机交互会成为 research 的一个关键领域:Agent 系统与过去的传统计算机系统不同,因为延迟、不可靠性和自然语言界面带来了新的挑战。因此,与这些 Agent 应用程序交互的新 UI/UX 范式将出现。Agent 系统仍处于早期阶段,但已经出现多种新兴的 UX 范式。下面分别进行讨论:

1)对话式交互 (Chat UI)

聊天一般分为两种:流式聊天(streaming chat)、非流式聊天(non-streaming Chat)。

流式聊天是目前最常见的 UX。它是一个 Chatbot,以聊天格式将其思想和行为流回——ChatGPT 是最受欢迎的例子。这种交互模式看起来很简单,但也有不错的效果,因为:其一,可以使用自然语言与 LLM 进行对话,这意味着客户和 LLM 没有任何障碍;其二,LLM 可能需要一段时间才能工作,流式处理使用户能够准确了解后台发生的事情;其三,LLM 常常会出错,Chat 提供了一个很好的界面来自然地纠正和指导它,大家已经非常习惯于在聊天中进行后续对话和迭代讨论事情。

但流式聊天也有其缺点。首先,流式聊天是一种相对较新的用户体验,因此我们现有的聊天平台(iMessage、Facebook Messenger、Slack 等)没有这种方式;其次,对于运行时间较长的任务来说,这有点尴尬—用户只是要坐在那里看着 Agent 工作吗;第三,流式聊天通常需要由人类触发,这意味着还需要大量 human in the loop。

非流式聊天的最大区别在于响应是分批返回的, LLM 在后台工作,用户并不急于让 LLM 立刻回答,这意味着它可能更容易集成到现有的工作流程中。人们已经习惯了给人类发短信——为什么他们不能适应用 AI 发短信呢?非流式聊天将使得与更复杂的 Agent 系统交互变得更加容易—这些系统通常需要一段时间,如果期望即时响应,这可能会令人沮丧。非流式聊天通常会消除这种期望,从而更轻松地执行更复杂的事情。

这两种聊天方式有以下优缺点:

2)后台环境 (Ambient UX)

用户会考虑向 AI 发送消息,这是上面谈到的 Chat,但如果 Agent 只是在后台工作,那我们该如何与 Agent 交互呢?

为了让 Agent 系统真正发挥其潜力,就需要有这种允许 AI 在后台工作的转变。当任务在后台处理时,用户通常更能容忍更长的完成时间(因为他们放宽了对低延迟的期望)。这使 Agent 可以腾出时间做更多的工作,通常比在聊天 UX 中更仔细、勤奋做更多推理。

此外,在后台运行 Agent 能扩展我们人类用户的能力。聊天界面通常限制我们一次只能执行一项任务。但是,如果 Agent 在后台环境运行,则可能会有许多 Agent 同时处理多个任务。

让 Agent 在后台运行,是需要用户信任的,该如何建立这种信任?一个简单的想法是:向用户准确展示 Agent 在做什么。显示它正在执行的所有步骤,并让用户观察正在发生的事情。虽然这些步骤可能不会立即可见(就像在流式传输响应时一样),但它应该可供用户点击并观察。下一步是不仅让用户看到发生了什么,还让他们纠正 Agent 。如果他们发现 Agent 在第 4 步(共 10 步)中做出了错误的选择,客户可以选择返回第 4 步并以某种方式更正 Agent 。

这种方法将用户从 “In-the-loop” 转变为 “On-the-loop”。“On-the-loop”要求能够向用户显示 Agent 执行的所有中间步骤,允许用户中途暂停工作流,提供反馈,然后让 Agent 继续。

AI 软件工程师 Devin 是实现类似 UX 的一个应用程序。Devin 运行时间较长,但客户可以看到所采取的所有步骤,倒回特定时间点的开发状态,并从那里发布更正。尽管 Agent 可能在后台运行,但这并不意味着它需要完全自主地执行任务。有时 Agent 不知道该做什么或如何回答,这时,它需要引起人类的注意并寻求帮助。

一个具体的例子是 Harrison 正在构建的电子邮件助理 Agent 。虽然电子邮件助理可以回复基本电子邮件,但它通常需要 Harrison 输入某些不想自动化的任务,包括:审查复杂的 LangChain 错误报告、决定是否要参加会议等。在这种情况下,电子邮件助理需要一种方法来向 Harrison 传达它需要信息来响应。请注意,它不是要求其直接回答;相反,它会征求 Harrison 对某些任务的意见,然后它可以使用这些任务来制作和发送一封漂亮的电子邮件或安排日历邀请。

目前,Harrison 在 Slack 中设置了这个助手。它向 Harrison 发送一个问题,Harrison 在 Dashboard 中回答它,与其工作流程原生集成。这种类型的 UX类似于客户支持 Dashboard 的 UX。此界面将显示助手需要人工帮助的所有区域、请求的优先级以及任何其他数据。

3)电子表格 (Spreadsheet UX)

电子表格 UX 是一种支持批量处理工作的超级直观且用户友好的方式。每个表格、甚至每一列都成为自己的 Agent,去研究特定的东西。这种批量处理允许用户扩展与多个 Agent 交互。

这种 UX 还有其他好处。电子表格格式是大多数用户都熟悉的 UX,因此它非常适合现有的工作流程。这种类型的 UX 非常适合数据扩充,这是一种常见的 LLM 用例,其中每列可以表示要扩充的不同属性。

Exa AI、Clay AI、Manaflow 等公司的产品都在使用这种 UX,下以 Manaflow举例展示这种电子表格 UX 如何处理工作流程。

Case Study:

Manaflow 如何使用电子表格进行 Agent 交互

Manaflow 的灵感来源于创始人 Lawrence 曾任职的公司 Minion AI,Minion AI 构建的产品是 Web Agent 。Web Agent 可以控制本地的 Geogle Chrome,允许其与应用程序交互,例如订机票、发送电子邮件、安排洗车等。基于Minion AI 的灵感,Manaflow 选择让 Agent 去操作电子表格类的工具,这是因为 Agent 不擅长处理人类的 UI 界面,Agent 真正擅长的是 Coding。因此 Manaflow 让 Agent 去调用 UI 界面的的 Python 脚本,数据库接口,链接API,然后直接对数据库进行操作:包括阅读时间、预定、发邮件等等。

其工作流如下:Manaflow 的主要界面是一个电子表格(Manasheet),其中每列代表工作流程中的一个步骤,每行对应于执行任务的 AI Agent。每个电子表格的 workflow 都可以使用自然语言进行编程(允许非技术用户用自然语言描述任务和步骤)。每个电子表格都有一个内部依赖关系图,用于确定每列的执行顺序。这些顺序会分配给每一行的 Agent 并行执行任务,处理数据转换、API 调用、内容检索和发送消息等流程:

生成 Manasheet 可以的方法为:输入类似上面红色框里的自然语言,如上图中想向客户可以发送定价的邮件,就可以通过 Chat 输入 Prompt,来生成 Manasheet。通过 Manasheet 可以看到有客户的姓名,客户的邮箱,客户所属的行业,是否已经发送邮件等信息;点击 Execute Manasheet 即可执行任务。

4)生成式 UI (Generative UI)

“生成式 UI”有两种不同的实现方式。

一种方式是由模型自行生成需要的的原始组件。这类似于 Websim 等产品。在后台,Agent 主要编写原始 HTML,使其能够完全控制显示的内容。但是这种方法允许生成的 web app 质量有很高的不确定性,因此最终结果可能看起来波动较大。

另一种更受约束的方法为:预定义一些 UI 组件,这通常是通过工具调用来完成的。例如,如果 LLM 调用天气 API,则它会触发天气地图 UI 组件的渲染。由于渲染的组件不是真正生成的(但是有更多选择),因此生成的 UI 将更加精致,尽管它可以生成的内容不完全灵活。

Case Study:

Personal AI 产品 dot

举例来说,在 2024 年曾被称为最好的 Personal AI 产品的 Dot,就是一个很好的生成式 UI 产品。

Dot 是 New Computer 公司的产品:其目标是成为用户的长期伴侣,而并不是更好的任务管理工具,据联合创始人Jason Yuan讲,Dot 的感觉是,当你不知道该去哪里、该做什么或该说什么时,你就会求助于 Dot。这里举两个例子介绍产品是做什么的:

• 创始人 Jason Yuan 常常在深夜让 Dot 推荐酒吧,说自己想要一醉方休,断断续续几个月,某天下班之后,Yuan 再次问了相似的问题,Dot 竟然开始劝解 Jason,不能再这样下去了;

• Fast Company 记者 Mark Wilson,也和 Dot 相处了几个月的时间。有一次,他向 Dot 分享了书法课上他手写的一个「O」,Dot 竟然调出了几周前他手写「O」的照片,夸他的书法水平提高了。

• 随着使用Dot的时间越来越多,Dot 更加理解了用户喜欢打卡咖啡馆,主动推送给主人附近的好咖啡馆,附上了为何这个咖啡馆好,最后还贴心的询问是否要导航.

可以看到在这个咖啡馆推荐的例子中,Dot 通过预定义 UI 组件,来达到 LLM-native 的交互效果。

5)协作式 UX(Collaborative UX)

当 Agent 和人类一起工作时会发生什么?想想 Google Docs,客户可以在其中与团队成员协作编写或编辑文档,但倘如协作者之一是 Agent 呢?

Geoffrey Litt 和 Ink & Switch 合作的 Patchwork项目是人类- Agent 合作的一个很好的例子。(译者注:这可能是最近 OpenAI Canvas 产品更新的灵感来源)。

协作式 UX 与前面讨论的 Ambient UX 相比如何?LangChain创始工程师 Nuno 强调了两者之间的主要区别,在于是否有并发性:

  • 在协作式 UX 中,客户和LLM 经常同时工作,以彼此的工作为输入;
  • 在环境 UX 中,LLM 在后台持续工作,而用户则完全专注于其他事情。

记忆

记忆对于好的 Agent 体验至关重要。想象一下如果你有一个同事从来不记得你告诉他们什么,强迫你不断重复这些信息,这个协作体验会非常差。人们通常期望 LLM 系统天生就有记忆,这可能是因为 LLM 感觉已经很像人类了。但是,LLM 本身并不能记住任何事物。

Agent 的记忆是基于产品本身需要的,而且不同的 UX 提供了不同的方法来收集信息和更新反馈。我们能从 Agent 产品的记忆机制中看到不同的高级记忆类型——它们在模仿人类的记忆类型。

论文 CoALA: Cognitive Architectures for Language Agents 将人类的记忆类型映射到了 Agent 记忆上,分类方式如下图的所示:

1)程序记忆(Procedural Memory):有关如何执行任务的长期记忆,类似于大脑的核心指令集

• 人类的程序记忆:记住如何骑自行车。

• Agent 的程序记忆:CoALA 论文将程序记忆描述为 LLM 权重和 Agent 代码的组合,它们从根本上决定了 Agent 的工作方式。

在实践中,Langchain 团队还没有看到任何 Agent 系统会自动更新其 LLM 或重写其代码,但是确实存在一些 Agent 更新其 system prompt 的例子。

2)语义记忆(Semantic Memory): 长期知识储备

• 人类的语义记忆:它由信息片段组成,例如在学校学到的事实、概念以及它们之间的关系。

• Agent 的语义记忆:CoALA 论文将语义记忆描述为事实存储库。

在实践中上,常常是通过使用 LLM 从 Agent 的对话或交互中提取信息来实现的。此信息的确切存储方式通常是特定于应用程序的。然后这些信息在将来的对话中检索并插入到 System Prompt 中 以影响 Agent 的响应。

3)情景记忆(Episodic Memory):回忆特定的过去事件

• 人类的情景记忆:当一个人回忆起过去经历的特定事件(或“情节”)时。

• Agent 中的情景记忆:CoALA 论文将情景记忆定义为存储 Agent 过去动作的序列。

这主要用于让 Agent 按预期执行动作。在实践中,情景记忆的更新通过 Few-Shots Prompt 的方法实现。如果相关更新的 Few-Shots Prompt 足够多,那么接下来的更新就通过 Dynamic Few-Shots Prompt 来完成。

如果一开始就有指导 Agent 正确完成操作的办法,后面面对同样的问题就可以直接使用这种办法;相反,如果不存在正确的操作方式,或者如果 Agent 不断做新的事情,那么语义记忆就会更重要,反而在前面的例子中,语义记忆不会有太大帮助。

除了考虑要在 Agent 中更新的记忆类型外,开发人员还要考虑如何更新 Agent 的记忆:

更新 Agent 记忆的第一种方法是 “in the hot path”。在这种情况下, Agent 系统会在响应之前记住事实(通常通过工具调用), ChatGPT 采取这种方法更新其记忆;

更新 Agent 记忆的另一种方法是 “in the background” 。在这种情况下,后台进程会在会话之后运行以更新记忆。

比较这两种方法,“in the hot path” 方法的缺点是在传递任何响应之前会有一些延迟,它还需要将 memory logic 与 agent logic 相结合。

但是, “in the background ”可以避免这些问题 – 不会增加延迟,并且 memory logic 保持独立。但是“in the background ”也有其自身的缺点:记忆不会立即更新,并且需要额外的 logic 来确定何时启动后台进程。

更新记忆的另一种方法涉及用户反馈,这与情景记忆特别相关。例如,如果用户对某次交互标评分较高(Postive Feedback),Agent 可以保存该反馈以备将来调用。

基于以上编译内容,我们期待规划、交互、记忆三个组件的同时进步,会让我们在 2025 年看到更多可用的 AI Agent,进入人机协同工作的新时代。

Reference

https://www.langchain.com/stateofaiagents

https://blog.langchain.dev/tag/in-the-loop/

https://www.sequoiacap.com/podcast/training-data-misha-laskin/

https://www.youtube.com/watch?v=pBBe1pk8hf4

https://www.qodo.ai/products/alpha-codium/?ref=blog.langchain.dev

https://news.ycombinator.com/item?id=41259754

https://arxiv.org/pdf/2309.02427

https://github.com/mem0ai/mem0

AI创新加速:揭秘Coze、元器、Dify、千帆、百炼如何推动Agent开发新纪元

aigc阅读(76)

随着大模型迭代的浪潮一波接一波地推高技术前沿,Agent技术已经成为大模型落地的主流选择,并被视为赋予大模型更广阔能力的最佳路径。从理解复杂的指令,到处理多模态信息,从简单的问答系统到复杂的决策支持系统,从个性化推荐到自动化的业务流程管理,陆续在更多领域展现出其巨大的潜力和价值,它正在为社会带来深刻的变革。

在这场趋之若鹜的群体行动中,面对这项持续发展变化的技术簇,我们应采取一种积极探索与谨慎评估并重的策略——既要保持理性,也要保持乐观,以此来应对不确定性。技术的更新迭代需要时间与耐心,而技术的应用则需了解其限制和准确判断业务场景。

要有效利用大模型,首先,必须明确他们的优势和不足(图1)。接下来,整理业务操作流程即业务SOP,确保对业务场景有深刻理解和准确的认知。其次,对领域知识进行必要的梳理。第四,在搭建Agent的过程中,尽可能的规避LLM的局限(例如,通过多轮对话精准捕捉识别用户意图)。第五,要做好企业内专业资料的处理和必要工具的建设。最后,准备好对Agent进行持续的优化(效果优化),从而在应用大型模型时发挥其优势,规避弱点。

一、大模型原生能力&局限

大模型擅长语义理解、逻辑推理以及生成和创作内容。然而,它们目前存在一些限制,包括对特定领域的深入理解和时效性不足、有限的记忆能力、在实际情况中的鲁棒性不够,导致错误、潜在的安全风险、推理和规划能力尚待提升、缺少合作意识而无法协同解决复杂问题、以及缺乏视觉和听觉等感官能力,有时生成的信息可能不精确或是虚构的。在构建Agent时,可以通过集成其他技术和能力来补充和改进大模型的这些不足。

另外,一些限制更多地取决于大型模型自身能力的提升。例如,泛化能力和过度拟合现象,这可能导致对含糊不清的信息的理解出现歧义,或者混淆了特定领域的知识。模型处理上下文的能力也受到长度的限制。模型的可解释性和可调试性不足,使其在某些情况下表现得像一个局部的黑箱。由于模型参数众多,推理过程耗时较长。此外,微调模型对高性能的GPU和TPU计算资源的需求也相对较大。

二、Agent

为让大模型更充分的发挥价值,突破当前的局限,主流趋势是通过Agent增强能力(大脑),为大模型增加眼耳鼻口手脚的能力。

2.1 Agent框架

Agent为大模型提供了执行复杂任务、与环境交互、自主决策和长期记忆等关键能力,使得大模型的应用从单纯的语言处理扩展到更广泛的领域,包括自动化任务执行、客户服务、内容创作等,极大地扩展了AI的实用性和影响力。为了实现这样一套解决方案(图2),背后需要用工程化的手段落地——工具链。

2.2 一站式AI Agent开发工具链

Agent开发平台是面向智能体生产场景的一站式开发工具,具备智能体编排、流程搭建、知识库管理、大小模型交互、计量、开放、私有化部署等功能,能够有效提升智能体研发效率,降低研发成本。目前国内知名的Agent开发平台包括百度的千帆、阿里的百炼、字节的Coze、Dify以及腾讯的元器等。

2.3 工具链竞品分析

1)字节Coze

Coze平台专为零代码或低代码(可视化编排)开发者设计,极大地降低了开发门槛,使得非技术人员也能快速上手。

优势:

  • 功能强大(图像流、通过触发器实现自动化的任务调度和执行、多渠道发布)
  • 高度可定制
  • 支持丰富的主流第三方插件
  • 数据源多样

但整体的动线繁琐,用好的门槛比较高。

2)腾讯元器

网站风格一如既往的“节制”,功能布局清晰易懂,用户无需花费脑力去理解网站的结构、布局和导航。该有的元素都有,后续在生态建设上,期待看到更多的可能,包括且不限于更丰富的大模型可选、插件……

3)Dify

是做LLM应用开发平台中最早的一批之一,且功能性甚至比国内头部大厂更突出,相比之下,目前它是是Github上Star数最多的大模型应用开发工具(54000星),是全球LLM Tools增速Top1的开源项目(300万的安装量)。

优势:

  • AI生态相对最好:支持40多家厂商的大模型,对接大模型平台、对接开源大模型,全链路免费。上百种插件
  • 成功打开海外市场
  • 提供云服务和本地部署两种方式,满足了不同用户的需求,同时支持多平台发布应用
  • 自动化流程搭建和数据处理方面具有明显的优势,适合需要构建复杂自动化流程或处理大量数据的用户

4)百度千帆AppBuilder

千帆AppBuilder提供全面便捷的应用开发套件与资源环境,包括大模型驱动的开发组件(文字识别、文生图等多模态能力),内置RAG(检索增强生成)、Agent(智能体)、GBI(智能数据分析)等常用的AI原生应用框架,语音识别、TTS、文生图等AI能力组件,以及各类IAAS云资源。使得开发者能够在一个平台上完成从应用开发到部署的全过程,大大提高了开发效率。

优势:

  • 千帆大模型平台提供了从模型设计、训练到部署、优化的全流程支持
  • 平台42个大模型,预置41个数据集。内置103套Prompt模版及自动化Prompt工程能力
  • 预置的安全模块可以有效控制输入和输出的安全风险,为用户提供全面的模型安全、内容安全和数据安全保障
  • 自研集群,为企业节约了算力成本和时间成本
  • 生态能力强大,预置100+优质官方组件
  • 自主规划准确,支持人工编排以高效还原业务SOP

5)阿里百炼

优势:

  • 开放的模型非常多,除了阿里系之外,支持主流的三方大模型,百川、智谱、零一万物、Meta……
  • 支持进行多轮对话配置,模型支持将选定的历史对话信息作为输入
  • 允许企业开发应用时引入自研插件,与业务场景充分融合

6)竞品分析:核心功能

从Agent构建(编排)、节点(及节点管理)、生态、发布渠道、OPS,5个一级维度,70个三级维度,来评估5个头部供应商的功能,可以看出,在过去一年多的时间里,各家的开发工具链都在快速演进和迭代。

2.4 参与方

以企业内部自建or私有化部署Agent开发平台角度看,利益相关者有Agent开发平台的建造者(自建)or维护人(外采)。有小白用户,有研发能力的Agent开发者(包括插件的开发、知识库的建设等围绕大模型应用的一系列的元素建设),还有外部的三方服务商(提供底层基座大模型、Agent开发套件、解决方案、甚至是上手帮企业调Agent)。

2.5 沉淀的AI资产——生态市场

在大模型的范畴内,新型的AI资产是企业核心价值力的一种体现。包括各种Agent(Mult-Agent)、Flow工作流、业务的SOP、大&小模型、Prompt、插件、知识库、知识图谱、语料、评测集、评测排行榜(含报告)……。这些资产在具体的业务领域应用中,像变形金刚一样,可以单打独斗,也可以组合变形,以解决文本编辑、图像处理、语音识别、智能助手等形态推进企业的产品创新、服务质量的提升、运营效率的改进、营销效果的高转化。

三、Agent开发生命周期

上文介绍了Agent开发工具,有了这些利器,接下来的关键点在于如何巧妙的运用它们?构建并完善Agent,以确保业务效率的显著提升,是展现大模型价值的最佳途径。企业内部做Agent一般经过3个步骤:

其一,业务提需求,搭建Agent,确保POC符合业务预期

其二,正式开发Agent,以及对接业务系统,上线交付

其三,持续运营优化Agent,不断提升效果

四、行业发展趋势VS企业落地关键点

在企业实际搭建Agent的过程中,有三个关键步骤极其重要,必须由企业内部人员主动参与并领导,这是无法通过购买第三方服务来取代的。

其一,是让大型模型理解企业内部的数据、信息和知识,为Agent提供高质量、精确的数据资源,以便让大型模型输出符合业务预期的答案是至关重要的。数据到信息,信息到知识,知识到智慧的转化过程,需要从最终使用者的角度反向思考。如何采集、处理和加工数据、信息、知识才能达到预期效果。这需要在六个方面进行思考:准确性、完整性、全面性、粒度(粗糙或详细)、关联性以及访问或使用权限。信息处理的效果对于企业有效利用大型模型至关重要,这需要具备专业知识的人员掌握与大型模型互动的专门技巧,如提示(Prompt)和知识库或记忆技巧。

其二,通过使用插件,可以实现Agent与企业现有系统的无缝集成,从而提升系统的智能化程度。这一过程通常由开发团队负责编码(或使用如Cursor等代码生成工具)。在此过程中,需要重视元数据的完整性(AI资产管理),以便实现最大程度的复用性,从而提高企业内部系统对接的效率。

其三,在构建Agent之前,我们需要理清业务的标准操作流程(SOP)。在编辑工作流时,开发者需要参照SOP,将大模型、知识库、插件等原始元素进行编排,并通过逻辑节点将流程连贯起来,从而“虚拟重现”业务场景。这三个方面的推进效率和质量,决定了一个企业应用大型模型的效率和效果,也决定了在这场生产力革命中的排位。

可以预见,在2025年,大模型应用将给我们带来更多令人惊叹的“哇哦”时刻,让我们拭目以待~

受作者领域认知深度所限及技术无时无刻不在更新迭代,业界对LLM、AGI、Agent、GPT……的衍生应用必定是珠零锦粲。无法在一篇中尽现全貌,未来可能会彻底推翻当下的种种尝试而不得知。能为大家带去一点点新的启发,以深感欣慰。文中难免有纰漏或不准确的地方,欢迎大家批评指正。

撰写中参考网络上各位同仁的最新观点,拿来主义未打招呼,还望见谅。若有任何建议或意见,欢迎联系作者探讨。

2024年,多少人被AI“割韭菜”?

aigc阅读(58)

随着大模型飞速发展,AI应用也逐渐成熟。过去一年,在很多人还在琢磨能用AI来干啥的时候,已经有不少人靠着AI产品和信息差赚到了“真金白银”。

不过,在一个个看似“钱途光明”的项目里,有些引发了伦理争议,有些是利用噱头炒作的“伪概念”,还有些,则是实打实的骗局。

01.“数字人”以假乱真,AI换脸成“生意”?

2024年,社媒平台上用AI制作的内容明显增多。“小猫张嘴唱歌”“甄嬛机关枪扫射四郎”……AI生成内容成为当下最火的自媒体赛道之一。

有些账号通过Stable Diffusion、midjourney、可灵或即梦生成动漫形象,配上文案,便可收获大批粉丝关注,随后通过商务推广或橱窗带货变现。例如最近迅速涨粉的“人间清醒柒奶奶”“宝藏罗奶奶”等各类奶奶,就成了很多网友的心灵导师和情绪树洞。

图源:小红书截图

值得一提的是,有的社媒平台检测出内容是由AIGC生成,会给作品加上“疑似包含AI创作”的提示;然而由于识别难度越来越大,相当一部分AI作品和账号都能逃过检测。

2024年下半年,有网友称自己在小红书上通过账号矩阵管理软件同时操控1327个AI美女账号,没有任何一个被平台识别出来。

图源:微信截图

如今,很多AI账号仍在受追捧。有用户直言,“好看就可以了,难道那些真人博主就长得和照片一模一样?既然都不真实,是不是AI又有什么所谓?”

于是,“AI数字人”成了很多人“牟利”的手段。有信息流从业者表示,自己通过数字人混剪+真人口播做成广告素材,在各平台投放吸引用户下单,广告投放金额越高,带来的收益也越高,不到四天,便有保健品的广告素材投放突破了30万元。

图源:公众号截图

除了用“数字人”,还有人通过“AI换脸”技术冒充名人进行带货。国家传染病医学中心医生张文宏此前曾表示,短视频平台上有很多用AI合成自己脸和声音的视频,带货蛋白棒等医药保健类产品,自己多次向平台投诉,但仍然层出不穷。

AI换脸内容制作成本低,平台监管却不容易。微信和抖音都曾对使用插件、AI等工具生成虚拟形象直播判定违规或封禁处理。资深产业经济观察家梁振鹏认为,数字人直播带货以及数字人账号的监管难点,主要在于如何辨别这些数字人是否真实存在,以及它们所宣传的产品是否真实可靠;此外,监管机构还需要考虑如何处理涉及名人的仿冒行为,以及如何平衡保护消费者权益和促进创新之间的关系。

这些用AI合成的“诈骗视频”瞄准的通常是辨识能力差、警惕性不高的中老年人。除了张文宏,靳东、雷军等名人,也是经常被“AI换脸”的对象。前段时间,江西宜春一位老年女性就因“靳东”在网络上向“借钱拍戏”,险些向对方转过去200万元。

图源:微博截图

2024年10月,香港警方还曾破获一起AI换脸的“杀猪盘”,通过伪造条件优越的女性吸引男性转账,涉案金额超过3.6亿港元。

随着视频生成模型的发展,平台上的内容很可能会更加“真假难辨”。梁振鹏表示,这无疑会加大平台内容监管的难度;未来,监管机构需要不断提高自身的技术水平,平台也需要积极履行社会责任,加强自我约束和自我管理。

值得一提的是,目前至少有60多个国家制定和实施了人工智能治理政策,我国《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等规定的相继落地,也让刚性治理有了更多具体抓手。

02.智能家电、AI玩具…“沾上”AI就涨价?

2024年是大模型卷应用、卷落地的一年。学习机、眼镜、玩具、甚至床垫,都纷纷做起了“AI+”,强调自身的“智能化”和“陪伴感”。然而,限于技术的成熟度,过去一年大部分搭载AI的硬件或产品实际上并未带来颠覆性的使用体验。

此前,远程控制、网络连接、自动识别与控制是家居产品主打的智能化功能,AI概念火了后,家居产品争相在AI上“整活”:床垫内置AI算法,能根据不同的人体曲线调整高度;洗衣机集成AI智能投放系统,能根据衣物的重量与脏污程度,自动调整洗涤剂的用量……

然而,在很多消费者看来,这些家电的AI功能解决的并不是核心痛点,而且实际使用上也达不到宣传中的智能。某品牌AI床垫的用户表示,护腰气囊晚上间歇性打气噪音不小,睡眠监测时间也不太准确,“感觉像是交了智商税”。

图源:微博截图

家电行业分析师刘步尘表示,目前家电与AI的结合仍处于初级阶段。“过去十几年,家电产品基本上完成了从功能型家电向智能化家电的转变,但家电产品功能需求的本质未变,对AI的要求没有想象的那么紧迫,所以家电也很难成为AI技术应用的典范。”

体验升级不多,但不少融合AI概念产品的价格却先涨了上来。有售卖卡萨帝AI冰箱的销售人员对“搜狐财经”表示,目前AI其实和智能没有什么区别,暂时还做不到帮助用户识别食材、记录保鲜、临期提醒等等。然而,其店内两款AI冰箱产品售价分别为6.9万元和10万元,相比之下不带智能大屏的同类型冰箱价格大约2万到3万;由此计算,“AI冰箱”的溢价能达到2至5倍左右。

图源:微博截图

除了家电,面向儿童、青少年群体的玩具、学习机等产品,结合AI概念后的价格也出现了明显的上涨。

有AI玩具的从业者对新媒体“Tech星球”表示,毛绒AI玩具的硬件成本一般只占到产品售价的十分之一,甚至更低,其搭载的AI方案才是这类玩具卖到几百元、上千元的关键。

然而,玩具的AI对话功能也是“见仁见智”的地方。有家长表示,AI玩具能回答孩子的“十万个为什么”,很省心;但也有家长认为,目前所谓的AI功能还配不上这个价格。Haivivi(跃然创新)的一款佩戴式AI玩具的评论区里,有消费者表示,玩具的价格比天猫精灵还贵了不止一倍,但只有对话功能正常使用,播放音乐和讲故事的功能都不能满足孩子需求。

图源:淘宝截图

互联网分析师张书乐曾对“贝壳财经”表示,目前的AI玩具的价值整体上仍然在对话上体现,AI玩具所能提供的教育能力依然还不足以达成真正的教育意义。盘古智库高级研究院江瀚则认为,AI玩具的优势在于能够结合玩具的趣味性和AI的交互性,未来要解决互动体验和内容创新的问题,使AI玩具能够更好地理解和回应儿童的指令和情感。

03.AI培训课,“小白”最好“割”?

每次有新技术出现,比应用跑得更快的往往是“教你如何用”的培训课程。2024年,AI相关的课程层出不穷,甚至有从业者直言,任何行业都可以用AI来做一遍知识付费。

AI付费课里最热门的,要属以AI绘画、视频创作为主的AI工具应用类课程。这类课程主要面向渴望提升工作技能和发展副业的年轻人,课程价格大多在千元以上,也是被吐槽“割韭菜”的重灾区。

图源:小红书截图

社交平台上很多网友都提到,付费课里的知识、教程在B站和知乎等都能找到类似的免费内容,这些培训机构大多只是将免费的素材和教程进行系统整合,其实赚的还是“信息差”的钱。

不擅长信息检索、又很少体验知识付费的“小白用户”,很容易被包装高大上的课程海报和话术吸引;有网友表示,想报AI课程的主要原因是觉得有老师能答疑,上课互动性更好。这类更习惯传统教学方式的用户,也是各类AI付费课程的主力。

小白们学习新技术的需求,养活了不少培训机构。2024上半年,清华博士李一舟因为违规售卖AI工具类培训课程被封禁,如今仍有人在这一赛道闷声赚钱。

“趣解商业”观察到,如今仍有不少教AI制图、视频创作的课程宣称结课后给学员提供商单帮助变现。例如,有机构的AI绘画相关课程,价格高达5880元,助教表示,如果顺利完成课业测试,学完后100%能接到商单。

图源:微信截图

“趣解商业”发现,商单包括室内设计、AI电商换装图等多种类型的需求,每单价格在20-30元左右;由此计算,要完成将近近200单需求才能回本学费。对有全职工作的学员而言,这显然是件相当考验耐力和兴趣的“副业”;还有单亲妈妈表示,其实并没有想象中好学,除了AI工具,也要会用PS,课时和学习时间都比想象中要长,暂时还没能力接单变现。

在“黑猫投诉”平台上,消费者投诉AI培训机构的案例层出不穷,大部分均是针对交费后“老师找不到人”、被诱导付费后难退款、与承诺的效果不符等问题。

04.套壳AI骗融资,“热钱”涌向大模型?

如果说AI知识付费只是“割韭菜”的初级手段,那用AI概念来圈钱、骗融资,绝对称得上这一领域的“高级骗局”。

2024年,不止一家AI科技公司被曝出财务造假、业务注水。

近期,美国AI教育科技公司AllHere的创始人兼CEOJoanna Smith-Griffin因涉嫌证券欺诈、电汇欺诈和严重身份盗窃被批捕。该公司主推促进家校沟通的聊天机器人,自2020年11月启动A轮融资以来,直至公司于2024年6月倒闭,其创始人一直向投资者传递虚假的财务信息,误导他们对公司的收入、客户群体以及现金储备情况。

图源:微博截图

早在2024年6月,国内一家名为“极目银河”的AI领域明星创业公司“财务爆雷”,CEO陈群在自己租来的别墅中留下一封自白信后消失,信中写道:“(我)是个诈骗犯……(公司)合计有62亿的资金缺口”。根据“36氪”报道,这家公司套壳AI等多个数字科技业务以吸纳融资,实际上,公司多年来一直都没有成熟的产品和业务,项目逐渐无法通过融资获利,最终整个公司走向破产。

图源:微博截图

随着大模型赛道竞争日益激烈,不少创业公司都被“卷”进了墙角。有从业者表示,2024上半年,投资市场还在为争抢大模型创业公司的份额头疼,到了年底,大模型投资人讨论的话题已经变成了“如何卖掉部分手里的大模型创业公司股份?”

有参与过大模型企业融资的投资人对新媒体“Tech星球”表示,比起过去投资看好技术、前景、团队就入手的逻辑,不少机构的内部决策周期越来越长,还会反复计算、评估新钱投出去的回报率。2025年,大模型赛道的融资或许会更加严峻。

新技术带来变革的同时,也会引发乱象和假象。从虚拟人引发的伦理与诈骗问题,到产品借AI之名的价格虚高,再到AI培训课程的良莠不齐以及创业公司的骗融资行径,都在提醒着从业者和消费者“AI汹涌”。比追逐浪潮更重要的,是保持清醒––不被短期的利益蒙蔽,也不被诱人的噱头牵着走。

后Transformer时代,AI将何去何从?(下)|【十万字】深度研报

aigc阅读(44)

展望AI未来

目前AI算法和人类神经系统的区别

数量上

人类的大脑估计已经包含860亿个(10^11次方)神经元,这些细胞信号传递到对方通过多达100万亿(10^15)突触连接。

GPT-4是8个2200亿参数组成的混合专家模型,8 x 220B = 1.76万亿连接,与真实人脑仍然差50多倍。

功耗上

人脑功耗10w。

‌一张NVIDIA A100功耗250w,更别说万卡集群,简单计算相差25万倍。

机制上

人脑神经元种类多样、神经递质多样,多为化学信号,维度信息高。

人工神经元结构简单单一,传递为简单电信号,维度信息低。

结构上

人工神经元之间的连接则是一开始就被固定好了的,比如根据实际需求需要设计一个多大的神经网络网络模型,那么这个网络模型的参数和连接方式就基本已经被固定了。虽然可以通过神经元之间的随机失活等方法可以局部的改变神经网络内部的连接,但是这种改变仍然无法让人工神经元像生物神经元一样根据外界输入的数据信息而选择性的提取需要的特征信息。

生物的神经元之间是没有任何顺序的,可以随时根据外界传入的信息有条件的随意连接,但是人工神经网络内部的神经元之间是有顺序排列的,也就是神经网络的层数,人工神经元只能在神经网络的不同层之间发生连接,由于数学矩阵运算的规律,在同一层神经网络之间的神经元是无法连接的。

而且无论从目前效果和上述的巨大区别上,目前的LLM离真正的AGI还有很大的差距,想象看一个人类拥有互联网级别信息的时候,智慧程度会跟现在LLM一样吗?

所以很多人说数据即将用尽的观点是偏颇的,算法倒是学习效率低下才是本质。

但也说明深度仿生的联结主义潜力巨大。但未来会如何呢?

Transfomer后时代的观点

辛顿和伊利亚 — 压缩即智能

奥特曼在今年10月份接受采访说:伊利亚(OpenAI前首席科学家伊利亚·苏茨克维)总是说,这些模型的真正意义在于压缩,我们要找出如何压缩尽可能多的知识,这就是我们打造人工智能的方式。压缩就像是智慧密钥,我已经对此冥想很久,但我确信自己仍然没有完全理解它,但那里有些更深刻的东西。

就上上文提及到的注意力机制一样。随着进化的脚步,生命体本身由简至繁,而人类历史发展到今天,我们的生存环境和所需要学习、掌握的工作任务和过去的丛林生活复杂到不知多少。为了应对这个变化,大脑会如何进化呢?是发展成一个同时处理庞大的信息并且容量超大的大脑,还是发展成虽然容量不大,但可以迅速地分析信息,并配有一个高效率信息选择和投注机制,将所有计算能力都放在重要的任务上的大脑呢?很明显的,后者更有优势,而且大自然也为我们选择了这个目标。

人脑的注意力是一个用来分配有限的信息处理能力的选择机制。而Transfomer的自注意力是通过概率分布和权重分配实现该机制。

“预测即压缩, 压缩即智能”

这一观点最早由Ilya Sutskever在其博文和访谈中提出。Ilya Sutskever在不同场合提到,当我们谈论“预测下一个Token”时,本质上是在进行信息压缩。一个理想的预测模型, 应该能够以最简洁的形式(即最短的程序或描述)来表示输入数据中的关键模式和规律。预测是通过生成特定数据集的最短程序来实现的【46】。

Geoffrey Hinton从另一个角度阐释了压缩与智能之间的联系。他指出, 人工智能系统之所以能够展现出理解、类比、创新等高级认知能力, 关键在于它们能够发现并利用不同事物和概念之间的共同结构。如果AI系统能够掌握这种高度概括的表示,就可以实现跨域的类比和泛化。而要做到这一点,就需要AI系统从大量表面差异巨大的事例中提炼和压缩出最本质的共性。换言之, 机器要成为一个智能的类比推理者, 首先需要成为一个高效的信息压缩者。

可以抽象的理解为:压缩就是寻找第一性原理的过程,数据越多,总结出的第一性原理更具有普遍性。

综合Sutskever和Hinton的观点, 我们可以得出以下几点认识:

1. 从信息论的角度看, 学习的本质是一个逐步压缩数据的过程。通过在输入数据中发现可泛化的模式和规律, 学习系统可以用更简洁的表示来重构原始信息, 从而降低其描述复杂度;同时减少信息在压缩中的损失。

2. 大规模机器学习, 尤其是基于海量数据训练的深度神经网络, 可以看作是朝着最优压缩逐步逼近的过程。随着模型规模和数据量的增大, 神经网络能够捕捉到越来越抽象和一般化的特征, 其内部表示可以压缩更多的信息。

3. 压缩能力与智能水平密切相关。一个高度智能的系统, 应该能够基于少量信息对世界进行大量的重构和预测。这就要求系统在学习过程中最大限度地提取和内化数据中的关键模式和规律。因此,追求更强的压缩能力, 可以为我们指引通往AGI(通用人工智能)的道路。

杨立昆 — 世界大模型

杨立昆在题为《朝向能学习、思考和计划的机器进发》的演讲中,清晰地指明了以自监督学习为代表的 AI 系统的优缺点。

我们今天正在使用的LLM还无法做到真正的理解世界,这其中有很多原因,但最主要的原因是:LLM的训练方式是用一段缺失了部分文字的文本去训练一个神经网络来预测缺失的文字。事实上,LLM并不预测词语,而是生成字典中所有可能词语的概率分布,然后从概率分布中选择一个词放入文本序列的尾部,再用新生成的文本去预测下一个词,这就是所谓的自回归预测【47】。

但这种自回归的方式与人类的思维方式有很大的不同。人类大部分的思考和规划都是在更抽象的表征层面上进行的–人类对思考的意识只存在于高级表征中-比如人类不是靠像素点识别物体的,而是又像素点形成的光影、轮廓等,知识来源于此,而不是在更深层次的神经网络中,换句话来说,如果输出的是语言(说出的话)而不是肌肉动作,人类会在给出答案之前先思考好答案。但是LLM不这样做,它们只是本能地一个接一个地输出文字,就像人类的某些下意识动作一样。

然而,单靠这种方式,我们并不能真正做到推理,也很难处理非离散的复杂现实数据。要实现人类级别的智能,我们仍然缺少一些至关重要的要素。比如,一个十岁的孩子学会收拾餐桌、把碗盘放进洗碗机,只需看一遍就能学会。而一个17岁的青少年经过大约20小时的练习就能学会开车。然而,我们还没有达到五级自动驾驶,也没有能够帮忙收拾餐桌的家用机器人。

实现真正的智能需要的一个关键能力是“分层规划”,也就是我们人类在面对复杂问题时,能够分阶段、分层次地进行解决。比如从纽约去巴黎,我们会先计划怎么到机场,而不是从一开始就去计算整个行程中每一步的肌肉动作。如何让AI具备这种分层规划能力,目前仍是一个未解的难题。

真正的世界模型是:我对某时刻T时世界状态的想法,叠加此时我可能采取的行动,来预测在时间T+1时的世界状态。这里所指的世界状态并不需要代表世界的一切,不一定需要包含所有的细节,它只需要代表与这次行动规划相关的足够多的信息。

十年来,我们使用生成式模型和预测像素的模型,试图通过训练一个系统来预测视频中将发生什么来学习直观物理,但失败了,我们无法让它们学习良好的图像或视频表征,这表示,我们无法使用生成式模型来学习对物理世界的良好表征。

目前,看起来可以更好地构建世界模型的一种新方法是”联合嵌入”,称为JEPA(联合嵌入式预测架构),其基本思路是获取完整的图像及其损坏或转换的版本,然后将它们同时通过编码器运行(一般来说,编码器是相同的,但也不一定),然后在这些编码器之上训练一个预测器,以根据损坏输入的表征来预测完整输入的表征。JEPA与LLM有什么区别?【48】

LLM是通过重建方法生成输入,生成未损坏、未转换的原始输入,因此必须预测所有像素和细节。而JEPA并不尝试预测所有像素,只是尝试预测输入的抽象表征,从本质上学习世界的抽象表征(例如风吹树叶,JEPA在表征空间中预测,会告诉你树叶在动,但不会预测每个树叶的像素)。

JEPA的真正含义是,以自我监督的方式学习抽象表征,这是智能系统的一个重要组成部分。人类有多个抽象层次来描述世界万象,从量子场论到原子理论、分子、化学、材料,一直延伸到现实世界中的具体物体等,因此,我们不应只局限于以最低层次进行建模。

基于该理念设计的 V-JEPA 是一种“非生成模型”,通过预测抽象表示空间中视频的缺失或屏蔽部分来进行学习。

四、大模型产业链——综述

产业链的价值规则

框架根据具体的工作流尽可能的列出行业,有价值的笔者总结性多讲,没有变动的且基础的介绍一下。

关键的热点行业,笔者会综合讲述中美企业和商业环境的不同之处。

笔者对有价值的定义:

  1. 技术颠覆 — 先发的知识(人才)壁垒
  2. 商业模式颠覆 — 确保和大公司尽量在同一起跑线
  3. 有一定的市场规模的想象空间

五、基础层

算力

这里只讲述整装硬件层面的算力提供商以及基础的软件的趋势。不涉及芯片行业的上游。

LLM对算力的需求飙升

我们看到,为追求Scaling law带来的涌现效应,在位厂商模型训练的算力规模不断扩大,对AI算力基础设施的需求形成支撑。根据中国信通院《中国算力发展白皮书(2023)》,GPT-3的模型参数约为1,746亿个,训练一次需要的总算力约为3,640 PF-days,即以每秒一千万亿次计算,需要运行3,640天;2023年推出的GPT-4参数量可能达到1.8万亿个,训练算力需求上升至GPT-3的68倍,在2.5万个A100上需训练90-100天【49】。

针对LLM的新供应

通用芯片和专用芯片之争

按照芯片的设计理念及用途,AI算力芯片可分为通用芯片和专用芯片,二者各有特点。

通用芯片为解决通用任务而设计,主要包括CPU、GPU(含GPGPU)和FPGA。

专用芯片(ASIC)为执行特定运算而设计,具备算法固化特性,主要包括TPU(Tensor Processing Unit,张量处理器)、NPU(Neural Network Processing Unit,神经网络处理器)等。

在通用算力芯片当中,CPU内核数量有限,采用串行方式处理指令,适合于顺序执行的任务;GPU采用众核结构,最初开发用于图形处理,而后凭借其强大的并行计算能力适用于AI通用计算(GPGPU);FPGA是具备可编程硬件结构的集成电路,其可编程性和灵活性可快速适应AI领域的算法变化。与专用芯片相比,通用芯片主要优势在于灵活性及生态系统的完善性,可适应高速迭代的算法任务,同时GPU保留的渲染能力可适应大模型的多模态发展,而其主要劣势则在于较高的功耗水平和较低的算力利用率。

专用芯片的优势则在于通过算法固化实现了更高的利用率和能耗比,以及更低的器件成本,同时ASIC更适合大规模矩阵运算;其主要劣势是前期投入成本高、研发时间长,且只针对某个特殊场景,灵活性不及通用芯片【50】。

ASIC(Application Specific Integrated Circuit)是专用集成电路,针对用户对特定电子系统的需求,从根级设计、制造的专用应用程序芯片,其计算能力和效率根据算法需要进行定制,是固定算法最优化设计的产物。经过算法固化后,专用芯片与软件适配性较高,从而能够调动更多硬件资源,提高芯片利用率。而通用芯片由于算法不固定,其硬件往往会产生冗余,导致芯片利用率较低。

目前价值最大的仍然是GPU,它更适应高并发多分布式的训练,LLM训练和推理以它为主,95%的算力的都是由它提供。

就像工厂一样,一开始会去买标准的设备(通用芯片)进行生产,后续规模扩大了,更了解客户的需求后,产品变的差异化,这时候会去找产线集成商如西门子,定制化产线(专用芯片);本质上来说,背后就是需求和厂商供应的trade-off(成本等),但是需求是第一位,大规模量产和定制化的前提都是同质化的需求在支撑。

目前,我们对LLM的训练和推理算法皆有不同程度的优化,商业场景还在积极探索,甚至是算法本身都在快速变化,ASIC等专用芯片为时尚早。

GPU适应LLM大规模计算的新技术指标

深度神经网络对计算芯片的需求主要围绕解决两个问题展开:

(1)解决AI计算芯片和存储间数据通信需求,AI模型中,大量运算资源被消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。

(2)在控制功耗的同时不断提升专用计算能力,对AI芯片进行定制,在特定场景下实现AI芯片的高性能和低功耗,解决对卷积、残差网络等各类AI计算模型的大量计算需求。

算力不足如何解决?

众所周知的芯片断供原因,国内厂商无法在正常的渠道买到高端的芯片,如何弥补?

除了走私外,异构芯片的混训(国产芯片+国外芯片;本地计算+云计算)成为了主流,但随着算力的不断补充和IDC的建立,并且模型参数的变小,此类问题将快速解决。能看到的是A100芯片的租赁价格几经对折。

国外的算力中心如特斯拉、谷歌、亚马逊的万卡集群都将在近期建设完成。特斯拉的有10万块H100。

新AI算力市场推算

GPT-4的训练,推理算力成本拆解

训练成本

GPT-4的一次训练费用高达6300万美元,2.15e25 的 FLOPS,使用了约 25,000 个 A100 GPU,训练了 90 到 100 天,利用率(MFU)约为 32% 至 36%。这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。如果他们在云端的每个 A100 GPU 的成本大约为每小时 1 美元,那么仅此次训练的成本将达到约 6300 万美元【51】。

推理成本高于训练成本

ChatGPT 每天在计算硬件成本方面的运营成本为 694,444 美元。OpenAI 需要约 3,617 台 HGX A100 服务器(28,936 个 GPU)来为 Chat GPT 提供服务。我们估计每次查询的成本为 0.36 美分。ChatGPT一年将花费至少2.5亿美元,而训练一个模型仅需一次性花费6300万美元。

训练芯片

在给定训练GPT-3模型所需运算操作数量的情况下,即便得知单卡算力,以及要求的训练时间,量化加速卡数量实际上也存在难度,因为数据集精度、数据集迭代次数,以及GPU的使用效率等等因素都是未知变量【51】。

在此,我们直接采用OpenAI训练集群模型估算结果作为参考:标准大小的175亿参数GPT3模型大概需要375-625台8卡DGX A100服务器进行训练(耗费10天左右时间)。目前来看,训练大模型的硬件投入基本3,000张-5,000张A100 GPU来完成。那么,以单A100卡售价10,000美元来计算,生产大模型所需的训练用GPU一次性采购拉动在千万美元级别,具体金额决定于参与生产大模型的终端用户家数,中性情形下,我们假设8家厂商采购训练卡,单一厂商需求量500台DGX A100服务器,可带来的训练AI加速卡市场空间约为3.2亿美元。

推理芯片

推理应用和实际业务上线关系紧密,硬件需求要结合对效率要求来进行部署。以A100 GPU单卡单字输出需要350ms为基准计算,假设每日访问客户数量为2,000万人,单客户每日发问ChatGPT应用10次,单次需要50字回答,则每日消耗GPU的计算时间为972,222个运行小时(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,对应的GPU需求数量为40,509个。同样以单卡10,000美元的售价计算,2,000万用户上线在推理端所创造的AI芯片市场空间约4亿美元左右,但在中性情形下,假设日活用户数达到1亿用户,在单客户发问次数、单次回答字数不变的情况下,我们测算出推理相关用AI芯片市场空间有望达到20亿美元【51】。

GPU芯片&服务器提供商

国内外芯片市场

全球GPU市场竞争格局较为集中,当前NVIDIA处于市场领导地位,根据Verified Market Research数据,2022年在全球独立GPU市场当中占比约80%。

国产AI云端训练和推理芯片厂商参与者众多,大部分涌现于2017年以后。

(1)华为Atlas 300T训练卡(型号9000)基于昇腾910 AI芯片,单卡算力280TFLOPS FP16;

(2)寒武纪思元370单卡算力256TOPS INT8,是第二代产品思元270算力的2倍;

(3)百度昆仑芯2代AI芯片单卡算力为256TOPS INT8 / 128TFLOPS FP16;

(4)海光DCU的优势则体现在生态兼容性,其ROCm GPU的计算生态和英伟达CUDA[1]高度相似,被称为“类CUDA”,有利于用户可快速迁移,2022年海光深算一号DCU已商业化应用,深算二号正在研发中【52】。

目前国产产品依然与全球领先水平存在2-3年的差距。

国产最强的AI芯片性能大约为512Tflops,不仅不如NVIDIA的A100,甚至只有H100的四分之一左右。例如,寒武纪的思元590在某些特定应用场景下接近A100 90%的性能,但综合性能仍只能达到A100的80%左右。

国产AI芯片企业虽作为后发者,依然拥有市场机会。一方面来看,摩尔定律的迭代放缓使得海外龙头企业开发新产品面临更大的挑战,中国企业有望以更快的速度向海外现有产品看齐,但供应链方面存在不确定性,对后发企业构成利好【53】。

CUDA

GPU的算法和生态系统构建也是GPU设计中的重要部分。GPU算法需要与硬件紧密结合,以提高GPU的性能和效率。同时,GPU的软件生态系统还需要支持各种开发工具和框架,以便开发人员可以更轻松地利用GPU进行高性能计算和机器学习。

基于高层次抽象,英伟达通过CUDA统一编程平台提供了一套完整的开发工具链,包括编译器、调试器和性能分析工具,以及丰富的库函数(加速算子执行、实现卡间通信),为开发者提供了便利,降低使用成本。且CUDA统一编程平台可支持多个操作系统,且支持各类GPU(包括数据中心级产品、消费级产品);全球安装的CUDA兼容的NVIDIA GPU数量已经达到了数亿级别【50】。

由于硬件端AI领域的先发优势,大量的AI深度学习训练开源项目和框架如PyTorch、TensorFlow等与英伟达GPU后端实现了原生适配,且兼容DeepSpeed、Megatron-LM等分布式加速工具;推理端来看,英伟达同样拥有Tensor-RT引擎。总结来说,主流AI软件栈的最佳优化方案均与英伟达CUDA生态及GPU深度耦合。通过日积月累,英伟达硬件环境上的开发者数量众多,有庞大而活跃的社区以及大量可用的文档、教程、论文,开发人员对CUDA的熟悉程度和专业度更高,导致新人采用CUDA面临的时间成本更低。到2023年底,CUDA软件包已累计下载4800万次,证明其广泛的用户基础和开发者社区的活跃度。

英伟达对外部企业、学校、以及不同应用领域均有良好的解决方案,对不同类型客户进行深度绑定服务。

可以说其系统生态的繁荣为其GPU硬件平台提供了最大的开发生态护城河!

能和其英伟达一较高下的,恐怕只有同时掌握前后端并拥有独立开发生态的华为了。

其余的大部分做ai芯片的公司短暂的收入提升来源于国内IDC的建设,渠道为主,生态意识低。

集成算力提供商

AI服务器

一般来讲,服务器的定制化程度高,大厂的服务器是自己采购,自己搭建,中小企业购买会多一点。再加上云计算的趋势,保密单位的需求会硬一点,否则云计算性价比更高。

AI服务器(多个GPU等芯片集成)竞争格局方面,当前互联网云计算厂商的白牌服务器占主导,未来随着边缘侧应用的成熟,品牌服务器厂商份额也有望提升。AI服务器分为品牌和白牌两类。所谓白牌,是由互联网云计算大厂在云计算的规模效应下,与传统的服务器代工厂EMS企业合作开发定制化的“白牌”服务器;所谓品牌,是由专门的服务器厂商开发的面向企业、政府、运营商和金融等销售的通用型服务器【52】。

智算中心

政府

2023年以来,政府智算中心建设的规模与节奏均有显著提升。通过梳理各地政府官网信息,我们整理了2020年-2024年政府智算中心建设情况,发现:

1)2023年以来智算中心建设明显加速,各省市地方政府均在积极推进智算中心建设;

2)2020年-2023年间已投运政府智算中心单期算力建设规模一般在500P以下,而随着AI带动算力需求的提升,单个智算中心的体量提升,2023年下半年之后建设与投运的智算中心出现较多1000P以上的算力规模【49】。

华为昇腾、寒武纪等国产AI算力芯片成为政府主导的智算中心的重要算力基座。北京昇腾人工智能计算中心利用“政府引导+市场化运作”平台建设模式,政府负责顶层设计、政策保障;中关村发展集团负责设施建设、配套服务、提供空间载体,最终使用华为自主研发的昇腾芯片,互利共赢。长沙昇腾人工智能创新中心由长沙市政府和湖南湘江新区共同出资建设,采用基于昇腾910处理器的兆瀚CA9900 AI集群硬件,总算力最高可达1024 PFLOPS(FP16)。政府智算中心建设提速,有望进一步拉动国产AI芯片的需求。

三大运营商

根据三大运营商2024年资本开支指引,运营商投资重心将继续向算力网络建设倾斜。具体来看,中国移动计划2024年在算力网络领域投资475亿元,占当期资本开支的27.5%,同比增长21.5%;中国电信资本开支在产业数字化方面的投资占比同比提升2.5ppt至38.5%,绝对额达到370亿元,其中公司计划在云/算力投入180亿元;中国联通则表示算网数智投资坚持适度超前、加快布局【49】。

三大运营商智算中心建设持续推进。根据2023年度业绩发布会,中国移动计划2024年加快算力多元供给,累计智算规模规划超过17 EFLOPS,新部署智算增幅接近70%;中国电信持续推进智能算力建设,2023年公司智算算力新增8.1EFLOPS,增幅高达279.3%,累计规模达到11.0 EFLOPS,2024年公司预计智算规模将继续提升10 EFLOPS至21 EFLOPS(FP16);根据公司公告,中国联通算力中心已覆盖国家8大枢纽节点和31个省份,数据中心机架规模超40万架,完成29省千架资源布局,骨干云池城市覆盖超230城,MEC节点超600个。我们认为,运营商对智算场景投入的持续加码有望带动服务器、网络设备等算力基础设施需求节节攀升,在电信云网设备侧具备稳定供应能力的厂商有望充分受益。

大型企业

腾讯、百度、阿里、字节、商汤等企业积极推进智算中心布局,阿里张北超级智算中心总建设规模达12000PFLOPS 百度与腾讯均已在全国多个地区建立了智算中心,包括广州、上海、北京等,字节跳动则依托于润泽科技等进行智算中心相关的IDC投资【49】。

互联网厂商当前算力构成仍以英伟达为主。根据TrendForce,中国云计算厂商目前使用的高端AI芯片中英伟达的芯片占比约为80%,当前的国产化率水平较低。考虑到贸易摩擦的影响,海外核心高端AI芯片难以进入大陆市场,国产替代需求迫切性高。

国内AI加速芯片厂商把握发展机遇,有望渗透进入互联网市场。根据TrendForce,2023年在全球AI服务器采购需求中,字节跳动/百度/腾讯/阿里等中国互联网厂商采购占比约8.5%,为AI服务器的重要需求方。我们认为随着AI大模型加速迭代,国内互联网厂商对于AI服务器需求有望进一步提升,国产AI芯片潜在市场空间广阔。

我们看到,互联网厂商积极推动与国产算力芯片的合作,根据公司公告,海光DCU支持包括文心一言在内的多个大模型的适配和应用;百度飞桨与海光DCU实现生态兼容性认证;而华为与百度合作推进昇腾AI上与飞桨+文心大模型的适配。我们认为,随着芯片的性能迭代及生态完善,国产算力芯片在互联网侧的应用有望逐步增加。

总而言之,由于断供的风险,国内芯片的国产化率逐渐提升,但在AI算力方面,主力军仍是英伟达。目前AI将会以通用芯片为主。

算法

这里的算法指的是流派、学习范式等AI底层知识和洞悉的集合,由稀缺的人才掌握,是产业链里的核心的核心,没有之一,算法决定了一切,主流算法的改变,可以改变所有的工作流和产业链行业的价值。

例如之前的CNN等算法的学习范式是监督学习,数据的输入和输出是pair的(匹配的),且需要标准的数据–大量的人工标注,催生了人力密集的数据标注行业,但是自回归的decoder-only transfomer算法下是自监督学习,数据不需要标注,请问新的大模型下,预训练还需要人工标注嘛?RLHF和微调的部分还会需要少量的人工,但也是大大减少了需求。

算法的产出来自于关键的实验室和大公司;可以关注其论文的产出,来跟进;一些跟踪的渠道将会在最后展示。

RVKW

最新RVKW-相比transfomer这种方法有效地捕获了序列中不同位置之间的依赖关系,同时减少了模型的计算复杂度和存储需求;它是RNN的一种,建议大家持续关注,目前该算法还在雏形中,为时尚早,有意思的是,发明该算法的人是中国人彭博。

数据

数据来源

AI公司获取语料数据一般有开源数据库、自有/自建数据–爬虫、购买数据产品授权–专业语料数据服务商处这三种方式。

以GPT-3为例,其训练时使用的语料库数据主要来源为Common Crawl爬虫(60%)、WebText2(22%)、Books1&2(各8%)和Wikipedia(3%)

拥有更高质量、相关的数据,可以更好的训练or微调模型;可获得的数据取决于行业和公司业务,是大模型产业链里最重要的壁垒之一;也往往是大公司的先发优势,初创公司出来公开的数据集,必须通过创新的商业模式来获取更多的数据。

不同国家的数据管理

当然避不开不同国家数据管控问题。

国外:欧盟将数据分割为“个人数据”和“非个人数据”,但个人数据严格属于自然人,企业数据使用权受到极大限制;美国的数据要素制度采取实用主义原则,回避了数据所有权问题,未对数据进行综合立法,只有针对跨境数据主权、行业隐私法、消费者隐私等分别立法。

国内:2022年12月,中共中央国务院《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)对外发布,提出构建中国特色的数据产权制度、流通交易制度、收益分配制度和数据要素治理制度,其中创新数据产权观念,淡化所有权、强调使用权,聚焦数据使用权流通,创造性提出建立数据资源持有权、数据加工使用权和数据产品经营权“三权分置”的数据产权制度框架。三权分置的产权制度,淡化所有权、强调使用权。

生成式数据的版权问题一直是AI发展的法律限制性因素,随着马斯克支持特朗普上台,向特朗普提议解绑前沿科技的法律限制,会是一变动因素。

数据不够?

关于数据量(Training Tokens)和模型大小(Parameters)对于模型的影响,OpenAI在2022年发表的论文有过讨论:在计算量增加10倍时,模型大小增加5倍,数据大小增加约2倍;而计算量再增加10倍时,模型大小增加25倍,数据大小仅增加4倍。

根据非营利研究机构Epoch AI的最新论文,大语言模型会在2028年耗尽互联网文本数据。

这里说的数据仅仅是真实数据,合成or仿真数据将会在AI Infra层详细讲述。

我的观点如上述章节一致,本质上是算法导致的学习效率低下的问题,不是数据规模问题。

六、AI Infra层

软件的市场演进规律

在正式进入介绍产业链前:我先对齐下大家对软件行业的规律:

先有一个breakthrough的应用程序,然后这个突破性的应用程序激发了一个创新阶段,在这个阶段建立基础设施,使类似的应用程序更容易建立,并且基础设施使得这些应用程序被消费者广泛使用【54】。

一家软件公司的成功,通常需要经历以下 4 个阶段【55】:

1. 由于行业、趋势、场景的变化,新的需求出现,这个时候有需求(刚性需求)但没有标准化产品,大型企业尤其是科技公司便在企业内部自建团队,靠几名高技术水平开发者从 0 到 1 手动搭建产品和框架,并在后续自主维护。

2. 技术和解决方案在实验室或企业内部运行一段时间后,开始有人试图抽象出相对通用的框架和产品,并向市场发布,有开源产品–营销、也有闭源产品,1争夺行业标准(技术)。当用户购买产品的 ROI 比使用“开源架构+内部自建团队+维护更新”的方案更高(要有技术开发壁垒)时,2 用户开始付费(商业模式创新切入)。

3. 随着需求的增长,越来越多的客户使用和筛选各类产品,经过一段时间的市场检验,最终收敛到 1-2 款产品(成功找到商业化产品的核心应用场景和 Product/Market Fit),行业标准形成。

4. 成为行业标准的产品和公司将基于现有的技术和产品,提供更多更有价值的功能和服务,提升产品和商业化能力,在商业化方面取得成功,注重防守–全栈解决方案,增加转换难度。

To C差不多,制胜的目标变成了利用生态截取大量流量,再转化。

流量的进出顺序为硬件终端(pc、手机等)> 软件(检索工具 > 社交软件 > 其他);所以依托硬件去做流量的转化有天然的优势,毕竟流量在前,软件公司只能听苹果or安卓终端公司生态摆布,著名的例子就是腾讯想通过微信小程序来躲过苹果商城的苹果税,结果被苹果起诉;当然中国可以没有苹果,但不能没有微信(支付、社交、出行等等的完全生态),唯一软件打得过硬件的反例。

苹果公司在2017年推出的应用服务条款,通过虚拟货币的打赏,应当被视为应用内购买,苹果将从中提取30%的分成,而且必须走苹果支付渠道。所以大家知道为什么国内女主播要求苹果手机用户打赏要走微信小程序打赏or其他非苹硬件了吧。还有ios的游戏充值也比正常渠道贵。

这也是为什么谷歌还自己做了手机等硬件,还有meta扎克伯格疯狂炒元宇宙,想用vr、眼镜等穿戴式设备其他硬件范式推翻移动互联网时代的手机生态,由于光学成像等等原因,很可惜还有很大的距离。

AI Infra产业链

以下对 AI 工作流总体可以拆解成四个垂直模块:数据准备,模型训练,模型部署和产品整合。

LLM流行前,AI模型通用性较低,项目落地停留在“手工作坊”阶段,流程难以统一规范。人工智能已有数十年的发展历史,尤其是2006年以来以深度学习为代表的训练方法的成熟推动第三波发展浪潮。

然而,由于传统的机器学习模型没有泛化能力,大部分AI应用落地以定制化项目的形式,包括需求、数据、算法设计、训练评估、部署和运维等阶段,其中,数据和训练评估阶段往往需要多次循环,较难形成一套标准化的端到端的流程和解决方案,也由此造成了边际成本高、重复造轮子等问题【56】。

大规模预训练模型完成了“从0到1”的技术统一,泛化能力和通用性释放出“从1到100”的落地需求,且存在相对标准化的流程,衍生出AI Infra投资机会。

总而言之,就是算法的变化导致了infra层的变化:有的工作流不需要了,也有新的工作流,且流程相对标准。

数据准备

数据标注

作用:标注机器学习输入 (X, y) 中的 y 部分,在一部分目标变量 y 缺失的业务场景为 AI 模型提供人类先验知识的输入。作为上一代 AI 兴起时最旺盛的需求,在计算视觉领域使用场景相对较多【56】。

重要公司:国外:Scale AI(人工数据标注供应商),Snorkel(使用模型对数据进行合成 / 标注)。国内:海天瑞声等。

商业价值评价:低

LLM无需求,LLM 本身具有很强的自监督属性,输入的数据和输出的数据并不是标准的pair的状态。

由于OpenAI和LLAMA 2的RLHF(Reinforcement Learning from Human Feedback)强调高质量数据对模型训练结果影响的表述;且在训练模型中参与科学家人数和工时最多参与数据反馈。对原来低质量数据标注方法的颠覆,LLM模型不再使用标注数据,而使用人类少量的高质量的反馈。

按照meta 2023年训练llama2购买3万条高质量人类反馈*预计市场参与者10家*一年4次训练模型=2023年美国市场需要120万条,再*10美元的单价=最多1200万美元市场规模。

竞争形式预测:没有大的改变,业务变高端了,邀请专家来反馈,提高单价增值;价值较低,资源壁垒随时可破。大模型公司自己都可以做,没必要外包。

特征仓库

作用:管理机器学习输入 (X, y) 中的 X 部分,离线特征工程,在训练时更灵活地调整需要使用的特征组合和加工方式;在线实时预测,将线上的数据流灵活地提供给 model serving;和线上数据监控,保障模型使用的数据分布与质量的安全性【56】。

在 LLM 大语言模型的场景下,训练和推理数据不以这种形式进行组织,故 Feature Store 在 LLMOps 下没有使用前景。

合成数据

作用:真实数据的补充。做真实数据的“平替”,用AIGC反哺AI。一项来自Epoch AI Research团队的研究预测存量的高质量语言数据将在2026年耗尽,低质量的语言和图像数据存量也将在未来的数十年间枯竭。

面对潜在的数据瓶颈,合成数据即运用计算机模拟生成的人造数据,提供了一种成本低、具有多样性、规避了潜在隐私安全风险的解决方法,生成式AI的逐渐成熟进一步提供技术支撑。

比如,自然语言修改图片的Instruct-Pix2Pix模型在训练的时候就用到GPT3和Stable Diffusion来合成需要的提示词和图像的配对数据集;Amazon也利用合成数据来训练智能助手Alexa,以避免用户隐私问题。合成数据市场参与者较多,独立公司/项目如gretel、MOSTLY AI、datagen、hazy等,数据标注厂商如Scale亦推出相关产品,此外主流科技公司英伟达、微软、亚马逊等均有不同场景的尝试。

图:Instruct-Pix2Pix借助GPT-3、Stable Diffusion生成指令-图像训练数据集

商业价值评价:中

那么在LLM里,合成数据真的有效嘛?答案是否定的,合成数据提取了样本的特征,并进行相似性的替换,特征仍然无变化;且数据本身会和真实数据混合,导致真实的数据特征漂移,噪声变多,大模型过拟合。

但在以强化学习和模仿学习为主自动驾驶算法领域一级具身领域(神经网络端到端的FSD),算法无法覆盖到未曾见过的场景–强化学习的缺点,也就是所谓的coner case,这时候使用合成数据,在仿真平台中训练模型,确实可以提升其在coner case的性能,但仍然有限。

目前英伟达的sim saac等平台也可以做到仿真生成环境,解决coner case的市场规模较小再加上汽车企业的账期较长8-12个月,所以商业价值较中。

国内公司有光轮智能、智平方、Hillbot和银河通用。

查询工具&数据科学工具及平台

作用:广义的数据科学涵盖利用各类工具、算法理解数据蕴藏含义的全过程,机器学习可以视为其中的一种方式和手段;狭义的数据科学也可以仅指代机器学习的前置步骤,包括准备、预处理数据并进行探索性分析等【56】。

一般在开源框架上自研,无商业价值。

模型训练

模型库

作用:机器学习届的 Github,以更 AI-native 的方式组织 AI 开源社区,为 AI 研发提供安卓式的环境【56】。

重要公司:典型代表厂商包括海外的Hugging Face、Replicate,国内关注Gitee(开源中国推出的代码托管平台)和ModelScope(阿里达摩院推出的AI开源模型社区)OpenCSG等项目。

商业价值评价:低

占据着数据科学工作流的入口位置,用户数量较大;但其开源属性增大了其商业化难度,目前变现手段不多。

传统 ML 模型规模小,训练成本低,基本不依赖 Model Hub;大语言模型场景下许多科学家和工程师通过 Model Hub 调用开源的预训练模型和参数,来减少自己从头训练和定制化模型的成本。

小客户开发demo的场景更多!但做自己的模型肯定是脱离模型库的,可以理解为交流模型的论坛。已有龙头,且商业化机会对于专业开发客户小,仅作为营销平台(广告盈利)和做demo。

大模型训练框架

作用:AI 模型训练与推理的核心框架,使模型能够高效的实现计算。以深度学习框架为例,其内嵌实现了以下事情:可以绕开手写 CUDA 代码,直接简单地使用 GPU 搭建模型。这使得深度学习框架门槛变低很多,只需要定义神经网络的结构与损失函数,即可跑通一个基本的模型。可以理解为深度学习的开发软件。

重要产品:Tensorflow (Google), PyTorch (Meta), Jax。

Tensorflow 先发优势明显,早期占据了业界的主流。但其版本管理做得不好,易用性也略逊于 PyTorch,在学界被 PyTorch 后发超越。目前在业界使用 PyTorch 的公司也在变多,但由于迁移成本高,Tensorflow 也有一定公司在使用,况且 Tensorflow 是使用谷歌开发的 TPU 的主要选择。Paddlepaddle(百度)、Mindspore(华为)。大公司掌握,为其深度学习的生态之一,免费使用。

商业潜力:低

尽管这一领域没有显著的商业潜力,但还是在这里介绍一下这类框架,因为这是当前所有 AI 模型的基石,有着很强的生态意义。

训练和推理阶段的计算优化

作用:通过芯片层面或者算法层面优化开发成本和推理计算成本

由于LLM的算法的改变,所有之前的优化办法基本失效。在这里对LLM算法和计算机体系的全面的洞悉是稀缺性的,具有非常高的壁垒(又有大规模语言模型的训练经验,又有对计算机底层系统-存储、计算等的了解的人非常少)。

同时,降低模型的训练和推理成本,是大模型企业竞争的重点,目前价格和成本昂贵是导致大模型没有被大规模使用的头号问题;不管是大模型公司,还是使用大模型的公司付费意愿强,客户覆盖众多。

市场规模上来说:训练和推理的计算成本是大模型企业的最高占比成本。且推理优化的上限要比训练优化的上限更高,具体数字已在算力层表述。无论是采取订阅制还是API的盈利形式,市场规模都将是百亿甚至千亿美金的级别。

商业潜力:极高

目前主要是两种技术路线进行优化:两种一种是硬件层面的优化,一种是直接在AI算法上优化。但国内企业仍需要突破一体机的商业模式。

硬件层面的优化

目前国内硬件优化的公司为主,并且率先商业化,但在在硬件层面上,技术可创造的 margin(提升空间)不大了。比如硬件利用率,理论上最高是 60% 多,现在大家用英伟达的系统和软件已能做到 40%~50%,可提高的空间就是百分之十几。并且GPU优化技术面临着严重的同质化问题,各厂商之间的性能差异并不显著。

潞晨科技:

潞晨的产品重点在于训练与推理一体化解决方案,尤其侧重于训练领域,在推理技术路线上,潞晨仍然主要集中在GPU优化方面。

硅基流动:

硅基流动专注于MaaS模式,通过云端向用户提供Token服务。这一模式要求其具备广泛的模型兼容能力,以支持多种不同的模型和技术手段,并结合云计算管理等一系列增值服务。

清昴智能:

清昴团队源自清华大学计算机系媒体与网络实验室,专注于构建模型部署平台,在底层不同GPU芯片的适配及模型部署服务方面积累了丰富的工程实践经验。团队最近主要集中于与部署相关的MLOps算子以及对国产芯片兼容支持的算子开发。

无问芯穹:

无问团队主要成员来源于清华大学电子工程系。在技术路线的选择上,该团队主要聚焦于GPU利用率和通信的优化以及计算机集成系统优化。

总体而言,纯粹依赖于GPU优化的技术方案面临严重的同质化挑战,现有的开源框架已经达到了较高的性能,使得各厂商在性能表现上的差异化优势不再显著。

AI算法上优化

算法上优化的是没有上限的,潜力最高。

以存换算的推理算法优化+全系统协同优化的趋境科技是该行业的黑马:由清华系MADsys高性能计算机实验室团队组成。

利用推理阶段的KVcache缓存,存储多次提问的相似的问题和答案,避免重复计算,特别是未来的CoT的长推理场景,需要重复推理,成本可以直线下降。

趋境科技创新性地设计了“融合推理(Fusion Attention)”思路来利用存储空间,即便是面对全新的问题也可以从历史相关信息中提取可复用的部分内容,与现场信息进行在线融合计算。这一技术显著提升了可复用的历史计算结果,进而降低了计算量。

尤其在RAG场景中,“以存换算”能够降低把响应延迟降低20倍,性能提升10倍。

在此基础上,趋境科技首创的“全系统异构协同”架构设计也成为重要技术支撑。该架构是首个允许在单GPU卡上支持1Million超长上下文的推理框架,以及首个单GPU上运行2000亿参数MoE超大模型等等。

目前,趋境科技已联合清华大学一起将异构协同推理框架的个人版,名为KTransformers的框架在GitHub开源,并在Hugging Face等开源社区引起广泛关注和讨论。行业合作伙伴也对此兴趣颇高,已有多家知名大模型公司主动抛出橄榄枝,与其共同发起大模型推理相关的项目建设。

模型部署

模型安全和监控

作用:保障线上模型可用性和可观测性,实时保持对模型输出结果和指标的监控。未来会是模型可解释性和安全的重要领域【56】。

重要公司:Fiddler, Arize, Arthur, Whylab。

商业价值评价:目前低

LLMOps 需求:增加,LLM 语境下的 AI 安全将成为重要命题。

LLM 大语言模型的性质比传统 ML 模型更为复杂,有包括 Prompt Engineering 等激活和微调方法存在。为了保障安全性和可解释性,随着 LLM 在软件中的深入落地,对模型的监控和后续管理会有着更高的要求。目前已经有新型公司,如 HumanLoop 在专注这个领域,之前的公司中 Whylab 也在做相应的尝试。

目前,大模型公司本身并不注重安全性,还是在追求性能上,安全问题是否会被大模型公司外包?目前以RLHF为主要对齐手段上,确实不需要外部公司参与模型微调。

模型部署和Serving

作用:模型部署是指把训练好的模型在特定环境中运行的过程。过程中需要最大化资源利用效率,且保证模型部署上线后在用户使用时有优异的性能。出色的部署工具能够解决模型框架兼容性差和模型运行速度慢这两大问题。具体使用场景可以参考下图:

重要公司:BentoML, OctoML【56】。

LLMOps 需求:增加

商业价值评价:目前低

基于 AI 的应用和产品会越来越多,优秀的模型部署能降低模型的推理成本并提高性能,模型部署和 serving 会在 LLMOps 重要的需求,且可能会衍生出模型剪枝、蒸馏等能压缩模型冗余的部署 serving 需求。但都是大模型公司本身在做。

二次开发

开发者工具

作用:为开发出agent工具,提供调用各种细分工具的平台,产出智力成果。

Agent作为最终的LLM产品形态,属于大模型的智能能力的关键一部分,一定会研发,且难度非常小。一方面LLM会将开发者和c端的流量卡在自己平台上,一定会提供不同程度的自定义开发平台(GPT2023年末已经推出agent开发工具商店以及GPTs:无代码的agent应用开发)。

商业价值取决于大模型公司是否会向后整合。

目前有两种商业模式:

1 提供开发工具的开发者平台

国内(Fabarta),模型开发者工具Langchain,Together AI。

2 无代码的agent开发

公司有CoLingo、AutoAgents.ai、Babel、Dify.AI。

向量数据库

作用:非结构化数据库,储存的数据形式为向量 embedding,在推荐系统、搜索引擎、异常检测、LLM、多模态等场景下都是数据输出、搜索、召回的重要形态【56】。

重要公司:Pinecone, Zilliz;国内英飞流/InfiniFlow等

LLM需求:增加,但商业潜力:较低

在 LLM 语境下,向量搜索和查询会在软件中扮演更重要的作用,而向量数据库则会成为这一方向中最重要的基础设施之一。

首先,向量数据库比较核心的技术就是索引(FLAT、HNSW、IVF)、相似度计算(余弦相似)、Embedding(将各种信息转化成向量,降低信息复杂性);这些技术在大模型火之前就有了,时至今日本质上没有显著变化。

其次,赛道进入门槛比较低。无论是大模型提供方,还是传统数据库厂商都可以转型进入这部分业务;这也就导致竞争会变得非常激烈。对于初创型公司来说,无论是拼财力还是拼客户都完全没有优势。

由于其降低成本和实现关键agent检索能力,模型大厂还有云计算厂商主动纳入其能力。

七、大模型层

大模型层,无论海外还是中国,竞争格局非常统一的都是初创公司和互联网企业。

开源 vs 闭源

在生成式 AI 向前推进的过程中,围墙花园依然存在。OpenAI 并不 open 地仅开放商业化付费 API 作为 GPT-3 的使用方式,谷歌的大模型也并未开源。

下图展示了开源社区追赶 AI 模型的时间线,可以看到技术追赶速度正在逐渐变快。那么这个趋势是否会持续呢?如果差距持续缩小或较为稳定,AI 模型开发可能成为 iOS vs 安卓的格局;而还有另一种可能,则是差距逐渐放大,AI 研究所专业化地研发大模型,开源团队主要做中小模型的工作。这一判断的关键因素,会是各团队对 GPT 模仿与超越的进度。

但总归而言:闭源比开源好!且公司一旦做出效果,也会闭源!

大公司采取完全闭源或者部分开源的方式(META开源-为了集中智慧,更好的优化模型;但是训练数据并不开放和输出限制,并不符合最新的开源标准)

1 闭源有数据飞轮,将模型训练的更好

2 开源的盈利模式,只能提供非标准的开发服务,没有规模效应

3 开源发展慢于闭源,但商业化的竞争已然开始,以开源模型为基础的软件,性能和商业化落后

4 软件类的历史,都是开源先,再做闭源产品,天下没有免费的午餐

开源没有但使用者多,生态建立快,使用者还可根据业务需求自行增减功能或进行模型迭代,但是企业开发成本过高,无法及时收回成本,后面只能做为他人开发模型的工作,不具备规模经济优势,注定盈利模式走不通,但可以做营销。

对于下游的应用层开发者来说:

模型选择的问题,企业可以先用好的开源模型开发,再等待闭源模型技术发展突破(也可以同时开发,比较效果),再跟上(大模型层公司一定会提供标准化的工具)。

LLM

LLM的大模型公司是行业里主导玩家,整个产业都会由于该行业的竞争行为而变化。

从公开测试来看,中国大模型与国外模型仍有不小的差距。不过在scaling law的边际效应减小的情况下,仍然可以在最多1年内追上。

海外

直接网站MAU数据说话,Chatgpt和借用OpenAI技术的微软的Bing断崖领先。还有app数据,考虑到大家使用都是通过网站入口进入,app的数据影响较少。

海外的商业化和技术进展整体快于国内市场,有非常好的借鉴意义。

初创企业

1 OpenAI

具有绝对优势地位!利用技术优势的时间差,正在快速商业化和防守!

团队:掏空硅谷人才的顶尖公司,但是由于众所周知的不再“open”和改变企业性质为盈利组织后,一次团队“政变后”,关键科学家伊利亚以及安全团队的出走,企业后续的顶层技术设计能力堪忧。CEO奥特曼是美国孵化器YC(国内奇绩创坛的前身)的总裁。

事实上,近期OpenAI的人事变动颇为频繁,大量关键科研人才流动。此前在今年5月,OpenAI超级对齐团队负责人Jan Leike以及联合创始人、前首席科学家Ilya Sutskever在同一天宣布离职。此外有消息显示,OpenAI另一位联合创始人Andrej Karpathy也已在今年2月离职,并且去年加入该公司的产品负责人Peter Deng也已离职。

随后在8月初,OpenAI联合创始人John Schulman宣布离职,并表示将加入AI初创公司Anthropic。彼时OpenAI公司发言人曾透露,总裁Greg Brockman将休假至今年年底,并且Greg Brockman本人表示这是其自9年前创立OpenAI以来第一次放松。

今年9月OpenAI首席技术官Mira Murati也宣布离职,并表示,“经过深思熟虑,我做出了离开OpenAI这一艰难决定。离开这个深爱的地方从来没有一个理想的时间,但感觉此刻就是最好的选择”。

本月初OpenAI旗下Sora AI视频生成项目负责人Tim Brooks宣布离职,加入OpenAI的主要竞争对手谷歌DeepMind。近日,OpenAI高级研发人员、OpenAI o1推理模型负责人Luke Metz宣布即将从OpenAI离职。

目前OpenAI的招聘重点已经从基础研究转向产品开发和应用领域。

战略方向:根据开发者大会,可以确认OpenAI重点将在继续开发多模态大模型(寻找下一代的Scaling Law以及Cot等等)和寻找商业化(1为基于gpt的开发者提供全栈的开发工具和方案–免代码的GPTs和Assitant 2运营应用软件的平台-Store 3To C的搜索引擎以及Canvas工作台);向后向前整合关键能力。特别是C端,OpenAI一定会去尝试去做大市场的生意。

To C类(获取流量):提供Chatgpt,GPTs agent和GPT-store,奥特曼长期如果想要推翻谷歌,成为新的检索入口,必须要找到新商业模式和生态!(特别是找到和广告商收费,但又不破坏C端客户使用体验的商业模式)。

OpenAI确实在产品化上有所不足,目前OpenAI的招聘重点已经从基础研究转向产品开发和应用领域。此前在2021年,该公司发布的招聘职位中有23%属于一般研究类职位,但在2024年这个比例已降至4.4%。

对于B端(ISV生态工具栈):短期内参考苹果生态(广泛吸引开发团队入住),市场上对C产品收取高额月费享受ai服务,可以短期收钱,但是目前来看大模型竞争随时赶上,赚钱的服务也将会被垂类公司赚走,如何获取和留存大流量;提供统一模型微调和训练工具。为了应对谷歌等大公司整体生态的竞争,必须要走出商业差异化!

与互联网大厂合作:微软占有49%的股份,引用至自己的终端(copolit agent–LLM版搜索引擎救活了微软无人问津的浏览器edge–两年内从8%的市场份额提升至15%!直接挑战谷歌chrome),同时也投资了另一家大模型公司,大公司都会使用大模型来对其企业产品进行agent化和云服务的协同工作!微软同时投资mistral和引入inflection ai的ceo,说明对OpenAI的掌控不强,所以才做的多手准备。BTW,微软云计算的azure上的GPT的api费用要低于OpenAI官网的价格。

对于OpenAI来说,一方面的投资有算力的加成,快速训练,一方面微软也对奥特曼的支持导致了伊利亚想把奥特曼踢出团队的失败。另外根据协议,OpenAI一旦开发出AGI(第五级-AI可以完成一个组织的工作),微软就将失去OpenAI的技术。

总而言之,OpenAI拿算力、数据;微软拿到OpenAI的技术作出产品,赋能业务。

2 Anthropic

创始人达里奥是一个技术天才,在OpenAI的5年间,他先后带领团队开发了OpenAI的早期产品GPT-2和GPT-3,成为首批记录人工智能规模定律和规模化的技术大牛。

正是这段经历,达里奥逐渐意识到AI可能比想象中强大,它带来的安全问题也比想象中更严峻,然而,OpenAI似乎并不能解决他的顾虑。2020年6月,GPT-3问世,半年后他与妹妹丹妮拉决定一同辞职。

OpenAI核心团队出来创业,Anthropic 已经和 亚马逊、Google、Salesforce 达成了战略合作,使用 Google 提供的云服务,并且集成到 Slack 中;Anthropic也表示会进一步扩大与AWS的合作,提出将“从芯片到软件的技术基础,共同推动下一代人工智能研究和开发。”其中就包括合作开发AI芯片,以及AWS业务的进一步渗透。

Anthropic 的成功源于其独特的技术路线和商业策略。首先,Claude 3.5 Sonnet 模型在性能上实现了质的飞跃。根据 Anthropic 官方的数据,该模型在研究生水平推理能力(GPQA)、本科水平知识(MMLU)和编码能力(HumanEval)等多个基准测试中均表现出色,甚至超越了其前身 Claude 3 Opus。

基于Anthropic发布了一项革命性的技术——模型上下文协议(Model Context Protocol,MCP)目标是实现LLM应用程序与外部数据源和工具之间的无缝集成。

因为允许LLM访问和利用外部资源,它的功能性和实用性都会大大增强。解决LLM数据孤岛的问题。使得开发者更容易开发自己的产品。

无论是构建AI驱动的IDE、聊天界面,还是创建自定义的AI工作流,MCP都提供了一种标准化的方式,来连接LLM与它们所需的上下文。

Claude 3.5 Sonnet 引入了革命性的”计算机使用”功能。这项功能允许 AI 模型像人类一样与计算机图形用户界面交互,包括解释屏幕图像、移动鼠标指针、点击按钮,甚至通过虚拟键盘输入文本。这种创新大大拓展了 AI 的应用范围,为企业用户提供了前所未有的灵活性。

此外,Anthropic 还推出了”Artifacts”功能,允许用户直接在聊天界面中与模型输出进行交互和操作。这不仅提高了生产效率,还促进了人机协作的创新。

Anthropic 的成功也得益于其在安全性和道德方面的重视。公司率先提出了”宪法 AI”的概念,为其 AI 模型制定了一套道德准则和行为指南。这种做法不仅赢得了用户的信任,也为整个行业树立了标杆。模型与人类道德强对齐。

3 Mistral AI

Mistral AI成立于法国和2023年4月,由DeepMind和Meta的前科学家共同组建,专注于开源模型及企业级服务。公司成立之初,就获得了英伟达、微软和Salesforce等科技巨头的投资。Mistral AI被视为OpenAI在欧洲的主要竞争对手,据该公司介绍,其开源模型Mixtral 8x22B是市面上参数规模第二大的开源模型,仅次于马斯克的Grok-1。

不过,在与科技巨头的竞争中,Mistral AI面临很大的挑战。今年前三个月,Meta、Google和微软在数据中心建设和其他基础设施的投资总额超过了320亿美元。不过,Mistral AI已与微软建立了长期合作伙伴关系,利用Azure AI的超级计算基础设施训练模型,并共同为客户提供Mistral AI的模型服务。

互联网企业

还有meta、谷歌、亚马逊、推特等自研的模型!谷歌的Gemini和meta的Llama模型,性能都非常不错。且有流量的优势,agent产品化后搭载在自己硬件如谷歌手机,软件如Meta的app上。

关键是谁会赢?

在基础的算力和数据上,初创公司远远不如互联网企业,唯独在算法层面,或者更具体的说:AI算法认知领先,在智能工程上(数据、计算机系统)有一定的开发领先知识和经验。预计和大厂们有个最多8个月的技术优势。然而在scaling law大概率失效下,这个时间将会被快速拉短。

本身大厂们就是算法领域知识产出的主要来源(推荐算法、cv都是互联网厂商的深度学习的拿手好戏,适应新算法很快),本身的transformer算法也是由谷歌提出,且互联网大厂的业务就是cash cow,不缺利润,后期追上很快。只是现在为了市场的竞争,快速合作,ai化产品赋能业务增长,实际上都在自己做模型。

在这种博弈下,初创公司只能不断创造壁垒,保持技术上的领先的同时,找到一条可以挑战互联网企业的商业化路径(至少这里还有无限的可能),否则会被互联网初期免费的策略竞争(基本上互联网企业的模型都免费,或者api价格远低于初创企业,Llama都直接开源的)。所以初创企业和终端应用层的界限将会十分模糊,大模型企业除了提供MAAS的api等服务外,也会提供丰富的产品给到用户。

如果无法成功商业化,那么初创企业基本上就会和上一时代的CV公司一样:商汤、旷世依靠给互联网大厂卖人脸识别api起家,技术成熟后,同质化竞争,单次识别人脸的单价从几毛钱直接降到几厘钱,甚至更低;然后开始寻找二次增长曲线,各种行业(自动驾驶、医疗、to c等等),搞渠道,做非标总包定制化,毛利下降。。。。。

总而言之,初创企业必须找到自己的有壁垒的盈利池,特别是to c领域作为大头,拿到互联网算力和投资后,把握好关系避免过于深入参与业务,要充满想象力和勇敢挑战互联网大厂的业务,否则到头来就是个大厂外包研发团队,有业务能量和技术的等待并购or直接下牌桌。

那么这次的LLM浪潮到底是互联网大厂们的流量竞争的延续还是新时代的降临呢?

国内

初创企业

智谱ai:同时投资生数科技(美术类)和幂律智能(法律类),补充能力和应用层,商业化最成熟,主要面向to b;有语音、文本和图像,有开发平台;智谱 AI 已拥有超2000家生态合作伙伴、超1000个大模型规模化应用,另有200多家企业跟智谱AI进行了深度共创。

近期,在11月末智谱推出自己手机版的AutoGLM之前–可用语言操控手机的agent(LUI),下面应用层,会详细讲述,他的股东蚂蚁集团的著名app-支付宝,在9月份早早就推出了“支小宝”,人们可以和他对话,在支付宝上进行订外卖、订机票等等操作。

月之暗面:to c(主要定位)商业化最好:Kimi智能助手在2024年1月的访问量达142万,在大模型创业公司的“AI ChatBots”产品中居于首位,月环比增长率为94.1%,增长速度也在大模型创业公司中排名第一;技术优势,250ktokens的长文本输入,主打无损记忆;但只有文字,to c入手;最近又有了CoT能力,数字推理能力加强不少。

互联网企业

上述榜单为app使用榜单,非网页版,更符合大家对模型和应用层使用的市场认知。豆包的使用是断崖式的,和自己app业务的赋能,飞书等app内置豆包免费使用,加上宣发和教育板块的扩张。

字节的豆包、360、华为、百度、阿里、美团等等都在出自己的模型。这里面字节和360做的商业化和模型成果结合的不错,流量好。这里要说一句,幻方的deepssek模型通过优化注意力机制和量化的大量GPU(除了字节外,最大的英伟达算力方了),获得了非常好的效果,性能位居世界前列,但不商业化,不赚钱,只开源模型,模型的竞争实在过于强烈。

国内国外的竞争态势几乎一样。不再赘述。

八、应用层——软件

AI应用软件综述

目前应用层的问题在于,大家都是尝试在用,后续使用次数不多,无法利用好大模型的特性与需求贴合。

所以应用层的成功的关键是基于场景的深度理解,做出复用率高的产品!所以MAU、复购率等为关键指标。还是得回到应用场景的关键词:

刚需  长期  高频

应用层公司的模型选择路径

1 利用已有的闭源大模型用自己的数据微调模型:(但要找到合适的盈利模式,抵消流量费用)

训练费用和调用费用:OpenAI对训练和api调用收费。这通常基于使用的计算资源量和使用的模型。

  • GPT-4v训练价格:$0.00800/1K tokens ,promt/输出价格:$0.00900/1K tokens 训练价格:$0.00800/1K tokens,1K tokens 大约750个英文单词,500个汉字,10个亿中文。
  • 训练3次,仅花费35万人民币,关键在使用收费–交互2000次/1美元,大互联网公司一天估计有10亿次交互,每月要缴纳1500万美元,不如直接开发自己的大模型。

2 自研

3 开源大模型再训练

基本上应用层的公司还是微调模型,不自研,也就是所谓的“套壳”,所以他们的壁垒就在于对场景和LLM的理解从而开发出PMF的产品,而技术层面上来说,所有套壳公司要做的事情就是提示词工程-通过LLM偏好的语言习惯,引导LLM最优化的输出结果。

To B & To G–企业服务

海外龙头公司:Saleforce、SAP、Zoom、Adobe、云服务公司等

国内:钉钉、企业微信、飞书、金蝶、用友等

针对大模型的已有的创造和归纳推理能力,可以部分替代美术创意、文字推理归纳。

(一)信息管理类

CRM — AI客服

大型企业如 Salesforce、SAP 和 Workday 也推出自己的 AI Agent 产品。其中,Sales Agent 是目前 AI Agent 主要落地和商业化场景之一。硅谷 VC 围绕 Sales Agent 概念投资了很多 club deal,如完成了 5000 万美元的 B 轮融资,估值 3.5 亿美元的 AI SDR (Sales Development Representative,销售开发代表) 11X,Greenoaks Capital 领投新一轮的 Sierra 估值也达到了 40 亿美金【57】。

与此同时,Agent 公司从按 seats 数量收费的 SaaS 定价模式转向基于结果定价,带来了更大的市场空间和想象力。

目前的 Sales Agent Startup 大多专注于替代或优化销售流程中的某些环节。

AI客服历史

客服市场从上世纪 50 年代发展到今天,主要经历了四个阶段【58】:

传统电话客服(2000 年以前)—多渠道客服(2000 年-2010 年)—云客服(2010 年-2015 年)—AI 客服(2015年至今)。但是即使发展到今天,客服市场竞争格局仍然十分分散。在 LLM 之前,AI 客服依赖于自然语言理解(NLU) 和机器学习,不同的行业需要不同的语料库,客服公司通常仅能在一至两个垂直行业做深,难Scale。

第四阶段的 AI 客服也叫 “对话式 AI(Conversational AI)”,国际主要玩家包括 Kore.ai、Amelia 等。

AI客服技术路径

早期基于 Rule-Base 的 Chatbot 对答是可控、可预测、可重复的,但对话缺乏“人情味”,并且通常不保留已发生的响应,存在重复和循环对话的风险。传统 Chatbot 架构和工具非常成熟,主要包括四个部分:NLU 自然语言理解,对话流程管理(对话流和响应消息,基于固定和硬编码逻辑)、信息抽象(预定每个对话的机器人响应)、知识库检索(知识库和语义相似性搜索)。传统 Chatbot 唯一基于机器学习和 AI 模型的组件是 NLU 组件,负责根据模型预测意图和实体。这种 NLU 引擎的优点是:有众多开源模型、占用空间小/无需过多资源、存在大量的命名实体语料库、有大量垂直行业的数据。后来的 Chatbot 采用更复杂的算法,包括自然语言处理(NLP)和机器学习,来提供动态和上下文相关的交互,从而解决早期基于模板的方法的缺点。

Chatbot 发展到后期出现了 Voicebot。Voicebot 的基本方程式是:Voicebot = ASR(Automatic Speech Recognition) + Chatbot + TTS(Text To Speech)。这些变化增加了复杂性,提供更好的对话效果、更长的对话时间和更多的对话轮次,以及更复杂的对话元素(如自我纠正、背景噪音等)。然而,Voicebot 出现的同时也带来了一系列挑战:有延迟问题、需要更复杂的流程、需要加翻译层、容易出现对话离题、用户打断对话难以解决等。

因此,开发者依然在渴望一个灵活且真正智能的对话管理系统。LLM 的出现从开发到运行都颠覆了 Chatbot  IDE 生态系统:不仅加速了 Chatbot 的开发设计,大大提高了Scalability;而且在对话运行中可以实现上下文交互、灵活且智能的回复。但缺点是稳定性、可预测性较差,以及在某种程度上的可重复性弱。

AI客服需求场景

根据销售工作流,可以将 AI 客服分为几类:

1)营销类外呼:售前场景因为对于模型的理解和智能能力要求较低,是目前比较好的落地场景。Voice agent可以带来更自然的对话体验,同时能够结合分析历史通话数据,实现营销转化的提高。如果遇到太难的问题,LLM 也可以检测后发给普通的客服。

2)销售中:目前LLM还比较少的被应用到直面leads,因为受能力限制,失败了损失过大。但被充分应用于客服培训中,一方面节省了因为电销频繁离职导致的过多培训时间成本;另一方面可以做到知识库实时对齐,成为电销的语音 copilot。

3)投诉/售后服务、客户回访(占比50%):AI 可以帮助客服收集客户投诉,解决简单的售后服务问题(不一定要使用LLM)。同时可以进行大规模的客户回访,也开始被企业广泛的采用。

市场规模

根据 Morgan Stanley 的报告,目前全球大约有 1700 万名客服代理人员,代表着大约 2000 亿美元的全球劳动力市场。随着多渠道协调响应的需求增加(例如电子邮件、社交媒体、聊天),这个市场从传统的客服中心向云服务转型。根据 Morgan Stanley 估计,目前高达 50 % 的客服互动都属于简单直接的类型(例如密码重置、包裹查询、需要退货),随着 AI 解决方案的改进,这些互动未来可能不需要人工客服的参与。但是考虑到客户强烈希望与真人客服交谈的偏好,在保守情况下,未来 5 年内,可由 AI 处理的客服业务将占 10-20 %,并且这一比例预期将增长。因此,Morgan Stanley 认为在未来 5 年内,Contact Center 市场(包括 CCaaS 和 对话式 AI )2027 年市场规模可达约 260 亿美元。

市场格局推测

Sales AI 领域非常Crowded,主要竞争对手可分为三大类:大型公司的销售自动化产品、同类 Gen AI 初创公司、以及上一代 AI 销售软件。

垂直行业的语料库和客户资源在客服 NLU 时代是玩家的竞争壁垒(数据、行业认知和客户资源),所以客户在选择供应商时更看重供应商在垂直行业的经验,因此截至目前 AI 客服市场格局仍然较分散。根据专家访谈,AI 客服市场未来很可能有 20-30 位玩家同时留在场上,重要玩家的收入体量大约可达到 10-30 亿美元。假设 LLM 落地成熟,考虑到 LLM 的通用性,市场格局有可能由分散变为更加集中,更利好头部公司。

众所周知的原因-中国市场的暂未接受订阅制导致软件公司无法像国外企业一样,获得高额的收入。但这也是商业进程问题,美国经历了软硬件一体机的IBM垄断,到Oracle等软硬分离的订阅制挑战,再到目前大模型的API-用多少买多少;每次盈利模式背后都是市场受够了被生产者垄断的剩余剥削,选择了更加平等的盈利模式;中国市场还需要时间。

所以即使收入增长很快,国内企业服务目前在融资低谷(大家更希望看到并购整合,只为活出资本寒冬)。但是原有的AI客服公司明显在新浪潮下,具有更大的先发优势:技术上-只需微调模型;但有大量的数据和场景理解;商业上有固定的渠道客户,新的盈利模式带来进行溢价的升级。期待商业模式的转折,重新将软件类估值抬回应有的水平。

LLM 对 AI 客服市场的技术风险

真正到了落地阶段客户仍更多采用传统机器学习/NLP 的解决方案(客户有定制化和垂直行业解决方案的需求,LLM 对垂直行业的理解和准确性反而不如传统方案),需要限制LLM的幻觉。需要因此目前主要是成立年限较长、有一定行业经验和客户积累的传统公司受益。但传统方案基于关键词进行回答,灵活度较差,用户体验也不够真实,因此该情况有可能仅是过渡阶段。

国内公司有:句子互动、斑头雁、追一科技、百应科技、Stepone等

ERP — 企业搜索

根据 ReportLinker 预测,2028 年,全球企业搜索市场规模将达到$6.9B,2022-2028年 CAGR 为 8.3%【59】。

供需:企业搜索产品的目标用户主要为知识工作者,企业客户覆盖大、中、小型公司,但以大型企业和中等规模公司为主,因为随着企业越来越庞大,积累的结构化、非结构化数据越来越多,员工与员工之间沟通也越来越低效,因此企业越大对企业搜索的需求就越大。

海外企业搜索大致经历了三个阶段:

1. 第一阶段是基于关键词的搜索,用户需要输入关键词或关键词组合进行搜索;

2. 第二阶段是基于语义的搜索,用户可以输入自然语言完成搜索,且搜索的相关性和准确性和第一阶段相比有很大提升。

前面两个阶段的共同特点是,均为用户输入关键词或自然语言,搜索引擎根据相关性对搜索结果进行排序,且搜索结果为网站;

3.第三阶段,也就是现在,搜索出现了新的玩法,ChatGPT 或 Bard 等搜索的结果不再是一条条网站,而是直接提供问题的答案。Glean 属于比较积极拥抱搜索行业的变化的玩家,技术上同时提供语义搜索和关键词搜索的能力,产品上同时提供答案生成和网页排序两种形式。

企业搜索的需求非常明显和稳定,因此该赛道一直比较拥挤,主要玩家包括微软、Google、Amazon、IBM、Oracle 等大型科技企业,以及专注做企业搜索的公司,如 Coveo、Lucidworks、Glean、Mindbreeze 等,这其中有像 Glean 这样新成立的公司,也有像 Coveo 这样已经成立十几年的公司。

与企业服务公司产品为互补品,可拆分,客户离不开原有的企业服务产品,且数据均在原公司,企业检索为增值服务,可短时间内自研。

Glean(谷歌搜索团队创业)

客户:Glean 早期将科技公司视为目标客户,后来更聚焦于成长期科技公司,这些公司的员工数量通常是 500-2,000 人,公司处于高速发展之中,愿意尝试新事物且快速行动。

技术:Glean 利用多维方法将矢量搜索、传统关键字搜索和个性化结合到了一个混合搜索系统中,从而提高了搜索的相关性和准确性。

核心功能是搜索;亮点是个性化和跨应用。

商业价值:Glean 的跨应用搜索相当于在所有 SaaS 产品之上架了一层,用户不需要再逐一打开 SaaS 应用,在 Glean 上就可以查到企业数据,并完成部分高频工作;流量进入入口,并且还能直接有生产力,目前最多的还是员工入职场景(培养使用习惯!)。

商业模式:纯 to B 的模式,未向个人用户开放。Glean 通常为企业提供两种定价模型,一是 Per-Seat 的定价模型,每个 Seat 每月 100 美金以内;二是针对企业级解决方案的个性化定价模型。

竞争优势:1易用性(链接多个SaaS合作),冷启动快(3天)2搜索能力的数据飞轮,形成个性化 3员工的网络效应。

但是无法沉淀业务数据,数据都在SaaS,有搜索数据沉淀,提供企服的公司一般也提供(并购逻辑),国外使用SaaS较多,所以需要企业搜索来使其串联,不像国内统一化。

未来的期待:想办法有一定的数据沉淀,未来要成为中心平台,需要再多做一些高价值工作替代or形成行业工作流的替代,让使用者继续使用。

国内

主要是大模型层公司在做,一种是帮助企业员工进行企业内部知识搜索和总结-私有化部署(项目制,商业潜力弱);一种是ERP公司使用大模型进行搜索并进行SaaS调用。

关注数据获取留存以及如何商业化,是否考虑垂直行业工作流的agent化!泛化能力不强,先抓住垂直客户的高价值需求,先商业化。感觉业务有些迷茫,目前客服和数据预处理都有大量玩家参与,大的ERP公司例如金蝶、用友等可以尝试调用大模型复制Glean,完善自己的企业软件使用入口,进行优化,通过大模型调用各类SaaS。

国内ERP公司目前的超万级的ISV和生态完整的工具栈壁垒是模型层完全无法竞争的,大概率做个内部技术支持。

HCM — 数字人面试&员工培训

主要是数字人视频来代替面试(企业减少招聘投入并提供面试者之前机器面试的体验感)和新员工的入职培训视频。

数字人互动直播与录播有点类似,只是录播少了互动。在录播时会先把视频录制好,然后通过OBS推流,推到直播平台就可以了。如果需要互动流程时,要获取直播弹幕,判断弹幕是否满足回答条件,如果需要回答则生成答案,然后在走一遍视频制作流程,然后推流。

技术上无壁垒,商业上直播不允许用录制的视频,作用只能在短视频平台进行视频成本的下降。大厂都有在做。

目前对于可重复性多的视频生成场景,有较高的价值,例如网课、入职培训等教育和营销领域。看好出海,收入增长快的公司。特别是出海,详细分析请看下述的视频生成赛道。

初创公司代表:硅基智能、Fancytech、Heygen等,其他数字人中小公司也很多。

法律

根据服务对象划分,Legal Tech 的种类可以分为 ToL 服务律师事务所、ToB 服务企业法务部门及 ToC 服务消费者。但值得注意的是,无论是 ToL 还是 ToB,企业才是最终付费方。即便产品的客户是律师事务所,由于律师事务所是为企业服务的,律师事务所会把 Legal Tech 工具转交给客户报销【60】。

LLM 出现前的法律 AI (以 NLP 为主)主要运用于合同管理,但这些工具以信息检索为主,很难对信息进行深度的处理与分析!

产品:

  • 法律写作:撰写长篇、格式化的法律文件,帮助起草合同,撰写客户备忘录,作为工作起点
  • 掌握专业法律知识,可以回答复杂的法律问题
  • 进行合同及文件的理解与处理
  • 定制公司特有的模型:使用客户特有工作产品和模板训练,以嵌入工作流,类似新员工加入律师事务所时的入职培训等
  • 律所工作流:客户诉求的沟通与拆分、法律研究(法条检索和判例研究)、客户方案设计、合同、诉讼文书或其他法律文件的处理,以及其他涉及到法律适用问题的工作

模型层:

法律 LLM 创业公司主要直接接入 API 或 finetune 大模型,不同公司选择了不同的供应商,Harvey、CoCounsel、Spellbook 接了 GPT4,其中 Harvey 和 CoCounsel 2022 年下半年就获得了 GPT4 的优先使用权,Robin AI 则选择了与 Anthropic 的 Claude 合作;公司多采取多个模型组合去完成不同细分任务。

数据层:

不同公司能获得的优质数据不同,这对于 LLM 的表现会产生较大影响。CoCounsel 因具有 Casetext 多年的数据积累,并被汤森路透收购,可以使用其世界级法律内容库,在数据维度具有较大优势;Lexis AI 背靠 LexisNexis 也有类似的优势。而 Harvey、Robin AI 等新兴创业公司选择与头部律师事务所、四大审计公司绑定的方式获得优质训练数据。

看好有大模型训练能力、行业专业数据库、深入大客户工作流的切入团队是关键。

市场规模:

中国机会更大,2023年中国各类案件接受3200万件,400万件未处理,还有1400万调解(每年还以30%速度增长,这些都是强制未上升至受理案件的!中国法律服务能力缺口极大!),还有各类监管审查工作,ai的出现可以极大缓解公检法的极大压力!中国律师事务所4万家,每年增加2000家,中国约 57 万名律师。保底110 美元/月/人+超量使用+定制开发,目前市场规模60个亿元,且将会不断快速增长30%!

在中国to b法律领域有个重要问题就是,律师普遍工资不高,实现替换意愿不强,目前商业化进展缓慢。但需要持续关注。

笔者更关注庞大的C端市场!中国人需要一款专业的法律询问APP,依法治国的前提。

美国Harvey(openai投资),CoCounsel

中国:幂律智能(有数据、模型开发已完成)智普AI和北大的Chatlaw

审计合规

需求:国家和行业合规要求–GDPR,PCI-DSS,HIPAA,SOC 2,避免罚款和停止运营;合规和审计成本高–大型企业完成SOC2审计的单次成本超过100万元;工作量巨大,只能通过抽查来减少工作量,跨多部门,工作协调困难,数据隐私保护缺失,通过海量数据的采集和分析做到高效证据获取,最终生成可支持审计目标的合规报告。大大降低合规的成本(预计提升效率40倍)–人工审查+审计;同行检举过多,罚钱多。

两大业务:审计(出海大公司)和数据合规(出海公司)

工作流:1理解当地法律法规 2梳理业务场景 3找到敏感违规业务流 4合理规避法律风险 5定期人工检查 6生成报告

市场测算:

数据合规(出海的中小型公司)

2027年,出海企业72万家,每年新增5万家,所有的涉及数据获取的企业都要符合当地规定,会遭同行举报,有天价罚款。假设渗透率20%,10万一年,中小型增量就有150亿人民币。大型公司将根据用量收款。

还有审计(出海大公司),想象空间大

发展趋势:IT合规自动化平台在国内尚无明显领先者–主要是法律新规,美国欧洲很成熟,中国刚刚起步,没有竞争对手,出海和国外上市公司需要。

(二)研发设计类

从技术来说,LLM+Diffusion的生成技术就是完美契合该类行业,甚至幻想本身就是一种创造力。从商业价值上来说,创造是最好的切入工作流的入口!先创造后修改!

美术类工具

在讲美术生成式的行业之前,笔者先讲下国外几家在做的事情以及思考,方便大家理解整体市场。

Stability AI

基于 Diffusion Model的Open model + Private Data,主要是针对B,G端的用户

战略:针对B端用户做模型的开发,支持开源为了证明技术、模型可控性和低成本技术外包!C端用户顺便收取费用。但是哪款产品都不是爆款,缺乏规划。目前团队商业化和管理能力弱。

技术:Diffusion开源模型(Stable Diffusion 由开源社区、Stability AI 及 Runway 研究员合作完成,Stability AI 并不独立拥有该模型的知识产权,Stable Diffusion 生成的作品版权遵循 CC0 协议,不归属于任何个人和公司,但可以用于商业用途):使用门槛低、模型调优灵活度高、生成效果好,加上 Stability AI 出色的运营能力,Stable Diffusion 成为了第一个拥有极强生态的开源模型(提供算力和资金支持–外包团队)。但是Stable Diffusion 中大量的数据反馈由于其开源属性无法形成优化模型的反馈回路,在更新模型上速度缓慢。

Diffusion的技术要解决精细化的问题!

LLM:StableLM 看起来又是一个营销胜于实际工作的例子。根据用户测评,与其他开源模型相比结果相当平庸,与 GPT 也相差甚远。

产品:付费应用 DreamStudio,大公司的api Plug-in,定制化咨询和大模型开发服务;通过开源,与生态合作,快速成长。

客户:常见的 B 端客户,还会为发展中国家的 G 端提供服务。

盈利模式:

1)服务大公司,提供定制模型和咨询服务:Stability AI 的核心业务是为大公司建立专门的团队,形成合作伙伴关系,出售模型(扩展和定制 Stable Diffusion 或其他大型生成模型,每个模型的报价约几千万美元),并为企业提供咨询服务,帮助大型公司和政府对 AI 模型的采用。

2)付费应用:孵化社区生态中的技术与应用,推出商业化版本,如以 Stable Diffusion 为基础的 DreamStudio,上线第一个月,收入就达到数百万美金,用户数量达到 180 万。

3)API:通过提供开源模型的 API 收费,并提供增值服务。Photoshop等公司的插件。

成本:Stability AI 作为开源生态的基础设施,为开源社区提供算力及资金支持是一笔极大的开支。

据说目前 Stability AI 拥有在 AWS 运行的、由 4000 多个 Nvidia A100 GPU 组成的集群,用于训练包括 Stable Diffusion 的 AI 系统,导致其运营和云服务方面的支出超过了 5000 万美元。

团队:创始人为印度人,无AI经历,团队来自世界各地,管理风格自由,这增加了成本,减缓了产品开发,没有总体的规划。

图片生成的竞对Midjourney进化之快得益于其出色的产品设计和闭源属性带来的的数据飞轮。MJ 做了较强的风格化处理,使得 to C 用户体感更好,但是我们注意到,SD 开源社区的 Finetune、Alignment 模型风格化后也能达到较好的效果,所以不排除 Stability AI 也有能力做到,只是重心不同。

除了 Midjourney 等通用型文生图软件,垂直类应用也层出不穷。不同行业对生成图片有着不同的要求,需要使用特定数据集训练,这给垂类赛道的创业企业提供了机会。如专注于 Logo 与网站设计的 looka,专注二次元形象生成的 NovelAI,专注游戏资产生成的 Scenario,以及专注头像生成的 Lensa。这些垂类应用目前来看很难成长为大体量公司,但盈利能力强,如 Lensa 在发售后的短短几周就赚了 4000 – 5000 万美元。

目前Runway/Pika的定位是Video Making Interface,AI native tools,图像视频编辑工具,关键是能从好用的单点工具闭环成用户不可或缺的工作流产品!视频生成是编辑的一部分。

目前Runway/Pika产品跟Adobe-Premiere和抖音-剪映比,只是AI增值性的提升,而没有颠覆整体的工作流,也很难颠覆他们的产品生态;同时大公司也在进行AI的研发;Sora的出现有新解法,仅作为视频创作源,不入侵到视频编辑本身,但这两个公司没有那么钱和资源去竞争一家微软的子公司。

在专业视频编辑场景,Runway 难以撼动 Adobe 的护城河,其编辑工具目前无法应对专业精细化的要求,同时专业编辑软件 Adobe 和达芬奇(Davinci Reslove)也在 Runway 发布的新功能半年后就更新 AI 工具插件。在轻量化视频制作场景,Runway 面对高度嵌入抖音(TikTok)工作流体系的剪映。目前仅作为补充品存在。

Midjourney(专注文生图)

壁垒:设计师风格–差异化!高质量数据和模型(后期可加入tansformer现实世界模型)

技术:构建了自己的闭源模型,数据质量及数据标注质量的重要性远远超过模型本身,迭代非常快。

产品:艺术风格在市场上具有差异化优势。产品搭载在 Discord 中,用户通过与 Midjourney bot 进行对话式交互,提交 非常短的Prompt(文本提示词)来快速获得想要的图片。

客户:创意设计人群、工业设计人群、Web3 & NFT 从业者以及个人爱好者。若对标 Canva 的用户群,以 Midjourney 目前订阅价格计算,未来收入能达到约 23 亿美元。目前1000万用户量。

盈利模式:

目前采取 SaaS 订阅制模式,价格为 10 – 60 美元/月。虽未公布具体付费用户数量,但根据客户访谈可知用户付费意愿较强。以目前用户数量保守估计,年营收能到达约 1 亿美元。

Midjourney 采取 SaaS 订阅制模式。最初使用时,用户可以免费生成 25 张照片。之后按照订阅制收费。月付制为 10、30、60 美元,或者使用年付制,价格为 8、24、48 美元/月。值得注意的是,用户只有在订阅之后,才能拥有使用 Midjourney 创作的图片的版权。

成本:目前来看,Midjourney 的毛利率约为 80%。Midjourney 搭建在 Discord 上,Discord 会收取约 10% 的手续费。虽不清楚 Midjourney 的模型训练成本,但 Stable Diffusion 的训练共使用了 256 张 Nvidia A100,耗时 15 万小时,成本为 60 万美元。每次生成图像的推理在云端的 GPU 上完成,生成一张图片的成本约 0.5 美分一张,且未来成本会不断压缩。相对于订阅收入,生成图片的成本可以逐渐忽略不计。

中美的主要不同在于,中国式电商场景更多,生成式的商业化也会有所不同。

专业编辑

总体市场规模测算:

图片:Adobe,短视频:剪映,长视频:Adobe等专业软件

仅短视频:Instagram 月活用户为 20 亿,而 Tiktok 用户为 20 亿

目前数字媒体领域市场规模达到1500亿美元,由于短视频的快速增长(渗透率20&假设,增量将达到400亿),(非专业的客户也能使用ai和集成工具)增速极快。

专业编辑赛道工作流:视频制作过程,视频制作的后期则包括了逻辑剪辑、音乐制作、粗调成片、细调和字幕添加等工作,它们占据了专业视频编辑工作的 80%,Runway 有提供音频去噪、自动风格变换等功能。不仅如此,许多专业视频还要包括视觉特效的制作,而在特效制作过程中,最费力的工作便是 Green Screen(绿幕抠图)及 Inpainting(图像修复)。

竞争情况:

短视频领域要突破抖音生态!

但在专业美术领域有机会:Adobe采用的是Stable Diffusion的技术,而Stable Diffusion是开源,不具备长期优势;Adobe对新技术和新商业模式反应缓慢,即使推出Express对标Canva,也无法与其竞争,专注于专业领域的打磨产品。

国内竞争对手较多像素蛋糕,剪映等.

切入机会:关键工作流切入,但是要有自己的大模型和艺术风格等各工作流差异化–原工作流比较固定,并赶上1精细化的技术壁垒!可以先从垂类赛道和c端切入,积累数据和商业化。形成2完善的工具和3素材库+4云协作5独特艺术风格差异化!

国内无初创企业切入专业领域,持续关注。

美术设计生成

场景:游戏开发/建筑/工业设计美术生成,主要还是游戏领域。

市场规模测算:游戏全球3000亿美元,中国增速较快;分为IP/版权方、游戏发行方和开发(50%),其中美术占了50%的市场–750亿美元(20%软件+80%人工),假设去掉50%的人工和增加100%的软件费用,美术市场(主要是图片+3d模型的设计)将有600亿美元,全球增速6%,中国14%。

工作流:其中开发又分为

  • 策划:负责游戏的数值、系统、剧情、战斗和关卡设计等。
  • 程序:负责编写使游戏运行的代码。这可能包括引擎编程、AI编程、网络编程等。
  • 美术:负责游戏的视觉效果,包括角色设计、场景设计、UI设计等。
  • 音效:负责游戏的音乐和声音效果。
  • QA(测试):负责在开发过程中找出和报告游戏中的错误和问题。

游戏核心在:故事讲述、游戏性上!AI长期内没有替换的能力!

竞争情况:目前龙头大公司还不具备AI研发的能力,都用的其他家的AI公司功能进行嵌入!

切入机会:在角色美术设计,3D建模,关卡设计等工作流实现创作!但是3D建模是根据美术概念来的(图片+文字),需要多模态的能力和大量设计数据,要求高。

挑战企业:

国外:

  • Midjounry,Stable-Diffusion,Pika,Runway;国外新游戏引擎Jabali

国内:

  • 图片:TIAMAT、 LiblibAI奇点星宇、nolibox计算美学、智象未来 HiDream.ai
  • 图片+视频:右脑科技、生数科技、爱诗科技
  • 3D生成:空间直觉Microfeel、Vast

营销设计

即使在经济不好的时候,企业也较少削减营销预算,缩减品牌营销相关投入会引发市场份额下降、销售额滑坡、品牌重建的长期成本上升等问题,反而得不偿失。

工作流:策略规划、内容创作、内容发布、效果反馈和优化这四个环节

市场规模:BtoC平均营销占收入15% /BtoB平均营销占收入10%,其中50%用来内容创作,TAM可达千亿美元,根据statia,全球内容营销行业市场规模为720亿美元;市场够大。

针对的客户:品牌企业或大型企业关注品牌效益和经济效益(目前AI还无法到达此水准),中小企业受限于营销预算,则更关注成本。

后续发展:要试图切入CRM赛道!抓住出海趋势(中国72万家公司出海,每年新增4万家)!

海外初创公司:Typeface

国内企业:衔远科技、FancyTech、WorkMagic、奥创光年

工业建模工具

竞争情况:国外龙头AutoCAD、SolidWork和达索;且需要数据和经验积累!

总结:中国市场较小100亿,有专业团队深耕可以;目前Diffusion技术不达标(图片集成效果不好和精细化不足)。

文字类

Devops-代码生成

总结:Visual Studio一家独大(还和copoilt-openai联盟),新公司产品差异化(仅在ui/ux)不明显,未看到颠覆其商业模式和技术。

切入IDE(Integrated Development Environment)不仅是开发者的超级入口,也有机会完整地收集到测试、环境配置和 Debug 等环节的复杂推理过程的重要数据信息,因此,是最有机会、最早能够出现 Coding Agent 的场景。

工作流:环境搭建、需求、代码编写、测试、代码scanning、代码重构、debug、部署

Copilot 用户已有 46% 的代码由模型生成,能让这些用户节省 55% 的开发时间;Copilot 建议代码接受率在 30%以上 ,并在用户上手半年后能提高到 36% 左右。

市场规模:2022 年,全球 DevOps 总收入规模在 80-100 亿美元左右,并正以每年 20-30% 的增速增长

竞争情况:因为流量和产品先发优势,IDE 目前几乎是被微软的 Visual Studio(免费)和 Github Copolit 联盟(18个月1亿ARR)所垄断还有Jetbrain 吃下了 IDE 市场 18% 份额(IDE 工具及商店抽成),Tabnine 、Codeium、Cursor 以及 CodeWhisperer 等 LLM-first IDE 团队则试图基于 LLM 提供更具差异化的用户体验挑战,模型能力相当,短期内收入可以。

写作类

市场长期PMF待验证,目前看下来,大模型性能好,也可以做,界限模糊。

波形智能-已被oppo收购、写作工具–深言科技。

音乐类

AI 生成音乐是一个发展了很长时间的研究领域,但之前生成的作品还停留在“人工智障”的阶段,Transformer 架构为音乐生成体验带来了 10x 的提升,2023 年出现的一系列基于 Transformer 的模型,包括 Google 的 MusicLM、Meta 的 MusicGen 以及 Suno 的 Bark,让 AI 生成的歌曲变成了可欣赏内容【61】。

技术变化

声音领域在 2015 年左右由于 Seq2Seq 的成熟曾有过识别技术的突破,但在生成方向的成熟比图像和文字更晚一些。其背后的原因主要是声音领域的信息密度更低:一个文字,一句歌词可以对应着很多种声音的表达形式,且生成的声音比文字本身的数据量要大很多。

直到去年,技术路线基本收敛到 Autoregressive Transformer 和 Diffusion model 并存的模型结构。Transformer 架构对音乐生成的质量提升帮助很大,因为音乐是一个有长距离结构(多次主歌+副歌,且有呼应)的内容形态。Diffusion model 的加入,能有效避免避免了自回归模型容易产生的韵律/节奏不稳定、词语重复/遗漏等问题。

2023 年 Google 团队提出了 MusicLM 使用了 Autoregressive 结构,实现了从文本描述生成高保真音乐片段,并支持对音高、速度等的精细控制。同一年 Stability 团队的 Stable Audio 工作中也开始有 Diffusion model 的加入,使音乐生成的效果更加稳定,Stable Audio V2 中使用了和 Sora 一样结合 Transformer 和 Diffusion 的 DiT(Diffusion Transformer 结构)。

Suno AI 音乐生成对语义有着很好的理解能力,对不同风格的规律、长距离的结构都能比较好地捕捉,我们判断 Suno 一定用了 Transformer 结构,带来了能 scale up 的智能。同时,Suno 生成的稳定性也远好于其他模型,Diffusion 模型架构应该在其中使用。音乐生成的模型结构会与 Sora 的 DiT 结构比较接近,由几个部分组成:

这个模型结构看起来很简单,和 LLM 和视频生成有很多相似之处,这可以被 Suno 创始人在访谈中的一个分享验证:Suno 团队在训练模型的时候,尽量不让模型中融入关于音乐或音频的先验知识,比如融入声素等元素,而是让模型自主学习。这种方法起初优势并不明显,但随着 scaling up 的推移优势开始显现。

谈到 scale,根据其他 TTS 模型参数量和目前的定价预估, Suno AI 的音乐生成模型的预估参数最大不超过 5-10b。音乐生成模型在数十亿参数量级就能做好很不错的效果了,与参数量相比同样重要的还有数据。

如果优秀人类的作品为 10 分,我们认为 Suno 可以到达 7 分普通歌手、“抖音网红歌”的水平:拥有多风格的作曲能力,可以创作出吸引人的旋律和节奏,但在音质、创新度上达不到专业作曲家的要求。但是已经可以为专业音乐玩家–Pro C,提供创意idea。

音乐市场

音乐的应用广泛,除了音乐专业制作,广告、影视、游戏、动漫、企业宣传都会用到音乐。音乐专业制作市场(the recording industry)的产业链主要分为以下环节:

  • 上游 – 音乐创作与录制:包括进行词曲创作、编曲、录音、混音等制作环节。参与的人有作曲家、编曲家、录音工程师、音频编辑师、混音师、母带制作师等。
  • 中游 – 音乐的出版运营、宣传推广:发行人会对音乐作品进行版权运营、数字分销。在宣传推广环节,通常会制作音乐 MV,通过各类媒体进行音乐推广。
  • 下游 – C 端用户消费音乐:主要通过流媒体平台等渠道向听众传播音乐,同时开办演唱会、制作文创产品等,实现音乐 IP 的商业化。经纪公司也会对艺人进行宣传,组织演出等。

AI 生成音乐的应用机会不仅在为上游为音乐的制作环节降本增效,而且有机会将多个音乐制作参与角色合一,让每个创作者成为“全栈音乐人”,同时打通上游、下游,再造创作、消费一体化的 AI 音乐平台,也是我们期待的 Suno 的未来形态。下文针对受到 AI 生成音乐影响的上游和下游市场展开分析。

音乐制作市场

音乐制作为音乐产业链的上游环节,涵盖创作、编曲、录音和混音等环节,需要使用的工具包括 DAW、虚拟乐器、录音设备、音频效果器、MIDI 键盘、混音设备等,目前部署一套基础的设备需要约几千美元,更早期需要的投资更多。制作周期取决于音乐类型和规模,从几天~几个月不等,成本从几千~几十万美金不等。根据多家咨询公司的估算,市场空间大致为 $5-10B 左右,主要业务包括销售软件许可证、插件、硬件设备以及提供相关服务。

AI 有望进一步降低成本、缩短制作周期,将多个音乐制作参与角色合一,让每个创作者成为“全栈音乐人”。Suno 已经可以帮助用户生成音轨等组件,加速音乐创作流程。但本身该市场空间并不大,且比较分散,引入 AI 可能会导致 ToB 音乐制作市场的进一步缩水。

根据 A16Z 的判断,还有可能出现基于 AI 技术自动生成音乐的“生成性乐器”。硬件设备有可能与 AI 模型交互。例如,一个 DJ 控制器可能能够根据现场的氛围和节奏,自动生成鼓点或旋律,辅助 DJ 进行即兴创作。

To C 消费市场趋势

根据国际唱片业协会联合会(IFPI)统计,2022 年全球音乐市场规模达到 262 亿美元,增长 9%,其中流媒体收入占 67%,增长 10.3%。包括两块业务,一块是广告支持流媒体(Ad-supported streams),占 18.7%,通过展示广告来为用户提供免费的音乐流媒体服务,一块是订阅音频流媒体(Subscription audio streams),如 Spotify Premium、Apple Music 订阅,占 48.3%,约 130 亿美元。全球有 5.89 亿流媒体付费订阅用户,占全球总人口 7.5%。根据市场格局可以看出,流媒体音乐平台是音乐市场中最大的组成部分。

近十年音乐市场增长的另一个重要趋势来自于短视频。国际唱片业协会(IFPI)调研发现用户听音乐的时间显著增长,每周聆听音乐的时间从 2021 年的 18.4 小时增加到 20.1 小时,个性化需求也日益明显。国际唱片业协会(IFPI)也统计了用户听音乐的方式,发现人们在听音乐的时候,经常会和视觉相结合,很多情况下带有社交属性。

尽管分发渠道和用户消费形式出现了变化,但生产制作侧的垄断趋势还是比较明显:在 2022 年财报中,向索尼、环球等 record label companies 支付的版权费用占了 Spotify 收入的七成左右,因此流媒体平台当前还很难直接盈利。而当 AI 音乐生成降低了生产的制作与成本,是否能带来生产关系的变化呢?我们能期待 AI 有可能让版权优势不只被大公司垄断,而来自更多长尾、个性化的创作者。大众创作的时代。

市场竞争

Suno 最大的竞争来自于两个方面,一是 OpenAI 发布音乐生成领域的“Sora”,直接在产品效果上的碾压;一是版权公司和 Youtube、Spotify 等音乐平台公司,利用其数据和流量优势推出竞争产品,但他们面临更高的数据版权风险。同时,Suno 还面临着其他创业公司及开源体验的竞争。

OpenAI 是否会重现音乐生成的 “Sora”?

音乐生成模型的效果很大程度上是由数据质量决定的,这一方面取决于团队是否能拥有充足的数据源,懂得处理数据的方式,另一方面是否有充足的 GPU 进行训练。OpenAI “大力出奇迹” 的 Sora 一推出,对其他视频生成公司的打击有目共睹。OpenAI 目前已经注册了商标 Voice Engine™,包括”基于自然语言提示、文本、语音、视觉提示、图像和/或视频创建和生成语音和音频输出”,很可能包括了音乐生成产品。

如果 OpenAI 在音乐生成领域重现“Sora”将是 Suno 很大的竞争威胁。但我觉得细分市场的壁垒在于对场景的理解,提供丰富的工具,而且个性化的曲风的数据也是竞争的壁垒,不只是技术。

来自版权公司和音乐音乐平台的竞争

现有音乐公司对 AI 进行了积极的尝试,也采取了很多防御性的策略,包括 Spotify 刚刚推出的 Gen-Playlist,以及 QQ 音乐推出了 Suno 专区,但目前并没有出现类似 Suno 的出圈产品。一方面是 Suno 的产品具有一定技术壁垒,大公司的行动速度远慢于创业公司;另一方面大公司受限更多,会有更多版权、伦理上的限制。以及,我们所认为的平台、版权公司拥有的数据积累优势可能并不成立。生成高质量的 AI 音乐需要歌曲原始的分轨数据,但这是音乐平台也不拥有的,而原始分轨数据分散在各个版权公司和明星演艺公司,获得大量的数据很困难,购买成本也非常高。

音乐市场本身头部效应明显,有成熟的版权公司和流媒体公司;且音乐是一个反复收听次数最多的内容形态,因为这需要大众的情感共鸣,造成用户消费心智对新歌的需求频次低,对老歌的反复收听次数高。长尾、个性化的 AI 创作市场比较难以验证。

长期来看,我们认为 Spotify、Youtube 等现有大公司将对 Suno 产生更大的挑战。如用户在 Youtube 可以实现多模态音乐创作→发布的一体化,这其实与我们对视频生成格局的判断类似。Suno 的取胜关键是持续保持最好的生成效果、以及找到自己独特的产品形态。

总而言之,笔者非常看好音乐生成市场,可以先从to Pro C和to B层赚取创意费用,丰富编辑工具的同时,大步迈向to C市场,颠覆流媒体和ip拥有者的生态,将创作的能力、权力和收益给到热爱音乐的每一人。时间的尺度上一定是长期的,团队必须对此保持极大的热情。

SUNO

Suno 团队由音乐家和 AI 专家组成,目前仅有约 12 名员工。Suno 官网上写道公司文化以音乐为核心,鼓励声音的实验和创新,在办公环境中音乐无处不在。联合创始人包括 Mikey Shulman、Georg Kucsko、Martin Camacho 和 Keenan Freyberg,四人此前共同在被收购的金融数据 AI 科技创业公司 Kensho 工作。其中 Shulman 和 Camacho 是音乐爱好者,他们在 Kensho 工作时常常一起即兴演奏。

从经历来看,创始人有成功的创业退出经历,并且在物理、科学领域有极强的造诣。创始成员还有在 Tiktok、Meta 等互联网公司的从业经验。AI、物理领域的造诣以及对音乐的热爱,使得团队对开发 AI 音乐生成产品具有很强的适配性。

团队以自己训练的开源语音生成模型 Bark 为基础,开发了SOTA 的 AI 音乐生成产品。Suno 团队认为目前音乐听众数量远远超过音乐制作者是“失衡”的,期待用 Suno 让每个人都能将自己的想法转化成音乐,打破普通人与想象中音乐之间的障碍。

类似 Midjourney 让人人都可作画,Suno AI 作为第一款普通人可用、带有人声、歌曲生成效果接近商业化水平的产品,为全球 5.89 亿音乐流媒体付费订阅用户提供了创作工具,开辟了增量市场。

音乐制作效果被用户称为 “the next level of music generation”,在硅谷核心圈得到了广泛的流传,实现了用户的持续增长,根据 Similarweb 的数据,目前已经达到了约 220 万 MAU。

Suno 团队从开源 TTS 模型 Bark 开始,转型做音乐模型,从 Discord 服务器到自己的 UX 交互流媒体播放器,都行动非常快在半年内发布了成熟的产品。

Suno 网页版本的产品形态很简单,远没有到达 Spotify 等产品的复杂度。主要由 Explore、Create、Library 组成。Microsoft copilot 也集成了 suno,用户可以通过 chat 的方式来进行音乐创作。

Explore 界面,会展示歌曲创作的 prompt 指引,以及用户创作的最火、或最新的 AI 歌曲。暂不清楚推荐逻辑,但不同用户登录后看到的歌曲是一样的,可见还没有针对用户偏好进行个性化推荐。

但是目前还无法做到对于生成音乐的精细化控制。期待“未来几年能够利用技术从各个方面对音乐的生成进行控制”。

通过追踪 Discord 社区,我们发现 Suno 用户大致分为:

  • 音乐爱好者,他们本不会写歌,Suno 带给他们创作歌曲的能力。这类用户希望通过 AI 辅助创作出有趣的音乐作品,用于个人娱乐或社交媒体分享。他们的需求常常类似于,为自己的猫写一首 Taylor Swift 风格的歌。
  • 专业音乐制作人,他们将 Suno 作为创作的灵感来源,或生成音乐素材,结合自己的专业知识进行后期制作。Suno 帮助专业音乐人更高效的输出作品,他们也开始将 Suno 应用在商业场景。
  • AI 创作工具探索者,对音乐生成的技术感兴趣,尝试使用 Suno 进行实验性创作。

在与用户的交流过程中,我们发现部分用户对于 Suno 非常沉迷,Discord 社区中也保持了持续的高活跃。根据 Smiliarweb,Suno AI 的 MAU 持续增长,2024 年 2 月 MAU 已经达到约 220 万,Suno 的国家分布并不集中,其中美国、波兰的用户最多,各占约 10%。以男性用户居多,占据了约 68%,在年龄以 18-34 岁的年轻人为主。

具体使用场景较为广泛,并不仅仅局限在专业音乐作曲,可以做如下划分

商业模式上,Suno 采取订阅付费的模式,Suno 目前更像一个创作工具,参考工具类产品的订阅比例,简单假设目前 Suno 约 220 万的 MAU 有 10% 是付费用户,其中 8% 为 Pro Plan、2% 为 Premier Plan,Suno 的月收入大致估算为 250 万美金。创作生态的丰富,Suno 平台也有机会出现广告和内容订阅价值,为 UGC 提供收入渠道;或为音乐创作提供增值服务,比如提供一站式的音乐创作和分发解决方案。

国内公司:DeepMusic灵动音(清华音乐制作人),致力于通过AI词曲编录混技术,全方位降低音乐创作制作门槛并提升效率,为音乐行业提供新的产品体验和解决方案;音乐生成加轻量编辑工作站。

DeepMusic是一家基于人工智能技术的音乐创作服务商,该公司主要运用神经网络学习现存的音乐作品,并从中寻找规律,从而进行音乐创作,其创作的音乐作品可用于短视频配乐等方面。

但商业模式只是停留在Pro C层面。

AI4S

AI for Science(AI4S),是让人工智能利用自身强大的数据归纳和分析能力去学习科学规律和原理,得出模型,生成式的来解决实际的科研问题,辅助科学家在不同的假设条件下进行大量重复的验证和试错,加速科研探索的进程。

主要在生物结构预测;其余在化学、材料上,整体市场规模由于过于细分不会太大,也比较难判断项目,需要对其研发设计的工作流有相当程度的了解。

关注生成式的大模型在工业领域的扩展:例如工艺的生成等,不过基于设计产线等频率低,市场不会太大。颠覆掉原来研发工具例如CAD、Solidwork等,还是会在设计数据、工作流理解上以及设计工具生态上有不小的困难。

(三)生产控制类

MES、SCM

业务对应工业生产控制类服务软件-资产管理:ERPMRP、供应链管理:SRM、生产管理:MESAPS、物流管理:WMS、研发管理:PLM

图:工业生产场景工作流及对应软件

目前我国工业软件整体面临“管理软件强、工程软件弱,低端软件多、高端软件少”问题,研发设计类国产化替代空间较大。

MES:计划下达+生产调度。MES(制造执行系统)是从生产计划下达到生产调度、组织、执行、控制,直至生产出合格产品全过程的信息化管理系统。MES 主要集中在制造运营层,位于生产控制层和运营管理层之间,核心功能包括资源分配、车间排产、工序调度、过程管理等,扩展功能包括能源管理、质量管理、仓储管理等。

全球 MES 市场规模或在 1,420 亿元。据华经产业研究院,2022 年全球 MES 市场规模或达 1,420 亿元,同比增长 15.2%。2017~2022 年 CAGR 达 15.5%,2024 年市场规模或达1898.6 亿元。我国 MES 市场规模或达 57.2 亿元。据华经情报网,2022 年我国 MES 市场规模或达 57.2亿元,2020~2022 年 CAGR 达 13%。

MES 市场高度分散,参与厂商众多。MES 软件市场中的 SaaS 子市场,以及航空航天船舶、整车及汽车零部件、装备制造等六个细分行业 MES 解决方案市场空间及厂商份额都在市场中占有较大份额。各细分行业呈现出不同的特点,但与 MES 软件总市场相比,细分行业解决方案市场碎片化更加明显,仅有石化化工、钢铁及有色金属等行业保持较高的服务商集中度。

MES 国产替代空间较大,Top8 中本土厂商占到五席。2021 年我国 MES 市占率 Top8 分别为西门子、SAP、宝信软件、鼎捷软件、罗克韦尔、黑湖制造、新核云及中控技术,其中,海外大厂居于前两位,仍处于相对主导地位,本土厂商占到五席,加速国产替代势在必行。与国际大厂相比,我国本土厂商 MES 覆盖行业相对较少,未来或需在多行业多点发力推进自主可控进程。

竞争对手主要为传统MES厂商、涉及工业的大模型公司、初创AI工业软件公司

  • 传统厂商为:西门子、SAP、宝信软件、鼎捷软件、罗克韦尔、黑湖制造、新核云及中控技术等
  • 涉及工业的大模型公司:百度、华为等
  • 初创企业为:剑及智能和Evergine等

持续关注由LLM带来柔性生产的实现(不一定要软件、生产线、机器人都行),由规模经济生产转向范围经济范式(一条产线生产多种物品),由此提供低成本提供多元化定制化的产品,价值潜力大。

To C

日常Agent

对标大厂的Siri、小爱同学等等,通过agent来完成对软硬件的操作。GUI-图像用户交互转向LUI-语言用户交互,下方ai硬件会详细讲述,这里是软件。

硬件、互联网大厂和大模型公司的竞争流量的高地!不再详细讲述。

教育

多轮对话的LLM,必然也天然的适合教育场景。

目前教育市场分为:

1)基于录播课的异步学习公开资源和工具(如 Youtube 视频、google 翻译、慕课等免费录播课)

2)工具类服务,将学习中的某类需求或学习过程抽象为标准化产品,例如Chegg、Duolingo 等

3)真人老师的实时授课,包括线上、线下的大班课和1对1私教。(效果最好,国内知道200-300/小时,但AI是一个月)

AI的领域从错题解释扩展到了对话练习的role扮演:

工作流:特别是在语言学习上,依赖和人对话的训练,听说读写,都可以实现ai对人的替代,实现多场景人群的教育(k-12、海外工作、移民、旅游、兴趣等)。

市场规模:国内需要学习语言的人太多,TAM难以估算–2亿人,以Duolingo、Speak的700一年标准计算,就是1400亿元的大市场

壁垒:课程设计、对话等教育数据、微调技术

龙头:Duolingo和Speak

国外的语言教育的AI应用非常火,为出国旅游和移民群体提供多轮对话场景,但是这种教学方式,对于国内水土不服,国内是应试教育为主。

国内新AI教育场景会更适合学龄前儿童的教育场景(新的交互寓教于乐的方法-具体看ai硬件),短期内小学及以上场景教育国内格局不会变动,用AI也只是,增强体验和溢价。

游戏

目前游戏主流是聊天陪伴类(具有情感的人物切入,完成一定的情绪价值提供任务)

市场:模型质量高且完全虚拟的场景,并不追求准确!但是是为行业切入的入口,寻求正确的解决方案。

国外:Character.ai,Replika、ChAI

国内:LynkSoulAI心影随形,Glow,星野(国内外基本上都是搞擦边起家)

Character.AI

产品:Character.AI 搭建了用户创建 AI 角色并与之聊天的平台及社区。AI 角色有官方创建、社区成员 UGC 两大类。用户自行训练的、深度个性化的 AI 聊天机器人能够与人们建立真正的关系,拥有更大的想象空间和更多的使用场景。

客户:粘性强,所有用户的平均活跃时长为 24 分钟/天,18岁至24岁的用户,他们贡献了约60%的网站流量,9 月的总 DAU 约为 350 万,MAU 约为 1400 万。

通过幻想满足客户的情感诉求,45% 的用户主要和恋爱、浪漫类角色交流,22% 和游戏角色交流,17% 的用户和安慰、心理疗愈类角色交流。

盈利模式:每月收费9.99美元–可以与多个AI互动,玩场景游戏。

技术:底层模型以包含解码器的神经语言模型(Neural language models)为基础,类似 GPT 和 LaMDA,对话效果质量和推理成本好于GPT3。技术不足:记忆和幻觉,但不需要智力水平极高的模型来做情感,角色是否能表达连贯的情感可能也不像人们想象的那么重要。

团队:创始人 Noam Shazeer 是前 Google 首席软件工程师,Transformer 作者之一,并开创了大规模预训练(Large-scale pretraining);联合创始人 Daniel de Freitas 领导了 Meena 和 LaMDA 的开发。(自研能力)

战略方向总结:正与谷歌讨论融资,准备训练其大模型,深度绑定的合作伙伴,承担模型训练成本;防守壁垒大,增长速度快,需要正确选择攻击方向。

优势–1 情感交互,获得极高粘性流量且转换成本大,从而可以切入相关领域;2 全栈能力壁垒-且低训练和推理成本;3 高质量数据-模型的飞轮效应。

未来突破点:

1 需要考虑聊天机器人无需用户点击将挑战优质内容-点击-广告 内容平台商业模式飞轮,如何加入广告!

2 技术上导致的使用体验有限:有限的上下文容量,幻觉,在逻辑、规划、使用仍然有不准确性。最主要的是与人类的记忆不对齐,聊天容易丢失上下文,没有对的记忆,如何培养感情?

3 站住虚拟聊天市场,提供更沉浸式虚拟体验-UI、图片、语音等,把握互联网。

成本:自研模型(模型更加精致),每个 Query 的成本是 ChatGPT 的 1/3,训练仅花费60万美元。同时通过积累用户数据形成飞轮,能够不断提升用户的个性化体验。

整体竞争非常激烈,国内外要有20多家公司在做,如何针对需求,提高粘性是主要的指标。

虚拟聊天机器人代表公司包括 Replika、ChAI;国内类似创业企业有 Glow、聆心智能、彩云小梦;垂直领域也存在业务交叉,如心理疗愈机器人 Woebot;游戏领域的 NPC 在线交互平台 AI Dungeon,AI 角色驱动的元宇宙平台 Inworld.AI。

以及最近在测试阶段的自然选择AI-针对恋爱场景设计的“超级对齐”。

Character.AI在对话质量上完胜一筹,推理成本也更低,其他公司均采用微调的大模型。

模型本身技术壁垒跨越还需要时间。

检索类

使用大模型进行网页搜索。国外:Pelexity、大模型和大厂等

短期收现金可以,这个地方是搜索引擎和大模型公司会做的事情。重塑搜索引擎的工作流,关键是通过更好的生成来提升用户的搜索体验,并引入广告等创新商业模式。

九、应用层——硬件AI应用硬件

综述

ChatGPT 推出以后,AI 硬件就成为了热门赛道【62】。

AI Pin、Rabbit R1、以及 Meta 的雷朋眼镜,还有豆包推出的智能耳机,有成功的,也有不少失败的。

在大模型热潮持续一年之后,或许可以看一下,AI 硬件未来的机会到底在哪里。

硬件虽是中国的主场,但仍然软件才是核心。

回顾移动互联网时代,4G/5G的成熟在底层技术架构上为短视频等高信息密度应用的新形态打下了基础,而iPhone开创的触控交互体验真正为应用的繁荣打开了大门。

苹果也因为在交互模式上的创新获得了移动互联网时代最大的红利,时至今日依然可以向软件生态征收“苹果税”。强如Meta,几乎盘踞了海外C端流量和广告收入,也因为缺乏硬件设备而如鲠在喉。Zuckerberg近年来在Reality Labs上的激进投入,狂烧500亿美金就是为了占据下一个时代的硬件入口/计算中心。

在当前格局下, Google ,Meta,苹果和字节跳动等移动互联网巨头从硬件到软件牢牢把持了用户生态,并基于计算中心/物理空间、流量/网络效应、时间/用户习惯这几个核心要素形成了深厚的壁垒。如果这个局面不被打破,AI大模型技术将停留在更先进的生产工具(”enabler”)定位,从结果上丰富了移动互联网生态的内容供给和用户体验,“为他人做嫁衣”。科技巨头依然是最大受益者,过去5年强者恒强的局面将会延续。

因此针对AI大模型重新设计的硬件和交互将是GenAI时代挑战者必须攻克的堡垒。这也是为什么Sam Altman很早就联系传奇设计师Jony Ive开始在硬件方向进行探索。

软件带来的变量主要体现在以下两个方面

AI硬件的三层架构

在原生多模态AI大模型出现后,结合硬件会出现新的信息交互和处理模式,大体上可以分为三个层次:

  1. 多模态信号输入 -> 传感器
  2. 模型处理和计算 -> 计算中心
  3. 交互方式 -> UIUX设计

在这三层架构中,计算中心(如手机)将为AI大模型提供端侧和云端运行能力,而AI大模型技术的能力进步驱动整个闭环用户体验的提升,具体表现为让硬件在原有功能的基础上拓展能力边界,在第三层输出更好的效果。反过来中间层需要硬件作为传感器获得更多context来更好地输出模型运算结果。

LUI是否能成为下一代交互方式

「The UI of AGI」是AI硬件从业者需要思考的圣杯问题。

“套壳”其实就是一种最直接的尝试,Arc浏览器,Perplexity,Monica.im都在各个方向积极探索。但LUI(Language User Interface)或者基于语音的交互方式(Voice-first UI)是否能取代触控时代主流的GUI(Graphical User Interface)是在行业内被讨论最多的问题。

我认为GPT4o为代表的低延迟、多情感、高智能原生多模态模型虽然为LUI的落地提供了技术支持,并在某些特定场景有较好的体验,但现在看起来LUI并不能独立成为最主流的交互方式。我认为思考这个问题的关键因素是I/O密度。I即input,指在人机交互中用户向系统输入信息。O即output,指系统向用户反馈信息。

在I端,LUI能很好地解决当下信息输入门槛过高的问题,阵列麦克风技术的发展配合AI大模型的多语言识别和总结能力,让用户在I端更加轻松自如(flowvoice.ai等公司已经有产品落地)。

但在O端,LUI的信息密度有很大的局限,特别是与GUI相比。Vela在「Voice-first,闭关做一款语音产品的思考」中做了详细的解析。

声音在交互上的局限性主要表现在:

1. 输出线性

很难实现多线程多任务操作

用户很难通过前进倒退精准定位碎片化信息点

2. 记不住

LUI是线性的而思维是树/图结构,语音无法单独呈现人脑所需要的信息组织形式

结果需要简单明确,最好用最小来回对话解决

在音频自身限制和AI大模型现阶段长程推理能力缺失的情况下,LUI目前只适合做目标明确的单点任务,且输出结果信息密度不宜过高。从数据上看,天猫精灵使用最多的场景是询问天气和设定闹钟。

因此,LUI配合GUI结合使用我认为是能将I/O密度最大化的交互体验。

与大厂的竞争

手机短期内依然是生态位核心。

手机在AI硬件三层架构可以在一定程度上覆盖所有三个维度,并占据计算中心的核心价值位。现阶段对其他硬件设备的主要机会在于成为手机的传感器,收集手机目前尚不能覆盖的细分场景信息 – 主要是息屏、用户双手被占用无法拿起手机、无法快速开启手机内置传感器(为描述方便,下文统称“手机空白场景”)- 并尝试探索新的交互体验。

对AI硬件团队来说,市场足够大的品类依次是耳机、智能手表、眼镜和配饰类设备。

整个智能穿戴设备生态都脱离不了一个主题:Survival is the name of the game

手机厂商因为占住了核心生态位,穿戴设备的新机会都在其射程之内,我们讨论的所有穿戴设备品类都逃脱不了激烈的竞争。对新玩家来说有两种现实的选择:

1) 在市场足够大的赛道,争取成为小米华为苹果身后的第三/四名;

2)在大厂看不上,小公司搞不定的赛道做差异化竞争。

第一种路线考验的是团队的执行力,需要面对的竞争包括:

1 硬件玩家

第一梯队:华为,小米,苹果;优势无需赘述,且已经有手机、耳机、眼镜等成熟产品线,用户基数大

第二梯队:Oppo/Vivo,大疆,安克等;有成熟的供应链资源和分销渠道,成熟业务可以产生稳定现金流

第三梯队:科大讯飞、韶音、雷鸟、Rokid等;在垂类中有领先市场份额

2 互联网公司:字节跳动、阿里、腾讯等;拥有大量承接UIUX的场景

竞争确实激烈,但也并不是全无机会。AI硬件时代的一个重要变量是对团队的复合型要求:即软硬件结合的能力。正如文初提到的,这一轮AI硬件本质上是软件驱动的,与硬件龙头竞争,新团队需要具备更强的软件能力,努力将产品向AI硬件三层架构的后两层做价值延伸。而互联网公司,强如字节跳动和meta都将一起竞争。无论怎样,资本价值都比较大。

当然,也可以选择第二条路线。这就要求团队对消费者需求有深度的洞察和提前的预判。一个可以参考的思路是将软件功能硬件化。核心是找到一个软件端有需求的场景,并通过极简的设计,将多步操作压缩到一步。Plaud就是看到Live Transcribe这个app巨大的用户基础,将录音这个本来可以在app端完成的场景硬件化。将原本需要掏出手机,解锁,找到app,打开app,开启录音的一系列操作融合到简单的一键到位。

目前主流的AI硬件有:智能眼镜、智能陪伴和录音

智能眼镜

Rayban Meta

近期Rayban Meta意外大卖,增强了Zuckerberg对智能眼镜这个形态的信心。小扎对此如此笃定不无道理,因为眼镜作为传感器定位的智能穿戴设备确实有得天独厚的优势。

一个具有对话功能,识别物体,录像的眼镜。通过“hey,meta唤醒”。

信息密度最大:眼睛是人类的窗户,因为视觉是人类获取信息密度最大的渠道;同理眼镜同样可以便捷地获取视觉和音频信息;目前手机做不到。

第一视角POV:“see what you see” + “hear what your hear”,POV视角不但可以提供了模型最需要的用户视角的context;解放双手的设定也适配手机空白场景。

在现有形态上创新空间相对最大:相比耳机和智能手表(叠加AI功能对本身形态改变不大),带摄像头的智能眼镜相对是新的形态,为新玩家提供空间。

此外,摄像眼镜在传播上也有天生的优势,从目前用户的行为来看,摄影摄像是主要的使用场景。Rayban Meta在内容创作者和大V中非常受欢迎,他们创作的POV视角的内容在社交媒体传播容易形成潮流效应,从而形成自传播,摄像头。

在Rayban Meta取得成功后,海外大厂已经形成共识:Google决定与硬件合作伙伴三星探索类似形态,落地在Google I/O上惊鸿一瞥的Project Astra,苹果也开始重新审视自己的Vision产品线。

智能眼镜形态的主要划分和优劣势

智能眼镜根据功能组合和视场角(“FOV”)大致可以分为以下几类:

1. 不带显示的智能眼镜(已经能将重量控制在50g以内,符合轻量化要求)

音频眼镜:因为前文分析LUI的局限性,在用户端提供的功能非常有限

摄像+音频眼镜:Rayban Meta取得阶段性成功,价位$300

2. 带显示的智能眼镜(能控制在100g以内,但在轻量化上还有提升空间)

40-50度FOV(雷鸟X2):轻显示,价位$500-1,000

50-70度FOV(Orion):现实增强,有原型机,无法量产

100度FOV:接近VR视觉体验,但采用OST方案;在目前技术边界之外

不带显示的智能眼镜在轻量化和成本控制上已经相对成熟。但目前只覆盖AI硬件三层架构的第一层,并通过LUI提供有限的交互。纯音频眼镜收集信号密度有限,同时受制于系统权限,产品功能单薄,且与TWS耳机重合度高。另外电子消费品追求标准化的模式,并不能满足消费者对眼镜个性化多SKU的需求。从华为和小米的实际销量上看,只搭载音频带来的功能增强并没有提供足够强的说服力。

而带有摄像头的智能眼镜,在保留音频功能的同时,通过与手机配合使用,能解锁更多延伸场景,提供较好的基础体验。

在带显示方案的眼镜产品中,现有的成熟量产方案只能提供40-50度FOV的轻显示,定位鸡肋。一方面需要搭载光机带来额外的重量和成本,另一方面视场角有限,实际上只起到了通知中心(push center)和widget看板的功能。运用新一代技术的Even Realities G1等产品,虽然在轻量化上更进一步,但这类产品的落地场景目前集中于:实时翻译、导航、提词器等场景。这些场景中确实有不错的体验,但可以试想一下普通人使用上述三个场景的频次。

AI功能目前也仅限基于识图的任务延伸(类似Apple 16展示的功能)。除此之外,不少人幻想的使用场景,在OST方案中都在目前的技术边界之外。Orion也只能勉强提供几个鸡肋的场景。在某种程度上智能眼镜除摄影摄像和音频之外的功能都可以被智能手表覆盖。

选择比努力重要。对试错成本更高的硬件创业公司来说更是如此,虽然上海显耀等Micro LED公司近年取得一些技术突破,但显示方案受制于FOV,即使落地也无法独立支撑太多的应用场景,现在看来并不是最优的技术路线。

而Rayban Meta则为智能眼镜指明了方向,短期内取代不了手机,但眼镜保有量大,若出现类似汽车电动化的眼镜智能化趋势,市场体量也相当可观。但目前的主要缺陷是因为轻量化无法搭载高容量电池的情况下,如何控制芯片功耗从而实现更长续航。

期待更多爆款的功能,提高Pro C的粘性。

智能陪伴

AI 玩具

玩具是搭载LUI的理想硬件载体。一方面,小朋友需要的信息密度和精度要求相对不高,且语音的流式交互也可以被硬件一部分承载。另一方面,相比于纯软件的形态,通过硬件具象化也更方便用户代入情感寄托,提供更高的情绪价值。这个品类也符合“熟悉的陌生感”逻辑,用户教育门槛低,基本上手即可使用。

需要注意的是AI教育的使用者和购买决策者分离,团队需要在软件后台针对家长的诉求(主要是安全控制和成长记录)有相对应的设计。

2024年OpenAI引入了Coursera前高管并重点发展AI教育,国内的学而思、小猿学练都陆续推出了AI在教育领域的产品,主要是面向课内应试教育场景。不同于AI玩具,学伴切入的是更广义、更刚需的教育成长,关键还是得对孩子成长和教育文化有深度理解的,做出和孩子成长高粘性的产品。

该行业出色的公司众多,我们以灵宇宙为例:

凭借卓越的软件和算法平台能力,以及对大模型计算的深刻理解,灵宇宙打造了一系列AI-Agent 终端产品,通过学伴进入家庭,未来在深刻理解家庭场景和空间数据的基础上,将拓展至4D空间交互的OS层领域,首款产品即将在2025年CES大会产品面向全球发布。

创始人顾嘉唯,前百度人工智能研究院IDL人机交互负责人、百度少帅、微软研究院HCI科学家,MIT TR35(2016年唯一入选企业家),曾是物灵科技的创始人兼CEO (儿童绘本阅读机器人Luka卢卡全球销量近千万台)。联合创始人徐持衡是商汤科技 001号联合创始人兼 CTO。

产品经验丰富:团队深耕硬件赛道超十年,历史上经手数十款AI硬件产品,包括曾登上时代杂志封面的家用机器人 Jibo、百度小度机器人、百度无人车、随身硬件百度BaiduEye、度秘等,无论在大厂还是创业阶段产品力都已验证,产品定义经验丰富。核心团队均为从0到1厮杀的胜利者,做过的互联网及AI产品累计覆盖9亿用户。团队对儿童教育场景的深度理解,凭借产品数百万量级销量的成功经验,在产品逻辑上具有巨大的优势。

技术实力雄厚:来自微软、谷歌、百度、商汤以及国际知名学者的核心技术团队,持续在交互智能智能领域深耕,将通过自有产品的数据闭环,做4D空间智能OS。获得来自商汤等八家战略或市场化机构的投资、以及国家级的上海浦江实验室和鹏城实验室的算力及底层基础模型技术支持,在软硬件技术方面均突出。

录音

PLAUD NOTE是一款由GPT驱动的AI智能录音设备,提供录音、语音转文字和内容总结的一站式解决方案,凭借其精准的PMF和技术优势,不到1年时间已在全球范围内积累了几十万的用户数量,在全球所有AI硬件中名列前茅,为中国出海AI硬件第一。未来,录音这个场景,科大讯飞也会去做。

先看看Plaud长啥样:

卡片式,差不多身份证大小,挺薄(0.29cm),可以磁吸在手机机身背后。

吸在手机上后,最重要的功能就是录音。

官方资料显示,Plaud电池容量为400mAh,满电Plaud可以连续录音30个小时,可录制和存储约480个小时的音频资料。

Plaud身上有3个麦克风,其中1个是震动传导传感器(VCS),另外2个则是用来采集外部环境音的空气传导传感器。

震动传导传感器支持Plaud的通话录音模式,利用固体传导振动,进行录音。

根本不需要系统内安装新App,或者获取授权。

非常外挂式地解决了“iPhone手机通话不能录音”的情况。但是现在可以了,但会通知对方,现在正在录音;但是微信等还是不可以。是一个非常好的统一录音硬件。

加上AI的转录和云端,直接成了爆品。但未来会面临大厂例如科大讯飞的竞争。

具身智能

核心:只有软件的性能完善,才会带来本体的放量和标准,才会带来上游电机、材料等标准。

本体

对于硬件厂商的投资逻辑主要为:

1 基本的收入支撑:之前有四足等相关机器人的业务量

2 人形机器人的成本控制:自研电机、结构设计等等

3 人形机器人可实现的运动效果:折叠、翻滚、走路等

4 软件:开发者友好的开发生态;成熟的电机以及运控集成算法

该行业出色的公司众多,以云深处为例:

2024年11月,云深处推出的“山猫”四足机器人,收获了国内外不少关注和认可,不仅在B站、视频号、Youtube等平台全网刷爆、新华每日电讯官方账号数万人点赞评论、Figure AI创始人也在X平台转发并点赞了这条视频。

在惊艳的产品能力背后,我们了解到云深处有着深厚的软硬件技术储备:

硬件方面:在四足领域目前已推出绝影X30、Lite3等平台、在轮足领域已推出“山猫”机器人平台、在人形机器人领域今年下半年已推出DR01平台、在零部件方面已推出J系列一体化关节产品,构筑了丰富、高性能的产品矩阵。

软件方面:云深处创始团队在人形机器人运动控制、强化学习RL等技术上是国内最早一批研究者,2019年起便与国外学者合作开展RL相关研究,2020年研究成果已登上机器人顶刊《Science Robotics》的封面,长期的研发积累是云深处能够在四足、人形领域不断突破产品力极限的关键。

大脑

目前物理大模型的属性主要分为:

LLM/VLM模型驱动和扩散模型为主要驱动的模型,两者可以统一

原生 VS 组装式开源微调

分层化端到端 VS 整体端到端

除此之外,学习范式、数据和训练环境也是次要需考虑的方向重点。

(3)学习范式

模仿学习+强化学习 VS 监督/无监督学习+强化学习

(4)数据

就像在之前具身部分解释的一样,快速收敛模型和算法是主要目前的竞争,如何Scale out可以在各个模型选择上看出一二,无论怎样就像GPT一样,在大规模算力和数据输入前,模型需要几个基本特质:

相信同时具有大模型训练和商业化能力的团队。

1 原生模型,自研设计并训练,相比于调用别人LLM或者VLM模型微调,可以底层优化算法,进行改动。

2 最大化容纳数据的种类,来弥补机器人数据的不足。

3 极度精简的模型结构,减少数据压缩的损失。

4 低成本的学习范式:无监督学习最优,模仿和强化都需要大量数据和仿真(小脑路径不在此范围)。

最近优秀的大脑公司众多,这里我们以智澄AI为例:

颠覆式AI原生机器人技术:完全自研大小脑融合模型,区别于任何一家大脑公司的架构;空间感知,物理世界理解推理和执行all in端到端具身智能大模型的神经网络:鲁棒性高,泛化性强,GPT时刻前夕-展现出的强大的可Scale out和Zero-shot能力。

领先的智能工程化能力:区别于前沿实验室的组装式开源大模型,智澄AI在前沿技术融合应用、异构数据搭建、空间感知、简洁模型架构、安全可靠性等方面拥有多项独到模块创新,能够更低成本、更高效率实现Best Practice学习范式的收敛。

硬软件快速迭代能力:2024年6-8月相继完成产品原型TR1、TR2,人形本体将在2025年初下线,已有数家场景客户合作方,伴随技术研发产品逐步落地。

多位国际AI大厂资深科学家及高管领衔:平均拥有20年AI经验积累,CEO曾任Meta首席工程负责人,在Meta对于感知世界和物理世界模型有最新的认识;联创包括Meta首席AI研究科学家和微软大中华区CTO,Meta、亚马逊、蚂蚁、华为资深AI专家及海外顶级高校机器人、AI大模型背景人才梯队。

产业、政府、高校顶级合作与资源:已获得杭州市政府、产业方在资金、算力方面大力支持,合作伙伴包括华为、菜鸟、欧琳、清华、浙大、北大、哈佛、斯坦福等顶级高校。

参考资料

再次感谢各位的知识分享,在此之上我们做了更进一步的研究,并将之“开源”!

【1】来源:知乎,作者:瞻云,回答问题:大脑为什么自己不明白自己的工作机理呢?链接:https://www.zhihu.com/question/490949334/answer/2161395464

【2】来源:知乎,作者:bird,文章:人脑工作机制分析和猜想(01):关于人脑——脑的演变过程及当前的系统架构,链接:https://zhuanlan.zhihu.com/p/414408970

【3】来源:知乎,作者:花卷神经科学,回答问题:脑科学进展为何如此缓慢?链接:https://www.zhihu.com/question/34936606/answer/3300145691

【4】来源:知乎,作者:bird,回答问题:脑科学进展为何如此缓慢?链接:https://www.zhihu.com/question/34936606/answer/3300145691

【5】来源:知乎,作者:神经美学 茂森,回答问题:大脑神经元的的建立过程是怎样的?链接:https://www.zhihu.com/question/268720152/answer/3546965051

【6】来源:知乎,作者:一起读PCB,回答问题:神经元的工作原理是怎样的?链接:https://www.zhihu.com/question/408206230/answer/3426676360

【7】来源:知乎,作者:Liang Shi,回答问题:神经细胞有哪些细胞种类&各种类的功能分别有哪些?链接:https://www.zhihu.com/question/457254607/answer/1921579805

【8】来源:知乎,作者:Liang Shi,回答问题:抑制神经元和兴奋神经元是怎么区别的,或者说抑制神经元产生抑制递质,兴奋神经元产生兴奋递质?链接:https://www.zhihu.com/question/392758414/answer/1202650268

【9】来源:知乎,作者:赛壳学习笔记,文章:神经元的工作原理——电信号和化学信号的紧密合作,链接:https://zhuanlan.zhihu.com/p/361601594

【10】来源:知乎,作者:东单情感,回答问题:神经元的工作原理是怎样的?链接:https://www.zhihu.com/question/408206230/answer/1614246705

【11】“Architectures of neuronal circuits”,Liqun Luo,Science,3 Sep 2021, Vol 373,  Issue 6559,DOI: 10.1126/science.abg7285

【12】来源:知乎,作者:林文丰 Jason,文章:认知神经科学 第三版,链接:https://zhuanlan.zhihu.com/p/709723778

【13】来源:知乎,作者:呸PER无一郎,回答问题:人的大脑是如何识别某一物体并检测到运动的?链接:https://www.zhihu.com/question/26430414/answer/3115980831

【14】来源:知乎,作者:赵思家,回答问题:注意力的认知神经机制是什么?链接:https://www.zhihu.com/question/33183603/answer/71783580

【15】来源:知乎,作者:OwlLite,回答问题:人类是通过语言介质进行思考的吗?链接:https://www.zhihu.com/question/483263643/answer/2163239073

【16】来源:科技日报,文章:识别情绪的大脑回路发现,链接:https://www.hfnl.ustc.edu.cn/detail?id=22115

【17】来源:知乎,作者:林文丰 Jason,文章:《智能简史:进化、人工智能和造就我们大脑的五大突破》,链接:https://zhuanlan.zhihu.com/p/714025058

【18】来源:知乎,作者:蔡叫兽,回答问题:如何看待饶毅的「人工智能还是伪智能」命题?链接:https://www.zhihu.com/question/27716888/answer/37866993

【19】来源:知乎,作者:周鹏程,文章:一场twitter争论:人工智能是否需要神经科学,链接:https://zhuanlan.zhihu.com/p/576570463

【20】来源:知乎,作者:泳鱼,文章:一文概览人工智能(AI)发展历程,链接:https://zhuanlan.zhihu.com/p/375549477

【21】来源:知乎,作者:ZOMI酱,文章:【AI系统】AI 发展驱动力,链接:https://zhuanlan.zhihu.com/p/914397847

【22】来源:知乎,作者:机器之心,文章:一文简述深度学习优化方法——梯度下降,链接:https://zhuanlan.zhihu.com/p/39842768

【23】来源:知乎,作者:我勒个矗,文章:模仿学习(Imitation Learning)介绍,链接:https://zhuanlan.zhihu.com/p/25688750

【24】来源:知乎,作者:泳鱼,文章:通俗讲解强化学习!,链接:https://zhuanlan.zhihu.com/p/459993357

【25】来源:知乎,作者:IT胖熊猫,文章:AI知识体系概述,链接:https://zhuanlan.zhihu.com/p/706229733

【26】来源:知乎,作者:DoubleV,文章:详解深度学习中的梯度消失、爆炸原因及其解决方法,链接:https://zhuanlan.zhihu.com/p/33006526

【27】来源:知乎,作者:普适极客,回答问题:怎么形象理解embedding这个概念?链接:https://www.zhihu.com/question/38002635/answer/1364549217

【28】来源:知乎,作者:猛猿,回答问题:如何理解 Transformer 论文中的 positional encoding,和三角函数有什么关系?链接:https://www.zhihu.com/question/347678607/answer/2301693596

【29】来源:知乎,作者:北方的郎,回答问题:对人工智能毫无了解,导师让看transformer和BERT的两篇论文。好几天了,基本没看懂,何解?链接:https://www.zhihu.com/question/568969384/answer/3390204563

【30】来源:知乎,作者:猛猿,回答问题:如何理解attention中的Q,K,V?链接:https://www.zhihu.com/question/298810062/answer/2320779536

【31】来源:知乎,作者:书中有李,文章:GPT 理解:关于 transform attention 中的 QKV,链接:https://zhuanlan.zhihu.com/p/636889198

【32】来源:知乎,作者:猛猿,文章:Transformer学习笔记二:Self-Attention(自注意力机制),链接:https://zhuanlan.zhihu.com/p/455399791

【33】来源:知乎,作者:佳人李大花,回答问题:为什么现在的LLM都是Decoder only的架构?链接:https://www.zhihu.com/question/588325646/answer/3383505083

【34】“Scaling Laws for Neural Language Models”,Jared Kaplan,arXiv,23 Jan 2020,cited as arXiv:2001.08361

【35】来源:知乎,作者:玖歌,文章:LLM Scaling Laws,链接:https://zhuanlan.zhihu.com/p/694664603

【36】来源:知乎,作者:程序猿阿三,回答问题:能大致讲一下ChatGPT的原理吗?链接:https://www.zhihu.com/question/598243591/answer/3446096328

【37】来源:知乎,作者:程序锅,文章:OpenAI首次揭秘GPT训练细节,链接:https://zhuanlan.zhihu.com/p/633202668

【38】来源:知乎,作者:猛猿,回答问题:谁能讲解下扩散模型中Unet的注意力机制?链接:https://www.zhihu.com/question/597701864/answer/3080511687

【39】白辰甲,许华哲,李学龙;《大模型驱动的具身智能: 发展与挑战》;中国科学 : 信息科学 2024 年 第 54 卷 第 9 期: 2035–2082

【40】来源:知乎,作者:lijun,文章:MPC(模型预测控制) 原理及理论推导,链接:https://zhuanlan.zhihu.com/p/698526965

【41】来源:知乎,作者:王建明,文章:对话罗剑岚:强化学习+真机操作可以很Work,链接:https://zhuanlan.zhihu.com/p/6329634561

【42】来源:知乎,作者:高乐,文章:基于扩散基础模型RDT(Robotics Diffusion Transformer)的人形机器人双臂操作,链接:https://zhuanlan.zhihu.com/p/2020035331

【43】来源:知乎,作者:善与净,文章:大模型评测的几个榜单,链接:https://zhuanlan.zhihu.com/p/713849119

【44】来源:知乎,作者:爱生活Ai工作,文章:全球AI大比拼!GPT-4o稳居第一,阿里Qwen2为何跌至第八?,链接:https://zhuanlan.zhihu.com/p/703544557

【45】来源:海外独角兽公众号,作者:Cage,文章:LLM的范式转移:RL带来新的 Scaling Law,链接:https://mp.weixin.qq.com/s/JPfgF6UtgIYwWXwNQHOoqQ

【46】来源:知乎,作者:白老师AI学堂,文章:预测即压缩, 压缩即智能?——从信息论视角看大语言模型的本质与未来,链接:https://zhuanlan.zhihu.com/p/702188556

【47】来源:知乎,作者:DeepTech深科技,文章:争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?,链接:https://zhuanlan.zhihu.com/p/636522807

【48】来源:知乎,作者:安晓心,回答问题:如何评价Yann LeCun的 世界模型?链接:https://www.zhihu.com/question/632009707/answer/3422307013

【49】智算未来系列十:智算中心加码,国产算力提速;中金点睛,链接:https://mp.weixin.qq.com/s/sfRIUaMY0iua0ediPzUppQ

【50】AI浪潮之巅系列:云端算力芯片,科技石油;中金点睛,链接:https://mp.weixin.qq.com/s/RHgYjrhvqRoqVqLoUPvVzg

【51】ChatGPT启新章,AIGC引领云硬件新时代;中金点睛,链接:https://mp.weixin.qq.com/s/V0Jch3MS-ch4azwMwIXDLQ

【52】AI浪潮之巅系列:服务器,算力发动机;中金点睛,链接:https://mp.weixin.qq.com/s/W2AwPTsOfvsGOeLhCYo7Nw

【53】智算未来系列七:国产云端AI芯片破局,路在何方?;中金点睛,链接:https://mp.weixin.qq.com/s/ptGlPPdIzfGzw4X7SVqRiw

【54】来源:知乎,作者:Na Liu,文章:科技演变的规律和投资方法论小感,链接:https://zhuanlan.zhihu.com/p/445923243

【55】来源:海外独角兽公众号,作者:Cage,文章:Anyscale:Databricks 创始人再下场,ML 领域最值得期待的公司?,链接:https://mp.weixin.qq.com/s/lKaEJsRkKnRkdDE9C2uOiQ

【56】来源:海外独角兽公众号,作者:Cage,文章:拾象AI投资图谱:大浪已至,展望Infra百亿美金公司机遇,链接:https://mp.weixin.qq.com/s/uBIpXFloAoda5lrquzyvDg

【57】来源:海外独角兽公众号,作者:haina,文章:Sales Agent 接管企业销售,11x.ai 是企业数字员工的雏形吗?,链接:https://mp.weixin.qq.com/s/IuJlFuZMNBaKQne6Kn2r5Q

【58】来源:海外独角兽公众号,作者:kefei,文章:Kore.ai:LLM能否为AI客服带来新一轮洗牌与机遇,链接:https://mp.weixin.qq.com/s/IsS-xeh63ul82yw14EZOSA

【59】来源:海外独角兽公众号,作者:kefei,文章:Glean:大模型时代的企业内入口级产品,最了解员工的“AI同事”,链接:https://mp.weixin.qq.com/s/ibqKqUJJ1uZ0rAHx34yqGQ

【60】来源:海外独角兽公众号,作者:程天一,文章:AI重塑法律行业:为80%的工作带来10x提升,链接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg

【61】来源:海外独角兽公众号,作者:程天一,文章:Suno AI:音乐生成迎来MidJourney时刻,Suno能否挑战Spotify?,链接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg

【62】来源: 鹿其鹿粦Chilling公众号,作者:Aaron Qian,文章:EP.3 | 一年之后:AI大模型航海我们身在何处 将驶向何方 (II) – 硬件篇,链接:https://mp.weixin.qq.com/s/9ra-9iQ_HjAfsethunVOrA

后Transformer时代,AI将何去何从?(上)|【十万字】深度研报

aigc阅读(49)

一、核心判断及观点

压缩即智能-十几万字的核心不过100多字

注意力机制告诉我们要做减法,总结是最好的减法过程。一个产业的结论:5句话足以。

  1. 理解神经科学机制,会对AI的发展起到关键作用!
  2. 联结主义学派仍然继续要走压缩智能和物理世界模型等深度仿生路线!
  3. 大模型的Scaling Law大概率失效下,大模型将降本增效-模型更小,成本更低,大家将会专注基于目前大模型能力,开发PMF的产品!
  4. 国内大模型公司将会转型做垂直行业产品的变多,不会有那么多的人留在牌桌上!
  5. AI Infra:推理和训练阶段的计算优化,合成数据;大模型层:有持续稳定大流量使用以及良好的盈利潜力,期望能突破互联网的生态;应用层将大爆发:美术工具、音乐生成、AI4S、生产控制、学龄前儿童教育、游戏、智能眼镜、智能陪伴和具身智能;商业价值较高,投资机会明显。

二、AI导论

AI概念

人工智能(Artificial Intelligence,AI)研究目的是通过探索智慧的实质(哲学知识论和脑科学),扩展人造智能(计算机科学)—— 促使智能主体会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、专家系统等)、会学习(知识表示,机器学习等)、会行动(机器人、自动驾驶汽车等)。

AI学科的发展是由哲学知识论不断引导着神经科学和计算机科学融合(两者互相促进)的。

一个经典的AI定义是:“ 智能主体可以理解数据及从中学习,并利用知识实现特定目标和任务的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”

意识之外…

辩证上来说,一定会有人类的感知系统盲区,无法感知就无法意识到盲事物的存在。而人类万万没想到,这个盲区竟先来自于我们的大脑,具体来说是我们的神经系统。

神经系统把我们的感知死死限制在了对外界信息的获取和处理过程中,你可以通过眼、耳、口、鼻、舌、皮肤等外界感受器,获取大街上的帅哥美女信息,想一想今天晚上吃些什么,然后再刷刷抖音【1】。

我们的意识绝对不能主观控制心跳,控制肠胃的蠕动,肝脏的运行,控制血管的收缩,当然,意识更不能指导每一个神经元的运转,由于意识权限仅仅被限制在神经网络之中,若不是通过解剖和显微镜看到了神经元,人类甚至不知道神经元本身的存在。

我们以为自己的意识是身体或者大脑的主人。但我们还在妈妈肚子里的前两个月,根本没有任何的意识。我们以为的“自我”根本就不存在。但身体,依旧按照DNA编码的规则,按部就班的发育着。

随着孕龄的增大,听觉、味觉、触觉等感知系统的发育逐渐完善后,大脑才能建立足够多的神经网络,让我们产生意识。

人类科学家终于认识到–意识不等于大脑。

我们思考中的意识世界不过是神经元相互协作的结果。主动的意识习惯也可以改造神经元回路。(辩证唯物主义:意识产生于物质,但意识可以改造物质)

神经科学

随着人们对神经系统的研究深入,科学家们对智能的形成逐渐从意识层面(可认知的、肤浅)转向至物理层面(难以认知的、源头)。

图:意识和物理上的知识形成【2】

很多AI创业者和科学家特别喜欢说自己的项目才是更像人的运动、思维和感知模式,来强调技术的优越性,本篇将注重:

  1. 人的神经系统如何运作
  2. 以及是否需要拟人才能实现效果

来帮助大家更好的独立判断项目。

1)神经科学的发展历史、现状和展望

注:本篇知识点和框架大规模借鉴了认知神经科学之父迈克尔·加扎尼加(Michael S. Gazzaniga)编写的认知神经科学教科书第三版,在此基础上补充了了前沿研究成果。

神经科学概述

神经科学(Neuroscience),又称神经生物学,是对神经系统(包括大脑、脊柱和周围神经系统)及其功能和疾病的科学研究。

神经科学是医学领域,乃至整个自然科学界最前沿、最复杂、最深奥的学科之一。近一百年,脑科学获得了近二十项诺贝尔奖。

“左脑负责理性思考,右脑负责创造力。”很多人曾经、甚至现在依然对类似这样的说法信以为真。这是因为,很长时间以来,对大脑的研究往往会把大脑划分出几个区域,分别研究单个脑区的功能。

但现在,许多神经科学家指出,是时候以新的方式来提升我们对大脑运行原理的认识了:大脑的各种功能,关键不在于某一个脑区,而是来自于不同区域之间的交流。

人类对脑的探索过程

图:1873年,人类通过染色法第一次观察到完整的神经元

西方的科学家,经历了哲学思考、动物解剖、人类大脑解剖、脑功能分区、染色法发现神经元、电生理、神经化学、膜片钳、核磁共振成像、甚至是AI模拟的范式转变。由思想层面转变至物质层面,由整体层面转变至神经元微观层面,由直接观察到间接机制的模拟。

总而言之,神经科学发展是一个由不断更新的研究手段(1 直接观察:解剖、核磁共振影像;2 间接观察:电压钳、膜片钳、染色示踪;3 药理学;4 认知精神科学 5 AI模型复现)为主要驱动和从而发现的机制原理为次要驱动的相互影响双螺旋发展。

现状和展望

至今,目前的脑科学研究,在分子生物层面和认知行为层面还是很强的(个体机制),薄弱环节在于神经环路和系统机制方面(整体机制),如何分析各个神经环路的工作原理,以此来解释脑的功能或人的行为,进而阐明人脑的系统性工作机制。

图:个体机制–神经元的工作机制

认识神经元不难,搞清楚它们之间的排列组合,才是难【3】。

因为人类的大脑估计已经包含860亿个(10^11次方)神经元,这些细胞信号传递到对方通过多达100万亿(10^15)突触连接。

图:整体机制–神经元的排列组合

就好比,我们现在已经初步画好了咱们大脑图谱有哪些“中心功能大楼”,也知道了这些大楼本身是由神经元为砖瓦砌起来的,但是大楼内部的电线管道是怎么铺的?大楼与大楼之间的交通线路是怎么设计的?它们之间的排列组合、优先次序、是否有替代线路?我们仍然知之甚少。

这些像蜘蛛网一样密密麻麻排列的“大脑”线路,神经科学家们称之为“连接组”(connectome)。我们始终相信,研究大脑,就要先从全面绘制大脑的连接地图开始(大脑的物质构造)。

阶段一:C.elegan,线虫-302个神经元(重现方法:切片/电镜/手绘)

于是,我们决定先杀个小小的生物的大脑来试试水,第一刀,挥向的是C.elegan,线虫(302个神经元)。

1970年代,剑桥大学两位分子生物学家John White 和 Sidney Brenner决定利用线虫来研究大脑连接组学,他们将线虫大脑切成了超薄脑片,通过将相机架在电镜下拍摄微观图片,然后放大打印出每一个脑片的电镜下图像,再人工用彩色铅笔一点一点、一圈一圈地标记线虫的大脑结构,绘制线虫脑图。

终于,十年以后,1986年,这项工作完成了,线虫–一个拥有302个神经元的简单生物–成为了人类神经科学研究史上第一个,也是迄今为止唯一一个,拥有完整大脑图谱的生物。

阶段2:果蝇的半个大脑-25,000个神经元(重现方法:切片/电镜/CV)

我们开始想办法提高技术,把样品准备和电镜拍摄速度提高、利用计算机算法来自动识别电镜图像下的神经元、以及引入人工智能来处理这大批量的数据,等等。

我们“教会”计算机如何识别一个个神经元细胞,命令它们将不同神经元以不同颜色区分开来,接着再将这每一个薄薄的脑片叠加还原成原本的脑组织块,以重建里面的每一个神经元的完整模样和真实连接关系……

果蝇的大脑有芝麻粒那么大,包含大约十万个神经元和数百万个突触连接。

2020年,哈佛大学研究团队宣布他们成功绘制出了…半个果蝇大脑图谱,下图是这半个果蝇大脑图谱的简单展示,包含了约25,000个神经元。

尽管还有半个果蝇大脑需要画,但是这半个果蝇脑谱,已经是现如今被报导出的最大的生物大脑图谱了。

阶段3:一立方毫米的老鼠的大脑-10万个神经元(重现方法:聚焦离子束显微镜&3D-CV)

Janelia团队则开始使用聚焦离子束显微镜,聚焦离子束系统除了具有电子成像功能外,由于离子具有较大的质量,经过加速聚焦后还可对材料和器件进行蚀刻、沉积、离子注入等加工,因此可以大大缩减样品和拍摄时间。

同时,他们找来了谷歌合作,将2D数据进行注释标记以及3D重建(谷歌地图技术),但是有时候计算机会将两个缠结在一起的神经元误认为是一个神经元,这给后期的勘误工作带来了很多麻烦。最后还是要靠经验丰富的科学家来进行最后的结果审查。

Allen Brain也是绘制脑图的主要贡献者,团队于2019年曾宣布他们已经花了十年时间绘制出了一立方毫米的小鼠大脑图,其中包含了10万个神经元和100万个突触结构。

虽然,一个小鼠大脑有大约500个立方毫米这么大,没关系,总有一天!

目前,脑功能成像,神经刺激,神经信号记录,脑损伤研究,等等研究方法【4】,大多是相关性研究,通过研究来证实某个神经核团或环路与某种脑功能的相关性,或者进一步再描述其简单的因果关系,“AA通过BB调制CC的活动来实现XX功能”之类。这些研究带来很多孤立的碎片的研究结论,每年在顶刊发表很多高分文章,但对整个人脑的工作原理仍然缺乏突破。

总而言之:仍然缺乏有效的观察研究方法(AI连接主义的模型模拟预测为一大方向),重现人类大脑结构和机制。(目前神经学前沿一大热点仍然是神经元分类)。

神经系统机制

大脑神经元的建立过程——从基础构建到复杂网络的形成之旅【5】。

神经细胞神经系统的细胞主要分为两大类:

一类是主导电化学信号传导的神经元细胞;

二类是像胶水一样把把神经元细胞联结起来,并辅助神经元功能的胶质细胞。

神经元具有感受刺激、整合信息和传导冲动的能力。

神经元感知环境的变化后,再将信息传递给其他的神经元,并指令集体做出反应。神经元占了神经系统约一半,其他大部分由神经胶质细胞所构成。

据估计,人脑中约有850-1200亿个神经元,神经胶质细胞的数目则更是其10倍之多。

神经元细胞

图:典型神经元2D结构

结构及功能

神经元形态与功能多种多样,但结构上大致都可分成细胞体(胞体)和神经突(胞突)两部分。

神经突又分树突(dendrite)和轴突(axon)两种。轴突往往很长,由细胞的轴丘分出,其直径均匀,开始一段称为始段,离开细胞体若干距离后始获得髓鞘,成为神经纤维。

图:典型神经元3D结构

1、树突(dendrite)- 接收器:树枝状的纤维从细胞体向外伸出,分叉且非常多,这些纤维被称为树突,主要是收集来自感觉器官的直接刺激或来自相邻神经元的活动信息,并把传入信息传递给神经元的中心部分。这些突触具有一定的权重,它们决定了信号传递的强度和效率。权重的大小反映了神经元之间的连接强度,从而影响信息传递的效率和方式【6】。

2、胞体(soma) – 处理器:神经元的中心部分,含有细胞的染色体,能够迅速评估同时接收到的数百上千条信息。其中有些信息可能是兴奋性的(“放电”),有些是抑制性的(“不要放电”),胞体的唤起程度取决于所有传入信息的汇总。

3、轴突(axon) – 发射器:从胞体上伸出,上有髓鞘(轴突覆盖物),传递被唤起的神经元自己的信息(兴奋大于抑制),有时很长,有的人连接脊与脚趾的轴突可以长达一米多。轴突有时会非常短,大脑里中间神经元之间的轴突可能只有不到1厘米长。

图:神经元连接部分-轴突末端和树突前段

神经元的轴突会与另一个神经元的树突通过形成突触结构建立联系,在突触结构中,一些神级递质(化学)会通过上一个细胞的轴突上的突触前膜,向下一个细胞的树突上的突触后面传递,以实现细胞间的信号传递。神经元轴突还可通过发生动作电位(电信号)进行电信号传递。

功能

神经细胞可以大致分为运动神经细胞、感觉神经细胞和中间神经细胞三大类【7】。

感觉神经细胞(Sensory neurons)的细胞体位于背根神经节(细胞体簇就在脊髓外),而它们的外围延伸遍及全身。具体来说,感觉神经元通过特定的外部和内部受体被感觉输入激活。

  • 外部感受器对身体外部的刺激做出反应包括嗅觉感受器、味觉感受器、光感受器、耳蜗毛感受器、温度感受器和机械感受器。内部受体对身体内部的变化作出反应。例如,它们可以检测血液化学性质的变化或通过引起疼痛感来对潜在的破坏性刺激做出反应。
  • 感觉神经细胞利用其感受器,将特定类型的刺激转换为动作电位或阶梯性电位,并将信号传递回中枢神经系统。

运动神经细胞(Motor neurons)是一种位于大脑运动皮层、脑干或脊髓的神经细胞,其轴突(传出神经纤维)可延伸至脊髓内部或脊髓外部。

中间神经细胞(Interneurons)的细胞体皆位于中枢神经系统,连接神经系统的多个区域。中间神经元是神经回路的中心节点,允许感觉神经元、运动神经元和中枢神经系统之间进行通信。此类别包含最多种类的神经元,它们参与处理许多不同类型的信息,例如反射、学习和决策。

——此类神经元的数量庞大,约占神经元总数的99%。

分工与合作:三种神经细胞构成了一个大环路,如下图。感觉神经细胞通过感受器感受到刺激(火的炙烤),并将刺激信号传递到中枢神经系统的中间神经细胞。中间神经细胞通过相互联络,做出决定(移开手指),并将指令传递给运动神经细胞。而后,运动神经细胞负责将指令信号传递到效应器,使肌肉动作(移开手指)。

释放不同的突触递质来区分神经元

突触神经突触是允许神经通信的神经元之间的连接点。

大脑中绝大多数的神经元大致可分为兴奋性神经元(excitatory)或抑制性(inhibitory)神经元。兴奋性神经元占80-90%,它们释放兴奋性神经递质并使得下游神经元更兴奋,相当于大脑中的”油门“;抑制性神经元占10-20%, 它们释放抑制性神经递质使得下游神经元更不兴奋,相当于大脑中的”刹车“,避免过于兴奋,比如痛觉麻痹等。

前者主要传递兴奋性神经递质,如谷氨酸(Glutamate)、肾上腺素(Epinephrine);而后者主要传递抑制性递质,如γ-氨基丁酸(GABA)和血清素(5-HT)【8】。

神经递质目前在人体中发现100多种(100多种信息维度),然而,大脑中绝大多数的神经元还是单纯的兴奋性或抑制性,再加上同时释放多种神经递质的意义和机制仍不清楚,相关问题还处于神经科学研究的早期阶段。

具体工作原理

一个典型的神经元能够通过树突和胞体一次接收上千条信息【9】。当胞体被充分唤起时,它自己的信息便会被传递给轴突,轴突通过动作电位将信息传递到突触小体。这个含有神经递质的小泡破裂,将神经递质释放到突触间隙中。形状合适的神经递质分子来到突触后膜时,会停留在受体上并刺激接收细胞。多余的神经递质通过再摄取过程被回收到“发送”神经元中。

PS1:动作电位(action potential):当细胞体的唤起达到临界水平时,触发轴突中的电脉冲,轴突内外电荷发生逆转,导致电信号沿轴突传递,我们称之为神经元“放电”or“点火”。

PS2:全或无原则(all-or-none principle):动作电位没有中间状态,要么放电,要么不放电。

PS3:静息电位(resting potential):在正常的静止状态时,细胞中的离子使轴突带有少量的负电荷,此时状态即为静息电位。

特殊情况:同步放电即有些神经元(极少数)不使用神经递质在突触间传递信息,放弃了化学信息传递,通过电联系进行直接通信。电突触不如化学突触常见,主要存在于中枢神经系统中。电突触中的突触间隙要小得多,这使得神经元可以直接通过间隙连接传递离子电流。出于这个原因,电突触比化学突触工作得更快,并允许脉冲在神经元内沿任一方向传播。然而,因为它们不使用神经递质,所以电突触比化学突触更不易改变。

生物化学抽象到AI数学模型–M-P神经元模型(深度学习的起点理论)

如上图所示,神经元1的轴突传递了4个信号给神经元2,分别是输入1、输入2、输入3和输入4。而神经元2的输出信号(输出1和输出2)分别是神经元3的输入信号(输入1和输入2)。

如果输入信号之和(由各正电离子受刺激流入胞体,电压变高)超过神经元固有的边界值(电压阈值),细胞体就会做出反应,向与轴突连接的其他神经元传递信号,这称为点火【10】。

点火的输出信号是可以由”0″ 或 “1”表示的数字信息表示–全或无原则(all-or-none principle):

无输出信号,

有输出信号,

1943年, [McCulloch and Pitts, 1943] 将神经元的工作过程抽象为上图所示的简单模型,这就是一直沿用至今的 “M-P神经元模型” 。

电信号的强弱用数字大小表示,突触的权重使用乘积,胞体接受的动作电位可以用点火函数表示,胞体的激活可以用阶跃函数比较表示。

在这个模型中,神经元接收到来自 m 个其他神经元传递过来的输入信号,这些输入信号通过带权重(weights)的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过”激活函数” (activation function) 处理以产生神经元的输出。神经元在信号之和超过阈值时点火,不超过阈值时不点火。

所以点火的函数可以表示为:

其中,

称为激活函数。理想中的激活函数是下图所示的阶跃函数,它将输入值映射为输出值 “0” 或 “1” ,

显然,

  • “1” 对应于神经元兴奋(点火成功)
  • “0” 对应于神经元抑制(点火不成功)

神经胶质细胞

神经胶质细胞,10-50倍与神经元数量,作用:隔离,支持,营养

这里不一一详细解释了,大家有兴趣可以自行查阅其功能。

神经回路

神经元从来不单独行动,总是与其他细胞一起合作,神经元与神经元结成一张神经网络,以神经反射的形式工作。

神经回路的结构

我们可以把把神经元比喻为字母,大脑比喻为整篇文章,而微环路就是字母组成的单词,神经环路则是单词组成的句子。不同脑区使用的不同单词就是环路模体(circuit motifs),而环路模体又进一步组成了复杂的神经环路架构【11】。

环路架构大体分为连续地形图、离散并行处理、维度扩展、循环回路、偏倚输入-分离输出的环路结构;通过神经的不同布线连接,达到计算和节能的目的。

神经环路架构案例

哺乳动物视觉系统,其中信号始于光感受器→ 双极细胞 → 视网膜神经节细胞 → 外侧膝状核 (LGN) 中继神经元 → 第 4 层初级视觉皮层 (V1) 神经元 → V1 神经元其他层 → 较高皮层区域的神经元。沿着这些前馈通路,视觉信息从简单的光强度转化为对比度、边缘、物体和运动。

回路进化

神经系统的逐渐复杂化需要神经元数量、神经元类型及其连接和大脑区域的扩展。所有这些过程都必须由 DNA 的变化引起。进化创新的一个关键机制是基因的复制和发散。

大脑区域进化的复制和发散原则上应该使神经元回路模块化:复制单元内的丰富连接和单元之间的稀疏连接。反过来,神经元回路的模块化特性可能会加速进化,因为不同的模块可以相互独立地进化。

为目前为止,负责AI大模型进化的,只是人工的版本更新。

计算机环路是自上而下设计的产物,而复杂的神经元环路已经进化了数亿年。神经元回路在发育过程中使用进化选择的遗传指令自组装,并通过经验进行微调。因此,现有的神经环路结构很可能是在演化过程中很容易进化和组装的那些选择。

神经组织

人类大脑的功能机制主要有7大类功能:1 感觉和知觉 2 注意与意识 3 语言 4 学习与记忆 5 运动控制  6 情绪 7 认知控制

1 感觉和知觉

五种基本的感觉系统,听觉、嗅觉、味觉、躯体感觉以及视觉,使我们可以解释周围的环境。每一种感觉包含了独特的通路和加工,以将外部刺激转化为可以被大脑解释的神经信号。

这五种感觉也不是孤立工作的,而是一致行动以构建一个对世界的丰富的解释。正是这一整合成为许多人类认知的基础,并且使我们在一个多感觉的世界中生存并兴旺发展【12】。

从信号的角度来看,人们通过耳朵接受声波,鼻子和舌头接受远近分子化学信号,皮肤接受机械波、温度波,视觉接受光波后,各个感觉神经再通过电信号、化学信号以及机械波的形式传递。

神经如何传递和加工处理至人类可意识的过程大抵相同,下面将主要讲述视觉神经工作原理。

像大多数其他哺乳动物一样,人类是视觉生物:绝大多数人要依赖眼睛来辨别我们看到的是什么,往哪里看,来引导我们动作。这些过程当然是双向互动的。要完成诸如抓住一个扔出物的技巧性动作,我们必须确认物体大小、形状和空间运动轨迹,这样我们才能预先准备好把我们的手放到哪里。

从初级到更高级的视觉皮层,视觉信息逐级传递。人脑理解的内容越来越复杂化、抽象化,由”模式”变成具体的“物”,再到物的特性和物与物之间的关系。在逐级传到过程中,人们也注意到,其在皮层的传到可以大体分成两个通路,腹侧通路(Ventral Pathway/Stream)和背侧通路(DorsalPathway/Stream)。

这两个通路,也分别代表着视觉神经的两大功能:what-物体识别和where-空间感

物体识别

对于物体识别而言,视觉系统中的ventral stream(V1 -> V4 -> IT)通路是至关重要的。在这一视觉信息处理通路中,信息被越来越抽象成高级的语义信息。比如V1视觉皮层表征“bar”,V4视觉皮层则表征texture, IT则存在着对物体类别(脸,动物)的直接表征【13】。

视觉识别是典型的Encoder-Decoder的RNN(循环网络)架构

总而言之:大脑对外部信息处理就是不断表征化的过程(并且是往返循环),表征简单理解为人类可认知到的集成的符号 – 能把某些实体或某类信息表达清楚的形式化系统。

神经元系统对于信息的处理是层级递进的,简单来说每一个皮层(不同的表征处理单元)处理逐级规律复杂,V1视觉皮层前,输入信息为像素点,V1视觉皮层将之处理为Bar-线,随后再由V2-V4视觉皮层处理为-面,3维;再由后续的视觉皮层加工为颜色、光影等更综合的表征,直至IT皮层-形成我们对图像的整体感知,并区分物体。

知觉分类只解决了部分识别问题。要使关键信息发挥作用,必须把现有加工内容与我们贮存的有关视觉物体的知识相联系。语义分类(学习和记忆的表达表征–语言)使我们看到知觉对象间的相似性,并辦认出物体的独特特征。

看到这里,大家对视觉神经元的表征化的工程,感到一丝熟悉,对!以CV计算机视觉技术为主的公司所采取的基础模型-CNN卷积神经网络-Convolutional Neural Networks,其设计灵感就来自于层级递进的视觉神经物体识别通路表征化过程–1960年代对猫的视觉皮层的研究。

有意思的是,2014年,James Dicarlo首次尝试使用CNN来直接预测IT神经元的活动。他们将同一张图片展示给猴子以及CNN模型,在利用线性回归直接根据CNN对图片的表征去预测在猴子IT脑区记录到的电信号。他们惊人的发现,仅通过简单的线性方法就可以从CNN的表征预测出IT的脑区活动,这说明两者表征的信息是十分相似的。

利用数学模拟的AI模型去预测脑区电信号,当实验结果趋同时,也意味着神经元架构和数学模型基本相同,这种新的研究范式正在反向助力神经科学的探索(比如当下最火的AI预测蛋白)!

空间感(定位和导航)

通过空间通路,人可以很好的理解所观察到的物体在空间维度内和人的关系,从而得以判断和操作该物体。

太阳的东升西落,城市的东西南北,过马路要左右看……在人们的日常生活中,大脑的空间感知作用扮演着重要角色。无论是寻找方向、定位目标还是记忆场景,都需要大脑对空间信息的处理和记忆。

很遗憾的是,人类对此空间通路机制的研究,非常浅薄,对腹侧通路(物体识别功能)的神经通路的数学量化复现相当成功。

目前主流研究仍在通过小白鼠、猴子等哺乳动物实验,继续寻找空间感所涉及的神经单元及细分作用(仍未找齐,目前仅发现世界中心编码和自我中心神经元),各个单元如何相互作用以及如何集成编码,我们仍未探知清楚。空间感神经元与海马体(记忆)紧密联系。

幸运的是,科学界对神经科学空间感热情高,对此脑区的研究产出高。

  • 自我中心细胞(前后左右-自己移动坐标系)主要负责以个体自身为参考点的空间信息处理。这意味着它们编码的是相对于观察者位置的物体或环境特征,如身体周围的边界或地标。当我们移动时,这些细胞会根据我们的视角变化来调整它们的活动模式,帮助我们感知方向和距离的变化。
  • 世界中心神经元(东西南北-固定坐标系坐标系)则关注于环境中的绝对位置信息,它们编码的是不依赖于观察者位置的环境布局,比如一个房间的固定角落或地图上的绝对坐标。这些神经元帮助我们理解环境的全局结构,即使我们的位置改变,它们提供的信息依然保持稳定。

  • 经典力学:一个物体简单移动需要至少两个坐标系:自己的坐标系和固定坐标系,如果要操作物体,则还需要物体的坐标系(如上图),才能清晰的表达各个位置关系,而运动控制算法就是在各个坐标系中求最优解。

世界中心的编码方式是建立在自我中心编码的计算和转换上的。换言之,相比起处理 ‘前后左右’的位置信息,大脑在处理‘东西南北’的位置信息要经过更为复杂的编码过程。

2 注意和意识

这部分我主要讲述注意,意识部分在上面已经有所提及。

想象你在参加一个鸡尾酒会,身边有人低语,有人高谈阔论,偶有玻璃碰杯声音,远处还有乐队在演奏。在这么嘈杂的环境中,你依旧能够听到身边的朋友在说什么。这不仅仅是因为你们离得近,更重要的是,你将注意力集中在了她身上。注意力让你「选择」把有效的认知资源都用于在一堆嘈杂的信息中,寻找、分析她的声音【14】。

这就是著名的「鸡尾酒会效应」。

注意力是一个用来分配有限的信息处理能力的选择机制。感知系统在做信息加法,那么注意力就是在做减法。

“少则得,多则惑,是以圣人抱一为天下式”-道德经

随着进化的脚步,生命体本身由简至繁,而人类历史发展到今天,我们的生存环境和所需要学习、掌握的工作任务和过去的丛林生活复杂到不知多少。为了应对这个变化,大脑会如何进化呢?是发展成一个同时处理庞大的信息并且容量超大的大脑,还是发展成虽然容量不大,但可以迅速地分析信息,并配有一个高效率信息选择和投注机制,将所有计算能力都放在重要的任务上的大脑呢?很明显的,后者更有优势,而且大自然也为我们选择了这个目标。这个「高效率信息选择和投注机制」就是我们说的「注意力」(attention)。

注意力是指,选择性地专注在某些感受到的信息上,这些信息可能是客观或主观的,同时忽视同一时刻收到的其他信息。这一个认知过程。

机制:注意力通过信号控制(关注的信息兴奋,不关注的信息抑制),锁定相关脑区的工作状态,同时加强相关脑区的连通性,削弱其他联通性,让我们的大脑临时性、软性的改变结构,变得“任务特异化”。

这种认知资源和认知资源协同状态的预锁定,就像对大脑这台计算机的“虚拟化”,预先写好资源请求参数,并预装了所需要的程序执行和依赖环境。

一切源于2017年谷歌Brain团队那篇鼎鼎大名的文章“Attention Is All You Need”(注意力就是你所需要的一切),就是这篇文章提出了以自注意力为核心的Transformer网络结构。

在自注意力机制下,输出的内容加权平均了输入,既考虑了输入的全面性,也考虑了输入的个别单词的相关性,从而更有针对性的理解句子中的含义并输出理解。

3 学习和记忆

学习 (learning)是获取新信息的过程,其结果便是记忆(memory)。也就是说,在学习了某样东西后,记忆便形成了,这种学习也许会发生在信息的单次呈现后,也许是在信息的重复呈现后。记忆必须是能够在一段时期内维持的【12】。

学习与记忆可以假设为三个主要的阶段,不断循环:

编码(encoding)是对输入信息的处理与储存它分为两个阶段:获取与巩固。

  • 获取(acquisition)是对感觉通路和感觉分析阶段的输入信息进行登记,外部信号转换为内部可处理信号-电和化学信号,例如计算机转化为0和1(二进制);
  • 巩固 (consolidation)是生成一个随时间的推移而增强的表征,进行特征提取和推理。
  • 学习是大脑获得经验的过程,即中枢神经系统收集感觉器官和记忆的神经电位的过程-神经元形成连接(突触的可塑性),并保持兴奋与协调,直至形成记忆(神经元的连接),一般分为两种,简单学习与复杂学习。

存储(storage)是获取和巩固的结果,代表了信息的长久记录。

记忆则是对学习过程的储存,即中枢神经系统储存感觉器官的神经电位,一般也分为两种,短时记忆和长时记忆。

短时记忆是中枢神经系统对于刺激的瞬间记忆,是对刚刚发生事情的片刻记忆,这样的记忆往往只能维持几秒钟或几分钟。而当片刻记忆的刺激,重复作用于中枢神经系统时,便会形成对事情的长时记忆。

提取 (retrieval)是通过利用所储存的信息创建意识表征或执行习得的行为,如自动化动作。对学习机制的再次刺激,直至形成长期记忆。

有意思的是,人类的记忆向来不太准确,大家可以试着回想一下上周的事情,能不能像计算机的视频一样每一帧都能高清的回想起来?

4 语言

语言有两种形式:1 表达 2 语言推理(最重要)。

语言可以是某个语言上命名好的东西,也可以只是一种”表征”(representation)【15】。我们可以在不说话的情况下,直接使用这个“表征“进行思考、推理等等。所以常常有思维比口头表达更快的体验,而且如果口头说的比较快的话,经常会说错而不自知。也就是说,语言可以是更广义的概念。而这种推理和逻辑思考能力,我们称为Verbal Reasoning!

这里可以看出,“语言”(广义的)跟思考具有非常直接的关系。有了语言,我们能在大脑中思考的时候对事物形成“表征”。传统上,我们认为,为了方便思考,特别是在谈话和阅读中思考,我们会首先将口头语言中的对象物转化为大脑中的“表征”,这是一种”语言过程” ,然后使用这些“表征“进行演绎和推理,这是一种非语言过程,最后将结果转换为口头语言对象(表达)。

在整个过程中,从语言对象到大脑内在表征,以及从大脑内在表征到语言对象的两部转换自然是跟语言直接相关的。对应的,还有图像推理(Visual Reasoning),也就是直接使用视觉或者图像表征进行空间构建或者关系推理的过程,典型地比如玩俄罗斯方块。

既然有图像推理,那么,语言介质(广义的)就并非思考的必要条件,但是为最主要条件。

狭义上来说,人类就是用语言来进行高级思考的,输入的信息➡️形成表征➡️根据表征的特征,寻找匹配的语言形容➡️内在表征以语言的形式演绎推理➡️表达;

语言与思想的关系被认为是相互依存的。一方面,语言提供框架来组织和表达思想;另一方面,思想的边界可能受限于语言的表达能力。语言的使用不仅反映思想,也可能塑造思想,如母语对思维模式的影响。

5 运动控制

运动功能分为运动计划(同步感觉和运动信息后进行位置和轨迹预测空间编码)、运动准备(小脑-专门表征动作的时间特性的结构,控制节奏;基底神经节转化信息为动作信息)以及和运动执行(调动分布式专门运动神经系统)。

运动控制依赖于广布的解剖结构,这些广布的运动结构以层级式的方式进行运作:最高层计划最好以动作如何实现目的来描述,底层的运动层级致力于将目标转化为运动。最底层是实现一个特定动作的具体指令,最高层是动作目的的抽象表征。

然而运动计划和学习是同时发生在各个层级上的。学习发生在所有的层级。运动控制上解耦,运动学习上强耦合!

我们对机器人的控制理论仍然是数字自动化控制(预定和固定流程控制-PID等),关于对控制的神经网络设计(适应开放场景,鲁棒性高,泛化性强)才刚刚开始,具体看具身技术部分。

6 情绪

情绪的作用在动物中激励目标的实现和躲避危险的功能。

情绪识别不仅仅是单一神经元或区域的工作,而是涉及广泛的大脑网络。例如,视觉皮层首先处理情绪刺激的视觉信息,然后传递到包括杏仁核在内的边缘系统,进一步的处理涉及前额叶和其他高级认知区域,以综合信息并做出情绪反应。

由意大利理工学院科学家弗朗切斯科·帕帕莱奥领导的研究团队,发现了使人类能够识别他人情绪的大脑网络。识别他人表情并作出适当回应,是人类和动物的基本技能,这能使同伴间的互动更有效,从而提高生存概率。但对这一能力背后的大脑机制,人们仍知之甚少【16】。

使用荧光显微镜拍摄的神经元图像。图片来源:意大利理工学院

7 认知控制

认知控制 (cognitive control) 是指个体在特定的情境中,自上而下的灵活地调动认知资源来调整想法和行为的一种目标导向的心理过程;认知控制包括计划、控制和管理信息加工流的心理能力–调度资源和监控反馈保证目标导向行为的成功。

目前研究热点是认知控制的一般性/特异性机制。所谓一般性(大脑的泛化性),是指不同任务之间共享相同的加工机制 ;相反地,特异性(任务的专用性)是指不同的任务各有特异性的加工机制。

当两个任务之间的差别大到可以归为两类时,他们之间就产生了边界 (boundary)。因此,认知控制的一般性 / 特异性很可能不是非此即彼的。

这提示我们,大脑在进行信息加工时有一定的泛化能力,并不局限于具体的任务。但是这种泛化能力不是无限的,如果任务之间的差异达到了一定的程度,大脑会形成不同的功能模块来分别进行加工,这样能够保证在面对外界刺激时有最为高效的反应。从进化的角度来看,这种高效加工对人类适应环境也是极为有利的。

对认知控制的资源调度和监控反馈机制的研究可以让大模型(泛化)在应用(专用)时,进行特异化工程(形成洞悉),有效解决专用性不足的问题(通用大模型如何变成垂直大模型)。

8 大脑进化

1.智能史的第一次突破:两侧对称动物都有个脑子来趋利避害、整合信息、持续学习和情感惯性,发源于线虫–一切都是为了活下去【17】。

2. 智能史的第二次突破:脊椎动物的硬质骨骼催生了更大的身体、能够容纳更大的脑,大脑开始可以简单的强化学习(有明确的目标,但都是现实环境的目标)和好奇心(仅仅探索了未知区域满足好奇心、也应该得到强化鼓励);

强化学习-以“试错”的方式进行探索学习,通过与环境进行交互获得的奖赏(多巴胺是人强化学习的奖赏)指导行为,目标是为了最多的奖励;AI代表 -「时序差分学习(temporal difference learning)」,是现在强化学习的基本原理,包括AlphaGo也是这么做的。

3.智能史的第三次突破:依托于无监督学习、把同样的脑回路排队复制–神经元数量大爆炸(人类大脑中新皮层已经占整个脑容量的70%),新皮层创造出“在想象力中用强化学习模型思考”;哺乳动物的“新皮层”做模拟学习,是从自己的想象中学习(GPT-4 的阶段)。

人类新皮层玩的是无监督学习–无人指导的学习。大自然中的动物不可能搞监督学习,因为没有老师告诉它每一个东西是什么。你得自己摸索。而新皮层摸索的方法,恰恰就如同现在训练GPT一样,先读取一半信息,再自己「生成」下一半信息,然后把生成的信息跟训练素材比较。对了就加强,错了就改进。

对大脑来说,「生成」就是「模拟」,就是「想象」。

用模型思考:替代性试错-建模、反事实学习-辩证思考得到因果关系、情节记忆-具体事件的记忆。

纯粹的强化学习是只用直觉。有犹豫的,就是基于模型的强化学习(奖励是想象出来的,不是实际的)。现在几乎所有自动驾驶AI都是纯粹的强化学习,根据直觉直接行动,没有犹豫。但是应该有犹豫才好。

  • 丹尼尔·卡尼曼说的系统1,也就是快思考,其实就是强化学习带来的本能反应,由基底神经节自动选择;卡尼曼所说的系统2,慢思考,其实就是前额叶皮层感觉到了冲突,先暂停自动反应,发起模拟再做选择,也就是基于模型的强化学习。
  • 爬行动物全都是系统1思维。我们日常大部分时候也都是系统1思维。这很好,这使得我们做开车、走路、吃饭喝水这些日常动作都不需要思考,我们很轻松。只在矛盾时刻,我们才需要调用昂贵的新皮层算力去进行模拟。

OpenAI GPT4-草莓大模型(自我强化学习-RL新范式)已经发布:

你需要对一个问题建立多个智能体(agents),让每个智能体各自生成答案。选择最合适的一个,再输出。这两步加起来就是系统2思维。

而现今的大语言模型基本上只是系统1思维,纯直觉输出。但我们可以想见,跨越到系统2在技术上一点都不难,难的只是算力而已 —— 毕竟一切都是新皮层。

4. 有了心智理论,灵长类动物可以通过模仿另一个人做事来学习,也就是从他人的行动中学习(模仿学习)和群体生活(政治博弈-对抗学习)让大脑变得越来越大。

  • 随着爬上食物链的顶端,我们获得了「空闲时间」。别的动物全天都得要么觅食、要么求偶、要么休息,而我们却有时间做点别的事情。
  • 最早的哺乳动物的大脑只有0.5克,而到一千万年前,灵长类的大脑已经达到了350克,为什么我们需要这么大的大脑呢?现在科学家的共识是,为了搞政治。
  • 与天奋斗、与地奋斗都不需要那么大的大脑,只有与人奋斗最费脑。看来还是与人奋斗其乐无穷。
  • 最重要的理论贡献来自那个著名的「邓巴数」的提出者,罗宾·邓巴(Robin Dunbar)他发现灵长类动物的大脑新皮层的大小,和它所在群体的大小是成正比的关系。

  • 群居的麻烦是容易内耗。食物可能还好说,如果吃草的话谁都能吃到,但是交配对象就只有这么多,属于绝对的零和博弈,势必引起争斗。
  • 要玩政治,灵长类的大脑有个硬件基础。我们的大脑不只是比早期哺乳动物大,而且新皮层多了两个新的脑区:颗粒状前额叶皮层(gPFC)和灵长类感觉皮层(PSC)。
  • 我们前面讲的哺乳动物的前额叶皮层说的是无颗粒状前额叶皮层(aPFC),现在这个gPFC是灵长类特有的,它跟PSC配合,让我们获得了一项新能力。这个能力也是新皮层的拿手好戏 —— 模拟和预测 —— 只是这一次是把自身放入情境之中模拟。
  • 换句话说,gPFC能够让我们以第三人称的视角看自己,能跳出自我观察自我。
  • 这种能把自己当做“他者”–换位思考,从高处旁观的能力,就是心理学家和哲学家说的「元认知(metacognition)」。

5.智能史的第五次突破:语言,语言让大脑和大脑联网。以前的我们是单独的个体,现在我们是网络中的一个个节点;有了语言,智人则能够从他人的想象中学习、知识开始爆炸性积累。(群体的智慧!)

  • 语言带给我们的不只是一项个人能力,更是一项积累知识和建设文明的能力:语言能让说话的人把自己内心想象的场景和动作,传递给听话的人。这个功能大大提高了交流的效率。
  • 到了这一步,知识已经不只是存在于人脑之中,更是存在于人脑之间,成了某种近乎独立的存在。人脑只是知识的载体而已,知识本身好像有了生命力。

我们的祖先们,不断持续的优化和补充神经回路机制,神经元的数量飙升,同时配对上好的学习范式,最终要形成精简的功能(皮层or脑区 and 针对性功能的特异回路),才能实现真正的智能!

实现真正的涌现能力!

AI的涌现能力是指随着模型规模变大,模型突然在某一刻拥有了以前没有的能力-大型语言模型在未直接训练过的任务上表现出惊人性能的能力。

神经网络不是黑箱!只是因为我们尚未了解以及计算量过大。

神经学对AI的影响大讨论-鸟飞派和伪鸟派

当人们最初想要制造飞行器的时候,是希望模仿鸟的飞行方式,制造出像鸟一样飞行的机器。后来人们发现,这样的制造方法并不可行,可能不仅实现难度大,而且还不稳定,blablabla…(非专业人士,只是猜测)于是莱特兄弟想出了另一种制造飞行器的方式,相比于模仿鸟类的飞行方式,这种飞行器的工作方式更简单,更安全,更…【18】

这群试图完全模仿鸟类飞行方式来制造飞行器的人,在后世被称为“鸟飞派”,莱特兄弟制造出的飞机则告诉我们,鸟飞派不一定是最有效的工程方法。而他们造出的“伪鸟”,才是更可取的飞行器制造方案。

同样,人工智能发展的初期也有一波“鸟飞派”学者,他们认为只有完全用机器实现大脑的结构,才能制造出一台和人类拥有相似功能的机器大脑。然而这并非是现实的,无论是放在人工智能发展的初期还是放在工业技术更加发达的现代。

原因包括:a人脑拥有上千亿个神经元,神经元之间还有数量更多的连接。要实现这些连接绝不是一件容易的事情。b这些神经元之间是怎样连接,以实现复杂的功能的,目前神经科学家们所知甚少。

2022年的一个周末,twitter上的神经科学圈发酵了一起不大不小的争论,引得领域内好几个著名学者,包括Yann Lecun的参与。最初争论的是神经科学是否推动了人工智能,后来就更多变成了未来的人工智能是否需要神经科学。中国在类脑智能领域的投入也在增加,“该不该类脑”以及“如何类脑”这样的问题都值得在广泛范围内讨论–详见饶毅事件。【19】

争论的起点10月15号时候,神经科学领域和人工智能领域一群大佬,如Terry Sejnowski, Yoshua Bengio, Yann LeCun,Eero Simoncelli, James DiCarlo, Alex Pouget 以及今天争论的主角Konrad Kording, 在arXiv上发表了一篇白皮书文章文章的观点非常简单,摘要只有两句话:

Neuroscience has long been an important driver of progress in artificial intelligence (AI). We propose that to accelerate progress in AI, we must invest in fundamental research in NeuroAI.

概括起来就是:神经科学+人工智能非常有前途,政府请打钱。

没想到两天后,可能是周末比较清闲,来自DeepMind的David Pfau对着Kording的这篇tweet开喷了:神经科学从来都没推动过人工智能,你们白皮书中还说continue to drive AI progress你们真的认为发明Transformers / ADAM的人看过一篇神经科学论文吗?你们就假装在为人工智能做贡献吧。要点脸吧 “it’s embarrasing”(原文)

这样的回复立马就炸雷了,引起了后面很多人的“参战”。这里简单提一下这位Pfau,他其实是正儿八经的神经科学博士,毕业于哥伦比亚大学的神经生物学专业,附属于Center for Theoretical Neuroscience (CTN)。并且在CTN里边有Larry Abbott和Ken Miller等计算神经科学大佬,毕业生中走出了很多在人工智能领域的佼佼者,如David Sussillo,Pfau对于这神经科学和人工智能两个领域都不陌生。

Pfau的评论一出,上文我们所提到的David Sussillo就出来说话了过去几年,我在Google Brain跟Transformer的主要贡献人交往很多。我虽然不能冒昧地推定到底是什么启发了他发明transformer,但是他对神经科学是发自内心的感兴趣,问了很多神经科学的问题。

Yann Lecun大佬出马,直接就一句”You are wrong”甩到Pfau老兄脸上了:你错了 。神经科学极大并且直接启发了我和Hinton,另外神经网络通过调节突触权重来实现学习这一整套想法确定无疑来自神经科学。

  • 1 在应对不同的任务,人的神经元机制反而不如计算机文档(人的记忆不准确,但计算机存储准确等),两者需要结合,不必完全模拟人脑,实际看效果;
  • 2 了解神经基础机制会给当前的AI带来底层创新(深度学习-神经元机制,CNN-猫视觉皮质层,transfomer-注意力机制等等!)。
  • 目前神经科学还处于初级阶段,作为最热门的学科之一,已经是最好的时代。

笔者认为如今神经学的研究会在两大方面极大的推动AI的发展:

  • 1 (人脑进化的现成结果)对现有人脑神经系统机制的突破研究:特别是理解某一功能的神经环路;直接在计算机上复刻实现。
  • 2 神经系统改善进化机制:神经系统如何优化和调整神经回路机制;赋予计算机自我智能进化的能力。

总结

AI模型预测作为新的研究方法也在助推神经科学的发展,在探索完神经学原理后,又帮助ai发展,两者螺旋上升。还有大量神经元原理未被量化,技术天花板尚未显现!

三、AI技术流派原理与发展

(1) 总体流派类别原理和历史

在人工智能的发展过程中,不同时代、学科背景的人对于智慧的理解及其实现方法有着不同的思想主张,并由此衍生了不同的学派,影响较大的学派及其代表方法如下:

学派之间的范式方法早已融合贯通,以神经网络深度学习的联结主义是目前主要贡献学派,学派之争都在想深度学习神经网络的联结主义收敛。

其中,符号主义及联结主义为主要的两大派系【20】:

“符号主义”(Symbolicism),又称逻辑主义、计算机学派,认为认知就是通过对有意义的表示符号进行推导计算,并将学习视为逆向演绎,主张用显式的公理和逻辑体系搭建人工智能系统(已有知识的数学复刻)。如用决策树模型输入业务特征预测天气:

“联结主义”(Connectionism),又叫仿生学派,笃信大脑的逆向工程,主张是利用数学模型来研究人类认知的方法,用神经元的连接机制实现人工智能。如用神经网络模型输入雷达图像数据预测天气:

从始至此,人工智能(AI)便在充满未知的道路探索,曲折起伏,我们可将这段发展历程大致划分为5个阶段期(笔者罗列了关键的事件):

起步发展期:1943年—20世纪60年代

人工智能概念的提出后,发展出了符号主义、联结主义(神经网络),相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序、人机对话等,掀起人工智能发展的第一个高潮。

1943年,美国神经科学家麦卡洛克(Warren McCulloch)和逻辑学家皮茨(Water Pitts)提出神经元的数学模型,这是现代人工智能学科的奠基石之一。

1950年,艾伦·麦席森·图灵(Alan Mathison Turing)提出“图灵测试”(测试机器是否能表现出与人无法区分的智能),让机器产生智能这一想法开始进入人们的视野。

图灵在一篇论文中开门见山问道:

“I propose to consider the question, ‘Can machines think?’”
“我提议思考这样一个问题:‘机器可以思考吗’”

以此拉开AI的序幕,激发当时刚刚兴起的计算机科学领域对AI的思考。

1956年,达特茅斯学院人工智能夏季研讨会上正式使用了人工智能(artificial intelligence,AI)这一术语。这是人类历史上第一次人工智能研讨,标志着人工智能学科的诞生。

1957年,弗兰克·罗森布拉特(Frank Rosenblatt)在一台IBM-704计算机上模拟实现了一种他发明的叫做“感知机”(Perceptron)的神经网络模型。

1969年,“符号主义”代表人物马文·明斯基(Marvin Minsky)的著作《感知器》提出对XOR线性不可分的问题:单层感知器无法划分XOR原数据,解决这问题需要引入更高维非线性网络(MLP, 至少需要两层),但多层网络并无有效的训练算法。这些论点给神经网络研究以沉重的打击,神经网络的研究走向长达10年的低潮时期。

反思发展期:20世纪70年代

人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,然而计算力及理论等的匮乏使得不切实际目标的落空,人工智能的发展走入低谷。

1974年,哈佛大学沃伯斯(Paul Werbos)博士论文里,首次提出了通过误差的反向传播(BP)来训练人工神经网络,但在该时期未引起重视。

1975年,马文·明斯基(Marvin Minsky)在论文《知识表示的框架》(A Framework for Representing Knowledge)中提出用于人工智能中的知识表示学习框架理论。

1979年,汉斯·贝利纳(Hans Berliner)打造的计算机程序战胜双陆棋世界冠军成为标志性事件。(随后,基于行为的机器人学在罗德尼·布鲁克斯和萨顿等人的推动下快速发展,成为人工智能一个重要的发展分支。格瑞·特索罗等人打造的自我学习双陆棋程序又为后来的强化学习的发展奠定了基础。)

应用发展期:20世纪80年代

人工智能走入应用发展的新高潮。专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。而机器学习(特别是神经网络)探索不同的学习策略和各种学习方法,在大量的实际应用中也开始慢慢复苏。

1980年,在美国的卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。

1982年,约翰·霍普菲尔德(John Hopfield) 发明了霍普菲尔德网络,这是最早的RNN的雏形。霍普菲尔德神经网络模型是一种单层反馈神经网络(神经网络结构主要可分为前馈神经网络、反馈神经网络及图网络),从输出到输入有反馈连接。它的出现振奋了神经网络领域,在人工智能之机器学习、联想记忆、模式识别、优化计算、VLSI和光学设备的并行实现等方面有着广泛应用。

1983年,Terrence Sejnowski, Hinton等人发明了玻尔兹曼机(Boltzmann Machines),也称为随机霍普菲尔德网络,它本质是一种无监督模型,用于对输入数据进行重构以提取数据特征做预测分析。

1985年,朱迪亚·珀尔提出贝叶斯网络(Bayesian network),他以倡导人工智能的概率方法和发展贝叶斯网络而闻名,还因发展了一种基于结构模型的因果和反事实推理理论而受到赞誉。

个性推荐算法简介:用户c看过物品a,c,d,用户b看过物品b,与用户c的喜好不重合,用户a看过物品a,c,由此可以推测用户a与用户c相似,可以推荐物品d给用户a;当然后续技术添加了组标签等新算法,使得推荐算法更加精确,推荐算法成为了新一代互联网的核心护城河!任何互联网平台都离不开推荐算法,抖音,小红书等推荐机制吸引了大量的注意力,便由此通过广告变现,成为新一代互联网龙头。

1986年,辛顿(Geoffrey Hinton)等人先后提出了多层感知器(MLP)与反向传播(BP)训练相结合的理念(该方法在当时计算力上还是有很多挑战,基本上都是和链式求导的梯度算法相关的),这也解决了单层感知器不能做非线性分类的问题,开启了神经网络新一轮的高潮。

1989年,LeCun (CNN之父) 结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络(Convolutional Neural Network,CNN),并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中。

卷积神经网络通常由输入层、卷积层、池化(Pooling)层和全连接层组成。卷积层负责提取图像中的局部特征,池化层用来大幅降低参数量级(降维),全连接层类似传统神经网络的部分,用来输出想要的结果。

平稳发展期:20世纪90年代—2010年

由于互联网技术的迅速发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化,人工智能相关的各个领域都取得长足进步。

在2000年代初,由于专家系统的项目都需要编码太多的显式规则,这降低了效率并增加了成本,人工智能研究的重心从基于知识系统转向了机器学习方向。

1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫。深蓝是基于暴力穷举实现国际象棋领域的智能,通过生成所有可能的走法,然后执行尽可能深的搜索,并不断对局面进行评估,尝试找出最佳走法。

1997年,Sepp Hochreiter 和 Jürgen Schmidhuber提出了长短期记忆神经网络(LSTM)。

LSTM是一种复杂结构的循环神经网络(RNN),结构上引入了遗忘门、输入门及输出门:输入门决定当前时刻网络的输入数据有多少需要保存到单元状态,遗忘门决定上一时刻的单元状态有多少需要保留到当前时刻,输出门控制当前单元状态有多少需要输出到当前的输出值。这样的结构设计可以解决长序列训练过程中的梯度消失问题。

2003年,Google公布了3篇大数据奠基性论文,为大数据存储及分布式处理的核心问题提供了思路:非结构化文件分布式存储(GFS)、分布式计算(MapReduce)及结构化数据存储(BigTable),并奠定了现代大数据技术的理论基础。

2006年,杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念(Deeping Learning),开启了深度学习在学术界和工业界的浪潮。2006年也被称为深度学习元年,杰弗里·辛顿也因此被称为深度学习之父。

深度学习的概念源于人工神经网络的研究,它的本质是使用多个隐藏层网络结构,通过大量的向量计算,学习数据内在信息的高阶表示。

  • 隐藏层(Hidden Layer)是人工神经网络中的中间层,位于输入层和输出层之间。它的作用是对输入数据进行特征提取和变换,为最终的输出层提供高层次特征。隐藏层这个术语之所以称为“隐藏”,是因为其输出对外界不可见,只在网络内部流通。
  • 隐藏层的主要任务是通过线性变换和激活函数来捕捉数据中的复杂模式和特征。
  • 多层隐藏层:通过多层隐藏层的堆叠,网络可以逐渐提取出数据中越来越抽象的特征,这也是深度学习的核心思想。

深度学习算法简述

深度神经网络的开发与工作模式抽象为以下几个步骤:

1.确定模型输入输出

首先需要确认神经网络模型的输入样本学习数据(Sample)、输出标签(Label)。如图中所示,给 AI 模型输入图片,输出是图片所对应的类别(马冬梅、马小梅等)。用户需要提前准备好模型的输入输出数据,进而展开后续的模型训练【21】。

一般来说,输入和输出的数据将分为80%的模型训练数据- training data,20%的模型用来测试模型-test data,来计算loss function。

2.设计与开发模型

开发者通过 AI 开发框架提供的 API 开发了图中的模型结构,线段代表权重,圆圈代表输入数据发生计算操作。其中 wn 代表权重,也就是可以被学习和不断更新的数值。权重w和偏置b就被称为神经网络的参数,其约等于连接的个数-就是图像里的线条个数。

3.训练(Training)过程

训练的本质上是通过网络中的连接逐层向后传播总误差,计算每个层中每个权重和偏差对总误差的贡献(梯度 δw),然后使用求解梯度的优化算法(如梯度下降算法)进行优化权重和偏差,并最终最小化神经网络的总误差。如图中上半部分所示,训练过程就是根据用户给定的带有标签(如图中的马冬梅、马小梅等输出标签)的数据集,不断通过优化算法进行学,通过下面步骤学习出给定数据集下最优的模型权重 wn 的取值。

3.1 前向传播(Forward Propagation):由输入到输出完成 AI 模型中各层矩阵计算(例如卷积层,池化层等),每一层都在提取更高维度的目标特征(点-线-面),产生输出并完成损失函数 LOSS 计算。

  • 损失函数就是模型的预测值和实际值的总差
  • 深度学习神经网络计算80%都是简单的加减乘除四则运算,20%才是复杂的微积分运算-梯度更新等

3.2 反向传播(Back Propagation):由输出到输入反向完成 AI 模型中各层的权重和输出对损失函数的梯度求解。

x 轴和 y 轴分别代表两个权值,z 轴代表在给定两个特定权值的情况下损失函数的值。我们的目标就是找到损失最小的特定权值,这个点被称作损失函数的最小值点。

图:初始的损失函数

3.3 梯度更新(Weight Update):对模型权重通过梯度下降法完成模型权重针对梯度和指定学习率更新。

  • 初始化权值的时候,我们处于损失函数图形中的最高点。首先要做的就是查看 x-y 平面中所有可能的方向,看看哪个方向是损失函数的值下降最陡峭的方向。这个就是我们必须移动的方向,它恰恰与梯度的方向相反。梯度是高维导数的另一种说法,它给出了最陡峭的上升方向【22】。
  • 在曲面的任何一点,我们都能够定义一个与其相切的平面。在更高维度,我们总能够定义一个超平面,但在这里我们还是坚持使用 3 维空间。然后,在这个平面上有无限个方向。其中,准确来说只有一个使函数上升最快的方向,这个方向由梯度给出,与之相反的方向就是下降最快的方向。这就是算法名称的来源,我们沿着梯度的方向进行下降,所以就叫做梯度下降。
  • 现在,既然已经有了前进方向,我们必须决定需要采取步子的大小,而控制下降步幅大小的参数即学习率。为了保证降到最小值,我们必须谨慎地选择学习率。
  • 如果移动得太快,我们可能越过最小值,沿着「山谷」的山脊蹦蹦跳跳,永远都不可能到达最小值。如果移动太慢,训练可能花费太长的时间,根本就不可行,此外太慢的学习率也容易让算法陷入极小值。
  • 一旦有了梯度和学习率,我们就开始行动,然后在最终到达的任何位置重新计算梯度,然后重复这个过程。
  • 梯度的方向告诉我们哪个方向上升的最快,它的幅值则表示最陡峭的上升/下降有多陡。所以,在最小值的地方,曲面轮廓几乎是平坦的,我们期望得到几乎为零的梯度。事实上,最小值点的梯度就是 0。
  • 在实践中,我们可能永远无法精确地达到最小值,但是我们能够在最小值附近的平坦区域震荡。当我们在这个区域震荡时,损失值几乎是我们能够达到的最小值,并且不会有很大的变化,因为我们是在真实的最小值附近跳动。通常,当损失值在预定的数字内没有提升的时候我们会停止迭代,例如 10 次或者 20 次迭代。当这种情况发生时,我们就说训练已经收敛了,或者说收敛已经实现了。
  • 调整学习率是算法工程师的重要工作之一,也称之为调参工程。

图:实际的梯度更新后的损失函数

  • 不断重复以上步骤 3.1 ~ 3.2,直到达到 AI 模型收敛或达到终止条件(例如指定达到一定迭代(Step)次数然后停止执行)。
  • 如图所示,当完成了模型训练,意味着在给定的数据集上,模型已经达到最佳或者满足需求的预测效果。在如果开发者对模型预测效果满意,就可以进入模型部署进行推理和使用模型。一句话而言,我们训练 AI 模型的过程,就是通过不断的迭代计算,使用梯度下降的优化算法,使得损失函数越来越小。损失函数越小就表示算法达到数学意义上的最优。

4.推理(Inference)过程

推理只需要执行训练过程中的前向传播过程即可,推理的原理是基于训练好的 AI 模型,通过输入待预测的数据,经过前向传播过程,即通过 AI 模型定义的激活函数和非线性函数处理数据,得到最终的预测结果。

如图中下半部分所示,由输入到输出完成 AI 模型中各层的矩阵计算(例如卷积层,池化层等),产生输出。本例中输入是“马冬梅”的图片,输出的结果为向量,向量中的各个维度编码了图像的类别可能性,其中“马冬梅”的类别概率最大,判定为“马冬梅”,后续应用可以根据输出类别信息,通过程序转换为人可读的信息。

蓬勃发展期:2011年至今

随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的技术鸿沟,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了重大的技术突破,迎来爆发式增长的新高潮。

2012年,Hinton和他的学生Alex Krizhevsky设计的AlexNet神经网络模型在ImageNet竞赛大获全胜,这是史上第一次有模型在 ImageNet 数据集表现如此出色,并引爆了神经网络的研究热情。

AlexNet是一个经典的CNN模型,在数据、算法及算力层面均有较大改进,创新地应用了Data Augmentation、ReLU、Dropout和LRN等方法,并使用GPU加速网络训练。GPU在深度学习网络的作用开始远远大于CPU。

2012年,谷歌正式发布谷歌知识图谱Google Knowledge Graph),它是Google的一个从多种信息来源汇集的知识库,通过Knowledge Graph来在普通的字串搜索上叠一层相互之间的关系,协助使用者更快找到所需的资料的同时,也可以知识为基础的搜索更近一步,以提高Google搜索的质量。

2015年,为纪念人工智能概念提出60周年,深度学习三巨头LeCun、Bengio和Hinton(他们于2018年共同获得了图灵奖)推出了深度学习的联合综述《Deep learning》。

《Deep learning》文中指出深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次及抽象的表达,能够强化输入数据的区分能力。通过足够多的转换的组合,非常复杂的函数也可以被学习。

2015年,Microsoft Research的Kaiming He等人提出的残差网络(ResNet)在ImageNet大规模视觉识别竞赛中获得了图像分类和物体识别的优胜。

残差网络的主要贡献是发现了网络不恒等变换导致的“退化现象(Degradation)”,并针对退化现象引入了 “快捷连接(Shortcut connection)”,缓解了在深度神经网络中增加深度带来的梯度消失问题。

2015年,谷歌开源TensorFlow框架。它是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。

2015年,马斯克等人共同创建OpenAI。它是一个非营利的研究组织,使命是确保通用人工智能 (即一种高度自主且在大多数具有经济价值的工作上超越人类的系统)将为全人类带来福祉。其发布热门产品的如:OpenAI Gym,GPT等。

2016年,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。

2018年,Google提出论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》并发布Bert(Bidirectional Encoder Representation from Transformers)模型,成功在 11 项 NLP 任务中取得 state of the art 的结果。

BERT是一个预训练的语言表征模型,可在海量的语料上用无监督学习方法学习单词的动态特征表示。它基于Transformer注意力机制的模型,对比RNN可以更加高效、能捕捉更长距离的依赖信息,且不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。

2020年,OpenAI开发的文字生成 (text generation) 人工智能GPT-3,它具有1,750亿个参数的自然语言深度学习模型,比以前的版本GPT-2高100倍,该模型经过了将近0.5万亿个单词的预训练,可以在多个NLP任务(答题、翻译、写文章)基准上达到最先进的性能。

2020年,谷歌旗下DeepMind的AlphaFold2人工智能系统有力地解决了蛋白质结构预测的里程碑式问题。它在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等实验技术相媲美。

2021年,OpenAI提出两个连接文本与图像的神经网络:DALL·E 和 CLIP。DALL·E 可以基于文本直接生成图像,CLIP 则能够完成图像与文本类别的匹配。

2021年,AlphaFold 2 能很好地预判蛋白质与分子结合的概率,为我们展示了人工智能驱动自然学科研究的无限潜力;

2022年,ChatGPT推出,AI爆炸进行时!

总结来说,AI技术学派的发展,随着人类对自己的智慧的研究深入-当然也有客观物理条件的满足(算力和数据),从意识层面(现成的知识复制)到物质层面(神经网络的机制),所产生的智能从机械重复性工作到创意生成实现了跨越,符号主义范式向联结主义范式迁移,少层次神经网络到多层次深度学习的神经网络。

(2)AI理论

在实践中,我们根据任务,优先确认学习范式和算法,搭建ai模型,在小规模应用中收敛学习范式和ai模型至可以被大规模训练的最佳状态–loss fuction表现优异。

学习范式

机器学习的范式包含三种主流范式:

监督学习(Supervised Learning)

监督学习模型主要是根据人类已标注数据对模型的输入和输出学习到一种映射关系,以此对测试数据集中的样本进行预测。包含两类任务:分类和回归。许多数据标注公司业务依赖于此学习范式的模型公司。

模仿学习(Imitation Learning)

模仿学习是指从示教者提供的范例中学习,把状态作为特征(feature)【23】,动作作为标记(label)进行分类(对于离散动作)或回归(对于连续动作)的学习从而得到最优策略模型。模型的训练目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配。本质上是一种对齐手段,不是真正的理解世界。

在简单自动驾驶任务中(如下图),状态就是指汽车摄像头所观测到的画面,动作即转向角度。根据人类提供的状态动作对来习得驾驶策略。这个任务也叫做行为克隆(Behavior Cloning),即作为监督学习的模仿学习。

缺点:由于没有自我探索能力,性能不可能超过人类遥控机器人所能达到的性能。而很多任务实际上是通过遥控/示教难以实现的,比如人形机器人的奔跑跳跃等动态平衡问题,以及与动态物体的交互。

无监督学习(Unsupervised Learning)

相比于监督学习,无监督学习仅依赖于无标签的数据训练模型来学习数据表征。自监督学习是无监督学习的一种。

自监督学习(Self-Supervised Learning)

自监督学习主要是利用「辅助任务(pretext)–自动标注、自动训练「从大规模的无监督数据中挖掘」自身的监督信息」来提高学习表征的质量,通过这种构造监督信息对网络进行训练,从而可以学习到对下游任务具有价值的表征。

最常见的通过随机删去训练集句子中的单词来构造辅助任务训练集和标签,来训练网络预测被删去的单词,以提升模型对于语序特征的提取能力(BERT)。

强化学习(Reinforcement Learning)

基于环境的反馈而行动,通过不断与环境的交互、试错,最终完成特定目的或者使得整体行动收益最大化。强化学习不需要训练数据的label,但是它需要每一步行动环说给的反馈,是奖励还是惩别!反馈可以量化,基于反馈不断调整训练对象的行为【24】。

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。

强化学习主要是指导训练对象每一步如何决策,采用什么样的行动可以完成特定的目的或者使收益最大化。

比如AlphaGo下围棋,AlphaGo就是强化学习的训练对象,AlphaGo走的每一步不存在对错之分,但是存在“好坏”之分。当前这个棋面下,下的“好”,这是一步好棋。下的“坏”,这是一步臭棋。强化学习的训练基础在于AlphaGo的每一步行动环境都能给予明确的反馈,是“好”是“坏”?“好”“坏”具体是多少,可以量化。强化学习在AlphaGo这个场景中最终训练目的就是让棋子占领棋面上更多的区域,赢得最后的胜利。

EE(Explore & Exploit)探索和利用的权衡 trade-off

但实际我们在进行强化学习训练过程中,会遇到一个“EE”问题。这里的Double E不是“Electronic Engineering”,而是“Explore & Exploit”,“探索&利用”。

所以在强化学习训练的时候,一开始会让Agent更偏向于探索Explore,并不是哪一个Action带来的Value最大就执行该Action,选择Action时具有一定的随机性,目的是为了覆盖更多的Action,尝试每一种可能性。等训练很多轮以后各种State下的各种Action基本尝试完以后,我们这时候会大幅降低探索的比例,尽量让Agent更偏向于利用Exploit,哪一个Action返回的Value最大,就选择哪一个Action。

Explore&Exploit是一个在机器学习领域经常遇到的问题,并不仅仅只是强化学习中会遇到,在推荐系统中也会遇到,比如用户对某个商品 or 内容感兴趣,系统是否应该一直为用户推送,是不是也要适当搭配随机一些其他商品 or 内容。

该学习范式容易陷入局部最优:部分场景中Agent采取的行动可能是当前局部最优,而不是全局最优。网上经常有人截图爆出打游戏碰到了王者荣耀AI,明明此时推塔或者推水晶是最合理的行为,但是AI却去打小兵,因为AI采取的是一个局部最优的行为。再合理的Reward函数设置都可能陷入局部最优中。

能力成长滞后:比如没有遇到的问题–长尾问题,长时间重复学习后,才能学会,没有Zero-Shot的能力。

AI模型算法

下面对典型的基本 AI 模型结构进行类型归纳【25】:

卷积神经网络(Convolutional Neural Network,CNN)

以卷积层(Convolution Layer)为主,池化层(Pooling Layer),全连接层(Fully Connected Layer)等算子(Operator)的组合形成的 AI 网络模型,并在计算机视觉领域取得明显效果和广泛应用的模型结构。

循环神经网络(Recurrent Neural Network,RNN)

以循环神经网络、长短时记忆(LSTM)等基本单元组合形成的适合时序数据预测(例如,自然语言处理、语音识别、监控时序数据等)的模型结构。

图神经网络(Graph Neural Network,GNN)

使用神经网络来学习图结构数据,提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。目的是为了尽可能多的提取 “图” 中潜在的表征信息。

生成对抗网络(Generative Adversarial Network,GAN)

该架构训练两个神经网络相互竞争,从而从给定的训练数据集生成更真实的新数据。例如,可以从现有图像数据库生成新图像,也可以从歌曲数据库生成原创音乐。GAN 之所以被称为对抗网络,是因为该架构训练两个不同的网络并使其相互对抗。

扩散概率模型(Diffusion Probabilistic Models)

扩散概率模型是一类潜变量模型,是用变分估计训练的马尔可夫链。目标是通过对数据点在潜空间中的扩散方式进行建模,来学习数据集的潜结构。如计算机视觉中,意味着通过学习逆扩散过程训练神经网络,使其能对叠加了高斯噪声的图像进行去噪。

混合结构网络(Model Ensemble)

组合卷积神经网络和循环神经网络,进而解决如光学字符识别(OCR)等复杂应用场景的预测任务。

基础模型的典型算子已经被 AI 开发框架和底层 AI 硬件做了较多优化,但是 AI 模型已经不单纯只在算子层面产生变化,其从网络结构,搜索空间等方向演化出如下的新的趋势:

更大的模型:以 Transformer 为基本结构的代表性预训练神经语言模型(Neural Language Model),例如,BERT、GPT-3、LLAMA 等,在自然语言处理和计算机视觉等场景应用越来越广泛。其不断增加的层数和参数量,该模型对底层系统内存管理,分布式训练和硬件设计提出了很大的挑战。

更灵活的结构:图神经网络模型、深度搜索树网模型等算法不断抽象多样且灵活的数据结构(例如图 Graph,树 Tree 等),应对更为复杂的建模需求。进而衍生了新的算子(例如图卷积等)与计算框架(例如图神经网络框架等)。

更稀疏的模型结构:以多专家模型(Mixture of Experts,MoE)和 Pathways 模型结构为代表的模型融合结构,让运行时的 AI 系统执行模型更加动态(Dynamic)和稀疏(Sparse),提升模型的训练效率减少训练代价,支持更多的任务。给系统设计静态分析带来了不小的挑战,同时驱动运用即时编译(Just In Time Compiling)和运行时(Runtime)更加高效的调度与优化。

更大规模的搜索空间:用户定义更大规模的超参数与模型结构搜索空间,通过超参数搜索优化(HPO)与神经网络结构搜索(NAS)自动化找到最优的模型结构。自动化机器学习(AutoML)为代表的训练方式,衍生出多作业执行与多作业(Multi-Jobs)编排优化的系统需求。

更多样的训练方式:扩散模型(Diffusion Model)和深度强化学习(Deep Reinforcement Learning)为代表的算法有比传统训练方式更为复杂的过程。其衍生出训练,推理,数据处理混合部署与协同优化的系统需求。

当然还有软硬结合的算法:具身智能算法和自动驾驶算法。

接下来,笔者会重点阐述以trasfomer架构为主的算法演变及原理。

Transfomer模型算法

深度学习算法都是:通过学习输入的概率分布,形成神经网络潜空间的知识库-包罗万象的概率分布,然后引导输出的概率分布与现实的需求对齐。

一句话:通过概率分布找到事物的各种关系

RNN的梯度消失和爆炸

深度学习RNN模型在自然语言领域的大规模探索和商业化后,人们逐渐发现其致命弱点,导致其学习能力受限–梯度爆炸和消失问题。

比较简单的深层网络如下【26】:

图中是一个四层的全连接网络,假设每一层网络激活后的输出为 

其中i为第i层, x代表第i层的输入,也就是第i−1层的输出,f是激活函数,那么,得出 

简单记为 

BP算法基于梯度下降策略,以目标的负梯度方向对参数进行调整,参数的更新为 

给定学习率α,得出 

如果要更新第二隐藏层的权值信息,根据链式求导法则,更新梯度信息: 

很容易看出来  

所以说, 就是对激活函数进行求导,如果此部分大于1,那么层数增多的时候,最终的求出的梯度更新将以指数形式增加,即发生梯度爆炸,如果此部分小于1,那么随着层数增多,求出的梯度更新信息将会以指数形式衰减,即发生了梯度消失。

总而言之,随着层数增多,链式求导的微积分算法导致的梯度更新求解失控。

如果说从数学上看不够直观的话,下面几个图可以很直观的说明深层网络的梯度问题。

注:下图中的隐层标号和第一张全连接图隐层标号刚好相反。

已经可以发现隐藏层2的权值更新速度要比隐藏层1更新的速度慢,第四隐藏层比第一隐藏层的更新速度慢了两个数量级。

从深层网络角度来讲,不同的层学习的速度差异很大,表现为网络中靠近输出的层学习的情况很好,靠近输入的层学习的很慢,有时甚至训练了很久,前几层的权值和刚开始随机初始化的值差不多。

梯度消失、爆炸,导致了RNN的学习能力受限,从而无法解决长时依赖问题,当预测点与依赖的相关信息距离比较远的时候,就难以学到该相关信息。例如在句子”我是一名中国人,…(省略数十字),我会说中文”,如果我们要预测未尾的“中文”两个字,我们需要上文的“中国人”,或者“中国”。

其根本原因在于反向传播训练法则,本质在于方法问题,而且对于人来说,在大脑的思考机制里是没有反向传播的。

同时在RNN当中,tokens是一个一个被喂给模型的。比如在a3的位置,模型要等a1和a2的信息都处理完成后,才可以生成a3。无法并行计算导致只能接纳有限的上下文。

Transfomer

为了更好地捕捉长距离信息,研究者们想要寻找到一种更强的语言模型方法,由此提出了以 transformer结构为基础的预训练语言模型。

一切源于2017年谷歌Brain团队那篇鼎鼎大名的文章“Attention Is All You Need”(注意力就是你所需要的一切),就是这篇文章提出了Transformer网络结构。

首先,Transformer引入的自注意力机制能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,它在处理长序列时的表现更好。

而自注意力机制的另一个特点是允许模型并行计算,无需RNN一样t步骤的计算必须依赖t-1步骤的结果,因此Transformer结构让模型的计算效率更高,加速训练和推理速度。

Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。

我们把模型拆成了各个零件进行学习,最后把这些零件组装成一个标准的Transformer。

最初,Transformer 模型是为机器翻译而设计的。它是一个编码器-解码器结构,其中编码器将原始语言的句子作为输入并生成基于注意力的表征。而解码器关注编码信息并以自回归方式生成翻译的句子,就像 RNN 一样。

1 输入:Embedding(嵌入)– 降维至数字

“Embedding”直译是嵌入式、嵌入层。作用就是将文字降维至数字,让计算机可计算。

嵌入之前,我们首先tokenize是指将文本分割成称为“tokens”的有意义的片段的过程–可以理解为把句子里的主语、谓语等有意义的单词切割开,每个token单独输入给嵌入层。

简单来说,我们常见的地图就是对于现实地理的Embedding,现实的地理地形的信息其实远远超过三维,但是地图通过颜色和等高线等来最大化表现现实的地理信息。通过它,我们在现实世界里的文字、图片、语言、视频就能转化为计算机能识别、能使用的语言,且转化的过程中信息不丢失。

图:直观的几何表达压缩为:三维图像变压缩成3张二维的图像

假设,我们中文,一共只有10个字,那么我们用0-9就可以表示完【27】。比如,这十个字就是“小普喜欢星海湾的朋友”,其分别对应“0-9”,如下:

那么,其实我们只用一个列表就能表示所有的对话。例如:

但是中文单词有几十万的,都需要特殊编码,可以经过one-hot编码把上面变成,保持其唯一特殊性:

即:把每一个字都对应成一个十个(样本总数/字总数)元素的数组/列表,其中每一个字都用唯一对应的数组/列表对应,数组/列表的唯一性用1表示。

稀疏矩阵做矩阵计算的时候,只需要把1对应位置的数相乘求和就行。何况这个列表还是一行,如果是100行、1000行或1000列呢?所以,one-hot编码的优势就体现出来了,计算方便快捷、表达能力强。

然而,缺点也随着来了。比如:中文大大小小简体繁体常用不常用有十几万,然后一篇文章100W字,表示成100W X 10W的矩阵???这是它最明显的缺点:过于稀疏时,过度占用资源。比如:其实我们这篇文章,虽然100W字,但是其实我们整合起来,有99W字是重复的,只有1W字是完全不重复的。那我们用100W X 10W的岂不是白白浪费了99W X 10W的矩阵存储空间。那怎么办???这时,Embedding层就出现了!

假设:我们有一个2 x 6的矩阵,然后乘上一个6 x 3的矩阵后,变成了一个2 x 3的矩阵。

这个过程,我们把一个A中的12个元素的矩阵变成C中6个元素的矩阵,直观上,大小是不是缩小了一半,Embedding层,在某种程度上,就是用来降维的,降维的原理就是矩阵乘法。

假如我们有一个100W X10W的矩阵,用它乘上一个10W X 20的矩阵,我们可以把它降到100W X 20,瞬间量级降了10W/20=5000倍。

它就是作为这个桥梁的存在,让我们手头的东西可伸可缩,变成我们希望的样子。

2 输入:Positional Encoding (位置编码)

我们的输入除了嵌入层的降维数字信息外,还需要对每一个文字打上数字编码,知道每一个文字的上下文顺序【28】。

在self-attention模型中,输入是一整排的tokens,对于人来说,我们很容易知道tokens的位置信息,比如:

(1)绝对位置信息。a1是第一个token,a2是第二个token……

(2)相对位置信息。a2在a1的后面一位,a4在a2的后面两位……

(3)不同位置间的距离。a1和a3差两个位置,a1和a4差三个位置….

但是这些对于self-attention来说,是无法分辩的信息,因为self-attention的运算是无向的。因为,我们要想办法,把tokens的位置信息,喂给模型。

编码有三大要求:1 绝对位置信息有界限(否则距离大小无限)2 连续 3 不同位置的相对距离可以被转换计算

3 Self-attention(自注意力机制)– 注意力机制下的权重计算

假设以下句子是我们要翻译的输入句子:

“动物没有过马路,因为它太累了”【29】

这句话中的“它”指的是什么?它是指街道还是动物?这对人类来说是一个简单的问题,但对算法来说却不那么简单, 当模型处理单词“它”时,自注意力允许它将“它”与“动物”联系起来。

当模型处理每个单词(输入序列中的每个位置)时,自注意力允许它查看输入序列中的其他位置以寻找有助于更好地编码该单词的线索。

自注意力机制就是要通过权重矩阵来自发地找到词与词之间的关系

(1)计算框架

Self-Attention的意思是,我们给Attention的输入都来自同一个序列,其计算方式如下【30】:

这张图所表示的大致运算过程是:对于每个token,先产生三个向量Query,Key,Value:

  1. Query向量类比于询问。某个token问:“其余的token都和我有多大程度的相关呀?”
  2. Key向量类比于索引。某个token说:“我把每个询问内容的回答都压缩了下装在我的key里” 。
  3. Value向量类比于回答。某个token说:“我把我自身涵盖的信息又抽取了一层装在我的value里” 。

以图中的token a2为例:它产生一个Query,每个Query都去和别的token的Key做“某种方式”的计算,得到的结果我们称为attention score。则一共得到四个attention score。

将这四个score分别乘上每个token的Value,我们会得到四个抽取信息完毕的向量。将这四个向量相加,就是最终a2过attention模型后所产生的结果b2。

(2)Query,Key和Value 的计算方式 — 计算权重矩阵

下图描述了产生Query(Q),Key(K)和Value(V)的过程:

实际上,要理解QKV,重点是理解 Wq、Wk、Wv这三个矩阵。为什么会有这三个矩阵?前面文章中,只说明了Q、K、V,而省略了Wq、Wk、Wv。但是,要理解 attention 中的QKV,首先要理解这三个矩阵。

简单来说,这是三个权重矩阵。那么,它们是怎么来的?自然,是在模型训练过程中得到的。如果只关注模型运行时的Q、K、V,就不容易理解它们的作用。要结合模型的训练过程和运行过程来理解QKV【31】。

假设有一个问答数据库,包含有很多问答,比如:

假设有一个新问题:今天会下雨吗?

此时:Q = 今天会下雨吗?那么这个问题的输出V,应该是什么?

通过问题Q,如果要从问答数据库中查找最接近问题的答案,当然是找相似了。

首先,从所有 K 中寻找最接近 Q 的 K,也就是说要计算 Q 和 [多个K] 的相似性,只有找到最接近 Q 的 K,才能找到最接近 K 的 V。

Q和K的相似性,实际上在训练的过程中,就是训练数据K1、K2之间的相似性。在得到了输入序列之间的相关性权重之后,对V做一个加权处理,从而就找到了最接近 K 的那个 V。

Q 和 K 的相似性,K 和 V 的相关性,都是在训练过程中得到的,包含在模型权重矩阵之中。

通过训练过程,得到了 Wq、Wk、Wv 权重矩阵。

这样,在模型运行过程中,当输入一组新的 word 序列时,通过这些权重矩阵对输入进行相似性、相关性计算,最后就得到了最接近 V(训练得到的) 的一个输出序列。

(3)计算attention score — 算出关系

总结一下,到目前为止,对于某条输入序列X,我们有【32】:

现在,我们做两件事:

  1. 利用Q和K,计算出attention score矩阵。
  2. 利用V和attention score矩阵,计算出Attention层最终的输出结果矩阵。

记最终的输出结果为 Attention(Q,K,V),则有:

(4)输出 — 使用关系,加权输出

在softmax之后,attention score矩阵的每一行表示一个token,每一列表示该token和对应位置token的α值,因为进行了softmax,每一行的α值相加等于1。

之所以进行scaling out(大规模的预训练),是为了使得在softmax的过程中,掌握更多更准确的关系,梯度下降得更加稳定,避免因为梯度过小而造成模型参数更新的停滞。

4 ResNet(残差网络)和 Batch Norm & Layer Norm(批量标准化/层标准化)

用于稳定和加速训练。自注意力机制层上方还包括一个 Add & Norm 层,Add 表示残差连接 (Residual Connection) 用于防止网络退化(这也是RNN的顽疾),而Norm 表示 Layer Normalization,用于对每一层的激活值进行归一化,也就是将每一层神经元的输入都转成均值方差都一样的,这样可以加快收敛。

5 Feed Forward Network (前馈网络)

用于进一步处理和变换特征表示。Transformer还使用了Feed Forward前馈网络,它由两个线性变换和一个非线性激活函数(通常是ReLU)组成。输入的词向量经过一个线性变换,将其映射到一个更高维度的空间。然后,通过ReLU进行非线性变换。最后,再经过一个线性变换,将其映射回原始的词向量维度。通过多层前馈网络的堆叠,模型可以学习到更复杂的特征表示,从而更好地捕捉输入序列中的语义信息。

6 标准的Transfomer的组装 — Encoder – Decoder结构

上述的5大算法框架组成了基本的编码器和解码器。

  • Encoder的主要任务是将输入序列(通常是文本)转换为一组特征表示(也称为编码)。这些特征表示包含了输入序列的语义信息,供Decoder在生成输出序列时参考。多层的编码层堆叠在一起,每一层都处理并增强特征表示,用来提取、凝练(降维)特征,GPT已知是6层。
  • Decoder的任务是生成输出序列,通常是根据Encoder的输出特征表示和前面的已生成的输出序列生成下一个单词或符号。相比于Encoder,解码器多了掩码多头自注意力机制(Masked Multi-Head Self-Attention Mechanism):用于处理已经生成的输出序列,通过掩码确保解码器在每个位置只关注之前的位置,避免泄露未来的信息。
  • 线性层和Softmax:Decoder的最终输出通过一个线性层变换为词汇表大小的向量,并通过Softmax函数转换为概率分布,用于选择下一个单词。

其实了解了Encoder-Decoder架构的训练思路和过程后,就可以发现这种架构存在的几个最大的缺点【33】:

  • 数据预处理:Encoder-Decoder模型通常对于输入和输出之间的精确对齐要求非常严格,这也就意味着需要复杂的数据预处理过程。而且对于不同类型的输入和输出数据,可能需要用到不同的预处理方法,比如机器翻译中的双语对齐;比如图像字幕识别任务中的图像预处理和文本预处理等等。
  • 输入数据难以获取:Encoder-Decoder架构通常高度依赖于输入和输出之间的关系,这就要求收集到的输入和输出数据具备精确的映射关系,增大了数据收集的难度,大大减少了符合要求的数据量。
  • 训练时间更长:由于结构的复杂性,Encoder-Decoder模型可能需要很长的训练时间。尤其是处理长序列时,为了理解和编码整个序列的上下文,为了计算序列中每个元素与其他所有元素间的关系,为了储存更多的数据点和中间计算结果,仅在Encoder阶段,就需要消耗大量的时间和内存,增加训练难度。
  • 模型应用受限:仅对特定类型的任务表现良好,比如谷歌翻译不能用于进行语音识别,每涉及到一种新的功能,便需要重新训练一个模型,耗时耗力,很不灵活。

Encoder-Decoder架构通常用于处理一些需要在输入和输出间建立精确映射的任务,比如机器翻译、文本摘要等。在这些任务中,理解输入的精确内容并据此生成特定的输出是非常重要的。而基于这种架构训练出来的模型,一般只能应用于某种特定的任务,比如一个专为机器翻译训练的Encoder-Decoder模型可能不适合直接用于文本摘要或其他类型的任务。

而去年如雨后春笋般冒出来的各种大模型,一个重要的主打功能便是:多模态。

也就是说,对于大模型的要求是,既能文字聊天,又能语音聊天;既能生成文本,又能画出美图;

既能根据文字出音,又能根据文字做视频。

这样”既要又要”的高难度需求,显然Encoder-Decoder架构不再适用,Decoder-only架构也就应运而出。

7 其他大模型的框架演变 — Encoder-Only & Decoder-Only结构

下面这张图是一个大模型的一个分布树,纵轴代表大模型的发布年份和大模型输入token数,这个图很有代表性,每一个分支代表不同的模型架构,今天以图中根系标注的三大类展开:Encoder-only、Encoder-Decoder、Decoder-only。

Encoder-only

Encoder-only是以Bert为代表的模型及其衍生优化版本为主。

一句话总结,BERT核心原理:使用多层嵌套的Transformer的编码器来处理输入序列,使用双向语言模型预训练策略进行掩码预测。

Bert开始的时候只是希望能够用这个框架能够学习语言的语法规则,针对主要是文本分类、问答等任务,所以只需要使用Transformer的编码器能够实现文本的语义理解就可以了,不需要生成序列。

搞清楚了Bert原理,那为什么说BERT属于Encoder-only模型?很简单,因为它只使用了Transformer模型中的编码器部分,而没有使用解码器。

在Transformer模型中,编码器负责将输入序列转换为上下文感知的表示,而解码器则负责生成输出序列。BERT使用了编码器。

只使用编码器最主要的原因:BERT的预训练目标是通过掩盖部分输入来预测其他部分,或者预测两个句子之间的关系–已有内容的预测,不是新的输出,这些任务并不涉及到生成输出序列,因此不需要解码器。

Encoder-only架构的LLMs更擅长对文本内容进行分析、分类,包括情感分析,命名实体识别。

Decoder-Only

现在最热门就是这个架构了,解码器结构,当家的应该也是目前整个大模型领域的领头羊:GPT。

Decoder主要是是为了预测下一个输出的内容/token是什么,并把之前输出的内容/token作为上下文学习。实际上,decoder-only模型在分析分类上也和encoder only的LLM一样有效。

各种实验表明decoder-only模型更好,Google Brain 和 HuggingFace联合发表的  What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? 曾经在5B的参数量级下对比了两者性能。

从技术上讲,Decoder Only的LLM始于GPT,可能最初仅仅是为了简化结构追求规模。后来发现Transformer的Attention层存在低秩问题,会失去表达能力,而Decoder Only结构保留的Skip Connection和MLP能很好的对抗Attention层的低秩,效果要优于Encoder Only。这种理论上的优势成为后来LLM普遍采用Decoder Only的一个重要原因。

论文最主要的一个结论是decoder-only模型在没有任何tuning数据的情况下、zero-shot表现最好,而encoder-decoder则需要在一定量的标注数据上做multitask finetuning才能激发最佳性能。而且encoder-only在大参数下还有一定的涌现能力。

通过体验多模态LLM的聊天功能、图片生成、语音对话等,就可以发现Decoder-only架构的灵活性。不仅如此,Decoder-only可以让模型构建和训练的各个步骤都显得更加便捷:

  • 灵活的输入格式:由于Decoder-only模型本质上是根据给定的文本串生成输出,因此它们可以接受各种格式的输入。包括问题和回答、提示和续写、以及代码和其执行结果等。也就是说,无需特意对输入数据集进行”清洗”。
  • 无需特定的任务架构:与Encoder-Decoder架构不同,Decoder-only模型不需要为不同类型的任务构建特定的encoder部分。也就是说,同一个模型可以在没有或仅需要少量修改的情況下,处理多种任务。
  • 简化的预训练和微调过程:在预训练和微调阶段,没有繁琐的encoder过程,Decoder-only模型可以更加容易的进入训练过程。此外,由于训练过程主要关注如何基于给定的上下文生成文本,因此既不需要用户提供复杂的输入输出编码关系,也不需要专门处理这些复杂的映射。
  • 易于扩展性:由于结构的简单和统一,Decoder-only模型通常更容易扩展到更大的模型尺寸,有助于提升模型的性能和适应性。这也就是去年涌现出的众多LLM,参数数量能够不断攀上新高的主要原因之一。

总而言之,在成本、泛化性、可扩展scale out上,decoder-only模型更优越,更容易做大模型。

但挑战也依然存在:

  • 大模型的可解释性较为薄弱。由于大模型采用了深度神经网络架构,模型参数往往过亿级别,因此数据在模型中的处理过程难以追踪,也很难获得对模型推理结果的有效解释。
  • 更大的模型带来了更高的训练成本,包括高科技人才的智力支出、大数据和大算力所需的经济成本,此外,还有不可忽视的环境影响。
  • 越来越大的模型所带来的效用提升正在缩小。人们发现,当模型参数规模增长 10 倍时,得到的性能提升往往不到 10 个百分点。
  • 大模型带来了伦理方面的风险。由于大模型的训练需要的数据极为庞大,因此靠人工进行收集和检查并不现实,一般都采用机器自动进行训练数据的收集,导致训练集中可能存在粗俗、暴力、色情等内容。

8 Scaling Law 缩放定律

Scaling Laws简单介绍就是:随着模型大小、数据集大小和用于训练的计算浮点数的增加,模型的性能会提高。并且为了获得最佳性能,所有三个因素必须同时放大。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系(短板效应)。

大模型的Scaling Law是OpenAI在2020年提出的概念【34】,具体如下:

对于Decoder-only的模型,计算量C(Flops), 模型参数量N, 数据大小D(token数),三者满足:

C≈6ND

模型的最终性能主要与计算量C,模型参数量N和数据大小D三者相关,而与模型的具体结构(层数/深度/宽度)基本无关【35】。

LLM的训练、微调和落地过程-以GPT为例

GPT的三个英文字母分别代表Generative(生成式),Pre-trained(预训练),Transformer。

本质上来说,大模型训练就是对互联网数据进行有损压缩,需要一个巨大的GPU集群来完成。

以700亿参数的Llama 2为例,就需要6000块GPU,然后花上12天从大概10T的互联网数据中得到一个大约140GB的“压缩文件”,整个过程耗费大约200万美元。

GPT的原理—文字接龙游戏

GPT真正在做的事就是“文字接龙”。简单来说就是预测输入的下一个字概率【36】。

但并不是直接选择概率最大的文字作为输出,而是在输出时候还要掷骰子,也就是说答案具有随机性 也就是为什么每次你问大模型的时候,一样的问题会得到不一样的输出。

这跟我们以往做预测的时候,感觉很不一样, 以往我们都是输出概率最大作为结果,所以为什么要掷骰子呢?

因为有很多相关研究证明,每次输出最大概率不一定是最好的,类似地文章《The Curious Case of Neural Text Degeneration》中有论证过, 同时这也符合我们人类特征, 同一个问题,可能问同一个人多次, 答案的输出并不是一模一样。

ChatGPT的答案为什么不一定是对的?

如果我们理解了ChatGPT的原理之后,其实ChatGPT就是在关心文字接龙顺不顺畅, 而不会关心内容的真实性。

GPT为什么可以实现上下文关联?

其实还是文字接龙的游戏,在每次回答问题的时候,GPT不仅考虑当前的输入, 也会将历史的对话作为输入。

OpenAI的创始人之一,大神Andrej Karpthy刚在微软Build 2023开发者大会上做了专题演讲:State of GPT(GPT的现状)。首次披露了GPT的训练过程【37】。

粗略地说,我们有四个主要阶段:预训练、有监督微调、奖励建模、强化学习,依次类推。

可以粗浅的的理解为自学、人类教导、找到好老师、老师引导四个的过程。

现在在每个阶段我们都有一个数据集来支持。我们有一个算法,我们在不同阶段的目的,将成为训练神经网络的目标。然后我们有一个结果模型,然后在上图底部有一些注释。

Pretraining 预训练–自学阶段

我们要开始的第一个阶段是预训练阶段。

实际上预训练消耗的时间占据了整个训练pipeline的99%。

因此,这个阶段就是我们在超级计算机中使用数千个 GPU 以及数月的训练来处理互联网规模数据集的地方。

其他三个阶段是微调阶段,更多地遵循少量 GPU 和数小时或数天的路线。

那么让我们来看看实现基础模型的预训练阶段。

首先,我们要收集大量数据。这是我们称之为数据混合的示例,该示例来自 Meta 发布的这篇论文,他们发布了这个 Llama 基础模型。

由上图可以看出,大约1个T的数据,作为Llama基础模型的训练集。最多的为网络爬虫数据,然后是谷歌的C4数据集、数集、论文、github等等语料。

那么数据有了,如何把这些数据转化成机器能够看懂的语言?

所以在我们实际训练这些数据之前,我们需要再经过一个预处理步骤,即tokenization。

T

okenization是文本片段与整数之间的一种无损转换,这个阶段有许多算法。通常您可以使用诸如字节编码之类的东西,将所有的文本转化为一个很长的整数列表。

下面我用LLama为例,是Meta的一个相当新的模型。

你可以看到,LLama的参数数量大概是650亿。现在,尽管与GPT3的1750亿个参数相比,Llama 只有65个B参数,但 LLama 是一个明显更强大的模型,直观地说,这是因为该模型的训练时间明显更长,训练了1.4 万亿标记而不是3000亿标记。所以你不应该仅仅通过模型包含的参数数量来判断模型的能力。

这里我展示了一些粗略的超参数表,这些超参数通常用于指定Transformer神经网络。比如头的数量,尺寸大小,层数等等。在底部,我展示了一些训练超参数。例如,为了训练 65 B 模型,Meta 使用了 2,000 个 GPU,大约训练了 21 天,大约花费了数百万美元。这是您在预训练阶段应该记住的粗略数量级。现在,当我们实际进行预训练时,会发生什么?一般来说,我们将获取标记并将它们放入数据批次中。

我们将tokenization后的数组输入Transformer,不可能全部一次性输入,需要用batch思想分批导入。

在此批量大小是B,T是最大上下文长度。

在我的这个图里,长度T只有10,实际工作里这可能是 2000、4000 等等。这些是非常长的行。

批量化后,我们就需要开始训练了。

我们只关注一个特定的单元格,但同样的事情会发生在这个图中的每个单元格上。

让我们看看绿色单元格。绿色单元会查看它之前的所有标记,所有标记都是黄色的,我们将把整个上下文输入到 Transformer 神经网络中,Transformer 将尝试预测序列中的下一个标记,在本例中为红色。

现在,在这个特定的例子中,对于这个特定的单元格,513 将是下一个标记,因此我们可以将其用作监督源来更新Transformer的权重。将同样的做法应用于并行中的每个单元格,并且不断交换批次,并且试图让Transformer对序列中接下来出现的标记做出正确的预测。

由上图可以看到,预训练的目标其实很简单。

就是去预测下一个词,根据softmax概率分布,取出相应的词作为输出。

这实际上来自纽约时报,他们在莎士比亚上训练了一个小的 GPT,这是莎士比亚的一小段,他们在上面训练了一个 GPT。

一开始,在初始化时,GPT 以完全随机的权重开始,因此也将获得完全随机的输出。但是,随着时间的推移,当训练 GPT 的时间越来越长时,我们会从模型中获得越来越连贯和一致的样本。

当然,你从中抽样的方式是预测接下来会发生什么,你从那个分布中抽样,然后不断将其反馈到过程中,基本上就是对大序列进行抽样。到最后,你会看到 Transformer 已经学会了单词,以及在哪里放置空格,在哪里放置逗号等等。

随着时间的推移,模型正在做出越来越一致的预测。

然后以下这些,是在进行模型预训练时会查看的图类型。

实际上,我们在训练时查看随时间变化的损失函数,低损失意味着我们的Transformer正在预测正确 – 为序列中正确的下一个整数提供更高的概率。

训练一个月后,我们将如何处理这个模型?

我们注意到的第一件事,在这个领域,这些模型基本上在语言建模过程中学习了非常强大的通用表示,并且可以非常有效地微调它们以用于您可能感兴趣的任何下游任务。

Supervised Finetuning (STF)有监督微调 –人类教导

这时候在语言模型自学之后,需要引入人类监督训练。这个阶段不需要很多标注好资料去训练,毕竟成本太大。

你写了一篇关于垄断一词的相关性的简短介绍,或者类似的东西,然后承包商也写下了一个理想的回应。当他们写下这些回复时,他们遵循大量的标签文档,并且要求他们生成提供帮助、真实且无害的回答。

通过这种人类监督训练,我们就可以得到一个简易版的GPT模型。

Reward Modeling 奖励建模 — 好老师模型

现在,我们可以从这里继续流程,进入 RLHF,即“从人类反馈中强化学习”,它包括奖励建模和强化学习。

为了让简易版的GPT模型变强,其实OpenAI参考了以前的AlphaGo模型的方式,通过海量的自我对弈优化模型,最终超过人类。为了完成目标,人类引导的方式成本过高,于是乎,请了一个”好老师“(reward模型),这个老师不会像人类监督那样,直接给出答案,而是对模型输出给一个反馈,只有好与不好,让模型根据反馈自动调整输出,直到老师给出好的评价。

怎么找到有个能辨别 GPT 回答好坏的老师模型(即 Reward 模型)?

于是研究人员让 GPT 对特定问题给出多个答案,由人类来对这些答案的好坏做排序(相比直接给出答案,让人类做排序要简单得多)。基于这些评价数据,研究人员训练了一个符合人类评价标准的老师(Reward 模型)。

Reinforcement Learning 强化学习 — 老师引导

现在我们有了奖励模型,但我们还不能部署它。

因为它本身作为助手不是很有用,但是它对于现在接下来的强化学习阶段非常有用。

有了好老师后,就可以开始像周伯通那样,左手(GPT)右手(好老师)互搏。要实现 AI 引导AI,得借助强化学习技术;简单来说就是让 AI 通过不断尝试,有则改之、无则加勉,从而逐步变强。

有了人类训练出来的好老师,通过好老师夜以继日引导,从而最终对齐了人类的偏好,最终实现了符合人类特征的回答。

这就是我们训练的方式——这就是 RLHF 流程。

最后,您得到了一个可以部署的模型。例如,ChatGPT 是 RLHF 模型。您可能会遇到其他一些模型,例如 Kuna 13B 等,这些都是 SFT 模型。

我们有基础模型、SFT 模型和 RLHF 模型,这基本上是可用模型列表的事物状态。

你为什么想要做 RLHF?一个不太令人兴奋的答案是它的效果更好。

以上这个图来自instructGPT论文。

这些 PPO 模型是 RLHF,根据前一段时间的这些实验,我们看到把它们提供给人类时,它们在很多比较中更受欢迎。与提示为助手的基础模型相比,与 SFT 模型相比,人类基本上更喜欢来自 RLHF 模型的标记(输出文字)。

特别是,我们注意到,例如,RLHF模型失去了一些熵,这意味着它们给出了更多的峰值结果。(更符合人类希望的回答偏好)

模型部署和应用 Deploy and Application

模型压缩:通过剪枝、蒸馏、量化等技术减少模型大小,便于部署。

系统优化:计算机架构上进行推理加速等

服务部署:将训练好的模型部署到服务器或边缘设备上,提供给用户使用。

开发Agent工具:前后端,RAG、执行工具、和产品逻辑等。

多模态大模型

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示。

那么,如何将两者融合起来,来完成以上的各种任务呢?

很简单将图像转变为语言描述即可,和其他语言大模型一起训练,本质都是找关系,输入输出语义的对齐。

Diffusion 模型 –DDPM架构

文生图、视频皆来源此架构,LLM提供语义指导,Diffusion模型通过指导生成图片和视频,两者对齐指导和生成图像信息。

DDPM(Denoising Diffusion Probalistic Models)。扩散模型的研究并不始于DDPM,但DDPM的成功对扩散模型的发展起到至关重要的作用。后续一连串效果惊艳的文生图模型,都是在DDPM的框架上迭代改进而来【38】。

假设你想做一个以文生图的模型,你的目的是给一段文字,再随便给一张图(比如一张噪声),这个模型能帮你产出符合文字描述的逼真图片,例如:

文字描述就像是一个指引(guidance),帮助模型去产生更符合语义信息的图片。但是,毕竟语义学习是复杂的。我们能不能先退一步,先让模型拥有产生逼真图片的能力?

比如说,你给模型喂一堆cyberpunk风格的图片,让模型学会cyberpunk风格的分布信息,然后喂给模型一个随机噪音,就能让模型产生一张逼真的cyberpunk照片。或者给模型喂一堆人脸图片,让模型产生一张逼真的人脸。同样,我们也能选择给训练好的模型喂带点信息的图片,比如一张夹杂噪音的人脸,让模型帮我们去噪。

具备了产出逼真图片的能力,模型才可能在下一步中去学习语义信息(guidance),进一步产生符合人类意图的图片。而DDPM的本质作用,就是学习训练数据的分布,产出尽可能符合训练数据分布的真实图片。所以,它也成为后续文生图类扩散模型框架的基石。

1 DDPM训练流程

理解DDPM的目的,及其对后续文生图的模型的影响,现在我们可以更好来理解DDPM的训练过程了。总体来说,DDPM的训练过程分为两步:

  1. Diffusion Process (又被称为Forward Process)
  2. Denoise Process(又被称为Reverse Process)

前面说过,DDPM的目的是要去学习训练数据的分布,然后产出和训练数据分布相似的图片。那怎么“迫使”模型去学习呢?

一个简单的想法是,我拿一张干净的图,每一步(timestep)都往上加一点噪音,然后在每一步里,我都让模型去找到加噪前图片的样子,也就是让模型学会去噪。

这样训练完毕后,我再塞给模型一个纯噪声,它不就能一步步帮我还原出原始图片的分布了吗?一步步加噪的过程,就被称为Diffusion Process;一步步去噪的过程,就被称为Denoise Process。

2 文生图模型的一般公式

当我们拥有了能够产生逼真图片的模型后,我们现在能进一步用文字信息去引导它产生符合我们意图的模型了。通常来说,文生图模型遵循以下公式:

  • Text Encoder:一个能对输入文字做语义解析的Encoder,一般是一个预训练好的模型。在实际应用中,CLIP模型由于在训练过程中采用了图像和文字的对比学习,使得学得的文字特征对图像更加具有鲁棒性,因此它的text encoder常被直接用来做文生图模型的text encoder(比如DALLE2)
  • Generation Model:输入为文字token和图片噪声,输出为一个关于图片的压缩产物(latent space)。这里通常指的就是扩散模型,采用文字作为引导(guidance)的扩散模型原理,我们将在这个系列的后文中出讲解。
  • Decoder:用图片的中间产物作为输入,产出最终的图片。Decoder的选择也有很多,同样也能用一个扩散模型作为Decoder。

但是目前的的生成模型,去噪不够精细化(比如手无法精细到5个指头),幻象多,生成不连续,生成时间短,离真正的生成还很远,但在图片创意设计领域可以有一定的实际实现。

Agent

Diffusion模型的由DDPM和LLM的结合idea后,那么LLM能否和其他模型结合,能获得更加强大的能力呢?

答案就是Agent,是能够自主感知环境并采取行动实现目标的智能体,并可以通过交互提升能力,甚至与别的 agent 合作实现任务。目前我们所用到的AI大模型相关软件都是Agent。

LLM 是整个系统的“大脑”,围绕其语言理解能力,调用各个模型。

所以Agent的本质还是Prompt Engineering。

Prompt,即提示词或指令,是指向人工智能模型提供的输入文本,用于引导模型生成特定的输出。

很多人认为人类的语言指令本来就非常模糊,定义广泛,所以我们在给LLM下达指令的时候,要明确分步骤和结果等可以引导LLM最大化输出智能的输入方式。这种编辑引导LLM的输入过程就叫prompt engineering-提示词工程。

但笔者认为本质上就是LLM的潜空间Latent space -(可以理解为多个隐藏层导致的无法观察深度黑箱)的语义–LLM的输出没和人类的需求通过transfomer对齐。

基于LLM的Agent,将大语言模型作为核心计算引擎,实现感知(Perception)、规划(Planning)、行动(Action),形成自主闭环的学习过程。

  • 感知:理解你的指令,收集信息并从中提取相关知识的能力
  • 规划:思考、拆分,总结感知到的信息,为达成目标而做出决策的过程
  • 执行:依赖大模型执行,调用工具API或与其他Agent交互
  • 记忆:将整个过程(思维链条)保存起来,循环迭代

“认识从实践开始,经过实践得到了理论的认识,再回到实践中去。” -(实践论)

具身智能模型

1 引言

具身智能 (embodied AI) 是人工智能、机器人学、认知科学的交叉领域,主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力。具身智能可以追溯到 20 世纪 50 年代, 艾伦 · 图灵首次提出具身智能的概念,探索如何使机器感知和理解世界, 并作出相应的决策和行动。随后在 80年代对符号主义的反思中,以罗德尼 · 布鲁克斯为代表的研究者逐渐认识到, 智能不应该只在对数据的被动学习中得到, 而应该通过与环境进行主动交互中获取, 应当重点研究如何让机器人主动适应环境【39】。

近年来,以ChatGPT为带代表的大语言模型(large language model, LLM)技术取得了突破性的进展,通过在大规模网络对话数据中进行学习,ChatGPT能够实现包括自动问答、文本分类、自动文摘、机器翻译、聊天对话等各种自然语言理解和自然语言生成任务,同时具备在少样本和零样本场景下达到了传统监督学习方法的性能,并具有较强的泛化能力。通过先进的思维链(chain-of-thought,CoT)等提示技术,大语言模型的逻辑推理能力获得了大幅提升,从而有望解决复杂具身智能场景中的任务分解和推理问题。

视觉基础模型(visual foundation model, VFM),通过自监督的学习目标可以获得强大的视觉编码器,能够解决如图像分类、语义分割、场景理解等视觉感知任务。在具身智能任务中,强大的视觉编码器能够对视觉传感器获得的周围环境信息进行分析和理解,从而帮助智能体进行决策。

在此基础上,视觉-语言模型(visual-language model, VLM)通过引入预训练视觉编码器和视觉-语言模态融合模块,使得大语言模型能够获取视觉输入,同时根据语言提示进行视觉问答。在具身智能中,引入视觉-语言模型能够使智能体根据任务语言指令和环境的视觉观测进行推理和决策,从而提升智能体对环境的感知和理解能力。

多模态大模型(large multimodal model)通过引入视频、音频、肢体语言、面部表情和生理信号等更多模态,可以分析更丰富的传感器输入并进行信息融合,同时结合具身智能体中特有的机器人状态、关节动作等模态信息,帮助解决更复杂的具身智能任务。大模型通过充分利用大规模数据集中学习到的知识,结合特定的具身智能场景和任务描述,为智能体提供环境感知和任务规划的能力。

2 传统机器人控制算法简介

MPC和WBC简单介绍

MPC(全称Model Predictive Control)模型预测控制。Whole-Body Control(WBC)翻译过来可以叫全身控制或者整体控制。

机器人的运动控制经历了感知-决策-规划-执行。

MPC主要的任务是预测环境变化,进行姿态规划,然后将姿态的信息–就是时间和空间,传递给WBC(输出电机等指令),充分利用机器人的自由度同时执行多个任务。MPC就是规划求解器,WBC是执行求解器,两者技术都是基于数学的线性规划最优化求解。

一句话通俗易懂的解释:MPC根据状态转移模型(已知当前状态的情况下,给定一个控制,可以准确推导未来的状态),推导出未来一段时间的状态表达式(工程上实现一般用误差表示,即未来状态和目标状态的差值),求解未来一段时间的控制量,做到尽量接近目标状态、尽量的小的控制变化,同时满足控制输出的阈值范围约束【40】。WBC则是分优先级的多任务控制。

算法流程-案例演示

MPC一般用于车辆的控制,特别是在智能驾驶领域,路径的跟踪控制大都离不开此算法,那我们就以车辆控制来说明MPC的主要步骤:

1、建立车辆的运动学模型

2、模型的线性及离散化

3、预测模型推导(建立关于未来一段时间车辆的状态矩阵)

4、目标函数设计(设计未来车辆状态好坏的评价函数)

5、约束设计(速度、加速度等限制);

6、优化求解

总的来说:以上过程就是一个高阶版的线性规划问题,只是里面优化求解的计算过程不需要人工计算,我们只需要根据车辆的模型、约束条件、目标等计算或设计出一些基本的矩阵,然后丢给二次规划优化求解器即可得到。

线性规划最优化求解图文解释

我们知道一个带约束的数学优化问题可以写成如下形式:

带约束的数学优化问题的优先级体现在约束和目标函数的关系上,当我们求解一个优化问题的时候,总是会保证求解的结果是在满足约束的前提下去最小化目标函数,因此约束本身具有更高的优先级。

我们可以把上述方程式转为几何:针对X1、X2和Z的3D图像(网上随便找的图)

图像里的最高点即为在各个限制条件下的X1,X2自变量的最优Z的解。总而言之,在最优化线性优化的求解器基础数学模型下虽然结果很准确-唯一解;但也有以下缺点:

  • 需要对限制条件要求十分严格(不能变)
  • 可容纳自变量少,否则运算量爆炸
  • 因变量基本唯一

所以在数字化和机器人领域,对于重复性非常强的工作,可以实现替代,但是对于开放式的环境替代极差(结果定义不一、环境条件不一切变动大、任务变化多–术语鲁棒性差)比如:机器人码垛的物料形状一变,就需要重新学习,更别说形状不规则、柔性的物体例如纺织品——纺织行业自动化一直困难的原因。

而随着,科学家们对AI的研究深入,以transfomer为主的注意力架构重塑了深度学习网络,并赋予了更高的智能,Open AI大语言模型和特斯拉的完全端到端fsd神经网络验证了大模型的智能程度以及完全神经网络的架构的优越性。

由此诞生出了小脑和大脑路径的公司,针对不同的场景,都有着不同的适用算法模型。

3 小脑算法

在仿真强化学习中,目前比较成功的方向主要集中在强化学习与运动控制上。相关研究通常是完全基于状态,或者通过模仿学习一个表征(latent space),然后再Sim2Real或者Real2Sim2Real在现实世界与仿真环境之间做一个对齐,强化学习在范围内搜索和探索【41】。

目前,该小脑算法可以通过几个小时的时间内通过几十次演示强化机器人某一场景的柔性任务,并且准确率可以达到95%,落地快。

但是由于仿真环境和真实环境GAP、强化学习的长尾问题、模仿学习的过拟合向演示收敛问题,导致小脑并不能拥有很好的泛化性,并对外部的抗干扰弱,而且和本体强耦合。适用于短程任务。

同时也随着模仿和强化学习正在深度融合,稀疏奖励函数设计、人类反馈、采样效率和S2R GAP缩小等新趋势促进了小脑的性能提升,且比大脑落地速度更快,商业化会在近期显现。

期待小脑路径在可执行任务上的扩展。

4 大脑算法

大脑为了找到最佳Scale Out算法,实现GPT的Zero-Shot泛化;通过使用VLM/LLM/DM等模型驱动,强化/模仿学习微调方案,其与模仿学习和强化学习的最大区别为通过大模型学习高级表征在潜空间形成输入输出的关系,提取和理解真实世界的高级物理信息,并推理采取行动。

目前大脑的技术和学习范式还未收敛,我们把市场上的主流路径进行了归纳,分为3条路线。

图:大模型驱动的具身大脑算法【39】

Duffsion Model

扩散模型在近期受到了广泛关注, OpenAI 提出的 Sora 视频生成模型被认为是世界模拟器。与隐空间世界模型不同, Sora 可以根据语言描述在原始的图像空间中生成多步的图像预测,组成长达 60s 的内容连贯的视频。

在实现上, Sora使用编码网络将视频和图像表示为词元, 随后使用超大规模的扩散模型在编码中进行加噪和去噪流程, 随后将去噪后的词元映射到原始的图像空间中。Sora在具身智能任务中有着广泛的应用前景, 可以根据机器人任务的描述和轨迹先验生成智能体在后续时间步的轨迹视频, 将生成的视频序列用于基于模型的强化学习、蒙特卡洛树搜索、MPC算法中。在Sora大规模扩散模型提出之前, 已有多个小规模的扩散模型用于具身智能数据生成。

扩散模型作为一种图像生成模型, 通过前向的噪声扩散过程得到高斯噪声, 通过多步逆向的去噪过程恢复出原始图像。在图像生成领域, 扩散模型已经被验证能够建模高维度的复杂数据, 因此在具身智能任务中被用于建模高维度的决策序列。具体地, 扩散模型可以直接作为策略规划器 (Planner), 通过对状态 – 动作序列 [(s0, a0), . . . ,(sT , aT )] 的整体建模, 能够从原始噪声还原出整条决策轨迹, 从而在执行时作为规划器来生成未来的轨迹。

最近的研究中,DiT 模型 (Diffusion Transformer Model)取得较大的进展,例如清华大学的RDT模型-将Diffusion和Transfomer融合,DiT模型是RDT的核心组件,用于处理编码后的特征向量序列,并生成生成机器人动作轨迹。扩散策略是一种生成式策略,它通过学习将数据逐渐转换为噪声,然后再从噪声中恢复数据的过程来生成新的数据样本,恢复数据由transformer的编码器来实现。扩散策略的核心任务是从噪声中恢复数据,这通常需要模型理解输入数据(带噪声的数据和条件信息)的表示。Transformer编码器非常适合这项任务,因为它能够捕捉输入序列中不同位置之间的关系,并生成有效的上下文表示【42】。

该模型在简单任务的频率(200Hz)和准确率(99%)山获得了非常大成功。但仍在萌芽期,期待该技术路径下更多的进展。

VLM/LLM

目前该方式是具身大脑公司的主流技术路径。

在大语言模型直接产生任务规划时依赖模型中编码的知识。由于大模型缺乏具身任务规划的相关知识, 且在具身任务规划时不对大模型参数进行调整, 大模型需要使用额外的反馈模块来对产生的不合理规划进行迭代【39】。

现有研究指出, 一种更为直接的方式是使用具身智能数据对大模型原有的预训练参数进行微调, 使其适应于具身智能任务场景。此时, 可以认为预训练的大语言模型/视觉语言模型将作为具身智能的基础策略, 在进行微调后得到具身大模型。

但是这种组装式的微调具身大模型的缺点非常明显,由于大模型具有较大的参数量, 在机器人任务中需要更大的计算和时间消耗,具有较低的决策频率,频率只能达到30-50Hz,无法达到流畅丝滑运行。且模型本身不是自己研发的,无法进行底层的优化,除非大模型本身能力出众。

原生物理世界大模型

在上述结构的启发下, 有部分研究采取自行设计的以Transformer为主干网络结构, 直接使用机器人数据从头开始训练网络【39】。

在目前技术百花齐放的阶段下,为了收敛至Best Model,为了更好的Scale Out,原生模型在收敛模型范式上具有独一无二的优势:可底层算法优化,自定义设计学习范式和数据类型,模型优化的潜力大。原生模型更能体现出团队的对深度学习,机器人学习等领域的高度理解力!

斯坦福大学提出ALOHA结构使用Transformer编码 – 解码网络结构, 以不同方位的观测图像作为输入, 通过解码器直接输出机械臂动作。为了解决长周期决策问题, ALOHA使用动作分块的概念, 一次预测多个时间步的动作序列, 增强了长周期任务中动作预测的整体性。

在硬件方面, 该研究搭建了低廉的ALOHA开源双臂机器人实验平台, 使人类能够完成便捷的示教数据采集, 仅使用采集的机械臂数据进行训练.。进一步地, 斯坦福大学团队搭建了 Mobile ALOHA移动平台, 通过专家示教数据的模仿学习能够完成滑蛋虾仁、干贝烧鸡、蚝油生菜等菜品的制作, 其出色的效果获得了广泛关注。但成功率有待提升。

还有世界首家设计和训练出AI原生物理世界大模型的公司-智澄AI,在评估所有算法优缺点后自研,以其独特的技术路线、全栈技术实力和前沿深度的AI理解,在交互、场景泛化上获得了优异的模型效果。

5 笔者理解

其中目前主流的投资界将技术分为两条路径:一是端到端训练一套具身大模型;二是基于现有的 LLM 或 VLM 的训练具身分层模型。

然而这种归纳方法,在技术上并不准确,因为两者并不是Mutually Exclusive的,两者是紧密结合的,端到端的大模型也有分层的概念存在–直接使用开源的VLM加上MPC模型进行训练等。同时也不是具身智能算法所关注的重点来区分的,目前学术界和商业界的所需关注的统一的进程为:

在快速发展且百花齐放的观点中,达到学习范式、模型和最佳训练数据的收敛,以此来Scale Out,获得涌现能力。

技术上更进一步,哪种模型可以快速收敛?很肯定的是,原生自研的模型拥有巨大优势,开源模型进行微调的公司,缺少对技术核心–模型的理解,原生模型团队可以随时调整模型训练和结构,进行更好的收敛。

自动驾驶行业的借鉴

我个人认为,自动驾驶的商业演变和技术发展非常雷同,0-1技术阶段上都经历了学习范式和模型的收敛(如下第一阶段),完全可以借鉴自动驾驶的发展路程来推演机器人的未来;特斯拉自动驾驶自2016年起开始自主研发,历经4代硬件计算平台和12个软件算法版本,2021年才推出fsd beta试用版本,2024年V12版本采用端到端自动驾驶技术路线。因此技术到商业化5年比较合理。

当然,自动驾驶也存在完全的软件提供商,也有车队管理商,估值最高的仍是硬软并重的整车商,毕竟先满足了人开车的刚性需求,但是机器人并不是人来操作或者说日常需求的,由此纯硬件的厂商重要性不如软件商。

具身智能的模型相比于自动驾驶也会相对困难,但是ai的产业链也比自动驾驶时期发达多了:

  • 没有大量人示教视频数据进行学习——自动驾驶会自动采集人类开车数据,且开车的人非常多
  • 具身智能模型需要更深入的理解世界的能力,因为需要执行互动各个物体–自动驾驶操作只需要操作车一个模型

目前可以看到的是,商业和学术领域对此热情高涨,几年内不同的观点理论不断碰撞融合,大家对于具身智能的GPT时刻的快速到来信心充足,加上Open AI和特斯拉成功在前;

虽然目前机器人使用具身智能模型的效果相较于自动化:延迟高、频率低、准确率低;但已经展现出zero-shot(零样本展示,但是模型成功执行)的泛化能力。

个人观点:目前处于0-1的阶段,通过对大模型和运动控制领域的深度理解力,不断试错,来学习和训练范式的收敛才会有泛化效果不错的具身大模型出现,且一定要用神经网络实现定位导航等基础功能,平面预测的泛化性一定会比3d弱;神经网络必须要实现人类的运动控制功能,才能达到泛化性的效果(当然也有隐藏层,无法解释的可能性),具体还是要看效果。

(3)AI算法的评判标准

那么我们怎么去评判一个模型的性能呢?

很多人以为模型算法披露就可以从数学上判断出来,其实不然,一方面没有哪家公司会把算法代码披露给其他方——核心机密,另一方面,算法本身通过无数次训练循环的模式就是黑箱;所以无法像材料学那样,一旦披露分子结构,基本的物理化学特性可以被推测出来。

只有模型的训练结果才可以证明算法的优越性。又或者说统一的测试集即可,比如说一起做高考卷的得分进行比较。

统一的结果:Loss Function

在机器学习领域,损失函数是一种用来衡量模型预测值和真实值之间差异的量度 (偏离程度)。

当然每家的损失函数不尽相同,要保重统计口径的统一,一般论文会附上与其他模型的对比,也要看是否进行了全面的比较。

公开的测试集&评测网站

在业界,评估大模型的指标众多,但大模型的能力多样化使得评价标准难以统一,为选择和衡量大模型带来了新的挑战。

一般业界评测方案是基于数据集评估:

斯坦福大学在探索语言模型(LLM)全面评估的初期,便率先采用数据集作为基准,其选取16个核心任务几十个数据集对常见的30个LLM进行了评测,发布了开创性的评测论文。此后,SuperGLUE、C-Eval及Opencompass等评估框架相继涌现,进一步丰富了基于数据集的LLM评估生态【43】。

无论在什么测试基准里都被当作是一个核心的数据集,值得进一步讨论其细节。它最早是在 Measuring Massive Multitask Language Understanding 这篇 ICLR 2021 的文章中被提出。从题目也可以看到,重要的点在于 multitask,也即模型在非常多的任务下的表现如何。

具体来说他收集了涵盖 57 个任务(也可以说是科目)的人类试题,包含例如数学、历史、计算机科学、法律等等学科,将其组成一个测试基准。可以想到,如果模型要有比较好的效果,需要同时具备世界知识(world knowledge),以及解题能力(problem solving)。现在看来似乎这个想法非常自然且合理,但回头看在当时算是非常有前瞻性了。

这类人类试题主要有以下几个好处:

整体来看,这种试题是测试人类智能的一个很好的载体,无论在哪个国家,试卷考试的方式来判断一个学生的智力水平发展到了什么阶段都是主要做法。所以在AGI比较火热的时候,用来测试模型/机器智能也是十分自然。

从类型来看,不同科目的试题带来了不同纬度的测量,正如 MMLU 强调的,可以测试多任务的能力,拆解来说:

语言 / 社会科学类题目,可以测量世界知识(world knowledge)——想想一个模型需要对中文语境的知识了解到什么程度才可以回答 “明朝的第二个皇帝是谁” 这种问题

数学 / 自然科学类题目,可以测量推理能力(reasoning ability)——模型不仅需要理解题意,还需要根据所有信息进行推理甚至计算再答题

当然还有很多其他的能力,但是上面两个世界知识及推理能力,往往是大模型擅长(相较于小模型),或者说希望能够增强的方面。

由于大家所训练的语境不同,又分为了中文和英文等公开测试:

详细如下,大家可以随时关注榜单变化以了解大模型公司能力的变化。

中文:SuperCLUE

网站如下:

https://www.cluebenchmarks.com/superclue.html

SuperCLUE着眼于综合评价大模型的能力,使其能全面的测试大模型的效果,又能考察模型在中文上特有任务的理解和积累。

SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。

基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力。

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

具有自己有评测标准和数据集。评测数据集为闭源类型并不公开,所以评测结果很难模型在上面训练过,大家比较认可这个榜单。

英文:LiveBench AI

网站如下:

https://livebench.ai/#

2023年6月13日,AbacusAI宣布,他们联合了AI界的超级大咖杨立昆(Yann LeCun)和英伟达团队,推出了一个新玩意儿——LiveBench AI,号称是“全球首个无法作弊的LLM基准测试”【44】。

作弊解释:模型公司提前使用将要测试的数据进行微调,从而刷分

为了避免大模型「作弊」,LiveBench 每月发布新问题,并根据最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计问题,以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案,这样就可以在不使用 LLM 评审员的情况下,对难题进行准确的自动评分。

通过定期更新的问题集和客观的自动化评分方法,LiveBench 提供了一个公平、准确的评估平台,还同时推动了 LLM 的持续改进和社区参与。

LiveBench评判方法

LiveBench的任务设置堪称全面,目前涵盖了18个任务,分布在六大类别:数学、编码、推理、语言理解、指令执行和数据分析。每个任务都属于以下两种类型之一:

  1. 信息源任务:比如基于最近Kaggle数据集的数据分析问题,或者修复最新arXiv摘要中的拼写错误。这就像是给模型们的实时突击测试。
  2. 增强版基准任务:更具挑战性或更多样化的现有基准任务版本,比如来自Big-Bench Hard、IFEval、bAbI或AMPS的任务。这些任务就像是高级别的期末考试,难度升级!

具体类别和任务如下:

  • 数学:包括过去12个月的高中数学竞赛问题(如AMC12、AIME、USAMO、IMO、SMC)以及更难版本的AMP问题。看看这些问题,真是让人怀疑是不是从数学天才的梦境里偷来的!
  • 编码:包括通过LiveCodeBench从Leetcode和AtCoder生成的代码问题,以及一个新颖的代码完成任务。这简直是程序员版的高考。
  • 推理:涵盖了Big-Bench Hard中的Web of Lies的更难版本、bAbI中的PathFinding的更难版本,以及Zebra Puzzles。感觉像是推理小说中的谜题在向你招手。
  • 语言理解:包含三个任务:Connection单词谜题、拼写修正任务和电影梗概重组任务,均来自IMDb和Wikipedia上的最新电影。这些任务就像是语言学家的午夜狂欢。
  • 指令执行:包括四个任务,要求释义、简化、总结或根据《卫报》的最新新闻文章编写故事,并且需遵循一到多个指令或在响应中加入特定元素。真是给AI模型们上了一堂指令遵循的高强度训练课。
  • 数据分析:包括使用Kaggle和Socrata最新数据集的三个任务:表格转换(在JSON、JSONL、Markdown、CSV、TSV和HTML之间)、预测哪些列可以用来连接两个表格,以及预测数据列的正确类型注释。简直是数据科学家的最爱!

通过这种多维度的综合方法,LiveBench能够有效评估大型语言模型在不同任务中的表现,确保评估结果的公平性和可靠性。

目前国内公司阶跃星辰和阿里的模型分别综合排名第5和13名。

同时若是在离数学模型中获得最好成绩,那我们称该模型为SOTA,SOTA全称是State of the Art,是指在特定任务中目前表现最好的方法或模型。

(4)AI模型的趋势

符号主义到联结主义

我们能看到三种范式在成本、自学能力和应用下的场景不同。笔者相信每一种算法在成本、技术等考虑下都有其适用的场景。很显然,用大模型推理去做传统数字化、重复性非常高的标准场景例如开发票、结账等,是非常不实用的-成本高,准确率远远不如符号主义的Rule-Base。但是大模型可以指导规则的变化,重写流程。

再例如,目前ViT(transformer的视觉识别)的识别图片的泛化性强但准确率还是不如传统的CNN。不同的算法总有自己的商业和技术定位。

联结主义中,从Transfomer中,我们能明显看到明显的趋势就是一切都是为了更好的Scale Out:

  • 架构更加简洁:decoder-only单一架构,输入后即输出,在输出中理解。
  • 更精准的压缩和还原:通过注意力机制,实现对大规模数据的特征提取,极限压缩进行理解,并还原。
  • 可兼容的训练数据最大化:图片、视频和语言等等,大规模输入,统一化训练

目前大语言模型的趋势

01 技术上

传统Scaling Law正在失效?

近期,围绕Scaling Law的讨论不绝于耳。

起因是,The information在一篇文章指出,OpenAI下一代旗舰模型Orion(或称GPT-5)相较于现有模型,能力提升“有限”(代码能力甚至不如现有模型),远不如GPT-3到GPT-4的跃升,而且Orion在数据中心的运行成本更高。为此,OpenAI不得不连夜转变策略【45】;并且在12月份的产品发布会中,也只发布了o3,GPT5一点消息后没有披露。

如果其所言非虚,就不会只有OpenAI一家被困扰。

果不其然,Google也“出事”了。其下一代Gemini模型原本应该是一次重大升级,但有员工透露:近期在大幅增加资源投入后,模型性能未达到领导层预期,团队连夜调整策略。

与此同时,Anthropic被曝已暂停推进Opus 3.5的工作,官网还撤下了“即将推出”字样。

“三巨头”接连碰壁,让人联想到:Scaling Law可能失效了?

正方:Scaling Law神话终结

  • Ilya Sutskever:扩展训练的结果,已经趋于平稳。
  • Arvind Narayanan & Sayash Kapoor:即使有效,也数据不足;合成数据并不有效。

反方:Scaling Law没有墙

  • OpenAI CEO Sam Altman:there is no wall。
  • 英伟达黄仁勋:Scaling Law还会继续。
  • 微软AI主管Mustafa Suleyman:不会有任何放缓。
  • 微软CEO Satya Nadella:是定律,并且一直有效。
  • 前谷歌CEO Eric Schmidt:没有证据显示。

无论各位如何“挽尊”,都掩盖不了大模型“减速”的事实——感受不到当初的惊艳。

退一万步,正如OpenAI研究人员Steven Heidel 所言,就算现在LLM 停滞了,在当今模型的基础上,还有至少十年的产品等着你去开发。

Self-Play RL(自我强化学习)- 后训练是新Scaling Law?

随着9月份 OpenAI o1 模型的发布,LLM 正式进入self-play RL技术阶段。

OpenAI 不是唯一重视 RL 和 Self-Play 的公司,在 o1 之前,Anthropic Claude 3.5 Sonnet 就被视为一个标志性里程碑,Claude 3.5 Sonnet 代码能力显著提升的背后其实是 RL 在起作用;Google 也已经围绕 LLM 做 reward model 展开了多个项目的研究;前 OpenAI 的核心人物 Ilya 创立的新项目 SSI 也和 RL 相关。o1 的发布势必会加速新范式共识的形成,将 RL从头部 AI Labs 的尝试向全行业扩散。

2018 年,Lex Fridman 邀请 Ilya 来 MIT 客座讲一节课,Ilya 选择的主题是 RL 和 self-play,因为他认为这是通往 AGI 的路上最关键的方法之一。Ilya 在讲座中用一句话概括了强化学习:让 AI 用随机路径去尝试一个新的任务,如果效果超出预期,就更新神经网络的权重让 AI 记得多使用成功的实践,然后开始下一次尝试。

强化学习的核心在于”探索”(Explore)和”利用”(Exploit)之间的权衡。LLM 在”利用”现有知识上做到了现阶段的极致,而在”探索”新知识方面还有很大潜力,RL 的引入就是为了让 LLM 能通过探索进一步提升推理能力。

RL 在 LLM 中应用的思路本质是用 inference time 换 training time,来解决模型 scale up 暂时边际收益递减的现状。

Self-Play + MCTS:高质量博弈数据提升 reasoning 能力

推理成本大幅上升:MCTS搜索加入 LLM inference

LLM 直接生成是可以类比系统 1 的慢思考。而 RL 就为 LLM 带来了系统 2 慢思考。

引入了 MCTS 之后,LLM inference 会变得更慢、更贵、更智能。因为每一次回答问题时都会推演很多种可能的思考路径,并自行评估哪一个能获得最高的 reward,然后再将最终的生成结果输出给用户。理想中越难的问题需要分配更多的算力和时间:简单问题 1s 直接输出答案,复杂问题可能需要 10min 甚至 10h 来思考最佳的解决方式。

MCTS 实际推理中,可能是和之前我们预测成本的范式类似:把任务拆解成 5 步推理,每一步尝试 k 次模拟,搜索一整个决策树中的最佳方案。Alphago 下围棋时也是这么在推理时深度推演之后的下棋决策的,只是应用到 LLM 上对算力的要求更高了,需要更多智能剪枝等优化方式。

因此这一部分很难定量的计算其实际对推理需求带来了多大数量级的提升:理论上 MCTS 推演的策略集越全面一定是效果越好的,但是推理算力、用户体验的角度来说一定需要 LLM 厂商去做严格的资源约束,来达到性能和成本之间的平衡。

很明显看到的,最近几个月,o1的推出整体效果并不是很惊艳,笔者观点:一个学习慢的人,再怎么探索世界,学习效果也是缓慢的,效率低下。

02 商业上

未来商业的情况仍然取决于Scaling Law是否继续有效,虽然很多利益相关者都在说并未失效,但是如果后续成本太高或者资源无法满足,也是一种失效。

如果Scaling Law继续有效

在数据满足的前提下,那么继续建造万卡集群,将模型往T级别参数量走,大模型公司继续融资狂欢。

无论Scaling Law失效与否

大家会更加关注大模型如何落地:应用和成本!

基于大模型的应用落地(软硬件、to b to c)将迎来百花齐放,特别关注ARR、月活等关键数据。

由AI Infra优化大模型推理成本直线下降。

大模型将会更注重性价比,模型的参数量会变小的同时,效果会有一定的提升。