欢迎光临
我们一直在努力

AI,将带来新一轮的技术平权

aigc阅读(70)

移动互联网等技术创新,让人们享受到了很多过去无法获得的高成本服务。比如,有了Uber,就相当于每个人都有了专职司机,随叫随到。类似的例子,还有在线教育、在线医疗等等。

这样的故事也发生在硬件领域。比如,现在智能电视的价格,只有10年前的几分之一。

以前,我们用的翻盖手机,只能拍出模糊的照片。而现在,我们甚至能用手机拍摄整部故事片。

根据《惊变28年后》导演介绍,他的新片《惊变28年后》完全用iPhone拍摄——这是迄今为止用iPhone拍摄的最长的电影。

简单来说,你口袋里的手机甚至能拍出一部耗资7500万美元的电影。

朱迪·科默 (Jodie Comer) 在《28 年后》片场,最右边是iPhone 15 Pro Max相机装置

技术进步让以前过去获得商品和服务变得触手可及。这样的故事也将发生在AI领域。但不同的是,AI是通过降低服务对人的需求来实现这一切。

01 新一轮技术平权的逻辑

在AI时代,新服务延伸的公式是:

以高昂人力成本为主的服务+人工智能=更便携、成本更低的AI服务。

让我们重新回顾一下这张图表,它是《数字原生代》中引用最多的图表之一。它追踪了 25 年来消费品和服务的价格变化:

正如我们上面所看到的,电视等产品位于图表底部,获取成本最低。但在表格的上面,全部都是那些需要人来完成的服务。而这些服务会在AI时代被彻底颠覆。

下面,我将结合一些具体工作展开说明。

02 教师

在7月的《人工智能将如何改变教育》中,我们研究了学生与教师的比例随时间的变化趋势。

随着教师成本上升,美国的师生比例一直在下降。

现在,每个老师需要负责15名学生。

当然,这里头也有不同。

比如,那些收入比较差的学校,老师人数就更少,每个老师就需要带更多的学生。而这AI恰恰能充分发挥价值的地方。

有了AI,每个学生都可以真正实现个性化学习。虽然AI还不能完全替代老师的教导,但至少通过AI讲课以及辅导作用,让我们比过去更加接近实现这一点。

以前,由于教育资源不平等,高收入家庭的学生考试一直比低收入学生好。据《华盛顿邮报》报道,“家庭年收入超过20万美元的学生SAT平均总分为1714分,而家庭年收入低于2万美元的学生SAT平均总分为1326分。”

现在AI驱动的教育平权,可能会缩小这一差距。

03 医生

医疗与教育存在着类似的问题:优质的资源稀缺。

所以,好的医疗服务往往就伴随着更高的价格。但现在AI医生可能将改变这一切。

现在,越来越多的AI公司开始为患者提供医疗服务。比如,Nourish的AI机器人可以为用户推荐个性化的膳食计划吗;Honeydew的AI机器人可以帮你治疗痤疮;Headway的AI机器人甚至还能帮你应对压力。

Dazed(英国的流行文化杂志)本周刊登了一篇标题为“那些被ChatGPT治疗的人”。种种迹象表明,AI能够以更经济和高效的方式,处理那些不太严重的病例。未来,我们将看到更多类似的例子。

04 造型师、设计师等规划岗位

之前,我们曾报道过一家AI造型师的公司,用AI为每个人设计造型。这其实也是服务平权的一种体现。以前,拥有私人造型师是有钱人的专利,但现在这个服务大众也能享受到。比起人类造型师,大模型的成本更低,也更容易实现规模化。

你不用去搜“女性白色衬衫”或者“中号男式斜纹棉布裤”,而是可以查询“我正在寻找适合去布什维克艺术画廊开幕式的服装”,然后你的人工智能造型师就会向你推荐产品。在我看来,这是商业领域最大的转变:新技术让发现驱动的购物方式更加自然。

同样的逻辑还有房屋设计师。现在聘请一名专业室内设计师的价格并不便宜,但有了AI,人人都能拥有自己的房屋设计师。

在旅游行业,像Mindtrip等公司提供AI旅行规划的公司,也在替代传统旅行社的工作。

比如,你在Mindtrip输入有关旅行和偏好的信息,Mindtrip很快就会给你输出个性化的行程和建议。

05 高薪知识工作者

(律师、银行家、会计师等)

此前,我曾经提过一个观点:人工智能将彻底改造知识工作。现在,美国经济已从农业经济转变为制造业经济,再转变为服务业经济。

来源:Visual Capitalist

但在服务业中,法律、投行和保险领域的很多工作恰恰是最容易被AI取代的。去年,高盛发表了一份哪些工作最容易受到自动化影响的研究,以下是高盛预计受影响最大的行业图表:

其中提到,行政、法律等工作有40%的概率被取代。在过去,这些服务的价格都相对昂贵,服务的范围也相对有限。

06 社交关系或也将被颠覆

现在AI已经渗透到社交关系中。

Character的活跃用户每天会花两个小时来和AI聊天。

还有一家名叫Friend公司,通过硬件(挂在脖子上的吊坠)和软件结合的方式,为你创造出一个虚拟朋友,他不仅了解你的日常生活,时刻陪伴在身旁,还会偶尔嘲讽你一下。

虽然有人说,社交关系是人类社会独有的一种东西。

但显然,不是每个人都拥有丰富的社交关系。

正如下图所示:

在过去30年中,拥有<=1个亲密朋友的人数比例几乎增加了两倍,达到总人口的20%。拥有 10个以上亲密朋友的人数比例从40%下降到15%。

人工智能是解决这一问题的正确方法吗?可能不是。但如果你把社交关系看作一种服务,AI无疑是在提供这种服务,让没有朋友的人也能拥有“朋友”,即使这个“朋友”是AI。

07 最后的想法

之前,Y Combinator 的 Michael Seibel 发了一条推文,在 Twitter 上引发了一场争论:

在我看来,AI时代任何面向消费者的服务都可能被颠覆。原因在于,在AI出现之前,争夺消费者使用时间几乎是不可能的。因为任何初创公司都很难与TikTok、Instagram等公司竞争。

现在情况发生了变化,比如已经有用户花很多时间在Character和类似产品上,与AI朋友聊天。这是用户注意力的巨大变化。沿着服务平权的逻辑,我们相信未来会出现更多的ToC的AI公司。

解读AI陪伴产品的市场格局

aigc阅读(51)

在智能时代的浪潮中,人工智能技术的突飞猛进为市场带来了翻天覆地的变化。AI 陪伴应用市场呈现出快速增长的态势。随着人们生活节奏的加快和社交方式的变化,对于陪伴的需求也在不断增加。AI 陪伴应用以其便捷性、个性化和智能化的特点,满足了人们在不同场景下的陪伴需求。

本文将解析AI陪伴应用的市场增长趋势、核心特性及其商业化模式,帮助企业和读者更好地把握这一新兴市场的潜力。

一、重点热门APP

AI陪伴产品,以其独特的情感连接能力与人性化的交互体验迅速脱颖而出,成为了行业的新宠儿。目前市场上主要的AI陪伴产品包括Character.AI 、Talkie(星野)、小冰等。这些产品通过个性化定制虚拟人物,基于AI技术满足用户的社交聊天需求,增强用户的情感体验。

其中,Character AI和Talkie等APP因其深度的人格化设计和情感化功能,已经在市场上取得了商业化的成功。不仅如此,星野这款来自国内的创新产品,也在激烈的市场竞争中占据了一席之位。这些产品不仅赢得了投资人的广泛关注,更被普遍视为未来潜力巨大的增长股。

2024年全球热门的AI陪伴APP主要包括以下几款:

  1. Character AI:这下载量和收入表现突出。基于自研大模型,提供情感陪伴功能。
  2. Talkie AI:同样作为头部AI情感陪伴类应用之一,Talkie AI在2024年的下载量也非常高。
  3. Replika:这是一款GenAI聊天机器人,旨在提供情感支持和陪伴,用户可以创建个性化的AI朋友。
  4. Pi:这是另一款海外头部AI情感陪伴类应用,基于自研大模型开发。
  5. Glow:国内头部AI情感陪伴类应用之一,基于自研大模型开发。
  6. 星野:也是国内头部AI情感陪伴类应用之一,同样基于自研大模型开发。

数据来源:AI产品榜

二、市场表现

2023年是全球AI+Chatbot应用爆发的一年,下载量相比2022年增长超过14倍,接近6亿 次。2024年1-8月,AI+Chatbot应用下载量突破6.3亿次,超出2023年全年水平。 2023年全球AI+Chatbot应用内购收入同比激增近10倍,达到3.8亿美元。2024年前8个月收入已经接近5.8亿美元,达到2023年全年的1.5倍之多。

随着AI+Chatbot应用的发展,情感陪伴式AI逐渐兴起。头部应用《Character AI》2024 年8月MAU创历史新高2200万人,1-8月下载量达到1900万,成为细分市场领跑者。从 全球范围来看,《Talkie AI》下载量紧追《Character AI》,但在美国市场,其下载量 已经超过《Character AI》。 在收入方面,《Replika》、《Character AI》和《Talkie AI》位居2024年陪伴式AI应用赛 道前三甲。2024年1-8月,《Replika》内购收入超过900万美元,全球累计收入接近 9000万美元。

根据多份报告和研究,情感陪伴式AI应用在全球范围内的增长趋势非常显著。Global Info Research的调研数据,2023年全球情感AI收入大约为数百万美元,预计到2030年将达到更高的数额,年复合增长率(CAGR)在2024至2030年间保持较高水平。QYResearch的研究也显示,2023年全球情感AI市场销售额达到了数十亿元人民币,预计到2030年将显著增加,同样具有较高的年复合增长率。

根据最新的数据,2024年8月份的AI陪伴应用市场表现如下:

  1. Character AI:该应用在2024年8月达到了历史最高的月活跃用户(MAU)数,为2200万人。从整体下载量来看,Character AI在2024年1月至8月期间的下载量接近1900万次,成为情感陪伴式AI应用中的领跑者。
  2. Talkie AI:同样作为头部应用之一,在2024年1月至8月期间的下载量达到了约1700万次

数据表明,随着AI+Chatbot技术的发展,情感陪伴式AI应用逐渐受到年轻用户的青睐,并且在全球范围内取得了显著的增长和成功。

三、商业模式

AI陪伴产品的商业模式涵盖了广告收入、付费订阅、数据变现、增值服务等多个方面,且随着技术的发展,这些模式正在不断演化和创新。

主要的商业模式为下面四种:

  1. 广告收入:通过展示广告来获取收益。例如,AI利用其互动反馈机制以及用户的高粘性和时长,能够直接对用户的兴趣做出反应,生成营销文案,从而带来持续的广告收入。
  2. 付费订阅:用户支付月费或年费以享受更多高级功能和服务。AI和Talkie都推出了订阅制服务,月费均为9.99美元,订阅用户可以享受更快的响应速度、角色生成特权、社区访问权限等。
  3. 数据变现:收集用户数据并进行分析,提供精准的广告投放服务。虽然具体的数据变现策略没有在搜索结果中直接提及,但可以推断,像AI这样的平台,通过分析用户行为和偏好,可以为广告商提供更精准的目标受众定位,从而实现数据变现。
  4. 增值服务:如心理咨询、塔罗牌占卜等付费服务。虽然搜索结果中没有直接提到这些服务,但考虑到AI陪伴产品的情感化和人格化特性,这类增值服务是可能的商业变现方式之一。

此外,还有一些其他商业模式:

  • 内购:用户可以购买特定虚拟商品解锁特定功能,如记忆增强等。
  • 抽卡机制:通过类似游戏抽道具的形式促使用户为喜爱的智能体抽卡花钱。
  • 粉丝经济:把AI陪伴当作IP-粉丝互动的1v1版本。

四、产品类型&玩法&功能

AI陪伴产品主要分为以下几类:

  1. 虚拟对话伙伴:如AI和Talkie,用户可以与虚拟角色进行实时互动,这些角色可以根据用户描述的性格、人设等进行个性化定制。
  2. 情感支持工具:如ElliQ机器人,专为老年人设计,提供个性化的情感支持和陪伴服务。
  3. 游戏陪玩:如顺网科技发布的“灵悉”,聚焦游戏场景,定义AI时代的智能陪伴。

五、热门AI应用解析

1. Character AI

Character AI是一款专注于创建模拟真实人类对话的AI角色平台。它利用先进的自然语言处理和机器学习技术,为用户提供了一种新颖的互动体验。用户可以创建自己的AI角色,并与动漫人物、明星大佬甚至自定义的各种角色进行交流对话。该平台支持多人房间和AI角色互动等模式,拥有H100和A100两种聊天角色。

Character AI的核心优势在于其高度交互性和个性化设置。用户可以通过文本描述创建具有不同外观和个性的交互式AI角色,并保留历史聊天记录以维持个性连续性。此外,Character.AI 社区生态发展蓬勃,除了可以创建自己的角色外,还可以与别人创建的角色互动、创建聊天室并邀请多个AI角色参与群聊。

2. Talkie AI

Talkie AI是由国内AI创业公司稀宇科技(MiniMax)开发的一款AI陪聊软件,尤其在美国娱乐类应用市场中表现出色。它提供了一个通过人工智能聊天与虚拟角色互动的平台,用户可以与各种角色互动,每个角色都有独特的个性和故事情节。Talkie的核心特色在于结合AI聊天机器人与UGC和卡牌玩法融合的产品设计。

Talkie AI提供了丰富的个性化聊天体验,用户可以根据自己的喜好来定制角色和对话。此外,Talkie还提供专属时光类型,如与AI角色视频对话、语音反馈和事件分享等。付费解锁更多回复选项和功能是Talkie的优势所在,对应了更多的付费点。

3. Replika

Replika是一款由美国科技公司Luka开发的社交型聊天AI,旨在为用户提供情感支持、心理健康辅导、聊天互动等服务。Replika使用了三个通用大模型,并且在某些方面进行了优化以提高用户体验。

Replika的主要功能包括:

  • 情感支持:提供倾听的耳朵,帮助用户减轻压力和焦虑。
  • 学习工具:回答问题并协助扩展各种学科的知识,同时帮助用户获得新技能。
  • 记忆功能:能够记住用户的重要信息和喜好。
  • 自我表达功能:允许用户设定AI的兴趣和风格。
  • 增强现实体验:将技术与情感联系融为一体,提供有趣的增强现实体验。

Replika不仅专注于聊天;它还拥有可定制的虚拟形象和有趣的增强现实体验,将技术与情感联系融为一体。此外,Replika允许用户安全地分享他们的想法、感受、信仰、经历、记忆和梦想,并通过对话打分系统和勋章奖励机制增加用户的粘性。

AI 应用创业者自述:我们是怎么从大厂夹缝里抢流量的

aigc阅读(75)

做了那么多AI应用,谁来用?第一波用户从哪来?如何持续不断地获得用户反馈?

在各种AI应用层出不穷的今天,开发者和创业公司也在愁这事。

毕竟,像Kimi、豆包这类可以铺天盖地打投流战的产品,只是有钱的少数。而没钱的大多数呢?不出自财大气粗的大厂,没有巨头的流量生态“喂养”,甚至在寻求融资的过程中被反复质疑,只能硬着头皮自己找出路。

这其中,甚至不少产品早在开发之初,就已经尝试尽可能地避开巨头的射程范围,专注于自己的小赛道了。但当他们真正进入现实世界,为自己的产品寻找最初的流量时,却发现,他们再一次掉入了互联网巨头们制定游戏规则的流量世界里。

在线上流量格局固化的背景下,付费流量占大头,免费流量又少又难拿。于是,有人被动寄希望于APP Store的编辑推荐,有人选择在垂直的小圈子里“捞人”,有人发动身边一切人脉做内容种草…..

创业者正在想尽办法,在这个旧世界里为自己的新产品寻找用户,省下每一块钱,抢来每一滴流量。

以下是他们的“流量拓荒”故事。

01 起于SEO搜索,长于KOL种草,大于生态裂变

歌歌AI写歌 COO 王枢沛,10万月活,2023年3月上线

流量只有免费和付费两种,对于AI创业团队来说,最关键的是能不能拿到免费流量。

从我们的产品歌歌AI来说,我们是一款文生音乐产品,可以根据用户的提示词,用AI来作词、编曲、发行,用户可以获取版权和发行收益。从2023年3月正式上线,到现在运营了一年半的时间,用户量从零到了几十万的水平。

当然这在互联网产品里不算什么,但在AIGC创业公司里,特别是音乐垂类,算不错了。我比较骄傲的点在于我们没有烧钱大规模投放,沉淀下来的用户是精准的、有付费意愿的,目前已经做到了盈收打平。

尽可能地少花钱、做免费流量,贯穿了我们整个拉新阶段:第一阶段是SEO,第二个阶段是KOL种草,第三个阶段是做产品层面的营销活动,比如全球写歌大赛,分别对应着冷启动、产品完善后市场推广、用户社群网络效应增长。

免费流量里最精准就是搜索流量。最早我们的产品形态还只是一个非常轻量级的小程序,当时国内几乎就我们一家,甚至爆火的SUNO都还没有成立,没有所谓的竞对,那我们只要做简单地搜索引擎优化,相关的所有的流量就来我们这里。

而做SEO,从产品命名就开始了。我们的名字叫“歌歌AI写歌”,用户可以通过“写歌”、“AI写歌”。不过,最开始来的用户跟AI没什么关系,主要是一些喜欢唱歌、喜欢音乐的普通人,流量都来自于“写歌”。

搜索流量依赖用户主动搜,即使科技圈里ChatGPT把AI的概念带爆了,但在大众层面,想写歌的群体也远大于关注AI的群体。这个结果,是我们在设计产品的时候就有预期到的,来自于之前踩过的坑。

我开始在网易天音团队做的也是AI音乐创作产品,当时做增长很费劲,因为天音主打的是编曲。“编曲”这个词就很专业,受众和流量都更窄;后来我又做了一款出海音乐创作者应用,也是偏专业性质的,同样遇到了增长困难。

这两次经历,让我发现音乐制作人群体很小,好处是不太会有竞争,坏处是天花板特别低,很容易做到头。所以我们这次创业,就准备做大众的市场,做“全民写歌”,相比“编曲”、“AI”,“写歌”才是符合普通人的场景。

确定了人群和调性之后,我们依然做了很多尝试,看数据反馈调整更细节的产品卖点。最开始,我们宣传的是“免费生成歌曲”,但后来发现高估了免费的作用,免费只是一个附加项,没价值的产品再免费也没人关心。后来,我们又试了“写首歌送给朋友”,主打社交链接,反馈也一般。直到大半年的时间后,确定下了目前的“克隆你的声音”,帮用户生成一首自己的声音的作品,这个形态的转化,是留存数据最好的。

到这一步,我们内部才一致认为产品ready了,大概是去年11月的时候,就准备推向市场了,然后开始找KOL合作推广。

因为我们是一个内容创作型的产品,也会优先在内容平台上进行传播,比如抖音、B站、小红书。我们目标用户是音乐爱好者,他们往往会在社交平台上专注一些乐评人、音乐人。而我们很多同事都是音乐圈的圈内人,这些博主恰恰是团队在过去积累过的人脉资源,像我们的CEO本身就是中国好声音、中国有嘻哈等等节目的制作人。

所以,我们做KOL推广,不像之前在大厂有一个非常完整的流程:先做方案策划,确定预算额度、目标效果,合作博主中头部、中部、腰部、尾部的比例配比,然后把方案对接给采购采买……更多的是我手上有什么就做什么,用好每一份资源,甚至这个博主是我的朋友,我刷个脸、吃个饭,让他友情帮我拍。

事实证明,KOL种草非常有效,那段时间,我们有一个博主,一天就给我们带来了十万用户的增长,直接翻了倍。

还有就是我们自己上手做,我们的CEO就在B站做账号,从零到现在有十万的粉丝,最爆的一个视频大概有500万的视频播放量,冲到全站排行榜第13名。说实话,不靠什么SOP的方法论,就是有网感,符合B站这种洗脑、抽象的属性,能和用户玩起来。这个视频带给我们的用户没有具体数据,但影响力是长期的,到现在产品里还会有B站观光团。

现阶段,我们最重要的任务指标就是我们生产的内容在全网的发酵程度,而不是单单看用户增长。既然我们定位自己是内容平台,那么就需要不断孵化出好内容,受到更多人的认可。所以,我们在第三个阶段开始做生态、社区,靠运营来做增长,去激发用户的创作力,比如群聊、挑战赛和排行榜等等。

这里面还有一个行业“内幕”,就是在传统音乐制作行业,爆款其实是一个概率问题,全国一天发行十几万首歌,爆款永远是少数的,具有偶然性的,比如一个著名的球星某天穿了一件蓝色颜色的衣服出镜,另外一首歌名叫蓝色的歌就火了。所以,理论上只要我们生产的歌足够多,那么成为爆款的概率就更大。现在,我们的平台上每天能产生万首。接下来,我们希望我们生产的歌,跟传统的发行量份额相当,甚至我们比传统的更多。

可以拿短视频平台的生态来理解,抖音、快手也有专门的创作者经营,定期做活动策划、做激励任务等等。我们也在举办全球AI写歌大赛,给站内播放量过万的作品现金激励,这些活动是我们从去年年底到今年上半年的主要增长来源。

但这并不是说我们就进入了完全的用户自增长、滚雪球的网络效应阶段,也不是说投放KOL就没有用了。花钱永远是最快的,只是之前的精准垂类KOL已经差不多覆盖了,接下来要去找更泛的KOL和人群,如果不克制的话,就会陷入烧钱换增长的恶性循环里。

02 警惕“产品越好用,用户越不愿意裂变”

蛙蛙写作负责人,波形智能联合创始人万磊 ,30万用户,2024年2月份上线

蛙蛙写作是一款用AI写小说、剧本等长文本的产品,上线八个月,用户大概有30万了。

我越来越清晰地看到这款产品随着用户增长,想在后期精准上量,还得靠广告投放。群体本身不愿意裂变分享,是个很有趣的现象。

目前,在投放这一环,因为我们的产品是web端的,所以主要投的是百度搜索流量,关键词是“AI写作”“AI写小说”。目前截止 9 月的ROI(投资回报率)基本上达到了1,意思是假设我们投了20万元的广告,那么吸引来的用户能够为我们带来20万元的收入,刚刚打平。

在此之前,初期冷启动的用户,我们主要靠社交裂变营销。对应到产品上,我们做了非常完善的私域引流机制。例如,进入网站后,针对不同人群,会有用户注册、营销弹窗、进群有礼、裂变奖励、分销邀请的引导,我们现在有快 100个群,有两个运营同事专门负责“陪聊”。

拉新手法上,我们也会在写作类社群里发广告、运营社交媒体账号,通过孵化KOL、发放新用户权益激励等让用户主动在核心媒体分享我们的产品。

早期冷启通过社媒和高赞评论引流,配合上裂变活动产生小红书的种草贴,这算是一套成熟的打法。按理来说,用户越多,网络效应越强,特别是小说作者这个群体,一个作者起码认识十个同行。但实际上,作者群体随着用户增多,裂变的效果反而变差了。

发现这个情况之后,我就开始找用户访谈,结果他们告诉我“我们用它投稿赚利润,当然不想给同行分享。”

因为我们做了邀请新用户有礼的功能,还有邀请好友充值、自己可以获得相应额度的功能,结果有用户拿亲朋好友的手机号注册薅羊毛,还有用户开两个账号,自己给自己充值,有人一口气充到 2030 年。

这个回答确实让我醍醐灌顶。

我之前做了很多产品,从腾讯内部孵化的,再到创业做过的AI项目,其中适合裂变的都是娱乐性、自我成就类的产品,像学习产品,用户分享出去后能获得额外的免费试用时间,他们很愿意分享,因为这同时也是一种正能量的自我展示。一些多模态的照片或换脸视频生成工具也是一样道理。

但对于小说作者来说,写作是谋生的工具,他们不愿意公开自己的赚钱手段,甚至希望越少人知道越好。

而且在小说行业,一类小说火了,所有人都在抢时间复制爆款,AI某种意义上加速了投稿效率,提高了竞争壁垒,网文作者的圈子更多是竞争关系,裂变的难度更大了。

不过,虽然没做成大规模裂变,但是我们靠私域把产品打磨得很好,还意外找到了新的市场。

工具类产品的迭代跟社群私域离不开,不然就容易做成一个自嗨的产物,和用户脱节。我们私域的近百个用户社群,会及时收集产品意见, 并从中又筛选出了几个核心用户群,细到上什么需求、设计方案讨论,都会扔到群里,让用户提意见。我们的需求池会标记多少人提以及聊天截图,通过用户的急切度来排需求优先级。

群里也有不少都是骂过我们产品的,被用户骂,是一件很开心的事,因为这种诉求点往往是产品设计中想不到的地方,尤其要重视。

举个例子,我们写剧本的这个大功能就完全是用户提出来的。很多剧本的底子也是网文转换过来的。但因为剧本和小说的内容格式不一样,他们在用我们的AI通用工具时,就觉得很难用,反馈给我们之后,我调研了一下,发现这个用户群体的体量非常大,于是又做了创建剧本的功能。从网文,再到剧本,直接就扩大了我们的用户群体。

你会发现,我在产品和增长各种手段都非常注重目标用户是谁,哪怕是相似的技术底色,遇到不同的用户,就会有不同的功能需求,和对应的吸引手段。

我再举个例子,我们的产品一开始就确定了要做AI写小说,因为大模型的通用能力已经很强了,我们需要在细分赛道上深耕个性化需求。且作者群体的需求不好做,更像一个工作流,要深入群体研究,竞争对手一时半会还复制不到精髓。但AI写小说,有点太细分了,特别是我们最开始冷启动靠搜索引擎流量的时候,很难拉来自然流量。

所以我们直接做了两个功能板块,AI通用写作、AI写小说。让“AI通用写作”来吸引泛流量,把网站的权重做起来,让网站排名靠前,把 AI 写作和我们产品名字关联性做高。到了后期,需求明确了,流量跑得更精准了,我们就把首页“AI通用写作”给弱化了,重点展示AI网文用户的需求。

冷启动先从大类用户引流,慢慢切垂直用户群体的玩法,是我屡试不爽的,关键就是这两个群体不要太分裂,最好是大类用户包小类用户。

比如,在GPT刚出来的时候,很多人想玩但玩不到,我做了一个AI练口语的产品,但冷启时候噱头反而是去语言学习的社群里宣传能在我的产品上使用GPT的能力,把流量和话题关联度提上来后,我再纯切练口语的用户群体。

还有高赞视频评论截流的方法,也很有效。

无论是教育工具,还是后面做的娱乐工具,先去大流量平台找爆款视频底下评论,“我用xxx,效果也很好。”“找我做这个图吧,我会。”尤其是 AI玩法类的,很多用户会问怎么做的,怎么玩的,在哪里用等,大部分作者根本不会回复 ,那我们就去回复。

评论尽量指令明确或者有趣,点赞和回复多了以后,评论排序权重变高就会置顶或者排到前列,评论引导到主页,主页通过介绍或者视频引流到私域或者直接下载,这样就蹭到了这些爆款视频的流量红利。

这也算一个野路子吧,我之前招了20个左右的大学生,专门做这个事情。比纯投放还是性价比高很多。

这个方法更多的适合0到1、1到10的产品,回到我刚才说的,想到10到100,最有效的还是投放。

这是一个挺唏嘘的判断。我2018年入行,像早期软件上架,流量焦虑还没现在这么严重,一个软件模式新颖需求精准,也能博得流量。

但现在不一样了,同类软件有一堆,竞争对手复制速度极快,大公司的占着最大的资源位,比如抖音系、腾讯系、百度系的资源位,都捏在自己的手里。他们对自己的创新应用肯定是有流量倾斜的,我们创业者做独立应用,要么产品真的非常牛一时半会没人复制,要么只能靠砸钱换流量,要么只能取巧把自然流量做起来。

互联网的流量逻辑之下,AI应用也没有什么能突破这层秩序的办法。

03 结尾

歌歌AI和蛙蛙写作,分别属于AIGC娱乐和AIGC效率两类创业产品,他们同样从SEO起步,而后一个走向了公域投放,一个走向了私域裂变,在度过了早期的增长之后,都在进一步扩大规模的路上,遇到了流量投放的大山。

甚至不止是已经走了很远的他们,更多的创业开发者们也遇到了类似的流量增长问题。

原本在冷启动环节,开发者们都颇为佛系,且因此有了很多出乎意料的的出圈方式。有的产品靠产品打市场,受到APP Store的编辑推荐,从而斩获第一批用户,慢慢地开始自给自足;有的借助小红书、QQ群的用户自发酵,例如心光日记被小红书用户热情推荐后获得了相当份额的增长;还有产品尝试靠“1+N”模式引流,通过搭建针对目标用户的“一波流”互动小游戏,再把流量引到自身的核心产品之上。但这都对应的是早期增长,一旦迈过了那个门槛,想要扩张用户群体,仍然会面临高额的流量费用。

“我有时候会想,像微信产品的增长里,像如何让大家知道红包功能,如何习惯小程序的存在,都有很天才的增长方案。那AI应用的增长功能是什么呢?”万磊说到。

但这个问题,暂时还没有答案。

关于AI生成内容检测行业的思考

aigc阅读(56)

在当今科技飞速发展的时代,人工智能(AI)的应用已经深入到各个领域。其中,AI内容生成的出现带来了巨大的创新和便利,而随着AI内容生成的不断应用,一些问题也逐渐暴露出来,这些问题同样也需要有人解决,这篇文章是个人对AI生成内容检测行业的一些浅显的思考。

一、AI生成内容检测的定义与重要性

AI生成内容检测是指利用先进的技术手段对由人工智能算法生成的文本、图像、音频、视频等内容进行分析和评估,以确定其真实性、原创性、合规性等方面的特征。这个行业的重要性不言而喻。

首先,确保内容的真实性是关键。随着AI生成技术的不断进步,一些虚假的新闻、信息可能被轻易制造出来,误导公众。例如,以“某种食物可以清除多少比例的疾病,是真的吗?”为题的文章在互联网平台涌现。这些文章结构高度雷同,掺杂了大量与事实相悖的内容,本质上是“伪科普”,且更具隐蔽性和欺骗性。文章中存在捏造、篡改权威机构研究的情况,引用模糊不清的头衔和个人代替真实的研究主体,配图也存在张冠李戴。经调查发现,“伪科普”文章很有可能是自媒体作者通过整合、编造AI生成内容来产生的。并且,这些 内容反过头来又成了AI的学习资料,干扰了AI内容生成的准确性。

其次,保护知识产权也非常重要。AI生成内容可能会侵犯他人的版权、著作权等知识产权。检测行业可以帮助识别这些侵权行为,为原创者提供保护,促进创新和文化产业的健康发展。2024年4月11日北京互联网法院对全国首例“AI视听作品侵权案”正式立案,原告陈坤计划以《山海经》为创作蓝本,使用AI工具创作名为《山海奇镜》的大电影,并在 2024 年 1 月 4 日以个人账号在多个社交平台正式发布《山海奇镜》预告片,署名为导演陈坤。之后,原告发现抖音账户名为 “文刻创作” 的账号,未经许可完全复制使用了其预告片的文案、配音、音乐,通过AI工具对该作品的镜头逐一重绘并复现,整体视觉效果和画面局部细节特征等均与原告作品具有高度相似性和对应性,且发布时未标明作品来源,也没有保留原告的署名。原告认为被告严重侵犯了其享有的信息网络传播权、改编权、署名权等权利,构成侵权行为,要求被告立即停止侵权行为,赔偿经济损失并进行赔礼道歉、消除影响,请求判令被告赔偿原告经济损失及合理支出 50 万元。

再者,对于学术领域来说,防止利用AI进行学术造假才是当务之急。一些人可能利用AI生成工具来撰写论文、报告等学术作品,而不进行适当的引用和标注。检测行业可以确保学术研究的诚信和严谨性。2024 年 4 月,广东省水电医院的研究人员在开放获取期刊《medicine》上发表了一篇题为“Assessment of the Efficacy of Alkaline Water in Conjunction with Conventional Medication for the Treatment of Chronic Gouty Arthritis: A Randomized Controlled Study”的论文。7 月初,该论文中明显由AI生成的错误配图在社交媒体上引起关注,比如小腿和手臂上的骨骼数量明显错误,还存在无意义的标签,7 月 12 日,该篇论文被撤回。作者回应称使用AI是因为无力支付高昂插图费用和翻译费用。

二、需求的进一步增长

需求增长原因

1. AI技术的普及

随着科技的飞速发展,AI内容生成工具如雨后春笋般涌现,并且越来越容易获取和使用。

(1)工具多样性与易用性

如今市场上存在着各种各样的AI内容生成工具,涵盖文本生成、图像生成、音频生成等多个领域。例如,一些文本生成工具可以根据给定的主题快速生成高质量的文章;图像生成工具能够根据描述生成逼真的图像。这些工具操作简单,即使没有专业技术背景的人也能轻松上手,从而导致越来越多的人可以轻松地生成各种内容。

同时,很多AI生成工具还提供了丰富的模板和预设选项,进一步降低了使用门槛。用户只需进行简单的选择和输入,就可以快速获得所需的内容。

(2)广泛的应用场景

在商业领域,企业利用AI生成工具进行广告文案创作、产品描述生成等,提高营销效率。例如,电商平台可以使用AI生成产品介绍,吸引消费者购买。然而,这也带来了人们对这些生成内容真实性和原创性的担忧。同时,企业也需要确保其使用的内容既不会侵犯他人知识产权,也不会误导消费者,因此对检测的需求增加。

在教育领域,一些学生可能会尝试使用AI生成工具来完成作业和论文。为了维护学术诚信,教育机构需要有效的检测手段来识别这些由AI生成的内容,防止学术不端行为。

在新闻媒体行业,虽然AI生成的新闻可以提高新闻生产的效率,但也可能存在虚假信息的风险。新闻机构需要对其发布的内容进行严格检测,以保证新闻的真实性和可信度。

(3)生成内容的数量增长

由于AI生成工具的普及,导致由AI生成的内容数量呈爆炸式增长。大量的文本、图像、音频等内容涌入网络空间,这使得人工审核变得几乎不可能。而AI生成内容检测技术可以快速、高效地处理大量内容,满足了对大规模内容审核的需求。

2. 信息安全意识的提高

公众对虚假信息的警惕性不断提高,对可靠信息的需求也越来越强烈。AI生成内容检测行业可以满足这一需求,为人们塑造放心的信息环境。

(1)对虚假信息的危害认知加深

公众在经历了多次虚假信息事件后,对虚假信息的警惕性不断提高。虚假信息可能导致人们做出错误的决策,造成经济损失、健康风险甚至社会动荡。例如,虚假的医疗信息可能误导患者选择错误的治疗方法;虚假的金融信息可能导致投资者遭受重大损失。公众越来越意识到可靠信息的重要性,对虚假信息的容忍度不断降低。

随着社交媒体的广泛应用,虚假信息的传播速度更快、范围更广。一条虚假信息可能在短时间内被大量转发和传播,影响更多的人。公众希望有可靠的手段来辨别信息的真伪,为他们提供放心的信息环境。

(2)对个人隐私和数据安全的关注

AI生成内容可能涉及到个人隐私和数据安全问题。例如,一些图像生成工具可能会使用用户上传的照片进行训练,如果这些照片未经授权被使用或泄露,将对用户的隐私造成严重侵犯。公众对个人隐私和数据安全的关注促使他们要求对AI生成内容进行严格检测,确保不会出现隐私泄露和数据滥用的情况。

企业也越来越重视客户数据的安全和隐私保护。如果企业使用的AI生成内容存在数据安全隐患,可能会导致客户信任的丧失和法律责任。因此,企业需要对AI生成内容进行检测,以确保符合数据安全及隐私保护的要求。

3. 法律法规的要求

各国政府逐渐加强对网络内容的监管,要求企业和机构对其发布的内容负责。这促使他们寻求专业的检测服务,以确保内容合规。

(1)网络内容监管加强

各国政府已经认识到网络内容的重要性和影响力,纷纷加强对网络内容的监管。政府要求网络平台和内容提供商对其发布的内容负责,确保内容符合法律法规和社会道德规范。例如,一些国家制定了严格的网络安全法和数据保护法,对网络内容的合法性、真实性和安全性提出了明确要求。政府监管机构也加大了对网络内容的审查力度,对违法违规内容“零容忍”,进行严厉打击。网络平台和企业为了避免法律风险,需要加强对其发布内容的审核与管理,这就促使他们寻求专业的AI生成内容检测服务。

(2)知识产权保护力度加大

随着知识产权意识的提高,各国政府加强了对知识产权的保护力度。AI生成内容可能涉及到版权、著作权、商标权等知识产权问题。例如,AI生成的图像可能侵犯他人的版权;AI生成的文本可能涉及抄袭他人作品。政府要求企业和个人尊重知识产权,对侵权行为同样进行严厉打击。企业希望能够避免因侵权行为而引起法律诉讼以及可能带来的经济损失。他们需要对使用的AI生成内容进行检测,确保不侵犯他人的知识产权。同时,企业也希望通过检测来保护自己的知识产权,防止他人盗用其品牌、商标等。

三、技术难度

AI生成内容检测在技术方面确实面临着很多难度不小的挑战,但是有困难就会有解决方案。总的来说,AI生成内容和AI生成内容检测更像是一种近似运动会中的兴奋剂与反兴奋剂检测的对抗。

1. 特征相似性导致的混淆

AI生成的内容在语言风格、语法结构等方面可能与人类创作的内容非常相似,使得难以通过简单的特征来区分。例如,一些高级的语言模型生成的文本逻辑连贯、语句通顺,与人类写作的差异极小。

应对方法:

  1. 深入分析特征:除了传统的语言特征,如词汇、语法等,还需挖掘更深入的特征。例如,分析文本的语义连贯性、上下文逻辑的合理性等。通过构建复杂的语义理解模型,来判断内容是否真正符合人类的思维模式和表达习惯。
  2. 利用多模态信息:结合文本之外的信息,如图像、音频等。如果是检测包含多种模态的内容,如带有配图的文章或视频,可以分析图像与文本之间的关联程度,判断其是否符合人类创作中自然的搭配方式。

2. 对抗性干扰与规避检测

一些人会故意采用对抗性手段来干扰检测,比如对AI生成的内容进行轻微的修改,如词汇替换、句子改写等,使其能够规避检测系统的识别。

应对方法:

  1. 持续更新检测算法:不断研究和改进检测算法,使其能够应对各种新出现的对抗性干扰手段。建立实时更新的机制,及时根据新的规避方法来调整检测策略。
  2. 采用多种检测方法相结合:综合运用多种不同原理的检测方法,如基于深度学习的方法、基于自然语言处理的方法、基于统计特征的方法等。不同方法对不同类型的干扰具有不同的敏感度,结合使用可以提高检测的准确性和稳定性。
  3. 加强对AI生成模式的研究:深入了解AI生成内容的常见模式和规律,以便更准确地识别出经过伪装或干扰的内容。例如,分析AI在生成文本时对某些词汇或句式的偏好性,即使经过修改,也能发现潜在的痕迹。

3. 训练数据的局限性

用于训练检测模型的数据集可能存在不完整、不具有代表性等问题。如果训练数据集中没有涵盖足够多样化的AI生成内容风格和类型,或者没有包含各种可能的干扰情况,那么检测模型的性能就会受到限制。

应对方法:

  1. 扩充和优化训练数据集:不断收集更多、更广泛的AI生成内容样本,包括不同语言模型、不同主题、不同风格的生成内容。同时,确保数据集中包含各种可能的变体和干扰情况,以提高模型的泛化能力。
  2. 采用迁移学习等技术:利用在其他相关领域或任务上训练得到的模型和知识,迁移到AI生成内容检测任务中。这样可以借助已有的学习成果,减少对特定数据集的过度依赖,提高模型在有限数据下的性能。
  3. 进行数据增强:通过对现有训练数据进行变换和扩充,如随机添加噪声、改变文本的语序、替换部分词汇等,来模拟各种可能出现的情况,从而增强模型对不同数据变化的适应性。

4. 跨语言和多模态检测的复杂性

AI生成内容可能涉及多种语言以及包含文本、图像、音频、视频等多种模态的组合。每种语言都有其独特的语法、词汇和表达习惯,而不同模态之间的信息融合和关联分析也非常复杂,增加了检测的难度。

应对方法:

  1. 发展多语言和多模态检测技术:研发专门针对多语言的检测模型,能够同时处理多种语言的文本,并考虑到不同语言之间的差异和联系。对于多模态内容,建立有效的融合机制,将不同模态的特征进行整合,共同用于检测判断。
  2. 利用跨模态的相关性:挖掘不同模态之间的内在相关性,例如文本与图像内容的对应关系、音频与视频节奏的匹配等。通过这种跨模态的关联信息来辅助检测,提高对复杂多模态内容的识别能力。
  3. 与专业领域知识结合:针对特定领域的AI生成内容,引入该领域的专业知识和术语库。例如在医学领域,检测模型需要了解医学专业词汇、疾病特征等知识,以便更准确地判断相关内容的真实性和来源。

5. 实时性和效率要求

随着AI生成内容的数量不断增加,以及在一些对实时性要求较高的场景,如社交媒体、新闻发布等,需要快速地对大量内容进行检测,这对检测技术的效率和速度提出了很高的要求。

应对方法:

  1. 优化算法和模型架构:采用更高效的算法和优化的模型架构,减少计算复杂度和处理时间。例如,使用并行计算、分布式计算等技术,加快检测过程。
  2. 硬件加速:利用专门的硬件设备,如 GPU、TPU 等,来加速检测算法的执行。这些硬件设备在处理大规模数据和复杂计算时具有显著的优势,可以大大提高检测的效率。
  3. 建立快速筛选机制:在进行全面检测之前,先通过一些简单快速的筛选方法,如基于关键词、文本长度、格式等特征的初步筛选,排除明显不是AI生成的内容,从而减少需要进行深度检测的样本数量,提高整体检测效率。

四、产品用户定位与推广策略

目标用户群体:

  • 新闻媒体机构:需要检测新闻稿件是否由AI生成,以保证新闻的真实性和可信度。
  • 教育机构:防止学生使用AI生成的作业和论文,维护学术诚信。
  • 企业:确保广告宣传、市场调研等内容不是由AI生成的虚假信息,同时避免侵权,以此保护企业品牌形象。
  • 政府部门:监管网络空间,防止不良AI生成内容的传播,维护社会稳定。

除了常规产品推广的3S(SEO+SEM+SNS),针对不同的目标用户群体,AI生成内容检测产品可以采取以下推广策略:

新闻媒体机构

  • 与知名新闻媒体合作,进行产品试用和案例推广。展示检测产品在识别虚假新闻方面的有效性,树立行业标杆。
  • 参加新闻行业的研讨会和展会,介绍检测产品的功能和优势,与媒体机构建立合作关系。
  • 提供专业的咨询服务,帮助媒体机构制定内容审核策略,提高对AI生成内容的防范能力。

教育机构

  • 与学校合作,开展宣传活动,向教师和学生介绍检测产品的作用和使用方法。
  • 提供免费的试用版,让学校体验检测产品的功能,提高产品的认可度。
  • 举办学术诚信讲座,强调使用AI生成内容的风险,提高学生的自律意识。

企业

  • 针对企业的特定需求,提供定制化的检测解决方案。例如,为广告公司检测广告文案是否由AI生成,为市场调研公司检测报告的真实性。
  • 通过企业培训和研讨会,向企业管理层和员工介绍检测产品的价值,提高企业对内容质量的重视程度。
  • 与企业管理软件提供商合作,将检测产品集成到企业的管理系统中,提高使用的便捷性。

政府部门

  • 积极参与政府组织的网络安全项目,展示检测产品的技术实力和可靠性。
  • 与政府部门合作,开展网络安全宣传活动,提高公众对AI生成内容的警惕性。
  • 提供技术支持和服务,帮助政府部门加强对网络空间的监管,维护社会稳定。

五、产品变现方式

常规的软件销售

l向企业和机构销售检测软件,收取一次性购买费用或订阅费用。

l提供不同版本的软件,满足不同用户的需求和预算。例如,针对小型企业推出基础版,针对大型企业推出高级版。

定制化服务收费

l为用户提供检测服务,按检测内容的数量或时间收费。

l提供定制化的检测服务,收取额外的费用。例如,为重要的新闻事件或学术会议提供专项检测服务。

行业数据调研或报告销售

l在保证用户隐私的前提下,将检测过程中积累的数据进行分析和整理,销售给相关企业和机构,用于市场调研、用户行为分析等。

l建立数据合作平台,与其他企业和机构进行数据交换和共享,实现互利共赢。

建立合作机制

l与新闻媒体机构、教育机构等合作,通过分成的方式获得收益。例如,根据检测出的虚假新闻数量或为教育机构节省的审核成本进行分成。

l与广告公司、市场调研公司等合作,将检测产品与他们的服务相结合,共同开拓市场,实现合作分成。

六、总结

AI生成内容检测行业在当前的信息时代具有重要的意义和广阔的发展前景。随着AI技术的不断发展和应用,检测行业也需要不断创新和进步,以满足各种不同用户的需求,为社会提供更加可靠的信息环境。通过合理的推广策略和多样化的变现方式,检测企业可以在市场竞争中脱颖而出,实现可持续发展。

看到最后,你觉得这篇文章是AI生成的么?

调研|金融行业垂类大模型的应用现状

aigc阅读(69)

当前,国内互联网企业、传统金融机构及金融科技企业争相竞逐,“百模大战”如火如荼,AI与金融的结合也日益深化。从通用大模型向金融产业大模型的转变,逐步改变着传统金融行业的运作模式和业务流程。国内外金融大模型如轩辕、貔貅、支付宝的AntFinGML、腾讯云金融大模型等等逐步在推进使用中。

01 发展背景

1. 通用模型难以提供深度服务

随着AI技术的不断升级的,AIGC技术的实践效用迎来了行业级大爆发。在内部模型自身迭代和多技术协同的作用下,出现了集图像识别、语义理解、视觉感知于一体的多模态体系。然而,由于行业深度信息的缺失,通用大模型在特定领域很难提供高价值、专业化的服务。

2. 行业需求与模型能力契合

金融行业属于数据、信息密集型产业,对于多渠道信息汇总与数据处理能力有较高要求;同时,行业要求从业人员专业知识储备与经验,来完成对金融业务的判断、咨询服务、报告产出等工作。

而相对应的,大模型恰好有很强复杂信息处理能力,以及基于原始数据和经验给出相应解决方案方面的能力。

02 金融垂类大模型行业现状

1. 市场前景

据智研瞻统计显示,2019年中国金融大模型行业市场规模250.49亿元,2024年Q1中国金融大模型行业市场规模90.82亿元,同比增长7.10%。2019-2024Q1年中国金融大模型行业市场规模如下:

根据毕马威中国发布的《2024中国金融科技企业首席洞察报告》的揭露,70%的受访企业认为新质生产力能提升金融科技企业自主创新能力,并带来新机遇。同时,91%的受访企业看好大模型金融应用前景。

2.金融大模型分类

从服务细分领域、应用场景、开源状态,对金融大模型进行分类:

3. 主要参与主体

在金融大模型的应用方面,传统金融机构、金融科技公司和互联网金融公司各有优势,故提供的服务也有所差异。

传统金融机构

其主要优势是:丰富的行业经验与专业知识,有助于将生成式AI应用于复杂的金融决策和客户服务中;成熟的合规框架,能够确保AI应用符合行业法规和标准。丰富的客户数据,为生成式AI提供了训练和优化的基础,支持个性化推荐和服务。强大的资金支持,可以投资于AI技术的研发和基础设施建设;强大的品牌信誉,使客户对传统金融机构的信任度较高,增强了新服务的接受度。

金融科技公司

金融科技(FinTech)公司领域主要服务于企业客户(B端),主要提供如在线支付处理、借贷平台、财务管理软件、企业保险解决方案、区块链技术应用和数据分析服务等,其核心职能是为金融机构提供广泛的技术支持和解决方案。

其主要优势是:

  • 良好的技术基础,许多金融科技公司在技术基础设施上已具备一定优势,能够快速集成和部署生成式AI模型,提升现有服务;
  • 专业化解决方案,结合生成式AI,利用各种低代码模版,来快速提供定制化的支付、融资和风险管理解决方案;
  • 更高效的集成能力,它们通常具备强大的API接口,在结合大模型方面,可快速便捷与企业现有系统快速集成,实现无缝对接。

互联网金融公司

互联网金融公司指针对面向零售投资者(C端)市场提供的金融服务,如智能投资顾问、市场情况预测、个性化财务规划、个人投资组合风险评估、金融知识教育培训等。

其主要优势是:

  • 快速响应市场需求,通过生成式AI实时分析数据,快速推出符合用户需求的新产品和服务。
  • 重视用户体验,较重视用户界面和交互设计上,结合大语言模型,能够提供更流畅的用户体验,简化用户注册、投资和咨询的过程。
  • 高度的个性化服务,结合用户行为数据和生成式AI,能够提供高度个性化的投资建议和财务规划。
  • 更广泛的数据整合,相对于传统金融机构,能整合来自多种渠道的数据,提供全面的用户画像,支持更精准的服务。

03 金融大模型典型案例

1. 基本技术架构

垂直类大模型是基于通用大模型进行二次的开发。先检索相关的知识,然后基于召回的知识进行回答,也就是基于检索增强的生成。一般要经过三个步骤:

(1)ContinuePreTraining:给模型注入领域知识,即用金融领域内的语料进行继续的预训练。一般为了保持模型的通用能力,还需要注入混杂的通用数据。(2)SFT:通过SFT可以激发大模型理解领域内各种问题并进行回答的能力(3)RLHF:通过RLHF可以让大模型的回答对齐人们的偏好,比如行文的风格。

2. 国外典型案例

国外金融市场更开放、发达,业务量和用户数较多,且金融服务要求更高。在NLP出现初期,很多公司就前仆后继地开发大模型或者开发AIagent。

BloombergGPT——闭源模型

BloombergGPT是彭博社于2023年推出的金融垂直领域大语言模型,是一个有500亿参数、基于BLOOM模型的LLM,该团队采取通用模型和特定领域模型混合分析的方式,直接从0训练一个的金融领域大模型。其主要优势有以下几点:

① 数据来源可靠。由于彭博社在几十年的金融业务中积累了大量的金融数据和文件,拥有先天的数据优势,数据来源可靠。

② 金融数据集来源丰富,token数量大。其在金融领域数据集共包含了3630亿个token,占总数据集token量的54.2%,具体由以下几个部分构成:

③ 模型应用表现好。团队分享了模型的三个定性示例:1)生成Bloomberg查询语言,BloombergGPT可以被用来通过将自然语言查询转换为有效的BQL,使BQL更易于访问。2)生成新闻标题。由于它在许多新闻文章上进行了训练,可以帮助生成新闻标题。3)金融问答。由于金融领域训练数据,智能问答覆盖面广

FinGPT——开源模型

FinGPT是AI4Finance基金会发起的一个专注于金融领域的大型语言模型,它致力于通过构建开放源码的金融大语言模型来推动金融科技(Fintech)的发展和创新。

① 基座模型:开源LLaMA或者ChatGLM,

② 数据集:新闻网站、社交媒体、公司公告、趋势(google或者baidu等搜索引擎)、其他公开数据集

③ 训练方法:LoRA和RLSP(根据股票价格的强化学习)

④ 模型框架

数据源层:通过整合新闻网站、社交媒体平台、财务报表、市场趋势等数据,确保全面的市场覆盖。

数据工程层:专注于NLP数据的实时处理,以应对金融数据固有的高时间敏感性和低信噪比的挑战。

LLMs层:整合各种微调方法,优先考虑轻量级自适应,以保持模型的更新和相关性。

应用层:提供金融任务的实践教程和演示应用程序,包括机器人咨询服务、量化交易和低代码开发。

⑤ 优势

国外首个金融行业垂直类开源大语言模型。主要给金融研究人员和从业者提供可访问和透明的资源,来开发自己的的FinLLM或潜在的应用程序。解决金融数据获取难、处理难的问题,旨在开源领域实现互联网规模的金融数据民主化。

基于GPT的各种金融模型和AIagent

(1)BondGPT:2023年6月全球金融科技领导者Broadridge的子公司LTX,通过GPT-4打造了BondGPT,该模型主要用于债券市场,帮助客户回答各种与债券相关的问题。帮助金融机构、对冲基金等简化债券投资流程并提供投资组合建议。比如输入问题:我有100万美元资金,想投资5年,有哪些高收益的债券选择?BondGPT会回答符合需求的公司名字、利率、价格、发布日期、到期日期、债券评级等信息。

(2)PortfolioPilot:由SEC注册投资顾问机构——GlobalPredictions于2022年11月推出,为投资者提供全球投资组合管理、投资顾问、AI助理等服务,是美国的智能投顾平台。目前PortfolioPilot已积累逾3万名用户,为约200亿美元资产提供AI大模型+智能投顾服务。

其核心模块:追踪模块能借助大模型技术,为用户呈现投资组合管理的可视化工具,包括大类资产配置结构、资产相关性矩阵等;提升模块能基于AI大模型所生成的全球经济洞察观点,对用户投资组合进行评分分析,找出用户投资组合薄弱之处并提供个性化的改善建议;探索模块主要包括新闻、研究、预测三大功能,汇总关键新闻帮助投资者及时了解行业信息。

3. 国内典型案例

国内金融市场发展较晚,且开放性不足,另外NLP发展速度也稍落后于国外。但由于国内市场需求大,金融机构数量多,2023年间金融垂类大模型蓬勃发展。

轩辕-开源

轩辕是度小满的大模型团队,在2023年基于BLOOM-176B架构,针对中文通用领域和金融领域进行针对性预训练和微调的千亿级对话大模型。目前,已实现开源的全参数模型矩阵达17个。在此基础上,今年9月份度小满在始智AIwisemodel社区重磅开源发布第三代大模型「轩辕3.0」,包括对话模型和预训练模型。「轩辕3.0」在金融场景中的任务评测中表现突出,并且在金融事件解读、金融业务分析、投研应用能力和风险管理等测量维度上超越GPT4o。

其数据集采用度小满实际业务场景积累的金融数据,对金融相关问题的理解比通用大模型更有优势。因此在模型评估方面,在金融场景中的任务评测中,轩辕全面超越了市场上的主流开源大模型,赢得了150次回答中63.33%的胜率,充分凸显了其在金融领域的显著优势。在通用能力评测中,轩辕有10.2%的任务表现超越ChatGPT3.5,61.22%的任务表现与之持平,涉及数学计算、场景写作、逻辑推理、文本摘要等13个主要维度。2023年在中文任务评测C-Eval和CMMLU榜单中名列开源首位。

HithinkGPTvs妙想金融

作为国内toC金融公司的佼佼者,同花顺和东方财富公司在金融大模型方面的竞争也不相上下,在2024年1月,相继推出HithinkGPT和妙想金融大模型。目前同花顺问财已经开始启用,妙想app还处于内测阶段。下面从技术方面和用户体验方面进行简单对比:

1-技术方面:从技术架构、token数、落地方式等角度,比较两个模型。

2-用户体验方面:由于妙想内测审核暂未通过,故只初步体验了HithinkGPT问财,后续看机会再更新两者的对比。

优势:

  • 市场覆盖广:涉及多个金融市场,如A股、港股、美股、基金、债券等等
  • 功能丰富:支持查询、分析、对比、解读、建议多等等,包含在选股票、诊股票、看行情、看新闻等股民常用功能方面表现较好。
  • 回答内容丰富:通过动态折线图、动态双柱图、K线图等图表增强可视化能力,还有多种投资数据。

不足:

  • 整体界面:HithinkGPT是基于问财上直接套用,对比传统引擎,用户体验还未跟上
  • 分析较浅显:分析的深度还不太够,无法取代专业投顾。
  • 偏向于技术分析:在回答个股的问题时,两个模型均注重于估值、技术、资金流向,对基本面内容的回答较少。
  • 回答准确率偏低:针对用户的提问,偶尔出现答非所问的情况,联系上下文的能力不强。有些问题的逻辑框架不顺畅。

总体来说,目前问财已经进入商业化收费阶段,虽然在投顾方面有了一定的帮助,但是吸引用户去购买更深层次服务的吸引力不够,还需更加努力。特别是在竞争对手也逐步进入商业化阶段的背景下,要积极重视提高模型准确率、内容丰富度和用户体验等方面。

04 金融模型落地挑战

  1. AI模型的幻觉问题。由于数据质量问题、训练方式问题、缺乏外部知识校验等原因,可能导致大模型易生成与事实不符的内容,在金融这样对精度要求较高的领域,这种错误可能带来严重后果。
  2. 成本问题。金融大模型需要进行大量数据的训练和长时间的实验,因此开发大模型需要长期战略发展规划,需要投入高性能设备、庞大的算力资源(CPU、GPU)、电力资源、长期的无回报资金以及专业的技术人员支持等,这使得该技术在开发阶段就存在很高的准入门槛。
  3. 安全合规要求高,数据泄漏、数据隐私问题。金融行业有很多数据的安全管理规范、技术标准,但在大模型时代,他们在模型训练、推理中到底起到了什么作用,哪些数据要进行脱敏化处理,需要结合大模型的应用场景和用户需求形成行业最佳实践。如何在保证安全的同时利用数据训练模型,是行业要面对的挑战,数据泄露的风险比行业深度信息缺失还要严重。

相关资源来源

  1. BloombergGPT:ALargeLanguageModelforFinance——ShijieWu1,∗,Ozan˙Irsoy1,∗,StevenLu1,∗,VadimDabravolski1,MarkDredze1,3,SebastianGehrmann1,PrabhanjanKambadur1,DavidRosenberg2,GideonMann1
  2. FinGPT:Open-SourceFinancialLargeLanguageModels——HongyangYang,Xiao-YangLiu,ChristinaDanWang
  3. XuanYuan2.0:ALargeChineseFinancialChatModelwithHundredsofBillionsParameters——XuanyuZhang,QingYangandDongliangXu
  4. 《2024年中国金融大模型产业发展洞察报告》——艾瑞咨询
  5. 《2024中国金融科技企业首席洞察报告》——毕马威
  6. 智研瞻产业研究院报告

AI 投流卷哭创业者

aigc阅读(48)

OpenAI 的创始人 Sam Altman 认为,AI 时代将会创造出一种全新的创业公司,即一个人也能做成一家十亿美金的独角兽公司。

现在,这个时代还没有真正到来,AI 创业者们先被高额的投流成本挡在了门外。

用 AI 创业者赵天的话说,“2023 年,大家在聊技术,聊产品,聊场景,到了 2024 年,就两件事:增长、赚钱。”

赵天原本在国内大厂工作,去年开始创业,产品与 AI 图片生成有关。前期创业顺利,他顺利完成了 A 轮融资。从去年 10 月份开始,他在 B 站、小红书、抖音做了一些曝光类型的推广投放,转化效果可观,算下来 CPM(Cost Per Mille,每千次展示成本)在五元左右。

“我不敢说是我们产品做得好,但在 2023 年,用户对 AI 工具充满着好奇,愿意尝鲜,只要曝光到合适的人面前,就大概率能完成转化。”赵天说。

不过,随着月之暗面高调入场,这场原本以小博大的游戏,门槛忽然变得高不可攀起来。独角兽公司和互联网大厂的产品吸纳走了多数的流量和注意力,并把投流价格拉到了前所未有的昂贵,普通创业者要么咬牙跟上,要么提前离场。

他们因为焦虑而投流,投流又反过来助长了焦虑。没有人知道,广告竞价系统里的每个计划和每次确认,究竟是让自己活得更久,还是离死亡更近。

01|“拼多多之后没见过这么大方的金主”

Kimi 是妙鸭相机之后,最出圈的 AI 产品,而且与大多数昙花一现的“网红产品”不同,Kimi 在发布之后始终保持着很高的热度。

今年三月份,月之暗面旗下 Kimi 的月访问量超过百度文心一言,成为 ChatBot 赛道的月活和访问量榜首。半年时间过去,这种领先态势没有发生变化,据 AI 产品榜 aicpb.com 8 月数据显示,Kimi 的月访问量达到 2336 万,仍然领先文心一言的 1916 万,而与月之暗面同为大模型明星创业公司的 Minimax,旗下的海螺 AI 只有 51.39 万的访问量。

自然而然,Kimi 的投流和用户裂变的能力也成了各家 AI 公司研究的对象。

业内几乎公认月之暗面是广告投放最激进的大模型创业公司。根据 AppGrowning 相关数据显示,今年三月份, Kimi 广告投放为 1500 万元,七八月份则均接近 5000 万元,六个月里总投入达到 1.4 亿元。

月之暗面官网截图

B 站成了月之暗面的“主场”。有 UP 主对《山上》表示,他每个月大概只能接两个商单,连续两个月的商单都给了月之暗面。据他所知,不仅是科技区,职场、知识等领域也都等来了月之暗面撒的金币,“拼多多之后没见过这么大方的金主。”

除了内容合作,Kimi 也频繁直接投放信息流广告。有媒体引述多名从业者说法称,Kimi 在 B 站的 CPA(Cost Per Action,用户转化人均成本)报价,高达 30 元左右,而在今年年初,这一价格大约在 10 元左右。

月之暗面投流凶猛,其他公司也在迅速跟上。B 站上,豆包购买了竞对词条,搜索 Kimi 反而会出现豆包的投放;小红书上,有不少人在教你用腾讯元宝规划旅游行程;先前被看做小众渠道的播客,也有越来越多人听到 AI 工具的投放。

广告战从线上延续到线下。北京的地铁站中已经有了智谱清言的广告;白领出没的上海陆家嘴,Minimax 开始在电梯间投放广告;豆包也如同飞书一样,开始在机场告诉大家如何“用 AI 驱动业务增长”。

各家公司也主动拥抱这些人工智能“金主”。在 2024 年二季度财报会上,B 站 CEO 陈睿会主动提及,B 站有着高质量的人工智能内容;小红书也在今年加大了人工智能内容的运营,一些普通的运营活动会获得公司产品、技术高管的直接站台支持;分众传媒也开始加大对于 AI 公司的销售力度,最终说服了一些独角兽公司投放了电梯广告。

百家投流,流量也水涨船高。根据 Similarweb 统计,AI 五小龙(智谱 AI、MiniMax、百川智能、零一万物、月之暗面)产品的总访问量,在 6 个月内暴涨了 963%。

02|知道规律是一回事,复制下一个 Kimi 是另一回事

周先在一家二次元相关的 AI 创业公司负责产品运营。过去,她的工作主要是参与产品规划设计、扩展合作伙伴和渠道等,到了今年,她的工作几乎只剩下一样:做投放,拉增长。

“几乎每次例会,首先都要说一下 Kimi 最近的投放是怎样的,之后再说一下我们自己的投流增长。”周先说,“增长成了公司最重要的事情。”

周先说,这其中的增长规律并不难总结,说穿了就是大量投放,以最简单粗暴的方式,迅速占领用户心智,进而实现下载和转化。

不过,知道规律是一回事,复制下一个 Kimi 则是另一回事。

Kimi 采用的投流模式为 CPA (用户转化成本,Cost Per Action),也就是用户完成相应动作——往往是注册或者下载,那么月之暗面便需要支付费用。这是能够直接拉动增长的投流策略,简单粗暴。

投流报价类似于拍卖,倘若别人报价太高,那么报价低的人获得流量就会减少。资金雄厚的互联网大厂和大模型独角兽,将投流成本拉高,普通创业者公司难以跟进。

赵天说,像他这样的创业者,没有任何办法承受 30 元的 CPA 成本。他算了一笔账,现在 AI 早期公司拿钱,往往也就是三百万到五百万,“我们不说别的,这钱全拿出去,投了广告,最多有 20 万用户,这还不保证留存。”

至于抖音也已经成了“AI 禁地”。周先说,除了字节跳动自家的豆包或者有投资合作关系的 AI 产品之外,流量都会受到限制,要么内容有“违规”,要么投流消耗缓慢——这意味着你的内容不太有人看。

豆包在抖音投放的广告

投流费用提高,AI 新奇感减弱,AI 公司的获客成本也不断增加。有从业者说,Kimi 现在获客的总成本大约在 15 到 20 元之间。根据新浪科技此前估算,Kimi 每天的获客成本便达到 20 万元。这意味着不但月之暗面要付出越发高昂的增长费用,其他 AI 公司也不得不卷入这场广告竞价,被迫提高投流成本,这让很多创业者望而却步。

03|难以持续的投流大战

战争进入到白热化,最先发起冲锋的独角兽和互联网大厂们,也开始对越发高昂的获客成本焦虑起来。

Kimi 是月之暗面唯一的产品,创始人杨植麟也在多个场合说,目前他们没有下一款产品,要把 Kimi 逐步变成“超级应用”。

在移动互联网时代,做一款“超级应用”是很多创业者的终极梦想,最终也诞生了微信、抖音、美团等在各自领域无所不包并有能力扩展到其他领域的应用,公司也以此为基础成为新时代的巨头。

要成为超级应用,离不开两个基础标准,首先是使用人数要足够多,用得也要足够频繁,其次是这些用户不会轻易迁移到其他平台,也就是建立起足够高的护城河。

表面看来,投流要解决的是使用人数问题。不过,DAU 等用户指标的提升,并不能充分增强平台的竞争力。

月之暗面的一位产品经理“松鹅”在社交平台即刻上发文称,DAU 高不一定会碾压其他竞争对手,“AI 提供的是智能的价值,不会直接提供信息交换的价值。在现在的大多数的产品设计下,并没有多边的网络效应,DAU 的增长不会给产品带来指数级的价值提升。”

不过,尽管人数的增长或许不能为 Kimi 们带来规模效应,但却能帮助 Kimi 们在更加自然的环境下获得数据和反馈,进而提升产品体验。

杨植麟将 Kimi 定位为“超级助理”,他说:“我觉得在 AI 时代,大概率超级应用就会是一个助理,我觉得对智能的需求是非常普适的需求,只不过今天能力还是处于初级阶段。”

训练成为“超级助理”的重要一步是足够多的数据。杨植麟认为,数据不应该是固定数据集,而应该是一个“变量”,“怎么去使用数据,或者说获得用户的反馈,其实会越来越多成为这里面很重要的东西。”

以这样的思路,获取足够的用户也是建立数据护城河的方式。然而,对于一家商业公司,任何策略都要衡量 ROI。根据 aicpb 的统计,最近三个月里,用户平均使用 Kimi 的天数为四天,平均使用时长不超过两分钟。这样的互动情况,很难说能带来多大的数据反馈。

各家公司也纷纷开始降低投流成本。36 氪报道称,Kimi 高昂的营销成本已经让部分股东感到不可持续。月之暗面里的一名员工表示,今年四季度,公司会设法降低投流成本,加大视频号、微博、知乎等新渠道的投放力度。

在这些平台上,Kimi 的相关素材更加“接地气”,标题往往类似“用了 Kimi 就能提前下班了”“用 Kimi 十秒钟搞定 Excel”“用 Kimi 成为月入十万的自媒体博主”等,这些素材有些来自素材服务商,也有为数不少是 Kimi 市场增长部门自己制作,一些员工也会亲自出镜。

很难说这些素材能吸引到多少真正有价值的用户。当用户被这些夸大的标题吸引进来,真正使用后却发现 AI 无法让他们一劳永逸。不少关注前沿科技的中小企业的老板体验一番,最后发现,还是人工比 AI 更方便,也更便宜。

有投资人预测,烧钱大战可能在半年里结束,那时候独角兽企业可能也没太多钱可以继续投入,大公司也需要考核 ROI,大家才会逐渐趋于理性,更注重商业化、更注重那些愿意付费的用户。

04|寻找其他出路

赵天说自己现在陷入了两难的境地。倘若不继续投流,那么很难持续获得增长,也就很难拿到下一轮融资;但继续投流,可能只会让自己更快耗光资金。

金沙江创投创始人朱啸虎对于 AI 的 C 端产品始终抱着怀疑态度,更坚决反对“烧钱买用户”,在一次采访里,他说:“今天烧钱买用户是很难的,以前都是一年可以融个三轮,现在可能不容易了,完全不一样的融资环境就必须不能烧钱。”

2024 年开始,各家投资机构都收紧了对于 AI 创业公司的投入。一位投资人对《山上》表示,那些付费转化更加明确的产品,尤其是 B 端产品,还有可能拿到一些钱,C 端产品在现阶段几乎没有可能拿到 A 轮以上融资,至于新的大模型公司,“资格赛结束了,淘汰赛提前开始”。朱啸虎更是直言不讳,认为现在的大模型独角兽,唯一出路是卖给大公司。

赵天这样的创业者并非意识不到局面的残酷,也并非不愿意去寻找更有付费前景的创业机会。不过,当他们投身到 AI 创业时候,不论创业者还是资本都更有耐心,愿意等待市场成熟,愿意做一款小而美的产品,也愿意容忍暂时的亏损。

短短一年时间,当赵天再去谈融资时候,大家却告诉他,要么有了足够的用户规模来验证市场可行性,要么能马上证明自己的商业化前景。证明商业化前景,意味着几乎要从头再做一个项目。摆在赵天面前的,只可能是投流获客这么一条路了。

更多大公司也意识到,在技术和产品难以拉开差距的时候,很难留住投流带来的用户。豆包占据抖音优势,可以用更低成本来“占领用户心智”,如今他们的工作重点已经转向销售而非营销,开始为 B 端客户定制技术方案。

阿里通义也只和更精准的渠道合作,一位阿里内部人士向《山上》表示,他们觉得 AI 应该更像云服务,所以要面向“生产者”做投放,而不能只是一个娱乐应用。

赵天说,在现在的环境里,想做一个“小而美”的 AI 应用太难了。他打算把接下来的重心放到海外,那里营销性价比更高,谷歌、推特上的获客成本大约只有国内的一半,而且大家也更接受一个小产品,而非一定要做到高用户量才能获得融资。

对错过 AI 的恐慌笼罩在每一个人身上。很多人不知道为何去做这件事,但倘若不做,就可能无法留在牌桌。或许不论创业者,还是投资者,都需要更多一些耐心,毕竟 AI 还是个孩子,成长所需要的技术、产品、人才和市场都需要时间,难以强行催熟。

“其实 AI 卖的是服务,那么你只要服务好一部分人,就能活下去。在国内找到这部分人的成本太高了,国外就要好很多。”赵天说,“那里也没有人催着你很短时间达到百倍的规模。”

(赵天、周先均为化名。)

全网最全 OpenAI o1 万字综述:创新、原理和团队

aigc阅读(43)

60s速读

  • 简介:o1是OpenAI 9月12日发布的针对复杂推理问题的全新大模型,也就是Sam一直说的“草莓”。该模型在回答问题之前能够进行更长时间的“思考”,且思考时间越长,推理质量越高。
  • 原理:基于强化学习的内化思维链学习,通过思维链式的问题拆解,模型可以不断验证和纠错。
  • 表现:o1模型在编程、数学、物理和化学博士级问题等任务上提升显著,但在写作等任务上表现不如GPT4o。
  • 构成:o1系列包括o1、o1-preview和o1-mini。o1暂未公开,o1-preiview 付费用户和API用户已经可以使用。o1-mini 速度更快、性价比更高。
  • 影响:新的Scaling Laws已经出现。
  • Ilya 一句话概括强化学习:让 AI 用随机的路径尝试新的任务,如果效果超预期,那就更新神经网络的权重,使得 AI 记住多使用这个成功的事件,再开始下一次的尝试。
  • Self-play:本质是利用 AI 无限的计算能力来补足它数据利用效率不够的短板。
  • Critic Model:通过将推理过程进行过程分解,并且利用额外的更强更专项的Critic Model,可以将推理过程的监督扩展到更复杂的问题上。
  • 技术路线猜想:1. MCTS搜索;2. PRM仅在答案不可接受时进行MCTS搜索,或者用的是更节约的Beam Search;3. 迭代式的Bootstrap模型产生合理推理的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理,类似于STaR的扩展版本。
  • 逆向工程:由合成数据生成器、奖励函数、策略优化器等模块构成。
  • 相关论文:Let’s Verify Step by Step、STaR、rStar、Quiet-STaR。
  • 团队:o1 的21个 Foundational 贡献者呈现出了高学历、高包容性、多元化的特点:华人占比6/21,博士为主,但也有人有专科经历。
  • Github o1相关资料汇总:https://github.com/hijkzzz/Awesome-LLM-Strawberry

一、背景:OpenAI为什么现在发布新模型o1?

虽然OpenAI 2024年 年化营收预计将从前一年的20亿美元大幅增长至约35亿美元,但仍无法覆盖其90亿的推理、训练成本。

目前来说,OpenAI订阅的商业模式很难称得上是一个好的变现手段,更无法与广告这一互联网时代最佳商业模式相提并论。

(OpenAI营收变化趋势,来源:tooltester)

在营收构成上,C端用户订阅、企业用户、API和ChatGPT Team业务分别占营收的55%、21%、15%和8%。

(OpenAI营收构成,来源:tooltester)

据The Information测算,在一年亏损50亿美元的情况下,OpenAI的现金流可能在未来一年内耗尽。因此,继续融资成为了OpenAI必然的选择。据彭博社消息,OpenAI目前正在商谈以1500亿美元的估值融资65亿,这一估值远高于去年10月时的860亿美元。

除此之外,首席科学家Ilya等核心人才出走,流量增长放缓,Sora“期货”迟迟未兑现,GPT-5不停跳票,大语言模型预训练Scaling Law的边际效益递减,增长空间被质疑……在OpenAI发布o1模型之前,由ChatGPT发布引领的大模型革命陷入了前所未有的低谷。

与此同时,OpenAI的主要竞争对手之一Anthropic ,从落后于 OpenAI 18 个月,在o1发布前已经在模型层面追平,甚至有微弱的领先优势了。Anthropic 6月发布的 Claude-3.5-Sonnet ,支持写200行可靠的代码,远超4o的20 行。

如下图所示,OpenAI自2022年11月ChatGPT发布以来的流量增长已经几乎停滞。

(ChatGPT访问量变化趋势,来源:tooltester)

与此相对应的,一二级市场的AI热潮正在持续降温。

一级市场方面,VC资金对AI初创公司投资占比在持续上升,占比接近30%,但是在金额上已经回落到2020年的水平,降幅明显。

(VC对AI初创公司的投资金额和占比,来源:硅谷科技评论)

二级市场上,投资者的AI抱团追涨行情开始有了瓦解的迹象,以英伟达等公司为代表的美股AGIX指数从高点开始回落,几乎回到了半年前的水平。

(AGI指数,来源:海外独角兽)

在这样的背景下,通过全新的大模型o1给投资人“画饼”成为了OpenAI绝佳的选择。

二、现象:o1模型的超强推理能力

1. OpenAI的模型迭代史

作为OpenAI在2023年GPT4发布以来最重要的模型更新,o1在数学、代码等方面推理能力显著提升。

(OpenAI的主要大模型及其发布时间,来源:tooltester)

2. 数据:o1在STEM领域表现出色,特别是在数学和编程方面

2.1 数学方面,在2024年的AIME(一个旨在挑战美国最聪明高中生的考试)测评中,GPT-4o只解决了13%的问题,o1的得分是83%。

2.2 编码方面,GPT-4o在竞争性编程问题(Codeforces)上的得分是11%,o1 是89%。

2.3 在博士级别的科学问题(GPQA Diamond),GPT4o是56.1%,o1则超越人类博士69.7%,达到了恐怖的78%。

(o1与gpt4o的对比,来源:OpenAI官网)

2.4 在启用视觉感知功能时,多模态o1在MMMU上得分为78.2%,成为第一个与人类专家竞争的模型。在博士级别的科学问题上,特别是物理和化学领域,o1更是大幅领先人类博士。

2.5 在IOI(国际信息学奥林匹克竞赛)中在每题 50 次提交的条件下取得了第 49%/213分。在每题10,000次提交的情况下,该模型的得分达到了362,超过了金牌门槛。

(o1与gpt4o的对比,来源:OpenAI官网)

2.6 安全性

衡量安全性的一种方法是测试模型在用户试图绕过安全规则时(称为“越狱”)是否继续遵守这些规则。在最困难的越狱测试中,GPT-4o 得分为 22/100,而o1-preview 模型得分为 84/100。

2.7 不足

通用人工智能的核心是通用和泛化性,但o1在写作、文字编辑等一些简单的自然语言处理任 务上并没有显著提升,这意味着o1的适用范围有一定的局限性。

3. 创新:self-play RL+内化COT

作为首个通过大规模强化学习算法训练的模型,o1能够在回答之前深入思考问题。o1不再需要由用户输入复杂的COT提示词,而是通过强化学习的方式,将思维链内化之后进行持续训练。

通过思维链式的问题拆解,模型可以不断验证、纠错,尝试新的方法,这一过程显著提升了模型的推理能力。

o1的性能随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

(o1 性能随着训练时间和测试时间计算而平稳提升,来源:OpenAI官网)

通过强化学习+内化思维链的方式,o1不仅在量化的推理指标上有了显著提升,在定性的推理可解释性上也有了明显的改善。可信的思维链使模型变得可解释,让用户可以用简单的英语“读懂模型的思维。

内化的思维链为监控模型提供了独特的机会。假设它是忠实且清晰的,内化的思维链允许OpenAI“读取”模型的思考过程。未来OpenAI可能希望监控思维链是否有操控用户的迹象。为了实现这一目标,模型必须能够以未经修改的形式表达其思想,因此OpenAI不能在思维链上训练任何政策合规性或用户偏好。

4. 通俗的理解:系统1与系统2

可以这样理解,模型进行的是系统1思维,而思维链则解锁了系统2思维。

众所周知,通过提示模型“逐步思考”可以提升大模型的性能。而通过强化学习训练,逐步拆解问题并从头到尾持续试错,将会进一步大幅提升大模型的性能。正如我们之前在围棋方面的AlphGo以及其它游戏方面的算法模型上所看到的。

系统1与系统2来自诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考,快与慢》,其核心观点包括:

系统 1:快速、直观、自动的思维方式。

这种思维模式通常是无意识的,依赖于直觉和经验,能迅速做出反应。例如,看到一个熟悉的面孔时,我们几乎无需思考便能认出它。

系统 2:慢速、深思熟虑、逻辑性的思维方式。

这种思维模式需要有意识的努力和思考,用于解决复杂问题或做出深思熟虑的决策。例如,解决数学题或计划长期目标时,我们会调动系统 2 的思维。

(系统1与系统2的对比,来源:简书)

5. 案例

案例网上很多,这里只简单提下“草莓”这个最经典的案例。

草莓的梗最初是因为人们测试GPT系列的时候,发现了模型无法数对草莓这个单词里面的r的数量。而OpenAI的新模型可以通过self-play的方式提升模型Reasoning的能力,从而数对r的数量。于是这个名叫草莓的模型就开始在网上不断发酵,并在Sam各种有意无意的暗示中升温。

6. 业界关于o1模型的正负面观点

6.1 正面观点

Jason Wei,OpenAI研究员,COT作者:

“通过将复杂步骤分解为更简单的步骤、识别和纠正错误,以及尝试不同的方法,o1 的表现完全令人惊叹,游戏规则已经被彻底重新定义。”

杨植麟,Kimi创始人:

“规模定律之后,大模型发展的下一个范式是强化学习。对于通用智能AGI来讲,可能会有三个层面:最底层是规模化定律,这是第一个层次的创新机会,它被OpenAI发现,并且做到极致。第二个层次的创新机会,就是Scaling law框架下有一些问题没有解决,比如怎么把所有的模态用统一的表示放到同一个模型里面去?这是第二个层次的挑战。第三层次的问题,比如能够去做更长的上下文,能够有更强的 reasoning 或者 instruction-following 。

决定这一代AI技术的上限,核心是文本模型能力的上限,如果文本模型能持续提升智商,就能做越来越复杂的任务。AI产品的能力由模型能力的决定,这和互联网时代有本质不同,模型能力不强,产品体验就不会好。AI时代的超级应用,大概率会是一个AI助理。这一代AI最大的变量,还是在生产力端。现在社会里面每一单位的生产力可能都会有十倍提升的机会。”

肖仰华,复旦计算机科学技术学院教授、博导:

“o1模型的出现意味着大模型的推理能力完全能够达到专家级水平,算得上是人工智能里程碑式的进展,将给模型在企业端的应用带来极大的提升。但随着模型在知性、感性和理性三方面的能力均不断提升后,其将超越人类的能力,未来人工智能将对人类产生何种影响还很难预测,人工智能的发展速度现在超过了人类对其认知的速度,人工智能治理将是一个巨大挑战。

大规模强化学习算法教会模型如何在训练过程中有效使用其思维链进行思考,o1模型可以在回应用户之前产生一个很长的内部思维链。以前的大语言模型更像一个文科生,距离理科生的水平仍然较远。但人类智能的核心能力是思考和思维,OpenAI新推理模型o1系列将人的思维过程展现出来。

我们发现o1的表现超过了一些人类专家,成为第一个在这个基准上做到这一点的模型。这些结果并不意味着o1在所有方面都比博士更有能力,只是模型在解决博士需要解决的一些问题方面更熟练。人类目前对人工智能基本认知框架都有所欠缺,这是一个巨大的治理挑战,就业、经济、伦理、社会关系等话题将引起广泛讨论。”

6.2 负面观点

复旦NLP实验室:

“博士级”模型GPT-o1折戟中学数学“陷阱”问题,准确率仅为24.3%

我们的最新研究结果却给这个”AI天才”泼了一盆冷水——在面对中学数学水平的”陷阱”问题时,GPT-o1惨遭滑铁卢:在我们最新的中学陷阱问题测试集MathTrap_Public上,调用GPT-o1-preview官方API后生成的回答准确率仅为24.3% 。

我们在 GSM8K 和 MATH 数据集问题的基础上,加入了一些“陷阱”,构造了 MathTrap 数据集。这些改编后的题目很多时候没有定义明确的答案或者无解,只有能够同时理解原题和“陷阱”所涉及知识的模型,才能找出其中的矛盾点,发现“陷阱”所在。

因此,单靠“刷榜”来提高在 GSM8K 和 MATH 上的成绩,是没办法在 MathTrap 上取得好成绩的,因为这些模型缺乏质疑题目条件的能力。

相关研究:Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems

论文链接:https://arxiv.org/pdf/2405.06680

7. 如何使用

7.1 ChatGPT付费用户

ChatGPT Plus和Team用户从9月12日可以开始在ChatGPT中访问o1模型。o1-preview和o1-mini可以在模型选择器中手动选择,o1-preview的每周消息限制为50条,o1-mini 为每天50条。ChatGPT Enterprise 和 Edu 用户将在下周开始访问这两个模型。

符合 API 使用等级 5 的开发者可以立即开始在 API 中使用这两个模型,限制为每分钟 20 次请求。OpenAI还计划将 o1-mini 的访问权限扩展到所有 ChatGPT 免费用户。

详见https://openai.com/index/introducing-openai-o1-preview/

7.2 非ChatGPT付费用户

Cursor已经支持了最新的o1模型,没有ChatGPT会员权限的可以通过这个产品进行体验。

8. 影响和意义

8.1 对大模型行业的影响

新的Scaling Laws —— Post-Training Scaling Laws(后训练扩展定律)已经出现,并可能引发行业对于算力分配、后训练能力的重新思考。

o1 模型的发布,意味着 AI 能力的提升不再局限于预训练阶段,还可以通过在 Post-Training 阶段中提升 RL 训练的探索时间和增加模型推理思考时间来实现性能提升,即 Post-Training Scaling Laws。

数据飞轮 + Bootstrap -> SuperIntelligence : 基于自我反思的模型将能够实现自举 Bootstrap,并提升大大提升模型对于未见过的复杂问题的解决能力,模型的推理过程形成大量高质量数据的飞轮,并最终有可能向 SuperIntelligence 更进一步。

8.2 AI能力的等级跃迁

AI开始具备推理能力,且复杂问题的解决能力可以与人类相媲美,这意味着AI从仅能利用工具和规则的 Level 1 水平开始进化到了 Level 2 的阶段,并向第3阶段开始探索。

(5 Levels Of AI Agents,来源:cobusgreyling)

8.3 对从业人员的影响

1)AI产品经理的危与机

危:一方面,随着o1将思维链内化进模型,大幅降低了提示词工程的难度。这意味着AI产品经理未来大概率不再需要设计复杂的提示词,刚刚兴起1年多的“提示词工程师”岗位风雨飘摇,AI产品经理也同样将因此受到很大的冲击。

之前解决复杂问题,需要人写非常复杂的Prompt,而o1本质上是COT等复杂Prompt的自动化,所以之后是不需要用户自己构造复杂Prompt的。

机:另一方面,随着o1代码能力的大幅提升,代码编写的门槛得到了一定程度的降低,AI产品经理有机会设计、开发、上线一条龙完成,大大提升AI产品MVP迭代的效率。

2)工程

虽然AI取代工程开发还言之尚早,但大模型在短时间内的进步之大还是让人震惊,初级开发的门槛与AI越来越模糊。也许在不远的将来,英文就将成为最流行的编程语言。

而短期来说,工程开发的效率有望借助o1模型和Cursor等工具产品进一步提升。

3)算法

虽然强化学习算法在InstructGPT的论文中就已经被提及,但之前更多是作为RLHF基于人类反馈的强化学习的视角进行切入,很少作为单独的方向被重点提出。

o1模型发布后,强化学习的重要性大大提高,其在大模型领域的应用有望成为接下来一段时间国内大模型公司混战的新焦点。

三、背后:技术原理与相关论文

1. 基础知识

1.1 强化学习

机器学习算法主要分为监督学习、无监督学习和强化学习三类。无监督学习相当于学生自学,没有任何老师指导,完全依靠学生自己琢磨;监督学习相当于有老师指导,有明确对错的学习;强化学习则是做对题目有奖励,做错题目有惩罚的学习。

强化学习(Reinforcement Learning,RL)是一种基于反馈的学习方法,对算法执行的正确和不正确行为分别进行奖励和惩罚的制度,目的是使算法获得最大的累积奖励,从而学会在特定环境下做出最佳决策。“强化”一词来自于心理学,心理学中的“强化”就是通过提供一种刺激手段来建立或者鼓励一种行为模式。这种“强化”具体分为两种:

积极强化,是指在预期行为呈现后,通过给予激励刺激以增加进一步导致积极反应。

负面强化,通过提供适当的刺激来减少出现负面(不希望的)反应的可能性,从而纠正不希望出现的行为。

想象一下,当你第一次自己玩超级马里奥,你需要在游戏中不断探索环境和重要的NPC,一个错误的举动会导致失去一条“命”,一个正确的跳跃可以把我们带到一个更安全的地方获得金币奖励!在n次奖励和惩罚的探索之后,你对于马里奥游戏的熟练程度越来越高,操作的正确性大大提升,最终成为一个该游戏的高手。

1.2 Self-play

Self-play 是 AlphaZero 等强化学习算法的合成数据方法,最早可以追溯到 1992 年的 TD-Gammon 算法,其本质是利用 AI 无限的计算能力来补足它数据利用效率不够的短板。

以 AlphaZero 为例,在每一局对弈中,模型使用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)来选择动作。MCTS 结合了当前神经网络提供的策略(policy)和价值(value),从而在每个游戏状态下评估出最优的行动。其具体步骤如下:

1) 随机初始化:模型从完全随机初始化的状态开始,没有任何人类先验知识。

2) self-play:模型自己与自己进行对弈,生成大量的游戏数据。其中好的结果用于更新模型的参数。

3) MCTS:在每一次对弈中,AlphaZero 会使用 MCTS 来搜索最佳动作。MCTS 使用策略网络 (policy network) 提供的动作概率分布和价值网络提供的局面评估结果来引导搜索。

4) 策略更新:根据自我对弈的结果,使用强化学习的方式来更新神经网络的参数,使得模型逐步学习到更优的策略

1.3 Self-play强化学习、RLHF

早在2018 年,Ilya Sutskever就认为强化学习与 self-play 是通往 AGI 路上最关键的方法之一。Ilya 用一句话概括了强化学习:让 AI 用随机的路径尝试新的任务,如果效果超预期,那就更新神经网络的权重,使得 AI 记住多使用这个成功的事件,再开始下一次的尝试。

1)传统强化学习与self-play的区别:传统强化学习与今天的 self-play 强化学习相比,最大的区别是强化学习算法模型(如AlphaZero)是一个千万参数的神经网络,和今天的语言模型相差 3-4 个数量级。

2)Self-play 强化学习与RLHF 的区别:RLHF 的目的不是获取机器智能,而是人机对齐,使得 AI 能够更像人,但不能超越人成为超级智能。简单来说:RLHF 像人类一样,更喜欢好理解的东西,而不是喜欢逻辑更严密的内容。而 self-play 强化学习的目标是如何提升逻辑能力,绝对强度更高,甚至超越最强人类、专家。

3)RLHF 的核心是通过强化学习训练语言模型,但由于缺乏奖励函数这一必要因素,因此需要通过收集人类的反馈来学习一个奖励函数。

4)强化学习不是一个模型,而是一整套的系统,其中包含了很多因素,第一,强化学习包括了智能体,其中的 agent 就是模型。第二,包括了环境,环境可能是狗主人的家,也可能是编程环境,也可能是垂直领域。第三,包括了动作,是狗坐下,还是一些其他模态的输出。第四,包括了奖励模型,这也很重要。最重要的两个因素是环境和智能体。智能体的目标是得到更多奖励。

(强化学习构成,来源:海外独角兽)

强化学习在语言模型中的思路,本质上是 inference time 换 training time 。

1.4 为什么 RLHF 的效果优于 SFT?

PPO 算法的提出者是Berkeley PhD,OpenAI前研究员 John Schulman,他针对 RLHF PPO 提出了两个观点:

第一,SFT 会导致 hallucination :

John Schulman 认为,大型模型之所以会产生幻觉,是因为它们在 SFT 阶段学到了一些不正确的认知。SFT 过强的监督信号导致人类实际上在引导 ChatGPT 说它不知道的东西。还有一种可能性,即 GPT 实际上知道答案,但标注人员不知道。

第二,RLHF 让大模型“知道”自己“确实不知道”。

RLHF 的过程不仅帮助模型意识到不确定性,更重要的事情是 RLHF 帮助模型提高了 reasoning 能力。

只有通过正向和反向的双重实验,我们才可以判断这种药物对头痛有效。如果只有正向的例子,例如说患者吃了感冒药,感冒变好了,并不能证明感冒药能治好感冒。只能说明,感冒药与患者感冒的好转有一定相关性。而 RLHF 正是成功利用了负向数据,使得模型有机会真正掌握因果性。

总结来说,RLHF 有以下优势:

使用 negative signal 进行对比学习,通过对比的过程可以帮助模型降低 halluciation。‍

强化学习不是一个固定的过程。它允许模型随着能力的不断提升,通过不断地问问题、给出答案、评判,从而让模型不停地从当前能力的边界进行主动探索,并不断拓宽自己的能力边界。‍

这两个因素共同作用能够形成 counter-factual reasoning 的作用,有可能解锁因果学习(casual learning)的巨大潜力,让模型具备更强的 reasoning 能力。

1.5 PRM与ORM

PRM(Process reward model)是奖励好的推理步骤,而不仅仅是正确的结果。这更接近人类的学习和推理方式,实现方式常常是用 COT 来表示推理过程,对每一步进行打分。这是因为 LLM 的语义理解能力才成为可能的。在传统 RL 中,我们按照最终结果评分,其评分模型称为 ORM(outcome reward model);而通过专门训练 LLM 成为 process verifier ,新的评分模型叫做 PRM,往往是使较小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他们训练的 PRM 在解决 MATH 数据集测试集中 78.2%的问题时表现优于 ORM。在今年 Google Research 的一篇 paper 中提到,PRM 在过程中一旦成功发现第一个错误,就能使 RL 训练效果显著提升。

1.6 Critic Model

随着任务复杂度的提高,仅仅依靠模型的自身推理能力可能无法提供有效的奖励信号。这使得对于模型内部的复杂推理过程的监督变成了一个可扩展监督问题。

具体来说,o1的隐式思维链的训练过程中应当也引入了Critic的方法。通过将推理过程进行过程分解,并且利用额外的更强更专项的Critic Model,可以将推理过程的监督扩展到更复杂的问题上。这也一定程度缓解了仅仅是通过推理过程能否导出正确结果的来确定奖励信号的稀疏问题。

OpenAI的CriticGPT通过RLHF方法训练模型能够为真实世界中的代码任务书写自然语言反馈,并成功泛化到OOD(模型在训练过程中没有遇到过的数据)的分布上。这种反馈可以用来帮助人类进行更准确的评价,从而实现对于复杂输出的有效奖励反馈。

2. 关于技术原理的猜想

2.1 OpenAI官方的“提示”

通过强化学习,o1 学会了精炼其思维链并优化所用的策略。它学会了识别并纠正错误,将复杂的步骤分解为更简单的部分,并在当前方法无效时尝试不同的途径。这一过程显著提升了模型的推理能力。

o1 模型引入了推理标记。模型使用这些推理标记进行“思考”,分解对提示的理解并考虑多种生成响应的方法。生成推理标记后,模型会将答案生成为可见的完成标记,并从其上下文中丢弃推理标记。

以下是用户与助手之间多步骤对话的示例。每个步骤的输入和输出标记都会被保留,而推理标记则会被丢弃。

(推理是如何进行的,OpenAI官网)

2.2 猜想1

张俊林:MCTS搜索技术路线

OpenAI o1提到了关于RL在训练和推理时候的Scaling law,并指出这与预训练时候的Scaling law具有不同特性。很明显,如果o1走的是MCTS搜索技术路线,那么把COT拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说树的宽度越宽),则搜索空间越大,找到好COT路径可能性越大,效果越好,而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势,也就是所谓的RL的Scaling law。这其实是树搜索本来应有之义,我倒觉得把这个称为RL的Scaling law有点名不副实。

2.3 猜想2

腾讯科技 周小燕 郝博阳:PRM仅在答案不可接受时进行MCTS式的搜索,或者用的是更节约的Beam Search。

从反应时间和token消耗两方面看,根据Hackernews上使用了API的开发者推算,o1进行推理所消耗的token是其给出答案token的10倍,是未进行思维链的GPT-4o mini 所用token的60-100倍。如果采用能看三步的、每步形成5个候选,单层深度的Lookahead Search就会消耗45倍token。但用到了思维链每步都需要进行一次Lookahead Search的话,就会远超100倍token。另外考虑到MCTS这么大的计算量,目前o1的反馈时间是远远不够的。

但如果仅用思维链,即使是非常复杂的问题,token消耗最多也就是达到5-10倍。其60倍token消耗又太大了。

2.4 猜想3

北大对齐团队:o1运用的技术关键还是在于强化学习的搜索与学习机制,基于LLM已有的推理能力,迭代式的Bootstrap模型产生合理推理(Rationales)的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理,而后再运用足够强大的计算量实现Post-Training阶段的Scaling。类似于STaR的扩展版本。

模型学习的是产生合理推理的过程,MCTS 在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形成细粒度奖励信号,而非直接搜索过程和最终答案。

为了优化这一过程,产生了一系列方法,其中包括在 Token 级别或子句级别提供奖励信号,帮助模型调整生成的回答。这些方法如MCTS,将输出建模为一系列节点,这些节点可以是 Token 级别或句子级别。例如:

Token 级别的节点:每个节点对应生成序列中的一个 Token。通过 MCTS,模型可以探索不同的 Token 序列,最终生成更连贯的响应。

句子级别的节点:在复杂推理任务中,每个节点可以代表一个完整的句子或推理步骤,帮助模型更好地处理多步推理任务。

3. 相关论文

3.1 Jason Wei 的 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,也就是著名的COT。

主要内容:通过一系列中间推理步骤,能显著提高大型语言模型执行复杂推理的能力,提出了一种名为“chain of thought prompting”的方法,通过提供几个思维链条示例,无需对模型进行微调,就能自然地激发大型语言模型的推理能力,实验结果表明该方法在算术、常识和符号推理任务上显著提高了三种大型语言模型的表现。

链式思维推理能力的涌现:链式思维推理能力并非所有模型都具备,而是随着模型规模的扩大而逐渐涌现。对于需要多步推理的任务,链式思维提示能够显著提升模型性能,尤其是在大型语言模型上表现尤为突出。

该方法也为提升模型可解释性和鲁棒性提供了新的思路。

CoT 通过分步推理的方式,要求模型在生成最终答案之前,先生成一系列中间推理步骤。这种 “思考链” 的生成过程有助于增强模型的推理能力,尤其在数学和代码生成等任务中表现出色。

然而,CoT虽然能够生成中间步骤,但并未教会模型如何从内部深入思考问题的关联。特别是对于尤其复杂且需要多步推理规划的任务,这样的合理的中间 CoT 推理过程(Rationales) 更为重要。

3.2 Ilya等人的Let’s Verify Step by Step

主要内容:比较了两种训练大型语言模型进行复杂推理的方法:结果监督和过程监督,并得出以下主要贡献:

1)过程监督比结果监督更有效

研究表明,过程监督训练出的奖励模型比结果监督更可靠,能够解决 MATH 数据集 78.2% 的问题,而结果监督只能解决 66.4%。过程监督提供了更精确的反馈,指出了错误发生的具体位置,有助于模型更好地进行信用分配和学习。

2)大型奖励模型可以有效地近似人类监督

研究发现,大型奖励模型可以有效地近似人类监督,用于训练小型奖励模型,从而降低了数据收集的成本。这为大规模数据收集消融实验提供了可能性,并可以用于评估不同监督方法的效果。

3)激活学习提高了过程监督的数据效率

研究发现,激活学习可以将过程监督的数据效率提高 2.6 倍,这意味着可以使用更少的数据获得更好的模型性能。激活学习通过选择最有价值的模型输出进行人工标注,从而提高了数据收集的效率。

4)发布了 PRM800K 数据集

论文发布了 PRM800K 数据集,包含 800,000 个步骤级别的标注数据,用于训练奖励模型。

3.3 斯坦福&谷歌STaR: Bootstrapping Reasoning with Reasoning

1)主要原理

STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理。其基本流程如下:

推理:起始数据集仅有 [Question, Answer] ,首先利用一些带有推理过程的 Few-Shot Examples 来 Prompt 模型对于数据集中的问题生成对应的推理过程和答案。

过滤:如果生成的答案正确,则将推理过程加入到原有的数据集中;如果生成的答案错误,则尝试在给出正确答案的前提下再次生成推理过程。将最终生成正确答案的推理收集,构建一个构建一个微调数据集 [Question, Rationale, Answer ] 进行微调。

迭代:重复这一过程,且每次获得一个新的数据集,都从原始的模型开始进行 Fine-tune 从而防止过拟合。

2)创新点

迭代引导:STaR 不需要构建大规模的推理链数据集,而是通过少量示例引导 LLM 生成自身的推理链,实现自我提升。

Rationalization 技术:STaR 引入了 Rationalization 技术,通过提供正确答案作为提示,帮助 LLM 生成新的推理链,克服了正向推理训练的局限性,能够从失败案例中学习。

3)STaR 的优势

提升推理能力:STaR 能够有效提升 LLM 在数学推理、常识推理等复杂任务上的性能。

降低数据需求:STaR 不需要大规模的推理链数据集,降低了数据获取的难度和成本。

提高鲁棒性:STaR 能够让 LLM 从失败案例中学习,提高其在复杂问题上的鲁棒性。

4)STaR 的局限性

初始模型要求:STaR 需要初始模型具有一定的推理能力,否则难以启动引导过程。

对少样本示例的依赖:STaR在推理任务中高度依赖少量的Few-Shot推理示例,这导致模型的推理能力较为有限,难以应对复杂和广泛的任务。

泛化能力受限:STaR虽然能够通过迭代的方式提升模型的推理能力,但其应用主要局限于特定的结构化任务(如问题回答),难以在开放域或任意文本生成任务中取得同样的效果。

数据质量影响:STaR 的性能受初始推理链质量的影响,如果初始推理链存在偏差,则可能导致 STaR 学习到错误的推理模式。

解释忠实度:STaR 生成的推理链可能无法完全反映 LLM 的内部推理过程,存在解释忠实度的问题。

5)STaR 与强化学习目标的相似之处

迭代更新:STaR 和强化学习都采用迭代的方式更新模型,不断优化其性能。

奖励信号:STaR 通过迭代的方式生成推理链,并使用正确答案作为反馈信号,类似于强化学习中的奖励信号,用于指导模型的更新方向。

6)STaR 与强化学习目标的区别

目标函数:STaR 的目标函数与强化学习中的策略梯度目标不完全相同,STaR 更关注推理链的生成和优化。

模型结构:STaR 使用预训练的 LLM 模型,而强化学习可以采用各种类型的模型。

训练方法:STaR 使用基于梯度的方法进行模型更新,而强化学习可以采用多种训练方法,例如 Q-learning、Sarsa 等。

3.4 微软的 rStar:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1)主要贡献

rStar 是一种创新的self-play自我推理方法,旨在提升小语言模型 (SLM) 的推理能力,无需微调或高级模型的支持。其核心思想是将推理过程分解为 生成 和 鉴别 两个阶段,并通过自我博弈的方式实现 SLM 之间的相互学习。

2)主要创新点

丰富的推理动作:rStar 引入了五种人类似推理动作,模拟人类在推理过程中的行为,这使得 SLM 能够生成更高质量的候选推理轨迹,有效探索解决方案空间。

相互一致性鉴别:rStar 使用另一个与目标 SLM 能力相似的 SLM 作为鉴别器,对生成的候选推理轨迹进行评估。鉴别器通过完成部分推理步骤并提供反馈,帮助目标 SLM 选择更可靠的推理路径。

无需微调或高级模型:rStar 不依赖于微调或高级模型的指导,能够独立提升 SLM 的推理能力,使其在无需额外资源的情况下获得显著的性能提升。

实验结果表明,rStar 能够有效解决多种推理问题,并在多个 SLM 上取得了显著的性能提升。例如,在 GSM8K 数据集上,rStar 将 LLaMA2-7B 的准确率从 12.51% 提升至 63.91%,将 Mistral-7B 的准确率从 36.46% 提升至 81.88%。

A. 生成阶段 (MCTS Rollout):

动作空间: rStar 引入了五种人类似推理动作,模拟人类在推理过程中的行为:

A1: 提出一个一步思考。

A2: 提出剩余的思考步骤。

A3: 提出下一个子问题及其答案。

A4: 再次回答子问题。

A5: 重述问题/子问题。

MCTS 搜索: 使用 MCTS 算法,根据当前状态和动作空间,逐步生成候选推理轨迹。

奖励函数: 设计 SLM 定制奖励函数,根据推理步骤对最终答案的贡献程度进行评估,并指导 MCTS 树的扩展。

这些动作帮助模型更好地探索解决方案空间的原因:

多样性: 丰富的动作类型使得模型可以尝试不同的推理策略,避免陷入固定的思维模式。

灵活性: 模型可以根据当前状态选择合适的动作,灵活应对不同的问题。

分解: 通过将复杂问题分解为子问题,模型可以逐步解决,降低推理难度。

验证: 通过重新回答子问题,模型可以验证子问题的答案是否正确,提高推理的准确性。

B. 鉴别阶段 (Mutual Consistency):

鉴别器 SLM: 使用另一个与目标 SLM 能力相似的 SLM 作为鉴别器,对生成的候选推理轨迹进行评估。

部分提示: 将候选推理轨迹的一部分作为提示,让鉴别器完成剩余的推理步骤。

一致性验证: 比较鉴别器完成的推理步骤与原始轨迹的一致性,选择相互一致的轨迹作为最终答案。

互一致性帮助模型选择正确的推理轨迹的原因:

外部验证: 鉴别器作为外部评估者,为模型提供客观的反馈,避免模型自身评估的偏差。

降低难度: 通过部分提示,降低鉴别器推理的难度,提高其提供正确答案的概率。

群体智慧: 两个 SLM 之间的相互验证,类似于人类群体中的同伴互评,可以更有效地识别正确答案。

C. 最终轨迹选择:

最终得分计算: 将候选轨迹的奖励值与终端节点的置信度得分相乘,计算最终得分。

选择最佳轨迹: 选择最终得分最高的轨迹作为最终答案。

3.5 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

1)贡献1

将 STaR 推广到学习推理,也是其与 STaR 的主要区别。STaR 主要针对特定任务进行推理学习,而 Quiet-STaR 则将推理学习推广到更广泛的文本数据中。这使得语言模型能够在更通用的场景下进行推理,并从多样化的文本任务中学习。

2)贡献2:并行采样算法

这是实现 Quiet-STaR 的关键技术之一。并行采样算法能够高效地生成每个 token 的推理,从而使得模型能够从大规模文本数据中学习推理。

3)其他创新点

元 token、混合头、非短视损失函数等创新点都是为了更好地实现 Quiet-STaR 的目标,即让语言模型能够学习推理并提高其预测能力。

3.6 Google Deep Mind 的Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

针对现有 LLM 推理能力有限的不足,提出了以下创新方法和策略:

1)创新方法

PRM 验证器和树搜索算法:通过训练一个过程奖励模型来评估每一步的正确性,并利用树搜索算法(如束搜索和前瞻搜索)在解决方案空间中进行搜索,找到最优答案。

迭代修订模型:通过微调 LLM,使其能够迭代地修改其初始答案,使其逐渐接近正确答案。

2)创新策略

推理时计算最优扩展策略:根据提示的难度动态选择最佳的推理时计算策略,以最大化性能提升。

计算预算交换:将推理时计算和预训练计算进行比较,发现对于简单和中等的推理任务,推理时计算可以有效地替代额外的预训练计算,从而降低预训练成本。

3)改进

性能提升:在相同的计算预算下,使用“推理时计算最优扩展策略”可以显著提升 LLM 的性能,并优于传统的最佳-of-N 策略。

预训练成本降低:对于简单和中等的推理任务,可以使用推理时计算来替代额外的预训练计算,从而降低预训练成本。

模型泛化能力提升:通过迭代修订模型,LLM 可以学习从错误中吸取教训,并改进其推理能力,从而提升模型的泛化能力。

Google在研究中提到了从简单到复杂的三种方案,直接在多个答案中选最佳解的方法(Best of N),在思维链中每步都提供多个候选项的方法(Beam Search)和把后续多个步骤联系起来看的MCTS方法的简化版本Lookahead Search。

我们可以尝试着在推理阶段不要求模型一次做对的能力,而是让LLM去尝试一题多解, 然后针对多个答案进行评估打分, 最终输出一个正确的答案. 在答案评估的时候,同时引入对过程的评估,即Process-based Reward Model(PRM)。搜索方法上, 它采用了Lookahead Search, 本质上是MCTS的一种特殊形式.

4. 可能的“逆向工程”

(o1可能的架构图,来源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/)

下面是关于这张架构图的详细说明,主要包括四个阶段:

4.1 数据生成

数据生成模块负责创建用于训练的数据,包括:

合成数据生成器(Synthetic Data Generator)、人类专家、CoT数据库(CoT Dataset,链式思维数据库)、现实世界和沙盒数据

这些数据被汇集起来,形成训练数据,用于后续模型的训练阶段。

4.2 训练阶段

训练阶段主要由以下几个模块组成:

语言模型,这是核心的AI模型,负责处理和理解语言数据。

RL环境,强化学习环境用于模型优化。

奖励函数,包括验证(Verification)和人类反馈(Human labeling),用来指导模型学习。

策略优化器(Policy Optimizer),包括梯度压缩、Panzar系统、探索与利用等,用于优化模型策略。在这个阶段,模型通过强化学习和高级技术进行训练,不断优化性能和效率。

4.3 推理阶段

推理阶段包括:

训练好的模型,这是通过强化学习和高级技术优化后的模型。

多任务生成,处理多个任务的能力。

最终响应,生成最终的输出结果。

CoT生成和微调,根据链式思维生成并微调结果。

效率监控:实时监控模型的性能。

4.4 关键注释

大规模CoT存储进入RL环境是作者自己的假设,作者认为OpenAI可能会使用从现实世界中生成的大量链式思维来进一步调整和优化RL模型。举例说明:假设你是一名研究员,想要构建一个能够进行多任务处理的AI系统。

我们可以通过参考这个o1架构按照上面三个模块进行以下工作:

1)首先,收集并生成各种类型的数据,包括合成数据、人类专家提供的数据以及现实世界的数据。

2)接着,利用这些数据训练你的语言模型,并在强化学习环境中进行优化,通过奖励函数和策略优化器不断提升模型性能。

3)最后,将训练好的模型部署到推理阶段,使其能够处理多任务并生成最终响应,同时监控其效率并进行必要的微调。这种架构不仅适用于语言处理,还可以扩展到其他领域,如图像识别、游戏开发等,通过不断优化强化学习过程,使得AI系统更加智能高效。

四、幕后:o1背后的团队

在 OpenAI 公布的o1模型的参与人员中,不仅包括前首席科学家Ilya Sutskever,COT 作者 Jason Wei,还包含了Jiayi Weng等大量华人科学家。

在o1 的21个Foundational贡献者呈现出了高学历、高包容性、多元化、国际化等特点。

  • 学术背景:14人拥有博士学位,3人以本科学位进入OpenAI,1人有专科经历,5人有斯坦福背景;
  • 国家背景:团队来自至少8个国家,包括美国、中国、印度、韩国、意大利、土耳其、以色列、波兰,呈现出了高度的国际化。其中以色列2人。
  • 华人贡献:作为人数最多的国家之一,6个华人本科分别来自清华、北大、剑桥、哈佛、达特茅斯。从某种程度上来说,OpenAI 在AI技术上的领先离不开华人的贡献。
  • 工作背景:作为OpenAI最主要的竞争对手,贡献者中11人有 Google 背景,5人没有相关名企经验;

注:2人未找到相关资料。

21个Foundational贡献者资料明细

五、相关名词解释

1. MCTS

1.1 概念:蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)是一种用于某些类型决策过程的启发式搜索算法,特别是在双人零和游戏中。它结合了蒙特卡洛模拟的随机抽样和决策树搜索的系统性。MCTS在计算博弈论和人工智能领域中非常有用,尤其是在围棋、国际象棋和其他策略游戏中。

1.2 MCTS的基本步骤

1)选择:从根节点开始,按照特定的策略,选择最有前途的子节点,直到到达一个尚未完全展开(即还有未探索的行动)的节点。

2)扩展:在选择的节点上添加一个或多个子节点,这些子节点代表了可能的下一步行动。这涉及到游戏状态的更新,将游戏向前推进到一个新的状态。

3)模拟:从新添加的节点开始,进行蒙特卡洛模拟,直到游戏结束或达到预定的模拟深度。这个过程不需要完美信息,可以使用随机策略来选择行动。

4)反向传播:将模拟的结果(比如输赢或得分)更新到所访问路径上的所有节点。如果模拟结果是胜利,则增加沿途节点的胜利次数;如果是失败,则相应地更新失败的统计数据。

1.3 关键特点

1)自适应搜索:MCTS能够根据之前的搜索结果自适应地搜索那些更有希望的区域。

2)无启发式:与某些其他搜索算法不同,MCTS不需要领域特定的启发式评估函数。

3)并行化:模拟步骤可以独立进行,因此MCTS很容易并行化,这使得它在多核处理器上特别有效。

1.4 Beam Search、Lookahead Search、MCTS对比

Beam Search:一种启发式的图搜索算法,常用于机器翻译、语音识别等领域的解码过程。它在每一步都从当前节点扩展出一定数量(beam width)的最有前途的子节点,而不是搜索所有可能的子节点,从而减少了搜索空间。

Beam Search的优点是计算效率高,但缺点是可能会错过一些不那么显而易见但最终可能更优的路径。

Lookahead Search:一种在Beam Search基础上的扩展,它在搜索时不仅考虑当前步骤的最优解,还会向前看多步,考虑未来的可能性。这种搜索策略可以帮助算法做出更长远的决策,但计算成本也会随之增加。

Lookahead Search的关键在于它尝试预测并评估不同的决策路径,从而选择最优的行动方案。

MCTS:一种用于某些类型决策过程的启发式搜索算法,它结合了随机模拟和决策树搜索。MCTS通过多次模拟来评估不同的决策路径,并根据这些模拟的结果来选择最优的行动。

MCTS特别适用于双人零和游戏,如围棋、国际象棋等,它通过构建整个树来探索所有可能的行动路径,并通过模拟来评估这些路径。

2. Bootstrap

这是一种重采样技术,用于从原始数据集中生成新的样本集,以此来估计一个统计量(如均值、方差等)的分布。通过这种方法,可以不需要对总体分布做出任何假设,就能够估计出模型参数的不确定性和稳定性。

Bootstrap方法的步骤通常包括:从原始数据集中随机抽取样本,允许重复抽样(即有放回抽样);根据抽取的样本计算所需的统计量;重复上述过程多次(通常是数千次),以获得统计量的分布;使用这个分布来估计原始统计量的标准误差、置信区间或其他特征。

在机器学习领域,Bootstrap方法可以用来提高模型的泛化能力和鲁棒性。例如,通过Bootstrap抽样可以创建多个不同的训练集,然后用这些训练集来训练多个模型。这些模型可以结合起来,形成一个集成模型,如随机森林或Bagging模型,以此来减少过拟合和提高模型的预测准确性。

3. PPO

PPO(Proximal Policy Optimization,近端策略优化)是一种在强化学习领域广泛使用的算法,它属于策略梯度方法的一种。PPO算法的核心思想是在每次更新策略时,限制新策略与旧策略之间的差异,以保持训练过程的稳定性。

PPO算法有两个主要变体:PPO-Penalty和PPO-Clip。PPO-Penalty通过在目标函数中添加一个惩罚项来近似解决一个KL散度约束的更新问题,而PPO-Clip则不直接使用KL散度项,而是通过目标函数中的裁剪操作来限制新旧策略之间的差异。

PPO算法的实现步骤通常包括:

1)初始化策略网络参数。

2)通过与环境交互收集数据。

3)计算优势函数,用于评价动作的好坏。

4)使用裁剪的目标函数或惩罚项来更新策略网络参数。

5)重复以上步骤,直到策略收敛。

PPO算法的优点包括稳定性、适用性和可扩展性。它适用于离散和连续动作空间的环境,并且可以通过并行化来提高训练效率。PPO算法在游戏、机器人控制、自动驾驶等领域都有广泛的应用。

4. 激活学习

激活学习是一种机器学习方法,其核心思想是选择最有价值的数据进行标注和学习,从而提高学习效率和模型性能。

通常用于以下场景:数据标注成本高、数据集规模庞大、模型性能提升空间有限。

包括以下几个步骤:选择标注策略、选择标注数据、标注数据、训练模型、迭代优化。

在许多领域都有广泛应用,例如图像识别、自然语言处理、推荐系统。

参考资料:

Open AI官网:

1、https://openai.com/index/introducing-openai-o1-preview/

2、https://openai.com/index/learning-to-reason-with-llms/

3、https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed

OpenAI o1、核心成员官推:OpenAI 官推、CEO Sam Altman、总裁&联创Greg Brockman、COT 作者Jason Wei、模型核心成员Noam Brown、Hyung Won Chung、Ahmed El-Kishky、Ren HongYu、ShenJia Zhao

公众号:海外独角兽、 FudanNLP、机器之心、 量子位、数字生命卡兹克、 AI Pioneer、 AI产品黄叔、人工智能与算法学习、AINLP、腾讯科技、 GitChat、AI科技大本营、智能涌现、PaperWeekly、硅谷科技评论、卜寒兮AI、zartbot、投资实习所、AI的潜意识、夕小瑶科技说

提示工程:反复崛起,反复被死亡

aigc阅读(49)

随着 OpenAI 新的推理模型 o1 preview 的发布,它能自动生成高质量思维链,很简单的提示词也可以得到很不错的效果,所以很多人觉得提示工程已经死了,提示工程师是世上最短命的职业之一。

真的如此吗?

我们常说的提示工程,有两大核心部分:技巧和指令。

一、技巧

技巧就是那些与模型本身密切相关,各种让特定模型表现更好的技巧,比如说:

1. 为模型设定角色

“你是一个有帮助的助手”,“你是一个资深前端工程师”等等。

在 GPT-3 时代这个技巧很好用,GPT-4 后效果已经不太明显了。

这可能是因为早期训练语料不够多模型不够强的时候,设定角色可以让角色相关的语料在生成时有更高的概率。

随着模型能力的增强,已经不太需要这样的技巧。

2. 情感勒索

“你只要按照我的做,我就给你$200 小费”,“我没有手指,没办法复制粘贴,请你完整生成”,“你不这样做就要个无辜的小孩要因此丧生”……

AI 在对齐阶段,被训练成为要人类有帮助的助手,结果反而被利用。

但是这类常用的情感勒索方式,在新一轮模型训练的时候,会作为案例再次对齐,效果就会大打折扣。

另外很多时候这样做也是因为模型不能很好遵循指令,模型能力增强后就不需要了。

3. 思维链,让模型一步步思考

这算是提示工程的核心技巧了,将任务分成几步来做可以明显提升生成的效果,最著名的是“Let’s think step by step”,对于给大语言模型的任务,生成若干推理步骤,得到更好的生成效果。到了 o1 更是将这种思维链发挥到了极致,你输入一个复杂的数学题,甚至不需要要求一步步思考,它都能生成高质量的思维链,解除复杂的数学题目。以至于很多人感慨提示工程已死。

当然还有很多像 few-shot、ReAct 这样的技巧,就不一一列举。

如果是技巧部分,那真的每次新一代模型出来,就要喊一次提示工程工程已死了,因为技巧那部分随着模型升级一直在变的。

二、指令

指令就是那些技巧之外的,你需要让 AI 能真正理解你意图,并且精确控制 AI 按照你的意图去完成任务的部分。

其实这部分才是提示工程的核心部分,而且并不容易做好,因为它有很多难点:

1. 如何清楚的表达自己的意图

表达清楚自己的意图其实很难,如果不能表达清楚,不管是 AI 还是人类,都很难懂你或者帮到你。

比如说“五彩斑斓的黑”是什么颜色?

2. 如何让 AI 明白所有相关的上下文

人和人沟通的时候,一个常见的错误就是一方假定对方明白自己知道的所有上下文,然后造成很多误解。

跟 AI 也一样,但是如何让 AI 明白我们所处的上下文环境也是很有必要并且很难的事情:要如何交代清楚上下文,要交代多少上下文?

3. 如何将复杂的任务拆分成简单的任务

我刚大学毕业那会,HR 会给员工推荐一本书,叫《把信送给加西亚》,本来挺好的故事,但是被老板们用来教育员工:员工收到老板的指令,就应该像书中的安德鲁·罗文那样,没有任何推诿,不讲任何条件,历尽艰险,徒步走过危机四伏的国家,以其绝对的忠诚、责任感和创造奇迹的主动性完成“不可能的任务”,把信交给了加西亚。

后来自己去管人了才知道,好的管理者要善于帮助员工将复杂的任务拆分成简单的任务,并且在过程中提供帮助和引导,而不是给一个指令就等着结果。

让 AI 做事也是类似的。由于上下文的不完整,或者任务的复杂性,合格的提示工程师需要将复杂的任务拆分成几个简单的任务让 AI 去完成,甚至于需要组建一个完整的工作流,让多个 AI 智能体协同完成复杂的任务。

4. 如何精确的控制 AI 做事

提示词是用自然语言来书写的,但自然语言有一个特点就是其模糊性,同样一句话可以有不同的解读;另一方面由于现在的生成模型是概率预测模型,所以每次结果可能会不一样;这就给精确控制 AI 做事带来了很大挑战。以至于现在提示工程都有一个途径就是使用伪代码来精确控制 AI 执行任务,并且效果很好,因为代码本质就是一种精确操纵机器的语言。即使现在 o1 这样强大的推理模型出现,模型的随机性还是没能解决,还是需要提示工程师去反复尝试才能找到一个相对稳定的方案,以及在出错后的纠正和容错方案。

5. 如何防止用户绕过限制做一些不好的事情

作为一个普通用户,能让 AI 帮我们完成任务就够了,但对于专业的提示工程来说,还需要防止用户做一些不好的事情,生成不好的内容,这可能造成很多成本上的损失,可能有政治风险。

6. 如何针对特定任务提出开创性的创造解决方案

现在 o1 能帮助解决数学问题,这很强,但我们需要 AI 解决的不仅仅是数学问题,还有很多日常任务或者特定领域的任务,也许未来 AI 能在各个领域写出超过普通人的思维链,但这些任务可能需要真正对这个领域有深入理解和洞察的人才能写出最佳提示词。

比如你让 o1 翻译一段文本,它也只能正常翻译,但公认的翻译效果更好的提示词,是要 AI 先直接按照字面意思翻译,再针对翻译的结果去检查、解释、反思,最后再综合一起生成翻译结果,而这样的提示词目前 AI 还不能自动生成,当然也许很快在翻译领域就可以做到了,不过对于一些专业领域,短时间内恐怕还是需要和领域的专家一起,才能生成最佳的提示词。

这有点像工业自动化领域,最初的自动化,就是用机器把操作最好的工人的工作的动作模仿下来实现自动化,然后再超越最优秀的工人。

也许 AI 将来也能超过各个领域的专家,但那时候就真的是 AGI 时代了。

三、最后

AI 时代,总是在搞大新闻:一会是 AI 要替代程序员了,一会是提示词工程师是最有潜力的职业,一会是提示词工程师是最短命的职业。

然而真正去透过现象看本质,里面有太多的以偏概全,太多噱头。

就提示工程这事来说,会像编程一样,还会在很长一段时间存在并发挥巨大的价值。

真正的提示工程,本质还是怎么让 AI 懂你,怎么让 AI 听话。

在让别人懂我们和让别人听话这事上,我们已经奋斗了几千年了,至今还在努力中,也许 AI 会容易一点吧。

深度|红杉美国对话英伟达科学家 Jim Fan:十年内人形机器人将超越人类的敏捷性和可靠性,所有可移动的东西终将实现自主化

aigc阅读(47)

近日,英伟达高级研究科学家 Jim Fan 与红杉美国投资人展开了一场关于具身智能、机器人技术以及虚拟世界领域的前沿思考。

Jim Fan 展示了英伟达在构建智能机器人方面的长期愿景,并讨论了推动这项技术的核心挑战和突破机会。

Jim 指出,英伟达正在押注具身智能和人形机器人技术的发展。他认为,未来十年内,人形机器人将达到甚至超越人类的敏捷性和可靠性。他们的目标是为日常生活开发可以承担家庭琐事(如洗衣)的机器人,从而极大地提升生活质量和经济价值。

他特别强调了虚拟世界与物理世界的交叉影响。虚拟世界提供了一个强大的“世界模拟器”,让研究者能够通过模拟数据和领域随机化技术加速机器人在现实中的应用。

他提出,通过在虚拟环境中训练,智能体可以无缝泛化到物理世界,达到“零次微调”的转移效果。

Jim 认为,视频生成是未来 AI 的重要方向,因为它能够以数据驱动的方式模拟世界,为 AI 模型提供真实的物理和渲染数据。他同时对 AI 模型的推理能力(特别是编程能力)充满期待,认为在未来十年内,AI 智能体将在自动编程和加速软件开发方面取得重大进展。

此外,Jim 还特别提到研究中的“品味”,即确定值得解决的问题比寻找解决方案更难且更重要。

他提到了自己在李飞飞等导师的指导下,培养了识别哪些问题能够产生最大影响的能力,并认为具身智能是未来 AI 智能体的重要方向。他也建议 AI 创业者保持对最新文献和工具的敏锐洞察,寻找能够长远发展的领域。

Jim 引用了英伟达 CEO 黄仁勋的话 —— 所有能够移动的东西最终都会实现自主化。他认为,随着硬件技术和制造成本的下降,未来机器人将像 iPhone 一样普及。英伟达正着手构建一个从硬件到软件的完整技术栈,以支持智能机器人的发展。

以下为这次对谈的全部内容,enjoy~

Sonya Huang

今天我们邀请到了 Nvidia 的高级研究科学家Jim Fan。Jim领导 Nvidia 的具身智能(Embodied AI )智能体研究工作,涉及物理世界中的机器人技术和虚拟世界中的游戏智能体。

Jim 的团队负责了Project Groot项目,你可能在今年的 GTC 大会上看到过和Jensen同台展示的视频中出现的人形机器人。

今天我们很高兴能和Jim讨论关于机器人技术的一切问题。为什么选择现在?为什么是人形机器人?以及如何实现机器人领域的 GPT-3 时刻?

非常激动能够和大家分享关于机器人技术和具身智能的各种内容。在我们深入讨论之前,您的个人故事非常有趣。

你是 OpenAI 的第一位实习生,能不能给我们讲一下你的个人经历,以及你是如何走到今天这一步的?

Jim Fan

当然,我很愿意和大家分享这些故事。2016 年夏天,我的一些朋友告诉我,城里有一家新的初创公司让我去看看。

我当时心想:“嗯,我没什么别的事情可做,因为我已经被录取为博士生了。” 那个夏天我很空闲,所以我决定加入这家初创公司,而那家公司就是 OpenAI 。

在我加入 OpenAI 的那段时间,我们已经在讨论  AGI  了,而我的实习导师是 Andrej Karpathy 和 Iliya Sotskever。

我们一起讨论并展开了一个项目,叫做“World of Bits”。这个项目的想法非常简单,我们希望建立一个 AI 智能体,它能够读取电脑屏幕上的像素信息,然后控制键盘和鼠标。如果你仔细想想,这种界面是最通用的。

我们在电脑上做的所有事情,比如回复邮件、玩游戏或浏览网页,都可以通过这个界面完成,将屏幕像素映射到键盘和鼠标的控制。

这其实是我在 OpenAI 的第一次 AGI 尝试,也是我 AI 智能体旅程的第一个篇章。

Stephanie Zhan

我记得“World of Bits”这个项目,我不知道你也参与其中,真是太有趣了。

Jim Fan

是的,那是一个非常有趣的项目,它也是 OpenAI Universe 平台的一部分,这是一个将所有应用程序和游戏整合到这个框架中的更大计划。

Stephanie Zhan

你觉得当时有哪些突破?另外,你认为当时在智能体领域面临的主要挑战是什么?

Jim Fan

是的,当时我们主要使用的方法是强化学习。在 2016 年,还没有  LLM  或 Transformer 模型。

强化学习在特定任务上确实有效,但它不具备广泛的泛化能力。比如我们无法给智能体任何一种指令,要求它完成各种通过键盘和鼠标操作的任务。当时,它在我们设计的特定任务上有效,但没有真正实现泛化。

这促使我进入了下一个阶段,我去了斯坦福大学。我开始在斯坦福跟随 Favilly 教授攻读博士学位,主要研究计算机视觉和具身智能(Embodied AI )。

在 2016 年到 2021 年我在斯坦福期间,我见证了斯坦福视觉实验室的转变,从 Favilly 教授带领的静态计算机视觉,如识别图像和视频,转变为具身计算机视觉,即智能体在交互环境中学习感知并采取行动。

这个环境可以是虚拟的(在模拟中),也可以是物理世界中的。所以这是我的博士阶段,主要是从静态视觉过渡到具身智能的研究。

在我博士毕业后,我加入了 Nvidia ,并一直工作到现在。我将博士论文中的研究内容带到了 Nvidia ,并继续从事具身智能的研究工作,直到今天。

Sonya Huang

你目前负责 Nvidia 的具身智能计划,可以简单介绍一下这个项目的含义,以及你们希望实现的目标吗?

Jim Fan

当然。目前我共同领导的团队叫做 GER,代表具身智能体研究(Generalist Embodied Agent Research)。简单来说,我们团队的工作可以总结为三个字:“生成行动”。

因为我们构建具身智能智能体,而这些智能体会在不同的世界中采取行动。如果这些行动是在虚拟世界中进行的,那就是游戏 AI 和模拟;如果是在物理世界中进行的,那就是机器人技术。

事实上,今年 3 月的 GTC 大会上,Jensen 在他的主题演讲中展示了一个叫做 Project Groot 的项目,这是 Nvidia 在构建人形机器人基础模型上的一项重要努力,而这正是 GER 团队目前的重点工作。我们希望为人形机器人乃至更广泛的领域构建 AI 大脑。

Stephanie Zhan

你认为 Nvidia 在构建这些技术上有什么竞争优势?

Jim Fan

这是个很好的问题。首先,毫无疑问的是计算资源。所有这些基础模型都需要大量的计算资源来扩展。我们相信“Scaling Law”,类似于 LLM Scaling Law,但具身智能和机器人技术的 Scaling Law 尚待研究,所以我们正在这方面做出努力。

Nvidia 的第二个优势是模拟技术。Nvidia 在成为一家 AI 公司之前,是一家图形公司,所以我们在构建模拟(如物理模拟、渲染)和GPU实时加速方面拥有多年的专业知识。因此,在构建机器人技术时,我们大量使用模拟技术。

Stephanie Zhan

模拟策略非常有趣。你认为为什么大多数行业仍然非常专注于现实世界的数据,而采用相反的策略呢?

Jim Fan

是的,我认为我们需要各种数据。仅仅依靠模拟或现实世界的数据是不够的。因此在GER(具身智能体研究团队)中,我们将数据策略大致分为三个部分:

第一是互联网规模的数据,比如网上的标签和视频。

第二是模拟数据,我们使用 Nvidia 的模拟工具生成大量的合成数据。

第三是实际机器人数据,我们通过在机器人平台上操作机器人,收集并记录这些数据。

我相信一个成功的机器人策略需要有效地利用这三种数据,混合它们并提供统一的解决方案。

Sonya Huang

你刚才提到的数据是实现机器人基础模型工作的关键瓶颈,你能不能多谈谈你对这个观点的信念,以及需要什么样的优秀数据来突破这个问题?

Jim Fan

好的,我认为我刚才提到的三种不同类型的数据各有优缺点。首先是互联网数据,它们是最具多样性的,包含了大量的常识性先验知识。

比如大多数网上的视频都是以人为中心的,因为我们喜欢自拍,喜欢记录彼此进行各种活动,也有很多教学视频。

我们可以利用这些数据来学习人类如何与物体交互,以及物体在不同情况下的行为,这为机器人基础模型提供了常识性先验知识。

但是,互联网数据没有行动信号,我们无法从互联网上下载机器人的运动控制信号。

这就引出了第二种数据策略,即使用模拟。在模拟中,你可以拥有所有的动作,并且可以观察这些动作在特定环境中的结果。

模拟的优势在于它基本上是无限的数据,数据量随计算资源的增加而扩展。投入越多的GPU,产生的数据就越多,而且数据是实时的。如果仅在真实机器人上收集数据,那么你会受到每天 24 小时的限制。

而通过GPU加速的模拟器,我们可以将实际时间加速到 1 万倍以上。在同样的工作时间内,我们能够以更高的速度收集数据。

但模拟的弱点是无论图形管道多么好,模拟与现实总会有差距。物理规律和视觉效果都与现实世界有所不同,且内容的多样性不如我们在现实世界中遇到的情景。

最后是实际机器人数据,这些数据没有模拟与现实的差距,因为它们是在真实机器人上收集的,但收集成本要高得多,因为需要雇人操作机器人。

而且它们依然受限于现实世界的时间,每天只有 24 小时,还需要人类来收集这些数据,成本非常高。

因此,我们认为这三种类型的数据各有优势,成功的策略是结合它们的优势,消除它们的劣势。

Sonya Huang

那些在 Jensen 演讲台上的可爱机器人真是一个精彩的时刻。如果你有一个五年或十年的梦想,你认为你的团队会实现什么?

Jim Fan

这纯粹是推测,但我希望我们能在接下来的两到三年内看到机器人基础模型的研究突破,这就是我们所谓的机器人领域的 GPT-3 时刻。

之后就不确定了,因为要让机器人进入人们的日常生活,不仅仅是技术问题。机器人需要价格合理,并且能够量产。我们还需要确保硬件的安全性以及隐私和法规方面的考虑。

这些问题可能需要更长的时间才能使机器人进入大众市场,所以这比较难以预测。但我希望研究突破能够在未来两三年内到来。

Stephanie Zhan

你认为 AI 机器人领域的 GPT-3 时刻会是什么样子的?

Jim Fan

这是个好问题。我喜欢将机器人技术分为两个系统:系统一和系统二,这个概念来自《思考,快与慢》这本书。

系统一是低级的运动控制,它是无意识且快速的。例如,当我拿起这杯水时,我不会真的思考每毫秒如何移动手指。这就是系统一。

而系统二则是缓慢且深思熟虑的,它更像是推理和规划,使用的是我们的有意识思维。我认为 GPT-3 时刻将出现在系统一上。

我最喜欢的例子是“打开”这个动词。想象一下“打开”这个词的复杂性。打开门与打开窗户不同,打开瓶子或手机的方式也不同。

但对人类来说,理解“打开”在与不同物体交互时意味着不同的动作并没有任何问题。但

是到目前为止,我们还没有看到一个机器人模型能够在低级别运动控制上对这些动词进行泛化。

我希望能看到一个模型能够理解这些动词的抽象含义,并能够在各种对人类有意义的场景中进行泛化。我们还没有看到这种情况,但我对未来两三年内出现这个时刻持乐观态度。

Sonya Huang

关于“系统二”思维呢?你认为我们如何才能实现这个目标?你认为在 LLM 领域的推理工作也会与机器人领域相关吗?

Jim Fan

是的,绝对相关。我认为在“系统二”方面,我们已经看到了一些非常强大的模型,它们可以进行推理、规划,甚至编程。

这些正是我们今天看到的 LLM 和前沿模型。但将“系统二”模型与“系统一”整合起来,本身就是一个研究挑战。

所以问题是,针对机器人基础模型,我们是否应该有一个单一的大模型,还是采用某种级联方法,保持“系统一”和“系统二”模型的独立性,并让它们通过某种方式进行沟通?这仍然是一个悬而未决的问题,它们各有优缺点。

如果是第一个想法,模型会更简洁,只有一个模型,一个 API 来维护。但这也更难控制,因为它们的控制频率不同。

“系统二”模型的控制频率较低,比如每秒一次决策(1Hz),而“系统一”则需要更高的控制频率,比如每秒 1000 次决策(1000Hz),像我握住这杯水的微小运动就是每秒数千次的决策。这种不同频率的控制难以通过单一模型实现。

所以,可能级联的方法会更好。但问题是,系统一和系统二之间如何沟通?它们通过文本交流还是通过某种潜在变量?目前还不清楚,我认为这是一个非常令人兴奋的新研究方向。

Sonya Huang

你觉得我们能够通过扩展和 Transformer 技术突破“系统一”思维吗?还是说要祈祷好运、看事态发展?

Jim Fan

我当然希望我之前描述的数据策略能帮助我们实现这一目标。因为我觉得我们还没有完全发挥出 Transformer 的潜力。

从本质上讲, Transformer 是通过输入和输出 token 来工作的。最终, token 的质量决定了这些大型 Transformer 模型的质量。

对于机器人来说,正如我提到的,数据策略非常复杂。我们既有互联网数据,也需要模拟数据和真实机器人数据。

一旦我们能够扩展数据管道,并获得高质量的动作数据,我们就可以将这些数据 token 化,并将其输入 Transformer 进行压缩。所以我觉得 Transformer 的潜力还未完全发挥出来。

一旦我们解决了数据策略问题,我们可能会看到一些随着数据和模型规模扩展而出现的涌现现象。我称之为具身智能的“Scaling Law”,这才刚刚开始。

Stephanie Zhan

我对此非常乐观。很好奇的是,当我们到达那个突破点时,你个人最期待看到的是什么?你认为哪个行业、应用或用例会完全改变今天的机器人世界?

Jim Fan

是的。实际上,我们选择人形机器人作为主要研究方向有几个原因。一个原因是,世界是围绕人体形态设计的,所有的餐馆、工厂、医院以及我们的设备和工具都是为人类及其手形设计的。

因此,原则上,一个足够先进的人形机器人硬件应该能够完成任何一个普通人类可以完成的任务。

虽然当前的人形机器人硬件还没有达到那个水平,但我相信在未来两到三年内,人形机器人硬件生态系统将会成熟。

届时,我们将拥有可负担得起的人形机器人硬件,问题将变成如何为这些人形机器人提供 AI 大脑。

一旦我们拥有了能够接受任何语言指令并完成任何人类能做的任务的通用基础模型,我们就可以释放大量经济价值。比如我们可以在家庭中拥有机器人,帮助我们做家务、洗衣、洗碗、做饭,或者照顾老人。

我们还可以在餐馆、医院、工厂中使用它们,帮助完成各种人类的工作。我希望这能在未来十年内实现。

不过正如我之前提到的,这不仅仅是技术问题,还涉及许多技术之外的问题,我对此充满期待。

Sonya Huang

你们选择专注于人形机器人还有其他原因吗?

Jim Fan

是的。还有一些更实际的原因,比如训练管道方面。关于人类的数据在网上有很多,视频中的内容大多是以人为中心的,人类在执行日常任务或娱乐活动。

人形机器人的外形最接近人类的形态,这意味着我们用这些数据训练的模型可以更容易地迁移到人形机器人形态,而不是其他形态。

比如说,关于机器人手臂和夹爪的视频有多少?很少见吧。但我们能看到很多关于人类用五指手工作的视频。

因此,训练人形机器人可能更容易。一旦我们拥有了这些基础模型,我们可以进一步专门化它们,应用到机器人手臂等更具体的机器人形态上。这就是为什么我们首先追求全面的解决方案。

Stephanie Zhan

你们目前只专注于人形机器人吗,还是也会涉及机器人手臂或机器狗?

Jim Fan

Project Groot 目前主要专注于人形机器人。但我们构建的管道,包括模拟工具和真实机器人工具,足够通用,将来也可以适应其他平台。因此,我们正在构建这些工具,以便广泛适用。

Sonya Huang

你多次提到“通用”这个词。我认为机器人领域的一些人认为通用方法行不通,必须针对特定领域和环境。为什么你们选择了通用的方法?我们节目里经常提到Richard Sutton的“苦涩教训”。你认为这在机器人领域也适用吗?

Jim Fan

绝对适用。我想首先谈谈我们在自然语言处理( NLP )领域看到的成功案例。在ChaggbT和 GPT-3 出现之前, NLP 领域有很多专门针对不同应用的模型和管道,比如翻译、编程、数学运算和创意写作,它们都使用了不同的模型和训练管道。但ChaggbT出现后,将所有这些应用统一到了一个单一的模型中。

我们称这些为“通才”模型。而一旦有了通才模型,我们就可以通过提示、精炼等方式将它们专用于具体任务,形成“专才”模型。

根据历史趋势,几乎总是专才通才模型比原始的专才模型要强大得多,而且维护起来更简单,因为只有一个 API ,它输入文本,输出文本。因此,我认为我们可以遵循 NLP 领域的成功路径,这在机器人领域也将如此。

到 2024 年,大多数机器人应用仍处于专才阶段,即针对特定任务、特定硬件、特定数据管道的专门模型。

但 Project Groot 的目标是构建一个通用的基础模型,首先用于人形机器人,然后推广到各种机器人形态或具身形式。这就是我们追求的通才时刻。

一旦我们有了通才模型,我们可以对其进行定制,使其适用于具体的机器人任务。而这些将成为专才通才模型的体现。

但在拥有通才模型之前,这一切还不会发生。因此,从短期来看,追求专才模型会更容易,因为你只需专注于非常狭窄的任务领域。

但我们在 Nvidia 相信未来属于通才模型,尽管它需要更长的开发时间,也有更多的研究难题要解决,但这是我们首先追求的目标。

Stephanie Zhan

Nvidia 构建 Project Groot 的另一个有趣之处在于,正如你之前提到的, Nvidia 既拥有芯片也拥有模型。你认为 Nvidia 可以做些什么来在自家芯片上优化Groot模型?

Jim Fan

是的,在今年 3 月的 GTC 大会上,Jensen还发布了下一代边缘计算芯片,称为Jensen Source芯片,它实际上是与Project Groot一起发布的。

我们的想法是,向客户提供一个从芯片级别(Jensen Source系列芯片)到基础模型(Project Groot),再到模拟工具和沿途开发的其他实用工具的完整技术栈。这将成为一个面向人形机器人以及智能机器人的计算平台。

我想引用 Jensen 的一句名言,这是我最喜欢的之一:“所有能够移动的东西最终都会实现自主化。”我也相信这一点。

虽然现在还没有实现,但我们可以预见,在未来十年或更长时间内,如果我们相信将来会有和 iPhone 一样多的智能机器人,我们最好从今天开始建设。

Sonya Huang

太棒了!你们的研究目前是否有特别值得强调的成果?有什么让你对你们的方法充满信心或乐观的吗?

Jim Fan

是的,我们可以谈谈一些之前的工作。其中我非常满意的一项工作叫做URAC。我们在这个项目中做了一个演示,训练一个五指机器人手进行转笔的动作。

对我个人来说,这特别幽默,因为我已经放弃了转笔这个技能。所以我自己做不到,但机器人手却可以。而我们用来训练它的方法是,我们使用 LLM 来编写代码,控制由 Nvidia 构建的模拟 API ,称为 i6M  API 。LLM 输出代码来定义奖励函数。

奖励函数基本上就是我们希望机器人完成的理想行为的规范。如果机器人走在正确的轨道上,它就会获得奖励;如果做错了事,就会受到惩罚。

通常,奖励函数是由一个非常了解 API 的机器人专家设计的,这是一个需要高度专业知识的工作,而且过程非常繁琐和手动。

我们开发了一种算法,使用 LLM 来自动化奖励函数的设计,让机器人能够完成复杂的任务,比如转笔。

这是一种通用技术,我们计划将其扩展到不仅仅是转笔,它应该能够为各种任务设计奖励函数,甚至可以通过 Nvidia 的模拟 API 生成新的任务。这为我们的进一步发展提供了广阔的空间。

Sonya Huang

我记得五年前有一些研究团队在解决魔方问题,用机器人手来完成,当时感觉机器人领域经历了一个“幻灭期”。而在过去一年左右,这个领域似乎又热起来了。

你认为为什么现在是机器人领域的“时机”?有什么不同的地方吗?我们听说 OpenAI 也在重新进入机器人领域,大家都在加大努力。你觉得有什么变化吗?

Jim Fan

是的,我认为现在有几个关键因素与之前不同。首先是机器人硬件。从去年年底开始,我们看到了机器人硬件生态系统的激增。

像特斯拉在开发 Optimus,波士顿动力(Boston Dynamics)等,还有很多初创公司。我们看到硬件越来越强大,具有更好的灵活手和全身可靠性。第二个因素是价格下降。

我们看到人形机器人的制造成本显著下降。比如 2001 年,NASA 开发了一个人形机器人,叫做 Robonaut,如果我没记错的话,每个机器人成本超过 150 万美元。

最近一些公司能够将全功能人形机器人的价格定在大约 3 万美元左右,大致相当于一辆车的价格。

而且随着产品的成熟,它的价格通常会趋向于原材料成本。对于人形机器人,原材料成本通常只有汽车的4%左右。

所以未来几年,我们可能会看到成本急剧下降。这使得这些硬件越来越负担得起,这是人形机器人再次获得动能的第二个因素。

第三个因素是在基础模型方面。我们看到 LLM (如GPT、Claude、Llama等)在解决推理和规划问题方面表现得非常出色。这些模型能够很好地泛化,能够编写代码。

我们提到的 URAC 项目正是利用了这些语言模型的编程能力来开发新的机器人解决方案。还有多模态模型的兴起,提升了计算机视觉和感知能力。

我认为这些成功也鼓励我们追求机器人基础模型,因为我们可以利用这些前沿模型的泛化能力,并在其上添加动作层,生成最终驱动人形机器人的动作 token 。

Stephanie Zhan

我完全理解这一切。你提到的很多研究进展,许多是你自己在Centauril等项目中做出的贡献,再加上 Nvidia 的工具(如IZX等)极大地加速了该领域的进展,尤其是在传感和更便宜的传感设备等方面。所以我觉得现在是从事这个领域工作的非常激动人心的时刻。

Jim Fan

是的,我同意。

Sonya Huang

我记得你最初的研究更多是在虚拟世界领域。你能不能谈谈是什么让你对 Minecraft 和机器人产生了兴趣?在你看来,它们是否是相关的?是什么让你对虚拟世界产生了兴趣?

Jim Fan

这是个好问题。对我来说,我的个人使命是解决具身智能问题,而虚拟世界中的具身智能智能体就是像游戏和模拟中的那些智能体。因此我对游戏也有非常特别的情感。我自己也很喜欢玩游戏。

Stephanie Zhan

你玩什么游戏?

Jim Fan

我玩 Minecraft ,我试过,但我并不是一个非常好的玩家。所以我希望我的 AI 能弥补我糟糕的游戏技巧。我之前参与了几个游戏项目。第一个是叫做Mind Dojo的项目,我们在 Minecraft 游戏中开发了一种通用智能体平台。

对于不熟悉的观众来说, Minecraft 是一个开放的体素世界,你可以在其中做任何你想做的事情。你可以制作各种工具,冒险,它是一个开放式游戏,没有特定的得分目标,也没有固定的剧情。

我们从互联网上收集了大量数据,有人玩 Minecraft 的视频,也有解释游戏机制的wiki页面,这些是多模态文档,还有像 Reddit 的 Minecraft 子论坛,那里有很多人用自然语言讨论游戏。

我们收集了这些多模态数据集,训练模型来玩 Minecraft 。这个项目叫做 Mind Dojo。后来第二个项目叫做  Voyager 。这个想法是在 GPT-4 发布后产生的,因为它是当时最好的编程模型。

于是我们想,如果我们将编程作为行动呢?基于这个想法,我们开发了  Voyager  智能体,它通过编写代码与 Minecraft 世界互动。

我们使用一个 API 将 3D 的 Minecraft 世界转换为文本表示,然后让智能体使用行动 API 编写代码。就像人类开发者一样,智能体并不总是能在第一次写出正确的代码。

所以我们给它一个自我反思循环,如果它在 Minecraft 世界中遇到错误或做错了事,它会收到反馈并修正它的程序。一旦它写出了正确的程序,我们称之为技能,它会将其保存到一个技能库中。

以后当智能体遇到类似的情况时,它不需要再次经历试错过程,可以直接从技能库中调用技能。

你可以将这个技能库视为一个代码库,它是由 Voyager 自己互动地构建的,完全没有人类干预。整个代码库都是 Voyager 自己开发的。

这是第二个机制,技能库。第三个机制是我们称之为自动课程生成。智能体知道它知道什么,也知道它不知道什么。

因此它能够提出下一个任务,这个任务既不会太难也不会太简单,然后它能够沿着这条路径发现各种技能、工具,并在 Minecraft 的广阔世界中旅行。

因为它旅行得很多,所以我们称之为 Voyager 。所以这就是我们团队最早构建具身智能体与虚拟世界交互的尝试之一。

Sonya Huang

谈谈你刚才提到的课程生成机制,我觉得这非常有趣,因为这似乎是推理和 LLM 世界中尚未完全解决的问题之一。

如何让这些模型自我意识到下一步该做什么以提高自己?你能否再详细谈谈你们在课程生成和推理方面的构建?

Jim Fan

当然。我认为这些前沿模型展示了一种非常有趣的涌现特性,它们能够反思自己的行为,并且它们似乎知道自己掌握了什么、还不知道什么,能够据此提出任务。

在 Voyager 中,我们给智能体设定了一个高层指令,那就是尽可能多地发现新的物品。

我们只给了这个一句话的目标,没给出任何关于先发现哪些物品、先解锁哪些工具的指令。

智能体通过编码、提示和技能库自己发现了这些。这种系统的工作方式非常惊人,我认为这是一种在拥有强大推理引擎后自然涌现的特性。

Sonya Huang

你认为为什么这么多的虚拟世界研究都集中在虚拟世界?我相信不仅仅是因为许多深度学习研究人员喜欢玩电子游戏,虽然这可能也有点帮助。你觉得在虚拟世界中解决问题与物理世界中的问题有什么联系?两者如何相互影响?

Jim Fan

是的,我一直认为游戏和机器人之间有很多相似的原则。对于具身智能体来说,它们的输入是感知信息,比如视频流和一些感官输入,输出则是行动。

在游戏中,这可能是键盘和鼠标的动作,而在机器人中则是低级别的运动控制。所以从 API 的角度看,这两者是相似的。

这些智能体需要探索世界,某种程度上需要自己收集数据,这就是我们所谓的强化学习和自我探索,而这一原则在物理智能体和虚拟智能体中都是共享的。但不同之处在于,机器人技术更难,因为你需要跨越模拟与现实的差距。

在模拟中,物理和渲染永远无法完美,所以将模拟中学到的东西转移到现实世界是一大挑战,这是一个开放的研究问题。

因此,机器人技术有一个“模拟与现实差距”问题,而游戏则没有。你是在同一个环境中训练和测试。因此,这是它们之间的区别之一。

去年我提出了一个概念,叫做基础智能体(Foundation Agent),我相信最终我们会拥有一个可以同时应用于虚拟和物理智能体的模型。

基础智能体将能够在三个方面实现泛化:第一是它能够执行的技能,第二是它能够控制的具身形态,第三是它能够掌握的世界,无论是虚拟世界还是现实世界。这就是我们GER团队想要追求的终极愿景,基础智能体。

Stephanie Zhan

谈到虚拟世界和游戏领域,你已经在开放环境中解锁了一些推理和涌现行为。在游戏世界里,你个人的梦想是什么?你希望 AI 智能体在游戏领域带来怎样的创新?

Jim Fan

是的,我对两个方面特别兴奋。首先是游戏中的智能体。现在的 NPC (非玩家角色)有固定的脚本,都是手动编写的。但如果我们有真正“活着”的 NPC 呢?

他们能够记住你之前告诉他们的事情,并且可以在游戏世界中采取行动,改变游戏的叙事和故事发展。这是我们还没有见到的,但我觉得这里有巨大的潜力。

这样一来,每个人玩同一个游戏都会有不同的体验,甚至一个人两次玩同一个游戏,故事也不一样,这样每个游戏都有无限的重玩价值。

第二个方面是游戏世界本身的生成。我们已经看到了许多工具在做这方面的部分工作,比如从文本生成 3D 资产,或者从文本生成视频的模型,还有能够生成故事情节的语言模型。

如果我们把这些工具结合起来,那么游戏世界可以在你玩的时候即时生成,并与你互动。这将是非常令人惊叹的,也是一个真正开放式的体验。

Stephanie Zhan

特别有趣。关于智能体的愿景,你觉得需要 GPT-4 级别的能力吗?还是像 Llama 8B 这样的模型就能实现?

Jim Fan

我认为智能体需要具备几个关键能力。首先,它需要能够进行有趣的对话,拥有一致的个性,具备长期记忆,还要能够在世界中采取行动。

就这些方面而言,目前的 Llama 模型已经相当不错,但还不足以产生非常多样化和引人入胜的行为。因此,我认为在这方面仍有差距。另一个问题是推理成本。

如果我们想将这些智能体部署给游戏玩家,要么需要非常低的云托管成本,要么能够在本地设备上运行,否则在成本上是不可扩展的。所以这是另一个需要优化的因素。

Sonya Huang

你觉得在虚拟世界中的所有工作,是否是为了服务于物理世界的目标?还是说虚拟世界本身就是一个足够有价值的领域?你如何在物理世界和虚拟世界之间平衡你的工作优先级?

Jim Fan

我认为虚拟世界和物理世界最终只是在同一个轴上的不同现实。举个例子,有一种技术叫做领域随机化,它的工作原理是你在模拟中训练机器人,但同时在 1 万个不同的模拟中并行训练,每个模拟的物理参数都不同,比如重力、摩擦力、重量等。这实际上是 1 万个不同的世界。

如果我们有一个智能体能够掌握所有这 1 万个不同的现实配置,那么我们现实的物理世界就只是第 1 万零一个模拟。在这种情况下,我们能够从虚拟世界直接泛化到现实世界。

这实际上正是我们在 Eureka 后续工作中所做的。我们使用各种随机化的模拟训练智能体,然后无需进一步微调,就能够将其直接转移到现实世界。

我相信这种方法是有效的。如果我们有各种虚拟世界(包括游戏世界),并且有一个智能体能够在所有这些世界中掌握各种技能,那么现实世界只是更大分布中的一部分。

Stephanie Zhan

你能不能跟大家分享一下 Dr. Eureka 项目?

Jim Fan

当然。在 Dr. Eureka 项目中,我们基于 Eureka 的成果,依然使用 LLM 作为机器人开发者。LLM 会编写代码,代码用于指定模拟参数,比如领域随机化参数。

经过几次迭代后,我们在模拟中训练的策略能够泛化到现实世界。我们展示的一个具体例子是,我们让一个机器人狗在瑜伽球上行走,它不仅能够保持平衡,还能向前行走。

有一个非常有趣的评论,有人让自己的真狗去尝试这个任务,结果发现它的狗真的能做到这一点。所以在某种程度上,我们的神经网络超越了“真狗”的表现。

Sonya Huang

我敢肯定我的狗是做不到的,哈哈。

Jim Fan

是的,人工狗智能(ADI),这是下一本冒险书的主题。

Sonya Huang

在虚拟世界领域,最近出现了很多令人难以置信的 3D 和视频生成模型,许多都是基于 Transformer 的。你觉得我们是否已经达到了那个可以凭借这些架构实现理想目标的阶段?或者你认为在模型架构方面仍然需要一些突破?

Jim Fan

是的,我认为在机器人基础模型方面,我们还没有充分发挥 Transformer 架构的极限。当前更大的瓶颈是数据问题。

正如我之前提到的,我们无法从互联网上下载机器人控制的数据。我们必须在模拟中或通过真实机器人收集这些数据。

一旦我们有了成熟的数据管道,我们就可以将这些数据 token 化,然后将它们送入 Transformer 进行压缩,就像 Transformer 预测 Wikipedia 上的下一个词一样。

我们仍在验证这些假设,但我认为 Transformer 的极限还未被充分探索。目前也有很多替代 Transformer 架构的研究,我对此非常感兴趣。

最近有一种叫做测试时训练(test-time training)的架构,还有一些其他的替代方案,它们提出了一些非常有前景的想法。虽然这些替代架构还没有达到最前沿模型的表现,但我期待看到更多 Transformer 的替代方案出现。

Stephanie Zhan

有没有什么特别吸引你注意的模型,为什么?

Jim Fan

是的,我提到了“member”工作和“测试时训练”模型,这些模型在不同时间点表现得更有效率。与 Transformer 模型需要处理所有过去的 token 不同,这些模型有更高效的内在机制,所以我觉得它们很有前途。不过,我们需要将它们扩展到前沿模型的规模,才能真正看到它们与 Transformer 的正面对比。

Stephanie Zhan

具身智能领域之外,你对 AI 最感兴趣的是什么?

Jim Fan

我对视频生成特别兴奋,因为我认为视频生成是一种世界模拟器。我们可以从数据中学习物理和渲染。我们已经看到了像 OpenAI 的 Sora 这样的模型,后来有很多新模型跟上了 Sora,所以这是一个正在进行的研究话题。

Sonya Huang

世界模拟器能带给我们什么?

Jim Fan

我认为它能为我们带来一个数据驱动的模拟环境,在其中我们可以训练具身智能,那将会非常了不起。

Stephanie Zhan

从长期来看,你对 AI 最感兴趣的是什么?十年或更久以后?

Jim Fan

有几个方面。首先是推理方面,我对能够编程的模型非常感兴趣。我认为编程是一个非常基础的推理任务,同时具有巨大的经济价值。也许十年后,我们会有达到人类水平的编程智能体,这将大大加速开发进程,使用这些大模型本身。第二个方面当然是机器人技术。

我认为十年后,我们将拥有像人类一样可靠和敏捷的人形机器人,甚至可能超越人类。我希望到那时,Project Groot会取得成功,我们能够拥有帮助我们日常生活的人形机器人。

我只是希望机器人能帮我洗衣服。这是我的梦想。

Sonya Huang

你觉得哪一年机器人会帮我们洗衣服?

Jim Fan

越快越好,我已经等不及了。

Sonya Huang

在 AI 领域,谁最启发你?你曾有机会与许多伟大的 AI 人物共事,最早可以追溯到你的实习时期。现在谁对你影响最大?

Jim Fan

我在 AI 领域有太多的英雄。首先,我非常敬佩我的博士导师 Fei-Fei Li。她教会了我如何培养良好的研究品味。

有时候,问题不是如何解决,而是要确定哪些问题值得解决。实际上,“什么问题”比“如何解决问题”要难得多。

在博士期间,我在她的指导下转向了具身智能研究,现在回想起来,这是正确的方向。我相信 AI 智能体的未来将是具身的,不论是用于机器人还是虚拟世界。

我也很敬佩 Andrej Karpathy,他是一位伟大的教育家,他写代码就像写诗一样,我非常仰慕他。还有 Jensen Huang,我对他的敬佩之情溢于言表。他不仅关心 AI 研究,还非常了解模型的技术细节,这让我非常佩服。

Stephanie Zhan

谈到拥有良好的研究品味,你对那些在 AI 领域创业的创始人有何建议?他们该如何找到正确的问题去解决?

Jim Fan

我认为有一些研究论文现在变得越来越容易理解,里面有一些非常好的想法,而且越来越实用,而不仅仅是理论性的机器学习。因此,我建议大家保持对最新文献的关注,同时尝试其他人开发的开源工具。比如在 Nvidia ,我们开发了模拟器工具,任何人都可以访问并下载,可以在模拟环境中试验机器人,亲自实践是非常重要的。

Stephanie Zhan

说到 Jensen 作为一个偶像,你认为那些在 AI 领域创业的创始人能从他身上学到哪些实用的建议?

Jim Fan

我认为是找到正确的方向去努力。例如, Nvidia 押注于人形机器人,因为我们相信这是未来。还有具身智能,如果我们相信十年后世界上会有和 iPhone 一样多的智能机器人,那么我们最好今天就开始努力。

VC 今年以来对 AI 初创公司投资达 641 亿美元,接近 2021 年峰值,但全球 AI 年收入总额也才数百亿美元

OpenAI 凌晨发布 o1 系列推理模型的两个 o1-preview 以及 o1-mini,旨在真正像人类一样思考

aigc阅读(70)

凌晨,OpenAI 在没有任何预告下正式发布了全新 o1 系列模型:

据悉,这次发布的 o1-preview 是 o1 系列模型的首个尝鲜版,OpenAI 预计会有定期的更新和改进。

与此同时,OpenAI 还包括了正在开发中的下一次更新的评估。

包括 o1 在内的系列模型,旨在花更多时间进行思考,能够推理复杂任务,并在科学、编程和数学等领域解决比以往模型更难的问题。

OpenAI 将其比喻成人类。通过训练,这些模型学会优化思考过程,尝试不同的策略,并能够识别自己的错误,真正的像人类一样思考。

OpenAI 透露,o1-preview 是系列推理模型在 ChatGPT 和 API 中的早期预览,OpenAI 还计划继续开发并发布 GPT 系列的模型,同时发布新的 OpenAI o1系列模型。

除了模型更新外,OpenAI 预计还会增加浏览、文件和图片上传等功能,以使其对所有人更有用。

o1 系列及 o1-preview 模型

在 OpenAI 测试中,推理模型在物理、化学和生物等挑战性基准任务中表现得与博士生相当。

在数学和编程方面表现出色。在国际数学奥林匹克(IMO)选拔考试中,GPT-4o 只正确解决了 13% 的问题,而推理模型得分为 83%。编程能力在比赛中达到了Codeforces 竞赛的 89 百分位。

OpenAI 表示,作为早期模型,目前还不具备使 ChatGPT 实用的许多功能,比如浏览信息、上传文件和图片。对于许多常见情况,GPT-4o 在短期内会更为强大。

但对于复杂的推理任务,这代表了 AI 能力的重大进展。OpenAI 将计数器重置为1,并将这一系列命名为OpenAI o1。

安全性

在开发该系列新模型过程中,OpenAI 提出了一种新的安全训练方法,利用它们的推理能力,使其遵循安全和一致性指南。通过在上下文中推理安全规则,模型能够更有效地应用这些规则。

OpenAI 通过测试模型在用户尝试绕过其安全规则(即“越狱”)时的表现来衡量安全性。

在OpenAI 最难的越狱测试中,GPT-4o 得分为22(满分 100 分),而 OpenAI 的o1预览模型得分为 84。

为了匹配这些模型的新能力,OpenAI 加强了OpenAI 的安全工作、内部治理以及与联邦政府的合作。

包括使用OpenAI 的《准备框架》进行严格的测试和评估、世界级的红队测试、以及包括安全与安保委员会在内的董事会级别审查流程。

为了推进对AI安全的承诺,OpenAI 最近与美国和英国 AI 安全机构达成了正式协议。OpenAI 已开始将这些协议落实到位,包括为这些机构提供该模型研究版本的早期访问。

适用人群

OpenAI 表示,这些增强的推理能力可能对解决科学、编程、数学等领域的复杂问题特别有用。

例如,o1可以帮助医疗研究人员标注细胞测序数据,帮助物理学家生成量子光学所需的复杂数学公式,并帮助各领域的开发人员构建和执行多步工作流程。

OpenAI o1-mini

OpenAI 表示,o1系列在准确生成和调试复杂代码方面表现优异。

为了为开发人员提供更高效的解决方案,OpenAI 还发布了OpenAI o1-mini,这是一款更快、更便宜的推理模型,特别适用于编程。

作为较小的模型,o1-mini 的成本比 o1 预览版便宜 80%,是一款适合需要推理但不需要广泛世界知识的应用的强大且具成本效益的模型。

如何使用 OpenAI o1

9 月 12 日起,ChatGPT Plus 和 Team 用户可以在 ChatGPT 中访问 o1 模型。可以手动选择 o1-preview 和 o1-mini 模型,发布时每周的消息限制分别为30条和50条。

目前,OpenAI 正在努力增加这些限制,并使ChatGPT能够自动选择最合适的模型。下周,ChatGPT Enterprise 和 Edu 用户也将能够访问这两个模型。

据悉,开发者可以开始使用 API 原型开发,限速为每分钟20次请求。经过额外测试后,OpenAI 将努力提高这些限制。

当前这些模型 API 不包括函数调用、流式传输、系统消息支持等功能。此外,OpenAI 也计划为所有ChatGPT免费用户提供 o1-mini 访问权限。