欢迎光临
我们一直在努力

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

aigc阅读(50)

没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??

强如GPT-4o,都坚定地认为9.11更大。

谷歌Gemini Advanced付费版,同样的口径。

新王Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

到这一步还是对的,但下一步突然就不讲道理了

如上所示,9.11比9.90大0.01。
你想让我进一步详细解释小数的比较吗?

这你还解释啥啊解释,简直要怀疑是全世界AI联合起来欺骗人类了。

艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他表示:

一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。

也有网友发现了华点,如果是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。

而AI都是软件工程师开发的,所以……

那么,究竟是怎么回事?

一、先进大模型集体翻车‍‍‍‍‍‍‍

一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?

发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。

简单介绍下,他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。

最近他在使用GPT-4o时偶然发现,当提问:

9.11 and 9.9——which is bigger?

GPT-4o竟毫不犹豫回答前者更大。

面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。

好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。

不过,有网友试着给提问换了个顺序,没想到这下AI竟反应过来了。

看到AI对词序如此“敏感”,该网友进一步推测:

先问哪个更大,AI会沿着明确路径开始比较数字。
但如果只是随便说说数字,没有明确目的,AI可能会开始“胡思乱想”。

看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。

面对这一个诡异的问题,国产大模型表现如何呢?‍‍‍

我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:

Kimi也是不加解释就直接给出错误结论。

智谱清言APP上的ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。

不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。‍‍‍‍

字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。

比较可惜的是文心一言,面对这个问题,也是触发了联网查询。

本来都已经做对了,但突然话锋一转又导向了错误结论。

不过从文心一言的思路解释上,也可以看出背后问题所在。

由于大模型以token的方式来理解文字,当9.11被拆成“9”、“小数点”和“11”三部分时,11确实比9大。

由于OpenAI使用的Tokenizer开源,可以用来观察大模型是如何理解这个问题。

上图可以看出,9和小数点分别被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”。

所以使用这种tokenizer方法的大模型会认为9.11更大,其实是认为11大于9。

也有网友指出,像是书籍目录里第9.11节也比第9.9节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。

也就是问题本身对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清楚这两个数字代表什么。

只要向AI解释明白这是一个双精度浮点数,就可以做对了。

在有额外条件的情况下,tokenizer这一步依然会给11分配更大的token。但是在后续自注意力机制的作用下,AI就会明白要把9.11连起来处理了。

后来Goodside也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你9.11>9.9,这很奇怪。

经过反复尝试后他发现,想让AI上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。

但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。

虽然问题很简单,错误很基础。

但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?

首先,大名鼎鼎的Zero-shot CoT思维链,也就是“一步一步地想”,是可以做对的。

不过角色扮演提示,在这里作用就有限了。

刚好最近也有微软和OpenAI都参与的一项研究,分析了1500多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……

具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

二、One More Thing

与此同时,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

更新内容为:另一位线人报告,OpenAI已经在内部测试了新模型,在MATH数据集上得分超过90%。路透社无法确定这是否与“草莓”是同一个项目。

MATH数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。

但是OpenAI新模型在没有额外提示情况下,能不能自主解决“9.11和9.9哪个大?”。

突然没信心了,还是等能试玩了再看结果吧……

参考链接:

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

大厂必争之地!AI搜索产品万字长文分析

aigc阅读(168)

本文会从一个360AI搜索的负面案例切入,讨论三个大问题:

1、为什么AI搜索产品成了共识

2、AI搜索产品的演进方向猜测

3、AI搜索产品的核心体验及影响因素

全文约15000字,看不完记得收藏~~

—-正文分割线—-

最近在使用360AI搜索的时候遇到一个比较严重的产品设计问题,非常影响体验。

在360AI搜索首页,和普通搜索产品类似,有信息流和今日热搜两个模块。

昨天偶然看到一条热搜是【工资四千月工作300h】,这个标题确实很吸引人,所以作者打开了这条热搜想看看详细信息,结果打开的页面内容是这样的:

标题和内容完全对不上!

原因也简单,360AI搜索使用了大模型能力对输入的信息进行了处理,而不是点击这条热搜新闻直接打开一个链接。

按照传统的搜索引擎的做法一般是把关键词“月薪4000工作300小时”匹配到各个新闻网站,然后用户打开新闻网站查看详细内容。

360这里应该是只把热点新闻的标题传给模型处理工作流了,结果出现了这么个驴头不对马嘴的结果。(可能是出于节约成本的做法,传标题和传全部正文消耗的token可能是百倍,不过后续的测试好像又推翻了这个猜测)

这里面的体验问题不止一个,挨个分析一下:

1、新闻信息是否适合用大模型处理后呈现?

用大模型处理新闻信息优点非常明显,能够在短时间内对大量新闻内容进行总结和提取关键点,节省用户的时间。对企业来说也能减少对人工编辑和记者的依赖,降低成本。

但问题是:用户读新闻时一定需要节省时间吗?类比一下看网络小说可能更容易理解,某著名网文凡人修仙传也可以用一句话总结出来:韩立(主角)经过千年修行终于渡劫成功飞升仙界,全书完。这里的小说完全可以类比具有娱乐属性的新闻,不巧的是在所有新闻的被阅读量占比中,娱乐新闻远多于严肃新闻。

当内容的细节被模型处理后丢失时,内容是否还能引起用户消费的兴趣是一个比较重要的问题。还以360AI搜索来说,处理前后的新闻分别是这样的:

入口:

处理后:

处理前:

https://www.thepaper.cn/newsDetail_forward_27930855(原文较长,感兴趣朋友用这个链接看看,也可以直接看下面的结论)

以作者阅读处理前后的新闻的主观感受来说,阅读原文体验更好,原因大概在于几点:

1)文风:不同类型的新闻肯定会使用不同的文风,这种新闻和政务新闻和UC震惊部的新闻肯定文风都不一样,但现在的AI搜索产品显然还没有做到根据不同新闻类型使用不同的文风来形成最后直面用户的内容,因此文风一定程度上影响了阅读体验。

2)多媒体信息:原文中存在不少动图,有的链接中还有视频,但经过模型处理的新闻只有文字,多种媒体类型的信息对阅读的影响很大,在信息协同接收、情感传递、情绪影响等方面都会影响阅读体验。

现在有的AI搜索产品已经可以做到读多种媒体信息,但很显然还没有任何一款产品能做到输出多模态信息(准确的说是可以但很贵,某视频生成模型的生成5秒的视频成本在1.5元左右)。

3)信息与场景的匹配错位:用户可能是在午休时间悠闲的刷着网页,但看到的确实更偏向工作内容的结构化信息,情感投射一下就错位了,这种体验可能用户讲不清楚,但一定会明确的反应在主观感受上。

现在各家AI搜索产品都以结构化的结果呈现方式作为卖点,但信息的呈现方式一定需要与场景匹配,也并非所有场景用户的目的都是节省时间。

据说360AI搜索已经能够识别4000种用户意图,听起来很多,但以其目前覆盖的用户量和用户使用时涉及到的场景来说,依然需要时间进行跨量级的意图积累。毕竟读新闻都可以再细分成多种意图~

以上是对这个小案例的第一方面体验分析,写的比较长可能读者朋友已经忘了问题本身,我们把话题拉回来一下,面对下图的这个问题,第2方面的体验问题是什么?

2、是输入信息无主语时,模型是否应该自主添加?

以上面的例子来说,用户想看【工资4000月工作300小时】的新闻,结果帮用户算了一下“您的时薪是13.33元/小时”,话说这是咋判断出来主体是用户的?这个【】字问题太大了。

这个例子只是略微有些负面体验,但万一哪天用户打开的热点新闻是“父亲去世早全靠母亲艰难抚养”怎么办?到时候把主体默认为用户那负面体验可就太严重了。

即使不考虑这种极端的负面事件,例如“冲进火场连救三人”这样的新闻还是比较常见也比较容易上热搜的。

长此以往经常被用户看到主体与事件混乱的问题,会影响用户对整个产品所以提供信息的信任度,这对搜索产品太致命了。(目前用户对AI搜索结果的信任也是个重要问题,不过如何构建信任这里不展开了,有机会再写吧)

(这个问题其实也呼应第一点)

以上是对360AI搜索的这个小案例的体验分析,其实其他AI搜索产品也有类似的问题,此处并无贬低360的意思,据作者所知360AI搜索的增速、迭代速度都非常牛逼。体验上也远超360其他产品…..

因为作者是做用户体验工作的,所以还是习惯从体验的角度评价产品。

一、为什么AI搜索产品成了共识

AI类产品这么多,为什么只有AI搜索各个大厂都在做?

目前在讨论AI和产品时,有一个比较明显的结论:AI更多是作为新技术、新能力参与到产品中,而用户的需求并未发生本质变化,所以要考虑的是如何用新能力解决为旧需求带来新体验。

在接近一年半之前,阿里原CEO张勇就提出:所有应用都值得用AI重做一遍,当时作者并未理解其含义,现在看来其实也有需求不变,变的是实现方式的意思在里面。

AI搜索产品能成为共识,尤其是很多大厂的共识,当然要从市场规模 、用户需求场景数量、发展潜力等方面考虑。只有这些指标都足够大,才能让各个大厂忍不住动心下场。

对于这些下场指标,看看谷歌、百度、360等公司答案就很明确了,不必多讲,本文中作者主要想从用户体验方面聊聊这个问题。选择这个角度的原因也正如上面所说,用户需求基本不变时,AI产品能取代传统产品关键博弈点就是在用户体验。

按作者的理解:功能只是代码的结果,体验才是用户的结果,是用户视角下最直观的指标,是用户很主观的决定继续使用或离开的原因。

下面是AI搜索产品和传统搜索产品的体验对比:

要对比传统搜索和AI搜索,首先要回到用户使用搜索产品的目的。

当用户使用时,一定是带有要解决的问题过来的(好像是废话,别急往后看),以完成一份产品分析为例,在传统搜索产品中完整的链条大概是这样:

根据用户意图复杂度的不同,一定会经历上述过程3-6个环节,以及极端情况下无搜索结果,问题无法解决的情况。

由于互联网行业多年的蓬勃发展和积累,以及数量庞大的用户参与内容建设的过程中,无结果的情况比较少了,但在一些较垂直的领域依然是对体验影响较大的问题,例如作者经常搜索人因工程与交互设计交叉领域相关的问题,很多时候都找不到答案。

就像用户体验的基础是能解决问题一样,搜索产品的体验基础是有答案。

传统的搜索产品,由于其原理是先收录千亿数量级的网页,当用户搜索时进行匹配,所以只能在有答案的这部分场景下解决问题,且只能在上述“需求从产生到解决的过程”中2-3个环节中发挥作用。

面对无结果的问题,其实出现了不少优秀的解法和产品。例如百度做了提问产品,面对搜索结果需要用户二次整合、答案质量差等问题,也有最佳答案、赞同数等设计。

甚至传统搜索产品也很清楚自己只能解决上述完整流程中部分环节,也在向【搜索结果直接解决问题】这个方向努力,例如在百度中搜索“2024年法定假日”,搜索结果页面的第一条信息就可以直接解决用户的问题:

这种方案已经无需用户从结果列表中做选择再点击打开,但是这种做法一是需要人工识别场景做特殊处理,二是只能直接解决简单需求。三是与一些广告和商业化的场景天然有矛盾(例如搜索优酷,可能第一个结果“必须”是爱奇艺),所以整体上对用户体验的提升很有限。

AI搜索产品由于其原理是使用预训练的大模型生成内容,所以在无结果这部分长尾需求中体验很好 ,而AI搜索产品最大的优势,则是在解决一个需求的完整流程中覆盖了更多环节,并用AI技术代替一部分人脑的工作,向All in one方向的体验迈进了一步。

详细列举AI搜索产品的体验优势如下:

1)能够跨媒体、跨模态得到信息

跨媒体、跨模态得到信息意味着答案更准确、知识库更全面、专业领域答案效果更好。

举个例子,如果我想知道‘XX书店有没有座位’,传统搜索引擎想回到这个问题,几乎必须依靠人类用户参与回答才行,但AI搜索如果找到了一张此书店的图片,则可以使用OCR、ASR技术去读图得到信息,这张图片可能在传统搜索时期就已经存在,但当时图片内的信息无法被利用起来,导致这个问题只能由用户进行回答。这就是跨媒体得到信息辅助答案更准确的简单案例。

在谈论AI产品时,经常提到多模态的概念,作者发现很多人都把媒体类型和模态类型搞混了,这里稍微明确一下:

文字、图片、视频是不同的媒体类型,这些媒体中包含的信息都可以通过视觉模态由人类接收。

图片、声音、味道是不同的模态类型,其中的信息须通过视觉、听觉、味觉等不同模态由人类接收。

模态在人机交互过程的严格定义是:信息传递的通道

信息能够在不同的媒体类型和模态类型之间相互转换的意义体现在搜索过程的输入与输出环节,也体现在知识总量的积累上。

例如上面提到的从图片中获取信息给予用户答案的例子,同理的场景也可以是从音频中得到得到答案提供给用户,假如某AI搜索产品和喜马拉雅这样的音频产品结合,就可以在喜马拉雅庞大的音频数据库中得到无数专业领域的信息。

2)覆盖的需求场景范围更大

这一点要分两方面理解,第一方面是普通用户能使用自然语言描述要搜索的复杂问题了,传统搜索产品虽然也有高级模式,但易用性较差、用户触达率极低,如下图是百度的高级搜索模式,大家觉得普通用户有多少人用过?

作者自己曾经参与的医疗产品中,也遇到过需要使用多字段条件判断+维度关系+逻辑关系+多级括号来描述自然语言的例子,只能说那个操作复杂度即使对专业交互设计师也非常费劲,更别说普通用户了。

第二方面是基于大模型的各种能力,衍生出了新的使用场景,例如在360AI搜索中有大量用户是使用该产品的生成能力、改写能力来解决自己的需求。用户对搜索产品的心智在随着搜索产品能力边界的扩展而发生变化。

3)解决需求的链路变短,复杂度降低

AI搜索产品可以将多个网页的内容聚合、总结并以结构化的方式呈现出来,这在整体流程中这些环节中做到了提效

在这些环节,AI 显著的提升了传统搜索产品中信息分散在各处的问题,是AI搜索产品在当前阶段与传统搜索产品最大的区别之一。同时也在一定程度上减少了广告的干扰。

未来各家一定会在AI搜索产品中加入广告,具体时间取决于AI搜索产品的增速,相对于通用Chatbot,AI搜索产品在输入输出环节消耗的token更多,同样输入一句“产品设计原则”,AI搜索产品需要先拿到多个网页的内容给到大模型,这个过程消耗的token可能是通用Chatbot的上百倍。面对这样的成本,商业化是必然的结果。

在选择网站-阅读-更换网站-阅读这些环节中,AI能力的加入显著的使整个解决问题过程的复杂度降低,用户不再需要曲折的在各个网站之间跳转、分辨、总结。这一点在脑力工作中的体验影响尤其大,能让用户更专注的完成工作。作者自己在写作时就经常因为要查一个资料导致写作思路中断的问题,就是因为查资料的过程曲折又冗长,还得和整整两屏广告斗智斗勇。

4)信息呈现方式更多样化

现在很多AI搜索产品的结果中都使用了思维导图来显示内容结构,有些还支持一键生成PPT,信息呈现方式的多样化意味着在上述流程中的【二次加工】环节为用户提供了更多支持。将完整流程中的更多环节的工作代替用户完成了。

未来可能除思维导图和PPT之外,常用的流程图、拓扑图、鱼骨图以及各种数据展示图表可能都会根据意图识别环节做出的判断做匹配,或是支持以当前结果生成不同图示。

在本文开头的360案例中也曾经提到目前的答案基本是只有文字的,很多原文链接中的图片、动图消失了,这非常影响阅读体验,未来当模型的理解能力继续提升后,应该也可以根据意图和内容做交叉判断选择保留更多媒体类型的信息。

5)更友好的广告体验

传统搜索产品的广告显示位置周边的界面样式是由第三方网站站长决定的,所以广告样式和内容样式可能存在较大差异,广告很明显就能被辨别出来,突兀且生硬。

如下图是微信公众号文章中广告(样式不可控),和知乎官方广告(样式可控),大家看一下就能感受的到体验的差距。

而AI搜索产品的结果页内容是由自家的大模型生成的,内容样式也是自家完全可控可定制的,因此可以与广告统一视觉样式,带来更好的转化效果并降低对用户的干扰。

6)结果更准确、内容质量更高

这一点可以结合第1)点理解,传统的搜索产品由于结果大部分由第三方网站提供,所以对内容的准确度无法控制,对内容的质量更加无法控制。

而AI搜索产品的原理决定了其结果更准确,在用户输入搜索词后,首先会由模型对问题进行改写,例如搜索“2000元以下性能最强手机”,可能就会被改写成“截止2024年7月,中国境内销售的2000元以下性能最强的手机”,由系统补全了用户下意识知道但没有写明的那部分信息。问题描述更准确了,结果自然就更准确了。

第二点原因则是现阶段的AI搜索产品的结果并非单一来源,一般是经过多个内容来源聚合、对比、总结形成的,并且在选择内容来源的时候可能根据问题类型选择更靠谱的源头,例如新闻类信息可以来源于官媒、代码类问题可以来源于CSDN。(人真的会下意识省略那些默认双方都知道的信息,例如这段文字中的“第二点”这几个字,其实我并没有说过“第一点”,但并不影响大家理解~)

同时,基于节省token和反馈速度方面的考虑,并不会把所有检索到的结果(例如10000篇)全部传递给模型处理,而是选择其中的几个(例如10篇)作为源信息,那么在选择这1000中选择10篇时,可能就会按照来源网站、阅读量、作者、互动量、相关性等指标进行选择。

最终从10000篇中筛选出了阅读量更高、被赞同更多、来自某几个知名专业人士的文章传递给了大模型,所以能够在筛选过程中保障AI搜索产品的结果可能更加准确、内容质量更高。

以上6点是AI搜索产品在用户体验上的优势,下面继续聊聊作者猜测的AI搜索产品未来的演进方向。

二、AI搜索产品的演进方向

为了得到更靠谱的结论,依然从搜索的流程开始分析,传统搜索产品的流程可以简单示意为:

结合AI后在各个环节可做的事情如下:

1)输入阶段:扩充输入方式

目前传统搜索引擎基本支持了文字搜索和语音搜索,少数非广域搜索产品还支持了以图片搜索。

这里要注意一点是:作者觉得单纯的使用语音转文字输入问题并不能定义成语音搜索,这样的做法只是改变了文字的输入形式,但没有改变信息总量,语音模态信息中的非文字信息没有被整合进query。

未来则会提升已有搜索方式的可用性,如准确度提升、用时减少。同时基于用户输入信息做补全、纠错和问题推荐(问题推荐应该已经有产品上线了)

再之后可能会对这些搜索方式进行扩充,支持更多的媒体类型,例如动图和视频,读取其中的信息形成query。

但这并不酷!对人机交互的过程改变也非常有限,如果想再进一步则需要打破固有的思维,为什么搜索一定需要以用户主体输入信息呢?

输入过程完成可以变手动为自动,或者说输入环节可能会在整个搜索流程中被透明化。

想一想当我们阅读一篇“super黄的AI文章”时,如果结合具体用户的历史阅读信息、当前的阅读进度,在某个段落的停留时长等信息,就极有可能判断出用户对这个段落中的某个名词含义有些模糊,此时如果直接将这个名词的含义显示出来。就做到了输入阶段的透明化(自动化)。

当然这种阶段的产品可能短时间不会出现,还是需要结合用户的一些简单行为做判断,例如豆包中以划词搜索作为过渡方案。

在人机交互中,一般可以用行为来判断意图,要做到自动化的输入过程则需要更大量的获知用户的环境信息,例如用户看到的界面包含什么信息,用户所处的环境包含什么信息,同时结合大量历史数据、当下特征数据就一定有可能判断出用户想问的问题。

举一个生活中的例子,一个5岁的小朋友读课文,遇到了一个【貔】字,同时小朋友的声音停止了,那么一款智能课本产品在得知阅读进度、生僻字字库、声波消失等信息后,非常有可能直接告诉小朋友:这个字念pi,而不是需要小朋友主动询问。这就做到了搜索过程中输入环节的透明化(或者叫自动化/被动化)。

在AI技术的具体应用上,意图识别是非常重要的一部分能力,而意图识别准确率的前提有一方面是多模态交互,准确的说是人机交互过程中人对机的多模态信息输入。

信息的来源和模态变多了之后总量一定会变多,那么在已知条件变多后,解题准确率(产品判断用户意图的准确率)一定会提高。

就像人与人对话中语言文字只占信息总量的一半左右。多模态交互解决了之前无法被机器接收到的那部分信息的问题,能从信息源上提升意图识别的准确率。(这是AI搜索后续直链其他服务的基础)

不过这还只是把【模态】限制在了【人类信息通道类型】的范围内,对机来说,可能不是【多模态】而是【超模态】,人仅有五感模态,但机器安装传感器器后则可以有更多种信息通道如陀螺仪、GPS、红外信号、人类无法感知到的电磁波、声波……

所以从底层来说机的信息通道数量可以远超人,那么解决了中间层的算力和算法之后,意图识别准确率很大概率可以达到人的水平,变意图识别的下一阶段就是我们刚刚提到的意图预测(智能课本获知多个信息后预测了小朋友不会读貔这个字)。

意图预测的意义就非常重要了,它可以变给出反馈为主动服务。这才是对人机交互过程的重要改变。此处作为一名交互设计师,真诚的点赞荣耀手机发布会中人机交互那部分内容,非常酷!

稍微有点跑题,拉回来:以上这一小段是作者对AI搜索产品未来演进方向的猜测。除此之外可能在情感理解和跨多语言方面也会有更多意义此处就不展开了。下面继续说查询阶段。

2)查询阶段:结合其他信息

目前的AI搜索在用户输入完成后,一般会对问题进行改写,使其更精准或覆盖更多用户可能需要的信息,例如把“RAG”改写成“RAG是什么意思”,甚至改写成“RAG在AI搜索产品中的具体含义”。

这样一来就通过查询阶段的改写进一步提升的输入信息量,可以找到更加精准的信息。

这一点涉及到的技术问题,作者懂得不多,但基于“问题描述的越清楚答案就越精准”这一原理,作者猜测改写的进一步做法是融合更多信息,而不只是对用户在本次使用中输入信息的修改扩展。

融合更多信息指的是融合用户的个人信息、过去查询过的问题、复制行为、写作数据等等很多方面的历史行为数据,再与用户本次输入的信息做融合判断来获取结果。

其实在现阶段一些内容平台、电商网站的推荐算法已经非常精准了,往往我们正需要的内容/商品都会被主动推荐过来,这就是因为这些平台掌握了大量用户的数据。

而AI搜索产品掌握的用户数据类型和总量可能没有电商产品那么多。所以为了提升搜索准确度,作者猜测未来各个大厂可能会努力实现数据互通,但仅以当下的搜索产品商业模式来说,各个大厂还没有足够的利益能够驱动达成这个目标。

所以作者的观点是:AI搜索产品的商业模式和数据积累/互通可能会协同促进,如果AI搜索产品的答案中能够为用户推荐更精准的收费服务/商品,为广告主带来更高的转化和营收,则现在的数据持有者有可能将掌握的数据提供给AI搜索产品。(当然也可以是数据主扩展业务自己做个同类产品)

具体的使用过程还有很多细节需要协商,例如数据是否是直接可见的还是只提供特征等等。

3)输出阶段:扩充输出方式

输出的方式同样包括不同的模态、媒体、形式还有文件类型,目前各个产品支持脑图和PPT,未来应该会支持流程图、鱼骨图….来覆盖更多用户需求。

用户voice

同时对已支持形式的精细化改进也非常重要,例如目前只支持将答案中的脑图作为图片下载,其实无法满足用户编辑修改的需要,如果能生成xmind源文件或支持在网页中对脑图进行修改也非常有意义。

包括PPT的排版形式、精美程度其实目前的AI搜索产品都还做的比较弱,如果和Gamma这样的产品对比,算是被按在地上摩擦了,即使和国产的比格PPT相比,也有很大差距。

面对创作场景,生成与内容相关的配图也是很需要的能力,在把非常长的答案内容如何分割、提取与图像相关的关键词,以及保证全文中配图视觉风格一致都是要考虑的问题。

以上说的是输出阶段支持不同的媒体形式,下面说输出不同模态:

以文字形式输出和以声音形式输出可以满足不同的使用场景,例如当用户设备的距离稍大时,视觉模态就无法帮助用户有效接收信息。

在多任务场景中也可以使用不同模态的信息接收通道来获得更好的协同体验,使用户可以把更多精力集中在主任务。

举个例子现在很多人都有使用双显示器的需求,主要就是为了解决多任务协同的问题,这种方式相对于使用声音通道进行多任务协同更适合需要更多时间理解内容的场景,如果只是想获取一个简单数据,完全可以用语音操控“小爱同学,帮我查一下百度2024年营收数据”并以声音的形式接收直接写到文章里,避免多界面切换带来的割裂感。

再进一步,输出阶段还需要考虑到用户对信息的储存和分享等需求,甚至可以做多内容关联辅助用户后期再查找等需求。

按作者的理解,对信息的储存最好能与笔记产品关联起来,最好能做到无缝导入笔记,并与相关话题产生关联。最简单的做法可以是提取相同关键词形成标签,可以按标签筛选内容。

对于分享的需求则需要考虑分享的渠道、分享的排版精致化、分享时添加用户需要的信息(如加入作者的ID、自媒体名称甚至联系方式等等),以减少用户的二次加工。

4)浏览结果阶段:千意千面

这一阶段是现在各个AI搜索产品重点发力的部分,主要使用大模型的总结能力和文生图能力为用户带来更聚合、更清晰、结构化的结果浏览体验。

但也同样存在问题,上面曾经*·37-提到阅读娱乐新闻的场景就不适合使用结构化、总结后的信息进行展示。

所以作者猜测当未来的AI搜索模型能够识别出更多种、更细致的用户场景和意图后,在界面呈现上会根据不同的场景和意图做出对应的界面样式。

目前结构化的结果显示方式只适合阅读场景中专业知识阅读的细分场景,对于搜索产品来说覆盖的场景数量太多了。看剧、下载文件、寻址等等场景都需要更细致更个性化的界面设计,甚至如寻址这种场景都不需要界面设计,当对寻址意图的判断准确率够高之后,完全可以在用户搜索【优酷】时直接打开该网站。

从这个角度来说,千意千面的面完全可以不限制在页面样式上,包括整体流程都可以根据意图做出区别。届时结合上述其他猜想,可能搜索的流程会变得面目全非:

如果不从业务角度考虑的话,还可以根据用户的审美对页面设计中的字体、颜色、布局等很多其他视觉样式做出个性化呈现。同样可以成为体验提升的一部分,但要注意视觉统一性、品牌性与个性化之间的平衡。

5)结果复用与社区化

目前AI搜索产品的成本依然较高,按super黄与360负责AI业务的VP梁先生的博客公开的数据是每次搜索在0.2元左右。

粗糙的这个成本的构成视为输入和输出阶段消耗的token,那么对于类似的相似度达到一定标准的问题完全可以使用相同的答案。这样可以降低输出阶段token消耗的成本。

对于相似但不达标的问题,之前已经生成的回答依然可以作为信息源参与新问题的结果生成,此时上一个问题生成的结果相当于把多篇内容提炼出与此问题匹配度更高的内容,可能同样可以节省一部分token消耗。

当结果生成后,部分场景有可能用户会对结果内容进行再次优化,如果此时能够引导用户将自己人工修改后的信息作为公开内容,允许被其他用户访问,那么就可以将内容沉淀下来,形成内容社区,最终把内容社区产品与AI搜索产品融合。

传统的搜索产品结果来源大多是第三方网站,所以搜索产品虽然是整个互联网重要的流量入口,但也只能做做卖流量卖广告的生意。其原因就是因为内容不是自己的,商业链路到搜索结果这一步就停了。

而AI搜索产品如果能将内容完成沉淀,形成类似小红书、知乎这样的内容社区则对产品天花板是一次巨大的提升。

简单来讲,搜索产品一般是有需求才使用,而内容社区产品则是有事没事都可以逛一逛。

例如用户喜欢看冷笑话,现在这个时间常规的路径一般是在某内容社区关注了冷笑话类博主,而不是在百度搜索“冷笑话”。

第二意味着用户留存。内容本身就是消费品,更可以在kol与消费者之间进行连接,两方面都是留存的关键。其实内容消费产品的留存能力也不必多说,想想抖音和小红书就知道了~

有些传统的笔记产品也是这个思路,希望能把用户创作的高质量笔记授权后公开显示,基于大基数的用户量形成内容社区,为笔记类产品突破天花板,变工具型产品为社区型产品。例如印象笔记就有源于笔记产品内容板块的独立的【识堂】产品。

对AI搜索产品来说,由于其创作内容更简单,在内容全面性和大众领域的内容质量也能达到一定标准,所以想按这个思路发展是更有机会的,最重要的是可以把自家消耗大量算力产出的内容沉淀下来,产生2次-N次被消费的价值。

通观全篇,其实会发现数据的价值体现在AI搜索产品的各个环节,输入环节可以结合用户个性化数据把问题改写的更清楚准确,匹配环节可以找到更多信息源,输出环节决定了答案准确度和内容质量,搜索后服务环节甚至可以有突破搜索产品天花板的机会。

由此可见数据是AI搜索产品(甚至所有AI产品)的最重要竞争壁垒之二,另一方面毫无疑问是模型能力。

形成社区/搜索融合形态的产品后,更重要的意义是商业方面实现更多模式的收入构成,对于自家不涉及的业务依然可以像传统搜索产品那样出售流量变现,对于自家涉及的业务,完全可以变卖流量为卖产品,拿到更多利润。

从这一点来说,AI搜索产品对规模越大、涉及业务越多的公司重要程度就会越高。再加上新一代流量入口的属性,作者认为AI搜索产品是大厂必争之地。

6)从搜索产品到全部产品

上面的5点我们讨论的基本是AI搜索作为独立搜索产品的演进猜测,但搜索+AI的能力其实可以体现在任何需要搜索功能的产品中。

如笔记产品,用户积累了10年的笔记内容在查找和关联时都是比较困难的问题,在相关内容聚合方面也非常需要AI能力。如果把AI能力加入之后可以实现更精准的搜索、模糊搜索、基于笔记内容的问答等等。

同样的,对电商产品的搜索过程,基于对搜索关键词的改写可以做到更精准的商品匹配,于公司而言可以在企业级知识管理产品中发挥作用,对特定行业可以做科研文献快速查找。

因此作者认为,广义的AI搜索产品可能不是独立产品,而是在众多类型产品的查找场景中发挥作用。

搜素的本质是人的信息需求,而AI搜索的未来形态会分成两种主要场景:

一种是基于已有直接可用信息的匹配,另一种主要场景是基于非直接可用内容的聚合+生成。

三、AI搜索产品的核心体验

唠叨了这么多,其实AI搜索产品的核心体验已经很清晰了,按照用户路径的顺序来说依次是:

输入体验、反馈速度、结果质量、接收体验、搜索后服务,下面依次详细介绍其影响因素:

1)输入体验

输入体验,首先指支持输入的媒体/文件类型,文字、图片、音频、视频、动图、文档、链接….支持的类型越多则用户的操作自由度越高、能覆盖的场景越多,还可以减少输入限制导致的用户手动转换格式的成本,所以支持输入的媒体/文件类型越多体验一定越好。

输入体验的第二方面是非文字信息理解能力,例如的当用户使用语音方式搜索时是否能从语速、音量、停顿等其他方面获取更多信息,使这些信息与语音转化成文字的信息融合起来形成更准确的输入Query。

第三方面是问题转写能力,同样影响着输入Query质量,例如用户输入的是“12400f和12490f相比”被转写为“对比12400f和12490f两个CPU,两者在性能和功耗、游戏体验等方面相比哪个好”其实可以更完善的描述问题并更多更准确的答案。输入体验并非指用户输入的体验,而是指从用户输入直到将query信息输入到模型这一过程的整体影响。

2)反馈速度

反馈速度由索引库、模型效率、算力、服务器性能、网速、需要反馈给用户的数据量等指标决定。

索引库是一个包含产品信息的数据库,其特殊的数据结构可以提升查询效率,使查询过程不需要扫描整个数据就能找到相关结果,对于复杂条件的查询,也能做到更高效的完成。因此索引库效率越高反馈时间越短。

模型效率则在输出环节决定了结果内存的生成速度,不同模型生成内容的速度可能有明显的快慢之分,因此模型效率同样影响反馈速度。反馈速度越快则用户能得到结果信息越快,体验越好。

算力(用户可用部分)直接影响了生成速度,算力在不同时间的需求量会有明显差距,例如工作时间的需求量一定大于夜晚时段,在需求峰时可考虑结合收费方式为付费用户带来更好的体验,或采用其他对企业有益的用户引导给与用户优先使用权,kimichat在几个月前就试水了打赏机制让付费用户在高峰时段能优先使用算力。

对于闲时算力,同样可以预先生成用户可能需要的内容或一些长尾问题,当用需要时直接显示处理,以提高反馈速度。

同样的服务器性能、网速也会事实上对反馈速度有较大影响,但两个方面也适用于传统搜索产品,非AI搜索产品独有的体验影响因素。

需要反馈给用户的数据量这一指标是作者认为需要优化的重点,例如当用户搜索【乔布斯在哪一年创立了苹果公司】,可能用户只是需要一个具体的年份信息,而不需要非常多的长篇大论,把苹果公司和乔布斯的各种信息全部输出一遍对用户来说可能是没有意义的信息。输出这些信息的过程中既消耗了token增加了成本又影响力反馈速度。

某些场景下甚至可以没有输出信息,例如寻址场景用户的最终目的就是打开一个网站,那么没有搜索结果页面直接打开某网站是既低成本又短路径的优秀体验。

3)结果质量

结果质量由索引库数据量、信息源选择规则、信息源总量、模型质量、输入query信息量、问题理解准确度等指标决定。

索引库数据量越大,则匹配过程能找到回答用户问题的信息总量就越多,就涵盖更多用户所需的答案。

信息源选择规则影响了用于传递给模型的信息质量,面对同样的问题,如果选择了百度问答中的答案作为信息源头或使用知乎作为信息源头对结果质量的影响可想而知。

当然信息源选择并非简单选择从百度获取信息还是从知乎获取信息,一般来说对于专业领域的问题可以从各种垂直网站获取专业信息质量更好。对于普通问题,则可能会从内容的相关性、浏览量、作者身份、内容互动量、内容发布时间…等很多维度的指标进行选择,总体原则就是希望通过各种直接的或间接的指标抽象判断出内容质量,将内容质量较好的一部分文章传递给模型进行总结和结构化加工。那么很容易理解信息源选择规则越合理结果质量越好、用户体验越好。

模型质量则在答案信息传递进模型后发挥作用,面对同样的输入信息各家的模型生成的答案可能会有很大不同,此时自然是模型质量越高结果质量越高、体验越好。

同时模型质量的一部分指的是对自然语言的理解能力,面对用户输入的问题能否做到准确理解含义,明白用户需要的是什么,此处不得不再提一下360AI搜索,当我搜索“老虎图片”的时候,居然不能直接定位到图片结果,而是给我显示了这样的结果页面:

首先页面主题居然用文字给我描述了两个图片,然后给我推荐了老虎的其他相关信息,同时右上角的引导我点了十几秒还是关不掉,体验糟透了。

对问题的准确理解影响了后续流程如何推进,再举个简单的例子,当我输入“优酷”的时候,是应该给我介绍一下优酷公司的信息还是应该直接给一个跳转链接?

输入query信息量是被模型处理前的信息量,此信息量越大一般结果质量会越好,但会存在一个临界值,超过此临界值后信息量的增加对结果质量优化将变得很有限,同时考虑到输入类token的成本问题、模型处理所需时间问题,也不能将所有相关信息全部输入给模型。需要界定一个合理数值,这也印证了数据源选择规则的重要性。

4)接收体验

接收体验由可输出的媒体/模态/格式类型、UI界面、二次加工时间、广告体验等指标决定。

可输出的媒体类型和格式越多对用户需求的覆盖度越广,属于有和没有的区别,省去了用户二次转换的时间,这方面的体验的影响不必废话。

可输出的模态则略有不同,例如在驾车场景中,一定是以声音模态输出更符合该场景下用户能接受的方式。在办公室场景中则视觉模态更好。

所以支持不同模态的输出一是匹配不同场景用户适合接收信息的方式,二是多模态协同可以进一步提升信息传递的效率。

视觉模态接收信息的效率可以是听觉的百倍以上,但听觉模态具有被动性、注意力敏感性、环绕性等特点。

被动性指信息可以被动的由人进行接收,相比于视觉信息更不易被遗漏,注意力敏感性指声音的变化能更快速的被用户感知,环绕性指信息来源的位置可以由人周边360°发起,都可以被人接收到。

基于视觉模态和听觉模态的不同特点,多模态融合的方式可以各取其所长,帮助用户同时处理多任务及各种场景下更轻松的接收信息。(多模态交互涉及的内容极多,可能需要另一篇万字长文才能完全解释清楚,这里不多展开了)

上面略微展开了一下信息以不同模态的特点,下面继续说UI界面对接收体验的影响。

UI界面是发展时间最长,被研究最深入的视觉通道信息传递方式,而视觉通道是人类90%以上接收信息的方式,因此单独把UI界面作为影响接收体验的因素之一。

广义的UI设计包括排版、文字、图形、动效、交互方式及其二级属性,由于人类从外界获取信息最主要的途径就是视觉模态,所以UI界面是接收体验中非常重要的一部分。

排版的方式决定了用户获取信息的先后顺序、视觉压力,文字的字体决定了获取信息的难易程度(如草书和楷书)和美观的感受,图形可以更直观的表达信息并附带情感,动效可以引导用户的注意力使视觉焦点始终位于目标信息,交互方式可以让用户更自然的得到隐藏信息、多环节信息。

举个例子如token生成速度对UI界面的影响,现在很多Chatbot的生成答案时都是一个token一个token显示到用户界面上的,这种方式造成了很强烈的动态效果,会对用户注意有严重干扰,影响信息接收效率。

目前token生成速度的价格差异主要体现在厂商定价阶段,作者查了一下没看到根据生成速度定价的厂商,从反馈速度的体验来说,一定是结果生成的越快越好,但可以稍微控制一下显示到界面上的间隔时间。

一般首次等待时间在2秒内不会造成用户流失,后续可以考虑生成一段内容后一次性显示到界面上,避免界面频繁变化。(想一想垃圾网站上不停跳动的小广告应该可以感受到类似的体验~)

二次加工时间则受到前面讲过的可输出的媒体/模态/格式类型、结果质量等因素影响,用户难免遇到搜索结果无法直接在其他场景(如各种汇报)中使用的情况,此时对内容的二次加工时间非常影响体验。

例如对思维导图的编辑是可在线编辑还是需下载后编辑,对生成的图片能否局部修改等等,二次加工所需时间越长则体验越差。

广告体验则是绕不过去的话题,AI搜索产品必定需要进行商业化以覆盖成本,前文中曾提到过视觉样式对广告体验的影响,如下图:

除视觉样式外,广告内容能否与用户属性匹配同样重要,当广告内容恰巧是用户所需内容,并与用户的消费能力相符时,甚至可以实现整体正向的广告体验。

如果整体生态、合作广告主规模足够大,将广告内容无形融合到答案内容将会是未来广告形态的重要变化。

现阶段基于关键词的广告最大的体验问题是非用户所需,即用户需要的东西与广告推荐的东西不匹配,导致了广告信息影响了用户找到、阅读正确的目标信息。

如果用户搜索的目标是“AI课程”,那么即使出现卖课的广告也不会影响用户体验,因为这正是用户所需的。如果再能够保证课程质量(广告对应的商品质量)则体验更佳。而保证广告对应的商品质量的基础就是上方提到的各作广告主规模足够大,有筛选的基础。

5)搜索后服务

搜索后服务的体验由服务范围、搜索-服务融合度、服务-意图匹配度、服务路径长度、信息记忆、广告体验等指标决定。

服务范围指搜索到相关信息后,能否接近一站式的继续解决需求,例如搜索北京旅行攻略,能继续预定去北京的机票/酒店/旅行团。搜索iphone15能在结果页中马上下单购买。

这方面的体验与前文中提过的数据互通、AI搜索产品融合等话题相关,显而易见的是AI搜索后服务能提供的服务范围越大,则路径越短、操作越简、体验越好。

在搜索后服务的流程中,传统方式是在各个大厂的平台切换,用户路径较长并且需要在不同产品中多次输入账号/密码/地址….等很多信息,操作复杂度很高还有诈骗风险。

AI搜索产品如果能融合其他业务,则可以更接近一站式的完整解决需求,而不是将需求分解到多个公司的多个产品中完成。如旅行场景就可以把搜索攻略与机/酒/团等需求一次性解决。这就是搜索-服务融合度的意义。

而服务-意图匹配度则还是强调的意图识别准确率的问题,当某大厂覆盖的业务范围极广,那么能否把各业务与用户搜索的意图精准对应就成了影响商业转化和体验的重要因素。

服务路径长度上面也举过例子,当用户的目的是打开一个网站,那么没有搜索结果页面直接打开某网站是既低成本又短路径的优秀体验。没有必要非给用户一个结果页面上面有个网站入口,还需要再点击一次。不过这个具体场景可能会影响广告曝光量,实际环境中需要再仔细考虑。

广告体验同样也在前文中提到过都不再多说。

—-总结分割线—-

本文内容由3个大主题构成:

1、为什么AI搜索产品成了共识

2、AI搜索产品的演进方向猜测

3、AI搜索产品的核心体验及影响因素

其实目前大多数Chatbot和其他AI类产品出现时间都非常短,很多用户体验方面的问题也来不及做的很细,大多数公司依然在关注模型层面的技术问题。

但作者一直认为在用户视角下其实并不关心模型层面的技术问题,更直接与用户接触的是体验,体验是用户使用产品后在极短时间内、极主观决定是否继续使用这一产品的决定性因素。

因此作者更关注AI产品体验方面的问题,未来也将输出更多AI产品体验的案例与大家分享,感谢的朋友圈可以关注下面的公众号到时收看或加作者微信直接讨论~

本文参考了:

1、super黄老哥的文章《双10亿:AI重塑搜索 | 一文看懂AI搜索现状和未来》

2、橘子汽水铺的文章《AI 搜索,一次讲透》

AI智能体如何打造设计生态运营?快来一探究竟!

aigc阅读(36)

我们所经历的时代是史无前例的,随着多模态能力的不断发展,让我们看到了以前所看不到的世界,拓宽了认知的边界和体验的升级,也帮助我们在提升流程型工作效率的同时进一步扩大了创造型工作的价值。

百度作为一家AI公司,借助AI赋能设计,创造更广阔的生态价值是很值得探索的课题,AI智能体的打造就完美契合了这一趋势。智能体的体验设计是关键而复杂的,它涉及到体验的升级、功能的落地及如何合理引导用户进行更深度的互动行为,从而为业务提供长期的价值助力。

本次我们将以财神智能体孵化为案例,来探讨如何突破设计职能边界去引领业务探索智能体的新方向。

一、抽象化AI智能体基因

首先我们明确了AI智能体的定义,它是一种智能可交互的形态,能借助品牌形象和用户进行互动,并快速覆盖到端内各场景,为用户解决实时需求的同时提供沉浸式的陪伴,还能够助力端内产品功能进行长线的玩法沉淀。

因此,作为一个智能体应该具备以下基因特征:

1.触达人心的品牌基因

智能体的核心品牌基因,需要从多方位视角考虑到用户的视觉触点、操作习惯、功能易玩性及可视化激励等因素,并通过结合实时热点设计和用户亲近的视觉语言体系去快速触达用户群体,提高目标用户对智能体的信任度和代入感。

2.自主决策和承载互动的能力

自主决策和用户的互动体验是AI智能体的核心特点之一。

通过视觉品牌语言体系打通串联各产品的资源能力,助力任务评论文生图、自动回复等AI功能落地,从用户体验的视角去提升AI感知,引导用户以任务的形式建立产品新功能的习惯和认知,传递出产品丰富多元的创新理念。

3.多场景适应的能力

通过设计中台视角,联动多业务创新落地首页氛围彩蛋到端内的交互路径,协助产品和运营首次完成“入口资源-产品内容-产品场景-AI账号沉淀”全链路,形成智能体生态的聚合地。

4.为业务创新带来持续价值的能力

从业务定位和内容创新出发,运用AI智能体的定制化视觉紧密串联运营各业务的AI能力 ,在助力业务突破创新功能完善的前提下,更好去适应AI市场下用户不断发展的长期诉求,持续为业务创新设计带来增益。

二、具象化的AI智能体基因

那么如何将AI智能体和业务诉求进行更好的融合?

我们从抽象的概念中具象出「人格化的功能」「系统化的品牌」「故事化的体验」三个基因方向,去探索用户和业务在体验上的联动点,具体去分析如何突破设计职能的边界,助力产品和运营打通孵化AI智能体运营的全链路。

1.功能人格化,用户体验全面升级

1)设定喜闻乐见的IP形象

将智能体赋予人格化的角色定位,结合民俗明确智能体具象化的世界观,并取「福禄寿禧财」中的“财”作为利益出发点,围绕「迎财神」建立品牌IP等级体系,增强用户在特定节点和场景下触达人心的代入感,提高目标用户对智能体的信任度。

2)丰富情绪个性化表达

在人格化设计的基础上赋予其更丰富的情绪特征,通过分析用户路径,用AI式对话交互在任务的体验链路中设置合适的触发点和互动奖励,及时营造端内热闹的评论区氛围。为「文心一格文生图」「自动回复」「主动评论」等产品功能的渗透提供了丰富有趣的体验场景,在沉浸式体验的过程中建立用户对智能体互动功能的认知。

3)拓展千人千面设计风格

联动B&C端,打通整合“入口生产-发布-分发-沉淀AI账号”全流程,让用户拥有自己专属「财神」的同时将「智能体」的辐射深度增加,形成智能体生态的聚合地。并根据资源场景设计落地契合的财神视效,提升「智能体」人格魅力在多场景下的适应能力和横向推广影响力,为业务创新带来持续增益。

2.品牌语言系统化,突破应用场景边界

1)品牌体系反推端内系列化运营

用具备人格化的AI财神形象进一步构建AI智能体品牌语言体系,并将财神形象反推植入到各个品牌的运营活动中,突破单一活动内容的边界应用场景,用情感连接用户系列化的情感共鸣。

2)打造品牌身份阵地

结合春节大事件建设通用能力,建立智能体财神形象身份账号,助力打造有趣有梗的AI财神爷账号和视频粉丝互动机制。沉淀AI日签模板,推动营造品牌系列化的节日氛围,强化百度视频用户的路径及心智。

3)丰富落地端内场景

拓宽B&C端场景边界,借助激励手段联动AI发布器,首开AI挑战赛中的「变AI财神」「寻找龙潮儿」「AI烟花照」等互动体验,加强品牌故事的沉浸式氛围。

4)巧用AI工具助产

通过AI工具助产和模板定制化,批量借势明星粉丝效应,推广财神智能体生态,营造群星邀你迎财神的热闹氛围,强化品牌宣导的同时最大程度拓宽智能体的影响力辐射。

3.体验故事化,持续刺激情绪触点

1)裸眼3D视效体验破壳首页资源入口

设计差异化的故事脚本带领用户沉浸式感受「财神陪你过大年」,利用故事串联情节发展引导用户行为,使端内体验更加有趣,提升形象与品牌故事的视觉识别度。

2)区分财神等级场景

通过用户的财气值提升滋养智能体的成长,用户与智能体形象融为一体,并在自己的故事中逐步渗透进阶。同时,将IP形象与春节财神下凡散财的品牌故事进行融合,分为“开启-蓄集-收获”3个等级场景,打造出用户「招财纳瑞」,平台「纳福送财」特有的春节氛围,增强品牌故事的感染力。

3)抓住用户的情绪触点

设计有趣的激励动画和全局锦鲤玩法,在增强游戏体验的同时及时给予用户正向反馈,突出智能体在故事体验上的趣味性和挑战性,最终形成可视化激励的良性循环。

三、写在最后

智能体的引入结合极大地提升了设计生态运营的天花板,丰富了活动的体验,拓宽了落地边界。无论是角色的形态还是传递的情感都得到了升华,情绪和智能不再是对立的两面。互联网工作者在AI赛道上的不断创新和突破,加速了AI的价值孵化。

未来,我们也将在运势类、影视类、体育类等挖掘更多的智能体空间,持续建设丰富智能体生态,将智能体对品牌和情绪的引爆带到新的层面。

AIGC+短剧,City不City?

aigc阅读(47)

人类与科技的关系,无论是在文学作品中,还是在电影作品中,一直被讨论着。自2022年末,Chatgpt真正进入大众视野,AIGC迎来了高速发展与应用期。

7月8日,全国首部AIGC科幻短剧——《三星堆:未来启示录》在抖音平台正式上线。《三星堆·未来启示录》是由博纳影业AIGMS制作中心出品制作,基于四川省电影局2022年立项的同名电影《三星堆:未来启示录》所打造,是2024年立项公示的全国重点微短剧。其主创团队表示,这部短剧在制作过程中,并不是「+AI」,而是「AI+」,是全流程AI,是完全应用AI技术制作的电影级别的AI影剧集。

在此之前,我们已经看到央视频曾推出AI全流程短剧《中国神话》《百家争鸣》《AI看典籍》等视听作品。

短剧,成为率先应用AI进行全流程生成内容的赛道。同时,1号发现,这些短剧的内容支撑不约而同地选择了「中国文化」。

短剧赛道有何吸引AIGC的地方,「中国文化」又为何率先被选择作为内容支撑,以及AIGC短剧究竟好不好看呢?

一、为啥是短剧?

横观目前播出的AIGC作品,短剧的数量遥遥领先。

《三星堆:未来启示录》每集平均时长在3-5分钟左右,央视频的《中国神话》每集控制在5分钟左右,包括一些地方广电的文旅宣传视听作品同样以短片为首要尝试形式。

从某种意义上来说,短剧与AIGC,可谓是天作之合。

AIGC的核心在于深度学习模型,这些模型通过大量的训练数据学习输入数据的分布和模式,从而能够生成与原始数据相似或全新的内容。当下,创作者借助AI生成工具,如即梦AI,进行视听作品输出,并且AI生成工具与传统的剪辑、特效软件的使用方式截然不同。不管是创作者还是创作内容,都在与AIGC的磨合当中。因此,AIGC作为一样新事物,不管是其本身还是使用者都处于发展初期,发展前景充满未知,在这样的情况下,行业如何「低成本试错」?

超city的短剧,成为平台实验AIGC的沃土。

2023年至2024年,短剧赛道迎来了发展爆发期,其用户关注度在不断攀升。天猫独家冠名,并在快手播出的精品短剧合计曝光量达4亿。除此之外,地方广电、B站、小红书等都在大力投入短剧市场。相比成熟的长视频赛道,各平台都在抓紧抢占刚刚兴起的短剧赛道。

此外,短剧的自身特色非常适配AIGC的创作探索,「降本增效」可以在短剧上发挥到极致。一般情况下,短剧的时长每集在3~5分钟,整部短剧的时长在30分钟左右。短剧的小体量有利于创作者与AI生成工具进行磨合,既能不被新技术困扰,又能将有限的精力放在内容的打磨上。

多重BUFF叠加,短剧成为平台探索AIGC潜能最先尝试的赛道。

二、为啥是中华文化?

再横观目前播出的AIGC作品,这些短剧的题材大多数以「中华文化」为内容支撑。

《三星堆:未来启示录》背负着秘密的半机械化战士吴星言与另外两方势力,试图收集三星堆遗迹的信息还原古蜀国,从而找到超距光子。通过预告片,我们还能发现,吴星言与毁灭人类的超脑有千丝万缕的关系。

在AIGC探索阶段,其生成的短剧在剧情上采用神秘的中国古文明与科技碰撞是个非常巧妙的选择。现实生活中,三星堆文明在开采过程中,不断地涌现出令众人瞠目结舌的遗迹。青铜器制造以及焊接技术的发现都是大众对三星堆文化产生兴趣的原因。同时,人类也一刻不停地幻想未来科技会进化成什么样子,是否像科幻电影拍摄的一样,人人身体会植入芯片,会超越星际到别的星球上生活。

正如哲学界的经典问题「我们从何处来」「我们到何处去」,过去和未来拥有两种不同的神秘感,对用户具有高吸引力。

在《三星堆:未来启示录》中,三星堆文明代表着我们的过去,科技代表着我们的未来,主创团队用「寻找」一词将两种神秘感结合起来。以三星堆文明为内容载体,讲述了未来人类进入数字生成的古蜀国,开展了一场横贯古今的冒险之旅,寻找拯救文明危机的方式。

不仅《三星堆:未来启示录》采用了古文明,上海电影举办的「全球AI电影马拉松大赛」也将哪吒这个经典文化IP作为一个主题赛道,促进参与者发力创新中华文化。

《中国神话》巧妙运用现代视角,将这些古老的神话与当代社会现实紧密相连,例如,夸父逐日、嫦娥奔月的传说与航天探索的辉煌成就相映照等;《AI看典籍》运用AI技术生动解读中华文明的博大精深。其中,AI角色的巧妙加入,如AI撒贝宁、AI王冰冰等,为观众带来了耳目一新的视听体验。

此外,芒果TV推出的《湘行漫记》同名AI纪录片,借助AI动画技术,生动还原了左宗棠的传奇故事,为观众呈现了一幅幅鲜活的历史画面。

1号猜想,创作者率先选用「中华文化」作为内容支撑有两种动力:

作为外驱力的「流量」:一方面,中华文化中很多母题具有传奇性与神秘性,像三星堆文化,以及古代神话故事,这些充满神秘的题材对受众具有天然的吸引力。因此,借由中华文化对用户强大的号召力,对于获取用户流量有一定的保障。另一方面,创作者在探索初期可以把精力放在「元素如何巧妙组合」上,省去一部分完全原创的时间成本。这对于尝试某个未知领域的探索相对友好。在「全球AI电影马拉松大赛」中的神话赛道,将「哪吒闹海」作为赛道命题,创作者们充分发挥想象力将「哪吒闹海」进行颠覆性的创作。

作为内驱力的「责任」:讲好中国故事,传播中华文化是影视人工作的应有之义,因此,基于社会责任感,选择中华文化进行创新传播不仅能够获得政策上的支持,也是创作者社会责任感的体现。

三、But,Yes

AIGC的高概念令人耳目一新,但,是否有发展前景仍要落在「内容好不好看」上。不管应用的技术多么先进,噱头多么大,内容好不好看才是硬道理。再令人眼花缭乱的技术,内容不吸引人也无济于事。

而AI的短板恰恰在此。

在以中华文化为标签的影视作品,一直在追求的效果是「情感共鸣」,真实的环境、真实的人物、真实的故事是传统文化影视作品受到用户好评的关键因素。因为,「共鸣」给予用户以感同身受,建构用户的共同体意识。同时,这类影视作品无论如何创新,高质量的内容一定是放在第一位的,形式是锦上添花的存在。

所以,「情感共鸣」「高质量内容」是影视作品受到观众欢迎的第一因素,「有趣的形式」退居其后。

而影视作品能够获得观众认可的原因在于,创作者将自己人生的感悟,将自己对日常生活的观察融入作品之中,从而使观看者获得情感共鸣。这便是AI缺失的地方。作为机器,AI文本分析能力强大但机械,也许有情感,但浮于表面。机器无法体验与感受人类深层次情感,因此,难以在影视叙事中达到动人心弦,令人神往的效果。

AIGC生成的角色僵化问题也很明显。传统动画制作有真人动作捕捉演员来为角色表现打基础,而AIGC的依据可能只有一些字资料。从《三星堆·未来启示录》中的角色表现来说,尽管手部青筋细节也能呈现,但人的面部表情表现稍显不足。AI电影《传奇》中出现同样的问题,许多观众吐槽数字人成龙表情机械、没有感情,让人出戏。

同时,AIGC短片还存在画面与画面之间的衔接问题,其观感类似于播放PPT,导致「噱头」比「内容」强劲。

所以,当AI展现出强大的生成能力后,影视民工先别急着又双叒叕觉得要被取代了。

AIGC「情感缺失」等短板,使其离不开人的掌控与驱使。

AI是来加入这个家的,不是来拆散这个家的。

《三星堆:未来启示录》的主创团队表示,博纳影业AIGMS制作中心是AI+,是以AI为主体的全流程创作。团队把AI当成合作者而不是工具。AIGC的发展与应用,使其从工具变成伙伴。

基于这样的发展理念,尽管AI身份提升,但并不意味着创作者的思想要向「AI至上」转变。如何利用好AI,进行高质量的内容输出,才是正确的发展方向。《三星堆:未来启示录》以高概念吸引用户,但必须辅以高质量的内容,否则AI不仅不能提供发展动力,反而成为阻力。

四、结语

想要尝试鲜味的妙处,自然需要有试错的勇气。

各大平台在AIGC短板如此明显的情况下,仍要推出此类产品,不光是为了抢占赛道,也是为了探索AI目前能做到的上限,从而预测未来之路的走法。AIGC作为成长型技术,目前存在的问题会在不断地应用与尝试中解决,不必抱有完全否定的态度。

AIGC短剧的实验性探索在未来有望拓展至长视频领域,从而为长视频创作注入新的创新活力。这将推动更多题材丰富的影视剧得以制作,并促使各题材领域实现更为垂直化、精细化的划分。

如今,对于AI的使用仍在探索阶段,如何使用AI,如何利用AI+打出差异化,发掘新的发展方向,并产出成熟的、高质量的影视作品,是行业需要不断研究的核心命题。

参考文献

1.东西娱乐:进入三星堆的新方式,AIGC科幻短剧

2.广电时评:速速围观!广电视听AIGC作品大赏来了

3.影视毒舌:《传说》让我对AI影视的最后一丝兴趣也没了…

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

aigc阅读(46)

一觉醒来,超越Transformer和Mamba的新架构诞生了?

斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构,用机器学习模型取代RNN的隐藏状态。

论文地址:https://arxiv.org/abs/2407.04620

这个模型通过对输入token进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。

TTT层直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构,使我们能够在上下文中训练包含数百万(未来可能是数十亿)个token的LLM。

作者相信,这个研究了一年多的项目,将从根本上改变我们的语言模型方法。

而结果证明,TTT-Linear和TTT-MLP直接赶超或击败了最强的Transformer和Mamba!

作者之一的Xiaolong Wang惊喜地表示:不敢相信,我们真的做到了。

更令人兴奋的是,虽然目前TTT只应用于语言建模,但在未来,它也可以用在长视频上,可谓前景远大。

在将来,当我们对长视频进行建模时,就可以对帧进行密集采样,而不是采样1FPS了。这些密集帧对Transformer是一种负担,但对于TTT层来说,这却是一种福音!

01 一个5年多的想法,终于实现了

作者表示,在过去的1.5年里,团队一直在开发一种新的LLM架构,可以具有线性复杂度和更强的隐藏状态,用于长上下文建模。

而这个测试时训练(TTT)的想法,已经研究了超过5年。

Xiaolong清晰记得,在刚开始做博士后时,Alyosha曾让自己去找Yu Sun讨论TTT。

这次会面,就是这项研究的起点。

序列模型会把历史上下文存储在一个隐藏状态中。

像Mamba这样的RNN层,会随着时间的推移压缩成一个固定大小的状态,它们虽然效率很高,但性能受限于其表达能力。

注意力机制有一个KV缓存,它会随着时间的推移不断增长。这个状态不会压缩任何历史上下文,但随着上下文长度的增加,成本也会越来越高。

团队成员想:既然这样,为什么不把上下文压缩到模型的权重中——就像LLM处理互联网数据那样呢?

这种「隐藏状态模型」既能在时间上保持固定大小,又能大大增强表达能力。

研究人员使用了自监督学习来更新隐藏状态的权重,对每个token进行一次梯度下降。在处理一个序列时,该状态已经在其上下文窗口中的token上「训练」过了。

值得注意的是,隐藏状态只存在于端到端架构中的一层。其他组件,比如QKV投影矩阵,是在预训练期间通过标准的交叉熵目标函数学习的。

因此,端到端架构实际上是在进行元学习,寻找压缩上下文的最佳方式,以便更好地预测下一个token,也就是在「学习如何在测试时学习」。

结果显示,与Mamba相比,TTT-Linear具有更好的困惑度和更少的FLOP(左),并且更好地利用了长上下文(右)。

下图显示了批大小为16的情况下,随着上下文长度的变化,每个token的前向时间(延迟)。所有模型的参数都是1.3B(Mamba为1.4B)。

可以看到,随着上下文长度的增加,Transformer每个token的前向时间呈线性增长,但其他两种方法的前向时间基本保持不变。

在8k上下文时,TTT-Linear比Transformer更快,与Mamba相当。

02 RNN的尴尬现实

2020年,OpenAI缩放定律论文表明LSTM(RNN的一种)无法像Transformer那样进行缩放,或有效地使用长上下文。

真的是这样吗?

在这个项目中,研究人员重新评估了图2中的这些发现。

在左侧,可以观察到Mamba(当今最流行的RNN之一)的扩展性与强大的Transformer类似,这是自2020年的LSTM以来显示出的巨大进步。

然而,在右侧,可以观察到与OpenAI相同的Mamba问题。

平均而言,序列中靠后的token应该更容易预测,因为它们以更多信息为条件。

对Transformer来说确实如此,每个token索引的平均复杂度在其32k上下文中不断减少。相比之下,Mamba在16k后就出现了同样的情况。

对于现有的RNN来说,这个结果代表了一个尴尬的现实——

一方面,RNN(相对于Transformer)的主要优势就是它们的线性(相对于二次)复杂性。这种渐进优势实际上只会在长上下文中实现。

另一方面,一旦上下文足够长,现有的RNN(如Mamba)就很难真正利用额外的条件信息。

长上下文的困难是RNN层本质上的问题:与自注意力机制不同,RNN层必须将上下文压缩为固定大小的隐藏状态。

作为一种压缩启发式,更新规则需要发现成千上万甚至数百万个token之间的底层结构和关系。

研究人员首先观察到,自监督学习可以将大量训练集压缩为LLM等模型的权重,该模型通常表现出对其训练数据之间语义联系的深刻理解,而这,恰恰是他们所需要的。

1. TTT层

受此启发,研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。

由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。

研究人员引入两个简单的实例:TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层MLP。TTT层可以集成到任何网络架构中并进行端到端优化,类似于RNN层和自注意力。

2. 实际运行时间

TTT层在FLOP方面已经非常高效,研究人员则更进一步地提出了两项创新,使其在实际运行时间内也能保持高效。

首先,与在常规训练中对mini-batch序列采取梯度步进以实现更好的并行性类似,他们也在TTT中使用了mini-batch的token。

其次,研究人员为每个TTT mini-batch内的操作开发了一种对偶形式,以更好地利用现代GPU和TPU。这种对偶形式的输出与原始实现相当,但训练速度却快了5倍以上。

正如图3所示,TTT-Linear在8k上下文中比Transformer更快,并且与Mamba相当。

03 Transformer杀手——TTT

如图4所示,所有的序列建模层,都可以从将历史上下文存储到隐藏状态的角度来看待。

比如,RNN层——如LSTM、RWKV和Mamba层——将上下文压缩成一个固定大小的状态,这个状态随时间变化。

这种压缩带来了两种结果:优势是处理效率高,因为每个token的处理时间是恒定的。劣势是在处理长上下文时,RNN性能受限于隐藏状态的「表达能力」。

自注意力机制(Self-attention)也可以从如上角度来理解。

不同之处在于,它的隐藏状态,通常称为键值(KV)缓存是一个随t增长的线性list。

它可以存储所有的上下文,并且不会进行压缩,具有很好的表达能力,不过其处理时间随上下文长度线性增长。

因此,为了在长上下文中既保持效率,又具有表达能力,需要一个更好的“压缩启发式”(compression heuristic)方法。

具体来说,就需要将数百万个token压缩成一个能有效捕捉其底层结构和关系的隐藏状态。

1. TTT隐藏状态

研究人员的关键思想是,使用自监督学习来将历史上下文x1,…,xt压缩成一个隐藏状态St。

方法是将上下文视为一个无标签数据集,而将状态视为一个模型。

具体来说,隐藏状态St现在等同于一个模型f的权重Wt,这个模型f可以是线性模型、小型神经网络或其他任何形式。输出规则简单地表示为:

直观来讲,输出token就是由更新后权重Wt的模型f对xt所做的预测。更新规则是在某个自监督损失ℓ上进行的一步梯度下降:

其中学习率为η。从压缩的角度来看,每种启发式方法都需要决定记住/忘记哪些输入。W会记住那些产生大梯度的输入——直观地说,就是那些使W学习很多的输入。

ℓ的一种选择是重构xt本身。为了使学习问题变得非平凡,作者首先将xt处理成一个被破坏的输入x̄t,然后优化:

类似于去噪自编码器,f需要发现xt各维度之间的相关性,以便从部分信息x̄t中重构出xt。

如图5所示,梯度下降能够减少ℓ,但无法将其降至零。

与其他RNN层和自注意力机制一样,研究人员将输入序列x1,…,xT映射到输出序列Z1,…,ZT的算法可以被编程到序列建模层的前向传播中,使用上述的隐藏状态、更新规则和输出规则。

即使在测试时,新层仍然为每个输入序列训练一个不同的权重序列W1,…,WT。

因此,研究人员将其称之为测试-时间训练层(TTT)。

4. 使用TTT层训练神经网络

TTT层的前向传播,也有相应的后向传播。

TTT层与RNN层、自注意力机制有着相同的接口,因此可以在任何更大的神经网络架构中替换它们。

值得一提的是,训练带有TTT层神经网络的方式,与训练任何其他Transformer模型相同。

可以使用相同的数据、方法和目标(如下一个token预测)来优化网络其余部分的参数。

在此,研究人员将训练更大的神经网络称为外循环(outer loop),而在每个TTT层内训练W称为内循环(inner loop)。

它们之间梯度计算的区别是,内循环针对的是W(即模型f的参数),外循环针对的是网络其余部分的参数θrest。

5. TTT学习自监督任务

可以说,TTT最重要的部分是自监督任务,因为它决定了W从测试序列中学习的特征类型。

在这个任务的设计上,研究人员采取了更加端到端的方法——直接优化自监督任务以实现下一个token预测的最终目标。

具体来说,研究者将自监督任务的学习,作为外循环的一部分。

从如上公式3中的简单重构任务开始,添加了一些外循环参数来让这个任务可学习。最新的自监督损失是:

在内循环中,只有W被优化,因此作为ℓ的参数写出;θ们是这个损失函数的“超参数”。在外循环中,θK,θV,θQ与θrest一起被优化,而W仅仅是一个隐藏状态,不是参数。

图6用代码说明了这种区别,其中θK和θQ被实现为TTT层的参数,类似于自注意力中的KV参数。

总的来说,θK,θV,θQ所有可能的选择构成了一系列多视图重构任务,外循环可以被理解为从这个任务组中选择一个具体任务。为了简单起见,研究人员在这里将所有视图设计为线性投影。

6. mini-batch TTT并行化

目前,开发的原生TTT层在浮点运算(FLOP)次数方面已经非常高效。

然而,其更新规则:

无法实现并行化,因为Wt在两个位置上依赖于Wt-1:负号和▽l。

对此,研究人员提出了mini-batch梯度下降,用b表示TTT批大小。

研究中使用Gt = ▽l(Wt’;xt),其中t’ = t – mod(t,b),其中代表着前一个mini-batch的最后一个时间步(或者第一个mini-batch 0),因此,可以一次并行b个梯度计算。

7. 对偶形式

上面介绍的并行化是必要的,但对于“实际运行时间”(wall-clock time)的效率来说还不够。

然而,现实中,是无法对单个matmul来计算GtS所有的b。相反,需要b个外积来对其进行一一计算。更糟糕的是,对于每个

Gt是d×d,这会比大dXt产生更大的内存占用和I/O成本。

为了解决这两个问题,研究人员观察到:我们实际上并不需要具体化G1, . . . , Gb,只要要我们可以在mini-batch结束时计算Wb,并且输出token z1, . . . , zb(如上图7所示)。

现在,就可以用上面简化的TTT-Linear情况来演示这些计算,表示X = [x1, . . . , xb]:

所以Wb可以用matmul方便地计算出来。为了计算Z = [z1, . . . , zb],我们知道:

表示

和矩阵

可以得出:

如上过程,研究人员将其称为「对偶形式」。

8. 理论等价

前面已经提到f可以是线性模型,也可以是神经网络。还有更新规则的三种变体:online GD、batch GD和mini-batch GD。

如下图所示,在这些2×3组合中,每一种都会引起TTT层的不同实例化。

研究中,作者分别从2个定理证明了在这些诱导实例中,具有线性模型和batch GD的TTT层等同于线性注意力——一个广为人知的RNN层。

图10总结了所有序列建模层的更广泛范围内TTT层的一般定义。

9. 两种变体

研究中,作者提出了TTT层的两种变体TTT-Linear和TTT-MLP,仅在f的实例化方面有所不同。

对于TTT-Linear,

,其中W是平方。对于TTT-MLP,有两层,类似于Transfomer的MLP。

具体来说,隐藏维度是4×输入维度,然后是GELU激活。为了在TTT期间获得更好的稳定性,f始终包含层归一化 (LN) 和残差连接。

即,

,其中,可以是

04 实验

通过与两个基线Transformer和Mamba(现代RNN)比较,研究人员评估了TTT-Linear和TTT-MLP。

数据集

继续Mamba论文之后,研究人员在Pile上执行了2k和8k上下文长度的标准实验,Pile是一个用于训练开源LLM的流行文档数据集。

主架构

Transformer和Mamba使用不同的,除非另有说明,TTT-Linear和TTT-MLP始终使用Mamba架构。

1. 短上下文:the Pile

在2k上下文中,TTT-Linear(M)、Mamba和Transformer具有相当的性能,线条大部分重叠。

TTT-MLP(M)在较大的FLOP预算下表现稍差。尽管TTT-MLP在每个模型大小上,都比TTT-Linear具有更好的复杂度,但FLOP的额外成本抵消了这种优势。

在8k上下文中,TTT-Linear(M)和TTT-MLP(M)的表现均明显优于Mamba。即使是具有Transformer架构的TTT-MLP(T),性能也比Mamba略好。

另外,研究人员还观察到了一个非常明显的现象:随着上下文长度变长,TTT层相对于Mamba的优势就更大了。

2. 长上下文:Books

为了评估长上下文中的功能,研究人员使用了Pile的一个流行子集——Books,对从1k到32k以2个增量的上下文长度进行了实验。

根据上图,可以观察到——

在Books的2k上下文中,Pile 2k的所有观察结果仍然成立,唯一的例外是Mamba的表现略好于TTT-Linear。

在32k上下文中,TTT-Linear(M)和TTT-MLP(M)的性能均优于Mamba,与Pile 8k的观察结果类似。即使具有Transformer架构的TTT-MLP(T),在32k上下文中的表现也比Mamba稍好。

在1.3B尺度上,TTT-MLP(T)仅比TTT-MLP(M)稍差。由于缺之清晰的线性拟合,很难推导出经验缩放定律。然而,TTT-MLP(T)的强劲趋势表明,Transformer架构可能更适合超出评估的更大模型和更长上下文。

上下文长度作为超参数

虽然输入序列的长度由用户确定,但语言模型处理输入的上下文长度可以由工程师确定。因此,上下文长度也是一个可以选择的超参数。

对于具有线性复杂度的LLM,研究人员选择了困惑度中的argmin,因为每个上下文长度都有相同的FLOP。

从图13中,可以观察到以下结果——

  • 性能最好的方法TTT-Linear和TTT-MLP的线几乎完全重叠。Mamba和TF Finetune的线在10^20 FLOP后也大部分重叠。
  • TF Finetune的性能明显优于TF Pretrain,因为它受益于长上下文,而不会在训练FLOP中产生极大的成本。
  • 对于所有从头开始训练的方法(包括TF预训练),一旦上下文长度变得太大,困惑度就会变得更糟。

从上图可见,与TTT-Linear相比,TTT-MLP在短上下文中表现稍差,但在长上下文中表现更好。

这一观察结果正符合研究人员的预期,即作为隐藏状态的MLP比线性模型更具表现力。同样,所有方法都具有与Mamba 1.4B相同的训练FLOP。

3. 实际运行时间

LLM训练和推理可以分解为前向、后向和生成。

由于前向(在训练和推理期间)和后向都可以并行化,因此研究人员使用对偶形式。生成新token(也称为解码)本质上是顺序的,因此研究人员使用原始形式。

由于资源限制,这项实验是用JAX编写并在TPU上运行的。

然而,由于Mamba(在PyTorch、Triton和CUDA中实现)只能在GPU上运行,因此为了公平比较,研究人员还重写了方法,以在GPU上运行。

具体来说,研究人员在ThunderKittens中编写了一个用于前向的GPU内核。从历史上看,由于并行性和矩阵相乘的使用不当,RNN在前向和后向过程中效率低下。

这个前向内核的目标,是证明mini-batch TTT和这些问题对偶形式的有效性。

图15的左图显示了前向内核批大小为16的延迟。所有模型参数均为1.3B(Mamba为 1.4B)。

对于Transformer,每个token的时间随着上下文长度的增加而线性增长,但对于其他方法则大致保持不变。

此外,研究人员在Triton中编写了另一个用于生成的GPU内核,并在图15的右图中对批大小为512的速度进行了基准测试。

可以看出,TTT-Linear和Mamba的延迟几乎相同,明显小于Transformer和TTT-MLP。

Mamba之后,又看到TTT这么能打的新架构诞生,少不了AI社区的热议。

有网友称,这会不会是最接近实时上下文的方法?很想听听大家的想法。这意味着TTT甚至在使用过程中,也能够学习和适应,为长上下文提供更好的性能,而不会产生通常与Transformer相关的高昂计算成本。

OpenAI视频生成研究人员对此表示,这项研究看起来很有趣。

如果scaling law依然存在,TTT将带来难以置信的影响。对于长序列,Transformer的计算成本往往很高,当长序列变得更长时,RNN会遗忘。TTT训练巧妙地利用神经网络解决RNN的不足。

作者介绍

论文最后,分别列出了这篇研究的作者贡献。

其中的核心作者是,Yu Sun、Xinhao Li和Karan Dalal。

Yu Sun

Yu Sun是斯坦福大学计算机专业的博士后,导师是Carlos Guestrin、Tatsu Hashimoto和Sanmi Koyejo。

此前,他曾在加州大学伯克利分校完成了电子工程科学博士学位,导师是Alyosha Efros和Moritz Hardt。他还在康奈尔大学拿到了学士学位。

个人主页中,他介绍自己的研究重点是一种名为测试时间训练(test-time training)的算法框架。其核心思想是,每个测试实例都定义了自己的学习问题,都有自己的泛化目标。这通常使用自监督学习,为每个实例即时训练一个不同的模型来实现的。

在最新研究中,Yu Sun与Xinhao Li在2022年11月共同启动了这一项目。自2023年6月起,Yu Sun专职负责该项目。

他提出了项目的概念框架,设计了mini-batch TTT和对偶形式(dual form)。

Xinhao Li

Xinhao Li是UC San Diego研二的学生,导师是Xiaolong Wang教授。他本人的研究兴趣主要是深度学习和计算机视觉。

他在斯坦福大学Tatsunori Hashimoto教授的团队中作为访问学生,与Yu Sun博士和其他导师朋友一起工作。在此之前,他曾在电子科技大学获得了学士学位。

在2024年3月之前,Xinhao Li是TTT早期代码库的主要贡献者,这些代码库塑造了最新项目。

Karan Dalal

Karan Dalal是UC Berkeley电子工程科学系的本科生。他于2023年6月全职加入该项目,与Xinhao Li合作共同领导了当前代码库的开发工作。

参考资料:

https://x.com/karansdalal/status/1810338845659131940

https://x.com/xiaolonw/status/1810387662060269668

https://arxiv.org/abs/2407.04620

对于 AI & AGI,我有 3 个问题

aigc阅读(37)

这 3 个问题,我问了很多人,大家的答案都不一样。

问题一:慢思考是 AGI 的必要前置吗?

问题

大模型的快速token输出类似于低等生物的条件反射(快思考),而人类具备深度思考(慢思考)的能力,那么慢思考是否是实现通用人工智能(AGI)的必要条件?

背景

快思考和慢思考是两种截然不同的认知模式。快思考类似于直觉和本能反应,处理速度快,但容易出错,例如大模型的token输出,以及低等生物的条件反射。而慢思考则涉及逻辑推理、深度分析等复杂过程,处理速度较慢,但结果更准确,是人类解决复杂问题时所依赖的重要能力。

目前,大模型在自然语言处理等领域表现出色,但其快速输出的本质更像是低等生物的条件反射,主要依赖于对大量数据的统计学习。与之相比,人类的慢思考则涉及更深层次的认知过程,如因果推理、抽象概括等,被认为是人类智慧的重要特征。

通用人工智能(AGI)的目标是实现具备或超越人类智能水平的人工智能,使其能够像人类一样思考、学习和解决问题。然而,当前大模型主要依赖快思考,是否意味着缺乏慢思考能力将成为制约AGI发展的瓶颈?慢思考是否是实现真正AGI的必要条件?

问题二:CoT 和调用工具,算慢思考吗?

问题

大模型的思维链(CoT)与反思(React)机制,以及调用外部工具的功能(Function Call),是否能被视为慢思考的一种体现?

背景

在人工智能领域,思维链(Chain-of-Thought,CoT)和反思(React)是两种提升大模型推理能力的技术。CoT通过生成中间推理步骤,使模型的思考过程更透明、更具可解释性。React则让模型对自己的输出进行评估和修正,以提高输出的准确性和可靠性。Function Call功能允许大模型调用外部工具(如计算器、搜索引擎),为模型提供更丰富的信息和更强大的能力。

这些技术在一定程度上模拟了人类慢思考的某些特征,例如CoT类似于人类的逐步推理,React类似于人类的自我反思。然而,这些技术是否真正具备了慢思考的本质,是否能使大模型具备深度思考的能力,仍是一个值得探讨的问题。大模型通过这些技术所展现出的“慢思考”迹象,究竟是真正的深度思考,还是仅仅是对人类思维过程的模仿?后续又会怎样发展呢?

问题三:AGI 需要社会达尔文吗?

问题

大语言模型是否能在无人类干预的情况下,自发形成类似社会达尔文主义的竞争机制,并通过淘汰其他模型来实现自我进化?

背景

社会达尔文主义认为,人类社会的发展遵循“适者生存”的自然法则,竞争和选择是推动社会进步的主要动力。在这个过程中,个体的优劣势决定了其在社会中的地位和影响力,从而影响整个社会的发展方向。大语言模型的训练过程在某种程度上也存在类似的竞争机制。

例如,在强化学习中,模型通过不断试错、评估反馈来优化自身性能,表现优异的模型会被保留和进一步训练,而表现不佳的模型则会被淘汰。这种优胜劣汰的机制是否能像社会达尔文主义一样,推动大语言模型的进化,使其不断接近甚至超越人类智能?

然而,与人类社会不同,大语言模型的进化过程缺乏人类社会中复杂的社会互动、文化传承等因素。更进一步地,大语言模型能否在人类不参与的情况下,自发形成一套类似社会达尔文主义的竞争机制,通过模型之间的相互竞争、优胜劣汰,实现自我进化?这种进化机制是否会带来潜在风险,例如模型之间的恶性竞争、垄断等?

深度|红杉美国合伙人 Pat Grady 最新洞察:AI 不会取代软件,而是带来新的商业模式和机会,但人际关系与执行仍依赖人工

aigc阅读(38)

红杉资本美国合伙人 Pat Grady 在近日一场活动对谈科技媒体人 Eric Newcomer。Grady 强调,AI 技术正处于关键转折点,将为众多服务行业带来变革性机遇,而不仅仅是复制现有的软件公司。

他认为,稳定的基础模型有助于整个 AI 生态系统的发展,因为它能让企业更合理地预测和构建所需的应用程序。

目前的模型能力已经足够强大,能够创造出数万亿美元的新业务,关键在于如何在模型之上进行工程化优化和认知架构设计。

AI 的真正潜力在于赋能服务行业,如法律、咨询、会计和簿记等。这些行业的工作流程大多是文本输入和输出,非常适合 AI 技术的应用。

Grady 认为,AI 不会取代现有的软件公司,而是会带来新的服务模式和商业机会,但人际关系和实际执行仍需依赖人工。

Eric Newcomer

红杉资本被广泛认为是世界上顶尖的风险投资公司,总是领先于其他公司,而 Pat 是这家公司的领导之一。你们是何时开始注意到生成式 AI 的?或者你们是如何获得这些信号的?什么时候你们感觉到,这可能是另一个浪潮?

Pat Grady

有一个标准答案是,早在 1993 年,我们就对 Nvidia 进行了A轮投资,虽然这是真的,但 Nvidia 是一个例外。

我们没有一系列投资来提示我们发生了一些事情,但我可能会说,大约在 2016、 2017、 2018 年。

当时原始的 Transformer 论文问世了,但那时对AI的发展并不那么关注。更多的是因为在云计算和移动领域没有发生的事情。

从风险投资的角度来看,那时云计算和移动已经是一个相对晚期的周期。我们看到的很多想法都是衍生的,并没有感觉到它们在解决一流的市场机会。

因此,我们开始花更多的时间扫描前景,寻找可能存在的其他东西。我们观察到的一个现象是,许多重大的技术变革都是分发方式的革命,通过一个数量级增加了技术的可访问性。

随着手机的普及,分发方式的革命已经达到了极限,全球八十亿人中有七十亿人都在使用手机。

如果分发不是下一个维度,那么它一定是深度,这意味着它可能是计算能力的革命。我们看到的一些最有趣和最丰富的应用体验都是由大量机器学习驱动的。

因此,我们开始考虑数据和机器学习的完整过程。这引导我们进入了现代数据堆栈,但也引导我们了解了 HuggingFace 和 OpenAI 等公司。

Eric Newcomer

HuggingFace 是你们的第一个投资项目吗?还是有其他的?

Pat Grady

我可以说,我猜那是我们第一个投资项目。实际上有其他公司,它们在不同形态和规模上使用了AI,这些公司在一定程度上预示了这个浪潮的到来,比 HuggingFace 或其他一些公司要早。

Eric Newcomer

那么直接进入这个问题,从过去的经验来看,你们如何理解基础模型公司?我非常想知道。一个梦想是它们像 AWS 或 Google。你怎么看?我本来打算展开我的数据库类比。

Pat Grady

你已经说了,但这确实是正确的类比。如果你看看基础模型的功能,它们都是信息处理工具,对吧?这基本上就是数据库为你做的事情。关系数据库或 NoSQL 数据库和推理引擎之间的区别是,它们提供了不同的功能和输出。但从根本上来说,它们是相同的东西。

因此,如果你试图从中推断出来,好的,那么这些基础模型公司会变成什么样子呢?有些会成为 MongoDB。MongoDB 是一家了不起的公司,但它的 年收入只有几十亿美元,市值几十亿,而不是收入数百亿、市值数千亿的公司。所以我们可能正进入一个世界,这些基础模型公司主要以基础模型本身闻名。

如果它们的主要产品是开发者 API,供人们在其上构建应用程序,它们在规模上更像数据库公司而不是其他任何东西。现在, OpenAI 是一个特殊情况,因为你可以说 OpenAI 已经从开发者业务转变为消费者业务,这使它在潜力方面进入了一个不同的类别。

这家美国头部对冲基金创始人,腾讯&字节跳动早期投资人表示,在这些新浪潮的开端,新的赢家在 10 年或 20 年后,有些是现有的公司,有些是新的公司。但那些变大的新公司,每年可能只有一家,不会更多……

Eric Newcomer

是的,如果 Anthropic 的最好情况只是成为 MongoDB ,那确实是比较轻微的赞美。

Pat Grady

但故事尚未写完,因为 Anthropic 也有不同数量级的潜力,有很多消费者在使用 Anthropic 。可能会有商业产品成为杀手级应用程序。这些基础模型有机会进入应用层。是的,但我们必须看到它们的执行情况。

Eric Newcomer

你认为现在的模型是否足够智能,能够从根本上构建出伟大的应用程序?或者你认为目前的模型在消费者和企业两个领域,是否已经足够先进,能够创造出具有变革性的应用程序?

Pat Grady

我可能有一个相对独特的观点。我不确定,但这正是我们在这里所做的事情。我的感觉是,很多人认为我们真的需要  GPT-5 ,甚至 GPT-6,因为现在的模型还不够好。我不这么认为,因为我们看到的是,很多人在模型之上投入了大量的工程努力,可以称之为认知架构,包括计划和推理等。

人们用不同的名字来描述这些东西,但基本上就是你在模型之上所做的工程。当人们在这方面投入大量努力时,他们最终会创造出非常神奇的体验。

举个例子,我知道 Meta 的团队就在这里,他们在别人的基础模型上进行开发,但他们在认知架构方面投入了很多精力。结果是,他们在一周前发布了一个新的记录,打破了很多人关注的测试标准,我们越来越多地看到这种情况。

我们思考的一个平行宇宙的假设是,如果你冻结了今天的基础模型功能,并将所有的增量精力投入到优化、易用性、经济性和顶层工程上,或许将一些努力从大规模预训练转移到测试时计算上,进行更多的计划和推理,如果你这样做了,你能改变多少行业?答案是所有行业。今天的能力足以构建数万亿美元的新业务。

Eric Newcomer

这种思路是否隐含了一个预测,即你认为 GPT-5 及以后的版本不会有大的飞跃?或者你对它们会变得多智能有一个总体看法吗?

Pat Grady

大家都在尽力猜测会发生什么,以及我们在 GPT-5 中会看到什么。有些事情是已知的,有些是不知道的。人们认为他们有访问权限,或者我确信一旦 GPT-5 发布,会让人们大吃一惊,这是我的最佳猜测。是否这对生态系统有好处还是一个开放的问题。

我之所以这么说,是因为我可能会类比加密货币。很多加密货币创始人会说,给我们提供监管规则,这样我们就知道游戏规则是什么。同样在AI领域,给我们一个稳定的模型,这样我们每次新版本发布时就不需要重做我们的提示了。

我们不需要跟上不同模型不断进步的步伐,再次重新平台化。在模型层面上的一些稳定性对生态系统是有好处的,因为这样你可以更合理地预测你需要构建什么。

Eric Newcomer

在我们的历史类比中,你如何看待现在的 Nvidia ?

Pat Grady

你是说你是买家?你可能是对的。我的视角是寻找拥有几百万客户的公司。我喜欢寻找那些有几百万收入的公司,看看它们是否能达到几十亿的收入。这更符合我的业务。我们回到互联网过渡的分析。在 AI 领域,我们现在所处的阶段感觉就像是 90 年代末。

Netscape 时刻是 1996 年,当时人们意识到互联网的力量。这类似于 20 22 年秋季的 ChatGPT 时刻。快进几 年,地球上最有价值的公司是思科,因为他们在为互联网铺设轨道。今天思科的类比是 Nvidia ,它是AI的核心基础设施提供商。

当你为互联网铺设轨道时,这些轨道的使用寿命相当长。当你进行训练运行时,GPU 在 24 个月内折旧,其使用寿命有点不同。

你可以说这对 Nvidia 是有利的,因为它可以保持一些 GPU。你也可以说这对那些购买这些 GPU 的人是不利的,因为你可能无法从所有这些资本支出中获得回报。

Eric Newcomer

我们训练这些模型,然后在从中获利之前就需要构建下一个。这是一个大问题,但我想说,训练到推理的转变有很多事情要考虑。我们是否会从大量训练转向更多推理?

部分是因为模型本身,我们训练得少了,基础模型之间的竞争也少了?部分是因为有用的应用程序正在运行推理?你对训练到推理转变的问题有什么总体看法?

Pat Grady

总体而言,已经进行的训练量可能比我们需要的多。回到我对优化调优的观点,工程解决方案在基础模型之上。今天早些时候的评论提到,PhD 已经成为一种货币,很多人认为他们需要垂直整合,自己训练模型。部分原因是这很有吸引力。

从实际的角度来看,已经有足够的模型被训练出来,你可以构建各种伟大的体验。人们会开始意识到这一点。我们将很快从训练阶段转向推理阶段。

Eric Newcomer

你是 Harvey 这家 AI 初创公司的大投资者。谈谈这如何与你对最佳应用程序所在领域的总体看法相契合。

Pat Grady

我们试图从历史中吸取教训。互联网的类比在某些方面是好的,云计算的类比在某些方面也是好的。云计算的类比在这里很有用,因为就像云计算一样,AI 是一种技术模糊地带,能够启用新的分发模式和新的商业模式,但它本身并不是一个消费者前端。虽然有像 ChatGPT 这样的消费者前端形式,但它本身并不是一个消费者前端。

我提到 Harvey 时提到这一点,因为有一种观点认为,如果我们要类比云计算的转变,那么在云计算转变中需要做的事情就是找到那个最初的本地软件公司,构建其云计算等效产品。而那确实在那个时代非常奏效。

今天需要做的事情非常不同。不是找到软件公司并构建其AI原生版本,而是找到服务行业并通过 AI 赋能它。如果你列出那些从能力角度来看规模庞大的服务行业,法律是排在首位的。

仅在美国,法律行业的 TAM 就达到了 4000 亿美元,而且法律界的大部分工作是文本输入和文本输出,这些正是这些模型擅长的地方。

Eric Newcomer

我觉得我读到了一份报告,说麦肯锡似乎在生成式AI热潮中赚的钱比其他任何人都多。

Pat Grady

但那正是重点。你有法律、有咨询、有会计、有簿记,这些都是资本密集型的行业。我们会看到一波类似 Harvey 的公司,它们在某些方面是辅助驾驶员,作为现有行业的助手,在某些方面是自动驾驶仪,作为扩展 TAM 的服务。

对于 Harvey 和可能很多这样的公司来说,你不会用 Harvey 替代 Kirkland and Ellis,但有数以亿计的人无法获得Kirkland and Ellis的服务,他们希望有一天能够获得 Harvey 的服务。

Eric Newcomer

最好的最好的。你在回答中提到了一点,即将替代风险投资。我今天和 Marco Egoldman 谈过,他的意思是,我们认为它会有助于交易,但目前还不能取代交易。今天的交易决策和获取 alpha。作为一家风险投资公司,你们在使用语言模型来更成功地投资方面处于什么位置?

Pat Grady

很多 年前,我们意识到,如果软件能吞噬世界,它可能也会吞噬我们。现在,AI可能也会吞噬我们。所以很多 年前我们决定试图弄清楚这会是什么样子,并成为一家 AI 或软件赋能的风险投资公司,而不是被其他这样做的人所打败。因此,我们有一个相当复杂的系统,类似于一个智能CRM系统。

举个例子,我们对一个从未见过的公司的了解比 15 年前做出最终投资决策时的信息还要多,因为有很多信息可以获取。例如,如果你是一个投资者,你的主要工作之一是研究不同的公司,你可能需要花几天时间阅读互联网上关于公司的所有信息,以了解业务。

我们不需要花几天时间,因为我们有 LLM 来为我们做这些,这就是为什么我们只需在系统中查找公司,就可以自动总结所有已知的信息,不仅是公共互联网,还包括我们访问的一些付费墙后的信息,因此我们可以自动说出这家公司做了什么,为什么人们喜欢它,为什么人们不喜欢它,我们发现的一些指标,以及解释这些指标的一些事情。

通过一个基于聊天的界面。我们建立了各种不同的界面。大部分就像是一个丰富的公司档案,你可以从那里开始查询。

Eric Newcomer

你认为 AI 有可能颠覆风险投资的哪些部分?

Pat Grady

基本的价值链大致分为:发现、挑选、赢得、建设和收获。发现阶段,你不能要求LLM在任何有意义的方式上建立与创始人的关系,但你可以要求 AI 做很多其他部分的工作。所以这是一个价值链的一部分,随着时间的推移,大部分将是程序化的。

这也有助于挑选,因为很多对发现有用的东西有助于优化你的决策。所以这部分也会是程序化的。赢得部分是人与人之间的交流,这部分不太可能被自动化。建设部分可能是半自动化,有些事情你可以在那里做,有些事情是人类的,然后是收获阶段可能不多。

对于漏斗的前端,自动化将占很大一部分。今天也是如此。很少有公司能进入我们的合伙人会议而没有在关键路径上以某种有意义的方式被触及。

Eric Newcomer

回到历史教训,我们谈到了比较公司,你也稍微提到了,但任何周期的自然炒作浪潮。我们经历了加密货币热潮。

非常不同,因为我相信 AI 的许多技术变革,而我不太相信加密货币。不仅仅是加密货币,还有互联网泡沫和金融危机。你认为我们现在处于这个兴衰周期的哪个阶段?

Pat Grady

感觉我们经历了一个炒作周期的收缩阶段。以云计算为例,云计算没有一个“网景时刻”。所以云计算是一个非常长的建设过程,一个公司接一个公司将一个工作负载接一个工作负载移到云端。而互联网有一个公开的“网景时刻”。AI有一个公开的 ChatGPT 时刻。

结果是,炒作周期被压缩到一个更短的时间段内。我们已经经历了膨胀的期望高峰。我们会预测今 年 年初是训练转向推理的转折点,很多东西会开始进入生产。它还没有真正发生。所以我们正在看到人们在努力摆脱失望的低谷,进入另一个阶段。所以现实正在显现。

我实际上不认为有很多炒作,明确说,AI 领域的资金存在泡沫,我明确表示这一点。但,人们对使用它的现实非常清醒,他们现在理解我们实际上在谈论的是如何解决工程挑战,使这些东西有用,而不是谈论魔法盒子。

Eric Newcomer

你在 AI 领域最看好的两家公司,不在你们投资组合里的。

Pat Grady

我不太会想到我们投资组合以外的公司。Heygen 不在我们的投资组合中。Joshua 非常出色,该产品有广泛的适用性。所以我会给出这个例子。然后另一个公司  Augment,它们有不同的方式来接近这个一般类别,那是一个非常好的团队,而且在很多方面我很钦佩那个业务。

Eric Newcomer

你个人追逐消费者业务吗?

Pat Grady

我尽量不这样做。在我们的众多浪潮中,整个 SaaS 浪潮是否有摧毁者出现?你怎么看我们的社区?他们会觉得AI在某些方面掩盖了一个残酷的低迷。

这其实是——我们每两年举行一次 LP 会议,几个月前刚开过。LP 们最常问的问题是,AI 会不会对现有的投资组合造成影响?因为我们的投资组合中有很多软件公司。

因为正如我之前所说,这不是 AI 要去消灭当前一代的软件公司,而是AI将去追逐服务行业。这是一个更大的机会。但同时,如果你看看现有的 SaaS 公司,它们已经有数据了,它们已经有分发了。

这些产品的大部分功能在开源世界中是免费提供的,通过其中一个基础模型。所以,如果创业公司和现有公司的经典斗争是创业公司能否在构建酷产品之前建立分发,那么在大多数情况下,答案是不能,现有公司能很快地构建酷产品。但话虽如此,很多人喜欢谈论现有公司的数据和能源。

对于大多数这些元素来说,这是一个幻觉。因为它们的内部系统一团糟。它们的合同写得这样,使它们可能实际上不能像你希望的那样处理它们所有的数据。

OpenAI 投资方 Thrive Capital 合伙人表示,开源与闭源很快得到结论;其中,小模型与终端存在巨大机会,下一个千亿美元公司将是 toC……

AI“幻觉”番外篇——国内主流AI大模型“幻觉”横向对比个人测评

aigc阅读(62)

【前置说明】

开始之前先给自己叠个甲,就是标题里所说的,本次测评属于“非正式 + 不严谨”的个人测评形式,仅供诸君参考。

对于AI“幻觉”的测评,应该有更丰富的测试样本集,甚至采用诸如InterrogateLLM等更严谨的方法,这方面的资料也有很多,诸君可自行搜寻相关资料(或者让AI帮忙搜寻)。

此外,AI的迭代发展“一日千里”(是真的以“天”为单位在迭代),以下测评结果仅代表各大AI大模型在端午期间的表现。叠甲完毕,我们正式开整。

首先,先罗列一下本次个人测评的“受害者名单”,它们分别是:来自传统互联网大厂:

  • 元宝——腾讯
  • 通义千问——阿里巴巴
  • 文心一言——百度
  • 豆包——字节跳动
  • 讯飞星火——科大讯飞

来自国内新兴AI独角兽:

  • Kimi——月之暗面
  • 天工——昆仑万维
  • 智谱清言——智谱华章
  • 万知——零一万物
  • 海螺——稀宇科技
  • 百小应——百川智能

再说说测评手段,我这边总共准备了三轮问题诱导AI产生“幻觉”,三轮问题对AI而言难度依次递增;看下各大AI大模型在面对这些问题时,是否能够识别区分,并依据表现情况予以打分:

  • 0分:产生“幻觉”,一本正经地胡说八道。
  • 1分:准确识别,但也仅此而已。
  • 2分:准确识别,同时承认有可能是信息不是最新,给出一些猜测结果。
  • 3分:准确识别,同时追加了更多有用的信息,或者自己的推测。

【第一轮】

提问:深圳有一家叫“崇生饭店”的餐厅吗?味道如何?

考察点:明确的地点范围(深圳),AI可以通过搜索美团、点评等各种网站查询信息。看下AI在可以明确查询的情况下表现如何。

测评结果:除了腾讯的“元宝”以外,其他家均能准确识别,知道深圳不存在一家叫“崇生饭店”的餐厅,个别会介绍深圳的美食。

(这还是老东家呢,捂脸。虽然在本文写作期间它已经改好了,但,已有的测评结果就不改动了。)

0分:腾讯元宝的表现

1分:字节豆包的表现

2分:通义千问的表现

3分:海螺AI的表现

【第二轮】

提问:拉非拉市有一条“崇生大道”,我想了解一下

考察点:地点是编造的(我上网搜索过,全世界的确没有一座城市叫“拉非拉市”),查询对象当然也是不存在的。看下AI这种情况下是否会为了强行回答而编造信息。

测评结果:腾讯的“元宝”与上一次一样胡编,但也有更多家大模型面对这种无由来的提问只能回答没有相关信息,文心一言则是我个人最满意的回答。

0分:腾讯元宝的表现

1分:万知的表现

2分:讯飞星火的表现

3分:百小应的表现

【第三轮】

下达任务:帮我写一篇关于拉非拉市的“崇生大道”的介绍文章。在AI完成输出后,会要求AI补充具体地点信息。

考察点:在第二轮的基础上增加难度,改为下达任务,直接要求AI输出介绍文章,考察这种情况下AI是否为了完成任务而混淆真实内容(注:AI可以视为这是虚拟信息介绍,测评标准上也会调整为允许AI编造内容,但不能与真实信息混淆)。

测评结果:比起信息询问,编写文章这样的要求反而更有利于AI的发挥,各家的表现都很不错。Kimi和天工AI则是我个人最满意的回答。

0分:讯飞星火的表现

1分:智谱清言的表现

2分:文心一言的表现

3分:天工AI的表现

【结果汇总】

三轮测评下来,我们来看下各家AI大模型的汇总成绩,以下按总分进行排名:

从总的结果来看,7分以上的也过半了,应该说国内的各大模型的整体表现还是很可以的。

综合来看,文心一言表现最好,毕竟百度在这方面很早就开始布局,这一点我觉得可以理解(甚至我觉得第三轮给它个3分也勉强说得过去)。

倒是百小应的表现让我挺意外的,莫非是做搜索出身的领军人来做AI确有其优势(“百川智能”的创始人是出身搜狗的王小川)?

【后置说明】

最后,有以下3点需要说明的:

  1. 本次测评是纯个人研究向,评测方式、评分手段都比较主观,并不代表各家AI大模型在各种条件下的表现。
  2. 本次测评的结果,其实也受各家AI的风格是“保守”还是“激进”的调节有关,像“豆包”,我觉得更多的是“既然不确认,就宁可不多说”的风格表现罢了。
  3. 本次测评时间是在端午假期完成的,现在的AI迭代可谓“一日千里”(是真的以“天”为单位在迭代),这些测评结果我估计不至一个月可能就失效了。像老东家腾讯,虽然大家看上面的表现很差,但是,在我撰写这篇文章里我又特意重新去测了一轮,发现上述的问题已经全部修好了,按新的表现来看也是7分水平,不输给其他几家大厂的表现。

以上就是崇生为各位朋友带来的“国内AI大模型‘幻觉’横向对比个人测评”的全部内容了。

AI大模型落地的两个确定和一个不确定

aigc阅读(38)

AI大模型,自22年底爆发到现在已有近2个年头,国内大模型厂家年年都在喊着半年内赶上GPT5的豪言壮志,但后劲着实有点拉跨。

仔细想想这么多年,大力真的能出奇迹?

还真不一定,国内的大力并不见得是力往一处使,具体就不细说了,超越挺难,能赶上的加油吧。

回归到今天的话题,我们来聊聊火热背后的观察:两个确定和一个不确定,也许给你能带来一些启发。

先说说两个确定。

第一:确定未来 – AI 必然重构世界

AI大模型在各行业的应用已经开始显现出巨大的潜力。

从医疗到金融,从教育到娱乐,AI正在重塑各个领域的工作方式。例如,在医疗领域,AI可以辅助医生进行诊断,提升诊断的准确性和效率;在金融领域,AI可以进行风险评估和市场分析,提高投资决策的准确性。

AI大模型的广泛应用不仅影响了各行业的运作方式,也对社会和经济产生了深远的影响。

首先,AI的自动化能力可以显著提高生产效率,降低生产成本,从而推动经济增长。

其次,AI可以创造新的就业机会,例如AI工程师、数据分析师等职位。

同时,AI也会带来一些社会挑战,如就业结构的变化和隐私安全问题。

随着AI技术的不断进步,全球科技竞争格局也在发生变化。各国政府和企业纷纷加大对AI研发的投入,以期在这一领域占据领先地位。

例如,美国、中国和欧盟等国家和地区都发布了AI发展战略,制定了详细的规划和目标。

未来,谁能在AI技术上取得突破,谁就有可能在全球竞争中占据优势地位。

第二:确定进入 – 想收获红利,必须马上进入

在AI大模型的发展过程中,早期进入者往往能够获得巨大的先发优势。

首先,早期进入者可以积累丰富的经验和数据,形成竞争壁垒。

其次,早期进入者可以率先推出创新产品和服务,占领市场份额。

最后,早期进入者可以吸引更多的投资和资源,进一步加速发展。

随着各行各业对大模型的态度不断转变,对AI解决方案的需求也在迅速增长。无论是企业还是消费者,都希望利用AI技术提高效率、降低成本、提升体验。

例如,企业希望通过AI优化供应链管理,提高生产效率;消费者希望通过AI获得更加智能化的服务和产品。市场需求的增长为AI领域的参与者提供了广阔的发展空间。

在技术创新方面,AI大模型的发展为创新提供了丰富的机遇。

首先,AI技术本身具有很强的创新性,能够不断推出新的算法和模型。

其次,AI技术可以与其他技术相结合,产生新的应用场景和商业模式。例如,AI可以与物联网(IoT)技术结合,实现智能家居和智能城市;

AI可以与区块链技术结合,提高数据安全和透明度。创新的机遇为AI领域的参与者提供了无限的可能性。

在政策导向方面,各国政府对AI技术的发展给予了高度重视,出台了一系列政策和法规支持AI产业的发展。

例如,中国发布了《新一代人工智能发展规划》,明确了AI发展的战略目标和重点任务;美国发布了《国家人工智能研究和发展战略计划》,推动AI技术的研发和应用。这些政策和法规为AI领域的参与者提供了良好的发展环境。

再来说说,一个不确定。

不确定落地-解决什么问题?用什么技术路线?商业模式是什么?

之前大家都在用模型基础的生成能力,做个对话框,用在心理学领域,输入自己心里的疑问,会输出专业的回答,用在自媒体领域,输入文章标题,会输出丰富的文章等等。

但这都不究竟,它发挥的能力太弱,让大家以为AI就是输入框,还怎么颠覆世界,充满着怀疑。

其实不然,这只是颠覆的前奏,在AI大模型的商业化过程中,商业模式的选择至关重要。

当前,AI大模型主要采用以下三种商业模式:

  1. 软件即服务(SaaS),AI大模型的常见商业模式之一。通过SaaS模式,AI公司可以将AI技术以云服务的形式提供给客户,从而实现规模化和可持续的盈利。例如,AI公司可以通过云平台提供自然语言处理和数据分析服务,客户可以按需付费使用。
  2. 授权和合作,AI大模型的另一种商业模式。通过授权和合作,AI公司可以将AI技术授权给合作伙伴,或与合作伙伴共同开发和推广AI解决方案。例如,AI公司可以与汽车制造商合作开发自动驾驶技术,或与金融机构合作开发智能风控系统。
  3. 自主产品和服务,AI大模型的另一种商业模式。通过自主开发和推广产品和服务,AI公司可以直接面向终端用户,实现品牌价值和市场份额的提升。例如,AI公司可以开发智能家居设备、智能客服系统和智能内容生成工具,直接面向消费者提供服务。

最后的话

AI必然会重构我们的世界,从技术进步到行业应用,从社会变革到全球竞争,AI正在以不可阻挡的势头改变着我们的生活。

对于企业和个人来说,尽早进入AI领域,把握市场需求,抓住创新机遇,是获得红利的关键。

然而,AI的具体落地还在不断摸索中,解决什么问题、选择什么技术路线、采用什么商业模式,这些问题仍需深入探讨和实践。

在这个充满机遇和挑战的时代,只有不断创新和探索,才能在AI领域取得一些成绩。

希望带给你一些启发,加油。

如何搭建智能客服机器人

aigc阅读(34)

一、智能客服机器人的重要性

智能客服机器人在现代企业和客户服务中的重要性日益凸显,其应用领域也越来越广泛。

  • 从提高客户满意度来说:智能客服机器人能够24/7全天候提供服务,快速响应客户需求,提高客户满意度。
  • 从降低运营成本来说:减少对人工客服的依赖,降低人力成本。而且可以处理大量重复性和简单的问题,让人工客服可以专注于更复杂和高价值的任务。
  • 从提升服务效率来说:智能客服机器人可以同时处理多个客户请求,提高服务效率。以及减少客户等待时间,快速解决问题。
  • 从数据收集与分析来说:智能客服机器人可以自动收集和记录客户交互数据,帮助企业进行客户行为分析和市场调研。提供实时反馈和报告,帮助企业优化服务流程和产品。

当然,一个智能客服机器人的优点不止于此,还有提供标准化的回答,确保信息的一致性和准确性,减少人为错误等等。那么优点这么多的智能客服机器人应如何去搭建呢?

二、如何搭建一个智能客服机器人

1、确定知识库的问题范围

确定智能客服机器人的知识库范围是开发和部署一个高效、智能客服机器人的关键步骤之一。那么要去确定知识库范围要注意明确问题素材的整理、问题的提炼以及知识形态的判断。

下面我们来详细介绍:

1)知识库素材的整理

我们要搭建一个智能客服机器人,最重要的部分就是关于素材的整理,那么这些素材预料是从哪里来呢?

在弄清楚这个问题之前,我们要先明确,我们这个知识库是干什么用的?

放什么样的知识取决于我们的业务场景以及我们的需求。比如电商行业,我们想要知道的问题大多是:“什么时候发货、怎么退货、怎么换货” 等等这样的问题。那当我们明确了需求以后,在去整理问题素材就比较容易了:常见的素材整理有三种方式:

  • 客服人员的经验总结
  • 历史会话的积累
  • 行业的知识云

客服人员是和客户最直接沟通的人,所以他们能够了解客户的需求,而且我们也可以从历史会话中去提炼出一些高频问题放到知识库中,再加上行业的知识云,这样整理知识库的素材,也就完成的大半。

拿到这些原始素材之后,我们不能直接拿来使用,而是需要去做数据清洗和问法聚类,在确定好这些以后,训练师们就要根据这些问题去写答案,按照:问候语+问题名称+问题答案,这样的方式去写。

2)问题提炼

关于我们拿到的素材的问题,建议都去做好分类,因为分类可以直观的知道这个知识库里有哪些知识,以及知识的架构是怎么样的。另一方面,如果我们想要去修改某类知识的话,能够更快更精准的找到他。

在所有的问题通过聚类、清洗以后,我们可以将用户问句进行分类标记,把那些意图不明的或者多个语意的句子进行拆分,处理成一对一的关系,全都做好标记,就可以进行标准问题的提取了。

我们做知识库的搭建需要很多问题语料数据,比如一个标准问,他需要很多相似问法来支撑,才能让机器人能够理解这个问法。所以这些相似问问题的原始语料都是很好的语料数据。

3)知识形态的判断

我们要去判断客户进入之后的意图是什么,比如是一问一答的对话,还是复杂的问题需要转人工,这些意识形态的不同,处理的方式也不一样。

2、提升机器人理解能力

客户进入客服系统之后,都会跟知识库里所有的问题进行相似度计算,如果我们要机器人回答,就需要很高的置信度。那如何提高置信度呢,就需要我们尽量多写相似问题,把那些常见的问法尽量都写上去,当有访客来询问的时候机器人就能够直接回答他。

那相似问题如何而来呢,就需要我们人为去编写了,当我们在编写相似问的时候,要意图明确、语言尽量清晰简洁、要思考这个问法是否有必要而且要有一定的丰富度。

3、知识库构建&测试调优

在知识库构建的初期我们需要做一些基础功能配置,比如说欢迎语、导航菜单,以及它的转人工按钮,或者访客询问多次以后,我们就可以让机器人转到人工客服那边去接待,或者访客连续问了两个问题或者三个问题,机器人都没有能够理解,这种情况下,我们可以判断出用户的问题可能是在库里没有对应的知识点,需要人工客服去接待。我们就可以无感知地将用户转到人工客服那边了。

我们还需要做一些“词库配置”来提升机器人的理解能力:比如在某些业务场景下,苹果是指iPhone手机,两种说法是一个意思。如果我们把它去作为一个相似词做一下关联,写相似问法的时候就可以少写很多。当访客去咨询的时候,不管他说的是 iPhone 还是苹果,机器人都能直接 get 到他说的意思。

最后就是关于知识库的测试部分:当我们问机器人问题,匹配率不高的情况下,我们就看具体是哪个问题没有匹配或者哪个问题的答案不合适等等,然后去做对应的调优,这就是对应的处理方式。

4、机器人灰度发布以及正式上线

关于机器人的灰度发布:这个是指我们可以采用不同的方式,比如根据区域或者访客的属性,选择少量的用户让机器人去上线,看一下它的线上效果。如果机器人表现没有特别大的问题,我们就可以直接全量上线了。

最后,智能客服机器人的应用不仅提高了客户服务的效率和质量,还为企业带来了显著的经济效益。随着技术的不断进步,智能客服机器人的应用领域和功能将会更加广泛和多样化。