欢迎光临
我们一直在努力

“作业帮”出海,拿下200万MAU

aigc阅读(9)

近日,曾多次出现在美国、印尼下载总榜 Top100,也被 a16z 收录到 Top50 移动端 AI 应用的 Question.AI,近日被媒体证实,是国内 K12 在线教育 App 作业帮背后公司在海外推出的 AI 教育 App。

Question.AI 所属的海外实体名为 D3 DIMENSION TECHNOLOGY PTE. LTD.,注册地为新加坡

根据企查查给出的信息,作业帮创始人兼 CEO 侯建彬和联合创始人李博洋均为该公司的董事|图片来源:企查查

作业帮于 2014 年 1 月在国内市场上线,当时的核心功能是“拍照搜题”,后续又推出了在线直播课程等其他服务。根据点点数据,Question.AI 于 2023 年 5 月 30 日在美国市场上线,之后于 6 月、7 月相继在东南亚和全球其他市场上线。

Question.AI 近一个月全球双端 WAU | 图片来源:点点数据

近一个月全球双端平均周活跃用户数(WAU)为 106 万,没有之前报道的 200 万那么夸张。

数据来源:点点数据

从市场分布来看,目前 Question.AI 近 30 天全球双端 DAU 有 59.6W,DAU 最多的 Top3 市场是印尼、菲律宾和美国。同期收入 29.1W 美金,其中绝大部分都来自美国,占比 97.2%。

这与 Question.AI 绝大部分功能都免费提供有关。

a16z 榜单中的教育类 App | 图片来源:a16z

作业帮默默出海,并快速起量,但海外的 AI 教育市场,尤其是以拍照解题为核心功能的教育 App,早已不是一块空白市场。在 a16z 上个月发布的 MAU Top50 AI App 的榜单中,作业帮位列第 28 位。

而在榜单中有 7 款教育类的 App,其中 AI Quran 是古兰经 App,ELSA 是 AI 语言学习 App,剩下的 5 款产品都是以解题为核心功能的。下面,我们以能够做出收入的美国市场为例,来看当前与 AI 解题相关的产品的竞争情况。

a16z Top100 AI App 榜单中的AI解题产品 | 图片来源:a16z

一、想要数学的流量、但留不住数学的量,后来者定位大而全切入市场

首先,我们先看下产品。

Question.AI 落地页(左),功能一览(右)

Question.AI 的落地页并不是拍照解题页面,而是一个 AI ChatBot,用户可以直接输入想让 AI 解答的问题。如果用户需要使用拍照解题功能,可以直接点击聊天框上方的按钮进入拍照页面,也可以点击“拍照”一级标签进入。另外还有 AI 写作相关功能,Question.AI 有点啥都想干的意味。

Question.AI 拍摄界面(左),AI聊天界面(右)

用户在拍照前需要选择要搜索的是数学问题、其他问题(除数学外所有学科)、还是拍照翻译,如果用户拍照的内容与选择的功能不匹配,AI 将不能正确识别。在拍照后,App 会直接跳回 AI ChatBot 页面与用户确认识别内容,并提供回答,AI 在给出答案后,用户还可以点击答案下方的“解释它”按钮,获得更详细的解析,用户与 AI 的大多数交互都在 AI ChatBot 页面完成。

Question.AI 解答物理和化学问题

但笔者测试下来,在通用问题(数学被单列出来)方面 Question.AI 的表现还是不错的。在笔者分别测试了历史、地理、物理、化学四个问题,AI 都可以给出正确答案。而且在多语言识别上也做得不错,除了无法识别中文之外,笔者测试了用印尼语、越南语、西班牙语向 AI 提问,它都能给出正确答案。

二元一次方程问题,Question.AI 的错误回答(左图),Photomath 作为正确答案参考(中图)。一元二次方程问题 Question.AI 的正确回答(右图)

但是在数学问题的处理方面,副标题叫做 AI Math Calculator 的 Question.AI 则有点拉胯。

笔者先向AI询问了一道简单的二元一次方程,AI 使用了加减消元法,但在“10y-7y”的时候,不知道怎么得出了 2y 的答案…..最后得出了错误答案,而 Photomath 则给出了正确的答案。

但笔者又询问了一道一元二次方程,这次 Question.AI 又能够给出正确解答,而且使用了一个比较巧妙的方法,并不是盲目代入公式。

但是整体测试下来,Question.AI 在解答数学题上的表现并不稳定。

用高数极限问题测试,Question.AI 给出了错误答案(左),Photomath 给出了正确答案(右)

而当笔者用作业帮不擅长的高数(K12 之外)去测试 Question.AI 时,它还是在用 K12 阶段的方法来解题,而且还没有给出正确答案。而作为参考的 Photomath 却能够给出变换法和公式法两种标准解题思路。而在应用商店的用户评论中,准确率不高也是 Question.AI 被高频吐槽的一个问题。

Question.AI 用户吐槽答案得不准确

Question.AI AI 写作页面

除了拍照解题功能,Question.AI 还提供了 AI 写作功能,包括创意写作和论文写作两个功能。笔者体验了一下,创意写作和所有产品大差不差,论文写作,可想而知会是一个被用户吐槽的点。

评论中提及 AI 写作的评论几乎没有,唯一找到的一条则是吐槽 AI 撰写的论文在逻辑与观点上存在错误

其实不论是从 Question.AI 副标强调数学、还是从美国市场上大量 App 主攻数学来看,数学都是美国市场需求最大的一个方向。作业帮作为一个后来者,一方面通过副标题里的数学来吸引流量、但确实解题的产品力又不足,导致产品目前处于一个没有长板,更偏向于通过全学科+多功能定位,立足市场。

二、以数学为核心,市场分为 AI 提供答案和 AI 搜索答案两派

数据来源:点点数据

纵观 a16z 榜单中的几款解题产品,Question.AI 在用户数和收入上排名第四,其实已经算不错的成绩。

而从竞品情况来看,Photomath 和 Mathway 是走得是拍照解题工具路线,AI 会直接给出问题答案;而 Brainly 和 QANDA 则更像是一个服务学生的在线教育平台,拍照解题只是产品中的一个板块,并不算是核心功能。

Photomath(左),Mathway(右)

DAU 和收入都最多的是 Photomath,这款产品由克罗地亚的开发者制作,并在 2022 年 5 月被谷歌收购。拍照解题几乎是这款产品唯一的功能,而且只支持数学问题,全力构建一个长板。无论从正确率上,还是多种解法的呈现上,Photomath 的表现都优于 Question.AI,而且即使是高等数学,Photomath 也可以给出答案。可以说在数学领域,建立了很强的品牌心智。

而 Mathway 的功能和产品设计与 Photomath 非常相似,但不同的是,只有订阅用户才能看到完整的解题步骤。

Brainly(左),QANDA(右)

相比 Photomath 更偏工具的产品设计,Brainly 和 QANDA 则更像一个在线教育平台,支持全学科,但依然以数学为主。

答疑社区是他们最核心的功能,走用户发帖求助,其他用户答疑的模式。对于拍照解题功能,这两款产品都是用户拍照后由 AI 进行识别,并在平台和题库中搜索类似题目,并全部呈现给用户。在这个过程中,AI 只参与识别和搜索的环节,答案则是由社区或题库提供。

其实从体验上,在能够准确作答的前提下,还是 AI 直接解题的产品更符合用户的需求,因为两款产品提供给我的“相似题目”都和我本身给到的题目有差距,并不能直接解决问题。

Brainly 的教科书学习页面

除了解题和社区功能,用户还可以基于教科书和配套的电子教案进行学习。

相比于竞品,其实 Question.AI 的产品设计与 Photomath 偏工具的定位更相似。但是从学科方面来看,Question.AI 的 AI 确实更加“博学多才”,多学科支持做得很好,且能够以 AI 直接给出答案,算是形成了差异化,这可能也是其能够起量的一个原因。但在美国市场需求最大的数学题目解答上,有所欠缺,可能会限制它在美国市场的进一步发展。

AI大模型催生App「通胀」

aigc阅读(7)

AI工具独立开发者「Alchain花生」最近做了一个小测试。在GPT Store上,他把自己开发的一款用户数5000+的GPT(模拟Claude 3 Opus)调成了付费模式,想看看海外用户是否真有更高的付费意愿。

6小时后,他获得了第一笔用户打款,5美元。在他展示的后台截图中,这款应用在最近7小时内,入账20美元。

「每天收获几笔咖啡钱吧。」Alchain花生轻描淡写地聊到付费测试的初衷——既然当下Open AI无法按照年初承诺的那样——在一季度启动GPTs开发者收于分成计划,且GPT Store已有烂尾之嫌,他想试试AI开发者有没有可能找到自己的商业模式。

AI大模型催生App「通胀」

▲「Alchain花生」应用后台的入账截图

从去年下半年开始,基础大模型厂商就不断呼吁,口袋不够深的就别卷模型层了,赶紧去开发AI应用。比如百度创始人李彦宏不厌其烦地布道:AI原生时代,我们需要100万量级的AI原生应用。

IDC预计,到2024年,全球将诞生超过5亿个新应用,这一数字几乎等同于过去40年累积的应用总数。

这些乐观的判断皆指向终局,一个宇宙大爆炸后的新时代。不过我们更关注的是当下,这个由大模型主导的狂热浪潮是否会带来前所未有的AI类App「通胀」?

一方面AI应用开发门槛已经极大降低——2008年苹果推出 App Store时,应用开发者还需要学习Objective-C语言,如今的大模型厂商们则提供自然语言开发,懂不懂代码不再重要,人人都可以成为开发者。

另一方面,AI技术迭代速度远超移动互联网。熵基科技首席科学家陈书楷直言,大家都知道,能力更强的新模型如ChatGPT5出来之后,有可能你现在正在做的很多事情都是白做了,「今天这个现象,是互联网时期没有的。」这也意味着一批AI应用的生命周期可能短如蟪蛄。

起码目前看起来,时代的金矿仍蕴藏于混沌之中。但没有人愿意在牌桌之下。

一、AI应用「通胀」时代:开发者、「App工厂」们都发动了

当一名国内普通用户想要体验AI助手应用,他可能要患上供给过剩的选择恐惧症:手机应用商店里,不仅有五花八门的豆包、文心一言、讯飞星火、Kimi、通义千问、智谱清言、紫东太初……还有一堆形神都似ChatGPT的套壳产品,可以说应有尽有,但似乎又难免趋于同质化。

迷惑的远不止用户。当被问及自家到底有多少个AI应用上线时,至少有两家科技大厂的内部人士都对我摇起头:「说不上来」「数不清」。

在这波AI原生应用浪潮中,不少大厂本着所有应用都值得被AI重构一遍的思路,鼓励内部疯狂赛马,也由此导致,部分AI应用以独立App或PC端插件形式推出,并未叠加到主App当中,甚至可能连其他业务部门的同事都不知情。

没有科技公司想错过这波AI应用浪潮。况且,中国公司本就以擅长做应用层著称。

从公开信息来看,目前百度、字节、阿里等都在争分夺秒。

像百度,除了用AI改造原有App、上线文心一言之外,还发布了「万话」「小侃星球」「SynClub」等社交类AI应用、「文心一格」等AI绘画工具以及「AI用药说明书」、「智能候诊室」、「有医笔记」等医疗类AI应用。

暗中发力的「App工厂」字节,最近半年推出的AI应用不下10款,除了聊天机器人「豆包」、AI伴侣类「心晴」、AI社交类「话炉」(猫箱),类似Sora的AI视频工具「Dreamina」也在内测之中,而这些还只是字节野心的冰山一角。有媒体报道,字节还在秘密研发多模态数字人产品、AI生图产品,剪映团队也在封闭研发全新AI产品。

其他公司如科大讯飞,除了聊天机器人「讯飞星火」,也有AI口语助手「星火语伴」、讯飞写作、智慧工牌等效率工具上线……此前专注技术解决方案的AI技术公司商汤科技,也在发布自家大模型之外,下场搞起应用,推出「商量」、「秒画」、「如影」「小浣熊」等生成式AI应用产品,并将生成式AI应用列入今年的重点发力方向。

在国内外基础大模型厂商、技术解决方案商、开发者、投资人的联合推动之下,AI应用正进入一个供给侧的爆发阶段。2023年,软件项目托管平台GitHub人工智能项目的数量暴增59.3%。百度方面数据显示,截至今年3月,其千帆AppBuilder平台上每周新增应用突破3000;到4月,平均每周新增应用达六七千个。

在北京的地铁车厢中,甚至已经出现智谱清言这类对话式AI应用针对C端市场的高调推广。在此之前,同类型的Kimi已经在线上渠道刷足了存在感。

AI大模型催生App「通胀」

C端用户也正对AIGC报以极大热情。根据QuestMobile的洞察,独立APP的需求持续增长。2024年1月,TOP10 APP去重用户规模同比增长37倍。头部APP的活跃用户超5千万。

AI大模型催生App「通胀」

不过这场爆发的「暗面」则是AI应用的速生速死。去年9月,美国知名科技风投公司a16z根据月访问量整理了一份Top50 AI应用榜单;今年3月,该公司推出最新Top50 AI应用榜单时发现,名单上40%的应用都是新面孔。这意味着,半年内至少有20款AI应用已经掉队。

对于这个数字变化,a16z表示,「令人瞠目」。

QuestMobile数据也直接印证了这一行业趋势。今年1月,国内头部AIGC APP活跃率均在20%以下,比较低;忠诚度方面,3日留存均在50%以下;流失风险高,部分APP的卸载率在50%以上。

这一点同移动互联网时代不同。移动互联网初期,一大堆高频的原生应用很快被创造出来,并形成崭新的商业模式,比如国外的Instagram,国内的微信、滴滴……「但AI目前还没到这地步」,独立开发者「Alchain花生」认为,当下AI应用更多是在提升既有产品的用户体验,而且主要作用在生产力端。

AI应用进展比大家期待的要慢,背后主要「卡脖子」的大概还是基础大模型。打个不太恰当的比方,45亿年前地球诞生之初是不太可能出现寒武纪那样的物种大爆发盛况的,因为地球本身仍处于剧烈变化中,动不动就被其他行星碰撞,还没有大气保护罩,可以说,尚未完成塑形。只有等地球内外部环环境于相对稳定了,才有生命可言。

大模型便处于类似的阶段。业内人士公认,大模型的迭代几乎以周为单位。反映到科技媒体的资讯弹窗中,「炸裂」这个词都快不够用了,因为每隔几天就会有新的颠覆者出现。

MiniMax创始人闫俊杰在接受《晚点》采访时提到,产品价值的来源,核心还是模型性能和算法能力,「你可以做很多产品feature,但你会发现,几乎所有大的提升都来自模型本身的进步。」

传说中将于今年登场的GPT-5,被认为将掀起更大的海啸,或者说成为AI发展史上举足轻重的一个分水岭。某工具软件出海企业人士姜辛在同《降噪NoNoise》交流时提到,今年可能会有一大波套壳类应用受到大模型迭代的挤压,预计会死掉一批,「基础大模型自身功能的迭代,就可能替换掉那些App的产品价值。」

对于这一点,曾经的AI文本生成工具明星——Jasper大概是如鲠在喉。而OpenAI 发布新一代视觉大模型Sora后,也有业界人士担心Pika、Runway等一众AI视频产品再无活路。

在「Alchain花生」看来,一些没有护城河的AI应用原本就属于「屎上雕花」,价值不大;但一些工具类产品在跟场景结合后产生价值的,不至于被颠覆,比如Monica、sider、沉浸式翻译等插件应用。它们把大模型能力和用户实际使用场景结合后,都提供了不错的价值。

二、有价值的AI应用,都跟特定场景结合

价值正成为衡量AI应用会否被技术迭代所覆盖的重要标准。

在a16z整理的AI应用榜单中,生产力工具类应用MaxAI,把ChatGPT、Claude、Gemini/Bard、Bing AI等模型的部分能力抽离出来,整合到一起,基于应用场景做一个封装的插件,可以帮用户总结文本、辅助写作、创建图像。

本质上,MaxA做的是「水管」生意。有业内人士透露,该团队已获得高额融资。

另一款受到关注的Chrome插件——Monica,其创始人肖弘在阐述产品价值的时候提到,他们做了很多很具象的场景里面的工作,比如回邮件、帮用户总结文章或者在用户打开一个YouTube视频的时候,帮其总结每段内容。这些功能都通过插件潜入浏览器,因为浏览器插件在海外是一个比较主流的产品形态。

AI大模型催生App「通胀」

在极客公园大会上,肖弘还提到关键一点,应用层创业者应该想办法收集用户在特定场景的数据,有了数据,AI应用便可以与大模型这个大脑形成协作关系。

数据也是很多AI应用即便没有找到商业模式、也会依然做下去的原因。姜辛告诉我们,像个人助手和效率工具,可以积累用户数据、行为数据,这样在产品下一次迭代时就有了数据参考。

至于基础大模型迭代带来的App「短命」,姜辛坦言,这样也好,倒逼C端应用继续迭代、在细分场景做深,也倒逼开发者思考——产品下一步要往哪个方向迭代?护城河是什么?「打个比方,剪映是通用的视频制作工具,但创业者可以根据剪映拆分出细分功能,单独做成产品。

姜辛认为,C端应用比B端应用更容易触及天花板,因为当前字节、百度这类大公司,甚至商汤科技这种技术方案提供商都开始下场做AI应用了,竞争会很激烈。

AI大模型催生App「通胀」

对于小规模的大模型初创公司来说,关键是如何能够找到自己的竞争壁垒。趣丸网络副总裁、前经纬中国副总裁庄明浩此前对媒体表示,他观察到,很多初创公司转向了「小作坊做小工具」的模式:先找准一个市场上还没有的功能与产品,抓住窗口期,通过运营手段快速推广,哪怕这个窗口期只有3到6个月,也可以挣到一笔钱,而后继续寻找新的市场机会。

以妙鸭相机举例,这一产品刚推出便受到了市场的追捧,从第一天便开始收费,但两个月后市场的热度也很快就降了下来。这与移动互联网时代的应用早期通过免费争夺用户市场,而后再逐步开始收费的创业模式已经完全不同。

沪渝人工智能研究院的徐工程师告诉我们,AI时代和移动互联网时代创业最大的不同是,当时大家最主要的关注点在于抢占市场份额,但现在大家主要是在探索商业模式。

量子位智库新近发布的《中国AIGC应用全景报告》显示,C端AIGC产品以智能助手以及图像生成类的生产力工具为主,虽然用户量大(纯C端占比50%以上),但盈利状况普遍不乐观,近50%的产品当前仍未有明确的收入模式,以免费为主。相较之下,B端产品商业模式较为清晰,以订阅和按需付费为主。

AI大模型催生App「通胀」

姜辛直言,包括他所在公司在内的很多应用开发商,大家其实都想去切B端场景,瞄准行业+AI,但囿于缺少行业kown-how,其实也很难切进去,更别提大幅改造。

在同《降噪NoNoise》交流时,蚂蚁数科某业务负责人也认为,大模型加持下的场景化能力要想在产业端落地、做出价值,还需要一点时间。这个「价值」,要么让此前的业务更有效,要么让企业能做此前做不了的业务。但目前来看,大多数企业还在探索阶段,「没那么快」。

如果从全球视角来看,追求风险投资也成为一类AI企业的专属道路。例如意大利科技公司Bending Spoons,便是视频编辑器Splice和照片增强器 Remini的幕后推手。不久前,该公司对外宣布获得了1.55亿美元的股权融资。

三、急不来

按照人工智能研究者、认知学家Gary Marcus的判断,生成式AI要达到互联网甚至智能手机带来的那种变革水平,还须有巨大的改进。

一个繁荣的AI原生应用生态,需要大模型、智能算力、AI原生应用研发新范式三要素相辅相成。从这个维度来看,杀手级的AI原生应用的问世是急不来的。

熵基科技首席科学家陈书楷直言,「大家要去做开发、做测试,要克服各种困难,解决各种各样的实际问题,所以不可能太快,但是润物细无声,大家确实都在做。」

他认为,作为AI应用的开发者,大家首先要关注的是AI怎么去解决实际业务当中的问题,再者就是随时关注最新的技术发展。

陈书楷看到,当前各种应用模式也是在不断的成熟和发展的过程当中,比如基于知识库的应用、基于Agent的应用,都会不断的有新的成果出来,这些成果能够直接提升现有AI应用的水平。与此同时,大模型本身的基础能力在不断提升,AI应用的一些局限性也会不断被打破。

业内不少人认为,AI Agent或许可打造出AI原生场景及应用。AI Agent是指在人工智能领域具有自主决策能力、环境感知能力和反应能力的智能体。AI Agent强调主体的自主性、反应性、主动性和社交性等方面的能动特征,而具有理解生成、复杂推理、自主学习等类人脑功能的大模型,则可以作为Agent的基础而存在。

当AI Agent以App的形态出现时,这也意味着,Open AI的GPT Store可能会面临来自APP Store的竞争。毕竟,Writerbuddy研报告中显示,超过60%的用户习惯于在手机等移动终端上访问AI工具。

这同时或许也表明,AI领域的创业公司们,可能会迎接更大层面的机会和挑战。

回望移动互联网时代,在2014年,中国智能手机用户首次超过5亿人,成为拥有智能手机用户最多的国家。疯狂生长的移动App正占据新的风口。2015年4月,我国主要应用商店的应用规模已累计超过400万个。

但这些App的生命周期平均只有十个月。其中,85%的用户会在1个月内将其下载的应用程序从手机中删除,而到了5个月后,这些应用程序的留存率仅有5%。

而这一场景,恐怕在AI时代只会愈发惨烈,AI应用「通胀」在所难免。

但即便如此,在同样大厂当道的当时,字节跳动、陌陌、滴滴等一系列创业公司,依然杀出了属于自己的生路。腾讯更是凭借微信,将原本平起平坐的对手们远远甩下。

那么,在可能新一轮时代「金矿」中,又有谁可能会成为新一轮的优胜者?谁有可能会被时代抛下?对此,我们充满好奇,只不过,这一答案,要先交给时间。

(注:应受访者要求,姜辛为化名)

爆火的Kimi,抢了谁的生意?

aigc阅读(8)

一个仅成立一年的创业公司,一群顶着名校光环的90后,做出了一款效果出众的大模型产品,让整个AI圈震动。

自从妙鸭相机短暂出圈后,国内的大模型行业,已经很久没出现爆款产品,Kimi填补了这一空白。

最让人意外的是,A股股民也来凑热闹,各大炒股群讨论Kimi概念股,流量激增导致Kimi服务器宕机。

如今一个多月过去了,虽然热度减退,但身边依然有人在讨论Kimi。

北京一所高校的在校大学生告诉「定焦」,近期学校组织了学习会,安排老师学习Kimi,老师给学生布置作业,要求学习、训练Kimi。

在网络上,时不时能看到有人推荐Kimi,这其中有一些可能是定向投放的广告推文,但也不乏一些自来水。

Kimi带给人们的一个认知冲击是,AI发展太快了,创业公司也可以在短时间内做出让人眼前一亮的产品,相比之下,那些号称做了十几年、砸下千亿资金的科技大厂,不过如此。

Kimi抢走了科技大厂的风头,未来还可能抢走他们的用户。

问题是,火爆能持续吗?

一、谁在用Kimi?

Kimi是一个面向C端用户的智能助手,善于读长文、搜网页,主打功能包括整理资料、解读文件、辅助编程、文案写作等,被网友称为ChatGPT中文平替。

因为有ChatGPT在前边教育市场,还有文心一言、通义千问、讯飞星火等大厂推出的产品相互内卷,Kimi提供的这些功能,其实很多人之前或多或少了解过。

但对比之下,像Kimi一样让很多人自发使用,不只是厂商自吹自擂,还能让2亿A股股民狂欢的国产大模型产品,此前没有过。

Kimi呈现给用户的东西很简单:一个像百度搜索一样的搜索框,“文件,拖进来;网址,发出来”,然后用户可以直接针对发给它的文件或网址提问,让它帮忙总结归纳、分析数据、全网搜索。

图源 /kimi.ai官网截图

最大的亮点是它支持超长文本输入,一开始是20万字,后来增加到200万字,而当时纵观全球范围内的大模型,没有一个能超过10万字的。

这在用户体验上最大的变化是,你给大模型投喂资料,不用再把文件拆分成好几个了,直接丢进去就行,它都能很快读懂,还能“大海捞针”定位其中的信息,告诉你某个信息出现在哪一页。

看到这,Kimi的用途很明确了——长文本阅读和分析概括,可以理解为AI搜索+文档总结。它是一个生产力工具,帮助我们处理信息,偏实用导向,不是用来吟诗作画、聊天娱乐的。

这个定位,决定了Kimi的使用者主要是打工人。Kimi官方介绍文档中提到了六类人群:学术科研人员、互联网从业者、程序员、自媒体与内容创作者、金融和咨询分析师、法律从业人员。他们有个共性:要处理大量文档信息。

一位非诉律师对「定焦」说,之前经常用ChatGPT整理法律政策,利用它写报告、总结,但ChatGPT有个问题是每次输入的信息不能太长,比如一份1万字的材料,需要分成好几份,分批发给它才能进行分析。Kimi的长文本特点,解决了这个问题。现在他是两款产品同时在用。

一位自媒体从业者告诉「定焦」,他会用大模型分析上市公司财报信息,查询一些财务数据,在对比了文心一言和Kimi之后,他觉得Kimi更好用。“Kimi的功能很直接,简单好上手,总结归纳能力很强。”

不过,他们都表示,目前使用频率不高,更多是尝鲜、试用,因为AI生成的内容质量不稳定,有时候会出现胡说八道的情况,“可以参考,但不能全信。”

Kimi的开发者,是一个叫作月之暗面的创业公司,去年3月成立。Kimi去年10月第一次亮相,从一开始就主打长文本,对外宣传的噱头是“完整吃下了一本《三体》”。

亮相之后的半年内,Kimi迭代了三次。识别扫描件、上架小程序、联网搜索,以及将支持的上下文长度升级到200万字。

3月18日的200万字升级是一个转折点。在那之前,Kimi还是在互联网圈、大模型从业者,以及小范围的AI爱好者中传播,升级之后,Kimi成功引起了2亿股民的注意,出现一批Kimi概念股,Kimi APP和小程序宕机上了热搜,进一步传播出圈。

如今来看,Kimi能火,是多个因素共同促成的。首先是产品确实还不错,这是前提;其次恰到好处的营销,2月中旬月之暗面那笔10亿美金、号称国内AI大模型公司单轮最大金额的融资,极大增加了关注度;此外,Kimi概念股的发酵,来自2亿股民的神助攻,最后一举将Kimi送上了微博热搜和Appstore总榜前十。

Kimi的确是出圈了,这跟此前国产大模型只在业内人中传播不一样。不过,从总量上看,实际使用Kimi的人数还是有限,Similarweb监测到Kimi网页版的日活用户数峰值在三四十万的水平,全网日活峰值在百万水平。

对于一家创业公司而言,这个成绩相当不错。

问题是,为什么做成这件事的是一家创业公司?

二、Kimi做对了什么?

月之暗面不是国内最早那批做大模型的公司,在它之前,百度的文心一言作为ChatGPT之后第一个亮相的国产大模型,被认为最接近ChatGPT。此外,阿里的通义千问、科大讯飞的讯飞星火、智谱GLM,都已迭代了好几轮。

但除了厂商们的主动发声,国内一直没有出现C端用户真正认可、愿意自发为之宣传的产品。

一大乱象是卷参数、刷榜单。几乎每家在发布产品时,都要把GPT拉出来对比一波,找到几个指标把GPT超越——比如,中文能力。GPT成了靶子,被国产大模型轮番吊打。但业内人都知道,论综合能力,国内没有一个大模型能超越GPT4。

“刷榜”是大模型行业公开的秘密。国产大模型乐于刷榜,经常在各种榜单上排名第一。但多位做榜单测评的业内人士告诉「定焦」,大部分排名没有太大参考意义,跟“刷题”一样,不代表真实能力。

普通用户感到很迷惑,“你说你很强,榜单上有你,媒体推荐你,博主夸赞你,我就信了你,但用完之后,一言难尽……”一位试用过多款国产大模型的用户说。

国内做大模型的公司很有意思,有些是为了拉股价,有些是蹭热点,还有的就是想圈钱,动机很不单纯。稍微好点的,是为了赶超对标OpenAI,是为了要赢。

即便是把长期主义挂在嘴边的大厂,很多也是为了打赢对手,而不是想着怎么满足用户需求。

最典型的是阿里和360。Kimi宣布支持200万字超长无损上下文之后,因流量激增服务器崩溃上了热搜。然后第二天,阿里通义千问宣布免费开放1000万字长文档处理功能,号称“全球文档处理容量第一”,紧接着360 AI浏览器宣布内测500万字长文本处理功能。

好吧,大厂又“赢”了,他们又“第一”了。

有人点评:“既然你(阿里、360)知道长文本好,而且你也能实现,早干嘛去了?这是来给用户提供便利的,还是来蹭流量的?”

除了大厂,还有大佬。去年Kimi刚发布不久,李开复成立的零一万物,发布了大模型Yi-34B,能处理约40万字,是Kimi的约2倍,声称问鼎了多项全球英文和中文能力测试排行榜第一。但马上就有业内人指出,“Yi系列”的模型架构与Meta的开源大模型LLaMA相比,只改了两个张量(tensor)的名字,让其陷入套壳争议。

图源 / 零一万物官网

在这样的大模型创业生态中,其实只要产品稍微好一点,营销巧一点,时机把握好,很容易脱颖而出。

今年3月,AI创业者华融琦利用Kimi,写了一个《Kimi最全指南》的云文档,传播很广。他对「定焦」说,Kimi做长文本很早,从一开始就拿这个点做单点突破,给人留下了根深蒂固的印象,而长文本是一个通用性的功能,Kimi相当于是以功能和场景出圈。另外,创始人杨植麟超级学霸、AI大牛、90后的人设自带滤镜,在感性层面获得了外界更多支持,用户出于认可自发的宣传也给Kimi增添了不少流量和好感。

产品定位决定了市场策略。在国内大模型产品中,Kimi是少有的从一开始就明确只做to C,不做to B的产品。Kimi发布的第一天,杨植麟就说过,希望先提升模型能力,同时也会聚焦C端超级应用,通过产品连接技术与用户,Kimi是第一个产品尝试。

对C端用户的看中,决定了Kimi的产品体验不会差。无论是200万字的超长文本,还是拖拽文件的无门槛操作,以及简洁的页面设计,都能体现这家公司的用户思维。

BAT等大厂的大模型,做的很早,想要的也很多。在“做给谁用”这个问题上,大厂是典型的既要还要,既要吸引C端用户,又想让B端客户付钱,所以大厂基本都是把大模型跟云服务打包在一块,C端B端两手抓。

智谱AI是清华系的创业公司,全面对标OpenAI,公认技术实力强悍。智谱也有面向C端的产品,但落地方向以to B为主——智谱在机场广告牌上打的大屏广告,“助力千行百业加速迈向通用人工智能时代”,明显是给企业看的。

相比之下,Kimi是少有的从用户需求出发打造的产品。这不是说月之暗面的动机多么高尚,只是从结果来看,用户认可度更高。

三、抢了谁的生意?

作为一家创业公司,月之暗面少了些包袱,得到人们更多包容,这是大厂没有的优势。

去年3月百度在国内率先推出文心一言时,人们的关注点不是产品的功能表现,而是它有没有套壳,以及产品演示为什么是录播。

C端用户对大厂有一种天然的挑剔,甚至认为他们是创新的敌人。所以当杨植麟顶着90后创业者的光环出现时,很轻易就被贴上了颠覆者、破局者的标签。

那么,月之暗面的真实技术实力如何?Kimi的火爆能持续吗?

AI创业公司语核创始人池光耀认为,总体来看,考虑到长文本能力,Kimi是潜力很强的模型,能排在国内的第一梯队。

他对「定焦」分析:“Kimi对长文本的追溯能力很强,在给定材料中靠指令要求追溯特定信息的准确度很不错。即使是把指令埋在两三万字的小说中也能做到正确遵循。另外,它处理大部分日常任务的逻辑性能足够,虽然对超长材料的总结提取可能会漏掉部分细节,但能保留主体正确。”

图源 /kimi.ai官网截图

华融琦认为,各家大模型都有自己擅长的点,Kimi的优势是解读长文本,像是一个超级智能的文本检索器;智谱的智能体比较完善,搭建了开源生态,基于这个生态开发项目比较方便;MiniMax的模型比较懂人性,在角色扮演、情绪价值上有优势;文心一言的安全性和合规性做的比较好。

“Kimi确实是C端工具中最耀眼的,但在其他方面,比如AI系统搭建,光靠Kimi还不行。”华融琦说。

由此来看,Kimi只是在C端用户最容易感知的一些方面,暂时做到了比较好的体验,但这不意味着它就具备了很大的优势。

AI行业投资人柳笛对「定焦」说,现有的这些大模型,没有同一框架下的可比性,其实论综合能力,百度、阿里、智谱AI的产品是不错的,但Kimi在一些办公场景,比如复杂搜索、多轮对话、报告分析等方面好用,被用户当作辅助工具来用。

不过,由于产品定位清晰,Kimi已经对大厂的产品产生了替代效应,比如搜索。

“我觉得有了Kimi,基本可以不用搜索引擎了。”一位Kimi用户对「定焦」说,在他看来,Kimi的联网搜索+自动生成功能,对传统搜索是降维打击,“过去搜资料,你要从大量结果中自己去筛选、判断、分析,现在这些过程都可以省略,你只需要下指令就可以了。”

很多人没有注意到,Kimi爆火的那段时间,还有一款产品的流量也增长迅猛。根据“AI产品榜”的统计,AI搜索产品“秘塔AI搜索”3月访问量同比翻了5倍,在总榜中的排名快速爬升,仅次于文心一言和Kimi。

柳笛认为,Kimi对大厂接下来的策略产生了影响。“大厂明确to C finetune(微调)的方向了,更加看重paperwork的质量,而不是纯生成一些聊天内容,让用户调戏。”

当然,也有人对Kimi的可持续性持怀疑态度,认为它不一定能赚到钱。国内的大模型厂商之所以要做to B生意,是因为能看到明确的变现场景,C端产品难出爆款,出了爆款后算力成本是个巨大负担,让用户付费则考验用户粘性。而很多用户涌入Kimi,也是看中它是免费。

秘塔科技CEO闵可锐曾经直言:在国内不论针对什么环境,与国际市场的付费意愿相比而言是糟糕的。

“Kimi也没成功,它在试图先培养用户习惯,现在能维持百万DAU(日活),月推理成本都得大几千万,接下来大家就要验证收费了。”柳笛说。

华融琦认为,Kimi对C端收费是一个必由之路,“只是要看在什么阶段、对哪些功能进行收费,这就很考验Kimi的产品和定价水平。”

大厂转变策略后,对Kimi形成围剿之势,因此技术和产品的迭代速度很重要。

“AI这一波浪潮,大家达成共识特别快,一旦进入白热化的打仗阶段,不管是抢用户还是抢收入,恐怕不会特别久。”华融琦说。

* 应受访者要求,柳笛为化名。

Llama3发布,开源模型追上闭源模型的历史时刻就在眼前了?

aigc阅读(13)

今天AI圈又迎来一件大事:Meta正式发布他们迄今最强的新一代开源大语言模型Llama3。

首批发布的Llama3 8B和Llama3 70B包括预训练和指令微调版本,8K上下文,在两个24K GPU定制集群上使用15万亿tokens数据训练而成,Meta称它们分别是80亿和700亿参数上最好的模型。同时一个参数超过400B的「最大Llama3」也在训练中,社区认为这个模型更恐怖,极有可能超过当前的闭源王者GPT-4 Turbo。

Llama3在各种行业基准测试中表现惊艳,广泛支持各种场景。接下来几个月,Meta将陆续引入新的功能,包括多语言对话、多模态、更长的上下文和更强整体核心性能,并将与社区分享研究论文。

扎克伯格和Meta首席AI科学家Yann LeCun分别在Instagram和X宣布了这一消息。

网友们在评论区一片沸腾,马斯克前排回应,不错(有种淡淡的忧伤)。

我们赶快来看看Llama 3的具体性能表现:

一、多项测试成绩大幅超过Gemini 1.5和Claude Sonnet

Meta表示,新一代Llama3在Llama 2 的基础上有了重大飞跃,确立了 LLM的新标准。在预训练和后训练过程上的改进大大降低了错误拒绝率,提高了一致性,并增加了模型响应的多样性。在推理、代码生成和指令遵循等方面都得到了极大改善,使得 Llama 3 更加可控。

对照表中可见,Llama3 8B在大规模多任务语言理解、生成式预训练问题回答、编码和数学等LLM核心基准测试上都力挫Gemma 7B和Mistral 7B。Llama3 70B同样战胜 Gemini Pro 1.5和此前被夸爆了的Claude 3 Sonnet。

预训练版本的Llama3 8B和70B也在通用智能评估、困难任务、ARC挑战赛、DROP数据集上把Mitral 7B、Gemma 7B、Gemini Pro 1.0、新出的Mixtral 8x22B 打入手下败将之列。

除了关注LLM标准基准测试项目, Meta还寻求模型在现实场景中的性能优化。为此,他们开发了一套新的高质量人工评估集。包含 1800 个提示,涵盖了“寻求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、模拟角色/人物、开放式问题回答、推理、重写和总结” 这12 个关键用例。为了防止发生意外过拟合,即使是 Meta自己的建模团队也无法访问它。

在这套评估集上, Llama3 70B与Claude Sonnet、Mistral Medium、GPT-3.5 和上一代Llama2对战后胜率突出。(这里没有把GPT-4和Claude 3 Opus拉来对比,推测后续的400B模型将接过重任。)

二、Llama 3有哪些技术创新

Meta称,在Llama3的开发过程中秉承了创新、扩展规模和优化简洁性的设计理念。重点关注四个关键要素:模型架构、预训练数据、扩大预训练规模以及指令微调。下面分项来看:

模型架构

Llama 3 选择了一个相对标准的纯解码器 Transformer 架构。

相比 Llama 2 的改进之处有:Llama 3 使用一个包含 128K tokens的分词器,可以更有效地编码语言,从而显著提高模型性能;在 8B 和 70B 两种规模上都采用了分组查询注意力(GQA)机制来提高模型推理效率;同时在 8192 个tokens的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

训练数据

Meta认为训练出最佳LLM的关键是要整理一个大型高质量训练数据集,为此他们投入了大量资源:

Llama 3 在超过 15 万亿个公开可用来源的token上进行了预训练,比训练 Llama 2 时的数据集足足大 7 倍,代码量是 Llama 2 的 4 倍。其中超过 5% 来自高质量非英语数据,总共涵盖了 30 多种语言,以为即将到来的多语言使用场景做准备。

Llama3团队开发了一系列数据过滤管道来保证数据质量。他们还进行了大量实验,来评估在最终预训练数据集中混合不同来源数据的最佳方式,以此来选择一个包括STEM、编码、历史知识等等数据类别的最优数据组合,确保 Llama 3 在各种使用场景中表现良好。

扩大预训练规模

为了更有效利用预训练数据,Meta针对下游基准评估开发了一系列详细的扩展法则,在实际训练模型之前就能预测最大模型在关键任务上的性能,来确保最终模型在各种使用场景和能力上都有出色的表现。

在 Llama 3 的开发过程中,团队也对扩展行为有了一些新的观察。例如,尽管一个 8B 参数模型对应的最佳训练计算量是 200B个 tokens,但他们的 8B 和 70B 参数模型在接受高达 15 万亿个token训练后,性能仍然呈对数线性提高。

Meta结合了三种并行化方式:数据并行、模型并行和管道并行,来训练最大的Llama3模型。最高效地实现在同时使用 16K 个 GPU 训练时,每个 GPU 的计算利用率超过 400 TFLOPS。他们还开发了一个先进的新训练堆栈,可以自动进行错误检测、处理和维护,并进行了一系列硬件和可扩展存储系统的改进。最终使总体有效训练时间超过 95%,与 Llama 2 相比训练效率提升了约 3 倍。

指令微调方法创新

为了在聊天场景中充分释放预训练模型的潜力,Meta也在指令微调方法上进行了创新。后训练方法采用监督微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)的组合。在模型质量上的最大改进来自于仔细整理的训练数据,并对人工标注人员提供的标注进行多轮质量保证。

通过 PPO 和 DPO 从偏好排序中学习,也大大提高了 Llama 3 在推理和编码任务上的性能。团队发现,当你问模型一个它难以回答的推理问题时,模型会产生正确的推理轨迹:知道如何得出正确答案,但不知道如何选择它。通过在偏好排序上进行训练,模型就能学会如何去选择正确答案。

哪里可以用到:

根据官方介绍,Llama 3 将很快在所有主要平台上可用,包括云服务商、API 提供商等。从AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 将无处不在。它也得到了 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平台支持。

对于普通用户来说,最方便直接感受Llama3的方式就是通过 Meta AI。

除了在WhatsApp、Messenger、Instagram、Facebook等应用与Meta AI聊天助手对话外,今天还推出了网页版https://www.meta.ai/。即开即用,可以输入文本提问来生成图片和简单代码,支持实时搜索,其它功能还不是很完善。如果想存储历史记录则需登录Facebook账号。

三、真正的“GPT-4级”开源模型就在眼前

而Meta透露,Llama 3 8B 和 70B 只是 Llama 3 系列的开始,更多令人期待的东西即将到来。

一个超过 400B 参数的最大模型正在训练中,开发团队对此感到兴奋。未来几个月,Meta将发布多个新功能,包括多模态、多语言对话能力、更长的上下文窗口以及更强大的整体能力。一旦完成所有Llama 3 的训练,他们也会发表一篇详细的研究论文供社区参考。

Llama3 8B和70B,加上一个证实了正在训练的400B大模型,无疑向开源社区注入一支超强兴奋剂。

而不久后即将发布的Llama3 400B+会有多厉害?

大神卡帕西给予了很高评价:“Llama 3 是 Meta 一个看起来非常强大的模型。坚持基本原则,在可靠的系统和数据工作上花费大量高质量时间,探索长期训练模型的极限。我也对 400B 模型非常兴奋,它可能是第一个 GPT-4 级别的开源模型。我想很多人会要求更长的上下文长度。”

同时他也提出了个人请求,希望能有比 8B 更小参数,理想规模在0.1B到1B左右的模型,用于教育工作、(单元)测试、嵌入式应用等。

英伟达高级研究经理Jim Fan认为,它将标志着社区获得对「GPT-4级别模型」开放权重访问的分水岭时刻,这将改变许多研究工作和草根创业公司的计算方法。

从当前预测数据来看,Llama3 400B+已经足以匹敌市场上最强大的Claude 3 Opus和GPT-4。而Llama-3-400B仍在训练中,有望在接下来的几个月中变得更好。“有如此强大的基础设施,可以解锁很多研究潜力。期待整个生态系统的建设者能量激增!”

一个让所有人必须考虑的事实就是:开源模型追上闭源模型的历史时刻可能就在眼前了。

这对开发者可能意味着,AI应用可以更加快速的涌现和迭代出来。

而对创业公司们来说,则意味着更彻底的思路上的冲击。

它直接影响到所有以闭源模型 API 为核心的商业模式——既然免费的足够好用,为什么还要花钱呢?

更重要的是,如果连OpenAI、Google和Anthropic神秘的工具箱都不再高不可攀,那做一个比不上开源最强水平的闭源模型的意义何在呢。

最后还是不得不问一句:GPT-5,你到底在哪里呢?

全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用

aigc阅读(10)

LLM界的「真·Open AI」,又来整顿AI圈了!

业内惊呼:首个开源GPT-4级的模型,终于来了!开源模型追上闭源模型的历史性一刻,或许就在眼前了?

一石激起千层浪,Llama 3才刚刚发布没几小时,就破纪录地登顶了Hugging Face排行榜。

这次,Meta共开源了Llama 3 8B和Llama 3 70B两款模型,分别有预训练和指令微调两个版本。

小扎、LeCun也纷纷在第一时间开启了宣传模式。

Llama 3是在由24000块GPU组成的定制集群上,使用15万亿个token训练的。

甚至就连最小8B版本,有时都能打败大出一个数量级的Llama 2 70B!

值得期待的是,在未来几个月,Llama 3还将推出更多版本

不过,虽然上下文长度相较之前实现了翻倍,但依然只有8K。

顺带提一句,Llama 3已经可以在网页版Meta AI用上了,还是免登录那种。

对此,Hugging Face联创兼CEO表示:「Llama 1和Llama 2现在已经衍生出了30,000个新模型。我迫不及待地想看到Llama 3将会给AI生态带来怎样的冲击了。」

一、400B性能野兽,刷新开源SOTA

然而,8B和70B版本的Llama 3,还只是开胃菜,更大的还在后面呢!

真正的性能野兽——Llama 3 400B不久便要解禁,目前还在训练中。

其中,预训练版本在推理挑战测试集ARC-Challenge上,拿下了96的高分。

而指令微调版的Llama 3 400B更是在数学(GSM-8K)、代码(Human-Eval)、大规模多任务语言理解基准(MMLU)上,表现非常亮眼。

这些数据是什么概念?

英伟达高级科学家Jim Fan做了一个对比图,与Claude 3 Opus、GPT-4-2024-04-09和Gemini在同基准数据中的结果:

看得出,Llama 3 400B已经在多语言推理任务、代码能力,可与GPT-4、Claude 3相匹敌。

更亮眼的是,它在所有能力上,均打败了Gemini Ultra 1.0。

还有一个更详细的数据对比图,自己体会。

一时间,全网陷入了疯狂。

网友:首个「开源GPT-4」来了

Karpathy精辟地总结道,400B模型将会是「首个开源GPT-4级别的模型」。

Jim Fan感慨道:

即将推出的Llama 3 400B将成为一个分水岭,即社区将获得开源重量级的GPT-4模型。它将改变许多研究工作和草根创业公司的计算方式。

Llama 3 400B还在训练中,希望在接下来的几个月里会有更好的表现。有了如此强大的后盾,我们可以释放出更多的研究潜能。期待整个生态系统的建设能量激增!

OpenAI研究科学家Will Depue也表达的同样的看法,非常期待一款开源GPT-4级别的模型——Llama 3 400B,未来的可能性无穷无尽!

昨天刚刚发布的Mixtral 8×22B刷新SOTA之后,没想到,却被Llama 3 70B碾压了。

开源模型的SOTA,当属于Llama 3 400B。

吴恩达的生日,却收到一份别致的「礼物」。

Meta在博客中预告了,接下来几个月,将发布多个新功能的模型,包括多语言对话、更长上下文,以及整体能力提升。

一旦Llama 3完成训练,技术报告将直接发布。

二、Meta重回开源模型「铁王座」

在性能上,8B和70B显著优于Llama 2,取得了SOTA。

预训练模型和指令微调模型在8B和70B的参数规模上取得了如此先进的性能,都是得益于预训练和训练后的优化改进。

而Meta的研究团队,还对训练后优化过程进行了改进,这就大大降低了错误拒绝执行任务的比率,提高了模型输出与人类意图的一致性,还让模型响应的多样性也增加了。

同时,模型的逻辑推理、代码生成和指令遵循等能力也都大幅提升,让Llama 3成为了一个可控性更强的模型。

与近乎同等规模预训练的开源模型相比,Llama 3 8B完全打败了Mistral,以及Gemma。不过推理能力,比Gemma-7B弱一些。

与闭源Gemini Pro 1.0,以及开源Mixtral 8×22B相比,Llama 3-70B在多项基准测试中拔得头筹。

再来看看,Llama 3两个参数版本与Llama 2-7B、13B、70B的预训练模型对比。

毋庸置疑,Llama 3 8B肯定是要超越Llama 2 7B,甚至碾压了Llama 2 13B。

Llama 3 70B要比Llama 2 70B,尤其在推理(MMLU、ARC-Challenge)、AGIEval基准上上,实现了巨大提升。

指令微调版本比较,Llama 3 8B同样超越了开源的Gemma 7B,以及Mistral 7B Instuct。

70B版本的Llama 3在推理(MMLU)、数学(GSM-8K)、甚至代码(HumanEval)基准上,比Gemini Pro 1.5和Claude 3 Sonnet更加亮眼。

再来看看与自家Llama 2指令微调不同参数版本的性能对比。

Llama 3 8B与70B都要比相对同等参数的Llama 2,得到了很大的提升。

而在Llama 3的开发过程中,Meta不仅关注基准测试,还致力于优化模型在真实场景中的表现。

为此,Meta开发了一个高质量人工评估数据集,包含1,800个提示,这些提示了涵盖了12个关键的应用场景,包括询问建议、头脑风暴、分类、选择题、编码、创意写作、信息提取、角色扮演、开放性问答、逻辑推理、改写和总结。

为了防止Llama 3在评估数据集上过拟合,建模团队自己也无法访问它。

人工评估结果显示,Llama 3 70B的表现远胜于Llama 2、GPT-3.5、Mistral Medium和Claude Sonnet。

大模型发展到如今,再要往哪里创新?

在整个项目中,Meta重点关注了四个关键要素:模型架构、训练数据、扩大训练规模以及指令微调。

1. 128K token分词器+GQA

在架构上,Meta依然为Llama 3选择了Transformer架构。

这个架构是相对标准的纯解码器Transformer,不过相比于Llama 2做了几个关键改进。

比如,Llama 3使用了一个具有128K个token的分词器,可以更有效地编码语言,这就显著提高了模型性能。

而为了提高Llama 3模型的推理速度,Meta在8B和70B两种规模上都采用了分组查询注意力(Grouped Query Attention,GQA)机制。

此外,Meta还在8,192个token的序列上训练模型,并通过掩码确保自注意力机制不会跨越文档边界。

2. 15万亿token训练,7倍于Llama 2

同时,大型高质量的训练数据集也至关重要。

为了预训练数据,团队投入了大量资源。

最终,Llama 3在超过15万亿个token上进行了预训练,而这些token都是从公开可用的来源收集的。

它的训练数据集比Llama 2的大7倍,并且包含4倍多的代码。

为了应对多语言场景,Llama 3的预训练数据集中有超过5%是高质量的非英语数据,涵盖了30多种语言。

同时,为了让训练数据具有足够高的质量,Meta开发了一系列数据过滤管道。

这些管道包括使用了启发式过滤器、NSFW过滤器、语义去重方法和文本分类器,用来预测数据质量。

在这个过程中一个有意思的点就是——

前几代的Llama 在识别高质量数据方面居然出奇得好,因此,Meta使用Llama 2来生成了用于训练Llama 3的文本质量分类器的训练数据。

此外,为了评估在最终的预训练数据集中混合来自不同来源的数据的最佳方式,Meta还进行了大量实验。

最终,Meta就能够选择一个数据组合,让Llama 3在STEM、编码、历史知识等各种使用场景中,都能表现良好。

3. Scaling Law依旧是王道

为了有效利用预训练数据,团队在扩大预训练规模上,投入了大量精力。

针对下游基准评估,Meta开发了一系列详细的缩放定律。这就保证团队能够选择最佳的数据组合,同时最佳地利用训练计算资源。

而缩放定律可以帮助团队在实际训练模型之前,预测最大模型在关键任务上的性能,这是至关重要的,因为这就能确保,模型在各种使用场景和能力方面,都有出色的表现。

在这个过程中,团队对缩放行为观察到了有了几个有趣的新现象。

比如,虽然一个8B参数模型的Chinchilla最优训练计算量,对应于约2000亿个token,但Meta发现,即使在模型接受了两个数量级以上的数据训练后,模型性能仍在继续提高!

而8B和70B参数的Llama 3在接受了高达15T个token的训练后,继续呈对数线性提高。

更大的模型可以用更少的训练计算,来匹配这些较小模型的性能,不过,由于小模型在推理过程中的效率更高,因此反而更受青睐。

为了训练最大的Llama 3模型,团队结合了三种并行化方式:数据并行、模型并行和流水线并行。

由此,团队达到了最高效的实现:在同时使用16K个GPU训练时,每个GPU的计算利用率超过了400 TFLOPS。

团队在两个定制的24K GPU集群上进行了训练。为了最大限度地提高GPU正常运行时间,Meta还开发了一个先进的新训练技术栈,可以自动进行错误检测、处理和维护。

同时,Meta还大大提高了硬件可靠性和静默数据损坏的检测机制,开发了新的可扩展存储系统,减少了检查点和回滚的开销。

而这些改进,让总体的有效训练时间超过了95%。

和与Llama 2相比,这些改进直接让Llama 3的训练效率提高了大概三倍!

4. 创新指令微调

同时,团队也对指令微调进行了创新。

Meta采用的后训练方法,是监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。

Meta发现,在SFT中使用的提示和在PPO与DPO中使用的偏好排序,对对齐模型的性能的影响完全超出了预期。

Llama 3在性能上取得的最大改进,就是归功于对这些数据的仔细策划,并且对人类标注者提供的标准进行了多轮质量保证。

而通过PPO和DPO从偏好排序中学习,Llama 3在推理和编码任务上的性能也大大提高了。

如果问Llama 3一个很难回答的推理问题,它有时竟然能产生正确的推理过程。

这个过程中的难点在于,它知道如何得出正确答案,但不知道该如何选择。但通过在偏好排序上进行训练,就能让模型学会如何选择正确答案。

5. 更安全

在部署上,团队采用了一种新的系统级方法。

Meta将Llama模型设想为一个更广泛系统的一部分,让开发者坐在驾驶座上。Llama模型将作为系统的基础部分,开发者在设计时会考虑最终的目标。

在模型安全上,指令微调起了重要作用。

通过内部和外部努力,团队对指令微调模型进行了安全测试。

红队方法会利用人类专家和自动化方法来生成对抗性提示,试图引发有问题的响应,比如化学、生物、网络安全、其他风险领域相关的滥用风险。

在这个过程中,团队让Llama Guard模型,成为安全的基础,并且可以根据应用需求进行微调。

新的Llama Guard 2使用MLCommons 分类法。此外,CyberSecEval 2在其前作的基础上进行了扩展,增加了评估LLM滥用代码解释器的倾向、攻击性网络安全能力和对提示注入攻击的敏感性的措施。

最后,引入的Code Shield也增加了对生成的LLM不安全代码的推理时过滤的支持。这样就能降低不安全的代码建议、代码解释器的滥用等。

另外,Meta还更新了负责任使用指南(RUG),建议根据适合应用的内容指南,检查和过滤所有输入和输出。

此外,云服务提供商也会提供内容审核API等工具,鼓励开发者进行负责任地部署。

三、网页版Meta AI免登录,即可聊

与此同时,今天Meta还放出了网页版Meta AI,由最新Llama 3加持,号称是全球顶尖的AI助手之一。

整个页面UI设计非常简洁,不仅可以对话,还支持生图功能。

与ChatGPT-3.5免注册登录类似,与Meta AI聊天功能,进入网页随时随地即可开启,无需登录。

传送门:https://www.meta.ai/

不过,作图的话,是个例外。

其实,Meta AI助手在去年的Connect大会上,小扎首次做了预告。

而现在,全世界更多的人可以通过前所未有的方式与之互动。

不仅仅在网页上能聊,Meta AI还集成到了自家旗下社交应用中,比如Facebook、Ins、WhatsApp和Messenger。

接下来,一起感受下,Meta AI助手带来的与众不同的魅力吧。

想要组织周末短途旅行,却来不及做出行计划?不用担心!

Meta AI首先会根据要求提出三个关于旅行问题,再去量身定制一份旅行清单!

– 目的地:您要去哪里?

– 持续时间:您将旅行多少天?

– 旅行类型:是海滩度假、城市探险、户外探险还是其他?

又或是你在数学问题上苦苦挣扎?需要让工作邮件显得更专业?Meta AI都可以提供帮助!

甚至,你可以登录以保存自己与Meta AI的对话,以供将来参考。

让Llama 3画一幅自画像。

Ins、Facebook等APP无缝集成

正如前面所说,Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。

这样的优势在于,可以随时访问来自网络的实时信息,无需在不同应用程序之间切换。
举个栗子,假设你正在Messenger群聊中计划一次滑雪之旅。

直接通过Messenger的搜索,可以让Meta AI查找从纽约到科罗拉多的航班,并找出时间段人最少的周末去旅行——所有这些都无需跳出Messenger即可完成。

当你正在刷Facebook,看到一个感兴趣的帖子,附有一张冰岛北极光图。

你可以直接问Meta AI,「一年中什么时候最适合观赏极光」?

除了在网页版,Meta AI的图像功能还可以在WhatsApp中体验。

当你在搜索框开始输入prompt,便会看到一个浮现的图像,会随着你输入的每几个字而变化。

可以清晰看到,Meta AI如何将你的想象变为现实。

据介绍,Meta AI生成的图像更加清晰、质量更好,而且在图像中融入文字的能力也得到了提升。

不论是专辑封面设计、婚礼指示牌、生日装饰,还是服装搭配灵感,Meta AI都可以生成相应的图像,以前所未有的速度和质量将你的想象变为现实。

它甚至会提供有用的提示和建议,提供改进图像的思路,让你可以在初始点的基础上不断迭代。

这还不是全部……

当你找到一张自己喜欢的图片,可以让Meta AI制作动画,以新的风格对其进行改进,甚至将其转化为GIF,与朋友分享。

可以看出,有了强大的Llama 3加持,Meta AI的表现比以往更要出色。

不久后,Meta AI即将在Quest头显中推出。

参考资料:

Meet Your New Assistant: Meta AI, Built With Llama 3

https://ai.meta.com/blog/meta-llama-3/

https://llama.meta.com/llama3/

用AI做数据分析能否代替运营的工作?用了段时间钉钉AI的亲身感受

aigc阅读(9)

在数字化办公的浪潮中,钉钉一直以其创新和实用性走在前列。最近,听闻钉钉AI上线了一系列新功能,作为一名热衷于探索新科技和AI的爱好者,我自然不会错过这个机会。在亲自上手体验后,我发现了一些真正值得关注的亮点。

随着工作方式的不断演进,我们对办公软件的期待也在不断提高。钉钉AI的新功能不仅仅是功能的堆砌,它们代表了一种全新的工作理念,旨在提升效率、优化协作,并为用户带来更加个性化的体验。虽然目前还存在一些需要优化的地方,但不可否认的是,它已经在智能化办公道路上迈出了坚实的一步。

在亲身体验的过程中,我对钉钉AI 的多个方面进行了深入的探索和评估。从直观的界面设计到实用的功能特性,从简洁的操作流程到令人满意的用户互动,每一步都给我留下了深刻的印象,本文我将逐一分享我的体验;无论是钉钉的用户还是对AI有期许的探索者,我相信您都能从我的探索中获得有价值的信息。

让我们一起走进AI的新世界,看看这些新功能如何为我们的工作带来革命性的变化。

背景:

在数据驱动的时代,产品经理们迫切需要快速、准确地获取业务数据。钉钉AI助理的全新功能,不仅能够迅速提供所需数据,还能智能分析,助力业务决策。

而在项目组中,新上线的业务时,产品、项目、业务同事经常因为拿不到一手的业务数据而烦恼,经常会遇到各种成员,找运营要数据,运营又去找开发,导致效率低下,工作毫无章法,那么有没有什么新功能能够帮助大家快速查看最新的业务数据,并进行数据分析的呢?

一、手把手教你搭建数据分析的AI助理

1、搭建入口:在钉钉-工作台-宜搭-创建应用-创建空白应用,当然也可以选择其他的方式来创建应用,这里钉钉也是提供了更便捷的创建方式,大家按需选择即可。

2、创建应用:在构建应用时,大家可以按需选择合适的场景,如果需要数据收集,可以选择“新建普通表单”;如果需要报表展示,可以选择“新建报表”,如果需要业务数字化酷炫大屏,可以选择“新建大屏”;我的使用场景是需要相关的业务人员每天把数据进行上传,产品、运营、项目等相关同事,可以查看数据分析,所以选择的是带有数据收集功能的“新建普通表单”,并将应用的名称命名为“数据分析”。

3、创建表单:创建表单可以通过AI对话的方式来创建,但是不推荐,我们还是不要偷懒,使用表单组件创建业务字段,并在右侧设置好每个字段的属性值。并将表单的名称命名为“新增用户分析”。

4、创建AI助理:最关键的一步来咯,目前为止我们只是创建了一个应用,一个表单,并没有起到任何的作用,如何让应用与AI相结合呢?我们在应用中选择:应用发布-创建AI助理。

5、智能表单填报:创建AI助理后,还需要我们开启智能数据分析BI和智能表单填报。也就是录入数据,这里也是提供了可以通过对话的方式来录入数据。

目前移动端——任务自动化,简化操作,繁琐步骤让AI替我干。用户现在可以通过钉钉应用让AI助理学习操作路径,AI助理将能够模拟真人进行页面操作,极大提升高频操作行为的效率。这种拟人化操作学习用户的真实操作流程,仅需一次“观看”即可掌握。

6、智能数据分析:在智能数据分析中,至少包括这些能力:

  • 图表结果:可以查看某些数据类型的分布情况;
  • 数据明细:查询某字段数据的详情;
  • 生成播报卡片:生成便于查看,便于分享的数据卡片;
  • 查看分析详情:这个也是核心能力,可以通过数据分析,查看分析详情,并且给与数据建议反哺业务。

工作流使得AI助理能批量处理更复杂的任务。它是 AI Agent 的一种进阶玩法,不仅可以在创建时对 AI 执行任务的流程进行拆解和编排,使得 AI 助理可以主动接管完成相应操作,还能够打通外部的系统数据和 API 能力,进一步扩展了它的行动能力。

这正是AI发展的方向——更深入地理解f业务,更精准地服务于业务。

二、AI助理的应用与实践

1、成功创建AI助理后,同步会创建一个“数据分析AI”的AI助理会话窗口。我们默认开通了两个能力:帮我提交一个表单,帮我做数据分析;

2、发起新会话:

3、AI也会给我们一个模板,我也让运营同学每日汇总当日数据,提交到AI的数据集中,运营可以通过复制模板内容,修改为今日数据内容进行提交。

4、提一个小建议,大家可以看到下图中的整个对话过程,多操作一步会让整个进程变的不流程,感觉笨笨的;但是更致命的是,通过会话发送了数据后,AI经常会不再理会我,不再进行后续操作,这里的成功率只有50%左右,这还是非常影响使用的。

5、发送后,AI会以卡片的形式记录我们提交的数据,确认无误后可以“提交表单”。

6、为了确认数据是否提交成功,我还特意去数据集中看了下,确实提交成功,确认功能没问题(数据还是谨慎一些为好,未经确认已经不信任这些数据提交功能了)。

7、第二天上午上班后,产品、项目、运营同学就可以借助AI助理智能分析:当与AI对话“新增用户通话接通率的变化”,AI会统计当前字段的所有数据,并加以分析。

8、值得一提的是,每次要AI帮我做点是什么事情,都会先弹出一个弹窗,再点一次“立即开始”,体验太差了,每次都要多操作一次,也会直接中断整个进程,影响流畅性,希望这里后续能够更加智能些。

9、当我们想要了解某一天的数据详情时,例如我们早上9点上班后,想要了解昨天产生的数据情况,AI不仅仅会告诉我们数据详情, 还会给出过去一段时间数据情况,数据变化情况,以便于我们做出数据决策。

10、当然,AI助理除了数据分析功能外,还提供了“集成&自动化”的能力,例如:在表单提交之后,发送一张卡片;或是在表单提交之后,更新另一个表单;每月最后一个工作日,发送邮件,汇报当月数据情况;每个工作日上午9点,定时发送群消息,发送昨天的数据情况等等。

使用钉钉AI助理之后的对比:

As is:产品、业务、项目频繁的找运营要业务数据,打乱工作流程,频繁对接不同人员;

After:

  1. 运营同事每天提交一次最新数据;
  2. 产品、业务、项目同事需要数据时,通过AI助理查看数据详情;
  3. 通过AI助理查看数据分析,变化趋势,分布情况,并给出数据建议,极大提高了工作效率与质量。

三、钉钉AI助理的潜力与未来

从亲身体验来看,钉钉AI助理的引入无疑为我们的工作流程带来了显著的改进。项目组成员不再需要频繁地向运营团队索取数据,因为一切信息都井然有序地汇总在了数据集中。每位同事都能够通过与AI的对话,随时获取他们所需的业务数据,并深入分析数据变化的趋势,这样的便捷性,是以往难以想象的。

钉钉AI助理的多功能性,如智能问话、智能创作、智能问数,以及丰富的模板资源,都极大地提升了我们的工作效率,让我们能够快速地复用AI的能力,将更多的精力投入到创造性和战略性的任务中。我们也期待未来钉钉AI助理能够提供更多自定义功能,比如自定义触发器,这将使得我们能够更及时地响应数据指标的异常变化,从而保障业务的稳定性和质量。

当然,也需要解决现有的一些影响体验,影响智能化的一些问题,每次都需要多操作一步,会让整个过程效率低下;再加上通过AI对话来提交数据时,成功率只有50%会让整个进程变得十分糟糕,如果连续多次提交不成功,也会让我对整个钉钉AI的质量产生质疑!

虽然AI的强大不容置疑,但它并不是万能的。在数据分析的过程中,AI能够帮助我们理解数据的表面变化,但背后的原因和深层次的业务逻辑,仍需要我们人类的直觉和专业知识来解读。然而,这正是AI发展的方向——更深入地理解业务,更精准地服务于业务。随着技术的不断进步,我们有理由相信,未来的AI将更加智能,更加懂得业务,成为我们不可或缺的伙伴。

美团抖音下注新战场:内测外卖助手“问小袋”,成立生活服务AI团队

aigc阅读(25)

继AI电商后,AI也开始卷向本地生活服务行业。

Tech星球独家获悉,美团于近日测试了面向C端用户的AI助手服务“问小袋”,类似于电商平台的AI导购功能,可为用户推荐符合其需求的外卖商品,以及用餐建议。目前,AI助手服务“问小袋”已在美团外卖平台中开启小范围测试。

无独有偶,抖音生活服务也在试水AI在本地生活场景的布局。Tech星球独家了解到,抖音生活服务成立了一支AI团队,该部门成立的目的是利用AI技术,为抖音生活服务创造增量业务价值,并且已开启对相关AI产品的研发,包括搭建生活服务相关的内容创作平台等。

而饿了么也没闲着。本月初,饿了么零售商家SAAS平台“翱象”宣布面向零售行业商家正式发布“AI经营助手”功能,可为商家智能生成各类经营关键报表和关键数据。

AI技术的应用有望给本地生活行业带来更多的创新和增量,而伴随着越来越多AI应用的落地,AI或将成为平台们打造出新的增长曲线。

一、美团、抖音生活服务开卷AI

美团于2023年将AI视为发展重点,据《豹变》透露,美团最高决策机构S-team对美团内部的大模型极度关注,王兴大约每隔一两周的时间,便会向算法团队负责人询问大模型的进展。

随后,美团测试了AI绘画、AI摄像、AI社交“WOW”等多个产品或功能,但与外界对美团做大模型产品的预期不同,此时美团对AI的应用场景,并没有选择在自己主营的外卖本地生活业务上。

但随着AI助手服务“问小袋”的出现,美团AI终于试水C端的本地生活场景。

“问小袋”是基于Raccoon model(浣熊大模型)的一款外卖智能助手产品,可以为用户进行餐饮推荐、提供送礼建议等服务,类似于导购助手。

图注:“问小袋”测试界面。

值得注意的是,消息人士透露,美团还曾研发过一款大模型C端对话产品“米鲁”,用于美团外卖,是否为内部赛马的产品,不得而知。

Tech星球体验发现,“问小袋”可以根据用户搜索的关键词或关键语句,自动匹配符合用户消费意图的外卖商品。例如,搜索“送女友礼物”,“问小袋”会推荐鲜花、巧克力盒、香薰等外卖商品,并且将这些商品进行分类,让用户按照需求进行筛选购物。

图注:“问小袋”的操作界面。

从产品的角度看,美团推出“问小袋”,有助于提高交易效率。因为AI不仅能够通过智能匹配减少用户消费选择时的思考时间,还可以让消费者做出较为合理的消费决策,从而提高外卖订单的交易转化率。不排除美团未来将会进一步将AI应用场景扩展至到店、社区团购等业务上。

据一位美团员工透露,对于用户而言,除了外卖,在到店消费、酒店旅游等超过200个生活服务场景中,都需要AI来增强用户体验。而从商家的角度来看,AI会提高商家提升效率、剖析运营状况,例如能够针对用户评论展开细粒度分析,从而描绘出商家服务现状、进行商家竞争力分析以及商圈洞察等,给商户提供精细化的经营建议。

除了美团外,抖音生活服务也在试水AI应用的落地。

Tech星球了解到,抖音生活服务调集了生活服务的部分技术人员,组建了一支AI团队,探索AI与生活服务的场景结合。该团队位于北京、上海、成都三地,由算法+工程团队组成,具体的业务包括智能客服、内容创作、知识图谱等。

Tech星球还独家获悉,抖音生活服务的AI能力当前主要应用于B端场景,其中,抖音来客APP已经上线多个AI功能,包括智能剪辑、短视频智能创作工具、智能图文创作等,为商家提供相关的AIGC智能营销和创作服务。

图注:抖音来客APP内的AI视频创作界面。

抖音来客APP已经成为抖音生活服务为商家、达人提供AI服务的一个重要入口。另据知情人士透露,抖音生活服务还计划构建自己的抖音生活服务大模型,搭建AI服务能力。

从头部平台的动作来看,毫无疑问,AI正在改变本地生活服务业务。

二、AI本地生活会是门好生意吗?

虽然,AI在各大平台的应用还处于初期阶段,但是嗅觉敏锐的本地生活商家早已经开始利用AI赚钱。

一位在美团和饿了么同时做餐饮的外卖商家告诉Tech星球,“最直观的感受就是,平台对AI越来越重视了,无论是美团还是饿了么,都推出了AI经营工具。”

以美团的AI工具为例,该商家表示,今年年初开始使用美团的BETTER外卖经营模型。该AI工具可通过分析用户的消费行为和喜好,为自己的餐厅推荐了更符合其目标客户群体的营销策略。例如,针对周边上班族,推出工作日午餐套餐,吸引了更多的顾客。

此外,该商家还使用了第三方的AI工具,帮助餐厅优化菜单。根据菜品的销售数据和用户反馈,AI建议餐厅调整部分菜品的排列顺序,突出招牌菜和热销菜。同时,提醒餐厅淘汰一些不受欢迎的菜品,提高了顾客的点餐效率和满意度。

最重要的是,AI可以帮助商家进行数据分析和经营决策。通过对营业数据的深入分析,餐厅经营者能够更好地了解自身的经营状况,及时调整经营策略,提高营收,相比没使用AI时,该商家的餐厅外卖销售数据提升了20%左右。

但也有商家持有不同意见。一位做团购的商家告诉Tech星球,尽管跟风使用AI,但其带来的作用并不特别明显。例如,在社交媒体上使用AI生成的广告文案,但实际吸引到的顾客寥寥无几。虽然AI能快速生成文案,但缺乏对本地文化和消费者情感的深入理解,导致广告文案难以打动人。

而且AI在提供个性化服务方面也有局限。本地生活注重与顾客的亲密互动和个性化体验,而AI难以完全捕捉和回应这种需求,可能导致顾客满意度下降,上述团购商家认为,“吸引用户消费的还是商品价格和服务质量”。

可见,AI在实际业务应用场景中,还有很大的优化空间。

三、本地生活如何讲好AI新故事

本地生活领域的AI应用,无疑是当前行业发展中的一大趋势。

一位行业人表示,AI本地生活有着较大的想象空间。首先,它可以提供更加个性化的服务,通过对用户偏好和行为的分析,AI能够精准地为用户推荐符合其需求的本地生活服务,提高用户体验。其次,AI可以提升服务效率,它能够快速处理大量数据,为用户提供实时的服务,节省用户时间。此外,AI还可以促进商业模式的创新,为企业带来更多的商业价值。

从美团、抖音、饿了么的动作来看,大家也都希望讲好AI这个新故事。

譬如,美团对大模型技术人才的招募力度在加大。在美团招聘官网上,搜索有关大模型的相关岗位,达到300多个,涉及到店事业群、美团平台、基础研发平台、点评事业部、金融服务平台等多个部门。这意味着,未来美团或将AI应用于外卖、配送等核心业务。

值得关注的是,也有新玩家加入AI本地生活赛道。譬如,百度从去年年底开始,举办“热AI生活,智惠未来”为主题的本地惠生活城市大会,将旗下的本地惠生活深入融合AI,邀请各地商家加入这一新业务中,抢占这块新的市场蛋糕。

但AI本地生活服务还在发展初期阶段,也存在着不小的挑战。去年美团一季度财报会议上,美团CEO王兴表示,尽管从长远来看,AI可能会对社会的互动方式产生根本性的影响,但在履约型服务行业,人工智能的影响目前仍较小。

这是因为履约型服务行业的特点之一是高度依赖人力资源。例如,在外卖配送领域,配送员需要根据实时情况进行路径规划和交通状况判断,以提供高效的配送服务。这种实时性和灵活性要求使目前的人工智能技术,在履约型服务中的应用相对较少。

而且AI还是一项特别烧钱的项目,需要投入大量的科研人员和技术专家进行算法研究、模型训练等工作。2022年,OpenAI的亏损大约翻了一番,达到约5.4亿美元。国盛证券计发布的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。

AI在本地生活服务领域的应用,未来可能会成为主流,但在当下的实际业务层面仍差点火候。

如何用AI重塑产品:从钉钉AI之路学习

aigc阅读(7)

前言

自从OpenAI发布ChatGPT这款产品后,各类的AI产品层出不穷,它们在一点点改变我们的生活。

  • 搜索类AI 可以给出更智能更有帮助的回答
  • 助理类AI可以转录音视频会议,自动生成总结
  • 设计类AI可以根据提示词生成图片,甚至一键生成不错的PPT
  • ……

虽然在个人学习、工作中AI起到了很大的提效作用,但依旧存在着许多问题,最大的莫过于这两个:

  1. 应用门槛过高:根据自己的问题场景找到合适的工具,再去学习如何使用,这个门槛对于普通人来说太高了
  2. 企业提效甚微:这些工具更多是应用在个人场景上,对于企业重复性作业的提效帮助甚微

整合AI提效场景,通过Agent解决重复性工作,是企业提效绕不过去的两道坎。

钉钉这款企业工具在过去的1年里一直在苦练内功,AI+成为了钉钉过去1年的主旋律。

4月18日,钉钉正式上线了AI助理市场,让更多企业能够拥抱AI来提升效率。

钉钉AI全家桶:钉钉 AI PaaS、钉钉AI(Copolit)、AI助理(Agent)、AI助理市场(AI Agent Store),它们一起构建了智能化的钉钉。

  1. 钉钉AI PaaS系统:它提供了大模型调用、专有模型训练、企业应用接入的底层PaaS能力,可以接入更多的企业让他们基于AI PaaS来进行Copolit和Agent产品的开发。
  2. 钉钉AI(Copolit):整合AI提效场景,提供会议总结、内容生成、文档辅助等多种AI功能,让用户在总结和创作上更便捷。
  3. AI助理(Agent):解决重复性工作,能够一键实现各种工作流,能够极大的提升人在重复工作中的效率。
  4. AI助理市场(AI Agent Store):进一步降低企业使用AI的成本,让更多的企业能够低成本的使用AI提升效率

钉钉天然有AI的应用场景,反向接模型来做AI助理产品,并不是拿着锤子找钉子。在钉钉上构建AI Agent,相对直接在底模型上构建,到底有哪些增强呢?

1)能力增强:AI 助理能够和钉钉深度绑定和结合,这意味着AI助理不仅仅是一个独立的AI产品,而是能够与钉钉的现有功能和数据无缝对接,从而提供更为丰富和个性化的服务。

2)流量或者合理性问题:钉钉本身就有各行各业的需求和场景,用户天然存在场景,场景中存在需求。这与Gpts、大模型等目前存在的问题形成鲜明对比,后者往往是缺乏明确的用户需求,用户有需求时才去找AI。而在钉钉上,用户的需求已经明确,AI助理可以更精准地提供解决方案。

3)ToB市场特性:ToB很难存在单个现象级应用,而是千万个角色和行业的助理,满足特定的用户人群。这决定钉钉AI助理市场,不做全量推荐,只会推荐精选过的AI助理,具有行业属性、行动能力、专业知识的AI助理,以确保每个用户都能获得最符合其需求的服务。

AI助理市场补全了钉钉智能化办公的最后一环,但对它自己来说,未来的挑战还刚刚开始。

目前的AI助理具备了初步的Agent能力,能够处理简单的RPA任务,但它对于外部系统的整合度是有所缺失的。

当AI助理的RPA功能、SaaS接入更完善后,用户只需要对着AI助理发出任务指令,它可以帮你自主创建会议、发起会邀、总结会议纪要、跟进会后ToDo事项;它还可以根据预算给用户制定旅行规划、上传OA审批、自动购买票务、将费用核算至财务系统。

无所不能的AI超级助理,它在未来回头看着我们。

一、钉钉是怎么发展AI的

任何一款好产品都是一点点演化来的,让我们看看钉钉AI在过去1年里是怎么做的。

中台基建(AI PaaS)——钉钉AI(Copolit)——AI助理(Agent)——AI助理市场(Store)——智能化办公,钉钉AI在一点点稳步前进。

在23年4月份开始,钉钉就基于通义千问提供的LLM能力来打造AI PaaS平台,让钉钉具备在AI上的可拓展性。

能够通过中台的方式来提供LLM能力和接入更多的SaaS应用。

AI PaaS平台是AI助理的地基,AI助理的LLM能力、SaaS接口、钉钉接口都依赖于AI PaaS平台来提供。

AI PaaS平台,是钉钉AI的起点,也是它未来能做多大的终点。

基于AI PaaS平台,钉钉上线了钉钉AI(各种Copolit)功能,它是基于AI来实现总结和创造能力,它可以让你更快速的浏览会议内容、可以让你通过AI辅助创作,但它对于重复工作流的提效作用甚微

如果说Copolit是辅助人完成工作,那Agent则是代替人完成工作,同时Agent与Copolit使用场景上还存在着较大的不同,它们的复杂度并不一样。

文档助手Copolit通过提供会议摘要总结、文档辅助写作功能、AIGC内容生成足以覆盖掉大多数用户的诉求。

B端场景通用性较低,很难通过固定的Agent来解决所有人的问题。

在今年的1月份,钉钉发布了AI助理(Agent),它能够基于钉钉工具、RPA、SaaS等能力,让用户可以通过自主创建AI助理来解决它各种场景下的效率问题。

紧接着是4月份的钉钉AI助理市场,更多创作者的AI助理得到了曝光的机会,也能够让用户更低成本的用上AI助理。

AI助理市场(Store)补齐了钉钉智能化办公的最后一环,但它依旧有很多功课要做。

增加更好用的RPA功能、更多SaaS系统的接入、提升AI助理的记忆能力,从而让更多优质的AI助理被创造出来。

在我看来,钉钉AI的发展之路走的十分稳妥有章法。

他们并没有一下子想放个大招,而是先去花时间打造了一套AI PaaS系统,先去把万丈高楼的地基打好,但这个地基在短时间内其实是难以让人看到它的价值的。

你没有那么大的业务量,没有那么大的诉求,为什么不赶紧短平快的上功能,满足用户需求。

我想钉钉在做AI PaaS的时候也要面对很多这样的疑问,就像阿里云刚开始的时候,你要坚持你所相信的事情,并花费时间努力去把它做好。

当大量的垂类企业大模型需要被接入、当大量的SaaS软件被集成时,当AI助理能够一键完成超级复杂的工作流时,人们才能够明白,一个好的中台系统到底有多重要,钉钉AI PaaS的早期投入有什么样的价值。

先把地基打好,然后整合AI提效场景,让企业用户可以在钉钉上快捷的使用各种AI能力,最后再是借助企业创作者一起去攻克最难的Agent场景。

二、钉钉AI Copolit:侧重协作

钉钉最先提供的AI能力聚焦在总结和创作两方面,它重点整合了来自通义千问和通义听悟的能力。

在目前的市场上,总结和创作能力并不稀缺,钉钉对其的整合更多是让用户在工作场景下更加便捷的使用这些能力。

在总结上它支持会议和文档总结等能力;在创作中它支持AIGC内容生成、文档辅助写作、会议海报生成等能力。

让用户在总结和创作上更便捷,这就是钉钉AI Copolit所解决的问题。

对于重复性场景问题的解决,则留给了AI助理 Agent。

钉钉AI Copolit在整合AI提效场景整体做的还不错,但是有一些场景它并没有很好的镶嵌进来,比如说基础Chatbot的对话和搜索,这两个相对高频的场景。

从钉钉的产品逻辑上来分析,一方面是它在搜索场景上并没有什么太好的产品,另一方面是它希望AI助理来承接这些功能。

但我觉得早期在整合AI提效场景时,把通义千问接入做一个助理或许是个更好的选择,补足设计产品时想不到的场景,从而给用户更多的选择空间,后期根据用户行为更好的去迭代产品。

三、AI助理 Agent:效率提升

AI助理Agent能够一键实现各种工作流,能够极大的提升人在重复工作中的效率。

这是对Agent的过度夸赞吗?

要先看看Agent的运作原理是什么:

Lilian, OpenAI AI 安全团队 leader

Agent = 大模型(LLM)+ 工具使用 + 规划 + 行动 + 记忆

通过大模型来进行规划,拥有记忆能力能够调用工具来进行行动,从而让AI完成作业。

钉钉AI助理通过对话的方式,让用户把任务发给AI助理,它通过分析任务后调用钉钉能力来完成。

比如用户让它新建一个会议,用户只需要告诉它会议信息,它会自己通过分析后调用会议工具来生成一个会议信息,等待用户再度确认后,这个会议就被添加到日历里了。

用户可以通过AI助理调用钉钉的各种功能,来通过对话的形式来完成任务。

用户希望直接上手用可以来AI助理市场选择,钉钉AI助理市场首批上架了近200个AI助理供用户选择。

通义法睿可以给用户提供专业的法律知识,让用户拥有一个律师助手。

还可以用Suno歌词生成器来生成一首用户想要的歌词。

如果用户想用AI助理解决更复杂场景,可以自己创建AI助理。

AI助理支持应用能力、工作流两种创建形式。

能力创建方式更多适用于简单的场景,目前在移动端已经支持钉钉内RPA功能,可以将一些繁琐的步骤先通过采集,然后让AI助理通过RPA功能来实现。

工作流场景可以让用户按照自己的工作流进行业务执行动作设置。

这是一个可以去1688搜索商品的工作流,在配置好后用户只需要给它商品信息,它就可以去1688搜索产品,并且通过互动卡片的形式整理发给用户。

了解到这我们会发现,钉钉AI助理目前是在一些基础的场景实现了Agent,在很多复杂的场景它其实收效甚微。

那它该如何变成超级AI助理来帮助企业提效更多?

先拥有更多可用的工具和记忆能力,最后拥有自主规划能力。

在看完Agent后我们会发现,真正决定它未来的地方恰恰在AI PaaS平台,它所需要的工具需要AI PaaS平台去做接入,所需要的记忆能力需要AI PaaS平台提供支持,需要的自主规划能力要在AI PaaS 平台上进行训练。

纯在AI助理上做功能叠加是加不完的,设计一套好的工作流方案,然后通过AI PaaS 的能力项,才能够打造出来更多有价值的AI助理。

虽然目前的AI助理用下来只能够在一些简单的重复场景有提效效果,但这已经是一个很好的开始,但它依旧有很多地方需要去做优化。

四、AI到底带来了什么

以开会场景为例,让我们看看AI能够怎么样去提效开会,它又有哪些不足之处。

一个会议通常包含了:会前邀约、会议记录、会后ToDo跟进三个环节,那AI能够给到我们哪些帮助呢?

一键创建会议、实时记录会议内容、整理会议记录形成文档、创建ToDo事项。

1. AI怎么对开会提效

先从会前邀约开始,不想去日历添加会议想更懒怎么办?

直接打字告诉AI助理让它帮你创建,你需要把会议时间、名称、参会人员、会议室发送给它,它就可以帮你创建。

会议中可以使用“闪记”功能,可以实时记录会议内容并在结束后生成智能纪要,方便与会人员后会回顾。

在会议结束后,我们可以把我们的会议总结的内容发送给AI助理,它会自动整理并生成文档。

当会议结束了,我们可以通过AI助理来分配任务,只需要告诉它名称、执行人、截止时间即可:

AI助理创建好后,任务就会出现在我们的待办列表里:

在开会场景AI助理帮忙不少,但人还是要做很多步骤,那未来AI助理要怎么做才能效率更高?

2. 接下来还可以怎么变强

让我们回到这张Agent的图,为了实现Agent需要大模型(LLM)+ 工具使用 + 规划 + 行动 + 记忆。

我们来从两个场景:开会和招聘协作上,来看看如何让AI助理变得更强。

但用户希望的AI助理在会议中应该具备哪些能力项:

  1. 会前邀约:能够根据用户提出的会议要求去进行邀约,同时根据邀约情况进行反馈给用户。
  2. 会议记录:自主调用Copolit的会议记录功能,在会议结束后能够生成会议纪要文档。
  3. 会后ToDo跟进:能够根据用户会议协助用户生成ToDo,并且进行实际情况跟进。

这是一个在实际开会场景下用户希望AI能够具备的能力项。

但实际上目前的AI助理没有办法实现这些功能,主要是在记忆能力和工具使用上。

规划在目前来看是不重要的,因为人会花一点时间来配置业务流,先让AI助理拥有记忆和工具使用能力反而更重要。

那如果只做一项可以该先做哪个呢?

先做工具使用上,先不考虑Agent的记忆能力,把时间写入到工作流中去使用,也是个解题思路。

工作流支持的工具数量和复杂程度,决定了AI助理的成败之路。

钉钉AI助理可以分成三步走来逐渐丰富自己的工具能力:

  • 第一步:在钉钉内部做闭环,支持各种钉钉能力由工作流调用。
  • 第二步:通过RPA+AI的方式来让工作流支持外部多种场景下的作业。
  • 第三步:接入SaaS系统,进行企业业务的整合打通,让工作流能够覆盖业务全流程。

在这三步完成后,一个可以根据预算给用户制定旅行规划、上传OA审批、自动购买票务、将费用核算至财务系统的AI助理就可以被搭建起来了。

最后谈谈规划能力,其实如果AI助理有了很强大的规划能力,用户就不用去管复杂的工作流了,那为什么不先做规划能力呢?

因为没有足够的样本数据来训练规划能力。

这其实就是一个训练垂类大模型的能力,它能够根据海量的案例来学习,从而拥有强规划的能力。

五、总结

体验完钉钉AI助理,我觉得未来工作中很多繁琐重复的流程或许可以扔给AI助理去执行了,把机械化的事情交给机器人去完成,人去做哪些更有创造性价值的事情。

从AI PaaS 到 Copolit 到 AI助理再到AI助理商店,钉钉一步步走的很稳健,但我们也能察觉到很多的问题:

1. AI PaaS 支持的能力比不上原生产品

会议的能力来自通义听悟,但很多通义具备的能力项它其实并不具备(录制页面做内容记录、笔记二次处理);依赖AI PaaS传递的能力项反而在应用层会受到很多限制。

要做二次开发来解决吗,这种无意义的损耗该如何处理?当更多的SaaS API接入后,该如何保证原有的应用体验呢?这是钉钉在中台面临的一个巨大的挑战。

2. 文档智能创作和AI助理功能重复较多

这俩都是AI助理,但实际上是两种不同的产品能力项支持,对用户来说很容易弄混它们之间到底有啥区别。

是统一封装到AI助理里,还是把Agent和Copolit做好区隔?这是一个产品设计的问题。

3. AI助理的能力项需要更多、流程设计需要更复杂

在体验AI助理中,对AI助理解决问题比较大的是能力项的数量,目前AI助理能够支持的执行动作不到20种,那面对海量企业不同的诉求,如何合理的增加能力项,让它不会过多也不会过少?

AI助理的流程设计太过于简单,目前只有一个分支,对于复杂作业场景基本上很难得到满足,需要能够满足更复杂的工作流设计能力,同时又能够让人快速上手。

问题需要一点点解决,产品需要一点点打磨,钉钉AI助理是一款很棒的产品,先上手用起来吧!

字节Gauth,海外碾压作业帮?

aigc阅读(29)

在移动端,教育和 AI,继 Chatbot 之后,率先擦出火花。先是作业帮,海外拿下 200 万MAU,字节更狠一些,Gauth 官宣 2 亿用户….

Gauth在此前版本的应用商店简介中使用了“2亿用户”的表述 | 图源:点点数据

最近一段时间,“字节的 Gauth 增长很猛”的消息,四处流传。在上周写完《作业帮出海,拿下200万MAU》的选题之后,我们怀着好奇心,看看字节的 Gauth 是不是真的如一些自媒体吹得那么神,毕竟作业帮的 Question.AI 体验下来,还是有一些 bug 的。

一、WAU 450万?碾压作业帮?

打开榜单,2024 年 4 月 16 日,Gauth 和 Question.AI 都进入了美国 iOS 下载总榜 Top100,其中 Gauth 的排名更靠前些,在教育下载榜中来到了 Top2,排名仅次于多邻国。

4月16日美国iOS教育下载榜Top5 |图源:点点数据

相较于已经在一些 AI 榜单上冒头的Question.AI, 多数人对于 Gauth 或许不太眼熟,但实际上Gauth 出海时间更早,2020年12月就已上线。

有自媒体援引 data.ai 数据,3 月最后一周,Gauth 周活用户 454 万人,美国就有 300 万+,点点数据也给出了差不多的数字,确实碾压了只有 100w 出头的Question.AI,但 DAU 数据层面,两者相反,Question.AI要高出不少。

Gauth和Question.AI的周活用户对比 | 图源:点点数据

Gauth和Question.AI的日活用户对比 | 图源:点点数据

对比之下,我们发现,Question.AI 在 DAU 上表现更好,与其在新兴市场拥有不少用户相关,两者在美国市场的 DAU 相差不大。

3月11日-4月7日Gauth和Question.AI的日活用户情况 | 数据来源:点点数据(和其他自媒体公布的data.ai数据存在较大出入,仅做产品对比参考)

3月,Gauth和Question.AI的网站端流量对比

而当我们再去看月活数据的时候,发现点点数据收录的 Gauth 3月 MAU 300万左右,低于周活,这明显不符合规律(被认定为 WAU,就一定会被认定为 MAU),因而 WAU 的碾压,还是要画个问号,Gauth 是否真如最近传闻得那么猛,也要打个问号、并且需要进一步体验(可参阅文章第三部分)。

Gauth vsQuestion.AI在美国的日活用户变化情况

二、散养许久的Gauth,和一路猛追的“新人们”

结合投放数据和榜单成绩来看,Gauth 上线后的很长一段时间里其实都是处于“散养”的状态,情况大致在去年 11 月左右开始有了变化,Gauth 在 iOS 端投放的创意素材的峰值首度来到了 600+,随后投放力度持续加大。去年下半年其实是一个很有趣的时间点,AI 技术带来的全新变量吸引了一大波从业者投身 AI 教育的浪潮,如果以 Gauth 为基准,不止作业帮在追赶,已经有不少新产品几乎追平了 Gauth 的先发优势。

近3年,Gauth 在iOS端的投放情况

我们在《“作业帮”出海,拿下200万MAU》中曾介绍过 Photomath、Mathway 在内的多款海外本土头部拍照解题产品,共同点在于上线时间早,且已经具备较高的品牌认知度。AI 时代之前,拍照解题功能通常的技术路线是题库搜答案和真人解答的结合,可以匹配,立即显示答案,不能匹配,则会引导用户找人工解答,这种模式能够保证较高的准确率,但是非常依赖题库的数量和质量(早期的 Gauth 主推真人答疑,后期加入 AI 解题)。

如果换用 AI 解题,拥有题库积累优势的产品,不能说优势全无吧,但大家的起跑线,起码不像以前,差得太远。下图畅销榜里,AIBY 和 Codeway 这样典型的工具厂商能进入榜单就是例证。

美国iOS教育畅销榜Top50中,拍照解题App一览(绿底项为2023年上线的APP,红字为出海产品) | 数据来源:点点数据

目前美国 iOS 教育畅销榜 Top50 中至少有 7 款 AI 解题产品(用 AI 提升题库匹配效率或者 AI 解题不是核心功能的并不统计在内),2023 年上线的“拍照解题”新品,几乎无一例外走的都是 AI 解题的路线。

相较于 Photomath、Mathway 这类着力打造数学长板的老牌头部产品,后来者几乎不约而同朝着全能的方向打造,涵盖全部科目的解答指导来差异化切入市场。而虽然 GPT-4 已支持上传图片、实现识图解题,但是 AI 解题产品还是凭借着更低廉的价格和更便捷的使用体验,在市场上找到了一席之地,与此同时,由于厂商背景的差异,各产品间又显露出不同的风格和侧重。

从日活数量上来判断,目前美国市场 AI 解题类目的 Top1 是一款名叫 Answer.AI 的出海产品。实际体验下来,让人印象深刻的是解题之后引导交互的设计,用户可以查看类似题目、AI 自动归纳的知识点以及推荐相关解题视频(视频来源于 YouTube)。

根据开发团队成员的公开分享,很多用户的确会在拿到答案之后进行多轮对话,这也是他们认为生成式 AI 在解题品类中能带来全新体验的地方。观察下来,在这一波 AI 解题产品中,承接交互功能的 Bot 几乎成为了标配,但Answer.AI的确是其中交互引导做得最好的一个。根据企查查,Answer.AI的发行方全资控股了一家名为北京问卿科技的企业,公司 2023 年 7 月才成立但成长飞速。

Answer.AI引导用户交互的功能

Question.AI、Solvely、Quizard AI 、Nerd AI的AI交互页面

而另外两家出海产品,由作业帮打造的 Question.AI 以及另一家的 Solvely,在笔者看来都是走性价比路线的厂商,前者提供了很多竞品需要付费但它免费的功能,有利于快速扩大用户量;Solvely的性价比更多体现在定价设计上,订阅之外,它支持用户直接购买单价更低的答题钻石包(定价在 1.29 美元到 9.99 美元不等),大大降低用户的决策成本。

AI解题产品内购项目一览

Solvo 和 Nerd AI 两家由工具厂商打造的 AI 解题产品,在订阅前置、仅设置按周/年(终生)订阅方案等设计上处处透露着此前产品的气质。由于 Solvo 不订阅根本无法体验,这里着重介绍一下 Nerd AI,如果对照着活跃用户量去看营收,会发现 Nerd AI 的 ARPDAU 简直比同类产品高太多。

熟悉的“进入APP默认弹出订阅页面”的设计

Nerd AI 本身定价不低,用户买的最多的售价 4.99 美金/周的订阅项目,价格差不多是竞品均价的两倍(均价为 9.99 美金/月),而体验下来 Nerd AI 很像一个面向学生群体的 ChatBot,解题是主要引流功能,又附带了不少学习场景之外的功能,例如起草文章、编程、语言等不同的模块供用户自主探索,和不少以学科进行分区的产品很不一样。

以写博客的功能举例,Nerd AI支持从语气、目标读者等维度直接调整

总而言之,过去一年,AI 解题产品在海外如雨后春笋一般成长起来,与此同时,另一边的传统拍照解题产品不同程度地遇到了增长的困境,要么是日活用户增长停滞,要么是相较去年同期下跌明显。Gauth 最早也是按照题库搜索+真人答疑的传统思路打造的产品,但始终没能打入第一梯队,直到2023 年,厂商陆续投身 AI 教育的浪潮,也让 Gauth 看到了全新的增长机会,但说实话体验下来,还是和作业帮一样,问题不少。

美国传统拍照解题产品2023年1月至今日活用户变化情况 | 图源:点点数据

由于Photomath和其余产品日活量级相差过大,单独列出 | 图源:点点数据

三、加入AI,Gauth也打性价比?

Gauth 原名 Gauthmath,最初和其他老牌产品一样,是一款仅支持数学问题解答的产品,并且主推的是真人 1v1 答疑。24 小时在线的真人数学教师以及解决高难度数学题的能力是 Gauthmath 的核心卖点,后期逐步建立起了题库资源,也支持题库搜题,Gauthmath 官方宣称大概覆盖了 10 亿道数学题。

早期主推真人答疑的Gauthmath

AI 浪潮席卷而来的 2023 年,Gauthmath 也进行了大刀阔斧的改造。当年年中,Gauthmath 正式向用户介绍 Gauth AI,并表示自家的 AI 模型使用了海量的数学知识进行训练,能够实现快速响应以及回答更多类型的数学问题。同年 9 月,Gauthmath 官宣使用了 GPT-4 和 Bard 的支持,正式将可解答科目扩展到全科,Gauthmat 升级也为 Gauth。当然 Gauth 从来没有放弃原先累积的题库和在线教师资源,实测中如果问题来自题库,不仅回答准确率高,解析和知识点归纳也做得相当到位。余下的真人解题主要回答占比约 5%的高难度问题,并作为付费项目推出。

对于来自题库的题目,Gauth对解题涉及的数学概念设计了单独的跳转页面

上线至今,Gauth的日活用户变化情况 | 图源:点点数据

将传统解题方式和 AI 解题结合,听起来很理想,但是如果去看 Gauth 的日活用户变化趋势会发现,它一通更新下来,日活并没有出现太多波动,直到开启大规模买量。

这种情况的出现其实也并不奇怪,AI 解题技术本身并不是一个太有吸引力的点,毕竟普遍正确率还不够高。甚至在一些传统拍照解题产品的广告中,AI 解题会被直接拿出来拉踩,例如 Chegg Study 在广告中打出:“我会更信任包含 9300 万例题的专业题库,而不是生成式 AI。”

我们也会发现前面提及的 AI 解题产品,优势其实更多体现在带来了全新的交互体验以及价格上。Gauth 目前也偏向性价比策略,和 Question AI 属于直接竞品。

两次搜索同一题,AI两次给出了错误答案。Gauth同样面临AI答题准确率不高的情况

Gauth 目前每天免费搜题的上限是 11 道,Question.AI则不设上限,但 Gauth 设计了一个邀请好友得答题点数的机制让用户免费获得更多的解答,这个社交裂变的设计大概也是 Gauth 近期在美榜持续爬升的原因之一。Gauth 的另一大优势在于有此前题库的支持,体验上它的准确率也相较Question.AI 更高。

从一些用户的反馈看来,受准确率的影响,当前非付费用户对于“只保留一个拍照解题应用”的意愿好像没有很高,更多时候一个难题会使用多款产品进行解答验证,以期得到正确答案。这也反映了当前模型能力的边界决定了用户依然无法信任 AI,大家在估计市场的容量时应该考虑到这个因素,因为不同产品之间,用户可能存在重合。

这也解释了第三方数据显示 Gauth 在日活和周活上相差数十倍的情况,由于免费搜题限额不高,很可能有一些用户将 Gauth 作为备选的辅助工具,而不会每天使用,这种情况也出现在 Question.AI 身上。

写在最后

字节出品,大概是业界看来 Gauth 身上最显眼的标签。的确,相比社交媒体一类的业务,在海外做教育业务算得上是一张不容易出错的安全牌,尤其是在 AI 给教育行业带来更多变动的今天,字节对于未来对 Gauth 的投入应该只会更大。

早前,通过 TikTok 字节在海外教育业务上已有所动作,TikTok 先后在美国和欧洲上线了 STEM 教学频道,发挥平台教育功能的公共属性。虽然 Gauth 目前没有与这部分内容直接联动,但是背靠字节,不管是在 KOL 营销方面、还是人才储备方面,Gauth 要比不少同行都要得心应手。

从第三方数据上来看,Gauth 在 TikTok 上的投放量尚不算大,甚至比一些同行都要少,考虑到 TikTok 的主要用户画像和教育产品高度重合,以及未来可能给到 Gauth 的流量倾斜,这或许也是 Gauth 还没打出手的一张大牌。

Gauth 在不同渠道的投放情况| 图源:广大大数据

但很明显,不论是从测试、还是用户反馈来看,字节 Gauth 和作业帮的 Question.AI,产品的 AI 含量都有点过高,导致用户留存和信任都存在一些问题。

参考文献:

字节跳动再战教育业务,界面新闻

关于生成式AI的一些实践和想法,土布

出海产品分析 – 作业帮 (Question.AI),出海流量玄学研究

又一款字节AI产品火了!Gauth下载量三个月暴增14倍,一度反超多邻国,乌鸦智能说