欢迎光临
我们一直在努力

字节Gauth,海外碾压作业帮?

aigc阅读(47)

在移动端,教育和 AI,继 Chatbot 之后,率先擦出火花。先是作业帮,海外拿下 200 万MAU,字节更狠一些,Gauth 官宣 2 亿用户….

Gauth在此前版本的应用商店简介中使用了“2亿用户”的表述 | 图源:点点数据

最近一段时间,“字节的 Gauth 增长很猛”的消息,四处流传。在上周写完《作业帮出海,拿下200万MAU》的选题之后,我们怀着好奇心,看看字节的 Gauth 是不是真的如一些自媒体吹得那么神,毕竟作业帮的 Question.AI 体验下来,还是有一些 bug 的。

一、WAU 450万?碾压作业帮?

打开榜单,2024 年 4 月 16 日,Gauth 和 Question.AI 都进入了美国 iOS 下载总榜 Top100,其中 Gauth 的排名更靠前些,在教育下载榜中来到了 Top2,排名仅次于多邻国。

4月16日美国iOS教育下载榜Top5 |图源:点点数据

相较于已经在一些 AI 榜单上冒头的Question.AI, 多数人对于 Gauth 或许不太眼熟,但实际上Gauth 出海时间更早,2020年12月就已上线。

有自媒体援引 data.ai 数据,3 月最后一周,Gauth 周活用户 454 万人,美国就有 300 万+,点点数据也给出了差不多的数字,确实碾压了只有 100w 出头的Question.AI,但 DAU 数据层面,两者相反,Question.AI要高出不少。

Gauth和Question.AI的周活用户对比 | 图源:点点数据

Gauth和Question.AI的日活用户对比 | 图源:点点数据

对比之下,我们发现,Question.AI 在 DAU 上表现更好,与其在新兴市场拥有不少用户相关,两者在美国市场的 DAU 相差不大。

3月11日-4月7日Gauth和Question.AI的日活用户情况 | 数据来源:点点数据(和其他自媒体公布的data.ai数据存在较大出入,仅做产品对比参考)

3月,Gauth和Question.AI的网站端流量对比

而当我们再去看月活数据的时候,发现点点数据收录的 Gauth 3月 MAU 300万左右,低于周活,这明显不符合规律(被认定为 WAU,就一定会被认定为 MAU),因而 WAU 的碾压,还是要画个问号,Gauth 是否真如最近传闻得那么猛,也要打个问号、并且需要进一步体验(可参阅文章第三部分)。

Gauth vsQuestion.AI在美国的日活用户变化情况

二、散养许久的Gauth,和一路猛追的“新人们”

结合投放数据和榜单成绩来看,Gauth 上线后的很长一段时间里其实都是处于“散养”的状态,情况大致在去年 11 月左右开始有了变化,Gauth 在 iOS 端投放的创意素材的峰值首度来到了 600+,随后投放力度持续加大。去年下半年其实是一个很有趣的时间点,AI 技术带来的全新变量吸引了一大波从业者投身 AI 教育的浪潮,如果以 Gauth 为基准,不止作业帮在追赶,已经有不少新产品几乎追平了 Gauth 的先发优势。

近3年,Gauth 在iOS端的投放情况

我们在《“作业帮”出海,拿下200万MAU》中曾介绍过 Photomath、Mathway 在内的多款海外本土头部拍照解题产品,共同点在于上线时间早,且已经具备较高的品牌认知度。AI 时代之前,拍照解题功能通常的技术路线是题库搜答案和真人解答的结合,可以匹配,立即显示答案,不能匹配,则会引导用户找人工解答,这种模式能够保证较高的准确率,但是非常依赖题库的数量和质量(早期的 Gauth 主推真人答疑,后期加入 AI 解题)。

如果换用 AI 解题,拥有题库积累优势的产品,不能说优势全无吧,但大家的起跑线,起码不像以前,差得太远。下图畅销榜里,AIBY 和 Codeway 这样典型的工具厂商能进入榜单就是例证。

美国iOS教育畅销榜Top50中,拍照解题App一览(绿底项为2023年上线的APP,红字为出海产品) | 数据来源:点点数据

目前美国 iOS 教育畅销榜 Top50 中至少有 7 款 AI 解题产品(用 AI 提升题库匹配效率或者 AI 解题不是核心功能的并不统计在内),2023 年上线的“拍照解题”新品,几乎无一例外走的都是 AI 解题的路线。

相较于 Photomath、Mathway 这类着力打造数学长板的老牌头部产品,后来者几乎不约而同朝着全能的方向打造,涵盖全部科目的解答指导来差异化切入市场。而虽然 GPT-4 已支持上传图片、实现识图解题,但是 AI 解题产品还是凭借着更低廉的价格和更便捷的使用体验,在市场上找到了一席之地,与此同时,由于厂商背景的差异,各产品间又显露出不同的风格和侧重。

从日活数量上来判断,目前美国市场 AI 解题类目的 Top1 是一款名叫 Answer.AI 的出海产品。实际体验下来,让人印象深刻的是解题之后引导交互的设计,用户可以查看类似题目、AI 自动归纳的知识点以及推荐相关解题视频(视频来源于 YouTube)。

根据开发团队成员的公开分享,很多用户的确会在拿到答案之后进行多轮对话,这也是他们认为生成式 AI 在解题品类中能带来全新体验的地方。观察下来,在这一波 AI 解题产品中,承接交互功能的 Bot 几乎成为了标配,但Answer.AI的确是其中交互引导做得最好的一个。根据企查查,Answer.AI的发行方全资控股了一家名为北京问卿科技的企业,公司 2023 年 7 月才成立但成长飞速。

Answer.AI引导用户交互的功能

Question.AI、Solvely、Quizard AI 、Nerd AI的AI交互页面

而另外两家出海产品,由作业帮打造的 Question.AI 以及另一家的 Solvely,在笔者看来都是走性价比路线的厂商,前者提供了很多竞品需要付费但它免费的功能,有利于快速扩大用户量;Solvely的性价比更多体现在定价设计上,订阅之外,它支持用户直接购买单价更低的答题钻石包(定价在 1.29 美元到 9.99 美元不等),大大降低用户的决策成本。

AI解题产品内购项目一览

Solvo 和 Nerd AI 两家由工具厂商打造的 AI 解题产品,在订阅前置、仅设置按周/年(终生)订阅方案等设计上处处透露着此前产品的气质。由于 Solvo 不订阅根本无法体验,这里着重介绍一下 Nerd AI,如果对照着活跃用户量去看营收,会发现 Nerd AI 的 ARPDAU 简直比同类产品高太多。

熟悉的“进入APP默认弹出订阅页面”的设计

Nerd AI 本身定价不低,用户买的最多的售价 4.99 美金/周的订阅项目,价格差不多是竞品均价的两倍(均价为 9.99 美金/月),而体验下来 Nerd AI 很像一个面向学生群体的 ChatBot,解题是主要引流功能,又附带了不少学习场景之外的功能,例如起草文章、编程、语言等不同的模块供用户自主探索,和不少以学科进行分区的产品很不一样。

以写博客的功能举例,Nerd AI支持从语气、目标读者等维度直接调整

总而言之,过去一年,AI 解题产品在海外如雨后春笋一般成长起来,与此同时,另一边的传统拍照解题产品不同程度地遇到了增长的困境,要么是日活用户增长停滞,要么是相较去年同期下跌明显。Gauth 最早也是按照题库搜索+真人答疑的传统思路打造的产品,但始终没能打入第一梯队,直到2023 年,厂商陆续投身 AI 教育的浪潮,也让 Gauth 看到了全新的增长机会,但说实话体验下来,还是和作业帮一样,问题不少。

美国传统拍照解题产品2023年1月至今日活用户变化情况 | 图源:点点数据

由于Photomath和其余产品日活量级相差过大,单独列出 | 图源:点点数据

三、加入AI,Gauth也打性价比?

Gauth 原名 Gauthmath,最初和其他老牌产品一样,是一款仅支持数学问题解答的产品,并且主推的是真人 1v1 答疑。24 小时在线的真人数学教师以及解决高难度数学题的能力是 Gauthmath 的核心卖点,后期逐步建立起了题库资源,也支持题库搜题,Gauthmath 官方宣称大概覆盖了 10 亿道数学题。

早期主推真人答疑的Gauthmath

AI 浪潮席卷而来的 2023 年,Gauthmath 也进行了大刀阔斧的改造。当年年中,Gauthmath 正式向用户介绍 Gauth AI,并表示自家的 AI 模型使用了海量的数学知识进行训练,能够实现快速响应以及回答更多类型的数学问题。同年 9 月,Gauthmath 官宣使用了 GPT-4 和 Bard 的支持,正式将可解答科目扩展到全科,Gauthmat 升级也为 Gauth。当然 Gauth 从来没有放弃原先累积的题库和在线教师资源,实测中如果问题来自题库,不仅回答准确率高,解析和知识点归纳也做得相当到位。余下的真人解题主要回答占比约 5%的高难度问题,并作为付费项目推出。

对于来自题库的题目,Gauth对解题涉及的数学概念设计了单独的跳转页面

上线至今,Gauth的日活用户变化情况 | 图源:点点数据

将传统解题方式和 AI 解题结合,听起来很理想,但是如果去看 Gauth 的日活用户变化趋势会发现,它一通更新下来,日活并没有出现太多波动,直到开启大规模买量。

这种情况的出现其实也并不奇怪,AI 解题技术本身并不是一个太有吸引力的点,毕竟普遍正确率还不够高。甚至在一些传统拍照解题产品的广告中,AI 解题会被直接拿出来拉踩,例如 Chegg Study 在广告中打出:“我会更信任包含 9300 万例题的专业题库,而不是生成式 AI。”

我们也会发现前面提及的 AI 解题产品,优势其实更多体现在带来了全新的交互体验以及价格上。Gauth 目前也偏向性价比策略,和 Question AI 属于直接竞品。

两次搜索同一题,AI两次给出了错误答案。Gauth同样面临AI答题准确率不高的情况

Gauth 目前每天免费搜题的上限是 11 道,Question.AI则不设上限,但 Gauth 设计了一个邀请好友得答题点数的机制让用户免费获得更多的解答,这个社交裂变的设计大概也是 Gauth 近期在美榜持续爬升的原因之一。Gauth 的另一大优势在于有此前题库的支持,体验上它的准确率也相较Question.AI 更高。

从一些用户的反馈看来,受准确率的影响,当前非付费用户对于“只保留一个拍照解题应用”的意愿好像没有很高,更多时候一个难题会使用多款产品进行解答验证,以期得到正确答案。这也反映了当前模型能力的边界决定了用户依然无法信任 AI,大家在估计市场的容量时应该考虑到这个因素,因为不同产品之间,用户可能存在重合。

这也解释了第三方数据显示 Gauth 在日活和周活上相差数十倍的情况,由于免费搜题限额不高,很可能有一些用户将 Gauth 作为备选的辅助工具,而不会每天使用,这种情况也出现在 Question.AI 身上。

写在最后

字节出品,大概是业界看来 Gauth 身上最显眼的标签。的确,相比社交媒体一类的业务,在海外做教育业务算得上是一张不容易出错的安全牌,尤其是在 AI 给教育行业带来更多变动的今天,字节对于未来对 Gauth 的投入应该只会更大。

早前,通过 TikTok 字节在海外教育业务上已有所动作,TikTok 先后在美国和欧洲上线了 STEM 教学频道,发挥平台教育功能的公共属性。虽然 Gauth 目前没有与这部分内容直接联动,但是背靠字节,不管是在 KOL 营销方面、还是人才储备方面,Gauth 要比不少同行都要得心应手。

从第三方数据上来看,Gauth 在 TikTok 上的投放量尚不算大,甚至比一些同行都要少,考虑到 TikTok 的主要用户画像和教育产品高度重合,以及未来可能给到 Gauth 的流量倾斜,这或许也是 Gauth 还没打出手的一张大牌。

Gauth 在不同渠道的投放情况| 图源:广大大数据

但很明显,不论是从测试、还是用户反馈来看,字节 Gauth 和作业帮的 Question.AI,产品的 AI 含量都有点过高,导致用户留存和信任都存在一些问题。

参考文献:

字节跳动再战教育业务,界面新闻

关于生成式AI的一些实践和想法,土布

出海产品分析 – 作业帮 (Question.AI),出海流量玄学研究

又一款字节AI产品火了!Gauth下载量三个月暴增14倍,一度反超多邻国,乌鸦智能说

人人都能用AI做音乐,但不是人人都能靠AI音乐赚到钱。

aigc阅读(67)

人人都是音乐家了?

最近,Suno、Udio等AI文生音乐等平台都进入了大众视野,帮助很多普通人实现了音乐创作梦想。

我也用Suno改编或创作了几首音乐,整体使用下来的感觉是:虽然目前技术能力还不成熟,比如部分歌词识别错误、读音错误、对音乐结构不理解等等。

但是,作为自娱自乐、做自媒体账号或缩短音乐制作时间,还是有很帮助的。

搜索视频号@一个符号bot 即可听到这首改编作品《感染 AI REMIX》,主题围绕疫情的时代记忆展开,原词来自冷冻街乐队的《感染》。

但我今天不是来分享如何制作AI音乐的,而是想聊一个现实话题:人人都能用AI做音乐,但不是人人都能靠AI音乐赚到钱。

一、音乐生产方式的演变

我是一个音乐爱好者和业余创作者。

2005年,我还在上初中,出于个人兴趣探索,我开始在5sing上下载(盗版?)伴奏,购买简易音频设备录制翻唱歌曲,再自己钻研Cool Edit、AU等古早软件进行混音制作,最后发布推广。

当时,由于互联网的高速发展,传统唱片行业被数字音乐不断冲击,CD销量日益下滑,许多唱片公司和音乐人面临运营困境。

印象最深的,就是2011年王啸坤数字专辑及同名歌曲《唱片》,表达了一个歌手告别传统唱片时代的心声。

一方面,越来越多的音乐人因为数字音乐制作的便利性,大大降低了音乐创作成本,可以独立负责从词曲创作、编曲到录制发行的全流程;

另一方面,普通人也不需要去专业录音棚或购买录音设备,就可以录制自己的作品,并发布到网易云、酷狗等音乐平台。

2012年起,移动互联网进入高速发展的黄金十年,市场上开始出现唱吧、全民K歌等平台,让PC录歌正式成为历史。就此,手机代替了话筒,APP代替了修音制作。

到了2020年,网易云音乐宣布为国内用户引入Amped Studio中文版数字音频制作服务,让音乐创作和制作门槛再一次降低,人们只需要在云端登录一个账号,就能随时随地进行创作,而不再需要安装复杂的本地软件……此后,虽然网易又推出天音等AI创作工具,但个人在使用时仍然感觉不够智能。

直到Suno、Udio这类AI文生音乐平台的诞生,彻底颠覆了所有从业者的想象:过去制作一首歌曲,你起码要经历写词、写曲、编曲、演唱、录制等工作。

现在,你只要下个brief,就能快速生产一首音乐,而且悦耳程度可能不亚于一个专业人士的创作。如果算力问题能解决的话,也许音质还会再上一个台阶。

我不知道靠音乐恰饭的专业人士是怎么想的,但作为一个业余创作三年的爱好者,在经历短暂的兴奋之后,我突然觉得音乐创作也变得毫无意义了。

一方面是感受到,学习的脚步永远跟不上技术的进步,付出的努力和回报不成正比;

另一方面是担忧:当生产力涨上去之后,每个人都有机会来分钱了,只会加剧内卷竞争。而且,这种担忧也不仅体现在音乐行业。

二、赚钱靠的不是音乐本身

说完了音乐生产工具的发展历程,再回头讲讲赚钱这件事。

市场上有大量音乐人的谋生手段,是为明星、游戏、品牌和商业活动进行创作,本质上属于广告营销行业。他们作为幕后从业者,谈不上多么光鲜亮丽,但想要到达暴富,多少还是有点难度的。

甚至,随着嘻哈音乐与电子音乐的流行,很多人在流媒体靠出售Beat伴奏赚点“零花钱”,这套模式本质上还是版权逻辑。

这种本来TO C就不太赚钱的事情,现在由于AI文生音乐平台的出现,好像就更不值钱了。

真正能赚钱的,仍然是明星偶像与经纪公司。其主要来源收入是广告代言和商业演出,包括参加各类电视与视频媒体的作秀节目;

此外,随着国内音乐节和Live House文化的兴起,做线下音乐活动也是一个商业前景不错的市场。

所以,值钱的是人,而不是生产工具或音乐作品。

过去20年兴起的网络歌手们也验证了这一点,而数字音乐平台也在不断探索全新的商业模式。曾经的许嵩、凤凰传奇、刀郎等等,都是那个时代红利的受益者们,只不过现在换成了抖音神曲与红人。

换句话说,能让你赚钱的从来不是音乐作品本身,而是你这个人能不能火、有没有流量价值,以及流量平台是不是能跟你一起分到蛋糕。

无论是过去的电视选秀节目,还是现在的抖音热门账号,本质上都在遵循“造星变现”这一核心逻辑。

音乐只是超级个体与粉丝的触点之一。如果音乐能把一个人带火,就可以实现利益最大化。同理,把音乐换成写作、绘画、短视频、直播带货和其他什么能力都可以。

诗人王尔德曾说:“银行家共进晚餐时在谈艺术,而艺术家共进晚餐时在谈钱。”

本来这句话,想表达的是金钱与艺术的关系,但是当音乐不再是门槛或音乐人的饭碗时,它就很容易变成金钱的游戏。

三、如何在音乐行业赚到钱?

其实,光靠流量收入,仍然不足以支撑很多独立音乐人的生存。想要走长远经营之路,还是要探索更多元的变现路径。

比如,可以选择开音乐兴趣班,教中产家庭子女学习乐器。有意思的是,我最近和一个琴行教育创业者聊天,他说他们正在开发一款辅导学钢琴的AI平台;

而更多有能力的音乐人,则可以选择成为演出行业的艺人,在短期内快速捞金。

据中国演出行业协会票务信息采集平台数据监测与调研,2023年全国演出市场总体经济规模739.94亿元,与2019年同比增长29.30%,达到历史新高,演出市场整体上行,且仍处于扩张周期。

除票房之外,演出衍生品及周边收入、演出赞助收入、经营主体物业及配套服务收入、艺术教育服务收入等其他收入总计237.62亿元。

换到今天的AI文生音乐时代,我们会发现某些商业本质并没有变化。

如果一个人本身就是音乐行业的艺人,他可以借助AI文生音乐工具,提高音乐生产效率,形成更广泛的影响力;

但如果本身是普通人,把AI音乐作为兴趣爱好,可能会拉动AI平台的消费,但未必能解决自己赚钱这一终极难题。

浅盘AI+客服系统的应用方向

aigc阅读(43)

谈到大型语言模型的实际应用,大伙往往首先想到的是AI+客服。这是一个高度重复且可被标准化的业务领域,可以被高度抽象和总结。而且在客服领域,人力需求量普遍较高,人力成本相对较高。

因此在本文中,我将结合一些实践经验和所读的相关文章,讲讲AI+客服的一些应用方向。

一、客服业务拆解

要讲述AI如何应用于客服业务,首先需要对客服业务进行拆解。

我们可以根据客服环节在业务前后的位置进行大致的分类,主要分为以下两类:

1.售前客服:

在客户购买产品或服务之前提供咨询和建议。一些业务提供免费服务,只为部分用户提供付费的增值服务,比如游戏、音乐等各类应用。这些业务的客服可以被归类为“售前客服”。

2.售后客服:

在客户购买产品或服务之后提供帮助,例如退换货、维修等服务。

客服业务存在以下特点:

1.维护成本大:

客服大部分时间都是“被动式”提供服务,需要应付大量用户问题、投诉和反馈,这需要投入大量人力资源。

2.管理成本大:

客服本身是人,是人就会存在各种各样的问题,比如偷懒、舞弊、辱骂用户、企业资产盗窃等,这些行为会影响整个团队的效益,甚至对企业造成负面的影响。

3.难以创造价值:

售前客服环节聚集大量非付费用户,维护这些用户相对难以产生直接收益。

因此,对企业而言,客服业务是一项高成本、低回报的业务,客服部门通常被视为成本型部门。如何减少客服人力投入,甚至实现无人工客服,这便成为AI在客服场景下的终极愿景。

客服业务可以拆解成以下环节:

1.客服培养:

不同公司的业务情况各不相同,内部流程也各有特色,因此招聘新客服需要花费一定时间进行培训。同时,客服部门通常存在较大的人员流动性,一方面是因为这类工作上升空间有限,一般人不会长期从事此类工作;另一方面,客服业务存在波峰和波谷的概念,即并非任何时候企业都会面临高客诉量。因此,合格的管理者需要根据业务情况的变化,合理调整人力需求。

如何让新员工快速上手,减少因人员变动而带来的培训成本和试错成本,是客服培训过程的关键。

2.用户接待:

用户服务环节可以细分为:“了解问题”、“解决问题”、“跟进”、“反馈收集”、“记录报告”这几个步骤。客服人员负责解决用户问题,提炼其中有价值的信息,并进行内部报告和总结。

尽管客服部门的价值被认为较低,但客服部门是最直接接触用户的部门。如何从与用户接触的过程中,整合和分析信息,并将其反馈到运营、销售甚至供应链部门,是客服部门提升其价值的关键之一。

3.客服管理:

由于客服人员是人,因此可能存在偷懒、舞弊、辱骂用户、企业资产盗窃等问题。如何预防问题的发生、在问题发生时进行识别,并在问题发生后进行适当处罚,是客服业务管理者需要采取的行动。

因此,AI如何在客服业务上发挥作用,也主要是围绕客服培养、用户接待、客服管理这几个方面。

二、客服培养环节的AI

1. 培训材料提炼

客服管理者需要对新员工进行入职培训,并对在职员工进行定期培训。在这个过程中,管理者需要定期收集培训材料,其中包括维护话术库、优秀案例和错误案例。

我们可以将用户接待过程中的聊天记录输入大型语言模型,利用提示词提炼其中的维护话术库、优秀案例和错误案例等内容。然而,由于AI生成的内容可能存在误导性,最终需要管理者进行审核和修正,确保内容的准确性和合适性,才可正式使用。

2. AI陪练

知识和技能之间存在本质上的区别。知识是实践的一种总结,但技能才是提高绩效和表现的关键。如果只是对客服进行一味的知识灌输,很难确保客服同事真正掌握了技巧。因此,我们需要对客服进行“刻意练习”,以确保客服同事将知识内化为相关的技能,并在这个过程中复盘问题,优化原有方案。

如果由客服管理者专门制定练习题,将极大浪费管理者的时间,而且无法与客服进行互动陪练。因此,这里可以借助AI的力量。利用用户接待的聊天记录和提示词工程,泛化并批量生成不同的客诉场景,并与客服进行陪练。同时,我们可以利用提示词对陪练结果进行评分,从而辅助管理者评估客服的能力掌握情况,帮助客服同事找到问题,并进行优化和改进。

三、客户接待环节的AI

1. 智能路由

智能路由是一种利用人工智能技术的系统,旨在根据多种因素,如客户的需求、客户的情绪、服务代理的专业领域和即时业务状况等,智能地将呼叫分配到最合适的客服代表或服务通道。

在公司业务规模庞大、需要大量客服并且用户场景足够复杂的情况下,对客服团队进行不同技能组的划分,每个组专门负责不同的场景。这种情况下,需要依赖“智能路由”系统来对不同诉求的用户进行分配,以实现接待“效率”和“效果”的最大化。

智能路由的建设可以基于用户属性定制规则进行分配,也可以训练小型模型进行条件属性分配。然而,这些方法都无法基于用户言论进行分配。在这种情况下,我们可以利用大型语言模型(LLM)对用户的诉求进行分类,作为智能路由分配的依据。

总体来说,智能路由的分配方式主要包括以下三种:

  1. 基于用户条件的规则分配。
  2. 基于小型模型的算法分配。
  3. 基于LLM提炼结果的分配。

2. 智能问答

客服智能问答是指利用人工智能技术来帮助客服回答客户提出的问题或解决客户的疑问的方法。

目前实现是智能问答的方案有以下几种:

1.知识库匹配问答:

这种方案需要预先构建知识库,通过文本匹配或语义匹配的方式使用知识库的答案回答用户的问题。这种方法能够快速准确地回答那些在知识库中有明确答案的问题,适用于固定领域或特定主题的问答场景,而且不存在AI幻觉问题

图片来源于百度,为智齿科技的客服系统

2.自行训练的客服AI:

针对特定业务场景或需求,通过机器学习和自然语言处理技术,基于已有的语料训练企业专用的客服AI。这种方法能够对语料进行泛化,能够应对更广泛的客诉场景,提供符合特定业务需求的个性化问答解决方案。

但是AI是对重复内容的总结,在泛化场景容易出现幻觉问题,可能会给到用户不准确的答案。

3.RAG + LLM:

LLM缺乏垂直领域的知识,对客户的问题会答非所问。因此,可以利用RAG技术满足客服场景的需求。RAG通过大规模语料库进行信息检索,获取可能的答案片段,然后将这些片段输入到LLM中进行进一步处理和生成答案。这种方法能够利用LLM的特点,让LLM结合客户的上下文和知识库的答案生成合适的答案。对于没有能力训练客服AI的中小企业,他们也能利用这种方法使用AI的能力。

但是,RAG + LLM的方式同样存在幻觉问题,有可能给到用户生成AI胡编的答案。

这些方法主要解决答案匹配和分发的问题,解决“在什么时候回答什么”的问题。同时,智能问答系统还可以引入多轮问答、多模态答案、多样化知识库的形式,拓展智能问答的问题解决能力。

1.多轮问答:

客户找到客服,往往是带有一个目的,有些目的能被一句话解答,但是有些目的并不行,比如退货退款、投诉等情况。同时,大部分客户并不能准确地一句话描述问题,会存在“同义词”、“主宾缺失”等问题。这种情况,一般都需要进行多轮的问答来解决。

因此,智能问答系统的语料不仅仅可以是单句式的语料,也可以由多句的语料组成,这使得智能问答系统能够覆盖更多的场景。

2.多模态答案:

多模态答案不仅仅包含常见的图片、语音、视频等内容,还可以包含链接、表单、问卷的形式,以提高与用户交互时候的信息密度,提高问题解决的效率。

3.多样化知识库:

有些问题不一定能够很好地被解决,因此智能客服除了要能回答专业问题外,还需要具备寒暄、闲聊、安抚的能力,用于更好地服务客户。因此,我们需要准备相关的语料库用于适配不同场景,这里可以使用关键词、意图识别等能力控制在什么场景下使用什么知识库能力。

最后值得一提的是,“智能”并非空中楼阁,需要一步一步的积累。

前面提到的三种实现方案都是非常依赖语料库的积累的,需要先有人工对业务中常见的客诉问题进行总结,然后给到智能问答系统进行使用。数据的积累和回答效果是一个互为因果的螺旋上升的过程。

因此对于中小企业来说,要想用的好智能客服,专门的语料库运营成员是必不可少的,该成员需要负责收集并提炼高质量的语料库,并定期结合业务的发展进行语料更新。

同时,幻觉问题较难根绝,除非投入较大的成本进行模型训练(或提示词优化)、语料调优,对于中小企业而言,与其用这么高的成本进行维护,不如使用不存在幻觉问题的“知识库匹配问答”方案

3. 客服建议

由于智能客服方案中的“客服AI”和“RAG + LLM”都存在比较明显的幻觉问题。我们可以使用“客服建议”的形式,规避幻觉风险问题。

所谓“客服建议”,是指在客户接待过程中,“客服AI”和“RAG + LLM”的输出结果以建议的形式展示,由客服人员决定是否采用。这一过程相当于人工审核的备用方案,只有在人工审核通过后,才将结果呈现给用户。这种方式能够完美地防止AI幻觉对业务造成负面影响,同时也能够利用AI的输出结果提升效率。

此外,我们还可以让AI结合人设,给出相应的安抚建议,而非基于知识库。这也能在一定程度上丰富客服话术的多样性。

4. 客诉情况总结

在客服工作中,当客诉量庞大、内容复杂时,人工难以迅速识别重点内容,需要花费大量时间阅读上下文,这严重影响了客诉处理效率。

为了解决这一问题,我们可以利用AI进行内容总结和提炼,快速辅助客服人员提炼客户诉求、情绪以及意图,并以一定格式输出,以便客服人员快速掌握用户诉求,定制应对策略。

此外,这种提炼和总结的结果也可以为“客服建议”、“智能问答”等功能提供决策依据,从而进一步提升客服工作的效率和质量。

5. 舆情提炼

在客服工作中,客服的价值并不仅仅在于回答用户的问题或安抚用户,更在于能够从海量的客诉中提炼出有价值的信息,并将这些信息反馈到运营、研发、销售等业务中,从而提高整体业务的效果。

想起之前看到篇文章,里面提到过腾讯内部的一个机制——10/100/1000法则。产品经理每个月要做10个用户的调查,关注100个用户博客,收集反馈1000条用户体验。尽管我不确定这个法则是否仍在实施,但它确实凸显了“充分聆听用户反馈”的重要性。

然而,让一线客服人员手动总结有价值的信息极大地依赖于他们的专业性和问题归类能力,同时也容易受到个体主观因素的影响,导致总结结果失真。此外,一线手动整理也无法完全覆盖线上的所有客诉案例,因此手动总结的全面性存在不足。

如果由管理者亲自去查阅,很可能会在海量信息中迷失,无法找到所需内容。

因此我们可以借助LLM的力量,让其替我们进行舆情分类,从中提炼出有价值的信息,使得人工查阅成千上万的客诉信息成为可能。

在这个过程中,我们可以借助提示词工程对话题进行预设分类,将相应内容归类到特定话题上,以便后续结合需求进行查阅。这种方案能够避免多次请求LLM导致存在“多个近似分类”,从而无法有效统计舆情分布情况。

与传统的分词方案相比,基于LLM的舆情分析能够更准确地分析舆情的内涵,而非简单地进行分词。

6. AI语音聊天/外呼

由于文本传达的信息有限,为了更高的接待效果,可以考虑采用多模态的内容形式,比如语音、图片、视频等,这些可以结合已有的AIGC方案进行快速生成。

目前较为成熟的是语音,借助文生音大模型,我们可以赋予客服一个声线,用来给用户传达对应的内容。通过语音的方式,能够更好地传达情绪,从而对用户进行情绪上的安抚。同时,基于AI声音,我们也可以实现智能外呼,用于主动营销、用户回访等用途。

结合人群划分策略,实现千人千面的大批量自动化用户触达。

7. 错字识别

利用大型语言模型对错别字进行识别,可以减少客服人员的低级错误,提高服务的专业度。这一技术虽然较为简单,但其实际效果却十分显著。

8. 话术润色

利用LLM对客服话术进行优化,结合特定人设,使得话术更加合适、专业,从而辅助客服进行更高效的接待。通过对话术的优化,可以提升客服的服务水平,使其更好地满足用户需求。

四、管理服务环节的AI

1. AI质检

在客服管理中,存在着各种问题,如偷懒、舞弊、对用户进行辱骂以及企业资产盗窃等。因此,识别、预警和应对这些问题成为管理者的重要任务之一。

如果仅依靠人工检查,很容易出现“看不全”、“看不及时”等问题。因此,我们可以利用大型语言模型(LLM)进行AI质检,结合提示词工程,梳理出质检的维度(如“态度友好”、“情绪稳定”、“用户反馈”等),并在不同维度上进行评分,从而评估客服在指定日期内的表现。

尽管这种方法可能存在幻觉问题,但它能够大大提高管理发现问题的及时性和效率。同时,基于AI质检的结果,我们还可以实现预警推送通知功能,确保将结果第一时间同步给相关成员。

总结

以上便是AI在客服系统中的一些实际应用。总的来说,对于中小企业来说,AI并未完全替代人工客服,因为在许多情况下,“定制化成本”大于“人力节省”。然而,在某些特定场景下,AI已经能够有效赋能业务并提升效率。相信未来有一天,AI能够给到客服行业更大的变革。

半年融资1.6亿美金,AI学语言又来敲Duolingo的门了

aigc阅读(54)

2 月 21 日,英语学习 App Speak English with Loora AI(文中简称为 Loora)宣布完成 1200 万美元 A 轮融资,由 OP Ventures 领投。而就在 2023 年 6 月,这款产品刚刚完成 925 万美元种子轮融资,8 个月内完成两次千万级别融资,可见资本青睐。

在 11 月的选题《卷起来了,网易和谷歌都想抢Duolingo的生意》中,我们观察到了谷歌和网易等公司都基于 AI 开发了语言学习产品,市面上也充斥着同类产品。但测试后发现,AI 在语言学习产品中的作用主要在“练口语”这个层面,解决“开口难”问题,相比于 Duolingo 体系化的课程,以及有点“疯批”的运营手法,只是通过 AI 聊天做出了点差别,显得有点单薄。

而且,虽然与传统产品有差异,但各款 AI 产品之间却雷同,甚至 ChatGPT、character.ai 等 AI 产品都可以胜任口语陪练的角色,单点功能很容易被大而全的 General Assistant 们覆盖。因而,观察下来单纯靠“语音识别+AI 对话”切入市场都有难度,更不要说靠 AI 去抢 Duolingo 的生意了。

但,打脸的是,资本依然跑步入局,暗示着什么可能在变化。

一、仅去年下半年资本就投出了 1.6 亿美金,AI 产品渐有起色?

2023 下半年完成融资的 AI 语言学习产品|图片来源:腾讯网

根据不完全统计,仅在 2023 年下半年,就有十多家在线语言学习创企完成融资,总融资额达 1.6 亿美金。而投资者名单中,不乏 OpenAI、Google 旗下的风投 Gradient Ventures 等知名资本。

我们对去年 11 月写选题时的数据和现在的数据也进行了对比,发现 AI 语言学习产品(OpenAI 投资的 Speak)在收入和 DAU 上也确实在快速增长。

11 月和近 30 天 Duolingo、Babble、Lingokids、EWA、Speak 五款产品的双端 DAU 和输入排名 | 数据来源:点点数据

2024.1 按收入排名的全球语言学习 App,注 1:笔者根据近 30 天收入数据重新进行核对,Speak 也排在第三。

注 2: Statista 的统计数据中有可能包含网页端收入,所以该收入可能高于点点数据体现的应用商店收入,

为 245 万美金左右(成立 7 年时间的 Speak 已经超过 Duolingo 月流水的 1/10)|图片来源:Statista

上一篇选题观察到的 Speak,在 App 端全球双端月流水已经从 11 月的 71W 美金增长到了 2 月的 143W 美金,增长了一倍,在同类产品的排名中已经上升至第三位,甚至,在主攻的韩国市场,它的收入已经超过 Duolingo 了。而 Speak 双端月平均 DAU 也从 11 月的 7.5W 增长到了近期的 10.7W(近 30 天平均 DAU),DAU 增长 42%。

AI 语言学习产品数据 | 数据来源:点点数据

而除了 Speak 之外,其他几款拿到融资的 AI 语言学习产品,虽然成绩和主流产品还差很远,但也在努力进步中,8 个月融了 2000 万美金的 Loora,从这个成绩来看,反而还是“差生”了,资本给钱,可能是看增长势头。

Loora 全球双端 DAU 数据(上),全球双端月流水(下),注:统计时间 2023.1.1 至今|图片来源:点点数据

从数据上看,从 2023 年 1 月至今,Loora 的 DAU 增长了 8.3 倍,全球双端月流水增长了 2 倍。而根据 Loora 团队的说法,2023 年 Loora 的 ARR 增长超过 8 倍,用户留存率提高了 2 倍。

注:在 a16z 推出的移动端 AI 产品Top50榜单中,ELSA 上榜 | 图片来源:a16z

而由 Google 投资,总部位于越南的 ELSA,则是在用户量层面表现不错,近 30 天平均 DAU 有 29.3W,是同行 Top3 的水平,近 30 天平均流水 81.8W 美金,排名全球同类产品的第 6-7 位(ELSA 可以在网站端进行订阅,所以单纯看应用商店的收入和用户数据可能不太全面)。

Duolingo 与 Speak、ELSA、Loora 收入与 DAU 对比图

不可否认的是,虽然快速增长,但 AI 语言学习产品,在 Duolingo 面前还是“弟弟”,但这种数据层面的变化,让我们需要重新审视一下 AI 语言学习产品,除了之前说的“语音识别+AI 对话”的套壳差异点,到底在以怎样的逻辑留住和服务用户,被资本下注的他们,还有多少增长空间。(鉴于 Speak 的相关功能已经在上一篇选题中介绍过了,这次我们主要聚焦 ELSA 和 Loora。对 Speak 感兴趣的读者,可以参考《卷起来了,网易和谷歌都想抢 Duolingo 的生意》选题)

二、AI 学英语,在 Duolingo 的辐射范围之外找用户

表面上看,ELSA 和 Loora(包括 Speak)有如下共性:

  1. 核心功能都是基于 AI 语音识别帮助用户学习口语,并根据用户的表现提供实时反馈。
  2. 都会为用户推荐有难度梯度的体系化课程,用户也可以自己选择学习目标,灵活服务拥有长期/短期目标的用户。
  3. 订阅变现为主,免费功能较少,订阅费用在每月十几美元左右。

相对而言,目前 Duolingo 中 AI 的参与度并不高,根据媒体报道,Duolingo 主要将 AI 应用在课程编写环节上。

注:Duolingo Max 仅向美国、英国、爱尔兰、加拿大、澳大利亚、新西兰用户推出,提供解释我的答案和角色扮演两项功能。

而其实,Duolingo 在去年 3 月就推出了能与 AI 对话的高级订阅模式 Duolingo Max,但是目前只能在少数几个国家,用英语学习法语/西班牙语时使用,有消息称,今年下半年将登陆日本市场,使用范围仍比较小。而且 Reddit 上用户评论认为 Duolingo Max “非常平庸,且价格很高”。

Duolingo 课程设计的思路是,通过前期单词、中期语法、后期表达的学习,带一个 0 基础的用户学习一门语言。整体课程完整、体系化,用户可根据自身水平通过测试直达某个阶段,但不能跳脱课程体系。由于其提供的是基础服务,面向所有有意学习语言、但无明确短期目标的人群,所以在商业化上,Duolingo 采用基础功能免费+订阅/内购收费的模式。

根据 Gitnux 的报告,91% 使用 Duolingo 的用户是出于个人兴趣,而不是出于工作、考试、海外生活/学习等明确目的。

当用户没有明确目的,留存是产品的一大难题,关于这一点 Duolingo 设计了 CURR(核心用户留存)的指标来指导产品的迭代和运营(参阅之前的选题《亿级用户规模,DAU与收入还在高速增长,前CPO分享大体量产品如何突破增长困境》),在课程设计上,虽然注重游戏化和“连胜系统”、“推送系统”提升留存,但以时长较短的课程为主,降低用户连续学习的心理压力、同时又提升满足,妥帖拿捏用户心理。

相应地,Duolingo 走“基础教学”的路径,坚持免费使用,靠使用频次较高的重度用户进行变现的商业化策略,也都是考虑到了用户画像。

而上文所述,在产品上体现的三点差异,则体现着 ELSA 和 Loora 的面向的用户和帮用户解决的问题,与 Duolingo 完全不同,他们主攻的目标人群,也有差异。

1. 完成规定动作 vs 灵活切换目标

ELSA(图1)、Loora(图2,3)的主页和课程页面,Duolingo 主页(图4)

我们先从产品的主体来看,打开 ELSA 和 Loora 的课程页面发现,这两款产品是按不同的课程形式来分类的,并没有选择 Duolingo 游戏化且按难度逐级递增的形式。

此外,虽然两款产品都提供了系统推荐的每日课程,也都借鉴 Duolingo 设计了简单的连胜/排名系统,但是两款产品都会询问用户今天的学习目标,并给用户额外选择,比如按主题/场景学习或改善发音等,用户完成这些自主选择的任务也可以延续连胜,获取排名。

ELSA 和 Loora 的用户拥有更多自由,如果用户目标明确,就可以自主选择学习内容,如果目标不甚明确,也可以选择系统推荐的课程,这其实背后反映的是,这两款产品界定的目标用户的画像不同。

Duolingo 的通关测试

而在 Duolingo,“自由”体现在用户能力与课程难度的匹配,也就是如果我认为自己可以跳级,通过测试就能进入下一阶段,但其实也还是按难度爬坡,系统化学习。

两相比较,可以看出 Duolingo 针对的是目标不明确、甚至 0 基础的用户,而 ELSA 和 Loora 面向用户,有更明确、或者说更短期目标的用户。

2. 按场景学习 vs 按知识点学习

ELSA 每日课程内容(左),Loora 每日课程页面(右2)

而在进入课程后,AI 语言学习产品们也和 Duolingo 有所差异。

从每日系统推荐的课程内容看,ELSA 和 Loora 都会有一个明确的主题/场景,比如笔者在测试时,ELSA 推荐的场景是“酒店 Check in”,Loora 推荐的主题是“电视节目”。

其实在 AI Chatbot 出现之前,很多语言学习产品也把场景化语言学习当作卖点,但基本上走的是“学短语手册”的模式,用户主要学习在这个场景下常用的单词、短语、句子,以及它们在场景中的使用方法。这种方式虽然有一定作用,但非常死板,在实际应用中,一旦出现话题发散或其他变化,用户仍会感觉无所适从。

而 AI 尽量还原与真人对话的体验,AI 的对话能力也能在用户发散话题时模拟真实语言环境。而在 AI 出现之前,学习者如果不”肉身在海外”,就很难训练到“用”这个层面。

ELSA 场景页面(左 2),Loora 角色扮演页面(右 2)

而从场景一览的界面来看,ELSA 和 Loora 不仅包含了生活化的场景,也覆盖了很多偏向工作/学习的专业化场景。比如上图 ELSA 中的“Working in healthcare”场景,用户作为一个在诊所上班工作人员,练习“帮病人预约医生”“接诊病人”“接急诊电话”等具体场景。Duolingo 基本上并没有按照场景来做练习。

Loora 的“read and talk”功能|图片来源:Loora

两者比较相似的反而是知识拓展。但就知识拓展来看,AI 语言产品重点仍在应用,产品推荐小短文,用户阅读后就小短文与 AI 进行讨论,很像国外大学的“研讨会”这个课程形式,练习的是用户的阅读、理解、发散、表达能力。而 Duolingo 的做法是在每个单元设定一个主题,比如图中“谈论未来的事件”主题,但主题完全为知识点服务,对应着“一般将来时”这个知识点。而在具体的课程中,Duolingo 则以翻译、填空、造句等题目为主,来训练词汇、时态、句式等知识点。

Duolingo 的课程页面与课程内容|图片来源:Duolingo

两相对比,ELSA 和 Loora 的英语学习更具实用性或者目的性,主打一个不久的将来能用起来。而 Duolingo 则更注重,通过单词、语法等夯实基础知识点,系统性地学习语言。这其实体现的是 Loora、ELSA 面向的是有一定基础知识、但需要能力进阶的人群。这是人群的第二个差异。

3. AI 加持的“多边形”:反馈体系 vs “对错”反馈体系

最后,说下 AI。如果说语音识别+AI 对话,是套大模型的壳,上面的模拟场景中的变化和反馈体系,则开始让 AI 语言产品和 Duolingo 的现有体验真正产生了一些差异。

Loora 语法反馈页面(图 1),ELSA 发音反馈页面(图 2),Loora 发音反馈页面(图3),Duolingo 题目(图 4)

从课程内的反馈来看,Duolingo 虽然也可以进行实时反馈,但是它的反馈维度只有“对错”这个单一维度。而 ELSA 和 Loora 的反馈非常细致,语法方面,不仅语法错误可以被识别,就连“疑问语调”等细微的错误也能识别出来,发音方面,AI 的反馈可以具体到音节。

Duolingo 的发音课程|图片来源:Duolingo

Duolingo 的反馈还停留在跟着单词/例句模仿发音的层面上,就算笔者故意说错,Duolingo 只会反馈错误,不会告诉用户哪错了,怎么改正,对用户发音的提升作用有限。

Loora 个人页面(左),ELSA 个人页面(右),注:ELSA 则提供一个时长为 10 分钟的英语测试,用户可以通过测试让 AI 了解用户水平

而从对用户英语水平的评价上,Duolingo 评价的维度基本上就是用户“闯关”的进度,也就是知识点学习的进度。而有了 AI 的加持,Loora 和 ELSA 可以在用户的学习过程中对口语能力进行实时反馈,而评价维度包括语法、发音、流利度、单词(ELSA 还有重音和语调),基本和雅思/托福口语考试的评价维度看齐,而这两种考试都是有真人考官参与评价的。

根据上面的观察我们就可以勾勒出 Loora 和 ELSA 锚定的其实是,有一定基础,有明确的学习目的和规划、短期内需要达成某个明确目标、需要实际应用能力快速提升的用户。

而这样的用户画像,很快就就能浮现在脑海中,要出国留学或者生活、为了应聘外企或者为了晋升需要快速提升口语,大概率是中青年,而他们的目标决定了自身家庭环境不错或者已经具备一定的赚钱能力,AI 的加成,让这些原本只能花大价钱去请外教的用户们,可以通过 AI 学习产品,也能有不错的提升。这些给了 AI 语言学习产品们,不订阅基本无法使用的底气。

三、写在最后

以 ELSA 和 Loora 为代表的 AI 语言学习产品,与 Duolingo 差异,与其说是加入 AI 带来的,不如说是在 AI 技术加持下,以前无法满足的需求有了被满足的可能性,而使产品能够锚定不同的需求背后的不同人群。对于现在难找场景的 AI 技术来说,算是一个比较好的应用案例。

但说实话,上述产品层面上的 3 个差异,从技术和功能层面上,Duolingo 应该是都可以实现的,只是每一个产品都背负着自己的使命,服务于某一群体的最根本需求,已经做到千万 DAU 的 Duolingo,AI 技术的这一波红利,不是不能吃,只是怎么吃,需要慎重,这也给了 AI 语言产品冒头的窗口期。

美国人学习外语的目的|图片来源:Preply

而在资本的加注下,这些 AI 语言产品,能够增长到什么地步,值得所有 AI 教育赛道的创业者关注。根据语言学习产品 Preply 在美国做的调查,受访者学习外语主要目的有教育、工作、学习文化、旅游和培养技能。就这四个目的来看,除了出于应试目的学习外语的用户外,其他几个目的的用户,在有一定基础之后,其实都有提升交际能力的需求。这么看来,未来 AI 语言学习产品似乎是不愁用户的。

参考文献:

  • 全球融资热背后,大模型才是语培最优解?
  • 碎片化学英语,一辈子都别想学好
  • 外语学习的真实方法及误区
  • 卷起来了,网易和谷歌都想抢 Duolingo 的生意
  • 亿级用户规模,DAU 与收入还在高速增长,前 CPO 分享大体量产品如何突破增长困境
  • Foreign Language Education Statistics: 70% of Americans regret letting their foreign language skills slip

人工智能十问:《AI+大猜想》

aigc阅读(58)

伴随着ChatGPT、Sora、Figure01不断引发全球关注,人工智能(AI)的惊人迭代速度不断扩展着人们的想象空间。

中国发出拥抱新一轮科技和产业浪潮的新信号。

2024年3月,“人工智能+”首次被写入政府工作报告。报告提出,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群,以加快发展新质生产力。

问题随之而来,国产大模型能弯道超车吗?人工智能“+”什么?大模型如何改造传统硬件?如何赋能企业?如何保证AI是安全的?

近期,中央广播电视总台财经节目中心《对话》栏目录制了一期节目《AI+大猜想》。四位企业家——360董事长周鸿祎、国产大模型独角兽智谱AI CEO(首席执行官)张鹏、人形机器人初创公司九光智能创始人徐志根、广药集团董事长李楚源,以及三位财经媒体代表——《财经》杂志副主编朱弢、《华夏时报》执行总编辑张志伟、《中国企业家》杂志副总编辑何伊凡,共同探讨人工智能的技术发展、商业化路径以及安全等话题。

本期节目将于4月13日在央视财经频道《对话》栏目播出,本文撷取了节目要点。

01各行业使用AI有哪些成果?

靳强(《对话》栏目主持人):现场的几位嘉宾,在各自领域有涉及人工智能的新成果吗?

周鸿祎:2023年大家都在集中精力搞大模型,在大模型上希望能达到一定的效果。但是2024年所有人都在问,大模型究竟为我的企业、为我个人解决什么问题,所以我觉得2024年应该是场景之年。

所以我的理解,“人工智能+”不是孤立地去搞大模型,而是把大模型现在的成果和各个行业——特别是传统行业、传统企业的各个业务场景能够相结合,使得大模型能够真正对产业数字化起到一个推动作用。

我自己也身体力行地把360所有的产品重塑一遍。因为看美国的同行微软也好、Salesforce也好、adobe也好,大家并没有用大模型去做一个新产品,而是把已有的业务、流程,看看在哪些环节能进行赋能。

我最近做了两件事,一是把传统的搜索用大模型给彻底改造了;二是把原来360的浏览器整个重塑了一遍。

张鹏:智谱AI就是做大模型的,专注于大模型底层和通用技术。我们最近也把产品经过很多次迭代。现在,我们跟国际顶尖的,像GPT4这样的水平已经非常接近了。同样也可以帮助大家去解决工作、学习、日常生活当中的一些问题。

李楚源:“人工智能+”在我们生产的各个环节有很多应用。中药从种植开始,要跟人工智能结合,要跟数字经济结合。药材可追溯性的要求必须用这些人工智能和大数据的手段,才能知道这药材的地道性和质量,才可以溯源。

另外,药材的生产加工过程也需要用到智能化的设备,这使得生产效率大大提高了。比如,我们一个药材品种使用智能化设备后,产能提高了149%,效率提高了289%。

在经营和市场环节,可以使用人工智能参与决策和推进业务。

徐志根:九光智能是做人形机器人的。我非常认同一个观点,就是AI技术和大模型把机器人,特别是具身智能机器人的产业向上提了很高的一个高度,使得智能机器人未来走进千家万户成为可能。我们现在是在研发阶段,今年5月我们的机器本体就可以做出来了。接下来我们还会继续在智能化上往前走。未来人形机器人一定会接入各种大模型,成为各种智能交互的平台。

02国产大模型能弯道超车吗?

靳强:OpenAI发布Sora,掀起新一轮对人工智能的讨论热潮,国产大模型能达到Sora的水平吗?

张鹏:Sora确实令人惊艳,但我们仔细研究了它的技术报告之后,发现它并没有从外界看起来的那么新奇。Sora运用到的仍是已有的技术,只不过OpenAI把这些技术综合起来,从工程上进行了优化,做到了之前其他人没有做到的程度。

其实2021年底、2022年初的时候,我们也做过类似的视频生成工作。这种视频生成的原理非常简单,就是把视频拆解成一个一个的关键帧,继而分层,即递归式地生成关键帧,然后把这些关键帧连续起来,于是生成了视频。当时我们大概能做10秒钟以内的连续视频,并且视频能够很好地保持画面一致性,不出现非常违反常识或者物理定律的场景。现在和Sora比起来,虽然显得比较原始,但本质上很多原理是相通的。

国产大模型能否做到Sora这种水平,是一个资源和时间的问题。我不敢去预测具体需要多长时间,但应该不需要太久。

周鸿祎:ChatGPT出来的时候,我就说它的原理虽然很简单,但是从0到1的创新是最难的。OpenAI了不起的地方在于,它找到了一个方向并工程化,给大家证明了这条路是走得通的。

Sora出来之后,我也听到很多专家说这没啥了不起的。但是,不要说中国公司,就连美国公司,短期内我也没有看到谁有能力预言,在多长时间能拿出一个类似的东西。

通过外在的表现,国内大模型和Sora的差距至少有一年左右。

很多人光看到Sora出来后,做短视频的效率提高。这仅仅是它的一个小功能。我们还应看到两件事:

第一,Sora对于具身智能、自动驾驶技术会带来质变。自动驾驶现在之所以不能实现真正的全自动,是因为自动驾驶在感知层面,无论用激光雷达还是用摄像头,仅仅停留于看到了什么。但是真人驾驶汽车的时候,当你看到东西,脑子会闪过很多念头,这能撞吗?撞上去会怎么样?我绕过去会怎么样?所以,只有当机器对物理世界的观察具有Sora这种能力,并能实时反应,自动驾驶才能获得突破。

第二,不到一年的时间,从ChatGPT进化到Sora,意味着通用人工智能(AGI)的进步速度加快了。原来我们觉得AGI可能还需要10年到20年,但如果按照过去一年的发展速度,实现AGI大概还有3年至5年。

张志伟:周鸿祎先生在接受我们采访时曾表示,中国的大模型的水平,相当于美国的GPT3.5,如何作出这个判断?

周鸿祎:我认为有差距是必然的,知道差距是多大,剩下就是追赶的问题。

我现在说话比较谨慎,你说差距大了,别人说你自卑;你说差距小了,别人说你自大。按照刷榜的成绩,国内大模型早就超过GPT4了,但是真正用一用,我觉得国内的大部分都达到,或者超过了GPT3.5的能力,全世界也只有中国有这个能力。

如果GPT4是100分的话,GPT3.5差不多应该有75分到80分,我认为这个速度很快了。

美国真正在人工智能领域领先的公司,我认为就两家,软件是OpenAI,硬件就是英伟达。大模型的差距比光刻机、芯片的难度要低很多,因为毕竟是软件。但是未来要奔着AGI,也就是通用人工智能去的,这块的挑战就是算力。

但如果把大模型越做越小,走垂直化、产业化、企业化、场景化的道路,可能不需要万亿、千亿的参数,只需要百亿的参数,再加一些私有的核心数据加持,在一个垂直单元上是可以超过GPT4的。

这对算力的要求就降到很低,可能有十张消费级显卡在一个场景就能用起来,这非常适合我们国家,这也是我们弯道超车的一个场景。我们有这么多的工业门类,国家这么重视制造业的数字化转型,如果中国企业都用上了这种小规模的大模型,在自己的场景上让大模型跟业务相结合,意义不亚于我们在超级AGI上追上国外。

03AI的发展趋势是什么?

靳强:从时间的维度看,人工智能未来的发展会是什么样的状态?

张鹏:人工智能学科诞生到现在,已经过去了将近70年,发展速度逐渐加快。早期相对慢一些,到了最近十几年急剧地加快,尤其近几年突飞猛进。未来的发展速度会呈指数级抬升。很多人预测人工智能后面会缓下来,就像技术成熟曲线一样,到达一个顶峰。其实,目前技术虽然已经非常快速成长,但AGI仍有很多问题值得我们去探索,每一个问题的突破都有可能带来一个飞跃式的发展。我认为我们现在还没有摸到这个天花板在哪儿。

周鸿祎:2023年是人工智能发展的拐点,过了大模型这个拐点,进入到指数级的发展。最理想的发展曲线是持续往上走,实现通用人工智能。但有两种因素可能会导致发展意外坠落:一个是“安全”,如果人工智能发展过程中不能解决安全问题,会给人类社会造成大量的问题,比如虚假视频欺诈;另一个是“能源”,如果人类在相当长的时间不解决大模型带来的能源大量消耗的问题,大模型的发展走不下去。

李楚源:人工智能发展会呈现波浪上升的状态,有积累的过程,也有停滞的过程。可能技术上升到一定程度,遇到了一些制约因素,假如这些因素不解决,技术发展就变得比较平缓了。一旦这些因素解决,又将继续往上升。当前人工智能发展要解决法规配套问题,政府也要积极推动,出台扶持政策。

徐志根:在过去70年,我们还是在山脚下一直爬,我相信我们已经在爬非常陡的坡了,而且前景应该是非常好的,这个时候就可以看到很多热情度都上来了,包括投资和参与研究的公司也非常多,我相信会冲得很高。

接下来会进入平静期,甚至通过优胜劣汰,淘汰一批,后面参与者就会比较稳定。

同时在应用规模上,我相信人工智能会赋能给各行各业,比如说赋能给机器人,接下来会进入一个比较高的增长期。

04目前处于哪个发展阶段?

靳强:现在的人工智能究竟发展到了哪个阶段?

张鹏:大模型本身的原理大家已经基本上都接受了,达成一致,这是我们通向AGI的一个有效路径。但中间还有很多可改良和可改进的地方,每一次的改进都可以导致技术本身再往前推进。

周鸿祎:我在硅谷跟人谈,有些VC认为大模型有点像1982年的电脑,或者说像1995年的互联网。我感觉这种估计保守了,现在一天的进步都等于过去大概一年的成果。我觉得大模型能不能发展,取决于能不能找到好的应用。所以,我觉得大模型应该大概在早期阶段。

李楚源:现在处在第一个阶段,大家都重视了,大家都想用,但是现在处于一个不太平衡,还有一些法规制度不太完善的阶段。之后的阶段,要解决法规跟人工智能的一些配套问题,这有利于发展。

05人工智能“+”什么?

靳强:很多人都预测说今年有可能是“人工智能+硬件”元年,未来最有可能“+”什么?

张鹏:大模型运行消耗大量功率和能源,太小的设备承载不了,而且太小的设备功能受限,能做的事情有限。汽车现在已发展到一定程度,尤其是新能源汽车,电气化的程度、普及率等,都已经发展到较高的水平。因此,把大模型的能力赋能到汽车上去,是水到渠成的一件事。

周鸿祎:大模型与终端结合,得看终端有多大的需求,是不是刚需,有没有痛点。比如,没有大模型,机器人根本就玩不转;汽车智能座舱的交互功能,以及自动驾驶,也都需要智能升级。汽车只不过是四个轮子的机器人,是最迫切需要大模型上端侧的终端。

另一个看好的“人工智能+硬件”是手机。手机已经变成人体的一部分,像人的一个新器官,如果再去创造其他硬件我觉得都违背人性。因为人就不喜欢多带东西,带个手机,连车钥匙都不想拿;有手机支付了,连钱包都不想拿。苹果头显最大的问题不是功能问题,而是能戴多长时间的问题。所以,AI和手机的结合,我认为是最能产生化学反应的。

李楚源:看好机器人。机器人不但能够代替人,还可以做很多人做不了的事。比如在医疗领域,医生做手术可能还不够精准,而操纵机器人来做手术,可以更精准、更高效。

徐志根:人形机器人有人工智能加持之后,一定会加速进入千家万户和各行各业。智能机器人可能像我们的助手一样,把日常事务照顾起来。

何伊凡:汽车和人工智能结合富有前景。首先在场景的复杂性上,汽车每天都在路上跑,场景足够复杂;其次在数据的丰富性上,汽车能够获得的数据量非常庞大;最后从硬件的算力基础来说,汽车场景能够作为理想的载体,克服终端算力不足问题。

朱弢:汽车应该是最早能适配大模型的终端,它的场景足够丰富,实实在在已经有那么多用户,也有现实有需求。机器人也是一个值得期待的场景,大模型加持之后,相当于机器人有了“大脑”,可以自主决策判断。

张志伟:智能家电与大模型的结合需求可能没那么大,但智能音箱和大模型结合可以提升语音对话交互能力,应该比较容易实现,越容易实现的功能越容易商业化。

06AI+手机,会是什么样?

朱弢:未来真正的AI手机到底是什么样子,跟现在的手机有什么区别?

周鸿祎:今天的智能手机,跟大模型一比,只是智能手机1.0。如果大模型通过“云+端”两种方式加持手机,就能变成智能手机2.0。真正的智能手机出来了,Siri就不再是“人工智障”,有可能变成一个友好的助手。

“AI+手机”未来会发展成什么样,今天很难去回答。但我认为,要找到合适的场景,不断尝试。比如,最能想到的一种是手机真正变成个人助理,有了规划执行能力,只要用户把目的告诉它,手机自动调用App,把活都给干了,最后只告诉你一个结果。如果手机智能程度真走到这一步,App就变成了手机的插件,可能以后App的概念也会随之变化。

张鹏:手机离人最近,也最容易把AI的能力附上去。现在手机的设计,包括软件生态,仍然基于过去很多年积累下来的模式,AI能力的突增能否带来新的范式,也是我们一直在考虑的问题。

AI能力突增所带来的新范式存不存在,到底在哪儿?它不一定是用现在的四方四正板砖形态,可能会有些变化。

众多的科幻电影里其实都出现过各种各样的形象,有的把手机直接变成类似于手表这样的设备,有的戴在耳朵上的,也有直接植入皮肤下面的。其实这个硬件的形态不是最关键的,最关键的还在于它能完成什么样的工作,最方便地让你享受到人工智能所带来的便利,这才是本质。

07AI+机器人有何前景?

靳强:人形机器人怎么跟人工智能结合?

徐志根:人形机器人被AI深度赋能体现在:一是运动智能。以前看到的人形机器人走得很笨拙,有了深度强化学习加持,在未来两三年,人形机器人的运动智能会有长足进步,它可以走快、走稳、走优雅。二是自主导航。机器人自主导航过去三四年一直深度地用Transformer架构去训练。三是交互智能。大模型提升机器人“大脑”的认知、推理、决策能力。四是操作智能。以前的机器人虽然可以演示踢个球,但要让它去完成一件复杂的任务,比如炒菜,当个家庭管家,其实是做不到的,未来的机器人在操作智能层面有望不断突破。

靳强:既然这么复杂、这么困难,为什么一定要把机器人做成人形呢?

徐志根:在一些具体任务上,人形机器人不是最高效率的,比如,炒菜机器人,它肯定能够快速炒好。但是要让它既能叠衣服,又能炒菜,又能洗碗,这样一个综合性的管家和助理,现在来看人形可能是比较合适的,或者至少有双臂、双手能够动的,会是合理的。

第二个方面在应用层面的赋能,在处理一些应用场景,比如安全监控这一个场景,人形机器人可以像保安进入这样的多任务复杂场景,其中可能用AI的技术,比如神经网络、最新的视觉技术,还有一些大模型技术。

靳强:在2015年、2016年的时候有一波人形机器人热潮,但活到现在的公司没几家了,这次还会重演吗?

徐志根:未来人形机器人肯定是各种机器人形态中非常有价值的形态。人形机器人首先会在to B的一些场景能够解决各种问题。如果是to C的场景,可能还要时间比较长。很多人对人形机器人的担心,安全性、隐私、法律法规等这些问题,我相信都是可以解决的。

08大模型如何赋能企业?

张志伟:如何用大模型赋能企业的业务?

周鸿祎:我们去年从to B模式中找到一些方法论:比如要给医疗机构做一个医疗大模型,必须把医疗进行场景细分,在里边找出50到100个场景,并对每个场景进行分析,看看文章生成、情感判断、内容翻译等大模型最常见的功能,能不能在场景中发挥作用。能不能做取决于两个因素:一是该场景下有没有数据知识,光有场景没有知识,训练不出大模型;另一个是对大模型的容错度,大模型最致命的就是幻觉,如果某个场景中我们不能承受幻觉风险,那么就不能用到大模型。

所以我主张,现在企业用大模型不要追求宏大叙事,而应在内部业务链条,或者在外部产品功能,选取两到三个场景,用大模型赋能。如果能取得成绩,我认为就是很大的进步了。我提倡小切口切入,刚开始宁可保守一点,积小胜于大胜。

大模型像发动机,现在大模型厂商在造世界上最牛最快的发动机,但是B端企业要的不是发动机,而是一辆车。所以,我们要找到底盘,把发动机装上,再给它装上外壳、座椅,最后交付一辆车,企业才能用。

2023年,中国有上百家公司在做大模型,鱼龙混杂,泥沙俱下。今年消停很多了,据我了解,现在的大模型厂商纷纷转型,往产业垂直方向走。

张鹏:通用大模型的能力提升所衍生的能力,能让我们去寻找到“大模型原生的应用”或者“大模型原生场景”。但是在这个过程当中,技术需要发展,产业也需要落地。打个比方,现在我们造出内燃机了,不能说我想造飞机,内燃机不能用,我不管了,我要造喷气发动机去。既然内燃机可以造出汽车,那就先把汽车造出来,我觉得这是不矛盾的一件事情。

靳强:“人工智能+”会让哪些行业最先受益?

周鸿祎:所有从业者都要解决场景化的问题,办公场景看起来简单,其实跟每家公司、每个单位都有关系,所以围绕着办公、电脑的使用,包括智能家电、整个物联网硬件,这些场景都可以拿大模型来或多或少覆盖。

企业的场景应该在金融、医疗、教育领域,这些领域今年如果能找到一些场景,能落地,那就可以回答这个问题。

09未来不再需要程序员了?

靳强:百度董事长李彦宏近期接受《对话》节目采访时发表了一个观点,认为程序员以后可能不会存在了,你们同意吗?

周鸿祎:我当然不同意了。

现在大模型可以完成一些简单编程任务。但如果想写一个新一代的人工智能系统,这种复杂的目标涉及整个程序流程、逻辑结构、数据分布和算法创新,大模型现在肯定是干不了的。未来我觉得也干不了,有一些创意的工作,目前还是人类所独有的。所以大模型会提高程序员的效率,但取代不了程序员。

我一直认为,人在人工智能面前要保持人所独有的创造力、情感、想象力。人不会被人工智能淘汰,但不用人工智能的人,会被用人工智能的人淘汰。人工智能是一个工具,如果你掌握了工具,却没有想象力、创造力,即便给你再好的工具,也创造不出好的成果。

张鹏:未来对程序员的定义会有变化。李彦宏讲的程序员,指的是传统意义上写机器编程语言的这类程序员。未来他们的数量肯定会越来越少,因为工作效率已经在不断提升,用大模型辅助编程,现在一个程序员相当于原来的1.3到1.5个程序员,所以传统程序员不需要那么多了。

但是建立在机器和人之间新的沟通方式上的新类型程序员可能需要更多,他们的工作就是和人工智能进行沟通,让机器完成人的需求。如果把这件事情也定义成编程,那么这种程序员一定会极大增加。

朱弢:不光是程序员,还有观点认为以后记者、编辑都可能被人工智能抢走饭碗。我们邀请过清华大学新闻与传播学院杭敏教授交流,她和学生比照我们发表过的报道,让ChatGPT尝试同题写作,发现完全无法相提并论。不但文本表达质量不够,就连其中引用的很多数据和资料都是错的,或是编造的。

所以我认为,人工智能使得有些职业的重要性可能会降低,有些职业的重要性可能会增加,或者说某一个职业的某一个工作环节可能会被替代。

张鹏:我想可能大家讨论这个问题的时候很容易忽略另外一个因素,叫时间。我们经常会说一句话,“我们容易高估技术的短期价值,低估技术的长期价值”。

朱弢:时间是个很重要的维度,我觉得包括程序员在内,认为某个职业会在短期内因为AI的出现、大模型的出现消失,是既不科学也不严谨的。

10如何保证AI是安全的?

靳强:一些社会精英创造了大模型,未来会不会出现一小撮人统治大部分人的情况?

周鸿祎:科幻片里总是有一帮科学怪人梦想统治世界,我觉得要对抗他们的力量,就是要充分的市场竞争。为什么一定要坚持开源?老有人觉得开源就意味着我们在抄袭别人,这是对开源最大的误解。当年Linux通过开源,成为对抗微软垄断的力量;现在Meta和特斯拉也将手中的大模型开源。开源的力量是什么?是集中力量办大事。开源可以形成明显的制约,避免垄断。

另外,为什么我到处鼓吹要把大模型垂直化、企业化、私有化和小型化呢?就是如果全世界只有一套大模型,只有一套人工智能,大家都用它,都被它控制了。但是企业内部有多个大模型,每家都有自己的大模型,每个人手机电脑上都有自己的大模型,它是一个分布式的世界,那它想控制就很难。

张鹏:如果一家做得最好,但不开源,只掌握在少数人手里,这个担心永远都会在。在人工智能时代,技术的领先性可能比过去任何一个时代所带来的碾压式效果更明显。如果开源模型能力没有闭源模型强,更强的闭源模型可以解释和预测开源模型,足以形成碾压式的效果。这是最可怕的地方。

靳强:如果人工智能控制的设备太多了,可能对我们的生活造成一定程度的危险,这种担心是不是有道理?

周鸿祎:人工智能的安全问题,是人类有史以来遇见的最大挑战。但我们不要坐而论道,还是得把这个问题分解,可以分成三方面的问题:一个是软件系统有漏洞可能被人攻击,比如被黑客控制,数据可能丢失,或者训练数据被污染或偷窃,这些传统技术安全问题,是能解决的;二是眼前迫在眉睫的内容可信、可用和可控的问题,比如大模型会产生幻觉,有时候会突发奇想;三是内容欺诈问题,比如深度伪造,轻则用于诈骗,重则影响一国大选。

张鹏:安全问题永远会贯穿整个技术发展过程。凯文·凯利在《5000天后的世界》一书中提到,科技给人类社会所带来的正向收益和负向收益差别没有那么大,正向收益是51%,负向影响是49%。但正是这2%的差异,累积了人类科技发展史的200多年,造就了现在这样一个科技非常发达的世界。所以,与其去担心AI给人类社会的威胁,不如冷静下来面对问题,讨论如何应对。

技术进步所带来的收益和危害到底哪个更大,这是我们要冷静观察的问题。为了获取某个好处,付出一定代价,大家是会接受的。而且,人类也是在不断进化,人工智能越来越强,人类也并非止步不前。

国内AIGC工具GTM的思考

aigc阅读(57)

为了界定清楚边界,本文只讨论AI应用,不讨论大模型本身,因为大模型作为一种底层能力存在时,不存在GTM的诉求。在AI应用中,不讨论 to B产品的GTM,其一因为很多toB产品中只存在部分AI功能,外部很难确定这部分AI功能是否是对购买作用;其二因为to B产品的销售渠道、定价和转化数据都相对不可见。

我看过一些分析GTM的书,包括一些一线的营销人员,很多都会把GTM的关键点放在某种获客策略上,比方说早期的SAAS通过电邮传播,然后对其中的执行细节做非常细节的讨论。但是在笔者看来,这是一种过于形而下的视角,因为单独讨论获客策略是没有意义的。

这就引出笔者个人总结的AIGC产品完成0-1的三个必要点,这三部分是有强相关度的,脱离了任何一个因素去讨论另外两个都是没有意义的。

一、产品上,AIGC产品是否真正的满足用户需求。

很多人可能觉得这是一句废话,然后忽视它,最终跪在这上面,并且连累了手底下的打工人。

  • 在AIGC产品上,这个问题更加尖锐。为什么?因为AI所满足的需求,之前的解决方案都是人工,换言之,它是一种生产力或者生产关系优化方案。
  • 在AI陪聊之前,APP提供的是人和人聊天的撮合策略,操作者是一个有聊天意愿和技巧的人。
  • 在AI绘图之前,APP提供的是一个图片编辑或者视频编辑能力,操作者是一个有图片绘制能力的人。
  • 在AI写作之前,APP提供的是一些文字编辑和美化能力,操作者是一个有逻辑和写作技巧的人。

注意,以上都是一些传统APP(为了有别于AI工具,姑且叫这个名字)真正的用户需求和需求实现方案。

那么尴尬的地方就来了,无人工介入的AI作品,现在处在一个中间的位置:

有技能的人制作的作品,对应平均分是85分> 技术人员用AI制作的半成品,对应平均分是70分> 小白的作品,对应的平均分是60分

所以很多技术专家就说了,你们再等等吧,等到AGI就好了。技术能力上可能确实如此,但是商业上不成立,总不能把现在所有掌握不了AI核心技术的商业公司,集体打包空投到未来某个时间点吧。

在这种情况下,大路一分为二:

1. 部分看中用户规模,向下兼容做小白用户。试图让效果变成这样

有技能的人制作的作品,对应平均分为85分 >小白用AI做的作品,平均分为65分 >小白原来做的作品,对应平均分为60分

眼尖的读者发现了,不对啊,怎么小白用AI,效果从原来的70分下降到了65分。这就引入了第一个问题:

  1. 小白在对prompt缺乏概念的时候,很容易导致第一次尝试折戟沉沙,进而流失。我在做整个AI工具推广周期内,都有看用户作品的习惯,我发现用户很喜欢在一个营销文案模板下,让AI给写一个短篇悬疑小说,而且很执着的重复输入同一套小说主人公关键词。
  2. 小白对所有(注意是所有)的AI工具都没有高频+刚需。

比如AI问答助手,看着很简单好上手,对不对。但是对于一个普通学生而言,你能想到他在什么情况下,会1个月内每天都打开一个AI问答助手,并且问它至少1个问题吗? 这种情况并不存在,对吧。

但是这种频次,对于传统工具类APP来说非常正常,比如网易云音乐。

事实就是,普通人没有那么多问题要问AI。

2. 部分看中付费转化的创业者,向上兼容做专业用户,试图让效果变成这样:

有技能的人用AI制作的作品,对应平均分为90分> 技术人员用AI制作的半成品,对应平均分是70分> 小白的作品,对应的平均分是60分

效果提升了5分,或者是效率提升导致人力支出减少,提升了5分,是不是看起来很不错?但是实际情况是,因为AI本身的可控性差,做作品像“抽卡”,有技能的人用起来可能未必是“提效”,也有可能是降效。

举个例子,有很多AI绘图工具声称可以做出很哇塞的商品图对不对?

上传一个香水的实拍素材,关键词输入室内、鲜花、光线 bala。跑出来了4张图,但是都有一点问题,比如那个室内光的感觉有点假。设计师需要把那个光抠出来去掉,但又不好抠;再调整关键词做局部优化吧,光是没了,但是连带色彩也变了。

这是因为AI出图、出视频都不是按照所谓人的编辑步骤进行的,拔出萝卜带出泥,有时甚至比传统工具里面使用的工时还要长。所以说很多人认为AI工具就像一个次品率很高的流水线。

看到这里,有人可能觉得我耸人听闻,或者认为我很悲观,好像AI现阶段的局限性把AIGC应用发展的道路给限死了。实际上经过长时间的思考,我得到了部分解法。在此不再枚举案例,如果有后续文章可能会根据产品做详述。

  1. 从长期来看,AI+人工调优的工具一定会把纯AI工具给替代掉。也就是有传统工具经验的业务仍然具备优势。
  2. 需要根据具体场景对大模型进行finetune,比如电商场景、销售对话场景、二次元文本创作场景……如果不做finetune,AI做的东西始终透着一股外行。
  3. AI技术本身不具备商业价值,具有商业价值的是有AI参与的工作流(pipeline)。

接下来,我将论述AIGC产品的营销获客的真正核心问题。

二、获客上,营销卖点是否真正打动了用户。

很多人觉得这不是把上面的话重复了一遍吗?其实不然,在我的观察中,很多营销人员和产品的立项是完全脱节的,只在产品上线后介入,对产品的使用链路不熟悉,所以他们会存在如下几个问题,

  1. 卖点是被产品经理灌输的,而非主动识别的。
  2. 没有参与用户内测,不清楚用户对于产品的期待是什么,所以第一阶段纯纯在碰运气。
  3. 不清楚自己推广的产品可以实现的平均水平如何,一味地过度承诺,结果第一轮口碑翻车。

所以如果对于创业者和推广负责人的建议是,如果你想提高GTM的成功率,

第一是选取有经验的操盘手

第二是核心推广人员一定要在产品立项阶段就介入,并且营造能够发表意见的场域。

再说回营销,打动用户有三个层次(对应的是AIPL模型),第一个层次是用户产生了印象,只是收藏或者赞了。第二个层次是用户立刻下载并使用了这个应用 第三个层次是用户使用后觉得超出预期,愿意在社交媒体上进行传播。

很多人误以为所有的产品都有这个过程,只是留到Loyalty阶层的人或多多少而已,其实不然,大部分的AI应用,根本走不到第三层。

究其原因,就要说到AIGC的营销的核心要点了:

1. 要对AI热点的大趋势有准确的判断。

特别当你的用户触点主要在自媒体上,那就更不能忽略AI趋势带来的用户和转化。比如在23年的3-5月份,很多款AI bot类产品拿到了天量的下载。我负责的一款AI绘画类APP也在5-8月拿到了相当好的收入。预测热度会持续多久也许很难,但尊重趋势肯定是聪明人的选择。

2. 在营销中,要为用户提供一个具体落地的场景,能够帮用户快速做出决策。

比如大家能看到kimi的核心卖点在于它的长文本处理能力,从技术上来看完全没问题;但是具体放在场景中,其实有点很难匹配到一个常见+痛点的场景。所以我们看到的大部分的kimi推广,类似总结学术书籍+提问,总结上市公司年报+提问,其实把场景和人群都圈的偏小了(虽然这是很准确的场景)

3.端好投入产出的天平。

有一些做信息流、SEO出身的增长人员,会把这一步理解为广铺量+算数。这是一种靠天吃饭的做法,也是我坚决排斥的一种做法。我负责的是达人运营和信息流两条线,通常在达人侧跑通的脚本,我才会放到信息流侧。至于实操上我是怎么跑通的,稍微细节了一些,以后可以单开一篇写写我眼中的“跑通”。

三、做到真正意义上的协同

根据我这些年的观察,很多团队和老板都低估了协同的重要性,以为把事情做对就可以了,实际上,如果没有做到真正意义上的协同,连事情都是做不对的。

1. 避免单角色负责制。

比如很多大厂也在鼓吹的产品负责制,技术负责制。实际上,在AIGC产品上的GTM中,产品负责制常常将产品PM封存在一个虚幻的泡泡里。老板负责制更是一种十分令人绝望的东西。

2. 在艰苦的战役中练兵。

每个AIGC产品的0-1阶段往往是最苦的部分,如果超过了预期,各个团队忙着分/抢功劳;如果低于预期,各个团队忙着甩锅和指责。尽管知道这样很错误,但这似乎是人的劣根性。其实我还是很喜欢做0-1 的项目,因为第一,在整个过程中团队得到了锻炼 第二,胜负皆可为师,尽管我只是一个营销角色,我完全知道整个项目成败的原因,进而也能判断很多AIGC产品的未来走向。

结语:关于AIGC产品的GTM,本文更多阐述的是一些认识和推理过程,没有分析太多具体的案例,显得似乎不够细节。其实是因为从本质上来说,分析案例或多或少会有一些因果倒错的问题。同时本文也用了一些绝对化的修辞,如果有偏狭的部分,欢迎大家一起讨论。

收手吧Sam Altman!外面全是GPT-4

aigc阅读(60)

一、满世界都是GPT-4们

GPT-4问世一年后,全世界已经到处都是GPT-4级别的大模型了。

尤其是最近几个月,这些模型以越发密集的频率现身。

最近的一个就在刚刚。在Google Cloud Next 24大会上,Google把今年二月发布的对标GPT-4的Gemini 1.5系列,进一步开放给用户。Google 宣布,在经过两个月的小范围公测后,Gemini 1.5 pro通过API方式已经对180多个国家和地区开放,并且在其对标GPT-4的性能表现之外,此次Gemini 1.5 Pro还增加了强大的音频理解能力,可以根据用户输入的文本提示,理解、总结上传的视频、音频内容——过往你需要把音频等转成文字,而现在这一步可以省去了。

此外Gemini 1.5 pro还增加了系统指令、JSON模式以及函数调用优化等。

在此次Google云的场子上,Gemini 1.5 pro的能力提升还伴随着一系列从芯片到系统的全面解决方案,Google正加紧跟GPT-4抢生意的步伐。

而不只是Google,同一天,Grok 2.0的消息也传出。据报道,马斯克在一次采访中透露,自己的人工智能初创公司xAI正在2万张H100上训练Grok 2.0,并将于5月份推出。而且,他相信新版本不仅比GPT-4更强大,还将超越市面上所有大模型标准。甚至扬言训练Grok 3会用到10万张H100 GPU,到时就算GPT-5也会被秒成渣渣。

这还没完。

似乎是还嫌这世界上的“GPT-4们”不够多,据The Information前一天的消息,Meta也计划于下周推出Llama 3的两个小版本,作为夏天发布最大版本的前奏。

而与大模型相比,小型模型通常更便宜、运行速度更快,对于构建移动设备AI软件很有实用价值。去年7月发布的Llama 2-7b、Llama 2-13b和Llama 2-70b因其免费开源而广受社区欢迎,而今两个小版本Llama 3的消息也将振奋开发者情绪。扎克伯格年初宣布35万张H100即将入荷,正在积极训练Llama 3,看来很快就要兑现。据Meta 称,Llama 3 完全版将是多模态的,可能会超过1400亿个训练参数,并希望它真正成为“开源版GPT-4”。

再加上今年2月对标GPT-4的Mistral Large,推理速度、MMLU等关键性能上媲美GPT-4;上月底“开源新王”Databricks发布的号称比Llama 2、Mistral和Grok 1更强的DBRX;以及更令人印象深刻的Anthropic的Claude 3……

全世界到处都是GPT-4了。

二、GPT-4的瓶颈意味着什么

2022年11月30日,OpenAI 首次发布了由 GPT-3.5 模型驱动的ChatGPT,之后一切都彻底改变。

在ChatGPT首次发布四个月后,2023年3月14日,OpenAI正式推出了GPT-4,后续不断改进,引入多模态能力、增加实时搜索、拉长上下文、重新定义开发者….OpenAI几乎引领了生成式AI所有的技术革新,GPT-4也成为最领先的模型。

所以,如果从OpenAI和ChatGPT的公开发布节奏来算,GPT-3.5的领先只持续了不到6个月,就被GPT-4取代,然而GPT-4作为最强模型却已经持续了一年多。同时,同样水平的模型开始显得“到处都是”。

对于其他行业来说,这已经是个日新月异的疯狂节奏,但拿大模型的进步速度来看,这却给人一种感觉,就是大模型似乎进入了一个瓶颈期。

OpenAI也一定会焦虑,但它拿出的似乎只是更多的GPT-5的传言和一个GPT-4 Turbo的正式版。

在Google 用Gemini 1.5 pro的升级和放量针对OpenAI的同时,OpenAI也做了应对,宣布GPT-4 Turbo不再只是以预览版提供给开发者,而是发布了正式版。它自带读图能力不再需要调用GPT-4V接口,训练数据更新到了2023年底。与GPT-4普通版支持8K上下文相比,它能支持128k上下文。

尽管OpenAI官方对此形容为模型能力“大范围提升”,但外界期待的显然不是这个。

那么这种看起来越来越可能的瓶颈期对行业意味着什么?

对于对AGI快速到来满怀期待的人们来说,这显得很糟糕。但其实对期待生态和商业机会爆发的人们来说,瓶颈可能不是个“坏事”。这意味着底层模型能力和技术路线的颠覆频率变的没那么疯狂,建立在上面的应用和中间层都可以有更高的确定性。

同时,对于那些真正的大客户来说,他们也可以不再“等等看”——当底层能力每几周就突破一次的时候,账期动辄好几个月的产业侧客户们自然会选择持续观望而不是马上拨动预算。而当他们看到技术似乎稳定下来,情况就会变化。

而对于Sam Altman来说,他正在面对又一个全新的局面。

GPT-4作为最强模型的时间越久,就越可能有更多的对手追上来,但追上来的对手似乎又都没有达到像GPT-4对GPT-3.5那样的超越。那么,他过往一段时间领导OpenAI在执行的策略——依靠技术路线的领先来更早的拿到最多的商业化订单和融到更多的钱,然后反哺研发,延续Scaling law,继续保持代际领先的路线,就可能不再成立。

当对手一次次的跟上,用户们一次次的喊着GPT-5就要来了但又一次次没来的时候,OpenAI正变得不再独特,这家公司需要Sam Altman去做的,就越来越像一个科技公司大厂CEO要做的事情,去一个差异化不大的市场里比拼最基本的商业竞争能力——当外面到处都是GPT-4,Sam Altman的那些高调打法,可能就要“收手”了。

终于,又一AI新品“登顶”美国总榜

aigc阅读(62)

2024 年 4 月 1 日,一款名为 Ava 的 AI Dating 产品登上美国免费下载榜总榜 Top1。

最厉害的是 Ava 整个团队不超过 5 个人,甚至是在一周前才开始招聘第一位产品经理、第一位产品设计师。

一、一个人“带出”一款登顶应用

上文截图中,除了大多数人从未听说过的 Ava,余下 7 款产品全都是用户和创业者熟悉的美榜常客。

那么 Ava 是如何做到超越这些热门产品登顶美国下载榜榜首的呢?

分析主要有以下三个原因:

  1. 尽管知名度不高,但 Ava 同样也背靠大树。根据 crunchbase 数据,Ava 累计拿到了包括 OpenAI 和红杉资本等知名投资机构的 580 万美元的种子轮融资。
  2. 与大家都在卷模型、卷工具、卷效率不同,Ava 是一款辅助交友应用,在感兴趣的用户回复打招呼信息前,Ava 会作为僚机与用户进行增进彼此了解的对话。
  3. 最最最重要的是善用节点营销。有细心的读者应该已经发现,我们在文章一开始就将“4 月 1 日”进行了加粗,四月一日即愚人节。

没错,从头到尾都没有 Ava 登顶美榜这回事儿,只不过是 Ava 创始人 Clara Gold 利用“愚人节当天人们不会苛责一些无伤大雅的谎言”的心理做了一次成功的节日营销。

随着年龄的增长,愚人节已经自动淡出了很多人的视野,对于很多人来讲这只是一个需要上班的周一。而实际上要完成这次整活儿,Ava 也并不容易:

首先,为了尽可能能让消息看起来真实,Clara 运用了大量的数据铺垫这次“成功登顶”的不易。

“经过 15 个月的探索与努力,我们登顶了 App Store 总榜,我终于可以自豪地说出,AI 可以改善人们的爱情生活。为了这一目标,我们进行了 603 次用户访谈、对产品进行了 3 次重新设计、在 App Store 上推送了 246 个版本、被 Apple 拒绝了 57 次、修复了 2354 个错误,并吸引了 160 万用户加入该应用程序”。

通过列举详实的数据和创业公司可能会遇到的问题,进一步增加了消息的可信度,吸引注意力,Clara 深谙社媒流量大法。

另外,Clara 特意选择了晚上 8:59 的时间,此时大多数人已经下班所以可能也不会专门再打开榜单查验,另外“成熟的大人们”可能也并未想起今天是“合法”开玩笑的日子。

除了 X 平台,Clara Gold 还把登顶的好消息同步到了 LinkedIn,从结果来看,该条内容获得了超过 30 位投资人和各企业高管的“恭喜”。

这波有趣的愚人节营销,也将 AI Dating 再次带回到公众面前。

二、从 AI 陪聊到 AI 僚机

虽然创始人 Clara 的推文是一个玩笑,但其中包含的三次产品设计改版却是真实发生的。

Ava 并非一开始就定位 AI 僚机。

至少在拿到 OpenAI 种子轮投资的时候,Ava 讲的还是“青少年虚拟朋友”的故事。

第一版 Ava

2023 年 6 月,初代 Ava 上线,产品简单的甚至有些不像 2023 年的社交产品。用户可以创建一个专属 Avatar,并自由为 Avatar 挑选并设定服装。设定成功后,便可以和 Ava 通过文字、语音消息的形式进行互动。

从笔者 2023 年 7 月的实际体验来看,产品的 Avatar 完成度和服装款式都很丑,而且在互动聊天的过程中也并未感觉到其作为数字朋友应有的流畅和真诚,与 ChatGPT 3.5 聊天体验差异不明显。

甚至在与一位虚拟社交创业者交流该产品时,对方曾打趣道“OpenAI 还是钱多”。

于是 Clara Gold 选择在 2023 年 10 月关停了该产品。而第二代 Ava则在关停不久的 11 月正式上线。

改版前后的 Ava 最大的变化是将原来的“人-AI”模式更改为“人-AI-人”,用户不仅仅可以与 Ava 互动,还可以与 AI 算法挑选的潜在合适用户聊天。

第二阶段的 Ava 仍侧重在原来传统的 Dating 模式,用户上传自己的照片并点赞自己喜欢的用户,甚至 Ava 还会根据算法和用户选择的兴趣爱好为其挑选出“当日最佳约会对象”。

这种“照片信息流+AI 互动”的形式一直持续到 2024 年 1 月。2024 年 1 月 28 日开始,Ava 正式进入 3.0 时代,即“即拍视频+上下滑动+AI 僚机”模式。

1)TikTok 式匹配

Ava 在新版本中强调,在该社区用户不需要做完美的、过分优雅的人,因此系统并不允许用户自己上传照片或者视频,用户只能用平台内置的相机,录制一段不加美颜和滤镜的正脸短视频。该视频将作为用户头像以及主页显示资料。

用户可在主页进行上下滑动,用户可以直接点赞自己喜欢的其他用户,不喜欢直接向上滑动即可,Ava 官方将这种互动模式称为 TikTok Style。

其实 Ava 并不是第一个使用 TikTok 经典互动模式的 Dating 类产品,此前曾有 Lolly 和 Snack 两款约会交友类产品都以此为卖点。

相较于直接点击“不喜欢”的残酷,滑走也可以表示拒绝,但似乎更加体面和温和。

2)三轮问答

用户可以直接点击开始与自己感兴趣的用户的 Ava 聊天,通常情况下对话会进行三轮。由 Ava 提出一个选择题开始,当用户回答完成第一个问题后,Ava 才会进行第二个提问。

当用户完成三轮回答,系统将会给出“三个对方偏好和三个讨厌行为”。并且 Ava 会自动退出对话,接下来的互动将由两个人类用户自己进行。

这里特别说一下,Ava 在搜集用户性格特征和资料时非常仔细,鼓励用户选择“社交生活、感情生活、兴趣爱好、严肃话题、个性特征”等多种分类的个性标签,与此同时也会鼓励用户选择自己讨厌或者无法忍受的行为。

Ava 强调,用户标签选择得越详细,Ava 的僚机作用会发挥地更加明显。

从笔者的个人感受来看,Ava 最大的作用在于节省时间、提升效率。在使用 Tinder、Bumble 等 App 时,用户常会遇到虽然匹配很多但会话却很少的情况。

一个是因为其中确实存在充量的机器人,另一个是错过了最佳互动时间,但不管怎么说不能与自己认真挑选的潜在约会对象互动,都是非常浪费时间和感情的行为。

而 Ava 的三个问题则相当于自动屏蔽了机器人和对自己兴趣不大的人,用户只需要和向自己传递出强烈交互情绪的用户对话即可。

简单来说,就是你必须先过了助理一关,才能有机会和总经理谈合作。

礼仪很好,但问题在于 Ava 的模式对用户基数其实有一定要求,在笔者测试的一整天时间里,在笔者感兴趣的 17 名用户中并没有和其中任意一名真人用户成功对话,包括 4 位已经通过了 Ava 筛选的用户。

根据点点数据,过去 3 个月,Ava iOS 端累计下载量不超过 2 万次,哪怕按照 20%的月留存水平计算,笔者能匹配到的活跃真人用户的概率仍然极低。

所以当下 Ava 最重要的任务一定是增长。

与很多基础模型和 Bot 类产品一时难以找到合适的适配场景不同,Ava 的可应用场景非常清晰,而且通过我们对 Dating 赛道的过往观察来看,摆脱“幽灵”是绝大多数用户的诉求,甚至可以说告别无休止的刷卡、与自己匹配的用户产生真实的连接几乎是所有 Dating 用户的需要。

而包括 Ava 在内的 AI 僚机类产品,则是对匹配提效的一次尝试,不过我们似乎暂时还不能得出其是否有效的结论。

自 2022 年年末 ChatGPT 爆发以来,AI 僚机类产品曾层出不穷。

从提供 AI 僚机服务的服务方来说:

有 WooPlus、Grindr 等自发引入僚机服务的 Dating App;有 WingAI、Rizz 等不专注某一平台、但可为用户提供约会指导的僚机服务商;也有用户自发通过 GPTs 等工具创建的 AI Bot;还有将自身约会经验与 AI 相结合的 Dating App 红人提供的僚机服务。

从提供的 AI 僚机服务服务内容来看:

提供包括但不限于 Dating App 个人资料优化、开场白、个人形象指导、话题引导、具体问题互动回答、推进约会进程等涉及提升匹配效率、线上回复率、线下会面率等不同环节的 AI 服务。

可选性很多,但实际被用户熟悉且能真正发挥效用的产品并不多,至少在 AI 流量 Top50产品名单中从未出现 AI 僚机的身影。而这有以下几个原因:

1)用户可以直接使用 GPT 等大模型产品解决绝大多数日常问题,并且不需要额外付费。

在线上互动中,用户其实拥有足够的时间找出某个问题的最优解,而在线下互动时,用户需要但却无法及时使用 AI 僚机。

2)整体来看,在 Dating App 上对话还是一件相对比较隐私的事情,目前的僚机平台大多需要用户截屏对方资料或者互动记录,再给出针对性建议,这对注重隐私的外国用户来讲也是一隐形门槛。

3)AI 僚机的智能度还不足够,在测试过多个僚机产品后,笔者的一大直接感受是,如果不是为了测试产品绝对不会再用第二次,AI 并不能准确捕捉到用户性格和语言特点,因此便无法充分发挥约会助理的作用,既不能提升用户在对方眼中的好感,又不能捕捉到对方的有效信息,因此仍算无用功。

而且更重要的一点是,人与人的交往很多时候重在一个“感觉”,但 AI 僚机目前似乎并未能成功营造出适合恋爱或约会的线上氛围。

当然,我们并不否认现在也有部分 AI 僚机产品通过小规模的用户也获得了不错的盈利,但大多是强制订阅的“一锤子买卖”,并不是持久的生意。

至于随着 AI 的持续发展以及 AI 僚机的针对性训练,能否改变现状,我们也只能持续观察。

最后,还是要说 Ava 这次并不讨人厌的愚人节营销,让我们看到了一种有趣的新式增长,同时也让 AI 创业者们再一次反思,AI+到底在解决什么问题、有没有真正解决问题。