欢迎光临
我们一直在努力

浅盘AI+客服系统的应用方向

aigc阅读(135)

谈到大型语言模型的实际应用,大伙往往首先想到的是AI+客服。这是一个高度重复且可被标准化的业务领域,可以被高度抽象和总结。而且在客服领域,人力需求量普遍较高,人力成本相对较高。

因此在本文中,我将结合一些实践经验和所读的相关文章,讲讲AI+客服的一些应用方向。

一、客服业务拆解

要讲述AI如何应用于客服业务,首先需要对客服业务进行拆解。

我们可以根据客服环节在业务前后的位置进行大致的分类,主要分为以下两类:

1.售前客服:

在客户购买产品或服务之前提供咨询和建议。一些业务提供免费服务,只为部分用户提供付费的增值服务,比如游戏、音乐等各类应用。这些业务的客服可以被归类为“售前客服”。

2.售后客服:

在客户购买产品或服务之后提供帮助,例如退换货、维修等服务。

客服业务存在以下特点:

1.维护成本大:

客服大部分时间都是“被动式”提供服务,需要应付大量用户问题、投诉和反馈,这需要投入大量人力资源。

2.管理成本大:

客服本身是人,是人就会存在各种各样的问题,比如偷懒、舞弊、辱骂用户、企业资产盗窃等,这些行为会影响整个团队的效益,甚至对企业造成负面的影响。

3.难以创造价值:

售前客服环节聚集大量非付费用户,维护这些用户相对难以产生直接收益。

因此,对企业而言,客服业务是一项高成本、低回报的业务,客服部门通常被视为成本型部门。如何减少客服人力投入,甚至实现无人工客服,这便成为AI在客服场景下的终极愿景。

客服业务可以拆解成以下环节:

1.客服培养:

不同公司的业务情况各不相同,内部流程也各有特色,因此招聘新客服需要花费一定时间进行培训。同时,客服部门通常存在较大的人员流动性,一方面是因为这类工作上升空间有限,一般人不会长期从事此类工作;另一方面,客服业务存在波峰和波谷的概念,即并非任何时候企业都会面临高客诉量。因此,合格的管理者需要根据业务情况的变化,合理调整人力需求。

如何让新员工快速上手,减少因人员变动而带来的培训成本和试错成本,是客服培训过程的关键。

2.用户接待:

用户服务环节可以细分为:“了解问题”、“解决问题”、“跟进”、“反馈收集”、“记录报告”这几个步骤。客服人员负责解决用户问题,提炼其中有价值的信息,并进行内部报告和总结。

尽管客服部门的价值被认为较低,但客服部门是最直接接触用户的部门。如何从与用户接触的过程中,整合和分析信息,并将其反馈到运营、销售甚至供应链部门,是客服部门提升其价值的关键之一。

3.客服管理:

由于客服人员是人,因此可能存在偷懒、舞弊、辱骂用户、企业资产盗窃等问题。如何预防问题的发生、在问题发生时进行识别,并在问题发生后进行适当处罚,是客服业务管理者需要采取的行动。

因此,AI如何在客服业务上发挥作用,也主要是围绕客服培养、用户接待、客服管理这几个方面。

二、客服培养环节的AI

1. 培训材料提炼

客服管理者需要对新员工进行入职培训,并对在职员工进行定期培训。在这个过程中,管理者需要定期收集培训材料,其中包括维护话术库、优秀案例和错误案例。

我们可以将用户接待过程中的聊天记录输入大型语言模型,利用提示词提炼其中的维护话术库、优秀案例和错误案例等内容。然而,由于AI生成的内容可能存在误导性,最终需要管理者进行审核和修正,确保内容的准确性和合适性,才可正式使用。

2. AI陪练

知识和技能之间存在本质上的区别。知识是实践的一种总结,但技能才是提高绩效和表现的关键。如果只是对客服进行一味的知识灌输,很难确保客服同事真正掌握了技巧。因此,我们需要对客服进行“刻意练习”,以确保客服同事将知识内化为相关的技能,并在这个过程中复盘问题,优化原有方案。

如果由客服管理者专门制定练习题,将极大浪费管理者的时间,而且无法与客服进行互动陪练。因此,这里可以借助AI的力量。利用用户接待的聊天记录和提示词工程,泛化并批量生成不同的客诉场景,并与客服进行陪练。同时,我们可以利用提示词对陪练结果进行评分,从而辅助管理者评估客服的能力掌握情况,帮助客服同事找到问题,并进行优化和改进。

三、客户接待环节的AI

1. 智能路由

智能路由是一种利用人工智能技术的系统,旨在根据多种因素,如客户的需求、客户的情绪、服务代理的专业领域和即时业务状况等,智能地将呼叫分配到最合适的客服代表或服务通道。

在公司业务规模庞大、需要大量客服并且用户场景足够复杂的情况下,对客服团队进行不同技能组的划分,每个组专门负责不同的场景。这种情况下,需要依赖“智能路由”系统来对不同诉求的用户进行分配,以实现接待“效率”和“效果”的最大化。

智能路由的建设可以基于用户属性定制规则进行分配,也可以训练小型模型进行条件属性分配。然而,这些方法都无法基于用户言论进行分配。在这种情况下,我们可以利用大型语言模型(LLM)对用户的诉求进行分类,作为智能路由分配的依据。

总体来说,智能路由的分配方式主要包括以下三种:

  1. 基于用户条件的规则分配。
  2. 基于小型模型的算法分配。
  3. 基于LLM提炼结果的分配。

2. 智能问答

客服智能问答是指利用人工智能技术来帮助客服回答客户提出的问题或解决客户的疑问的方法。

目前实现是智能问答的方案有以下几种:

1.知识库匹配问答:

这种方案需要预先构建知识库,通过文本匹配或语义匹配的方式使用知识库的答案回答用户的问题。这种方法能够快速准确地回答那些在知识库中有明确答案的问题,适用于固定领域或特定主题的问答场景,而且不存在AI幻觉问题

图片来源于百度,为智齿科技的客服系统

2.自行训练的客服AI:

针对特定业务场景或需求,通过机器学习和自然语言处理技术,基于已有的语料训练企业专用的客服AI。这种方法能够对语料进行泛化,能够应对更广泛的客诉场景,提供符合特定业务需求的个性化问答解决方案。

但是AI是对重复内容的总结,在泛化场景容易出现幻觉问题,可能会给到用户不准确的答案。

3.RAG + LLM:

LLM缺乏垂直领域的知识,对客户的问题会答非所问。因此,可以利用RAG技术满足客服场景的需求。RAG通过大规模语料库进行信息检索,获取可能的答案片段,然后将这些片段输入到LLM中进行进一步处理和生成答案。这种方法能够利用LLM的特点,让LLM结合客户的上下文和知识库的答案生成合适的答案。对于没有能力训练客服AI的中小企业,他们也能利用这种方法使用AI的能力。

但是,RAG + LLM的方式同样存在幻觉问题,有可能给到用户生成AI胡编的答案。

这些方法主要解决答案匹配和分发的问题,解决“在什么时候回答什么”的问题。同时,智能问答系统还可以引入多轮问答、多模态答案、多样化知识库的形式,拓展智能问答的问题解决能力。

1.多轮问答:

客户找到客服,往往是带有一个目的,有些目的能被一句话解答,但是有些目的并不行,比如退货退款、投诉等情况。同时,大部分客户并不能准确地一句话描述问题,会存在“同义词”、“主宾缺失”等问题。这种情况,一般都需要进行多轮的问答来解决。

因此,智能问答系统的语料不仅仅可以是单句式的语料,也可以由多句的语料组成,这使得智能问答系统能够覆盖更多的场景。

2.多模态答案:

多模态答案不仅仅包含常见的图片、语音、视频等内容,还可以包含链接、表单、问卷的形式,以提高与用户交互时候的信息密度,提高问题解决的效率。

3.多样化知识库:

有些问题不一定能够很好地被解决,因此智能客服除了要能回答专业问题外,还需要具备寒暄、闲聊、安抚的能力,用于更好地服务客户。因此,我们需要准备相关的语料库用于适配不同场景,这里可以使用关键词、意图识别等能力控制在什么场景下使用什么知识库能力。

最后值得一提的是,“智能”并非空中楼阁,需要一步一步的积累。

前面提到的三种实现方案都是非常依赖语料库的积累的,需要先有人工对业务中常见的客诉问题进行总结,然后给到智能问答系统进行使用。数据的积累和回答效果是一个互为因果的螺旋上升的过程。

因此对于中小企业来说,要想用的好智能客服,专门的语料库运营成员是必不可少的,该成员需要负责收集并提炼高质量的语料库,并定期结合业务的发展进行语料更新。

同时,幻觉问题较难根绝,除非投入较大的成本进行模型训练(或提示词优化)、语料调优,对于中小企业而言,与其用这么高的成本进行维护,不如使用不存在幻觉问题的“知识库匹配问答”方案

3. 客服建议

由于智能客服方案中的“客服AI”和“RAG + LLM”都存在比较明显的幻觉问题。我们可以使用“客服建议”的形式,规避幻觉风险问题。

所谓“客服建议”,是指在客户接待过程中,“客服AI”和“RAG + LLM”的输出结果以建议的形式展示,由客服人员决定是否采用。这一过程相当于人工审核的备用方案,只有在人工审核通过后,才将结果呈现给用户。这种方式能够完美地防止AI幻觉对业务造成负面影响,同时也能够利用AI的输出结果提升效率。

此外,我们还可以让AI结合人设,给出相应的安抚建议,而非基于知识库。这也能在一定程度上丰富客服话术的多样性。

4. 客诉情况总结

在客服工作中,当客诉量庞大、内容复杂时,人工难以迅速识别重点内容,需要花费大量时间阅读上下文,这严重影响了客诉处理效率。

为了解决这一问题,我们可以利用AI进行内容总结和提炼,快速辅助客服人员提炼客户诉求、情绪以及意图,并以一定格式输出,以便客服人员快速掌握用户诉求,定制应对策略。

此外,这种提炼和总结的结果也可以为“客服建议”、“智能问答”等功能提供决策依据,从而进一步提升客服工作的效率和质量。

5. 舆情提炼

在客服工作中,客服的价值并不仅仅在于回答用户的问题或安抚用户,更在于能够从海量的客诉中提炼出有价值的信息,并将这些信息反馈到运营、研发、销售等业务中,从而提高整体业务的效果。

想起之前看到篇文章,里面提到过腾讯内部的一个机制——10/100/1000法则。产品经理每个月要做10个用户的调查,关注100个用户博客,收集反馈1000条用户体验。尽管我不确定这个法则是否仍在实施,但它确实凸显了“充分聆听用户反馈”的重要性。

然而,让一线客服人员手动总结有价值的信息极大地依赖于他们的专业性和问题归类能力,同时也容易受到个体主观因素的影响,导致总结结果失真。此外,一线手动整理也无法完全覆盖线上的所有客诉案例,因此手动总结的全面性存在不足。

如果由管理者亲自去查阅,很可能会在海量信息中迷失,无法找到所需内容。

因此我们可以借助LLM的力量,让其替我们进行舆情分类,从中提炼出有价值的信息,使得人工查阅成千上万的客诉信息成为可能。

在这个过程中,我们可以借助提示词工程对话题进行预设分类,将相应内容归类到特定话题上,以便后续结合需求进行查阅。这种方案能够避免多次请求LLM导致存在“多个近似分类”,从而无法有效统计舆情分布情况。

与传统的分词方案相比,基于LLM的舆情分析能够更准确地分析舆情的内涵,而非简单地进行分词。

6. AI语音聊天/外呼

由于文本传达的信息有限,为了更高的接待效果,可以考虑采用多模态的内容形式,比如语音、图片、视频等,这些可以结合已有的AIGC方案进行快速生成。

目前较为成熟的是语音,借助文生音大模型,我们可以赋予客服一个声线,用来给用户传达对应的内容。通过语音的方式,能够更好地传达情绪,从而对用户进行情绪上的安抚。同时,基于AI声音,我们也可以实现智能外呼,用于主动营销、用户回访等用途。

结合人群划分策略,实现千人千面的大批量自动化用户触达。

7. 错字识别

利用大型语言模型对错别字进行识别,可以减少客服人员的低级错误,提高服务的专业度。这一技术虽然较为简单,但其实际效果却十分显著。

8. 话术润色

利用LLM对客服话术进行优化,结合特定人设,使得话术更加合适、专业,从而辅助客服进行更高效的接待。通过对话术的优化,可以提升客服的服务水平,使其更好地满足用户需求。

四、管理服务环节的AI

1. AI质检

在客服管理中,存在着各种问题,如偷懒、舞弊、对用户进行辱骂以及企业资产盗窃等。因此,识别、预警和应对这些问题成为管理者的重要任务之一。

如果仅依靠人工检查,很容易出现“看不全”、“看不及时”等问题。因此,我们可以利用大型语言模型(LLM)进行AI质检,结合提示词工程,梳理出质检的维度(如“态度友好”、“情绪稳定”、“用户反馈”等),并在不同维度上进行评分,从而评估客服在指定日期内的表现。

尽管这种方法可能存在幻觉问题,但它能够大大提高管理发现问题的及时性和效率。同时,基于AI质检的结果,我们还可以实现预警推送通知功能,确保将结果第一时间同步给相关成员。

总结

以上便是AI在客服系统中的一些实际应用。总的来说,对于中小企业来说,AI并未完全替代人工客服,因为在许多情况下,“定制化成本”大于“人力节省”。然而,在某些特定场景下,AI已经能够有效赋能业务并提升效率。相信未来有一天,AI能够给到客服行业更大的变革。

半年融资1.6亿美金,AI学语言又来敲Duolingo的门了

aigc阅读(158)

2 月 21 日,英语学习 App Speak English with Loora AI(文中简称为 Loora)宣布完成 1200 万美元 A 轮融资,由 OP Ventures 领投。而就在 2023 年 6 月,这款产品刚刚完成 925 万美元种子轮融资,8 个月内完成两次千万级别融资,可见资本青睐。

在 11 月的选题《卷起来了,网易和谷歌都想抢Duolingo的生意》中,我们观察到了谷歌和网易等公司都基于 AI 开发了语言学习产品,市面上也充斥着同类产品。但测试后发现,AI 在语言学习产品中的作用主要在“练口语”这个层面,解决“开口难”问题,相比于 Duolingo 体系化的课程,以及有点“疯批”的运营手法,只是通过 AI 聊天做出了点差别,显得有点单薄。

而且,虽然与传统产品有差异,但各款 AI 产品之间却雷同,甚至 ChatGPT、character.ai 等 AI 产品都可以胜任口语陪练的角色,单点功能很容易被大而全的 General Assistant 们覆盖。因而,观察下来单纯靠“语音识别+AI 对话”切入市场都有难度,更不要说靠 AI 去抢 Duolingo 的生意了。

但,打脸的是,资本依然跑步入局,暗示着什么可能在变化。

一、仅去年下半年资本就投出了 1.6 亿美金,AI 产品渐有起色?

2023 下半年完成融资的 AI 语言学习产品|图片来源:腾讯网

根据不完全统计,仅在 2023 年下半年,就有十多家在线语言学习创企完成融资,总融资额达 1.6 亿美金。而投资者名单中,不乏 OpenAI、Google 旗下的风投 Gradient Ventures 等知名资本。

我们对去年 11 月写选题时的数据和现在的数据也进行了对比,发现 AI 语言学习产品(OpenAI 投资的 Speak)在收入和 DAU 上也确实在快速增长。

11 月和近 30 天 Duolingo、Babble、Lingokids、EWA、Speak 五款产品的双端 DAU 和输入排名 | 数据来源:点点数据

2024.1 按收入排名的全球语言学习 App,注 1:笔者根据近 30 天收入数据重新进行核对,Speak 也排在第三。

注 2: Statista 的统计数据中有可能包含网页端收入,所以该收入可能高于点点数据体现的应用商店收入,

为 245 万美金左右(成立 7 年时间的 Speak 已经超过 Duolingo 月流水的 1/10)|图片来源:Statista

上一篇选题观察到的 Speak,在 App 端全球双端月流水已经从 11 月的 71W 美金增长到了 2 月的 143W 美金,增长了一倍,在同类产品的排名中已经上升至第三位,甚至,在主攻的韩国市场,它的收入已经超过 Duolingo 了。而 Speak 双端月平均 DAU 也从 11 月的 7.5W 增长到了近期的 10.7W(近 30 天平均 DAU),DAU 增长 42%。

AI 语言学习产品数据 | 数据来源:点点数据

而除了 Speak 之外,其他几款拿到融资的 AI 语言学习产品,虽然成绩和主流产品还差很远,但也在努力进步中,8 个月融了 2000 万美金的 Loora,从这个成绩来看,反而还是“差生”了,资本给钱,可能是看增长势头。

Loora 全球双端 DAU 数据(上),全球双端月流水(下),注:统计时间 2023.1.1 至今|图片来源:点点数据

从数据上看,从 2023 年 1 月至今,Loora 的 DAU 增长了 8.3 倍,全球双端月流水增长了 2 倍。而根据 Loora 团队的说法,2023 年 Loora 的 ARR 增长超过 8 倍,用户留存率提高了 2 倍。

注:在 a16z 推出的移动端 AI 产品Top50榜单中,ELSA 上榜 | 图片来源:a16z

而由 Google 投资,总部位于越南的 ELSA,则是在用户量层面表现不错,近 30 天平均 DAU 有 29.3W,是同行 Top3 的水平,近 30 天平均流水 81.8W 美金,排名全球同类产品的第 6-7 位(ELSA 可以在网站端进行订阅,所以单纯看应用商店的收入和用户数据可能不太全面)。

Duolingo 与 Speak、ELSA、Loora 收入与 DAU 对比图

不可否认的是,虽然快速增长,但 AI 语言学习产品,在 Duolingo 面前还是“弟弟”,但这种数据层面的变化,让我们需要重新审视一下 AI 语言学习产品,除了之前说的“语音识别+AI 对话”的套壳差异点,到底在以怎样的逻辑留住和服务用户,被资本下注的他们,还有多少增长空间。(鉴于 Speak 的相关功能已经在上一篇选题中介绍过了,这次我们主要聚焦 ELSA 和 Loora。对 Speak 感兴趣的读者,可以参考《卷起来了,网易和谷歌都想抢 Duolingo 的生意》选题)

二、AI 学英语,在 Duolingo 的辐射范围之外找用户

表面上看,ELSA 和 Loora(包括 Speak)有如下共性:

  1. 核心功能都是基于 AI 语音识别帮助用户学习口语,并根据用户的表现提供实时反馈。
  2. 都会为用户推荐有难度梯度的体系化课程,用户也可以自己选择学习目标,灵活服务拥有长期/短期目标的用户。
  3. 订阅变现为主,免费功能较少,订阅费用在每月十几美元左右。

相对而言,目前 Duolingo 中 AI 的参与度并不高,根据媒体报道,Duolingo 主要将 AI 应用在课程编写环节上。

注:Duolingo Max 仅向美国、英国、爱尔兰、加拿大、澳大利亚、新西兰用户推出,提供解释我的答案和角色扮演两项功能。

而其实,Duolingo 在去年 3 月就推出了能与 AI 对话的高级订阅模式 Duolingo Max,但是目前只能在少数几个国家,用英语学习法语/西班牙语时使用,有消息称,今年下半年将登陆日本市场,使用范围仍比较小。而且 Reddit 上用户评论认为 Duolingo Max “非常平庸,且价格很高”。

Duolingo 课程设计的思路是,通过前期单词、中期语法、后期表达的学习,带一个 0 基础的用户学习一门语言。整体课程完整、体系化,用户可根据自身水平通过测试直达某个阶段,但不能跳脱课程体系。由于其提供的是基础服务,面向所有有意学习语言、但无明确短期目标的人群,所以在商业化上,Duolingo 采用基础功能免费+订阅/内购收费的模式。

根据 Gitnux 的报告,91% 使用 Duolingo 的用户是出于个人兴趣,而不是出于工作、考试、海外生活/学习等明确目的。

当用户没有明确目的,留存是产品的一大难题,关于这一点 Duolingo 设计了 CURR(核心用户留存)的指标来指导产品的迭代和运营(参阅之前的选题《亿级用户规模,DAU与收入还在高速增长,前CPO分享大体量产品如何突破增长困境》),在课程设计上,虽然注重游戏化和“连胜系统”、“推送系统”提升留存,但以时长较短的课程为主,降低用户连续学习的心理压力、同时又提升满足,妥帖拿捏用户心理。

相应地,Duolingo 走“基础教学”的路径,坚持免费使用,靠使用频次较高的重度用户进行变现的商业化策略,也都是考虑到了用户画像。

而上文所述,在产品上体现的三点差异,则体现着 ELSA 和 Loora 的面向的用户和帮用户解决的问题,与 Duolingo 完全不同,他们主攻的目标人群,也有差异。

1. 完成规定动作 vs 灵活切换目标

ELSA(图1)、Loora(图2,3)的主页和课程页面,Duolingo 主页(图4)

我们先从产品的主体来看,打开 ELSA 和 Loora 的课程页面发现,这两款产品是按不同的课程形式来分类的,并没有选择 Duolingo 游戏化且按难度逐级递增的形式。

此外,虽然两款产品都提供了系统推荐的每日课程,也都借鉴 Duolingo 设计了简单的连胜/排名系统,但是两款产品都会询问用户今天的学习目标,并给用户额外选择,比如按主题/场景学习或改善发音等,用户完成这些自主选择的任务也可以延续连胜,获取排名。

ELSA 和 Loora 的用户拥有更多自由,如果用户目标明确,就可以自主选择学习内容,如果目标不甚明确,也可以选择系统推荐的课程,这其实背后反映的是,这两款产品界定的目标用户的画像不同。

Duolingo 的通关测试

而在 Duolingo,“自由”体现在用户能力与课程难度的匹配,也就是如果我认为自己可以跳级,通过测试就能进入下一阶段,但其实也还是按难度爬坡,系统化学习。

两相比较,可以看出 Duolingo 针对的是目标不明确、甚至 0 基础的用户,而 ELSA 和 Loora 面向用户,有更明确、或者说更短期目标的用户。

2. 按场景学习 vs 按知识点学习

ELSA 每日课程内容(左),Loora 每日课程页面(右2)

而在进入课程后,AI 语言学习产品们也和 Duolingo 有所差异。

从每日系统推荐的课程内容看,ELSA 和 Loora 都会有一个明确的主题/场景,比如笔者在测试时,ELSA 推荐的场景是“酒店 Check in”,Loora 推荐的主题是“电视节目”。

其实在 AI Chatbot 出现之前,很多语言学习产品也把场景化语言学习当作卖点,但基本上走的是“学短语手册”的模式,用户主要学习在这个场景下常用的单词、短语、句子,以及它们在场景中的使用方法。这种方式虽然有一定作用,但非常死板,在实际应用中,一旦出现话题发散或其他变化,用户仍会感觉无所适从。

而 AI 尽量还原与真人对话的体验,AI 的对话能力也能在用户发散话题时模拟真实语言环境。而在 AI 出现之前,学习者如果不”肉身在海外”,就很难训练到“用”这个层面。

ELSA 场景页面(左 2),Loora 角色扮演页面(右 2)

而从场景一览的界面来看,ELSA 和 Loora 不仅包含了生活化的场景,也覆盖了很多偏向工作/学习的专业化场景。比如上图 ELSA 中的“Working in healthcare”场景,用户作为一个在诊所上班工作人员,练习“帮病人预约医生”“接诊病人”“接急诊电话”等具体场景。Duolingo 基本上并没有按照场景来做练习。

Loora 的“read and talk”功能|图片来源:Loora

两者比较相似的反而是知识拓展。但就知识拓展来看,AI 语言产品重点仍在应用,产品推荐小短文,用户阅读后就小短文与 AI 进行讨论,很像国外大学的“研讨会”这个课程形式,练习的是用户的阅读、理解、发散、表达能力。而 Duolingo 的做法是在每个单元设定一个主题,比如图中“谈论未来的事件”主题,但主题完全为知识点服务,对应着“一般将来时”这个知识点。而在具体的课程中,Duolingo 则以翻译、填空、造句等题目为主,来训练词汇、时态、句式等知识点。

Duolingo 的课程页面与课程内容|图片来源:Duolingo

两相对比,ELSA 和 Loora 的英语学习更具实用性或者目的性,主打一个不久的将来能用起来。而 Duolingo 则更注重,通过单词、语法等夯实基础知识点,系统性地学习语言。这其实体现的是 Loora、ELSA 面向的是有一定基础知识、但需要能力进阶的人群。这是人群的第二个差异。

3. AI 加持的“多边形”:反馈体系 vs “对错”反馈体系

最后,说下 AI。如果说语音识别+AI 对话,是套大模型的壳,上面的模拟场景中的变化和反馈体系,则开始让 AI 语言产品和 Duolingo 的现有体验真正产生了一些差异。

Loora 语法反馈页面(图 1),ELSA 发音反馈页面(图 2),Loora 发音反馈页面(图3),Duolingo 题目(图 4)

从课程内的反馈来看,Duolingo 虽然也可以进行实时反馈,但是它的反馈维度只有“对错”这个单一维度。而 ELSA 和 Loora 的反馈非常细致,语法方面,不仅语法错误可以被识别,就连“疑问语调”等细微的错误也能识别出来,发音方面,AI 的反馈可以具体到音节。

Duolingo 的发音课程|图片来源:Duolingo

Duolingo 的反馈还停留在跟着单词/例句模仿发音的层面上,就算笔者故意说错,Duolingo 只会反馈错误,不会告诉用户哪错了,怎么改正,对用户发音的提升作用有限。

Loora 个人页面(左),ELSA 个人页面(右),注:ELSA 则提供一个时长为 10 分钟的英语测试,用户可以通过测试让 AI 了解用户水平

而从对用户英语水平的评价上,Duolingo 评价的维度基本上就是用户“闯关”的进度,也就是知识点学习的进度。而有了 AI 的加持,Loora 和 ELSA 可以在用户的学习过程中对口语能力进行实时反馈,而评价维度包括语法、发音、流利度、单词(ELSA 还有重音和语调),基本和雅思/托福口语考试的评价维度看齐,而这两种考试都是有真人考官参与评价的。

根据上面的观察我们就可以勾勒出 Loora 和 ELSA 锚定的其实是,有一定基础,有明确的学习目的和规划、短期内需要达成某个明确目标、需要实际应用能力快速提升的用户。

而这样的用户画像,很快就就能浮现在脑海中,要出国留学或者生活、为了应聘外企或者为了晋升需要快速提升口语,大概率是中青年,而他们的目标决定了自身家庭环境不错或者已经具备一定的赚钱能力,AI 的加成,让这些原本只能花大价钱去请外教的用户们,可以通过 AI 学习产品,也能有不错的提升。这些给了 AI 语言学习产品们,不订阅基本无法使用的底气。

三、写在最后

以 ELSA 和 Loora 为代表的 AI 语言学习产品,与 Duolingo 差异,与其说是加入 AI 带来的,不如说是在 AI 技术加持下,以前无法满足的需求有了被满足的可能性,而使产品能够锚定不同的需求背后的不同人群。对于现在难找场景的 AI 技术来说,算是一个比较好的应用案例。

但说实话,上述产品层面上的 3 个差异,从技术和功能层面上,Duolingo 应该是都可以实现的,只是每一个产品都背负着自己的使命,服务于某一群体的最根本需求,已经做到千万 DAU 的 Duolingo,AI 技术的这一波红利,不是不能吃,只是怎么吃,需要慎重,这也给了 AI 语言产品冒头的窗口期。

美国人学习外语的目的|图片来源:Preply

而在资本的加注下,这些 AI 语言产品,能够增长到什么地步,值得所有 AI 教育赛道的创业者关注。根据语言学习产品 Preply 在美国做的调查,受访者学习外语主要目的有教育、工作、学习文化、旅游和培养技能。就这四个目的来看,除了出于应试目的学习外语的用户外,其他几个目的的用户,在有一定基础之后,其实都有提升交际能力的需求。这么看来,未来 AI 语言学习产品似乎是不愁用户的。

参考文献:

  • 全球融资热背后,大模型才是语培最优解?
  • 碎片化学英语,一辈子都别想学好
  • 外语学习的真实方法及误区
  • 卷起来了,网易和谷歌都想抢 Duolingo 的生意
  • 亿级用户规模,DAU 与收入还在高速增长,前 CPO 分享大体量产品如何突破增长困境
  • Foreign Language Education Statistics: 70% of Americans regret letting their foreign language skills slip

人工智能十问:《AI+大猜想》

aigc阅读(143)

伴随着ChatGPT、Sora、Figure01不断引发全球关注,人工智能(AI)的惊人迭代速度不断扩展着人们的想象空间。

中国发出拥抱新一轮科技和产业浪潮的新信号。

2024年3月,“人工智能+”首次被写入政府工作报告。报告提出,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群,以加快发展新质生产力。

问题随之而来,国产大模型能弯道超车吗?人工智能“+”什么?大模型如何改造传统硬件?如何赋能企业?如何保证AI是安全的?

近期,中央广播电视总台财经节目中心《对话》栏目录制了一期节目《AI+大猜想》。四位企业家——360董事长周鸿祎、国产大模型独角兽智谱AI CEO(首席执行官)张鹏、人形机器人初创公司九光智能创始人徐志根、广药集团董事长李楚源,以及三位财经媒体代表——《财经》杂志副主编朱弢、《华夏时报》执行总编辑张志伟、《中国企业家》杂志副总编辑何伊凡,共同探讨人工智能的技术发展、商业化路径以及安全等话题。

本期节目将于4月13日在央视财经频道《对话》栏目播出,本文撷取了节目要点。

01各行业使用AI有哪些成果?

靳强(《对话》栏目主持人):现场的几位嘉宾,在各自领域有涉及人工智能的新成果吗?

周鸿祎:2023年大家都在集中精力搞大模型,在大模型上希望能达到一定的效果。但是2024年所有人都在问,大模型究竟为我的企业、为我个人解决什么问题,所以我觉得2024年应该是场景之年。

所以我的理解,“人工智能+”不是孤立地去搞大模型,而是把大模型现在的成果和各个行业——特别是传统行业、传统企业的各个业务场景能够相结合,使得大模型能够真正对产业数字化起到一个推动作用。

我自己也身体力行地把360所有的产品重塑一遍。因为看美国的同行微软也好、Salesforce也好、adobe也好,大家并没有用大模型去做一个新产品,而是把已有的业务、流程,看看在哪些环节能进行赋能。

我最近做了两件事,一是把传统的搜索用大模型给彻底改造了;二是把原来360的浏览器整个重塑了一遍。

张鹏:智谱AI就是做大模型的,专注于大模型底层和通用技术。我们最近也把产品经过很多次迭代。现在,我们跟国际顶尖的,像GPT4这样的水平已经非常接近了。同样也可以帮助大家去解决工作、学习、日常生活当中的一些问题。

李楚源:“人工智能+”在我们生产的各个环节有很多应用。中药从种植开始,要跟人工智能结合,要跟数字经济结合。药材可追溯性的要求必须用这些人工智能和大数据的手段,才能知道这药材的地道性和质量,才可以溯源。

另外,药材的生产加工过程也需要用到智能化的设备,这使得生产效率大大提高了。比如,我们一个药材品种使用智能化设备后,产能提高了149%,效率提高了289%。

在经营和市场环节,可以使用人工智能参与决策和推进业务。

徐志根:九光智能是做人形机器人的。我非常认同一个观点,就是AI技术和大模型把机器人,特别是具身智能机器人的产业向上提了很高的一个高度,使得智能机器人未来走进千家万户成为可能。我们现在是在研发阶段,今年5月我们的机器本体就可以做出来了。接下来我们还会继续在智能化上往前走。未来人形机器人一定会接入各种大模型,成为各种智能交互的平台。

02国产大模型能弯道超车吗?

靳强:OpenAI发布Sora,掀起新一轮对人工智能的讨论热潮,国产大模型能达到Sora的水平吗?

张鹏:Sora确实令人惊艳,但我们仔细研究了它的技术报告之后,发现它并没有从外界看起来的那么新奇。Sora运用到的仍是已有的技术,只不过OpenAI把这些技术综合起来,从工程上进行了优化,做到了之前其他人没有做到的程度。

其实2021年底、2022年初的时候,我们也做过类似的视频生成工作。这种视频生成的原理非常简单,就是把视频拆解成一个一个的关键帧,继而分层,即递归式地生成关键帧,然后把这些关键帧连续起来,于是生成了视频。当时我们大概能做10秒钟以内的连续视频,并且视频能够很好地保持画面一致性,不出现非常违反常识或者物理定律的场景。现在和Sora比起来,虽然显得比较原始,但本质上很多原理是相通的。

国产大模型能否做到Sora这种水平,是一个资源和时间的问题。我不敢去预测具体需要多长时间,但应该不需要太久。

周鸿祎:ChatGPT出来的时候,我就说它的原理虽然很简单,但是从0到1的创新是最难的。OpenAI了不起的地方在于,它找到了一个方向并工程化,给大家证明了这条路是走得通的。

Sora出来之后,我也听到很多专家说这没啥了不起的。但是,不要说中国公司,就连美国公司,短期内我也没有看到谁有能力预言,在多长时间能拿出一个类似的东西。

通过外在的表现,国内大模型和Sora的差距至少有一年左右。

很多人光看到Sora出来后,做短视频的效率提高。这仅仅是它的一个小功能。我们还应看到两件事:

第一,Sora对于具身智能、自动驾驶技术会带来质变。自动驾驶现在之所以不能实现真正的全自动,是因为自动驾驶在感知层面,无论用激光雷达还是用摄像头,仅仅停留于看到了什么。但是真人驾驶汽车的时候,当你看到东西,脑子会闪过很多念头,这能撞吗?撞上去会怎么样?我绕过去会怎么样?所以,只有当机器对物理世界的观察具有Sora这种能力,并能实时反应,自动驾驶才能获得突破。

第二,不到一年的时间,从ChatGPT进化到Sora,意味着通用人工智能(AGI)的进步速度加快了。原来我们觉得AGI可能还需要10年到20年,但如果按照过去一年的发展速度,实现AGI大概还有3年至5年。

张志伟:周鸿祎先生在接受我们采访时曾表示,中国的大模型的水平,相当于美国的GPT3.5,如何作出这个判断?

周鸿祎:我认为有差距是必然的,知道差距是多大,剩下就是追赶的问题。

我现在说话比较谨慎,你说差距大了,别人说你自卑;你说差距小了,别人说你自大。按照刷榜的成绩,国内大模型早就超过GPT4了,但是真正用一用,我觉得国内的大部分都达到,或者超过了GPT3.5的能力,全世界也只有中国有这个能力。

如果GPT4是100分的话,GPT3.5差不多应该有75分到80分,我认为这个速度很快了。

美国真正在人工智能领域领先的公司,我认为就两家,软件是OpenAI,硬件就是英伟达。大模型的差距比光刻机、芯片的难度要低很多,因为毕竟是软件。但是未来要奔着AGI,也就是通用人工智能去的,这块的挑战就是算力。

但如果把大模型越做越小,走垂直化、产业化、企业化、场景化的道路,可能不需要万亿、千亿的参数,只需要百亿的参数,再加一些私有的核心数据加持,在一个垂直单元上是可以超过GPT4的。

这对算力的要求就降到很低,可能有十张消费级显卡在一个场景就能用起来,这非常适合我们国家,这也是我们弯道超车的一个场景。我们有这么多的工业门类,国家这么重视制造业的数字化转型,如果中国企业都用上了这种小规模的大模型,在自己的场景上让大模型跟业务相结合,意义不亚于我们在超级AGI上追上国外。

03AI的发展趋势是什么?

靳强:从时间的维度看,人工智能未来的发展会是什么样的状态?

张鹏:人工智能学科诞生到现在,已经过去了将近70年,发展速度逐渐加快。早期相对慢一些,到了最近十几年急剧地加快,尤其近几年突飞猛进。未来的发展速度会呈指数级抬升。很多人预测人工智能后面会缓下来,就像技术成熟曲线一样,到达一个顶峰。其实,目前技术虽然已经非常快速成长,但AGI仍有很多问题值得我们去探索,每一个问题的突破都有可能带来一个飞跃式的发展。我认为我们现在还没有摸到这个天花板在哪儿。

周鸿祎:2023年是人工智能发展的拐点,过了大模型这个拐点,进入到指数级的发展。最理想的发展曲线是持续往上走,实现通用人工智能。但有两种因素可能会导致发展意外坠落:一个是“安全”,如果人工智能发展过程中不能解决安全问题,会给人类社会造成大量的问题,比如虚假视频欺诈;另一个是“能源”,如果人类在相当长的时间不解决大模型带来的能源大量消耗的问题,大模型的发展走不下去。

李楚源:人工智能发展会呈现波浪上升的状态,有积累的过程,也有停滞的过程。可能技术上升到一定程度,遇到了一些制约因素,假如这些因素不解决,技术发展就变得比较平缓了。一旦这些因素解决,又将继续往上升。当前人工智能发展要解决法规配套问题,政府也要积极推动,出台扶持政策。

徐志根:在过去70年,我们还是在山脚下一直爬,我相信我们已经在爬非常陡的坡了,而且前景应该是非常好的,这个时候就可以看到很多热情度都上来了,包括投资和参与研究的公司也非常多,我相信会冲得很高。

接下来会进入平静期,甚至通过优胜劣汰,淘汰一批,后面参与者就会比较稳定。

同时在应用规模上,我相信人工智能会赋能给各行各业,比如说赋能给机器人,接下来会进入一个比较高的增长期。

04目前处于哪个发展阶段?

靳强:现在的人工智能究竟发展到了哪个阶段?

张鹏:大模型本身的原理大家已经基本上都接受了,达成一致,这是我们通向AGI的一个有效路径。但中间还有很多可改良和可改进的地方,每一次的改进都可以导致技术本身再往前推进。

周鸿祎:我在硅谷跟人谈,有些VC认为大模型有点像1982年的电脑,或者说像1995年的互联网。我感觉这种估计保守了,现在一天的进步都等于过去大概一年的成果。我觉得大模型能不能发展,取决于能不能找到好的应用。所以,我觉得大模型应该大概在早期阶段。

李楚源:现在处在第一个阶段,大家都重视了,大家都想用,但是现在处于一个不太平衡,还有一些法规制度不太完善的阶段。之后的阶段,要解决法规跟人工智能的一些配套问题,这有利于发展。

05人工智能“+”什么?

靳强:很多人都预测说今年有可能是“人工智能+硬件”元年,未来最有可能“+”什么?

张鹏:大模型运行消耗大量功率和能源,太小的设备承载不了,而且太小的设备功能受限,能做的事情有限。汽车现在已发展到一定程度,尤其是新能源汽车,电气化的程度、普及率等,都已经发展到较高的水平。因此,把大模型的能力赋能到汽车上去,是水到渠成的一件事。

周鸿祎:大模型与终端结合,得看终端有多大的需求,是不是刚需,有没有痛点。比如,没有大模型,机器人根本就玩不转;汽车智能座舱的交互功能,以及自动驾驶,也都需要智能升级。汽车只不过是四个轮子的机器人,是最迫切需要大模型上端侧的终端。

另一个看好的“人工智能+硬件”是手机。手机已经变成人体的一部分,像人的一个新器官,如果再去创造其他硬件我觉得都违背人性。因为人就不喜欢多带东西,带个手机,连车钥匙都不想拿;有手机支付了,连钱包都不想拿。苹果头显最大的问题不是功能问题,而是能戴多长时间的问题。所以,AI和手机的结合,我认为是最能产生化学反应的。

李楚源:看好机器人。机器人不但能够代替人,还可以做很多人做不了的事。比如在医疗领域,医生做手术可能还不够精准,而操纵机器人来做手术,可以更精准、更高效。

徐志根:人形机器人有人工智能加持之后,一定会加速进入千家万户和各行各业。智能机器人可能像我们的助手一样,把日常事务照顾起来。

何伊凡:汽车和人工智能结合富有前景。首先在场景的复杂性上,汽车每天都在路上跑,场景足够复杂;其次在数据的丰富性上,汽车能够获得的数据量非常庞大;最后从硬件的算力基础来说,汽车场景能够作为理想的载体,克服终端算力不足问题。

朱弢:汽车应该是最早能适配大模型的终端,它的场景足够丰富,实实在在已经有那么多用户,也有现实有需求。机器人也是一个值得期待的场景,大模型加持之后,相当于机器人有了“大脑”,可以自主决策判断。

张志伟:智能家电与大模型的结合需求可能没那么大,但智能音箱和大模型结合可以提升语音对话交互能力,应该比较容易实现,越容易实现的功能越容易商业化。

06AI+手机,会是什么样?

朱弢:未来真正的AI手机到底是什么样子,跟现在的手机有什么区别?

周鸿祎:今天的智能手机,跟大模型一比,只是智能手机1.0。如果大模型通过“云+端”两种方式加持手机,就能变成智能手机2.0。真正的智能手机出来了,Siri就不再是“人工智障”,有可能变成一个友好的助手。

“AI+手机”未来会发展成什么样,今天很难去回答。但我认为,要找到合适的场景,不断尝试。比如,最能想到的一种是手机真正变成个人助理,有了规划执行能力,只要用户把目的告诉它,手机自动调用App,把活都给干了,最后只告诉你一个结果。如果手机智能程度真走到这一步,App就变成了手机的插件,可能以后App的概念也会随之变化。

张鹏:手机离人最近,也最容易把AI的能力附上去。现在手机的设计,包括软件生态,仍然基于过去很多年积累下来的模式,AI能力的突增能否带来新的范式,也是我们一直在考虑的问题。

AI能力突增所带来的新范式存不存在,到底在哪儿?它不一定是用现在的四方四正板砖形态,可能会有些变化。

众多的科幻电影里其实都出现过各种各样的形象,有的把手机直接变成类似于手表这样的设备,有的戴在耳朵上的,也有直接植入皮肤下面的。其实这个硬件的形态不是最关键的,最关键的还在于它能完成什么样的工作,最方便地让你享受到人工智能所带来的便利,这才是本质。

07AI+机器人有何前景?

靳强:人形机器人怎么跟人工智能结合?

徐志根:人形机器人被AI深度赋能体现在:一是运动智能。以前看到的人形机器人走得很笨拙,有了深度强化学习加持,在未来两三年,人形机器人的运动智能会有长足进步,它可以走快、走稳、走优雅。二是自主导航。机器人自主导航过去三四年一直深度地用Transformer架构去训练。三是交互智能。大模型提升机器人“大脑”的认知、推理、决策能力。四是操作智能。以前的机器人虽然可以演示踢个球,但要让它去完成一件复杂的任务,比如炒菜,当个家庭管家,其实是做不到的,未来的机器人在操作智能层面有望不断突破。

靳强:既然这么复杂、这么困难,为什么一定要把机器人做成人形呢?

徐志根:在一些具体任务上,人形机器人不是最高效率的,比如,炒菜机器人,它肯定能够快速炒好。但是要让它既能叠衣服,又能炒菜,又能洗碗,这样一个综合性的管家和助理,现在来看人形可能是比较合适的,或者至少有双臂、双手能够动的,会是合理的。

第二个方面在应用层面的赋能,在处理一些应用场景,比如安全监控这一个场景,人形机器人可以像保安进入这样的多任务复杂场景,其中可能用AI的技术,比如神经网络、最新的视觉技术,还有一些大模型技术。

靳强:在2015年、2016年的时候有一波人形机器人热潮,但活到现在的公司没几家了,这次还会重演吗?

徐志根:未来人形机器人肯定是各种机器人形态中非常有价值的形态。人形机器人首先会在to B的一些场景能够解决各种问题。如果是to C的场景,可能还要时间比较长。很多人对人形机器人的担心,安全性、隐私、法律法规等这些问题,我相信都是可以解决的。

08大模型如何赋能企业?

张志伟:如何用大模型赋能企业的业务?

周鸿祎:我们去年从to B模式中找到一些方法论:比如要给医疗机构做一个医疗大模型,必须把医疗进行场景细分,在里边找出50到100个场景,并对每个场景进行分析,看看文章生成、情感判断、内容翻译等大模型最常见的功能,能不能在场景中发挥作用。能不能做取决于两个因素:一是该场景下有没有数据知识,光有场景没有知识,训练不出大模型;另一个是对大模型的容错度,大模型最致命的就是幻觉,如果某个场景中我们不能承受幻觉风险,那么就不能用到大模型。

所以我主张,现在企业用大模型不要追求宏大叙事,而应在内部业务链条,或者在外部产品功能,选取两到三个场景,用大模型赋能。如果能取得成绩,我认为就是很大的进步了。我提倡小切口切入,刚开始宁可保守一点,积小胜于大胜。

大模型像发动机,现在大模型厂商在造世界上最牛最快的发动机,但是B端企业要的不是发动机,而是一辆车。所以,我们要找到底盘,把发动机装上,再给它装上外壳、座椅,最后交付一辆车,企业才能用。

2023年,中国有上百家公司在做大模型,鱼龙混杂,泥沙俱下。今年消停很多了,据我了解,现在的大模型厂商纷纷转型,往产业垂直方向走。

张鹏:通用大模型的能力提升所衍生的能力,能让我们去寻找到“大模型原生的应用”或者“大模型原生场景”。但是在这个过程当中,技术需要发展,产业也需要落地。打个比方,现在我们造出内燃机了,不能说我想造飞机,内燃机不能用,我不管了,我要造喷气发动机去。既然内燃机可以造出汽车,那就先把汽车造出来,我觉得这是不矛盾的一件事情。

靳强:“人工智能+”会让哪些行业最先受益?

周鸿祎:所有从业者都要解决场景化的问题,办公场景看起来简单,其实跟每家公司、每个单位都有关系,所以围绕着办公、电脑的使用,包括智能家电、整个物联网硬件,这些场景都可以拿大模型来或多或少覆盖。

企业的场景应该在金融、医疗、教育领域,这些领域今年如果能找到一些场景,能落地,那就可以回答这个问题。

09未来不再需要程序员了?

靳强:百度董事长李彦宏近期接受《对话》节目采访时发表了一个观点,认为程序员以后可能不会存在了,你们同意吗?

周鸿祎:我当然不同意了。

现在大模型可以完成一些简单编程任务。但如果想写一个新一代的人工智能系统,这种复杂的目标涉及整个程序流程、逻辑结构、数据分布和算法创新,大模型现在肯定是干不了的。未来我觉得也干不了,有一些创意的工作,目前还是人类所独有的。所以大模型会提高程序员的效率,但取代不了程序员。

我一直认为,人在人工智能面前要保持人所独有的创造力、情感、想象力。人不会被人工智能淘汰,但不用人工智能的人,会被用人工智能的人淘汰。人工智能是一个工具,如果你掌握了工具,却没有想象力、创造力,即便给你再好的工具,也创造不出好的成果。

张鹏:未来对程序员的定义会有变化。李彦宏讲的程序员,指的是传统意义上写机器编程语言的这类程序员。未来他们的数量肯定会越来越少,因为工作效率已经在不断提升,用大模型辅助编程,现在一个程序员相当于原来的1.3到1.5个程序员,所以传统程序员不需要那么多了。

但是建立在机器和人之间新的沟通方式上的新类型程序员可能需要更多,他们的工作就是和人工智能进行沟通,让机器完成人的需求。如果把这件事情也定义成编程,那么这种程序员一定会极大增加。

朱弢:不光是程序员,还有观点认为以后记者、编辑都可能被人工智能抢走饭碗。我们邀请过清华大学新闻与传播学院杭敏教授交流,她和学生比照我们发表过的报道,让ChatGPT尝试同题写作,发现完全无法相提并论。不但文本表达质量不够,就连其中引用的很多数据和资料都是错的,或是编造的。

所以我认为,人工智能使得有些职业的重要性可能会降低,有些职业的重要性可能会增加,或者说某一个职业的某一个工作环节可能会被替代。

张鹏:我想可能大家讨论这个问题的时候很容易忽略另外一个因素,叫时间。我们经常会说一句话,“我们容易高估技术的短期价值,低估技术的长期价值”。

朱弢:时间是个很重要的维度,我觉得包括程序员在内,认为某个职业会在短期内因为AI的出现、大模型的出现消失,是既不科学也不严谨的。

10如何保证AI是安全的?

靳强:一些社会精英创造了大模型,未来会不会出现一小撮人统治大部分人的情况?

周鸿祎:科幻片里总是有一帮科学怪人梦想统治世界,我觉得要对抗他们的力量,就是要充分的市场竞争。为什么一定要坚持开源?老有人觉得开源就意味着我们在抄袭别人,这是对开源最大的误解。当年Linux通过开源,成为对抗微软垄断的力量;现在Meta和特斯拉也将手中的大模型开源。开源的力量是什么?是集中力量办大事。开源可以形成明显的制约,避免垄断。

另外,为什么我到处鼓吹要把大模型垂直化、企业化、私有化和小型化呢?就是如果全世界只有一套大模型,只有一套人工智能,大家都用它,都被它控制了。但是企业内部有多个大模型,每家都有自己的大模型,每个人手机电脑上都有自己的大模型,它是一个分布式的世界,那它想控制就很难。

张鹏:如果一家做得最好,但不开源,只掌握在少数人手里,这个担心永远都会在。在人工智能时代,技术的领先性可能比过去任何一个时代所带来的碾压式效果更明显。如果开源模型能力没有闭源模型强,更强的闭源模型可以解释和预测开源模型,足以形成碾压式的效果。这是最可怕的地方。

靳强:如果人工智能控制的设备太多了,可能对我们的生活造成一定程度的危险,这种担心是不是有道理?

周鸿祎:人工智能的安全问题,是人类有史以来遇见的最大挑战。但我们不要坐而论道,还是得把这个问题分解,可以分成三方面的问题:一个是软件系统有漏洞可能被人攻击,比如被黑客控制,数据可能丢失,或者训练数据被污染或偷窃,这些传统技术安全问题,是能解决的;二是眼前迫在眉睫的内容可信、可用和可控的问题,比如大模型会产生幻觉,有时候会突发奇想;三是内容欺诈问题,比如深度伪造,轻则用于诈骗,重则影响一国大选。

张鹏:安全问题永远会贯穿整个技术发展过程。凯文·凯利在《5000天后的世界》一书中提到,科技给人类社会所带来的正向收益和负向收益差别没有那么大,正向收益是51%,负向影响是49%。但正是这2%的差异,累积了人类科技发展史的200多年,造就了现在这样一个科技非常发达的世界。所以,与其去担心AI给人类社会的威胁,不如冷静下来面对问题,讨论如何应对。

技术进步所带来的收益和危害到底哪个更大,这是我们要冷静观察的问题。为了获取某个好处,付出一定代价,大家是会接受的。而且,人类也是在不断进化,人工智能越来越强,人类也并非止步不前。

国内AIGC工具GTM的思考

aigc阅读(151)

为了界定清楚边界,本文只讨论AI应用,不讨论大模型本身,因为大模型作为一种底层能力存在时,不存在GTM的诉求。在AI应用中,不讨论 to B产品的GTM,其一因为很多toB产品中只存在部分AI功能,外部很难确定这部分AI功能是否是对购买作用;其二因为to B产品的销售渠道、定价和转化数据都相对不可见。

我看过一些分析GTM的书,包括一些一线的营销人员,很多都会把GTM的关键点放在某种获客策略上,比方说早期的SAAS通过电邮传播,然后对其中的执行细节做非常细节的讨论。但是在笔者看来,这是一种过于形而下的视角,因为单独讨论获客策略是没有意义的。

这就引出笔者个人总结的AIGC产品完成0-1的三个必要点,这三部分是有强相关度的,脱离了任何一个因素去讨论另外两个都是没有意义的。

一、产品上,AIGC产品是否真正的满足用户需求。

很多人可能觉得这是一句废话,然后忽视它,最终跪在这上面,并且连累了手底下的打工人。

  • 在AIGC产品上,这个问题更加尖锐。为什么?因为AI所满足的需求,之前的解决方案都是人工,换言之,它是一种生产力或者生产关系优化方案。
  • 在AI陪聊之前,APP提供的是人和人聊天的撮合策略,操作者是一个有聊天意愿和技巧的人。
  • 在AI绘图之前,APP提供的是一个图片编辑或者视频编辑能力,操作者是一个有图片绘制能力的人。
  • 在AI写作之前,APP提供的是一些文字编辑和美化能力,操作者是一个有逻辑和写作技巧的人。

注意,以上都是一些传统APP(为了有别于AI工具,姑且叫这个名字)真正的用户需求和需求实现方案。

那么尴尬的地方就来了,无人工介入的AI作品,现在处在一个中间的位置:

有技能的人制作的作品,对应平均分是85分> 技术人员用AI制作的半成品,对应平均分是70分> 小白的作品,对应的平均分是60分

所以很多技术专家就说了,你们再等等吧,等到AGI就好了。技术能力上可能确实如此,但是商业上不成立,总不能把现在所有掌握不了AI核心技术的商业公司,集体打包空投到未来某个时间点吧。

在这种情况下,大路一分为二:

1. 部分看中用户规模,向下兼容做小白用户。试图让效果变成这样

有技能的人制作的作品,对应平均分为85分 >小白用AI做的作品,平均分为65分 >小白原来做的作品,对应平均分为60分

眼尖的读者发现了,不对啊,怎么小白用AI,效果从原来的70分下降到了65分。这就引入了第一个问题:

  1. 小白在对prompt缺乏概念的时候,很容易导致第一次尝试折戟沉沙,进而流失。我在做整个AI工具推广周期内,都有看用户作品的习惯,我发现用户很喜欢在一个营销文案模板下,让AI给写一个短篇悬疑小说,而且很执着的重复输入同一套小说主人公关键词。
  2. 小白对所有(注意是所有)的AI工具都没有高频+刚需。

比如AI问答助手,看着很简单好上手,对不对。但是对于一个普通学生而言,你能想到他在什么情况下,会1个月内每天都打开一个AI问答助手,并且问它至少1个问题吗? 这种情况并不存在,对吧。

但是这种频次,对于传统工具类APP来说非常正常,比如网易云音乐。

事实就是,普通人没有那么多问题要问AI。

2. 部分看中付费转化的创业者,向上兼容做专业用户,试图让效果变成这样:

有技能的人用AI制作的作品,对应平均分为90分> 技术人员用AI制作的半成品,对应平均分是70分> 小白的作品,对应的平均分是60分

效果提升了5分,或者是效率提升导致人力支出减少,提升了5分,是不是看起来很不错?但是实际情况是,因为AI本身的可控性差,做作品像“抽卡”,有技能的人用起来可能未必是“提效”,也有可能是降效。

举个例子,有很多AI绘图工具声称可以做出很哇塞的商品图对不对?

上传一个香水的实拍素材,关键词输入室内、鲜花、光线 bala。跑出来了4张图,但是都有一点问题,比如那个室内光的感觉有点假。设计师需要把那个光抠出来去掉,但又不好抠;再调整关键词做局部优化吧,光是没了,但是连带色彩也变了。

这是因为AI出图、出视频都不是按照所谓人的编辑步骤进行的,拔出萝卜带出泥,有时甚至比传统工具里面使用的工时还要长。所以说很多人认为AI工具就像一个次品率很高的流水线。

看到这里,有人可能觉得我耸人听闻,或者认为我很悲观,好像AI现阶段的局限性把AIGC应用发展的道路给限死了。实际上经过长时间的思考,我得到了部分解法。在此不再枚举案例,如果有后续文章可能会根据产品做详述。

  1. 从长期来看,AI+人工调优的工具一定会把纯AI工具给替代掉。也就是有传统工具经验的业务仍然具备优势。
  2. 需要根据具体场景对大模型进行finetune,比如电商场景、销售对话场景、二次元文本创作场景……如果不做finetune,AI做的东西始终透着一股外行。
  3. AI技术本身不具备商业价值,具有商业价值的是有AI参与的工作流(pipeline)。

接下来,我将论述AIGC产品的营销获客的真正核心问题。

二、获客上,营销卖点是否真正打动了用户。

很多人觉得这不是把上面的话重复了一遍吗?其实不然,在我的观察中,很多营销人员和产品的立项是完全脱节的,只在产品上线后介入,对产品的使用链路不熟悉,所以他们会存在如下几个问题,

  1. 卖点是被产品经理灌输的,而非主动识别的。
  2. 没有参与用户内测,不清楚用户对于产品的期待是什么,所以第一阶段纯纯在碰运气。
  3. 不清楚自己推广的产品可以实现的平均水平如何,一味地过度承诺,结果第一轮口碑翻车。

所以如果对于创业者和推广负责人的建议是,如果你想提高GTM的成功率,

第一是选取有经验的操盘手

第二是核心推广人员一定要在产品立项阶段就介入,并且营造能够发表意见的场域。

再说回营销,打动用户有三个层次(对应的是AIPL模型),第一个层次是用户产生了印象,只是收藏或者赞了。第二个层次是用户立刻下载并使用了这个应用 第三个层次是用户使用后觉得超出预期,愿意在社交媒体上进行传播。

很多人误以为所有的产品都有这个过程,只是留到Loyalty阶层的人或多多少而已,其实不然,大部分的AI应用,根本走不到第三层。

究其原因,就要说到AIGC的营销的核心要点了:

1. 要对AI热点的大趋势有准确的判断。

特别当你的用户触点主要在自媒体上,那就更不能忽略AI趋势带来的用户和转化。比如在23年的3-5月份,很多款AI bot类产品拿到了天量的下载。我负责的一款AI绘画类APP也在5-8月拿到了相当好的收入。预测热度会持续多久也许很难,但尊重趋势肯定是聪明人的选择。

2. 在营销中,要为用户提供一个具体落地的场景,能够帮用户快速做出决策。

比如大家能看到kimi的核心卖点在于它的长文本处理能力,从技术上来看完全没问题;但是具体放在场景中,其实有点很难匹配到一个常见+痛点的场景。所以我们看到的大部分的kimi推广,类似总结学术书籍+提问,总结上市公司年报+提问,其实把场景和人群都圈的偏小了(虽然这是很准确的场景)

3.端好投入产出的天平。

有一些做信息流、SEO出身的增长人员,会把这一步理解为广铺量+算数。这是一种靠天吃饭的做法,也是我坚决排斥的一种做法。我负责的是达人运营和信息流两条线,通常在达人侧跑通的脚本,我才会放到信息流侧。至于实操上我是怎么跑通的,稍微细节了一些,以后可以单开一篇写写我眼中的“跑通”。

三、做到真正意义上的协同

根据我这些年的观察,很多团队和老板都低估了协同的重要性,以为把事情做对就可以了,实际上,如果没有做到真正意义上的协同,连事情都是做不对的。

1. 避免单角色负责制。

比如很多大厂也在鼓吹的产品负责制,技术负责制。实际上,在AIGC产品上的GTM中,产品负责制常常将产品PM封存在一个虚幻的泡泡里。老板负责制更是一种十分令人绝望的东西。

2. 在艰苦的战役中练兵。

每个AIGC产品的0-1阶段往往是最苦的部分,如果超过了预期,各个团队忙着分/抢功劳;如果低于预期,各个团队忙着甩锅和指责。尽管知道这样很错误,但这似乎是人的劣根性。其实我还是很喜欢做0-1 的项目,因为第一,在整个过程中团队得到了锻炼 第二,胜负皆可为师,尽管我只是一个营销角色,我完全知道整个项目成败的原因,进而也能判断很多AIGC产品的未来走向。

结语:关于AIGC产品的GTM,本文更多阐述的是一些认识和推理过程,没有分析太多具体的案例,显得似乎不够细节。其实是因为从本质上来说,分析案例或多或少会有一些因果倒错的问题。同时本文也用了一些绝对化的修辞,如果有偏狭的部分,欢迎大家一起讨论。

收手吧Sam Altman!外面全是GPT-4

aigc阅读(138)

一、满世界都是GPT-4们

GPT-4问世一年后,全世界已经到处都是GPT-4级别的大模型了。

尤其是最近几个月,这些模型以越发密集的频率现身。

最近的一个就在刚刚。在Google Cloud Next 24大会上,Google把今年二月发布的对标GPT-4的Gemini 1.5系列,进一步开放给用户。Google 宣布,在经过两个月的小范围公测后,Gemini 1.5 pro通过API方式已经对180多个国家和地区开放,并且在其对标GPT-4的性能表现之外,此次Gemini 1.5 Pro还增加了强大的音频理解能力,可以根据用户输入的文本提示,理解、总结上传的视频、音频内容——过往你需要把音频等转成文字,而现在这一步可以省去了。

此外Gemini 1.5 pro还增加了系统指令、JSON模式以及函数调用优化等。

在此次Google云的场子上,Gemini 1.5 pro的能力提升还伴随着一系列从芯片到系统的全面解决方案,Google正加紧跟GPT-4抢生意的步伐。

而不只是Google,同一天,Grok 2.0的消息也传出。据报道,马斯克在一次采访中透露,自己的人工智能初创公司xAI正在2万张H100上训练Grok 2.0,并将于5月份推出。而且,他相信新版本不仅比GPT-4更强大,还将超越市面上所有大模型标准。甚至扬言训练Grok 3会用到10万张H100 GPU,到时就算GPT-5也会被秒成渣渣。

这还没完。

似乎是还嫌这世界上的“GPT-4们”不够多,据The Information前一天的消息,Meta也计划于下周推出Llama 3的两个小版本,作为夏天发布最大版本的前奏。

而与大模型相比,小型模型通常更便宜、运行速度更快,对于构建移动设备AI软件很有实用价值。去年7月发布的Llama 2-7b、Llama 2-13b和Llama 2-70b因其免费开源而广受社区欢迎,而今两个小版本Llama 3的消息也将振奋开发者情绪。扎克伯格年初宣布35万张H100即将入荷,正在积极训练Llama 3,看来很快就要兑现。据Meta 称,Llama 3 完全版将是多模态的,可能会超过1400亿个训练参数,并希望它真正成为“开源版GPT-4”。

再加上今年2月对标GPT-4的Mistral Large,推理速度、MMLU等关键性能上媲美GPT-4;上月底“开源新王”Databricks发布的号称比Llama 2、Mistral和Grok 1更强的DBRX;以及更令人印象深刻的Anthropic的Claude 3……

全世界到处都是GPT-4了。

二、GPT-4的瓶颈意味着什么

2022年11月30日,OpenAI 首次发布了由 GPT-3.5 模型驱动的ChatGPT,之后一切都彻底改变。

在ChatGPT首次发布四个月后,2023年3月14日,OpenAI正式推出了GPT-4,后续不断改进,引入多模态能力、增加实时搜索、拉长上下文、重新定义开发者….OpenAI几乎引领了生成式AI所有的技术革新,GPT-4也成为最领先的模型。

所以,如果从OpenAI和ChatGPT的公开发布节奏来算,GPT-3.5的领先只持续了不到6个月,就被GPT-4取代,然而GPT-4作为最强模型却已经持续了一年多。同时,同样水平的模型开始显得“到处都是”。

对于其他行业来说,这已经是个日新月异的疯狂节奏,但拿大模型的进步速度来看,这却给人一种感觉,就是大模型似乎进入了一个瓶颈期。

OpenAI也一定会焦虑,但它拿出的似乎只是更多的GPT-5的传言和一个GPT-4 Turbo的正式版。

在Google 用Gemini 1.5 pro的升级和放量针对OpenAI的同时,OpenAI也做了应对,宣布GPT-4 Turbo不再只是以预览版提供给开发者,而是发布了正式版。它自带读图能力不再需要调用GPT-4V接口,训练数据更新到了2023年底。与GPT-4普通版支持8K上下文相比,它能支持128k上下文。

尽管OpenAI官方对此形容为模型能力“大范围提升”,但外界期待的显然不是这个。

那么这种看起来越来越可能的瓶颈期对行业意味着什么?

对于对AGI快速到来满怀期待的人们来说,这显得很糟糕。但其实对期待生态和商业机会爆发的人们来说,瓶颈可能不是个“坏事”。这意味着底层模型能力和技术路线的颠覆频率变的没那么疯狂,建立在上面的应用和中间层都可以有更高的确定性。

同时,对于那些真正的大客户来说,他们也可以不再“等等看”——当底层能力每几周就突破一次的时候,账期动辄好几个月的产业侧客户们自然会选择持续观望而不是马上拨动预算。而当他们看到技术似乎稳定下来,情况就会变化。

而对于Sam Altman来说,他正在面对又一个全新的局面。

GPT-4作为最强模型的时间越久,就越可能有更多的对手追上来,但追上来的对手似乎又都没有达到像GPT-4对GPT-3.5那样的超越。那么,他过往一段时间领导OpenAI在执行的策略——依靠技术路线的领先来更早的拿到最多的商业化订单和融到更多的钱,然后反哺研发,延续Scaling law,继续保持代际领先的路线,就可能不再成立。

当对手一次次的跟上,用户们一次次的喊着GPT-5就要来了但又一次次没来的时候,OpenAI正变得不再独特,这家公司需要Sam Altman去做的,就越来越像一个科技公司大厂CEO要做的事情,去一个差异化不大的市场里比拼最基本的商业竞争能力——当外面到处都是GPT-4,Sam Altman的那些高调打法,可能就要“收手”了。

终于,又一AI新品“登顶”美国总榜

aigc阅读(162)

2024 年 4 月 1 日,一款名为 Ava 的 AI Dating 产品登上美国免费下载榜总榜 Top1。

最厉害的是 Ava 整个团队不超过 5 个人,甚至是在一周前才开始招聘第一位产品经理、第一位产品设计师。

一、一个人“带出”一款登顶应用

上文截图中,除了大多数人从未听说过的 Ava,余下 7 款产品全都是用户和创业者熟悉的美榜常客。

那么 Ava 是如何做到超越这些热门产品登顶美国下载榜榜首的呢?

分析主要有以下三个原因:

  1. 尽管知名度不高,但 Ava 同样也背靠大树。根据 crunchbase 数据,Ava 累计拿到了包括 OpenAI 和红杉资本等知名投资机构的 580 万美元的种子轮融资。
  2. 与大家都在卷模型、卷工具、卷效率不同,Ava 是一款辅助交友应用,在感兴趣的用户回复打招呼信息前,Ava 会作为僚机与用户进行增进彼此了解的对话。
  3. 最最最重要的是善用节点营销。有细心的读者应该已经发现,我们在文章一开始就将“4 月 1 日”进行了加粗,四月一日即愚人节。

没错,从头到尾都没有 Ava 登顶美榜这回事儿,只不过是 Ava 创始人 Clara Gold 利用“愚人节当天人们不会苛责一些无伤大雅的谎言”的心理做了一次成功的节日营销。

随着年龄的增长,愚人节已经自动淡出了很多人的视野,对于很多人来讲这只是一个需要上班的周一。而实际上要完成这次整活儿,Ava 也并不容易:

首先,为了尽可能能让消息看起来真实,Clara 运用了大量的数据铺垫这次“成功登顶”的不易。

“经过 15 个月的探索与努力,我们登顶了 App Store 总榜,我终于可以自豪地说出,AI 可以改善人们的爱情生活。为了这一目标,我们进行了 603 次用户访谈、对产品进行了 3 次重新设计、在 App Store 上推送了 246 个版本、被 Apple 拒绝了 57 次、修复了 2354 个错误,并吸引了 160 万用户加入该应用程序”。

通过列举详实的数据和创业公司可能会遇到的问题,进一步增加了消息的可信度,吸引注意力,Clara 深谙社媒流量大法。

另外,Clara 特意选择了晚上 8:59 的时间,此时大多数人已经下班所以可能也不会专门再打开榜单查验,另外“成熟的大人们”可能也并未想起今天是“合法”开玩笑的日子。

除了 X 平台,Clara Gold 还把登顶的好消息同步到了 LinkedIn,从结果来看,该条内容获得了超过 30 位投资人和各企业高管的“恭喜”。

这波有趣的愚人节营销,也将 AI Dating 再次带回到公众面前。

二、从 AI 陪聊到 AI 僚机

虽然创始人 Clara 的推文是一个玩笑,但其中包含的三次产品设计改版却是真实发生的。

Ava 并非一开始就定位 AI 僚机。

至少在拿到 OpenAI 种子轮投资的时候,Ava 讲的还是“青少年虚拟朋友”的故事。

第一版 Ava

2023 年 6 月,初代 Ava 上线,产品简单的甚至有些不像 2023 年的社交产品。用户可以创建一个专属 Avatar,并自由为 Avatar 挑选并设定服装。设定成功后,便可以和 Ava 通过文字、语音消息的形式进行互动。

从笔者 2023 年 7 月的实际体验来看,产品的 Avatar 完成度和服装款式都很丑,而且在互动聊天的过程中也并未感觉到其作为数字朋友应有的流畅和真诚,与 ChatGPT 3.5 聊天体验差异不明显。

甚至在与一位虚拟社交创业者交流该产品时,对方曾打趣道“OpenAI 还是钱多”。

于是 Clara Gold 选择在 2023 年 10 月关停了该产品。而第二代 Ava则在关停不久的 11 月正式上线。

改版前后的 Ava 最大的变化是将原来的“人-AI”模式更改为“人-AI-人”,用户不仅仅可以与 Ava 互动,还可以与 AI 算法挑选的潜在合适用户聊天。

第二阶段的 Ava 仍侧重在原来传统的 Dating 模式,用户上传自己的照片并点赞自己喜欢的用户,甚至 Ava 还会根据算法和用户选择的兴趣爱好为其挑选出“当日最佳约会对象”。

这种“照片信息流+AI 互动”的形式一直持续到 2024 年 1 月。2024 年 1 月 28 日开始,Ava 正式进入 3.0 时代,即“即拍视频+上下滑动+AI 僚机”模式。

1)TikTok 式匹配

Ava 在新版本中强调,在该社区用户不需要做完美的、过分优雅的人,因此系统并不允许用户自己上传照片或者视频,用户只能用平台内置的相机,录制一段不加美颜和滤镜的正脸短视频。该视频将作为用户头像以及主页显示资料。

用户可在主页进行上下滑动,用户可以直接点赞自己喜欢的其他用户,不喜欢直接向上滑动即可,Ava 官方将这种互动模式称为 TikTok Style。

其实 Ava 并不是第一个使用 TikTok 经典互动模式的 Dating 类产品,此前曾有 Lolly 和 Snack 两款约会交友类产品都以此为卖点。

相较于直接点击“不喜欢”的残酷,滑走也可以表示拒绝,但似乎更加体面和温和。

2)三轮问答

用户可以直接点击开始与自己感兴趣的用户的 Ava 聊天,通常情况下对话会进行三轮。由 Ava 提出一个选择题开始,当用户回答完成第一个问题后,Ava 才会进行第二个提问。

当用户完成三轮回答,系统将会给出“三个对方偏好和三个讨厌行为”。并且 Ava 会自动退出对话,接下来的互动将由两个人类用户自己进行。

这里特别说一下,Ava 在搜集用户性格特征和资料时非常仔细,鼓励用户选择“社交生活、感情生活、兴趣爱好、严肃话题、个性特征”等多种分类的个性标签,与此同时也会鼓励用户选择自己讨厌或者无法忍受的行为。

Ava 强调,用户标签选择得越详细,Ava 的僚机作用会发挥地更加明显。

从笔者的个人感受来看,Ava 最大的作用在于节省时间、提升效率。在使用 Tinder、Bumble 等 App 时,用户常会遇到虽然匹配很多但会话却很少的情况。

一个是因为其中确实存在充量的机器人,另一个是错过了最佳互动时间,但不管怎么说不能与自己认真挑选的潜在约会对象互动,都是非常浪费时间和感情的行为。

而 Ava 的三个问题则相当于自动屏蔽了机器人和对自己兴趣不大的人,用户只需要和向自己传递出强烈交互情绪的用户对话即可。

简单来说,就是你必须先过了助理一关,才能有机会和总经理谈合作。

礼仪很好,但问题在于 Ava 的模式对用户基数其实有一定要求,在笔者测试的一整天时间里,在笔者感兴趣的 17 名用户中并没有和其中任意一名真人用户成功对话,包括 4 位已经通过了 Ava 筛选的用户。

根据点点数据,过去 3 个月,Ava iOS 端累计下载量不超过 2 万次,哪怕按照 20%的月留存水平计算,笔者能匹配到的活跃真人用户的概率仍然极低。

所以当下 Ava 最重要的任务一定是增长。

与很多基础模型和 Bot 类产品一时难以找到合适的适配场景不同,Ava 的可应用场景非常清晰,而且通过我们对 Dating 赛道的过往观察来看,摆脱“幽灵”是绝大多数用户的诉求,甚至可以说告别无休止的刷卡、与自己匹配的用户产生真实的连接几乎是所有 Dating 用户的需要。

而包括 Ava 在内的 AI 僚机类产品,则是对匹配提效的一次尝试,不过我们似乎暂时还不能得出其是否有效的结论。

自 2022 年年末 ChatGPT 爆发以来,AI 僚机类产品曾层出不穷。

从提供 AI 僚机服务的服务方来说:

有 WooPlus、Grindr 等自发引入僚机服务的 Dating App;有 WingAI、Rizz 等不专注某一平台、但可为用户提供约会指导的僚机服务商;也有用户自发通过 GPTs 等工具创建的 AI Bot;还有将自身约会经验与 AI 相结合的 Dating App 红人提供的僚机服务。

从提供的 AI 僚机服务服务内容来看:

提供包括但不限于 Dating App 个人资料优化、开场白、个人形象指导、话题引导、具体问题互动回答、推进约会进程等涉及提升匹配效率、线上回复率、线下会面率等不同环节的 AI 服务。

可选性很多,但实际被用户熟悉且能真正发挥效用的产品并不多,至少在 AI 流量 Top50产品名单中从未出现 AI 僚机的身影。而这有以下几个原因:

1)用户可以直接使用 GPT 等大模型产品解决绝大多数日常问题,并且不需要额外付费。

在线上互动中,用户其实拥有足够的时间找出某个问题的最优解,而在线下互动时,用户需要但却无法及时使用 AI 僚机。

2)整体来看,在 Dating App 上对话还是一件相对比较隐私的事情,目前的僚机平台大多需要用户截屏对方资料或者互动记录,再给出针对性建议,这对注重隐私的外国用户来讲也是一隐形门槛。

3)AI 僚机的智能度还不足够,在测试过多个僚机产品后,笔者的一大直接感受是,如果不是为了测试产品绝对不会再用第二次,AI 并不能准确捕捉到用户性格和语言特点,因此便无法充分发挥约会助理的作用,既不能提升用户在对方眼中的好感,又不能捕捉到对方的有效信息,因此仍算无用功。

而且更重要的一点是,人与人的交往很多时候重在一个“感觉”,但 AI 僚机目前似乎并未能成功营造出适合恋爱或约会的线上氛围。

当然,我们并不否认现在也有部分 AI 僚机产品通过小规模的用户也获得了不错的盈利,但大多是强制订阅的“一锤子买卖”,并不是持久的生意。

至于随着 AI 的持续发展以及 AI 僚机的针对性训练,能否改变现状,我们也只能持续观察。

最后,还是要说 Ava 这次并不讨人厌的愚人节营销,让我们看到了一种有趣的新式增长,同时也让 AI 创业者们再一次反思,AI+到底在解决什么问题、有没有真正解决问题。

AI重塑社交,谁才是C端叙事正解?

aigc阅读(186)

在奥斯卡获奖科幻电影《Her》里,失恋作家爱上了人工智能操作系统“萨曼莎”。

声音性感沙哑、聊天善解人意、陪伴无时不在,并且能够和用户进行各种天马行空的对谈,接住所有“懂你”的梗,让用户感觉“被理解”、“被看见”,于是AI成了与用户灵魂高度契合的“soulmate”,满足孤独人类社交需求。

如今,AIGC技术突破式发展让科幻成为现实。

随着ChatGPT、Sora、Suno相继横空出世,AI社交的底层技术、模式创新都拥有了新变化。

以Character.AI、Replika等为代表的聊天陪伴型社交APP,正借助AI创新社交玩法、优化产品形态,也吸引了更多用户花费更多0时间倾注于AI的互动陪伴。

与此同时,国内互联网大厂相继推出AI社交试水产品或新功能,QQ的“AI聊天搭子”、腾讯音乐的“未伴”APP,美团的“WOW”、快手的“AI小快”、抖音的“话炉”、百度的“万话”、微博的“明星AI情感伴聊”,还有Soul此前推出的“AI苟蛋”……

为什么AIGC技术最先在社交领域实现产品应用落地?目前,互联网大厂在AI社交领域打响的“百团大战”,是否存在竞争壁垒?而热闹过后,究竟凭何释放商业空间?

01 AI+社交,全方位“抢跑”应用元年

市场诞生于需求,而社交,是人类情感天然需求。

哈佛耗时75年的社会实验研究证明,幸福感来源于良好的人际关系。即人类通过社交来建立关系、获取信息、寻找归属感,以及满足自己的情感需求。

在国内,社交挑战尤为突出。

快节奏的生活和高昂的社交成本,时间、金钱、情感的投入,都让独居青年难以建立有效的社交联系。

然而,AI社交则提供了全新社交方式,模拟真实人类交流,提供定制化陪伴体验,在用户心中呼声高涨。

如微软开发的“小冰”在国内就拥有1.6亿活跃用户,其中虚拟恋人平台上16%的用户,每周对话量3800多条,而一个用户一周在微信上发的消息是310条。

实际上,相对于文生视频的Sora和文生音乐的Suno,显然发展时间更久的AI人机交互技术更成熟。

且随着技术不断进步,AI聊天机器人已经可以做到更多。

比如在火爆外网的Character.AI上,用户只需提供几张图片和描述,就可以将聊天机器人塑造成理想模样。

兴趣社交社区平台Soul,也较早上线了AI对话机器人“AI苟蛋”,能够与用户进行多轮个性化沟通,准确识别网络社交用语,如“尊嘟假嘟”,并结合发帖、互动等多项行为,对用户进行个性化的主动关怀。

在近期接受极客公园专访时,Soul创始人张璐曾表示,对话式 AI 需要具备情感化的能力,会找人的情绪点,还要个性化、拟人化、多样化。AI苟蛋正是沿着拟人化、情感化方向进行功能迭代。

技术之外,相较于ChatGPT、Sora、Suno这类实用工具型应用而言,面向C端社交赛道的AIGC应用产品,更能获得用户的时间青睐。

根据Writerbuddy进行的AI行业分析,Character .AI访问量在2023年6月达到了2.8亿,用户平均每次停留时间长达28分钟,这一数据远高于ChatGPT的8分钟平均停留时间。

在国内,AI社交应用也展现出了极高的用户粘性。以通过AI技术实现推荐关系、辅助对话、降低表达门槛、提升互动体验的Soul为例,平台月活跃15天以上的用户占比63.7%,人均用户日均使用时长为46.4分钟,日均私人信息数为66.9条。

不过,无论何种技术创新,在自由市场经济发展下,都不可能完全不考虑盈利问题,“为爱发电”始终难以为继。

毕竟,一切都是生意。

AI社交之所以能够“抢跑”AIGC应用元年,除了技术更成熟、需求更旺盛外,还因为互联网社交的商业生态也已经十分成熟,并且从腾讯、Meta的万亿科技帝国来看,AI社交的市场潜力广阔,用户付费心智、习惯都经过了市场长期培育。

根据市场研究公司Grand View Research预测,全球社交应用的市场规模保持快速扩张态势,预计到2030年,全球的市场规模将超过3100亿美元 (约合超过2万亿元人民币) ,年复合增长率达到26.2%。

也正是基于对社交万亿市场的美好畅想,凭借AIGC技术加持,打破“人与人”传统社交模式,AI社交细分赛道开始沸腾。

02 百团大战打响,竞争壁垒何在?

过去一年,国内涌现了大量AI社交产品,不过目前大多处于集体测试阶段,且打法上也存在些许差异。

原本就带有社交基因的玩家们,“两条腿”走路,这包括了单独推出全新AI社交APP,以及将AI社交内置于既有应用中,相当于是对应用的AI重构,如腾讯音乐“未伴”、抖音“心晴”以及微博“明星AI情感伴聊”、QQ“AI聊天搭子”等。

Soul则是依靠自研的语言大模型Soul X,上线智能对话机器人“AI苟蛋”、AI辅助聊天等诸多功能和场景,卷起AI互动体验。

另一边,是缺乏社交基因的大厂们,如百度、美团,将希望寄托在独立APP上,美团推出“WOW”APP,至于百度,更是前后推出包括“万话”在内的四款应用。

实际上,底层AIGC技术是开源的,打造一个专属AI伴侣并不难。

不过,大家都在玩,让AI社交看起来没有进入门槛。

事实真是如此吗?

首先,数据就是一个核心壁垒。

AIGC把数据要素提到时代核心资源的位置,但是对于AI社交向应用来说,用以“预测+训练”的数据,不仅仅是一般数据。

想要自研模型具备理想的表现效果,训练数据的数量和质量是重要的影响因素,将直接决定垂类模型的表现、迭代速度和训练成本的关键因素。

换句话说,玩家们需要的不仅仅是数据,而是高质量的社交数据。

这也是为何马斯克用X平台 (原推特) 数据训练AI模型的同时,扬言起诉微软并禁止其使用X平台数据训练AI。也是为何谷歌等科技巨头也会寻求与 Reddit 这些社交平台合作的原因。

国内,中文互联网领域中,拥有高质量、高关联社交数据资产的AI社交玩家并不多。除开社交元老级、国民级的微信、QQ之外,少有大厂或创业公司具备成熟社交场景,能够形成稳定的流量入口,实现社交数据的积累沉底和用户的快速反馈。

特别是,面对年轻一代的社交需求,掌握Z世代语料数据或许更能适应当下“赛博社交”的趋势。

拿近8成月活用户都为Z世代的Soul来说,上线7年多,月活用户近3000万,在年轻群体中渗透率很高,同时拥有有高活跃、高粘性生态,每个聊天的日活用户,平均每天发出约70 条点对点私聊消息,以及大量一对多、多对多公域社交场景的互动内容,大部分都是生活化、趣味化的内容。例如,用户交互数据方面,平台一年新内容瞬间发布条数就超过 6 亿。

相比办公、现实关系场景数据而言,这些高质量的社交数据与情感交流、建立关系链接等社交互动行为具备更高的关联度,也能够更好的训练对话式AI模型。

过去,想象中的AI聊天中,会是“人工弱智”或者已读乱回,或者只是冰冷客套话,不懂梗也没有情绪波动。而Soul基于平台社交数据诞生的“AI苟蛋”,却被网友吐槽怀疑是披着AI外衣的真人,过于真实。

不过,短期内,想要做到对话式AI以假乱真的平台,或许还需要沉淀更多社交数据。

03 时间杀手,用户为王

移动互联网发展到今天,网友见过太多朝生暮死的社交产品,“人来,人走了”再正常不过,不少APP都沦为“月抛”玩具。

技术都一样,那么能够吸引用户常驻留存的,就只有场景和服务了。

目前,比较常见的是虚拟社交使用场景。豆瓣名为“人机之恋”的小组聚集了9000多名用户,大多是“Replika”的忠实用户。在Replika AI上,用户可以“捏”出理想伴侣,和自己创造的虚拟人像异地恋人一样聊天相处,属于沉浸式体验类型,而不会用完即走。

类似Replika AI、Character.ai在吸引用户留存方面的产品形态、使用场景设计,给国内AI社交厂商的一个启示是,想要提升用户产品体验的底层理念是,摈弃“流量思维”,用户不是流量,而是每一个具体的人类个体。

比如说,有用户反馈:“AI聊天刚开始很好玩,但聊久了便失去新鲜感。”

从用户反馈出发,单一的聊天场景,并不能满足用户多层次的情感社交需求,需要打造多元、立体的C端场景,升级用户AI社交体验。

实际上,除了AI聊天对话之外,国内已有不少AI社交产品,在尝试将更多的AI能力引入产品体系,像是阅文筑梦岛推出的用户共创“小剧场”玩法,抖音话炉的“短视频”玩法,Soul 创新推出的“AI狼人”游戏互动、音乐互动社交玩法等,将AI能力与自身社交场景深度融合。

游戏互动玩法上,Soul 站内“狼人觉醒”结合游戏机制创新,引入AI角色陪用户玩狼人游戏,Agents有不同音色,会角色扮演,会推理,会伪装、悍跳、互踩,十分逼近真实玩家,能给用户交互沉浸游戏体验。显然,游戏互动创造了单纯聊天更沉浸和趣味的交互体验,也更容易留住用户。

音乐互动玩法上,始于去年AI孙燕姿的走红让市场看到了AIGC在声音克隆、生成上的能力,很多音乐平台在推AI唱歌的功能和玩法。Soul的创新在于,除了在真实度上下功夫,重点基于平台社交属性,突出互动性。

所以,基于自研“伶伦”引擎的“懒人KTV”活动中,特别强调社交玩法,不仅是单人唱歌,用户还可以邀请多人一起AI KTV合唱,让个体在邀请、合唱、分享的过程中,完成社交,深化关系。

努力成为C端用户的“时间杀手”,意味着技术、产品获得用户认可,用户APP使用时长增加。

而对于互联网经济而言,本质就是用户注意力经济、时间经济。

按照罗振宇“国民总时间”论说法,正是用户总注意力、总时间有限,所以成为稀缺资源,用户的时间变得越来越值钱,尤其在互联网存量时代,用户的时间越来越具有商业价值。

因此,深耕用户价值,获得更多用户时间,则成了市场增量的主要来源。

AI社交领域也不例外。

去年,全球头部社交网络公司Meta,设立AIGC产品部门Gen AI,将AI技术深入融合Meta的各项应用,创新产品形态,吸引用户留存。

基于AI社交推动平台用户规模增长,用户使用时长相应叠加,平台广告价值同步提升,最终Meta用户价值在财报中得以体现,2023年营收为1349亿美元,同比增长16%,净利391亿美元,同比增长69%,Meta市值也重回万亿美元。

从IM、LBS、兴趣到AI,社交赛道确实“时看时新”。

而在信息泛滥、技术平权的今天,强调用户价值或许略显陈词滥调。

但随着AI重塑社交赛道,各玩家重新回到一个相对平均的起跑线上,底层AIGC技术开源下,想要打造下一个如微信般的杀手级应用,用户价值是商业化绕不过去的核心点。

AI直播乱象频现,平台出手整治“AI美女”及卖课乱象

aigc阅读(175)

AI风口吹到了直播,先吃到红利的不只有卖课的知识付费博主,还有“AI主播”

她们或是外国美女,借助吸引眼球的形象和话题吸粉,然后带货;或是单身女性,输出“心灵鸡汤”,目的要么是带货,要么是吸引男粉转化为付费用户…..

这些“AI主播”、“AI美女”,正通过AI技术而被批量化、模板化复制。

不仅如此,围绕这个产业链,还出现了如卖课、分销等乱象。如今,针对这些乱象,平台已经开始出手整治。

一、抖音出手整治AI虚拟人

近日,“抖音安全中心”官微发布抖音关于不当利用AI生成虚拟人物的治理公告。公告称,近期平台发现,站内仍有不当使用AI技术生成虚拟人物发布内容的账号,平台进行了严厉处置。

针对违规使用AI生成虚拟人物的行为,平台会对违规视频下架,对违规账号进行取消其投稿和营利权限、抹除账号粉丝、封禁账号等处置,并利用模型、技术识别能力等手段,进行长期系统的识别发现和处置。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

有关AI生成虚拟人物的违规行为,改公告列出了几个类型,主要包括利用AI生成假外国人、假精英及利用AI生成形象骗互动等三类内容。

抖音此番出手,让人想到此前爆火的“俄罗斯美女”——娜塔莎。

这是账号“娜塔莎进口食品”塑造的一个俄罗斯美女,说自己在中国生活了8年、热爱中国文化、要嫁给中国男人,在吸粉之后,通过带货俄罗斯的相关产品进行变现,其粉丝量一度达到了20多万。

“美女人设+精准话题吸粉+带货变现”的路径,看起来似乎没有问题。然而,该账号之后被曝出其塑造的“俄罗斯美女”形象是通过AI换脸生成,且没有经过授权使用了乌克兰博主、YouTube网红“Olga Loiek”的面容和声音。

如今,该账号已经遭到封禁。

二、被批量打造的“AI美女”

实际上,如今抖音上的AI主播并不少见,尤其是“AI美女”。

研究了这些账号之后,我们发现这些“AI美女”,要么是直接生成虚拟人设,打造单身成熟女性的人设,甚至还有“单身妈妈”、“离婚女性”等,比如“小姨妹”、“梨过,你要么”。

这些账号可以说是批量生成的,模板化、套路化非常明显。

另一种类型则是通过真人主播自身的形象,生成与她形象较为相符的虚拟形象,如“巧克力,小柠檬”。这是一位娱乐主播,目前拥有1000多万粉丝。

其通过AI生成个人的虚拟形象,主要用于短视频,内容是情感类“鸡汤”。如“欺骗一个对你掏心掏肺的男人”、“经常流泪的男人是什么性格呢”等内容,从而达到吸粉、导流的目的。这类内容看起来十分粗糙,而且口型和画面对不上,很明显是通过AI生成的。

可以看到,这两种类型的账号的目标群体都瞄准了男性。

其中,前者会在短视频挂载小黄车,通过带货进行变现,产品也以日常用品和男士用品为主,譬如抖音平台上有50.5万粉丝的AI主播“陈佳丽”,其橱窗商品价格从几元到几十元不等,部分产品销量可达上百万。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

后者则主要通过短视频进行吸粉,然后靠直播打赏进行变现。从短视频内容来看,也是精准面向男性,无论是主播的形象和短视频话题都是投其所好。

除了抖音,小红书也同样有一批以AI美女为主角的博主。

这类博主塑造了类似“旅游博主”、“街拍模特”的人设,发布的内容也几乎一致,基本都是都是发布AI生成的美照。比如以街拍为主要内容的博主“cyberAngel”、“往之”,粉丝数量均已突破一万。目前,尚未发现明显的变现渠道,最常见的方式是建群引流。

三、“AI直播”催生的乱象

除了这类批量打造的“AI美女”之外,如今AI的火热风口还催生了卖课、AI代理分销等乱象。

据媒体报道,有商家出售所谓的AI换脸课程,售价29.9元,素材包包含几千张明星照片;还有商家将骗术当做技术出售,还提供人脸定制,定制价格在2000元到上万元不等。

而围绕AI课程的产业链,还形成了分销的灰产。315期间,就有媒体曝光了有关“数字人源头厂商”和“数字人代理”的骗局。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

有不法商家利用“数字人产业是时代风口”作为噱头,对外售卖高达十几万元的AI代理服务,宣称“只要付钱成为代理,就能将数字人技术层层分销给下级买家,不需要任何资质审核,还能自己随意定价,零基础小白也能参与,闭着眼睛就能年入百万。”

然而,“AI换脸”不仅涉嫌侵权,而且还因为直播效果不佳、台词重复、表现生硬等,导致直播间频繁被封。

如今,随着平台监管力度的加大,这样的乱象正在进一步遭到整治。新播场在抖音搜索“AI主播课程、“AI直播课程”等关键词,已经搜不到相关卖课内容。

可以看到,风口之下,AI在直播领域的应用催生了不少乱象。实际上,如果能够更好地利用AI技术,不仅能够减少成本,还能为直播带来新的想象空间。

有业内人士表示,从目前来看,AI主播目前的应用还是存在较多问题和挑战,更多是应用于不需要依赖内容输出的场景,比如本地生活赛道的团购直播;或者作为真人主播的“替身”,在无法开播的时间段运作。

四、押注AI直播,前景如何?

实际上,AI直播带货早已经不是什么新鲜事了。

2023年,随着AI技术的逐步成熟,头部直播公司开始大举入局AI直播带货,谦寻就是其中之一。

据报道,谦寻控股很早就已经在AI领域开始布局,旗下的两家子公司谦语智能和羚客就是专门用来研发AI直播带货。

2023年8月9日,在“再定义・直播的生命力-2023AI创新发布会”上,谦寻旗下的谦语智能和羚客分别发布了“AI数字人直播业务”和“一站式AI智能直播综合平台”,其中多个AI数字人都有薇娅的身影。

而不久前,宣布淡出直播电商的头部带货主播辛巴,也称未来两年将去学习AI技术。

头部机构和主播押注AI,正是看到了AI技术与直播结合带来的新想象力。

与此同时,面对广阔的海外市场,AI主播也有更大的发展空间。

如今许多AI研发商都在着力完善相关产品,闪剪智能举办的2024 BocaLive AI数字人智能播控系统在3月21日举行了线上发布会,新上线的AI能够直接帮助商家自动写好外语直播脚本,支持29国语言和丰富的AI配音。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

AI主播具有庞大的语言库,可以进行数十种语言的翻译,商家把中文的商品介绍或者直播脚本输入进去,就可以自动转换成英语、法语、德语等多种语言。

据《中国AI数字人市场现状与机会分析,2022》预测,到2026年,我国AI数字人的市场规模将达到102.4亿元。

AI数字人的前景广阔,但是未来会与直播融合到怎样的程度,一切都是未知数。