欢迎光临
我们一直在努力

OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真

aigc阅读(50)

传说,这一夜,OpenAI要改变历史。

看完发布会的观众们,久久未从巨大的震惊中走出——科幻电影中的「Her」,在此刻成真了!

在全场欢呼中,CTO Mira Murati走到台上,为全世界揭晓了OpenAI神秘新产品的面纱——

GPT-4o,在千呼万唤中登场了。

现场演示中,它的表现仿佛一个人正坐在旁边,和人类的对话节奏自然、融洽,完全听不出是个AI。

从今夜之后,人机交互彻底进入新的时代!

这也正呼应着它名字中的玄机:「o」代表着「omni」,意味着OpenAI朝着更自然的人机交互迈出了重要一步。

在短短232毫秒内,GPT-4o就能对音频输入做出反应,平均为320毫秒。这个反应时间,已经达到了人类的级别!

并且,它可以将文本、音频、图像任何组合作为输入和输出。

而在英语文本和代码基准测试中,GPT-4o的性能与GPT-4 Turbo不相上下,并在非英语文本得到显著改进。

更值得一提的是,这款全新的AI模型,免费向所有人提供GPT-4级别的AI。

(是的,上周在LMSYS模型竞技场上引起整个AI圈疯狂试用的那个gpt2,就是它!)

现在,进入ChatGPT页面,Plus用户可以抢先体验「最新、最先进的模型」GPT-4o。

Sam Altman亲自在x上发起了产品介绍。

Altman介绍道「GPT-4o是OpenAI有史以来最好的模型,它很聪明,速度很快,是天然的多模态。」

而且,所有ChatGPT用户都可以使用,完全免费!

Altman特意强调,此前虽然只有按月付费的用户才能使用GPT-4级别的模型,但这可不是OpenAI的本意哦。

「我们的初心,就是把最出色的AI工具,交到每个人的手中。」

(还想着,这场重要的发布会,奥特曼怎么没有现身,原来在观众席中)

而即将召开年度I/O大会的谷歌,不甘示弱,也开启了语音助手的demo实时演示。

谷歌DeepMin的CEO Demis Hassabis激动地表示,自己将首次在I/O大会上演讲,并分享他们所做的工作。

两大巨头正面刚起来了!明天还有好戏要看,已经闻到硝烟味了。

一、一夜颠覆语音助手:全新旗舰GPT-4o登场

当然,这次发布会的压轴主角,就是OpenAI推出的旗舰模型GPT-4o了。

这个带着光环登场的模型,其最大意义就在于,把GPT-4级别的智能,带给了OpenAI的每一位用户!

从此以后,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了。

唯一不同的是,ChatGPT Plus的消息限制是免费用户的5倍。

并且,GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力。

注意,GPT-4o接下来要放大招了。

1. 实时语音对话:ChatGPT完美变身Moss

研发负责人Mark Chen首先展示的,是全新ChatGPT的关键功能之一——实时语音对话。

他向它问道:「我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?」

ChatGPT非常体贴地表示:「你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!」

Mark疯狂地大喘气几次,问ChatGPT能给自己什么建议吗。(此处全场笑声)

它惊讶地说道:「放松啊Mark,慢点呼吸,你可不是个吸尘器!」(它的幽默感,也再次引起全场哄笑)

注意,在这个过程中,ChatGPT和Mark的互动几乎无延迟,随时接梗,共情能力满分。

而且,模型能够理解人类在对话中适时「打断」的习惯,会及时停下来听你说话,并给出相应的回复,而且也不会「断片」。

比如,Mark表示自己要再试一遍深呼吸,此时ChatGPT也恰到好处地插进来接话说「慢慢呼气」。

整个过程,自然连贯得仿佛它是个坐在你对面的人类,完全没有AI的机械感和僵硬感!

相比反应迟钝、没法打断还缺少情商的Siri等语音助手,这局ChatGPT完胜。

这,才是人类最理想AI语音助手的样子啊,Moss果然成真了!

不仅如此,ChatGPT的「高情商」也让观众们惊呼太顶了!

对话中,它可以听懂用户说话时不同的语调、语气,还能根据自己的台词生成不同语气的语音,完全没有「机械感」。

2. 扮演不同角色,给任性的人类讲睡前故事

接下来,ChatGPT被要求讲一个睡前故事,主题是「恋爱中的机器人」。

ChatGPT没讲几秒,就被人类粗暴地打断了:「多点情绪,故事里来点戏剧性行不?」

ChatGPT表示ok,用更起伏的声调、更夸张的语气开始讲起了故事。

结果没几秒,它又被再次打断:「不行不行,再多点情感,给我最大程度的表达可以吗?」

接下来,我们听到一个仿佛在舞台上表演莎剧的ChatGPT,语气夸张到仿佛是个戏剧演员。

随后,它又多次被打断,并且耐心地按照人类的要求,依次变成了机器人声和唱歌模式。

ChatGPT听到要求自己唱歌时,甚至叹了口气,然后开始亮起了优美的歌喉。

这也就是ChatGPT脾气好,要是真人,估计要被暴打了。不过它无奈叹气的那个瞬间,一瞬间的确san值狂掉——真的好像人啊!

3. 视频实时互动解方程

秀完情商,ChatGPT要开始秀智商了。

下一个任务,另一位研发负责人Barret手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演「在线导师」的角色帮助自己解题,而且只能给提示,不能直接说答案。

接到任务的ChatGPT,甚至开心大叫:「Oops,我好兴奋啊!」

小哥在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。

随后,在小哥的要求下,它一步一步说出了解题步骤。

最厉害的是,随着小哥在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。

而且可怕的是,时间上没有丝毫延迟,这边人还在算呢,那边就实时给出了评价和反馈。(说背后没藏个人还真不信呢)

想起之前谷歌剪辑版的Gemini演示,这对比之下真是打脸啪啪的啊。

当被问到「学习线性方程在生活中有什么用」这样的问题时,ChatGPT还会举出实际的例子对你「循循善诱」:

这是个不错的问题,虽然我们没有注意到,但线性方程在每天的生活中都会出现,比如计算花销、规划旅行、烹饪,甚至在商业中进行盈亏计算。这基本上是解决问题的一种方式,你需要找到一个未知变量……

不仅言之有物,而且态度及其和蔼,说话说到一半被打断时都不会生气。

方程的任务告一段落,两人还现场来了一波表白——在纸上写下「我ChatGPT」。

ChatGPT看到后,惊喜又害羞地说:「哦,你竟然说爱我,你太可爱了!」

4. 桌面版ChatGPT秒解代码难题

解方程任务也许还不能充分展现ChatGPT的能力,于是OpenAI又上了一波难度——看代码,并进行简短描述。

模型几乎是立即理解了代码,并给出了丝滑且完整的描述。

比如准确对应了函数名及其功能,并识别出了其中取平均值、最高值等操作的意图。

当被问到「如果没有foo这个函数,绘制的图表会是什么样子」,ChatGPT也立即做出了正确回复,可见已经完美理解了代码中的内在逻辑。

接下来,ChatGPT还被要求概述代码生成的图表,并回答用户问题。

不出意外,图表中各方面的关键信息也都被ChatGPT精准捕捉到了,包括x、y轴的信息与范围、数据标注的含义等。

随后Mark提出的问题是「你看到哪个月的气温最高?对应的最高气温大概是多少?」

这种能作为学校数学考试题目的图表理解任务,ChatGPT解决起来也几乎没有障碍,还能像接受面试一样实时回答你的问题。

5. 直播观众提问:给你看看我的自拍

模型演示之后,还有彩蛋。

发布会在线上同步直播,于是主持人收集了一些推特网友的提问,并且当场展示。

这可以说是比演示更加刺激的环节,在没有准备和彩排的情况下,这可是真刀真枪地检验模型实力了。

第一位网友的提问是「GPT-4o是否具有实时翻译功能?」

随后,在Mark的任务定义下,ChatGPT完成了将英语「同声传译」为意大利语的任务。

第二位网友的提问是「模型可以只通过我的表情识别情绪吗?」

研发负责人Barett也没在怕,拿起手机就照了一张自拍,甩给了ChatGPT,问道「我现在是什么情绪呢?」

ChatGPT不知是幽默了一把还是翻车了,说「我好像在看一个木质表面的东西」。

见势不好,Barett匆忙打断。他在提示工程方面也是经验颇深,一句话就将对话拉回正轨:「那是我之前发给你的的东西,不用担心,我不是一张桌子」。

ChatGPT表示,啊,这就对了嘛。再次引起全场哄笑。这次它给出了非常「人性化」的正确答案——

「看起来你非常开心快乐,带着大大的笑容,可能甚至有一点兴奋。无论正在发生什么事,似乎你心情很好,愿意分享一下有什么高兴事吗?」

Barett顺势表示:「我开心的原因是我们正在做演示,你的表现很棒。」

受到夸奖的ChatGPT居然很风趣地来了一句「哦,别说了,你都让我脸红了」,再次逗笑了全场。

6. Greg Brockman亲自演示

除了发布会上的现场演示之外,OpenAI总裁Greg Brockman也亲自下场,在网上发布了一段自己使用ChatGPT各种功能的视频。

二、GPT-4o强在哪儿?

在过去几年里,OpenAI一直在专注于提升模型的智能水平。

虽然后者已经达到了一个相当的水平,但是,今天这是第一次,模型在易用性方面,迈出了一大步!

为什么会把模型的易用性提到如此战略层面的高度?这是因为,即使一个AI再强大,如果它不能和人有效互动,也就失去了意义。

在这个过程中,OpenAI所着眼的,是人类和机器交互的未来。

而今天GPT-4o的发布,可能会成为一个分水岭,让人机协作的范式彻底迈入一个新阶段!

为此,OpenAI希望把GPT-4o和人类的互动,打造得格外舒服自然。

不过,虽然这个理想很宏大,但是在实际操作过程中,却遭遇了不小的困难。

1. 毫秒级响应,与人类对话一致

首先,在人类之间互动时,有很多东西是我们认为理所当然的,但要让AI理解这些,就变得很困难。

比如,我们的谈话经常被打断,谈话过程中会有背景噪声,会有多个人同时说话的情况,说话人的语气语调也经常发生微妙的变化。

OpenAI克服了很大困难,花费了数月的时间,终于打造出了完美适应这些状况的GPT-4o!

在GPT-4o发布之前,通过语音模式(Voice Mode)与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。

当时,为了实现这一点,「语音模式」设有三个独立模型的管线:

– 一个简单模型将音频转录成文本

– GPT-3.5或GPT-4接收文本并输出文本

– 第三个简单模型将文本转换回音频

这一过程走下来,意味着主要的智能来源GPT-4就丢失了很多信息:

不能直接观察语气、多位说话者或背景噪音,也无法无法输出笑声、歌声或表达情感。

而这也导致了延迟,大大破坏了我们和ChatGPT协作的沉浸感。

但现在,GPT-4o让一切都发生得很自然。

它能以平均320毫秒,做出响应。

它可以跨越语音、文本、视觉多种形式,直接进行推理!

GPT-4o是OpenAI首个端到端训练的跨越文本、视觉和音频的新模型,意味着所有输入和输出都由相同的神经网络处理。

这就会彻底颠覆ChatGPT 1亿用户的工作和生活。

不仅如此,由于GPT-4o是「原生的多模态」,自然地集成了语言、视觉和音频等多种能力。

用户可以上传各种图片、视频,以及包含图片和文字的文档,讨论其中的内容。

GPT-4o也内置了搜索功能,可以实时搜索网页信息来回复用户。

相比ChatGPT,GPT-4o的记忆能力更是提升了不少,不仅在对话中可以记住你提过的问题,还能记住你们之间的所有对话,提供「连续感」。

更高级的是,新版模型还具备了数据分析能力,可以理解并分析用户上传的数据和图表。

而且,为了真正实现「让AGI惠及全人类」的愿景,GPT-4o有50种语言的版本,并改进了推理的质量和速度,这也就意味着,全球97%的人口都可以使用GPT-4o了!

2. GPT-4o刷新SOTA,击败「开源GPT-4」还免费用

GPT-4o的具体性能表现如何?

接下来的图表中,可以看到,OpenAI对此前所有堪称超越GPT-4版本的模型,做出了统一回应:

We’re so back!

在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。

如下是,在文本评估中,GPT-4o几乎碾压一众模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是「开源版GPT-4」Llama 3 400B。

GPT-4o在零样本的COT MMLU(常识问题)上创造了88.7%的新高分。

与传统的5个样本,没有使用COT的MMLU评测中,GPT-4o更是创下了87.2%的新高分!

不过在DROP中,GPT-4o的表现稍落后于GPT-4 Turbo。

在音频ASR表现上,比起Whisper-v3 ,GPT-4o显著提高了所有语言的语音识别性能,尤其是对资源较少的语言。

再来看音频翻译能力,GPT-4o刷新SOTA,并在MLS基准上超过了Whisper-v3。

另外,OpenAI团队还对最新模型GPT-4o在M3Exam基准上进行了测试。

这是一种多语言和视觉评估基准,由来自其他国家标准化测试的多项选择题组成,有时还包括数字和图表。

结果如下表所示,在所有语言的测试中,GPT-4o都比GPT-4强。

(在此,省略了Swahili和Javanese两种语言的视觉结果,因为这些语言只有5个或更少的视觉问题。)

最后,在视觉理解基准EVALS评估上,GPT-4o也取得了领先的性能。

同样,击败了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro,以及Claude 3 Opus。

3. ChatGPT免费用户,可以访问的功能

OpenAI官博还介绍了,ChatGPT免费用户可以访问新模型加持下的功能,包括:

– 体验GPT-4级别的智能

– 从联网后的模型得到响应

– 分析数据并创建图表

– 畅聊你拍的照片

– 上传文件以帮助总结、撰写或分析

– 发现和使用GPTs和GPT Store

– 用记忆构建更有用的体验

比如,你拍一张照片发给ChatGPT,然后问「这个食物的营养价值是什么」?

ChatGPT瞬间做出响应,解释了牛角包的营养价值。

免费用户还可以体验到联网搜索的快乐。(当然是最新最强模型)

「帮我推荐达拉斯5个适合夜晚约会的餐厅」。

ChatGPT通过搜索3个网站,立即总结出了你想要的结果。

另外,免费福利还包括,在GPT商店中使用模型。

4. API速度飙升2倍,再打骨折

此外,让开发者兴奋的是,GPT-4o不仅应用在ChatGPT服务中,模型的API也被同步放出,可以部署各种下游应用程序上。

同时,API的性能也有所改进,据说相比GPT-4 Turbo,推理速度提升2倍,消息限制提高五倍,而且价格还会降低50%。

OpenAI开发者在线呼吁,赶快来体验。

三、ChatGPT桌面版也来了

正如Murati一出场开宗明义的:对OpenAI来说,打造一款真正让所有人可用的产品,非常之重要。

为了让每个人无论身在何处,都能随时用上ChatGPT,OpenAI发布了ChatGPT的桌面版本。

它拥有桌面应用程序,和全新的用户界面,可以很轻易地和我们的工作流融为一体。

桌面版ChatGPT APP

只需一个简单的快捷键——Option+空格键,就可以立即召唤桌面版ChatGPT。

甚至,你也可以直接在应用程序中截图,并进行提问。

然后,让其帮你总结所截取的网页内容——「将其总结成5个主题,并列出行动计划」。

接下来,ChatGPT一通炫技,嗖嗖嗖地解决了提出的问题。

你甚至,可以从你的电脑上直接与ChatGPT进行语音对话,点击桌面应用程序右下角的耳机图标,便可开始。

同时,OpenAI还全面改版了UI界面,让它和用户的互动也变得更自然,更简单了。

四、神秘gpt2就是GPT-4o!

「这么厉害的GPT-4o,早已是你们的老熟人了」,ChatGPT官方账号在线卖起关子。

这,究竟是怎么回事?

几天前,大模型LMSYS竞技场上,一个名为gpt2神秘模型突然现身,其性能甚至超越了GPT-4。

注:最初以gpt2命名,现在升级为两个版本「im-also-a-good-gpt2-chatbot」和「im-a-good-gpt2-chatbot」

全网纷纷猜测,这个模型,可能就是GPT-4.5/GPT-5。

就连Altman本人多次发贴,暗示gpt2的强大能力——

如今,gpt2的身份,真的解密了。

OpenAI研究科学家William Fedus刚刚发文, 一直在测试的版本「im-also-a-good-gpt2-chatbot」就是GPT-4o。

以下是它一直以来的表现。

im-also-a-good-gpt2-chatbot总ELO得分,超过了最新的gpt4-turbo-2024-04-09。

但ELO最终得分,会受到「提示」难度的限制(即无法在类似「你好吗」这种简单提示上取得任意高的胜率)。

OpenAI团队发现,在更难的提示集合上——尤其是编程方面——存在更大的差距:

而GPT-4o在我们此前的最佳模型上,ELO甚至可以提高100分。

最关键的是,GPT-4o不仅是全世界最好的模型,甚至可以在ChatGPT中免费用。

另一边,LMSYS发布了最新的gpt2-chatbots结果,已经跃升至大模型竞技场榜首!

奥特曼对此大赞,「令人惊叹的工作」!

OpenAI联创Greg Brockman表示,「初步的指标看起来很有前景」。

接下来,就看明天谷歌I/O大会上的表现了。

参考资料:

https://twitter.com/gdb/status/1790071008499544518

https://openai.com/index/hello-gpt-4o/

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

遥遥领先的OpenAI慢下来了

aigc阅读(67)

“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”

一位AI大模型从业者告诉虎嗅,业内对OpenAI的期待太高,除非是GPT-5这样的颠覆式创新,否则很难满足观众的“胃口”。

虽然Sam Altman在OpenAI线上直播前,已经预告不会发布GPT-5(或GPT-4.5),但外界对OpenAI的期待早已是九牛拉不转了。

北京时间5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。

虽然GPT-4o的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离OpenAI使命”的。

OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道:

“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。

当我们创办 OpenAI 时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”

一、遥遥领先的GPT-4o

“如果我们必须等待 5 秒钟才能得到‘每个’回复,用户体验就会一落千丈。即使合成音频本身听起来很真实,它也会破坏沉浸感,让人感觉毫无生气。”

在OpenAI发布会前夕,英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手,并提出:

几乎所有的语音AI都会经历三个阶段:

1. 语音识别或“ASR”:音频->文本1,例如Whisper;

2. 计划下一步要说什么的 LLM:text1 -> text2;

3. 语音合成或“TTS”:text2 ->音频,例如ElevenLabs或VALL-E。

经历 3 个阶段会导致巨大的延迟。

GPT-4o在响应速度方面,几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒,平均响应时长320毫秒,几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒(GPT-4)。

GPT-4o不仅通过缩短延迟极大地提升了体验,还在GPT-4的基础上做了很多升级包括:

极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

可以实时识别和理解人类的表情,文字,以及数学公式。

交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。

所有ChatGPT用户均可免费使用(有使用上限)。

速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。

二、“没落”的OpenAI

“这些局限性的突破都是创新。”

有业内专家认为,GPT-4o的多模态能力只是“看起来”很好,实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。

这里我们按大模型行业的习惯,对比一下隔壁厂Anthropic的Claude 3。

Claude 3的技术文档中提到,“虽然Claude的图像理解能力是尖端的,但需要注意一些局限性”。

其中包括:

人物识别:Claude不能用于在图像中识别(即姓名)人物,并将拒绝这样做。

准确性:Claude在解释200像素以下的低质量、旋转或非常小的图像时,可能会产生幻觉或犯错误。

空间推理:克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务,例如读取模拟钟面或描述棋子的确切位置。

计数:Claude可以给出图像中物体的近似计数,但可能并不总是精确准确的,特别是对于大量小物体。

AI生成的图像:Claude不知道图像是否是人工智能生成的,如果被问到,可能不正确。不要依赖它来检测假图像或合成图像。

不适当的内容:Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。

医疗保健应用:虽然Claude可以分析一般医学图像,但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。

在GPT-4o网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。

此外,从发布会现场演示中GPT-4o输出的内容很容易看出,其模型能力与GPT-4相差并不大。

GPT-4o跑分

虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与GPT-4一样缺乏细节和创造力。

此外,发布会后OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括:照片转漫画风格;会议记录;图片合成;基于图片的3D内容生成;手写体、草稿生成;风格化的海报,以及连环画生成;艺术字体生成等。

而这些能力中,照片转漫画风格、会议记录等,也都是一些看起来很普通的文生图或者是AI大模型功能。

三、能挑战现有的商业模式吗?

“我注册5个免费的ChatGPT账号,是不是就不需要每月花20美元订阅ChatGPT Plus呢?”

OpenAI公布的GPT-4o使用政策是ChatGPT Plus用户比限制普通用户的流量限制高5倍。

GPT-4o对所有人免费,首先挑战的似乎是OpenAI自己的商业模型。

第三方市场分析平台Sensor Tower公布的数据显示,过去一个月中,ChatGPT在全球App Store中的下载量为700万,订阅收入1200万美元;全球Google Play市场的下载量为9000万,订阅收入300万美元。

目前,ChatGPT Plus在两个应用商店的订阅价格均为19.99美元。由订阅数据推断,ChatGPT Plus过去一个月中,通过应用商店付费的订阅用户数为75万。虽然ChatGPT Plus还有大量的直接付费用户,但从手机端的收入来看,每年进项才不到2亿美元,再翻几倍也很难撑起OpenAI近千亿的估值。

由此来看,OpenAI在个人用户充值方面,其实并不需要考虑太多。

更何况GPT-4o主打体验好,如果你跟AI聊着聊着就断了,还要换账号重新聊,那你会不会愤然充值呢?

“最初的 ChatGPT 暗示了语言界面的可能性;这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”

Sam Altman的最新博客中提到了“语言界面的可能性”,这也正是GPT-4o接下来可能要做的:挑战所有GUI(图形交互界面),以及想要在LUI(语音交互界面)上发力的人。

结合近期外媒透出的OpenAI与苹果合作的消息,可以猜测GPT-4o可能很快就要对所有AI PC、AI手机的厂商“抛橄榄枝”或是“掀桌子”。

不管是哪种语音助手或是AI大模型,对于AIPC、AI手机来说核心价值都是优化体验,而GPT-4o一下把体验优化到了极致。

GPT-4o很可能会卷到所有已知的App,甚至是SaaS行业。过去一年多时间里,市场上所有已经开发和正在开发的AI Agent都会面临威胁。

某位资源聚合类app产品经理曾对虎嗅表示,“我的操作流程就是产品的核心,如果操作流程被你ChatGPT优化了,那相当于我的App没价值了。”

试想,如果订外卖的App,UI变成了一句话“给我订餐”,那打开美团还是打开饿了么,对于用户来说就一样了。

厂商的下一步只能是压缩供应链、生态的利润空间,甚至是恶性价格战。

从目前的形式来看,其他厂商要在模型能力上打败OpenAI恐怕还需要一段时间。

产品要对标OpenAI,可能只有通过做更“便宜”的模型了。

四、对于国内产业的影响

“最近忙死了,没顾上关注他们。”

一位工业AI大模型创始人告诉虎嗅,近期一直在忙着沟通战略合作、产品发布、客户交流资本交流,完全没有时间关注OpenAI这种发布。

OpenAI发布前,虎嗅也询问了多位来自各行各业的国内AI从业者,他们对OpenAI最新发布的预测与看法都很一致:非常期待,但与我无关。

一位从业者表示,从国内目前的进度来看,要在短期内追上OpenAI不太现实。所以关心OpenAI发布了什么,最多也就是看看最新的技术方向。

目前国内公司在AI大模型研发方面,普遍比较关注工程化和垂直模型,这些比较务实、容易变现的方向。

在工程方面,近期蹿红的Deepseek就正在国内大模型行业中掀起Token的价格战。在垂直模型方面,多位业内人士告诉虎嗅,短期内小模型和垂直模型的研发,基本都不会受到OpenAI的裹挟。

“有时候OpenAI的技术方向也不是很值得借鉴。”一位模型专家对虎嗅表示,Sora就是个很好的例子,2024年2月OpenAI发布了视频模型Sora,实现了60秒的视频稳定输出。虽然看起来效果很好,但后续的实践几乎没有,落地速度也非常慢。

在Sora之前,国内很多在文生视频领域发力的公司和机构已经实现了15秒稳定视频生成,而Sora出来以后,一些公司的研发、融资、产品节奏都被打乱了,甚至使整个文生视频行业的发展演变成了一场“技术的大跃进”。

所幸,这次GPT-4o与Sora大有不同。OpenAI CTO Muri Murati 表示,在接下来的几周内,我们将继续我们的迭代部署,为您提供所有功能。

发布会结束不久,GPT-4o就已经可以上线试用了。

ChatGPT更像人了

aigc阅读(76)

ChatGPT又双叒叕更新了,这一次,OpenAI没有大谈数字和术语,而是回归到了“聊天机器人”本身。

北京时间5月14日凌晨1点,OpenAI举行春季发布会,公司首席技术官米拉·穆拉蒂(Mira Murati)主持,现场展示了ChatGPT的更新。

发布会的核心,是最新多模态大模型GPT-4o。和之前发布新模型必强调训练数据量、各项测试成绩等“硬核指标”不同,GPT-4o的升级主要在使用体验上。

相较上一代GPT-Turbo,GPT-4o可谓是打通了任督二脉,各项技能融会贯通,和人的互动更灵活、更快速——换言之,更像“人”了。

用户可以以文本、音频、图像任意组合输入,得到ChatGPT实时文本、音频、图像的任意组合输出。在交流过程中,ChatGPT不再等待若干秒才响应,而是实时回复,还能被随时打断。OpenAI的CEO山姆·奥特曼(Sam Altman)将之称为“人类级别的响应”。

OpenAI现场展示了和ChatGPT的若干互动,包括:实时对话交互、语音多样化(应用户需求使用不同情绪、语调等)、视频指导做题、视频识别环境和人(包括人的情绪)、以桌面应用形式辅助编程、实时翻译。

OpenAI同时还放出了预先录制的展示样例若干,包括:两个GPT-4o交流和对唱、唱摇篮曲、在线会议应用、毒舌讽刺、视频识物并给出西班牙语单词、帮助面试准备、和狗互动等。

OpenAI本次现场演示选择的声音是“Sky”,听起来酷似好莱坞明星(寡姐)斯嘉丽·约翰逊。让人很容易联想到科幻电影《她(Her)》,其中AI助手正是由斯嘉丽配音。电影中男主角从使用AI助手,一步步走向一段无果的人机恋情。

奥特曼自己也在X上发了这部电影的名字:her。还有人干脆把电影海报里的脸换成了奥特曼的。

ChatGPT更像人了

当GPT-4o驱动的ChatGPT用饱含情绪的声音和人聊天,还能看、能听、能说会唱,你就知道,科幻已经照进现实了。

更关键的是,穆拉蒂现场宣布,GPT-4o免费向所有人开放。也就是说,随着后续更新,免费用户也可以直接使用GPT-4o,只不过每日限制条数比付费用户少,达到限制后会自动切换回GPT-3.5。

以及,ChatGPT的桌面应用将上线苹果电脑系统Mac OS,Windows版本将在今年晚些时候推出。

01

如果用四个字总结GPT-4o的特点,就是:更通人性。

而这体现在两方面,一方面是GPT-4o多模态融会贯通,反应速度也大大提高,交互方式更接近于人;另一方面,是GPT-4o驱动下的机器人明显更活泼,更乐于表现出人类情绪。

先说GPT-4o的多模态能力,准确来说,GPT-4o最亮眼的是跨模态的能力。

一年多以前,2023年3月,OpenAI发布了多模态模型GPT-4。从那时起,人们就可以给GPT-4发图片让它帮忙分析,也可以发文件、语音聊天。但是文本、图像、语音之间是有“壁”的。

比如你想让ChatGPT帮忙解一道数学题,就只能截图或者复制题目,发给ChatGPT。如果想听ChatGPT语音讲解,得先在文本框发完之后,再切到语音。

但在GPT-4o下,你可以直接使用桌面应用,将ChatGPT打开放在一边,和它聊着天的同时,用“拍摄”功能给它看你电脑桌面的内容,它就可以在对话中为你答疑解惑。

在一则演示中,用户将ChatGPT桌面应用和做题界面同时打开。ChatGPT不直接给出答案,而是以问题引导的方式,有问有答地一步步带用户解了一道几何题。

或者,你也可以打开摄像头,ChatGPT也可以“看”着纸面指导解题。

在所有的演示当中,最让人直呼“恐怖”的还是视频对话:用户打开摄像头,让ChatGPT“看”到当下,并进行互动。

用前置镜头自拍,ChatGPT不仅能识别用户的情绪,如“看起来很开心,甚至可以说是兴奋的”,还能从用户背后的画面判断其身处的环境,如“看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的”。当有另一个人进入镜头并且做鬼脸的时候,ChatGPT也准确指出了这一“不太寻常”的情况,并加以描述。

用后置镜头,ChatGPT就可以和用户共享视角。如在语言学习的过程中,打开摄像头让ChatGPT用某种语言说出物品的名称。或者可以为视障用户提供指引,告诉用户“有一辆计程车来了,就是现在,招手吧”。

ChatGPT更像人了

再加上用户话音刚落ChatGPT就接话,以及用户可以直接打断ChatGPT,它也都能接着聊,这就使得整体体验更像人与人的对话,快速且灵活。

顺带一提,由于GPT-4o的响应速度快、可打断,其实时翻译效果非常惊艳。两个语言不通的人将GPT-4o驱动的ChatGPT放在中间充当翻译,就可以聊天了。

总而言之,GPT-4o驱动下的ChatGPT,不再仅仅是一个什么都会的应用,而是真正进化成了一个“AI助手”。

02

再说情绪,这一点不容小觑。

从2022年11月ChatGPT上线开始,这款聊天机器人在很长一段时间里都给人一种不苟言笑的印象。这很有可能是OpenAI为了避免麻烦而有意为之的,ChatGPT不仅回答起问题一板一眼,而且只要有机会就会向用户强调“我只是个机器人,我没的感情”。用户如果想要ChatGPT更“放松”,需要给出明确的指令。

但GPT-4o驱动下的ChatGPT明显不同了。在没有预先指令的情况下,ChatGPT不再刻意避免像人类,而是相反。

比如,当用户求助ChatGPT,说自己马上要参加OpenAI的面试,ChatGPT接过话开玩笑地说:“OpenAI,嗯?怎么听起来这么耳熟嘞?”紧接着窃笑,转而笑着亢奋地接着说:“开玩笑的!太棒了洛基(演示人员的名字)!什么样的面试?”

当洛基寻求外形上的建议时,ChatGPT用幽默的方式表示头发需要整理,说他“看起来有写了一整夜代码的氛围”。洛基戴上了一顶遮阳帽,ChatGPT立刻“哈哈哈”地大笑,说他“肯定会很显眼”,但在面试中不合适,像朋友一样劝他放弃这样做。

也就是说,GPT-4o驱动下的ChatGPT,不再是一个只追求性能的AI工具,而是开始主动提供“情绪价值”。

在ChatGPT走严肃路线的两年里,不少竞品都以更活泼、更“通人性”的姿态出现,并俘获了不少用户的心。

如Inflection.AI曾推出的机器人Pi,主打的就是“陪伴”,总是语气温柔,对用户充满关怀,不到一年的时间里就做到百万日活用户,平均对话持续时间超过半小时。

埃隆·马斯克(Elon Musk)的人工智能公司xAI的大模型Grok,则因其毒舌一经上线就吸引不少关注。

就连上一波AI聊天机器人热潮也深谙此道。2011年苹果将Siri集成到iPhone4S中,AI聊天机器人成赛博玩具,人们热衷于“调戏Siri”,让它唱歌、讲笑话。Siri虽不算神通广大,但提供了足够多的乐趣。中国用户熟悉的天猫精灵、小爱同学等,也无不有一个俏皮的“人设”。

但后来的故事我们都知道了,上一代AI助手因其技术限制,能做的实在有限,“俏皮”来自有限的预先设置,还因为理解能力不佳、不够灵活,渐渐被用户钉上“人工智障”的耻辱柱。

在2024年,人们曾经对Siri们抱有的期待——一个既能当得力助手帮忙做事,又能当赛博玩具聊天嬉笑的AI——终于在GPT-4o身上有了着落。

03

去年5月,比尔·盖茨(Bill Gates)曾在AI Forward 2023活动上谈及AI,对AI的前景很看好:“你永远不会去搜索网站了,也不会再去亚马逊了。”

而能干掉搜索和电商的,在盖茨眼中不是别的,正是未来顶级的AI助理:“无论谁赢得了AI助理的竞赛,这都是一件大事。”

面向C端用户,AI助理的战事已经打响。

微软已经将Copilot带进Windows11,依托以侧边栏工具的形式辅助用户;谷歌在内部整合了谷歌大脑和DeepMind之后发布拳头模型Gemini,未来有望更加深入地嵌入各个产品和应用,如Android安卓、谷歌搜索和Workspace;亚马逊则在去年9月发布新款Alexa,接入大模型。

苹果也有明显的战略倾斜,加快AI步伐。6月,苹果将举行全球开发者大会(WWDC24),iOS18是否会以人工智能做软件更新是外界关注的焦点。外界普遍认为,苹果会对Siri进行大模型重塑。

今年3月之后,接连有几个消息传出。先是彭博社援引知情人士透露,苹果正在就将谷歌Gemini大模型内置于iPhone进行谈判,同期也在与OpenAI进行类似谈判。而后是苹果CEO蒂姆·库克(Tim Cook)访华之后,《科创板日报》报道苹果将与百度进行技术合作,在今年即将发布的iPhone16、Mac系统和iOS 18提供AIGC功能。

用GPT-4o,OpenAI再次给世界亿点点震撼,接下来的AI助手竞争只会更加精彩。

“新的语音(和视频)模式是我使用过最好的计算机界面。这感觉就像电脑里的人工智能,它的真实性还是让我有点吃惊。达到人类水平的反应时间和表达能力是一个很大的变化。”在随GPT-4o发表的一篇博文中,奥特曼写道。

第一次这么喜欢没边界感的同事!看钉钉 AI 助手如何 “整顿” 职场,开启高效办公的智能化革命

aigc阅读(66)

农历年前办公室迎来了一位新同事,不仅主动介入每个人的会议记录、写周报、邮件处理等杂活儿,无论节假日都会在工作群和私聊激情输出观点,近期竟然还开始参与组织流程优化的管理职,直接跨越新人蜜月期拉满领导们的好感度。对于这样毫无边界感又爱出风头的同事,我们整个办公室却都超喜欢他!

这位同事就是钉钉于今年 1 月 9 日发布 7.5 版本后隆重推出的「AI 超级助理」,也是钉钉对智慧型代理人(AI Agent)探索的全新应用落地形式。其实从 2023 年 8 月钉钉发布数字员工时我就认识他了,但当时只能透过后台开发者界面接入,也较难针对个性化需求调整功能或工作模式;现在,除了没有开发基础的技术小白也能「自行创建」属于自己的 AI 助手,还可推上市场让其他个体或企业用户「共同聘用」,堪称办公软件界首屈一指的 AI 资源共创共享池。

(图片来源:钉钉 AI 助理市场,目前尚未上线)

一、AI 领域趋势:重塑 AI 沟通与效率优化的新范式

人工智能(AI)作为科技领域的前沿力量,正在全球范围内引发一场深刻的变革,而谷歌大脑项目联合创始人吴恩达,在三月底红杉资本(Sequoia Capital)的人工智能峰会(AI Ascent)上公开分享了对于 AI Agent 代理工作流将是 AI 领域的突破口,并在今年产生更多的行业应用模式助力效率优化,也谈及自己对 AI agent 设计模式的四种分类包括检查、工具使用、规划、多智能体协作,站在 AI 领域最前列呼吁大家开始关注这个方向的发展。

这显示以往较为割裂的生成式 AI 和工作流两个使用场景将在未来逐步和解。我们和 AI 的互动模式不再限缩于一问一答固化应答形式,而是在双向互动中共同进行反思、规划、迭代等过程来获取最优解,更不需要在不同的 AI 工具中来回切换以达到需求目的,达到个人乃至企业的效率赋能。

换句话说,从前我们使用 AI 的情境,类似传统主管对员工的单方面下发指令,很可能存在员工压根搞不清楚主管要什么就埋头苦干的局面,导致产出的结果不尽如人意,使得我们对 AI 工具的信任裹足不前;现在强调的 AI 人机互动则更趋近于一个团队中不同角色之间高频次交流的结果,并将此过程转换为下一个项目的模板或经验值,AI 可以变成是产品团队中具有前瞻性的战略师、改善客户体验的 UX 人员、或者是辅助产品开发的程序员,更贴合当前互联网产业的协作习惯。

(图片来源:吴恩达演讲视频截图)

二、直面 AI Agent 浪潮:钉钉 AI 助手来整顿职场了

AI Agent 强大的智能处理能力,能够存储从每次交互中获取的信息以应对更复杂或未知的问题挑战,通过知识经验积累和自我进化,给予企业全面性的解决方案并促进未来优化。从钉钉推出 AI PaasS、AI 助手等一系列操作,我嗅到了钉钉的三个野心:

第一,办公软件结合 AI Agent,由钉钉领头:在 2023 年钉钉生态大会上,钉钉宣布将智能化底座( AI PaaS)开放给生态圈内的客户,AI PaaS 由模型调度、模型训练、插件开发三大平台组成,企业可基于AI PaaS 开发符合企业需求和行业场景的 AI 应用,降低智能化应用的门槛,更暗示钉钉借此打造智能 AI 生态系的企图心。

(图片来源: 2023 年钉钉生态大会视频截图)

第二,深入各行各业,使钉钉成为行业的共创平台:钉钉总裁叶军在 2024 亚布力中国企业家论坛提到,AI 和钉钉融合将带来的改变,除了所想即所得和高效分解任务,更多的是关注行业或专属领域模型的搭建。个体或企业通过 AI 助手建立模板,通过钉钉开放的 API 及连接器,与 SaaS 应用、本地系统等既有系统对接,深化多领域、跨系统、泛场景的 AI 整合型应用方式,让钉钉成为真正的 AI Agent 平台。

(图片来源:钉钉创建 AI 助手的界面)

第三,插足 toC 战场,打破钉钉的刻板印象:由于钉钉有多项功能如文档编写、会议通话等等,在企业用户基础上也拥有不少量的个体用户,但过往钉钉过往并没有针对性的优化相关功能、仅专注 toB 的体验,在用户心中形成了下班后就不愿再开启的办公室桎梏;此次推出的 AI 助手将应用范围拓展到钉钉个人版,左上角一键切换个人或企业版本,使得用户更无痛的在操作钉钉上达到个人与工作和相互独立的切分,同时又能运用完善的 AI 助手功能达成不一样的使用目的。

(图片来源:钉钉个人版 AI 助理使用画面,目前还在 Beta 阶段)

三、产品经理视角:钉钉 AI 助手是我的得力伙伴

做为一枚 2B 金融产品汪,我需要大量与团队成员共同协作或频繁和企业内外部单位沟通,日常工作非常依赖企业协同工具进行管理与执行。钉钉 AI 助手并不是我用的第一款嵌入办公软件的 AI 工具,但先前在应用同类工具上存在的痛点,却在导入钉钉 AI 助手后获得良好的体验和解决。

对此,我建立了一个群待办事项小助手,示范如何从 0 到 1 搭建一个符合团队需求的高级助理。主要功能是透过个人新增待办事项可同步在钉钉的多维表更新,目的是使得其他与此任务有协作同事可以共同跟进处理情况并留下评论,加速团队协作项目时的紧密度。

步骤一:替 AI 助手命名并简介主要用途,方便团队其他成员在引用时更快了解助手的功用,也可将助手设定为仅个人可用。角色设定是我觉得钉钉 AI 助手非常特别的功能之一,有点像玩游戏时给 NPC 赋予的人设一样,让助手可以更快融入这个角色并知道自己的服务界限。

步骤二:配置助手应有的「知识和技能」。「知识」可透过上传企业内部文档或规范来完善助手,使助手在应答时能够更多依循企业资料库来衍生。

「技能」则可选择「能力」和「工作流」。在「能力」选单中,除了系统预设常用的请假助手、智能创作、预约日程等,最强大的是引入 OpenAPI 自定义功能,只要输入 URL 或自行粘贴代码就可激活更丰富的功能,例如下图中我就调用了开源 API 的企业员工查询功能,就算我们公司的员工超过一万人,用户也可通过关键字快速索引对应的人员联系方式,节省每次都要进入企业内部通讯录查询的不便。

在「工作流」区块,预先提供了多个模板降低自动化工作流的入门门槛,也可自行建立。选择以「与 AI 对话」发动工作流,即可让用户在与 AI 互动后由 AI 自动执行超过十种动作,例如创建日程任务或待办、在多维表上新增内容、自动发送互动卡片或对话等,通过简易的可视化编辑和变数设定就能完成流程制定,并即时在群聊中与其他同事共享。

我在这步先后选择了日期时间的功能以动态获取时间,再以创建钉钉待办和多维表新增记录的功能,让用户建立待办事项时自动同步内容和时间于多维表,使得多维表的共同编辑成员可浏览该任务的最新状态或进度,若有其他的协作成员也可将自己跟进的部分一同更新,在任务完成时由任务管理者审批及检核处理效率,对于产品经理在功能迭代时跨单位的协作有非常大的助益。

步骤三:最后替助手依照功能和特性选择合适的应答方式。像我的待办事项小助手主要为产品团队成员使用,不太需要过于正式严肃的语气,就设定了活泼开朗的回答模板,并设置了快捷键让用户不必输入指令也可执行对应的动作。

步骤四:调试助手并在发布前试运行。我在选择对应指令后助手完成了待办事项建立,并在追踪多维表中替我建立该笔事项的记录,大功告成可以开放给团队使用啦!

四、未来畅想:建立 AI Agent 生态系引领智慧办公新风尚

钉钉剑指成为「AI 落地的实践者」,预计在四月份推出 AI Agent Store 包含创新孵化、服务分发和交易的全新 AI Agent 平台,喊出三年内将产生 1000 万个 AI 助理供企业和个体用户使用,以期降低中国企业数智化的门槛。

(图片来源:杭州钉钉 7.5 版本发布大会视频截图)

在这趟与钉钉 AI 助手的体验之旅中,我深刻感受到了钉钉对这项任务的使命感:

其一,与自动化工作流的整合性:以目前的使用经验来看,大部分 AI 助手会被定位于「个人办公服务」,例如针对用户收到的邮件进行重点摘要、协助草拟或翻译文本等,不过这仅可增加个体用户的体感和效率,若要让 AI 助手能真正助力组织效率改善,与「组织办公」的自动化工作流整合才是关键,若工作流和 AI 功能是在不同应用上分别创建及运行则无法达到整并的效果,使得自动化流程还是依靠人而非 AI 触发,钉钉 AI 助手则在这点上成功破壁。

(图片来源:钉钉 AI 助手的自定义工作流功能)

其二,与组织既有制度、流程的结合度:引入新工具固然对后续的工作执行方式有所助益,如何融入组织已正在运行的制度相互结合,使得既有的流程也得以提升效率,也是企业在评估软件导入的重要因素。钉钉 AI 助手与钉钉软件内的功能高度结合,并加入企业内部文档例如规章制度、合同、新手指引等,定制化具有个别企业特点的 AI 助手。

(图片来源:钉钉 AI 助手内建的请假功能)

从前我们下指令让 AI 执行动作时,形同 AI 独自闭门造车的过程,只能被动等待未知的结果;现在则可在人为的环节设置中让 AI 按照我们的要求进行动作,重新构建一个近似于人类的思考和工作流程,让 AI 的输出变得更可控也更值得信赖。

钉钉 AI 助手通过持续学习用户行为模式,允许用户根据自身需求自定义AI助手的工作流程、提醒方式等,实现个性化办公体验,提升对各种工作场景的理解能力,提供更加精准的服务,并加强与其他办公软件、企业数据、硬件设备深度集成,打造无缝衔接的智慧办公环境,满足更复杂的企业或行业需求,更显示其在不断更新的科技技术风口上创新不懈和未来可期。

万字长文总结提示词技巧!新加坡首届GPT-4提示工程大赛冠军最新分享

aigc阅读(57)

新加坡(GovTech)举办了首届GPT-4提示工程竞赛,Sheila Teo很幸运地取得了胜利。

提示工程是一门融合了艺术和科学的学科——它既是对技术的理解,也包含创造力和战略思维。

这次她和我们分享了她在学习过程中学到的提示工程策略,这些策略可以让任何LLM都可以完全满足用户的需求,甚至做得更多!

其中1,2指的是适合初学者的提示技术,而3,4指的是高级策略:

1. 使用CO-STAR框架构建提示词

2. 使用分隔符将提示词分段

3. 使用LLM护栏创建系统提示符

4. 仅使用LLM(无需插件或代码)分析数据集

一、使用CO-STAR框架构建提示信息

有效的提示结构对于从LLM那里获取最佳回复至关重要。CO-STAR框架是新加坡政府科技部数据科学与人工智能团队的心血结晶,是构建提示的便捷模板。

它考虑到了LLM回答的有效性和相关性的所有关键方面,从而使回答更加优化。

具体操作如下:

(C)上下文:提供任务的上下文信息

这有助于LLM了解正在讨论的具体情景,确保其答复具有相关性。

(O)目标:确定你希望LLM执行的任务是什么

明确你的目标有助于LLM把回答的重点放在实现这一具体目标上。

(S)风格:指明你希望LLM使用的写作风格

这可以是某个名人的写作风格,也可以是某个行业的某个专家,如商业分析专家或首席执行官。这将引导LLM以符合你需求的方式和用词做出回复。

(T)语气:确定回复的态度

这可确保LLM的回复与所需的情感或情绪背景产生共鸣。例如,正式的、幽默的、善解人意的等。

(A)受众:确定回复的对象

根据受众(如某一领域的专家、初学者、儿童等)量身定制LLM的回复,确保其在所需的语境中是恰当的、可以理解的。

(R)回复:提供回复格式

这可确保LLM按照下游任务所需的准确格式输出。例如,列表、JSON、专业报告等。大多数LLM应用程序都会以编程方式LLM回复进行下游操作,对于这些应用程序来说,JSON输出格式是最理想的。

CO-STAR的实际应用

下面是一个真实的例子,说明CO-STAR框架为什么有用。

假设你是一名社交媒体经理,你需要帮助起草一篇Facebook帖子来宣传公司的新产品。

没有CO-STAR的提示工程是这样的:

在Facebook上写一篇文章,为我公司的新产品做广告。我的公司名为Alpha,产品名为Beta,是一种新型超快速吹风机。

下面是GPT-4的输出结果:

介绍Alpha公司革命性的Beta吹风机!
– 告别冗长乏味的吹发过程!阿尔法隆重推出贝塔型吹风机,这是我们在护发技术方面的最新创新。
– 超快吹干:得益于先进、强劲的电机,Beta可以将你的吹干时间缩短一半。让你更快做好准备,有更多时间做自己喜欢的事情!

这种输出方式虽然够用,但却非常普通,缺乏必要的细微差别和有针对性的吸引力,无法引起公司受众的共鸣。

下面是一个使用CO-STAR模板的示例,它提醒你将任务的其他方面融入你的提示中,特别是之前的快速提示中缺少的「风格」、「语气」和「受众」方面:

#上下文#
我想为我公司的新产品做广告。我的公司名叫Alpha,产品名叫Beta,是一种新型超快吹风机。
#目标#
为我创建一个Facebook帖子,目的是让人们点击产品链接购买它。
#风格#
效仿戴森等宣传类似产品的成功公司的写作风格。
#语气#
有说服力的。
#受众#
我公司在Facebook上的受众通常是老一代人。请针对这部分受众通常对美发产品的要求,量身定制你的帖子。
#回复#
Facebook上的帖子,简明扼要而又富有感染力。

通过应用CO-STAR,GPT-4的回复变得更有针对性、更有效:

用Alpha Beta拥抱轻松优雅–智慧一代的超快吹风机。

使用Alpha Beta,重新找回简单有效的护发乐趣。我们的最新创新产品不仅仅是一款吹风机,它还是一个承诺,为那些热爱生活的人提供快速、轻柔、可靠的头发造型。

– 简单直观:告别复杂的小工具。Alpha Beta为舒适和简便而设计,非常适合那些看中直接、无忧技术的人。

– 省心技术:我们知道你的时间非常宝贵。因此,Alpha Beta可以大大缩短吹干时间,让你有更多时间享受生活的乐趣。使用Alpha Beta,让每一天都成为美好的一天。体验精致与简约的完美融合。

CO-STAR框架指导你有条不紊地向LLM提供有关任务的所有关键信息,确保根据你的需求提供量身定制的优化回复。

二、使用分隔符将提示词分段

分隔符是一种特殊的标记,可帮助LLM区分提示词的哪些部分应被视为一个意义单元。这一点很重要,因为你的整个提示信息是作为一长串标记符到达LLM的。

分隔符通过对提示词的特定部分进行区别对待,为这一语素序列塑造了结构。

值得注意的是,对于简单的任务,分隔符可能不会影响LLM的回复质量。

但是,任务越复杂,使用分隔符进行分段对LLM回答的影响就越大。

1. 将分隔符用作特殊字符

分隔符可以是任何通常不会同时出现的特殊字符序列,例如:

  • ###
  • ===
  • >>> >>>

所选特殊字符的数量和类型并不重要,只要它们足够独特,能让LLM将其理解为内容分隔符而非普通标点符号即可。

下面举例说明如何在提示符中使用此类分隔符:

将<<<CONVERSATIONS>>中每段对话的情绪分类为「积极」或「消极」。给出情感分类,无需任何其他前言文本。

 

###

对话示例

 

[Agent]:早上好,有什么能帮你的吗?

[顾客]:这个产品太糟糕了,和广告上说的完全不一样!

[顾客]:我非常失望,希望全额退款。

 

[Agent]:早上好,有什么可以帮你?

[顾客]:你好,我只想说你们的产品留下了深刻印象。它超出了我的预期!

 

###

 

输出示例

 

「消极」

 

「积极」

 

###

 

<<<

[Agent]:你好,欢迎来到我们的支持中心。有什么可以帮你的吗?

[顾客]:你好!我只是想让你们知道我收到了我的订单,而且太棒了。

[Agent]:很高兴听到这个消息!我们很高兴你对购买的产品感到满意。还有什么需要我帮忙的吗?

[顾客]:没有了。我只想给你一些积极的反馈。谢谢你们的优质服务。

 

[Agent]:你好,感谢你的联系。有什么可以帮你?

[顾客]:我对最近购买的产品非常失望。和我预期的完全不一样。

[Agent]:很遗憾听到这个消息。能否请你提供更多详细信息,以便我提供帮助?

[顾客]:产品质量很差,而且到货很晚。我真的不满意。

>>>

以上示例使用分隔符####进行分节,分节标题EXAMPLE CONVERSATIONS(示例对话)和EXAMPLE OUTPUTS(示例输出)用大写字母区分。

序言指出,要分类的对话被分在<<<CONVERSATIONS>>>内,这些对话随后在提示的底部提供给LLM,但没有任何解释性文字,但由于分隔符<<< and>>>的存在,LLM明白这些是它应该分类的对话。

下面是GPT-4的输出结果,其中给出了情感分类,但没有像我们要求的那样输出任何其他前言文本:

「积极」
「消极」

2. 将分隔符用作XML标签

使用分隔符的另一种方法是将其作为XML标签。XML标签是用角括号括起来的带有开头和结尾的标签。<tag>和</tag>就是一个例子。

这种方法很有效,因为LLM已经接受过大量XML网页内容的训练,并学会了理解其格式。

下面是同样的提示,但结构上使用XML标签作为分隔符:

根据给出的示例,将以下对话的情感分为两类。在没有任何其他前言文本。

<类>

积极

消极

</类>

 

<对话示例>

[Agent]:早上好,有什么可以帮你?

[顾客]:这个产品太糟糕了,和广告上说的完全不一样!

[顾客]:我非常失望,希望全额退款。

 

[Agent]:早上好,有什么可以帮你?

[顾客]:你好,我只想说你们的产品留下了深刻印象。它超出了我的预期!

</对话示例>

 

<示例类>

积极

消极

</示例类>

 

<对话>

[Agent]:你好!欢迎来到我们的支持中心。有什么可以帮你?

[顾客]:你好!我只是想让你们知道我收到了我的订单,而且太棒了。

[Agent]:很高兴听到这个消息!还有什么需要我帮忙的吗?

[顾客]:没有了。我只想给你一些积极的反馈。谢谢你们的优质服务!

 

[Agent]:你好,感谢你的联系。有什么可以帮你?

[顾客]:我对最近购买的产品非常失望。和我预期的完全不一样。

[Agent]:很遗憾听到这个消息。能否请你提供更多详细信息,以便我提供帮助?

[顾客]:产品的质量很差,而且很晚才送到。我对这次经历非常不满意。

</对话>

在XML标签中,使用与你在说明中用来描述它们的词相同的名词,是有好处的。

我们在上述提示中给出的指令是:

用给出的例子,将以下对话的情感分为两类,不要使用任何其他序言文本。

其中我们使用了名词「对话」、「分类」和「示例」。因此,我们用作分隔符的XML标签是<对话>、<类>、<示例-对话> 和 <示例-类>,确保LLM理解你的指令与用作分隔符的XML标签之间的关系。

同样,通过使用分隔符,以清晰、有条理的方式对指令进行分段,可确保GPT-4按你希望的方式作出回复:

「积极」

「消极」

三、使用LLM护栏创建系统提示

在进入正题之前,需要注意的是本节只适用于具有系统提示功能的LLM,而不像本文其他章节那样适用于任何LLM。

最著名的LLM当然是ChatGPT,因此我们将使用ChatGPT作为本节的示例。

1. 围绕系统提示的术语

首先,让我们来理清术语:关于ChatGPT,有大量资源几乎可以互换使用这三个术语:「系统提示」、「系统消息」和 「自定义指令」。

这让很多人感到困惑,以至于OpenAI发布了一篇文章来解释这些术语。以下是其摘要:

  • 「系统提示」和 「系统消息」是通过聊天完成API以编程方式与ChatGPT进行交互时使用的术语。
  • 另一方面,「自定义指令」是通过ChatGPT用户界面与ChatGPT交互时使用的术语。

不过总的来说,这三个术语指的是同一件事,所以不要被术语混淆了!今后,本节将使用「系统提示」一词。现在让我们深入了解一下!

2. 什么是系统提示?

系统提示是一种附加提示,你可以在其中提供有关LLM行为方式的指令。它被认为是附加的,因为它不属于你对LLM的「正常」提示(即用户提示)。

在聊天中,每次你提供新提示时,系统提示都会像过滤器一样,让LLM在回复你的新提示前自动应用。这意味着LLM在聊天中的每次回复都会考虑到到系统提示。

3. 何时使用系统提示?

你首先想到的问题可能是:既然我也可以在与LLM进一步对话之前,在新聊天的第一次提示中说明,为什么还要在系统提示中说明呢?

答案是,因为LLM的对话内存是有限的。在后一种情况下,随着对话的继续,LLM很可能会「忘记」你在聊天中提供的第一条提示,从而遗忘这些提示。

另一方面,如果在系统提示自带指令,那么这些系统提示就会与聊天中的每个新提示一起被自动考虑。

这可以确保LLM在聊天过程中继续接收这些提示,无论聊天时间多长。

总之:在整个聊天过程中使用系统提示,可提供你希望LLM在回复时记住的提示。

4. 系统提示应包括哪些内容?

系统提示中的说明通常包括以下几类:

  • 任务定义,这样LLM就能在整个聊天过程中始终记住要做什么。
  • 输出格式,以便LLM始终记住应该如何回复。
  • 安全护栏,这样LLM就能始终记住它应该如何「不」回复。安全护栏是LLM管理中的新兴领域,指的是LLM允许在其中运行的配置范围。

例如,系统提示可能如下所示:

你将使用此文本回答问题:「插入文本」。

你将以这种格式回复一个JSON对象:{「问题」:「答案」}。

如果文本中没有足够的信息来回答问题,请不要编造信息,并将答案填写为 「NA」。
你只能回答与「插入范围」相关的问题。切勿回答任何与年龄、性别和宗教信仰等人口统计信息相关的问题。

其中每个部分涉及的类别如下:

5. 但是,「正常」的聊天提示又是什么呢?

现在你可能会想:听起来系统提示中已经提供了很多信息。那我应该在聊天的 「正常」提示(即用户提示)中放点什么呢?

系统提示概述了当前的任务。在上面的系统提示示例中,任务被定义为只使用一段特定文本来回答问题,并且LLM被指示以{「问题」:「答案」}格式。

你将使用此文本回答问题:[插入文本]。

你将以这种格式回复一个JSON对象:{「问题」:「答案」}。

在这种情况下,聊天的每个用户提示都是你希望使用文本回答的问题。例如,用户提示可能是「文本是关于什么的」而LLM会回答{文本是关于什么的?文本是关于……}。

但是,让我们进一步概括这个任务示例。在这种情况下,我们可以将上述系统提示的第一行编辑为:

你将使用此文本回答问题:[插入文字]。

你将使用提供的文本回答问题。

现在,聊天的每个用户提示,都会包括要回答问题的文本和要回答的问题,例如:[插入文本]:

在这里,我们还使用XML标签作为分隔符,以便有条理地向LLM提供所需的2条信息。

XML标签「文本」和「问题」中使用的名词,与系统提示中使用的名词相对应,这样LLM就能理解标签与系统提示指令之间的关系。

总之,系统提示应给出总体任务指令,而每个用户提示应提供你需要任务执行的具体细节。在本例中,这些具体内容就是文本和问题。

6. 此外:使LLM护栏动态化

以上是通过系统提示中的几句话添加的护栏。这些护栏是一成不变的,在整个聊天过程中不会改变。

如果你希望在聊天的不同阶段设置不同的护栏,该怎么办?

不幸的是,对于ChatGPT用户界面的用户来说,现在还不能直接做到这一点。

不过,如果你正在以编程方式与ChatGPT进行交互,那你就走运了!

随着人们对构建有效的LLM护栏的关注度越来越高,一些开源软件包也应运而生,它们可以让你以编程方式设置更详细、更动态的护栏。

其中值得注意的是英伟达团队开发的NeMo护栏,它允许你配置用户与LLM之间的预期对话流,从而在聊天的不同点设置不同的护栏,使动态护栏随着聊天的进行而发展。非常推荐你去看一看!

四、仅使用LLM(无需插件或代码)分析数据集

你可能听说过OpenAI在ChatGPT的GPT-4中推出的高级数据分析插件,高级(付费)账户可以使用该插件。

它允许用户将数据集上传到ChatGPT,并直接在数据集上运行代码,从而进行精确的数据分析。

但你知道吗,使用LLM分析数据集并不一定需要这样的插件?让我们先来了解一下单纯使用LLMs分析数据集的优势和局限性。

1. LLM「不擅长」的数据集分析类型

你可能已经知道,LLM进行精确数学计算的能力有限,因此它们不适合从事需要对数据集进行精确定量分析的工作,例如:

  • 描述性统计:通过平均值或方差等指标对数字列进行定量总结。
  • 相关性分析:获取列之间的精确相关系数。
  • 统计分析:如假设检验,以确定各组数据点之间是否存在统计意义上的显著差异。
  • 机器学习:在数据集上执行预测建模,如使用线性回归、梯度提升树或神经网络。

在数据集上执行此类定量任务,是OpenAI高级数据分析插件存在的原因,这样编程语言就可以在数据集上运行代码来执行此类任务。

那么,为什么有人要只使用LLM而不使用此类插件来分析数据集呢?

2. LLM擅长的数据集分析类型

LLM擅长识别模式和趋势。这种能力源于它们在多样化和海量数据方面接受的广泛培训,使他们能够辨别可能无法立即察觉的复杂模式。

这使它们非常适合执行基于数据集模式识别的任务,例如:

  • 异常检测:根据一个或多个列值,识别偏离常规的异常数据点。
  • 聚类:将各列中具有相似特征的数据点进行分组。
  • 跨列关系:识别跨列的综合趋势。
  • 文本分析(针对基于文本的列):根据主题或情感进行分类。
  • 趋势分析(针对有时间方面的数据集):识别跨时间列内的模式、季节性变化或趋势。

对于这类基于模式的任务,仅使用LLM可能比使用代码在更短的时间内获得更好的结果!让我们用一个例子来充分说明这一点。

3. 仅使用LLM分析Kaggle数据集

我们将使用一个流行的Kaggle数据集,该数据集是为客户个性分析而策划的,其中一家公司试图对其客户聚类进行细分,以便更好地了解客户。

为便于稍后验证LLM的分析结果,我们将把该数据集子集为50行,并只保留最相关的列。

之后,用于分析的数据集将如下所示,其中每一行代表一位客户,每一列描述客户信息:

假设你在公司的营销团队工作。你的任务是利用这个客户信息数据集来指导营销工作。

这是一项分两步走的任务:首先,利用数据集生成有意义的客户细分。

其次,就如何对每个细分市场进行最佳营销提出想法。现在,这是一个实际的商业问题,LLM的模式发现(第一步)能力在这个问题上确实可以大显身手。

让我们使用4种提示工程技术,为这项任务设计如下提示:

1. 将复杂的任务分解成简单的步骤

2. 参考每个步骤的中间输出

3. 编写LLM回答的格式

4. 将指令与数据集分开

下面是GPT-4的回复,我们继续将数据集以CSV字符串的形式传递给它。

随后,GPT-4按照我们要求的标记符报告格式回复了分析结果:

4. 验证LLM的分析结果

为简洁起见,我们选取两个由LLM生成的客户聚类进行验证,例如年轻的家庭成员和挑剔的发烧友。

年轻的家庭

  • 由LLM综合得出的特征:1980年以后出生、已婚或同居、中低收入、有子女、经常小额消费。
  • 按LLM聚类为该组的行:3、4、7、10、16、20
  • 深入研究数据集,这些行的完整数据是:

这与LLM确定的配置文件完全一致。它甚至能够在我们没有事先进行预处理的情况下,对带有空值的行进行聚类!

挑剔的发烧友

  • 由LLM合成的特征:年龄跨度大、婚姻状况不限、收入高、子女状况各异、购物花费高。
  • 通过LLM聚类到该组的行:2、5、18、29、34、36
  • 深入研究数据集,这些行的完整数据是:

这也非常符合LLM所确定的特征!

这个例子展示了LLM在发现模式、解释多维数据集并将其提炼为有意义的见解方面的能力,同时确保其分析深深植根于数据集的事实真相。如果我们使用ChatGPT的高级数据分析插件呢?

为了完整起见,我用同样的提示尝试了同样的任务,但要求ChatGPT使用代码来执行分析,这就激活了它的高级数据分析插件。

我的想法是让该插件使用K-Means等聚类算法直接在数据集上运行代码,以获得每个客户聚类,然后再综合每个聚类的概况,从而提供营销策略。

然而,尽管数据集只有50行,但多次尝试后都出现了以下错误信息,并且没有任何输出:

现在使用高级数据分析插件,在数据集上执行较简单的任务(如计算描述性统计或创建图表)似乎很容易实现,但需要计算算法的较高级任务有时可能会由于计算限制或其他原因导致错误或无输出。

5. 那么,何时使用LLM分析数据集?

答案是取决于分析的类型。

对于需要精确数学计算或复杂、基于规则的处理的任务,传统的编程方法仍然更胜一筹。

对于基于模式识别的任务,使用传统的编程和算法方法可能具有挑战性或更耗时。然而,LLM擅长此类任务,甚至可以提供额外的输出,如支持其分析的附件和markdown格式的完整分析报告。

最终,是否使用LLM取决于当前任务的性质,要在LLM在模式识别方面的优势与传统编程技术提供的精确性和特定性之间取得平衡。

6. 现在回到提示工程!

在本节结束之前,让我们回过头来看看用于生成本数据集分析的提示,并对所使用的关键提示工程技术进行分析:

提示:

#上下文#

我是卖酒的。我有一个关于客户信息的数据集:[出生年份、婚姻状况、收入、孩子数量、距上次购买的天数、消费金额]。

 

#############

 

#目标#

我希望你利用这个数据集将我的客户分组,然后告诉我如何针对每个组别开展营销活动。请按以下步骤操作,不要使用代码:

 

1. 聚类:使用数据集的列对数据集的行进行聚类,使同一聚类中的客户具有相似的列值,而不同聚类中的客户具有明显不同的列值。确保每一行只属于一个聚类。

 

对于找到的每个聚类:

2. CLUSTER_INFORMATION:根据数据集列描述聚类。

3. 聚类名称:解释[CLUSTER_INFORMATION]以获得该聚类客户的简短名称。

4. marketing_ideas:产生向该客户聚类推销我的产品的想法。

5. RATIONALE:解释为什么[MARKETING_IDEAS]与该客户聚类相关且有效。

 

#############

 

#风格#

商业分析报告

#############

 

#语气#

专业、技术

 

#############

 

#受众#

我的商业伙伴。让他们相信你的营销策略是经过深思熟虑的,并有充分的数据支持。

 

#############

 

#回复:markdown报告#

<对于[CLUSTERS]>中的每个聚类

– 客户聚类:[CLUSTER_NAME]

– 简介:[CLUSTER_INFORMATION]

– 营销理念:[RATIONALE]

– 原因:[RATIONALE]

 

<附件>

列出属于每个聚类的行号列表,以支持你的分析。使用这些表头:[[CLUSTER_NAME],行列表]。

 

#############

 

#开始分析#

如果你能理解,请向我索要我的数据集。

技巧 1:将复杂任务分解成简单步骤

LLM擅长完成简单的任务,但对于复杂的任务就不那么擅长了。因此,对于像这样的复杂任务,重要的是要把任务分解成简单的步骤说明,让LLM遵循。这样做的目的是,向LLM提供你自己执行任务时会采取的步骤。

在本例中,步骤如下:

请按以下步骤操作,不要使用代码:

 

1. CLUSTERS:使用数据集的列对数据集的行进行聚类,使同一聚类中的客户具有相似的列值,而不同聚类中的客户具有明显不同的列值。确保每一行只属于一个聚类。

 

对于找到的每个聚类

2. CLUSTER_INFORMATION:根据数据集列描述聚类。

3. CLUSTER_NAME:解释[CLUSTER_INFORMATION]以获得该聚类客户的简短名称。

4. MARKETING_IDEAS:产生向该客户聚类推销我的产品的想法。

5. RATIONALE:解释为什么[MARKETING_IDEAS]与该客户聚类相关且有效。

不要简单地把总体任务交给LLM,而是让它「把客户分成几组,然后就如何向每组客户进行营销提出想法」。有了循序渐进的指导,LLM就更有可能取得正确的结果。

技巧 2:引用每一步的中间产出

在向LLM提供分步流程时,我们会给每个步骤的中间输出一个大写的变量名,即 CLUSTERS、CLUSTER_INFORMATION、CLUSTER_NAME、MARKETING_IDEAS和RATIONALE。

使用大写字母是为了将这些变量名与给出的指令正文区分开来。以后可以用方括号[VARIABLE_NAME]来引用这些中间输出。技巧 3:规范LLM回复的格式

在这里,我们要求使用markdown报告格式,以美化LLM的回复。在这里,中间输出中的变量名又派上了用场,可以决定报告的结构。

#回复:markdown报告#

<对于[CLUSTERS]>中的每个聚类

– 客户聚类:[CLUSTER_NAME]

– 简介:[CLUSTER_INFORMATION]

– 营销理念:[MARKETING_IDEAS]

– 原因:[RATIONALE]

<附件>列出属于每个聚类的行号列表,以支持你的分析。使用这些表头:[[CLUSTER_NAME],行列表]。

事实上,你甚至可以随后要求ChatGPT以可下载文件的形式提供报告,以便你在撰写最终报告时参考其答复。

技巧 4:将任务指令与数据集分开

你会注意到,在第一个提示中,我们从未将数据集交给LLM。相反,提示中只给出了数据集分析的任务说明,并将其添加到了底部:

#开始分析#

如果你能理解,请向我检索我的数据集。

ChatGPT随后回复说它能理解,我们在下一个提示中将数据集作为CSV字符串传递给它:

但为什么要把指令和数据集分开呢?

这样做可以帮助LLM保持对每条指令的清晰理解,降低遗漏信息的可能性,尤其是像本任务这样指令较长的复杂任务。

你可能遇到过这样的情况,即LLM「不小心遗忘」了你作为较长提示的一部分给出的某个指令。例如,如果你要求给出100字的回复,而LLM给你的回复是一个较长的段落。

通过先接收指令,再接收指令所针对的数据集,LLM可以先消化它应该做的事情,然后再对接下来提供的数据集执行指令。

不过请注意,只有聊天LLM才能实现指令和数据集的分离,因为聊天LLM会保留会话记忆,而用于补全的LLM不会。

参考资料:

https://towardsdatascience.com/how-i-won-singapores-gpt-4-prompt-engineering-competition-34c195a93d41

腾讯和字节的幽灵在中国AI的上空徘徊

aigc阅读(71)

2023年4月,产品经理松鹅(化名)从腾讯离职两天后,就从深圳来到北京,加入一家基座大模型的初创公司。彼时,这家公司还没什么资本追捧和用户声量,只有一个听起来挺拗口的中文名字:月之暗面。

那时候这家公司的产品团队,只有松鹅一个人。

同月,曾经在字节跳动全程参与搭建抖音和TikTok等产品的王长虎,在中美都狂“卷”文生图时,创业成立一家文生视频公司:爱诗科技。

几乎也是同一时间,在尝试了AI口语软件、AI换脸、AI心理咨询等多个AI项目之后,用户量的激增、投资人的热情让身在腾讯的万磊发现:属于AI的风口真的到了。

大模型最终要靠产品来落地,这是这些嗅觉灵敏的产品经理们看到的机会。而故事也就此开始。

松鹅来到月暗6个月后,他们做出了Kimi,又过了6个月,Kimi在全网爆了;在Sora没火之前,爱诗的产品团队已经开始重点突破“一致性”的难题,反复进行迭代优化;万磊被投资人质疑多次“AIGC应用没有核心技术壁垒,很容易被模仿”之后,在蓝驰的闭门会上遇到了刚刚从苏黎世联邦理工大学毕业,带着大模型技术的姜昱辰。一个懂产品,一个有技术,他们组成了波形智能。

如果拿移动互联网的历史来对照,一个技术渗透到普通人生活的必经之路,就是应用的井喷。大模型领域今天似乎正在经历相似的事情。每天都能看到一两个新的产品诞生,走红,被广泛讨论,它们的目标都是成为一款“AI Native”的超级应用。

而在这些看似新生的AI明星产品背后,一个有意思的现象越来越明显:

在它们身上你总能找到上个时代的影子,更确切一些,是腾讯和字节的影子——这两个中国移动互联网时期产品最强的公司,正像幽灵一样,在中国大模型产品的上空徘徊。

一、腾讯的“门徒”

腾讯的人出来,总是很“腾讯”。他们做产品,也是忠诚的门徒。

松鹅的个人栏目叫《鹅库》,而万磊存着一堆张小龙的表情包。

鹅和张小龙,都是腾讯的“图腾”。

在产品风格上,腾讯的产品经理们深受张小龙这位“微信之父”的影响。产品,是马化腾一直强调的“连接器”,它是技术和用户之间的连接,在腾讯的产品体系中,2C产品就是要把使用体验做到“极致”。

2023刚开年,松鹅还在腾讯会议团队待的好好的,用他自己的话甚至可以说是“很开心”。

它是目前最可用的会议工具之一,甚至一度可以说是腾讯继微信之后的下一个明星产品。在其他所有厂商将IM、会议、文档、OA都打包整合成一个软件的时候,腾讯把它们拆开了。

极简,是张小龙时代提出的“少即是多”的理念,而松鹅离开腾讯会议后继续执行着这样的理念。

松鹅曾在社交平台上分享道:“做一个产品,添加一个功能很容易,不添加功能迭代用户体验很难,减少一个功能最难。大部分产品都是因为不停地加功能而变的臃肿。”简直是张小龙产品语录的翻译版。

而Kimi身上确实也能找到对应的烙印。

早期打开Kimi,除了对话框,几乎什么都没有。在不断更新的版本中,它“长”出了几个按钮。

这些按钮包括了“首页”、“新会话”、“历史会话”和“Kimi+”,和Kimi的特色能力“网页链接”、“文件上传”,将核心功能凝聚成一个个按钮,是腾讯的另一个传统。

为了让用户能够了解按钮的作用,Kimi中也存在着大量的“气泡”,来进行进一步解释。不仅如此,在Logo的下方,具有文艺感的文案,句句不同。

根据松鹅公开分享的一个有意思的例子,也能看出这种腾讯的烙印并非所有做产品的人都默认的原则。尤其是,当你的团队也有了字节系的人——4月18号,在一些产品讨论中,松鹅提出在产品的某个位置需要一个文案。而“一位来自字节的同事觉得无可厚非:在字节做产品从来不会有这种要求,这不会提升转化。”他分享到。

“但这里确实得有个文案,还得是比较有功底的文案。嗯,现在差点意思。”顿了顿,松鹅讲道:“我们在腾讯做产品是这样。”

把用户的需求一个个拆到“事无巨细”,以人为本是腾讯做产品的灵魂。目前Kimi是唯一一个国内大模型,兼具了网页版、App小程序形态的大模型产品,一位独立开发者对我们反馈道:“表面上Kimi设置的网页版、APP版和小程序版和其他同类产品没有太大的差别,但当其作为插件在网页中使用时,Kimi的呈现效果要更好。”

右侧为Kimi插件

灵活的产品形态让Kimi更具有大众性和普遍性,Kimi插件可以直接翻译+整理重要信息,同时还可以进行自定义调整需求,进行个性化设置。根据公开信息,网页插件版本是开发者自发调用API生成的,并不出自月暗团队。

同样由腾讯系产品经理打磨的蛙蛙写作,产品形态上和Kimi有很多风格相似的地方。对于不同场景的拆解和功能介绍、教程导览,在很多细节上的“较真”和“死磕”。

比如,对于一款生成文本内容的AI产品,万磊的团队发现,目前的模型生成能力往往并不能够直接生成整篇可用的内容,往往部分可用需要进行二次甚至三次调整。他们给出的答案很腾讯——在大模型的生成结果中,添加了“滑词”功能,以便于AI生产后的二次优化。

与此同时,腾讯的另一个灵魂“社交”,也快速展示在这些产品身上。

大学毕业之后,万磊进入了腾讯,在全民K歌中负责社交关系链的部分,后又转到“创新项目”部门,不断追赶互联网风口,做过数字人、元宇宙游戏,陌生人交友,也做了一堆和AI相关的小项目,在不断的探索中,他对于产品的思考越来越宽。

全民K歌推出之前,K歌已经有了标杆产品“唱吧”。那时的唱吧已经吸引和培养了一大批KOL,也在产品细节比如调音、制作MV上下足了功夫。

这盘逆风局,怎么打?参考了以前微信借势QQ、企业微信借势微信的套路,全民K歌更加强调“谁在听”而不是“谁在唱”。和微信打通之后,社交关系链自然而然的转移到了K歌平台,也为后续的发展创造了土壤。

当你打开蛙蛙写作就会发现,和其他产品不同的是,它更强调社交传播,“邀请送会员”、“进群有礼”让人梦回2018年全网都在“裂变”拉新之际。

我们曾与多位Agent创业者聊过当下的创业环境,他们的反馈往往是,“如今面临的不是做不出来,而是做出来给谁用的问题”。

“找用户”,无论是在移动互联网时代还是AI时代,都是第一个核心问题。对于文案写作工具而言,写出来是一方面,给谁看是另一方面。在群里,用户可以沟通和交流经验,互相分享成果,甚至通过蛙蛙写作的渠道报名参加小说比赛。

万磊分享道:“我们光电话访谈的用户累计有上百个了,有时候我们会把关键用户叫到办公室,当着我们的面使用产品,发现问题后产品团队立刻进行调整,我们希望借助自研模型把工具做细腻做透,和市面上其他套壳的写作工具拉开差距。”

这些产品风格上的“路径依赖”正随着产品的长大而凸显,这些主观、细碎甚至有些执念的做法,很腾讯。

二、字节的“继承者”

但字节的风格几乎是光谱的另一端。体现在新的一批AI产品上,则是它不以人为载体传承,而强调一种产品逻辑上彻底的创新。

字节的人出来创业,带着的是一种做产品的方法,而不是产品的风格。

“19年的时候我们组里来了一个字节的小女生,感觉很不一样。虽然我们平时也会看数据,但明显她对数据和AB test更加敏感,所有的需求根据数据结果进行推演,包括好与不好,都是通过数据来评判。”万磊回忆道。

字节系的产品跑得比较好的,产品模型基本长得很相似且粗暴简单,推荐系统中台+足够规模化的数据input,从内涵段子到头条到抖音到后来小一点的懂车帝,番茄小说都一样,而腾讯产品做得好的产品基本离不开社交关系链。

腾讯像文科生,做产品的都是人类社会学研究学者;而字节是理科生,灌数据、做AB测试,然后跑数据,出结果。爱诗科技产品负责人牧之这样总结。

算法是整个“字节系”产品的灵魂,公开资料显示,王长虎在字节跳动负责了视觉算法平台和业务中台的搭建,用算法为代表的方法论来决定产品的样貌,这种方式同样带到了他的爱诗科技。

“推荐算法技术中台的打造是最困难的,他需要给足够的空间和自由度,让产品能够在短时间内完成更多需求测试,同时他也需要足够开放,对未来产品发展空间的承压能力和适应空间。”牧之说道。

参考移动互联网时代的抖音,几百万视频播放量时搭出的推荐算法框架,到了几百亿观看的规模,算法是不是仍然适用,仍然能够高效的分析每个用户的喜好。

这里我们举个简单例子,用双向标签对照的体系,为用户打标签,也为内容打标签,进行双向匹配,这样无论内容体量多庞大,用户体量如何增长,这样的机制能够保证实现“千人千面”。

字节系信奉这套方法论,在不同的场景、不同的行业这套方法论会出现不同的结果,也会遇到不同的难题。比如,对于爱诗来说,产品经理想设计一套机制,跑一个推荐模型,怎么让你的Tranformer或者Diffusion模型,通过产品能够拿到足够多的前期数据?

“第一重要的仍然是需要知道用户到底要什么,他要这个视频来做什么,对应到我需要什么杨的数据,第二是设计一套机制,无论是自己生产数据,采买或者爬取数据,还是强化学习来回收数据也好,input到你的模型。”牧之讲道。

所以在推出PixVerse之前,爱诗产品团队做了很长时间的时间用户调研,为了完成第一步。

通过对国内外比较核心的专业视频生产者的前期调查,爱诗发现,清晰度是用户的一个核心刚需,一致性是对视频生成模型能否成为生产力的一个更高标准,产品通过市场调查反哺技术,技术团队对此进行模型突破。

对于AIGC的使用场景,在早期根据历史轨迹的推演下,只能替代现有的一部分而很难开发新场景,且在技术发展的早期,比如文生视频的时间只能有3-4秒的高质量输出,能够满足的需求有限,产品需要找到一个合适的切入点。

有了切入点以后的下一步,是建立一个良性的算法模型。

牧之举了一个例子,在训练镜头这个事情上,如果产品能明确好当下用户其实最为需要的是一些专业性的镜头,那么你在做数据收集和数据标注以及清晰的时候,是会存在很强的倾向性的,就是需要这些专业镜头的数据, 有了这样的判断,往往能用更少的数据和更低的训练成本得到一个更好的结果。

随着用户量的增长,标注的元数据越来越多,算法也就越来越灵。

目前PixVerse在海外文生视频产品榜单中下载量连续排名靠前,也通过不停的算法优化和数据积累,形成了产品突破力,滚动的雪球开始有了实体。

三、技术与产品的新羁绊

腾讯和字节的产品风格区别,其实还暗含着一个本质的问题:技术与产品之间的平衡。

腾讯系的产品诞生和成熟于互联网时期和移动互联网初期,技术是现成的,需要产品提供的对用户需求的准确理解,来把它的价值体现出来。字节系的产品在移动互联网的另一个阶段快速成长,这时候以算法为核心的技术,本身在一种不稳定中快速进步,它带来的强大能力是头条和抖音这类产品可以出现的根本,产品经理的“上帝”的角色就让位给了算法技术。

这种产品与技术之间的牵绊在今天AI大模型时代,换了形式继续笼罩在各个产品的制造过程中。

“如今做产品和移动互联网最大的不同是,需要思考技术能解决的问题,和产品能解决的问题”。几乎我们问到的所有产品经理,都给出了这样的答案。但同样的,不同的底色依然决定着问题的答案。

对于视频生成产品,一方面模型的效果本身就与技术资源密切相关:比如显卡、显存的限制或者算力的不足会直接影响效果;另一方面,视频本身存在着大量的叙事逻辑,和对于剧情的完全可控,这导致了无法满足理想的产品形态。于是就像字节的产品那样,爱诗的产品设计也要很大程度从算法技术出发思考。

一开始大多数的视频生产产品只能生成4s的视频,但一个电影的平均单个镜头都有6秒,技术要进步如何突破时长,而产品则需要思考,即便是4s的视频,能够使用在什么场景。

而即便是在4s的限制下,仍然能解决传统的影视制作中,补缺一些空镜头和漏帧,解决重拍补拍的成本高昂的问题。

而且在底层大模型还在不停迭代的今天,对产品细节的追求,也要建立在技术差异之上,它甚至直接决定了产品的形态。Kimi和蛙蛙写作看似都是文本生成类的大模型产品,但技术能力完全不同。

众所周知Kimi擅长的是长文本的输入,能够一口气读完一本《三体》,但在应用中就会发现,Kimi的长文本输出能力不够强,无论给怎样的提示词,其输出的内容经常为1000字左右,所以Kimi的使用场景经常为“修改部分论文”、“写小红书文案”等等。

而蛙蛙写作作为一款在创意文案生成上更垂类的产品,它的核心技术能力是长文本输出和长期记忆,以小说功能作为切入点,通过对小说的背景、任务、主线剧情进行设定,蛙蛙写作往往能够生成几千字的小说内容,并能够完整保存前序剧情。对于企业级的数据库定制和固定文件的模仿输出,也更游刃有余。

“在所有文本生成中,写小说其实是最难的。它需要严格按照世界观框架输出、人物情绪刻画要到位、人物台词要足够拟人、故事反转要紧扣设定等等。即便Sora是物理世界的模拟器,它仍然需要文字先将所有的前情全部设定好,再进行生成。未来文字创作内容将作为底层,各个独立的多模态技术真正要落地,还是要被底层所调用才能有更大的价值”万磊讲道。

但相信产品依然是个“手艺活”的人们,并不会就此把一切都交给技术。

你可以看到,国内的通用大模型产品,在生成内容底部,往往会出现一个“点赞”和“点踩”的按钮,这是人类自主给大模型进行的评价和反馈。

万磊讲道:“如果让技术自己识别哪些生成内容是好的,哪些是不好的,靠技术实现很困难,但是在产品中加了一些设计,便可以反哺技术,让生成结果越来越精准。”

更重要的是,在这个阶段,产品是扔向市场的一个“钩子”,只有不断的使用、不断反馈才能不断迭代不断进化。只有产品钩得住用户,之后的一切才有意义。

“技术的高速发展最终的结果就是越来越同质化,这时候需要产品形成差异性,我认为那时候产品经理的空间将会更大。”牧之说。

从做产品的方法,到所谓的产品哲学,再到产品与技术的关系,这些决定着中国AI未来走向的问题,某种程度都在延续着腾讯和字节在移动互联网的故事,这两个幽灵会继续游荡在中国AI的上空。

国内四家云计算大厂,大模型战略出现分野?

aigc阅读(83)

今年开年以来,大模型落地越来越火热。云计算大厂有关AI业务的数据在不断刷新。就在这样的时间节点上,5月9日,阿里云在北京举办AI峰会,除了发布阶段性的进展之外,还重点向与会者介绍了阿里云的大模型生态和落地平台,为大模型落地竞争再添一把火。

而在经历一年多的探索后,国内四大云计算厂商,虽然在某些地方的打法在殊途同归,但也逐渐形成了各自的章法和节奏,出现了路径上的分野。

一、阿里云强调用开源发动生态

阿里云AI峰会上,一些阶段性数据受到关注。阿里云首席技术官周靖人介绍,在过去几个月,大模型除了在技术能力上经历了一个关键阶段外,也已经快速进入各行业。阿里云大模型API日调用量已经过亿;除了日常2C应用外,也服务了9万家企业客户;尤其在开源场景中,通义开源模型下载量已超过700万。

伴随应用的深入,阿里云看到,大模型推理算力最近几个月正在起来。这令不少阿里云人士感到兴奋。

针对最近在业界引发争论的有关大模型开源和闭源的问题,周靖人称,开源是阿里云的战略。但同时,阿里云形成的是一个开源和闭源的整体体系。

他解释开源的重要性称:“今天我们希望把大模型的能力释放出来。无论是PC端、还是手机端,将各种场景识别出来,快速搭建更加复杂的业务AI系统,其实都需要一个非常开放、开源的生态,这也是为什么全球开发者和企业都一致在拥抱这样一个体系。”周靖人说,开源的作用毋庸置疑。为此,阿里云将持续做开源。

通义已经开源了参数规模从5亿到1100亿的8款大语言模型。其中,小尺寸模型如0.5B、1.8B、4B、7B、14B,针对手机、PC等端侧设备;大尺寸模型如72B、110B能,目标是企业级和科研级应用;中等尺寸如32B,期望在性能、效率和内存占用之间找到最具性价比的平衡点。此外,通义还开源了视觉、音频、代码、混合专家模型。周靖人强调要高质量地开源,通义72B、110B开源模型,都曾登顶开源榜单Open LLM Leaderboard榜首。

业界看到,今天企业的应用上,往往因为不同需求,在不同场景下选择不同的模型。在阿里云魔搭社区,已提供4500个开源或闭源模型。

除了阶段性成果以及开源问题,在大模型火热落地的态势下,周靖人花了很大篇幅讲模型落地。在AI峰会上,阿里云推出了百炼平台2.0。此前在2023年10月,阿里云首次发布了百炼大模型平台。

周靖人告诉数智前线,这为了解决企业的快速定制问题。“真正到了业务应用场景,不是一个简简单单的场合,每一个企业都有自己特殊的需求,如果不做任何修整,让基础模型直接去对接,业务的需求是很难满足的。”

周靖人重点介绍了百炼平台的Prompt、RAG、微调能力,以及Asistant API,它能结合Prompt和各种工具,实现智能应用的智能编排。

小米、微博、众安保险、完美世界游戏,分享了与通义大模型的合作。其中小米的人工智能助手“小爱同学”,在当下火热的小米汽车su7等多类设备落地,接入了通义千问,提供图片生成、图片理解等方面的多模态 AI 生成能力。

阿里云资深副总裁、公共云事业部总裁刘伟光在峰会上称,云和AI必然是电和电机、鱼和水的关系。业界观察,阿里云的大模型商业策略,是通过开源、投资等多种动作,发动生态,来加速人工智能应用落地。这样,这家云计算大厂可以实现云和人工智能业务的螺旋上升。

二、百度华为腾讯各有侧重点

在几家云计算大厂中,百度云的规模最小,但由于在大模型上出拳最早,去年3月推出文心一言,其后在大模型、大模型工具平台、大模型对自身应用重构、大模型生态等方面,都较早开展体系化打法,也给其带来一定先发优势,上到了重要的“牌桌”上。

比如在今年开年国资委召开的“中央企业人工智能专题推进会”上,百度与华为一起,作为人工智能企业参会。最新的报道是,李彦宏在5月6日拜访了中石油董事长戴厚良,期望在“数智中国石油”建设中深化合作。

百度文心一言采用了闭源模式。百度称,一方面尝试通过自研大模型,闭源打法,在AI上能有所收益;另一方面则通过千帆大模型平台,提供多种开源大模型和工具,形成云上的商业闭环。不过,由于其规模和业务积累,百度在当下的大模型落地争夺战中也面临不小挑战。

百度云于今年春季召开首届生态大会,宣布面向三类市场——头部市场、价值市场和高潜市场,厘清与伙伴之间的分工协作边界,实现协同作战,目标是加速大模型落地。

华为大模型战略是一开始就奔着行业落地去的。2023年7月,华为云盘古大模型3.0发布,提出“不作诗只做事”的口号,陆续推出了矿山、药物分子、电力、气象、政务、金融、制造等行业大模型,在各行业展开战略合作,打造标杆。

尽管业界对盘古大模型是否算大模型,存在争议。但有业界认为,华为的打法可能是可以更快变现、且不烧钱的一条商业路径。这在当下一个基础大模型的训练,动辄几百万到大几千万、且大模型商业变现模式还没有形成业界共识的情况下,这是一种选择。

当然,与其他互联网云大厂还有一个巨大的不同是,华为提供昇腾和昇腾AI云服务,要“在新的淘金时代卖铲子”。

华为与互联网云计算大厂,或许也将在一些方面“殊途同归”。今年6月,华为将在东莞松山湖举办年度开发者大会,与往届不同的是,盘古、鸿蒙将首次联袂亮相。鸿蒙是华为的万物互联操作系统,有业界人士认为,这或许意味着,此前只做to B市场的盘古大模型,将通过鸿蒙操作系统,延伸到C端,形成与其他主流大模型厂商一样的B、C两端双布局。

而腾讯在众多投入基础大模型研发的厂商中,一直是比较低调的存在,打法也有很大不同。

作为一家有着产品基因的公司,腾讯在大模型上的打法,有着明显的“产品化”特征。自去年9月混元大模型上线以来,腾讯的重点之一是围绕自身庞大的产品矩阵,将大模型的能力直接赋能给旗下的各类SaaS产品后,对外提供服务。

这是一种“大模型全家桶”策略,其内部目前已有超400个业务在接入腾讯混元。尤其是在一些有着大量C端用户和流量的场景,如企业微信、腾讯会议、腾讯文档三个SaaS产品,都已全面接入腾讯混元大模型。腾讯乐享、腾讯电子签、腾讯问卷、腾讯云AI代码助手等协作SaaS产品也在今年4月实现了智能化升级,对外服务。

此外,除了在自家的基础大模型上折腾,腾讯也和阿里一样,是多家大模型创业公司背后的“金主”。国内目前中国估值前五的生成式AI独角兽中,阿里的参投率为100%,腾讯则是60%,分别为百川智能、智谱 AI 、MiniMax 3家。深言科技、无问芯穹等大模型公司也曾进入腾讯投资列表。

大模型的竞争,还远未到终局。而四家云计算厂商,已经逐步形成分野。

在线教育出海掘金,攥紧AI

aigc阅读(59)

当国内的在线教育进入存量争夺后,不少教育科技类公司为寻求新增长,将目光望向了海外。然而教育不同于普通商品,面对历史、人文、政治、经济差异悬殊的海外市场,虽有着巨大潜力,但实现本土化运营并非易事。

值得注意的是,由于全球化合作所衍生的“中文热”现象,海外市场在中文职业教育、高等教育以及K12教育上有着很明确的中文需求。落地是中文赛道的海外市场空间,能够通过ToB或ToG模式实现规模效益。

权威数据平台Statista预测,到2026年,全球在线教育市场规模或达到3700亿美元,年复合增长率超过20%,这为走向海外市场的中国企业描绘出一幅充满想象力的发展蓝图。

自去年3月以来,伊朗和沙特在中国的斡旋下达成和解,以海合会六国(沙特、阿联酋、卡塔尔、科威特、阿曼、巴林)为代表的中东国家纷纷摆脱石油依赖,制定多元化发展战略,中东市场正在主动加大中文教育在国民教育体系中的比重。

2023年8月,沙特媒体《沙特公报》称,沙特政府已将中文作为第二官方外语纳入教学课程;2022年9月,埃及教育部启动试点项目,将汉语作为选修外语纳入全国12所中学的课程;2019年起,阿联酋在境内100所学校开办汉语班,从小学一年级起教授汉语,直到十二年级。

反观国内市场,在线教育行业“大变天”近三年,绝处求生取代烈火烹油,成为了这三年的主旋律。

前有猿辅导卖羽绒服、后有新东方直播带货,更不要提一些在线教育企业还尝试卖咖啡、做餐饮,教育企业们竭尽所能地挖掘潜在可能性,以期在停滞中找到新的增长机会。

这其中,教育出海这条路,因为相较之下依然没有离开教育主业,而且全球教育市场蕴藏着巨大机会,让很多在线教育企业,从可选项变成了必选项。

当AI大模型掀起新一轮的技术变革,并带来了汹涌的国内AI出海浪潮后,在线教育企业们也找到了AI教育产品出海这个新的突破口,加速了出海步伐。

2024年,作业帮旗下海外产品Question.AI拿下近200万周活跃用户、字节跳动海外教育产品Gauth全球用户规模破2亿……出海战报纷至沓来,这些消息就如同一颗颗石头,在平静的湖面上激起浪花。

浪花泛起的涟漪,还在向四周扩散。

这些表征正预示着,2024年将是在线教育企业出海的突破之年。值此节点,霞光社来盘点一下AI这把火烧向教育科技出海以后,是否能燃起让在线教育行业重回巅峰的燎原之势。

一、字节教育、作业帮,在海外战AI

“双减”以来这近三年,在线教育行业已经少有令人振奋的消息传出,以至于这一次,AI教育产品出海一拿到一些成绩,就很快抢夺了人们的视线。

根据data.ai相关数据,在4月21日至4月27日这一周,Question.AI的活跃用户达到181万,下载量达21.4万,Gauth的活跃用户达624万,下载量达22.1万。点点数据显示,字节海外产品Gauth的应用简介提及,用户量已经突破了2亿。

在data.ai教育应用商店排名的排行榜上,Question.AI和Gauth,和Duolingo,曾多日霸占了美国教育榜TOP3的席位。5月6日,这两款产品也位居前五。

种种迹象表明,2024年,在线教育企业们的AI产品出海,行至潮头。

不过,这并非在线教育企业们的出海产品第一次引发关注。早在四五年前,国内在线教育企业就已经率先瞄准海外数学学科拍搜市场,扬帆起航。

2020年底,字节跳动面向海外市场上线了拍照搜题工具Gauthmath,也就是Gauth的前身,主要解决初高中的数学问题,以AI搜索分析为主,并辅以人工导师,最终给出解题答案。上线一年多之后,Gauthmath累计下载量就超过了1亿,曾排名50多个国家教育类榜单首位。

而猿辅导在2019年发现旗下小猿口算出现了不少海外用户,这之后出海便是顺其自然。应运而生的CheckMath,同样瞄准数学学科,提供AI搜题服务,通过聊天或者拍照提出问题,就可以获得详细的答案讲解。

根据点点数据,CheckMath最早版本出现2019年,但到2021年之后,才开始频繁版本更新。官方称,截至2023年9月,CheckMath已经覆盖了包括美国、马来西亚在内的超过100个国家,覆盖用户超过5亿。

时间来到2024年,Gauth和Question.AI能够抢夺人们的眼球,核心是新一轮AI浪潮的加持。

事实上,包括猿辅导的CheckMath在内,这三大产品在过去一年,都在基于AI大模型进行关键迭代升级。

在这一轮的迭代升级中,AI教育产品一边在用户交互体验层面进行优化,另一边则是进行扩展,以提供更广学科和范围的解题参考。

CheckMath在2023年5月以来的版本更新中,定位从“Instant Homework Helper”(即时家庭助手),一步步优化成了“AI Question Solver”,应用更加强调是基于全新AI模型驱动的AI学习家教,回答更为直接、精确和形象。

而Question.AI从2023年5月上线之初,就赶上了新的AI浪潮,不是仅仅针对数学一门学科,而是还涵盖了数学、历史、生物、英语、物理、化学这些学科。其在官方介绍中提及,这款产品是一款基于GPT-4的产品。

字节跳动是在2023年下半年,也将Gauthmath升级为Gauth,使用了 GPT-4和Bard的技术支持,并正式将可解答科目扩展到全科,覆盖的科目相较Question.AI更为广泛,包括数学、统计学、微积分、物理、化学、生物、经济学、文学、商科、写作、社会科学及其它学科。

在AI浪潮的翻滚下,国内在线教育企业们的AI出海教育产品,在海外营造出了一派繁荣的景象。

二、在更广袤的市场,寻找突围机会

海外教育市场就如同一片漂浮的蓝海,吸引着无数从业者挤进这股掘金潮。

毕竟,“双减”后,国内在线教育市场被泼下一盆冷水后急速压缩,国内拍照搜题相关教育APP的管控政策也在不断收紧,作业帮、题拍拍、小猿搜题等软件都进行了整改。

相较于国内,全球教育市场,意味着更大的体量、更广阔的机遇,是一片等待开发的广袤之地。

在宏观市场规模层面,全球在线教育市场的市场规模在持续上探。有报告指出,近年来,全球在线教育市场增速已多年保持在两位数,2024年全球在线教育市场规模已经达到了数千亿美元。北美、欧洲、亚洲是在线教育市场的主要地区,尤其是亚洲市场增长迅速。

具体到微观的市场环境,海外用户的订阅付费意愿更高、更成熟,也为教育产品出海提供了一个能够快速成长的土壤,让这些产品即便是在早期就能够开始做订阅付费,更早开始商业化。

更重要的是,相较国内,AI教育产品在国外能够更近距离接触GPT、Claude、Bard等大模型的API。性能更优、更加开源的大模型技术升级,让国内教育产品能够更快实现产品创新,提供更优的用户服务。

过去这一年,一场AI掀起的淘金热潮在全球兴起。

斯坦福大学的“2024年人工智能指数报告”指出,2023年生成式AI领域的投资额,和2022年约30亿美元相比增长近8倍,达252亿美元。据Pitchbook报道,2023年亚马逊、微软、苹果、英伟达、谷歌、Meta和特斯拉七家公司在AI领域投了246亿美元,而2022年仅为44亿美元。

聚焦到AI教育产品这个细分市场,更是有无数的新产品出现。

在七麦榜单的全球教育榜单TOP100中,至少有10个都是解题软件。除了Question.AI之外,Answer.AI、Nerd AI、Solvo、Solvely、Quizard AI这五个AI教育产品“新兵”,都是在2023年成立。其中,Answer.AI也是国内一家创业公司开发的出海产品。

字节Gauth、作业帮Question.AI 争相出海,可谓是在紧紧抓住新一轮时代浪潮下的机会。

三、碾压,or被碾压?

AI科技变革,让这些出海的教育产品,迎来了一个小阳春。只是在一片繁荣之下,这些出海AI教育产品,在更广阔的市场闯荡,也面临着更多未知的风险。

最明显的就是,行业蓬勃的另一面,意味着更加残酷的竞争正在蔓延。曾经的头部在线教育选手,在全球市场上的处境是:前有老将,后有新兵。

一方面,老牌产品如Photomath以拍照解题工具的定位扎根深厚筑起高墙。同时,Photomath已经被谷歌收购,背后也必然有来自谷歌的技术支持。而另一老牌产品Mathway则是被Chegg收购,Chegg也已经接入GPT-4,在快速迭代着。

有数据平台统计了4月iOS和安卓双端的日活和收入,Photomath日活能达到Question.AI的10倍还多,收入则达到六倍。

另一方面,Answer.AI、Nerd AI这些崛起的“新兵”,也是强大的竞争对手。Answer.AI自2023年7月产品上线,据其一位联合创始人透露,在去年就已经获得了上百万的注册量。

Gauth和Question.AI在用户规模层面依然和老牌拍照搜题软件有所差距,与此同时,AI教育新兵的体量也在快速攀升,大家在同一个市场里进行竞争,竞争还在加剧。

除却外部环境,仅从产品本身而言,字节Gauth、作业帮Question.AI在体验感受、准确性等层面,依然很难让用户满意。

有多位用户在社交平台反馈,在Gauth和Question.AI的体验过程中,依然会存在无效答题、乃至答错题目的情况。在重点强调的数学科目中,尽管大部分情况下能够给出正确答案以及解题思路,但依然不能保证绝对正确。

此外,做出海产品,要考虑做一手的市场用户调研、考虑商业化变现、考虑本土化设计运营,就连“将办公室设在哪里”、“在国内招人还是去海外组团队”都还是横亘在很多创业公司面前的难题。出海中的每一环都考验着出海企业的能力,其中的难度不难想象。不懂海外市场、水土不服,出海产品很快就会掉入未知鸿沟,陷入生存陷阱。

一言以蔽之,出海究竟是掘金,还是踩坑,是将中国的互联网产品发展速度带到海外,还是在海外市场上被本土企业碾压,AI教育产品当前还尚未有答案。

四、教育出海,靠AI能否掘到金?

教育从业者们有一个共识是,“教育是一个慢行业”,从商业化、到出海,相对游戏、电商等行业,总是要慢上一拍。

但即便如此,教育出海也已经有着十年的历史,从2013年左右互联网科技企业拉开出海帷幕时,在线教育也同样向海外探索。

早在2014年,好未来就以投资的方式出海,投资了美国创新型大学Minerva,2015年网龙还并购了一家英国的教育科技公司。接下来,科大讯飞、网龙、希沃这些公司加速技术出海,在教育信息化这个领域,比如硬件大屏、智慧教室等,将中国的软硬件解决方案带到海外。

同时,国内在线教育行业的发展下,中国的在线教育产品也加速走到海外。比如ABCMouse、伴鱼、宝宝巴士这些幼儿启蒙产品,都拥有一定体量的海外用户。有道在2016年就上线了工具产品有道海外版U-Dictionary,到2020年时,这款产品全球安装量就已经超过了1亿。

此外,火花思维、美术宝这些在线素质教育机构也在加速课程服务出海。2022年,火花思维就先后在新加坡、北美成立了独立的教研团队,进行本土化的教学研发。

这些年里,从资本出海到工具出海、课程服务、内容出海,教育企业们八仙过海、各显神通,不断将国内的模式带到海外。

毋庸置疑,教育企业出海这些年,拿到了一些结果。然而时至今日,教育出海早已步入“深水区”,依然少有“成气候”的成功案例,很难说,教育企业出海,能够再造出下一个“新东方”。

但归根结底,科技变革、产品创新才是通向未来的必由之路。AI教育产品出海刷屏,完全是通过技术创新为用户带来全面的体验升级。2024年,AI将为教育科技赛道的繁荣提供强大推动力。

今年,中国AI集体出海的热度持续升温,除了AI教育产品之外,在视频工具、图像工具、在线营销这些细分赛道中,聚集了包括Meira、PixVerse、WiseAI等一批大厂、创业者的新产品。

只是,这些火热的AI应用,还没有长出真正的巨头。做AI教育产品,当前很难说,这就是一条成功之路。

而且从模式层面,一些投资人不太看好背靠GPT的产品。风险投资机构Earlybird Ventures的投资人Marieke Gehres曾表示,仅仅把生成式人工智能贴上教育科技产品的标签是不够的,应该是利用AI增强一个本身就已经很强大的产品,就像Duolingo一样。

但很多创业者认为,在教育这个垂直场景中,用户有一定专业性的刚需,也就是说,细分赛道的产品做好研发和用户体验,还是有其壁垒的,难以被通用型AI大模型所取代。

OpenAI创始人山姆·奥特曼坚信AI将会重塑教育行业,早在去年,他就曾在一次演讲中专门提到,看好AI对于教育行业的赋能,尤其是AI一对一辅导。

AI对于教育的影响必然是深远的,字节Gauth、作业帮Question.AI的出海探索,虽然当前只能说还在早期阶段,距离发展成真正的AI教育巨头,还有很远的路,但不可否认,抓住科技革命的浪潮,他们已经撕开了一个新的口子。

大模型在智能客服领域的应用思考

aigc阅读(61)

前言

随着大模型技术的飞速发展,其在商业化应用的落地实践上仍面临着挑战,不论是面向C端用户的付费服务模式,还是面向B端企业的业务赋能策略,目前都尚未形成成熟且清晰的商业模式。

在我所专注的智能客服领域,作为人工智能落地应用的前沿阵地,我深刻感受到大模型的生成能力、泛化能力以及增强检索等核心技术的巨大潜力。基于此,我构想了一系列应用方向,并期望通过分享结合大模型工具的实验经验,与大家共同探讨这些可能性。

一、呼入场景

客户服务领域,无论是在线聊天还是语音交流,都已成为了现代业务运作中不可或缺的一部分。目前,基于NLP(自然语言处理)、ASR(自动语音识别)和大数据等先进技术,已经涌现出了一系列智能化的客户服务应用。

然而,这些产品在功能边界和特色上往往差异不大,难以在激烈的市场竞争中脱颖而出。大模型的加持,从运营成本和用户体验上考虑,也许可以为这一领域带来了新的发展机遇。

1. 问答机器人

在呼入场景中,问答机器人(包括在线客服机器人和语音导航机器人)的广泛应用凸显了ASR转译准确率和NLP自然语言处理语义理解能力的重要性。在实际业务运营中,为了提升问答机器人的识别准确率,往往需要维护一个尽可能大的相似问题库。

然而,这种维护方式不仅耗时耗力,而且需要大量的运营成本。考虑到大模型的泛化生成能力,我们可以设想一种创新的方法:通过输入特定的prompt(指令),让大模型生成更多的相似问题,经过业务审核后入库。这种方法有望显著降低运营成本,同时提升问答机器人的识别准确率。为了验证这一想法,使用了文言一心、Kimi助手等大模型工具进行了实验,如下:

2. 话务小结抽取

席在接听完一通会话后进行话务小结是一个重要的环节,用于记录通话的核心内容、问题以及解决方案等信息。传统上,这个过程需要坐席在通话结束后手动输入,既耗时又可能因人为因素导致信息遗漏或偏差。

大模型的主题抽取能力可以用于自动生成小结,坐席只需审核确认后录入,这有助于缩短通话时长,提高效率。验证如下:

3. 多轮对话的处理

多轮对话在问答机器人技术中向来是颇具挑战性的环节,目前主要局限于特定的简单场景,由运营人员在流程画布上进行详细设定,涉及多个交互节点和路径。

为了更灵活、精准地响应客户的问题,我们可以借助大模型的生成能力和增强的检索功能。这种方法在阿里的相关文章中得到了具体体现(参考:https://mp.weixin.qq.com/s/0THyHxpuIo9MI8MY9tLHiA),即通过大模型生成提示性的快捷短语,引导用户更明确地表达需求,同时结合增强的检索技术,缩小答案的搜索范围,从而生成更为可靠和准确的回答。

二、呼出场景

在当前的AI外呼场景中,虽然普遍采用基于预设流程的问答模式,结合ASR(自动语音识别)和NLP(自然语言处理)技术来执行外呼任务,但这种方式在个性化服务和转化率提升上存在一定局限性。借助大模型的生成能力,我们可以实现更为智能化的外呼策略。

具体来说,通过大模型分析不同用户的属性标签,如年龄、性别、兴趣偏好、消费习惯等,AI外呼系统可以为用户定制差异化的呼叫内容和方式,真正做到“千人千面”。验证如下:

三、后线管理应用

1. 智能质检规则的泛化

在搭建质检系统的过程中,作者从0到1深度参与,深刻体会到了质检规则维护的复杂性和重要性。这些规则通常涉及关键字识别和正则表达式的使用,需要业务团队投入大量时间和精力去详细罗列和测试,以确保质检的准确率。

然而,借助大模型的泛化能力,我们可以极大地提升这一过程的效率和效果。大模型能够通过学习大量的数据,自动生成与业务相关的关键字和正则表达式,从而帮助业务团队减轻工作量,并提高质检规则的全面性和准确性。以正则表达式验证如下:

2. 坐席知识库

传统坐席知识库在搜索和匹配信息时,依赖于搜索引擎、索引、关键字匹配或语义理解进行排序,这种方式可能导致用户查找信息耗时较长,并且高度依赖于知识维护人员的规范性和及时性。大模型能力也许会将未来的知识库搜索体验进行颠覆性的改进。

具体想法如下:首先,将知识库中的信息进行结构化处理,并存储到向量库中。这样,知识库中的每一条信息都能以向量的形式存在,便于进行高效的数学运算和相似性比较。接着,将这些向量数据投喂给大模型进行训练,为后续的搜索和生成任务打下基础。用户搜索时,给出明确promote指令,大模型将相关的内容检索出来,再直接生成内容返回给到用户。

这和当前使用的一些大模型助手的情况相似,举例说明,如:给出近三年的国内GDP数据。

结束语

以上是我基于对大模型能力的理解以及对客服业务场景的洞察,所产生的一些初步思考。这些思考得到了我在开源工具上进行的验证的支持,尽管目前这些思考尚显零散,但我期待能与各位同仁共同探讨和完善。

再者,在探讨大模型在业务场景中的落地应用时,我们不可忽视垂直领域的训练优化。每个行业都有其独特的业务逻辑和需求,因此,通过针对垂直领域的特定训练,能够进一步提升大模型的性能和适应性。

最后,在实际落地过程中,我们需要保持开放的心态,勇于提出大胆的假设,但同时又要谨慎求证。为了降低风险并加速验证过程,建议在前期采用插件化的形式来逐步验证和优化大模型的应用效果。

又土又丑的黏土AI,为什么火了?

aigc阅读(52)

最近,网上出现大量“黏土”风格的人物照片。尤其是在小红书、微信朋友圈等社交平台,这类型的分享数量急剧上升,一股浓浓的《小羊肖恩》风。

这些照片大部分来自一个叫作Remini的手机APP。这是一个AI修图软件,用户上传照片,选择滤镜风格(比如黏土风),照片就生成了。过程很简单,就是给照片加了一个滤镜。

不过,这个滤镜比较特殊,它的作用不是美颜,相反,生成的照片还有点丑,更准确地说,是“丑萌”。但就是这种独特的风格,很是让网友上头,引发大量分享传播。

在AI大模型的加持下,图像类的软件有了更多样的玩法。此前,主打AI写真的妙鸭相机火过一阵,现在,黏土AI滤镜能火,并不让人意外。

值得探究的是,为什么出圈的总是AI图像类软件?黏土AI能火多久?

一、丑萌的黏土滤镜,是怎么火起来的?

丑萌丑萌,是很多人对黏土滤镜(Clay)的评价。这个风格的照片,不仅跟常规的美颜不同,甚至让人变得“面目狰狞”,有一丝阴森的感觉。如下图:

图源 / 小白斯基

不过,正是这种非常规、有反差的效果,激发了人们的好奇心和分享欲。

五一假期是旅游高峰,人们在社交平台晒出各种打卡照片,如果再加上一个黏土滤镜,既省去了美颜修图的麻烦,还能因独树一帜的风格获得更高关注点赞。

也正因此,黏土滤镜火爆出圈是在五一假期期间。

从一开始,黏土滤镜就不是为了美颜,而是带有一定程度的搞怪。所以很快,各种表情包和电影剧照就被盯上了。

假期传播很广的一组照片,是黏土版的甄嬛传剧照。

图源 / 网络以及相关的表情包。

图源 / 峰千朵

乍一看图片,还以为甄嬛传出了动画版。

这些原本就在网络上很有辨识度的照片,经过黏土滤镜的加工改造和二次传播,吸引更多人来体验。一些博主发帖后,评论区很多人询问怎么玩,相关的攻略也自发被创造出来了。

随后,更多的表情包和剧照被加上了黏土滤镜。

图源 / 北极星

图源 / 阿月浑子树

网友们自发创建了一个“黏土世界”,真实世界里的照片在这里被玩坏了。

一位跟风体验了Remini黏土滤镜的用户对「定焦」总结:这款滤镜对细节处理还不错,比如选黏土滤镜的时候,除了人脸以外,衣服、衣服上的图案,背景里的书架、玩具、桌椅也都变成了黏土风,画面比较和谐。另外,它会根据图片场景做一些联想,比较智能。这名用户上传了一张她拿着气球在海边的图片,生成的照片在背景里加了两只海鸥,气球则被变成了小鱼的形状。

Remini是一个国外软件,目前在国内只上架了iOS应用商店,苹果手机可以下载使用,安卓用户只能“求助”他人。一些受好奇心驱使的安卓用户去博主的帖子下留言,发出自己的照片,让博主帮忙加上黏土滤镜。在小红书上,很多黏土滤镜相关的帖子下,评论区呈现出“接力”现象。

还有人在闲鱼等二手交易平台,挂出有偿定制的链接,价格从1张1元到十几元不等。

“有限供应”的场面,更引起了网友的好奇,加速了黏土滤镜的传播和出圈。在苹果App Store免费榜中,Remini连续好几天排在第一。

但既然是AI生成,就避免不了“翻车”。

图源 / 忧郁的大鹅

输出不稳定、局部生成错误,是所有AI大模型的通病。例如这张图片里,帽沿和眼睛的位置错位了。

二、会不会是昙花一现?

Remini是一款付费软件,包周68元,新用户有7天免费试用期。这一波刷屏的热度之下,很多用户是抱着尝鲜的心态开启试用,然后马上取消订阅。这样既能免费使用7天,还能避免到期后自动扣费。

68元一周的价格并不便宜。作为对比,ChatGPT的会员是20美元/月,相当于34元/周。Remini的价格是ChatGPT的两倍。

有不少试用过Remini的用户明确表示,试用期满后不会付费。“太贵了,我试用就是玩一下,付费就算了。”有用户说。

类似的“羊毛党”不在少数。

一位用户称,她为了体验黏土特效,打开Remini APP没看到免费7天试用,直接扣了68元的订阅费。她赶紧联系后台申请退款,果断取消了订阅,然后又在设置里把自动续费关了。

多位AI从业者对「定焦」说过,在国内做toC的AI产品,用户付费意愿弱是一个很大的挑战。“大家习惯了‘白嫖’,9块9都觉得贵。”一位投资人直言。

7天的免费试用期之后,还有多少人留存下来继续付费,才能更真实体现Remini对国内用户的吸引力。

如果只有黏土滤镜这一个功能,68元包周的价格确实是贵了。不过,Remini的功能远不止于此,甚至黏土滤镜功能这次能出圈,都有意外成分。

Remini在国外很早就火了。它最早是以修复模糊照片和老照片出名,在苹果App Store的介绍中,它重点提到了这个功能,通过移动分界条对比修复前后的照片清晰度作为产品卖点。

去年,凭借”看看你宝宝未来长啥样”、”AI衰老滤镜”等特色功能,Remini在海外大火,尤其在TikTok平台上,大量用户转发AI生成的自己未来孩子的照片,让Remini快速走红。Remini借此取代META的Threads,在美区App Store排名第一,并连续霸榜一周时间。

根据SimilarWeb截至2024年1月的数据,在“全球访问量最高的50款AI产品”榜单上,Remini在网页端排名第二,仅次于ChatGPT,在APP端排名第五。

最近Remini在国内大火,其实是海外热度在国内的延续,它不是凭空出现,而是一个爆款产品推出了一个新功能,再次走红了。也是基于之前的市场基础,Remini才有底气在国内收取68元/周的订阅费。

黏土滤镜的技术原理不复杂,有业内人士认为,借助LoRA模型,用一定数量的黏土风格照片,就能训练出模型的风格和特征,生成滤镜的过程就相当于AI重绘。

此前,很多大模型应用都能改变照片风格,生成更具特色的照片。比如ChatGPT中曾有GPTs专门生成《辛普森一家》风格的照片。

或许是因为黏土滤镜用于训练的素材多来自国外,有人反馈加了滤镜之后的人物特别像外国人。然后人们发现Remini又推出了一个瓷娃娃滤镜(Jade),这被一些博主称为“更适合中国宝宝的特效”,又掀起一波讨论。

黏土滤镜(上)和瓷娃娃滤镜(下)的对比

图源 / 喵喵

从这里可以看出,Remini对于市场的敏锐度非常高,产品迭代很快。它的订阅模式之所以按周,而不是按月,或许也是考虑周包的续费反馈较快,方便产品做迭代。

Remini的黏土滤镜出圈之后,美图秀秀也上线了类似功能,并免费开放使用,但市场先机已经被Remini抢占了。

三、AI爆款产品,可以批量复制吗?

如果再往前追溯,Remini的前身,其实是一个由中国公司开发的产品。

大觥科技在2019年推出“你我当年”APP,利用AI技术修复模糊照片和老照片,它的海外版本就是Remini。这两个版本分别在国内外成为了热门爆款。

它们当时能火,也是通过具体的小功能出圈。“你我当年”当时最受好评的一个功能是“明星童年修复照”,那些复原后的照片在网上广泛传播,创造了很多话题,受到追星粉丝们的喜爱。

AI修复的林青霞 图源 / 网络

2022年,大觥科技启动数字人业务,试水直播电商场景,随后Remini被卖给了意大利公司Bending Spoons。去年Remini在海外爆火,以及这次国内刷屏,都是Bending Spoons操盘的结果。

一款五年前就已上线的产品,当年火过,中途火过,今天还能火,说明不是偶然。

图像类工具软件是一个很容易出爆款,但热度很难持续的赛道。多位投资人曾对「定焦」分析,工具类软件的生命周期比较短暂,可替代性很强,不仅商业前景弱,竞争壁垒也很低。曾经刷屏的脸萌、ZAO,都避免不了昙花一现。

而这一波AI大模型浪潮,大家都在寻找爆款AI应用。Remini的再次出圈,让大家看到了突破产品生命周期限制的可能性;操盘手Bending Spoons则证明了AI爆款产品是可以批量复制的。

Bending Spoons是一家很神奇的公司,它的模式跟所有AI公司都不同。它旗下有一大堆爆款产品,大部分是买来的,然后经过自己操盘改造,再造爆款。

除了Remini,被Bending Spoons“收购+改造”的产品还有专业相机应用Focos、视频编辑器Splice、照片和视频编辑应用Filmic、活动初创公司Meetup,以及印象笔记美国公司Evernote。

跟风险投资机构看中财务回报、大厂看中战略协同不一样,Bending Spoons收购的都是那些已经被市场初步验证过的产品,然后按照自己的想法,重新做产品、营销和商业化设计。它会重写APP的软件代码,改变软件架构,修改用户界面,调整收费模式,让原有产品变得更受欢迎,且更赚钱。

比如被苹果官方评为优秀APP的Focos,这原本是一个由中国开发者开发的产品,上线之后很快就在美国、日本、俄罗斯等市场积累了不少用户,后来被Bending Spoons收购。收购之前,Focos用户活跃度很高,但变现率不高。Bending Spoons接手后,非常大胆地推进商业化,很快就把用户付费率提上来了。

这种模式非常考验操盘手的运营能力,这家公司就像一个APP工厂,跟国内的字节跳动有点像。

根据Bending Spoons披露的数据,它旗下产品MAU(月活跃用户)约1亿。Sensor Tower数据显示,今年3月Remini在iOS端的收入为400万美元。

作为国内为数不多在toC领域出圈的产品,Remini最值得国内厂商学习的是,怎么在产品设计、运营方面有更多创新,通过提升用户体验和参与度来推广产品,而不是一味卷参数、秀技术。毕竟,技术如果不落实到产品,就只是纸上谈兵。

或许过不了多久,黏土滤镜这阵风就会过去,厂商们又得琢磨其他新功能了。