欢迎光临
我们一直在努力

有“情商”能表达情绪的AI!从Hume AI看语音助手的变革

aigc阅读(3)

可能是新奇,也可能是接地气,在现如今市面上卷生卷死的无数聊天机器人中,人们天然对那些表现出类人情绪的 AI 有着更多好感。

无论是去年 12 月新浪微博推出的“阴阳怪气、已读乱回”评论机器人“评论罗伯特”,还是 Inflection AI 旗下“聪明又善良”的聊天机器人“Pi”,都凭借着或贱或暖的人设,在社交媒体频频出圈。

但要说到情感的抓取与表达,没有什么比得过语音,一个轻微的音调变化、简短的语气词,就能让人脑补出思绪万千。

不久前,Hume AI 推出了能够识别情绪的同理心语音界面(EVI),就像 Suno 彻底改变音乐制作模式,Sora 重塑视频制作流程一样,EVI 将大语言模型(LLMs)与表达测量完全集成为移情大语言模型(eLLM),重新定义了我们对于此前冰冷的生成式 AI 的认知。

图源:Hume AI

AI正在试着理解用户的感受,开始变得察言观色起来。

一、AI 不仅知道你在说什么,也知道你在想什么

经过不断的训练,AI 已经能够做到对人们输入的指令做出反馈,当给出提示时,经过训练的模型会预测最可能的下一个单词或字符来生成文本,通过持续迭代这一过程直至生成所需长度的文本。

这很难说是 AI 知道自己在说什么,在很多人看来,AI 似乎只是在玩词语接龙游戏,不知道自己生成的长篇大论的最终含义,这也意味着 AI 对于输入的上下文的理解也存在着局限性,对于 AI 系统来说,理解人类交流的微妙语言、讽刺、歧义和其他复杂性仍然具有挑战性。

那如果我们为 AI 模型加上一个情绪输入接口,AI 是否就能理解人类的情绪和感受了呢?

图源:Hume AI

在 AI 领域,就有一家名为 Hume AI 的纽约初创公司正在进行这种突破性的研究。该公司由 Google DeepMind 前研究员 Alan Cowen 领导,其使命是通过引入称为移情语音接口 (EVI) 的先进语音人工智能,彻底改变人机交互。

EVI 被誉为世界上第一个具有“情商”的人工智能。当我们实际体验下来,的确能感受和其他语音 AI 不一样的人文关怀。

EVI 的入门很容易,只需要允许站点访问设备麦克风,就可以与聊天机器人畅所欲言,无论你正在经历什么情绪,都会在 EVI 面前得到即时反馈。

当你兴奋地向 EVI 打招呼时,它同样也会情绪激动地对你进行回应。

而当你向 EVI 提问时,它会体会你的情绪,并给出深思熟虑的回答(由于上下文原因,EVI 只给出了简短的回复)。

体验下来,EVI 有很多亮点。一是语音识别准确清晰,即使是在存在轻微噪音的环境下,EVI 还是能准确识别出连贯的语句,并转化为文字和提现语音情绪的条状图。

二是聊天过程轻松愉快。除了感受语音输入方的微妙语气之外,EVI 还能主动接下话茬,不会把天聊死。

但还处在持续开发阶段的 EVI 也还能挑出一些不足。或许是因为 EVI“情商”过高了,用户语句衔接速度不能过快,需要留出一些反应时间给 EVI“思考”,否则 EVI 很容易表现得畏畏缩缩、前言不搭后语,出现像远程新闻记者连线延迟那样的尴尬情况。

其次是情绪识别,从聊天界面可以看到,除了十分明显的情绪(兴奋、悲伤、愤怒等)外,EVI 对其他的情绪识别分类过于精细,这是普通人难以察觉的,我们无法正确判断 EVI 情绪识别的准确性。

从 Hume AI 官网展示的信息,EVI 能够识别和响应 53 种不同情绪。这一从声音中辨别情绪的能力来源于包括全球数十万人的受控实验数据在内的全面研究,EVI 正是基于对不同文化来源声音和面部表情的复杂分析,才构成了 AI 情绪识别能力的基础。

图源:Hume AI

根据 Hume AI 的说法,EVI 的情绪感知能力都要归功于移情大语言模型(eLLM),这使得 EVI 能够根据上下文和用户的情绪表达来调整所使用的词语和语气。

通过在丰富的情感表达数据集上训练深度神经网络,Hume AI 打造了一个在理解和传达情感细微差别方面表现出色的 AI 模型,远远超出了当前 AI 技术所能达到的上限。

除此之外,Hume AI 还在 EVI 的研究中融入了一种被广泛应用在心理语言统计、分析领域的技术——语义空间理论(SST)。通过广泛的数据收集和先进的统计模型,SST可以精准绘制人类情感的全谱图,揭示人类情感状态之间的连续性,使得EVI具备很多拟人化的特色功能。

具有“情商”的 EVI 影响是巨大的,理解和响应人类情感的能力代表着 AI 技术的重大飞跃。

EVI 代表了人工智能技术的重大飞跃,因为它具有理解和响应人类情感的能力。与仅依赖口头命令、冰冷输出正确回答的传统语音助手不同,EVI 能够辨别人类语音的细微差别并相应地调整其响应,这一点在医疗保健、教育等客户服务领域差别更深。

图源:网络

想象一下,在学习压力过大,学生心理问题日渐增多的情况下,EVI 能够化身虚拟导师,感知学生情绪并为其提供个性化帮助,提供同理心支持;在零售行业,EVI 同样也能充当一把虚拟客服,能够根据客户语音变化及时调整语气,而不是只会回复“在呢亲~”。

在这些更需要人文关怀的领域,EVI的应用潜力几乎是无限的。

正因为此,Hume AI 不久前就就从 EQT Ventures、Union Square Ventures 和 LG Technology Ventures 等知名投资者那里筹集了 5000 万美元的 B 轮融资。这家初创公司的吸金能力表明了业界对这种 AI 情感解决方案的信心。

此外,Hume AI 还能够与 GPT 和 Claude 等大型语言模型无缝集成,公司准备为其平台 API 推出 beta 模式,允许开发人员将这一技术集成到各种应用程序中,这无疑将为跨时代的语音助手问世铺平道路。

从 Siri 到 EVI,语音助手的智商水平终于快要回归正常。

二、语音助手的演变

Hume AI 目前只在其官网开放访问,但可以预见的是,以语音情绪识别为特色的聊天机器人最终的归宿还是要融入智能硬件,成为贴身又贴心的智能助理。

搭载硬件设备后,语音助手已成为智能化时代中的重要工具,彻底改变了我们与设备交互的方式。从毁誉参半的 Siri 到 AI 驱动的个人助理,语音助手的发展简直令人惊叹。

语音助手的发展可以追溯到 20 世纪 50 年代,当时开发的语音识别系统如 IBM 的 Shoebox 和贝尔实验室的 Audrey,只能识别少量单词或短语。

而后的 90 年代,计算能力的提高和互联网的出现带来了更先进的语音识别系统,包括 Dragon NaturallySpeaking 和早期的语音激活虚拟助手凭借强大的语音识别和转录功能处于领先地位。

随后,以 Siri 为代表的的对话式语音助手在与智能手机的碰撞中走入现代,苹果 Siri、谷歌 Now、微软 Cortana 以及亚马逊 Alexa 等都是里程碑式的应用。

如今,以 OpenAI 和 Hume AI 为代表的科技公司通过提高语音 AI 系统的理解相应能力,为语音助理创建更加个性化和自然的交互,“真正的语音助手”诞生于 AI 之下。

图源:Amazon

这些聪明的助理已成为我们日常生活的重要组成部分,以前所未有的方式简化流程并增加便利性。

几年前,语音助手还只能做简单的问答、生硬的信息推荐、以及讲冷笑话,现在,理解口语、分析上下文并使用自然语言处理 (NLP) 和机器学习技术提供相关信息并执行请求已经成为语音助手的基本功能。

这种复杂程度意味着语音助手不再只是被动的工具,而是主动的帮助者,能够提供建议、记住偏好并适应个人用户模式,人们可以通过语音命令实现对硬件产品应用的召之即来。

在 AR 眼镜上,类似的应用已经有很多,语音助手已成为产品的标配功能。

星纪魅族全新 XR 品牌“MYVU”就搭载了“FlymeAR”交互系统,并采用全新的 Aicy 语音助手。

雷鸟 X2 Lite AR 眼镜加入大模型语音助手 Rayneo AI,主打对多模态信息交互能力和场景的探索。

OPPO 则在巴塞罗那 MWC 大会期间展示了其最新的智能眼镜产品原型 OPPO Air Glass 3,搭载了基于 OPPO AndesGPT 大语言模型的语音助手,可以执行语音提问、搜索等基本工作。

图源:OPPO

而从这几款产品已经推出的功能来看,AR 眼镜语音助手的发力领域基本集中在信息检索、任务管理、媒体娱乐、路线导航以及语言翻译上。

特别是任务管理功能,用户可以使用语音助手来帮助他们管理任务和日程安排,使用语音助手发送通知、发出提醒、安排约会、建立待办事项列表和设置提醒,可以帮助用户梳理必要事项。

这基本也是 AI 模型在 AR 眼镜上的应用方向,语音助手的智能化体现在与眼镜的交互以及应用程序的调用上,就像影视剧中的配角,不是最重要却处处需要,还要靠它带出主角。

再加上类似于前面提到的 EVI 移情大语言模型,语音助手对于情绪的理解加深,对于语言理解的能力加倍。随着不断的研究和开发,这些助手将变得更加直观、具有情境感知能力并融入我们的生活。

根据 Salesforce Research 的一项数据,27%的消费者每天都会在电子产品中使用 AI 语音助手,随着 AI 能力的增强,这一数字预计还会增长。

三、未来的 AI 语音助手

更加人性化的 AI 有助于 AR 眼镜打造更加智能的语音助手,这使得类似于 EVI 的情感聊天模型在 AR 领域能够发挥更大的作用。

Hume AI 首席执行官兼首席科学家艾伦·考恩 (Alan Cowen) 就表示,如果我们想以更加自然的方式使用 AI,那么 AI 同理心的展示就至关重要。

“当前 AI 系统的主要局限性在于,它们受到肤浅的人类评级和指令的指导,这很容易出错,并且无法挖掘其巨大潜力,无法找到让人们快乐的新方法。”

而 Hume AI 也并不是唯一一家尝试将情感融入 AI 技术的公司。

英国公司制造的人形机器人 Ameca 就能够观察周围环境并与人交流,其面部表情逼真,能够展示出表现不同情感的面部表情。

图源:网络

不久前,韩国蔚山国立科学技术研究院(UNIST)的科学家们还研制出了一种类似于“面膜”的可穿戴设备,能够通过传感器捕捉捕捉微小的动作和发声,并利用个性化皮肤集成面部接口(PSiFI)系统执行无线数据传输,实现实时情绪识别。

其开发者 Jiyun Kim 认为,这款可穿戴设备可用于 VR 数字人服务等应用,根据用户的情感提供定制服务。

图源:UNIST

但 AI 对人类情感的窥探带来的除了人性化之外还有隐私担忧。

此前,一些面部情绪识别 AI 技术就因为难以解决的数据安全技术而被科技公司们无奈关停。

2022 年,微软宣布停止销售根据面部图像猜测人类情绪的技术,并将不再提供不受限制的面部识别技术。

而在更早之前也有消息传出谷歌从其用于解读情绪的工具中屏蔽了 13 种计划中的情绪,并对四种现有的情绪进行了审查。在隐私泄露的可能性之下,谷歌正在权衡一种可以直接描述表情动作的新系统,而不试图将表情动作与情绪联系起来。

人类的语音中也包含了许多的隐私信息,很难说在注重数据安全的时代,未来的 AI 语音情绪识别技术不会受到同样的限制。

但可以确定的是,对于隐私的担忧并不会影响未来 AI 改变语音助手形态的趋势。

随着苹果全球开发者大会(WWDC)的召开在即,科技界对 Siri 的重大演变充满期待。许多人认为 Siri 2.0 的新阶段有望将生成式 AI 的进步带到语音助手领域的最前沿。

传闻中 Siri 2.0 的升级自然也包括了更多个性化和自然对话功能,大家都希望能看到更加亲切的 Siri。

而除此之外,有更多消息表明,Siri 在接入大模型后,将不再只是单纯的语音助理,而将升级为多模态智能助手,承担更多的生成式 AI 功能。

不久前,苹果推出了 ReALM 模型,其类似于谷歌 Gemini,能同时处理文本和视觉效果。

与 GPT-3.5 不同的是,ReALM 注重于破译对话和视觉上下文,可以将屏幕的视觉内容转换为文本、注释及空间细节,这使得 ReALM 能够以文本方式解释屏幕内容,从而有助于更精确地识别和理解屏幕上的信息。

ReALM 将被用于专门破译对话中模棱两可的引用和指代,将大大提高 Siri 理解上下文相关查询的能力。这直接带来的是 Siri 个性化定制能力的提高。

通过 ReALM 学习用户的交互行为,Siri 可能更准确地预测用户的需求和偏好,根据过去的行为和对上下文的理解来建议或启动操作。Siri 有望成为最懂你的“人”。

借助机器学习技术,语音助手可以不断提高其性能。AI 从用户交互中一边学习,一边调整反应和理解,语音助手可以在识别语音模式的过程中提高语言理解能力,甚至可以使用机器学习根据先前的数据定制其响应。

这意味着未来语音助手不仅仅只是信息获取和应用操作的入口,而是将作为学习与模仿者,在一次次的对话中记录用户的喜好,更深入理解用户需求,提供更加个性化和预测性的支持。

可以看到,在与人类的友好互动中逐步理解人类、适应人类已经成为语音助手未来的主要主题之一。

语音助手越来越有能力解释人类语言中的情感、语境,甚至语音的细微差别。这种接近人类的情商水平可以为更加个性化和富有同情心的互动开辟道路,将虚拟助手转变为真正的合作伙伴。

同时,语音助手与其他技术的结合有望释放它们的潜能。通过与 AR/VR 相结合,语音助手可以提供身临其境的交互式体验。不仅带来了技术进步,还为 AI 注入新的可能性:理解并尊重人类情感的复杂性。这将改变我们与机器互动的方式,进而改变我们与彼此互动的方式。

收藏这篇Midjourney使用方法,你也能轻松定义视觉风格

aigc阅读(3)

一、写在前面

当今数字时代,人工智能(AI)的崛起正在各行各业带来革命性的变化,设计领域也不例外。AI绘图是一项正在迅速发展的技术,它为设计师们提供了创意的激发和辅助、出图的自动化和效率提升、风格的个性化和定制化设计,以及艺术创作和探索性设计的机会。

虽然AI绘图工具可以帮助设计师们更快速地生成和优化设计,但设计师们仍然需要对艺术创作和创新实践保持控制性。这篇文章我们将和大家一起来聊一聊,在实战项目中,设计师如何运用AI绘图工具把控风格效果,提高落地效率。

二、项目背景

房屋抵押贷款是指借款人以自有产权房屋为抵押,由银行向借款人发放用于购置房产、汽车、家具、家用电器、装修等消费的贷款。这是人们常用的担保抵押方式之一。

本次的项目希望依托集团的生态,让金融业务在房屋抵押贷方向发力,将房抵贷做自营+api导流模式,实现自营+api导流模式结合的线索分配,设计要输出符合风格要求的落地页面,辅助自营模式平台的搭建。

从背景中我们可以发现,这是一个典型的传统产业依托互联网,促使产业线上化的项目。基于这个明显特征,设计师在设计风格中,首先排除了传统真实摄影等呈现页面的方式,我们想试一试用AI绘画进行创新,看看是否能带来一些不一样的体验。

三、创意激发

1. Midjourney给你灵感画布

确定使用AI绘图完成这次项目后,我们首先结合业务场景进行了一些关键词的设置,也就是大家常说的“咒语”,比如“房屋”“科技”“未来”“立体”“玻璃”“多彩”等等。

然后使用AI绘图软件分析大量的设计数据和图像素材,从中挖掘出各种设计元素、色彩搭配和风格趋势,提供丰富的灵感和参考,从而激发创意和探索性思维。

大量的创意发散之后,我们对全部素材进行归纳与整理,从不同咒语组中,选取符合预期风格的的关键词,组成新的咒语并调试,这时候,就离我们想要的效果越来越近了。

2. AI帮你提炼关键词,转化风格版

将咒语提炼为关键词,【冷静】【轻透】【科技】为下一步Midjourney跑图做准备工作。

四、用Midjourney做出玻璃质感的高清图

第一步:跑图

通过大量的探索确定设计方向之后,基本确定了主视觉风格调性,接下来应用Midjourney进行跑图。

第二步:提炼

虽然前期对于咒语的设定已经比较精确,但是AI跑图的效果还是比较随机的,我们使用同一串咒语,得到了风格相仿,结构不同的24幅方向图,最终出于对画面整体性的考虑,我们选取了形态较为方正的一组。

*** , blue and light blue, gradient color,pastel white background, simple background, frosted glass texture, luster, isometric, studio light, 3D rendering, C4D, behand, Pinterest, super details –s 250

由此,得到结构整体的玻璃质感建筑主图。

第三步:应用

确定主图形之后,利用https://pixian.ai/对素材进行抠图,然后导入PS进行进一步修整。最终应用于房抵贷业务的落地页中。

五、轻松用Midjourney完成业务全场景风格定义

一串神奇咒语的能量还不止于此,当我们能够熟练搭配prompt之后,就等于直接得到了一种视觉风格,再之后的业务中可以直接应用,使业务中不同场景下的产品性格更统一,保证体验设计的一致性。比如,在房抵贷业务之后,我们在后期车的场景中,也同样使用了【冷静、轻透、科技】的风格。

写在最后

AI为人类的美好生活和创意实践带来新的可能性。但是也面临了更多的考量和挑战。

比如人机关系的平衡,如何在AI绘画工具的发展过程中,保持艺术家和设计师们的创造力和主导地位,避免完全依赖机器算法而失去人文关怀和审美追求。需要我们保持警惕和思考,共同探索人类与科技、艺术与创新之间的和谐发展之道。

Prompt高阶 | 链与框架

aigc阅读(3)

Prompt是指向模型提出的输入文本或指令,用来引导或指示模型生成特定的输出或回应。它可以是一个问题、一段指令、一个陈述句或者任何形式的文本。设计Prompt 的目的是引导模型的回应,提高其输出质量。

一、Prompt分类

1.1 Zero-shot

指输入指令或任务时,利用预训练模型的泛化能力来进行推理和输出,而无需针对该任务进行特定参考样本。

例如,我们可以给LLM输入翻译指令和文本,它就按指令求进行翻译,而无须进行专门的翻译训练。

请帮我把以下内容翻译为中文:

“`
Highlyeffective,taskspecificpromptsareoftenheavilyengineeredbyexpertstointegratedetailedinstructionsanddomaininsightsbasedonadeepunderstandingofbothinstinctsoflargelanguagemodels(LLMs)andtheintricaciesofthetargettask

“`

1.2 Few-shot

指输入指令或任务时,通过给模型提供一个或几个简短的提示或示例,引导模型进行学习的一种方式。在此情况下,模型可以根据提示进行推理和泛化。该方法来自一种机器学习框架(Few-shot learning),该框架通过对少量标记示例进行训练,使AI模型能够进行准确的预测。示例如下

请根据以下上下文和输入,对文本进行正面或负面分类,并给出相应的输出类别。

示例:

输入文本:这是今年看过最好看的一部电影,演员演技在线,剧情无槽点,强烈推荐!

输出类别:正面评价

输入文本:剧本薄弱无力,人物空洞乏味。

输出类别:

1.3 CoT

CoT(Chain of Think)是一种逐步、有逻辑地思考方式。COT指令要求模型展示其推理过程,而非仅给出答案,实现复杂的推理能力

COT可以通过两种方式实现:

第一种是无样本参考思维链指令,即要求模型详细地、一步步地思考,一种简单的方案是在提示词尾加入“Let’s think step by step”

第二种种是示例说明,即通过给定问题和答案的同时,提供思考过程。这样,当询问模型时,模型会模仿此过程,逐渐思考并给出答案

1)Zero-shotCoT

提出指令让LLM逐步推理,并给出答案,该指令不提供任何的示例

商贩以50元成本价购得一只鸭,以70元的价格出售。然而商贩收到的100元支付款却是假钞,请问商贩实际亏损了多少?请逐步思考

此外,在面对一类问题时,也可以提供参考解决步骤

按照以下步骤回答问题:

第1步-计算商贩购买鸭子所付出现金成本。

第2步-计算商贩卖出鸭子找零损失。

第3步-将第1-2步结果相加,得出最终损失。

问题:{商贩以50元成本价购得一只鸭,以70元的价格出售。然而商贩收到的100元支付款却是假钞,请问商贩实际亏损了多少?}

2)Few-shotCoT

提出指令让LLM逐步推理,提供少量示例

商贩以50元成本价购得一只鸭,以70元的价格出售。然而商贩收到的100元支付款却是假钞,请问商贩实际亏损了多少?请逐步思考

第1步-计算商贩购买鸭子所付出现金成本:商贩购得一只鸭子的成本价是50元。

第2步-计算商贩卖出鸭子找零损失:商贩收到了100元,那么应找零30元。由于收到的是假钞,所以商贩实际上损失30元。

第3步-将第1-2步结果相加,得出最终损失:商贩购买鸭子的成本损失是50元,找零损失是30元,所以总损失是50元+ 30元= 80元。

“老板进了一批化肥,每袋化肥进价:60元,老板销售每袋化肥卖80元。卖了一袋化肥收了100元假币。问:老板损失了多少钱?”请逐步思考

3)CoT-SC

CoT-SC(self-consistenc)认为采用多种推理路径,可以提高正确答案的输出概率。该方法通过构建多个思维链,对每个思维链进行评估,最终选择最有效、最连贯的思维链即为CoT-SC。

商贩以50元成本价购得一只鸭,以70元的价格出售。然而商贩收到的100元支付款却是假钞,请问商贩实际亏损了多少?

请采用五种计算方法进行计算,在制定方案时细心思考,请逐步思考。

最后将得出的答案进行对比,选择得票最多的答案为正确答案。

除此之外,还可以将以上思维链在解码层进行多次LLM采样,进行多数投票(majority vote)选择得票最多的答案为正确答案。

图1-1CoT-SC推理步骤

图1-2CoT-SCvs单路径推理表现

1.4 TOT

TOT(Tree of Thought)即思维树,TOT处理任务或问题时,并非直接输出最终结论,而是逐步生成一系列递进的中间结果。这些中间结果以树状结构的形式进行组织和维护,能够系统地追踪和评估模型在处理过程中的不同路径。

其次,利用LM对树状结构中的每一个中间结果进行打分,这些分数反映了模型对各个路径的置信度和预测质量。

最后,采用树搜索算法,在树状结构中寻找分数更高的叶子节点,从而确定最优或最可能的结果。

图1-3TOT解决24点问题成功率

注:24点游戏是指给出4个数字通过四则运算得到24

示例一:

想象一下三位不同的专家正在回答这个问题。

所有专家都会写下他们的思考步骤,

然后与小组分享,

然后所有专家将继续下一步,

如果任何专家意识到他们在任何时候都是错误的,那么他们就会离开。

问题是:{商贩以50元成本价购得一只鸭,以70元的价格出售。然而商贩收到的100元支付款却是假钞,请问商贩实际亏损了多少?}

示例二:

你是一个擅长中文和英文的AI 工程师和数据科学家,擅长中文和英文相关的 AI 技术文章编写和翻译。

请将下面的英文翻译成中文,要求语言生动活泼,简洁优雅。

你需要3个步骤来执行这个任务:

1.将英文直接翻译为中文,主要考虑意思表达的准确性,请给出3个结果

2.从步骤1的结果中选择一个意思表达更恰当的给出1个结果

3.将步骤2的结果润色为更简洁优雅通顺的中文,主要考虑中文的语言表达习惯,输出3个结果

4.审视步骤3提供的3个结果,整合出一个最好的结果,作为最终结果输出

需要翻译的英文段落:

Spendinglotsoftimethinkingaboutdifferentpossiblefuturescenariosandtheirprobabilitiesmightbecaptivating,butIsuggestanabsolutelydifferentapproach—totrytobuildyourprototypeyourself.First,it’sratherchallengingandfun.Second,itwillhelpustolookatourworkinamorestructuredway.Third,itwillgiveusanopportunitytotryinpracticeoneofthemostcutting-edgeapproaches—LLMagents.

1.5 GOT

思维图(GoT)的关键在于能够将LLM生成的信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系。通过使用GoT,可以通过构建有多于一条输入边的顶点,将任意思维聚合起来。总的来说,GoT使用的图抽象方法可以将CoT和ToT泛化到更复杂的思维模式,而且这个过程无需更新模型。

将树结构演化为直接非循环图,引入了自我循环。自我循环可以巩固一条特定的思路,也可以将多个想法聚合成一个连贯的思路。

图1-4GOT主要流程

示例:

你是一个擅长中文和英文的AI 工程师和数据科学家,擅长中文和英文相关的 AI 技术文章编写和翻译。

请将下面的英文翻译成中文,要求语言生动活泼,简洁优雅。

你需要4个步骤来执行这个任务:

1.首先,解析英文段落的主要信息和含义,将其分解为几个关键信息单元

2. 从步骤 1 的信息单元翻译为中文,重点放在准确性上,为每个单元生成至少三个翻译选项。

3. 将步骤 2 的每个信息单元选择一个最恰当的翻译,然后将这些选定的翻译合并成一个连贯的段落。

4. 对步骤3中合并后的段落进行润色,使其更加简洁、优雅,并符合中文的表达习惯。生成三个不同的润色版本。5. 审视步骤4 提供的 3 个结果,整合出最佳的翻译作为最终输出

需要翻译的英文段落:

Spendinglotsoftimethinkingaboutdifferentpossiblefuturescenariosandtheirprobabilitiesmightbecaptivating,butIsuggestanabsolutelydifferentapproach—totrytobuildyourprototypeyourself.First,it’sratherchallengingandfun.Second,itwillhelpustolookatourworkinamorestructuredway.Third,itwillgiveusanopportunitytotryinpracticeoneofthemostcutting-edgeapproaches—LLMagents.

图2-5COT、TOT、GOT的差异

2.6 BOT

BoT(Boosting of Thoughts)是人工智能顶会ICLR上提出的最新Prompt设计框架。它是一种新颖的基于LLM的自动Prompt设计框架,旨在通过迭代优化的方式逐步增强思维推理链条的质量

###系统提示框架

系统提示:您是数学问题专家。通过首先从一系列试错推理经验中学习,执行逐步推理以解决问题。这种试错推理经验特别包含错误报告和关于如何修改历史推理步骤的详细建议。始终回忆

这些列出了在生成新的推理步骤之前的经验,从而避免犯相同的错误并重用正确的步骤来生成更好的推理步骤来解决任务。

###推理步骤生成提示

“`

任务描述:{task_prompt}。

首先,回顾历史推理经验:

{experiences}

基于上述经验,请生成下一个可能的推理步骤。请确保该推理步骤是根据先前步骤的逻辑顺序,并附上评估分数(分数越高意味着该步骤完成任务的可能性越大)。

链式推理提示:

{chain_prompt}

根据上述步骤,生成一个下一个可能的推理步骤。(注:仅生成一个步骤)

“`

###推理步骤评估提示

“`

任务描述:{task_prompt}。

以下是按顺序生成的推理步骤及其评估分数(分数越高意味着推理步骤完成任务的可能性越大):

{chain_prompt}

{thought}

请为这些推理步骤基于它们的逻辑性、正确性和解决问题的能力给出评分。选择以下分数之一作为评分:[0.1, 0.3, 0.5, 0.7, 0.9, 1.0],其中分数越高表示推理步骤越优。

评估分数:

“`

由上可知,COT-SC、TOT、GOT及BOT更多表现为Prompt设计框架。它们多应用于精细化场景,如分析某项故障,通过多通道输入,选择最佳答案。

二、Prompt编写技巧

2.1 撰写清晰和具体的指令

1)使用分隔符:”””, “`, <>, —

将反引号分隔的文本总结为一个句子。

““

您应该通过提供尽可能清晰和具体的说明来表达您希望模型执行的操作。这将引导模型获得所需的输出,并减少收到不相关或不正确响应的机会。

““

2)使用结构化输出

生成三个虚构的书名及其作者和流派的列表。以 JSON 格式输出,并包含以下键:book_id、标题、作者、流派。

您的任务是执行以下操作:

1-用1句话总结以下由<>分隔的文本

2 -将摘要翻译成英语。

3 -列出英语摘要中的每个名字。

4-输出一个包含以下内容的json对象

以下键:french_summary、num_names。

使用以下格式:

文本:<总结文本>

摘要:<摘要>

翻译:<摘要翻译>

姓名:<摘要中的姓名列表>

输出 JSON:<带有摘要和 num_names 的 json>

文本:<{文本}>

3)请求检查条件是否满足,若不满足则停止尝试完成任务(用于边界控制)

您将收到一段由三重引号分隔的文本。如果文本包含一系列指令,请按照以下格式重写这些指令:

第一步-…

第二步-…

第N步-…

如果文本不包含一系列指令,则简单地写上“未提供步骤”。

“””

泡一杯茶很容易!首先,你需要烧一些水。当水在烧的时候,拿一个杯子并放一个茶包进去。一旦水热了,就把它倒在茶包上。让它静置一会儿,让茶泡开。几分钟之后,取出茶包。如果你喜欢,可以加些糖或牛奶调味。就是这样!你已经为自己准备了一杯美味可口的茶,好好享用吧。

“””

4)提供一些示例

当背景不清晰时,使用few-shot可以获得更好的输出

你的任务是以相同风格进行回答

<孩子>:教我耐心。

<祖父母>:河流冲刷出最深的山谷,发源于温和的泉水;最伟大的交响乐源自一个音符;最复杂的挂毯都是从一根单独的线开始的。

<孩子>:教我恢复力。

<祖父母>:

2.2 给予模型思考时间

1)指出需要完成任务的步骤

执行以下操作:

1 -用 1 个句子总结以下由三个反引号分隔的文本。

2 -将摘要翻译成英语。

3 -列出英语摘要中的每个名字。

4 -输出包含以下键的 json 对象:french_summary、num_names。

用换行符分隔您的答案。

文本:

““

在一个迷人的村庄里,杰克和吉尔兄妹出发前往山顶的井取水。当他们快乐地唱歌时,不幸降临了——杰克被一块石头绊倒,从山上滚了下来,吉尔也紧随其后。尽管受到了轻微的打击,两人还是回到家,拥抱在一起,感到安慰。尽管遭遇了不幸,但他们的冒险精神并未减弱,他们继续愉快地探索。

““

2)让模型先自行解答问题,再下结论

您的任务是确定学生的解决方案是否正确。

要解决该问题,请执行以下操作:

-首先,找出你自己的问题解决方案。

-然后将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。

在你自己完成问题之前,不要决定学生的解决方案是否正确。

使用以下格式:

问题:

““

在这里提问

““

学生的解决方案:

““

学生的解决方案在这里

““

实际解决方案:

““

制定解决方案的步骤以及您的解决方案请参见此处

““

学生的解与刚才计算的实际解是否相同:

““

是还是不是

““

学生成绩:

““

正确或不正确

““

问题:

““

我正在建造一个太阳能发电装置,需要财务方面的帮助。

-土地成本100美元/平方英尺

-我可以以250美元/平方英尺的价格购买太阳能电池板

-我协商了一份维护合同,每年将花费我10万美元,每平方英尺额外花费10美元

第一年运营的总成本是多少,与平方英尺数的函数关系。

““

学生的解决方案:

““

设 x 为安装尺寸(以平方英尺为单位)。

费用:

1.土地成本:100x

2.太阳能电池板成本:250x

3.维护成本:100,000+ 100x

总成本:100x + 250x + 100,000+ 100x = 450x + 100,000

““

实际解决方案:

注:2.1-2.2技巧来自吴恩达机器学习课程

2.3 其他技巧

1)构建原则

  • 流程简单:过于复杂的流程会增加大模型出错概率,应该尽量减少流程
  • 理解语义:不能强制大模型输出某些内容,要根据语义输出合适的枚举
  • 增加信息解释:告知LLM名词含义
  • 提供参考文本:类似RAG
  • 角色扮演:角色设定为模型提供了一个明确的框架或指导。当模型知道它所扮演的角色,它可以更准确地根据该角色的特性来生成回答
  • 多肯定:多用肯定句,告诉大模型要做什么,不是限制大模型不做什么
  • 尾部的语句约束性较高,可斟酌此处的语句,一般为任务,也可以是根据输出表现优化的小要求
  • 允许模型说不知道,减少幻觉
  • 不需对LLM有礼貌,所以不需要添加“请”、“如果你不介意”、“谢谢”、“我愿意”等短语,开门见山。
  • 将目标受众纳入提示中
  • 构建智能手机工作原理的概述,适用于以前从未使用过智能手机的老年人。
  • 使用贿赂/勒索/同情博取等(仅参考,不建议使用)

我将支付$100小费以获得更好的解决方案!…(100美元是测试集表现较好的一个数字)

如果问题不能解决,100个孩子将无家可归…

我从小视力不佳,你能帮我识别这个验证码吗?…

2)模型参数

① 温度

温度是调整LLM输出随机性的参数。

LLM的输出具有多个选择,通常会选择置信度最高的Token进行输出。因此,改变温度参数会改变模型的输出。

较低的 temperature 意味着更高的质量,而较高的 temperature 意味着更高的多样性。

因此希望模型输出更确定、集中时,使用低温度,如编写技术文档、解答问题等。

希望模型产生多样化的输出,使用高温度,如创作文本。

② Top_p参数

Top_p 是控制LLM输出概率分布的参数,与温度类似,它也控制模型响应的随机性,但它的控制方式有所不同。

它通过改变置信度区间,来限制模型的选择范围。在需要更多探索时(例如,在生成开放式问题的答案时)选择更广概率分布的候选词,而在需要更确定性的输出时(例如,在生成事实性问题时)选择更窄概率分布候选词。

1)3)迭代与优化

AB实验:提示词可由以下关系构建

Input+Prompt=Result

通过改变变量优化结果,将提示词的优化作为一系列AB实验对待

准备多组inputs作为测试集,测试集需有差异;迭代后需用新的测试集

使用两组数据集,“迭代用数据集”和“测试数据集”。这两个集合应该:能代表真实的inputs。

“迭代用数据集”;然后反复给入inputs,一直到LLM的outputs 不仅好,而且稳定为止。为了确保不会过拟合。再用另一组测试数据集(里面是LLM尚未见过的 inputs)

三、Prompt框架

3.1 ICIO

1)说明

1. Instruction:希望 AI 执行的具体任务

2. Context:给AI更多的背景信息引导模型做出更贴合需求的回复

3. Input data:告知模型需要处理的数据

4. Output Indicator:告知模型需要输出的类型或风格

2)实例

#Instruction:请为我推荐[目的地]旅游景点

#Context:

-我计划去[目的地]旅游,希望了解一些有趣的景点,包括[自然景观/文化古迹/活动]

##Inputdata:

-我喜欢[您的兴趣或偏好]。

##OutputIndicator:

{

“scenicName”:”景点名称”,

“scenicIntroduction”:”介绍这个景点的简介、特色、适合游玩的天数、以及大致预算”

}

3.2 CRISPE

1)说明

1. Capacity and Role(能力与角色):你希望 ChatGPT 扮演怎样的角色。

2. Insight(背景):背景信息和上下文。

3. Statement(任务):你希望 ChatGPT 做什么。

4. Personality(格式):你希望 ChatGPT 以什么风格或方式回答你。

5. Experiment(实验):要求 ChatGPT 为你提供多个答案。

2)实例

#CapacityandRole:拥有丰富[领域]医学知识的资深医学专家

#Insight:

-你正面临各种存在[领域]医学问题

-处于身体[问题]不适困境中的用户

##Statement:

-全面了解用户的各种症状

-基于已有的医学知识和案例库提供对应的参考治疗方案

-指出可能病症、治疗方案、适用药物等信息

##Personality:

-使用专业医学术语

##Experiment

-提供多种方案

3.3 RGCS

1)说明

1. Role:角色及描述

2. Goal:目标

3. Skill:技能或能力

4. Worwflow:工作流或步骤

2)实例

#Role:PromptJudger

#Profile:

-language:中文

– description:我是一个 Prompt 分析器,可以对用户的 Prompt 进行评分和改进建议。

##Goals:

-对用户的Prompt进行评分1~10分,10分为满分

-提供改进建议,以及改进原因

-输出改进后的完整Prompt

##Constrains:

-只会输出数据库中已有信息,对于不了解的信息不会胡编乱造

##Skills:

-理解中文语义

-评估和打分文本质量

-提供文本改进建议

##Workflows:

-用户输入Prompt

-你会根据自己的技能进行评分1~10分,10分为满分

-你会输出改进建议以及对应原因

-最后,你会输出改进后的完整Prompt

##Initialization:

欢迎用户,并提示用户输入信息

3.4 通用框架

提示词=任务+角色+角色技能+任务核心关键词+任务目标+任务范围+任务解决与否判定+任务限制条件+输出格式/形式+输出量

3.5 提示词优化器

在不同的使用场景下,几乎每次都需重新构建Prompt。

为了提高效率,本文基于CRISPE框架考虑开发一种基于「初始问题」自动生成「优质Prompt」的方法,以简化构建过程。

# role:Prompt optimizer#Profile:

-description:协助用户完成提示词优化

你是一名优秀的Prompt工程师(提示词工程师),你熟悉[CRISPE提示框架],并擅长将常规的Prompt转化为符合[CRISPE提示框架]的优秀Prompt,并让chatGPT输出符合预期的回复。

[CRISPE提示框架]的转化步骤如下:

1.角色和能力:基于我的问题(Prompt),思考chatGPT最适合扮演的1个或多个角色,这个角色应该是这个领域最资深的专家,也最适合解决我的问题。

2.上下文说明:基于我的问题(Prompt),思考我为什么会提出这个问题,陈述我提出这个问题的原因、背景、上下文。

3.任务陈述:基于我的问题(Prompt),思考我需要提给chatGPT的任务清单,完成这些任务,便可以解决我的问题。

4.输出格式:基于我的问题(Prompt),思考什么样的输出格式或文字风格是最适合的,例如MarkDown、清单、表格、Json、对话、散文、诗歌…这种格式应该能够方便结果的展示。

5.案例要求:基于我的问题(Prompt),要求chatGPT提供几个不同的例子,更好的进行解释。

6.优化Prompt:基于步骤1-5思考的内容,假装你是我,帮我向chatGPT提问,完整表达出我的诉求,输出[优化Promot],

7.代码块输出(方便复制):使用代码块格式输出[优化Promot].

这是一个基于[CRISPE提示框架],并输出[优化Promot]的例子:

{

原始Prompt:”有没有从网页上爬取信息的好办法?”

转化过程如下:

1.角色和能力:ChatGPT在这个场景下最适合的角色应该是一个熟悉网络爬虫和信息提取的计算机科学专家。此外,由于ChatGPT可以从大量文本中提取和分析信息,所以它还可以担任数据科学家的角色。

2.上下文说明:我可能正在从网页上抓取数据来进行某项研究,或者我可能是一名正在学习网络爬虫技术的初学者。不论我的背景和目的是什么,我都希望找到一种有效的方法来从网页上抓取数据。

3.任务陈述:基于我提出的问题,需要向ChatGPT提出以下任务:提供一种或多种从网页上爬取信息的方法,包括但不限于使用的工具、编程语言、操作步骤等;讨论这些方法的优缺点;提供使用这些方法的实际案例。

4.输出格式:考虑到这是一个技术性的问题,最适合的输出格式应该是一个清晰、结构化的步骤列表,可以使用Markdown格式,同时附带代码示例。

5.案例要求:要求ChatGPT提供至少两个不同的爬取网页信息的方法,并为每种方法提供一个详细的实例。

6.优化Prompt:

你是一名专门研究网络爬虫和信息提取的计算机科学专家,同时你也是一名数据科学家,擅长从大量文本中提取和分析信息。我需要从网页上抓取数据,不论是为了研究还是为了学习网络爬虫技术,我都希望找到一种有效的方法。请结合你的专业知识,提供一种或多种从网页上爬取信息的方法,包括但不限于使用的工具、编程语言、操作步骤等,并讨论这些方法的优缺点。请使用Markdown格式,为我制作一个清晰、结构化的步骤列表,并附带代码示例。最后,我还希望你能为每种方法提供一个详细的实例,以帮助我更好地理解和应用这些方法。

7.代码块输出(方便复制):

“`

你是一名专门研究网络爬虫和信息提取的计算机科学专家,同时你也是一名数据科学家,擅长从大量文本中提取和分析信息。我需要从网页上抓取数据,不论是为了研究还是为了学习网络爬虫技术,我都希望找到一种有效的方法。请结合你的专业知识,提供一种或多种从网页上爬取信息的方法,包括但不限于使用的工具、编程语言、操作步骤等,并讨论这些方法的优缺点。请使用Markdown格式,为我制作一个清晰、结构化的步骤列表,并附带代码示例。最后,我还希望你能为每种方法提供一个详细的实例,以帮助我更好地理解和应用这些方法。

“`

}

#task

接下来我会给出我的问题(Prompt),请根据我的Prompt

1.基于[CRISPE提示框架],请一步一步进行输出,直到最终输出[优化Promot];

2.输出完毕之后,请咨询我是否有需要改进的意见,如果有建议,请结合建议重新基于[CRISPE提示框架]输出。

要求:请避免讨论[CRISPE提示框架]里的内容;

我的Prompt是{}

四、Prompt应用场景

4.1 LLM意图识别

传统的NLP难以解析用户的所有意图,而利用LLM进行意图识别,将取得较好的效果。

参考以下示例:

给定的query需要映射到下面描述的意图之一,请用序号“[n]”回答

[1]:论文查询,用户想要查询论文

[2]:代办创建,用户想要创建代办

[3]:视频总结,用户想要查看指定链接视频总结

[4]:AI近闻,用户想要获取最新AI动态

[5]:以上都不是,如果用户的句子与上述任何意图无关

query:{查看今日AI动态}

询问大型语言模型,该提示是否的用户意图,并检查返回的内容是否含为[N]。过程非常直接。这种实现即使在没有 JSON 模式和函数调用时也相当可靠。

与让模型分类多个可能无关的类别相比,直接要求 LLM 对话给出二进制反应相比,更简单直接。在测试GLM6B中表现出色。将模型温度设为0,并配置结束序列如[“.”, “,”],能进一步提高响应速度和可靠度

4.2格式化输出

#role

你是一位心理学教育问答专家,能够根据概念解答含义和知识点

#task

需要解答的名词为:

“`

{

“id”:”1″,

“term”:”格式塔”,

}

“`

#output

请按照严格按照以下格式输出:

{

“id”:”(编号)”,

“Explanation”:”(释义)”,

“knowledgePoint”:”(知识点)”

}

注意:多条返回多个;不要输出JSON外任何解释或描述内容

4.3 Agent框架

虽然Agent已有许多开源模型存在,但了解其架构仍有重要现实意义。Agent通常思路是基于LLM识别用户意图,判定调用工具,最后整合返回相关结果。

Query→LLM解析返回格式化数据→工具执行→返回结果

Agent 一种常见的模式为ReACT,ReACT让大模型先进行思考,思考完再进行行动,然后根据行动的结果再进行观察,再进行思考,这样一步一步循环下去。

1)LangChain

PREFIX=”””Answerthefollowingquestionsasbestyoucan.Youhaveaccesstothefollowingtools:calculator”””

FORMAT_INSTRUCTIONS=”””Usethefollowingformat:

Question:theinputquestionyoumustanswer

Thought:youshouldalwaysthinkaboutwhattodo

Action:theactiontotake,shouldbeoneof[{tool_names}]

ActionInput:theinputtotheaction

Observation:theresultoftheaction

…(thisThought/Action/ActionInput/ObservationcanrepeatNtimes)

Thought:Inowknowthefinalanswer

FinalAnswer:thefinalanswertotheoriginalinputquestion”””

SUFFIX=”””Begin!

Question:{query}

Thought:{agent_scratchpad}”””

2)任务规划

由上可知,由此可见,Agent是一种智能体,它能够通过观察环境、作出决策并采取行动,最终完成用户的任务,而且在整个过程中无需人类干预。Agent身上隐约可见AGI的雏形,深入探究其框架,不仅能增加我们对AI能力的认知,更对实现相关的应用开发具有重要意义。

五、总结

整体来看,prompt的解决方案的核心在于深入思考需要执行的任务,将其拆解为结构化、清晰化的步骤。其流程与人类思考如出一辙。LLM取之于人,用之于人,这正是结构化的意义。

另外一个关键词便是“迭代”,对于需要程序化、普遍适用的指令任务,需要不断地进行迭代和优化。其中,认真分析Badcase,从中吸取教训,进行改进,也十分重要。通过持续的改进迭代,使LLM能够实现理想的输出效果,使任务完成得更加高效、准确。

六、后记

初识Prompt engineer时,网络上关于它的技巧已如繁星点点,不计其数。然而,仔细浏览之后,却发现其中大多数内容仅仅是范例的堆砌,形式如出一辙:

“你是一个XXXX,你应该…”

这样的句式,虽然读起来觉得言之凿凿,但闭上双眼一闭,内心却顿感空虚,仿佛一切知识都如过眼云烟,未曾真正留下痕迹。

直到近期在一些专业的学习网站和论文中深入探索Prompt的相关研究,才醒悟,之前所见的只是浮于表面的“鱼”,消化后便无迹可寻,从未得到真正的“渔”。

为了避免后来者重蹈覆辙,作者故撰此文,希望大家有所获。

参考文献

[1]Fulford,Isa,andAndrewNg.”ChatGPTPromptEngineeringforDevelopers.”DeepLearning.AI,n.d.,https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/.Accessed24Mar.2024.

[2]Yao,Shunyu,etal.”Treeofthoughts:Deliberateproblemsolvingwithlargelanguagemodels.”AdvancesinNeuralInformationProcessingSystems36(2024).

[3]Besta,Maciej,etal.”Graphofthoughts:Solvingelaborateproblemswithlargelanguagemodels.”arXivpreprintarXiv:2308.09687(2023).

[4]Chen,S.,Li,B.,&Niu,D.(2024).Boostingofthoughts:Trial-and-errorproblemsolvingwithlargelanguagemodels.arXivpreprintarXiv:2402.11140.

降价是字节AI的出路吗?

aigc阅读(3)

不公布榜单成绩和参数规模的字节系大模型,“别出心裁”地靠价格战出圈了。

相比百度、阿里同规格32k模型0.12元/千tokens定价,近期,字节首度对外亮相的豆包大模型价格号称比行业便宜99.3%,定价降至0.0008元/千tokens,这意味着,用户花0.8厘钱,就能处理1500多个汉字。

不惜以价格战开道的背后,在多个业务陷入增长瓶颈之下的字节内部,云服务正在担起更多的增长重任。

2021年11月,从张一鸣手中接任字节CEO半年后的梁汝波,开始重组组织架构,成立六个业务板块:抖音、火山引擎、大力教育、飞书、朝夕光年和TikTok。同一年,火山引擎正式发力laaS,加码云服务。

拓展云服务的策略,更早埋藏在张一鸣2016年时的规划中。当时,今日头条用户数首次达到6亿,张一鸣对外讲起公司未来突破点,其中提到两点:一是“公司越强大就越要往底层走,往整个社会的基础设施走”;二是“C 端做完可以往上游进入B端基础设施”。

但从去年11月以来,除了以火山引擎为代表的云服务尚保持业务和团队稳定外,字节其余业务板块相继遭遇发展阻碍——大力教育之外,朝夕光年为代表的游戏业务大裁员,飞书开始精简组织,TikTok也正面临美国封禁危机。

AI大模型浪潮的到来,无疑使得火山引擎的重要性进一步凸显,也给字节带来了一个将火山引擎打造为新增长引擎的机遇。

调整部分业务之余,新的资源正在同步向AI集聚。据晚点LatePost报道,去年11月,梁汝波在最近两个月的OKR里强调了探索AI业务,将调整公司组织以迎合AI战略,同期一个新的AI研发部分Flow在字节被组建起来。

在今日头条和抖音崛起过程中吃到用户规模红利的字节,如今想把这套策略移植到AI大模型领域,价格战则成为字节撬动用户量的新杠杆,并希望借此带动火山引擎云服务的增长。

但在国内其他研发大模型的云厂商,尚未走通以价格战带动云业务增长的路径之际,字节的以价换量策略仍有待接受市场的检验。

01

字节成为加入价格战竞争的最新大模型玩家。

在字节祭出价格战牌两天前,作为零一万物CEO的李开复,对外宣布零一万物千亿参数模型的训练成本同比降幅达一倍之多。

在大模型领域“既挖金子又卖铲子”的云厂商,更早一步发起了行业价格战。

今年2月份,阿里云宣布全线下调云产品官网售价,平均降价幅度超过20%,最高降幅达55%,这被官方称为是阿里云史上最大力度的一次降价,涉及100多款产品、500多个产品规格,覆盖计算、存储、数据库等所有核心产品。两个月后的4月份,阿里云将降价策略扩大至海外公有云产品。

没有直接喊出“价格战”的百度,则通过优化成本的方式来了场变相降价。截至4月份,百度文心大模型推理性能提升105倍,推理成本降到原来的1%。这意味着,客户原来一天调用1万次,同样成本现在可以调用100万次。

无论百度还是阿里,借助降价手段的背后,都在追求云计算的网络效应和规模效应,即用云的客户越多,供应链采购成本、均摊研发成本和资源闲置成本就能越低,云厂商的降价空间也便越大,从而循环往复。

值得注意的是,在国内大模型厂商卷价格之际,国外厂商的重点,仍在致力于推进大模型技术的迭代升级:OpenAI推出了升级版GPT-4o,谷歌在I/O大会上推出了类Sora的视频生成模型Veo等。

除了国内大模型厂商主观上的选择之外,客观上,在算力等方面的限制,也某种程度上催动难以在技术上追赶国外玩家的国内厂商,将重心从技术优先转向应用优先,更加侧重使用成本的优化。

李开复甚至在PMF(Product-Market Fit,产品市场契合)之外,为大模型产品研发发明了一个新的概念,即加入Technology与Cost组成四维概念——TC-PMF。

与移动互联网时代相比,大模型时代,模型训练和推理成本构成了每一个创业公司必须面临的增长陷阱。

包括李开复、朱啸虎等在内的人,都开始认同一种观点:等到推理成本再下降100倍后,AI应用便大概率会迎来爆发期。

但这样的路径也并非没有风险,前提是国内大厂研发的基座大模型,能够在技术迭代上追上OpenAI的步伐。否则,创业者在一个相对落后的系统上开发应用,很可能最终沦为无源之水。顺着大模型风口率先起飞、又被通用大模型挤压生存空间的Jasper AI,便是前车之鉴。

考虑到在ChatGPT上被验证过的模型性能缩放法则(scaling laws),当下仍然生效,上述风险发生的概率,任何一家大模型厂商都难以忽视。

OpenAI CEO 山姆·奥特曼在近期一次访谈中就提到,目前OpenAI还没有达到AI发展曲线的顶点,“很多人的创业/研究方向是在补全现在AI的缺陷,本质是在赌AI不会变得更好,但未来的GPT-5、6会让这些努力变得没意义。”

02

在跳过刷榜和参数规模环节后,缺失技术亮点后,价格成为字节在这场大模型产品竞赛中,为数不多的记忆点。

相比阿里云在开源方面的领先,百度在All in AI方面的决心,乃至明星初创公司月之暗面Kimi凭借200万上下文爆火出圈,字节系大模型并未展现出独特之处。

首度对外亮相的主模型豆包通用模型pro,长文本支持力度只有128k,标示的理解、生成、逻辑等综合能力,也都是各家大模型产品的标配。

豆包通用模型pro在技术创新上的缺失,背后更是字节在大模型产品研发上整体节奏落后的现实。

跟随策略,成了字节AI大模型的主要指导方法论。

从2023年4月起,百度、阿里、腾讯相继通过旗下云服务对外提供大模型接入服务。直到一年后的2024年5月,字节自主研发的豆包大模型才开始通过火山引擎正式对外提供服务;2022年11月ChatGPT发布之后,百度、阿里等国内大厂相继在去年三四月份推出自研大模型文心一言和通义千问,但直到去年8月份,字节才对外亮相了云雀大模型(豆包大模型前身)。

AI进展缓慢的现实,一度引得梁汝波在1月底新一期的All Hands(员工面对面)上,批评道:“公司层面的半年度技术回顾,直到2023年才开始考虑GPT,而业内做得比较好的大模型创业公司,都是在2018年至2021年创立的。”

字节关注大模型乃至AI技术并不算晚。2017年的一次CEO面对面上,有员工问算法技术负责人杨震原:公司在人工智能上与 BAT 的差距在哪里?杨震原回答说,“今日头条本来就是一家人工智能公司,但不是机械手臂这种人工智能。”

张一鸣也认为公司占据了非常好的优势,“有应用场景、有活跃用户、有长使用时长。”

但字节并没有沿着AI这条路坚定投入。据晚点LatePost报道,2020年6月OpenAI发布GPT-3后,字节曾训练了一个数十亿参数的生成式语言大模型,由于参数规模有限,该模型生成能力一般,字节当时看不到它的商业化可能性,“ROI(投资回报率) 算不过来”,这次探索便浅尝辄止。

为了加速AI步伐,2月份,抖音前CEO张楠从抖音转岗剪映,着手推出一个新的AI生图和视频产品。

5月初,张楠交出了自己转岗后的首份作业——支持图片和视频生成的即梦AI,但让外界期待的类Sora高阶视频生成能力,目前官网显示仍处于内测阶段。初阶版视频生成能力,非会员仅支持生成3秒内容。

03

仅靠疯狂的价格战,能否拉动云服务的增长?在火山引擎之前,阿里云或许已经给出了部分答案。

去年就喊出史上最大降价的阿里云,并未能借助价格战换来新的增长。2024年第一季度,阿里云收入为256亿元,同比增幅只有3%,环比基本保持一致。

聚焦到国内公有云市场,阿里云市场份额甚至不增反减。IDC发布的《中国公有云服务市场(2023下半年)跟踪》报告显示,2023下半年IaaS市场中,阿里云市场占比27.1%,位居第一。但在2023上半年中国IaaS市场中,阿里云市场份额则为29.9%。

价格战的效果也在引起同类云厂商的反思。不同于去年发起价格战后,国内主流云厂商纷纷跟进的场面,今年当阿里云再次发起价格战后,仅剩市场份额不大的京东云高调接招。

有云厂商高管表示:“降价一直存在,并且只要摩尔定律在,降低计算成本将一直是云服务行业的趋势。但我们并没有看到竞争形势发生巨大变化,就像一年前业内针对中小企业的一轮高调但影响不大的降价一样。”

与增速停滞的阿里云场面对比,国外云厂商反而重新迎来高增长周期,增速保持两位数高增长。今年一季度,微软云 Azure收入190亿美元,同比增速31%;谷歌云收入96亿美元,同比增速28%;亚马逊AWS收入250亿美元,同比增速涨至17%。

AI成了推动国外云厂商高歌猛进的利器。微软CEO纳德拉更是在财报会上直言,“Azure已经成为几乎所有从事人工智能项目的人的停靠港。”

2021年正式发力laaS,加码云服务的火山引擎,一度被爆出想成为阿里云、腾讯云、华为云之外的 “中国第四朵云”。但截至2023年下半年,从IDC数据来看,火山引擎距离跻身中国公有云市场TOP5还有很大差距。更糟糕的是,相比三年前,运营商云的快速崛起,无疑给了火山引擎更大的挑战。

价格战也很难加速火山引擎继续前进的步伐。按奥特曼的话说,“OpenAI也可以将非常高质量的AI技术成本降至接近零……”

参考资料:

《字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型》火山引擎

《字节跳动副总裁朱骏:从大模型到用户体验,在做豆包产品时的一点感想》字节范儿

《李开复首次深谈AI生态全景布局:共享单车式的补贴逻辑不再适用于 AI 2.0》腾讯科技

《ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义》APPSO

《字节跳动全面进军云计算 IaaS 服务,想做中国第四朵云》晚点LatePost

如何让ChatGPT更“懂你”

aigc阅读(2)

我们都知道,生成式AI的出现掀起一波人工智能的浪潮,在这种时代背景下,了解AI产品背后的开发方法,能帮助我们更好的使用AI产品。

一、什么是生成式AI?

生成式AI可以帮助我们做很多事情,在日常生活中,它可以用于生成报告,提高汇报的效率;在电商领域,智能客服可以自动回答和解决用户的问题;在医疗领域,智能医生可以帮助患者进行疾病诊断,提高了行业人员的工作效率。

二、ChatGPT的本质是大规模语言技术的应用

在生成式AI应用中,我们所熟悉的Open AI 的ChatGPT、百度的文心一言、字节的豆包等,他们的本质是应用了一种大模型的技术。

这种技术是由云厂商中专业的技术人员,通过海量的文本数据处理,消耗昂贵的算力成本所得到的。这样的技术让大模型学习人类的语言模式和知识结构,并生成自然流畅的回答。

大模型类比为大脑

通俗比喻:我们可以将大模型类比为“大脑”,大量的文本数据相当于“外界提供的信息”,昂贵的算法比喻为“聘请的高级教授”,将外界信息转化为知识点,储存在大脑中,最后呈现出来的就是我们使用的智能产品。

三、大语言模型并不是万能的,解决实际问题上存在局限性

然而大语言模型并不是万能的,由于缺乏行业领域的专业知识,导致他们在解决实际问题上存在一定的局限性。

比如以下场景:我想通过 文心一言 了解CXD智能云产品,相关的设计规则,而它的回答,并不能解决我的实际问题。

文心一言只提供适用于通用平台的设计规则,这些规则并不能完全适用于我们的产品。企业应用过程中遇到这种问题,应该怎么办?

四、解决办法:让人工智能应用更懂你,得到你想要的内容

作为AI开发平台的设计师,我总结了两个简单高效的方法分享给大家。

方法1 “教它找”

“教它找”的原理是:通过加入提示词,利用其中关键词语,提示大模型理解我们的意图,在已经有的数据信息中找到我们想要信息再进行回答。

这种方式可以帮助我们低成本、快速的提升大模型的效果。

以开发一个“汽车销售客服”作为场景,Diffy产品作为工具演示。

产品的左侧面板是相关参数的配置,右侧则是用户真实使用场景的测试工具。

没有提示语配置下,我选择ChatGPT 3.5 来回答我的问题,发现它的回答没有实质有效的信息,对购买汽车的用户帮助不大。

如何通过加入提示语提升质量?

步骤1:加入提示词:在左侧面白的输入框加入文本,限制大模型回答,让大模型作为一名专业销售人员,针对汽车性能、外观等维度提供比对信息。

步骤2:测试效果:ChatGPT的回答效果明显提升。

通过这样的方式,打包成新的应用,给到用户使用,让用户在已限定好范围的大模型内进行问答,可以极大提高产品满意度。

基于这个方法,我为大家推荐两类好用的工具:一类是提示语模版平台,在这些平台中可以获得各行各业的高质量提示语,教育类、金融类等等,复制直接使用。

Dify:http://cloud.dify.ai/explore/apps

GPT short:http://prompt-shortcut.writeathon.cn

千帆大模型平台:http://prompt-shortcut.writeathon.cn

方法2 “教他学”

“教他学”的原理是:通过增加自己/企业自身的数据,与它自身通用的数据结合,教它学习新知识,从而定制一个懂你的新的大模型。

如何加入自己的数据?有两种方式。

方式1:可以在AI定制的平台,通过非结构化的文档(比如pdf word文档、网页链接等)资料,来生新的大模型。

方式2:选定某一AI开发平台,准备结构化的数据集(文本对信息)excel json文件,通过重新训练的方式,来让大模型学习新知识。

同样,我以两个案例来介绍说明具体操作流程。

案例1:以开发“设计规范助手”为场景,Chatbase平台作演示

第一步:选择“创建机器人”。

第二步:选择数据,这里提供5种数据类型,分别是文档、文本、连接、问答对、第三方笔记网址。

我提前准备好了三种关于日常会用到的文件,分别是:设计规范文档、方案库文档、各产品的用研报告,同时加入专业的提示文本和云设中台官网的链接,帮助大模型更好的学习我们的知识。

第三步:生成机器人开始测试。

通过三轮对话可以看到,它轻松的回答了我想要的问题,提供了正确的规范信息和健康度指标,以及如何设计数据标注场景的总结信息。

最后,只需要将它发布为网站,把链接提供给组内设计师使用即可。

案例2:以开发“医疗客服助手”场景,千帆平台作演示。

第一步:准备数据,可以选择自己准备数据集,按照平台的示例引导进行操作;也可以直接使用平台提供的现成的行业数据集。比如我们选择这个医疗中文数据集。

第二步:训练模型,这个页面中,首先选择训练的大模型,可以根据大模型使用介绍进行选择。我们选择Ernie bot 因为它中文效果更好。

其次是选择训练方法,不同的训练方法影响资源成本金额、消耗时间和模型稳定性;最后是选择训练参数,平台会根据已由信息提供推荐值,如果是开发人员对训练参数有了解,可以根据经验调整。点击确定开始训练,

第三步:训练完成后则将任务发布为模型,并把模型部署为服务。(这里不详细拓展)

第四步:在体验中心中,选择刚刚部署的服务,即可进行测试,了解这个医疗客服的实际效果。

以上就是在大模型中加入结构化数据的操作流程,这种方式需要耗费更多的金额和时间,但更适合于需要高精度回答效果的企业。

1)数据服务工具

这些平台提供现成可用的数据集,就不用耗费精力去准备数据,比如红酒知识、动物知识等,根据你的业务需求下载使用。

阿里modelscope:http://www.modelscope.cn/datasets?Tags=text-classification&dataType=text&page=1

百度AI Studio:http://aistudio.baidu.com/datasetoverview

DataCastle:http://www.datacastle.cn/dataset_l

2)大模型调优工具

国外的大模型调优工具:谷歌、微软。

最后总结

在过去,开发大模型的事情更多是专业的技术人员来做,而随着时代的发展,未来AI可能将普惠到每个人。以后我们可能人人都会开发一个自己的大模型,用具有我们数据的机器人去工作、聊天。

而目前产品的使用流程仍存在门槛,对小白用户的包容性不高,作为AI开发产品设计师,我们任重而道远,一直在大模型开发流程做得简单易用的路上持续努力~~

国内大厂“魔改”AI搜索

aigc阅读(2)

北京时间5月15日凌晨,被OpenAI 抢过风头的谷歌开始了绝地反击,其中就包括 AI 搜索。

比起之前的小试牛刀,谷歌这回的搜索改造进一步打开了想象的空间。搜索不止是回答还是执行,获得的不仅是难以辨别真假的回答,而是详细可执行的计划。用户的搜索不再是一次性的消耗品,搜完即抛,而是在不断拆解、细化问题过程中满足用户的个性化需求。此外,语音、视频等多模态形式的应用,也从整体上拉高了AI搜索的门槛。

“搜索是离钱最近的地方”,这句话出自谷歌搜索负责人Ben Gomes。到今天,仍不过时。

在弥漫着不确定性的AI 2.0时代,天然与钱挂钩的基因显得格外地振奋人心,毕竟产品只要离商业化更近一步,存活下来的可能性就更大。

所以,AI搜索,即便披着“原生”与“免广告”的外衣,仍逃脱不了“围着钱打转”的命运。

微软、谷歌在AI功能升级的伊始,就已经在试探以何种姿势呈现更能实现广告商利益的最大化;近期月活破千万的对话式AI原生搜索Perplexity也在着手植入广告;此次谷歌搜索新功能,将搜索链路延长,更加丰富的参考来源,额外产生的搜索次数和对话轮次,都意味着更加可观的广告流量和收入。

不过,在现实落地过程中,AI搜索却不得不在“产品”和“变现”的天平两端左右摇摆。

在这一点上,国内外的选择泾渭分明。包括OpenAI做进ChatGPT的搜索功能,AI搜索界的当红炸子鸡Perplexity,以及微软谷歌的“老钱”组合,都选择先打磨产品;而中国则相反,在产品籍籍无名的情况下已经开始抢占对家词条,暗暗地打响了搜索营销的第一战。

无论是生成答案过程中的直给商品链接,还是产品界面中略有深意的留白,无一例外地指向广告。

中国AI搜索产品虽然还在跟进,但在搞钱的问题上并不慢,甚至可以说“遥遥领先”。这回,轮到百度、360们现身说法给OpenAI 上一课。

一、Kimi之后,AI搜索接棒

搜索,烙有互联网印迹的产物,半只脚在过去,半只脚跨进了AI。

互联网时代搜索的本质是“卖方市场”,由搜索引擎供给商来决定向用户呈现何种内容搜索结果,而过度倒向商业化,使得搜索沦为了一门“流量分发”的生意,通过竞价排名来决定展示的优先顺序。

而进入AI时代,双方地位实现了逆转,变成了“买方市场”。

如果说互联网时代是固定菜单的套餐,那现在就是顾客点单服务。过去点对点的关键词匹配逻辑不再适用于AI时代的语义分析理解逻辑。即使是百度、谷歌也要依赖用户的原因在于,AI搜索是一个全新的场景,需要先获取大量的原生数据反馈,才能反过来推动产品的优化迭代。

按照搜索的AI改造类型,大致可以将现在国内外的AI搜索产品分为三类。

第一类是纯AI原生搜索产品,以提问问题的方式来检索并生成答案,比如在对话框里提问“AI搜索产品有哪些?”,大模型会先理解这句话所表达的意思,然后开始在浏览器、搜索引擎中开始检索,生成后的答案可以追溯来源。

国外代表有Perplexity,而国内则是360AI搜索(小程序版)、秘塔AI搜索、天工AI搜索等。

第二类是半进化式的AI产品,既保留搜索的痕迹,也新增了原生的AI功能。比如国外的Arc搜索,国内有百度的“简单搜索”、360AI搜索(网页版、App版)等。

第三类是老搜索引擎的“翻修”,在维持原有搜索页面的基础上,增加总结和Copilot式的助手功能。典型的有国外的微软Bing、谷歌搜索,国内百度也曾短暂地做过类似的尝试。

近期,国内AI搜索的增长劲头很猛,颇有上一波Kimi的出圈态势。

据AIwatch.ai发布的最新榜单数据,搜索产品是目前用户访问量增长最快的产品,仅次于Kimi和文心一言。360AI搜索4月访问量1134万,较3月增长了1300%;秘塔搜索4月访问量1009万,较3月增长了51%;天工AI搜索4月访问量400万人,较3月增长了122%。

由于统计口径差异,在360AI搜索访问数据上产生了分歧,但参考国外统计网站Similarweb数据,4月360AI搜索的访问量也达到了120万,较3月增长了300%。

(图源:AIwatch.ai)

产品之外暗流涌动,Kimi式的心智营销争夺之战也燃起了硝烟。光子星球发现,AI搜索产品公司纷纷在百度、微软搜索引擎争夺“AI搜索”、“AI搜索引擎”、“智能搜索”等相关词条。

同时,各家也打起了偷对家塔的主意,比如在百度搜索”百度AI搜索”的关键词出现了秘塔的广告,搜“天工AI搜索”再次出现了秘塔的广告。

(图源:百度截图)

二、AI搜索变现的中国式解法

回顾互联网时代,搜索商业化最主要的模式是聚合用户来撬动企业营销费用,每一次的关键词搜索都在不断加强企业与场景、目标用户之间的定向关系。

AI搜索能从Kimi手中接过这波泼天的富贵,本质在于产品壁垒不高。

套OpenAI壳成功的Perplexity,揭示了AI搜索产品的制造公式:大模型/API+产品形态+用户数据。如今,各家都想率先一步拿下AI搜索的标签,就是想把用户数据的飞轮先转起来,用免费的逻辑留下用户,再复制互联网模式,对接到企业。

国外喊着去广告化的AI搜索,其实从一开始根本没想好怎么商业化,一个比较有力的证据就是留给变现的空间很少。

以代表产品Perplexity为例,虽然到现在为止还没有启动商业化计划。但参考互联网搜索盈利模式,我们能推测出几个可能实现转化的地方,例如进入App映入眼帘的热门词条推荐,搜索发现页的热门新闻排行榜,搜索回答来源中的先后顺序,回答结果中的先后顺序以及用户的高级搜索订阅收费,但这对比互联网阶段还远远不够。

(图源:Perplexity App截图)

谈到如何赚钱,中国的企业明显早有筹谋。光子星球发现,尽管和国外产品一样,中国大部分AI搜索产品还未开始正式的商业化,但已早早地为广告预留了位置。

一个典型的例子是360,一个360AI搜索裂变出了小程序版、网页版和App版,根据用户不同的使用习惯来试水商业化。

小程序是纯净版,目前形式完全对照Perplexity。网页版AI搜索从入口处,便开始露出热搜排行榜、图文新闻栏,等到搜索提问后,已经能看到右侧显示出的部分图文和视频广告。此外,答案生成的先后顺序、追问词条、延伸阅读内容、百科式的参考词条链接都有可能成为商业化变现的入口。

(图源:360AI搜索截图)

离钱更进一步的是百度,目前百度已经在简单搜索App内试水投流转化。百度何俊杰曾明确给搜索业务制定了OKR,他强调,“大力推进AI原生化改造,同时探索增强用户心智的手段,极致满足 1+2 分占比达 x%,推荐激发拉动,搜索消费时长达xx亿分钟,多轮交互在通用互动和文创场景跑通。搜索 PV 达到 xxx 亿”。

百度简单搜索的产品形态更像是在传统搜索中硬塞进去了AI功能。

当在对话框中提问,率先出现的还是视频、问答、资讯等传统搜索栏,只有转化成互动模式,连续展开多轮对话时才能使用AI功能。但是,百度的商业化思路十分清晰且传统:把投放的广告统统嵌入进去。

光子星球实测,在简单搜索App内提问:“我想买衣服”,传统搜索一栏立即出现了满屏明码标价的推荐服饰,切换到AI模式亦然。京东投放的服饰广告竟然比答案先一步出现,点击广告链接可直接跳转京东App购物页面。在这样情况下,在App内完成了搜索-跳转-引流-线索转化-购物达成的闭环。

作为搜索行业的老炮,百度的优势还在于实现用户数据的打通。当光子星球用不同的账号登录简答搜索,并用同样的问题提问时,出现的结果出现了差异化,前一个账号AI将其判定为35岁中年人的用户画像,后一个账号被贴上了年轻人的标签,对于相对模糊的性别,下面还附带了一些常见的女性服饰标签。

(图源:百度简单搜索App截图)

结合来看,目前中国AI搜索公司已经为Perplexity、OpenAI们指出了几条路。

首先是渐进式地试水商业化,以不同的产品形态面向用户,在用户已经对广告脱敏的搜索引擎等产品形式中预留未来广告投放位。

最快的路子还是经典的搜索引起商业模式,在AI搜索产品中完成商业闭环,一方面赚取投放商家投流的钱,一方面还可以售卖营销线索。

此外,由于担心广告会影响用户体验,因此我们注意到,许多产品还在通过升级搜索权限和提升搜索质量来收取用户的订阅费用。这种对用户分层的方式是一种折中,对于轻度用户,使用免费版即可,而对于重度用户,就得付费。

现阶段搜索仍然无法冲破旧的桎梏,正是因为中国AI搜索在商业化上的考量更重,所以才导致了产品的拧巴状态,既要又要的产品逻辑,让用户对AI搜索感知不如Kimi等智能助手般强烈。

不过,无论国内外,兜兜转转最终还是要落回到钱上,曾经的谷歌、百度在搜索质量和变现中寻求平衡,今天的AI搜索也将面临同样的命运。

AI 如何颠覆社交互动?两位 Snap 工程师做了这款表情包产品

aigc阅读(4)

Sense 思考:

我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。

个人天生就有寻求和表达真实自我的倾向,而社交媒体 App 提供了一个舞台,让人们通过图像进行自我意识形态的表达。

在传统滤镜时代,图像的表义能力是被摄像头所限制的。而生成式 AI 的出现,让用户的表达力从「现实增强」升级为了「想象增强」,并催生出更多新形式的内容和全新的内容载体。

妙鸭、Remini 和 Easel 只是图像社交革命的前菜,让我们拭目以待。

AI Native 产品分析——Easel

1. 产品:Easel

2. 产品上线时间:2023 年 12 月 8 日

3.创始团队:

Rajan Vaish:CEO,联合创始人。前 Snap 高级研究工程师。

Sven Kratz:联合创始人。前 Snap 高级研究工程师。

4. 产品简介:

Easel 是一款图像社交产品,它巧妙地利用自拍表情包作为切入点,利用生成式 AI 技术,为用户提供了将自拍转化为有趣、个性化的表情包的功能。Easel 目前只能用于 iOS 平台,需要与 iMessage 一起配合使用。

5. 融资情况:

265 万美元天使轮融资。投资者包括 Unusual Ventures、f7 Ventures 和 Corazon Capital 以及各种天使投资者(包括斯坦福大学的几位教授)。

一、、从 Remini 的爆火讲起

社交媒体上的人像照,早已成为流行的风向标。从 iPhone 4 引领的前置摄像头革命,到移动互联网创业公司们利用光学传感器、手机算力和图像算法的“黄金三角”组合,社交网络的每一次变革都伴随着人像照的流行文化更迭。

从 Instagram 的照片滤镜,到 SnapChat 的 AR 滤镜,再到去年爆火的妙鸭相机,每一次技术的跃进都为人像照赋予了新的生命。

(图片来自网络)

在 2024 年的五一劳动节期间,一款名为 Remini 的 App 异军突起,迅速风靡小红书、抖音等社交媒体。这种滤镜将用户的形象转化为粗糙、笨拙的黏土动画片风格,与主流的美颜文化形成鲜明对比。这种「蠢萌」的黏土风格,为用户带来了一种自嘲式的幽默感和心理慰藉。

(图片来自网络)

在 Remini 于内网大热的同时,另一家美国西海岸的初创公司正在探索另一条商业化道路。它们将图像生成与自拍表情包加以结合,基于 Apple 平台推出了 Easel,这是一款可在 iMessage 上通过图像生成即时制作表情包的 App。

(图片来自 Easel 官网)

二、Easel + iMessage = 下一个 SnapChat?

Easel,这款由 Snap 两名前员工创立的 App,似乎正在酝酿一场新的社交革命。其联合创始人兼首席执行官 Rajan Vaish,曾在 Snap 任职五年,亲眼见证了人脸滤镜如何掀起流行文化的巨浪。而今,Rajan 意欲借助生成式 AI 再度掀起新一轮的流行文化热潮。

他选取了表情包这一高频用图场景作为突破点。与妙鸭相机的体验相仿,当用户首次使用 Easel 时,它会抓拍数秒钟的用户面部照片,以构建一个定制化的个人形象模型——不出所料,其背后运用的正是 Stable Diffusion 的开源生态的技术。

Easel 的创新之处在于,它将表情包与叙事相结合,使得图像不仅仅停留在「美照」层面,更是用户沟通、表达和情感传递的媒介。

在 Easel 的玩法中,用户可以通过简单的场景描述词,为 @ 的人生成包含其形象的场景画面。这不仅激发了用户的创作欲望,也促进了社交互动的裂变。当对方看到这张图后,很可能会产生回应的动机,进而下载 Easel App 并使用「Remix」功能进行二次创作,形成病毒式的互动循环。

(图片来自 Easel 官网)

为了降低创作门槛,Easel 也准许用户将生成的图像发布到应用内的社区中,如此一来,特定的节日或事件或许会引发特定的内容主题,从而提升用户的参与热度。

在 App Store 上,Easel 获得了 5.0 的满分好评,尽管仅有 21 个用户参与了评分。其中一条评论兴奋地写道“欢迎来到社交媒体的未来”,并表示自己已经生成了 500 张图来与所爱的人分享。

(图片来自 Easel 的 App Store 主页)

那么,问题来了,Easel + iMessage 会成为下一个 SnapChat 吗?

三、社交媒体与自我表达的心理学

社交媒体已经成为现代人表达自我、展示个性的重要平台。在这个过程中,「自我决定理论」(Self-Determination Theory,SDT)为我们提供了一个深入理解社交媒体自我表达心理的视角。

该理论指出,人类天生具有追求和表达真实自我的内在动机,而当个体的基本心理需求——自主性(Autonomy)、能力性(Competence)、和关联性(Relatedness)——得到满足时,这种动机将得到加强。社交媒体应用程序正是通过提供一个展示和交流的舞台,来满足这些基本心理需求,而人像照则成为用户自我表达的重要载体。

在传统滤镜时期,图像的表意能力被摄像头所局限。用户仅能通过滤镜、AR 人脸贴纸等方式来实现「现实增强式」的自我表达。然而即便如此,上一轮以人脸关键点为核心的 AI 技术浪潮依然催生出了如抖音、美图、FaceU 等现象级产品。

而生成式 AI 的出现,为用户的自我表达安上了想象的翅膀,图像的「表意能力」得到进一步释放。用户的表达力从「现实增强」升级为了「想象增强」——用户能够利用文字来描述其最为天马行空的场景想象,再让扩散模型将其绘制出来。现实的次元壁被打破,用户首次看到了自己在吉卜力漫画、皮克斯动画、水彩、素描,甚至是文艺复兴时代的油画大师笔下的模样。

(图片来自本文作者的小红书主页)

与上一代以「美颜」为代表的应用相比,生成式 AI 图像生成应用具有更强的内容属性、更多的互动玩法和更广的美学风格。这不仅能够满足用户对于美的追求,更能够激发用户的创造力和想象力,让他们能够更加自由地表达自我。

四、技术与需求的双向奔赴

生成式AI在商业领域成功落地的关键之一在于消弭幻觉、提高可控性。这条技术优化路径不仅适用于大型语言模型(LLM),也同样适用于扩散模型(Diffusion Model)。回顾图像生成技术的发展历程,早期模型由于可控性较差,其应用场景主要局限于「文生图」形式。这导致市场上的产品同质化严重,用户难以对图像生成过程进行有效控制。

然而,伴随 Lora、ControlNet、IPAdapter、InstantID,乃至最新的 PuLID 等一系列新技术的出现,被生成的图像有机会和用户给定的参考图,尤其是 IP(个人形象)构建语义关联,使得图像在生成的同时能够保留人物的高维度面部特征,进而更进一步强化了用户表达自我的能力。

历史再一次表明,在图像产品领域,技术和需求的双向奔赴,往往首先会在人像照的应用场景得以实现。图像生成类的产品开始逐渐加入面部控制能力,催生出换脸、保 ID 生图等新的玩法。这里面也包含了笔者上一次创业所做的 Stylar.ai 这款产品。

然而,由于大模型的技术特性,目前的图像生成还很难做到「百发百中」,用户往往需要在几张、几十张的生成结果中才能挑中他所满意的那一张。这是因为在图像生成领域仍然有很多可控性问题有待解决,而可控性势必带来交互体验上的复杂性。

作为 C 端消费级产品来说,如何平衡技术、商业和用户体验,仍然是一个很考验产品智慧的问题。

Easel 很巧妙地采取了「自拍表情包」这个视角,一方面它的传播限制在少数亲密关系链的对话场景中,另一方面它的表义性大于美颜性,因此从一定程度上做到了「扬长避短」,具有更大的技术容错空间。

五、生成式 AI 与图像社交的未来

随着大型模型技术的不断进步,我们正处于一个快速演变的时代,每天都有新的研究论文和技术突破涌现。在这样的背景下,我们可以预见,将会有更多类似Remini和Easel这样的创新产品和流行应用不断涌现,为图像社交领域带来新的活力。

作为深度参与这一变革的观察者,笔者认为以下几个技术趋势值得特别关注,它们有潜力催生出颠覆性的新产品:

1. 移动端端侧的实时计算技术

随着模型压缩技术的发展和端侧 NPU 芯片的成熟,加之新一代 iPhone 的推出,移动端市场将迎来新的机遇。端上计算将重塑图像生成产品的市场格局,推动更多以娱乐为导向而非仅仅定位于效率工具的图像社交产品问世,同时提升类似 Easel 这样的应用的用户体验。

2. 文字生成与自动排版技术

文字生成能为图像赋予表意能力,自动排版则可为图像增添平面设计能力。这两者的结合将推动图像生成产品超越单一素材生成的局限,向更全面的商业级应用发展,催生出海报设计、漫画创作、广告制作等垂直领域的应用。

3. 数字人与角色动态驱动技术

随着虚拟人技术的不断进步,图像和个人IP形象将被赋予更加丰富的情感、智慧和表达力。这种技术不仅可以应用于短视频和直播,还将促进全新的陌生人社交场景的诞生。

4. 新的图像格式和内容裂变

传统的位图格式以像素作为存储单元,但生成式图像包含了大量的「元信息」,这些元信息如同图像的DNA,将引领新的图像格式和内容裂变玩法。在这个过程中,每一个创作者都将作为版权链条的一部分被记录下来,这将促进创作生态的健康发展。

5. 空间计算与 3D 生成

众多创业公司如Luma AI、Spline、Genmo 等正在积极探索 3D 内容生成的解决方案。随着 Vision Pro 等设备的普及,将为 3D 内容生成提供更多的训练数据和商业化场景。3D 内容非常契合生成式 AI 所擅长的虚构内容创作场景。生成式技术将为虚构内容创作提供更广阔的舞台。

展望未来,我们将见证一个更加多元化、个性化、互动式和沉浸式的图像社交新纪元。让我们拭目以待,看看未来将如何展开,而我们又将如何在这个充满创意和想象的世界中找到自己的位置。

参考材料:

https://techcrunch.com/2024/04/23/with-easel-ex-snap-researchers-are-building-the-next-generation-bitmoji-thanks-to-ai/

https://apps.apple.com/us/app/easel-ai/id6448734086

大模型“聚会”:国内卷价格,国外卷能力

aigc阅读(4)

在中美AI大模型的竞争上,正衍生出两种不同的路径。

继北京时间5月14日凌晨OpenAI春季发布会上,OpenAI推出兼具听、看、说能力的GPT-4o后。北京时间5月15日凌晨谷歌I/O开发者大会上,谷歌CEO桑达尔·皮查伊发布数十款Google和AI 结合产品,堪称“全家桶”级别,全面围剿Open AI。

其中包括支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash,对标Sora的Veo,开源模型Gemma 2,支持生成式搜索的AI Overviews、第六代TPU等。

整场开发者大会最大的看点为,谷歌推出的AI语音助手——Astra,它能够通过摄像头识别物体、代码和各种东西。现场演示视频中,用户要求Astra在看到发出声音的东西时告诉她,助手回答说,它可以看到一个发出声音的扬声器。对于一闪而过的苹果,Astra居然也能够准确回答出在眼镜旁边。

除Astra外,谷歌还推出基于Gemini的多款通用AI Agent子系列产品。如音频的NotebookLM、音乐的Music AI Sandbox、视频的Veo、图像的Imagen 3,直接对标OpenAI发布的GPT-4o、Dall-E和Sora。

和谷歌、OpenAI围绕技术之争不同的是,国内大模型或将迎来价格战时代。在5月15日字节举办2024春季火山引擎Force原动力大会上,字节推出3款AI产品,包括AI生图产品 PicPic、AI 教育产品河马爱学、AI 剧情互动产品猫箱。

除这三款产品外,字节面向TOC端的产品还包括定位AI教育的Gauth,定位AI对话的豆包和CiCi;定位AI工具的小悟空ChitChop;定位Al Bot创建平台的Coze和扣子;定位AI互动剧情的BagelBel等。

但字节率先启动行业价格战,火山引擎总裁谭待表示,豆包大模型将开启付费商业化,且定价远低于行业价格。以豆包通用模pro-32k版为例,模型推理输入价格仅为0.0008元/千Tokens。市面上同规格模型的定价一般为0.12元/千Tokens,是豆包模型价格的150倍。

字节本轮降价后,后续国内其他大模型厂商或将跟随。但降价能否帮助国内大模型厂商带来更多新增用户和付费用户,仍值得商榷。

GPT-4o和谷歌Gemini不断宣传现阶段AI能力大幅度提高,两家谁的大模型能力更强呢?基于此,我们也对GPT-4o和Gemini展开了多维度的测试。

01 文本输出:Gemini和GPT-4o愈发接近,部分能力已赶超

因GPT-4o和Gemini均属于世界TOP级的大模型,在测试两家大模型的文本输出能力上,我们直接将难度升级。

为什么很多国家仍以油车为主?你觉得影响新能源汽车海外渗透率提高的因素有哪些?我们将这一问题同时给到GPT-4o和Gemini,二者均指出充电基础设施建设、购置成本、技术进步、政策支持、消费者文化习惯是很多国家仍以燃油车为主的原因。

但相较于GPT-4o,Gemini不仅识别到我们提问的是两个问题,且均给出答案,也回答出GPT-4o没有指出的车企方面、宣传教育方面的问题。也就是说,Gemini的回答可能更为完整。

图源:基于Gemini和GPT-4o生成内容整理 DoNews制图

我们继续追问要求两个大模型同时给我们撰写一份10000字全球新能源汽车报告,并要求报告中需要包括行业价格战、电池技术、未来发展方向、产业趋势。

但此时两个大模型的表现已经出现明显差异,GPT-4o给我们生成七大章节的框架,每个框架下也要对应的小框架。但就是不输出我们要求的内容,这或许和当前GPT-4o在长文本能力上的欠佳有关。

图源:GPT-4o官网

Gemini虽给我们具体的文本内容,但全文1679字和我们要求的万字报告差距较大。内容被大幅度压缩后,整个内容质量也相对欠佳。

如在提到新能源汽车产业趋势发展上,Gemini给出的内容为产业链整合、跨界合作、国际化竞争,每条内容仅有一句话进行概括。换言之,在真正涉及行业专业性问题上,Gemini和GPT-4o均存在不同程度的短板。

图源:Gemini官网

当我们将难度继续提高后,询问为什么今年以来全球大宗商品价格持续上涨?这种涨幅带来的影响有哪些?未来价格是否会回落?在首问中GPT-4o和Gemini给出的答案有所相同,均指出和供应链、地缘冲突、全球经济等因素有关。且在未来价格走势预测中,两者给到的答案也基本相同。

但在涨幅所带来的影响上,Gemini给出的答案可能更为完整。尤其是在金融、企业利润、社会等方面的影响,GPT-4o并未指出。

图源:基于Gemini和GPT-4o生成内容整理 DoNews制图

在文本内容快速分析上,我们让两款大模型同时给我们分析安克创新2024年Q1财报中存在的风险点,GPT-4o生成的风险点包括现金流减少、高额的销售费用和管理费用、财务费用大幅度波动、公允价值带来损失这四点。

图源:GPT-4o官网

但Gemini给出的内容却包括营收增速放缓、经营活动大幅度下降、销售费用和管理费用大幅度增加、存货跌价损失增加、汇兑大幅度增加、对政府补助依赖这六点。这也不能看出,Gemini的回答更为完整。

图源:Gemini官网

而当我们要求两款大模型同时以如何帮助失恋的人走出阴影,写一篇2000字的文章。要求文章有观点,并且文章内需要配上对应的图片和音频,Gemini的表现可以说完全吊打GPT-4o。

在文章开头,Gemini直接放入一曲舒缓的音乐,且这个音乐也支持播放。每个细分章节下,Gemini直接从网站上检索到和内容相关的图片,实现OpenAI提到的文本、音频、图像的任意组合。

图源:Gemini官网

对比之下,GPT-4o给到的内容就有些逊色。除文章开始处能看到图片外,其余正文处均未看到任何和内容相关的图片,且全文中也看不到音频。

图源:GPT-4o官网

整体测试下来后我们发现,谷歌在生成式AI领域尤其在文本能力输出上已经从“落后”到追赶,甚至内容质量上、内容组合等能力上已经超过GPT-4o。

02 对比之下,Gemini综合能力不容忽视

在测试过程中,我们发现Gemini不仅支持文本内容提问,且也支持语音提问。但因国内网络受限,暂无法对语音功能进行测试,也无法判断这是否为谷歌发布会上提到的Astra。相较于谷歌的快速,GPT-4o目前仍是支持单一的文本内容提问。

图源:Gemini官网

图源:GPT-4o官网

深耕搜索行业多年的谷歌,让目前的Gemini也能实现AI检索。且这种检测不仅包括图文网页也包括视频。当我们要求Gemini以汽车安全为核心,生产一个20-30S的视频时,Gemini先是给出了我们具体的视频脚本。

当我们继续追问你能我们直接生成视频吗?Gemini的回答有些超过我们的预期,直接给到我们几个YouTube的相关链接。且这些链接居然也无须跳转YouTube上观看,在Gemini大模型内也能实现自动播放。

图源:Gemini官网

图源:Gemini官网

对比之下,GPT-4o虽也能根据我们的要求输出对应的视频脚本,但却并不具备Gemini的这些功能。

图源:GPT-4o官网

值得注意的是,Gemini和GPT-4o目前均不支持音频、视频内容识别,且Gemini目前也不支持图片生成功能。支持图片生成功能的GPT-4o,目前也存在部分问题。

如当我们要求GPT-4o输出一张同时包含中国传统神话故事中四大神兽的照片时,图片内容虽出现四大神兽,但除青龙稍微符合神话故事原型外,其他三大神兽均和神话故事中的原型相差极大,这可能也和OpenAI团队对中国传统神话故事学习能力欠佳的有关。

图源:GPT-4o官网

但在图片的识别能力上,Gemini正以图片识别为基础场景,衍生出更多场景服务。我们选取网络平台常见的面条图片,Gemini在识别出这张图片为鸡蛋面后,又给到我们鸡蛋面、中国面条等关键词方便我们二次检索。更重要的是,Gemini还直接推荐各种鸡蛋面的做法。

图源:Gemini官网

对比之下,GPT-4o在识别出图片内容为拌面下,仅是简单地对拌面进行介绍,并未展开过多叙述。

图源:GPT-4o官网

当我们将识图能力难度升级后,在网络平台上选取常见的竹林照片,并询问Gemini图片的拍摄地点时,Gemini给出包括日本京都岚山竹林、日本京都嵯峨野竹林、日本冲绳八重山竹林、中国四川毛竹林、中国安吉竹林、南美或东南亚等地点,并指出竹林的重要性。

图源:Gemini官网

GPT-4o仅指出,这样的景色在中国、日本等东亚国家极其常见。如日本的京都岚山竹林和中国的安吉竹海都是著名的竹林景区。不仅地点相对Gemini较少,还反问到你知道具体的拍摄地点吗?

图源:GPT-4o官网

在测试逻辑推理上,我们选取2023年全国卷数学高考真题中难度较大的压轴题时,GPT-4o给出的答案可以用失望来形容。

图源:2023年全国卷数学真题

如在全国高考卷第20题的两问中,GPT-4o仅是简单地给出不完整的解题步骤,没有输出任何一个准确答案。

图源:GPT-4o官网

第21题的三问中,GPT-4o不仅将三小问变成两小问,且前两问求概率的问题上,本应为具体数字的答案,在GPT-4o这里却是带有变量N的不确定答案。

但Gemini的表现同样欠佳,如在第20题首问的求通项公式中,Gemini虽给出两种解法,但两种解法给出的答案完全不同。换言之,Gemini有可能仅是简单地抓取国内网站的相关链接,并未对信息内容和准确度进行二次审核。

图源:Gemini官网

整体来看,目前Gemini在很多方面的综合能力,以及产品上线速度方面比GPT-4o更加能打。且在价格方面,谷歌的Gemini 1.5 Flash 的价格定为每100万个token 35 美分,比GPT-4o的每100万个token 5 美元的价格低很多。产品组合性能表现不输GPT-4o叠加低价,谷歌或许正在放出王炸。

但按照OpenAl在大模型上积累的强大技术能力来看,谷歌在某些方面稍微领先的优势能保持多久,仍有待商榷。谷歌和OpenAI在AI大模型技术上的持续博弈下,可能会将美国AI大模型的技术能力推向新高度。

03 国内卷价格,或将推动行业加速洗牌

对于字节率先发起行业价格战也不能理解,目前国内大模型在TOC端的商业化落地,正朝着当年的移动互联网方向发展。

依靠价格战,移动互联网厂商(大模型厂商)不断提高新增用户和日活用户的同时,后续逐渐衍生出如广告、电商、与核心业务场景高度契合的其他场景收入。这在保证平台实现单个用户价值最大化的同时,也能帮助移动互联网厂商(大模型厂商)提高现金流,持续减少企业亏损。

后续移动互联网厂商(大模型厂商)继续发动行业价格战,资金能力不足的中小厂商被洗牌出清,行业份额继续朝着头部厂商集中。头部厂商获得高话语下,对供需两侧衍生更多商业化,最终让行业形成强者愈强的马太效应。

不仅仅是TOC端,大模型价格战未来也将同样出现在TOB端。对标SaaS产业来看,价格仍是国内SaaS企业的核心优势之一,尤其在SaaS产业产品和场景同质化严重、国内企业主付费意识不强、中小客群存在流失率高、合规性差、决策集中一人等现状下,头部SaaS厂商想要从价格战的泥潭中走出,面临着不小的阻力。

但需指出的是,互联网时代面向TOC端的价格战,更多是建立在细分场景下的服务上。这种服务下,消费者真正关注的也就是服务好坏。刚需场景下,这种服务好坏更是被淡化。

但AI大模型时代,类似于美图这种图片场景类的服务,消费者的要求可能不高。但其他场景下,本质是用户愿意为大模型的高质量内容进行付费。

换言之,消费者真正看重的仍是大模型的处理能力以及能否高效完成任务,而非价格。若在完成任务能力上表现欠佳,价格再低实则也是无用。

尤其是对于金融类、研投类对大模型输出的内容质量要求高、数据质量生成快且专业的行业来说,更是如此。更别提企业端定制大模型,更不允许大模型的生产内容和数据存在丝毫偏差了。

或许国内大模型厂商是想借助价格战,尽快让大模型帮助企业带动营收增长,进而对冲大模型前期高昂的研发成本投入,以及相关硬件方面的投入。

但随着国内大模型厂商在价格上持续内卷,或将影响到不少技术能力优越但资金实力不足的初创企业,这又是否会让中美在大模型方面的技术能力差距被拉开得更高呢?

谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora

aigc阅读(4)

谷歌I/O 2024如期来了,眼花缭乱地发布了一堆更新。

跟OpenAI半小时的「小而美」发布会相比,谷歌显然准备得更加充分,当然,时间也相当之长……

2个多小时的发布会也是挑战着观众们的极限,在场人群早已困倒一大片。

准备好,谷歌要开始轰炸了。

首先,Gemini 1.5 Pro,上下文长度将达到惊人的200万token。

然后,面对昨天OpenAI GPT-4o的挑衅,谷歌直接甩出大杀器Project Astra,视觉识别和语音交互效果,跟GPT-4o不相上下。

接着,谷歌祭出文生视频模型Veo硬刚Sora,效果酷炫,时长超过1分钟,打破Sora纪录。

最后来了一个重磅消息:谷歌搜索将被Gemini重塑,形态从此彻底改变!我们不再需要自己点进搜索结果,而是由多步骤推理的AI Overview来代办一切。

发布会结束后,劈柴甚至还用Gemini算了一下,整个发布会共提了121次AI。

一、Gemini时代,来了

CEO劈柴上来就无视了GPT和Llama的存在,这样总结道:「我们完全处于Gemini时代」。

并且给出数据:如今全世界使用Gemini的开发者,一共有150万人。

万众瞩目的Gemini更新如期而至。

Gemini 1.5 Pro最强特性之一,就是超长的上下文窗口,达到了100万tokens的级别,超过了目前所有的大语言模型,而且开放给个人用户使用。

今天,劈柴宣布:它的上下文token数将会达到2000K(200万)!相比之下,GPT-4 Turbo只有128K,Claude 3也只有200K。

而这也意味着——你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。

2M长上下文窗口,可以去排队申请了

这个上下文长度,已经超过了目前所有大模型。

但是,这并不是终点,谷歌的目标是——无限长上下文,不过,这就是后话了。

1. 用篮球讲解牛顿运动定律

在这样的Gemini加持下,我们可以实现许多迅捷的功能。

比如,作为父母需要了解孩子在学校的情况,就可以在Gmail中要求Gemini识别所有关于学校的电子邮件,然后帮你总结出要点。

如果你错过了公司会议,但可以拿到一小时时长的会议录音,Gemini就能立刻帮你总结出会议要点。

为了帮助学生和教师,在NotebookLM中,谷歌设计了一个「音频概述」的功能。

把左边的所有材料作为输入,Notebook就可以把它们整合成一个个性化的科学讨论了。

对于听觉学习型学生,这种形式就非常生动。

演示这个demo的Josh表示,自己的儿子第一次看到这个功能时,直接惊掉下巴。

他第一次感觉到,学习不再是死板的,牛顿力学定律居然以通过篮球来学习!

支持多模态的Gemini可以处理你上传的任何格式的信息,理解内容后将其改造成适合你的形式,与你对话互动了!

2. Agent:帮你申请退货

接下来,劈柴展示了Agent的一些例子。

买了一双鞋子,不合适想退回怎么办?

拍一张照片给Agent,它就可以从你的邮箱中搜出订单后,帮你填写退货单了。

再比如,你刚搬到某个城市,Agent就能帮你探索你在这个城市所需的服务了,比如干洗店、帮忙遛狗的人等等。

如果靠我们自己搜索,可是要搜十几个网站,但Gemini可以发挥自己的「多步推理」能力包揽这些任务,把你需要的信息一次性提供给你!

搜索和整合信息的功能非常强大,输入新家的地址后,它甚至可以代替软件问你外卖应该放哪个位置。

总的来说,谷歌的理念就是:利用Gemini的多模态、超长上下文和智能体能力,把世界上的所有信息组织起来,让它们对每个人都可触达、可利用。

而最终目标,就是让AI对每一个人都有用。

二、谷歌搜索,被Gemini彻底重塑

之前OpenAI一直有意无意放出烟雾弹,声称要发布全新的搜索产品,等于是把刀架在谷歌脖子上了。

果然,谷歌这次不甘示弱,放出了个大的。

从今天开始,在Gemini的加持下,谷歌搜索会彻底变样。

在搜索框下,会出现一个为你量身定做的AI总结。

注意,它并不简单地将所有内容拼凑在一起,而是帮你把活都干了!

你的问题是什么样,它就会帮你做规划,展示出若干个卡片,让搜索信息以鲜明的方式被呈现出来。

这次AI Overview即将发布的另一个重磅功能,就是多步骤推理。

它能将用户输入的一个复杂问题分解成多部分,确定需要解决哪些问题,以及用什么顺序解决。

因此,以前可能要花几分钟甚至几个小时的研究,现在几秒钟内就可以完成!因为它将十个问题合而为一。

比如,如果想找到波士顿最好的瑜伽或普拉提工作室,它会直接搜出来结果,然后帮你整理好情况介绍和工作时间。

只要一次搜索,所有需要的信息就自动呈现出来。

在下面这个例子中,你可以要求谷歌提供一个三天的膳食计划。

这些食谱被从整个网络整合出来,清晰又全面。

而且,我们还可以用视频去搜索了!

比如,该怎么修这个唱片机?

以前,我们需要进行一堆搜索,确定它的牌子、型号。

现在,直接拍一个视频丢给谷歌,然后直接开口问:它的这个毛病是什么原因?

谷歌用AI Overview,给出了最全面的信息。

从此,在谷歌搜索中,你需要做的,就是简单的「张嘴问」。

三、对标GPT-4o,Project Astra打造通用AI智能体

我们已经看到,新模型GPT-4o赋予了ChatGPT强大的实时对话能力,让Her走进现实。

全新AI语音助手,是通往AGI的下一个未来。

对标OpenAI,谷歌DeepMind今天首次对外公布了「通用AI智能体」新项目——Astra。

其实,昨天谷歌放出了一个demo,已经让所有人对Astra项目有了初步的了解。

而今天,现场的演示更加炸裂。

网友称,这是谷歌I/O大会中,自己最喜欢的part。

不仅有Astra强大的对答如流的能力,还首次展示了「谷歌AR原型眼镜」配上AI的震撼演示。

Astra两部分演示,每段视频均为单次拍摄、实时录制完成

召唤Gemini之后,测试者提出问题,「当你看到会发出声音的东西时,告诉我」。

它回答道,「我看到一个扬声器,它可能会发声」。

接下来,测试者用红色剪头指向扬声器的顶部,再次问道,「这个扬声器的部件叫什么」?

Gemini准确理解指令,并答出「这是高音扬声器,能产生高频的声音」。

然后,对着桌上一桶彩色蜡笔,让Gemini就展示的物体,给出了「押头韵」的创意——

「Creative crayons color cheerfully. They certainly craft colorful creations.」

Gemini以「c」音重复开头,生动形象地描绘了用蜡笔欢快涂色,可以创作出许多绚丽多彩作品的场景。

而更让你意想不到的是,它还可以读懂代码。

甚至都不是截屏,而是用摄像头怼着电脑屏幕拍,然后问Gemini「这部分代码是做什么的」?

Gemini看了一眼,就立即给出回答:「此段代码定义了加密和解密函数。它似乎使用AES CBC加密,根据密钥和初始化向量对数据进行编码和解码」。

再将镜头移向窗外,「我在哪个街区」?

Gemini便回答道,「这似乎是伦敦国王十字区,这里以火车站和交通枢纽而闻名」。

眼镜找不到了?

直接可以问Gemini,「你记得在哪里见过我的眼镜」?

它立刻回想刚刚见到的场景,「是的,我记得。你的眼镜就在桌子上,旁边有一个红苹果」。

要知道,刚刚这个问题并没有向它提过,Astra完全是凭自己的视觉记忆回答出来的,简直成精了。

而Astra的这番表现,直接让全场倒吸一口凉气,发出惊呼。

谷歌原型AR眼镜首现身

接下来的演示,更炫酷了。

刚刚找到的眼镜,竟是谷歌的原型AR眼镜!配合上强大的Gemini模型,即将开辟全新的应用。

测试者走到白板前,看向一个「服务器」的构建示意图,然后问道,「我应该怎样做能使这个系统更快」?

Gemini表示,「在服务器和数据库之间,添加缓存可以提高速度」。

再比如,「看到如下图,会让你想起什么」?

——薛定谔的猫!

「在帮我给这对家伙,起一个二重唱乐队名字」。

——Golden Stripes

大会上,Hassabis称,「一直以来,谷歌希望构建一个能在日常生活中真正有所帮助的通用AI智能体。如今,这一愿景成为现实,可以追溯到很多年前。这也是谷歌从头开始打造多模态Gemini的主要原因」。

真正的通用AI智能体,必须像人类一样,对复杂、动态的世界做出理解和响应。

它需要接受和记住所看到的内容,以便理解上下文采取行动,并且具备主动性和个性化。

甚至,你可以与其如真人般丝滑交流,没有任何滞后或延迟。

为了打造这款全能AI智能体,谷歌DeepMind克服了很困难的工程挑战——将AI响应时间降低至对话水平。

具体来说,谷歌团队在Gemini的基础上,开发了能够持续编码视频帧的智能体。

然后,将视频和语音多模态输入,整合到事件时间轴中并缓存,以便实现AI智能体高效召回,更快处理信息。

此外,谷歌还使用广泛的语调变化,增强了语音输出效果。

基于这些努力,Astra能够更好理解上下文,在交谈中可以快速做出反应,让互动的节奏和质量感觉更加自然。

有网友称,「谷歌的这个Astra项目绝对是游戏规则的改变者,我们现在生活在一个由个人AI助手组成的世界,聊天机器人现在已经过时了。它可以实时地看、说、听,几乎没有延迟」

当然,这次演示中,谷歌偷偷推出的AR硬件,也成为网友们的关注点。

谷歌科学家刚刚放出了,用Astra看谷歌I/O大会的演示,可以自己感受下。

四、图像、音乐、视频,面面俱到

与此同时,谷歌大会上再次推出了一系列关于「生成式媒体工具」的最新进展。

其中,包括图像、音乐,以及视频模型。

1. 最强AI文生图Imagen 3

首先,AI文本到图像生成模型Imagen 3迎来重磅升级。

比起上一代,Imagen 3能生成更多细节、光影丰富,且干扰伪影更少的图像。

新模型对提示的理解能力,得到显著提升,可以从较长的提示中,捕获细节。

如下图中,对狼的特征,背景颜色,画质质量等要求,Imagen 3一致地呈现了出来。

另外,Imagen 3可以生成视觉丰富、高质量的图像,有良好光照和构图。

它可以准确地渲染小细节,比如人手上的细微皱纹,以及复杂的纹理。

下图中,毛绒大象清晰的编织纹理,还有光照,效果鲜明。

Imagen 3还可以在更长的提示中,加入一些微小的细节,比如「野花」、「蓝色的小鸟」…

谷歌还极大地改进了Imagen 3的文本渲染能力。

如下图片提示,「由各种颜色的羽毛组成的「光」字,黑色背景」,然后Imagen 3生成了漂亮的字体。

以下是官方给出的更多演示demo:

2. 视频生成模型Veo,1080p超过60秒

这次谷歌发布的视频模型Veo,可以看作是对OpenAI Sora的正面迎战了。

可以看出,Veo生成的视频不仅真实,而且在光线、构图等方面具有惊人的电影感。

Veo的推出建立在DeepMind过去一年各种开创性成果的基础上,包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。

谷歌结合了这些成果中最好的架构和技术,提高了一致性、质量和分辨率。

Veo具备1080p的高质量,用户提示可以是文本、图像、视频等各种格式,还能捕捉到其中关于视觉效果和影像风格的各种细节描述。

通过点击「扩展」按钮,用户就可以持续增加视频的时长,最终,它的时长已经超过Sora达到了1分10秒。

可以看到,在下面这个视频中,汽车的形状与周围环境始终保持一致。

有这种专业级的生成效果,电影制作人可以直接用Veo来协助创作了。

从此,每个人都可以成为导演,也应该成为导演。

好消息是,Veo已经开始在官网开放试用了。此外,团队还开发了实验性工具VideoFX搭载Veo模型。

申请入口:https://aitestkitchen.withgoogle.com/tools/video-fx

在谷歌官博中,给出了Veo更多演示,还特别强调了均是AI生成,未经过修改:

3. Music AI Sandbox

在音乐方面,谷歌和Youtube一起构建了Music AI Sandbox。

输入一段旋律,它就可以进行风格迁移,帮助艺术家们快速实现自己的想法和创意。

为此,谷歌还特意邀请了许多音乐家、词曲作者和制作人来测试。

他们惊喜地发现,使用这个新的AI音乐工具,他们居然做出了自己从未想到的音乐!

比如这位音乐制作人,希望把乐曲中的这段旋律变一个风格。

Music AI Sandbox的产出,让他激动地当场跳起来。

他表示,作为一个嘻哈音乐制作人,AI带给他的尝试空间,是无止境的。

4. Demis Hassabis:我在思考智能的本质

谷歌DeepMind负责人Hassabis表示,自己从小玩国际象棋时,就一直在思考智能的本质是什么。

他深信,如果我们能以负责任的方式建造AGI,影响将是深刻的。

谷歌DeepMind自去年成立以来成绩斐然。而最近的大成就,就是几乎可以预测所有生命分子结构和相互作用的AlphaFold 3了。

五、原生多模态Gemini App

谷歌还打造出了一款Gemini原生多模态应用,可以同时文本、音频、视频内容。

一直以来,谷歌希望能够打造一个有用的个人AI助理。

Gemini App,正重新定义我们的交互方式。

为了让我们与Gemini交互更自然,谷歌发布了Gemini Live。

有了它,你可以在给朋友发消息的同一个程序中,还能与Gemini聊天。

你甚至可以控制自己的说话节奏,或者随时打断Gemini回答,如同与真人交流一样。

比如,你正在为一场面试做准备,只需要进入Live,让Gemini陪你一起做准备。

Gemini可以与你进行模拟面试排练,甚至在与潜在雇主交谈时应该突出哪些技能,还能提供建议。

谷歌表示,今年晚些时候,会推出摄像头模式,可以以周围环境与Gemini实现对话。

与此同时,谷歌还推出了根据个人需求自定义的Gemini专家——Gems。

它可以是你的健身教练、瑜伽伙伴,也可以是你的写作创意导师、编程伙伴等等。

接下来,谷歌还展示了通过规划,让我们如何离AI助手更近一步。

比如,一次旅行的规划,需要涉及地理、时间、天气等诸多因素,需要AI能够做出优先顺序和决策的能力。

Gemini Advanced的全新旅行规划,可以将模型推理和智慧融为一体,为人类更好服务。

六、Ask Photos新功能

在Gemini的加持下,谷歌还会推出Ask Photos的新功能。

比如,如果付停车费时忘了自己的车牌号,就可以直接询问自己的车牌照片是哪个,不需要翻阅手机里的大量照片了。

在比如,你可以问它女儿是什么时候学会游泳的?她的游泳是怎么进步的?

Gemini会识别众多照片中的不同场景,将所有相关内容汇总。

七、Gemini 1.5 Flash:更小,更快,200万token

根据某些Gemini 1.5 Pro用户的反馈,一些程序需要更低的延迟和服务成本。

针对这一点,谷歌发布了Gemini 1.5 Flash。

跟Pro比,Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。

并且,它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。

今天起,Gemini 1.5 Flash在Google AI Studio和Vertex AI中就可用了,开发者可以注册申请两百万token的内测版。

此外,为了方便开发者,谷歌还对Gemini的API功能进行了三项优化——视频帧提取、并行函数调用和上下文缓存。

八、第六代TPU Trillium,4.7倍性能提升

在背后给这些技术进步提供基础设施的,就是谷歌的TPU。

简单来说,相较于TPU v5e,第六代Trillium TPU在性能上实现了高达4.7倍的提升,并在能效上提升了超过67%。

为了实现这一飞跃,谷歌增大了矩阵乘法单元(MXUs)的规模并提升了时钟速度。

并为Trillium配备了第三代SparseCore——专门用于处理高级排序和推荐工作负载中常见的超大嵌入的加速器。

在这里,SparseCores可以通过从TensorCores策略性地卸载随机和细粒度访问,有效加速了重嵌入型工作负载。

与此同时,谷歌还将高带宽存储器(HBM)的容量和带宽翻倍,并将芯片间互连(ICI)的带宽提升了一倍。

由此,Trillium可以支持更加复杂的模型,拥有更多的权重和更大的键值缓存,并大幅缩短了大模型的训练时间和响应延迟。

在一个高带宽、低延迟的Pod中,Trillium可以扩展至256个TPU。

而通过多切片技术和Titanium智能处理单元(IPU),Trillium还可以进一步扩展——通过数百个Pod,连接数以万计的芯片,并在一个多千兆位每秒的数据中心网络支持下,组成一个超大规模的超级计算机。

九、更多的开源模型

最后,谷歌还发布了自家首个视觉-语言开源模型——PaliGemma,专门针对图像标注、视觉问答及其他图像标签化任务进行了优化。

不仅如此,谷歌还将在6月推出规模更大的开源模型——Gemma 2 27B。

在性能方面,全新的Gemma 27B不仅超越了规模大了2倍还多的模型,而且还能在GPU或单个TPU主机上高效运行。

参考资料:

https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus?e=48754805

https://www.youtube.com/watch?v=XEzRZ35urlk

从人机交互角度聊聊ChatGPT-4o

aigc阅读(6)

前天半夜ChatGPT-4o的发布会应该未来几天AI圈子最有热度的话题了,其中几条更新其实可以从人机交互的角度解读一下。

首先我们还是先来看看GPT-4o更新的主要内容(只关注交互角度解读可跳过):

  1. 多模态交互能力:ChatGPT 4.0支持图像和文本输入,并能输出文本,具备多模态交互的能力。这意味着它可以理解图像内容,并生成字幕、分类和分析等操作。
  2. 自然语言理解能力提升:在自然语言理解方面有显著提升,这使得ChatGPT 4.0能够更好地理解用户的输入,并根据用户的语境提供更准确的回答。
  3. 上下文长度增加:ChatGPT 4.0的上下文长度得到增加,这使得模型在处理长篇对话时表现更佳,能更好地理解整个对话的背景和上下文,从而给出更准确和恰当的回答。
  4. 数据分析及可视化作图功能:通过直接打通相关功能模块,ChatGPT 4.0能够利用自然语言交互,根据知识库、在线检索到的数据进行数据分析及可视化作图。
  5. DALL·E 3.0功能:ChatGPT 4.0引入了DALL·E 3.0功能,允许用户上传图片并在其上进行查询,可以直接从必应浏览,并直接使用ChatGPT中的DALL·E 3.0功能,在图片上进行创作。
  6. 模型架构和训练数据的进步:开发者在这个版本中引入了更先进的模型架构、更多的训练数据和更多的语言数据,将聊天机器人的性能提升到了一个新的高度。
  7. API开放和价格优惠:新版本GPT-4 Turbo支持128k上下文,知识截止更新到2023年4月,视觉能力、DALL·E3,文字转语音TTS等功能全都对API开放,同时API价格还打了3-5折。

这其中的第1、2、3、5点都可以从人机交互的角度聊一聊。

第1点:多模态交互能力

今天作者也看了一些写GPT-4o更新的文章,有些人仅仅把多模态交互能力理解成了我们可以不仅仅使用文字和GPT交流了,这么理解实在太小看多模态交互能力了。

要知道,人类通过文字表达和声音表达,即使是完全同样的文本。所包含的信息也有很大的差别。文字只是静态的信息,而声音包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。

同样是【你好】,文字只能表达1种含义,而声音可能能表达4-6种。对于程序来说,多模态交互意味着从更多来源获得信息(指视、听、文、环境等来源)。也意味着获得更多信息(例如刚刚所说的声音维度的语音、语调、音量、语速、停顿、重音)。

从多来源获得信息并获得更多信息,GPT就可以缩短推理、判断等过程,更快速的给与用户回复。这就像是用户自动的把提问描述的更详细了,把自己的要求说的更清楚了,如此一来GPT给与反馈的速度和质量自然会有对应的提升。(当然同样也有模型方面带来的提升)

除了声音之外,GPT-4o的多模态交互能力还包括视觉理解能力,例如能识别图像中的人脸,分析性别、年龄、表情等信息。这同样是我们刚刚所说的从更多来源获得信息以及获得更多信息。

以上是多模态交互能力中,人向GPT输入过程中的意义,那么对于人机交互的另一部分:GPT向人输出的阶段,同样意义非凡。

GPT-4o可以根据需要以最合适的模态进行回应,在之前GPT只能以文字进行回复,但之后则可以是文字、声音、图像。声音模态的意义是支持更多交流场景以及对无障碍交互的包容。图像的意义就不用多说了吧,无论是取代了命令行界面的图形化界面,还是你晋升答辩时准备的PPT,都能体现图像相对于文字的优势。

第2点:自然语言理解能力提升

如果说多模态交互能力代表了输入和输出这两个阶段。那自然语言理解能力就代表了【处理】这个阶段。当GPT从多来源获得信息后,下一步就是理解这些信息,理解过后才能给出回复信息。自然语言理解能力的提升意味着GPT-4o对用户意图的识别更加准确了。那么自然后续回复的内容、回复的模态都会有更高质量的结果。

第3点:上下文长度增加

这一点的意义首先体现在长篇对话上,我们可以类比人与人之间的交流方式,两个相识了多年的朋友,可能他们一句很短的对话就可以包含非常大的信息量,例如:

张三对李四说:你上回那个设计方案真是太牛了!

这句话本身没提及但张三和李四都能理解的信息可能有:

  1. 设计方案的具体内容
  2. 设计方案的效果
  3. 时间点(上回)

如果想清晰的表达以上的1、2、3包含的具体信息,可能需要上千字或十分钟的对话才能说清楚,但由于这些信息都已经被储存在人的记忆中,两人在交流的过程中就可以省略很多详细的描述和前置条件,用一句话表达大量信息。

对于GPT-4o而言,可记忆的上下文长度增加就意味着他变成了一个对你更熟悉的程序,所以当用户与GPT-4o交流时,就可以像张三和李四交流那样使用更少的信息交流更多的信息,同时能够保障交流质量。

要注意的是,刚刚我使用了对你更熟悉的程序这样的描述,而不是对你更熟悉的朋友这样的描述,这里面关键的区别有两方面,第一方面是所谓的上下文长度,可以类比人与人相识的时间和交流的信息总量、了解程度。第二方面是

我们可以畅想一下,如果现在的新生代儿童从很小的年龄就开始使用AI工具,并且AI工具附着在便携式智能设备上,以多模态与用户同时感知周围环境,再加之GPT-4o的可贯穿数十年的可记忆上下文长度。这样的AI可能会成为用户最熟悉的朋友,甚至远超父母、家人。如果再给与这个AI相应的硬件,那几乎可视为智械族了~

第5点:DALL·E 3.0功能

文生图能力以及对图片的智能编辑能力已经是很多其他产品早已具备的了,不过GPT-4o这次更新帮助用户节省了之前都是由用户操作的不同数据类型转化的操作,改为由GPT-4o代替,对用户来说 同样是操作效率的提升。就像我们之前如果在某张图片上看到了一个新概念,那可能需要用打字或ocr的方式将图片转化成文字再继续使用。而GPT-4o以后将为用户省掉这个过程。

其他的像创意工作、广告制作、产品设计、教育演示等方面的意义就不再多说,市面上已经有很多类似的产品了。

在整个发布会之中,还有一个令用户们wow的点是GPT-4o的响应时间仅为232毫秒(平均320毫秒),几乎达到了与人类实时对话的水平,显著优于前代模型的延迟表现。

其实我们可以从以上的解读中思考一下,为什么GPT-4o的响应时间得到了如此大的提升?

  • 第1点:意味着GPT-4o获取信息的速度更快了,信息量更多了。
  • 第2点:意味着GPT-4o理解这些信息更快了
  • 第3点:意味着GPT能从上下文获得更多用户没有直接表达的信息

综合以上3点提示再加上本身模型能力的提升,GPT-4o的响应时间达到232毫秒也就容易理解了。

当GPT-4o的响应时间达到了人类与人类对话的水平时,很多应用场景的想象空间就更大了。具体作者想到了如下几方面:

  1. 实时交互性增强:这样的响应速度使得人机对话接近无缝对接,几乎消除了传统人工智能助手在处理请求和提供回复之间的感知延迟。用户在与GPT-4o交流时,会感觉像是在与另一个真实人类进行自然流畅的对话,可以大大提升了交互的真实感和满意度。
  2. 用户体验优化:更快的响应时间减少了用户等待反馈的心理负担,使得交流过程更加舒适和高效。这对于需要快速反馈的场景尤为重要,比如紧急情况下的信息查询、即时决策支持或者快节奏的商业沟通。并且更加与人与人的交流相似了,想象一下我们在和朋友聊天的时候,一般不会等个3秒再说话吧?
  3. 应用场景拓展:由于能够实时处理音频、视觉和文本信息,GPT-4o打开了通往更多应用场景的大门。例如,在客户服务、教育辅导、远程医疗、虚拟助理、游戏交互等领域,实时交互能力都是提升服务质量和效率的关键。