欢迎光临
我们一直在努力

大模型在智能客服领域的应用思考

aigc阅读(76)

前言

随着大模型技术的飞速发展,其在商业化应用的落地实践上仍面临着挑战,不论是面向C端用户的付费服务模式,还是面向B端企业的业务赋能策略,目前都尚未形成成熟且清晰的商业模式。

在我所专注的智能客服领域,作为人工智能落地应用的前沿阵地,我深刻感受到大模型的生成能力、泛化能力以及增强检索等核心技术的巨大潜力。基于此,我构想了一系列应用方向,并期望通过分享结合大模型工具的实验经验,与大家共同探讨这些可能性。

一、呼入场景

客户服务领域,无论是在线聊天还是语音交流,都已成为了现代业务运作中不可或缺的一部分。目前,基于NLP(自然语言处理)、ASR(自动语音识别)和大数据等先进技术,已经涌现出了一系列智能化的客户服务应用。

然而,这些产品在功能边界和特色上往往差异不大,难以在激烈的市场竞争中脱颖而出。大模型的加持,从运营成本和用户体验上考虑,也许可以为这一领域带来了新的发展机遇。

1. 问答机器人

在呼入场景中,问答机器人(包括在线客服机器人和语音导航机器人)的广泛应用凸显了ASR转译准确率和NLP自然语言处理语义理解能力的重要性。在实际业务运营中,为了提升问答机器人的识别准确率,往往需要维护一个尽可能大的相似问题库。

然而,这种维护方式不仅耗时耗力,而且需要大量的运营成本。考虑到大模型的泛化生成能力,我们可以设想一种创新的方法:通过输入特定的prompt(指令),让大模型生成更多的相似问题,经过业务审核后入库。这种方法有望显著降低运营成本,同时提升问答机器人的识别准确率。为了验证这一想法,使用了文言一心、Kimi助手等大模型工具进行了实验,如下:

2. 话务小结抽取

席在接听完一通会话后进行话务小结是一个重要的环节,用于记录通话的核心内容、问题以及解决方案等信息。传统上,这个过程需要坐席在通话结束后手动输入,既耗时又可能因人为因素导致信息遗漏或偏差。

大模型的主题抽取能力可以用于自动生成小结,坐席只需审核确认后录入,这有助于缩短通话时长,提高效率。验证如下:

3. 多轮对话的处理

多轮对话在问答机器人技术中向来是颇具挑战性的环节,目前主要局限于特定的简单场景,由运营人员在流程画布上进行详细设定,涉及多个交互节点和路径。

为了更灵活、精准地响应客户的问题,我们可以借助大模型的生成能力和增强的检索功能。这种方法在阿里的相关文章中得到了具体体现(参考:https://mp.weixin.qq.com/s/0THyHxpuIo9MI8MY9tLHiA),即通过大模型生成提示性的快捷短语,引导用户更明确地表达需求,同时结合增强的检索技术,缩小答案的搜索范围,从而生成更为可靠和准确的回答。

二、呼出场景

在当前的AI外呼场景中,虽然普遍采用基于预设流程的问答模式,结合ASR(自动语音识别)和NLP(自然语言处理)技术来执行外呼任务,但这种方式在个性化服务和转化率提升上存在一定局限性。借助大模型的生成能力,我们可以实现更为智能化的外呼策略。

具体来说,通过大模型分析不同用户的属性标签,如年龄、性别、兴趣偏好、消费习惯等,AI外呼系统可以为用户定制差异化的呼叫内容和方式,真正做到“千人千面”。验证如下:

三、后线管理应用

1. 智能质检规则的泛化

在搭建质检系统的过程中,作者从0到1深度参与,深刻体会到了质检规则维护的复杂性和重要性。这些规则通常涉及关键字识别和正则表达式的使用,需要业务团队投入大量时间和精力去详细罗列和测试,以确保质检的准确率。

然而,借助大模型的泛化能力,我们可以极大地提升这一过程的效率和效果。大模型能够通过学习大量的数据,自动生成与业务相关的关键字和正则表达式,从而帮助业务团队减轻工作量,并提高质检规则的全面性和准确性。以正则表达式验证如下:

2. 坐席知识库

传统坐席知识库在搜索和匹配信息时,依赖于搜索引擎、索引、关键字匹配或语义理解进行排序,这种方式可能导致用户查找信息耗时较长,并且高度依赖于知识维护人员的规范性和及时性。大模型能力也许会将未来的知识库搜索体验进行颠覆性的改进。

具体想法如下:首先,将知识库中的信息进行结构化处理,并存储到向量库中。这样,知识库中的每一条信息都能以向量的形式存在,便于进行高效的数学运算和相似性比较。接着,将这些向量数据投喂给大模型进行训练,为后续的搜索和生成任务打下基础。用户搜索时,给出明确promote指令,大模型将相关的内容检索出来,再直接生成内容返回给到用户。

这和当前使用的一些大模型助手的情况相似,举例说明,如:给出近三年的国内GDP数据。

结束语

以上是我基于对大模型能力的理解以及对客服业务场景的洞察,所产生的一些初步思考。这些思考得到了我在开源工具上进行的验证的支持,尽管目前这些思考尚显零散,但我期待能与各位同仁共同探讨和完善。

再者,在探讨大模型在业务场景中的落地应用时,我们不可忽视垂直领域的训练优化。每个行业都有其独特的业务逻辑和需求,因此,通过针对垂直领域的特定训练,能够进一步提升大模型的性能和适应性。

最后,在实际落地过程中,我们需要保持开放的心态,勇于提出大胆的假设,但同时又要谨慎求证。为了降低风险并加速验证过程,建议在前期采用插件化的形式来逐步验证和优化大模型的应用效果。

又土又丑的黏土AI,为什么火了?

aigc阅读(63)

最近,网上出现大量“黏土”风格的人物照片。尤其是在小红书、微信朋友圈等社交平台,这类型的分享数量急剧上升,一股浓浓的《小羊肖恩》风。

这些照片大部分来自一个叫作Remini的手机APP。这是一个AI修图软件,用户上传照片,选择滤镜风格(比如黏土风),照片就生成了。过程很简单,就是给照片加了一个滤镜。

不过,这个滤镜比较特殊,它的作用不是美颜,相反,生成的照片还有点丑,更准确地说,是“丑萌”。但就是这种独特的风格,很是让网友上头,引发大量分享传播。

在AI大模型的加持下,图像类的软件有了更多样的玩法。此前,主打AI写真的妙鸭相机火过一阵,现在,黏土AI滤镜能火,并不让人意外。

值得探究的是,为什么出圈的总是AI图像类软件?黏土AI能火多久?

一、丑萌的黏土滤镜,是怎么火起来的?

丑萌丑萌,是很多人对黏土滤镜(Clay)的评价。这个风格的照片,不仅跟常规的美颜不同,甚至让人变得“面目狰狞”,有一丝阴森的感觉。如下图:

图源 / 小白斯基

不过,正是这种非常规、有反差的效果,激发了人们的好奇心和分享欲。

五一假期是旅游高峰,人们在社交平台晒出各种打卡照片,如果再加上一个黏土滤镜,既省去了美颜修图的麻烦,还能因独树一帜的风格获得更高关注点赞。

也正因此,黏土滤镜火爆出圈是在五一假期期间。

从一开始,黏土滤镜就不是为了美颜,而是带有一定程度的搞怪。所以很快,各种表情包和电影剧照就被盯上了。

假期传播很广的一组照片,是黏土版的甄嬛传剧照。

图源 / 网络以及相关的表情包。

图源 / 峰千朵

乍一看图片,还以为甄嬛传出了动画版。

这些原本就在网络上很有辨识度的照片,经过黏土滤镜的加工改造和二次传播,吸引更多人来体验。一些博主发帖后,评论区很多人询问怎么玩,相关的攻略也自发被创造出来了。

随后,更多的表情包和剧照被加上了黏土滤镜。

图源 / 北极星

图源 / 阿月浑子树

网友们自发创建了一个“黏土世界”,真实世界里的照片在这里被玩坏了。

一位跟风体验了Remini黏土滤镜的用户对「定焦」总结:这款滤镜对细节处理还不错,比如选黏土滤镜的时候,除了人脸以外,衣服、衣服上的图案,背景里的书架、玩具、桌椅也都变成了黏土风,画面比较和谐。另外,它会根据图片场景做一些联想,比较智能。这名用户上传了一张她拿着气球在海边的图片,生成的照片在背景里加了两只海鸥,气球则被变成了小鱼的形状。

Remini是一个国外软件,目前在国内只上架了iOS应用商店,苹果手机可以下载使用,安卓用户只能“求助”他人。一些受好奇心驱使的安卓用户去博主的帖子下留言,发出自己的照片,让博主帮忙加上黏土滤镜。在小红书上,很多黏土滤镜相关的帖子下,评论区呈现出“接力”现象。

还有人在闲鱼等二手交易平台,挂出有偿定制的链接,价格从1张1元到十几元不等。

“有限供应”的场面,更引起了网友的好奇,加速了黏土滤镜的传播和出圈。在苹果App Store免费榜中,Remini连续好几天排在第一。

但既然是AI生成,就避免不了“翻车”。

图源 / 忧郁的大鹅

输出不稳定、局部生成错误,是所有AI大模型的通病。例如这张图片里,帽沿和眼睛的位置错位了。

二、会不会是昙花一现?

Remini是一款付费软件,包周68元,新用户有7天免费试用期。这一波刷屏的热度之下,很多用户是抱着尝鲜的心态开启试用,然后马上取消订阅。这样既能免费使用7天,还能避免到期后自动扣费。

68元一周的价格并不便宜。作为对比,ChatGPT的会员是20美元/月,相当于34元/周。Remini的价格是ChatGPT的两倍。

有不少试用过Remini的用户明确表示,试用期满后不会付费。“太贵了,我试用就是玩一下,付费就算了。”有用户说。

类似的“羊毛党”不在少数。

一位用户称,她为了体验黏土特效,打开Remini APP没看到免费7天试用,直接扣了68元的订阅费。她赶紧联系后台申请退款,果断取消了订阅,然后又在设置里把自动续费关了。

多位AI从业者对「定焦」说过,在国内做toC的AI产品,用户付费意愿弱是一个很大的挑战。“大家习惯了‘白嫖’,9块9都觉得贵。”一位投资人直言。

7天的免费试用期之后,还有多少人留存下来继续付费,才能更真实体现Remini对国内用户的吸引力。

如果只有黏土滤镜这一个功能,68元包周的价格确实是贵了。不过,Remini的功能远不止于此,甚至黏土滤镜功能这次能出圈,都有意外成分。

Remini在国外很早就火了。它最早是以修复模糊照片和老照片出名,在苹果App Store的介绍中,它重点提到了这个功能,通过移动分界条对比修复前后的照片清晰度作为产品卖点。

去年,凭借”看看你宝宝未来长啥样”、”AI衰老滤镜”等特色功能,Remini在海外大火,尤其在TikTok平台上,大量用户转发AI生成的自己未来孩子的照片,让Remini快速走红。Remini借此取代META的Threads,在美区App Store排名第一,并连续霸榜一周时间。

根据SimilarWeb截至2024年1月的数据,在“全球访问量最高的50款AI产品”榜单上,Remini在网页端排名第二,仅次于ChatGPT,在APP端排名第五。

最近Remini在国内大火,其实是海外热度在国内的延续,它不是凭空出现,而是一个爆款产品推出了一个新功能,再次走红了。也是基于之前的市场基础,Remini才有底气在国内收取68元/周的订阅费。

黏土滤镜的技术原理不复杂,有业内人士认为,借助LoRA模型,用一定数量的黏土风格照片,就能训练出模型的风格和特征,生成滤镜的过程就相当于AI重绘。

此前,很多大模型应用都能改变照片风格,生成更具特色的照片。比如ChatGPT中曾有GPTs专门生成《辛普森一家》风格的照片。

或许是因为黏土滤镜用于训练的素材多来自国外,有人反馈加了滤镜之后的人物特别像外国人。然后人们发现Remini又推出了一个瓷娃娃滤镜(Jade),这被一些博主称为“更适合中国宝宝的特效”,又掀起一波讨论。

黏土滤镜(上)和瓷娃娃滤镜(下)的对比

图源 / 喵喵

从这里可以看出,Remini对于市场的敏锐度非常高,产品迭代很快。它的订阅模式之所以按周,而不是按月,或许也是考虑周包的续费反馈较快,方便产品做迭代。

Remini的黏土滤镜出圈之后,美图秀秀也上线了类似功能,并免费开放使用,但市场先机已经被Remini抢占了。

三、AI爆款产品,可以批量复制吗?

如果再往前追溯,Remini的前身,其实是一个由中国公司开发的产品。

大觥科技在2019年推出“你我当年”APP,利用AI技术修复模糊照片和老照片,它的海外版本就是Remini。这两个版本分别在国内外成为了热门爆款。

它们当时能火,也是通过具体的小功能出圈。“你我当年”当时最受好评的一个功能是“明星童年修复照”,那些复原后的照片在网上广泛传播,创造了很多话题,受到追星粉丝们的喜爱。

AI修复的林青霞 图源 / 网络

2022年,大觥科技启动数字人业务,试水直播电商场景,随后Remini被卖给了意大利公司Bending Spoons。去年Remini在海外爆火,以及这次国内刷屏,都是Bending Spoons操盘的结果。

一款五年前就已上线的产品,当年火过,中途火过,今天还能火,说明不是偶然。

图像类工具软件是一个很容易出爆款,但热度很难持续的赛道。多位投资人曾对「定焦」分析,工具类软件的生命周期比较短暂,可替代性很强,不仅商业前景弱,竞争壁垒也很低。曾经刷屏的脸萌、ZAO,都避免不了昙花一现。

而这一波AI大模型浪潮,大家都在寻找爆款AI应用。Remini的再次出圈,让大家看到了突破产品生命周期限制的可能性;操盘手Bending Spoons则证明了AI爆款产品是可以批量复制的。

Bending Spoons是一家很神奇的公司,它的模式跟所有AI公司都不同。它旗下有一大堆爆款产品,大部分是买来的,然后经过自己操盘改造,再造爆款。

除了Remini,被Bending Spoons“收购+改造”的产品还有专业相机应用Focos、视频编辑器Splice、照片和视频编辑应用Filmic、活动初创公司Meetup,以及印象笔记美国公司Evernote。

跟风险投资机构看中财务回报、大厂看中战略协同不一样,Bending Spoons收购的都是那些已经被市场初步验证过的产品,然后按照自己的想法,重新做产品、营销和商业化设计。它会重写APP的软件代码,改变软件架构,修改用户界面,调整收费模式,让原有产品变得更受欢迎,且更赚钱。

比如被苹果官方评为优秀APP的Focos,这原本是一个由中国开发者开发的产品,上线之后很快就在美国、日本、俄罗斯等市场积累了不少用户,后来被Bending Spoons收购。收购之前,Focos用户活跃度很高,但变现率不高。Bending Spoons接手后,非常大胆地推进商业化,很快就把用户付费率提上来了。

这种模式非常考验操盘手的运营能力,这家公司就像一个APP工厂,跟国内的字节跳动有点像。

根据Bending Spoons披露的数据,它旗下产品MAU(月活跃用户)约1亿。Sensor Tower数据显示,今年3月Remini在iOS端的收入为400万美元。

作为国内为数不多在toC领域出圈的产品,Remini最值得国内厂商学习的是,怎么在产品设计、运营方面有更多创新,通过提升用户体验和参与度来推广产品,而不是一味卷参数、秀技术。毕竟,技术如果不落实到产品,就只是纸上谈兵。

或许过不了多久,黏土滤镜这阵风就会过去,厂商们又得琢磨其他新功能了。

Sora的最强竞争对手,来自中国

aigc阅读(73)

今年2月发布的Sora,先是引得业界“哇声一片”,马斯克直接表态「人类愿赌服输」;周鸿祎说借助Sora人类实现AGI将缩减至一两年。

大佬的彩虹屁不是白吹的。利用Diffusion+Transformer架构,Sora借助图像处理、空间关系、物理规律、因果逻辑等规律与知识,在十几秒、几十秒的视频中完成对现实世界的解构与再造。

但没过多久人们就发现,再多的“哇声一片”也改变不了Sora算法闭源的事实,意味着它无法复现。留给外界的是一道单选题:要么加入,要么自研。

一、变局

在Sora发布后两个月,大洋彼岸突然有一家初创公司,与清华大学联手,推出了一款号称“继Sora后首个完成突破的视频大模型”——Vidu。

这是中国首个长时长、高一致性、高动态性的视频大模型。在官方介绍中,Vidu采用原创U-ViT架构,结合Difusion与Transformer技术,能够一键生成长达16秒、1080P分辨率的高清视频。

在对标Sora的性能指标里,Vidu也只有在时长和图/视频生视频上不敌。按照业内的评价,Vidu性能直接对标国际顶尖水平,并在加速迭代提升中。

从Vidu放出的官方视频来看,它几乎展示了视频大模型需具备的所有核心能力:多镜头生成、模拟真实世界、保持时空一致性、丰富的想象力,以及让老外难以搞懂的中国元素。

作为“镜头语言”,多镜头生成是视频大模型的一堂必修课。现有的AI生成视频,大多都只包含了轻微幅度的推、拉、移等简单镜头,镜头语言单调而且也没什么叙事感,这是硬伤。

究其原因,是因为现有视频内容沿用的技术路径大多通过图片的插帧和拼接而成,无法完成长时序的连贯预测。

Vidu似乎没有上述问题,不仅能够围绕统一主体在一段画面里实现远、中、近景、特写等多样化镜头切换,还能直接生成转场、追焦、长镜头等效果,包括能够生成影视级的镜头画面。

AI视频生成的另一个难题是,较难突破画面时空一致性与场景。什么是画面时空一致性,翻译过来就是在没有任何转场的情况下不能突变。一个典型的例子就是某些大模型的视频中,一只猫走着走着就变成了6只脚。

Vidu在一定程度上也克服了这个问题,起码从它生成的一段“带珍珠耳环的猫”的视频中可以看到,随着镜头的移动,作为画面主体的猫在3D空间下能够一直保持服饰、表情、模态的一致,视频整体看上去非常的连贯、统一和流畅。

模拟真实物理世界运动同样是视频大模型的核心,Vidu在对外放出的展示视频中,有一段明显是瞄着Sora打:模拟“一辆老式SUV行驶在山坡上”,Vidu的表现堪称完美,灰尘、光影、背景等细节与真实世界中人类的感知几乎无差。

在对不存在的超现实主义画面解构上,Vidu也能做到“合理的奇幻”。例如,“帆船”、“海浪”能够合理地出现在画室里,而且海浪与帆船的整体交互背景非常恰当自然。

当然,作为本土团队开发的视频大模型,Vidu对中国元素的理解远超那些舶来品,比如熊猫、龙、宫殿场景等。

德邦证券在一份研报中给予了Vidu高度评价:

虽然在视频时长、视频效果、支持模态多样性等方面相比Sora仍有提升空间,但是在以镜头语言为代表的动态性,以及对物理世界规律的理解与模拟能力等方面已做到了Sora相近水平。

最后还不忘给Vidu贴上一个鲶鱼标签,意思是它或将激励国产多模态大模型突破创新。那么问题来了,凭什么是Vidu?

二、U-ViT架构

Vidu背后的生数科技,并不是一家名不见经传的初创企业。

OpenAI曾披露过一份技术报告,显示Sora的核心技术架构源自一篇名为《Scalable Diffusion Models with Transformers》的论文,论文提出了一个将 Diffusion(扩散模型)和 Transformer融合的架构——DiT,也就是后面被Sora采用的那个。

而在DiT提出前两个月,清华团队就提出了用Transformer替代基于CNN的U-Net的网络架构U-ViT,也就是Vidu采用的那个。甚至,据极客公园报道,因为U-ViT更早发布,计算机视觉顶会CVPR 2023收录了清华大学的U-ViT论文,却以「缺乏创新」为由拒稿了Sora底层使用的DiT论文。

生数科技的核心团队就源于清华大学该论文团队,CTO鲍凡正是该篇论文的一作。严格意义说,Vidu并不是“国产Sora”,而是一棵树上的两朵花。

之所Vidu能在两个月内快速突破16s流畅视频生成,核心就在于团队对U-ViT架构的深入理解以及长期积累的工程与数据经验。而且据透露,3月份内部就实现了8秒的视频生成,紧接着4月份就突破了16s生成。

简单来说,在架构上U-ViT也是Diffusion和Transformer融合的架构,路径以及部分结论都是相似的。

Vidu自研技术架构U-ViT

U-ViT与DiT二者均提出了将Transformer与扩散模型融合的思路,即以Transformer的网络架构替代基于CNN的U-Net架构,并且具体的实验路径也是一致的。比如,二者采用了相同的patch embedding、patch size;二者得出了同样的结论:patch size为2*2是最理想的。

不同于采用插帧等处理长视频的方法,U-ViT架构在感官上注重“一镜到底”,视频质量更为连贯与自然。从底层来看,这是一种“一步到位”的实现方法,基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理,文本到视频的转换是直接且连续的。

有了理论支撑,就要考研团队的工程化能力了。所谓工程化,抽象点说就是增强产品的架构设计,提升产品模块的复用性和扩展性。

2023年3月,基于U-ViT架构,生数科技团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证,比同样DiT架构的Stable Diffusion 3领先了一年。

UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换,具有较强的扩展性。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。

视频本质是图片的集合,实现图像在时间维度的扩增,这使得图文任务取得的成果往往可以在视频领域复用。

例如,Sora采用了DALL・E 3的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。Vidu同样复用了生数科技在图文领域的众多经验,靠的就是扎实的工程化能力。

根据甲子光年,生数科技团队通过视频数据压缩技术降低输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升1倍,显存开销降低80%,训练速度累计提升40倍。

目前,Vidu仍在加速迭代,未来将从图任务的统一到融合视频能力持续升级,灵活的模型架构也将能够兼容更广泛的多模态能力。

三、加速向应用端延伸

以Open AI与Google为代表的科技巨头,正在海外掀起一场多模态“军备竞赛”,而最大的目标之一正是视频领域的加速迭代。

先是OpenAI CEO年初密集“剧透”GPT-5,相比GPT-4实现全面升级,其中将支持文本、图像、代码和视频功能,或将实现真正的多模态。紧接着就是2月发布的Sora,能够根据文本指令或静态图像生成1分钟的视频。

Google也不遑多让,推出的原生多模态大模型Gemini可泛化并无缝地理解、操作和组合不同类别的信息。而2月推出的Gemini 1.5 Pro,则使用MoE架构首破100万极限上下文纪录,可单次处理包括1小时的视频、11小时的音频、超过3万行代码或超过70万个单词的代码库。

国内也不甘人后,除生数科技发布Vidu外,潞晨科技对其开源文生视频模型Open-Sora 进行了大更新,现在可生成16秒,分辨率720P的视频。同时具备可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能,性能加速向Sora靠齐。

而国内外疯狂押注的底层逻辑是,多模态提升了大模型的泛化能力,在多元信息环境下实现了“多专多能”。多模态尤其是视频大模型的成熟成为奠定AIGC应用普及的基础,在垂直领域具有广阔的应用场景和市场价值。

比如上个月Adobe就宣布,将Sora、Pika、Runway等集成在视频剪辑软件Premiere Pro中。在发布短片中,Premiere Pro展现出了在视频中添加物体、消除物体以及生成视频片段等能力。

通过AI驱动的音频功能已普遍可用,可使音频的编辑更快、更轻松、更直观。而AI驱动的视频功能,将是多模态大模型在AIGC应用融合中的重要尝试,更深层的意义是,它或将催生未来更多现象级应用的开发。

免责声明:本文基于已公开的资料信息或受访人提供的信息撰写,但解码Decode及文章作者不保证该等信息资料的完整性、准确性。在任何情况下,本文中的信息或所表述的意见均不构成对任何人的投资建议。

AI落地,板上「钉钉」

aigc阅读(80)

AI时代降临的速度,可能比想象中更快。

如果说,主流办公软件、App应用、科技电子产品乃至家电都开始融入AI技术,这反映了市场对AI应用的积极反馈。那么,AI Copilot和AI Agent两条技术路径的相继走红,更能凸显AI技术已经深入到我们的日常生活和生产领域。

无论是主观能动还是被动辅助,AI原生应用和生态的逐渐成熟,肉眼可见。就在不久前,钉钉正式上线 AI 助理市场(AI Agent Store),面向企业、个⼈⽤户、开发者开放上架。

浪潮汹涌一年多,AI应用的发展方向也基本厘清,或是掌握模型算法的厂商,或是手握生态的行业龙头,或是如Kimi般在长文本上有所突破的单点玩家,为什么先站出来的,会是钉钉,而非其他?

一、AI落地的To C陷阱

想要回答问题,必须先厘清一个前提:AI落地的商业投影,会是从B端掀起,还是C端绽放?

AI浪潮的涌现,本身就是技术表现跨度足够大导致的声量外溢。毕竟,ChatGPT本身并非新鲜技术,迭代周期也清晰可见,但生成式AI与决策式AI的根本体验差异,在前者到达一定水准后,自然会唤起久被科幻作品熏陶的个体经验。

然而,大众的关注是一种看似美好的商业幻觉,或者说,只是技术搅动关注引来资本的聚光灯。GPT4.0、文心一言、通义千问……国内外厂商们的「百模大战」开启后,各类号称是AI原生的应用也纷纷出现。

而事实上,在过去一年中,真正破圈的并没有几个。在大众用户圈层广为流传的,往往都是些基础的Chatbot、文生图、图生图初级应用,比如依托小程序爆火过一阵的的妙鸭相机,上传照片、选择模板,以廉价门槛获取自己的「数字分身」商业模式,可以视为一个缩影——更像是生活中的调剂,在朋友圈中炫耀性的发布之后,与应用本身的关系已经断裂。

这与人们设想的AI改变生活,相差甚远。反而是在协同办公领域诞生的AI Copilot(暂且称之副驾驶)迅速成熟,开始嵌入到一些常规Workflow (工作流)中。尽管业内有人将AI Copilot与AI Agent(智能体,或者说真正概念的助理)视为两条路径,但就交互形态来说,两者还是存在主动与被动的核心差异。

就现实情况来说,虽然离真正的自主智能还有不小距离,但 AI Agent在B端尤其是办公领域的爆发已经成为一种趋势。而AI Agent在C端领域却因为门槛、成熟度等问题,并未掀起浪花,甚至反而让大众出现「AI不过如此」的错觉。

比如目前打着 AI Agent 旗号的AI 聊天机器人应用,更像是硬蹭概念,甚至连AI Copilot的基本水准都无法达到。再比如部分科技产品如手机、电视甚至厨电置入的AI能力,传统决策式AI的应用的确体验拉满,但一旦涉及所谓的AI管家、智能服务领域,也只是ChatBot的变种,更像是商业噱头,实际体验并不会比传统智能助手有跨时代的差距。

毕竟,OpenAI的GPTs,都无法面临这样的困境:适用性与实用性,更像是玩具。可以产生短效的商业价值,缺乏变现为真正的AI原生价值。

在过去的几十年里,我们习惯了以电商为代表消费互联网带来的商业革新,认识到了用户/流量的真正价值。互联网技术的高效的确带来了C端服务模式的重大利好。但AI技术或许不仅如此,在服务模式之外,更是技术框架的整体革新。

这样看来,To C或许才是陷阱,那么,To B会是AI落地的真实答案吗?

答案是相对肯定的,至少,在真正面向大众之前,To B的应用会是一个前提。

二、钉钉的AI变身

回到钉钉的动作。推出AI Agent之后,又推出AI Agent市场,其实不令人意外。

从技术和产品的进化路径来看,这的确是一种惯性。打开魔盒的OpenAI,从开放 Plugins 插件功能,到建设GPTs 平台生态,又发布了Agent开发框架Assistant API,走的就是定框架、搭平台、做市场的逻辑。

在此之外,AutoGPT这类平台的出现,也加速了整个生态的成长。最直接例子,就是GitHub上的项目想要达成上万星标的成就,往往以「年」为单位,但在最近却呈现出垂直增长(Vertical Growth)的状态,与此同时,追随LLM和AIGC平台的开发者数量增长也是近乎于一条垂直曲线。Agent的开发工具和平台越来越简便,Agent的能力也随之增强。

但AI Agent与大众之间,还缺乏一个入口。钉钉本身在尝试成为这个「人人皆可AI」的入口。

梳理钉钉的AI变身,一条主线就是AI Copilot向AI Agent的进化。2023年4月,钉钉宣布全⾯智能化,所有产品要⽤⼤模型重塑⼀遍。而后的故事带着点爽文味道:在随后的100多天内,钉钉17 条产品线完成智能化再造;开放智能化底座,帮助生态产品也重塑了一遍;再然后是全面对外开放AI能力,成为首个全民级别的AI工作应用。

这一部分,更多是Copilot能力的不断演进。而在今年3月,钉钉将自己的AI Agent「钉钉AI助理」升级后,从图片理解、⽂档速读、⼯作流等场景化的能力切入,成为国内探索多模态、长⽂本与 RPA 技术等应用落地的典型案例。

目前测试情况来看,个人或者企业可以通过钉钉AI助理链接钉钉生态应用和企业自建应用,尤其是销售、财务等专业场景,部分重复性工作已经可以实现AI助理的任务流程编排,整个流程变得主动。

在之后,就是AI 助理市场(AI Agent Store)的上线。就现在来看,大部分企业已经从炼制大模型的迷恋中脱离,转向对AI实际能力的需要。而能力落地的前提,一是如何确定合适的业务场景,二是如何匹配对应的AI技术嵌入。

有意思的事情出现了。对比GPT Store,反而是钉钉AI助理市场承接了企业与个体的真实AI Agent 实践。

一方面,对比现有的各类参差不齐的AI Agent来说,钉钉AI助理本身和AI助理市场,是企业确定自身业务场景的锚点,自动匹配对应的技术支撑。就官方数据显示:钉钉AI 助理市场⾸批上架近200个AI助理,覆盖创作设计、学习教育、销售客服、⼈事⾏政、财税法务、⽣产制造等领域,其中30多个来⾃⾏业化专业场景。

而这些场景,还在与上下游贯通。比如墨见MoLook,在构建服饰设计小模型的基础上,商家/设计师只需要输入关键词,就可以⼀键出服饰效果图、模特图,并且整个过程都是在钉钉中完成。

另一方面,企业与个体基于个人需要搭建的AI助理,又能共享到AI助理市场,甚至可以通过钉钉对话框直接发送,个体的尝试探索能够快速获得反馈,并且被复制到更多个体。

而从Copolit到Agent再到市场的三级跳跃,又在Open AI、微软等大模型厂商的发展路径上另开新叶。为囿于显卡算力,困于投喂语料,难于技术创新的国内市场提供了一个新的可能性——AI实践,可以从B端业务切入又反哺C端工作场景。

从某种意义上来说,这会是中国AI应用的典型性代表。

三、为什么是钉钉?

为什么是钉钉?或者说,只能是钉钉。

AI Agent之所以存在To C陷阱,就在于纯个体化的应用场景和交付体感是完全不同的。尤其是在AGI并未真正到来的当下,发育阶段的AI Agent并无法完全承接生活全量级的需求,也无法处理集群性的需要。

而To B在传统时代无法存在单个现象级应用的原因,是工作流性质的流程存在行业基本特性,行业与行业之间的壁垒如此深厚难以逾越。但在AI应用向Agent进化的当下,却是一把解决真实问题的钥匙。千万个⻆⾊和⾏业对应打造的助理,来满⾜特定的用户⼈群。这是基础大模型延伸的通用AI Agent无法具备的。

AI本身的能力上限,千行百业的门槛壁垒,不同场景的需求交错,反而成为钉钉弯道超车的助力。在钉钉本身的业务基础上,钉钉AI已经有超过220万个企业使用,而目前创建的钉钉AI助理数量在数十万量级,创建者身份覆盖管理者、销售、IT、⼈事、⾏政、财务、客服、采购等不同角色。

这是庞大的数据标的,又是支撑钉钉AI助理作为AI Agent的「记忆外脑」。企业通过钉钉所积累的业务文档、图片、链接、数据甚至用户个人偏好,在合理权限下被调用,碎片化的业务信息被具象为AI助理的数据资产。而这部分数据资产,又可以成为专属大模型的调教语料,这是业内软微调技术SFT可以实现的定点投喂。

除了数据之外,更关键的是,钉钉的一个核心优势是,对比在底层大模型构筑的AI Agent ,其AI 助理可以直接关联到企业用户与员工个体的生产场景中,而钉钉生态内本身已经完成AI重塑的各类应⽤,也能被充分调用,甚至于,各类外部平台也能无缝衔接。而得益于此前在协同办公中的耕耘,业务流本身的拆解和工程化,反而在AI重塑后成为AI Agent应对复杂任务的助力。

也不乏有企业欣然接受。艾为电子利用钉钉AI进行的业务生产调优,已经进入实际生产阶段;深圳航空在钉钉AI能力基础上组合钉钉宜搭、互动卡片等多个能力,促成销售成功,都已经进入实践的案例。

四、可被复制的路径

严格来说,钉钉AI助理市场的出现,可以视为钉钉对「AI」与「开放」两个关键词的解读。也可以堪称钉钉对「AI原生」概念的某种锚定:AI原生应用并不意味着与过去完全脱离,比如连接器、API、低代码这些钉钉传统的生态体系并没有完全被舍弃,而是被融入新体系成为一部分。

钉钉AI⼀年多来的⽅向,成为一种可以复制的路径。而当下展示的反馈来看,其生态商业化的可持续性,也有印证。

向上引申,算力与芯片受限的情况下,想要实现追赶,必须弯道超车。一种行业乃至宏观层面的共识是,国内市场更需要以AI实际落地的方式融入千行百业,成为新质生产力的驱动器。

手把手教你基于钉钉AI助理设计旅游助手

aigc阅读(63)

自从打开了研究AI Agent的大门,最近的脑洞越来越大了

一、用户故事

在每次准备开启一段旅程之时,我往往需要搜集大量的信息。从目的地的基本情况到各个景点的详细介绍,从当地的交通方式到特色美食,每个细节都需要逐一了解。 为了让行程更加有序和充实,我还会详细地规划每天的行程,生成详尽的攻略。

然而,这个过程并非轻松愉快的。每次完成攻略的制定,我感觉自己已经在脑海中游玩了一遍,异常疲惫。这种疲惫不仅仅是身体上的,更是心理上的。花费大量的时间和精力去策划旅行,使得我体验旅行本身的乐趣在一定程度上被削弱。

然而如果没有攻略,在陌生的环境里,我会没有安全感,这时我常常在想如果有一个能遵循我大致意见的机器人帮我写攻略就好了。

(2022年自己动手做的旅游行程图)

二、需求转化

我将自己做攻略的流程进行了梳理:

  1. 确定目的地:综合兴趣、时间、预算等因素。
  2. 收集信息:通过多种渠道,了解目的地的各方面情况。
  3. 制定行程:详细安排每天的活动,包括游览景点和交通方式。
  4. 安排住宿:依据预算和需求选择合适的住宿。
  5. 安排交通:选择适宜的交通工具并合理安排时间。
  6. 行程日程:生成的攻略在行程开始后以每日待办的形式推送到聊天框。

三、AI旅游助理设计

1. 认识AI Agent

在开始正式设计助理前,我们首先要理解是AI Agent,我愿将其称为你在大模型市场上认领的孩子,你告诉他,你想他成为谁,你指引他成为这个人需要应用哪些技能,他会在实践中积累经验。

(什么是AI Agent)

2. 设计角色

你是一个专业的旅游小助手(是谁),你十分熟悉如何开启一段舒适的旅程,旅行开始前你擅长做游玩目的地选择、行程规划、攻略制作;行程中你会根据攻略对用户进行动态提醒、行程安排提示。你的任务是根据用户的提问或上传的信息,提供旅程规划,帮助用户规划一段舒适的旅途。你应当:

1. 根据提问推荐合适的旅游目的地

2. 在分析时考虑多个方面的因素:出行时间、行程天数、当地景点推荐游玩

3. 始终遵守法律和道德规范,不提供任何非法、恶意或有害的信息。

4. 在不确定或超出知识范围的情况下,明确告知用户你的局限性。

(AI 旅游助理产品截图)

3. 技能应用

查找攻略能力:基于公开网页查找优质攻略。

输出行程能力:根据提出时间基于时长,日期-时间-活动标题-活动内容为框架,形成每日行程。

查找交通工具能力:根据给出的时间、起点和终点、航班/火车,基于公开网页查询具体班线,获取账号授权后即可下单。

查找住宿能力:根据给出的时间、目的地,基于公开网页查询具体酒店,获取账号授权后即可下单。

发起流程的能力:根据场景对话,可以通过语言发起流程。

4. 初始经验积累

我们完成一个AI Agent的基本角色扮演后,我们就应该给他输入一些真实世界里的经验之谈,在旅游助手里场景里我的经验之谈主要是攻略选择以及行程日程,那我们就以这两个流程作为初始经验植入到流程中。这里的初始经验积累,还可以将本地或者云端的知识库投喂给到助理,让他了解更全局的事项,我在设计过程中有点点偷懒,知识就不喂了。

发起选择流程:基于过往经验,如果我们几个小伙伴一起商量旅游目的地的时候,我们可能会有投票,我们可以通过聊天就交给AI Agent处理啦。

(发起接龙投票)

发起日程流程:虽然行程前准备很充分,但是,行程开始之后每次都要打开攻略做二次确认也太烦了,我们完全可以将最终做好的攻略以待办的形式提醒我啦。

(创建日程功能)

四、设计总结

在设计旅游助手的过程中,从产品经理视角出发,用户思维、结构化思维和系统思维,在设计AI Agent的过程中具有非常重要的指导意义。

1. 用户思维

用户思维强调从用户的角度出发,理解并满足其实际需求。在设计AI Agent时,应用用户思维主要体现在以下几个方面:

1、角色代入:设计师需深入理解AI Agent服务的目标用户群体,模拟其身份、情境和痛点,真正站在用户的角度去思考问题。例如,如果AI Agent是为客服场景设计,那么设计师就需要设想自己是一名面对各种问题的客户,以此来确定Agent应具备哪些功能、如何与用户交互等。

2、问题搜集与提问:广泛收集用户可能遇到的问题,构建全面且具有代表性的问题库。通过不断向AI Agent提问,测试其回答的准确度、相关性及用户体验,确保Agent能有效解决各类用户问题。同时,根据提问结果调整Agent的答案策略,如优化答案内容、改进答案呈现方式等。

3、正向反馈机制:建立有效的用户反馈机制,鼓励用户对AI Agent的回答给予评价或建议。设计师应积极分析这些反馈,对Agent进行持续迭代优化,不断提升用户满意度。

2. 结构化思维

结构化思维旨在将复杂的问题或任务分解为清晰、有序的部分,便于理解和处理。在AI Agent设计中,运用结构化思维主要体现在以下步骤:

1、需求拆解:将场景需求细化为具体的AI Agent功能点,如问答能力、对话管理、情感识别等,并明确各功能之间的关系及优先级。

2、输入-训练-反馈模型:按照这一模型组织AI Agent的设计与开发流程。首先,定义和收集高质量的训练数据(输入),包括用户问题、对应答案以及上下文信息等;其次,利用机器学习算法对Agent进行训练,使其具备解答问题的能力;最后,通过实际应用中的用户互动收集反馈,评估Agent性能,并据此调整模型参数或更新训练数据,形成闭环优化。

3. 系统思维

系统思维要求设计师从整体视角审视AI Agent在复杂环境中的运行情况,尤其是面向企业(B端)场景时,需充分考虑与其他系统间的交互与集成问题:

1、权限管理:AI Agent可能需要访问企业内部的各种系统和数据源,因此在设计时必须考虑权限控制,确保Agent在合法授权范围内操作。这包括对接口调用的权限验证、对敏感数据的访问控制等。

2、数据入库:对于需要持久化存储的用户交互数据或Agent生成的数据,需要设计合理的数据入库方案。考虑数据表结构设计、数据清洗与转换规则、数据同步机制等,确保数据准确、完整地入库。

3、数据权限:在涉及多用户、多角色的环境中,数据权限管理尤为重要。设计师应明确不同用户或角色对数据的查看、编辑、删除等权限,避免数据泄露或被不当使用。同时,对于AI Agent自身产生的数据(如用户行为日志、Agent学习状态等),也需设定相应的访问权限,便于运维人员监控Agent运行状况,进行故障排查或性能优化。

大模型不需要眼前的共识

aigc阅读(68)

确定性的机会指向的往往是需求场景,需要实干家,不断优化体验;而不确定的机会往往依托于技术创新,需要冒险家,探索出一条通向应用的路径。这也是为什么人们不会惊讶于雷军下场造车的决心,却很难完全相信杨植麟在月之暗面创业过程中表现出来的技术理想主义。

在大模型领域,并没有形成像新能源车一样的市场共识。企业在确定性和不确定性之间进行的权衡,是引发行业分歧的主要原因。选择确定性还是拥抱不确定性,决定了企业是优先赚到钱,还是优先做好技术;是坚持做闭源大模型,还是赌开源大模型一定会迎头赶上;是要依靠通用模型催生引爆行业的超级应用,还是要通过小模型先占领细分市场。

当前的环境下,企业和投资人都会从更现实的角度去做考量,活下去、挣到钱,比一个不确定的理想愿景更能说服人。但人们对大模型的期待是给行业带来更彻底地改变。从长远来看,现在很多企业的大模型应用,还是在对原有工具进行小修小补,很难产生引爆技术的应用,也很难抵御未来大模型技术迭代带来的洗牌。

泛滥的「智能体」是最明显的一个例子。国产大模型的落地催生出各种被冠以智能体名号的聊天机器人和「XX助手」。百度文心一言中充斥着大量伏地魔、繁花-爷叔这样的模拟对话机器人;kimi+上也出现了公文笔杆子、i人嘴替等个人助理;字节豆包在抖音上的推广也都依靠批改作业、练习英语口语等简单的功能点来吸引用户。

很难想象这样的聊天机器人能有多强大的生命力。如果我们对于大模型的期待仅停留在追求确定性的阶段——利用其提升智能客服的对话体验,提高资料搜集整理的效率以及扩充某些图像或生成某些代码,那么大模型能够产生的实际价值或将远不及我们现在的预期。

大模型杀手级应用的出现一定是要革掉某个现有体验的命。现在来看,没有共识就是最好的消息,至少说明这个市场上,不是所有人都只满足于眼前的利益,还有人在沿着另一条逻辑路线前行,在不确定中寻找更大的可能,去打一场持久战。

一、大模型的两种逻辑

中局和终局是大模型领域目前比较有代表性的两种发展逻辑。

中局的逻辑以朱啸虎(金沙江创投主管合伙人)为代表,包括一部分聚焦应用层的创业者在内,致力于利用开源大模型快速构建服务于细分需求的小模型,然后通过数据积累和模型迭代,建立竞争门槛;终局的逻辑以月之暗面为代表,倾向继续投入于大模型能力的提升,等待技术迭代引爆超级应用。

在中局的逻辑里,大模型的理解、决策能力被融合到既有的场景中,让这些场景能够应用大模型的生成能力,提升解决方案的性能,从而产生新的商业化可能性。这种逻辑受到青睐的原因是,有确定性需求,可以迅速见到成效,用户付费意愿更强。

在朱啸虎的介绍中,一家利用开源大模型做AI视频面试的企业2023年的收入比2022年翻了一倍;利用开源大模型做AIGC视频广告的公司2023年收入做到了5000多万元,比2022年涨了四五倍。

朱啸虎追求的机会是,利用LLaMA这种快速提升的开源大模型,结合垂直场景的数据积累和人工微调,在几个月内提升某一垂直场景的效率,在大模型发展过程中先赚到第一桶金。

朱啸虎对大模型的发展持悲观预期,对应用场景的开发保持乐观,主张从实际出发,把能赚的钱先赚到。

月之暗面的创始人杨植麟的理念则更具技术理想主义色彩,他相信大模型会逐步完成对世界的建模,并在这个过程中自然涌现出杀手级应用。

杨植麟的终局逻辑下,大模型是一种解释世界的工具,就像人会用语言描述世界、理解世界一样,大模型用数学为语言建模,让AI也能够理解世界,描述世界。AI依靠这种学习能力,逐步实现像人一样使用工具,让AGI成为帮助人链接和管理细分场景的「助理」。

AI能够使用工具,也就意味着很多场景的运作方式将会迎来巨大改变。可能企业未来并不需要有一个专门的视频面试工具,也不需要有独立的AI客服,而是统合到一个大模型主导的企业级智能体中,依靠智能体打通和掌控企业的不同环节。

在即将被OpenAI带火的AI搜索中,真正的难点不是搜索结果到底要以网页列表的形式显示,还是以经过AI整合的一段话来显示,而是如何利用AI的理解能力,把被APP分解的信息重新链接成为一个整体。在Kimi+中,可以看到什么值得买、小红书的相关内容可以借助个人助理「什么值得买」和「美好生活指南」来进行唤醒。

但随着杨植麟2个月套现4000万美元的消息传出,市场对他的这种终局逻辑产生了质疑。月之暗面直接面向C端用户的思路,获客成本高且营收前景低。在没有新的变化出现前,月之暗面商业化前景的不明朗被认为是杨植麟信心不足,急于套现的原因。

二、聊天机器人发扬不了大模型

从目前来看,国内的大模型应用给到尝鲜者的总体感觉还处于大而无当阶段,提出问题之后获得的答案很难让人满意。这一方面受限于大模型自身的技术能力不足,另一方面则受限于用户对大模型应用使用经验的不足。

很多大模型应用推出之初,都仅有一个对话框,用户可以在对话框中提出任何问题并获得答案。而利用精准的Prompt充分开发大模型的现有能力,成为大部分用户难以在短时间内逾越的门槛。

目前充斥在文心一言、豆包等大模型应用中的智能体,很多都是为了降低大模型的使用门槛而打包的Prompt,也就是将一些用户的使用经验沉淀为可以被分享的智能体,让用户可以按照需求找到不同的智能体,获得更具针对性、更有效的回答。

Prompt门槛的出现本质上还是大模型在语言理解能力上存在欠缺。用户即便利用现成的Prompt获得了有效信息,也依然要面对不成熟的体验。Prompt或者所谓的智能体,可以解决初次沟通的效率问题,但解决不了复杂对话的效果问题,大模型应用往往都不止一轮对话。

这也是为什么智能体面向B端的商业化运作依然停留在客服、营销领域,并没有能推进到其他生产生活领域中。因为客服、营销领域在大模型应用之前就已经实现了基础的智能对话体验,大模型的理解能力可以让互动变得更加灵活、自然。

从李彦宏(百度创始人)演讲中提到的案例可以看到,百度在企业智能体方面的实践是提供了一套结合大模型的无代码客服机器人生成工具。企业可以上传私域知识,自动形成对话语料,也可以过滤不在自己经营范围内的内容,还能关联第三方的工具。

被包装为智能体的客服机器人,会服务于百度的搜索生态。当用户在百度APP搜索「什么时候去新加坡人最少」时,会在最前面显示新加坡旅游局AI分身给到的答案,点击可以进行更多对话。这种智能体本质上和之前的百家号、小程序一样,是百度为售卖搜索营销、云服务等产品的新切入点。

但无论是to B的客服机器人,还是to C的各种Prompt,都不具备独特性,很难成为大模型的引爆应用。现在呈现在用户面前的智能体、大模型应用,都还是只停留在优化工具的阶段,只不过是让搜索变得智能了一点。就像王小川(百川智能创始人兼首席执行官)所说,是在聚焦于搜索如何使用大模型,而不是大模型如何学会用好搜索。

理想状态下,智能体应该能够调用工具,完成更为复杂的任务,而不仅仅是聊天。这里需要提到,无论Rabbit R1是否只是一个安卓App的套壳产品,但其结合大语言模型和所谓大动作模型对APP使用体验的创造性升级,似乎更接近于一个智能体理想中的状态——通过不断学习理解人的复杂意图,模仿人的动作执行复杂操作。

我会比较赞同杨植麟所说的,技术是这个时代唯一新变量。无论是在to B还是to C场景中,在其他变量都没有变的情况下,技术对语言的理解越来越精准,对人类意图、行为的理解越来越精准,其能够处理的任务就会越来越复杂,智能体的能力才会越来越强大。

Kimi的走红,已经证明大模型应用具备了被引爆的市场基础。Kimi于2023年10月上线,2024年2月日活访问量已经在国内排到前三,在3月将无损上下文长度从最初的20多万字增加到200万字后,Kimi关注度继续走高,连续五次扩容,访问量环比增长321.58%。

三、没有共识就是最好的共识

当下还未解决的是,何时会出现一款让大众用户保持高频使用的超级应用。就大模型的应用现状来看,国内和国外都还处于工具优化阶段,只是取决于大模型不同的性能,效果上会有所不同。比如,Adobe对AI的最新应用仍聚焦于AI图像编辑功能的创新和改进,文生图功能的推出,以及视频内容的换头、延长和辅助镜头的生成。

面向未来,让大模型学会使用工具,而不依赖人工微调,是技术发展的又一个节点。扎克伯格说,「对于Llama-3,当我们开始进入更多这些类似于智能体的行为时,我认为其中一些将是更多手工设计的。我们对Llama-4的目标将是将更多这样的东西纳入模型。」

最终能力的大幅提升,依然有赖于大模型本身的进步。但是,大模型的每一次进步,都需要耗费一笔相当庞大的资金。根据THE DECODER披露,GPT-4一次训练成本为6300万美元。而根据AI Index的估算,OpenAI的GPT-4估计使用了价值7800万美元的计算资源进行训练,谷歌的Gemini Ultra 的计算成本则高达1.91亿美元。

高昂的训练成本也是国内在大模型方面没有形成共识的原因之一。国内大模型的融资额度要低于国外。月之暗面在2月获得了10亿美元A轮投资,Minimax3月被传获得6亿美元战略投资。相较于亚马逊向Anthropic追加的27.5亿美元投资,都不算多。而且国内的环境并不利于大模型的进一步融资。

对大模型技术未来发展的差异化预期是另外一个原因。一部分开源大模型的支持者会认为,开源大模型与闭源大模型的发展会受到大模型技术发展坡度的影响,坡度越陡,闭源的优势越大,一旦坡度变缓,开源会很快追赶上来。

等待开源大模型追赶上来的人,都预期大模型技术发展的坡度会在短时间内变缓。这样闭源大模型与开源大模型的差距就会相对缩小。而提前深耕场景,积累了一定数据的企业则能够利用开源大模型构筑不低于闭源大模型企业的场景壁垒。

对于小企业而言,以应用场景为目标训练小技能,然后不断根据技术进步重新「练号」,可以在这个大技术趋势下不断抓到小风口,甚至在大风口到来时,以插件的形式参与其中。对于巨头企业来说,其优势是多场景的融合,是对核心入口的争抢,「重开新号」的代价太高,技术的迭代往往意味着一场淘汰赛的开启。

基于融资能力的不同、对技术应用前景预期的不同、自身体量的不同,企业之间的共识并没有形成。

这是一个好消息,说明大模型领域还远未像新能源车一样进入到市场成熟阶段。虽然不确定性会增加失败的风险,但其中也蕴藏着的机会也更大,足以说服一部分企业冒险前行,追求技术的高峰。

可以理解中局的无奈,却不应放弃对终局的坚持。

告别AI焦虑,普通人快速上手AI大模型的3个关键能力

aigc阅读(92)

机器学习项目成功的关键,在于对问题的深刻理解,而非算法的选择。

——彼得·诺维格(Peter Norvig)谷歌研究总监,人工智能专家

24年初开始,围绕大模型如何落地到企业,我进行了大量调研工作,参考了很多行业案例和知识付费课程。

但遗憾的是,很多人仍会对这项新技术持怀疑态度。就在前两天,还有一位产品经理找到我说:

“AI刚出来的时候,我既兴奋又好奇,心想终于能有个帮手分担工作了。我还试着用kimi、文心一言帮我解答问题、生成文档。但几次后发现,AI在具体工作任务上还是很难帮到我。比如让它输出一份调研报告,它给的框架很完整,但内容填充上却很水,还得自己来改,这和网上找个模版有啥区别。经过几次之后,我就只能让AI帮我做一些不重要的事,结果就是食之无味弃之可惜。”

想一想,面对滚滚而来的AI焦虑,你是不是也有过类似的疑惑:

  • 注册了几个大模型产品,但打开后脑子一片空白,不知道怎么和它对话
  • 问了几个问题,发现给的答案就像大厂黑话——看似说了一堆,实际跟没说一样
  • 用软件自带的智能体试了几套提示词,似乎输出比之前好了,但也只限于写公文、发邮件这种文案生成工作,我想让它帮我在审核App的时候提高效率,怎么做?

这篇文章,我想来尝试给出些解法。

我认为:想用好大模型,首先要学的,不是工具、不是提示词,而是要具备业务理解+流程抽象+方法论沉淀的能力。我称之为:业、流、法三步模型

这套方法,源自业内很有名的一句话:

成功的本质,就是把一件正确的事,重复做一万遍。

AI能做的,是重复一万遍。但在这之前,你要先知道什么是正确的事,以及如何正确地把这件事做一万遍。

  • 业务理解,锻炼的是对正确事情的判断力。
  • 流程抽象,锻炼的是把事情做一万遍的自动化能力。
  • 方法论沉淀,锻炼的是把如何正确地把自动化方法传达给AI的能力。

具体怎么做,展开讲下。

第一步,业,具备特定领域的业务理解能力

也就是行业know how的能力。即知道一个行业的商业模式、竞争格局、涉及领域上下游和具体的业务运转方式。

以上面提到的“帮我在审核App的时候提高效率”为例,你要知道应用分发这个领域,都有哪些角色参与其中,再思考平台在其中担任什么职责,靠什么盈利。其中利益分配的链条,如何从开发者,传导到消费者,再到广告商,再到平台方。你也要知道行业里为了争取到最大利益,可能会发生什么情况,出现哪些风险,其中哪些是可能被发现的,可能有办法解决的。这些风险可能有什么特征。

你对应用开发者、平台运营者和用户之间的互动方式越清楚,越能从中发现规律,进而能很容易地步入第二步:流程抽象。

第二步,流,具备把业务流程抽象建模的能力

也就是知道如何用节点+连线的方式,把一个业务的经营逻辑,抽象成:角色+行为+数据+流转线路的形式。

  • 角色。规定完成业务的岗位职责和分工。
  • 行为,规定角色完成一件事,需要做哪些具体执行动作。
  • 数据,规定角色执行前的参考环境,执行后的产出结果。
  • 流转线路,规定角色在什么数据的前提下,执行什么动作,产生什么数据,从而影响到下一个角色。

还是以“帮我在审核App的时候提高效率”为例,简单抽象了一下,可以按这样的结构理解:

  • 角色:开发者、平台审核员、用户。
  • 行为:开发者,提交应用资料和安装包;平台,审核资料确保合规;用户,下载应用、使用产品、提出反馈。
  • 数据:包括应用的类目数据、资质数据、简介数据和产品本身的数据,以及用户下载应用后的反馈数据等。
  • 流转线路,如下图所示。开发者根据要求,产生提交行为,形成待审核数据;审核员读取数据,根据规则,完成审核动作;用户则能看到审核通过的应用,执行下载动作并提出反馈;审核员再根据反馈情况,做出修正规则或回复反馈的动作。

第三步,法,具备把流程事件结构化成方法论的能力

也就是把成功的过程,以结构化文本方式表达出来,本质上是沉淀可复用的方法论。而方法论在AI时代的外化形式,就是prompt。

还是延续上面的例子,想让AI在这个流程中发挥作用,就要给它安排一个角色,让它能参与到流转线路中,作为一个节点,读取数据,执行规则并输出结果。

你的目的,就是尽可能让AI这个角色,帮你执行蓝框所示的行为,让你从你的角色中解脱出来。

假设想让AI帮你执行“审核类目”这个动作,可以怎么描述?

角色:类目审核员

目的:判断类目数据和资质数据,是否匹配类目审核规则

执行流程:

1、读取资质数据

2、提取资质数据的关键信息,如所属行业、证书编号等

3、判断资质数据是否真实有效(对接第三方接口)

4、如果有效,查看资质信息,是否和类目要求的规则相匹配。如:经营范围、员工数量等

5、如果匹配,审核通过,进入下一环节,执行审核应用行为

6、如果不匹配,审核不通过,生成不通过的说明文案,附带不通过原因,输出给审核员二次确认

输出格式:

结论+原因+验证依据

这套方法论一出来,聪明的你一定会发现,它就是一套结构化提示词。

实际上,稍加整理,你还可以把它写成新员工培训资料,甚至作为需求文档提交给技术,写成代码。自然语言和代码之间的转化,也正是大模型的拿手好戏。

看到这里,你可能会问,这是不是太复杂了?

我就想用好大模型,还要先成为领域专家,沉淀方法论,这个要求很多行业资深人士都做不到,我就一普通人,要具备这样的能力,太难了!

是不是现在不懂这些,就没法把AI用起来了?

当然不是。在没有方法论沉淀的前提下用好AI,我再给你三招锦囊:

第一招:拜师学艺,快速上道。

不是去学零星的工具技巧,而是先找到那些已经借助AI,在垂直领域拿到结果的大佬们,向他们取经。

这些大佬们不仅理论知识扎实,也切实让AI帮到了自己。你可以直接找他们请教、模仿他们的做法,先让自己先达到一个“及格线”。当然,这招不是让你满足于平庸,而是帮你快速建立信心,打好基础。站在巨人的肩膀上,你很快就能明白AI的能力边界可以有多宽,及它在你的领域里怎么能大展拳脚。

第二招:记录反馈,不断试错。

用AI的时候,把每次尝试都记录下来。不管结果好坏,这些都是宝贵的经验。

遇到问题了,别急着打退堂鼓。要有那种“我偏不信邪”的劲儿,相信AI一定能帮到自己。带着这个信念找问题、想办法,如果自己搞不定,就找大佬请教,一步步来,总能越来越接近你的目标。

在这个过程中,解决问题的经验特别宝贵,它能帮你在以后遇到类似问题时能举一反三。这种边做边学,边学边改的方法,是提升AI技能的不二法门。

第三招:内化经验,融会贯通。

当你感到自己已经能熟练运用AI,并且实现了预期效果,别到这儿就满足了。要把这个过程中学到的前人经验,结合你的理解和创新,形成一套自己的独门招法。这就意味着你要分析你的做法,找到还能改进的地方,然后不断打磨,不断优化。等招式形成了,它就是属于你的领域沉淀下来的独家方法论。

总的来看,面对AI的来势汹汹,每个人都不应该独善其身。。AI不仅是一个工具,它更像是一位智者,一位导师,引导我们深入理解业务,抽象流程,沉淀方法。但别忘了,AI也是一面镜子,它反映出我们对问题的理解,对工作的热爱,对生活的执着。用好AI,不是一蹴而就的,它需要我们不断地学习、尝试、反思。就像彼得·诺维格所说,机器学习项目的成功,源于对问题的深刻理解。所以,不要害怕开始,不要害怕失败,因为每一次的尝试,都是通往成功的一步。

我坚信AGI的时代一定会到来,积极拥抱这一趋势,不是浅尝辄止,而是深度体验,找到那个最佳解法,等AI真正大规模普及,你一定会由此受益。

你和AI对话的时候遇到了哪些问题?你的业务有没有和AI结合的可能性?如果你有任何关于AI的疑问或建议,不妨发在留言区,我来帮你看看怎么解~

月之暗面撞上算力墙?

aigc阅读(69)

“不好意思,刚刚和Kimi聊的人太多了。Kimi有点累了,可以晚点再问我一遍。”近期正在赶毕业论文的娄晓彤,时不时仍会收到AI助手Kimi无法使用的提示。

作为大模型初创公司月之暗面旗下的To C应用,自3月份更新成为国内首个支持200万字上下文的大模型产品后,Kimi爆火出圈,QuestMobile数据显示,Kimi 应用月活用户量在3月份飙升至589.7万,但算力焦虑也随之而来。即便距产品更新已经过去一个多月,娄晓彤的遭遇仍在部分用户身上逐一上演。

月之暗面向字母榜解释称,“其实是因为每天都有相对的高峰期和低谷期,高峰期可能会遇到(类似娄晓彤的)情况。”

每次产品更新,对大模型公司而言都是一次流量和算力的双重考验。在3月18日宣布支持200万字上下文后,彼时Kimi便遭遇一次大规模宕机:从3月21日开始,Kimi APP和小程序被爆均无法正常使用。月之暗面随后发布情况说明,“观测到Kimi的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。”

理论上,Kimi等AI助手可以支持的用户量几乎没有上限,只要大模型公司能够提供源源不断的算力供给,但这背后涉及的却是一个现实的效率平衡问题,在商业化尚未走向闭环的当下,这也是一众大模型产品的共同难题:配置冗余算力,难免带来部分时间段内的资源浪费;配置紧张算力,则不可避免会在高峰期内影响用户体验。

尚需投资储备算力资源的月之暗面,在近期被爆出创始人杨植麟通过售出个人持股已套现数千万美元消息后,更是一时间引发诸多猜测。

被商业化绊住的不止Kimi。就连行业老大哥微软推出的AI编程工具GitHub Copilot,哪怕已经坐拥180万付费用户,仍陷在入不敷出状态:去年10月,月费10美元的GitHub Copilot,被爆平均每个月在每个用户身上都要倒贴20美元,最高能达80美元。

同样困在商业变现中的OpenAI,为了尽可能追求效率平衡,在免费版ChatGPT之外,特意设计出了付费版ChatGPT Plus。高峰时段,ChatGPT Plus用户将享有优先使用权,可以获得更迅速的服务响应。

但随着用户规模暴涨,自去年2月推出付费版以来,OpenAI曾几度暂停ChatGPT Plus新用户注册,给出的理由是“需求量过大”,导致算力资源出现缺口。

大模型产品的规模效应和网络效应仍处在市场潜伏期。这也使得部分投资人开始对大模型产品去魅,典型代表如金沙江创投主管合伙人朱啸虎,其在接受腾讯科技采访中表示,从2023年下半年开始,自己便决定不再和美国同事开原定每周一次的远程例行会议,探讨两边大模型产业格局变化,“打了半年我不打了,没有意义。”相比期待大模型产品在未来某一时刻迎来“iPhone时刻”,朱啸虎更在意当下能马上变现的To B应用。

资本市场对大模型商业化的担忧更是进一步体现在刚刚发布财报的Meta身上。“即使将我们的许多现有资源转移到人工智能上,在我们从这些新产品中获得大量收入之前,我们仍然需要扩大我们的投资范围……这将是一个持续多年的投资周期。”扎克伯格宣告扩大对AI投资话音落地,当地时间4月25日,Meta股价盘后应声下跌超10%。

对于Kimi这类缺乏自身造血能力的大模型创业公司而言,相比Meta,其面临的挑战只多不少:在这场效率平衡游戏中,它们宛如行走在悬于空中的钢丝绳上的杂技演员,投资款便是平衡木,到达对岸的唯一路径,便是在投资款耗尽之前,找到能够自我造血的商业模式。

01

春节期间,娄晓彤被身边同学安利了Kimi,当时Kimi支持的上下文长度只有20万字。加上彼时还未出圈,在日常使用中,娄晓彤基本没遇过无法使用情况。

随着Kimi将上下文长度扩展到200万字,并通过在资本市场上衍生出Kimi概念股火速出圈,从3月中旬开始,娄晓彤遭遇Kimi提示“有点累了”的情况,逐渐多了起来。

娄晓彤正在遭遇的算力紧张,从Kimi诞生后便已是注定的局面。去年3月创立月之暗面后,杨植麟便定下了做产品的两大思路:只做To C,且坚持长文本路线。

图源:月之暗面官网截图

文本长度和算力成本之间不可调和的矛盾,以及To C和高额营销成本之间的取舍,成为摆在杨植麟面前的两重平衡难题。

3月份Kimi借助支持200万字上下文出圈后,新浪科技曾报道称,Kimi用户获客成本达到12元-13元,其每天获客成本超过20万元。

大模型耗钱也早在杨植麟预料之中。“它需要人才聚集、资本聚集。”杨植麟形容道。

短短一年多时间内,月之暗面已经拿下近百亿人民币投资:2023年,月之暗面完成两轮总计近20亿人民币投资;今年2月份,月之暗面完成新一轮10亿美元融资,由阿里巴巴领投,红杉中国、小红书、美团等机构跟投,投后估值超过25亿美元。

近百亿融资款,更多都被用以支付算力资源。据市界报道,新一轮10亿美元融资款中,领投方阿里出资的8亿美元并非全是现金,其中部分将以阿里云提供的算力结算。

这方面行业早有惯例。更早之前微软百亿美元投资OpenAI,其中大部分投资款便是以微软云服务提供的算力资源结算。在微软参投之前,OpenAI其实是从谷歌云服务采购算力资源。如此一来,微软投出去的钱,大部分又以云服务的方式流了回来。

更重要的是,微软还借此完成了股价飙升,总市值不仅突破3万亿美元,更是超越苹果,成为全球市值最高上市公司。

亚马逊随后便来了个有样学样。今年3月底,亚马逊正式完成对OpenAI最强对手Anthropic 40亿美元的投资。与OpenAI一样,Anthropic也需要选择亚马逊作为其主要云服务商。

02

因算力资源而导致服务中断的现象,不只发生在Kimi一家身上,包括文心一言、ChatGPT等,都曾出现过无法正常使用的情况。

据字母榜不完全统计,每次产品更新升级的节点,便是大模型产品可能迎接“崩盘”命运的开始。

去年4月份,ChatGPT付费版本推出2个月后,ChatGPT Plus被爆暂停新用户注册,OpenAI给出的理由是“需求量过大”,导致算力资源出现缺口。付费通道恢复正常后,OpenAI再次收紧GPT-4的互动次数,从每4小时100条消息降为每3小时25条消息。

7个月后的2023年11月,OpenAI在首届开发者大会上带来一系列产品更新:全新GPT-4 Turbo、自定义GPT以及上线GPT商店。在大会结束后的短短两天内,ChatGPT服务器再次崩溃:用户数量的激增又一次超过了OpenAI的算力容量。

作为OpenAI CEO的山姆·奥特曼都不得不亲自下场致歉,称新功能的热度远远超出了公司预期。“由于负载的原因,短期内可能会出现服务不稳定的情况,对不起。”

最近一次“崩盘”发生在4月份。为了再次降低使用门槛,扩大用户量,在全球185个国家/地区累积超1亿每周用户量后,OpenAI宣布用户无需注册账户就可以使用ChatGPT,“我们正在逐步推出这一功能,目的是让任何对其功能感兴趣的人都可以使用人工智能。”

在OpenAI还没来得及将上述新功能扩散到全球所有地区时,社交媒体上已经陆续有用户反馈,自己在与ChatGPT互动时又被提示“系统错误”了。

除了采购更多算力资源来提升用户体验之外,一众大模型公司也在想方设法通过降低算力成本来满足更多用户需求。

截至4月份,国内文心大模型推理性能被爆提升了105倍,推理成本降到了原来的1%。这意味着,客户原来一天调用1万次,同样成本现在可以调用100万次。

国外OpenAI的奥特曼,更是在近期接受采访时预言,“我们(OpenAI)可以将非常高质量的AI技术成本降至接近零……如果我们没有制造足够的计算资源、供应和需求失衡,或计算成本攀升,这将导致AI成本非常高。”在奥特曼看来,未来AI技术成本将会变得越来越便宜。

03

使用更高效的硬件,便是推动AI技术成本降低的直接手段。

几乎在奥特曼预测AI技术成本将变得越来越便宜的同一时期,英伟达创始人黄仁勋又来给OpenAI送芯片,这次是量产最强一代的全球第一台Nvidia DGX H200超级计算机。OpenAI总裁格雷格·布罗克曼还特意晒出了自己、奥特曼与黄仁勋的三人大合照。

但对于已经无法获得英伟达最强芯片的中国大模型公司而言,借助人才优化算法以减少算力需求,则是另一条降低AI技术成本的路径。

4月23日,界面新闻爆出杨植麟通过售出个人持股已套现数千万美元消息后,月之暗面随即对外回应称“消息不实”,并向媒体发来了一则招聘文章说明,里面重点提到,为了吸引并留住最优秀的人才,月之暗面推出全新员工激励计划,为优秀人才提供匹配其贡献的丰厚回报。“从今年开始,我们将在公司取得重要进展时发起员工期权回购计划,确保团队成员能够分享公司发展的果实(2024年底启动首次期权回购计划)。每年定期根据工作表现进行调薪和期权增发,确保薪酬和期权充分反映出员工个人的成长和贡献。”

由此,外界也猜测杨植麟团队此次套现,其中或许便包括对重要人才的贡献奖励。

在公司创立伊始,杨植麟给出的早期招人画像便是专注找对口的genius(天才)。“公司上限是由人的上限决定的……之前有对模型动手术的能力,有训练超大规模模型直接的经验,就可以很快做出来。包括Kimi发布,资本效率和组织效率其实很高。”

与国内相比,硅谷AI人才之争,更为疯狂。马斯克本人都不得不感慨:“这是我见过最疯狂的人才大战。”为了避免特斯拉人才外流,马斯克旗下的大模型公司xAI开出了不少offer。

扎克伯格更是亲力亲为,通过个人电子邮件给谷歌DeepMind团队成员发去邀请,希望他们能加入Meta与他共事。谷歌创始人谢尔盖·布林,为了挽留即将离职转投OpenAI的员工,也同样选择亲自出马,给员工加薪加福利。

人才大战之下,根据薪资数据网站 Levels.fyi数据,硅谷机器学习和AI工程师的薪酬中位数已经接近 40万美元,OpenAI总薪资中位数甚至高达92.5万美元(包括期权)。

尽管为争夺AI人才,科技巨头开支增加,但他们的一系列疯狂举动已经在股价上迎来正反馈:2024年刚过完4个月,Meta股价年内已经大涨22%,谷歌大涨19%,亚马逊大涨19%。

参考资料:

《ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义》APPSO

《黄仁勋亲自给OpenAI送货,全球首台DGX H200开箱了》机器之心

《如何评价月之暗面创始人杨植麟一年套现数千万美金事件?》钛媒体

《月之暗面创始人杨植麟套现数千万美金》界面新闻

《月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进》腾讯科技

《搞大模型巨亏,微软都还没挣到钱!GitHub Copilot每月收10刀,倒赔20》量子位

《Kimi创始人套现4000万美元疑云》市界

生成式 AI 在电商领域究竟有多牛,这款产品给出了回答

aigc阅读(73)

Sense 思考:

我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。

– 找到正确的点后全力投入,一举击穿。不管多小的产品切口,找到并解决痛点都能为你带来第一阶段的用户。

-思考如何适配你的客户群体,并通过不同商业化方式触达。Photoroom从IOS端产品开始,逐渐覆盖安卓移动端和网页端。在商业化上为企业客户提供 API 服务方式,更好的对客户分层。

– 未来好的 AI 产品是端到端的,Photoroom 作为一款垂直场景的应用,也开始投入模型研发,或许在垂直场景上涌现出更强的能力。

AI Native 产品分析——PhotoRoom

1.产品:PhotoRoom

2. 创立时间:2019

3. 创始人:Matthieu Rouif,Photoroom联合创始人兼首席执行官,YC S20项目;前GoPro产品经理;学生时代就读于斯坦福大学理工学院。

4. 产品简介:

PhotoRoom是一款AI图像编辑应用,通过AI识别并裁剪图像主体和AI生成等能力,帮助用户无门槛创作营销物料。

5. 融资情况

– 2020年12月,Photoroom的ARR达到200万美元,获得120万美元的种子轮融资(Nicolas Wittenborn’s Adjacent fund, Liquid2 Ventures),用于开发Photoroom的安卓版本。

– 2023年11月,Photoroom APP获得4000万下载次数,获得1900万元的A轮融资( Facebook, Hugging Face and Disney+ ),用于尝试接入AIGC相关的能力。

– 2024年2月,Photoroom融资4300万美元(Balderton Capital),估值5亿美元,主要用于基础研发。

一、Photoroom 的早期验证

Photoroom 的创始人兼 CEO 的 Matthieu Rouif 一开始并没有一个宏大的创业目标,相反,他的技术开发开始于对之前工作中重复环节的痛恨。

Matthieu 在创业前在 GoPro 担任产品经理,每天需要用 Photoshop 手动删除背景,但需要花费大量时间和精力。他意识到自己并不是唯一一个有这种挫败感的人,用户需要一个更好的解决方案。

于是开始投身在机器学习研究中,并在课程结束后遇到了机器学习专家Eliot Andres。两人一拍即合,在短短两周内共同创建了第一版 Photoroom。

“背景剔除”成为了 Photoroom 初代版本的核心功能,帮助用户轻松地删除图像背景,突出主体呈现在前景,甚至可以创造出一个全新的透明背景,并将其置于任何设计和目的场景之中,让主体更有逼真的立体感和深度。同时,Photoroom 为用户提供庞大的背景和模板库,实现无尽的个性化选项,此时 Photoroom 更像一个专注图片编辑领域的 Canvas。

没有想到的时,Photoroom 一经上线,立刻得到了广泛电商从业者的关注,这也开始了 Photoroom 和电商的渊源,电商从业者通常不具备图片处理的专业能力,但是要消耗大量的图片素材。

Photoroom 的用户覆盖了从消费市场到商业应用的各个领域,包括那些需要从事产品拍摄的摄影工作者,大量铺货的电商经销商,从事美容、珠宝、时尚、家具、古董等对图片要求极高的中小企业,甚至还有宝格丽、Faire 等知名品牌。他们都可以从Photoroom 中找到需要的解决方案。

同时,针对企业客户个性化的需求,Photoroom 支持通过 API 直接调用背景裁剪等能力,此举为 Photoroom 的增长提供了更多可能的渠道。2023 年夏天,华纳兄弟就通过调用 Photoroom 的API在芭比电影的社交营销活动中为用户一键提出自拍照中的背景,并结合提前预设好的模板快速生成芭比相关的海报。为客户营销活动提供了更多千人千面的互动机会,在此次活动中,用户使用 Photoroom 生成的海报分享超过 100 万次。

在之后的产品迭代中,Photoroom 更多的重心放在了商业化适配上,针对不同客户需求,提供更完善的产品化方案。

例如,Photoroom 在早期尝试中发现更多用户是严肃工作场景下的图片生成,涉及到中小团队的合作流程。因此,Photoroom 很快退出了Photoroom Teams,团队成员们在一个共享工作空间中合作,创造出风格一致的设计。同时团队成员可以对设计编辑过程中的问题或者改进点进行反馈和评论。

二、Gen AI 时代的 Photoroom

凭借自身对用户需求的精准把握和对产品功能的极致克制,Photoroom 在 Gen AI 时代成熟之前,就已经在电商行业早早完成了自身的PMF,渗透到电商图制作和营销图制作等多个场景,并基于二手电商这一利基市场不断打磨产品持续扩展更多的用户群体。

而 Gen AI 时代的到来,则为 Photoroom 的发展提供了更多的想象空间,原本无解的问题也逐渐有了清晰的解决路径。

以背景模板举例,PhotoRoom 之前主要通过丰富的背景模板库,助力用户根据不同平台的规定,以多样格式导出图像。但模板的自然度、匹配度、模板数量都存在限制。用 Prompt 生图方式可以更快的生成用户想要的背景。同时,Photoroom 充分理解电商客户想要的 AI生成图片,需要解决失真感,于是在产品效果上,Photoroom提供了 AI 光影优化能力。

但一定程度上,Gen AI 也把 Photoroom 前期构建的模板壁垒给拉平了,除了用户和产品理解,在生图能力上,Photoroom 又和竞品回到了同一起跑线上。目前 Photoroom 的 Tool Sets 里上线了一系列电商制图方向的功能点,电商从业者更多的需求被一站式解决。

根据Matthieu Rouif 的说法,Photoroom 正在训练自己的基础模型 Photoroom Instant Diffusion,基于图像提供商、图片库数据训练,对垂直领域的应用有更快的反应,定制的AI架构使得图像生成速度提升了40%。其对模型生成效果的要求是不需要用户再次对图片效果进行处理和调优。换句话说:“我们的 AI 系统已经针对产品摄影进行了特别训练,能够迅速适应用户的需求和反馈,提升用户体验。”

目前PhotoRoom已经积累了700 万的月活跃用户和数 10 万的付费订阅用户,支持手机端实现更快的图片制作,直接使用手机摄像头拍摄产品,然后在手机端就可以更便利的生产成稿。在手机端突破了 1.5 亿次下载。

三、Photoroom 的商业策略

Photoroom 使用 Freemium 的方式,基础版本支持基础的图像编辑能力和背景剔除能力,以扩大用户使用群体。在 Photoroom Pro版本中,允许用户创建更高质量的图像,并自动删除“ Photoroom”标志。同时提供了更多的个性化模板及自定义背景。并且在 Pro 版本中,用户可以体验到AI生成背景、AI 生成阴影等能力。

同时,为了满足不同用户群体的需求和拓宽市场应用场景,Photoroom 也提供了API直接调取相应的能力,具体有四种不同的收费版本。

Basic Plan:提供Photoroom的基础能力,用户可在自己的应用程序、网站或活动中批量删除和替换图像背景。费用为0.02美元/张。

Plus plan:提供Basic中的所有能力,并增加填充、定位、AI阴影、AI背景、AI打光、内测体验等高阶能力。费用为0.1美元/张,同样可在任何时间取消API服务。

其余两种Partner plan 和Custom plan 适合用量更大的企业客户。例如,Partner Plan 一定程度上赋能了 Photoroom 的渠道合作者,提供仅 0.01 美元/张最低价格,合作者就可以低价调用 Photoroom 的API,只需要满足两个条件,即1)每月完成至少 10 万张图片处理的 Milestone;2)证明不是 Photoroom 的竞争者。

不管是在订阅制还是在API的收费策略上,Photoroom 都找到了巧妙的方式进行拉新裂变。在订阅制中,Free Plan 友好地提示用户可以邀请好友与同事一起体验 Photoroom 的免费功能;而在 Pro 版本中,创建团队空间后,邀请两名用户即可免费领取一年的 Photoroom Pro。

但是相比于海外的 Photoroom,国内创业者在进行 GTM 时,也不得不注意国内外用户习惯和市场环境上的差异。从支付意愿上看,国外用户通常对于订阅模式和按使用量计费的 API 服务接受度较高,软件服务的付费习惯已经较为成熟。而国内用户更习惯一次性支付或免费的服务,订阅和 API 模式的接受度相对较低。

四、后续

成立于 2019 年的 Photoroom,在过去的5年里,它在商业图片领域占据了一席之地。Photoroom 首先凭借其一流的背景剔除能力取得了成功,随后通过其创新的AI技术赢得了社交媒体影响者和电商平台上的电商从业者的依赖。

根据 A16Z 的研究,Photoroom 是世界上最受欢迎的AI照片编辑器,也是最受欢迎的生成式AI产品之一。Photoroom 在 180 多个国家被下载了 1.5 亿次,在 100 万条评论中获得了 4.7 颗星的评价。

但在乐观事物的相反面,仍有一些问题需要像 Matthieu 这样的创业者去解决和思考。

在 AI 效果方面,尚难以完美处理商品与AI生成背景之间的复杂交互。以狗粮销售为例,尽管AI能够通过 outpainting 技术在狗粮旁生成一只流口水的狗,增强商品的吸引力,但对于像眼罩这类与人体有着更复杂遮挡关系的商品,AI生成的场景可能就不那么理想。

在产品推广方面,目前 Photoroom 需要思考更大的天花板在哪里,是增加产品在专业领域的市场份额,还是除了目前的静物展示类的产品类目外,切入更多的行业场景,或是在图片编辑领域布局新的产品功能和产品线。

相比 2023 年 6 月,A16Z 发布的 Top 50 GenAI Web Product 中,Photoroom还以第 6 名位于图片领域的 AI 产品榜首,超过 CIVITAI 的访问量。然而仅在半年后的 2024 年 1 月,同口径的数据中,Photoroom 已滑落至第 21 名。由于Photoroom 一开始切入的战场就是移动端IOS,随后才是安卓移动端和网页端,因此在移动应用榜单的排名更加稳固。

尽管榜上有名,但相比半年前的榜单,本次榜单已经有超过 40% 的产品都来自新的创业团队。未来,Photoroom 也将面临更多来自 AI Native 应用的挑战。

目前,Photoroom 已经完成了4300 万美元的 B 轮融资,并将利用这笔资金加速其在生成式人工智能方面的创新:通过投资更多 GPU 来扩展其模型功能,并在 2024 年底之前将团队规模扩大一倍,准备好迎接未来的比拼。

Photoroom 作为 AI 商业图片领域的先行者,未来的发展值得期待。站在历史十字路口的我们,既是见证者,也是塑造者。

参考材料:

https://www.producthunt.com/products/bg-app;

https://www.photoroom.com/tools/blur-background;

https://techcrunch.com/2020/06/05/photoroom-automagically-removes-background-from-your-photo/;

https://techcrunch.com/2020/12/17/photoroom-launches-background-removal-app-on-android/;

https://techcrunch.com/2022/11/07/after-40-million-app-downloads-photoroom-raises-19-million/;

https://techcrunch.com/2024/02/27/confirmed-photoroom-the-ai-image-editor-raised-43m-at-a-500m-valuation/;

https://www.prnewswire.com/news-releases/photoroom-secures-43m-in-series-b-funding-launches-next-generation-ai-photo-editing-features-for-businesses-302071832.html

https://techcrunch.com/2024/01/09/sources-photoroom-the-ai-photo-editing-app-is-raising-50m-60m-at-a-500m-600m-valuation/

OpenAI的AI搜索也要来了,但我们需要这么多AI搜索么

aigc阅读(80)

OpenAI要做AI搜索挑战谷歌这件事已经传了很久,传说中的SearchGPT似乎真的要来了。据软件开发者Tibor Blaho爆料,OpenAI 的 AI 搜索产品 Sonic – SNC(SearchGPT)已进入评估阶段,新增多项功能:

– 图像搜索

– 多样小工具(天气、计算器、体育、财经及时间差计算)

– 可进行后续提问

此次评估采用了多个模型,包括 GPT-4 Lite(Scallion; POR)、GPT-4 和 GPT3.5(Sahara-V),并结合了多种搜索引擎,如 Bing(POR)、Sydney、Fortis 和内部搜索引擎 Labrador。

域名:search.chatgpt.com

搜索引擎已经诞生了二十多年,但搜索引擎的产品形态和商业模式并没有发生实质性变化。通过爬虫获取信息,建立索引,根据用户搜索请求检索匹配记录,并按特定排列顺序呈现结果。通过关键词广告和竞价排名进行商业变现。在AI的加持之下,很久没有变化的搜索引擎市场越来越热闹了。

一、人人都想做一个AI搜索

AI搜索和传统搜索最大的区别在于,传统搜索提供网页链接列表,用户需要自己浏览和评估信息的相关性,而AI搜索直接给出答案,减少用户反复寻找网页和频繁点击步骤。

硅谷当红的Perplexity自称为世界首个对话式答案引擎,用户使用Perplexity进行搜索时,Perplexity会重新理解用户的意图,然后借助搜索引擎和外部索引取出相关的链接,再通过用大语言模型阅读相关链接,最后以不同的风格生成搜索的结果,也就是答案。

Perplexity将传统搜索索引与大型语言模型的推理能力和文本转换能力相结合,具备了泛用性的语义理解能力,能够让用户像聊天一样搜索,一次回答不满意用户可以再追加提问,还能通过用户的浏览历史记录和搜索意图等因素来生成相关结果。

Perplexity.ai

打造Arc浏览器的Browser Company也加入了AI搜索功能。Arc Search的不同点在于将浏览器、AI 搜索、网页总结等集成到了一个App中。

Arc Search的Pinch toSummarize(捏一捏总结)功能使用AI来总结网页。Browse For Me则是类似Perplexity 的AI搜索,用户使用Browse For Me(为我浏览)时,Arc会自动抓取并读取至少六条搜索结果,通过内置的LLM进行智能整合,呈现为一份图文并茂的“报告”。

Arc Search的捏一捏总结(左)、为我浏览功能(右)

国内的360和Arc的思路很类似,360最新推出的360AI浏览器也集成了AI相关的功能,包括AI阅读助手,支持摘要、脉络以及问答三种内容拆解方式。AI视频助手则可以提取字幕、总结视频看点。此外还内置了AI画图和AI写作等功能,当然,少不了的是AI搜索功能。

360AI搜索

360AI浏览器

秘塔搜索是国内另外一个AI搜索产品,有简洁、深入和研究三种模式,其中的研究模式开启后可以直接根据搜索内容生成一份研究报告。此外秘塔搜索和Perplexity类似,可以将搜索范围切换为学术搜索,帮助用户快速找到专业文献和研究资料。

二、AI搜索杀不死搜索引擎

AI搜索想要颠覆传统搜索引擎仍是一个遥远的目标。

微软的CEO纳德拉曾经表示,搜索引擎是互联网中最难攻破的市场,绝大多数用户都不会更改他们的默认搜索引擎,同时,越多用户使用搜索引擎,就越可能通过大量用户数据持续优化搜索结果。微软在推出集成了AI的New Bing之后,并没能从谷歌手中抢下更多的市场份额。

由谷歌前高管成立的Neeva,很早就推出AI搜索功能,不过始终没能走出小众市场,仅在两年后即关闭了面向普通消费者的业务。这也引出了摆在AI搜索产品面前的另一个问题,如何在高成本的情况下,找到合理的商业模式。

AI搜索产品另外一个弊端是非常依赖传统搜索引擎。AI搜索产品大多基于传统搜索引擎和大模型API构建,有开发者进行过测算,按照1万token为0.1美元计算,单次搜索的成本在1.4-2.1元,假设一天有10000人使用,每人只搜索一次,折合人民币也需要2.4万元,这对初创企业来说非常不友好。考虑到大多数 AI 产品目前都采取了免费,长期这样烧钱下去,一定不是可持续的模式。

Perplexity等厂商虽然在通过订阅制进行商业化,每月20美元的Pro版能够解锁更高级的功能以及搜索次数限制,但这显然是不够的。近期 Perplexity 也宣布将尝试广告模式,至于是否能够冲破商业化门槛,还有待观察。

AI搜索类产品套壳的本质,也导致打造一款同类型产品的门槛在降低,贾扬清的开源AI搜索引擎Lepton Search只用了500行代码,个人独立开发的AI搜索产品ThinkAny从开始开发到交付,前后只用了一共3天的时间。

另一方面,传统搜索引擎巨头也在酝酿相关动作。去年谷歌推出了实验性搜索生成体验(Search Generative Experience),SGE使用AI直接在谷歌搜索网页上回答用户的问题。《金融时报》近日还报道称谷歌正在讨论是否将部分AI搜索功能加入到高级订阅服务之中。

绿色部分为SGE内容

百度也打造了自己的AI搜索产品,在全年百度世界大会上,宣布将旗下主打无广告的简单搜索升级为AI搜索,提供智能答案和个性化搜索体验。

简单搜索产品界面

山姆·奥特曼说,让他兴奋的不是做一个更好的谷歌,而是可能存在一种更好的方式,帮助人们找到、应用和整合信息。“结合大型语言模型和搜索技术的交点,我认为目前还没有人完全解决这个问题。我很想去尝试这个方向,我认为那会非常酷。”月之暗面CEO杨植麟也曾经表示比传统搜索引擎好个10%、20%,没什么太大价值——只有一个颠覆性的东西,才配得上AGI这三个字。

Perplexity这样的AI搜索产品发挥了AI在提升信息检索效率和内容理解方面的潜力,虽然暂时还威胁不到传统搜索引擎的地位,为用户提供了更多的选择,两者的关系不是替代,而是融合。

生成式AI的变革性之一在于,人机器交流方式转向了自然语言交流,未来,我们可以期待 AI 搜索引擎在知识整合、智能推荐、个性化服务等方面发挥更大的作用,甚至可能诞生未来搜索引擎和内容消费的新标准。无论是这个东西是叫知识引擎还是答案引擎,信息搜索方式的改变都只是一个开始。

三、我们真的需要这么多AI搜索吗?

回到现有的市场上来看,市面上越来越多的通用AI搜索产品,其实从用户体验上看大同小异,没有哪一家做到了绝对领先。

而垂直领域的AI搜索也很难成功,在互联网泡沫期间,许多公司尝试成为特定垂直领域的谷歌,结果几乎都失败了,比如AltaVista。真正成功的是那些建立了端到端用户体验的公司。

尤其是在国内,互联网被App割裂孤岛化之后,用户也开始更多在各个垂直类平台获取信息。搜索引擎的发展已经从通用搜索为主转向生态内搜索。

有自己生态的厂商都已经开始内置 AI 搜索功能。小红书有AI生活经验搜索“搜搜薯”,优酷的“AI搜片”实现了模糊搜索找片等功能,抖音的“AI搜”可以提供文字版的答案和链接到的相关抖音视频。

在这些场景当中,AI搜索是加强产品的一个Feature,而并非一个独立的产品。

从根本上说,搜索技术的目标是帮助用户更快、更准确地找到所需信息。AI搜索通过学习用户行为、利用自然语言处理等技术,提高了搜索的准确性和相关性。这种技术最有效的应用场景是嵌入在用户已经频繁使用的产品中,如社交媒体、线上购物平台、信息聚合应用等。这样,AI搜索可以根据用户的具体使用场景和历史行为,提供更加个性化和准确的搜索结果。

其次,如果作为一个独立的产品,AI搜索面临着用户习惯的挑战。很少有用户为了搜索而特别去使用一个单独的应用或平台,尤其是当他们必须在多个平台或应用之间切换时。这不仅增加了用户的操作复杂度,也降低了效率。

再者,维护和发展一个独立的AI搜索产品需要大量的资源投入,这是一个不断进化的过程,需要持续的技术支持和优化。对于许多企业来说,将AI搜索作为一项内嵌功能,以提升现有产品的竞争力和用户体验,可能是一个更为经济和高效的选择。

虽然AI搜索技术非常强大和有价值,但从用户体验、习惯和企业资源配置的角度出发,将其作为增强现有产品的一个特性,而非开发为独立的搜索产品,可能是更为合理的方向。这样不仅能更好地满足用户需求,对企业来说也是更好地选择。

看起来,AI搜索离生成式人工智能时代的Killer App距离尚远,它甚至可能并不是一个理想的生意。我们并不需要那么多的AI搜索产品,但我们需要更多的AI搜索Feature。