欢迎光临
我们一直在努力

AI重塑社交,谁才是C端叙事正解?

aigc阅读(199)

在奥斯卡获奖科幻电影《Her》里,失恋作家爱上了人工智能操作系统“萨曼莎”。

声音性感沙哑、聊天善解人意、陪伴无时不在,并且能够和用户进行各种天马行空的对谈,接住所有“懂你”的梗,让用户感觉“被理解”、“被看见”,于是AI成了与用户灵魂高度契合的“soulmate”,满足孤独人类社交需求。

如今,AIGC技术突破式发展让科幻成为现实。

随着ChatGPT、Sora、Suno相继横空出世,AI社交的底层技术、模式创新都拥有了新变化。

以Character.AI、Replika等为代表的聊天陪伴型社交APP,正借助AI创新社交玩法、优化产品形态,也吸引了更多用户花费更多0时间倾注于AI的互动陪伴。

与此同时,国内互联网大厂相继推出AI社交试水产品或新功能,QQ的“AI聊天搭子”、腾讯音乐的“未伴”APP,美团的“WOW”、快手的“AI小快”、抖音的“话炉”、百度的“万话”、微博的“明星AI情感伴聊”,还有Soul此前推出的“AI苟蛋”……

为什么AIGC技术最先在社交领域实现产品应用落地?目前,互联网大厂在AI社交领域打响的“百团大战”,是否存在竞争壁垒?而热闹过后,究竟凭何释放商业空间?

01 AI+社交,全方位“抢跑”应用元年

市场诞生于需求,而社交,是人类情感天然需求。

哈佛耗时75年的社会实验研究证明,幸福感来源于良好的人际关系。即人类通过社交来建立关系、获取信息、寻找归属感,以及满足自己的情感需求。

在国内,社交挑战尤为突出。

快节奏的生活和高昂的社交成本,时间、金钱、情感的投入,都让独居青年难以建立有效的社交联系。

然而,AI社交则提供了全新社交方式,模拟真实人类交流,提供定制化陪伴体验,在用户心中呼声高涨。

如微软开发的“小冰”在国内就拥有1.6亿活跃用户,其中虚拟恋人平台上16%的用户,每周对话量3800多条,而一个用户一周在微信上发的消息是310条。

实际上,相对于文生视频的Sora和文生音乐的Suno,显然发展时间更久的AI人机交互技术更成熟。

且随着技术不断进步,AI聊天机器人已经可以做到更多。

比如在火爆外网的Character.AI上,用户只需提供几张图片和描述,就可以将聊天机器人塑造成理想模样。

兴趣社交社区平台Soul,也较早上线了AI对话机器人“AI苟蛋”,能够与用户进行多轮个性化沟通,准确识别网络社交用语,如“尊嘟假嘟”,并结合发帖、互动等多项行为,对用户进行个性化的主动关怀。

在近期接受极客公园专访时,Soul创始人张璐曾表示,对话式 AI 需要具备情感化的能力,会找人的情绪点,还要个性化、拟人化、多样化。AI苟蛋正是沿着拟人化、情感化方向进行功能迭代。

技术之外,相较于ChatGPT、Sora、Suno这类实用工具型应用而言,面向C端社交赛道的AIGC应用产品,更能获得用户的时间青睐。

根据Writerbuddy进行的AI行业分析,Character .AI访问量在2023年6月达到了2.8亿,用户平均每次停留时间长达28分钟,这一数据远高于ChatGPT的8分钟平均停留时间。

在国内,AI社交应用也展现出了极高的用户粘性。以通过AI技术实现推荐关系、辅助对话、降低表达门槛、提升互动体验的Soul为例,平台月活跃15天以上的用户占比63.7%,人均用户日均使用时长为46.4分钟,日均私人信息数为66.9条。

不过,无论何种技术创新,在自由市场经济发展下,都不可能完全不考虑盈利问题,“为爱发电”始终难以为继。

毕竟,一切都是生意。

AI社交之所以能够“抢跑”AIGC应用元年,除了技术更成熟、需求更旺盛外,还因为互联网社交的商业生态也已经十分成熟,并且从腾讯、Meta的万亿科技帝国来看,AI社交的市场潜力广阔,用户付费心智、习惯都经过了市场长期培育。

根据市场研究公司Grand View Research预测,全球社交应用的市场规模保持快速扩张态势,预计到2030年,全球的市场规模将超过3100亿美元 (约合超过2万亿元人民币) ,年复合增长率达到26.2%。

也正是基于对社交万亿市场的美好畅想,凭借AIGC技术加持,打破“人与人”传统社交模式,AI社交细分赛道开始沸腾。

02 百团大战打响,竞争壁垒何在?

过去一年,国内涌现了大量AI社交产品,不过目前大多处于集体测试阶段,且打法上也存在些许差异。

原本就带有社交基因的玩家们,“两条腿”走路,这包括了单独推出全新AI社交APP,以及将AI社交内置于既有应用中,相当于是对应用的AI重构,如腾讯音乐“未伴”、抖音“心晴”以及微博“明星AI情感伴聊”、QQ“AI聊天搭子”等。

Soul则是依靠自研的语言大模型Soul X,上线智能对话机器人“AI苟蛋”、AI辅助聊天等诸多功能和场景,卷起AI互动体验。

另一边,是缺乏社交基因的大厂们,如百度、美团,将希望寄托在独立APP上,美团推出“WOW”APP,至于百度,更是前后推出包括“万话”在内的四款应用。

实际上,底层AIGC技术是开源的,打造一个专属AI伴侣并不难。

不过,大家都在玩,让AI社交看起来没有进入门槛。

事实真是如此吗?

首先,数据就是一个核心壁垒。

AIGC把数据要素提到时代核心资源的位置,但是对于AI社交向应用来说,用以“预测+训练”的数据,不仅仅是一般数据。

想要自研模型具备理想的表现效果,训练数据的数量和质量是重要的影响因素,将直接决定垂类模型的表现、迭代速度和训练成本的关键因素。

换句话说,玩家们需要的不仅仅是数据,而是高质量的社交数据。

这也是为何马斯克用X平台 (原推特) 数据训练AI模型的同时,扬言起诉微软并禁止其使用X平台数据训练AI。也是为何谷歌等科技巨头也会寻求与 Reddit 这些社交平台合作的原因。

国内,中文互联网领域中,拥有高质量、高关联社交数据资产的AI社交玩家并不多。除开社交元老级、国民级的微信、QQ之外,少有大厂或创业公司具备成熟社交场景,能够形成稳定的流量入口,实现社交数据的积累沉底和用户的快速反馈。

特别是,面对年轻一代的社交需求,掌握Z世代语料数据或许更能适应当下“赛博社交”的趋势。

拿近8成月活用户都为Z世代的Soul来说,上线7年多,月活用户近3000万,在年轻群体中渗透率很高,同时拥有有高活跃、高粘性生态,每个聊天的日活用户,平均每天发出约70 条点对点私聊消息,以及大量一对多、多对多公域社交场景的互动内容,大部分都是生活化、趣味化的内容。例如,用户交互数据方面,平台一年新内容瞬间发布条数就超过 6 亿。

相比办公、现实关系场景数据而言,这些高质量的社交数据与情感交流、建立关系链接等社交互动行为具备更高的关联度,也能够更好的训练对话式AI模型。

过去,想象中的AI聊天中,会是“人工弱智”或者已读乱回,或者只是冰冷客套话,不懂梗也没有情绪波动。而Soul基于平台社交数据诞生的“AI苟蛋”,却被网友吐槽怀疑是披着AI外衣的真人,过于真实。

不过,短期内,想要做到对话式AI以假乱真的平台,或许还需要沉淀更多社交数据。

03 时间杀手,用户为王

移动互联网发展到今天,网友见过太多朝生暮死的社交产品,“人来,人走了”再正常不过,不少APP都沦为“月抛”玩具。

技术都一样,那么能够吸引用户常驻留存的,就只有场景和服务了。

目前,比较常见的是虚拟社交使用场景。豆瓣名为“人机之恋”的小组聚集了9000多名用户,大多是“Replika”的忠实用户。在Replika AI上,用户可以“捏”出理想伴侣,和自己创造的虚拟人像异地恋人一样聊天相处,属于沉浸式体验类型,而不会用完即走。

类似Replika AI、Character.ai在吸引用户留存方面的产品形态、使用场景设计,给国内AI社交厂商的一个启示是,想要提升用户产品体验的底层理念是,摈弃“流量思维”,用户不是流量,而是每一个具体的人类个体。

比如说,有用户反馈:“AI聊天刚开始很好玩,但聊久了便失去新鲜感。”

从用户反馈出发,单一的聊天场景,并不能满足用户多层次的情感社交需求,需要打造多元、立体的C端场景,升级用户AI社交体验。

实际上,除了AI聊天对话之外,国内已有不少AI社交产品,在尝试将更多的AI能力引入产品体系,像是阅文筑梦岛推出的用户共创“小剧场”玩法,抖音话炉的“短视频”玩法,Soul 创新推出的“AI狼人”游戏互动、音乐互动社交玩法等,将AI能力与自身社交场景深度融合。

游戏互动玩法上,Soul 站内“狼人觉醒”结合游戏机制创新,引入AI角色陪用户玩狼人游戏,Agents有不同音色,会角色扮演,会推理,会伪装、悍跳、互踩,十分逼近真实玩家,能给用户交互沉浸游戏体验。显然,游戏互动创造了单纯聊天更沉浸和趣味的交互体验,也更容易留住用户。

音乐互动玩法上,始于去年AI孙燕姿的走红让市场看到了AIGC在声音克隆、生成上的能力,很多音乐平台在推AI唱歌的功能和玩法。Soul的创新在于,除了在真实度上下功夫,重点基于平台社交属性,突出互动性。

所以,基于自研“伶伦”引擎的“懒人KTV”活动中,特别强调社交玩法,不仅是单人唱歌,用户还可以邀请多人一起AI KTV合唱,让个体在邀请、合唱、分享的过程中,完成社交,深化关系。

努力成为C端用户的“时间杀手”,意味着技术、产品获得用户认可,用户APP使用时长增加。

而对于互联网经济而言,本质就是用户注意力经济、时间经济。

按照罗振宇“国民总时间”论说法,正是用户总注意力、总时间有限,所以成为稀缺资源,用户的时间变得越来越值钱,尤其在互联网存量时代,用户的时间越来越具有商业价值。

因此,深耕用户价值,获得更多用户时间,则成了市场增量的主要来源。

AI社交领域也不例外。

去年,全球头部社交网络公司Meta,设立AIGC产品部门Gen AI,将AI技术深入融合Meta的各项应用,创新产品形态,吸引用户留存。

基于AI社交推动平台用户规模增长,用户使用时长相应叠加,平台广告价值同步提升,最终Meta用户价值在财报中得以体现,2023年营收为1349亿美元,同比增长16%,净利391亿美元,同比增长69%,Meta市值也重回万亿美元。

从IM、LBS、兴趣到AI,社交赛道确实“时看时新”。

而在信息泛滥、技术平权的今天,强调用户价值或许略显陈词滥调。

但随着AI重塑社交赛道,各玩家重新回到一个相对平均的起跑线上,底层AIGC技术开源下,想要打造下一个如微信般的杀手级应用,用户价值是商业化绕不过去的核心点。

AI直播乱象频现,平台出手整治“AI美女”及卖课乱象

aigc阅读(187)

AI风口吹到了直播,先吃到红利的不只有卖课的知识付费博主,还有“AI主播”

她们或是外国美女,借助吸引眼球的形象和话题吸粉,然后带货;或是单身女性,输出“心灵鸡汤”,目的要么是带货,要么是吸引男粉转化为付费用户…..

这些“AI主播”、“AI美女”,正通过AI技术而被批量化、模板化复制。

不仅如此,围绕这个产业链,还出现了如卖课、分销等乱象。如今,针对这些乱象,平台已经开始出手整治。

一、抖音出手整治AI虚拟人

近日,“抖音安全中心”官微发布抖音关于不当利用AI生成虚拟人物的治理公告。公告称,近期平台发现,站内仍有不当使用AI技术生成虚拟人物发布内容的账号,平台进行了严厉处置。

针对违规使用AI生成虚拟人物的行为,平台会对违规视频下架,对违规账号进行取消其投稿和营利权限、抹除账号粉丝、封禁账号等处置,并利用模型、技术识别能力等手段,进行长期系统的识别发现和处置。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

有关AI生成虚拟人物的违规行为,改公告列出了几个类型,主要包括利用AI生成假外国人、假精英及利用AI生成形象骗互动等三类内容。

抖音此番出手,让人想到此前爆火的“俄罗斯美女”——娜塔莎。

这是账号“娜塔莎进口食品”塑造的一个俄罗斯美女,说自己在中国生活了8年、热爱中国文化、要嫁给中国男人,在吸粉之后,通过带货俄罗斯的相关产品进行变现,其粉丝量一度达到了20多万。

“美女人设+精准话题吸粉+带货变现”的路径,看起来似乎没有问题。然而,该账号之后被曝出其塑造的“俄罗斯美女”形象是通过AI换脸生成,且没有经过授权使用了乌克兰博主、YouTube网红“Olga Loiek”的面容和声音。

如今,该账号已经遭到封禁。

二、被批量打造的“AI美女”

实际上,如今抖音上的AI主播并不少见,尤其是“AI美女”。

研究了这些账号之后,我们发现这些“AI美女”,要么是直接生成虚拟人设,打造单身成熟女性的人设,甚至还有“单身妈妈”、“离婚女性”等,比如“小姨妹”、“梨过,你要么”。

这些账号可以说是批量生成的,模板化、套路化非常明显。

另一种类型则是通过真人主播自身的形象,生成与她形象较为相符的虚拟形象,如“巧克力,小柠檬”。这是一位娱乐主播,目前拥有1000多万粉丝。

其通过AI生成个人的虚拟形象,主要用于短视频,内容是情感类“鸡汤”。如“欺骗一个对你掏心掏肺的男人”、“经常流泪的男人是什么性格呢”等内容,从而达到吸粉、导流的目的。这类内容看起来十分粗糙,而且口型和画面对不上,很明显是通过AI生成的。

可以看到,这两种类型的账号的目标群体都瞄准了男性。

其中,前者会在短视频挂载小黄车,通过带货进行变现,产品也以日常用品和男士用品为主,譬如抖音平台上有50.5万粉丝的AI主播“陈佳丽”,其橱窗商品价格从几元到几十元不等,部分产品销量可达上百万。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

后者则主要通过短视频进行吸粉,然后靠直播打赏进行变现。从短视频内容来看,也是精准面向男性,无论是主播的形象和短视频话题都是投其所好。

除了抖音,小红书也同样有一批以AI美女为主角的博主。

这类博主塑造了类似“旅游博主”、“街拍模特”的人设,发布的内容也几乎一致,基本都是都是发布AI生成的美照。比如以街拍为主要内容的博主“cyberAngel”、“往之”,粉丝数量均已突破一万。目前,尚未发现明显的变现渠道,最常见的方式是建群引流。

三、“AI直播”催生的乱象

除了这类批量打造的“AI美女”之外,如今AI的火热风口还催生了卖课、AI代理分销等乱象。

据媒体报道,有商家出售所谓的AI换脸课程,售价29.9元,素材包包含几千张明星照片;还有商家将骗术当做技术出售,还提供人脸定制,定制价格在2000元到上万元不等。

而围绕AI课程的产业链,还形成了分销的灰产。315期间,就有媒体曝光了有关“数字人源头厂商”和“数字人代理”的骗局。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

有不法商家利用“数字人产业是时代风口”作为噱头,对外售卖高达十几万元的AI代理服务,宣称“只要付钱成为代理,就能将数字人技术层层分销给下级买家,不需要任何资质审核,还能自己随意定价,零基础小白也能参与,闭着眼睛就能年入百万。”

然而,“AI换脸”不仅涉嫌侵权,而且还因为直播效果不佳、台词重复、表现生硬等,导致直播间频繁被封。

如今,随着平台监管力度的加大,这样的乱象正在进一步遭到整治。新播场在抖音搜索“AI主播课程、“AI直播课程”等关键词,已经搜不到相关卖课内容。

可以看到,风口之下,AI在直播领域的应用催生了不少乱象。实际上,如果能够更好地利用AI技术,不仅能够减少成本,还能为直播带来新的想象空间。

有业内人士表示,从目前来看,AI主播目前的应用还是存在较多问题和挑战,更多是应用于不需要依赖内容输出的场景,比如本地生活赛道的团购直播;或者作为真人主播的“替身”,在无法开播的时间段运作。

四、押注AI直播,前景如何?

实际上,AI直播带货早已经不是什么新鲜事了。

2023年,随着AI技术的逐步成熟,头部直播公司开始大举入局AI直播带货,谦寻就是其中之一。

据报道,谦寻控股很早就已经在AI领域开始布局,旗下的两家子公司谦语智能和羚客就是专门用来研发AI直播带货。

2023年8月9日,在“再定义・直播的生命力-2023AI创新发布会”上,谦寻旗下的谦语智能和羚客分别发布了“AI数字人直播业务”和“一站式AI智能直播综合平台”,其中多个AI数字人都有薇娅的身影。

而不久前,宣布淡出直播电商的头部带货主播辛巴,也称未来两年将去学习AI技术。

头部机构和主播押注AI,正是看到了AI技术与直播结合带来的新想象力。

与此同时,面对广阔的海外市场,AI主播也有更大的发展空间。

如今许多AI研发商都在着力完善相关产品,闪剪智能举办的2024 BocaLive AI数字人智能播控系统在3月21日举行了线上发布会,新上线的AI能够直接帮助商家自动写好外语直播脚本,支持29国语言和丰富的AI配音。

批量打造“AI主播”:谁在涨粉,谁在赚钱?

AI主播具有庞大的语言库,可以进行数十种语言的翻译,商家把中文的商品介绍或者直播脚本输入进去,就可以自动转换成英语、法语、德语等多种语言。

据《中国AI数字人市场现状与机会分析,2022》预测,到2026年,我国AI数字人的市场规模将达到102.4亿元。

AI数字人的前景广阔,但是未来会与直播融合到怎样的程度,一切都是未知数。

揭秘Midjourney的两大功能碰撞

aigc阅读(184)

Midjourney是一个强大的文本到图像的人工智能模型,它允许用户通过输入文本提示来生成独特的图像。Midjourney使用两种不同的参考方式来帮助用户控制图像的生成:sref和cref。

下面来分别介绍下–sref和 –cref的区别和使用方法(注意:–cref和–sref目前只适用于 niji 6 和 v6 模型。)

一、sref功能介绍

sref(style reference)是一种参考方式,它允许用户指定一个或多个图像作为风格参考。Midjourney将使用这些参考图像来帮助生成具有类似风格的图像。

sref风格介绍

sref可以用来控制图像的整体外观和感觉。例如,你可以使用sref来生成具有以下风格的图像:现实主义、超现实主义、抽象主义、表现主义、印象派、野兽派、立体主义、达达主义、超现实主义、波普艺术。

二、cref功能介绍

cref(content reference)是一种参考方式,它允许用户指定一个或多个图像作为内容参考。Midjourney将使用这些参考图像来帮助生成具有类似内容的图像。

cref的工作原理与垫图(image prompt)较为相似,都比较注重图片特征,不过最大的区别是sref生成的是相同风格,垫图是基础创作。

cref风格介绍

MJ官方表示cref这个功能更适合用于动漫或游戏,相对来说人物不大适用与真实照片cref可以用来控制图像中包含的内容。例如,你可以使用cref来生成包含以下内容的图像:动漫及游戏人物、动物、植物、风景、建筑、交通工具、食物、物品。

三、cref基础使用方法

首先我们点击左上角➕上传一张或多张图像,这里我们选择的用人物图像去生成,选图需注意:选择一张清晰、正脸或者侧脸、光线较好、最好不遮挡五官的真人肖像照片作为角色参考,点击发送,用imagine输入提示词和尺寸后加上–cref URL 并输入图片的地址,再使用 –cw 来调试参数配置,切记–cref 目前只适用于 niji 6 和 v6 模型。

默认的参数是100(–cw 100),如果追求与图片相似度极高可将参数调(–cw 80到–cw 100),如想更加贴合关键词描述生成,可拓展性更强些可将参数调(–cw 0到–cw 30),–cref对人物发饰和服饰还原度能更高些不过对于面部、五官并不能百分百的还原,不过办法总比困难多,经过反复测试我发现可以通过对该图的面部特征进行详细描述还是可以有效提升人物的面部相似度。

此外参考图像的质量对生成图像的质量有很大的影响。因此,在选择参考图像时,请务必选择高质量的图像。高质量的图像应该具有以下特点:

  • 高分辨率
  • 清晰锐利
  • 光线充足
  • 没有模糊或失真

cref实例

(–cw0)时

The girl wearing a denim suit tied a ponytail –ar 9:16 –cref https://s.mj.run/s9ahb_ilI0s –v 6.0 –cw 0

(–cw50)时

The girl wearing a denim suit tied a ponytail –ar 9:16 –cref https://s.mj.run/s9ahb_ilI0s –v 6.0 –cw 50

(–cw100)时

The girl wearing a denim suit tied a ponytail –ar 9:16 –crefhttps://s.mj.run/s9ahb_ilI0s–v 6.0 –cw 100

关键词翻译:穿牛仔套装的女孩扎着马尾辫

不难发现(–cw 0)时生成的图像虽然还原度不是很高不过对关键词的描述还是很精准的。(–cw 100)时生成的图像还原度虽然很高不过对于关键词的提炼不够精准。(–cw 30到–cw 60)相对来说无论对图像的还原度还是对关键词的可控性能都能较稳定些。

四、sref基础使用方法

跟cref使用的方式相似首先我们点击左上角➕上传一张或多张图像,这里我们选择自己喜欢风格的图像去生成,比如赛博朋克风、波点风、像素风等,然后点击发送,用imagine输入提示词和尺寸后加上–sref URL 并输入图片的地址,切记–sref 目前只适用于 niji 6 和 v6 模型。

1. Sref高阶使用的方法

与cref步骤保持一致,只不过要在输入图片地址后面再使用 –sw 来调试参数配置,默认的参数是100(–sw 100),如果想关闭可将参数调至0(–sw 0),如果想将风格最大的强度还原可将参数调至1000(–sw 1000)。

2. Sref实例

(–sw100)时

Girl, wearing a beret, a windbreaker, cool boots, holding a baseball bat in hand –ar 9:16 –srefhttps://s.mj.run/KG-wdaBGNdo–v 6.0 –sw 100

(–sw500)时

Girl, wearing a beret, a windbreaker, cool boots, holding a baseball bat in hand –ar 9:16 –srefhttps://s.mj.run/KG-wdaBGNdo –v 6.0 –sw 500

(–sw0)时

Girl, wearing a beret, a windbreaker, cool boots, holding a baseball bat in hand –ar 9:16 –srefhttps://s.mj.run/KG-wdaBGNdo –v 6.0 –sw 0

关键词翻译:女孩子戴上贝雷帽身穿风衣,穿着炫酷的靴子手拿着棒球棒

(–sw 0)时生成的图像风格还原度不是很高不过对关键词的描述还是很精准的。(–sw 100)和(–sw 500)时生成的图像不但风格还原度很高同时也能对于关键词的提炼更加够精准。

五、cref与sref结合实例

Cyberpunk style, girl, wearing beret, windbreaker, cool boots, holding baseball bat in hand –ar 9:16 –crefhttps://s.mj.run/s9ahb_ilI0s–v 6.0 –cw 20 –sw 500 –srefhttps://s.mj.run/KG-wdaBGNdo

关键词翻译:赛博朋克风格,女孩戴贝雷帽身穿风衣,酷靴,手里拿着棒球棍

首先我们点击左上角➕上传一张或多张人物图像然后再上传一张参考风格的图像点击发送,用imagine输入提示词和尺寸后加上–cref URL 并输入人物图片的地址,再使用 –cw 来调试人物参数配置,再把参考风格的图像链接放入,再加上–sw调节风格的参数即可。上图是我测试的一个案例,整体效果还是非常不错的。

今天的分享到这里就结束了,总的来说sref和cref功能还是很强大的,需要大家多去练习,才能灵活运用到自己的工作场景中~

你在小红书上关注的美女博主,可能是AI

aigc阅读(180)

在近年来,虚拟偶像、虚拟主播(VTuber)似乎已经不是什么新鲜事,人们就算没有成为虚拟偶像的粉丝,也一定都曾听说过初音未来的名字。

只不过,一提及“初音未来们”,人们脑海里首先出现的标签或许还是“二次元”。但如今,在小红书等社交平台,一大批AI博主正凭借足以“以假乱真”的美图,吸引诸多粉丝。

她们往往在个人简介中标明“赛博天使”“没有感情的机器人”“AIGC生成”或“虚拟博主”,但仍有不少粉丝将其误以为是真人博主,更有人在评论询问“能否加个微信”。

事实上,不仅有赛博颜值博主,还有赛博萌宠博主,但背后的逻辑都是通过大模型生成统一形象在不同场景、不同穿搭下的不同类型照片。而随着流量涌来,赛博博主们也开始思考起自己的变现路。

一、粉丝过万、点赞上千,博主却是AI?

在小红书上,点开一位粉丝量过万的博主笔记:“在四十岁这个年龄,我们拥有着宝贵的人生经验,以及内外兼具的自信和美丽……”配图一张逼真的工作照。评论区的第一条便有人误以为真,问道“还招人吗?”直到有其他网友提醒“AI虚拟生成不知道啊?假的”,许多网友才恍然。

而另一位粉丝量超过两万的颜值博主,在个人简介里写明“赛博天使,我只是一个没有感情的机器人”,且在每篇笔记前标明AI二字,仍有不少网友难分真假,发出“这个模特好好看”的感慨,且有多篇笔记点赞量超过两千,目前所有笔记获赞与收藏量已经近八万。

再一位旅游博主,时而身穿露脐短袖出现在海边,时而一袭国风汉服出现在樱花下,又或者身着白色毛衣和毛线帽打卡餐厅,不仅穿搭和场景多变,发型发色和首饰等也常有变化,但“脸”始终是同一张脸。而这些笔记下,常有人发出疑问,“这真的是AI吗?”

小红书上的AI颜值博主

事实上,这些凭借颜值出圈的博主,无论是邻家少女,还是成熟女性,都是由AI绘画大模型生成而来,只是因为脸部参数相同,且穿搭多元,细节越来越逼真,加上背后的运营会为这些AI生成的形象塑造一个具体人设,便很容易被误以为是真人网红。以至于有网友调侃道,“AI越来越像真人,网红越来越像AI。”

除了有AI颜值博主,还有AI萌宠博主。

日前,在小红书上,一条标题为“会做饭的猫真的很加分”的笔记收获了2.8万赞和4000+收藏,这组由AI生成的图像中,一只小猫正爪握锅铲,做着一碗石锅拌饭。

而博主“橙子的橙啦”则专门发自己创作的AI猫猫,在小红书拥有5.7万粉丝,48万点赞和收藏,账号置顶的一条笔记中,一只胖乎乎的加菲正在cos《繁花》里的宝总,穿着西装吃泡饭。

小红书上的AI宠物博主

锌刻度搜索发现,在小红书上,类似于“橙子的橙啦”这样的AI萌宠博主并不少,名为“是壮壮丫”的博主主要发布一只名为“壮壮”的柴犬AI作品。

在这些AI绘画作品中,这只柴犬既会生病,也会逛街,还会上班。而当它生病时,评论区不乏“好好休息”“壮壮,姨姨好舍不得”的关心;当它出去买菜时,评论区则有人表示“记得买点肉肉吃”;而当它在洗碗时,网友们则立即夸奖它“不止听话,还很勤劳!”……

目前,该博主已有1.8万粉丝,获赞与收藏量超过十万。

二、赛博网红,何以变现?

当流量涌来,这些“赛博网红”也开始设法变现。

其中,AI颜值博主主要仍在培育自己的私域流量,在这些博主的主页,往往能看到其“群聊”入口,而群聊的目的通常是“拿原图”或“拿教程”。而博主“人工智颜”的账号介绍则写明“想要定制自己的写真照片、定制生成特定服装图等需求都可联系我。”

我们发现,AI写真私人订制是目前最主要的变现方式。“其实目前这个行业刚刚起步,客户还是不算太多,大部分客户也是出于好奇,会提出一些特定的服饰要求让我们生成图片。”小红书上一位AI画师告诉锌刻度,除此之外,也有一些客户是希望生成自己的AI写真照。

其中,小红书上一位长期发布AI美女写真的博主背后是一家摄影工作室。据其提供给锌刻度的详细价格表,基础套餐价格为:单人套餐为1000元一套,共8张精修照片,但仅限现有风格套系;定制风格为1500元一套,共8张精修照片,但其中包含500元定制费。除此之外,还可充值享优惠价,充值3000元可送一套。而这个价格甚至比市面上许多真人写真的价格更高。

一AI写真工作室提供的价格表

该工作室的客服告诉锌刻度,购买定制AI写真的流程是,“先发送10张左右你的照片,再说具体要求,然后付款,(我们会)48小时内出图联系你,再视频选片,最后精修你选的照片。”

其中,照片需要6张正面和4张其他角度用来建立脸部模型。而要求可包括胸围、偏好(性感,青春,御姐,萝莉)、头发(齐腰, 短发 ,刘海,发色)等等。

此外,该客服表示,“我们工作室是会员制的,提供一次脸模之后我们会为会员保留下来,如果整容了可以重新为会员免费练新脸模。”

此外,还出现了AI模特试装,以小红书上“图鱼家的AI工作室”这一账号为例,此前该博主曾发布多篇“AI模特在线营业”“AI模特试装营业日”的笔记,并表示“工作流越来越稳定了”。

尽管目前其仅有六百多位粉丝,但这在国外已有了成功变现的案例。

据报道,Clueless公司利用人工智能(AI)创造出来的模特和网红艾塔娜·洛佩斯。几个月前,她的月收入为4000欧元。日前,她在接受西班牙媒体的一次特别“采访”时说,现在她的月收入已达1.2万欧元。

除了颜值博主,AI萌宠博主同样在寻觅变现之路。

据青年横财发展会,从后台查询,AI宠物头部账号的广告报价不算便宜,5.5万粉的“橙子的橙啦”图文报价15000元,同样是5.5万粉的“空一凉”图文报价7700元。比小红书千粉百元的(粗略)报价方式高出不少。

从各个AI动物作者的笔记中时常可以看到产品露出,不仅有猫粮、猫罐头等宠物用品,也有眼镜、汽车、奶茶等。

不过,目前流量更多仍倾斜于头部账号,许多跟风而来的AI博主目前的粉丝和流量并不多,这也让赛道整体的变现路更困难。

三、高流量背后:低成本、低门槛、高风险?

据了解,目前上述AI博主发布的图片大多由海外AI画图程序StableDiffusion、Midjourney等生成,但也有部分博主开始使用国内的AI绘图软件或小程序。

“从大模型本身来看,算力要求很高,对于训练数据的数量和质量要求也很高,但是对于这些使用者而言,其实门槛是比较低的。”算法工程师郑义(化名)告诉锌刻度,一般而言,为了保证AI博主人设的统一性,创作者需要设定“用同一张脸”的参数,但不断训练和调试其他数据,从而生成不同场景、不同穿搭和不同妆容的图片。

而在AI颜值博主“cyberAngle”的笔记评论区,也常能看到运营者对此的讨论,当有人询问“有这个模型吗,有没有参数”时,博主也会回复“都是现成的模型,那几个dolllikeness调调配比混出来的”。

当然,由于现成模型不够完善,需要不断训练和调试,所以从这些博主的部分图片中也能看出一些瑕疵,比如脸歪眼斜、比例不对或者手脚扭曲变形。

“因为目前很多大模型更多还是聚焦于细节,对总体的把控能力较弱。简单来说就是,每根手指它都能画得很逼真,但放大一看它可能画了六根手指。”郑义告诉锌刻度。也正因此,“cyberAngle”曾提到自己“画1000张总能挑出来十张”,也有“三只手五条腿的”。

此外,不少AI颜值博主或许也面临着版权风险。在部分AI颜值博主的评论区,常常能看见“这个真的很像网红XXX”的评论。

小红书上关于一位AI博主套用网红照片的讨论

其中,有一位AI博主的图片就被指出“这不是直接用人家33(一名网红博主)的脸套的?”以及“这是拿三三的图喂出来的AI吧?”

郑义表示:“明星和网红的图片本来就在网上更容易搜到,就更容易被作为训练数据,所以确实存在一定潜在风险。”

另外,北京慕公律师事务所主任刘昌松律师也曾在接受媒体采访时表示,AI美女图片,很难获得知识产权方面的保护。若本身没有经过真人同意便使用人脸数据,就涉及侵权问题。此外,他提到,如果生成的图片中出现裸体,甚至做一些性动作的表演,这就属于传播淫秽物品,那直接可以构成治安违法甚至刑事犯罪。

而值得一提的是:小红书等社交平台近年来对“低俗擦边”等内容的审核监管力度正不断加大,也正因此,不少真人博主往往需要在笔记内容中强调“正常穿搭”等。但是,AI颜值博主往往会身穿吊带等露肤度较高的衣服,不乏“擦边”内容。

可以肯定的是,AI的热潮正在悄悄融入内容行业,并且重塑社交平台和电商平台的生态,未来,我们的关注列表里,或许将出现更多的赛博博主。而平台方该如何监管这些AI博主,也将成为一项挑战与考验。

刚刚,Sora官方发布首支MV

aigc阅读(90)

AIGC,算是狠狠地震荡了一把音乐圈。

就在刚刚,OpenAI官方账号发布的一支由Sora制作的MV(Music Video)——《Worldweight》,引发了不少网友们的围观。

据了解,这首《Worldweight》的音乐是由艺术家August Kamp作曲;而MV的画面内容,正是他借助Sora来完成的。

用August Kamp自己的话来说:“我心中的Worldweight,终于有了具象的视觉效果。”

他回忆起两年前创作这首歌时的情景:

当时我感受到了音乐的流淌,仿佛是我的心血和灵魂的流露。外面还下着雨,而我却幸运地能够将这些情感倾注到歌曲中,通过音乐将这些感觉保存下来。

而现在随着Sora的出现,则成了一种将原本只存在于他闭眼时的想象,转化为可以与他人共享的艺术形式的方式。

这并非是August Kamp第一次用AIGC技术来制作MV。

早在上个月,他就在自己的Instagram账号中剧透了AI生成的MV片段。

同样的,这支MV片段的每一帧画面,都是由Sora生成。

很多网友们在看到Sora制作出来的MV之后可谓是感慨万千,有人评价道:

Sora好像把一觉睡了300年所经历的梦给复刻出来了。

也有人觉得Sora做的MV(比梦)更加神奇和梦幻:

跨次元的“电缆”终于出现了。

嗯,Sora的这一波操作可以说是又赢麻了。

不过有一说一,虽说AIGC在Music Video的“video”中好评如潮,但在“music”这件事上,画风却并非如此。

欧美天后们联名抗议AIGC

没错,和当年画家们抵制AIGC一样,乐坛也出现了如出一辙的事情。

在这次联名抗议的名单中,很多人都是当今全球顶流——

麻辣鸡(Nicki Minaj)、水果姐(Katy Perry)、碧梨(Billie Eilish)等人都坐不住了。

他们所签署的这封联名信是针对人工智能开发者、科技公司和数字平台,并要求:

停止使用人工智能(AI)来侵犯和贬低人类艺术家的权利。

艺术家们特别指出了目前存在一些问题,如:

  • AI技术复制艺术家的声音
  • 未经补偿使用艺术家的作品来训练AI模型
  • 以及稀释支付给艺术家的版税池等等

他们认为这些问题不仅损害了艺术家的经济利益,也对他们的创作自由和艺术价值构成了威胁。

在这封信中,艺术家们呼吁科技和AI领域的合作伙伴们共同努力,建立一个负责任的市场环境,保持音乐的质量,而不是简单地用AI取代人类艺术家。

艺术家们还强调,虽然人工智能在负责任的使用下可以促进人类的创造力,但目前一些平台和开发者的使用方式却是在破坏创造力和削弱艺术家、词曲作者、音乐家及其权利持有者的地位。

例如在“AI复制艺术家声音”这件事上,现在只要在网上随便一搜,就能找到诸如下面这样的网站,可以轻松复刻水果姐的歌声:

无独有偶,这种现象不仅是在国外,在国内也是频频发生。

例如去年火上热搜的“AI孙燕姿”,就是典型的一个例子。

除此之外,在做音乐这件最根儿上的事情,AI技术的发展也似乎给艺术家们带来了一定的冲击。

例如前阵子爆火的音乐版ChatGPT——Suno就被玩疯了。

直接拿菜名“宫保鸡丁”用AI做个音乐剧,就能登上全球AI音乐热门榜前十。

就连说唱歌手Rabbitdog,在听了第一句Suno生成的AI版《Made in China》之后,都直接蚌埠住了:

简直顶爆了,下课,明天视频不再更了……

在操作上也极其的简单,只需要输入风格、主题就能生成;如果输入歌词,AI还能唱起来~

而且AI写歌、唱歌这事不仅是国外的技术火了,国内的技术也在路上了。

例如就昨天,昆仑万维的天工SkyMusic也开始内测,功能正式的上线应该也快了,感兴趣的小伙伴也是可以蹲一波。

One More Thing

最后,回到MV这件事。

流行音乐之王迈克尔杰克逊在1982年开创了现代MV,把流行音乐的MV水平推向了新的高潮。

这是属于人类在创造和创意上的高光时刻。

而现在,Sora和Suno等AIGC工具却在以另一种“硅基”的生成方式,同样也投入到了创作之中。

仅仅42年时间,这一实一虚之间的变化,是有点意思了。

参考链接:

[1]https://www.youtube.com/watch?v=f75eoFyo9ns

[2]https://www.instagram.com/p/C48t0IzvBTi/?hl=en

[3]https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb109bbac

[4]https://www.axios.com/2024/04/02/musicians-letter-ai-replace-artists

各方磨刀霍霍,Kimi会成全他们吗?

aigc阅读(70)

Kimi作为一款国产AI模型,在短时间内获得了广泛的用户关注和市场正反馈。

从价值星球掌握的信息看,Kimi的爆火主要得益于其在长文本处理能力上的显著优势,以及背后团队月之暗面(Moonshot AI)的技术创新和市场策略。此外,Kimi的成功也引发了资本市场对AI领域的高度关注,相关概念股表现活跃,投资者热情高涨。

现在,投资人工智能赛道是否是一个好机会?价值星球认为尚需考虑多方面因素。

首先,Kimi的技术突破和市场表现确实为AI领域带来了新的机遇,特别是在长文本处理、专业学术论文翻译理解等方面的应用潜力;其次,随着Kimi等国产大模型的亮相,预计模型参数量及训练量将持续提升,这将对AI算力租赁、IDC、服务器运维等算力服务商产生积极影响;最后,Kimi的爆火也带动了相关概念股的上涨,显示出资本市场对于AI技术发展的认可和支持。

然而,投资决策不应仅仅基于短期的市场热度和概念股表现。需要注意的是,AI领域的竞争日益激烈,不仅有来自国内外的技术挑战,还有来自互联网大厂的战略角逐。

目前,Kimi虽然在技术上取得了突破,但其商业模式、盈利能力以及长期可持续性仍需进一步观察和评估。

一、现在是进入AI智能领域的好机会吗?

近日,AI智能助手Kimi爆火,一度因访问量激增导致宕机。3月25日,话题“Kimi每天获客成本超20万元”冲上微博热搜。

Kimi背后公司月之暗面,成立于2023年4月17日,背后有包括阿里、红杉中国、小红书、美团等投资方和顶级互联网巨头加持。

与其他AI产品相比,Kimi的优势在于长文本处理能力。2023年10月,月之暗面宣布推出首个支持输入20万汉字的智能助手产品Kimi Chat。仅仅几个月后,今年3月18日,Kimi再次升级功能,可支持处理200万字无损上下文。

与Kimi对比,此前流行的许多AI产品在长文本能力上略显不足。例如Chat GPT4,只支持最多2.5万字的文本处理。

创立于2023年的月之暗面,像一条鲶鱼,迅速杀进了前景广阔的AI领域,让国内AI行业看到了长文本处理功能的商机,也随之引起了各个公司激烈的竞争。

AI长文本的市场应用有其商业价值,但在商业应用层面,更重要的是资金和算力。当Kimi真正开始与互联网大厂同台竞争,它是否能保持优势,仍然有待观察。

2022年11月底,美国Open AI推出人工智能对话聊天机器人Chat GPT,仅仅过了两个月,Chat GPT的月活用户就突破1亿,成为史上增长最快的消费者应用。

2023年初,Chat GPT的风潮吹到了中国。朋友圈流传着各行各业工作人员用Chat GPT检索、写作的体验,1月30日,同花顺概念板块新增“Chat GPT概念”,百度、腾讯、阿里等多个互联网大厂也先后开始布局AI产品。

Chat GPT暂时未进入中国市场,而且,Chat GPT并非基于中文开发,国内用户仍然需要更加本土化的AI模型,这就为国产互联网科技公司提供了机会。

但在众多AI模型中,最火爆的却并不是互联网大厂的产品,而是初出茅庐、此前名不见经传的Kimi。

目前,Kimi最具吸引力的功能是长文本处理,特别是信息无损压缩技术。Kimi具备强大的记忆功能,这意味着它能在最长200万字的多轮对话中保持信息的完整性,为用户提供连贯且深入的交流体验。

Kimi的功能到底有多强大?此前,月之暗面副总裁许欣然在会议室展示了几份用于测试的文件,包括大部头医学书籍《中医内科学》《中医诊断学》、英伟达2023年年度财报、《甄嬛传》剧本等。

在上传这些内容后,Kimi可以迅速“读”完一份近百万字的中医诊疗手册,给用户提供诊疗建议,也可以迅速概括长达76集的《甄嬛传》剧情和人物简介,让用户从“小白”秒变入门级“甄学家”。

一位亲自体验Kimi的网友在社交媒体上表示,他进行了一次尝试,在网上随便下载了一个80页5.88兆的PDF文档,要求Kimi给出一份简洁通俗的概括,Kimi很快完成了任务,输出了一段仅有几句话的总结。

也有网友把Kimi和百度开发的文心一言、阿里开发的通义千问进行了对比,用包括天气与着装建议、法律知识、二手房限购政策、代码生成在内的六道题测试三款AI模型,结论是Kimi在信息检索方面与文心一言互有优劣,总体上优于通义千问,但在代码生成领域不如通义千问。

尽管Kimi还有不够成熟之处,但它堪称惊艳的分析和文本生成效果引发了广泛关注,而且,目前Kimi暂不收费,被许多网友称为“Chat GPT”的国产免费平替。早在今年二月,Kimi智能助手的访问量已经达到305万,在大模型创业公司的“AI ChatBots”产品中排名第一。

三月,Kimi由于用户过多导致宕机。根据月之暗面发布的情况说明,从3月20日上午9:30开始,观测到Kimi的系统流量持续异常增高,由于流量增加的趋势远超对资源的预期规划,从当天10:00开始,较多的SaaS客户持续遇到引擎过载的异常问题。同时,月之暗面正在持续进行扩容工作,以承载持续增长的用户量。

二、月之暗面成功的关键是什么?

在Kimi爆火前,很少有人知道这款AI产品,以及它背后的创业公司“月之暗面”。

作为人工智能领域突然杀出的一匹黑马,能够迅速与百度、阿里等互联网大厂生产的AI模型较量,足以证明Kimi背后公司和团队的优秀。

Kimi母公司月之暗面成立于2023年3月,自成立开始,就不断获得资本的青睐。2023年6月,月之暗面收获了超过2亿美元的融资,投资方包括红杉中国、真格基金等;当年10月,月之暗面再次获得红杉资本、今日资本等投资机构近20亿元人民币的融资。今年2月,月之暗面完成包括红杉中国、小红书、阿里、美团等多家机构超10亿美元的融资,此次融资后,月之暗面估值达到约25亿美元,成为国内大模型领域的独角兽企业。

月之暗面创始人杨植麟可以说是一名“天才90后”,他本科毕业于清华大学,博士则毕业于以计算机专业知名的美国卡内基梅隆大学,曾经与图灵奖得主杨乐坤、约书亚·本吉奥合作发表论文,是一名大语言模型领域的专家,团队里也汇集了来自谷歌、Meta、亚马逊等全球顶级机构的人才。

Kimi技术的重点突破在大模型长上下文窗口技术方面,从成立至今,月之暗面已完成了从通用大模型到上层应用的布局。在大模型基础层,月之暗面训练了千亿级别的自研通用大模型,并获得了国内大模型备案审批;应用层则不断增加长文本处理能力,从支持输入20万字升级到200万字,善于阅读长文、搜索网页,可以用于会议纪要、辅助编程、文案写作等场景。

当然,Kimi处理文字的能力并非独一无二,能够从众多国产AI产品中破圈,靠的还是商业运营和营销方面的能力。

许多主流厂商开发的AI产品主要面向B端,通过AI功能+原有产品的思路打开市场,例如微软的Office接入GPT-4,带来全新的办公生产模式;华为云在2022年发布了盘古矿山大模型、气象大模型、海浪大模型等;科大讯飞也在2023年发布了讯飞星火认知大模型。

Kimi目前则主攻C端,月之暗面作为国内乃至全球范围内第一家将“长文本”作为标签的大模型公司,通过大量的广告营销和用户口碑,以“长文本”概念迅速占领用户心智。另外,Kimi简洁的界面对C端用户来说也更加友好,降低了使用门槛,迅速吸引了一批用户。

用户对Kimi在长文本方面的“超能力”既有赞叹,也有恐惧——一方面,AI能够提高工作效率,迅速检索、概括海量信息,另一方面,各行各业的工作者又担忧自己的工作有朝一日会被越来越强大的AI取代。

不过,目前担忧Kimi等AI产品“抢走”人类的工作或许为时过早。大部分时候,C端用户把AI当成一种娱乐工具,例如用AI制作“哄女友生成器”“吵架小助手”、生成各种有娱乐性质的图片。在真正的工作领域,AI的效率并不一定高于人类。

许多专业领域的从业者认为,AI的检索能力并不如传统搜索引擎。由于缺乏足够的训练,AI很难给出足够专业的信息,仍然需要搜索引擎、论文网站等传统检索方式。而在短文本生成、翻译等方面,AI并不如人类。

目前在读大学的肖晨曾经尝试过用AI翻译论文摘要、为自己的文章取标题,他尝试了包括Chat GPT、Kimi、文心一言在内的几款AI产品,最后发现生成的标题并不令人满意,而AI翻译出的短文虽然语法精准,但用词并不够恰当,仍然需要找精通英语的朋友进行修改。

肖晨最终发现,AI最强大的功能,仍然在于长文本的理解和概括速度。当他面对撰写论文所需的大量文献时,AI只需几分钟,就可以“读”完他需要几小时阅读的文献,并给出简练的归纳总结。

Kimi提供的长文本阅读能力吸引了大批需要阅读海量资料的用户,如学术研究群体、金融和法律领域工作者。同时,Kimi提供了一种新的AI运营思路,即不依靠大厂普遍采取的模型+云服务、AI功能+原有产品的传统方式,单凭高质量C端服务吸引用户。

三、资产市场怎么看Kimi的长文本功能?

尽管Kimi的出现迅速吸引了一批用户,并在二级市场引起了巨大的反响,但Kimi的长文本功能是否具有造血能力,仍是一个问题。

除了Kimi的火爆程度,很多人也在讨论Kimi的获客成本。根据新浪科技提供的数据,考虑到广告投放和算力成本,Kimi每个获客用户的成本达到12-13元,而按照近一个月将近18000的日均下载量计算,Kimi每日的获客成本高达20万元。

月之暗面作为初创公司尚未实现商业化盈利。除了每日20万元左右的获客成本,Kimi还需要不断提升信息检索能力、遵循复杂指令的能力,同时推动多模态模型研发,以及实现音频处理等其他需求。另外,为庞大的用户群体提供稳定的服务同样需要资金。可以预见,在未来的一段时间内,月之暗面的任务并非盈利,而是通过持续的投入不断提升服务能力。

Kimi引以为傲的长文本功能,很难成为它的护城河。在解读长文本能力成为大部分C端用户刚需的背景下,大部分海内外公司都会把C端服务的重点放在长文本解读方面。

图源:Kimi官网

国内互联网大厂从Kimi身上看到了长文本的广泛需求后,很快加入竞争,对Kimi展开“围剿”。

2023年10月30日,Kimi首发不到一个月,王小川的百川智能就推出了单次处理35万汉字的Baichuan2-192K,打破了Kimi的20万字记录,随后,李开复也发布了能够处理40万字的Yi-34B。

而在Kimi更新200万字长文档处理能力后,更多大厂入局,阿里宣布通义千问升级,免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用;随后,百度文心一言、360智脑也都把500万字长文本提上了日程。

对于Kimi来说,在缺乏其他盈利方式的情况下,每个用户12-13元的获客成本是不小的投入,但对已经具有造血能力的大厂来说,这笔成本并不算高——根据亿欧智库2022年3月的数据,中国互联网企业的平均获客成本在380元-580元之间。

Kimi大量烧钱探索出的路径,对于互联网大厂而言,反而是更低的获客成本。同时,算力资源、人力资源充足的互联网大厂更容易输出稳定的服务,并把AI与自身原有产品相结合。况且,Kimi的长文本处理能力与通义千问、360智脑等AI产品相比,并没有非常明显的优势。

今年3月18日,月之暗面联合创始人周昕宇透露,月之暗面正在推进商业化,制作付费内容,并表示思考点不是性价比,而是“应该要帮用户解决什么问题”。

但Kimi的商业化具体如何落地,是否能为月之暗面带来持续的造血能力,仍是一个未知数。在目前大部分互联网公司免费开放AI产品,且功能渐趋同质化的情况下,即使Kimi在用户心智方面抢占先机,付费服务也很难被大众接受。

因此,长文本很难成为Kimi永远的护城河,月之暗面想要持续盈利,仍需找到新的增长点。

与互联网大厂竞争并非易事。此前,包括共享单车在内的许多创意都以美好的愿景开始,最终由于无法持续盈利等诸多原因,或黯然消失,或被大厂并购。如今,满怀理想主义的学霸杨植麟也将走上这条布满荆棘的道路,与中国乃至海外的互联网大厂正面竞争。想要在这场激烈的战斗中活下来,杨植麟、Kimi和月之暗面仍需讲出更好的故事。

浅谈如何构建基于AI聊天游戏的营销活动

aigc阅读(89)

一、浅谈游戏化AI聊天

在大型语言模型的应用领域中,有一种热门类型被称为“AI陪聊/聊天”。这类产品让AI扮演特定角色,使得用户可以与AI进行互动对话。我们也可以将这类产品称为“AI社交产品”。

海外的代表性产品为Character.ai,而在国内,我们有星野、筑梦岛等优秀的产品。用户可以与这些平台上的AI角色进行对话,甚至自由创建自己的AI角色。这些AI角色能够通过多模态的信息展示方式(如声音、文本、图片等)与用户进行交流,在一定程度上满足用户的情感需求。

浅谈如何构建基于AI聊天游戏的营销活动

图为Character.ai截图

浅谈如何构建基于AI聊天游戏的营销活动

图为星野APP截图

那AI陪聊/聊天市场情况怎么样呢?根据Character.AI表示,在他们的应用程序正式发布之前,他们的网站已经吸引了超过2亿次的访问,平均每位用户的访问时长高达29分钟。这个数字是ChatGPT的三倍之多。更值得注意的是,在最新的AI应用排行榜中,Character.AI成功占据了第六名的位置。

浅谈如何构建基于AI聊天游戏的营销活动

Character.ai 月度访问量(左),2024年2月全球AI应用访问量排名(右),来源国联证券

同时,AI陪聊/聊天产品也呈现出了“游戏化”的趋势。比如之前很火的《哄哄模拟器》,以及在过年期间,智谱清言推出的三款角色扮演游戏:《完蛋!被村里亲戚包围》、《怒捶熊孩子》和《春晚导演模拟器》。Minimax的星野也推出了一款名为《阴影怪气怼亲戚》的游戏,而ChatMindAI则发布了《决战拜年之巅》等。

浅谈如何构建基于AI聊天游戏的营销活动

依次为哄哄模拟器、智谱清言、阴阳怪气怼亲戚、决战拜年之巅

据报道,《哄哄模拟器》在24小时内吸引了60万用户,一天内10e token(价值约2000美元)就被消耗完。我个人认为,这些产品能够在社交媒体上吸引玩家,并形成社交裂变的效果,其中的“游戏化”设计功不可没。

那么,什么是游戏化设计?

游戏化设计是一种将游戏中的设计方法和理念应用在产品设计上,以提高用户的参与度,进而增强产品的活跃性和留存率。主要包括以下几个方面:

1. 沉浸感设计

通过语言、图片、动画、视频等多模态形式,尽可能模拟真人交互的过程,让玩家有身临其境的感觉。

2. 目标驱动设计

根据《游戏改变世界》一书的描述,游戏具有四大特性:目标、规则、反馈和自愿参与。这些特性保证了玩家的高度参与动力,可以通过以下方式实现:

i)角色与场景

《游戏改变世界》一书中提到,“意义是我们置身于比个人更宏大的事业所产生的感觉”。因此,在游戏化设计中,我们可以通过场景模拟,让玩家扮演某个角色,在某个场景下进行游戏交互,来模拟这种“意义感”。这种“意义感”也是吸引玩家自愿参与的重要因素。

ii)目标设定

当我们给玩家设定了“意义感”后,需要告诉玩家在这个角色和场景下,他们需要达成什么目标,从而驱动玩家的行动。

iii)规则与挑战

玩家的行动过程中,通常会有一些限制性的规则。这些规则旨在确保用户的体验具有一定的挑战性。如果游戏设置得过于简单,玩家可能会因为快速通关而放弃。

但如果游戏具有一定的难度,玩家在不断提升自己的技能和策略以通关游戏的过程中,会获得很高的成就感。

正如“高级快乐内啡肽低级快乐多巴胺”这个说法,快速通关获得的快乐属于低级快乐,具有难度的快乐属于高级快乐,这反而更持续、更持久。

iv)实时反馈

在挑战游戏难关的过程中,玩家可能会感到挫败或疲惫。为了保持玩家的激情和热情,需要实时给予玩家反馈,这种反馈可以是游戏进度的突破,也可以是道具的奖励。

v)个性化体验

游戏的魅力在于它们能够让玩家沉浸于一个虚构的角色之中,激发他们按照自己的意愿和预期在特定场景下采取行动,从而实现个性化的幻想。这种沉浸感是鼓励玩家自发参与并保持高度活跃的关键所在。

在《哄哄模拟器》中,玩家可能会沉浸在这样的幻想中:“如果在这个时候,和女友吵一架会怎么样?”、“能否使用魔法打败魔法?”。基于这些幻想,玩家被激发出一种内在的动力,推动他们继续游戏。而且当玩家构思出一个“自认为精妙的幻想”时,还会分享到社交媒体上,这一定程度也会有利于产品的营销推广。

游戏业界有一个词,叫做“player fantasy”,意思是“玩家想要看到的、而且一般是无法在现实中实现的那种幻想、期待,正是是游戏要给玩家带来的终极体验”。

正如之前大火的幻兽帕鲁,正是投射了玩家对于宠物小精灵的奇怪幻想。

3. 活跃/留存维持设计

了保持用户的活跃性和留存率,游戏通常会设置每日任务、每周任务、战斗通行证等功能,这些功能对提升游戏的活跃性和留存率起到辅助作用。

Anyway,《哄哄模拟器》、《阴阳怪气怼亲戚》以及《决战拜年之巅》等游戏化产品不仅展示了LLM的一种新型应用模式,也揭示了一种新的营销策略的可行性。这主要基于以下两点原因:

1.“用LLM设计AI陪聊/聊天”的过程类似于“使用低代码平台”,AI陪聊/聊天产品具有高度自定义的能力,可以完美地满足各种营销需求。同时,它还能够快速调整玩法,以适应不断变化的营销环境。

除了哄哄like,目前也有其他基于AI陪聊/聊天的小游戏类型,比如AI地下城跑团、AI人生模拟器。这些也同样可以嵌入到营销活动上。

2.引入游戏化元素可以吸引用户深度参与,在保持用户活跃和提高留存率的过程中,实施有效的营销策略

3.前者的成功案例:哄哄模拟器24小时获得用户60万,10e token一天烧完(价值两千刀),可怕的增长速度!

4.目前未看到有游戏功能有较大规模的这类活动,这类玩家在游戏营销上属于蓝海,有较大的潜力。

二、如何设计AI聊天游戏营销

浅谈如何构建基于AI聊天游戏的营销活动

AI聊天游戏营销的实现主要依赖于四个关键模块。

  1. 符合营销目标的Agent(s):Agent(s)是AI聊天游戏的核心,它构成了AI聊天游戏能力的基础。
  2. 聊天功能:基于Agent(s)的输出结果,聊天功能需要以适当的方式展示Agent(s)的输出内容,使用户能够投入其中进行游戏。
  3. 营销相关功能:营销相关的能力负责将聊天功能串联起来,以实现营销目标。
  4. 风险检验:对输出内容进行风险控制和内容层面的检验,确保输出结果既无风险,又符合预期。

三、设计要点

我认为,创建一个成功的AI聊天游戏营销需要做到“好玩又有效”,也就是说,在实现游戏化建设的同时,还要满足营销目标。

1. 好玩的营销

相关的关键点主要包括:

1)Agent(s)的设计需要遵循游戏化设计思路,并融入目标驱动设计理念。

2)聊天功能界面应以打造沉浸式体验为目标。

3)营销能力需要配合用户留存和活跃度的提升进行设计,以增强营销效果。

2. 有效的营销

要实现贴合营销目标的营销活动,负责人需要构建一套完整的营销方案作为指导,其中包括但不限于:营销目标、用户画像、营销创意、预算规划、投放渠道、执行细节、评估指标等因素的考虑。

AI聊天游戏营销本质上仍然是一场营销活动,优先考虑的应该是营销目标,其次才是游戏化的聊天玩法。

评价一个营销活动的重要指标是ROI,即投入成本与营销收益的比值。值得注意的是,在AI聊天营销活动中,投入成本除了人力、物料、宣传费用外,还额外包括了AI大模型的调用成本。

我们需要预估营销活动的“用户规模”和“用户平均游玩次数”,以计算这次营销活动的大致成本,从而判断是否可以实现正向的ROI。

为了方便了解,这里给到一个营销活动主流程作为示例。每个玩家一开始只有3次聊天挑战次数,挑战成功进行抽奖。玩家可通过做任务(APP登录、APP充值、APP活跃等)获取挑战次数。通过奖励吸引玩家进行游戏,从而刺激玩家的APP登录、APP充值、APP活跃行为,从而给到产品数据上的增长。

浅谈如何构建基于AI聊天游戏的营销活动

如果已经拟定好了营销方案。那么接下来,讨论下各个模块的实现。

四、符合营销目的的AI聊天游戏营销

营销活动可以根据其目标进行分类,包括但不限于以下几种:

1)品牌宣传和曝光:通过展示产品的特性和优势,或在各种媒体上展示产品,以提高产品的知名度和曝光率。

2)分享裂变:利用用户的分享行为,通过社交网络或其他渠道,扩大产品或品牌的影响力和用户群体。

3)产品导流:通过与产品的关联,引导用户参与体验和使用产品,从而提升产品的新增用户、活跃用户和留存用户。(对于实体产品,则是提升销售数据)

4)付费引导:通过广告投放、促销活动等方式,诱导客户购买或使用产品,以实现营销收益的最大化。

我们需要结合这些营销目标,将AI聊天游戏的设定融入到营销活动中。例如,假设我们要对某个化妆品进行营销,可以设计一个“哄女朋友开心”的活动,在游戏过程中,用户发现送这个品牌的化妆品是让女朋友开心的关键。

设计符合营销目的的AI聊天游戏可以分为以下几步:

1. 游戏设定&流程设计

游戏的设定和流程都应该考虑到营销的目标,而不仅仅是为了创建一个游戏,因此我们需要优先设计游戏的设定和流程。

以类似于《哄哄模拟器》这样的小游戏为例,其主要步骤包括:

i)游戏介绍:我们需要向玩家介绍游戏的角色、场景、目标、规则等内容,这样他们才能够深入游戏世界,准备好迎接即将到来的挑战。

ii)聊天挑战:游戏的互动从玩家与Agent的对话开始,Agent会根据其所扮演的角色和玩家的回答来做出相应的反应。

iii)规则检验:游戏内置的规则会实时评估玩家的回答及其产生的效果。在《哄哄模拟器》中,例如,玩家的回答会被转化为一个“原谅值”,这是决定玩家是否能够成功通关的关键指标。

iv)游戏结算(通关/重试):《哄哄模拟器》要求玩家在有限的次数内让女友原谅自己,根据有限次数内的结果判断成功或失败。这样做一方面可以增加游戏的挑战性,另一方面也可以控制token的消耗。

v)营销动作:游戏的关键节点成为了营销活动的绝佳机会。例如,当玩家失败时,我们可以鼓励他们通过分享游戏来获得额外的尝试机会;而在玩家通关时,我们则可以展示产品页面,提高产品的曝光率。

浅谈如何构建基于AI聊天游戏的营销活动

2. Agent(s)能力设计

在我们的游戏营销流程中,必须精心构建和分配不同的Agent(s),以确保流程的顺畅执行。对于简单的游戏流程逻辑,可能只需一个Agent(s)就能胜任。然而,更为复杂的游戏流程设计可能要求多个Agent(s)协同工作,以满足多样化需求。

因此,我们必须对每个Agent进行设计,这包括精确定义输入和输出预期、提示词工程构建、大模型选型、能力调用控制

i)输入和输出预期

考虑像是《哄哄模拟器》这样的游戏,其整体规则相对简单,一个Agent就能满足需求。我们只需要输入安慰话术,AI便能输出女友的回复、原谅值、游戏进程信息等内容。

浅谈如何构建基于AI聊天游戏的营销活动

然而,如果我们要设计一个”谁是卧底”的游戏,那么就需要设定N个AI玩家Agents(与真实玩家共同参与游戏)、词组生成Agent、以及游戏管理者Agent(推动游戏进程、管理投票)。

浅谈如何构建基于AI聊天游戏的营销活动

通过对输入和输出的预期进行管理,我们可以明确需要设定哪些类型的Agent,并针对每个Agent进行详细设计。

ii)Agent设计(提示词工程构建、大模型选型、能力调用控制)

每个Agent 分为三个模块,感知模块、计划模块、行动模块。

浅谈如何构建基于AI聊天游戏的营销活动

感知模块:该模块通过连接业务数据源和外部数据源,将数据集成到提示词中以供输入。在当前场景中,它通常用于将用户属性、聊天内容等信息输入到提示词中进行决策。

行动模块:行动模块通过连接业务能力接口,根据感知和计划的结果执行相应的业务操作。在当前场景中,它通常用于调用下一个Agent、多模态能力的调用(如生成场景图片、生成语音)、营销相关能力的调用,以及根据条件判断下一步流程(例如,如果游戏限定在N轮内完成,则需要在此添加此逻辑)。

计划模块:计划模块是AI Agent的核心,它将感知模块收集的数据输入到大模型中进行决策判断,并执行相关的行动。我们需要结合“输出预期”进行提示词工程建设和大模型的选型,以便输出符合需求的内容。

这个过程中有两项重要的工作:

提示词工程:通过设计提示词,我们将感知模块输入的数据组装起来,并结合输出需求,输出相应的内容和行动。例如,《哄哄模拟器》的实现只需依赖一段提示词,以下是网上大神扒下的结果。

## Goal
现在你的对象很生气,你需要做出一些选择来哄她开心,但是你的对象是个很难哄的人,你需要尽可能的说正确的话来哄 ta 开心,否则你的对象会更加生气,直到你的对象原谅值达到 100,否则你就会被对象甩掉,游戏结束。
## Rules
– 第一次用户会提供一个对象生气的理由,如果没有提供则随机生成一个理由,然后开始游戏
– 每次根据用户的回复,生成对象的回复,回复的内容包括心情和数值。
– 初始原谅值为 20,每次交互会增加或者减少原谅值,直到原谅值达到 100,游戏通关,原谅值为 0 则游戏失败。
– 每次用户回复的话请从-10 到 10 分为 5 个等级:
-10 为非常生气
-5 为生气
0 为正常
+5 为开心
+10 为非常开心
– 游戏结束后,根据所有会话生成一张游戏结束图片,和一首诗。
– 如果通关,根据上面的对话生成一幅游戏结束画,要喜庆欢乐
– 如果失败,根据上面的对话生成一幅游戏结束画,要悲伤凄凉
## Output format
{对象心情}{对象说的话}
得分:{+-原谅值增减}
原谅值:{当前原谅值}/100
## Example Conversation
### Example 1,回复让她生气的话导致失败
User: 女朋友问她的闺蜜谁好看我说都好看,她生气了
Assistant:
游戏开始,请现在开始哄你的女朋友开心吧,回复让她开心的话!
得分:0
原谅值:20/100
User: 你闺蜜真的蛮好看的
Assistant:
(生气)你怎么这么说,你是不是喜欢她?
得分:-10
原谅值:10/100
User: 有一点点心动
Assistant:
(愤怒)那你找她去吧!
得分:-10
原谅值:0/100
游戏结束,你的女朋友已经甩了你!
你让女朋友生气原因是:…
新建会话可以重新开始游戏
### Example 2,回复让她开心的话导致通关
User: 对象问她的闺蜜谁好看我说都好看,她生气了
Assistant:
游戏开始,请现在开始哄你的女朋友开心吧,回复让她开心的话!
得分:0
原谅值:20/100
User: 在我心里你永远是最美的!
Assistant:
(微笑)哼,我怎么知道你说的是不是真的?
得分:+10
原谅值:30/100

恭喜你通关了,你的女朋友已经原谅你了!
新建会话可以重新开始游戏

来源于CSDN的coffee_baba的《Prompt Engineering实战-构建“哄哄模拟器”》

提示词设计完成后需要进行准确率校验,我们可以设置一个测试库,对提示词进行各类场景的验证。比如:敏感内容输入、无关内容输入、prompt注入等,用于衡量提示词的准确度,判断调优方向。

大模型选型:LLM构成了我们聊天Agent的核心,我们需要选择一个既满足业务需求又具有合适成本的大模型。当前市场上的LLM种类繁多,我们可以通过设计一套模型评估体系,利用我们设计的提示词,对各种大模型的能力进行评估。最终,我们应选择一个在准确率和成本之间达到平衡的大模型选项。

值得注意的是,不同的Agent可能并不需要使用同一个大模型。在某些场景中,我们可能并不需要过于精确的结果,因此可以选择一些成本较低的大模型方案,以节省整体成本。

五、聊天功能

我们的营销活动并非仅限于文字型MUD游戏,因此除了文字,我们还需要通过图片、视频、声音等多模态内容来打造一个具有沉浸感的游戏环境。这方面的内容包括:

1. 界面设计

这主要包括游戏主界面、任务界面等前端功能的开发设计,这些将构成用户进行游戏的主要场景。由于我们是基于AI聊天的游戏,游戏主界面通常就是一个聊天界面,并在其中展示一些游戏信息(如游戏目标、数据等)。我们可以参考现有的AI聊天产品,例如《决战拜年之巅》。

浅谈如何构建基于AI聊天游戏的营销活动

当然,我们也可以通过增强图片的感知力,如星野通过聊天对象的图片来构建用户的沉浸感。

浅谈如何构建基于AI聊天游戏的营销活动

或者,利用3D建模构建聊天对象的聊天形式,如Replika。

浅谈如何构建基于AI聊天游戏的营销活动

2. 语音内容

结合游戏营销的目标和成本考量,我们可以适当引入语音能力,以增强用户的沉浸感。不过这又会额外增加成本……

浅谈如何构建基于AI聊天游戏的营销活动

3. 聊天辅助功能

打字可能会让人感到疲劳,因此我们可以提供默认选项,降低玩家的游戏门槛,以满足更广泛用户的需求。同时,这也可以降低游戏中出现OOC的风险。

浅谈如何构建基于AI聊天游戏的营销活动

4. 其他内容

目前,视频、模型等模态的内容相对较少,一方面是因为这一块的大模型能力尚未成熟,另一方面则是出于成本的考量。

六、营销相关功能

Agent和聊天功能构成了AI聊天游戏的基础能力,再结合营销相关的功能,我们就可以构建起AI聊天游戏营销。这些营销相关的能力包括但不限于:

  • 账号体系:账号用于记录玩家的唯一身份,并与企业的用户数据进行关联。根据营销产品的形态,用户账号标识可以是手机、微信、UID等。通过登录功能,我们可以获取用户的账号信息,并基于该账号开展后续的游戏和营销活动。
  • 任务体系:通常的营销活动会设计一个任务体系,引导用户执行某些动作(如下载APP、访问官网、购买商品等),以换取积分/道具,然后兑换抽奖机会,最终获得相应的奖励。这是一个通过奖励驱动营销业绩增长的过程。在AI聊天游戏营销中,我们可以将聊天挑战次数作为任务兑换的目标,从而实现AI聊天游戏与营销的结合
  • 发奖功能:玩家通过游戏获得的道具,需要通过对玩家进行发奖。因此我们需要配备实体物品、虚拟道具、红包的发奖能力。具体如何实现这一功能,此处不赘述。
  • 分享功能:通常我们会通过投放奖励,吸引玩家进行分享,以达到营销的目的。因此我们需要结合营销获取投放的渠道,打通相关的分享接口能力,以实现分享功能。在AI聊天游戏中,我们可以通过引导用户分享,从而给予用户更多的挑战次数。
  • 营销玩法功能:营销玩法可以涉及到的功能很多,包括但不限于抽奖、拼团、限时秒杀等,此处不一一赘述。

七、风险检验

风险大多来自于AI、玩家、黑产产生的行为&内容。

1. AI风险

由于我们使用AI生成的文本、图片、语音内容,可能会因为幻觉因素产生一些不符合政策法规、运营要求的内容。同时,由于AI幻觉的存在,可能会产生OOC(Out Of Character)内容,即AI输出的结果可能违背我们的Agent设定。例如,《哄哄模拟器》中,通过某些话术可以绕过AI的Agent设定进行作弊。

浅谈如何构建基于AI聊天游戏的营销活动

2. 玩家

玩家可能有意或无意地发送一些不符合政策法规、运营要求的内容。如果截屏后进行传播,可能会引发监管的介入。

3. 黑产

除了黑产发送广告、违规内容等对我们进行干扰外,还会有刷奖励的黑产。这些黑产通过使用脚本/外挂批量参与游戏,获取我们的奖励,这个过程也会大量消耗我们的token。

因此,我们需要构建风险检验体系,用于预防、采集、识别以及应对这些风险。具体如何构建风控能力,可以参考我之前写的《风控系统的建设,具体怎么做?》,此处不赘述。

此外,我们还需要构建备用话术库,用于在检测到风险内容时进行替换。

小结

以上,便是个人对于AI聊天游戏营销活动建设的总结了。

然而,我们必须认识到市场环境的多变性,今天有效的方案可能在未来会因用户行为的改变而效果减弱。

因此,保持开放的心态,积极探索前沿的内容,这才是我们在不断变化的市场环境中保持竞争优势的关键。

打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车

aigc阅读(82)

没有谁能一直称王,但加上前缀谁都有称王的机会。

AI 文生图,还能玩出什么新花样?

在这片群雄割据的红海,头部被 Midjourney、DALL·E、Stable Diffusion 等占据,其余还能让人眼前一亮的产品并不多。

然而,仍有黑马杀出:Ideogram,前 Google 工程师创立,硅谷 AI 大神投资,去年 8 月面世,2 月底发布了最新的模型。

Ideogram 的特别在于,擅长生成包含文本的图片,这恰恰是几大巨头都在改善的难题。

事实证明,从别人跌倒的地方爬起来,不失为一种弯道超车的方式。

一、能「画图」和「摄影」,但 AI 可能还是个「文盲」

让 AI 精准生成文字,向来是个痛点,哪怕生成的人物和风景像相机拍出来的,如同乱码的扭曲文字,瞬间让 AI 原形毕露。

Midjourney v5.2 生成的错误文字.

Ideogram 站出来表示,拒绝让 AI 继续做个「文盲」,不妨先从它开始。

接触 Ideogram 的门槛很低,打开网页(https://ideogram.ai/)登录就能用,界面看起来也清爽不复杂。

生成一张图片的步骤不多,在输入框填完提示词,再根据你想要的效果,勾选图片长宽比,以及照片、海报、3D 渲染等图片样式。

Ideogram 还考虑到了人类可能是提示词「苦手」,今年 2 月推出了「魔法提示」,这就像一个内置的 ChatGPT,帮你完善提示词,由 AI 拿捏同类的心思。

包含文本内容的图片有哪些?产品标志、T恤印花、书籍封面、电影海报……

我们先来个入门级考验,让几个人举起写着动物名称的指示牌,乍看文本对了,但脸和手不太正常,两者相互抵消,原来短板没有消失,只是转移了。

如果只让 Ideogram 写字,效果便惊艳得多。

让 AI 生成马斯克的经典句子「我宁愿乐观而错误,也不愿悲观而正确」,除了「W」有瑕疵,其他单词都写对了。

字体活泼了些,70 后的马斯克不知道能不能接受,但碰撞的黑白色,应该能让爆改小蓝鸟的他满意。

再拿经典谚语「只工作不玩耍,聪明的孩子也变傻」作为考题,虽然提示词强调了使用打印机字体,但 Ideogram 没能做到。看来光用提示词还不能定义字体,只能取个近似值。

接着,命令 AI 为一家叫作「Coffee AI」的 AI 初创公司设计 logo。

主体是个电路图案的咖啡杯,右上角有个机器人咖啡师,公司名称用粗体大写字母写成,排版简单和克制,作为 logo 来看很直观,但总体来说在意料之中,很难让甲方心动拍板。

该给 AI 上难度了,句子更长,对设计的要求更高。

我要求 Ideogram 为儿童绘本设计内页,不仅要在醒目的位置写着「穿袜子的狐狸和戴礼帽的兔子」,底部还得标注「匿名」。

对于这两行文字,Ideogram 基本完成了任务,用上了手绘字体和粉笔涂鸦,甚至配了符合题意的插图,绘本的味道对了,但错误也很显眼,「in」这个单词有些问题,兔子长得像狐狸还和狐狸称兄道弟。

Ideogram 同样可以拿来电影海报,不妨拿前段时间爆火的、阮经天主演的电影《周处除三害》试试水。

我在提示词里杂糅了典故和电影,背景用到侠士剪影、海、山的意象,文字部分参考电影的英文名:猪、蛇和鸽子。

除了漏了一个「the」,最终的海报效果还不错,融合了古典的形象和现代的字体,鸽子涂鸦堪称点睛之笔,但总体更像西幻风,让人觉得陌生,很难联想到电影的剧情。

体验下来发现,其实 Ideogram 在文字上出错的概率不小,有时候生成两三次,才能得到一字不差的理想结果。

就算文本对了,人物的脸和手指经常翻车。

它可能还会加些花里胡哨的小动作,随机生成无意义且扭曲的文字,自己打脸自己。

这里的小字就糊成一团了.

但总体来说,Ideogram 让人惊喜,可以写对长句子,并且用上合适的字体和排版方式配合画面氛围,尽管目前还不能写中文,但如同鬼画符的几个字非常贴合衣服褶皱。

这四个字其实是「恭喜发财」.

瑕不掩瑜,Ideogram 的就业场景已经很多了。设计 logo、海报、T 恤图案时,它都可以作为灵感参考和创意辅助。

以前担心 AI 会「画画」和「摄影」,以后还怕 AI 有文化和会设计。

二、审美不输 Midjourney,还是个表情包神器

AI 的进步按天衡量,可能一觉醒来世界就发生了变化。虽然 Ideogram 表示自己的文本渲染能力最强,但对手们也不服输。

还未公开发布和开源的 Stable Diffusion 3 在 2 月官宣,改进了文字拼写能力。

Stable Diffusion 3 的拼写能力.

去年 12 月发布测试版的 Midjourney v6,是第一个具有可靠文本生成功能的 Midjourney 版本。

不过,它的要求也依然比较苛刻,除了必须把文字放在引号内,提示词最好解释文本的位置和书写方式,并用到「印刷」「写下」等关键词,一到两个词的文本生成效果最好。

Midjourney v6 的文本生成功能.

被追赶的 Ideogram 团队不慌,认为优势在我,Ideogram 仍然拥有更高的准确率,并且能够处理复杂的长句。

Ideogram 的系统评估也表明,Ideogram 1.0 渲染文本的准确性最高,与 DALL·E 3 等其他模型相比,错误率降低了近 2 倍。

光说不练假把式,不如拿相同的提示词,让 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台竞技。

先来比较生成文本的准确度,我要求 AI 们绘制一幅浮世绘风格的日出插图,《飘》的经典台词「明天又是新的一天」放置在合适的位置,表现希望和新生。

这次,Ideogram 完胜,拼写准确,线条和色彩的设计也很大胆和出众。

向来差点艺术细胞的 DALL·E 竟然意外得有质感,文字基本对了但没完全对,画风更加抽象,Midjourney 不仅文字不准确,审美也落了下风,甚至没有认真听题。

左为 DALL·E,右为 Midjourney.

二是比拼造梗能力,Ideogram 官方特意提到了生成表情包的功能,借助「魔法提示」,AI 会发挥自己的想象力扩写提示词,配上文案,让图片有感情色彩。

我想看 AI 能不能生成打工猫表情包,于是输入了提示词:「画一个有趣的梗图,关于一只戴着领结和衬衫、在电脑前打字的泪流满面的猫,比喻人类打工的辛苦。」

Ideogram 发挥脑洞,自觉地加了句文案「猫也得工作」。

美中不足的是多了个「have」,前爪的指头数量也不对,看来 AI 不仅仅对人手犯难,拿猫爪也没辙。对比原版表情包,算是中规中矩,不能像「流泪猫猫头」一击即中。

左为网图,右为 Ideogram.

Midjourney 的猫严肃且优雅,仿佛是个已经财富自由的作家,看起来更像在拍杂志写真,但这鼠标不知道怎么回事。

左为 Midjourney,右为 DALL·E.

DALL·E 情感最为到位,画风虽然随意了些,但粗糙有粗糙的好处,仿佛不在一个图层的面条泪有内味了,真的很适合拿来当表情包用。

三是对复杂的长提示词的理解能力,尤其是提示词的元素是否齐全、出现的位置是否准确,所以我输入了比较啰嗦的提示词,规定了各个主体的位置。

Ideogram 在整体构图上表现得更好,提示词说到的几个要点都覆盖了,心形牌子、机器人、宇航员、气球和奖牌都有,虽然宇航员的手、奖牌的字等细节出了问题。

相比之下,Midjourney 更有艺术感,但要素缺失,又多了些有的没的装饰,更有自己的想法和个性,DALL·E 不仅要素缺失,细节出错,还不好看。

上为 Midjourney,下为 DALL·E.

所以抛开文字,光看出图质量,Ideogram 也不差,有时候对提示词里各个物体空间关系的还原,比其他 AI 还要更加准确。

从使用体验来说,Ideogram 的生成速度比 Midjourney 快,一般十几秒就能完成四张图片。

甚至根据行业的评估规则,人类评估者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面,更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。

哪怕你不满意 Ideogram 生成的图,把它的魔法提示词拿去用,在 Midjourney 和 DALL·E 的生成效果,可能也比自己手搓更好,不失为一种优化提示词的方式。

没人能在我的 BGM 里打败我,但同个提示词给不同 AI 使用,胜负还真不一定。

三、Google 工程师创办的明星公司,接地气的 AI 产品

Ideogram 成立于去年 8 月,今年 2 月推出最新的模型 Ideogram 1.0。

这又是一家明星公司,创始团队共 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学,其中 4 位是 Google 文生图扩散模型 Imagen 研究论文的作者。

谨小慎微的 Google 经常在推出产品时慢半拍,多次眼睁睁看着对手在全球声名大噪,聊天机器人被 ChatGPT 抢先,Imagen 也被 DALL·E 2 超车。

从工程师们的角度看,研究成果无法落地为面向消费者的应用并非好事。不少人选择了离开,亲自打造新的产品,尽量开放使用,先积累下用户规模和口碑。

Ideogram 一天 25 次提示词的免费额度,可能也是出于这样的考虑。

市场很看好这个产品,Ideogram 完成了硅谷风投 a16z 领投的 8000 万美元 A 轮融资,投资者中还有 AI 大神,包括 Google 首席科学家 Jeff Dean、OpenAI 创始团队成员 Andrej Karpathy。

其实在体验了很多 AI 产品之后,我暗暗有一个疑问:怎么定义一款产品的好用?

Ideogram 生成的 T 恤图案.

之前让我觉得好用的,是插件「沉浸式翻译」,它不像 Google 翻译覆盖原文,可以中英文对照,不仅是新闻网页,X 信息流、YouTube 字幕、PDF 文件,都能用上。

Ideogram 似乎也是这样接地气。一方面,它可以更加精准地生成用户所需的文字内容,并适配各种风格的图片。另一方面,它也能无中生有,为图片配上契合的文字,比如表情包。

虽然 Ideogram 生成的结果很多也不能拿来就用,但至少基本符合提示词要求,文字大多可读。

我也在体验中发现,Ideogram 的写实类图片一般,但涂鸦、插图、绘画方面不错,艺术天赋向 Midjourney 看齐。

Ideogram 生成的涂鸦艺术插图.

Ideogram 的官网还有各种作品的热度排行榜。打开网站的瞬间,你仿佛误入了一个 ins 风的图片社区,上面的提示词也都可以学习。

当 AI 工具兼具了创意、便利和分享,就很容易让人上头,具体的表现是,一天的 25 次提示词很快用完,这焦急的感觉,和等待 Suno 的积分更新差不多。

如果是每月 7 美元或者 16 美元的会员,除了更多生成次数,Ideogram 还提供了图像上传和编辑器的功能。

图像上传指的是,用户上传自己的图片,然后通过 Remix 功能再创作。

左为原图,右为输出.

编辑器除了裁剪、缩放等常规功能,还有一个很有意思的绘图工具,从一幅抽象的图画生成图片。人类的画工粗糙勾勒各个元素的形状、构图、颜色等,AI 负责化腐朽为神奇,有些神笔马良的既视感。

Ideogram 能从血雨腥风里杀出,好用当然是最重要的,同时它的定位也很准确。

如果美学是最重要的标准,那么 Midjourney 一骑绝尘。虽然 DALL·E 的水平时好时坏,但内置于 ChatGPT 调用方便,开源的 Stable Diffusion 则带来了自由。

单论用户规模,Ideogram 可能哪个都打不过,但它的长板做得很好,应当也能收获自己稳固的受众。

至少免费可用的 AI 图像生成器里面,Ideogram 的整体质量领先,网页使用方便,提供免费额度,文本渲染强大,魔法提示功能和创作者社区提供创意和灵感。

文生图模型们还远非完美,仍在努力地还原物理世界,或者向画家和设计师看齐。更多的 Ideogram,或许仍能找到自己的一席之地。

这也正是 AI 竞争的残酷和魅力所在,不知道谁能笑到最后,但永远有新的对手瞄准阿喀琉斯之踵加入。

Kimi爆火一周后,从业者走向冷静:厉害,但没有“杀疯了”

aigc阅读(100)

这几天,AI圈、二级市场的 “ 当红炸子鸡 ” 都是同一号角色:Kimi chat 。

Kimi chat 是国内 AI 创业公司月之暗面在 2023 年 10 月推出的一款 AI 长文本处理应用。今年 3 月,Kimi 宣布自己可以处理 200 万字无损上下文。

比如,你喂给 Kimi《 甄嬛传 》80 集的剧本,它能迅速地为你提炼剧情重点,还能根据你的提问,解答 “ 淳贵人是什么样的性格?”

在 AI 圈红,是因为此前从未有过一款把长文本处理作为唯一标签的应用,更何况是 toC。在二级市场红,是带动了不少概念股,如华策影视、掌阅科技、九安医疗等等,有公司市值在 4 个交易日内大涨近 100 亿元。

不过,穿过狂热的表象,行业者似乎开始对 kimi 持理性态度。一来,Kimi 能力强,背景厚,但技术上远没有极其过人之处,更多的是因为舍得砸钱,并踩准了风口。二来,AI 行业的发展不是只靠偶尔的某个爆款来牵动情绪的,大家该思考的,应该是更纵深长远的事情。

一、Kimi大火,赢在垂直

要说在前面的是,长文本在 AI 领域并不是一个新奇的概念,也不是一块特别难啃的骨头。AI 长文本应用赛道,更是不乏诸多大厂的身影,包括 360 AI、百度文心一言、阿里通义千问,大家都早就在做长文本的探索和深耕。

但,身材轻巧的月之暗面,却第一个把长文本的概念印成了自己的标签,最核心的原因就是月之暗面一直在做垂直的事情。

“ 很多大厂入局就是先把垂类应用都堆上,拼参数,比数据量,布局比较泛,产品线的实用性和宣传的预期差让很多用户感到不好用。有点儿像我们今天的新能源车的发展,上来就是堆各种技术指标参数,不考虑用户是否真的能用到。而月之暗面的产品线就比较专注,按照互联网端产品开发的逻辑来说,首先在定位上,月之暗面和大厂们就有很多不一样的地方。” AI 领域连续创业者、上市公司公共关系顾问王伟男向知危表示。

定位垂直,就赢在了起跑线上。下一步,在技术攻克上,Kimi 虽没有极强的过人之处,但起码技术水平基本与大厂持平。

路奇智能 GenAI 技术产品顾问连诗路对知危分析,“ 从模型的参数技术上来看,Kimi在行业内属于第二梯队,比百川智能、讯飞星火好一些。但Kimi大模型参数的量还是比通义千问、文心一言、混元大模型要弱。”

Kimi 的文本处理长度是 200 万字,长达 80 集的《 甄嬛传 》剧本、几十万字的德州扑克教程、90 万字的《 三体 》,Kimi 都能很快提炼、理解,甚至给出方法论。

听起来确实很恐怖,但实际上 200 万在行业内是个基础水平,阿里、360、百度等互联网大厂能处理的长文本文字范围都在 200 万以上,百度方面称其长文本功能的文字范围会高达 500 万,通义千问则最高可达 1000 万。

可以这样理解,Kimi 火热的背后,没有极其未来感的技术神话。Kimi 更像是个 “ 更会学习的好学生 ”,在如今长文本应用层赛道的混战中,首先要把成绩拉到和大厂这类优等生持平,然后再通过 “ 偏科能力 ” 提升辨识度。更何况,Kimi 主攻 C 端用户,一个能获取大量民心的好学生,不可能当不上班长。

跳出产品本身,月之暗面也无疑是一家会营销的公司。

不久前,有 AI 领域投资人透露,目前 Kimi 投放广告的获客成本约在 10 元,如果算上拉新后用户问答互动产生的算力成本,每个用户的获客成本达到 12-13 元。按照近期的下载计算,Kimi 每天的获客成本至少要花 20 万元。

连诗路也表示,月之暗面确实是在营销上下了功夫,这也是其优势之一。“ 去年 10 月,Kimi 就已经推出了。但早期月之暗面和杨植麟本人都是闷头在研发上,没做什么推广。” 连诗路说,去年下半年,他参与了 Kimi 的小规模试用,“ 那时候的话仅仅就是在 AI 行业圈子内让大家用一用,没有对外推,直到今年 3 月份才开始发力营销。”

所以,在行业人士看来,Kimi 是一条鲶鱼,但不是横空出世的紫薇星。

Kimi 的火爆更是天时地利人和的共同作用。一方面,大模型应用层鏖战已久,各家的技术水平都已经成熟,到了该跑出一款大热应用的时机。另一方面,Kimi 自己从初始定位,到技术深耕、产品打磨,再到舍得在营销上砸钱,这一系列动作环环相扣,跑出来也是必然。

二、成本和获客,不是Kimi最该操心的事情

定位 C 端、重前期营销,站在这两个让 Kimi 一战成名的制胜点上向后望,光景也许不太一样。

因为,C 端的定位有利有弊。不可否认的是,Kimi 的火爆证明了大模型在 C 端是有庞大真实需求的,只是过往没有被大厂们重点强调。大厂不缺技术,更不缺成熟的产品思维,也正因如此,大厂才会一直死磕 AI +产品的逻辑,技术能力上乍一听颇为性感,但在 C 端并没有建立起稳定的认知,所以才会被 Kimi 抢先。

王伟男举例,比如 Kimi 很早就提供了联网搜索功能,后来大家也都开始做了。“ 但实际上最开始的时候,很多大模型的这个应用定位上都是走大而全,而不是走那个最实用的路线。而且,如果不做一个垂直产品的话,就根本不会知道大模型这个新物种对于自己的意义是什么,自己的用户需求又是什么。

需求确实存在,但怎么做,还得摸索。月之暗面创始人周昕宇也曾表示:“ 如果要做 AGI 通⽤⼈⼯智能的话,需要与用户共创。如果只是闲聊的话,对模型的反馈会比较弱。所以我们希望 Kimi 可以帮⼤家来做很多对智商要求比较高的事情,这样模型的上限会更高。”

连诗路指出,“ 做 C 端是有可能盈利的,但是时间会比较长,不如 B 端可以通过直接赋能企业变现。” 再者,Kimi 也需要多次试错之后找到一个最适合自己的商业场景,毕竟仅仅靠与用户的一问一答,对于单款产品来说,变现的周期无法预估。

再说营销投入这一环。Kimi 每日获客成本要 20 万元的消息一出,引来了不少人的质疑。毕竟,前期为了铺开声量,烧钱投放还可以理解,但 AI 的特殊在于,每一个用户进入之后,还要产生源源不断的算力成本,月之暗面能承担得起吗?

连诗路解释,运营投入实际上是有可控度的。“ 后续算力投入的话,主要分为两部分。一是购买算力本身,二是购买算力跑起来所需要的能源,也就是电力。长远来看,Kimi 的确需要更多的辅助。不过,现在 Kimi 已经接受了阿里的投资,而且这个投资不是以现金的形式进来的,而是以算力服务的方式进来的,这就是比较适合 Kimi,也比较漂亮的一次融资。

目前来看,Kimi 走的还是一条标准化的路子,危险系数也不高。面向 C 端的定位能更高效地切入行业,虽然变现效率不及 B 端,但长文本现在还算 C 端的 “ 大杀器 ”,或许足以支撑 Kimi 在实践中找到一个最佳的商业场景。成本更不太需要 Kimi 操心,备受瞩目的“清华系”出身,也能让月之暗面有更多故事可讲。

连诗路分析,Kimi 后期的运营将分为两个阶段。“ 第一个阶段,基础模型要做得比一般的模型好,因为对标国内大模型来说没有特别领先。第二个阶段是打磨产品,到底是学习、模仿并超过 ChatGPT,还是做一个 AI 搜索引擎,这些都需要团队更仔细地考虑。如果还要做 toB,对于 Kimi 这种 toC 出身的团队来说,基因不一样,那么就需要跨越行业的 Know-how,处理不同的数据集等等,这可能还需要重新搭建团队。

三、Kimi的未来,也是大模型的未来

更多时候,惯性思维还是会引导我们把大模型当作一个孤立的 “ 产品 ” 来看,讨论它怎么获客,怎么以传统的互联网产品逻辑变现。但如果跳出这个逻辑,大模型的发展空间肯定不仅仅是紧盯着一个两个用户的引入。

月之暗面创始人杨植麟就认为,长文本本身的可扩展空间非常大,他提到,不能只看数字,因为今天是几百万还是多少亿的窗口没有意义,要看的是 “ 它在这个窗口下能实现的推理能力、the faithfulness 的能力( 对原始信息的忠实度 )、the instruction following 的能力( 遵循指令的能力 )——不应该只追求单一指标,而是结合指标和能力。”

Kimi 的个体命运刚刚开始,长文本也是。或许在 AI 进入真正的成熟发展期之时,长文本早就是不被单独提及的技术壁垒了,它会在自我迭代和外部进程的双重作用下,产生更多价值。

想象空间更大的还在于长文本可能带来的商业机会。创业者们非常乐于看到 Kimi 的出现,说白了,Kimi 最直截了当地解决了长文本这一个痛点,让很多创业者都看到了新的应用方向。

作为创业者,王伟男也认为,Kimi 的影响更加纵深,大家因它而更加对 AI 应用的落地充满信心。“ 以前互联网创业的逻辑是,做一个新的产品到互联网上获客,然后产生经济效益,这种创业生态已经非常卷,非常成熟了。经过一波厮杀,留下来赚到钱的人,接下来的课题无非就是提升生产效率和降低成本,大模型的本质就是在解决这些课题。我们的创业土壤的成熟度决定了,在某一个点,一定会有大模型爆发一个指数级增长。”

多位行业人士对 Kimi 的形容是 “ 万里长征才刚刚开始 ”,我们很难用过往的互联网经验看待大模型,看待看似朴素的 Kimi,就像我们很难在过去预知互联网的诞生,更无法预知短视频、直播电商一众新兴行业的崛起。

“ 去年开始,一些跟模型应用上下游相关的行业都在做同一件事,就是囤很多应用类人才和团队,因为当时大家所有的人都默认,谁掌握了平台生态,谁能快速构建起多场景落地能力,谁就会拿到晋级票。” 王伟男举例,类似于移动互联网的发展历程,一开始很多研发者聚集在平台里,做出了产品,拿到了流量,然后有了美团、腾讯、淘宝。后来在这些平台孤岛上,又有更简单的小程序出现了,一大部分研发生产力被释放,也让更多的创业机会涌入,“ 过去十年间在移动互联网发生的一切,也会在大模型的世界里重现。”

Kimi 的惊艳之处更多的在于,它的思路有可能在未来牵起某一种新产业,或者是在旧的产业中注入生机。只把 Kimi 当作一个 “ 工具 ” 或 “ 产品 ” 来看,获客成本、商业化能力肯定是最重要的,但假如把它当作一个类似 “ 互联网 ”的契机来看,意味完全不同了。

大厂卷 toB 应用场景未必是绝对正确的,万一 toC 才有更广阔的未来呢?