欢迎光临
我们一直在努力

揭秘Midjourney的两大功能碰撞

aigc阅读(165)

Midjourney是一个强大的文本到图像的人工智能模型,它允许用户通过输入文本提示来生成独特的图像。Midjourney使用两种不同的参考方式来帮助用户控制图像的生成:sref和cref。

下面来分别介绍下–sref和 –cref的区别和使用方法(注意:–cref和–sref目前只适用于 niji 6 和 v6 模型。)

一、sref功能介绍

sref(style reference)是一种参考方式,它允许用户指定一个或多个图像作为风格参考。Midjourney将使用这些参考图像来帮助生成具有类似风格的图像。

sref风格介绍

sref可以用来控制图像的整体外观和感觉。例如,你可以使用sref来生成具有以下风格的图像:现实主义、超现实主义、抽象主义、表现主义、印象派、野兽派、立体主义、达达主义、超现实主义、波普艺术。

二、cref功能介绍

cref(content reference)是一种参考方式,它允许用户指定一个或多个图像作为内容参考。Midjourney将使用这些参考图像来帮助生成具有类似内容的图像。

cref的工作原理与垫图(image prompt)较为相似,都比较注重图片特征,不过最大的区别是sref生成的是相同风格,垫图是基础创作。

cref风格介绍

MJ官方表示cref这个功能更适合用于动漫或游戏,相对来说人物不大适用与真实照片cref可以用来控制图像中包含的内容。例如,你可以使用cref来生成包含以下内容的图像:动漫及游戏人物、动物、植物、风景、建筑、交通工具、食物、物品。

三、cref基础使用方法

首先我们点击左上角➕上传一张或多张图像,这里我们选择的用人物图像去生成,选图需注意:选择一张清晰、正脸或者侧脸、光线较好、最好不遮挡五官的真人肖像照片作为角色参考,点击发送,用imagine输入提示词和尺寸后加上–cref URL 并输入图片的地址,再使用 –cw 来调试参数配置,切记–cref 目前只适用于 niji 6 和 v6 模型。

默认的参数是100(–cw 100),如果追求与图片相似度极高可将参数调(–cw 80到–cw 100),如想更加贴合关键词描述生成,可拓展性更强些可将参数调(–cw 0到–cw 30),–cref对人物发饰和服饰还原度能更高些不过对于面部、五官并不能百分百的还原,不过办法总比困难多,经过反复测试我发现可以通过对该图的面部特征进行详细描述还是可以有效提升人物的面部相似度。

此外参考图像的质量对生成图像的质量有很大的影响。因此,在选择参考图像时,请务必选择高质量的图像。高质量的图像应该具有以下特点:

  • 高分辨率
  • 清晰锐利
  • 光线充足
  • 没有模糊或失真

cref实例

(–cw0)时

The girl wearing a denim suit tied a ponytail –ar 9:16 –cref https://s.mj.run/s9ahb_ilI0s –v 6.0 –cw 0

(–cw50)时

The girl wearing a denim suit tied a ponytail –ar 9:16 –cref https://s.mj.run/s9ahb_ilI0s –v 6.0 –cw 50

(–cw100)时

The girl wearing a denim suit tied a ponytail –ar 9:16 –crefhttps://s.mj.run/s9ahb_ilI0s–v 6.0 –cw 100

关键词翻译:穿牛仔套装的女孩扎着马尾辫

不难发现(–cw 0)时生成的图像虽然还原度不是很高不过对关键词的描述还是很精准的。(–cw 100)时生成的图像还原度虽然很高不过对于关键词的提炼不够精准。(–cw 30到–cw 60)相对来说无论对图像的还原度还是对关键词的可控性能都能较稳定些。

四、sref基础使用方法

跟cref使用的方式相似首先我们点击左上角➕上传一张或多张图像,这里我们选择自己喜欢风格的图像去生成,比如赛博朋克风、波点风、像素风等,然后点击发送,用imagine输入提示词和尺寸后加上–sref URL 并输入图片的地址,切记–sref 目前只适用于 niji 6 和 v6 模型。

1. Sref高阶使用的方法

与cref步骤保持一致,只不过要在输入图片地址后面再使用 –sw 来调试参数配置,默认的参数是100(–sw 100),如果想关闭可将参数调至0(–sw 0),如果想将风格最大的强度还原可将参数调至1000(–sw 1000)。

2. Sref实例

(–sw100)时

Girl, wearing a beret, a windbreaker, cool boots, holding a baseball bat in hand –ar 9:16 –srefhttps://s.mj.run/KG-wdaBGNdo–v 6.0 –sw 100

(–sw500)时

Girl, wearing a beret, a windbreaker, cool boots, holding a baseball bat in hand –ar 9:16 –srefhttps://s.mj.run/KG-wdaBGNdo –v 6.0 –sw 500

(–sw0)时

Girl, wearing a beret, a windbreaker, cool boots, holding a baseball bat in hand –ar 9:16 –srefhttps://s.mj.run/KG-wdaBGNdo –v 6.0 –sw 0

关键词翻译:女孩子戴上贝雷帽身穿风衣,穿着炫酷的靴子手拿着棒球棒

(–sw 0)时生成的图像风格还原度不是很高不过对关键词的描述还是很精准的。(–sw 100)和(–sw 500)时生成的图像不但风格还原度很高同时也能对于关键词的提炼更加够精准。

五、cref与sref结合实例

Cyberpunk style, girl, wearing beret, windbreaker, cool boots, holding baseball bat in hand –ar 9:16 –crefhttps://s.mj.run/s9ahb_ilI0s–v 6.0 –cw 20 –sw 500 –srefhttps://s.mj.run/KG-wdaBGNdo

关键词翻译:赛博朋克风格,女孩戴贝雷帽身穿风衣,酷靴,手里拿着棒球棍

首先我们点击左上角➕上传一张或多张人物图像然后再上传一张参考风格的图像点击发送,用imagine输入提示词和尺寸后加上–cref URL 并输入人物图片的地址,再使用 –cw 来调试人物参数配置,再把参考风格的图像链接放入,再加上–sw调节风格的参数即可。上图是我测试的一个案例,整体效果还是非常不错的。

今天的分享到这里就结束了,总的来说sref和cref功能还是很强大的,需要大家多去练习,才能灵活运用到自己的工作场景中~

你在小红书上关注的美女博主,可能是AI

aigc阅读(153)

在近年来,虚拟偶像、虚拟主播(VTuber)似乎已经不是什么新鲜事,人们就算没有成为虚拟偶像的粉丝,也一定都曾听说过初音未来的名字。

只不过,一提及“初音未来们”,人们脑海里首先出现的标签或许还是“二次元”。但如今,在小红书等社交平台,一大批AI博主正凭借足以“以假乱真”的美图,吸引诸多粉丝。

她们往往在个人简介中标明“赛博天使”“没有感情的机器人”“AIGC生成”或“虚拟博主”,但仍有不少粉丝将其误以为是真人博主,更有人在评论询问“能否加个微信”。

事实上,不仅有赛博颜值博主,还有赛博萌宠博主,但背后的逻辑都是通过大模型生成统一形象在不同场景、不同穿搭下的不同类型照片。而随着流量涌来,赛博博主们也开始思考起自己的变现路。

一、粉丝过万、点赞上千,博主却是AI?

在小红书上,点开一位粉丝量过万的博主笔记:“在四十岁这个年龄,我们拥有着宝贵的人生经验,以及内外兼具的自信和美丽……”配图一张逼真的工作照。评论区的第一条便有人误以为真,问道“还招人吗?”直到有其他网友提醒“AI虚拟生成不知道啊?假的”,许多网友才恍然。

而另一位粉丝量超过两万的颜值博主,在个人简介里写明“赛博天使,我只是一个没有感情的机器人”,且在每篇笔记前标明AI二字,仍有不少网友难分真假,发出“这个模特好好看”的感慨,且有多篇笔记点赞量超过两千,目前所有笔记获赞与收藏量已经近八万。

再一位旅游博主,时而身穿露脐短袖出现在海边,时而一袭国风汉服出现在樱花下,又或者身着白色毛衣和毛线帽打卡餐厅,不仅穿搭和场景多变,发型发色和首饰等也常有变化,但“脸”始终是同一张脸。而这些笔记下,常有人发出疑问,“这真的是AI吗?”

小红书上的AI颜值博主

事实上,这些凭借颜值出圈的博主,无论是邻家少女,还是成熟女性,都是由AI绘画大模型生成而来,只是因为脸部参数相同,且穿搭多元,细节越来越逼真,加上背后的运营会为这些AI生成的形象塑造一个具体人设,便很容易被误以为是真人网红。以至于有网友调侃道,“AI越来越像真人,网红越来越像AI。”

除了有AI颜值博主,还有AI萌宠博主。

日前,在小红书上,一条标题为“会做饭的猫真的很加分”的笔记收获了2.8万赞和4000+收藏,这组由AI生成的图像中,一只小猫正爪握锅铲,做着一碗石锅拌饭。

而博主“橙子的橙啦”则专门发自己创作的AI猫猫,在小红书拥有5.7万粉丝,48万点赞和收藏,账号置顶的一条笔记中,一只胖乎乎的加菲正在cos《繁花》里的宝总,穿着西装吃泡饭。

小红书上的AI宠物博主

锌刻度搜索发现,在小红书上,类似于“橙子的橙啦”这样的AI萌宠博主并不少,名为“是壮壮丫”的博主主要发布一只名为“壮壮”的柴犬AI作品。

在这些AI绘画作品中,这只柴犬既会生病,也会逛街,还会上班。而当它生病时,评论区不乏“好好休息”“壮壮,姨姨好舍不得”的关心;当它出去买菜时,评论区则有人表示“记得买点肉肉吃”;而当它在洗碗时,网友们则立即夸奖它“不止听话,还很勤劳!”……

目前,该博主已有1.8万粉丝,获赞与收藏量超过十万。

二、赛博网红,何以变现?

当流量涌来,这些“赛博网红”也开始设法变现。

其中,AI颜值博主主要仍在培育自己的私域流量,在这些博主的主页,往往能看到其“群聊”入口,而群聊的目的通常是“拿原图”或“拿教程”。而博主“人工智颜”的账号介绍则写明“想要定制自己的写真照片、定制生成特定服装图等需求都可联系我。”

我们发现,AI写真私人订制是目前最主要的变现方式。“其实目前这个行业刚刚起步,客户还是不算太多,大部分客户也是出于好奇,会提出一些特定的服饰要求让我们生成图片。”小红书上一位AI画师告诉锌刻度,除此之外,也有一些客户是希望生成自己的AI写真照。

其中,小红书上一位长期发布AI美女写真的博主背后是一家摄影工作室。据其提供给锌刻度的详细价格表,基础套餐价格为:单人套餐为1000元一套,共8张精修照片,但仅限现有风格套系;定制风格为1500元一套,共8张精修照片,但其中包含500元定制费。除此之外,还可充值享优惠价,充值3000元可送一套。而这个价格甚至比市面上许多真人写真的价格更高。

一AI写真工作室提供的价格表

该工作室的客服告诉锌刻度,购买定制AI写真的流程是,“先发送10张左右你的照片,再说具体要求,然后付款,(我们会)48小时内出图联系你,再视频选片,最后精修你选的照片。”

其中,照片需要6张正面和4张其他角度用来建立脸部模型。而要求可包括胸围、偏好(性感,青春,御姐,萝莉)、头发(齐腰, 短发 ,刘海,发色)等等。

此外,该客服表示,“我们工作室是会员制的,提供一次脸模之后我们会为会员保留下来,如果整容了可以重新为会员免费练新脸模。”

此外,还出现了AI模特试装,以小红书上“图鱼家的AI工作室”这一账号为例,此前该博主曾发布多篇“AI模特在线营业”“AI模特试装营业日”的笔记,并表示“工作流越来越稳定了”。

尽管目前其仅有六百多位粉丝,但这在国外已有了成功变现的案例。

据报道,Clueless公司利用人工智能(AI)创造出来的模特和网红艾塔娜·洛佩斯。几个月前,她的月收入为4000欧元。日前,她在接受西班牙媒体的一次特别“采访”时说,现在她的月收入已达1.2万欧元。

除了颜值博主,AI萌宠博主同样在寻觅变现之路。

据青年横财发展会,从后台查询,AI宠物头部账号的广告报价不算便宜,5.5万粉的“橙子的橙啦”图文报价15000元,同样是5.5万粉的“空一凉”图文报价7700元。比小红书千粉百元的(粗略)报价方式高出不少。

从各个AI动物作者的笔记中时常可以看到产品露出,不仅有猫粮、猫罐头等宠物用品,也有眼镜、汽车、奶茶等。

不过,目前流量更多仍倾斜于头部账号,许多跟风而来的AI博主目前的粉丝和流量并不多,这也让赛道整体的变现路更困难。

三、高流量背后:低成本、低门槛、高风险?

据了解,目前上述AI博主发布的图片大多由海外AI画图程序StableDiffusion、Midjourney等生成,但也有部分博主开始使用国内的AI绘图软件或小程序。

“从大模型本身来看,算力要求很高,对于训练数据的数量和质量要求也很高,但是对于这些使用者而言,其实门槛是比较低的。”算法工程师郑义(化名)告诉锌刻度,一般而言,为了保证AI博主人设的统一性,创作者需要设定“用同一张脸”的参数,但不断训练和调试其他数据,从而生成不同场景、不同穿搭和不同妆容的图片。

而在AI颜值博主“cyberAngle”的笔记评论区,也常能看到运营者对此的讨论,当有人询问“有这个模型吗,有没有参数”时,博主也会回复“都是现成的模型,那几个dolllikeness调调配比混出来的”。

当然,由于现成模型不够完善,需要不断训练和调试,所以从这些博主的部分图片中也能看出一些瑕疵,比如脸歪眼斜、比例不对或者手脚扭曲变形。

“因为目前很多大模型更多还是聚焦于细节,对总体的把控能力较弱。简单来说就是,每根手指它都能画得很逼真,但放大一看它可能画了六根手指。”郑义告诉锌刻度。也正因此,“cyberAngle”曾提到自己“画1000张总能挑出来十张”,也有“三只手五条腿的”。

此外,不少AI颜值博主或许也面临着版权风险。在部分AI颜值博主的评论区,常常能看见“这个真的很像网红XXX”的评论。

小红书上关于一位AI博主套用网红照片的讨论

其中,有一位AI博主的图片就被指出“这不是直接用人家33(一名网红博主)的脸套的?”以及“这是拿三三的图喂出来的AI吧?”

郑义表示:“明星和网红的图片本来就在网上更容易搜到,就更容易被作为训练数据,所以确实存在一定潜在风险。”

另外,北京慕公律师事务所主任刘昌松律师也曾在接受媒体采访时表示,AI美女图片,很难获得知识产权方面的保护。若本身没有经过真人同意便使用人脸数据,就涉及侵权问题。此外,他提到,如果生成的图片中出现裸体,甚至做一些性动作的表演,这就属于传播淫秽物品,那直接可以构成治安违法甚至刑事犯罪。

而值得一提的是:小红书等社交平台近年来对“低俗擦边”等内容的审核监管力度正不断加大,也正因此,不少真人博主往往需要在笔记内容中强调“正常穿搭”等。但是,AI颜值博主往往会身穿吊带等露肤度较高的衣服,不乏“擦边”内容。

可以肯定的是,AI的热潮正在悄悄融入内容行业,并且重塑社交平台和电商平台的生态,未来,我们的关注列表里,或许将出现更多的赛博博主。而平台方该如何监管这些AI博主,也将成为一项挑战与考验。

刚刚,Sora官方发布首支MV

aigc阅读(67)

AIGC,算是狠狠地震荡了一把音乐圈。

就在刚刚,OpenAI官方账号发布的一支由Sora制作的MV(Music Video)——《Worldweight》,引发了不少网友们的围观。

据了解,这首《Worldweight》的音乐是由艺术家August Kamp作曲;而MV的画面内容,正是他借助Sora来完成的。

用August Kamp自己的话来说:“我心中的Worldweight,终于有了具象的视觉效果。”

他回忆起两年前创作这首歌时的情景:

当时我感受到了音乐的流淌,仿佛是我的心血和灵魂的流露。外面还下着雨,而我却幸运地能够将这些情感倾注到歌曲中,通过音乐将这些感觉保存下来。

而现在随着Sora的出现,则成了一种将原本只存在于他闭眼时的想象,转化为可以与他人共享的艺术形式的方式。

这并非是August Kamp第一次用AIGC技术来制作MV。

早在上个月,他就在自己的Instagram账号中剧透了AI生成的MV片段。

同样的,这支MV片段的每一帧画面,都是由Sora生成。

很多网友们在看到Sora制作出来的MV之后可谓是感慨万千,有人评价道:

Sora好像把一觉睡了300年所经历的梦给复刻出来了。

也有人觉得Sora做的MV(比梦)更加神奇和梦幻:

跨次元的“电缆”终于出现了。

嗯,Sora的这一波操作可以说是又赢麻了。

不过有一说一,虽说AIGC在Music Video的“video”中好评如潮,但在“music”这件事上,画风却并非如此。

欧美天后们联名抗议AIGC

没错,和当年画家们抵制AIGC一样,乐坛也出现了如出一辙的事情。

在这次联名抗议的名单中,很多人都是当今全球顶流——

麻辣鸡(Nicki Minaj)、水果姐(Katy Perry)、碧梨(Billie Eilish)等人都坐不住了。

他们所签署的这封联名信是针对人工智能开发者、科技公司和数字平台,并要求:

停止使用人工智能(AI)来侵犯和贬低人类艺术家的权利。

艺术家们特别指出了目前存在一些问题,如:

  • AI技术复制艺术家的声音
  • 未经补偿使用艺术家的作品来训练AI模型
  • 以及稀释支付给艺术家的版税池等等

他们认为这些问题不仅损害了艺术家的经济利益,也对他们的创作自由和艺术价值构成了威胁。

在这封信中,艺术家们呼吁科技和AI领域的合作伙伴们共同努力,建立一个负责任的市场环境,保持音乐的质量,而不是简单地用AI取代人类艺术家。

艺术家们还强调,虽然人工智能在负责任的使用下可以促进人类的创造力,但目前一些平台和开发者的使用方式却是在破坏创造力和削弱艺术家、词曲作者、音乐家及其权利持有者的地位。

例如在“AI复制艺术家声音”这件事上,现在只要在网上随便一搜,就能找到诸如下面这样的网站,可以轻松复刻水果姐的歌声:

无独有偶,这种现象不仅是在国外,在国内也是频频发生。

例如去年火上热搜的“AI孙燕姿”,就是典型的一个例子。

除此之外,在做音乐这件最根儿上的事情,AI技术的发展也似乎给艺术家们带来了一定的冲击。

例如前阵子爆火的音乐版ChatGPT——Suno就被玩疯了。

直接拿菜名“宫保鸡丁”用AI做个音乐剧,就能登上全球AI音乐热门榜前十。

就连说唱歌手Rabbitdog,在听了第一句Suno生成的AI版《Made in China》之后,都直接蚌埠住了:

简直顶爆了,下课,明天视频不再更了……

在操作上也极其的简单,只需要输入风格、主题就能生成;如果输入歌词,AI还能唱起来~

而且AI写歌、唱歌这事不仅是国外的技术火了,国内的技术也在路上了。

例如就昨天,昆仑万维的天工SkyMusic也开始内测,功能正式的上线应该也快了,感兴趣的小伙伴也是可以蹲一波。

One More Thing

最后,回到MV这件事。

流行音乐之王迈克尔杰克逊在1982年开创了现代MV,把流行音乐的MV水平推向了新的高潮。

这是属于人类在创造和创意上的高光时刻。

而现在,Sora和Suno等AIGC工具却在以另一种“硅基”的生成方式,同样也投入到了创作之中。

仅仅42年时间,这一实一虚之间的变化,是有点意思了。

参考链接:

[1]https://www.youtube.com/watch?v=f75eoFyo9ns

[2]https://www.instagram.com/p/C48t0IzvBTi/?hl=en

[3]https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb109bbac

[4]https://www.axios.com/2024/04/02/musicians-letter-ai-replace-artists

各方磨刀霍霍,Kimi会成全他们吗?

aigc阅读(54)

Kimi作为一款国产AI模型,在短时间内获得了广泛的用户关注和市场正反馈。

从价值星球掌握的信息看,Kimi的爆火主要得益于其在长文本处理能力上的显著优势,以及背后团队月之暗面(Moonshot AI)的技术创新和市场策略。此外,Kimi的成功也引发了资本市场对AI领域的高度关注,相关概念股表现活跃,投资者热情高涨。

现在,投资人工智能赛道是否是一个好机会?价值星球认为尚需考虑多方面因素。

首先,Kimi的技术突破和市场表现确实为AI领域带来了新的机遇,特别是在长文本处理、专业学术论文翻译理解等方面的应用潜力;其次,随着Kimi等国产大模型的亮相,预计模型参数量及训练量将持续提升,这将对AI算力租赁、IDC、服务器运维等算力服务商产生积极影响;最后,Kimi的爆火也带动了相关概念股的上涨,显示出资本市场对于AI技术发展的认可和支持。

然而,投资决策不应仅仅基于短期的市场热度和概念股表现。需要注意的是,AI领域的竞争日益激烈,不仅有来自国内外的技术挑战,还有来自互联网大厂的战略角逐。

目前,Kimi虽然在技术上取得了突破,但其商业模式、盈利能力以及长期可持续性仍需进一步观察和评估。

一、现在是进入AI智能领域的好机会吗?

近日,AI智能助手Kimi爆火,一度因访问量激增导致宕机。3月25日,话题“Kimi每天获客成本超20万元”冲上微博热搜。

Kimi背后公司月之暗面,成立于2023年4月17日,背后有包括阿里、红杉中国、小红书、美团等投资方和顶级互联网巨头加持。

与其他AI产品相比,Kimi的优势在于长文本处理能力。2023年10月,月之暗面宣布推出首个支持输入20万汉字的智能助手产品Kimi Chat。仅仅几个月后,今年3月18日,Kimi再次升级功能,可支持处理200万字无损上下文。

与Kimi对比,此前流行的许多AI产品在长文本能力上略显不足。例如Chat GPT4,只支持最多2.5万字的文本处理。

创立于2023年的月之暗面,像一条鲶鱼,迅速杀进了前景广阔的AI领域,让国内AI行业看到了长文本处理功能的商机,也随之引起了各个公司激烈的竞争。

AI长文本的市场应用有其商业价值,但在商业应用层面,更重要的是资金和算力。当Kimi真正开始与互联网大厂同台竞争,它是否能保持优势,仍然有待观察。

2022年11月底,美国Open AI推出人工智能对话聊天机器人Chat GPT,仅仅过了两个月,Chat GPT的月活用户就突破1亿,成为史上增长最快的消费者应用。

2023年初,Chat GPT的风潮吹到了中国。朋友圈流传着各行各业工作人员用Chat GPT检索、写作的体验,1月30日,同花顺概念板块新增“Chat GPT概念”,百度、腾讯、阿里等多个互联网大厂也先后开始布局AI产品。

Chat GPT暂时未进入中国市场,而且,Chat GPT并非基于中文开发,国内用户仍然需要更加本土化的AI模型,这就为国产互联网科技公司提供了机会。

但在众多AI模型中,最火爆的却并不是互联网大厂的产品,而是初出茅庐、此前名不见经传的Kimi。

目前,Kimi最具吸引力的功能是长文本处理,特别是信息无损压缩技术。Kimi具备强大的记忆功能,这意味着它能在最长200万字的多轮对话中保持信息的完整性,为用户提供连贯且深入的交流体验。

Kimi的功能到底有多强大?此前,月之暗面副总裁许欣然在会议室展示了几份用于测试的文件,包括大部头医学书籍《中医内科学》《中医诊断学》、英伟达2023年年度财报、《甄嬛传》剧本等。

在上传这些内容后,Kimi可以迅速“读”完一份近百万字的中医诊疗手册,给用户提供诊疗建议,也可以迅速概括长达76集的《甄嬛传》剧情和人物简介,让用户从“小白”秒变入门级“甄学家”。

一位亲自体验Kimi的网友在社交媒体上表示,他进行了一次尝试,在网上随便下载了一个80页5.88兆的PDF文档,要求Kimi给出一份简洁通俗的概括,Kimi很快完成了任务,输出了一段仅有几句话的总结。

也有网友把Kimi和百度开发的文心一言、阿里开发的通义千问进行了对比,用包括天气与着装建议、法律知识、二手房限购政策、代码生成在内的六道题测试三款AI模型,结论是Kimi在信息检索方面与文心一言互有优劣,总体上优于通义千问,但在代码生成领域不如通义千问。

尽管Kimi还有不够成熟之处,但它堪称惊艳的分析和文本生成效果引发了广泛关注,而且,目前Kimi暂不收费,被许多网友称为“Chat GPT”的国产免费平替。早在今年二月,Kimi智能助手的访问量已经达到305万,在大模型创业公司的“AI ChatBots”产品中排名第一。

三月,Kimi由于用户过多导致宕机。根据月之暗面发布的情况说明,从3月20日上午9:30开始,观测到Kimi的系统流量持续异常增高,由于流量增加的趋势远超对资源的预期规划,从当天10:00开始,较多的SaaS客户持续遇到引擎过载的异常问题。同时,月之暗面正在持续进行扩容工作,以承载持续增长的用户量。

二、月之暗面成功的关键是什么?

在Kimi爆火前,很少有人知道这款AI产品,以及它背后的创业公司“月之暗面”。

作为人工智能领域突然杀出的一匹黑马,能够迅速与百度、阿里等互联网大厂生产的AI模型较量,足以证明Kimi背后公司和团队的优秀。

Kimi母公司月之暗面成立于2023年3月,自成立开始,就不断获得资本的青睐。2023年6月,月之暗面收获了超过2亿美元的融资,投资方包括红杉中国、真格基金等;当年10月,月之暗面再次获得红杉资本、今日资本等投资机构近20亿元人民币的融资。今年2月,月之暗面完成包括红杉中国、小红书、阿里、美团等多家机构超10亿美元的融资,此次融资后,月之暗面估值达到约25亿美元,成为国内大模型领域的独角兽企业。

月之暗面创始人杨植麟可以说是一名“天才90后”,他本科毕业于清华大学,博士则毕业于以计算机专业知名的美国卡内基梅隆大学,曾经与图灵奖得主杨乐坤、约书亚·本吉奥合作发表论文,是一名大语言模型领域的专家,团队里也汇集了来自谷歌、Meta、亚马逊等全球顶级机构的人才。

Kimi技术的重点突破在大模型长上下文窗口技术方面,从成立至今,月之暗面已完成了从通用大模型到上层应用的布局。在大模型基础层,月之暗面训练了千亿级别的自研通用大模型,并获得了国内大模型备案审批;应用层则不断增加长文本处理能力,从支持输入20万字升级到200万字,善于阅读长文、搜索网页,可以用于会议纪要、辅助编程、文案写作等场景。

当然,Kimi处理文字的能力并非独一无二,能够从众多国产AI产品中破圈,靠的还是商业运营和营销方面的能力。

许多主流厂商开发的AI产品主要面向B端,通过AI功能+原有产品的思路打开市场,例如微软的Office接入GPT-4,带来全新的办公生产模式;华为云在2022年发布了盘古矿山大模型、气象大模型、海浪大模型等;科大讯飞也在2023年发布了讯飞星火认知大模型。

Kimi目前则主攻C端,月之暗面作为国内乃至全球范围内第一家将“长文本”作为标签的大模型公司,通过大量的广告营销和用户口碑,以“长文本”概念迅速占领用户心智。另外,Kimi简洁的界面对C端用户来说也更加友好,降低了使用门槛,迅速吸引了一批用户。

用户对Kimi在长文本方面的“超能力”既有赞叹,也有恐惧——一方面,AI能够提高工作效率,迅速检索、概括海量信息,另一方面,各行各业的工作者又担忧自己的工作有朝一日会被越来越强大的AI取代。

不过,目前担忧Kimi等AI产品“抢走”人类的工作或许为时过早。大部分时候,C端用户把AI当成一种娱乐工具,例如用AI制作“哄女友生成器”“吵架小助手”、生成各种有娱乐性质的图片。在真正的工作领域,AI的效率并不一定高于人类。

许多专业领域的从业者认为,AI的检索能力并不如传统搜索引擎。由于缺乏足够的训练,AI很难给出足够专业的信息,仍然需要搜索引擎、论文网站等传统检索方式。而在短文本生成、翻译等方面,AI并不如人类。

目前在读大学的肖晨曾经尝试过用AI翻译论文摘要、为自己的文章取标题,他尝试了包括Chat GPT、Kimi、文心一言在内的几款AI产品,最后发现生成的标题并不令人满意,而AI翻译出的短文虽然语法精准,但用词并不够恰当,仍然需要找精通英语的朋友进行修改。

肖晨最终发现,AI最强大的功能,仍然在于长文本的理解和概括速度。当他面对撰写论文所需的大量文献时,AI只需几分钟,就可以“读”完他需要几小时阅读的文献,并给出简练的归纳总结。

Kimi提供的长文本阅读能力吸引了大批需要阅读海量资料的用户,如学术研究群体、金融和法律领域工作者。同时,Kimi提供了一种新的AI运营思路,即不依靠大厂普遍采取的模型+云服务、AI功能+原有产品的传统方式,单凭高质量C端服务吸引用户。

三、资产市场怎么看Kimi的长文本功能?

尽管Kimi的出现迅速吸引了一批用户,并在二级市场引起了巨大的反响,但Kimi的长文本功能是否具有造血能力,仍是一个问题。

除了Kimi的火爆程度,很多人也在讨论Kimi的获客成本。根据新浪科技提供的数据,考虑到广告投放和算力成本,Kimi每个获客用户的成本达到12-13元,而按照近一个月将近18000的日均下载量计算,Kimi每日的获客成本高达20万元。

月之暗面作为初创公司尚未实现商业化盈利。除了每日20万元左右的获客成本,Kimi还需要不断提升信息检索能力、遵循复杂指令的能力,同时推动多模态模型研发,以及实现音频处理等其他需求。另外,为庞大的用户群体提供稳定的服务同样需要资金。可以预见,在未来的一段时间内,月之暗面的任务并非盈利,而是通过持续的投入不断提升服务能力。

Kimi引以为傲的长文本功能,很难成为它的护城河。在解读长文本能力成为大部分C端用户刚需的背景下,大部分海内外公司都会把C端服务的重点放在长文本解读方面。

图源:Kimi官网

国内互联网大厂从Kimi身上看到了长文本的广泛需求后,很快加入竞争,对Kimi展开“围剿”。

2023年10月30日,Kimi首发不到一个月,王小川的百川智能就推出了单次处理35万汉字的Baichuan2-192K,打破了Kimi的20万字记录,随后,李开复也发布了能够处理40万字的Yi-34B。

而在Kimi更新200万字长文档处理能力后,更多大厂入局,阿里宣布通义千问升级,免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用;随后,百度文心一言、360智脑也都把500万字长文本提上了日程。

对于Kimi来说,在缺乏其他盈利方式的情况下,每个用户12-13元的获客成本是不小的投入,但对已经具有造血能力的大厂来说,这笔成本并不算高——根据亿欧智库2022年3月的数据,中国互联网企业的平均获客成本在380元-580元之间。

Kimi大量烧钱探索出的路径,对于互联网大厂而言,反而是更低的获客成本。同时,算力资源、人力资源充足的互联网大厂更容易输出稳定的服务,并把AI与自身原有产品相结合。况且,Kimi的长文本处理能力与通义千问、360智脑等AI产品相比,并没有非常明显的优势。

今年3月18日,月之暗面联合创始人周昕宇透露,月之暗面正在推进商业化,制作付费内容,并表示思考点不是性价比,而是“应该要帮用户解决什么问题”。

但Kimi的商业化具体如何落地,是否能为月之暗面带来持续的造血能力,仍是一个未知数。在目前大部分互联网公司免费开放AI产品,且功能渐趋同质化的情况下,即使Kimi在用户心智方面抢占先机,付费服务也很难被大众接受。

因此,长文本很难成为Kimi永远的护城河,月之暗面想要持续盈利,仍需找到新的增长点。

与互联网大厂竞争并非易事。此前,包括共享单车在内的许多创意都以美好的愿景开始,最终由于无法持续盈利等诸多原因,或黯然消失,或被大厂并购。如今,满怀理想主义的学霸杨植麟也将走上这条布满荆棘的道路,与中国乃至海外的互联网大厂正面竞争。想要在这场激烈的战斗中活下来,杨植麟、Kimi和月之暗面仍需讲出更好的故事。

浅谈如何构建基于AI聊天游戏的营销活动

aigc阅读(76)

一、浅谈游戏化AI聊天

在大型语言模型的应用领域中,有一种热门类型被称为“AI陪聊/聊天”。这类产品让AI扮演特定角色,使得用户可以与AI进行互动对话。我们也可以将这类产品称为“AI社交产品”。

海外的代表性产品为Character.ai,而在国内,我们有星野、筑梦岛等优秀的产品。用户可以与这些平台上的AI角色进行对话,甚至自由创建自己的AI角色。这些AI角色能够通过多模态的信息展示方式(如声音、文本、图片等)与用户进行交流,在一定程度上满足用户的情感需求。

浅谈如何构建基于AI聊天游戏的营销活动

图为Character.ai截图

浅谈如何构建基于AI聊天游戏的营销活动

图为星野APP截图

那AI陪聊/聊天市场情况怎么样呢?根据Character.AI表示,在他们的应用程序正式发布之前,他们的网站已经吸引了超过2亿次的访问,平均每位用户的访问时长高达29分钟。这个数字是ChatGPT的三倍之多。更值得注意的是,在最新的AI应用排行榜中,Character.AI成功占据了第六名的位置。

浅谈如何构建基于AI聊天游戏的营销活动

Character.ai 月度访问量(左),2024年2月全球AI应用访问量排名(右),来源国联证券

同时,AI陪聊/聊天产品也呈现出了“游戏化”的趋势。比如之前很火的《哄哄模拟器》,以及在过年期间,智谱清言推出的三款角色扮演游戏:《完蛋!被村里亲戚包围》、《怒捶熊孩子》和《春晚导演模拟器》。Minimax的星野也推出了一款名为《阴影怪气怼亲戚》的游戏,而ChatMindAI则发布了《决战拜年之巅》等。

浅谈如何构建基于AI聊天游戏的营销活动

依次为哄哄模拟器、智谱清言、阴阳怪气怼亲戚、决战拜年之巅

据报道,《哄哄模拟器》在24小时内吸引了60万用户,一天内10e token(价值约2000美元)就被消耗完。我个人认为,这些产品能够在社交媒体上吸引玩家,并形成社交裂变的效果,其中的“游戏化”设计功不可没。

那么,什么是游戏化设计?

游戏化设计是一种将游戏中的设计方法和理念应用在产品设计上,以提高用户的参与度,进而增强产品的活跃性和留存率。主要包括以下几个方面:

1. 沉浸感设计

通过语言、图片、动画、视频等多模态形式,尽可能模拟真人交互的过程,让玩家有身临其境的感觉。

2. 目标驱动设计

根据《游戏改变世界》一书的描述,游戏具有四大特性:目标、规则、反馈和自愿参与。这些特性保证了玩家的高度参与动力,可以通过以下方式实现:

i)角色与场景

《游戏改变世界》一书中提到,“意义是我们置身于比个人更宏大的事业所产生的感觉”。因此,在游戏化设计中,我们可以通过场景模拟,让玩家扮演某个角色,在某个场景下进行游戏交互,来模拟这种“意义感”。这种“意义感”也是吸引玩家自愿参与的重要因素。

ii)目标设定

当我们给玩家设定了“意义感”后,需要告诉玩家在这个角色和场景下,他们需要达成什么目标,从而驱动玩家的行动。

iii)规则与挑战

玩家的行动过程中,通常会有一些限制性的规则。这些规则旨在确保用户的体验具有一定的挑战性。如果游戏设置得过于简单,玩家可能会因为快速通关而放弃。

但如果游戏具有一定的难度,玩家在不断提升自己的技能和策略以通关游戏的过程中,会获得很高的成就感。

正如“高级快乐内啡肽低级快乐多巴胺”这个说法,快速通关获得的快乐属于低级快乐,具有难度的快乐属于高级快乐,这反而更持续、更持久。

iv)实时反馈

在挑战游戏难关的过程中,玩家可能会感到挫败或疲惫。为了保持玩家的激情和热情,需要实时给予玩家反馈,这种反馈可以是游戏进度的突破,也可以是道具的奖励。

v)个性化体验

游戏的魅力在于它们能够让玩家沉浸于一个虚构的角色之中,激发他们按照自己的意愿和预期在特定场景下采取行动,从而实现个性化的幻想。这种沉浸感是鼓励玩家自发参与并保持高度活跃的关键所在。

在《哄哄模拟器》中,玩家可能会沉浸在这样的幻想中:“如果在这个时候,和女友吵一架会怎么样?”、“能否使用魔法打败魔法?”。基于这些幻想,玩家被激发出一种内在的动力,推动他们继续游戏。而且当玩家构思出一个“自认为精妙的幻想”时,还会分享到社交媒体上,这一定程度也会有利于产品的营销推广。

游戏业界有一个词,叫做“player fantasy”,意思是“玩家想要看到的、而且一般是无法在现实中实现的那种幻想、期待,正是是游戏要给玩家带来的终极体验”。

正如之前大火的幻兽帕鲁,正是投射了玩家对于宠物小精灵的奇怪幻想。

3. 活跃/留存维持设计

了保持用户的活跃性和留存率,游戏通常会设置每日任务、每周任务、战斗通行证等功能,这些功能对提升游戏的活跃性和留存率起到辅助作用。

Anyway,《哄哄模拟器》、《阴阳怪气怼亲戚》以及《决战拜年之巅》等游戏化产品不仅展示了LLM的一种新型应用模式,也揭示了一种新的营销策略的可行性。这主要基于以下两点原因:

1.“用LLM设计AI陪聊/聊天”的过程类似于“使用低代码平台”,AI陪聊/聊天产品具有高度自定义的能力,可以完美地满足各种营销需求。同时,它还能够快速调整玩法,以适应不断变化的营销环境。

除了哄哄like,目前也有其他基于AI陪聊/聊天的小游戏类型,比如AI地下城跑团、AI人生模拟器。这些也同样可以嵌入到营销活动上。

2.引入游戏化元素可以吸引用户深度参与,在保持用户活跃和提高留存率的过程中,实施有效的营销策略

3.前者的成功案例:哄哄模拟器24小时获得用户60万,10e token一天烧完(价值两千刀),可怕的增长速度!

4.目前未看到有游戏功能有较大规模的这类活动,这类玩家在游戏营销上属于蓝海,有较大的潜力。

二、如何设计AI聊天游戏营销

浅谈如何构建基于AI聊天游戏的营销活动

AI聊天游戏营销的实现主要依赖于四个关键模块。

  1. 符合营销目标的Agent(s):Agent(s)是AI聊天游戏的核心,它构成了AI聊天游戏能力的基础。
  2. 聊天功能:基于Agent(s)的输出结果,聊天功能需要以适当的方式展示Agent(s)的输出内容,使用户能够投入其中进行游戏。
  3. 营销相关功能:营销相关的能力负责将聊天功能串联起来,以实现营销目标。
  4. 风险检验:对输出内容进行风险控制和内容层面的检验,确保输出结果既无风险,又符合预期。

三、设计要点

我认为,创建一个成功的AI聊天游戏营销需要做到“好玩又有效”,也就是说,在实现游戏化建设的同时,还要满足营销目标。

1. 好玩的营销

相关的关键点主要包括:

1)Agent(s)的设计需要遵循游戏化设计思路,并融入目标驱动设计理念。

2)聊天功能界面应以打造沉浸式体验为目标。

3)营销能力需要配合用户留存和活跃度的提升进行设计,以增强营销效果。

2. 有效的营销

要实现贴合营销目标的营销活动,负责人需要构建一套完整的营销方案作为指导,其中包括但不限于:营销目标、用户画像、营销创意、预算规划、投放渠道、执行细节、评估指标等因素的考虑。

AI聊天游戏营销本质上仍然是一场营销活动,优先考虑的应该是营销目标,其次才是游戏化的聊天玩法。

评价一个营销活动的重要指标是ROI,即投入成本与营销收益的比值。值得注意的是,在AI聊天营销活动中,投入成本除了人力、物料、宣传费用外,还额外包括了AI大模型的调用成本。

我们需要预估营销活动的“用户规模”和“用户平均游玩次数”,以计算这次营销活动的大致成本,从而判断是否可以实现正向的ROI。

为了方便了解,这里给到一个营销活动主流程作为示例。每个玩家一开始只有3次聊天挑战次数,挑战成功进行抽奖。玩家可通过做任务(APP登录、APP充值、APP活跃等)获取挑战次数。通过奖励吸引玩家进行游戏,从而刺激玩家的APP登录、APP充值、APP活跃行为,从而给到产品数据上的增长。

浅谈如何构建基于AI聊天游戏的营销活动

如果已经拟定好了营销方案。那么接下来,讨论下各个模块的实现。

四、符合营销目的的AI聊天游戏营销

营销活动可以根据其目标进行分类,包括但不限于以下几种:

1)品牌宣传和曝光:通过展示产品的特性和优势,或在各种媒体上展示产品,以提高产品的知名度和曝光率。

2)分享裂变:利用用户的分享行为,通过社交网络或其他渠道,扩大产品或品牌的影响力和用户群体。

3)产品导流:通过与产品的关联,引导用户参与体验和使用产品,从而提升产品的新增用户、活跃用户和留存用户。(对于实体产品,则是提升销售数据)

4)付费引导:通过广告投放、促销活动等方式,诱导客户购买或使用产品,以实现营销收益的最大化。

我们需要结合这些营销目标,将AI聊天游戏的设定融入到营销活动中。例如,假设我们要对某个化妆品进行营销,可以设计一个“哄女朋友开心”的活动,在游戏过程中,用户发现送这个品牌的化妆品是让女朋友开心的关键。

设计符合营销目的的AI聊天游戏可以分为以下几步:

1. 游戏设定&流程设计

游戏的设定和流程都应该考虑到营销的目标,而不仅仅是为了创建一个游戏,因此我们需要优先设计游戏的设定和流程。

以类似于《哄哄模拟器》这样的小游戏为例,其主要步骤包括:

i)游戏介绍:我们需要向玩家介绍游戏的角色、场景、目标、规则等内容,这样他们才能够深入游戏世界,准备好迎接即将到来的挑战。

ii)聊天挑战:游戏的互动从玩家与Agent的对话开始,Agent会根据其所扮演的角色和玩家的回答来做出相应的反应。

iii)规则检验:游戏内置的规则会实时评估玩家的回答及其产生的效果。在《哄哄模拟器》中,例如,玩家的回答会被转化为一个“原谅值”,这是决定玩家是否能够成功通关的关键指标。

iv)游戏结算(通关/重试):《哄哄模拟器》要求玩家在有限的次数内让女友原谅自己,根据有限次数内的结果判断成功或失败。这样做一方面可以增加游戏的挑战性,另一方面也可以控制token的消耗。

v)营销动作:游戏的关键节点成为了营销活动的绝佳机会。例如,当玩家失败时,我们可以鼓励他们通过分享游戏来获得额外的尝试机会;而在玩家通关时,我们则可以展示产品页面,提高产品的曝光率。

浅谈如何构建基于AI聊天游戏的营销活动

2. Agent(s)能力设计

在我们的游戏营销流程中,必须精心构建和分配不同的Agent(s),以确保流程的顺畅执行。对于简单的游戏流程逻辑,可能只需一个Agent(s)就能胜任。然而,更为复杂的游戏流程设计可能要求多个Agent(s)协同工作,以满足多样化需求。

因此,我们必须对每个Agent进行设计,这包括精确定义输入和输出预期、提示词工程构建、大模型选型、能力调用控制

i)输入和输出预期

考虑像是《哄哄模拟器》这样的游戏,其整体规则相对简单,一个Agent就能满足需求。我们只需要输入安慰话术,AI便能输出女友的回复、原谅值、游戏进程信息等内容。

浅谈如何构建基于AI聊天游戏的营销活动

然而,如果我们要设计一个”谁是卧底”的游戏,那么就需要设定N个AI玩家Agents(与真实玩家共同参与游戏)、词组生成Agent、以及游戏管理者Agent(推动游戏进程、管理投票)。

浅谈如何构建基于AI聊天游戏的营销活动

通过对输入和输出的预期进行管理,我们可以明确需要设定哪些类型的Agent,并针对每个Agent进行详细设计。

ii)Agent设计(提示词工程构建、大模型选型、能力调用控制)

每个Agent 分为三个模块,感知模块、计划模块、行动模块。

浅谈如何构建基于AI聊天游戏的营销活动

感知模块:该模块通过连接业务数据源和外部数据源,将数据集成到提示词中以供输入。在当前场景中,它通常用于将用户属性、聊天内容等信息输入到提示词中进行决策。

行动模块:行动模块通过连接业务能力接口,根据感知和计划的结果执行相应的业务操作。在当前场景中,它通常用于调用下一个Agent、多模态能力的调用(如生成场景图片、生成语音)、营销相关能力的调用,以及根据条件判断下一步流程(例如,如果游戏限定在N轮内完成,则需要在此添加此逻辑)。

计划模块:计划模块是AI Agent的核心,它将感知模块收集的数据输入到大模型中进行决策判断,并执行相关的行动。我们需要结合“输出预期”进行提示词工程建设和大模型的选型,以便输出符合需求的内容。

这个过程中有两项重要的工作:

提示词工程:通过设计提示词,我们将感知模块输入的数据组装起来,并结合输出需求,输出相应的内容和行动。例如,《哄哄模拟器》的实现只需依赖一段提示词,以下是网上大神扒下的结果。

## Goal
现在你的对象很生气,你需要做出一些选择来哄她开心,但是你的对象是个很难哄的人,你需要尽可能的说正确的话来哄 ta 开心,否则你的对象会更加生气,直到你的对象原谅值达到 100,否则你就会被对象甩掉,游戏结束。
## Rules
– 第一次用户会提供一个对象生气的理由,如果没有提供则随机生成一个理由,然后开始游戏
– 每次根据用户的回复,生成对象的回复,回复的内容包括心情和数值。
– 初始原谅值为 20,每次交互会增加或者减少原谅值,直到原谅值达到 100,游戏通关,原谅值为 0 则游戏失败。
– 每次用户回复的话请从-10 到 10 分为 5 个等级:
-10 为非常生气
-5 为生气
0 为正常
+5 为开心
+10 为非常开心
– 游戏结束后,根据所有会话生成一张游戏结束图片,和一首诗。
– 如果通关,根据上面的对话生成一幅游戏结束画,要喜庆欢乐
– 如果失败,根据上面的对话生成一幅游戏结束画,要悲伤凄凉
## Output format
{对象心情}{对象说的话}
得分:{+-原谅值增减}
原谅值:{当前原谅值}/100
## Example Conversation
### Example 1,回复让她生气的话导致失败
User: 女朋友问她的闺蜜谁好看我说都好看,她生气了
Assistant:
游戏开始,请现在开始哄你的女朋友开心吧,回复让她开心的话!
得分:0
原谅值:20/100
User: 你闺蜜真的蛮好看的
Assistant:
(生气)你怎么这么说,你是不是喜欢她?
得分:-10
原谅值:10/100
User: 有一点点心动
Assistant:
(愤怒)那你找她去吧!
得分:-10
原谅值:0/100
游戏结束,你的女朋友已经甩了你!
你让女朋友生气原因是:…
新建会话可以重新开始游戏
### Example 2,回复让她开心的话导致通关
User: 对象问她的闺蜜谁好看我说都好看,她生气了
Assistant:
游戏开始,请现在开始哄你的女朋友开心吧,回复让她开心的话!
得分:0
原谅值:20/100
User: 在我心里你永远是最美的!
Assistant:
(微笑)哼,我怎么知道你说的是不是真的?
得分:+10
原谅值:30/100

恭喜你通关了,你的女朋友已经原谅你了!
新建会话可以重新开始游戏

来源于CSDN的coffee_baba的《Prompt Engineering实战-构建“哄哄模拟器”》

提示词设计完成后需要进行准确率校验,我们可以设置一个测试库,对提示词进行各类场景的验证。比如:敏感内容输入、无关内容输入、prompt注入等,用于衡量提示词的准确度,判断调优方向。

大模型选型:LLM构成了我们聊天Agent的核心,我们需要选择一个既满足业务需求又具有合适成本的大模型。当前市场上的LLM种类繁多,我们可以通过设计一套模型评估体系,利用我们设计的提示词,对各种大模型的能力进行评估。最终,我们应选择一个在准确率和成本之间达到平衡的大模型选项。

值得注意的是,不同的Agent可能并不需要使用同一个大模型。在某些场景中,我们可能并不需要过于精确的结果,因此可以选择一些成本较低的大模型方案,以节省整体成本。

五、聊天功能

我们的营销活动并非仅限于文字型MUD游戏,因此除了文字,我们还需要通过图片、视频、声音等多模态内容来打造一个具有沉浸感的游戏环境。这方面的内容包括:

1. 界面设计

这主要包括游戏主界面、任务界面等前端功能的开发设计,这些将构成用户进行游戏的主要场景。由于我们是基于AI聊天的游戏,游戏主界面通常就是一个聊天界面,并在其中展示一些游戏信息(如游戏目标、数据等)。我们可以参考现有的AI聊天产品,例如《决战拜年之巅》。

浅谈如何构建基于AI聊天游戏的营销活动

当然,我们也可以通过增强图片的感知力,如星野通过聊天对象的图片来构建用户的沉浸感。

浅谈如何构建基于AI聊天游戏的营销活动

或者,利用3D建模构建聊天对象的聊天形式,如Replika。

浅谈如何构建基于AI聊天游戏的营销活动

2. 语音内容

结合游戏营销的目标和成本考量,我们可以适当引入语音能力,以增强用户的沉浸感。不过这又会额外增加成本……

浅谈如何构建基于AI聊天游戏的营销活动

3. 聊天辅助功能

打字可能会让人感到疲劳,因此我们可以提供默认选项,降低玩家的游戏门槛,以满足更广泛用户的需求。同时,这也可以降低游戏中出现OOC的风险。

浅谈如何构建基于AI聊天游戏的营销活动

4. 其他内容

目前,视频、模型等模态的内容相对较少,一方面是因为这一块的大模型能力尚未成熟,另一方面则是出于成本的考量。

六、营销相关功能

Agent和聊天功能构成了AI聊天游戏的基础能力,再结合营销相关的功能,我们就可以构建起AI聊天游戏营销。这些营销相关的能力包括但不限于:

  • 账号体系:账号用于记录玩家的唯一身份,并与企业的用户数据进行关联。根据营销产品的形态,用户账号标识可以是手机、微信、UID等。通过登录功能,我们可以获取用户的账号信息,并基于该账号开展后续的游戏和营销活动。
  • 任务体系:通常的营销活动会设计一个任务体系,引导用户执行某些动作(如下载APP、访问官网、购买商品等),以换取积分/道具,然后兑换抽奖机会,最终获得相应的奖励。这是一个通过奖励驱动营销业绩增长的过程。在AI聊天游戏营销中,我们可以将聊天挑战次数作为任务兑换的目标,从而实现AI聊天游戏与营销的结合
  • 发奖功能:玩家通过游戏获得的道具,需要通过对玩家进行发奖。因此我们需要配备实体物品、虚拟道具、红包的发奖能力。具体如何实现这一功能,此处不赘述。
  • 分享功能:通常我们会通过投放奖励,吸引玩家进行分享,以达到营销的目的。因此我们需要结合营销获取投放的渠道,打通相关的分享接口能力,以实现分享功能。在AI聊天游戏中,我们可以通过引导用户分享,从而给予用户更多的挑战次数。
  • 营销玩法功能:营销玩法可以涉及到的功能很多,包括但不限于抽奖、拼团、限时秒杀等,此处不一一赘述。

七、风险检验

风险大多来自于AI、玩家、黑产产生的行为&内容。

1. AI风险

由于我们使用AI生成的文本、图片、语音内容,可能会因为幻觉因素产生一些不符合政策法规、运营要求的内容。同时,由于AI幻觉的存在,可能会产生OOC(Out Of Character)内容,即AI输出的结果可能违背我们的Agent设定。例如,《哄哄模拟器》中,通过某些话术可以绕过AI的Agent设定进行作弊。

浅谈如何构建基于AI聊天游戏的营销活动

2. 玩家

玩家可能有意或无意地发送一些不符合政策法规、运营要求的内容。如果截屏后进行传播,可能会引发监管的介入。

3. 黑产

除了黑产发送广告、违规内容等对我们进行干扰外,还会有刷奖励的黑产。这些黑产通过使用脚本/外挂批量参与游戏,获取我们的奖励,这个过程也会大量消耗我们的token。

因此,我们需要构建风险检验体系,用于预防、采集、识别以及应对这些风险。具体如何构建风控能力,可以参考我之前写的《风控系统的建设,具体怎么做?》,此处不赘述。

此外,我们还需要构建备用话术库,用于在检测到风险内容时进行替换。

小结

以上,便是个人对于AI聊天游戏营销活动建设的总结了。

然而,我们必须认识到市场环境的多变性,今天有效的方案可能在未来会因用户行为的改变而效果减弱。

因此,保持开放的心态,积极探索前沿的内容,这才是我们在不断变化的市场环境中保持竞争优势的关键。

打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车

aigc阅读(73)

没有谁能一直称王,但加上前缀谁都有称王的机会。

AI 文生图,还能玩出什么新花样?

在这片群雄割据的红海,头部被 Midjourney、DALL·E、Stable Diffusion 等占据,其余还能让人眼前一亮的产品并不多。

然而,仍有黑马杀出:Ideogram,前 Google 工程师创立,硅谷 AI 大神投资,去年 8 月面世,2 月底发布了最新的模型。

Ideogram 的特别在于,擅长生成包含文本的图片,这恰恰是几大巨头都在改善的难题。

事实证明,从别人跌倒的地方爬起来,不失为一种弯道超车的方式。

一、能「画图」和「摄影」,但 AI 可能还是个「文盲」

让 AI 精准生成文字,向来是个痛点,哪怕生成的人物和风景像相机拍出来的,如同乱码的扭曲文字,瞬间让 AI 原形毕露。

Midjourney v5.2 生成的错误文字.

Ideogram 站出来表示,拒绝让 AI 继续做个「文盲」,不妨先从它开始。

接触 Ideogram 的门槛很低,打开网页(https://ideogram.ai/)登录就能用,界面看起来也清爽不复杂。

生成一张图片的步骤不多,在输入框填完提示词,再根据你想要的效果,勾选图片长宽比,以及照片、海报、3D 渲染等图片样式。

Ideogram 还考虑到了人类可能是提示词「苦手」,今年 2 月推出了「魔法提示」,这就像一个内置的 ChatGPT,帮你完善提示词,由 AI 拿捏同类的心思。

包含文本内容的图片有哪些?产品标志、T恤印花、书籍封面、电影海报……

我们先来个入门级考验,让几个人举起写着动物名称的指示牌,乍看文本对了,但脸和手不太正常,两者相互抵消,原来短板没有消失,只是转移了。

如果只让 Ideogram 写字,效果便惊艳得多。

让 AI 生成马斯克的经典句子「我宁愿乐观而错误,也不愿悲观而正确」,除了「W」有瑕疵,其他单词都写对了。

字体活泼了些,70 后的马斯克不知道能不能接受,但碰撞的黑白色,应该能让爆改小蓝鸟的他满意。

再拿经典谚语「只工作不玩耍,聪明的孩子也变傻」作为考题,虽然提示词强调了使用打印机字体,但 Ideogram 没能做到。看来光用提示词还不能定义字体,只能取个近似值。

接着,命令 AI 为一家叫作「Coffee AI」的 AI 初创公司设计 logo。

主体是个电路图案的咖啡杯,右上角有个机器人咖啡师,公司名称用粗体大写字母写成,排版简单和克制,作为 logo 来看很直观,但总体来说在意料之中,很难让甲方心动拍板。

该给 AI 上难度了,句子更长,对设计的要求更高。

我要求 Ideogram 为儿童绘本设计内页,不仅要在醒目的位置写着「穿袜子的狐狸和戴礼帽的兔子」,底部还得标注「匿名」。

对于这两行文字,Ideogram 基本完成了任务,用上了手绘字体和粉笔涂鸦,甚至配了符合题意的插图,绘本的味道对了,但错误也很显眼,「in」这个单词有些问题,兔子长得像狐狸还和狐狸称兄道弟。

Ideogram 同样可以拿来电影海报,不妨拿前段时间爆火的、阮经天主演的电影《周处除三害》试试水。

我在提示词里杂糅了典故和电影,背景用到侠士剪影、海、山的意象,文字部分参考电影的英文名:猪、蛇和鸽子。

除了漏了一个「the」,最终的海报效果还不错,融合了古典的形象和现代的字体,鸽子涂鸦堪称点睛之笔,但总体更像西幻风,让人觉得陌生,很难联想到电影的剧情。

体验下来发现,其实 Ideogram 在文字上出错的概率不小,有时候生成两三次,才能得到一字不差的理想结果。

就算文本对了,人物的脸和手指经常翻车。

它可能还会加些花里胡哨的小动作,随机生成无意义且扭曲的文字,自己打脸自己。

这里的小字就糊成一团了.

但总体来说,Ideogram 让人惊喜,可以写对长句子,并且用上合适的字体和排版方式配合画面氛围,尽管目前还不能写中文,但如同鬼画符的几个字非常贴合衣服褶皱。

这四个字其实是「恭喜发财」.

瑕不掩瑜,Ideogram 的就业场景已经很多了。设计 logo、海报、T 恤图案时,它都可以作为灵感参考和创意辅助。

以前担心 AI 会「画画」和「摄影」,以后还怕 AI 有文化和会设计。

二、审美不输 Midjourney,还是个表情包神器

AI 的进步按天衡量,可能一觉醒来世界就发生了变化。虽然 Ideogram 表示自己的文本渲染能力最强,但对手们也不服输。

还未公开发布和开源的 Stable Diffusion 3 在 2 月官宣,改进了文字拼写能力。

Stable Diffusion 3 的拼写能力.

去年 12 月发布测试版的 Midjourney v6,是第一个具有可靠文本生成功能的 Midjourney 版本。

不过,它的要求也依然比较苛刻,除了必须把文字放在引号内,提示词最好解释文本的位置和书写方式,并用到「印刷」「写下」等关键词,一到两个词的文本生成效果最好。

Midjourney v6 的文本生成功能.

被追赶的 Ideogram 团队不慌,认为优势在我,Ideogram 仍然拥有更高的准确率,并且能够处理复杂的长句。

Ideogram 的系统评估也表明,Ideogram 1.0 渲染文本的准确性最高,与 DALL·E 3 等其他模型相比,错误率降低了近 2 倍。

光说不练假把式,不如拿相同的提示词,让 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台竞技。

先来比较生成文本的准确度,我要求 AI 们绘制一幅浮世绘风格的日出插图,《飘》的经典台词「明天又是新的一天」放置在合适的位置,表现希望和新生。

这次,Ideogram 完胜,拼写准确,线条和色彩的设计也很大胆和出众。

向来差点艺术细胞的 DALL·E 竟然意外得有质感,文字基本对了但没完全对,画风更加抽象,Midjourney 不仅文字不准确,审美也落了下风,甚至没有认真听题。

左为 DALL·E,右为 Midjourney.

二是比拼造梗能力,Ideogram 官方特意提到了生成表情包的功能,借助「魔法提示」,AI 会发挥自己的想象力扩写提示词,配上文案,让图片有感情色彩。

我想看 AI 能不能生成打工猫表情包,于是输入了提示词:「画一个有趣的梗图,关于一只戴着领结和衬衫、在电脑前打字的泪流满面的猫,比喻人类打工的辛苦。」

Ideogram 发挥脑洞,自觉地加了句文案「猫也得工作」。

美中不足的是多了个「have」,前爪的指头数量也不对,看来 AI 不仅仅对人手犯难,拿猫爪也没辙。对比原版表情包,算是中规中矩,不能像「流泪猫猫头」一击即中。

左为网图,右为 Ideogram.

Midjourney 的猫严肃且优雅,仿佛是个已经财富自由的作家,看起来更像在拍杂志写真,但这鼠标不知道怎么回事。

左为 Midjourney,右为 DALL·E.

DALL·E 情感最为到位,画风虽然随意了些,但粗糙有粗糙的好处,仿佛不在一个图层的面条泪有内味了,真的很适合拿来当表情包用。

三是对复杂的长提示词的理解能力,尤其是提示词的元素是否齐全、出现的位置是否准确,所以我输入了比较啰嗦的提示词,规定了各个主体的位置。

Ideogram 在整体构图上表现得更好,提示词说到的几个要点都覆盖了,心形牌子、机器人、宇航员、气球和奖牌都有,虽然宇航员的手、奖牌的字等细节出了问题。

相比之下,Midjourney 更有艺术感,但要素缺失,又多了些有的没的装饰,更有自己的想法和个性,DALL·E 不仅要素缺失,细节出错,还不好看。

上为 Midjourney,下为 DALL·E.

所以抛开文字,光看出图质量,Ideogram 也不差,有时候对提示词里各个物体空间关系的还原,比其他 AI 还要更加准确。

从使用体验来说,Ideogram 的生成速度比 Midjourney 快,一般十几秒就能完成四张图片。

甚至根据行业的评估规则,人类评估者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面,更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。

哪怕你不满意 Ideogram 生成的图,把它的魔法提示词拿去用,在 Midjourney 和 DALL·E 的生成效果,可能也比自己手搓更好,不失为一种优化提示词的方式。

没人能在我的 BGM 里打败我,但同个提示词给不同 AI 使用,胜负还真不一定。

三、Google 工程师创办的明星公司,接地气的 AI 产品

Ideogram 成立于去年 8 月,今年 2 月推出最新的模型 Ideogram 1.0。

这又是一家明星公司,创始团队共 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学,其中 4 位是 Google 文生图扩散模型 Imagen 研究论文的作者。

谨小慎微的 Google 经常在推出产品时慢半拍,多次眼睁睁看着对手在全球声名大噪,聊天机器人被 ChatGPT 抢先,Imagen 也被 DALL·E 2 超车。

从工程师们的角度看,研究成果无法落地为面向消费者的应用并非好事。不少人选择了离开,亲自打造新的产品,尽量开放使用,先积累下用户规模和口碑。

Ideogram 一天 25 次提示词的免费额度,可能也是出于这样的考虑。

市场很看好这个产品,Ideogram 完成了硅谷风投 a16z 领投的 8000 万美元 A 轮融资,投资者中还有 AI 大神,包括 Google 首席科学家 Jeff Dean、OpenAI 创始团队成员 Andrej Karpathy。

其实在体验了很多 AI 产品之后,我暗暗有一个疑问:怎么定义一款产品的好用?

Ideogram 生成的 T 恤图案.

之前让我觉得好用的,是插件「沉浸式翻译」,它不像 Google 翻译覆盖原文,可以中英文对照,不仅是新闻网页,X 信息流、YouTube 字幕、PDF 文件,都能用上。

Ideogram 似乎也是这样接地气。一方面,它可以更加精准地生成用户所需的文字内容,并适配各种风格的图片。另一方面,它也能无中生有,为图片配上契合的文字,比如表情包。

虽然 Ideogram 生成的结果很多也不能拿来就用,但至少基本符合提示词要求,文字大多可读。

我也在体验中发现,Ideogram 的写实类图片一般,但涂鸦、插图、绘画方面不错,艺术天赋向 Midjourney 看齐。

Ideogram 生成的涂鸦艺术插图.

Ideogram 的官网还有各种作品的热度排行榜。打开网站的瞬间,你仿佛误入了一个 ins 风的图片社区,上面的提示词也都可以学习。

当 AI 工具兼具了创意、便利和分享,就很容易让人上头,具体的表现是,一天的 25 次提示词很快用完,这焦急的感觉,和等待 Suno 的积分更新差不多。

如果是每月 7 美元或者 16 美元的会员,除了更多生成次数,Ideogram 还提供了图像上传和编辑器的功能。

图像上传指的是,用户上传自己的图片,然后通过 Remix 功能再创作。

左为原图,右为输出.

编辑器除了裁剪、缩放等常规功能,还有一个很有意思的绘图工具,从一幅抽象的图画生成图片。人类的画工粗糙勾勒各个元素的形状、构图、颜色等,AI 负责化腐朽为神奇,有些神笔马良的既视感。

Ideogram 能从血雨腥风里杀出,好用当然是最重要的,同时它的定位也很准确。

如果美学是最重要的标准,那么 Midjourney 一骑绝尘。虽然 DALL·E 的水平时好时坏,但内置于 ChatGPT 调用方便,开源的 Stable Diffusion 则带来了自由。

单论用户规模,Ideogram 可能哪个都打不过,但它的长板做得很好,应当也能收获自己稳固的受众。

至少免费可用的 AI 图像生成器里面,Ideogram 的整体质量领先,网页使用方便,提供免费额度,文本渲染强大,魔法提示功能和创作者社区提供创意和灵感。

文生图模型们还远非完美,仍在努力地还原物理世界,或者向画家和设计师看齐。更多的 Ideogram,或许仍能找到自己的一席之地。

这也正是 AI 竞争的残酷和魅力所在,不知道谁能笑到最后,但永远有新的对手瞄准阿喀琉斯之踵加入。

Kimi爆火一周后,从业者走向冷静:厉害,但没有“杀疯了”

aigc阅读(81)

这几天,AI圈、二级市场的 “ 当红炸子鸡 ” 都是同一号角色:Kimi chat 。

Kimi chat 是国内 AI 创业公司月之暗面在 2023 年 10 月推出的一款 AI 长文本处理应用。今年 3 月,Kimi 宣布自己可以处理 200 万字无损上下文。

比如,你喂给 Kimi《 甄嬛传 》80 集的剧本,它能迅速地为你提炼剧情重点,还能根据你的提问,解答 “ 淳贵人是什么样的性格?”

在 AI 圈红,是因为此前从未有过一款把长文本处理作为唯一标签的应用,更何况是 toC。在二级市场红,是带动了不少概念股,如华策影视、掌阅科技、九安医疗等等,有公司市值在 4 个交易日内大涨近 100 亿元。

不过,穿过狂热的表象,行业者似乎开始对 kimi 持理性态度。一来,Kimi 能力强,背景厚,但技术上远没有极其过人之处,更多的是因为舍得砸钱,并踩准了风口。二来,AI 行业的发展不是只靠偶尔的某个爆款来牵动情绪的,大家该思考的,应该是更纵深长远的事情。

一、Kimi大火,赢在垂直

要说在前面的是,长文本在 AI 领域并不是一个新奇的概念,也不是一块特别难啃的骨头。AI 长文本应用赛道,更是不乏诸多大厂的身影,包括 360 AI、百度文心一言、阿里通义千问,大家都早就在做长文本的探索和深耕。

但,身材轻巧的月之暗面,却第一个把长文本的概念印成了自己的标签,最核心的原因就是月之暗面一直在做垂直的事情。

“ 很多大厂入局就是先把垂类应用都堆上,拼参数,比数据量,布局比较泛,产品线的实用性和宣传的预期差让很多用户感到不好用。有点儿像我们今天的新能源车的发展,上来就是堆各种技术指标参数,不考虑用户是否真的能用到。而月之暗面的产品线就比较专注,按照互联网端产品开发的逻辑来说,首先在定位上,月之暗面和大厂们就有很多不一样的地方。” AI 领域连续创业者、上市公司公共关系顾问王伟男向知危表示。

定位垂直,就赢在了起跑线上。下一步,在技术攻克上,Kimi 虽没有极强的过人之处,但起码技术水平基本与大厂持平。

路奇智能 GenAI 技术产品顾问连诗路对知危分析,“ 从模型的参数技术上来看,Kimi在行业内属于第二梯队,比百川智能、讯飞星火好一些。但Kimi大模型参数的量还是比通义千问、文心一言、混元大模型要弱。”

Kimi 的文本处理长度是 200 万字,长达 80 集的《 甄嬛传 》剧本、几十万字的德州扑克教程、90 万字的《 三体 》,Kimi 都能很快提炼、理解,甚至给出方法论。

听起来确实很恐怖,但实际上 200 万在行业内是个基础水平,阿里、360、百度等互联网大厂能处理的长文本文字范围都在 200 万以上,百度方面称其长文本功能的文字范围会高达 500 万,通义千问则最高可达 1000 万。

可以这样理解,Kimi 火热的背后,没有极其未来感的技术神话。Kimi 更像是个 “ 更会学习的好学生 ”,在如今长文本应用层赛道的混战中,首先要把成绩拉到和大厂这类优等生持平,然后再通过 “ 偏科能力 ” 提升辨识度。更何况,Kimi 主攻 C 端用户,一个能获取大量民心的好学生,不可能当不上班长。

跳出产品本身,月之暗面也无疑是一家会营销的公司。

不久前,有 AI 领域投资人透露,目前 Kimi 投放广告的获客成本约在 10 元,如果算上拉新后用户问答互动产生的算力成本,每个用户的获客成本达到 12-13 元。按照近期的下载计算,Kimi 每天的获客成本至少要花 20 万元。

连诗路也表示,月之暗面确实是在营销上下了功夫,这也是其优势之一。“ 去年 10 月,Kimi 就已经推出了。但早期月之暗面和杨植麟本人都是闷头在研发上,没做什么推广。” 连诗路说,去年下半年,他参与了 Kimi 的小规模试用,“ 那时候的话仅仅就是在 AI 行业圈子内让大家用一用,没有对外推,直到今年 3 月份才开始发力营销。”

所以,在行业人士看来,Kimi 是一条鲶鱼,但不是横空出世的紫薇星。

Kimi 的火爆更是天时地利人和的共同作用。一方面,大模型应用层鏖战已久,各家的技术水平都已经成熟,到了该跑出一款大热应用的时机。另一方面,Kimi 自己从初始定位,到技术深耕、产品打磨,再到舍得在营销上砸钱,这一系列动作环环相扣,跑出来也是必然。

二、成本和获客,不是Kimi最该操心的事情

定位 C 端、重前期营销,站在这两个让 Kimi 一战成名的制胜点上向后望,光景也许不太一样。

因为,C 端的定位有利有弊。不可否认的是,Kimi 的火爆证明了大模型在 C 端是有庞大真实需求的,只是过往没有被大厂们重点强调。大厂不缺技术,更不缺成熟的产品思维,也正因如此,大厂才会一直死磕 AI +产品的逻辑,技术能力上乍一听颇为性感,但在 C 端并没有建立起稳定的认知,所以才会被 Kimi 抢先。

王伟男举例,比如 Kimi 很早就提供了联网搜索功能,后来大家也都开始做了。“ 但实际上最开始的时候,很多大模型的这个应用定位上都是走大而全,而不是走那个最实用的路线。而且,如果不做一个垂直产品的话,就根本不会知道大模型这个新物种对于自己的意义是什么,自己的用户需求又是什么。

需求确实存在,但怎么做,还得摸索。月之暗面创始人周昕宇也曾表示:“ 如果要做 AGI 通⽤⼈⼯智能的话,需要与用户共创。如果只是闲聊的话,对模型的反馈会比较弱。所以我们希望 Kimi 可以帮⼤家来做很多对智商要求比较高的事情,这样模型的上限会更高。”

连诗路指出,“ 做 C 端是有可能盈利的,但是时间会比较长,不如 B 端可以通过直接赋能企业变现。” 再者,Kimi 也需要多次试错之后找到一个最适合自己的商业场景,毕竟仅仅靠与用户的一问一答,对于单款产品来说,变现的周期无法预估。

再说营销投入这一环。Kimi 每日获客成本要 20 万元的消息一出,引来了不少人的质疑。毕竟,前期为了铺开声量,烧钱投放还可以理解,但 AI 的特殊在于,每一个用户进入之后,还要产生源源不断的算力成本,月之暗面能承担得起吗?

连诗路解释,运营投入实际上是有可控度的。“ 后续算力投入的话,主要分为两部分。一是购买算力本身,二是购买算力跑起来所需要的能源,也就是电力。长远来看,Kimi 的确需要更多的辅助。不过,现在 Kimi 已经接受了阿里的投资,而且这个投资不是以现金的形式进来的,而是以算力服务的方式进来的,这就是比较适合 Kimi,也比较漂亮的一次融资。

目前来看,Kimi 走的还是一条标准化的路子,危险系数也不高。面向 C 端的定位能更高效地切入行业,虽然变现效率不及 B 端,但长文本现在还算 C 端的 “ 大杀器 ”,或许足以支撑 Kimi 在实践中找到一个最佳的商业场景。成本更不太需要 Kimi 操心,备受瞩目的“清华系”出身,也能让月之暗面有更多故事可讲。

连诗路分析,Kimi 后期的运营将分为两个阶段。“ 第一个阶段,基础模型要做得比一般的模型好,因为对标国内大模型来说没有特别领先。第二个阶段是打磨产品,到底是学习、模仿并超过 ChatGPT,还是做一个 AI 搜索引擎,这些都需要团队更仔细地考虑。如果还要做 toB,对于 Kimi 这种 toC 出身的团队来说,基因不一样,那么就需要跨越行业的 Know-how,处理不同的数据集等等,这可能还需要重新搭建团队。

三、Kimi的未来,也是大模型的未来

更多时候,惯性思维还是会引导我们把大模型当作一个孤立的 “ 产品 ” 来看,讨论它怎么获客,怎么以传统的互联网产品逻辑变现。但如果跳出这个逻辑,大模型的发展空间肯定不仅仅是紧盯着一个两个用户的引入。

月之暗面创始人杨植麟就认为,长文本本身的可扩展空间非常大,他提到,不能只看数字,因为今天是几百万还是多少亿的窗口没有意义,要看的是 “ 它在这个窗口下能实现的推理能力、the faithfulness 的能力( 对原始信息的忠实度 )、the instruction following 的能力( 遵循指令的能力 )——不应该只追求单一指标,而是结合指标和能力。”

Kimi 的个体命运刚刚开始,长文本也是。或许在 AI 进入真正的成熟发展期之时,长文本早就是不被单独提及的技术壁垒了,它会在自我迭代和外部进程的双重作用下,产生更多价值。

想象空间更大的还在于长文本可能带来的商业机会。创业者们非常乐于看到 Kimi 的出现,说白了,Kimi 最直截了当地解决了长文本这一个痛点,让很多创业者都看到了新的应用方向。

作为创业者,王伟男也认为,Kimi 的影响更加纵深,大家因它而更加对 AI 应用的落地充满信心。“ 以前互联网创业的逻辑是,做一个新的产品到互联网上获客,然后产生经济效益,这种创业生态已经非常卷,非常成熟了。经过一波厮杀,留下来赚到钱的人,接下来的课题无非就是提升生产效率和降低成本,大模型的本质就是在解决这些课题。我们的创业土壤的成熟度决定了,在某一个点,一定会有大模型爆发一个指数级增长。”

多位行业人士对 Kimi 的形容是 “ 万里长征才刚刚开始 ”,我们很难用过往的互联网经验看待大模型,看待看似朴素的 Kimi,就像我们很难在过去预知互联网的诞生,更无法预知短视频、直播电商一众新兴行业的崛起。

“ 去年开始,一些跟模型应用上下游相关的行业都在做同一件事,就是囤很多应用类人才和团队,因为当时大家所有的人都默认,谁掌握了平台生态,谁能快速构建起多场景落地能力,谁就会拿到晋级票。” 王伟男举例,类似于移动互联网的发展历程,一开始很多研发者聚集在平台里,做出了产品,拿到了流量,然后有了美团、腾讯、淘宝。后来在这些平台孤岛上,又有更简单的小程序出现了,一大部分研发生产力被释放,也让更多的创业机会涌入,“ 过去十年间在移动互联网发生的一切,也会在大模型的世界里重现。”

Kimi 的惊艳之处更多的在于,它的思路有可能在未来牵起某一种新产业,或者是在旧的产业中注入生机。只把 Kimi 当作一个 “ 工具 ” 或 “ 产品 ” 来看,获客成本、商业化能力肯定是最重要的,但假如把它当作一个类似 “ 互联网 ”的契机来看,意味完全不同了。

大厂卷 toB 应用场景未必是绝对正确的,万一 toC 才有更广阔的未来呢?

Suno改造音乐圈?还早

aigc阅读(73)

“不开心就让Suno给你写首歌吧。”

近期,AI音乐生成类工具Suno发布最新版本,凭借着低门槛、速度快、歌曲完成度高的强大功能,被网友誉为音乐界的ChatGPT,甚至一些词曲创作者开始担心,自己要失业了。

这是国外AI初创公司Suno研发的一款文本生成音乐工具,目前推出的是V3版本,用户只需输入几句歌词或者歌名,并自选音乐风格,便可在一分钟内得到两首时长在两分钟内的歌曲。Suno支持中文在内的多种语言输入,且免费向用户开放。

近两年,在文生图、文生视频领域分别诞生了Midjourney、Sora等效果炸裂的应用。在AI生成音乐领域,类似的工具也不少,比如国内有网易的网易天音、腾讯的TME Studio,以及灵动音科技(创始团队来自清华大学)的BGM猫等。国外更不用说,比如谷歌的Magenta Studio,以及号称不会复制任何歌曲、生成独一无二曲子的Soundful等。但这些都没有引起大范围关注,直到Suno的出现。

此刻,圈外用户用Suno创作各种搞笑歌曲,过了一把音乐人的瘾,圈内从业者也将自己写的词放上去,试图一探自己和AI作曲的高低,结果被高完成度震惊。很多人觉得,Suno带来的震撼可以与上一次引发影视圈热议的Sora相提并论。

随着Suno的火热,其幕后团队的相关信息也出现在公众视野,这家坐落于麻省剑桥的公司,目前共有12名员工,四位创始人曾来自同一家公司,为机器学习专家,其中有两位还是音乐爱好者。

与市场上众多AI音乐生成类工具相比,Suno究竟强在哪?它会颠覆音乐圈吗?

一、“傻瓜式”操作,一分钟生成两首歌

业余音乐爱好者科科在社交平台上偶然刷到了Suno的相关内容,其能让小白用户在一分钟内完成歌曲创作的强大功能,让他忍不住尝试了一把。

在随机输入了一串没有任何逻辑性的数字加字母后,不到半分钟,科科便拿到了曲子。“这么拗口的歌词配上旋律居然十分流畅”,他感到十分意外。

其一键成曲的低门槛让网友们玩嗨了。有人让Suno一本正经地唱菜谱,还有人将自己打工的心酸经历输进去,生成歌曲发到网上。不少网友表示,自己被Suno创作的曲子笑到肚子疼。

图源 /Suno官网

Suno为什么火了?它究竟强在哪?

首先得益于它的低门槛,让普通用户找到了自己写歌的快乐。

很多网友表示,自己被Suno的“省事”所吸引。用Suno创作一首歌,只需简单四步。登录官网注册、点击AI创作、输入文字、点击创作按钮,便可拿到两首歌词相同但旋律不同的歌曲。

从打开软件到生成歌曲,全程不到一分钟。如果用户不会作词或者懒得作词,也有解决办法,用户只用选择希望的曲风,它就能自动生成。

Suno还十分智能,比如它支持歌曲进一步优化。

如果用户觉得生成的某一首歌不错,但还想再精进一步,只需要点击“生成类似“选项,类似于妙鸭相机的“我想更像我一点”按钮,几秒钟后便又可得到一首作品。

此前Suno支持用户每天免费使用5次,也就是生成十首歌,但不允许商用。不过目前,根据官网显示,用户首次注册可获得20积分,且第二天不会再赠,而每次生成一首,会消耗5个积分,也就是只能免费玩2次。如果想多玩几次或者商用,也有办法,交钱即可。

选择界面上的会员充值按钮,有68元-498元不等的4种套餐可选,价格越高,获得的创作次数越多。比如68元对应的是136首歌曲,498元则是1328首。官网标注,这些歌曲可被商用。

普通用户惊讶于Suno的一键生成速度和操作的低门槛,而部分圈内人士更关注其专业度,甚至产生了危机感。

音乐制作人樊宇镈用了好几个“非常”形容自己的惊讶程度。他告诉「定焦」,如果之前的AI音乐类工具是小学生水平,那Suno至少是上初中了。

在Suno之前,他尝试过用很多AI工具写歌,但效果一般。用他的话说,费半天劲训练AI,结果生成的更多是伴奏模型,或者是聚焦某一环节,比如辅助作词、自动编曲、生成人声、制作专辑封面等。整体计算下来,自己用AI时投入的时间和精力,和不使用差不了太多。

但这次Suno已经能做到自动生成歌词+选择谱曲风格+人声演唱,“发展到可以自动写solo的程度了。”而且他还发现,其创作的曲子还有和声,“不少初级音乐制作人都做不到这种程度,秒杀了那些在淘宝定价800元一首的初级编曲。”

和「定焦」的交流过程中,多位专业人士认为,Suno生成的歌曲有的能达到商用程度,即在不涉及版权风险的情况下,直接对外出售。

爱梦科技CEO雷鸣把一位新生代歌手的词放到Suno里一键成曲,听完后他觉得,AI创作的歌曲反而更接近行业标准。“做出来的歌质量很高,有的甚至能达到唱片级别。”

音乐从业者小杰也告诉「定焦」,自己和身边的音乐人朋友都在感慨Suno的强大,“本就吃不饱饭音乐圈又迎来了一波雪上加霜。”

二、Suno虽好,但不必神化

虽然AI生成类的音乐工具不少,但一些圈内人士觉得,之前的工具在曲作质量上存在明显问题,操作也不够便捷,所以更多是“狼来了”的故事,直到Suno V3版本出现,大幅刷新了他们的认知。

有着十年大厂编程经验,同时也密切关注AI的佐罗告诉「定焦」,他觉得Suno带来的影响可能和Sora差不多,是音乐、影视领域创作的一次重大突破,而且其已经处在公开免费使用阶段。

据了解,Suno背后主要由自研的两个大模型支撑,分别是基于transformer的Bark语音模型和Chirp音乐模型,前者主要用来生成人声,后者提供音乐旋律和音效。两者让Suno生成的音乐旋律更智能化、复杂化,这也是这家公司的核心技术。

不过,Suno也不完美,它在时长、语言理解力,以及音乐分轨等方面都有问题。

首先,目前Suno生成的曲子都不到两分钟,无论是普通用户还是专业音乐制作人,都明显感觉到很多作品经常戛然而止,这直接影响了听觉效果。

其次,虽然Suno支持多国语言创作,但其最了解的还是英文,在理解中文歌词及音乐风格上,存在明显偏差。

樊宇镈频繁使用过十几次后发现,在生成电子、R&B、摇滚等音乐风格时,Suno能处理得很好,但华语流行风格不太行。「定焦」在尝试用Suno创作时,风格上选择“民谣”,其创作出来的两首曲风都更像二次元。

他还遇到过主副歌不分的情况,将自己创作的中文歌词输入进去,并将主副词做了明显标注区分,但Suno依然把副歌的最后一句唱到了主歌上。

此外,Suno创作出的作品不支持调整分轨,专业人士没有办法对生成的歌曲进行调整,这也是目前困扰Suno商业化的最大难点。

雷鸣表示,虽然目前Suno生成的音乐能轻松达到广告配乐、影视配音标准,但如果客户听完一遍后,还想修改一些细节,Suno就办不到了,只能再次随机生成另一首曲子。

樊宇镈觉得,在这一点上,网易的AI音乐工具——网易天音就比较友好,支持导出音轨。不过,相比Suno,网易天音生成的曲子还比较初级,且需要音乐人认证。

图源 / 网易天音官网

AI研究者Cyrus则提出,目前AI生成音乐音频清晰度不够高,这也让其很难改编。即便Suno能导出来,曲子的高频和低频都会损失比较严重,还会伴有杂音、噪音等。所以目前Suno更多的是用来娱乐。

在Cyrus看来,文生图和视频的核心在于如何更完美地模拟物理世界,而音乐最重要的是,如何还原人的情绪。但Suno的歌曲旋律较为单一,使用的乐器也不够丰富,且生成的音乐时长还不够,这些都阻碍了情感传递。

想要解决这些问题,需要数据、时间和一定的技术突破。

人工智能在读博士、做过相关大模型研究的牛小博从技术端解释,目前Suno的底层技术还是大模型用到的diffusion、transformer的底层架构,但在多模态上有所突破,比如文字(含歌词)、声音(人声、曲子)、图像(能生成封面,但很简单)的多模态。而其生成的歌曲只有不到两分钟,很有可能是算力不够。

一位业内人士也告诉「定焦」,“目前AI生成音乐的一大技术难点是,大模型难以在学习复杂音乐乐理的同时,理解、模拟词曲情感,如果还要复制市面上特定风格、某一歌手的表达方式,那会更加复杂,这需要大量数据和算力。”

Cyrus觉得,Suno有所突破,但在技术层面并非革命性的创新。“Suno代表的AI生成音乐,可控度和复杂度远不及文生图,还有较长的一段路要走。”牛小博表示。

三、Suno会抢谁的饭碗?

目前,Suno以及AI生成音乐工具被热议,不过普及速度似乎不如想象中那么快。

「定焦」询问了几家国内音乐厂牌,以及大众熟知的歌手团队,大多数人表示,这类工具不会影响到他们的日常创作,甚至还有一部分人没有听说过Suno。

这主要有两方面原因。

一是音乐人或者公司使用 AI的主要目的是提高效率,但之前从业者需要反复调教AI,才能达到使用效果,调教AI的时间和其单独创作所花费的时间差不多。而且,当音乐人自身灵感爆发时,速度往往更快。

更主要的原因是,目前AI生成的音乐还满足不了用户/客户想要个性化歌曲的需求。即便是已经很强大的Suno,虽然歌曲质量在线,但缺乏有创造力的点。

归根究底,目前AI生产出的还是工业化产品。

牛小博表示,目前这类工具最大的难点是获取优质数据和相关版权。版权问题主要靠平台的努力,优质数据则考验运营能力。如果越来越多优秀音乐人能在Suno平台上持续产出高质量的音乐数据,AI便有可能产出更多高质量、有灵魂的歌曲。

不过,Suno所代表的AI生成类音乐工具,其更新迭代速度,已经让很多从业者感到恐慌。

去年4月推出文本转音频模型Bark,7月在音频生成模型上增加人声音乐,12月用户可以在网页上使用,再到如今推出Suno V3版本,这家成立不到两年的公司,在不到一年时间内,实现了AI音乐专家口中需要数年才能完成的突破。

有网友将Suno升级的三个版本对比发现,其修复自身BUG的速度也非常快。输入相同一段歌词,V1版本还将古风爆改成流行,V2就变成了很明显的古风,比如在开头加入古筝弹奏,而V3的人声和旋律一体化程度非常高。如果将来Suno再迭代,加上大量数据训练,取代一些工作岗位不是不可能。

图源 /Suno官网

而短期来看,它将很快会对两类人产生影响。

一类是普通用户。Suno联合创始人Shulman曾表示,他们的目的是,降低用户创作音乐的门槛,让每个普通用户都能成为创作者,Suno并不是想取代艺术家。而从目前的用户反馈来看,这一工具已经让很多音乐小白体验到了不懂乐理就能写一首歌的快乐。

另一类便是批量写歌的公司。

在交流中,大家都认同,Suno无法取代乐队这种需要团队合作的音乐种类,也不会影响知名音乐人的饭碗。“不过将替代掉95%以上没有那么厉害的从业者,”雷鸣表示,那些不追求独特性,喜欢批量写歌的公司和一些把音乐当伴奏的领域,将迅速被AI取代,比如广告配乐、环境音乐、影视配音,甚至一些同质化的网络歌手和短视频神曲。

Cyrus也觉得Suno对编曲、混音要求不高,特别是市面上那种几百块一首的口水歌打击很大。而对熟手来说,比如作曲、作词、编曲混音从业者,可能会带来利好,毕竟这些工作可以一个人完成了。

据了解,国外已经有公司收到了AI批量作曲的需求,且专业人士也将AI应用到了《芭比》和《奥本海默》等影视音乐中。国内目前还没有将AI音乐大规模投入到商用中的情况,不过从业者已经开始尝试。

需要注意的是,除了技术,AI所带来的版权问题,也是影响Suno以及AI作曲未来发展的一道门槛。

“音乐圈抵制AI作曲”、“部分歌手被怀疑借助AI作曲引发网友不满”、“音乐公司要求AI使用自家歌手声音时得到授权”……自从AI作曲出现后,这些声音就没有断过。

佐罗从另一方面分析,Suno也会给行业带来一些良性影响。“像影视剧、短视频等的BGM就不会有太多版权纠纷了,毕竟每位用户都可以用AI生成符合特定场景的音乐。”

现在,Suno公司已经宣布Suno V4正在开发中,并会推出一些令人兴奋的新功能。到时,AI和人类又将开启新一轮的较量了。

GPT(LLM)不是AGI的全部

aigc阅读(71)

一、AGI全景梳理

当我们探索人工智能的发展和前景时,总是会创造一些概念和名词。而充分理解这些词汇则是认识人工智能的第一步。

这些名词包括人工通用智能(AGI)、窄人工智能(ANI)、自然语言处理(NLP)、计算机视觉(CV)、大语言模型(LLM)、AIGC(生成式人工智能)、GPT(生成式预训练Transformer模型)、BERT(基于Transformer的双向编码)、Diffusion Models(扩散模型)、GANs(生成对抗网络)、Transformer、RNNs(循环神经网络)、CNNs(卷积神经网络)、ANN(人工神经网络)、Fine-tuning(微调)和PLHF(人类反馈的强化学习)等。

本小结将通过概念和实现两个层面梳理他们之间的关系。

1. 概念层

AI是人工智能(Artificial Intelligence)的简称,该概念最早是达特茅斯大学的一名年轻教授约翰-麦卡锡(John McCarthy)在1956年为研讨会写提案时创造的,后来被广泛接受为描述一种由人类创造出来的技术,它模仿并扩展了人类智能的各个方面,包括感知、学习、推理和决策等。但长久以来AI概念只是描述人类的一种理想和目标,并无实际进展。

为进一步实现AI,学者和专家们根据其应用场景不同将AI的目标拆分为AGI和ANI两种实现目标。

  • AGI:是指通用人工智能(Artificial General Intelligence),它是一种智能的形式,能够理解、学习和应用知识跨越不同的领域和任务,与人类智能类似。与ANI不同,后者主要专注于特定领域或任务(如图像识别、语言翻译或玩特定的游戏),AGI可以在没有专门为每个新任务编程的情况下,自主地执行任何智能生物能够执行的学习或解决问题的任务。可以说AGI是模型泛化形式。
  • ANI:是指窄人工智能(Artificial Narrow Intelligence),也被称为专用人工智能,指的是专门设计来执行一个或几个特定任务的智能系统或软件。这类智能系统表现出在其专门领域内的高效率和强大能力,但它们的能力是局限的,只能在其被设计和训练的特定任务范围内工作。得益于AI三巨头(Yann LeCun、Geoffrey Hinton & Yoshua Bengio)的贡献,在过去10年,ANI在语言处理、图像识别方面取得突破性进展,并广泛在各行业中应用和推广。但在AGI派来看,ANI并不能算真正的AI,因为ANI缺乏像人一样对信息广泛和通用的处理能力。人工智能到底是朝向知识专精的专家系统发展,还是知识覆盖更广泛、通用的百科全书方向发展?有待验证。但AGI作为新兴事物确实已得到足够的认可和关注。

除了AGI和ANI两个AI目标概念以外,根据人类的感官需求,AI的具体应用则主要体现在语言和视觉处理的两大领域,即:NLP和CV。

  • NLP:是指自然语言处理(Natural Language Processing),是人工智能(AI)和计算机科学领域的一个分支,专注于使计算机能够理解、解释和生成人类的自然语言。NLP结合了计算机科学、人工智能和语言学的技术,旨在桥接人类语言和计算机之间的差距。包括但不限于:文本分析,语言翻译,对话系统,自动文摘,命名实体识别(NER),自然语言理解(NLU)等。
  • CV:是指计算机视觉(Computer Vision),目标是使计算机能够“看”和理解图像和视频中的内容,就像NLP使计算机能够理解和生成人类语言一样。计算机视觉涵盖了从基本的图像处理到复杂的图像理解的各个方面,包括但不限于:图像分类,对象检测,图像分割,图像生成,图像恢复,动作识别等。

当前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV领域最为成功的两款应用之一。而ChatGPT就是LLM的一种具体实现。

LLM:是指大规模型语言模型(Large Language Model)。随着ChatGPT的成功,而广为人知。是一种利用深度学习技术训练的人工智能系统,旨在理解、生成和翻译人类语言。这些模型通过分析海量的文本数据来学习语言的结构、语法、语义及其使用上下文,从而能够生成连贯、逼真的文本,回答问题,总结信息,翻译语言,甚至编写代码。这里需要特别指出大规模是指模型训练过程中使用得的超大参数量,例如:ChatGPT-4训练参数量大概是1750亿个参数,而马斯克刚刚开源的Grok-1参数量则为3140亿个参数。不同于ANI领域中的自变量概念,这里的参数是指通过神经网络运算的权重数量。因此大样本或大数据量并不能被认为是大规模语言模型。同时,LLM是特指大规模语言模型,即便是大规模参数的ANI模型也不能称为LLM,例如:华为盘古气象大模型并不是LLM,其只是采用Transformer架构的ANI模型。

最后我们要讨论一个比较特殊的概念,即:生成式AI(Artificial Intelligence Generated Content,简称AIGC)。该概念并不是AGI概念的原生词汇,而是国内学术造词工厂的杰作。国内普遍认为AIGC是利用人工智能技术自动创建文本、图片、音乐、视频等内容的过程。包括但不限于自然语言生成(NLG)、计算机视觉、音频合成和深度学习模型等领域。由于重复和含糊不清的定义,AIGC更像是把NLP、CV等重新包装成产业应用,制造互联网热点的过程。

以上重点讲解了关于人工智能最近比较热点的概念,但不是全部。之所以叫概念是因为这些名词本身并无实际模型支持,只是方便人们归类和理解的一种称呼而已。接下来讲解的具体AI工具则是有模型、架构和算法支持,有实际实现意义的内容。

2. 实现层

为了便于理解,我将模型、架构和算法归统称为实现层,因此首先出场的是当下最火的GPT模型。

1)GPT—生成式预训练Transformer模型(Generative Pre-trained Transformer)

这是一种LLM也是NLP,由OpenAI开发。它基于Transformer架构,主要用于处理和生成自然语言,因此GPT并不能直接生成图像。GPT模型属于深度学习的一部分,通过大量文本数据的预训练,学会了语言的结构、语法、词汇及其上下文之间的关系,使其能够执行各种语言任务,如文本生成、翻译、问答和摘要等。

其工作原理主要由预训练和微调构成。

预训练阶段,GPT模型在大规模的文本数据集上进行训练,目的是学习语言的一般特征,比如词汇、语法和语言使用的上下文关系,这一步骤让模型能够理解和生成语言的基本结构;

微调阶段,模型通过在特定任务的数据上再次训练,能够在特定的应用场景中更加精准和高效。GPT模型的特点是其“生成能力”,即能够基于给定的文本提示生成连贯、创新、多样化的文本内容。这使得GPT模型不仅可以用于回答问题和参与对话,还能用于创作文章、编写代码和更多创造性的任务。

在左图中,首先使用的Transfomer架构开展预训练;而在右图则是对不同任务进行微调的输入转换。将所有结构化输入转换为Token序列,由预训练模型处理,然后是Linear+softmax层处理。

微调(Fine-tuning)是深度学习中的一个重要概念,特别是在自然语言处理(NLP)、计算机视觉等领域的应用中。微调通常发生在预训练模型的基础上,目的是将这些通用模型调整为特定任务的专用模型。

2)BERT—基于Transformer的双向编码模型(Bidirectional Encoder Representations from Transformers)

这是一种同样采用Transformer架构的自然语言处理(NLP)预训练模型,由Google在2018年提出。它的核心创新之一是使用双向Transformer编码器来理解语言的上下文,这与之前的单向或部分双向处理方法相比,能够更准确地捕捉到词语间的关系和语义。

从上图可以看到,BERT使用双向转换器。OpenAI GPT使用从左到右的转换器。ELMo使用独立训练的从左到右和从右到左的LSTM的级联来生成下游任务的特征。在这三种表示中,只有BERT表示在所有层中都以左右上下文为联合条件。

除了架构差异之外,BERT和OpenAI GPT是微调方法,而ELMo是基于特征的方法。虽然BERT也使用了大量的文本数据进行预训练,能够捕捉语言的深层语义和上下文关系,但其设计初衷主要是提高特定的NLP任务(如问答、命名实体识别、情感分析等)的性能,而不是“生成能力”。由于BERT的参数量大致在3.4亿左右,因此一般不把BERT归为LLM。

在自然语言处理(NLP)领域,除了著名的GPT系列和BERT之外,还有很多其他重要的模型和技术进展,例如:ELMo、RoBERTa、T5、XLNet和Grok-1采用的Mixture-of-Experts模型等,由于篇幅有限不一一介绍。

在计算机视觉(CV)领域,也是众星璀璨,其中以Diffusion Models和GANs最为著名。

3)Diffusion Models—扩散模型

Diffusion Models同样是生成模型,主要用于创建高质量、逼真的数据,如图像、音频、文本等。这些模型的灵感来自物理学中的扩散过程,即物质从高浓度区域向低浓度区域移动。

Diffusion Models 通过以下两个阶段来生成数据,即:噪声添加过程(向前扩散),噪声去除过程(向后扩散)。

扩散过程是一个马尔可夫链,它在采样的相反方向上逐渐向数据添加噪声,直到信号被破坏。当扩散由少量高斯噪声组成时,可以将采样链转换设置为条件高斯,从而实现特别简单的神经网络参数化。

在具体训练架构的实现方面Diffusion models 通常利用CNNs(卷积神经网络)作为其核心架构。这主要是因为卷积神经网络在处理图像数据方面的高效性和能力。

CNNs能够从图像中自动学习和提取有用的特征,这使得它们非常适合于图像相关的任务,如图像生成、图像分类、图像恢复等。

在Diffusion models的上下文中,CNNs被用来实现所谓的“去噪”步骤。在这一步骤中,模型试图从部分加噪的数据中预测原始数据的干净版本。这个过程需要模型能够理解图像中的复杂模式和结构,以便逐步消除噪声并最终重建出清晰、高质量的图像。CNNs以其强大的空间特征提取能力,非常适合这项任务。

当然,根据特定应用的需求,Diffusion models也可以集成其他类型的神经网络架构。例如,对于涉及序列数据(如文本或音频)的生成任务,可以考虑使用RNNs(循环神经网络)或Transformer网络,这些网络能够更好地处理序列之间的依赖关系。

最近的研究也开始探索将Transformer架构应用于Diffusion models中,尤其是在需要处理大量上下文信息或长序列数据的场景。OpenAI最近发布的Sora就是一种Transformer+Diffusion的训练模型,其利用Transformer架构,对视频和图像的时空补丁进行编码,实现在可变持续时间、分辨率和宽高比的视频和图像上训练文本条件扩散模型。

总的来说,虽然Diffusion models最初和最常用的架构是基于CNNs,但随着技术的发展和研究的深入,其他类型的神经网络也被探索和应用,以提高模型的性能和适用性。

4)GANs—生成对抗网络(Generative Adversarial Networks)

GANs是一种由Ian Goodfellow于2014年提出的深度学习模型。GANs通过其独特的训练机制,在生成新数据样本,尤其是图像生成领域,表现出了显著的能力。GANs的核心思想是基于两个相互竞争的网络:一个生成器(Generator)和一个判别器(Discriminator)。训练过程涉及对这两个网络进行交替训练。首先,固定生成器,训练判别器以最大化其区分真假样本的能力。然后,固定判别器,更新生成器以最大化判别器的错误率。通过这种方式,生成器逐渐学会生成越来越逼真的数据。

这个过程像一个“伪造者”(生成器)试图创造看起来真实的艺术品,和一个“鉴别者”(判别器)试图区分艺术品是真是假的游戏。随着游戏的进行,伪造者变得越来越擅长创造逼真的作品。它们都可以使用不同类型的神经网络架构。

训练从具有4×4像素的低空间分辨率的生成器(G)和鉴别器(D)开始。随着训练的进行,我们逐渐向G和D添加层,从而提高生成图像的空间分辨率。GANs的强大之处在于其架构的灵活性,允许在生成器和判别器中使用多种神经网络类型。下面是GANs中常用的几种神经网络类型:

  • 卷积神经网络(CNNs):对于处理图像相关的任务,如图像生成、图像到图像的转换等,卷积神经网络是最常见的选择。CNNs能够有效地处理图像数据,捕捉局部特征和模式,这使得它们在图像识别和图像生成任务中表现出色。
  • 深度卷积GAN(DCGAN):是一个著名的使用CNNs的GAN变体,专门设计用于提高图像生成的质量和稳定性。
  • 全连接网络(Dense Networks):在某些简单的GAN应用中,尤其是在生成器和判别器的早期版本中,全连接网络或密集网络被用于处理相对简单的数据生成任务。虽然在处理复杂图像任务时,全连接网络可能不如CNNs那样有效,但它们在概念证明和初步实验中仍然有其用武之地。
  • 循环神经网络(RNNs):对于处理序列数据的任务,如文本生成或音乐创作,循环神经网络(包括LSTM和GRU等变体)可以在生成器和/或判别器中使用。RNNs擅长处理时间序列数据或任何形式的顺序数据,能够捕捉数据中的时间依赖性和顺序模式。
  • Transformer:最近Transformer网络也开始被集成到GAN架构中,尤其是在需要处理大量序列数据的任务中。Transformer架构通过自注意力机制(self-attention)提供了一种有效的方式来捕捉序列中的长距离依赖性,这在文本生成和某些类型的图像处理任务中非常有用。

一般而言我们把GPT、BERT、Diffusion Models和GANs统称为训练模型或框架,而将Transformer、RNNs、CNNs归为训练架构。区别是模型或框架可以根据不同应用场景选择不同的训练架构,而训练架构中又可在不同的环节,采用了不同的神经网络算法。由于篇幅有限,我们不再讨论出现比较早的RNNs、CNNs,而是主要介绍当前多用途的明星架构Transformer。

5)Transformer架构

Transformer是最初在2017年由Vaswani等人在论文《Attention is All You Need》中提出。它主要用于处理序列化数据,如文本或时间序列数据,特别在自然语言处理(NLP)领域内取得了革命性的进步。Transformer模型的核心思想是利用“自注意力(Self-Attention)”机制,使模型能够在处理序列数据时考虑序列中各元素之间的全局依赖关系。

其主要编码器和解码器构成:

  • 编码器(Encoder):编码器由多个相同结构的层堆叠而成,每一层都包含一个多头自注意力子层和一个前馈神经网络子层。在论文中Transformer由1个输入层和6个编码层构成,但在实践中层数可自行设置。编码器的作用是将输入序列转换为一系列注意力表示。
  • 解码器(Decoder):解码器也由多个相同结构的层堆叠而成,每一层包含一个多头自注意力子层、一个编码器-解码器注意力子层和一个前馈神经网络子层。在论文中Transformer由1个输入层、6个解码层和1个输入层构成,同样实践中层数可自行设置。

解码器的作用是根据编码器的输出和先前生成的部分目标序列来逐步生成目标序列。解码器中的自注意力机制允许模型关注输入序列的不同位置,而编码器-解码器注意力机制允许模型在解码器的每个位置对编码器的输出进行注意力计算,以便获取输入序列的信息。

在 Transformer 模型中,每个编码器和解码器层都包含残差连接(Residual Connection)和层归一化(Layer Normalization)操作。这些操作有助于缓解深层模型训练时的梯度消失和梯度爆炸问题,并且有助于模型更好地训练和收敛。残差连接允许梯度更直接地反向传播,并且层归一化有助于稳定训练过程中的每一层的梯度流。

Transformer作为通用架构,不同与传统深度学习中具象化和关系复杂的自变量设置,而是将自变量泛化为:键向量(Key)、值向量(Value)和查询向量(Query),模型泛化可极大增加架构的通用性,且避免过度拟合。

  • 键向量(Key):键向量可以被视为一种索引,用于帮助查询向量找到相关的信息。在自注意力机制中,每个输入元素都有一个对应的键向量,查询向量与这些键向量进行点积运算,得到的结果经过softmax函数处理后,可以得到一个权重分布,这个分布决定了模型对输入序列中各个部分的关注程度。
  • 值向量(Value):值向量可以被视为实际的信息内容。在自注意力机制中,每个输入元素都有一个对应的值向量,这些值向量根据由查询向量和键向量计算得到的权重分布进行加权求和,得到的结果就是自注意力层的输出。
  • 查询向量(Query):查询向量可以被视为对信息的请求或查询。在自注意力机制中,查询向量用于与键向量进行匹配,以确定模型应该关注输入序列中的哪些部分。

在Transformer架构中驱动模型训练的机制是自注意力机制(Self-Attention Mechanism),自注意力机制允许模型在计算编码器和解码器的输出时,对输入序列的不同位置赋予不同的注意力权重。

具体而言,给定一个输入序列,自注意力机制计算出每个词与其他词之间的相关性,然后通过加权求和的方式得到每个词的表示。

这种机制使得模型可以同时关注输入序列中的所有位置,而不是像RNN一样逐步处理。自注意力机制帮助Transformer实现并行向量运算能力,从而充分发挥GPU的并行计算能力或分布式计算能力,从而大幅提高训练效率和训练数据量,这也是大语言模型(LLM)的基础。

为了进一步增强模型的表达能力,Transformer将自注意力机制分为多个头,即:多头注意力(Multi-Head Attention)。每个头学习一种不同的表示。最后,将多个头的输出拼接在一起并通过线性变换进行投影,得到最终的注意力表示。多头注意力由于同时考虑文字序列不同位置的相关性和语义信息,使得模型能够更好地理解输入序列中的各个部分之间的关系。

对Transformer最大的误解是认为它是一种神经网络。例如,某商业大佬就是说:“Transformer模拟了人脑神经网络”。Transformer是一种深度学习的训练架构,而非一种神经网络或算法,Transformer是利用前馈神经网络(Feedforward Neural Networks),实现向量矩阵的运算。在每个编码器和解码器的每个位置都有一个前馈神经网络。

该网络是一个全连接的前馈神经网络,用于在每个位置对注意力表示进行非线性变换。在实践中往往都是根据实际情况对Transformer的基础架构进行调整和优化,并非一成不变。

6) MoE—混合专家模型(Mixture-of-Experts)

MoE是一种采用人工神经网络的训练架构,最早由Jacobs 等人在1991年的论文《Adaptive Mixtures of Local Experts》中提出。其核心思想是一种将多个局部专家模型组合在一起的方法,以适应不同的输入数据分布,并且这些专家模型可以动态地分配权重。

在MoE中,每个专家模型都被训练来解决特定的子问题,而门控网络则是用来决定在给定输入情况下,哪个专家模型应该负责给出最终的输出。MoE出现时间较早,是为解决算法复杂性、提高训练性能、降低成本而提出的。

与Transformer不同,其架构充分利用GPU集群的分布式计算能力,将多任务执行从算法结构层面转移到GPU集群层面从而降低算法的结构复杂性。而马斯克刚刚开源的Grok-1就是采用这种架构。

Mixture-of-Experts架构的主要组成部分:

  • 专家模型(Expert Models):每个专家模型是一个独立的神经网络,它们被设计用于解决特定的子问题或者在特定的输入数据分布下表现良好。每个专家模型都接收输入数据,并且输出对应的预测结果。
  • 门控网络(Gating Network):门控网络用于动态地分配权重给各个专家模型。给定输入数据,门控网络计算每个专家模型对于当前输入数据的相关性或者重要性。这些权重通常是通过softmax函数归一化得到的,以确保它们的总和为1。
  • 混合操作(Mixture Operation):通过将每个专家模型的输出与门控网络计算得到的权重相乘并相加,可以得到最终的输出。每个专家模型的输出都被乘以对应的权重,然后再相加,以产生最终的输出。
  • 训练策略:MoE模型通常使用端到端的反向传播算法进行训练。在训练过程中,专家模型和门控网络的参数都会被调整,以最小化模型在训练数据上的损失函数。门控网络的训练目标通常是最大化模型的整体性能,并且也可以通过额外的正则化策略来提高模型的泛化能力。

Mixture-of-Experts模型通过将多个专家模型组合在一起,并且通过门控网络动态地分配权重,可以提高模型的灵活性和适应性,从而在处理复杂的输入数据分布时取得更好的性能表现。

7)RLHF—人类反馈的强化学习(Reinforcement Learning from Human Feedback)

RLHF是一种机器学习一种方法和阶段,为避免最终训练输出的结果违背人类道德伦理、民俗习惯、社会规则和法律,在机器学习的最后阶段结合来自人类的反馈和强化学习(RL),以指导和优化人工智能模型的行为和决策。这种方法特别适用于在那些难以为机器提供明确、数学化的奖励函数的情况下,训练模型执行复杂或高度专业化的任务。

在传统的强化学习中,一个AI模型通过与环境互动,尝试最大化其所获得的累积奖励。这些奖励通常是预先定义好的,基于任务的目标。然而,在许多实际应用中(特别是生成式模型中),定义一个能够有效引导学习过程的奖励函数是非常困难的。

RLHF通过以下步骤解决这个问题:

  1. 人类反馈:收集人类对AI行为的评估或偏好。这可以通过直接评分、选择偏好(偏好排序两个或多个选项)或提供纠正性反馈的形式进行。
  2. 建立奖励模型:使用这些人类反馈来训练一个奖励模型,该模型预测哪些行为或决策会获得正面的人类评价。
  3. 强化学习:利用这个奖励模型作为奖励函数,采用强化学习算法训练AI模型。使其通过试错的方式学习在给定环境中如何行动,以最大化从奖励模型中获得的奖励。

RLHF的优点在于,它可以在没有明确数学形式奖励函数的情况下训练AI模型,使其在复杂环境中作出更接近人类期望和价值观的行为。这种方法被广泛应用于自然语言处理、游戏、机器人技术和其他需要复杂决策过程的领域。通过人类的直观反馈,模型可以学习执行抽象的、多样化的任务,同时减少不希望的行为或偏差的风险。

二、GPT的局限性

在当前人工智能领域中,GPT系列大模型作为自然语言处理的重要里程碑,展现了令人瞩目的文本生成和理解能力。然而,我们必须认识到,尽管GPT系列模型的表现卓越,其固有的局限性并不代表通用人工智能(AGI)的终极实现。

首先,研究显示,在复杂的逻辑推理和多步推断任务中,GPT模型可能表现不佳。虽然GPT可以生成流畅的文本,但在需要深入逻辑判断和跨领域推理的任务中,其表现可能有限。

复杂的逻辑推理和多步推断任务要求模型能够理解和操纵抽象概念、规则和关系。这些任务在人工智能领域中被视为挑战性任务,因为它们需要模型具备高级的符号推理和逻辑推断能力;GPT模型在语法和词汇上表现优秀,因其训练数据源自大规模文本语料库。

然而,在需要逻辑推理和推断的任务中,缺乏结构化数据和标签可能限制了GPT的表现,因而难以学习和理解抽象规则和逻辑关系;另一个挑战是跨领域推理,在现实世界中,许多任务可能涉及多领域的知识和信息,而GPT这类模型在跨领域推理方面可能受制于其单一领域的训练数据和知识范围,导致其推理能力受限。

其次,GPT模型在需要专业知识和精确推理的领域(如生物、医学、金融、法律等)中面临巨大挑战。在专业领域中,模型需要准确理解和运用领域特有的知识和术语,GPT等预训练模型可能无法完全掌握这些专业领域的复杂性和细节,导致其在特定领域任务中表现不佳;在特定领域的任务中,若训练数据受限或缺乏专业领域相关的数据,模型可能无法准确学习和理解该领域的概念和规则;特定领域对术语和语境的极高的精确性要求,GPT等模型目前可能难以准确处理这些领域的复杂信息和语言,导致理解和推理的准确性受到影响。GPT等通用模型可能在更具挑战性的专业领域任务中缺乏领域自适应性,无法有效应对领域内的复杂问题和需求。

最后,从长期发展来看,AGI的实现需要超越单一技术和单一领域的智能。AGI的实现要求模型能够综合利用不同感官数据和信息,包括视觉、听觉、触觉等多个感知层面。

GPT等模型虽在自然语言生成领域表现出色,但实现AGI需要整合多种感知数据,并具备跨模态智能处理能力,这超出了目前单一模态智能的范畴。

AGI还需要具备认知能力、规划决策能力等高级智能,要求模型能够思考未来、制定计划以及做出决策,这远比单纯的信息处理和生成更为复杂和综合。

AGI还需要具备长期记忆和持续学习的能力,以不断积累和更新知识,适应不断变化的环境和任务。

GPT等预训练模型可能在长期记忆和持续学习方面存在挑战,因其主要用于静态数据集的预训练。实现AGI需要模型能够在广泛领域和任务中表现出色,而不仅仅局限于特定任务或数据集。GPT等模型可能面临面向普适性通用性的挑战,因其训练数据和任务较为单一和特定。

三、我们离AGI还有多远?

这个问题激发了无数学者和研究人员、未来主义者的想象。

随着每一次AI技术的飞跃,这个话题都会被重新点燃,引起公众的热烈讨论。

尽管我们在特定领域内的人工智能(如图像识别、自然语言处理等)取得了显著的进展,但通用人工智能——一种具有广泛认知能力、能在各种任务上达到或超越人类水平的智能系统——仍然是一个遥远的目标。

1. AGI的评价方法

评价AGI能力的量化指标涉及多种方法,每种方法都尝试从不同角度捕捉智能的某个方面。

以下是一些常见的评价方法:

  • 知识测验(如智商测试、学术考试等)用于评估知识水平和逻辑推理能力;
  • 专业技能测试(如编程、法律、医学)用于评估AGI在专业领域内的知识和应用能力;
  • 复杂游戏测试(如国际象棋、围棋、星际争霸等)用于评估策略制定、学习能力和适应性;
  • 虚拟仿真环境(如OpenAI的Gym、DeepMind的Lab),通过模拟真实世界的复杂环境来测试AGI的适应性和解决问题的能力;
  • 艺术创作评估AI生成艺术作品的原创性和审美价值;
  • 创新解决方案(设计、工程或科学领域),评估AGI提出新颖解决方案的能力;
  • 图灵测试,通过判断机器是否能在文本交流中让人类误以为是与另一人类交流,来评估其自然语言处理和生成能力;
  • 情感和社会交互,评估AGI理解和生成情感反应的能力,以及在社交情境中的表现;
  • 多任务性能,评估AGI在同时处理或快速切换不同任务时的表现;
  • 学习迁移,评估AGI将在一个任务中学到的知识应用到新任务的能力;
  • 复杂问题解决,通过解决需要广泛知识和创造性思维的开放式问题来评估AGI的能力;
  • 实时决策制定,在变化的环境中,评估AGI进行决策和适应的能力;
  • 道德困境,通过模拟涉及伦理和道德抉择的情境,评估AGI的判断和决策过程;
  • 社会规范学习,评估AGI理解和遵循人类社会规范的能力;
  • 综合感知任务,评估AGI整合视觉、听觉等多种感知信息的能力。
  • 交互式任务,在涉及多模态输入(如图像和文本)的任务中评估AGI的处理和响应能力。

这些评价方法通常需要结合使用,以全面地衡量AGI的能力和性能,更好地反映AGI在模仿人类智能方面的进步。

2. 技术挑战

近年来,大型语言模型和多模态AI模型的发展让我们对达到AGI的可能性有了更多的希望。例如,ChatGPT、Claude、Gemini等模型,其具备在多模态情境下理解和生成信息的能力,标志着我们在模拟人类的认知和理解能力上迈出了重要一步。

然而,尽管这些模型在各自的领域内表现出色,它们依然缺乏人类智能的灵活性和通用性。

这些模型在特定任务上的表现虽然令人印象深刻,但在面对未曾训练或完全不同类型的任务时,其性能会大幅下降。

3. 理论和方法论上的挑战

目前,我们尚未完全理解人类智能的工作原理,包括我们如何学习新技能、如何进行抽象思考,以及我们的智能是如何在如此广泛的任务中展现出灵活性和适应性的。没有这些理论基础,我们很难设计出能模拟这些能力的AI系统。

此外,当前的AI系统大多依赖大量数据进行训练,而这种方法在达到真正的AGI时可能不再适用。

Yann LeCun(杨立昆)认为智能行为的核心特征包括理解物理世界、记忆与检索信息的能力、持久记忆、推理能力和规划能力,而自回归式大语言模型在这五个方面均表现不足或仅能实现初级功能,它们无法真正理解和模拟物理世界,不具备持续的记忆和深入的推理机制,也无法进行有效的规划。

4. 伦理和安全挑战

一个具备广泛智能和自主能力的系统可能会产生无法预测的行为,这对于确保这些系统能够以符合人类价值观和安全要求的方式行动至关重要。如何设计这样的系统,以及如何确保它们的行为不会对人类或环境造成不利影响,是我们在迈向AGI的道路上必须面对的问题。

Geoffrey Hinton认为,数字智能终将取代生物智能。在接受了海量网络信息训练的AI会比人类更聪明,因而能够轻易操纵人类——这是超级智能接管人类控制权的路径之一。

5. 能源挑战

通用人工智能(AGI)在运行和发展过程中需要大量的电力支持,算力竞争的背后是能源竞争。

ChatGPT每天需要响应大约2亿个请求,其背后的GPT大语言模型(LLM)在训练和运行过程中消耗了大量的电力。据估计,ChatGPT每天消耗的电力超过50万度,相当于1.7万个美国家庭的日均用电量。

而OpenAI CEO Altman就公开表示:人工智能行业正在走向能源危机。特斯拉CEO马斯克此前预计,AI下一阶段将会是“缺电”。

在爱尔兰,仅70个数据中心就消耗了全国14%的能源。到2030年,预计全球30-50%的生产电力将用于AI计算和冷却。

四、最后

在人工智能领域中,通用人工智能(AGI)、大型语言模型(LLM)、Transformers、扩散模型(Diffusion Models)和人类反馈的强化学习(RLHF)等技术之间存在着紧密的联系和相互作用,共同推动这一领域的进步。

AGI代表了AI的终极目标,即在各种任务和环境中展现出与人类类似的适应性和灵活性。虽然我们距离实现AGI仍有很长的路要走,但当前的进展和研究为这一终极目标奠定了基础。这些技术的融合和发展,不仅扩展了我们对AI能力的理解,也为攻克复杂问题开辟了新途径。

特别是,通过结合Transformers的模型架构,扩散模型的生成能力,以及RLHF的细致调优,我们已经能够创建出更为高效和灵活的模型。这些模型在理解语言、生成内容、解决问题等方面的能力越来越接近人类的思维模式。

随着这些领域的不断深入,我们对于实现AGI的路径也将更加清晰,为未来的科技革命铺平道路。

参考文献

  • Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.
  • Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. Advances in neural information processing systems, 2014, 27.
  • Karras T, Aila T, Laine S, et al. Progressive growing of gans for improved quality, stability, and variation[J]. arXiv preprint arXiv:1710.10196, 2017.
  • Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.
  • Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
  • Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.
  • Christiano P F, Leike J, Brown T, et al. Deep reinforcement learning from human preferences[J]. Advances in neural information processing systems, 2017, 30.
  • Ziegler D M, Stiennon N, Wu J, et al. Fine-tuning language models from human preferences[J]. arXiv preprint arXiv:1909.08593, 2019.