欢迎光临
我们一直在努力

大模型降价,一场没有赢家的战争

aigc阅读(89)

6.18卷价格的风吹到了大模型圈。

5月15日,火山引擎率先亮剑,宣布豆包主力模型在企业市场定价为0.0008元/千 tokens,较行业便宜99.3%。其精准狙击同行的做法,直接掀起了一场大模型厂商低价肉搏战。

阿里、百度、科大讯飞、腾讯纷纷站出来应战。

5月21日,阿里云官宣通义千问主力模型Qwen-Long输入价格降至0.0005元/千 tokens,直降97%;仅隔了几个小时,百度智能云祭出必杀技,宣布文心大模型两大主力模型ERNIE Speed、ERNIE Lite全面免费。

自百度之后,大模型彻底与免费挂上了钩。

5月22日,科大讯飞宣布讯飞星火Lite API永久免费开放。下午,腾讯云公布全新大模型升级方案,主力模型之一的混元-lite模型调整为全面免费。

仅仅一周,大模型从“厘”时代跨入了“免费”时代。

表面是降价,背后的根本驱动力来自于技术。在经历过一年多的技术追赶后,国内大模型厂商在算力、推理、算法等多个层面都实现了突破,从而实现了技术方面的降本。再加之大厂云计算所带来的规模化优势,才共同引发了降价潮。

从另一方面也侧面印证了,大模型从发布会demo进入了可用的新阶段。火山引擎总裁谭待谈到豆包大模型发布和降价时间点时提到了一个标准:“模型能力准备好了”。当下,各大模型厂商能够大范围开放使用的前提就是,模型能力通过测试,并且能够稳定供给。

细究之下,大模型厂商的低价、免费,更像是引诱老鼠出洞的奶酪。

这种免费带有诸多限制,阿里、百度降价幅度最高的产品都是其偏轻量化的模型版本,仅适用于使用频次不高、推理量不太大、任务处理量不太复杂的中小企业、开发者短期使用。

在这种情况下,低价、免费这些“互联网”手段沦为了大模型厂商的获客策略,一边获得更多的数据来优化模型效果,一边试图通过尝鲜来向更高阶的付费版本转化。

买得精不如卖得精,大模型厂商集体降价的背后仍有一系列问题值得探讨。

一、用互联网免费大法卖AI大模型

从使用者的角度考虑,大模型降价潜在的受益对象可能有两类:开发者和企业。

虽然行业内大规模降价是第一次,但早在去年,各大厂就通过赢黑客松比赛送token的方式,来吸引AI创业者和团队的参与。

当时,就有黑客松常客告诉光子星球,“参加比赛就是薅羊毛,token不拿白不拿”。

薅羊毛确实可以降低创业成本。把价格打下来,对开发者特别是独立开发者而言是友好的。这可能意味着开发者可以多跑几圈测试,多获得几轮反馈数据,从而缩短产品上线的周期,进一步提升创业成功的可能性。

但前提是得满足开发者和企业的需求。光子星球了解到,降价的消息传出后,在开发者和企业当中呈现出了两极化的声音。

一方对国内大模型降价比较赞同,认为开发者和企业可以继续薅羊毛,毕竟现在市场上套壳应用产品的案例不在少数;另一方则觉得,大模型厂商的降价缺乏诚意,大幅降价的都是小规模模型,虽然对外声称水平可以对标GPT-4,但实际上连GPT-3.5都不如,模型水平不达标,根本无法在实际的生产环境中运行。

大模型厂商表面上的降价,实则背后暗藏玄机。这好比给了你一个云盘限时体验卡,刚看了三秒的高清视频就弹出来升级VIP的提醒,也是恰巧刚体验了5秒极速下载,就提醒你升级会员权限。

大模型的尝鲜也是大差不差,打着降价、免费的噱头,把开发者和企业吸引过来使用,才刚上手,就被开始卡调用速度、推理速度、任务处理量等关键指标。

而且,光子星球进一步发现,大模型厂商的降价策略并未对商业化造成实质性影响。呈现的结果就是,大模型厂商价格降了,钱也没少赚。

某大厂内部人士告诉光子星球,大模型目前主要的商业化方式是拿to B订单。类似于SaaS和云的合作模式,存在case by case和合作提成两种方式。

其中,case by case是更为主流的合作方式,即大模型厂商的现有客户会因为本来就在使用某一厂商的云和SaaS产品,顺带着开始尝试该厂商的大模型。相应地,大模型厂商为了留住客户,也会在自家SaaS和云产品上增加AI的功能。

这样一来可能造成如下情况:大模型变成了SaaS产品或者项目合作的增值要素。大模型本身不付费,但为了对冲成本,大模型厂商得反过来提高SaaS和项目合作的价格。羊毛最终出在羊身上,价格的一升一降,大厂非但没亏反而照赚不误。

二、大模型降价了,然后呢?

或许国内大模型价格战的影响在于,从现在起,大模型正式与“免费”划上了等号。

这将成为一次分水岭,过去两年,一众创业者和团队试图建立的“上线即收费”的AI原生产品逻辑再次受到挑战。兜兜转转,互联网的商业逻辑再次主导了大模型的发展。

无论国内外,行业中一直都存在着模型混用的状态。本质上在于各家大模型各有所长,比如ChatGPT擅理,Claude擅文,正是基于不同模型的特性,用户在不同的使用场景就会调取相应地模型。

类似的情况也发生在中国,我们了解到,金山办公在研发WPS AI功能的过程中,就轮流尝试了MiniMax、智谱AI、文心一言、商汤日日新、通义千问等大模型能力,通过了解各家大模型的优势来搭建自己的平台。

去年,国内一家做数据治理的公司曾告诉光子星球,他们也会在前期大量地跑模型,测试不同模型的能力,在不同任务中择优调取大模型的能力。这样既进行了成本测试,也能避免对单一产品过度依赖。

到现在为止,大模型产品时常被人诟病用户黏性不高。相比于订阅收费,按API调取收费的方式本就难以留客。

企业侧的case by case收费模式亦是如此,企业使用某一家厂商的大模型周期,取决于订单周期。客户跟着订单走,今天用字节,明天也可以用阿里。

降价的本质是要加速大模型落地。大模型不能只停留在写诗作画,还得“下基层”。降价的背后是通过触达千行百业和获取更大样本容量的合作案例,从中提取共性特征,形成合理、高效的大模型行业标准。

当大模型厂商再次拉回到了同一起跑线上,在各家模型能力水平相近,价格不相上下的情况下,他们所要面临的共同课题变成了如何留住客户。

而站在大模型客户的角度,他们更希望通过对冲,减少对单一模型的依赖。在这样的心理驱动之下,未来的大模型模式可以参考SaaS和云产品的采购方式,一家公司内部可以购买多家大模型公司产品,不同的产品线和业务部门也可能使用不同家的大模型。

三、赢了价格,就赢了一切吗?

回顾历史,大模型一路从百模、参数、长文本打到了现在的价格。过去的经验告诉我们,价格不可能是唯一的决定因素。

即使不谈企业和开发者拿到手的东西对不对版,大模型厂商给出的价格在市场上也不是很有竞争力。

比国内大模型更具性价比的是开源大模型。一位国内负责电商代运营业务的工作人员告诉光子星球,截至目前为止,自己业务部门购买过ChatGPT、Midjourney等AI相关的付费产品,现在底层使用的是开源且可商用的Llama 3。

一些公司和开发者更倾向部署开源模型的原因在于,一方面国外Llama等开源模型的能力一直在追赶最强版本ChatGPT的水平,一些通用场景能力在业务中足够用。另一方面,从头部署和精调模型,对后期业务调整也更灵活。

此外,光子星球发现,在闭源的大模型原厂和开源社区中间,还衍生出了中间商角色。一个令人费解的现象正在大模型行业蔓延:大模型分销商卖的API价格比原厂价格还便宜。

以国外Deepbricks平台为例,最新上架的GPT-4o模型,OpenAI官方输入价格为5美元/1M tokens,而Deepbricks自身的售价只要2美元/1M tokens。如果这些中间商真的能做到实时更新模型能力,还能做到低价,以后可能会吸引一批开发者和企业使用。

(图源:Deepbricks官网)

Lepton AI 创始人、阿里巴巴原副总裁贾扬清认为,企业在使用AI的时候,并不是成本驱动。不是因为API贵才没人用,而是因为企业首先得搞清楚怎么用来产生业务价值,否则的话,再便宜也是浪费。

若单纯的价格不具有吸引力,客户使用哪家大模型将取决于什么?

一位中间件的创业者向光子星球表示:“最主要看模型效果,如果模型效果太差再便宜也不能使用。”

还有海外的AI创业者直接跟光子星球说,国外用ChatGPT,因为能力强;国内用文心一言,因为能满足合规需求。

于是,价格仅仅是企业选择大模型其中一个因素。

同样在云计算和SaaS时代,往往能够留住客户的不是低价,而是更深层次的绑定关系或者利益关系。例如,当企业采用了火山引擎的豆包模型,是否就能在抖音投流享受到优惠权;接入通义千问,其产品是否就能与阿里生态打通,获得更多资源支持?

企业用户选择大模型的同时,也在权衡厂商的各自优势。大模型能力的高低成为了其次,更重要的是选择这家厂商能给其业务带来多少增长,在该厂商的产业链之下能获得多大的收益。

到最后还是要拿结果说话,正如贾扬清所言,“也许不是最便宜的赢得商战,而是能落地的赢得利润。”

大模型,站在“向下竞底”和“向上定价”的分岔路口

aigc阅读(66)

2024年以来,大模型的价格出现了显著的下降趋势,并且是全球性的。

海外AI巨头,OpenAI和谷歌都在五月的新品发布会上,下调了模型调用价格。

OpenAI的GPT-4o支持免费试用,调用API的价格也比GPT-4-turbo降低了一半,为5 美元/百万tokens。谷歌的当家王牌Gemini大模型系列,Gemini 1.5 Flash 的价格为0.35美元/百万tokens,比GPT-4o 便宜得多。

同样的“价格战”,也在国内开打。

5月13日智谱AI上线了新的价格体系,入门级产品GLM-3 Turbo模型,调用价格从5 元/百万tokens,降至1元/百万tokens。紧随其后的字节跳动,正式发布豆包大模型家族,其中的豆包通用模型Pro 32k模型,定价为0.0008元/千tokens。

当一串代表价格的数字,成为各家发布会上最显眼的一页、最广为传播的信息,其他厂商为了不失去曝光度,不流失现有用户,当然也要有所表示,被动跟进,加入“价格战”。

就在今天,5月21日,阿里云也抛出重磅炸弹,宣布通义千问主力模型Qwen-Long,API输入价格降至0.0005元/千tokens。

大模型价格正在竞底,但究其本质,向下竞底是不具备“向上定价”的条件。将“降价”而非“卖贵”作为核心竞争力的大模型,是走不长远的。

一、降价的本质,是无法“向上定价”

大模型百万tokens价格一再跳水,OpenAI说是为了“造福世界”,谷歌说是为了扩大AI用户,国产大模型厂商也纷纷表示要让利个人和企业开发者。

那为什么ChatGPT、Gemini刚问世的时候,就敢于强势向开发者收钱呢?那时怎么不践行“造福世界”的初心呢?

我们越过那些官方的宣传辞藻,来看几组行业数据,就会发现:降价是一种必然。

第一,模型能力正在趋同,OpenAI/谷歌也没有护城河。

数据显示,自GPT-4发布以来,多个模型在GPT-4水平性能上的巨大收敛,然而并没有明显领先的模型。

就是大家都在向GPT-4看齐,但谁都没有突出优势。能力趋同的前提下,不得不放弃收费,靠降价/免费来争夺用户,保住地盘。

第二,大模型的边际收益正在持续走低。

Gary Marcus 博士在“Evidence that LLMs are reaching a point of diminishing returns — and what that might mean”《LLMs正达到收益递减的证据——及其可能意味着什么》一文中提到,从GPT-2到GPT-4甚至GPT-4 Turbo的性能变化,已经出现了性能递减的迹象。

在收益递减的背景下,意味着处理相同的任务,开发者的实际成本是在上升的。在AI创新商业化前景还不明朗的市场环境下,为了保住现有用户,大模型厂商必须给出有吸引力的对策。包括提供更小的模型,比如谷歌推出的Gemini 1.5 Flash,通过“蒸馏”实现了与Gemini 1.5 Pro性能接近、成本更低。另一个手段就是直接降价。

综上,大模型降价的本质,是因同质化竞争+投入产出比降低,而无法卖贵、不敢卖贵的必然选择。

二、向下竞底的前途,是没有前途

论迹不论心,只要大模型厂商的降价行动,能够切实惠及企业和开发者,当然是受市场欢迎的。

问题就在这里,企业和开发者能从中获得多大收益呢?

有人说,降低成本能推动大模型的“价值创造”,是错误的因果归因。大模型的“价值创造”,是以大模型本身为锚点,而非价格。

最直接的例子,ChatGPT问世即付费,当时很多从业者都很开心,认为市场终于重返工程师主导的文化,技术为王,代码竞争,“没有那些精心设计的流量游戏或者运营技巧,没人会动砍一刀送1000个token的心思”。说明明码标价、为好东西付费的模式,才是开发者心中的良性商业模式。

差的商业模式是什么?是模型能力不行,企业和个人开发者投入了大量时间、精力,结果无法建立竞争力,无法从应用创新中获得商业回报。

有一个SaaS开发者直言:“我们折腾了一年(做基于LLM的产品),也有不少用户提出了付费需求,但我们感觉做不到SLA,全部婉拒了。”所谓SLA,是指一定开销下,服务商与用户之间的一种协定,来保障服务的性能和可靠性。

开发者和ISV服务商,如果被低价吸引,但底座模型的能力却不行,不能解决用户的问题,赚不到钱,还投入了大量研发资金和工程团队,那最后实际的沉没成本,可比调用省下的仨瓜俩枣大多了。

正如微软所强调的那样,大模型“仍将是解决众多复杂任务的黄金标准”。所以,良性的商业模式,是大模型能力持续提升,商业化版本上同时兼顾普惠。

以下图来说,逐步进入到低价高质的绿色区域,也是“最具吸引力象限”。

从图中不难看到,GPT-4o是目前质量最高、价格相对降低的位置。

而放眼国内的厂商,模型能力如果达不到OpenAI的水平,一味拼价格并不是一个好策略。

可以推演一下,打价格战,会发生三种情况:

最乐观、最好的结果,是大模型厂商靠低价吸引用户,用户数量和使用量的规模化增加,能够低效甚至超过降价的亏损,实现盈利。而即使是最好的情况,大模型企业也会在短期内,利润受到挤压,财务表现可能会受到来自资本市场或投资人的压力。

至少目前来看,可能性很小。降价或许能够吸引不少用户尝鲜、试用,但最终模型能力才是沉淀下来的主因,留存率并不一定理想。

用户增长不确定,大模型投资成本却在节节攀升,意味着大模型厂商的风险敞口不断扩大,由此带来打价格战的一种最坏情况:国内大模型厂商被迫跟进价格战,不断压缩本就不大的盈利空间。

Anthropic的CEO曾向媒体透露,目前正在训练的模型成本已接近10亿美元,到2025年和2026年,将飙升至50亿或100亿美元。

这意味着,一旦大模型企业为了“价格战”,现金流会持续承压,缺乏充足的资金投入到招募AI人才、升级基础设施、部署数据中心、升级网络等投资中去,模型进化与迭代也会受到影响,从而让国产基座模型进入发展瓶颈期,与世界一流水平的差距越拉越大。

需要注意的是,社会各界用户早已在各个模型厂商的宣传布道中,拔高了对大模型的期望值。一味推广低质低价的使用体验,让人们对AI失去信心,觉得大模型不够万能、啥都干不好,对这一轮大模型主导的AI热潮,将是极大的负面影响。

当然,也不必过于焦虑。最坏情况和最好情况一样,发生的概率不大。现实中最有可能的,是大模型行业在最佳和最坏情况之间震荡。

一部分模型性能领先、商业模式向好、客情关系良好、现金流相对充裕的厂商,能够在跟进降价的同时,保持对底层创新的持续投资,但长期可以摊薄研发成本,靠规模增长来实现收入上涨。而注定也有一部分企业会在价格战与现金流压力下,被震荡出局。

一个AI公司创始人就表示:其实挺期待AGI到来的,虽然能秒灭我们这种小团队,但至少大家都解脱了。

说到底,一味打价格战,AI巨头有没有前途,不一定,但创新型小公司,一定危险。

三、降价的前提,是有“向上定价”的实力

有必要叠个甲,我们不反对大模型降价,鼓励大模型厂商为个人和企业开发者减轻负担。

只不过,当舆论各方都关注“低价”的时候,当一场大模型发布会的亮点是百万token价格小数点后有几位,当大模型的商业模式从技术为王,变成“羊毛出在猪身上”、把用户当成流量商品……有必要再重申一下:新技术,是大模型产业的“震中”。

高科技领域,新技术层出不穷。企业要在一波又一波技术浪潮中,同时扮演“颠覆者”和“防御者”。拿大模型来说,厂商必须有至少两个梯队来参与竞争。

一个梯队负责进攻,孵化全新的模型和产品,追逐技术上的颠覆式创新;另一个梯队负责防御,通过低价、生态等守住现有业务和用户,抵御对手的袭击。

而当前,大模型厂商的更优先事务,不是“向下降价”,而是塑造“向上定价”的可能性。

将自家大模型矩阵中的某一些特定模型,做一个极致低价,是很容易操作和吸引眼球的。能把大模型卖出去,向上定价,向价格段的上游迁移,才是AI实力的体现,才能让企业保有更长的生命力。

举个例子,GPT-4o虽然免费,但免费版本只提供有限的次数,而天花板级别的语音交互能力又带来了极强的付费潜力。此外,GPT-5也早就被曝已经做出来了,只是OpenAI没决定好何时推向市场。谷歌也采用类似的策略,更低价格、更低成本的模型,与高性能的付费模型,以及庞大的软硬件生态来让AI落地,共同构成商业版图。

当前国产大模型亟待完成的,是能力突破的技术进击

从我们了解的大模型使用情况来看,企业和个人开发者最在意的商业化问题,仍然要靠模型本身的进化来解决,比如说:

目前阶段,很多任务场景,大模型连兜底的效果都还没有搞定,距离SLA级别的收费标准差距很大,无法达到商用;

精调虽然可以满足一部分场景,但难以泛化。有些场景的大模型精调效果,还不如用传统的小模型。这不是大模型“够不够便宜”的问题,是“为什么要用”的问题;

最终用户愿意付费的AI应用,必须真正做到降本增效,学习成本高一点都不会用。这就需要服务商和开发者详细地拆解任务流程,不忽视任何微小的业务细节,量身定制,降低整个开发过程的周期和难度,或许比降价更有吸引力。

其实,大模型质价比的“最具吸引力象限”,已经说明了,质量做高的前提下,实现价格更优,才是大模型商业化的可持续之路。

向下竞底只是权宜之计,能够“向上定价”的大模型才有未来。

AIGC营销的8大误区与6种提示词模式

aigc阅读(57)

AIGC 技术的发展给营销带来了新的机遇,但是对于做品牌营销的人来说,我们可能会发现似乎AI工具并不能很好地帮到我们,尤其是做内容的、做策略的小伙伴。

因为大部分我们的工作都是属于创意型的,或者策略型的,专业型的,很难依靠AI去给到一个相对满意的、靠谱的结果。

有时候我们觉得它废话太多,甚至就是把玩了半天,还觉得挺浪费时间的,不如我自己来自己做,还省去了反复跟它沟通修改和检查内容是否属实的时间。

这个情况之所以常见,是因为虽然AI技术已经上去了,但AI营销的思维还没有跟上。

一、AI营销的常规思维

包括:

1、到处找现成的提示词,想要复制粘贴别人的

2、过于依赖AI的数据库,缺乏“养成系”的概念

3、相信AI输出的内容是真实的、有用的、符合逻辑的

4、求快,觉得一次性输入指令就可以得到想要的结果

举个例子,某公司用AI化的短视频Saas工具,批量大规模二次清洗视频素材,然后混剪,再配合矩阵做投放,却不能起到很好的效果。

因为靠量去堆,每天发布上万条短视频,看上去播放量是上去了,但是转化率却非常非常低,收效甚微。

背后的原因是,如果没有好的内容,只有量没有质。

用毛主席的话来说,还是要:实事求是,不要脱离现实条件来干。

平时自己的工作当中具体是遇到什么问题?具体需要依靠什么工具去解决,那就找对应的AI工具。

不一定非要用很先进的、高深的AI工具,关键是要懂得AIGC的提示词思维,设计“专属适合自己团队的提示词库”,然后根据具体工作、具体项目去做变形,才能“因地制宜”。

那怎么做AI提示词的变形处理呢?这就要涉及到这篇文章的关键内容——提示词思维啦。

但是,在讲提示词思维之前,有一些常见的误区是必须要破除的,因为如果犯了这些毛病,到了营销实战场景,依然还是很难把AI工具用起来。

二、常见的误区

有这8个:

第一个是:“不假思索式”输入提示词。

既然是大语言模型,我们就要学会制造一种对话的模式感的感觉。

比如说如果我们想让 ChatGPT 的输出,它看起来像是某一种文本的形式,就要在输出的时候就给到它一种特定的模式感。

比如说我们经常在文章上面会看到什么呢?像是标题和作者对不对?

因此如果你想要让AIGC模型,最终输出的是文章,那我们在提示词当中,在输入的时候,就要按照——标题、作者、摘要、正文的结构的形式去进行输入。

这个时候,AIGC模型就感受到了【模式感】。

因此,它输出的内容就会更像是文章,而不是别的一些什么东西。

再比如,“假设你是小红书博主,请你拆解这篇小红书的文案,并按照开头、中间、结尾、表情符号来拆解这篇文案的结构”——这种提示词,也是按照【模式感】来设计的

第二个常见的误区就是GPT,它的本质是大语言模型,它不是一个能够代替人类思考的逻辑思维工具

为什么?

因为大语言模型的生成过程,并不是遵循人类思考的这样的一个逻辑性和正确性的,它是模仿性的。

我们可以让他去模仿我们思考,逐步的去引导他去模仿我们的思考过程,才能真正赋能于我们的工作。

拿品牌营销来讲,你要让它学会模仿你的工作经验,你要把你的工作SOP,你的案例输入给他,然后让它去模仿,这样子的话,它才能真正的去赋能于你的工作。

举个例子,你刚进入一家公司,但是领导不靠谱,你的目标是想要提升能力,争取独立开展业务的机会。

这时候你可以把背景信息输入给Chatgpt,但是不能直接上来就让它帮你做分析,因为它不动人情世故那一套东西。

这时候,就需要在提示词里面,列举【你的思考方式、思考方向、参考的理论/观点/书籍/依据】。

目的是,AIGC模型来跟随并模仿你的思维方式。

比如说,上述背景下的提示词可以这么写——

请你基于上面我给到的背景信息,结合我的职业成长目标,得出以下3个方向的结论,并告诉我这样推理的原因:

-如何让对方优势为自己所用?

-如何让对方优势变成劣势?

-如何让对方劣势变成自身目标实现的杠杆?

第3点就是它的生成的过程,其实不是线性的一个思考过程,而是随机性的。

即便是同一个提示词,输出的内容也都是随机性的。

也正是因为它是随机性的,所以它是一个很好的帮助我们去拓展创意的【思维工具】。

因为AIGC模型,它其实更加擅长的是发散型思维,也就是:基于它的一个数据库去进行各种各样的思维发散。

但你如果想让它帮你去做思维聚合,帮你去论断、筛选最终的靠谱的答案,它可能并不是那么擅长。

特别是品牌营销人,当我们去使用 AIGC模型的时候,实际上更好的思路是:告诉他,我现在需要更多的灵感,更多的创意,我需要你去帮我去生成不同方向的灵感和创意

它能给你带来非常非常多意想不到的收获。

我前段时间想着自己写一首诗,表达这样的含义:“驾驭宝剑,就需要克服对于剑气身上的寒气所带来的恐惧”。

于是问Chatgpt:“请给我5个能够表达这样含义的古诗词创作灵感。”、“请给我10个,在古诗词创作当中,能够表达勇气的具体意象。”

虽然输出的蛮多都还挺搞笑的,什么斩妖除魔之类的都出来了,但不得不说拓宽了思路。

又因为它是随机性的,所以它输出的内容可能每一次都不一样,不是绝对正确的。

比如说你第一次问它,这个事情是对的还是不对的?他可能会告诉你——是对的。

同样的问题,第二次它会告诉你——这是不对的。

所以说,AIGC模型输出的结果不一定是每次都能用得上的。

由于这种不确定性,所以在互动的过程中,我们要告诉它——你的最终选择是什么,然后让它根据你的选择,去进行下一步的操作。

也因为它不能给你确切的答案,所以你也要告诉它:

  1. 你的反面的要求是什么?
  2. 你的限制要求是什么?

还是拿我们刚刚说的“YES or NO”问题来举例,你就要求它只能回答你是或者否,就不可以说“可能是吧”这种回答。

那这个就是限制条件。

再比如,我对中古风家居很感兴趣,但是这种风格其实很难被定义,于是就问Chatgpt:

“中古风到底是一种怎样的风格?有什么不能踩雷的地方?”

它的回答可以说是废话文学的典范。

于是,我修改了一遍提示词:

“请你明确告诉我:中古风跟其他常见的家居风格的区别是什么?绝对不能使用的家具、硬装设计是什么?请不要使用那些同样能回答全部家居问题的答案。”

这时候它呈现出来的答案就很有用了。

不仅明确告诉了我:不可以用哪些材质的家具、不能用大面积的工业风金属管道,重点要用的颜色是什么。

所以要得出适合于你的问题的答案,就必须告诉它:反面条件、限制性要求,否则可能得到的只是一些没有用的废话。

第5个误区就是,我们可能会觉得使用Chatgpt能提升效率,觉得它将会是我们的助手,甚至说是我们的乙方的这么一个角色,但其实它是不能够去真正的说站在你的视角去理解你的需求的。

不论是做品牌也好,去搞销售,去做营销,去做设计,为了保证创新性和实效性,其实大部分时间都是在跟它反复反复提要求,反反复复让它学习我们的思维方式,学习我们给它的素材,输入大量的客观背景信息的阶段。

从这个角度来看,Chatgpt提升效率的方式可能不是像我们所想的那么简单。

因为AIGC生成的原理是基于:首先它是接收了大量的知识库,以及基于你的背景信息和你的提示词来去预测它接下来要生成怎样的词。

那基于这样的一个原理,我们会发现:

1、如果你没有主动给到它不包含的知识和信息,那么它缺乏了这一块信息之后,它就没有办法去输出你要的结果了。

2、而且如果你的提示词里面提供的信息量是很少的,但是你又要求它生成的内容的信息量特别多。

比如提示词是“请帮我写一篇2000字的周报”(8个字),却让它去生成 2000 个字。

那这个时候, 它就很可能就会去杜撰输出的结果(就是瞎扯一些有的没的)

再比如说,当我们去给到它输入一个很简单的要求,那他可能回馈给你的内容,同样就是一个非常简单泛化的回答。

跟人类说话是一样的,你跟对方说话越是简单,对方回馈可能也会是简单回应一下,没必要长篇大论。

但是,如果你使用比较具体的语言,比如说输入的时候,你提到了具体的时间、地点、目标要求,那么Chatgpt可能回馈给你的也是更加具体的内容。

3、还有一个点就是:如果你想让它去帮助你去做出决策方面的判断,但是你又没有给到足够多的客观层面的信息,它很可能会误导你,甚至是简介损害你的利益(必须做好检查,不能完全相信AI输出的内容)

就比如,今天如果我要让Chatgpt帮我写直播稿,可能我会这样告诉它:

”我将发送直播大纲给你,请你根据直播的大纲,分节点输出内容,但请注意,每输出一小节,请在输出后向我询问3个问题,以便于你获得更多对该小节主题有帮助的回答,来提升该小节的直播稿件质量。

请在获得我的所有问题的答复后,并收到明确可以输出下一节内容的,指令后,你才能继续往下输出下一节的内容,清楚了吗?“

第6个误区就是,我们可能会认为 ChatGPT 它能听懂你的话,但实际上它只能去理解人类通用的一些语言,这个是什么意思呢?

就是因为 ChatGPT 它的原理是通过大量的文本的数据,它是来去学习人类的语言模式的。不同的词汇就会激发它调取出不同的文本数据。

但如果说你说的词就是你的提示词里面的词,它是比较泛化的,或者是它可能就是你自己会去使用这样的一个特殊的表达,或者你的行业、特定用户群体是这么去表达的。

但是,它在数据库里面调取到的文本,可能并不能匹配到你理解的这个词的含义/概念。

所以,提示词的用词非常非常重要。

要尽可能的是通用型的词,不要用自创的词,也不要用小众群体、圈层化的特殊词。

比如,品牌营销领域,有一些行业惯用的说法,比如“品牌联名方案”。

但是输入提示词的时候,用“品牌合作计划”这个词会更通用一些(符合英语的语境)。

如果不清楚这个词到底怎么换,可以直接问Chatgpt:“品牌联名方案的通用型说法是什么?”

而且,我们在输入提示词的时候要更多的去考虑你输出的这个词,能否帮助关联到相关情境的内容。

比如如果想要输出的是品牌联名方案,可以在提示词多打一些这些关键词:共创、话题、资源置换等等。

ChatGPT 为什么总是忘东忘西呢?因为它其实只能记住很少的要求。

如果你在提示词里面给到了超过 3 个要求点,它可能就没有办法,全部都遵循了。

所以输入提示词的时候,注意【少量多次】提要求。

我们可以等到它回复之后,再进一步提更多要求。

或者,我们可以给它设定一个时间限制词,比如说——“从现在开始,你的输出都必须遵循什么什么要求”。

那接下来,GPT 它就会去记住你的这个设定,就不需要重复输入了。

再比如:“请你总结从某个对话开始的一个信息”“请从这个对话开始,然后整理直到上一条位置的对话内容”。

给它一个时间的限定,这样的话它就能够去帮你去爬取一些信息,就不至于说你总觉得它是忘东忘西的。

另外,也因为Chatgpt其实“记忆力”并不如我们想的那么好,如果你使用 ChatGPT 去分析你的文档的话……

如果你的文档非常的大,它可能会导致它分析的时间过长,也没有办法去抓取到你想要的信息。

所以,还是要采取还是【少量多次】的方法。

把文档分解成多个单独的页面,把它拆解成不同的模块,让它逐步的去分析不同的模块,最后再去进行整合。

比如说,我之前希望可以制定一个《个人行为决策评分表》,给到Chatgpt的提示词是这样的:

“我想要建立一个评分系统,帮助我评估这个事情是否要投入时间去做,投入的资源和精力比重是多少、优先级是否需要排到最高。

这个评分的系统我想用表格来实现,并且评分的逻辑需要参考投资者投资一家公司的思维模式,请你帮助我完成这个评分系统。”

然后接下来我就开始跟它互动打磨,大概提出了10个修改点,但是它给到的评分系统并没有遵循这些修改点。

那怎么办呢?

只能每次最多修改3个修改点,对输出的结果反复检查,告诉它哪里错了,它才会修正,并且说:“哦是的,我错了。”

又因为AIGC生成文本的模式是随机性的,它通常不会帮你去检查事实是否存在,是否存在错误,是否存在欺骗性。

所以我们就必须要在提示词里面,加入事实检查的要求。

比如:1、标明出处;2、列出输出的内容是来自于哪一些事实?3、指出它所输出的内容,是来自于上面的某一个对话,或者是你发给他的文件里面的哪一个部分。

否则的话翻车概率是非常大的。

尤其是在工作的场景里边,如果不去做事实检查的话,它可能会让你直接闹笑话。

最后就是我们可能会把它当做一个搜索工具,但实际上它必须要搭载一些联网插件,才能搜索实时信息。

举一个比较极端的例子,前段时间我看二战的历史的一些视频,就很好奇日本投降的原因到底都有哪些。

然后我就问Chatgpt:第二次世界大战,日本投降的原因。

它输出的结果里面,第一个是原子弹爆炸,第二个是苏联入侵,第三个日本经济枯竭,然后没了。

我接着就回复:不对,日本投降有非常大的原因是中国持续反抗了这么多年,请你以后都补充进去,这一点非常重要。

你们猜Chatgpt回复什么?它说:

“明白了,我会记得在讨论日本投降原因时提及中国持续抵抗的重要性。中国在第二次世界大战期间的抵抗确实对日本投降起到了至关重要的作用,这一点是非常重要的历史事实。”

举这个例子其实是想告诉大家,AI不完全遵循事实,还是要理性看待它输出的内容。

再举个例子,之前麦当劳和汉堡王用Chatgpt来干仗,一个问世界上最好吃的汉堡是什么,一个问世界上最大的汉堡是什么。

然后他们两家都把Chatgpt生成的对自己有利的结果,做成海报。甚至,汉堡王还贴脸开大,把海报放在了麦当劳这个Chatgpt广告海报的旁边。

但是,这就能证明世界上最大的、最好吃的汉堡就是他们吗?

这个要用历史的眼光来看,大到国家,小到一个汉堡,AI输出的所有结论,也都是有待讨论的。

三、工具清单(部分)

如果没有Chatgpt,也不会魔法怎么办?这里有一些免费的工具提供给到大家。

第一种是公众号类的,这里只推荐1个,这个是我测试下来免费的,叫 AI 对话未来,在菜单栏这里直接发送消息,它就可以去和我们进行 ChatGPT 的模拟对话了。

第二个是网页类,包括一些镜像工具和一些 open 的 GPT 对话的 APP 工具。

第三个是 APP 类的,豆包是体验感比较好的,它可以帮助你去生成不同角色的对话的角色,不仅能联网,还能免费生成图片。

设计类的话,个人觉得比较好用的是dream studio。

它是跟 stable diffusion 是差不多的,有一个正面提示词,也有一个反面的提示词,还可以去设定不同的格式的输出的,还可以设定不同的比例的输出格式。

之所以推荐是因为,我测试下来,能直观感受到它的营销模版是比较多的,做海报、做封面,都能比较精准设计设计需求。

比如说做元宵节海报,输入“use Lantern Festival postertemplates”这类提示词,它输出的海报氛围感就很对味,会比较符合常规我们理解的元宵节海报的感觉。

这个一开始它是会有免费的积分,体验完之后是需要付费的,但是积分也是会比较多一些,不会说测几张就没了那种。

视频这块推荐一个数字人口播视频工具,适合出海企业使用,叫synthsize,中文名就是合成的意思。

因为它是免费的,而且使用起来也没有那么多复杂,所以推荐给大家。

四、实操案例

说完了误区和工具,那接下来我们直接上实操案例,来感受一下到底要怎么用【组合型思维】来设计提示词。

什么是【提示词的组合型思维】?

这个思维方式是我自己在用Chatgpt的时候,结合工作的实际情况独创的,所以需要先跟大家大概讲一下这是个什么概念,后面讲案例的时候才能比较好吸收:)

因为对于AI营销而言,不仅输出的要求比较复杂,背景、修改需求也是多变的。

如果不是依靠一套【提示词的组合拳】,仅仅拿着一套固化的提示词模版,复制粘贴,直接往上套,只能得出千篇一律的结果,没办法贴合工作实际情况去做改良和优化。

提示词的【组合型思维】,其实是一种变动的思维,根据不同的场景,选择不同的模式来灵活组合的思维方式。

就拿短视频脚本创作这个场景来说,就需要把【适合于短视频脚本创作】的提示词模式加以整合,最终整合成为【编剧实习生跟练型】的提示词组合公式。

短视频创作的AI提示词当中,主要用到的是3种模式:

第一是模仿模式,第二个是模版模式,第三个是反向互动模式。我们在直播的后半段会给大家具体介绍这几种提示词思维模式分别是什么、怎么用。

好,这3种模式,我们把它再具体拆分为6个要素,放到短视频创作的这个场景下来,重新提炼,就成为了【编剧实习生跟练型】公式。

为什么叫这个名字呢?因为AIGC模型,我前面也有提到,它是一个擅长模仿人类的工具,所以必须要把流程、方法论、参考对象全部都喂给它,这个过程是不是很像我们带教实习生的过程?

回到短视频创作的提示词公式来,我们逐个来讲里面的6个要素分别是什么?要如何运用到自己的提示词创作中去?

首先,这个组合公式的第一个要素就是【输入大量的案例去进行调教】。

为什么说输入大量案例是重难点呢?

是因为短视频的案例它是比较难去进行调教的,因为你没办法通过直接复制粘贴文本,让它去学习就可以了。

短视频的核心是创意,所以我们不仅需要用轻抖等工具,先把它的整个的脚本扒下来,让 ChatGPT 先去学习,积累网感、语感,还要通过一定的方法,让它学习这里面的框架、创意、视听语言等等

只有这样,才能让AI按照你的脚本框架进行输出,然后你再去进行一个打磨和最终的确认。

第二个要素是,基本的框架。

这个意思是指,品牌营销类的视频脚本框架,还是必须要自己来写的。你写完了,再把你写好的框架给到Chatgpt,让它根据你的脚本框架往下去写。

反正我自己尝试过无数次,除非是你自己给的细致的脚本框架,否则让AI输出的脚本框架,真的很鸡肋。

不同的类型的视频的脚本的框架其实都是有一些固定的模板和套路的,但是AI不懂这个,所以还得自己上。

那第三个要素就是你必须给它输入一些底层的一些信息。

比如说如果是广告的脚本,那它就必须要知道你的用户产品和品牌的调性是什么。

第四个要素是反向提问模式,这个反向提问模式在进行脚本创作的过程当中是非常重要的。

ChatGPT向我们反向提问的模式其实就是:它先出第一版,然后基于这个第一版去给你提各种各样的问题,询问你这个第一版有哪些需要修改的地方。

第五个要素是清晰的输出标准。

要清晰到什么样的程度呢?

比如:你想要的字数是多少,语气是怎么样的,画面有什么样的要求,就是越具体越好,就是拆解到文案画面,甚至可能就是音乐等等各个部分的一些要求的给它放进去。

第六个要素,就是让它先出脚本的创意方案,创意先行。

确定了创意方案/方向之后,再按照这个脚本的要素去进行输出。

比如说第一步我先让他输出这个文案,第二步根据文案去输出画面,第三步再根据画面输出音乐,就是按照要素去进行分点式输出。

我们来具体看一个案例。

这个案例是一个偏剧情方向的短视频的脚本。

我在这里面给到Chatgpt的创作背景是这样的:

1、用户:一线城市的上班族的群体

2、卖点: KFC咖啡,搭配早餐的套餐捆绑售卖,上班之前就可以不仅喝咖啡还可以吃早餐,出品很快

3、风格关键词:快乐、轻松

好,然后我需要它去根据上面的这些信息给出三个 big idea,并且要求它说明了创作手法和拍摄成本。

这个成本其实一开始我们不用很严格去把控,比如说场地、演员、道具之类的,这些一开始都不用考虑太细,最后还是需要人工去联系确认的。

这个时候,Chatgpt会给到3个方案。

完事儿我跟它说:“Ok,我确定的方案就是这个方案3,叫《都市快乐驿站》,请你根据这个方案进行脚本的撰写。”

然后,它就会去开始撰写第一版脚本。

但是,这个脚本是不能用的,但是你可以从中获得一些灵感,帮助你进行正式的脚本框架撰写。

写完了脚本框架,你需要告诉它:

必须根据这个框架、以及特定的表头格式(脚本框架、镜号、文案画面),去进行脚本输出,确保语气是怎么样的。

等它咔咔一顿输出完之后,你就告诉他具体的调整点是什么,这个调整点,一定要简洁、直接,不要给出模糊性的指令。

比如:开场文案要短到只保留多少个字,场景一去掉什么什么东西,场景二去掉什么什么东西,片尾只保留什么。

就是你必须给它讲得非常的细,让Chatgpt可以“无脑改”。

改稿阶段,千万不要让它做过多发挥,否则就会搞一些很奇怪的东西出来。

由于AIGC的不确定性,它有可能把前面的已经定好的东西又改得乱七八糟的。

别指望它能给你带来太大的惊喜,否则就有可能是惊吓。

好,这一阶段脚本文案确定了之后,你再让他去根据脚本文案进行对应画面的想象。

也就是说:在提示词的第一阶段,是让它根据场景化的文案,去具体想象每个场景的视觉表现。

那这些场景我们也给到它一个限定的要求(视觉表现:实拍模式),让它在输出之后向我们提3个问题来确保文案和画面来相互匹配。

第二阶段,是调整画面。

在Chatgpt按照文案输出画面描述后,我们可以给到他一些具体的修改意见。

比如说我们觉得色彩还可以有红色的元素,因为是这个品牌的主题色。

或者,尽可能体现这个人物的一个人设的性格特征等等。

你还可以进一步在提示词中,要求调整角色布置、场景背景、光线、色调,每个场景所匹配的音效、配乐,以及场景所传递的情感和氛围感。

最后,是定时间。

我们告诉他,已经没有再需要修改的地方了,让它去自行决定每个场景的持续时间,并且向我们解释这样决定这个时间的原因,来确保整个脚本的时间的总长度是在 60 秒以内。

在这里我们会发现整个的过程,其实都是通过不断地让它去给我们提问题,我们回答问题,然后我们再去根据它输出的结果,给出更多需求、迭代点,不断的去调整。

这不是一次性完成的一个事情,而且还是需要编剧本身,来做最终的优化调整。

衷心希望大家可以掌握AIGC的思维方式,不管ai技术如何迭代,那无非都是学工具的事情,但是思维方式学会了,就不难掌握它们。

品牌营销人最重要的是对人的洞察、对人的情绪的感知、创意、灵感,经验,AI并不能取代我们,咱也不用过度焦虑啦~

建造知识库:迈出搭建TO B大模型的第一步

aigc阅读(75)

一个大模型的知识库怎么建?

“从去年下半年开始,我们就开始搭建自己的大模型,基于LLAMA的架构。”一位国内制造业企业的CIO告诉产业家,“第一步就是搭建知识库。”

这家诞生于20世纪80年代的制造业企业,拥有近40年的精密制造经验。在过去的几十年里,该企业跨过信息化、互联网化,来到数字化、智能化时代。

为了更好地提升工作效率、支持技术发展、推动企业文化和组织结构的变革,在去年下半年,公司启动了基于“开源算法的AI系统”的新项目。

项目被迅速推进。

首先,几个知识库的方向被迅速敲定,其中包括生产环节,办公环节以及协作环节。其次,由公司组织,通过部门会议和讨论,收集员工在日常工作中经常遇到的高频问题;

此外,选择一些对新知识敏感、愿意接受新技术的员工,组成学习小组,进行初步的AI和知识库使用培训,并要求学习小组成员提出一定数量的问题,对这些问题进行分类;将收集到的问题和答案用于训练AI模型,以提高其回答问题的准确性。最终,将其部署在自己的服务器上。

这恰是一个完整的知识库搭建流程。

从更大的视角来看,在To B企业服务市场的浪潮中,如今大模型的落地应用正成为企业航船的强劲引擎。而知识库,作为这引擎的燃料,也正受到前所未有的关注。它不仅是辅助工具如Copilot和智能代理Agent的坚实后盾,更是全场景企业级大模型部署的核心力量。

在过去的一年时间里,不同的服务商,包括基座大模型厂商、软件服务商、云服务商、行业解决方案提供商以及第三方大模型开发平台,都在帮助企业构建知识库方面发挥着各自的作用。

比如,基座大模型厂商的做法是通过提供一站式企业级大模型平台,使得企业能够享受到从数据处理到模型训练、部署和运维的全流程服务;软件服务商的模式则是更倾向于提供垂直的解决方案,他们结合特定行业知识,帮助企业构建符合行业特性的知识库。

那么在当下的大模型时代,知识库到底发挥什么作用,它和大模型的关系到底是怎样的?以及知识库在大模型训练过程中到底发挥怎样的作用?

一、大模型时代,重新理解知识库

首先,一个精准的定义是,TO B企业的知识库,更可以看作是一个专业性极强的信息资源库,它与个人知识库相比,具有明显的系统性、规模性和保密性特点。

从构成内容来看,企业知识库通常包含大量专业性强、与企业运营紧密相关的数据,这些数据不仅包括文本信息,还可能涵盖图片、视频、音频和数据表格等多模态格式。这样的设计使得企业知识库能够支持企业的决策制定、流程优化和客户服务等多个方面。

其特殊性在于,企业知识库中的数据具有特定的业务含义,如客户信息、交易记录和库存状态等,这些对于企业的日常运营和长期战略规划都至关重要。

此外,企业知识库的数据还与内部流程和规则紧密相连,如生产流程和财务规则等,这要求企业知识库必须具备高度的集成性,以便与企业的其他系统如ERP和CRM等实现无缝集成。

这些从语料到连接到流程的特殊性,对应的也更是在大模型的落地过程中,企业知识库扮演着至关重要的角色。

具体来看,首先在训练初始环节,知识库的角色是为大模型提供丰富的训练数据,确保模型能够精准匹配企业的具体业务需求和场景。通过持续的反馈循环,知识库帮助模型不断自我优化,提升性能。

以市面上如今流行的RAG技术为例,大模型能够检索知识库中的相关信息,生成准确的回答或解决方案,并将这些输出反馈回知识库中,形成一个持续学习和改进的闭环,从而显著提升解决问题的效率和准确性。

例如Google的DeepMind Health项目通过整合多模态数据,提高了疾病诊断的准确性,在识别视网膜病变方面提高了诊断准确率;Salesforce的数据显示,通过知识库微调的AI模型在销售预测方面的准确率提高了约30%。

甚至可以说,企业知识库的建设和应用直接影响大模型在企业内部的使用效果。它不仅提高了模型的效率和准确性,还增强了用户对模型输出的信任和满意度。同时,企业还可以通过知识库来控制数据的访问和使用,确保数据安全和合规性。

根据IBM的年度报告,其知识库帮助减少了约20%的内部查询响应时间,同时提高了数据安全性;根据亚马逊的业务报告,通过知识库的应用,库存周转率提高了约15%,客户满意度提升了10%。

最后,更可以看做,随着企业对数字化转型的需求日益增长,企业知识库与大模型的结合也更将成为企业获取竞争优势的重要工具。

在德勤的一项分析中,那些有效利用知识库的企业,其年增长率平均比行业平均水平高出15%。

可以说,知识库的最核心价值呈现恰是其在为模型提供了微调数据之外,还确保模型能够真正适应企业的特定需求,提高其在企业内部的有效性。

二、谁在构建知识库?

尽管市场上众多企业提供了基于大型模型的知识库服务,但构建这样的系统并非轻而易举的任务。

例如,根据《企业知识管理调查报告》显示,超过60%的企业在尝试集成AI助手时遇到了技术障碍。

正如文章开头所述的案例,企业在搭建知识库的过程中,需要将AI助手与现有的多种软件和系统进行集成。这要求企业拥有大量且细致的数据集来训练AI模型,这在企业初期是一个巨大的挑战——确保AI助手提供的答案准确无误,尤其是在制造业这样对错误容忍度极低的行业中。福特汽车公司在集成AI系统时,就曾面临数据精确度不足的问题,导致初期模型的准确率仅为70%。

在数据层面,企业需要选择不同的数据处理工具,如Apache Spark、Hadoop,标注软件如LabelImg,内容管理系统(CMS)如WordPress、Drupal,以及企业搜索解决方案如Elasticsearch、Apache Solr,都是构建知识库的利器。

据Gartner的报告指出,市场上排名前五的数据处理工具在数据清洗效率上的差异可达到30%以上。

此外,知识库的用户界面设计对员工的使用体验和效率有着直接影响;同时,工具与企业现有系统和工作流程的集成性也是至关重要的。IBM的Watson平台在与企业系统集成时,就提供了超过200种预集成选项,显著提高了集成效率。

面对这些挑战,一些基础模型供应商和软件服务提供商正在帮助企业构建知识库。比如百度的“昆仑芯+飞桨平台+文心大模型”布局,以及华为的“昇腾芯片+MindSpore框架+盘古大模型”等,都是从更系统的层面保障企业大模型部署的成功。

此外,像滴普科技这样的软件厂商,也不断提供垂直的解决方案,其客户满意度调查显示,使用滴普科技基于数据库等数据细颗粒度的解决方案的企业,其知识库构建成功率可以提高40%。

然而,工具本身并非万能。企业要成功搭建自己的知识库,还需要克服内部组织结构、业务流程和员工接受度等难点。高层的支持和明确的战略规划对于项目的成功至关重要。根据麦肯锡的一项研究,有高层支持的企业知识库项目成功率比没有支持的高出50%。

在搭建知识库的过程中,IT部门或知识管理部门通常是牵头者,负责架构设计和技术选型。而业务部门则需要提供内容支持,确保知识库的信息准确、及时。

例如,产品开发部门提供最新的产品信息,客户服务部门贡献常见问题解答,人力资源部门提供员工培训材料。这就像一场交响乐,每个部门都是不可或缺的乐手,共同奏出和谐的乐章。一项针对500家企业的调查发现,那些拥有健全知识库的企业,其产品开发周期平均缩短了20%。

此外,企业还应该培养员工的知识共享文化,鼓励他们将经验和教训贡献给知识库,形成持续的知识积累和更新。根据哈佛商业评论的研究,拥有强大知识共享文化的公司,其创新速度比行业平均水平快30%。

总之,企业知识库的建设是一项系统化的工程,它要求企业从战略层面进行规划,技术层面进行实施,文化层面进行推动。只有当知识库真正是以企业知识宝库的形式存在,才能真正从大模型的价值层面进行赋能加持。

三、知识库背后:大模型的落地成色

再回到文章最开始那个问题:知识库于大模型而言,意味着什么?

首先,从表层来看,知识库为模型提供了训练所需的海量数据和信息资源。谷歌的BERT模型之所以在语言理解任务上取得显著进展,是因为它训练时使用了包含超过3000本未版权书籍和2400万网页的庞大知识库。这样的数据丰富性确保了模型能够学习到广泛的语言模式和知识。

知识库中的信息多样性也是大模型落地的关键。IBM的Watson在医疗领域应用时,依赖于包含超过200万页医学文献、图像和病例报告的多模态知识库,这使得Watson能够处理复杂的医疗咨询和诊断任务。

此外,从模型的特定性来看,知识库中的信息准确性对于大模型的决策支持至关重要。例如,金融机构在使用大模型进行风险评估时,依赖于准确无误的金融数据知识库,这些数据往往来源于经过严格审核的金融报告和市场分析。

知识库,正在成为大模型落地的基础。

目前做得好的知识库不仅仅是静态的信息集合,而是动态、互动的平台。它不仅仅是信息的存储和分类,更是知识发现和创新的催化剂。当前做得好的知识库,已经超越了传统的文档管理和搜索功能,它们通过集成先进的搜索算法、自然语言处理技术,甚至将机器学习模型(如prompt)嵌入其中,实现了知识的自动更新和智能化推荐。

例如,亚马逊的A3知识库存储了超过5亿个产品信息,并通过机器学习算法不断优化产品推荐,提高了用户体验和销售效率。这些知识库通常具备高度集成、用户友好、智能化、个性化和持续学习的特点。

未来,知识库的搭建方式将更加智能化和自动化。例如,自动内容聚合工具如Import.io能够从互联网上自动收集和整理信息,而机器学习平台如Google’s TensorFlow则能够处理和分析这些数据。知识库的作用将不仅限于提供数据支持,它将成为企业决策的智能助手,通过分析大量数据提供洞察和建议。

在大模型落地中,知识库的更新和进化模式将变得更加动态。例如,OpenAI的模型能够根据用户的反馈和行为自动调整其生成的文本,以适应不断变化的需求和环境。这种自我优化的能力将使知识库成为大模型持续进化的重要驱动力。

随着技术的进步,知识库将变得更加智能、互动和自适应,为企业提供更加强大和灵活的知识管理能力。据Gartner预测,到2025年,超过30%的大型企业将拥有自己定制的人工智能知识库,这将极大地推动企业智能化的发展。

在人工智能的浪潮中,知识库已然不仅是数据的简单集合,它已成为企业智能化转型的核心竞争力。

从“天价”到“骨折价”,大模型要变天了

aigc阅读(88)

十年后,国内云厂商又打起来了!

近一个月,国内云厂商掀起了新一轮的大模型降价潮。这意味着AI竞争已经不仅仅是一场军备技术竞赛这么简单,各头部厂商也在考虑如何赚钱了。

在这场价格战中,包括火山引擎、阿里,还有智谱AI、面壁智能这样的明星创业团队都卷了进来。各家看似是在降价,其实是想通过比低价,快速抢占市场,从而实现商业化的快速落地。

一、从卷大模型技术到卷价格

在众人看来,可能头部大厂最具降价的底气和实力,因为大厂的业务比较多,就算AI业务亏钱,也可通过其他业务来弥齐,但有关大模型价格战的发起人却是明星创业团队——智谱AI。

5月11日,智谱AI大模型开放平台上线了新的价格体系,新注册用户获得额度从500万tokens 提升至2500万tokens,并且个人版 GLM-3Turbo模型产品的调用价格从5元/百万tokens降低至1元 / 百万tokens,足足降了5倍。但这还不够,GLM-3 Turbo Batch 批处理 API也便宜了50%,价格为1元 /200万tokens。

4天后,火山引擎放出一记重弹,宣布豆包Pro 32k模型定价是0.8厘/千tokens,这个价格比行业降低了99.3%,此外,豆包Pro 128k模型定价是5厘钱/千tokens。与行业模型比,价格足足降低了95.8%。

这则消息一经放出,整个AI圈都不淡定了。有人称,火山引擎将大模型带入到了“厘时代”。

我们算一笔账,以主力模型32k窗口为例,1块钱可以从GPT买到2400个token,如果选择国内模型,大概能得到8000多个token。如果用开源Llama自己搭建,大概可以获得3万个token。但通过豆包模型,1块钱就能获得125万个token。这是什么概念?相信《三国演义》很多人都读过,共计75万字,换算过来,也就是1块钱能处理3本《三国演义》的文字量。

与其他大模型比起来,火山引擎简直是白菜价,几乎等于不要钱。可以说,火山引擎此次降价,将大模型价格战推向了高潮。

火山引擎发布会后的两天,腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生在腾讯云生成式AI产业应用峰会上介绍了混元大模型的技术、性能、安全、使用门槛低等特点,虽然没有公开介绍价格。但据腾讯云官网显示,混元大模型可以为首次使用者提供10万tokens的文本生成模型免费体验额度,有效期为1年。而在tokens资源包的价格方面,窗口尺寸为32K的hunyuan-standard模型和hunyuan-pro模型,它们的模型推理输入价格分别为0.0069元/千tokens和0.069元/千tokens,两者均为刊例价的6.9折。

与此前比,价格明显降低了。据腾讯云官网一份更新于5月14日的计费信息显示,混元大模型标准版(hunyuan-standard的前身)和高级版(hunyuan-pro的前身)此前的模型推理输入价格分别为0.012元/千tokens和0.12元/千tokens。

虽然几家大厂中,阿里云的降价策略还不明显,但早在今年2月29日,其就释放出一个降价的信号,堪称阿里云史上力度最大的降价,本次降价涉及100多款产品、500多个产品规格。其中,云服务器ECS最高降36%、对象存储OSS最高降55%、云数据库RDS最高降40%,而这三项都是用户使用频率最高的产品。

从阿里云的降价清单中不难看出,降价的主力是传统云计算产品,虽然不涉及大模型,诸如GPU的AI训练和推理算力。但云和大模型的发展是相辅相成的,由此可以推断,在大模型这波价格战中,未来阿里云甚至更多大模型厂商很可能会加入进来,只不过各家的节奏不同。

反观过去一年OpenAI的动作,降价似乎一直是其主线任务。自去年以来,OpenAI已经进行了4次降价。在刚刚结束的春季发布会上,OpenAI宣布了其最新模型GPT-4o,不仅性能有大幅提升,价格也下调了50%。

大模型价格战的序幕已然揭开了。

二、价格战,意欲何为?

目前,国产大模型的价格战正在如火如荼的进行中。

有人难免发问:大模型本就是一个高投入、低产出的行业,为什么要打价格战?

结论非常简单:“加快商业化落地。”

从去年下半年开始,大模型已经开始从“卷大模型技术”向“卷大模型应用”转变。2024 年,商业化、落地应用将成为大模型公司的主旋律。

最新的《中国大模型中标项目监测报告》显示,今年 1-4 月,可统计到的大模型相关中标金额已达到 2023 年全年披露金额的 77% 左右,涉及政务、金融、运营商、能源、教科、交通等各行各业,表明企业对大模型的应用需求正快速增长。

面对商业化,为何如此急切?

原因有二。一是,大模型研发成本越来越高。众所周知,算力一直是国产大模型发展的掣肘。一方面,目前全球的算力技术,美国占据了全球近9成的算力市场份额,几乎被其垄断。相比之下,中国算力荒的现象越来越严峻。

据相关数据,中国目前的算力需求量约为每年1.5亿台的服务器,而中国的算力供给量仅为每年3000万台的服务器,缺口达到了1.2亿台,占到了全球算力缺口的80%。与之而来的是,算力租赁服务的水涨船高。其中,并济科技、中贝通信、汇纳科技等公司宣布算力服务收费大幅上涨,导致大模型研发成本进一步提升。

在巨大的成本压力下,大模型厂商不得不加紧寻找一条商业化之路。

二是,大模型技术已经卷的差不多了,通用模型具备的是通识能力,是不能解决特定行业特定场景的实际问题的,只有一项技术被成功大规模商用才是真正的成功,显然,经过一年的技术比拼,已经到了验证的阶段。

为了加快大模型的商业化落地,国内各企业纷纷行动起来。目前大模型的商业化落地大致有两种路径:一是API调用,二是,私有化部署。

API调用是最常见的落地方式。智谱AI自研的第四代基座大模型 GLM-4的调用价格仍为0.1元/千 tokens,百万tokens的价格为100元,通义千问相对低,但qwen-72b-chat的调用价格也在0.02元/千tokens,OpenAI的GPT-4 Turbo 每100万tokens输入/输出价格分别是10/30美元。

从短期来看,虽然成本不高,但对于需求量较大的用户和行业来说,就显得不是很友好了。

而私有化部署就更贵了。截至目前,国内没有一家厂商披露具体的大模型训练成本,但从多位行业人士口中得出,大模型的研发成本远比想象中高的多,动辄成千上百万,甚至需要以“亿”来计算。

华为大模型负责人田奇曾提到,大模型开发和训练一次需要约1200万美元,这表明即使技术再领先的公司,大模型的训练也是非常昂贵的。

百川智能创始人CEO王小川也曾表示,每1亿参数对应训练成本在1.5到3万人民币之间。因此,一个千亿级参数的模型单次训练成本预估在三千万至五千万人民币之间。Anthropic的首席执行官Dario Amodei也预测过,未来两年内模型成本将达到100亿美元。

显然,API调用和研发的高昂价格,已经成了AI商业化的枷锁。久而久之,大模型就变成了有钱人的游戏,肯定不利于大规模商业化。

而价格战就成了最直接且最快速的落地方式。但并不是所有企业都能加入进来,因为只有把大模型的研发成本尽可能的降低到最小,才有降价的空间和资本。

如前文所述,大模型最大的研发成本是算力,所以很多厂商往往会通过提高大模型的训练效率、降低推理成本两种手段来降本。

中国工程院院士郑纬民曾做过这样的计算,在大模型训练的过程中,70%的开销要花在算力上;推理过程中95%的花费也是在算力上。为何在推理上做文章,也就不言而喻了。

比如微软在Microsoft Build 2020 上,公开了为GPT-3提供支持的AI supercomputing超级计算机,其可以让大模型的训练效率比其他平台高16倍,从而降低时间成本与风险成本。

国产大模型也不例外。盘古大模型早在2.0版本中,就尝试用稀疏+稠密架构,来降低训练成本。文心一言推出一个月后,也通过技术手段将大模型的推理性能提升近10倍,推理成本降到原来的十分之一。

阿里云通义大模型则聚焦于规模定理,基于小模型数据分布、规则和配比,研究大规模参数规模下如何提升模型能力,并通过对底层灵骏集群的优化,将模型训练效率提升了30%,训练稳定性提升了15%。

而腾讯选择了一条不同于百度和阿里的路子,其将机器学习框架Angel、训练以及推理框架进行迭代升级,其中,Angel可以将大模型训练效率提升至主流开源框架的2.6倍,千亿级大模型训练可节省50%算力成本。

训练框架方面,腾讯自研机器学习训练框架AngelPTM,可针对预训练、模型精调和强化学习等全流程进行加速和优化,实现以更少的资源和更快的速度训练更大的模型;推理方面,腾讯推出大模型推理框架AngelHCF,通过扩展并行能力,实现更快的推理性能和更低成本,相较于业界主流框架,其推理速度提高了1.3倍。

三、竞速大模型商业化,云厂商亮剑

观察下来,阿里、腾讯、字节的商业化路径基本趋同,即“迭代通用模型的能力+构建完整的生态+研发创新型AI产品”,但也有不同的侧重点。

持续迭代大模型能力,是大模型商业化的前提。

去年至今,国内几家大厂都在持续迭代大模型的能力,百度先发制人于去年3月推出文心一言,目前文心大模型已经迭代至4.0版本,同时还推出了多个轻量级大语言模型。其后是阿里,去年4月通义千问大模型问世,经过2.0、2.1现已迭代至2.5版本。

腾讯算是BAT中最晚的一家,去年9月混元问世。随后,腾讯并没有像前两者一样,通过迭代新版本来扩大声量,而是通过技术能力彰显其实用性。诸如升级机器学习框架Angel、机器学习训练框架AngelPTM以及大模型推理框架AngelHCF。另外,腾讯前段时间还开源了文生图大模型,包括后续文生视频能力的升级,通过这一些列动作让大模型渗透到千行百业。

而字节算是最特殊的一家,其仅用一年的时间就将豆包模型从1.0进化到了3.0,而从今年火山引擎发布的豆包模型家族中看,不仅包括两款通用模型 pro、lite,还推出了7款功能性模型,涵盖角色扮演、语音识别、语音合成、声音复刻、文生图等方面。说明火山引擎未来将深入到不同行业不同场景。

众所周知,调用量的大小会直接影响模型的效果,在这方面,目前文心大模型日调用量达到2亿,通义大模型也已过亿,字节豆包大模型的日调用量达到1200亿tokens(约1800亿汉字)。

强生态,是大模型商业化的加速器。

生态构建方面,几家大厂包括百度、阿里、字节火山引擎等都采取了一个相同的路径——构建大模型平台,不仅提供自家模型服务还接入了第三方开源大模型,方便客户按需调用。诸如百度智能云千帆大模型平台,阿里的百炼平台、腾讯元器以及火山引擎的方舟平台。

为了加速大模型渗透,拓展商业化市场的空间。阿里坚定开源,去年8月通义开源,之后沿着“全模态、全尺寸”的开源路线,阿里云开源了 8 款参数规模从 5 亿到 1100 亿的大语言模型。其中,面向端侧设备,开源了如0.5B、1.8B、4B、7B、14B小尺寸模型;面对企业级用户,开源了如72B、110B的大尺寸模型。此外,通义还开源了视觉、音频、代码、混合专家模型。

而阿里的开源要追溯到2022年,也就是在大模型爆火的前一年,阿里云就完成了魔搭(ModelScope)社区的搭建,该社区推出阿里就把其近五年研发的 300 多个优质模型全部开源出来。周靖人还介绍道,魔搭社区平台仍在持续扩大建设,平台上的高质量开源模型总数已超过 4500 个,开发者数量也已超过500 万。

与阿里一样,腾讯在大模型商业化的竞逐赛中,同样选择了开源路线。不久前,腾讯云全面开源了混元文生图模型。腾讯混元模型应用负责人张锋表示,“在过去非大模型时代,我们就开源了很多项目,在大模型时代做出开源的决定,是最近半年腾讯与客户接触过程中得出的结论。”

而最早入局的百度却一直在坚持闭源路线。百度认为,闭源大模型能实现比开源大模型性能更好、成本更低的综合效果,从而促进AI应用生态的繁荣。

AI重构内部产品,是大厂进行大模型商业化的第一站。

目前,百度已经完成了对百度文库、百度搜索、百度地图、如流等业务的AI重构。阿里则对钉钉、高德地图、闲鱼、饿了么、优酷、盒马、淘票票,天猫、淘宝等阿里集团最核心的产品进行了全面升级。

字节内部也开启了赛马机制,抖音、剪映等50多个业务线各自为营开始了AI探索,此外,字节也不改“App工厂”的本色。过去一年里,除了主打的豆包App外,基于豆包大模型,还推出了互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具。

而腾讯作为大模型中最低调的一家,却在产品侧表现的尤为不低调。秉持着产业实用的原则,自去年9月混元上线以来,腾讯就将内部产品的AI化改造作为重点工作推进,目前,混元大模型已经在超600个腾讯内部业务和场景中落地。包括企业微信、腾讯会议、腾讯文档等“一门三杰”产品,也包括腾讯乐享、腾讯电子签、腾讯问卷、腾讯云AI代码助手等协作SaaS产品。

加速行业渗透,大模型商业化的最后一公里。

无论是通用模型还是行业模型,最终的落地其实就是要解决特定行业、特定场景下的实际难题。当然在行业的选择上,有交叉,也有不同的方向。

基于文心大模型,百度率先重构了数字政府、金融、工业、交通四大行业解决方案;依托腾讯云TI平台,腾讯云打造了行业大模型精选商店,覆盖金融、文旅、政务、传媒、教育等十个行业,可提供超50个解决方案。同时,腾讯云还携手17家来自不同行业的生态伙伴,发起了“腾讯云行业大模型生态计划”,致力于共同推进大模型在产业领域的创新和落地。

阿里也于去年发布了8个行业大模型,覆盖金融、医疗、法律、编程、个性化创作等领域。

而据信息显示,目前火山引擎已经与吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等20余家厂商成立了汽车大模型生态联盟。同时,还与OPPO、vivo、荣耀、小米及华硕等终端厂商共同成立了智能终端大模型联盟。由此推断,火山引擎很可能率先这两个行业作为抓手,待成熟后再向其他行业渗透。

结语

经过一年的时间,大模型的竞争已经从卷大模型技术本身,过渡到了卷大模型商业化的阶段。

如大模型研发一样,大模型的商业化落地同样不是一件易事,前者考验的更多的是技术和资本,而后者在前者的基础上,还需要根据不同行业、不同的业务场景,对大模型进行微调,从而提供一款真正能为企业所需的大模型服务。

目前,各大模型厂商纷纷亮剑,但这只是开始,接下来很长一段时间内,各头部将持续围绕如何加快大模型落地做文章,竞争的同时,也会把大模型推向一个新的发展阶段。

万字长文:AI将给人类音乐艺术的棺材,钉上最后一颗钉子

aigc阅读(82)

其实AI绘画和ChatGPT初现的时候,我就知道音乐被AI攻克只是早晚的事了。

因为人工智能已经跨越了那个临界点,剩下的就是模型、算法的进一步优化,还有喂养它的数据量之类问题了。甚至我都有点奇怪,为什么最近才有这些AI音乐平台出现。

因为音乐其实是非常有规律的,如果单说音高、和弦、节奏的话,本质上其实就是一些简单的数学,它们的排列组合其实也没多少,尤其是在大众听来会认为是“好听”的那些排列组合那就更有限了。

对于AI来说,琢磨透这个东西,相对于比如说视频领域来讲,真的是小菜一碟。

但是我并不对AI音乐持什么拥抱的态度。我觉得,在可预见的时间里,至少在我们这代人目前所处的这个社会现状下,它的负面作用远大于正面作用。

如果只是单纯从科技进步的角度来讲,我们可以例行公事地说,任何科技进步本身都是无所谓好坏对错的,“它只是个工具,关键是看使用工具的人”。

没错,但我认为问题恰恰就出在这里。你必须把这种技术放在一个当下的现实环境里,来衡量它将造成的后果。而目前而言,我几乎看不到一条正面的后果。

从几乎任何一个方面追问下去,它造成的结果都是负面的:

它会让大众更喜欢音乐、更有兴趣和时间精力去学习音乐吗?它会促使大众提高音乐素养吗?它能让大众更深层次体会到音乐的美吗?它会让真正有才华的音乐人从生存压力中更多解放出来,去专心做出更好的创作吗?能让真正有才华的音乐人得到更多的回报吗?等等,所有的方面的答案都是否定的。

我们先来说后面这个问题。

现阶段AI生成的音乐,主要是那种我们称之为“行活儿”级别的东西。这种东西的主要应用场景有,比如广告配乐、游戏配乐、以及相当比例的影视剧配乐等,还有一些比如什么企业歌曲、晚会歌曲之类的,总之就是特别商业的或者功效性的需求场景。

这些应用场景下,音乐只是个陪衬或者工具手段之一,它们对于音乐在艺术性、音乐性、独创性、“灵魂性”上面的要求都不高。但不得不说,很多音乐人平时就是得靠接这类活来谋生。

有人又会说了,接这种活儿的音乐人都是烂音乐人,真正有才华的音乐人根本用不着接这样的活儿,事实真的是这样吗?当然不是。

如果放到音乐产业更成熟的某些发达国家,或许上面这种说法还相对来讲更成立一点。那是因为,那些国家的音乐产业相对成熟,听众的音乐素养和音乐消费能力更高,各个分类小众音乐类型的市场也都比较成熟,每种风格都有专门的公司来发掘、扶持、培养、包装、宣传、运作新人。无论多小众的风格,只要怀才,大多数还会遇到伯乐的,还是能被包装、运作出一定的商业价值,然后就会有足够多的听众来为他们的音乐买单,那就可以靠着做自己喜爱和擅长的风格来生存。

而咱们这里,则完全是另一回事:稍微小众一点的风格,是几乎没什么公司来投资运作的。如果你做的不是最大众最商业的风格,这个行业也几乎也不会给你提供什么上升渠道,你只能自生自灭。

干行活儿的音乐人里很多他就安心于只干行活儿,但是也有一些是比如像我这样的音乐人,当然是希望能靠做我想做的摇滚乐来生存。这样我就可以专心去做出更有艺术价值、音乐价值、更纯粹、更有灵魂的原创音乐,来满足我对于音乐深度和高度的追求。

但是,因为在国内一没有这个土壤,二没有这个产业,所以我无法完全靠原创摇滚乐来生存。那么,就不得不用我的音乐创作制作上面的能力,去接一些行活来谋生,来补贴我在原创摇滚乐队上面的投入。事实上这么多年我也是这样坚持下来的。

在国内的独立原创音乐人,相当一部分是类似的情况,需要接行活来补贴原创。而AI影响到的就是我们这群人在这一块的收入。

不光是音乐行业这样,比如说那些学漫画的学动画的,其中有一些人或许本来也是希望自己能够成为鸟山明、富坚义博、庵野秀明那样的是吧。但是呢,就算他们真的有这个才华跟潜力,在国内他们也不可能有条件去成长为那样的人,靠着做自己喜欢的东西,真正能发挥出自己才华的作品来谋生赚钱的。

他们也不得不去做一些比如说做商业插画啊、游戏设定啊、广告动画呀、ZF项目啊之类的行活来维持生计,然后来补贴自己能在“业余时间”创作一些更有艺术价值的作品——假如他们还没有被做这些行活给占据所有时间精力,还没有在这个过程中消磨殆尽对于这门艺术的追求的话。

那么,对于这样一个群体来讲,AI的冲击是非常大的。这些人假如说不能够靠接商业活来生存的话,很可能就被迫只能完全转行了。

目前AI音乐技术的主要受益者,就是需要“行活儿音乐”的那些甲方,以及向他们提供AI生成音乐服务的平台。

很多人说,AI可以辅助音乐人进行创作,在音乐人没有灵感的时候提供灵感。这个我也不以为然。

真正有才华的音乐人,并不缺所谓的灵感。反正至少我的情况呢,是只要我能够暂时不用去操心那么多生计上的或者其他乱七八糟的事,能让我静下心拿着吉他在电脑前几个小时,我总能编出一些很棒的原创音乐片段来。

其次,如果说我需要寻找创作灵感的话,那我去听那些人类最顶尖的音乐天才所创造的那些最优秀的音乐作品,去向他们取经,不就好了吗?我为什么要听AI生成的这些行活儿水准的东西来寻找灵感呢?

众所周知,AI生成的东西,至少目前阶段的AI的能力,它并不能创造什么有突破性的、创新性的内容。它只是基于喂养给它的数据,生成一些撑死算得上是中庸水平可能再偏上一点儿的东西,那么我为什么不直接去学习人类最顶尖的头脑做出的最富创新性的那些作品呢?

当然,对于那些干行活儿的,拿到一个活儿,懒得动脑子了,让AI生成一个东西,然后自己在这个基础上改一改,来交活就可以了。但既然已经有了AI,甲方他直接用AI生成就行了啊,为啥非得用你啊?对于绝大多数的甲方来讲,人家只是想要个大概有那么个意思的东西而已,你改不改那一点的,又有什么区别呢?人直接用AI还省去了在你身上多花的钱和跟你沟通的成本。

所以说,那些认为AI能够给他们灵感,提升他们工作效率,以此为理由来拥抱和欢迎AI的音乐人,我也觉得很奇怪。

对于像我这样的原创音乐人,AI生成的音乐真的给我提供不了什么帮助,且不要说那些生成一个整体、没法单独修改某个声部的情况,就算能单独修改某个声部又能怎么样呢?

我这样的音乐人,对于自己作品里的每一个细节,都有着偏执狂一般的完美主义:每一个声部的每一个音,每一个和弦,每一个节奏型,每一种演奏技法,甚至每一个力度,每一个音色,每一个delay的feedback是得多少,mix是得多少,每一个声部的频段是要在比如500Hz多一些,还是2kHz少一些,等等等等,全部都得是精雕细琢,反复推敲,思考对比,这样做出来的。

作为一个听众的身份来说也是一样,我所仰望并喜欢的,愿意去追随、去沉醉于其中的,愿意去花时间投入感情去聆听、花钱去购买支持的那些音乐,也都是经过了像上面这样的历练,才做出来的。你现在告诉我,通过输入几个“关键词”由机器生成的这么一个笼统的东西,要让我为这样的东西投入我的感情和金钱,这真的太搞笑了,这对于我的灵魂是一种侮辱。

这绝不是我所想象的未来。

现在网上流传个段子:“曾经我以为AI是代替我们扫地刷盘子,好让我们有时间去写歌画画,结果现在是AI代替我们写歌画画了,我们沦为扫地刷盘子的”。虽然这是个梗,但我想借此引出我的一些看法。

首先,我认为欣赏音乐其实是一种脑力劳动,而且越是欣赏高品质的音乐,就是越复杂的脑力劳动,也需要听众具备更多的音乐感知力和相关的音乐知识。

这个感知力,简单来讲比如说音乐听力吧,就是一个人对于音高、节奏、和声、音色等元素的感知的敏锐程度,这个能力虽然说有一部分是天生的,但是对于绝大多数人而言,都需要后天经过学习和训练来提高的,否则它就像是一块未经开垦的荒地。

事实上,大部分人的音乐感知力都没有得到足够的开发,被荒废在那里,这也造成了大众对于好音乐的无动于衷。也怪不得他们,因为这个音乐进入到他耳朵里之后,对他来讲就像一团浆糊,并不具备把这一堆声音信息“解码”、充分理解、处理消化的这种能力,所以欣赏不来。

在过去,要么碰巧天生就是个音乐神童,你的音乐感知力天生就高于常人,天生就听到任何音乐就能准确记忆和模仿出来。要么,你就得出生在一个条件比较优越的家庭,你的父母愿意为你在这方面投资,还得遇到一个好的音乐老师,你才能在这方面得到很好地提高。

然后,你才能成为那少数的音乐欣赏方面的幸运儿——同样的音乐,进到你的耳朵里,你能感知到更多的内容和细节,得到更深的精神享受——这是一种幸福,拥有它的人就会切身地感受到这一点。

这些年,我曾和很多人聊起过这个话题。其实爱好音乐的普通人,大多也都很向往这种状态,也都想有这样的学习机会,但是最终都受限于现实因素:要学“文化”课,要赚钱,要上班,没时间,没精力,没钱……

所以曾经的我认为,未来人类社会发展的方向,应该是能让更多的人能从低端的重复劳动和某些无意义的“学习”和工作中解放出来,能有更多的时间精力来学习音乐(当然还有其他艺术,这里不展开聊了),提升自己的音乐听力,能够更好地欣赏到人类那些最好的音乐瑰宝,不只是在繁忙的枯燥的工作之余,随便刷点低劣的口水歌就完事——这对于人类的听觉系统而言,简直是一种浪费。

毕竟,人之所以为人,和动物的区别,很大一点就在于人类能够欣赏并且创造像音乐这样的艺术。每个人的音乐听力都是一块未经开垦的处女地,而很多人终其一生都没有开发过它,太可惜了。

我曾经以为,随着时代的发展,经济和物质的进步,这方面会越来越好,然而事实却不是这样。

首先是P2P免费下载技术,让音乐变得廉价,变得唾手可得。

以前,人们需要花钱去买一张唱片才能听到里面的音乐,所以会特别用心去听,哪怕一开始这个音乐可能太高深了,听不懂,但是我花钱了啊,舍不得扔掉,就反复听反复听,慢慢地,我的音乐听力可能就会被磨练出一些来了,逐渐就能更听懂这个音乐了,欣赏水平也就逐渐提高了,我们这代人很多都有过类似的成长经历。但是当所有人都可以很轻易下载无数的音乐到硬盘里,听都听不过来之后,还有多少人会去那样做呢?

音乐这个东西它不像视觉上的东西,比如一幅画,除了专业学美术的需要临摹它、需要研究它的画法之外,作为欣赏者的话,谁会反复盯着一幅画一直看,很多年反复看呢?它能带给你的刺激很直接,但也很快会消退;一部影视剧,除了专业学影视制作的会反复拉片学习的之外,作为观众的你再爱一部片子,刷几遍也就得了,那个剧情你已经知道了之后,对于你的精神享受价值也就大大降低了。

而音乐不一样,它的反复“利用”价值要高得多,而且一首好的作品,就算你已经听到熟到每一句旋律你会哼,每一句歌词你都会背。甚至像我这种人,它的吉他声部每一个音我都练过,我都会弹,再听起这首歌时,我还是会有很大的精神享受。

音乐这东西,你只是“听过它”,是没啥用的,只有当你把它听到熟到一定程度了,你才能比较充分体验到它的美,而且越好的音乐,你听得越熟,它带你的享受反而越多。

所以,听音乐这件事,单纯追求数量是没有意义的,质量比数量重要得多。你下载了10个T的音乐,很多你都只听一遍就扔那儿了,然后你社交的时候跟人说你这个也听过,那个也听过,这有什么意义吗?只有你自己知道,你真正得到了多少享受。

曾经,我以为人们不重视音乐是因为他们所说的理由:“不是不想爱好音乐,还是因为穷啊,饭都吃不起呢,还追求啥音乐”。结果呢,经济越来越好了,物质条件越来越发达了,都要赶超发达国家了,但是人们对于音乐这块的重视,不但没有提高,反而在下坡路上加速下滑。

早在17、18年那会儿,抖音快手之类的短视频平台开始出现的时候,我就写过一篇文章:音乐终将消亡。算法跟短视频这种东西一出现,我就知道更加要完蛋,大众的注意力被算法短视频给驯化得越来越差,越来越不耐烦,越来越难以长时间的专注。而欣赏音乐恰恰需要的是专注,音乐是关于时间的艺术,听音乐的时候你稍微一走神,几小节就过去了,那一段音乐就被抠掉了,它的体验完整性就被破坏了。

现在的人被算法短视频、三俗直播、游戏等给“宠溺”得越来越浮躁,一个音乐只要稍微不能让他们保持住兴趣几秒钟,他们就烦躁不安了,就要注意力转向其他更直接快捷的刺激了。

那么这种土壤之上,能火起来的,能让大众自发喜欢、口口相传的音乐,自然也就是越来越简陋、浅薄、快餐的音乐。短视频导致很多所谓的音乐人就只写副歌了,还搞什么前奏啊主歌啊变奏啊,直接上副歌,四句完事,赶紧换下一首,下一批!

而且,欣赏好的音乐需要好的听音设备和听音环境。以前家家户户但凡有点条件的还买套音响,有钱人更是喜欢玩发烧音响,虽然这里面有好多智商税的东西,但是大家好歹初衷还是为了追求音质的。后来呢,大家都用智能手机了,而手机喇叭是地球上音质最差的听音设备,大家都拿着手机喇叭来听音乐了。

你说你的作品再去讲究多么好的编曲配器、录音混音质量啥的,也都没什么人在乎了。整整一代人听着手机喇叭长大了,对于录音、混音质量也没什么概念,更没什么要求了。

随着电脑音乐制作技术的进步,做音乐的门槛也已经低到以前无法想象的程度。只要下载点相关的软件,看看教程,谁都可以自称音乐人了。每年产生海量新作品,现在光国内一年据说就有几千万首新歌,但是呢,大部分都是垃圾。

以前生产音乐的门槛比较高,出品质量大部分相对来讲还是比较高,而现在你就得在一大堆的垃圾中间挑选出好的东西,这个时间成本其实对于普通人就已经很高了。但是呢,AI的出现又将极大加剧这个成本。用AI生成音乐如此快捷,垃圾音乐的泡沫将会膨胀成什么样子?简直无法想象。

当市面上再以指数裂变的速率,进一步充斥着AI行活儿音乐的话,大家还听得过来吗?

音乐还不像影视剧可以快进,我是说,音乐当然可以快进,但是你要好好欣赏一首歌,哪怕只是一个副歌,这个副歌本来有多少秒,你也得至少听完这多少秒。而不像影视剧,你可以剪辑压缩,当然,现在的大众已经在算法短视频的驯化下,习惯于刷“剪辑解说”来速通打怪,熬几晚上刷完几百集“剪辑”,那叫一个酸爽。但当你回头跟他聊起这剧的细节和感想时,啊?脑子空空,跟没看过一样。但没关系,咱不聊什么细节什么感想的不就行了吗,继续刷啊,迫不及待开始刷接下来的几百集。

其实早在10多年前,p2p免费下载、电驴出现,音乐突然变的唾手可得的时候,我就想,之前人类最有才华的这些大脑已经创作出了这么多音乐,就是挑其中最优秀的音乐来听,一个人穷其一生也是根本听不完的,我们还需要更多的新作品吗?

但我还是会关注国外最前沿的音乐新动态、新人、新作品,也时常能听到确实有创新的好作品,让我觉得“哇,原来音乐还可以这样做,还有人能琢磨出这样的玩法”。哪怕只是小小的一点的创新,都会打消我那种念头,让我觉得还是人类的音乐创作还是可以往前走的。

包括我自己为什么做释魂乐队这种风格,虽然这不是多有创新的风格,但也是因为我想做的这种风格国内没人做啊。类似的风格在国外可能还有一些,但是在整个华语乐坛里边,就没有我最想听到的这种风格。那既然没人来做,那就我自己来做吧。假如说我想做的这种风格在国内有很多人已经在做,而且都做得很好的话,那我早就换行业了。

我不认为AI能促进人类的音乐发展,它充其量就是一个偷懒的工具。当然,很多人会利用这个来投机取巧。比如国内就有很多其实不懂AI的人,通过忽悠大众“如何用AI来赚钱”来赚到了很多钱,这个就不展开聊了。

目前AI的另一大应用场景,就是恶搞类音频视频。这种东西刚出来我也会感觉有点意思,有点逗,点开娱乐一下,但很快就厌倦了,现在看到甚至觉得厌恶。但是恶搞是符合国情的,你去B站看看,恶搞类的播放量永远是比原曲要高的,复读网梗段子永远是要比正经分析评论多得多的。

谁愿意正儿八经去欣赏经典啊,谁愿意严肃啊,创造音乐经典那是老外的事,我们的任务是恶搞经典,解构经典,消解意义,拒绝严肃思考。当然,国外也有恶搞,但是人家先创造了大量的经典,人家是建立在充分欣赏了消费了这些经典的基础之上再去恶搞的,在外面的音视频平台,经典的播放量是远远高于恶搞的,而咱们这边是恰恰相反。

AI不但不可能助力我们创造更多属于我们自己的经典,反而助力于我们在把经典变成小丑的同时,自己也变成小丑。

目前这种AI音乐技术的受益者还有一类,就是各个网络音乐、视频平台。

以前呢,老的唱片公司手里积累了很多音乐的版权,它们可以躺在过去的老本上吃饭,也不去发掘和运作新人了,因为音乐、视频平台要花大量的钱从它们手里买这些版权的使用权。

所以你会发现,某些音乐平台,是最积极主动开发AI作曲的,它们想方设法鼓励独立音乐人去用它们的AI工具,实际上就是帮它们训练AI模型嘛。等这些AI模型足够成熟之后,就要端掉音乐人的饭碗了,因为平台自己就可以批量快速生成音乐,这些音乐都不涉及到版权问题,它们就可以要么自己用,自己生成未来的“热门单曲”,要么再卖给其他比如商场、广告、游戏、影视这些需要配乐的地方,就可以跳过音乐人和传统的版权方了。

所以,我从来不用那些音乐平台提供的AI作曲工具,你给再多“奖励”诱惑我也不用。当然我知道这根本阻挡不了大势,我这就是螳臂挡车,但这就是我的一个态度。

此外,AI或许会让没有音乐创作能力的人更方便地靠音乐来装逼。当然,普通人装一装也没什么,拿个AI生成的东西说是自己的原创作品,满足一下虚荣,也形成不了多大的后果。但是呢,比如某些小鲜肉练习生偶像,他们自己本来可能没有音乐创作方面的才华和能力,但是现在他们就可以用AI生成一堆“原创”了,这样他们的粉丝就能更加理直气壮地说,哎呀我家哥哥真有才了。

前段时间,我在一个音乐节上看到一个鲜肉,每说一句话下面的小女生都要疯狂尖叫,一个45分钟的演出,他光是为脱不脱外套就能跟台下甜蜜互动了恨不得10分钟。对于这种人的粉丝,只要他这个人站在那里就够了,外表就是一切,颜值即是正义嘛。至于他唱的那几首歌,真的,我觉得现在AI生成的歌就已经比他那个的水准高了啊,挺好,以后也不用找人做了,给真爱粉们一键批量生成,量大管够的那种哦。

所谓音乐圈里,没多少音乐才华,其实也不怎么热爱音乐,主要精力其实并没有花在提高创作制作水平上的那些poser们,还少吗?而接下来,可就是他们为王的时代了。以前他们的作品不行,或者数量不够,或者吃老本混日子,还会多多少少是一个“把柄”,而现在有了AI,分分钟生成一堆及格线以上的作品,怎么着?看谁还说我没才华?谁还说我吃老本?

所以说,AI时代最受益的还有这帮poser,本来他只有个壳子,没有内容,但是现在AI呢能够极其低成本的、快捷地帮他生成内容,而且这个内容又是最符合大众的欣赏水平的。

因为,音乐欣赏这件事,不是说作品分数越高,欣赏它认可它的人就越多,而恰恰相反,分数越高的作品,能欣赏得来的人反而越少。也就是说,人只能欣赏得来在他的欣赏能力范围之内的音乐。

比如一个人的欣赏能力是三十分,那能让他发自内心真正喜欢的,也就是三四十分的音乐,或者媒体推给他一个五六十分的音乐,告诉他这个音乐多牛逼,得过多少奖,有多少大咖给站台,有了这些的加持,他可能也会去欣赏欣赏。但是如果你给他一个八九十分的作品,他就真的欣赏不来了,如果这个作品并没有进入“名人堂”,没有在历史上成佛作祖,不能用来装逼的话,那他不但不会觉得好在哪,反而会贬损一番。

到了后来,我越来越意识到,真正有音乐判断力的人其实是非常少的。拿我自己来举例的话,现在回头去看,在我听音乐、做音乐的前十年,都不能说已经锻炼出了多强的、多稳定的音乐判断力。而我是那种宁可饿着肚子,也要攒钱买唱片,宁可放弃编制铁饭碗,也要坚持做原创摇滚乐,宁可放弃很多吃喝玩乐享的时间,都要投入在做音乐上面的人。然后,我又是从演奏、演唱、作词、作曲,再到编曲配器,再到录音混音,都花了很多时间精力去钻研去提升的。但像我这样的人,放在总人口里边,少到几乎可以忽略不计。

现在AI生成的音乐,可能也就是我们这极少数人会觉得它哪块不自然,或者音乐性不够好,或者太俗套,或者混音哪块不好的,但是对于大众来讲,已经够好了,听不出啥问题来。本来听音乐就听个氛围,听个大概意思。

如果是听一个抒情的歌,只要够舒缓就行,如果是听一个金属,只要够燥就行——至于说这个riff到底编的够不够精妙,它的音乐语汇使用够不够独具匠心等等,对于哪怕是所谓金属迷中的绝大多数人来讲,其实都无所谓的,只要你咣咣燥起来就完事了。

绝大部分人都是最近什么火听什么,什么能够让他跟周围的朋友有社交话题他们就听什么。

音乐在这个时代其实早已经沦为社交话题的一个附属品了,至于它本身的品质都已经可以忽略不计了。毕竟,讨论音乐的高下之分已经是ZZ不正确了,现在是个人都会复读一句“听个音乐,还把你听出优越感了?”,“你作品好有啥用?不还是没我家偶像红?”来抬杠了。

但有了AI之后呢,这个趋势将会更明显,未来就是谁更能制造出噱头,更能成为大众的社交话题,谁就是下一个音乐巨星。至于创作能力?那是最不重要的了,有AI呢!

未来,占音乐行业的绝大部分产值和活跃度的主体,就是那些利用AI来给自己生成五六十分作品的“音乐人”,和占人数最大比例的、欣赏能力就到五六十分的听众。

而那些依然还会在乎音乐品质,具备音乐审美和判断力的人,他们将会越来越小众,处在红火热闹的、资金洪流滚动的那个主体之外。如果不愿意同流合污、随波逐流,就只能忍受孤独。

当然,真正欣赏音乐的过程本来就是孤独的,就是要在一个不受打扰的环境里,心无旁骛地和那些音符对话,和自己的灵魂对话,这些少数人将会成为最后的精神贵族。

假如像某些人预测的,以后的大众都是只听按照自己喜好输入关键词由AI生成的音乐了,那现有的音乐产业以及相关的一切行业都将崩溃。没有人再愿意去学音乐,做音乐。上中下游的什么教育培训行业、乐器行业这那的,都得完蛋。

AI将会给人类音乐艺术的棺材,钉上最后一颗钉子。

当然,也包括其他艺术,也包括其他很多很多东西。

我看现在有些人还挺乐观的。有些人动不动就无脑复读“当年纺织工也是反对织布机的”之类的段子来讥笑对AI进行反思的人,或者来显得他自己好像思想多进步、多开明似的。实际上,每一次技术革命,都会成为少部分人来压榨其他多数人的工具。

每一次,都得是这些被压榨的群体,起来反抗斗争,争取自己的权利,无数人抛头颅洒热血,改变游戏规则,才能改变自己的处境。否则,只会被变本加厉地敲骨吸髓。而在这个过程中间,具体到每一个个体身上,那可能都会是很多很多的苦难。不是有那么一句话嘛,大概意思是时代的尘埃落到每一个人的头上都像大山压顶。

我们现在享受之前一轮轮工业革命的成果的时候,想当然觉得这都是好事,都是社会的进步,我们完全忽略了这种进步给当时的很多人所造成的痛苦,生活质量的下降,生存环境的恶化。在公立教科书式的简单粗暴的宏大历史叙事教育下,很多人的观念是缺少人性的,丧失了对于个体命运的关怀。

曾经我们憧憬的未来,是我们终于可以不用那样忍受生活的苟且,可以更多的去追求诗和远方,而现实却是我们得更加忍受生活的苟且,诗和远方却被AI“代劳”了,呵呵。而且,就算是你觉得你能保得住的眼前苟且,也别太乐观,有些人看到翻译、律师、教师等白领要被AI代替了而幸灾乐祸,看到画师、音乐人等艺术工作要被AI代替了而幸灾乐祸,难道你们真觉得炒菜、送快递、修家电等等是AI+机器人所无法代替的?

很多人一说AI,就想起科幻小说里“AI拥有自主意识,反奴为主,控制甚至消灭人类”这种剧情,太远的咱先不谈。至少在这之前,如果没有社会结构和分配方式的根本性变革的话,还在沿用现有模式的话,我们先得经历一个人类内部极端两极分化的阶段。

如果人类的绝大部分脑力工作被AI替代,绝大部分体力工作被AI机器人取代,绝大部分娱乐和艺术由AI直接生成,唯一的赢家就是掌控AI技术、提供AI服务的巨头。他们和绝大多数其他普通人类之间的阶级差距将会越来越大,甚至后来成为两个物种。

普通人类的存在价值在AI的碾压下,将会像冥币的面值一样急剧贬值,低贱到还不如擦屁股纸,普通人将卑微如蝼蚁般,他们所有的肉体和灵魂存在的价值,都将由巨头来施舍点意义才会有意义。

当然,某些科幻作品里也曾设想过人类集体决议禁掉AI研发使用的那样一种未来,谁知道呢。至少目前来讲,我看大多数人对于AI也没有那么强烈的反对,而且都在有意无意,主动被动地训练AI,助力AI成长。归根结底,人性还是自私且短视的,只要上面制定一个规则,下面的人就会想方设法在这个规则里互相内卷,互相厮杀。

扯远了,再拉回现实一点。即使你不是音乐人,也压根不在乎音乐人和艺术家们的死活,你只是一个欣赏者,也可以问问自己:我们真的需要那么多AI生成的音乐、美术、影视、文学吗?人类历史上那么多优秀作品还不够我们欣赏的吗?更何况人类本身就一直在不断创作着大量新的作品,这些都看不过来呢,我们真的需要AI再来加剧泡沫吗?

我们还有多少真正重要的问题没解决,甚至更严重了?环境问题,生态问题,食品安全问题,医疗问题,教育问题,地区发展不平衡问题,资源分配不均、匮乏和浪费同时大量存在的问题,不同群体的认知更加撕裂、更加仇视对立、冲突和战争越来越多的问题……我们是不是应该引导AI往改善这些问题的方向上走?

而如今的AI方向,却是剥夺掉人类从事艺术的必要和意愿、催生海量人类根本消化不完的泡沫作品、促使人类滑向更加浮躁、快餐、巨婴化……当然,我不是说应该把AI彻底禁止,永远禁止,只是,在我们能够想出一套能够避免社会滑向可能的灾难的解决方案之前,我们真的要任由AI这样失控发展下去吗?

“AI黏土特效”又将是昙花一现?

aigc阅读(48)

小红书五一期间,一款带有AI黏土滤镜的应用“Remini”在各大社交平台走红。虽说Remini尚未完全汉化,但5月8日当天依然强势霸榜App Store免费榜TOP2,应用榜单及细分摄影和录像榜单TOP1,超过抖音、快手等TOP级APP。

图源:七麦数据

Remini爆火后,随着大量网友在社交媒体的自分享,以及妙鸭相机、美图迅速跟进,社交媒体平台正被大量“黏土人”所攻占。

在抖音上,一款名为“黏土世界”的特效,5月13日冲向挑战榜TOP10。在小红书上,衍生出大量黏土特效的搜索词条。

图源:抖音、小红书

不仅如此,脑洞大开的网友以黏土特效为基础,展开大量二创。在短视频平台上,《甄嬛传》二创养活不少自媒体博主。“黏土世界”中,网友们也纷纷对《甄嬛传》中重要人物下手。

图源:小红书

黏土特效的突然爆火,除和当前AI技术的快速发展有关外,背后则是用户对美的追求愈发表现出真实化、个性化、多元化。

国内学者陈昌凤围绕智能人脸分析应用“Face++”为对象,以逆向测试的方法证实了算法推崇“瘦、白、幼”的片面审美观,而“人脸美化”算法将这种单一的审美偏好付诸自动化的美学实践。

也就是说,算法推崇的审美价值具有特定偏向,并将与人类的审美实践相互影响。技术滤镜所带来的标准美,正造成单一的审美暴力和审美疲劳。

基于此,主打健康美的椰树直播间和社会追求的“瘦弱美”构成差异,椰树直播间迅速出圈且热度不减。黏土世界里丑萌人物的真实美,和短视频、小红书、朋友圈所定义的“精致美”构成差异,短期内自然会受到大量网友追捧。

但不管是在移动互联网时代还是AI时代,图像工具类产品天然具有变现难、热度来得快去得也快、场景单一带来的用户留存差的通病。

移动APP时代,颠覆时期当时国内图像工具类超过千款,但绝大多数图像APP因处在亏损边缘,或被大厂喊停或淹没在历史的长河中。运营多年的美图,此前一直处在亏损中,2023年依靠AI大模型的火热,利润才有所改观。

图源:企业预警通

AI时代,去年爆火的妙鸭相机历经短期爆火后,逐渐归于平静。近一个月App Store的平均下载量只有3397。若考虑到从用户下载到打开到次日留存到七日留存,存在较高的用户漏斗流失,妙鸭相机近一个月由新增用户贡献的日活可想而知。这让市场也不得不担心,“Remini”们还能火多久。

图源:七麦数据

一、图像生成质量不稳定,或将带来用户高流失

黏土特效真实感的背后,却是当前生成质量的整体不稳定。

我们选取百度上的一张网图,使用妙鸭相机的黏土AI特效生成后发现,原图中女性原本光滑的皮肤被增加不少斑点,笑容显得不自然,失去原图中女性的神韵。整个生成后的图片缺少原图中男女双方互相爱慕之意,给人一种僵硬的感觉。

图源:百度原图(左)、妙鸭相机(右)

在小红书上,根据不少网友分享使用黏土特性生成后的照片来看,部分生成后的照片仅是单纯抓取原图中人物的五官,对人物神韵抓取欠佳,这让部分生成的图片几乎和美毫无关系,甚至能用惊悚来形容,颇有为了AI而AI,为了生成而生成的感觉。

图源:小红书

不仅仅是AI黏土特效,文生图、图生图、文生视频、图生视频作为当前国内外厂商布局最多的场景之一。在ChatGPT官网上,关于图片生成的大模型数量超过上百款。但我们在实测后却发现,整个大模型生产质量仍有很大改善空间。

图源:ChatGPT官网

如ChatGPT官方的Stable Diffusion XL,宣传是一款深度学习模型,具有高分辨率支持、改进的图像质量、多样化的应用、用户友好的接口、可定制化等优点。但当我们让Stable Diffusion XL帮我们生成一张“中国传统神话故事中四大神兽”的图片时,图片虽有高分辨率,但图片中却看不到四大神兽的身影,有种答非所问的感觉。

图源:由Stable Diffusion XL生成

第二次生成的图片,直接变成朋友圈中常见的九宫格照片。且九个细分头像中,虽能看到神话故事中龙的头像,但看不到朱雀、玄武、白虎的照片,且九个头像的表情完全一致。

图源:由Stable Diffusion XL生成

不仅仅是Stable Diffusion XL,月活用户超过11万的Photo CreateE大模型表现同样欠佳。但我们让Photo CreateE帮我们生产一张中国传统故事中青龙的照片时,给到的结果却是《山海经》中唯一有翅膀的应龙,又称之为翼龙,且整个翅膀更像是蝙蝠的翅膀。

图源:基于Photo CreateE生成

如果说海外大模型表现得欠佳,和其他背后的厂商对中国传统故事理解欠佳有关,但国产大模型的表现同样不容乐观。

我们分别让讯飞星火和文心一言给我们生成中国传统故事四大神兽的图片时,讯飞星火给出的四大神兽和神话故事中四大神兽形象不符。且四大神兽基于地位特殊,在国人心中有着威严的形象,并非讯飞星火给到的漫画风。

图源:基于讯飞星火生产

相较于讯飞星火,文心一言给到的图像结果,几乎和四大神兽形象完全不沾边。不知国内传统神话爱好者,看到这些会作何感想。

图源:基于文心一言生成

不可否认的是,自2023年大模型爆火至今,随着技术的快速迭代,AI在图像方面的表现迎来快速提升。如不少大模型可做到快速生图、快速消除,不少基于AI换脸的APP和小程序场景也愈发丰富,甚至AI大模型取代专业设计师的声音愈发高涨。

但AI大模型并不是简单地从几亿张或几十亿张照片中学习其背后的绘画风格、人物和场景速写。不同照片背后所传递出的情感因素、文化因素等等均需要长期摸索学习,否则很容易会产生用户高流失问题,更别提后续的商业化变现。

因此,在AI大模型最通用的生图方面,国内外厂商仍有很长的路要走。

二、高额收费,黏土特效热度正在退散

不稳定生成质量的背后,却是AI黏土特效的高收费。Remini用户使用的首周可免费每天修改5张图片,之后每周按照68元收费。若用户忘记取消订阅,一年会员高达3500多元。这个费用足够用户同时购买WPS、爱奇艺、网易云、美图几家的年度会员,不少用户也纷纷吐槽Remini收费太贵。

和Remini用户还可免费体验不同的是,妙鸭相机从用户首次开始使用就需要付费。

用户在将妙鸭相机生成的图片导出后,需要支付对应的钻石。用户虽可通过分享获得免费钻石,但考虑到部分用户不愿意分享以及分享后的钻石很快会被使用完,意味着用户只能付费才能体验妙鸭相机黏土特效的全部功能。

这种运营策略和国内消费者被互联网培育的先免费后付费的习惯构成较大差异,不仅会让APP产生较大的用户流失,且用户分享意愿较低,也不利于APP前期的传播和用户裂变。

图源:妙鸭相机APP

基于此,目前黏土特效热度正逐渐退潮。5月11日后,Remini在App Store总榜、免费榜、细分榜的排名直线下滑。5月14日时,更是跌入总榜百名开外。

图源:七麦数据

更深层来看,黏土特效热度退潮偶然中有些必然。相较于文生文、文生代码、行业垂直大模型,图像的高频使用,决定其有着广泛的TOC端基础,国内手机厂商们一直围绕影像开卷的原因也在此。

且以抖音为代表的短视频平台有着大量的AI特效、AI小程序,用户在日常接触和使用这些AI图生图、图生视频后,无形中也提高整个渗透率。这也不能解释2023年大模型火热下,图像类的美团会率先成为受益较早的厂商之一。

图源:各大企业财报

另从人性角度来看,当一款具有差异化的AI生图类大模型推出市场后,差异化满足人性中对个性、与众不同的需求,爆火后社交媒体上的高点赞、高回复,让人性中的价值感得到片刻满足。

再或是不少网友素来有跟风、爱凑热闹的习惯,均会让一款AI生图类大模型短时间内迎来火爆。

基于此,国内外市场从不缺现象级AI生图类大模型。在海外市场,Clipdrop被型Stable Difusion的母公司stability Al收购后,通过提升性能,当年7月份流量迎来暴涨。

图源:国海证券

人性成就爆款AI生图类大模型的同时,也很容易会将这些将其打入谷底。

一方面,AI特效对大量TOC端用户来说,娱乐属性高于刚需属性。且同时娱乐属性,AI特效又不像优爱腾、网易云和腾讯音乐这些APP,可依靠优质内容实现用户高留存。

另一方面,初次使用带来的新鲜感退潮后,“喜新厌旧”推动下,用户很快对其失去兴趣。某类特效爆火后,伴随着同行的大量跟随以及短视频平台上大量的同款图片,用户无法满足个性化的同时,也带来短期的审美疲劳,很多用户自然也就放弃使用。

换言之,AI生图类大模型既要持续给用户带来新鲜感,进而刺激用户分享欲才能形成用户高留存和后续付费,又要保证自身AI特效做到无法复制化。“既要”“也要”之间,AI生图类大模型运营难度可想而知。

三、AI生图最容易变现,也最难长久变现

上述问题的存在,也不能解释妙鸭相机和Remini会如此着急向用户收费,以及互联网大厂们推出的大模型会选择将生图功能作为其中的一个场景的原因。

从后续来看,AI生图大模型如何进行长期变现,也面临着不少阻力。从TOC端来看,会员订阅模式是面向TOC端大模型的变现模式之一。

但当某款APP真正爆火后,电商平台上从来不缺低价会员。如某宝上售卖的美团秀秀会员,7天SVIP粉钻PC版、30天SVIP粉钻PC版售价分别为2.58元和6.58元,这对用户构成极大的吸引力。

厂商们想要打击这些低价会员卖家并非易事,毕竟国内移动互联网APP发展多年,低价会员早已形成完整的产业链。即使妙鸭相机不采用会员模式,也难逃市场上出现破解版的存在,这均对厂商借助会员带动营收增长构成强分流。

另对标移动互联网来看,互联网本质上做的就是切割用户时长+DAU的生意。以高DAU为基础衍生出广告业务,以及和主场景相契合的其他业务,进而通过交叉销售的方式实现单个用户价值的最大化。

但在美图的高渗透以及AI特效场景单一,用户难以留存下,如何突破百万日活就是难题,更别提后续还要满足广告客户对广告位、效果的各种高要求。

在TOB端,文生图想要拿下更多TOB端客户,必须满足企业对营销素材生成的需求。和TOC端简单输入标题要求大模型生成图片不同的是,企业端对VI视觉规范有着严格要求,进而保证品牌对外形象的统一。且品牌方部分产品若牵扯到明星代言,双方合同约束下,对VI视觉规范要求更高。

或许多模态大模型能够理解企业VI视觉规范,但即使大模型真正具备该能力,开发者到底要通过何种能力和不同企业的运作环境结合,以及设计规范以何种形式保存。

是应该通过设计规范文档来制约模型输出,还以经过验证的历史产出物作为“训练”素材?即便做到了这一点,我们还要确定用户在使用AI能力创作时能够对规范进行调整突破的程度。

且企业端使用大模型的成本和使用专门设计师相比,哪个成本最优,效率最高,也是企业主们均会思考的问题。大模型厂商在为不同TOB端企业定制服务时,又面临着如何解决成本、收益、账期等问题。换言之,文生图在TOB端大模型的落地仍需大模型厂商们持续探索。

大模型图生文作为用户基础较广、使用频率较高、渗透相对较高的场景之一,商业化也面临着不小的难度。更别提其他场景下对大模型的能力以及合作要求更高。大模型商业化的持续推进过程中,又有多少厂商会被淘汰呢?

五月全球“AI大爆炸”:卷技术、拼落地、比价格

aigc阅读(78)

这个五月,全球科技圈异常热闹。

先是OpenAI和谷歌掰手腕,后有微软、苹果的开发者大会即将召开;反观国内,大厂和创业公司也都在拼场景、卷技术。

5月15日,谷歌举办了2024年I/O开发者大会,AI是全场的主题,谷歌发布了Gemini 1.5 Pro的新版本,谷歌CEO皮查伊宣布谷歌已经全面进入Gemini时代。

原本打算掀起全球的科技狂欢的谷歌没想到被OpenAI抢了先。

就在谷歌发布会前一天,OpenAI举行了春季发布会,发布最新多模态大模型GPT-4o,相较于GPT-4 Trubo速度更快、价格也更便宜。更重要的是,该大模型响应速度更接近人类水平,无限接近现实。

OpenAI这场空降的发布会,被市场看作是对谷歌的“截胡”和“狙击”。双方“掰手腕”的核心竞争点在于AI,这个令全球科技市场兴奋的技术,一场关于AI技术的比拼再度开启。

大洋彼岸的中国,也聚集了一众参与大模型军备竞赛的玩家,正努力缩小与国外科技公司的差距,并在场景、价格、落地上有更多的探索。

5月15日,字节近期推出豆包大模型,日均处理1200亿Tokens文本,生成3000万张图片;5月14日,腾讯混元大模型升级开源,采用与Sora同款DiT架构;5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo……

经过一年多的发展,大模型技术不断提高,玩家们要面对的不仅是技术上的差距,更重要的是如何通过场景落地、商业化覆盖大模型高昂的训练成本以及研发成本。

新一轮的技术大爆炸开始了,新一轮的竞赛也开始了。

一、OpenAI 与谷歌的AI竞赛,拉开新一轮技术大爆炸的序幕

连着两天,大洋彼岸的OpenAI和谷歌掀起了新一轮的AI军备竞赛。

5月14日凌晨,继上周预告了ChatGPT和GPT-4“就像魔法一样”的重大更新后,OpenAI揭开了最新大模型的神秘面纱。

会上,OpenAI发布了新旗舰模型“GPT-4o”,这里的“o”代表“omni”,意为“全能”。顾名思义,最新的GPT-4o是款全能型大模型,也是OpenAI CEO阿尔特曼口中“很有意思的东西。”

为了彰显“全能”,OpenAI首席技术官米拉·穆拉蒂用大量篇幅介绍GPT-4o的先进程度。比如,GPT-4o可以综合利用语音、文本和视觉信息进行推理;GPT-4o在GPT-4的基础上,新增语音处理能力,掌握多国语言;GPT-4o还可接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

用OpenAI官网的话来解释,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能上也达到了新高水位线。

整场发布会最大的亮点,也是最特别之处莫过于GPT-4o更像人。

图源OpenAI官网

一方面,GPT-4o几乎可以做到即时回应,没有停顿。OpenAI表示,在GPT-4o推出之前,用户使用语音模式与ChatGPT进行对话时,延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒,GPT-4o将这一延迟被大幅缩短为320毫秒。

另一方面,GPT-4o能在与人的对话中,通过图表、图像等形式判断用户的情绪、状态,并给出“情绪化”的回应——夸张的、戏剧的、低沉的……

当电影《Her》中的画面照进现实,GPT-4o的“拟人化”给了市场足够多惊喜。GPT-4o驱动下的ChatGPT,已不再是一个单纯追求性能的AI工具,而是可以主动给予用户情绪价值的AI助理。

这一次,GPT-4o的出现,是OpenAI向本就不平静的池水中投掷了一枚极具杀伤力的炸弹,并直指同在硅谷的科技巨头谷歌,谷歌必须直面劲敌。

就在OpenAI开发布会的第二天,谷歌年度I/O开发者大会主题演讲上,谷歌CEO皮查伊发布数十款Google和 AI 结合产品,堪称“全家桶”级别,全力对战OpenAI。

其中包括支持200万Tokens长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash、谷歌版Sora技术Veo,最强开源模型Gemma 2,支持生成式搜索的AI Overviews、第六代TPU等。

围绕AI,皮查伊及同事进行了长达110分钟的演讲,据谷歌统计,皮查伊提及AI的次数高达121次。

不过,有GPT-4o“拟人”在前做标杆,谷歌发布会最受关注的莫过于AI助手Project Astra。

相比于谷歌上一代AI助手Google Assistant,Project Astra是一个实时、多模式的AI助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互,没有延迟或延迟,可以回答问题或帮助你做几乎任何事情。

演示视频中,Project Astra可以通过手机摄像头识别现实环境,实现了能看、能说、能听。这与前一天GPT-4o的功能不谋而合。

图源谷歌官网

相比于GPT-4o提供情绪价值,Project Astra更强调指向人、机器与现实世界的三重交互。用谷歌Deepmind负责人哈萨比斯的话说,这是真正通向AGI的万能助手项目。

此外,谷歌还针对生成式AI大模型Gemini进行了多功能拓展。

谷歌在Gemini Advanced中加入新模型成员Gemini 1.5 Pro,称它拥有的上下文窗口在全球消费类聊天机器人中最长,窗口起始就有100万个Tokens;今年年底,这个数字将被扩大到200万Tokens,最终目标是无限上下文;Gemini 1.5 Pro将向150 多个国家地区的Gemini Advanced订阅者提供,支持超过35 种语言。

在多模态功能方面,今年夏季谷歌将扩展Gemini用语音进行深入双向对话的能力,该功能被称为Live。通过 Gemini Live,用户可以与 Gemini 交谈,并可以从各种自然的声音中选择它回应的声音,用户甚至可以按照自己的节奏说话;谷歌还表示,今年年内将加入相机功能,实现实时视频。

全面接入 Gemini 的“谷歌办公全家桶”,也将在未来几个月内陆续上线“智能问答”“智能邮件回复”“表格图像化总结”等新功能。

在谷歌最擅长的搜索上,谷歌在一周内将在美国推出“AI概览”(AI Overviews)功能,搜索引擎会直接归纳总结搜索结果;谷歌还推出了新的TPU,第六代TPU芯片Trillium,较上一代芯片的算力表现翻4.7倍。

可以看到,在全球技术的中心硅谷,OpenAI与谷歌的“厮杀”正如火如荼地进行着。更重要的是,GPT-4o的限量免费抬高了这场竞争的维度,未来的谷歌如何应战,还要看市场后续的表现。

二、卷技术、拼落地、比价格,国内大厂竞逐大模型风口

大模型风口之下,AI重构了边界,也掀起了一众创业者和巨头们探索新业务的热情。

当这样的热情来到大洋彼岸的中国,丝毫没有减少。和硅谷的公司几乎同步,国内大厂也在大模型风口上你追我赶。

一个明显的变化是,去年国内大厂还处在大模型军备竞赛的初期,竞相推出大模型产品;今年,经过一年的技术发展,大厂们的竞争点不仅限于技术,还有价格,更重要的是落地场景。

5月9日,阿里云正式发布通义千问2.5,宣布模型性能全面赶超GPT-4Turbo,成为地表最强中文大模型。

在阿里云AI峰会上,阿里云首席技术官周靖人介绍,阿里云大模型API日调用量已经过亿;除了日常2C应用外,也服务了9万家企业客户;尤其在开源场景中,周靖人强调,开源是阿里云的战略。目前通义开源模型下载量已超过700万。

同样选择对外开源的还有腾讯混元文生图大模型。5月14日,腾讯宣布其旗下混元文生图大模型全面升级,并对外开源。这也是首个中文原生的类 Sora 架构开源模型,支持中英文双语输入及理解,参数量15亿。

放眼市场,当下的文生图开源生态,比如Stable Diffusion基本围绕英文语义理解,要先把中文翻译成英文才能生成图片。腾讯混元文生图大模型的出现,打破了这一现状,让文生图生态更了解中文。

值得注意的是,腾讯在大模型上的打法有着明显的产品思维。自去年9月混元大模型上线以来,腾讯采取的就是“大模型全家桶”策略,其内部目前已有超400个业务在接入腾讯混元大模型。比如,此次混元大模型升级后,既可以是微信读书的“AI问书”,也可以是腾讯会议的“AI小助手”。

事实上,关于开源还是闭源,行业的讨论由来已久。百度创始人李彦宏曾表示,“大模型开源的意义其实不是很大,这些开源模型都是在外头零零散散小规模地去做各种各样的验证应用,它没有经过大算力的验证。”

“对百度而言,开源还得自己去维护一套开源的版本,这是不划算的;相反,同等能力下,闭源模型的推理成本一定是更低的,响应速度一定是更快的。”李彦宏认为。

这样的路径之下,百度文心一言采用了闭源模式。近期,百度推出多个轻量级大语言模型,并上线Agent Builder、App Builder和Model Builder三大开发工具,帮助开发者和企业创建智能体、开发AI原生应用和定制模型。

据百度2024年一季度财报披露,发布一年多,“文心一言”用户数突破2亿,文心大模型日调用量也达2亿。

本质上,开源还是闭源,是大模型厂商在成本和技术上衡量。尤其是在大模型应用市场,大家都试图推出更普惠的大模型应用。

最突出的是字节豆包大模型。5月15日,尽管没有公布榜单成绩和参数规模,但豆包大模型靠价格出圈了。

豆包主力模型pro-32k版的模型推理输入价格仅为 0.0008 元 / 千 Tokens,相当于一元钱就能买到125 万Tokens,比行业价格低 99.3%;在处理 128K 长文本时,豆包通用模型 pro 的推理输出价格为 0.005/ 千 Tokens。

这堪称是行业“地板价”。以OpenAI发布的全新模型GPT-4o为例,GPT-4o的价格已经来到输入5美元 / 百万Tokens(约为0.035 元/千Tokens),输出15美元 / 百万 Tokens(约为0.1元/千Tokens);而像阿里、腾讯等国内大模型均价在0.12元/千Tokens左右。

火山引擎总裁谭待在接受媒体采访时提到,“降价是用技术优化成本来实现的。如果只是补贴,用亏损换收入是不可持续的,火山引擎不会走这条路。”

如何进行技术优化,据介绍,模型本身就有优化的空间,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决方案。

其次是工程上的优化。大模型的调用量越大,优化推理成本的空间也越大。以前的模型都是单机推理,大模型用的是分布式推理。所以如果能把各种各样的底层算力用得更好,推理成本就会大大降低。

事实上,为了让用户可以低成本地使用AI,并推动应用的发展,降价是国内大模型厂商的共识。

今年2月份,阿里云宣布全线下调云产品官网售价,平均降价幅度超过20%,最高降幅达55%,涉及100多款产品、500多个产品规格,4月份,阿里云将降价策略扩大至海外公有云产品。

大厂们之所以打起价格战,是因为大模型价格越低,使用的人越多;使用量越大,大模型才能被调用得越来越好。简言之,价格力的出现,才能推动大模型更好地落地。

2024年,被行业看作是大模型落地元年,推出大模型已不再是新鲜事,重要的是充分释放大模型的生产力,如何真正实现落地。

对于大模型厂商而言,如何真正服务好企业,是考验各家AI产品是否是个好商品的重要标准。

三、火热和洗牌并行,资本市场更冷静看待大模型

从ChatGPT横空出世后,大模型的火热有目共睹。面对大模型带来的技术革命,不仅是微软、谷歌、百度、字节、阿里、腾讯等大厂下场做大模型,众多与AI相关的创业公司涌现出来。

在我国,更是诞生了“新AI四小龙”:百川智能、月之暗面、MiniMax、智谱AI。从估值上看,除百川智能估值超百亿元外,月之暗面、MiniMax目前估值分别为超23亿美元和超25亿美元,智谱AI估值超百亿元。

“新AI四小龙”快速成长的背后,是资本的助推。CBInsights数据显示,2023全年生成式AI新创在全球获得约204亿美元融资,是2022年36亿美元的5倍以上。

火热的背后,也有一些现象值得思考。最为明显的一点是,与上一代移动互联网创业潮相比,这场AI掀起的创业潮,资本和创业者都显得更为冷静谨慎。

从创业者角度看,大模型创业从研发大模型,到落地应用场景,这条路的成功不仅依赖资金的投入和人力的积累,更需要过硬的技术和清晰的落地路径,缺一不可。

从资本角度看,创业公司烧钱换增长在大模型行业是行不通的,投资者不会因为短暂的增长就不遗余力地押注真金白银。

市场研究机构CB Insights发布的《2023年人工智能行业现状报告》指出,2023年中国AI领域的投融资案例数量约为232起,与去年同期相比下降了38%;融资总额约为20亿美元,同比大幅下降了70%。

肉眼可见的是,市场冷静下来了,在钱少的时候,对于创业公司而言,活下来更加重要。尤其是到了今年,商业化、落地等关键词成为大模型新的竞赛点后,商业模式不清晰,营收增长乏力的企业或面临危机,行业或将迎来真正洗牌阶段。

从新变化看,今年,场上大模型玩家都从围绕模型层的“参数之争”,转变为发力应用层的“用户之争”,百度创始人李彦宏也多次表示“卷模型不如卷应用”。

海外市场和国内类似,投资Facebook和Salesforc的Meritech Capital,以及TCV、General Atlantic、Blackstone等机构纷纷暂停对生成式AI的关注。Gartner分析师John-David Lovelock称,大模型数十亿美元的投资数量已经放缓且几乎已经结束,热钱涌向AI 应用。

今年5月这波技术大爆炸后,玩家们都瞄准了“更像人”的方向,即推出互动能力更强的AI助手。

过去一周内,创业公司月之暗面和零一万物接连发布Kimi+和万知,两款产品定位均为AI专业助手。其中,Kimi+搭建了一套智能体商店,包含办公助手、研报生成、学术搜索、提示词设计、辅助写作等场景;万知则是一套一站式AI工作平台,覆盖写作助手、文件解读、PPT图文制作等功能。

同时,也有一些企业从加入“百模大战”开始,就将应用落地放在重要位置。举例而言,“技术顶天,应用落地”是科大讯飞在发展大模型过程中始终遵循的两项准则,在研发技术的同时,思考场景落地与商业化。

近期,科大讯飞披露投资者关系活动记录表显示,其多模态大模型能力已广泛应用在教育、医疗、工业、汽车、机器人等领域。此外,科大讯飞与人保集团联合发布了人保首个百亿级参数的专属问答领域大模型“人保大模型”;在软件等 IT 行业,科大讯飞的 AI 程序员不仅在公司内部使用,也已经在软通动力、交通银行等100 多家企业“上岗”。

从爆火至今,大模型经历了很多个重要节点,其中最重要的是从参数到应用的演变,大模型跑得快的标准正变成好用和实用。

行业的共识在于,通用大模型公司的能力水平再高,最终也要依靠商业化造血,底层通用大模型可能最终仅剩少数玩家,但应用层的创业生态会相对繁荣。

从这点上看,新一轮的AI应用竞赛或许不会出现一家独大的情况,巨头和创业公司都将有机会突围。不过,硅谷掀起的这场席卷全球的科技竞赛,已经呈现出更内卷的态势,这考验着各个玩家的技术实力和赚钱能力,想不被淘汰,只能跑得更快。

字节跳动的AI野心

aigc阅读(56)

在5月15日的火山引擎大会上,字节跳动将自研的“云雀”大模型统一改名为“豆包”大模型,并一次发布了9个大模型产品。

毫无疑问,当前的国内生成式AI行业还处于群雄逐鹿的混乱状态,竞争格局高度不稳定,字节跳动在技术上并不属于最领先的(就连是否属于第一集团都还有争议);但是,凭借自己的消费端产品开发经验、内容数据储备、以及管理层的重视,它已经在国内生成式AI市场占据了举足轻重的地位。

我认为字节跳动的AI野心相当庞大:它想建立一个以消费端(C端)应用为基础,横跨C端和B端(企业端)的“大而全”的体系,然后以此为支点,进一步打入云计算等技术基建生态。相比之下,阿里是希望以云计算为基础、以B端为突破口,对C端不是特别重视;百度是摇摆于B端和C端之间,两边好像都取得了一些成果,但两边都没有做好;腾讯则尚未形成清晰统一的AI战略,或许形成了但是没有对外公开;至于华为的主要精力则是集中在硬件相关生态,对于AI应用层的实际投入有限。

基于从各种渠道获得的信息,我们可以确信,字节跳动赋予了AI相当高的战略定位,聚集了很多资源,并确定了未来一段时间的打法:

  1. 字节跳动在AI技术及产品方面聚集了大批精兵强将,其中包括抖音和TikTok当年的一些灵魂人物,这是它所能拿出的最强有力的阵容了。
  2. 字节跳动的AI业务可以说是应用驱动的,其C端应用发展非常快,数量多、垂类覆盖广,大有当年做“移动APP工厂”的架势。
  3. 豆包大模型设置了极低的价格,对于国内所有大模型创业公司而言是一个严峻冲击,不过我们尚不知道这种冲击的实际效果如何。

字节跳动大模型的负责人是朱文佳,曾任TikTok产品技术负责人。2023年11月成立的Flow(AI应用)部门负责人是朱骏,是原Music.ly创始人、原TikTok负责人;Flow移动产品负责人是陆游,曾任抖音社交负责人。不久前从抖音调任剪映的张楠(女),其重要任务也是依托AI去改造剪映产品。上述阵容不仅是字节跳动最拿得出手的精兵强将,在整个中国互联网行业也堪称豪华。对于其他互联网大厂而言,派出一线大将主管AI大模型是常见的,但是在AI应用层堆积这么多大将就显得太奢侈了。

有人会问:为什么不把这些大将用于抖音等“旗舰业务”,而要用于前途未卜的AI业务?答案很简单:因为抖音不再需要那么多人了,对于业务领导者的素质要求也有很大改变。

上面列举的张楠、朱骏、朱文佳、陆游等人,几乎全是产品向人才,即所谓“打江山的人”;现在抖音大局已定,没什么江山可以打了,要打也是作为防御一方而不是进攻一方。在用户渗透率见顶、产品功能和技术不需要激进迭代的情况下,抖音最需要的是商业化人才,即“从打下的江山上收钱的人”。

过去一年多在抖音内部地位上升的人,例如新任本地生活业务负责人浦燕子,基本都来自张利东麾下,而张利东是整个中国互联网行业最成功的商业化负责人之一。抖音的商业化已经非常成功了,在此基础上若还想深挖,就要对领导团队进行改组,使其从“产品驱动”进一步转向“商业化驱动”。AI技术及其应用,恰恰是吸纳那些从抖音退下来的“产品型人才”的最佳场所。

字节跳动的生成式AI业务从一开始就是应用驱动的。作为大模型负责人,朱文佳对朱骏虽然没有实线汇报关系,但仍然存在虚拟汇报关系(这在字节跳动内部相当常见);在大模型统一改名“豆包”之后,Flow应用部门对AI大模型开发的影响力可能进一步加强。在其他互联网大厂,大模型研发团队可能具备相当高的自主性,乃至“自下而上”推动应用建设;在字节跳动,“自上而下”的逻辑则占据主导地位,应用团队奖其需求传导到了基础研发团队,由此形成高度实用的组织决策模式。

迄今为止,字节跳动已经推出了11款AI应用;其中,豆包是国内用户最多的AI独立应用,其MAU可能已达到2000万量级。需要指出的是,这并不意味着豆包大模型(原名云雀大模型)的使用量是全国最大的,因为阿里的通义千问、百度的文心一言均通过网页端和API拥有上亿级别的客户,其API调用次数也远远高于豆包。但是如果只比较独立APP,豆包的用户优势是无可争议的——这就是字节跳动一贯的打法,以高效率的移动应用迭代去占领新兴市场。

我们不难看出,同样是在战略上高度重视生成式AI的大厂,字节跳动与阿里的打法完全不同。后者以阿里云为基础,先建立一个涵盖闭源和开源大模型、具备成熟开发环境和开发工具的完整生态,以B端客户为主攻方向,与现有应用融合时也是优先考虑钉钉这样的To B应用。前者则以豆包等C端APP为基础,先建立一个广阔的、用户众多的、覆盖各种垂类的AI移动APP生态,然后再逐步扩大对B端的影响力。5月15日的火山引擎发布会,在一定程度上体现了字节跳动对目前的C端AI进展比较满意,计划加强对B端的进攻了。

豆包大模型最重要的特点是价格低廉:与类似水平的国产通用大模型相比,其Token价格要低95%以上。如果这个价格是真实的、不限量的,那么对于国内大模型创业公司而言,简直是灭顶之灾!请注意以下事实:

  • 在现有的Token价格水平上,如果考虑到训练成本摊薄的因素,几乎所有国产大模型在财务上都是亏损的。
  • 由于国产大模型太多,价格战愈演愈烈,有的大模型甚至是边际亏损的:不考虑训练成本摊薄,只考虑推理成本,毛利率仍然是负数。
  • 受到国内经济形势以及人力成本低廉的影响,B端客户对大模型的价格相当敏感,即使技术水平比较优越的大模型也卖不出更高的价格。
  • 虽然AI创投看起来很热闹,但是雷声大雨点小,创业公司拿到的钱很少(其中很大一部分还以算力形式支付),根本没有本钱打价格战。

假如豆包真的打穿了大模型的“地板价”并且坚持执行下去,其他互联网大厂肯定也会跟进,那么国产大模型创业赛道可能迎来一场浩劫。只有大厂才能在这种不计成本的消耗战当中幸存,绝大多数创业公司难逃垮掉或被整合的命运!这就是用C端应用思维做B端产品的可怕之处,至于这套思维在长期是不是可持续,那又是另一个问题了。反正字节跳动烧得起钱,其他大厂也跟得起,只有小公司受伤的世界达成了?

至于豆包大模型的技术水平如何,倒不是一个特别重要的问题。很多人会疑惑,字节跳动生成式AI部门的人员背景相当庞杂,其中仅有极少数具备真正的AI技术背景,而且是“应用驱动”的——这是否天然不利于大模型技术开发?不过,在国内现有环境下,哪怕豆包大模型的技术水平不领先,也不影响其业务应用在短期的蓬勃发展。我们需要意识到:

  • 与国内最先进的一些大模型(名字就不点了)相比,豆包的最新版本可能有10%左右的效率差距。但是对于C端用户而言,这种差距不太明显;对于B端用户而言,巨大的价格优势足以弥补这一点技术差距。
  • 国内大模型创业公司在产品、商务、二次开发等层面上,普遍处于“草台班子”阶段,能够把大模型研发做好已属不易。无论面向C端还是B端用户,与字节跳动等武装到牙齿的大厂相比,它们的天然劣势十分明显。
  • 国内部分大模型的领先,并不是OpenAI那种划时代意义的领先,而是在小地方当老大而已。与GPT-4相比,国产大模型作为一个整体的落后幅度很大。既然如此,豆包与它们的短期技术差距也不是什么大不了的事情。

字节跳动的AI野心能否成功,取决于国内生成式AI应用的发展大势:它最早取得突破、实现良性循环的领域,如果是B端,那么阿里无疑将取得较大优势,百度也有机会;如果是C端,那么字节跳动的优势将相当明显。在前一种场景下,国内大模型创业公司或许还能通过对垂直应用的理解和定制开发能力,占据一席之地;在后一种场景下,成熟的互联网大厂将会一手遮天,AI将不会促进行业“再平衡”,而只会加固极少数巨头的地位。

还有一个问题,不仅对字节跳动很重要,对整个行业都很重要,那就是算力问题。我在上文刻意忽略了这个问题,因为我不知道怎么解答。所有国内互联网大厂都储备了一定量级的AI训练及推理算力;具体到字节跳动,不仅自身有较大的算力储备,还从阿里云租用了大量算力。可是如果AI应用真能取得上亿级别的MAU,乃至像抖音那样成为头部C端应用,目前全国的算力储备都是远远不够的。许多用户已经注意到了,一些国内AI聊天应用经常出现提问需要排队的现象,这就是算力不足的一个体现。这种算力瓶颈是不能依靠砸钱去解决的,因为供应商已经不再收钱了。

在可见的未来,如果我们还是无法以合理的成本解决算力问题,那么生成式AI在国内的C端应用的道路将会很窄,因为推理算力可能只够满足少数专业化的B端客户的需求(价格也会被推得很高)。这样的问题显然不是字节跳动或任何一家互联网大厂所能解决、所应该考虑的。我希望它能得到妥善解决,尽管我完全不知道怎么解决。

有“情商”能表达情绪的AI!从Hume AI看语音助手的变革

aigc阅读(72)

可能是新奇,也可能是接地气,在现如今市面上卷生卷死的无数聊天机器人中,人们天然对那些表现出类人情绪的 AI 有着更多好感。

无论是去年 12 月新浪微博推出的“阴阳怪气、已读乱回”评论机器人“评论罗伯特”,还是 Inflection AI 旗下“聪明又善良”的聊天机器人“Pi”,都凭借着或贱或暖的人设,在社交媒体频频出圈。

但要说到情感的抓取与表达,没有什么比得过语音,一个轻微的音调变化、简短的语气词,就能让人脑补出思绪万千。

不久前,Hume AI 推出了能够识别情绪的同理心语音界面(EVI),就像 Suno 彻底改变音乐制作模式,Sora 重塑视频制作流程一样,EVI 将大语言模型(LLMs)与表达测量完全集成为移情大语言模型(eLLM),重新定义了我们对于此前冰冷的生成式 AI 的认知。

图源:Hume AI

AI正在试着理解用户的感受,开始变得察言观色起来。

一、AI 不仅知道你在说什么,也知道你在想什么

经过不断的训练,AI 已经能够做到对人们输入的指令做出反馈,当给出提示时,经过训练的模型会预测最可能的下一个单词或字符来生成文本,通过持续迭代这一过程直至生成所需长度的文本。

这很难说是 AI 知道自己在说什么,在很多人看来,AI 似乎只是在玩词语接龙游戏,不知道自己生成的长篇大论的最终含义,这也意味着 AI 对于输入的上下文的理解也存在着局限性,对于 AI 系统来说,理解人类交流的微妙语言、讽刺、歧义和其他复杂性仍然具有挑战性。

那如果我们为 AI 模型加上一个情绪输入接口,AI 是否就能理解人类的情绪和感受了呢?

图源:Hume AI

在 AI 领域,就有一家名为 Hume AI 的纽约初创公司正在进行这种突破性的研究。该公司由 Google DeepMind 前研究员 Alan Cowen 领导,其使命是通过引入称为移情语音接口 (EVI) 的先进语音人工智能,彻底改变人机交互。

EVI 被誉为世界上第一个具有“情商”的人工智能。当我们实际体验下来,的确能感受和其他语音 AI 不一样的人文关怀。

EVI 的入门很容易,只需要允许站点访问设备麦克风,就可以与聊天机器人畅所欲言,无论你正在经历什么情绪,都会在 EVI 面前得到即时反馈。

当你兴奋地向 EVI 打招呼时,它同样也会情绪激动地对你进行回应。

而当你向 EVI 提问时,它会体会你的情绪,并给出深思熟虑的回答(由于上下文原因,EVI 只给出了简短的回复)。

体验下来,EVI 有很多亮点。一是语音识别准确清晰,即使是在存在轻微噪音的环境下,EVI 还是能准确识别出连贯的语句,并转化为文字和提现语音情绪的条状图。

二是聊天过程轻松愉快。除了感受语音输入方的微妙语气之外,EVI 还能主动接下话茬,不会把天聊死。

但还处在持续开发阶段的 EVI 也还能挑出一些不足。或许是因为 EVI“情商”过高了,用户语句衔接速度不能过快,需要留出一些反应时间给 EVI“思考”,否则 EVI 很容易表现得畏畏缩缩、前言不搭后语,出现像远程新闻记者连线延迟那样的尴尬情况。

其次是情绪识别,从聊天界面可以看到,除了十分明显的情绪(兴奋、悲伤、愤怒等)外,EVI 对其他的情绪识别分类过于精细,这是普通人难以察觉的,我们无法正确判断 EVI 情绪识别的准确性。

从 Hume AI 官网展示的信息,EVI 能够识别和响应 53 种不同情绪。这一从声音中辨别情绪的能力来源于包括全球数十万人的受控实验数据在内的全面研究,EVI 正是基于对不同文化来源声音和面部表情的复杂分析,才构成了 AI 情绪识别能力的基础。

图源:Hume AI

根据 Hume AI 的说法,EVI 的情绪感知能力都要归功于移情大语言模型(eLLM),这使得 EVI 能够根据上下文和用户的情绪表达来调整所使用的词语和语气。

通过在丰富的情感表达数据集上训练深度神经网络,Hume AI 打造了一个在理解和传达情感细微差别方面表现出色的 AI 模型,远远超出了当前 AI 技术所能达到的上限。

除此之外,Hume AI 还在 EVI 的研究中融入了一种被广泛应用在心理语言统计、分析领域的技术——语义空间理论(SST)。通过广泛的数据收集和先进的统计模型,SST可以精准绘制人类情感的全谱图,揭示人类情感状态之间的连续性,使得EVI具备很多拟人化的特色功能。

具有“情商”的 EVI 影响是巨大的,理解和响应人类情感的能力代表着 AI 技术的重大飞跃。

EVI 代表了人工智能技术的重大飞跃,因为它具有理解和响应人类情感的能力。与仅依赖口头命令、冰冷输出正确回答的传统语音助手不同,EVI 能够辨别人类语音的细微差别并相应地调整其响应,这一点在医疗保健、教育等客户服务领域差别更深。

图源:网络

想象一下,在学习压力过大,学生心理问题日渐增多的情况下,EVI 能够化身虚拟导师,感知学生情绪并为其提供个性化帮助,提供同理心支持;在零售行业,EVI 同样也能充当一把虚拟客服,能够根据客户语音变化及时调整语气,而不是只会回复“在呢亲~”。

在这些更需要人文关怀的领域,EVI的应用潜力几乎是无限的。

正因为此,Hume AI 不久前就就从 EQT Ventures、Union Square Ventures 和 LG Technology Ventures 等知名投资者那里筹集了 5000 万美元的 B 轮融资。这家初创公司的吸金能力表明了业界对这种 AI 情感解决方案的信心。

此外,Hume AI 还能够与 GPT 和 Claude 等大型语言模型无缝集成,公司准备为其平台 API 推出 beta 模式,允许开发人员将这一技术集成到各种应用程序中,这无疑将为跨时代的语音助手问世铺平道路。

从 Siri 到 EVI,语音助手的智商水平终于快要回归正常。

二、语音助手的演变

Hume AI 目前只在其官网开放访问,但可以预见的是,以语音情绪识别为特色的聊天机器人最终的归宿还是要融入智能硬件,成为贴身又贴心的智能助理。

搭载硬件设备后,语音助手已成为智能化时代中的重要工具,彻底改变了我们与设备交互的方式。从毁誉参半的 Siri 到 AI 驱动的个人助理,语音助手的发展简直令人惊叹。

语音助手的发展可以追溯到 20 世纪 50 年代,当时开发的语音识别系统如 IBM 的 Shoebox 和贝尔实验室的 Audrey,只能识别少量单词或短语。

而后的 90 年代,计算能力的提高和互联网的出现带来了更先进的语音识别系统,包括 Dragon NaturallySpeaking 和早期的语音激活虚拟助手凭借强大的语音识别和转录功能处于领先地位。

随后,以 Siri 为代表的的对话式语音助手在与智能手机的碰撞中走入现代,苹果 Siri、谷歌 Now、微软 Cortana 以及亚马逊 Alexa 等都是里程碑式的应用。

如今,以 OpenAI 和 Hume AI 为代表的科技公司通过提高语音 AI 系统的理解相应能力,为语音助理创建更加个性化和自然的交互,“真正的语音助手”诞生于 AI 之下。

图源:Amazon

这些聪明的助理已成为我们日常生活的重要组成部分,以前所未有的方式简化流程并增加便利性。

几年前,语音助手还只能做简单的问答、生硬的信息推荐、以及讲冷笑话,现在,理解口语、分析上下文并使用自然语言处理 (NLP) 和机器学习技术提供相关信息并执行请求已经成为语音助手的基本功能。

这种复杂程度意味着语音助手不再只是被动的工具,而是主动的帮助者,能够提供建议、记住偏好并适应个人用户模式,人们可以通过语音命令实现对硬件产品应用的召之即来。

在 AR 眼镜上,类似的应用已经有很多,语音助手已成为产品的标配功能。

星纪魅族全新 XR 品牌“MYVU”就搭载了“FlymeAR”交互系统,并采用全新的 Aicy 语音助手。

雷鸟 X2 Lite AR 眼镜加入大模型语音助手 Rayneo AI,主打对多模态信息交互能力和场景的探索。

OPPO 则在巴塞罗那 MWC 大会期间展示了其最新的智能眼镜产品原型 OPPO Air Glass 3,搭载了基于 OPPO AndesGPT 大语言模型的语音助手,可以执行语音提问、搜索等基本工作。

图源:OPPO

而从这几款产品已经推出的功能来看,AR 眼镜语音助手的发力领域基本集中在信息检索、任务管理、媒体娱乐、路线导航以及语言翻译上。

特别是任务管理功能,用户可以使用语音助手来帮助他们管理任务和日程安排,使用语音助手发送通知、发出提醒、安排约会、建立待办事项列表和设置提醒,可以帮助用户梳理必要事项。

这基本也是 AI 模型在 AR 眼镜上的应用方向,语音助手的智能化体现在与眼镜的交互以及应用程序的调用上,就像影视剧中的配角,不是最重要却处处需要,还要靠它带出主角。

再加上类似于前面提到的 EVI 移情大语言模型,语音助手对于情绪的理解加深,对于语言理解的能力加倍。随着不断的研究和开发,这些助手将变得更加直观、具有情境感知能力并融入我们的生活。

根据 Salesforce Research 的一项数据,27%的消费者每天都会在电子产品中使用 AI 语音助手,随着 AI 能力的增强,这一数字预计还会增长。

三、未来的 AI 语音助手

更加人性化的 AI 有助于 AR 眼镜打造更加智能的语音助手,这使得类似于 EVI 的情感聊天模型在 AR 领域能够发挥更大的作用。

Hume AI 首席执行官兼首席科学家艾伦·考恩 (Alan Cowen) 就表示,如果我们想以更加自然的方式使用 AI,那么 AI 同理心的展示就至关重要。

“当前 AI 系统的主要局限性在于,它们受到肤浅的人类评级和指令的指导,这很容易出错,并且无法挖掘其巨大潜力,无法找到让人们快乐的新方法。”

而 Hume AI 也并不是唯一一家尝试将情感融入 AI 技术的公司。

英国公司制造的人形机器人 Ameca 就能够观察周围环境并与人交流,其面部表情逼真,能够展示出表现不同情感的面部表情。

图源:网络

不久前,韩国蔚山国立科学技术研究院(UNIST)的科学家们还研制出了一种类似于“面膜”的可穿戴设备,能够通过传感器捕捉捕捉微小的动作和发声,并利用个性化皮肤集成面部接口(PSiFI)系统执行无线数据传输,实现实时情绪识别。

其开发者 Jiyun Kim 认为,这款可穿戴设备可用于 VR 数字人服务等应用,根据用户的情感提供定制服务。

图源:UNIST

但 AI 对人类情感的窥探带来的除了人性化之外还有隐私担忧。

此前,一些面部情绪识别 AI 技术就因为难以解决的数据安全技术而被科技公司们无奈关停。

2022 年,微软宣布停止销售根据面部图像猜测人类情绪的技术,并将不再提供不受限制的面部识别技术。

而在更早之前也有消息传出谷歌从其用于解读情绪的工具中屏蔽了 13 种计划中的情绪,并对四种现有的情绪进行了审查。在隐私泄露的可能性之下,谷歌正在权衡一种可以直接描述表情动作的新系统,而不试图将表情动作与情绪联系起来。

人类的语音中也包含了许多的隐私信息,很难说在注重数据安全的时代,未来的 AI 语音情绪识别技术不会受到同样的限制。

但可以确定的是,对于隐私的担忧并不会影响未来 AI 改变语音助手形态的趋势。

随着苹果全球开发者大会(WWDC)的召开在即,科技界对 Siri 的重大演变充满期待。许多人认为 Siri 2.0 的新阶段有望将生成式 AI 的进步带到语音助手领域的最前沿。

传闻中 Siri 2.0 的升级自然也包括了更多个性化和自然对话功能,大家都希望能看到更加亲切的 Siri。

而除此之外,有更多消息表明,Siri 在接入大模型后,将不再只是单纯的语音助理,而将升级为多模态智能助手,承担更多的生成式 AI 功能。

不久前,苹果推出了 ReALM 模型,其类似于谷歌 Gemini,能同时处理文本和视觉效果。

与 GPT-3.5 不同的是,ReALM 注重于破译对话和视觉上下文,可以将屏幕的视觉内容转换为文本、注释及空间细节,这使得 ReALM 能够以文本方式解释屏幕内容,从而有助于更精确地识别和理解屏幕上的信息。

ReALM 将被用于专门破译对话中模棱两可的引用和指代,将大大提高 Siri 理解上下文相关查询的能力。这直接带来的是 Siri 个性化定制能力的提高。

通过 ReALM 学习用户的交互行为,Siri 可能更准确地预测用户的需求和偏好,根据过去的行为和对上下文的理解来建议或启动操作。Siri 有望成为最懂你的“人”。

借助机器学习技术,语音助手可以不断提高其性能。AI 从用户交互中一边学习,一边调整反应和理解,语音助手可以在识别语音模式的过程中提高语言理解能力,甚至可以使用机器学习根据先前的数据定制其响应。

这意味着未来语音助手不仅仅只是信息获取和应用操作的入口,而是将作为学习与模仿者,在一次次的对话中记录用户的喜好,更深入理解用户需求,提供更加个性化和预测性的支持。

可以看到,在与人类的友好互动中逐步理解人类、适应人类已经成为语音助手未来的主要主题之一。

语音助手越来越有能力解释人类语言中的情感、语境,甚至语音的细微差别。这种接近人类的情商水平可以为更加个性化和富有同情心的互动开辟道路,将虚拟助手转变为真正的合作伙伴。

同时,语音助手与其他技术的结合有望释放它们的潜能。通过与 AR/VR 相结合,语音助手可以提供身临其境的交互式体验。不仅带来了技术进步,还为 AI 注入新的可能性:理解并尊重人类情感的复杂性。这将改变我们与机器互动的方式,进而改变我们与彼此互动的方式。