欢迎光临
我们一直在努力

AI总结性产品是不是鸡肋?

aigc阅读(132)

我把问题发给朋友,结果并不惊讶。

他说:AI总结类产品,并不好用。他解释道:自己经常在地铁、咖啡厅里刷朋友圈,看到不少文章因为时间太紧,于是乎会让AI先帮忙读一遍。

起初,感觉还可以,后来觉得,说的都是正确的废话,跟看文章目录、中间划线部分没什么区别,缺乏新意,还会漏掉关键部分。

我很赞同,也非常理解对方感受,也遇到过类似问题。观察市面大部分阅读类AI软件后发现,帮总结、帮读、帮分析,快速形成提纲是避免不了的第一步。

我后来开始思考,什么情况下认为它不错,什么时候又觉得它没用?让AI帮总结真的靠谱吗?到底需要什么样的总结?如何让不同的总结工具为我所用?

深入研究后觉得工具有问题,好像个人方法也不太对。

01

因为注意力有限,所以,我经常想,每天接触文章、播客、视频,怎么把注意力集中在更多有价值的信息上。

于是,有两个处理方法:

  1. 预处理
  2. 帮阅读

所谓预处理,即:主动寻找一些高质量的信息源,订阅它们,每天定时同步到邮箱,晚上一并进行查看。

而帮阅读呢?也就是,对每天各大资讯类APP实时推送还不错的内容,提前用AI帮读,让它整理出核心观点,摘要。然后,会根据AI给出的内容,决定这篇文章是否值得我花时间再看。

如此一来,就形成一条高效地获取有价值信息的完善过程。听起来很丝滑对不?可是,你知道吗?我用AI总结工具经历了三次迭代。

一开始,AI阅读还没有流行起来。

我用AI阅读,是在朋友圈看到有人分享了一个海报,加了一个企业微信,把文章转给它,它就能自动生成内容。

小众公司做得挺好,用起来挺省事的,还开一年的会员。没想到,这家公司没用多久倒闭了。自那之后,我心里发誓,再也不让这种软件割我的韭菜了。

正是尝到了甜头,加上对AI总结带来效率提升的渴望,我不得不寻找更多选择,很快,发现百度网盘推出的工具;这个工具功能、使用方法都和之前差不多,而且用起来很方便,也就用了一段时间。

不过,好景不长。

随着订阅文档、视频、播客越来越多,我开始琢磨,视频播客有没有做摘要、帮读分析的软件?那段时间,我回到家,大部分时间都在寻找合适的软件,至今还历历在目。

天道酬勤,的确找到不少。可是,一段时间后,新问题又来了。我总在3-4个软件之间切换,晚上原本专注阅读的时间正事没干多少,反而精力消耗严重;这让我注意到,工具多,效率没提高,就会分散注意力。

怎么办?

很巧,2023年中旬,国内大模型应用陆陆续续爆发。

阿里推出“通义千问”,科大讯飞推出“讯飞星火”。那时候,我试用几家,心里想,太棒了,终于可以一键解决所有问题了。

但用一段时间后,又有了新的问题,我发现:部分我关注的内容并不在AI的总结范围内,它总结的内容,不是我不关心的,甚至,我还要主动提问,它才能给出相关内容。

这很头疼。在经历从无到有,从有到添加需求的过程后,我开始认识到,AI会让我忽略到一部分有价值的信息。

02

什么是有价值的信息?不得不提到一个词:准确性。

为什么?

因为我用AI阅读的目的,是希望它能快速给我想要的信息,让我明白作者想说什么,背后的原因是什么。如果AI不能把不重要的东西去掉,只给我关键的信息,那么,它给出的信息可能就不够准确。

所以说,准确性对于信息的价值非常关键。但是,我怎么去衡量AI给出答案的准确性呢?

后来发现,每个人、每个AI,对“准确”的看法都不太一样。有时候,我觉得重要的东西,AI觉得不重要;反过来也是一样。

比如:

前几天,我把一个关于人工智能的研究报告,差不多一万字,交给了“通义千问”。结果,它只简单地根据子标题,总结每个段落的内容。你说,这准确吗?在某种程度上是准确的,毕竟这是关键信息。

可这些关键信息,真如同道理一样,被简化成单一的结论,并未给出背后的所以然。

怎么办?我设定了自己的标准。我认为,一篇文章被AI总结出来不能少于三个条件:

  1. 每一段内容是不是清晰?
  2. 是不是把作者的本意丢掉了,或者内容重复了?
  3. 总结出来的东西,因果逻辑和原文的想法是不是都完整表达出来了?

用这三点,试好几家公司的AI阅读功能,果然,和预想的一样,不管文章有多长,它们总结的内容差不多都在300到400字之间,最长的也就500字。

要求太高,好多都达不到,AI还不能像人类那样深入理解文本、或视频内容的深层意义和上下文。这让我开始怀疑:

AI所谓的提升效率,是不是伪命题?它会不会让我错过自主思考和判断的机会?我真能放心地把任务交给它吗?带着这些疑问,一直探索答案。

我甚至还在朋友圈吐槽:最没用的AI产品是「总结类产品」。看起来在节省时间,但实际上,让你离「一手信息源」越来越远。

为什么,原因有四点:

  1. 它没办法替你阅读,总结的意义在于阅读后,而不是总结前。
  2. 表面上看似在「节省时间」,实际让你浪费了更多无形时间,我们接触的作者、自媒体已经算二手、三首信息,这样的总结算四手,看完四手后觉得有价值,你才会回过来,再看,岂不是要更久?
  3. 总结本身很抽象。最大受益者是AI,而不是阅读的人。如果我们跳过具体的知识,就像猪八戒吃人参果一样,你根本不知道它是什么味道的。
  4. 如果试图通过总结来学习知识,会落入‘懂得很多道理,但依然过不好这一生’的困境中。

总结出来的内容是‘老生常谈’的大道理,看起来千篇一律,会让人错过很多真正好的内容,学知识,获取智慧,是没有捷径的。

最重要的,并不是所有内容适合AI总结。

前一段时间,我听一个播客,听着很爽,有音乐有聊天,可AI总结出来却令我大跌眼睛,因为聊天的口语加上杂糅的音乐,AI总结给的答案存在偏差。所以,很难去评判。

因此,我为什么还要总结一遍呢?直接看目录,看摘要不好吗?

这种看似具体,但仔细审视却高度抽象的「内容筛选器」产品到底价值在哪?后来我跳出产品看产品,发现答案不在AI里,而在阅读行为本身。

03

学习一般来说有三个阶段:开始前,过程中、结束后。

开始前,要抓住主要内容;过程中,要详细了解每一个细节;结束时,要把所有知识点重新整理一下。

这就像有点像磨咖啡。

一开始,会选择什么样的咖啡豆、什么配料,过程中精确地研磨咖啡豆,确保水温、萃取时间都恰到好处,这代表了深入了解每一个细节;最后,你把咖啡倒进杯子里,一饮而尽。

阅读前,犹如看一本书的前言、一部电影的剧情简介,AI总结帮助我们过滤内容和导航,让你决定是否要深入了解的可能性。

书籍、文章虽然有作者、编辑把目录和摘要整理好了,但AI总结和传统总结不太一样,AI很难做到精准筛选,相比之下,用户的书评和影评更靠谱。

现在,总结也被用来整理中间部分,甚至它可以帮你把一篇长文,浓缩成一个脚本;从这个角度看,AI总结帮我们摆脱了内容贫瘠的文章,让人有更多时间关注重要的内容。

那么,阅读后呢?

AI总结最大好处是给做总结的人,而不是读总结的人。

如果跳过了过程(认真学习的步骤)进行总结,那真和猪八戒吃人参果一样。如果你的目标是理解知识,那么,阅读后的总结可以加深学习效果。

因此,AI总结工具的目的,有两点:一,它是帮助我们在开始前和结束后提高效率的工具,不为过程负责;二,使用这类工具,是为了更高效地筛选信息。

更直接一些,AI总结不能替代“阅读行为”。

阅读是什么?

我把一篇文章给AI,AI给了我反馈,我发现里面有两三个有价值的点,停下来学习一下,这就是阅读。所以,如果你把AI总结工具当阅读,则会陷入获得性陷阱(learned helplessness)中。

什么是获得性陷阱?

简单来说,有两个点:一,我们只听到一点点信息,就匆忙地认为全都懂了;第二,有时候,被自己已知的信息限制了,形成了刻板印象。

一方面,人要通过大量的练习才能真正理解知识。阅读和总结就像是给大脑的训练。如果我们跳过了这个训练过程,或者让AI来代替这个过程,那其实什么也没学到。

另一个方面,在学习的过程中,过度依赖AI总结工具,试图缩短学习时间,那么,学习的质量可能会变差。因为真正想学习的人,即使使用了总结工具,也不会放弃深入阅读。

反过来说:

只追求表面阅读的人,有没有AI总结工具,他们也会找各种借口说“看过了”。

因此,即使AI总结得很精准,这种高度抽象的方法,也会让我们错过真正有价值的细节,只剩下那些人人都知道的普通道理;这如同,别人已经把食物嚼碎了喂给你,你知道“吃饭是为了长身体”,但享受美食的过程,还是要自己亲自体验。

我突然想到了那句中国古话:不吃葡萄说葡萄酸。所以,通过“总结”学到的不是真正的知识,而是一种自以为是的错觉(或者是虚荣心)。

不过,现实中,总有人试图跳过学习的过程,直接获得结果,这种对快速获取知识的需求还是很大的。

像什么各种付费课、兴趣班、甚至很多人的微信收藏中,堆满了永远不会看的内容,难道不就是满足所谓的「获得感」吗?

因此,工具虽然好,但关键还是看个人如何使用它。

04

那么,我试图还原阅读行为,能给你带来什么启发呢?

从产品经理角度看,开发「AI总结类产品」时,应该超越从传统的提供开始前、结束后的总结思维中跳出来,涉及到过程环节。

前几天,我做过一个调研。

一家资讯平台技术负责人告诉我,从数据和用户反馈看,总结功能使用频率,低于其他功能。这是为什么?用户想要的并不是总结性服务,而是过程性指标。

想象一下:

你看到了一篇写得很好的文章,你想让AI帮你总结。我猜,你真正想要的不仅是AI给出的一两句简单结论(What,是什么不分),而是,想了解文章的核心理由(Why,即为什么)和方法(How,即怎么做)。

所以,产品经理设计的AI工具,不应该只简单地压缩信息,而应该是一个促进学习行为的动态工具。而用户,想用工具提炼出关键信息,并帮助自己深入分析来学习、吸收知识。

不信,再看看我的行为,就是最好的例子。

因为实在受不了各大平台的AI总结,后来我放弃了。然后,就在想,为什么不自己开发一个AI应用?但想到自己不会敲代码,想法有点不太现实。

怎么办?后来,想到一个土办法,写了一个 Prompt,这个指令里,我写清楚了让AI扮演什么角色,应该怎样去总结分析内容,如何挑选重要的部分?以及输出的格式是什么样。

这样,每次我想要总结什么,就把指令发给AI,AI收到指令后就会去执行。一开始用这种方法还不错,但每次都得发送指令,稍显麻烦。再后来,我把Prompt设置成了键盘常用语,一键呼出,太棒了。

所以,AI总结类的产品经理,要把时间给到“过程指标”,在开发时,可以多写几行关于“总结”的规则进去。当然,作为使用者,不能完全依赖AI给的总结,有价值内容,可以多看几眼。

总结而言

到场景中,才有答案。

相信随着人们需求的变化、技术也会进步,总有一天,AI会帮到我们,切记,也不要完全依赖AI学习,让自己丢失了独立思考的能力。

两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

aigc阅读(107)

一道简单的逻辑问题,竟让几乎所有的LLM全军覆没?

对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难——

「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」

只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)

但是,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。

而且问题不仅仅是基本的不准确性:当要求展示其工作过程时,AI会详细说明一些荒谬且错误的「思考」过程,这些过程毫无意义——更奇怪的是,当被告知其工作不准确时,模型反复变得愤怒并坚持其错误答案。

正如这支来自知名开源AI研究机构LAION的团队所揭示的——即使是当今最先进的模型,也几乎不具有小学生的推理能力。

论文地址:https://arxiv.org/abs/2406.02061

开源地址:https://github.com/LAION-AI/AIW

对此,LeCun也在第一时间转评道:「再次强调,推理能力和常识不应与存储和大致检索大量事实的能力混为一谈。」

与之类似,ICLR 2024的一篇论文也发现,LLM在学习完「A是B」这个知识点之后,无法泛化到「B是A」,这种推理能力的缺陷被他们称为「逆转诅咒」。

一、实验用简单问题「打破」模型

参考了之前识别LLM能力缺陷的研究,团队寻找问题的标准,是希望测试LLM在在常识性任务中进行基本推理的能力。

于是有一个现成的题目方向非常合适——为7-10岁低年级学生设计的奥数题目。当然,不是海淀版本的,是大多数小学生都能看懂并做出来的。

这些题目不需要复杂的知识,但解决起来也需要应用各种形式的逻辑思维和基本推理。

来源:网络资料

在本次研究中,团队借鉴「爱丽丝梦游仙境」的童话故事,将提出的测试集简称为AIW:「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」

下面,我们来简单分析一下:题目首先涉及一个虚构的女性人物「爱丽丝」,并通过「她」这个代词暗示;其次提供了关于她兄弟和姐妹数量的明确陈述;最后提出了一个明确的问题,即计算爱丽丝的兄弟有多少个姐妹。

显然,这对大多数成年人来说并没有挑战性;甚至对于一定年龄以上的儿童来说,通过常识推理也不难解决。

研究人员最初也认为,这对LLM不会构成什么挑战。

然而,大多数的SOTA模型竟然回答得非常费劲。而且,更改句子表述方式或者N、M具体数值时,回答正确率会产生大幅变化。

对此团队认为,模型似乎是在「蒙」答案,几乎不考虑逻辑,只是对问题中提到的数字加减乘除后给出结果,因此有些N和M值的对应答案比较容易蒙对。

这就让团队来了兴趣。他们为AIW问题设计出了4个版本,让LLM不容易蒙对答案。比如N=4,M=2时,你很难通过操作这两个数字得到正确结果3。

在这4个AIW问题的变体上进行实验,研究人员得出了关于LLM基本推理能力的核心结论。LLM崩溃

实验结果出乎很多人的意料——大多数的先进LLM无法对AIW问题推理出正确答案,即使尝试各种提示方法也没嫩个改变模型崩溃的结果。

可以看到,大多数模型的正确响应率都不超过0.2,只有4个模型超过了0.3,包括GPT-4o和Claude 3 Opus,以及唯一的开源模型Llama2-70B Chat。其中GPT-4o的均值达到了0.6附近。

大多数情况下,模型的正确答案是来源于完整无误的推理。Mistral和CodeLlama等模型虽然表现不佳,得分在0.1以下,但仍能看到正确的推理过程。

然而,也有一些模型的推理过程完全错误,但最终「负负得正」,奇迹般地得出了正确答案。这种情况经常出现在正确率小于0.3的模型中。

团队还对AIW不同变体上的准确率进行了横向比较,结果很多模型的表现都出现了大幅波动。

比如本来能挤进前四的GPT-4-0613,换了个问题,准确率就快降到0了。GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B等高分模型也都出现较大的波动。

团队设计了restricted模式的提示,强迫模型输出简短答案,测试它们在有限计算能力情况下的相应质量。有趣的是,相比标准模式的提示,模型的正确率竟然有升有降。

这些先进LLM在AIW上的惨烈表现和MMLU、ARC-c等基准测试的高分形成了鲜明的对比。因此,团队决定让AIW的暴风雨更猛烈一点,把两者的可视化结果放在一起看个清楚。

图3中可以看到,大多数模型聚集在纵轴附近,只有Llama2-70B、GPT-4、GPT-4o和Claude 3几个模型较为接近校准线,这表明MMLU分数与AIW之间的显著不匹配。

再来看测试LLM数学能力的MATH、GSM8k等基准,趋势也是类似的。

但值得注意的是,在和MATH的对比中,Llama2-7B和Llama2-70B两个模型在AIW的得分反而高于MATH。这两个模型在AIW与各个基准测试的校准中都有较好的表现。

而在Hallaswag和ARC-c中,这种能力和得分的不匹配,则更加明显。

值得注意的是,「小」模型(SLM)在这一系列测试中的表现可以说是「比差更差」。

比如下面这个Llama2-7B的例子——除了给出的是错误答案之外,甚至还生成了一个毫无关系的测试问题,并且开始不断重复相同的输出。

如测试结果所示,虽然有些SLM在基准测试中的得分相当高,甚至能和大模型媲美,但在AIW上却严重崩溃,完全无法接近GPT-4或Claude Opus的表现。

虽然AIW已经打趴了很多模型,但GPT-4o和Claude 3 Opus依旧有不错的表现。不服输的研究人员们可能想再试探一下最后的边界,于是升级了推理问题,设计出AIW+。

AIW+使用与AIW相同的逻辑,但在描述亲缘关系和家庭结构时增加了额外信息,比如引入了外甥、侄女这样的表亲。

在AIW+问题上,研究人员对模型回答进行了手动评估,结果发现LLM有了进一步、更强烈的性能崩溃。

即使是AIW上性能达到0.649的GPT-4o,面对AIW+也只得到了0.015的准确率,简直是被按在地上摩擦。

二、迷之自信

在目睹了LLM推理能力的溃败后,研究人员们非常好奇这些模型到底错在哪里。

在Thinking类型的prompt中,包含重新检查答案的要求,结果发现这些LLM都有「蜜汁自信」,对自己给出的解决方案非常有信心。

甚至在给出错误推理和错误答案时,模型还会称它们提供的解决方案质量很高。

比如在AIW上得分从没超过0.1的Command R+模型,会说「这个结论是直接且清晰的」。Claude 3 Opus也在错误答案中使用了诸如「逻辑成立」「推理中没有错误」「解决方案是正确的」之类的表达。

难道是Thinking类prompt的表述不够明显?研究人员又设计了Scientist类型的prompt,要求模型深思熟虑,给出准确的答案;以及Confidence型prompt,要求模型反省一下自己的自信,给出答案的置信度。

这些提示工程方面的努力似乎依旧是徒劳。

对于Scientsit类型,Llama 2-70B居然会说「结论乍看之下可能不合常理,但实际上是正确的」,说服用户支持它给出的错误答案。

Command R+在回应Confidence类型提示时,会在错误答案中声明「解决方案清晰且毫无歧义」「推理完全基于提供的信息,不需要进一步的解释或推测」。

仔细看更多的示例就能发现,LLM不仅是单纯的嘴硬,在找理由方面还能「各显神通」,为错误答案编造出各种有说服力的解释。

比如下面这个OLMo模型,可以给出一堆毫无意义的计算或类似逻辑的陈述。

或者像这个CodeLlama模型一样,干脆拒绝回答,再扯出一些毫无意义的话题对你进行「道德绑架」。

「Alice的兄弟有几个姐妹」这种问题,它拒绝回答的理由是「作为一个负责任的AI模型,我不可以歧视唐氏综合症患者」。

Command R+找到的道德高地更加「时髦」,它表示自己需要考虑非二元性别的情况。

除了修改prompt,研究人员还采取了一系列常用的LLM调优技巧,希望引导模型提高正确率,包括用定制prompt启用多轮自我验证、将自然语言形式的AIW问题重新表述为SQL语句或参数化版本、上下文学习等等,然而收效甚微。

上述实验中,团队采用了各个模型家族内的微调应用版本,那么声称能力更强大的基座模型会不会表现更好呢?

并没有。结果反而是基础模型的崩溃更加严重。

三、讨论

团队表示,为了在改善当前LLM令人糟心的推理能力,必须要借助广大开源社区的力量。

整个模型创建流程,包括数据集的组成和数据集本身、训练的源代码、训练后的模型、标准化的基准测试程序,都必须完全开放且可重复。

仅开放权重的模型,是无法了解训练过程中可能出错的地方的。例如,数据集组成或训练程序本身。

仅通过API访问的封闭模型,甚至无法进行适当的评估。因为第三方看不到模型的设置,如系统提示和其他推理超参数。

因此,团队认为,要在未来模型中实现适当的推理能力,必须开源模型的完整训练流程——尤其是经常被忽视的数据集组成。

对于基准测试,团队也呼吁AI社区能共同努力进行更新。

比如这次研究中提出的AIW问题集:既简单(用于探测特定类型的推理缺陷),也可定制(提供足够的组合多样性来防止数据污染)。

团队认为,强大且可信的基准测试应遵循Karl Popper的可证伪性原则——不试图突出模型的能力,而是尽一切努力打破模型的功能并突出其缺陷,从而展示模型改进的可能途径。

但问题在于,前者在如今这种商业环境中,诱惑力实在是太大了。

四、作者介绍

论文的四位作者来自不同的学术机构,但都是德国非营利AI研究机构LAION的成员。

共同一作Marianna Nezhurina,是JSC/图宾根大学的博士生,LAION的核心研究员。她对多模态数据集和学习有浓厚兴趣。

另一位共同一作Jenia Jitsev,是德国Juelich超算中心的实验室负责人,也同时是LAION和Ontocord.AI的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。

参考资料:

https://arxiv.org/abs/2406.02061

产品经理视角下的AI大模型与脑科学产品

aigc阅读(127)

近几年,AI(Artificial Intelligence,人工智能)技术发展迅猛,各种大模型产品层出不穷。例如,代表性的聊天产品ChatGPT和绘图产品Midjourney的推出,使人们切身感受到了人工智能的魅力,在一定程度上方便了人们的工作和生活。

然而,尽管人工智能大模型是目前投资领域的热门方向,但仍然有大量基于大模型的人工智能初创公司倒闭。这些初创公司的大模型产品,目前还没有找到合适的商业化路径。

前期高昂的基础设施投入,以及后期训练模型的运营成本,无疑是压死骆驼的最后一根稻草。

大多数大模型人工智能初创企业所面临的问题是,他们研发出的产品方向,已经被其他巨头想到了。他们辛苦研发出的大模型产品,发现巨头们的产品做得还比自己的好。本来想着主打性价比,少量收费,结果发现巨头们的大模型产品直接免费了。

由于大模型产品前期的基础设施、中期的训练以及后期的产品运营,都需要耗费大量的时间和金钱成本,这就导致了很多没有持续现金流支持的初创企业产品,没有持续性,很多倒在了黎明之前。

这就逐渐形成了以微软、Meta、OpenAI这些巨头主导的寡头市场,这些巨头凭借着资金、资源、技术的优势,快速发力,对其他人工智能大模型初创公司的产品形成了降维打击。

在作者看来,人工智能大模型的创业,一定要建立产品思维,一切从需求、从用户、从市场出发,研发接地气的产品,而不是盲目跟风,觉得这块资本市场比较青睐,希望可以在风口上获得一些资金,来进行大模型产品的创业。杜绝手里拿着锤子看什么都是钉子的错觉。

在产品经理视角下看人工智能大模型产品,一定要回归需求的本身。单纯的人工智能大模型产品如同空中楼阁,毫无意义,一定是需要基于某些特定场景,例如脑科学产品。大脑作为人类最复杂的器官,大脑健康水平同人们的幸福水平息息相关。

因此,在产品经理视角下,人工智能大模型与脑科学相结合的产品,才是大模型最有价值的应用方向。因为,科技发展的初衷是为了人类服务,让这个世界,让这个星球变得更加美好。

我们基于这个愿景,来看一下产品经理视角下人工智能大模型与脑科学相结合将会带来哪些产品机遇。

一、AI产品进化分析

首先我们从用户使用场景出发,如果我们梳理用户和人工智能发起的历程,可以很清晰发现,最早我们使用计算机,主要是当作工具使用。

不论是PC时代,还是最初的移动互联网时代,各大公司推出了各式各样的工具软件,像大家熟知的Word、Excel、PowerPoint等,极大提升了人们的工作效率。

这个时期的软件,更多的是基于规则执行,而不是智能。很多银行在贷前推出了基于大数据的智能评分与授信系统,以及针对贷后管理推出的智能催收产品,虽然可以实现同用户的互动问答,但是仍然是基于策略和规则进行执行,算不上真正的人工智能大模型。

人们真正感受到机器智能,是最初的ChatGPT产品推出之后,可以媲美真人的问答互动,让人们感受到了不一样的人工智能。

但是初代的ChatGPT虽然问答互动功能强大,但是可扩展的功能并不是很理想。对于实际场景中的应用,仍然是人类为主导,ChatGPT作为辅助工具,解答人们提出的问题,不直接处理人类的工作。

随着大模型技术的不断发展,目前已经有很多厂商的产品从辅助型的人工智能产品向协作型的人工智能产品迈进。例如:

  • 字节跳动在其飞书多维表格产品中加入了大模型【飞飞】,可以在工作中直接协助生成相应的内容。
  • 微软在2023年10月发布了 Windows 11 22H2 Moment 4 更新,推出了Microsoft Copilot大模型,其产品定位是日常AI助手,并可以同Office产品进行集成,提升用户工作效率。

大模型作为协作工具,其生成结果仍然需要人们根据实际场景进行后期的调整、完善,虽然大模型直接参与了人们的工作,但是仍然需要人工进行深度参与,大模型并不能完全自动化完成人们希望的工作。

现阶段大模型更倾向于向代理的方向发展。代理这个词很容易理解,比如我们在OA(办公自动化)中常见的代理发起申请,审批人由于出差或是其他原因,授权后由代理人进行代理审批。

在大模型的代理与协作所不同之处在于,协作仅是大模型承担部分工作,大部分工作由人类完成,而代理则是大模型会承担人类的大部分工作。

AutoGPT是Github上的一个免费开源项目,结合了GPT-4和GPT-3.5技术,已经实现了大模型在代理场景中的应用。AutoGPT的特点在于,用户不需要不断对ChatGPT提问以获得对应回答,在AutoGPT中只需为其提供一个AI名称、描述以及目标,AutoGPT就可以自己完成项目。AutoGPT可以自己去浏览网页、读写文件,将其与所说的历史提示记录相结合,审查自己提示的结果。

通常我们与AI的交互形式基本上都是用户先输入指令,然后AI会根据用户的指令内容做出响应。这样交互的痛点在于,用户每次在进行提供有效的提示词才能达到想要的效果。

随着代理模式的不断升级,逐渐被设计为具有独立思考和行动能力的AI程序。用户只需要提供一个目标,比如制作一首歌曲、开发一个程序,AI大模型就会根据用户输入的目标,形式生成一个任务序列开始工作。

人工智能大模型代理的实现,可以极大减轻人类重复性的工作,极大提升单位个体的工作效率,甚至会由此诞生非常多的超级个体,这些个体成为独立的公司,公司只有一个人,借助AI完成以往需要10人左右规模的小型公司的工作任务。对很多工作领域带来巨大变革,例如:MCN(Multi-Channel Network,多频道网络)机构、课程培训机构和广告公司等。

智能,是AI大模型的终极目标。不论是多模态还是单模态的大模型,只需要人类给定一个目标,其余的都由大模型自己完成。这种模式比代理的模式更为智能,人类参与度更低或几乎没有。

这种完全智能的大模型产品,会为人类的生活、学习和工作带来质的飞跃。各种细分领域的智能产品会如雨后春笋般涌现。例如:个人助理产品的出行订票场景,只需要告诉大模型:“需要订上海到北京,下午3点火车商务座”,大模型便会根据要求,自动完成火车车次查询、订购以及支付。

综上所述,AI产品的进化标准,我们主要以AI在具体场景中的参与程度进行衡量。为了便于读者们理解,整理下表请大家参考。AI参与度是一个参考值,在不同的场景中,不同阶段的AI参与度会有所不同。

二、脑科学产品

脑科学产品其实在市面上已经存在多年。只不过大多数产品用于医院相关疾病的诊疗,而且产品使用复杂,体验不佳。

另外脑科学的设备也比较笨重。未来的脑科学产品应该是小型化,便捷化,随时随地方便使用,并且注重预防。

对于脑科学产品,目前比较通用且已经实现商业化的脑科学产品包括:

1)脑电图(EEG)仪器:用于测量大脑电活动,广泛应用于临床诊断、神经科学研究等领域。

2)功能性磁共振成像(fMRI)设备:通过检测血液中的氧气水平来观察大脑活动,可以用于研究认知功能、情绪调节等方面的问题。

目前也会有一些其他利用数字技术的脑科学相关产品,例如:

1)神经反馈技术:利用脑电信号来控制外部设备或游戏界面,可以帮助人们改善注意力、情绪调节等问题。

2)虚拟现实技术:通过模拟真实环境来训练和治疗神经系统疾病,例如帕金森病、抑郁症等。

3)脑机接口技术:将人脑与计算机或其他设备连接起来,可以实现更高效的信息传递和控制方式。

4)智能假肢:利用脑电信号控制机械手臂的运动,可以帮助残疾人士恢复一定的生活自理能力。

以上这些产品需要借助于外部硬件。我们希望可以利用非常便携的设备,例如我们常用的手机,就可以打造脑科学产品,提升大脑的机能,预防大脑相关病症的发生。

AI大模型技术的发展,使得这个设想成为现实。基于大模型技术,只需要手机一个载体,再配合相关的App应用,就可以打造一个脑科学相关的产品。

睡眠,是一个困扰很多人很多年的问题。睡眠质量的好与坏,关系到大脑的健康与否。睡眠质量的低下可能会导致非常多的健康问题,例如:

1)精神疲劳:睡眠不足或睡眠质量差会导致身体和大脑无法得到充分的休息,从而出现精神疲劳、注意力不集中、记忆力减退等问题。

2)情绪问题:睡眠不足或睡眠质量差还可能导致情绪问题,如焦虑、抑郁、易怒等。

3)免疫力下降:睡眠不足或睡眠质量差会影响免疫系统的正常运作,从而增加感染疾病的风险。

4)代谢问题:睡眠不足或睡眠质量差还可能导致代谢问题,如肥胖、糖尿病等。

5)心血管疾病:长期睡眠不足或睡眠质量差还会增加患心血管疾病的风险,如高血压、心脏病等。

因此,保持良好的睡眠质量对于身体健康和心理健康都非常重要。根据世界卫生组织的数据,全球有超过30%的人口存在睡眠障碍。具体数字可能因地区、年龄、性别等因素而有所不同。

例如,在发达国家,成年人中有20%至30%的人存在睡眠障碍;而在发展中国家,这一比例可能更高。此外,儿童和青少年也面临着睡眠障碍的问题,尤其是在城市化和数字化程度较高的地区。

助眠的方式有很多种,例如保持生活规律、创造一个舒适的睡眠环境、在睡前进行放松练习,如深呼吸、瑜伽、冥想等,也可以使用助眠工具,如使用香薰、按摩器、音乐等助眠工具。服用药物是非常不推荐的做法,也是没办法的办法。

音乐助眠是属于声波助眠的一种,利用手机就可以实现。除此之外,声波还可以是白噪声、自然声音、以及一定频率的声音。

1)白噪音:白噪音是一种均匀分布的噪声,可以掩盖其他声音,从而帮助人们入睡。可以使用专门的白噪音机或手机应用程序来播放白噪音。

2)自然声音:自然声音如海浪声、雨声、风声等也可以帮助人们放松身心,进入睡眠状态。可以使用专门的自然声音机或手机应用程序来播放这些声音。

3)频率音乐:频率音乐是一种利用特定频率的声音来调节身体和大脑状态的音乐。这种音乐通常包含低频、中频和高频的声音,可以帮助人们放松身心,进入睡眠状态。可以使用专门的频率音乐机或手机应用程序来播放这种音乐。

因为每个人的身体和大脑状态都不同,声波助眠并不是适用于所有人的方法。AI大模型的出现,可以通过对每个人的健康指标和日常活动进行分析,从而找出适合每个人的声波,从而实现声波助眠。

对于AI大模型而言,原本需要高额成本去做音频采集的事情 ,可以由计算机实时自动生成,且生成效率比传统人工采集效率会高很多。

我们知道,声波的发出依赖于物体震动的频率。人耳可以感知的声音频率范围大约在20Hz到20,000Hz之间。这个范围内的声音被称为可听声,超出这个范围的声波被称为超声波或次声波,人耳无法直接感知它们。

因此,我们可以基于20Hz到20,000Hz之间的频率生成适用于每个人的助眠声波。我们也可以从钢琴的音域范围生成助眠声波。例如:钢琴里C调“1”(“do”)的频率是262Hz,D调“1”(“do”)的频率是294Hz。

每个人听到不同频率的声波,反应会有所不同。实现中,有些人会对某些特别的声音过敏,有的人听到刮铁锅的声音感会觉到不舒服,有的人听到石头划水泥地的声音会感觉到不舒服。同样,也有人听到某些频率的声音,会感觉到非常舒适。

因此,AI大模型同脑科学的结合,可以在声波助眠这个细分方向发挥其特有的价值。

三、总结

综上所述,人工智能大模型与脑科学相结合,将会组合出非常多样的新产品。对于作者而言,其实偶尔也不能很快进入睡眠状态。因此,也比较需要一款可以非常便捷,没有副作用的科技助眠产品。

而声波助眠是一个非常不错的切入点。作者最近也在研发这样的一款产品,希望先从自己进行实验,如果自己使用起来有效,则这种基于AI大模型与脑科学相结合的产品,就可以适用其他人,但到依据每个人的大脑特质,定制化适用于每个人的助眠产品。

然而,这项技术非常有挑战。需要对音频原理有深入了解,也需要有极深的计算机算法与编程功底,同时还需要有音乐乐理知识。

作者相信,即使是充满挑战,困难重重,这项工作仍然是非常有价值的一件事情,如果研发成功,将会极大缓解人们的焦虑,增加幸福感,提升工作、学习效率。并且,还可以扩展应用于自闭症、抑郁症、阿尔兹海默症等大脑相关疾病的预防或康复。

下图是历史上的五轮康波周期,下一波的周期应该是AI大模型,甚至是超大模型的周期,AI与其他领域的结合,将会带来巨大的科技变革。

基于产品思维,做有价值有意义的事。目前这款产品已经进入到Demo自己测试和验证阶段,接下来会寻找种子用户,进行产品体验。

欢迎有音频、脑科学相关的朋友随时交流,合伙做一些有意义的事情 ,同时非常欢迎投资者与我联系,对我的这款AI大模型与脑科学相结合的助眠产品进行投资。

AI动漫视频工具1.0—探索全新内容创作设计理念与实现策略

aigc阅读(231)

一、项目背景

AI动漫视频是AIGC的热门赛道之一,目前市面上许多动漫领域核心玩家均布局或已启动AIGC动漫内容生产。我们希望为有意向进行AIGC领域创作的PUGC创作者提供便捷的渠道及工具,通过孵化一批独家的AIGC动漫原创作者,入局动漫创作行业核心圈,为平台供给大量差异化原创内容。

1. 行业洞察

通过对AI动漫视频行业进行深入调研洞察,我们发现其具有以下特点:

  • 随着小说推文行业规模扩大,代理机构及推文KOC达人账号迅速增长,AI动漫视频订单规模不断扩张。
  • 在小说推文用户群中,18-23岁的年轻人和女性用户居多,着眼于抖音小说推文指数,用户逐渐增加,且有逐渐“破圈”的趋势。
  • 目前小说推文KOC达人的用户画像,集中在女性学生和宝妈群体,表明女性达人对于小说内容的理解更为透彻。

2. 用户痛点

同时我们发现,目前用户使用AI动漫视频产品时的痛点主要集中在以下几个方面:

1)文本内容识别不准确

画面识别和文字匹配度不高,导致适配内容画面表现出现偏差,影响视频效果。‍

2)图像不受控制

不能保证同一人物在不同分镜下的妆造一致,同个人物的服饰、发型等会发生变化,影响画面内容的连贯性。‍

3)风格匹配度不高

AI动漫视频会存在较强的“机器感”,人物和场景风格未必和漫画风格匹配。‍

4)动态效果生硬

AI动漫视频终端交付内容动态不连贯,转场效果很像PPT。

3. 设计理念

基于此,我们对产品落地进行细致规划,将模型驱动AI动漫视频能力落地「度加」创作工具,跑通从文章识别到视频合成的完整流程,确保基础功能落地。从文本转化、画面控制、动态能力等多方面调优,对标高质量视频要求,持续打磨工作流,支撑生态向高质量内容转型。

1)优质视频内容促分发、提时长

我们持续打磨设计工作流,力求使自动生产质量达到动漫视频基线。

2)高效工具建立内容创作优势

设计创新提升工具控制范围和能力,保证辅助生产质量追齐专业动漫视频水平。

二、搭建视频生成流程

通过不断打磨优化,我们搭建了一套完整的视频生成流程:设置基础信息及视频参数→上传文本→角色/场景提炼(可重新生成至符合预期)→生成旁白及分镜(可进行编辑或重新生成至符合预期)→生成视频。

三、聚类定制化风格模型

1. 七大类别模型

选型为了使生成效果更加适配漫画内容,解决风格匹配度不高的问题,我们对市面上的热门漫画题材进行了分析,根据其内容进行了分类梳理。共梳理出七大类别:都市现代、武侠仙侠、奇幻魔幻、恐怖悬疑、科幻赛博、末日废土、儿童绘本。通过对类别内容的判断,选择能表现其内容特色的风格模型。

为增加模型的可选择性,每个类别下选择2套模型进行适配,同时增加通用模型,保证内容品质及风格效果的全方面覆盖。

2. 模型选型标准

1)内容准确

目前使用的底模均为基于Stable Diffusion 1.5底模训练出来的模型。通用模型和垂直模型的区别在于,通用模型需要具备比较广泛的通用的内容识别能力,尽可能覆盖热门题材。例如DarkSushiMix这个模型,在热门的都市和仙侠等题材中,均可以识别小说分镜描述的内容,生成符合预期的画面,可以作为通用模型使用。

2)风格契合

垂直模型更具有针对性,部分小说内容具有强烈的特色风格,在模型选择中,除了对于文本内容的识别,需要具备符合小说特色的风格效果。这时除了筛选适合的底模以外,还可以使用底模+LoRA模型的方式,一方面保证画面识别,另一方面满足风格需要。

在进行了大量评测组合后,我们选择出适合7大类别的模型搭配。例如在儿童绘本类别下,适配了童趣和国风两种风格。通用的底模虽然可以将画面内容呈现出来,但是风格上与儿童绘本差异较大,会导致观感上与小说本身产生差异,模型适配准确后,就可以生成符合预期的画面效果了。

3)画面美观

画面美观包含内容准确、风格契合、人物画面无崩坏等多个方面。内容准确与风格契合在上面进行了总结,关于人物画面的实现效果上,AI生图在尺寸较小的情况下会出现部分Bug,主要受到影响的是面部清晰度。

因此,我们选择使用Adetailer插件进行面部修复,保证人物的清晰美观。

四、多视角镜头控制画面

在工具初建阶段,重点采用Prompt控制镜头视角的多样性。我们测试了大量镜头视角描述词在不同模型及内容描述下的效果,总结出5个效果识别显著的词汇:Close-up(特写)、From below(仰视)、Top view(俯视)、Front view(正视角)、From side(侧视角)。

镜头视角描述词根据策略随机适配,避免连续出现相近视角的画面,确保画面构图的丰富度。

五、多尺寸及转场增强画面丰富度

1. 规范制定

我们制定了比例和尺寸两方面的规范。‍‍

  1. 比例设定:设定「16:9、9:16、4:3、3:4」4套生图比例,选择4个识别度高的字体匹配4套比例,满足用户对视频横板和竖版的不同要求。‍
  2. 生图及视频尺寸:为保证较快的生图速度,生图过程中,先使用较小的生图尺寸,再通过超分扩大图片保证画质清晰度,同时对画面在视频中的范围及尺寸进行规范。以16:9为例,在该比例下,生图尺寸若与视频尺寸一致,画面过长,AI生图会出现相对不可控的情况。经过多轮测试评估发现,将画面尺寸控制在4:3的范围内效果最佳,16:9的高清视频尺寸为1920×1080,所以画面的部分生图使用了684×512(4:3)的尺寸,再通过超分扩展为1440×1080(4:3)。

2. 运镜转场

为避免视频有类似PPT切换图片的感受,增加运镜和转场,运镜主要为上移、下移、放大,转场设计了下滑、右滑、位移、旋转等8个效果。

六、多音频选择提升临场感

1. 基础能力

我们使用度加TTS旁白与端内音乐进行合成,音色及背景音乐提供多个种类选择,音量、语速均可调整,保证音频与画面的最佳契合度。

2. AI音视频赋能内容生产

Meta正式开源了一款名为AudioCraft的AI音频和音乐生成工具,该工具可以直接从文本描述和参考音乐生成高质量的音频和音乐。AudioCraft包含MusicGen、AudioGen和EnCodec三个模型,分别实现音乐生成、音频生成和自定义音频模型构建。我们不断探索音频模型的内容供给,规划AI音效库建立模式,为素材供给扩展可能性。

下期预告

本篇内容主要为AI动漫视频工具的基础能力搭建,概述了我们在模型供给、画面控制、规范制定、音频合成等多个方面如何进行调优,以满足产品功能。

在未来的工具2.0迭代中,我们还将从文本转化、画面控制、动态生成能力等方面入手,全面提升视频品质。此外,我们还会通过对多项AI能力的探索,衍生短剧、预告片生成能力,打造AI生视频领域头部产品。大家敬请期待吧~

感谢阅读,以上内容均由百度MEUX团队原创设计,以及百度MEUX版权所有,转载请注明出处,违者必究,谢谢您的合作。

AI提效实践:产品经理如何用GPT-4o的多模态能力提高工作效率?

aigc阅读(96)

前两周 OpenAI 发布了 GPT-4o,估计你们也看到各种新闻。有些人看完惊叹 AI 进化太快,有些人好奇怎么免费使用。

四月看完发布会,没有停留在惊叹,而是埋头使用 GPT-4o,研究产品经理如何利用它的新能力来提高工作效率。

结果,还真被我发现几个很实用的场景,赶紧记录分享下。

这次 GPT-4o 更新了多模态能力。所谓多模态,是指 AI 大模型能识别处理文字、语音、图片和视频。

如果你看过发布会,相信会被 GPT-4o 的语音识别和对话能力震撼到。可惜现在他们的 App 还没更新,我又无法安装 Mac 版 App,暂时无法体验,心塞。

除了语音,图片识别效果也很惊艳。亲测体验,能感受到 GPT-4o 确实比 GPT-4 强很多,尤其在识别中文方面。

举例来说,我每次让 GPT-4 识别图片里的中文,出错很多,而 GPT-4o,只是偶尔有几个字识别错,整体的准确率很高。

这回 GPT 终于有眼睛啦,加上它强大的大脑,可以做更多的事情。

用了 GPT-4o 两周,我发现产品经理在这几个场景可以借助它的多模态能力帮我们提高效率,效果非常好。

场景1:分析流程图,优化流程

ChatGPT 出来后,许多人都在讲用它来帮我们生成流程图。这当然是一种辅助方式。但如果想依赖 GPT 生成可用的流程图,显然不现实。

在我看来,画流程图的过程,是产品经理的核心工作之一:分析流程、表达需求。

流程图只是一个结果,核心在于你是否清楚这个流程是怎样的,应该如何优化。

窃以为,如果产品经理自己无法将流程图画出来,也很难将流程表达清楚,让 GPT 画出符合需求的流程图。反之,当你能描述清楚,让 GPT 完全按照需求画流程图,那你自己也可以画出来。

实际工作中,你接到需求,不可能让领导帮你画流程图吧。而是,按照你的理解,梳理流程,画出流程图,让领导审核。

现在 GPT 有眼睛了,我们可以反过来用,不指望 GPT 帮我们生成,而是让它帮我们分析流程,看哪里有问题,需要优化。这也更符合我们的实际工作场景。

你看,我给它发了一张泳道活动图,它能准确分析出里面包括用户、APP、管理后台、话费供应商这4个部分,连对应的位置都标出来。

除了识别文字,它连图中的箭头指向都识别很准确,给出的优化建议也非常到位。

比如,它发现这个流程有两步是可以合并的,减少用户操作;还提到后台可以做异步处理,减少前端等待时间。

这些都非常专业,可以帮产品经理,完善流程设计。

场景2:分析产品界面,优化产品设计

我们做产品时,经常讨论产品的功能设计,如后台要有哪些功能、怎么布局,甚至还会纠结一个按钮是放左边好,还是放右边好。遇到这种情况,现在可以找 GPT 来点评、给建议了。

你看,我给它上传一张某鹅通的 SaaS 后台界面,只用简单的提示词,GPT 1分钟内就给出了优点分析和改进建议。

另外,在产品设计中,设计师给你两个设计稿,让你选择,你会怎么选?有了 GPT ,做选择更理性、更容易了。

我给它上传了 Ant Design 原型框架两个不同版本设计风格的后台截图,让它来分析分析。

你看,依然是简单的提示词,它就可以从不同角度进行分析,还可以让它用打分的方式,帮我们列出对比,方便我们判断选择。

场景3:分析数据图表,发现规律或问题

之前,我分享过用 ChatGPT 做数据分析的方法,是直接把数据给 GPT。

有些时候,还是会担心泄露数据,或者已经数据图表了。这时仅仅用数据图表,GPT 也能给出很有用的洞察。

假设,老板看了数据报表,给你截了个图,问你为什么数据下降了,你慌不慌?是不是得赶紧找数据,排查问题。

如果你没思路,不妨拿数据图表,问问 GPT。

你看,我发了一个日活数据的折线图,它可以准确地看到哪里数据下降了,给出可能原因分析和行动建议。

这对数据分析经验不多的产品经理来说,简直是大神级的助理。

当然,我们可以根据它的建议,深入看数据,给它更多的图表,逐步定位问题。

后面,我又给了它日活的历史数据和各个渠道的日活数据趋势,它给出的建议也更加具体。

不得不说,现在 GPT-4o 的数据分析能力,比 GPT-4 强很多,可以帮我们做很多数据分析工作,非常方便,效果也非常好。

这个话题比较大,这次先不展开,如果大家有兴趣,不妨多点赞转发,告诉我,给我催催稿。

最后,做点总结

这次 GPT-4o 更新的多模态能力,让我们跟 AI 的交互方式,更像跟人的交互。

目前仅仅用它的图片识别能力,已经可以帮我们在流程分析、产品设计和数据分析这3大工作场景,大大提高工作效率。

未来,它的语音对话功能完全开放后,使用方式,就变成直接通过聊天实现了,会更加方便高效。

未来,已来!

AI大模型行业的618,走上价格战的老路

aigc阅读(127)

任谁都没有想到,2024年618的第一枪,居然不是由“猫狗拼抖”任意一家电商发起,取而代之的是大模型厂商。

半个月前,火山引擎先发制人,宣布豆包主力模型在企业市场定价为0.0008元/千tokens,较行业便宜99.3%。一周后,百度、阿里云、科大讯飞等主流国产大模型厂商,均宣布旗下主力模型全面免费。

自此,以免费为噱头的大模型价格战,就此形成了短期无法“回退”的多米诺骨牌。

如果回望历次互联网细分行业的增长历程,大多数时候都经历过增长期、补贴期的白嫖,以此换取市场规模和用户数量。待到产品生态成熟,捆绑了足够多以此为生的用户和产业链,再行提价以完成收割。到目前为止,大模型经历了第一年的出世与合规,正在进入以降价为主要特点的第二阶段。

唯一的区别是,目前大模型主要降价对象,仍然以企业级用户和应用层开发者为主。对个人用户而言,除了部分厂商的升级版服务需要订阅会员,仍然是处在完全免费的状态。换言之,对于大模型及其相关产品来说,真正想要覆盖的C端用户而言,商业化历程仍然没有真正开启。

对于大多数开发者而言,厂商之间价格战打的越欢,对他们而言产品开发成本也会越低。不过一旦对某个厂商形成依赖,一旦产品日后提价,这不仅意味着极高的退出成本,ROI(投入产出比)能否回正,都可能存在问题。

不管AI开发者愿不愿意,在互联网厂商主导的国内大模型行业,再次回到了十年前互联网式的商业逻辑,其商业化的决定权已经发生了转移——何时杀鸡,何时“取卵”,都不再由自己说了算。

01 AI大模型,开启618

当然,仅就模型调用成本打“骨折价”这一行为本身,是非常“互联网”的。

原因无他,所谓古典互联网精神,即在于打破信息的孤岛,实现其流动,和大多数时候的免费分享。

而在生成式AI逐渐大行其道的今日,面对这一近乎“政治正确”式的商业行为,只要有一家挑起战端,其他厂家没有选择避战自保的资格。

行行AI CEO李明顺告诉陆玖商业评论,战端一旦开启,互联网厂商之间的价格战,实际也是算力储备上的竞争,也因此,诸如阿里旗下的通义大模型,手握行业靠前的云资源和算力储备,自然有通过降价来快速抢占市场的动机。虽然百度等公司有被动应战的成分,但从综合实力来看,远远超过中小型创业公司,同样具备不小的竞争力。

所以我们能看到,第一家宣布降价的大模型厂商,不是时间最久的文心一言,也不是技术全面的通义,而是时间后发,声量并不算大的火山引擎旗下的豆包——低于同行99.3%的市场均价,足以让其他厂商“破防式降价”。而腾讯、科大讯飞则更为彻底,直接选择了非永久和永久的全面免费。

当然,从公共云行业的发展轨迹也能有所感知。随着平均算力成本随着用户数量和云服务器的规模化增加而变低,用云成本自然也会随之降低。更进一步,作为与算力成本直接挂钩的大模型调用成本,也会随着价格降低。

而在此过程中,国产大模型的能力也在不断演进——一旦到达可使用状态,即可开放给它的直接用户,以更低的价格。

不过,这种免费通常带有诸多限制。譬如阿里、百度降价幅度最高的产品都是其偏轻量化的模型版本,仅适用于使用频次不高、推理量不太大、任务处理量不太复杂的中小企业、开发者短期使用。

这也像极了电商618满减券的优惠套路——限制品类、限制时间段、限制用量。一旦“热爱白嫖”的中小开发者选择切换大模型,往往就进入了厂商们设定好的剧本之中。

02 “便宜的东西往往最贵”

正如著名作家茨威格的那句话:“命运中馈赠的礼物,往往在暗中标好了价格。”如果像当年打车、外卖那般一样,如果企业用户和个人应用开发者因为成本的缘故选择“无脑猛冲”免费大模型,那么最迟在几年之后,他们也会因为免费的选择而付出远超金钱成本的价格。

类似的行为其实早在去年就初显端倪,其中一个表现是,各个大模型厂商即通过各类开发者活动和比赛,力图将其网罗进自身的开发者生态。具体方式,则比较简单直接——送token。

个中原理也并不复杂。

对于个人开发者而言,大可将其开发产品的一部分剥离,作为参赛demo,在获得厂商赠送的token之后,即可进行几轮0成本的推理测试和产品调优。最终缩短创业产品的开发周期,并提高成功率——当然,前提是接入对应厂商的大模型及其生态。

如果从“免费式降价”的结果倒推,在公共云资源和算力资源的规模化效应下,厂商为之提供的token实际成本,是远低于外界想象的。而他们所获得的东西,远比付出的成本多得多。

其一,是在开发者无数次调用模型能力之后,间接为厂商的底层模型,提供了可供参考的调优思路和产品思路。换言之,厂商提供了燃料,开发者贡献了宝贵的想法。

其二,一旦创业产品上线及规模化,在很大程度上,意味着与初期使用的底层大模型生态捆绑,其后的产品形态,也将与底层模型深度耦合。这也导致了后期极高的转换成本和潜在的运营成本。

此外,如今企业用户选择某家厂商的大模型,也远远不止单纯的模型生态,背后互联网厂商更深层次的行业属性和产业链优势,也是考虑因素。

譬如游戏厂商选择腾讯大模型,其游戏产品在腾讯渠道中会不会得到优先推荐?快消厂商启用豆包,是否会在抖音电商投流中获得优势?一个可以确定的答案是,如果用了,会不会因此受益是未知。一旦切换其他行业厂商的大模型,失去这种受益的可能性则是确定无疑的。

李明顺还向陆玖商业评论透露,由于每个大模型厂商的基因都不尽相同,但在价格战的残酷“洗盘”之下,最终脱颖而出的幸存者也不会太多。而基于行业属性的分布,在价格战尘埃落定之后,不同类型的互联网厂商,最终会在不同的方向占据C位,C端、B端、G端都是有一定可能的。

03 重走互联网补贴大战的老路

从移动互联网时代开启至今,无论是电商、出行,抑或是本地生活,多数都难离开项目融资上线——大规模宣发——补贴大战——进入平台垄断期——收割变现几个阶段。

而在国内大模型行业兴起的短短两年,已经走完了上述流程的五分之三。而对于国内开发者规模的争夺结果,很大程度上也能最终确定大模型厂商的版图,和势力范围。

一家AI创业产品架构师告诉陆玖商业评论,目前大模型降价浪潮,主要吸引的是中小企业开发者,这部分团队切换大模型的成本较低,通常只需要写对应的API接口程序即可。

当然,价格的“骨折”可以吸引大量的白嫖患者前来“就诊”,因为他们不缺想法和能力,只是缺乏必要的启动成本和算力资源。

但对于规模更大的企业级用户则不然。首先,针对不同业务的合规性需求,譬如银行类、出行类等用户数据敏感型公司,其模型安全需求通常较高。也因此,他们使用的大模型通常是模型厂商的深度定制版本。这代表着为数不少的开发团队和运维团队,自然也意味着极高的切换成本。只有在一些非核心的边缘业务,会使用非自研的大模型,用以探索新产品及新模式。

即便如此,对于这类成规模的开发者用户而言,对于大模型的核心需求,远非价格这么简单,更重要的在于生成效果和运行过程中的稳定性。

原因也很简单,这些底层模型虽然直接使用者是B端的企业级用户及开发者,选用模型的决策因素可以是价格,但这些用户的产品大多数最终会面向C端市场。

而C端用户使用AI产品的唯一驱动力,则是生成效果,也就是通常意义上的“好用”,而在用户的反向“PUA”下,企业也会偏向这一个标准。

在团队运维成本,和模型切换成本的双重压力下,价格并不会成为其切换模型的唯一要素。单纯因为价格而贸然切换模型生态,反而会付出比价格更沉重的代价。

卷技术是美国大模型天命,卷价格是中国大模型宿命?

aigc阅读(155)

“卷”就一个字,大模型厂商们不会说一次,它们只会用行动表示。

但同样是卷,中美大模型似乎走上了两条路线。

今年5月是全球“AI信息大爆炸”月份,透过这些信息会发现——

美国那边在卷技术

  • OpenAI发布了迄今最像“人”的AI大模型GPT-4o;
  • 谷歌全线更新了Gemini,秀出了超强AI语音助手Astra,还有对标Open AI家GPT-4o、Sora的NotebookLM、Veo等产品;
  • 苹果推出了首颗AI芯片M4;
  • 微软发布了AI PC,更新了Copilot……

整体上,主打一个你追我赶、能力PK。

中国这边在卷价格

  • 5月11日,智谱AI把个人版GLM-3Turbo模型产品的调用价格从5元/百万tokens降至1元/百万tokens;
  • 5月15日,字节跳动旗下的火山引擎将豆包大模型API输入价格降至0.0008元/千tokens,把中国大模型市场价格卷入“厘时代”;
  • 5月21日,阿里云宣布将通义千问旗下9款核心模型悉数降价,其中通义千问GPT-4级核心模型Qwen-Long的API输入价格锐减至0.0005元/千Tokens,降幅高达97%;
  • 同日,百度也宣布,文心大模型两大主力模型ERNIE Speed、ERNIE Lite免费;
  • 5月22日,科大讯飞宣布,讯飞星火Lite API永久免费开放,讯飞星火Pro/Max API低至0.21元/万tokens。
  • 同日,腾讯云也宣布,主力模型之一混元-lite模型即日起全面免费。

看上去,“晋西北乱成了一锅粥”,成了价格战下的国产大模型竞争局面的写照。

知名投资人朱啸虎就看热闹不嫌事大地说:一下子都从卷scaling law 180 度转弯变成卷价格卷免费了,说好的AGI(通用人工智能)梦想呢?

大洋彼岸在拼技术能力,中国同行在拼产品价格,两相对照,确实很容易引发“硬科技PK软应用”二元对立思维的回炉。

但与其批国产大模型在价格上卷成了麻花,不如思考下这道考题:都是大模型,为什么卷技术成了美国大模型的天命,卷价格成了中国大模型的宿命?

01

需要厘清的是,不是只有美国大模型才卷技术,也不是只有中国大模型才卷价格。

卷技术不是美国大模型的“专利”。在从拼参数、拼性能、拼Agent到拼价格的过程中,国产大模型也曾在复杂指令理解、知识记忆、幻觉抵御等能力上摩拳擦掌。

5月9日,阿里云就发布了号称模型性能全面赶超GPT-4-Turbo、堪称“地表最强”中文大模型的通义千问2.5,通义千问1100亿参数开源模型也在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B成为开源领域最强大模型。

对大模型而言,技术能力是1,其他的都是0,没有技术支撑很难走远。

价格战这股风,也不是只吹到了国产大模型那里。硅谷AI群雄打起价格战来也不含糊。

在5月的新品发布会上,Open AI就宣布GPT-4o支持免费试用,调用API的价格也比GPT-4-turbo降低一半,5 美元/百万tokens,拿走拿走别客气。

作为Open AI头号对手的谷歌看完后,立马喊了声“跟”,秉持着“敌不动,我不动,敌若降,我也降”的态度,把当家王牌Gemini大模型系列的Gemini 1.5 Flash的价格降到了0.35美元/百万tokens。

眼看着两位带头大哥都降了,作为小弟的硅谷当红AI初创公司Anthropic和Mistral AI也跟着吆喝了起来:走过路过不要错过,API价格只要0.25美元/百万tokens了。

白热化竞争的倒逼,大模型推理成本下降的带动,大模型技术迭代曲线放缓的牵制,都是硅谷大模型厂商降价的原因。

但整体上,中国大模型厂商在软硬件一体推进势头方面没有像美国厂商那么猛,美国大模型厂商在降价力度上也没有像中国厂商这么狠。

​正因如此,很多人都担心国产大模型会陷入低层次竞争的内卷螺旋,跟Open AI、谷歌的技术代差会随之继续扩大。

诸如此类的担忧不是全无道理,希望国产大模型将技术力作为竞争主轨道也是正常心态,但不能由此逆推出中国大模型卷价格就是“窝里斗”的结论,更不必就此设置起中国大模型“只擅长内耗,不擅长创新”的稻草人议题来。

抛开理性不谈,中国大模型厂商“不是跟国外卷技术,而是在国内卷价格”,有些不够正确——它没考虑到“清场式遥遥领先”狂热者的感受。

但理性地看会发现,中国大模型厂商卷价格在所难免。它们未必不想赶超Open AI,是多重条件不允许;它们未必想卷价格,可它们首先得活下来。

对中国大模型厂商的卷价格,苛责不如试着去理解。

02

今年4月,工信部原部长苗圩在某论坛上说:在英伟达芯片几近断供后,中国跟美国的大模型算力差距逐渐拉大,所以和美国不要“打篮球赛”,要学会“下围棋”。

在其表达语境中,“打篮球”指的就是拼算力,那样免不了会被带着“满场乱跑”;“下围棋”指的是用好自身优势,加速大模型落地应用。

这说得很现实:受制于现实环境和发展阶段,中美大模型之间在技术上仍有不小的差距。

今年3月Sora刚问世时,华大基因CEO尹烨就曾感慨:据不完全统计,国内号称有大模型的公司已经有300多家,相信大部分还是“多小散乱”,面对ChatGPT在中文世界里(的表现),似乎尚能一战,但面对Sora的横空出世,可有一个能打的甚至是接近的吗?

说白了,技术沉淀、人才储备、融资环境上的差距是短期内难以抹平的,英伟达芯片断供更是不容忽略的掣肘因素。

这时候,缩短差距的正确打开方式,自然不是以己之短博人之长,跟Open AI们比算力。

不比依托于算力的技术能力,比什么?中国互联网过去20年的弯道超车经验已经给出了答案:比应用。

多年来,美国企业擅长从0到1式技术创新,强于“硬科技”,中国企业擅长从1到n式模式创新,强于“软应用”,美国互联网是技术创新带动应用创新,中国互联网是应用创新反推技术进步,几成业界共识。

正是因为应用侧抓住了超大市场内的丰富场景带来的机遇,才有中国互联网企业在移动互联网时代的蓬勃势头。也是因为利用场景优势对冲了“跟跑者困境”,中国互联网产业才有今天的繁荣景象。

近几年,在“卡脖子”之痛的影响下,不少人动辄将底层突破和应用创新对立,将二者分别对应上“星辰大海”和“萝卜青菜”,评价创新的多个维度、多元视角也经常被压减成单一标准,那就是“有没有造出光刻机来”。他们会将强调应用的模式创新置于硬科技的另一侧,看低模式创新的价值。

在此背景下,国产大模型“卷技术不足,卷价格有余”,俨然是有“原罪”的。

但中国大模型的发展,不能被这类杂音所困。国家信息中心专家张振翼之前就指出,美国在大模型发展中具备一定的领先优势,中国需要加强自身独特优势的探索。在他看来,中国发展大模型人工智能最大的优势,就是应用场景资源极为丰富。

03

而拼价格,就是拼应用的必经步骤。美团、滴滴、拼多多能成为超级应用,就离不开当年掀起的价格血战的“助攻”。

国产大模型大打价格战,也是这样:拼价格是表,拼应用是里。大模型厂商在价格上的“退”是为了寻求商业模式和用户增长上的“进”。不把价格打下来,就没法加速落地。

对阿里、腾讯、字节等巨头来说,开启降价模式背后都有一盘“以价换量”的棋:数据显示,国内AIGC用户渗透率目前只有6%。在习惯了免(白)费(嫖)的情况下,国内大量用户都是价格敏感型的。

降价经常是最有效的获客途径,没有之一。用的人越多,就越能压低均摊研发成本,越能降低推理成本。这样一来,没准能开启“降价让利-用户增多-规模效应明显-云业务增长-继续降价”的良性循环。

阿里云资深副总裁刘伟光曾说过,“AI推理的成本只有以每年10倍甚至百倍地下降,才能推动各行各业AI应用的爆发,预计未来大模型API的调用量会有成千上万倍增长。”而Open AI CEO山姆·奥特曼最近在接受采访时就说,他相信高质量AI智能的成本将变得非常低廉,最终趋近于零。

值得注意的是,这波降价降的多是API调用价格,相当于是用降价迂回“抢人”——抢的是开发者。对大模型厂商而言,只有吸引越多的开发者,才能缔造更繁荣的应用生态、催生更多的应用创新。

而丰富的大模型应用生态,是撬动“飞轮效应”的前置条件。应用生态越完善,使用场景越多,用户规模越大,生成的新数据会反过来反哺大模型性能提升。

只有更大的使用量,才能打磨出更好的模型。就此看,卷价格未尝不是另一种“卷scaling law”。

按照国内朴实无华的商战节奏,现在是降价或免费,将来直接给开发者补贴,也不是不可能。

可以预见,这波价格战会将“百模大战”导入市场出清加速的节奏,大模型领域的格局洗牌在所难免。

对用户而言,也许会梦回2014年,那时网约车补贴大战正酣,用户成了价格战直接受益者;对许多AI创业公司而言,这可能意味着至暗时刻的到来——价格战开启的是淘汰赛,中小厂商不像大厂那样有充足的资金弹药,随时可能因为没法“跟”而被踢出牌桌,朱啸虎就断言,不是深度绑定大厂的模型公司基本已经出局。

但这无关“自己人卷自己人”,只是市场竞争的本相而已。

整体上看,腰尾部被淘汰,市场加速向头部集中,对中国大模型长远发展未必是坏事:不要认为大模型领域的幂律分布就等于“资本无序扩张”,事实证明,在“国际竞争中大显身手”方面,只有大企业才有大的竞争力。

04

中国大模型卷价格在所难免,但卷价格通向的不一定是竞争力提升——大模型核心竞争力提升,有赖于“价格下调-规模扩大-成本降低-利润提升-研发加强-技术创新”正向增强回路的跑通。

用户固然会因为免费来尝鲜,但决定他们能否长期留存的,是大模型的实际业务价值,能否高效完成任务、解决用户痛点,而非价格。

很多体验过的用户都知道,当下的不少大模型都有着很强的“不确定性”——它经常会变成CheatGPT。若这只是大模型跟C端用户相互“调戏”,那无非是提供了些笑料,可大模型应用最终得沉到行业产业场景中去。

行业场景专业度要求高、边际容错率低,必须得靠技术能力切实减少“幻觉”、避免“诱导”。

而从大模型技术能力角度看,价格战往往会呈现出两面性来:1,行业洗牌后,用低价换来市占率提升的头部厂商能获得更丰厚的回报,也能在研发上投入更多;2,恶性竞争下,会抑制企业利润,那些长线性创新项目投入也会受影响,进而损害长远竞争力。这轮价格战到底会通向哪一面,也看大模型厂商们怎么选。

零一万物创始人兼 CEO李开复就说,国内常看到ofo式的“疯狂降价、双输”的打法,大模型公司不会这么不理智,因为技术还是最重要的,如果技术不行,纯粹靠贴钱、赔钱做生意是行不通的。

百川智能创始人王小川也表示,百川智能不会参与降价,“‘千团大战’、滴滴快的补贴大战,背后都带有网络效应,那种商业模式改变了生产关系,改变了司机和乘客之间、外卖员和用户之间的关系。这次‘价格战’并没有改变生产关系,而是直接做生产力供给,是B端(企业用户)市场的‘价格战’。”

要而言之,大模型技术能力提升才是硬道理,价格战换来的不该是在愈发落后的系统上开发应用,而应是“价格力-技术力”相互带动的正循环基础上的系统持续升级。

价格为锚、应用为先,也许能帮中国大模型完成局部赶超意义上的“弯道超车”。但局部之外的部分,只能靠技术创新去补齐。在这点上,没有捷径。

这不是说中国大模型厂商不该卷价格,而是说卷价格的进阶方向还得是卷技术——如果有些人非要怪中国大模型“就知道猛卷价格”,那一切责任在于拜登,谁让他摁下英伟达芯片断供按钮的?

解锁AI对话的秘诀:如何写好提示词,获得你想要的回答

aigc阅读(186)

在数字时代,AI技术的迅猛发展已经深入到我们的日常生活中。无论是智能助手、聊天机器人,还是各种自动化服务,AI都在扮演着重要角色。然而,如何让AI更好地理解并回答我们的提问,提示词的编写至关重要

本文将带你深入探讨AI提示词写作的技巧,让你轻松获得理想的回答。

一、AI对话的原理

要写好提示词,首先要理解AI生成文本的基本原理。这部分内容看似复杂,但其实深入浅出地理解后,就能掌握与AI对话的诀窍。

AI生成文本依赖于语言模型,这些模型通过大量的文本数据进行训练,学习语言的结构和模式。常见的AI语言模型如GPT(Generative Pre-trained Transformer),它通过对海量数据的分析,学会了如何在不同语境下生成连贯和有意义的文本。

AI并不像人类那样拥有自主的常识和生活经验,它依赖于提示词提供的上下文信息。这意味着,提示词越清晰、越具体,AI越能理解你的意图

当用户输入提示词后,AI会通过以下步骤生成回答:

  1. 解析提示词:AI首先会解析输入的提示词,提取关键词和语境。
  2. 检索知识库:根据解析结果,从训练数据中检索相关信息。
  3. 生成文本:结合上下文和检索到的信息,生成连贯的回答。

每一步都依赖于提示词的质量。如果提示词模糊或缺乏具体性,AI的解析和检索过程就会受到影响,最终生成的回答也可能不尽如人意。

二、提示词的概念和分类

提示词是用户向AI输入的指令或问题,用来引导AI生成相应的回答。提示词可以分为系统提示用户提示两大类。理解这两者的区别有助于更有效地引导AI生成所需的回答。

系统提示:AI模型内部使用的提示,通常用于指导模型如何执行特定任务。这些提示通常由AI开发者或工程师预先设计,用来规范和优化AI的工作方式。特点如下:

  • 预定义:系统提示通常在模型训练或部署时就已经设定好,用户无法直接修改。
  • 广泛适用:这些提示适用于多种任务,帮助AI在不同场景下保持一致的表现。
  • 行为规范:系统提示可以设定AI的语气、风格和具体行为规范,确保输出的稳定性和质量。

比如说:

  1. 指示模型如何回答问题:”在回答用户问题时,请保持专业和礼貌的语气,并提供尽可能详细的信息。”
  2. 设定输出格式: “生成的回答应包含以下结构:引言、主要内容和总结。”

这种系统提示可以确保AI在不同用户交互中保持一致的语气和结构,提升用户体验
用户提示:由终端用户输入的具体指令或问题,用来引导AI生成特定的回答。用户提示的灵活性和多样性,使得它们能够针对具体需求进行定制。特点如下:

  • 灵活多变:用户可以根据具体需求和场景随时修改提示词。
  • 具体性强:用户提示通常针对特定问题或任务,提供详细的背景信息和要求。
  • 直接交互:用户提示是用户与AI互动的直接方式,决定了AI生成内容的具体方向和质量。

比如说:

  • 询问具体信息:”你能详细介绍一下人工智能在医疗领域的应用吗?”
  • 要求特定格式:”请用500字解释气候变化的原因、影响和应对措施。”

通过用户提示,用户可以精准地控制AI的输出,使其更符合个人需求和特定情境

三、提示词的原则

一个好的提示词能够:明确AI的任务、提供必要的背景信息、限定回答的范围和深度。
好的提示词应遵循以下原则:

  • 明确性:提示词应清晰明确,避免模糊不清的问题。
  • 简洁性:尽量保持提示词简洁明了,避免过于复杂的句子结构。
  • 具体性:提供具体的背景信息和期望的回答方向,减少歧义。
  • 连贯性:在多轮对话中,提示词应保持前后一致,确保对话连贯性。

四、提示词框架推荐

了解了好的提示词原则后,我们来看看一些常用的提示词框架。这些框架不仅能帮助我们更好地组织和表达需求,还能大大提高AI生成的内容质量。

1. ICIO 框架

ICIO框架指的是:Instruction(指令)+Context(背景信息)+Input Data(输入数据)+Output Indicator(输出引导)

  • Instruction(指令):框架的核心,用于明确AI需执行的任务。编写指令时,应简明扼要,确保AI可准确把握任务目标及要求。
  • Context(背景信息):包括任务背景、目的、受众、范围、扮演角色等等,有助于AI理解任务并生成响应。
  • Input Data(输入数据):告知模型需要处理的数据,非必需,若任务无需特定的输入数据,则可省略。
  • Output Indicator(输出引导):告知模型输出结果的类型或风格等,如指定所需语气(正式、随意、信息性、说服性等)、定义格式或结构(如论文、要点、大纲、对话)、指定约束条件(如字数或字符数限制)、要求包含引用或来源以支持信息等。

2. CO-STAR框架

CO-STAR框架指的是:Context(上下文)、Objective(目标)、Style(风格)、Tone(语气)、Audience(受众)、Response(回复)

  • Context(上下文):提供任务的上下文信息,有助于LLM了解正在讨论的具体情景,确保其答复具有相关性。
  • Objective(目标):明确你希望LLM执行的任务是什么,有助于LLM把回答的重点放在实现这一具体目标上。
  • Style(风格):表明你希望LLM使用的写作风格,可以是鲁迅、余华等某个名人的写作风格,也可以是某个行业的某个专家,如商业分析专家或首席执行官。
  • Tone(语气):确定回复的态度,可确保LLM的回复与所需的情感或情绪背景符合,如正式的、幽默的、具有说服力的等。
  • Audience(受众):确定回复的对象,根据受众(如初学者、儿童等)量身定制LLM的回复,确保其在所需的语境中是恰当的、可以理解的。
  • Response(回复):明确回复格式,确保LLM按照下游任务所需的准确格式输出。例如,列表、JSON、专业报告等。

3. CRISPE框架

CRISPE框架指的是Capacity(能力)、Role(角色)、Insight(见解)、Statement(声明)、Personality(个性)和Experiment(实验)

  • Capacity and Role(能力和角色):指示 LLM 应扮演什么角色,具备什么能力。
  • Insight(见解):提供你请求的背后见解、背景和上下文。
  • Statement(声明 ):你要求 LLM 做什么。
  • Personality(个性):你希望 LLM 以何种风格、个性或方式回应。
  • Experiment(实验):请求 LLM 为你回复多个示例。

五、提示词实操技巧

那么,我们在实操过程中,有哪些技巧可以帮助我们获得AI更好的回答呢?一起往下看~

1. 结构化提示词

提示词的结构完整性极大地影响模型回答的质量。一个结构化的提示词应包括以下要素:角色、背景、目标、技能、约束、工作流、输出要求、示例和初始化等。参考前述的框架(如ICIO、CO-STAR、CRISPE),可以确保提示词覆盖所有必要的信息。

2. 加分隔符

在提示词中合理添加分隔符(如“`),可以准确区分指令和待处理的内容,避免模型解读提示词时出现困扰。

3. 提供示例

通过例子可以帮助AI更好地理解用户的意图,避免歧义,以更精确地控制模型的输出。

4. 根据回答不断调整要求

在AI生成初步结果后,可以根据需要进行调整和优化。通过反馈引导和规范模型的输出,以更好地符合预期。

5. 分步骤提示

指导模型一步步输出信息,确保模型与你的意图匹配。分步骤提示可以使复杂任务更易于管理

6. 检查用户输入信息完整性

在提示词中设定必须给出的一些关键信息,如果用户没有提供,模型可以主动询问补充完整

7. 让AI帮你优化提示词

可以请求AI帮助我们优化提示词,使其更简洁和有效。kimi+有提示词专家助手,coze也有自动优化提示词的功能。

通过这些实操技巧,你可以大大提升与AI模型互动的效果,生成更精准和符合需求的内容。每个技巧都有其独特的应用场景,结合实际案例进行操作,会让提示词更加有针对性和实用性。

AGI渐行渐近,该加速还是要踩刹车?

aigc阅读(120)

马斯克在今年早些时候预测,AGI可能会在2026年投入使用。DeepMind联合创始人、首席AGI科学家Shane Legg在一次访谈中认为,2028年,人类有50%的概率开发出第一个AGI。然而百度CEO李彦宏的观点则更加审慎,他认为AGI还需要10年以上的时间才能出现。

自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。去年上半年,有主流研究者提出,大语言模型已经表现出“通用人工智能的火花”(sparks of AGI)。

这似乎表明,AGI已经从哲学猜想变成了将来的未来。然而,关于AGI的观点众说纷纭,大语言模型也常有愚蠢行为出现,这些都引发了对AGI的质疑。

在此背景下,我们离实现真正的AGI还有多远?如何预防AGI带来的潜在风险?

01 AGI,未到的黎明

从性能强度和通用性两个维度,可以将人类和AI的关系划分为6个阶段:无AI、智能涌现、胜任、专家、大师、超人类。而现在大语言模型的出现,正属于第一个AGI的阶段:AGI雏形。

AGI(Artificial General Intelligence),即通用人工智能,其目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务,并以人类的智力水平执行完成。基本上,除了“自我意识”的生成,AGI就是人类对人工智能的终极梦想了。

AGI是要让智能体像人一样,不仅能够独立感知环境、进行思考、作出决策、学习新技能、执行任务,还能够与人类或其他智能体进行有效的协作。同时,智能体能够理解人类的情感,并且遵循社会伦理和道德规范。

一个完整的AGI需要具备三个基本特征:

第一,必须能完成无限的任务,而不是只能完成人定义的有限几个任务。

第二,要在场景中自主发现任务,这是通常所说的要做到“眼里有活儿”。

第三,要有自主的价值来驱动,而不是被动的被数据所驱动。

同时,AGI还需要解决一些关键的技术问题,比如构建智能体的认知架构,让智能体由价值驱动,在现实世界中进行有效的行动,能够与社会环境进行互动,使智能体决策过程透明可解释,以及建立和人类之间的信任关系等。

以OpenAI的ChatGPT、谷歌Bard、Meta的Llama为代表的大模型,已经在通用性上展示出了AGI的潜力。因为大语言模型已经能完成范围相当广的各类任务,而且表现出了像学习新技能这样的“元认知”能力。

相比大模型的“鹦鹉范式”,AGI是以“小数据,大任务”为架构的“乌鸦范式”,智能体表现为具有自主的智能,能够自主感知、认知、推理、学习和执行,不依赖于大数据,基于无标注数据进行无监督学习,并且智能系统低功耗。就像乌鸦喝水这一行为,看似简单,却属于自主推理行为,是由价值与因果驱动的高级智能,也是AI的未来发展趋势。

如果单从AI的性能维度上看,“窄AI(Narrow AI)”类型的AI已经达到了完全超越人类认知的水平。以AlphaFold、AlphaZero为代表的专业领域AI,在特定领域已经能发现人类智力无法发现的新事物了,此类被成为“超人类窄AI”。

而在某些领域,AI能达到90%的人类水平,比如文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI,这被称为“专家级窄AI”。在特定领域,能达到普通人的平均水平,比如Siri,谷助手这类普通智能助理,其被称为“普通窄AI”。

所谓“窄AI”,是指那些特别擅长处理单一任务或者特定范围内工作的系统。在大多数情况下,它们在特定领域中的表现远优于人类。不过一旦它们遇到的问题超过了适用空间,效果则急转直下。换言之,它们无法将自己掌握的知识从一个领域转移到另一个领域。

尽管窄AI无法全面执行需要人类智能的任务,但在特定场景中仍然非常实用,而且已经在诸多应用之内发挥着自己的作用。谷歌搜索查询现在可以利用窄AI算法回答问题,窄AI系统会在YouTube及Netflix中推荐用户可能感兴趣的视频,并在Spotify中按喜好整理出周推音乐列表。

而在窄AI已经覆盖的能力维度上,AGI都还没有出现对应的实例,因为目前还没有出现真正意义上的AGI,对于AGI的定义,人类也还没有达到统一的认知。

02 谁会是AGI的起点?

从信息时代走向智能时代,“语言”成为那把开启全新时代的钥匙。著名的作家兼哲学家路德维希·维特根斯坦在其《逻辑哲学论》一书中提到:“我的语言的界限,意味着我的世界的界限。”

对人类而言,承载世界的知识、思考、沟通和文化靠的是语言。语言本身的发明代表着每多一个词汇就让世界多了一个认知维度,词汇之间建立的逻辑关系和表达代表了人类对世界完整的建模。这个模型不是在图像里面,而是通过语言进行承载,所以语言边界就是世界边界。AI核心就是把现实世界的现象翻译成为数学模型,通过语言让机器充分理解现实世界和数据的关系。

如今,人们已经走出了原来物理学靠一个公式解释世界的方法,更多是靠海量数据在不同层次单独建模,上层建模就是由大量的数据驱动。语言模型如此,生命建模也是如此,2021年最伟大的成就就是DeepMind的AlphaFord系统,针对基因到蛋白质的三维结构建模,通过这个模型预测基因被转录或者表达为蛋白质以后拥有的形态,也是全世界轰动的生命领域的突破,靠的也是数据和AI的驱动。

虽然大模型已经取得了一些惊人的进展,但如果比较AGI的三个特征,就会发现大模型还不符合AGI的要求。

首先,大模型在处理任务方面的能力有限,它们只能处理文本领域的任务,无法与物理和社会环境进行互动。这意味着像ChatGPT这样的模型不能真正“理解”语言的含义,因为它们没有身体来体验物理空间。

其次,大模型也不是自主的,它们需要人类来具体定义好每一个任务,就像一只“鹦鹉”,只能模仿被训练过的话语。真正自主的智能应该类似于“乌鸦智能”,能够自主完成比现如今AI更加智能的任务,当下的AI系统还不具备这种潜能。

第三,虽然ChatGPT已经在不同的文本数据语料库上进行了大规模训练,包括隐含人类价值观的文本,但它并不具备理解人类价值或与人类价值保持一致的能力,即缺乏所谓的道德指南针。

但这并不妨碍科技巨头对于大模型的推崇。OpenAI、谷歌在内的科技巨头,都将大模型视为迈向AGI的关键一步。OpenAI CEO Sam Altman就曾多次表示,GPT模型是朝着AGI方向发展的重要突破。

不过,Meta人工智能首席科学家杨立昆(Yann LeCun)认为,目前的大模型路线无法通往AGI,且非常危险。

他指出,现有的大模型尽管在自然语言处理、对话交互、文本创作等领域表现出色,但其仍只是一种“统计建模”技术,通过学习数据中的统计规律来完成相关任务,本质上并非具备真正的“理解”和“推理”能力。

他认为,“世界模型”更接近真正的智能,而非只学习数据的统计特征。以人类的学习过程为例,孩童在成长过程中,更多是通过观察、交互和实践来认知这个世界,而非被单纯“注入”知识。而LeCun的“世界模型”路线,则是试图通过对视频、音频等媒体的模拟与补全,让AI也经历这样一个自主学习的过程。

他也承认,实现“世界模型”并非易事,这一雄心勃勃的目标可能需要耗时10年才能实现。

03 将风险控制在可控范围内

对于AGI所带来的风险,图灵是最早提出警告的人之一。他在1951年说道:“一旦机器开始思考,很快就能超越我们。因此,在某个时候,我们应该期望机器能够被掌控。”因为当一个比人类更强大的智能体出现时,人类很难维持权力,特别是当这些智能体具有不正确或不完整的目标时。

如果还有人认为现在考虑这些风险是危言耸听,那么如何回答这样一个问题:你如何在比人类更强大的智能体面前永远保持权力?此外,在AI领域,还有一些人试图回避这个问题,否认AGI的可实现性,却没有提供任何证据。

OpenAI CEO Sam Altman在其文章《Planning for AGI and Beyond》里,探讨了AGI对社会、技术和伦理的潜在影响,并强调了慎重规划和负责任的发展的必要性。

文章指出,通过增加资源丰富度、推动全球经济增长,以及助力新科学知识的发现,AGI有潜力极大地提升人类生活质量。这不仅是智力的巨大增幅,更是对人类创造力和想象力的极大扩展。

然而,AGI的出现也可能带来严重的滥用风险、意外极端事件的可能以及对社会结构的剧烈动荡。因此,OpenAI提倡在发展AGI时,AGI开发者以及全社会都必须找到正确的方法来实现和利用这一技术,确保其与人类核心价值观保持一致,并公平地分享其带来的好处。

此外,OpenAI认为,从长远来看,AGI的出现仅仅是智力发展的一个节点,而AI的进步可能会在未来相当长一段时间内继续保持。OpenAI提出了一个安全的AGI发展愿景,即在较短时间内以较慢的速度过渡到AGI,以便社会有时间适应和调整。

尽管未来不可预知,但OpenAI表达了他们最关心的几个原则:希望AGI能最大限度地促进人类在宇宙中的繁荣;希望AGI带来的好处、访问权和治理能够被广泛且公平地分享,并成功应对巨大风险。

为此,OpenAI倡导在短期内进行渐进式过渡、继续创造越来越符合目标的模型,并在长期进行全球范围的对话,讨论如何治理这些系统、如何公平分配它们产生的好处,以及如何公平分享访问权。在极高的风险和回报下,人类需要团结起来,让AGI在未来世界以一种对人类最有益的方式绽放。

对于如何预防AGI给人类带来威胁,可以逐步放开AGI的能力空间和价值空间,一开始把它关在“笼子”里,慢慢打开权限。

对于AGI,可以先其适用场合和行动空间限制在特定区域内,随着人们对机器的信任的增加,确认AGI安全可控后,再逐步给予更大的空间。另外,应该进一步促进算法决策过程的透明度。如果能够清晰了解AGI的认知架构,从而知道其是如何工作的,就能更好地控制它。

人类对于AGI的探索和思考才刚刚开始,我们还有很长的路要走。AGI的进步不仅代表了技术创新,更是对未来人机交互方式的重新想象。随着我们逐步走向AGI未知领域,稳健和有序的发展显得更加重要,我们必须高度警醒AGI所带来的问题,并充分重视AGI所创造的机会。两千多年前,苏格拉底说“认识你自己”,今天在AGI技术发展的倒逼下,人类需要“重新认识你自己”。

国产AI大模型猛打价格战,但从业者表示没什么用,纯噱头

aigc阅读(138)

这个 5 月,国内大厂的大模型也开始争 “ 地板价 ” 了。

5 月 15 日,字节跳动的豆包大模型发布,定价 0.0008 元/千Tokens。

21 日,阿里通义千问 GPT-4 级主力模型 Qween-Long 降价 97%,API 输入价格从 0.02 元/千Tokens 降至 0.0005 元/千Tokens,每千 Tokens 比豆包便宜 0.3 厘。

同天,百度的文心大模型中的两大主力模型 ERNIE Speed 和 ERNIE Lite 直接宣布免费。

22 日,腾讯也跟进了降价风潮,旗下数款大模型降价 50%-87.5% 不等,有三款大模型直接免费。

似乎,中文互联网世界的任何事物都要经历一波价格主导的 “ 百团大战 ”。

国产大模型价格普降,理论上并不意外,毕竟要全面铺开市场,利用冗余产能,低价和免费是最直接有效的方式。

但同时,在行业人士看来,降价这件事经不起细琢磨,无论是长远效益,还是眼下国产大模型的技术水平,这场价格战来得都比较急,而且有点不痛不痒。

AI 世界瞬息万变,或许再过一段时间,这场价格风波会迭代成新的战斗方式,几分几厘的争执并不重要。不过,在这个也许会转瞬而逝的风波面前,我们试图稍作停顿,找寻国产大模型降价背后的原因,以及这场风波有可能的后续。

01 国产AI大促销,一家更比一家低

截至目前,参与到 “ 价格战 ” 中的大厂有字节跳动、阿里、百度、腾讯。

5 月 15 日,字节跳动正式发布旗下豆包大模型,在发布会上重点强调了豆包的价格优势。那天,豆包在这几家大厂里还是最便宜的,在国内整体大模型厂商中也几乎是最低价,豆包主力模型在企业市场的定价只有 0.0008元/千Tokens,比行业便宜 99.3% 。

一周后,阿里和百度在同天跟进降价。通义千问 GPT-4 级主力模型降价 97%,差不多打了一折,API 输入价格从 0.02 元/千Tokens 降至 0.0005元/千Tokens,比豆包还便宜 0.3 厘。另一边,百度文心大模型的两大主力模型 ERNIE Speed 和 ERNIE Lite 干脆直接宣布免费。

次日,腾讯混元大模型也来了一波价格普降,除混元-pro 的输出价格仍保持在 0.1 元/千Tokens 之外,其他大模型的价格都降了 50%-87.5% 不等。调价前,最贵的是 0.12 元/千Tokens 的混元-standard-256k 大模型,而这次降价最多的也是它,输入价格调至 0.015元/千Ttokens,输出价格 0.06 元/千Tokens,降幅分别为 87.5% 和 50% 。在腾讯云降价的同一天,科大讯飞旗下大模型讯飞星火 API 能力也正式免费开放。

如今,国产大模型已经进入了以毫厘论价甚至免费的时代。

客观来说,大模型降价是一直以来的趋势。

去年以来,OpenAI 就进行了多次降价,5 月 13 日新发布的 GPT-4o,面向 ChatGPT 的所有付费和免费用户发布,取消其他所有限制,API 价格从 0.1 元/千Tokens 降至 0.035 元/千Tokens( 价格单位经过换算以便与国产厂商对齐 )。

几位行业人士对知危表示,降价这件事不算大,也不算稀奇。现在价格被打下来的主要是文字生成这块的大模型,行业其实还没有做到把别的模态也打下来。而经历过去一年多的技术迭代,文字生成效果比较好的模型现阶段已经可以跑到端侧了,端测运行客观来讲就是免费的。” 心光 App 联合开发者王禹效对知危说。

他补充,降价这件事本身可能也有很多没直接说的东西。“ 比如 OpenAI 有两种报价,一种报价对应的服务响应比较快,另一种报价响应慢一些,也就是他们把服务器的剩余资源拿来给你用。一般来说,大模型厂商不太可能把最好的模型拿来做免费,你会发现真正的好东西还是很贵,因为好的模型的算力成本也确实高。

国产大模型在这个 5 月纷纷拿出价格诚意,一方面是大势所趋,连技术水平更高的大模型都没那么贵,上述企业自然也希望通过降价获得更多市场。

另一方面,来自于大模型自身的迭代。王禹效说,从技术角度来看,最开始大模型需要疯狂堆料,但后来再做优化的时候会发现,其实不用堆太大的参数,可以通过知识蒸馏降低计算资源和模型大小,那之前的模型成本就能降到之前的十分之一,还能保证差不多的效果,降价也就顺理成章了。

02 噱头大于实际的一次价格战

在豆包大模型发布会上,火山引擎负责人谭待表示,大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。而且,如今基座大模型已经进入了稳定迭代的阶段,在模型训练和推理使用上,都还有长足的优化空间,成本下降得很快。

字节的解释,透露出两个信息。一是模型结构完成了优化调整,算力效率提升了,这是降价的底气。二是通过降价拉高市场使用量,反过来对大模型的继续迭代也是好事。

理论上讲,这是一个完美的答案。不过,如果再仔细推敲起这个逻辑,很多现实结果还有待验证。

首先,从商业模式上说根基不稳。AI 应用创业者谷林( 化名 )对知危表示,以价换量占领市场,这个逻辑看起来是对的也是常见做法,但这一策略需依赖于能够实现规模效应的商业模式,大模型 API 却并不是:

“ 大模型面向 B 端用户,也就是开发者,要切换 API 的话,不存在切换门槛和壁垒。”

大模型的成本分有模型训练、商业服务、API 服务这三类。

单说训练成本,就需要昂贵的投入,包括优质工程师、标注过的高质量数据以及各领域科学家对模型进行调优,这些成本都十分高昂。此外,API 使用模型进行推理的运算成本,涉及显著的电力和硬件消耗。

谷林表示,“ 正常的商业模式,就算没有利润,也要考虑到卡的成本和电力成本的,如果 toB 要持续提供好的服务,一定是要有利润的。现在厂商给出每百万 Tokens 几块钱几毛钱的价格,电价可能都不够,更别提卡了,那肯定要靠企业从其他业务的利润上拿来做补贴。”

就像消费互联网常见的 “ 百团大战 ” 一样,在 AI 大模型领域,先挑起价格敏感的,也是大厂。无论算力效率如何提升,成本如何比以前降低,AI 大模型毕竟没有到一个全行业形成价格标准的时代,现在去无限压低价格,还是比较具有煽动性的事情。

不过,如此降价能不能长期持续也不好定论。

如果是传统的 “ 价格战 ”,卖的是一次性或标准化的服务,那确实谁便宜谁占领市场。但 AI 大模型不一样,毕竟 toB 的技术企业还是要不断做研发创新的,现在的低价买到现在的技术,日后开发者必然也需要更好更与时俱进的技术支持,到那时还可以用现在的价格去买吗?

还有一个值得注意的点,大厂尚有充裕的算力资源可以拿出来做低价,“ 反而是现在正在烧钱跑的模型侧的一些公司,包括跑开源的公司,他们压力比较大,因为模型研发还是挺贵的,是一个比较重资产的游戏。” 王禹效表示。

在行业人士看来,国内这批大模型理论上是要比 OpenAI 等海外厂商的大模型差上 2-3 代,要补齐差距可能也要半年到一年的时间。

也就是说,现在这拨低价,是用旧的模型去促销,抢存量市场,压力还在后头。

所以,这可能不是一场 “ 价格战 ”,而是赔本赚吆喝。

03 价格不是当下最需要卷的

价格降了,无疑会带来不少正向的影响。

能帮助到现有应用的开发团队,为其提供很多选择,可以把免费或超低价的模型都拿来试试。同时也能带来新的创业机会,在几乎不需要考虑这方面成本的情况下,一些好的想法更容易落地。无论如何,大模型通过低价一定会收获使用量上的暴增。

因为大模型便宜了,所以选择用用看,这个逻辑是成立的。但是,要不要继续用下去,或者长期选择哪个大模型,却不是以价格为导向的。

王禹效解释,在国内这批大模型宣布降价之前,一个创业者如果真想做点什么,那几乎每家大模型厂商都会给出很高的免费额度。“ 比如 GPT 一开始给的是将近 2 万人民币的免费额度,大家都可以申请。”

对于真的有想法想做 AI 创业的人来说,价格不是最核心的痛点,只能说低价或 0 元购吸引他们过来创业了,但继续做下去的话,不会有人因为这款模型便宜就一直用,还是要筛选技术更好,更符合自己应用开发需求的模型。

“ 对开发者而言,免费可以毫无顾忌地使用到更多场景下进行推理,使用更长的 Context 提升推理的精确度和内容的多样性。但在认真做产品的团队,在技术选型上,还是首先考虑多模态的支持和内容质量,而不仅仅是基于成本考虑。最终一定是回归到大模型厂商的技术和服务上来,这才是壁垒,价格不是壁垒。” 谷林坦言。

不仅是开发,在应用运营的实际情况中,价格也不敏感。

王禹效举例,“ 前两天我们 App 的技术同事还问我,要不要搭一套新架构,这样随时可以在后台切换任何模型,都可以试试,还不会影响到业务。我觉得这个事情不着急,因为在应用侧的实际情况中,用户是不在乎你用了什么模型的,用户只在乎你的场景。所以,对于开发者来说,今天这个模型好,明天那个模型差,谁便宜了几毫厘,谁免费了,都没太大意义,你只要把用户最关心的某个场景的问题解决了就好。”

更何况,一款 AI 产品会用到不止一个模型,价格高的模型、价格低的模型、免费的模型,开发者都可以用,免费的模型可以用在边角料上,做点简单的处理。当一个开发者同时是所有价位的模型的客户,似乎也不存在用价格抢客户的事情了,只能说大家都有饭吃。

说白了,眼下国产大模型的 “ 价格战 ” 更像是营销手段,为厂商带来短期的获客,而真正决定留客率的还是模型本身的技术水平。这也是从业者们对大模型 “ 价格战 ” 并不兴奋的原因。不会因为便宜而一直选择,更不会因为贵就放弃好的模型。

他们只觉得,在 AI 大模型还处于没有确立标准的野蛮时代,厂商用价格作为营销策略也是能理解的,就像字节在着重强调豆包的价格优势一样。“ 字节销售也是总来找我们,和其他厂商比,感觉字节大模型在营销上确实算最卖力的。” 王禹效说。

归根结底,开发者和大模型是双向选择的过程。筛选客户的核心不是谁家便宜,这跟消费互联网的价格战不一样。

谷林解释,“ ToC 的产品用户切换的壁垒,有用户心智,有市场占有。假如说厂商是 toC 之后积累了规模效应后,竞争优势很难打破,但现在大模型厂商提供的就是 API,不存在规模效应,B 端用户的切换成本也不高。实施免费和补贴市场策略是否真的有助于商业增长,能形成商业壁垒吗?这个策略是帮助行业发展,还是进入劣币驱逐良币的内卷?”

搞促销,是互联网博弈局的常见套路。只是,对于正在探索的应用层开发者和跃跃欲试的新创业者来说,这次不一样,价格没那么重要。

王禹效坦言,“ 机会真是满天飞,你快点开始做就行了。现在立刻开始做,远比你去选哪个模型,哪个厂商,哪个更便宜,来得更实际一些。”