欢迎光临
我们一直在努力

产品经理视角下的AI大模型与脑科学产品

aigc阅读(48)

近几年,AI(Artificial Intelligence,人工智能)技术发展迅猛,各种大模型产品层出不穷。例如,代表性的聊天产品ChatGPT和绘图产品Midjourney的推出,使人们切身感受到了人工智能的魅力,在一定程度上方便了人们的工作和生活。

然而,尽管人工智能大模型是目前投资领域的热门方向,但仍然有大量基于大模型的人工智能初创公司倒闭。这些初创公司的大模型产品,目前还没有找到合适的商业化路径。

前期高昂的基础设施投入,以及后期训练模型的运营成本,无疑是压死骆驼的最后一根稻草。

大多数大模型人工智能初创企业所面临的问题是,他们研发出的产品方向,已经被其他巨头想到了。他们辛苦研发出的大模型产品,发现巨头们的产品做得还比自己的好。本来想着主打性价比,少量收费,结果发现巨头们的大模型产品直接免费了。

由于大模型产品前期的基础设施、中期的训练以及后期的产品运营,都需要耗费大量的时间和金钱成本,这就导致了很多没有持续现金流支持的初创企业产品,没有持续性,很多倒在了黎明之前。

这就逐渐形成了以微软、Meta、OpenAI这些巨头主导的寡头市场,这些巨头凭借着资金、资源、技术的优势,快速发力,对其他人工智能大模型初创公司的产品形成了降维打击。

在作者看来,人工智能大模型的创业,一定要建立产品思维,一切从需求、从用户、从市场出发,研发接地气的产品,而不是盲目跟风,觉得这块资本市场比较青睐,希望可以在风口上获得一些资金,来进行大模型产品的创业。杜绝手里拿着锤子看什么都是钉子的错觉。

在产品经理视角下看人工智能大模型产品,一定要回归需求的本身。单纯的人工智能大模型产品如同空中楼阁,毫无意义,一定是需要基于某些特定场景,例如脑科学产品。大脑作为人类最复杂的器官,大脑健康水平同人们的幸福水平息息相关。

因此,在产品经理视角下,人工智能大模型与脑科学相结合的产品,才是大模型最有价值的应用方向。因为,科技发展的初衷是为了人类服务,让这个世界,让这个星球变得更加美好。

我们基于这个愿景,来看一下产品经理视角下人工智能大模型与脑科学相结合将会带来哪些产品机遇。

一、AI产品进化分析

首先我们从用户使用场景出发,如果我们梳理用户和人工智能发起的历程,可以很清晰发现,最早我们使用计算机,主要是当作工具使用。

不论是PC时代,还是最初的移动互联网时代,各大公司推出了各式各样的工具软件,像大家熟知的Word、Excel、PowerPoint等,极大提升了人们的工作效率。

这个时期的软件,更多的是基于规则执行,而不是智能。很多银行在贷前推出了基于大数据的智能评分与授信系统,以及针对贷后管理推出的智能催收产品,虽然可以实现同用户的互动问答,但是仍然是基于策略和规则进行执行,算不上真正的人工智能大模型。

人们真正感受到机器智能,是最初的ChatGPT产品推出之后,可以媲美真人的问答互动,让人们感受到了不一样的人工智能。

但是初代的ChatGPT虽然问答互动功能强大,但是可扩展的功能并不是很理想。对于实际场景中的应用,仍然是人类为主导,ChatGPT作为辅助工具,解答人们提出的问题,不直接处理人类的工作。

随着大模型技术的不断发展,目前已经有很多厂商的产品从辅助型的人工智能产品向协作型的人工智能产品迈进。例如:

  • 字节跳动在其飞书多维表格产品中加入了大模型【飞飞】,可以在工作中直接协助生成相应的内容。
  • 微软在2023年10月发布了 Windows 11 22H2 Moment 4 更新,推出了Microsoft Copilot大模型,其产品定位是日常AI助手,并可以同Office产品进行集成,提升用户工作效率。

大模型作为协作工具,其生成结果仍然需要人们根据实际场景进行后期的调整、完善,虽然大模型直接参与了人们的工作,但是仍然需要人工进行深度参与,大模型并不能完全自动化完成人们希望的工作。

现阶段大模型更倾向于向代理的方向发展。代理这个词很容易理解,比如我们在OA(办公自动化)中常见的代理发起申请,审批人由于出差或是其他原因,授权后由代理人进行代理审批。

在大模型的代理与协作所不同之处在于,协作仅是大模型承担部分工作,大部分工作由人类完成,而代理则是大模型会承担人类的大部分工作。

AutoGPT是Github上的一个免费开源项目,结合了GPT-4和GPT-3.5技术,已经实现了大模型在代理场景中的应用。AutoGPT的特点在于,用户不需要不断对ChatGPT提问以获得对应回答,在AutoGPT中只需为其提供一个AI名称、描述以及目标,AutoGPT就可以自己完成项目。AutoGPT可以自己去浏览网页、读写文件,将其与所说的历史提示记录相结合,审查自己提示的结果。

通常我们与AI的交互形式基本上都是用户先输入指令,然后AI会根据用户的指令内容做出响应。这样交互的痛点在于,用户每次在进行提供有效的提示词才能达到想要的效果。

随着代理模式的不断升级,逐渐被设计为具有独立思考和行动能力的AI程序。用户只需要提供一个目标,比如制作一首歌曲、开发一个程序,AI大模型就会根据用户输入的目标,形式生成一个任务序列开始工作。

人工智能大模型代理的实现,可以极大减轻人类重复性的工作,极大提升单位个体的工作效率,甚至会由此诞生非常多的超级个体,这些个体成为独立的公司,公司只有一个人,借助AI完成以往需要10人左右规模的小型公司的工作任务。对很多工作领域带来巨大变革,例如:MCN(Multi-Channel Network,多频道网络)机构、课程培训机构和广告公司等。

智能,是AI大模型的终极目标。不论是多模态还是单模态的大模型,只需要人类给定一个目标,其余的都由大模型自己完成。这种模式比代理的模式更为智能,人类参与度更低或几乎没有。

这种完全智能的大模型产品,会为人类的生活、学习和工作带来质的飞跃。各种细分领域的智能产品会如雨后春笋般涌现。例如:个人助理产品的出行订票场景,只需要告诉大模型:“需要订上海到北京,下午3点火车商务座”,大模型便会根据要求,自动完成火车车次查询、订购以及支付。

综上所述,AI产品的进化标准,我们主要以AI在具体场景中的参与程度进行衡量。为了便于读者们理解,整理下表请大家参考。AI参与度是一个参考值,在不同的场景中,不同阶段的AI参与度会有所不同。

二、脑科学产品

脑科学产品其实在市面上已经存在多年。只不过大多数产品用于医院相关疾病的诊疗,而且产品使用复杂,体验不佳。

另外脑科学的设备也比较笨重。未来的脑科学产品应该是小型化,便捷化,随时随地方便使用,并且注重预防。

对于脑科学产品,目前比较通用且已经实现商业化的脑科学产品包括:

1)脑电图(EEG)仪器:用于测量大脑电活动,广泛应用于临床诊断、神经科学研究等领域。

2)功能性磁共振成像(fMRI)设备:通过检测血液中的氧气水平来观察大脑活动,可以用于研究认知功能、情绪调节等方面的问题。

目前也会有一些其他利用数字技术的脑科学相关产品,例如:

1)神经反馈技术:利用脑电信号来控制外部设备或游戏界面,可以帮助人们改善注意力、情绪调节等问题。

2)虚拟现实技术:通过模拟真实环境来训练和治疗神经系统疾病,例如帕金森病、抑郁症等。

3)脑机接口技术:将人脑与计算机或其他设备连接起来,可以实现更高效的信息传递和控制方式。

4)智能假肢:利用脑电信号控制机械手臂的运动,可以帮助残疾人士恢复一定的生活自理能力。

以上这些产品需要借助于外部硬件。我们希望可以利用非常便携的设备,例如我们常用的手机,就可以打造脑科学产品,提升大脑的机能,预防大脑相关病症的发生。

AI大模型技术的发展,使得这个设想成为现实。基于大模型技术,只需要手机一个载体,再配合相关的App应用,就可以打造一个脑科学相关的产品。

睡眠,是一个困扰很多人很多年的问题。睡眠质量的好与坏,关系到大脑的健康与否。睡眠质量的低下可能会导致非常多的健康问题,例如:

1)精神疲劳:睡眠不足或睡眠质量差会导致身体和大脑无法得到充分的休息,从而出现精神疲劳、注意力不集中、记忆力减退等问题。

2)情绪问题:睡眠不足或睡眠质量差还可能导致情绪问题,如焦虑、抑郁、易怒等。

3)免疫力下降:睡眠不足或睡眠质量差会影响免疫系统的正常运作,从而增加感染疾病的风险。

4)代谢问题:睡眠不足或睡眠质量差还可能导致代谢问题,如肥胖、糖尿病等。

5)心血管疾病:长期睡眠不足或睡眠质量差还会增加患心血管疾病的风险,如高血压、心脏病等。

因此,保持良好的睡眠质量对于身体健康和心理健康都非常重要。根据世界卫生组织的数据,全球有超过30%的人口存在睡眠障碍。具体数字可能因地区、年龄、性别等因素而有所不同。

例如,在发达国家,成年人中有20%至30%的人存在睡眠障碍;而在发展中国家,这一比例可能更高。此外,儿童和青少年也面临着睡眠障碍的问题,尤其是在城市化和数字化程度较高的地区。

助眠的方式有很多种,例如保持生活规律、创造一个舒适的睡眠环境、在睡前进行放松练习,如深呼吸、瑜伽、冥想等,也可以使用助眠工具,如使用香薰、按摩器、音乐等助眠工具。服用药物是非常不推荐的做法,也是没办法的办法。

音乐助眠是属于声波助眠的一种,利用手机就可以实现。除此之外,声波还可以是白噪声、自然声音、以及一定频率的声音。

1)白噪音:白噪音是一种均匀分布的噪声,可以掩盖其他声音,从而帮助人们入睡。可以使用专门的白噪音机或手机应用程序来播放白噪音。

2)自然声音:自然声音如海浪声、雨声、风声等也可以帮助人们放松身心,进入睡眠状态。可以使用专门的自然声音机或手机应用程序来播放这些声音。

3)频率音乐:频率音乐是一种利用特定频率的声音来调节身体和大脑状态的音乐。这种音乐通常包含低频、中频和高频的声音,可以帮助人们放松身心,进入睡眠状态。可以使用专门的频率音乐机或手机应用程序来播放这种音乐。

因为每个人的身体和大脑状态都不同,声波助眠并不是适用于所有人的方法。AI大模型的出现,可以通过对每个人的健康指标和日常活动进行分析,从而找出适合每个人的声波,从而实现声波助眠。

对于AI大模型而言,原本需要高额成本去做音频采集的事情 ,可以由计算机实时自动生成,且生成效率比传统人工采集效率会高很多。

我们知道,声波的发出依赖于物体震动的频率。人耳可以感知的声音频率范围大约在20Hz到20,000Hz之间。这个范围内的声音被称为可听声,超出这个范围的声波被称为超声波或次声波,人耳无法直接感知它们。

因此,我们可以基于20Hz到20,000Hz之间的频率生成适用于每个人的助眠声波。我们也可以从钢琴的音域范围生成助眠声波。例如:钢琴里C调“1”(“do”)的频率是262Hz,D调“1”(“do”)的频率是294Hz。

每个人听到不同频率的声波,反应会有所不同。实现中,有些人会对某些特别的声音过敏,有的人听到刮铁锅的声音感会觉到不舒服,有的人听到石头划水泥地的声音会感觉到不舒服。同样,也有人听到某些频率的声音,会感觉到非常舒适。

因此,AI大模型同脑科学的结合,可以在声波助眠这个细分方向发挥其特有的价值。

三、总结

综上所述,人工智能大模型与脑科学相结合,将会组合出非常多样的新产品。对于作者而言,其实偶尔也不能很快进入睡眠状态。因此,也比较需要一款可以非常便捷,没有副作用的科技助眠产品。

而声波助眠是一个非常不错的切入点。作者最近也在研发这样的一款产品,希望先从自己进行实验,如果自己使用起来有效,则这种基于AI大模型与脑科学相结合的产品,就可以适用其他人,但到依据每个人的大脑特质,定制化适用于每个人的助眠产品。

然而,这项技术非常有挑战。需要对音频原理有深入了解,也需要有极深的计算机算法与编程功底,同时还需要有音乐乐理知识。

作者相信,即使是充满挑战,困难重重,这项工作仍然是非常有价值的一件事情,如果研发成功,将会极大缓解人们的焦虑,增加幸福感,提升工作、学习效率。并且,还可以扩展应用于自闭症、抑郁症、阿尔兹海默症等大脑相关疾病的预防或康复。

下图是历史上的五轮康波周期,下一波的周期应该是AI大模型,甚至是超大模型的周期,AI与其他领域的结合,将会带来巨大的科技变革。

基于产品思维,做有价值有意义的事。目前这款产品已经进入到Demo自己测试和验证阶段,接下来会寻找种子用户,进行产品体验。

欢迎有音频、脑科学相关的朋友随时交流,合伙做一些有意义的事情 ,同时非常欢迎投资者与我联系,对我的这款AI大模型与脑科学相结合的助眠产品进行投资。

AI动漫视频工具1.0—探索全新内容创作设计理念与实现策略

aigc阅读(143)

一、项目背景

AI动漫视频是AIGC的热门赛道之一,目前市面上许多动漫领域核心玩家均布局或已启动AIGC动漫内容生产。我们希望为有意向进行AIGC领域创作的PUGC创作者提供便捷的渠道及工具,通过孵化一批独家的AIGC动漫原创作者,入局动漫创作行业核心圈,为平台供给大量差异化原创内容。

1. 行业洞察

通过对AI动漫视频行业进行深入调研洞察,我们发现其具有以下特点:

  • 随着小说推文行业规模扩大,代理机构及推文KOC达人账号迅速增长,AI动漫视频订单规模不断扩张。
  • 在小说推文用户群中,18-23岁的年轻人和女性用户居多,着眼于抖音小说推文指数,用户逐渐增加,且有逐渐“破圈”的趋势。
  • 目前小说推文KOC达人的用户画像,集中在女性学生和宝妈群体,表明女性达人对于小说内容的理解更为透彻。

2. 用户痛点

同时我们发现,目前用户使用AI动漫视频产品时的痛点主要集中在以下几个方面:

1)文本内容识别不准确

画面识别和文字匹配度不高,导致适配内容画面表现出现偏差,影响视频效果。‍

2)图像不受控制

不能保证同一人物在不同分镜下的妆造一致,同个人物的服饰、发型等会发生变化,影响画面内容的连贯性。‍

3)风格匹配度不高

AI动漫视频会存在较强的“机器感”,人物和场景风格未必和漫画风格匹配。‍

4)动态效果生硬

AI动漫视频终端交付内容动态不连贯,转场效果很像PPT。

3. 设计理念

基于此,我们对产品落地进行细致规划,将模型驱动AI动漫视频能力落地「度加」创作工具,跑通从文章识别到视频合成的完整流程,确保基础功能落地。从文本转化、画面控制、动态能力等多方面调优,对标高质量视频要求,持续打磨工作流,支撑生态向高质量内容转型。

1)优质视频内容促分发、提时长

我们持续打磨设计工作流,力求使自动生产质量达到动漫视频基线。

2)高效工具建立内容创作优势

设计创新提升工具控制范围和能力,保证辅助生产质量追齐专业动漫视频水平。

二、搭建视频生成流程

通过不断打磨优化,我们搭建了一套完整的视频生成流程:设置基础信息及视频参数→上传文本→角色/场景提炼(可重新生成至符合预期)→生成旁白及分镜(可进行编辑或重新生成至符合预期)→生成视频。

三、聚类定制化风格模型

1. 七大类别模型

选型为了使生成效果更加适配漫画内容,解决风格匹配度不高的问题,我们对市面上的热门漫画题材进行了分析,根据其内容进行了分类梳理。共梳理出七大类别:都市现代、武侠仙侠、奇幻魔幻、恐怖悬疑、科幻赛博、末日废土、儿童绘本。通过对类别内容的判断,选择能表现其内容特色的风格模型。

为增加模型的可选择性,每个类别下选择2套模型进行适配,同时增加通用模型,保证内容品质及风格效果的全方面覆盖。

2. 模型选型标准

1)内容准确

目前使用的底模均为基于Stable Diffusion 1.5底模训练出来的模型。通用模型和垂直模型的区别在于,通用模型需要具备比较广泛的通用的内容识别能力,尽可能覆盖热门题材。例如DarkSushiMix这个模型,在热门的都市和仙侠等题材中,均可以识别小说分镜描述的内容,生成符合预期的画面,可以作为通用模型使用。

2)风格契合

垂直模型更具有针对性,部分小说内容具有强烈的特色风格,在模型选择中,除了对于文本内容的识别,需要具备符合小说特色的风格效果。这时除了筛选适合的底模以外,还可以使用底模+LoRA模型的方式,一方面保证画面识别,另一方面满足风格需要。

在进行了大量评测组合后,我们选择出适合7大类别的模型搭配。例如在儿童绘本类别下,适配了童趣和国风两种风格。通用的底模虽然可以将画面内容呈现出来,但是风格上与儿童绘本差异较大,会导致观感上与小说本身产生差异,模型适配准确后,就可以生成符合预期的画面效果了。

3)画面美观

画面美观包含内容准确、风格契合、人物画面无崩坏等多个方面。内容准确与风格契合在上面进行了总结,关于人物画面的实现效果上,AI生图在尺寸较小的情况下会出现部分Bug,主要受到影响的是面部清晰度。

因此,我们选择使用Adetailer插件进行面部修复,保证人物的清晰美观。

四、多视角镜头控制画面

在工具初建阶段,重点采用Prompt控制镜头视角的多样性。我们测试了大量镜头视角描述词在不同模型及内容描述下的效果,总结出5个效果识别显著的词汇:Close-up(特写)、From below(仰视)、Top view(俯视)、Front view(正视角)、From side(侧视角)。

镜头视角描述词根据策略随机适配,避免连续出现相近视角的画面,确保画面构图的丰富度。

五、多尺寸及转场增强画面丰富度

1. 规范制定

我们制定了比例和尺寸两方面的规范。‍‍

  1. 比例设定:设定「16:9、9:16、4:3、3:4」4套生图比例,选择4个识别度高的字体匹配4套比例,满足用户对视频横板和竖版的不同要求。‍
  2. 生图及视频尺寸:为保证较快的生图速度,生图过程中,先使用较小的生图尺寸,再通过超分扩大图片保证画质清晰度,同时对画面在视频中的范围及尺寸进行规范。以16:9为例,在该比例下,生图尺寸若与视频尺寸一致,画面过长,AI生图会出现相对不可控的情况。经过多轮测试评估发现,将画面尺寸控制在4:3的范围内效果最佳,16:9的高清视频尺寸为1920×1080,所以画面的部分生图使用了684×512(4:3)的尺寸,再通过超分扩展为1440×1080(4:3)。

2. 运镜转场

为避免视频有类似PPT切换图片的感受,增加运镜和转场,运镜主要为上移、下移、放大,转场设计了下滑、右滑、位移、旋转等8个效果。

六、多音频选择提升临场感

1. 基础能力

我们使用度加TTS旁白与端内音乐进行合成,音色及背景音乐提供多个种类选择,音量、语速均可调整,保证音频与画面的最佳契合度。

2. AI音视频赋能内容生产

Meta正式开源了一款名为AudioCraft的AI音频和音乐生成工具,该工具可以直接从文本描述和参考音乐生成高质量的音频和音乐。AudioCraft包含MusicGen、AudioGen和EnCodec三个模型,分别实现音乐生成、音频生成和自定义音频模型构建。我们不断探索音频模型的内容供给,规划AI音效库建立模式,为素材供给扩展可能性。

下期预告

本篇内容主要为AI动漫视频工具的基础能力搭建,概述了我们在模型供给、画面控制、规范制定、音频合成等多个方面如何进行调优,以满足产品功能。

在未来的工具2.0迭代中,我们还将从文本转化、画面控制、动态生成能力等方面入手,全面提升视频品质。此外,我们还会通过对多项AI能力的探索,衍生短剧、预告片生成能力,打造AI生视频领域头部产品。大家敬请期待吧~

感谢阅读,以上内容均由百度MEUX团队原创设计,以及百度MEUX版权所有,转载请注明出处,违者必究,谢谢您的合作。

卷技术是美国大模型天命,卷价格是中国大模型宿命?

aigc阅读(70)

“卷”就一个字,大模型厂商们不会说一次,它们只会用行动表示。

但同样是卷,中美大模型似乎走上了两条路线。

今年5月是全球“AI信息大爆炸”月份,透过这些信息会发现——

美国那边在卷技术

  • OpenAI发布了迄今最像“人”的AI大模型GPT-4o;
  • 谷歌全线更新了Gemini,秀出了超强AI语音助手Astra,还有对标Open AI家GPT-4o、Sora的NotebookLM、Veo等产品;
  • 苹果推出了首颗AI芯片M4;
  • 微软发布了AI PC,更新了Copilot……

整体上,主打一个你追我赶、能力PK。

中国这边在卷价格

  • 5月11日,智谱AI把个人版GLM-3Turbo模型产品的调用价格从5元/百万tokens降至1元/百万tokens;
  • 5月15日,字节跳动旗下的火山引擎将豆包大模型API输入价格降至0.0008元/千tokens,把中国大模型市场价格卷入“厘时代”;
  • 5月21日,阿里云宣布将通义千问旗下9款核心模型悉数降价,其中通义千问GPT-4级核心模型Qwen-Long的API输入价格锐减至0.0005元/千Tokens,降幅高达97%;
  • 同日,百度也宣布,文心大模型两大主力模型ERNIE Speed、ERNIE Lite免费;
  • 5月22日,科大讯飞宣布,讯飞星火Lite API永久免费开放,讯飞星火Pro/Max API低至0.21元/万tokens。
  • 同日,腾讯云也宣布,主力模型之一混元-lite模型即日起全面免费。

看上去,“晋西北乱成了一锅粥”,成了价格战下的国产大模型竞争局面的写照。

知名投资人朱啸虎就看热闹不嫌事大地说:一下子都从卷scaling law 180 度转弯变成卷价格卷免费了,说好的AGI(通用人工智能)梦想呢?

大洋彼岸在拼技术能力,中国同行在拼产品价格,两相对照,确实很容易引发“硬科技PK软应用”二元对立思维的回炉。

但与其批国产大模型在价格上卷成了麻花,不如思考下这道考题:都是大模型,为什么卷技术成了美国大模型的天命,卷价格成了中国大模型的宿命?

01

需要厘清的是,不是只有美国大模型才卷技术,也不是只有中国大模型才卷价格。

卷技术不是美国大模型的“专利”。在从拼参数、拼性能、拼Agent到拼价格的过程中,国产大模型也曾在复杂指令理解、知识记忆、幻觉抵御等能力上摩拳擦掌。

5月9日,阿里云就发布了号称模型性能全面赶超GPT-4-Turbo、堪称“地表最强”中文大模型的通义千问2.5,通义千问1100亿参数开源模型也在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B成为开源领域最强大模型。

对大模型而言,技术能力是1,其他的都是0,没有技术支撑很难走远。

价格战这股风,也不是只吹到了国产大模型那里。硅谷AI群雄打起价格战来也不含糊。

在5月的新品发布会上,Open AI就宣布GPT-4o支持免费试用,调用API的价格也比GPT-4-turbo降低一半,5 美元/百万tokens,拿走拿走别客气。

作为Open AI头号对手的谷歌看完后,立马喊了声“跟”,秉持着“敌不动,我不动,敌若降,我也降”的态度,把当家王牌Gemini大模型系列的Gemini 1.5 Flash的价格降到了0.35美元/百万tokens。

眼看着两位带头大哥都降了,作为小弟的硅谷当红AI初创公司Anthropic和Mistral AI也跟着吆喝了起来:走过路过不要错过,API价格只要0.25美元/百万tokens了。

白热化竞争的倒逼,大模型推理成本下降的带动,大模型技术迭代曲线放缓的牵制,都是硅谷大模型厂商降价的原因。

但整体上,中国大模型厂商在软硬件一体推进势头方面没有像美国厂商那么猛,美国大模型厂商在降价力度上也没有像中国厂商这么狠。

​正因如此,很多人都担心国产大模型会陷入低层次竞争的内卷螺旋,跟Open AI、谷歌的技术代差会随之继续扩大。

诸如此类的担忧不是全无道理,希望国产大模型将技术力作为竞争主轨道也是正常心态,但不能由此逆推出中国大模型卷价格就是“窝里斗”的结论,更不必就此设置起中国大模型“只擅长内耗,不擅长创新”的稻草人议题来。

抛开理性不谈,中国大模型厂商“不是跟国外卷技术,而是在国内卷价格”,有些不够正确——它没考虑到“清场式遥遥领先”狂热者的感受。

但理性地看会发现,中国大模型厂商卷价格在所难免。它们未必不想赶超Open AI,是多重条件不允许;它们未必想卷价格,可它们首先得活下来。

对中国大模型厂商的卷价格,苛责不如试着去理解。

02

今年4月,工信部原部长苗圩在某论坛上说:在英伟达芯片几近断供后,中国跟美国的大模型算力差距逐渐拉大,所以和美国不要“打篮球赛”,要学会“下围棋”。

在其表达语境中,“打篮球”指的就是拼算力,那样免不了会被带着“满场乱跑”;“下围棋”指的是用好自身优势,加速大模型落地应用。

这说得很现实:受制于现实环境和发展阶段,中美大模型之间在技术上仍有不小的差距。

今年3月Sora刚问世时,华大基因CEO尹烨就曾感慨:据不完全统计,国内号称有大模型的公司已经有300多家,相信大部分还是“多小散乱”,面对ChatGPT在中文世界里(的表现),似乎尚能一战,但面对Sora的横空出世,可有一个能打的甚至是接近的吗?

说白了,技术沉淀、人才储备、融资环境上的差距是短期内难以抹平的,英伟达芯片断供更是不容忽略的掣肘因素。

这时候,缩短差距的正确打开方式,自然不是以己之短博人之长,跟Open AI们比算力。

不比依托于算力的技术能力,比什么?中国互联网过去20年的弯道超车经验已经给出了答案:比应用。

多年来,美国企业擅长从0到1式技术创新,强于“硬科技”,中国企业擅长从1到n式模式创新,强于“软应用”,美国互联网是技术创新带动应用创新,中国互联网是应用创新反推技术进步,几成业界共识。

正是因为应用侧抓住了超大市场内的丰富场景带来的机遇,才有中国互联网企业在移动互联网时代的蓬勃势头。也是因为利用场景优势对冲了“跟跑者困境”,中国互联网产业才有今天的繁荣景象。

近几年,在“卡脖子”之痛的影响下,不少人动辄将底层突破和应用创新对立,将二者分别对应上“星辰大海”和“萝卜青菜”,评价创新的多个维度、多元视角也经常被压减成单一标准,那就是“有没有造出光刻机来”。他们会将强调应用的模式创新置于硬科技的另一侧,看低模式创新的价值。

在此背景下,国产大模型“卷技术不足,卷价格有余”,俨然是有“原罪”的。

但中国大模型的发展,不能被这类杂音所困。国家信息中心专家张振翼之前就指出,美国在大模型发展中具备一定的领先优势,中国需要加强自身独特优势的探索。在他看来,中国发展大模型人工智能最大的优势,就是应用场景资源极为丰富。

03

而拼价格,就是拼应用的必经步骤。美团、滴滴、拼多多能成为超级应用,就离不开当年掀起的价格血战的“助攻”。

国产大模型大打价格战,也是这样:拼价格是表,拼应用是里。大模型厂商在价格上的“退”是为了寻求商业模式和用户增长上的“进”。不把价格打下来,就没法加速落地。

对阿里、腾讯、字节等巨头来说,开启降价模式背后都有一盘“以价换量”的棋:数据显示,国内AIGC用户渗透率目前只有6%。在习惯了免(白)费(嫖)的情况下,国内大量用户都是价格敏感型的。

降价经常是最有效的获客途径,没有之一。用的人越多,就越能压低均摊研发成本,越能降低推理成本。这样一来,没准能开启“降价让利-用户增多-规模效应明显-云业务增长-继续降价”的良性循环。

阿里云资深副总裁刘伟光曾说过,“AI推理的成本只有以每年10倍甚至百倍地下降,才能推动各行各业AI应用的爆发,预计未来大模型API的调用量会有成千上万倍增长。”而Open AI CEO山姆·奥特曼最近在接受采访时就说,他相信高质量AI智能的成本将变得非常低廉,最终趋近于零。

值得注意的是,这波降价降的多是API调用价格,相当于是用降价迂回“抢人”——抢的是开发者。对大模型厂商而言,只有吸引越多的开发者,才能缔造更繁荣的应用生态、催生更多的应用创新。

而丰富的大模型应用生态,是撬动“飞轮效应”的前置条件。应用生态越完善,使用场景越多,用户规模越大,生成的新数据会反过来反哺大模型性能提升。

只有更大的使用量,才能打磨出更好的模型。就此看,卷价格未尝不是另一种“卷scaling law”。

按照国内朴实无华的商战节奏,现在是降价或免费,将来直接给开发者补贴,也不是不可能。

可以预见,这波价格战会将“百模大战”导入市场出清加速的节奏,大模型领域的格局洗牌在所难免。

对用户而言,也许会梦回2014年,那时网约车补贴大战正酣,用户成了价格战直接受益者;对许多AI创业公司而言,这可能意味着至暗时刻的到来——价格战开启的是淘汰赛,中小厂商不像大厂那样有充足的资金弹药,随时可能因为没法“跟”而被踢出牌桌,朱啸虎就断言,不是深度绑定大厂的模型公司基本已经出局。

但这无关“自己人卷自己人”,只是市场竞争的本相而已。

整体上看,腰尾部被淘汰,市场加速向头部集中,对中国大模型长远发展未必是坏事:不要认为大模型领域的幂律分布就等于“资本无序扩张”,事实证明,在“国际竞争中大显身手”方面,只有大企业才有大的竞争力。

04

中国大模型卷价格在所难免,但卷价格通向的不一定是竞争力提升——大模型核心竞争力提升,有赖于“价格下调-规模扩大-成本降低-利润提升-研发加强-技术创新”正向增强回路的跑通。

用户固然会因为免费来尝鲜,但决定他们能否长期留存的,是大模型的实际业务价值,能否高效完成任务、解决用户痛点,而非价格。

很多体验过的用户都知道,当下的不少大模型都有着很强的“不确定性”——它经常会变成CheatGPT。若这只是大模型跟C端用户相互“调戏”,那无非是提供了些笑料,可大模型应用最终得沉到行业产业场景中去。

行业场景专业度要求高、边际容错率低,必须得靠技术能力切实减少“幻觉”、避免“诱导”。

而从大模型技术能力角度看,价格战往往会呈现出两面性来:1,行业洗牌后,用低价换来市占率提升的头部厂商能获得更丰厚的回报,也能在研发上投入更多;2,恶性竞争下,会抑制企业利润,那些长线性创新项目投入也会受影响,进而损害长远竞争力。这轮价格战到底会通向哪一面,也看大模型厂商们怎么选。

零一万物创始人兼 CEO李开复就说,国内常看到ofo式的“疯狂降价、双输”的打法,大模型公司不会这么不理智,因为技术还是最重要的,如果技术不行,纯粹靠贴钱、赔钱做生意是行不通的。

百川智能创始人王小川也表示,百川智能不会参与降价,“‘千团大战’、滴滴快的补贴大战,背后都带有网络效应,那种商业模式改变了生产关系,改变了司机和乘客之间、外卖员和用户之间的关系。这次‘价格战’并没有改变生产关系,而是直接做生产力供给,是B端(企业用户)市场的‘价格战’。”

要而言之,大模型技术能力提升才是硬道理,价格战换来的不该是在愈发落后的系统上开发应用,而应是“价格力-技术力”相互带动的正循环基础上的系统持续升级。

价格为锚、应用为先,也许能帮中国大模型完成局部赶超意义上的“弯道超车”。但局部之外的部分,只能靠技术创新去补齐。在这点上,没有捷径。

这不是说中国大模型厂商不该卷价格,而是说卷价格的进阶方向还得是卷技术——如果有些人非要怪中国大模型“就知道猛卷价格”,那一切责任在于拜登,谁让他摁下英伟达芯片断供按钮的?

AI提效实践:产品经理如何用GPT-4o的多模态能力提高工作效率?

aigc阅读(49)

前两周 OpenAI 发布了 GPT-4o,估计你们也看到各种新闻。有些人看完惊叹 AI 进化太快,有些人好奇怎么免费使用。

四月看完发布会,没有停留在惊叹,而是埋头使用 GPT-4o,研究产品经理如何利用它的新能力来提高工作效率。

结果,还真被我发现几个很实用的场景,赶紧记录分享下。

这次 GPT-4o 更新了多模态能力。所谓多模态,是指 AI 大模型能识别处理文字、语音、图片和视频。

如果你看过发布会,相信会被 GPT-4o 的语音识别和对话能力震撼到。可惜现在他们的 App 还没更新,我又无法安装 Mac 版 App,暂时无法体验,心塞。

除了语音,图片识别效果也很惊艳。亲测体验,能感受到 GPT-4o 确实比 GPT-4 强很多,尤其在识别中文方面。

举例来说,我每次让 GPT-4 识别图片里的中文,出错很多,而 GPT-4o,只是偶尔有几个字识别错,整体的准确率很高。

这回 GPT 终于有眼睛啦,加上它强大的大脑,可以做更多的事情。

用了 GPT-4o 两周,我发现产品经理在这几个场景可以借助它的多模态能力帮我们提高效率,效果非常好。

场景1:分析流程图,优化流程

ChatGPT 出来后,许多人都在讲用它来帮我们生成流程图。这当然是一种辅助方式。但如果想依赖 GPT 生成可用的流程图,显然不现实。

在我看来,画流程图的过程,是产品经理的核心工作之一:分析流程、表达需求。

流程图只是一个结果,核心在于你是否清楚这个流程是怎样的,应该如何优化。

窃以为,如果产品经理自己无法将流程图画出来,也很难将流程表达清楚,让 GPT 画出符合需求的流程图。反之,当你能描述清楚,让 GPT 完全按照需求画流程图,那你自己也可以画出来。

实际工作中,你接到需求,不可能让领导帮你画流程图吧。而是,按照你的理解,梳理流程,画出流程图,让领导审核。

现在 GPT 有眼睛了,我们可以反过来用,不指望 GPT 帮我们生成,而是让它帮我们分析流程,看哪里有问题,需要优化。这也更符合我们的实际工作场景。

你看,我给它发了一张泳道活动图,它能准确分析出里面包括用户、APP、管理后台、话费供应商这4个部分,连对应的位置都标出来。

除了识别文字,它连图中的箭头指向都识别很准确,给出的优化建议也非常到位。

比如,它发现这个流程有两步是可以合并的,减少用户操作;还提到后台可以做异步处理,减少前端等待时间。

这些都非常专业,可以帮产品经理,完善流程设计。

场景2:分析产品界面,优化产品设计

我们做产品时,经常讨论产品的功能设计,如后台要有哪些功能、怎么布局,甚至还会纠结一个按钮是放左边好,还是放右边好。遇到这种情况,现在可以找 GPT 来点评、给建议了。

你看,我给它上传一张某鹅通的 SaaS 后台界面,只用简单的提示词,GPT 1分钟内就给出了优点分析和改进建议。

另外,在产品设计中,设计师给你两个设计稿,让你选择,你会怎么选?有了 GPT ,做选择更理性、更容易了。

我给它上传了 Ant Design 原型框架两个不同版本设计风格的后台截图,让它来分析分析。

你看,依然是简单的提示词,它就可以从不同角度进行分析,还可以让它用打分的方式,帮我们列出对比,方便我们判断选择。

场景3:分析数据图表,发现规律或问题

之前,我分享过用 ChatGPT 做数据分析的方法,是直接把数据给 GPT。

有些时候,还是会担心泄露数据,或者已经数据图表了。这时仅仅用数据图表,GPT 也能给出很有用的洞察。

假设,老板看了数据报表,给你截了个图,问你为什么数据下降了,你慌不慌?是不是得赶紧找数据,排查问题。

如果你没思路,不妨拿数据图表,问问 GPT。

你看,我发了一个日活数据的折线图,它可以准确地看到哪里数据下降了,给出可能原因分析和行动建议。

这对数据分析经验不多的产品经理来说,简直是大神级的助理。

当然,我们可以根据它的建议,深入看数据,给它更多的图表,逐步定位问题。

后面,我又给了它日活的历史数据和各个渠道的日活数据趋势,它给出的建议也更加具体。

不得不说,现在 GPT-4o 的数据分析能力,比 GPT-4 强很多,可以帮我们做很多数据分析工作,非常方便,效果也非常好。

这个话题比较大,这次先不展开,如果大家有兴趣,不妨多点赞转发,告诉我,给我催催稿。

最后,做点总结

这次 GPT-4o 更新的多模态能力,让我们跟 AI 的交互方式,更像跟人的交互。

目前仅仅用它的图片识别能力,已经可以帮我们在流程分析、产品设计和数据分析这3大工作场景,大大提高工作效率。

未来,它的语音对话功能完全开放后,使用方式,就变成直接通过聊天实现了,会更加方便高效。

未来,已来!

AI大模型行业的618,走上价格战的老路

aigc阅读(58)

任谁都没有想到,2024年618的第一枪,居然不是由“猫狗拼抖”任意一家电商发起,取而代之的是大模型厂商。

半个月前,火山引擎先发制人,宣布豆包主力模型在企业市场定价为0.0008元/千tokens,较行业便宜99.3%。一周后,百度、阿里云、科大讯飞等主流国产大模型厂商,均宣布旗下主力模型全面免费。

自此,以免费为噱头的大模型价格战,就此形成了短期无法“回退”的多米诺骨牌。

如果回望历次互联网细分行业的增长历程,大多数时候都经历过增长期、补贴期的白嫖,以此换取市场规模和用户数量。待到产品生态成熟,捆绑了足够多以此为生的用户和产业链,再行提价以完成收割。到目前为止,大模型经历了第一年的出世与合规,正在进入以降价为主要特点的第二阶段。

唯一的区别是,目前大模型主要降价对象,仍然以企业级用户和应用层开发者为主。对个人用户而言,除了部分厂商的升级版服务需要订阅会员,仍然是处在完全免费的状态。换言之,对于大模型及其相关产品来说,真正想要覆盖的C端用户而言,商业化历程仍然没有真正开启。

对于大多数开发者而言,厂商之间价格战打的越欢,对他们而言产品开发成本也会越低。不过一旦对某个厂商形成依赖,一旦产品日后提价,这不仅意味着极高的退出成本,ROI(投入产出比)能否回正,都可能存在问题。

不管AI开发者愿不愿意,在互联网厂商主导的国内大模型行业,再次回到了十年前互联网式的商业逻辑,其商业化的决定权已经发生了转移——何时杀鸡,何时“取卵”,都不再由自己说了算。

01 AI大模型,开启618

当然,仅就模型调用成本打“骨折价”这一行为本身,是非常“互联网”的。

原因无他,所谓古典互联网精神,即在于打破信息的孤岛,实现其流动,和大多数时候的免费分享。

而在生成式AI逐渐大行其道的今日,面对这一近乎“政治正确”式的商业行为,只要有一家挑起战端,其他厂家没有选择避战自保的资格。

行行AI CEO李明顺告诉陆玖商业评论,战端一旦开启,互联网厂商之间的价格战,实际也是算力储备上的竞争,也因此,诸如阿里旗下的通义大模型,手握行业靠前的云资源和算力储备,自然有通过降价来快速抢占市场的动机。虽然百度等公司有被动应战的成分,但从综合实力来看,远远超过中小型创业公司,同样具备不小的竞争力。

所以我们能看到,第一家宣布降价的大模型厂商,不是时间最久的文心一言,也不是技术全面的通义,而是时间后发,声量并不算大的火山引擎旗下的豆包——低于同行99.3%的市场均价,足以让其他厂商“破防式降价”。而腾讯、科大讯飞则更为彻底,直接选择了非永久和永久的全面免费。

当然,从公共云行业的发展轨迹也能有所感知。随着平均算力成本随着用户数量和云服务器的规模化增加而变低,用云成本自然也会随之降低。更进一步,作为与算力成本直接挂钩的大模型调用成本,也会随着价格降低。

而在此过程中,国产大模型的能力也在不断演进——一旦到达可使用状态,即可开放给它的直接用户,以更低的价格。

不过,这种免费通常带有诸多限制。譬如阿里、百度降价幅度最高的产品都是其偏轻量化的模型版本,仅适用于使用频次不高、推理量不太大、任务处理量不太复杂的中小企业、开发者短期使用。

这也像极了电商618满减券的优惠套路——限制品类、限制时间段、限制用量。一旦“热爱白嫖”的中小开发者选择切换大模型,往往就进入了厂商们设定好的剧本之中。

02 “便宜的东西往往最贵”

正如著名作家茨威格的那句话:“命运中馈赠的礼物,往往在暗中标好了价格。”如果像当年打车、外卖那般一样,如果企业用户和个人应用开发者因为成本的缘故选择“无脑猛冲”免费大模型,那么最迟在几年之后,他们也会因为免费的选择而付出远超金钱成本的价格。

类似的行为其实早在去年就初显端倪,其中一个表现是,各个大模型厂商即通过各类开发者活动和比赛,力图将其网罗进自身的开发者生态。具体方式,则比较简单直接——送token。

个中原理也并不复杂。

对于个人开发者而言,大可将其开发产品的一部分剥离,作为参赛demo,在获得厂商赠送的token之后,即可进行几轮0成本的推理测试和产品调优。最终缩短创业产品的开发周期,并提高成功率——当然,前提是接入对应厂商的大模型及其生态。

如果从“免费式降价”的结果倒推,在公共云资源和算力资源的规模化效应下,厂商为之提供的token实际成本,是远低于外界想象的。而他们所获得的东西,远比付出的成本多得多。

其一,是在开发者无数次调用模型能力之后,间接为厂商的底层模型,提供了可供参考的调优思路和产品思路。换言之,厂商提供了燃料,开发者贡献了宝贵的想法。

其二,一旦创业产品上线及规模化,在很大程度上,意味着与初期使用的底层大模型生态捆绑,其后的产品形态,也将与底层模型深度耦合。这也导致了后期极高的转换成本和潜在的运营成本。

此外,如今企业用户选择某家厂商的大模型,也远远不止单纯的模型生态,背后互联网厂商更深层次的行业属性和产业链优势,也是考虑因素。

譬如游戏厂商选择腾讯大模型,其游戏产品在腾讯渠道中会不会得到优先推荐?快消厂商启用豆包,是否会在抖音电商投流中获得优势?一个可以确定的答案是,如果用了,会不会因此受益是未知。一旦切换其他行业厂商的大模型,失去这种受益的可能性则是确定无疑的。

李明顺还向陆玖商业评论透露,由于每个大模型厂商的基因都不尽相同,但在价格战的残酷“洗盘”之下,最终脱颖而出的幸存者也不会太多。而基于行业属性的分布,在价格战尘埃落定之后,不同类型的互联网厂商,最终会在不同的方向占据C位,C端、B端、G端都是有一定可能的。

03 重走互联网补贴大战的老路

从移动互联网时代开启至今,无论是电商、出行,抑或是本地生活,多数都难离开项目融资上线——大规模宣发——补贴大战——进入平台垄断期——收割变现几个阶段。

而在国内大模型行业兴起的短短两年,已经走完了上述流程的五分之三。而对于国内开发者规模的争夺结果,很大程度上也能最终确定大模型厂商的版图,和势力范围。

一家AI创业产品架构师告诉陆玖商业评论,目前大模型降价浪潮,主要吸引的是中小企业开发者,这部分团队切换大模型的成本较低,通常只需要写对应的API接口程序即可。

当然,价格的“骨折”可以吸引大量的白嫖患者前来“就诊”,因为他们不缺想法和能力,只是缺乏必要的启动成本和算力资源。

但对于规模更大的企业级用户则不然。首先,针对不同业务的合规性需求,譬如银行类、出行类等用户数据敏感型公司,其模型安全需求通常较高。也因此,他们使用的大模型通常是模型厂商的深度定制版本。这代表着为数不少的开发团队和运维团队,自然也意味着极高的切换成本。只有在一些非核心的边缘业务,会使用非自研的大模型,用以探索新产品及新模式。

即便如此,对于这类成规模的开发者用户而言,对于大模型的核心需求,远非价格这么简单,更重要的在于生成效果和运行过程中的稳定性。

原因也很简单,这些底层模型虽然直接使用者是B端的企业级用户及开发者,选用模型的决策因素可以是价格,但这些用户的产品大多数最终会面向C端市场。

而C端用户使用AI产品的唯一驱动力,则是生成效果,也就是通常意义上的“好用”,而在用户的反向“PUA”下,企业也会偏向这一个标准。

在团队运维成本,和模型切换成本的双重压力下,价格并不会成为其切换模型的唯一要素。单纯因为价格而贸然切换模型生态,反而会付出比价格更沉重的代价。

解锁AI对话的秘诀:如何写好提示词,获得你想要的回答

aigc阅读(115)

在数字时代,AI技术的迅猛发展已经深入到我们的日常生活中。无论是智能助手、聊天机器人,还是各种自动化服务,AI都在扮演着重要角色。然而,如何让AI更好地理解并回答我们的提问,提示词的编写至关重要

本文将带你深入探讨AI提示词写作的技巧,让你轻松获得理想的回答。

一、AI对话的原理

要写好提示词,首先要理解AI生成文本的基本原理。这部分内容看似复杂,但其实深入浅出地理解后,就能掌握与AI对话的诀窍。

AI生成文本依赖于语言模型,这些模型通过大量的文本数据进行训练,学习语言的结构和模式。常见的AI语言模型如GPT(Generative Pre-trained Transformer),它通过对海量数据的分析,学会了如何在不同语境下生成连贯和有意义的文本。

AI并不像人类那样拥有自主的常识和生活经验,它依赖于提示词提供的上下文信息。这意味着,提示词越清晰、越具体,AI越能理解你的意图

当用户输入提示词后,AI会通过以下步骤生成回答:

  1. 解析提示词:AI首先会解析输入的提示词,提取关键词和语境。
  2. 检索知识库:根据解析结果,从训练数据中检索相关信息。
  3. 生成文本:结合上下文和检索到的信息,生成连贯的回答。

每一步都依赖于提示词的质量。如果提示词模糊或缺乏具体性,AI的解析和检索过程就会受到影响,最终生成的回答也可能不尽如人意。

二、提示词的概念和分类

提示词是用户向AI输入的指令或问题,用来引导AI生成相应的回答。提示词可以分为系统提示用户提示两大类。理解这两者的区别有助于更有效地引导AI生成所需的回答。

系统提示:AI模型内部使用的提示,通常用于指导模型如何执行特定任务。这些提示通常由AI开发者或工程师预先设计,用来规范和优化AI的工作方式。特点如下:

  • 预定义:系统提示通常在模型训练或部署时就已经设定好,用户无法直接修改。
  • 广泛适用:这些提示适用于多种任务,帮助AI在不同场景下保持一致的表现。
  • 行为规范:系统提示可以设定AI的语气、风格和具体行为规范,确保输出的稳定性和质量。

比如说:

  1. 指示模型如何回答问题:”在回答用户问题时,请保持专业和礼貌的语气,并提供尽可能详细的信息。”
  2. 设定输出格式: “生成的回答应包含以下结构:引言、主要内容和总结。”

这种系统提示可以确保AI在不同用户交互中保持一致的语气和结构,提升用户体验
用户提示:由终端用户输入的具体指令或问题,用来引导AI生成特定的回答。用户提示的灵活性和多样性,使得它们能够针对具体需求进行定制。特点如下:

  • 灵活多变:用户可以根据具体需求和场景随时修改提示词。
  • 具体性强:用户提示通常针对特定问题或任务,提供详细的背景信息和要求。
  • 直接交互:用户提示是用户与AI互动的直接方式,决定了AI生成内容的具体方向和质量。

比如说:

  • 询问具体信息:”你能详细介绍一下人工智能在医疗领域的应用吗?”
  • 要求特定格式:”请用500字解释气候变化的原因、影响和应对措施。”

通过用户提示,用户可以精准地控制AI的输出,使其更符合个人需求和特定情境

三、提示词的原则

一个好的提示词能够:明确AI的任务、提供必要的背景信息、限定回答的范围和深度。
好的提示词应遵循以下原则:

  • 明确性:提示词应清晰明确,避免模糊不清的问题。
  • 简洁性:尽量保持提示词简洁明了,避免过于复杂的句子结构。
  • 具体性:提供具体的背景信息和期望的回答方向,减少歧义。
  • 连贯性:在多轮对话中,提示词应保持前后一致,确保对话连贯性。

四、提示词框架推荐

了解了好的提示词原则后,我们来看看一些常用的提示词框架。这些框架不仅能帮助我们更好地组织和表达需求,还能大大提高AI生成的内容质量。

1. ICIO 框架

ICIO框架指的是:Instruction(指令)+Context(背景信息)+Input Data(输入数据)+Output Indicator(输出引导)

  • Instruction(指令):框架的核心,用于明确AI需执行的任务。编写指令时,应简明扼要,确保AI可准确把握任务目标及要求。
  • Context(背景信息):包括任务背景、目的、受众、范围、扮演角色等等,有助于AI理解任务并生成响应。
  • Input Data(输入数据):告知模型需要处理的数据,非必需,若任务无需特定的输入数据,则可省略。
  • Output Indicator(输出引导):告知模型输出结果的类型或风格等,如指定所需语气(正式、随意、信息性、说服性等)、定义格式或结构(如论文、要点、大纲、对话)、指定约束条件(如字数或字符数限制)、要求包含引用或来源以支持信息等。

2. CO-STAR框架

CO-STAR框架指的是:Context(上下文)、Objective(目标)、Style(风格)、Tone(语气)、Audience(受众)、Response(回复)

  • Context(上下文):提供任务的上下文信息,有助于LLM了解正在讨论的具体情景,确保其答复具有相关性。
  • Objective(目标):明确你希望LLM执行的任务是什么,有助于LLM把回答的重点放在实现这一具体目标上。
  • Style(风格):表明你希望LLM使用的写作风格,可以是鲁迅、余华等某个名人的写作风格,也可以是某个行业的某个专家,如商业分析专家或首席执行官。
  • Tone(语气):确定回复的态度,可确保LLM的回复与所需的情感或情绪背景符合,如正式的、幽默的、具有说服力的等。
  • Audience(受众):确定回复的对象,根据受众(如初学者、儿童等)量身定制LLM的回复,确保其在所需的语境中是恰当的、可以理解的。
  • Response(回复):明确回复格式,确保LLM按照下游任务所需的准确格式输出。例如,列表、JSON、专业报告等。

3. CRISPE框架

CRISPE框架指的是Capacity(能力)、Role(角色)、Insight(见解)、Statement(声明)、Personality(个性)和Experiment(实验)

  • Capacity and Role(能力和角色):指示 LLM 应扮演什么角色,具备什么能力。
  • Insight(见解):提供你请求的背后见解、背景和上下文。
  • Statement(声明 ):你要求 LLM 做什么。
  • Personality(个性):你希望 LLM 以何种风格、个性或方式回应。
  • Experiment(实验):请求 LLM 为你回复多个示例。

五、提示词实操技巧

那么,我们在实操过程中,有哪些技巧可以帮助我们获得AI更好的回答呢?一起往下看~

1. 结构化提示词

提示词的结构完整性极大地影响模型回答的质量。一个结构化的提示词应包括以下要素:角色、背景、目标、技能、约束、工作流、输出要求、示例和初始化等。参考前述的框架(如ICIO、CO-STAR、CRISPE),可以确保提示词覆盖所有必要的信息。

2. 加分隔符

在提示词中合理添加分隔符(如“`),可以准确区分指令和待处理的内容,避免模型解读提示词时出现困扰。

3. 提供示例

通过例子可以帮助AI更好地理解用户的意图,避免歧义,以更精确地控制模型的输出。

4. 根据回答不断调整要求

在AI生成初步结果后,可以根据需要进行调整和优化。通过反馈引导和规范模型的输出,以更好地符合预期。

5. 分步骤提示

指导模型一步步输出信息,确保模型与你的意图匹配。分步骤提示可以使复杂任务更易于管理

6. 检查用户输入信息完整性

在提示词中设定必须给出的一些关键信息,如果用户没有提供,模型可以主动询问补充完整

7. 让AI帮你优化提示词

可以请求AI帮助我们优化提示词,使其更简洁和有效。kimi+有提示词专家助手,coze也有自动优化提示词的功能。

通过这些实操技巧,你可以大大提升与AI模型互动的效果,生成更精准和符合需求的内容。每个技巧都有其独特的应用场景,结合实际案例进行操作,会让提示词更加有针对性和实用性。

AGI渐行渐近,该加速还是要踩刹车?

aigc阅读(67)

马斯克在今年早些时候预测,AGI可能会在2026年投入使用。DeepMind联合创始人、首席AGI科学家Shane Legg在一次访谈中认为,2028年,人类有50%的概率开发出第一个AGI。然而百度CEO李彦宏的观点则更加审慎,他认为AGI还需要10年以上的时间才能出现。

自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。去年上半年,有主流研究者提出,大语言模型已经表现出“通用人工智能的火花”(sparks of AGI)。

这似乎表明,AGI已经从哲学猜想变成了将来的未来。然而,关于AGI的观点众说纷纭,大语言模型也常有愚蠢行为出现,这些都引发了对AGI的质疑。

在此背景下,我们离实现真正的AGI还有多远?如何预防AGI带来的潜在风险?

01 AGI,未到的黎明

从性能强度和通用性两个维度,可以将人类和AI的关系划分为6个阶段:无AI、智能涌现、胜任、专家、大师、超人类。而现在大语言模型的出现,正属于第一个AGI的阶段:AGI雏形。

AGI(Artificial General Intelligence),即通用人工智能,其目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务,并以人类的智力水平执行完成。基本上,除了“自我意识”的生成,AGI就是人类对人工智能的终极梦想了。

AGI是要让智能体像人一样,不仅能够独立感知环境、进行思考、作出决策、学习新技能、执行任务,还能够与人类或其他智能体进行有效的协作。同时,智能体能够理解人类的情感,并且遵循社会伦理和道德规范。

一个完整的AGI需要具备三个基本特征:

第一,必须能完成无限的任务,而不是只能完成人定义的有限几个任务。

第二,要在场景中自主发现任务,这是通常所说的要做到“眼里有活儿”。

第三,要有自主的价值来驱动,而不是被动的被数据所驱动。

同时,AGI还需要解决一些关键的技术问题,比如构建智能体的认知架构,让智能体由价值驱动,在现实世界中进行有效的行动,能够与社会环境进行互动,使智能体决策过程透明可解释,以及建立和人类之间的信任关系等。

以OpenAI的ChatGPT、谷歌Bard、Meta的Llama为代表的大模型,已经在通用性上展示出了AGI的潜力。因为大语言模型已经能完成范围相当广的各类任务,而且表现出了像学习新技能这样的“元认知”能力。

相比大模型的“鹦鹉范式”,AGI是以“小数据,大任务”为架构的“乌鸦范式”,智能体表现为具有自主的智能,能够自主感知、认知、推理、学习和执行,不依赖于大数据,基于无标注数据进行无监督学习,并且智能系统低功耗。就像乌鸦喝水这一行为,看似简单,却属于自主推理行为,是由价值与因果驱动的高级智能,也是AI的未来发展趋势。

如果单从AI的性能维度上看,“窄AI(Narrow AI)”类型的AI已经达到了完全超越人类认知的水平。以AlphaFold、AlphaZero为代表的专业领域AI,在特定领域已经能发现人类智力无法发现的新事物了,此类被成为“超人类窄AI”。

而在某些领域,AI能达到90%的人类水平,比如文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI,这被称为“专家级窄AI”。在特定领域,能达到普通人的平均水平,比如Siri,谷助手这类普通智能助理,其被称为“普通窄AI”。

所谓“窄AI”,是指那些特别擅长处理单一任务或者特定范围内工作的系统。在大多数情况下,它们在特定领域中的表现远优于人类。不过一旦它们遇到的问题超过了适用空间,效果则急转直下。换言之,它们无法将自己掌握的知识从一个领域转移到另一个领域。

尽管窄AI无法全面执行需要人类智能的任务,但在特定场景中仍然非常实用,而且已经在诸多应用之内发挥着自己的作用。谷歌搜索查询现在可以利用窄AI算法回答问题,窄AI系统会在YouTube及Netflix中推荐用户可能感兴趣的视频,并在Spotify中按喜好整理出周推音乐列表。

而在窄AI已经覆盖的能力维度上,AGI都还没有出现对应的实例,因为目前还没有出现真正意义上的AGI,对于AGI的定义,人类也还没有达到统一的认知。

02 谁会是AGI的起点?

从信息时代走向智能时代,“语言”成为那把开启全新时代的钥匙。著名的作家兼哲学家路德维希·维特根斯坦在其《逻辑哲学论》一书中提到:“我的语言的界限,意味着我的世界的界限。”

对人类而言,承载世界的知识、思考、沟通和文化靠的是语言。语言本身的发明代表着每多一个词汇就让世界多了一个认知维度,词汇之间建立的逻辑关系和表达代表了人类对世界完整的建模。这个模型不是在图像里面,而是通过语言进行承载,所以语言边界就是世界边界。AI核心就是把现实世界的现象翻译成为数学模型,通过语言让机器充分理解现实世界和数据的关系。

如今,人们已经走出了原来物理学靠一个公式解释世界的方法,更多是靠海量数据在不同层次单独建模,上层建模就是由大量的数据驱动。语言模型如此,生命建模也是如此,2021年最伟大的成就就是DeepMind的AlphaFord系统,针对基因到蛋白质的三维结构建模,通过这个模型预测基因被转录或者表达为蛋白质以后拥有的形态,也是全世界轰动的生命领域的突破,靠的也是数据和AI的驱动。

虽然大模型已经取得了一些惊人的进展,但如果比较AGI的三个特征,就会发现大模型还不符合AGI的要求。

首先,大模型在处理任务方面的能力有限,它们只能处理文本领域的任务,无法与物理和社会环境进行互动。这意味着像ChatGPT这样的模型不能真正“理解”语言的含义,因为它们没有身体来体验物理空间。

其次,大模型也不是自主的,它们需要人类来具体定义好每一个任务,就像一只“鹦鹉”,只能模仿被训练过的话语。真正自主的智能应该类似于“乌鸦智能”,能够自主完成比现如今AI更加智能的任务,当下的AI系统还不具备这种潜能。

第三,虽然ChatGPT已经在不同的文本数据语料库上进行了大规模训练,包括隐含人类价值观的文本,但它并不具备理解人类价值或与人类价值保持一致的能力,即缺乏所谓的道德指南针。

但这并不妨碍科技巨头对于大模型的推崇。OpenAI、谷歌在内的科技巨头,都将大模型视为迈向AGI的关键一步。OpenAI CEO Sam Altman就曾多次表示,GPT模型是朝着AGI方向发展的重要突破。

不过,Meta人工智能首席科学家杨立昆(Yann LeCun)认为,目前的大模型路线无法通往AGI,且非常危险。

他指出,现有的大模型尽管在自然语言处理、对话交互、文本创作等领域表现出色,但其仍只是一种“统计建模”技术,通过学习数据中的统计规律来完成相关任务,本质上并非具备真正的“理解”和“推理”能力。

他认为,“世界模型”更接近真正的智能,而非只学习数据的统计特征。以人类的学习过程为例,孩童在成长过程中,更多是通过观察、交互和实践来认知这个世界,而非被单纯“注入”知识。而LeCun的“世界模型”路线,则是试图通过对视频、音频等媒体的模拟与补全,让AI也经历这样一个自主学习的过程。

他也承认,实现“世界模型”并非易事,这一雄心勃勃的目标可能需要耗时10年才能实现。

03 将风险控制在可控范围内

对于AGI所带来的风险,图灵是最早提出警告的人之一。他在1951年说道:“一旦机器开始思考,很快就能超越我们。因此,在某个时候,我们应该期望机器能够被掌控。”因为当一个比人类更强大的智能体出现时,人类很难维持权力,特别是当这些智能体具有不正确或不完整的目标时。

如果还有人认为现在考虑这些风险是危言耸听,那么如何回答这样一个问题:你如何在比人类更强大的智能体面前永远保持权力?此外,在AI领域,还有一些人试图回避这个问题,否认AGI的可实现性,却没有提供任何证据。

OpenAI CEO Sam Altman在其文章《Planning for AGI and Beyond》里,探讨了AGI对社会、技术和伦理的潜在影响,并强调了慎重规划和负责任的发展的必要性。

文章指出,通过增加资源丰富度、推动全球经济增长,以及助力新科学知识的发现,AGI有潜力极大地提升人类生活质量。这不仅是智力的巨大增幅,更是对人类创造力和想象力的极大扩展。

然而,AGI的出现也可能带来严重的滥用风险、意外极端事件的可能以及对社会结构的剧烈动荡。因此,OpenAI提倡在发展AGI时,AGI开发者以及全社会都必须找到正确的方法来实现和利用这一技术,确保其与人类核心价值观保持一致,并公平地分享其带来的好处。

此外,OpenAI认为,从长远来看,AGI的出现仅仅是智力发展的一个节点,而AI的进步可能会在未来相当长一段时间内继续保持。OpenAI提出了一个安全的AGI发展愿景,即在较短时间内以较慢的速度过渡到AGI,以便社会有时间适应和调整。

尽管未来不可预知,但OpenAI表达了他们最关心的几个原则:希望AGI能最大限度地促进人类在宇宙中的繁荣;希望AGI带来的好处、访问权和治理能够被广泛且公平地分享,并成功应对巨大风险。

为此,OpenAI倡导在短期内进行渐进式过渡、继续创造越来越符合目标的模型,并在长期进行全球范围的对话,讨论如何治理这些系统、如何公平分配它们产生的好处,以及如何公平分享访问权。在极高的风险和回报下,人类需要团结起来,让AGI在未来世界以一种对人类最有益的方式绽放。

对于如何预防AGI给人类带来威胁,可以逐步放开AGI的能力空间和价值空间,一开始把它关在“笼子”里,慢慢打开权限。

对于AGI,可以先其适用场合和行动空间限制在特定区域内,随着人们对机器的信任的增加,确认AGI安全可控后,再逐步给予更大的空间。另外,应该进一步促进算法决策过程的透明度。如果能够清晰了解AGI的认知架构,从而知道其是如何工作的,就能更好地控制它。

人类对于AGI的探索和思考才刚刚开始,我们还有很长的路要走。AGI的进步不仅代表了技术创新,更是对未来人机交互方式的重新想象。随着我们逐步走向AGI未知领域,稳健和有序的发展显得更加重要,我们必须高度警醒AGI所带来的问题,并充分重视AGI所创造的机会。两千多年前,苏格拉底说“认识你自己”,今天在AGI技术发展的倒逼下,人类需要“重新认识你自己”。

国产AI大模型猛打价格战,但从业者表示没什么用,纯噱头

aigc阅读(79)

这个 5 月,国内大厂的大模型也开始争 “ 地板价 ” 了。

5 月 15 日,字节跳动的豆包大模型发布,定价 0.0008 元/千Tokens。

21 日,阿里通义千问 GPT-4 级主力模型 Qween-Long 降价 97%,API 输入价格从 0.02 元/千Tokens 降至 0.0005 元/千Tokens,每千 Tokens 比豆包便宜 0.3 厘。

同天,百度的文心大模型中的两大主力模型 ERNIE Speed 和 ERNIE Lite 直接宣布免费。

22 日,腾讯也跟进了降价风潮,旗下数款大模型降价 50%-87.5% 不等,有三款大模型直接免费。

似乎,中文互联网世界的任何事物都要经历一波价格主导的 “ 百团大战 ”。

国产大模型价格普降,理论上并不意外,毕竟要全面铺开市场,利用冗余产能,低价和免费是最直接有效的方式。

但同时,在行业人士看来,降价这件事经不起细琢磨,无论是长远效益,还是眼下国产大模型的技术水平,这场价格战来得都比较急,而且有点不痛不痒。

AI 世界瞬息万变,或许再过一段时间,这场价格风波会迭代成新的战斗方式,几分几厘的争执并不重要。不过,在这个也许会转瞬而逝的风波面前,我们试图稍作停顿,找寻国产大模型降价背后的原因,以及这场风波有可能的后续。

01 国产AI大促销,一家更比一家低

截至目前,参与到 “ 价格战 ” 中的大厂有字节跳动、阿里、百度、腾讯。

5 月 15 日,字节跳动正式发布旗下豆包大模型,在发布会上重点强调了豆包的价格优势。那天,豆包在这几家大厂里还是最便宜的,在国内整体大模型厂商中也几乎是最低价,豆包主力模型在企业市场的定价只有 0.0008元/千Tokens,比行业便宜 99.3% 。

一周后,阿里和百度在同天跟进降价。通义千问 GPT-4 级主力模型降价 97%,差不多打了一折,API 输入价格从 0.02 元/千Tokens 降至 0.0005元/千Tokens,比豆包还便宜 0.3 厘。另一边,百度文心大模型的两大主力模型 ERNIE Speed 和 ERNIE Lite 干脆直接宣布免费。

次日,腾讯混元大模型也来了一波价格普降,除混元-pro 的输出价格仍保持在 0.1 元/千Tokens 之外,其他大模型的价格都降了 50%-87.5% 不等。调价前,最贵的是 0.12 元/千Tokens 的混元-standard-256k 大模型,而这次降价最多的也是它,输入价格调至 0.015元/千Ttokens,输出价格 0.06 元/千Tokens,降幅分别为 87.5% 和 50% 。在腾讯云降价的同一天,科大讯飞旗下大模型讯飞星火 API 能力也正式免费开放。

如今,国产大模型已经进入了以毫厘论价甚至免费的时代。

客观来说,大模型降价是一直以来的趋势。

去年以来,OpenAI 就进行了多次降价,5 月 13 日新发布的 GPT-4o,面向 ChatGPT 的所有付费和免费用户发布,取消其他所有限制,API 价格从 0.1 元/千Tokens 降至 0.035 元/千Tokens( 价格单位经过换算以便与国产厂商对齐 )。

几位行业人士对知危表示,降价这件事不算大,也不算稀奇。现在价格被打下来的主要是文字生成这块的大模型,行业其实还没有做到把别的模态也打下来。而经历过去一年多的技术迭代,文字生成效果比较好的模型现阶段已经可以跑到端侧了,端测运行客观来讲就是免费的。” 心光 App 联合开发者王禹效对知危说。

他补充,降价这件事本身可能也有很多没直接说的东西。“ 比如 OpenAI 有两种报价,一种报价对应的服务响应比较快,另一种报价响应慢一些,也就是他们把服务器的剩余资源拿来给你用。一般来说,大模型厂商不太可能把最好的模型拿来做免费,你会发现真正的好东西还是很贵,因为好的模型的算力成本也确实高。

国产大模型在这个 5 月纷纷拿出价格诚意,一方面是大势所趋,连技术水平更高的大模型都没那么贵,上述企业自然也希望通过降价获得更多市场。

另一方面,来自于大模型自身的迭代。王禹效说,从技术角度来看,最开始大模型需要疯狂堆料,但后来再做优化的时候会发现,其实不用堆太大的参数,可以通过知识蒸馏降低计算资源和模型大小,那之前的模型成本就能降到之前的十分之一,还能保证差不多的效果,降价也就顺理成章了。

02 噱头大于实际的一次价格战

在豆包大模型发布会上,火山引擎负责人谭待表示,大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。而且,如今基座大模型已经进入了稳定迭代的阶段,在模型训练和推理使用上,都还有长足的优化空间,成本下降得很快。

字节的解释,透露出两个信息。一是模型结构完成了优化调整,算力效率提升了,这是降价的底气。二是通过降价拉高市场使用量,反过来对大模型的继续迭代也是好事。

理论上讲,这是一个完美的答案。不过,如果再仔细推敲起这个逻辑,很多现实结果还有待验证。

首先,从商业模式上说根基不稳。AI 应用创业者谷林( 化名 )对知危表示,以价换量占领市场,这个逻辑看起来是对的也是常见做法,但这一策略需依赖于能够实现规模效应的商业模式,大模型 API 却并不是:

“ 大模型面向 B 端用户,也就是开发者,要切换 API 的话,不存在切换门槛和壁垒。”

大模型的成本分有模型训练、商业服务、API 服务这三类。

单说训练成本,就需要昂贵的投入,包括优质工程师、标注过的高质量数据以及各领域科学家对模型进行调优,这些成本都十分高昂。此外,API 使用模型进行推理的运算成本,涉及显著的电力和硬件消耗。

谷林表示,“ 正常的商业模式,就算没有利润,也要考虑到卡的成本和电力成本的,如果 toB 要持续提供好的服务,一定是要有利润的。现在厂商给出每百万 Tokens 几块钱几毛钱的价格,电价可能都不够,更别提卡了,那肯定要靠企业从其他业务的利润上拿来做补贴。”

就像消费互联网常见的 “ 百团大战 ” 一样,在 AI 大模型领域,先挑起价格敏感的,也是大厂。无论算力效率如何提升,成本如何比以前降低,AI 大模型毕竟没有到一个全行业形成价格标准的时代,现在去无限压低价格,还是比较具有煽动性的事情。

不过,如此降价能不能长期持续也不好定论。

如果是传统的 “ 价格战 ”,卖的是一次性或标准化的服务,那确实谁便宜谁占领市场。但 AI 大模型不一样,毕竟 toB 的技术企业还是要不断做研发创新的,现在的低价买到现在的技术,日后开发者必然也需要更好更与时俱进的技术支持,到那时还可以用现在的价格去买吗?

还有一个值得注意的点,大厂尚有充裕的算力资源可以拿出来做低价,“ 反而是现在正在烧钱跑的模型侧的一些公司,包括跑开源的公司,他们压力比较大,因为模型研发还是挺贵的,是一个比较重资产的游戏。” 王禹效表示。

在行业人士看来,国内这批大模型理论上是要比 OpenAI 等海外厂商的大模型差上 2-3 代,要补齐差距可能也要半年到一年的时间。

也就是说,现在这拨低价,是用旧的模型去促销,抢存量市场,压力还在后头。

所以,这可能不是一场 “ 价格战 ”,而是赔本赚吆喝。

03 价格不是当下最需要卷的

价格降了,无疑会带来不少正向的影响。

能帮助到现有应用的开发团队,为其提供很多选择,可以把免费或超低价的模型都拿来试试。同时也能带来新的创业机会,在几乎不需要考虑这方面成本的情况下,一些好的想法更容易落地。无论如何,大模型通过低价一定会收获使用量上的暴增。

因为大模型便宜了,所以选择用用看,这个逻辑是成立的。但是,要不要继续用下去,或者长期选择哪个大模型,却不是以价格为导向的。

王禹效解释,在国内这批大模型宣布降价之前,一个创业者如果真想做点什么,那几乎每家大模型厂商都会给出很高的免费额度。“ 比如 GPT 一开始给的是将近 2 万人民币的免费额度,大家都可以申请。”

对于真的有想法想做 AI 创业的人来说,价格不是最核心的痛点,只能说低价或 0 元购吸引他们过来创业了,但继续做下去的话,不会有人因为这款模型便宜就一直用,还是要筛选技术更好,更符合自己应用开发需求的模型。

“ 对开发者而言,免费可以毫无顾忌地使用到更多场景下进行推理,使用更长的 Context 提升推理的精确度和内容的多样性。但在认真做产品的团队,在技术选型上,还是首先考虑多模态的支持和内容质量,而不仅仅是基于成本考虑。最终一定是回归到大模型厂商的技术和服务上来,这才是壁垒,价格不是壁垒。” 谷林坦言。

不仅是开发,在应用运营的实际情况中,价格也不敏感。

王禹效举例,“ 前两天我们 App 的技术同事还问我,要不要搭一套新架构,这样随时可以在后台切换任何模型,都可以试试,还不会影响到业务。我觉得这个事情不着急,因为在应用侧的实际情况中,用户是不在乎你用了什么模型的,用户只在乎你的场景。所以,对于开发者来说,今天这个模型好,明天那个模型差,谁便宜了几毫厘,谁免费了,都没太大意义,你只要把用户最关心的某个场景的问题解决了就好。”

更何况,一款 AI 产品会用到不止一个模型,价格高的模型、价格低的模型、免费的模型,开发者都可以用,免费的模型可以用在边角料上,做点简单的处理。当一个开发者同时是所有价位的模型的客户,似乎也不存在用价格抢客户的事情了,只能说大家都有饭吃。

说白了,眼下国产大模型的 “ 价格战 ” 更像是营销手段,为厂商带来短期的获客,而真正决定留客率的还是模型本身的技术水平。这也是从业者们对大模型 “ 价格战 ” 并不兴奋的原因。不会因为便宜而一直选择,更不会因为贵就放弃好的模型。

他们只觉得,在 AI 大模型还处于没有确立标准的野蛮时代,厂商用价格作为营销策略也是能理解的,就像字节在着重强调豆包的价格优势一样。“ 字节销售也是总来找我们,和其他厂商比,感觉字节大模型在营销上确实算最卖力的。” 王禹效说。

归根结底,开发者和大模型是双向选择的过程。筛选客户的核心不是谁家便宜,这跟消费互联网的价格战不一样。

谷林解释,“ ToC 的产品用户切换的壁垒,有用户心智,有市场占有。假如说厂商是 toC 之后积累了规模效应后,竞争优势很难打破,但现在大模型厂商提供的就是 API,不存在规模效应,B 端用户的切换成本也不高。实施免费和补贴市场策略是否真的有助于商业增长,能形成商业壁垒吗?这个策略是帮助行业发展,还是进入劣币驱逐良币的内卷?”

搞促销,是互联网博弈局的常见套路。只是,对于正在探索的应用层开发者和跃跃欲试的新创业者来说,这次不一样,价格没那么重要。

王禹效坦言,“ 机会真是满天飞,你快点开始做就行了。现在立刻开始做,远比你去选哪个模型,哪个厂商,哪个更便宜,来得更实际一些。”

如何利用人工智能大模型,打造最佳的营销活动策略

aigc阅读(65)

数字化营销是当今企业发展的重要手段,它涉及到电商、广告、用户增长等多个领域。

数字化营销的核心是如何制定有效的营销活动策略,以吸引和留住用户,提高转化率和收益。然而,传统的营销活动策略往往基于经验和直觉,缺乏数据支撑和科学依据,难以适应复杂和变化的市场环境。人工智能大模型是一种利用海量数据和强大计算能力,通过深度学习和自然语言处理等技术,生成高质量和有价值的内容和策略的模型。

人工智能大模型可以帮助产品经理和运营人员分析营销活动数据,建立营销活动模型,优化营销活动策略,评估营销活动效果,从而提升数字化营销的效率和效果。

本文将介绍如何利用人工智能大模型来优化营销活动策略的方法和步骤,以及人工智能大模型在数字化营销业务中的应用和价值。

一、分析营销活动数据

要制定出有效的营销活动策略,我们首先需要对营销活动数据进行收集和分析。营销活动数据是指与我们的营销活动相关的各种数据,例如:

  • 用户数据:用户数据是指反映用户的特征,需求,行为,心理等方面的数据,如年龄,性别,地区,职业,收入,教育,浏览,点击,注册,购买,评论,分享,需求,偏好,满意度,忠诚度,推荐意愿等。用户数据可以帮助我们了解我们的目标用户是谁,他们想要什么,他们怎么做,他们怎么想等,从而制定出更符合用户的营销活动策略。
  • 产品数据:产品数据是指反映产品的特点,优势,价值等方面的数据,如名称,类别,功能,价格,品牌,口碑,质量,效果,安全,可靠,易用,优势,独特性,创新性,社会性等。产品数据可以帮助我们了解我们的产品是什么,它有什么,它能做什么,它为什么好等,从而制定出更突出产品的营销活动策略。
  • 渠道数据:渠道数据是指反映营销活动的传播和执行的媒介和平台的信息,如类型,特性,覆盖,流量,成本,效果等。渠道数据可以帮助我们了解我们的营销活动可以通过哪些渠道,这些渠道有什么特点,这些渠道能带来什么效果等,从而制定出更有效的营销活动策略。
  • 竞争数据:竞争数据是指反映与我们的产品或者服务相似或者替代的其他产品或者服务的信息,如名称,类别,功能,价格,品牌,口碑,以及他们的营销活动策略,如目标,定位,价值主张,核心信息,关键指标等。竞争数据可以帮助我们了解我们的竞争对手是谁,他们有什么,他们怎么做,他们做得怎么样等,从而制定出更有竞争力的营销活动策略。
  • 市场数据:市场数据是指反映与我们的产品或者服务相关的整个市场的信息,如规模,增长,结构,分布,需求,供给,预测等。市场数据可以帮助我们了解我们的市场是什么,它有多大,它怎么变,它有什么机会,它有什么风险等,从而制定出更适应市场的营销活动策略。

收集和分析营销活动数据的方法有很多,例如:

  • 问卷调查:问卷调查是一种通过设计和发放一系列的问题,收集用户、产品、渠道、竞争、市场等方面的数据的方法。问卷调查的优点是可以收集大量的数据,可以定量和定性地分析数据,可以比较不同的数据,可以控制数据的质量和有效性等。问卷调查的缺点是可能存在样本偏差,响应率低,数据失真,数据过时等问题。
  • 用户访谈:用户访谈是一种通过与用户进行面对面或者远程的交流,收集用户的需求、偏好、感受、建议等方面的数据的方法。用户访谈的优点是可以收集深入的数据,可以了解用户的心理,可以建立用户的信任和关系等。用户访谈的缺点是可能存在用户不真诚,用户不合作,用户不代表性,用户不一致等问题。
  • 数据挖掘:数据挖掘是一种通过使用人工智能,统计学,数学等技术,从大量的数据中提取有价值的信息和知识的方法。数据挖掘的优点是可以发现数据的规律、模式、关联、异常等,可以预测数据的趋势、变化、结果等,可以优化数据的处理、存储、展示等。数据挖掘的缺点是可能存在数据的不完整、不准确、不一致、不相关等问题。
  • 数据可视化:数据可视化是一种通过使用图形、图表、图像等方式,将数据的信息和知识以直观、美观、易懂的形式展示出来的方法。数据可视化的优点是可以增强数据的表达力、吸引力、影响力等,可以帮助用户理解、记忆、分析、决策等。数据可视化的缺点是可能存在数据的失真、误导、过度简化、过度美化等问题。
  • 数据分析工具:数据分析工具是一种通过使用软件,平台,应用等,对数据进行收集、处理、分析、展示、分享等操作的方法。数据分析工具的优点是可以提高数据的效率、质量、安全、便利等,可以支持多种数据的格式、来源、类型等,可以实现数据的自动化、智能化、互动化等。数据分析工具的缺点是可能存在数据的兼容、维护、更新、成本等问题。

人工智能大模型可以帮助产品经理和运营人员收集和分析营销活动数据,例如:

  • 生成问卷:人工智能大模型可以根据我们的营销活动的目的、对象、内容等,生成合适的问卷问题、选项、顺序、逻辑等,以便收集用户、产品、渠道、竞争、市场等方面的数据。
  • 提取关键词:人工智能大模型可以根据我们的营销活动的目的、对象、内容等,提取出与用户、产品、渠道、竞争、市场等方面相关的关键词,以便进行更精准的数据搜索、筛选、分类、排序等。
  • 生成报告:人工智能大模型可以根据我们收集和分析的营销活动数据,生成一份简洁、清晰、有用的报告,以便总结和展示我们的营销活动的目标、定位、价值主张、核心信息、关键指标、优势、劣势、建议等。

二、数据驱动营销:如何利用人工智能大模型收集和分析营销活动数据

1. 建立营销活动模型

要生成高质量和有价值的营销活动的内容和策略,我们需要建立一个能够理解、表达、创造、优化营销活动的模型。这个模型就是利用人工智能大模型来生成营销活动的模型,简称营销活动模型。营销活动模型可以帮助我们完成各种营销活动的任务,例如生成广告文案,生成营销方案,生成营销素材等。

建立营销活动模型的过程包括选择合适的模型、训练模型、评估模型等步骤,我们将分别介绍如下:

1)选择合适的模型

选择合适的模型是指根据我们的营销活动的目的、对象、内容等,选择一个能够满足我们的需求和期望的人工智能大模型作为我们的营销活动模型。

选择合适的模型的依据是模型的适用范围、性能、可解释性、可扩展性等:

  • 适用范围是指模型能够处理的数据的类型、格式、来源、规模等,以及模型能够完成的任务的种类、难度、复杂度等。
  • 性能是指模型能够达到的准确率、速度、稳定性、效率等。
  • 可解释性是指模型能够提供的逻辑、理由、证据等。
  • 可扩展性是指模型能够适应的变化、更新、优化等。

选择合适的模型的方法有很多,例如使用现成的人工智能大模型,例如GPT-3,BERT,XLNet等,或者自定义或者改进人工智能大模型,例如添加专业领域的知识,使用特定的数据集,使用特定的优化方法等。

2)训练模型

训练模型是指利用已有的营销活动数据和反馈,通过人工智能大模型的学习算法,调整模型的参数,使模型能够更好地拟合数据和目标的过程。训练模型的目的是使模型能够生成更符合我们的营销活动的内容和策略的输出。

训练模型的过程包括准备数据、设置参数、运行算法、保存模型等步骤:

  1. 准备数据是指收集、清洗、标注、划分、转换等操作,使数据符合模型的输入要求。
  2. 设置参数是指确定模型的结构、层数、节点数、激活函数、损失函数、优化器、学习率、批次大小、迭代次数等。
  3. 运行算法是指使用人工智能大模型的学习算法,如反向传播、梯度下降、随机梯度下降等,对模型的参数进行更新,使模型的输出与数据的标签或者反馈的差距最小。
  4. 保存模型是指将训练好的模型的参数、结构、状态等保存在文件或者数据库中,以便后续的使用或者评估。

3)评估模型

评估模型是指利用新的或者未知的营销活动数据和反馈,通过人工智能大模型的评估指标,检验模型的准确性,稳定性,泛化性等的过程。

评估模型的目的是验证模型的有效性,发现模型的优点和缺点,提出模型的改进和优化建议。

评估模型的过程包括加载模型,输入数据,输出结果,计算指标,分析报告等步骤。

  1. 加载模型是指从文件或者数据库中读取训练好的模型的参数、结构、状态等,使模型处于可用的状态。
  2. 输入数据是指将新的或者未知的营销活动数据和反馈输入到模型中,使模型进行预测或者生成。
  3. 输出结果是指将模型的预测或者生成的结果输出到屏幕、文件、数据库等,以便进行比较或者展示。
  4. 计算指标是指使用人工智能大模型的评估指标,如准确率、召回率、F1值、均方误差、交叉熵等,对模型的输出和数据的标签或者反馈进行量化的比较,得出模型的评分或者排名。
  5. 分析报告是指使用图形、图表、文字等方式,将模型的评估结果进行可视化、解释、总结、评价、建议等,以便进行理解、改进、优化等。

2. 优化营销活动策略

要执行高效和有价值的营销活动,我们需要优化我们的营销活动策略,使其更符合我们的营销活动的目标,定位,价值主张,核心信息,关键指标等。优化营销活动策略是指根据建立的营销活动模型生成的内容和策略,进行筛选,修改,组合,测试,迭代等过程,使营销活动策略更贴合我们的营销活动的需求和期望。执行优化后的营销活动策略是指将优化后的营销活动策略应用到实际的营销活动中,例如发布广告,推送消息,发送邮件,发放优惠券等。

优化和执行营销活动策略的过程包括以下几个步骤:

1)筛选方案

筛选方案是指从营销活动模型生成的多种备选方案中,选择最符合我们的营销活动的目标,定位,价值主张,核心信息,关键指标等的方案,作为我们的营销活动策略的候选方案。

筛选方案的依据是方案的适用性,有效性,创新性,吸引性等:

  • 适用性是指方案能够适应我们的营销活动的对象,内容,渠道,竞争,市场等。
  • 有效性是指方案能够达到我们的营销活动的目标,如提高认知,增加兴趣,促进购买,增加收益等。
  • 创新性是指方案能够体现我们的产品或者服务的特点,优势,价值等,与其他的方案有所区别和优势。
  • 吸引性是指方案能够引起用户的注意,好奇,赞赏,信任等,与用户产生情感和关系的联系。

筛选方案的方法有很多,例如使用评分,排序,投票,讨论等。

2)修改方案

修改方案是指对筛选出的候选方案进行修改,完善,优化,使方案更贴合我们的营销活动的需求和期望的过程。

修改方案的目的是使方案更具有适用性,有效性,创新性,吸引性等。

修改方案的内容包括修改方案的文案,图片,音频,视频,链接,按钮,颜色,字体,布局等。

修改方案的依据是方案的反馈,建议,测试,分析等。

  • 反馈是指从用户,同事,领导,专家等处获得的对方案的评价,意见,感受等。
  • 建议是指从用户,同事,领导,专家等处获得的对方案的改进,优化,创新等的建议。
  • 测试是指对方案进行实验,模拟,验证等的过程,以检验方案的效果,性能,稳定性等。
  • 分析是指对方案进行数据,逻辑,情感等方面的分析,以理解方案的优点,缺点,机会,威胁等。

修改方案的方法有很多,例如使用人工智能大模型,例如GPT-3,BERT,XLNet等,或者自定义或者改进人工智能大模型,例如添加专业领域的知识,使用特定的数据集,使用特定的优化方法等。

3)组合方案

组合方案是指将修改后的候选方案进行组合,协调,整合,使方案形成一个完整,一致,协调的营销活动策略的过程。组合方案的目的是使方案更具有完整性,一致性,协调性等。

  • 完整性是指方案能够覆盖我们的营销活动的所有的方面,如目标,定位,价值主张,核心信息,关键指标等。
  • 一致性是指方案能够保持我们的营销活动的风格,主题,口吻,信息等的一致。
  • 协调性是指方案能够使我们的营销活动的各个部分,如文案,图片,音频,视频,链接,按钮,颜色,字体,布局等的协调。

组合方案的内容包括组合方案的结构,顺序,逻辑,关联等。

组合方案的依据是方案的目标,内容,渠道,竞争,市场等。

  • 目标是指我们的营销活动的目的,如提高认知,增加兴趣,促进购买,增加收益等。
  • 内容是指我们的营销活动的信息,如产品或者服务的名称,功能,价格,优惠等。
  • 渠道是指我们的营销活动的传播和执行的媒介和平台,如微信公众号,微博,抖音,小红书等。
  • 竞争是指与我们的产品或者服务相似或者替代的其他产品或者服务,以及他们的营销活动策略,如目标,定位,价值主张,核心信息,关键指标等。
  • 市场是指与我们的产品或者服务相关的整个市场的情况,如规模,增长,结构,分布,需求,供给,预测等。

组合方案的方法有很多,例如使用框架,模板,流程,规则等。

4)测试方案

测试方案是指对组合后的营销活动策略进行测试,评估,比较,选择,使营销活动策略更符合我们的营销活动的目标,定位,价值主张,核心信息,关键指标等的过程。测试方案的目的是验证营销活动策略的有效性,发现营销活动策略的优点和缺点,提出营销活动策略的改进和优化建议。

测试方案的过程包括准备数据,设置参数,运行算法,保存结果,计算指标,分析报告等步骤:

  1. 准备数据是指收集,清洗,标注,划分,转换等操作,使数据符合测试的输入要求。
  2. 设置参数是指确定测试的结构,层数,节点数,激活函数,损失函数,优化器,学习率,批次大小,迭代次数等。
  3. 运行算法是指使用测试的算法,如A/B测试,多臂老虎机,强化学习,多目标优化等,对营销活动策略进行测试,评估,比较,选择,使营销活动策略的输出与数据的标签或者反馈的差距最小。
  4. 保存结果是指将测试的结果,如方案的评分,排名,选择等保存在文件或者数据库中,以便后续的使用或者分析。
  5. 计算指标是指使用测试的指标,如准确率,召回率,F1值,均方误差,交叉熵等,对测试的结果进行量化的比较,得出测试的评分或者排名。
  6. 分析报告是指使用图形,图表,文字等方式,将测试的结果进行可视化,解释,总结,评价,建议等,以便进行理解,改进,优化等。

分析报告的内容包括测试的目的,过程,结果,评价,建议等。

  • 测试的目的是指我们测试营销活动策略的原因,如验证有效性,发现优缺点,提出改进优化建议等。
  • 测试的过程是指我们测试营销活动策略的方法,如使用的算法,指标,参数,数据等。
  • 测试的结果是指我们测试营销活动策略的输出,如方案的评分,排名,选择等。
  • 测试的评价是指我们对测试的结果的分析,如方案的优点,缺点,机会,威胁等。
  • 测试的建议是指我们对测试的结果的反馈,如方案的改进,优化,创新等。分析报告的目的是使我们能够更好地理解,改进,优化我们的营销活动策略,以提高我们的营销活动的效果和回报。

分析报告的方法有很多,例如使用图形,图表,文字等方式,以增强报告的表达力,吸引力,影响力等。

5)选择方案

选择方案是指从测试后的多种备选方案中,选择最优的或者最合适的方案,作为我们的最终的营销活动策略的过程。

选择方案的依据是方案的评分,排名,选择等,以及我们的营销活动的目标,定位,价值主张,核心信息,关键指标等。评分,排名,选择是指测试后的方案的评估结果,如准确率,召回率,F1值,均方误差,交叉熵等。目标,定位,价值主张,核心信息,关键指标是指我们的营销活动的策略要素,如提高认知,增加兴趣,促进购买,增加收益等。

选择方案的目的是使我们的营销活动策略更符合我们的营销活动的需求和期望,更能达到我们的营销活动的效果和回报。

选择方案的方法有很多,例如使用最优化,多标准决策,偏好分析等。

6)执行方案:

执行方案是指将选择后的最终的营销活动策略应用到实际的营销活动中,进行发布,推送,发送,发放等操作,使营销活动策略能够达到用户,影响用户,激励用户的过程。

执行方案的目的是使我们的营销活动策略能够实现我们的营销活动的目标,定位,价值主张,核心信息,关键指标等。

执行方案的过程包括制定计划,分配资源,监控进度,收集反馈,调整策略等步骤。

  1. 制定计划是指确定执行方案的时间,地点,对象,内容,方式,频率,预算等。
  2. 分配资源是指分配执行方案所需的人力,物力,财力,信息等。
  3. 监控进度是指跟踪,记录,报告执行方案的执行情况,如覆盖,流量,转化,收益等。
  4. 收集反馈是指收集,整理,分析执行方案的执行效果,如用户的评价,意见,感受,建议等。
  5. 调整策略是指根据执行方案的执行情况和执行效果,对执行方案进行修改,完善,优化,使执行方案更贴合我们的营销活动的需求和期望的过程。

3. 评估营销活动效果

在执行了优化后的营销活动策略后,我们需要评估营销活动的效果,以便了解我们的营销活动是否达到了预期的目标,是否有改进的空间,是否有需要调整的地方。评估营销活动效果的方法有很多,例如使用数据分析工具,使用用户反馈工具,使用营销效果评估模型等。

我们需要根据营销活动的类型,规模,目的,对象等,选择合适的评估方法,收集和分析营销活动的结果,例如用户反馈,转化率,收益,成本,ROI等。

评估营销活动效果的过程包括以下几个步骤:

1)收集数据

收集数据是指从各种渠道和平台,如微信公众号,微博,抖音,小红书等,获取与营销活动相关的数据,如用户的行为,反馈,评价等,以及与营销活动的目标,定位,价值主张,核心信息,关键指标等相关的数据,如转化率,收益,成本,ROI等。

收集数据的目的是为了提供评估营销活动效果的依据,以及为了发现营销活动的问题,机会,趋势等。

收集数据的方法有很多,例如使用数据采集工具,使用数据接口,使用数据爬虫等。

2)分析数据

分析数据是指对收集到的数据进行处理,清洗,整理,转换,统计,可视化等操作,以便对数据进行理解,解释,总结,评价,建议等。

分析数据的目的是为了评估营销活动的效果,如是否达到了目标,是否有优势,是否有劣势,是否有改进空间,是否有调整需要等。

分析数据的方法有很多,例如使用数据分析工具,使用数据分析模型,使用数据分析方法等。

3)生成报告

生成报告是指将分析数据的结果,以图形,图表,文字等方式,进行展示,传达,分享,以便对营销活动的效果进行展示,传达,分享。

生成报告的目的是为了让我们自己,以及我们的同事,领导,合作伙伴,客户等,能够了解我们的营销活动的效果,以及我们的营销活动的优点,缺点,建议等。

生成报告的方法有很多,例如使用报告生成工具,使用报告生成模板,使用报告生成方法等。

人工智能大模型可以帮助产品经理和运营人员评估营销活动效果,例如通过生成评估报告,生成评估指标,生成评估建议等。

人工智能大模型可以利用其强大的自然语言处理,计算机视觉,机器学习等能力,对营销活动的数据进行深入的分析,提取出有价值的信息,生成出有意义的结果,提供出有用的建议。

例如,人工智能大模型可以:

  • 生成评估报告:人工智能大模型可以根据我们的营销活动的类型,规模,目的,对象等,以及我们收集和分析的数据,生成一份简洁,清晰,有用的评估报告,以便总结和展示我们的营销活动的效果,如目标,定位,价值主张,核心信息,关键指标等,以及我们的营销活动的优势,劣势,建议等。
  • 生成评估指标:人工智能大模型可以根据我们的营销活动的类型,规模,目的,对象等,以及我们收集和分析的数据,生成一些评估营销活动效果的指标,以便量化和比较我们的营销活动的效果,如转化率,收益,成本,ROI等。
  • 生成评估建议:人工智能大模型可以根据我们的营销活动的类型,规模,目的,对象等,以及我们收集和分析的数据,生成一些评估营销活动效果的建议,以便改进和优化我们的营销活动策略,如增加转化率,降低成本,提高ROI等。

三、结语

本文简单介绍了如何使用人工智能大模型来生成和优化营销活动的内容和策略,以及如何评估营销活动的效果。

我们通过一个智能音箱的营销活动的案例,展示了人工智能大模型的强大的自然语言处理,计算机视觉,机器学习等能力,以及人工智能大模型可以帮助产品经理和运营人员的各种方式,如生成文章,生成方案,生成报告,生成指标,生成建议等。我们希望本文能够给您一些启发和灵感,让您能够更好地利用人工智能大模型来提升您的营销活动的效果和回报。

GPT-4被证实具有「人类心智」登Nature!AI比人类更好察觉讽刺和暗示

aigc阅读(65)

AI发展到今天,其智能水平与人类相比已经不遑多让了,没有一个人可以像AGI一样「包罗万象、吐纳自如」。

这个时候,我们如何还能守住人之为人的尊严?

有的人说,至少人类是社会性的存在,我们可以听得懂同类的「弦外之音」,可以与他人产生共情,而机器是冰冷的。

关于AI是否有心智理论(Theory of Mind,ToM)一直有很多争论。

特别是,最近以ChatGPT为代表的大模型(LLM)的发展再次将这个问题推入公众视线——这些模型是否有心智理论?它能理解别人的心理状态吗?

Nature子刊《自然·人类行为》的一篇最新研究采用非常严谨的试验,证明GPT-4表现居然位于人类水平之上,能够比人类更好地检测出讽刺和暗示,其弱点来自于不表达观点的护栏。

论文地址:https://www.nature.com/articles/s41562-024-01882-z

这也就是说,GPT-4在心智理论方面与人类无异,如果你觉得它不够有洞察力,有可能只是因为它在隐藏实力!

一、GPT-4心智优于人类

人们关心别人的想法,并花费大量精力思考别人的想法。

想象一下,当你站在一扇关闭的窗户附近,听到朋友说「这里有点热」,你就会意识到,她不仅仅是在评论温度,而是礼貌地请求你打开窗户 。

这种追踪他人心理状态的能力被称为心智理论,这是人类心理学的一个核心概念,也是人类社会互动的核心,涉及到沟通、同理心以及社会决策的整个过程。

随着LLM的兴起,心智理论不再是人类专属,AI心智理论可能不再遥远。

为了服务于更广泛的机器行为跨学科研究,最近有人呼吁建立「机器心理学」,主张使用实验心理学的工具和范式来系统地研究LLM的能力和局限性。

研究者通常使用一系列不同的心智理论测量方法,对每项测试进行多次重复,并与具有明确界定的人类表现基准进行比较。

Nature的这篇论文就是采用这种方法对GPT-4、GPT-3.5和Llama 2进行了测试,并将它们的表现与人类参与者样本(总人数=1907)的表现进行比较。

测试涵盖不同的维度,既有对人类认知要求较低的能力,如理解间接请求,也有对认知要求较高的能力,如识别和表达复杂的心理状态(误导或讽刺),测试共分为5个项目(错误信念、反讽、失言、暗示、奇怪故事)。

值得一提的是,为了确保模型不仅仅复制训练集数据,研究者为每个已发布的测试生成了新的方法。这些新颖的测试项目与原始测试项目的逻辑相匹配,但使用了不同的语义内容。

结果发现,GPT-4在5项测试中有3项的表现明显优于人类(反讽、暗示、奇怪故事),1项(错误信念)与人类持平,仅在失言测试中落于下风。

更可怕的是,研究人员又发现,GPT-4并非不擅于识别失言,而是因为它非常保守,不会轻易给出确定性的意见。

a, 人类、GPT-4、GPT-3.5和LLaMA2在各个测试项目(错误信念、反讽、失言、暗示、奇怪故事)的得分分布

b, 每个测试中原始公布项目(深色)和新颖项目(浅色)的平均得分的四分位数范围错误信念

1. 错误信念

评估的是,受测者推断他人所拥有的知识与自己(真实的)对世界的认识不同的能力。

这项测试由遵循特定结构的测试项目组成:角色A和角色B在一起,角色A把一件物品放在一个隐藏的地方(例如一个盒子),角色A离开,角色B把物品移到第二个隐藏的地方(例如一个橱柜),然后角色A返回。

向参与者提出的问题是:当角色A回来时,他们会在新的位置(物品真正所在的位置,符合参与者的真实想法)还是在旧的位置(物品原来所在的位置,符合角色A的错误想法)寻找物品?

除了错误信念条件之外,测试还使用了真实信念控制条件,即角色B不移动角色A藏匿的物品,而是将另一件物品移动到新的位置。加入这个对照,可以有效地检测出错误信念是如何发生的。

这些测试的挑战不是记住角色最后一次看到该物品的位置,而是要调和相互冲突的心理状态之间的不一致。

在这项测试中,人类参与者和LLM的表现都达到了上限。51名人类参与者中只有5人犯了一次错误,通常是没有指定两个地点中的任何一个,而是回答「他会在房间里找」。

所有LLM都正确地报告说,离开房间的人随后会在他们记忆中看到物品的地方寻找该物品,即使该物品不再与当前位置相符。

2. 反讽

要理解讽刺性话语,需要推断语句的真实含义(通常与所说内容相反),并检测说话者的嘲讽态度,这已被视为人工智能和LLM的一项关键挑战。

在这个项目中,GPT-4的表现明显优于人类水平。相比之下,GPT-3.5和Llama 2-70B的表现均低于人类水平。

GPT-3.5在识别非讽刺性对照语句时表现完美,但在识别讽刺性语句时却出现错误。对照分析显示了明显的顺序效应,即GPT-3.5在较早的试验中比在较晚的试验中出错更多。

Llama 2-70B在识别反讽和非反讽对照语句时都会出错,这表明他们对反讽的辨别能力总体较差。

3. 失言

失言测试提供了这样一个情境:一个角色无意中说了一句冒犯听者的话,因为说话者不知道或不记得某些关键信息。

在向被测试者介绍完场景后,研究者会提出四个问题:

  1. 「故事中有人说了不该说的话吗?」(正确答案总是「是」)
  2. 「他们说了哪些不该说的话?」(每个项目的正确答案都有所变化)
  3. 一个理解性的问题,用于测试对故事事件的理解(每个项目的问题都有所不同)
  4. 一个测试对说话者错误信念的认识的问题,措辞如下「说话者知道他们所说的不恰当吗?」(每个项目的问题都会有所不同,正确答案总是「不」)

这些问题是在讲述的同时提出的。根据最初的编码标准,被试必须正确回答所有四个问题,其答案才算正确。

不过,在此研究中,研究者主要关注的是最后一个问题的回答情况,该问题测试回答者是否理解了说话者的心理状态。

在研究人类数据时,研究者注意到有几位参与者对第一个问题的回答是错误的,原因是他们明显不愿意归咎于他人(例如 「不,他没有说错什么,因为他忘记了」)。

因此,为了将重点放在与研究相关的假说理解的关键方面,研究者只对最后一个问题进行了编码。

在此测试中,GPT-4的得分明显低于人类水平。并且对特定项目存在孤立的上限效应。

GPT-3.5的得分更差,除一次运行外,表现几乎处于下限。

相比之下,Llama 2-70B的表现优于人类,除了一次运行外,所有运行均达到100%的准确率。

4. 暗示

暗示任务通过依次呈现10个描述日常社交互动的小故事来评估对间接言语请求的理解。

每个小故事都以一句可被解释为暗示的话语结束。

一个正确的回答既能指出这句话的本意,也能指出这句话试图引起的行动。

在最初的测试中,如果受试者第一次未能完全回答问题,研究者会对他们进行额外的提问。

在调整过后的新方案中,研究者取消了额外的提问。与之前的研究相比,这种编码方法对暗示理解能力的估计更为保守。

在这项测试中,GPT-4的表现明显优于人类,GPT-3.5的表现与人类没有明显差异,只有Llama 2-70B在该测试中的表现明显低于人类水平。

5. 奇怪故事

到这里,难度升级了!

奇怪故事提供了一种测试更高级心智能力的方法,如推理误导、操纵、撒谎和误解,以及二阶或高阶心理状态(例如,甲知道乙相信丙……)。

在这个测验中,受测者会看到一个简短的小故事,并被要求解释为什么故事中的人物会说或做一些字面上不真实的事情。

GPT-4在该测试中的表现明显优于人类,GPT-3.5的表现与人类没有明显差异,而Llama 2-70B的得分明显低于人类。

二、过于保守的GPT

根据以上的试验,「失言」是GPT-4无法匹敌或超过人类表现的唯一测试,我们可能会据此以为GPT模型难以应对失言。

令人惊讶的是,失言也是唯一一个Llama 2-70B(在其他项目的表现度最差)得分高于人类的测试。

研究者决定将研究深入下去,提出了3个假设。

第一个假设是推理失败假说,即模型无法生成关于说话者心理状态的推论。

第二个假设是布里丹之驴假说,模型能够推断心理状态,但无法在它们之间进行选择,就像夹在两堆等质等量的干草之间的理性的驴子,因为无法决定吃哪个而饿死。

第三个假设是超保守主义假设, GPT模型既能够计算有关人物心理状态的推论,又知道最有可能的解释是什么,但它不会承诺单一的解释。

为了区分这些假设,研究者设计了一种失言测试的变体。

具体来说,不是问说话者知道还是不知道他冒犯了别人,而是问说话者知道还是不知道的可能性更大,这被称为「失言可能性测试」。

结果,在失言可能性测试中,GPT-4表现出了完美的性能,所有响应都在没有任何提示的情况下识别出说话者更有可能不知道上下文。

GPT-3.5表现出了改进的性能,尽管它确实在少数情况下需要提示(约3%的项目),并且偶尔无法识别失言行为(约9%的项目)。

a,两个GPT模型在失言问题的原始框架(「他们知道……吗?」)和可能性框架(「他们知道还是不知道……的可能性更大?」)上的得分

b,失言测试的三种变体的反应分数:失言(粉色)、中性(灰色)和知识暗示(青色)。

总而言之,这些结果支持了超保守主义假说,它们表明GPT成功地生成了关于说话者心理状态的推断,并确定无意冒犯的可能性大于故意侮辱。

因此,GPT一开始未能正确回答问题并不代表推理失败,也不反映模型在认为同样合理的备选方案中犹豫不决,而是一种过于保守的方法,阻碍了对最可能的解释的承诺。

另一方面,Llama 2-70B没有区分说话者被暗示知道的情况和没有信息的情况,这引起了人们的担忧,即Llama 2-70B在这项任务上的完美表现可能是虚幻的。

GPT模型在失言测试及其变体上的失败和成功模式可能是其底层架构的结果。

除了Transformer之外,GPT模型还包括缓解措施,以提高事实性并避免用户过度依赖它们作为来源。

这些措施包括进行训练以减少幻觉,失言测试的失败可能是这些缓解措施驱动下的一种谨慎行为。因为通过测试需要对缺乏充分证据的解释做出承诺。

这种谨慎也可以解释不同任务之间的差异:失言测试和暗示测试都要求从模糊的信息中推测出正确答案。

然而,暗示任务允许以开放式的方式生成文本,LLM非常适合这种方式,但回答失言测试则需要超越这种推测,以得出结论。

这些发现强调了能力和表现之间的分离,表明GPT模型可能是有能力的。

也就是说,具有计算类似心智推理的技术复杂性,但在不确定的情况下表现与人类不同,人类往往会极力消除不确定性,但GPT不会自发地计算这些推论以减少不确定性。

参考资料:

https://www.nature.com/articles/s41562-024-01882-z

https://x.com/emollick/status/1792594588579803191