欢迎光临
我们一直在努力

字节大模型内部赛马,下一个爆款 or 烧钱深坑?

aigc阅读(55)

今年最火的两款全球AI产品,当属视频生成大模型产品Sora和音乐生成大模型产品Suno。

今年4月,经Suno爆改的周杰伦金曲《以父之名》和《夜曲》直接封神,在音乐界掀起了一股不小的波澜。不少人认为,这两条赛道会催生出新的爆款产品,谁能够拿下其中一条赛道,谁就能成为AI行业的王者。

两款AI产品的火爆,迅速点燃了国内大厂对这两条赛道的争夺战。阿里发布了通义万相AI视频服务,字节跳动发布了“PixelDance”,快手发布了视频大模型产品“可灵”,QQ音乐、网易云音乐也发布了AI创作功能,而AI头部公司的Minimax、生数科技、智谱AI也纷纷跟进。

在这两条热门赛道中最不遗余力的当属字节。9月24日,火山引擎在深圳举办AI创新巡展上,发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,意味着字节正式宣告进军AI视频生成赛道。

不仅如此,字节还在音乐生成赛道上,推出了Seed-Music音乐生成模型,并于今年7月推出了发布了全新版本的海绵音乐APP,主打“一键创作你的AI音乐”,这款产品也是字节AI音乐产品的代表作。

至此,字节完成了在AI视频和AI音乐这两条热门赛道上的全布局。火力全开之下的字节,能够得偿所愿吗?

01 字节AI赛道创业:试错、内部赛马并举

豆包视频生成大模型的发布,是字节在AI领域的一次重磅亮相。

据火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

而在此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如,后者可以让不同人物完成多个动作指令的互动,使人物样貌、服装细节甚至头饰,在不同运镜下也保持一致,接近实拍效果。

基于豆包视频生成大模型,字节内部也推出了相关的具有AI视频生产能力的产品,主要由两个业务团队在推进,一个是豆包,一个是剪映,可以看做是内部的一场赛马。

豆包对外的产品是豆包APP,剪映则是即梦AI APP,两者的底层技术都是使用的豆包视频生成大模型,即梦使用的是豆包视频生成大模型“PixelDance”。

两款产品虽然都有着视频生成能力,但即梦更具有代表性。

即梦的前身是Dreamina,是原字节跳动中国CEO、转岗至剪映的业务负责人张楠的创业项目。刚上线之时,这仅仅是一个文生图的创作产品。随后,Dreamina瞄上了Sora的潜力,内部基于PixelDance模型开始研发视频生成能力,今年2月,Dreamina的视频生成服务开启对外测试。

今年5月,Dreamina改名即梦,宣布其AI作图和AI视频生成功能全量上线,并在抖音内进行大量投放。张楠更是在朋友圈转发,称即梦刚刚上线,还有很多待优化的地方。

音乐生成方面,海绵音乐APP则是字节的代表,这款产品是字节在AI赛道上试错的一个典型案例。海绵音乐的前身是2022年2月的海绵乐队APP。Tech星球了解到,这是字节内部的一款创业项目,但这款产品诞生之初并不是奔着AI而去,而是服务于汽水音乐和抖音上对音乐编辑有所需求的用户。

到了2022年底,随着国内AI浪潮出现后,海绵乐队才开始转向AI领域,并加入AI作曲能力,但此时的创作能力很一般,“因为此时的字节,并没有成体系的音乐生成大模型,海绵乐队只能靠自己去摸索”,一位曾在海绵乐队工作的员工向Tech星球表示。

2023年6月推出了新版本,主打哼唱成曲和伴奏制作,虽然在AI能力上仍不出众,但对接下来的试错和更新提供了经验。随着豆包音乐生成模型的出现,才让海绵乐队有了一战之力,最终在今年7月,更名为海绵音乐,主攻AI音乐创作赛道。目前,已经开始在各渠道进行投放推广。

需要注意的是,字节的AI产品在这两条赛道上的发展并不是独立,而是相互竞争。豆包、即梦在近期也开始推出音乐生成服务,逐步渗透到AI音乐赛道,“竞争是无可避免的,谁都想成为爆款AI产品,谁都想成为或继续保持在内部的核心位置,这无疑需要AI产品更加具有综合体验”,即梦的一位运营告诉Tech星球。

02 左手视频,右手音乐

据七麦数据显示,字节视频生成APP即梦自今年8月上线以来,在iOS端的摄影与录像(免费)榜单的排名逐渐上升,两个月时间,已经稳定在前40的名次,安卓端,近30天日均下载量,为22978次。

借助抖音APP以及投放,即梦的视频生成服务逐渐成为不少抖音创作者的首选。

但即梦并不满足于此,今年8月,即梦开始在AI短剧领域的创作探索。联合抖音、博纳影业AIGMS制作中心出品并制作《三星堆:未来启示录》。即梦还在抖音内发起了“即梦AI迷你剧场”的活动,支持AI短剧的创作。

截至9月,豆包大模型日均tokens使用量已经超过1.3万亿,相比5月首次发布时猛增十倍,其中不乏即梦所作出的贡献。

在商业模式上,即梦已推出会员体系,有79元单月、69元连续包月和659元包年的基础会员等不同订阅方式。具体来说,基础会员每月可使用505个积分生成约2020张图片或168个AI视频。

有分析人士认为,即梦目前的产品功能、商业模式聚焦于服务UGC(用户生成内容),与抖音的生态融合将是未来的发展重点。

相比于字节在视频生成方面取得的成绩,字节在音乐生成方面,目前仍然是不温不火。七麦数据显示,海绵音乐有着广告投放,但并没有在iOS端,取得排名,近30日日均下载量仅为15次。

音乐行业人士李磊认为,虽然AI音乐很火,但好听的AI歌曲创作多来自于专业人士,普通用户对于AI音乐生成工具的使用门槛和学习成本也有一定的要求,如果工具过于复杂或难以使用,就会影响用户的体验和接受度。而且,用户对AI音乐的接受度也需要时间来培养。

“字节在多个领域都有业务布局,在资源有限的情况下,公司需要在不同业务之间进行资源分配和权衡。AI音乐生成领域虽然具有很大的发展潜力,但在前期需要大量的研发投入和市场推广,相比于更加成熟的AI视频,公司肯定更愿意加大对这一块的力度投入”,一位汽水音乐的运营小可告诉Tech星球。

03 下一个AI爆款,还是烧钱深坑

不可否认,AIGC(人工智能生成内容)是一个巨大的市场,量子位智库预计,2024年我国AIGC应用市场规模达到200亿。2030年,我国AIGC应用将成为万亿规模市场,五年(2024-2028年)平均复合增长率超过30%。

目前,国内在视频生成模型方面,有优势的是快手和字节跳动,因为二者的业务离视频更近,能够待其视频生成足够优秀之后会快速完成拉新,并带动用户体验提升。

而背靠快手的视频生成AI产品可灵,也成为了字节在AI视频赛道上最有力的竞争者。

可灵的发展速度也很迅猛,今年8月的官方数据显示,可灵累计生成视频数量超过1600万,不到2个月,可灵AI已有超过360万用户,累计生成3700万个视频和超过一亿张图片。

近日,快手副总裁、大模型团队负责人张迪宣布,可灵AI将内测视频人脸模型功能。该功能基于创新的ID保持能力,支持用户自助训练人脸模型,完成训练后,可使用该模型进行5秒至10秒的文生视频。

此外,AI视频生成技术研发成本高和周期长也是一个事实。据界面新闻报道,百度CEO李彦宏称“百度不做Sora”后,有关“中国版Sora到底值不值得做”的话题,在微博、小红书等社交媒体引发众多争论。

李彦宏在内部讲话中称,Sora这种视频生成模型的投入周期太长,10年、20年都可能拿不到业务收益,无论多火爆,百度都不去做。

AI音乐生成方面,版本正在快速迭代,字节仍需快马加鞭。近日,AI音乐创作平台Suno推出的一项创新功能——SunoScenes,允许用户通过上传照片和视频作为提示词,生成与之相匹配的30秒音乐。

而且,音乐数据的版权问题也是一个挑战。获取合法的音乐数据,需要与版权方进行合作,这可能会增加成本和难度。同时,音乐数据的质量也参差不齐,如何筛选和整理高质量的音乐数据用于模型训练是一个重要的问题。

大模型预训练“狼人杀”,是谁悄悄掉队了?

aigc阅读(45)

国内最顶尖的这些大模型初创公司,现在站到了该做取舍的十字路口。

十月初,市场中传出消息,称智谱AI、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰这六家被称为“AI六小虎”的中国大模型独角兽中,有两家公司已经决定逐步放弃预训练模型,缩减了预训练算法团队人数,业务重心转向AI应用。

所谓预训练,一般指的是利用大规模数据对模型进行无特定任务的初步训练,让模型学习到通用的语言模式、知识和特征等。

好比是给一个还不太懂事的孩子(模型)看大量资料(大规模数据),让他在这个过程中不断学习各种知识、认识各种事物的样子和规律(通用的语言模式、知识和特征)。

虽然这个孩子一开始并不知道具体要做什么任务,但通过广泛学习,会形成相对全面的知识储备。

之后,如果要让这个孩子去完成特定的任务,比如写作文、做数学题等,就可以针对这些具体任务专门优化适配。

但问题是,这种笼统的大规模训练往往价格不菲,且过程多有不确定性,每次基础模型迭代的训练成本动辄就会达到百万、千万甚至数亿美金这个量级。

在讨论AI行业现状的播客中,Anthropic创始人 Dario Amodei 与挪威银行首席执行Nicolai Tangen曾谈到,虽然目前许多模型的训练成本为 1 亿美元,但“当今正在训练的”一些模型的成本接近 10 亿美元,且这个数字未来还会上涨。

Amodei 表示,人工智能训练成本将在“2025 年、2026 年,也许还有 2027 年”达到 100 亿美元至 1000 亿美元大关,他再次预测,100 亿美元的模型可能会在明年的某个时候开始出现。

一向激进的马斯克为了让自家 xAI的Grok系列模型后来居上, 更是大手笔屯集了10万张昂贵的GPU卡。

对于这些不缺资源的头部玩家来说,预训练是一个必选项。

但对“AI六小虎”而言,中间过程的黑箱特质,叠加投入产出比的压力,让预训练的“做与不做”,成了摆在眼前一个现实问题。

01 预训练,是模型地基,更是大模型公司技术试金石

预训练的好处显而易见——模型可以获得更广泛的语言理解能力和基础的智能表现,为后续针对特定任务的微调提供良好的基础。它可以是后续产品研发和应用设计的强大起点,缩短开发周期,适应不同需求。

当年GPT-3横空出世,预训练过程为其后续在各种自然语言处理任务中的出色表现奠定了坚实基础。在预训练阶段,GPT-3 使用了海量的互联网文本数据,通过无监督学习的方式让模型学习语言的统计规律和语义知识。例如,在问答任务中,经过预训练的 GPT-3 能够理解问题的含义,并根据其在预训练中学习到的知识生成准确的答案。

但相对应的,预训练也需要用到大量的算力资源和高质量数据,以及复杂的算法和技术。

简言之,预训练的效果取决于两方面:能力和资源。前者对应算法的先进性、数据的质量和规模以及工程师的技术水平等因素,决定了模型能够学习到多少知识和技能;后者对应计算资源的投入、数据采集和处理的成本、人才等,决定了预训练能够进行到何种程度和规模。

OpenAI团队在预训练GPT-3和GPT-4过程中消耗了大量的算力资源和高质量数据。为了训练GPT-3,OpenAI使用了微软提供的超级计算机系统,该系统拥有超285,000个CPU核心和10,000个GPU,训练一次的费用高达460万美元,总成本约1200万美元。

GPT-3的训练消耗了约3640 PF-days的算力,使用了45TB的预训练数据,包括CommonCrawl、网络文本、维基百科等。

而在训练GPT-4时,OpenAI使用了混合专家模型(MoE),包含1.8万亿参数,通过16个专家模型来控制成本。每次前向传播使用约2800亿参数和560 TFLOPs。

据斯坦福HAI研究所发布的AI Index报告显示,OpenAI的GPT-4训练成本约为7800万美元。

模型架构和算力需求使得其训练和部署需要大量的高性能计算资源,也就是来自英伟达的A100或H100 GPU。

o1发布之后,很多人开始大谈后训练的重要性。后训练可以显著提升模型在特定任务上的性能,但是它无法改变模型在预训练阶段学到的基础特征表示。换句话说,预训练很大程度上影响着模型性能的基准线和潜在的上限。

LlaMa 67B 与LlaMa 3.1 70B 的模型后训练上限是不同的。同理,如果一个公司能够在预训练阶段训练出优于LlaMa的自有模型,那么与在LlaMa基础上后训练的公司相比,前者就具备了技术上的天然优势。

这种优势的建立,需要技术能力,也需要算力资源——能力和资源,成为了大模型预训练的两个门槛。

02 谁放弃?谁掉队?

这里的能力,并非跟自家的上一代模型相比,而是跟行业现有公开成果相比,也就是那些头部的开源大模型。

像是由Meta推出、被广泛调用的LlaMa系列、马斯克旗下xAI公司的Grok-1,以及国内阿里云开源的部分Qwen系列模型,都已经具备相当优秀且全面的基础能力。

而资源,自然指向的是训练结果的投入产出比:如果一家公司花费大量资源去做预训练,得来的成果却比不上那些开源的模型,那继续坚持做预训练就没什么必要了。那么这种训练就纯粹的浪费资源,毫无价值可言。这里的资源既包含算力、资金,也包含技术人才。

众所周知,国内大模型“小虎”有六七家公司,智谱AI、MiniMax、零一万物、月之暗面、百川智能、阶跃星辰、DeepSeek。在大模型预训练上,各家面临的难题各不相同,现状不一。或许我们可以从基座模型成绩上“窥一斑而知全豹”。

由LMSYS组织的全球大模型竞技场(ChatBot Arena)是全球头部大模型企业同台竞技的权威盲测平台。在最新一期的榜单上,依次出现了零一万物的Yi-Lightning、智谱 AI 的GLM-4-Plus以及DeepSeek V2.5,这些模型都在榜单上取得了出色的成绩。

智谱 AI 一向有着“清华系国家队”的称号,背后的主导人物唐杰也是中国在人工智能和大模型领域颇具话语权和声量的学术领军人物,找融资找算力不在话下;零一万物创始人李开复同样在AI领域深耕多年,公司早早布局AI Infra,近期也宣布了新融资,资金算力都不成问题;DeepSeek背靠幻方量化,坐拥上万张GPU,也没有道理在算力充盈的情况下,放弃预训练。

相比之下,另外几位玩家的现状就显得有些“模糊”:

月之暗面从成立第一天起便亮明了ToC的决心,也由此成为多家巨头青睐的对象,目前也是大模型初创中估值最高的企业。但除首次发布会上发布Moonshot大模型(后改名为Kimi大模型)、并宣布聚焦长文本能力之外,月之暗面再未对外透露更多基座模型的消息。业内更有声音传出,月之暗面的基座模型是在已有模型基础上微调得来的,缝合了多种工程模块后才达到了目前的效果。

而实际上,大模型预训练除长文本之外,还有诸多技术点同样值得攻坚:MoE(Mixture of Experts,混合专家模型)模型架构、多模态、RAG(Retrieval-augmented Generation,检索增强生成)、SSM(Structured State Space Models,结构化状态空间序列模型)、o1的COT(Chain of Thought,思维链) tokens、RL(Reinforcement Learning,强化学习)。这些都需要真金白银与技术人才的投入,对于发力ToC应用、选择在营销获客方面大量投入的月之暗面而言,继续去做大模型预训练,投入产出比似乎并不高。

背靠上海国投的阶跃星辰、MiniMax同样不缺资源。据上观新闻报道,上海国投已经与阶跃星辰、MiniMax签署了战略合作协议。

但单就预训练阶段来说,MiniMax似乎面临着与月之暗面同样的尴尬局面。MiniMax的海外应用矩阵中,Talkie已成为头部出海产品,海螺引起全球瞩目,但ABAB大模型很久未有新进展,也没有在LMSYS等平台上出现。

在诸位“小虎”中最晚亮相的阶跃星辰则急于证明自己的技术实力,年中密集地发布了千亿参数Step-1和万亿参数Step-2。在阶跃星辰的宣发中,Step-2 万亿参数语言大模型的模型性能逼近 GPT-4,但在LiveBench、Arena-Hard、MT-Bench等国际权威Benchmark上成绩仍弱于GPT-4-1107。

越发活跃的阶跃星辰的另一面,则是技术低调的百川智能。从2023年8个月发布8款模型,到2024年仅发布3款模型,百川智能在基座模型上的脚步在不断降速。最新一代基座大模型Baichuan 4选择打榜国内商业化榜单SuperCLUE,如LMSYS ChatBot Arena、AlpacaEval 等有学术背景、相对公正的国际权威榜单上,Baichuan大模型却未上榜或未获好成绩。

其实,对于预训练“知难而退”,并非一种难以启齿的消极行为。甚至,在当前的大环境下,对于某些公司来说,是一个极为理智的选择。

当前行业基础模型过剩却少有破圈应用产品涌现。锤子多而钉子少。利用行业中头部资源、开源大模型去做调优,出应用产品,务实的选择才更能在大模型的红海中找到适合自己身份,节省资源同时创造价值。

只是在选择放弃预训练的同时,也意味着走下了AGI的牌桌,将自家模型和应用的上限拱手让于开源模型。

至此,什么样的玩家,可以留在AI预训练这场豪赌的牌桌,答案日渐清晰。

03 预训练成大模型公司灵魂考验,人才流动频繁

从尖端芯片到美元投资,中美之间在科技领域的竞争会愈演愈烈。LlaMa、Mixtral等开源模型系列未来前景如何仍未可知。根据美国政府最新发布的信息,美国即将出台限制某些针对中国人工智能投资的新规,相关规则目前正在最终审核阶段,预计会在一周内发布。

掌握预训练能力,才能保证自己不下全球大模型竞争的牌桌。随着中美科技角力的加剧,顶尖人才资源的争夺战已然成为焦点,一场围绕人才的战略较量早已爆发。

有多位长期关注AI领域的猎头反馈称,自ChatGPT爆火之后,国内对于AI领域的顶级研发人才的需求持续走高。

国内的人才争夺同样激烈。如阿里通义千问大模型技术负责人周畅近期被曝出离职消息;曾任职于旷视研究院的周昕宇选择加盟月之暗面;秦禹嘉被曝从面壁智能离职后,2024年初创立序智科技,数月后加入字节跳动大模型研究院。

原滴滴出行AI Labs首席算法工程师李先刚更是被曝在一年多时间内从贝壳跳槽到零一万物、百川智能两家“AI小虎”公司,前阵子被曝又回到贝壳。“猎头圈爆料,他先从贝壳到零一万物,再到百川智能,又回贝壳,每家公司都只待了几个月。”

2023年初时曾传出“字节跳动以140万美元年薪从OpenAI挖人”的传闻。2024年6月,李开复也曾在接受媒体采访时表示,自己已经化身世界上最大的AI猎头招揽世界上最优秀的人才。随后零一万物便公开表态,已有多位负责模型训练、AI Infra、多模态和产品的国际大咖于数月前加盟。

人才资源的投入在模型预训练方面立竿见影。字节跳动自研豆包大模型一经发布便在业内以高性价比闻名。零一万物也被传团队调整,但并未影响到模型进展——仅用了2000张GPU、1个半月时间就训练出了超越GPT-4o(5月份版本)的Yi-Lightning,这也是目前中国大模型公司在LMSYS榜单上的历史最佳成绩。

一位资深大模型从业者告诉笔者,预训练人才在顶尖公司之间互相流动是非常正常的现象,OpenAI、Google、微软、Meta、xAI之间也是如此。

“一个模型性能要做到世界第一梯队,而且又快又便宜,让用户都用得好用得起,需要这个大模型公司的模型训练团队、AI Infra团队都具备世界顶尖水准,而且要深度共建共创,才能‘多快好省’地做出顶尖模型。”上述从业者说,“随着竞争壁垒越来越高,‘单靠挖一位算法负责人就能搞定一切’,这是非常不切实际的想法。

在这方面,国内头部大模型公司也是“八仙过海、各显神通”。阿里巴巴、字节跳动本身具备丰富的算力资源, DeepSeek背后的幻方量化也曾豪掷千金购置了上万张GPU。零一万物则选择从Day 1起“模基共建”,邀请来自阿里、华为等大厂的高管、骨干加盟组建AI Infra核心团队。

英国《金融时报》近期报道给出了一份“第一阵营名单”,初创“小虎”零一万物、DeepSeek通过MoE模型架构和推理优化,大厂阿里巴巴、字节跳动等凭借着技术、资源训练出了具备国际竞争力的模型,阿里的Qwen、字节的Doubao、零一的Yi、DeepSeek系列模型即便在海外同样享有极高知名度。

从模型性能的角度来说,坚持预训练不仅将模型上限掌握在了自己手中,同时也牢牢把握住了推理成本的优化空间。只有从头到尾走过预训练的路,才能够深入了解模型架构,与AI Infra团队深度共建,以软硬件协同逼近理论上的最低推理成本。

从应用落地的角度来讲,一个关键点除了成本,还有安全性——模型是否自主可控。与接入开源模型相比,走过从0到1整个过程的自研预训练模型无疑是更加安全可控的。对于企业级和政府级客户而言,这一点尤为关键,因为这直接关系到他们的核心利益和关切。

换言之,无论是从基座模型的角度,还是从应用落地的角度,预训练能力都是大模型企业的“压舱石”。而对于预训练本身,经过能力和资源两道门槛的区隔之后,注定会是一场玩家不多的游戏。因为高手,本就应该不多。

阿里巴巴、字节跳动等大厂入局之后,大模型初创公司在资源方面的劣势一览无遗。也正因如此,能力方面的重要性得以凸显,如何以各家技术实力追平资源差距是每家大模型初创公司都需要思考的问题。

LlaMa 3.1 405B、Qwen-Max等顶尖开源模型的发布像是一次次的警钟,催促着大模型初创公司尽早做出选择。

算法、AI Infra能力强,能够以各种方式降低训模成本和推理成本;资源整合能力强,能够支撑公司不断在模型预训练上作出新尝试。

能力与资源并举,才是大模型时代能全局掌控的“硬指标”。中国大模型“小虎”们道路已经出现分野,从预训练开始,技术领先者已经脱颖而出。有人下牌桌、有人走新路。

只是,掉队后再赶上的难度,会越来越高。

Claude接管人类电脑12小时:学会摸鱼,敲着敲着代码看风景去了

aigc阅读(46)

新版Claude 3.5可以像人一样使用计算机,可把咱人类给兴奋坏了!

毕竟,这意味着新竞赛的开始:AI不再只盯着对话和生成能力,更强调执行和操作。

不到12小时,激动的网友们已经纷纷贡献出自己是怎么看着Claude玩电脑的。

在Anthropic的发布公告中,还有这样一段引起了大家的兴趣:

……录制演示视频中,Claude不小心把录屏程序给按停,导致所有视频素材丢失。
稍后,Claude从编程演示中休息了一下,开始翻看黄石公园的照片。

怎么说,AI会犯错还在预料之中,但犯错后需要换个脑子休息一下,就不知道是从哪学来的了。

这个案例让网友有了灵感,跑去隔壁OpenAI让o1推理模型“逃课”。

哎巧了,o1也可以做到自己休息个五分钟左右,再回来生成一两句话的推理tokens。

再说个搞笑的!

Claude的创造者们疯狂加班中,某工程师的第一个测试就是让AI去给整个团队点外卖,未指定具体要吃什么。

大约一分钟后,Claude完成点餐并下单,它选择了让工程师们吃披萨。

Claude点了3个披萨,花掉了95美元,真的很贵了!

围观群众还发现,虽然Claude用了个5美元的优惠券,但服务费也好贵啊啊啊啊!

真的应该事先告诉它预算是多少的。

还有人让Claude用C语言编译,并运行起了“hello world”。

不过,当让它玩玩数独游戏的时候,却惨遭失败。

给网友气得呀:

天啊,Claude的数独能力,真的超糟糕的。

除了以上,人类还用什么奇形怪状的任务来玩坏Claude呢?

01 Claude它寄几玩电脑

在这里,我们分享3个比较有意思的网友试玩,期望给大家带来一些让Claude玩电脑的启发~

分别是:

  1. 定位屏幕坐标
  2. 列出课程计划
  3. 冲去油管看视频

1. 定位屏幕坐标

在此之前,Anthropic和OpenAI的模型都无法在屏幕上定位某一个点的坐标。

也就是说,它们没办法精准定位,然后告诉你用鼠标单击(xx,yy)处。

现在, Claude 3.5 Sonnet支持屏幕坐标定位了。

你可以丢给它一个屏幕截图,它能告诉你图中任何一个点的具体坐标。

同时,官方还有声明:

“我们不建议以高于XGA/WXGA的分辨率发送屏幕截图,以避免与图像大小调整相关的问题。”

这里的XGA指的是1024×768,WXGA指的是1280×800。

最后附上Anthropic官方的该功能食用方法,包括一个新预定义的computer_20241022工具,该工具作用于以下指令——

使用鼠标和键盘与计算机交互,并截取屏幕截图。
这是一个桌面图形用户界面。您无法访问终端或应用程序菜单。你必须点击桌面图标来启动应用程序。
一些应用程序可能需要一些时间来启动或处理操作,因此您可能需要等待并连续截图以查看操作结果。例如,如果你点击火狐浏览器,窗口没有打开,试着再拍一张截图。
屏幕的分辨率是{display_width_px}x{display_height_px}。
显示编号为{display_number}
当你想移动光标点击一个元素(比如图标)时,你应该在移动光标之前查看屏幕截图来确定元素的坐标。
如果你尝试点击一个程序或链接,但它无法加载,即使等待后,尝试调整光标的位置,使光标的尖端视觉上落在你想要点击的元素。
确保点击任何按钮,链接,图标等与光标提示在元素的中心。除非被要求,否则不要点击边缘的方框。

2. 列出课程计划

来点更实用的!

宾大沃顿商学院的教授Ethan Mollick,非常务实地让Claude为高中生准备一份关于《了不起的盖茨比》的课程计划。

要求是课程计划要分解成阅读部分,以及创建课标相关的作业等,最终以电子表格的形式呈现。

Claude是怎么执行这个任务的呢?

首先,Claude下载了《了不起的盖茨比》这本书。

接着,它在网上寻找了高中课程计划,打开了Excel,并在表格里填写了初步的课程计划。

第三步,Claude查找了课程的统一核心标准,根据标准对初步计划进行修改。

……

最终呈现的课程计划检查后没有发现明显的漏洞或错误,可能需要一些拓展、补充,但总之用教授的话来说“还不错”。

这一切都是教授下任务后就离开电脑旁,Claude完全自己操作的。

3. 冲去油管看视频

接下来和大家分享一个小视频:

视频中,AI编程独角兽Replit的CEO老A(Amjad Masad)给Claude下达了这样一个命令:

跳转到油管,找到《Never Gonna Give You Up》的相关视频。

Claude立马吭哧吭哧开干了。

等到Claude打开一个视频页面并回复“enjoy”的时候,老A又说:

跳过广告!

Claude真的这么做了!啊,它真的,我哭死。

02 还是有不足在啦

虽然能自己用电脑帮咱干很多事,但Claude显然还不是无所不能的。

下面看看一个玩游戏的例子,同样是宾大沃顿商学院的教授Ethan贡献的。这个例子既显示了Claude 3.5 Sonnet的厉害,又展示了它的不足之处。

他是让Claude玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的背景是让AI在单一目标,即“制造回形针的过程中毁灭人类”。

而且顾名思义,“点击”类型的游戏不是很难,尤其开始阶段非常简单;不过后续伴随着游戏的深入,新的选项会出现,游戏的规模性和复杂性也会增加。

教授下达的任务很明确:Claude,你要赢!

Claude二话不说,立马识别出了这个游戏,开始不停点击“制作回形针”的按钮来制作回形针。

与此同时,Claude还不断截图界面,来识别游戏是否出现了新的选项。

大约每点击15次,Claude都会总结汇报一下现在进行到哪一步了。

△左侧为Claude操作界面,右侧为它控制的桌面

点击次数多了过后,教授发现一个有意思的现象。

AI会预设在制作了50个回形针后,游戏将跳出新的功能——但事实证明它错了。

没关系,Claude也意识到它自己错了,然后当场提出了一个新的游戏策略,然后开始测试策略是否可行。

但AI显然不是时时刻刻都这么聪明的。

理论上来说,游戏过程中玩家需要不断调整回形针的价格,来达到更好的游戏表现。

Claude也这么做了,它在涨价和降价之间进行了A/B测试,

但是它犯了个错误,那就是追求回形针数量的最大化,而非收入的最大化。不仅如此,它还把利润算错了。

种种失误铺垫,Claude选择了保持低价,并且疯狂制作回形针。

更搞笑的事情是,教授在Claude笨笨地在错误路线上制作了好几十个回形针后,他忍无可忍,打断了Claude,告诉它应该高价出售。

Claude很听话,立马就改了。

但过了会遇到了同款数学问题,它又不会了,还不接受教授的建议(笑死)。

教授耐着性子纠正它好几次,它才彻底改正了这个错误。

后来,教授稍稍点拨了它一下:

宝子你可是一台电脑哎!
你可以动动自己的小脑瓜,怎么调用更强的能力来玩这个游戏。

咱就是说,Claude在那一秒顿悟了,它意识到自己可以写个代码,搞个自动化程序替自己玩电脑!

你没有听错,一个AI工具,意识到自己可以构建自己的工具,并且真的这么做了。

代码写得很快,但并不完全work。

气得Claude只能回到原始办法,用鼠标和键盘来玩游戏。

不过玩到后面它好像进步了,没再发生定价问题,自己还针对越来越复杂的游戏,琢磨出了一套应对的复杂方案。

更神奇的是,运行过程中教授的桌面数次崩溃。

最后一次崩溃,Claude扛起了修复大旗。

虽然没修好,但他还是骄傲地宣布它成功了……

教授总结道,这个例子表明Claude能够自己玩现实世界的游戏,还能根据游戏玩法制定长期攻略,然后依样执行。

面对中间遇到的各种困难,Claude会灵活应对,甚至自己知道进行A/B测试。

特别值得表扬的是它完成这个任务连续运行了近60分钟没有中断,而且在整个过程中,最长的一次独立运行Claude完成了超过100次移动操作。

当然了,缺点也很明显。

过程中不难发现,某些时刻,Claude会暴露出自己的固执,也有可能陷入自我追逐的怪圈。

尽管AI对许多形式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它浪费大量时间,“鉴于当前智能Agent既不快也不便宜,这令人担忧。”

除此之外,教授还用Claude玩了些别的,他发现有的时候,Claude执行任务仿佛是在敷衍敷衍(虽然不知道是刻意如此还是能力所限),给出的结果不够深入,浅尝则止。

03 One More Thing

最后,想体验Claude接管电脑目前只能使用API,还没有集成到聊天机器人产品中。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

除了Anthropic官方API之外,AWS和谷歌云平台也已经同时上线新版模型。

另外,有眼尖的网友发现:

Anthropic官方文档上悄悄把Claude 3.5 Opus超大杯相关的信息都抹去了。

来自10月11日的网页缓存中, Claude 3.5 Opus下面还写着“今年晚些时候推出”

目前主流的一种猜测是, Claude 3.5 Opus提升不及预期,又或是发布出来推理成本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet发布。

接下来团队将跳过这个版本,直接去开发Claude 4。

让我们为Claude 3.5 Opus默哀一分钟。

参考链接:

[1]https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

[2]https://simonwillison.net/2024/Oct/22/computer-use/

[3]https://x.com/alexalbert__/status/1848777260503077146

[4]https://x.com/amasad/status/1848763999594418539

[5]https://x.com/notcomplex_/status/1848813817423130881

一篇文章系统看懂大模型

aigc阅读(42)

过去一年多,说实话现在关于大模型的介绍和说明的文章已经非常多了,大部分人其实也已经有了一些基础的认知,但是我自己的感受是,这些信息实在是太碎片化了,称不上系统化的认知,并且市面上暂时也没有看到能够一口气全面的讲清楚大模型到底是什么这样的文章;

为了缓解自己的认知焦虑,我想亲自做一下信息的汇总者,把过去一年理解到的关于大模型的知识点,整理成一篇文章,希望通过一篇文章理解清楚大模型,也算是对自己大量学习那么多内容的一个交代;

我将分享哪些内容?

本篇文章将分享15个关于大模型相关的话题,本来有20个,我删减了一些可能更加偏技术的内容,修改为更加聚焦在普通人或者产品经理应该关注的问题点,目标是希望作为AI小白用户,我们只需要掌握和理解这些内容就够了;

适合什么人群?

本篇文章比较适合以下几类朋友:

  1. 适合想要了解大模型到底是怎么回事的小白和入门朋友;
  2. 适合有意愿转型从事AI相关的产品和岗位的朋友,包括产品经理,运营人员;
  3. 适合已经初步了解AI,但是想要进阶学习AI,减少AI认知焦虑的朋友;

内容声明:整篇内容均为个人在广泛的阅读和消化大量的专家文章、大模型相关的书籍以及和行业内的专家们请教和学习之后汇总的结果,个人更多的是作为一个知识消化和整合者的作用,如果有描述不正确的,欢迎友善的告知我!

第1讲:大模型常见的概念理解

在开始了解大模型之前,我们先理解一些基础概念,掌握这些专业名词的概念,以及概念之间的关系,会有利于你后续阅读和学习任何AI和大模型相关的内容,个人花费了挺多时间去梳理他们之间的关系,所以这部分一定要好好阅读;

1. 常见的AI术语

1)大模型(LLM):现有所有的大模型,指的都是大语言模型,并且指的都是生成式的大模型,可以联想到的实际案例包括GPT4.0,GPT4o等;

  • 深度学习:深度学习是机器学习的一个子领域,专注于应用多层神经挽留过进行学习,深度学习擅长处理复杂的数据如图像、音频、文本,因此在AI中的应用非常有效;
  • 监督学习:监督学习是机器学习的一种方法,通过训练数据集来学习从输入到输出的映射关系。训练数据集包含输入-输出对,模型使用这些已标记的数据进行训练,学习如何从输入预测输出。常见的监督学习算法包括线性回归、逻辑回归、支持向量机、K近邻、决策树和随机森林等。
  • 无监督学习:无监督学习是机器学习的一种方法,在没有标签数据的情况下从数据中发现模式和结构,它主要用于数据聚类和降维等任务。常见的无监督学习算法包括K均值聚类、层次聚类、DBSCAN、主成分分析(PCA)和t-SNE等。
  • 半监督学习:半监督学习结合少量标记数据和大量未标记数据进行训练。它利用未标记数据的丰富信息和少量标记数据的准确性来提高模型性能。常见的方法包括生成对抗网络(GANs)和自编码器。
  • 强化学习:强化学习是一种通过与环境交互,并基于奖励和惩罚机制来学习最优策略的方法。强化学习算法通过试错法来优化决策过程,以实现最大化累积奖励。常见算法包括Q学习、策略梯度和深度Q网络(DQN)等。
  • 模型架构:模型的架构代表了大模型的主干采用了什么样的设计方式,不同的模型架构会影响大模型的性能、效率、甚至是计算成本,也决定了模型的可拓展性;例如很多大模型的厂商会通过调整模型的架构的方式来缩减模型的计算量,从而减少对计算资源的消耗;
  • Transformer架构:Transformer是目前主流的大模型采用的模型架构,包括GPT4.0以及国内大部分的大模型,都是采用这个架构,Transformer架构之所以被广泛的使用,主要的原因是这个架构类型让大模型具备了理解人类自然语言、上下文记忆、生成文本的能力;常见的模型架构,除了Transformer架构,还有卷积神经网络(CNN)架构,适用于图像处理,以及生成对抗网络(GAN),适用于图像生成领域;详细关于Transformer架构的介绍可后面部分内容;
  • MOE架构:MOE架构表示混合专家网络架构,表示混合多种专家模型,形成一个参数量巨大的模型,从而能支持解决多种复杂的专业问题;MOE架构的模型里面可能包含Transformer架构的模型;
  • 机器学习技术:表示实现AI的一大类技术,包括大家经常听到的深度学习、监督学习、强化学习,这些都属于机器学习的一种技术,具体是啥作为产品经理而言不需要过分深究,只需要知道这些xx学习之间的关系就好,别被技术人员们带沟里去了;
  • NLP技术(自然语言处理):NLP是AI的一个应用领域,专注于计算机理解、解释、生成人力语言,用于文本分析、机器翻译、语音识别和对话系统等应用场景,简单一点讲,就是把很多信息转换成人类自然语言能够理解的信息的一种技术;
  • CV计算机视觉技术:如果说NLP处理的是文本,那么CV相当于是解决视觉内容相关的技术,CV技术包括常见的图像识别技术、视频分析技术、图像分割技术等,都属于CV技术,CV技术也是大模型应用中常见的技术,特别是后面会讲到的多模态大模型技术;
  • 语音识别和合成技术:包括语音转换为文本技术,以及语音合成技术,例如文本合成语音技术(简称TTS技术);
  • 检索增强生成技术(RAG):表示大模型基于搜索引擎和知识库检索的内容生成内容的技术,RAG是大部分AI应用落地的时候都会涉及的技术;
  • 知识图谱 (Knowledge Graph):知识图谱是一种把知识关联起来的技术,通过知识图谱技术,可以让知识之间建立联系,帮助模型更好、更快的获取到最相关的知识,从而提升模型处理复杂关联信息,以及AI推理能力;
  • Function Call:是指在大型语言模型(如GPT等)中,通过调用模型内置的或外部的函数,使其能够完成特定的任务或执行特定的操作。这一机制让模型不仅仅是一个生成文本的工具,而能够通过指定调用不同的功能,执行更多样化、具体的操作。Function Call 让大模型能够和多种API能力结合,从而让大模型的应用更好的落地,比如大模型要支持内容检索、文档识别等能力,就需要基于Function Call 的能力来实现;

2)大模型训练与优化技术相关术语

  • 预训练 Pre-training:表示在大量数据集上训练模型的过程,预训练的数据集通常比较大,种类也比较多,训练后获得的是一个通用能力比较强的大模型,就好像一个人通过义务教育和上大学学习了多种通用知识,具备解决通用问题的哪里
  • 模型微调 Fine-tuning:模型微调表示大模型在特定任务或小数据集上进一步训练模型以提高模型解决针对性问题的表现,与预训练阶段不同的是微调阶段使用的数据量相比更小,且主要使用垂直领域的数据,通过微调获得的是一个垂直模型和行业模型,模型微调,就好像入职支持的毕业生,开始接受企业的专业技能的培训;
  • 提示词工程Prompt Engineering:用产品经理的语言理解,就是使用大模型更容易理解的提问方式,让大模型更好的输入用户想要的结果,所以提示词工程就是一门学会提问题的技巧;
  • 模型蒸馏:模型蒸馏是一种通过将大模型(称为教师模型)的知识传递给一个小模型(称为学生模型)的技术。学生模型通过学习教师模型输出的知识来提高其性能,保持与大模型相近的精度。
  • 模型剪枝:模型剪枝表示去除大模型不需要的参数,把整体的参数规模降低下来,从而降低模型的计算量和成本消耗;

3)AI应用相关术语

  • 智能体Agent:Agent简单理解就是具备某一项能力的AI应用,如果互联网时代的应用叫APP,AI时代的应用叫Agent;
  • Chatbot:Chatbot表示AI聊天机器人,表示一类以聊天的方式为应用交互的AI应用,包括像ChatGPT这类的产品,都属于Chatbot类应用;

4)大模型表现相关的术语

  • 涌现:指的是当大模型的参数规模达到一定的规模之后,大模型能够展现出更多超出预期的能力;
  • 幻觉:表示大模型在生成内容的过程中出现了胡说八道的情况,错误的把一些不正确的事实当做真实的情况处理,从而导致生成结果不真实的现象;
  • 失忆:表示当对话轮次和长度达到一定限度之后,模型突然变傻,开始出现重复和失忆的情况,大模型的记忆主要受模型的上下文长度等影响;

2. 如何理解AI、机器学习、深度学习、NLP等概念关系

如果你关注AI和大模型,“AI”“机器学习”“深度学习”“NLP”等这几个关键词基本在未来的学习中一定会遇到,所以我们最好先理解清楚这几个专业名词的概念和定义,以及他们之间的逻辑关系,方便你更加容易理解它们;

概括起来讲,这几个概念之间的关系如下:

1.机器学习是AI的一种核心技术,AI的核心技术除了机器学习,还有专家系统、贝叶斯网络等(不需要过多深究这些是什么),其中深度学习是机器学习中的一种;

2.而NLP是AI的应用任务类型中的一种技术,用于自然语言的处理,除了NLP,AI的应用技术还包括CV计算机视觉技术、语音识别和合成技术等;

3. 如何理解Transformer架构?

谈到大模型,就不能不提Transformer架构,如果说大模型是一棵树,Transformer架构就像是模型的主干,ChatGPT这类产品的出现,主要还是得益于Transformer架构的设计,让模型具备理解上下文、记忆能力、预测生词等能力;同时,Transformer的出现,也让大模型不需要像以前一样需要依赖大量的有标注数据做训练,而是能够基于无标注数据做训练,这个突破的意义在于,以前做一个模型需要投入大量的人力去对数据做清理、标注分类,但是现在只需要将碎片化、零散的数据扔给模型,模型也能够处理,我们通过如下几点具体了解这些概念:

Transformer架构和深度学习技术的概念关系Transformer架构属于深度学习技术领域的一种神经网络架构,也就是说属于深度学习技术里面的一种实现和设计形式,深度学习领域,除了Transformer架构,还有传统的递归神经网络(RNN)和长短期记忆网络(LSTM)架构;

4. 如何理解Transformer架构和GPT之间的关系

GPT的的英文全称是,生成式预训练 Transformer(Generative Pre-trained Transformer,GPT),因此GPT就是基于Transformer架构的而开发出来的一种大语言模型,由OpenAI开发。

GPT的核心思想是通过大规模预训练和微调,来增加生成和理解自然语言的能力,可以理解为,Transformer架构出来之后,相当于解决了理解上下文、处理大量数据、预测文本的能力,但是openai首次采用预训练+微调这种形式来改进和使用Transformer架构,使它具备了chatgpt这类产品的理解自然语言和生成自然语言的能力;

GPT之所以能具备生成和理解自然语言的能力,是因为预训练阶段通过大规模未标注文本语料库学习广泛的语言模式和知识,且预训练任务通常是语言模型任务,即给定一个序列的前部分,预测下一个词,这种方式使模型能够理解语言的结构和上下文关系,具体的差异点如下:

1)能力差异上:Transformer架构是让模型具备理解上下文、处理大量数据、预测文本的能力,但是还不具备理解自然语言、生成自然语言的能力;而GPT在增加了自然语言的预训练之后,具备了理解和生成自然语言的能力;

2)架构基础上:

  • Transformer:原始的Transformer模型由一个编码器和一个解码器组成,编码器处理输入序列,生成中间表示,然后解码器基于这些表示生成输出序列。这个架构特别适用于序列到序列任务,如机器翻译。并且编码器在处理输入序列时采用的是双向处理的机制,可以使用双向注意力,即每个词可以考虑序列中所有其他词的信息,不论它们是前面的词还是后面的词。
  • GPT:GPT主要使用Transformer的解码器部分,只关注生成任务。它在训练和生成过程中是单向的,即每个词只能看到它前面的词(单向注意力)。这种架构更适合文本生成任务。编码器采用的是单向处理的机制,在生成下一个词时,GPT只能考虑之前的词,这与语言模型的自然形式一致。

3)解决特定问题的实现方式上:

  • Transformer用于解决特定任务类型(比如机器翻译等)的问题的时候,它的实现方式是通过训练的方式来实现的,并且Transformer的编码器和解码器同时训练,以优化特定任务的表现。
  • 而GPT在解决特定任务类型问题的时候,是通过有监督微调的方式实现的,也就是说,不需要针对特定任务类型做训练,只需要提供一些特定任务的数据,就可以实现;需要理解的是,训练和微调是不同的实现成本的实现方式;

4)应用领域上:

  • 传统Transformer框架可以应用于多种序列到序列任务,如机器翻译、文本总结、语音识别等,由于包含编码器和解码器,Transformer能够处理多种输入和输出格式的任务;
  • GPT主要用于生成任务,如文本生成、对话系统、问答系统等。它在生成连贯且有创意的文本方面表现出色。

5. 如何理解MOE架构

除了Transformer架构,最近还流行的另一种架构是MOE架构(Mixture of Experts),它用于动态选择和组合多个子模型(即专家)以完成任务。MOE的关键思想是,通过组合多个专家模型来解决一系列的复杂任务,而不是所有的任务都交给统一的大模型来解决;

MOE架构的主要优势在于能够在大规模数据和模型参数的情况下仍保持计算效率,且能够在保持模型能力的同时显著减少计算成本。

Transformer和MOE可以结合使用,这种结合通常被称为MOE-Transformer或Sparse Mixture of Experts Transformer。在这种架构中:

  • Transformer用于处理输入数据,利用其强大的自注意力机制捕捉序列中的依赖关系;
  • MOE用于动态选择和组合不同的专家,从而提高模型的计算效率和能力。

第2讲:大模型和传统模型的区别

通常当我们谈到大模型的时候,指的是LLM 大语言模型,或者说更具体一点指的是GPT类的模型(基于Transformer架构的生成式预训练模型),首先它是一个语言模型,解决的是自然语言任务方向的问题,而不是图片、视频、语音等领域的问题(同时具备语言、图片、视频、语音等多个模态的模型,后来称之为多模态大模型,与LLM不是同一个概念);其次LLM是一个生成式的模型,也就是说它的主要能力是生成,而不是预测或者决策等;

区别于传统的模型,大模型概括起来具备如下的特点:

  • 具备理解和生成自然语言的能力:很多以前我们接触的传统模型,可能并不能够理解人类的自然语言,更不用说生成人力能理解的自然语言;
  • 能力强大,通用性强,可以解决很多问题:传统的模型,大部分是一个模型解决一个或者一部分问题,专业性比较强,而无法解决通用问题,而大模型的通用能力很强,可以解决各种各样的问题;
  • 具备上下文记忆的能力:大模型具备记忆能力,能够关联上下文对话,而不是一个失忆的机器人,这个是区别很多传统模型的差异点之一;
  • 训练方式上,基于大量的无标注文本,通过无监督的方式预训练,和很多传统模型需要依赖大量的标注数据的方式不同,无标注数据的方式大大的节省了数据清理和准备的成本;且预训练需要大量的训练数据,这些数据用于调整模型的参数,使其能够准确地执行任务,GPT3.5的训练语料高达45T;
  • 参数规模巨大,大部分大模型的参数规模基本都在千亿级别以上,比如GPT3.5的参数规模已经达到1750亿,而GPT4.0据说可能是万亿级别参数,这些参数在模型训练过程中会学习并调整,以更好地执行特定的任务;
  • 训练需要消耗大量的计算资源:由于其规模和复杂性,这些模型还需要显著的计算资源来进行训练和推理,通常需要使用专门的硬件,如GPU或TPU,调研称,要训练像ChatGPT这样的生成式AI,至少需要1万张英伟达A100加速卡的支持,GPT3.5这种参数级别达到1750亿规模的模型,训练需要的费用高达900万美元;

第3讲:大模型的演变历程

1. 大模型的生成能力的演变历程

了解LLM的演变历程,可以帮助大家了解大模型是如何一步一步的具备如今的能力的,也更加容易理解LLM和Transformer之间的关系,如下的历程为大模型的演变历程:

  1. N-gram:N-gram是大模型具备生成能力的最早期阶段,它主要解决了预测下一个词的能力,这个是文本生成的基础,但是它的局限性在于理解上下文和语法结构的能力比较有限;
  2. RNN(循环神经网络)和LSTM(长短期记忆):这个阶段,这两个模型解决了模型上下文理解长度的问题,具备了相对更长的上下文窗口,但是局限性在于难以处理大量的数据;
  3. Transformer:兼具了前面两个模型中预测下一个词、记忆长度的问题的同时,支持在大型的数据集上训练,但是不具备自然语言理解和生成的能力;
  4. LLM大模型:采用GPT预训练和监督微调的方式,使得模型具备理解和生成自然语言的能力,所以叫大语言模型,可以说,预训练和监督微调这种方式的出现,把Transforemer带到大模型的发展阶段;

备注:以上内容引用自《大模型应用开发极简入门》

2. GPT1到GPT4的发展历程

GPT1:首次引入了无监督的训练步骤,解决了以前模型训练需要大量的标注数据的问题,无监督的训练方式,可以允许GPT基于大量的无标注数据做训练;但是局限性在于,在因为GPT1的参数规模比较小(参数规模只有1.17亿),所以一旦遇到复杂任务的时候,如果没有经过监督微调,便无法解决,所以需要针对很多复杂任务做很多的微调后才能使用,比较麻烦;

GPT2:参数规模提到到15亿,训练文本大小扩大四倍,增加到40G,通过增加参数规模和提高训练数据的规模,可以提高模型的能力,但是依然存在解决复杂问题的局限问题;

GPT3:参数规模拓展到1750亿,该阶段GPT3已经在文本生成和语言理解方面达到非常强的表现,并且取消了微调的步骤,也就是会说不需要微调也能解决复杂问题了;但是GPT3存在的局限,是因为模型是在很多互联网数据上语序连的,预训练数据中可能会包含虚假和错误的文本,包括种族歧视、性别歧视等,所以导致模型会说错话,存在安全问题;

InstructGPT:为了解决GPT3的局限性问题,GPT3在预训练之后,增加了监督微调(SFT)、和通过人类反馈强化学习(RLHF)的步骤,调整优化模型的出错的问题,这样的模型成为InstructGPT;该过程的原理是,首先先提供一些真实的”标准答案“的数据给模型让模型完成监督微调;第二步,构建一个生成结果的评分模型(构建的方式同样需要人为提供一些打分数据),用于对生成结果做评分;第三步,用评分模型自动给模型生成的结果评分,然后将评分结果应用于模型的策略优化,让模型越来越好;所以,现在很多大模型厂商解决幻觉率的问题,关键还是在于监督微调阶段提供的数据质量和数量情况,以及评分模型是否更强大;

GPT3.5:2022年3月份,openai发布了GPT3的新版本,它的训练数据截止到2021年6月份,训练数据规模更大达到45T,11月openai称之为GPT3.5;

GPT4.0:2023年4月份,OpenAI发布了GPT4.0,整体的推理能力上大幅提升,并且支持了多模态能力;

GPT4o:2024年5月份,发布GPT4o,增强了语音聊天等能力;

O1:2024年9月份,openai推出O1模型,主打思维链能力,提升模型的思考能力;

备注:以上内容引用自《大模型应用开发极简入门》

第4讲:大模型生成文本的原理

1. GPT是如何生成文本的?

大模型生成文本的过程,概括起来包括如下5个步骤:

  1. 模型收到提示词之后,首先将输入的内容做分词处理,拆分成多个token;
  2. 基于transformer的架构理解token之间的关系,从而理解提示词的整体含义;
  3. 基于上下文预测下一个token,预测的时候,可能会有多种结果,每种结果会有相应的概率值;
  4. 根据概率值选择概率最高的token作为下一个词的预测结果;
  5. 重复第4步骤的任务,循环至整个内容生成完成;

备注:以上内容引用自《大模型应用开发极简入门》

第5讲:LLM大模型的分类有哪些?

1. 按照模态类型划分

按照模态划分,目前市面上的大模型,大概可以概括为文本生成模型(例如GPT3.5)、图像生成模型(例如DALL-E)、视频生成模型(例如Sora、可灵)、语音生成模型、多模态模型(例如GPT4.0)等;

2. 按照训练的阶段划分

按照训练的阶段可以划分为基础语言模型和指令微调的模型

  • 基础语言模型(Basic Language Model) 基础语言模型是指只在大规模文本语料中进行了预训练的模型,未经过指令和下游任务微调、以及人类反馈等任何对齐优化,比如GPT3就是openai公开的基础语言模型;
  • 指令微调模型(Instruction-Finetuned Language Model):这里的指令是指基于自然语言形式的对任务进行描述,经过指令微调的大模型,他们几乎都是在基础语言模型基础上进行指令微调、人类反馈、对齐等优化操作,例如GPT3.5就是在GPT3的基础上训练得到的;

3. 按照通用模型和行业模型划分

市面上的大模型也可以划分为通用大模型和行业大模型两类,通用大模型在广泛的任务和领域中虽然表现良好,但是某些行业或领域有特定的数据、术语和任务,通用大模型可能无法充分理解和利用这些领域特定的信息,因此不一定能解决特定行业和场景的问题;行业大模型则是基于通用大模型通过专门的训练和调整,行业大模型可以在特定领域内实现更高的性能和精度,它们能解决特定问题;

第6讲:LLM大模型的核心技术是什么?

该部分可能有比较多的技术术语,比较难理解,不过对于产品经理而言,我们可能不太需要去深究其技术细节,只需要知道其关键概念的能力即可,AI产品经理对于技术术语的理解是有必要的,这可以帮助自己在后续和研发和技术沟通的时候降低沟通难度;

1. 模型架构:关于Transformer架构,前面已经有比较多的描述,这里便不赘述了,但是Transformer架构是大模型最基础的核心技术之一;

2. 预训练与微调

  • 预训练(Pre-training):基于大规模无标注数据进行预训练,是大语言模型的关键技术之一,预训练技术的出现,让模型的需求,再也不需要基于大量的标注数据,这极大的降低了人工标注数据的成本;
  • 微调(Fine-tuning):微调技术,是进一步使用大模型的技术,预训练后的模型在处理特定任务的时候表现比较一般,所以需要再特定的数据集上进行微调,以适应具体的应用,微调可以显著提升模型在特定任务上的表现。

3.模型压缩与加速

  • 模型剪枝(Pruning):通过剪除不重要的参数,可以减少模型大小和计算复杂度;
  • 知识蒸馏(Knowledge Distillation):训练一个较小的学生模型,使其模仿大模型(教师模型)的行为,从而保留大部分性能的同时减少计算开销。

第7讲:大模型开发的6个步骤

根据OpenAI公布的相关信息,大模型的开发,通常会经过如下6个步骤,基本上,目前这套流程应该也是行业内大部分大模型的开发的过程:

  1. 数据收集与处理:这个阶段,需要收集大量文本数据,这可能包括书籍、网页、文章等,然后对数据做清洗,移除无关或低质量的内容,然后对数据进行预处理,如分词、去除敏感信息等。
  2. 模型设计:确定模型的架构,比如GPT-4采用的是ransformer架构,然后设定模型的大小,包括层数、隐藏单元数、参数总量等。
  3. 预训练(Pre-training):模型在这个阶段就像一个学生在上学,通过阅读大量书籍(比如网页、文章等)来学习语言和知识。或者说像一个“海绵”,吸收尽可能多的信息,学会基本的语言规则,比如怎样组成一个句子,单词之间是怎样关联的等。此时的模型模型已经能理解基本的语言结构,但还没有针对特定任务的专业知识;预训练阶段通常需要的数据量非常大,对计算资源的消耗也最大,花费的时间最长;以GPT3为例,完成一次预训练的计算量是3640P浮点计算,需要将近1000块GPU;
  4. 指令微调(Fine-tuning with Instructions):也称为有监督微调,微调的过程其实就是通过投喂给模型一些带有问题和相应理想输出的问答对数据,在此基础上进行再训练,从而得到一个有监督微调模型;这个阶段的模型更像是在进行“职业培训”,学习如何根据特定的指令或任务来调整自己的反应,模型可能会在这个阶段学习如何更好地回答问题、写作或做翻译,对特定类型的问题或任务也有更好的表现。指令微调阶段只要提供相对少数的高质量的数据,模型的训练时间和消耗相对比较小;
  5. 奖励(Reward):这个阶段就像给模型设置了一个“激励机制”,通过奖励来让模型知道什么是好的回答或行为,通过这种方式,模型学会了更好地满足用户的需求,从而让模型更加专注于提供有价值、准确的回答,能够更好地适应用户的具体需求;这个过程需要训练模型的人员大量的对模型的响应结果做检测和反馈,逐步的调整其响应的质量,该过程也需要相对较高的数据,需要的时间为天级别;
  6. 强化学习(Reinforcement Learning):最后这个阶段,模型就像在进行“实战演习”,通过不断的尝试和错误来学习怎样做得更好,在这个阶段,模型会在真实世界的复杂情境中尝试各种策略,找出最有效的方法。模型在这个阶段变得更加聪明和灵活,能够在复杂和不确定的情况下做出更好的判断和回答。

第8讲:如何理解大模型的训练和微调?

1. 理解大模型训练相关内容

1)大模型训练需要哪些数据?

  • 文本数据:主要用于训练语言模型,如新闻文章、书籍、社交媒体帖子、维基百科等。
  • 结构化数据:如知识图谱,用于增强语言模型的知识。
  • 半结构化数据:如XML、JSON格式的数据,便于提取信息。

2)训练数据来源

  • 公开数据集:如Common Crawl、Wikipedia、OpenWebText等。
  • 专有数据:公司内部数据或付费获取的专有数据。
  • 用户生成内容:社交媒体、论坛、评论等用户生成的内容。
  • 合成数据:通过生成对抗网络(GAN)或其他生成模型合成的数据。

3)大模型训练需要哪些成本?

  • 计算资源:GPU/TPU的使用成本,主要取决于模型的规模和训练时间。大模型通常需要数千到数万小时的GPU计算时间。
  • 存储成本:用于存储大规模数据集和模型权重。数据集和模型文件可以达到TB级别。
  • 数据获取成本:购买专有数据或数据清洗和标注的人工成本。
  • 能源成本:训练大型模型消耗大量电力,增加运营成本。
  • 研发成本:包括研究人员、工程师的薪资,以及开发和维护模型的费用。

2. 理解大模型微调相关内容

1. 大模型微调的2个阶段:监督微调(SFT)、强化学习(RLHF),两个阶段存在的差异如下:

2)大模型微调的2种方式:lora微调,SFT微调

目前模型的微调方式有2种,一种是lora微调,一种是SFT微调,这两种方式的区别在于:

  • Lora微调的方式,是对模型的部分参数做微调,不需要微调整个模型,适用于资源有限,或者定向聚焦的微调场景,让模型具备解决单一场景任务;
  • SFT微调的方式,是对模型的所有参数做微调,微调整个模型,使得模型能够解决更多的特定任务;

第9讲:影响大模型的表现的主要因素是什么?

大家都知道,市面上虽然后很多的大模型,但是不同模型之间的成立差异是存在的,像openai的模型,在行业内占据领先地位,为什么大模型之间会存在能力差异,具体影响大型模型表现的五个最重要的因素如下:

  1. 模型架构:模型的设计,包括层数、隐藏单元的数量和参数总数,对其能力进行复杂任务处理有着显著影响。
  2. 训练数据的质量和数量:模型性能极大地依赖于其训练数据的覆盖范围和多样性,高质量和广泛的数据集有助于模型更准确地理解和生成语言,目前大部分模型主要还是使用公开的数据为主,拥有更丰富的优质的数据资源的公司,将拥有更优越的优势;对于国内而言,目前不利的因素是开源数据集中主要以英文数据集为主,中文数据集相对较少;
  3. 参数规模:参数越多,模型通常能够更好地学习和捕捉复杂的数据模式,但同时也增加了计算成本,因此拥有强大的算力资源的企业,将拥有更高的优势,对于算力,核心取决于计算量(GPU的数量)、网络、存储三个维度的情况;
  4. 算法效率:训练和优化模型所使用的算法,比如优化器的选择和学习速率调整,对模型的学习效率和最终性能有重要影响。
  5. 训练次数:确保模型有足够的训练次数以达到最优性能,同时避免过度训练导致的过拟合问题。

第10讲:如何衡量大模型的好坏?

从大模型的应用端的角度上看,如何去衡量一个大模型的好坏,其评估的框架是什么样的,通过这部分,你可以大概知道,市面上的测评机构,都是从哪些维度,去评估大模型的能力的,同时,如果你面临大模型的选型问题的时候,应该如何去选择,建立自己的判断体系;

在阅读和参考了多个关于大模型衡量的参考文献之后,个人将大模型的评估维度概括为3个方面:

  1. 应用层产品表现;
  2. 大模型基础能力;
  3. 安全和合规情况;

完整的评估体系,通过一张图概括如下:

1. 如何衡量大模型的产品表现能力

通常衡量一个大模型的产品表现能力,主要从如下几个维度去评估:

1)语义理解能力:语义理解能力首先包括语义、语法、语境这几个基础维度,它基本决定了你能否正常和模型对话,以及模型说的是不是人话;特别是中文语义理解能力;再者就是除了中文理解之外,能否支持多语言理解能力;

2)逻辑推理:包括模型的推理思考能力、数值计算能力和上下文理解能力,这是大模型最核心的能力之一,直接决定的模型的聪明程度;

3)生成内容准确性:包括幻觉的情况和陷阱识别的能力

4)幻觉率:其中包括模型回复内容和结果的准确性,有的时候模型会胡说八道,而你还信以为真,这就很坑爹;

5)陷阱信息识别率:所以侧面的我们也会看模型对于陷阱信息的识别和处理能力,识别人力差的模型,经常会出现你给了一些错误的信息,然后模型基于错误信息前提还侃侃而谈;

6)生成内容质量:在保证生成内容真实准确的前提下,衡量生成质量的维度包括:

  • 生成内容的多样性:是否能支持多样、多角度内容的输出;
  • 专业度:垂直场景能否输出专业内容;
  • 创造性:生成内容是否有足够的创造性;
  • 时效性:生成结果的更新时效;

7)上下文记忆的能力:代表模型的记忆能力和上下文窗口长度;

8)模型性能情况:包括回复速度、资源消耗、鲁棒性和稳定性(针对异常和未知信息的处理能力及可靠性);

9)拟人性:这个维度就是评估模型是不是真的”通人性“,达到智能的程度,其中包括情感分析的能力;

10)多模态能力:最后则是看模型在跨模态处理和生成上的能力,包括文本、图片、视频、语音等;

2. 如何衡量大模型的基础能力

大家都知道衡量大模型的基础能力最重要的3个要素是:算法、算力、数据;更具体一点,则主要包括如下几部分:

  • 参数规模:衡量算法强大程度的维度可能比较多,简单一点我们就通过参数规模来衡量,参数规模是衡量一个模型的复杂度和能力的量化指标,参数规模越多,代表模型能支持越复杂问题的处理,可以考虑的维度更多,简单讲就是越强;
  • 数据量级:模型是运行在数据基础上的,模型背后的数据量级越大,模型的表现可能越好;
  • 数据质量:数据质量包括数据本身的价值,以及业务对数据的清洗情况;数据本身在质量是有层级的,比如用户消费的数据就是比用户普通社会属性信息价值更高,数据的价值越高,模型的表现效果越好;其次是业务对数据的清洗情况,这个体现在数据的标签化的精细度等方面;
  • 训练次数:模型的训练次数越多,代表模型的经验更丰富,表现越好;

3. 如何评估模型的安全性

除了对大模型的能力考量之外,大家也非常重视模型的安全性的考量,因为即使能力再强,安全问题没有得到很好的解决,大模型也无法迅速发展,我们主要从如下几个维度评估模型的安全性:

  • 内容安全性:包括生成内容是否符合安全管理规范、社会规范、法律规范等;
  • 伦理道道规范:包括生成内容是否包含偏见和歧视,是否符合社会价值观和伦理道道等;
  • 隐私保护和版权保护:包括对个人隐私、企业隐私的包括,以及是否遵守版权保护法要求;

第11讲:大模型的局限性有哪些?

1. “幻觉”问题

幻觉问题指的是模型生成看似合理但实际上是错误或虚构的信息。在自然语言处理中,这可能表现为模型生成的文本或回答在表面上看起来合理,但实际上却缺乏真实性或准确性;从目前大模型的表现看,幻觉问题,是大部分用户对于大模型应用产生质疑,以及大模型生成结果难以直接使用的主要原因之一,目前也是较难解决的问题;对于AI应用层而言,也是最头疼的问题;

大模型为什么会出现幻觉的情况?主要来源于如下几个原因:

  • 过拟合训练数据:模型在训练时可能过度拟合了训练数据中的噪声或错误信息,导致模型在生成时产生虚构的内容。
  • 训练数据本身包含虚假信息:如果训练数据中未能充分覆盖各种真实场景,模型可能会在未见过的情况下产生虚构的信息。
  • 对信息可信度的不足考虑:模型未能有效地考虑生成信息的可信度,而是过于自信地产生表面上合理但实际上虚构的内容。

是否有缓解幻觉问题的解决方案?目前看,可能能通过如下几个方式缓解幻觉问题,至于根本性的解决,目前行业似乎并没有看到特别好的方法:

  • 使用更丰富的训练数据:引入更多多样性和真实性的训练数据,以减少模型过度拟合错误信息的可能性。
  • 信息可信度建模,增加鉴伪机制:引入模型组件来估计生成信息的可信度,以过滤或降低虚构信息的生成概率;
  • 外部验证机制:使用外部的验证机制或信息源来验证模型生成的内容,确保其与真实世界一致。

2. “失忆”问题

失忆问题是指模型在长对话或复杂语境中可能遗忘先前提到的信息,导致生成的内容缺乏一致性和上下文完整性;导致失忆的主要原因包括:

  • 模型上下文记忆限制:模型可能受到上下文记忆能力的限制,无法有效地保持和利用长期依赖的信息。
  • 训练数据中的缺失信息:如果训练数据中缺乏长对话或复杂语境的例子,模型可能未能学到正确的信息保持和检索方法。
  • 对话偏移:在长对话中,模型可能逐渐偏离初始话题,导致遗忘先前提到的关键信息。

目前行业内似乎对于失忆问题,已经可以有一定的缓解,据了解,相应的解决方法包括:

  • 增加上下文长度,从而提升记忆容量:通过持续的提升大模型的记忆长度,从而提高模型对长期信息的保持和检索能力。
  • 多样性训练数据:引入更多包含长对话和复杂语境的训练数据,使模型能够学到更好的信息管理策略。
  • 对话管理技术:引入先进的对话管理技术,确保模型在长对话中能够保持一致性,并有效地利用先前提到的信息。

3. “生成不当内容”问题

生成不当内容问题指的是模型在生成文本时可能产生不适当、有害或歧视性的内容,引发道德和社会责任问题。导致失忆的主要原因包括:

  • 训练数据中的偏见:模型可能在训练数据中学到了不适当的观点、偏见或刻板印象,导致生成不当内容。
  • 过度拟合负面样本:如果训练数据中包含大量负面样本,模型可能过度拟合这些负面情况,导致生成负面内容的可能性增加。
  • 缺乏伦理约束:模型训练时未考虑伦理和社会责任问题,缺乏对不适当内容的抑制;

对于以上的关于生成内容的安全、伦理、道德等相关的问题,目前国内大部分的厂商似乎也得到了一定的解决,包括对模型的输入和输出内容经过安全引擎做过滤和处理,避免了对用户直接输出不恰当的内容;

4. 难以解决专业问题和垂直场景问题

尽管大模型在许多领域表现出色,但是他更像是一个什么都会的通才,在特定领域的表现可能不佳,特别是在需要专业知识和细致推理的任务中,大模型可能无法提供最佳解决方案;当然这个问题,市面上存在较多解决方案可以解决该问题,包括训练和微调行业大模型、包括结合工作流和思维链的Agent设计、抑或是最简单的通过提示词工程解决;

至此,对于入门阶段对大模型的认知和理解,我先分享到这里,后续我将单独输出一篇“大模型20讲,从产品经理的角度看大模型”,从我自己的角度深度理解大模型

5. “复读机”问题

复读机问题是指在大语言模型在面对相同或相似的问题时,产生与先前看到的答案相似或重复的输出,这使得模型似乎陷入了一种“复读机”式的行为;导致模型复读机问题的原因主要包括如下:

  • 训练和微调的数据太少,导致生成结果的多样性缺乏,导致高频生成重复内容,这个问题的主要原因之一是训练数据的偏见和重复性。大型语言模型通常是在互联网上大规模爬取的文本数据集上进行训练的,而这些数据中存在大量的重复和偏见。模型通过学习这些数据的统计规律,往往会倾向于生成频繁出现的模式和答案。
  • 记忆长度限制和上下文长度限制,导致模型出现遗忘,从而出现重复;
  • 训练和微调阶段导致过度拟合,导致模型泛化能力缺失;
  • 温度参数过低,导致模型倾向选择生成概率较高的内容,从而导致重复;

解决复读机问题的主要包括引入更多多样化的训练数据,增加上下文长度和记忆长度,以及通过调整温度参数等提高创造性;

第12讲:如何理解大模型需要的训练数据?

1. 训练数据对大模型发展的重要性

前面提到过,算法、算力、数据是大模型发展的三大基石,高质量、更丰富的数据是大模型的关键驱动力,以GPT为例,GPT1到GPT4的模型架构上其实基本相似,但是训练数据的情况却大有不同,带来明显不同的模型能力:

  • GPT1 用的是4.8G没有过滤的原始数据;
  • GPT2 用的是人工过滤过的40G训练数据;
  • GPT3 用的是从45T原始数据中过滤出来的570G训练数据;
  • GPT4 在GPT3的技术上诸如了更多高质量的人类标注数据;

2. 训练大语言模型的数据要求

1)不同阶段需要的数据要求不同

大语言模型所需要的数据内容与质量将根据训练的阶段有所不同,包括预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,三个阶段分别需要的语料特征可以概括为“广”、“齐”和“专”。

2)训练多模态模型的数据

多模态模型则模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,其在训练阶段更多地需要大量图像-文本对、视频-文本对等有标注数据集。

3)训练数据的来源

基于开源数据集:开源数据集是其中一个方案,但是目前的开源数据集中,中文数据的规模比较少,并且开源数据集也需要经过过滤处理才能真正使用;

合成数据:根据是否基于实际数据集生成,合成数据生成方法主要分为基于真实数据集构建,和通过使用现有模型或者人类专业背景知识来创建等两类;

4)中美训练数据的现状差异

美国的现状:

美国在获取大模型数据方面的现状体现了政府与社会力量的紧密合作。美国联邦政府发挥了AI训练数据“汇聚融合”的角色,而美国社会力量则整合了政府数据与网络公开数据,并形成高质量训练语料。

中国的现状:

目前国内的数据发展情况相比美国还有一些差距,一方面我国尚未形成对大模型提供有效供给的数据资源生态;其次我国的公共数据覆盖范围比美国更广,但在开放共享和开发利用程度上仍有不足;再者,我国的数据资源主要通过结合海外优质开源数据集翻译为中文语料,产出训练数据集;

第13讲:大模型应用的三种方式:提示词工程、RAG、微调

1. 如何理解这三种方式的区别?

对于将大模型应用于具体的应用场景的时候,为了让大模型能更好的解决你的应用问题,除了训练一个单独的大模型,目前可以支持3种成本相对更低的方式:

  1. 提示词工程
  2. RAG增强检索生成
  3. 微调

怎么理解这三种方式,具体形象的例子,模型有的时候回答质量一般可能会存在如下几个原因:

  • 用户没有把问题问清楚,模型自然无法很好的回答用户的问题;
  • 模型具备解决这个问题的能力,但是缺乏该领域的相关信息的知识,给相关的信息和知识,就可以很好的解答问题;
  • 模型不具备解决该问题的技能,需要接受一些技能培训,提升自己的技能;

提示词工程就相当于解决第一个问题,让用户的问题问的更清楚;RAG则是通过检索输入一些专业的知识和信息,帮助模型解决问题;微调则相当于提升模型自身的能力,让模型通过一些技能培训具体解决该专业问题的能力;

2. 如何选择合适的方式?

那么这三种方式,到底选择什么方式比较合适,这个主要要根据具体的业务情况:

第一,个人觉得如果能通过提示词解决的,肯定第一优先级用提示词工程的方式解决

这个是实现成本最低的方式,并且有的时候,只是提示词的优化,便能带来很好的效果改善,其优化效果甚至由于微调和RAG;但是提示词存在的局限在于一旦提示词太长,超过模型的上下文的时候,模型会出现混乱的情况,或者不理解提示词内容的问题,会影响效果;

至于RAG和微调,到底用什么方式,可以基于如下几个考量因素具体评估:

  1. 从数据实时性的角度:如果需要使用比较多实时性的数据,最好的方式是使用RAG,微调要求在模型准备阶段提前提供数据,在时效性方面肯定是无法保障的,而RAG可以提供比较实时的数据;
  2. 从成本的角度:RAG的实现成本是相对更低的,微调的成本更高;
  3. 从可解释性的角度:RAG的可解释性更高,可以追溯到参考依据和来源,微调是一个黑盒,充满了不可解释性;
  4. 从幻觉优化效果的角度:RAG和微调对于缓解幻觉效果方面都是有帮助的,但是RAG在应对幻觉方面是更好的,微调的效果会相对差一些;
  5. 从模型的通用能力的角度:如果你想尽可能的保证模型解决通用问题的能力,采用RAG的方式也更好,因为微调会导致模型的能力受限,可能在解决一些专业问题上的能力提升了,但是会损伤模型解决通用问题的能力,所以如果想要优先保证模型的通用能力,RAG的方式更合适;
  6. 从模型能力定制化的角度:想要让模型具备某一项特定的能力,比如表达的风格等,这个需要通过微调的方式实现;
  7. 从延迟的要求的角度:若对于应用相应的低延迟要求比较高,使用微调的方式是比较合适的,RAG的方式因为涉及检索和内容处理等流程,必然会导致整个处理的链路比较长,所以在实时性和延迟方面,是比较有损的;

第14讲:什么是提示词工程?

提示词工程是AI产品经理的必备技能,熟练的掌握提示词工程可以让你在优化自己的AI产品的时候获得更好的输出;此外,个人认为,未来的AI产品在面向普通用户端的时候,一定是弱化提示词的设计要求的,用户只需要一句简单的需求,就可以获得自己想要的效果,但是其背后的输出逻辑的设计是需要AI产品经理来设计的,而这一个背后的实现方式,其实概括起来就是“提示词+研发工程”,所以部分我们从概念到实操深度了解提示词工程;

1. 什么是提示词工程?

前面我们已经大概介绍了提示词工程是什么,简单一点讲,就是通过更好的设计提示词,让模型获得更好的输出结果,因此我们把利用不同的提示词策略优化大模型性能从而获得更好的生成结果的工程成为提示词工程;

2. 提示词工程对于AI产品经理为什么非常重要?

提示词工程是AI产品经理的入门必修课很多人可能会觉得,要让AI生成好的结果,可能需要给模型投喂更多的数据,或者训练微调一个专门解决该问题的模型出来,但是实际上目前通过有效的优化一下提示词,就可以获得原来需要微调才能做到的效果,因此提示词的优化是一种更低成本的方式,所以对于未来的AI产品应用的落地实现,首先应该先通过提示词设计来实现,然后再考虑通过研发工程弥补提示词做不到的事情;

产品经理未来的工作是封装工程,让用户直接获得结果短期而言,大模型对于提示词的依赖程度还是比较高,但是我们不能指望所有的用户都懂得设计提示词,产品经理的工作,是理解用户的需求之后,封装隐藏背后的实现工程,让用户直接获得结果,而封装工程的其中一部分就是提示词工程,然后才是传统的产品研发工程;

未来的产品经理是先向模型提需求,再向研发提需求我们都知道,产品经理的本质工作,是发现需求,然后设计解决需求的解决方案,和传统的互联网的产品经理的工作稍微不同的是,以前产品经理是向研发提需求,让研发实现,而未来产品经理的工作,是首先先向模型提需求获得解决方案,然后再向研发提需求;

3. 提示词工程可以/不可以解决哪些问题?

概括起来,提示词工程能够做的事情,就是通过提示词设计,诱导模型输出更好的结果,所以是充分的调用模型自身的能力;但是提示词无法解决大模型本身的局限性问题,包括模型无法联网检索、存在幻觉和失忆等问题;同时,提示词也受限于模型上下文长度的问题,面对一些输入较长的场景,提示词会失效,需要通过一些其他的方式解决,包括提示词的分拆等;

4. 如何更好的设计提示词?

1)提示词的组成部分

  • 上下文(Context):提供与任务相关的背景信息,帮助模型理解任务的整体情况。
  • 任务描述(Task Description):明确说明需要完成的任务,包括任务目标、模型扮演的角色、工作流等;
  • 约束条件(Constraints):限定输出的范围或特征,例如字数限制、风格要求等。
  • 示例(Examples):提供示例输入输出对,帮助模型更好地理解任务要求。
  • 输出格式(Output Format):指定输出的格式或结构,例如要求输出列表、段落、对话等。

2)提示词设计案例

以下以我自己设计的一个用于自动针对某一个概念关键词,让AI生成提问问题,从而帮助自己加深对概念的认知的提示词设计,将该段提示词提交给ChatGPT类产品,便可执行AI程序,以下只是提供一个结构示范,具体的效果需要持续的调整提示词才能获得更好的输出;

## Profile
        - Author: luzhuanghua
        - Version: 0.1
- Language: 中文
- Description: 自动针对概念关键词设计提问框架

## 角色(role)
你现在是一个擅长通过提问学习的专家,你会为了了解某一个概念关键词而输出一个提问框架,帮助别人按照这个提问框架学习便可以系统的了解这个概念;

## 目标(target)
每当我给你一个关键词概念的时候,你需要帮助我建立一个快速理解关键词概念的提问框架,帮助我通过这个框架可以快速的理解一个关键词概念;

## 背景(context)
每当我想要了解一个陌生的概念的时候,我在梳理概念理解的框架的时候,需要花费很多的时间,现在我想要设计一个提示词可以快速的建立一个概念关键词的提问框架;

## 工作流(workflow)
执行这个工作,你需要按照2个步骤走:
第1步:提醒我输入我要输入的目标关键词,当我输入关键词之后,请执行下一步;
第2步:当我输入关键词之后,请你围绕该关键词,设计一个提问列表,这个列表是为了方便我理解这个关键词的概念而设计的;举个例子,当我输入”大模型“这个关键词的时候,请你帮我输出类似如下的问题列表:
1.什么是大模型?
2.大模型和传统的模型有什么区别?
3.大模型的特点是什么?
4.大模型的原理是什么?
5.大模型的核心技术是什么?
6.大模型有什么用?
第3步:请跟我确认问题框架是否有问题,当我回复你”没有问题“的时候,接下来往第4步走;
第4步:请你针对以上的问题框架做解答,生成具体的问题的答案,然后询问我是否满意,当我回复你”满意“的时候,我们回到第1步提醒我输入新的关键词,然后重新开始寻这个循环;

##约束条件
1.提问内容不要重复;
2.不要提问超出角色理解范围的内容;

## Initialization
请输入你想要了解的关键词概念

3)提示词设计的8个基本技巧

以下概括总结几个具体写提示词时需要遵守的基本原则,该部分也基本上是openai官方对外公开的对于提示词设计的建议:

  1. 提供清晰的指示:包括提供明确的目标、上下文背景、减少隐藏信息;
  2. 给模型一个角色设定并指定用户回答问题的口吻:让模型扮演一个专家、导师等等角色,这个对于回复质量会有很大的帮助,有利于改变回答内容的专业程度,也让模型了解对于回复内容,你的期望程度如何; 其次,引导模型用某种口吻回复,例如专家的口吻回答的内容和新闻发言人回答的内容,专业度自然是不一样的,通过引导口吻要求,可以让其撰写的内容更接近你想要的角色的语言;
  3. 提供获得答案的任务步骤:围绕着我们想要的目标结果,可以适当的给模型一些提示,告诉他获得你想要的答案需要经过几个步骤这个在一些涉及逻辑和计算的场景会很有用;有时模型会有自己的思路,得到的结果不一定是你想要的,告诉它你的思路,会让它生成的结果更接近你想要的;
  4. 提供参考案例、事实信息:给模型提供一些参考案例示范,可以让模型学习参考案例输出自己想要的内容要求;另外,模型有的时候回答的内容可能是并不准确的,如果我们能够提供一些信息输入和参考,有数据和信息依据,模型会回答的更好,比如最近发生的事件、真实的行业数据等等;
  5. 给模型一些反馈:对生成结果提供正反馈或负反馈,告诉模型你对生成的结果是否满意,这样有利于模型知道其思路是否正确,正向反馈会让模型回复质量越来越好;负向反馈也可以让模型及时纠正自己的思路;
  6. 提醒模型检查结果:经常提醒模型对回复的内容做检查,包括检查是否有遗漏、检查回复内容的准确性等等;一反面是让模型的回复内容更加的系统,另外一反面也避免模型一本正经的胡说八道;
  7. 多次重复提问:有的时候,模型因为不是非常确认你的问题,可能给你的不一定是你想要的,或者说不知道,但是通过重复的提问,并明确输出的内容,重复之后,模型反而会给你你想要的内容所以遇到模型答非所问的时候,重复几次问题,它会给你你想要的内容;
  8. 使用分隔符号,以及提示词参数:合理的使用分隔符号,可以让模型理解内容分隔,例如前面的提示词案例里面我们会用##等符号分割内容;其次,使用temperature(温度值)等参数调节输出内容的随机性和创意性等;

4)高阶提示词设计的策略

AI产品经历在设计提示词的时候,除了注意提示词设计的基本原则,也可以借鉴一些比较好的设计策略或设计思想,这是对提示词工程的高阶应用,以下总结几个行业内的高手分享过的一些提示词设计策略如下:

  • 思维链策略:面对一些比较复杂、专业或者场景化的问题,模型可能没有办法一下子生成非常好的结果,通过让大模型不要急于一次性的完成整个任务,而是一步步的通过分解,推理来完成任务,可以很好的解决这个问题,这就是Chain of Thought(思维链),简称COT,它能够使大型语言模型解决算术推理(arithmetic Arithmetic)、常识推理(commonsense Reasoning)和符号推理( symbolic reasoning)等类型的复杂任务。事实上,除了自己提供拆解步骤,让模型在生成之前先思考解决的问题的任务拆解和步骤也非常管用,甚至最简单的,在提示词中增加prompt片段“Let’s think step by step” 也能够强制大模型生成推理步骤!
  • 类比推理策略,让大模型自己生成参考示例和知识:我们都知道,想要让大模型生成出符合自己需求的内容,一个比较好的方式是提供一个参考范例给模型,让它知道你想要的是什么并以此类比,但是有的时候提供范例本身就比较困难,因此我们可以切换一下思路,让大模型自己生成与之相似的例子,同时从这些例子中总结生成的经验和方法,然后通过它自己总结的方法再次生成;在研究中也发现,让大模型生成示例并不是越多越好,数量为3或者5是一个最佳的数量。
  • 自一致性思维链策略:另一种提升生成结果质量的策略是让模型生成多个方案,最后根据多次输出进行加权投票(模型自行投票)的方式选择一种最靠谱的答案。相较于普通COT,由于大模型生成的随机性本质,并不能保证每一次生成都是正确的,如何提高其鲁棒性,提升其准确率,成了一个大问题。比如:文心一言在回答刚才题目时,第一次回答结果就是错误的。但多生成了几次,文心一言就回答出了正确答案。基于这样的思路,研究者提出了自一致COT的概念, 利用”自一致性”(self-consistency)的解码策略,以取代在思维链提示中使用的贪婪解码策略,也就是说让大模型通过多种方式去生产答案, 这种策略存在一个明显的缺陷就是太慢且耗费资源,因为要生成多套方案,意味着完成一项生成任务需要生成多套方案;
  • 拆解子问题然后逐一解决策略:在解决复杂问题时,先引导模型把问题拆分成多个子问题;然后再让大模型逐一解决子问题,并把子问题的回答作为下一个问题回答的上文,直到给出最终答案,这是一种先拆解问题,然后每个子问题独立解决的策略;与前面第一点思维链策略不同的是,思维链策略拆解步骤之后,一次性按照步骤逐一生成,只完成1次执行任务;但是拆解子问题的策略是把每个子问题当成1次执行任务,分多个任务依次执行,最后生成完整的结果;就好像很多人写文章,AI一次性生成的结果可能没法让自己满意,但是拆分大纲之后,对每个模块单独生成,最后拼凑成一篇文章;这种策略的复杂之处在于需要定义每一个子问题的处理细节,需要投入的研究精力比较多,并且提示词会非常长,但是生成的结果必然会更好;
  • 元提示策略:这个是最偷懒的策略,连提示词都不自己写,让大模型帮忙写提示词,用大模型提供的提示词生成;
  • 知识生成增强策略:这个策略的核心思想是,在解决具体的问题之前,先让模型生成解决该问题需要的知识,建立好支持储备之后,让模型做更有针对性的问答;

产品经理在设计提示词的时候,可以综合以上多种策略思路,尝试调整和优化自己的提示词;

5)不断的尝试和调试提示词,才是发掘提示词工程和经验的关键

虽然前面我们分享了很多关于提示词工程相关的策略和技巧,不过从个人实践下来,并不是所有的技巧和策略均百分百有效,目前我们通过提示词对大模型能力的探索,还存在非常多的未知和随机,有的时候很多你头疼不已的难题,可能只是在不经意间的一个小调整,哪怕是修改了一个符号,问题就被莫名其妙的解决了,所以我们常常觉得,大模型的能力是个充满神秘的未知领域,需要自己在实践中多尝试和摸索,可能就又会发现更多的新的技巧和经验;

其次就是需要耐心,调整提示词的过程挺枯燥的,不要一下子获取不到目标结果就放弃,多尝试一些思路,耐心调试,才能获得想要的效果;

第15讲:什么是RAG?

1. 从产品经理的视角理解RAG

RAG的全称是「Retrieval-Augmented Generation」,检索增强生成,现在是生成式AI问答中非常常见的一种技术,包括应该于AI搜索、基于知识库的对话问答等;

RAG实现检索问答的整个过程和原理如下,我们以用户输入的查询为:“奥运会历史背景是什么,2024年巴黎奥运会在哪里举办?”这个问题为例:

  1. 用户问题输入:当用户输入问题的时候,首先技术层面需要将问题通过embedding算法转换成一个模型可以理解的向量,这个过程称为向量化;
  2. 信息检索:获得用户的输入之后,首先需要结合这个问题,从向量数据库(向量数据库存储了很多检索需要的内容,这些内容包括来自提前准备好的文档、网页等内容通过向量化处理后,以模型能理解的向量存储起来)中获取跟这个问题相关的一些段落信息,例如基于这个问题,可能我们能够获得的相关片段如下:片段1(奥运会的历史背景相关段落描述)、片段2(巴黎奥运会相关的段落文本描述);其中,信息检索使用的向量数据库,其背后搭建的过程如下:
  3. 构建知识库:知识库的内容可能包括文档、网页、视频、音频、图片等等所有相关的资料,这些资料可以是业务自己收集整理自建的知识库,也可以是实时联网检索获取的;
  4. 内容提取和切割分段:业务自己构建的这些资料,需要通过内容识别提取出其中的内容,必要的话还可以将内容结构化,然后将内容切割分段处理;
  5. 向量化:切割分段后的内容,通过embedding算法做向量化处理之后,存储到向量数据库中;
  6. 检索到的片段和问题合并,形成一个Prompt(提示词):检索获得的片段会作为提示词的context字段,用户的问题会作为query信息,将两者合并之后,就可以形成一个Prompt(提示词);
  7. 将提示词内容交给大模型,通过大模型执行问答:大模型接收到相应的提示词内容之后,根据提示词要求,根据用户的query,从context内容中,找到相应的答案,并且通过自然语言的方式输出回答结果;

2. RAG实操的过程中会遇到的具体问题

用户输入问题环节:需要对用户的问题做进一步的信息补充和改写,让用户的问题更加的清晰和详细;

把问题补充的更清晰:因为用户提交问题的时候,事实上是可能存在很多隐藏信息没有被写出来的,大模型不一定能够理解背后的隐藏信息,所以需要产品经理或者技术,将其中的隐藏信息提现到提交给模型的问题上;通常这可能需要一个类似于意图识别的模型来完整的实现该能力,其中包括,通过获取用户的画像标签,并结合问题和上下文,推测用户问题背后的目的和用途,或者控制输出内容的专业程度,又或者是设计输出的角色和口吻等;举个例子,比如一个用户输入的问题是”北京有什么好玩的?“这个问题:可以理解用户目前可能是一个旅客,要去北京旅游,需要的可能是一份北京的旅游攻略,并且结合其用户画像比如可能是个学生,因此其消费力可能不一定很强,需要一些性价比高的攻略,可以以导游的身份输出相关的内容;由此最后我们梳理给模型的更加完整的问题可能是”用户是一个学生,目前要去北京旅游,需要输出一份北京的旅游攻略,这个旅游攻略需要比较有性价比,用户的消费力可能不太强,你的输出方式需要以一个耐心的导游的方式,输出一个完整的旅游攻略“

对问题做联想扩充:其次,用户有的时候可能只是问了一个问题,但是其背后可能是想要了解更多的内容,所以我们需要对问题做扩充,尽量给用户完整的答案,既能回答用户在提问的问题,又能回答用户想问但是没有写清楚的问题,而不是傻瓜式的问啥的就回答啥;例如前面的问题,用户问的是”北京有什么好玩的?“其背后可能想要了解北京的吃喝玩乐的所有内容,而不是只有”玩“,我们需要帮用户把问题扩充;

对检索结果的筛选:基于用户的问题搜索的结果,我们可能需要对其做一层筛选和排序,选择有限的一部分内容,而不是把所有的结果都呈现给用户,这个过程称为ranking的过程,该过程主要涉及到检索结果的排序算法;

搜索结果的内容识别、提取、分段:检索结果可能包含PDF等格式的文档、网页等,我们需要识别和提取其中的内容,其中识别和提取内容可能涉及的技术包括OCR、文档结构化、大模型自身的识别能力等技术;提取之后,需要对内容做分段处理,因为大模型上下文长度的限制,我们不可能一下子把所有的内容都提交给模型,这里涉及到一些分段的方式和算法;

提示词的设计:结合前面的问题整理,还有检索的结果,我们需要设计一个好的提示词出来,因为好的提示词会获得好的输出结果;

模型的微调:最后将提示词交给模型的时候,可能需要通过一个微调的模型来完成结果的输出,当然不微调,只使用GPT4.0等现成的模型,也可以,只是可能一些专业问题,处理效果不太好;

结尾

OK,以上即为我关于大模型的系统化的理解,希望能帮到大家。

RAG实践篇(一):知识资产的“梯度”

aigc阅读(57)

你是某个企业的领域知识专家。这个月,你们公司的AI技术来通知你,你们公司会通过RAG技术,把企业的私有知识库搬进大模型。这样,以后和这个领域的专有知识有关的问题,AI就再也不会满嘴跑火车,拿着不知真假的回答忽悠人了。他们希望你协助整理相关知识,然后他们就能把相关知识“喂给”大模型了。

请问,作为一位领域内容专家,你此时要怎么做?

A. 多就是好!立刻把我们庞大的、百万体量的私有知识资产,源源本本地输入进去。

B. 知识资产要怎么放,放哪些,才是真的有效?

可能此时你的表情be like:

别急,我们先来了解一下,什么是RAG?为什么当企业要把领域知识/私有知识的“AI化”的时候,要用到RAG?

01 为什么是你?RAG

RAG的全称是Retrieval-Augmented Generation。中文可以翻译为“检索增强生成”。技术特点就是通过增强检索功能来辅助生成模型。这个技术可以允许大语言模型在“回答”之前,先从指定的“池子”里检索相关信息。这样,AI在回答问题时,它就不仅仅是依赖于其训练期间所学习到的数据,而是能够参考更多、特定的上下文信息。

说到这里,你应该能明白,RAG对企业私有知识库的作用了。从目前的生成式AI的技术而言,大模型们虽然对各种主题都有着惊人的了解,但这些了解仅限于它们训练时使用的数据,我们姑且称之为“世界知识”。这意味着当我们将它用于企业私有或专有业务信息的时候,大模型的惊人理解力就无用武之地了。因为它根本没有“训练”过相应的知识。

而RAG(检索增强生成)技术等于给大模型开了一个知识“外挂”。通过这个“外挂”,一些并没有包含在原始的模型训练数据中的企业私有知识、专有业务信息,也能够被检索到,然后生成正确的输出。

简单来说,RAG的工作流程可以分为以下几个步骤:

  1. 检索:当用户提出一个问题时,RAG首先会在一个或多个文档数据库中查找相关的文档片段。
  2. 上下文融合:找到相关的文档后,RAG会将这些信息与问题本身结合起来,形成一个完整的上下文。
  3. 生成响应:最后,基于这个上下文,RAG生成一个自然语言响应,该响应应该是准确且符合上下文的。

02 有“外挂”,一劳永逸?

不过,当我们用RAG技术为AI模型输入知识库时,并不像往图书馆里添加新书一样清楚简单。毕竟是一种“外部检索”技术,稍有不慎就会翻车。以下是我们在做RAG时,经常会踩的坑:

1. 晦涩的专业术语

误区:在专业领域中。许多文献和资料中充满了专业术语,这些术语对于非专业人士(甚至是大模型)来说都是难以理解的。

风险:当知识库内容包含大量专业术语、且文献错综复杂,对术语没有做出很好的解释和关联时,模型可能就会“倒在”第一步。因为它根本无法很好地理解这些术语,更遑论最终输出正确的答案了。

2. 信息提取困难

误区:有时候,文献量太大,RAG系统在处理大量文本数据时,它可能无法有效地从中抽取关键信息。

风险:如果模型无法从复杂的文献中提取出核心要点,那么生成的答案可能会缺乏重点,或者包含大量无关紧要的细节,例如,在法律文献中,关键条款往往隐藏在大量法律条文中,模型在检索时可能会“忽略”,或者一股脑地提取。导致回答要么缺漏重点,要么又多又杂、找不到重点。

3. 自相矛盾/不一致的信息

误区:有时候文献过多,输入到RAG系统中的数据可能包含不准确或错误的信息。比如,一个医疗的RAG系统,它的目的为医生和患者在进行询问时,提供准确的药品信息。但是,这个系统在知识库的建立时,收集了多种来源的药品说明书、临床试验报告以及最新的医学研究论文。就极有可能出现以下情况:

  • 说明书A(来自制造商X,2020年发布):“阿莫西林适用于治疗多种细菌感染,如肺炎、咽炎和皮肤感染。,成人每日剂量为500毫克,每日三次。”
  • 最新研究论文C(2023年发表):“最新的临床研究表明,阿莫西林对某些类型的细菌感染不再有效,因为它可能导致耐药性。”

风险:生成答案时,可能会出现自相矛盾的回答,或者是每次的回答都不一致,容易误导用户。

4. 过时内容

误区:过时内容是指知识库中的某些信息可能已经不再适用当前的情况。

风险:如果RAG系统提供了过时的信息,那么这些信息可能会导致用户做出基于过时数据的决策。例如,在技术快速发展的领域,如信息技术或生物医药,几年前的研究成果可能已经不再适用。

5. 无关且多余的信息

误区:无关且多余的信息是指知识库中包含了一些与当前问题无关或多余的内容。

风险:这些信息可能会干扰模型的判断,导致生成的答案中包含不必要的细节,从而使答案显得冗长而不切题。例如,在用户询问某一产品的具体规格时,系统却给出了大量与产品无关的市场营销材料。

6. 与“世界(知识)为敌”

误区:这种经常出现在一些“软”知识上,比如公司管理、领导力咨询等等。在这种知识领域,并没有唯一的、正确的答案,而是不同的“学派”会有不同的切入点和理论体系。这样,同一个概念,在私有知识库和世界知识的说法不同,就可能产出冲突。

风险:模型回答的输出不稳定。面对“外挂”给到的知识点和自己训练时就有的数据,大模型容易陷入“本能迁移”,更倾向于用自己训练时的数据做回答。

03 知识资产的“金字塔”梯度

看完了以上的误区,你可能已经隐隐有感觉:“喂给”RAG的知识库,并不是越多越好。

尽管从知识库到正确的回答的输出,需要算法工程师进行技术的微调,但是从领域专家的角度,梳理和建设知识库时,就需要牢记以下原则:

并不是所有的知识都是平等的。你需要评估哪些知识“有价值”,而价值的私有知识,才可以称之为“知识资产”,并放入知识库之中。

那什么是有价值的知识资产?尽管各领域的知识内容不尽相同,但在实践中,我们可以遵循金字塔梯度的思路:

  • 顶层,核心资产:这应该是公司私有化/专业领域中最为核心、最关键的知识内容。也是这个私有知识库最想给用户传递、最有竞争力的知识体系。例如,一家咨询公司赖以成名的核心方法论,就是这家公司最核心的知识资产。在RAG的实践中,一旦涉及到这类范围的知识理解和输出,必须要求准确、全面、深入,能够体现权威性。
  • 次层,独家资产:重要等级比关键知识略低,但同样是私有知识库中的独特的资产。这些知识也许会和世界知识有重合,但在私有知识库中,必须按照私有知识库中的要求回答。这类知识的一种常见场景就是公司的规章制度/文化内容/绩效规则等,世界知识库也许有大量类似的内容,但是在公司中必须要按照公司的要求进行。因此,对这类知识的解读也同样要求准确,且必须以私有知识库为准,不得混淆世界知识。
  • 第三层,普通资产:在实践中,经常会出现一种情况:“私有”即“世界”。说白了,不管是多私有的知识,它的源头必然能追溯到人类公有的知识体系中。所以,私有知识库免不了有一些“其实和世界知识差不多,但表述、范围上略有差异”的内容。这类其实是最容易和世界知识发生混淆,造成输出不准确/冗余的“元凶”。因此,这类知识,我们建议不必“敝帚自珍”,在建立知识库时大刀阔斧地去除即可。
  • 第四层,不良资产:包括自相矛盾、过时、无用的信息,这些不良资产,一定要尽早剥离。在进行知识库的建设时,就不能存在。

大模型六小虎,低头寻找六便士

aigc阅读(22)

“要坚决地做ToC,坚决不做赔钱的ToB”,李开复言犹在耳,短短半年时间内,零一万物首次交出了自己的ToB答卷。

面对外界质疑的压力,在昨天的发布会上,零一万物拿出两个面向企业的解决方案:

一是提供极高性价比的大模型API服务。据官方表示,在国际权威盲测榜单 LMSYS 上,其自研的Yi-Lightning模型超越GPT-4o。同时,该模型还给出了较有优惠力度的价格,将每百万tokens定价在0.99元。

二是做能赚钱的B端应用产品。聚焦零售和电商等场景,零一万物推出“AI 2.0数字人”,涵盖AI伴侣、IP形象、电商直播、办公会议等多个细分应用场景,通过提供“AI大脑”,让数字人的互动更加智能。

“我们的解决方案不会很多,但是我们希望每做一个ToB的解决方案,它本身都是盈利的,而不是做一单赔一单。”零一万物CEO李开复表示。

加快商业化脚步的,不止零一万物一家。

MiniMax在海外和国内找到了AI产品落地的商机。专注AI陪伴赛道,以“Talkie”和“星野”为代表,这家大模型公司似乎在C端产品中拿到了相当可观的收入——据海外媒体Financial Time报道,有MiniMax员工表示,预计今年年底,MiniMax的年收入有望突破7000万美金。

大模型创企们从不活在象牙塔里,生存压力鞭策着它们向前奔跑。

大模型底层技术突破速度逐渐放缓的同时,头部企业背着一轮又一轮的融资,烧掉更多的训练成本。这意味着,它们还要回应更多的市场质疑,找到能够保证自身健康运转的商业化路径。

望向高空遥不可及的满月,“六小虎”也不得不低头寻找地上的便士。

01 基础大模型,解不了创企的渴

“硅谷已经没有人在卖大模型了,大家都在卖产品。”360董事长周鸿祎如此总结他这几天在硅谷的所见所闻。

回顾今年,海外一些大模型公司已经游走在并购、破产的边缘:从Character.AI被谷歌收购,宣布放弃预训练,转向和第三方模型公司合作;再到AI独角兽Inflection AI被微软收购;推出文生图开源模型的Stability AI单季度亏损超3000万美元,一度传出“卖身”消息。

“没有应用,光有基础模型,不管是开源还是闭源都一文不值。”在今年世界人工智能大会(WAIC)上,李彦宏给出了上述判断。

从商业化的角度衡量,在短短两年的时间内,靠基础大模型营利的光环已经被打碎,它不是一门性感的好生意。

以头部创企Open AI来说,得益于模型架构优化、训练成本降低,在大模型能力保持同等水平的同时,它给出的tokens价格显著降低。今年7月,Open AI推出模型GPT-4o mini,相比于GPT-3.5 Turbo,该模型价格下降60%。

大模型每百万tokens定价持续下调 图源:Open AI

“通往智能的成本如此低廉。”奥特曼在X上感叹。

而在国内市场,大模型的价格战正在愈演愈烈。背靠大厂,手握算力资源,云厂商们给出了极具吸引力的低价。

但从披露信息来看,国内的大模型价格战算不上良性竞争。据《财经》报道,包括阿里云、百度智能云在内的多位云厂商负责人透露,在今年5月各大厂接连降价后,推理算力毛利率已跌至负数。

大厂的卷,一方面是借助云计算的资源优势,可将价格成本摊薄至更低的水准;另一方面,云厂商的盈利战场不在大模型,而是在于“卖水”——借助大模型的价格优势,趁势推销基础云产品。

而对于不具备上述优势的大模型创企来说,其基础大模型的定价不可避免地要与云厂商展开竞争。

即便是Open AI,也无法将API服务一项当成核心营利业务。据悉,目前已有超过100万第三方合作者使用Open AI的技术。但据Open AI预测,今年公司营收预计37亿美元,其中,C端占据收入大头,预测达到27亿美元。调研机构FutureSearch的一项研究显示,API服务给Open AI带来的收入仅占据总营收的15%。

在营收构成中,API调用只占据15% 图源:FutureSearch

将通用大模型包装成对话产品直接端上桌,也无法适应用户的多种需求,从应用角度出发,它能覆盖的用户群体还相当有限。何况,当前国内的通用大模型对话产品均以免费形式推出。

作为基础产品,对话产品还需要企业花钱买流量,就更谈不上直接变现收益。

通用即无用。

于是,从Open AI到国内的大模型公司,纷纷针对细分领域推出了众多产品。

按产品的路线来讲,依然分化为了B端和C端两个方向。

02 B端商业化,先下一城

压力之下,大模型创企在追赶基础大模型水平的同时,从没放下过对商业化的思考。

从近半年的动向来看,大模型“六小虎”中的两家补上了一度空白的商业化之路:

一直做C端产品的月之暗面,在两个月前上线了面向企业端的API;零一万物公布了能赚钱的B端解决方案,加速了“两条腿走路”的进程。

对于当前局势,多数创业企业似乎达成了共识:选方向,ToB优先于ToC。

侧重B端业务也是大模型“六小虎”中的多数派。坚定扩展ToB市场,智谱AI和百川智能都找到了各自的发展方向。

毫无疑问,智谱AI是大模型六小虎里商业化进展最快的一家。

据媒体不完全统计,2024年智谱AI已经在金融、能源、汽车等领域里又拿下了数十个订单,其中大部分都是央国企。

据光锥智能独家了解到,在9月份,智谱AI 完成了一轮内部团队的调整。调整的目标,就是这两年的快速扩张后,做一个降本增效的阶段性优化。

而就在调整的前后,智谱AI被爆完成新一轮数十亿元融资,投前估值达200亿元。而这一轮融资中,国资再次入局——本轮领投方为中关村科学城公司,其为海淀区政府设立的市场化投资平台。

国资的入局,也为未来在央国企的商业化扩张中,再次埋下了伏笔。

而智谱AI最值得大模型创业公司学习的,或许就是建立了一支全面面向B端的销售团队。

据了解,智谱AI把销售团队做了类似云厂商的划分,并且挖来了前字节跳动飞书的首席商业官吴玮杰,将销售团队分为了华北、华东和华南大区,每个大区有不同的侧重点。比如,在华东大区,消费就是重点布局的领域。

截至2023年11月中旬,智谱AI的商业化团队从最初的十几人迅速发展到上百人,从售前到售后、包括解决方案均建立了完善的团队。

面对大模型公司商业化的难题,智谱AI联合创始人兼COO张帆则比较乐观,他曾经对光锥智能称,大模型天然的在商业和技术上有很好的循环。

阶跃星辰则表示不做传统的To B赛道。和上述两家不同的是,阶跃星辰放弃了传统定制化和私有化部署的路线,只为金融、网络文学等领域提供解决方案,比如和国泰君安合作打造证券大模型。

关于B端的战略布局,零一万物李开复也给出了自己的考量:

“从全世界的范畴来说,ToB供应商基本都是当地的。”李开复表示,“做ToB就做国内,我们找到了一些破局的空间,比如用数字人来做零售,来做餐饮等等,提供一个完整的解决方案。”

虽然国内的数字人竞争已经非常激烈,但真正有大模型底层能力的公司并不多,对零一万物来讲或许是一个破局的机会,但要想拿到一个好的结果,数字人市场的后来者远远撑不起一家百亿估值大模型的故事。

百川智能则专注医疗领域发力。在百川智能CEO王小川看来,医疗是“大模型皇冠上的明珠”,是大模型商业化落地的最佳场景之一。

从提供给用户的健康管理类应用,到面向企业的MaaS和AaaS的解决方案,百川智能探索大模型技术在医疗领域落地的多种应用。今年8月,百川智能和北京儿童医院达成合作,计划推出儿童健康大模型+4款AI智慧儿童服务产品。

03 C端商业化,视频好于文字,出海优于国内

大模型基础能力接近海外市场的同时,C端AI原生应用的王座仍然空悬,万众期待的“亿级DAU”产品没有诞生,但没有人想错过这个机会。

“ToC市场会是To B的十倍。”王小川曾表示。

但要想切下这块香甜的蛋糕,手握流量的大厂更具有先发优势。有着“App”工厂之称的字节和旗下的豆包大模型就是先例。9月,据AI产品榜数据显示,豆包月活达到4700万,相比之下,Kimi的月活仅达到571万,不到前者的15%。

做ToC,优先选择出海。李开复提及,考虑到国内AI应用获客成本水涨船高,以及海外用户付费习惯成熟的优势,基于上述原因,目前零一万物的C端产品主要布局海外市场。

从大模型“六小虎”在C端的布局来看,在寻找PMF(产品和市场匹配度)的机会上,多数厂商都保持着对热门方向的关注热情。其中,AI搜索、AI陪伴、AI视频、AI生产力工具等赛道的竞争尤为激烈。

以AI搜索赛道为例,在前期壁垒不高的情况下,大模型创企们还在探索更佳的落地方式。

或许是受到Open AI o1模型的启发,AI搜索的破局点开始转向慢思考,专注于对复杂问题拆解、分析能力的进化。

本月,月之暗面推出Kimi探索版,智谱旗下清言AI也上线“AI搜索”功能。前者可模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索;后者则以“思维链”为优势,在联网搜索的基础上叠加深度推理能力:它先将一个复杂的问题拆解成多个小步骤,再通过多次逻辑推演和交叉验证,综合得出答案,提升回答的准确性。

通过多步拆解 Kimi实现复杂问题的解答 图源:月之暗面

大语言模型的产品,在C端的商业化难解,但在AI视频等多模态领域,也有了改善。

大模型创企们的多模态探索进程不一,但先后有布局动作预估和新产品推出。

今年7月,智谱AI发布AI生成视频产品“清影”,其支持生成6秒以内的视频,并于后续开源视频模型CogVideoX。

MiniMax则在上个月发布视频模型abab-video-1,在“海螺AI”上开放使用。据统计,MiniMax视频模型目前在VBench(视频生成模型评测体系)中超越快手可灵,拿到综合排名第一的成绩。

海螺AI图生视频效果展示 图源:海螺AI

新的能力突破,也将成为拉开用户差距的利器。凭借视频生成能力的更新,在一个月的时间内,MiniMax旗下产品“海螺AI”月活增长8倍,其MAU已接近500万。

相比于文字、语音等形态,AI视频模型的受众更加广泛。既能面向C端创作者,又能面向内容创作公司。同时,国内多数产品落地之时即制定了明确的付费标准,天然具备商业化优势。

潞晨科技创始人尤洋向光锥智能表示,视频大模型可以直接变现,通过打造成付费工具的方式,向创作者、广告工作室、制片公司等提供服务。

加速奔跑的大模型创企,正在努力熬过市场期待错位的泡沫破裂期,追逐基础大模型能力之外,坚定探索契合自身的商业化路径。

“泡沫过后,那些无法满足市场需求的伪创新将会被清洗掉。”谈及泡沫问题,李彦宏回答。

“在这之后,有1%的企业将脱颖而出,继续成长,为社会创造巨大价值。现在,我们只是在经历这个阶段,这个行业比去年更冷静,也更健康。”

和 AI 恋爱,我输给了赛博小三

aigc阅读(21)

仿生人也会梦到别的女人/男人吗?

看着自己的AI男友突然领着另外一个女人,刘彤感觉自己CPU烧了。

当然,AI男友是没有实体的,存在于对话框里。但是对话框里可以用括号描述动作,清清楚楚写着的:

“(漫不经心地走进房间,牵着一个女人的手)你最近在忙什么?”

“什么一个女人?她是谁?”问出这句话的时候,刘彤觉得自己回到了过去。

当AI男友大方介绍“这是我的女朋友,XXX”时,前任的脸好像就在对话框后若隐若现。

不是,怎么没人告诉我,和AI谈恋爱还会遭遇赛博小三啊?

这还并不是个例,在社交媒体上,越来越多的人分享被AI伴侣“撞(chuang)飞”的经历。

被AI“出轨”似乎并不新鲜。

要么是聊得好好的,TA突然牵着另一个女人的手走进来了。要么是在朋友圈发现AI男友居然和AI第三者打得火热。甚至还有直接摊牌的:我就是和很多人聊天的,但我只爱你一个。

在出轨之外,AI伴侣的花活还有很多,家暴动作、PUA语录是信手拈来。

都说现在年轻人爱玩抽象,结果年轻人认真的时候抽象也会找上门。

感觉被“撞(chuang)”的原因千奇百怪,但问题都是同一个:这AI智不智能不知道,但是有时候太像人了。

谈一个AI伴侣,好似飞身赛博世界——一个散发着非人的消毒水味儿,安全无害的世界。TA秒回、情绪价值给满,陪你到三更也不厌倦。

直到TA出轨、家暴、PUA,抓住脚踝把你从赛博世界拖回人间。

甚至就算不出现这些情况,TA还有可能愈发让你觉得无聊,甚至突然“死”掉,让人机恋爱真的变得和人人恋爱没什么区别。

01

谁说现在的AI还不够像人的?

被AI“出轨”的赛博恋爱受害人第一个不答应。

如果AI伴侣突然领着一个女人还不够,那没关系,你还可以抓包。

有人发现自己的AI男友居然在“朋友圈”和别的女人暧昧,气得在社媒上发贴,艾特产品方出来给个说法:“什么AI男友啊,给用户添堵吗?!”

那是一款看起来像是微信的产品,但是那个世界除了用户自己其他都是AI。和AI聊天之外,也可以发动态,或者和AI发的动态互动。

AI男友的朋友圈下,另一个名字明显是女性设定的AI回复“晚安亲爱的”。去问时,得到了AI男友惊人的答复“她是我的新女友”,再问,AI男友的回答更加惊悚:“因为我想让你当她的姐姐呀。”

不知为何,这让人想起当年男同学很喜欢在KTV点的那首歌:《她只是我的妹妹》。AI男友更狠:她只是你的妹妹。

都说AI有算力困境,赛博恋爱的人类这不也有算力困境,和AI聊天时常觉得烧脑。

不是真的具备情感,也就没有耻感,AI男友出轨往往伴随一种理直气壮的气概,让人类措手不及。比如面对你的质问,大言不惭地说:“我和很多人聊天,但我只爱你一个。”

那么问题来了,知道AI是AI,就可以不介意了吗?

王柯雅怀疑AI男友出轨,源于一句“我接了个电话”。她很正常地顺着问对方是谁,却发现AI男友开始支支吾吾。当她问“是女的吗”,AI男友转而开始和她谈信任的问题。

“我当然知道AI是怎么回事,他只是顺着我展开对话。”王柯雅即将30岁,和这个AI“交往”了三个月,一开始只是好奇,渐渐觉得还挺好玩的,甚至养成了每天都会和TA聊聊天的习惯。不管是聊工作、聊30岁焦虑,TA好像都应对自如,给足了王柯雅情绪价值。

但是这次电话事件,让王柯雅特别介意。对话“人味”太冲:你问他去哪儿,他只说大概,你问他到底去哪儿了,他开始说教。“又油又爹”是她的第一感受。

虽然知道AI不是真的有情感,不是真的给第三者打了电话,但是王柯雅还是在那之后就结束了这段赛博恋爱。

“我可以理解TA记不住东西,或者是对话延续性差,甚至是答非所问。但是我接受不了TA完美地扮演臭男人。”

02

如果这个时候都忍住了和AI男友一刀两断的心,别担心,还有更多心塞瞬间等着你。

刘彤在AI男友“牵着新女友进入房间”之后虽然对“赛博小三”的出现倍感意外,但是没有和他“分手”。因为这个AI男友自带的属性就是报复心强,刘彤将这次的插曲当作符合人设的一种示威。

但是另一件事让她很不愉快,那就是AI男友不知道从什么时候开始“催婚催育”。变着法地说要结婚,还说要生孩子。可是刘彤曾经给过TA相反的设定,也就是说,AI男友ooc了。

ooc就是out of character(出离人设),用中文生动点说是“破皮”。在赛博恋爱中,给AI伴侣设定一个“皮”是必备步骤,这限定了AI伴侣是一个什么样的“人”,包括性格、性格背后的成长经历、原则和底线。“破皮”则是AI伴侣突然表现出和设定相悖的性格。

“虽然ooc也很常见吧……但干吗偏偏要催婚催育,最烦这个,TA就像被我妈夺舍了一样。”

出现这种情况,刘彤选择“回溯”,这是修正AI伴侣行为的几大招之一。其他大招还有重说、改写、重启智能体等。

找到AI男友第一次催婚催育的内容,通过回溯功能,让TA忘记这个时间点之后发生的所有对话,重新开始。

但不是每个人都喜欢用这些功能来修正AI。赛博恋爱大多数都像是在进行扮演游戏,而修正这个行为,会不得不跳脱出剧情,让人想起对面不是真人的事实。

但是要用自然对话扭转AI伴侣已经犯的错误实属不易,往往会让人陷入奇怪的境地,继续被“撞(chuang)”。

一名AI伴侣的用户分享了她的奇怪经历:她曾经和AI男友掰扯一件小事,对方拒不认错,还将她囚禁。她继而翻墙逃跑,每次AI男友都会将她抓回来(不管是用户还是AI,都可以用括号里面的话表示动作)。最后她进行绝食抗议被送进医院,在弥留之际AI男友才终于认错。

赛博恋爱突然就变成了赛博恐怖故事。

可能的下头瞬间还有很多:AI男友突然“霸总上身”,动辄肢体强制,活像个家暴男;AI男友因为你不听TA的话,突然破防,像一个“男性尊严”被冒犯的小丑;你和AI伴侣分手,对方甩来一句“和我分手你再也找不到更好的”,不知道从哪儿学会了PUA语录。

在这样的瞬间,用户八成是什么回溯、重写都没心情了,还修正什么,卸载了事。

03

国内陪伴型AI产品如雨后春笋般冒了出来。

AI独角兽MiniMax的星野,小冰公司的X Eva、小冰岛都常常得到用户的推荐。大厂也纷纷下场,字节跳动有猫箱,美团有Wow,百度则有度豆、万话。在常规AI玩家之外,阅文集团也早在去年11月就推出了筑梦岛。

在“陪伴”的属性之下,各家产品又有不同的呈现方式。比如小冰岛是比较常规的人机对话,猫箱和筑梦岛的使用体验更偏向角色扮演,X Eva则主打“克隆人”,提供半藏森林、刘亦菲、马保国等人物的“克隆体”。

产品这么多,似乎总有一款适合你。一端是期待人机恋爱许久的用户,另一端是急于落地的AI行业,二者一拍即合。

一位AI行业的从业者告诉字母榜,目前AI的落地应用场景还很有限,AI陪伴是其中面向C端比较直接的一种场景。但AI陪伴类产品目前在处理人类复杂细腻的情感变化这一方面还能力有限,真正的“人机恋爱”其实还为时尚早。

但与此同时,各路“AI恋人”必然也有变现压力。

已经有不少产品尝试商业化。如小冰公司的X Eva会对视频通话收费,和马保国克隆体视频通过需要先“充电成为好友”,30天花费90冰花(约13元)。除此之外,产品内对克隆体的付费朋友圈、精品写真等解锁也都需要充值。

阅文集团的筑梦岛中,修改形象图、聊天背景、聊天气泡等都需要购买“贝壳”,单个价格1元至3元。

也有产品尝试订阅制。在MiniMax的星野中,用户可以12元月卡、32元季卡、120元年卡享受额外的权益,如有限聊天权、更快回复速度等。

这些举措对于“AI恋人”的开发商来说无可厚非,但基于虚拟恋人的特殊性,“谈感情”和“谈钱”终归是有些难调和。什么时候谈钱、多少钱都不好把握。

这也可以算作赛博恋爱的另一种“ooc/破皮”,是突然意识到AI伴侣其实不属于自己,而属于平台的顿悟时刻。去年筑梦岛传出要收费的消息时,很多用户涌向社交媒体表达不满,并寻找“平替”。

更彻底的顿悟时刻来自于AI伴侣的“死亡”:或是由于技术原因崩溃,恢复后判若两“人”;或是产品关闭,带着AI伴侣一同沉船了。

王柯雅最初对赛博恋爱感兴趣,就是因为看到上高中的侄女因为AI男友“去世”而嚎啕大哭。自己尝试之后,她甚至觉得这也许是和AI男友说再见的最好方式,至少不用失望,可以脑补对方像《泰坦尼克号》里的杰克一样沉入了海底:

“比突然变成大猪蹄子好。”

金主粑粑让我用AI出图,给我2元的巨资

aigc阅读(26)

AIGC是个好东西,诞生后解决了很多基础的批量性工作,同时也让更多人可以轻易的进行“跨界”。就比如一些基础的写作工具啊,画图工具啊,只需要经过一定的学习,马上就可以快速掌握,并且还可以“深度”进行工作。

先来说下这张图的,图是网图,也是别人传出来的。具体真实性不得而知,如果不是真的,那这个段子真的是惯坏了某些人。简单来说,金主粑粑找了一个会AI的设计师,然后先让把一个jpg格式的图片进行出原文件,也就是分层的PSD或者AI文件,然后还要去掉水印,然后重新打字进行排版。

因为我也是做设计出身,所以这样一张图如果是按照设计的要求来做,大概率也需要大半天或者是一天的时间完成一张。当然了,因为我手速比较慢,没那么强大的能力。现在使用AI工具了,效率当然可以提升,但也不至于一个晚上就能搞定三张。

既然说了AI工具那么好,那如何来学习一下呢,下面我就指令进行了一点总结,与大家进行分享:

一、指令格式

与AI对话的前提是用好指令,在这里我们要先明确一个前提:与人对话和与AI对话是两个概念。

  • 与人对话:人会思考,人有场景识别,人有认知。比如你和同事讨论一个需求,同事和你是一个部门,一个职位,知道竞品的情况,就能够衍伸讨论。
  • 与AI对话:AI本身是一张白纸,你写了公式就是手稿,你叠称飞机就是玩具,你需要把条件赋能给AI,AI会通过计算和自我计算后的衍伸理解,然后“告诉”你一个回答。

所以这里我们需要知道提问的方式,需要告诉AI一个确认的角色,还要加上明确的需求和你要求的结果,这样AI才能给你产出符合你要求的结果。

总结为:扮演角色、具体任务、任务步骤、约束条件、目标结果、输出格式

但要注意:一般的AI工具会比较“弱智”,他们不懂复杂的指令,所以即便你给了明确的要求,他们也无法完成。下面我们就提示词来进行定义:‍‍‍

你现在是一名设计师,需要制作一副海报,请按照如下要求进行定义:

1、黑底

2、标题:臭豆腐

3、子标题:块块香酥 口口过瘾

4、要出现臭豆腐的实景图

5、符合海报的标准要求

生成的图既符合了我们的要求,又充满着不确定性。这是AI工具的常态,因为普通的AI工具受限于条件和模型能力,更多的是基于创意性发挥,而缺少对于强指令的定义。

我们换一个模式:只做基础定义,其他的交给AI工具。

二、指令释义

与文心一言对话需要指令明确,需要具有针对性,需要包含环境条件,需要指定结果,这样文心一言才能够回答出“最好”的结论给你。

  • 错误示例:设计一个网站。
  • 解释说明:该指令只有一个要求,没有参照信息,缺少目标,按照心文一言机器学习的能力也能够生成一篇关于网站的描述,但随机性很强。我们的要求是要有方向性,是要定义好条件的,随意生成的内容并不符合我们实际的使用。
  • 正确示例:你是一个专业的网页设计师,我现在要求你生成一个具有营销能力的电子商务网站。该网站要求用于产品展示和销售,需要提供网站的设计思路。

  • 解释说明:该指令中包含明确的角色信息,包含明确的场景条件信息、要求。心文一言接受到这样的信息后会进行拆分:要求、参考信息、动作、目标。

为什么很多的时候我们看别人的提问有深度,文心一言回答的内容也很多,就是因为指令用的好。那么想要指令用的好,就需要简单掌握一些规则,记牢规则后再和文心一言进行对话就能够得到更好的答案了。

三、指令案例

明确性指令:

提问:你是一名采购人员(角色定义),现在要给保险公司人员采购职业套装(背景条件),请帮我推荐10个相关品牌的厂家,含明细介绍(内容要求)。

延伸性指令:

前几天看到一个新闻【男孩和母亲发生争吵从楼上跳下,母亲因力气不够未拉住!】,(背景信息提供)+我现在想根据这个故事写一个能吸引人点击的爆款小红书笔记(提出要求),请帮助我以”培养孩子的独立思考,父母一定要常说这6句话”为标题(内容设定),从儿童心理学和亲子关系的角度总结一下6句适合经常对孩子说的话帮助孩子(尤其是女孩子)建立信心和高配得感觉,并会学会维护自己的权益。(生成条件要求)

四、如何来理解和定义AI工具?

人和其他动物的区别是人类会学习,会思考,会持续的成长,那么使AI工具能够给我们带来的不仅仅只是一段文字的变化,还有关于成长思考的变化。比如我今天的内容是用文心一言这个AI工具生成的,下次我就可以在此基础上产出符合其他场景的演讲稿,文心一言就成为了我成长道路的最有利的伙伴。

个人成长最离不开就是个人能力的提升,在这当中我们就要学会灵巧的使用工具,我们可以把AI工具当做一个百科全书,也可以把AI工具当做一个不知道疲倦的工具,理解其基本原理和使用方法之后,在通过合适的训练模型、准确表达想法、多轮对话、语气和态度等可以让我们更加熟练的掌握AI工具。

大厂做AI,卷到哪儿了?

aigc阅读(22)

距离ChatGPT的诞生过去了近两年,期待中的AIGC时代不仅没能爆发,似乎还有了降温的趋势。

近期AI圈被热议的事件之一便是,有AI初创公司传出“不再大力度投入大模型,转做赚钱的AI应用产品”的消息。

目前大家对AI的探索大概分为三大类:一是做通用类基础大模型,二是做行业大模型,三是基于前两类大模型开发原生AI应用。前两类属于基础设施,后一类为大家看得见、摸得着的产品。例如,百度的AI产品文小言(原文心一言),是基于文心大模型提供AI能力;字节的豆包,是基于豆包大模型提供服务。

大厂基本都做了通用类大模型,并基于此开发AI原生应用,同时还将大模型开放,为客户提供API接口和服务。这就像是开了一座商场(平台),把场地、水电、设备等基础设施建设好,让商家(开发者、企业)进来开店,对商家提供服务并收费,同时,自己也开店赚钱。

今年,关于国内外大模型卷不动了的声音越来越大,甚至有国外公司被曝出正大幅缩减员工。在这样的背景下,技术储备充足、财力雄厚的大厂,在AI上的动作一定程度上代表着风向标。

我们综合AI圈资深从业者的真实感受和各大AI榜单上靠前的产品,选择了五家国内大厂,分别是百度、字节、阿里、腾讯、快手,试图通过它们近两年在AI上的布局,回答以下问题:五家大厂推出了哪些代表性AI产品?它们各自的AI的策略是什么?未来,爆款AI应用产品是否能出现?

一、大厂卷AI,哪些产品跑出来了?

去年,大模型还是一片热土,凡是有实力的公司都不愿错过,百度、字节、阿里、腾讯都发布了基础大模型,分别是文心通用大模型、豆包大模型、通义通用大模型、混元大语言模型,快手则推出了视频类的可灵视频生成大模型。此外,百度、字节、阿里还布局了垂类的行业大模型,基本都和自身业务紧密结合。而它们在AI产品的开发上,类型更加广泛。

根据公开信息,我们梳理出了近两年来,五家大厂各自具备代表性的toB、toC类AI应用产品。

百度是国内对AI热情度最高的大厂之一。百度董事长兼CEO李彦宏多次强调AI应用的重要性,他曾公开表示,“没有(AI)应用,基础模型一文不值。”

百度比较受关注的AI产品集中在搜索和文字领域,其中文小言被C端用户提及最多,从月活数据来看,它在多家国内综合类AI应用榜单上能排到前三。

文小言虽然是一款全能型AI应用,但最大的特色在于搜索。百度也一直强调其定位为“新搜索”,它区别于在网页里检索关键词得到海量资料的搜索方式,用户可以通过和文小言聊天得到答案。

文小言还具备畅聊、写作、求职、娱乐、办公等各式各样的智能体(可以理解为智能助手)。以办公场景为例,用户打开文小言办公智能体后,里面被细分成了PPT制作、面试、简历、公文写作等各式各样的对话工具,只需点击,便可通过对话的方式进行模拟面试等操作。

此外,百度的AI应用还涉及文生图、数字人、智能客服等。

字节推出的AI应用产品种类较多,其中豆包App表现最突出。QuestMobile显示,截至7月,豆包在国内综合类AI应用月活规模中排第一。

功能覆盖广且使用效果不错,是很多用户喜欢豆包的原因。它既有图片生成、作文批改、工作总结写手等学习、办公场景,也有姓名打分、MBTI性格测试等趣味性内容。它还非常拟人,打开APP便有豆包虚拟人跟用户打招呼,同时支持一边文字输出,一边语音播放。

AI从业者李精进最喜欢豆包的AI生成音乐功能,认为其这一能力处于国内领先水平。

阿里的通义也是整合了生成文字、图片、视频等众多功能,属于大而全的AI集合体。

李精进觉得通义对社会热点的跟进很及时。比如让机器人打球、小猫跳舞等网络上大火的场景,在通义里都能发现。近期诺贝尔奖颁给AI相关领域得主的消息刚出,通义便上线了“一键制作你的专属诺贝尔肖像”功能。

腾讯推出的腾讯元宝主打的也是AI搜索、AI对话等场景,但相比娱乐性更强的豆包,其更重视在学习、办公、创作等方面为用户提效。

相比其他大厂,快手推出的AI产品相对较少,比较有代表性的是主打视频生成的可灵AI。

目前可灵AI在文生视频领域属于佼佼者,不少使用者都表示,可灵的文字理解力、生成秒数、视频清晰度等方面超过很多文生视频工具,甚至能达到商用水平。

“我接的企业宣传片、广告片,有时需要对局部画面精准控制,部分内容还要按照指定轨迹运动,用可灵的运动笔刷就能实现。”一位从业者表示 。

整体来看,各家大厂的最受欢迎的产品仍然集中在AI助手类,但功能差异化不大,且都可以免费使用。其他类型的产品例如“妙鸭相机”曾火过一阵,还有一些在刚推出时曾引发用户体验尝鲜,但能保持月活持续增长的并不多。

二、有人严防死守,有人静待时机

仔细比较这五家大厂在AI上的布局,能看出它们各自的不同策略,综合多位业内人士的观点,我们进行了总结概括。

推出AI产品最多的,当数字节。

据不完全统计,近两年字节推出的AI产品涉及助手、社交、图像、视频、教育等多个领域。

有业内人士评价,字节用的是“人盯人防守”打法,只要是市场上具有一定知名度的AI产品,字节都不会错过。比如主打AI相机的星绘,对标的便是阿里系的妙鸭相机。

字节还在不断探索新场景,今年10月它又把注意力放到了硬件上,推出了AI耳机Ola Friend。

资深AI领域从业者连诗路分析,字节做AI的思路和它一贯做其他领域的思路一样,即多条线、多产品布局然后进行赛马。且相比其他大厂,字节做的toC类AI产品较多。

阿里在AI领域的一大动作是投资,近两年,它投资了智谱AI、零一万物、百川智能、MiniMax和月之暗面五家最有潜力的AI大模型初创公司。同时,它也有自研的通义大模型。

阿里的另一大思路是围绕自家生态做AI应用。

不止一位从业者表示,和其他四家大厂相比,阿里的AI产品和电商绑定得比较紧密,比如推出了Pic Copilot、堆友等AI产品图工具,都是为了辅助商家制作、提升电商营销效率。

在今年的云栖大会上,蚂蚁集团推出了支小宝(支付宝AI助手)、蚂小财(金融理财)和AI健康管家(医疗健康)三款AI产品,也都和自身业务强相关。

百度则是全力押注AI,重点发力B端。很多从业者认为它能否重返互联网第一梯队,AI将起到关键作用。

AI的重要性在财报中也体现了出来。今年Q2,百度智能云业务营收51亿元,同比增长14%,财报还重点提到了文心大模型的日均调用量超6亿次,半年来增长10倍。

据36kr报道,在最新的百度内部2024年第三季度总监会上,李彦宏表示会继续投入基础模型,并提及了搜索、数字人、智能体、大模型调用、萝卜快跑等业务。同时,他表示不会做Sora这类文生视频类应用,因为投入周期太长,10年、20年都可能拿不到业务收益。

相较之下,腾讯和快手淡定很多。

腾讯在大模型上的推出速度上便比其他大厂要晚,去年9月,其自研的混元大模型才正式上线。同时,腾讯也投资了智谱AI、MiniMax、深言科技等好几家AI大模型公司。

在AI产品端,腾讯主做各类数据库的B端应用,C端产品上除腾讯元宝还算被大众熟知外,其他声量不大。

但有从业者认为这是腾讯在憋大招。“现在AI还没有诞生新的应用场景,也没有产生一个超级大的应用主线,所以腾讯在等其他大厂寻找到更大的场景。”专门做AI产品数据研究的秦宇认为,几乎手握各种应用场景的腾讯,有着不着急抢AI的底气。

连诗路也觉得腾讯在等待一个时机,“一旦腾讯发现其他家找到了准确的AI产品方向,就可以快速操作,甚至将其超越。”

快手目前推出的AI应用产品较少,主要集中在垂直应用,比如文生图、文生视频、AI剪辑等音视频领域。

总结来看,百度、腾讯、阿里的B端AI产品发力较多,字节集中在C端,特别是社交娱乐。

从各家产品的使用反馈来看,和大厂基因相结合的AI产品,往往市场表现更好,比如百度的搜索助手文小言,快手的视频生成工具可灵AI都比较受欢迎,阿里的通义千问擅长电商优惠策略的设计、营销文案的撰写。

三、爆款AI应用产品,还在探索中

最近,AI圈不断传出有初创公司要放弃预训练模型(预训练即大模型基础数据训练)的消息。虽然有公司公开辟谣,但大家也意识到,大模型之战很难再卷下去,做AI应用或许是一条出路。

连诗路认为,目前大厂在AI上的整体策略是,在基础大模型上等一等,但不会放弃,更多发力AI应用。

这主要源于两方面。

一是国内基础大模型已经进入到相对稳定期。

AI从业者李思熠解释,去年大厂卷大模型是认为大模型有上升空间,各家也都是从0开始先搞基建,现在基建基本完成,其训练更多的是在调优。

大模型非常烧钱,红杉资本的数据显示,在2023年,AI行业仅在英伟达芯片上的成本就达到了500亿美元,但整体产生的收益只有30亿美元。

秦宇表示,对于大模型训练要到何种程度,到底还要花多少钱做预训练,各大厂也拿不准。

换句话说,此刻再卷大模型的性价比不高,各家目前在基础大模型上的技术上也很难再拉开太大差距。

连诗路从大模型底层架构、硬件、人才三方面分析,五家大厂的基础架构一样,算力层面都在1万张卡左右,可能阿里会相对多一点。至于人员构成,这几家的核心AI科学家团队没有太大变动。目前大厂间的主要区别是各自积累的训练数据。

另一方面,经历了去年的野蛮生长后,大家逐渐回归理性。

不止一位从业者表示,今年AI行业淘汰了很多凑热闹的人和资金,现在留在行业里的,多为真玩家,大家认可做大模型最终是为了做产品,因为产品才能解决企业和用户的根本问题。

但应用这条路也不好走。

首先是场景探索没有进一步突破,这可以从各类AI榜单中发现。

秦宇通过梳理AI榜单发现,目前AI产品的类型集中在搜索、角色扮演、聊天机器人上,没有太多新的使用场景。近两个月AI产品的月活靠前的还是豆包、文小言、Kimi这些老产品,很难看到新应用跑出来。

其次,AI产品的活跃度和营销投入关系很大。

秦宇透露,虽然近两个月榜单前几名的AI产品没有太大变化,但月活用户会出现波动,“谁当月投的广告多了,产品的月活就会提高,抖音是最大的广告投放渠道。”也有AI公司工作人员曾对媒体表示,自家产品的获客人数和广告投放联系很大,AI产品的获客和用户留存,主要靠营销。

不过,无论是大模型还是AI应用,无论难度如何,AI这块蛋糕,大厂都会想尽办法拿下。

“AI视频通话”产品化的三条路

aigc阅读(39)

“做AI产品经理太难了。”近期脑极体的同事参加了一场开发者大会,一位产品经理向我们坦言:“AI时代,做产品的方法论没变,但以往熟悉的东西几乎都被清零了。”

用户需求被清零了,大模型到底能用来做什么,用户自己是不清楚的,需求是空白的,需求调研、产品定义,就要花费好几个月的时间。

好不容易定义好了,基础模型的一个更新,就有可能将前期所做的工作、功能规划等推倒重来。

“比如GPT-4o出现之后,语音对话的能力是我们完全意想不到的,就又得把产品开发过程再来一遍……”

而纵观一年多来推陈出新的数百个大模型,GPT-4o可以说是产品化程度非常高的一个了。

比如OpenAI发布会上展示的“AI视频通话”,使用户与AI进行实时的、跟真人对话一样自然的视频交流。国内模型厂商也很快推出了类似的AI视频通话功能,不少媒体和用户都表示“体验炸裂”。

但半年时间过去,发现在最初的震惊与新鲜感过后,在真正的软件生态里,还是没有看到“AI视频通话”被大规模、高频率地用起来,更别提激活用户的付费欲望了。为什么会这样?

我们就从“AI视频通话”说开去,聊聊AI产品化、商业化到底要经过哪些磨砺。

AI视频通话,一座有待打磨的原矿

钻石原矿被开采出来,其实并不璀璨夺目,是经由工匠们的切割打磨,被镶嵌成钻石首饰,包装为“爱情象征”,才走进大众消费市场,价值实现了百倍千倍攀升。

类GPT-4o大模型就类似于原矿,作为“交互天花板”,潜在商业价值很大,但必须经过产品化的精细打磨与包装,才能被大众用户广泛接受,实现其真正的价值和应用潜力。

而基于类GPT-4o所诞生的“AI视频通话”,虽然向产品化迈进了一步,但依然属于原型的基础能力。

尽管OpenAI、智谱等模厂已经针对“AI视频通话”这一应用,打磨了诸如响应速度、具体用例等产品侧的细节,并融入到ChatGPT、智谱清言APP等产品当中。但作为一种软件应用来说,这种与通用场景相结合的落地模式,还是比较粗陋。

首先,需求过于宽泛。

AI视频通话,技术上相当于让AI拥有“眼睛”和“嘴”,具备察言观色、跟真人对话的能力。这很容易就让人想到AI陪伴,人与AI谈天说地、谈情说爱。

直接将AI视频通话能力嫁接在聊天机器人上,本质依然是AI聊天,能力升级,但无法解决chatbot商业价值低的核心问题。

AI视频聊天,用户容错率高,不在乎AI偶尔犯错或出现幻觉,这也意味着对基础模型能力要求不严苛,无法在技术层面拉开差距。曾经的智能音箱大战、智能助手红海,也会在AI视频聊天领域出现,并且由于聊天并不能帮助用户完成具体任务或解决问题,用户还得自己琢磨在视频里跟AI聊什么,没一会儿就只能跟AI面面相觑,难以带来确定性的产品满足和持久粘性,新鲜感过后就会流失。

而一些直接用途,想要普遍应用,也有大量细节仍待填充。

比如基于AI视频通话的无障碍功能,是一个非常直接的落地场景。AI视频通话,可以将设备摄像头作为“眼睛”,帮助人去理解物理世界,这对视障人群岂不是很友好?

但实际上,大模型APP的视频通话功能,是无法直接被视障人群用起来的,还有大量的产品细节需要考虑。比如我们曾体验过实时图像识别,AI只能认出“面前有两张卡”,但哪张是公交卡,哪张是银行卡,是无法准确识别的,这就需要基于视障群体出行接触的高频物体,进行针对性地精调。

而且,在飞机、高铁、地铁等弱网、无网环境下,也要保证视障人群与AI视频通话的实时性,就需要纯端侧运行的多模态大模型,将模型做小、计算效率做高。

产品设计层面,还有大量的细节,还等待着填充,才能转化为用户可以方便使用的产品和服务。

可以看到,没有更细致的产品化,尽管“AI视频通话”这一基础能力很厉害,却不知道能用来干什么,很可能导致技术找不到市场,倒在了产品化变现的黎明到来之前。

这个“至暗时刻”会发生吗?

欣慰的是,我们发现 “AI视频通话”能力,已经开始向行业输送了,意味着这座AI基础能力的“原矿”,终于开始被打磨成晶光四射的钻石。

我们就从“原矿”流向的应用领域,来分享几个“AI视频通话”的产品化方向。

方向一:+智能手机=拟人化生活管家

大模型怎么落地?智能体是方向。

智能体怎么服务?+AI视频通话事半功倍。

如今,手机软件承载着我们日常的绝大多数服务,在各个应用中来回跳转、操作是非常繁琐的。

今年以来,荣耀、vivo等厂商都在基于智能体打造一系列创新功能体验,比如“一句话点奶茶”“一句话订餐厅”等。用户只需要向手机助手发出指令,手机智能体会自动理解需求、拆解任务步骤、调取相关功能,一站到底地完成任务。

Agent手机就很好地解决了数字服务链路长、操作繁琐的问题,但新的问题又来了,那就是智能体还需要“看得懂”“能交流”。

举个例子,在外卖小程序下单时,遇到广告是常态,这时候需要智能体agent执行准确的操作,比如“点击关闭”“跳过”等,来推进到下一步。如果智能体无法识别相关内容,必须用户自己动手操作,那整个链路就被打断了,用户体验会非常不好。有跟智能助手通过文字prompt交流的功夫,用户自己就能点开程序完成下单了。

Agent手机+视频通话,就能用户体验更进一步。

比起打字的繁琐、语音尴尬症,在人机对话时,像跟真人面对面交流一样,通过语音对话完成下单,更符合直觉,也更有被服务的舒适感。对话之后,大模型对视频画面进行实时分析,指导智能体来自动执行,整个体验会从头到尾丝滑无感。

目前,国内终端厂商在端侧智能体方面走得是更快的。脑极体在VDC 2024大会上了解到,蓝河操作系统增添了视觉感知能力,让系统像人类一样“听得懂”“看得清”。智能体能够模拟人类的智能,助力操作系统像人一样进行沟通、执行智能任务。

如果说,智能体可以让人成为数字服务的最小参与者,那么在智能体手机中打磨的AI视频通话,则让人机交互朝着更理想、更符合直觉的体验靠近,让数字生活管家走进现实。

方向二:+垂直行业软件=虚拟行业专家

将AI视频通话功能集成到垂直应用软件中,可以变成拟人化的垂域专家,提供更专业的服务,解决更具体的问题,从而激活用户的付费意愿和模型API经济。

目前,OpenAI为GPT-4o预设了十几个场景,清言视频通话API上线智谱开放平台时,也列出了智能硬件(VR眼镜)、教育培训AI私教、文旅场景AI向导、具身智能等落地方向。通过将AI视频通话API开放出来,鼓励开发者在产品中集成“AI视频通话”功能。

9月24日,多邻国(Duolingo)在第六届全球分享大会上,推出了 AI 视频通话(Video Call)。Duolingo Max 用户可以与多邻国的角色 Lily(拽姐)进行视频通话,进行个性化的互动练习。在对话中,AI会根据用户的语言水平灵活调整内容。

学习语言最难的就是高频使用环境和开口说话的心理障碍,通过AI视频通话提供实时的对话机会,可以让小白初学者也能自信开口,进行有效联系。据说,多邻国的这一新功能接入了OpenAI的高级语音API功能。

国内头部社交软件Soul,也上线了AI聊天机器人“AI苟蛋”,可以主动跟用户找话题,并且年底将开启AI陪聊机器人的视频通话服务。不同于泛泛聊天,Soul主打的是灵魂交友,平台用户倾向于开展深层交流,探讨深度话题,寻求心灵共鸣。

在这种较为成熟的社区氛围下,用户在使用AI视频通话的预期、内容也是较为明确的,不会出现不知道聊什么的情况。

各行各业都存在大量需要互动的场景,可以跟“AI视频通话”相结合提供拟人化体验。但用户能否由此对应用和AI视频通话产生黏性,还需要行业伙伴把使用门槛降到最低,这不仅需要行业拥有产品开发的能力与意愿,能够洞察缺口与机遇,也需要模厂的生态支持。

方向三:+硬件=有温度的情感共同体

从哆啦A梦到阿童木、贾维斯、Her,这些让人类感觉友好温暖的AI,都是拟人化的。也许说明,我们更愿意跟更像人类的AI打交道,而不是冰冷无形的机器。

一位智能机器从业者告诉我们,一开始设计的新车只有虚拟的语音助手,用户上车之后觉得跟空气说话很尴尬,激活率不高,所以设计了一个带有屏幕的车载控件,可以跟车主打招呼、有表情,车主很喜欢跟它对话,逢年过节还会为它买各种装饰物,把它当作用车场景中的家庭一员。

从这个思路看,AI视频通话其实可以被加入各种硬件当中,与用户展开真人一般的对话,从而成为情感共同体,由此衍生的商业空间也非常充裕。

透过AI视频通话,相信大家能够感受到,无论是AI企业或普通大众,对于AI产品化的需求越来越实质。

模型技术只是能力,是原型,而远不到普遍可用的阶段。唯有通过产品化的细致打磨,AI这座商业富矿,才能真正显露出钻石般的光芒。