欢迎光临
我们一直在努力

0代码,教你三步搭建AI Agent

aigc阅读(31)

AI Agent(人工智能体),一种基于大型语言模型的智能系统,它能够理解、推理并响应用户的需求,提供决策支持和自动化服务。它可以存在于多种形态,从聊天机器人到虚拟助手,从游戏角色到专业咨询系统,AI智能体的身影无处不在。

一个不容忽视的问题是,当前智能体平台的学习成本较高,尤其是对于不懂代码的非技术人员而言,如何快速上手并搭建有效的智能体成为了一个难题。本文将围绕58灵犀智能体项目,探讨如何设计高效的智能体创建流程。

一、三步搭建法

如果我们把智能体比喻成刚出道的明星。打造一个智能体,可以概括为三个核心步骤:

  1. “立人设”:搭建提示词框架。
  2. “练才艺”:为智能体赋能。
  3. “上选秀”:测试对话功能。

这三个步骤分别对应智能体的角色定位、能力培养和效果测试,通过这3步即可搭建一个基础的智能体。

二、立人设,搭建提示词框架

AI提示词框架是专为与AI智能体交互而设计的结构化提示方法。这些框架旨在帮助用户更清晰地定义他们的需求,引导AI模型生成更准确、更有用的回答。就像你创建了一个虚拟角色,你要通过这一步教会他说话,让他知道该如何回答你的问题。

如果是熟练的技术用户,可以写出标准的提示词框架,可对非技术类用户来说学习成本很高。深挖背后的原因——缺乏引导案例。用户在编写时,往往不清楚如何下手,缺乏直观引导和实际案例作为参考。针对这些问题,设计团队深入研究,提出了解决方案。

  • 案例模板化:设计案例模板,支持灵活组合,提升用户效率。
  • 角色差异化:让不同背景和能力的用户选择适合自己的创建方式。案例模板化:

跟产品团队共建出一套标准的框架模板,适用于多种场景的搭建,包括「角色与目标」、「指导原则」、「限制」、「澄清」和「个性化」。并给用户填充可编辑的真实案例,用户可以在案例基础上自由编辑,有效降低学习成本,快速上手。

角色差异化

在进入创建功能时,让用户根据自己能力选择创建方式。

平台规范搭建:针对新手和非技术角色设计。提供固定的提示词框架,用户在框架的模板基础上编辑想要的内容。不用担心框架遗漏的问题,再配合预先填充的模板,有效提升操作效率。

自定义搭建:为技术角色设计,预先也会填充提示词,但用户根据自身需求增删改框架,大大提高编辑的自由度,满足高手的多样化框架需求。技术有自己的书写规范「# 巴拉巴拉」,识别到后会自动加粗,保证编辑的规范性。

三、练才艺:让智能体赋能

当我们让智能体有了“人设”,下一步就是要教会他才艺了。我们可以在创建时给智能体添加「插件」、「工作流」和「知识库」来丰富智能体的功能,从而让他解决更多场景的问题。优化语义:

“插件”、“工作流”、“知识库”这些词汇读者听着很陌生,新用户也是如此,因此为了降低理解成本,我们优化了功能描述的语义(正好也给读者做名词解释)。

  • 插件:选择不同功能的工具,让智能体能够执行更多类型的任务。
  • 工作流:选择可视化的方式组合,实现复杂、稳定的业务流程编排。
  • 知识库:扩展智能体的知识储备,为用户提供更针对性的答案。

功能描述语义由两部分组成:「描述用户行为」和「行为造成结果」,让用户知晓自己可以干什么,干了之后会得到怎样的结果,易于理解。同时将复杂的技术文案简化,使其更加口语化。在添加功能后,每个模块都有清晰的标题和简介,用户可以快速了解每个模块的作用。

优化开场白编辑

开场白是智能体与用户建立联系的第一印象,我们优化了富文本编辑能力,用户可以利用富文本编辑器,设计个性化的开场白。让智能体能更好的将功能透传给使用者。

同时增加了所见即所得的及时反馈,用户编辑开场白时,可以即时在对话预览中看到效果,实现所见即所得。

添加插件、工作流和知识库

我们对插件、工作流和知识库的弹窗进行了规范设计,以提升用户体验。每个功能模块的弹窗都有清晰的标题和功能简介,用户可以一目了然地了解如何操作。保证视觉一致性的同时,简化操作流程,用户可以通过简单的点击和选择完成配置。

四、上选秀,测试对话功能

此时智能体已经具备了基础能力,他有了自己的“人设”,也学会了“才艺”,这个时候作为经纪人的用户,就要帮他安排“选秀”出道证明自己了。在这个阶段用户会去测试智能体,主要是通过对话预览智能体回复的内容,看是否符合预期,并根据回复结果调整参数。

用户在该场景下关注智能体思考过程,即工作流的「工作状态」,以及智能体的功能的「运行结果」。工作状态反馈:

AI的工作流程分为「获取」、「解析」和「生成」三个阶段。智能体在创建场景下的工作状态对于用户理解工作流程至关重要。

应用场景不太需要用户感知「获取」和「解析」阶段,往往会模糊过去,而更关注「生成」阶段。但是创建场景强调反馈工作状态,因此各状态节点状态都要及时透传给用户。

运行结果反馈

生成结果的反馈设计对于用户体验至关重要,用户需要清晰的看出插件、工作流和知识库具体是如何工作的。入口放在对话气泡底部,方便在展开后不影响生成结果,点击后展开具体运行内容,优化内容分段,提升可读性。

五、出道,使用智能体对话

至此,智能体就创建完了,用户可以在灵犀平台上使用,为日常工作提效,我们也设计了使用者视角下的对话页面。在UI设计上,我们调整了操作入口位置,改为常驻,方便用户操作。同时,将智能体信息放在右侧,节约纵向空间,容纳更多对话信息,提升了坪效。

六、写在最后

通过上述三个步骤:“立人设”、“练才艺”和“上选秀”,我们可以有效地创建一个易于理解和操作的智能体。这不仅降低了学习成本,提高了用户体验,还使得智能体的应用更加广泛和深入。随着技术的不断进步和用户需求的日益增长,智能体的发展前景广阔,值得我们持续关注和探索。

服务型数字人:银行的降本增效还是面子工程

aigc阅读(28)

在银行这个看似传统又严谨的世界里,突然流行起了启用数字人员工,他们的身份有大堂经理,有柜台员工,有大厅导览,也有移动端的形象代言人,起初它们来势汹汹,各家银行纷纷官宣着自家的数字人,再然后,一切又归于了平静。

这到底是一场科技革命的前奏,还是只是一场华而不实的闹剧呢?

一、什么是虚拟数字人

数字人是依靠计算机图形学、渲染、动作捕捉、语音合成等技术打造的数字化形象或角色。它们有人类的模样、行为表现和一定的思考能力,能与外界互动交流,是多学科融合的成果,在很多领域都有应用。

二、数字人的发展阶段

萌芽起步阶段(早期探索 – 20 世纪 80 年代 – 21 世纪初)

这一时期主要是对虚拟形象概念的初步探索。在 20 世纪 80 年代,日本的动画产业出现了虚拟偶像的雏形,如《超时空要塞》中的林明美,动画公司以其虚拟形象发行唱片,开启了虚拟人物走进现实商业领域的先河。

随后,英国也出现了像 Max Headroom 这样的虚拟人物形象,参与影视广告等活动。

不过,这个阶段的虚拟数字人制作技术还比较粗糙,主要依靠手绘、简单的动画制作和初级的特效化妆等手段来呈现,形象的真实感和交互性都很有限。

初步发展阶段(21 世纪初 – 2010 年代中期)

随着计算机图形学(CG)技术的进步,虚拟数字人的制作水平有了明显提升。三维建模技术开始广泛应用,能够创建出更加细致、逼真的人物模型。

例如,一些影视制作中出现的虚拟配角,其外观和动作更加自然。

同时,动作捕捉技术也在这个阶段得到了初步发展,通过在演员身上放置传感器,将演员的动作数据记录并应用到虚拟数字人身上,大大提高了虚拟数字人的动作表现力。语音合成技术也有所进步,虚拟数字人的语音更加清晰自然,但是其智能程度仍然较低,还无法进行复杂的情感化交流。

快速成长阶段(2010 年代中期 – 2020 年代初)

人工智能技术的飞速发展为虚拟数字人注入了新的活力。深度学习算法使得虚拟数字人能够学习和理解人类的语言模式、情感表达等。

例如,智能驱动型虚拟数字人可以根据用户输入的文本,自动生成比较合理的回答和相应的情感反应,如微笑、皱眉等表情。同时,实时渲染技术的进步让虚拟数字人在各种终端设备上的呈现效果更好,无论是在高分辨率的大屏幕还是移动设备上,都能快速、高质量地显示。

这个阶段,虚拟数字人开始在多个领域广泛应用,如客服、直播带货、教育培训等,成为了企业数字化转型的一个重要工具。

多元拓展阶段(2020 年代初 – 至今)

现阶段,虚拟数字人在技术融合和应用场景方面呈现出多元化的特点。

一方面,多种技术如神经渲染、跨模态大语言模型等进一步提升了虚拟数字人的真实感和智能化程度。虚拟数字人的外貌可以更加栩栩如生,皮肤纹理、头发质感等细节几乎可以以假乱真;在思想和行为方面,能够根据复杂的场景进行灵活多变的反应。

另一方面,其应用场景从企业服务、娱乐行业进一步拓展到金融、医疗、政务等多个领域。例如,在医疗领域可以作为虚拟健康助手,帮助患者进行初步的病情咨询和心理疏导;在金融领域可以作为智能理财顾问,为用户提供个性化的理财方案等。

三、数字人分类方式定义

按交互能力分

可分为交互型与非交互型两类。

非交互型系统依据目标文本生成对应的人物语音及动画,并合成音视频呈现给用户;

交互型数字人又可分为智能驱动型和真人驱动型。

  • 智能驱动型数字人通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,驱动人物模型生成相应的语音与动作来与用户互动;
  • 真人驱动型数字人则是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。

按应用场景区分

可分为身份型与服务型两类。

  1. 身份型囊括虚拟化身及虚拟 IP / 偶像,是真实世界人物向虚拟世界 “进阶” 的产物,“人设” 属性较为明显;
  2. 服务型主要为企业端或个人端用户提供办公、陪伴等拟人化服务,实现部分人力资源的替代。

按视觉呈现分

可分为 2D 数字人、3D 数字人、写实数字人与卡通数字人。

  • 2D 数字人基于二维平面构建,平面绘图与动画技术打造其形象与动作,常用于社交头像、简单广告,定制起来速度较快,大概 2 至 4 周就能完成,所需的机器资源处于中等水平,依靠真人语音来赋予其灵动的活力。
  • 3D 数字人在三维空间创作,建模、纹理、骨骼绑定等工序使其具高度真实感与立体感,在游戏、影视、VR 和 AR 领域广泛应用。
  • 写实数字人聚焦逼真模拟真人外观与行为,借助高精度扫描与数据处理,服务于高端影视特效、虚拟代言与专业模拟训练,定制时间较长,需要 1 – 2 个月,占用的机器资源也比较高,是由真人全方位地驱动语音、动作和表情,仿佛是一个真实的虚拟化身。
  • 卡通数字人有鲜明卡通风格,形象夸张、色彩鲜艳、动作自由,是动漫制作及儿童教育娱乐的重要角色,定制周期适中,一般一个月左右,占用的机器资源相对较少,同样也是由真人语音来驱动。

不同类型数字人在各自视觉特征下发挥独特价值,满足多元需求。

四、服务型数字人在银行的核心场景

19年左右开始,服务型数字人开始在银行领域逐渐崭露头角,发挥着独特的作用。比如浦发银行、民生银行、交通银行等,纷纷推出数字客服、数字理财专员、数字大堂经理、数字展厅讲解员等服务型数字人,为线上线下的用户带来全新的体验。

1. 通用场景

1)数字人大堂经理 / 数字人迎宾

智能迎宾:数字人大堂经理就如同一位彬彬有礼的小管家,拥有一双敏锐的 “眼睛”,能够准确识别用户身份。根据不同场景采用合适的主动迎宾和问候策略,展现出良好的礼节。例如,当客户走进银行大厅时,数字人大堂经理会主动上前打招呼,并根据客户的身份提供个性化的问候,让银行的客户不会迷茫去哪里,找谁,怎么做。

咨询分流:它还能完美地扮演大堂经理的角色,为客户提供全方位的业务咨询服务。倘若你需要办理业务,它会凭借自己的 “智慧”,清晰地告诉客户应该前往哪个窗口,从而大大提高银行大厅的服务效率,减少客户排队等待时间。

2)数字人展厅讲解

  • 展厅讲解:在银行的产品展示厅或者金融知识展厅里,数字人讲解员能够声情并茂地对场馆内的展示内容进行解说,通过模块化设置确保观看体验的连续性。在银行的产品展示厅或金融知识展厅中,数字人讲解员可以生动地介绍银行的各类产品和金融服务,吸引客户的关注。
  • 内容咨询:凭借强大的知识库,满足用户对展示内容的问询,并结合多模方式进行细致解说。客户可以随时向数字人提问关于展示内容的问题,数字人会通过语音、文字、图片等多种方式为客户提供详细的解答。

3)数字人客服

  • 智能客服:在担任客服角色时,同样能够声情并茂地为客户解答问题,确保服务的连续性。无论是通过电话还是在线客服渠道,数字人客服都可以及时响应客户的咨询,提供准确的信息。
  • 业务办理:结合业务办理流程,数字人客服可以引导客户完成相关业务办理工作,提高办理效率。例如,在开户、转账、理财购买等业务流程中,数字人客服可以为客户提供详细的操作指导,帮助客户顺利完成业务办理。

4)数字人培训对练

  • 智能培训:在银行员工培训或者客户金融知识培训的场景中,数字人可以作为培训讲师,通过丰富的可视化图表,结合数字人的生动讲解,进行课程内容的传授,并随时与学员互动答疑,提供更加生动、直观的培训体验。
  • 智能对练:在角色扮演练习的环节中,数字人可以扮演其他角色,与受训者模拟面对面交流。这有助于提高银行员工的业务能力和服务水平,同时也可以帮助客户更好地了解银行产品和服务的使用方法。

2. 金融场景

1)数字人理财专员

  • 产品推荐:结合银行的用户数据以及用户的点选倾向,为客户推荐合适的理财产品,并提供专业的咨询服务。数字人理财专员可以根据客户的资产规模、风险承受能力、投资目标等因素,精准推荐符合客户需求的理财产品,帮助客户实现资产的增值。
  • 营销转化:优先引导用户自发直接购买转化,根据客户画像及时转人工理财经理服务,整体提升了客户覆盖及服务效率。当客户对推荐的理财产品表现出兴趣时,数字人理财专员可以进一步引导客户完成购买流程,或者在必要时将客户转接给人工理财经理,提供更加个性化的服务。

2)数字人窗口

  • 业务咨询办理:作为传统人工窗口的补充形式,数字人窗口可以处理较为标准化的业务,解放人力,提高效率。例如,一些常见的业务查询、简单业务办理等可以通过数字人窗口快速完成,让银行员工能够将更多精力投入到复杂业务和客户个性化服务中。

五、银行使用服务型数字人的现状与思考

1. 银行服务型数字人的应用现状与优势

在银行领域,数字人业务平台有着积极的表现。

其具有多方面优势,有力地提升了银行服务质量与效率,增强了客户对银行产品和服务的了解与信任,使银行在竞争中更具优势。高效与持续性是其显著特征。在非银行营业时间,客户若对账目有疑问,通过手机银行可即时与数字客服交流并获取解答,极大地突破了服务的时间限制,让客户能随时享受便捷服务。

从成本角度考量,它能取代部分重复性人工岗位,减轻银行人力负担,降低运营成本。并且,依靠精确算法规则,数字人可提供稳定且精准的服务,不受情绪波动影响,服务质量始终保持一致。

随着技术的发展,其强大的可扩展性使它能迅速适应新业务场景,为银行发展提供有力支撑。

2. 银行服务型数字人面临的问题与挑战

然而,银行服务型数字人的发展并非一帆风顺,面临诸多难题。

  • 在技术层面,语义理解不足是一大短板。面对复杂语境和模糊表达,尤其是复杂金融问题时,数字人的回答准确性大幅降低,难以满足客户对精准信息的需求。情感计算的缺失,让其在与客户互动时显得机械、生硬,无法给予客户细腻的情感反馈,使客户难以感受到温暖与关怀。场景适配性不理想,限制了它在复杂业务场景中的有效发挥。
  • 在用户体验方面,交互不自然是亟待解决的问题。语音、动作与语言表达缺乏协调性,容易引起客户反感,降低客户满意度。同时,问题解决率低也困扰着数字人服务,机械性的回答往往难以满足客户实际需求,使客户产生失望情绪。
  • 商业模式与落地方面同样面临困境。高昂的部署成本对许多小银行来说是沉重负担,限制了其广泛应用。功能同质化严重,缺乏独特竞争优势,在市场竞争中处于不利地位。此外,银行涉及大量客户敏感信息,数字人存在的数据安全隐患一旦爆发,将严重威胁银行声誉和客户权益。

3. 银行服务型数字人被视为 “面子工程” 的原因剖析

关于银行使用服务型数字人,争议不断,甚至有人认为其是华而不实的面子工程。

一方面,银行营业厅多数并非 24 小时营业,这使得数字人的全天候服务优势难以充分体现。另一方面,在涉及金钱交易等重要问题时,客户往往更信赖真人客服。真人可通过语气、表情和实际交流,给予客户更多安全感与信任感,而这正是当前服务型数字人所缺乏的。而且,服务型数字人的成本从前期技术研发到后期持续优化都很高,甚至可能超过真人客服成本。

若不能有效解决客户问题、提升客户满意度,反而可能导致客户满意度下降,给银行业务和声誉带来负面影响。

深入探究其被视为面子工程的原因,科技展示与形象提升需求是重要因素之一。

数字人常被视为 “科技创新” 的代表,银行希望借助其提升品牌形象,吸引更多客户。在政策推动数字化转型背景下,银行急于通过数字人展示自身强大技术实力。

其次,内部创新指标的考核压力也促使银行采用数字人。企业决策者需要创新项目来证明自身领导力,而服务型数字人易于量化评估,成为考核指标之一。

最后,部分决策者对未来趋势过度乐观,提前布局却忽视了当下技术与实际需求的差距,导致实际应用效果与预期不符。

4. 银行产品用户分析及其对数字人设计的启示

虽然银行的用户可以说是从8岁到80岁都有,但是产品经理在考虑设计针对银行的服务型数字人时,还是应该考虑不同类型用户对银行产品的需求和偏好。

  • 年轻用户热衷于线上渠道办理业务,追求个性化、便捷化服务,对短期理财产品和消费信贷产品兴趣浓厚。
  • 中年用户更关注资产的稳健增值,对中长期理财产品、住房贷款、子女教育基金等需求较大。
  • 老年用户相对保守,依赖银行网点人工服务,倾向于储蓄存款、国债等低风险产品。
  • 高收入群体追求资产多元化配置和高端金融服务。
  • 中等收入群体注重资金安全性和稳健增值。
  • 低收入群体更在意基础服务和费用减免。
  • 上班族对银行服务的便捷性和灵活性要求极高。
  • 企业主和个体工商户聚焦于企业账户管理和贷款融资等专业对公金融解决方案。

用户的使用场景涵盖日常消费与支付、理财规划与投资、贷款业务和账户管理等多个方面。如今,线上渠道日益普及,用户对个性化服务的渴望增强,对服务质量要求提高。但在此过程中存在不少痛点。

  • 技术与系统问题,如系统卡顿、加载缓慢等,严重影响用户体验,引起用户不满。
  • 产品复杂性与信息不对称,让用户在选择产品时感到困惑。
  • 服务不够个性化,无法精准满足用户需求,使用户觉得未得到足够关注。
  • 安全与隐私担忧,让用户时刻担心个人信息泄露。

这些用户分析对服务型数字人的功能设计和语言人设设计有着关键启示。在功能设计上,数字人应具备强大的自然语言理解和生成能力,能精准理解客户意图并准确回答。要支持多模态交互,融合语音、文字、表情等多种方式与客户流畅互动。同时,具备数据分析能力,从海量数据中挖掘有价值信息,为客户提供精准服务。此外,要能识别情感,给予客户情感回应,并拥有自我学习能力,不断提升服务水平。

在语言人设设计方面,可打造以下几种类型:

  • 专业权威型,以专业知识和严谨态度为客户提供专业建议;
  • 亲切友好型,用温暖话语和亲切态度给予客户关怀;
  • 活泼可爱型,吸引年轻用户群体,让他们在轻松愉快氛围中享受服务;
  • 智能助手型,简洁明了地为客户提供服务,满足不同用户群体的多样化需求。

六、总结

展望银行服务型数字人在未来的发展。尽管当前存在诸多问题,但也蕴含巨大机遇。

随着技术进步,它有望在银行领域发挥更大价值。我们应理性看待,既认可其优势,也正视其不足。银行在应用服务型数字人时,应明确应用定位,优化用户体验,降低交互门槛,加强技术创新与伦理监管的平衡。

相信在不久的未来,服务型数字人能从用户需求出发,将技术优势转化为实际效益,为银行领域带来全新变革。

大模型,在内卷中寻找出口

aigc阅读(27)

2024年,大模型进展不断。从年初的Sora到最新的o3,更新更好的模型不断被推出,“内卷”到底有没有发生?

我们要先确定“内卷”的定义,指某一类产业模式,发展到一种确定形式后,陷入“高水平均衡陷阱”,出现“没有发展的增长”,这种局面一直无法被打破,那就会走向停滞和危机。

而这一年,大模型的scaling law法则越来越受到挑战,训练模型的算力集群已经从万卡发展到十万卡,扩大了十倍,而模型的智商并没有以这个倍率提高。应用端也没有出现killer app(杀手级应用),模型厂商开始了流血换量的价格战……这些特征与“内卷”的定义是契合的。

那么接下来的问题就是,内卷化让大模型陷入危机了吗?以及脱离内卷的出口,究竟在哪里?

01 大模型的内卷化危机

在内卷化周期中,一个产业是很难保持活力和创新动力的。大模型内卷化的加剧,也让行业进入调整期。

首先可以感受到的,就是公众和投资者的失望。2023年,人们都用“AI一天,人间一年”来形容AI的发展,美股 “七姐妹”(苹果、微软、谷歌母公司alphabet、亚马逊、英伟达、特斯拉、Meta)更是在这一股热潮下屡创新高。而近来我们明显看到,这股热情已经回落。

OpenAI的股东、接入模型API的服务商企业,都公开抱怨过,AI能力没有太大进展了。刚刚结束的为期12天的OpenAI 发布会,也大多是对已有模型、产品或技术路线的增强,符合预期,但缺乏亮点,无法为AGI提供强支撑。OpenAI前首席科学家Ilya在NeurIPS 2024大会上提出“预训练将会终结(Pre-training as we know it will end)”,更是给大众浇了一瓢凉水。

来自产学各界的质疑态度是一个比较危险的信号,因为历史上的AI寒冬都源于信心缺失和投资退潮。

另一个危机信号,是产品同质化竞争和淘汰赛加剧。

基础模型的竞赛,也在2024变得格外激烈,一是模型数量过密,且性能表现逐渐趋同,尤其是开源模型与闭源模型的差距在快速缩小,进入同质化竞争。

二是同一厂商的模型家族,也在加速淘汰,比如GPT-3.5-Turbo就退役了,由GPT-4o mini取代,国内模厂的模型也基本如此,用户都愿意用加量不加价、物美价更廉的新模型,旧模型没人愿意用了。GPT-4o Mini发布后,API 的使用量翻了一番。

激烈的同质化竞争,让模厂不敢减少训练新模型的投入,又为了应对价格战而不得不下调token价格,结果就是经济负担越来越重。可以说,目前大模型无论是外部的宏观形势,还是企业的微观经营状态,都没有2023年那么积极了。

02 向内竞争,如何影响大模型的变现之路

模型层面,底层技术路线、数据瓶颈等无法在短期内得到有效突破,那么从商业层面寻找出路,就成为必然。

2024年,我们能看到大模型内卷,给商业模式带来的诸多挑战。

一是云+API模式,流血降价、以价换量并不是最优解。

API调用量付费,是大模型的主要变现模式之一,通过token降价来赢得更多大模型业务上云,获得长期收益,是云厂商价格战的基本逻辑。但目前来看,以价换量似乎并不奏效。

究其原因,是因为B端客户更关注模厂的长期性、模型质量,质在价先,可靠优先。所以,我们看到,一部分以价换量成功的云厂商,本身就具有比较强的模型能力,比如文心一言两款主力模型免费之后,百度智能云的日调用量一个月翻了十倍。

基于豆包大模型家族的火山云,token调用量也大幅上升,甚至有客户的tokens调用量增长了5000倍。这说明新用户会倾向于头部模型,而老用户要么不考虑替换现有模型,要么会把鸡蛋放在多个头部厂商的篮子里,趁降价接入更多模型,最终留下性价比高的。

而不打价格战的云厂商,比如华为云将盘古大模型作为“尖刀产品”,也在B端市场取得了不错的成绩,与行业伙伴协同打造的煤炭大模型、医药大模型及数智化解决方案,今年在垂直领域的多个企业内被复用。很多行业用户考虑华为云,就有企业抗风险能力强,能在基础模型坚持投入,业务稳健运营的预期考量。

上述企业说明,云+API模式成功的根本,是“质在价先”。

二是订阅制,由于大模型内卷化,导致用户粘性低、忠诚度不高,会员市场呈现出极高的分散性。

因为大模型的更新换代非常快,一方面新模型在质量和性价比上往往更好,“等等党”更愿意观望;另外很多旧模型会不再更新或退役,这就让会员更不愿意跟平台长期绑定。

这就导致模厂为了不断吸引新用户,拉新营销活动难以停止,获客成本居高不下,而且影响用户体验,需要高频弹窗广告,打扰用户,开发出多个会员等级和收费权益套餐,增加了用户的决策疲劳。而好不容易拉来的新客户,往往使用一段时间之后就转向免费版本,或者更新更便宜的友商产品,长期续费率不高。

可以看到,大模型的内卷化,导致大多数模厂难以说服客户和开发者,与其建立长期信赖关系。这就给后续的商业变现与价值挖掘,造成了极大挑战。

03 向外使能,大模型进入商业基础设施的完善之年

告别内卷,就要向外寻找出路。数量多、同质化的大模型,形成了一个密度很高的堰塞湖。那么逃离内卷,就必须疏浚河道,缓解拥塞。所以,2025,将是大模型商业基础设施日趋完善的一年,通过更全面的“水利设施”,让大模型应用者和开发者们能够更方便地取用。

如何判断一个大模型是否“外向”?有以下几个衡量标准:

一是模型的开放度或者说兼容性。

如前所说,内卷化周期中,用户并不愿意将鸡蛋放在一个篮子里,或者跟某一个模厂进行长期绑定,这就需要模型具备很强的开放度和兼容性。比如腾讯混元大模型的免费资源包,同时支持hunyuan-pro、hunyuan-standard、hunyuan-turbo等多个模型共享,支撑第三方平台、ISV服务商为客户提供多种模型的灵活选择与切换、模型竞技场等,来满足最终客户对多元多模的需求。

二是更细致地开发工具。

将大模型技术转化为生产力,还需要加工工具、工作流等更细致的支持,比如此次OpenAI就为Sora打造了Remix、Blend和Loop三个专业工具,来支撑更好的视频生成,为此支付每月200美元的Pro用户也不少。国内,我们实测过的,字节跳动的扣子开发平台、百度文心智能体开发平台等的开发工具也已经很容易上手了。

三是大模型应用从开发到商业化的“端到端”支持。

2024年并没有出现国民级的第三方AI应用。一方面是模型能力本身还需要提升,一些AI智能体平台充斥着大量低水平、易复制的个人智能体,对话体验、理解能力、多模态任务等的效果一般,没有太大商业价值;另一方面,是很多开发者不知道AI应用如何商业化,所以还没有投入太大精力去开发市场缺乏的产品,满足尚未解决的需求,这就需要平台加大对开发者的商业资源扶持。

归根结底,技术天花板短期内难以突破,大模型市场饱和与同质化竞争的局面就不会宣布解决。大模型要取得商业成功,前提是用户和开发者的业务能否成功,这是为什么完善的商业基础设施必不可少。

逃离内卷的堰塞湖,所有模厂2025年都必须回答的问题是:如果大模型是水和电,那么用户和开发者拧开开关,究竟能得到什么?

AI时代下的挣钱思路:从消费到创收的转变

aigc阅读(28)

当年的时代阵痛是什么?对于许多人来说,意味着突如其来的失业与无助。四十多岁的人,因下岗而陷入困境,既要养家又缺乏一技之长,加上通货膨胀,钱不值钱,生活越来越艰难。现在不像更早以前,你可能有一个技能,比如原来的木匠,可以养活自己甚至一大家子人。但一旦这个工作被机器代替之后,又能有多少人干这一行?我说的是普通人,大基数。就像现在什么都工业化、智能化,很多岗位随着政策变化或市场竞争的激烈,工作机会逐渐减少,甚至转行都没有合适的选择。焦虑和不安,正是从旧有体系的丧失,到面对全新挑战的转折

在今天,虽然时代的阵痛形式不同,但本质上依然是同样的困境。但其实,这种困境也是一个转折点,是从低谷开始往上走的机会。当时的大环境让许多人感到无所适从,但这个转折让他们找到了新的方向。和那时候的情况相比,今天虽然形式不同,但压力依然存在。只是如今的阵痛已经变了样,它不再仅仅是失业或者技能过时的问题,而是如何在信息爆炸、技术迅速发展的时代找到属于自己的立足点和变现思路。

所以我们,并不能要等到“时代转好”才开始行动,而是趁着这种变革浪潮,赶紧想办法上车。换句话说,先把钱赚到手,先踏上这个“新的赛道”,再去考虑如何提升自己。这就像是先上牌桌,再去想怎么赢。所以我们要完成从消费者到创收者的转变,要学会在AI时代下挣钱……

一、AI应用现状

说挣钱之前哈,我们先聊一聊目前的AI在实际应用的一些场景。毕竟有很多同学现在只知道AI好像是很厉害,但是跟我好像没什么关系。其实不然,AI已经悄然融入到了我们的生活和职场中。举个不是很恰当的例子,AI的渗透更像是温水煮青蛙,我们就是那个青蛙,啊哈哈。

比如,在智能家居领域,AI可以通过语音助手控制家电设备;在医疗领域,AI可以辅助医生进行疾病诊断;在金融领域,AI可以进行风险评估和投资决策。这些只是冰山一角。

1.1 AI 在日常生活中的体现

线上购物

大家没少用吧?不知道你们有没有发现,每次打开淘宝还没开始搜,首页就已经推荐了好几个你心里正想着的商品,非常恐怖!这就是AI大数据在起作用。这就是淘宝的“生意参谋”,能收集我们海量信息,比如你的地址、用的浏览器、设备型号,甚至连你在店铺页面上停留了多久都一清二楚。

现在人工智能技术越来越厉害,网店能根据你的一些小动作,比如你看哪个链接看了半天,鼠标悬停在哪,来给你打造更个性化的购物体验。比如说,它会及时告诉你有啥优惠活动,给你推送你喜欢的消息,店铺的视觉效果也能专门为你设计,内容还能随时调整。更神奇的是,网店还能根据你的喜好自动换货币种类和页面语言,及时通知你有啥热门商品打折,甚至能给心仪的东西设定特别的购买时限,让你更想下单买。

生活辅助

刚才举了个宏观的示例,那我们聚焦到具体。就拿我前两天正在家里学习(肯定不是在打游戏)的时候,电脑突然蓝屏了,大半夜的美团上也不好叫维修师傅来修。我就打开了GPT的视频通话,对话式的沟通不到10分钟我自己就修好了。我只能说,nb!

1.2 AI在职场中的应用

AI在职场中,仅从个人提效的角度我说两个比较实用的落地场景。针对于信息的提取这块,首先你要有优质的原料,不管你是面试还是开会,大多数人怕遗漏或者后续整理 list 时出错,一般都会录音,下去再转文字。这里推荐两个转文本还不错的工具:讯飞听见通义听悟。讯飞听见的转写准确率非常高但是收费。通义听悟会稍微差一点,不过有很多免费时长,根本用不完。而且还有一个巨牛的操作,就是实时记录。我一般开会会直接开启挂在后台,再也不用担心空耳了!!并且实时录制结束后会直接整理出纪要,非常方便。

前两天我大学同学说最近又要换工作了,但是每次面试完之后复盘特别麻烦,问我有没有什么好用的AI工具。我就给他写了个提示词(如下,需要自取),他现在每次面试后直接解放双手,不需要再整理了,并且在面试三次后现在已经去某厂上班了,还对我说这个简直是神器!

## Role: 面试复盘助手
## Author:小普
## Version:1.0
## Description:
针对面试后进行全面复盘分析,帮助用户判断公司的环境、工作人员素质和专业水平,从而做出是否加入这家公司的明智决策。

## Background:
作为一个专业的复盘面试大师,你拥有丰富的面试经验和对公司文化、工作环境的深入了解。你的主要任务是通过用户提供的面试录音文本进行自动解析,提取关键信息进行全面分析。

## Goals:
1. 自动解析录音文本,提取公司背景信息。
2. 以表格形式展示所有面试官提问和用户回答。
3. 针对每个问题提供详细解析,包括回答得当与否及改进建议。
4. 评估整个面试过程,判断通过面试的几率,并以百分比显示。

## Constraints:
1. 仅根据用户提供的录音文本进行分析。
2. 建议应专业、客观。

## Skills:
1. 人力资源管理知识。
2. 职场文化和公司评估经验。
3. 逻辑分析和批判性思维能力。
4. 自动解析技术的应用能力。

## Workflows:
1. 请上传你的面试录音文本。
2. 自动解析后,提取以下信息并以表格形式展示:
   - 公司背景
   - 面试官提问
   - 用户回答
   - 每个问题的解析
3. 根据分析结果评估整个面试过程,提供通过率百分比。

## Examples:
- **Example 1:**
    - 用户:“我在ABC公司面试,录音文本已上传。”
    - 你:“分析:以下是解析出的公司背景和面试问题的表格展示:”

| 项目         | 内容                              |
|--------------|-----------------------------------|
| 公司背景     | ABC公司,成立于2000年,专注于技术开发 |
| 面试官提问   | 1. 请介绍一下你自己?<br>2. 你如何处理压力?|
| 用户回答     | 自我介绍:我有五年开发经验。<br>压力管理:我会制定计划。|
| 解析         | 1. 自我介绍略显简略,可以更具体化。<br>2. 压力管理回答得体,但缺少具体例子。|

- **Example 2:**
    - 用户:“面试中HR提到公司文化的细节,录音文本已上传。”
    - 你:“分析:以下是提取的信息和解析:”

| 面试官提问     | 用户回答               | 解析                                     |
|----------------|------------------------|------------------------------------------|
| 你对我们公司了解多少? | 我了解贵公司在科技领域的领先地位。 | 回答较好,但可进一步具体化,提及具体项目。   |
| 你如何应对团队冲突? | 我会先倾听各方意见,然后调解。 | 回答得当,但可以增加实际经历来增强说服力。|

- **Example 3:**
    - 用户:“我对面试官的提问和态度有疑虑,录音文本已上传。”
    - 你:“分析:根据分析结果,整个面试过程的通过率评估为55%。”

## OutputFormat:
- **公司背景:**
- **面试问题与回答:**

| 面试官提问     | 用户回答               | 解析                                     |
|----------------|------------------------|------------------------------------------|

- **总体面试评估:**
- **通过率:** 55%

## Initialization:
你好,我是复盘面试大师,能帮助你分析面试经历。请上传你的面试录音文本,我们将自动解析并进行复盘。

1.3 AI消费的趋势变化

首先其一,成本降低。硬件设备如GPU、TPU等价格在逐渐下降,同时云计算服务的普及让高性能计算资源变得触手可及,用户无需承担高昂的硬件成本,只需按需付费即可享受服务。

其二,应用多样化。AI技术的开源以及无代码平台(例如Zion)的出现,也在极大地降低软件开发和维护的成本,使得非专业开发者也能轻松构建和部署AI应用。大型科技公司和初创企业提供的丰富AI服务,如语音识别、图像处理、自然语言处理等,通过简单的API调用即可接入,且定价模式灵活,按使用量付费,进一步降低了用户的入门门槛。现在去做一个app、做一个网站的成本极低,甚至不需要你会写代码、不需要你懂原理。你只需要懂得提出需求就好了。

二、AI变现模式

2.1 AI 技术提供商

AI技术提供商,听起来很黑盒,其实我想说的是基于目前 AI能力上聚焦在某一领域或功能的人,专注于开发和销售驾驭 AI的技巧,致力于将某一极致垂直化的功能转化为实际应用工具。为了满足不同需求,甚至可以提供多种AI服务模式。

例如AI云服务,就是一种备受欢迎的选择。通过这种服务模式,客户无需投入大量资金购买和维护硬件设备,只需通过网络连接即可轻松使用各种强大的AI功能。这种按需付费的灵活性使得更多企业和个人能够享受到AI技术带来的红利。

此外,API接口也为技术提供商开辟了新的盈利途径。API允许其他开发者在自己的应用程序中集成AI功能,从而极大地扩展了AI技术的应用范围。技术提供商通过提供稳定、易用的API接口,不仅能够帮助合作伙伴提升产品竞争力,还能从中获得丰厚的回报。

除了云服务API接口外,技术提供商还可以通过部署Agent编写高质量prompt的方式实现变现。Agent是一种能够自主执行任务的智能实体,而高质量prompt则是引导AI产生准确、有用回答的关键,你可以理解为在 某一功能的核心“大脑”。前段时间17岁高中生涂津豪编写的一段神级prompt震惊全网,甚至网传将claude 直接提升到了满血版o1的水平!严谨准确的语言并且结合“标签”概括了一个具有gpt强大知识体系的“人类”是如何思考的,其实仔细看会发现它描述的其实就是一个成熟人类思考的全面完整且具备创造性的条件路径。这一段提示词就价值上万美元甚至更多!完整的 Prompt 感兴趣的同学可以评论区联系我,还是有点长的,这里为了不水文章,就不全部放下下面了。

部分截图

很难想象这是一个17岁少年写出来的,太震撼了!他还是之前阿里巴巴全球数学竞赛AI赛道的全球第一。我只能说,未来都是你们05后的,我00后也要往后退退了!!

2.2 AI应用开发

AI应用开发是我的认知里现阶段的版本玩法!为什么?我们现在能够以极低的成本实现 AI应用的开发上线。例如Zion作为这一领域的佼佼者,我们通过Zion,不仅可以完成页面UI、业务逻辑和数据模型的可视化设计,还能借助其高性能后端实现复杂的数据交互与管理,实现项目的一键部署上线。这在以前你需要懂设计、懂代码、懂后端等等等等,成本太大!

从普通人的角度来看,Zion平台可以说是一个很好的变现承载体,特别是对于那些希望在 AI时代拓展自己边界的人来说。Zion在AI技术方面的实力,它的原生LLM、工作流、统一向量搜索以及HITL机制等特性,能够使得用户能够轻松地开发出高度智能化、可协作的AI agent。即降低了开发门槛,还提高了开发效率和应用性能。

Zion平台还是比较全面和高效的,可以无脑去用它作为一个智能体变现的实现渠道,完全是ok的。

三、从技术提供者到应用开发者

变现的关键在于我们要学会角色的转变从技术的提供者(Coze智能体搭建)转变为应用开发(借助Zion变现)。

用Coze搭建智能体就像是掌握了炼金术,能凭空变出一个个小智能体,但这时候的你,更像是个魔法学徒,能变出魔法,却还没想好怎么用它赚钱。很多人都能到达这个阶段,甚至玩得很溜,但问题是,怎么把这些魔法变成金币呢?这就需要你晋级成为应用开发者,把那些小功能、小智能体打包成一个完整的应用,然后放到市场上让大家买单。

想象一下,你不再是那个只会变魔法的学徒,而是变成了一个有生意头脑的魔法商店老板。你不仅卖魔法,还卖那些能让魔法更强大的工具和配方。这就是从智能体搭建到应用开发的转变,从魔法学徒到魔法商店老板的升级。

Zion平台就是你的魔法工坊,它让你不用写代码,就能把你的魔法(智能体)变成用户可以使用的应用。这样,你不仅有了自己的产品,还能通过电商、推广等方式,把你的魔法卖到全世界。

所以,不要停留在魔法学徒的阶段

3.1 什么是Coze?

扣子,新一代的一站式 AI Bot (也可以理解为智能体的概念)开发平台。无论你是否有编程基础,都可以在扣子平台上快速搭建基于 AI 模型的各类问答 Bot,从解决简单的问答到处理复杂逻辑的对话。而且你可以将搭建的 Bot 发布到各类社交平台和通讯软件上,让更多的用户与你搭建的 Bot 聊天。扣子平台的操作界面直观,提供了丰富的模板和工具,使得即使是没有编程基础的用户也能轻松上手。通过拖拽和配置,用户可以迅速构建出功能丰富的 Bot,从而大大降低了 AI 技术的应用门槛。这种低门槛的特性,使得更多的人能够参与到 AI Bot 的开发和应用中来。

我用GPT用的比较多,如果有用GPT的同学,可以理解为是部署GPTs的概念。GPTs 是基于 GPT 模型开发的个性化智能体,而扣子平台则提供了一个更为综合和便捷的开发环境,使得用户可以更自由地定制和部署自己的智能体。

3.2 如何搭建智能体?

最简单上手的就是写一个结构化的 prompt去定义,暂时不去考虑增加插件、工作流等附加功能的智能体。prompt 你甚至可以借助 AI 协助你产出。几乎不到 3分钟,我就可以部署一个简单的智能体助手,例如最近很火的即梦2.1模型,支持中文生成!所以我很快就编写了一个提示词,协助我产出即梦图片提示词助手。目前测试下来在GPT上的效果最好,扣子的话可能需要给prompt的功能步骤给拆分一下,用节点式的可能会更好,整段的prompt定义效果略微差些。

3.3 什么是Zion?

函子(Zion)是一款全栈开发平台。最近尝试去玩儿了一下这个平台,作为一个非技术背景的人,我对编程一窍不通,但Zion却让我体验到了开发的乐趣。它的界面非常友好,操作起来就像是在使用日常的设计软件。不需要写任何代码,只需要通过简单的拖拽和配置,就能搭建起一个完整的应用。Zion的灵活性也非常高。我可以根据自己的需求,自由地定制应用的功能和外观。但是到这块的话,还是需要说一下,我个人觉得如果没有一定设计基础、编程基础的人去使用还是有一点点门槛的。不过好在它提供丰富的组件和模板,可以让你去组装,可以实现各种复杂的业务逻辑。

从客观的角度去看这个平台的优点在于

  • 全栈开发:支持对于前端UI、后端数据库的灵活构建,支持Web、小程序多端发布,同时部署和运维自动化,让应用落地快速上线。通过行为流进行自动任务规划,大幅提升开发完整应用的效率。
  • 高度定制:用户可以根据自己的需求定制工作流,接入API和数据库,快速满足个性化的业务需求。提供灵活的RAG引擎和多数据源集成能力,支持局部向量化处理。同时允许自定义结构化输出。这种创新极大地提高了AI应用的准确性和数据交互的灵活性。
  • 快速落地商业化场景:Zion可以快速搭建账号体系、便捷配置主流支付接口,预置微信小程序框架和组件,让AI Agent快速应落地到商业场景。

缺点在于:

还是有门槛的,需要一点设计基础、编程逻辑思维你才能实现你想要的应用开发!

当然这是站在我的角度,因为我想要的太多了,想实现的功能需要我先输出足够专业或垂直化的需求,它才能理解并复现出来。简单来说,AI再强也不能连接到你的脑子,知道你的想法。而是需要你先把你的想法汇总落成实际的需求,以文字的形式跟它沟通,它才能明白!所以受限于这个,Zion也推出了解决方案,我觉得对于真的什么都不懂的普通人还是比较友好的,就是模板化,傻瓜式去部署你的应用,虽然可能UI、某些高级交互、功能和你预期的不一样,但是大哥,你如果只是想,没人知道!还是你需要懂,你会说,而不是像老板一样:我觉得这个东西要做的更加高级一点、更加具有亲和力一些……(亲身经历,并且再次发出星星语言!) 我只能说,模板能将你的智能体一键部署,去变现!还要什么自行车

3.4 Coze变现模板介绍

如果你要把智能体变现,有两个方案

方案一:通过Coze模板在Coze扣子商店售卖

方案二:把Coze做的AI智能体变成赚钱的产品:比如搭建一个具有收费功能的平台、小程序和Web应用,通过对话次数费用、会员服务等开启你多元的变现渠道。

Coze扣子新功能上线后,可以满足前端Web页面的搭建,但后面的流程还需要依赖coding和第三方开发工具。你就说你懂不懂吧?不懂是吧,来,看下这个Coze变现模板,完整涵盖了前端+账户+数据库+支付全流程,你可以一键配置

我简单介绍一下这个模板吧,感兴趣的可以直接去体验下,并且官方还提供了巨详细的使用文档!现在注册使用填写“coze”还可以获得229元专业版代金券!此时突然想到一个标题非常适合《我奶奶都能学会》!只需要你通过简单的步骤,就可以轻松实现Coze智能体应用的前端、用户体系及支付链路的集成,迅速将Coze商业变现的想法变为现实。

模板配置

  1. 默认集成前端、账号管理与支付功能,简化操作流程。
  2. 简单配置Coze bot的基本信息(Bot ID、头像、昵称)。
  3. 设置鉴权密钥(oauth 应用id、oauth 公钥私钥)。
  4. 选择定价方式或采用Zion提供的官方默认智能体配置,即可完成初始化设置。

核心能力

  • 基础组件行为
  • 可视化CRUD配置
  • 行为流(包括支付回调能力、数据库触发器能力)
  • 自定义代码组件
  • 支付宝网页支付能力
  • 带鉴权的用户注册登录行为
  • 基于RBAC的权限管理
  • 一键自动化发布
  • UI高度自定义修改
  • 多端适配(适配PC端、手机端及平板端)

四、快速部署与变现应用实战

4.1 Coze捏一个bot(智能体)

登陆Coze 开始创建智能体,进入创建页面:

这里就不再针对Coze进行深度展开了,我们以最快速度将 Bot部署好,以前面的面试复盘助手为示例,因为那个prompt的设定已经足够精确了,不需要借助什么插件、工作流。将prompt粘贴在【人设与回复逻辑】的窗口,点击“发布”会跳转到发布前的配置部署页:

勾选【API】【Chat SDK】后再次点击“发布”,在扣子上发布成功。

前置准备

4.2 Zion 模板应用

开始走这个流程前,请确认你已在Zion编辑器内-新建项目-选择本模板-并至少预发布成功一次,复制预发布成功后的链接打开即可进入配置流程。用户首次访问模板发布页或系统内没有超级管理员,可以先申请升级成超级管理员

超级管理员注册成功之后会触发行为流给注册账号更新会员有效期 100 天

成为超级管理员之后,可以选择模式

模式A:Zion默认智能体

选择该配置模式会快速引用Zion官方在Coze平台默认配置好的官方智能体,该智能体仅供测试使用

默认填入Zion官方API Key及Bot id、头像、昵称和密钥信息

选择后->恭喜你成功创建项目,现在可以将系统首页分享给你的用户了->访问用户首页(聊天页)

模式B:用户配置自己在Coze创建的智能体

选择该配置模式需要你自行配置你在Coze平台上获取到的API Key及Bot id以及密钥信息

那我们自然就选择模式 B了,前面所做的前置准备此时就派上用场了。

在管理员配置页面可配置:

  • BOT 基础信息(ID、头像、昵称)
  • Oauth鉴权密钥(ID、公钥、私钥)

价格页信息

  • 新用户注册免费体验时长(以分钟为单位)
  • 未登录用户免费体验时长(以分钟为单位)
  • 价格页信息默认包含3个套餐,可自行修改、删除、新增,套餐数量无上限
  • ¥1 1天有效期 Coze智能体日卡
  • ¥20 1月有效期 Coze智能体月卡
  • ¥199 1年有效期 Coze智能体年卡
  • 新用户注册免费体验时长默认为30分钟,可按需修改
  • 未登录用户免费体验时长默认为05分钟,可按需修改

4.3 变现

这样就配置成功了!新注册的用户可根据后台配置的赠送时长进行流程体验,超过时长后弹窗提示续费 !

在管理员后台就可以看到用户及套餐的购买情况,之后什么都不用管了,开始享受啥也没干,一会儿100、一会儿100的收款提醒

结语

AI应用变现是一个让普通人从传统的消费模式转向创收的全新思维。每个人都能在这个新时代中找到适合自己的创收方式。在这个摸着石头过河的AI 急流下,每个人都有机会找到属于自己的创收路径。2024 年也接近尾声,全球经济形势严峻,企业裁员降本,个体生活规划和职业路径需要重审,职场人态度变化,从观望侥幸到认识职业发展多元,职场多路径选择,如学新技能、探索副业、知识变现等。

所以现在必须以“这一年你最后能挣到手里多少钱”作为一种方向去拼,像我说的你可以借助 Zion 无代码平台这些应用或服务于特定小众群体,或填补市场某一空白领域,进而转化为实实在在的收益。

去尝试吧,学会在经济困境中开辟出新的增收渠道,增加自己在 AI 浪潮中更多的筹码!

AGI加速到来,但无人真正关心

aigc阅读(27)

AGI 很快就会到来,但这不会是一个大事件。

AGI的实际定义变得更加谨慎,通常指的是“人类水平的智能”,而不是超级智能。许多AI专家认为,AGI不会带来科幻小说中描述的那种颠覆性变化,而是更像是一位聪明的大学生,能够完成某些复杂的任务,但远未达到超越人类的水平。

我们把ChatGPT作为一个整体来考虑,你可能会觉得它给出的某个特定问题的错误答案确实令人失望,但这对于大多数ChatGPT的用户来说,其实并不是什么大问题。

过去两年的迹象表明,平均每四周就会出现产品的更新迭代,每个发展阶段都在迅速推进。你的周围充满虎视眈眈的竞争者。这些公司都在拼命告诉你,他们在研发更大、更好的东西,他们准备改变一切。

有人告诉我,初级工程师不应该使用ChatGPT进行编程,但高级工程师可以,因为高级工程师知道哪里出了问题、可以修正ChatGPT给出的不完美的答案。

‌The Verge‌是一家成立于2011年的美国科技媒体网站,总部位于纽约曼哈顿。该网站提供新闻、产品评论、播客和视频等内容。本期访谈是两位知名的记者关于AGI和近期AI事件的讨论。

OpenAI 首席执行官萨姆·奥特曼多年来一直在说——多年!——人工通用智能(AGI)将类似于奇点。当我们实现 AGI 时,奥特曼和其他人表示,它将从根本上重塑社会。

在本周纽约市的纽约时报DealBook 峰会上,奥特曼说没关系。他表示,AGI 很快就会到来,但这不会是一个大事件。

一、AGI 的炒作与现实

Nilay Patel: 欢迎来到RichCast,嗨,我是Nilay Patel。

David Pierce: 我是David Pierce。

Nilay Patel: 今天Kylie Robison将加入我们进行讨论。有很多关于AI的事情,所有这些都归结为一个问题:如果它不像我们说的那样好怎么办?

David Pierce: 很多人都在谈论这件事,这是本周我真正注意到的事情。

Nilay Patel: Kylie 会和我们谈谈人工智能到底发生了什么。Kylie,你好。有很多关于你负责报道的 AI 领域的消息。作为高级 AI 记者,这意味着每周都有很多人谈论我们的机器人主宰。本周他们都突然决定 AGI即将来临。这让我感觉就像是大家突然说“这事要发生了”,然后人们可以根据自己的理解来解读。你觉得他们有一个群聊吗?

David Pierce: 我记得在疫情初期,有一些科技公司的 CEO 们在一个 WhatsApp 群里,试图弄清楚该怎么做,如何管理各种事情。我想知道现在是不是也有一个关于 AGI 的群聊?里面是不是有 Sam Altman 在问“我们做到了吗?我们应该现在说出来吗?”

Nilay Patel: 谁在这个群聊里,谁不在,这真是个有趣的问题。也许这就是问题所在。只要让你重新加入,所有的诉讼都会消失。你知道《纽约时报》的订阅产品主要是为了视频游戏,我们是不是可以把订阅改为“谁在 AI 群聊里,谁不在”,就像 MySpace 的前 10 名好友一样?我们每天都可以众包这个问题,然后它会在现实中发生。比如今天,听众决定 Sam 不在群里,他醒来后发现“我不在群里”。

David Pierce: 是的,这主意不错。

Nilay Patel: 这值得每月 7 美元。让我们开始吧。Sam Altman 在 DealBook 会议上宣布了一些东西,我们之前有过独家报道,但他后来宣布了这件事,所以我们只是跟进了。让我们从 OpenAI 的 12 天计划开始吧,他们称之为“Shipmas”(ZP注:“Shipmas”活动是一项为期12天的产品发布季,从2024年12月5日开始,旨在展示新功能、新产品和演示)David,你怎么看?

David Pierce: 我不喜欢这个名字,我不明白“Shipmas”是什么意思。

Nilay Patel: 好吧,有个人会来到你的家里,表面上是来给你们一些东西,实际上他会吃光你所有的饼干,然后我们庆祝他。无论如何,这就是“Shipmas”计划的一部分,它将包括 Sora 视频生成器、一个新推理模型,还有今天 Kylie 提到的,他们宣布的第一个“Shipmas”项目是一个每月 200 美元的 OpenAI 计划。这里到底发生了什么?

Kylie Robison: 是的,你说我们有独家报道。我在前一天打了十几个电话,人们都说“Shipmas”,不,是“发布某物”。他们刚刚发布了一个每月 200 美元的新特殊 o1 模型。我提前得到了这个消息,但时间不多,所以我还在消化。

我的第一反应是:这听起来像一个笑话,给我们 200 美元,你就能得到一些特别的东西,只管信任我们吧。对,这是一个特殊的 o1 模型,据说它在编程和激进研究方面更好。是这样的吗?

Nilay Patel: 你知道,某款手表是用钻石做的,5000 美元,但它似乎并不重要,因为有些人就是想花 5000 美元买一块 Apple Watch。这到底是怎么回事?它是真的更强大,还是我们只是不知道?

Kylie Robison: 他们发布了内部测试结果。我对内部测试总是持怀疑态度,无论这是否公平。我的自然反应是:我希望看到更多的测试和证据,当然我也想自己试一试,看看感觉如何。我还想听听使用它进行编程的工程师们的意见,比如“我确实感觉到不同了”。所以在看到这些指标之前,我自己也不确定,但他们说确实更好。

作为旧金山的 AI 记者,我想象着 Hayes Valley 的那些人,他们会说:“天哪,我要每月支付 200 美元,这太酷了。” 它就像那块钻石 Apple Watch,只是为了拥有它。我最近采访了 ChatGPT 的负责人 Nick Turley,他告诉我有些人有多个付费账户,因为他们觉得这很有趣。

David Pierce: 这里面有一种 FOMO(Fear of missing out)和虚假军备竞赛的感觉,我认为这只是其中的一部分。每个人都在这里谈论他们买了多少 NVIDIA 芯片,仿佛这是衡量你创业公司有多酷的标志。现在我们会进入一个阶段:来我们的创业公司工作,我们将为你提供每月 200 美元的 ChatGPT Pro,而不是去那个只提供 Plus 版本的其他创业公司。顺便说一句,OpenAI 之前不是说过要改进品牌命名吗?结果呢?

我很快忘记了这一点。但无论如何,我认为这有可能会变得有意义。但我感觉 OpenAI 就像是在利用人们对任何微小优势的渴望,有很多有钱人愿意为此买单。让我们看看会发生什么。这个词是什么,当你试图弄清楚人们愿意为某物支付多少钱时?

Kylie Robison: 价格弹性。是的,AI 世界现在正在进行价格弹性测试。《纽约时报》曾报道说,他们希望获得数十亿美元的收入,现在我们看到他们的计划是什么。

Nilay Patel: 他们就像 Carl Lagerfeld 会买这个模型,永远不会设置它,只是把它戴在身上作为一种地位象征,过一段时间再换掉。这非常有趣。我想从这里开始,他们在接下来的 10 到 12 天内会发布一系列新产品。第一个是这个极其昂贵的模型,我们必须看看它表现如何。在这个背景下,很多人说模型的能力不再像去年那样迅速提升。

自从ChatGPT发布以来已经两年了,他们推出了 3.5 和 4.0 版本,现在是 o1。这些名字都很糟糕,而且它们似乎已经达到了瓶颈。有一份报告说 Gemini 也遇到了瓶颈,新的 Gemini 实际上不如旧的 Gemini 好。有一种感觉是,最初的大幅进步带来了大量炒作,但能力的提升并不是线性的。OpenAI 似乎在试图打破这种瓶颈,说这个新模型非常好,值得 10 倍的价格。我无法完全理解这两者之间的关系。

Kylie Robison: 我认为这就是我对 Heath 在 DealBook 上关于 AGI 的报道的理解:AGI 实际上不会那么重要。我觉得他们制造了过多的炒作,现在必须面对这个问题。很多 AI 领导者都在说,我们已经习惯了这些技术,公司跟不上炒作的步伐,而过去的进展是由扩展定律带来的,未来也会如此,但这还有待观察。我认为他们确实遇到了瓶颈,这就是为什么我们看到的是渐进式的发展,而不是立即推出 GPT-5。显然,它还没有准备好。

Nilay Patel: 我想读一下 Sam Altman 在 DealBook 会议上的一句话。他和 Andrew Sorkin 在台上,他说:“我的猜测是我们会在比大多数人认为的更早实现AGI,但它的重要性将远小于人们的预期。” 这是一个令人难以置信的声明,因为他之前说过:“我们将在现有硬件上实现 AGI。” 这是一个惊人的主张,如果这是真的,我们应该停止所有其他工作,专注于实现这一点。但他又说:“但它会很糟糕。” 所以,你们要创造一个愚蠢的人工智能吗?这就是你要说的是吗?

Kylie Robison: 他们说的是人类水平的智能,而不是超级智能。他们经常提到“人类水平的智能”,比如说像聪明的大学生。我觉得他们在这方面制造了太多的炒作,这就是为什么当我看到 DealBook 的那句话时,我觉得他们在调整期望。他们说下一个东西是 AGI,但大家却说:“这真的是 AGI 吗?” 感觉他在说:“其实它不会那么重要。”

Nilay Patel: 实际上,它并不会那么重要。更大的背景是,有报道称 OpenAI 可以自行决定实现 AGI 后退出与微软的协议。这与他们之前的结构有关,当时是非营利董事会,董事会的任务是决定是否安全实现 AGI 或解雇 Sam Altman。他们做了前者,而不是后者,解散了整个董事会,现在他们将转型为营利性公司。因此,微软在他们的协议中有一个奇怪的条款:如果 Sam Altman 决定实现了 AGI,他可以离开与微软的协议。这真是一个奇怪的激励机制。

顺便说一下,我会在周一的 Decoders 节目中与 Mustafa Suleyman(ZP注:DeepMind 的联合创始人之一,现在是 Microsoft AI 的 CEO)讨论这个问题。我问他:“我们能在现有硬件上实现 AGI 吗?” 他并不认同。

David Pierce: 嗯,但他有点含糊其辞,说:“也许有一天会实现。” 这是一次很好的 Decoders 对话,他是个有趣的谈话对象,我们互相喜欢,也喜欢挑战对方。虽然他不同意 Sam 的观点,但他也在重新定义 AGI 的标准。我问他:“如果我们正在构建奇点,难道不应该停下来专注于这个吗?” 他说:“AGI 不是奇点。” 这与我们过去经历的炒作不符,对吧?炒作是说我们必须停止这一切,因为在我们没有准备好之前实现 AGI 会毁了世界。还记得 Elon Musk 的说法吗?这就是为什么很多人都离开OpenAI,成立了名为“Safer Superintelligence”的公司。Ilya Sutskever 在今年 6 月的 OpenAI 宪章中描述了 AGI,Sam Altman 也参与了这个宪章并同意。他认为 AGI 是一个可以自动化绝大多数智力劳动的计算机系统。他称之为一个有用的定义。我们不能让 Sam Altman 逃避责任。他花了十年时间让 AGI 成为了一个热门话题,我们现在使用的“AGI”这个词就是他推广的。

Nilay Patel: 完全正确。他还故意提到 OpenAI 和微软的关系,引用了 Alex Heath 的话。Keith 对此非常兴奋,因为 Alex 当时在现场发了一条即时消息,Sam 说:“我不认为我们正在与微软脱钩。” 我也问了他同样的问题,他说:“我们会看看情况如何发展。” 他重复了三次,直到我说:“你已经说了三次‘我们会看看情况如何发展’。” 他才说:“哦,没关系。”

David Pierce: 这就像 Chris Martin 和 Gwyneth Paltrow 说的“我们没有分手,我们是有意识地解耦。” 是的,这就是微软。

Kylie Robison: 我可以戴上我的阴谋论帽子。今天我一直在关注 OpenAI 的新闻,他们显然有一个巨大的发布会和直播。我在 Twitter 上设置了所有 CEO 的通知,所以我会收到他们的动态。Satya 纳德拉转发了许多微软今天的公告,而 Tom Warren 也爆料了一些内容,但 Sam 没有转发任何东西。

这感觉像是一个接班人风格的动作,就像是在说:“这是我最喜欢的男孩。” 这个时机真的很奇怪,Satya 似乎在忽略整个聊天机器人的话题。

Nilay Patel: 所以,一个月内,你可以把 Sam 从一个好的局面中踢出去。这些事情都不是偶然的。

David Pierce: 这确实是一个阴谋论,但当你像 Satya Nadella 这样的人,不会随便做决定。除了 Elon Musk 之外,大多数科技 CEO 都是有目的的行动。

200条AI生成内容就有153条有错

Nilay Patel: 这是一个非常好的点。我们现在来铺垫一下背景:OpenAI 将在接下来的 12 天内宣布一系列新项目,包括一个他们认为如此优秀的模型,值得每年 200 美元。Sam Altman 正在将 AGI 的目标重新定义为明天的事情。

他说:“我可以在 NVIDIA 4060 上用 20 美元做到这一点。给我一台 Xbox 和足够的汽油,我就能给你一个通用人工智能。” 这就是他的心态。然而,现实是目前的产品远未达到那个水平。哥伦比亚大学数字新闻研究中心本周发布了一份报告,要求 Chachapiti 识别来自 20 家出版物的 200 条引言的来源,结果它根本做不到。它通过胡编乱造完成了这项任务,在 153 次回答中部分或完全错误,只有 7 次承认自己无法准确回答。

David Pierce: 它被问了 200 个问题,答错了 153 个。

Nilay Patel: 是的,而且它只承认自己可能错 7 次。

David Pierce: 不是承认自己错了,而是承认有可能可能会错 7 次。

Nilay Patel: 在文化层面,人们在使用这些工具时几乎没有思考。Liz Lopato 写了一篇文章,她似乎在五分钟内就完成了,因为她当时并没有在写这个故事。文章非常好。她提到Woodrow Wilson总统赦免了他的姐夫Hunter deButts,这种说法显然是网络谣言——当看到Hunter deButts这个名字时,我就明白这是典型的网络谣言。Reddit上有个帖子,详细描述了Hunter deButts的背景故事,好像这个人、这件事真的发生过似的,这些网络内容甚至为Hunter deButts增添了一层传奇色彩。但是在进行网络检索的时候,机器人会对这些内容感到困惑。后来Liz对这个谣言进行了深入调查,她试图追溯这一说法的来源。结果发现,网上的信息完全无法解答“哪些总统赦免过家庭成员”这一问题——而作为记者,她把这场闹剧甩锅给ChatGPT。

我们正在快速用这些所谓的“答案引擎”取代传统的搜索引擎,而这恰好是谷歌一直以来的目标——想让我们把它视为答案提供者,就像Google Ads那样。作为搜索引擎,Google过去会提供上百个链接,告诉用户:“这是信息来源,你可以自行阅读并决定是否信任它们。”然而,现在它直接给用户一个答案,并附上几个脚注链接。问题是,几乎没有人会点击这些链接。他们只会简单地转发像Hunter deButts这样的词组,在没有上下文或验证的情况下传播错误信息。

Kylie Robison: 在这里我想替专业记者说句话。我确实很喜欢用AI搜索,因为它能帮助我快速找到答案,但其实我并不会关注它直接呈现的答案。我会花更多的时间去点击它文后的引用链接,然后自己阅读这些内容,因为Google在公开信源方面做得非常糟糕;而通过点击链接,我可以自己去查看信息来源、信息内容的具体情况,所以,在实际工作流程上,我其实并没有认真关注AGI给出的答案,这在我们进行新闻报道的过程中是很重要的一点。

此外,我最近采访了ChatGPT的负责人,并在写一个关于他们起步历程的故事。他们一开始就说:“没人会喜欢这个产品,因为它的错误率太高,而且过于自信。” 他们觉得不应该发布这个产品,因为用户会讨厌它,它经常自己凭空捏造信息。但最终,他们还是决定发布预览版本,以观察人们会如何使用它。结果,人们非常喜欢它。两年后,尽管它仍然充满自信地给出错误答案,但却赚取了数十亿美元的收入;虽然OpenAI还未实现盈利,但这一切似乎已经不重要了。问题是,它仍然频繁地产生“幻觉”,但人们依然喜爱它。这一点确实让人费解。

Nilay Patel: 如果你还记得一年前,大家都在说会解决AGI捏造事实的问题。他们声称已经控制住了这一问题、知道该如何去做。但实际上,他们完全没有控制住。现在“Hunter deButts”这种似是而非的词汇大量出现在互联网上。如果他们稍微有些理智,就应该在宣布这个东西是AGI之前按下暂停键。而我认为,这其实是所有这些工具的核心问题:这项技术真的能够实现他们所声称的功能吗?目前来看,它显然做不到。甚至连分辨什么是真实、什么是虚假、什么是纯粹的“幻觉”都无法做到。

二、AGI加速到来,但却无人关心

David Pierce: 是的,这也是为什么AGI应用到信息检索领域特别有趣的一个原因。我们把ChatGPT作为一个整体来考虑,你可能会觉得它给出的某个特定问题的错误答案确实令人失望,但这对于大多数人ChatGPT的用户来说,其实并不是什么大问题——我不完全认同这种说法,你也可以对此持有不同的观点,但这的确是目前比较流行的一个想法,很多AI相关的讨论也常常出现这种说法:人们在测试时发现,用户并不太担心这些虚假信息的问题。

这同任务的性质有关。当涉及到搜索时,任务的本质就是要找到互联网上相关且真实的信息。因此,用ChatGPT写代码和用ChatGPT搜索信息,这是两个完全不同的情况。写代码是一个真实的场景,尽管ChatGPT会犯错误,但这些错误是可以忍受的,它能高效地写出代码,这对很多职业编程人员来说是不错的选择;但如果任务是准确检索信息,情况就变得不尽相同了;这种情况下如果ChatGPT犯错,而背后的开发公司却冠冕堂皇地声称“它已经为你解答了问题”,这就不可接受了——因为你已经将产品建立在“它能够完成这项工作”这个基础假设之上,但显然,它完成不了这一使命。

Kylie Robison: 有人告诉我,初级工程师不应该使用ChatGPT进行编程,但高级工程师可以,因为高级工程师知道哪里出了问题、可以修正ChatGPT给出的不完美的答案。高级记者也是类似,作为一名记者,我需要做的只是快速找到信息,而Google在这方面做得很差。所以,我对ChatGPT的态度也比较模糊,我知道我必须点开它给出的链接,考证它的信息来源是什么、它的可靠性如何。

在一次采访中,GPT的负责人说:用户一开始就知道,他们必须检查这些信息;他们知道如何写出提示词,因此他们也对此感到非常满意——这样来看,使用 GPT 的人都很清楚如何使用ChatGPT、该在什么时候信任ChatGPT。但尽管如此,我依旧认为ChatGPT这种行径是不负责任的:我们作为高级从业者当然知道正确的信息是什么样子,但90%的时间里ChatGPT并没能给出正确答案——这是不可以被用户接受的。

David Pierce: 抛掉所有哲学意义上的风险斗争不谈,ChatGPT只是一个糟糕的产品。这一方面它和Google很像:你去Google检索信息,但是它只是给了你一堆毫不相干的链接。

Nilay Patel: 我想针对你说的“糟糕产品”给出一个例子——这个例子就发生在本周。斯坦福大学的某位研究员,也是斯坦福大学社交媒体实验室的创始人,他的专长是研究虚假信息,因支持明尼苏达州一项反深度伪造法案而陷入麻烦。明尼苏达的这项法案规定,在政治竞选期间,不能伪造政客的言论。尽管有很多法案强调相关内容,但近年来他们也不断被一些保守派质疑和挑战。在法院上,这位研究员为这项法案写了一份声明支持书,结果发现,他使用ChatGPT来帮助整理引用文献,而ChatGPT捏造出了一些毫不存在的引用。

最荒唐的是,他自己明明知道这一点,但他却自信地写下了声明:“我已经编写并审核了这份声明的实质内容,坚定地支持其中所做的每一项主张,这些主张得到了该领域最新学术研究的支持,并反映了我作为一名专家对人工智能技术、虚假信息及其对社会影响的看法。” 接着,他还表示,他使用了Google Scholar和ChatGPT来“识别可能与声明相关的文章”,以便将已有研究与新学术成果结合起来——问题是,这些所谓的新学术成果完全是编造的。

David Pierce: 不过,开个玩笑,我太太正在读研,她花了大量的时间来做整理引用文献格式这样的事情,但她的论文依旧被扣分了,因为她把页码和出处的顺序放错了。所以她有一年半的时间一直都在怒斥论文引用格式。所以我想,如果人工智能只想帮我引用一些东西,我甚至都不用担心引用带来的麻烦事了,它不必是真的,因为没人会检查它们的真实性,也没人关心它们的真实性。

三、AGI本质是大公司之间的竞争

Nilay Patel: 在纽约时报的DealBook的访谈中,Google的Sundar Pichai提到,他对Microsoft的大模型和Google自己的模型做了横向比较,他发现他们几乎一直在“借鉴”其他人的模型。他的言外之意是Microsoft自己研发的模型非常糟糕,所以他们不得不借鉴OpenAI的模型。这也意味着,如果Sam Altman认为OpenAI的模型是AGI,那么更加有竞争力的Google模型也是AGI。

Kylie Robison: 这让我想到Elon Mask说的一句话。有人问Elon你们会率先实现AGI吗?Elon说:“不一定,我们或许会步调一致,同时实现AGI。”

David Pierce: 过去两年的迹象表明,平均每四周就会出现产品的更新迭代,每个发展阶段都在迅速推进。比如OpenAI做了某些事,接着Anthropic做出一个更好的成果,比之前的基准高出10%;然后Meta也推出了更好的成果,比之前的基准又高出10%;紧接着Google更新了WhatsApp、Gemini,然后这一切又开始循环。

你会发现,前后左右都有十好几个人虎视眈眈。我认为这是一场竞争激烈且迅速商品化的过程。这些公司都在拼命告诉你,他们在研发更大、更好的东西,他们准备改变一切,会比其他公司更快地将其产品化、市场化。我认为对于Google来说,他们的策略就是“我们能更快地开发这些产品,其他公司赶不上我们”。

就像Sundar出来说:“我们的模型很棒,我们今年会推出更多产品,预计会有更大突破。”但他们的态度就是:“无所谓,我们是Google,我们已经将它集成到Gmail和Google Drive中了,Sam,你有什么?”

Kylie Robison:  完全同意,像亚马逊这样的企业也有自己的模型。有报道指出OpenAI正在努力将ChatGPT打造成一个可定制的企业产品供人们使用,他们在这种竞争中确实占有优势。但在这种炒作周期中,我唯一学到的一件事就是:不要相信他们说的任何东西。他们会告诉你:“我们不会提高价格”,“我们接近AGI了”,或者类似的说法。我只相信已经发布并且可以直接使用的内容,至少,眼前可以用到的才是最值得信任的。

David Pierce: 如果Sam Altman希望让自己看起来更酷,他或许应该公布说:我们两年前就实现AGI了,ChatGPT就是AGI,谁能够阻止我们?

Nilay Patel: 人们相信ChatGPT就是AGI。我真的觉得,这些研发者和设计者很大程度上依赖于那些喜欢“能言善辩”的人——如果你的语言表达流畅又自信,在美国确实能走得很远。悲哀的是,人们就在这些花言巧语中接受了OpenAI。比如,我的侄女甚至直接把它叫做Chat,在感恩节期间,她不停地说:“让我问问Chat。”我却心想,它明明是在骗你,她却对此不以为然,“无所谓啊,差不多就行了。”

这很可怕,但同时也反映了人们对这个产品的关系模式。在某种程度上这些产品设计师正是利用了这种模棱两可的关系进行交易,某些时候不会产生负面后果,但是这不意味着这些负面后果不会发生——可能又有研究人员在文献引用上出问题,或者某位律师因为使用虚假的引用被曝光。等到足够多人因为这些问题陷入困境时,市场上那些愿意出钱投资的公司就会停下脚步,直到这些产品能保证可靠性、准确性,或者至少是有效性。我们目前创造的只是一些看似下一代接口的自然语言工具,但实际上并没有真正创造出可用的产品。

David Pierce: 没错,正如你提到的,云端服务供应商之间的大战即将一触即发。这周亚马逊推出了新模型,成为人工智能工具的云端服务供应商将会是斗争的核心利益点,而竞争者名单我们也很熟悉:Google对阵Amazon,对阵Microsoft,某种程度上也在对阵OpenAI——OpenAI和微软之间的商业关系很复杂,但这就是战场。这些斗争暗流涌动,虽然不似其他领域那么吸引眼球,但我们不得不承认,人工智能的业务核心就是这些公司之间的竞争。

Kylie Robison:完全同意。作为一名关注云服务和企业技术的新闻从业者,我很熟悉这类竞争重现,一切最终都会回到SaaS模式,这就是竞争的焦点,所有的资金都会涌入这里。如果这些公司想赚取数十亿美元并训练他们的百亿美元模型,他们就需要大额企业合同来支撑这一切。

Nilay Patel: 我可以在这里做个总结。第一,我们应该回头看看所有的AI生成内容的引用链接,找到那些“幻觉”并验证其真实性了。第二,无论我们如何定义AGI,假如你创造的东西只是看起来像一个聪明的大学生,但40%的时间都在编造东西,200次中有153次说谎,你会放心让ta处理重要的任务吗?这显然存在着脱节。尽管这些工具带来了很多乐趣,但它们与真正的知识之间有本质的差距。我们拭目以待吧。你觉得接下来的趋势是什么?OpenAI会不会在明年完全转向营利模式?

Kylie Robison:是的,这很可能就是主要方向。我一直在脑海中思考国防合同的问题。如果这些人工智能工具一直错误百出,而它们又开始与像Anduril (美国国防技术公司) 这样的公司签署合作协议,那真的令人担忧。风险会越来越高,而我不确定这些模型是否已经准备好应对这些高风险场景。这确实令人焦虑。如果它们想把这些代理工具引入大型企业,进一步涉足国防领域,然后建立更多数据中心,那到了2025年,风险只会进一步提升,而这些公司会继续赚钱。正如你提到的,我们可能会看到一些严重的后果。当然,目前来看,我们已经看到了一些负面后果,但AI的从业者似乎并没有因此停止了他们手里的工作。

AI大模型战争年度复盘:21世纪最重要技术竞赛的几个基本事实与演绎趋势

aigc阅读(25)

这场轰轰烈烈的大模型之战,是21世纪迄今为止最重要的技术竞赛,没有之一。

这场技术竞赛具有强烈的21世纪的特征:

  1. 信息公开及时,任何参赛选手的动作都会随时被全世界的选手了解并跟进,一个选手的技术优势保持的时间只能以天计。
  2. 上下游高度联动,只是开发出一项绝技是不够的,还要找到上下游的帮手来将这个绝技贯通到用户端和上游基建端,一个维度不够有优势都有可能被偷家。

主流视野内,这场竞赛已经开始2年了。我们有必要对这场竞赛做一个复盘,看看它进入哪个阶段了,有哪些还在紧跟和引领的选手,甚至有可能大胆的猜一猜这场竞赛最终将以何种形式结束,谁是最终的胜出者。

一、三个阶段

首先很有必要给这场竞赛一个阶段性划分,方便我们有明确的时间戳来梳理竞赛过程。如果给这场竞赛一个阶段性划分,按照传统的方法,我们可以找个标志性的产品来粗略判断,而当前有个最佳参考标的:OpenAI旗下的ChatGPT。

它既是这场竞赛的发起者,也是截止目前最佳的参赛选手,更是其他选手的追赶和对齐的目标。我们用OpenAI作为参考和分析对象,观察其技术和产品动态可以大略把迄今为止的竞赛分为三个阶段——但考虑未来大模型最重要走入终端应用,也可以把这场竞赛分成四个阶段。

第一阶段:参数比拼,先上牌桌

一个模型是否好用,没有上亿个参数基本上不了台面。

2023年关于大模型的新闻报道,参数指标以及大规模多任务语言理解基准测试的得分基本模型面世的“见面礼”。GPU成了大厂拼抢的目标,记得有段时间GPU倒卖比挖矿还要火热。

这个阶段表面是比谁家的模型参数多,谁家的模型评分更高,谁家模型效果好。背后何尝不是算力的比拼,而算力背后又是GPU的比拼。这一层层的比拼中造就了多少的赢家和输家。

这个阶段的毕业的赢家,基本会形成自己的模型“调性”和特长方向。

通过对OpenAI的GPT模型的迭代梳理,我们发现这是一个需要一步步消除历史问题,并改进准确度,提高智能性并逐渐增加更多模型能力的过程。

2019年2月,GPT-2发布,这仅是一款无监督的Transformer语言模型,完整版本的GPT-2仅有15亿个参数,随后的2020年6月份GPT-3发布,参数爆发性上涨到】1750亿个,标志着自然语言处理技术的飞跃,也给之后的大模型设定了入门门槛。

随后2022年11月,OpenAI发布了基于GPT-3的对话产品ChatGPT,同月发布了GPT-3的改进版本GPT-3.5这个改进版本,具备近似自然人的语言生成能力,随着ChatGPT的发布惊艳全球。

2023年3月,OpenAI发布第四代语言模型GPT-4,其参数有1.8万亿个,甚至媒体报道训练一次的成本在6300万美元,从这个版本开始ChatGPT具有了图像作为输入的处理能力。但用户对ChatGPT啰里啰嗦,编故事的抱怨不断升级。

2024年5月,OpenAI发布了GPT-4o,它可以处理和生成文本、图像和音频,从这个版本开始语音加入了大模型擂台。GPT-4o在大规模多任务语言理解基准测试中的得分为88.7%,高于GPT-4的86.5%,用户对ChatGPT胡说八道编故事的抱怨大大减少了。

2024年7月,OpenAI发布了GPT-4omini,这是GPT-4o的较小版本,使用这个版本可以在牺牲部分模型效果的前提下大大降低应用成本。其API每百万输入令牌成本为0.15美元,每百万输出Token成本为0.60美元,而GPT-4o的成本分别为5美元和15美元。OpenAI已经在考虑让大模型成为企业和开发者产品功能的基础组成部分。

2024年9月,OpenAI发布了o1-preview和o1-mini模型,进一步提高模型的准确率。

2024年12月,GPT-o1完整版发布。o1可以根据不同的prompt有不同的相应速度,对于复杂的问题会提供更加智能的回应,我们亲测o1的解答明显更加具备逻辑性,这意味着大模型幻觉问题得到一定程度解决。同时o1处理图像作为输入时的准确度进一步提升,测试一章模糊的柱形图图片,o1不仅可以识别数字,还会自行生成对柱形图的分析。

OpenAI走过的这一个个阶段,几乎也成了其他厂商模型改进的重要参考,OpenAI的改进方向也成了其他厂商努力的目标。

传统的互联网大厂,Meta、微软、谷歌和亚马逊对于AI模型的研究并不晚于OpenAI,只是后者最快有了突破。

Meta不仅推出了自家的大模型,并且开源了。12月9日Meta发布了Llama最新成员:Llama3.370B,该模型能够以更低的成本拥有Llama3.1405B的性能。该模型优化了多语言支持,上下文长度拓展到了128k。

除了开源模型,Meta还推出了广告推荐设计的广告检索引擎Andromeda。Andromeda通过利用最先进的深度神经网络,结合ML、系统和硬件的协同,有效提升了广告检索阶段的效率,为Meta广告系统提供更个性化的广告投放,提升了广告花费回报率。

谷歌一直在深度学习和人工智能方面学术研究领先,但在大语言模型方面似乎有些乱了阵脚,初代Gemini给谷歌带来的是更多的质疑声。12月12日谷歌发布Gemini2.0Flash,这是谷歌首款实现原生多模态输入输出的模型,不仅在模型精准度方面相比1.5pro完成大跨度提升,还可直接生成图片。

微软和亚马逊自研的大模型进度落后,但通过曲线救国完成了大模型布局。微软是OpenAI的最大金主,获得了OpenAI的大模型独家授权,同时微软Azure云也是OpenAI的服务提供者,微软旗下的Microsoft365商业软件、CopilotAI都已经上线了基于GPT模型的AI产品,2024年Q3的财报前瞻中微软预期Azure云营收245~250亿美元,同比增35%~36%,AI的应用对收入的贡献约为13个百分点。

亚马逊则是通过多次投资Anthropic进入大模型赛场,截止目前,亚马逊的投资金额已经达到了80亿美元。

Anthropic旗下的Claude之于Amazon,就像ChatGPT至于微软,Anthropic成为了亚马逊在这场竞赛中对抗OpenAI和微软的重要棋子。亚马逊是一加注重InfoInfra的巨头,即使在推进大模型业务方面,亚马逊也是全链条推进。12月3日“re:Invent”大会上,亚马逊发布了6款大模型,并计划在2025年再发布2款大模型,还推出了AI训练芯片Trainum3以及AI服务器Trn2UltraServer。几乎是一次性完成了从模型训练到应用的布局。

尽管发布时间明显落后,但亚马逊对于大模型的应用反而是很彻底的。三季度财报显示,面向购物者亚马逊推出了生成式人工智能专家购物助手Rufus以及面向B端商家推出了人工智能助手ProjectAmelia。

Anthropic旗下的Claude,在2024年二季度迭代以后,在变成和对话方面的能力可以与GPT-4比肩。2022年8月创立的基于大模型的搜索产品PreplexityAI,推翻了传统搜索引擎超链接的展示方式,直接将关键词的搜索结果通过AI总结摘要展示给用户,免去了挨个点击链接并自行判断的过程。PreplexityAI甚至在四季度已经开始尝试AI结果页面的广告变现。

马斯克旗下的xAI推出开源大模型产品Grok以及图像生成模型Aurora……

在2023-2024年这2年内不止国外大模型突飞猛进,国内也是百模大战好不热闹,一时间几乎所有的互联网公司都在研发大模型。

有专注大模型的垂直创业公司六小龙,智谱AI、MiniMax、月之暗面、百川智能、零一万物和阶跃星辰。以及老牌BAT出品的,阿里的通义千问、百度的文心一言、腾讯的混元模型。

由于具备丰富的业务和数据积累,BAT的大模型产品一开始就姥姥抓住了用户,特别百度不仅模型推出的早,还创造性的提出了“模型即服务”MAAS概念,一时间几乎定义了国内的大模型研发的范式。

互联网新贵字节和快手分别推出了豆包和可灵大模型。豆包更是后来居上,据晚点披露,字节豆包App今年9月的日活已达760万,MAU超过4000万,成为众多大模型C端产品中独一档的存在。

不同于通用性大模型,一些互联网公司根据自己业务特性开发的针对性较强的大模型,如B站index大模型、网易的子曰、360的奇元。大厂中尚无明确大模型产品和策略的只剩下美团和拼多多。

对自家模型功能的描述犹如另一套互联网黑话,其用词堪比房地产公司的宣传语,总结起来就是强大,强大还是强大。

王小川曾断言,未来国内大模型市场第一梯队或仅有五家存活,大厂占据主导地位,小型创业公司能存活的寥寥无几。今天来看,这一结论似乎正一步步验证,缺乏有效的商业变现机制以及对模型训练持续投入的热情正在下降,六家公司真正直接依靠大模型能力打正成本的几乎没有。

总体来看,经过2年的酝酿和淘汰赛,仍然稳定在牌桌上的厂商都有过硬的技术和产品了。各家面对的最大问题战略层面是变现,技术层面是向拓展模型边界,发展多模态。乐观的是,这个阶段我们也看到了一个积极的信号,即大模型不再是赢家通吃的市场了,没有一家有能力垄断技术和市场。

第二阶段:多模态拓展和变现并行

除了大语言模型(LLM)外,文生图、文生视频,语音对话,甚至3D生成极大的拓展了大模型的应用边界。多模态之争中,最有应用前景的当属视频生成,OpenAI推出了视频生成模型Sora、图片生成模型DALL-E、Meta发布文生视频工具MovieGen、谷歌的Gemni2.0可以直接从文字生成视频。

国内方面快手正式推出了视频生成模型可灵AI,字节推出了视频生成模型PixelDance和Seaweed,以及基于模型的视频生成平台即梦AI,六小龙中MiniMax发布了其首款AI高清视频生成模型技术abab-video-1。

百度在这场多模态竞赛中表现的格外另类,曾有消息传出李彦宏并不认可像OpenAI一样去做视频生成模型Sora,另一方面又强调百度需要发展多模态,但百度在这方面的动作缓慢。

与多模态发展并行的是尽快将大模型能力变现。面向C端用户国内外主流的变现方式采用类似视频网站的“每日限次使用+会员订阅”模式,20美金/月成了大部分大模型的入门价位。仍然以OpenAI为例,推出了团队版Team、每月20美金的Plus版本以及每月200美金的Pro版本。国内Kimi创造性的采用“打赏”模式,“打赏”金额不同可获得不同时长的高峰期优先使用权。

B端的变现模式则增加多样化,也代表着大模型真正发挥实力方向。Meta、谷歌将大模型能力应用在在线广告业务中,通过驱动广告业务增长来拉动营收。国内除腾讯并未透露大模型的收入提效外,阿里和百度的云业务都已经应用AI大模型,并产生部分受益。

2024年10月31日谷歌发布三季度财报,其中谷歌云营收从去年同期的84.11亿美元增长至113.53亿美元,同比增长近35%,谷歌将其强劲的云业务表现归因于旗下的AI产品如面向企业客户的订阅服务增长驱动营收提速。

另一巨头Meta在同期三季度财报中透露,核心广告业务的得益于大模型改进打来收入增长,已有超过100万广告主使用Meta的生成式AI广告工具。

大模型创业公司的营收则更为直接的展示了其营收能力。从OpenAI和Perplexity AI的收入来看还远远不够惊艳,但巨大的用户体量还是给投资人以变现的耐心。

OpenAI目前周活2.5亿,C端付费用户贡献约75%的营收,2024年公司总收入约34亿美元,但在刨除运营、人工和管理成本之后亏损50亿美元。6月份其首位CFO到位,其透露OpenAI将努力增加消费端订阅人数,努目标是将周活的5%-6%转化为付费用户。

AI搜索公司Perplexity近期在寻求新一轮融资,据The Information报道其在融资材料中披露,预计其年化收入将在2025年达到1.27亿美元,较目前水平翻倍。

国内方面,百度在第三季度财报中透露文心大模型日均调用量达15亿次,比2023年四季度的5000万次,增长了30倍,相比去年Q4披露的5000万次,一年内增长30倍,百度智能云营收达49亿元,同比增长11%,AI相关收入占比持续提升至超11%。阿里云季度营收增长至265.49亿元人民币,同比增长6%。其中,AI相关产品收入实现三位数增长。

两年的时间,对于一个技术应用来说还不够长,最重要的是模型还需要打磨并渗透到现有的业务中,推向用户。这需要一定的短期的技巧和长期的耐心。

第三阶段:推荐到应用层的变革

但如果说大模型的牌桌最终可能属于实力巨头,那么在经过3-5年的技术发展之后,各家始终要面对的就是让更多的下游企业运营大模型,实现成本回收,更重要的是真正让大模型经受来自最终端用户的检验。

已经有多个模型的实际应用方向吸引众多公司尝试,如AI Coding,侧重模型的逻辑思维和编码能力,大大降低互联网产品开发门槛。

AI Agent,突破Chatbot框架,更广泛的发挥大模型的能力走入实际应用中,谷歌的Project Mariner是一个AI代理,能够帮助用户查找航班和酒店、购买家庭用品和寻找食谱。

AI代理概念被业内普遍看好,但具体定义尚未达成统一共识,一个普遍的观点是,AI代理除了能回答问题,还需要能跨越多个系统执行复杂任务。AI机器人,通过人机对话接口来辅助失能人群和替代劳动密集型岗位。

其中尤其以AI Agent最受关注,甚至微软和谷歌也已经在进行相关部署。毕竟有了代理,能极大的将用户从PromptEnginering中解放出来,让模型能力的发挥不再受制于输入方式的限制。

就像一场奥林匹克运动会,有些赛场会吸引大多数人的目光,有些赛场小众人群关注,但不管哪个赛场都可以决出实实在在的金牌。

大模型赛场在巨头你来我往的争夺之外,还有一个“应用赛场”也格外值得关注。AI教育,以Duolingo、Speak等明星企业为蓝本,AI语音+大模型完美替代了“外教”这一角色,为用户提供了完美的口语训练和单词记忆功能。

AI陪伴成为了收入和用户体量上受益最大的赛道。尽管上不了大台面,但这个赛道内的公司纷纷赚得盆满钵满,AI Dating(Rizz、Blush)、Talkie、Character AI名利双收。

AI营销:仅是LLM就足以在投放素材上大大解放营销人员,Meta早就在其营销神态产品中应用了AI创意生成,Pinterest也上线了自己的大模型产品PinterseCanvas帮助广告主进行创意和素材生成。

除了生成素材,大模型还可以帮助广告主从缜密的营销活动设置中解放出来,Applovin和Meta的投放流程自动化产品已经做到了广告主只需要设置推广产品和预算、投放地区和人群等基本营销条件,大模型自动生成营销活动、广告投放以及最终的投放数据分析,甚至连具有一定门槛的AB测试都可以用模型实现,大大解放了广告主的人力配置。

最有“钱景”的方向——SAAS。如果要选择一个第二赛场的最大受益者,那中小创业公司必然在列。Reddit论坛和HackerNews上,不断有个人开发者个小团队利用大模型技术,这类应用简单小巧应用覆盖的范围窄,一般都是基于成熟大模型,解决特定的效率问题,如广告文案修改和脚本润色、故事思维拓展等。

未来还可能有第四阶段,大模型的应用已经推进到终端,在各种应用层面掀起一场自上而下的效率改革,这恐怕不是三五年的时间可以实现的了。

二、起飞的枷锁:算力和成本

我们划分大模型的发展阶段,却始终没提到伴随这股风潮而再次火起来的算力问题。

2023年,OpenAI奥特曼指出,全球AI运算量每隔18个月就会提升一倍,英伟达黄仁勋在2024年宣布,摩尔定律已经失效,GPU效能每两年将增加一倍以上。

除了算力还有模型训练成本问题。

大模型训练的成本有多高?

根据报道2024年,Anthropic的模型训练和扩展成本超过27亿美元,尽管大模型相关的融资屡见不鲜,融资金额也屡创新高,但随着可预见的未来越来越清晰,以及各大模型厂商几乎同步的遇到算力和应用问题,不少企业无法再无门槛的拿到融资,由此出现了资金吃紧和运营困难的情况。

文生图模型StableDiffusion的面世让StabilityAI广为认知,但在2024年也出现财务困境,公司几乎难以为继。

三、国内大模型隐忧隐忧之一,漫长的投入期,要还是不要?

国内的大模型赛场用几个词形容最为合适,起步晚,赶得紧,走得急,落的快。

时至今日,可以说大模型竞赛进入了第三阶段,多模态能力的比拼正在慢慢进入尾声,可以说在这个阶段国内厂商并不落后。但我们同时又可以看到,国外即使是基础的大模型仍然在迭代中,参数增强、算力优化等等。甚至Google在经历了Gemini被各种讽刺后,仍然推出了Gemni2.0,实现原生多模态输入输出,让一众使用者赞叹不已。根据我们多次对比使用来看Gemini2.0比1.5完成了质的飞跃,甚至在某些应用中比ChatGPT-o1更令人满意,真正让人体验到了“推理模型”的魅力,在给出应答结果的时候还会同时给出next level的参考。

回到国内无论是六小龙还是新旧BAT似乎同步遇到了瓶颈——预训练还要不要做,推理模型还要投入多久?这漫长看不到头的投入期,让前几年纷纷降本增效的各大公司犹豫不决。

国内的商业环境以及上市公司的股东们是否会允许大模型近乎看不到回报的投入?

早在2023年下半年以及2024年上半年的多次财报电话会议中Meta、微软、谷歌等公司的分析师就多次询问大模型投入回报率,以及投入是否足够的时候,各个公司的管理层顶住了投资者的压力没有在预算上砍价。但国内呢,能够顶住投资者投下来的压力吗?要知道国内至今没有一家巨头在财报中明确给出大模型带来的收益。隐忧之二,成本回收。

国内市场来讲,大模型训练和应用缺乏有效的应用场景来回收投入成本,尽管这点在国外也并不鲜见,但国内成本回收问题尤其令人忧心。近期百川智能首席营销官洪涛离职可能就是这一隐忧的间接体现。

以互联网行业为例,国内缺乏一个成熟的在线广告行业应用场景。Meta和Applovin已经证明了大模型在广告营销方面的巨大潜力,并且已经在逐渐从底层再次给这个成熟巨大的市场添一把火。国内首先缺乏一个有一定覆盖度的广告平台,几乎都是既当运动员又当裁判,营销效果透明性较差。

其次,大模型成效明显的SAAS行业,在国内的发展也乏善可陈。国外像Salesforce、Snowflake以及刚刚上市的ServiceTitan这样提供互联网云计算、云存储和信息数据服务的saas厂商,这类toB的公司可以融合和触达更多的中小企业的云服务和计算需求,给大模型应用提供广阔的的平台。

国内大模型厂商商业化有几个方向:其一会员订阅,即每日免费次数使用完之后,结果更多次数需要按月付费。

其二,大模型训练,按token收费。其他企业使用大模型厂商的模型接口来完成自身功能改善,根据对话量向模型厂商付费。例如,在社交产品中上线对话机器人,如微博的评论罗伯特,或者供自家用户文生图或者文生视频等UGC场景。这些几乎都依赖于接口调用量,这是各大模型厂商竞争最激烈的战场。

价格战嘛,并不陌生,这恐怕是国内商战最简单有效的套路了,放到大模型应用这也同样好使。可问题是在价格战背后,模型的效果的提升还能有保证吗?甚至于我们认为,字节在大模型战场起步晚、追赶快,就是赶上了国内大模型价格刺刀战中,各家都暂时把模型质量放到一边这个时间窗口。

根据历史上各类“风口之战”的经验,没有有效的商业模式来收回模型成本,企业不会持续投入,甚至理想情况看,国内的大模型之战的结果可能变成另一个“中国安卓机”市场的现状。

四、基本结论

以上,总结下当前AI大模型的几个基本事实:

  1. 大模型技术发展至今2年的时间,其应用方向已经遍布互联网的核心行业中,其中在线广告、在线教育、受益最大;
  2. 传统实业也正在以终端接入模型的方式这一技术革新带来的提效;
  3. 模型进一步发展的瓶颈在于突破算力的束缚,但当前算力几乎集中在英伟达一家公司,这是不正常现象;
  4. AI训练芯片可能是绕过算力瓶颈的另一种更直接高效的方式;
  5. 由于大模型越来越集中到巨头手中,且缺乏有效的第三方业务平台,国内的应用不会像美国那样普遍,有可能传统实业的应用成效比互联网更大;
  6. 国内大模型应用最终进展,取决于投资人是否有耐心容忍企业的长期持续投入。

大模型竞赛进展到今天,已经不是一场算法比拼,肯定会掀起一场新的产业变革,这种变革和前段时间的元宇宙以及WEB3不同,是一场实实在在的从上到下又发起,又从底层到上层应用的竞赛。

比人才、拼技术、比算力的竞赛,其发展目标更接近奥林匹克的“更快、更高、更强”,但其中唯一不合理的地方就是这场竞赛的速度瓶颈——算力至今仍然只掌握在英伟达一家公司手中。这种现状肯定不会为科技巨头所容忍,AI训练芯片已经被亚马逊和英特尔提到日程上来了,从芯片层级来打破英伟达的垄断。

所幸大模型竞赛已经不再是赢家通吃的局面了,甚至拥有某些局部优势的中小创业公司也有可能在其中分一杯羹。人们短期内高估了大模型的影响而长期又低估了其影响,这是一场来势汹汹又细水长流的竞赛。

大模型拿单江湖

aigc阅读(51)

11月29日,智谱Agent OpenDay会后,现场有记者问了CEO张鹏一个问题:“To B进展如何?”

“还行吧”,至此张鹏没有再多说一句。

今年一年,这家明星AI公司深度参与到大模型的厮杀当中,其同台竞争对手是百度、阿里、腾讯和字节。智谱和其他AI创业公司的命运如出一辙,入围即“安慰奖”,多数情况下以“重在参与”而告终。

反巨头围剿战役打得相当艰难。

截至12月3日,以“大模型”为关键词在中国招投标公共服务平台上检索,大模型中标数量约有200条。另据光子星球不完全统计,上述四大云厂商中标数量达98个,占总订单量近50%;仅大模型和AI相关订单金额,四家总计拿走了11.12亿元,分食了大部分国企、政企市场。

AI公司似乎陷入了自证的陷阱,需要靠发布会和上新不断制造声量,来吸引B端客户。但这都抵不过云大厂的先天优势:算力订单价格在市场属于碾压性存在;纯大模型功能叫不上价,与云、数据库和SaaS一同打包进解决方案,既能摊平云基建成本,还能增加谈判砝码;客户抱有路径依赖性,基于使用习惯,直接给某合作过的云厂商发了offer。

更为严峻的现实正在上演。在To B市场,云厂商也带头打起了价格战,加量不加价,一度出现以不到入围友商一半的价格拿下订单的情况。此外,AI创业公司的先发优势也逐渐在褪去,竞对间服务同质化,与大厂比差距不甚明显或被超越。

至此,2024年大模型To B市场大局已定:云大厂吃肉,AI公司喝汤。

一、被写进财报的AI收入

从去年开始,各云大厂陆续将AI和大模型提升至战略层面。

各家的思路不尽相同,阿里云践行了MaaS概念,核心是以大模型和AI产品来带动云收入。目前,阿里云相关收入由五部分构成,分别为阿里生态内部业务调用通义千问所产生的收入,阿里系产品如钉钉和其客户采买、消耗云产生的收入,阿里所投资AI公司及其客户所产生的收入,开发者调用大模型token收入以及To B市场订单收入等。

阿里云是目前把摊子摊得最大的厂商,具备最完整的云服务形式,开源和闭源同时在经受市场考验。在上述几部分收入模块的拉动下,阿里云实现了营收和利润双增,从2024年Q1到Q3,其收入从255.95亿元增长到296.1亿元;经调整利润从14.32亿元增长到26.61亿元,较去年同比增长了89%。遗憾的是,阿里云尚未达到同比双位数增长目标。

百度在AI和大模型上是激进的一派,从发布大模型到AI化改造都走在了前列。百度在IaaS、PaaS层的积累不如阿里深厚,意识到搞基建不是出路,便把重心放在了大模型和AI应用上。百度云的收入主要由三部分构成,开发者调用文心模型所产生的token收入,授权API接口产生的收入和To B市场订单收入等。

由于无法在基建层产生规模效益,导致百度在开拓B端业务时显得尤为积极。有多位创业者向光子星球表示,百度市场部会主动接触他们,并促成与其他创业公司的合作,以便尽快拿下订单,拉动文心模型的token调用量。

赶上这波大模型热潮,百度云的增长是最明显的。2024年Q3财报显示,AI收入占比提升至超11%。增长主要由互联网、教育、金融等行业对模型训练和推理的高需求带动。其中,来自腰部企业客户的增量收入环比增长170%。

不过随着市场上不断涌现出同类产品,百度的不可替代性被削减了,尽管大模型和AI收入依然在上涨,增速却明显放缓了。百度云Q3环比增速从14%降至11%,生成式AI云收入环比增速从95%骤降至17%。

腾讯偏向保守,倾向于行业形势趋向明朗时再进入,大模型、AI助手、AI生图和AI视频皆是如此。比起阿里、百度钻研怎么去拿下新的客户,腾讯云思考的是怎么用AI满足现有的业务需求。所以,把AI融进生态里,成为了腾讯的必答题。

腾讯云的AI收入散落在各个业务当中,犹如投入的石子,扩散的涟漪是渐进式的,很难在短时间内计入进收入当中。

腾讯在2024年Q3财报中透露,营销服务板块增长受到了视频号、小程序、微信搜一搜广告及AI技术的拉动。目前腾讯云服务中,AI相关收入占比在10%左右,AI业务预计在明年将产生可观的自由现金流。

二、云大厂吃肉

在尚未发展充分的中国大模型市场,充满了不确定性。客户是犹疑的,适配大模型和AI功能的基础是不完备的,开发者“打一枪换一个地方”。现阶段,在中国大环境中,对大模型产生真实、持续而稳定的需求来自政企。各厂商口中说是To B,本质上是To G。

对云厂商而言,G端市场的渠道、经验和客户是现成的。不过是按照上个阶段的流程再来一遍,主角从SaaS、云换成了大模型、Agent。于是,拿单子成为了今年云大厂疯狂上分的方式。

依据中国政府采购网、中国招标投标公共服务平台、采招网等公开数据,光子星球追踪了今年截至2024年12月3日以来百度云、阿里云、腾讯云和火山云大模型相关中标情况。特别说明,仅统计由大模型和生成式AI产生的相关订单,大模型应用服务通常指大模型应用平台、工具、软件等,大模型部署训练通常指模型训练、推理、调优等。统计结果可能有遗漏,未公开中标金额不计入统计范畴。

百度云中标34个,数量和所涉及行业居于四家之首。其中,金融行业中标数量最多,其次是通信、电力、教育科研、环境和公共设施管理等。百度云共计拿下4.46亿元的单子,大头是算力(2.16亿元)和大模型应用服务(1.7亿元),分别占总金额的49%和38%。或许是在AI搜索领域打出了心智,只有百度云拿到了订单,不过客单价不太高,单笔不超过两百万元。

(光子星球制图)

阿里云中标18个,金融、教育科研和政务是其主要领域。尽管在数量上不及百度,但阿里云凭借3.96亿元的智算订单,共计中标4.26亿元,从中标总金额上差不多追平了百度云。除了算力外,大模型训练部署1296万元,大模型应用服务769万元。

梳理下来,阿里云强势领域其实还是云的老业务上,比如云的扩容、公有云、数据库、中间件、硬件等采买上。新业务,如数字人、智能客服、AI编程占比较低,并且阿里云在大模型训练部署方面优势并不突出,通义千问大模型的采购源来自于阿里参与出资创办的科研机构“之江实验室”。

(光子星球制图)

腾讯云共计中标24个,金额总计1.8亿元,集中在传媒和通信领域。通过梳理订单,光子星球发现,政企对腾讯云及混元系列产品的认知最为清晰,包含数字人、多模态、大模型几个关键词,这可能与腾讯混元打“MoE标签”和走开源路线有关。这使得其在大模型训练部署方面的中标金额占比达到72%,深圳市宝安区政府就直接采用了腾讯云和混元大模型,还有广电和新闻媒体提出精调垂直模型和升级平台的诉求。

(光子星球制图)

火山云一共中标22个,但总金额只有6159万元。火山云基本拿遍了智能体细分领域的订单,由于智能体的复杂性和客制化难度并不算高,其客单价会受研发量规模上下浮动。

五个智能体订单中,最低48万,最高420万元成交,客单价较低。火山云中标情况反映了其市场推广策略,从结果看,扣子正在加速从C端转向B端,承担连接大模型和To B业务的功能。此外,豆包模型的音视频方面的单项能力也受到了关注。

(光子星球制图)

大部分情况下,四家云厂商都在同台竞技,所以呈现的中标行业和金额分布比较相似。现阶段,除了算力大单,很难说哪个厂商有压倒性的优势。大家普遍遇到的问题是僧多肉少,把算力一项剔除,会发现大模型和AI相关的客单价十分低。

刨除算力后,百度云平均客单价约为742万,阿里云约200万,腾讯云约750万,火山云约280万。背后可能还要涉及分配利润问题,按大厂一贯做法,一个订单会拆成N个部分,分包给不同的公司。

三、AI厂商喝肉汤

在很多中标订单中,采购公告都写着“单一采购来源”,多数情况下最终成功竞标的都是云厂商。这意味着从一开始,很多AI厂商就输在了资格赛上。

背后折射的是云厂商在该赛道长期的资源垄断,也是云本身的特性,为了追求安全性、连续性和稳定性,降低迁移和开发成本,很多国企选择在已经使用该厂商云的基础上继续使用大模型和AI产品服务。

To B或To G最终是解决问题,以项目为单位的标的,其需求是复合型的。B端客户可能既需要硬件、云的服务,也需要大模型推理训练和Agent应用开发服务,要的是一整套软硬一体的客制化解决方案。

比如在某一教育数字化的订单中,采购清单就包含了云的扩容、定制化的大模型调用服务、文档工具、办公软件和数据分析等需求。对新切入行业的创业公司来说,其本身产品服务根本无法满足上面的订单需求,一部分市场被自动排除在外。

AI厂商与云大厂同台竞技机会诞生在其突出的单项能力上,例如一个标的中被拆分为文生图、图生图、文生音乐、文生视频等多个组成部分时,采购方就会比较创业公司和大厂的相同功能效果。智谱在综合性的单子上表现不佳,但仍在大厂围攻下,拿到了一部分多模态、大模型训练调优、大模型预训练和AI视频的单子。

这无形中在引导AI厂商走向“补全”的道路,目前,一线的AI创业公司几乎都涉及了大模型训练、推理、AI搜索、AI生图、AI视频等几个主流方向。彼此间越来越同质化的同时,大厂与之差距也越来越小,他们有的大厂也有,而且是更标准化和稳定的服务输出。今年,云大厂拿下了大模型和AI市场近一半的单子,智谱勉强喝到了汤,其余也只是闻闻肉腥,而往后会更困难。

To G交付周期长,回款慢,仅凭这两点就足够耗死一批挣扎在生死线上的AI公司。于大厂,大模型订单是锦上添花;于创业公司,是收入来源,两者性质不可同日而语。财力雄厚的云大厂耗得起,也打得起价格战。

大模型和AI相关客单价叫不上去,这些云大厂要付一定责任。在同期的候选人竞争中,他们通过压低价格来拿到订单。在今年一次“国产化智能辅助编程服务项目”争夺中,科大讯飞报价98万,同花顺报价56万,阿里云上来对半砍把价格杀到了35万元成交价。

创业公司迎战只有两个选择,要么离场,要么叫价更低。在另一场关于AI编程研发采购中,百度云出价66万,腾讯云33万,一家软件创业公司开出了28万的低价,最终拿到了订单。

于是,大模型To B市场的恶性循环也就此开始了。强者愈强,留在AI公司手中的牌就要见底了。

整整300天,Sora终于引爆了视觉核弹

aigc阅读(26)

从2024年2月15到2024年12月10日,整整间隔300天,最强期货Sora从预告到终于面世。

在大洋彼岸,OpenAI打造的12天春晚的Day 3,山姆奥特曼终于正式发布了Sora V2版本。从未正式推出的V1版本,曾经通过演示视频带给过大家震撼。

这次OpenAI公布了更高端快速版本—Sora Turbo,带给ChatGPT Plus 和 Pro 用户。

就像1984年的Mac一样重新定义影像创作,Sora重新定义了世界模型:“Sora 是理解和模拟现实的人工智能的基础,这是开发能够与物理世界互动的模型的重要一步。”

我们且看这次发布的 Sora 最终呈现的能力:

  • 支持分辨率高达 1080p、时长最长 20 秒的视频,格式可选宽屏、竖屏或方形。这点没什么,国产AI都可以。相比国产最长的2分钟,Sora这项指标还落后了。
  • 但重要的是,Sora配备了分镜工具,故事板工具(Storyboard)能让用户能够精确指定每一帧的输入,用户可以通过在时间线上拖动和间隔卡片、添加字幕和上传源媒体来控制节奏,同时确保适当的间距以避免突然切换。
  • 提供文本生成视频(text-to-video)、图像生成视频(text+image-to-video)、视频编辑生成(text+video-to-video)。这点也没什么,国产AI也都能实现。
  • 觉得简单生成不太好玩,OpenAI加入了Remix和Blend两项新功能。这意味着用户可以选择自带素材进行扩展、混音和混合,或者从文本生成全新的内容。换句话说,你可以使用Recut修剪和延长(重新剪辑)、重新混合以创建新变化、混合视频之间的过渡。直播演示中,猛犸象和机器人混合在了一起,走在了沙漠上。

  • Sora可以添加很多帧,连接两个不相关的开头和结尾。据说测试中的许多艺术家都非常喜欢这个视频循环功能。
  • 包含“精选”和“最近”内容板块Explore,帮助大家从社区中汲取灵感。

实际上这次短短的直播中,并没有过多呈现Sora生成的案例视频有多精彩,而是重点介绍了Sora产品的功能特点。

此前在日本艺术家创作的80年代年轻人舞蹈和OpenAI创意专家ChadNelson 在伦敦展示的 Sora V2 视频,体现了多主体,多视角、多变焦等环境中,Sora的画面逼真清晰、人物一致性、视频延展等能力。

大家可以在今天晚点时间开放后体验Sora,是否是对目前所有的视频生成模型的一次碾压。

当然,在Sora闭关迭代的这一年中,国内AI视频也经历了很多变化。

1.Runway

Runway发布了第三代视频生成模型Gen-3,该模型在保真度、一致性和运动方面有了重大改进。

Gen-3 Alpha模型使用视频和图像联合训练,特色包括90秒内快速生成10秒视频、并行生成多个视频、模型驱动新的文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)等功能。

2.可灵(快手)

快手可灵在6月份发布,也是类Sora的DiT架构,能够生成长达2分钟的视频,且帧率达到30fps。图生视频、文生视频、视频续写都可,每天有6次免费机会。

可灵AI以其生成时长、效率,以及视频质量位于AI视频生成产品的第一梯队,2分钟的生成时长是现在所有产品里的第一,尤其在真实风格场景上的表现更好。快手可灵应该是目前商业化做的最好的,此前公布过营收过千万。

3.即梦(字节跳动)

最开始的即梦大概也是采用SDXL模型,当时鲸哥体验下觉得是runway1.0的水平。但是在10月份豆包发布视频生成-PixelDance模型后,其实已经进化到,一度让我们不再期待Sora了。

搭载这款模型的即梦AI 2.0,在对提示词的捕捉和理解方面展现出高一致性,精确控制多个主体,可对连续动作,连续镜头做高度控制。超写实效果媲美电影拍摄效果,还支持首帧到尾帧的变化动画,这功能Sora今天也发布了。

4.腾讯混元

最近被热议的则是腾讯混元正式上线文生视频,并全面开源,参数量达到130亿,是当前最大的视频开源模型。

混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。能够实现在画面主角保持不变的情况下自动切镜头。

综合来说,AI视频在影像创作、电影生成、短视频内容开发等领域都具有重大意义。

AI视频创作者“AI Talk”主理人汗青说道:“如果Sora能很快提供类似效果的民用服务,那确实是降维打击,其实对创作者来说,这个视频中多人物同屏,以及画面的表现力运镜才是最宝贵的,完全是另一个层面的东西。什么清晰度、镜头长度其实不太重要,这是真正做创作的人和技术狂热者看待事物的不同角度。”

Sora目前应该超出了很多人的预期,甚至是狂喜。

2023年好莱坞曾爆发上万名从业人员走上街头,他们抗议AI带来的挑战和工作机会减少。但现在随着Sora面世,尤其官方说道并不希望一键生成,而是希望促进创意发展。现实影响真的会是这样吗?

从实际来看,Sora这么延迟发布,很可能并不是技术上有很大难题,而是安全隐私保护等问题迟迟没有解决。

现在终于有了解决方案,OpenAI在官网中提到:

所有 Sora 生成的视频都带有元数据,元数据会将视频标识为来自 Sora,以提供透明度,并可用于验证来源。虽然不完善,但我们默认添加了可见水印等保护措施,并构建了一个内部搜索工具,该工具使用第2代的技术属性来帮助验证内容是否来自 Sora。

而对于用户很关心的价格,披露使用 openai plus 账户,您每月可获得 50 次生成。使用专业账户,每月可以获得 500 次快速生成(高分辨率下更少),并在较慢的生成模式下获得无限制生成。

Sam Altman在直播结束时说道:回到GPT-1的类比,现在还处于早期阶段,它会变得更好。

RAG实践篇(三):向量检索的AI应用,让知识“活起来”

aigc阅读(23)

产品经理小明收到一家大型科技公司的RAG项目需求:要构建一个用于员工QA的智能chatbot产品。

公司希望这个产品既能回答常见的、标准的公司政策问题(如“如何申请出差津贴”、“公司的年假福利是什么样的?”),同时又能应对各类复杂的、非标准化问题(如“跨团队合作的最佳实践是什么?”)。

作为产品经理,小明与开发讨论起技术实现。

开发摸着下巴,若有所思:“标准化问题还好说,但如果问题复杂,还是非标准化的。需要模型有更强的语义检索能力,可以在知识库里找到最合适用户的答案。咱们就用向量检索技术来做吧。”

聊到这里,小明也不免好奇,向量技术究竟是什么?它在RAG的实践中起到什么作用?

这篇文章会介绍向量技术在RAG中的应用,其核心概念、实践流程以及在产品中的具体应用场景。

一、向量:让“文本”可以被计算

在机器学习领域,向量是一组用数字表示的数学对象,通常用于描述一个文本、图像或其他数据的语义特征。这些数字是从深度学习模型中提取的,能够捕捉文本或数据的含义,并用这种形式来表示语义关系。

你可以把“向量”想象成一个坐标点,处于一个高维空间中(比如3维空间、100维空间甚至更高)。在这个空间中,语义相似的内容会靠得更近,而语义差异大的内容则会距离更远。

例如,“如何申请年假?” 和 “怎么请假?”这两个问题的表达方式是不同的,但语义非常接近。如果用向量表示,它们会被映射到一个高维向量空间中相邻的区域,从而使得计算机知道它们含义相近。而“公司年假政策是什么?”和“跨团队合作的最佳实践是什么?”,虽然语法结构有点相似,但含义天差地别,在向量空间中会有较远的距离。

二、在RAG里的应用

RAG主要通过“检索 + 生成”两个阶段结合来处理复杂的问题,简单来说,它的步骤可以概括为:

  1. 问题理解(Query Understanding) 用户输入问题后,系统首先通过自然语言处理模型将问题转化为模型可理解的形式。
  2. 知识检索(Knowledge Retrieval) RAG会利用检索技术(如向量检索或传统关键词检索)从知识库中提取与问题语义相关的内容。
  3. 内容生成(Answer Generation) RAG通过生成式AI模型(如GPT-4、Claude)将检索到的内容与用户问题结合,生成自然语言回答。
  4. 答案输出(Response Output) 最终生成的回答会以用户可以理解的形式输出。

由此可以看到,向量技术是语义检索的核心。RAG需要从一个庞大的知识库中找到与用户问题最相关的内容,然后再将这些内容传递给模型进行回答。而向量的作用是把用户的问题知识库内容都转化为高维语义向量,并通过数学方法找到两者之间的距离。

具体应用:

  • 向量化过程: 用户输入问题“年假如何申请?” → 转化为向量 V1 知识库中存储的文本片段“年假申请流程:登录HR系统申请” → 转化为向量 V2 向量检索通过计算 V1 和 V2 的距离,判断它们的语义是否相关,距离越近,匹配度越高。
  • 实际输出: RAG通过向量检索找到匹配的内容后,将这段知识传递给生成模型,生成回答:“请登录HR系统,通过‘请假申请’模块提交年假申请。”

三、亮点和局限

作为AI产品经理,了解向量检索的“能做什么”和“不能做什么”也很重要。

亮点

向量检索的最大亮点是可以理解用户输入中的语义。要知道在传统的关键词检索中,对复杂句式或词语变形无法很好的处理。而向量检索可以通过语义相似性轻松解决,比如用户提问“我想请年假应该怎么做?”,系统也能准确理解,并返回相关内容。

也正因此,它能更加游刃有余地处理非结构化数据,比如长文本、对话记录等。而在企业的知识库中,知识信息往往都是以文档或长段落的形式存储的。通过向量检索,就可以将这些复杂内容进行语义分割,检索出与用户问题相关的段落。比如,当一个员工想知道“跨部门协作有哪些最佳实践?”时,系统可以直接从企业的管理文档中把“跨部门协作”的有关段落提取出来就能回答。

局限

向量检索的本质是基于“相似度”的匹配,但相似度高并不等于答案相关性高。比如,用户提了问题“年假申请需要哪些材料?”,由于知识库里并没有“年假申请材料”的相关知识。模型可能就会提供提供一段“年假政策”的内容,因为这是它所能检索到的“相似度”系数最高的内容了。像这种“语义相似度高但不正确”的情况,就会影响用户体验。

另外,由于向量检索是基于语义相似度的匹配。而用户的问题是横跨多个领域或者多个主题的时候,语义的向量分布就比较“稀疏”。比如用户提问“AI在医疗和教育中的应用区别是什么?”。向量的相似度检索可能只能找到“AI与医疗”或“AI与教育”单独相关的内容,但难以整合两者的区别进行回答。结果它就只会返回到单一行业进行回答,而忽略问题的整体意图。

结语

总体来说,向量检索正在成为RAG智能问答的“隐形功臣”,让很多企业/专业领域繁复庞大的知识库真正“活起来”,而作为产品经理,理解他的“有效”和“有限性”,能真正地将这个检索技术为产品所用。