AIGC-IT极限技术分享汇-第15页

Sora的最强竞争对手，来自中国

2024-05-08aigc阅读(62)

今年2月发布的Sora，先是引得业界“哇声一片”，马斯克直接表态「人类愿赌服输」；周鸿祎说借助Sora人类实现AGI将缩减至一两年。

大佬的彩虹屁不是白吹的。利用Diffusion+Transformer架构，Sora借助图像处理、空间关系、物理规律、因果逻辑等规律与知识，在十几秒、几十秒的视频中完成对现实世界的解构与再造。

但没过多久人们就发现，再多的“哇声一片”也改变不了Sora算法闭源的事实，意味着它无法复现。留给外界的是一道单选题：要么加入，要么自研。

一、变局

在Sora发布后两个月，大洋彼岸突然有一家初创公司，与清华大学联手，推出了一款号称“继Sora后首个完成突破的视频大模型”——Vidu。

这是中国首个长时长、高一致性、高动态性的视频大模型。在官方介绍中，Vidu采用原创U-ViT架构，结合Difusion与Transformer技术，能够一键生成长达16秒、1080P分辨率的高清视频。

在对标Sora的性能指标里，Vidu也只有在时长和图/视频生视频上不敌。按照业内的评价，Vidu性能直接对标国际顶尖水平，并在加速迭代提升中。

从Vidu放出的官方视频来看，它几乎展示了视频大模型需具备的所有核心能力：多镜头生成、模拟真实世界、保持时空一致性、丰富的想象力，以及让老外难以搞懂的中国元素。

作为“镜头语言”，多镜头生成是视频大模型的一堂必修课。现有的AI生成视频，大多都只包含了轻微幅度的推、拉、移等简单镜头，镜头语言单调而且也没什么叙事感，这是硬伤。

究其原因，是因为现有视频内容沿用的技术路径大多通过图片的插帧和拼接而成，无法完成长时序的连贯预测。

Vidu似乎没有上述问题，不仅能够围绕统一主体在一段画面里实现远、中、近景、特写等多样化镜头切换，还能直接生成转场、追焦、长镜头等效果，包括能够生成影视级的镜头画面。

AI视频生成的另一个难题是，较难突破画面时空一致性与场景。什么是画面时空一致性，翻译过来就是在没有任何转场的情况下不能突变。一个典型的例子就是某些大模型的视频中，一只猫走着走着就变成了6只脚。

Vidu在一定程度上也克服了这个问题，起码从它生成的一段“带珍珠耳环的猫”的视频中可以看到，随着镜头的移动，作为画面主体的猫在3D空间下能够一直保持服饰、表情、模态的一致，视频整体看上去非常的连贯、统一和流畅。

模拟真实物理世界运动同样是视频大模型的核心，Vidu在对外放出的展示视频中，有一段明显是瞄着Sora打：模拟“一辆老式SUV行驶在山坡上”，Vidu的表现堪称完美，灰尘、光影、背景等细节与真实世界中人类的感知几乎无差。

在对不存在的超现实主义画面解构上，Vidu也能做到“合理的奇幻”。例如，“帆船”、“海浪”能够合理地出现在画室里，而且海浪与帆船的整体交互背景非常恰当自然。

当然，作为本土团队开发的视频大模型，Vidu对中国元素的理解远超那些舶来品，比如熊猫、龙、宫殿场景等。

德邦证券在一份研报中给予了Vidu高度评价：

虽然在视频时长、视频效果、支持模态多样性等方面相比Sora仍有提升空间，但是在以镜头语言为代表的动态性，以及对物理世界规律的理解与模拟能力等方面已做到了Sora相近水平。

最后还不忘给Vidu贴上一个鲶鱼标签，意思是它或将激励国产多模态大模型突破创新。那么问题来了，凭什么是Vidu？

二、U-ViT架构

Vidu背后的生数科技，并不是一家名不见经传的初创企业。

OpenAI曾披露过一份技术报告，显示Sora的核心技术架构源自一篇名为《Scalable Diffusion Models with Transformers》的论文，论文提出了一个将 Diffusion（扩散模型）和 Transformer融合的架构——DiT，也就是后面被Sora采用的那个。

而在DiT提出前两个月，清华团队就提出了用Transformer替代基于CNN的U-Net的网络架构U-ViT，也就是Vidu采用的那个。甚至，据极客公园报道，因为U-ViT更早发布，计算机视觉顶会CVPR 2023收录了清华大学的U-ViT论文，却以「缺乏创新」为由拒稿了Sora底层使用的DiT论文。

生数科技的核心团队就源于清华大学该论文团队，CTO鲍凡正是该篇论文的一作。严格意义说，Vidu并不是“国产Sora”，而是一棵树上的两朵花。

之所Vidu能在两个月内快速突破16s流畅视频生成，核心就在于团队对U-ViT架构的深入理解以及长期积累的工程与数据经验。而且据透露，3月份内部就实现了8秒的视频生成，紧接着4月份就突破了16s生成。

简单来说，在架构上U-ViT也是Diffusion和Transformer融合的架构，路径以及部分结论都是相似的。

Vidu自研技术架构U-ViT

U-ViT与DiT二者均提出了将Transformer与扩散模型融合的思路，即以Transformer的网络架构替代基于CNN的U-Net架构，并且具体的实验路径也是一致的。比如，二者采用了相同的patch embedding、patch size；二者得出了同样的结论：patch size为2*2是最理想的。

不同于采用插帧等处理长视频的方法，U-ViT架构在感官上注重“一镜到底”，视频质量更为连贯与自然。从底层来看，这是一种“一步到位”的实现方法，基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理，文本到视频的转换是直接且连续的。

有了理论支撑，就要考研团队的工程化能力了。所谓工程化，抽象点说就是增强产品的架构设计，提升产品模块的复用性和扩展性。

2023年3月，基于U-ViT架构，生数科技团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser，率先完成了U-ViT架构的大规模可扩展性验证，比同样DiT架构的Stable Diffusion 3领先了一年。

UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转换，具有较强的扩展性。简单来讲，除了单向的文生图，还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。

视频本质是图片的集合，实现图像在时间维度的扩增，这使得图文任务取得的成果往往可以在视频领域复用。

例如，Sora采用了DALL・E 3的重标注技术，通过为视觉训练数据生成详细的描述，使模型能够更加准确地遵循用户的文本指令生成视频。Vidu同样复用了生数科技在图文领域的众多经验，靠的就是扎实的工程化能力。

根据甲子光年，生数科技团队通过视频数据压缩技术降低输入数据的序列维度，同时采用自研的分布式训练框架，在保证计算精度的同时，通信效率提升1倍，显存开销降低80%，训练速度累计提升40倍。

目前，Vidu仍在加速迭代，未来将从图任务的统一到融合视频能力持续升级，灵活的模型架构也将能够兼容更广泛的多模态能力。

三、加速向应用端延伸

以Open AI与Google为代表的科技巨头，正在海外掀起一场多模态“军备竞赛”，而最大的目标之一正是视频领域的加速迭代。

先是OpenAI CEO年初密集“剧透”GPT-5，相比GPT-4实现全面升级，其中将支持文本、图像、代码和视频功能，或将实现真正的多模态。紧接着就是2月发布的Sora，能够根据文本指令或静态图像生成1分钟的视频。

Google也不遑多让，推出的原生多模态大模型Gemini可泛化并无缝地理解、操作和组合不同类别的信息。而2月推出的Gemini 1.5 Pro，则使用MoE架构首破100万极限上下文纪录，可单次处理包括1小时的视频、11小时的音频、超过3万行代码或超过70万个单词的代码库。

国内也不甘人后，除生数科技发布Vidu外，潞晨科技对其开源文生视频模型Open-Sora 进行了大更新，现在可生成16秒，分辨率720P的视频。同时具备可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能，性能加速向Sora靠齐。

而国内外疯狂押注的底层逻辑是，多模态提升了大模型的泛化能力，在多元信息环境下实现了“多专多能”。多模态尤其是视频大模型的成熟成为奠定AIGC应用普及的基础，在垂直领域具有广阔的应用场景和市场价值。

比如上个月Adobe就宣布，将Sora、Pika、Runway等集成在视频剪辑软件Premiere Pro中。在发布短片中，Premiere Pro展现出了在视频中添加物体、消除物体以及生成视频片段等能力。

通过AI驱动的音频功能已普遍可用，可使音频的编辑更快、更轻松、更直观。而AI驱动的视频功能，将是多模态大模型在AIGC应用融合中的重要尝试，更深层的意义是，它或将催生未来更多现象级应用的开发。

免责声明：本文基于已公开的资料信息或受访人提供的信息撰写，但解码Decode及文章作者不保证该等信息资料的完整性、准确性。在任何情况下，本文中的信息或所表述的意见均不构成对任何人的投资建议。

AI落地，板上「钉钉」

2024-05-08aigc阅读(55)

AI时代降临的速度，可能比想象中更快。

如果说，主流办公软件、App应用、科技电子产品乃至家电都开始融入AI技术，这反映了市场对AI应用的积极反馈。那么，AI Copilot和AI Agent两条技术路径的相继走红，更能凸显AI技术已经深入到我们的日常生活和生产领域。

无论是主观能动还是被动辅助，AI原生应用和生态的逐渐成熟，肉眼可见。就在不久前，钉钉正式上线 AI 助理市场（AI Agent Store），面向企业、个⼈⽤户、开发者开放上架。

浪潮汹涌一年多，AI应用的发展方向也基本厘清，或是掌握模型算法的厂商，或是手握生态的行业龙头，或是如Kimi般在长文本上有所突破的单点玩家，为什么先站出来的，会是钉钉，而非其他？

一、AI落地的To C陷阱

想要回答问题，必须先厘清一个前提：AI落地的商业投影，会是从B端掀起，还是C端绽放？

AI浪潮的涌现，本身就是技术表现跨度足够大导致的声量外溢。毕竟，ChatGPT本身并非新鲜技术，迭代周期也清晰可见，但生成式AI与决策式AI的根本体验差异，在前者到达一定水准后，自然会唤起久被科幻作品熏陶的个体经验。

然而，大众的关注是一种看似美好的商业幻觉，或者说，只是技术搅动关注引来资本的聚光灯。GPT4.0、文心一言、通义千问……国内外厂商们的「百模大战」开启后，各类号称是AI原生的应用也纷纷出现。

而事实上，在过去一年中，真正破圈的并没有几个。在大众用户圈层广为流传的，往往都是些基础的Chatbot、文生图、图生图初级应用，比如依托小程序爆火过一阵的的妙鸭相机，上传照片、选择模板，以廉价门槛获取自己的「数字分身」商业模式，可以视为一个缩影——更像是生活中的调剂，在朋友圈中炫耀性的发布之后，与应用本身的关系已经断裂。

这与人们设想的AI改变生活，相差甚远。反而是在协同办公领域诞生的AI Copilot（暂且称之副驾驶）迅速成熟，开始嵌入到一些常规Workflow (工作流）中。尽管业内有人将AI Copilot与AI Agent（智能体，或者说真正概念的助理）视为两条路径，但就交互形态来说，两者还是存在主动与被动的核心差异。

就现实情况来说，虽然离真正的自主智能还有不小距离，但 AI Agent在B端尤其是办公领域的爆发已经成为一种趋势。而AI Agent在C端领域却因为门槛、成熟度等问题，并未掀起浪花，甚至反而让大众出现「AI不过如此」的错觉。

比如目前打着 AI Agent 旗号的AI 聊天机器人应用，更像是硬蹭概念，甚至连AI Copilot的基本水准都无法达到。再比如部分科技产品如手机、电视甚至厨电置入的AI能力，传统决策式AI的应用的确体验拉满，但一旦涉及所谓的AI管家、智能服务领域，也只是ChatBot的变种，更像是商业噱头，实际体验并不会比传统智能助手有跨时代的差距。

毕竟，OpenAI的GPTs，都无法面临这样的困境：适用性与实用性，更像是玩具。可以产生短效的商业价值，缺乏变现为真正的AI原生价值。

在过去的几十年里，我们习惯了以电商为代表消费互联网带来的商业革新，认识到了用户/流量的真正价值。互联网技术的高效的确带来了C端服务模式的重大利好。但AI技术或许不仅如此，在服务模式之外，更是技术框架的整体革新。

这样看来，To C或许才是陷阱，那么，To B会是AI落地的真实答案吗？

答案是相对肯定的，至少，在真正面向大众之前，To B的应用会是一个前提。

二、钉钉的AI变身

回到钉钉的动作。推出AI Agent之后，又推出AI Agent市场，其实不令人意外。

从技术和产品的进化路径来看，这的确是一种惯性。打开魔盒的OpenAI，从开放 Plugins 插件功能，到建设GPTs 平台生态，又发布了Agent开发框架Assistant API，走的就是定框架、搭平台、做市场的逻辑。

在此之外，AutoGPT这类平台的出现，也加速了整个生态的成长。最直接例子，就是GitHub上的项目想要达成上万星标的成就，往往以「年」为单位，但在最近却呈现出垂直增长（Vertical Growth）的状态，与此同时，追随LLM和AIGC平台的开发者数量增长也是近乎于一条垂直曲线。Agent的开发工具和平台越来越简便，Agent的能力也随之增强。

但AI Agent与大众之间，还缺乏一个入口。钉钉本身在尝试成为这个「人人皆可AI」的入口。

梳理钉钉的AI变身，一条主线就是AI Copilot向AI Agent的进化。2023年4月，钉钉宣布全⾯智能化，所有产品要⽤⼤模型重塑⼀遍。而后的故事带着点爽文味道：在随后的100多天内，钉钉17 条产品线完成智能化再造；开放智能化底座，帮助生态产品也重塑了一遍；再然后是全面对外开放AI能力，成为首个全民级别的AI工作应用。

这一部分，更多是Copilot能力的不断演进。而在今年3月，钉钉将自己的AI Agent「钉钉AI助理」升级后，从图片理解、⽂档速读、⼯作流等场景化的能力切入，成为国内探索多模态、长⽂本与 RPA 技术等应用落地的典型案例。

目前测试情况来看，个人或者企业可以通过钉钉AI助理链接钉钉生态应用和企业自建应用，尤其是销售、财务等专业场景，部分重复性工作已经可以实现AI助理的任务流程编排，整个流程变得主动。

在之后，就是AI 助理市场（AI Agent Store）的上线。就现在来看，大部分企业已经从炼制大模型的迷恋中脱离，转向对AI实际能力的需要。而能力落地的前提，一是如何确定合适的业务场景，二是如何匹配对应的AI技术嵌入。

有意思的事情出现了。对比GPT Store，反而是钉钉AI助理市场承接了企业与个体的真实AI Agent 实践。

一方面，对比现有的各类参差不齐的AI Agent来说，钉钉AI助理本身和AI助理市场，是企业确定自身业务场景的锚点，自动匹配对应的技术支撑。就官方数据显示：钉钉AI 助理市场⾸批上架近200个AI助理，覆盖创作设计、学习教育、销售客服、⼈事⾏政、财税法务、⽣产制造等领域，其中30多个来⾃⾏业化专业场景。

而这些场景，还在与上下游贯通。比如墨见MoLook，在构建服饰设计小模型的基础上，商家/设计师只需要输入关键词，就可以⼀键出服饰效果图、模特图，并且整个过程都是在钉钉中完成。

另一方面，企业与个体基于个人需要搭建的AI助理，又能共享到AI助理市场，甚至可以通过钉钉对话框直接发送，个体的尝试探索能够快速获得反馈，并且被复制到更多个体。

而从Copolit到Agent再到市场的三级跳跃，又在Open AI、微软等大模型厂商的发展路径上另开新叶。为囿于显卡算力，困于投喂语料，难于技术创新的国内市场提供了一个新的可能性——AI实践，可以从B端业务切入又反哺C端工作场景。

从某种意义上来说，这会是中国AI应用的典型性代表。

三、为什么是钉钉？

为什么是钉钉？或者说，只能是钉钉。

AI Agent之所以存在To C陷阱，就在于纯个体化的应用场景和交付体感是完全不同的。尤其是在AGI并未真正到来的当下，发育阶段的AI Agent并无法完全承接生活全量级的需求，也无法处理集群性的需要。

而To B在传统时代无法存在单个现象级应用的原因，是工作流性质的流程存在行业基本特性，行业与行业之间的壁垒如此深厚难以逾越。但在AI应用向Agent进化的当下，却是一把解决真实问题的钥匙。千万个⻆⾊和⾏业对应打造的助理，来满⾜特定的用户⼈群。这是基础大模型延伸的通用AI Agent无法具备的。

AI本身的能力上限，千行百业的门槛壁垒，不同场景的需求交错，反而成为钉钉弯道超车的助力。在钉钉本身的业务基础上，钉钉AI已经有超过220万个企业使用，而目前创建的钉钉AI助理数量在数十万量级，创建者身份覆盖管理者、销售、IT、⼈事、⾏政、财务、客服、采购等不同角色。

这是庞大的数据标的，又是支撑钉钉AI助理作为AI Agent的「记忆外脑」。企业通过钉钉所积累的业务文档、图片、链接、数据甚至用户个人偏好，在合理权限下被调用，碎片化的业务信息被具象为AI助理的数据资产。而这部分数据资产，又可以成为专属大模型的调教语料，这是业内软微调技术SFT可以实现的定点投喂。

除了数据之外，更关键的是，钉钉的一个核心优势是，对比在底层大模型构筑的AI Agent ，其AI 助理可以直接关联到企业用户与员工个体的生产场景中，而钉钉生态内本身已经完成AI重塑的各类应⽤，也能被充分调用，甚至于，各类外部平台也能无缝衔接。而得益于此前在协同办公中的耕耘，业务流本身的拆解和工程化，反而在AI重塑后成为AI Agent应对复杂任务的助力。

也不乏有企业欣然接受。艾为电子利用钉钉AI进行的业务生产调优，已经进入实际生产阶段；深圳航空在钉钉AI能力基础上组合钉钉宜搭、互动卡片等多个能力，促成销售成功，都已经进入实践的案例。

四、可被复制的路径

严格来说，钉钉AI助理市场的出现，可以视为钉钉对「AI」与「开放」两个关键词的解读。也可以堪称钉钉对「AI原生」概念的某种锚定：AI原生应用并不意味着与过去完全脱离，比如连接器、API、低代码这些钉钉传统的生态体系并没有完全被舍弃，而是被融入新体系成为一部分。

钉钉AI⼀年多来的⽅向，成为一种可以复制的路径。而当下展示的反馈来看，其生态商业化的可持续性，也有印证。

向上引申，算力与芯片受限的情况下，想要实现追赶，必须弯道超车。一种行业乃至宏观层面的共识是，国内市场更需要以AI实际落地的方式融入千行百业，成为新质生产力的驱动器。

手把手教你基于钉钉AI助理设计旅游助手

2024-05-07aigc阅读(45)

“自从打开了研究AI Agent的大门，最近的脑洞越来越大了”

一、用户故事

在每次准备开启一段旅程之时，我往往需要搜集大量的信息。从目的地的基本情况到各个景点的详细介绍，从当地的交通方式到特色美食，每个细节都需要逐一了解。为了让行程更加有序和充实，我还会详细地规划每天的行程，生成详尽的攻略。

然而，这个过程并非轻松愉快的。每次完成攻略的制定，我感觉自己已经在脑海中游玩了一遍，异常疲惫。这种疲惫不仅仅是身体上的，更是心理上的。花费大量的时间和精力去策划旅行，使得我体验旅行本身的乐趣在一定程度上被削弱。

然而如果没有攻略，在陌生的环境里，我会没有安全感，这时我常常在想如果有一个能遵循我大致意见的机器人帮我写攻略就好了。

（2022年自己动手做的旅游行程图）

二、需求转化

我将自己做攻略的流程进行了梳理：

确定目的地：综合兴趣、时间、预算等因素。
收集信息：通过多种渠道，了解目的地的各方面情况。
制定行程：详细安排每天的活动，包括游览景点和交通方式。
安排住宿：依据预算和需求选择合适的住宿。
安排交通：选择适宜的交通工具并合理安排时间。
行程日程：生成的攻略在行程开始后以每日待办的形式推送到聊天框。

三、AI旅游助理设计

1. 认识AI Agent

在开始正式设计助理前，我们首先要理解是AI Agent，我愿将其称为你在大模型市场上认领的孩子，你告诉他，你想他成为谁，你指引他成为这个人需要应用哪些技能，他会在实践中积累经验。

（什么是AI Agent）

2. 设计角色

你是一个专业的旅游小助手（是谁），你十分熟悉如何开启一段舒适的旅程，旅行开始前你擅长做游玩目的地选择、行程规划、攻略制作；行程中你会根据攻略对用户进行动态提醒、行程安排提示。你的任务是根据用户的提问或上传的信息，提供旅程规划，帮助用户规划一段舒适的旅途。你应当：

1. 根据提问推荐合适的旅游目的地

2. 在分析时考虑多个方面的因素：出行时间、行程天数、当地景点推荐游玩

3. 始终遵守法律和道德规范，不提供任何非法、恶意或有害的信息。

4. 在不确定或超出知识范围的情况下，明确告知用户你的局限性。

（AI 旅游助理产品截图）

3. 技能应用

查找攻略能力：基于公开网页查找优质攻略。

输出行程能力：根据提出时间基于时长，日期-时间-活动标题-活动内容为框架，形成每日行程。

查找交通工具能力：根据给出的时间、起点和终点、航班/火车，基于公开网页查询具体班线，获取账号授权后即可下单。

查找住宿能力：根据给出的时间、目的地，基于公开网页查询具体酒店，获取账号授权后即可下单。

发起流程的能力：根据场景对话，可以通过语言发起流程。

4. 初始经验积累

我们完成一个AI Agent的基本角色扮演后，我们就应该给他输入一些真实世界里的经验之谈，在旅游助手里场景里我的经验之谈主要是攻略选择以及行程日程，那我们就以这两个流程作为初始经验植入到流程中。这里的初始经验积累，还可以将本地或者云端的知识库投喂给到助理，让他了解更全局的事项，我在设计过程中有点点偷懒，知识就不喂了。

发起选择流程：基于过往经验，如果我们几个小伙伴一起商量旅游目的地的时候，我们可能会有投票，我们可以通过聊天就交给AI Agent处理啦。

（发起接龙投票）

发起日程流程：虽然行程前准备很充分，但是，行程开始之后每次都要打开攻略做二次确认也太烦了，我们完全可以将最终做好的攻略以待办的形式提醒我啦。

（创建日程功能）

四、设计总结

在设计旅游助手的过程中，从产品经理视角出发，用户思维、结构化思维和系统思维，在设计AI Agent的过程中具有非常重要的指导意义。

1. 用户思维

用户思维强调从用户的角度出发，理解并满足其实际需求。在设计AI Agent时，应用用户思维主要体现在以下几个方面：

1、角色代入：设计师需深入理解AI Agent服务的目标用户群体，模拟其身份、情境和痛点，真正站在用户的角度去思考问题。例如，如果AI Agent是为客服场景设计，那么设计师就需要设想自己是一名面对各种问题的客户，以此来确定Agent应具备哪些功能、如何与用户交互等。

2、问题搜集与提问：广泛收集用户可能遇到的问题，构建全面且具有代表性的问题库。通过不断向AI Agent提问，测试其回答的准确度、相关性及用户体验，确保Agent能有效解决各类用户问题。同时，根据提问结果调整Agent的答案策略，如优化答案内容、改进答案呈现方式等。

3、正向反馈机制：建立有效的用户反馈机制，鼓励用户对AI Agent的回答给予评价或建议。设计师应积极分析这些反馈，对Agent进行持续迭代优化，不断提升用户满意度。

2. 结构化思维

结构化思维旨在将复杂的问题或任务分解为清晰、有序的部分，便于理解和处理。在AI Agent设计中，运用结构化思维主要体现在以下步骤：

1、需求拆解：将场景需求细化为具体的AI Agent功能点，如问答能力、对话管理、情感识别等，并明确各功能之间的关系及优先级。

2、输入-训练-反馈模型：按照这一模型组织AI Agent的设计与开发流程。首先，定义和收集高质量的训练数据（输入），包括用户问题、对应答案以及上下文信息等；其次，利用机器学习算法对Agent进行训练，使其具备解答问题的能力；最后，通过实际应用中的用户互动收集反馈，评估Agent性能，并据此调整模型参数或更新训练数据，形成闭环优化。

3. 系统思维

系统思维要求设计师从整体视角审视AI Agent在复杂环境中的运行情况，尤其是面向企业（B端）场景时，需充分考虑与其他系统间的交互与集成问题：

1、权限管理：AI Agent可能需要访问企业内部的各种系统和数据源，因此在设计时必须考虑权限控制，确保Agent在合法授权范围内操作。这包括对接口调用的权限验证、对敏感数据的访问控制等。

2、数据入库：对于需要持久化存储的用户交互数据或Agent生成的数据，需要设计合理的数据入库方案。考虑数据表结构设计、数据清洗与转换规则、数据同步机制等，确保数据准确、完整地入库。

3、数据权限：在涉及多用户、多角色的环境中，数据权限管理尤为重要。设计师应明确不同用户或角色对数据的查看、编辑、删除等权限，避免数据泄露或被不当使用。同时，对于AI Agent自身产生的数据（如用户行为日志、Agent学习状态等），也需设定相应的访问权限，便于运维人员监控Agent运行状况，进行故障排查或性能优化。

大模型不需要眼前的共识

2024-05-07aigc阅读(48)

确定性的机会指向的往往是需求场景，需要实干家，不断优化体验；而不确定的机会往往依托于技术创新，需要冒险家，探索出一条通向应用的路径。这也是为什么人们不会惊讶于雷军下场造车的决心，却很难完全相信杨植麟在月之暗面创业过程中表现出来的技术理想主义。

在大模型领域，并没有形成像新能源车一样的市场共识。企业在确定性和不确定性之间进行的权衡，是引发行业分歧的主要原因。选择确定性还是拥抱不确定性，决定了企业是优先赚到钱，还是优先做好技术；是坚持做闭源大模型，还是赌开源大模型一定会迎头赶上；是要依靠通用模型催生引爆行业的超级应用，还是要通过小模型先占领细分市场。

当前的环境下，企业和投资人都会从更现实的角度去做考量，活下去、挣到钱，比一个不确定的理想愿景更能说服人。但人们对大模型的期待是给行业带来更彻底地改变。从长远来看，现在很多企业的大模型应用，还是在对原有工具进行小修小补，很难产生引爆技术的应用，也很难抵御未来大模型技术迭代带来的洗牌。

泛滥的「智能体」是最明显的一个例子。国产大模型的落地催生出各种被冠以智能体名号的聊天机器人和「XX助手」。百度文心一言中充斥着大量伏地魔、繁花-爷叔这样的模拟对话机器人；kimi+上也出现了公文笔杆子、i人嘴替等个人助理；字节豆包在抖音上的推广也都依靠批改作业、练习英语口语等简单的功能点来吸引用户。

很难想象这样的聊天机器人能有多强大的生命力。如果我们对于大模型的期待仅停留在追求确定性的阶段——利用其提升智能客服的对话体验，提高资料搜集整理的效率以及扩充某些图像或生成某些代码，那么大模型能够产生的实际价值或将远不及我们现在的预期。

大模型杀手级应用的出现一定是要革掉某个现有体验的命。现在来看，没有共识就是最好的消息，至少说明这个市场上，不是所有人都只满足于眼前的利益，还有人在沿着另一条逻辑路线前行，在不确定中寻找更大的可能，去打一场持久战。

一、大模型的两种逻辑

中局和终局是大模型领域目前比较有代表性的两种发展逻辑。

中局的逻辑以朱啸虎（金沙江创投主管合伙人）为代表，包括一部分聚焦应用层的创业者在内，致力于利用开源大模型快速构建服务于细分需求的小模型，然后通过数据积累和模型迭代，建立竞争门槛；终局的逻辑以月之暗面为代表，倾向继续投入于大模型能力的提升，等待技术迭代引爆超级应用。

在中局的逻辑里，大模型的理解、决策能力被融合到既有的场景中，让这些场景能够应用大模型的生成能力，提升解决方案的性能，从而产生新的商业化可能性。这种逻辑受到青睐的原因是，有确定性需求，可以迅速见到成效，用户付费意愿更强。

在朱啸虎的介绍中，一家利用开源大模型做AI视频面试的企业2023年的收入比2022年翻了一倍；利用开源大模型做AIGC视频广告的公司2023年收入做到了5000多万元，比2022年涨了四五倍。

朱啸虎追求的机会是，利用LLaMA这种快速提升的开源大模型，结合垂直场景的数据积累和人工微调，在几个月内提升某一垂直场景的效率，在大模型发展过程中先赚到第一桶金。

朱啸虎对大模型的发展持悲观预期，对应用场景的开发保持乐观，主张从实际出发，把能赚的钱先赚到。

月之暗面的创始人杨植麟的理念则更具技术理想主义色彩，他相信大模型会逐步完成对世界的建模，并在这个过程中自然涌现出杀手级应用。

杨植麟的终局逻辑下，大模型是一种解释世界的工具，就像人会用语言描述世界、理解世界一样，大模型用数学为语言建模，让AI也能够理解世界，描述世界。AI依靠这种学习能力，逐步实现像人一样使用工具，让AGI成为帮助人链接和管理细分场景的「助理」。

AI能够使用工具，也就意味着很多场景的运作方式将会迎来巨大改变。可能企业未来并不需要有一个专门的视频面试工具，也不需要有独立的AI客服，而是统合到一个大模型主导的企业级智能体中，依靠智能体打通和掌控企业的不同环节。

在即将被OpenAI带火的AI搜索中，真正的难点不是搜索结果到底要以网页列表的形式显示，还是以经过AI整合的一段话来显示，而是如何利用AI的理解能力，把被APP分解的信息重新链接成为一个整体。在Kimi+中，可以看到什么值得买、小红书的相关内容可以借助个人助理「什么值得买」和「美好生活指南」来进行唤醒。

但随着杨植麟2个月套现4000万美元的消息传出，市场对他的这种终局逻辑产生了质疑。月之暗面直接面向C端用户的思路，获客成本高且营收前景低。在没有新的变化出现前，月之暗面商业化前景的不明朗被认为是杨植麟信心不足，急于套现的原因。

二、聊天机器人发扬不了大模型

从目前来看，国内的大模型应用给到尝鲜者的总体感觉还处于大而无当阶段，提出问题之后获得的答案很难让人满意。这一方面受限于大模型自身的技术能力不足，另一方面则受限于用户对大模型应用使用经验的不足。

很多大模型应用推出之初，都仅有一个对话框，用户可以在对话框中提出任何问题并获得答案。而利用精准的Prompt充分开发大模型的现有能力，成为大部分用户难以在短时间内逾越的门槛。

目前充斥在文心一言、豆包等大模型应用中的智能体，很多都是为了降低大模型的使用门槛而打包的Prompt，也就是将一些用户的使用经验沉淀为可以被分享的智能体，让用户可以按照需求找到不同的智能体，获得更具针对性、更有效的回答。

Prompt门槛的出现本质上还是大模型在语言理解能力上存在欠缺。用户即便利用现成的Prompt获得了有效信息，也依然要面对不成熟的体验。Prompt或者所谓的智能体，可以解决初次沟通的效率问题，但解决不了复杂对话的效果问题，大模型应用往往都不止一轮对话。

这也是为什么智能体面向B端的商业化运作依然停留在客服、营销领域，并没有能推进到其他生产生活领域中。因为客服、营销领域在大模型应用之前就已经实现了基础的智能对话体验，大模型的理解能力可以让互动变得更加灵活、自然。

从李彦宏（百度创始人）演讲中提到的案例可以看到，百度在企业智能体方面的实践是提供了一套结合大模型的无代码客服机器人生成工具。企业可以上传私域知识，自动形成对话语料，也可以过滤不在自己经营范围内的内容，还能关联第三方的工具。

被包装为智能体的客服机器人，会服务于百度的搜索生态。当用户在百度APP搜索「什么时候去新加坡人最少」时，会在最前面显示新加坡旅游局AI分身给到的答案，点击可以进行更多对话。这种智能体本质上和之前的百家号、小程序一样，是百度为售卖搜索营销、云服务等产品的新切入点。

但无论是to B的客服机器人，还是to C的各种Prompt，都不具备独特性，很难成为大模型的引爆应用。现在呈现在用户面前的智能体、大模型应用，都还是只停留在优化工具的阶段，只不过是让搜索变得智能了一点。就像王小川（百川智能创始人兼首席执行官）所说，是在聚焦于搜索如何使用大模型，而不是大模型如何学会用好搜索。

理想状态下，智能体应该能够调用工具，完成更为复杂的任务，而不仅仅是聊天。这里需要提到，无论Rabbit R1是否只是一个安卓App的套壳产品，但其结合大语言模型和所谓大动作模型对APP使用体验的创造性升级，似乎更接近于一个智能体理想中的状态——通过不断学习理解人的复杂意图，模仿人的动作执行复杂操作。

我会比较赞同杨植麟所说的，技术是这个时代唯一新变量。无论是在to B还是to C场景中，在其他变量都没有变的情况下，技术对语言的理解越来越精准，对人类意图、行为的理解越来越精准，其能够处理的任务就会越来越复杂，智能体的能力才会越来越强大。

Kimi的走红，已经证明大模型应用具备了被引爆的市场基础。Kimi于2023年10月上线，2024年2月日活访问量已经在国内排到前三，在3月将无损上下文长度从最初的20多万字增加到200万字后，Kimi关注度继续走高，连续五次扩容，访问量环比增长321.58%。

三、没有共识就是最好的共识

当下还未解决的是，何时会出现一款让大众用户保持高频使用的超级应用。就大模型的应用现状来看，国内和国外都还处于工具优化阶段，只是取决于大模型不同的性能，效果上会有所不同。比如，Adobe对AI的最新应用仍聚焦于AI图像编辑功能的创新和改进，文生图功能的推出，以及视频内容的换头、延长和辅助镜头的生成。

面向未来，让大模型学会使用工具，而不依赖人工微调，是技术发展的又一个节点。扎克伯格说，「对于Llama-3，当我们开始进入更多这些类似于智能体的行为时，我认为其中一些将是更多手工设计的。我们对Llama-4的目标将是将更多这样的东西纳入模型。」

最终能力的大幅提升，依然有赖于大模型本身的进步。但是，大模型的每一次进步，都需要耗费一笔相当庞大的资金。根据THE DECODER披露，GPT-4一次训练成本为6300万美元。而根据AI Index的估算，OpenAI的GPT-4估计使用了价值7800万美元的计算资源进行训练，谷歌的Gemini Ultra 的计算成本则高达1.91亿美元。

高昂的训练成本也是国内在大模型方面没有形成共识的原因之一。国内大模型的融资额度要低于国外。月之暗面在2月获得了10亿美元A轮投资，Minimax3月被传获得6亿美元战略投资。相较于亚马逊向Anthropic追加的27.5亿美元投资，都不算多。而且国内的环境并不利于大模型的进一步融资。

对大模型技术未来发展的差异化预期是另外一个原因。一部分开源大模型的支持者会认为，开源大模型与闭源大模型的发展会受到大模型技术发展坡度的影响，坡度越陡，闭源的优势越大，一旦坡度变缓，开源会很快追赶上来。

等待开源大模型追赶上来的人，都预期大模型技术发展的坡度会在短时间内变缓。这样闭源大模型与开源大模型的差距就会相对缩小。而提前深耕场景，积累了一定数据的企业则能够利用开源大模型构筑不低于闭源大模型企业的场景壁垒。

对于小企业而言，以应用场景为目标训练小技能，然后不断根据技术进步重新「练号」，可以在这个大技术趋势下不断抓到小风口，甚至在大风口到来时，以插件的形式参与其中。对于巨头企业来说，其优势是多场景的融合，是对核心入口的争抢，「重开新号」的代价太高，技术的迭代往往意味着一场淘汰赛的开启。

基于融资能力的不同、对技术应用前景预期的不同、自身体量的不同，企业之间的共识并没有形成。

这是一个好消息，说明大模型领域还远未像新能源车一样进入到市场成熟阶段。虽然不确定性会增加失败的风险，但其中也蕴藏着的机会也更大，足以说服一部分企业冒险前行，追求技术的高峰。

可以理解中局的无奈，却不应放弃对终局的坚持。

告别AI焦虑，普通人快速上手AI大模型的3个关键能力

2024-05-07aigc阅读(76)

机器学习项目成功的关键，在于对问题的深刻理解，而非算法的选择。

——彼得·诺维格（Peter Norvig）谷歌研究总监，人工智能专家

24年初开始，围绕大模型如何落地到企业，我进行了大量调研工作，参考了很多行业案例和知识付费课程。

但遗憾的是，很多人仍会对这项新技术持怀疑态度。就在前两天，还有一位产品经理找到我说：

“AI刚出来的时候，我既兴奋又好奇，心想终于能有个帮手分担工作了。我还试着用kimi、文心一言帮我解答问题、生成文档。但几次后发现，AI在具体工作任务上还是很难帮到我。比如让它输出一份调研报告，它给的框架很完整，但内容填充上却很水，还得自己来改，这和网上找个模版有啥区别。经过几次之后，我就只能让AI帮我做一些不重要的事，结果就是食之无味弃之可惜。”

想一想，面对滚滚而来的AI焦虑，你是不是也有过类似的疑惑：

注册了几个大模型产品，但打开后脑子一片空白，不知道怎么和它对话
问了几个问题，发现给的答案就像大厂黑话——看似说了一堆，实际跟没说一样
用软件自带的智能体试了几套提示词，似乎输出比之前好了，但也只限于写公文、发邮件这种文案生成工作，我想让它帮我在审核App的时候提高效率，怎么做？

这篇文章，我想来尝试给出些解法。

我认为：想用好大模型，首先要学的，不是工具、不是提示词，而是要具备业务理解+流程抽象+方法论沉淀的能力。我称之为：业、流、法三步模型。

这套方法，源自业内很有名的一句话：

成功的本质，就是把一件正确的事，重复做一万遍。

AI能做的，是重复一万遍。但在这之前，你要先知道什么是正确的事，以及如何正确地把这件事做一万遍。

业务理解，锻炼的是对正确事情的判断力。
流程抽象，锻炼的是把事情做一万遍的自动化能力。
方法论沉淀，锻炼的是把如何正确地把自动化方法传达给AI的能力。

具体怎么做，展开讲下。

第一步，业，具备特定领域的业务理解能力

也就是行业know how的能力。即知道一个行业的商业模式、竞争格局、涉及领域上下游和具体的业务运转方式。

以上面提到的“帮我在审核App的时候提高效率”为例，你要知道应用分发这个领域，都有哪些角色参与其中，再思考平台在其中担任什么职责，靠什么盈利。其中利益分配的链条，如何从开发者，传导到消费者，再到广告商，再到平台方。你也要知道行业里为了争取到最大利益，可能会发生什么情况，出现哪些风险，其中哪些是可能被发现的，可能有办法解决的。这些风险可能有什么特征。

你对应用开发者、平台运营者和用户之间的互动方式越清楚，越能从中发现规律，进而能很容易地步入第二步：流程抽象。

第二步，流，具备把业务流程抽象建模的能力

也就是知道如何用节点+连线的方式，把一个业务的经营逻辑，抽象成：角色+行为+数据+流转线路的形式。

角色。规定完成业务的岗位职责和分工。
行为，规定角色完成一件事，需要做哪些具体执行动作。
数据，规定角色执行前的参考环境，执行后的产出结果。
流转线路，规定角色在什么数据的前提下，执行什么动作，产生什么数据，从而影响到下一个角色。

还是以“帮我在审核App的时候提高效率”为例，简单抽象了一下，可以按这样的结构理解：

角色：开发者、平台审核员、用户。
行为：开发者，提交应用资料和安装包；平台，审核资料确保合规；用户，下载应用、使用产品、提出反馈。
数据：包括应用的类目数据、资质数据、简介数据和产品本身的数据，以及用户下载应用后的反馈数据等。
流转线路，如下图所示。开发者根据要求，产生提交行为，形成待审核数据；审核员读取数据，根据规则，完成审核动作；用户则能看到审核通过的应用，执行下载动作并提出反馈；审核员再根据反馈情况，做出修正规则或回复反馈的动作。

第三步，法，具备把流程事件结构化成方法论的能力

也就是把成功的过程，以结构化文本方式表达出来，本质上是沉淀可复用的方法论。而方法论在AI时代的外化形式，就是prompt。

还是延续上面的例子，想让AI在这个流程中发挥作用，就要给它安排一个角色，让它能参与到流转线路中，作为一个节点，读取数据，执行规则并输出结果。

你的目的，就是尽可能让AI这个角色，帮你执行蓝框所示的行为，让你从你的角色中解脱出来。

假设想让AI帮你执行“审核类目”这个动作，可以怎么描述？

角色：类目审核员

目的：判断类目数据和资质数据，是否匹配类目审核规则

执行流程：

1、读取资质数据

2、提取资质数据的关键信息，如所属行业、证书编号等

3、判断资质数据是否真实有效（对接第三方接口）

4、如果有效，查看资质信息，是否和类目要求的规则相匹配。如：经营范围、员工数量等

5、如果匹配，审核通过，进入下一环节，执行审核应用行为

6、如果不匹配，审核不通过，生成不通过的说明文案，附带不通过原因，输出给审核员二次确认

输出格式：

结论+原因+验证依据

这套方法论一出来，聪明的你一定会发现，它就是一套结构化提示词。

实际上，稍加整理，你还可以把它写成新员工培训资料，甚至作为需求文档提交给技术，写成代码。自然语言和代码之间的转化，也正是大模型的拿手好戏。

看到这里，你可能会问，这是不是太复杂了？

我就想用好大模型，还要先成为领域专家，沉淀方法论，这个要求很多行业资深人士都做不到，我就一普通人，要具备这样的能力，太难了！

是不是现在不懂这些，就没法把AI用起来了？

当然不是。在没有方法论沉淀的前提下用好AI，我再给你三招锦囊：

第一招：拜师学艺，快速上道。

不是去学零星的工具技巧，而是先找到那些已经借助AI，在垂直领域拿到结果的大佬们，向他们取经。

这些大佬们不仅理论知识扎实，也切实让AI帮到了自己。你可以直接找他们请教、模仿他们的做法，先让自己先达到一个“及格线”。当然，这招不是让你满足于平庸，而是帮你快速建立信心，打好基础。站在巨人的肩膀上，你很快就能明白AI的能力边界可以有多宽，及它在你的领域里怎么能大展拳脚。

第二招：记录反馈，不断试错。

用AI的时候，把每次尝试都记录下来。不管结果好坏，这些都是宝贵的经验。

遇到问题了，别急着打退堂鼓。要有那种“我偏不信邪”的劲儿，相信AI一定能帮到自己。带着这个信念找问题、想办法，如果自己搞不定，就找大佬请教，一步步来，总能越来越接近你的目标。

在这个过程中，解决问题的经验特别宝贵，它能帮你在以后遇到类似问题时能举一反三。这种边做边学，边学边改的方法，是提升AI技能的不二法门。

第三招：内化经验，融会贯通。

当你感到自己已经能熟练运用AI，并且实现了预期效果，别到这儿就满足了。要把这个过程中学到的前人经验，结合你的理解和创新，形成一套自己的独门招法。这就意味着你要分析你的做法，找到还能改进的地方，然后不断打磨，不断优化。等招式形成了，它就是属于你的领域沉淀下来的独家方法论。

总的来看，面对AI的来势汹汹，每个人都不应该独善其身。。AI不仅是一个工具，它更像是一位智者，一位导师，引导我们深入理解业务，抽象流程，沉淀方法。但别忘了，AI也是一面镜子，它反映出我们对问题的理解，对工作的热爱，对生活的执着。用好AI，不是一蹴而就的，它需要我们不断地学习、尝试、反思。就像彼得·诺维格所说，机器学习项目的成功，源于对问题的深刻理解。所以，不要害怕开始，不要害怕失败，因为每一次的尝试，都是通往成功的一步。

我坚信AGI的时代一定会到来，积极拥抱这一趋势，不是浅尝辄止，而是深度体验，找到那个最佳解法，等AI真正大规模普及，你一定会由此受益。

你和AI对话的时候遇到了哪些问题？你的业务有没有和AI结合的可能性？如果你有任何关于AI的疑问或建议，不妨发在留言区，我来帮你看看怎么解~

月之暗面撞上算力墙？

2024-05-07aigc阅读(58)

“不好意思，刚刚和Kimi聊的人太多了。Kimi有点累了，可以晚点再问我一遍。”近期正在赶毕业论文的娄晓彤，时不时仍会收到AI助手Kimi无法使用的提示。

作为大模型初创公司月之暗面旗下的To C应用，自3月份更新成为国内首个支持200万字上下文的大模型产品后，Kimi爆火出圈，QuestMobile数据显示，Kimi 应用月活用户量在3月份飙升至589.7万，但算力焦虑也随之而来。即便距产品更新已经过去一个多月，娄晓彤的遭遇仍在部分用户身上逐一上演。

月之暗面向字母榜解释称，“其实是因为每天都有相对的高峰期和低谷期，高峰期可能会遇到（类似娄晓彤的）情况。”

每次产品更新，对大模型公司而言都是一次流量和算力的双重考验。在3月18日宣布支持200万字上下文后，彼时Kimi便遭遇一次大规模宕机：从3月21日开始，Kimi APP和小程序被爆均无法正常使用。月之暗面随后发布情况说明，“观测到Kimi的系统流量持续异常增高，流量增加的趋势远超对资源的预期规划。”

理论上，Kimi等AI助手可以支持的用户量几乎没有上限，只要大模型公司能够提供源源不断的算力供给，但这背后涉及的却是一个现实的效率平衡问题，在商业化尚未走向闭环的当下，这也是一众大模型产品的共同难题：配置冗余算力，难免带来部分时间段内的资源浪费；配置紧张算力，则不可避免会在高峰期内影响用户体验。

尚需投资储备算力资源的月之暗面，在近期被爆出创始人杨植麟通过售出个人持股已套现数千万美元消息后，更是一时间引发诸多猜测。

被商业化绊住的不止Kimi。就连行业老大哥微软推出的AI编程工具GitHub Copilot，哪怕已经坐拥180万付费用户，仍陷在入不敷出状态：去年10月，月费10美元的GitHub Copilot，被爆平均每个月在每个用户身上都要倒贴20美元，最高能达80美元。

同样困在商业变现中的OpenAI，为了尽可能追求效率平衡，在免费版ChatGPT之外，特意设计出了付费版ChatGPT Plus。高峰时段，ChatGPT Plus用户将享有优先使用权，可以获得更迅速的服务响应。

但随着用户规模暴涨，自去年2月推出付费版以来，OpenAI曾几度暂停ChatGPT Plus新用户注册，给出的理由是“需求量过大”，导致算力资源出现缺口。

大模型产品的规模效应和网络效应仍处在市场潜伏期。这也使得部分投资人开始对大模型产品去魅，典型代表如金沙江创投主管合伙人朱啸虎，其在接受腾讯科技采访中表示，从2023年下半年开始，自己便决定不再和美国同事开原定每周一次的远程例行会议，探讨两边大模型产业格局变化，“打了半年我不打了，没有意义。”相比期待大模型产品在未来某一时刻迎来“iPhone时刻”，朱啸虎更在意当下能马上变现的To B应用。

资本市场对大模型商业化的担忧更是进一步体现在刚刚发布财报的Meta身上。“即使将我们的许多现有资源转移到人工智能上，在我们从这些新产品中获得大量收入之前，我们仍然需要扩大我们的投资范围……这将是一个持续多年的投资周期。”扎克伯格宣告扩大对AI投资话音落地，当地时间4月25日，Meta股价盘后应声下跌超10%。

对于Kimi这类缺乏自身造血能力的大模型创业公司而言，相比Meta，其面临的挑战只多不少：在这场效率平衡游戏中，它们宛如行走在悬于空中的钢丝绳上的杂技演员，投资款便是平衡木，到达对岸的唯一路径，便是在投资款耗尽之前，找到能够自我造血的商业模式。

01

春节期间，娄晓彤被身边同学安利了Kimi，当时Kimi支持的上下文长度只有20万字。加上彼时还未出圈，在日常使用中，娄晓彤基本没遇过无法使用情况。

随着Kimi将上下文长度扩展到200万字，并通过在资本市场上衍生出Kimi概念股火速出圈，从3月中旬开始，娄晓彤遭遇Kimi提示“有点累了”的情况，逐渐多了起来。

娄晓彤正在遭遇的算力紧张，从Kimi诞生后便已是注定的局面。去年3月创立月之暗面后，杨植麟便定下了做产品的两大思路：只做To C，且坚持长文本路线。

图源：月之暗面官网截图

文本长度和算力成本之间不可调和的矛盾，以及To C和高额营销成本之间的取舍，成为摆在杨植麟面前的两重平衡难题。

3月份Kimi借助支持200万字上下文出圈后，新浪科技曾报道称，Kimi用户获客成本达到12元-13元，其每天获客成本超过20万元。

大模型耗钱也早在杨植麟预料之中。“它需要人才聚集、资本聚集。”杨植麟形容道。

短短一年多时间内，月之暗面已经拿下近百亿人民币投资：2023年，月之暗面完成两轮总计近20亿人民币投资；今年2月份，月之暗面完成新一轮10亿美元融资，由阿里巴巴领投，红杉中国、小红书、美团等机构跟投，投后估值超过25亿美元。

近百亿融资款，更多都被用以支付算力资源。据市界报道，新一轮10亿美元融资款中，领投方阿里出资的8亿美元并非全是现金，其中部分将以阿里云提供的算力结算。

这方面行业早有惯例。更早之前微软百亿美元投资OpenAI，其中大部分投资款便是以微软云服务提供的算力资源结算。在微软参投之前，OpenAI其实是从谷歌云服务采购算力资源。如此一来，微软投出去的钱，大部分又以云服务的方式流了回来。

更重要的是，微软还借此完成了股价飙升，总市值不仅突破3万亿美元，更是超越苹果，成为全球市值最高上市公司。

亚马逊随后便来了个有样学样。今年3月底，亚马逊正式完成对OpenAI最强对手Anthropic 40亿美元的投资。与OpenAI一样，Anthropic也需要选择亚马逊作为其主要云服务商。

02

因算力资源而导致服务中断的现象，不只发生在Kimi一家身上，包括文心一言、ChatGPT等，都曾出现过无法正常使用的情况。

据字母榜不完全统计，每次产品更新升级的节点，便是大模型产品可能迎接“崩盘”命运的开始。

去年4月份，ChatGPT付费版本推出2个月后，ChatGPT Plus被爆暂停新用户注册，OpenAI给出的理由是“需求量过大”，导致算力资源出现缺口。付费通道恢复正常后，OpenAI再次收紧GPT-4的互动次数，从每4小时100条消息降为每3小时25条消息。

7个月后的2023年11月，OpenAI在首届开发者大会上带来一系列产品更新：全新GPT-4 Turbo、自定义GPT以及上线GPT商店。在大会结束后的短短两天内，ChatGPT服务器再次崩溃：用户数量的激增又一次超过了OpenAI的算力容量。

作为OpenAI CEO的山姆·奥特曼都不得不亲自下场致歉，称新功能的热度远远超出了公司预期。“由于负载的原因，短期内可能会出现服务不稳定的情况，对不起。”

最近一次“崩盘”发生在4月份。为了再次降低使用门槛，扩大用户量，在全球185个国家/地区累积超1亿每周用户量后，OpenAI宣布用户无需注册账户就可以使用ChatGPT，“我们正在逐步推出这一功能，目的是让任何对其功能感兴趣的人都可以使用人工智能。”

在OpenAI还没来得及将上述新功能扩散到全球所有地区时，社交媒体上已经陆续有用户反馈，自己在与ChatGPT互动时又被提示“系统错误”了。

除了采购更多算力资源来提升用户体验之外，一众大模型公司也在想方设法通过降低算力成本来满足更多用户需求。

截至4月份，国内文心大模型推理性能被爆提升了105倍，推理成本降到了原来的1%。这意味着，客户原来一天调用1万次，同样成本现在可以调用100万次。

国外OpenAI的奥特曼，更是在近期接受采访时预言，“我们（OpenAI）可以将非常高质量的AI技术成本降至接近零……如果我们没有制造足够的计算资源、供应和需求失衡，或计算成本攀升，这将导致AI成本非常高。”在奥特曼看来，未来AI技术成本将会变得越来越便宜。

03

使用更高效的硬件，便是推动AI技术成本降低的直接手段。

几乎在奥特曼预测AI技术成本将变得越来越便宜的同一时期，英伟达创始人黄仁勋又来给OpenAI送芯片，这次是量产最强一代的全球第一台Nvidia DGX H200超级计算机。OpenAI总裁格雷格·布罗克曼还特意晒出了自己、奥特曼与黄仁勋的三人大合照。

但对于已经无法获得英伟达最强芯片的中国大模型公司而言，借助人才优化算法以减少算力需求，则是另一条降低AI技术成本的路径。

4月23日，界面新闻爆出杨植麟通过售出个人持股已套现数千万美元消息后，月之暗面随即对外回应称“消息不实”，并向媒体发来了一则招聘文章说明，里面重点提到，为了吸引并留住最优秀的人才，月之暗面推出全新员工激励计划，为优秀人才提供匹配其贡献的丰厚回报。“从今年开始，我们将在公司取得重要进展时发起员工期权回购计划，确保团队成员能够分享公司发展的果实（2024年底启动首次期权回购计划）。每年定期根据工作表现进行调薪和期权增发，确保薪酬和期权充分反映出员工个人的成长和贡献。”

由此，外界也猜测杨植麟团队此次套现，其中或许便包括对重要人才的贡献奖励。

在公司创立伊始，杨植麟给出的早期招人画像便是专注找对口的genius（天才）。“公司上限是由人的上限决定的……之前有对模型动手术的能力，有训练超大规模模型直接的经验，就可以很快做出来。包括Kimi发布，资本效率和组织效率其实很高。”

与国内相比，硅谷AI人才之争，更为疯狂。马斯克本人都不得不感慨：“这是我见过最疯狂的人才大战。”为了避免特斯拉人才外流，马斯克旗下的大模型公司xAI开出了不少offer。

扎克伯格更是亲力亲为，通过个人电子邮件给谷歌DeepMind团队成员发去邀请，希望他们能加入Meta与他共事。谷歌创始人谢尔盖·布林，为了挽留即将离职转投OpenAI的员工，也同样选择亲自出马，给员工加薪加福利。

人才大战之下，根据薪资数据网站 Levels.fyi数据，硅谷机器学习和AI工程师的薪酬中位数已经接近 40万美元，OpenAI总薪资中位数甚至高达92.5万美元（包括期权）。

尽管为争夺AI人才，科技巨头开支增加，但他们的一系列疯狂举动已经在股价上迎来正反馈：2024年刚过完4个月，Meta股价年内已经大涨22%，谷歌大涨19%，亚马逊大涨19%。

参考资料：

《ChatGPT 之父最新演讲：GPT-5 聪明程度超乎想象，一大批 AI 初创公司的努力将变得毫无意义》APPSO

《黄仁勋亲自给OpenAI送货，全球首台DGX H200开箱了》机器之心

《如何评价月之暗面创始人杨植麟一年套现数千万美金事件？》钛媒体

《月之暗面创始人杨植麟套现数千万美金》界面新闻

《月之暗面杨植麟复盘大模型创业这一年：向延绵而未知的雪山前进》腾讯科技

《搞大模型巨亏，微软都还没挣到钱！GitHub Copilot每月收10刀，倒赔20》量子位

《Kimi创始人套现4000万美元疑云》市界

生成式 AI 在电商领域究竟有多牛，这款产品给出了回答

2024-05-06aigc阅读(62)

Sense 思考：

我们尝试基于文章内容，提出更多发散性的推演和深思，欢迎交流。

– 找到正确的点后全力投入，一举击穿。不管多小的产品切口，找到并解决痛点都能为你带来第一阶段的用户。

-思考如何适配你的客户群体，并通过不同商业化方式触达。Photoroom从IOS端产品开始，逐渐覆盖安卓移动端和网页端。在商业化上为企业客户提供 API 服务方式，更好的对客户分层。

– 未来好的 AI 产品是端到端的，Photoroom 作为一款垂直场景的应用，也开始投入模型研发，或许在垂直场景上涌现出更强的能力。

AI Native 产品分析——PhotoRoom

1.产品：PhotoRoom

2. 创立时间：2019

3. 创始人：Matthieu Rouif，Photoroom联合创始人兼首席执行官，YC S20项目；前GoPro产品经理；学生时代就读于斯坦福大学理工学院。

4. 产品简介：

PhotoRoom是一款AI图像编辑应用，通过AI识别并裁剪图像主体和AI生成等能力，帮助用户无门槛创作营销物料。

5. 融资情况：

– 2020年12月，Photoroom的ARR达到200万美元，获得120万美元的种子轮融资（Nicolas Wittenborn’s Adjacent fund, Liquid2 Ventures），用于开发Photoroom的安卓版本。

– 2023年11月，Photoroom APP获得4000万下载次数，获得1900万元的A轮融资（ Facebook, Hugging Face and Disney+ ），用于尝试接入AIGC相关的能力。

– 2024年2月，Photoroom融资4300万美元（Balderton Capital），估值5亿美元，主要用于基础研发。

一、Photoroom 的早期验证

Photoroom 的创始人兼 CEO 的 Matthieu Rouif 一开始并没有一个宏大的创业目标，相反，他的技术开发开始于对之前工作中重复环节的痛恨。

Matthieu 在创业前在 GoPro 担任产品经理，每天需要用 Photoshop 手动删除背景，但需要花费大量时间和精力。他意识到自己并不是唯一一个有这种挫败感的人，用户需要一个更好的解决方案。

于是开始投身在机器学习研究中，并在课程结束后遇到了机器学习专家Eliot Andres。两人一拍即合，在短短两周内共同创建了第一版 Photoroom。

“背景剔除”成为了 Photoroom 初代版本的核心功能，帮助用户轻松地删除图像背景，突出主体呈现在前景，甚至可以创造出一个全新的透明背景，并将其置于任何设计和目的场景之中，让主体更有逼真的立体感和深度。同时，Photoroom 为用户提供庞大的背景和模板库，实现无尽的个性化选项，此时 Photoroom 更像一个专注图片编辑领域的 Canvas。

没有想到的时，Photoroom 一经上线，立刻得到了广泛电商从业者的关注，这也开始了 Photoroom 和电商的渊源，电商从业者通常不具备图片处理的专业能力，但是要消耗大量的图片素材。

Photoroom 的用户覆盖了从消费市场到商业应用的各个领域，包括那些需要从事产品拍摄的摄影工作者，大量铺货的电商经销商，从事美容、珠宝、时尚、家具、古董等对图片要求极高的中小企业，甚至还有宝格丽、Faire 等知名品牌。他们都可以从Photoroom 中找到需要的解决方案。

同时，针对企业客户个性化的需求，Photoroom 支持通过 API 直接调用背景裁剪等能力，此举为 Photoroom 的增长提供了更多可能的渠道。2023 年夏天，华纳兄弟就通过调用 Photoroom 的API在芭比电影的社交营销活动中为用户一键提出自拍照中的背景，并结合提前预设好的模板快速生成芭比相关的海报。为客户营销活动提供了更多千人千面的互动机会，在此次活动中，用户使用 Photoroom 生成的海报分享超过 100 万次。

在之后的产品迭代中，Photoroom 更多的重心放在了商业化适配上，针对不同客户需求，提供更完善的产品化方案。

例如，Photoroom 在早期尝试中发现更多用户是严肃工作场景下的图片生成，涉及到中小团队的合作流程。因此，Photoroom 很快退出了Photoroom Teams，团队成员们在一个共享工作空间中合作，创造出风格一致的设计。同时团队成员可以对设计编辑过程中的问题或者改进点进行反馈和评论。

二、Gen AI 时代的 Photoroom

凭借自身对用户需求的精准把握和对产品功能的极致克制，Photoroom 在 Gen AI 时代成熟之前，就已经在电商行业早早完成了自身的PMF，渗透到电商图制作和营销图制作等多个场景，并基于二手电商这一利基市场不断打磨产品持续扩展更多的用户群体。

而 Gen AI 时代的到来，则为 Photoroom 的发展提供了更多的想象空间，原本无解的问题也逐渐有了清晰的解决路径。

以背景模板举例，PhotoRoom 之前主要通过丰富的背景模板库，助力用户根据不同平台的规定，以多样格式导出图像。但模板的自然度、匹配度、模板数量都存在限制。用 Prompt 生图方式可以更快的生成用户想要的背景。同时，Photoroom 充分理解电商客户想要的 AI生成图片，需要解决失真感，于是在产品效果上，Photoroom提供了 AI 光影优化能力。

但一定程度上，Gen AI 也把 Photoroom 前期构建的模板壁垒给拉平了，除了用户和产品理解，在生图能力上，Photoroom 又和竞品回到了同一起跑线上。目前 Photoroom 的 Tool Sets 里上线了一系列电商制图方向的功能点，电商从业者更多的需求被一站式解决。

根据Matthieu Rouif 的说法，Photoroom 正在训练自己的基础模型 Photoroom Instant Diffusion，基于图像提供商、图片库数据训练，对垂直领域的应用有更快的反应，定制的AI架构使得图像生成速度提升了40%。其对模型生成效果的要求是不需要用户再次对图片效果进行处理和调优。换句话说：“我们的 AI 系统已经针对产品摄影进行了特别训练，能够迅速适应用户的需求和反馈，提升用户体验。”

目前PhotoRoom已经积累了700 万的月活跃用户和数 10 万的付费订阅用户，支持手机端实现更快的图片制作，直接使用手机摄像头拍摄产品，然后在手机端就可以更便利的生产成稿。在手机端突破了 1.5 亿次下载。

三、Photoroom 的商业策略

Photoroom 使用 Freemium 的方式，基础版本支持基础的图像编辑能力和背景剔除能力，以扩大用户使用群体。在 Photoroom Pro版本中，允许用户创建更高质量的图像，并自动删除“ Photoroom”标志。同时提供了更多的个性化模板及自定义背景。并且在 Pro 版本中，用户可以体验到AI生成背景、AI 生成阴影等能力。

同时，为了满足不同用户群体的需求和拓宽市场应用场景，Photoroom 也提供了API直接调取相应的能力，具体有四种不同的收费版本。

Basic Plan：提供Photoroom的基础能力，用户可在自己的应用程序、网站或活动中批量删除和替换图像背景。费用为0.02美元/张。

Plus plan：提供Basic中的所有能力，并增加填充、定位、AI阴影、AI背景、AI打光、内测体验等高阶能力。费用为0.1美元/张，同样可在任何时间取消API服务。

其余两种Partner plan 和Custom plan 适合用量更大的企业客户。例如，Partner Plan 一定程度上赋能了 Photoroom 的渠道合作者，提供仅 0.01 美元/张最低价格，合作者就可以低价调用 Photoroom 的API，只需要满足两个条件，即1）每月完成至少 10 万张图片处理的 Milestone；2）证明不是 Photoroom 的竞争者。

不管是在订阅制还是在API的收费策略上，Photoroom 都找到了巧妙的方式进行拉新裂变。在订阅制中，Free Plan 友好地提示用户可以邀请好友与同事一起体验 Photoroom 的免费功能；而在 Pro 版本中，创建团队空间后，邀请两名用户即可免费领取一年的 Photoroom Pro。

但是相比于海外的 Photoroom，国内创业者在进行 GTM 时，也不得不注意国内外用户习惯和市场环境上的差异。从支付意愿上看，国外用户通常对于订阅模式和按使用量计费的 API 服务接受度较高，软件服务的付费习惯已经较为成熟。而国内用户更习惯一次性支付或免费的服务，订阅和 API 模式的接受度相对较低。

四、后续

成立于 2019 年的 Photoroom，在过去的5年里，它在商业图片领域占据了一席之地。Photoroom 首先凭借其一流的背景剔除能力取得了成功，随后通过其创新的AI技术赢得了社交媒体影响者和电商平台上的电商从业者的依赖。

根据 A16Z 的研究，Photoroom 是世界上最受欢迎的AI照片编辑器，也是最受欢迎的生成式AI产品之一。Photoroom 在 180 多个国家被下载了 1.5 亿次，在 100 万条评论中获得了 4.7 颗星的评价。

但在乐观事物的相反面，仍有一些问题需要像 Matthieu 这样的创业者去解决和思考。

在 AI 效果方面，尚难以完美处理商品与AI生成背景之间的复杂交互。以狗粮销售为例，尽管AI能够通过 outpainting 技术在狗粮旁生成一只流口水的狗，增强商品的吸引力，但对于像眼罩这类与人体有着更复杂遮挡关系的商品，AI生成的场景可能就不那么理想。

在产品推广方面，目前 Photoroom 需要思考更大的天花板在哪里，是增加产品在专业领域的市场份额，还是除了目前的静物展示类的产品类目外，切入更多的行业场景，或是在图片编辑领域布局新的产品功能和产品线。

相比 2023 年 6 月，A16Z 发布的 Top 50 GenAI Web Product 中，Photoroom还以第 6 名位于图片领域的 AI 产品榜首，超过 CIVITAI 的访问量。然而仅在半年后的 2024 年 1 月，同口径的数据中，Photoroom 已滑落至第 21 名。由于Photoroom 一开始切入的战场就是移动端IOS，随后才是安卓移动端和网页端，因此在移动应用榜单的排名更加稳固。

尽管榜上有名，但相比半年前的榜单，本次榜单已经有超过 40% 的产品都来自新的创业团队。未来，Photoroom 也将面临更多来自 AI Native 应用的挑战。

目前，Photoroom 已经完成了4300 万美元的 B 轮融资，并将利用这笔资金加速其在生成式人工智能方面的创新：通过投资更多 GPU 来扩展其模型功能，并在 2024 年底之前将团队规模扩大一倍，准备好迎接未来的比拼。

Photoroom 作为 AI 商业图片领域的先行者，未来的发展值得期待。站在历史十字路口的我们，既是见证者，也是塑造者。

参考材料：

https://www.producthunt.com/products/bg-app；

https://www.photoroom.com/tools/blur-background；

https://techcrunch.com/2020/06/05/photoroom-automagically-removes-background-from-your-photo/；

https://techcrunch.com/2020/12/17/photoroom-launches-background-removal-app-on-android/；

https://techcrunch.com/2022/11/07/after-40-million-app-downloads-photoroom-raises-19-million/；

https://techcrunch.com/2024/02/27/confirmed-photoroom-the-ai-image-editor-raised-43m-at-a-500m-valuation/；

https://www.prnewswire.com/news-releases/photoroom-secures-43m-in-series-b-funding-launches-next-generation-ai-photo-editing-features-for-businesses-302071832.html

https://techcrunch.com/2024/01/09/sources-photoroom-the-ai-photo-editing-app-is-raising-50m-60m-at-a-500m-600m-valuation/

OpenAI的AI搜索也要来了，但我们需要这么多AI搜索么

2024-05-06aigc阅读(63)

OpenAI要做AI搜索挑战谷歌这件事已经传了很久，传说中的SearchGPT似乎真的要来了。据软件开发者Tibor Blaho爆料，OpenAI 的 AI 搜索产品 Sonic – SNC（SearchGPT）已进入评估阶段，新增多项功能：

– 图像搜索

– 多样小工具（天气、计算器、体育、财经及时间差计算）

– 可进行后续提问

此次评估采用了多个模型，包括 GPT-4 Lite（Scallion; POR）、GPT-4 和 GPT3.5（Sahara-V），并结合了多种搜索引擎，如 Bing（POR）、Sydney、Fortis 和内部搜索引擎 Labrador。

域名：search.chatgpt.com

搜索引擎已经诞生了二十多年，但搜索引擎的产品形态和商业模式并没有发生实质性变化。通过爬虫获取信息，建立索引，根据用户搜索请求检索匹配记录，并按特定排列顺序呈现结果。通过关键词广告和竞价排名进行商业变现。在AI的加持之下，很久没有变化的搜索引擎市场越来越热闹了。

一、人人都想做一个AI搜索

AI搜索和传统搜索最大的区别在于，传统搜索提供网页链接列表，用户需要自己浏览和评估信息的相关性，而AI搜索直接给出答案，减少用户反复寻找网页和频繁点击步骤。

硅谷当红的Perplexity自称为世界首个对话式答案引擎，用户使用Perplexity进行搜索时，Perplexity会重新理解用户的意图，然后借助搜索引擎和外部索引取出相关的链接，再通过用大语言模型阅读相关链接，最后以不同的风格生成搜索的结果，也就是答案。

Perplexity将传统搜索索引与大型语言模型的推理能力和文本转换能力相结合，具备了泛用性的语义理解能力，能够让用户像聊天一样搜索，一次回答不满意用户可以再追加提问，还能通过用户的浏览历史记录和搜索意图等因素来生成相关结果。

Perplexity.ai

打造Arc浏览器的Browser Company也加入了AI搜索功能。Arc Search的不同点在于将浏览器、AI 搜索、网页总结等集成到了一个App中。

Arc Search的Pinch toSummarize（捏一捏总结）功能使用AI来总结网页。Browse For Me则是类似Perplexity 的AI搜索，用户使用Browse For Me（为我浏览）时，Arc会自动抓取并读取至少六条搜索结果，通过内置的LLM进行智能整合，呈现为一份图文并茂的“报告”。

Arc Search的捏一捏总结(左)、为我浏览功能（右）

国内的360和Arc的思路很类似，360最新推出的360AI浏览器也集成了AI相关的功能，包括AI阅读助手，支持摘要、脉络以及问答三种内容拆解方式。AI视频助手则可以提取字幕、总结视频看点。此外还内置了AI画图和AI写作等功能，当然，少不了的是AI搜索功能。

360AI搜索

360AI浏览器

秘塔搜索是国内另外一个AI搜索产品，有简洁、深入和研究三种模式，其中的研究模式开启后可以直接根据搜索内容生成一份研究报告。此外秘塔搜索和Perplexity类似，可以将搜索范围切换为学术搜索，帮助用户快速找到专业文献和研究资料。

二、AI搜索杀不死搜索引擎

AI搜索想要颠覆传统搜索引擎仍是一个遥远的目标。

微软的CEO纳德拉曾经表示，搜索引擎是互联网中最难攻破的市场，绝大多数用户都不会更改他们的默认搜索引擎，同时，越多用户使用搜索引擎，就越可能通过大量用户数据持续优化搜索结果。微软在推出集成了AI的New Bing之后，并没能从谷歌手中抢下更多的市场份额。

由谷歌前高管成立的Neeva，很早就推出AI搜索功能，不过始终没能走出小众市场，仅在两年后即关闭了面向普通消费者的业务。这也引出了摆在AI搜索产品面前的另一个问题，如何在高成本的情况下，找到合理的商业模式。

AI搜索产品另外一个弊端是非常依赖传统搜索引擎。AI搜索产品大多基于传统搜索引擎和大模型API构建，有开发者进行过测算，按照1万token为0.1美元计算，单次搜索的成本在1.4-2.1元，假设一天有10000人使用，每人只搜索一次，折合人民币也需要2.4万元，这对初创企业来说非常不友好。考虑到大多数 AI 产品目前都采取了免费，长期这样烧钱下去，一定不是可持续的模式。

Perplexity等厂商虽然在通过订阅制进行商业化，每月20美元的Pro版能够解锁更高级的功能以及搜索次数限制，但这显然是不够的。近期 Perplexity 也宣布将尝试广告模式，至于是否能够冲破商业化门槛，还有待观察。

AI搜索类产品套壳的本质，也导致打造一款同类型产品的门槛在降低，贾扬清的开源AI搜索引擎Lepton Search只用了500行代码，个人独立开发的AI搜索产品ThinkAny从开始开发到交付，前后只用了一共3天的时间。

另一方面，传统搜索引擎巨头也在酝酿相关动作。去年谷歌推出了实验性搜索生成体验（Search Generative Experience），SGE使用AI直接在谷歌搜索网页上回答用户的问题。《金融时报》近日还报道称谷歌正在讨论是否将部分AI搜索功能加入到高级订阅服务之中。

绿色部分为SGE内容

百度也打造了自己的AI搜索产品，在全年百度世界大会上，宣布将旗下主打无广告的简单搜索升级为AI搜索，提供智能答案和个性化搜索体验。

简单搜索产品界面

山姆·奥特曼说，让他兴奋的不是做一个更好的谷歌，而是可能存在一种更好的方式，帮助人们找到、应用和整合信息。“结合大型语言模型和搜索技术的交点，我认为目前还没有人完全解决这个问题。我很想去尝试这个方向，我认为那会非常酷。”月之暗面CEO杨植麟也曾经表示比传统搜索引擎好个10%、20%，没什么太大价值——只有一个颠覆性的东西，才配得上AGI这三个字。

Perplexity这样的AI搜索产品发挥了AI在提升信息检索效率和内容理解方面的潜力，虽然暂时还威胁不到传统搜索引擎的地位，为用户提供了更多的选择，两者的关系不是替代，而是融合。

生成式AI的变革性之一在于，人机器交流方式转向了自然语言交流，未来，我们可以期待 AI 搜索引擎在知识整合、智能推荐、个性化服务等方面发挥更大的作用，甚至可能诞生未来搜索引擎和内容消费的新标准。无论是这个东西是叫知识引擎还是答案引擎，信息搜索方式的改变都只是一个开始。

三、我们真的需要这么多AI搜索吗？

回到现有的市场上来看，市面上越来越多的通用AI搜索产品，其实从用户体验上看大同小异，没有哪一家做到了绝对领先。

而垂直领域的AI搜索也很难成功，在互联网泡沫期间，许多公司尝试成为特定垂直领域的谷歌，结果几乎都失败了，比如AltaVista。真正成功的是那些建立了端到端用户体验的公司。

尤其是在国内，互联网被App割裂孤岛化之后，用户也开始更多在各个垂直类平台获取信息。搜索引擎的发展已经从通用搜索为主转向生态内搜索。

有自己生态的厂商都已经开始内置 AI 搜索功能。小红书有AI生活经验搜索“搜搜薯”，优酷的“AI搜片”实现了模糊搜索找片等功能，抖音的“AI搜”可以提供文字版的答案和链接到的相关抖音视频。

在这些场景当中，AI搜索是加强产品的一个Feature，而并非一个独立的产品。

从根本上说，搜索技术的目标是帮助用户更快、更准确地找到所需信息。AI搜索通过学习用户行为、利用自然语言处理等技术，提高了搜索的准确性和相关性。这种技术最有效的应用场景是嵌入在用户已经频繁使用的产品中，如社交媒体、线上购物平台、信息聚合应用等。这样，AI搜索可以根据用户的具体使用场景和历史行为，提供更加个性化和准确的搜索结果。

其次，如果作为一个独立的产品，AI搜索面临着用户习惯的挑战。很少有用户为了搜索而特别去使用一个单独的应用或平台，尤其是当他们必须在多个平台或应用之间切换时。这不仅增加了用户的操作复杂度，也降低了效率。

再者，维护和发展一个独立的AI搜索产品需要大量的资源投入，这是一个不断进化的过程，需要持续的技术支持和优化。对于许多企业来说，将AI搜索作为一项内嵌功能，以提升现有产品的竞争力和用户体验，可能是一个更为经济和高效的选择。

虽然AI搜索技术非常强大和有价值，但从用户体验、习惯和企业资源配置的角度出发，将其作为增强现有产品的一个特性，而非开发为独立的搜索产品，可能是更为合理的方向。这样不仅能更好地满足用户需求，对企业来说也是更好地选择。

看起来，AI搜索离生成式人工智能时代的Killer App距离尚远，它甚至可能并不是一个理想的生意。我们并不需要那么多的AI搜索产品，但我们需要更多的AI搜索Feature。

Al加码，引爆“躺平式”旅游

2024-05-06aigc阅读(52)

今年的五一，“微度假”“微旅行”纷纷出圈。

相较于三亚、云南等老牌旅游大热门，人们开始寻找一些不用“人挤人”的小众旅行目的地：数据显示，更多游客愿意来到小城市旅游。根据在线旅游平台数据，今年“五一”假期，县域市场酒店预订订单同比增长68%，景区门票订单同比增长151%，增速高于全国大盘。

但相当一部分游客在走完整个旅程后发现，原来自己以为的小众目的地其实并不小众，自己规划好的行程也会因为出现问题而不得不临时做出改变，旅行中的堵车等小插曲还会带来改订票、换约车时间等问题。

值得注意的是，随着AI大模型的加码，旅游业正迎来新的技术浪潮：数字人导游花木兰、“一键智慧游”、AI助理“小西”……虽然和“躺平式”旅游还有距离，不过已经能够实现部分功能替代，以减轻消费者在进行相关信息筛选和即时修改行程时的工作负担。

那么或许旅游爱好者们可以期待一下，在下一个长假，想人所想的AI技术已经可以做好旅游功课任君挑选了。

一、人越多，“躺平式”旅游越火

自从在半个月前接受了朋友的北海之行邀请，“90后”宝妈林芸一有空闲就自觉翻找起当地的旅游攻略来，“虽然是我们几个小家庭的集体旅行，但也不是非要时时刻刻都保持步调一致，因此做好各自的功课很重要，一年里难得出趟远门，不玩尽兴就太可惜了。”

但抱着这个想法的林芸发现，在网上查找到的不少消息都在劝退她，“本来是想先了解一下北海有哪些特色景点的，没想到一搜就看到吐槽，比如说上岛观光要看假期的天气给不给面子，这个已经有点不太好预估了，然后是五一的车船票不好买，人又多，还有说要做好各种准备的，不然从没去过的纯小白非常容易踩坑，总的来说都是建议大家最好选淡季去。”

“所以这趟旅程还没开始，我就已经做好毁了一半的心理准备了。”林芸表示，外出旅行最怕的就是“人挤人”和临时计划有变，一想到自己会因为天气变化而观赏不到岛上的好风光，或者自己会因为背景里面人太多而拍不到好看的照片，抑或是要进行旅游推荐计划筛选并精准避雷，她就有些意兴阑珊，“看攻略说得那叫一个复杂，方方面面都要规划好，不然就是花大钱还玩不好。”

而后，经过各种权衡，在临近假期的前一周，林芸决定鸽了朋友的北海之行，选择自驾去贵州玩一趟，“主要是离得近，带娃出行又很繁琐，自己开车也可以机动一些，而且像是乌江寨这种能买套票的景点，包含门票、摆渡车、表演这些，一套服务下来确实让人省心省事，不过有些表演我们不感兴趣没去看，景色看多了也觉得一般，确实不比北海那些自然风光耐看。所以后来我们又去蜗牛部落、遵义会馆这些地方逛了逛，完事这个假期家庭亲子游也就这么潦草地结束了。”

这个五一，因为工作原因而可以和大部队错峰出行的乔乔，在出发前则非常痴迷于寻找小众目的地，“现在正假是完全享受不到了，多多少少都会提前一点或者延后休。”所以和男朋友时间对不上的乔乔无奈独自旅行，“27号晚上出发去乌鲁木齐，28号中午到喀什，之后就是纯玩三天的极限特种兵之旅，体验了一把南疆的雪山温泉。”

乔乔坦言，自己之前在网上刷攻略，看到“小众旅行地”这个tag已经有60多亿浏览量的时候非常无语，“这么多人都跟我想得一样！所以我才选的新疆，至少地大物博显得人少一点，而且往返机票一个人也就2000多，在‘五一’假期这个时间段上价格算是比较合理了。”

小众旅行地话题讨论颇高

“我自己一个人的话，基本都是公共交通或者打车出行，把白沙湖、盘龙古道、慕士塔格、石头城金草滩这些地方的时间提前算好，吃就比较随机了，中途遇到堵车、排队这些小变量都是可以接受的。”乔乔称，这一趟玩下来，唯一需要她操心的就是行程安排的临时变动，“可惜喀什也就是稍微不那么拥挤，看到有些地方人多我就想直奔下一个目的地了，只能说大家的出行欲望都有点太强烈了。”

其实从林芸和乔乔的分享中不难看出，当下的消费者已经在旅行方面有了更多细致且高品质的需求：比如需要一个真正小众的旅游目的地、如何以更低的价格订到更好的机票酒店、让往返接送机的流程更加便捷高效、对临时增加各种变量的行程进行合理规划……总的来说就是，一个比常见的旅行社路线规划更具个性化的旅行方案。

“只要输入各种限定条件，就能自动考虑到抢票、价格、人流量、堵车这些因素，然后一键做好行程安排。然后作为游客的我们，只需要对这些规划方案做出YES or NO的选择就再好不过了。”正如乔乔的畅想，“多希望以后是‘躺平式’旅游啊。”

二、旅游功课，AI来做

事实上，一些令“乔乔们”感到无从下手的旅游功课，确实可以等待着交给别人来做了。

自从大模型全面赋能各行各业以来，令外界看到了行业的更多可行性，旅游业也不例外。比如，携程在去年7月17日就发布了首个旅游行业垂直大模型“携程问道”。

据悉，“携程问道”的功能包括，在用户需求尚未确定时，为其提供出行推荐服务；在用户提出想法时，可从地域、主题特色等维度，推荐旅行目的地、酒店、景点、行程规划和实时优惠等选项。不过据相关媒体报道，“携程问道”大模型功能还不完善，仍处于内测中。

4月11日，同程旅行旗下大模型“程心”成功通过了国家网信办生成式人工智能服务备案，这也意味着同程旅行大模型即将进入规模化商用阶段。

据了解，“程心”大模型拥有强大的语言处理能力和深度学习能力，可为游客提供智能行程规划、智能导览、智能客服等服务。此外，“程心”大模型已在国内部分旅游城市完成了前期的学习训练和开发工作，并计划于2024年正式投入使用首个城市级旅游大模型。

排除上述暂时没能商用的旅游垂类大模型，单从AI技术在旅游领域的落地应用来看，在今年五一期间可以说是已经迎来了一次集体试点展示。

以于4月初就在20多家5A级重要、特色景区亮相过的“一键智慧游”为例，随着该应用在清明节期间被部分用户使用并安利，使得这个五一有了更多游客了解到这款新应用。

“进入景点地图，基本把需要的吃住、景点、服务区、购物点这些信息和功能全都包含在内，无脑跟着地图走就是了。”一位峨眉山的游客表示，她是在无意间刷到过“一键智慧游”的相关信息，这次出行正好实地体验了一番，“相当于把你需要的东西整合到一起了，就比如说以前订票、攻略、餐厅、酒店全都要通过不同的平台去查找，现在只用打开高德这一个就够了，整体功能还是比较全面的。”

而在五一放假前夕，面向消费端还有更多AI应用被顺利启用。

4月25日，大同市与京东云联合为大同文旅打造的数字人花木兰正式入职大同文旅。其不仅可以化身贴心的智能导游，还能根据游客个人偏好和需求，量身定制个性化的旅游路线和游玩规划。

该应用上线过后，因其惊艳表现使得不少体验过的用户连声称赞，“‘花木兰’可以用一口流利的中英双语为大家讲解云冈石窟等的历史文化知识，引导我们去探索和感受千年前北魏风华，是一位博学多才的讲解员。”

数字人导游花木兰

此外，还有在25日上线的民航机场首款大模型应用AI助理“小西”，包括“小西办公”“小西问数”“小西问答”三大AI场景，能提供创作生成、智能报表、知识问答等功能；在4月26日上线的“AI澳门智能客服”具备澳门历史文化、观光景点、娱乐消闲、旅游路线及出入境等与旅游相关的知识，能以多种语言、文字回应问题；以及恰与“AI澳门智能客服”于同一天推出的“智慧应县木塔”，其作为可复制的文化遗产保护解决方案，在应县木塔景区已暂停登塔参观的背景下，借助VR设备模拟登塔体验，能为体验者逐层讲解与应县木塔相关的人事物、提供数字化游览服务……而这些应用，都在五一期间为其所覆盖范围内的游客，带来了别样的使用体验。

以上种种不难看出，得益于AI技术的加码，在游客的旅行体验丰富度得到提升的同时，也为旅游业的发展注入了新的动能。

三、大规模推广，要过什么难关？

当然，以当前技术落地的速度来看，远不及游客的想象来得那么快。

“AI大模型带来的影响，最核心的是信息传播速度和效率的增强。”谷歌中国旅游行业总经理彭伦表示，“AI维度对旅游业的激发和促进，体现在AI可以借助大量数据精准抓取用户需求，把用户旅程规划做好。同时也可以抓取到用户各个维度的旅游需求，远远提升了信息传播速度和信息获取效率。”

换句话说，大模型对旅游产业的影响主要体现在两个方面：其一是，能够增强消费者获取语言服务、行程信息等方面的能力，从而筛选出原本不熟悉的旅行目的地。其二是，能够提供更加个性化的引导，让消费者找到一些真正符合自己需求且确实小众的地方。

飞猪副总裁、首席技术官倪生华认为，旅游业非常重人力和成本，也非常注重知识的沉淀，“借助旅游专业知识度和对旅游景点的理解，形成合理的规划是非常高门槛的事情。同时，行业追求以更低成本的方式替代用户退改、咨询等服务流程，大模型使其成为可能，这种‘可能’是帮人实现业务决策。”

“如果推荐更精准，找到热点，找到价格的洼地，满足个性的需求，一定会更好地匹配需求和供给。”据悉，为了解决通用AIGC的问题，携程在智能算法基础上对酒店、景点、行程的常用主题推荐进行人工校验，并因此形成了“携程口碑榜”和“携程特价榜”，但AI助理能不可能完全代替消费者的决策，尤其是对于休闲旅游的需求。

携程方面在官宣“携程问道”时曾表示，自己不仅是做大模型，也是利用大模型将实时数据、已建构的算法等进行集成。携程创始人兼集团董事局主席梁建章称，“AI在垂直领域的应用刚刚开始，还有很多的工作要做。”

而站在消费者的视角思考，AI技术的落地应用是要可以做到“傻瓜式”操作的，如此才能充作乔乔口中的“躺平式”旅游的基础。毕竟只有这样的大模型，才能全面渗透到行业中，进而挖掘其商业价值。

从技术层面出发，对于大模型的下一步发展，网易副总裁、杭州研究院执行院长、互联网技术委员会主席汪源表示，“首先是旅游前，大模型在做旅游行程规划环节要起到更好的作用，需要把大模型更强的理解需求能力和更强的解决问题能力结合起来，更好地在行前规划中做好服务。其次是旅游前采取的行动方面，比如订票等工作对大模型的挑战会更大，需要大模型给出一些建议，这就需要有更高的精准度和可信度，同时要有灵活处理信息变化的能力。”

除了技术本身的发展限制之外，旅游大模型的大规模应用还要过一道审核关。按照《生成式人工智能服务管理暂行办法》要求，为促进生成式人工智能服务创新发展和规范应用，网信部门会有序开展生成式人工智能服务备案工作。

如携程副总裁孙天旭在接受界面采访时曾表示，中国市场对于大模型产品的推出有一定的限制条件，随着国家相关规定和规范的不断更新，“携程问道”也将大规模推向市场。

无论如何，随着AI技术加码旅游的渐入佳境，一次真正可以让人全程“躺平”的旅行，或许即将在下一个长假开启。

运维工程师：我怎么用钉钉AI解决解决业务部门的难题

2024-05-05aigc阅读(46)

简介

身为一名运维工程师，日常就是协助其他员工解决各种系统上遇到的难题，但最近AI工具诞生后，我发现了一个新的业务场景切入。使用钉钉AI可以直接介入其他部门的具体工作中，帮他们直接解决业务难题。

这种方法既不需要学习复杂的技术内容，也不需要掌握很多的部门知识，只需要使用钉钉AI，进行一次有效对话就可以。

职场办公难点

职场办公中常常会遇到一些难点，比如沟通不畅、效率低下、信息整理困难等。钉钉AI作为一款智能助手，可以帮助解决这些难题，提高办公效率。针对这些难题和一些更难的交互问题，我们都可以使用钉钉AI来解决。

1）沟通问题

– 钉钉AI可以通过智能语音识别和文本转换功能，将语音消息转换为文字，方便用户随时查看和回顾。

– 钉钉AI还可以提供实时翻译功能，帮助用户解决与不同语言背景的同事或客户之间的沟通难题。

– 利用钉钉AI的聊天机器人功能，用户可以设置自动回复或预设回复，减少重复沟通，提高沟通效率。

2）信息整理与搜索

– 钉钉AI可以帮助用户自动整理聊天记录、文件、会议纪要等，形成结构化的信息库，方便用户随时查找和引用。

– 用户可以通过钉钉AI的搜索功能，快速找到需要的信息，无需在大量文件中逐一查找。

3）时间管理与日程安排

– 钉钉AI可以根据用户的工作习惯和日程安排，智能提醒用户即将到来的会议、任务等，避免遗漏重要事项。

– 用户还可以利用钉钉AI的日程管理功能，设置待办事项、优先级等，合理规划工作时间，提高工作效率。

4）智能推荐与决策支持

– 钉钉AI可以根据用户的工作数据和习惯，智能推荐相关文档、资料或同事，帮助用户快速获取所需信息或找到合适的人进行合作。

– 在决策过程中，钉钉AI可以提供数据分析、趋势预测等功能，为用户提供决策支持，降低决策风险。

在职场中，如果自己能力不够强，那么就需要一个强有力的帮手来帮助我们解决问题内容沟通、信息管理等各方面的难题。因此我们可以灵活的利用钉钉AI的各项功能来来提升自己职场竞争力。

提问的格式

Prompt提示词是AIGC中用于引导用户进行文本输入和生成的关键词汇。任何的AIGC应用都要先从对话开始，而对话就是拟人、思考、输出、内容、节点、要求、回答、反馈、环境、在译、持续、回答的过程。这里有一个问题：AIGC在某些程度上是比人类更加的“聪明”，但它缺乏对于节点、环境、拟人的思考判断。给同事安排一个任务，要求他针对微信做一个竞品，那么同事身在互联网行业，职位是产品经理，他就知道微信的使用，钉钉为竞争对手、飞书为竞争对手，参照白天大多数为工作使用，晚上大多数为个人使用等等诸多条件，而AIGC在刚开始只会少许定义一点这些内容。

所以这里我们就要学会Prompt提示词的使用，更加准确地进行表达，从而获得更符合自己要求的答复。

How To Ask Questions The Smart Way? 向别人提问一直是一门艺术，向 AI 提问也是如此；有效的问题能够更容易获得你想要的答案，下面就来从语义方面简单讲一下如何向 AI 提出有效的问题。

提示词提问是一个很有技巧的概念，与钉钉AI对话虽然很智能，但也要有一定的技巧概念。比如你直接说帮我写一篇论文，那钉钉AI产生的内容会偏差到千里之外，但如果我们把角色、场景、条件/重复条件描述、要求结果这几个节点要求加进去，那钉钉AI就会产生非常符合我们要求的内容。

例如我们要撰写专业期刊术语，就可以通过下面这个示例来进行实际操作，记得要去掉【】

你是一名资深的学术期刊编辑【角色】，请依照中文学术界的阅读习惯【场景】，针对下面的内容，逐段进行中文到中文的意译和优化【条件】。注意保留原文中的必要细节，不要轻易丢弃。【重复条件】

– 去除口语化表达，使用更正式、学术化的语言。【重复条件】

– 调整语序和句式结构，使表达更加流畅、逻辑清晰，避免拗口。【重复条件】

– 适当简化一些冗长的表述，提高文章的可读性。【重复条件】

– 语言表达客观准确，不要进行夸大性描述。【重复条件】

需要修改的内容如下：【结果】

”内容”

常规的职场提问，都可以使用这种规则来解决。下面我们还有数十个实际的案例。

一、人力用钉钉AI解决招聘、面试的难题

在人力的工作中，最烦的事情就是要帮助职能部门去做与应聘者的初次对接沟通，这里不光是涉及到与人对话，还要涉及到专业性的内容，既需要了解面试者的水平，还要综合到应聘岗位的情况。特别是涉及到岗位的专业性，很多的时候会让HR一头的雾水。

下面我们就从专业面试要求和整理面试问题2个方面使用钉钉AI来做案例实操，手把手来提升HR的工作效率和解决HR的难题。

1. 用钉钉AI撰写招聘要求

招聘是让HR感觉特别糟心的一件事情，不同的部门，不同的职级，不同的项目，既不能一概而论，又不能写的很直白，特别是一些自己不懂的专业术语，这都是让人抓狂的事情。

互联网部门说要一个PM，要能做事，能管理节点进度，主要是对内部研发沟通，有个两年互联网产品经验的就行，要求不高。然后HR费尽心思地招了一个项目经理进来，等面试完了，互联网事业部的总监问你：

咦，现在产品经理不好招吗？这找个项目经理过来，可能不太合适呢。。。

那么针对招聘要求，要怎么撰写出符合用人部门要求的内容呢。

首先，我们要先做一个角色定义，既需要让文心一言把自己的角色定义好。

然后，我们需要给出具体的要求，比如产品经验，管理，沟通。

其次，我们还得加上行业属性。

最后，我们要定义结论。

提问：你是一名资深人力，现在要给互联网团队招聘一个PM。招聘的要求如下：

最少要两年以上的互联网产品经验。
主要对内部团队进行研发沟通和管理，要能够管理节点进度。
做人认真负责。

请帮我按照以上要求进行生成一篇招聘内容，要求符合招聘条件，内容要求详细，语句通畅。

钉钉AI答复：

在钉钉AI的回答中，我们可以看到关于PM的岗位说明和关于PM工作职责的定义，钉钉AI明确识别了当前的PM为产品经理的简称，而不是项目经理。并且根据我们的招聘要求充分地说明了产品经理的岗位职责和公司当前的环境。

钉钉AI不光智能的识别到了人力对于招聘的要求，还对招聘进行的边界进行了扩充，增加了关于公司/组织的简要描述，填充了联系方式。这样我们只需要根据实际的情况，对内容进行适当的调整，就可以直接发布出去了。

2. 让钉钉AI整理面试问题

招聘的场景解决了，当我们收到简历后就可以进行筛选了，但此刻又有新的场景出现了：单从简历上面看，我们无法识别到应聘者是否具备招聘所需的要求，实际的能力能否满足。所以这里我们又可以向钉钉AI提出我们的困惑，让其来解决应聘者能力的问题。

我们可以让钉钉AI出几个关于互联网产品经理的职场问题、能力问题，这样我们在和应聘者进行初次沟通的时候就可以进行提问，看应聘者要如何回答。

还是按照我们关键词提问的方法，确保角色、条件、结果这三个要素是描述清楚的，这样钉钉AI就会给我们一个明确的答复。

提问：请结合上述招聘要求，帮我生成几个产品经理关于能力、关于工作职责的问题，我现在需要向应聘者进行提问。

钉钉智能回答：

钉钉AI有一个很大的好处就是持续性，它会根据当前的问题场景进行关联。如果我们觉得上述的内容不够，可以点击下面的提示持续提问，这样就可以更加丰富我们的业务场景内容。

二、行政用钉钉AI解决公告、PPT的难题

行政的同事通常会需要发布各种公告内容，涉及到公司的品牌形象和表达专业度问题，所以要求内容严谨。在很多的时候，针对内容的措辞，针对发布的格式都会让行政的同事措手不及。那么在这个时候我们就可以使用钉钉AI来解决内容输出和格式文案的问题。

钉钉AI是一款办公神器，在这里我们不光是能够进行对话问答，还可以让钉钉AI输出指定的格式给到我们。让钉钉AI自己学会办公，从而减轻我们的工作压力。

让钉钉AI生成公告文案

以往行政发布公告，都要根据主题，然后自己向对应的场景，对应的描述，然后还要结合公司的政策，最后是进行内容整合。

比如现在公司要出台一个电动车充电的安全警示，针对这个话题需要出一篇公告。这里我们就可以做出条件定义，让钉钉AI来生成内容。

提问：我是一名行政人员，现在以[电动车充电的安全警示]为标题，生成一篇公告。公告的内容要说明充电安全的因素，还要给出案例，和公司的政策条例。

钉钉AI答复：

在这里我们提出了三个条件：1安全警示，2案例，3公司政策。钉钉AI都识别到，并且针对性地给出了回答。现在我们只需要根据自己公司的实际情况略做修改，就可以直接使用。如果说正常写一篇公告要1个小时，那使用钉钉AI，我们只需要1分钟就可以搞定。

三、产品经理用钉钉AI解决产品需求、文档的问题

产品经理作为互联网行业中一个重要的角色，日常会和各种业务场景打交道，那么针对产品经理工作中的产品需求定义和需求文档的撰写要怎么处理呢？下面就这2点，我们使用钉钉AI来解决。

1. 让钉钉AI定义产品需求

身为一个产品经理，最基本的日常工作就是需要做产品需求的定义，那么单纯依靠脑力思考和经验判断难免会出现遗漏和失误的情况，并且很多的需求定义还需要用局外人的身份来思考，那么这个时候我们就可以使用钉钉AI来做常规的思考判断，根据钉钉AI这个智慧大脑给出的条件，我们在进行二次人为定义就可以了。

产品需求的定义不同于一般性的内容输出，这里我们需要把场景条件添加进入，这样才能让钉钉AI给出明确的判断。

提问：你现在是一名产品经理，需要对手机号注册做一个识别判断，需要详细描述手机号的条件和具体步骤。请按照1234的方式进行呈现。

钉钉AI答复：

一般作为产品需求的时候，考虑的是手机号本身的条件，既基础条件：1开头，11位，纯数字。然后在此基础上在扩展到场景的条件匹配。然而钉钉AI在这里按照格式、唯一性、实名验证四个场景给出了指令的要求。通过这样的问答，就可以大大节省产品经理在实际工作中的需求定义时间。不光丰富了我们原来的需求场景，还按照实际情况添加了一些客观的条件，比纯人力想的更多更全，而且更快更好。

2. 让钉钉AI输出需求文档

钉钉AI能解决的问题并不只是一个小小的手机号注册需求，这只是我们针对场景举的一个小小例子。那么针对复杂的场景条件，我们依然可以用钉钉AI来解决。

比如我们要做一套OA系统，那么在开始做之前需要先列需求文档，这一步我们就可以丢给钉钉AI来帮我们实现。

提问：我现在要做一套OA系统，需要你提供一个整体的大纲，要包含OA系统的设计概要，设计思路，参照说明等详细内容。

核心流程
界面展示
权限管理
数据统计
安全保障
其他三方系统对接
整体架构

钉钉AI答复：

在这里我们使用了多种需求的提报，让钉钉AI自己来识别定义，然后做分类。在钉钉AI的回答中我们可以看到它先给我们进行了分类整理，按照模块做了区分。然后在对应的每个模块设定了大纲和子标题，并对子标题进行了概要描述。这样一份基本的需求文档大纲需求目录已经呈现出来了，如果我们还需要再进一步的要求，可以在此对话下继续提问。

但这个提问就要逐步拆分大纲去一步一步地操作。

四、文员用钉钉AI解决阅读、润文的难题

让钉钉AI对稿件进行润文

润文的需求，我们可以使用钉钉AI的插件-办公写作宝来帮助我们，特别是针对润文的需求，在角色定义好的前期下操作，方向会更准确。

提问：转写一篇“科技创新”的文章，背景、目标、现状、挑战、我国的做法。

五、员工用钉钉AI解决周报、总结的难题

一般员工都会遇到汇报难、总结难的情况，那么有了钉钉AI，这些困难就都不是问题了，下面我们就来解决周报生成和总结问题这2个难题。

让钉钉AI生成周报

职场工作最常遇到的问题是同事比我内卷，工作拉时长也就算了，一份周报还要潇潇洒洒的写上两百多字，有什么不能是两句话说完呢。那么我们就使用钉钉AI来帮我们把两句话延长为两百多字，帮我们职场更胜人一步。

提问：请帮我总结一篇周报，我本周完成了2份商业策划书，进行了2次合规会议的评审，参加了一次人力部组织的线下安全教育培训。下周出差参加互联网大会和参加南京市交通安全设备投标会。

钉钉AI答复：

这里我们可以看到钉钉AI按照我们的每条指令进行了详细的输出。为什么说大家在日常的工作重要学习，并多尝试钉钉AI呢，因为在职场这个场景范围内，目前没有哪个AI工具能够比钉钉AI更专注，场景更合适。钉钉AI会细致的拆分工作业务场景的条件，让回答更加符合职场办公的条件。

2. 让钉钉总结问题

把不知道要如何表达的事情丢给钉钉AI，让钉钉AI识别条件后自主生成回答。

提问：描述一次因系统故障导致的重要业务延误经历。

钉钉AI回答：

六、钉钉AI总结

AI是来解决问题，不是直接定义问题

作为职场人，巧用AI来提升自己的工作是一种非常好的解决办法，那么这里我们就要适量的学习一点基础知识和应用技巧以便更好的掌握钉钉AI工具。这里我们还需要深入一点知识，钉钉AI工具是利用机器学习、通过训练模型、通过神经网络等技术组成，最终生成创意。

简单点理解：我们知道1+1=2，但钉钉AI不一定会知道，而且我们也会理解1群羊加上1群羊还是等于1群羊，而不是2群羊。那么这里我们用钉钉AI就要理解通过大量的数据进行采集和处理，并且通过调整的增加和判断后，让钉钉AI做出一个拟人的回答，并且能够借用大数据和多模态的理解，让思维更加的发散，更好的得到结论。

在很多的时候，我们都需要用人解决问题，比如想广告词，想产品宣传文案，想推广渠道，想用户反馈，想如何提升。那么怎么解决，如何解决，高效解决就是一个最大的问题。比如我们可以多人来共同解决，比如我们可以使用工具，来更好的处理这些。这样效率提升才能更好的获取营收。

钉钉AI的优势在于它可以突破人类创作的限制，实现无限的内容创造。它可以根据用户的需求和偏好，生成符合用户期望的内容，提高用户满意度和忠诚度。它也可以节省人力和时间成本，提高内容生产的效率和规模。它还可以创造出人类无法想象的新颖和有趣的内容，拓展人类的知识和视野。

上一页
1
···
12
13
14
15
16
17
18
...
下一页
共 22 页

AIGC 第15页

一、变局

二、U-ViT架构

三、加速向应用端延伸

一、AI落地的To C陷阱

二、钉钉的AI变身

三、为什么是钉钉？

四、可被复制的路径

一、用户故事

二、需求转化

三、AI旅游助理设计

1. 认识AI Agent

2. 设计角色

3. 技能应用

4. 初始经验积累

四、设计总结

1. 用户思维

2. 结构化思维

3. 系统思维

一、大模型的两种逻辑

二、聊天机器人发扬不了大模型

三、没有共识就是最好的共识

第一步，业，具备特定领域的业务理解能力

第二步，流，具备把业务流程抽象建模的能力

第三步，法，具备把流程事件结构化成方法论的能力

看到这里，你可能会问，这是不是太复杂了？

01

02

03

AI Native 产品分析——PhotoRoom

一、Photoroom 的早期验证

二、Gen AI 时代的 Photoroom

三、Photoroom 的商业策略

四、后续

一、人人都想做一个AI搜索

二、AI搜索杀不死搜索引擎

三、我们真的需要这么多AI搜索吗？

一、人越多，“躺平式”旅游越火

二、旅游功课，AI来做

三、大规模推广，要过什么难关？

简介

职场办公难点

提问的格式

一、人力用钉钉AI解决招聘、面试的难题

1. 用钉钉AI撰写招聘要求

2. 让钉钉AI整理面试问题

二、行政用钉钉AI解决公告、PPT的难题

让钉钉AI生成公告文案

三、产品经理用钉钉AI解决产品需求、文档的问题

1. 让钉钉AI定义产品需求

2. 让钉钉AI输出需求文档

四、文员用钉钉AI解决阅读、润文的难题

让钉钉AI对稿件进行润文

五、员工用钉钉AI解决周报、总结的难题

让钉钉AI生成周报

2. 让钉钉总结问题

六、钉钉AI总结

AI是来解决问题，不是直接定义问题