AIGC-IT极限技术分享汇-第20页

Al加码，引爆“躺平式”旅游

2024-05-06aigc阅读(66)

今年的五一，“微度假”“微旅行”纷纷出圈。

相较于三亚、云南等老牌旅游大热门，人们开始寻找一些不用“人挤人”的小众旅行目的地：数据显示，更多游客愿意来到小城市旅游。根据在线旅游平台数据，今年“五一”假期，县域市场酒店预订订单同比增长68%，景区门票订单同比增长151%，增速高于全国大盘。

但相当一部分游客在走完整个旅程后发现，原来自己以为的小众目的地其实并不小众，自己规划好的行程也会因为出现问题而不得不临时做出改变，旅行中的堵车等小插曲还会带来改订票、换约车时间等问题。

值得注意的是，随着AI大模型的加码，旅游业正迎来新的技术浪潮：数字人导游花木兰、“一键智慧游”、AI助理“小西”……虽然和“躺平式”旅游还有距离，不过已经能够实现部分功能替代，以减轻消费者在进行相关信息筛选和即时修改行程时的工作负担。

那么或许旅游爱好者们可以期待一下，在下一个长假，想人所想的AI技术已经可以做好旅游功课任君挑选了。

一、人越多，“躺平式”旅游越火

自从在半个月前接受了朋友的北海之行邀请，“90后”宝妈林芸一有空闲就自觉翻找起当地的旅游攻略来，“虽然是我们几个小家庭的集体旅行，但也不是非要时时刻刻都保持步调一致，因此做好各自的功课很重要，一年里难得出趟远门，不玩尽兴就太可惜了。”

但抱着这个想法的林芸发现，在网上查找到的不少消息都在劝退她，“本来是想先了解一下北海有哪些特色景点的，没想到一搜就看到吐槽，比如说上岛观光要看假期的天气给不给面子，这个已经有点不太好预估了，然后是五一的车船票不好买，人又多，还有说要做好各种准备的，不然从没去过的纯小白非常容易踩坑，总的来说都是建议大家最好选淡季去。”

“所以这趟旅程还没开始，我就已经做好毁了一半的心理准备了。”林芸表示，外出旅行最怕的就是“人挤人”和临时计划有变，一想到自己会因为天气变化而观赏不到岛上的好风光，或者自己会因为背景里面人太多而拍不到好看的照片，抑或是要进行旅游推荐计划筛选并精准避雷，她就有些意兴阑珊，“看攻略说得那叫一个复杂，方方面面都要规划好，不然就是花大钱还玩不好。”

而后，经过各种权衡，在临近假期的前一周，林芸决定鸽了朋友的北海之行，选择自驾去贵州玩一趟，“主要是离得近，带娃出行又很繁琐，自己开车也可以机动一些，而且像是乌江寨这种能买套票的景点，包含门票、摆渡车、表演这些，一套服务下来确实让人省心省事，不过有些表演我们不感兴趣没去看，景色看多了也觉得一般，确实不比北海那些自然风光耐看。所以后来我们又去蜗牛部落、遵义会馆这些地方逛了逛，完事这个假期家庭亲子游也就这么潦草地结束了。”

这个五一，因为工作原因而可以和大部队错峰出行的乔乔，在出发前则非常痴迷于寻找小众目的地，“现在正假是完全享受不到了，多多少少都会提前一点或者延后休。”所以和男朋友时间对不上的乔乔无奈独自旅行，“27号晚上出发去乌鲁木齐，28号中午到喀什，之后就是纯玩三天的极限特种兵之旅，体验了一把南疆的雪山温泉。”

乔乔坦言，自己之前在网上刷攻略，看到“小众旅行地”这个tag已经有60多亿浏览量的时候非常无语，“这么多人都跟我想得一样！所以我才选的新疆，至少地大物博显得人少一点，而且往返机票一个人也就2000多，在‘五一’假期这个时间段上价格算是比较合理了。”

小众旅行地话题讨论颇高

“我自己一个人的话，基本都是公共交通或者打车出行，把白沙湖、盘龙古道、慕士塔格、石头城金草滩这些地方的时间提前算好，吃就比较随机了，中途遇到堵车、排队这些小变量都是可以接受的。”乔乔称，这一趟玩下来，唯一需要她操心的就是行程安排的临时变动，“可惜喀什也就是稍微不那么拥挤，看到有些地方人多我就想直奔下一个目的地了，只能说大家的出行欲望都有点太强烈了。”

其实从林芸和乔乔的分享中不难看出，当下的消费者已经在旅行方面有了更多细致且高品质的需求：比如需要一个真正小众的旅游目的地、如何以更低的价格订到更好的机票酒店、让往返接送机的流程更加便捷高效、对临时增加各种变量的行程进行合理规划……总的来说就是，一个比常见的旅行社路线规划更具个性化的旅行方案。

“只要输入各种限定条件，就能自动考虑到抢票、价格、人流量、堵车这些因素，然后一键做好行程安排。然后作为游客的我们，只需要对这些规划方案做出YES or NO的选择就再好不过了。”正如乔乔的畅想，“多希望以后是‘躺平式’旅游啊。”

二、旅游功课，AI来做

事实上，一些令“乔乔们”感到无从下手的旅游功课，确实可以等待着交给别人来做了。

自从大模型全面赋能各行各业以来，令外界看到了行业的更多可行性，旅游业也不例外。比如，携程在去年7月17日就发布了首个旅游行业垂直大模型“携程问道”。

据悉，“携程问道”的功能包括，在用户需求尚未确定时，为其提供出行推荐服务；在用户提出想法时，可从地域、主题特色等维度，推荐旅行目的地、酒店、景点、行程规划和实时优惠等选项。不过据相关媒体报道，“携程问道”大模型功能还不完善，仍处于内测中。

4月11日，同程旅行旗下大模型“程心”成功通过了国家网信办生成式人工智能服务备案，这也意味着同程旅行大模型即将进入规模化商用阶段。

据了解，“程心”大模型拥有强大的语言处理能力和深度学习能力，可为游客提供智能行程规划、智能导览、智能客服等服务。此外，“程心”大模型已在国内部分旅游城市完成了前期的学习训练和开发工作，并计划于2024年正式投入使用首个城市级旅游大模型。

排除上述暂时没能商用的旅游垂类大模型，单从AI技术在旅游领域的落地应用来看，在今年五一期间可以说是已经迎来了一次集体试点展示。

以于4月初就在20多家5A级重要、特色景区亮相过的“一键智慧游”为例，随着该应用在清明节期间被部分用户使用并安利，使得这个五一有了更多游客了解到这款新应用。

“进入景点地图，基本把需要的吃住、景点、服务区、购物点这些信息和功能全都包含在内，无脑跟着地图走就是了。”一位峨眉山的游客表示，她是在无意间刷到过“一键智慧游”的相关信息，这次出行正好实地体验了一番，“相当于把你需要的东西整合到一起了，就比如说以前订票、攻略、餐厅、酒店全都要通过不同的平台去查找，现在只用打开高德这一个就够了，整体功能还是比较全面的。”

而在五一放假前夕，面向消费端还有更多AI应用被顺利启用。

4月25日，大同市与京东云联合为大同文旅打造的数字人花木兰正式入职大同文旅。其不仅可以化身贴心的智能导游，还能根据游客个人偏好和需求，量身定制个性化的旅游路线和游玩规划。

该应用上线过后，因其惊艳表现使得不少体验过的用户连声称赞，“‘花木兰’可以用一口流利的中英双语为大家讲解云冈石窟等的历史文化知识，引导我们去探索和感受千年前北魏风华，是一位博学多才的讲解员。”

数字人导游花木兰

此外，还有在25日上线的民航机场首款大模型应用AI助理“小西”，包括“小西办公”“小西问数”“小西问答”三大AI场景，能提供创作生成、智能报表、知识问答等功能；在4月26日上线的“AI澳门智能客服”具备澳门历史文化、观光景点、娱乐消闲、旅游路线及出入境等与旅游相关的知识，能以多种语言、文字回应问题；以及恰与“AI澳门智能客服”于同一天推出的“智慧应县木塔”，其作为可复制的文化遗产保护解决方案，在应县木塔景区已暂停登塔参观的背景下，借助VR设备模拟登塔体验，能为体验者逐层讲解与应县木塔相关的人事物、提供数字化游览服务……而这些应用，都在五一期间为其所覆盖范围内的游客，带来了别样的使用体验。

以上种种不难看出，得益于AI技术的加码，在游客的旅行体验丰富度得到提升的同时，也为旅游业的发展注入了新的动能。

三、大规模推广，要过什么难关？

当然，以当前技术落地的速度来看，远不及游客的想象来得那么快。

“AI大模型带来的影响，最核心的是信息传播速度和效率的增强。”谷歌中国旅游行业总经理彭伦表示，“AI维度对旅游业的激发和促进，体现在AI可以借助大量数据精准抓取用户需求，把用户旅程规划做好。同时也可以抓取到用户各个维度的旅游需求，远远提升了信息传播速度和信息获取效率。”

换句话说，大模型对旅游产业的影响主要体现在两个方面：其一是，能够增强消费者获取语言服务、行程信息等方面的能力，从而筛选出原本不熟悉的旅行目的地。其二是，能够提供更加个性化的引导，让消费者找到一些真正符合自己需求且确实小众的地方。

飞猪副总裁、首席技术官倪生华认为，旅游业非常重人力和成本，也非常注重知识的沉淀，“借助旅游专业知识度和对旅游景点的理解，形成合理的规划是非常高门槛的事情。同时，行业追求以更低成本的方式替代用户退改、咨询等服务流程，大模型使其成为可能，这种‘可能’是帮人实现业务决策。”

“如果推荐更精准，找到热点，找到价格的洼地，满足个性的需求，一定会更好地匹配需求和供给。”据悉，为了解决通用AIGC的问题，携程在智能算法基础上对酒店、景点、行程的常用主题推荐进行人工校验，并因此形成了“携程口碑榜”和“携程特价榜”，但AI助理能不可能完全代替消费者的决策，尤其是对于休闲旅游的需求。

携程方面在官宣“携程问道”时曾表示，自己不仅是做大模型，也是利用大模型将实时数据、已建构的算法等进行集成。携程创始人兼集团董事局主席梁建章称，“AI在垂直领域的应用刚刚开始，还有很多的工作要做。”

而站在消费者的视角思考，AI技术的落地应用是要可以做到“傻瓜式”操作的，如此才能充作乔乔口中的“躺平式”旅游的基础。毕竟只有这样的大模型，才能全面渗透到行业中，进而挖掘其商业价值。

从技术层面出发，对于大模型的下一步发展，网易副总裁、杭州研究院执行院长、互联网技术委员会主席汪源表示，“首先是旅游前，大模型在做旅游行程规划环节要起到更好的作用，需要把大模型更强的理解需求能力和更强的解决问题能力结合起来，更好地在行前规划中做好服务。其次是旅游前采取的行动方面，比如订票等工作对大模型的挑战会更大，需要大模型给出一些建议，这就需要有更高的精准度和可信度，同时要有灵活处理信息变化的能力。”

除了技术本身的发展限制之外，旅游大模型的大规模应用还要过一道审核关。按照《生成式人工智能服务管理暂行办法》要求，为促进生成式人工智能服务创新发展和规范应用，网信部门会有序开展生成式人工智能服务备案工作。

如携程副总裁孙天旭在接受界面采访时曾表示，中国市场对于大模型产品的推出有一定的限制条件，随着国家相关规定和规范的不断更新，“携程问道”也将大规模推向市场。

无论如何，随着AI技术加码旅游的渐入佳境，一次真正可以让人全程“躺平”的旅行，或许即将在下一个长假开启。

运维工程师：我怎么用钉钉AI解决解决业务部门的难题

2024-05-05aigc阅读(65)

简介

身为一名运维工程师，日常就是协助其他员工解决各种系统上遇到的难题，但最近AI工具诞生后，我发现了一个新的业务场景切入。使用钉钉AI可以直接介入其他部门的具体工作中，帮他们直接解决业务难题。

这种方法既不需要学习复杂的技术内容，也不需要掌握很多的部门知识，只需要使用钉钉AI，进行一次有效对话就可以。

职场办公难点

职场办公中常常会遇到一些难点，比如沟通不畅、效率低下、信息整理困难等。钉钉AI作为一款智能助手，可以帮助解决这些难题，提高办公效率。针对这些难题和一些更难的交互问题，我们都可以使用钉钉AI来解决。

1）沟通问题

– 钉钉AI可以通过智能语音识别和文本转换功能，将语音消息转换为文字，方便用户随时查看和回顾。

– 钉钉AI还可以提供实时翻译功能，帮助用户解决与不同语言背景的同事或客户之间的沟通难题。

– 利用钉钉AI的聊天机器人功能，用户可以设置自动回复或预设回复，减少重复沟通，提高沟通效率。

2）信息整理与搜索

– 钉钉AI可以帮助用户自动整理聊天记录、文件、会议纪要等，形成结构化的信息库，方便用户随时查找和引用。

– 用户可以通过钉钉AI的搜索功能，快速找到需要的信息，无需在大量文件中逐一查找。

3）时间管理与日程安排

– 钉钉AI可以根据用户的工作习惯和日程安排，智能提醒用户即将到来的会议、任务等，避免遗漏重要事项。

– 用户还可以利用钉钉AI的日程管理功能，设置待办事项、优先级等，合理规划工作时间，提高工作效率。

4）智能推荐与决策支持

– 钉钉AI可以根据用户的工作数据和习惯，智能推荐相关文档、资料或同事，帮助用户快速获取所需信息或找到合适的人进行合作。

– 在决策过程中，钉钉AI可以提供数据分析、趋势预测等功能，为用户提供决策支持，降低决策风险。

在职场中，如果自己能力不够强，那么就需要一个强有力的帮手来帮助我们解决问题内容沟通、信息管理等各方面的难题。因此我们可以灵活的利用钉钉AI的各项功能来来提升自己职场竞争力。

提问的格式

Prompt提示词是AIGC中用于引导用户进行文本输入和生成的关键词汇。任何的AIGC应用都要先从对话开始，而对话就是拟人、思考、输出、内容、节点、要求、回答、反馈、环境、在译、持续、回答的过程。这里有一个问题：AIGC在某些程度上是比人类更加的“聪明”，但它缺乏对于节点、环境、拟人的思考判断。给同事安排一个任务，要求他针对微信做一个竞品，那么同事身在互联网行业，职位是产品经理，他就知道微信的使用，钉钉为竞争对手、飞书为竞争对手，参照白天大多数为工作使用，晚上大多数为个人使用等等诸多条件，而AIGC在刚开始只会少许定义一点这些内容。

所以这里我们就要学会Prompt提示词的使用，更加准确地进行表达，从而获得更符合自己要求的答复。

How To Ask Questions The Smart Way? 向别人提问一直是一门艺术，向 AI 提问也是如此；有效的问题能够更容易获得你想要的答案，下面就来从语义方面简单讲一下如何向 AI 提出有效的问题。

提示词提问是一个很有技巧的概念，与钉钉AI对话虽然很智能，但也要有一定的技巧概念。比如你直接说帮我写一篇论文，那钉钉AI产生的内容会偏差到千里之外，但如果我们把角色、场景、条件/重复条件描述、要求结果这几个节点要求加进去，那钉钉AI就会产生非常符合我们要求的内容。

例如我们要撰写专业期刊术语，就可以通过下面这个示例来进行实际操作，记得要去掉【】

你是一名资深的学术期刊编辑【角色】，请依照中文学术界的阅读习惯【场景】，针对下面的内容，逐段进行中文到中文的意译和优化【条件】。注意保留原文中的必要细节，不要轻易丢弃。【重复条件】

– 去除口语化表达，使用更正式、学术化的语言。【重复条件】

– 调整语序和句式结构，使表达更加流畅、逻辑清晰，避免拗口。【重复条件】

– 适当简化一些冗长的表述，提高文章的可读性。【重复条件】

– 语言表达客观准确，不要进行夸大性描述。【重复条件】

需要修改的内容如下：【结果】

”内容”

常规的职场提问，都可以使用这种规则来解决。下面我们还有数十个实际的案例。

一、人力用钉钉AI解决招聘、面试的难题

在人力的工作中，最烦的事情就是要帮助职能部门去做与应聘者的初次对接沟通，这里不光是涉及到与人对话，还要涉及到专业性的内容，既需要了解面试者的水平，还要综合到应聘岗位的情况。特别是涉及到岗位的专业性，很多的时候会让HR一头的雾水。

下面我们就从专业面试要求和整理面试问题2个方面使用钉钉AI来做案例实操，手把手来提升HR的工作效率和解决HR的难题。

1. 用钉钉AI撰写招聘要求

招聘是让HR感觉特别糟心的一件事情，不同的部门，不同的职级，不同的项目，既不能一概而论，又不能写的很直白，特别是一些自己不懂的专业术语，这都是让人抓狂的事情。

互联网部门说要一个PM，要能做事，能管理节点进度，主要是对内部研发沟通，有个两年互联网产品经验的就行，要求不高。然后HR费尽心思地招了一个项目经理进来，等面试完了，互联网事业部的总监问你：

咦，现在产品经理不好招吗？这找个项目经理过来，可能不太合适呢。。。

那么针对招聘要求，要怎么撰写出符合用人部门要求的内容呢。

首先，我们要先做一个角色定义，既需要让文心一言把自己的角色定义好。

然后，我们需要给出具体的要求，比如产品经验，管理，沟通。

其次，我们还得加上行业属性。

最后，我们要定义结论。

提问：你是一名资深人力，现在要给互联网团队招聘一个PM。招聘的要求如下：

最少要两年以上的互联网产品经验。
主要对内部团队进行研发沟通和管理，要能够管理节点进度。
做人认真负责。

请帮我按照以上要求进行生成一篇招聘内容，要求符合招聘条件，内容要求详细，语句通畅。

钉钉AI答复：

在钉钉AI的回答中，我们可以看到关于PM的岗位说明和关于PM工作职责的定义，钉钉AI明确识别了当前的PM为产品经理的简称，而不是项目经理。并且根据我们的招聘要求充分地说明了产品经理的岗位职责和公司当前的环境。

钉钉AI不光智能的识别到了人力对于招聘的要求，还对招聘进行的边界进行了扩充，增加了关于公司/组织的简要描述，填充了联系方式。这样我们只需要根据实际的情况，对内容进行适当的调整，就可以直接发布出去了。

2. 让钉钉AI整理面试问题

招聘的场景解决了，当我们收到简历后就可以进行筛选了，但此刻又有新的场景出现了：单从简历上面看，我们无法识别到应聘者是否具备招聘所需的要求，实际的能力能否满足。所以这里我们又可以向钉钉AI提出我们的困惑，让其来解决应聘者能力的问题。

我们可以让钉钉AI出几个关于互联网产品经理的职场问题、能力问题，这样我们在和应聘者进行初次沟通的时候就可以进行提问，看应聘者要如何回答。

还是按照我们关键词提问的方法，确保角色、条件、结果这三个要素是描述清楚的，这样钉钉AI就会给我们一个明确的答复。

提问：请结合上述招聘要求，帮我生成几个产品经理关于能力、关于工作职责的问题，我现在需要向应聘者进行提问。

钉钉智能回答：

钉钉AI有一个很大的好处就是持续性，它会根据当前的问题场景进行关联。如果我们觉得上述的内容不够，可以点击下面的提示持续提问，这样就可以更加丰富我们的业务场景内容。

二、行政用钉钉AI解决公告、PPT的难题

行政的同事通常会需要发布各种公告内容，涉及到公司的品牌形象和表达专业度问题，所以要求内容严谨。在很多的时候，针对内容的措辞，针对发布的格式都会让行政的同事措手不及。那么在这个时候我们就可以使用钉钉AI来解决内容输出和格式文案的问题。

钉钉AI是一款办公神器，在这里我们不光是能够进行对话问答，还可以让钉钉AI输出指定的格式给到我们。让钉钉AI自己学会办公，从而减轻我们的工作压力。

让钉钉AI生成公告文案

以往行政发布公告，都要根据主题，然后自己向对应的场景，对应的描述，然后还要结合公司的政策，最后是进行内容整合。

比如现在公司要出台一个电动车充电的安全警示，针对这个话题需要出一篇公告。这里我们就可以做出条件定义，让钉钉AI来生成内容。

提问：我是一名行政人员，现在以[电动车充电的安全警示]为标题，生成一篇公告。公告的内容要说明充电安全的因素，还要给出案例，和公司的政策条例。

钉钉AI答复：

在这里我们提出了三个条件：1安全警示，2案例，3公司政策。钉钉AI都识别到，并且针对性地给出了回答。现在我们只需要根据自己公司的实际情况略做修改，就可以直接使用。如果说正常写一篇公告要1个小时，那使用钉钉AI，我们只需要1分钟就可以搞定。

三、产品经理用钉钉AI解决产品需求、文档的问题

产品经理作为互联网行业中一个重要的角色，日常会和各种业务场景打交道，那么针对产品经理工作中的产品需求定义和需求文档的撰写要怎么处理呢？下面就这2点，我们使用钉钉AI来解决。

1. 让钉钉AI定义产品需求

身为一个产品经理，最基本的日常工作就是需要做产品需求的定义，那么单纯依靠脑力思考和经验判断难免会出现遗漏和失误的情况，并且很多的需求定义还需要用局外人的身份来思考，那么这个时候我们就可以使用钉钉AI来做常规的思考判断，根据钉钉AI这个智慧大脑给出的条件，我们在进行二次人为定义就可以了。

产品需求的定义不同于一般性的内容输出，这里我们需要把场景条件添加进入，这样才能让钉钉AI给出明确的判断。

提问：你现在是一名产品经理，需要对手机号注册做一个识别判断，需要详细描述手机号的条件和具体步骤。请按照1234的方式进行呈现。

钉钉AI答复：

一般作为产品需求的时候，考虑的是手机号本身的条件，既基础条件：1开头，11位，纯数字。然后在此基础上在扩展到场景的条件匹配。然而钉钉AI在这里按照格式、唯一性、实名验证四个场景给出了指令的要求。通过这样的问答，就可以大大节省产品经理在实际工作中的需求定义时间。不光丰富了我们原来的需求场景，还按照实际情况添加了一些客观的条件，比纯人力想的更多更全，而且更快更好。

2. 让钉钉AI输出需求文档

钉钉AI能解决的问题并不只是一个小小的手机号注册需求，这只是我们针对场景举的一个小小例子。那么针对复杂的场景条件，我们依然可以用钉钉AI来解决。

比如我们要做一套OA系统，那么在开始做之前需要先列需求文档，这一步我们就可以丢给钉钉AI来帮我们实现。

提问：我现在要做一套OA系统，需要你提供一个整体的大纲，要包含OA系统的设计概要，设计思路，参照说明等详细内容。

核心流程
界面展示
权限管理
数据统计
安全保障
其他三方系统对接
整体架构

钉钉AI答复：

在这里我们使用了多种需求的提报，让钉钉AI自己来识别定义，然后做分类。在钉钉AI的回答中我们可以看到它先给我们进行了分类整理，按照模块做了区分。然后在对应的每个模块设定了大纲和子标题，并对子标题进行了概要描述。这样一份基本的需求文档大纲需求目录已经呈现出来了，如果我们还需要再进一步的要求，可以在此对话下继续提问。

但这个提问就要逐步拆分大纲去一步一步地操作。

四、文员用钉钉AI解决阅读、润文的难题

让钉钉AI对稿件进行润文

润文的需求，我们可以使用钉钉AI的插件-办公写作宝来帮助我们，特别是针对润文的需求，在角色定义好的前期下操作，方向会更准确。

提问：转写一篇“科技创新”的文章，背景、目标、现状、挑战、我国的做法。

五、员工用钉钉AI解决周报、总结的难题

一般员工都会遇到汇报难、总结难的情况，那么有了钉钉AI，这些困难就都不是问题了，下面我们就来解决周报生成和总结问题这2个难题。

让钉钉AI生成周报

职场工作最常遇到的问题是同事比我内卷，工作拉时长也就算了，一份周报还要潇潇洒洒的写上两百多字，有什么不能是两句话说完呢。那么我们就使用钉钉AI来帮我们把两句话延长为两百多字，帮我们职场更胜人一步。

提问：请帮我总结一篇周报，我本周完成了2份商业策划书，进行了2次合规会议的评审，参加了一次人力部组织的线下安全教育培训。下周出差参加互联网大会和参加南京市交通安全设备投标会。

钉钉AI答复：

这里我们可以看到钉钉AI按照我们的每条指令进行了详细的输出。为什么说大家在日常的工作重要学习，并多尝试钉钉AI呢，因为在职场这个场景范围内，目前没有哪个AI工具能够比钉钉AI更专注，场景更合适。钉钉AI会细致的拆分工作业务场景的条件，让回答更加符合职场办公的条件。

2. 让钉钉总结问题

把不知道要如何表达的事情丢给钉钉AI，让钉钉AI识别条件后自主生成回答。

提问：描述一次因系统故障导致的重要业务延误经历。

钉钉AI回答：

六、钉钉AI总结

AI是来解决问题，不是直接定义问题

作为职场人，巧用AI来提升自己的工作是一种非常好的解决办法，那么这里我们就要适量的学习一点基础知识和应用技巧以便更好的掌握钉钉AI工具。这里我们还需要深入一点知识，钉钉AI工具是利用机器学习、通过训练模型、通过神经网络等技术组成，最终生成创意。

简单点理解：我们知道1+1=2，但钉钉AI不一定会知道，而且我们也会理解1群羊加上1群羊还是等于1群羊，而不是2群羊。那么这里我们用钉钉AI就要理解通过大量的数据进行采集和处理，并且通过调整的增加和判断后，让钉钉AI做出一个拟人的回答，并且能够借用大数据和多模态的理解，让思维更加的发散，更好的得到结论。

在很多的时候，我们都需要用人解决问题，比如想广告词，想产品宣传文案，想推广渠道，想用户反馈，想如何提升。那么怎么解决，如何解决，高效解决就是一个最大的问题。比如我们可以多人来共同解决，比如我们可以使用工具，来更好的处理这些。这样效率提升才能更好的获取营收。

钉钉AI的优势在于它可以突破人类创作的限制，实现无限的内容创造。它可以根据用户的需求和偏好，生成符合用户期望的内容，提高用户满意度和忠诚度。它也可以节省人力和时间成本，提高内容生产的效率和规模。它还可以创造出人类无法想象的新颖和有趣的内容，拓展人类的知识和视野。

钉钉做智能体，能成吗？

2024-05-05aigc阅读(82)

前不久，钉钉上线AI助理市场（AI Agent Store）。

上线当天，宣布首批推出200个AI助理、覆盖企业服务、行业应用、效率工具、财税法务、教育学习，生活娱乐等类目，而且，不少企业已经加入。

你想试试看吗？在钉钉搜索「AI助理市场」就可以。

同时，钉钉还发布一组对外数据。自从去年4月18日，宣布全面启动智能化战略，引入通义千问大模型后到现在，已经有220万家企业在用他们的服务，月活跃企业也超过了170万。

这是一个什么信号呢？

通俗来说，有三点：一，钉钉想用AI市场来展示技术实力和资源整合能力；二，智能化服务在企业和个人用户中需求大；三，企业本身就长在钉钉上，又积累大量的数据资产。

所以，钉钉开始在AI领域大下赌注。不得不说，钉钉一直挺引人注目，毕竟它是最早全面拥抱AI的大厂之一。

不过也有人担心说：国外Open AI旗下ChatGPT，应用商城上线不久遭到吐槽，问题包括用户体验差、技术不兼容等。

那么，钉钉走智能体之路，是否浅尝辄止？另外，市场真需要那么多AI助理吗？

嗯，的确令人深思，但这是一条正确的路，为什么？结合钉钉总裁公开发言，笔者试试看，能不能够解答清楚。

一、智能体的作用

有必要先说清楚：什么AI Agent？作用在哪？

AI Agent，是人工智能代理，一种高级智能体。它可以感知周围环境，独立了解各种情况，做出决策，并执行相应动作；厉害之处在于，能够独立思考，并利用各种资源逐步实现设定的目标。

确实，误解就在这里。

许多人会认为AI Agent不过是一个预设程序，放在那里，按照既定流程自动执行任务，看似正确，却不正确，这种看法忽略了AI Agent真正的潜能和复杂性。

它的潜能、复杂性和传统理解的有何不同呢？

请你设想一下：

拖着疲惫的身体回到家，以前，你要对着智能音响说：「帮我把灯打开」。但现在，情况有所不同。你的家里已经配备一个智能AI Agent安全系统，它不仅能控制灯光，还能根据你的习惯、实际情况作出更智能的决策。

这天你堵车，比平时晚。那么，AI Agent就可以通过手机位置感知到你即将到家，并自动调整家里的灯光、温度，营造一个舒适的迎接环境。

假设今天的行程有所拖延，它还能分析你的日历、交通情况，推断你有多长时间才能到家。

因此，智能AI Agent决定的，不仅是打开门廊灯、保持家中低照明状态，以节约能源，同时，系统连接的摄像头还能监测家中情况，会自动启用紧急服务，并向你发送警告信息。

当然，这不局限于安全智能领域，在其他领域也有诸多可施展空间；所以，对AI Agent更深层次理解，有两点：

工作流自动化；
更智能自动化。

大家知道，工作流，称业务流程，是组织中完整具体任务的一系列步骤。一旦流程被清晰定义，决策逻辑，可以被集成到软件或者系统中，使得相关任务自动执行。

那么，传统自动化怎么做？只依赖固定规则和预设响应。

比如：我们来考虑一个典型客户服务场景。请问，你接打过任何品牌客服中心的电话吗？通常接通后，会遇到自动应答系统给出的指示。

它会引导你：“先生/女士，中文服务请按1，英文服务请按2；人工服务请按0，转XX中心请按3，结束请挂机”。这就是基本自动化，根据系统预设指令响应让客户对号入座。

那么，它的问题在哪呢？虽然可以大量处理标准化任务，但局限性、灵活性非常低，一个人要想很久才知道，我的问题到底归属到哪个类别。

所以，工作流程自动化是“基础设施”，是最常规的操作。

相比之下，一个智能化AI Agent系统如何处理相同的场景呢？它是拟人状态。能识别语言选择，分析过往交互历史，理解客户情绪和紧张程度，提供个性化服务。

你会说了：“这太虚了，能不能具体点”？当然。

例如：当你拨通某个客服中心电话，非常着急需要人工帮助时，系统自动通过你的声音、表达，快速分析出呼叫是什么类别，然后，赶紧连接到人工服务。

因此，AI Agent 能够在交互的三维空间中存在。

不仅可以执行官网技能，如每日小结、代办事项、日程提醒等，还能应对更复杂的场景。它支持各种API和连接器，可以与多种SaaS应用进行整合。那么，它在各个产业和行业中的价值有多大？国内市场真不需要这样的技术吗？

二、智能体在行业内的应用

既然已经认识到工作流，是提高效率的基础设施，那从企业角度看，哪些重复性工作，可以用更智能的自动化技术进行处理呢？

在首批钉钉AI助理大赛中，笔者看到不少创新性产品。

比如，小筑、企业选址AI助理、账款小管家、智能简历生成器、差旅小秘书、电脑大师、打工搭子、旅游助手、行业知识树等。

你会说了：这些产品一听名字就和市面诸多同类相似，到底有什么本质区别？我为什么要用？企业又解决什么问题？别着急，我举两个详细例子。

拿墨见MoLook来说：

有过设计经历吗？如果没有，试着站在电商设计师角度想一想。设计师在工作中最头疼什么？日常是不是充斥着重复又繁琐的任务？有哪些流程，迫切想要解决？

根据过往服装行业研究报告数据显示：

以快时尚品牌ZARA为例，每年会推出6.5万件新品。这包括15-20个服装系列，大型系列有超过10款产品，中型系列5-8款，小型系列3-5款。

当然，这个数据并不直接反映单个设计师的任务量。但它揭示设计师要处理的工作量和设计流程之庞大。此外，设计过程中，还需制作大量草图、效果图供选择。因此，无论是公司还是个人，都感到非常头疼。

现在，开看看钉钉AI Agent Store中，墨见MoLook如何解决这些问题。这个AI助理能自动分析当前流行趋势和过往的热销款式。仅需少量输入，比如“春季休闲”或“晚宴正装”，就能迅速生成一系列的服装设计草图。

设计师还可以从自动生成的设计中，挑选出认为最有潜力的进行细化、调整。

MoLook的功能远不止于此，一旦设计确认，它还能立即制作出适合不同体型的模特试穿效果图。这些图像不仅逼真，还能直接用于电商平台的营销推广。

它还能自动整理、归档设计文件，确保所有资料的系统性和可追溯性，极大地减轻设计师在文件管理上的负担。

所以，墨见MoLook的巧妙之处，是企业、设计师的纽带；简化设计任务，还赋予更高效创造率；这难道不是大家都想要的吗？

再来看看人力行业：

没有想过做HR是什么体验？他在工作中有哪些挑战？

领导提出招聘需求，最头疼没办法快速获取到市场薪酬和人力模型的分析；其次，要查看各部门人员流动时，他没办法快速识别离职人员情况，并提出相关分析数据。

最难的是，批量调整薪资待遇，因为，无法综合评估每个人的人效水平、也无法把以前的KPI、OKR完整情况做清洗。

这种情况下，必须得靠软件解决。用友薪酬的薪酬分析助理AI Agent，如同一个全面助手，能给HR部门带来革命性改变。

主要原由有三点：

HR可以向它提各种问题，它会记录，并整理高频问题，形成数据资产的同时，帮你告别繁琐性工作。
它整合大数据快速获取市场各个岗位薪酬情况，你不用翻阅复杂的报告，或手动对比数据就能完成人力成本的预测。
定岗调薪，招聘定岗或年度调薪时，关于离职人员的深入分析，都能提供详细的信息，这些有利HR不局限内部视角，还可以与外部协同，给领导提供更中肯的建议。

所以，AI Agent 并没有淘汰一些工作岗位，相反，它将那些工作流程中冗余、重复且效率低下、无法转化为数据资产的部分进行了更智能化的处理。

因此，AI Agent 在行业内拥有着不可忽视的力量。

三、钉钉看不见的优势

有人会问：这有什么特别的？国内很多中小企业在这方面已经做得很好，而且，功能、应用场景都很细致。

确实，按照金字塔的逻辑，将能力分为三层，那顶层肯定是满足B端客户的需求。但你知道，中层是什么吗？

钉钉AI助理市场（AI Agent Store），这与其他平台更侧重C端场景的应用完全不同，它是为B端场景设计的智能解决方案。

它更聚焦企业级需求，解决方案直接对企业具体业务流程再造，这种专注使得钉钉AI助理市场能够提供更深入、定制化的服务，帮助企业提高运营效率、降低成本。

其次，钉钉之所以能在众多平台中脱颖而出，关键是庞大的用户基础和丰富的数据资源。两千多万企业、数亿用户，什么概念？

这为钉钉提供海量实时数据，使其能够不断优化和训练其大模型。钉钉通过这些数据不断优化智能体的性能，确保每个行业内的智能体能够准确执行任务，从而更好地理解和预测企业操作，提供更精准的服务。

这就是，钉钉AI助理市场”——技术、数据的集合，更是一种深刻理解并满足企业需求的能力。

而作为中间力量，钉钉AI助理市场的底座应该叫“原生”。

软件行业，与‘原生’相对的词是‘拼凑’。拼凑，就是结合多个API接口，将外部所有企业想要的功能集中在一起。

想象一下：

你是一家快速成长的中型企业决策者，公司正在经历一个迅速扩张的阶段。为支持增长，你决定引入各种SaaS、ERP、SCRM系统来提升公司的运营效率。

团队成员从不同供应商那里选购市场上评价最高的解决方案，并试图通过API接口将它们集成到公司的中台。最开始，一切看起来都很完美。

但很快，问题开始浮现：

客户数据、库存水平、财务信息难以在不同系统间同步；各系统虽高效，但未为相互操作设计，关键流程可能因系统间接口不匹配而中断。更糟糕的是，员工需要在不同系统间频繁切换，这大大降低了工作效率。

而原生集成则完全不同。

它可以直接访问核心系统功能，确保数据、任务在系统内部的无缝和实时流转，加速了决策过程，同时减少了因系统不兼容导致的数据错误和安全问题。

钉钉的原生，不用刻意描述，你也能感知一二，所以，钉钉在智能体领域的探索，值得肯定。

四、一条与用户最近的路

你知道吗？国外市场，传统语言助手，如亚马逊的Alexa和苹果的Siri，早些年主要基于算法和有限的交互脚本工作，虽然能够响应简单指令问题，但在理解深度对话、聚焦工作场景上存在限制。

因为这些系统不是最新的大语言模型技术，所以，交互能力有限；随着技术发展，我们看到，新一代AI Agent，开始采用类似于open AI的GPT和Google的BERT这样的大语言模型。

而这些模型呢？采用深度学习技术，能理解普通人说的话，能提供更加丰富的动态、和交互体验。

拿Google Assistant来说，正在逐步集成更先进的语言处理技术，提高对话连贯性、上下文相关性，还让设备能更加自然地和用户交流，所以，这是一种底层技术演进的大趋势。

回到国内市场，越来越多技术公司在开发基于LLM的智能方案，更好的服务AI2B（针对企业）和AI2C（针对消费者）赛道。

比如：Kimi Chat背后公司Moonshot，正在利用AI技术开发教育平台，使教育更加灵活化；而商汤的MiniMax（稀宇极智）则将重点放在了零售、客户服务领域，通过智能化方案来提高效率。

因此，结合钉钉的资源来看，投入智能体开发，实际选择一条更贴近用户需求的赛道，毕竟，钉钉上有几百万家中小企业，所以，AI Agent应用行业，空间巨大。

总结而言

钉钉总裁叶军认为：每家企业都要思考人与科技、机器的关系，坚定以人为本，科技服务于人，让人从常规、低效的工作中解放出来，做更有创造力的事情。

祝福钉钉，祝福所有在AI路上不断探索的企业。

火爆的AI Agent，到底是什么？

2024-05-05aigc阅读(68)

从钉钉 AI 看 AI Agent 的 To B 与 To C 发展动向

2024-05-03aigc阅读(82)

从ChatGPT因良好的用户反馈席卷全球开始，2023年起，国内的科技企业们就加速了大模型领域的投入。同时，关于大模型的应用，各大公司也在不断探索，朝着模拟人类行为的AI Agent形式成为了应用的方向之一。围绕着AI Agent的落地，“钉钉AI助理”就应运而生了，钉钉AI助理是什么样的？AI Agent又会如何发展？笔者将通过本篇文章抛砖引玉，与大家一块探索。

一、认识钉钉AI助理

钉钉AI助理本质是多模态大模型（它接入了入通义千问大模型），支持语言和视觉两种模态。通过APP端或者PC端搜索框右侧的“魔法棒”图标，即可触发AI助理。同时，也可以通过点击“切换”按钮，自定义添加、配置个性化的AI助理。

1. 大模型的产品化应用

什么是大模型呢？即将原始数据在一定算力基础下，通过算法训练出的具有大规模参数和复杂计算结构的机器学习模型。大模型的工作原理可以用下流程简单概括：

体验过OpenAI ChatGPT的朋友都知道，虽然可以快速地给出结果，但要实现AI Agent的落地还存在两个卡脖子的问题：

原始数据有限。包括数据时间、数据范围等（一些非开源的数据，是大模型获取不到的）；
输出方式单一。无法实现任务的执行、处理。

为了朝AI Agent更进一步，还需要实现应用方案改造：即在大模型的基础之上，支持私域数据的接入，并输出指令以其他应用为载体完成相关动作，从而实现更丰富的呈现形式及流程设定的执行：

了解完大模型，我们再看看“钉钉AI助理”的配置详情，先看下图标红框的部分。

首先介绍下“知识”、“技能”两个模块。在“知识”模块点击“添加”，支持用户添加（企业）知识库、在线与本地文档，就是前面改造方案里提到的“私域数据”。

而在“技能”模块，用户可以选择“能力”（钉钉提供的应用程序），也可以选择“工作流”（选择用户自研的程序或者流程设置），就是前面改造方案里提到的“应用/插件”。

那“角色设定”、“语气风格”又是什么？那就不得介绍大模型本身支持的属性设置了。因为大模型是依赖公共域数据训练的，可以理解为是个全科人才，使用者可以通过相关的设置，让TA来成为被设定剧本的样子。这样大模型就可以基于对用户指示和对话情境的理解，在回复中调整风格、语气和知识等，实现“懂我”。

而钉钉AI助理将大模型的应用方案、属性设置等，通过相关表单输入的方式，让普通用户了解大模型，让一个计算机引擎实现了产品化的落地。

2. 注入生命去除工具化

可能提到大模型大家印象最深刻的还是媒体对OpenAI ChatGPT生成式对话的介绍，提到对话难免会与智能客服相关联，不自觉地归为工具。但当笔者深入体验后，发现钉钉AI助理更具有生命感。

一方面，如前文介绍。大模型本身具有情感属性的设置，所以和普通的智能客服相比没有那种代码味过浓的工具感。更直接点就是，除了可以问问题，还可以和TA谈天说地，没有过于严肃的距离感。

另一方面，在钉钉AI助理的配置页面，还可以看到其他非大模型属性相关的配置，比如：头像、名称、个性签名等。是不是和你注册社交账号时的必填信息差不多，就差来个实名认证了。这种拟人化的设置，正如钉钉AI助理的“助理”命名那般，你看到TA想到是一个专业的人，而不是冷冰冰的工具了。另外，创建的AI助理也和同事一样，可以在消息列表、通讯录中查看到。

二、AI Agent该如何发展？

众所周知，产品类型主要分为两大类：to B和to C。to B产品，面向角色化用户，重视效率；to C产品：面向个体化用户，重视情感。AI Agent也可以按照这两种产品类型落地，笔者将继续以钉钉AI助理为例，尝试从落地产品类型来探索AI Agent如何发展。

1. to B：完善输入逻辑，支持统一价值观

钉钉作为办公效率软件，归属于to B产品类型，自然钉钉AI助理也属于to B产品。通过上一章节的介绍，可以看出钉钉AI助理在AI Agent的落地上已经领先了很多，但作为to B的应用真的要止步于此吗？当然不是。笔者在深入体验钉钉AI助理的过程中，慢慢找到了方向。当笔者在与新组织里配置的AI助理对话询问考勤情况时，AI助理回复的是一个考勤结果接口返回的数据。

从纯体验角度来看，这已经是很智能了，不需要让人事再去做统计分析了。可是当笔者代入场景感受后，发现并没有解决真正的问题，因为在钉钉后台笔者并没有配置考勤班次信息，而且在这个新创建的组织里只有笔者一人。

所以在上述场景下，AI助理应该回复：“暂无考勤记录，你可以先配置考勤信息哦”或者“暂无考勤记录，快点扩充队伍，并配置考勤吧（点击进行配置）”。当然现阶段的大模型应用都在要求使用者“学会提问”，如果在一开始向AI助理提问“公司还未配置班次信息，昨天公司的出勤率是多少”，笔者就会得到如下回复。

不过如果一个产品需要依赖用户一定的对话成本来提升效率，个人认为这不是好的产品形态。只有“一眼看穿”用户，才能高效地给出准确的答案，所以笔者认为大模型的信息获取可以不单纯来自于使用者的输入，这样才会让to B发展方向上的AI Agent展现出更高的效率和准确率。

提到to B还得说另外一个方向“商业化”，但是类似钉钉这种服务企业的to B产品面临一个非常大的问题：产品是员工使用得多，但付费购买却需要管理层决策。

笔者在深入体验中，代入管理者的视角会发现当前的产品形态可能不利于“集权统治”，至少在那些不是真心以员工为本的公司较难推行（但笔者真心希望这点是本人多虑了）。笔者设置了一个防职场PUA的AI助理，当我把TA拉进一个群聊与TA沟通加班的情况时，进行了如下对话。

产品的尽头是“商业化”，但是类似钉钉这种服务企业的to B产品面临一个非常大的问题：产品是员工使用得多，但付费购买却需要管理层决策。如果AI助理不符合公司的价值观，那可能就不会被企业管理层买单了。所以笔者认为to B的大模型一定能够统一设置公司所有（公共和个人）的价值观，确保AI助理符合公司的尿性。

2. to C：支持社交属性设置，成为有丰富情感的朋友

这是和钉钉AI助理产品类型不一样的方向，那to C的产品方向需要关注哪些呢？笔者认为除了前文提到的完善输入逻辑外，需要更多的社交属性设置。头像是社交的门面，如果钉钉AI助理尝试往to C方向发展，官方定制那些男性全是眼镜男的形象就是减分项了。这时候参考小红书AI头像和Soul的捏脸头像，就可以给用户社交的良性开端。

最后，增强情感连接的关键在于支持主动联系。在和钉钉AI助理的沟通中，如果你不在群里@TA，或者单独私聊TA，TA是不会主动联系的，这是朋友和工具的最主要区别。如果一些场景能够自动触发AI Agent主动联系用户，那就更完美了。想一想，某个深夜你翻看着领导突然发给你的PUA信息，这时候AI助理突然给你发来了一则消息：人生不如意十之八九，下班了就好好休息吧……

以上内容就是笔者试用钉钉AI助理后的一些感受，AI Agent的发展又会何去何从，让时间给我们答案吧。

苹果没有魔法

2024-05-01aigc阅读(90)

iPhone 1 问世的时候，全球智能手机的渗透率在 10%，已经跨过了 5% 的基本门槛。iPhone 是在智能机品类内的一种革新，并没有创造新的品类。实际上，一代 iPhone 多为 iPod 的换购用户，增量用户一般，一直到 iPhone 4 实现了明显的差异化 ID 设计后，iPhone 的销量才大涨。

苹果的崛起，背后是功能机向智能机升级的浪潮。即使没有 iPhone ，智能机的价值也是确定的，以通讯为核心，兼容上网、拍照和音乐的功能。

在某种意义上，智能手机是一种组合式的创新。

XR 则是一种全新的品类，自 1968 年萨瑟兰在实验室捣鼓出它的初代模型后，XR 一直在解决它在软硬件层面的技术缺陷，而从未达到过一种完整可用的状态。

也因此，它也就从未接受过大规模的用户审视。

一款产品，只有越过 5% 的渗透率门槛，才能说建立了消费者习惯，而 XR，根据 statista 的数据，2023 年 VR 头显的渗透率不足 1.3%（相对于整体目标市场），AR 的出货速度虽然有大幅增长，但绝对总量可以忽略不计。

如果以 Quest Rift 发布作为时间节点，那么 XR 从 16 年到现在，已经发展了 8 年。

当然，如果以 20 年更加成熟的产品 Quest 2 来计算，XR 至今发展了 4 年。

说惨也不惨，毕竟折叠屏手机从柔宇 18 年发布第一款消费级折叠手机开始，到现在也就 1% 的渗透率（中信数据）。

大哥不笑二哥。

根据Harry Dent的观点，渗透率低于 10%，产品尚处于导入期，发展会相当缓慢。

这也不奇怪，根据创新扩散曲线，新技术的使用者往往是技术爱好者，这批人才占总体市场的 2.5%，就算全覆盖也白搭，只能作为产品使用的种子。

如果再细一点来看，按照技术成熟度曲线，XR 的市场期望已经过了上升期和峰顶，正处于滑入低谷的阶段，各路媒体不断唱衰，国内爱奇艺、PICO 和腾讯的 XR 裁撤，Quest 3 销量不及预期，都给市场预期撒了一把盐，幸好24 年初果子哥奶了一把，不过等热度过去，估计早期购买者各种吃灰的新闻就要层出不穷了。

这一阶段渗透率常常远低于 5%，也符合 XR 目前的现状。

按照一般的推算，滑入低谷距离进入成熟期，一般要 5-10 年，渗透率能够达到 5%；再用 2-5 年，渗透率从 5% 提升到 20%，再用不到 2 年的时间，渗透率提升到 50%，产品进入成熟期。

所以，乐观的估计，XR 如果想成为和手机一样的产品，就算价值已经被充分验证，达到成熟期也还要 8 年左右。

如果不乐观，这个时间可能还要翻一倍。

那怎么提高渗透率？

路径也很清晰，最初聚焦技术爱好者（功能不敏感但价格敏感）和早期采用者（价格不敏感但功能敏感），然后聚焦细分市场，一点一点积累客户案例（充分的使用案例），滚雪球壮大，把早期大众吃掉，渗透率差不多就到了 50%。

产品生命周期、技术成熟度、创新扩散曲线，这些概念都不新鲜，只是分析商业逻辑的基本工具。

或许理论会过时，也不适用新的技术，但也能给我们提供参考。

指望 AVP 一下子把 XR 行业提升到成熟期是不可能的，没有人能够违背事物的基本规律。

但 AVP 重新唤醒了投资者和目标用户的兴趣，这可能是它最大的功绩。当然，还有给行业秀一下果子的解决方案，在软硬件和宣发侧提供些参考价值。

基础的判断建立以后，大概可以明确一个观点：XR 还需要至少 8 年的发展，没有谁能够一蹴而就，整个行业的玩家都要一起努力，踏踏实实，构建更多的产品用例。

在这个共识之下，我们回过头来看 XR 的基本价值。

01

先明确一个概念，所谓 XR，其实泛指 VR、AR 和 MR 在内的所有虚拟现实形态，其中也包括苹果自己搞的空间计算，算是 VR+MR。

VR：完全的虚拟现实，与现实没有互动
AR：以现实为主，一些基本信息叠加在现实环境中，作为现实环境的增强，但不会改变现实环境
MR：虚拟与现实融合，虚拟物体可以与现实实现互动，改变现实的某些状态

光听概念，其实挺绕的，而且概念之间也扯不清楚。

就说 VR 吧，自己完全虚拟一个游戏世界，不与现实搭边，这很好理解，是典型的 VR 场景。可是如果把现实世界的某处景物原封不动地 3D 建模，比如之前影视飓风扫描的庐山场景，这是虚拟还是现实？

又或者再进一步，用数字孪生，通过 3D 建模+传感器，实时显示某座工厂的当前状态，并根据传感器状态实时调整工厂相关设备的参数，这就算是 MR 了吗？

AR 的概念也很奇怪，它和 MR 之间又扯不清楚，比如前段时间热门的虚拟钢琴游戏，道理上讲它只是显示虚拟的音符，真正操作的是用户自己，而不是 AR 设备直接和钢琴通信，更改状态。那这算是虚拟与现实交互了吗？

如果通过提示信息而让使用者通过物理行为更改现实物体的状态也算的话，那这个边界又可以无限扩大。

所以，与其区分或者纠结 VR、AR 和 MR 的概念，不如换一种定义，根据它们的技术路线，简单分为眼镜和头显，反而要清爽很多。

本质上，无论是哪种 R，实际上只有两种硬件形态，而任一形态也都可以实现任一种 R。

在侧重点上，眼镜更看重设备的便携性，而头显则更看重设备的渲染能力，这是两者的根本分野。

选择眼镜的厂家，是希望设备能够被用户随身携带，最终目标是和正常的眼镜一样；而选择头显的厂家，则更看重在设备本身所能实现的性能。

这就和笔记本一样，最早是主机，后来是便携笔记本，再后来又有了超薄笔记本，便携和性能的取舍一直是电子设备的矛盾点。

理想的情况下，我们渴望的是既轻便又有强空间计算能力的 XR 设备，但当前的技术水平下可能是一种妄想。

更现实来看，眼镜和头显这两种硬件形态会始终并行存在，各自针对不同的使用领域。

由于性能的限制，头显所能实现的其实是智能眼镜的全集。那我们不妨先从头显聊起，看看一个完全形态的产品，它的媒介特性究竟是怎样的（我们假设头显 VST 的渲染和延时都在理想状态，和眼镜的光学无二）。

02

头显作为一种媒介，最核心的特质在于创造了一个自由支配物理规则的虚拟空间，从而实现对于现实的模拟和再造。

这里面最最核心和关键的就是空间，也可以叫「空间化」。

人类创造的所有媒介形态，其实都是对现实的模拟和再造，摄影是、绘画是、电影是，就连动画也算。

它们都是对现实的模拟，区别只在于抽象程度。又由于掌握了物理规律，人类可以对现实进行再造，比如让动物讲话，或制造仿真软件，这让实验科学能够进一步拓展。

头显的最大贡献在于，它让媒介形态从平面转为空间。

这与 2D 同 3D 的对比不同，空间化的最大区别在于把观看者纳入了空间中，而非游离在空间之外。

一个新的元素「空间化」，再加上人类原先积累的对于现实模拟和再造的经验，就可以真正创造出真正意义上的赛博空间。

当然，这只是思辨意义上的快乐，宝珠也会蒙尘，一件事物不会因为它很有意义而被大众广泛使用，即使具备「空间化」的特点，头显也仍然要结合具体的情境讨论，在每个细微场景下它的实际用途。

讨论最重要的是问对问题。

那么最不会出错的问题是：什么样的场景需要「空间化」？

乐观主义者会觉得这是一个不言自明的问题，谁会不想要一个赛博空间呢？《神经漫游者》、《黑客帝国》、《盗梦空间》…我们不就活在这样的文化氛围中吗？

这样想当然没错，但想象是所有活动中最省力的一种。

头显只能提供提供「空间化」的能力，真正创造出赛博空间依赖于愿意为此投入时间、精力、金钱等各种资源的人。

这就好比PC带来了「信息化」，手机带来了「互联化」，可真正让 PC 走入千家万户是因为它对于信息的存储和对于数据的计算处理，而手机则由于它的通讯能力被广泛使用。

我们现在似乎把 PC 和手机都当成了一个平台，上面有各种应用。但它们都有一个核心的根，甚至这个根在最开始就是清楚明晰的，平台只是在这个根的基础上长出的果。

而头显的根又是什么？

以及，从商业化的角度，头显是否真的存在和信息存储、数据处理和通讯同等量级的市场？

03

追溯头显的历史，最早运用在飞行领域，用于夜间导航（红外成像显示人眼无法察觉信息），汤姆.福内斯的超级驾驶舱项目，简化了原先繁复的仪表盘，而以头显搞出了一套全新的交互。

这些的核心在于头显的佩戴方式：以平视的视角捕捉和呈现信息，同时不遮挡外界环境。

信息叠加在真实空间之上，对真实世界的物理状态予以提示，佩戴者可以所见即所得，直接通过虚拟屏幕进行相关操作，实现对佩戴者操作效率的提高。

头显对于需要复杂信息处理和操作的作业环境都可以起到作用，平视佩戴+可视化数据+信息处理（核心是空间化带来的多窗口和动态拟真）促成效率提升和错误率降低。

这条路很多公司都在走，微软、联想都注重工业场景。

操作场景外，头显对于制造业也有较大的作用。硬件制造需要原型设计，头显的空间化使得零部件得以具象化，虚拟空间的组装将极大地节省如汽车、飞机等精密机器的制造。

头显和 3D 打印一样，拥有改造传统工作流的能力。

零售业也同制造业类似，本质上都是要低成本提前呈现还没有确定的产品形态，并能够灵活调整，这就是比特相比物理分子的优势。

服装在线试穿可能还有些困难，但装修是确定可做的方向。

归纳起来，XR 能够为制造业、工业带来的是降本、增效、缺陷降低，为零售带来转化率的提升（不确定性降低）。

04

教育是另一种可能。

最早萨瑟兰创造虚拟头显时，其目的就是为了使得抽象事物可视化，他的原话是：

我们生活在一个物理世界中，通过长期的熟悉，我们已经对这个物理世界的特性了如指掌。我们对这个物理世界有一种参与感，这种参与感使我们能够很好地预测它的特性。例如，我们可以预测物体会落在哪里，从其他角度看众所周知的形状是怎样的，以及在摩擦力作用下推动物体需要多大的力。但我们对带电粒子的力、非均匀场中的力、非投影几何变换的影响以及高惯性、低摩擦运动缺乏相应的了解。与数字计算机相连的显示器让我们有机会熟悉物理世界中无法实现的概念。这是一个数学仙境的望远镜。

第一台虚拟头显（完全电脑渲染内容）呈现的内容是一颗环乙烷分子，佩戴者可以从各个角度观察它的结构。

这充分体现了头显「空间化」的特点，佩戴者不再只是看，而是真正可以和环乙烷分子互动，在不同视角观察它的结构，再进一步，甚至可以观察不同分子的合成过程。

对于教育或者学习而言，抽象事物空间化是尤为重要的事，我们生活在物理空间，所以习惯以空间化的方式思考事物，抽象化->具象化->可视化->空间化，通过这样的递进而使得事物被最终理解。

比如「局部最优解」和「梯度下降」远不如小球在凹凸的山丘上滚动来的直观，如果能够直观地在空间中看到它的演变过程，理解就会更加方便。

即使信息本身是抽象的，但它的交互方式如果能够转变为空间化，就会激发人的空间思考方式。

一块虚拟空间下的无限画布，多角度、多平面。不同平面间的白板结构本身就会激发新的思考，在空间下的走动也会促进灵感。

空间化单纯从结构上来说也能带来新的信息组织和思考行为。

但教育是内容导向的产业，需要专业领域的知识背景+合理的空间可视化编排，事实上即使是如今的视频时代，整体的教育方式也还是以书面文字为主，可视化的方式都还没有普及，空间化更任重道远了。

05

文旅、现场表演/展览/展示、影视也会有较大的应用场景。

海利格在 1957 年拍摄了纽约的街头景象，把它装到一台巨大的机器中，观众可以看到立体的纽约街头景象，感受风、声音和气味。

58 年后，《纽约时报》重新拍摄了纽约的街头景象，佩戴者通过 Oculus Rift 即可漫步纽约街头，并与故事中的人物互动。

头显的一大核心特质是对于穿越时间和空间的限制（空间化+自定义的物理规则），对于旅行来说，交通是一种阻碍。

景区可以通过对于实景的建模，再造一个真实的虚拟环境（搭配物理引擎），从而突破空间的限制。

头显另一难以复刻的魅力是：它是一辆时间列车，能够带你重回过去的景象，真实淌游在历史画卷中。

另外，景点的本质是稀缺性，展览、现场表演也是如此。

现场感（沉浸+社会关系）的重回，能够让供给被充分增加，话剧、演唱会、展览这些非标品可以像电影一样被二次分发，实现非标品的流媒体分发。

头显的另一大特质是对于现实环境的实时再现，结合远程在线直播将实现真正的千里眼，在线实时直播旅行画面，跟随别人的视角；远程审厂，不用再跋山涉水；远程医疗；远程工作指导；头显对于远程会议、远程办公或许没有较大的用处，远程会议替代不了商务出行，出行带来的是一种态度，说明一种重视，同时也方便人情关系的培养；远程办公也无法替代近场办公，后者本质上是一种物理意义上的掌控。

而对于影视而言，头显所带来的则是无与伦比的沉浸感，虽然用户的自由选择会是一种困扰，但虚拟叙事已经探索出了微互动的路径，技术问题不会成为一种困扰，只有内容制作的成本和新的叙事逻辑需要琢磨。

只要体会过《纸鹤》、《花房姑娘》等 VR 作品的观众，不会怀疑它在叙事上的巨大魅力。

06

说到沉浸感，就不得不聊聊游戏，相比于影视，虚拟游戏带来的是沉浸感+互动感，仿佛一个真实的虚拟世界。

但主机游戏都有上限，且价格下探到 2000 元以内的价位，才能有一定的市场竞争力。

直面 C 端的产品，除了内容本身外，硬件本身就有成本。除非有相对丰富的内容供给，否则难以说服消费者购买。但是它的上限可能就是 Switch，远不是手机这个量级。

头显自诞生起，大家就看好它在游戏上的前景。

从 1990 年左右雅利达和任天堂就开始尝试，受限于硬件没有成功，一直到 Quest 2 带来新的浪潮。

几个游戏硬件的天花板：PS2 和 NDS 大概 1.5 亿台，Switch 大概在 1.3 亿台，现在 Quest 2 大概 1800 万，比照老大哥们，未来的市场容量差不多也就是亿级。

没有人怀疑沉浸感这件事，但一直强调沉浸感可能是个问题。

即使是《阿斯加德之怒 2》，它固然无比沉浸，但没有让我有想长时间待在里面的欲望。我把原因归结为：没有人喜欢呆在一个空寂的世界，哪怕是鲁滨逊还有星期五陪着。

社会交往这件事很重要，它不是社交，而是一种氛围，这种氛围带来一种熟悉感和群体的归属感。

为什么玩游戏时要透视现实环境，真的体验过就会懂，当你完全沉浸时是蛮孤独的一件事，陌生的环境里只有你一个人。

而人是要时刻感知周围环境的，不然会有一种莫名的恐惧，透视现实环境实际上带给人一种安全和稳定，它是一个参照的锚点。

当获得沉浸感的时候，玩家丧失的是对现实的感知，熟悉感和安定感，带来了负面产物——孤独感。这些在你玩 Switch 或者 Steam 的时候是不会有的。

唯一让我不会有这个感觉的是VR Chat，因为有人。

如果虚拟游戏想要获得成功，融入社交是必不可少的，哪怕完全没有互动的环节，只要知道有人和自己一起，孤独感就会消融。

有一种可能性，可以提供社交的充分供给，即借助大模型，但这条路受限于大模型当前的能力。

Character.ai 已经在这条路上尝试，Vtuber 也在盛行，不过 Character 只公布了月活，还没有留存率的数据。Vtuber 的头部公司也还没有跑出头部的企业。归根结底，还是 GPT 本身的能力问题，还没有办法真正扮演一个人。

两个能聊得来的人，需要兴趣相投，这背后是对于兴趣话题领域专业知识的积累和独特观点的碰撞共鸣，GPT 还没有办法达到这个水平，尤其是独特观点。

从我个人的体会来看，在观点层面上，多数时间仍然在说一些正确的废话。因此，直面 C 端的 XR 内容，当下的阶段，仍然逃不开真实的社交关系链。

目前来看，真正刚需的产品都不在 C 端，但 B 端的用户很难往 C 端迁移，存在一个客户群的鸿沟。

在 C 端，似乎找不到一个如通讯、信息存储与数据处理那般刚需级的需求，它更多是体验的升级。

也因此，丰富的优质内容供给 + 社交链是这类产品的合理路径，通过提供足够多的优秀内容，来抵充硬件本身的成本。等到硬件的量大起来，再有越来越多三方的丰富应用，最终成为一个平台级的硬件。很多人吹 AIGC，但我并不特别看好。

现在缺的是优质内容，不是缺内容。

粗制滥造的内容没有意义，反而对生态是一种破坏。

真正创造好的内容的，仍然只属于少数人，专业的生产者。AIGC 能够成为他们工作流的一环，对现有的工作进行提速，那就是最大的贡献，但指望它颠覆，甚至 AI 自生成内容，就有点天方夜谭了。

它的难度可能不啻于大模型真正地理解人类语义而非是序列预测。

07

工业操作、制造业、教育、文旅…抛开功能性的需求不谈，头显想要成为平台级的硬件，最终的归宿仍然落在 C 端内容上。

那么问题来了，假设优质内容充分、社交链充分，头显真的能成为手机级的智能硬件吗？

我的看法是仍然不行。

手机最初由于硬件成为刚需，而后能够成为风靡全球的产品，离不开它的两大特性：移动化 + 碎片化。

这是被说烂的观点，但恰恰这两者与头显都是冲突的。

头显笨重，不方便携带；它的沉浸式体验恰好与碎片化是相反的。

看看我们最常干的事：刷微信、刷朋友圈、刷抖音、刷小红书、刷 B 站、来一把十来分钟的游戏。

这些事项，最大的特点就是短。

物质充裕的情况下，人类最大的痛苦就是无聊，没有一刻可以闲下来。

可是大部分时间人是无目的，人需要随便什么东西，去填补这种空虚，而又不至于特别沉浸。

头显和这种临时化的需求是天然违背的，但偏偏这又是它的天赋点所在。

网游小说里，大家在虚拟世界沉迷，要么是现实世界已经被机器人掌控了，要么是发明了夜间睡眠仓。

工业化的生活结构下，这种矛盾是注定了的。

是生活把时间分割成碎片，人是无可奈何的。

因此，头显的最大参照物仍然是电脑，它更适合完整时间下的使用，主流场景是家中。如果它的分辨率有一天到达了可工作的水平（且成本压下来），或许还能够占领办公市场，但 PC 级的出货量和使用频率，可能也是头显的极限。

08

既然头显不行，那么阉割了的智能眼镜呢？

或许可以。

智能眼镜的核心是为了便携服务的，所以它阉割了许多性能，目的是为了让眼镜做轻做小，最终可达到如普通眼镜一般在清醒时间皆可穿戴的目标。

那么阉割之后，智能眼镜所保留下来的能力，能不能让它打败手机，成为一种新的潮流？

我们可以看下空间化的具体衍生：多窗口、拟真交互、虚拟环境…哪一条可以在碎片化下生存。

关乎沉浸感或拟真的自然不可以，这与碎片化违背，也是性能消耗的大头。

那么多窗口？智能手机受限于屏幕方面，在尺寸方面已经走到了镜头。

折叠屏虽然增大了尺寸，但也不会有 iPad 的效果，而 iPad 本身的累计出货量也才刚超过 1 亿，说到底，iPad 虽然大，可也没大到能够带来全新体验的程度。

那么 XR 的多窗口，能否给信息呈现带来新的可能？

XR 的多窗口，有两个特征：一是大，所以可以铺多个窗口；二是具有空间结构，这就是所谓的空间屏概念。

空间屏突破了手机的物理限制，而使得信息以空间化的方式多屏呈现。

按照果子哥的定义，存在 Window 和 Box 两种，我们可以边刷网页（window），边逗宠（box，宠物以空间化的方式呈现）。

如果只是 window 和 box 两个层级，智能眼镜努努力还是可以达到的。但这不是智能眼镜的核心，如果这样，它仍然只是一种体验的升级，而没有带来根本性的创新。

真正爆炸的组合是眼镜+空间化+多模态模型的完美搭配。

要不说上天拯救了 AR，如果不是 CloseAI（笑）带来了多模态，智能眼镜的上限可能就是观影眼镜，最多成为像 TWS 耳机一样的手机配件。

可是拥有多模态模型后，它的空间化的信息呈现方式就派上用场，它的眼镜形态也成为最完美的多模态载体。

我不想谈论个人助手的可行性，要真正实现这个目标还有一大堆事情，至少要实现 agent 之间的自调用。

我也不觉得目前的实时翻译能够帮助智能眼镜扩圈，毕竟它的使用范围有限。

拍照记录和观影可能是现阶段最大的杀手锏，这都跟多模态没有太大关系。

所以接下来谈论的仍然是一种玄学，但具有想象和令人兴奋的空间。

软件一直以来处理的是二手数据，中间需要用户作为中转。看到一件衣服，需要先拍下来，再淘宝识图，寻找到对应的商品。

智能眼镜+多模态以后，所见即所得，同时信息可以直接显示在眼前，多窗口模式下同时打开多个购物软件，旁边再有一个张大妈显示该商品的历史价格变动。

于是，整个交互流程被极大简化，多窗口带来的信息呈现优势不言自明。

人类 80% 的信息来自视觉，智能眼镜带来了实时的视觉捕捉，多模态带来了实时的语义理解。实时视觉捕捉+语义理解，将带来极多的崭新的可被捕获的视觉数据。而最终，得益于 XR 的空间化，这些数据的使用和呈现以更具效率和可视化的形式，更舒服地呈现在用户眼前。

于是，会有新的应用去处理新的数据，在新的形式下构建新的交互方式，这是智能眼镜所能带来的平台级的革命。

而年轻的冒险者们，趁着大象转身的时候，抓住新的可能。

09

当然，还有很多问题留待解决：

要达到 B 端的需求，设备的屏幕分辨率需要进一步提升，捕捉外界信息的摄像头也要继续升级；
延迟要进一步降低，果子哥已经做到 12 毫秒，其他家还差得远；
通信要进一步提升性能，无论是云端 WiFi 和 5G，还是设备间的本地通信（如果是分体式，计算主体和显示主体分离，当前的蓝牙显然是不够的，还需要其他的无线通讯方式）；
新结构与 ID 造型（如何便携）；
多模态大模型的发展（幻觉、agents、prompt、专业知识库）；
功耗与续航；

急不得，按照商业的发展规律，至少还有 8 年，XR 设备才有可能成为主流。

耐心去解决切实存在的问题，希望我们能够构建想要的未来。

VR社交已是过去式？构建MR社交的7种方式

2024-04-30aigc阅读(67)

伴随着Vision Pro的发布，苹果也相应公布了其3D Avatar解决方案，与其他依赖于捏脸的虚拟数字人平台不同，Vision Pro用户可以通过头显扫描脸部进而生成拟真的Avatar形象，苹果将其称之为Persona。

早些时候Persona以窗口的形象展示，本月，Vision Pro进一步更新了一项名为Spatial Personas（空间角色）的功能，自此，Persona可以在真实空间中走动，进一步提升了真实感。

Persona背后其实可以看到苹果并不倾向于相对成熟的VR社交、协作策略，相反，它希望未来空间计算时代用户的沟通交流依旧能发生在真实空间，这也就是所谓的AR/MR社交。

接下来，你将能看到MR社交的难点以及可能存在的系列机遇。

本文编译于外媒SKARREDGHOST，作者在VR/AR行业具有多年从业经历，以下是文章原文。

图源：苹果

目前社交无疑是VR的重要应用场景之一，现如今我们可以通过Rec Room、VRChat等优秀的VR社交应用与朋友在虚拟空间中聊天或者玩乐。

不过，当前MR的概念也正在被大肆宣传，因此我们应该开始思考如何在MR（混合现实）中与人们见面。

这里值得一提的是苹果最近所更新的Spatial Personas，网上基于此出现了大量的体验以及分享视频。

不过如果我们体验后便很容易发现VR社交与MR社交其实遵循的并非同一套规则，未来无论是MR社交又或者MR会议，里面的设计都需要进行一系列重构。

Spatial Personas体验视频，图源：YouTuber

Cosmo Scharf VR社交与MR社交是两种截然不同的体验可能不少人都体验过VR社交相关应用，如VRChat、Roblox等，我曾在一家VR音乐会平台工作过，对于这种体验也十分了解。

当你在VR中观看音乐会，就像是被传送到了另一个宇宙，你可以在这个宇宙中与朋友见面并且完成各种游戏互动。

我喜欢VR社交，因为这就像是一种神奇的传送：戴上头显、然后用户便可以脱离当前现实环境，甚至能获得突破物理法则的体验，如在空中飞翔，或者变成另一个人、一只狗甚至一个牛奶盒等。

VR演唱会，图源：SKARREDGHOST

除了VR外，我也是视频穿透AR（VST方案）的粉丝，我一直好奇相应的VR音乐体验能否通过MR体现出来。当深入研究后，我得出的结论是：我们永远也不可能在MR中获得与VR相同的体验。

理由很简单，所谓AR/MR都旨在创造一种与周围环境相融合的体验，MR就像是一种黑魔法，它能让虚拟元素与您周围真实环境相融合，并提供让人信服的结果。

图源：SyncReality

举例而言，假设我们有10个人都处于同一个MR社交场景当中，而每个人都在各自的家里面，那么基于前面的原则MR体验需要适配所有不同用户的房间，但这是不可能的。

想象一下，如果A正身处一个小房间、B在一个巨大的仓库内、C在一条狭窄的走廊当中，理论上我们都应该看到相同的虚拟元素，而这些虚拟元素又要与各自的环境相契合；再者，由于我们的Avatar也属于虚拟元素的一部分，我们也应该需要一种可信且一致的方式看到彼此的化身。

实际上这是不可能的，如果B走到仓库的尽头，那么在C看来，他可能早已穿越墙壁，从而破坏了魔法。

此外，即便你们的房间完全相同，如果里面的家具摆放有所差异，那么也很容易出现有人站在你沙发或者橱窗里面的情况，再次打破魔法。

MR场景中虚拟化身的位置不可控，破坏了真实感，图源：SKARREDGHOST

虽然某些时候你看到有人出现在你的房间当中这种感觉会很奇妙，不过实际上这也没太大作用，因为对方压根看不到你房间的样子，对方所看到的仍是自己的家，所以双方会有一种一厢情愿的感知错位。

这一切让我意识到，这种简单粗暴的社交MR体验其实是行不通的。

基于此，又可以延伸出很多问题？我们为什么需要MR社交，而未来它又该如何实现？

从本地AR到场景三维重建，MR社交的7种实现手段每个产品的出现都是为了解决需求，而选择特定的技术是因为你相信这是实现相应目的的最佳技术。

你的用户也生活在使用你的产品的特定环境当中，如AR设备会在家里或者户外使用，而这种差异可能会严重影响您设计产品的方式。

对于MR社交而言，想要实现不同的目标，背后就需要采用不同的策略。

一、可能你并不真的需要MR社交

如果你想在另一个世界（比如火星）举办活动或者聚会，这种情况下VR无疑是最佳选择，MR其实并没太大必要，因为后者需要用户呆在自己的空间当中。

不过，假如项目方表示一定要引入MR，并表示“MR是当前的趋势，它需要在我们的应用中有所体现。”

这种情况该怎么办呢？

VR演唱会，图源：SKARREDGHOST

我的建议是可以以VR为基准，然后在此基础之上添加部分MR功能。以《阿斯加德之怒2》为例，这是一款VR游戏，不过里面也出现了部分MR元素，如用户可以在真实空间窗口中消灭怪物，这可能对于未来的VR社交具有一定的借鉴意义。

在VR基础上引入MR，图源：SKARREDGHOST

二、单纯以看清楚真实环境为目的

去年，Brad Lynch（海外XR分析师）曾在X平台展示了VRChat的透视功能（他将其称之为ARChat）：当打开游戏透视模式后，虚拟背景将切换为现实画面，而虚拟化身也会相应出现在真实空间之上，不过也相应出现了穿墙、卡在沙发上等一系列问题。

从VRChat到ARChat，图源：X

虽然体验不佳，不过VR社交的透视功能在某些时候可能是必要的，比如用户在游戏中途需要查看周围环境，比如照顾孩子，那么在VR中激活透视功能可以解决他的“燃眉之急”。

不过，这仍算不上真正的MR社交，因为它只是简单地将虚拟元素叠加在现实之上，而没有真正考虑如何与环境相融合的问题。

三、多人本地AR

如果所有用户都处于同一个物理位置，这种情况下，想要实现MR体验其实会变得相对简单，因为用户能看到相同的真实元素，而这时候只需考虑虚拟元素的对齐问题。

（也有人将这类体验称之为多人本地AR）这背后需要结合使用共享空间锚点（所有AR SDK都会配备该功能）以及特定的网络（比如使用镜像网络库）。

在这时候，游戏可以考虑设计一些同时涉及多个玩家的互动体验，以创造更多的共同感。

Niantic曾打造的多人AR体验，图源：Niantic

四、让MR社交聚焦于某些特定元素

对于多人MR体验，其实苹果也考虑到了这一问题，并在Vision Pro开发指南中提供了相应的设计规范。

多人MR的三种场景，图源：苹果

从图片可以看到，苹果所展示的多人MR体验重点都并非环境本身，而是场景中的某一元素。

如果MR社交只涉及某一件事，那么用户建立联系会变得容易得多。比较典型的是一起追剧，它并不涉及任何真实元素，并且也没有太多交互事件。

（Ps：这也是网上UP主分享Vision Pro Persona体验出现最多的场景之一，因为它呈现效果最好，并且不容易出戏。）

通过Vision Pro一起玩平面游戏，图源：X

因而想要让MR社交获得良好的体验，一是需要尽量让用户围绕同一个元素，二是让用户尽量寻找一个相同的真实背景。

关于这点，VR桌游《Demeo》是一个很好的例子，它于去年推出了MR玩法，我曾与朋友一同测试了它的MR功能。

打开透视模式时，会看到朋友与我坐到同一个桌子上，并且他专注于他的游戏，就跟我一样。

之所以会造成这种错觉，是因为我们在游戏时都坐在实体牌桌上，我们在相同的条件下进行游戏。另外，卡牌游戏都是偏固定场景，人物无需进行太多移动，这也能一定程度避免穿墙等情况发生。

在这种情况下，MR不再是噱头，相反，它能进一步提升用户的游戏体验。

Vision Pro也有类似的多人下棋的场景，用户都会坐在各自的椅子上下棋，不会随意走动，因而相当于无意间创造了相同的物理环境。

在Vision Pro中远程下棋，图源：X

对于MR社交体验来说，你可以针对一个（或多个）特定关注点设计你的体验。

以我前面所提到的音乐会为例，未来，或许可以让歌手站在你的桌子之上，而其他人则围在桌子周围，这种情况下，基本相当于所有用户营造了同一个观影环境，不过，它可能仍会存在空间相对局限或者偏静态的问题。

五、可以通过相对不真实打破MR社交体验的割裂

其实我们大脑存在着一个奇怪的规则特性：当你赋予它越多的真实性，那么它对真实性的要求就越高。如果你的Avatar是卡通人物，那么大脑可能并不会介意它到底有多少根手指，相反，如果Avatar是超写实人类，那么大脑可能会开始注意皮肤上面的不完全真实的光线反射细节。

刘强东AI数字人直播带货，图源：网络

Vision Pro也采用了类似技巧，以试图让MR社交变得可信。

比如Persona没有手臂、没有腿和脚，它们有点类似于漂浮在空间的幽灵，看起来显然不是真实的，不过这也不失为一种逃避问题的办法：因为Persona在你的设定中是一个幽灵，因而它漂浮在椅子上、沙发上甚至卡在墙里，你也不会出现强烈的违和感。

（不过奇怪的是，外界对于Meta Avatar没有腿这件事似乎诸多抱怨。）

网友测试新版本Persona，图源：X

如果你的MR社交体验并不需要太多真实感，那么里面也可以设计一些小技巧，比如你可以让某些人看起来像幽灵或者一片云，这些粒子本身就可以存在任何一个地方。

此外，应用在启动时也可以考虑自动将Avatar尽量传送在相近的地点，这样能避免过多走动。

甚至，应用可以预先考虑某种物理空间的差异，比如用户A的房间尺寸为2m×2m，用户B的房间尺寸为4m×4m，那么可以考虑将B的步幅调大一倍。

（不过这里面也会出现很多不可控因素，应尽量避免使用。）

六、偏弱体验的社交

某些时候，MR社交场景其实可以打造成单纯的语音聊天室，即玩家的Avatar不一定需要相互见面。不过仅凭语音、缺乏肢体交流可能会导致用户联系没那么紧密，这时候，可以考虑设计一些独特的互动体验：比如用户按下某一按键，另一用户的家里面就会绽放鲜花。

VR社交应用《Where Thoughts Go》其实也提供了一个很好的思路，玩家可以在虚拟气泡中留下个人的语音信息，然后将其分享给社区的其他人。（有点类似于语音漂流瓶）。而未来MR社交也可以借鉴这种形式：即便用户之间没有直接互动，也可以留给对方某些线索或者彩蛋。

图源：《Where Thoughts Go》

七、基于各自空间的建模

在终极场景下，如果我想在家里就能打造一场MR社交，并且远程的朋友也乐在其中，这里还有一种解决方案：我们可以预先将我们的空间进行3D扫描，然后邀请朋友进入这一空间。

在这种情况下，他们基于VR模式进入体验，他们的虚拟世界其实就是你的真实房间。而你则可以基于透视模式下运行，双方都能在相同的环境下获得相同的体验。

实际上，Quest 3也有扫描房间3D网格并共享的功能，不过它的扫描效果十分粗糙，并且会丢失纹理细节，用户只能进入一个纯白背景的虚拟世界。

此外，Varjo Reality Cloud（Varjo推出的一个云服务平台）也可以实现类似功能：Varjo头显可通过摄像头扫描房间并上传到云平台，而重建数据也能分享给其他用户。

图源：Varjo

根据一些体验视频，Varjo Reality Cloud所构建的这一体验仍十分粗糙，不过它是一个不错的原型。

我也十分喜欢这一解决方案，目前它可能是唯一能够真正实现远程邀请朋友来“家里做客”的方式：我能实现混合现实体验，并且双方都基于同一空间，动作行为保持连贯。

来源：https://skarredghost.com/2024/04/15/social-mixed-reality-how-design/

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

2024-04-30aigc阅读(67)

「Message ChatGPT…」

当我们开启某个话题前，ChatGPT 空白的输入框里默认写着这一句话。

和 ChatGPT 的交互，就像和朋友的聊天，你来我往，从上到下，线性的结构非常直观。

然而，这就是和 AI 互动的最佳模式吗？

一、还在翻和 ChatGPT 的聊天记录？一种很新的交互方式来了

学生时期，我们应该都见过白板，老师用可以擦除的马克笔，在白色的平滑板面上写公式。

Canva、Figma 等设计平台，则提供了在线白板工具，它们沿袭了物理白板的特点，但画布是无限的，形式也更加自由，就像现实的办公桌一样，可以灵活地放置各种东西，很适合进行头脑风暴。

在线白板工具示意图. 图片来自：Canva

如果 ChatGPT 也以白板的方式和我们互动，会产生什么奇妙的化学反应？

Flowith 就是这样一款 AI 内容生成工具，最近发布了公测，一周新增约 2 万名新用户。

它在形式上最大的亮点是，把纵向的聊天记录，转变成了动态的画布，为人机交互提供了一种很新的方式。

Flowith 支持 GPT 4 Turbo、Claude 3 Opus 等模型，本质和 Perplexity 差不多，都是在他人的地基上搭建服务，但创新之处各有千秋。

Flowith 的底部仍然有输入框，但你是在一块类似在线白板的无限画布上，和 AI 互动。

这里还引入了一个新概念：节点。

每次提问产生新的节点，节点可以再发散和引用，串成很多不同的线。

举个例子更加直观，直接问 AI：「给我头脑风暴 5 个 AI 创业想法。」

Flowith 给出的答案是：AI 医疗影像诊断、AI 在线教育平台、AI 智能投资顾问、AI 智能家居可穿戴设备、AI 场景消费推荐。

然后，我们可以在「AI 智能家居和可穿戴设备」的分支下，追问目前有哪些主要玩家。

第一次看到答案以卡片的形式分叉和移动，心里会忍不住「哇」一声。

这个例子使用的是「思维导图发散模式」。除此之外，Flowith 还提供了自动决策模式、联网超级搜索模式、生成图片模式，适合不同的问题和场景。

开放性的问题多半交给思维导图模式，联网搜索模式则像 Perplexity 的平替，能搜索、能总结，甚至还能开脑洞。

当我输入「国内 AI 搜索的发展情况如何」，Flowith 的输出分成三栏。

左边提供实时搜索结果和图片，可以进一步追问，让 AI 总结某个链接的内容；中间对几个 Google 排名靠前的链接进行了总结，等于输出了一篇短小的「文献综述」。

但右边才是最有趣的一栏，AI 给出了知识图谱，帮我们拓展思路，搭建知识体系。

「AI 搜索发展现状」本身是一个非常宽泛的问题，Flowith 延伸出了不少细分的方向：AI 在搜索引擎功能中的集成、AI 搜索算法的进展、AI搜索结果中的偏见……

好奇心强的人类，可以不断探索下去。选中知识图谱的动态效果也有些魔性，QQ 弹弹，像果冻的质感。

而在自动决策模式下，Flowith 会根据你的提示词，自动切换到最合适的 AI 模型，判断是否需要联网搜索，是否需要文生图，是选择速度优先的 GPT-3.5，还是更强的 GPT-4 和 Claude 3，可以窥见 Agent 的雏形。

比如，问问广州今天的天气如何，Flowith 就会进行实时搜索。

从整体来看，Flowith 的动态 UI 也很酷，整块画布可以拖拽、缩小、放大，节点可以引用、追问、删除、重新生成。

使用 Flowith，有些类似我们过去在草稿纸上涂涂画画思考问题，发散、延伸、删除，漫无边际，不像逻辑清晰的大纲，也不像和 ChatGPT 之间直观的聊天记录。

但这就是我们使用画布的目的，在发散创意的过程中，慢慢地把思路捋清，如同流水那样滔滔不绝。

画布式 AI 的可视化，本身就是思考的外显。

二、形式影响思考，拒绝让大脑困在「聊天框」

创新的形式，本质是为了实现人类和 AI 更高效的交互。

如果说 ChatGPT 是聊天式的 AI，Flowith 这类产品，可以简称为画布式的 AI。

类似地，设计平台 Figma 的在线白板工具 FigJam，也在去年 8 月提供了内置的 AI 部件 Jambot。Jambot 结合了 ChatGPT 的生成能力，可以进行头脑风暴、总结、改写等。

参与开发的产品设计师 Aosheng Ran 在发布时提到：

我想我们被困在聊天框里了。就像我们现在被困在 Zoom 中一样。

Jambot

和聊天式的 AI 互动，确实存在局限性。

ChatGPT 等聊天机器人互动是基于线性的结构，但思考往往不是线性的，大模型又有一定的随机性，生成的内容，比如文案、翻译、代码，往往需要反复修改、对比和测试。

ChatGPT 纵然可以反复生成，但如果某个问题对话了几百次，聊天记录过长，我们可能也不知道自己聊到哪里了。

哪怕把一个问题研究清楚了，ChatGPT 无法直观地呈现从这个问题引发出去的不同分支。

但画布式的 AI 是不一样的烟火。

同一块画布上，我们可以反复修改提示词，或者用不同的大模型多试几次，答案全部保留；我们也可以同时完成多项任务并查看结果，搜索、头脑风暴、内容总结等需求并行不悖。

图片来自：X@DerekNee

比如，假期快到了，我先用了头脑风暴模式，让 Flowith 列出 AI 旅行助手应当具备的 5 个特点，再用了联网搜索模式，让它直接找出 3 个目前最主流的 AI 旅行助手应用。

以此类推，涉及到需要反复生成、对比内容的创作场景，以及发挥 AI 多项能力的工作流，画布式的 AI 往往比聊天式的 AI 更有趣、更直观，也更具互动性，不必新开很多的聊天页面，本身就是一块无限的创作土壤。

在线白板工具引以为傲的团队协作功能，也是画布式 AI 所擅长的，聊天式 AI 只能甘拜下风。

ChatGPT 支持共享聊天记录，但不能从分享的链接继续对话。

Perplexity 支持分享搜索结果，其他用户可以在原有的基础上追问，但追问后会创建新的链接，和我们分享的并不在同一个页面。

然而，Flowith 只要开了「可编辑」的权限，对方就可以参与团队协作，在输入框提出自己的问题。如果只是「可查看」，虽然没有输入框，对方也可以发表评论。

想象一下，我们分享一个「flow」给别人，直接在画布上进行实时多人生成和讨论，又不会干扰原有的痕迹，激情和甲方 Battle，有种在飞书文档挥斥方遒的感觉了。

类似 Notion 的模板，如果不知道怎么更高效地使用，Flowith 还提供了 Discover 页面，向你推荐别人的用法。验证可行的工作流，被加工成了一个个开箱即用的半成品。

之所以反复强调画布和聊天的不同，甚至隐隐有些把它们对立起来，是因为交互的方式，潜移默化地影响着我们思考的方式。

如果只是看到一个输入框，可能我们的思维也会陷入「对话模式」，像和人类交流一样和 AI 说话，向它问好，问它如何一夜暴富，或者向它倾诉自己的心情。

这样的用法也很好，但当使用 AI 的方式更多、更自由，内容生产也就有了更多的可能，AI 能力的边界也就离我们更近。

三、创新不是终点，不迷信任何一种交互形式

画布式的 AI 和聊天式的 AI，并非你死我活的替代，而是美美与共的互补。

聊天式 AI 固然有缺点，画布式 AI 也并非总是笑到最后。

如果只是找一个简单的问题、了解某个陌生的概念，还是求助 GPT-4 和 Perplexity 更快。

作为一个初出茅庐的产品，Flowith 也不是那么好用，短板肉眼可见。

生成图片模式支持的模型不多，目前只有 Stable Diffusion 和 DALL·E 3，之前支持 Midjourney，但现在不可选了。

同时，Flowith 调取的模型有 2 个梯队，高级的 T1 和基础的 T2。虽然 GPT-3.5 Turbo 等 T2 模型在邀请朋友后无限次免费，但 GPT-4 Turbo、文生图模型等 T1 模型有使用额度。

在个人的体验之中，Flowith 也出现了一些奇怪的状况，但不确定这些问题的普遍性。

用中文向 Flowith 提问，答案也可能是全英，有些影响用户体验。拿同样的提示词问 GPT-4 和 GPT-3.5，回答的都是中文。

虽然 Flowith 支持读取 PDF，但如果上传的文件过大，很可能不成功。

Flowith 的交互也不够流畅，输入新的问题时，其他节点和整体界面总会发生动态的变化，有时候会让人迷失视觉的重心。虽然效果酷炫，但新鲜感只是一时的。

另外，在对 Flowith 的某个节点进行追问时，上下文不一定连贯，出现过答非所问的状况。

尽管产品还不那么成熟，但 Flowith 做了和 Perplexity 类似的事情：在大语言模型的基础上，考虑怎么应用 AI 的能力，让 AI 更好地加入我们的工作流。

Flowith 开发者 @DerekNee，在 X 分享了他对产品的见解——不应该只把 Flowith 看作是一个白板 AI 工具。

他本身是 GPT-4 和 AI 产品的重度用户，但在写文案、写代码、搜索内容时，主流的聊天式 UI 不够高效，不适合反复的修改、对比和测试。

在他看来，白板是为了让大众理解二维画布、节点概念的一个代替词，Flowith 的核心依然是帮助用户生成内容，探索 Human-AI 新的、更有效的交互方式。

这和 Figma 的理念不谋而合。推出 Jambot 时，Figma 在博客写道，AI 是一种增强工作和协作的工具。与其说让 AI 为你做事，不如说 AI 在帮助你做得更好。

WPS、钉钉等办公软件 AI 化，听用户的指挥一键生成 PPT，让 AI 助理进行文档速读，其实也是这个道理。

Flow 的本意「流动」，某种程度上就是我们对 AI 工具的期许：帮助人类的思维流动起来。

其实，我们思考和解决问题的方式已经被 AI 改变了。

Perplexity 等 AI 搜索，渐渐变成了日常离不开的产品，人类提出问题，它们搜索、摘要、成文，自己已经是一个成熟的工作流了，我们付出更少，但效率更高。回想只用传统搜索引擎的日子，万古如长夜。

还没有和人类磨合得很好的 Flowith，无法代替 ChatGPT，但这不是问题。

Canva 等设计平台能在 Adobe 的领域闯出一条路，是因为搭建产品的底层与 Adobe 不同，前者是模板和部件，后者是对图片的像素级调整。

Canva 抢不走 Adobe 的忠实用户，但吸引了不会或者没法用 Adobe 的用户。

Flowith 也是类似，本质是在填补市场的空缺。Perplexity 不重复 Google，Flowith 不重复 Perplexity。

ChatGPT 引领了聊天式的 AI，用起来确实便捷又简单，在它之后，很多产品照做了，用户也默认接受了。

然而未来，我们与 AI 的协作，不会只是翻译、问答，应该允许更多有趣的想法发生，它们不一定成功，但足够带来惊喜。

毕竟，AI 的时代，变化总是很快，必然还有更新鲜的 AI 交互方式，提升效率、创新思维、改变工作流。

在玩过更多产品之后，我们才能归来仍是少年地惊呼：这才是我想要的 AI 应用。

刚发布就被对标Sora，这个国产模型来头这么大？

2024-04-30aigc阅读(70)

前几天，世超上网冲浪的时候，刷到了几个 AI 视频片段。

大船驶来的压迫感，被风吹起的发丝和丝巾，太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。

真实度也是一绝，在湖边随着镜头移动，不仅光线跟着变化，连天空、树木的变化都跟咱肉眼看到的没差。

要不是右下角有水印，我还差点以为是 Sora 的视频又上新了。

所以这次的主角不是 Sora ，也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品，而是初出茅庐的国产视频大模型 Vidu 。

咱看到的那些视频，就是前几天， Vidu 在中关村论坛的人工智能主题日上公布的。

它最长能生成16秒，一句“木头玩具船在地毯上航行”的提示词，就能生成下面这长长的一段，一镜到底的丝滑程度，怕是路过的谋子导演看了都会点赞。

Sora号称能真实模拟物理世界的拿手戏， Vidu 照样也能实现。

让它生成一段“汽车加速驶过森林里乡间小路”的视频，像是树林缝隙透过的阳光，后轮扬起的灰尘，都很符合咱们的日常认知。

而且 Vidu 的想象力比咱人还要丰富，画室里的一艘船驶向镜头的场景，它分分钟就能给“拍”出来，看这效果，不知道该有多少动效师瑟瑟发抖了。

甚至在某些提示词下， Vidu 的理解能力比 Sora 还强，比如“镜头绕着电视旋转”的提示词， Sora 压根儿就没 get 到旋转的意思，反而是 Vidu 能轻松理解。

有一说一，在看完 Vidu 的这些视频后，世超是真觉得它是目前市面上，唯一一个能在画面效果上和 Sora 拼一拼的模型。

虽然现在 16 秒的 Vidu 在时长上还比不上 60秒的 Sora ，但它的进步也确实是肉眼可见的快，据极客公园消息，上个月， Vidu 在内部只能生成 8 秒的视频，上上上个月，还只能生成 4 秒的视频。

反正媒体们都把 Vidu 比作是“ Sora 级视频大模型”，网友们也都在评论区喊话催他们赶紧开放内测。

不过这里面世超更好奇的是，咱之前压根儿都没听说过 Vidu ，怎么突然平地一声雷，搞出了这么大的阵仗？

我们也顺藤摸瓜找了找资料，发现Vidu身上，值得说道的东西还挺多，甚至仔细咂摸下，还能从Sora身上找出点Vidu的影子来（世超可没说反）。

它背后是一家名叫生数科技的公司，别看这个公司才刚满一周岁，但它可是在娘胎里就开始攒劲儿了。因为它的亲妈，是清华系AI 企业瑞莱智慧，背后的研究团队，几乎全是这里面的人。

而在成立生数科技之前，团队就已经把视频大模型研究得很深入了。

尤其是在图像生成这块很火的扩散（Diffusion）模型，他们算是业内第一批研究这个模型的，整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。

正是因为有这么好的底子，早在2022年9月的时候，团队就找到了做 Vidu 的灵感，就是下面这篇论文。

世超让AI帮咱解读了下，大概的思路就是，扩散模型在生成图像这块挺强，而大语言模型里用的Transformer有个规模（Scale）效应，参数堆得越多，性能就越好。团队就想着，能不能把这两个的优点结合一下，整个融合架构，提升图像生成的质量。

于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ，还起了个名字叫 U-ViT （ Vision Transformers ）。结果试下来发现这么一结合还真有用，光是相同大小的 U-ViT ，性能就比 U-Net 强了。

那好嘛，既然这条路走得通，他们也顺势把技术路线定在了 U-ViT 上。

然鹅。。。在团队悄悄酝酿 Vidu 的时候，大洋彼岸的UC伯克利的一个研究，却让 OpenAI 的 Sora 捷足先登了。

就在清华小分队提交论文的两个月后，UC伯克利也在预印平台ArXiv上提交他们的论文了，一样说要把Transformers揉在扩散模型里面，只不过名字起的更直白了点，叫DiT（ Diffusion Transformers ）。

看着是不是挺眼熟，没错， OpenAI 的 Sora 模型，用的就是伯克利的 DiT 技术路线。

但因为清华小分队早发了两个月，当年的计算机视觉顶会CVPR 2023还以“缺乏创新”的由头，拒了 Sora 的 DiT ，收录了 U-ViT 。

而且早在2023年年初的时候，清华小分队还用U-ViT，训练出了一个近10亿参数量的开源大模型 UniDiffuser 。

算是第一个用行动证明了，融合架构也遵守 Scaling Law 这一套规则，也就是说随着计算量、参数量越来越大，模型的性能就会随指数级上升。而这个 Scaling Law ，同样也是 Sora 这么强的秘密武器。

所以照这么来盘算，Sora其实还得叫Vidu一声祖师爷才对。。。

但现实世界却是， DiT 被 OpenAI 带着一路飞升。

清华小分队呢，计算资源没 OpenAI 那么到位，也没 ChatGPT 这种珠玉在前，总之就是啥啥都不完善，他们只能慢慢来，先做图像、 3D 模型，等有家底儿了，再去做视频。

好在他们身上还是有点实力在的，稳扎稳打慢慢也赶上来了。去年 3 月，清华小分队们成立了生数科技后，就在马不停蹄地搞自家的产品，现在图像生成和 3D 模型生成大伙儿都能免费用了。

并且靠着这两个产品，刚满一周年，它就攒了好几亿的家底。

像是成立 3 个月的时候，就完成了一波近亿级的天使轮投资，上个月，又完成了新一轮的数亿元融资。参与投资的，也都是智谱 AI 、 BV 百度风投等等业内大佬。

反正看这波架势， Vidu 还真有可能成为国内的黑马，去对标 OpenAI 的 Sora 。

不过生数科技那边，倒是觉得只把 Vidu 看作国产版的 Sora ，实在是有点缺乏想象力了，因为他们给 Vidu 的定位，可不仅仅是个视频模型，而是图、文、视频全都要，只不过现在视频暂时是重点。

当然了，好听话谁都会说，能不能搞出来，咱还得实打实地看成品。

世超已经去排了队，等拿到内测资格，再跟大伙儿同步一波。。。

图片、资料来源：

Scalable Diffusion Models With Transformers

All are Worth Words：A ViT Backbone for Diffusion Models

机器之心，专访生数科技唐家渝：清华系团队拿到上亿融资，用Transformer来做多模态大模型

界面新闻，生数科技完成新一轮融资，国内多模态大模型厂商着力追赶Sora

极客公园，国产 Sora 的秘密，藏在这个清华系大模型团队中

新智元，图灵诺奖得主等大佬齐聚海淀！清华版Sora震撼首发，硬核AI盛会破算力黑洞

钉钉自己挤上牌桌

2024-04-30aigc阅读(63)

钉钉是什么？

很多人对它的认识，可能还停留在“办公软件”上，上班打卡，工作协同等。实际上，钉钉越来越不像“钉钉”了。

过去一年来，自宣布全面智能化后，在大模型的重塑下，钉钉正在向全新的“AI Agent平台”演进。特别是4月18日，钉钉上线AI助理市场（AI Agent Store），企业、个⼈⽤户、开发者开发的AI助理可以分享给更多人，这条路线的未来方向变得更为清晰。

这也是钉钉决心“All in AI”之后，为行业蹚出的一条从“单点应用+AI”升维到“AI助理+AI原生应用”的大模型落地实践之路。其意义按照钉钉总裁叶军的说法，即是钉钉将成为下一个Midjourney、下一个Pika的诞生地。

他还表示，基于AIGC浪潮进⼊⽣产⼒和应⽤场景的判断：AI Agent是最佳AI应用入口。钉钉将建设AI智能助理平台与应用市场，让用户、开发者、ISV 在钉钉上都能低门槛开发个性化AI助理，让钉钉上涌现出更多优秀的AI应用。

一、卷向AI Agent

这个目标不可谓不大。当前，整个大模型赛道都还处于激烈的淘汰赛阶段。OpenAI、百度等国内外领军大厂都没有十足的信心进入到下一轮比赛。比如李彦宏就多次在公开场合表达了自己的“焦虑”，他在一次活动上就说过，“过去接近一年的时间，我看到媒体、社会、公众主要的兴奋点还在基础模型上，没有转到AI原生应用上，这使我多多少少有点着急”。

从这个角度看，钉钉正在这轮比赛中，以自己的方式挤上牌桌，并为下一轮比赛赢得先机。那么，钉钉为什么会选择在AI助理，也就是AI Agent上“开卷”？

事实上，AI Agent概念诞生至今也就一年多时间。行业公认的发端是2023年3月发布的Auto-GPT，被OpenAI科学家Andrej Karpathy称之为“prompt 工程的下一个前沿”。但这个大模型爆火后的早期产品，作为AI Agent还显得十分稚嫩。当OpenAI升级部分功能后，Auto-GPT看起来更像一个“傻瓜”，无法有效满足个人或者企业的需求。

但它就像开了一道闸口，更多的AI Agent开发平台相继涌现，业内也开始普遍认可AI Agent的重要性。典型如比尔·盖茨，他在去年年底的一篇个人博客中强调，“Android、iOS和Windows都是平台，AI Agent将成为下一个平台”。他还预判，随着AI技术的日益普及，未来五年内，各种应用程序将被替代，手机或者电脑可以根据用户日常用语下达的指令，就能够处理请求。不远的将来，任何上网的人都能够拥有一个由人工智能驱动的个人助理，也就是“AI Agent”。

Meta创始人扎克伯格也曾表示，看到了“以有用、且有意义的方式，向数十亿人介绍AI Agents的机会”。

除此之外，百度前首席科学家吴恩达也提到，“所有从事人工智能的人都应该关注AI Agent”。他认为，通过Agent，人工智能能够胜任的任务种类将会大幅扩展，即便用参数更低但响应更快的大模型，通过更多轮次的迭代，也能比更大参数的模型效果好。

对此，吴恩达团队还让大模型写一些代码并运行，最终对比不同模型和工作流程得出结果的性能：仅用GPT-3.5模型准确率为48%，仅用GPT-4模型准确率为67%，GPT-3.5+Agent效果高于GPT-4模型的表现，GPT-4+Agent的效果则远高于GPT-4模型。

AI Agent市场的快速发展也超出很多人的预估。MarketsandMarkets数据显示，2023年全球自主人工智能和自主智能体（Autonomous Agent）市场的收入规模超过48亿美元，到2028年有望达到285亿美元左右，预计2023-2028年的年复合增长率为43.0%。

由此也不难看出，AI Agent正在受到全行业的关注，并不断通过能力迭代，让其准确性更高。甚至可以说，一个属于AI Agent时代正在到来。对钉钉来说，当下拥抱AI并不断落子，卷向AI Agent，也是在希望“大力出奇迹”，踩着趋势鼓点的顺势而为。

二、短板变长板

不仅如此，钉钉还在进一步探索行业最为关心的话题：AI Agent如何从想象力转化为生产力？根据唐辰了解的信息，钉钉的探索落在具体动作上，可以分为两个阶段：

第一阶段是自我AI改造：2023年4⽉，钉钉宣布全⾯智能化，所有产品要⽤⼤模型重塑⼀遍，在随后的100多天内，钉钉17条产品线完成智能化再造。

第二阶段是走向开放平台：在完成自我AI改造后，钉钉开始将智能化底座（AI PaaS）开放给生态伙伴和客户，并推出基于AI PaaS的创新产品“数字员工” 把改造继续深入到生态层。此后钉钉个⼈版AI更新、钉钉7.5版本发布、AI助理市场上线，钉钉AI的远期目标浮出水面，最终鲜明地落在AI Agent平台上。

根据钉钉介绍，钉钉AI助理建立在大语言模型之上，将具备感知、记忆、规划和行动能力。更关键的是AI助理可以和钉钉上丰富的应⽤、第三⽅应⽤、企业⾃建应⽤⽆缝结合，也可以通过⼯作流，在创建时对AI执⾏任务的流程进⾏拆解和编排，使得AI助理可以主动接管完成相应操作，执⾏更复杂的任务。

也就是说，这种能力并非只在钉钉内部，它还具备了跨应用程序的执行能力，用户可以根据自己的想法和需求，打造一个在钉钉内部、第三方以及企业自建应用之间“自由穿梭”的AI Agent。

目前，钉钉为AI助理的创建预置了智能问答、图像生成、内容创作、数据统计等官方AI能力，用户仅需简单配置后即可使用。针对开发者、IT团队，支持通过钉钉AI PaaS快速开发自定义的AI能力，通过钉钉开放的API、连接器，与SaaS 应用、本地系统等原有系统连接。

这些功能，有媒体将其形容为“这是一个面目全新，甚至看起来跟过往钉钉迥然不同的App”，其AI能力内置在钉钉里，可以随时切换，避免复杂的下载。同时，它提供了AI对话，AI绘图等多项功能，这些功能同样是AI Agent的能力但充满to C的味道。

这在钉钉看来，Al助理将成为未来应⽤的主流形态，必须形成丰富的价值商业交换模式。钉钉官⽅的Al助理，企业、⽣态伙伴和开发者构建的Al助理将成为钉钉AI助理市场的三个主要组成部分。钉钉之所以敢于迈出这么大的步子，在于钉钉本身的属性。叶军介绍，“一般一个新的技术在生产侧、在工具侧、在B端更容易落地。”

360董事长周鸿祎曾多次表示，随着开源大模型的发展，大模型开始“走下神坛”，从卖“原子弹”的生意，变成了卖“茶叶蛋”的生意，真正的壁垒从技术变为了场景和数据。他还指出，企业用大模型不能冒进，而是要用AI逐步改造业务，循序渐进，在实践中要拆分场景具体分析，在业务流程上找准切入点，选择与大模型成熟能力匹配的业务环节切入。

顺着他的思路来理解，Agent就是一个为了解决复杂场景，甚至是必须依靠复杂场景而“存活”的强大技术方案。当一个复杂但边界清楚定义清晰的问题放在面前，Agent的威力才会发挥到最大。

值得一提的是，过去钉钉的场景过于分散、过于复杂的吐槽，在AI时代反而成为其落地的场景优势，无异于是一次短板变长板的反转。

三、钉钉上牌桌

最新数据显示，钉钉⾸批上架近200个AI助理，有C端也有B端助理，覆盖创作设计、学习教育、运营推⼴、销售客服、⼈事⾏政、财税法务、电商外贸、⽣产制造、企业服务等领域，其中30多个来⾃⾏业化专业场景。

这也说明，钉钉具备天然的AI应⽤场景，它反向对接大模型来做AI助理产品，并不是拿着锤⼦找钉⼦。简单来说，上连应用场景，下连业务数据，钉钉跑出了自己的差异化打法。

再回到一个关键问题：在钉钉上构建AI Agent，和直接在底模型上构建相比有什么优势？根据钉钉的AI助理能力来看，主要有4点表现：

首先，AI助理能够和钉钉能够深度绑定和结合。比如，AI助理和钉钉的场域是充分融合的，他们可以像组织成员⼀样可以被加⼊到通信录，被拉⼊群聊，在⽂档⾥被@，在OA审批⾥加⼊处理⼈列表，拉⼊⾳视频会议等。在此基础上，AI助理可以感知到⽤户及相关⼈的身份/岗位/职责，以及钉钉各场域上下⽂：⽐如被拉⼊群聊时，当前群的群成员、群身份等。有了更精准的环境感知，AI助理在意图识别、技能路由、推理规划等⽅⾯的效果都会显著提升。

其次，解决流量或者合理性问题。钉钉本身就有各⾏各业的需求和场景，⽤户天然存在场景，场景中存在需求；Gpts、⼤模型等⽬前存在的问题，是缺乏明确的⽤户需求，⽤户有需求时才去找AI。这对开发者⽽⾔，也意味着潜在⽤户已存在。

第三，钉钉AI助理市场，是钉钉⾯向AI对开放能⼒的进⼀步升级，且与原有开放的连接器、API、低代码等体系融合，并⾮⼀个独⽴的开放体系。钉钉原有的开放能⼒，如：openapi、连接器、数据资产平台、1000w+ 低代码应⽤、5000+⼊驻 ISV，已经验证⽣态的商业路径的合理性。

第四，ToB很难存在单个现象级应⽤，⽽是千万个⻆⾊和⾏业的助理，满⾜特定的⽤户⼈群。这决定钉钉AI助理市场，不做全量推荐，只推荐精选过的AI助理，更具有行业属性、行动能力和专业能力。

这些也成为钉钉技术调整的核心出发点，即让人们在钉钉上搭建这些Agent的成本、发布的成本和使用的成本都拉到最低。一个Agent通过自然语言对话就可以开发，开发出来后就可以拉到钉钉群使用。

显然，钉钉正在通过构建AI Agent的基础平台，将类似于单机应用的Agent“联网”，实现资源互通互用，为用户提供丰富的资源并降低AI应用的使用门槛。

如今看来，AI一年，钉钉确实越来越不像“钉钉”了，它已然变成了一个AI应用平台。这也是钉钉尝试的新角色，并以此为着力点，把自己送上大模型应用竞赛的牌桌。

资料参考：

硅星人Pro，《一个“办公软件”要All in AI了？不，钉钉的野心比这还要大》

上一页
1
···
17
18
19
20
21
22
23
...
下一页
共 26 页

AIGC 第20页

一、人越多，“躺平式”旅游越火

二、旅游功课，AI来做

三、大规模推广，要过什么难关？

简介

职场办公难点

提问的格式

一、人力用钉钉AI解决招聘、面试的难题

1. 用钉钉AI撰写招聘要求

2. 让钉钉AI整理面试问题

二、行政用钉钉AI解决公告、PPT的难题

让钉钉AI生成公告文案

三、产品经理用钉钉AI解决产品需求、文档的问题

1. 让钉钉AI定义产品需求

2. 让钉钉AI输出需求文档

四、文员用钉钉AI解决阅读、润文的难题

让钉钉AI对稿件进行润文

五、员工用钉钉AI解决周报、总结的难题

让钉钉AI生成周报

2. 让钉钉总结问题

六、钉钉AI总结

AI是来解决问题，不是直接定义问题

一、智能体的作用

二、智能体在行业内的应用

三、钉钉看不见的优势

四、一条与用户最近的路

总结而言

一、认识钉钉AI助理

1. 大模型的产品化应用

2. 注入生命去除工具化

二、AI Agent该如何发展？

1. to B：完善输入逻辑，支持统一价值观

2. to C：支持社交属性设置，成为有丰富情感的朋友

01

02

03

04

05

06

07

08

09

一、可能你并不真的需要MR社交

二、单纯以看清楚真实环境为目的

三、多人本地AR

四、让MR社交聚焦于某些特定元素

五、可以通过相对不真实打破MR社交体验的割裂

六、偏弱体验的社交

七、基于各自空间的建模

一、还在翻和 ChatGPT 的聊天记录？一种很新的交互方式来了

二、形式影响思考，拒绝让大脑困在「聊天框」

三、创新不是终点，不迷信任何一种交互形式

一、卷向AI Agent

二、短板变长板

三、钉钉上牌桌