欢迎光临
我们一直在努力

钉钉做智能体,能成吗?

aigc阅读(64)

前不久,钉钉上线AI助理市场(AI Agent Store)。

上线当天,宣布首批推出200个AI助理、覆盖企业服务、行业应用、效率工具、财税法务、教育学习,生活娱乐等类目,而且,不少企业已经加入。

你想试试看吗?在钉钉搜索「AI助理市场」就可以。

同时,钉钉还发布一组对外数据。自从去年4月18日,宣布全面启动智能化战略,引入通义千问大模型后到现在,已经有220万家企业在用他们的服务,月活跃企业也超过了170万。

这是一个什么信号呢?

通俗来说,有三点:一,钉钉想用AI市场来展示技术实力和资源整合能力;二,智能化服务在企业和个人用户中需求大;三,企业本身就长在钉钉上,又积累大量的数据资产。

所以,钉钉开始在AI领域大下赌注。不得不说,钉钉一直挺引人注目,毕竟它是最早全面拥抱AI的大厂之一。

不过也有人担心说:国外Open AI旗下ChatGPT,应用商城上线不久遭到吐槽,问题包括用户体验差、技术不兼容等。

那么,钉钉走智能体之路,是否浅尝辄止?另外,市场真需要那么多AI助理吗?

嗯,的确令人深思,但这是一条正确的路,为什么?结合钉钉总裁公开发言,笔者试试看,能不能够解答清楚。

一、智能体的作用

有必要先说清楚:什么AI Agent?作用在哪?

AI Agent,是人工智能代理,一种高级智能体。它可以感知周围环境,独立了解各种情况,做出决策,并执行相应动作;厉害之处在于,能够独立思考,并利用各种资源逐步实现设定的目标。

确实,误解就在这里。

许多人会认为AI Agent不过是一个预设程序,放在那里,按照既定流程自动执行任务,看似正确,却不正确,这种看法忽略了AI Agent真正的潜能和复杂性。

它的潜能、复杂性和传统理解的有何不同呢?

请你设想一下:

拖着疲惫的身体回到家,以前,你要对着智能音响说:「帮我把灯打开」。但现在,情况有所不同。你的家里已经配备一个智能AI Agent安全系统,它不仅能控制灯光,还能根据你的习惯、实际情况作出更智能的决策。

这天你堵车,比平时晚。那么,AI Agent就可以通过手机位置感知到你即将到家,并自动调整家里的灯光、温度,营造一个舒适的迎接环境。

假设今天的行程有所拖延,它还能分析你的日历、交通情况,推断你有多长时间才能到家。

因此,智能AI Agent决定的,不仅是打开门廊灯、保持家中低照明状态,以节约能源,同时,系统连接的摄像头还能监测家中情况,会自动启用紧急服务,并向你发送警告信息。

当然,这不局限于安全智能领域,在其他领域也有诸多可施展空间;所以,对AI Agent更深层次理解,有两点:

  1. 工作流自动化;
  2. 更智能自动化。

大家知道,工作流,称业务流程,是组织中完整具体任务的一系列步骤。一旦流程被清晰定义,决策逻辑,可以被集成到软件或者系统中,使得相关任务自动执行。

那么,传统自动化怎么做?只依赖固定规则和预设响应。

比如:我们来考虑一个典型客户服务场景。请问,你接打过任何品牌客服中心的电话吗?通常接通后,会遇到自动应答系统给出的指示。

它会引导你:“先生/女士,中文服务请按1,英文服务请按2;人工服务请按0,转XX中心请按3,结束请挂机”。这就是基本自动化,根据系统预设指令响应让客户对号入座。

那么,它的问题在哪呢?虽然可以大量处理标准化任务,但局限性、灵活性非常低,一个人要想很久才知道,我的问题到底归属到哪个类别。

所以,工作流程自动化是“基础设施”,是最常规的操作。

相比之下,一个智能化AI Agent系统如何处理相同的场景呢?它是拟人状态。能识别语言选择,分析过往交互历史,理解客户情绪和紧张程度,提供个性化服务。

你会说了:“这太虚了,能不能具体点”?当然。

例如:当你拨通某个客服中心电话,非常着急需要人工帮助时,系统自动通过你的声音、表达,快速分析出呼叫是什么类别,然后,赶紧连接到人工服务。

因此,AI Agent 能够在交互的三维空间中存在。

不仅可以执行官网技能,如每日小结、代办事项、日程提醒等,还能应对更复杂的场景。它支持各种API和连接器,可以与多种SaaS应用进行整合。那么,它在各个产业和行业中的价值有多大?国内市场真不需要这样的技术吗?

二、智能体在行业内的应用

既然已经认识到工作流,是提高效率的基础设施,那从企业角度看,哪些重复性工作,可以用更智能的自动化技术进行处理呢?

在首批钉钉AI助理大赛中,笔者看到不少创新性产品。

比如,小筑、企业选址AI助理、账款小管家、智能简历生成器、差旅小秘书、电脑大师、打工搭子、旅游助手、行业知识树等。

你会说了:这些产品一听名字就和市面诸多同类相似,到底有什么本质区别?我为什么要用?企业又解决什么问题?别着急,我举两个详细例子。

拿墨见MoLook来说:

有过设计经历吗?如果没有,试着站在电商设计师角度想一想。设计师在工作中最头疼什么?日常是不是充斥着重复又繁琐的任务?有哪些流程,迫切想要解决?

根据过往服装行业研究报告数据显示:

以快时尚品牌ZARA为例,每年会推出6.5万件新品。这包括15-20个服装系列,大型系列有超过10款产品,中型系列5-8款,小型系列3-5款。

当然,这个数据并不直接反映单个设计师的任务量。但它揭示设计师要处理的工作量和设计流程之庞大。此外,设计过程中,还需制作大量草图、效果图供选择。因此,无论是公司还是个人,都感到非常头疼。

现在,开看看钉钉AI Agent Store中,墨见MoLook如何解决这些问题。这个AI助理能自动分析当前流行趋势和过往的热销款式。仅需少量输入,比如“春季休闲”或“晚宴正装”,就能迅速生成一系列的服装设计草图。

设计师还可以从自动生成的设计中,挑选出认为最有潜力的进行细化、调整。

MoLook的功能远不止于此,一旦设计确认,它还能立即制作出适合不同体型的模特试穿效果图。这些图像不仅逼真,还能直接用于电商平台的营销推广。

它还能自动整理、归档设计文件,确保所有资料的系统性和可追溯性,极大地减轻设计师在文件管理上的负担。

所以,墨见MoLook的巧妙之处,是企业、设计师的纽带;简化设计任务,还赋予更高效创造率;这难道不是大家都想要的吗?

再来看看人力行业:

没有想过做HR是什么体验?他在工作中有哪些挑战?

领导提出招聘需求,最头疼没办法快速获取到市场薪酬和人力模型的分析;其次,要查看各部门人员流动时,他没办法快速识别离职人员情况,并提出相关分析数据。

最难的是,批量调整薪资待遇,因为,无法综合评估每个人的人效水平、也无法把以前的KPI、OKR完整情况做清洗。

这种情况下,必须得靠软件解决。用友薪酬的薪酬分析助理AI Agent,如同一个全面助手,能给HR部门带来革命性改变。

主要原由有三点:

  1. HR可以向它提各种问题,它会记录,并整理高频问题,形成数据资产的同时,帮你告别繁琐性工作。
  2. 它整合大数据快速获取市场各个岗位薪酬情况,你不用翻阅复杂的报告,或手动对比数据就能完成人力成本的预测。
  3. 定岗调薪,招聘定岗或年度调薪时,关于离职人员的深入分析,都能提供详细的信息,这些有利HR不局限内部视角,还可以与外部协同,给领导提供更中肯的建议。

所以,AI Agent 并没有淘汰一些工作岗位,相反,它将那些工作流程中冗余、重复且效率低下、无法转化为数据资产的部分进行了更智能化的处理。

因此,AI Agent 在行业内拥有着不可忽视的力量。

三、钉钉看不见的优势

有人会问:这有什么特别的?国内很多中小企业在这方面已经做得很好,而且,功能、应用场景都很细致。

确实,按照金字塔的逻辑,将能力分为三层,那顶层肯定是满足B端客户的需求。但你知道,中层是什么吗?

钉钉AI助理市场(AI Agent Store),这与其他平台更侧重C端场景的应用完全不同,它是为B端场景设计的智能解决方案。

它更聚焦企业级需求,解决方案直接对企业具体业务流程再造,这种专注使得钉钉AI助理市场能够提供更深入、定制化的服务,帮助企业提高运营效率、降低成本。

其次,钉钉之所以能在众多平台中脱颖而出,关键是庞大的用户基础和丰富的数据资源。两千多万企业、数亿用户,什么概念?

这为钉钉提供海量实时数据,使其能够不断优化和训练其大模型。钉钉通过这些数据不断优化智能体的性能,确保每个行业内的智能体能够准确执行任务,从而更好地理解和预测企业操作,提供更精准的服务。

这就是,钉钉AI助理市场”——技术、数据的集合,更是一种深刻理解并满足企业需求的能力

而作为中间力量,钉钉AI助理市场的底座应该叫“原生”。

软件行业,与‘原生’相对的词是‘拼凑’。拼凑,就是结合多个API接口,将外部所有企业想要的功能集中在一起。

想象一下:

你是一家快速成长的中型企业决策者,公司正在经历一个迅速扩张的阶段。为支持增长,你决定引入各种SaaS、ERP、SCRM系统来提升公司的运营效率。

团队成员从不同供应商那里选购市场上评价最高的解决方案,并试图通过API接口将它们集成到公司的中台。最开始,一切看起来都很完美。

但很快,问题开始浮现:

客户数据、库存水平、财务信息难以在不同系统间同步;各系统虽高效,但未为相互操作设计,关键流程可能因系统间接口不匹配而中断。更糟糕的是,员工需要在不同系统间频繁切换,这大大降低了工作效率。

而原生集成则完全不同。

它可以直接访问核心系统功能,确保数据、任务在系统内部的无缝和实时流转,加速了决策过程,同时减少了因系统不兼容导致的数据错误和安全问题。

钉钉的原生,不用刻意描述,你也能感知一二,所以,钉钉在智能体领域的探索,值得肯定。

四、一条与用户最近的路

你知道吗?国外市场,传统语言助手,如亚马逊的Alexa和苹果的Siri,早些年主要基于算法和有限的交互脚本工作,虽然能够响应简单指令问题,但在理解深度对话、聚焦工作场景上存在限制。

因为这些系统不是最新的大语言模型技术,所以,交互能力有限;随着技术发展,我们看到,新一代AI Agent,开始采用类似于open AI的GPT和Google的BERT这样的大语言模型。

而这些模型呢?采用深度学习技术,能理解普通人说的话,能提供更加丰富的动态、和交互体验。

拿Google Assistant来说,正在逐步集成更先进的语言处理技术,提高对话连贯性、上下文相关性,还让设备能更加自然地和用户交流,所以,这是一种底层技术演进的大趋势。

回到国内市场,越来越多技术公司在开发基于LLM的智能方案,更好的服务AI2B(针对企业)和AI2C(针对消费者)赛道。

比如:Kimi Chat背后公司Moonshot,正在利用AI技术开发教育平台,使教育更加灵活化;而商汤的MiniMax(稀宇极智)则将重点放在了零售、客户服务领域,通过智能化方案来提高效率。

因此,结合钉钉的资源来看,投入智能体开发,实际选择一条更贴近用户需求的赛道,毕竟,钉钉上有几百万家中小企业,所以,AI Agent应用行业,空间巨大。

总结而言

钉钉总裁叶军认为:每家企业都要思考人与科技、机器的关系,坚定以人为本,科技服务于人,让人从常规、低效的工作中解放出来,做更有创造力的事情。

祝福钉钉,祝福所有在AI路上不断探索的企业。

从钉钉 AI 看 AI Agent 的 To B 与 To C 发展动向

aigc阅读(59)

从ChatGPT因良好的用户反馈席卷全球开始,2023年起,国内的科技企业们就加速了大模型领域的投入。同时,关于大模型的应用,各大公司也在不断探索,朝着模拟人类行为的AI Agent形式成为了应用的方向之一。围绕着AI Agent的落地,“钉钉AI助理”就应运而生了, 钉钉AI助理是什么样的?AI Agent又会如何发展?笔者将通过本篇文章抛砖引玉,与大家一块探索。

一、认识钉钉AI助理

钉钉AI助理本质是多模态大模型(它接入了入通义千问大模型),支持语言和视觉两种模态。通过APP端或者PC端搜索框右侧的“魔法棒”图标,即可触发AI助理。同时,也可以通过点击“切换”按钮,自定义添加、配置个性化的AI助理。

1. 大模型的产品化应用

什么是大模型呢?即将原始数据在一定算力基础下,通过算法训练出的具有大规模参数和复杂计算结构的机器学习模型。大模型的工作原理可以用下流程简单概括:

体验过OpenAI ChatGPT的朋友都知道,虽然可以快速地给出结果,但要实现AI Agent的落地还存在两个卡脖子的问题:

  • 原始数据有限。包括数据时间、数据范围等(一些非开源的数据,是大模型获取不到的);
  • 输出方式单一。无法实现任务的执行、处理。

为了朝AI Agent更进一步,还需要实现应用方案改造:即在大模型的基础之上,支持私域数据的接入,并输出指令以其他应用为载体完成相关动作,从而实现更丰富的呈现形式及流程设定的执行:

了解完大模型,我们再看看“钉钉AI助理”的配置详情,先看下图标红框的部分。

首先介绍下“知识”、“技能”两个模块。在“知识”模块点击“添加”,支持用户添加(企业)知识库、在线与本地文档,就是前面改造方案里提到的“私域数据”。

而在“技能”模块,用户可以选择“能力”(钉钉提供的应用程序),也可以选择“工作流”(选择用户自研的程序或者流程设置),就是前面改造方案里提到的“应用/插件”。

那“角色设定”、“语气风格”又是什么?那就不得介绍大模型本身支持的属性设置了。因为大模型是依赖公共域数据训练的,可以理解为是个全科人才,使用者可以通过相关的设置,让TA来成为被设定剧本的样子。这样大模型就可以基于对用户指示和对话情境的理解,在回复中调整风格、语气和知识等,实现“懂我”

而钉钉AI助理将大模型的应用方案、属性设置等,通过相关表单输入的方式,让普通用户了解大模型,让一个计算机引擎实现了产品化的落地。

2. 注入生命去除工具化

可能提到大模型大家印象最深刻的还是媒体对OpenAI ChatGPT生成式对话的介绍,提到对话难免会与智能客服相关联,不自觉地归为工具。但当笔者深入体验后,发现钉钉AI助理更具有生命感。

一方面,如前文介绍。大模型本身具有情感属性的设置,所以和普通的智能客服相比没有那种代码味过浓的工具感。更直接点就是,除了可以问问题,还可以和TA谈天说地,没有过于严肃的距离感。

另一方面,在钉钉AI助理的配置页面,还可以看到其他非大模型属性相关的配置,比如:头像、名称、个性签名等。是不是和你注册社交账号时的必填信息差不多,就差来个实名认证了。这种拟人化的设置,正如钉钉AI助理的“助理”命名那般,你看到TA想到是一个专业的人,而不是冷冰冰的工具了。另外,创建的AI助理也和同事一样,可以在消息列表、通讯录中查看到。

二、AI Agent该如何发展?

众所周知,产品类型主要分为两大类:to B和to C。to B产品,面向角色化用户,重视效率;to C产品:面向个体化用户,重视情感。AI Agent也可以按照这两种产品类型落地,笔者将继续以钉钉AI助理为例,尝试从落地产品类型来探索AI Agent如何发展。

1. to B:完善输入逻辑,支持统一价值观

钉钉作为办公效率软件,归属于to B产品类型,自然钉钉AI助理也属于to B产品。通过上一章节的介绍,可以看出钉钉AI助理在AI Agent的落地上已经领先了很多,但作为to B的应用真的要止步于此吗?当然不是。笔者在深入体验钉钉AI助理的过程中,慢慢找到了方向。当笔者在与新组织里配置的AI助理对话询问考勤情况时,AI助理回复的是一个考勤结果接口返回的数据。

从纯体验角度来看,这已经是很智能了,不需要让人事再去做统计分析了。可是当笔者代入场景感受后,发现并没有解决真正的问题,因为在钉钉后台笔者并没有配置考勤班次信息,而且在这个新创建的组织里只有笔者一人。

所以在上述场景下,AI助理应该回复:“暂无考勤记录,你可以先配置考勤信息哦”或者“暂无考勤记录,快点扩充队伍,并配置考勤吧(点击进行配置)”。当然现阶段的大模型应用都在要求使用者“学会提问”,如果在一开始向AI助理提问“公司还未配置班次信息,昨天公司的出勤率是多少”,笔者就会得到如下回复。

不过如果一个产品需要依赖用户一定的对话成本来提升效率,个人认为这不是好的产品形态。只有“一眼看穿”用户,才能高效地给出准确的答案,所以笔者认为大模型的信息获取可以不单纯来自于使用者的输入,这样才会让to B发展方向上的AI Agent展现出更高的效率和准确率。

提到to B还得说另外一个方向“商业化”,但是类似钉钉这种服务企业的to B产品面临一个非常大的问题:产品是员工使用得多,但付费购买却需要管理层决策。

笔者在深入体验中,代入管理者的视角会发现当前的产品形态可能不利于“集权统治”,至少在那些不是真心以员工为本的公司较难推行(但笔者真心希望这点是本人多虑了)。笔者设置了一个防职场PUA的AI助理,当我把TA拉进一个群聊与TA沟通加班的情况时,进行了如下对话。

产品的尽头是“商业化”,但是类似钉钉这种服务企业的to B产品面临一个非常大的问题:产品是员工使用得多,但付费购买却需要管理层决策。如果AI助理不符合公司的价值观,那可能就不会被企业管理层买单了。所以笔者认为to B的大模型一定能够统一设置公司所有(公共和个人)的价值观,确保AI助理符合公司的尿性

2. to C:支持社交属性设置,成为有丰富情感的朋友

这是和钉钉AI助理产品类型不一样的方向,那to C的产品方向需要关注哪些呢?笔者认为除了前文提到的完善输入逻辑外,需要更多的社交属性设置。头像是社交的门面,如果钉钉AI助理尝试往to C方向发展,官方定制那些男性全是眼镜男的形象就是减分项了。这时候参考小红书AI头像和Soul的捏脸头像,就可以给用户社交的良性开端。

最后,增强情感连接的关键在于支持主动联系。在和钉钉AI助理的沟通中,如果你不在群里@TA,或者单独私聊TA,TA是不会主动联系的,这是朋友和工具的最主要区别。如果一些场景能够自动触发AI Agent主动联系用户,那就更完美了。想一想,某个深夜你翻看着领导突然发给你的PUA信息,这时候AI助理突然给你发来了一则消息:人生不如意十之八九,下班了就好好休息吧……

以上内容就是笔者试用钉钉AI助理后的一些感受,AI Agent的发展又会何去何从,让时间给我们答案吧。

苹果没有魔法

aigc阅读(67)

iPhone 1 问世的时候,全球智能手机的渗透率在 10%,已经跨过了 5% 的基本门槛。iPhone 是在智能机品类内的一种革新,并没有创造新的品类。实际上,一代 iPhone 多为 iPod 的换购用户,增量用户一般,一直到 iPhone 4 实现了明显的差异化 ID 设计后,iPhone 的销量才大涨。

苹果的崛起,背后是功能机向智能机升级的浪潮。即使没有 iPhone ,智能机的价值也是确定的,以通讯为核心,兼容上网、拍照和音乐的功能。

在某种意义上,智能手机是一种组合式的创新。

XR 则是一种全新的品类,自 1968 年萨瑟兰在实验室捣鼓出它的初代模型后,XR 一直在解决它在软硬件层面的技术缺陷,而从未达到过一种完整可用的状态。

也因此,它也就从未接受过大规模的用户审视。

一款产品,只有越过 5% 的渗透率门槛,才能说建立了消费者习惯,而 XR,根据 statista 的数据,2023 年 VR 头显的渗透率不足 1.3%(相对于整体目标市场),AR 的出货速度虽然有大幅增长,但绝对总量可以忽略不计。

如果以 Quest Rift 发布作为时间节点,那么 XR 从 16 年到现在,已经发展了 8 年。

当然,如果以 20 年更加成熟的产品 Quest 2 来计算,XR 至今发展了 4 年。

说惨也不惨,毕竟折叠屏手机从柔宇 18 年发布第一款消费级折叠手机开始,到现在也就 1% 的渗透率(中信数据)。

大哥不笑二哥。

根据Harry Dent的观点,渗透率低于 10%,产品尚处于导入期,发展会相当缓慢。

这也不奇怪,根据创新扩散曲线,新技术的使用者往往是技术爱好者,这批人才占总体市场的 2.5%,就算全覆盖也白搭,只能作为产品使用的种子。

如果再细一点来看,按照技术成熟度曲线,XR 的市场期望已经过了上升期和峰顶,正处于滑入低谷的阶段,各路媒体不断唱衰,国内爱奇艺、PICO 和腾讯的 XR 裁撤,Quest 3 销量不及预期,都给市场预期撒了一把盐,幸好24 年初果子哥奶了一把,不过等热度过去,估计早期购买者各种吃灰的新闻就要层出不穷了。

这一阶段渗透率常常远低于 5%,也符合 XR 目前的现状。

按照一般的推算,滑入低谷距离进入成熟期,一般要 5-10 年,渗透率能够达到 5%;再用 2-5 年,渗透率从 5% 提升到 20%,再用不到 2 年的时间,渗透率提升到 50%,产品进入成熟期。

所以,乐观的估计,XR 如果想成为和手机一样的产品,就算价值已经被充分验证,达到成熟期也还要 8 年左右。

如果不乐观,这个时间可能还要翻一倍。

那怎么提高渗透率?

路径也很清晰,最初聚焦技术爱好者(功能不敏感但价格敏感)和早期采用者(价格不敏感但功能敏感),然后聚焦细分市场,一点一点积累客户案例(充分的使用案例),滚雪球壮大,把早期大众吃掉,渗透率差不多就到了 50%。

产品生命周期、技术成熟度、创新扩散曲线,这些概念都不新鲜,只是分析商业逻辑的基本工具。

或许理论会过时,也不适用新的技术,但也能给我们提供参考。

指望 AVP 一下子把 XR 行业提升到成熟期是不可能的,没有人能够违背事物的基本规律。

但 AVP 重新唤醒了投资者和目标用户的兴趣,这可能是它最大的功绩。当然,还有给行业秀一下果子的解决方案,在软硬件和宣发侧提供些参考价值。

基础的判断建立以后,大概可以明确一个观点:XR 还需要至少 8 年的发展,没有谁能够一蹴而就,整个行业的玩家都要一起努力,踏踏实实,构建更多的产品用例。

在这个共识之下,我们回过头来看 XR 的基本价值。

01

先明确一个概念,所谓 XR,其实泛指 VR、AR 和 MR 在内的所有虚拟现实形态,其中也包括苹果自己搞的空间计算,算是 VR+MR。

  • VR:完全的虚拟现实,与现实没有互动
  • AR:以现实为主,一些基本信息叠加在现实环境中,作为现实环境的增强,但不会改变现实环境
  • MR:虚拟与现实融合,虚拟物体可以与现实实现互动,改变现实的某些状态

光听概念,其实挺绕的,而且概念之间也扯不清楚。

就说 VR 吧,自己完全虚拟一个游戏世界,不与现实搭边,这很好理解,是典型的 VR 场景。可是如果把现实世界的某处景物原封不动地 3D 建模,比如之前影视飓风扫描的庐山场景,这是虚拟还是现实?

又或者再进一步,用数字孪生,通过 3D 建模+传感器,实时显示某座工厂的当前状态,并根据传感器状态实时调整工厂相关设备的参数,这就算是 MR 了吗?

AR 的概念也很奇怪,它和 MR 之间又扯不清楚,比如前段时间热门的虚拟钢琴游戏,道理上讲它只是显示虚拟的音符,真正操作的是用户自己,而不是 AR 设备直接和钢琴通信,更改状态。那这算是虚拟与现实交互了吗?

如果通过提示信息而让使用者通过物理行为更改现实物体的状态也算的话,那这个边界又可以无限扩大。

所以,与其区分或者纠结 VR、AR 和 MR 的概念,不如换一种定义,根据它们的技术路线,简单分为眼镜和头显 ,反而要清爽很多。

本质上,无论是哪种 R,实际上只有两种硬件形态,而任一形态也都可以实现任一种 R。

在侧重点上,眼镜更看重设备的便携性,而头显则更看重设备的渲染能力,这是两者的根本分野。

选择眼镜的厂家,是希望设备能够被用户随身携带,最终目标是和正常的眼镜一样;而选择头显的厂家,则更看重在设备本身所能实现的性能。

这就和笔记本一样,最早是主机,后来是便携笔记本,再后来又有了超薄笔记本,便携和性能的取舍一直是电子设备的矛盾点。

理想的情况下,我们渴望的是既轻便又有强空间计算能力的 XR 设备,但当前的技术水平下可能是一种妄想。

更现实来看,眼镜和头显这两种硬件形态会始终并行存在,各自针对不同的使用领域。

由于性能的限制,头显所能实现的其实是智能眼镜的全集。那我们不妨先从头显聊起,看看一个完全形态的产品,它的媒介特性究竟是怎样的(我们假设头显 VST 的渲染和延时都在理想状态,和眼镜的光学无二)。

02

头显作为一种媒介,最核心的特质在于创造了一个自由支配物理规则的虚拟空间,从而实现对于现实的模拟和再造。

这里面最最核心和关键的就是空间,也可以叫「空间化」。

人类创造的所有媒介形态,其实都是对现实的模拟和再造,摄影是、绘画是、电影是,就连动画也算。

它们都是对现实的模拟,区别只在于抽象程度。又由于掌握了物理规律,人类可以对现实进行再造,比如让动物讲话,或制造仿真软件,这让实验科学能够进一步拓展。

头显的最大贡献在于,它让媒介形态从平面转为空间。

这与 2D 同 3D 的对比不同,空间化的最大区别在于把观看者纳入了空间中,而非游离在空间之外。

一个新的元素「空间化」,再加上人类原先积累的对于现实模拟和再造的经验,就可以真正创造出真正意义上的赛博空间。

当然,这只是思辨意义上的快乐,宝珠也会蒙尘,一件事物不会因为它很有意义而被大众广泛使用,即使具备「空间化」的特点,头显也仍然要结合具体的情境讨论,在每个细微场景下它的实际用途。

讨论最重要的是问对问题。

那么最不会出错的问题是:什么样的场景需要「空间化」?

乐观主义者会觉得这是一个不言自明的问题,谁会不想要一个赛博空间呢?《神经漫游者》、《黑客帝国》、《盗梦空间》…我们不就活在这样的文化氛围中吗?

这样想当然没错,但想象是所有活动中最省力的一种。

头显只能提供提供「空间化」的能力,真正创造出赛博空间依赖于愿意为此投入时间、精力、金钱等各种资源的人。

这就好比PC带来了「信息化」,手机带来了「互联化」,可真正让 PC 走入千家万户是因为它对于信息的存储和对于数据的计算处理,而手机则由于它的通讯能力被广泛使用。

我们现在似乎把 PC 和手机都当成了一个平台,上面有各种应用。但它们都有一个核心的根,甚至这个根在最开始就是清楚明晰的,平台只是在这个根的基础上长出的果。

而头显的根又是什么?

以及,从商业化的角度,头显是否真的存在和信息存储、数据处理和通讯同等量级的市场?

03

追溯头显的历史,最早运用在飞行领域,用于夜间导航(红外成像显示人眼无法察觉信息),汤姆.福内斯的超级驾驶舱项目,简化了原先繁复的仪表盘,而以头显搞出了一套全新的交互。

这些的核心在于头显的佩戴方式:以平视的视角捕捉和呈现信息,同时不遮挡外界环境。

信息叠加在真实空间之上,对真实世界的物理状态予以提示,佩戴者可以所见即所得,直接通过虚拟屏幕进行相关操作,实现对佩戴者操作效率的提高。

头显对于需要复杂信息处理和操作的作业环境都可以起到作用,平视佩戴+可视化数据+信息处理(核心是空间化带来的多窗口和动态拟真)促成效率提升和错误率降低。

这条路很多公司都在走,微软、联想都注重工业场景。

操作场景外,头显对于制造业也有较大的作用。硬件制造需要原型设计,头显的空间化使得零部件得以具象化,虚拟空间的组装将极大地节省如汽车、飞机等精密机器的制造。

头显和 3D 打印一样,拥有改造传统工作流的能力。

零售业也同制造业类似,本质上都是要低成本提前呈现还没有确定的产品形态,并能够灵活调整,这就是比特相比物理分子的优势。

服装在线试穿可能还有些困难,但装修是确定可做的方向。

归纳起来,XR 能够为制造业、工业带来的是降本、增效、缺陷降低,为零售带来转化率的提升(不确定性降低)。

04

教育是另一种可能。

最早萨瑟兰创造虚拟头显时,其目的就是为了使得抽象事物可视化,他的原话是:

我们生活在一个物理世界中,通过长期的熟悉,我们已经对这个物理世界的特性了如指掌。我们对这个物理世界有一种参与感,这种参与感使我们能够很好地预测它的特性。例如,我们可以预测物体会落在哪里,从其他角度看众所周知的形状是怎样的,以及在摩擦力作用下推动物体需要多大的力。但我们对带电粒子的力、非均匀场中的力、非投影几何变换的影响以及高惯性、低摩擦运动缺乏相应的了解。与数字计算机相连的显示器让我们有机会熟悉物理世界中无法实现的概念。这是一个数学仙境的望远镜。

第一台虚拟头显(完全电脑渲染内容)呈现的内容是一颗环乙烷分子,佩戴者可以从各个角度观察它的结构。

这充分体现了头显「空间化」的特点,佩戴者不再只是看,而是真正可以和环乙烷分子互动,在不同视角观察它的结构,再进一步,甚至可以观察不同分子的合成过程。

对于教育或者学习而言,抽象事物空间化是尤为重要的事,我们生活在物理空间,所以习惯以空间化的方式思考事物,抽象化->具象化->可视化->空间化,通过这样的递进而使得事物被最终理解。

比如「局部最优解」和「梯度下降」远不如小球在凹凸的山丘上滚动来的直观,如果能够直观地在空间中看到它的演变过程,理解就会更加方便。

即使信息本身是抽象的,但它的交互方式如果能够转变为空间化,就会激发人的空间思考方式。

一块虚拟空间下的无限画布,多角度、多平面。不同平面间的白板结构本身就会激发新的思考,在空间下的走动也会促进灵感。

空间化单纯从结构上来说也能带来新的信息组织和思考行为。

但教育是内容导向的产业,需要专业领域的知识背景+合理的空间可视化编排,事实上即使是如今的视频时代,整体的教育方式也还是以书面文字为主,可视化的方式都还没有普及,空间化更任重道远了。

05

文旅、现场表演/展览/展示、影视也会有较大的应用场景。

海利格在 1957 年拍摄了纽约的街头景象,把它装到一台巨大的机器中,观众可以看到立体的纽约街头景象,感受风、声音和气味。

58 年后,《纽约时报》重新拍摄了纽约的街头景象,佩戴者通过 Oculus Rift 即可漫步纽约街头,并与故事中的人物互动。

头显的一大核心特质是对于穿越时间和空间的限制(空间化+自定义的物理规则),对于旅行来说,交通是一种阻碍。

景区可以通过对于实景的建模,再造一个真实的虚拟环境(搭配物理引擎),从而突破空间的限制。

头显另一难以复刻的魅力是:它是一辆时间列车,能够带你重回过去的景象,真实淌游在历史画卷中。

另外,景点的本质是稀缺性,展览、现场表演也是如此。

现场感(沉浸+社会关系)的重回,能够让供给被充分增加,话剧、演唱会、展览这些非标品可以像电影一样被二次分发,实现非标品的流媒体分发。

头显的另一大特质是对于现实环境的实时再现,结合远程在线直播将实现真正的千里眼, 在线实时直播旅行画面,跟随别人的视角;远程审厂,不用再跋山涉水;远程医疗;远程工作指导;头显对于远程会议、远程办公或许没有较大的用处,远程会议替代不了商务出行,出行带来的是一种态度,说明一种重视,同时也方便人情关系的培养;远程办公也无法替代近场办公,后者本质上是一种物理意义上的掌控。

而对于影视而言,头显所带来的则是无与伦比的沉浸感,虽然用户的自由选择会是一种困扰,但虚拟叙事已经探索出了微互动的路径,技术问题不会成为一种困扰,只有内容制作的成本和新的叙事逻辑需要琢磨。

只要体会过《纸鹤》、《花房姑娘》等 VR 作品的观众,不会怀疑它在叙事上的巨大魅力。

06

说到沉浸感,就不得不聊聊游戏,相比于影视,虚拟游戏带来的是沉浸感+互动感,仿佛一个真实的虚拟世界。

但主机游戏都有上限,且价格下探到 2000 元以内的价位,才能有一定的市场竞争力。

直面 C 端的产品,除了内容本身外,硬件本身就有成本。除非有相对丰富的内容供给,否则难以说服消费者购买。但是它的上限可能就是 Switch,远不是手机这个量级。

头显自诞生起,大家就看好它在游戏上的前景。

从 1990 年左右雅利达和任天堂就开始尝试,受限于硬件没有成功,一直到 Quest 2 带来新的浪潮。

几个游戏硬件的天花板:PS2 和 NDS 大概 1.5 亿台,Switch 大概在 1.3 亿台,现在 Quest 2 大概 1800 万,比照老大哥们,未来的市场容量差不多也就是亿级。

没有人怀疑沉浸感这件事,但一直强调沉浸感可能是个问题。

即使是《阿斯加德之怒 2》,它固然无比沉浸,但没有让我有想长时间待在里面的欲望。我把原因归结为:没有人喜欢呆在一个空寂的世界,哪怕是鲁滨逊还有星期五陪着。

社会交往这件事很重要,它不是社交,而是一种氛围,这种氛围带来一种熟悉感和群体的归属感。

为什么玩游戏时要透视现实环境,真的体验过就会懂,当你完全沉浸时是蛮孤独的一件事,陌生的环境里只有你一个人。

而人是要时刻感知周围环境的,不然会有一种莫名的恐惧,透视现实环境实际上带给人一种安全和稳定,它是一个参照的锚点。

当获得沉浸感的时候,玩家丧失的是对现实的感知,熟悉感和安定感,带来了负面产物——孤独感。这些在你玩 Switch 或者 Steam 的时候是不会有的。

唯一让我不会有这个感觉的是VR Chat,因为有人。

如果虚拟游戏想要获得成功,融入社交是必不可少的,哪怕完全没有互动的环节,只要知道有人和自己一起,孤独感就会消融。

有一种可能性,可以提供社交的充分供给,即借助大模型,但这条路受限于大模型当前的能力。

Character.ai 已经在这条路上尝试,Vtuber 也在盛行,不过 Character 只公布了月活,还没有留存率的数据。Vtuber 的头部公司也还没有跑出头部的企业。归根结底,还是 GPT 本身的能力问题,还没有办法真正扮演一个人。

两个能聊得来的人,需要兴趣相投,这背后是对于兴趣话题领域专业知识的积累和独特观点的碰撞共鸣,GPT 还没有办法达到这个水平,尤其是独特观点。

从我个人的体会来看,在观点层面上,多数时间仍然在说一些正确的废话。因此,直面 C 端的 XR 内容,当下的阶段,仍然逃不开真实的社交关系链。

目前来看,真正刚需的产品都不在 C 端,但 B 端的用户很难往 C 端迁移,存在一个客户群的鸿沟。

在 C 端,似乎找不到一个如通讯、信息存储与数据处理那般刚需级的需求,它更多是体验的升级。

也因此,丰富的优质内容供给 + 社交链是这类产品的合理路径,通过提供足够多的优秀内容,来抵充硬件本身的成本。等到硬件的量大起来,再有越来越多三方的丰富应用,最终成为一个平台级的硬件。很多人吹 AIGC,但我并不特别看好。

现在缺的是优质内容,不是缺内容。

粗制滥造的内容没有意义,反而对生态是一种破坏。

真正创造好的内容的,仍然只属于少数人,专业的生产者。AIGC 能够成为他们工作流的一环,对现有的工作进行提速,那就是最大的贡献,但指望它颠覆,甚至 AI 自生成内容,就有点天方夜谭了。

它的难度可能不啻于大模型真正地理解人类语义而非是序列预测。

07

工业操作、制造业、教育、文旅…抛开功能性的需求不谈,头显想要成为平台级的硬件,最终的归宿仍然落在 C 端内容上。

那么问题来了,假设优质内容充分、社交链充分,头显真的能成为手机级的智能硬件吗?

我的看法是仍然不行。

手机最初由于硬件成为刚需,而后能够成为风靡全球的产品,离不开它的两大特性:移动化 + 碎片化。

这是被说烂的观点,但恰恰这两者与头显都是冲突的。

头显笨重,不方便携带;它的沉浸式体验恰好与碎片化是相反的。

看看我们最常干的事:刷微信、刷朋友圈、刷抖音、刷小红书、刷 B 站、来一把十来分钟的游戏。

这些事项,最大的特点就是短。

物质充裕的情况下,人类最大的痛苦就是无聊,没有一刻可以闲下来。

可是大部分时间人是无目的,人需要随便什么东西,去填补这种空虚,而又不至于特别沉浸。

头显和这种临时化的需求是天然违背的,但偏偏这又是它的天赋点所在。

网游小说里,大家在虚拟世界沉迷,要么是现实世界已经被机器人掌控了,要么是发明了夜间睡眠仓。

工业化的生活结构下,这种矛盾是注定了的。

是生活把时间分割成碎片,人是无可奈何的。

因此,头显的最大参照物仍然是电脑,它更适合完整时间下的使用,主流场景是家中。如果它的分辨率有一天到达了可工作的水平(且成本压下来),或许还能够占领办公市场,但 PC 级的出货量和使用频率,可能也是头显的极限。

08

既然头显不行,那么阉割了的智能眼镜呢?

或许可以。

智能眼镜的核心是为了便携服务的,所以它阉割了许多性能,目的是为了让眼镜做轻做小,最终可达到如普通眼镜一般在清醒时间皆可穿戴的目标。

那么阉割之后,智能眼镜所保留下来的能力,能不能让它打败手机,成为一种新的潮流?

我们可以看下空间化的具体衍生:多窗口、拟真交互、虚拟环境…哪一条可以在碎片化下生存。

关乎沉浸感或拟真的自然不可以,这与碎片化违背,也是性能消耗的大头。

那么多窗口?智能手机受限于屏幕方面,在尺寸方面已经走到了镜头。

折叠屏虽然增大了尺寸,但也不会有 iPad 的效果,而 iPad 本身的累计出货量也才刚超过 1 亿,说到底,iPad 虽然大,可也没大到能够带来全新体验的程度。

那么 XR 的多窗口,能否给信息呈现带来新的可能?

XR 的多窗口,有两个特征:一是大,所以可以铺多个窗口;二是具有空间结构,这就是所谓的空间屏概念。

空间屏突破了手机的物理限制,而使得信息以空间化的方式多屏呈现。

按照果子哥的定义,存在 Window 和 Box 两种,我们可以边刷网页(window),边逗宠(box,宠物以空间化的方式呈现)。

如果只是 window 和 box 两个层级,智能眼镜努努力还是可以达到的。但这不是智能眼镜的核心,如果这样,它仍然只是一种体验的升级,而没有带来根本性的创新。

真正爆炸的组合是眼镜+空间化+多模态模型的完美搭配。

要不说上天拯救了 AR,如果不是 CloseAI(笑)带来了多模态,智能眼镜的上限可能就是观影眼镜,最多成为像 TWS 耳机一样的手机配件。

可是拥有多模态模型后,它的空间化的信息呈现方式就派上用场,它的眼镜形态也成为最完美的多模态载体。

我不想谈论个人助手的可行性,要真正实现这个目标还有一大堆事情,至少要实现 agent 之间的自调用。

我也不觉得目前的实时翻译能够帮助智能眼镜扩圈,毕竟它的使用范围有限。

拍照记录和观影可能是现阶段最大的杀手锏,这都跟多模态没有太大关系。

所以接下来谈论的仍然是一种玄学,但具有想象和令人兴奋的空间。

软件一直以来处理的是二手数据,中间需要用户作为中转。看到一件衣服,需要先拍下来,再淘宝识图,寻找到对应的商品。

智能眼镜+多模态以后,所见即所得,同时信息可以直接显示在眼前,多窗口模式下同时打开多个购物软件,旁边再有一个张大妈显示该商品的历史价格变动。

于是,整个交互流程被极大简化,多窗口带来的信息呈现优势不言自明。

人类 80% 的信息来自视觉,智能眼镜带来了实时的视觉捕捉,多模态带来了实时的语义理解。实时视觉捕捉+语义理解,将带来极多的崭新的可被捕获的视觉数据。而最终,得益于 XR 的空间化,这些数据的使用和呈现以更具效率和可视化的形式,更舒服地呈现在用户眼前。

于是,会有新的应用去处理新的数据,在新的形式下构建新的交互方式,这是智能眼镜所能带来的平台级的革命。

而年轻的冒险者们,趁着大象转身的时候,抓住新的可能。

09

当然,还有很多问题留待解决:

  • 要达到 B 端的需求,设备的屏幕分辨率需要进一步提升,捕捉外界信息的摄像头也要继续升级;
  • 延迟要进一步降低,果子哥已经做到 12 毫秒,其他家还差得远;
  • 通信要进一步提升性能,无论是云端 WiFi 和 5G,还是设备间的本地通信(如果是分体式,计算主体和显示主体分离,当前的蓝牙显然是不够的,还需要其他的无线通讯方式);
  • 新结构与 ID 造型(如何便携);
  • 多模态大模型的发展(幻觉、agents、prompt、专业知识库);
  • 功耗与续航;

急不得,按照商业的发展规律,至少还有 8 年,XR 设备才有可能成为主流。

耐心去解决切实存在的问题,希望我们能够构建想要的未来。

ChatGPT 的对话框过时了?这款 AI 产品提供了一种很新的聊天方式

aigc阅读(50)

「Message ChatGPT…」

当我们开启某个话题前,ChatGPT 空白的输入框里默认写着这一句话。

和 ChatGPT 的交互,就像和朋友的聊天,你来我往,从上到下,线性的结构非常直观。

然而,这就是和 AI 互动的最佳模式吗?

一、还在翻和 ChatGPT 的聊天记录?一种很新的交互方式来了

学生时期,我们应该都见过白板,老师用可以擦除的马克笔,在白色的平滑板面上写公式。

Canva、Figma 等设计平台,则提供了在线白板工具,它们沿袭了物理白板的特点,但画布是无限的,形式也更加自由,就像现实的办公桌一样,可以灵活地放置各种东西,很适合进行头脑风暴。

在线白板工具示意图. 图片来自:Canva

如果 ChatGPT 也以白板的方式和我们互动,会产生什么奇妙的化学反应?

Flowith 就是这样一款 AI 内容生成工具,最近发布了公测,一周新增约 2 万名新用户。

它在形式上最大的亮点是,把纵向的聊天记录,转变成了动态的画布,为人机交互提供了一种很新的方式。

Flowith 支持 GPT 4 Turbo、Claude 3 Opus 等模型,本质和 Perplexity 差不多,都是在他人的地基上搭建服务,但创新之处各有千秋。

Flowith 的底部仍然有输入框,但你是在一块类似在线白板的无限画布上,和 AI 互动。

这里还引入了一个新概念:节点。

每次提问产生新的节点,节点可以再发散和引用,串成很多不同的线。

举个例子更加直观,直接问 AI:「给我头脑风暴 5 个 AI 创业想法。」

Flowith 给出的答案是:AI 医疗影像诊断、AI 在线教育平台、AI 智能投资顾问、AI 智能家居可穿戴设备、AI 场景消费推荐。

然后,我们可以在「AI 智能家居和可穿戴设备」的分支下,追问目前有哪些主要玩家。

第一次看到答案以卡片的形式分叉和移动,心里会忍不住「哇」一声。

这个例子使用的是「思维导图发散模式」。除此之外,Flowith 还提供了自动决策模式、联网超级搜索模式、生成图片模式,适合不同的问题和场景。

开放性的问题多半交给思维导图模式,联网搜索模式则像 Perplexity 的平替,能搜索、能总结,甚至还能开脑洞。

当我输入「国内 AI 搜索的发展情况如何」,Flowith 的输出分成三栏。

左边提供实时搜索结果和图片,可以进一步追问,让 AI 总结某个链接的内容;中间对几个 Google 排名靠前的链接进行了总结,等于输出了一篇短小的「文献综述」。

但右边才是最有趣的一栏,AI 给出了知识图谱,帮我们拓展思路,搭建知识体系。

「AI 搜索发展现状」本身是一个非常宽泛的问题,Flowith 延伸出了不少细分的方向:AI 在搜索引擎功能中的集成、AI 搜索算法的进展、AI搜索结果中的偏见……

好奇心强的人类,可以不断探索下去。选中知识图谱的动态效果也有些魔性,QQ 弹弹,像果冻的质感。

而在自动决策模式下,Flowith 会根据你的提示词,自动切换到最合适的 AI 模型,判断是否需要联网搜索,是否需要文生图,是选择速度优先的 GPT-3.5,还是更强的 GPT-4 和 Claude 3,可以窥见 Agent 的雏形。

比如,问问广州今天的天气如何,Flowith 就会进行实时搜索。

从整体来看,Flowith 的动态 UI 也很酷,整块画布可以拖拽、缩小、放大,节点可以引用、追问、删除、重新生成。

使用 Flowith,有些类似我们过去在草稿纸上涂涂画画思考问题,发散、延伸、删除,漫无边际,不像逻辑清晰的大纲,也不像和 ChatGPT 之间直观的聊天记录。

但这就是我们使用画布的目的,在发散创意的过程中,慢慢地把思路捋清,如同流水那样滔滔不绝。

画布式 AI 的可视化,本身就是思考的外显。

二、形式影响思考,拒绝让大脑困在「聊天框」

创新的形式,本质是为了实现人类和 AI 更高效的交互。

如果说 ChatGPT 是聊天式的 AI,Flowith 这类产品,可以简称为画布式的 AI。

类似地,设计平台 Figma 的在线白板工具 FigJam,也在去年 8 月提供了内置的 AI 部件 Jambot。Jambot 结合了 ChatGPT 的生成能力,可以进行头脑风暴、总结、改写等。

参与开发的产品设计师 Aosheng Ran 在发布时提到:

我想我们被困在聊天框里了。就像我们现在被困在 Zoom 中一样。

Jambot

和聊天式的 AI 互动,确实存在局限性。

ChatGPT 等聊天机器人互动是基于线性的结构,但思考往往不是线性的,大模型又有一定的随机性,生成的内容,比如文案、翻译、代码,往往需要反复修改、对比和测试。

ChatGPT 纵然可以反复生成,但如果某个问题对话了几百次,聊天记录过长,我们可能也不知道自己聊到哪里了。

哪怕把一个问题研究清楚了,ChatGPT 无法直观地呈现从这个问题引发出去的不同分支。

但画布式的 AI 是不一样的烟火。

同一块画布上,我们可以反复修改提示词,或者用不同的大模型多试几次,答案全部保留;我们也可以同时完成多项任务并查看结果,搜索、头脑风暴、内容总结等需求并行不悖。

图片来自:X@DerekNee

比如,假期快到了,我先用了头脑风暴模式,让 Flowith 列出 AI 旅行助手应当具备的 5 个特点,再用了联网搜索模式,让它直接找出 3 个目前最主流的 AI 旅行助手应用。

以此类推,涉及到需要反复生成、对比内容的创作场景,以及发挥 AI 多项能力的工作流,画布式的 AI 往往比聊天式的 AI 更有趣、更直观,也更具互动性,不必新开很多的聊天页面,本身就是一块无限的创作土壤。

在线白板工具引以为傲的团队协作功能,也是画布式 AI 所擅长的,聊天式 AI 只能甘拜下风。

ChatGPT 支持共享聊天记录,但不能从分享的链接继续对话。

Perplexity 支持分享搜索结果,其他用户可以在原有的基础上追问,但追问后会创建新的链接,和我们分享的并不在同一个页面。

然而,Flowith 只要开了「可编辑」的权限,对方就可以参与团队协作,在输入框提出自己的问题。如果只是「可查看」,虽然没有输入框,对方也可以发表评论。

想象一下,我们分享一个「flow」给别人,直接在画布上进行实时多人生成和讨论,又不会干扰原有的痕迹,激情和甲方 Battle,有种在飞书文档挥斥方遒的感觉了。

类似 Notion 的模板,如果不知道怎么更高效地使用,Flowith 还提供了 Discover 页面,向你推荐别人的用法。验证可行的工作流,被加工成了一个个开箱即用的半成品。

之所以反复强调画布和聊天的不同,甚至隐隐有些把它们对立起来,是因为交互的方式,潜移默化地影响着我们思考的方式。

如果只是看到一个输入框,可能我们的思维也会陷入「对话模式」,像和人类交流一样和 AI 说话,向它问好,问它如何一夜暴富,或者向它倾诉自己的心情。

这样的用法也很好,但当使用 AI 的方式更多、更自由,内容生产也就有了更多的可能,AI 能力的边界也就离我们更近。

三、创新不是终点,不迷信任何一种交互形式

画布式的 AI 和聊天式的 AI,并非你死我活的替代,而是美美与共的互补。

聊天式 AI 固然有缺点,画布式 AI 也并非总是笑到最后。

如果只是找一个简单的问题、了解某个陌生的概念,还是求助 GPT-4 和 Perplexity 更快。

作为一个初出茅庐的产品,Flowith 也不是那么好用,短板肉眼可见。

生成图片模式支持的模型不多,目前只有 Stable Diffusion 和 DALL·E 3,之前支持 Midjourney,但现在不可选了。

同时,Flowith 调取的模型有 2 个梯队,高级的 T1 和基础的 T2。虽然 GPT-3.5 Turbo 等 T2 模型在邀请朋友后无限次免费,但 GPT-4 Turbo、文生图模型等 T1 模型有使用额度。

在个人的体验之中,Flowith 也出现了一些奇怪的状况,但不确定这些问题的普遍性。

用中文向 Flowith 提问,答案也可能是全英,有些影响用户体验。拿同样的提示词问 GPT-4 和 GPT-3.5,回答的都是中文。

虽然 Flowith 支持读取 PDF,但如果上传的文件过大,很可能不成功。

Flowith 的交互也不够流畅,输入新的问题时,其他节点和整体界面总会发生动态的变化,有时候会让人迷失视觉的重心。虽然效果酷炫,但新鲜感只是一时的。

另外,在对 Flowith 的某个节点进行追问时,上下文不一定连贯,出现过答非所问的状况。

尽管产品还不那么成熟,但 Flowith 做了和 Perplexity 类似的事情:在大语言模型的基础上,考虑怎么应用 AI 的能力,让 AI 更好地加入我们的工作流。

Flowith 开发者 @DerekNee,在 X 分享了他对产品的见解——不应该只把 Flowith 看作是一个白板 AI 工具。

他本身是 GPT-4 和 AI 产品的重度用户,但在写文案、写代码、搜索内容时,主流的聊天式 UI 不够高效,不适合反复的修改、对比和测试。

在他看来,白板是为了让大众理解二维画布、节点概念的一个代替词,Flowith 的核心依然是帮助用户生成内容,探索 Human-AI 新的、更有效的交互方式。

这和 Figma 的理念不谋而合。推出 Jambot 时,Figma 在博客写道,AI 是一种增强工作和协作的工具。与其说让 AI 为你做事,不如说 AI 在帮助你做得更好。

WPS、钉钉等办公软件 AI 化,听用户的指挥一键生成 PPT,让 AI 助理进行文档速读,其实也是这个道理。

Flow 的本意「流动」,某种程度上就是我们对 AI 工具的期许:帮助人类的思维流动起来。

其实,我们思考和解决问题的方式已经被 AI 改变了。

Perplexity 等 AI 搜索,渐渐变成了日常离不开的产品,人类提出问题,它们搜索、摘要、成文,自己已经是一个成熟的工作流了,我们付出更少,但效率更高。回想只用传统搜索引擎的日子,万古如长夜。

还没有和人类磨合得很好的 Flowith,无法代替 ChatGPT,但这不是问题。

Canva 等设计平台能在 Adobe 的领域闯出一条路,是因为搭建产品的底层与 Adobe 不同,前者是模板和部件,后者是对图片的像素级调整。

Canva 抢不走 Adobe 的忠实用户,但吸引了不会或者没法用 Adobe 的用户。

Flowith 也是类似,本质是在填补市场的空缺。Perplexity 不重复 Google,Flowith 不重复 Perplexity。

ChatGPT 引领了聊天式的 AI,用起来确实便捷又简单,在它之后,很多产品照做了,用户也默认接受了。

然而未来,我们与 AI 的协作,不会只是翻译、问答,应该允许更多有趣的想法发生,它们不一定成功,但足够带来惊喜。

毕竟,AI 的时代,变化总是很快,必然还有更新鲜的 AI 交互方式,提升效率、创新思维、改变工作流。

在玩过更多产品之后,我们才能归来仍是少年地惊呼:这才是我想要的 AI 应用。

刚发布就被对标Sora,这个国产模型来头这么大?

aigc阅读(52)

前几天,世超上网冲浪的时候,刷到了几个 AI 视频片段。

大船驶来的压迫感,被风吹起的发丝和丝巾,太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。

真实度也是一绝,在湖边随着镜头移动,不仅光线跟着变化,连天空、树木的变化都跟咱肉眼看到的没差。

要不是右下角有水印,我还差点以为是 Sora 的视频又上新了。

所以这次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品,而是初出茅庐的国产视频大模型 Vidu

咱看到的那些视频,就是前几天, Vidu 在中关村论坛的人工智能主题日上公布的。

它最长能生成16秒,一句“木头玩具船在地毯上航行”的提示词,就能生成下面这长长的一段,一镜到底的丝滑程度,怕是路过的谋子导演看了都会点赞。

Sora号称能真实模拟物理世界的拿手戏, Vidu 照样也能实现。

让它生成一段“汽车加速驶过森林里乡间小路”的视频,像是树林缝隙透过的阳光,后轮扬起的灰尘,都很符合咱们的日常认知。

而且 Vidu 的想象力比咱人还要丰富,画室里的一艘船驶向镜头的场景,它分分钟就能给“拍”出来,看这效果,不知道该有多少动效师瑟瑟发抖了。

甚至在某些提示词下, Vidu 的理解能力比 Sora 还强,比如“镜头绕着电视旋转”的提示词, Sora 压根儿就没 get 到旋转的意思,反而是 Vidu 能轻松理解。

有一说一,在看完 Vidu 的这些视频后,世超是真觉得它是目前市面上,唯一一个能在画面效果上和 Sora 拼一拼的模型。

虽然现在 16 秒的 Vidu 在时长上还比不上 60秒的 Sora ,但它的进步也确实是肉眼可见的快,据极客公园消息,上个月, Vidu 在内部只能生成 8 秒的视频,上上上个月,还只能生成 4 秒的视频。

反正媒体们都把 Vidu 比作是“ Sora 级视频大模型”,网友们也都在评论区喊话催他们赶紧开放内测。

不过这里面世超更好奇的是,咱之前压根儿都没听说过 Vidu ,怎么突然平地一声雷,搞出了这么大的阵仗?

我们也顺藤摸瓜找了找资料,发现Vidu身上,值得说道的东西还挺多,甚至仔细咂摸下,还能从Sora身上找出点Vidu的影子来(世超可没说反)。

它背后是一家名叫生数科技的公司,别看这个公司才刚满一周岁,但它可是在娘胎里就开始攒劲儿了。因为它的亲妈,是清华系AI 企业瑞莱智慧,背后的研究团队,几乎全是这里面的人。

而在成立生数科技之前,团队就已经把视频大模型研究得很深入了。

尤其是在图像生成这块很火的扩散(Diffusion)模型,他们算是业内第一批研究这个模型的,整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。

正是因为有这么好的底子,早在2022年9月的时候,团队就找到了做 Vidu 的灵感,就是下面这篇论文。

世超让AI帮咱解读了下,大概的思路就是,扩散模型在生成图像这块挺强,而大语言模型里用的Transformer有个规模(Scale)效应,参数堆得越多,性能就越好。团队就想着,能不能把这两个的优点结合一下,整个融合架构,提升图像生成的质量。

于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ,还起了个名字叫 U-ViT ( Vision Transformers )。结果试下来发现这么一结合还真有用,光是相同大小的 U-ViT ,性能就比 U-Net 强了。

那好嘛,既然这条路走得通,他们也顺势把技术路线定在了 U-ViT 上。

然鹅。。。在团队悄悄酝酿 Vidu 的时候,大洋彼岸的UC伯克利的一个研究,却让 OpenAI 的 Sora 捷足先登了。

就在清华小分队提交论文的两个月后,UC伯克利也在预印平台ArXiv上提交他们的论文了,一样说要把Transformers揉在扩散模型里面,只不过名字起的更直白了点,叫DiT( Diffusion Transformers )。

看着是不是挺眼熟,没错, OpenAI 的 Sora 模型,用的就是伯克利的 DiT 技术路线。

但因为清华小分队早发了两个月,当年的计算机视觉顶会CVPR 2023还以“缺乏创新”的由头,拒了 Sora 的 DiT ,收录了 U-ViT 。

而且早在2023年年初的时候,清华小分队还用U-ViT,训练出了一个近10亿参数量的开源大模型 UniDiffuser 。

算是第一个用行动证明了,融合架构也遵守 Scaling Law 这一套规则,也就是说随着计算量、参数量越来越大,模型的性能就会随指数级上升。而这个 Scaling Law ,同样也是 Sora 这么强的秘密武器。

所以照这么来盘算,Sora其实还得叫Vidu一声祖师爷才对。。。

但现实世界却是, DiT 被 OpenAI 带着一路飞升。

清华小分队呢,计算资源没 OpenAI 那么到位,也没 ChatGPT 这种珠玉在前,总之就是啥啥都不完善,他们只能慢慢来,先做图像、 3D 模型,等有家底儿了,再去做视频。

好在他们身上还是有点实力在的,稳扎稳打慢慢也赶上来了。去年 3 月,清华小分队们成立了生数科技后,就在马不停蹄地搞自家的产品,现在图像生成和 3D 模型生成大伙儿都能免费用了。

并且靠着这两个产品,刚满一周年,它就攒了好几亿的家底。

像是成立 3 个月的时候,就完成了一波近亿级的天使轮投资,上个月,又完成了新一轮的数亿元融资。参与投资的,也都是智谱 AI 、 BV 百度风投等等业内大佬。

反正看这波架势, Vidu 还真有可能成为国内的黑马,去对标 OpenAI 的 Sora 。

不过生数科技那边,倒是觉得只把 Vidu 看作国产版的 Sora ,实在是有点缺乏想象力了,因为他们给 Vidu 的定位,可不仅仅是个视频模型,而是图、文、视频全都要,只不过现在视频暂时是重点。

当然了,好听话谁都会说,能不能搞出来,咱还得实打实地看成品。

世超已经去排了队,等拿到内测资格,再跟大伙儿同步一波。。。

图片、资料来源

Scalable Diffusion Models With Transformers

All are Worth Words:A ViT Backbone for Diffusion Models

机器之心,专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型

界面新闻,生数科技完成新一轮融资,国内多模态大模型厂商着力追赶Sora

极客公园,国产 Sora 的秘密,藏在这个清华系大模型团队中

新智元,图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发,硬核AI盛会破算力黑洞

钉钉自己挤上牌桌

aigc阅读(43)

钉钉是什么?

很多人对它的认识,可能还停留在“办公软件”上,上班打卡,工作协同等。实际上,钉钉越来越不像“钉钉”了。

过去一年来,自宣布全面智能化后,在大模型的重塑下,钉钉正在向全新的“AI Agent平台”演进。特别是4月18日,钉钉上线AI助理市场(AI Agent Store),企业、个⼈⽤户、开发者开发的AI助理可以分享给更多人,这条路线的未来方向变得更为清晰。

这也是钉钉决心“All in AI”之后,为行业蹚出的一条从“单点应用+AI”升维到“AI助理+AI原生应用”的大模型落地实践之路。其意义按照钉钉总裁叶军的说法,即是钉钉将成为下一个Midjourney、下一个Pika的诞生地。

他还表示,基于AIGC浪潮进⼊⽣产⼒和应⽤场景的判断:AI Agent是最佳AI应用入口。钉钉将建设AI智能助理平台与应用市场,让用户、开发者、ISV 在钉钉上都能低门槛开发个性化AI助理,让钉钉上涌现出更多优秀的AI应用。

一、卷向AI Agent

这个目标不可谓不大。当前,整个大模型赛道都还处于激烈的淘汰赛阶段。OpenAI、百度等国内外领军大厂都没有十足的信心进入到下一轮比赛。比如李彦宏就多次在公开场合表达了自己的“焦虑”,他在一次活动上就说过,“过去接近一年的时间,我看到媒体、社会、公众主要的兴奋点还在基础模型上,没有转到AI原生应用上,这使我多多少少有点着急”。

从这个角度看,钉钉正在这轮比赛中,以自己的方式挤上牌桌,并为下一轮比赛赢得先机。那么,钉钉为什么会选择在AI助理,也就是AI Agent上“开卷”?

事实上,AI Agent概念诞生至今也就一年多时间。行业公认的发端是2023年3月发布的Auto-GPT,被OpenAI科学家Andrej Karpathy称之为“prompt 工程的下一个前沿”。但这个大模型爆火后的早期产品,作为AI Agent还显得十分稚嫩。当OpenAI升级部分功能后,Auto-GPT看起来更像一个“傻瓜”,无法有效满足个人或者企业的需求。

但它就像开了一道闸口,更多的AI Agent开发平台相继涌现,业内也开始普遍认可AI Agent的重要性。典型如比尔·盖茨,他在去年年底的一篇个人博客中强调,“Android、iOS和Windows都是平台,AI Agent将成为下一个平台”。他还预判,随着AI技术的日益普及,未来五年内,各种应用程序将被替代,手机或者电脑可以根据用户日常用语下达的指令,就能够处理请求。不远的将来,任何上网的人都能够拥有一个由人工智能驱动的个人助理,也就是“AI Agent”。

Meta创始人扎克伯格也曾表示,看到了“以有用、且有意义的方式,向数十亿人介绍AI Agents的机会”。

除此之外,百度前首席科学家吴恩达也提到,“所有从事人工智能的人都应该关注AI Agent”。他认为,通过Agent,人工智能能够胜任的任务种类将会大幅扩展,即便用参数更低但响应更快的大模型,通过更多轮次的迭代,也能比更大参数的模型效果好。

对此,吴恩达团队还让大模型写一些代码并运行,最终对比不同模型和工作流程得出结果的性能:仅用GPT-3.5模型准确率为48%,仅用GPT-4模型准确率为67%,GPT-3.5+Agent效果高于GPT-4模型的表现,GPT-4+Agent的效果则远高于GPT-4模型。

AI Agent市场的快速发展也超出很多人的预估。MarketsandMarkets数据显示,2023年全球自主人工智能和自主智能体(Autonomous Agent)市场的收入规模超过48亿美元,到2028年有望达到285亿美元左右,预计2023-2028年的年复合增长率为43.0%。

由此也不难看出,AI Agent正在受到全行业的关注,并不断通过能力迭代,让其准确性更高。甚至可以说,一个属于AI Agent时代正在到来。对钉钉来说,当下拥抱AI并不断落子,卷向AI Agent,也是在希望“大力出奇迹”,踩着趋势鼓点的顺势而为。

二、短板变长板

不仅如此,钉钉还在进一步探索行业最为关心的话题:AI Agent如何从想象力转化为生产力?根据唐辰了解的信息,钉钉的探索落在具体动作上,可以分为两个阶段:

第一阶段是自我AI改造:2023年4⽉,钉钉宣布全⾯智能化,所有产品要⽤⼤模型重塑⼀遍,在随后的100多天内,钉钉17条产品线完成智能化再造。

第二阶段是走向开放平台:在完成自我AI改造后,钉钉开始将智能化底座(AI PaaS)开放给生态伙伴和客户,并推出基于AI PaaS的创新产品“数字员工” 把改造继续深入到生态层。此后钉钉个⼈版AI更新、钉钉7.5版本发布、AI助理市场上线,钉钉AI的远期目标浮出水面,最终鲜明地落在AI Agent平台上。

根据钉钉介绍,钉钉AI助理建立在大语言模型之上,将具备感知、记忆、规划和行动能力。更关键的是AI助理可以和钉钉上丰富的应⽤、第三⽅应⽤、企业⾃建应⽤⽆缝结合,也可以通过⼯作流,在创建时对AI执⾏任务的流程进⾏拆解和编排,使得AI助理可以主动接管完成相应操作,执⾏更复杂的任务。

也就是说,这种能力并非只在钉钉内部,它还具备了跨应用程序的执行能力,用户可以根据自己的想法和需求,打造一个在钉钉内部、第三方以及企业自建应用之间“自由穿梭”的AI Agent。

目前,钉钉为AI助理的创建预置了智能问答、图像生成、内容创作、数据统计等官方AI能力,用户仅需简单配置后即可使用。针对开发者、IT团队,支持通过钉钉AI PaaS快速开发自定义的AI能力,通过钉钉开放的API、连接器,与SaaS 应用、本地系统等原有系统连接。

这些功能,有媒体将其形容为“这是一个面目全新,甚至看起来跟过往钉钉迥然不同的App”,其AI能力内置在钉钉里,可以随时切换,避免复杂的下载。同时,它提供了AI对话,AI绘图等多项功能,这些功能同样是AI Agent的能力但充满to C的味道。

这在钉钉看来,Al助理将成为未来应⽤的主流形态,必须形成丰富的价值商业交换模式。钉钉官⽅的Al助理,企业、⽣态伙伴和开发者构建的Al助理将成为钉钉AI助理市场的三个主要组成部分。钉钉之所以敢于迈出这么大的步子,在于钉钉本身的属性。叶军介绍,“一般一个新的技术在生产侧、在工具侧、在B端更容易落地。”

360董事长周鸿祎曾多次表示,随着开源大模型的发展,大模型开始“走下神坛”,从卖“原子弹”的生意,变成了卖“茶叶蛋”的生意,真正的壁垒从技术变为了场景和数据。他还指出,企业用大模型不能冒进,而是要用AI逐步改造业务,循序渐进,在实践中要拆分场景具体分析,在业务流程上找准切入点,选择与大模型成熟能力匹配的业务环节切入。

顺着他的思路来理解,Agent就是一个为了解决复杂场景,甚至是必须依靠复杂场景而“存活”的强大技术方案。当一个复杂但边界清楚定义清晰的问题放在面前,Agent的威力才会发挥到最大。

值得一提的是,过去钉钉的场景过于分散、过于复杂的吐槽,在AI时代反而成为其落地的场景优势,无异于是一次短板变长板的反转。

三、钉钉上牌桌

最新数据显示,钉钉⾸批上架近200个AI助理,有C端也有B端助理,覆盖创作设计、学习教育、运营推⼴、销售客服、⼈事⾏政、财税法务、电商外贸、⽣产制造、企业服务等领域,其中30多个来⾃⾏业化专业场景。

这也说明,钉钉具备天然的AI应⽤场景,它反向对接大模型来做AI助理产品,并不是拿着锤⼦找钉⼦。简单来说,上连应用场景,下连业务数据,钉钉跑出了自己的差异化打法。

再回到一个关键问题:在钉钉上构建AI Agent,和直接在底模型上构建相比有什么优势?根据钉钉的AI助理能力来看,主要有4点表现:

首先,AI助理能够和钉钉能够深度绑定和结合。比如,AI助理和钉钉的场域是充分融合的,他们可以像组织成员⼀样可以被加⼊到通信录,被拉⼊群聊,在⽂档⾥被@,在OA审批⾥加⼊处理⼈列表,拉⼊⾳视频会议等。在此基础上,AI助理可以感知到⽤户及相关⼈的身份/岗位/职责,以及钉钉各场域上下⽂:⽐如被拉⼊群聊时,当前群的群成员、群身份等。有了更精准的环境感知,AI助理在意图识别、技能路由、推理规划等⽅⾯的效果都会显著提升。

其次,解决流量或者合理性问题。钉钉本身就有各⾏各业的需求和场景,⽤户天然存在场景,场景中存在需求;Gpts、⼤模型等⽬前存在的问题,是缺乏明确的⽤户需求,⽤户有需求时才去找AI。这对开发者⽽⾔,也意味着潜在⽤户已存在。

第三,钉钉AI助理市场,是钉钉⾯向AI对开放能⼒的进⼀步升级,且与原有开放的连接器、API、低代码等体系融合,并⾮⼀个独⽴的开放体系。钉钉原有的开放能⼒,如:openapi、连接器、数据资产平台、1000w+ 低代码应⽤、5000+⼊驻 ISV,已经验证⽣态的商业路径的合理性。

第四,ToB很难存在单个现象级应⽤,⽽是千万个⻆⾊和⾏业的助理,满⾜特定的⽤户⼈群。这决定钉钉AI助理市场,不做全量推荐,只推荐精选过的AI助理,更具有行业属性、行动能力和专业能力。

这些也成为钉钉技术调整的核心出发点,即让人们在钉钉上搭建这些Agent的成本、发布的成本和使用的成本都拉到最低。一个Agent通过自然语言对话就可以开发,开发出来后就可以拉到钉钉群使用。

显然,钉钉正在通过构建AI Agent的基础平台,将类似于单机应用的Agent“联网”,实现资源互通互用,为用户提供丰富的资源并降低AI应用的使用门槛。

如今看来,AI一年,钉钉确实越来越不像“钉钉”了,它已然变成了一个AI应用平台。这也是钉钉尝试的新角色,并以此为着力点,把自己送上大模型应用竞赛的牌桌。

资料参考:

硅星人Pro,《一个“办公软件”要All in AI了?不,钉钉的野心比这还要大》

VR社交已是过去式?构建MR社交的7种方式

aigc阅读(52)

伴随着Vision Pro的发布,苹果也相应公布了其3D Avatar解决方案,与其他依赖于捏脸的虚拟数字人平台不同,Vision Pro用户可以通过头显扫描脸部进而生成拟真的Avatar形象,苹果将其称之为Persona。

早些时候Persona以窗口的形象展示,本月,Vision Pro进一步更新了一项名为Spatial Personas(空间角色)的功能,自此,Persona可以在真实空间中走动,进一步提升了真实感。

Persona背后其实可以看到苹果并不倾向于相对成熟的VR社交、协作策略,相反,它希望未来空间计算时代用户的沟通交流依旧能发生在真实空间,这也就是所谓的AR/MR社交。

接下来,你将能看到MR社交的难点以及可能存在的系列机遇。

本文编译于外媒SKARREDGHOST,作者在VR/AR行业具有多年从业经历,以下是文章原文。

图源:苹果

目前社交无疑是VR的重要应用场景之一,现如今我们可以通过Rec Room、VRChat等优秀的VR社交应用与朋友在虚拟空间中聊天或者玩乐。

不过,当前MR的概念也正在被大肆宣传,因此我们应该开始思考如何在MR(混合现实)中与人们见面。

这里值得一提的是苹果最近所更新的Spatial Personas,网上基于此出现了大量的体验以及分享视频。

不过如果我们体验后便很容易发现VR社交与MR社交其实遵循的并非同一套规则,未来无论是MR社交又或者MR会议,里面的设计都需要进行一系列重构。

Spatial Personas体验视频,图源:YouTuber

Cosmo Scharf VR社交与MR社交是两种截然不同的体验 可能不少人都体验过VR社交相关应用,如VRChat、Roblox等,我曾在一家VR音乐会平台工作过,对于这种体验也十分了解。

当你在VR中观看音乐会,就像是被传送到了另一个宇宙,你可以在这个宇宙中与朋友见面并且完成各种游戏互动。

我喜欢VR社交,因为这就像是一种神奇的传送:戴上头显、然后用户便可以脱离当前现实环境,甚至能获得突破物理法则的体验,如在空中飞翔,或者变成另一个人、一只狗甚至一个牛奶盒等。

VR演唱会,图源:SKARREDGHOST

除了VR外,我也是视频穿透AR(VST方案)的粉丝,我一直好奇相应的VR音乐体验能否通过MR体现出来。当深入研究后,我得出的结论是:我们永远也不可能在MR中获得与VR相同的体验。

理由很简单,所谓AR/MR都旨在创造一种与周围环境相融合的体验,MR就像是一种黑魔法,它能让虚拟元素与您周围真实环境相融合,并提供让人信服的结果。

图源:SyncReality

举例而言,假设我们有10个人都处于同一个MR社交场景当中,而每个人都在各自的家里面,那么基于前面的原则MR体验需要适配所有不同用户的房间,但这是不可能的。

想象一下,如果A正身处一个小房间、B在一个巨大的仓库内、C在一条狭窄的走廊当中,理论上我们都应该看到相同的虚拟元素,而这些虚拟元素又要与各自的环境相契合;再者,由于我们的Avatar也属于虚拟元素的一部分,我们也应该需要一种可信且一致的方式看到彼此的化身。

实际上这是不可能的,如果B走到仓库的尽头,那么在C看来,他可能早已穿越墙壁,从而破坏了魔法。

此外,即便你们的房间完全相同,如果里面的家具摆放有所差异,那么也很容易出现有人站在你沙发或者橱窗里面的情况,再次打破魔法。

MR场景中虚拟化身的位置不可控,破坏了真实感,图源:SKARREDGHOST

虽然某些时候你看到有人出现在你的房间当中这种感觉会很奇妙,不过实际上这也没太大作用,因为对方压根看不到你房间的样子,对方所看到的仍是自己的家,所以双方会有一种一厢情愿的感知错位。

这一切让我意识到,这种简单粗暴的社交MR体验其实是行不通的。

基于此,又可以延伸出很多问题?我们为什么需要MR社交,而未来它又该如何实现? 

从本地AR到场景三维重建,MR社交的7种实现手段 每个产品的出现都是为了解决需求,而选择特定的技术是因为你相信这是实现相应目的的最佳技术。

你的用户也生活在使用你的产品的特定环境当中,如AR设备会在家里或者户外使用,而这种差异可能会严重影响您设计产品的方式。

对于MR社交而言,想要实现不同的目标,背后就需要采用不同的策略。

一、可能你并不真的需要MR社交

如果你想在另一个世界(比如火星)举办活动或者聚会,这种情况下VR无疑是最佳选择,MR其实并没太大必要,因为后者需要用户呆在自己的空间当中。

不过,假如项目方表示一定要引入MR,并表示“MR是当前的趋势,它需要在我们的应用中有所体现。”

这种情况该怎么办呢?

VR演唱会,图源:SKARREDGHOST

我的建议是可以以VR为基准,然后在此基础之上添加部分MR功能。以《阿斯加德之怒2》为例,这是一款VR游戏,不过里面也出现了部分MR元素,如用户可以在真实空间窗口中消灭怪物,这可能对于未来的VR社交具有一定的借鉴意义。

在VR基础上引入MR,图源:SKARREDGHOST

二、单纯以看清楚真实环境为目的

去年,Brad Lynch(海外XR分析师)曾在X平台展示了VRChat的透视功能(他将其称之为ARChat):当打开游戏透视模式后,虚拟背景将切换为现实画面,而虚拟化身也会相应出现在真实空间之上,不过也相应出现了穿墙、卡在沙发上等一系列问题。

从VRChat到ARChat,图源:X

虽然体验不佳,不过VR社交的透视功能在某些时候可能是必要的,比如用户在游戏中途需要查看周围环境,比如照顾孩子,那么在VR中激活透视功能可以解决他的“燃眉之急”。

不过,这仍算不上真正的MR社交,因为它只是简单地将虚拟元素叠加在现实之上,而没有真正考虑如何与环境相融合的问题。

三、多人本地AR

如果所有用户都处于同一个物理位置,这种情况下,想要实现MR体验其实会变得相对简单,因为用户能看到相同的真实元素,而这时候只需考虑虚拟元素的对齐问题。

(也有人将这类体验称之为多人本地AR)这背后需要结合使用共享空间锚点(所有AR SDK都会配备该功能)以及特定的网络(比如使用镜像网络库)。

在这时候,游戏可以考虑设计一些同时涉及多个玩家的互动体验,以创造更多的共同感。

Niantic曾打造的多人AR体验,图源:Niantic

四、让MR社交聚焦于某些特定元素

对于多人MR体验,其实苹果也考虑到了这一问题,并在Vision Pro开发指南中提供了相应的设计规范。

多人MR的三种场景,图源:苹果

从图片可以看到,苹果所展示的多人MR体验重点都并非环境本身,而是场景中的某一元素。

如果MR社交只涉及某一件事,那么用户建立联系会变得容易得多。比较典型的是一起追剧,它并不涉及任何真实元素,并且也没有太多交互事件。

(Ps:这也是网上UP主分享Vision Pro Persona体验出现最多的场景之一,因为它呈现效果最好,并且不容易出戏。)

通过Vision Pro一起玩平面游戏,图源:X

因而想要让MR社交获得良好的体验,一是需要尽量让用户围绕同一个元素,二是让用户尽量寻找一个相同的真实背景。

关于这点,VR桌游《Demeo》是一个很好的例子,它于去年推出了MR玩法,我曾与朋友一同测试了它的MR功能。

打开透视模式时,会看到朋友与我坐到同一个桌子上,并且他专注于他的游戏,就跟我一样。

之所以会造成这种错觉,是因为我们在游戏时都坐在实体牌桌上,我们在相同的条件下进行游戏。另外,卡牌游戏都是偏固定场景,人物无需进行太多移动,这也能一定程度避免穿墙等情况发生。

在这种情况下,MR不再是噱头,相反,它能进一步提升用户的游戏体验。

Vision Pro也有类似的多人下棋的场景,用户都会坐在各自的椅子上下棋,不会随意走动,因而相当于无意间创造了相同的物理环境。

在Vision Pro中远程下棋,图源:X

对于MR社交体验来说,你可以针对一个(或多个)特定关注点设计你的体验。

以我前面所提到的音乐会为例,未来,或许可以让歌手站在你的桌子之上,而其他人则围在桌子周围,这种情况下,基本相当于所有用户营造了同一个观影环境,不过,它可能仍会存在空间相对局限或者偏静态的问题。

五、可以通过相对不真实打破MR社交体验的割裂

其实我们大脑存在着一个奇怪的规则特性:当你赋予它越多的真实性,那么它对真实性的要求就越高。如果你的Avatar是卡通人物,那么大脑可能并不会介意它到底有多少根手指,相反,如果Avatar是超写实人类,那么大脑可能会开始注意皮肤上面的不完全真实的光线反射细节。

刘强东AI数字人直播带货,图源:网络

Vision Pro也采用了类似技巧,以试图让MR社交变得可信。

比如Persona没有手臂、没有腿和脚,它们有点类似于漂浮在空间的幽灵,看起来显然不是真实的,不过这也不失为一种逃避问题的办法:因为Persona在你的设定中是一个幽灵,因而它漂浮在椅子上、沙发上甚至卡在墙里,你也不会出现强烈的违和感。

(不过奇怪的是,外界对于Meta Avatar没有腿这件事似乎诸多抱怨。)

网友测试新版本Persona,图源:X

如果你的MR社交体验并不需要太多真实感,那么里面也可以设计一些小技巧,比如你可以让某些人看起来像幽灵或者一片云,这些粒子本身就可以存在任何一个地方。

此外,应用在启动时也可以考虑自动将Avatar尽量传送在相近的地点,这样能避免过多走动。

甚至,应用可以预先考虑某种物理空间的差异,比如用户A的房间尺寸为2m×2m,用户B的房间尺寸为4m×4m,那么可以考虑将B的步幅调大一倍。

(不过这里面也会出现很多不可控因素,应尽量避免使用。)

六、偏弱体验的社交

某些时候,MR社交场景其实可以打造成单纯的语音聊天室,即玩家的Avatar不一定需要相互见面。不过仅凭语音、缺乏肢体交流可能会导致用户联系没那么紧密,这时候,可以考虑设计一些独特的互动体验:比如用户按下某一按键,另一用户的家里面就会绽放鲜花。

VR社交应用《Where Thoughts Go》其实也提供了一个很好的思路,玩家可以在虚拟气泡中留下个人的语音信息,然后将其分享给社区的其他人。(有点类似于语音漂流瓶)。而未来MR社交也可以借鉴这种形式:即便用户之间没有直接互动,也可以留给对方某些线索或者彩蛋。

图源:《Where Thoughts Go》

七、基于各自空间的建模

在终极场景下,如果我想在家里就能打造一场MR社交,并且远程的朋友也乐在其中,这里还有一种解决方案:我们可以预先将我们的空间进行3D扫描,然后邀请朋友进入这一空间。

在这种情况下,他们基于VR模式进入体验,他们的虚拟世界其实就是你的真实房间。而你则可以基于透视模式下运行,双方都能在相同的环境下获得相同的体验。

实际上,Quest 3也有扫描房间3D网格并共享的功能,不过它的扫描效果十分粗糙,并且会丢失纹理细节,用户只能进入一个纯白背景的虚拟世界。

此外,Varjo Reality Cloud(Varjo推出的一个云服务平台)也可以实现类似功能:Varjo头显可通过摄像头扫描房间并上传到云平台,而重建数据也能分享给其他用户。

图源:Varjo

根据一些体验视频,Varjo Reality Cloud所构建的这一体验仍十分粗糙,不过它是一个不错的原型。

我也十分喜欢这一解决方案,目前它可能是唯一能够真正实现远程邀请朋友来“家里做客”的方式:我能实现混合现实体验,并且双方都基于同一空间,动作行为保持连贯。

来源:https://skarredghost.com/2024/04/15/social-mixed-reality-how-design/ 

从互联网+到AI+,公安政务助手AI助理带给我们的一些思考和启发

aigc阅读(62)

2024 年 4 月 18 日,作为国内最大的企业级办公应用,钉钉正式上线了AI 助理市场(AI Agent Store),首批上架近200个AI助理,覆盖了创作设计、学习教育、运营推广、销售客服、人事行政、财税法务、电商外贸、生产制造、企业服务等领域。

笔者第一时间体验了钉钉市场的部分应用,其中对杭州市「公安政务助手」AI助理的印象非常深。相比一些常见的运营、营销工具,这是一个针对传统行业的业务场景量身定制的AI助理,旨在解决政务服务中用户的常见痛点。接下来,我向大家详细介绍一下我对这款AI助理的体验感受以及带给我的思考。

一、什么是钉钉AI助理?

在介绍杭州公安政务助手AI助理之前,我们先了解一下什么是钉钉AI助理。

AI助理英文全称为AI Agent,也称作AI智能体。随着AI的快速发展,从产品形态上业内普遍认为 AI 应用将沿着 AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(智能体)四个重要的方向演进,而钉钉AI助理正是属于Agent(智能体)这一个方向。

Agent(智能体)有什么特点优势呢? 它最强大的优势就是具备超强的感知、记忆、规划和任务执行能力。相较于Copilot(智能助手),Agent能够自动感知环境,通过自己独立的决策和行动来改变环境,并通过不断学习和自适应来提高性能。

作为国内最大的企业级办公应用,钉钉 AI 助理依托于钉钉平台,融合了钉钉的多项 AI 产品功能,比如文档、会议、行程、待办等,以智能化的方式辅助企业日常的工作流程。钉钉 AI 助理覆盖了企业管理、办公协同等多个工作场景,旨在帮助企业通过AI实现智能管理、智能协同、提升业务效率。

在2023年11月钉钉推出AI助理以后,钉钉把「Al 助理」定位成为未来应用的主流形态,并以公开、协同的战略吸引众多企业、个人用户和开发者基于工作场景进行丰富的AI应用开发,旨在成为国内最活跃的AI超级助理孵化、分发平台。“公安政务助手”AI 助理正是杭州市公安局基于钉钉平台,为用户量身定制开发的一款AI应用

简而言之,「公安政务助手」是依托于钉钉平台开发的一款AI助理。

二、公安政务助手AI助理解决什么问题?

在理解AI助理的概念以后,我们开始全面认识这款AI助理,以及我在这款AI助理体验中的真实使用感受。

1. 产品介绍

「公安政务助手」是杭州市公安局基于钉钉平台搭建的AI助理,它接入了杭州市公安政务服务九大类业务、250 余个办事事项规定细则以及浙里办APP的在线办理流程,高效定位用户的核心需求,精准了解一站式业务流程、一次性准备办理所需资料,形成从前置咨询、终端办理到问题反馈的流程闭环,最终为用户打造从居住证申领到出入境业务办理等多元化政务需求的一站式服务。

可以看出,这款AI助理是基于真实的线下业务场景进行拓展,区别于过往智能客服这样的产品,「公安政务助手」的底层逻辑是以庞大的知识库和定制化的工作流为主,通过喂养AI助理,把用户在使用政务类场景中所出现的各种痛点、反馈都汇总起来集中处理。它的产品目标就是打造杭州市公安局面向用户咨询的24小时AI办事窗口,帮助用户无差错办事,建立友好、愉悦、美好的服务体验。

2. 核心场景

1)新手引导

相信多数新人对于政务类的办事流程都有天生的恐惧,“麻烦”、“复杂”、“一知半解”这些词语是和政务类事务挂钩最频繁的词语。但是通过「公安政务助手」这款AI助理,它有效解决了新手在办理政务类事务之前的信息困扰,甚至消除了用户对政务事务办理流程的“模棱两可”。

想想过去我们都在使用什么工具或平台去检索这些办事流程以及所需准备的资料。无论是通过搜索引擎找到官网,最后在信息满载的政务网站上去找到所需的资料,还是通过人工客服、或者智能客服进行咨询,这一整套流程下来,所消耗的时间和精力都会让用户在找寻信息的过程中产生烦躁、失落、厌烦的情绪

但如今,对于新用户来说,你只需要输入“身份证办理”、“居住证办理”这些关键词,AI助理就会清晰地把完整的办理流程和所需准备的资料向你展示出来。通过AI助理为用户节省的时间成本,一定能让用户去前台办置事务的时候拥有一个美好的心情。

美中不足的是,目前AI助理还没有为用户提供对应的申请表单功能,如果后期可以结合钉钉实现用户一键录入信息,就像在电商平台勾选默认收货地址那样,那这样的政务办事体验可太美妙了。

2)深度定制

区别于智能客服这样的冰冷的机器人,AI助理由于具备感知、记忆、规划和任务执行能力,AI助理能通过和你的沟通,根据你的情况提供深度定制的方案。比如当你的年龄暂未达到身份证办理的需求,AI助理会进行分析判断,并向你提出周全又合理的指导。

再比如假如你是一个美国人,嗯,在你输入一串英文之后,系统会自动识别你的语言,并转换语言进行回复。对了,你要是日本人或者韩国人,AI助理同样可以使用日语和韩语和你对话。

另外还有一个非常强大的功能,那就是产品团队为AI助理按照统一的格式重新编写的近40万字的知识库。这里面不仅包含了办事流程这些基础内容,而且还提供了对应的超链接地址,用户可一键跳转,其次这份知识库还是政务服务的科普百科,比如你可以查询居住证有什么作用,AI助理就会为你详细讲解。

不过目前「公安政务助手」的感知能力还不够完善,还无法深度理解用户前后的语境,进行预判。比如当我咨询完动车登记有什么作用,再次发起如何办理的提问时,系统无法感知,提醒我需要再次输入准确的关键词。

3)就近服务

在了解完具体的办事流程和所需资料以后,AI助理还提供了就近办理事务的地点的推荐。这个功能看上去好像不起眼,但其实对于用户来说,获取准确、就近的办事大厅地址是重中之重,想想如果你跑错了办事地方耽搁一早上的场景,那简直是不能再糟糕的体验了。

在选择办事大厅以后,你还可以让AI助理为你输出出行的公交路线,办事大厅的上班时间等,把政务事务办理的前置咨询做到极致。

基于这个场景,我在思考下一个版本的AI助理能不能自动读取用户的地理位置,比如办理身份证的时候,自动推荐最近的办事地点,而不是需要用户输入地址才能进行分析。其次如果能在对话框就为用户提供一键跳转至其他导航APP的功能,那这样的体验就更完善了。

4)动态反馈

为了不断提升产品服务能力,「公安政务助手」设计了一个「用户反馈」的工作流。用户只需要在输入框输入「反馈」的关键字,就能自动唤醒「用户反馈」的工作流程,通过提交AI助理已经设计好的表单,就能把你在这个产品中任何一个流程节点不满意的地方反馈给产品团队。

关于工作流,这是Agent( 智能体 )的另一大特色,这里的技术原理是产品团队通过模拟用户在使用产品中可能会出现的问题和输入的关键词触发反馈,用户填入信息后,反馈就自动提交给平台。随着这个产品的迭代,我相信未来也许会出现“一键预约”等工作流,用户通过AI助理查询以后,实现一键预约。

5)日程策划

受益于钉钉平台强大的应用,「公安政务助手」还能结合用户的日程安排,为用户自动安排办事行程计划,规避时间冲突。我认为这是钉钉平台和AI Agent天生契合、完美的场景之一,毕竟用钉钉为用户设计的场景正是智能、协同办公,而感知和规划能力,正是Agent的优势之一。

不过目前「公安政务助手」在这个场景的开发还比较基础,比如我先让AI助理为我查询5月20日能否办理杭州市的居住证,但接下来我让AI助理创办行程的动作中,AI却无法感知,而是需要我再次输入准确的日期和时间。期望这个产品能在随后的版本中持续迭代,让用户真正感受到钉钉AI所带来的办公便利和优势。

3. 小结

正如「公安政务助手」产品团队负责人在钉钉AI极客盛典的总结,他们的产品目标是借助钉钉、借助AI,努力去打造一个真正聪明、懂你的24小时公安政务助手。在全面体验完这款AI助理之后,我认为这是政务服务全新的用户体验升级,相比过往和那些冰冷机器人的对话,正是AI Agent的赋能,让「公安政务助手」这样的政务产品,充满了服务的温度和力量。它聪明,理解你的想法;它懂你,预判你的行为!

三、公安政务助手带给我们的思考和启发

一百年前,英国人嘲笑美国人发明的电话,因为他们拥有足够多的马匹和驿站。

二十年前,当国内互联网的浪潮来临时,有很多传统企业不屑一顾,他们只想要更多的门店和雇佣更多的员工。

如今,在科技时代的又一个拐点,面对AI持续不断的发展升级,我们又该如何面对?我认为从「公安政务助手」这款AI助理至少可以为我们带来三个启发。

第一,拥抱AI+,就像十年前一样拥抱互联网+。

毫无疑问,我们已经踏入了AI时代,无论你身处哪个行业,AI都已经带来了巨大的变化。在体验「公安政务助手」这样的AI助理之前,你能想象得到在政务办事的场景中,你可以通过一个对话工具,就能先把所有资料都带齐吗?甚至连最近的办事大厅上班时间、地址和行车路线都为你规划好了。

这不仅仅是效率和服务的提升,更是产品设计理念的提升,而促成这样质的变化的最大原因,就是AI的发展,就是AI Agent。拥抱 AI+,正如我们十年前一样拥抱互联网+,无论你是传统企业、小微企业还是超级个体,在时代的洪流面前,我们需认真思考一下AI如何改善我们的产品和工作模式了。

第二,优化升级工作流,让AI为我们降本增效。

如上文所说,我认为钉钉平台和AI Agent的理念是天生契合的完美场景之一,因为钉钉就是基于企业办公的场景而设计,而AI Agent超强的感知、记忆、规划和任务执行能力,刚好可以和钉钉这样以工作场景为中心的企业办公平台深度结合。

在「公安政务助手」的体验中,我构思了多个未来AI助理可以帮助用户实现更深层次需求的功能和场景,这是工作流的升级,也是企业服务的升级,如果没有AI,靠我们通过人工的形式去实现,也许是天方夜谭,但加入了AI,一切就变得不再那么困难。是时候像「公安政务助手」一样,思考一下如何借助钉钉、借助AI,优化升级我们的工作流了。

第三,沉淀企业知识库,通过AI提升品牌专业度。

「公安政务助手」产品团队为AI助理打造的近40万字的知识库深深地启发了我,不仅改变了我对AI这项技术的看法,更是让我明白打造自己核心知识库对于企业和个人的重要性。无论你身处哪个行业,你是企业还是个人,知识才是你真正赖以生存的筹码,而通过AI的赋能,我们完全可以打造一个提升品牌专业度和权威度的专属AI Agent。

如果「公安政务助手」只是为我提供基础的信息查询功能,我会觉得它只是一个优秀的AI助理,但当它通过自身沉淀的知识库加入了政务服务科普百科的理念,我觉得这才是它真正的核心竞争力,以及为社会和用户创造的真正价值。而实现这一切,只需要我们从现在开始,重新认识AI,结合自身的知识库,开始打造一个专属的AI Agent!

大模型没过“试用期”

aigc阅读(66)

东市买骏马,西市买鞍鞯,南市买辔头,北市买长鞭。

出自《木兰辞》中的诗句展现了充分竞争的自由市场中,供给方各司其职的状态。在同一市场内,消费者往往会从不同供应商处获取不同商品和服务,就像当下扎入垂直行业、走向定制化的大模型服务一般。

如果仔细观察诸如百度、阿里、科大讯飞等大模型服务商透露的产业方向的商业化进展,我们不难发现虽然其客户列表中重量级选手不少,但这些客户们往往“只取一瓢饮”,以探索的方式从点开始大模型及AIGC方面的合作。

新兴技术的未知性特点在大模型的算法黑箱下再度放大,导致产业在面对既往合作伙伴时依旧保持着相当的审慎——虽同为产业智能化,但模型服务的“完整性”远不如上云。这也导致了模型服务商扩大商业化的一个困境,即在体量不大的项目上投入大量定制化服务与资源,成为做多收少的“高科技施工队”。

然而吊诡的地方在于,而今增速趋近停滞的云计算市场已经发生了明确的转向,拓客方向自大客户转向中小客户。但模型服务却因以算力为主的基建成本高企,而难以跟上云计算的节奏,只能试图通过标准化产品广撒网,一点点啃下中小企业。

生成式AI代表未来已经成为业内共识,“断舍离”再难成为选项之一的同时,一众企业不得不迎难而上,冲突亦在这一过程中不断上演。

一、大模型需要好销售

过去一年多的时间内,商业化无疑是国内模型服务商最为关注的重要议题,以至于在一定程度上影响了服务商对模型及相关能力的迭代路线。

一个绝佳例证是,业内在模型易用性、工具链、避免“幻觉”等关乎使用门槛的演进频频落地。事实上,在2024年这一被定义为“AI原生应用”元年的时间节点,以低代码或无代码形式创建AI应用正逐渐成为现实,门槛或早已不是大模型商业化的首要难关。

此外,除少数闭源巨头外的开源社区也在持续缩小国内模型服务商的底座能力代差,几乎业界每每出现突破性的进展,其余主流玩家总能第一时间跟进,在Kimi近期掀起长文本风潮中,百度、阿里等玩家跟进并没有花多少时间。这意味着,通用底座能力难成大模型商业化初级阶段的胜负手。

事实上,在以AIGC为代表的产业智能化的创新扩散中,智能并不是关键,反而更像是一种“添头”。例如我们曾对话的一家SaaS企业,他们与而今逐渐深入业务流程的AI大模型的相遇,不过是一次偶然。

上述企业人士李浩告诉光子星球,就像许多深耕垂直行业的企业一般,他们对技术的感知不算敏捷,之所以了解到大模型,还是源于此前某场展会上的一次闲聊。

“腾讯那边有人和我们CTO聊了会,展会结束后,CTO觉着可行就跟市场部的人接触了”,他说,“机缘巧合下凑了一桌饭局,人家直接让业务VP拎着一大瓶酱酒来,推杯换盏间讲了很多大模型改造业务流程的事情,不过合作还是没能在饭局上谈成”。

尽管腾讯的合作意向非常明确,但李浩的领导还是有些兴致缺缺——早在去年,CTO便有意与业务数据所在的阿里云展开AI合作,但是“阿里那边迟迟不见动静,也没什么优惠”,这才给了腾讯半道截胡的机会。

另一方面,许多垂直行业早在两三年前就感受到了AI的冲击,但实际对业务的改造其实并不算明显。或许大模型的加入足以让AI脱胎换骨,但在销售口中天花乱坠的功能并不足以构成决策理由。

我们不难在云计算的政企BD中看到与之类似的销售场景——不可否认的事实是,“上云是一种趋势”的共识更多存在在互联网视域内,而政企侧对云的需求更多在于对顶层设计的考量。说白了,大多数非互联网企业应用新型技术的根本原因并非技术本身,而是需要“跟上同行的节奏”,AI大模型亦然。

当然,腾讯方面绝无可能放弃这条相对明显的线索,其还在饭局结束后多次登门拜访,“除了婉拒给我们独家提供技术支持外,我们提其他的条件,基本都答应了”。在这么一个几近赔本赚吆喝的情况下,腾讯才堪堪拓展一家企业客户。

据了解,这家SaaS公司经过数月的“AI初体验”后,最终决定在年中前后扩大合作范围。届时,腾讯作为模型服务商提供的由点到面的服务才刚刚开始,成本回收尚不知时日,遑论凭此盈利。

云计算行业从“比较技术性的超前概念”到“上云是一种趋势”,花了足足10年时间。反观技术深度、黑箱、幻觉等问题并存的大模型,似乎其商业化的路途更为崎岖。

这么看来,与其在产品层面持续做加法,倒不如多下功夫挖掘销售线索。另一方面,完善的BD体系也在一定程度上可以打破技术认知的高墙。可惜的是,在大模型技术尚未祛魅的当下,厂商的外宣重点往往落在技术突破上。进一步说,当大模型服务可以像云计算一般召开合作伙伴大会的时候,或许大模型商业化才能迎来真正的春天。

二、大模型需要CIO

模型再强也只能解决业务上的问题,其商业化困境本质上不在于技术,而在于商业模式和生态。不过自模型服务商的视角看,模型服务普及的“鬼故事”同样不少。

正如上文提到的SaaS企业,便在希望更广泛地接入AI能力时犯了难。“现在我们内部可以说是跑着两套系统,内部业务流还像以前一样跑在阿里云上,但尝试对外输出的AI大模型能力却跑在腾讯云上。领导那边还希望再引进语音、OCR之类的AI支持,又准备让我们接触一下科大讯飞”。

李浩无奈表示,现在公司有点“骑虎难下”,既不太方便彻底抛下阿里云做整体数据迁移,又不好再拓展与其他厂商的AI合作,毕竟这背后是搭建混合多云架构的隐性成本。他还提到,前端时间领导才刚刚因为销售团队开不出单而大发雷霆,在AI大模型尚未展现盈利能力的情况下,狠下心全面转投腾讯云怀抱可以说是不可能的事情。

不难看出,即使是有意引入AI能力改造业务的企业,由于领导层对AI大模型的了解仅限于网络公开信息与模型服务商的单向度灌输,其往往对市场没有一个清晰明确的认知。这家SaaS企业在采购决策上犹豫不决便是绝佳例证。

况且,非互联网企业的组织架构也是遭致上述情况的重要原因。或许大部分组织完善的企业都设有CTO职位,但其既有知识域基本局限于企业业务,而设有CIO的企业可以说是寥寥无几。

据红杉于去年末的一次调查显示,以CIO为代表的企业技术管理者将通过应用AIGC满足产品差异化和服务创新需要、增强办公效率与内部沟通作为主要目的;相较而言,CEO则将紧跟前沿技术趋势、拓宽企业经营边界作为AIGC应用的核心动因。哪种更利于AI对业务的深度改造,一目了然。

如果CIO的缺位不过是将AI大改造交由CEO或CTO统筹的话倒也还好,更糟糕的情况是在买方市场下,这份重担被转嫁给模型服务商。在一位模型创业者看来,这无异于是化身客户企业刚刚萌生的AI业务的“保姆”。

“前阵子,和我一起创业的产品经理差点顶不住与客户之间无休止的扯皮,闹离职”,他说,“我那时候还在美国那边做交流,听他辞职信都写好了,我赶紧打飞的回去,好说歹说才劝住他”。

据悉,事件起因是客户在为期三个月试用期内,就提出做多个深入业务流程的应用,从早期的基于RAG(检索增强生成)的企业内部知识问答到数字员工再到智能营销,可是试用项目的合同金额才30万。可怜这位产品经理在试用期内每天抓耳挠腮地控制交付成本,团队两天一小会三天一大会,然而客户还是在试用期结束后便接洽了服务更为成熟的大厂。

定制化项目在固定时限内的交付,将模型服务高大上的“皇帝的新衣”无情扯下,空留一个期货般的内核。

当模型服务商被迫在客户企业的AI改造中承担主要责任的时候,所谓产品的价值交付也就不再存在,取而代之的是极致的成本控制和交付压力。如果不能完全把握客户的需求,那么深入合作破裂也不过是时间问题。

三、定制化之困

近段时间,国内一级市场对AIGC的热情愈发低落。著名投资人朱啸虎亦公开表示,“AIGC PMF(产品/市场匹配),你投十个人找不到,投一百个人同样找不到。”

不可否认,在难销售、难交付、高成本的特性之下,大模型距离养家糊口的距离太远。那么,大模型PMF的终极阻碍是什么?

从上述案例中我们不难看到,首当其冲的难关在于定制化。

这背后的逻辑是,技术尚未进入创新扩散周期之前,依靠标准化产品回笼资金遥遥无期,高强度的BD以及其后的定制化是现金流的唯一来源。而定制化项目扯皮、交付、成本等各种窘境的缘由,则在于服务商丧失了对需求的控制力。

设想一下,如果是模型服务商自己训练某个MoE模型或是针对业务创建AI应用,在技术一把手的统筹下,只需对应业务部门给出明确需求以及不同优先级,便可以按需求驱动的方式进行敏捷开发,确保项目能在时限内以较高完成度交付。

如果将AI开发场景放到模型服务商与客户之间,则情况很可能“两级反转”。一面是客户并不真正了解AIGC对业务创新的抓手所在,导致需求频出而没有重点,另一面是服务商在不断提出的需求中疲于奔命。

如果服务商能在提供服务时获取行业数据的话,转起数据飞轮从而迭代垂直领域能力倒也是一笔不错的买卖。只是大多体量稍大的企业都对自家数据敝帚自珍,导致定制化项目做来做去都没有太多实际收益。

可以预见的是,定制化作为大模型商业化的一个补充手段,很可能只是少数大客户的专属。标准化产品做铲子以及建立在其上的应用生态才是淘金者的未来。

AGI的愿景虚无缥缈,长期主义也不过是商业化举步维艰的推辞。无论是靠定制化拉起营收从而做好市值管理,还是靠标准化打开认知从而将创新扩散出去,这锅夹生饭怎么着都得把它吃下去。