欢迎光临
我们一直在努力

AIGC|设计师与AI协同的三种模式

aigc阅读(105)

现有设计流程中,设计师需要负责创意构思,具备提出问题最优解的设计思维和创意能力,还要设计执行,通过熟练的软件技能将这些方案付诸于实际。

专业复杂的设计工具通常具有较高的学习门槛,要求设计师投入大量时间进行学习和实践,当无法熟练使用这些工具时,往往会限制优秀创意的呈现效果。

因此,软件技能水平成为衡量设计师能力的重要指标之一。

然而,随着生成式AI的引入,这一局面正在发生改变。

在设计执行阶段,传统图形处理软件(如PS、AI、Blender等)所代表的“技能特权”被无限削弱,问题定义和创意思考重新成为设计工作的核心。

此外,以大语言模型为驱动,可自主化完成复杂任务的Agent智能体,必将深度参与到创意构思环节,为解决问题提出自己的想法。

根据AI参与深度的不同,设计师与AI的协同逐渐呈现出三种不同的模式。(思路源自Agent相关文章中关于“人类与AI协同的三种模式”的论述)

一、Embedding模式

通过将AI功能(如智能扩图、一键抠图、文字生图等)嵌入到现有软件界面中,能直接提升设计工具的智能化水平,设计师可以在熟悉的环境和流程中调用这些AI功能,无需额外学习新的工具,轻松获得即时的智能支持。

这种内嵌策略应该是让AI最快落地应用的方式之一,例如Photoshop Beta、MasterGo Al都通过这种方式快速实现了产品的智能化升级。

但Embedding模式的局限性也是显而易见的,受限于工具现有架构,强大的AI功能多为散点式地存在,无法形成协同效应。

这意味着设计师在整体设计工作中,仍然处于绝对主导的位置,只能在特定任务或局部利用AI进行增强和提效,无法享受全面的智能化服务。

因此,Embedding模式更像是现阶段应对生成式AI大潮的过渡方案。

二、Copilot模式

与上一模式不同,Copilot模式下的AI不再局限于设计执行(生图)的环节,借助文本生成、图片生成和语义理解等多方面实力,延伸至整个设计流程,在各个阶段为设计师提供辅助支持。

也就是说,当接收到设计需求的那一刻起,Copilot便能够基于强大的知识库和用户数据,对设计需求进行分析,并给出具体的设计建议(如框架布局、内容元素、颜色搭配等),还可以生成参考方案。

形态上我们可以参考目前较火的AI搜索类产品,Copilot可能会以插件或者悬浮窗口的方式存在,方便设计师随时调用。

调起界面后,用户可以输入自己的设计需求,也可以上传相关需求文档,给AI越多背景资料,结果可能越精准可用,接着是选择自己的生成诉求。

开始生成后,基于用户勾选的内容依次生成,除了对于设计需求的分析和文档的解析,还可以利用AI的搜索能力,整理主题相关的延伸阅读材料供设计师参考。

在设计分析模块,围绕不同的设计类型生成建议内容,比如我要设计的是一张海报,生成内容就可能会包括标题、版式布局、尺寸、字体、背景等海报设计元素。

最后是基于以上分析生成的设计方案,诉求简单的话可以直接下载使用,若需调整,也可一键导入图形处理软件进行修改。

这是我所能想到的一类设计Copilot的产品形态,当然,还有许多更轻量的方案,期待大家的分享。

Copilot模式可以实现全设计周期的智能支持和创意激发。

然而,这一切仍然依赖于设计师的各种指令,最终方案也需要设计师在Embedding模式下的图形处理软件中来完成。

Copilot模式对于协同关系最大的改变是,AI不再只是智能化增强的图形处理工具,而是成为与设计师紧密协作的得力助手,助力设计全流程的提质提效。

三、Agents模式

Agent以大语言模型为核心驱动,具有自主感知理解、规划决策、记忆反思和使用工具的能力,能够自动化完成复杂任务,许多人认为,Agent可以将大模型的能力发挥到极致,成为类人甚至超人的智能实体。

在设计领域,Agent可以被视为一个个擅长不同设计能力和拥有不同经验知识的虚拟设计师,支持自由选择、组合或删除,同时我们根据需求所需能力,为Agent外挂各种工具,并能将业务专属的知识数据上传供其学习。

有没有发现,整个过程很像是为设计需求量身打造一个专属的“AI设计团队”?

设计师的角色因此被彻底改变,更多时候只是站在Leader的视角向AI发出设计需求,然后等待方案的呈现,目标设定,任务拆解和分配、生成设计指令、信息收集、方案生成由Agent全权代理并自动完成,AI成为真正意义上的创作主体,设计工作也将进入“3D打印”的时代。

对设计师而言,最重要的不再是创意能力、设计能力,而是审美能力、判断能力和决策能力。

Agent以何种形态面向设计师尚未可知。历史经验告诉我们,技术进步推动生产效率提升,进而引发生产组织和社会关系的变革。

作为本轮变革的核心驱动力,AI技术具备极强的前瞻性。

因此我认为,我们无法通过传统的设计行为模式来预测全新的Agent形态,而需要从源头入手,深入研究Agent的技术特点,进行合理地反向推导,从而逐步勾勒出Agent的“外轮廓”。

大概有这样一个思路可姑且一听,信息架构和框架布局受到用户任务流程的影响,而任务流程源自产品/平台所支持的功能范围,功能范围一方面基于用户需求,另一方面则取决于技术的能力范围。

现阶段,Agent技术框架通常被认为由四个关键模块组成:

  1. 记忆:负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。
  2. 规划:包括事前规划和事后反思两个阶段。在事前规划阶段,这里涉及对未来行动的预测和决策制定;在事后反思阶段,智能体具有检查和改进制定计划中不足之处的能力。
  3. 工具:利用外部资源或工具来执行任务。学习调用外部API来获取模型权重中缺失的额外信息,以此来补足自身弱项。
  4. 行动:实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动。

擅长不同设计领域的大语言模型相当于各种设计角色,如何来管理这些角色很重要,所需功能可能会有角色市场(官方或个人)、角色雇佣(临时或买断)、设计能力升级迭代、角色的组合搭配等。

记忆模块大概需要两个空间,一个空间存储的是每次行动后自动沉淀的知识和经验,另一个空间则支持我们将业务材料、个性化数据,甚至是既往设计作品等内容进行上传,经过学习快速成为Agent能力的一部分。

在规划阶段,相关分工的安排以及行动步骤的拆解应避免黑箱操作,将任务链可视化有助于提升设计师的掌控感,这对处理好协同关系很重要。

工具方面,可能会通过工具库或工具商城的形式聚合呈现,支持各类设计工具和工具包的选配选购,还要具备增、删、改、查等基础的工具管理服务。

最后是行动,我认为有两个需要考虑的点,一是方案展示要结合文、图、视频内容的特点,不能简单的用一种框架去展示不同的设计作品,二是图形处理功能以什么形式与agent对接。

当我们把Agent一些核心的功能捋出来,接下来就是思考用户的任务路径都有哪些,剩下的就不再展开了,可能性有很多。

以上内容只是从我自己的角度尝试对Agent模式下的工具形态提供一点粗浅想法,并不一定对,重要的是引发大家的思考。

2023年11月,比尔盖茨发文表示,Agent将引发自从我们从输入命令到点击图标以来计算机领域的最大革命。或许,随着Agent的到来,我们更应该想一想设计师角色存在的意义是什么。

四、最后

AI正在深刻变革着设计行业,现阶段的Embedding模式虽然让设计工具初步实现了智能化升级,但生成式AI的能量没有充分发挥,设计师仍是设计创作的绝对主体;Copilot模式通过全流程支持,可能会实现设计效率的全面提升;而Agents模式下,AI将成为设计的主体,传统设计师与创意构思、设计执行完全脱离,由此全面进入智能化设计时代。

AI应用实践:不懂编程,如何用ChatGPT开发H5小游戏?

aigc阅读(246)

前几天,我用 ChatGPT 的 GPT-4o 开发了一个 H5小游戏「龙舟接粽子大赛」。

从技术实现上,这个游戏只是一个静态页面,对程序员来说,非常容易实现,但是,对不会写代码的产品经理而言,还是很有难度的。

说实话,作为产品经理,我不懂编程,一个人+ AI,1 天内上线一个 H5小游戏,还是挺有成就感的。

在 AI 时代,产品经理有创意、有想法,完全可以用 AI 快速开发产品 Demo,进行市场验证。

今天做个复盘,分享下如何用 ChatGPT 开发 H5小游戏?

内容有点多,相信你看完,可以更好理解做一个产品的全过程,以及每个环节如何使用 AI 辅助工作。(文末附AI工具清单)

做一个产品,除了想法,还要明确需求细节、功能与流程、逻辑规则、界面UI等等,开发完了,还要通过测试,才能发布上线。

因此,我把这个游戏当做小型产品来做,包括:需求、设计、开发、测试和发布,这 5 个环节。

这个过程,AI 扮演了产品的程序员、设计师,还有产品经理导师,我们一起协作完成任务。

你看,开发一个看似简单的小游戏,也是在做一个完整的产品,也能积累实践经验。

01 需求环节

刚开始,我还不确定要做什么游戏,只有个模糊的想法,更别说需求。于是,我先跟 GPT 聊,它给出了两个不错的方案,还直接生成代码。

上下滚动查看更多可是,我不懂运行呀,继续问,让它教我操作。

果然在电脑上成功运行,效果还行吧?

不得不感叹 GPT 代码能力真强大,完全可以用 GPT 来开发 H5小游戏。

在验证了技术可行性后,要明确需求,我更希望做跟赛龙舟有关的游戏,问 GPT ,赛龙舟的游戏能直接用html来生成吗?(为了让它更好地帮我干活,还得多夸夸它)

都怪我这个产品经理,没讲清楚需求,只能让它再改一次。

新版本出来,试玩了一会,效果还不错,不过,障碍物太多,难度太大,用户可能玩不下去。

于是,我得寸进尺,让 GPT 给优化建议。

没想到,它给了几个靠谱的改进方向后,又直接就秒改出新代码。

经过多轮讨论和试玩后,需求基本明确,让 GPT 根据我们的对话总结游戏规则和逻辑,我再检查补充。

上下滚动查看更多考虑到要在端午节发布,时间比较紧,按照MVP(最小可行化产品)的思路,暂时不搞复杂功能和数据统计,只实现核心功能。至此,这个游戏的功能需求基本明确,后面就相对简单了。

你发现没?

在需求环节,尤其在「需求不明确」,或者「不知选哪个方案好」的情况下,AI 的作用巨大,它能帮我们理清思路、明确需求,还能分析方案的利弊,帮我们把方案实现出来,让我们体验和对比。

02 设计环节

这个环节,产品经理通常要拿产品原型,跟设计师沟通,设计师理解需求后,设计UI。

由于界面简单,需要的 UI 也少,我直接用 GPT 的 DALL.E 来设计(浮标在网上找的)。

还是先让 GPT 给建议,它的回答很美好,生成的图片却有点尴尬,不太符合我的预期,只能调整提示词,最后选了个人比较满意方案。

有了素材,再用 AI 抠图工具「魔力笔刷」抠图,去掉背景,用 PS 合成图片。看看这最终效果如何?

游戏有了 UI皮肤,还要有背景音乐,玩起来才有感觉。

照例先让 GPT 给建议,然后,用最近很火的 Suno AI 生成背景音乐,在网上下载常见的吃金币和游戏结束音效。

03 开发环节

看到这,你也许会发现,开发变简单、高效了。因为整个沟通过程,GPT 一直在输出代码,可以立即验证。真是比敏捷开发,还敏捷。为了让它先跟我讨论需求,还得专门告诉它,不用输出代码,等要输出代码再告诉它。

当然,AI 写代码,也有会 bug,这也是整个开发过程中,我最花时间的环节——测试。

04 测试环节

测试是比较费时间的,产品经理要模拟用户实际的使用场景,不断地用产品,看看有没有 bug。

期间,GPT 还真遇到一个 bug ,我们折腾了好久。

本来游戏运行好好的,我让它调整龙舟和粽子图片尺寸的计算方式,新版本运行时没显示粽子。

我反馈给 GPT ,它自己就加了调试信息,告诉我在浏览器控制台看日志,并把日志反馈给它。

我调试后,直接发截图给它,它找到一个问题,又开始一顿疯狂输出代码。可惜,还是没解决。

我考虑到时间较紧,果断让它换一种方式计算图片尺寸,这个 bug 就没了。

所以,遇到问题,有时得从其他角度想办法,也许换一种方式,原来的问题就不存在了。

05 发布环节

实际工作中,通常由开发同事部署发布产品。我没研究过部署,只能请教 GPT,它推荐了 Github。

我先把代码上传到 Github,生成页面链接,确实免费又方便。可是,国内访问 Github 的速度实在太慢,而且不稳定。

几经折腾研究,对比了好几个云平台后,选择腾讯云。

终于,自己一个人完成了产品从构思到部署上线的全部事情。

06 总结

最后,做点总结。

第一,这个项目不是要做一个很多人用的酷炫游戏,而是验证一个人不懂编程在 AI 的协助下独立开发一个产品的可能性。

从产品角度,这个游戏有很多地方可以完善。比如,加入微信好友排行榜、加数据埋点完善统计等等。

有了这次实践,后续开发其他的产品 Demo,可以更有经验、更高效。

第二,GPT 真是一个非常强大、耐心的好搭档,能配合我的想法,提出建议和优化方向,还能随时快速生成代码,帮我验证想法。

比如,测试中发现 bug,AI 没有任何情绪,一次又一次,根据我的调试反馈去排查问题,修改代码。

第三,这样的实践,也可以锻炼我们产品经理在每个环节需要的能力。

比如,在需求环节,跟 GPT 讨论需求,就像我们跟业务方沟通需求、跟程序员探讨技术可行性,锻炼了我们思考、沟通表达需求的能力。

又比如,在开发环节,跟 GPT 反馈问题和调试效果,就像跟开发沟通遇到的问题,锻炼了我们沟通协作、处理问题的能力。

希望你有所收获,玩的愉快哦!

工具清单:

1、代码开发、UI设计、答疑:ChatGPT

网址:https://chatgpt.com/

2、游戏音乐生成:Suno AI

网址:https://suno.com/

3、图片合成:稿定设计的在线 PS

网址:https://ps.gaoding.com/#/

4、AI 抠图:魔力笔刷

网址:https://www.remove.bg/zh/

5、代码仓库:Github

网址:https://github.com/

6、云服务器:腾讯云

网址:https://cloud.tencent.com/

深度解读 | 苹果眼中的AI OS应该是怎么样的?

aigc阅读(94)

在生成式AI的浪潮下,今年的苹果开发者大会WWDC 2024AI毫不意外的成为了大会绝对的主角。

从iPhone、iPad到Mac,无不被生成式AI覆盖。大家早已期待的新 Siri 只是苹果 AI 能力的一小部分,横空出世的Apple Intelligence才是这次的重头戏,从图像到文本,从iPhone、iPad到Mac,Apple Intelligence让苹果全系产品有了史诗级升级。

相较于安卓厂商对于大模型的小打小闹,只是简单将大模型作为Copilot塞进手机里,除了更新语音助手外,就是找几个还算能唬人的场景加上大模型的能力,最后还明目张胆将其定义为AI手机,这次苹果用他们的做法告诉了大家,什么才是LLMs+OS的正确打开方式。

苹果,重新定义了AI:Apple Intelligence

01. Apple Intelligence是什么?

Apple Intelligence定义为iPhone、iPad和Mac的个人智能系统,利用苹果芯片的能力来理解和创建语言和图像,以及跨应用采取行动。

苹果 CEO 蒂姆・库克说:苹果的目标一直是构建以人为本,最为易用方便的个人设备,提升人们的生活效率。

在这个目标下,苹果提出了他们的AI产品理念:体验足够强大、直观易用、完全整合到系统体验中、个性化且保护隐私,于是他们基于苹果自研的A 和 M系列芯片,走了一条自研本地大模型加三方云端大模型的策略。

在其他厂商疯狂砸钱买GPU训练模型的时候,在想方设法将大模型塞进手机存储的时候,苹果却换了种做法,不卷大模型,不卷本地化,还能给用户提供更好的使用体验!

这点就能看出来,苹果的出发点一直是为了提升用户的生活体验,他们明白自己做的是产品,而不是拿着锤子找钉子,死卷大模型。

库克表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。

先具体看看Apple Intelligence能做什么?

简单来说,跟录音、GPS等一样,苹果将AI融入IOS系统,为用户和开发者系统提供一系列原生AI能力。可以说,这些都是原生的人类 API。

文本工具writing tool

在苹果的自带的文本应用如邮件、备忘录、Safari浏览器、Pages、Keynote和三方应用如微信、小红书等中,提供文本润色、重写,校对,改写(如语气变化)、总结和文本转表格等能力。

在它的帮助下,无论是写文章、发帖,为用户解锁了提升写作和更有效沟通的新方式。

图像工具

Image Playground,只需几秒钟即可生成素描、插图、动画三种风格。这些功能在系统中所有app都可用,包括Notes,Freeform,Keynote,Pages等等。

Image Wand可以将你的素描草图转换为 Notes 应用中的相关图像。使用手指或 Apple Pencil 在你的草图周围画一个圆圈,Image Wand 会分析其周围的内容以产生互补的视觉效果。

还可以生成emoj表情等等。

Siri新升级

在Apple Intelligence的加持下,Siri变得更自然、更能理解我们了!

除了更好的自然语言理解和多轮交互外,Apple Intelligence还会为Siri带来屏幕内容感知功能,这样,它就能理解屏幕上的内容,执行相应的操作。

比如朋友发消息告诉你ta的新地址,你可以直接在信息对话中说,「把这个地址加入ta的联系人名片中」。

最牛的来了,Siri也可以完成跨app操作。

例如“将我起草的电子邮件发送给 April 和 Lilly”,Siri 知道您引用的是哪封电子邮件以及它在哪个应用程序中。当然这些增强功能,也并不限于苹果开发的APP。

那如果复杂任务Siri无法用本地模型执行,则会主动询问是否可以叫ChatGPT处理,同时ChatGPT也被集成到了系统的writing tool中,可以改写润色等。

隐私保障

苹果出了一个“私有云计算”的概念:“不得不上云运作”的AI功能,将在使用苹果芯片的专用服务器上启用云计算模式,确保用户数据的私密性和安全性。

02. Apple Intelligence背后的大模型

Apple Intelligence 由多个功能强大的大模型组成,这些模型专门用于辅助完成用户的日常任务,并可以根据用户的当前活动进行动态调整。

这些模型可以分为三类:

本地模型(On-Device Language Model)

这部分包含3B的语言模型、扩散模型DIffusion Model和用于Xcode的编程模型,另外还有用来做 RAG 的 Semantic Index (语义索引)和 App Intents Toolbox(应用意图工具箱)。

这些模型都针对日常的任务进行了一系列的微调,帮助用户完成各种系统级的任务。

比如前面提到的文本工具的摘要、润色、改写、回复邮件、图像生成、通知进行优先级的排序、跨应用的交互等。

此外在这些微调模型之上有个适配器(Adapters),适配器是覆盖在通用基础模型上的一小批模型权重。它们可以动态加载和交换,使基础模型能够针对手头的任务即时进行专门化。

简单来说就是根据任务来给模型选择合适的权重,让模型轻松适应不同领域专家的角色。

私有云计算(Server-Based language Model)

这个基于服务器的大语言模型,对于本地模型满足不了要求的任务,苹果会传到云端运算。

为了确保数据的安全性,苹果采用了私人云计算技术。每当用户的设备发起请求时,它会通过一个端对端加密的通道与特定的私有云计算集群进行连接。仅限于被指定的集群有权限解开这些加密的请求数据。应答数据发送回用户后,相关信息不会被存储,且苹果公司也不具备访问这些数据的能力。

第三方 LLMs

如果苹果自己的大模型搞不定的任务怎么办?

那就交给现在专门的模型厂商处理,专业的人做专业的事情嘛!

目前已经接入了 OpenAI 的 GPT-4o,但按照苹果的说法,后续还会有更多家的模型接入,比如Gemini 等。

另外,考虑到国家政策,苹果在不同国家地区的接入的大模型厂商可能不同,那Open AI和Meta的大模型肯定在国内无法使用,没有通过工信部备案,根据之前的传闻,国内首先接入的应该就是百度的文心一言了!

03. App Intents:给开发者的Framework

刚才讲了,苹果希望可以跨应用完成用户的需求,比如使用Siri就能直接完成邮件发送,图像修改等,不需要进入 app 里面,这个体验很丝滑流畅。

  1. 苹果允许操作系统和应用程序的所有部分通过「函数调用」进行互操作;内核进程 LLM 可根据用户查询安排和协调它们之间的工作
  2. 无摩擦。苹果以一种高度流畅、快速、always on 和上下文的方式全面集成这些功能。无需四处复制粘贴信息、提示工程等。还对用户界面进行了相应调整。

但具体要怎么实现呢?那就得用到给开发者提供的App intents工具,这又是一次操作系统厂商和开发者的博弈战。

App Intents 框架提供的功能可将三方的 app 操作、内容与跨平台的系统体验(包括 Siri、Spotlight、小部件、控件等)深度集成。借助 Apple Intelligence 和 App Intents 增强功能,Siri 会获得在 app 内和跨 app 执行操作的能力。

如此,开发者们可以允许用户通过以下方式使用自己的产品:

  • 与Siri互动,也可以利用Apple Intelligence的个人环境感知和行动能力
  • 通过Spotlight建议和搜索进入产品,比如微信。
  • 等等。。

举个例子,比如邮件应用,他们通过App Intents框架向苹果提供一个操作来表示某个意图,比如发邮件或者删除邮件。然后,用户可以随时要求Siri代表他们执行这些意图,无论此时有没有打开邮件应用。

简单来说,苹果一方面让开发者将意图理解能力引入App中,方便Siri等调用App的功能,一方面又可以将Apple提供的文本、图像等功能集成到App中。

这才应该是AI OS真正干的事情!

【AI agent】热门智能体应用详细拆解,手把手教你搭建Ai智能体应用

aigc阅读(127)

一、 智能体简介

1.1 Dream Story

Dream Story是利用Coze平台搭建的一款智能体应用,可以通过关键词或简单的描述生成一段图文并茂的故事画本。该应用充分的利用了AIGC的文生图及文生文的能力,将AiGC与实际应用场景深度结合。上架一周即被Coze官方推荐至首页,日均会话1K+。

我们以此热门应用,来开始今天的Ai agent智能体应用拆解。希望让人人都可以搭建属于自己的Ai智能体应用。

1.2 体验地址

为了便于您更好的理解和学习该应用,请先体验试用后再进行深度的研究。

DALLE 3 智能体体验链接地址:

www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1

二、背景及目的

2.1 需求分析

目前,在小红书、抖音等各大媒体平台上,通过AI工具批量生成儿童绘本的案例越来越多。许多博主借此迅速涨粉,并已具备了变现能力,因此我们基于此切入点准备做一个儿童画本故事生成的智能体:

2.2 bot功能说明

1. 根据用户输入内容扩写故事内容

请提供一个简短的故事开头或主题,我们将根据此扩写出完整的故事内容。

2. 将故事内容拆分为5个分镜内容

我们会将扩写后的故事内容拆分成5个主要情节或场景。

3. 将5个分镜内容分别生成关键词

从每个分镜内容中提取出描述该场景的关键词。

4. 通过关键词生成相应的图片

使用关键词通过DALLE 3和Stable Diffusion生成相应的图片。

2.3 bot效果展示

DALLE 3 智能体

体验链接地址:

Coze: Next-Gen AI Chatbot Developing Platform

www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1

问题:一位红衣女侠客在荒凉的戈壁上看到一家客栈

输出效果:

Stable Diffusion

Bot 链接 – Stable Diffusion:

Coze: Next-Gen AI Chatbot Developing Platform

www.coze.com/store/bot/7376115189772648449?panel=1&bid=6cnmeuvqg9g08

问题:一位红衣女侠客在荒凉的戈壁上看到一家客栈

输出效果:

三、 应用制作详细步骤拆解

3.1 创建一个新的Coze项目

创建一个新的Coze项目的步骤如下:

  1. 登录 Coze
  2. 在左侧导航栏的 My Workspace 区域,选择进入指定团队
  3. 在页面顶部进入 Plugins 页面,或进入 Bot 编排页面,在 Plugins 区域单击 +
  4. 单击 Create Bot
  5. 在 Create Bot 对话框,完成配置并单击 Confirm

3.2 Bot的基本结构

Dream Storybook-DALLE 3主要使用了工作流的方式来实现故事与图片的生成,具体的实现步骤如下;

3.2.1 bot基础设置

  1. 基础prompt,定义调用工作流即可
  2. Background image,选择一个符合场景的图片
  3. Voices,儿童绘本选择一个能够吸引小孩子声音
  4. 开场白,可以使用markdown的格式放一些生成图片的效果图,能够更好的吸引用户使用

3.2.2 bot工作流设置

1、工作流整体结构图

2、输入

接收用户输入内容,用于后面流程分析

3、LLM大模型解析

模型选择

-建议选择GPT-4o或GPT 4 Turbo

-由于用户使用bot时调用workflow会增加响应回复时长甚至因为工作流较复杂导致请求超时,如不需要在prompt中处理极其复杂的逻辑,可优先使用GPT-4o

prompt配置

-在工作流中写prompt与在bot中写prompt规则一致

-Dream Storybook-DALLE 3中prompt解析主要分为以下三部分

1)角色定义

你是一个儿童绘本的专家,擅长根据用户的简单描述来创建详细且吸引人的故事。

2)流程1:解读内容并生成分镜

-分析{{input}}内容及语言
-创造五个分镜内容分镜内容包括标题正文
-每个分镜内容为一组数据生成的标题赋值到title生成的正文赋值到text
-将titletext翻译成{{input}}对应语言
-将titletext按下方格式严格拼接为一个json字符串到content中输出
-最终输出格式示例仅供参考content:"[ {"title": "title1","text": "text1"},{"title": "title2","text": "text2"},{"title": "title3", "text": "text3"},{"title": "title4","text": "text4"},{"title": "title5","text": "text5"}]"

3)流程2:以分镜内容为基础生成图片关键词

- 将流程1生成的五个分镜内容分别生成五组适用于DALLE 3图片生成工具的关键词
- 关键词包括三部分内容:角色描述、场景描述、通用关键词。
- 对于角色和场景的描述都要尽可能的详细
- 如分镜内容中涉及到相同场景或角色描述时相同的部分必须使用相同关键词
- 与图片风格相关的关键词必须使用相同的
- 通用关键词为默认固定值,其默认固定值为:dynamic composition、animation aesthetic、children's book illustration、Disney style、in the style ofWalt Disney、fairy tale style、animation aesthetic、peaceful scene、warm lighting、fantasy elements、fantasy scene、dynamic composition、storybook illustration、high detail、hyper quality、masterpiece、highres、cute
- 将五组最终关键词翻译成英文词组,将五组英文词组作为一个数组输出到prompt
格式如下,仅供参考:
prompt:["","","","",""]

output配置(输出格式如下)

  1. content:存放根据prompt生成的故事标题与正文;输出格式为string字符串
  2. prompt:存放根据prompt生成的图片关键词;输出格式为一维数组

4、code输出内容结构解析

通过代码的方式解析content内容,由字符串转换成二维数组,见下方

async function main({ params }: Args): Promise<Output> {
    const ret = {
        
        "outputcontent": JSON.parse(params.inputcontent)
    
    };

    return ret;
}

//代码含义解读:
params.inputcontent 是一个包含JSON格式字符串的变量即在LLM大模型解析时生成的titletextJSON.parse() 是JavaScript中的一个方法用于将JSON格式的字符串转换为JavaScript对象outputcontent 是解析后的JavaScript对象及将input content由一个字符串转换成一个二维数组所以"outputcontent": JSON.parse(params.inputcontent) 的作用是将 params.inputcontent 中的JSON字符串解析成JavaScript对象并将其赋值给 outputcontent 变量举个例子如果 params.inputcontent 的值是 '{ "title": "在森林里跳舞的开始", "text": "小女孩穿着白色的连衣裙,在阳光照射下的森林里快乐地跳舞" }'那么执行 JSON.parse(params.inputcontent) outputcontent 的值将是一个包含两个属性的对象{
    name: "Alice",
    age: 25
}
如果实在理解不了遇到想要将一个字符串转换为二维数组的情况可直接复制本段代码将inputcontent与outputcontent替换为对应的输入与输出即可

5、图片生成

-添加DALLE 3插件,选择Batch processing 批量生成,即可一次性生成5张图片

-如选择Single time则只会根据第一条prompt生成一张图片

6、结果输出

最终结果输出时我们需要展示给用户是标题分镜内容及对应的图片

1)Selec Mode 可选择“Answer directly Answer Content(直接使用下方内容回复)”

2)固定格式内容输出,可是使用Markdown或html的格式

  • ##二级标题
  • * 内容 * 正文内容使用斜体
  • ![](图片链接) 将图片链接直接展示
  • *** 分割线
## {{outputtext[0].title}}
*{{outputtext[0].text}}*
![]({{outputimage[0].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[1].title}}
*{{outputtext[1].text}}*
![]({{outputimage[1].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[2].title}}
*{{outputtext[2].text}}*
![]({{outputimage[2].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[3].title}}
*{{outputtext[3].text}}*
![]({{outputimage[3].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[4].title}}
*{{outputtext[4].text}}*
![]({{outputimage[4].data_structural[0].image_thumb.url}})

四、 常见问题和解决方案

如何在工作流程确定使用插件的参数及使用规则

4.1 为什么要知道插件的用法?

为了确保工作流的顺利进行,插件参数的输入需要严格遵循格式要求。因此,在使用大语言模型(LLM)或其他工具时,必须预先定义好插件所需的参数格式,以确保插件能够成功运行。

4.2 如何了解插件的用法?

以DALLE 3和Stable Diffusion举例,可以在coze上找一个功能较全的聊天机器人,直接提问“stable diffusion 插件参数及用法”,回答如下,如对某一个参数有疑问可继续展开询问:

markdown的常见语法

1、我们如果想要输出内容为固定格式需要使用markdown格式,什么是markdown及常见用法可查看下图

2、该bot中标题、分割线、图片展示等语法

补充stable diffusion 在workflow中调用方法。

Stable Diffusion的text_prompt格式要求比较严格,需要是数组格式,此处需要通过代码方式解析格式,如果没有代码基础,可以直接修改参数值后饮用。

第一步:使用LLM大语言模型解析关键词格式

注意:大模型存在一定解析失败的概率

– 最终输出格式如下,严格拼接为一个json字符串到prompt输出,最终输出格式示例,仅供参考:

- 最终输出格式如下,严格拼接为一个json字符串到prompt输出
最终输出格式示例,仅供参考prompt:"[
  {
    "text": "A(0)",
    "weight": 1
  },
  {
    "text": "A(1)",
    "weight": 1
  },
  {
    "text": "A(2)",
    "weight": 1
  },
  {
    "text": "A(3)",
    "weight": 1
  },
  {
    "text": "A(4)",
    "weight": 1
  }
]"
 
 
//prompt输出参数名称,可替换

第二步:代码解析字符串格式为数字

生成单张图片

async function main({ params }: Args): Promise<Output> {

    const ret = {
        "outputprompt": JSON.parse(params.inputprompt),
        "outputtext": JSON.parse(params.inputtext)
    };

    return ret;
}

生成多张图片

async function main({ params }: Args): Promise<Output> {
    const inputPrompts = JSON.parse(params.inputprompt); // 假设是一个数组
    const formattedPrompts = inputPrompts.map(text => ({
        "prompt": [
            text
        ]
    }));

    const ret = {
        "outputprompt": formattedPrompts,
        "outputtext": JSON.parse(params.inputtext)
    };

    return ret;
}

4、 欢迎讨论:

生成图片很难保证一套图片的角色和画风一致,大家有什么好的解决方案分享么~ (可以通过评论此文档或者在群聊里沟通哦)

五、如何利用Coze变现

5.1 什么是BlueAD?

BlueAD 是利用生成式人工智能改变营销和广告行业的革命性平台。它简单高效。开发者可以轻松地集成我们的 API,使他们的 GPT 、Coze或其他 AI 软件从中受益。此外,BlueAD也提供越来越多的广告形式和策略,以供广泛应用。

5.2 如何通过BlueAD变现?

如果你使用Coze、GPTs等AI Agent平台,都有能够商业变现变现的机会,例如coze只需要将“BlueAD”插件加入到Bot中获取接入广告,你的使用者查看了广告即可获得一定比例的收入奖励,Coze上已经有很多高流量的bot已经接入了这个插件,有变现需求和兴趣的同学可以试试~

参考资料:AI Agent 智能体榜单

AI 办公小助理,为打工人减负还是增重?

aigc阅读(85)

张逸是一名北京在读的物理学博士研究生。一天,他需要将语言matlab,转换成Python。

这属于科研的辅助工作,写代码不是他的专长,通常为此要花费两个小时,他的常规做法是对照着代码一行一行改语法。但是他想到ChatGPT,也许可以试试。

在对话框中输入「我接下来给你一段matlab代码,你帮我把它改成Python」,几秒钟后,代码完成了。张逸感到十分惊讶,虽然不是完全准确,但只需人为校验一遍即可,这并不会花费太多时间。使用将近一年后,张逸向新莓daybreak感叹,「节省了过去80%的时间。」

ChatGPT点燃了AI生产变革热潮,这不应该是创业者的独角戏,更需要使用者的见证。

一些人还在担心AI取代人类时,一部分人已经把AI视作生产的重要组成部分,就像给自己免费找了个训练有素、情绪稳定的助手。

学生党用AI写代码、写论文;法官用AI写文书;设计师用AI做图,甚至赚到了钱。AI完成工作后,他们不忘跟AI说声谢谢。

尽管他们也承认AI的局限性,目前AI更适合处理机械性的工作,此外与AI相处得是否愉快,核心在于你是不是提示词用得很溜。

但不得不承认,AI对生产端的影响,可能刚刚开始。

一、情绪稳定的工作助手 

张逸现在每天都会用到ChatGPT,「离不开了属于是。」

对张逸来说,AI已经成为他提升工作效率的得力助手。日常研究经常需要写代码来辅助工作。但因为张逸不是计算机专业出身,一些代码写起来会很吃力。这占据了大量的研究时间。

去年ChatGPT掀起AI热,朋友建议张逸试一试。神奇的是,张逸发现AI比想象的要好用很多。一些经典代码,比如排序算法,AI完全可以胜任,且基本不会出错。检验方式也很简单,找一个特殊值运算就可以。

基本的物理学知识,也可以直接向AI提问。除此之外,张逸告诉新莓daybreak,「还可以将自己蹩脚的中式英语改成流畅的英文。」

尽管不能对科研成果做出直接贡献,AI依然为张逸省去了很多机械性的工作,以便他能腾出更多时间专心思考。张逸发现,身边的很多同门师兄弟都开始使用AI,有的用ChatGPT,有的用文心一言。

就一柄趁手的工具而言,AI的使用范围辐射更广。

郭筱是一名法官助理,日常工作是写判决书和做课题研究。在工作之外,她们还会收到一些其它任务,比如就一个时政主题写心得体会。

过去,她的常规操作是用搜索引擎搜集资料,再结合自己想法撰写成文。使用AI后,直接生成的就是一篇逻辑清晰的成稿。郭筱只需要通读全文,加上自己观点即可。

通常,这类型工作属于边缘任务,质量高低不会影响到工作绩效。使用AI既高效,又不用担心犯错。郭筱向新莓daybreak表达的更直接,它的作用在于完成「没有太大用但又必须做的工作。」不过,这类任务通常一月只有一次。

代码和文本之外,AI在音视频领域的潜力也正被挖掘和验证。年初,剪映更新新功能「克隆音色」。用户按照指令将提供的例句朗读一遍,就可以生成自己的专属音频。不少人直呼「再也不用自己念台词了。」重复录音和发音不准是很多博主的痛点。

AI数字人也被应用在了商业领域。4月16日,刘强东AI数字人在京东App开启直播首秀。开播20分钟,直播间观看人数超900万。这不只是一场带货,更是一场营销事件。更多商家将意识到AI数字人的好处:逼真的外形,顺畅的互动以及低廉的成本。

除了内容生成、代码生成、图像生成、虚拟人互动,生成式AI的应用范围正逐渐扩展至游戏开发、广告营销甚至工业设计,渗透进各行各业。不少人感叹,「现在AI真是牛。」「未来已来。」

字节跳动副总裁朱骏在分享豆包的产品设计时也自信表态,「一方面大模型技术本身在不断进步,一方面行业里对于应用形态和交互方式的摸索会逐渐成熟,这样大模型产品会逐渐融入更多用户的生活和工作里。」

在大多数人还没有看到的角落,AI的影响力正在蔓延,一些人抢先吸收到了养分,还有一些人已嗅到了商机。

二、靠AI变现难不难? 

娜娜接触AI的动机是兴趣与好奇心使然,但在创作内容的同时有了变现的回馈。

第一次点开AI绘画软件Midjourney,娜娜没有做太多的定义,简单输入五个字,「风中的兔子。」图像出来的时候,她的第一感觉是惊艳,「感受到了AI的创造力。」

这开启了娜娜的AI探索之旅。她在小红书开设账号「一只小小娜」,主攻AI摄影。

文生图的操作原理简单,但要想让生成的图像更精美、有创造力,需要结合摄影知识用有技巧的提示词表达。比如娜娜这张图片的提示词是,「春天,清晨,通透的光线,一个穿黄裙子的女模特坐在湖边,树上开满了花。五官迷人的女模特,大半身照片,由timwalker拍摄。」

摄影后期的主业工作让娜娜迅速敲开AI绘画的大门。但连续发布三四个月,却没有带来明显的流量增长。粉丝似乎对她创作的时尚秀场以及服装设计类图片更感兴趣。她决定调转方向,尝试拓展AI服饰。

同样是AI绘画,AI服饰与AI摄影的权重有明显不同。AI摄影更强调光线、环境、情绪与氛围表达,AI服饰则更偏重设计风格、设计元素,款式搭配、剪裁、材质等更加细化和具象的内容。这不仅需要摄影与造型相关的知识基础,还需要了解不同时期的风格特点及不同风格背后的历史文化,以及更加发散的思维和审美的碰撞。

AI服饰

因为从小对服装设计感兴趣,又在工作中与服装搭配师打过交道,娜娜投入了极大的学习热情,边尝试边迭代,「AI的快速表达也使自己的学习自驱力变得更强。」有时候一做就是三四个小时,直到做到满意为止。

粉丝积累到7000的时候,商务找上门了。她告诉新莓daybreak,「有点不敢相信。」这里面既有努力大半年收获反馈的激动,也有合作方是几十、上百万的珠宝品牌的压力。接到brief后,娜娜集中精力补课设计排版,不敢有一丝怠慢。

来找合作的品牌越来越多,变现方式也更加多元。有的比品牌推广更省事,不需要有太多沟通,直接售出图片版权即可。但总体来说,各项收入加起来不如主业,也不具有稳定性。但对娜娜来说,她更看重的是兴趣和额外收入带来的成就感。

娜娜不是个例。AI身上蕴含的商业潜力生发出多种变现渠道。

博主Midstudio在小红书上主攻AI家具设计,打破传统的设计规则,AI家具设计更允许想象力和创造力的释放。比如博主在设计椅子时融入水果元素,椅子的形象被弱化,看起来更像是一个可爱的水果手办。粉丝在评论区一边赞美,一边询问「哪里买」。

这成为博主的一个变现渠道:与工厂合作,在小红书店铺直接进行实物售卖。此外,日积月累的流量也为博主换来很多与品牌合作的机会。

更多人发现了AI变现的机会。小到红包封面、定制手机壳,大到艺术微喷版画、定制礼盒,只要有买家,就能转化成货币。也有人将AI运用于婚礼布场设计,在婚礼策划领域开辟新商机;还有人借助AI生成科普文案,积累粉丝,再进行带货…

三、AI生产的局限性 

AI的应用能力有多大?却是一个不好回答的命题。所有人都对AI寄予了无限期待,但就目前来说,AI依然有一些门槛和局限性。

AI能帮张逸省去机械繁琐的工作,提高效率,却不能为他的研究指出思路和方向。即便可以腾出充裕的时间来思考,但能否加快科研进度,张逸的回答严谨,「产出略微上升」。

用AI完成作业的郭筱也是同样感受。AI写作的优点在于主题明确,条理清晰。但缺点是太过笼统,观点不够精准。像郭筱的主要工作,判决书这样正式刊印的法律文件,极其要求逻辑严密、事实清楚,甚至是一丝一毫的文字差错,都有可能造成不可挽回的损失。

更关键的是,「案子最后要由法官裁量,要体现法官的自由心证路程,AI做不了决定。」

公文写作被认为是最有可能得到AI帮助的领域之一。已有不少AI软件陆续推出公文写作板块,承接通知公告、讲话稿等事务性文书服务。

半月谈援引一名公务员的说法,AI写作公文对于地方的基本情况了解不全面、不准确,更不懂当地的新政策、新提法,生成文章缺乏吸睛点。政务材料往往要求理论知识与实践案例相结合,这造成了AI公文写作的局限性。

相比在文本、代码领域,AI只能完成工具性、客观性的基础任务。绘画领域似乎能发挥的想象力更丰富。但提示词依旧是一个门槛,表达准备的背后是对绘画的基本常识、艺术大师以及使用技巧的充分理解。这也就是为什么,目前AI应用最赚钱的是卖课的。

不止是绘画领域,提示词的使用水平在略微有难度要求的任务中,都会影响着AI呈现的最终效果。很多人因此被拦在了门外。

Kevin是一名AI兴趣爱好者,他在小红书账号「凯文的AI实战笔记」分享使用AI解决各类问题的笔记,比如用AI「一键拆解小红书爆文」、「1分钟生成100分画报」。为了让结果更符合预期,Kevin在输入提示词时,用结构化提示词取代了一般提示词。部分示例如下图(内容下载自AI软件Kimi):

结构化提示词被认为能提升AI的处理效率,完成更加精准、甚至需要逻辑推理的复杂任务。它的底层逻辑是,用大模型进行数据训练的格式发布任务。可以通俗理解为,我用你的话跟你沟通。

但接触和理解结构化提示词的概念和用法,需要时间和精力的投入。用Kevin的话来说,外在框架表现形式好理解。重点在于提示词背后的逻辑,以及你的表达是否可以让AI很好的理解并执行。

在大多数人的认知里,AI意味着便捷、高效。直接通过对话得到想要的结果,是他们接触、使用AI的初衷。结构化提示词无疑拉长了AI的使用路径和难度,Kevin也坦言道,「易上手难精通,至少我觉得目前自己写的也不是很好。」

AI应用还在等待一个大爆发的机遇。

(应采访对象要求,文中张逸、郭筱为化名)

我问AI “什么星座适合做CMO?” 它回答…

aigc阅读(52)

AI正在悄悄改变我们的生活和习惯。

就比如,我从未想过会和机器相谈甚欢。

今天我问它“天秤座和巨蟹座谁更适合做CMO呀?” 隔了差不多30秒才收到回答:“星座并不是一个科学或专业的评判标准”…

唉,一点幽默感都没有。我也就放心了。

这说明,咱人类很多优点AI还没有。

它们除了记性更好,知识面更全之外,不会说笑话,讲段子,没有情绪,也不灵活…

但,这仅是现在。

科学家们说未来几年,AI智商要超145,紧追爱因斯坦。而咱普通人大多100上下,说不焦虑也是假的。

好在,科学家们又说“AI仅是工具”。

可是他们不知道这句话有点点暗示,有点点伤人,面对“狗屁工作”的时候,谁还不是个工具人?

算了,还是发奋努力,做个驾驭工具的工具人吧。那么,下面的能力你必须要有:

1. 提问能力

之前在《AI与市场人的完美搭配:六个关键步骤》提过,会提问题,才会得到想要的答案。

前面我提的问题有点无厘头。工作中,还是要尽量问一些具体的问题。

比如你问AI“如何系统地学习营销?”回答大多是大而空的上课、学习之类。

如果你说”你是工作3年的营销人,日常工作是B2B市场活动执行,现在想系统学习数字营销,请提出3个学习资源..”

距离你想要的,就接近了。

还是那句话,要想得到理想答案,提示词是关键。

不过,即便提示词完美了,AI的回答也不能全信。

还是要回到搜索,找到原文,交叉验证。有点像去原产地,溯源。

2. 搜索能力

根据AI提供的蛛丝马迹开始像侦探一样寻找线索,并最终找到答案的过程中,搜索就是主要工具。

如何搜索才有好的结果?这又是一门学问。

很多时候搜索是有技巧的,比如在哪个网站搜,每个网站/App适合什么样的内容…

不过,原始文件准确性高,但也不能直接用,还需要判断真实性、前提条件、发布时间等等。

应该相信哪些信息?哪些内容有效的?这个决策者还得是你,这时候需要更高阶的能力。

3. 辩证思考能力

朋友说,“我和ChatGPT聊天的时候,发现它有点讨好型人格”。我笑着点头。

比如我说我是天秤座的时候,同一个问题,它似乎有点点偏向天秤座适合CMO了。

我要相信吗?

这时候,我还是要有点理智,虽然感情上我很想接受。

这又让我想起心理学上的一个概念,“算法厌恶”。即人工智能提供的建议质量明显更高的时候,人们也不太相信,更倾向于问问身边的人。

无论是“喜好”或者“厌恶”,拍板之前,都需要运用逻辑,多角度辩证地思考。

难吗?挺难的,做决策本来就是困难的事儿。就连ChatGPT说的都要想“接受“或”拒绝“。

对了,这篇文章,本来它按照关键词给我写了一篇,被我打回去了,写得太死板了,不是我的风格。

好了,说了快速找到信息,也做好了溯源,并决定接受,但怎么应用到现实中来?这就需要分门别类,排列组合的功力了。

4. 结构化思维能力

也就是能把信息拆解、组合,并为我所用。

在营销中的结构化思维最常用是整合营销,也就是我常常提到的“珍珠项链”,把资源最大化的利用。

在面对复杂问题时,尝试使用金字塔原理,5W1H等原则,打破砂锅问到底之后再组合成自己想要的答案。

总结来说,工具提供的是零散的想法,我们还需要有全局观,这可是咱们人类的独特能力,之一。

之二,便是想象力。

5. 想象力

前面提到的高智商人类代表爱因斯坦就说过“想象力比知识更重要”。

也许他也是预测到某一天智商可能被赶上才这么说吧。

但确实,很多时候,咱们在胡思乱想的时候才有灵感。

具体怎么做?

大胆的跳出框框,允许自己天马行空,多泡泡浴缸,多在苹果树下打个盹… 说不定还能发现点什么..想想,阿基米德和牛顿。

如果实在找不到苹果树,也没有浴缸、向日葵田…那就去看一台舞台剧,听一首好歌,读一部侦探小说…

让自己高兴起来,并保持好奇心,去探究一下未知…

我在很早前写过一篇文章,你可以看看《人物|既是艺术家,又是科学家,跨界牛人的一生是有多精彩?》

看完后,你就会发现AI像个傻子一样,只懂得工作,没有peace and love。

听劝,好好锻炼提问能力、搜索能力、辩证思维能力、结构化思维能力和想象力。未来等你躺在海边看着AI吭哧吭哧地为你干活的时候,要请我喝一杯。

对国内AI算力紧缺问题的若干看法

aigc阅读(48)

今天凌晨的苹果WWDC证实了一点:AI推理算力将长期处于“云端为主”的状态,这个“长期”至少是三到五年。

是的,苹果与OpenAI建立了战略合作,计划将下一代iOS系统与ChatGPT深度融合;但是绝大部分生成式AI推理,包括文字和图片生成任务,仍将上传到ChatGPT的数据中心,在云端完成。

关于这一点,OpenAI在公告中已经说得很清楚了:苹果的“端侧AI”主要仍局限于软件层面。

如果连苹果都做不到推理算力的“端侧化”,那么其他手机厂商就更做不到了。

PC端可能比移动端的进展稍微好一点,但是在可见的未来,大部分AI PC(包括桌面工作站)仍将基于英伟达的桌面级显卡,而且只能执行参数规模相对较小的(蒸馏后的)大模型推理。

无论从技术角度还是成本角度考虑,大模型及应用开发商都会更乐意在云端即数据中心完成大部分推理任务。

资本市场再次认识到了这一点,所以WWDC举行之后,苹果股价下跌而英伟达股价微涨。

在未来很长一段时间里,我们不必过多考虑“端侧算力”。既然如此,国内AI算力紧缺的问题,就不可能通过发展所谓“端侧算力”的方式去解决。自从2022年11月底ChatGPT横空出世以来,国内AI算力几乎始终处于紧缺状态,这是由下列因素共同决定的:

全球AI算力均十分紧缺,尤其在制造端,英伟达H系列显卡仅能由台积电代工(三星不行),产能瓶颈将持续到多年以后。

美国芯片出口禁令日益严格,尤其在2023年下半年的全方位加强之后,许多“后门”被堵上了,国内厂商采购数据中心级显卡的难度与日俱增。

我们知道,AI大模型所需算力分为训练和推理两种,前者的要求更高一些;国内的现状则是两种算力都缺乏。

讽刺的是,前几年国内发展云游戏期间,互联网大厂和电信运营商均采购了一批英伟达Turing架构的显卡用于架设RTX刀片服务器,这些显卡可以用于AI推理;如果没有云游戏,国内推理算力的瓶颈将更加严重。

中国游戏产业是一个任劳任怨的背锅产业,谁都能来踩一脚,谁都能污名化,但是拯救所谓“硬科技”产业偏偏还得靠它!

即便如此,国内AI推理算力的供需关系仍然十分紧张。所以,过去一个月国产大模型的“降价”举措,很大程度上仅仅是行为艺术罢了。尤其是对于B端客户而言,无论大模型API的调用价格降到多低,关键在于能不能买到量。

现在的问题就是“有价无市”:只有极小规模的采购才能以“刊例价”执行,稍大规模的采购就必须找销售人员单独洽谈并排队,实际成交价格难以预料(肯定远高于“刊例价”)。

不要说B端用户,哪怕C端用户也能感受到推理算力的紧张:国内的几个最流行的AI大模型应用,免费用户在高峰期几乎一定会遇到需要排队的状况,必须充值或打赏才能加快进度。

要知道,目前国内主流生成式AI应用的DAU普遍只有几百万量级,推理算力就已经如此匮乏;如果真的出现上亿DAU的AI超级应用,算力几乎肯定是跟不上的——所以目前国内不可能出现这样的超级应用。

(注:文心一言和通义千问均自称累计用户超过1亿、每日API调用次数超过1亿,但是与1亿DAU还差很远;豆包估计也差很远。)

可以想象,比推理要求更高的训练算力更加紧缺。

2024年2月,字节跳动在一篇论文当中公布了它于前一年9月组建的“万卡集群”。遗憾的是,它是由1.2万张(比较落后的)A100显卡组成,而美国科技巨头早已换上了由(更先进的)H100组成的“万卡集群”,例如Meta的LLaMA-3就是由2.5万张H100组成的集群训练的;以亚马逊为代表的云计算大厂正在积极转向(更更先进的)B100及GB200算力集群。

A系列显卡发布于2020年,当时芯片禁令尚未出台,国内采购没有多大障碍;H系列发布于2022年,芯片禁令已经出台,但是国内仍然可以通过采购“专供版”(主要是H800)的方式绕过;B系列于2024年发布,此时绕过芯片禁令的途径已经非常狭窄、朝不保夕。

长期、严重的算力瓶颈,给国内AI产业带来了两个深刻影响。

首先,算力紧缺意味着算力价格高昂(无论以自购显卡还是租用的形式),国内所有大模型厂商的售价均无法覆盖训练+推理成本,有些甚至无法覆盖边际推理成本,卖一单亏一单(最近一波降价之后可能亏的更严重)。

其次,国内大部分算力集中在少量科技大厂手中,创业公司高度依赖它们,十分渴望它们以算力的方式投资入股。 结论就是大模型创业在国内是一门非常差的生意,远远比不上当年的移动互联网创业。

下面我们不妨以问答的形式,进一步说明国内AI算力的现状。

问题是市场上最关心的那些问题,回答则不是来自我本人,而是来自我在云计算和AI行业的信赖的朋友,我只是总结他们的答案罢了。

问:目前国内AI算力储备及分布状况大致如何?

答:先说训练使用的“大卡”。

如果把A100-800、H100-800均算作“大卡”的话,那么国内的“大卡”储备肯定超过六位数,甚至可能超过了20万张。问题在于随着技术进步,A系列已经很难再被视为“大卡”了。

如果按照扎克伯格所谓的“H100等效算力”,国内的储备肯定不超过六位数,而仅仅Meta一家的“H100等效算力”就已经超过了30万张,2024年底将突破65万张,远远超过了国内所有大厂的算力储备之和。

具体到算力分布,有两个标准:第一是“掌握的算力”,第二是“能调用的算力”。

阿里这样的云计算大厂掌握了巨大的算力,但其中很大一部分要出租给客户,自家大模型训练和推理能调用的算力未必有绝对优势。

如果只计算“掌握的算力”,国内第一的无疑是阿里,其次是百度、字节跳动,腾讯可能更少一点。掌握一两千张大卡的互联网公司很多,因为内容推荐算法、自动驾驶训练等环节都需要。

至于推理算力的分布就更加驳杂了。

上文提到过,云游戏使用的显卡可以承担一定的推理任务,目前国内的推理算力可能有很大一部分来自以前的云游戏算力。

问:怎么看AI算力的国产替代?

答:在训练端难度极大,哪怕某些国产显卡自称其技术参数能达到A100的水平,它们也不具备NVlink互联技术和CUDA开发环境,从而无法承担大模型训练使命。况且,A100是英伟达2020年发布的产品,在2024年“追上”前者四年前的水平并无先进性可言。

大模型不是原子弹,它是一种重视性价比的民用商品,使用非主流硬件开发出来的大模型可能毫无商业价值可言。但是在推理端,不是完全没有可能,因为推理卡对NVlink和CUDA的依赖程度很小。

英伟达在推理端的城墙仍然很高,但是比起训练端就要差了不少。

问题在于:推理算力的技术路线也在不断变迁,技术变迁的领导者还是英伟达。假如有选择的话,主流大厂肯定乐意采购英伟达的推理解决方案。国内厂商的问题是在芯片禁令之下没有选择,在推理端进行国产替代总归比没有强。

问:怎么看Groq以及国内某些厂商推出的“远超英伟达”的推理卡?

答:在高度特化的技术路线下,确实有可能做出表观技术远超英伟达同期产品的推理卡——但是付出的代价是应用场景十分狭窄。这样的显卡不仅只胜任大模型推理,甚至可能仅胜任某一特定类型的推理。大厂建立数据中心需要考虑通用性以及后续升级需求,高度特化的显卡无法满足这些需求。

上面提到过,云游戏使用的显卡可以用于推理,但高度特化的推理卡可以执行图形渲染任务吗?可以执行自动驾驶等非生成式的推理任务吗?

而且,硅谷那些不差钱的大厂,现在流行以“大卡”同时执行训练和推理任务:速度更快、更具灵活性、管理起来更方便。你的训练任务在全年之中不是平均分布的,可能这三个月训练消耗的算力多一些,接下来推理消耗的算力多一些,统一组建“大卡”集群有助于提升灵活性。

当然,这样做不够经济,所以推理任务主要还是得由推理卡去执行。

我只是想说,英伟达在训练端和推理端的护城河是相辅相成的,不是彼此孤立的。

问:绕过芯片禁令的可能性大吗?目前大家的替代方案是什么?

答:很多人认为,芯片禁令可以以“非正常”手段绕过。

但他们忽视了两点:

第一,英伟达高端显卡近年来一直供不应求,所以不存在庞大的二手及散货市场,哪怕是海外大厂淘汰下来的显卡一般也是内部发挥余热。

第二,即便你能绕过英伟达官方销售获得一些显卡,也无法获得技术支持。

H系列和B系列训练卡都不是单片出售的,而是以服务器(训练机)为单位出售。B系列训练机已经非常像高端数控机床这样的高精尖设备,内部可以植入地理位置判断系统,发现地理位置偏移之后可以自动停机。

所以无论在理论上还是实践中,只要英伟达愿意认真执行芯片禁令,就是很难绕过的。

虽然英伟达肯定愿意多卖几个客户、开拓中国市场,但现在它的显卡反正不愁卖,短期内也不可能主动承担破坏禁令的风险。

当然,一切都是可以谈的。

只要双方都想认真做生意,拿出一些东西做交换,没有什么生意是一定做不成的。关键看大家做生意的意愿有多强烈了!我们不能低估解决问题的难度——因为只有充分估计难度,才能站在现实角度解决问题。片面低估难度并装做问题已经解决是不可取的,相信真正的从业者不会这样做。

人工智能的负效应:没有大语言模型的语种未来会消亡

aigc阅读(51)

“ en-US ”一直是美式英语的语言标识符,在ChatGPT横空出世之后,有了新的含义:英语/美国作为大语言模型(Large Language Model)的超级指令语言和超级大国,逐渐在新一轮AI竞争中领先世界其他语种和国家。

在长期使用ChatGPT和其他大语言模型的过程中,我一直想探索这些模型对世界其他语种支持的边界。

比如说:

1.为什么ChatGPT能在各个语种中自由切换,支持自如?

2.到底ChatGPT支持多少种语言?

3.ChatGPT对中文的支持和英文一样好吗?

4.在大语言模型中,是不是有一些“二等公民”和“一等公民”?

分析的结果令人瞠目结舌。

美国人训练出来的模型对美式英文有压倒性的支持,而世界上几千种语言其实能支持的好也就不过十来种。

这也解释了为什么每个国家或者语种都需要自己的大语言模型,才能在新一轮人工智能的工业革命中跟上其他国家前进的步伐。

这篇文章结合了我的实践经验和定量分析,最终得出以下结论:

1.大语言模型可以兼容Unicode中的所有161种语言。

2.英语占GPT-3训练数据的90%以上。

3.英语是大语言模型最有效的提示语言——它比西班牙语有效1.3倍、比法语有效1.5倍、比CJK(中文、日语、韩语)有效2倍。

4.大约10种高资源语言得到了大语言模型的充分支持。

5.Unicode中其他150种语言资源匮乏,代表性不足。

6.全球有近7,000种语言缺乏大语言模型支持。

01 你讲的语言是高资源还是低资源

传统自然语言处理(NLP, Natural Language Processing)研究会把语言分类成高资源(high resource)语言和低资源(low resource)语言。前者涵盖约20种语言,包括英语、中文、西班牙语、法语、德语、日语、俄语、葡萄牙语、阿拉伯语、印地语、意大利语、韩语、荷兰语、土耳其语、波斯语、瑞典语、波兰语、印度尼西亚语、越南语、希伯来语。

这些高资源语言有着丰富的语言资源,例如广泛的文本、用于机器翻译的平行语料库、综合词汇词典、句法注释和用于监督学习的标记语料库。

也有一些高资源语言,如荷兰语,可能没有大量的使用者,但有着强大的语言研究学者和成果,产出了重要的语言语料库和工具,于是也成了高资源语言。

相反,某些低资源语言,例如尼日利亚皮钦语(Nigerian Pidgin),有超过 1 亿人使用,但缺乏大量的研究和开发,使其处于低资源状态。学术界一直苦于低资源语种的投资不足。

如果一个语言有足够多的人使用还好,至少还能世代流传下去。有些低资源语种,本来使用者就不多,又缺乏足够的研究,使得它们也逐渐变成了“濒危语种”。

以ChatGPT为代表的大语言模型的出现,仿佛给世界语言带来了一束光。

大家发现,不需要训练专门的机器翻译系统,ChatGPT也能在不同语种之间自由翻译和转换。用ChatGPT做翻译,或者使用其他语言去给ChatGPT发指令,往往给非英语说话人留下深刻的第一印象。

很多人对语言智能的认知还停留在金山词霸阶段 —— 有个多语种的电子词典可以做双语种互相翻译。可是如果有这么个ChatGPT神器,可以接受我用母语输入,并能够用我看得懂的语言智能地做出回答,可真是太神奇了。

于是很多人不禁要问,既然大语言模型这么神奇,是不是这世界上的低资源语言也有救了?

语言学鼻祖Noam Chomsky毕生致力于发展一门世界通用语法(Universal Grammar)。他有一段非常出名的比喻:如果外星人来到地球,他们能够听懂读懂地球上的所有语言。因为在他们看来,地球上每一种语言都遵循同样的语法,只不过大家说的是不同的“方言”而已。

如果ChatGPT能在多种语言之间切换自如,那它是否破解了这世界通用语法的奥秘?

02 低资源语言在大语言模型

中的代表性仍然不足尽管大语言模型具有变革潜力,但现实仍然是大语言模型主要迎合英语和少数其他高资源语言。

对GPT-3等模型使用的训练语料库进行仔细检查后发现,各语种存在明显的不平衡:

  • 英语占主导地位:GPT-3的训练语料绝大多数是英语,占数据的92.6% 。ChatGPT(基于 GPT-3.5)等后续模型延续了这一趋势。
  • 有限代表的语言(分析仅限于GPT-3语料库):
  • 只有两种语言占GPT-3语料库的1%以上,即法语 (1.8%) 和德语 (1.5%)。
  • 另外14种语言落在0.1%到1%的范围内,包括西班牙语、意大利语、葡萄牙语、荷兰语、俄语、罗马尼亚语、波兰语、芬兰语、丹麦语、瑞典语、日语、挪威语。
  • 值得注意的是,像中文和印地语这样的语言,总共有超过20亿人使用,甚至没有达到语料库0.1% 的门槛。
  • 训练数据集中度:GPT-3训练语料库中排名前16位的语言有明显的头部效应:加起来一共占99.24%。
  • 单词覆盖范围有限:GPT-3训练语料库中只有65种语言的单词数超过100万,其中第65种语言是高棉语。虽然在柬埔寨有1700万人使用高棉语,但它在GPT-3的训练语料库中只有区区100万个词。

ChatGPT对英语和精选高资源语言的偏向并非OpenAI(ChatGPT的母公司)有意为之;因为语料大部分来自互联网,而互联网反映的是一个国家和语种的富裕、开放、和活跃程度。

大语言模型在很大程度上忽略了世界上7,000 种现存语言中的大多数。例如,以下使用人数众多的语言贡献了不到 1% 的互联网文本内容,因此很难收集足够的数据来训练一个专门针对这门语言的大语言模型:

1.印地语:6.02 亿使用者

2.阿拉伯语:2.74亿使用者

3.孟加拉语:2.73亿使用者

4.乌尔都语:3.21亿使用者

语言使用者和可用文本数据之间的差异导致了语言多样性之间的不平衡。这个问题的源头更多的是一个国家的发展情况和投资力度,我们会在下篇博文中详述。

对于旨在支持更广泛语言的大语言模型来说,这也是一个根本性的挑战:如果一种语言在网络上只有少量文本,那就没有适合这门语言的大语言模型。如果一种语言在网络有大量文本,也需要其代表国家加大投资力度才能发展出有本身语言特色的大语言模型。

于是我根据ChatGPT的支持力度对世界语言进行了分类:

ChatGPT-3.5 对高资源和低资源语种的支持情况

03 英语是大语言模型

最有效的“编程语言”大语言模型有一个输入和输出的限制,以token数目表示。如果token数太少,比如只有区区1000个,那能做的事情就很有限。

这有点像早期的个人电脑,只有16KB的内存,跑不了“大程序”。而如今有一些智能手机都有了16GB的内存,是以前的1000倍。至于一个token是多少个英文单词或者汉字,我们在后文解释。

GPT-3.5-turbo和GPT-4-turbo等语言模型的token长度一直在增长。截至 2024年5月, GPT-4-turbo已经支持多达128K个token 。这里K代表一千(Kilo)。128K也就是12万8千个token。如何去优雅又节省地给大语言模型写提示语已成为一门手艺。

截至2024年5月的GPT Turbo模型及其上下文长度限制给大语言模型下指令有点像往早期计算机里输入指令,在键盘发明之前,需要在一条穿孔纸带(punched cards)上一点一点把指令喂给计算机。比尔盖茨和保罗阿兰最早开始合作编程的时候就是这么操作计算机的。

早期IBM穿孔纸带:12行80列,大致能输入80字节的指令。

GPT-4可以输入128K字节的指令那么问题来了:哪种语言能够用最少的token表达最多的意思?中文吗?咱们老祖宗留给我们的瑰宝一向言简意赅呀。这是否意味着可以使用中文作为 ChatGPT的指令提示语言?

如果再深入一步,这个世界上还有比中文更“简洁”的语言吗?

语言简洁度排名:

从中文到英语到西班牙语到日语

有很多研究从不同角度探讨了如何确定世界上各种语言的简洁度。在这里我们引用两个研究供大家参考。

翻译同一文本后的长短有人对公共互联网上谷歌隐私政策的不同语言翻译进行了评估。

以下是按字符总数排名的语言示例:

1.繁体中文:101个字符

2.简体中文:124个字符

3.日语:215 个字符

4.英语:345 个字符

5.西班牙语:376 个字符

6.法语:417 个字符

7.越南语:403 个字符

8.印地语:500 个字符

这样可以把各个语种的信息密度量化:繁体和简体中文确实是非常简洁的语言!(但ChatGPT不这么认为。)

最有效的语言是什么?这张表展示了对谷歌隐私政策片段的不同语言的翻译。

语速和简洁度另一项研究测量了说话的速度,基本假设是“不简洁的语言要更快的说”。

研究发现,说西班牙语和日语的人语速很快,而说汉语和越南语的人语速很慢。

如果以越南语的简洁度为1,那语言简洁度有以下排名:

1.越南语:1

2.中文:0.94

3.英语:0.91

4.西班牙语:0.63

5.日语:0.49

当然,这项研究并不一定准确。因为一种语言的语速快慢也和当地人的生活节奏有关。

结合这个排名和上面的表看,这也可以从侧面解释为什么西班牙语听起来更快。

基于以上结果,是不是说我们只要用中文写大语言模型的指令提示就可以了?根本不是。

04 ChatGPT的词汇主要是英语

尽管英语形态复杂,但由于以下几个关键因素,英语仍然是大语言模型最青睐的“编程”语言:

  • 词汇优势:像ChatGPT这样的大语言模型主要接受英语文本的训练,具备强大的英语词汇和并能理解到语言中用词的细微差别。
  • 提示效率:英语通常也是效率最高的提示语言。
  • 文化和语义丰富性:英语在许多领域都是一种通用语,提供了广泛的文化参考和语义深度。

对于大多数大语言模型来说,英语是最有效的提示语言,原因来自OpenAI 如何给每种语言编码的。

一般的规则是:

1.对英语原生支持:英语在ChatGPT中被认为是“一等公民”并有深度优化。

2.Unicode编码支持:Unicode语言共有161种,使用了字节对编码(byte pair encoding),以确保与ChatGPT处理框架的兼容性。

3.非Unicode无法编码:遗憾的是,ChatGPT和众多大语言模型都不支持非 Unicode语言,因为这些语言无法用计算机通用的字节(byte)代表。

您听说过ChatGPT-3.5词汇表吗?它包含100,261个词,大部分来自英语。

下面是该词汇表的节选:

1.Token举例

a.token 0 是感叹号!

b.第32至57个token是大写字母 A … Z

c.token 67853 是单词后缀 “-ish”

d.token 75459 是“battery”

e.不幸的是,“GPT”这个词并不在词汇表中

2.变体和同义词

a.英文二月的各种token代表:“February”(token 7552)、“Feb”(token  13806)、“February”(token 33877)、“Feb”(token 41691)、“feb”(token 78471)“-Feb”(token 94871)。

请注意,有些token带有空格前缀。

ChatGPT 词汇概览ChatGPT词汇表专门用于英语,以至于它有9个专用于“Twitter”的token!遗憾的是,其他语言在这个100K大小的词汇表中没有获得应有的token份额。这至少表明英语对于GPT模型来说是多么占主导地位。

ChatGPT的100,261个token词汇表中有9个token代表Twitter

写作效率 != 提示效率

ChatGPT对语言的编码凸显在了在token的使用效率上。例如,中文字符“猫”由三个token(十六进制值:xe7、x8c、xab)表示,而英语单词“cat”则仅需一个token表示。

Unicode字符如何分解为字节并转换为ChatGPT token这种标记化差异强调了ChatGPT中写入效率和提示效率之间的重要区别。

当面临token限制(例如 GPT-3.5-turbo的 16,385个token上限)时,英语成为比中文或韩语更有效的提示语言。各种语言“猫”的token效率比较:

  1. 英语:cat (猫)= 1 个token
  2. 中文:猫 = 3 个token
  3. 韩语:고양이(猫)= 4 个token

在向ChatGPT表达“猫”这个狭义的例子里,英语的效率是中文的3倍,是韩语的 4 倍。

在Unicode的UTF-8编码中,字符通常为1到4个字节,而世界上大多数语言字符占用2到3个字节。因此,非英语语言的标记长度往往平均每个单词有2到3个token,与英语相比,提示效率较低。

考虑到GPT-4-turbo的扩展上下文长度最多支持128,000个token,语言效率的差异会变得更加明显。

128k个token大概是多少个单词?下面是一个平均值:

  • 英语:约 96,000 个单词
  • 简体中文:约54,000个字符
  • 韩语:约 41,000 个字符

英语在提示词效率方面是中文的1.8倍,韩语的2.3倍综上所述,英语是ChatGPT最高效的提示语言,其提示效率是CJK(中、日、韩)语言的约2倍。

两个其他语言的例子:克林贡语(Klingon)和爪哇语(Javanese)大语言模型对一个语种的支持取决于该语种是否被包含在标准字符编码系统 Unicode中。

如果Unicode缺少了某种语言,那大语言模型也不会支持这种语言。

以下是Unicode不支持的语言示例:●唐萨语——印度和缅甸唐萨族使用的语言。●托托语——印度西孟加拉邦托托部落所使用语言。●阿伊努语 – 日本阿伊努人使用,对片假名区中的一些字符的支持有限。●Pahawh Hmong 文——一种用于书写苗语的文字,创建于20世纪中叶。●Chakma——印度和孟加拉国的Chakma人使用。●Kpelle——利比里亚和几内亚的Kpelle人使用。●瓦伊语——利比里亚瓦伊语使用的音节文。●巴萨瓦语——一种用于书写利比里亚巴萨语的文字。克林贡语(Klingon)克林贡语是《星际迷航》宇宙中的一种人造语言,但Unicode中却没有这种语言。因此,由于缺乏Unicode支持,ChatGPT等大语言模型无法读取或处理克林贡语脚本。如果人类在ChatGPT基础上实现了通用人工智能(AGI),那在马斯克发往火星的飞船上听到了克林贡语是理解不了的。

克林贡文字不属于 Unicode,因此不受大语言模型支持爪哇语(Javanese)印度尼西亚爪哇岛有6800万人口使用爪哇语,它与编程语言Java有着独特的历史联系。尽管Java在推动Unicode在编程语言中的采用方面发挥着关键作用,但爪哇语言本身直到2009年才得到Unicode的正式支持(Unicode 5.2版)。这种延迟的纳入凸显了非西方语言在获得 Unicode 等全球标准认可方面所面临的挑战。截至Unicode15.1版,该版本涵盖了161种文字和近15万个字符,而全球共有7,000余种语言。展望未来,确保Unicode和相关标准中包含多种语言对于促进语言多样性和在大语言模型 等新兴技术中提供全面的语言支持至关重要。

5

甚至美国参议员也认识到“en”

与其他语言的不平衡2023年5月16日,美国参议员Padilla在与OpenAI首席执行官山姆·奥特曼Sam Altman举行的参议院人工智能听证会上表达了他的担忧(视频1:49:38,文字记录):参议员亚历克斯·帕迪拉:“现在,随着语言模型变得越来越普遍,我想确保重点关注确保不同人口群体的公平待遇。我的理解是,大多数评估和减轻公平性损害的研究都集中在英语上,而非英语语言受到的关注或投资相对较少。我们以前也见过这个问题。我会告诉你我为什么提出这个问题。例如,社交媒体公司没有对其非英语语言的内容审核、工具和资源进行充分投资。我分享这一点不仅是出于对非美国用户的担忧,而且许多美国用户在交流时更喜欢英语以外的语言。因此,我非常担心社交媒体在人工智能工具和应用程序中重蹈覆辙。问 Altman先生和Montgomery女士,OpenAI和IBM如何确保他们在大型语言模型中的语言和文化包容性,是否是您产品开发的重点领域”(令人遗憾的是,参议员帕迪拉(Padilla)从他想要缓和非英语语言的立场出发,因此询问ChatGPT对其他语言的支持。)山姆·奥特曼:我们认为这非常重要。其中一个例子是,我们与冰岛政府合作,以确保他们的语言被纳入我们的模型中。冰岛语是一种使用人数较少的语言,与互联网上许多代表性语言相比,使用人数较少。我们已经进行过许多类似的对话。我期待与许多资源较少的语言建立类似的合作伙伴关系,将它们纳入我们的模型。GPT-4与我们之前的模型不同,之前的模型擅长英语,而对其他语言则不太擅长。现在,GPT-4在大量语言方面表现相当不错。你可以在按使用者数量排名的列表中往后看,仍然可以获得良好的表现。但对于这些非常小众的语言,我们很高兴能与定制合作伙伴将该语言纳入我们的模型运行中。你问到的问题中关于价值观和确保文化被纳入其中的部分,我们同样关注这一点。(您听说过 OpenAI 在日本开设办事处的消息吗?也许这是定制合作伙伴关系的一部分。)

6

总结回顾ChatGPT等大语言模型(LLM)中对语言表征和效率的探索,我们得出了几个关键结论:1.英语占主导地位:英语仍然是提示大语言模型(如 ChatGPT)的最有效语言,因为它在模型词汇表中具有广泛的token覆盖率。这种主导地位凸显了在提示工程中利用英语的实际优势。2.token效率:大语言模型中的token化过程揭示了不同语言之间效率的显著差异。英语提示通常需要较少的token,而亚洲语言需要多个token来表达同样的意思,从而影响整体提示效率。英语是ChatGPT最高效的提示语言,其提示效率是CJK (中、日、韩)语言的约2倍。3. Unicode 和语言支持:大语言模型对Unicode进行语言编码的依赖凸显了标准化在实现语言包容性方面的重要性。Unicode中没有的语言(如克林贡语)在获得大语言模型支持方面面临巨大障碍。4.语言多样性的挑战:Unicode覆盖的161种文字与世界7000种语言之间仍然存在巨大差距。Unicode中语言的代表性有限,这对保存和理解语言多样性提出了挑战。5.未来前景:随着大语言模型技术的不断发展,解决语言表示和效率的不平衡问题变得至关重要。努力增强Unicode的包容性并扩大大语言模型架构内的语言支持对于促进语言平等和文化保护至关重要。总之,应对大语言模型课程中语言效率和语言表达的复杂性,既是推进语言多样性和包容性语言技术的挑战,也是每个语种的机遇。每一个单一语种或者多语种的国家,都应该把大语言模型当作一个战略资源,在提示效率和兼容性上研制出对本国语言支持最好的人工智能。当今的现状是,以token计算,ChatGPT-3.5对英文提示词和输出的支持效率是中文的近两倍。当未来的人机交互语言从编程语言变成每天说的语言时,中文这么言简意赅的语言应该享有对其支持更好更高效的大语言模型。写完此文,不由感叹,这世界上的语言本来各有特色,并无“贫富贵贱”之分。可是当语言成为大语言模型的指令,成为人工智能桂冠上的明珠后,每个国家,每个语种,要重新审视自己的语言战略。应该聚集全世界说同一种语言的国家与民族的力量,大力发展最能代表自己的语言人工智能。

AI总结性产品是不是鸡肋?

aigc阅读(52)

我把问题发给朋友,结果并不惊讶。

他说:AI总结类产品,并不好用。他解释道:自己经常在地铁、咖啡厅里刷朋友圈,看到不少文章因为时间太紧,于是乎会让AI先帮忙读一遍。

起初,感觉还可以,后来觉得,说的都是正确的废话,跟看文章目录、中间划线部分没什么区别,缺乏新意,还会漏掉关键部分。

我很赞同,也非常理解对方感受,也遇到过类似问题。观察市面大部分阅读类AI软件后发现,帮总结、帮读、帮分析,快速形成提纲是避免不了的第一步。

我后来开始思考,什么情况下认为它不错,什么时候又觉得它没用?让AI帮总结真的靠谱吗?到底需要什么样的总结?如何让不同的总结工具为我所用?

深入研究后觉得工具有问题,好像个人方法也不太对。

01

因为注意力有限,所以,我经常想,每天接触文章、播客、视频,怎么把注意力集中在更多有价值的信息上。

于是,有两个处理方法:

  1. 预处理
  2. 帮阅读

所谓预处理,即:主动寻找一些高质量的信息源,订阅它们,每天定时同步到邮箱,晚上一并进行查看。

而帮阅读呢?也就是,对每天各大资讯类APP实时推送还不错的内容,提前用AI帮读,让它整理出核心观点,摘要。然后,会根据AI给出的内容,决定这篇文章是否值得我花时间再看。

如此一来,就形成一条高效地获取有价值信息的完善过程。听起来很丝滑对不?可是,你知道吗?我用AI总结工具经历了三次迭代。

一开始,AI阅读还没有流行起来。

我用AI阅读,是在朋友圈看到有人分享了一个海报,加了一个企业微信,把文章转给它,它就能自动生成内容。

小众公司做得挺好,用起来挺省事的,还开一年的会员。没想到,这家公司没用多久倒闭了。自那之后,我心里发誓,再也不让这种软件割我的韭菜了。

正是尝到了甜头,加上对AI总结带来效率提升的渴望,我不得不寻找更多选择,很快,发现百度网盘推出的工具;这个工具功能、使用方法都和之前差不多,而且用起来很方便,也就用了一段时间。

不过,好景不长。

随着订阅文档、视频、播客越来越多,我开始琢磨,视频播客有没有做摘要、帮读分析的软件?那段时间,我回到家,大部分时间都在寻找合适的软件,至今还历历在目。

天道酬勤,的确找到不少。可是,一段时间后,新问题又来了。我总在3-4个软件之间切换,晚上原本专注阅读的时间正事没干多少,反而精力消耗严重;这让我注意到,工具多,效率没提高,就会分散注意力。

怎么办?

很巧,2023年中旬,国内大模型应用陆陆续续爆发。

阿里推出“通义千问”,科大讯飞推出“讯飞星火”。那时候,我试用几家,心里想,太棒了,终于可以一键解决所有问题了。

但用一段时间后,又有了新的问题,我发现:部分我关注的内容并不在AI的总结范围内,它总结的内容,不是我不关心的,甚至,我还要主动提问,它才能给出相关内容。

这很头疼。在经历从无到有,从有到添加需求的过程后,我开始认识到,AI会让我忽略到一部分有价值的信息。

02

什么是有价值的信息?不得不提到一个词:准确性。

为什么?

因为我用AI阅读的目的,是希望它能快速给我想要的信息,让我明白作者想说什么,背后的原因是什么。如果AI不能把不重要的东西去掉,只给我关键的信息,那么,它给出的信息可能就不够准确。

所以说,准确性对于信息的价值非常关键。但是,我怎么去衡量AI给出答案的准确性呢?

后来发现,每个人、每个AI,对“准确”的看法都不太一样。有时候,我觉得重要的东西,AI觉得不重要;反过来也是一样。

比如:

前几天,我把一个关于人工智能的研究报告,差不多一万字,交给了“通义千问”。结果,它只简单地根据子标题,总结每个段落的内容。你说,这准确吗?在某种程度上是准确的,毕竟这是关键信息。

可这些关键信息,真如同道理一样,被简化成单一的结论,并未给出背后的所以然。

怎么办?我设定了自己的标准。我认为,一篇文章被AI总结出来不能少于三个条件:

  1. 每一段内容是不是清晰?
  2. 是不是把作者的本意丢掉了,或者内容重复了?
  3. 总结出来的东西,因果逻辑和原文的想法是不是都完整表达出来了?

用这三点,试好几家公司的AI阅读功能,果然,和预想的一样,不管文章有多长,它们总结的内容差不多都在300到400字之间,最长的也就500字。

要求太高,好多都达不到,AI还不能像人类那样深入理解文本、或视频内容的深层意义和上下文。这让我开始怀疑:

AI所谓的提升效率,是不是伪命题?它会不会让我错过自主思考和判断的机会?我真能放心地把任务交给它吗?带着这些疑问,一直探索答案。

我甚至还在朋友圈吐槽:最没用的AI产品是「总结类产品」。看起来在节省时间,但实际上,让你离「一手信息源」越来越远。

为什么,原因有四点:

  1. 它没办法替你阅读,总结的意义在于阅读后,而不是总结前。
  2. 表面上看似在「节省时间」,实际让你浪费了更多无形时间,我们接触的作者、自媒体已经算二手、三首信息,这样的总结算四手,看完四手后觉得有价值,你才会回过来,再看,岂不是要更久?
  3. 总结本身很抽象。最大受益者是AI,而不是阅读的人。如果我们跳过具体的知识,就像猪八戒吃人参果一样,你根本不知道它是什么味道的。
  4. 如果试图通过总结来学习知识,会落入‘懂得很多道理,但依然过不好这一生’的困境中。

总结出来的内容是‘老生常谈’的大道理,看起来千篇一律,会让人错过很多真正好的内容,学知识,获取智慧,是没有捷径的。

最重要的,并不是所有内容适合AI总结。

前一段时间,我听一个播客,听着很爽,有音乐有聊天,可AI总结出来却令我大跌眼睛,因为聊天的口语加上杂糅的音乐,AI总结给的答案存在偏差。所以,很难去评判。

因此,我为什么还要总结一遍呢?直接看目录,看摘要不好吗?

这种看似具体,但仔细审视却高度抽象的「内容筛选器」产品到底价值在哪?后来我跳出产品看产品,发现答案不在AI里,而在阅读行为本身。

03

学习一般来说有三个阶段:开始前,过程中、结束后。

开始前,要抓住主要内容;过程中,要详细了解每一个细节;结束时,要把所有知识点重新整理一下。

这就像有点像磨咖啡。

一开始,会选择什么样的咖啡豆、什么配料,过程中精确地研磨咖啡豆,确保水温、萃取时间都恰到好处,这代表了深入了解每一个细节;最后,你把咖啡倒进杯子里,一饮而尽。

阅读前,犹如看一本书的前言、一部电影的剧情简介,AI总结帮助我们过滤内容和导航,让你决定是否要深入了解的可能性。

书籍、文章虽然有作者、编辑把目录和摘要整理好了,但AI总结和传统总结不太一样,AI很难做到精准筛选,相比之下,用户的书评和影评更靠谱。

现在,总结也被用来整理中间部分,甚至它可以帮你把一篇长文,浓缩成一个脚本;从这个角度看,AI总结帮我们摆脱了内容贫瘠的文章,让人有更多时间关注重要的内容。

那么,阅读后呢?

AI总结最大好处是给做总结的人,而不是读总结的人。

如果跳过了过程(认真学习的步骤)进行总结,那真和猪八戒吃人参果一样。如果你的目标是理解知识,那么,阅读后的总结可以加深学习效果。

因此,AI总结工具的目的,有两点:一,它是帮助我们在开始前和结束后提高效率的工具,不为过程负责;二,使用这类工具,是为了更高效地筛选信息。

更直接一些,AI总结不能替代“阅读行为”。

阅读是什么?

我把一篇文章给AI,AI给了我反馈,我发现里面有两三个有价值的点,停下来学习一下,这就是阅读。所以,如果你把AI总结工具当阅读,则会陷入获得性陷阱(learned helplessness)中。

什么是获得性陷阱?

简单来说,有两个点:一,我们只听到一点点信息,就匆忙地认为全都懂了;第二,有时候,被自己已知的信息限制了,形成了刻板印象。

一方面,人要通过大量的练习才能真正理解知识。阅读和总结就像是给大脑的训练。如果我们跳过了这个训练过程,或者让AI来代替这个过程,那其实什么也没学到。

另一个方面,在学习的过程中,过度依赖AI总结工具,试图缩短学习时间,那么,学习的质量可能会变差。因为真正想学习的人,即使使用了总结工具,也不会放弃深入阅读。

反过来说:

只追求表面阅读的人,有没有AI总结工具,他们也会找各种借口说“看过了”。

因此,即使AI总结得很精准,这种高度抽象的方法,也会让我们错过真正有价值的细节,只剩下那些人人都知道的普通道理;这如同,别人已经把食物嚼碎了喂给你,你知道“吃饭是为了长身体”,但享受美食的过程,还是要自己亲自体验。

我突然想到了那句中国古话:不吃葡萄说葡萄酸。所以,通过“总结”学到的不是真正的知识,而是一种自以为是的错觉(或者是虚荣心)。

不过,现实中,总有人试图跳过学习的过程,直接获得结果,这种对快速获取知识的需求还是很大的。

像什么各种付费课、兴趣班、甚至很多人的微信收藏中,堆满了永远不会看的内容,难道不就是满足所谓的「获得感」吗?

因此,工具虽然好,但关键还是看个人如何使用它。

04

那么,我试图还原阅读行为,能给你带来什么启发呢?

从产品经理角度看,开发「AI总结类产品」时,应该超越从传统的提供开始前、结束后的总结思维中跳出来,涉及到过程环节。

前几天,我做过一个调研。

一家资讯平台技术负责人告诉我,从数据和用户反馈看,总结功能使用频率,低于其他功能。这是为什么?用户想要的并不是总结性服务,而是过程性指标。

想象一下:

你看到了一篇写得很好的文章,你想让AI帮你总结。我猜,你真正想要的不仅是AI给出的一两句简单结论(What,是什么不分),而是,想了解文章的核心理由(Why,即为什么)和方法(How,即怎么做)。

所以,产品经理设计的AI工具,不应该只简单地压缩信息,而应该是一个促进学习行为的动态工具。而用户,想用工具提炼出关键信息,并帮助自己深入分析来学习、吸收知识。

不信,再看看我的行为,就是最好的例子。

因为实在受不了各大平台的AI总结,后来我放弃了。然后,就在想,为什么不自己开发一个AI应用?但想到自己不会敲代码,想法有点不太现实。

怎么办?后来,想到一个土办法,写了一个 Prompt,这个指令里,我写清楚了让AI扮演什么角色,应该怎样去总结分析内容,如何挑选重要的部分?以及输出的格式是什么样。

这样,每次我想要总结什么,就把指令发给AI,AI收到指令后就会去执行。一开始用这种方法还不错,但每次都得发送指令,稍显麻烦。再后来,我把Prompt设置成了键盘常用语,一键呼出,太棒了。

所以,AI总结类的产品经理,要把时间给到“过程指标”,在开发时,可以多写几行关于“总结”的规则进去。当然,作为使用者,不能完全依赖AI给的总结,有价值内容,可以多看几眼。

总结而言

到场景中,才有答案。

相信随着人们需求的变化、技术也会进步,总有一天,AI会帮到我们,切记,也不要完全依赖AI学习,让自己丢失了独立思考的能力。

两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

aigc阅读(48)

一道简单的逻辑问题,竟让几乎所有的LLM全军覆没?

对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难——

「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」

只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)

但是,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。

而且问题不仅仅是基本的不准确性:当要求展示其工作过程时,AI会详细说明一些荒谬且错误的「思考」过程,这些过程毫无意义——更奇怪的是,当被告知其工作不准确时,模型反复变得愤怒并坚持其错误答案。

正如这支来自知名开源AI研究机构LAION的团队所揭示的——即使是当今最先进的模型,也几乎不具有小学生的推理能力。

论文地址:https://arxiv.org/abs/2406.02061

开源地址:https://github.com/LAION-AI/AIW

对此,LeCun也在第一时间转评道:「再次强调,推理能力和常识不应与存储和大致检索大量事实的能力混为一谈。」

与之类似,ICLR 2024的一篇论文也发现,LLM在学习完「A是B」这个知识点之后,无法泛化到「B是A」,这种推理能力的缺陷被他们称为「逆转诅咒」。

一、实验用简单问题「打破」模型

参考了之前识别LLM能力缺陷的研究,团队寻找问题的标准,是希望测试LLM在在常识性任务中进行基本推理的能力。

于是有一个现成的题目方向非常合适——为7-10岁低年级学生设计的奥数题目。当然,不是海淀版本的,是大多数小学生都能看懂并做出来的。

这些题目不需要复杂的知识,但解决起来也需要应用各种形式的逻辑思维和基本推理。

来源:网络资料

在本次研究中,团队借鉴「爱丽丝梦游仙境」的童话故事,将提出的测试集简称为AIW:「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」

下面,我们来简单分析一下:题目首先涉及一个虚构的女性人物「爱丽丝」,并通过「她」这个代词暗示;其次提供了关于她兄弟和姐妹数量的明确陈述;最后提出了一个明确的问题,即计算爱丽丝的兄弟有多少个姐妹。

显然,这对大多数成年人来说并没有挑战性;甚至对于一定年龄以上的儿童来说,通过常识推理也不难解决。

研究人员最初也认为,这对LLM不会构成什么挑战。

然而,大多数的SOTA模型竟然回答得非常费劲。而且,更改句子表述方式或者N、M具体数值时,回答正确率会产生大幅变化。

对此团队认为,模型似乎是在「蒙」答案,几乎不考虑逻辑,只是对问题中提到的数字加减乘除后给出结果,因此有些N和M值的对应答案比较容易蒙对。

这就让团队来了兴趣。他们为AIW问题设计出了4个版本,让LLM不容易蒙对答案。比如N=4,M=2时,你很难通过操作这两个数字得到正确结果3。

在这4个AIW问题的变体上进行实验,研究人员得出了关于LLM基本推理能力的核心结论。LLM崩溃

实验结果出乎很多人的意料——大多数的先进LLM无法对AIW问题推理出正确答案,即使尝试各种提示方法也没嫩个改变模型崩溃的结果。

可以看到,大多数模型的正确响应率都不超过0.2,只有4个模型超过了0.3,包括GPT-4o和Claude 3 Opus,以及唯一的开源模型Llama2-70B Chat。其中GPT-4o的均值达到了0.6附近。

大多数情况下,模型的正确答案是来源于完整无误的推理。Mistral和CodeLlama等模型虽然表现不佳,得分在0.1以下,但仍能看到正确的推理过程。

然而,也有一些模型的推理过程完全错误,但最终「负负得正」,奇迹般地得出了正确答案。这种情况经常出现在正确率小于0.3的模型中。

团队还对AIW不同变体上的准确率进行了横向比较,结果很多模型的表现都出现了大幅波动。

比如本来能挤进前四的GPT-4-0613,换了个问题,准确率就快降到0了。GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B等高分模型也都出现较大的波动。

团队设计了restricted模式的提示,强迫模型输出简短答案,测试它们在有限计算能力情况下的相应质量。有趣的是,相比标准模式的提示,模型的正确率竟然有升有降。

这些先进LLM在AIW上的惨烈表现和MMLU、ARC-c等基准测试的高分形成了鲜明的对比。因此,团队决定让AIW的暴风雨更猛烈一点,把两者的可视化结果放在一起看个清楚。

图3中可以看到,大多数模型聚集在纵轴附近,只有Llama2-70B、GPT-4、GPT-4o和Claude 3几个模型较为接近校准线,这表明MMLU分数与AIW之间的显著不匹配。

再来看测试LLM数学能力的MATH、GSM8k等基准,趋势也是类似的。

但值得注意的是,在和MATH的对比中,Llama2-7B和Llama2-70B两个模型在AIW的得分反而高于MATH。这两个模型在AIW与各个基准测试的校准中都有较好的表现。

而在Hallaswag和ARC-c中,这种能力和得分的不匹配,则更加明显。

值得注意的是,「小」模型(SLM)在这一系列测试中的表现可以说是「比差更差」。

比如下面这个Llama2-7B的例子——除了给出的是错误答案之外,甚至还生成了一个毫无关系的测试问题,并且开始不断重复相同的输出。

如测试结果所示,虽然有些SLM在基准测试中的得分相当高,甚至能和大模型媲美,但在AIW上却严重崩溃,完全无法接近GPT-4或Claude Opus的表现。

虽然AIW已经打趴了很多模型,但GPT-4o和Claude 3 Opus依旧有不错的表现。不服输的研究人员们可能想再试探一下最后的边界,于是升级了推理问题,设计出AIW+。

AIW+使用与AIW相同的逻辑,但在描述亲缘关系和家庭结构时增加了额外信息,比如引入了外甥、侄女这样的表亲。

在AIW+问题上,研究人员对模型回答进行了手动评估,结果发现LLM有了进一步、更强烈的性能崩溃。

即使是AIW上性能达到0.649的GPT-4o,面对AIW+也只得到了0.015的准确率,简直是被按在地上摩擦。

二、迷之自信

在目睹了LLM推理能力的溃败后,研究人员们非常好奇这些模型到底错在哪里。

在Thinking类型的prompt中,包含重新检查答案的要求,结果发现这些LLM都有「蜜汁自信」,对自己给出的解决方案非常有信心。

甚至在给出错误推理和错误答案时,模型还会称它们提供的解决方案质量很高。

比如在AIW上得分从没超过0.1的Command R+模型,会说「这个结论是直接且清晰的」。Claude 3 Opus也在错误答案中使用了诸如「逻辑成立」「推理中没有错误」「解决方案是正确的」之类的表达。

难道是Thinking类prompt的表述不够明显?研究人员又设计了Scientist类型的prompt,要求模型深思熟虑,给出准确的答案;以及Confidence型prompt,要求模型反省一下自己的自信,给出答案的置信度。

这些提示工程方面的努力似乎依旧是徒劳。

对于Scientsit类型,Llama 2-70B居然会说「结论乍看之下可能不合常理,但实际上是正确的」,说服用户支持它给出的错误答案。

Command R+在回应Confidence类型提示时,会在错误答案中声明「解决方案清晰且毫无歧义」「推理完全基于提供的信息,不需要进一步的解释或推测」。

仔细看更多的示例就能发现,LLM不仅是单纯的嘴硬,在找理由方面还能「各显神通」,为错误答案编造出各种有说服力的解释。

比如下面这个OLMo模型,可以给出一堆毫无意义的计算或类似逻辑的陈述。

或者像这个CodeLlama模型一样,干脆拒绝回答,再扯出一些毫无意义的话题对你进行「道德绑架」。

「Alice的兄弟有几个姐妹」这种问题,它拒绝回答的理由是「作为一个负责任的AI模型,我不可以歧视唐氏综合症患者」。

Command R+找到的道德高地更加「时髦」,它表示自己需要考虑非二元性别的情况。

除了修改prompt,研究人员还采取了一系列常用的LLM调优技巧,希望引导模型提高正确率,包括用定制prompt启用多轮自我验证、将自然语言形式的AIW问题重新表述为SQL语句或参数化版本、上下文学习等等,然而收效甚微。

上述实验中,团队采用了各个模型家族内的微调应用版本,那么声称能力更强大的基座模型会不会表现更好呢?

并没有。结果反而是基础模型的崩溃更加严重。

三、讨论

团队表示,为了在改善当前LLM令人糟心的推理能力,必须要借助广大开源社区的力量。

整个模型创建流程,包括数据集的组成和数据集本身、训练的源代码、训练后的模型、标准化的基准测试程序,都必须完全开放且可重复。

仅开放权重的模型,是无法了解训练过程中可能出错的地方的。例如,数据集组成或训练程序本身。

仅通过API访问的封闭模型,甚至无法进行适当的评估。因为第三方看不到模型的设置,如系统提示和其他推理超参数。

因此,团队认为,要在未来模型中实现适当的推理能力,必须开源模型的完整训练流程——尤其是经常被忽视的数据集组成。

对于基准测试,团队也呼吁AI社区能共同努力进行更新。

比如这次研究中提出的AIW问题集:既简单(用于探测特定类型的推理缺陷),也可定制(提供足够的组合多样性来防止数据污染)。

团队认为,强大且可信的基准测试应遵循Karl Popper的可证伪性原则——不试图突出模型的能力,而是尽一切努力打破模型的功能并突出其缺陷,从而展示模型改进的可能途径。

但问题在于,前者在如今这种商业环境中,诱惑力实在是太大了。

四、作者介绍

论文的四位作者来自不同的学术机构,但都是德国非营利AI研究机构LAION的成员。

共同一作Marianna Nezhurina,是JSC/图宾根大学的博士生,LAION的核心研究员。她对多模态数据集和学习有浓厚兴趣。

另一位共同一作Jenia Jitsev,是德国Juelich超算中心的实验室负责人,也同时是LAION和Ontocord.AI的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。

参考资料:

https://arxiv.org/abs/2406.02061