欢迎光临
我们一直在努力

AI大模型落地的两个确定和一个不确定

aigc阅读(59)

AI大模型,自22年底爆发到现在已有近2个年头,国内大模型厂家年年都在喊着半年内赶上GPT5的豪言壮志,但后劲着实有点拉跨。

仔细想想这么多年,大力真的能出奇迹?

还真不一定,国内的大力并不见得是力往一处使,具体就不细说了,超越挺难,能赶上的加油吧。

回归到今天的话题,我们来聊聊火热背后的观察:两个确定和一个不确定,也许给你能带来一些启发。

先说说两个确定。

第一:确定未来 – AI 必然重构世界

AI大模型在各行业的应用已经开始显现出巨大的潜力。

从医疗到金融,从教育到娱乐,AI正在重塑各个领域的工作方式。例如,在医疗领域,AI可以辅助医生进行诊断,提升诊断的准确性和效率;在金融领域,AI可以进行风险评估和市场分析,提高投资决策的准确性。

AI大模型的广泛应用不仅影响了各行业的运作方式,也对社会和经济产生了深远的影响。

首先,AI的自动化能力可以显著提高生产效率,降低生产成本,从而推动经济增长。

其次,AI可以创造新的就业机会,例如AI工程师、数据分析师等职位。

同时,AI也会带来一些社会挑战,如就业结构的变化和隐私安全问题。

随着AI技术的不断进步,全球科技竞争格局也在发生变化。各国政府和企业纷纷加大对AI研发的投入,以期在这一领域占据领先地位。

例如,美国、中国和欧盟等国家和地区都发布了AI发展战略,制定了详细的规划和目标。

未来,谁能在AI技术上取得突破,谁就有可能在全球竞争中占据优势地位。

第二:确定进入 – 想收获红利,必须马上进入

在AI大模型的发展过程中,早期进入者往往能够获得巨大的先发优势。

首先,早期进入者可以积累丰富的经验和数据,形成竞争壁垒。

其次,早期进入者可以率先推出创新产品和服务,占领市场份额。

最后,早期进入者可以吸引更多的投资和资源,进一步加速发展。

随着各行各业对大模型的态度不断转变,对AI解决方案的需求也在迅速增长。无论是企业还是消费者,都希望利用AI技术提高效率、降低成本、提升体验。

例如,企业希望通过AI优化供应链管理,提高生产效率;消费者希望通过AI获得更加智能化的服务和产品。市场需求的增长为AI领域的参与者提供了广阔的发展空间。

在技术创新方面,AI大模型的发展为创新提供了丰富的机遇。

首先,AI技术本身具有很强的创新性,能够不断推出新的算法和模型。

其次,AI技术可以与其他技术相结合,产生新的应用场景和商业模式。例如,AI可以与物联网(IoT)技术结合,实现智能家居和智能城市;

AI可以与区块链技术结合,提高数据安全和透明度。创新的机遇为AI领域的参与者提供了无限的可能性。

在政策导向方面,各国政府对AI技术的发展给予了高度重视,出台了一系列政策和法规支持AI产业的发展。

例如,中国发布了《新一代人工智能发展规划》,明确了AI发展的战略目标和重点任务;美国发布了《国家人工智能研究和发展战略计划》,推动AI技术的研发和应用。这些政策和法规为AI领域的参与者提供了良好的发展环境。

再来说说,一个不确定。

不确定落地-解决什么问题?用什么技术路线?商业模式是什么?

之前大家都在用模型基础的生成能力,做个对话框,用在心理学领域,输入自己心里的疑问,会输出专业的回答,用在自媒体领域,输入文章标题,会输出丰富的文章等等。

但这都不究竟,它发挥的能力太弱,让大家以为AI就是输入框,还怎么颠覆世界,充满着怀疑。

其实不然,这只是颠覆的前奏,在AI大模型的商业化过程中,商业模式的选择至关重要。

当前,AI大模型主要采用以下三种商业模式:

  1. 软件即服务(SaaS),AI大模型的常见商业模式之一。通过SaaS模式,AI公司可以将AI技术以云服务的形式提供给客户,从而实现规模化和可持续的盈利。例如,AI公司可以通过云平台提供自然语言处理和数据分析服务,客户可以按需付费使用。
  2. 授权和合作,AI大模型的另一种商业模式。通过授权和合作,AI公司可以将AI技术授权给合作伙伴,或与合作伙伴共同开发和推广AI解决方案。例如,AI公司可以与汽车制造商合作开发自动驾驶技术,或与金融机构合作开发智能风控系统。
  3. 自主产品和服务,AI大模型的另一种商业模式。通过自主开发和推广产品和服务,AI公司可以直接面向终端用户,实现品牌价值和市场份额的提升。例如,AI公司可以开发智能家居设备、智能客服系统和智能内容生成工具,直接面向消费者提供服务。

最后的话

AI必然会重构我们的世界,从技术进步到行业应用,从社会变革到全球竞争,AI正在以不可阻挡的势头改变着我们的生活。

对于企业和个人来说,尽早进入AI领域,把握市场需求,抓住创新机遇,是获得红利的关键。

然而,AI的具体落地还在不断摸索中,解决什么问题、选择什么技术路线、采用什么商业模式,这些问题仍需深入探讨和实践。

在这个充满机遇和挑战的时代,只有不断创新和探索,才能在AI领域取得一些成绩。

希望带给你一些启发,加油。

如何搭建智能客服机器人

aigc阅读(65)

一、智能客服机器人的重要性

智能客服机器人在现代企业和客户服务中的重要性日益凸显,其应用领域也越来越广泛。

  • 从提高客户满意度来说:智能客服机器人能够24/7全天候提供服务,快速响应客户需求,提高客户满意度。
  • 从降低运营成本来说:减少对人工客服的依赖,降低人力成本。而且可以处理大量重复性和简单的问题,让人工客服可以专注于更复杂和高价值的任务。
  • 从提升服务效率来说:智能客服机器人可以同时处理多个客户请求,提高服务效率。以及减少客户等待时间,快速解决问题。
  • 从数据收集与分析来说:智能客服机器人可以自动收集和记录客户交互数据,帮助企业进行客户行为分析和市场调研。提供实时反馈和报告,帮助企业优化服务流程和产品。

当然,一个智能客服机器人的优点不止于此,还有提供标准化的回答,确保信息的一致性和准确性,减少人为错误等等。那么优点这么多的智能客服机器人应如何去搭建呢?

二、如何搭建一个智能客服机器人

1、确定知识库的问题范围

确定智能客服机器人的知识库范围是开发和部署一个高效、智能客服机器人的关键步骤之一。那么要去确定知识库范围要注意明确问题素材的整理、问题的提炼以及知识形态的判断。

下面我们来详细介绍:

1)知识库素材的整理

我们要搭建一个智能客服机器人,最重要的部分就是关于素材的整理,那么这些素材预料是从哪里来呢?

在弄清楚这个问题之前,我们要先明确,我们这个知识库是干什么用的?

放什么样的知识取决于我们的业务场景以及我们的需求。比如电商行业,我们想要知道的问题大多是:“什么时候发货、怎么退货、怎么换货” 等等这样的问题。那当我们明确了需求以后,在去整理问题素材就比较容易了:常见的素材整理有三种方式:

  • 客服人员的经验总结
  • 历史会话的积累
  • 行业的知识云

客服人员是和客户最直接沟通的人,所以他们能够了解客户的需求,而且我们也可以从历史会话中去提炼出一些高频问题放到知识库中,再加上行业的知识云,这样整理知识库的素材,也就完成的大半。

拿到这些原始素材之后,我们不能直接拿来使用,而是需要去做数据清洗和问法聚类,在确定好这些以后,训练师们就要根据这些问题去写答案,按照:问候语+问题名称+问题答案,这样的方式去写。

2)问题提炼

关于我们拿到的素材的问题,建议都去做好分类,因为分类可以直观的知道这个知识库里有哪些知识,以及知识的架构是怎么样的。另一方面,如果我们想要去修改某类知识的话,能够更快更精准的找到他。

在所有的问题通过聚类、清洗以后,我们可以将用户问句进行分类标记,把那些意图不明的或者多个语意的句子进行拆分,处理成一对一的关系,全都做好标记,就可以进行标准问题的提取了。

我们做知识库的搭建需要很多问题语料数据,比如一个标准问,他需要很多相似问法来支撑,才能让机器人能够理解这个问法。所以这些相似问问题的原始语料都是很好的语料数据。

3)知识形态的判断

我们要去判断客户进入之后的意图是什么,比如是一问一答的对话,还是复杂的问题需要转人工,这些意识形态的不同,处理的方式也不一样。

2、提升机器人理解能力

客户进入客服系统之后,都会跟知识库里所有的问题进行相似度计算,如果我们要机器人回答,就需要很高的置信度。那如何提高置信度呢,就需要我们尽量多写相似问题,把那些常见的问法尽量都写上去,当有访客来询问的时候机器人就能够直接回答他。

那相似问题如何而来呢,就需要我们人为去编写了,当我们在编写相似问的时候,要意图明确、语言尽量清晰简洁、要思考这个问法是否有必要而且要有一定的丰富度。

3、知识库构建&测试调优

在知识库构建的初期我们需要做一些基础功能配置,比如说欢迎语、导航菜单,以及它的转人工按钮,或者访客询问多次以后,我们就可以让机器人转到人工客服那边去接待,或者访客连续问了两个问题或者三个问题,机器人都没有能够理解,这种情况下,我们可以判断出用户的问题可能是在库里没有对应的知识点,需要人工客服去接待。我们就可以无感知地将用户转到人工客服那边了。

我们还需要做一些“词库配置”来提升机器人的理解能力:比如在某些业务场景下,苹果是指iPhone手机,两种说法是一个意思。如果我们把它去作为一个相似词做一下关联,写相似问法的时候就可以少写很多。当访客去咨询的时候,不管他说的是 iPhone 还是苹果,机器人都能直接 get 到他说的意思。

最后就是关于知识库的测试部分:当我们问机器人问题,匹配率不高的情况下,我们就看具体是哪个问题没有匹配或者哪个问题的答案不合适等等,然后去做对应的调优,这就是对应的处理方式。

4、机器人灰度发布以及正式上线

关于机器人的灰度发布:这个是指我们可以采用不同的方式,比如根据区域或者访客的属性,选择少量的用户让机器人去上线,看一下它的线上效果。如果机器人表现没有特别大的问题,我们就可以直接全量上线了。

最后,智能客服机器人的应用不仅提高了客户服务的效率和质量,还为企业带来了显著的经济效益。随着技术的不断进步,智能客服机器人的应用领域和功能将会更加广泛和多样化。

AIGC|设计师与AI协同的三种模式

aigc阅读(122)

现有设计流程中,设计师需要负责创意构思,具备提出问题最优解的设计思维和创意能力,还要设计执行,通过熟练的软件技能将这些方案付诸于实际。

专业复杂的设计工具通常具有较高的学习门槛,要求设计师投入大量时间进行学习和实践,当无法熟练使用这些工具时,往往会限制优秀创意的呈现效果。

因此,软件技能水平成为衡量设计师能力的重要指标之一。

然而,随着生成式AI的引入,这一局面正在发生改变。

在设计执行阶段,传统图形处理软件(如PS、AI、Blender等)所代表的“技能特权”被无限削弱,问题定义和创意思考重新成为设计工作的核心。

此外,以大语言模型为驱动,可自主化完成复杂任务的Agent智能体,必将深度参与到创意构思环节,为解决问题提出自己的想法。

根据AI参与深度的不同,设计师与AI的协同逐渐呈现出三种不同的模式。(思路源自Agent相关文章中关于“人类与AI协同的三种模式”的论述)

一、Embedding模式

通过将AI功能(如智能扩图、一键抠图、文字生图等)嵌入到现有软件界面中,能直接提升设计工具的智能化水平,设计师可以在熟悉的环境和流程中调用这些AI功能,无需额外学习新的工具,轻松获得即时的智能支持。

这种内嵌策略应该是让AI最快落地应用的方式之一,例如Photoshop Beta、MasterGo Al都通过这种方式快速实现了产品的智能化升级。

但Embedding模式的局限性也是显而易见的,受限于工具现有架构,强大的AI功能多为散点式地存在,无法形成协同效应。

这意味着设计师在整体设计工作中,仍然处于绝对主导的位置,只能在特定任务或局部利用AI进行增强和提效,无法享受全面的智能化服务。

因此,Embedding模式更像是现阶段应对生成式AI大潮的过渡方案。

二、Copilot模式

与上一模式不同,Copilot模式下的AI不再局限于设计执行(生图)的环节,借助文本生成、图片生成和语义理解等多方面实力,延伸至整个设计流程,在各个阶段为设计师提供辅助支持。

也就是说,当接收到设计需求的那一刻起,Copilot便能够基于强大的知识库和用户数据,对设计需求进行分析,并给出具体的设计建议(如框架布局、内容元素、颜色搭配等),还可以生成参考方案。

形态上我们可以参考目前较火的AI搜索类产品,Copilot可能会以插件或者悬浮窗口的方式存在,方便设计师随时调用。

调起界面后,用户可以输入自己的设计需求,也可以上传相关需求文档,给AI越多背景资料,结果可能越精准可用,接着是选择自己的生成诉求。

开始生成后,基于用户勾选的内容依次生成,除了对于设计需求的分析和文档的解析,还可以利用AI的搜索能力,整理主题相关的延伸阅读材料供设计师参考。

在设计分析模块,围绕不同的设计类型生成建议内容,比如我要设计的是一张海报,生成内容就可能会包括标题、版式布局、尺寸、字体、背景等海报设计元素。

最后是基于以上分析生成的设计方案,诉求简单的话可以直接下载使用,若需调整,也可一键导入图形处理软件进行修改。

这是我所能想到的一类设计Copilot的产品形态,当然,还有许多更轻量的方案,期待大家的分享。

Copilot模式可以实现全设计周期的智能支持和创意激发。

然而,这一切仍然依赖于设计师的各种指令,最终方案也需要设计师在Embedding模式下的图形处理软件中来完成。

Copilot模式对于协同关系最大的改变是,AI不再只是智能化增强的图形处理工具,而是成为与设计师紧密协作的得力助手,助力设计全流程的提质提效。

三、Agents模式

Agent以大语言模型为核心驱动,具有自主感知理解、规划决策、记忆反思和使用工具的能力,能够自动化完成复杂任务,许多人认为,Agent可以将大模型的能力发挥到极致,成为类人甚至超人的智能实体。

在设计领域,Agent可以被视为一个个擅长不同设计能力和拥有不同经验知识的虚拟设计师,支持自由选择、组合或删除,同时我们根据需求所需能力,为Agent外挂各种工具,并能将业务专属的知识数据上传供其学习。

有没有发现,整个过程很像是为设计需求量身打造一个专属的“AI设计团队”?

设计师的角色因此被彻底改变,更多时候只是站在Leader的视角向AI发出设计需求,然后等待方案的呈现,目标设定,任务拆解和分配、生成设计指令、信息收集、方案生成由Agent全权代理并自动完成,AI成为真正意义上的创作主体,设计工作也将进入“3D打印”的时代。

对设计师而言,最重要的不再是创意能力、设计能力,而是审美能力、判断能力和决策能力。

Agent以何种形态面向设计师尚未可知。历史经验告诉我们,技术进步推动生产效率提升,进而引发生产组织和社会关系的变革。

作为本轮变革的核心驱动力,AI技术具备极强的前瞻性。

因此我认为,我们无法通过传统的设计行为模式来预测全新的Agent形态,而需要从源头入手,深入研究Agent的技术特点,进行合理地反向推导,从而逐步勾勒出Agent的“外轮廓”。

大概有这样一个思路可姑且一听,信息架构和框架布局受到用户任务流程的影响,而任务流程源自产品/平台所支持的功能范围,功能范围一方面基于用户需求,另一方面则取决于技术的能力范围。

现阶段,Agent技术框架通常被认为由四个关键模块组成:

  1. 记忆:负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。
  2. 规划:包括事前规划和事后反思两个阶段。在事前规划阶段,这里涉及对未来行动的预测和决策制定;在事后反思阶段,智能体具有检查和改进制定计划中不足之处的能力。
  3. 工具:利用外部资源或工具来执行任务。学习调用外部API来获取模型权重中缺失的额外信息,以此来补足自身弱项。
  4. 行动:实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动。

擅长不同设计领域的大语言模型相当于各种设计角色,如何来管理这些角色很重要,所需功能可能会有角色市场(官方或个人)、角色雇佣(临时或买断)、设计能力升级迭代、角色的组合搭配等。

记忆模块大概需要两个空间,一个空间存储的是每次行动后自动沉淀的知识和经验,另一个空间则支持我们将业务材料、个性化数据,甚至是既往设计作品等内容进行上传,经过学习快速成为Agent能力的一部分。

在规划阶段,相关分工的安排以及行动步骤的拆解应避免黑箱操作,将任务链可视化有助于提升设计师的掌控感,这对处理好协同关系很重要。

工具方面,可能会通过工具库或工具商城的形式聚合呈现,支持各类设计工具和工具包的选配选购,还要具备增、删、改、查等基础的工具管理服务。

最后是行动,我认为有两个需要考虑的点,一是方案展示要结合文、图、视频内容的特点,不能简单的用一种框架去展示不同的设计作品,二是图形处理功能以什么形式与agent对接。

当我们把Agent一些核心的功能捋出来,接下来就是思考用户的任务路径都有哪些,剩下的就不再展开了,可能性有很多。

以上内容只是从我自己的角度尝试对Agent模式下的工具形态提供一点粗浅想法,并不一定对,重要的是引发大家的思考。

2023年11月,比尔盖茨发文表示,Agent将引发自从我们从输入命令到点击图标以来计算机领域的最大革命。或许,随着Agent的到来,我们更应该想一想设计师角色存在的意义是什么。

四、最后

AI正在深刻变革着设计行业,现阶段的Embedding模式虽然让设计工具初步实现了智能化升级,但生成式AI的能量没有充分发挥,设计师仍是设计创作的绝对主体;Copilot模式通过全流程支持,可能会实现设计效率的全面提升;而Agents模式下,AI将成为设计的主体,传统设计师与创意构思、设计执行完全脱离,由此全面进入智能化设计时代。

AI应用实践:不懂编程,如何用ChatGPT开发H5小游戏?

aigc阅读(272)

前几天,我用 ChatGPT 的 GPT-4o 开发了一个 H5小游戏「龙舟接粽子大赛」。

从技术实现上,这个游戏只是一个静态页面,对程序员来说,非常容易实现,但是,对不会写代码的产品经理而言,还是很有难度的。

说实话,作为产品经理,我不懂编程,一个人+ AI,1 天内上线一个 H5小游戏,还是挺有成就感的。

在 AI 时代,产品经理有创意、有想法,完全可以用 AI 快速开发产品 Demo,进行市场验证。

今天做个复盘,分享下如何用 ChatGPT 开发 H5小游戏?

内容有点多,相信你看完,可以更好理解做一个产品的全过程,以及每个环节如何使用 AI 辅助工作。(文末附AI工具清单)

做一个产品,除了想法,还要明确需求细节、功能与流程、逻辑规则、界面UI等等,开发完了,还要通过测试,才能发布上线。

因此,我把这个游戏当做小型产品来做,包括:需求、设计、开发、测试和发布,这 5 个环节。

这个过程,AI 扮演了产品的程序员、设计师,还有产品经理导师,我们一起协作完成任务。

你看,开发一个看似简单的小游戏,也是在做一个完整的产品,也能积累实践经验。

01 需求环节

刚开始,我还不确定要做什么游戏,只有个模糊的想法,更别说需求。于是,我先跟 GPT 聊,它给出了两个不错的方案,还直接生成代码。

上下滚动查看更多可是,我不懂运行呀,继续问,让它教我操作。

果然在电脑上成功运行,效果还行吧?

不得不感叹 GPT 代码能力真强大,完全可以用 GPT 来开发 H5小游戏。

在验证了技术可行性后,要明确需求,我更希望做跟赛龙舟有关的游戏,问 GPT ,赛龙舟的游戏能直接用html来生成吗?(为了让它更好地帮我干活,还得多夸夸它)

都怪我这个产品经理,没讲清楚需求,只能让它再改一次。

新版本出来,试玩了一会,效果还不错,不过,障碍物太多,难度太大,用户可能玩不下去。

于是,我得寸进尺,让 GPT 给优化建议。

没想到,它给了几个靠谱的改进方向后,又直接就秒改出新代码。

经过多轮讨论和试玩后,需求基本明确,让 GPT 根据我们的对话总结游戏规则和逻辑,我再检查补充。

上下滚动查看更多考虑到要在端午节发布,时间比较紧,按照MVP(最小可行化产品)的思路,暂时不搞复杂功能和数据统计,只实现核心功能。至此,这个游戏的功能需求基本明确,后面就相对简单了。

你发现没?

在需求环节,尤其在「需求不明确」,或者「不知选哪个方案好」的情况下,AI 的作用巨大,它能帮我们理清思路、明确需求,还能分析方案的利弊,帮我们把方案实现出来,让我们体验和对比。

02 设计环节

这个环节,产品经理通常要拿产品原型,跟设计师沟通,设计师理解需求后,设计UI。

由于界面简单,需要的 UI 也少,我直接用 GPT 的 DALL.E 来设计(浮标在网上找的)。

还是先让 GPT 给建议,它的回答很美好,生成的图片却有点尴尬,不太符合我的预期,只能调整提示词,最后选了个人比较满意方案。

有了素材,再用 AI 抠图工具「魔力笔刷」抠图,去掉背景,用 PS 合成图片。看看这最终效果如何?

游戏有了 UI皮肤,还要有背景音乐,玩起来才有感觉。

照例先让 GPT 给建议,然后,用最近很火的 Suno AI 生成背景音乐,在网上下载常见的吃金币和游戏结束音效。

03 开发环节

看到这,你也许会发现,开发变简单、高效了。因为整个沟通过程,GPT 一直在输出代码,可以立即验证。真是比敏捷开发,还敏捷。为了让它先跟我讨论需求,还得专门告诉它,不用输出代码,等要输出代码再告诉它。

当然,AI 写代码,也有会 bug,这也是整个开发过程中,我最花时间的环节——测试。

04 测试环节

测试是比较费时间的,产品经理要模拟用户实际的使用场景,不断地用产品,看看有没有 bug。

期间,GPT 还真遇到一个 bug ,我们折腾了好久。

本来游戏运行好好的,我让它调整龙舟和粽子图片尺寸的计算方式,新版本运行时没显示粽子。

我反馈给 GPT ,它自己就加了调试信息,告诉我在浏览器控制台看日志,并把日志反馈给它。

我调试后,直接发截图给它,它找到一个问题,又开始一顿疯狂输出代码。可惜,还是没解决。

我考虑到时间较紧,果断让它换一种方式计算图片尺寸,这个 bug 就没了。

所以,遇到问题,有时得从其他角度想办法,也许换一种方式,原来的问题就不存在了。

05 发布环节

实际工作中,通常由开发同事部署发布产品。我没研究过部署,只能请教 GPT,它推荐了 Github。

我先把代码上传到 Github,生成页面链接,确实免费又方便。可是,国内访问 Github 的速度实在太慢,而且不稳定。

几经折腾研究,对比了好几个云平台后,选择腾讯云。

终于,自己一个人完成了产品从构思到部署上线的全部事情。

06 总结

最后,做点总结。

第一,这个项目不是要做一个很多人用的酷炫游戏,而是验证一个人不懂编程在 AI 的协助下独立开发一个产品的可能性。

从产品角度,这个游戏有很多地方可以完善。比如,加入微信好友排行榜、加数据埋点完善统计等等。

有了这次实践,后续开发其他的产品 Demo,可以更有经验、更高效。

第二,GPT 真是一个非常强大、耐心的好搭档,能配合我的想法,提出建议和优化方向,还能随时快速生成代码,帮我验证想法。

比如,测试中发现 bug,AI 没有任何情绪,一次又一次,根据我的调试反馈去排查问题,修改代码。

第三,这样的实践,也可以锻炼我们产品经理在每个环节需要的能力。

比如,在需求环节,跟 GPT 讨论需求,就像我们跟业务方沟通需求、跟程序员探讨技术可行性,锻炼了我们思考、沟通表达需求的能力。

又比如,在开发环节,跟 GPT 反馈问题和调试效果,就像跟开发沟通遇到的问题,锻炼了我们沟通协作、处理问题的能力。

希望你有所收获,玩的愉快哦!

工具清单:

1、代码开发、UI设计、答疑:ChatGPT

网址:https://chatgpt.com/

2、游戏音乐生成:Suno AI

网址:https://suno.com/

3、图片合成:稿定设计的在线 PS

网址:https://ps.gaoding.com/#/

4、AI 抠图:魔力笔刷

网址:https://www.remove.bg/zh/

5、代码仓库:Github

网址:https://github.com/

6、云服务器:腾讯云

网址:https://cloud.tencent.com/

深度解读 | 苹果眼中的AI OS应该是怎么样的?

aigc阅读(145)

在生成式AI的浪潮下,今年的苹果开发者大会WWDC 2024AI毫不意外的成为了大会绝对的主角。

从iPhone、iPad到Mac,无不被生成式AI覆盖。大家早已期待的新 Siri 只是苹果 AI 能力的一小部分,横空出世的Apple Intelligence才是这次的重头戏,从图像到文本,从iPhone、iPad到Mac,Apple Intelligence让苹果全系产品有了史诗级升级。

相较于安卓厂商对于大模型的小打小闹,只是简单将大模型作为Copilot塞进手机里,除了更新语音助手外,就是找几个还算能唬人的场景加上大模型的能力,最后还明目张胆将其定义为AI手机,这次苹果用他们的做法告诉了大家,什么才是LLMs+OS的正确打开方式。

苹果,重新定义了AI:Apple Intelligence

01. Apple Intelligence是什么?

Apple Intelligence定义为iPhone、iPad和Mac的个人智能系统,利用苹果芯片的能力来理解和创建语言和图像,以及跨应用采取行动。

苹果 CEO 蒂姆・库克说:苹果的目标一直是构建以人为本,最为易用方便的个人设备,提升人们的生活效率。

在这个目标下,苹果提出了他们的AI产品理念:体验足够强大、直观易用、完全整合到系统体验中、个性化且保护隐私,于是他们基于苹果自研的A 和 M系列芯片,走了一条自研本地大模型加三方云端大模型的策略。

在其他厂商疯狂砸钱买GPU训练模型的时候,在想方设法将大模型塞进手机存储的时候,苹果却换了种做法,不卷大模型,不卷本地化,还能给用户提供更好的使用体验!

这点就能看出来,苹果的出发点一直是为了提升用户的生活体验,他们明白自己做的是产品,而不是拿着锤子找钉子,死卷大模型。

库克表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。

先具体看看Apple Intelligence能做什么?

简单来说,跟录音、GPS等一样,苹果将AI融入IOS系统,为用户和开发者系统提供一系列原生AI能力。可以说,这些都是原生的人类 API。

文本工具writing tool

在苹果的自带的文本应用如邮件、备忘录、Safari浏览器、Pages、Keynote和三方应用如微信、小红书等中,提供文本润色、重写,校对,改写(如语气变化)、总结和文本转表格等能力。

在它的帮助下,无论是写文章、发帖,为用户解锁了提升写作和更有效沟通的新方式。

图像工具

Image Playground,只需几秒钟即可生成素描、插图、动画三种风格。这些功能在系统中所有app都可用,包括Notes,Freeform,Keynote,Pages等等。

Image Wand可以将你的素描草图转换为 Notes 应用中的相关图像。使用手指或 Apple Pencil 在你的草图周围画一个圆圈,Image Wand 会分析其周围的内容以产生互补的视觉效果。

还可以生成emoj表情等等。

Siri新升级

在Apple Intelligence的加持下,Siri变得更自然、更能理解我们了!

除了更好的自然语言理解和多轮交互外,Apple Intelligence还会为Siri带来屏幕内容感知功能,这样,它就能理解屏幕上的内容,执行相应的操作。

比如朋友发消息告诉你ta的新地址,你可以直接在信息对话中说,「把这个地址加入ta的联系人名片中」。

最牛的来了,Siri也可以完成跨app操作。

例如“将我起草的电子邮件发送给 April 和 Lilly”,Siri 知道您引用的是哪封电子邮件以及它在哪个应用程序中。当然这些增强功能,也并不限于苹果开发的APP。

那如果复杂任务Siri无法用本地模型执行,则会主动询问是否可以叫ChatGPT处理,同时ChatGPT也被集成到了系统的writing tool中,可以改写润色等。

隐私保障

苹果出了一个“私有云计算”的概念:“不得不上云运作”的AI功能,将在使用苹果芯片的专用服务器上启用云计算模式,确保用户数据的私密性和安全性。

02. Apple Intelligence背后的大模型

Apple Intelligence 由多个功能强大的大模型组成,这些模型专门用于辅助完成用户的日常任务,并可以根据用户的当前活动进行动态调整。

这些模型可以分为三类:

本地模型(On-Device Language Model)

这部分包含3B的语言模型、扩散模型DIffusion Model和用于Xcode的编程模型,另外还有用来做 RAG 的 Semantic Index (语义索引)和 App Intents Toolbox(应用意图工具箱)。

这些模型都针对日常的任务进行了一系列的微调,帮助用户完成各种系统级的任务。

比如前面提到的文本工具的摘要、润色、改写、回复邮件、图像生成、通知进行优先级的排序、跨应用的交互等。

此外在这些微调模型之上有个适配器(Adapters),适配器是覆盖在通用基础模型上的一小批模型权重。它们可以动态加载和交换,使基础模型能够针对手头的任务即时进行专门化。

简单来说就是根据任务来给模型选择合适的权重,让模型轻松适应不同领域专家的角色。

私有云计算(Server-Based language Model)

这个基于服务器的大语言模型,对于本地模型满足不了要求的任务,苹果会传到云端运算。

为了确保数据的安全性,苹果采用了私人云计算技术。每当用户的设备发起请求时,它会通过一个端对端加密的通道与特定的私有云计算集群进行连接。仅限于被指定的集群有权限解开这些加密的请求数据。应答数据发送回用户后,相关信息不会被存储,且苹果公司也不具备访问这些数据的能力。

第三方 LLMs

如果苹果自己的大模型搞不定的任务怎么办?

那就交给现在专门的模型厂商处理,专业的人做专业的事情嘛!

目前已经接入了 OpenAI 的 GPT-4o,但按照苹果的说法,后续还会有更多家的模型接入,比如Gemini 等。

另外,考虑到国家政策,苹果在不同国家地区的接入的大模型厂商可能不同,那Open AI和Meta的大模型肯定在国内无法使用,没有通过工信部备案,根据之前的传闻,国内首先接入的应该就是百度的文心一言了!

03. App Intents:给开发者的Framework

刚才讲了,苹果希望可以跨应用完成用户的需求,比如使用Siri就能直接完成邮件发送,图像修改等,不需要进入 app 里面,这个体验很丝滑流畅。

  1. 苹果允许操作系统和应用程序的所有部分通过「函数调用」进行互操作;内核进程 LLM 可根据用户查询安排和协调它们之间的工作
  2. 无摩擦。苹果以一种高度流畅、快速、always on 和上下文的方式全面集成这些功能。无需四处复制粘贴信息、提示工程等。还对用户界面进行了相应调整。

但具体要怎么实现呢?那就得用到给开发者提供的App intents工具,这又是一次操作系统厂商和开发者的博弈战。

App Intents 框架提供的功能可将三方的 app 操作、内容与跨平台的系统体验(包括 Siri、Spotlight、小部件、控件等)深度集成。借助 Apple Intelligence 和 App Intents 增强功能,Siri 会获得在 app 内和跨 app 执行操作的能力。

如此,开发者们可以允许用户通过以下方式使用自己的产品:

  • 与Siri互动,也可以利用Apple Intelligence的个人环境感知和行动能力
  • 通过Spotlight建议和搜索进入产品,比如微信。
  • 等等。。

举个例子,比如邮件应用,他们通过App Intents框架向苹果提供一个操作来表示某个意图,比如发邮件或者删除邮件。然后,用户可以随时要求Siri代表他们执行这些意图,无论此时有没有打开邮件应用。

简单来说,苹果一方面让开发者将意图理解能力引入App中,方便Siri等调用App的功能,一方面又可以将Apple提供的文本、图像等功能集成到App中。

这才应该是AI OS真正干的事情!

【AI agent】热门智能体应用详细拆解,手把手教你搭建Ai智能体应用

aigc阅读(147)

一、 智能体简介

1.1 Dream Story

Dream Story是利用Coze平台搭建的一款智能体应用,可以通过关键词或简单的描述生成一段图文并茂的故事画本。该应用充分的利用了AIGC的文生图及文生文的能力,将AiGC与实际应用场景深度结合。上架一周即被Coze官方推荐至首页,日均会话1K+。

我们以此热门应用,来开始今天的Ai agent智能体应用拆解。希望让人人都可以搭建属于自己的Ai智能体应用。

1.2 体验地址

为了便于您更好的理解和学习该应用,请先体验试用后再进行深度的研究。

DALLE 3 智能体体验链接地址:

www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1

二、背景及目的

2.1 需求分析

目前,在小红书、抖音等各大媒体平台上,通过AI工具批量生成儿童绘本的案例越来越多。许多博主借此迅速涨粉,并已具备了变现能力,因此我们基于此切入点准备做一个儿童画本故事生成的智能体:

2.2 bot功能说明

1. 根据用户输入内容扩写故事内容

请提供一个简短的故事开头或主题,我们将根据此扩写出完整的故事内容。

2. 将故事内容拆分为5个分镜内容

我们会将扩写后的故事内容拆分成5个主要情节或场景。

3. 将5个分镜内容分别生成关键词

从每个分镜内容中提取出描述该场景的关键词。

4. 通过关键词生成相应的图片

使用关键词通过DALLE 3和Stable Diffusion生成相应的图片。

2.3 bot效果展示

DALLE 3 智能体

体验链接地址:

Coze: Next-Gen AI Chatbot Developing Platform

www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1

问题:一位红衣女侠客在荒凉的戈壁上看到一家客栈

输出效果:

Stable Diffusion

Bot 链接 – Stable Diffusion:

Coze: Next-Gen AI Chatbot Developing Platform

www.coze.com/store/bot/7376115189772648449?panel=1&bid=6cnmeuvqg9g08

问题:一位红衣女侠客在荒凉的戈壁上看到一家客栈

输出效果:

三、 应用制作详细步骤拆解

3.1 创建一个新的Coze项目

创建一个新的Coze项目的步骤如下:

  1. 登录 Coze
  2. 在左侧导航栏的 My Workspace 区域,选择进入指定团队
  3. 在页面顶部进入 Plugins 页面,或进入 Bot 编排页面,在 Plugins 区域单击 +
  4. 单击 Create Bot
  5. 在 Create Bot 对话框,完成配置并单击 Confirm

3.2 Bot的基本结构

Dream Storybook-DALLE 3主要使用了工作流的方式来实现故事与图片的生成,具体的实现步骤如下;

3.2.1 bot基础设置

  1. 基础prompt,定义调用工作流即可
  2. Background image,选择一个符合场景的图片
  3. Voices,儿童绘本选择一个能够吸引小孩子声音
  4. 开场白,可以使用markdown的格式放一些生成图片的效果图,能够更好的吸引用户使用

3.2.2 bot工作流设置

1、工作流整体结构图

2、输入

接收用户输入内容,用于后面流程分析

3、LLM大模型解析

模型选择

-建议选择GPT-4o或GPT 4 Turbo

-由于用户使用bot时调用workflow会增加响应回复时长甚至因为工作流较复杂导致请求超时,如不需要在prompt中处理极其复杂的逻辑,可优先使用GPT-4o

prompt配置

-在工作流中写prompt与在bot中写prompt规则一致

-Dream Storybook-DALLE 3中prompt解析主要分为以下三部分

1)角色定义

你是一个儿童绘本的专家,擅长根据用户的简单描述来创建详细且吸引人的故事。

2)流程1:解读内容并生成分镜

-分析{{input}}内容及语言
-创造五个分镜内容分镜内容包括标题正文
-每个分镜内容为一组数据生成的标题赋值到title生成的正文赋值到text
-将titletext翻译成{{input}}对应语言
-将titletext按下方格式严格拼接为一个json字符串到content中输出
-最终输出格式示例仅供参考content:"[ {"title": "title1","text": "text1"},{"title": "title2","text": "text2"},{"title": "title3", "text": "text3"},{"title": "title4","text": "text4"},{"title": "title5","text": "text5"}]"

3)流程2:以分镜内容为基础生成图片关键词

- 将流程1生成的五个分镜内容分别生成五组适用于DALLE 3图片生成工具的关键词
- 关键词包括三部分内容:角色描述、场景描述、通用关键词。
- 对于角色和场景的描述都要尽可能的详细
- 如分镜内容中涉及到相同场景或角色描述时相同的部分必须使用相同关键词
- 与图片风格相关的关键词必须使用相同的
- 通用关键词为默认固定值,其默认固定值为:dynamic composition、animation aesthetic、children's book illustration、Disney style、in the style ofWalt Disney、fairy tale style、animation aesthetic、peaceful scene、warm lighting、fantasy elements、fantasy scene、dynamic composition、storybook illustration、high detail、hyper quality、masterpiece、highres、cute
- 将五组最终关键词翻译成英文词组,将五组英文词组作为一个数组输出到prompt
格式如下,仅供参考:
prompt:["","","","",""]

output配置(输出格式如下)

  1. content:存放根据prompt生成的故事标题与正文;输出格式为string字符串
  2. prompt:存放根据prompt生成的图片关键词;输出格式为一维数组

4、code输出内容结构解析

通过代码的方式解析content内容,由字符串转换成二维数组,见下方

async function main({ params }: Args): Promise<Output> {
    const ret = {
        
        "outputcontent": JSON.parse(params.inputcontent)
    
    };

    return ret;
}

//代码含义解读:
params.inputcontent 是一个包含JSON格式字符串的变量即在LLM大模型解析时生成的titletextJSON.parse() 是JavaScript中的一个方法用于将JSON格式的字符串转换为JavaScript对象outputcontent 是解析后的JavaScript对象及将input content由一个字符串转换成一个二维数组所以"outputcontent": JSON.parse(params.inputcontent) 的作用是将 params.inputcontent 中的JSON字符串解析成JavaScript对象并将其赋值给 outputcontent 变量举个例子如果 params.inputcontent 的值是 '{ "title": "在森林里跳舞的开始", "text": "小女孩穿着白色的连衣裙,在阳光照射下的森林里快乐地跳舞" }'那么执行 JSON.parse(params.inputcontent) outputcontent 的值将是一个包含两个属性的对象{
    name: "Alice",
    age: 25
}
如果实在理解不了遇到想要将一个字符串转换为二维数组的情况可直接复制本段代码将inputcontent与outputcontent替换为对应的输入与输出即可

5、图片生成

-添加DALLE 3插件,选择Batch processing 批量生成,即可一次性生成5张图片

-如选择Single time则只会根据第一条prompt生成一张图片

6、结果输出

最终结果输出时我们需要展示给用户是标题分镜内容及对应的图片

1)Selec Mode 可选择“Answer directly Answer Content(直接使用下方内容回复)”

2)固定格式内容输出,可是使用Markdown或html的格式

  • ##二级标题
  • * 内容 * 正文内容使用斜体
  • ![](图片链接) 将图片链接直接展示
  • *** 分割线
## {{outputtext[0].title}}
*{{outputtext[0].text}}*
![]({{outputimage[0].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[1].title}}
*{{outputtext[1].text}}*
![]({{outputimage[1].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[2].title}}
*{{outputtext[2].text}}*
![]({{outputimage[2].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[3].title}}
*{{outputtext[3].text}}*
![]({{outputimage[3].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[4].title}}
*{{outputtext[4].text}}*
![]({{outputimage[4].data_structural[0].image_thumb.url}})

四、 常见问题和解决方案

如何在工作流程确定使用插件的参数及使用规则

4.1 为什么要知道插件的用法?

为了确保工作流的顺利进行,插件参数的输入需要严格遵循格式要求。因此,在使用大语言模型(LLM)或其他工具时,必须预先定义好插件所需的参数格式,以确保插件能够成功运行。

4.2 如何了解插件的用法?

以DALLE 3和Stable Diffusion举例,可以在coze上找一个功能较全的聊天机器人,直接提问“stable diffusion 插件参数及用法”,回答如下,如对某一个参数有疑问可继续展开询问:

markdown的常见语法

1、我们如果想要输出内容为固定格式需要使用markdown格式,什么是markdown及常见用法可查看下图

2、该bot中标题、分割线、图片展示等语法

补充stable diffusion 在workflow中调用方法。

Stable Diffusion的text_prompt格式要求比较严格,需要是数组格式,此处需要通过代码方式解析格式,如果没有代码基础,可以直接修改参数值后饮用。

第一步:使用LLM大语言模型解析关键词格式

注意:大模型存在一定解析失败的概率

– 最终输出格式如下,严格拼接为一个json字符串到prompt输出,最终输出格式示例,仅供参考:

- 最终输出格式如下,严格拼接为一个json字符串到prompt输出
最终输出格式示例,仅供参考prompt:"[
  {
    "text": "A(0)",
    "weight": 1
  },
  {
    "text": "A(1)",
    "weight": 1
  },
  {
    "text": "A(2)",
    "weight": 1
  },
  {
    "text": "A(3)",
    "weight": 1
  },
  {
    "text": "A(4)",
    "weight": 1
  }
]"
 
 
//prompt输出参数名称,可替换

第二步:代码解析字符串格式为数字

生成单张图片

async function main({ params }: Args): Promise<Output> {

    const ret = {
        "outputprompt": JSON.parse(params.inputprompt),
        "outputtext": JSON.parse(params.inputtext)
    };

    return ret;
}

生成多张图片

async function main({ params }: Args): Promise<Output> {
    const inputPrompts = JSON.parse(params.inputprompt); // 假设是一个数组
    const formattedPrompts = inputPrompts.map(text => ({
        "prompt": [
            text
        ]
    }));

    const ret = {
        "outputprompt": formattedPrompts,
        "outputtext": JSON.parse(params.inputtext)
    };

    return ret;
}

4、 欢迎讨论:

生成图片很难保证一套图片的角色和画风一致,大家有什么好的解决方案分享么~ (可以通过评论此文档或者在群聊里沟通哦)

五、如何利用Coze变现

5.1 什么是BlueAD?

BlueAD 是利用生成式人工智能改变营销和广告行业的革命性平台。它简单高效。开发者可以轻松地集成我们的 API,使他们的 GPT 、Coze或其他 AI 软件从中受益。此外,BlueAD也提供越来越多的广告形式和策略,以供广泛应用。

5.2 如何通过BlueAD变现?

如果你使用Coze、GPTs等AI Agent平台,都有能够商业变现变现的机会,例如coze只需要将“BlueAD”插件加入到Bot中获取接入广告,你的使用者查看了广告即可获得一定比例的收入奖励,Coze上已经有很多高流量的bot已经接入了这个插件,有变现需求和兴趣的同学可以试试~

参考资料:AI Agent 智能体榜单

AI 办公小助理,为打工人减负还是增重?

aigc阅读(111)

张逸是一名北京在读的物理学博士研究生。一天,他需要将语言matlab,转换成Python。

这属于科研的辅助工作,写代码不是他的专长,通常为此要花费两个小时,他的常规做法是对照着代码一行一行改语法。但是他想到ChatGPT,也许可以试试。

在对话框中输入「我接下来给你一段matlab代码,你帮我把它改成Python」,几秒钟后,代码完成了。张逸感到十分惊讶,虽然不是完全准确,但只需人为校验一遍即可,这并不会花费太多时间。使用将近一年后,张逸向新莓daybreak感叹,「节省了过去80%的时间。」

ChatGPT点燃了AI生产变革热潮,这不应该是创业者的独角戏,更需要使用者的见证。

一些人还在担心AI取代人类时,一部分人已经把AI视作生产的重要组成部分,就像给自己免费找了个训练有素、情绪稳定的助手。

学生党用AI写代码、写论文;法官用AI写文书;设计师用AI做图,甚至赚到了钱。AI完成工作后,他们不忘跟AI说声谢谢。

尽管他们也承认AI的局限性,目前AI更适合处理机械性的工作,此外与AI相处得是否愉快,核心在于你是不是提示词用得很溜。

但不得不承认,AI对生产端的影响,可能刚刚开始。

一、情绪稳定的工作助手 

张逸现在每天都会用到ChatGPT,「离不开了属于是。」

对张逸来说,AI已经成为他提升工作效率的得力助手。日常研究经常需要写代码来辅助工作。但因为张逸不是计算机专业出身,一些代码写起来会很吃力。这占据了大量的研究时间。

去年ChatGPT掀起AI热,朋友建议张逸试一试。神奇的是,张逸发现AI比想象的要好用很多。一些经典代码,比如排序算法,AI完全可以胜任,且基本不会出错。检验方式也很简单,找一个特殊值运算就可以。

基本的物理学知识,也可以直接向AI提问。除此之外,张逸告诉新莓daybreak,「还可以将自己蹩脚的中式英语改成流畅的英文。」

尽管不能对科研成果做出直接贡献,AI依然为张逸省去了很多机械性的工作,以便他能腾出更多时间专心思考。张逸发现,身边的很多同门师兄弟都开始使用AI,有的用ChatGPT,有的用文心一言。

就一柄趁手的工具而言,AI的使用范围辐射更广。

郭筱是一名法官助理,日常工作是写判决书和做课题研究。在工作之外,她们还会收到一些其它任务,比如就一个时政主题写心得体会。

过去,她的常规操作是用搜索引擎搜集资料,再结合自己想法撰写成文。使用AI后,直接生成的就是一篇逻辑清晰的成稿。郭筱只需要通读全文,加上自己观点即可。

通常,这类型工作属于边缘任务,质量高低不会影响到工作绩效。使用AI既高效,又不用担心犯错。郭筱向新莓daybreak表达的更直接,它的作用在于完成「没有太大用但又必须做的工作。」不过,这类任务通常一月只有一次。

代码和文本之外,AI在音视频领域的潜力也正被挖掘和验证。年初,剪映更新新功能「克隆音色」。用户按照指令将提供的例句朗读一遍,就可以生成自己的专属音频。不少人直呼「再也不用自己念台词了。」重复录音和发音不准是很多博主的痛点。

AI数字人也被应用在了商业领域。4月16日,刘强东AI数字人在京东App开启直播首秀。开播20分钟,直播间观看人数超900万。这不只是一场带货,更是一场营销事件。更多商家将意识到AI数字人的好处:逼真的外形,顺畅的互动以及低廉的成本。

除了内容生成、代码生成、图像生成、虚拟人互动,生成式AI的应用范围正逐渐扩展至游戏开发、广告营销甚至工业设计,渗透进各行各业。不少人感叹,「现在AI真是牛。」「未来已来。」

字节跳动副总裁朱骏在分享豆包的产品设计时也自信表态,「一方面大模型技术本身在不断进步,一方面行业里对于应用形态和交互方式的摸索会逐渐成熟,这样大模型产品会逐渐融入更多用户的生活和工作里。」

在大多数人还没有看到的角落,AI的影响力正在蔓延,一些人抢先吸收到了养分,还有一些人已嗅到了商机。

二、靠AI变现难不难? 

娜娜接触AI的动机是兴趣与好奇心使然,但在创作内容的同时有了变现的回馈。

第一次点开AI绘画软件Midjourney,娜娜没有做太多的定义,简单输入五个字,「风中的兔子。」图像出来的时候,她的第一感觉是惊艳,「感受到了AI的创造力。」

这开启了娜娜的AI探索之旅。她在小红书开设账号「一只小小娜」,主攻AI摄影。

文生图的操作原理简单,但要想让生成的图像更精美、有创造力,需要结合摄影知识用有技巧的提示词表达。比如娜娜这张图片的提示词是,「春天,清晨,通透的光线,一个穿黄裙子的女模特坐在湖边,树上开满了花。五官迷人的女模特,大半身照片,由timwalker拍摄。」

摄影后期的主业工作让娜娜迅速敲开AI绘画的大门。但连续发布三四个月,却没有带来明显的流量增长。粉丝似乎对她创作的时尚秀场以及服装设计类图片更感兴趣。她决定调转方向,尝试拓展AI服饰。

同样是AI绘画,AI服饰与AI摄影的权重有明显不同。AI摄影更强调光线、环境、情绪与氛围表达,AI服饰则更偏重设计风格、设计元素,款式搭配、剪裁、材质等更加细化和具象的内容。这不仅需要摄影与造型相关的知识基础,还需要了解不同时期的风格特点及不同风格背后的历史文化,以及更加发散的思维和审美的碰撞。

AI服饰

因为从小对服装设计感兴趣,又在工作中与服装搭配师打过交道,娜娜投入了极大的学习热情,边尝试边迭代,「AI的快速表达也使自己的学习自驱力变得更强。」有时候一做就是三四个小时,直到做到满意为止。

粉丝积累到7000的时候,商务找上门了。她告诉新莓daybreak,「有点不敢相信。」这里面既有努力大半年收获反馈的激动,也有合作方是几十、上百万的珠宝品牌的压力。接到brief后,娜娜集中精力补课设计排版,不敢有一丝怠慢。

来找合作的品牌越来越多,变现方式也更加多元。有的比品牌推广更省事,不需要有太多沟通,直接售出图片版权即可。但总体来说,各项收入加起来不如主业,也不具有稳定性。但对娜娜来说,她更看重的是兴趣和额外收入带来的成就感。

娜娜不是个例。AI身上蕴含的商业潜力生发出多种变现渠道。

博主Midstudio在小红书上主攻AI家具设计,打破传统的设计规则,AI家具设计更允许想象力和创造力的释放。比如博主在设计椅子时融入水果元素,椅子的形象被弱化,看起来更像是一个可爱的水果手办。粉丝在评论区一边赞美,一边询问「哪里买」。

这成为博主的一个变现渠道:与工厂合作,在小红书店铺直接进行实物售卖。此外,日积月累的流量也为博主换来很多与品牌合作的机会。

更多人发现了AI变现的机会。小到红包封面、定制手机壳,大到艺术微喷版画、定制礼盒,只要有买家,就能转化成货币。也有人将AI运用于婚礼布场设计,在婚礼策划领域开辟新商机;还有人借助AI生成科普文案,积累粉丝,再进行带货…

三、AI生产的局限性 

AI的应用能力有多大?却是一个不好回答的命题。所有人都对AI寄予了无限期待,但就目前来说,AI依然有一些门槛和局限性。

AI能帮张逸省去机械繁琐的工作,提高效率,却不能为他的研究指出思路和方向。即便可以腾出充裕的时间来思考,但能否加快科研进度,张逸的回答严谨,「产出略微上升」。

用AI完成作业的郭筱也是同样感受。AI写作的优点在于主题明确,条理清晰。但缺点是太过笼统,观点不够精准。像郭筱的主要工作,判决书这样正式刊印的法律文件,极其要求逻辑严密、事实清楚,甚至是一丝一毫的文字差错,都有可能造成不可挽回的损失。

更关键的是,「案子最后要由法官裁量,要体现法官的自由心证路程,AI做不了决定。」

公文写作被认为是最有可能得到AI帮助的领域之一。已有不少AI软件陆续推出公文写作板块,承接通知公告、讲话稿等事务性文书服务。

半月谈援引一名公务员的说法,AI写作公文对于地方的基本情况了解不全面、不准确,更不懂当地的新政策、新提法,生成文章缺乏吸睛点。政务材料往往要求理论知识与实践案例相结合,这造成了AI公文写作的局限性。

相比在文本、代码领域,AI只能完成工具性、客观性的基础任务。绘画领域似乎能发挥的想象力更丰富。但提示词依旧是一个门槛,表达准备的背后是对绘画的基本常识、艺术大师以及使用技巧的充分理解。这也就是为什么,目前AI应用最赚钱的是卖课的。

不止是绘画领域,提示词的使用水平在略微有难度要求的任务中,都会影响着AI呈现的最终效果。很多人因此被拦在了门外。

Kevin是一名AI兴趣爱好者,他在小红书账号「凯文的AI实战笔记」分享使用AI解决各类问题的笔记,比如用AI「一键拆解小红书爆文」、「1分钟生成100分画报」。为了让结果更符合预期,Kevin在输入提示词时,用结构化提示词取代了一般提示词。部分示例如下图(内容下载自AI软件Kimi):

结构化提示词被认为能提升AI的处理效率,完成更加精准、甚至需要逻辑推理的复杂任务。它的底层逻辑是,用大模型进行数据训练的格式发布任务。可以通俗理解为,我用你的话跟你沟通。

但接触和理解结构化提示词的概念和用法,需要时间和精力的投入。用Kevin的话来说,外在框架表现形式好理解。重点在于提示词背后的逻辑,以及你的表达是否可以让AI很好的理解并执行。

在大多数人的认知里,AI意味着便捷、高效。直接通过对话得到想要的结果,是他们接触、使用AI的初衷。结构化提示词无疑拉长了AI的使用路径和难度,Kevin也坦言道,「易上手难精通,至少我觉得目前自己写的也不是很好。」

AI应用还在等待一个大爆发的机遇。

(应采访对象要求,文中张逸、郭筱为化名)

我问AI “什么星座适合做CMO?” 它回答…

aigc阅读(73)

AI正在悄悄改变我们的生活和习惯。

就比如,我从未想过会和机器相谈甚欢。

今天我问它“天秤座和巨蟹座谁更适合做CMO呀?” 隔了差不多30秒才收到回答:“星座并不是一个科学或专业的评判标准”…

唉,一点幽默感都没有。我也就放心了。

这说明,咱人类很多优点AI还没有。

它们除了记性更好,知识面更全之外,不会说笑话,讲段子,没有情绪,也不灵活…

但,这仅是现在。

科学家们说未来几年,AI智商要超145,紧追爱因斯坦。而咱普通人大多100上下,说不焦虑也是假的。

好在,科学家们又说“AI仅是工具”。

可是他们不知道这句话有点点暗示,有点点伤人,面对“狗屁工作”的时候,谁还不是个工具人?

算了,还是发奋努力,做个驾驭工具的工具人吧。那么,下面的能力你必须要有:

1. 提问能力

之前在《AI与市场人的完美搭配:六个关键步骤》提过,会提问题,才会得到想要的答案。

前面我提的问题有点无厘头。工作中,还是要尽量问一些具体的问题。

比如你问AI“如何系统地学习营销?”回答大多是大而空的上课、学习之类。

如果你说”你是工作3年的营销人,日常工作是B2B市场活动执行,现在想系统学习数字营销,请提出3个学习资源..”

距离你想要的,就接近了。

还是那句话,要想得到理想答案,提示词是关键。

不过,即便提示词完美了,AI的回答也不能全信。

还是要回到搜索,找到原文,交叉验证。有点像去原产地,溯源。

2. 搜索能力

根据AI提供的蛛丝马迹开始像侦探一样寻找线索,并最终找到答案的过程中,搜索就是主要工具。

如何搜索才有好的结果?这又是一门学问。

很多时候搜索是有技巧的,比如在哪个网站搜,每个网站/App适合什么样的内容…

不过,原始文件准确性高,但也不能直接用,还需要判断真实性、前提条件、发布时间等等。

应该相信哪些信息?哪些内容有效的?这个决策者还得是你,这时候需要更高阶的能力。

3. 辩证思考能力

朋友说,“我和ChatGPT聊天的时候,发现它有点讨好型人格”。我笑着点头。

比如我说我是天秤座的时候,同一个问题,它似乎有点点偏向天秤座适合CMO了。

我要相信吗?

这时候,我还是要有点理智,虽然感情上我很想接受。

这又让我想起心理学上的一个概念,“算法厌恶”。即人工智能提供的建议质量明显更高的时候,人们也不太相信,更倾向于问问身边的人。

无论是“喜好”或者“厌恶”,拍板之前,都需要运用逻辑,多角度辩证地思考。

难吗?挺难的,做决策本来就是困难的事儿。就连ChatGPT说的都要想“接受“或”拒绝“。

对了,这篇文章,本来它按照关键词给我写了一篇,被我打回去了,写得太死板了,不是我的风格。

好了,说了快速找到信息,也做好了溯源,并决定接受,但怎么应用到现实中来?这就需要分门别类,排列组合的功力了。

4. 结构化思维能力

也就是能把信息拆解、组合,并为我所用。

在营销中的结构化思维最常用是整合营销,也就是我常常提到的“珍珠项链”,把资源最大化的利用。

在面对复杂问题时,尝试使用金字塔原理,5W1H等原则,打破砂锅问到底之后再组合成自己想要的答案。

总结来说,工具提供的是零散的想法,我们还需要有全局观,这可是咱们人类的独特能力,之一。

之二,便是想象力。

5. 想象力

前面提到的高智商人类代表爱因斯坦就说过“想象力比知识更重要”。

也许他也是预测到某一天智商可能被赶上才这么说吧。

但确实,很多时候,咱们在胡思乱想的时候才有灵感。

具体怎么做?

大胆的跳出框框,允许自己天马行空,多泡泡浴缸,多在苹果树下打个盹… 说不定还能发现点什么..想想,阿基米德和牛顿。

如果实在找不到苹果树,也没有浴缸、向日葵田…那就去看一台舞台剧,听一首好歌,读一部侦探小说…

让自己高兴起来,并保持好奇心,去探究一下未知…

我在很早前写过一篇文章,你可以看看《人物|既是艺术家,又是科学家,跨界牛人的一生是有多精彩?》

看完后,你就会发现AI像个傻子一样,只懂得工作,没有peace and love。

听劝,好好锻炼提问能力、搜索能力、辩证思维能力、结构化思维能力和想象力。未来等你躺在海边看着AI吭哧吭哧地为你干活的时候,要请我喝一杯。

对国内AI算力紧缺问题的若干看法

aigc阅读(68)

今天凌晨的苹果WWDC证实了一点:AI推理算力将长期处于“云端为主”的状态,这个“长期”至少是三到五年。

是的,苹果与OpenAI建立了战略合作,计划将下一代iOS系统与ChatGPT深度融合;但是绝大部分生成式AI推理,包括文字和图片生成任务,仍将上传到ChatGPT的数据中心,在云端完成。

关于这一点,OpenAI在公告中已经说得很清楚了:苹果的“端侧AI”主要仍局限于软件层面。

如果连苹果都做不到推理算力的“端侧化”,那么其他手机厂商就更做不到了。

PC端可能比移动端的进展稍微好一点,但是在可见的未来,大部分AI PC(包括桌面工作站)仍将基于英伟达的桌面级显卡,而且只能执行参数规模相对较小的(蒸馏后的)大模型推理。

无论从技术角度还是成本角度考虑,大模型及应用开发商都会更乐意在云端即数据中心完成大部分推理任务。

资本市场再次认识到了这一点,所以WWDC举行之后,苹果股价下跌而英伟达股价微涨。

在未来很长一段时间里,我们不必过多考虑“端侧算力”。既然如此,国内AI算力紧缺的问题,就不可能通过发展所谓“端侧算力”的方式去解决。自从2022年11月底ChatGPT横空出世以来,国内AI算力几乎始终处于紧缺状态,这是由下列因素共同决定的:

全球AI算力均十分紧缺,尤其在制造端,英伟达H系列显卡仅能由台积电代工(三星不行),产能瓶颈将持续到多年以后。

美国芯片出口禁令日益严格,尤其在2023年下半年的全方位加强之后,许多“后门”被堵上了,国内厂商采购数据中心级显卡的难度与日俱增。

我们知道,AI大模型所需算力分为训练和推理两种,前者的要求更高一些;国内的现状则是两种算力都缺乏。

讽刺的是,前几年国内发展云游戏期间,互联网大厂和电信运营商均采购了一批英伟达Turing架构的显卡用于架设RTX刀片服务器,这些显卡可以用于AI推理;如果没有云游戏,国内推理算力的瓶颈将更加严重。

中国游戏产业是一个任劳任怨的背锅产业,谁都能来踩一脚,谁都能污名化,但是拯救所谓“硬科技”产业偏偏还得靠它!

即便如此,国内AI推理算力的供需关系仍然十分紧张。所以,过去一个月国产大模型的“降价”举措,很大程度上仅仅是行为艺术罢了。尤其是对于B端客户而言,无论大模型API的调用价格降到多低,关键在于能不能买到量。

现在的问题就是“有价无市”:只有极小规模的采购才能以“刊例价”执行,稍大规模的采购就必须找销售人员单独洽谈并排队,实际成交价格难以预料(肯定远高于“刊例价”)。

不要说B端用户,哪怕C端用户也能感受到推理算力的紧张:国内的几个最流行的AI大模型应用,免费用户在高峰期几乎一定会遇到需要排队的状况,必须充值或打赏才能加快进度。

要知道,目前国内主流生成式AI应用的DAU普遍只有几百万量级,推理算力就已经如此匮乏;如果真的出现上亿DAU的AI超级应用,算力几乎肯定是跟不上的——所以目前国内不可能出现这样的超级应用。

(注:文心一言和通义千问均自称累计用户超过1亿、每日API调用次数超过1亿,但是与1亿DAU还差很远;豆包估计也差很远。)

可以想象,比推理要求更高的训练算力更加紧缺。

2024年2月,字节跳动在一篇论文当中公布了它于前一年9月组建的“万卡集群”。遗憾的是,它是由1.2万张(比较落后的)A100显卡组成,而美国科技巨头早已换上了由(更先进的)H100组成的“万卡集群”,例如Meta的LLaMA-3就是由2.5万张H100组成的集群训练的;以亚马逊为代表的云计算大厂正在积极转向(更更先进的)B100及GB200算力集群。

A系列显卡发布于2020年,当时芯片禁令尚未出台,国内采购没有多大障碍;H系列发布于2022年,芯片禁令已经出台,但是国内仍然可以通过采购“专供版”(主要是H800)的方式绕过;B系列于2024年发布,此时绕过芯片禁令的途径已经非常狭窄、朝不保夕。

长期、严重的算力瓶颈,给国内AI产业带来了两个深刻影响。

首先,算力紧缺意味着算力价格高昂(无论以自购显卡还是租用的形式),国内所有大模型厂商的售价均无法覆盖训练+推理成本,有些甚至无法覆盖边际推理成本,卖一单亏一单(最近一波降价之后可能亏的更严重)。

其次,国内大部分算力集中在少量科技大厂手中,创业公司高度依赖它们,十分渴望它们以算力的方式投资入股。 结论就是大模型创业在国内是一门非常差的生意,远远比不上当年的移动互联网创业。

下面我们不妨以问答的形式,进一步说明国内AI算力的现状。

问题是市场上最关心的那些问题,回答则不是来自我本人,而是来自我在云计算和AI行业的信赖的朋友,我只是总结他们的答案罢了。

问:目前国内AI算力储备及分布状况大致如何?

答:先说训练使用的“大卡”。

如果把A100-800、H100-800均算作“大卡”的话,那么国内的“大卡”储备肯定超过六位数,甚至可能超过了20万张。问题在于随着技术进步,A系列已经很难再被视为“大卡”了。

如果按照扎克伯格所谓的“H100等效算力”,国内的储备肯定不超过六位数,而仅仅Meta一家的“H100等效算力”就已经超过了30万张,2024年底将突破65万张,远远超过了国内所有大厂的算力储备之和。

具体到算力分布,有两个标准:第一是“掌握的算力”,第二是“能调用的算力”。

阿里这样的云计算大厂掌握了巨大的算力,但其中很大一部分要出租给客户,自家大模型训练和推理能调用的算力未必有绝对优势。

如果只计算“掌握的算力”,国内第一的无疑是阿里,其次是百度、字节跳动,腾讯可能更少一点。掌握一两千张大卡的互联网公司很多,因为内容推荐算法、自动驾驶训练等环节都需要。

至于推理算力的分布就更加驳杂了。

上文提到过,云游戏使用的显卡可以承担一定的推理任务,目前国内的推理算力可能有很大一部分来自以前的云游戏算力。

问:怎么看AI算力的国产替代?

答:在训练端难度极大,哪怕某些国产显卡自称其技术参数能达到A100的水平,它们也不具备NVlink互联技术和CUDA开发环境,从而无法承担大模型训练使命。况且,A100是英伟达2020年发布的产品,在2024年“追上”前者四年前的水平并无先进性可言。

大模型不是原子弹,它是一种重视性价比的民用商品,使用非主流硬件开发出来的大模型可能毫无商业价值可言。但是在推理端,不是完全没有可能,因为推理卡对NVlink和CUDA的依赖程度很小。

英伟达在推理端的城墙仍然很高,但是比起训练端就要差了不少。

问题在于:推理算力的技术路线也在不断变迁,技术变迁的领导者还是英伟达。假如有选择的话,主流大厂肯定乐意采购英伟达的推理解决方案。国内厂商的问题是在芯片禁令之下没有选择,在推理端进行国产替代总归比没有强。

问:怎么看Groq以及国内某些厂商推出的“远超英伟达”的推理卡?

答:在高度特化的技术路线下,确实有可能做出表观技术远超英伟达同期产品的推理卡——但是付出的代价是应用场景十分狭窄。这样的显卡不仅只胜任大模型推理,甚至可能仅胜任某一特定类型的推理。大厂建立数据中心需要考虑通用性以及后续升级需求,高度特化的显卡无法满足这些需求。

上面提到过,云游戏使用的显卡可以用于推理,但高度特化的推理卡可以执行图形渲染任务吗?可以执行自动驾驶等非生成式的推理任务吗?

而且,硅谷那些不差钱的大厂,现在流行以“大卡”同时执行训练和推理任务:速度更快、更具灵活性、管理起来更方便。你的训练任务在全年之中不是平均分布的,可能这三个月训练消耗的算力多一些,接下来推理消耗的算力多一些,统一组建“大卡”集群有助于提升灵活性。

当然,这样做不够经济,所以推理任务主要还是得由推理卡去执行。

我只是想说,英伟达在训练端和推理端的护城河是相辅相成的,不是彼此孤立的。

问:绕过芯片禁令的可能性大吗?目前大家的替代方案是什么?

答:很多人认为,芯片禁令可以以“非正常”手段绕过。

但他们忽视了两点:

第一,英伟达高端显卡近年来一直供不应求,所以不存在庞大的二手及散货市场,哪怕是海外大厂淘汰下来的显卡一般也是内部发挥余热。

第二,即便你能绕过英伟达官方销售获得一些显卡,也无法获得技术支持。

H系列和B系列训练卡都不是单片出售的,而是以服务器(训练机)为单位出售。B系列训练机已经非常像高端数控机床这样的高精尖设备,内部可以植入地理位置判断系统,发现地理位置偏移之后可以自动停机。

所以无论在理论上还是实践中,只要英伟达愿意认真执行芯片禁令,就是很难绕过的。

虽然英伟达肯定愿意多卖几个客户、开拓中国市场,但现在它的显卡反正不愁卖,短期内也不可能主动承担破坏禁令的风险。

当然,一切都是可以谈的。

只要双方都想认真做生意,拿出一些东西做交换,没有什么生意是一定做不成的。关键看大家做生意的意愿有多强烈了!我们不能低估解决问题的难度——因为只有充分估计难度,才能站在现实角度解决问题。片面低估难度并装做问题已经解决是不可取的,相信真正的从业者不会这样做。

人工智能的负效应:没有大语言模型的语种未来会消亡

aigc阅读(75)

“ en-US ”一直是美式英语的语言标识符,在ChatGPT横空出世之后,有了新的含义:英语/美国作为大语言模型(Large Language Model)的超级指令语言和超级大国,逐渐在新一轮AI竞争中领先世界其他语种和国家。

在长期使用ChatGPT和其他大语言模型的过程中,我一直想探索这些模型对世界其他语种支持的边界。

比如说:

1.为什么ChatGPT能在各个语种中自由切换,支持自如?

2.到底ChatGPT支持多少种语言?

3.ChatGPT对中文的支持和英文一样好吗?

4.在大语言模型中,是不是有一些“二等公民”和“一等公民”?

分析的结果令人瞠目结舌。

美国人训练出来的模型对美式英文有压倒性的支持,而世界上几千种语言其实能支持的好也就不过十来种。

这也解释了为什么每个国家或者语种都需要自己的大语言模型,才能在新一轮人工智能的工业革命中跟上其他国家前进的步伐。

这篇文章结合了我的实践经验和定量分析,最终得出以下结论:

1.大语言模型可以兼容Unicode中的所有161种语言。

2.英语占GPT-3训练数据的90%以上。

3.英语是大语言模型最有效的提示语言——它比西班牙语有效1.3倍、比法语有效1.5倍、比CJK(中文、日语、韩语)有效2倍。

4.大约10种高资源语言得到了大语言模型的充分支持。

5.Unicode中其他150种语言资源匮乏,代表性不足。

6.全球有近7,000种语言缺乏大语言模型支持。

01 你讲的语言是高资源还是低资源

传统自然语言处理(NLP, Natural Language Processing)研究会把语言分类成高资源(high resource)语言和低资源(low resource)语言。前者涵盖约20种语言,包括英语、中文、西班牙语、法语、德语、日语、俄语、葡萄牙语、阿拉伯语、印地语、意大利语、韩语、荷兰语、土耳其语、波斯语、瑞典语、波兰语、印度尼西亚语、越南语、希伯来语。

这些高资源语言有着丰富的语言资源,例如广泛的文本、用于机器翻译的平行语料库、综合词汇词典、句法注释和用于监督学习的标记语料库。

也有一些高资源语言,如荷兰语,可能没有大量的使用者,但有着强大的语言研究学者和成果,产出了重要的语言语料库和工具,于是也成了高资源语言。

相反,某些低资源语言,例如尼日利亚皮钦语(Nigerian Pidgin),有超过 1 亿人使用,但缺乏大量的研究和开发,使其处于低资源状态。学术界一直苦于低资源语种的投资不足。

如果一个语言有足够多的人使用还好,至少还能世代流传下去。有些低资源语种,本来使用者就不多,又缺乏足够的研究,使得它们也逐渐变成了“濒危语种”。

以ChatGPT为代表的大语言模型的出现,仿佛给世界语言带来了一束光。

大家发现,不需要训练专门的机器翻译系统,ChatGPT也能在不同语种之间自由翻译和转换。用ChatGPT做翻译,或者使用其他语言去给ChatGPT发指令,往往给非英语说话人留下深刻的第一印象。

很多人对语言智能的认知还停留在金山词霸阶段 —— 有个多语种的电子词典可以做双语种互相翻译。可是如果有这么个ChatGPT神器,可以接受我用母语输入,并能够用我看得懂的语言智能地做出回答,可真是太神奇了。

于是很多人不禁要问,既然大语言模型这么神奇,是不是这世界上的低资源语言也有救了?

语言学鼻祖Noam Chomsky毕生致力于发展一门世界通用语法(Universal Grammar)。他有一段非常出名的比喻:如果外星人来到地球,他们能够听懂读懂地球上的所有语言。因为在他们看来,地球上每一种语言都遵循同样的语法,只不过大家说的是不同的“方言”而已。

如果ChatGPT能在多种语言之间切换自如,那它是否破解了这世界通用语法的奥秘?

02 低资源语言在大语言模型

中的代表性仍然不足尽管大语言模型具有变革潜力,但现实仍然是大语言模型主要迎合英语和少数其他高资源语言。

对GPT-3等模型使用的训练语料库进行仔细检查后发现,各语种存在明显的不平衡:

  • 英语占主导地位:GPT-3的训练语料绝大多数是英语,占数据的92.6% 。ChatGPT(基于 GPT-3.5)等后续模型延续了这一趋势。
  • 有限代表的语言(分析仅限于GPT-3语料库):
  • 只有两种语言占GPT-3语料库的1%以上,即法语 (1.8%) 和德语 (1.5%)。
  • 另外14种语言落在0.1%到1%的范围内,包括西班牙语、意大利语、葡萄牙语、荷兰语、俄语、罗马尼亚语、波兰语、芬兰语、丹麦语、瑞典语、日语、挪威语。
  • 值得注意的是,像中文和印地语这样的语言,总共有超过20亿人使用,甚至没有达到语料库0.1% 的门槛。
  • 训练数据集中度:GPT-3训练语料库中排名前16位的语言有明显的头部效应:加起来一共占99.24%。
  • 单词覆盖范围有限:GPT-3训练语料库中只有65种语言的单词数超过100万,其中第65种语言是高棉语。虽然在柬埔寨有1700万人使用高棉语,但它在GPT-3的训练语料库中只有区区100万个词。

ChatGPT对英语和精选高资源语言的偏向并非OpenAI(ChatGPT的母公司)有意为之;因为语料大部分来自互联网,而互联网反映的是一个国家和语种的富裕、开放、和活跃程度。

大语言模型在很大程度上忽略了世界上7,000 种现存语言中的大多数。例如,以下使用人数众多的语言贡献了不到 1% 的互联网文本内容,因此很难收集足够的数据来训练一个专门针对这门语言的大语言模型:

1.印地语:6.02 亿使用者

2.阿拉伯语:2.74亿使用者

3.孟加拉语:2.73亿使用者

4.乌尔都语:3.21亿使用者

语言使用者和可用文本数据之间的差异导致了语言多样性之间的不平衡。这个问题的源头更多的是一个国家的发展情况和投资力度,我们会在下篇博文中详述。

对于旨在支持更广泛语言的大语言模型来说,这也是一个根本性的挑战:如果一种语言在网络上只有少量文本,那就没有适合这门语言的大语言模型。如果一种语言在网络有大量文本,也需要其代表国家加大投资力度才能发展出有本身语言特色的大语言模型。

于是我根据ChatGPT的支持力度对世界语言进行了分类:

ChatGPT-3.5 对高资源和低资源语种的支持情况

03 英语是大语言模型

最有效的“编程语言”大语言模型有一个输入和输出的限制,以token数目表示。如果token数太少,比如只有区区1000个,那能做的事情就很有限。

这有点像早期的个人电脑,只有16KB的内存,跑不了“大程序”。而如今有一些智能手机都有了16GB的内存,是以前的1000倍。至于一个token是多少个英文单词或者汉字,我们在后文解释。

GPT-3.5-turbo和GPT-4-turbo等语言模型的token长度一直在增长。截至 2024年5月, GPT-4-turbo已经支持多达128K个token 。这里K代表一千(Kilo)。128K也就是12万8千个token。如何去优雅又节省地给大语言模型写提示语已成为一门手艺。

截至2024年5月的GPT Turbo模型及其上下文长度限制给大语言模型下指令有点像往早期计算机里输入指令,在键盘发明之前,需要在一条穿孔纸带(punched cards)上一点一点把指令喂给计算机。比尔盖茨和保罗阿兰最早开始合作编程的时候就是这么操作计算机的。

早期IBM穿孔纸带:12行80列,大致能输入80字节的指令。

GPT-4可以输入128K字节的指令那么问题来了:哪种语言能够用最少的token表达最多的意思?中文吗?咱们老祖宗留给我们的瑰宝一向言简意赅呀。这是否意味着可以使用中文作为 ChatGPT的指令提示语言?

如果再深入一步,这个世界上还有比中文更“简洁”的语言吗?

语言简洁度排名:

从中文到英语到西班牙语到日语

有很多研究从不同角度探讨了如何确定世界上各种语言的简洁度。在这里我们引用两个研究供大家参考。

翻译同一文本后的长短有人对公共互联网上谷歌隐私政策的不同语言翻译进行了评估。

以下是按字符总数排名的语言示例:

1.繁体中文:101个字符

2.简体中文:124个字符

3.日语:215 个字符

4.英语:345 个字符

5.西班牙语:376 个字符

6.法语:417 个字符

7.越南语:403 个字符

8.印地语:500 个字符

这样可以把各个语种的信息密度量化:繁体和简体中文确实是非常简洁的语言!(但ChatGPT不这么认为。)

最有效的语言是什么?这张表展示了对谷歌隐私政策片段的不同语言的翻译。

语速和简洁度另一项研究测量了说话的速度,基本假设是“不简洁的语言要更快的说”。

研究发现,说西班牙语和日语的人语速很快,而说汉语和越南语的人语速很慢。

如果以越南语的简洁度为1,那语言简洁度有以下排名:

1.越南语:1

2.中文:0.94

3.英语:0.91

4.西班牙语:0.63

5.日语:0.49

当然,这项研究并不一定准确。因为一种语言的语速快慢也和当地人的生活节奏有关。

结合这个排名和上面的表看,这也可以从侧面解释为什么西班牙语听起来更快。

基于以上结果,是不是说我们只要用中文写大语言模型的指令提示就可以了?根本不是。

04 ChatGPT的词汇主要是英语

尽管英语形态复杂,但由于以下几个关键因素,英语仍然是大语言模型最青睐的“编程”语言:

  • 词汇优势:像ChatGPT这样的大语言模型主要接受英语文本的训练,具备强大的英语词汇和并能理解到语言中用词的细微差别。
  • 提示效率:英语通常也是效率最高的提示语言。
  • 文化和语义丰富性:英语在许多领域都是一种通用语,提供了广泛的文化参考和语义深度。

对于大多数大语言模型来说,英语是最有效的提示语言,原因来自OpenAI 如何给每种语言编码的。

一般的规则是:

1.对英语原生支持:英语在ChatGPT中被认为是“一等公民”并有深度优化。

2.Unicode编码支持:Unicode语言共有161种,使用了字节对编码(byte pair encoding),以确保与ChatGPT处理框架的兼容性。

3.非Unicode无法编码:遗憾的是,ChatGPT和众多大语言模型都不支持非 Unicode语言,因为这些语言无法用计算机通用的字节(byte)代表。

您听说过ChatGPT-3.5词汇表吗?它包含100,261个词,大部分来自英语。

下面是该词汇表的节选:

1.Token举例

a.token 0 是感叹号!

b.第32至57个token是大写字母 A … Z

c.token 67853 是单词后缀 “-ish”

d.token 75459 是“battery”

e.不幸的是,“GPT”这个词并不在词汇表中

2.变体和同义词

a.英文二月的各种token代表:“February”(token 7552)、“Feb”(token  13806)、“February”(token 33877)、“Feb”(token 41691)、“feb”(token 78471)“-Feb”(token 94871)。

请注意,有些token带有空格前缀。

ChatGPT 词汇概览ChatGPT词汇表专门用于英语,以至于它有9个专用于“Twitter”的token!遗憾的是,其他语言在这个100K大小的词汇表中没有获得应有的token份额。这至少表明英语对于GPT模型来说是多么占主导地位。

ChatGPT的100,261个token词汇表中有9个token代表Twitter

写作效率 != 提示效率

ChatGPT对语言的编码凸显在了在token的使用效率上。例如,中文字符“猫”由三个token(十六进制值:xe7、x8c、xab)表示,而英语单词“cat”则仅需一个token表示。

Unicode字符如何分解为字节并转换为ChatGPT token这种标记化差异强调了ChatGPT中写入效率和提示效率之间的重要区别。

当面临token限制(例如 GPT-3.5-turbo的 16,385个token上限)时,英语成为比中文或韩语更有效的提示语言。各种语言“猫”的token效率比较:

  1. 英语:cat (猫)= 1 个token
  2. 中文:猫 = 3 个token
  3. 韩语:고양이(猫)= 4 个token

在向ChatGPT表达“猫”这个狭义的例子里,英语的效率是中文的3倍,是韩语的 4 倍。

在Unicode的UTF-8编码中,字符通常为1到4个字节,而世界上大多数语言字符占用2到3个字节。因此,非英语语言的标记长度往往平均每个单词有2到3个token,与英语相比,提示效率较低。

考虑到GPT-4-turbo的扩展上下文长度最多支持128,000个token,语言效率的差异会变得更加明显。

128k个token大概是多少个单词?下面是一个平均值:

  • 英语:约 96,000 个单词
  • 简体中文:约54,000个字符
  • 韩语:约 41,000 个字符

英语在提示词效率方面是中文的1.8倍,韩语的2.3倍综上所述,英语是ChatGPT最高效的提示语言,其提示效率是CJK(中、日、韩)语言的约2倍。

两个其他语言的例子:克林贡语(Klingon)和爪哇语(Javanese)大语言模型对一个语种的支持取决于该语种是否被包含在标准字符编码系统 Unicode中。

如果Unicode缺少了某种语言,那大语言模型也不会支持这种语言。

以下是Unicode不支持的语言示例:●唐萨语——印度和缅甸唐萨族使用的语言。●托托语——印度西孟加拉邦托托部落所使用语言。●阿伊努语 – 日本阿伊努人使用,对片假名区中的一些字符的支持有限。●Pahawh Hmong 文——一种用于书写苗语的文字,创建于20世纪中叶。●Chakma——印度和孟加拉国的Chakma人使用。●Kpelle——利比里亚和几内亚的Kpelle人使用。●瓦伊语——利比里亚瓦伊语使用的音节文。●巴萨瓦语——一种用于书写利比里亚巴萨语的文字。克林贡语(Klingon)克林贡语是《星际迷航》宇宙中的一种人造语言,但Unicode中却没有这种语言。因此,由于缺乏Unicode支持,ChatGPT等大语言模型无法读取或处理克林贡语脚本。如果人类在ChatGPT基础上实现了通用人工智能(AGI),那在马斯克发往火星的飞船上听到了克林贡语是理解不了的。

克林贡文字不属于 Unicode,因此不受大语言模型支持爪哇语(Javanese)印度尼西亚爪哇岛有6800万人口使用爪哇语,它与编程语言Java有着独特的历史联系。尽管Java在推动Unicode在编程语言中的采用方面发挥着关键作用,但爪哇语言本身直到2009年才得到Unicode的正式支持(Unicode 5.2版)。这种延迟的纳入凸显了非西方语言在获得 Unicode 等全球标准认可方面所面临的挑战。截至Unicode15.1版,该版本涵盖了161种文字和近15万个字符,而全球共有7,000余种语言。展望未来,确保Unicode和相关标准中包含多种语言对于促进语言多样性和在大语言模型 等新兴技术中提供全面的语言支持至关重要。

5

甚至美国参议员也认识到“en”

与其他语言的不平衡2023年5月16日,美国参议员Padilla在与OpenAI首席执行官山姆·奥特曼Sam Altman举行的参议院人工智能听证会上表达了他的担忧(视频1:49:38,文字记录):参议员亚历克斯·帕迪拉:“现在,随着语言模型变得越来越普遍,我想确保重点关注确保不同人口群体的公平待遇。我的理解是,大多数评估和减轻公平性损害的研究都集中在英语上,而非英语语言受到的关注或投资相对较少。我们以前也见过这个问题。我会告诉你我为什么提出这个问题。例如,社交媒体公司没有对其非英语语言的内容审核、工具和资源进行充分投资。我分享这一点不仅是出于对非美国用户的担忧,而且许多美国用户在交流时更喜欢英语以外的语言。因此,我非常担心社交媒体在人工智能工具和应用程序中重蹈覆辙。问 Altman先生和Montgomery女士,OpenAI和IBM如何确保他们在大型语言模型中的语言和文化包容性,是否是您产品开发的重点领域”(令人遗憾的是,参议员帕迪拉(Padilla)从他想要缓和非英语语言的立场出发,因此询问ChatGPT对其他语言的支持。)山姆·奥特曼:我们认为这非常重要。其中一个例子是,我们与冰岛政府合作,以确保他们的语言被纳入我们的模型中。冰岛语是一种使用人数较少的语言,与互联网上许多代表性语言相比,使用人数较少。我们已经进行过许多类似的对话。我期待与许多资源较少的语言建立类似的合作伙伴关系,将它们纳入我们的模型。GPT-4与我们之前的模型不同,之前的模型擅长英语,而对其他语言则不太擅长。现在,GPT-4在大量语言方面表现相当不错。你可以在按使用者数量排名的列表中往后看,仍然可以获得良好的表现。但对于这些非常小众的语言,我们很高兴能与定制合作伙伴将该语言纳入我们的模型运行中。你问到的问题中关于价值观和确保文化被纳入其中的部分,我们同样关注这一点。(您听说过 OpenAI 在日本开设办事处的消息吗?也许这是定制合作伙伴关系的一部分。)

6

总结回顾ChatGPT等大语言模型(LLM)中对语言表征和效率的探索,我们得出了几个关键结论:1.英语占主导地位:英语仍然是提示大语言模型(如 ChatGPT)的最有效语言,因为它在模型词汇表中具有广泛的token覆盖率。这种主导地位凸显了在提示工程中利用英语的实际优势。2.token效率:大语言模型中的token化过程揭示了不同语言之间效率的显著差异。英语提示通常需要较少的token,而亚洲语言需要多个token来表达同样的意思,从而影响整体提示效率。英语是ChatGPT最高效的提示语言,其提示效率是CJK (中、日、韩)语言的约2倍。3. Unicode 和语言支持:大语言模型对Unicode进行语言编码的依赖凸显了标准化在实现语言包容性方面的重要性。Unicode中没有的语言(如克林贡语)在获得大语言模型支持方面面临巨大障碍。4.语言多样性的挑战:Unicode覆盖的161种文字与世界7000种语言之间仍然存在巨大差距。Unicode中语言的代表性有限,这对保存和理解语言多样性提出了挑战。5.未来前景:随着大语言模型技术的不断发展,解决语言表示和效率的不平衡问题变得至关重要。努力增强Unicode的包容性并扩大大语言模型架构内的语言支持对于促进语言平等和文化保护至关重要。总之,应对大语言模型课程中语言效率和语言表达的复杂性,既是推进语言多样性和包容性语言技术的挑战,也是每个语种的机遇。每一个单一语种或者多语种的国家,都应该把大语言模型当作一个战略资源,在提示效率和兼容性上研制出对本国语言支持最好的人工智能。当今的现状是,以token计算,ChatGPT-3.5对英文提示词和输出的支持效率是中文的近两倍。当未来的人机交互语言从编程语言变成每天说的语言时,中文这么言简意赅的语言应该享有对其支持更好更高效的大语言模型。写完此文,不由感叹,这世界上的语言本来各有特色,并无“贫富贵贱”之分。可是当语言成为大语言模型的指令,成为人工智能桂冠上的明珠后,每个国家,每个语种,要重新审视自己的语言战略。应该聚集全世界说同一种语言的国家与民族的力量,大力发展最能代表自己的语言人工智能。