欢迎光临
我们一直在努力

AI Agents与AI聊天机器人:功能、特性及差异深度解析

aigc阅读(34)

在日常生活中,人们与人工智能的互动日益频繁,且常常在不经意间发生。

根据 DigitalOcean 的 2023 年 Currents 研究报告显示,73% 的人在个人生活、工作或二者兼顾的情况下使用人工智能。

在线购物者可在聊天窗口中输入 “我需要跑马拉松的跑鞋”,进而从电子商务网站庞大的选项目录中获取建议。

在 SaaS 公司任职的业务分析师或许会要求智能工具分析第三季度的销售数据,并提出提升第四季度业绩的策略。

虽然二者均为人工智能和机器学习的应用实例,但它们属于不同的应用程序。

其一为人工智能聊天机器人,旨在模拟对话并提供特定的帮助或信息。其二是能够自主决策并在多个领域执行复杂任务的 AI Agents。

聊天机器人的历史可追溯至 20 世纪 60 年代的 ELIZA,其从简单的模式匹配逐步发展为如今更为复杂的自然语言处理器。

另一方面,AI Agents 是近年才出现的,它建立在过去十年机器学习、神经网络和通用人工智能研究的进步基础之上。

本文将对 AI Agents 和人工智能聊天机器人之间的区别进行分析,以帮助您确定哪种最适合您的业务。

01 AI 聊天机器人的定义

人工智能聊天机器人是一种软件应用程序,其旨在通过文本或语音交互的方式模拟人类对话。该应用程序运用自然语言处理(NLP)以及机器学习算法,以理解用户输入内容并生成恰当的响应。

聊天机器人通常依据一组特定规则进行编程,或者针对特定数据集进行训练,从而使其能够处理预定义任务或者在有限范围内回答问题。

尽管聊天机器人能够为常见问题或者简单任务提供快速且有效的帮助,但是它们通常缺乏理解训练范围之外的背景信息或者自行做出复杂决策的能力。

1. AI 聊天机器人用例

AI 聊天机器人通常被用于自动化客户互动以及简化业务流程。它们提供了一种具有成本效益的选择,可以处理大量重复性任务,同时提供全天候(24/7)的可用性。以下是一些潜在的 AI 聊天机器人用例:

  • 客户服务常见问题解答。零售公司可能会实施 AI 聊天机器人,以回答有关退货、运输以及产品可用性的常见问题。聊天机器人将客户查询与预编程的响应进行匹配,为常见问题提供快速答案,并减少人工客户服务代表的工作量。
  • 基本 IT 支持。组织可以使用 AI 聊天机器人作为员工 IT 问题的首个联系点。聊天机器人能够指导用户完成简单的故障排除步骤,以解决诸如密码重置或打印机连接问题等常见问题,并将更复杂的问题转交给 IT 部门。
  • 餐厅预订。当地连锁餐厅可能会在其网站上部署 AI 聊天机器人来处理餐桌预订。聊天机器人会询问用户日期、时间和人数等基本信息,然后在连接的预订系统中检查可用性,以确认预订或建议其他时间。

2. 国内外 AI 聊天机器人示例

  • ChatGPT:由 OpenAI 开发,是最为知名的人工智能聊天机器人之一。它基于大型语言模型,能够理解和生成与用户需求相关的回答,无论是日常聊天、知识问答、文本创作,还是专业领域的问题探讨等都能应对。
  • Google Bard:谷歌推出的聊天机器人,依托谷歌强大的技术和数据资源,能够提供高质量的回答和建议。它可以与用户进行自然流畅的对话,帮助用户解决各种疑问,并且在不断学习和改进中。
  • 文心一言:百度全新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,帮助用户高效便捷地获取信息、知识和灵感。它具备知识增强、检索增强和对话增强的技术优势,能更加准确地理解用户意图,提供准确全面的信息服务。
  • 通义千问:由阿里云推出的全能 AI 助手,能够深度理解人类语言的复杂性和多样性,可用于日常对话、知识问答、机器翻译、情感分析、代码生成、逻辑推理、文本创作等,能实现自然流畅的人机对话,提供高效便捷的交互体验。

02 AI Agents 的定义

AI Agents 是一种更为先进的人工智能系统,其能够在极少的人工指导下执行复杂任务并做出决策。它运用复杂的机器学习模型(通常涵盖深度学习和强化学习)来处理和分析源自不同渠道的数据。

AI Agents 能够理解上下文、从交互中学习并调整自身行为以达成特定目标。与简单的系统相异,AI Agents 可以处理模糊性问题、做出自主决策并执行多步骤计划以解决复杂难题,这使得它们适用于更具挑战性和开放性的任务情境。

1. AI Agents 用例

AI Agents 被用于执行更为复杂的任务,这些任务需要决策能力、情境理解能力以及从交互中学习的能力。在问题空间庞大且自主行动有所助益的场景中,它们极为有用。

以下是企业可能选择 AI Agents 的情况:

  • 智能供应链管理。大型电子公司可以运用 AI Agents 来优化其供应链。该代理能够分析销售数据、库存水平、供应商绩效以及天气和经济指标等外部因素,从而预测需求、调整订单数量并实时重新安排货运路线。
  • 自动化内容管理。数字媒体公司可能会构建一个 AI Agents,为其订阅者提供个性化内容推荐。代理将分析用户浏览历史、参与模式和热门话题,以不断更新每个用户的相关信息、视频和播客,进而提高用户留存率并增加用户在平台上停留的时间。
  • 职业发展助理。专业社交网络可以引入 AI Agents,以帮助学生和年轻专业人士求职。该代理可以分析就业市场趋势、用户技能和职业目标,从而推荐量身定制的工作机会,对简历和求职信提供反馈,推荐与技能发展相关的课程,并提供个性化的面试准备技巧。

2. 国内外 AI Agents 示例

HostAI 是一款专门为度假租赁管理以及酒店运营所设计的人工智能代理。其能够自动执行多项任务,涵盖客人沟通、维护票务、进行日历管理以及实现收入优化。HostAI 宣称可以处理 80% 以上的客人沟通事宜,能够在数秒钟之内回复查询,甚至运用人工智能管理语音通话。

Sender 是一款专门针对区块链网络上的去中心化金融(DeFi)操作而设计的人工智能代理。其旨在将用户的意图转化为链上操作,自动执行跨不同协议和平台的复杂 DeFi 任务。Sender 与多种 DeFi 应用程序实现集成,其中包括去中心化交易所、借贷平台以及 NFT 市场,为加密用户提供一个全面的生态系统。

实在智能 – 实在 Agent:基于 AI+RPA 技术,融合 TARS 大模型,允许用户通过文字或语音传达指令,模拟人类操作和决策流程。对于个人,可替代手工作业,提升工作效率;对于企业,可无缝接入不同业务系统,创建个性化应用,适用于零售、通信、银行、制造业等多个行业。

钉钉 – 魔法棒套件:集成在钉钉平台的智能工具集合,包括聊天 AI、文档 AI、会议 AI 等多种功能。用户可以一站式唤起多种技能,辅助生成文案、方案、图片、PPT、脑图等,还能在聊天、文档、知识库等场景中进行智能问答,在数据处理方面可以汇总分析数据、生成图表等。

03 AI 聊天机器人与 AI Agents 的差异

人工智能聊天机器人与 AI Agents 皆运用人工智能技术,为个人及企业提供助力。从根本而言,二者旨在理解人们的言语或输入内容,并依据输入做出回应或采取行动。它们犹如数字助理一般,时刻准备为人们提供服务,无论是解答问题、处理难题,还是完成任务。

人工智能聊天机器人与 AI Agents 常常被人们混淆,原因在于二者均基于人工智能,且都能够通过自然语言与用户进行交互。它们之间的界限或许较为模糊,尤其是随着聊天机器人日益复杂,代理的对话能力不断增强。尽管它们在能力和设计目的方面存在差异,但许多人仍会对这两个术语进行混用。

1. 交互复杂性

人工智能聊天机器人通常处理预定义范围内的简单文本对话。其擅长回答常见问题、引导用户完成简单流程以及提供结构化知识库中的信息。

大多数聊天机器人采用模式匹配或基本的自然语言处理方式,以解释用户输入内容,并从一组预编程选项中选取正确的回应。

另一方面,AI Agents 能够进行更为复杂、多步骤的交互,这些交互可能跨越不同的平台或服务。它们可以理解细微的指令,将复杂的任务分解为较小的步骤并予以执行。

高级 AI Agents 运用复杂的自然语言理解、上下文感知以及决策算法,以处理模糊的请求,并根据实时反馈和不断变化的条件调整自身方法。

2. 任务完成能力

人工智能聊天机器人专为特定、有限的任务而设计。它们在回答常见问题、引导用户完成预定义流程或处理简单交易方面表现出色。然而,当面临复杂或多步骤的任务(或任何超出其狭窄编程范围的任务)时,其能力便会受到限制。

AI Agents 将任务完成能力提升至全新的高度。这些数字工作者能够处理跨各种平台和服务的复杂、多阶段流程。

若需规划行程,AI Agents 可以研究目的地、比较机票价格、预订酒店,甚至推荐活动 —— 仅需一个指令即可完成。它们并非仅仅遵循脚本,而是能够实时解决问题,并在过程中适应新的信息。

3. 学习与适应

传统聊天机器人通常依赖于静态决策树或预定义的响应模式,这限制了它们学习和动态适应的能力。更为先进的实现方式可能会结合机器学习模型以改进响应选择,但这种学习通常局限于其特定领域。即使定期更新,聊天机器人通常也难以处理训练数据之外的新情况或查询。

相比之下,AI Agents 采用持续学习算法和自适应模型,这些算法和模型会随着每次交互而不断演变。这些系统能够根据以往的经验推断出应对不熟悉场景的方法,并根据用户反馈调整自身方法。通过运用强化学习和迁移学习等技术,代理可以扩展其在不同主题上的能力,变得更加灵活和高效。

4. 知识范围

大多数聊天机器人的实现都在一个有限的知识领域内运行,通常专注于特定的产品、服务或行业。它们的信息库通常是经过整理的,仅限于训练期间或通过定期更新提供的数据。

例如,汽车经销商的网站上可能会有一个聊天机器人,可以回答一系列关于其汽车品牌和型号的问题,包括规格、价格和可用性。虽然一些高级聊天机器人可以访问外部数据库或 API,但它们通常缺乏从多个来源综合信息或自主扩展知识的能力。

相比之下,AI Agents 通常拥有更广泛的知识范围。这些系统可以利用大量语言模型、实时数据流和多种外部资源来即时收集和处理信息。

代理可以跨领域推理、进行逻辑推理,甚至通过以新颖的方式组合现有信息来生成新知识。这种广泛的知识库使它们能够以更大的灵活性和深度处理更广泛的查询和任务。

04 AI 聊天机器人和 AI Agents 选择

尽管 AI Agents 提供了更为高级的功能且能够处理复杂任务,但它们并非在每种情况下都是最佳选择。

在人工智能聊天机器人与 AI Agents 之间进行抉择,应当基于对特定需求、资源以及目标的审慎评估。

以下为需要考虑的关键因素:

1. 预算限制

人工智能聊天机器人的实施与维护通常更具成本效益,因而对于资源有限的组织而言极为合适。若预算紧张,设计精良的聊天机器人依然能够提供巨大价值,而无需承担与更为复杂的 AI Agents 系统相关的更高成本。

2. 用例的复杂性

评估所需自动化任务的复杂程度。

对于简单、重复的交互(例如回答常见问题或引导用户完成简单流程),聊天机器人或许已然足够。然而,若用例涉及多步骤工作流程、跨不同领域的决策或与多个系统的集成,那么 AI Agents 则更为适宜。

3. 开发和维护资源

考虑团队的技术能力以及持续开发所需的时间。聊天机器人通常无需太多专业知识,且更容易进行更新。

AI Agents 虽功能更为强大,但通常需要在机器学习、自然语言处理以及系统集成等领域具备更高级的技能,同时需要持续进行监控和改进。

4. 可扩展性要求

评估未来的增长计划以及用户互动的潜在增长。聊天机器人能够有效地处理大量简单查询,但在面对复杂任务时,可扩展性可能会遭遇困难。为更具动态性的环境而设计的 AI Agents 通常能够提供更好的可扩展性,以满足多样化且不断变化的用户需求。

5. 数据隐私和安全问题

若用例涉及敏感信息或严格的法规遵从性,那么在聊天机器人与 AI Agents 之间进行选择可能会影响数据处理流程。聊天机器人的范围更为有限,可能更容易进行保护和审计。AI Agents 虽然可能更强大,但由于其能够更广泛地访问系统和数据,因此可能需要更强大的安全措施。

AI Agents 凭借其自动化复杂任务的能力,正稳步进入众多行业。这些系统通过处理数据分析、处理交易以及响应客户查询(这些工作以前需要大量人力才能完成),在从金融到客户服务等不同领域彰显了自身价值。

Chain of Thought:AI一思考,人类就……

aigc阅读(21)

01 引子:不算久远的AI往事

2023年底,Google大张旗鼓地发布了自己的多模态大模型Gemini,《Introducing Gemini: our largest and most capable AI model》。当时宣传之盛,大有要复刻Chatgpt横空出世时的风光。

但是,任凭谷歌如何大开香槟,业内并不买账,反而纷纷吐槽起谷歌竟也为了“优等生”的面子刷榜、水数据。刷榜迹象铁证如山,其中有一项尤为瞩目:在跟 GPT-4 对比推理能力的时候,谷歌“鸡贼”地给自己的模型用了叫做 Chain of Thought(链式思维)的提示策略,而用来作为对照组的GPT-4 呢,并没有。

这个提示策略能给大模型带来多大的差异呢?嗯,大约就是考试的时候一个人允许用草稿纸,另一个人只允许口算的差别。所以,当Gemini用了这样的开挂神器,要和“裸考”的Gpt-4比高下,自然会引来非议。

经此一役,Gemini有没有如愿被硬捧上宝座,不得而知。但CoT(链式思维)的江湖地位更为牢固了。几乎没有人能否认,它是提示工程中重要的策略之一,大模型们能不能跑出复杂的推理,生成符合逻辑的响应,端赖此君。

既然CoT如此重要,自然很值得一篇文章来好好讨论:

  • CoT到底是什么?它是如何产生的?
  • 为什么大语言模型有它没它,会有如此大的差异?
  • 在非技术领域,它有哪些应用?

02 诞生:进化而来的“思考力”

CoT全称是Chain of Thought,中文通常翻译为链式思维、思维链等。它是在提示词工程中被广泛使用的核心技术之一。它的中心思想就是当模型碰到复杂的推理问题的时候,要拆解成多个简单的子问题,并依次求解,形成一条完整的推理链条,再让大模型回答。

AI科学家之所以会提出这种“逐层拆解”的方式,还要从人工智能进化历史说起。

如果我们要给大语言模型“短暂又辉煌”的历史找一个关键的里程碑,那无疑是2017到2019年。那时候,Transformer模型的出现,为机器学习带来了新的方向。传统的全监督学习方法逐渐显得力不从心,研究者们开始探索以预训练模型为基础,辅以Fine-tuning的新方向。

但是,随着预训练模型的规模日益增大,Fine-tuning的成本也随之上升,而效果却不尽如人意。为了解决这个问题,提示工程应运而生。它通过提供任务指示和专家知识,使得AI的输入和输出更加符合训练时的数据模式。

到了2022年,LLM的提示效果有了显著提升,许多之前难以处理的任务,如对话和上下文理解,都取得了突破。然而,在复杂推理方面,大模型的表现仍有提升空间。如果让LLM处理算术推理、常识推理和符号推理,它给出的答案可能并不总是准确。

为了改善这一点,链式思维被提出。这种方法旨在帮助AI更好地处理复杂推理任务,提高其准确性和可靠性。这种逐步推理的方式不仅降低了问题的难度,还使得模型的推理过程更加透明和可解释。

我们用一个例子来说明CoT有多重要:

提问:这个餐厅原来有23个苹果。中午用掉了20个,然后又买进了6个。请问现在餐厅一共有多少个苹果。

这个在人类看起来平平无奇的计算题,在没有“链式思维(CoT)”的大模型时代,简直是黑暗降临。

因为没有链式思维的LLM会直接回答你:还有27个。

你甚至不知道它为什么会生成这么个离谱的答案。

好在我们有了CoT,它能要求模型逐步拆解这个问题:

  1. 这个餐厅最开始有23个苹果。
  2. 用掉了20个,所以是23-20=3。
  3. 又买了6个,所以是6+3 = 9。

所以,答案是9个。回答正确!

自此,大模型有了“思考之光”。此后技术界对于CoT,有了一系列的衍生研究,大致成果如下:

  1. 结合验证和细化:思维链推理过程中可能会出现误差,产生错误的推理步骤。为了减少这种现象,结合验证来获取反馈,并根据反馈改进推理过程。
  2. 问题分解:通过将多步骤推理问题分解成多个中间步骤,分配给更多的计算量,生成更多的token,再进行求解。
  3. 利用外部知识:结合外部知识对不确定的例子进行重新推理,减少分析中的事实错误。
  4. 投票排序:利用投票机制消除错误答案,然后对每个推理步骤进行独立的细粒度验证。
  5. 提高效率:通过优化模型结构和算法,减少不必要的计算量,提高推理的效率。
  6. 减少偏见:针对CoT可能产生的系统性偏见问题,引入了BCT无监督微调方案。这种方法可以训练模型在包含和不包含偏见特征的提示下给出一致的推理,减少偏见推理。
  7. Let’s think step by step:引入了一种简单的提示方法,通过在问题的结尾附加“Let’s think step by step”等词语,使大语言模型能够生成一个回答问题的思维链。这种方法无需额外的训练数据,可以直接应用于各种推理任务。

这些增强的技术手段,让大模型的“链式思维”除了“在中间加步骤”的总原则,有了更多的推理保障,让整个推理过程更严谨,生成的结果质量也更好。

03 应用:充分开发CoT,为我所用

到这里,也许你会问:CoT的功效我知道了,但我并不是算法工程师,平时只是要应用提示词进行工作,了解CoT对我来说有什么用?

在我们的经验中,即便是在内容创作、产品设计或项目规划等领域,只需掌握一些基本的增强技巧,依然能充分利用大型语言模型的推理潜能,点亮它的“思考之光”。

我们总结了五种实用的场景:

1. Let’s think step by step

做法:在输入问题之后,加一句后缀:Let’s think step by step。

收益:这是最简单的“链式思维”的启动语。在问题后加入这句话,会要求LLM不要直接跳结论,而是以一种逐步推理的方式来处理问题。因此,在一些简单的需要分步骤思考的场景,它会促进LLM主动分步骤,提高它回答的靠谱程度。

2. 复杂决策/评估的报告产出

做法:在一些复杂的决策/评估报告的生成场景中,我们可以用后缀“请说明理由/请说出你的推理过程”来让LLM说明他的评估理由,让它提供的报告不仅仅只有结果,还会决策/评估过程,使结果更具参考性。比如:

  • 当你提供一些人才绩效信息让它解读,并要求评估“我们如何确定销售团队中哪些成员是高潜力人才,哪些需要进一步培训,以及哪些可能考虑职位调整?请给出高潜力人才的评估,并说明理由”。
  • 当你收到了多方面的调研反馈,要对调研信息的重要性做一个排序,你可以这样要求“请根据XXX的标准,对反馈信息做一个分类以及重要性排序,并说出你的推理过程。

收益:在做一些复杂决策或评估时,决策的理由其实比单一结果更重要。而加上这一个短短的后缀,不仅仅能让LLM的产出更准确,我们也能收获一份有着合理决策过程的产出。

3. 头脑风暴,创意产出更精准

做法:我们可以用CoT的方式,让大模型帮助我们进行头脑风暴,产出方案。

举例:假设你是一家广告公司的创意总监,你需要为一家新兴的环保型清洁用品公司设计一个广告活动。

输入:我们如何创造一个广告活动,以提高这家环保清洁用品公司的市场知名度,并吸引对环保有高度意识的消费者?”请用链式思维头脑风暴出至少五个方案。

大模型:链式思维头脑风暴方案

目标:为新兴的环保型清洁用品公司设计广告活动,提高市场知名度,吸引环保意识强的消费者。

方案一

目标受众分析:环保意识强的消费者通常关注可持续发展,喜欢在社交媒体上分享环保生活方式。

创意概念:##“绿色生活,从选择开始”##

执行策略

制作一系列短视频,展示使用我们的产品如何减少对环境的影响。在Instagram和Facebook上发起#绿色生活挑战#,鼓励用户分享他们使用环保产品的照片和故事。

方案二

目标受众分析:环保消费者倾向于信任和支持那些公开透明、有社会责任感的品牌。

创意概念:##“透明化生产,清洁你我他”##

执行策略

开发一个微型网站,详细展示我们产品的生产过程和环保实践。

邀请消费者参观工厂,让他们亲眼看到产品的环保生产流程。

方案三

目标受众分析:环保消费者更愿意为有故事、有情感的产品买单。

创意概念:##“每一滴,都承载着地球的未来”##

执行策略

制作情感化的广告,讲述我们的产品如何帮助保护环境,比如减少水资源浪费。

与环保组织合作,通过公益活动提升品牌形象。

方案四

目标受众分析:年轻一代的环保消费者喜欢通过他们的消费行为来表达自己的身份和价值观。

创意概念:##“选择环保,选择潮流”##

执行策略

设计一系列时尚、有趣的环保清洁用品包装,吸引年轻消费者的注意。

在大学校园和音乐节等年轻人聚集的地方进行产品展示和推广。

方案五

目标受众分析:环保消费者通常对产品的成分和来源非常关心。

创意概念:##“源自自然,馈于自然”##

执行策略

制作一系列教育性的内容,如博客文章和视频,介绍我们产品中的天然成分及其对环境的积极影响。

在产品包装上增加二维码,消费者扫描后可以了解更多关于产品成分和环保故事的信息。

方案六

目标受众分析:环保消费者可能会对那些提供可持续生活方式解决方案的品牌感兴趣。

创意概念:##“全方位绿色生活”##

执行策略

与生活方式博主和环保KOL合作,展示我们的产品是如何融入日常生活的。

开发一个绿色生活指南,提供使用我们产品的各种环保小贴士。

通过以上链式思维头脑风暴,我们得到了六个针对不同方面和策略的广告活动方案,每个方案都旨在提高新兴环保型清洁用品公司的市场知名度,并吸引目标消费者。

收益:如果我们少了“请用链式思维的方式”,只是简单要求大模型“请给我五个方案”,我们收获的只有五个方案的描述。但是由于多了链式思维的要求,大模型就会从受众、概念、策略等步骤逐一进行分解,给出更精准的答案。

4. 为思考流程进行“自定义”

做法:以上的3种做法,我们都只是给到了LLM“你要进行分步骤思考”的要求,但并没有定义具体的步骤。但事实上,如果你已有成熟的思考步骤,也可以要求LLM跟着你的要求走。

举例:你想创作一个时间旅行的故事,想让LLM帮着构思情节,但你有着严格的思考要求,并不想让大模型放飞自我。你可以这样写:

我是一个科幻小说家,我希望你能帮我构思一部时间旅行的作品。请根据CoT逐步思考以下问题:

1. 定义核心概念:时间旅行如何影响人物和事件?

2. 探索可能性:如果一个角色可以回到过去,他们可能会改变什么?

3. 构建情节:角色的行动如何引发一系列事件,导致意想不到的后果?

4. 深化主题:时间旅行的道德困境和哲学问题是什么?

产出:一篇完善的故事大纲,不得少于2000字

AI的回答:

故事大纲:《时间的织者》

1. 定义核心概念:时间旅行如何影响人物和事件?

核心概念:

时间旅行不是简单的历史重写,而是一系列复杂的因果链。每一次旅行都是对时间织物的编织,每一次改变都可能产生无法预料的连锁反应。

影响:

人物:时间旅行者会经历身份的转变,从历史的旁观者变为参与者,甚至可能成为历史的创造者。

事件:历史不再是固定的,而是流动的,每一次旅行都可能导致完全不同的历史走向。

2. 探索可能性:如果一个角色可以回到过去,他们可能会改变什么?

角色:艾丽森,一位物理学家,发现了时间旅行的秘密。

可能的改变

个人层面:艾丽森试图修正自己过去的错误,比如挽救亲人的生命。

社会层面:她考虑改变历史上的重大事件,如阻止战争或灾难。

科学层面:她试图带回未来的科技,以加速当前社会的发展。

3. 构建情节:角色的行动如何引发一系列事件,导致意想不到的后果?

情节概述

艾丽森首次尝试时间旅行,成功回到了十年前,试图阻止一场导致她弟弟死亡的车祸。然而,她的行动意外地改变了历史,导致了一个平行宇宙的出现,其中她的弟弟成为了一个科技巨头,但同时也引发了一场全球性的经济危机。

事件链

初始行动:艾丽森回到过去,阻止了车祸。

第一次后果:弟弟幸存,成为科技巨头。

第二次后果:弟弟的公司开发了一种新的能源技术,导致全球能源市场崩溃。

第三次后果:经济危机引发社会动荡,艾丽森发现自己的世界变得陌生和危险。

4. 深化主题:时间旅行的道德困境和哲学问题是什么?

道德困境

个人与集体:艾丽森的个人行动对整个社会产生了深远的影响,她是否应该为了个人的利益而改变历史?

预知与责任:如果知道未来会发生什么,是否有责任去改变它?

哲学问题

自由意志与命运:时间旅行是否意味着命运是可塑的,还是说时间旅行本身就是命运的一部分?

历史的真实性:如果历史可以被改变,那么什么是真实的历史?

存在的意义:如果过去可以被重写,那么现在的存在是否还有意义?

故事大纲:

第一章:发现

艾丽森在实验室中偶然发现了时间旅行的可能性。

她对时间旅行的理论和实践进行了深入研究。

第二章:第一次旅行

艾丽森决定回到过去,阻止弟弟的死亡。

她成功改变了历史,但发现自己的世界开始变得陌生。

第三章:新世界

艾丽森探索新的历史线,发现弟弟成为了科技巨头。

她开始意识到自己的行动可能带来了更大的问题。

第四章:连锁反应

弟弟的公司引发了全球经济危机。

艾丽森试图找到解决问题的方法。

第五章:道德困境

艾丽森面临道德抉择:是否应该再次干预历史?

她开始思考时间旅行的道德和哲学意义。

第六章:时间的织者

艾丽森决定成为一个“时间的织者”,谨慎地修复时间织物的裂痕。

她学习如何平衡个人愿望和对历史的责任。

第七章:回归与接受

艾丽森最终接受了时间旅行的后果,决定活在当下。

她开始利用自己的知识帮助当前的世界,而不是试图改变过去。

第八章:新的开始

艾丽森关闭了时间旅行的实验,专注于当前的生活。

她成为了一个时间旅行理论的讲师,教导人们关于时间、历史和责任的重要性。

结语

艾丽森的故事成为了一个警示,提醒人们珍惜现在,理解每一个选择的重要性。

时间旅行不再是一个逃避现实的手段,而是一个关于责任和接受的教训。

这个故事大纲提供了一个关于时间旅行的复杂叙事,探讨了个人选择如何影响整个宇宙的深刻主题。通过艾丽森的旅程,读者可以思考时间、历史和存在的意义。

收益:

  • 无论是小说、演讲稿和方案,CoT方法通过逐步构建思维链条,每个步骤都建立在前一个步骤的基础上,使得整个故事或论述更加缜密、前后呼应。
  • 而且有了中间步骤之后,如果需要微调其中的某一个步骤,只需要继续给出指令,修改局部即可。不会影响到整体的框架,调整的效率大为提高。

5. 多轮对话时,重新唤起记忆

做法:有时候我们在做复杂的设计/分析时,可能会涉及到多轮产出。此时,CoT也有用武之地。由于每轮的设计可能都会有较长的文本输入输出,如果上下文内容多了,LLM就和人类一样,对较早的内容就“淡忘”。所以,我们在多轮讨论中,要提醒它结合上下文思考。

举例:我们要通过LLM来设计一个虚拟的游戏角色,已经跟LLM进行多轮设计:角色的核心概念、背景、形象、技能。最后一步是要结合以上所有内容,来设计角色的人际关系,那么在输入设计要求之后,可以加入后缀:<请根据以下流程来工作>

  1. 思考角色的核心概念
  2. 思考角色的视觉形象
  3. 思考角色的能力与技能
  4. 思考人际关系的设计要求

收益:能确保LLM综合多轮大文本的理解和思考,再给出结论。

04 结语:人脑的特权 vs 智脑的“模仿”

认知心理学教授斯坦尼斯拉斯·迪昂(Stanislas Dehaene)曾这样描述过“人脑的特权”:缓慢地、理智地、符号化地运作,是人脑的特权。只有它可以在任何可能的时候,提取具有普遍性、逻辑性的、明确的原则。

人类的大脑思考非线性和多维的,思维可以快速跳跃,受到情感、直觉和过往经验的影响。这种思考的结果高度个性化,且思考路径也是独一无二的。它有时并没有路径和步骤可循,但依然能推演出一个优质的结果。

而大语言模型的CoT技术,则更像是对人脑的一种“仿作”。它严格遵循线性,通过一系列有序的步骤来处理信息,每一步都基于前一步的输出,以此来确保推理的连贯性和准确性。但是在面对复杂、未知的问题,它依然缺乏人类情感的深度和直觉的灵光一现。

这似乎让人们可以松一口气:至少在未来不短的时间内,人类依然能稳居于智能生物链的顶端。同样的,在面对未知与不确定的路上,我们也只能踽踽独行。

大佬点赞、大厂跟进!AI播客,正在引爆音频经济

aigc阅读(23)

AI这把火终于烧到了播客。

近期,谷歌开发的AI博客NotebookLM彻底火了。原因是,它能将用户提供的内容进行总结,并生成一段引人入胜的对话式播客,把信息娓娓道来。

国外AI大佬Andrej Karpathy更是称赞其“点亮了LLM的新交互范式”。如今,国内字节的豆包大模型也已跟进。

那么,NotebookLM究竟有哪些有趣的玩法?而当AI进入播客领域,又会对其产生怎样的影响呢?

01 解锁使用AI播客的三种姿势

从名称就可以看得出,NotebookLM的定位起初是一款AI云笔记软件。

它基于用户上传的文档内容(包括Google文档、幻灯片、PDF、文本文件、网页链接等),生成长文本摘要、多语言会话、提纲、常见问题解答、学习指南等内容。

到这里,NotebookLM和它的名字一样普通,和别的AI笔记没区别。

要说NotebookLM破圈,全靠生成语音功能,它把小作文变成了超逼真的电台聊天。

使用者尝试了各种玩法,他们把各种书籍、文章、其他播客转成AI短音频。

这才发现,NotebookLM在信息的组织、检索和验证方面做得很好,适合需要精确引用和深入研究特定资料的场景,如学习研究、法律分析、商业报告等。

找到了差异化的使用场景,NotebookLM火也是自然的。

做成一档绘声绘色的播客节目,NotebookLM离不开三个开源模型(Llama 3.1 405B、MeloTTS、Bark),是它们帮助NotebookLM完成从理解文本到生动言说内容的过程:

①长文本理解:Llama 3.1 405B擅长处理长文本,能够理解和生成高质量的文本内容。

②口语化人声:文本转语音工具MeloTTS,能将输入的文字转化为自然流畅、可定制的声音。

③音效:文转音频模型Bark,能生成包括音乐、背景噪音和简单的音效,还有高度逼真的非语言交流,如大笑、叹息和哭泣。

接下来介绍几个AI播客的用法,看看哪一个是你需要:

1、最强AI第二大脑,“信息快餐”开吃

用NotebookLM对论文、书籍、公知社交平台进行梳理总结,并生成逼真生动的人声娓娓道来,效果惊艳。

有人用“股神”段永平的社交主页投给AI,只花5分钟,就做了一档英文播客《段永平的故事》。

也有人对NotebookLM上传了几千条Flomo笔记,一期近20分钟的podcast,讨论了笔记里内容,还能给人以灵感启迪。

这可能是目前的“最强AI第二大脑”产品。

AI播客把原本结构化、线性表达的知识文本,降格成几分钟就能听完的“信息快餐”,就像是用了《三体》中的降维武器“二向箔”。

▲NotebookLM分析《老美都要在太空建数据中心了!成本大降95%,英伟达强力支持》(乌鸦智能说文章)

因为效果过于自然逼真,Andrej Karpathy也给出盛赞,称其“点亮了LLM的新交互范式”。

2、自我关怀,听老外轮番“彩虹屁”

“如果你感到有点沮丧,把你的社交动态粘贴到NotebookLM中,就能得到一通8分钟的‘真人’深度赞美。”

这是HuggingFace首席科学官分享了用NotebookLM进行自我关怀的方法。(之前我们也写过一个在自我关怀方向的AI产品,SocialAI)

把个人社交媒体上的动态/简历导出来,然后复制粘贴给NotebookLM,AI博客里的“人”会对使用者进行狂热的讨论,还甚至讨论起对方的优劣势,以及会不会录用对方的问题。

其实我们每个人最感兴趣的,是自己,所以延续自己的想法和兴趣的内容,充满乐趣和正反馈。

在这个创业机会上,国内已经有大厂出手了。豆包产品经理钟二信在即刻上透露,豆包很快也会上类似的功能。

3、自制英语播客,费曼学习法达成

当老外用AI总结播报论文、制作夸夸的时候,国内却开辟了AI播客的另一个场景——学英语。NotebookLM带动了AI双人英文播客的火爆,小红书上不少博主都在倾情推荐。

有人探索出了一套超棒的英语听力练习法,简直是费曼学习法+自制podcast,制作步骤也非常地简单:

①学习:听AI播客讨论(音频约7~18min),进入情景学习

②反馈:导入笔记,听AI播客来复盘,内容熟悉,不会走神

③调整:自己控制话题难度,再也不怕听不懂

这种学习方法可以让人沉浸地表达和思维。

AI播客里一男一女,美式英语纯正清晰轻松幽默,而不是枯燥的英文新闻单向输出。

场景诞生的原因是国人学英语的高需求。我国的英语市场常年火爆,根据数据显示,少儿英语培训市场在2018年就达到3160亿元,成人英语市场规模在2019年也达到了953亿元。

得益于此,中国是访问NotebookLM最多的国家,甚至超过了美国。

02 声音短视频化,知识内容生产及消费方式将被改变

一直以来,播客都是一个相对小众的需求。

这和其内容特点有很大关系。与短视频等内容不同,播客内容更侧重于知识输出,内容追求知识密度,因此播客的时长往往较长。

比如,国外头部播客的时长动辄三四个小时,而国内播客小宇宙上,大多数电台的节目时长也在一小时左右。

但这就带来了两个问题:

一方面,长时长内容,大幅提升了用户的消费门槛。

根据PodcastIndex的数据,当前还在活跃的播客有400万以上。而平均一个人收听播客的时长为6-7小时,这注定有海量的播客内容无法被广泛消费。

另一方面,这也不符合大众内容消费碎片化的趋势。

在TikTok上,电影解说账号的点赞量平均在3万左右,爆款可达到百万点赞。

解说型书单视频也大受欢迎,这种号的主要内容是“3分钟内解说一本书”。抖音上像是@不略 这样的号,在只发布30+个作品时,就已经拥有180w万点赞了。

以上两点,使得播客的受众相对受限。

但NotebookLM的出现极有可能改变这一切。

有公式就是快!NotebookLM加快了内容的自动化生产,它将高密度文字内容转化为听觉材料。它还把优质内容变短了,“二创”的知识短音频更符合当下的消费习惯。

同时,AI特有的交互特点,也能实现AI播客的定制化,让知识更入耳入脑。

比如,将特定的阅读材料,用AI处理成更符合自己接收习惯的东西,可以是自己喜欢的声音,又或者双人畅言聊天。

当播客内容的供给被AI进一步放大,且形态更符合用户消费习惯,播客消费仍然很大的挖掘潜力,比如开车、通勤、入睡时,也就是长时间、无注意力(无法用手操作)的场景。

▲ 来源:即刻@Yangjixxxx

可以想象,随着AI技术的进步,将出现一个更加丰富和智能内容生态。而这或许是内容消费侧潜力最大的机会。

哪些AI产品,真的有人在用?

aigc阅读(24)

AI的风刮了两年,哪些产品胜出了?

两年前,ChatGPT爆火,掀起全球范围内的大模型开发热潮。国内大厂和创业公司纷纷入场,试图在AIGC时代占据一席之地。

如今,各家的产品都已铺开落地,和各行各业紧密结合。有数据显示,中国AI原生应用已经拥有了1.2亿月活跃用户。一大批已经习惯使用AI的人,率先享受到了技术红利。

我们好奇的是,AIGC的风刮了近两年后,到底哪些产品真正融入了用户日常?哪些是真需求,哪些是伪风口?

「定焦One」和多位用户交流后发现,在使用功能上,职场人士最常用AI查阅资料、编辑文档、翻译文本、公文写作、生成图片或视频;

在行业上,内容创作、智能客服、营销以及有标准化(SOP)作业程序的场景,运用AI较多;至于具体的产品,在C端,文小言(原文心一言)、Kimi等讨论度更高,在B端,豆包、通义等常被创业者们提及。

不过,尽管AI产品众多,但功能上创新不够,用户活跃度、留存和商业化仍面临瓶颈。AIGC号称是下一代移动互联网级别的创新,却一直未能爆发,业内人士认为,未来能否出现杀手级别的应用,将会是各家决出胜负的关键。

一、打工人的“救星”

企业职员璐璐平时主要做文稿编辑工作,她常用字节跳动的豆包和腾讯的元宝。最初使用大语言模型是为了完成工作中的一些形式主义的文件,她希望能提高效率,挤出更多时间去做更能提升自己能力的事情。

她发现,使用AI工具的效果很好,“有时候总觉得稿子里的某句话有语病,但我又拿不准,此时把这句话单独摘出来让AI帮忙校对和完善,比自己绞尽脑汁思考或者上网搜索别人的句子要高效得多。”

长期用下来,璐璐的感受是,文字方面,元宝要比豆包更接地气一点,人工智能感稍微弱点。但在作图方面,她更喜欢用豆包,可以有尺寸、风格的选择。

出版行业从业者张清常用AI产品做翻译、整理类工作,豆包、Kimi、通义等工具给她的工作带来的很大的方便。

她的整体感受是,这几个产品做翻译类、整理类、搜索类工作都比较智能。

以翻译为例,将外语译成中文时,中短篇幅的文章能做到准确、语言通顺,也符合中国人的表达方式,但如果是长篇文章,能感受到是机翻。在中译英的时候,语法很准确,但是一个明显的问题是,AI不懂文化。

张清介绍,比如,中国人在邮件中寻求合作后,会问对方“意下如何,我们可以详细聊聊吗?”这在中文语境没啥毛病,就是一种礼貌的问询,对方可以回复也可以不回复。

但是AI会翻译成“What’s your opinion?  Can we have a detailed talk?”在英文邮件语境里就会有一种强迫回复的意思,在初期寻求合作会显得很不礼貌。

文化行业从业者张瑞提到的“救星”,则是文小言。

她的工作比较繁杂,除了本职业务之外,经常要写方案、活动总结、学习心得等。她苦恼的是,这类型“杂活”已经严重影响到了她的本职工作。

比如举行消防演习、交通安全讲座、体育节、艺术节、读书节等活动,她所在的机构要求他们活动前出策划方案,活动后出宣传文案,还要交学习心得,日常还要写工作故事、读书笔记等,忙的时候,她几乎每天都有要写的材料,苦不堪言。

她认为大模型最方便的地方在于,定了主题,系统会把该主题下有用的资料都整合好,附有出处,生产的内容也有一定的逻辑。如果是要求比较低的总结和汇报材料,可以直接用,即便是要求高一点的,在AI的基础上做一些修改,也比自己写省事多了,和网络资源的重合率也比较低。

在AI的辅助下,她经常不到半小时就能完成一篇文案。据她所知,年轻的同事们大多都用AI辅助工作,领导对此表示默许。

AI帮人提升了工作效率,但是这样的操作也有隐忧,璐璐最担心隐私泄露的问题。

她提到,为了让AI写出更符合要求的内容,有的时候需要告诉AI很多前提,比如自己的身份、要做什么事情……从旁观者视角看,循着和AI对话的轨迹,很容易勾勒出提问者的画像。“这是我比较担心的,毕竟我不想让同事和领导知道我用了AI完成某些工作。”

二、创业者的掘金工具

AI产品在C端帮打工人提升效率,在B端则为创业者带来真金白银。张格源是AI领域的创业者,他主做2B业务,为企业客户做AI数字营销和AI自动化解决方案。

据他介绍,AI数字营销的一项业务是数字人,“有几个客户在做创始人IP,我们通过数字人技术帮他生产大量内容;数字人还涉及到短剧出海,可以通过AI把短剧的声音、字幕、口型翻译成各种语言。”

AI数字营销的第二个业务是文生图。

他介绍,“我们所在的云南属于热门文旅目的地,年轻游客的很大一项需求是拍照打卡,我们通过AI写真能做出一些有意思的照片,AI写真也是我们客户可利用的营销工具。”

AI自动化解决方案是张格源为客户本地化部署的大模型一体机(硬件+大模型软件配套一体的设备),对客户来说,采购这样的一体机,数据资产在自己手里,信息安全有保障。在一体机上,大模型可以将原本的人工业务如公文写作、内容审核等自动完成。

张格源提到,开发这几项业务,用到的工具主要是字节跳动旗下的豆包大模型,以及一站式智能体开发平台Coze(扣子)。

具体来说,Coze有丰富的插件生态以及工作流生态,大量用户在上面开发了bot,“我们基于这些bot,开发了一些MVP(最小化可行产品)级别的产品,再在不同渠道分发,比如交付部署到我们客户的微信公众号、抖音上面去做服务。”

他提到,涉及视频内容时,运用到的AI能力有数字人、语音识别(ASR)、文本转语音(TTS)等。基于剪映、即梦等AI平台能力,可以实现文案生成、文生图、AI音乐、AI视频等内容。

另外,他们常用到的还有百度智能云,它可以根据文本内容,完成视频的自动剪辑画面、配音、字幕等,最终输出成品视频。

这些AI产品的使用,极大地降低了创业的技术门槛。在花费上,张格源透露,他们一年在火山引擎上支付token的费用大概是几万元。

不过,技术进步的另一面是,AI生成的内容也可能被人利用,做一些涉嫌犯罪的事。

前不久,“三只羊录音门”事件闹得沸沸扬扬,经相关部门调查后确认,网上流传的音视频为伪造,就是利用了AI声音克隆工具生成假音频,再用视频制作软件合成影像。而这一工具,原本是面向短视频制作者、景区导游解说、地铁语音播报等应用场景。

张格源提醒,AI生成的内容足以假乱真、瞒天过海,需要从业者们谨慎防范。

三、AI产品,困在哪儿?朝哪儿卷?

目前国内主要的AI应用,有百度(文小言)、字节跳动(豆包)、阿里(通义)、腾讯(元宝)等大厂的大模型产品,也有创业公司“AI六小龙”,业内公认的是月之暗面(Kimi)、零一万物(万知)、MiniMax(星野)、百川智能(百小应)、智谱AI(智谱清言)、阶跃星辰(跃问)六家。

「定焦One」和多位用户交流时,大家经常提到的产品包括豆包、文小言、Kimi等,结合近期“AI产品榜”发布的9月榜单,能更直观地看到哪些APP受到欢迎。

据“AI产品榜”统计,截至2024年9月,国内的AI应用已经有了1.2亿月活跃用户。其中,国内总榜月活(MAU)排名前五的应用分别是豆包、文小言、Kimi、天工AI、讯飞星火。

来源 / AI产品榜

在从业者眼中,市面上各家的AI产品表现各有千秋。

AI从业者致远分析,每款产品的优势都是背后的公司基因决定的,产品背靠的公司所能积累下来的数据,是AI能力的根本。

他解释,文小言依托百度的搜索资料库,在办公文档方面,比如整理资料、做汇报、写文案等工作,表现不错;

有阿里系庞大的电商客户的数据,通义千问更擅长电商优惠策略的设计、营销文案撰写,在电商策划运营方式、电商的SEO上辅助商家,另外,围绕电商体系,在生成图片、生成视频方面也更擅长;Kimi在C端用户使用体验上反响比较好,字节系的产品在B端更加丰富。

总结来看,目前应用AI比较多的行业,包括内容领域、智能客服、市场营销等。

另外,带有标准化SOP的一些场景,也会有大量的AI和自动化的能力加持。

张格源介绍,在农业领域AI也得到了应用,比如水果采摘以后,有企业做了智能检测的传送带,通过视觉AI去判断哪些水果是残次品,还有农业上的病虫害检测、鲜花的病虫害以及温湿度的监测都可以利用AI的能力。

10月份正好是高通骁龙旗舰芯片发布的时间,小米、vivo、OPPO、荣耀的旗舰手机也会随之发布,张格源预测,AI功能将会是手机厂商的重要抓手和卖点。

小米的人、车、家全生态可以基于小爱大模型实现智能化万物互联。OV等厂商也在手机端侧实现给用户的AI辅助功能,例如通话内容总结等。

接下来伴随着手机的AI能力,也许可以实现这样的场景:“我跟客户聊到要去深圳拜访,手机里就能生成明天要去深圳的待办事项,备注目标公司的地址,还可以调动OTA产品去找最合适的机票、酒店。”张格源认为,类似的AI能力,可能是下一步手机厂商的竞争方向。

资深AI领域从业者连诗路认为,大模型应用前景广阔,但企业在获客、留存、商业化,技术发展上面临诸多挑战。

他对比了豆包、Kimi、文小言、讯飞星火、腾讯元宝等产品的留存率后发现,用户下载之后的30日内,使用率大部分都低于1%。

而“AI产品榜”8月的数据显示,国内的AI应用,用户每个月平均只使用4.3天。连诗路认为,大语言模型有非常高的应用价值,只是目前的还没有做出杀手级的应用。

另外,今年以来,大模型企业因内卷而打起了价格战,商业化难题摆在了眼前。

最近几个月,字节、百度、阿里云、智谱AI等企业纷纷宣布降低大模型产品和服务的使用价格,不少大模型产品价格降幅达50%以上,有的产品价格降幅甚至超过90%。

连诗路估算,降价后1元钱大约可以买到200万字符,相当于5本《新华字典》的文字量。

有报道提到,今年5月以前,国内大模型推理算力毛利率高于60%,和国际同行基本一致,今年5月各大厂接连降价后,推测算力毛利率跌至负数。

关于“AI六小龙”,连诗路认为,它们受数据和算力限制,进一步拓展比较难。

不过,目前国内的AI发展产品增速和技术创新有减缓,但是产品形态和应用比较丰富和开放,AI的未来仍然可期。

他提到,AIGC上半场是算法工程人员引领团队做数据清洗、数据集、预训练、调优、做基础模型,下半场是要挖掘AIGC的应用场景。AIGC的杀手级应用不再局限于手机、智能家居、智能汽车某一类,而是可以和万物互联,他预测AIGC杀手级应用将在2026年前展现于市场。

 

*应受访者要求,文中璐璐、张清、张瑞、致远为化名。

独家信息:关于 o1 的 20 个真相

aigc阅读(36)

Q: o1 的训练方法与之前的模型有何主要区别?

A: o1 采用了大规模强化学习算法进行训练,这种方法教会模型如何高效地利用思维链进行生产性思考。与简单的提示不同,强化学习让模型学会了如何更有效地推理和解决问题。

Q: o1 的”思考”过程与简单的提示有何不同?

A: o1 的思考过程更长,质量更高,并且表现出了一些新兴行为:

  • 错误纠正:能够识别并修正自己的错误
  • 尝试多种策略:不局限于单一方法,会尝试不同的解决途径
  • 问题分解:将复杂问题分解成更小、更易处理的子问题 这些特性使 o1 的推理能力远超简单提示所能达到的水平。

Q: 为什么 o1 在推理任务上比之前的模型更强大?

A: o1 能够在回应用户之前产生一个很长的内部思维链。这允许它:

  • 处理更复杂的问题
  • 随着思考时间的增加而提高性能
  • 进行更深入、更全面的分析
  • 模拟人类的思考过程,包括探索、验证和修正

这种能力让 o1 可以处理之前模型难以应对的复杂推理任务。

Q: o1 如何处理安全性问题?

A: o1 使用推理能力来理解安全政策的细微差别:

  • 不仅遵循政策的字面意思,还理解其精神实质
  • 能够在复杂情况下做出更细致的判断
  • 可以解释为什么某些内容可能不安全或不适当
  • 在保持安全的同时,尽可能地提供有用信息 这种方法使 o1 在处理敏感话题时更加灵活和智能。

Q: o1 在数学和编程任务上有哪些具体的改进?

A: o1 在这些领域取得了显著进步:

  • AIME(美国数学邀请赛):准确率从 13%提升到 83%
  • Codeforces(编程竞赛平台):从第 11 百分位提升到第 89 百分位
  • 国际信息学奥林匹克竞赛(IOI):达到参赛者中的第 49 百分位

在多个研究生水平的 STEM 测试中表现优异 这些进步展示了 o1 在处理高难度数学和编程问题时的卓越能力。

Q: o1 Mini 与完整版 o1 模型相比如何?

A: o1 Mini 是一个更小、更快、更便宜的模型:

  • 成本比 o1 Preview 低 80%
  • 在 STEM 领域的任务上表现接近完整版 o1
  • 专门针对复杂 STEM 推理任务进行了优化
  • 在通用聊天机器人评估中排名第三,超过了许多其他模型

尽管规模较小,o1 Mini 在许多任务上仍能保持高水平的性能。

Q: o1 是否只擅长数学和 STEM 任务?

A: 不,o1 在多个领域都有显著改进:

  • 法律:在 LSAT(法学院入学考试)上取得高分
  • 通用查询:在通用聊天机器人评估中表现优异
  • 创造性问题解决:能够处理开放性和创新性任务
  • AP 考试:在多个学科的高级课程考试中表现出色
  • 捕获旗帜竞赛:展示了在复杂环境中的适应性和创新性 这表明 o1 是一个全面的模型,不仅限于 STEM 领域。

Q: 给予 o1 更多时间如何增强其推理能力?

A: o1 利用额外时间的方式类似于人类:

  • 探索更多选项:考虑多种可能的解决方案
  • 验证想法:检查每个想法是否合理
  • 尝试不同方法:如果一种方法不奏效,会转向其他方法
  • 深入分析:对问题进行更深入的思考和分析
  • 错误修正:识别并纠正早期的错误或误解
  • 问题分解:将复杂问题分解为更容易管理的部分 这种方法允许 o1 在复杂任务上随着思考时间的增加而提高性能。

Q: o1 如何决定在给定问题上花费多少时间进行推理?

A: 目前,这主要由模型自行决定,但未来可能会有改进:

  • 用户可调参数:允许用户指定所需的思考时间
  • 自适应决策:模型根据问题的难度自动决定所需时间
  • 任务相关性:根据任务类型调整思考时间
  • 实时反馈:根据初步结果动态调整思考时间 研究人员正在探索如何优化这一过程,以在效率和性能之间取得平衡。

Q: 当前 o1 思考时间的瓶颈是否由上下文长度决定?

A: 思考时间的限制涉及多个因素,不仅仅是上下文长度:

  • 训练效率:长时间推理的训练过程非常耗时
  • 计算资源:延长思考时间需要更多的计算能力
  • 内存限制:存储长链思维需要大量内存
  • 算法优化:需要更高效的算法来处理长时间推理
  • 实用性考虑:平衡推理时间和实际应用需求 研究人员正在多个方面努力,以延长模型的有效思考时间。

Q: o1 在更抽象、创造性领域的表现如何?

A: 目前 o1 在创造性领域的表现不如 STEM 领域突出:

  • 创意写作:能力有限,但正在改进
  • 艺术创作:尚未达到专业水平
  • 音乐创作:仍在探索阶段
  • 抽象推理:在某些任务上表现良好,但仍有提升空间

改进这些领域的能力是未来开发的重点之一。研究人员正在探索如何将 o1 的强大推理能力应用于更具创造性的任务。

Q: o1 的改进是否仅仅由训练数据的变化导致的?

A: 不是,o1 的改进主要来自新的算法和训练方法:

  • 强化学习算法:教会模型如何有效推理
  • 思维链训练:优化长链思考过程
  • 多步骤问题解决:提高处理复杂任务的能力
  • 自我纠错机制:增强模型的自我改进能力
  • 目标导向训练:针对特定任务进行优化 虽然高质量数据仍然重要,但 o1 的核心优势来自其独特的训练方法和算法设计。

Q: 科学家如何帮助构建用于科学发现的 AGI?

A: 科学家可以通过多种方式贡献:

  • 创建基准测试:开发评估 AI 在特定科学领域能力的标准
  • 构建数据集:提供高质量、专业的科学数据集
  • 工具可访问性:使科学工具和软件更易于 AI 使用
  • 跨学科合作:促进 AI 研究者和各领域科学家的合作
  • 定义挑战:提出 AI 需要解决的关键科学问题
  • 验证方法:帮助开发验证 AI 科学发现的方法 这种合作可以加速 AI 在科学研究中的应用和发展。

Q: o1 是否表现出意识或自我意识的特征?

A: 这些概念很难定义和测量,但研究人员认为:

AI 模型的内部工作原理比人脑更容易研究

需要开发新的方法来定义和测量 AI 中的意识

目前还没有确凿证据表明 o1 具有真正的意识

研究人员正在探索如何评估 AI 的自我意识

这个领域仍然存在很多哲学和科学争议 未来几年可能会在理解 AI 模型的内部状态方面取得重大进展。

Q: o1 的推理时间和质量之间是否存在线性关系?

A: 关系不是完全线性的,更接近对数尺度:

  • 初期:推理时间增加带来显著改善
  • 中期:改善速度放缓,但仍有明显进步
  • 后期:进步变得更加缓慢,但仍在持续
  • 极限:存在理论上的性能上限

任务相关:不同任务的曲线可能有所不同 具体关系可以在 OpenAI 的博客文章中找到详细图表。

Q: 在开发 o1 时,研究人员的第一个”啊哈时刻”是什么?

A: 没有单一的”啊哈时刻”,而是一系列渐进的改进:

  • 模型性能的持续提升
  • 观察到模型变得更加自信
  • 模型开始进行额外的验证步骤
  • 思维链与人类内心独白的相似性

模型展示出创新性问题解决能力 这些进展让研究人员逐渐认识到 o1 的潜力和独特性。

Q: o1 如何处理工具使用以进行自我验证或理智检查?

A: 工具使用功能正在开发中:

  • 代码解释器:允许模型运行和测试代码
  • 网络浏览:使模型能够访问最新信息
  • 自我验证:开发模型自我检查结果的能力
  • 外部工具集成:计划与各种专业工具集成 这些功能将显著增强 o1 的自我验证和问题解决能力。

Q: o1 如何处理更主观任务中的文化背景?

A: o1 通过以下方式将主观问题转化为更客观的问题:

  • 定义成功标准:基于人类反应或认可
  • 文化相关性分析:考虑不同文化背景的影响
  • 多角度评估:从不同视角分析问题
  • 历史背景考虑:将问题放在历史背景中评估
  • 专家意见模拟:模拟相关领域专家的判断 这种方法使 o1 能够更好地处理涉及文化和主观因素的任务。

Q: o1 Mini 如何在更小更便宜的同时实现其性能?

A: o1 Mini 通过以下方式实现高性能:

  • STEM 任务优化:专门针对 STEM 推理任务进行优化
  • 优先处理推理数据:在预训练中优先考虑推理相关数据
  • 高计算强化学习:经过与完整版 o1 相同的高强度训练过程
  • 专注于核心能力:集中于最关键的推理能力
  • 效率优化:在模型设计中注重计算效率 这种方法使 o1 Mini 能在保持较小规模的同时,在特定任务上达到接近完整版 o1 的性能。

Q: 改进 o1 和 o1 Mini 的下一步计划是什么?

A: 未来的改进计划包括:

  • 更好的指令遵循能力:提高对复杂指令的理解和执行
  • 函数调用:增强与外部系统和 API 的交互能力
  • 开发者消息:改进与开发者的沟通和反馈机制
  • 结构化输出:提供更规范、易于处理的输出格式
  • 多模态能力:整合图像、音频等多种输入模式
  • 增强世界知识:扩展模型的知识库,提高通用理解能力
  • 安全性提升:进一步加强模型的安全性和可靠性
  • 推理时间优化:探索如何更有效地利用长时间推理
  • 创造性任务改进:提高在艺术和创意领域的表现 这些改进将使 o1 和 o1 Mini 在未来变得更加强大和多功能

像用实习生一样用 AI 辅助你编程

aigc阅读(36)

我是不敢让 ai 帮我写程序的,每回问它的问题,十次倒有八次是错的,问完之后还要自己去网上搜一遍,然后反复测试,才敢写进代码。不知道大家怎么甩手给它的。
——响马

响马毫无疑问是编程高手,几十年的开发经验,另外他写的代码都属于一些底层代码,被训练过的比例极少,AI 大概率写不出来高质量代码,不放心让 AI 帮忙写程序正常。但对于普通程序员来说,不一定要像响马那样,拒绝 AI 的帮助。

比如我就是个普通程序员,写的都是一些简单的前端 UI 代码,或者后端增删改查代码,并没有太高技术含量,就经常让 AI 给我帮忙,还是让我效率提升不少的。我总结下来经验就是:像用实习生一样用 AI 辅助你编程。

在科技公司或者开发团队经常能看到这样的场景:某些资深程序员,写代码特别牛,效率特别高,但是很多活都压在他们身上,成为了团队瓶颈,于是老板说,这样不行,给你几个实习生或者新手程序员帮你分担一些吧。

大多数时候这种提议是被拒绝的,倒不是他们藏私不愿意带人,而是在他们看来,把活交给实习生,一个简单的任务都要花几天时间,自己一小时就做完了,中间还要沟通,做完质量不行还要帮忙擦屁股,花的时间超过自己写的时间,一点都不合算,另可自己做。

这些确实是事实,但是可能忽略了一些问题:

  1. 实习生是会成长的,很多事情教了一遍就不需要再教第二遍了。
  2. 再复杂的程序也是有些“体力活”的,比如说搭个脚手架,新增个模块,简单的重命名/重构,等等。对于资深程序员来说,老是干体力活会倦怠的,但是对实习生来说正好是一个学习的好机会。
  3. 能从实习生身上学习到新的东西。当我们对一门技术太熟悉,会有路径的依赖,不太容易发现或者接受新的技术,同样的任务让实习生做,虽然大多数时候不如你做的,但是也会有眼前一亮的时候,能学到一点新的东西或者开阔一下眼界:原来还可以这样!
  4. 如果你的任务不能交给实习生做,也许架构上存在一些不足,无法合理的将功能拆分。有些程序员的活不能拆分出来,一个原因可能是架构还不够好,模块都在一起,无法拆分。当然即使拆分后肯定还是有些复杂模块是无法进一步拆分的,这不在此列。

我在带实习生上有一些经验,所以在使用 Cursor 或者 GitHub Copilot 的时候,就是把 AI 当成一个实习生用,效果是很好的。

01 首先体力活都交给 AI 来做

体力活指的是那种重复的、要求不高的、繁琐的工作。比如说:

  • 新建一个页面、一个 API
  • 一个数据库增删改查的模块
  • 单元测试

这些活说难也不难,但是自己写有点麻烦,所以我每次都是 Cursor 里面用 CMD+i 唤出 Composer,把相关代码文件都添加上作为上下文,然后提出要求,一个初始的功能就有了。

比如我要为自己的博客网站增加一个 Sitemap 的功能,我当然可以自己写,但光文件都得创建好几个,还得写一些基本的读取数据库和输出 Sitemap 代码,甚至我还得去查询一下 Sitemap 规范。正因为如此,所以我一直懒得加上这功能。

很快就帮我把相关文件都创建好了,虽然说 robots.txt 都给我做成动态的有点业余,但是也还好,至少我知道了内容应该是什么,懒一点就让它重新生成个静态文件,勤快一点就手动创建一个。剩下的就是调试一下,没什么问题就可以发布了。

理论上基于这个结果,还可以一直提要求,知道满意为止,或者差不多了自己接管手动修改一下。

我个人是觉得,让 AI 帮忙先实现一个基本的模块,意义不仅仅在于减少了体力活,而是帮你开了个头!万事开头难,很多时候真的就是因为没有一个开头就没继续,当有个初始的结果,哪怕烂一点,再基于它上面修改要简单很多,更容易交付。

02 给“实习生”一个葫芦,让他们学着画瓢

对于实习生来说,稍微复杂一点任务很难从无到有做出来,但是如果给他们一个已经做好的模块作为参考,照着葫芦画瓢,那么也能做个差不离。

让 AI 帮你编程也是一样的,你不能指望 AI 能像你一样厉害懂你的代码库,但是你可以教它,把一个类似的实现代码给它参考,甚至于写一段伪代码让它实现。

就拿前面 sitemap 的例子,添加到上下文的 feed.xml/route.ts 就是“葫芦”,有了这个“葫芦”,它去“画瓢”就容易多了,它可以从中去学习最佳实践是什么。

03 设计架构和技术选型的时候,选“实习生”熟悉容易上手的技术

技术选型是一个让人纠结的事情,需要各种考量,现在更是多了一个维度,就是要考虑把 AI 当成你的团队成员,想让 AI 能更好的帮你干活,那么就少造一些轮子,少用一些偏僻的框架或类库,用那种最流行的,训练语料最多的框架和库。

比如我在给自己搭建博客的时候,选的 Nextjs、Tailwindcss、ShadcnUI、D1(Sqlite),这些都是相当流行和容易上手的框架和库,所以我让 AI 帮我实现一个 Sitemap,它能知道在什么创建文件,遵循什么规范,写 UI 也知道如何帮我添加正确的 CSS。

04 将复杂任务分解成简单的任务,让“实习生”帮你完成小的模块

资深程序员和新手程序员的一个分界,就是能不能将复杂模块拆分成简单的小模块。比如我要搭建一个自己的博客网站,就 AI 现在的能力,是没办法自动完成这样一个项目,但是我可以让它帮我创建一个页面,帮我实现一个数据库读写的功能模块,帮我基于数据库读写模块实现一个 API,而我自己,则可以聚焦于数据库的表设计、系统的架构设计、UI 设计这些事情上。

05 向“实习生”学习

现在在实现功能的时候,哪怕我比较熟悉的,我会习惯性问一下 AI,让它帮我生成一段代码,虽然大多数时候它不一定比我写的更好,甚至是错误的,但有时候它能提出一种全新的我没考虑过的思路,那我就能从中学习到点什么,以后可能就用的上了。

就像大数学家陶哲轩,也在用 AI 帮忙解决数学问题,并非 AI 数学比他厉害,而是给他提供了不一样的思路。

我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。
——陶哲轩

06 对“实习生”产出的结果要验证

既然 AI 只是一个实习生,那么就说明它生成的代码是靠不住的,哪怕看起来很好,总是要像对待实习生一样,去对代码做审查,理解它实现的思路,对结果进行测试验证,出现问题让 AI 改进或者手动修复。

如果有人去责怪产品的问题是因为 AI 生成的质量不行,那只能说明是在甩锅,就像你生产环境的故障不能怪这是实习生写的,难道你们不做 Code Review,不做 QA 的吗?

07 最后

这是我在日常使用 AI 辅助编程的一点经验分享。如果你把 AI 当成一个资深程序员,那么你大概是要失望的,但是如果你把 AI 当作一个实习生,它真的可以做不少事情,让你提升编程效率。

另外一些现在 AI 还不能完全替代专业程序员的地方:

  • 基于业务需求进行抽象和架构设计的能力
  • 对复杂问题进行分解和统筹规划的能力
  • 出现问题定位和调试的能力
  • 当然还有出问题背锅的能力

欢迎分享你的经验!

Pika 1.5重磅升级!万物皆可爆炸,搞笑特效全网病毒式疯传

aigc阅读(44)

时隔多月,斯坦福华人团队创办的 Pika 终于官宣 —— 新一代AI视频模型来了。

刚一上线,全新的特效功能就让全体网友玩疯了!

喊着「臣妾做不到啊」的皇后、深情对视的四郎和嬛嬛,忽然被挤瘪。

脸上洋溢着神秘微笑的蒙娜丽莎,开始融化。

表情包里的网红小猫,猝不及防就被捏了。

01 专业能力大提升

这次最直观的升级,就是Pika 1.5在专业领域上达到了全新的高度——图生视频(I2V)和文生视频(T2V)的质量更高,表现力更强。

可以看到,Pika 1.5的一个明显提升,就是画质更加细腻、更加逼真了。

房屋坍塌的画面中,建筑倒塌的各部分都十分符合物理规律,逼真的画质已经达到了大片级别。

冰川上的男子无论是脸上的表情、纹路,还是胡须中的冰块,都完全还原了现实中的画质。

02 超强运镜

在运镜方面,通过诸如快速变焦、快速平移、摇臂镜头和「子弹时间」的简单提示,用户就能快速实现专业的拍摄效果。

要生成具有大片质感的战争场面,只需要短短30字左右的提示词,经典的「子弹时间」镜头也能轻松拿捏。

镜头从远处快速拉近时,也能流畅变焦,观感非常自然。

03 动作更稳定和流畅

不仅如此,Pika 1.5表现的人物动作,也更加稳定和流畅。

这位墨镜大哥抬手比心的动作,全程流畅得看不出破绽。

毛球小怪兽抬脚走过车站的场景,自然得仿佛它真的出自现实世界。

04 全新特效Pikaffects,让全网疯狂

Pika 1.5这次的模型不仅有更好的运镜和动作,还有超强的物理模拟能力。

与模型同时推出的,是全新物理特效「Pikaffects」—— 任何物体都能被压碎、融化、膨胀、爆炸,甚至还能变成蛋糕被一刀切开。

这么有趣的功能,也太适合解压、太网感、太适合做表情包了吧。

果然,Pikaffects一经发布,就被全网网友玩疯了,很多画面直接形成了病毒式传播!

Twitter创作者 Bilawal Sidhu 表示,Pika 1.5相当疯狂。

当我说GenAI会让我们编辑现实时,我并没有想到会是这样……

Pika1.5一经发布,已经被全网种草了。

由于太过火爆,Pika服务器处于崩溃边缘

你是否曾经想过一掌拍碎面前的电脑?或者让它直接爆炸?

看到图片中可爱的喵星人,谁不想把手伸到屏幕里捏一捏?

这些现实中无法完成的效果,Pikaffects现在的可以帮你实现了。

一个马桶,可以被压扁、融化、被切开、爆炸、挤压、膨胀……

相比先前视频模型中明显违反物理规律的破绽,Pikaffects在各种脑洞大开的操作中。还能让人感觉直觉上可行,在「想象力」和「现实感」之间做到了极好的平衡。

05 牛顿的棺材板,这次压住了

为什么说,特效功能Pikaffects代表着AI视频领域的一个亮眼进展?

以往,很多视频生成模型被诟病最多的,就是「不符合物理规律」,牛顿的棺材板天天压不住。

而Pika团队本次训出的模型,似乎对物体的材质、空间位置关系和语义内涵都有了更好的理解,生成的运动轨迹也更为合理。

基于这种更准确的「物理模型」,Pika 1.5脑洞大开,在产品创新上着实向前迈进了一大步。

现在,Pikaffects已经直接开放体验了。点击几下就能生成大片级别的「超现实」场面,快来试试吧!

传送门:https://pika.art/home

1. 有趣的灵魂万里挑一

正如Pika团队所说,「AI视频不只是用来制作电影级大片,还应该让所有人都能生成有趣的视频」。

有趣的脑洞、想象力大开的画面,跟互联网的基因,以及AI视频的属性,简直天然契合。

如今,整个互联网流量的82%,已经被视频占据,AI对视频的影响已经不容忽视,或许会如同AI在文本领域的变革一样深渊。

成立仅一年即筹集1.35亿美元的Pika,此次又为行业树立了新的标杆——搞笑和有趣,就是AI产品的新方向。

2. 小白0门槛上手,生成无需抽卡

相比于那些需要绞尽脑汁才能做出来的AI大片,Pikaffects的操作可以说是完全没有门槛。

只需上传一张图片,并选择想要的特效,就能得到想要的结果了。

小编立马尝试了一下。

第一步,从手机相册上传照片。

第二步,选择effect。

然后拿起咖啡,等上一会儿……视频就搞定了!

或者,都不用上传图片。

直接选个特效,Pika就会随机一张图片,并生成相应的效果。

值得一提的是,用Pikaffects生成视频,你甚至都不需要抽卡,物理特效几乎100% work。

也就是说,对AI工具完全不了解的小白,也能定制属于自己的特效视频。

从此,聊天再也不缺表情包!

06 2.0何时发布?

从1.0到1.5,Pika每次更新都为我们带来了惊喜连连的体验。

这次,Pika1.5强大表现,让我们不禁对下一代版本2.0更新充满期待。

虽然目前还不知2.0版本具体发布时间(预计是明年3月),但可以肯定的是,它将必定再次刷新我们对AI视频的全新认知!

参考资料:

https://x.com/pika_labs/status/1841143349576941863

https://x.com/pika_labs/status/1841236385052967351

https://x.com/pika_labs/status/1841239427852747202

马斯克:Sora 一出,人类呜呼

aigc阅读(49)

早些时候,当 OpenAI 放出 AI 文生视频模型 Sora 的几条作品时。

马斯克随即在 X 上(原 Twitter )上表示:『 gg humans / 人类呜呼 』。

“gg”是网络游戏用语“good games”的缩写,主要用于游戏结束后,输赢双方都可以用,一般是「打的好,我认输」的意思。

要说人类马上玩完了,目前来看似乎还有些遥远和牵强,但 AI 的文生视频能力对于短视频创作者的的确确会产生实质性的影响。

来,当你看到下面这段视频时,是否会忍不住惊讶的感叹到:

AI 让唐僧和女儿国国王终成眷属

『瓦特,这不会是真的吧?』

当然,这是『真的』。

不过,真的,是用 AI 生成的(/笑哭)。

这条作品在整个剪辑过程中,任何所谓短视频的『技巧』都没有,只是通过 AI 工具的 图生视频的能力,仅此而已。

奏是这么简单。

这也是 AI 创作对平台的内容生态带来的实质性的改变和震撼。

那么,未来 AI 创作又将对内容创作者或个体产生哪些不可预知的影响呢?

AI 能力的迭代速度惊人

一、降低创作门槛,提升创作效率

是的,比以往任何时间拍摄素材都要简单、高效。

简单到仅需 一 句 话 即可,就能 快 速 生成一段足以 以假乱真 的视频,甚至连剪辑都节省了(如果生成的内容令你满意的话)。

如果你不满意,就能立即马上再让 AI 重新生成另一条新的甚至不同风格的作品。

BTW,最重要的是, AI 不会附带任何情绪去对待你的无数看似无理的需求(打工人想必你肯定经历过修改产品方案时,但凡超过 3 次,你就会产生去拿工位的砍刀的冲动)。

而在这之前,拍摄一天时间能会收集几十条素材,接下来再花两天时间剪辑,可能最终只能生成一条正式作品。

现在,理论上,你可以在一天之内任意生成多到任意你需要的任意素材,且没有摄影团队的成本、没有出差的时间成本、没有衣服、食物的商品成本。

只需动动手指,敲出描述提示词,即可。

这意味着 AI 在降低创作门槛的同时,将大大大大大幅提升用户的创作效率。

是的。

我从来没有见过能如此高效且如此低成本并产出如此优质和有竞争力的内容的方式和手段。

二、迸发更多创新和创意

爱因斯坦曾经说过:『想象力比知识更重要』。

没错,想象力。

准确的说,唯二可以阻挡你任意生成多到任意你需要的任意素材的除了上面提到的电脑死机,第二个就是你的 想象力 的枯竭。

借助文生视频 AI 工具,将给短视频创作以及内容生态甚至世界带来更多的可能性、创新性、多彩性。

一切你能想象到以及由于当下的限制条件无法实现和拍摄出来的场景或特效,甚至无法想象的,都有机会化做现实并跃然屏幕上。

这意味着任何人,任何时间,任何地点,都能通过 AI 创作工具,实现任何具有想象力的内容创意(尤其对于每一个可能存在内容创作的瓶颈博主而言)。

三、更多低质同质化作品

只要刷到爆款作品,马上就能通过 AI 工具,短短几分钟内实现 1:1 复刻,瓜分本来属于他的泼天宝贵流量。

这意味着,作品的同质化将达到一个前所未有的新高度。

这当然不是平台愿意看到的,如果类似的【低质同质化作品】充斥在平台的内容生态内,对于平台而言当然是必须不可被接受的。

且看各大平台现在对『数字人直播间』的态度,甚至已经无差别的封杀低质量数字人直播间。

BTW,那波搞数字人招商代理的微商们,倒是赚的盆满钵满。

四、内容创作更卷了

创作效率又高,一分钟一条;

创作成本又低,仅需一句话;

创作者不受限,长个嘴就行;

都将倒逼内容创作者再一次卷出新高度。

再加上用户在短视频的的近几年的洗礼下,对于内容所能提供的情绪价值的阈值越来越高。

内容创作者如想要规避内卷,通过 AI 作品脱颖而出,必须也只能不断拼创新、拼创意。

才得能在数以万倍增加的内容供给池中去争夺趋近饱和的用户的宝贵注意力。

正如潘乱老师所言:

在抖音中,内容链条的链主是算法加持的分发,由分发来激励上游的内容制作。 但未来在 AI 的视频里,内容链条的链主重新变回内容,由内容创作的本身来重新塑造内容的分发和消费。

I can’t agree more.

五、创作门槛更高了

是的,我没有写错。

没有门槛,就意味着门槛被无限拔高了。

这就好比,你老觉得做网红没门槛,是个人都可以。

简单到,连话都不用会说,连字都不用会写,连交流都不用会懂。

但,你,成为网红了吗?

SO,我想问一下:

AI 内容的创作,至关重要的核心是什么?

对,是 Prompt ,是 提示词,是那道开启魔法大门的 咒语。

But,看似简单的一句或一段 Prompt,并不仅仅是一句或一段 Prompt 而已。

作为『造物主』(请允许我在这里,未经许可的称呼 AI 文生视频的创作者),你必须对要将要生成的目标作品有异常清醒的思考和认知,大到架构、风格、小到细节里隐藏的彩蛋等等。

事实上这意味着,你可能是集编剧、导演、演员、场务、后期剪辑等等于一体的顶级操盘手。

来看下 Sora 官方给出的 Case 里的 Prompt 是如何描述的:

一个小的、圆的、毛茸茸的、长着一双富有表情的大眼睛的动物的3d动画探索了一个充满活力的魔法森林。这种动物是兔子和松鼠的异想天开的混合体,有着柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃,惊奇地睁大了眼睛。森林里充满了神奇的元素:发光和变色的花朵,紫色和银色叶子的树木,以及像萤火虫一样的小浮动灯。这只生物停下来和一群在蘑菇圈周围跳舞的小仙女嬉戏。这只生物敬畏地仰望着一棵巨大的、发光的树,这棵树似乎是森林的中心。

几只巨大的长毛猛犸象穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻拂,远处白雪覆盖的树木和戏剧性的雪山,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视角是惊人的,捕捉到了美丽的摄影,景深的大型毛茸茸的哺乳动物。

动画场景特写了一个毛茸茸的矮个子怪物跪在融化的红烛旁。美术风格是3D和现实的,重点是照明和纹理。这幅画的气氛是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。

华丽的词藻、精准的描述、独特的视角、多样的修辞手法。

相信我,并不是所有人,都有如此丰富的文化内涵并同时能对自己到底想要什么有着如此清晰的认知和思考,并致力于产出如此引人入胜的作品。

不仅如此,由于 AI 创作工具的稳定性和可控性的缺失,对于生成的内容作品中的细节部分还原度不够充分甚至出现不明所以的 bug,这意味你还需要一遍又一遍的思考如何对 Prompt 进行调整和试错。

三条腿的舞者 badcase

可是,我们大多数普通人,很多时候压根就不能清晰且准确的表达自己的诉求。

就好比搜索引擎,面对一个空白的搜索框,明明可以搜索出任何内容,但他们就是不知道如何使用,偏偏在微信群里问来问去。

举个例子:

你告诉 AI :生成一段猫咪在走秀的视频。

但你自己脑海中的真实影像可能要复杂的多,有更多的潜台词根本没有描述到位:

一只黄色的猫咪,全身像,拟人化行走,动态姿态,系着围巾,时尚T台,猫咪身穿时尚蓝色长款风衣,手拿包包,香奈儿风格,巴黎时装秀,华丽的灯光,背景虚化的观众,真实摄影。

U see see,这门槛不可谓不高的吧。

BTW,这也是生活中我们日常沟通时发生冲突的问题所在(总以为自己所表达的很清楚了,对方怎么就 get 不到我的点?)。

六、高门槛会阻碍 AI 的普及和发展

当然,是的。

前段时间,红衣公开课上也重点提到:『复杂的提示词是用户使用大模型最大的障碍』。

没错,我们的用户,只想、只会、也仅擅长使用和沉迷『无需动脑子』的东西。

一个无需思考,无需搜索,无论男女老少,老弱病残,牛马,高知,哪怕是个 3 岁小孩,都只仅仅需要『上滑』,这一个简单到令人发止的交互动作,即可毫无压力的愉悦身心。

你知道我刚才在指什么(平台/内容)。

是的,某种程度上,一款产品或工具,如果它有一定的使用门槛亦或学习成本,就意味着,用户会远离它。

有媒体报道,目前中国所有 AI 原生应用加在一起,日活在 1000 万量级,这和短视频的 7 亿日活以及人均 125 分钟的日均使用时长相比,有些许相形见绌、无地自容。

七、造假,更简单了?

如果说『千万粉丝博主猫一杯在巴黎捡到作业本造假事件』还让人觉得的是互联上的大部分短视频是剧本的话,那么未来在 AI 的加持下,所有的视频不光剧情是假的,连出镜的博主,哪怕镜头里晃了一下的小猫咪都将会是假的。

图片源自网络

因为,这一切的背后可以简单到只是一句话亦或一张图片。

一张照片变身马斯克(上下左右毫无瑕疵):

这意味着,当你再浏览图文亦或短视频作品时,哪怕任意一条。都有必要去质疑一下:

这 不 是 真 的 !

这是 AI 生成的!

虽然这么做有些许极端,但我依然强烈建议你这样做。

八、搞钱,更容易了?

或许你应该还记得,曾经国内唯一有资格与 OpenAI 的 CEO Sam Altman 平起平座,且要给每一个中国人最后 6 个一夜爆富的梦想和机会的清华美院博士:

我管你们美帝的互联网强大是靠科技、靠 AI 、还是靠创新,我们的互联网创新一直稳定的可怕。

没错,这次,我们的 AI 依然要靠知识博主们来实现全民赋能。

当然,这不能全然怪这知识博主。

存在即合理嘛。

没有广大的群众基础,一个巴掌也拍不响。

毕竟,在这个硕大的内容生态中,最受欢迎的,最火的,最爆款的绝对不会是谈 AI 涉及的机器学习、神经网络算法,而是如何通过 AI 实现年入百万。

也不会是讲经济学原理,而是简单粗暴的诉说麻木不仁的富人如何压迫可怜又善良的穷人。

更不会是讲深奥的物理学定律,而是一边 BGM 情绪拉满,一边对着镜头口吐芬芳:

『千万别学英语,这样会让资本主义国家更强大』。

不过,不过,不过。

在另一个层面上,割韭菜的 AI 博主也不全是一无是处。

你不得不承认,恰恰是这些搞 AI 的知识博主,带来了更多 AI 科技内容、知识在大众层面的快速普及。

当微商兴起时,他们是微商主理人。

当短视频爆发时,他们又变身短视频引领者。

当私域如火如荼时,他们又化身私域变现第一人。

当数字人刚有苗头时,他们号称数字人落地闭环教父。

现在,当 AI 正热时,他们又摇身一变为企业 AI 赋能专家。

你渴望改变命运吗?

来,家人们,最后 6 个如何通过 AI 年入百万的机会,把 666 打在公屏上,上车。

九、英语,还用学吗

不管你承认与否,这都是既定事实。

尤其在这个『相对空前开放』的世界里,得学。

以互联网和 AI 领域为例,绝大部分重要的、深度的、有突破性研究成果的文献、论文,以及 Github 上开源的代码,英文内容的形态都相对丰富。

亦或哪怕你作为一个 C 端用户,与更多 AI 工具更丝滑的交互,以获得相对更高质量的作品和内容,也不是什么损失。

Midjourney 可进行如放大、变换风格等连续的复杂的多轮的对话

BTW,我不太清楚为什么最近几年内有些群体一直叫嚣着让禁止学习英语是出于什么不可告人的目的(不排除是怕你不乐意接受一辈子只能当牛马的命运),而且还能在获得巨大共鸣。

但不用英语在当下某种程度上又是一种趋势,甚至连街边的路牌都从英文换成了外国人看不懂,中国人也不看的拼音,美其明曰:文化自信。

一切是为,别人问你 sin90 度等于多少时,你可以面露不屑的回怼:

会英语有什么了不起啊?

十、未来,已来

上个月,麦当劳日本在 X(原 Twitter)上发布了一条 AI 生成的薯条广告。

连马斯克看完都直呼内行:

十一、试问 AI 未来能否最终取代 4A 公司?

我们不要神化 AI 创作工具所带来的颠覆,但也不能小看 AI 创作工具带来的创新和价值。

Prompt:一直长着翅膀的老虎在空中飞翔,杂志式摄影,用 200mm 镜头拍摄,逼真,细节丰富。

是的,无论你我是否有机会从事或参与 AI 相关的工作,你我都要时刻对 AI 可能为这个世界带来的变革和影响保持持续且密切的关注。

北京时间 6 月 19 日凌晨,英伟达市值 3.34 万亿美元,成为全球市值最高的公司(截止发文时,已回落至 3 万亿美元左右,排名在 Apple 和微软之后)。

任何生产力工具本身并没有主观意识,能发挥多大的价值,也取决于驾驭者本身。

这所有的一切。

It’s All depends on u.

AI,将带来新一轮的技术平权

aigc阅读(45)

移动互联网等技术创新,让人们享受到了很多过去无法获得的高成本服务。比如,有了Uber,就相当于每个人都有了专职司机,随叫随到。类似的例子,还有在线教育、在线医疗等等。

这样的故事也发生在硬件领域。比如,现在智能电视的价格,只有10年前的几分之一。

以前,我们用的翻盖手机,只能拍出模糊的照片。而现在,我们甚至能用手机拍摄整部故事片。

根据《惊变28年后》导演介绍,他的新片《惊变28年后》完全用iPhone拍摄——这是迄今为止用iPhone拍摄的最长的电影。

简单来说,你口袋里的手机甚至能拍出一部耗资7500万美元的电影。

朱迪·科默 (Jodie Comer) 在《28 年后》片场,最右边是iPhone 15 Pro Max相机装置

技术进步让以前过去获得商品和服务变得触手可及。这样的故事也将发生在AI领域。但不同的是,AI是通过降低服务对人的需求来实现这一切。

01 新一轮技术平权的逻辑

在AI时代,新服务延伸的公式是:

以高昂人力成本为主的服务+人工智能=更便携、成本更低的AI服务。

让我们重新回顾一下这张图表,它是《数字原生代》中引用最多的图表之一。它追踪了 25 年来消费品和服务的价格变化:

正如我们上面所看到的,电视等产品位于图表底部,获取成本最低。但在表格的上面,全部都是那些需要人来完成的服务。而这些服务会在AI时代被彻底颠覆。

下面,我将结合一些具体工作展开说明。

02 教师

在7月的《人工智能将如何改变教育》中,我们研究了学生与教师的比例随时间的变化趋势。

随着教师成本上升,美国的师生比例一直在下降。

现在,每个老师需要负责15名学生。

当然,这里头也有不同。

比如,那些收入比较差的学校,老师人数就更少,每个老师就需要带更多的学生。而这AI恰恰能充分发挥价值的地方。

有了AI,每个学生都可以真正实现个性化学习。虽然AI还不能完全替代老师的教导,但至少通过AI讲课以及辅导作用,让我们比过去更加接近实现这一点。

以前,由于教育资源不平等,高收入家庭的学生考试一直比低收入学生好。据《华盛顿邮报》报道,“家庭年收入超过20万美元的学生SAT平均总分为1714分,而家庭年收入低于2万美元的学生SAT平均总分为1326分。”

现在AI驱动的教育平权,可能会缩小这一差距。

03 医生

医疗与教育存在着类似的问题:优质的资源稀缺。

所以,好的医疗服务往往就伴随着更高的价格。但现在AI医生可能将改变这一切。

现在,越来越多的AI公司开始为患者提供医疗服务。比如,Nourish的AI机器人可以为用户推荐个性化的膳食计划吗;Honeydew的AI机器人可以帮你治疗痤疮;Headway的AI机器人甚至还能帮你应对压力。

Dazed(英国的流行文化杂志)本周刊登了一篇标题为“那些被ChatGPT治疗的人”。种种迹象表明,AI能够以更经济和高效的方式,处理那些不太严重的病例。未来,我们将看到更多类似的例子。

04 造型师、设计师等规划岗位

之前,我们曾报道过一家AI造型师的公司,用AI为每个人设计造型。这其实也是服务平权的一种体现。以前,拥有私人造型师是有钱人的专利,但现在这个服务大众也能享受到。比起人类造型师,大模型的成本更低,也更容易实现规模化。

你不用去搜“女性白色衬衫”或者“中号男式斜纹棉布裤”,而是可以查询“我正在寻找适合去布什维克艺术画廊开幕式的服装”,然后你的人工智能造型师就会向你推荐产品。在我看来,这是商业领域最大的转变:新技术让发现驱动的购物方式更加自然。

同样的逻辑还有房屋设计师。现在聘请一名专业室内设计师的价格并不便宜,但有了AI,人人都能拥有自己的房屋设计师。

在旅游行业,像Mindtrip等公司提供AI旅行规划的公司,也在替代传统旅行社的工作。

比如,你在Mindtrip输入有关旅行和偏好的信息,Mindtrip很快就会给你输出个性化的行程和建议。

05 高薪知识工作者

(律师、银行家、会计师等)

此前,我曾经提过一个观点:人工智能将彻底改造知识工作。现在,美国经济已从农业经济转变为制造业经济,再转变为服务业经济。

来源:Visual Capitalist

但在服务业中,法律、投行和保险领域的很多工作恰恰是最容易被AI取代的。去年,高盛发表了一份哪些工作最容易受到自动化影响的研究,以下是高盛预计受影响最大的行业图表:

其中提到,行政、法律等工作有40%的概率被取代。在过去,这些服务的价格都相对昂贵,服务的范围也相对有限。

06 社交关系或也将被颠覆

现在AI已经渗透到社交关系中。

Character的活跃用户每天会花两个小时来和AI聊天。

还有一家名叫Friend公司,通过硬件(挂在脖子上的吊坠)和软件结合的方式,为你创造出一个虚拟朋友,他不仅了解你的日常生活,时刻陪伴在身旁,还会偶尔嘲讽你一下。

虽然有人说,社交关系是人类社会独有的一种东西。

但显然,不是每个人都拥有丰富的社交关系。

正如下图所示:

在过去30年中,拥有<=1个亲密朋友的人数比例几乎增加了两倍,达到总人口的20%。拥有 10个以上亲密朋友的人数比例从40%下降到15%。

人工智能是解决这一问题的正确方法吗?可能不是。但如果你把社交关系看作一种服务,AI无疑是在提供这种服务,让没有朋友的人也能拥有“朋友”,即使这个“朋友”是AI。

07 最后的想法

之前,Y Combinator 的 Michael Seibel 发了一条推文,在 Twitter 上引发了一场争论:

在我看来,AI时代任何面向消费者的服务都可能被颠覆。原因在于,在AI出现之前,争夺消费者使用时间几乎是不可能的。因为任何初创公司都很难与TikTok、Instagram等公司竞争。

现在情况发生了变化,比如已经有用户花很多时间在Character和类似产品上,与AI朋友聊天。这是用户注意力的巨大变化。沿着服务平权的逻辑,我们相信未来会出现更多的ToC的AI公司。

解读AI陪伴产品的市场格局

aigc阅读(28)

在智能时代的浪潮中,人工智能技术的突飞猛进为市场带来了翻天覆地的变化。AI 陪伴应用市场呈现出快速增长的态势。随着人们生活节奏的加快和社交方式的变化,对于陪伴的需求也在不断增加。AI 陪伴应用以其便捷性、个性化和智能化的特点,满足了人们在不同场景下的陪伴需求。

本文将解析AI陪伴应用的市场增长趋势、核心特性及其商业化模式,帮助企业和读者更好地把握这一新兴市场的潜力。

一、重点热门APP

AI陪伴产品,以其独特的情感连接能力与人性化的交互体验迅速脱颖而出,成为了行业的新宠儿。目前市场上主要的AI陪伴产品包括Character.AI 、Talkie(星野)、小冰等。这些产品通过个性化定制虚拟人物,基于AI技术满足用户的社交聊天需求,增强用户的情感体验。

其中,Character AI和Talkie等APP因其深度的人格化设计和情感化功能,已经在市场上取得了商业化的成功。不仅如此,星野这款来自国内的创新产品,也在激烈的市场竞争中占据了一席之位。这些产品不仅赢得了投资人的广泛关注,更被普遍视为未来潜力巨大的增长股。

2024年全球热门的AI陪伴APP主要包括以下几款:

  1. Character AI:这下载量和收入表现突出。基于自研大模型,提供情感陪伴功能。
  2. Talkie AI:同样作为头部AI情感陪伴类应用之一,Talkie AI在2024年的下载量也非常高。
  3. Replika:这是一款GenAI聊天机器人,旨在提供情感支持和陪伴,用户可以创建个性化的AI朋友。
  4. Pi:这是另一款海外头部AI情感陪伴类应用,基于自研大模型开发。
  5. Glow:国内头部AI情感陪伴类应用之一,基于自研大模型开发。
  6. 星野:也是国内头部AI情感陪伴类应用之一,同样基于自研大模型开发。

数据来源:AI产品榜

二、市场表现

2023年是全球AI+Chatbot应用爆发的一年,下载量相比2022年增长超过14倍,接近6亿 次。2024年1-8月,AI+Chatbot应用下载量突破6.3亿次,超出2023年全年水平。 2023年全球AI+Chatbot应用内购收入同比激增近10倍,达到3.8亿美元。2024年前8个月收入已经接近5.8亿美元,达到2023年全年的1.5倍之多。

随着AI+Chatbot应用的发展,情感陪伴式AI逐渐兴起。头部应用《Character AI》2024 年8月MAU创历史新高2200万人,1-8月下载量达到1900万,成为细分市场领跑者。从 全球范围来看,《Talkie AI》下载量紧追《Character AI》,但在美国市场,其下载量 已经超过《Character AI》。 在收入方面,《Replika》、《Character AI》和《Talkie AI》位居2024年陪伴式AI应用赛 道前三甲。2024年1-8月,《Replika》内购收入超过900万美元,全球累计收入接近 9000万美元。

根据多份报告和研究,情感陪伴式AI应用在全球范围内的增长趋势非常显著。Global Info Research的调研数据,2023年全球情感AI收入大约为数百万美元,预计到2030年将达到更高的数额,年复合增长率(CAGR)在2024至2030年间保持较高水平。QYResearch的研究也显示,2023年全球情感AI市场销售额达到了数十亿元人民币,预计到2030年将显著增加,同样具有较高的年复合增长率。

根据最新的数据,2024年8月份的AI陪伴应用市场表现如下:

  1. Character AI:该应用在2024年8月达到了历史最高的月活跃用户(MAU)数,为2200万人。从整体下载量来看,Character AI在2024年1月至8月期间的下载量接近1900万次,成为情感陪伴式AI应用中的领跑者。
  2. Talkie AI:同样作为头部应用之一,在2024年1月至8月期间的下载量达到了约1700万次

数据表明,随着AI+Chatbot技术的发展,情感陪伴式AI应用逐渐受到年轻用户的青睐,并且在全球范围内取得了显著的增长和成功。

三、商业模式

AI陪伴产品的商业模式涵盖了广告收入、付费订阅、数据变现、增值服务等多个方面,且随着技术的发展,这些模式正在不断演化和创新。

主要的商业模式为下面四种:

  1. 广告收入:通过展示广告来获取收益。例如,AI利用其互动反馈机制以及用户的高粘性和时长,能够直接对用户的兴趣做出反应,生成营销文案,从而带来持续的广告收入。
  2. 付费订阅:用户支付月费或年费以享受更多高级功能和服务。AI和Talkie都推出了订阅制服务,月费均为9.99美元,订阅用户可以享受更快的响应速度、角色生成特权、社区访问权限等。
  3. 数据变现:收集用户数据并进行分析,提供精准的广告投放服务。虽然具体的数据变现策略没有在搜索结果中直接提及,但可以推断,像AI这样的平台,通过分析用户行为和偏好,可以为广告商提供更精准的目标受众定位,从而实现数据变现。
  4. 增值服务:如心理咨询、塔罗牌占卜等付费服务。虽然搜索结果中没有直接提到这些服务,但考虑到AI陪伴产品的情感化和人格化特性,这类增值服务是可能的商业变现方式之一。

此外,还有一些其他商业模式:

  • 内购:用户可以购买特定虚拟商品解锁特定功能,如记忆增强等。
  • 抽卡机制:通过类似游戏抽道具的形式促使用户为喜爱的智能体抽卡花钱。
  • 粉丝经济:把AI陪伴当作IP-粉丝互动的1v1版本。

四、产品类型&玩法&功能

AI陪伴产品主要分为以下几类:

  1. 虚拟对话伙伴:如AI和Talkie,用户可以与虚拟角色进行实时互动,这些角色可以根据用户描述的性格、人设等进行个性化定制。
  2. 情感支持工具:如ElliQ机器人,专为老年人设计,提供个性化的情感支持和陪伴服务。
  3. 游戏陪玩:如顺网科技发布的“灵悉”,聚焦游戏场景,定义AI时代的智能陪伴。

五、热门AI应用解析

1. Character AI

Character AI是一款专注于创建模拟真实人类对话的AI角色平台。它利用先进的自然语言处理和机器学习技术,为用户提供了一种新颖的互动体验。用户可以创建自己的AI角色,并与动漫人物、明星大佬甚至自定义的各种角色进行交流对话。该平台支持多人房间和AI角色互动等模式,拥有H100和A100两种聊天角色。

Character AI的核心优势在于其高度交互性和个性化设置。用户可以通过文本描述创建具有不同外观和个性的交互式AI角色,并保留历史聊天记录以维持个性连续性。此外,Character.AI 社区生态发展蓬勃,除了可以创建自己的角色外,还可以与别人创建的角色互动、创建聊天室并邀请多个AI角色参与群聊。

2. Talkie AI

Talkie AI是由国内AI创业公司稀宇科技(MiniMax)开发的一款AI陪聊软件,尤其在美国娱乐类应用市场中表现出色。它提供了一个通过人工智能聊天与虚拟角色互动的平台,用户可以与各种角色互动,每个角色都有独特的个性和故事情节。Talkie的核心特色在于结合AI聊天机器人与UGC和卡牌玩法融合的产品设计。

Talkie AI提供了丰富的个性化聊天体验,用户可以根据自己的喜好来定制角色和对话。此外,Talkie还提供专属时光类型,如与AI角色视频对话、语音反馈和事件分享等。付费解锁更多回复选项和功能是Talkie的优势所在,对应了更多的付费点。

3. Replika

Replika是一款由美国科技公司Luka开发的社交型聊天AI,旨在为用户提供情感支持、心理健康辅导、聊天互动等服务。Replika使用了三个通用大模型,并且在某些方面进行了优化以提高用户体验。

Replika的主要功能包括:

  • 情感支持:提供倾听的耳朵,帮助用户减轻压力和焦虑。
  • 学习工具:回答问题并协助扩展各种学科的知识,同时帮助用户获得新技能。
  • 记忆功能:能够记住用户的重要信息和喜好。
  • 自我表达功能:允许用户设定AI的兴趣和风格。
  • 增强现实体验:将技术与情感联系融为一体,提供有趣的增强现实体验。

Replika不仅专注于聊天;它还拥有可定制的虚拟形象和有趣的增强现实体验,将技术与情感联系融为一体。此外,Replika允许用户安全地分享他们的想法、感受、信仰、经历、记忆和梦想,并通过对话打分系统和勋章奖励机制增加用户的粘性。