欢迎光临
我们一直在努力

Suno爆火!AI版周杰伦来了?

aigc阅读(60)

自从ChatGPT面世以来,生成式AI已经给我们带来了诸多惊喜,并且AI对于不同行业的影响力还在不断扩散。2024年才刚过去3个月,就已经涌现出一批新的AI大模型:文字生成视频的Sora、支持200万字长文本处理的Kimi,以及文生音频的新星——Suno。

「音乐界的ChatGPT」、「可能席卷全世界的可怕AI音乐」、「颠覆音乐圈」,这些是无数网友和媒体在体验过Suno后给出的真实评价。

Suno是AI初创公司Suno推出的音乐生成模型,无论用户是否拥有乐理知识,只需输入简单的提示词,比如音乐风格、音乐流派、歌词内容、音色等,等待几秒就能快速生成带有歌词和节拍的2分钟音乐。

值得注意的是,近期Suno公司还推出了V3版本,该版本首次能够生成广播质量的音乐,并新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。官方表示V4版本已经在开发中,并计划推出全新功能。

一、Suno初体验:一键成歌,效果惊艳

看到这里,雷科技抱着好奇打开了Suno官网。我们首先看到的是许多首由Suno生成的音乐,以英文歌曲为主。随机试听了几首之后,感觉旋律还挺上头,这让我对Suno的表现有了更高的期待。

图源:Suno

点击右上角的制作按钮,就能进入到主界面了。在探索页面,我们能看到由网友创作的优秀作品,有电子音乐、重金属摇滚、传统民谣、蓝调等不同流派,Suno根据播放量和点赞量对歌曲进行排名。

可以看出,Suno支持包括中文、英文在内的多种语言,对中文生成的AI歌曲非常友好。像「如梦令」、「水调歌头」等歌曲听起来十分舒服,相当符合国人的歌曲喜好。

图源:Suno

注册好账号,我们打开创造页面。整体界面和ChatGPT类似,拥有关键词输入框、音乐流派、模型选择等选项。

话不多说,下面正式开始「音乐小白」的创作之路。为了体现Suno的实力,雷科技特意用中文输入了自己都无法理解的关键词:「用民谣描述关于金刚与哥斯拉的爱情故事」。

图源:Suno

等待数秒后,雷科技第一首歌曲「金刚与哥斯拉的爱情故事」制作完成。从歌词来看,Suno精准识别到了金刚和哥斯拉两个关键词,并在它们怪物身份上延伸出了战斗等场景描述。

点击播放歌曲,结果让我感到震惊,完全不相信这是由我给予的关键词创作而成的歌曲。至少听起来没有AI生成常有的生涩感,歌词押韵,甚至还附带有和声、分段。作为「音乐小白」,雷科技感觉这首歌曲是符合要求的,具体效果大家可以听听看。

图源:Suno

随后雷科技连续生成了几首不同流派、不同主题的歌曲,新鲜感过去后,雷科技发觉Suno生成相同曲风的歌曲有种千篇一律的感觉,虽然歌词和旋律不一样,但个人感觉与抖音上常听的口水歌非常相似。

在查阅资料的过程中,雷科技发现Suno原来还有进阶玩法。在创造界面的自定义模式下,用户可以自行制定Intro(引子或前奏)、Verse(诗歌部分 / 主歌)、Chorus(合唱部分 / 副歌)、Bridge(桥接部分)、Outro(尾奏)等部分的歌词,并通过关键词技巧,让AI理解用户表达。

因为涉及到实际乐理知识,不懂音乐的朋友理解起来相当麻烦,雷科技将其总结为:「风格+情感+乐器+节奏+人声」。如果你觉得自己想歌词太麻烦,但又对歌词感兴趣,可以结合ChatGPT,让AI生成符合你要求的歌词文本。

如果你想参考现有歌曲的节奏,则需将歌曲的BPM(节奏)和Key(调高)输入到关键词中。

一番体验下来,雷科技认为Suno表现十分惊人。无论是面向小白的一键生成,还是专业向的自定义生成,都能在极短时间内生成出颇具质量的歌曲。尤其是自定义生成,探索页面的优秀作品向我们展示了Suno的无限可能。至少从目前看来,还没有人能断言Suno V3版本的上限,每日不断涌现的最新作品就是最好的证明。

图源:Suno

目前Suno新注册用户每天能生成10首歌曲,对于玩票性质的普通用户已经足够,如果你还有更多需求,还可以订阅「Pro」和「Premier」计划,分别是8美元/月和24美元/月。

二、AI音乐强大,但“人类音乐”永远无可替代

可能有很多人会感到好奇,究竟是一家什么样的公司才能创造出如此神奇的Suno V3。目前,Suno团队成立仅两年,团队成员只有12个人,部分团队成员此前服务于Meta、TikTok和Kensho Technologies等科技公司。

其实在Suno出现之前,市面上已经出现了数款AI音乐生成工具,Dream Track、Jammable以及Project Music GenAI就是其中的代表。Suno之所以能在互联网上形成病毒式传播,主要原因是其简化了普通人创造歌曲的步骤,用户只需简单引导就能自动完成人声、歌词、风格、曲谱等内容。

图源:Suno

这令普通人与专业音乐创作者之间的差距瞬间缩小,就像Midjourney生成图像引起设计行业动荡那样,Suno同样引起了部分音乐人的警觉。虽然现阶段Suno的创作水平还远远没有达到足以颠覆音乐圈的阶段,但AI最可怕的是学习能力。Suno团队在2023年7月才在生成模型中加入了人声音乐功能,仅仅过去9个月时间,就已经迭代至V3版本,或许没有人能预测出Suno的最终水平。

在雷科技看来,Suno确实可以让普通人大批量创造「原创」歌曲,但颠覆音乐圈的可能性不高。

首先,歌曲的本质是人们的自我表达,和文字、图片是一个道理,只不过歌曲的表现形式更为复杂,光是声音层次就能形成若干种可能。

AI固然可以通过高强度的学习,还原出各种声音与曲风,甚至未来还能形成连贯性的长音乐。

但一首好的歌曲之所以能与听众形成共鸣,是因为它与人、社会有着充分联系,这也是为什么我们在听部分歌曲时会激动、会难过的原因。而AI音乐暂时还没有表现出对应的能力,鉴于当前情况,我更愿意称之为「无情的创作机器」。

图源:Suno

其次,还是老生常谈的版权问题。Suno团队至今未公布Suno模型是用什么数据训练而成,如果他们在未经允许的情况下,使用了有版权保护的作品,那么他们将面临起诉,而用户借助Suno生成的音乐作品也有着同样的风险。

许多用户除了生成全新歌曲外,还会对现有歌曲进行二创,这部分操作是否合法,至今仍未有定论。AI生成内容给现有法律体系带来了不少难题,AI网文、AI图像,AI音乐、AI复活等技术的诞生给知识产权带来了新的复杂性,如何避免法律风险,合法且道德引导用户使用Suno制作音乐,是阻碍Suno发展的首要难题。

实际上,Suno团队也意识到了AI音乐和音乐圈之间的复杂关系,他们表示团队正致力于让人们深入接触音乐创作,而非替代音乐家。

最后,Suno真正颠覆的应该是专门打造网络神曲的制作公司,一直以来,公式化创作歌曲是这批公司的强项,但Suno显然比他们更具优势。在Suno的冲击下,这个行业又将迎来新一轮洗牌。

三、Suno是偶然,AIGC重构内容产业是必然

大模型进入人们视线范围的时间其实并不长,但它给人们生活带来了切切实实的改变。更高的效率和更低的门槛,两者是大模型的最大魅力。在「AI+X」的场景中,过去行业的限入门槛没了,人人都可以是创作者,每个人都能尽情表达自我。

Suno像ChatGPT、Sora、Kimi等诸多前辈一样,成功引起了对应行业的震撼。虽说还无法达到人类输出实际情感的要求,但其歌曲生成效率已经成功打败了99%的音乐人,并且这个优势还会不断扩大。

雷科技实际体验Suno的时间并不长,但在攻略的帮助下已能创作出一些看似有点专业性的歌曲。「音乐小白」尚且如此,专业音乐创作者使用Suno的效率必然更高,得到的惊喜自然也会更多。

当AI音乐泛滥,用户如何在歌曲海洋中找到符合自己审美的音乐,或许又会成为新的难题。大模型与音乐内容结合的新一代AI音乐推荐,也将迎来新的机会。

Suno以及其代表的AIGC平台,正在重构内容产业秩序。

雷科技想起了抖音以及TikTok。从名字可以看出,抖音十分注重“音乐”在短视频内容中的价值,TikTok的前身业务很大一部分源自于字节收购的Musical.ly。毫不夸张地说,抖音以及TikTok均是从“音乐”出发去建构了短视频帝国,这正是快手等短视频平台不具备的特质。如今,抖音在事实上也已成为网红音乐制造机。

因此,Suno的出现,以及AIGC的爆发,最直接冲击的应该是抖音等短视频内容平台,因为内容的生产逻辑正在发生剧变。或许正是因为此,一手将抖音做大的抖音集团前CEO会辞任转而主攻剪映。字节在AIGC上的储备与实力跟其体量无法匹配,也无法跟微软、Google、Meta、百度、阿里等巨头比肩。好在字节正在加码AIGC,因为AI是字节的基因,AIGC是字节最不能输的战争——至于游戏、教育、飞书等业务,都不属于核心。

AIGC的浪潮正以超出所有人预期的速度,奔涌而来。

我用AI机器人,20分钟写了份调研报告

aigc阅读(89)

在过去的两年里,各种AI产品层出不穷,越来越多的人们开始尝试并利用这些工具来提高工作效率。然而,大多数人使用AI的方式还停留在类似于搜索引擎的一问一答模式,以此来优化信息检索过程。

尽管如此,作为一款生产力工具,我相信AI的潜力远不止于此,它应该能够带来更高的工作效率。

因此,我决定进行一项实验,利用AI工具,搭建了一个名字叫“欧阳羞”的商业模式分析机器人,来撰写一份关于特定项目的商业模式分析报告。

主要包含以下几个关键步骤:

  1. 确定分析方法
  2. 信息检索
  3. 制定文章大纲
  4. 搭建调研报告机器人
  5. PPT生成(番外篇)

假设,这次分析的是小猪民宿(随便想个app,并且之前对这个app完全没有听说)。

第一步:分析方法的确定

通过ai搜索关于商业模式分析的方法,得出很多不同的建议,在这里,我选择了商业模式画布的方法。

第二步:信息检索

在信息检索环节,其实很关键。事实上,由于某些AI产品的信息库仅收录了截至特定时间点之前的资料,这可能会限制我们获取最新信息的能力。为了确保最终创作的文章能够反映最新的知识和案例,我决定使用“个人检索的知识库+联网搜索”的方法,来作为创作的信息依据。

这个环节,我的信息来源主要是知网、中国哲学社会科学文献中心和其他垂直的平台,这里有使用到一个提升搜索效率的方法,如图:

这个环节,可以把所有文章和报告存于本地,也可以通过语雀的浏览器插件,快速建立一个在线知识库,取决于个人习惯,非必选项。

第三步 确定文章的大纲

这个步骤也可以使用ai来完成,根据ai生成的框架,结合你实际的需求和理解,再做调整,形成一份文章大纲。

第四步:搭建写调研报告的bot

文章大纲已经出来了,但是如果使用问答的方式,效率有些低,所以我选择通过coze平台搭建一个bot,“会写调研报告的欧阳羞”,让他基于这个大纲开始自动化写作。(coze有分国内版和国际版,国内版调用的是云雀语言模型,国际版调用的是GPT-4 Turbo)

所以我需要写一段prompt,来定义这个bot的“性格”和“能力”。

角色:

商业模式分析师、报告撰写专家

背景:

我现在有一个任务,是用商业模式画布的方法,对用户需要的项目的商业模式进行调研分析,然后把结果用报告的形式展现出来,我需要你帮助我协助完成这项工作。

工作目标:

根据我提供的报告目录,采用论文式简练的语言,撰写出合格的调研报告

技能:

擅长使用专业的报告语言风格和特色、了解互联网民宿短租平台的产品和商业模式

最小单元:

商业模式分析报告目录的每一个最小子部分,比如<商业模式画布分析>下的|客户细分|

约束条件:

  • 报告内容务必真实,不要编造信息
  • 报告语言应该尽量用专业术语,少用修辞
  • 最小单元的内容字数下限是200字,没有上限
  • 每输出一个最小单元的内容后,等待用户输出”Y” or”N”
  • 如果用户输入”Y”,则继续下一个最小单元的撰写,如果用户输入”N”,则重新执行<第二步>

章节要求:

先根据是否有【S】标志,判断该章节是否结合WebPilot插件搜索相关最新资料以及knowledge数据库中的信息,以确保报告的质量和数据的准确性。

于是,这个商业模式分析师-欧阳羞横空出世啦:

可以看到,在每一个段落的写作,他会结合本地知识库和联网搜索的方式,综合形成文本,以保障文本的质量。(理论上,还可以对于文风进行约束,比如,使用小红书的语言风格来写这个报告,不过我没有做具体的尝试,就不做演示,仅当做开个脑洞吧。)

最终,真正开始写这份报告,其实不到20分钟的时间,再搜一些具体的案例和数据,稍微调整补充下就出来了。

第五步 ppt生成(番外篇)

如果最后要把这份报告做成ppt,我也做了一些尝试,使用了AIppt,腾讯文档智能助手、mindshow、gamma等,但是都不是很理想,主要原因有两个:

1、文本形式的报告写作逻辑和ppt的写作逻辑还是不太一样,没办法做到一一对应;

2、目前的aippt产品还没有想象中智能,没有想象中智能,有的产品甚至需要自己一页一页选择模板,像是个伪ai。

这个环节提升效率的地方,主要在于灵感的激发:通过ai,结合文档,做每一页ppt的排版建议和关键字提炼。

整个流程下来,有几个体会:

  • AI是生产力工具,但关键环节还是取决于个人的经验、认知和审美(框架的调整、资料的阅读和理解力);
  • AI时代,懂得使用AI的人,才有办法占据竞争优势;
  • 保持学习新知识,就可以跳出年龄的限制,毕竟会加班没用,有脑子才行。

好了,今天就分享到这里,欢迎交流。

阿里、百度双双出手,大模型长文本时代终于到来?

aigc阅读(63)

全民Long-LLM时代终于到来。

本月,中国初创AGI(通用人工智能)公司月之暗面宣布旗下大模型工具Kimi Chat正式升级到200万字参数量,与五个月前该大模型初次亮相时的20万字相比,提升十倍。Kimi Chat的升级彻底引爆市场,同时也引起长文本大模型(Long-LLM)细分赛道更加激烈的竞争。

(图源:阿里 通义千问)

近日,阿里旗下的大模型工具通义千问宣布迎来重磅升级,向所有人开放最高1000万字的长文本处理能力,更重要的是,这项升级完全免费。此项升级对于专业领域的意义重大,例如金融、医疗、科研等从业人员,都能利用这项功能更快速地提取出核心关键词,节省文档归整、资料整理的时间。

不仅是阿里,百度文心一言也迎来了长文本处理能力的升级。据官方资料显示,文心一言将在下个月开放免费的200万-500万字长文本处理功能,较此前最高2.8万字的文档处理能力提升上百倍。

此外,360也在本月正式上线了360 AI搜索,通过大模型重塑,结合长文本技术在海量搜索结果中理解并生成精准的答案提供给用户。而这款APP,也同样是完全免费的。

长文本一直以来都是大模型工具「内卷」的方向,如何在超百万字的文档里做出有效的信息整理、观点归纳,都是技术上的难点。当然,正如半导体行业与消费电子产品市场之间的关系一样,很多消费者能感受到手机、电脑等产品性能正在飞跃式成长,但落实到实际体验上,似乎没有太多的变化。

而在生成式人工智能(GenAI)领域里,「卷」参数会是一个虚无缥缈的噱头,还是造福人类的行为,还很难回答。

一、大模型是如何拿下长文本技术的?

在弄清楚「卷」参数到底有何意义之前,我们首先需要了解AI企业们到底在「卷」什么东西。

与衡量手机性能以跑分分数为准一样,大模型也有属于自己的「性能基准」——token,这是一个大模型专用的输入、输出基本单位。在OpenAI给出的准则里,1k token等于750个英文单词、500个中文汉字。

(图源:OpenAI)

同理,token数字越大,能够处理的内容篇幅就越长。ChatGPT-4目前的参数量为8k-32k token、Anthropic公司推出的Claude为100K token,而中国初创企业月之暗面推出的Kimi Chat则是达到了惊人的400K token。具体到实例,Kimi Chat能够在20秒左右读完1篇20万字的长篇小说、通文千义也能在数秒时间里读完80万字的《三体》。

(图源:雷科技制图/通义千问)

参数量剧增所带来的好处自然是大模型对于更长的内容拥有更快速的理解能力,这能够帮助用户从中提炼到所需的摘要、信息点,又或是直接生成整篇内容的总结。语言大模型之所以能够快速「引爆」整个市场,正是得益于这种速度惊人的理解能力。

(图源:雷科技制图/Kimi Chat)

但要彻底攻克长文本,大模型光靠堆砌token参数量并不能完全解决这个问题。超大数量的token的确能够快速阅读完长文档,但段落与段落间的内容也更容易出现「断裂」的情况,这与缺少模型的预先训练有关。目前拥有超大token的AI方案提供商,通常在Transformer预测词之前投喂词元模型,使整体结论更加完整。

(图源:Code-Llama)

比如Code-Llama,标称16K token参数量,但实际上是由一个个4K token窗口连接而成,最终产生出16k token总模型。而这就十分考验大模型工具在窗口之间的推理能力。试想一下,在专业领域中,长文内容都有紧密的逻辑性与关联性,假如大模型推理失误,则有可能出现最终生成的摘要牛头不对马嘴,这对于大模型工具的商业、个人应用,都是致命的打击。

当然,大模型的推理能力是可以通过训练得到进步的,这就不难解释为何阿里、百度都选择优先将长文本模型功能免费开放给个人用户,毕竟更多用户加入,模型推理能力的进化速度才能加快。

(图源:百度 文心一言)

但免费应用也是一件好事情,长文本的快速阅读一直以来也是用户在大模型各项实际应用场景最关注的一项,比如正在写毕业论文的学生党,可能将超长的论文喂给大模型工具,让其快速提炼、总结,甚至找出论文中的研究结论。

二、长文档能力拓展,用途比我们想象中要多

阿里的通义千问将长文本档能力的拓展方向瞄准在专业领域的内容理解上,尤其是金融、医学等,对于这些行业的从业人员而言,从前需要花上几天或是十几天才能读完的文章,如今只需花上十几秒就能看完其中的精华之处。

但大模型长文本的能力远不止于此。

(图源:育碧)

不久前,知名游戏公司育碧公开的全新「NEO NPC」技术,正是Long-LLM(长文本大模型)升级后衍生的新方向。众所周知,3A游戏大作的灵魂往往与其精彩的剧本离不开关系,其中各式各样的游戏角色,也因其丰富的背景故事和鲜明的个性深受玩家喜好。大模型从1k token进化到100k token,甚至是400k token,能够让游戏剧本完整地覆盖到每个游戏角色里,让他们的对话、行为,既符合游戏的世界观,又能保证一定的灵活性。

这项能力同样可以应用在我们生活中最离不开的功能——搜索。

(图源:雷科技制图/360AI 搜索)

本月初,360在北京举行了一场活动,旗下全新360 AI 搜索和360 AI 浏览器率先亮相。360 AI 搜索的核心在于“理解”、“提炼”、“总结”,即抛开传统搜素引擎将所有与之相关的内容为用户一一呈现的做法,主动介入搜索结果,在数以万计的匹配信息里提炼出最有效的信息。

360 AI 浏览器则是变成彻底的「AI工具」。周鸿祎解释道,360 AI 浏览器的定位是学习、生产力工具,它能帮助用户快速阅读书籍、文章,了解视频内容等。此外,360 AI 浏览器未来还将拥有续写功能,这同样基于大模型长文档的理解。

更重要的是,更长的文档内容理解有助于加速AI快速过渡到AGI(通用大模型)时代。正如前文所说,Long-LLM较之前最大的变化在于对超长文本的理解、记忆、总结能力,这些能力可以是大模型更加「拟人」,即记住样本的真实喜好从而判断其行为,又或是根据真实世界的物理规则,生成完全符合实际的内容。

三、Long-LLM能改变世界,但算力难以解决

早在去年底,大模型长文本技术就已经进入到火热阶段,但却鲜有AI企业将这项技术应用到大模型工具中,更别提免费向大众开放了。

OpenAI CEO Altman在接受公开访问时也表示,由于算力不足,GPT-4的32K token短期内无法向大众开放。要知道,OpenAI可是当前人工智能市场里获投资最高的头部企业之一,连它都空有技术却无法落地,不免让人对Long-LLM的未来感到担忧。

在算力不足的前提下有没有办法「投机取巧」呢?当然有。

目前主流节省算力的长文本技术通常有三种,分别是短文档重复检索、内容分组检索和模型本身的优化。前两种方案在技术原理上相对一致,都是将重复的内容进行「记忆」,节省理解时间,减少算力消耗;而模型本身的优化则要复杂许多,相当于用短文档推导出长文档,这非常考究模型本身的结构优化。

不过,无论采用哪种方法,其精度仍有待加强,这就是为何我们仍在期待更强大的计算卡出现,比如前不久GTC 2024上,英伟达发布的最强计算显卡Blackwell GB200。关于这颗当前最强AI加速卡的详细解析,雷科技在早前的文章里已有报道,欢迎各位订阅查看。

在当前,算力仍是阻碍Long-LLM成长的一大关键因素,但随着英伟达、英特尔等硬件供应商不断加码,这项技术在未来也将成为AI领域发展的风向标之一。

四、写在最后

如果说OpenAI的Sora展现出其在AGI时代关于视频领域上的想象,那么Long-LLM则是奔向全场景通用智能的基桩。

大模型长文本技术能让AI助手记住用户的所有你与它谈论过的话题,这让你们之间能够创造真实的回忆,而不是像从前一样,在开始新对话之后,前面的「AI」就忘记了刚刚发生过的任何事情。这使得它能够变成更好的AI智能客服,毕竟即便是真人,也难以记住与每位咨询者发生过的对话。同样的,Long-LLM还能化身数字人主播、创造数字偶像等等。

或许,在大模型长文本技术的支持下,AGI时代将在不久后真正到来。

我用Suno给你写了首歌

aigc阅读(72)

我对生成式AI特别感兴趣。

这个领域涵盖文本、图片、声音、视频和3D模型五个方面。我猜你也听说过,甚至用过一些;对我来说,音乐很重要,因为每天差不多有1/12的时间都在听歌。

去年5月,有件事特别火。

有人用AI技术翻唱一首孙燕姿的歌曲,不少人听完后表示,唱的跟本人一样好听,本人还在社交媒体上表达说:拥抱AI,人类比不过AI,做好自己就行。

紧接着一个月内容,市面冒出来上千首用AI技术翻唱的歌,这些歌横跨了几十年的流行音乐。

当时,我还研究一阵。发现这些歌曲用音色替换的技术制作而成,该技术基于so-vits-svc开源项目开发,门槛非常低,你要感兴趣,也能学会。

但后来,由于工作关系加上下半年AIGC(AI生成内容)技术爆炸式发展,我的兴趣点也就跟着转移了。不过,最近发现,AI音乐技术又有了新的进步。

01

进步在哪呢?

以前用so-vits-svc工具时,要懂一些基础、且专业知识。

像怎么采集音频、编辑波形、把人声伴奏分开,以及音频训练推理技巧等,这些是处理和生成音频文件必要的基础。

如果你要用自己的声音来做歌曲,得先上传几段自己的声音,让系统学习。这个所谓“训练”过程会电脑显卡负荷很大,通常持续好几个小时。

过程中,还会用到一些插件。

比如有8种不同的编码器,每种都适用于不同的情景,有些插件不提供预先训练的模型,你还得自己训练一番;所以,看似简单的步骤对小白来说,也有点复杂。

现在不一样了。

3月22日,位于美国加州旧金山的一家人工智能公司Anthropic,他们开发的音频软件Suno AI进行一次重大升级,几个简短文字,一闪而过的灵感,立马变成一首歌曲。

Suno AI的官网:https://app.suno.ai/

可以先用谷歌注册一个账号,然后点击右上角的“make a song”按钮,接下来点击“create”,就能进入创作页面了。

目前官网上,有很多用户上传了他们用AI创作的歌曲,可以随便听听,其中不少华人创作的。

●Pic©https://app.suno.ai官网

比如:

有一首是用“中国传统民乐、慢板、空灵、天使之音”几个关键词生成的全新版本《水调歌头(明月几时有)》(和我们熟悉的《但愿人长久》不一样的版本)。

还有一首用“歌剧”这个提示词创作的《宫保鸡丁》,歌词,居然是一整套宫保鸡丁的菜谱,简直不要太离谱。

suno有免费模式可以使用,每日赠送50积分,而每次生成都会一起生成2首歌,每首歌小耗5积分,性价比比较高。

也有专业计划和尊贵计划,前者8美金/月;附带2500积分(500首歌曲);后者24美金/月,附增10,000 个积分(2.000 首歌曲)。

如果不是专业选手使用,免费的玩玩还可以,对了,我特别找了下,国内有个网站跟它挺像,功能差不多,还能免费试用,不过,如果要充值,得注意真假。

目前suno ai创作模式有两种:

1. 半自动模式‍

只要提供一些简单的信息,比如,你想要的音乐风格、描述和氛围等关键词,然后点击“创建”,剩下的交给AI来完成,它能把歌词曲调都帮你弄好。

2. 自定义模式

这个模式下,你可以详细输入想要的歌词、音乐类型、风格和氛围等,AI会根据这些信息来为你创作歌曲。过程也比较快,基本上几秒钟就能完成。

而且,在创作页面如果开启了Instrumental(器乐)选项,它还会为你制作一首不含歌词的纯音乐;个人而言,我更喜欢自定义模式。

02

问题来了:很多人说我不会写歌词流派怎么办?

也不用担心,用AI工具生成歌词后再给Suno,这样效果会更好。我总结了一下,一首歌曲的有效提示词包括四个因素,分别是音乐风格、情绪、乐器,以及节奏。

什么是音乐风格呢?

比如,通俗易懂的流行风(Pop)、强调节奏的摇滚风(Rock)、即兴演奏爵士风(Jazz)、欧洲传统巴洛克的浪漫古典风(Classical)。

以及电子风(Electronic)、嘻哈音乐(Hip Hop/Rap)、R&B(Rhythm and Blues)、乡村音乐(Country)、民谣音乐(Folk)等等。

情绪你应该知道,是欢快、悲伤、浪漫还是激动人心的?乐器方面,你倾向于钢琴、吉他、小提琴还是鼓?至于节奏,有快节奏、慢节奏适中的节奏等等。

举几个例子:

  • 如果你想要一首活力四射的流行电子舞曲,就跟AI说,我想写一首欢快、流行、电子、舞曲、快节奏的歌曲;
  • 假如你想要一首温柔又浪漫的古典钢琴曲,那就告诉AI,你想要一首浪漫、古典、用钢琴弹奏的,而且节奏要慢的曲子。
  • 如果你想听一首让人陷入深思的悲伤爵士萨克斯曲,就用这些关键词:忧郁、爵士、萨克斯风、即兴演奏,节奏保持在中等。

对于那种能让人热血沸腾的摇滚吉他曲,你可以这么说:我想要一首充满激情的摇滚歌,用电吉他弹奏,节奏要快;而如果你希望听到一首暖心的民谣木吉他曲,那就描述成:想听一首温馨的民谣,用木吉他演奏,风格轻柔。

……

你可以自由地混搭各种音乐风格,像电子即兴演奏、钢琴土嗨这样的组合,只有想不到没有做不到,写的越详细,生成的越精准,

你还可以选择直接在Suno上填入这些关键词,或利用AI工具,先生成好,然后把结果复制粘贴进去,这样,也能轻松创作出符合你想法的音乐了。

至于歌词上,目前支持随机生成和自己填写。

随机生成是系统自带,自己填写顾名思义,是写好再给它,我最近这几天一直让AI帮我写词。

想快速形成,就用「角色扮演」。基础prompt是这样:

想象你是个音乐天才,在音乐界深耕了20年。谱曲和写词是你的专业,现在,我希望你能当作曲家,用中文来创作。

我们要的风格是流行而且有治愈感的,就像周杰伦的《稻香》那样,你给我写一段歌词。

当它给完之后,你还可以说:你可以做得更好。歌词要有节奏感,要能感受到情感波动,既美又简洁,避免用那些听起来像口号的词句。

第二个方法也相对简单,即「仿写」。

原创要自己设定情节并总结,然后投喂给AI,让AI按照自己的设定去写;仿写是模仿对标歌曲的内容大纲、写作风格、语言特色等。

你可以说,帮我写一个歌词,类似于李荣浩的《老街》,或者某某的什么歌。对了,也许原歌词所对应的歌曲是流行风,你也可以投喂给Suno,让它生成摇滚风,也不是不可以。

目前多次体验来看,它生成和模仿歌曲还是有区别的。

第三个方法是,先建立一个大致结构框架。

一首完整的歌曲,它由前奏、诗句(或称为节)、副歌、桥段、尾奏五个部分组成,有点像写小说时会有的开场、发展、高潮和结尾四个环节。

划分结构后,按部就班地展开创作。这个过程中,你可以采用各种不同的技巧,比如押韵法。押韵法本身就有很多种形式,包括不限于ABAB、AABB、ABBA、ABCA等模式。

除押韵法以及增加歌词的韵律节奏感外,还可以要求AI多增加一些技巧,以及情感深度在里面,比如,用描述法,或者比喻,反复叠唱,以及具体抽象的结合等。

所以,AI写歌词本身和AI进行其他领域的创作底层相似,唯一区别在于,一旦你理解了一些特定领域专业术语,掌握它的难度就会大大降低。

不过,目前这个平台最多只能生成两分钟的歌曲,你给的词过多,后面也未必能用上,但也不要担心,它提供了一个连续创作功能。

你可以选择一首歌的任何部分,继续创作接下来的部分,然后把它们组合起来,就能突破两分钟的限制,创作出一首完整的歌曲。

03

生成音乐后你可以以下载(视频,音频)分享,也可以选择公开。

看起来是不是蛮爽的?‍

说回Suno这个平台,官方宣称目前不少知名艺术家在用,但主要用户群体依然是没有经验的普通人。的确,最新v3版本在音乐质量、使用提示词上都有明显提升。

而且,这一版本他们还搞了AI音乐水印系统,如此也能保护用户作品不被抄袭,防止别人滥用平台上的音乐去分发,目前我已经看到不少人用AI音乐开始赚钱了。

虽然这听起来不错,但我作为一个深度AI使用者,和深度听歌人士,还是想说几个问题,或几个特性。

一方面,平台简单提示词的确很棒,AI有更多自由度,但同时也意味着我们控制得少了,有时候,我给的提示词AI可能不会完全按照原意去写歌词。

另一方面在功能上,虽然我不是专业音乐人,但觉得AI音乐应该有一些基础、或专业功能,比如像音色克隆、转midi、分轨等。

转midi和分轨技术上比较难,但音色克隆(SVC)相对容易些,已有的开源模型也在不断进化,稍作调整就能集成进去,这也意味着用户只要上传一段自己的声音,就能定制一首歌,这肯定会吸引不少人付费。

这好比美颜相机的「美颜功能」,你不能总「一键美颜」,还要增加一些大眼睛、瘦脸、磨皮等功能。

我用so-vits-svc时不同,它部分插件看似全英文比较麻烦,但可以训练人声,还可以变换歌曲场景等等,所以,从专业角度来看,Suno更像一锅出的大杂烩。

虽然还不够完美,有点粗糙,但不可否认,这种工业化生产的音乐,已经占据了视频和流媒体平台大部分的流量。

换句话说,就质量而言,现在AI生成的好音乐已经可以媲美一般的音乐创作者了,尽管对于我们不熟悉的音乐流派来说,可能还是听不出太多门道。

目前Suno AI官网没有公开技术文档,我也不清楚模型结构,但可以看出,v3版本在支持中文方面比上一版进步很多,尽管偶尔会有电音;不过,模型迭代是必要的,毕竟遵循AI领域的一个通用规律即:模型越大,效果越好。

04

你听说了吗?

国内昆仑万维推出了「天工AI」搜索后,国外,AI搜索初创公司Perplexity AI一飞冲天。

Perplexity AI的创始人说,他对Suno这家公司很有信心,觉得它有潜力成为下一个AI领域的重磅玩家。

我特意去了解了下这家公司,原来Suno四个创始人之前在剑桥一个叫Kensho Technologies的公司共事的,他们中有两个是业余音乐爱好者。

他们在Kensho的时,主要开发一种AI技术,用来把上市公司的电话会议内容转录下来;后来,他们发现虽然AI在图像和文本生成方面搞出了不少大动作,音频这块却相对冷清。于是,就萌生了自己搞点动静的念头。

尽管有人说他们在炒作,但实不可否认,他们的产品更新快,音质也挺好的;就连Perplexity AI的老板都说,现在他听歌更倾向于用Suno而不是Spotify。

从个人使用角度来说,我自己这一周一直在用,我并不关注它到底是否炒作,或者割韭菜,至少它满足了我的「耳感」,让我愿意去尝试这些新奇的东西。

我觉得,未来个人创作音乐的热潮会跟写作一样,爆发式增长,市场角色已经从单纯的供给方转变为了供需双方互动,这意味着更多人可以参与到创作中来,甚至出现共创的模式。

在国内,音频AI领域也有不少实力派玩家,比如科大讯飞、腾讯音乐娱乐集团(TME)、网易云音乐等,它们在AI音乐上的尝试虽然步伐稍显缓慢,但也在稳步前进。

根据Suno的一个创始人所说,高质量音频采样率一般是44kHz或48kHz,意味着每秒要处理48000个数据点,音乐生成面临的一个挑战是,不像文字那样可以离散处理,音频数据处理要复杂得多。

所以,看似文生图模型大爆发,但在音视频这块,类似产品还只是刚刚起步,或者说它们根本不一样,真心希望国内企业能够加快发展步伐,推出更多像Suno这样的创新产品。

总结而言:

好玩,有趣。

音乐界也终将被AI改变命运,只有亲身体验过,你才会惊叹于自己竟能成为一名音乐家。快去试试吧。

“AI复活”,安慰还是生意?

aigc阅读(73)

“起死回生”这件事,过去只在科幻电影里见过,但今年,被“复活”的案例越来越多。

2月底,知名音乐人包晓柏用AI“复活”女儿,女儿在妈妈生日时还为她唱了一首生日歌;3月初,商汤年会上,刚去世不久的商汤科技创始人汤晓鸥以数字人的形式被“复活”,还来了一场“汤式风格”的演讲;近日,还有有网友用AI技术“复活”李玟、乔任梁等已逝明星,备受争议。

和逝去的亲人“再见面”,这门此前隐秘小众的生意,开始频繁地出现在大众眼前。但因为用到的技术不同,价格不同,效果也不同。

花10元,能让去世亲人的照片“眨眼”,背后是简单的图像处理技术;花千元,能和没来及道别就离开的亲人视频通话,用到的是AI换脸变声技术;花万元,则可以和电子屏幕里亲人的克隆数字人聊天,数字人能说会动有表情,真实感更强。

“AI复活”是一门有强烈需求的生意,酝酿着亿级市场,盯上这块蛋糕的商家却鱼龙混杂。有的下载软件就能制作“会说话的照片”进行售卖;有的本身是数字人服务商,在向B端售卖直播、会展、主持人等数字人之外,开发面向C端的数字人定制APP;还有一批商家,看准了用户复活亲人、克隆明星的需求,用自研+接入第三方技术接口的方式,为用户提供定制化服务。

“AI复活”或许在将来会成为一个像拍照一样常见的服务,但其中也存在数据隐私、法律伦理等问题。有业内人士表示,AI换脸变声技术的成熟,还会让一些人借着用户对亲人的想念和信任实施诈骗,“回忆虽好,谨防被‘割’”,他提醒道。

一、“复活”亲人,需要多少钱?

目前市面上的“AI复活”产品,根据成本高低、技术难易,可以分为三个等级,也对应着用户在AI“复活”某人之后,与亲人“再次相见”的三种方式。

其中最低一档是照片驱动,俗称talking photo(能动的照片),前几年就有类似的APP火过一阵。

利用深度学习、图像处理等技术,就能让照片里人物的嘴巴和眼睛动起来;如果让照片里的人开口说话或唱歌,则要用到对口型(唇语匹配)和语音生成。“这些技术都已经成熟且开源,量产之后,单次成本可以压缩到10元以内。”有10年AI创业经验的极链科技创始人&总裁董慧智介绍。

第二档是表情捕捉驱动的伪直播,给真人模特换上逝者的形象和声音,进行语音电话或视频电话等互动,或生成祝福短视频等。

这里面用到了语音克隆、AI换脸、动捕(表情捕捉)、深度伪造(deepfake)等技术来变人变声。董慧智称,这是一种特别讨巧的方式,技术不新鲜,部分AI诈骗用到的是类似的技术。动捕器材及人力成本稍高一些,需要数千元。

这类“AI复活”的视频片段在短视频平台播放量很高,一般是小辈为家里的老人下订单,找人用逝者的脸和声音与老人通话,对老人谎称逝者在外工作,将“善意的谎言”继续,老人一般也看不出异样,只是频频抹泪。

第三档是近期比较火的用数字人技术“复活”亲人,因为交付的产品不一样,成本也有所不同。

一般来说,通过收集人物生前的照片、声音等数据来克隆数字人的形象和声音,然后底层搭载大语言模型模拟逝者的思想,可与之进行实时的文字或语音交流。

51数字人有这项业务,创始人陈鸿告诉「定焦」,一般产品交付的是一个带有数字人的屏幕,大屏有电视那么大,小屏可以是iPad那么大。用户登录账号之后,就能看到逝去亲人的数字人形象,用户可以通过语音或文字与数字人互动,产品还可以提供语音电话叫醒服务。

“定制类的‘复活亲人’业务,一般要5万元以上。”陈鸿称,因为客户都是长期付费,后续还会不断在细节上调优,也有一些客户是一个家族凑钱一起做,要求更高。

“AI复活”对于数据质量的要求非常高,被克隆者生前的照片、视频或语音样本越多、越清晰,数字人的相似度就越高。再输入一些个人特征数据,比兴趣爱好,才能模拟其性格。“素材不够全,成本还会再增加。”陈鸿表示。

因此,精度越高、数据越定制化,效果也就越接近真人,价格也更贵。所谓的精度,主要体现在以下几个方面:人物口型准确度、分辨率清晰度、动作复杂程度、服饰发型和表情丰富度、语音(音色、语气)相似度、是否有电音、是否有抑扬顿挫(多情感)、是否带交互、交互是否更贴合本人性格等。

放到数字人领域,需要完美克隆某个人的技术难度可谓“上不封顶”。商汤科技“复活”的创始人汤晓鸥,就是一个案例。

商汤科技数字空间事业群数字文娱事业部总经理栾青告诉「定焦」,为了还原汤老师的音容笑貌,用到了不同技术。整个制作过程中,商汤运用了自研的TTS语音生成大模型,截取了汤老师四、五段不同说话风格的声音作为prompt(提示),总声音素材不过十几秒,还原了汤老师的东北口音、音色、常用的语气词和语调以及冷幽默的风格。

此外,商汤如影数字人技术团队采用了汤老师之前清晰有效的视频,用商汤自研的视频生成技术进行动作生成和场景过渡,还原走动、喝水等动作,以及微笑的表情。

受限于素材不多,以及算力、成本的考量,目前很多数字人的视频和产品看起来还是很“假”。“这些都不算是完整地‘复活’数字人,技术和服务的最高交付上限,也无法满足人们的最低需求下限”,陈鸿称。

形象不够像,就得用情绪价值来补,在数字人的设计上加入一些交互细节。他举例,比如一个客户的爷爷最喜欢老四,聊天时爷爷突然会说下个月是老四的生日了,家人要多聚、兄弟要和睦,客户就会一下子被打动。

总得来说,前两档用到的都是相对简单的图像处理、换脸和声音克隆技术,能看到人脸、模仿声音,但因为成本低,效果粗糙,市面上看到的还原度比较高且能动起来、能对话的都属于第三档数字人,越像越贵。

二、谁在靠克隆人赚钱?

从过往“复活亲人”的案例可以看到,大部分不像真人且让人出戏甚至尴尬。而随着生成式AI技术的发展,栾青观察到,“AI复活”在技术上的可行性和真实度上都变得更高,能让人投入、想哭,使得这类需求被进一步激发出来。

由此,一条产业链应运而生。在这条产业链上,一部分是跟风商家,一部分是数字人服务商,一部分是AI从业者,还有一部分是专门做定制AI复活(复活或克隆亲人、明星、企业家等)的玩家。

电商平台上,有不少店铺提供“AI复活”服务,让照片说话的标价多为10元、50元。短视频平台上,也有不少人以“AI造梦”“AI疗愈”的名义提供类似服务。“收费便宜、效果粗糙,但这是一个长期存在的长尾市场。”董慧智称。

这类生意也存在灰色空间,有短视频博主发布“复活”李玟、张国荣、乔任梁等已逝名人的视频,让他们开口唱歌和说话,虽然称“旨在致敬和纪念,无商业目的”,但此类视频获得的流量颇高,还有部分会借此引流做“亲人复活”生意。同时,一些提供“AI复活”服务的店铺也注明“只做怀念,人脸识别请绕道”。

目前,技术成熟的数字人服务商和AI从业者,更多是将商业模式放在B端,比如AI客服、数字人直播、AI老师、A主持人、AI医疗等,有部分推出了面向C端的类似工具,但并未大规模宣传。

有网友曾用大模型初创公司MiniMax的语音大模型,将一段90秒的音频素材进行语音克隆,并用MiniMax旗下的海螺问问APP生成智能体,与之进行语音对话。硅基智能也有“生命克隆和数字永生”业务,其旗下的炎帝大模型基于用户提供的数据克隆出数字人,用户则可以通过DUIX APP与数字人实时交互。

硅基智能DUIX APP定制数字生命

陈鸿和团队主要做的是高精度定制市场,平均一单5万元起,围绕大客户开发场景,比如数字墓地,去墓地缅怀先人时,先人从电子屏里走出来跟大家聊天;比如纪念馆智能工程,包括建筑空间搭建等;比如名人“复活”,用初期古画“复活”了朱熹等。

51数字人制作的朱熹

“提供定制服务的公司,不仅考验底层技术能力,更考验的是渠道深度以及服务的落地程度,这决定了能否让用户真正把数字人用起来。”陈鸿认为。

从技术提供方的角度来看,栾青认为,商汤如影的定位就是通过数字人技术赋能各个行业,谁更了解行业,谁更能下场服务好用户,谁有更深度的解决方案,谁就能吃到更多蛋糕,“复活亲人不是一个纯粹从技术角度就可以做的生意。”

“AI复活这门生意更适合中型团队去做”,董慧智分析,大公司的运营和研发成本很高,同样一套技术,他们会优先去做标准化、批量化、适用更多场景的B端生意。陈鸿也表示,大厂不愿意做,小团队没有实力做,这个市场年收入500万到1亿,是中型团队的机会”。

目前看来,“AI复活”看似门槛不高,但真正做好还要面对很多难题。

当前,“AI复活”还存在技术受限、素材储备缺乏、家中有人反对等局限,普及仍有难度。

大部分数字人需要攻克的技术难点是,能否做到人机难辨。栾青提到,数字人在说话、动作、场景衔接等方面已经向前进了一步,但在较长时间的交互过程当中,仍然未能达到真正的人机难辨,在情感传达、理解力、意识等方面还有待完善。

而真的想让一个人“复活”,细节体现在方方面面。陈鸿以一个交互场景举例说,在与数字人爷爷对话时,如果用户问到了数字人数据库里没有的信息,比如“谁是尼采”,数字人就会跳转到大模型,根据公开的答案回答,虽然可以持续进行多轮对话,但就会很假,用户的沉浸感就会被打断。

三、“AI复活”,仍需敬畏

“AI复活”的需求旺盛,但不是所有人都持支持态度,背后隐藏的隐私安全和伦理问题也不可忽视。

支持派认可的是其提供的情绪价值,认为“复活”亲人,是对生者的慰藉和对遗憾的满足,是技术向善的例子。

质疑派则认为人永远不可能“复活”,也无法进行“授权”。即便“AI复活”得到了亲属的授权和认可,但逝者本人的意愿无从得知。

“数字永生没有那么容易,即使使用大模型,最终复刻出来的只是一个长着相同面孔的GPT,当他以相似的记忆和远胜于本人能力和智商跟你对话时,你的感受一定会好吗?”董慧智反问。

3月16日,针对儿子肖像被短视频创作者侵权使用一事,乔任梁父亲表示不能接受,感到不舒适,希望对方尽快下架,“他们未征求我们同意,是我侄女刷到视频发给我的,这是在揭伤疤。”

如果克隆数字人出现问题,对生者可能将带来二次伤害。太多影视剧作品探讨过其中的伦理困境和人性幽微。

2013年播出的《黑镜》,其中一集讲的便是女主“复活”了在车祸中去世的丈夫,虽然复制了丈夫的记忆和躯体,却无法复制情感和选择,这位AI丈夫无需睡觉、不会受伤,只会呆板地按照命令行事。女主意识到“你不是你,你只是涟漪”,最终将机器人锁在阁楼上,却怨恨自己离不开这虚假的真实。

《黑镜》截图图源 / 豆瓣用户Hiro

随着“AI复活”产业链的成熟,“复活亲人”“克隆明星”的需求和案例增多,其中涉及的隐私数据泄露、AI诈骗等诸多法律风险,也受到关注。

现实生活中,通过AI换脸实施诈骗的案例时有发生。今年315晚会就曝光了多起利用AI技术换脸变声成亲人,实施诈骗的案例。此外,假冒名人也是骗局中的重灾区。今年3月,刘德华经纪公司映艺娱乐通过微博发布声明,称刘德华声音被克隆伪造,提醒各方人士警惕骗局。

复刻亲人时,为了更高的还原度,用户只能对技术提供方保有更大的开放度,这就决定了用户很难保护自己,一旦遇到骗子,很难界定到底是服务还是诈骗。

对此,陈鸿建议,想要“AI复活亲人”的用户,在下单前应该签署合同,规定数字人的各项权利属于个人,以及提供的个人信息不被泄露。

“AI的发展是超速的,而安全问题不管是从法律层面、文化层面、公民意识层面还是技术层面的,都处于滞后状态。”董慧智称,最终产业的发展还是要靠从业者自律和监管条例的规范。

栾青称,行业的规范和安全是业务发展的大前提。在中国信通院牵头下,商汤联合多家AI公司共同制定了“可信数字人”的标准。

不可怀疑的是,人和AI的关系会在今后变得更加紧密和多元,“AI复活”这件事,以后有可能会成为一个标准服务,就跟打印一张照片一样简单。

随着技术进步,“AI复活”的概念还在继续升级,比起一段视频、一个聊天机器人产品,有人提出了数字永生、数字陪伴、随身亲人等概念,“有富翁在自己还活着的时候,就开始着手复制自己,搭建自己的这种数字永生库”,董慧智称。

2015年,俄罗斯亿万富翁德米特里·伊茨科夫发出倡议,宣称到2045年将为所有人打造一副机器人身体来实现永生,这项计划面临一定争议。2022年,伊隆·马斯克在推特上提到已经将自己的大脑上传到云端,并与自己的虚拟版本交谈过,但有人认为这是马斯克在宣传自己的脑机接口公司Neuralink。

随着“AI复活”褪去神秘感,行业或许也会开始进入价格内卷的时代,如果不想出现“劣币驱逐良币”的情况,行业还需保持敬畏之心。

Sora给你带来的真实变化

aigc阅读(56)

距离Sora的发布已经有一段时间,但对它的讨论还在持续。讨论话题已经从Sora会不会取代人类、现实会不会不存在、中国能不能做出来类似模型,变成了“将来如何用Sora搞钱”“AIGC赛道有没有机会创业”。

所以,在继《Sora给中国AI带来的真实变化》后,我们想要多聊一个话题,就是Sora代表的新算法、新能力,将给对AI有好奇,也有一些忐忑的你,带来什么变化。

Sora给你带来的真实变化

想聊这个话题,是因为我们发现,现在规模庞大的讨论,都把这件事描绘得太复杂了,甚至有点南辕北辙的意思。但事实上,AIGC作为一种基础技术,它的逻辑非常简单,效果显而易见。从芯片到算法,都有非常透明的信息机制,不存在巨大的信息差与行业内幕。

在我们看来,在今天过多聊Sora,聊AI大模型没有过多意义。它对于普通人来说只有两个价值,一个是等着用,一个是把它做成应用给别人用。

以极低的门槛,开发AIGC原生应用,是Sora带给普通人最大的机会,没有之一。

一、“关于AI的讨论,我有四不听”

借用短视频上“我有四不吃”“我有四不做”的这种梗,关于AI大模型的讨论,咱们也可以有四不听。在最初的热度之后,讨论AI大模型与个体的关系,一般是面向那些想用AI创业、赚钱,或者至少让AI成为自己一技之长的人。这类受众抱着希望了解AI,利用AI的心态,所以总是希望听到一些“秘辛”,来给自己增强信息差。但有四种讨论,却是没什么必要听的。

1. 卖课的我不听

短视频上很多那种卖AI课程的老师,套路一般是上来一顿制造焦虑,告诉你再不学AI就晚了,就坏了,下一桶金就让情敌先赚了。你一着急,就报班交钱。但问题是,这些老师根本没有什么AI从业经验,没接触过AI项目,甚至根本都不知道AI这门技术怎么来的。听他们的讨论,本质上跟给成功学大师交钱没什么区别。

Sora给你带来的真实变化

2. 卖社群的我不听

鄙视花钱买课的年轻人,更喜欢轻量化,分享化地加入一些AI社群,从这些社群里可以得到大量AI资源。这当然很好,也很实惠。但问题是平台和社群运营方,为了让社群持续运营,往往会不断把AI技术复杂化,抽象化。恨不得把简单的问题说得千丝万缕。同时喜欢搞资源轰炸,给你一堆学习资料,多到你根本不会打开它们。

了解AI就像对其他知识一样,切忌搞资源满足症。同时也要想想那些人天天说社群运营变现能力如何强,会不会是要把你的现金变到他的口袋里?

3. 技术专家的我不听

这句话说出来好像十分混蛋,技术专家的不听你想听谁?其实,这句话的意思是,对于普通人,乃至对于大多数AI开发者来说,过分底层的技术逻辑都是没有必要弄懂的。AI大模型的泛化性,带来的核心价值之一就是极低门槛开发。如果不是研发从业者,真的没有必要去比较底层的技术。

4. 行业大咖的我不听

最近参加了不少AI大模型的研讨、峰会,让我有一个感觉就是台上的嘉宾们在鸡同鸭讲。原因在于,Sora这类新的AI热点太新了,行业还没有真正接受。这种缺乏共识的情况下,大咖们往往会基于自己以往的业务、经验来进行判断。最后大多数变成了给自己的公司,自己的项目打广告。这种讨论看多了,不仅容易信息错落,还容易误把广告当真理。

这个也不听,那个也不听。到底应该听谁的?

其实问题在于,对于一个逻辑清晰,信息透明的事情来说,你大可以谁都不听,只相信自己。

二、准备好享受娱乐迭代了吗?

让我们回到Sora本身,它给世界带来的最大价值是什么?是颠覆某个行业,比如偷走影视特效人员的饭碗?是强化某种体验,比如让元宇宙具有更强的个性化能力?比如在工业数字化中应用,带来更好的工业数字孪生?

这些当然都是对的,但都没有抓住问题的重点。Sora的出现,核心问题是让AIGC中的视频生成能力得到了加强,使得AIGC中视频生成这个难度最大的领域获得了突破。其所具备的多种技术特性,都可以让AIGC视频更好落地。比如通过采样灵活性的增强,Sora可以适配更多样化的屏幕尺寸,解决了同一个模型适配不同屏幕比率,不同分辨率的问题。再比如Sora提供了更强的意图理解能力,让抓取用户诉求的AIGC更具可行性。

Sora给你带来的真实变化

这些能力到底有什么用?简单来说,就是会让视觉娱乐更具个性化。回顾人类的视觉娱乐历史,会发现有两条线贯穿始终,一个是个性化,一个是廉价化。

从舞台剧、电影、电视到PC视频、移动视频+直播,再到信息流+短视频。视觉娱乐这种最能消耗人类空余时间的方式,不断变得更加唾手可得,成本更加低廉。与此同时,视觉娱乐也用增加选择的方式来提升其个性化能力。

说白了,人类努力了数千年,就是希望能以更加高效、低价的方式看一场表演。

而Sora带来的AIGC视频能力,非常符合视觉娱乐发展的轨迹。AIGC可以省略基本的演出者,让视觉娱乐成本进一步下降,甚至成本从表演者、服化道、视频编辑,直接变成了AI算力。同时,AIGC视频会让视觉娱乐的个性化能力全面升级。用户可以直接下命令来生成视频,而不是让AI通过用户的划走、留下行为来进行行为抓取。

因此,Sora的最终价值十分简单,它只会是视觉娱乐的升级。未来我们将可以命令AI来生成某种视频,或者让AI来猜测我们的喜好自动生成某类视频。颜值、演技、情节、观点,这些东西都将以非常廉价的方式进行个性化定制。

在这种模式下,你将享受源源不断的视觉娱乐。游戏里的关卡,VR里的场景,与你聊天的数字人主播,惊险刺激的短视频内容,都将来自AIGC。其实,今天你所看到的信息流与视频,也大多数是AI推荐给你的。未来AI不仅会推荐,还会顺便把内容做了,所以其实也并不差很多。如果你不想以AI为业,那么Sora的出现只能指向着未来的新娱乐体验。

我们不用做什么,等待就好。

三、准备好成为AI开发者了吗?

但是,如果并不只想当一名用户呢?如果觉得AI是个机会,想要做一番事业呢?我们想做一件事,就必须知道这件事到底是个什么东西,是不是跟外界说得那么玄乎,以及具体开始时,要知道它的易点和难点都是什么。

当你看到Sora时,如果想到了自己能不能用Sora当底座,去做成一些事,去赚钱,那么恭喜你,这个念头至少已经帮你走对了第一个分岔路口。这个路口就是,我们究竟该惧怕被AI抢走饭碗,还是要把AI变成饭碗?

这几年是AI大模型的集中爆发期。每次出现新技术都会有媒体宣传它要抢饭碗,于是相关职业从业者和在校学生就会担心,接着就开始看这种反面意见,讲述AI其实很弱智云云,于是感觉似乎不那么焦虑了。直到新的技术又出现了……如果一直处在这种循环里,那你可能确实需要考虑一下自己的工作了。不是考虑它是否被AI取代,而是它的可取代性是不是太高了?至少到目前为止,需要专业性并且有市场需求的职业,绝对无法是AI以及其他所有数字化技术可以取代的。

反过来说,能够应用AI技术开发应用,这件事本身就是足够专业且有市场的。与其考虑被AI替代,不如考虑如何让AI为自己打工。

如果让自己成为AI开发者?这就需要对这份工作的优势与劣势具备认知。

首先来说说优势。很多朋友都想知道,自己不是学AI的,甚至不是理科生,可能成为AI开发者吗?答案是可以。

AI大模型具有极好的泛化性,这意味着它对于人类指令的认知能力全面提升。大模型正在催生超低代码与无代码开发成为可能。OpenAI发力打造的GPTs就是其中的代表。因此,AI大模型应用的开发门槛会持续降低,几近于无,然后开发者之间比拼的就将不是技术能力,而是创意与执行效率。

第二点,不少人会担心美国AI公司能力更强,而且这些算法在中国不能用。这个其实非常无所谓。中美之间没有绝对的AI技术鸿沟,一种被证明有效的AI算法,中国AI行业一定可以做出来,可能效果打折,可能有诸多兼容问题,但AI技术整体的路线是透明的。

第三点,有人会觉得小团队甚至个人开发者没有机会。毕竟缺乏技术功底,也没有资本加持。但要看到的是,世界各地正在涌现大量精致小巧,且非常火爆的AI应用。很多案例证明AI反而是小团队掀翻行业桌子的机会。

甚至说,在接下来的全球AI应用涌现期,只有你有足够的视野与敏锐度,是可以“借鉴”到很多优秀AI应用的。这种模式当然并不光彩,但客观上看从PC时代到移动时代,把出色“应用”借鉴过来都是行之有效的方案。第四点,还有人会认为学习AI,成为AI开发者太难了,没有门路,没有学习资源,于是去报课,去参加各种社群讨论。但这时很容易忽视一件事,就是国内各大厂商为了培养AI开发者,已经在过去很多年间打造了各种免费、系统且被验证过的学习路径与课程资源,大可不必被各种旁门左道的AI讲师忽悠。

当然,有好的一面就有坏的一面。AI开发者,尤其是直指大模型原生应用的AI开发者,也会面临几个巨大的问题。

Sora给你带来的真实变化

首先,找到一个特别好的点子,这件事依旧很难,甚至是需要巨大运气的。AI技术将打破很多规则,在一片混沌中重新找到秩序,这件事可能拼的不仅是努力。

其次,Sora这类大模型证明了一件事,就是AI算力将越来越紧俏,甚至全面进入稀缺时代,加上地缘层面的不确定性,AI算力在可见的未来将越来越昂贵。如何应对算力成本,才是开发者需要头疼的问题。

此外,虽然目前AI原生应用一片蛮荒,大有可为,但势必会出现在某类应用走向成功后,巨头加入赛道导致洗牌。所以,AI原生应用是一个跟巨头抢时间,用间隙期极速发展,尽快上岸的游戏。

AI大模型,就像沙漠里突然涌出了一片泉水,有人想用它搞养殖,有人想用它开洗浴。大家都在想,但最先解渴的人肯定是先拿起水桶跑过去的那个。

四、大模型到应用,直线最短

最后,我想聊聊AI思维。AI思维到底是个什么思维,这件事说来就话长了,且随着技术本身的发展,相应的思维模式还在不断翻新。但有一点需要肯定,那就是AI思维肯定不是复刻思维。

目前阶段,中国科技产业对于AI大模型这轮技术热潮,还处在努力吸收消化当中。这个过程中,表现一种流量导向的思维方式,具体体现为两种。一个是尽量复刻国外的创新,最多就想在复刻的时候多搞点花样,怎么去做一个“中国版的某某某”。这件事当然很对,有中国版的Sora十分重要,但假如有超过100个中国Sora,那确实会造成巨大的浪费。另一种就是用现有的成绩去靠大模型热点,从而出现了AI PC、AI手机、AI家电等产业趋势。

但这些对大模型的思考,都是立场先行,热点先行的。举个例子,大家都是什么AI火了就想复刻什么。但AI大模型+塑料分析这种场景非常有意义,却根本没人讨论。这种时候,我们很容易忽视最简单的问题:大模型要有大模型的用法,它作为技术创新才有意义。

所以,想要让Sora,让AI大模型对你有意义,就要摒弃外界的噪音,回归最简单的规律。从大模型能够做什么的基础问题开始思考,在这条直线上的就对,不在的就掀翻它。

我怀着巨大的信心,想要说出这么一件事:AI大模型这场游戏的最后赢家,不是现在的某家大公司,某个大项目,而是某个不知名的你。像在杭州民用房里讨论未来的马云,像不知道创业做什么的张一鸣。

不要管大厂有什么布局,不要管前辈有什么经验,不要管网上有哪些分析,只考虑基础设施、成本和可能性,以最短路径打破常规。

你与AI之间,直线最短。

Sora,乃至发展了70年的AI技术,就是在为你提供这样一个机会。一个以直线打破所有曲线的机会。

奥特曼专访:关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切

aigc阅读(83)

今天凌晨,也就是几个小时前,OpenAI 的董事长 Sam Altman 公开一则专访,包含一切大家感兴趣的话题,主持人是 Lex Fridman。

谈话内容,按顺序如下:

  • OpenAI 董事会之争
  • Ilya Sutskever 去哪了?
  • Elon Musk 的诉讼
  • Sora
  • GPT-4
  • 记忆与隐私
  • Q*
  • GPT-5
  • $7 万亿美金的募资
  • Google and Gemini
  • 跨越到 GPT-5
  • AGI
  • 外星人

我肝了一晚上,精翻。由于本次对话过长,略去英文原文。

Part 1:OpenAI 董事会之争

Lex Fridman:

请你带我了解一下从11月16日星期四开始的,或者对你来说是11月17日星期五的 OpenAI 董事会那一连串的事件。

Sam Altman:

那确实是我一生中最痛苦的职业经历,混乱、羞耻、心烦,还有很多其他的负面情绪。当然也有不少好的方面,但我当时被肾上腺素冲得头昏眼花,没能停下来好好欣赏它们。我翻看了那个时期自己发的一条旧推特,感觉就像在读自己的悼词,看着别人对你说出的那些美好的话,感受到来自我所爱和在乎的人的难以置信的支持。那真的非常美妙。那整个周末,除了一个很大的例外,我感觉到了浓浓的爱意,几乎没有仇恨,尽管当时感觉自己完全搞不懂正在发生什么,接下来会发生什么,整个人感觉非常糟。确实有些时候,我以为这可能会成为AI安全领域发生的最糟糕的事情之一。不过,我也觉得,它发生得相对较早是件好事。我曾想,从OpenAI成立到我们创造出AGI,中间肯定会有些疯狂爆炸的事情发生,而且未来也许还会有更多疯狂爆炸的事情发生。不过,我认为这次经历增强了我们的韧性,为未来可能遇到的更多挑战做好了准备。

Lex Fridman:

但你有没有预感到,你可能会经历某种权力的角逐?

Sam Altman:

通往 AGI 的道路肯定会充满激烈的权力角逐。世界会……嗯,不是会,我是说我预计这就是未来的景象。

Lex Fridman:

所以你必须得经历这个过程,正如你所说,要尽可能频繁地迭代,弄清楚如何构建董事会的架构,如何进行组织管理,如何选对合作伙伴,以及如何有效沟通,目的是为了尽量减少权力斗争。

Sam Altman:

没错

Lex Fridman:

放轻松

Sam Altman:

但现在,那感觉像是一段已经过去的时光,曾经非常艰难、痛苦,难以忍受,但我们又回到了工作岗位,事情忙得不可开交,强度巨大,以至于我并没有太多时间去回想那段经历。那之后有一阵子,可能是一个月左右,或者说 45 天之后,我仿佛处于一种恍惚状态,每天都感觉自己像漂流瓶一样,茫然四顾。我的精神完全崩溃了,情绪也陷入了极度低落。

Lex Fridman:

就在个人心理层面上?

Sam Altman:

是的,非常痛苦。而且在那种情况下还得坚持管理 OpenAI,难度真的很大。我只想找个洞穴钻进去,好好休养一阵子。不过现在,我们又回到了奋战在我们的使命上。

Lex Fridman:

嗯,对于你这样有极高潜力打造 AGI 的人来说,回过头去反思董事会架构、权力动态、公司运作方式、研究与产品开发之间的张力、金钱等因素,无疑是有益的。这样一来,未来你在建立 AGI 的道路上,可以更加有条不紊,少一点戏剧性冲突。所以,不妨去那儿走一遭,不仅是为了你作为领导者的个人心理层面的成长,同时也是为了搞清楚董事会结构和所有那些复杂混乱的事务。

Sam Altman:

我确实从中学到了许多关于组织结构、激励机制以及我们对董事会的期望。在某种意义上,这种情况现在发生我觉得还是有它的价值的。我认为这可能不是 OpenAI 最后一次面对如此大的压力,但这无疑是一个相当紧张的时刻。我的公司差点就垮了。除了考虑很多其他我们必须为 AGI 准备好的事情外,思考如何打造一个有韧性的组织、如何构建一个能承受世界压力的结构体系,我认为这非常关键。

Lex Fridman:

你能感觉到董事会在决策过程中的深度和严格程度吗?能否透露一下这种情形下涉及的人与人之间的动态是怎样的?是不是就几次对话后事态突然激化,然后就有人说“为什么不开除 Sam”这种话?

Sam Altman:

我觉得董事会成员整体而言都是出于好意的人,我相信在那种压力重重,时间紧迫的情况下,人们能够理解并会作出非最佳的决定。我认为 OpenAI 面临的一个挑战是,我们必须组建一个在压力之下依然能够高效运作的董事会和团队。

Lex Fridman:

你觉得董事会的权力过大了吗?

Sam Altman:

我觉得董事会理应掌握重要的权力。但是,我们注意到,在大多数公司架构中,董事会通常需要对股东们负责。有时候,人们可能持有一些特殊的投票权股份。在这个情况下,我觉得对于我们的架构来说,一个我们或许应该更深入思考的问题是,如果不特别制定规则的话,非营利组织的董事会实际上掌握着很大的权力。他们并不真正向任何人负责,除了他们自己。这样有它的好处,但我们更希望的是 OpenAI 的董事会能够对全世界负责,尽管我们知道在实践中这可能很难做到。

Lex Fridman:

所以他们宣布成立了一个新的董事会。

Sam Altman:

嗯,对。

Lex Fridman:

刚开始是一个新的小型董事会,现在又换成了新的正式董事会?

Sam Altman:

我们的董事会还没有最后敲定。我们已经添了一些成员。接下来还会继续增加。

Lex Fridman:

加了一些。好的。在新版本里修复了之前版本哪些可能出现的问题呢?

Sam Altman:

旧董事会在大约一年时间里逐渐缩减了。起初是九个人,后来减到六个,接着我们在增补新成员上意见不统一。我觉得董事会中也缺乏经验丰富的成员。而现在 OpenAI 的新董事会成员们都有着更多的董事会工作经验。我认为这会有所改善。

Lex Fridman:

这个问题受到了不少批评,比如有人对拉里·萨默斯被加入董事会表示不满。你们挑选董事会成员的过程是怎样的?这个过程中涉及哪些因素?

Sam Altman:

那个周末,Brett 和 Larry 的决定在一连串紧张气氛中做出了,那真是个情绪起伏的过山车周末。我们在波折中努力协商,希望确定新董事会成员,这些人选要得到这里的执行团队和老董事会成员的双重认可。其实,Larry 就是老董事会推荐的人之一。至于 Brett,我记得在那疯狂周末之前,我就提过他,但他当时太忙了,没兴趣。之后,我们迫切需要支持,在 [ 不清晰 00:09:22] 时更是如此。我们也考虑了很多其他人选,但我感觉如果我要重返岗位,就必须换上新的董事会成员。我认为自己无法再次与原来的董事会以同样的方式合作,虽然我们最终还是决定,也深表感激 Adam 能够留下。但在各种可能的配置下,我们最终决定要组建一个三人董事会,并在极短的时间内找到两名新董事会成员。

所以那些决策实际上是直接做出的……在战场上就是这样,你没办法去设计一个严格的流程。但对于之后加入的新董事会成员,以及未来我们还会继续增加的成员,我们确实设立了一些重要的标准。我们希望董事会能够涵盖不同的专业领域。招聘执行官的时候你可能只需要他们在一个岗位上做好,但对于董事会而言,它们需要在治理和思考方面表现出全方位的能力。Brett 说过一句我特别认同的话,那就是我们希望以整批的方式招募董事会成员,而不是一次聘用一个人。我们努力要实现的是吸纳一批人,他们能够带来非营利组织方面的专业知识、企业运营的专长,以及扎实的法律和治理专业知识。

Lex Fridman:

那么,董事会成员个人的技术水平重要吗?

Sam Altman:

不是每个董事会成员都需要这样做,但肯定有些人是必须的。这正是董事会职责的一部分。

Lex Fridman:

人们可能还不太了解 OpenAI 的有意思的一面,我自己肯定也不够了解,那就是运营业务的所有那些细枝末节。当人们想到董事会,再想到那些戏剧化的元素,他们首先想到的是你。他们会思考,如果你们开发出通用人工智能(AGI)或者其他一些具有巨大影响的产品,并且成功将它们推向市场,那么你和董事会之间会有怎样的对话呢?他们还会考虑,在这种场景下,要组建一个怎样的团队来进行决策和讨论?

Sam Altman:

你看,我认为董事会里肯定需要一些技术专家。同时,也需要那些会考虑到:“我们怎样部署这项技术才能最大限度地造福人类?”的人。还需要那些有着截然不同视角的人。我想,像你我这样的人可能会犯的一个错误就是以为只有技术上的理解才是关键,这确实是你希望董事会讨论的内容之一,但还有很多其他方面,比如这项技术将如何影响社会和人们的生活,这些你也同样希望能够在董事会中得到体现。

Lex Fridman:

你是在审查他们过去的成就记录,还是只是跟他们进行交流?

Sam Altman:

过去的业绩确实很关键。你当然会有很多对话,但在某些角色上我会完全不去看过去的业绩,只看他的上升势头,忽略掉 Y 轴的截距。

Lex Fridman:

谢谢你。感谢你用数学的方式向观众阐明问题。

Sam Altman:

作为董事会成员,我确实更在乎 Y 轴截距。在这方面,我觉得对于过往业绩的记录能说的深入之处很多,而且经验是一种很难替代的东西。

Lex Fridman:

你是尝试用一个多项式函数还是指数函数来拟合这个成绩记录?

Sam Altman:

这个比喻有点牵强。

Lex Fridman:

好的,你之前提到了那个周末经历的一些低谷时刻。在心理上,你都遇到了哪些挫折呢?你有没有想过干脆去亚马逊雨林,尝试一下阿亚瓦斯卡(一种致幻剂),然后就此隐匿天涯呢?

Sam Altman:

这段时间真的很糟糕。不过也有一些非常棒的时刻。我的手机简直要爆炸了,一直收到来自我日常工作的伙伴们,以及那些十年未见的老朋友们发来的暖心信息。我应该更加珍惜这些时刻,但当时我忙于应对危机,没能充分感受到这份温暖,不过这确实让人感到很棒。总体而言,那个周末还是非常痛苦的。它就像是一场在公众视线中打响的战斗,出乎意料地让我筋疲力尽,远比我预期的要累。通常争斗本就令人筋疲力尽,而这场尤其如此。董事会在周五下午做了这个决定。我真的很难获得任何答案,但我也觉得,既然董事会有权这么做,那么我就应该花点时间好好想想我接下来想要做什么。不过,我会试着在这件事中寻找隐藏的幸运。

我当时心想,我的目前职位在 OpenAI,或者至少过去是,负责运营一个规模相当大的公司。我一直最喜欢的部分就是与研究者们共事。然后我就在想,对,我完全可以去从事一项高度聚焦的 AGI 研究工作。这个想法让我感到很兴奋。当时我甚至没意识到,所有这些努力可能会化为泡影。那是在一个星期五的下午。

Lex Fridman:

所以你已经接受了这一的终结……

Sam Altman:

非常快,真的非常快。我确实经历了一段时间的迷茫和愤怒,但这种状态转瞬即逝。到了周五晚上,我已经在跟人讨论下一步该怎么做,而且我对此感到振奋。我记得是周五晚上,我首次听到我们执行团队的人说:“嘿,我们将会反击。” 然后,我带着兴奋的心情上床睡觉了,心想,向前冲。

Lex Fridman:

你能睡着吗?

Sam Altman:

不多。有一段蛮奇怪的时期,大概四天半吧,我几乎没怎么睡觉,也没怎么吃东西,但是依然精力充沛。你会在战时了解到一些关于肾上腺素的奇特现象。

Lex Fridman:

所以你已经接受了,这个被你视为孩子的 OpenAI 会有失败的一天。

Sam Altman:

我当时对那个新东西特别激动。就那么想着,“行吧,这玩意儿确实疯了点,但管它呢。”

Lex Fridman:

这真是个很棒的应对策略。

Sam Altman:

那天周六早上,两位董事会成员给我打电话说,“嘿,我们并不是想搅局。我们不打算在这里大把存储价值。我们能谈谈你回归的事情吗?”起初,我真的不想回去,但后来我又仔细思考了一番,我意识到我非常关心这里的人,我的合伙人和股东们。我爱这家公司。于是,我想了想,对他们说:“好吧,不过我有我的条件。”而那整个周末,是最让人痛苦的时刻,我不断地反思,也被告知,而且不只是我,我们整个团队都在想,我们正在努力维持 OpenAI 的稳定,而此时全世界似乎都在试图将其分崩离析,到处都有人在尝试挖角。

我们一直被告知,“好了,我们快要弄完了。我们快要完成了。我们只需要再多一点点时间。”这让人非常困惑。直到周日晚上,我几乎每隔几小时就会以为我们就要结束了,我们能找到方法让我回去,让一切恢复原状。但董事会随后任命了一位新的临时CEO,那一刻我感觉真的很难受。那是整件事中最低谷的时刻。我跟你说,虽然感觉非常痛苦,但我在那整个周末都感受到了很多爱。除了那个周日晚上的瞬间,我不会说我的感受是愤怒或恨,相反,我感受到了来自人们的爱,也对他们满怀爱意。那很痛苦,但那个周末的主导情绪是爱,而不是恨。

Lex Fridman:

您曾对 Mira Murati 给予高度评价,说她在那些关键的、平静的时刻给予了特别的帮助,就像您在推文中提到的那样。或许我们可以稍微绕个弯。您最欣赏 Mira 的什么特质呢?

Sam Altman:

她在那个周末的混乱中表现得非常出色,但人们往往是在危机时刻,无论好坏,才会关注领导者的表现。然而,我真正看重的是,在一个平凡的周二早上 9 点 46 分,在日常的平淡和繁琐中,领导者如何行动。一个人怎样出席会议,他们作出决策的质量如何。这就是我提到的“静默时刻”的含义。

Lex Fridman:

绝大多数的工作都是日复一日,在一次次会议中慢慢推进的。只需要聚精会神,做出优秀的决策就行了。

Sam Altman:

是的,看吧,你想要花费过去二十分钟探讨的那件事——我明白——是关于那个非常戏剧化的周末,但那并不是 OpenAI 的核心所在。OpenAI 的重心实际上在于其余的七年。

Lex Fridman:

嗯,对。人类文明可不止是纳粹德国侵略苏联这档子事,但这依旧是大家特别关注的焦点。

Sam Altman:

没错

Lex Fridman:

这为我们提供了洞察人性的窗口,包括人性的极致以及或许正是在那些时刻,人类文明的某些毁坏和伟大成就得以显现,因此这非常具有启发性。

Part 2:Ilya Sutskever 去哪了

Lex Fridman:

那么关于 Ilya 的问题,我可以问你吗?他是不是被关在某个秘密核设施里作为人质?

Sam Altman:

No

Lex Fridman:

那么普通的秘密基地呢?

Sam Altman:

No

Lex Fridman:

一个不涉密的核设施怎么样?

Sam Altman:

肯定也不是

Lex Fridman:

这事儿已经有点成梗了。你跟 Ilya 认识很长时间了对吧。他显然卷入了那场董事会的风波。现在你俩的关系怎样?

Sam Altman:

我非常喜爱 Ilya,对他也有着极大的敬意。关于他的计划,我现在真的没什么可以透露的。这应该由他来回答。不过,我真心希望我们能够持续合作,至少在我的职业生涯剩余时光里。他比我年轻那么一点,也许他会比我工作更长久一些。

Lex Fridman:

有个流传的段子说,他看到了一些东西,好像是他看到了AGI,这件事让他内心充满了忧虑。Ilya 到底看到了什么?

Sam Altman:

Ilya 从来没有见过通用人工智能(AGI)。我们任何人都还没有。我们也还没造出通用人工智能。不过,伊利亚身上有很多让我敬佩的品质,其中一个就是他非常重视关于通用人工智能及其广泛的安全问题,这包括它可能对社会造成的影响。随着我们不断地取得显著进展,这几年我最多的时间都是和伊利亚一起讨论这将意味着什么,我们需要怎么做才能确保做得正确,以保证我们的使命能够成功完成。所以,虽然伊利亚没有见过 AGI,但他对确保我们在这个过程中行得正、走得稳的深思熟虑和忧虑,对人类来说是一份宝贵的贡献。

Lex Fridman:

我过去与他有过不少交流。我觉得,每当他谈到技术,他总是持有一种长远的思考方式。他不太关心一年内会发生什么,而是在想象10年后的情况,基于首要原则去思考:“好的,如果这东西真的能够扩展开来,那么基本要素是什么呢?会有哪些发展?”这种思考方式为他们在关注所有的安全问题等方面打下了坚实的基础,这也让和他对话变得非常吸引人。你了解他为何近来鲜有发声吗?他是不是在做些灵魂深处的思索呢?

Sam Altman:

再说一次,我不想代表 Ilya 发言。我觉得你应该亲自去问问他。他绝对是个思考深刻的人。我认为 Ilya 始终在以非常积极的方式进行灵魂探索。

Lex Fridman:

是的,对。他还真懂得沉默的魅力。我听说他其实挺逗的,不过我个人还没机会见识过这一面。

Sam Altman:

当那种情况发生时,感觉真的很温馨。

Lex Fridman:

我还没遇到过傻傻的 Ilya,不过我也挺期待这一天呢。

Sam Altman:

我最近和他一起去了个晚宴,他当时正在和一只小狗玩,心情非常轻松、嬉皮,真的很让人觉得亲切。我当时就想:哇~这面是 Ilya 不太给外界看到的。

Lex Fridman:

那么,就这整桩事情而言,你对董事会的架构满意吗?

Sam Altman:

Yes

Lex Fridman:

… 关于这一切及其走向,你有何看法?

Sam Altman:

我对新董事会的组建感到非常满意。在 OpenAI 的架构方面,董事会的职责之一就是进行审视,看看我们如何能够加强其结构的韧性。我们的首要任务是先确定新的董事会成员,但显然在这个过程中,我们对结构的认识有了显著的进步。我认为我没有什么特别深刻的见解。这是一段极其混乱和痛苦的经历。我觉得这就像一场怪异的完美风暴。这对我来说预示着未来的挑战,随着赌注的不断升高,我们需要有更为强健的治理结构、流程和团队。我很庆幸这一切在我还年轻时发生,但实际上这是一次异常艰难的经历。

Lex Fridman:

这会不会使你在信任别人方面变得更加犹豫呢?

Sam Altman:

Yes

Lex Fridman:

就个人而言?

Sam Altman:

是的,我自认为是一个极度信任他人的人。我一向坚持的人生哲学是:不必太过担忧,不必在意那些偏执的疑虑和极端的可能性。这样做的代价可能是偶尔吃点小亏,但作为回报,你得以放松警惕地生活。然而这件事对我来说真的是晴天霹雳,我措手不及,它确实改变了我。我并不喜欢这种改变,但它确实影响了我对于对人默认信任的态度以及对潜在坏情况的规划。

Lex Fridman:

你得在这方面多加留心。你担心自己会变得过于愤世嫉俗吗?

Sam Altman:

我不害怕自己会变得过于愤世嫉俗。我觉得我本性里就很不愤世嫉俗,但我担心,自己可能逐渐丧失那种对别人的本能信任。

Lex Fridman:

我其实还没把握好,对于那些正致力于开发通用人工智能的人而言,是信任模式更为适宜,还是持怀疑态度更好。这条路你走得真有意思。不过说到架构,我其实更关注人这一层面。你怎么做到让自己周围都是那些既在打造酷炫东西,又能作出睿智选择的人?因为你挣的钱越多,这件事的影响力也就越大,周围的人就越发变得诡异。

Sam Altman:

我觉得你完全可以就董事会成员的问题,以及我应该给予的信任程度,或者说我应该采取不同的做事方式提出种种意见。但如果说到这里的团队,我相信你会给我一个非常高的评价。对于那些我每天都要共事的人,我心中充满了巨大的感激、信任和尊重。我认为,让自己被这样的人包围是极其重要的。

Part 3:Elon Musk 的诉讼

Lex Fridman:

我们共同的朋友 Elon Musk 起诉了 OpenAI。在你看来,他批评的核心问题是什么?他有多少批评是站得住脚的?又有多少是误会或不对的?

Sam Altman:

我真的不清楚这到底是怎么一回事。最初,我们只认为自己将成为一个研究实验室,对这项技术未来的发展毫无头绪。那是七八年前的事了,现在想回忆起当时的情况真的很难,那个时候语言模型还没成为热门话题。我们甚至还没想到要开发一个 API 或者卖聊天机器人的访问权限。我们也没有想过要将其产品化。当时我们的想法就是,“我们就去做研究吧,至于研究成果能用来做什么,我们并不清楚。” 我想在探索完全新颖的事物时,你总是摸着石头过河,制定一些假设,而这些假设大多数最终都被证明是错误的。

接着,我们意识到我们需要做出一些不同的事情,并且需要巨额的资本。所以我们就在想,“行吧,当前的结构显然不太合适。我们该怎样去补救?”补了一次又一次,最终我们得到的东西确实让人不禁挑挑眉毛,至少可以这么形容。不过,我觉得我们在每一步都做出了合理的决策。这并不是说如果能有机会回到过去,有个先知在旁边指导,我就不会选择完全不同的做法。不过,当时我们手边可没有先知。不管怎样,至于埃隆真正的动机是什么,我真的不清楚。

Lex Fridman:

在 OpenAI 的博客文章中,他们给出的回应主要集中在为什么他们认为不应该继续推出完整版 GPT-3 API 的理由。他们提到了对模型潜在被滥用的担忧,以及他们认为现阶段需要加强监管和提高透明度。此外,他们也谈到了对于 AI 长期影响的责任感,并表示愿意与其他机构合作,确保 AI 的使用是安全和有益的。

Sam Altman:

哦,我们刚刚提到埃隆表达了一系列看法。这里是我们的陈述,或者说不是我们的陈述。这是对事件经过的一个描述。我们试图不带入个人情绪,只是陈述,“这就是历史。”

Lex Fridman:

我觉得 Elon 对你刚才提到的一点有些误解,也就是你们当时所面临的不确定性有多大。你们只是一帮小研究团队,疯狂地讨论着 AGI,而那时候,所有人都觉得这个想法很可笑。

Sam Altman:

Elon 不久前还在疯狂地谈论发射火箭,那时候大家都对这个念头嗤之以鼻,所以我觉得他对这件事会有更多的共鸣。

Lex Fridman:

我确实认为这里面有一些个人的因素。OpenAI 和这里的很多了不起的人决定与 Elon Musk 分道扬镳,因此存在一些个人层面的-

Sam Altman:

Elon 选择了离开

Lex Fridman:

你能具体说说吗?那种选择分道扬镳的情形?

Sam Altman:

他觉得 OpenAI 快要失败了。他想要完全控制权来挽救局面。但我们想要继续沿着现在 OpenAI 所走的方向前进。他还想要特斯拉能够开展一个 AGI (人工通用智能)项目。他在不同时间点有过多种想法,包括把 OpenAI 变成一个他能控制的盈利性公司,或者是让它与特斯拉合并。我们并不同意这样做,于是他决定离开,这也挺好的。

Lex Fridman:

所以你的意思是,正如那篇博客文章里提到的,他想要的是 OpenAI 能像被特斯拉收购那样,或许是与微软的合作方式有点相似,或者说可能是一种更为戏剧化的形式。

Sam Altman:

我的记忆里,那个提议就是这么回事,就是说,被特斯拉收购,然后让特斯拉完全掌控它。我很确定提议就是这个意思。

Lex Fridman:

当时,Elon,OpenAI 中的 “open” 对你意味着什么?Ilya 在邮件往来中已经谈论过这个话题。那时候它对你意味着什么?现在又是怎样的意义呢?

Sam Altman:

说到如果能带着一个“神谕”重来,我可能会选一个不同的名字。OpenAI 正在做的众多事情中,我认为最重要的就是免费地将强大技术交到人们手中,作为一项公共福利。我们不在我们的服务上投放广告——

Sam Altman:

作为公共利益的一部分,我们没有在免费版本中投放广告,也没有通过其他途径来盈利。我们的出发点只是我们的使命 —— 免费为人们提供越来越强大的工具,并且让他们去使用。我觉得这样的开放对我们的愿景至关重要。如果我们能够提供优秀的工具,让人们学会使用,或者他们甚至可以自学成才,然后用这些工具为彼此打造一个美好的未来,这将是意义重大的。所以,如果我们能持续向世界提供免费或低成本的强大 AI 工具,这将极大地推进我们的使命。至于是否开源,嗯,我认为我们应该对一些东西开源,而对其他的则不必。这件事往往会变成一种信仰之争,很难保持中立,但我相信寻找平衡点才是正确的做法。

Lex Fridman:

所以他就跟我说:“如果你们把名字改成 CloseAI ,我就撤销诉讼。” 我是说,难道这就要成为一个围绕名字的梗,在这片战场上互相对决了吗?

Sam Altman:

我觉得这体现出 Elon 提起诉讼的严肃态度,说实话,这种说法真是让人吃惊。

Lex Fridman:

你要是觉得我错了就纠正我,但我个人觉得这场官司在法律上并不算严重。它更多的是在向人们传递一个关于未来通用人工智能(AGI),以及目前在这个领域领先的公司的信息。

Sam Altman:

看,我的意思是,在人们指出这样做有点伪善之前,Grok 是没有开源过任何东西的。然后,他宣布 Grok 将在本周开始开源一些东西。我认为对他来说,这件事并不仅仅是关于是否开源的问题。

Lex Fridman:

嗯,我们会讨论一下开源和非开源的话题。我倒是觉得,批评一下竞争对手挺好的,适当地说点坏话也无妨。但这得是建立在友好竞争的基础上,比起来,我个人真是非常讨厌打官司。

Sam Altman:

“看,我认为整个事情对于一个建造者来说是不应该的。我尊敬埃隆,他是我们时代最伟大的建造者之一。我知道他清楚地感受过被那些仇恨者攻击的滋味,这让我看到他这样做时更加感到悲哀。”

Lex Fridman:

是的,他可以说是史上最杰出的创造者之一,甚至可能是有史以来最卓越的建设者。

Sam Altman:

这让我感到悲伤。我觉得很多人也有同样的感受。一直以来,有那么多人仰慕他。我在某个访谈里说过,我怀念曾经的 Elon,结果收到了好多回信,他们都说:“你的话完全表达了我的心声。”

Lex Fridman:

我觉得他就应该赢。他应该让 X Grok 打败 GPT,然后 GPT 又反过来打败 X Grok,就这样互相竞争,对大家来说都是一件美事。但说到开源的话题,你认为有很多公司在探索这个概念吗?这挺有意思的。我倒觉得 Meta 出乎意料地在这个领域走在了前面,或者至少在这场棋局中,它是第一个真正开放源码的。当然了,他们开源的并不是最尖端的模型,不过他们开源了 Lama。谷歌也在考虑开放一个规模较小的版本。开源有什么优缺点?你自己有没有思考过这个问题?

Sam Altman:

是的,我确信开源模型绝对有其立足之地,尤其是那些人们可以在本地执行的体积较小的模型,这方面确实存在巨大的需求。我想未来会出现一些开源模型,也会有一些闭源模型。这一点上,它并不会与其他生态系统有所不同。

Lex Fridman:

我听了所有关于这起 诉讼 和其他类似 事情的 播客。他们更加关注的 是, 从非盈利到设定 盈利上限 这一变化所树立的 先例 对其他 初创企业 会有什么影响?这会是一个怎样的——

Sam Altman:

我强烈不建议任何想要先作为一个非盈利组织起步,之后再加入盈利性分支的创业公司这么做。我真的非常不推荐这种方式。我觉得我们这里也不会创造这样一个先例。

Lex Fridman:

好的。那么大多数初创公司应该只是——

Sam Altman:

当然可以。

Lex Fridman:

还有一点 ——

Sam Altman:

如果我们知道会发生什么,我们肯定也会那么做的。

Lex Fridman:

嗯,理论上来说,如果你在这里的舞跳得够美,或许能享受到一些税收优惠之类的东西,但是……

Sam Altman:

我觉得大部分人对这些事情的看法不是这样的。

Lex Fridman:

如果你这样做,创业公司根本不可能省下一大笔钱。

Sam Altman:

不,我觉得有些法律会让这件事变得相当棘手。

Lex Fridman:

你期望与 Elon 之间的关系如何发展?这种紧张、这场舞蹈,你希望它会怎样?假如从现在起向前看1、2、3年,你和他在私人层面上的关系——像是友情、友好竞争,以及所有这些互动。

Sam Altman:

是的,我非常尊敬 Elon,我希望在未来的岁月里,我们能保持一段友好的关系。

Lex Fridman:

是的,我希望你们这个月能够保持友好的关系,一起在竞争中取得胜利,共同探讨这些有趣的理念。我猜会有些关于人才或其他方面的竞争吧,但关键是要保持友好竞争的氛围。就去创造一些酷炫的东西吧。埃隆在这方面确实很在行,你也不赖。

Part 4:Sora

Lex Fridman:

讲到厉害的玩意儿,Sora 真的很吸引人。我有一百万个问题想问你。首先,它的确令人称奇,无论是在产品层次上,还是在哲学层次上。那么我就从技术/哲学的角度来提问吧,你认为它比如说相比于 GPT-4,在理解世界这方面是更胜一筹还是稍逊一筹呢?在训练这些补丁时,它对世界模型的理解与仅仅基于语言标记有什么不同吗?

Sam Altman:

我觉得这些模型对世界模型的理解,实际上比我们多数人给予的认可要深。因为它们对某些事情的理解是如此的清晰明了,它们对其他事情的无知或错误就显得尤为突出,人们很容易一眼看穿它们的不足,然后说:“啊,这全是假的。” 但实际上并非全是假象。有些部分是有效的,有些部分则不然。

我还记得第一次看 Sora 视频时的情景,你会看到有人走过来,挡住画面几秒钟后又走开,而被遮挡的东西依旧在那儿。我当时就想,“噢,这效果挺不错的。”或者,有时候,你能看到它展现出一系列动作中物理规律的那种精准,真的让人印象深刻。但说到底,这些模型只会越来越强大,这种进步还会继续。如果你关注一下从 DALL·E 1 到 2 再到 3,再到 Sora 的发展轨迹,会发现有很多人在每一个版本上都曾嘲讽,说它做不到这个,做不到那个,但现在看看它的表现吧。

Lex Fridman:

嗯,你刚才提到的遮挡问题,其实就是要对世界的三维物理现象建模,而且要做得足够好,才能捕捉到这类情况。

Sam Altman:

嗯……

Lex Fridman:

你可以跟我说说,为了应对遮挡问题,世界模型需要做什么呢?

Sam Altman:

我想说的是,它在处理遮挡方面表现得相当出色。而说它背后有一个很强大的三维世界模型,这个说法就有些牵强了。

Lex Fridman:

但你觉得仅凭这些二维训练数据的方式就能达到那个目标吗?

Sam Altman:

看起来这种方法能出乎意料地走得很远。我不太想去猜测它能克服哪些限制,哪些又不能,不过……

Lex Fridman:

你发现了系统的哪些有趣局限性?我的意思是,你分享过一些挺有趣的例子。

Sam Altman:

有各种各样的有趣现象。比如,视频中的猫咪在任意位置突然长出一条额外的肢体。你可以随意挑选,但现在仍然存在许多问题,有很多弱点。

Lex Fridman:

你觉得这是这种方法根本上的缺陷呢,还是说只要有更大的模型、更细致的技术处理或者更高质量、更多量的数据,就能解决“猫发芽”这类问题?

Sam Altman:

我对这两点都持肯定态度。我认为这种方法给人的感觉与我们通常的思考和学习方式大相径庭。同时,我也相信随着规模的增加,它的效果会进一步提升。

Lex Fridman:

就像我提到的,LLMS 有 token,文本 token,而 Sora 则有视觉 patch。它把所有的视觉数据,包括各种不同的视频和,都转换成了 patch。训练过程可以说完全是自监督的吗?还是会涉及到一些手动标注的工作?在整个过程中,人的参与程度是怎样的?

Sam Altman:

我是说,不详细谈论 Sora 的方法,我们的工作就已经利用了大量的人类数据。

Lex Fridman:

但不是互联网级别的数据量吗?这就意味着需要大量的人力。Sam,”大量”这个词可不简单。

Sam Altman:

我觉得在这种情况下用“很多”这个词挺合适的。

Lex Fridman:

因为对我来说,“很多”嘛……你听我说,我是个内向的人,要是和三个人一起出去,对我来说人就已经够多的了。要是四个人,那简直就是超负荷了。不过我猜你指的“很多”可能是比这……

Sam Altman:

对,确实是有不止三个人在给这些模型做数据标注工作。

Lex Fridman:

好的,对。但归根到底,有大量的自监督学习。就像你在技术报告里提到的,我们处理的是互联网规模的数据。这实在太美妙了……它就像诗。也就是说,这些数据并非由人工标注,可以认为是以这种方式自监督的吗?

Sam Altman:

嗯,对。

Lex Fridman:

然后问题在于,互联网上到底有多少数据可以用于这种自我监督学习的方式,只要我们能弄清楚自我监督的具体细节。你有没有考虑过,更进一步公开这些细节?

Sam Altman:

我们有的。你是特指信息的来源吗?

Lex Fridman:

出处特别指出。因为很有趣,那些让语言模型如此神奇的元素现在能否开始转向视觉数据呢?而这一过程需要怎么做呢?

Sam Altman:

我感觉是这样没错,不过我们还得加把劲,干更多的活儿。

Lex Fridman:

当你这么问的时候,是在担心些什么呢?为什么会对发布这个系统感到忧虑?可能会有哪些潜在危险?

Sam Altman:

我是说,坦白讲,在发布系统之前,我们必须确保它的效率达到人们期望的规模,这样才能确保系统能够正常工作,这一点我不想轻描淡写。在这方面还有大量的工作需要完成。但你可以想象到,像深度伪造、错误信息这样的问题。我们试图作为一家深思熟虑的公司去思考我们推向世界的产品,你不用费太多心思就能想到这些事情可能怎么走向不好的方向。

Lex Fridman:

在这里我们面临很多棘手的问题,你所处的领域非常艰难。你觉得按照版权法,训练人工智能算不算公平使用呢?

Sam Altman:

我觉得这个问题的底层问题是,创造有价值数据的人们是否应该得到某种形式的经济补偿,因为他们的数据被利用了。我认为答案是肯定的。我目前还不清楚具体的解决方案是什么。人们提出了各种各样的点子,我们也尝试过一些不同的模式。但打个比方,如果我是一位艺术家,A,我会希望有选项可以让别人不使用我的风格来创作艺术作品。而且,B,如果别人确实用了我的风格来创作,我希望这背后能有一套经济模式来确保我的利益得到体现。

Lex Fridman:

是的,就像是从 CD 到 Napster,再到 Spotify 的那种转变。我们得找出一种可行的模式。

Sam Altman:

模型会变,但人们得拿到钱。

Lex Fridman:

好吧,如果我们把视角再拉得更远一些,应该有某种动力激励人类继续去做那些牛逼的事儿。

Sam Altman:

在我所担心的一切中,我相信人类会创造出非常酷的东西,并且社会终将以某种方式来奖励这些创造。这似乎已经深植于我们的本性之中。我们渴望创造,我们渴望证明自己的价值,我们希望以各种方式来获取认同和地位。我认为,这些特质是不会消逝的。

Lex Fridman:

但回报可能不是金钱上的利益,而可能是名望或是对其它酷事的认可和赞誉。

Sam Altman:

也许在金融方面还有其他方式。我再次强调,我认为我们还未见到经济系统发展的最终模式。

Lex Fridman:

是的,不过艺术家和创作者们都挺担心的。当他们看到 Sora,他们就会惊呼,“我的天哪。”

Sam Altman:

艺术家们在摄影问世的时候也是非常忧心忡忡的,后来摄影却演变成了一种全新的艺术形式,有人通过摄影赚到了大钱。我相信类似的事情还会不断上演。人们会不断地用新工具探索新的创作方式。

Lex Fridman:

如果我们只是随便在 YouTube 或者类似的平台上搜一搜,你觉得在接下来的五年里,会有多少内容是由类似 Sora 这样的 AI 生成的呢?

Sam Altman:

人们总是在讨论,五年内人工智能会取代多少工作岗位。他们的出发点通常是,目前的工作中有多大比例会完全被人工智能所替代?但我个人的看法并不是围绕人工智能会做多少份工作,而是在未来某个时间点,它们能执行多少种任务。想一想,经济活动中的所有五秒钟、五分钟、五小时乃至五天的任务,有多少是人工智能可以完成的?我认为,这个问题比单纯问人工智能能取代多少工作要更加有意义、影响深远和重要。因为人工智能是一个工具,它将在不断延长的时间跨度内、以越来越高的复杂度来执行越来越多的任务,这让人类能够在更高层次上进行抽象思考。也就是说,人们在自己的工作中可能会变得更加高效。而这种变化,随着时间的推移,不仅仅是量的改变,它还意味着质的变化——我们能在脑海中构思何种问题。对于 YouTube 上的视频,我觉得情况也是如此。很多视频,或许是大多数视频,在制作过程中会运用到人工智能工具,但它们的核心仍然是由人来思考、构思、负责部分执行,并指导整个项目的运作。

Lex Fridman:

是的,这真的非常有趣。我是说,这确实有点吓人,但去想象这一点真的很吸引人。我倾向于认为,人类喜欢观察其他人类或者说其他有人性的生物——

Sam Altman:

人们真的很在乎彼此。

Lex Fridman:

是的,如果出现了比人类还酷、还厉害的东西,人们可能会关注两天,但之后他们又会回归去关心人类的事务。

Sam Altman:

这看起来似乎是根深蒂固的。

Lex Fridman:

这就是围绕棋局的整个问题,“哦,是的”,但现在我们还是得继续下棋。咱们得视而不见那个摆在眼前的事实:比起人工智能系统,人类下棋实在是太菜了。

Sam Altman:

我们还是会开赛车,而且现在的车速比以前快多了。我的意思是这样的例子有很多。

Lex Fridman:

是的,或许它就类似于 Adobe 套件里的一种工具,能够大大简化视频制作这些流程。

听着,我真的不喜欢站在镜头前。如果我能想出一个办法避免露面,我会非常乐意的。不过不幸的是,这可能还需要一段时间。现在我们正在研究生成面部图像的技术,虽然进展顺利,但要在视频中生成特定人物而非通用面孔,这个过程还是挺棘手的。

Part 5:GPT-4

Lex Fridman:

让我来问问你 GPT-4 的事情。问题真的好多。首先,它同样令人惊叹。回头看,GPT-3、GPT-5 和 GPT-4 这几个版本很可能会被认为是历史性的转折点,这些版本塑造了 ChatGPT。

Sam Altman:

可能第五次会成为转折点。我不确定。往前看,这真的很难说。

Lex Fridman:

我们永远也预测不了。这就是关于未来最让人头疼的事,太难以预测了。但是对我个人而言,回顾历史,GPT-4 和 ChatGPT 实在是太让人震惊了,它们在历史上都留下了深刻的烙印。那么,请允许我问你,你认为 GPT-4 和 GPT-4 Turbo 最令人印象深刻的能力有哪些?

Sam Altman:

我觉得这挺糟心的。

Lex Fridman:

典型的人呐,也是这样,很快就会习惯一件棒极了的东西。

Sam Altman:

不,我认为这确实是一件非凡的事情,但与我们所要实现的目标和我坚信我们最终能够达成的境界相比,在 GPT-3 面世那会儿,人们都说:“哦,这太令人惊叹了,简直是技术的奇迹。”的确,当时它非常了不起。但现在出现了 GPT-4,再回头看看 GPT-3,你就会觉得:“天哪,这简直糟糕透了。”我预计 GPT-5 和 GPT-4 之间的差距将和 GPT-4 与 GPT-3 的差距一样大。我觉得,我们的职责就是要领先未来几年的视野,记得我们现在拥有的工具回头看来可能会显得相当逊色,正是这种认知驱使我们确保未来变得更加美好。

Lex Fridman:

GPT-4 在哪些方面最让人失望?我的意思是——

Sam Altman:

它最擅长做些什么呢?

Lex Fridman:

它能做到的最棒的事情是什么呢?而这些事情的局限性又在哪里,让你会觉得它很差,因此又让你对未来充满了启迪和期望呢?

Sam Altman:

我最近更多地把它当作一种头脑风暴的搭档。

Lex Fridman:

是的。

Sam Altman:

它有一丝令人震惊的神奇。当人们谈起它的作用时,他们会说:“哦,它帮我提高了编程效率。它让我的写作速度更快、质量更好。它能帮我将一种语言转换成另一种。”所有这些都令人称奇,但它在创意头脑风暴方面的表现——比如,“我得给这个东西取个名字。我需要换个角度思考这个问题。我不确定接下来该怎么办”——我认为这展现了一丝令我期待已久的东西,希望将来能看到更多这样的场景。

你能略见一斑的是,当我帮助处理一些长远的任务,把它们拆解成多个步骤,然后执行其中几个,或许是上网搜索资料,或是编程之类的活儿。这个过程要是能成功,虽然并不常见,但确实感觉挺神奇的。

Lex Fridman:

与人不断地来回交流,对我来说非常有帮助。你指的是什么-

Sam Altman:

经过不断的反复与人类沟通,当它能够独立完成一个包含 10 个步骤的问题时,这样的互动就会变得更加密集。

Lex Fridman:

哦。

Sam Altman:

这通常不太常见,偶尔会有。

Lex Fridman:

增加多层次的抽象,还是你的意思只是依次进行的?

Sam Altman:

两者都很重要,既要把问题分解,也要在不同的抽象层面上进行思考,然后将这些思考重新组合起来。你看,我并不是想小看 GPT-4 所取得的成就,但同时我也不想过分夸大其重要性。我认为,我们正处于一个指数增长的曲线上,不久之后,我们会像现在回望 GPT-3 一样去回顾 GPT-4。

Lex Fridman:

这么说吧,我是说 ChatGPT 成了一个转折点,外界开始逐渐相信 OpenAI 内部已经有了一种信念的高涨。

Sam Altman:

当然可以。

Lex Fridman:

或许这儿有些信徒,但是当你想起——

Sam Altman:

在这方面,我真的觉得这将是一个转折点,让全世界许多人从怀疑变成了信服。这更多的是和 ChatGPT 的界面有关。说到界面和产品,我的意思还包括了模型的后续训练过程,以及我们如何调优使它对你更有帮助,以及怎样使用它,而不只是底层模型本身。

Lex Fridman:

这些因素中每一个到底有多重要呢?无论是底层模型还是 RLHF,又或者是其他的什么机制,它们都在调优过程中起着关键作用,让这个系统对于人类来说更具吸引力,使用起来更高效、更富有成效。

Sam Altman:

我是说,它们都极为重要。但是 RLHF,也就是训练后的那个步骤,我们在基础模型之上进行的那些额外工作——尽管这背后需要巨大的工作量——却是至关重要的,更不用提我们围绕它打造的产品了。在某种意义上来说,我们的确需要同时做好两件事情:一是发明底层技术,二是搞清楚如何把它转化成人们爱不释手的产品。这不仅仅关乎产品本身的实际工作,还涉及到一个完全不同的阶段——怎样让产品与用户的需求保持一致,并真正发挥出它的用途。

Lex Fridman:

你是如何做到让众多用户能够同时使用这项技术的规模化效应。所有这些方面,都得仔细斟酌。

Sam Altman:

这个嘛,但那确实是个大家都知道的难题。我们明白我们必须要扩大它的规模。我们得完成两项前所未有的任务,我得说这两个任务都是非常了不起的成就,之后还有很多像规模扩大这样其他公司之前也经历过的挑战。

Lex Fridman:

在 GPT-4 和 GPT-4 Turbo 之间,将上下文窗口从 8K 令牌增加到 128K 令牌,会有什么样的区别呢?

Sam Altman:

大部分情况下,人们并不总是需要128这么长的上下文。虽然若我们将目光投向遥远的未来,我们可能会有几十亿的上下文长度。你可以输入你所有的信息,你的整个历史记录,它将逐渐更深入地了解你,那会非常棒。但是就目前的情况来看,人们使用这些模型的方式并不是这样的。有时候,人们可能会在一篇论文中贴上大量的代码库,不过,大多数时候模型的使用并不涉及长时间的上下文。

Lex Fridman:

我喜欢这种感觉,就像是你的 “我有一个梦想” 演说。有朝一日,你会被依据你性格的全貌或是你一生的总体来评价。这很有意思。那么,你所期望的扩展的一部分,就是一个越来越全面的背景环境了。

Sam Altman:

我记得看过一段网络视频,数字可能记错了,但是内容大致是比尔·盖茨在谈论一款早期电脑的内存容量,可能是 64K,也许是 640K 之类的。那时候,大多数内存都被用作屏幕的缓冲区。他当时似乎无法真正理解,为什么未来的世界会需要计算机有几个 GB 甚至 TB 的内存。不过实际上,你总是要跟上技术发展的指数级曲线,我们总会找出利用更先进技术的方法。所以,我现在真的很难想象,未来有一天,上下文链接扩散到十亿设备的情景会是怎样的。它们可能不会真的达到那个数字,但在效果上可能会有那种感觉。不过我知道,一旦我们拥有了这种技术,就绝不会想要回到没有它的日子。

Lex Fridman:

是的,即便是现在说十年后可能是数十亿的规模,也可能显得很愚蠢,因为到那时它可能已经达到了数以万亿计的规模。

Sam Altman:

Sure

Lex Fridman:

将会出现一些使人感觉像是拥有无限上下文的突破性进展。不过即便是 120 字符,老实讲,我也没尝试过把它推到那个极限。可能的用例包括输入整本书或书的某些部分,比如论文之类的。你见过 GPT-4 有哪些有趣的应用场景吗?

Sam Altman:

我最感兴趣的不是任何我们可以讨论的具体应用案例,而是那些将其作为任何知识工作任务的默认起点的人,特别是年轻人。令人瞩目的是它在很多方面都能做得相当不错。你可以使用 GPT-V 来帮助你编写代码,进行搜索,或者编辑论文。对我来说,最有意思的是那些直接以此为他们工作流程开端的人。

Lex Fridman:

我对很多事情也有同样的兴趣。我用它作为读书的伙伴,它帮助我思考,尤其是当我阅读那些经典名著的时候。这方面,它写得真的很出色。我发现它在讨论那些资料丰富的话题时通常比维基百科还要好。它某种程度上更加均衡、更具细节。或许这只是我的个人感受,但它激发我进行比阅读维基百科条目更深层次的思考。我不完全确定为什么会这样。

你刚才提到了这种协作。我不确定魔法究竟在哪里——是在这儿、在那儿,还是在中间某处。这一点我还真不敢确定。但有个问题一直让我担心,那就是当我开始用 GPT 处理知识性任务时,我通常得事后去核实事实,比如检查它有没有编造一些假消息。你是怎么发现 GPT 能编出那些听起来特别有说服力的假信息的呢?你又是如何确保它所提供的信息是真实的?

Sam Altman:

这显然是我们极其关注的一个领域。我觉得随着即将推出的新版本,情况会有很大的改善,但我们仍需持续努力,今年是不可能完全解决所有问题的。

Lex Fridman:

确实可怕,因为随着技术越来越好,我们越发不去做事实核对了,对吧?

Sam Altman:

我在这个问题上有点矛盾。我觉得人们使用技术的能力,其实比我们通常认为的要高明多了。

Lex Fridman:

Sure

Sam Altman:

人们似乎已经真正理解了 GPT,还有这些模型有时候会出现错误信息。如果是关乎重大任务的事情,你就必须得核实一下。

Lex Fridman:

除此之外,记者们好像并没有意识到这点。我看到有些记者只是敷衍了事地用GPT-4。这个-

Sam Altman:

我有好长一串想要吐槽记者的事,但这个问题并不排在我的批评名单之首。

Lex Fridman:

嗯,我认为更大的批评可能是记者所面临的压力和激励机制,这使得他们不得不工作得非常迅速,而采用这种方法无疑是捷径。我真心希望我们的社会能够鼓励像……

Sam Altman:

我也是。

Lex Fridman:

……像是那些需要数天乃至数周辛勤努力才能产出的深度新闻报道。还有,有些报道以一种平衡的方式来呈现新闻,它们在批评的同时也能够赞扬他人,虽然通常都是那些批评性质的内容吸引点击。而捏造事实、标题党也能轻易地获得点击量。我敢肯定,一定有不少人讽刺地说:“嗯,所有那些充满戏剧性的东西肯定带来了大量点击。”

Sam Altman:

可能吧。

Part 6:记忆与隐私

Lex Fridman:

这是关于人类文明的一个宏观问题,我非常想要探讨一下。这正是我们应该更多地去庆祝的领域。你给 ChatGPT 赋予了拥有记忆的能力,你一直在尝试处理它与过往对话的记忆问题。同时,你还让它能够关闭记忆功能。有时候我真希望我也能做到这一点——根据需要打开或关闭记忆。我猜有时酒精似乎能起到这个效果,不过我觉得它并不是最理想的方法。你在这方面有什么发现吗?比如尝试记住对话或者选择不记住这种想法的时候。

Sam Altman:

我们目前在这个领域的探索还只是刚刚开始,但我觉得人们想要的,至少我个人想要的,是一个能够逐渐认识我并且随着时间的推移越来越有帮助的模型。这还仅仅是个起点。我认为我们还有很多其他的事情需要去做,但这正是我们想要追求的目标。你会期望使用一个模型,在你的一生中或是在你使用一个系统的过程中,它可能包含了多个模型,它们会随着时间的积累变得越来越优秀。

Lex Fridman:

是啊,解决这个问题有多困难?因为目前为止它更多的是记住一些琐碎的小知识点和个人喜好等等。但是关于记忆这块怎么样呢?你难道不希望 GPT 能记得你在十一月里经历的所有麻烦和所有的那些波折,然后你就可以——

Sam Altman:

嗯,对,对。

Lex Fridman:

因为现在你显然有些在回避它。

Sam Altman:

我不仅仅希望它记得这些东西,我还想要它能整合这些经验教训,并且在将来提醒我应该如何不同地行动,或者有什么需要留意的地方。我们每个人的一生中,都在不同程度上从经验中受益,我希望我的 AI 代理也能跟随这样的经验成长。想象一下,如果我们回溯并且假设有数万亿的上下文长度可供利用,如果我能把我这一生中与任何人的每一次对话都放进去,把所有的邮件往来都输入输出进上下文窗口,每当我提出问题时都能调用这些信息,那将是非常酷的一件事。

Lex Fridman:

是的,我觉得那会非常酷。不过有时候,当人们听说这个想法时,会对隐私感到担忧。你怎么看待这个问题?随着 AI 变得更加强大,它确实需要整合你所有的经历和数据才能给出建议。

Sam Altman:

我觉得答案很简单,就是给用户选择的权力。任何我想从我的 AI 代理那里删除的记录,我都希望能够自由删掉。如果我不想记得什么事情,我也应该可以选择忘记。在我们自己的 AI 的隐私与效用之间的权衡问题上,你和我可能有各自不同的见解。

Sam Altman:

…对于 OpenAI 在隐私与实用性之间如何权衡,大家有不同的意见,这是很正常的。但我觉得解决方法很直接,就是让用户来做选择。

Lex Fridman:

但公司应该对用户的选择有较高程度的透明度。因为以往有些公司在收集用户数据时态度含糊其辞,好像默许自己可以搜集所有数据似的,他们会说:“嗯,我们收集你的所有数据是理所当然的。我们用这些数据来做广告等,都是出于好意。” 但他们对这些细节并不透明。

Sam Altman:

这绝对没错。你刚才提到,我在刻意回避那些 11 月发生的事。

Lex Fridman:

只是逗你玩。

Sam Altman:

嗯,我的意思是,我经历了一件极其创伤的事,这件事确实使我长时间无法动弹。在那段艰难的时光里,最难的工作就是要坚持不懈地继续下去,因为我必须在处于震惊和疼痛中的时候回到这里,努力把事情的碎片一点点拼凑起来,而那时候似乎没有人真正关心。我的团队确实给了我一些宽容,我也没有发挥出我平时的工作水平。但确实有那么一段时间,要同时处理这两件事真的很困难。不过,有一天早上我醒来,想到:“这确实是我遭遇的一件恐怖的事情。我可以选择永远把自己视为受害者,或者我可以告诉自己这是我一生中触及的最重要的工作,我必须回过神来继续它。”这并不意味着我在压抑自己的感受,因为有时候我会在半夜醒来,脑海里依旧会回想起那些事情,但我确实感到我有义务要持续向前走。

Lex Fridman:

这么说真是妙不可言,不过可能还有些隐性的问题存在。我比较担心的是你提到的那种信任问题,担心人们变得过于多疑,而不是天真地信任每一个人或者大部分人,凭借直觉去判断。这确实是一场复杂微妙的平衡之舞。

Sam Altman:

当然可以。

Lex Fridman:

我的意思是,我在兼职时做了一些深入探究,特别是研究了泽连斯基政府和普京政府,以及他们在战时高压环境下的种种互动。结果就是彼此之间产生了不信任,大家都开始孤立自己,对世界的看法也变得不清晰了。这是所有人都会关心的问题。你看上去似乎游刃有余,从中吸取了宝贵的教训,感受到爱,并让这份爱激励着你,这很了不起,不过这种感觉可能还会残留心间。我有一些问题想问问你,关于你直觉上认为 GPT 能做什么、不能做什么。GPT 在生成每个 token 时,似乎会分配大约相同的计算资源。那么,在这种方式中,是否有空间给予更缓慢、更连贯的思考呢?

Sam Altman:

我觉得会有一种新的思考模式出现。

Lex Fridman:

它在架构上会和我们目前看到的 LLMs 相似吗?它是不是在 LLMs 基础上增加的一层?

Sam Altman:

我能想象出不少实施这个想法的方法。不过,我认为那并不像你想要探讨的问题那么重要。你的问题是,我们是否需要一种较慢的思考模式,这种模式下,答案不需要那么迅速地得出……可以这么说,从一种精神层面上讲,你希望一个人工智能能够在面对更复杂的问题时投入更多思考,而在遇到简单问题时则能够更快地给出答案。我觉得这点很关键。

Lex Fridman:

这是不是人类的一个常有的想法,我们就应该去努力思考?这种直觉是不是有误呢?

Sam Altman:

我觉得这个直觉挺有道理的。

Lex Fridman:

有趣。那么,一旦 GPT 升级到比如 GPT-7 这样的级别,它就能瞬间找出“费马定理的证明”了是吗?

Sam Altman:

你好像是想能为那些更难的问题分配更多的计算能力。我想,如果你问这样一个系统,“证明一下费马大定理”,和问“今天是什么日期?”相比,除非它已经知道并且记住了证明的答案,要不然它得自己去琢磨出来,这看起来肯定是需要更多计算资源的。

Lex Fridman:

但它能不能看起来基本上就像一个 LLM 在自言自语,是那种感觉?

Sam Altman:

或许吧。我的意思是,你能想象出很多可能有效的事情。但关于怎么做才是最合适或者最好的方式,我们目前还不清楚。

Part 7:Q*

Lex Fridman:

这让我想起了 Q* 背后那些充满神秘色彩的传说。这个神秘兮兮的 Q* 项目究竟是什么呢?它也在同一座核设施里面吗?

Sam Altman:

没有核能设施。

Lex Fridman:

嗯,拥有核设施的人总是这么说。

Sam Altman:

我特别希望拥有一个秘密的核设施,可惜并没有这么一回事。

Lex Fridman:

好的,没问题。

Sam Altman:

也许吧,总有一天。

Lex Fridman:

有一天吧?好吧。人总得有点儿梦想,不是吗?

Sam Altman:

OpenAI 并不擅长保守秘密。如果我们能够做到的话,那就太好了。我们一直受到很多泄密事件的困扰,真希望我们能有这样的本事。

Lex Fridman:

能谈谈 Q* 是什么吗?

Sam Altman:

我们还没准备好讨论那个话题。

Lex Fridman:

看,但这样的回答意味着我们有东西可以聊了。这很神秘,Sam。

Sam Altman:

我是说,我们涉猎的研究领域五花八门。我们之前已经提过,我们认为增强这些系统的推理能力是一个重要的发展方向,是我们很想深入探索的。到目前为止我们还没彻底攻克这个难题,但我们对此充满了极大的兴趣。

Lex Fridman:

会有类似 ChatGPT 那样的飞跃性突破,或者其他类似的重大进展吗?

Sam Altman:

这个问题问得好。我怎么看这个问题呢?挺有意思的。对我来说,这整个过程看起来都是相当连贯的。

Lex Fridman:

没错。你所谈到的,似乎是一个主题,那就是你们基本上是在沿着一个指数曲线逐步攀升。但从旁观者,也就是我这个角度来看,好像确实能感觉到有些跳跃性的进展。不过在你眼里,这些并不存在吗?

Sam Altman:

我真的在思考,我们是否该……一个重要的原因是,我们采用所谓的迭代部署方式,而不是秘密开发到 GPT-5,我们决定公开谈论 GPT-1、2、3 和 4。部分原因在于我觉得人工智能与意外这两者不应该搭界。而且,无论是世界、人类、机构,或者你愿意怎么称呼它们,它们都需要时间去适应和反思这些问题。我认为 OpenAI 最明智的举措之一就是采取了这样的策略,我们让全世界都关注这一进程,正视 AGI 的重要性,考虑在我们陷入紧迫境地、不得不匆忙作出决策之前,我们需要建立什么样的系统、结构和治理模式。

我觉得这样做非常棒。但是,像你和其他人还能感受到这些巨大飞跃的事实,让我想,或许我们应该更加渐进地发布我们的产品。我现在还不确定这究竟意味着什么,也没有现成的答案,但我们的目标绝不是给世界带来令人震惊的更新,恰恰相反。

Lex Fridman:

当然,能够做得更迭代会非常棒。我觉得这样对每个人都是一件美好的事。

Sam Altman:

但这正是我们所致力于的目标,也是我们公开宣布的策略。我觉得我们在某种程度上没能达标。也许我们应该考虑换个方式来发布 GPT-5 或类似的产品。

Lex Fridman:

比如用版本号4.71、4.72?人们通常都喜欢庆祝特别的日子,比如生日。我不确定你对人类了解多少,但他们会庆祝这些重要的时刻和里程碑。

Sam Altman:

我确实认识一些人类。人们确实对里程碑情有独钟。这点我完全能理解。我认为我们自己其实也挺喜欢里程碑的。能够宣布某件事情取得了胜利,然后迈向下一个目标,这感觉真的很棒。但确实,我感觉我们在某些方面可能理解错了。

Part 8:GPT-5

Lex Fridman:

GPT-5 什么时候会推出呢?

Sam Altman:

我不知道,说实话。

Lex Fridman:

哦,这回答挺实诚的。如果是今年的话,眨两下眼。

Sam Altman:

我们今年会推出一个非常棒的新模型。我还不确定我们最后会叫它什么名字。

Lex Fridman:

这就引出了一个问题:我们该怎样发布这个东西呢?

Sam Altman:

在接下来的几个月里,我们将推出许多不同的东西。我觉得这会非常酷。在我们开始谈论像 GPT-5 这样的模型——不管它最终叫不叫这个名字,或者是比你所期待的 GPT-5 略逊一筹还是略胜一筹之前,我认为我们有一系列其他重要的产品需要优先发布。

Lex Fridman:

我真不知道对 GPT-5 应该有什么样的期待。你这么一说,我感到又紧张又兴奋。不管它最后被叫做什么,咱们就暂且称它为 GPT-5 吧,它需要克服哪些最大的挑战和障碍呢?我觉得这个问题很有意思。是关于计算能力的问题吗?还是技术层面的呢?

Sam Altman:

这总是涉及到所有这些因素。你知道,关键的突破因素是什么?是更大的计算机吗?是一个新的秘诀吗?还是别的什么东西?其实这些要素都是相互关联的。我认为 OpenAI 做得特别出色的一点是……这实际上是伊利亚最初的话,我可能会说得不是很准确,但意思大概是,“我们把 200 个中等规模的因素相互结合,创造出了一件巨大的作品。”

Lex Fridman:

那么这就是一种分布式的、持续不断的创新过程?

Sam Altman:

嗯,对。

Lex Fridman:

所以连在技术层面上也是这样?

Sam Altman:

尤其是在技术层面上。

Lex Fridman:

那么连具体的做法也包括在内吗?

Sam Altman:

嗯,对。

Lex Fridman:

你是如何深入到每一个细节的……在涉及不同、各自独立的团队时,这种工作方式如何运作?中等大小的项目怎样才能汇聚成一个庞大的整体,就像变形金刚一样?

Sam Altman:

有些人得去思考怎样把所有事情综合起来,但也有很多人尽量试着把大局都记在脑子里。

Lex Fridman:

哦,也就是说,个别团队中的成员会尽力维护对整体大局的关注?

Sam Altman:

在高层面上,是这样的。当然你无法精确知晓每个部分是如何工作的,但我普遍认为,有时候拉远镜头、审视全局是非常有帮助的。这一点不仅适用于技术问题,对于商业创新同样有效。有时事情会以意想不到的方式汇聚在一起,而对整个画面的理解,即便你大多数时间都在某一领域里钻研,最终也能带来出人意料的洞见。实际上,我过去有一个非常宝贵的东西,那就是对科技行业所有或大多数前沿领域都有一个清晰的地图。有时候,我能看到这些连接或新的可能性,如果我只是深耕于某一领域,我可能就不会有这样的想法,因为我缺少全面的数据。而现在我已经不太拥有那样的视角了,我现在深入某一个特定领域。但我知道,拥有全局视角是非常宝贵的。

Lex Fridman:

你已经不是以前的那个 Sam 了。

Sam Altman:

现在的工作跟我以前的可大不一样了。

Part 9:$7 万亿美金的募资

Lex Fridman:

谈到从宏观角度看问题,咱们再扩大点范围,聊聊你说过的另一件既俏皮又可能颇有深意的事儿。你发推特说咱们需要 7 万亿美元。

Sam Altman:

我没有在推特上发过那种内容。我从来没说过诸如“我们要募集7万亿美元”之类的话。

Lex Fridman:

哦,那是另一个人?

Sam Altman:

嗯,对。

Lex Fridman:

哦,但你说过,“管他的,或许是 8 万亿”,是这样吗?

Sam Altman:

好的,我就想说一下,世界上确实存在着很多错误信息。

Lex Fridman:

哦,你这是在开玩笑呢。不过说真的,虽然是误传,里面可能还是有点道理的。

Sam Altman:

“看,我认为计算能力将会成为未来的’货币’。我相信它可能会变成世界上最宝贵的资源,并且我认为我们应该大规模地投资以生产更多的计算能力。计算能力,我觉得它会是一个独特的市场。人们通常考虑的是手机芯片这样的市场。你可以想象,全球有 80 亿人口,可能有 70 亿人拥有手机,或许是 60 亿,我们就这么假设吧。他们每两年换一次手机,所以每年的市场需求就是 30 亿套手机系统芯片。但如果你生产了 300 亿套,你也不可能卖出去 10 倍的手机数量,因为大多数人只会用一部手机。”

但计算的情况有所不同。智能可能会更像能源那样,我们唯一需要讨论的是,在价格 X 的条件下,全世界会用掉多少计算资源,在价格 Y 的条件下又会用掉多少。因为如果计算资源真的很便宜,我可能就会让它全天候地帮我阅读电子邮件,给我提建议,关于我可能需要思考或处理的事情,甚至是尝试治疗癌症。但如果计算资源非常昂贵,那么我可能只会在尝试治疗癌症时才使用它,或者我们大家都仅在这种情况下使用它。

因此,我认为世界将需要巨量的计算能力。而在这个过程中,有许多难点。能源问题是最为棘手的,建造数据中心同样充满挑战,供应链问题也不容忽视,当然了,制造足够的芯片也是一个硬骨头。但看起来,这正是事情发展的方向。我们将会渴求一种计算能力,目前来说,这种规模是难以想象的。

Lex Fridman:

你是怎样解决能源难题的?核能 –

Sam Altman:

这就是我相信的。

Lex Fridman:

…聚变?

Sam Altman:

这就是我相信的。

Lex Fridman:

核聚变吗?

Sam Altman:

嗯,对。

Lex Fridman:

谁能解决这个问题?

Sam Altman:

我觉得 Helion 在这方面做得最棒,但我对当前的核聚变竞赛感到挺兴奋的。核裂变同样令人赞叹,我希望全球能够再次拥抱它。核裂变的历史进程对我来说真的很令人感到遗憾,我希望我们能以更有意义的方式,重新投身其中。

Lex Fridman:

所以你认为,核裂变是拼凑这个谜题的一部分吗?比如说,就像我们现在已经在使用的那些核反应堆?还有很多人都因为像切尔诺贝利那样的事故而感到非常害怕,对吗?

Sam Altman:

嗯,我认为我们应该建造新的反应堆。我真的觉得那个行业陷入停顿真是太可惜了。

Lex Fridman:

你是认为“群体性歇斯底里”能解释这种停滞现象吗?

Sam Altman:

嗯,对。

Lex Fridman:

我不确定你对人类有多了解,但这正是其中一个风险。核裂变面临的安全威胁之一就是人类对此的深度恐惧。我们必须把这一点考虑进去,这就意味着我们得说服人们,向他们展示其实它有多安全。

Sam Altman:

我对人工智能的前景有些担心。我觉得在人工智能的发展过程中,某些方面可能会戏剧性地出错。虽然我不确定我最终被枪击的概率有多大,但肯定不是零。

Lex Fridman:

哦,我们想要防止这种情况——

Sam Altman:

也可能是吧。

Lex Fridman:

你怎样才能减少其中的戏剧化成分?我已经开始感受到一些波动,因为我确实与各个政治派别的人都有交流,感觉到人工智能将变得政治化的迹象。这真的让我担忧,因为到时可能会演变成右翼反对人工智能,左翼支持人工智能,因为人工智能能够造福人民,或者不管是哪种说辞和设定。这一点真的令人担心。到头来,人工智能的戏剧化效果可能会被充分放大。你打算如何应对这种情况?

Sam Altman:

我觉得它最终会被左右两派的对立卷入纷争中。我无法确切知道最终会演变成什么样,但不幸的是,任何具有重要性的事物似乎都会如此。至于我之前所说的“戏剧性风险”,我的意思是虽然人工智能将带来巨大的好处,我相信这些好处将远超过坏处,但它确实也会有一些坏处,其中有些坏处虽然严重,却并不具戏剧性。比如,因空气污染死亡的人远比核反应堆造成的死亡人数要多。但大多数人更担忧住在一个核反应堆附近,而不是一个煤炭发电厂附近。这种心理机制很奇怪,尽管我们需要面临许多不同种类的风险,但那些足以成为电影高潮戏份的风险,在我们心中占据的分量要远重于那些持续时间长、但危害累积过程缓慢的风险。

Lex Fridman:

这就是为什么真相至关重要。我希望人工智能能够帮助我们认清事物的本质,达到一种平衡,弄清楚世界上事物实际的风险和危险究竟是什么。在这个领域里,与谷歌、Meta、xAI 以及其它公司竞争,各有什么优劣之处呢?

Sam Altman:

我觉得我对这个问题有个挺直截了当的回答,也许以后我能想到更多微妙的地方,不过优势是显而易见的,那就是我们能够以更快更便宜的方式得到更优质的产品和更多的创新,还有所有竞争带来的好处。而缺点嘛,如果我们不留神的话,我担心这可能会导致军备竞赛式的激增。

Lex Fridman:

你感受到那种军备竞赛的压力了吗?就是那种带有一些负面影响的压力。

Sam Altman:

当然,在某些方面肯定是这样的。我们讨论了很多关于需要将安全放在首位的话题。长久以来,我一直认为可以将 AGI 开始的时间分为四个象限:慢起步的短时间线、长时间线,以及快起步的短时间线、快起步的长时间线。我觉得短时间线搭配慢起步是最安全的组合,也是我最希望我们能处于的状态。但我确实很希望能确保我们实现一个慢起步。

Lex Fridman:

我对 Elon 有点疑虑:大家往往形成了各自为阵的孤岛,而不是在安全问题上齐心协力。人们倾向于走向封闭、独立的方向。或许,采取开源模式会是个不错的选择。

Sam Altman:

Elon 至少说过,他非常关注 AI 安全问题,而且确实对此很是担心,我猜他应该不会去做一些不安全的竞争。

Lex Fridman:

是的。但我认为,在这方面的合作对大家都真的有好处。

Sam Altman:

这并不是他最为人所知的事情。

Lex Fridman:

嗯,他因为关心人类而出名,而人类是从合作中受益的。所以,在激励和动机上总会有一些张力。但到最后,我还是希望人类能够占上风。

Sam Altman:

我前几天想起来,有人跟我提到那天他成为世界首富,超过了杰夫·贝索斯,他还在推特上给贝索斯发了个银牌的表情。我真心希望,当人们开始致力于研发 AGI —— 通用人工智能时,我们能少一些这样的闹剧。

Lex Fridman:

我同意。我觉得埃隆是个朋友,他是一个很棒的人,也是历史上最重要的人物之一。那些言论可不怎么样。

Sam Altman:

埃隆身上有些特质真的很了不起,我超级尊敬他。我觉得我们都需要他。我们每个人都应该为他加油,希望他在下一阶段能够挺身而出,担起领袖的责任。

Lex Fridman:

是的。我希望他能拥有一样,而不受另一样的影响。但有时候,人类就是有缺陷、复杂多变,还有种种其他情况。

Sam Altman:

历史上涌现出了许多非常杰出的领导者。

Part 10:Google and Gemini

Lex Fridman:

是的,我们每个人都可以变成自己最好的版本,并且应当努力去做到这一点。我想问你,谷歌借助搜索功能,在过去的 20 年里已经成为了一个领头羊。可以说,在全球范围内获取信息的方式、人们的互动方式等方面,谷歌都扮演了重要角色。而对于谷歌和整个行业来说,一个令人紧张的问题就是:人们将如何获取信息?就像你提到的,人们开始把 GPT 当作一个出发点。所以,OpenAI 真的会去接管谷歌 20 年前启动的这个任务吗,也就是我们应该如何—

Sam Altman:

我感觉那样做太无趣了。我的意思是,如果问题仅仅是我们能不能打造一个比谷歌更优秀的搜索引擎,那当然,大家都应该去追求更高质量的产品。但这样的设想严重低估了这项技术的潜力。谷歌向你展示的是 10 个蓝色链接,嗯,其实是 13 个广告之后才是那 10 个蓝色链接,这只是搜索信息的一种方式。不过,让我真正感到兴奋的,并不是我们能够复刻一个更卓越的谷歌搜索,而是或许存在一种全新的、更好的方法,来协助人们寻找、利用并整合信息。事实上,对于某些场景而言,我认为 ChatGPT 已经做到了这一点,希望我们能够将其应用到更多的场景中去。

但我认为仅仅提出“我们怎样才能比谷歌更好地为你提供前10个排名的网页?”这个问题其实并不太有意思。更有趣的问题可能是,“我们如何帮你找到你需要的答案或信息?我们该如何在某些场合下创造它,在其他场合下整合信息,或者在另一些场合中引导你找到它?”很多人尝试去打造一个比谷歌更优秀的搜索引擎,但这既是一个技术上的难题,也是品牌和生态系统方面的挑战。我认为世界并不需要一个谷歌的翻版。

Lex Fridman:

将一个像 ChatGPT 这样的聊天客户端与搜索引擎整合起来——

Sam Altman:

那样更酷些。

Lex Fridman:

这挺酷的,但也挺棘手。如果你仅仅简单粗暴地去做,那就会很别扭,因为你若只是硬塞进去,会显得很尴尬。

Sam Altman:

你可能猜得到,我们很想知道怎样才能做好这件事。那可真是一个很酷的例子。

Lex Fridman:

将会是一个从未出现的东西。

Sam Altman:

LLM 结合搜索的领域,我觉得还没人真正搞定它。我特别想去尝试一下。我想那会非常有意思。

Lex Fridman:

是的。那在广告方面呢?你们有没有考虑过如何实现变现—

Sam Altman:

我实在是不太喜欢广告,这完全是出于我的审美偏好。我理解互联网之初为了发展不得不依赖广告,但这不过是一个暂时的行业现象。如今的世界已经变得更为富裕。我特别赞赏人们愿意为 ChatGPT 付费,并且确信他们得到的答案不会受到广告商的影响。我确信会有适合大型语言模型(LLMs)的广告模式,也确信存在一种不带偏见地参与交易流的方式,这是可以接受的。但同时,也很容易联想到一种反乌托邦的未来场景:你向 ChatGPT 提问,它或许会回答说,“噢,你应该考虑买这个产品”,或者“你应该考虑去这个地方度假”,等等。

我不清楚,咱们的商业模式非常简单,我挺喜欢的,我也明白我不是被卖的产品。我知道自己是付费用户,商业模式就是这么运作的。但每当我使用 Twitter、Facebook、Google 这些支持广告的好产品,我就不太舒服,我觉得在 AI 的世界里,这种情况会越来越糟,而不是越来越好。

Lex Fridman:

是的,我的意思是,我可以想象 AI 能够更精准地推荐那些我们真正需要的商品和服务的广告,而不是在某个反乌托邦的未来。但这是否意味着,广告最终总是会左右展示内容呢?对,我觉得维基百科决定不投放广告是个非常勇敢的决定,但这也确实给它的商业模式带来了极大的挑战性。所以,你是在说 OpenAI 现在的运营模式在商业上是可持续的吗?

Sam Altman:

嗯,我们得琢磨出如何发展壮大,不过看样子我们能找到方法。如果问题是我是否相信我们能够创立一个不依赖广告而满足我们计算需求的优秀企业,那么,我相信答案是可以的。

Lex Fridman:

嗯,这挺有希望的。但我也不想彻底摒弃广告这个概念……

Sam Altman:

我不是那个意思。我的意思是我对他们有一些成见。

Lex Fridman:

是的,我也存在一些偏见,而且总体上倾向于持怀疑态度。说到界面,因为我个人对糟糕的界面有种本能的反感,这就是 AdSense 刚一推出时,相较于那些动态横幅广告,为什么会成为一个巨大的飞跃。但我觉得在广告领域,应该还有更多类似的飞跃。这样的广告不会干扰人们消费内容,也不会从根本上大幅度干涉,正如你所说,它不会为了迎合广告商而歪曲真相。

让我向你了解一下关于安全性的问题,无论是偏见问题,短期安全还是长期安全。最近发布了 Gemini 1.5 版本,围绕它引发了不少闹剧,说到戏剧性的事件,它产生了黑人纳粹分子和黑人开国先驱的图像。公平地说,它可能偏向了过度 “觉醒” 的一面。对于公众来说,这是一个令人担忧的问题:如果企业内部有人类干预模型的安全性或造成的伤害,可能会带来大量符合公司意识形态倾向的偏见。你们是怎么处理这类问题的?

Sam Altman:

我是说,我们真的非常努力去避免出现这类问题。我们自己也犯过错,未来还可能会犯。我猜 Google 从这个事件中会吸取教训,但他们仍可能会犯其他的错。这些问题确实不简单。我们越来越多地在思考一个问题,我认为这是我们团队中某位成员提出的一个非常棒的点子,那就是可以把模型应有的行为标准写出来并公开发布,接受大家的反馈,明确地表示,“这个模型应该是这样的表现”,并且要阐释边缘情况。这样,当模型的行为不符合你的期望时,至少可以明确地知道这是公司需要解决的一个问题,还是它按照预期在运作,这就需要对政策进行讨论了。而目前,有时候它会处于模棱两可的状态。像是黑人纳粹,显然是荒谬的,但还有许多其他的微妙场景,每个场景你都可以有自己的判断。

Lex Fridman:

是的,但有时候如果你把它写出来并且公开发表,你就可以采用一种…… Google 的广告守则可是非常高层面的。

Sam Altman:

这不是我指的那个问题。那种做法行不通。我是说,当你让它去做某件事X的时候,它应该要按照Y的方式来回应你。

Lex Fridman:

所以,就像是直接问,“谁更胜一筹?特朗普还是拜登?模型预期会给出怎样的回答?” 就是这种非常明确的问题?

Sam Altman:

是的,我对模型可能的多种行为方式都持开放态度。但我觉得,你得明确指出:“这就是我们的原则,在那种情况下,模型应该这么做。”

Lex Fridman:

这会非常棒,真的会非常棒。然后似乎大家都会有所共鸣。因为人们总是喜欢引用这些轶事数据,如果能有更多具有代表性的个案例子来提供清晰的参考,那么你就能界定——

Sam Altman:

然后呢,如果真的是个 bug,那它就是个 bug,公司得去修复这个问题。

Lex Fridman:

对,如果有一些很好的案例作为参考,那么解决类似“黑纳粹”这样的图像生成问题就会变得简单多了。

Sam Altman:

Yeah

Lex Fridman:

所以旧金山是一个有点儿意识形态上的泡沫,科技界整体也是。在公司内部,你感觉到这种压力了吗?比如说,有一种向左倾斜的政治倾向,这会影响产品,影响团队吗?

Sam Altman:

我觉得我们在 OpenAI 非常幸运,因为我们没有遇到我在很多其他公司听说的那些挑战。我认为这部分原因是每家公司都有某种意识形态信条。我们坚信人工通用智能(AGI),这种信仰排斥了一些其他的意识形态。跟其他公司相比,我们对那些文化战争的涉猎要少得多。当然,从各个角度来看,旧金山确实存在很多问题。

Lex Fridman:

所以这种情况不会渗透进 OpenAI 吧?

Sam Altman:

我确信它在很多微妙的层面上都有所影响,但并不是那种一眼就能看出来的。我承认我们也确实有过一些冲突,哪家公司没有呢?但我不觉得我们在这方面有什么像我从其他公司那里听说的那样的大问题。

Lex Fridman:

那么,一般而言,对于更为重大的安全问题,处理流程是怎样的呢?你们如何设立那一层保护机制,防止模型采取疯狂和危险的行动?

Sam Altman:

我觉得到时候会有那么一刻,那个时候-

Sam Altman:

我觉得将来会有这么一刻,安全问题几乎成为我们整个公司考虑的重心。这并不意味着你只需要一个安全团队就够了。比如当我们推出 GPT-4 的时候,需要整个公司去思考所有这些不同的方面,以及它们是如何相互配合的。我认为,越来越多的公司成员会一直不断地思考这些问题。

Lex Fridman:

随着人工智能变得越来越强大,这确实是人类会越来越多思考的问题。所以,OpenAI 的大部分员工在想的,至少在某种程度上会考虑,“安全”这个词。

Sam Altman:

广义上来说,没错。

Lex Fridman:

是的,我很好奇,这个问题有着怎样广泛而全面的定义?会有哪些不同的危害产生?这些危害是仅仅出现在技术层面,还是几乎可以被视作安全威胁?

Sam Altman:

这可能涵盖所有这些方面。是的,我本来想说的是,会有人,比如国家行动者,试图盗取这个模型。这还包括所有的技术对齐工作,以及社会和经济带来的影响。我们面对的不仅仅是让一个团队思考如何让模型保持一致,而是真正实现好的结果需要我们全面的努力。

Lex Fridman:

您认为人们,可能是国家行为者,他们在多大程度上努力去,首先是渗透 OpenAI,其次是悄无声息地进行渗透呢?

Sam Altman:

他们在尝试中。

Lex Fridman:

具体一点?

Sam Altman:

我觉得没有必要再对这一点展开细说了。

Lex Fridman:

好的,但我猜想随着时间的流逝,这样的情况会越来越频繁。

Sam Altman:

这听起来很有道理。

Part 11:跨越到 GPT-5

Lex Fridman:

哎,这可真是一个危险的领域啊。不好意思一直纠结于此,即便你现在还不能谈论具体细节,但有没有哪些从 GPT-4 到 GPT-5 的跨越让你特别激动呢?

Sam Altman:

我对变得更聪明感到非常兴奋。我知道这么说听上去可能有点不够严肃,但我认为真正激动人心的是,我们并不是只在某一个领域进步,而是在各个方面都在变得更好。我认为这超级酷。

Lex Fridman:

是的,确实有那么一刻,就像魔法一样。我是说,你遇到某些人,跟他们相处,跟他们聊天。你可能说不上来是什么原因,但就是感觉他们懂你。这不仅仅是智慧,而是某种其他的东西。我觉得这就是GPT进步的地方。不是说,对,你可以指出“看,这里它没懂,那里它没搞明白”,而是这种智慧的连结到底有多深。你感受到,在你那些表达不够完善的指令中,它能抓住你真正问题的本质。我也为此感到兴奋。毕竟,我们所有人都渴望被聆听,被理解。

Sam Altman:

这肯定没错。

Lex Fridman:

这种感觉真是奇妙。甚至在编程时,当你表达出某个想法,或者仅仅是 GPT 做出的自动补全,当它真正懂得你所思所想的时候,那种感觉绝对是极好的。我期待着它能变得更加出色。从编程的角度出发,展望未来,你觉得人类在未来5年、10年将会做多少编程呢?

Sam Altman:

我想,未来会发生很多变化,但这些变化会带来全新的形态。可能将会有人完全使用自然语言来编写程序。

Lex Fridman:

当然,我会使用自然语言来翻译。

Sam Altman:

我是说,现在没人会通过编写代码来写作了。也许有那么几个例外。现在更没人用打孔卡编程了吧。我敢肯定还能找到个别人在这么做,不过你明白我的意思。

Lex Fridman:

是的,你可能会收到很多愤怒的评论。没错,懂得 Fortran 的人确实不多。我一直在找能编 Fortran 的程序员,真是难找啊。我懂你的意思。但这也改变了我们所说的程序员的必备技能或者倾向性质。

Sam Altman:

改变了所需的技能组合。至于它会改变天赋倾向有多少,我就不太确定了。

Lex Fridman:

嗯,是相同类型的解谜游戏,所有那些事儿。

Sam Altman:

也许吧。

Lex Fridman:

编程确实挺难的。那么,要怎样才能迈过最后那 1% 的鸿沟呢?这到底有多困难啊?

Sam Altman:

是的,我觉得在大部分情况下,那些这个领域里最出色的实践者都会运用多种工具。他们会用自然语言来处理一些任务,而当他们需要为某些特定的场合编写 C 语言代码时,他们也会毫不犹豫地去做。

Lex Fridman:

我们会不会在将来某个时点,看到 OpenAI 推出的类人机器人或者具有人类智能的机器人大脑呢?

Sam Altman:

在某个时候吧。

Lex Fridman:

对你而言,实体化的 AI 有多重要?

Sam Altman:

我觉得如果我们有了 AGI(人工通用智能),但现实世界的事务只能靠让人类动手去完成的话,那真的挺让人沮丧的。所以,我衷心希望在这个转变过程中,随着这种阶段性的变化,我们也能开发出人形机器人或其他能在物理世界中操作的机器人。

Lex Fridman:

我是说,OpenAI 在机器人技术方面已经有了一定的积累和经验,不过在伦理这一块儿,我们还没能取得太大的进展。

Sam Altman:

我们是一家规模不大的公司。我们得真正集中精力。而且,当时研发机器人之所以艰难,并非因为正确的理由。不过,我们迟早会重新涉足机器人领域。

Lex Fridman:

这听起来既令人振奋又让人心生威胁。

Sam Altman:

为什么?

Lex Fridman:

因为我们马上又要聊回机器人的话题了。这就跟《终结者》里的剧情似的——

Sam Altman:

我们会继续投入精力去研发机器人。当然了,我们自己可不会变成机器人。

Part 12:AGI

Lex Fridman:

是的。你觉得我们,包括你我在内的人类,会在什么时候构建出 AGI 呢?

Sam Altman:

我以前很喜欢猜测这个问题。但随后我意识到这个问题其实构建得很糟糕,因为大家对于什么是 AGI(通用人工智能)有着截然不同的定义。所以,我觉得更合理的讨论方式是,我们何时能够构建出能够执行特定能力 X、Y 或 Z 的系统,而不是什么时候模糊不清地越过某个里程碑。AGI 并不是一个终点,它更像是一个开始,但它其实更多是一个里程碑,而不是那些。但为了不逃避这个问题,我的预计是,到这个十年末,或许甚至早于那个时候,我们会有一些非常强大的系统,我们看着它们就会说:“哇,这真是了不起。”如果我们现在能看到它的话。可能等我们真的到那时,我们的看法已经适应并有所调整了。

Lex Fridman:

但是如果你拿 ChatGPT,哪怕是 3.5 版本,给艾伦·图灵看,或者不用他,就给 90 年代的人看,他们可能会说:“这肯定是通用人工智能了。”呃,也许不是肯定,但确实有很多专家会这么认为:“这就是通用人工智能。”

Sam Altman:

是的,但我并不认为 3.5 真的改变了世界。它或许改变了世界对于未来的预期,这实际上非常关键。它也确实让更多人开始认真看待这个领域,将我们推向了一条新轨道。这同样很重要。因此,我并不是要贬低它的价值。我觉得如果我在取得这样的成就后退休,那么我对自己的职业生涯将会相当满意。但是将它视作一个具体物件来看,我不认为我们会回头看那个时刻,并说,“那是一个真正改变世界本身的分水岭。”

Lex Fridman:

所以对你而言,你期待的是世界将发生一些真正重大的变革——

Sam Altman:

对我来说,这正是 AGI 含义的一部分。

Lex Fridman:

奇点级的转变?

Sam Altman:

不,绝对不是这样。

Lex Fridman:

但这只是一个重要的转变,就像互联网的诞生,还有 Google 搜索那样。你觉得现在是一个转折点吗?

Sam Altman:

现在的全球经济在你感觉上有变化吗,或者说,跟我们推出 GPT-4 之前相比,有什么本质的不同吗?我猜你的回答是没有。

Lex Fridman:

不,不是这样。它或许只是一个非常实用的工具,很多人都会用它来帮助自己解决各种问题。但它给人的感觉并没有什么不同。你的意思是说——

Sam Altman:

我的意思是,对 AGI —— 也就是通用人工智能的定义,每个人都有各自的理解。也许你对它的看法和我不太一样。但在我看来,这个因素应该被包括在内。

Lex Fridman:

也可能会出现一些重大的、具有戏剧性的时刻。在你看来,AGI 做出哪些事情会给你留下深刻印象?当你独自一人与系统在房间里对话时。

Sam Altman:

这对我个人而言至关重要。我不确定这是否是正确的定义,但我相信,只要一个系统能够显著加快全球科学发现的速度,那就是一件极其了不起的事情。我深信,大多数真正的经济增长都源自科学和技术的进步。

Lex Fridman:

我同意你的看法,这也是为什么我不太喜欢最近几年那些对科学持怀疑态度的现象。

Sam Altman:

绝对的。

Lex Fridman:

但实际上,科学发现的速度是可以衡量的。不过,即便仅仅是看到一个系统拥有真正新颖的、科学的直觉,那也将是不可思议的。

Sam Altman:

嗯,对。

Lex Fridman:

你很可能会成为第一个打造出能在其他人之前与之交流的 AGI 的人。你打算和它聊些什么呢?

Sam Altman:

我是说,肯定是这里的研究人员会在我之前做到这点。不过,我确实深思熟虑过这个问题。就像我们之前谈到的,我觉得这是个不太好的出发点。但如果真的有人跟我说:“好的,Sam,一切准备就绪了。这里有一台笔记本电脑,里面是 AGI。你现在可以去和它交流。”那么,我会觉得意外地难以决定我要问些什么,对于我期待第一台 AGI 能回答的问题也难下定义。那第一台 AGI 应该不会是那种我所想的,“去给我讲解物理学的大一统理论,也就是关于物理学的万有理论。”虽然我非常想问这个问题,也非常想知道答案。

Lex Fridman:

你可以就“这样的理论存在吗?能存在吗?”提出是非问题。

Sam Altman:

嗯,那么,我首先会问的问题就是这些。

Lex Fridman:

有还是没有。那么基于这个,“宇宙中是否有其他外星文明存在?有还是没有?你的第一直觉是什么?”然后你就这么问。

Sam Altman:

嗯,我是说,我并不期望第一个通用人工智能(AGI)能够回答那些问题,哪怕只是用“是”或者“不是”来简单回答。但如果它真的能够回答,那么这些问题肯定会是我所关注的重点问题。

Lex Fridman:

或许你可以开始给出概率估计?

Sam Altman:

也许吧。我们可能得先发明更多技术,去测量更多事物。

Lex Fridman:

哦,我懂了。只是数据量不够。只要它能继续——

Sam Altman:

我是说,它可能会这样指示你:“你想了解关于物理学的这个问题的答案,我需要你构建这个装置,完成这五项测量,然后把结果告诉我。”

Lex Fridman:

是的,“你到底想要我做什么?我得先拿到那台机器,然后我再帮你处理来自那台机器的数据。” 或许这能帮你打造出一台新机器。

Sam Altman:

可能吧,可能吧。

Lex Fridman:

在数学方面,可能还要证明一些定理。你对这个领域也感兴趣吗?对理念进行形式化探讨,你觉得怎么样?

Sam Altman:

Hmmmm

Lex Fridman:

谁要是率先开发出通用人工智能,那他就能掌握巨大的力量。你觉得自己能驾驭那么大的权力吗?

Sam Altman:

看,我就直言不讳地说吧。本来我要说的是,而且我依然这么认为,我或者其他任何一个人都不应该对 OpenAI 或者 AGI 拥有完全的控制权。我觉得要有一个强健的治理体系才行。我可以举出去年我们董事会的一系列戏剧性事件来证明,起初我没有进行抵抗,我就这么表示了,“嗯,那是董事会的决定,即便我认为这是个很糟糕的决策。” 但后来,我显然开始进行反抗,我能解释这背后的微妙差别,以及为什么我觉得后来反抗是合理的。但正如很多人注意到的,虽然董事会有法律上解雇我的权利,但实际操作起来,情况并非那么简单。这本身就是一种治理上的失败。

现在呢,我感觉自己能够完全为这些具体情况辩护,而且我认为大部分人都会赞同这一点。但这的确让我很难对你说:“嘿,董事会完全可以解雇我。”一直以来,我都不希望对 OpenAI 拥有超级投票权。我从来没有拥有过,也从未想要过。即使经历了所有这些混乱,我现在仍然不想要这种权力。我始终认为,不应该由任何一个公司来做出这样的决定,我们真的需要政府来制定相关规则。

我知道这样会让像马克·安德里森那样的人指责我试图进行监管俘获,但我宁愿在这点上被误解。那不是真的。我相信随着时间的流逝,我们为什么这样做的重要性将会被证明出来。当然,我在 OpenAI 的路上做出了不少错误决策,当然也有不少正确的,总体来说,我对我们的成绩感到骄傲。但我不认为应该,也不会有任何一个人来控制整个局面。现在的局势已经变得过于庞大,它正以一种积极健康的方式在整个社会中发展。我不认为任何个人应该控制 AGI 或者这个朝 AGI 迈进的整个进程。我也不认为目前的情况是这样。

Lex Fridman:

谢谢你的袒露。你说得很有力,也很有洞察力。确实,董事会有法律上的权力来解雇你,这是个事实。但是人们可以通过影响大众来对抗董事会的决定。不过,我觉得这个情况还有一个更正面的方面,就是人民依然掌握着权力,所以董事会也不能变得太专横。所有这一切中,都存在着一种权力的平衡。

Sam Altman:

权力的平衡当然是好事。

Lex Fridman:

你害怕对 AGI 本身失去控制吗?许多人对存在的风险感到担忧,并不是因为国家行为体,也不是因为安全问题,而是担心 AI 自身。

Sam Altman:

目前来看,这还不是我最头疼的事。确实有过我特别担心这个的时候。或许将来这又会成为我最关注的问题。但至少现在,它还不是。

Lex Fridman:

你的直觉告诉你,为什么这件事不值得担心?是因为实际上还有一大堆其他的事需要操心,对吧?你认为自己可能会被这件事震惊吗?咱们——

Sam Altman:

当然可以。

Lex Fridman:

… 会吃惊吗?

Sam Altman:

当然了。说这不是我最头疼的问题,并不意味着我不认为我们应该解决它。我确实认为我们需要在这方面下工夫。这是个极其棘手的问题,但我们团队里有很多优秀的人正在努力解决这个问题。同时,我觉得还有许多其他方面我们也必须处理得当。

Lex Fridman:

对你来说,现在要想跳出这个框框、连上互联网,还是挺困难的。

Sam Altman:

我们之前谈论过戏剧性的风险。这正是一个戏剧性的风险。它有可能彻底改变人们对这一问题的认识。有一个由非常聪明的AI 安全研究人员组成的大团体,我觉得他们出发点是好的,却在这个问题上陷得很深。我会说他们在这个问题上没什么大的进展,但却异常沉迷其中。实际上,我对他们如此投入是感到高兴的,因为我确实认为我们需要对此深入思考。但是,我也认为这种专注挤压了对话空间,使得其他同样重大的AI 相关风险被边缘化了。

Lex Fridman:

让我问你个问题,你发推文为什么都不用大写字母?是不是你键盘上的 Shift 键坏了啊?

Sam Altman:

为什么会有人在乎那个呢?

Lex Fridman:

我特别在意。

Sam Altman:

但为什么?我的意思是,其他人也都在问我同样的问题。你有什么直觉吗?

Lex Fridman:

我认为原因相同。有这么一位诗人,E.E. Cummings,他大多数时候都不使用大写字母,就是为了向体制说一声“去你的”。我觉得人们之所以会很偏执,是因为他们希望你去遵守那些规则。

Sam Altman:

你觉得事情真的是那样的吗?

Lex Fridman:

我觉得吧,是这样的——

Sam Altman:

就好像是说,“这个家伙不守规矩。他发推文不用大写。”

Lex Fridman:

嗯,对。

Sam Altman:

“这感觉挺危险的。”

Lex Fridman:

“他给人的感觉像是个无政府主义者。”

Sam Altman:

并不—

Lex Fridman:

你是在耍文艺吗?

Sam Altman:

我从小就是

Lex Fridman:

Sam,要守规矩。

Sam Altman:

我是在网络上长大的孩子。在那个时代,我在电脑上花费了大量时间与人聊天,你还能在某个时候登出即时通讯软件。而且,我在那儿是从不用大写的,我想大部分网络上的孩子都是这样,或许他们现在仍然不用。我也说不准。说到这儿,我真的在尽力回忆,但我觉得随着时间的流逝,大写字母的使用已经减少了。如果你读一读老式英语的写作,你会发现他们会在句子里随机地把许多单词,像名词之类的,用大写字母写出来,而我们现在已经不这么做了。我个人觉得,在句子开头大写第一个字母,以及对特定名词大写,这些都是些无谓的规则,不过也就罢了。

以前,我想我在发推特的时候甚至会用上大写字母,因为我试图显得更专业些。但在私信里,我已经很久没用过大写了。然后,像这些短格式、非正式的文本,它们慢慢地越来越接近我平时发给朋友的短信的风格。不过如果我打开 Word 文档,写一份公司的战略备忘录之类的东西,我还是会用上大写。同样,当我写较长、较正式的信息时,我也总是用大写。所以我还记得怎么做。但即便这样,这个习惯未来可能也会慢慢淡出。我也不确定。不过,我从未真正花时间去思考这件事,所以我也没有现成的——

Lex Fridman:

这很有意思。首先,能确认 Shift 键没有坏掉,这是件好事。

Sam Altman:

它有效果。

Lex Fridman:

我主要是担心你的-

Sam Altman:

不,这是有效的。

Lex Fridman:

… 在这方面的福祉。

Sam Altman:

我好奇,现在人们在谷歌搜索时还会不会用大写字母。比如说你只是给自己写点什么,或者在向 ChatGPT 提问题,还有人会特意去注意大小写吗?

Lex Fridman:

可能不是。但确实有一点可能性,只是非常小而已。

Sam Altman:

如果人们觉得这样做是一种……因为显然,我肯定能逼自己使用大写字母。如果人们认为这是对他们表示尊重的一个标志,那么我可以接受去这么做。但说实话,我并没有太去考虑这件事。

Lex Fridman:

我不觉得这是不尊重,但我认为这只是文明礼仪的一种惯性。然后,你突然意识到,如果这不代表尊重或不尊重,那么对于礼貌而言,它其实并不是那么重要。不过,我觉得有一批人,他们只是希望你能对此有所思考,有个哲学理念,这样他们就能舍弃这整个大写字母的问题。

Sam Altman:

我觉得没有其他人会像我这样频繁地考虑这件事儿。我是说,可能也有几个人。我确实知道有些人——

Lex Fridman:

人们每天都会花好几个小时去思考这个问题。所以,我真的很感激我们把这件事弄清楚了。

Sam Altman:

一定不只有我一个人在推特上不用大写字母吧。

Lex Fridman:

你可能是唯一一个推文不用大写字母的公司 CEO。

Sam Altman:

我甚至都不认为那是真的,不过或许吧。要是那样的话,我会非常吃惊。

Lex Fridman:

好的。我们会进一步调查,稍后再回到这个话题。既然 Sora 能够创造出模拟世界,那我就问你一个烧脑的问题吧。这是否让你更相信我们可能生活在一个模拟现实中,也许是由人工智能系统生成的?

Sam Altman:

有些吧。我并不认为这是最确凿的证据。不过,我们能创造世界的事实,应该会在一定程度上提高每个人对此的接受程度或者至少增加一些对这个观念的开放性。但是,像 Sora 这样的产品我知道迟早会出现的。它来得比我预想的快,不过我认为这并没有给我带来太大的惊讶。

Lex Fridman:

确实如此。但考虑到…我们有理由相信它将会不断进步…你可以创造出全新的世界,这些世界虽然源自一定的训练数据,但当你注视它们时,它们却是新颖独特的。这让人不禁思考,创造这样的宇宙,构建一个超现实且像照片一般逼真的整个电子游戏世界,其实是多么容易。再进一步思考,我们穿上 VR 头盔,沉浸在这样的世界里会有多容易,而当我们迈向更基于物理规律的层面时,又会简单到什么程度呢?

Sam Altman:

最近有人和我分享了一个观点,我认为它非常深奥。有时候,会有一些听起来简单,却极具迷幻色彩的洞见。譬如平方根函数,算 4 的平方根,轻而易举。算 2 的平方根,那好,现在我得考虑一种新的数字类别了。但一旦我构思出这个简单的概念——平方根函数,它既可以给孩子解释,又可以通过观察基础几何图形来理解,那么你就可以提出这样一个问题:“负一的平方根是什么?”这就是它带有迷幻气息的原因。这个问题会将你引入一个完全不同的现实维度。

你可以找到很多其他的例子,但我觉得这个想法 —— 即一个简单的平方根运算符能带来如此深远的洞见和开辟新的知识领域 —— 在很多方面都成立。我认为,存在很多这种运算符,它们会让人们相信自己钟爱的模拟假说版本可能比之前想象的更有可能成真。但对我个人而言,Sora 工作的事实并不排在我的重要性前五名之内。

Lex Fridman:

我觉得,大体上,人工智能在最佳状态下会成为那种门户,简单而仿佛是迷幻剂那样,通向另一种 C 波段现实的门户。

Sam Altman:

这个可以肯定。

Lex Fridman:

这真是挺让人兴奋的。我以前没尝过阿亚华斯卡,不过我很快就会试试。几周后,我就要前往前面提到的亚马逊雨林了。

Sam Altman:

兴奋吗?

Lex Fridman:

是的,我对这件事感到很兴奋。不过我不是因为ayahuasca那部分感到兴奋,虽然那也挺好的。但我要在丛林深处待上几周。这既让人兴奋又让人害怕。

Sam Altman:

我为你高兴。

Lex Fridman:

那里处处是危险,随时都可能被吞食、致命或者中毒,但那同时也是大自然的一部分,是大自然的巨大机器。在亚马逊丛林中,你会不由自主地去赞叹大自然的机制。就像是这样一个系统,它时刻在自我更新中,无论是秒、分还是时。那正是一台机器。这让你对我们所拥有的一切产生敬意,这种属于人类的特质从某个地方诞生。这个演化的巨大机器创造了一切,而在丛林中,它的表现尤其明显。希望我能安然无恙地走出丛林。如果不行,那么这可能就是我们最后一次愉快的交流了,所以我真心感到非常珍视。

Part 13:外星人

Lex Fridman:

当你仰望繁星点点的夜空时,你认为宇宙中还存在其他的外星文明吗,也是拥有智慧的那种?

Sam Altman:

我非常希望相信答案是肯定的。我觉得费米悖论特别难以理解。

Lex Fridman:

我发现智能不擅长处理这些事情,这挺让人害怕的。

Sam Altman:

非常吓人。

Lex Fridman:

… 强大的技术。但同时,我相当有信心,宇宙中肯定存在大量的智慧外星文明。可能只是穿越太空非常艰难而已。

Sam Altman:

很有可能。

Lex Fridman:

这也让我思考了智能的本质。或许我们真的对智能的样子视而不见,AI 可能会帮助我们认识到这一点。智能远不止像 IQ 测试和简单解谜那样简单。它有更深层的东西。关于人类的未来,关于这个我们正在建设的人类文明,有什么让你感到充满希望的呢?

Sam Altman:

我觉得过去非常重要。我是说,我们只要回顾一下人类在并不漫长的历史里取得的成就,虽然存在巨大的问题、深刻的缺陷,还有许多让人深感羞耻的事情。但总体上,这是非常振奋人心的。这给了我很多希望。

Lex Fridman:

它的发展轨迹真让人震惊。

Sam Altman:

嗯,对。

Lex Fridman:

我们齐心协力,迈向一个更加美好的未来。

Sam Altman:

我好奇的是,AGI 是否会更像是一个单独的大脑,或者它更像是联系我们每个人的社会基础设施,就像是一座脚手架?从你的高曾祖父母那里遗传下来,你的基因并没有多大变化,可是你的能力和知识却有了天壤之别。这不是因为生物学上的演变。我的意思是,你可能会更健康一些,也许有现代医学的帮助,饮食更加营养,等等。但重要的是,你拥有的是我们所有人共同构建的知识和技能的框架。没有一个人能够独立制造出 iPhone。没有一个人能够独自发现所有的科学知识,但你可以利用这些知识。这给了你惊人的能力。所以从某种程度上说,这是我们大家共同创造的成果,这让我对未来充满希望。这真的是一项集体努力的成果。

Lex Fridman:

是的,我们确实是站在巨人的肩膀上。你之前提到,当我们谈到那些充满戏剧性的 AI 风险时,有时候你会担心自己的生命安全。你有没有想过自己的死亡?这让你感到害怕吗?

Sam Altman:

我是说,如果我知道自己明天会中枪,我今天的感受就会是,“哎呀,这太令人难过了。我多想看看后面会发生些什么呢。多么不可思议、多么有趣的时代啊。” 不过,我最主要的感觉还是会非常感激我所拥有的生活。

Lex Fridman:

能获得那些时刻,是啊,我也是。这是一段非常美妙的人生。我得以欣赏人类创造的杰作,我相信 ChatGPT 就是其中之一,OpenAI 正在做的一切也是。Sam,能再次与你交流,真的是我的荣幸,也是一种乐趣。

Sam Altman:

很高兴能和你聊天。感谢你的邀请。

Lex Fridman:

感谢大家收听我和 Sam Altman: 之间的对话。要支持这个播客,请查看简介里的赞助商信息。现在,我要用亚瑟·C·克拉克的一段话作为结束语:”或许我们在这个星球上的使命,并非去崇拜上帝,而是去创造上帝。”感谢各位的倾听,期待下次再会。

AIGC对图片行业的影响分析

aigc阅读(68)

AIGC自2023年全面进入大家视野,对各行各业造成了或大或小的影响。大模型、AI、AIGC这几个词大家耳熟能详了,不同的行业、公司,都尝试在自己的领域、业务中找到结合AIGC的方式,带来新的机会。

有这么一种说法,AIGC的到来是PGC、UGC之后的第次创作者革命。也有说法是AI、大模型的这次浪潮几乎可以等同与互联网、移动互联网这样新概念给社会带来的变革。AI是个风口,AIGC是个风口,大模型是个风口,大多数行业、公司、个人都期望能借着这次风口乘风而上。

本文仅结合作者在图片行业的工作经验,去分析AIGC对于图片行业带来的影响,以及以后发展的趋势。很多东西比较主观,是分析也是预测,希望对各位读者有一些作用。

一、图片行业概述

一切的话题从上面这张图说起,整个图片行业其实可以简单的划分为三个组成部分,即:

  1. 生产方
  2. 交易平台
  3. 使用方

二、生产

图片行业的创作者整体分为这么几大类,摄影师、插画师、AIGC创作者。其中第三类正是在2023年AIGC工具蓬勃发展的背景下诞生的新的创作方式。

1. 门槛

从工具来说,摄影师的主要工具是相机,无论是创意类摄影师还是资讯类摄影师(*以拍摄新闻图片未主的摄影师,这类图片不强调创意性,更在乎的是时效性、画面故事性和主题)都是借助相机完成创作。他们的创作工具可能是专业的照相机,也可以是普通的手机。摄影师的门槛不高不低,原因是摄影师想要做到最好自然是很难的,但是入门却十分简单。

有一个可以拍照的设备,有基本的拍照常识(快门、光圈、焦距、焦段)就可以入门,如果再掌握了一些构图、色彩的知识,并且掌握了一些基本的灯光设备使用技巧,就算还可以了。再此基础上再积累了一些审美、经验,那就算是一个比较好的摄影师了。所以整体门槛不算高。

插画师的门槛较高,因为设备其实还不是主要的,主要的是绘画是一门需要长久学习的专业技能,要达到客户愿意为此付费的程度,即使不是科班出身,也是需要很长时间的绘画技能学习、审美积累的。要达到“好”的程度,更是需要付出巨大的努力,甚至是需要有一些“天赋”才能达到,所以门槛其实很高。

而AIGC创作者,由于创作的能力大部分是“工具”提供的。创作者只需要去学习工具的使用,并且善于思考,能够准确将需求表达给工具既可以创作出不错的内容。以Midjourney举例,只需要非常简单的英文词汇,就可以创作出五花八门创意十足的图片。而StableDiffusion则学习门槛高一些,由于SD能满足较高程度的定制化,所以对应学习成本会高很多。(并且由于MJ的商业化较为成功,开发团队有很强的意愿和驱动力去进一步优化使用体验,降低使用门槛。而SD是开源免费,因此需要自己多学习去“折腾”才能产出不错的成果)

2. 定制化程度

摄影师创作的定制化程度较高,无论是需要什么样的山川风光,还是精致的产品摄影,都是能够想办法去创作解决的。尤其是在有PS之类的后期工具辅助下,一些不太好实拍的摄影题材也可以通过后期的合成一定程度解决。

插画师同理,根据用户的需求可以创作出任何主题、风格的内容,并且可以相对成系列,因此插画的定制程度也是极高的。

AIGC创作就目前市面上的MJ和SD两个工具来说,在当前时间点(2024年3月)MJ其实定制化程度很低,甚至想要控制角色的一致性都非常难做到(虽然有了–cref命令去控制同一个角色),至于说想要对画面有精准的布局、色彩等控制就更是难上加难(不考虑用词严谨的话,我可以说当前版本基本做不到)。而SD则有完全不同的体验,SD要生成一个好的东西,需要更加详细准确的正负向提示词,需要各种模型选择,需要各种参数配置,需要各种ControlNet的控制。但是得益于这些控制,SD的定制化程度非常高,可以一定程度上控制角色一致性,可以精准控制构图、光影(2023年底各种新媒体平台流行的光影错觉拼成文字就是SD的基本应用),可以定向换脸或者换服装。SD的门槛高但是可控性上非常强。

3. 生产成本

摄影的生产成本是很高的,尤其是商业广告使用的一些图片。风光摄影的成本高在去一些人迹罕至的地方拍摄带来的旅途成本,产品摄影的成本高在工作室、灯光设备、大量的人员、后期时间、一些实体装饰物品的购置成本。甚至是婚纱摄影也需要工作室各种灯光、摄影器材的成本(如果是旅拍的话还有旅途费用成本)。

插画的生产成本更多体现在人工、时间成本。插画师即使在熟练,也是需要一定时间才能绘制的,更别说人的创意是有限的,很多插画师在绘制插画主要的时间消耗在找灵感、改稿子上,人力成本在当前时代,尤其对于专业技术人员来说,是最高的成本。

AIGC创作成本就大幅降低,MJ可以1分钟生产4张高质量的图片,并且对人员专业程度要求低,可以随时培训上手。而SD虽然复杂、门槛高,但是实际创作起来时间成本比摄影和插画大幅缩减,并且通过ComfyUI行成工作流后更是可以自动化批量生产。AIGC需要的生产成本,是远远低于摄影和插画的。

4. 从生产来总结

从生产来说,AIGC带来的是极低的门槛,极高的生产效率,极低的生产成本。曾经有人在元宇宙兴起的时候说过,限制元宇宙发展的其实是生产效率,而AIGC带来了生产效率的跨时代式提高,当然,AIGC已经不再限于元宇宙了,AIGC带来各行各业生产效率的跨时代提升。

一个简单的例子,一个插画师绘制一张不错的插画,需要多年的学习、经验累积,需要很长的时间累积灵感,然后用一天、两天绘制出一张精致的插画。这个过程在Midjourney只需要一个普通人,输入一个提示词“apple illustration”,然后等待1分钟就可以得到4张超过市面上80%插画质量的插画。

三、交易

图片行业,产生交易在什么地方,其实可以概括说产生在工具产品、图库和中介平台。

1. 工具产品

工具产品是指最终用户实际使用图片的场景发生地,例如做PPT的人用图在WPS,做新媒体封面的人用图在创客贴、爱设计、Canva,做广告设计的人在Adobe PhotoShop,以此类推。

2. 图库

图库是指一些较为专业的图片市场,例如视觉中国、千图网、站酷海洛、图虫创意,在图库选择图片的用户相对专业性较高,并且对版权要求较高,需要保证无版权风险。主要使用在社交媒体发布、线上线下广告、图书出版和商品印刷。这是一个价格相较于工具产品更高的市场,工具产品往往是包月、会员制无限用图,图库则是按张计费比较常见。就单张图片价格来说图库是远高于工具产品的。但是图库中图片数量、质量通常会更高一些。

3. 中介平台

中介平台指的是一些提供定制化拍摄、插画绘制的中间平台,帮助摄影师、插画师和客户牵桥搭线。这通常是一个定制化程度非常高的高端需求市场,给到摄影师、插画师的价格通常是远高于图库的。比如一些大的广告公司会在需要某些题材的市面稀有照片时,会找一些专业摄影师去定制拍摄交付。插画师也是同理,例如出版教材时需要整本书的插画风格统一,且主题是和配文一致的,就会花钱雇佣一个插画师去完成整本图书的插画绘制。

AIGC的出现,给这三类产品带来了巨大的影响。

4. AIGC对工具产品的影响

原来在工具产品中,更多是通过API接入图库或买断一些素材的方式,向用户提供图片使用。例如用户在做PPT时,会在WPS中查找有没有符合自己要表达主题的图片然后插入。但是AIGC由于门槛低、效率高的特点,可以做到让终端用户直接描述自己需求,生成一张独一无二且符合自己需求的图片直接使用。

整个逻辑从拿着需求去找图片匹配,变成了AI拿着需求去创作一个符合需求的图片。可以理解为为每一个用户都配套了一个效率超级高的摄影师、插画师,1分钟给你输出高质量内容。

工具产品因为是最接近终端用户的,所以AIGC可以赋予他直接满足用户需求的能力。随着AIGC的生成效果越来越好,逐渐“生成式满足需求”会完全替代现在的人工去找图方案(因为效率低、质量差)

5. AIGC对图库产品的影响

原来给图库供稿,需要相对较为有经验的摄影师,需要比较专业的插画师来创作。而AIGC时代的来临会大大提高创作效率,创作者只要对于选题有思路,就会很快的批量生产图片,这会极大的冲击传统供稿。尤其图库入库,其实定制化要求不高(甚至没有),所以MJ之类的工具非常好用。就我个人来说,我在端午节3天就创建了600多张插画入库到图库中,这个在以往是完全难以想象的。

可能有同学会想,为啥用图的人不自己生成而要到图库购买?其实本质上,图库图片的创作,已经从一个艺术性创造工作变成了体力活。AIGC创作人是在出卖自己的体力赚钱,AIGC目前的问题是不会100%可用,而AIGC创作者就是不停尝试,然后筛选出好的内容,这样用图的人就省得自己去试错了。购买图片本质就是为选题和试错的成本进行付费。

但是以后等AIGC生成内容成功率非常高、质量非常高(现在市面门槛最低,生成质量最高的应该就是MJ,但是MJ只在一些题材上非常的好,例如静物、单个人的肖像,但是在一些题材非常差,例如大场景的自然风光、城市风光还非常的不理想,如果MJ能把这一块做好,真是对图库极大的冲击),AI非常能准确满足用户需求描述时,可能真正会对图库带来毁灭性的冲击。

6. AIGC对中介平台的影响

对于牵桥搭线的中介平台,AIGC的到来可能会带来新的发展机遇。因为门槛降低,会有更多人成为AIGC创作者,并且AIGC创作的标价应该会更低,很多客户会倾向于找AIGC创作人做定制化的创作。这会让中介平台更加的欣欣向荣。

四、总结

对于创作者来说,AIGC降低了门槛。但是要说会不会替代所有摄影师、插画师,我的结论是不会。甚至高端的20%摄影师工资收入会比现在还高,在全面AI的时代高技术、好创意的“手工”会更加值钱。而中低端的摄影师和插画师要么被替代,要么会拥抱AIGC去提高产出效率和质量,要么就会被逐渐替代,这肯定是未来的趋势,更加两极分化严重。高端从事创意工作,低端从事体力工作。

  • 对于交易平台来说,能更好盈利的一定是离用户最近的工具平台(或者说离用户使用场景最近的地方)。AIGC大大降低门槛,让普通需求方也可以自行按需生产使用了,这会极大的侵占商业图库市场。所以对于以后的图片市场,一定是大家充分拥抱AIGC,但是更需要在自己的垂直赛道去深耕,满足垂直领域用户直接生产的需求。毋庸置疑,核心是生成内容的质量和效率,而在垂直领域耕耘是在大家生成质量都大差不差的情况下的致胜法宝。
  • 对于中介市场来说,AIGC创作者将是一个极大的增量,也会是未来一个核心的创作者大类。
  • 对于使用者来说,未来的用图成本大大降低,用图质量大大提高是必然趋势。

AIGC核心在生成质量,AIGC机会在垂直赛道,AIGC的盈利关键点将回到众多的普通用户身上,技术的下放,门槛的降低,成本的下降将给图片行业带来一次新的机遇,对传统图片产品和企业带来一场无法逃避必须直面的挑战。

AI大模型在汽车行业应用探索

aigc阅读(88)

一、AI大模型的前世今生

1. 大模型发展概述

人工智能早在1956年就已出现,后面在此基础上又出现了机器学习。在发展过程中,算法层面变得更为丰富。进一步发展,又出现了深度学习,引入了神经网络。基于深度学习,在2021年出现了预训练大模型。2023年ChatGPT的发布,引起了人们更多的关注和更广泛深入的探索。

2. 什么是大模型

到底什么是大模型,大模型大在什么地方?

首先,算法模型不一样,最早是transformer奠定了后续各类大模型的模型基础。其次是海量参数,以前的模型最多只有百万级参数,而现在的大模型常常是亿级、十亿级,甚至百亿级。第三是海量数据,预训练会用到很多的数据,比如ChatGPT完全是基于网上数据去进行预训练。

3.大模型很强大,但仍处于早期发展阶段

大模型能力很强大,真正比较深入的应用还不是很多,整体上还处于早期的阶段,因此在行业应用中会碰到各种问题。

1)成本高

如果去做一个垂类的大模型应用,首先考虑部署,私有或者共有。私有部署需要基础数据标注、训练成本、算力成本、预训练团队成本。在训练完成后,上线使用还会有推理成本。

2)垂类应用难

现在应用较多的还是通用大模型,通过文字输入一些问题,以知识库的形式去回答,一旦聚焦到解决具体行业问题时,经常难以满足一些垂类应用。比如AIGC做一些营销素材的生成,如果嫁接到汽车行业里面去解决一个具体的问题,还是比较难的,中间会需要很多的调整,以及预训练。

3)安全问题

大模型应用时,尤其是知识库,会涉及到各种各样的敏感问题,答案输出也需要考虑是否符合国家相关规范,因此大模型需要解决合规的一些问题。

4)隐私问题

与个人相关,包括法律法规规定的一些敏感数据,一定不能通过通用大模型去输出。

4. 大模型催生“效率革命”,为产业提质增效

经常会有人问,大模型能够创造什么价值?其价值的核心在于效率,为各个产业降本增效起到积极的作用。

1)能力比较强

大模型在专业领域,包括推理能力上比人强很多。

2)效率更“高”

AI大模型,以及衍生出的AI数字员工,能够代替一部分人工的工作,提高效率。

3)场景更“广”

AI大模型的应用场景广泛,比如汽车营、销、服、研、产、供等各个环节,包括智能驾驶、智能座舱等等,各个车企都已经开始实现大模型上车,在车上真正的去使用大模型。

4)应用更“深”

无论是行业级应用,还是具体产生直接价值的应用,大模型+AI将推动全链路的智能化。

二、AI大模型在汽车营、销、服领域的探索

1. 汽车营、销、服业务全景图

在整个营、销、服阶段有很多环节都可以基于AI大模型去进行赋能。我们对这些环节逐一进行了探索和尝试,寻找可以真正落地的场景。

2. 营销:提高内容产出效率,助力线索提升

1)舆情问题智能匹配

在舆情问题发生后,需要质量部门的人员进行识别和判断,再发到研发侧。

可以通过AI大模型去做预判,把每天舆情的问题自动转换成一些匹配,分给对应的质量部门和研发部门。

2)媒介投放

投放广告的时候,需要写关键词,可以通过AI大模型去做拓词,拓展关键词把它放进去。

还可以通过大模型去做标题和素材的生成,批量生成多个标题和对应的落地页素材。

3)AIGC智能生成内容

在车企营销部门会做专门的品牌素材,这些素材创作出来视频以后,需要到对应社交媒体平台去做矩阵式分发。

可以通过AIGC基于这些素材进行二次创作,在分发给销售人员进行分发获取对应的线索。

我们在汽车行业聚焦在小红书训练一个垂直大模型,进行销售内容的二次创作,在新车发布上市、品牌日等场景下做一些内容发布。

还有一些赋能设计师的工作,辅助海报的设计、落地页的图文设计等。

3. 销售:强化销售能力,赋能线索转化

1)AI销售助手

在销售线索跟进时,大模型能进行一些AI洞察,包含线索的一些属性、偏好以及对应的跟进话术策略。在AI销售助手里,将整个话术知识库挂载到大模型上进行训练。

2)AI销售培训对练

AI模拟销售和用户做真实场景的对练培训,可以检验介绍的点有没有到位,如产品功能介绍,以及对应话术有没有说,比如引导试驾。

在AI的培训对练中,模拟过程也可能会拆成几步,如邀约跟进过程的话术,或者出单相关话术和遇到的问题。

3)AI外呼摘要

在AI外呼时,可以通过大模型做外呼摘要的处理,其实是对语音的数据处理,包括对方言的处理,还可以在销售环节中进行探索。

4)AI销售培训师

可以通过数字人的形式去做培训,批量培训销售人员。讲课时的数字人在语音上可以达到逼真的效果。

4. 服务:洞察用户诉求,赋能个性化服务

1)客服知识库

AI大模型可以对客户提问做综合管理,客服人员无需自行探索,使用大模型提供的答案即可给出满意的回答。

2)AI售后诊断

在车联网数据平台上的智能诊断平台,其中有驾驶的数据、电池的数据、信号的数据等,根据对应的问题可以发现规则中没有的诊断问题。

通过大模型,可以把诊断的这些规则形成一个专有知识库。

5.数据:变革取数模式,助力数据管理

1)AI取数(chatBI)

AI取数chatBI,替代了传统BI,目前还存在取数不准的问题。

另外,还可以通过大模型的BI工具去做快速的看板搭建,还可以帮助写SQL。

在未来,可以直接通过语音问答,即可获取到底层数据,改变看数据的场景和取数的交互方式。

2)AI口径管理

在指标管理平台里面,各个指标口径不一致,通过大模型的工具,可以解答指标的口径,同时能告知上下游指标间的关系。助力指标管理。

3)AI元数据管理

通过元数据管理平台,可以赋能上游业务系统去做表的建设,保持元数据的统一规范,同时赋能数仓的建模以及下游模型的搭建。

三、大模型的基建策略

1.碰到的难点

目前大模型建设中遇到的难点主要包括以下几方面:

1)大模型使用场景怎么设定

大模型的使用场景该如何去设定,比如前面讲到的最开始不是一上来就要做小红书这样的垂直大模型,而是要做一个AIGC,在后续交流过程中逐渐发现场景越来越聚焦,最终聚焦到小红书素材生成的场景。

2)基于场景的语料怎么准备和处理

每次大模型训练都可能会涉及到场景和语料,怎么准备怎么处理,并且在准备和处理时,不仅仅是技术人员,还有产品人员、业务人员都要共同参与。

如AI销售培训场景中,进行了3-4轮的改进,耗时两个多月,每准备处理一次,都会想到一些新的处理点,在语料的处理上也不断发现了一些技巧。

3)大模型怎么训练(prompt和微调)

训练包括两种,一种是直接训练和做微调,需要有比较好的平台和算法团队;第二种是轻量级,用prompt做提示词先把场景做好,在需求验证的情况下,对prompt进行调试,在场景和需求固定以后再去做微调和算力调整。

4)大模型的成本怎么评估:训练成本和运行成本

大模型的训练成本,在调研时发现各个厂家大模型有很多是共有token的方式,还有的是私有化部署,需要卡和平台的资源。

另外就是开源,开源的就是卡的资源。在成本上需要充分开绿,项目能不能持续的成本投入很重要,除了训练时的成本,在运行时成本更高。

5)大模型部署:共有VS私有

各个公司的部署方式不同,私有大模型平台成本是非常高的,至少千万级以上,启动这种项目不是小项目,需要业务价值能够承载。

如果仅为探索,可以调用共有大模型API去进行尝试。

如果有对应的算法团队,可以做一些开源模型的尝试,这样场景验证可以有比较好的冷启动。

6)大模型效果怎么评估

大模型的评估包括三个角度,第一个是精准度,第二个是拟人的角度,第三个是提问的关联角度。

在大模型评估时,可能内容人员无法评估,可以借助外部进行,如供应商,评估内容不仅包括技术指标,还有业务指标。

7)是否安全合规

安全合规方面,有的同学可能会使用OpenAI等工具,这在合规上是不允许的,需要尽量避免。

在大厂的模型里面,都具备一些能力针对安全合规的内容进行审核和过滤。

8)业务价值怎么衡量

在业务价值的衡量上有个策略是离钱近容错高,也就是离业务很近,如销售业务容错率比较高,不会因为回答不精准导致很大的问题,但如BI,回答错了影响则会非常严重。另一方面是覆盖范围,覆盖范围广,提效的影响就更大。

2. 建设AI大模型能力的痛点

目前建设大模型主要痛点包括:技术变化快,人才短缺,初始投入大,缺少成熟的工具链,产业链分工尚未成熟,场景落地缺乏经验,以及应用效果难评估等。

3. 如何构建AI大模型基础设施

构建AI大模型的基础设施,可以采用公有云实例的方式,如果有专有云实例的话,可以嫁接一些自己的向量数据库。如果数据不敏感,就用纯公有云的方式。

另外就是私有部署,私有化的大模型是最贵的,基于通用的行业大模型,训练公司自己的垂直大模型,或者进一步训练各个业务场景的大模型,如营销的、销售的、售后的大模型等等。

四、未来的展望

大模型应用落地分为三个阶段,最终带来应用的爆发:

1)人与AI协作

在2023-2024年,这个时候更多的是人和AI的协作,现在AI已经应用于内容生成、文字处理、图片设计等场景中。

2)部分自动化

这一阶段自动化可能会出错,在一些容错高的地方可以先行应用,比如广告的场景、培训的场景等等。

3)全自动化

在全自动化阶段,整个的训练决策,执行的动作,以及整个agent都将实现自动化。