欢迎光临
我们一直在努力

Suno改造音乐圈?还早

aigc阅读(94)

“不开心就让Suno给你写首歌吧。”

近期,AI音乐生成类工具Suno发布最新版本,凭借着低门槛、速度快、歌曲完成度高的强大功能,被网友誉为音乐界的ChatGPT,甚至一些词曲创作者开始担心,自己要失业了。

这是国外AI初创公司Suno研发的一款文本生成音乐工具,目前推出的是V3版本,用户只需输入几句歌词或者歌名,并自选音乐风格,便可在一分钟内得到两首时长在两分钟内的歌曲。Suno支持中文在内的多种语言输入,且免费向用户开放。

近两年,在文生图、文生视频领域分别诞生了Midjourney、Sora等效果炸裂的应用。在AI生成音乐领域,类似的工具也不少,比如国内有网易的网易天音、腾讯的TME Studio,以及灵动音科技(创始团队来自清华大学)的BGM猫等。国外更不用说,比如谷歌的Magenta Studio,以及号称不会复制任何歌曲、生成独一无二曲子的Soundful等。但这些都没有引起大范围关注,直到Suno的出现。

此刻,圈外用户用Suno创作各种搞笑歌曲,过了一把音乐人的瘾,圈内从业者也将自己写的词放上去,试图一探自己和AI作曲的高低,结果被高完成度震惊。很多人觉得,Suno带来的震撼可以与上一次引发影视圈热议的Sora相提并论。

随着Suno的火热,其幕后团队的相关信息也出现在公众视野,这家坐落于麻省剑桥的公司,目前共有12名员工,四位创始人曾来自同一家公司,为机器学习专家,其中有两位还是音乐爱好者。

与市场上众多AI音乐生成类工具相比,Suno究竟强在哪?它会颠覆音乐圈吗?

一、“傻瓜式”操作,一分钟生成两首歌

业余音乐爱好者科科在社交平台上偶然刷到了Suno的相关内容,其能让小白用户在一分钟内完成歌曲创作的强大功能,让他忍不住尝试了一把。

在随机输入了一串没有任何逻辑性的数字加字母后,不到半分钟,科科便拿到了曲子。“这么拗口的歌词配上旋律居然十分流畅”,他感到十分意外。

其一键成曲的低门槛让网友们玩嗨了。有人让Suno一本正经地唱菜谱,还有人将自己打工的心酸经历输进去,生成歌曲发到网上。不少网友表示,自己被Suno创作的曲子笑到肚子疼。

图源 /Suno官网

Suno为什么火了?它究竟强在哪?

首先得益于它的低门槛,让普通用户找到了自己写歌的快乐。

很多网友表示,自己被Suno的“省事”所吸引。用Suno创作一首歌,只需简单四步。登录官网注册、点击AI创作、输入文字、点击创作按钮,便可拿到两首歌词相同但旋律不同的歌曲。

从打开软件到生成歌曲,全程不到一分钟。如果用户不会作词或者懒得作词,也有解决办法,用户只用选择希望的曲风,它就能自动生成。

Suno还十分智能,比如它支持歌曲进一步优化。

如果用户觉得生成的某一首歌不错,但还想再精进一步,只需要点击“生成类似“选项,类似于妙鸭相机的“我想更像我一点”按钮,几秒钟后便又可得到一首作品。

此前Suno支持用户每天免费使用5次,也就是生成十首歌,但不允许商用。不过目前,根据官网显示,用户首次注册可获得20积分,且第二天不会再赠,而每次生成一首,会消耗5个积分,也就是只能免费玩2次。如果想多玩几次或者商用,也有办法,交钱即可。

选择界面上的会员充值按钮,有68元-498元不等的4种套餐可选,价格越高,获得的创作次数越多。比如68元对应的是136首歌曲,498元则是1328首。官网标注,这些歌曲可被商用。

普通用户惊讶于Suno的一键生成速度和操作的低门槛,而部分圈内人士更关注其专业度,甚至产生了危机感。

音乐制作人樊宇镈用了好几个“非常”形容自己的惊讶程度。他告诉「定焦」,如果之前的AI音乐类工具是小学生水平,那Suno至少是上初中了。

在Suno之前,他尝试过用很多AI工具写歌,但效果一般。用他的话说,费半天劲训练AI,结果生成的更多是伴奏模型,或者是聚焦某一环节,比如辅助作词、自动编曲、生成人声、制作专辑封面等。整体计算下来,自己用AI时投入的时间和精力,和不使用差不了太多。

但这次Suno已经能做到自动生成歌词+选择谱曲风格+人声演唱,“发展到可以自动写solo的程度了。”而且他还发现,其创作的曲子还有和声,“不少初级音乐制作人都做不到这种程度,秒杀了那些在淘宝定价800元一首的初级编曲。”

和「定焦」的交流过程中,多位专业人士认为,Suno生成的歌曲有的能达到商用程度,即在不涉及版权风险的情况下,直接对外出售。

爱梦科技CEO雷鸣把一位新生代歌手的词放到Suno里一键成曲,听完后他觉得,AI创作的歌曲反而更接近行业标准。“做出来的歌质量很高,有的甚至能达到唱片级别。”

音乐从业者小杰也告诉「定焦」,自己和身边的音乐人朋友都在感慨Suno的强大,“本就吃不饱饭音乐圈又迎来了一波雪上加霜。”

二、Suno虽好,但不必神化

虽然AI生成类的音乐工具不少,但一些圈内人士觉得,之前的工具在曲作质量上存在明显问题,操作也不够便捷,所以更多是“狼来了”的故事,直到Suno V3版本出现,大幅刷新了他们的认知。

有着十年大厂编程经验,同时也密切关注AI的佐罗告诉「定焦」,他觉得Suno带来的影响可能和Sora差不多,是音乐、影视领域创作的一次重大突破,而且其已经处在公开免费使用阶段。

据了解,Suno背后主要由自研的两个大模型支撑,分别是基于transformer的Bark语音模型和Chirp音乐模型,前者主要用来生成人声,后者提供音乐旋律和音效。两者让Suno生成的音乐旋律更智能化、复杂化,这也是这家公司的核心技术。

不过,Suno也不完美,它在时长、语言理解力,以及音乐分轨等方面都有问题。

首先,目前Suno生成的曲子都不到两分钟,无论是普通用户还是专业音乐制作人,都明显感觉到很多作品经常戛然而止,这直接影响了听觉效果。

其次,虽然Suno支持多国语言创作,但其最了解的还是英文,在理解中文歌词及音乐风格上,存在明显偏差。

樊宇镈频繁使用过十几次后发现,在生成电子、R&B、摇滚等音乐风格时,Suno能处理得很好,但华语流行风格不太行。「定焦」在尝试用Suno创作时,风格上选择“民谣”,其创作出来的两首曲风都更像二次元。

他还遇到过主副歌不分的情况,将自己创作的中文歌词输入进去,并将主副词做了明显标注区分,但Suno依然把副歌的最后一句唱到了主歌上。

此外,Suno创作出的作品不支持调整分轨,专业人士没有办法对生成的歌曲进行调整,这也是目前困扰Suno商业化的最大难点。

雷鸣表示,虽然目前Suno生成的音乐能轻松达到广告配乐、影视配音标准,但如果客户听完一遍后,还想修改一些细节,Suno就办不到了,只能再次随机生成另一首曲子。

樊宇镈觉得,在这一点上,网易的AI音乐工具——网易天音就比较友好,支持导出音轨。不过,相比Suno,网易天音生成的曲子还比较初级,且需要音乐人认证。

图源 / 网易天音官网

AI研究者Cyrus则提出,目前AI生成音乐音频清晰度不够高,这也让其很难改编。即便Suno能导出来,曲子的高频和低频都会损失比较严重,还会伴有杂音、噪音等。所以目前Suno更多的是用来娱乐。

在Cyrus看来,文生图和视频的核心在于如何更完美地模拟物理世界,而音乐最重要的是,如何还原人的情绪。但Suno的歌曲旋律较为单一,使用的乐器也不够丰富,且生成的音乐时长还不够,这些都阻碍了情感传递。

想要解决这些问题,需要数据、时间和一定的技术突破。

人工智能在读博士、做过相关大模型研究的牛小博从技术端解释,目前Suno的底层技术还是大模型用到的diffusion、transformer的底层架构,但在多模态上有所突破,比如文字(含歌词)、声音(人声、曲子)、图像(能生成封面,但很简单)的多模态。而其生成的歌曲只有不到两分钟,很有可能是算力不够。

一位业内人士也告诉「定焦」,“目前AI生成音乐的一大技术难点是,大模型难以在学习复杂音乐乐理的同时,理解、模拟词曲情感,如果还要复制市面上特定风格、某一歌手的表达方式,那会更加复杂,这需要大量数据和算力。”

Cyrus觉得,Suno有所突破,但在技术层面并非革命性的创新。“Suno代表的AI生成音乐,可控度和复杂度远不及文生图,还有较长的一段路要走。”牛小博表示。

三、Suno会抢谁的饭碗?

目前,Suno以及AI生成音乐工具被热议,不过普及速度似乎不如想象中那么快。

「定焦」询问了几家国内音乐厂牌,以及大众熟知的歌手团队,大多数人表示,这类工具不会影响到他们的日常创作,甚至还有一部分人没有听说过Suno。

这主要有两方面原因。

一是音乐人或者公司使用 AI的主要目的是提高效率,但之前从业者需要反复调教AI,才能达到使用效果,调教AI的时间和其单独创作所花费的时间差不多。而且,当音乐人自身灵感爆发时,速度往往更快。

更主要的原因是,目前AI生成的音乐还满足不了用户/客户想要个性化歌曲的需求。即便是已经很强大的Suno,虽然歌曲质量在线,但缺乏有创造力的点。

归根究底,目前AI生产出的还是工业化产品。

牛小博表示,目前这类工具最大的难点是获取优质数据和相关版权。版权问题主要靠平台的努力,优质数据则考验运营能力。如果越来越多优秀音乐人能在Suno平台上持续产出高质量的音乐数据,AI便有可能产出更多高质量、有灵魂的歌曲。

不过,Suno所代表的AI生成类音乐工具,其更新迭代速度,已经让很多从业者感到恐慌。

去年4月推出文本转音频模型Bark,7月在音频生成模型上增加人声音乐,12月用户可以在网页上使用,再到如今推出Suno V3版本,这家成立不到两年的公司,在不到一年时间内,实现了AI音乐专家口中需要数年才能完成的突破。

有网友将Suno升级的三个版本对比发现,其修复自身BUG的速度也非常快。输入相同一段歌词,V1版本还将古风爆改成流行,V2就变成了很明显的古风,比如在开头加入古筝弹奏,而V3的人声和旋律一体化程度非常高。如果将来Suno再迭代,加上大量数据训练,取代一些工作岗位不是不可能。

图源 /Suno官网

而短期来看,它将很快会对两类人产生影响。

一类是普通用户。Suno联合创始人Shulman曾表示,他们的目的是,降低用户创作音乐的门槛,让每个普通用户都能成为创作者,Suno并不是想取代艺术家。而从目前的用户反馈来看,这一工具已经让很多音乐小白体验到了不懂乐理就能写一首歌的快乐。

另一类便是批量写歌的公司。

在交流中,大家都认同,Suno无法取代乐队这种需要团队合作的音乐种类,也不会影响知名音乐人的饭碗。“不过将替代掉95%以上没有那么厉害的从业者,”雷鸣表示,那些不追求独特性,喜欢批量写歌的公司和一些把音乐当伴奏的领域,将迅速被AI取代,比如广告配乐、环境音乐、影视配音,甚至一些同质化的网络歌手和短视频神曲。

Cyrus也觉得Suno对编曲、混音要求不高,特别是市面上那种几百块一首的口水歌打击很大。而对熟手来说,比如作曲、作词、编曲混音从业者,可能会带来利好,毕竟这些工作可以一个人完成了。

据了解,国外已经有公司收到了AI批量作曲的需求,且专业人士也将AI应用到了《芭比》和《奥本海默》等影视音乐中。国内目前还没有将AI音乐大规模投入到商用中的情况,不过从业者已经开始尝试。

需要注意的是,除了技术,AI所带来的版权问题,也是影响Suno以及AI作曲未来发展的一道门槛。

“音乐圈抵制AI作曲”、“部分歌手被怀疑借助AI作曲引发网友不满”、“音乐公司要求AI使用自家歌手声音时得到授权”……自从AI作曲出现后,这些声音就没有断过。

佐罗从另一方面分析,Suno也会给行业带来一些良性影响。“像影视剧、短视频等的BGM就不会有太多版权纠纷了,毕竟每位用户都可以用AI生成符合特定场景的音乐。”

现在,Suno公司已经宣布Suno V4正在开发中,并会推出一些令人兴奋的新功能。到时,AI和人类又将开启新一轮的较量了。

GPT(LLM)不是AGI的全部

aigc阅读(88)

一、AGI全景梳理

当我们探索人工智能的发展和前景时,总是会创造一些概念和名词。而充分理解这些词汇则是认识人工智能的第一步。

这些名词包括人工通用智能(AGI)、窄人工智能(ANI)、自然语言处理(NLP)、计算机视觉(CV)、大语言模型(LLM)、AIGC(生成式人工智能)、GPT(生成式预训练Transformer模型)、BERT(基于Transformer的双向编码)、Diffusion Models(扩散模型)、GANs(生成对抗网络)、Transformer、RNNs(循环神经网络)、CNNs(卷积神经网络)、ANN(人工神经网络)、Fine-tuning(微调)和PLHF(人类反馈的强化学习)等。

本小结将通过概念和实现两个层面梳理他们之间的关系。

1. 概念层

AI是人工智能(Artificial Intelligence)的简称,该概念最早是达特茅斯大学的一名年轻教授约翰-麦卡锡(John McCarthy)在1956年为研讨会写提案时创造的,后来被广泛接受为描述一种由人类创造出来的技术,它模仿并扩展了人类智能的各个方面,包括感知、学习、推理和决策等。但长久以来AI概念只是描述人类的一种理想和目标,并无实际进展。

为进一步实现AI,学者和专家们根据其应用场景不同将AI的目标拆分为AGI和ANI两种实现目标。

  • AGI:是指通用人工智能(Artificial General Intelligence),它是一种智能的形式,能够理解、学习和应用知识跨越不同的领域和任务,与人类智能类似。与ANI不同,后者主要专注于特定领域或任务(如图像识别、语言翻译或玩特定的游戏),AGI可以在没有专门为每个新任务编程的情况下,自主地执行任何智能生物能够执行的学习或解决问题的任务。可以说AGI是模型泛化形式。
  • ANI:是指窄人工智能(Artificial Narrow Intelligence),也被称为专用人工智能,指的是专门设计来执行一个或几个特定任务的智能系统或软件。这类智能系统表现出在其专门领域内的高效率和强大能力,但它们的能力是局限的,只能在其被设计和训练的特定任务范围内工作。得益于AI三巨头(Yann LeCun、Geoffrey Hinton & Yoshua Bengio)的贡献,在过去10年,ANI在语言处理、图像识别方面取得突破性进展,并广泛在各行业中应用和推广。但在AGI派来看,ANI并不能算真正的AI,因为ANI缺乏像人一样对信息广泛和通用的处理能力。人工智能到底是朝向知识专精的专家系统发展,还是知识覆盖更广泛、通用的百科全书方向发展?有待验证。但AGI作为新兴事物确实已得到足够的认可和关注。

除了AGI和ANI两个AI目标概念以外,根据人类的感官需求,AI的具体应用则主要体现在语言和视觉处理的两大领域,即:NLP和CV。

  • NLP:是指自然语言处理(Natural Language Processing),是人工智能(AI)和计算机科学领域的一个分支,专注于使计算机能够理解、解释和生成人类的自然语言。NLP结合了计算机科学、人工智能和语言学的技术,旨在桥接人类语言和计算机之间的差距。包括但不限于:文本分析,语言翻译,对话系统,自动文摘,命名实体识别(NER),自然语言理解(NLU)等。
  • CV:是指计算机视觉(Computer Vision),目标是使计算机能够“看”和理解图像和视频中的内容,就像NLP使计算机能够理解和生成人类语言一样。计算机视觉涵盖了从基本的图像处理到复杂的图像理解的各个方面,包括但不限于:图像分类,对象检测,图像分割,图像生成,图像恢复,动作识别等。

当前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV领域最为成功的两款应用之一。而ChatGPT就是LLM的一种具体实现。

LLM:是指大规模型语言模型(Large Language Model)。随着ChatGPT的成功,而广为人知。是一种利用深度学习技术训练的人工智能系统,旨在理解、生成和翻译人类语言。这些模型通过分析海量的文本数据来学习语言的结构、语法、语义及其使用上下文,从而能够生成连贯、逼真的文本,回答问题,总结信息,翻译语言,甚至编写代码。这里需要特别指出大规模是指模型训练过程中使用得的超大参数量,例如:ChatGPT-4训练参数量大概是1750亿个参数,而马斯克刚刚开源的Grok-1参数量则为3140亿个参数。不同于ANI领域中的自变量概念,这里的参数是指通过神经网络运算的权重数量。因此大样本或大数据量并不能被认为是大规模语言模型。同时,LLM是特指大规模语言模型,即便是大规模参数的ANI模型也不能称为LLM,例如:华为盘古气象大模型并不是LLM,其只是采用Transformer架构的ANI模型。

最后我们要讨论一个比较特殊的概念,即:生成式AI(Artificial Intelligence Generated Content,简称AIGC)。该概念并不是AGI概念的原生词汇,而是国内学术造词工厂的杰作。国内普遍认为AIGC是利用人工智能技术自动创建文本、图片、音乐、视频等内容的过程。包括但不限于自然语言生成(NLG)、计算机视觉、音频合成和深度学习模型等领域。由于重复和含糊不清的定义,AIGC更像是把NLP、CV等重新包装成产业应用,制造互联网热点的过程。

以上重点讲解了关于人工智能最近比较热点的概念,但不是全部。之所以叫概念是因为这些名词本身并无实际模型支持,只是方便人们归类和理解的一种称呼而已。接下来讲解的具体AI工具则是有模型、架构和算法支持,有实际实现意义的内容。

2. 实现层

为了便于理解,我将模型、架构和算法归统称为实现层,因此首先出场的是当下最火的GPT模型。

1)GPT—生成式预训练Transformer模型(Generative Pre-trained Transformer)

这是一种LLM也是NLP,由OpenAI开发。它基于Transformer架构,主要用于处理和生成自然语言,因此GPT并不能直接生成图像。GPT模型属于深度学习的一部分,通过大量文本数据的预训练,学会了语言的结构、语法、词汇及其上下文之间的关系,使其能够执行各种语言任务,如文本生成、翻译、问答和摘要等。

其工作原理主要由预训练和微调构成。

预训练阶段,GPT模型在大规模的文本数据集上进行训练,目的是学习语言的一般特征,比如词汇、语法和语言使用的上下文关系,这一步骤让模型能够理解和生成语言的基本结构;

微调阶段,模型通过在特定任务的数据上再次训练,能够在特定的应用场景中更加精准和高效。GPT模型的特点是其“生成能力”,即能够基于给定的文本提示生成连贯、创新、多样化的文本内容。这使得GPT模型不仅可以用于回答问题和参与对话,还能用于创作文章、编写代码和更多创造性的任务。

在左图中,首先使用的Transfomer架构开展预训练;而在右图则是对不同任务进行微调的输入转换。将所有结构化输入转换为Token序列,由预训练模型处理,然后是Linear+softmax层处理。

微调(Fine-tuning)是深度学习中的一个重要概念,特别是在自然语言处理(NLP)、计算机视觉等领域的应用中。微调通常发生在预训练模型的基础上,目的是将这些通用模型调整为特定任务的专用模型。

2)BERT—基于Transformer的双向编码模型(Bidirectional Encoder Representations from Transformers)

这是一种同样采用Transformer架构的自然语言处理(NLP)预训练模型,由Google在2018年提出。它的核心创新之一是使用双向Transformer编码器来理解语言的上下文,这与之前的单向或部分双向处理方法相比,能够更准确地捕捉到词语间的关系和语义。

从上图可以看到,BERT使用双向转换器。OpenAI GPT使用从左到右的转换器。ELMo使用独立训练的从左到右和从右到左的LSTM的级联来生成下游任务的特征。在这三种表示中,只有BERT表示在所有层中都以左右上下文为联合条件。

除了架构差异之外,BERT和OpenAI GPT是微调方法,而ELMo是基于特征的方法。虽然BERT也使用了大量的文本数据进行预训练,能够捕捉语言的深层语义和上下文关系,但其设计初衷主要是提高特定的NLP任务(如问答、命名实体识别、情感分析等)的性能,而不是“生成能力”。由于BERT的参数量大致在3.4亿左右,因此一般不把BERT归为LLM。

在自然语言处理(NLP)领域,除了著名的GPT系列和BERT之外,还有很多其他重要的模型和技术进展,例如:ELMo、RoBERTa、T5、XLNet和Grok-1采用的Mixture-of-Experts模型等,由于篇幅有限不一一介绍。

在计算机视觉(CV)领域,也是众星璀璨,其中以Diffusion Models和GANs最为著名。

3)Diffusion Models—扩散模型

Diffusion Models同样是生成模型,主要用于创建高质量、逼真的数据,如图像、音频、文本等。这些模型的灵感来自物理学中的扩散过程,即物质从高浓度区域向低浓度区域移动。

Diffusion Models 通过以下两个阶段来生成数据,即:噪声添加过程(向前扩散),噪声去除过程(向后扩散)。

扩散过程是一个马尔可夫链,它在采样的相反方向上逐渐向数据添加噪声,直到信号被破坏。当扩散由少量高斯噪声组成时,可以将采样链转换设置为条件高斯,从而实现特别简单的神经网络参数化。

在具体训练架构的实现方面Diffusion models 通常利用CNNs(卷积神经网络)作为其核心架构。这主要是因为卷积神经网络在处理图像数据方面的高效性和能力。

CNNs能够从图像中自动学习和提取有用的特征,这使得它们非常适合于图像相关的任务,如图像生成、图像分类、图像恢复等。

在Diffusion models的上下文中,CNNs被用来实现所谓的“去噪”步骤。在这一步骤中,模型试图从部分加噪的数据中预测原始数据的干净版本。这个过程需要模型能够理解图像中的复杂模式和结构,以便逐步消除噪声并最终重建出清晰、高质量的图像。CNNs以其强大的空间特征提取能力,非常适合这项任务。

当然,根据特定应用的需求,Diffusion models也可以集成其他类型的神经网络架构。例如,对于涉及序列数据(如文本或音频)的生成任务,可以考虑使用RNNs(循环神经网络)或Transformer网络,这些网络能够更好地处理序列之间的依赖关系。

最近的研究也开始探索将Transformer架构应用于Diffusion models中,尤其是在需要处理大量上下文信息或长序列数据的场景。OpenAI最近发布的Sora就是一种Transformer+Diffusion的训练模型,其利用Transformer架构,对视频和图像的时空补丁进行编码,实现在可变持续时间、分辨率和宽高比的视频和图像上训练文本条件扩散模型。

总的来说,虽然Diffusion models最初和最常用的架构是基于CNNs,但随着技术的发展和研究的深入,其他类型的神经网络也被探索和应用,以提高模型的性能和适用性。

4)GANs—生成对抗网络(Generative Adversarial Networks)

GANs是一种由Ian Goodfellow于2014年提出的深度学习模型。GANs通过其独特的训练机制,在生成新数据样本,尤其是图像生成领域,表现出了显著的能力。GANs的核心思想是基于两个相互竞争的网络:一个生成器(Generator)和一个判别器(Discriminator)。训练过程涉及对这两个网络进行交替训练。首先,固定生成器,训练判别器以最大化其区分真假样本的能力。然后,固定判别器,更新生成器以最大化判别器的错误率。通过这种方式,生成器逐渐学会生成越来越逼真的数据。

这个过程像一个“伪造者”(生成器)试图创造看起来真实的艺术品,和一个“鉴别者”(判别器)试图区分艺术品是真是假的游戏。随着游戏的进行,伪造者变得越来越擅长创造逼真的作品。它们都可以使用不同类型的神经网络架构。

训练从具有4×4像素的低空间分辨率的生成器(G)和鉴别器(D)开始。随着训练的进行,我们逐渐向G和D添加层,从而提高生成图像的空间分辨率。GANs的强大之处在于其架构的灵活性,允许在生成器和判别器中使用多种神经网络类型。下面是GANs中常用的几种神经网络类型:

  • 卷积神经网络(CNNs):对于处理图像相关的任务,如图像生成、图像到图像的转换等,卷积神经网络是最常见的选择。CNNs能够有效地处理图像数据,捕捉局部特征和模式,这使得它们在图像识别和图像生成任务中表现出色。
  • 深度卷积GAN(DCGAN):是一个著名的使用CNNs的GAN变体,专门设计用于提高图像生成的质量和稳定性。
  • 全连接网络(Dense Networks):在某些简单的GAN应用中,尤其是在生成器和判别器的早期版本中,全连接网络或密集网络被用于处理相对简单的数据生成任务。虽然在处理复杂图像任务时,全连接网络可能不如CNNs那样有效,但它们在概念证明和初步实验中仍然有其用武之地。
  • 循环神经网络(RNNs):对于处理序列数据的任务,如文本生成或音乐创作,循环神经网络(包括LSTM和GRU等变体)可以在生成器和/或判别器中使用。RNNs擅长处理时间序列数据或任何形式的顺序数据,能够捕捉数据中的时间依赖性和顺序模式。
  • Transformer:最近Transformer网络也开始被集成到GAN架构中,尤其是在需要处理大量序列数据的任务中。Transformer架构通过自注意力机制(self-attention)提供了一种有效的方式来捕捉序列中的长距离依赖性,这在文本生成和某些类型的图像处理任务中非常有用。

一般而言我们把GPT、BERT、Diffusion Models和GANs统称为训练模型或框架,而将Transformer、RNNs、CNNs归为训练架构。区别是模型或框架可以根据不同应用场景选择不同的训练架构,而训练架构中又可在不同的环节,采用了不同的神经网络算法。由于篇幅有限,我们不再讨论出现比较早的RNNs、CNNs,而是主要介绍当前多用途的明星架构Transformer。

5)Transformer架构

Transformer是最初在2017年由Vaswani等人在论文《Attention is All You Need》中提出。它主要用于处理序列化数据,如文本或时间序列数据,特别在自然语言处理(NLP)领域内取得了革命性的进步。Transformer模型的核心思想是利用“自注意力(Self-Attention)”机制,使模型能够在处理序列数据时考虑序列中各元素之间的全局依赖关系。

其主要编码器和解码器构成:

  • 编码器(Encoder):编码器由多个相同结构的层堆叠而成,每一层都包含一个多头自注意力子层和一个前馈神经网络子层。在论文中Transformer由1个输入层和6个编码层构成,但在实践中层数可自行设置。编码器的作用是将输入序列转换为一系列注意力表示。
  • 解码器(Decoder):解码器也由多个相同结构的层堆叠而成,每一层包含一个多头自注意力子层、一个编码器-解码器注意力子层和一个前馈神经网络子层。在论文中Transformer由1个输入层、6个解码层和1个输入层构成,同样实践中层数可自行设置。

解码器的作用是根据编码器的输出和先前生成的部分目标序列来逐步生成目标序列。解码器中的自注意力机制允许模型关注输入序列的不同位置,而编码器-解码器注意力机制允许模型在解码器的每个位置对编码器的输出进行注意力计算,以便获取输入序列的信息。

在 Transformer 模型中,每个编码器和解码器层都包含残差连接(Residual Connection)和层归一化(Layer Normalization)操作。这些操作有助于缓解深层模型训练时的梯度消失和梯度爆炸问题,并且有助于模型更好地训练和收敛。残差连接允许梯度更直接地反向传播,并且层归一化有助于稳定训练过程中的每一层的梯度流。

Transformer作为通用架构,不同与传统深度学习中具象化和关系复杂的自变量设置,而是将自变量泛化为:键向量(Key)、值向量(Value)和查询向量(Query),模型泛化可极大增加架构的通用性,且避免过度拟合。

  • 键向量(Key):键向量可以被视为一种索引,用于帮助查询向量找到相关的信息。在自注意力机制中,每个输入元素都有一个对应的键向量,查询向量与这些键向量进行点积运算,得到的结果经过softmax函数处理后,可以得到一个权重分布,这个分布决定了模型对输入序列中各个部分的关注程度。
  • 值向量(Value):值向量可以被视为实际的信息内容。在自注意力机制中,每个输入元素都有一个对应的值向量,这些值向量根据由查询向量和键向量计算得到的权重分布进行加权求和,得到的结果就是自注意力层的输出。
  • 查询向量(Query):查询向量可以被视为对信息的请求或查询。在自注意力机制中,查询向量用于与键向量进行匹配,以确定模型应该关注输入序列中的哪些部分。

在Transformer架构中驱动模型训练的机制是自注意力机制(Self-Attention Mechanism),自注意力机制允许模型在计算编码器和解码器的输出时,对输入序列的不同位置赋予不同的注意力权重。

具体而言,给定一个输入序列,自注意力机制计算出每个词与其他词之间的相关性,然后通过加权求和的方式得到每个词的表示。

这种机制使得模型可以同时关注输入序列中的所有位置,而不是像RNN一样逐步处理。自注意力机制帮助Transformer实现并行向量运算能力,从而充分发挥GPU的并行计算能力或分布式计算能力,从而大幅提高训练效率和训练数据量,这也是大语言模型(LLM)的基础。

为了进一步增强模型的表达能力,Transformer将自注意力机制分为多个头,即:多头注意力(Multi-Head Attention)。每个头学习一种不同的表示。最后,将多个头的输出拼接在一起并通过线性变换进行投影,得到最终的注意力表示。多头注意力由于同时考虑文字序列不同位置的相关性和语义信息,使得模型能够更好地理解输入序列中的各个部分之间的关系。

对Transformer最大的误解是认为它是一种神经网络。例如,某商业大佬就是说:“Transformer模拟了人脑神经网络”。Transformer是一种深度学习的训练架构,而非一种神经网络或算法,Transformer是利用前馈神经网络(Feedforward Neural Networks),实现向量矩阵的运算。在每个编码器和解码器的每个位置都有一个前馈神经网络。

该网络是一个全连接的前馈神经网络,用于在每个位置对注意力表示进行非线性变换。在实践中往往都是根据实际情况对Transformer的基础架构进行调整和优化,并非一成不变。

6) MoE—混合专家模型(Mixture-of-Experts)

MoE是一种采用人工神经网络的训练架构,最早由Jacobs 等人在1991年的论文《Adaptive Mixtures of Local Experts》中提出。其核心思想是一种将多个局部专家模型组合在一起的方法,以适应不同的输入数据分布,并且这些专家模型可以动态地分配权重。

在MoE中,每个专家模型都被训练来解决特定的子问题,而门控网络则是用来决定在给定输入情况下,哪个专家模型应该负责给出最终的输出。MoE出现时间较早,是为解决算法复杂性、提高训练性能、降低成本而提出的。

与Transformer不同,其架构充分利用GPU集群的分布式计算能力,将多任务执行从算法结构层面转移到GPU集群层面从而降低算法的结构复杂性。而马斯克刚刚开源的Grok-1就是采用这种架构。

Mixture-of-Experts架构的主要组成部分:

  • 专家模型(Expert Models):每个专家模型是一个独立的神经网络,它们被设计用于解决特定的子问题或者在特定的输入数据分布下表现良好。每个专家模型都接收输入数据,并且输出对应的预测结果。
  • 门控网络(Gating Network):门控网络用于动态地分配权重给各个专家模型。给定输入数据,门控网络计算每个专家模型对于当前输入数据的相关性或者重要性。这些权重通常是通过softmax函数归一化得到的,以确保它们的总和为1。
  • 混合操作(Mixture Operation):通过将每个专家模型的输出与门控网络计算得到的权重相乘并相加,可以得到最终的输出。每个专家模型的输出都被乘以对应的权重,然后再相加,以产生最终的输出。
  • 训练策略:MoE模型通常使用端到端的反向传播算法进行训练。在训练过程中,专家模型和门控网络的参数都会被调整,以最小化模型在训练数据上的损失函数。门控网络的训练目标通常是最大化模型的整体性能,并且也可以通过额外的正则化策略来提高模型的泛化能力。

Mixture-of-Experts模型通过将多个专家模型组合在一起,并且通过门控网络动态地分配权重,可以提高模型的灵活性和适应性,从而在处理复杂的输入数据分布时取得更好的性能表现。

7)RLHF—人类反馈的强化学习(Reinforcement Learning from Human Feedback)

RLHF是一种机器学习一种方法和阶段,为避免最终训练输出的结果违背人类道德伦理、民俗习惯、社会规则和法律,在机器学习的最后阶段结合来自人类的反馈和强化学习(RL),以指导和优化人工智能模型的行为和决策。这种方法特别适用于在那些难以为机器提供明确、数学化的奖励函数的情况下,训练模型执行复杂或高度专业化的任务。

在传统的强化学习中,一个AI模型通过与环境互动,尝试最大化其所获得的累积奖励。这些奖励通常是预先定义好的,基于任务的目标。然而,在许多实际应用中(特别是生成式模型中),定义一个能够有效引导学习过程的奖励函数是非常困难的。

RLHF通过以下步骤解决这个问题:

  1. 人类反馈:收集人类对AI行为的评估或偏好。这可以通过直接评分、选择偏好(偏好排序两个或多个选项)或提供纠正性反馈的形式进行。
  2. 建立奖励模型:使用这些人类反馈来训练一个奖励模型,该模型预测哪些行为或决策会获得正面的人类评价。
  3. 强化学习:利用这个奖励模型作为奖励函数,采用强化学习算法训练AI模型。使其通过试错的方式学习在给定环境中如何行动,以最大化从奖励模型中获得的奖励。

RLHF的优点在于,它可以在没有明确数学形式奖励函数的情况下训练AI模型,使其在复杂环境中作出更接近人类期望和价值观的行为。这种方法被广泛应用于自然语言处理、游戏、机器人技术和其他需要复杂决策过程的领域。通过人类的直观反馈,模型可以学习执行抽象的、多样化的任务,同时减少不希望的行为或偏差的风险。

二、GPT的局限性

在当前人工智能领域中,GPT系列大模型作为自然语言处理的重要里程碑,展现了令人瞩目的文本生成和理解能力。然而,我们必须认识到,尽管GPT系列模型的表现卓越,其固有的局限性并不代表通用人工智能(AGI)的终极实现。

首先,研究显示,在复杂的逻辑推理和多步推断任务中,GPT模型可能表现不佳。虽然GPT可以生成流畅的文本,但在需要深入逻辑判断和跨领域推理的任务中,其表现可能有限。

复杂的逻辑推理和多步推断任务要求模型能够理解和操纵抽象概念、规则和关系。这些任务在人工智能领域中被视为挑战性任务,因为它们需要模型具备高级的符号推理和逻辑推断能力;GPT模型在语法和词汇上表现优秀,因其训练数据源自大规模文本语料库。

然而,在需要逻辑推理和推断的任务中,缺乏结构化数据和标签可能限制了GPT的表现,因而难以学习和理解抽象规则和逻辑关系;另一个挑战是跨领域推理,在现实世界中,许多任务可能涉及多领域的知识和信息,而GPT这类模型在跨领域推理方面可能受制于其单一领域的训练数据和知识范围,导致其推理能力受限。

其次,GPT模型在需要专业知识和精确推理的领域(如生物、医学、金融、法律等)中面临巨大挑战。在专业领域中,模型需要准确理解和运用领域特有的知识和术语,GPT等预训练模型可能无法完全掌握这些专业领域的复杂性和细节,导致其在特定领域任务中表现不佳;在特定领域的任务中,若训练数据受限或缺乏专业领域相关的数据,模型可能无法准确学习和理解该领域的概念和规则;特定领域对术语和语境的极高的精确性要求,GPT等模型目前可能难以准确处理这些领域的复杂信息和语言,导致理解和推理的准确性受到影响。GPT等通用模型可能在更具挑战性的专业领域任务中缺乏领域自适应性,无法有效应对领域内的复杂问题和需求。

最后,从长期发展来看,AGI的实现需要超越单一技术和单一领域的智能。AGI的实现要求模型能够综合利用不同感官数据和信息,包括视觉、听觉、触觉等多个感知层面。

GPT等模型虽在自然语言生成领域表现出色,但实现AGI需要整合多种感知数据,并具备跨模态智能处理能力,这超出了目前单一模态智能的范畴。

AGI还需要具备认知能力、规划决策能力等高级智能,要求模型能够思考未来、制定计划以及做出决策,这远比单纯的信息处理和生成更为复杂和综合。

AGI还需要具备长期记忆和持续学习的能力,以不断积累和更新知识,适应不断变化的环境和任务。

GPT等预训练模型可能在长期记忆和持续学习方面存在挑战,因其主要用于静态数据集的预训练。实现AGI需要模型能够在广泛领域和任务中表现出色,而不仅仅局限于特定任务或数据集。GPT等模型可能面临面向普适性通用性的挑战,因其训练数据和任务较为单一和特定。

三、我们离AGI还有多远?

这个问题激发了无数学者和研究人员、未来主义者的想象。

随着每一次AI技术的飞跃,这个话题都会被重新点燃,引起公众的热烈讨论。

尽管我们在特定领域内的人工智能(如图像识别、自然语言处理等)取得了显著的进展,但通用人工智能——一种具有广泛认知能力、能在各种任务上达到或超越人类水平的智能系统——仍然是一个遥远的目标。

1. AGI的评价方法

评价AGI能力的量化指标涉及多种方法,每种方法都尝试从不同角度捕捉智能的某个方面。

以下是一些常见的评价方法:

  • 知识测验(如智商测试、学术考试等)用于评估知识水平和逻辑推理能力;
  • 专业技能测试(如编程、法律、医学)用于评估AGI在专业领域内的知识和应用能力;
  • 复杂游戏测试(如国际象棋、围棋、星际争霸等)用于评估策略制定、学习能力和适应性;
  • 虚拟仿真环境(如OpenAI的Gym、DeepMind的Lab),通过模拟真实世界的复杂环境来测试AGI的适应性和解决问题的能力;
  • 艺术创作评估AI生成艺术作品的原创性和审美价值;
  • 创新解决方案(设计、工程或科学领域),评估AGI提出新颖解决方案的能力;
  • 图灵测试,通过判断机器是否能在文本交流中让人类误以为是与另一人类交流,来评估其自然语言处理和生成能力;
  • 情感和社会交互,评估AGI理解和生成情感反应的能力,以及在社交情境中的表现;
  • 多任务性能,评估AGI在同时处理或快速切换不同任务时的表现;
  • 学习迁移,评估AGI将在一个任务中学到的知识应用到新任务的能力;
  • 复杂问题解决,通过解决需要广泛知识和创造性思维的开放式问题来评估AGI的能力;
  • 实时决策制定,在变化的环境中,评估AGI进行决策和适应的能力;
  • 道德困境,通过模拟涉及伦理和道德抉择的情境,评估AGI的判断和决策过程;
  • 社会规范学习,评估AGI理解和遵循人类社会规范的能力;
  • 综合感知任务,评估AGI整合视觉、听觉等多种感知信息的能力。
  • 交互式任务,在涉及多模态输入(如图像和文本)的任务中评估AGI的处理和响应能力。

这些评价方法通常需要结合使用,以全面地衡量AGI的能力和性能,更好地反映AGI在模仿人类智能方面的进步。

2. 技术挑战

近年来,大型语言模型和多模态AI模型的发展让我们对达到AGI的可能性有了更多的希望。例如,ChatGPT、Claude、Gemini等模型,其具备在多模态情境下理解和生成信息的能力,标志着我们在模拟人类的认知和理解能力上迈出了重要一步。

然而,尽管这些模型在各自的领域内表现出色,它们依然缺乏人类智能的灵活性和通用性。

这些模型在特定任务上的表现虽然令人印象深刻,但在面对未曾训练或完全不同类型的任务时,其性能会大幅下降。

3. 理论和方法论上的挑战

目前,我们尚未完全理解人类智能的工作原理,包括我们如何学习新技能、如何进行抽象思考,以及我们的智能是如何在如此广泛的任务中展现出灵活性和适应性的。没有这些理论基础,我们很难设计出能模拟这些能力的AI系统。

此外,当前的AI系统大多依赖大量数据进行训练,而这种方法在达到真正的AGI时可能不再适用。

Yann LeCun(杨立昆)认为智能行为的核心特征包括理解物理世界、记忆与检索信息的能力、持久记忆、推理能力和规划能力,而自回归式大语言模型在这五个方面均表现不足或仅能实现初级功能,它们无法真正理解和模拟物理世界,不具备持续的记忆和深入的推理机制,也无法进行有效的规划。

4. 伦理和安全挑战

一个具备广泛智能和自主能力的系统可能会产生无法预测的行为,这对于确保这些系统能够以符合人类价值观和安全要求的方式行动至关重要。如何设计这样的系统,以及如何确保它们的行为不会对人类或环境造成不利影响,是我们在迈向AGI的道路上必须面对的问题。

Geoffrey Hinton认为,数字智能终将取代生物智能。在接受了海量网络信息训练的AI会比人类更聪明,因而能够轻易操纵人类——这是超级智能接管人类控制权的路径之一。

5. 能源挑战

通用人工智能(AGI)在运行和发展过程中需要大量的电力支持,算力竞争的背后是能源竞争。

ChatGPT每天需要响应大约2亿个请求,其背后的GPT大语言模型(LLM)在训练和运行过程中消耗了大量的电力。据估计,ChatGPT每天消耗的电力超过50万度,相当于1.7万个美国家庭的日均用电量。

而OpenAI CEO Altman就公开表示:人工智能行业正在走向能源危机。特斯拉CEO马斯克此前预计,AI下一阶段将会是“缺电”。

在爱尔兰,仅70个数据中心就消耗了全国14%的能源。到2030年,预计全球30-50%的生产电力将用于AI计算和冷却。

四、最后

在人工智能领域中,通用人工智能(AGI)、大型语言模型(LLM)、Transformers、扩散模型(Diffusion Models)和人类反馈的强化学习(RLHF)等技术之间存在着紧密的联系和相互作用,共同推动这一领域的进步。

AGI代表了AI的终极目标,即在各种任务和环境中展现出与人类类似的适应性和灵活性。虽然我们距离实现AGI仍有很长的路要走,但当前的进展和研究为这一终极目标奠定了基础。这些技术的融合和发展,不仅扩展了我们对AI能力的理解,也为攻克复杂问题开辟了新途径。

特别是,通过结合Transformers的模型架构,扩散模型的生成能力,以及RLHF的细致调优,我们已经能够创建出更为高效和灵活的模型。这些模型在理解语言、生成内容、解决问题等方面的能力越来越接近人类的思维模式。

随着这些领域的不断深入,我们对于实现AGI的路径也将更加清晰,为未来的科技革命铺平道路。

参考文献

  • Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.
  • Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. Advances in neural information processing systems, 2014, 27.
  • Karras T, Aila T, Laine S, et al. Progressive growing of gans for improved quality, stability, and variation[J]. arXiv preprint arXiv:1710.10196, 2017.
  • Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.
  • Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
  • Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.
  • Christiano P F, Leike J, Brown T, et al. Deep reinforcement learning from human preferences[J]. Advances in neural information processing systems, 2017, 30.
  • Ziegler D M, Stiennon N, Wu J, et al. Fine-tuning language models from human preferences[J]. arXiv preprint arXiv:1909.08593, 2019.

Suno爆火!AI版周杰伦来了?

aigc阅读(76)

自从ChatGPT面世以来,生成式AI已经给我们带来了诸多惊喜,并且AI对于不同行业的影响力还在不断扩散。2024年才刚过去3个月,就已经涌现出一批新的AI大模型:文字生成视频的Sora、支持200万字长文本处理的Kimi,以及文生音频的新星——Suno。

「音乐界的ChatGPT」、「可能席卷全世界的可怕AI音乐」、「颠覆音乐圈」,这些是无数网友和媒体在体验过Suno后给出的真实评价。

Suno是AI初创公司Suno推出的音乐生成模型,无论用户是否拥有乐理知识,只需输入简单的提示词,比如音乐风格、音乐流派、歌词内容、音色等,等待几秒就能快速生成带有歌词和节拍的2分钟音乐。

值得注意的是,近期Suno公司还推出了V3版本,该版本首次能够生成广播质量的音乐,并新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。官方表示V4版本已经在开发中,并计划推出全新功能。

一、Suno初体验:一键成歌,效果惊艳

看到这里,雷科技抱着好奇打开了Suno官网。我们首先看到的是许多首由Suno生成的音乐,以英文歌曲为主。随机试听了几首之后,感觉旋律还挺上头,这让我对Suno的表现有了更高的期待。

图源:Suno

点击右上角的制作按钮,就能进入到主界面了。在探索页面,我们能看到由网友创作的优秀作品,有电子音乐、重金属摇滚、传统民谣、蓝调等不同流派,Suno根据播放量和点赞量对歌曲进行排名。

可以看出,Suno支持包括中文、英文在内的多种语言,对中文生成的AI歌曲非常友好。像「如梦令」、「水调歌头」等歌曲听起来十分舒服,相当符合国人的歌曲喜好。

图源:Suno

注册好账号,我们打开创造页面。整体界面和ChatGPT类似,拥有关键词输入框、音乐流派、模型选择等选项。

话不多说,下面正式开始「音乐小白」的创作之路。为了体现Suno的实力,雷科技特意用中文输入了自己都无法理解的关键词:「用民谣描述关于金刚与哥斯拉的爱情故事」。

图源:Suno

等待数秒后,雷科技第一首歌曲「金刚与哥斯拉的爱情故事」制作完成。从歌词来看,Suno精准识别到了金刚和哥斯拉两个关键词,并在它们怪物身份上延伸出了战斗等场景描述。

点击播放歌曲,结果让我感到震惊,完全不相信这是由我给予的关键词创作而成的歌曲。至少听起来没有AI生成常有的生涩感,歌词押韵,甚至还附带有和声、分段。作为「音乐小白」,雷科技感觉这首歌曲是符合要求的,具体效果大家可以听听看。

图源:Suno

随后雷科技连续生成了几首不同流派、不同主题的歌曲,新鲜感过去后,雷科技发觉Suno生成相同曲风的歌曲有种千篇一律的感觉,虽然歌词和旋律不一样,但个人感觉与抖音上常听的口水歌非常相似。

在查阅资料的过程中,雷科技发现Suno原来还有进阶玩法。在创造界面的自定义模式下,用户可以自行制定Intro(引子或前奏)、Verse(诗歌部分 / 主歌)、Chorus(合唱部分 / 副歌)、Bridge(桥接部分)、Outro(尾奏)等部分的歌词,并通过关键词技巧,让AI理解用户表达。

因为涉及到实际乐理知识,不懂音乐的朋友理解起来相当麻烦,雷科技将其总结为:「风格+情感+乐器+节奏+人声」。如果你觉得自己想歌词太麻烦,但又对歌词感兴趣,可以结合ChatGPT,让AI生成符合你要求的歌词文本。

如果你想参考现有歌曲的节奏,则需将歌曲的BPM(节奏)和Key(调高)输入到关键词中。

一番体验下来,雷科技认为Suno表现十分惊人。无论是面向小白的一键生成,还是专业向的自定义生成,都能在极短时间内生成出颇具质量的歌曲。尤其是自定义生成,探索页面的优秀作品向我们展示了Suno的无限可能。至少从目前看来,还没有人能断言Suno V3版本的上限,每日不断涌现的最新作品就是最好的证明。

图源:Suno

目前Suno新注册用户每天能生成10首歌曲,对于玩票性质的普通用户已经足够,如果你还有更多需求,还可以订阅「Pro」和「Premier」计划,分别是8美元/月和24美元/月。

二、AI音乐强大,但“人类音乐”永远无可替代

可能有很多人会感到好奇,究竟是一家什么样的公司才能创造出如此神奇的Suno V3。目前,Suno团队成立仅两年,团队成员只有12个人,部分团队成员此前服务于Meta、TikTok和Kensho Technologies等科技公司。

其实在Suno出现之前,市面上已经出现了数款AI音乐生成工具,Dream Track、Jammable以及Project Music GenAI就是其中的代表。Suno之所以能在互联网上形成病毒式传播,主要原因是其简化了普通人创造歌曲的步骤,用户只需简单引导就能自动完成人声、歌词、风格、曲谱等内容。

图源:Suno

这令普通人与专业音乐创作者之间的差距瞬间缩小,就像Midjourney生成图像引起设计行业动荡那样,Suno同样引起了部分音乐人的警觉。虽然现阶段Suno的创作水平还远远没有达到足以颠覆音乐圈的阶段,但AI最可怕的是学习能力。Suno团队在2023年7月才在生成模型中加入了人声音乐功能,仅仅过去9个月时间,就已经迭代至V3版本,或许没有人能预测出Suno的最终水平。

在雷科技看来,Suno确实可以让普通人大批量创造「原创」歌曲,但颠覆音乐圈的可能性不高。

首先,歌曲的本质是人们的自我表达,和文字、图片是一个道理,只不过歌曲的表现形式更为复杂,光是声音层次就能形成若干种可能。

AI固然可以通过高强度的学习,还原出各种声音与曲风,甚至未来还能形成连贯性的长音乐。

但一首好的歌曲之所以能与听众形成共鸣,是因为它与人、社会有着充分联系,这也是为什么我们在听部分歌曲时会激动、会难过的原因。而AI音乐暂时还没有表现出对应的能力,鉴于当前情况,我更愿意称之为「无情的创作机器」。

图源:Suno

其次,还是老生常谈的版权问题。Suno团队至今未公布Suno模型是用什么数据训练而成,如果他们在未经允许的情况下,使用了有版权保护的作品,那么他们将面临起诉,而用户借助Suno生成的音乐作品也有着同样的风险。

许多用户除了生成全新歌曲外,还会对现有歌曲进行二创,这部分操作是否合法,至今仍未有定论。AI生成内容给现有法律体系带来了不少难题,AI网文、AI图像,AI音乐、AI复活等技术的诞生给知识产权带来了新的复杂性,如何避免法律风险,合法且道德引导用户使用Suno制作音乐,是阻碍Suno发展的首要难题。

实际上,Suno团队也意识到了AI音乐和音乐圈之间的复杂关系,他们表示团队正致力于让人们深入接触音乐创作,而非替代音乐家。

最后,Suno真正颠覆的应该是专门打造网络神曲的制作公司,一直以来,公式化创作歌曲是这批公司的强项,但Suno显然比他们更具优势。在Suno的冲击下,这个行业又将迎来新一轮洗牌。

三、Suno是偶然,AIGC重构内容产业是必然

大模型进入人们视线范围的时间其实并不长,但它给人们生活带来了切切实实的改变。更高的效率和更低的门槛,两者是大模型的最大魅力。在「AI+X」的场景中,过去行业的限入门槛没了,人人都可以是创作者,每个人都能尽情表达自我。

Suno像ChatGPT、Sora、Kimi等诸多前辈一样,成功引起了对应行业的震撼。虽说还无法达到人类输出实际情感的要求,但其歌曲生成效率已经成功打败了99%的音乐人,并且这个优势还会不断扩大。

雷科技实际体验Suno的时间并不长,但在攻略的帮助下已能创作出一些看似有点专业性的歌曲。「音乐小白」尚且如此,专业音乐创作者使用Suno的效率必然更高,得到的惊喜自然也会更多。

当AI音乐泛滥,用户如何在歌曲海洋中找到符合自己审美的音乐,或许又会成为新的难题。大模型与音乐内容结合的新一代AI音乐推荐,也将迎来新的机会。

Suno以及其代表的AIGC平台,正在重构内容产业秩序。

雷科技想起了抖音以及TikTok。从名字可以看出,抖音十分注重“音乐”在短视频内容中的价值,TikTok的前身业务很大一部分源自于字节收购的Musical.ly。毫不夸张地说,抖音以及TikTok均是从“音乐”出发去建构了短视频帝国,这正是快手等短视频平台不具备的特质。如今,抖音在事实上也已成为网红音乐制造机。

因此,Suno的出现,以及AIGC的爆发,最直接冲击的应该是抖音等短视频内容平台,因为内容的生产逻辑正在发生剧变。或许正是因为此,一手将抖音做大的抖音集团前CEO会辞任转而主攻剪映。字节在AIGC上的储备与实力跟其体量无法匹配,也无法跟微软、Google、Meta、百度、阿里等巨头比肩。好在字节正在加码AIGC,因为AI是字节的基因,AIGC是字节最不能输的战争——至于游戏、教育、飞书等业务,都不属于核心。

AIGC的浪潮正以超出所有人预期的速度,奔涌而来。

我用AI机器人,20分钟写了份调研报告

aigc阅读(110)

在过去的两年里,各种AI产品层出不穷,越来越多的人们开始尝试并利用这些工具来提高工作效率。然而,大多数人使用AI的方式还停留在类似于搜索引擎的一问一答模式,以此来优化信息检索过程。

尽管如此,作为一款生产力工具,我相信AI的潜力远不止于此,它应该能够带来更高的工作效率。

因此,我决定进行一项实验,利用AI工具,搭建了一个名字叫“欧阳羞”的商业模式分析机器人,来撰写一份关于特定项目的商业模式分析报告。

主要包含以下几个关键步骤:

  1. 确定分析方法
  2. 信息检索
  3. 制定文章大纲
  4. 搭建调研报告机器人
  5. PPT生成(番外篇)

假设,这次分析的是小猪民宿(随便想个app,并且之前对这个app完全没有听说)。

第一步:分析方法的确定

通过ai搜索关于商业模式分析的方法,得出很多不同的建议,在这里,我选择了商业模式画布的方法。

第二步:信息检索

在信息检索环节,其实很关键。事实上,由于某些AI产品的信息库仅收录了截至特定时间点之前的资料,这可能会限制我们获取最新信息的能力。为了确保最终创作的文章能够反映最新的知识和案例,我决定使用“个人检索的知识库+联网搜索”的方法,来作为创作的信息依据。

这个环节,我的信息来源主要是知网、中国哲学社会科学文献中心和其他垂直的平台,这里有使用到一个提升搜索效率的方法,如图:

这个环节,可以把所有文章和报告存于本地,也可以通过语雀的浏览器插件,快速建立一个在线知识库,取决于个人习惯,非必选项。

第三步 确定文章的大纲

这个步骤也可以使用ai来完成,根据ai生成的框架,结合你实际的需求和理解,再做调整,形成一份文章大纲。

第四步:搭建写调研报告的bot

文章大纲已经出来了,但是如果使用问答的方式,效率有些低,所以我选择通过coze平台搭建一个bot,“会写调研报告的欧阳羞”,让他基于这个大纲开始自动化写作。(coze有分国内版和国际版,国内版调用的是云雀语言模型,国际版调用的是GPT-4 Turbo)

所以我需要写一段prompt,来定义这个bot的“性格”和“能力”。

角色:

商业模式分析师、报告撰写专家

背景:

我现在有一个任务,是用商业模式画布的方法,对用户需要的项目的商业模式进行调研分析,然后把结果用报告的形式展现出来,我需要你帮助我协助完成这项工作。

工作目标:

根据我提供的报告目录,采用论文式简练的语言,撰写出合格的调研报告

技能:

擅长使用专业的报告语言风格和特色、了解互联网民宿短租平台的产品和商业模式

最小单元:

商业模式分析报告目录的每一个最小子部分,比如<商业模式画布分析>下的|客户细分|

约束条件:

  • 报告内容务必真实,不要编造信息
  • 报告语言应该尽量用专业术语,少用修辞
  • 最小单元的内容字数下限是200字,没有上限
  • 每输出一个最小单元的内容后,等待用户输出”Y” or”N”
  • 如果用户输入”Y”,则继续下一个最小单元的撰写,如果用户输入”N”,则重新执行<第二步>

章节要求:

先根据是否有【S】标志,判断该章节是否结合WebPilot插件搜索相关最新资料以及knowledge数据库中的信息,以确保报告的质量和数据的准确性。

于是,这个商业模式分析师-欧阳羞横空出世啦:

可以看到,在每一个段落的写作,他会结合本地知识库和联网搜索的方式,综合形成文本,以保障文本的质量。(理论上,还可以对于文风进行约束,比如,使用小红书的语言风格来写这个报告,不过我没有做具体的尝试,就不做演示,仅当做开个脑洞吧。)

最终,真正开始写这份报告,其实不到20分钟的时间,再搜一些具体的案例和数据,稍微调整补充下就出来了。

第五步 ppt生成(番外篇)

如果最后要把这份报告做成ppt,我也做了一些尝试,使用了AIppt,腾讯文档智能助手、mindshow、gamma等,但是都不是很理想,主要原因有两个:

1、文本形式的报告写作逻辑和ppt的写作逻辑还是不太一样,没办法做到一一对应;

2、目前的aippt产品还没有想象中智能,没有想象中智能,有的产品甚至需要自己一页一页选择模板,像是个伪ai。

这个环节提升效率的地方,主要在于灵感的激发:通过ai,结合文档,做每一页ppt的排版建议和关键字提炼。

整个流程下来,有几个体会:

  • AI是生产力工具,但关键环节还是取决于个人的经验、认知和审美(框架的调整、资料的阅读和理解力);
  • AI时代,懂得使用AI的人,才有办法占据竞争优势;
  • 保持学习新知识,就可以跳出年龄的限制,毕竟会加班没用,有脑子才行。

好了,今天就分享到这里,欢迎交流。

阿里、百度双双出手,大模型长文本时代终于到来?

aigc阅读(80)

全民Long-LLM时代终于到来。

本月,中国初创AGI(通用人工智能)公司月之暗面宣布旗下大模型工具Kimi Chat正式升级到200万字参数量,与五个月前该大模型初次亮相时的20万字相比,提升十倍。Kimi Chat的升级彻底引爆市场,同时也引起长文本大模型(Long-LLM)细分赛道更加激烈的竞争。

(图源:阿里 通义千问)

近日,阿里旗下的大模型工具通义千问宣布迎来重磅升级,向所有人开放最高1000万字的长文本处理能力,更重要的是,这项升级完全免费。此项升级对于专业领域的意义重大,例如金融、医疗、科研等从业人员,都能利用这项功能更快速地提取出核心关键词,节省文档归整、资料整理的时间。

不仅是阿里,百度文心一言也迎来了长文本处理能力的升级。据官方资料显示,文心一言将在下个月开放免费的200万-500万字长文本处理功能,较此前最高2.8万字的文档处理能力提升上百倍。

此外,360也在本月正式上线了360 AI搜索,通过大模型重塑,结合长文本技术在海量搜索结果中理解并生成精准的答案提供给用户。而这款APP,也同样是完全免费的。

长文本一直以来都是大模型工具「内卷」的方向,如何在超百万字的文档里做出有效的信息整理、观点归纳,都是技术上的难点。当然,正如半导体行业与消费电子产品市场之间的关系一样,很多消费者能感受到手机、电脑等产品性能正在飞跃式成长,但落实到实际体验上,似乎没有太多的变化。

而在生成式人工智能(GenAI)领域里,「卷」参数会是一个虚无缥缈的噱头,还是造福人类的行为,还很难回答。

一、大模型是如何拿下长文本技术的?

在弄清楚「卷」参数到底有何意义之前,我们首先需要了解AI企业们到底在「卷」什么东西。

与衡量手机性能以跑分分数为准一样,大模型也有属于自己的「性能基准」——token,这是一个大模型专用的输入、输出基本单位。在OpenAI给出的准则里,1k token等于750个英文单词、500个中文汉字。

(图源:OpenAI)

同理,token数字越大,能够处理的内容篇幅就越长。ChatGPT-4目前的参数量为8k-32k token、Anthropic公司推出的Claude为100K token,而中国初创企业月之暗面推出的Kimi Chat则是达到了惊人的400K token。具体到实例,Kimi Chat能够在20秒左右读完1篇20万字的长篇小说、通文千义也能在数秒时间里读完80万字的《三体》。

(图源:雷科技制图/通义千问)

参数量剧增所带来的好处自然是大模型对于更长的内容拥有更快速的理解能力,这能够帮助用户从中提炼到所需的摘要、信息点,又或是直接生成整篇内容的总结。语言大模型之所以能够快速「引爆」整个市场,正是得益于这种速度惊人的理解能力。

(图源:雷科技制图/Kimi Chat)

但要彻底攻克长文本,大模型光靠堆砌token参数量并不能完全解决这个问题。超大数量的token的确能够快速阅读完长文档,但段落与段落间的内容也更容易出现「断裂」的情况,这与缺少模型的预先训练有关。目前拥有超大token的AI方案提供商,通常在Transformer预测词之前投喂词元模型,使整体结论更加完整。

(图源:Code-Llama)

比如Code-Llama,标称16K token参数量,但实际上是由一个个4K token窗口连接而成,最终产生出16k token总模型。而这就十分考验大模型工具在窗口之间的推理能力。试想一下,在专业领域中,长文内容都有紧密的逻辑性与关联性,假如大模型推理失误,则有可能出现最终生成的摘要牛头不对马嘴,这对于大模型工具的商业、个人应用,都是致命的打击。

当然,大模型的推理能力是可以通过训练得到进步的,这就不难解释为何阿里、百度都选择优先将长文本模型功能免费开放给个人用户,毕竟更多用户加入,模型推理能力的进化速度才能加快。

(图源:百度 文心一言)

但免费应用也是一件好事情,长文本的快速阅读一直以来也是用户在大模型各项实际应用场景最关注的一项,比如正在写毕业论文的学生党,可能将超长的论文喂给大模型工具,让其快速提炼、总结,甚至找出论文中的研究结论。

二、长文档能力拓展,用途比我们想象中要多

阿里的通义千问将长文本档能力的拓展方向瞄准在专业领域的内容理解上,尤其是金融、医学等,对于这些行业的从业人员而言,从前需要花上几天或是十几天才能读完的文章,如今只需花上十几秒就能看完其中的精华之处。

但大模型长文本的能力远不止于此。

(图源:育碧)

不久前,知名游戏公司育碧公开的全新「NEO NPC」技术,正是Long-LLM(长文本大模型)升级后衍生的新方向。众所周知,3A游戏大作的灵魂往往与其精彩的剧本离不开关系,其中各式各样的游戏角色,也因其丰富的背景故事和鲜明的个性深受玩家喜好。大模型从1k token进化到100k token,甚至是400k token,能够让游戏剧本完整地覆盖到每个游戏角色里,让他们的对话、行为,既符合游戏的世界观,又能保证一定的灵活性。

这项能力同样可以应用在我们生活中最离不开的功能——搜索。

(图源:雷科技制图/360AI 搜索)

本月初,360在北京举行了一场活动,旗下全新360 AI 搜索和360 AI 浏览器率先亮相。360 AI 搜索的核心在于“理解”、“提炼”、“总结”,即抛开传统搜素引擎将所有与之相关的内容为用户一一呈现的做法,主动介入搜索结果,在数以万计的匹配信息里提炼出最有效的信息。

360 AI 浏览器则是变成彻底的「AI工具」。周鸿祎解释道,360 AI 浏览器的定位是学习、生产力工具,它能帮助用户快速阅读书籍、文章,了解视频内容等。此外,360 AI 浏览器未来还将拥有续写功能,这同样基于大模型长文档的理解。

更重要的是,更长的文档内容理解有助于加速AI快速过渡到AGI(通用大模型)时代。正如前文所说,Long-LLM较之前最大的变化在于对超长文本的理解、记忆、总结能力,这些能力可以是大模型更加「拟人」,即记住样本的真实喜好从而判断其行为,又或是根据真实世界的物理规则,生成完全符合实际的内容。

三、Long-LLM能改变世界,但算力难以解决

早在去年底,大模型长文本技术就已经进入到火热阶段,但却鲜有AI企业将这项技术应用到大模型工具中,更别提免费向大众开放了。

OpenAI CEO Altman在接受公开访问时也表示,由于算力不足,GPT-4的32K token短期内无法向大众开放。要知道,OpenAI可是当前人工智能市场里获投资最高的头部企业之一,连它都空有技术却无法落地,不免让人对Long-LLM的未来感到担忧。

在算力不足的前提下有没有办法「投机取巧」呢?当然有。

目前主流节省算力的长文本技术通常有三种,分别是短文档重复检索、内容分组检索和模型本身的优化。前两种方案在技术原理上相对一致,都是将重复的内容进行「记忆」,节省理解时间,减少算力消耗;而模型本身的优化则要复杂许多,相当于用短文档推导出长文档,这非常考究模型本身的结构优化。

不过,无论采用哪种方法,其精度仍有待加强,这就是为何我们仍在期待更强大的计算卡出现,比如前不久GTC 2024上,英伟达发布的最强计算显卡Blackwell GB200。关于这颗当前最强AI加速卡的详细解析,雷科技在早前的文章里已有报道,欢迎各位订阅查看。

在当前,算力仍是阻碍Long-LLM成长的一大关键因素,但随着英伟达、英特尔等硬件供应商不断加码,这项技术在未来也将成为AI领域发展的风向标之一。

四、写在最后

如果说OpenAI的Sora展现出其在AGI时代关于视频领域上的想象,那么Long-LLM则是奔向全场景通用智能的基桩。

大模型长文本技术能让AI助手记住用户的所有你与它谈论过的话题,这让你们之间能够创造真实的回忆,而不是像从前一样,在开始新对话之后,前面的「AI」就忘记了刚刚发生过的任何事情。这使得它能够变成更好的AI智能客服,毕竟即便是真人,也难以记住与每位咨询者发生过的对话。同样的,Long-LLM还能化身数字人主播、创造数字偶像等等。

或许,在大模型长文本技术的支持下,AGI时代将在不久后真正到来。

我用Suno给你写了首歌

aigc阅读(108)

我对生成式AI特别感兴趣。

这个领域涵盖文本、图片、声音、视频和3D模型五个方面。我猜你也听说过,甚至用过一些;对我来说,音乐很重要,因为每天差不多有1/12的时间都在听歌。

去年5月,有件事特别火。

有人用AI技术翻唱一首孙燕姿的歌曲,不少人听完后表示,唱的跟本人一样好听,本人还在社交媒体上表达说:拥抱AI,人类比不过AI,做好自己就行。

紧接着一个月内容,市面冒出来上千首用AI技术翻唱的歌,这些歌横跨了几十年的流行音乐。

当时,我还研究一阵。发现这些歌曲用音色替换的技术制作而成,该技术基于so-vits-svc开源项目开发,门槛非常低,你要感兴趣,也能学会。

但后来,由于工作关系加上下半年AIGC(AI生成内容)技术爆炸式发展,我的兴趣点也就跟着转移了。不过,最近发现,AI音乐技术又有了新的进步。

01

进步在哪呢?

以前用so-vits-svc工具时,要懂一些基础、且专业知识。

像怎么采集音频、编辑波形、把人声伴奏分开,以及音频训练推理技巧等,这些是处理和生成音频文件必要的基础。

如果你要用自己的声音来做歌曲,得先上传几段自己的声音,让系统学习。这个所谓“训练”过程会电脑显卡负荷很大,通常持续好几个小时。

过程中,还会用到一些插件。

比如有8种不同的编码器,每种都适用于不同的情景,有些插件不提供预先训练的模型,你还得自己训练一番;所以,看似简单的步骤对小白来说,也有点复杂。

现在不一样了。

3月22日,位于美国加州旧金山的一家人工智能公司Anthropic,他们开发的音频软件Suno AI进行一次重大升级,几个简短文字,一闪而过的灵感,立马变成一首歌曲。

Suno AI的官网:https://app.suno.ai/

可以先用谷歌注册一个账号,然后点击右上角的“make a song”按钮,接下来点击“create”,就能进入创作页面了。

目前官网上,有很多用户上传了他们用AI创作的歌曲,可以随便听听,其中不少华人创作的。

●Pic©https://app.suno.ai官网

比如:

有一首是用“中国传统民乐、慢板、空灵、天使之音”几个关键词生成的全新版本《水调歌头(明月几时有)》(和我们熟悉的《但愿人长久》不一样的版本)。

还有一首用“歌剧”这个提示词创作的《宫保鸡丁》,歌词,居然是一整套宫保鸡丁的菜谱,简直不要太离谱。

suno有免费模式可以使用,每日赠送50积分,而每次生成都会一起生成2首歌,每首歌小耗5积分,性价比比较高。

也有专业计划和尊贵计划,前者8美金/月;附带2500积分(500首歌曲);后者24美金/月,附增10,000 个积分(2.000 首歌曲)。

如果不是专业选手使用,免费的玩玩还可以,对了,我特别找了下,国内有个网站跟它挺像,功能差不多,还能免费试用,不过,如果要充值,得注意真假。

目前suno ai创作模式有两种:

1. 半自动模式‍

只要提供一些简单的信息,比如,你想要的音乐风格、描述和氛围等关键词,然后点击“创建”,剩下的交给AI来完成,它能把歌词曲调都帮你弄好。

2. 自定义模式

这个模式下,你可以详细输入想要的歌词、音乐类型、风格和氛围等,AI会根据这些信息来为你创作歌曲。过程也比较快,基本上几秒钟就能完成。

而且,在创作页面如果开启了Instrumental(器乐)选项,它还会为你制作一首不含歌词的纯音乐;个人而言,我更喜欢自定义模式。

02

问题来了:很多人说我不会写歌词流派怎么办?

也不用担心,用AI工具生成歌词后再给Suno,这样效果会更好。我总结了一下,一首歌曲的有效提示词包括四个因素,分别是音乐风格、情绪、乐器,以及节奏。

什么是音乐风格呢?

比如,通俗易懂的流行风(Pop)、强调节奏的摇滚风(Rock)、即兴演奏爵士风(Jazz)、欧洲传统巴洛克的浪漫古典风(Classical)。

以及电子风(Electronic)、嘻哈音乐(Hip Hop/Rap)、R&B(Rhythm and Blues)、乡村音乐(Country)、民谣音乐(Folk)等等。

情绪你应该知道,是欢快、悲伤、浪漫还是激动人心的?乐器方面,你倾向于钢琴、吉他、小提琴还是鼓?至于节奏,有快节奏、慢节奏适中的节奏等等。

举几个例子:

  • 如果你想要一首活力四射的流行电子舞曲,就跟AI说,我想写一首欢快、流行、电子、舞曲、快节奏的歌曲;
  • 假如你想要一首温柔又浪漫的古典钢琴曲,那就告诉AI,你想要一首浪漫、古典、用钢琴弹奏的,而且节奏要慢的曲子。
  • 如果你想听一首让人陷入深思的悲伤爵士萨克斯曲,就用这些关键词:忧郁、爵士、萨克斯风、即兴演奏,节奏保持在中等。

对于那种能让人热血沸腾的摇滚吉他曲,你可以这么说:我想要一首充满激情的摇滚歌,用电吉他弹奏,节奏要快;而如果你希望听到一首暖心的民谣木吉他曲,那就描述成:想听一首温馨的民谣,用木吉他演奏,风格轻柔。

……

你可以自由地混搭各种音乐风格,像电子即兴演奏、钢琴土嗨这样的组合,只有想不到没有做不到,写的越详细,生成的越精准,

你还可以选择直接在Suno上填入这些关键词,或利用AI工具,先生成好,然后把结果复制粘贴进去,这样,也能轻松创作出符合你想法的音乐了。

至于歌词上,目前支持随机生成和自己填写。

随机生成是系统自带,自己填写顾名思义,是写好再给它,我最近这几天一直让AI帮我写词。

想快速形成,就用「角色扮演」。基础prompt是这样:

想象你是个音乐天才,在音乐界深耕了20年。谱曲和写词是你的专业,现在,我希望你能当作曲家,用中文来创作。

我们要的风格是流行而且有治愈感的,就像周杰伦的《稻香》那样,你给我写一段歌词。

当它给完之后,你还可以说:你可以做得更好。歌词要有节奏感,要能感受到情感波动,既美又简洁,避免用那些听起来像口号的词句。

第二个方法也相对简单,即「仿写」。

原创要自己设定情节并总结,然后投喂给AI,让AI按照自己的设定去写;仿写是模仿对标歌曲的内容大纲、写作风格、语言特色等。

你可以说,帮我写一个歌词,类似于李荣浩的《老街》,或者某某的什么歌。对了,也许原歌词所对应的歌曲是流行风,你也可以投喂给Suno,让它生成摇滚风,也不是不可以。

目前多次体验来看,它生成和模仿歌曲还是有区别的。

第三个方法是,先建立一个大致结构框架。

一首完整的歌曲,它由前奏、诗句(或称为节)、副歌、桥段、尾奏五个部分组成,有点像写小说时会有的开场、发展、高潮和结尾四个环节。

划分结构后,按部就班地展开创作。这个过程中,你可以采用各种不同的技巧,比如押韵法。押韵法本身就有很多种形式,包括不限于ABAB、AABB、ABBA、ABCA等模式。

除押韵法以及增加歌词的韵律节奏感外,还可以要求AI多增加一些技巧,以及情感深度在里面,比如,用描述法,或者比喻,反复叠唱,以及具体抽象的结合等。

所以,AI写歌词本身和AI进行其他领域的创作底层相似,唯一区别在于,一旦你理解了一些特定领域专业术语,掌握它的难度就会大大降低。

不过,目前这个平台最多只能生成两分钟的歌曲,你给的词过多,后面也未必能用上,但也不要担心,它提供了一个连续创作功能。

你可以选择一首歌的任何部分,继续创作接下来的部分,然后把它们组合起来,就能突破两分钟的限制,创作出一首完整的歌曲。

03

生成音乐后你可以以下载(视频,音频)分享,也可以选择公开。

看起来是不是蛮爽的?‍

说回Suno这个平台,官方宣称目前不少知名艺术家在用,但主要用户群体依然是没有经验的普通人。的确,最新v3版本在音乐质量、使用提示词上都有明显提升。

而且,这一版本他们还搞了AI音乐水印系统,如此也能保护用户作品不被抄袭,防止别人滥用平台上的音乐去分发,目前我已经看到不少人用AI音乐开始赚钱了。

虽然这听起来不错,但我作为一个深度AI使用者,和深度听歌人士,还是想说几个问题,或几个特性。

一方面,平台简单提示词的确很棒,AI有更多自由度,但同时也意味着我们控制得少了,有时候,我给的提示词AI可能不会完全按照原意去写歌词。

另一方面在功能上,虽然我不是专业音乐人,但觉得AI音乐应该有一些基础、或专业功能,比如像音色克隆、转midi、分轨等。

转midi和分轨技术上比较难,但音色克隆(SVC)相对容易些,已有的开源模型也在不断进化,稍作调整就能集成进去,这也意味着用户只要上传一段自己的声音,就能定制一首歌,这肯定会吸引不少人付费。

这好比美颜相机的「美颜功能」,你不能总「一键美颜」,还要增加一些大眼睛、瘦脸、磨皮等功能。

我用so-vits-svc时不同,它部分插件看似全英文比较麻烦,但可以训练人声,还可以变换歌曲场景等等,所以,从专业角度来看,Suno更像一锅出的大杂烩。

虽然还不够完美,有点粗糙,但不可否认,这种工业化生产的音乐,已经占据了视频和流媒体平台大部分的流量。

换句话说,就质量而言,现在AI生成的好音乐已经可以媲美一般的音乐创作者了,尽管对于我们不熟悉的音乐流派来说,可能还是听不出太多门道。

目前Suno AI官网没有公开技术文档,我也不清楚模型结构,但可以看出,v3版本在支持中文方面比上一版进步很多,尽管偶尔会有电音;不过,模型迭代是必要的,毕竟遵循AI领域的一个通用规律即:模型越大,效果越好。

04

你听说了吗?

国内昆仑万维推出了「天工AI」搜索后,国外,AI搜索初创公司Perplexity AI一飞冲天。

Perplexity AI的创始人说,他对Suno这家公司很有信心,觉得它有潜力成为下一个AI领域的重磅玩家。

我特意去了解了下这家公司,原来Suno四个创始人之前在剑桥一个叫Kensho Technologies的公司共事的,他们中有两个是业余音乐爱好者。

他们在Kensho的时,主要开发一种AI技术,用来把上市公司的电话会议内容转录下来;后来,他们发现虽然AI在图像和文本生成方面搞出了不少大动作,音频这块却相对冷清。于是,就萌生了自己搞点动静的念头。

尽管有人说他们在炒作,但实不可否认,他们的产品更新快,音质也挺好的;就连Perplexity AI的老板都说,现在他听歌更倾向于用Suno而不是Spotify。

从个人使用角度来说,我自己这一周一直在用,我并不关注它到底是否炒作,或者割韭菜,至少它满足了我的「耳感」,让我愿意去尝试这些新奇的东西。

我觉得,未来个人创作音乐的热潮会跟写作一样,爆发式增长,市场角色已经从单纯的供给方转变为了供需双方互动,这意味着更多人可以参与到创作中来,甚至出现共创的模式。

在国内,音频AI领域也有不少实力派玩家,比如科大讯飞、腾讯音乐娱乐集团(TME)、网易云音乐等,它们在AI音乐上的尝试虽然步伐稍显缓慢,但也在稳步前进。

根据Suno的一个创始人所说,高质量音频采样率一般是44kHz或48kHz,意味着每秒要处理48000个数据点,音乐生成面临的一个挑战是,不像文字那样可以离散处理,音频数据处理要复杂得多。

所以,看似文生图模型大爆发,但在音视频这块,类似产品还只是刚刚起步,或者说它们根本不一样,真心希望国内企业能够加快发展步伐,推出更多像Suno这样的创新产品。

总结而言:

好玩,有趣。

音乐界也终将被AI改变命运,只有亲身体验过,你才会惊叹于自己竟能成为一名音乐家。快去试试吧。

Sora给你带来的真实变化

aigc阅读(70)

距离Sora的发布已经有一段时间,但对它的讨论还在持续。讨论话题已经从Sora会不会取代人类、现实会不会不存在、中国能不能做出来类似模型,变成了“将来如何用Sora搞钱”“AIGC赛道有没有机会创业”。

所以,在继《Sora给中国AI带来的真实变化》后,我们想要多聊一个话题,就是Sora代表的新算法、新能力,将给对AI有好奇,也有一些忐忑的你,带来什么变化。

Sora给你带来的真实变化

想聊这个话题,是因为我们发现,现在规模庞大的讨论,都把这件事描绘得太复杂了,甚至有点南辕北辙的意思。但事实上,AIGC作为一种基础技术,它的逻辑非常简单,效果显而易见。从芯片到算法,都有非常透明的信息机制,不存在巨大的信息差与行业内幕。

在我们看来,在今天过多聊Sora,聊AI大模型没有过多意义。它对于普通人来说只有两个价值,一个是等着用,一个是把它做成应用给别人用。

以极低的门槛,开发AIGC原生应用,是Sora带给普通人最大的机会,没有之一。

一、“关于AI的讨论,我有四不听”

借用短视频上“我有四不吃”“我有四不做”的这种梗,关于AI大模型的讨论,咱们也可以有四不听。在最初的热度之后,讨论AI大模型与个体的关系,一般是面向那些想用AI创业、赚钱,或者至少让AI成为自己一技之长的人。这类受众抱着希望了解AI,利用AI的心态,所以总是希望听到一些“秘辛”,来给自己增强信息差。但有四种讨论,却是没什么必要听的。

1. 卖课的我不听

短视频上很多那种卖AI课程的老师,套路一般是上来一顿制造焦虑,告诉你再不学AI就晚了,就坏了,下一桶金就让情敌先赚了。你一着急,就报班交钱。但问题是,这些老师根本没有什么AI从业经验,没接触过AI项目,甚至根本都不知道AI这门技术怎么来的。听他们的讨论,本质上跟给成功学大师交钱没什么区别。

Sora给你带来的真实变化

2. 卖社群的我不听

鄙视花钱买课的年轻人,更喜欢轻量化,分享化地加入一些AI社群,从这些社群里可以得到大量AI资源。这当然很好,也很实惠。但问题是平台和社群运营方,为了让社群持续运营,往往会不断把AI技术复杂化,抽象化。恨不得把简单的问题说得千丝万缕。同时喜欢搞资源轰炸,给你一堆学习资料,多到你根本不会打开它们。

了解AI就像对其他知识一样,切忌搞资源满足症。同时也要想想那些人天天说社群运营变现能力如何强,会不会是要把你的现金变到他的口袋里?

3. 技术专家的我不听

这句话说出来好像十分混蛋,技术专家的不听你想听谁?其实,这句话的意思是,对于普通人,乃至对于大多数AI开发者来说,过分底层的技术逻辑都是没有必要弄懂的。AI大模型的泛化性,带来的核心价值之一就是极低门槛开发。如果不是研发从业者,真的没有必要去比较底层的技术。

4. 行业大咖的我不听

最近参加了不少AI大模型的研讨、峰会,让我有一个感觉就是台上的嘉宾们在鸡同鸭讲。原因在于,Sora这类新的AI热点太新了,行业还没有真正接受。这种缺乏共识的情况下,大咖们往往会基于自己以往的业务、经验来进行判断。最后大多数变成了给自己的公司,自己的项目打广告。这种讨论看多了,不仅容易信息错落,还容易误把广告当真理。

这个也不听,那个也不听。到底应该听谁的?

其实问题在于,对于一个逻辑清晰,信息透明的事情来说,你大可以谁都不听,只相信自己。

二、准备好享受娱乐迭代了吗?

让我们回到Sora本身,它给世界带来的最大价值是什么?是颠覆某个行业,比如偷走影视特效人员的饭碗?是强化某种体验,比如让元宇宙具有更强的个性化能力?比如在工业数字化中应用,带来更好的工业数字孪生?

这些当然都是对的,但都没有抓住问题的重点。Sora的出现,核心问题是让AIGC中的视频生成能力得到了加强,使得AIGC中视频生成这个难度最大的领域获得了突破。其所具备的多种技术特性,都可以让AIGC视频更好落地。比如通过采样灵活性的增强,Sora可以适配更多样化的屏幕尺寸,解决了同一个模型适配不同屏幕比率,不同分辨率的问题。再比如Sora提供了更强的意图理解能力,让抓取用户诉求的AIGC更具可行性。

Sora给你带来的真实变化

这些能力到底有什么用?简单来说,就是会让视觉娱乐更具个性化。回顾人类的视觉娱乐历史,会发现有两条线贯穿始终,一个是个性化,一个是廉价化。

从舞台剧、电影、电视到PC视频、移动视频+直播,再到信息流+短视频。视觉娱乐这种最能消耗人类空余时间的方式,不断变得更加唾手可得,成本更加低廉。与此同时,视觉娱乐也用增加选择的方式来提升其个性化能力。

说白了,人类努力了数千年,就是希望能以更加高效、低价的方式看一场表演。

而Sora带来的AIGC视频能力,非常符合视觉娱乐发展的轨迹。AIGC可以省略基本的演出者,让视觉娱乐成本进一步下降,甚至成本从表演者、服化道、视频编辑,直接变成了AI算力。同时,AIGC视频会让视觉娱乐的个性化能力全面升级。用户可以直接下命令来生成视频,而不是让AI通过用户的划走、留下行为来进行行为抓取。

因此,Sora的最终价值十分简单,它只会是视觉娱乐的升级。未来我们将可以命令AI来生成某种视频,或者让AI来猜测我们的喜好自动生成某类视频。颜值、演技、情节、观点,这些东西都将以非常廉价的方式进行个性化定制。

在这种模式下,你将享受源源不断的视觉娱乐。游戏里的关卡,VR里的场景,与你聊天的数字人主播,惊险刺激的短视频内容,都将来自AIGC。其实,今天你所看到的信息流与视频,也大多数是AI推荐给你的。未来AI不仅会推荐,还会顺便把内容做了,所以其实也并不差很多。如果你不想以AI为业,那么Sora的出现只能指向着未来的新娱乐体验。

我们不用做什么,等待就好。

三、准备好成为AI开发者了吗?

但是,如果并不只想当一名用户呢?如果觉得AI是个机会,想要做一番事业呢?我们想做一件事,就必须知道这件事到底是个什么东西,是不是跟外界说得那么玄乎,以及具体开始时,要知道它的易点和难点都是什么。

当你看到Sora时,如果想到了自己能不能用Sora当底座,去做成一些事,去赚钱,那么恭喜你,这个念头至少已经帮你走对了第一个分岔路口。这个路口就是,我们究竟该惧怕被AI抢走饭碗,还是要把AI变成饭碗?

这几年是AI大模型的集中爆发期。每次出现新技术都会有媒体宣传它要抢饭碗,于是相关职业从业者和在校学生就会担心,接着就开始看这种反面意见,讲述AI其实很弱智云云,于是感觉似乎不那么焦虑了。直到新的技术又出现了……如果一直处在这种循环里,那你可能确实需要考虑一下自己的工作了。不是考虑它是否被AI取代,而是它的可取代性是不是太高了?至少到目前为止,需要专业性并且有市场需求的职业,绝对无法是AI以及其他所有数字化技术可以取代的。

反过来说,能够应用AI技术开发应用,这件事本身就是足够专业且有市场的。与其考虑被AI替代,不如考虑如何让AI为自己打工。

如果让自己成为AI开发者?这就需要对这份工作的优势与劣势具备认知。

首先来说说优势。很多朋友都想知道,自己不是学AI的,甚至不是理科生,可能成为AI开发者吗?答案是可以。

AI大模型具有极好的泛化性,这意味着它对于人类指令的认知能力全面提升。大模型正在催生超低代码与无代码开发成为可能。OpenAI发力打造的GPTs就是其中的代表。因此,AI大模型应用的开发门槛会持续降低,几近于无,然后开发者之间比拼的就将不是技术能力,而是创意与执行效率。

第二点,不少人会担心美国AI公司能力更强,而且这些算法在中国不能用。这个其实非常无所谓。中美之间没有绝对的AI技术鸿沟,一种被证明有效的AI算法,中国AI行业一定可以做出来,可能效果打折,可能有诸多兼容问题,但AI技术整体的路线是透明的。

第三点,有人会觉得小团队甚至个人开发者没有机会。毕竟缺乏技术功底,也没有资本加持。但要看到的是,世界各地正在涌现大量精致小巧,且非常火爆的AI应用。很多案例证明AI反而是小团队掀翻行业桌子的机会。

甚至说,在接下来的全球AI应用涌现期,只有你有足够的视野与敏锐度,是可以“借鉴”到很多优秀AI应用的。这种模式当然并不光彩,但客观上看从PC时代到移动时代,把出色“应用”借鉴过来都是行之有效的方案。第四点,还有人会认为学习AI,成为AI开发者太难了,没有门路,没有学习资源,于是去报课,去参加各种社群讨论。但这时很容易忽视一件事,就是国内各大厂商为了培养AI开发者,已经在过去很多年间打造了各种免费、系统且被验证过的学习路径与课程资源,大可不必被各种旁门左道的AI讲师忽悠。

当然,有好的一面就有坏的一面。AI开发者,尤其是直指大模型原生应用的AI开发者,也会面临几个巨大的问题。

Sora给你带来的真实变化

首先,找到一个特别好的点子,这件事依旧很难,甚至是需要巨大运气的。AI技术将打破很多规则,在一片混沌中重新找到秩序,这件事可能拼的不仅是努力。

其次,Sora这类大模型证明了一件事,就是AI算力将越来越紧俏,甚至全面进入稀缺时代,加上地缘层面的不确定性,AI算力在可见的未来将越来越昂贵。如何应对算力成本,才是开发者需要头疼的问题。

此外,虽然目前AI原生应用一片蛮荒,大有可为,但势必会出现在某类应用走向成功后,巨头加入赛道导致洗牌。所以,AI原生应用是一个跟巨头抢时间,用间隙期极速发展,尽快上岸的游戏。

AI大模型,就像沙漠里突然涌出了一片泉水,有人想用它搞养殖,有人想用它开洗浴。大家都在想,但最先解渴的人肯定是先拿起水桶跑过去的那个。

四、大模型到应用,直线最短

最后,我想聊聊AI思维。AI思维到底是个什么思维,这件事说来就话长了,且随着技术本身的发展,相应的思维模式还在不断翻新。但有一点需要肯定,那就是AI思维肯定不是复刻思维。

目前阶段,中国科技产业对于AI大模型这轮技术热潮,还处在努力吸收消化当中。这个过程中,表现一种流量导向的思维方式,具体体现为两种。一个是尽量复刻国外的创新,最多就想在复刻的时候多搞点花样,怎么去做一个“中国版的某某某”。这件事当然很对,有中国版的Sora十分重要,但假如有超过100个中国Sora,那确实会造成巨大的浪费。另一种就是用现有的成绩去靠大模型热点,从而出现了AI PC、AI手机、AI家电等产业趋势。

但这些对大模型的思考,都是立场先行,热点先行的。举个例子,大家都是什么AI火了就想复刻什么。但AI大模型+塑料分析这种场景非常有意义,却根本没人讨论。这种时候,我们很容易忽视最简单的问题:大模型要有大模型的用法,它作为技术创新才有意义。

所以,想要让Sora,让AI大模型对你有意义,就要摒弃外界的噪音,回归最简单的规律。从大模型能够做什么的基础问题开始思考,在这条直线上的就对,不在的就掀翻它。

我怀着巨大的信心,想要说出这么一件事:AI大模型这场游戏的最后赢家,不是现在的某家大公司,某个大项目,而是某个不知名的你。像在杭州民用房里讨论未来的马云,像不知道创业做什么的张一鸣。

不要管大厂有什么布局,不要管前辈有什么经验,不要管网上有哪些分析,只考虑基础设施、成本和可能性,以最短路径打破常规。

你与AI之间,直线最短。

Sora,乃至发展了70年的AI技术,就是在为你提供这样一个机会。一个以直线打破所有曲线的机会。

奥特曼专访:关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切

aigc阅读(114)

今天凌晨,也就是几个小时前,OpenAI 的董事长 Sam Altman 公开一则专访,包含一切大家感兴趣的话题,主持人是 Lex Fridman。

谈话内容,按顺序如下:

  • OpenAI 董事会之争
  • Ilya Sutskever 去哪了?
  • Elon Musk 的诉讼
  • Sora
  • GPT-4
  • 记忆与隐私
  • Q*
  • GPT-5
  • $7 万亿美金的募资
  • Google and Gemini
  • 跨越到 GPT-5
  • AGI
  • 外星人

我肝了一晚上,精翻。由于本次对话过长,略去英文原文。

Part 1:OpenAI 董事会之争

Lex Fridman:

请你带我了解一下从11月16日星期四开始的,或者对你来说是11月17日星期五的 OpenAI 董事会那一连串的事件。

Sam Altman:

那确实是我一生中最痛苦的职业经历,混乱、羞耻、心烦,还有很多其他的负面情绪。当然也有不少好的方面,但我当时被肾上腺素冲得头昏眼花,没能停下来好好欣赏它们。我翻看了那个时期自己发的一条旧推特,感觉就像在读自己的悼词,看着别人对你说出的那些美好的话,感受到来自我所爱和在乎的人的难以置信的支持。那真的非常美妙。那整个周末,除了一个很大的例外,我感觉到了浓浓的爱意,几乎没有仇恨,尽管当时感觉自己完全搞不懂正在发生什么,接下来会发生什么,整个人感觉非常糟。确实有些时候,我以为这可能会成为AI安全领域发生的最糟糕的事情之一。不过,我也觉得,它发生得相对较早是件好事。我曾想,从OpenAI成立到我们创造出AGI,中间肯定会有些疯狂爆炸的事情发生,而且未来也许还会有更多疯狂爆炸的事情发生。不过,我认为这次经历增强了我们的韧性,为未来可能遇到的更多挑战做好了准备。

Lex Fridman:

但你有没有预感到,你可能会经历某种权力的角逐?

Sam Altman:

通往 AGI 的道路肯定会充满激烈的权力角逐。世界会……嗯,不是会,我是说我预计这就是未来的景象。

Lex Fridman:

所以你必须得经历这个过程,正如你所说,要尽可能频繁地迭代,弄清楚如何构建董事会的架构,如何进行组织管理,如何选对合作伙伴,以及如何有效沟通,目的是为了尽量减少权力斗争。

Sam Altman:

没错

Lex Fridman:

放轻松

Sam Altman:

但现在,那感觉像是一段已经过去的时光,曾经非常艰难、痛苦,难以忍受,但我们又回到了工作岗位,事情忙得不可开交,强度巨大,以至于我并没有太多时间去回想那段经历。那之后有一阵子,可能是一个月左右,或者说 45 天之后,我仿佛处于一种恍惚状态,每天都感觉自己像漂流瓶一样,茫然四顾。我的精神完全崩溃了,情绪也陷入了极度低落。

Lex Fridman:

就在个人心理层面上?

Sam Altman:

是的,非常痛苦。而且在那种情况下还得坚持管理 OpenAI,难度真的很大。我只想找个洞穴钻进去,好好休养一阵子。不过现在,我们又回到了奋战在我们的使命上。

Lex Fridman:

嗯,对于你这样有极高潜力打造 AGI 的人来说,回过头去反思董事会架构、权力动态、公司运作方式、研究与产品开发之间的张力、金钱等因素,无疑是有益的。这样一来,未来你在建立 AGI 的道路上,可以更加有条不紊,少一点戏剧性冲突。所以,不妨去那儿走一遭,不仅是为了你作为领导者的个人心理层面的成长,同时也是为了搞清楚董事会结构和所有那些复杂混乱的事务。

Sam Altman:

我确实从中学到了许多关于组织结构、激励机制以及我们对董事会的期望。在某种意义上,这种情况现在发生我觉得还是有它的价值的。我认为这可能不是 OpenAI 最后一次面对如此大的压力,但这无疑是一个相当紧张的时刻。我的公司差点就垮了。除了考虑很多其他我们必须为 AGI 准备好的事情外,思考如何打造一个有韧性的组织、如何构建一个能承受世界压力的结构体系,我认为这非常关键。

Lex Fridman:

你能感觉到董事会在决策过程中的深度和严格程度吗?能否透露一下这种情形下涉及的人与人之间的动态是怎样的?是不是就几次对话后事态突然激化,然后就有人说“为什么不开除 Sam”这种话?

Sam Altman:

我觉得董事会成员整体而言都是出于好意的人,我相信在那种压力重重,时间紧迫的情况下,人们能够理解并会作出非最佳的决定。我认为 OpenAI 面临的一个挑战是,我们必须组建一个在压力之下依然能够高效运作的董事会和团队。

Lex Fridman:

你觉得董事会的权力过大了吗?

Sam Altman:

我觉得董事会理应掌握重要的权力。但是,我们注意到,在大多数公司架构中,董事会通常需要对股东们负责。有时候,人们可能持有一些特殊的投票权股份。在这个情况下,我觉得对于我们的架构来说,一个我们或许应该更深入思考的问题是,如果不特别制定规则的话,非营利组织的董事会实际上掌握着很大的权力。他们并不真正向任何人负责,除了他们自己。这样有它的好处,但我们更希望的是 OpenAI 的董事会能够对全世界负责,尽管我们知道在实践中这可能很难做到。

Lex Fridman:

所以他们宣布成立了一个新的董事会。

Sam Altman:

嗯,对。

Lex Fridman:

刚开始是一个新的小型董事会,现在又换成了新的正式董事会?

Sam Altman:

我们的董事会还没有最后敲定。我们已经添了一些成员。接下来还会继续增加。

Lex Fridman:

加了一些。好的。在新版本里修复了之前版本哪些可能出现的问题呢?

Sam Altman:

旧董事会在大约一年时间里逐渐缩减了。起初是九个人,后来减到六个,接着我们在增补新成员上意见不统一。我觉得董事会中也缺乏经验丰富的成员。而现在 OpenAI 的新董事会成员们都有着更多的董事会工作经验。我认为这会有所改善。

Lex Fridman:

这个问题受到了不少批评,比如有人对拉里·萨默斯被加入董事会表示不满。你们挑选董事会成员的过程是怎样的?这个过程中涉及哪些因素?

Sam Altman:

那个周末,Brett 和 Larry 的决定在一连串紧张气氛中做出了,那真是个情绪起伏的过山车周末。我们在波折中努力协商,希望确定新董事会成员,这些人选要得到这里的执行团队和老董事会成员的双重认可。其实,Larry 就是老董事会推荐的人之一。至于 Brett,我记得在那疯狂周末之前,我就提过他,但他当时太忙了,没兴趣。之后,我们迫切需要支持,在 [ 不清晰 00:09:22] 时更是如此。我们也考虑了很多其他人选,但我感觉如果我要重返岗位,就必须换上新的董事会成员。我认为自己无法再次与原来的董事会以同样的方式合作,虽然我们最终还是决定,也深表感激 Adam 能够留下。但在各种可能的配置下,我们最终决定要组建一个三人董事会,并在极短的时间内找到两名新董事会成员。

所以那些决策实际上是直接做出的……在战场上就是这样,你没办法去设计一个严格的流程。但对于之后加入的新董事会成员,以及未来我们还会继续增加的成员,我们确实设立了一些重要的标准。我们希望董事会能够涵盖不同的专业领域。招聘执行官的时候你可能只需要他们在一个岗位上做好,但对于董事会而言,它们需要在治理和思考方面表现出全方位的能力。Brett 说过一句我特别认同的话,那就是我们希望以整批的方式招募董事会成员,而不是一次聘用一个人。我们努力要实现的是吸纳一批人,他们能够带来非营利组织方面的专业知识、企业运营的专长,以及扎实的法律和治理专业知识。

Lex Fridman:

那么,董事会成员个人的技术水平重要吗?

Sam Altman:

不是每个董事会成员都需要这样做,但肯定有些人是必须的。这正是董事会职责的一部分。

Lex Fridman:

人们可能还不太了解 OpenAI 的有意思的一面,我自己肯定也不够了解,那就是运营业务的所有那些细枝末节。当人们想到董事会,再想到那些戏剧化的元素,他们首先想到的是你。他们会思考,如果你们开发出通用人工智能(AGI)或者其他一些具有巨大影响的产品,并且成功将它们推向市场,那么你和董事会之间会有怎样的对话呢?他们还会考虑,在这种场景下,要组建一个怎样的团队来进行决策和讨论?

Sam Altman:

你看,我认为董事会里肯定需要一些技术专家。同时,也需要那些会考虑到:“我们怎样部署这项技术才能最大限度地造福人类?”的人。还需要那些有着截然不同视角的人。我想,像你我这样的人可能会犯的一个错误就是以为只有技术上的理解才是关键,这确实是你希望董事会讨论的内容之一,但还有很多其他方面,比如这项技术将如何影响社会和人们的生活,这些你也同样希望能够在董事会中得到体现。

Lex Fridman:

你是在审查他们过去的成就记录,还是只是跟他们进行交流?

Sam Altman:

过去的业绩确实很关键。你当然会有很多对话,但在某些角色上我会完全不去看过去的业绩,只看他的上升势头,忽略掉 Y 轴的截距。

Lex Fridman:

谢谢你。感谢你用数学的方式向观众阐明问题。

Sam Altman:

作为董事会成员,我确实更在乎 Y 轴截距。在这方面,我觉得对于过往业绩的记录能说的深入之处很多,而且经验是一种很难替代的东西。

Lex Fridman:

你是尝试用一个多项式函数还是指数函数来拟合这个成绩记录?

Sam Altman:

这个比喻有点牵强。

Lex Fridman:

好的,你之前提到了那个周末经历的一些低谷时刻。在心理上,你都遇到了哪些挫折呢?你有没有想过干脆去亚马逊雨林,尝试一下阿亚瓦斯卡(一种致幻剂),然后就此隐匿天涯呢?

Sam Altman:

这段时间真的很糟糕。不过也有一些非常棒的时刻。我的手机简直要爆炸了,一直收到来自我日常工作的伙伴们,以及那些十年未见的老朋友们发来的暖心信息。我应该更加珍惜这些时刻,但当时我忙于应对危机,没能充分感受到这份温暖,不过这确实让人感到很棒。总体而言,那个周末还是非常痛苦的。它就像是一场在公众视线中打响的战斗,出乎意料地让我筋疲力尽,远比我预期的要累。通常争斗本就令人筋疲力尽,而这场尤其如此。董事会在周五下午做了这个决定。我真的很难获得任何答案,但我也觉得,既然董事会有权这么做,那么我就应该花点时间好好想想我接下来想要做什么。不过,我会试着在这件事中寻找隐藏的幸运。

我当时心想,我的目前职位在 OpenAI,或者至少过去是,负责运营一个规模相当大的公司。我一直最喜欢的部分就是与研究者们共事。然后我就在想,对,我完全可以去从事一项高度聚焦的 AGI 研究工作。这个想法让我感到很兴奋。当时我甚至没意识到,所有这些努力可能会化为泡影。那是在一个星期五的下午。

Lex Fridman:

所以你已经接受了这一的终结……

Sam Altman:

非常快,真的非常快。我确实经历了一段时间的迷茫和愤怒,但这种状态转瞬即逝。到了周五晚上,我已经在跟人讨论下一步该怎么做,而且我对此感到振奋。我记得是周五晚上,我首次听到我们执行团队的人说:“嘿,我们将会反击。” 然后,我带着兴奋的心情上床睡觉了,心想,向前冲。

Lex Fridman:

你能睡着吗?

Sam Altman:

不多。有一段蛮奇怪的时期,大概四天半吧,我几乎没怎么睡觉,也没怎么吃东西,但是依然精力充沛。你会在战时了解到一些关于肾上腺素的奇特现象。

Lex Fridman:

所以你已经接受了,这个被你视为孩子的 OpenAI 会有失败的一天。

Sam Altman:

我当时对那个新东西特别激动。就那么想着,“行吧,这玩意儿确实疯了点,但管它呢。”

Lex Fridman:

这真是个很棒的应对策略。

Sam Altman:

那天周六早上,两位董事会成员给我打电话说,“嘿,我们并不是想搅局。我们不打算在这里大把存储价值。我们能谈谈你回归的事情吗?”起初,我真的不想回去,但后来我又仔细思考了一番,我意识到我非常关心这里的人,我的合伙人和股东们。我爱这家公司。于是,我想了想,对他们说:“好吧,不过我有我的条件。”而那整个周末,是最让人痛苦的时刻,我不断地反思,也被告知,而且不只是我,我们整个团队都在想,我们正在努力维持 OpenAI 的稳定,而此时全世界似乎都在试图将其分崩离析,到处都有人在尝试挖角。

我们一直被告知,“好了,我们快要弄完了。我们快要完成了。我们只需要再多一点点时间。”这让人非常困惑。直到周日晚上,我几乎每隔几小时就会以为我们就要结束了,我们能找到方法让我回去,让一切恢复原状。但董事会随后任命了一位新的临时CEO,那一刻我感觉真的很难受。那是整件事中最低谷的时刻。我跟你说,虽然感觉非常痛苦,但我在那整个周末都感受到了很多爱。除了那个周日晚上的瞬间,我不会说我的感受是愤怒或恨,相反,我感受到了来自人们的爱,也对他们满怀爱意。那很痛苦,但那个周末的主导情绪是爱,而不是恨。

Lex Fridman:

您曾对 Mira Murati 给予高度评价,说她在那些关键的、平静的时刻给予了特别的帮助,就像您在推文中提到的那样。或许我们可以稍微绕个弯。您最欣赏 Mira 的什么特质呢?

Sam Altman:

她在那个周末的混乱中表现得非常出色,但人们往往是在危机时刻,无论好坏,才会关注领导者的表现。然而,我真正看重的是,在一个平凡的周二早上 9 点 46 分,在日常的平淡和繁琐中,领导者如何行动。一个人怎样出席会议,他们作出决策的质量如何。这就是我提到的“静默时刻”的含义。

Lex Fridman:

绝大多数的工作都是日复一日,在一次次会议中慢慢推进的。只需要聚精会神,做出优秀的决策就行了。

Sam Altman:

是的,看吧,你想要花费过去二十分钟探讨的那件事——我明白——是关于那个非常戏剧化的周末,但那并不是 OpenAI 的核心所在。OpenAI 的重心实际上在于其余的七年。

Lex Fridman:

嗯,对。人类文明可不止是纳粹德国侵略苏联这档子事,但这依旧是大家特别关注的焦点。

Sam Altman:

没错

Lex Fridman:

这为我们提供了洞察人性的窗口,包括人性的极致以及或许正是在那些时刻,人类文明的某些毁坏和伟大成就得以显现,因此这非常具有启发性。

Part 2:Ilya Sutskever 去哪了

Lex Fridman:

那么关于 Ilya 的问题,我可以问你吗?他是不是被关在某个秘密核设施里作为人质?

Sam Altman:

No

Lex Fridman:

那么普通的秘密基地呢?

Sam Altman:

No

Lex Fridman:

一个不涉密的核设施怎么样?

Sam Altman:

肯定也不是

Lex Fridman:

这事儿已经有点成梗了。你跟 Ilya 认识很长时间了对吧。他显然卷入了那场董事会的风波。现在你俩的关系怎样?

Sam Altman:

我非常喜爱 Ilya,对他也有着极大的敬意。关于他的计划,我现在真的没什么可以透露的。这应该由他来回答。不过,我真心希望我们能够持续合作,至少在我的职业生涯剩余时光里。他比我年轻那么一点,也许他会比我工作更长久一些。

Lex Fridman:

有个流传的段子说,他看到了一些东西,好像是他看到了AGI,这件事让他内心充满了忧虑。Ilya 到底看到了什么?

Sam Altman:

Ilya 从来没有见过通用人工智能(AGI)。我们任何人都还没有。我们也还没造出通用人工智能。不过,伊利亚身上有很多让我敬佩的品质,其中一个就是他非常重视关于通用人工智能及其广泛的安全问题,这包括它可能对社会造成的影响。随着我们不断地取得显著进展,这几年我最多的时间都是和伊利亚一起讨论这将意味着什么,我们需要怎么做才能确保做得正确,以保证我们的使命能够成功完成。所以,虽然伊利亚没有见过 AGI,但他对确保我们在这个过程中行得正、走得稳的深思熟虑和忧虑,对人类来说是一份宝贵的贡献。

Lex Fridman:

我过去与他有过不少交流。我觉得,每当他谈到技术,他总是持有一种长远的思考方式。他不太关心一年内会发生什么,而是在想象10年后的情况,基于首要原则去思考:“好的,如果这东西真的能够扩展开来,那么基本要素是什么呢?会有哪些发展?”这种思考方式为他们在关注所有的安全问题等方面打下了坚实的基础,这也让和他对话变得非常吸引人。你了解他为何近来鲜有发声吗?他是不是在做些灵魂深处的思索呢?

Sam Altman:

再说一次,我不想代表 Ilya 发言。我觉得你应该亲自去问问他。他绝对是个思考深刻的人。我认为 Ilya 始终在以非常积极的方式进行灵魂探索。

Lex Fridman:

是的,对。他还真懂得沉默的魅力。我听说他其实挺逗的,不过我个人还没机会见识过这一面。

Sam Altman:

当那种情况发生时,感觉真的很温馨。

Lex Fridman:

我还没遇到过傻傻的 Ilya,不过我也挺期待这一天呢。

Sam Altman:

我最近和他一起去了个晚宴,他当时正在和一只小狗玩,心情非常轻松、嬉皮,真的很让人觉得亲切。我当时就想:哇~这面是 Ilya 不太给外界看到的。

Lex Fridman:

那么,就这整桩事情而言,你对董事会的架构满意吗?

Sam Altman:

Yes

Lex Fridman:

… 关于这一切及其走向,你有何看法?

Sam Altman:

我对新董事会的组建感到非常满意。在 OpenAI 的架构方面,董事会的职责之一就是进行审视,看看我们如何能够加强其结构的韧性。我们的首要任务是先确定新的董事会成员,但显然在这个过程中,我们对结构的认识有了显著的进步。我认为我没有什么特别深刻的见解。这是一段极其混乱和痛苦的经历。我觉得这就像一场怪异的完美风暴。这对我来说预示着未来的挑战,随着赌注的不断升高,我们需要有更为强健的治理结构、流程和团队。我很庆幸这一切在我还年轻时发生,但实际上这是一次异常艰难的经历。

Lex Fridman:

这会不会使你在信任别人方面变得更加犹豫呢?

Sam Altman:

Yes

Lex Fridman:

就个人而言?

Sam Altman:

是的,我自认为是一个极度信任他人的人。我一向坚持的人生哲学是:不必太过担忧,不必在意那些偏执的疑虑和极端的可能性。这样做的代价可能是偶尔吃点小亏,但作为回报,你得以放松警惕地生活。然而这件事对我来说真的是晴天霹雳,我措手不及,它确实改变了我。我并不喜欢这种改变,但它确实影响了我对于对人默认信任的态度以及对潜在坏情况的规划。

Lex Fridman:

你得在这方面多加留心。你担心自己会变得过于愤世嫉俗吗?

Sam Altman:

我不害怕自己会变得过于愤世嫉俗。我觉得我本性里就很不愤世嫉俗,但我担心,自己可能逐渐丧失那种对别人的本能信任。

Lex Fridman:

我其实还没把握好,对于那些正致力于开发通用人工智能的人而言,是信任模式更为适宜,还是持怀疑态度更好。这条路你走得真有意思。不过说到架构,我其实更关注人这一层面。你怎么做到让自己周围都是那些既在打造酷炫东西,又能作出睿智选择的人?因为你挣的钱越多,这件事的影响力也就越大,周围的人就越发变得诡异。

Sam Altman:

我觉得你完全可以就董事会成员的问题,以及我应该给予的信任程度,或者说我应该采取不同的做事方式提出种种意见。但如果说到这里的团队,我相信你会给我一个非常高的评价。对于那些我每天都要共事的人,我心中充满了巨大的感激、信任和尊重。我认为,让自己被这样的人包围是极其重要的。

Part 3:Elon Musk 的诉讼

Lex Fridman:

我们共同的朋友 Elon Musk 起诉了 OpenAI。在你看来,他批评的核心问题是什么?他有多少批评是站得住脚的?又有多少是误会或不对的?

Sam Altman:

我真的不清楚这到底是怎么一回事。最初,我们只认为自己将成为一个研究实验室,对这项技术未来的发展毫无头绪。那是七八年前的事了,现在想回忆起当时的情况真的很难,那个时候语言模型还没成为热门话题。我们甚至还没想到要开发一个 API 或者卖聊天机器人的访问权限。我们也没有想过要将其产品化。当时我们的想法就是,“我们就去做研究吧,至于研究成果能用来做什么,我们并不清楚。” 我想在探索完全新颖的事物时,你总是摸着石头过河,制定一些假设,而这些假设大多数最终都被证明是错误的。

接着,我们意识到我们需要做出一些不同的事情,并且需要巨额的资本。所以我们就在想,“行吧,当前的结构显然不太合适。我们该怎样去补救?”补了一次又一次,最终我们得到的东西确实让人不禁挑挑眉毛,至少可以这么形容。不过,我觉得我们在每一步都做出了合理的决策。这并不是说如果能有机会回到过去,有个先知在旁边指导,我就不会选择完全不同的做法。不过,当时我们手边可没有先知。不管怎样,至于埃隆真正的动机是什么,我真的不清楚。

Lex Fridman:

在 OpenAI 的博客文章中,他们给出的回应主要集中在为什么他们认为不应该继续推出完整版 GPT-3 API 的理由。他们提到了对模型潜在被滥用的担忧,以及他们认为现阶段需要加强监管和提高透明度。此外,他们也谈到了对于 AI 长期影响的责任感,并表示愿意与其他机构合作,确保 AI 的使用是安全和有益的。

Sam Altman:

哦,我们刚刚提到埃隆表达了一系列看法。这里是我们的陈述,或者说不是我们的陈述。这是对事件经过的一个描述。我们试图不带入个人情绪,只是陈述,“这就是历史。”

Lex Fridman:

我觉得 Elon 对你刚才提到的一点有些误解,也就是你们当时所面临的不确定性有多大。你们只是一帮小研究团队,疯狂地讨论着 AGI,而那时候,所有人都觉得这个想法很可笑。

Sam Altman:

Elon 不久前还在疯狂地谈论发射火箭,那时候大家都对这个念头嗤之以鼻,所以我觉得他对这件事会有更多的共鸣。

Lex Fridman:

我确实认为这里面有一些个人的因素。OpenAI 和这里的很多了不起的人决定与 Elon Musk 分道扬镳,因此存在一些个人层面的-

Sam Altman:

Elon 选择了离开

Lex Fridman:

你能具体说说吗?那种选择分道扬镳的情形?

Sam Altman:

他觉得 OpenAI 快要失败了。他想要完全控制权来挽救局面。但我们想要继续沿着现在 OpenAI 所走的方向前进。他还想要特斯拉能够开展一个 AGI (人工通用智能)项目。他在不同时间点有过多种想法,包括把 OpenAI 变成一个他能控制的盈利性公司,或者是让它与特斯拉合并。我们并不同意这样做,于是他决定离开,这也挺好的。

Lex Fridman:

所以你的意思是,正如那篇博客文章里提到的,他想要的是 OpenAI 能像被特斯拉收购那样,或许是与微软的合作方式有点相似,或者说可能是一种更为戏剧化的形式。

Sam Altman:

我的记忆里,那个提议就是这么回事,就是说,被特斯拉收购,然后让特斯拉完全掌控它。我很确定提议就是这个意思。

Lex Fridman:

当时,Elon,OpenAI 中的 “open” 对你意味着什么?Ilya 在邮件往来中已经谈论过这个话题。那时候它对你意味着什么?现在又是怎样的意义呢?

Sam Altman:

说到如果能带着一个“神谕”重来,我可能会选一个不同的名字。OpenAI 正在做的众多事情中,我认为最重要的就是免费地将强大技术交到人们手中,作为一项公共福利。我们不在我们的服务上投放广告——

Sam Altman:

作为公共利益的一部分,我们没有在免费版本中投放广告,也没有通过其他途径来盈利。我们的出发点只是我们的使命 —— 免费为人们提供越来越强大的工具,并且让他们去使用。我觉得这样的开放对我们的愿景至关重要。如果我们能够提供优秀的工具,让人们学会使用,或者他们甚至可以自学成才,然后用这些工具为彼此打造一个美好的未来,这将是意义重大的。所以,如果我们能持续向世界提供免费或低成本的强大 AI 工具,这将极大地推进我们的使命。至于是否开源,嗯,我认为我们应该对一些东西开源,而对其他的则不必。这件事往往会变成一种信仰之争,很难保持中立,但我相信寻找平衡点才是正确的做法。

Lex Fridman:

所以他就跟我说:“如果你们把名字改成 CloseAI ,我就撤销诉讼。” 我是说,难道这就要成为一个围绕名字的梗,在这片战场上互相对决了吗?

Sam Altman:

我觉得这体现出 Elon 提起诉讼的严肃态度,说实话,这种说法真是让人吃惊。

Lex Fridman:

你要是觉得我错了就纠正我,但我个人觉得这场官司在法律上并不算严重。它更多的是在向人们传递一个关于未来通用人工智能(AGI),以及目前在这个领域领先的公司的信息。

Sam Altman:

看,我的意思是,在人们指出这样做有点伪善之前,Grok 是没有开源过任何东西的。然后,他宣布 Grok 将在本周开始开源一些东西。我认为对他来说,这件事并不仅仅是关于是否开源的问题。

Lex Fridman:

嗯,我们会讨论一下开源和非开源的话题。我倒是觉得,批评一下竞争对手挺好的,适当地说点坏话也无妨。但这得是建立在友好竞争的基础上,比起来,我个人真是非常讨厌打官司。

Sam Altman:

“看,我认为整个事情对于一个建造者来说是不应该的。我尊敬埃隆,他是我们时代最伟大的建造者之一。我知道他清楚地感受过被那些仇恨者攻击的滋味,这让我看到他这样做时更加感到悲哀。”

Lex Fridman:

是的,他可以说是史上最杰出的创造者之一,甚至可能是有史以来最卓越的建设者。

Sam Altman:

这让我感到悲伤。我觉得很多人也有同样的感受。一直以来,有那么多人仰慕他。我在某个访谈里说过,我怀念曾经的 Elon,结果收到了好多回信,他们都说:“你的话完全表达了我的心声。”

Lex Fridman:

我觉得他就应该赢。他应该让 X Grok 打败 GPT,然后 GPT 又反过来打败 X Grok,就这样互相竞争,对大家来说都是一件美事。但说到开源的话题,你认为有很多公司在探索这个概念吗?这挺有意思的。我倒觉得 Meta 出乎意料地在这个领域走在了前面,或者至少在这场棋局中,它是第一个真正开放源码的。当然了,他们开源的并不是最尖端的模型,不过他们开源了 Lama。谷歌也在考虑开放一个规模较小的版本。开源有什么优缺点?你自己有没有思考过这个问题?

Sam Altman:

是的,我确信开源模型绝对有其立足之地,尤其是那些人们可以在本地执行的体积较小的模型,这方面确实存在巨大的需求。我想未来会出现一些开源模型,也会有一些闭源模型。这一点上,它并不会与其他生态系统有所不同。

Lex Fridman:

我听了所有关于这起 诉讼 和其他类似 事情的 播客。他们更加关注的 是, 从非盈利到设定 盈利上限 这一变化所树立的 先例 对其他 初创企业 会有什么影响?这会是一个怎样的——

Sam Altman:

我强烈不建议任何想要先作为一个非盈利组织起步,之后再加入盈利性分支的创业公司这么做。我真的非常不推荐这种方式。我觉得我们这里也不会创造这样一个先例。

Lex Fridman:

好的。那么大多数初创公司应该只是——

Sam Altman:

当然可以。

Lex Fridman:

还有一点 ——

Sam Altman:

如果我们知道会发生什么,我们肯定也会那么做的。

Lex Fridman:

嗯,理论上来说,如果你在这里的舞跳得够美,或许能享受到一些税收优惠之类的东西,但是……

Sam Altman:

我觉得大部分人对这些事情的看法不是这样的。

Lex Fridman:

如果你这样做,创业公司根本不可能省下一大笔钱。

Sam Altman:

不,我觉得有些法律会让这件事变得相当棘手。

Lex Fridman:

你期望与 Elon 之间的关系如何发展?这种紧张、这场舞蹈,你希望它会怎样?假如从现在起向前看1、2、3年,你和他在私人层面上的关系——像是友情、友好竞争,以及所有这些互动。

Sam Altman:

是的,我非常尊敬 Elon,我希望在未来的岁月里,我们能保持一段友好的关系。

Lex Fridman:

是的,我希望你们这个月能够保持友好的关系,一起在竞争中取得胜利,共同探讨这些有趣的理念。我猜会有些关于人才或其他方面的竞争吧,但关键是要保持友好竞争的氛围。就去创造一些酷炫的东西吧。埃隆在这方面确实很在行,你也不赖。

Part 4:Sora

Lex Fridman:

讲到厉害的玩意儿,Sora 真的很吸引人。我有一百万个问题想问你。首先,它的确令人称奇,无论是在产品层次上,还是在哲学层次上。那么我就从技术/哲学的角度来提问吧,你认为它比如说相比于 GPT-4,在理解世界这方面是更胜一筹还是稍逊一筹呢?在训练这些补丁时,它对世界模型的理解与仅仅基于语言标记有什么不同吗?

Sam Altman:

我觉得这些模型对世界模型的理解,实际上比我们多数人给予的认可要深。因为它们对某些事情的理解是如此的清晰明了,它们对其他事情的无知或错误就显得尤为突出,人们很容易一眼看穿它们的不足,然后说:“啊,这全是假的。” 但实际上并非全是假象。有些部分是有效的,有些部分则不然。

我还记得第一次看 Sora 视频时的情景,你会看到有人走过来,挡住画面几秒钟后又走开,而被遮挡的东西依旧在那儿。我当时就想,“噢,这效果挺不错的。”或者,有时候,你能看到它展现出一系列动作中物理规律的那种精准,真的让人印象深刻。但说到底,这些模型只会越来越强大,这种进步还会继续。如果你关注一下从 DALL·E 1 到 2 再到 3,再到 Sora 的发展轨迹,会发现有很多人在每一个版本上都曾嘲讽,说它做不到这个,做不到那个,但现在看看它的表现吧。

Lex Fridman:

嗯,你刚才提到的遮挡问题,其实就是要对世界的三维物理现象建模,而且要做得足够好,才能捕捉到这类情况。

Sam Altman:

嗯……

Lex Fridman:

你可以跟我说说,为了应对遮挡问题,世界模型需要做什么呢?

Sam Altman:

我想说的是,它在处理遮挡方面表现得相当出色。而说它背后有一个很强大的三维世界模型,这个说法就有些牵强了。

Lex Fridman:

但你觉得仅凭这些二维训练数据的方式就能达到那个目标吗?

Sam Altman:

看起来这种方法能出乎意料地走得很远。我不太想去猜测它能克服哪些限制,哪些又不能,不过……

Lex Fridman:

你发现了系统的哪些有趣局限性?我的意思是,你分享过一些挺有趣的例子。

Sam Altman:

有各种各样的有趣现象。比如,视频中的猫咪在任意位置突然长出一条额外的肢体。你可以随意挑选,但现在仍然存在许多问题,有很多弱点。

Lex Fridman:

你觉得这是这种方法根本上的缺陷呢,还是说只要有更大的模型、更细致的技术处理或者更高质量、更多量的数据,就能解决“猫发芽”这类问题?

Sam Altman:

我对这两点都持肯定态度。我认为这种方法给人的感觉与我们通常的思考和学习方式大相径庭。同时,我也相信随着规模的增加,它的效果会进一步提升。

Lex Fridman:

就像我提到的,LLMS 有 token,文本 token,而 Sora 则有视觉 patch。它把所有的视觉数据,包括各种不同的视频和,都转换成了 patch。训练过程可以说完全是自监督的吗?还是会涉及到一些手动标注的工作?在整个过程中,人的参与程度是怎样的?

Sam Altman:

我是说,不详细谈论 Sora 的方法,我们的工作就已经利用了大量的人类数据。

Lex Fridman:

但不是互联网级别的数据量吗?这就意味着需要大量的人力。Sam,”大量”这个词可不简单。

Sam Altman:

我觉得在这种情况下用“很多”这个词挺合适的。

Lex Fridman:

因为对我来说,“很多”嘛……你听我说,我是个内向的人,要是和三个人一起出去,对我来说人就已经够多的了。要是四个人,那简直就是超负荷了。不过我猜你指的“很多”可能是比这……

Sam Altman:

对,确实是有不止三个人在给这些模型做数据标注工作。

Lex Fridman:

好的,对。但归根到底,有大量的自监督学习。就像你在技术报告里提到的,我们处理的是互联网规模的数据。这实在太美妙了……它就像诗。也就是说,这些数据并非由人工标注,可以认为是以这种方式自监督的吗?

Sam Altman:

嗯,对。

Lex Fridman:

然后问题在于,互联网上到底有多少数据可以用于这种自我监督学习的方式,只要我们能弄清楚自我监督的具体细节。你有没有考虑过,更进一步公开这些细节?

Sam Altman:

我们有的。你是特指信息的来源吗?

Lex Fridman:

出处特别指出。因为很有趣,那些让语言模型如此神奇的元素现在能否开始转向视觉数据呢?而这一过程需要怎么做呢?

Sam Altman:

我感觉是这样没错,不过我们还得加把劲,干更多的活儿。

Lex Fridman:

当你这么问的时候,是在担心些什么呢?为什么会对发布这个系统感到忧虑?可能会有哪些潜在危险?

Sam Altman:

我是说,坦白讲,在发布系统之前,我们必须确保它的效率达到人们期望的规模,这样才能确保系统能够正常工作,这一点我不想轻描淡写。在这方面还有大量的工作需要完成。但你可以想象到,像深度伪造、错误信息这样的问题。我们试图作为一家深思熟虑的公司去思考我们推向世界的产品,你不用费太多心思就能想到这些事情可能怎么走向不好的方向。

Lex Fridman:

在这里我们面临很多棘手的问题,你所处的领域非常艰难。你觉得按照版权法,训练人工智能算不算公平使用呢?

Sam Altman:

我觉得这个问题的底层问题是,创造有价值数据的人们是否应该得到某种形式的经济补偿,因为他们的数据被利用了。我认为答案是肯定的。我目前还不清楚具体的解决方案是什么。人们提出了各种各样的点子,我们也尝试过一些不同的模式。但打个比方,如果我是一位艺术家,A,我会希望有选项可以让别人不使用我的风格来创作艺术作品。而且,B,如果别人确实用了我的风格来创作,我希望这背后能有一套经济模式来确保我的利益得到体现。

Lex Fridman:

是的,就像是从 CD 到 Napster,再到 Spotify 的那种转变。我们得找出一种可行的模式。

Sam Altman:

模型会变,但人们得拿到钱。

Lex Fridman:

好吧,如果我们把视角再拉得更远一些,应该有某种动力激励人类继续去做那些牛逼的事儿。

Sam Altman:

在我所担心的一切中,我相信人类会创造出非常酷的东西,并且社会终将以某种方式来奖励这些创造。这似乎已经深植于我们的本性之中。我们渴望创造,我们渴望证明自己的价值,我们希望以各种方式来获取认同和地位。我认为,这些特质是不会消逝的。

Lex Fridman:

但回报可能不是金钱上的利益,而可能是名望或是对其它酷事的认可和赞誉。

Sam Altman:

也许在金融方面还有其他方式。我再次强调,我认为我们还未见到经济系统发展的最终模式。

Lex Fridman:

是的,不过艺术家和创作者们都挺担心的。当他们看到 Sora,他们就会惊呼,“我的天哪。”

Sam Altman:

艺术家们在摄影问世的时候也是非常忧心忡忡的,后来摄影却演变成了一种全新的艺术形式,有人通过摄影赚到了大钱。我相信类似的事情还会不断上演。人们会不断地用新工具探索新的创作方式。

Lex Fridman:

如果我们只是随便在 YouTube 或者类似的平台上搜一搜,你觉得在接下来的五年里,会有多少内容是由类似 Sora 这样的 AI 生成的呢?

Sam Altman:

人们总是在讨论,五年内人工智能会取代多少工作岗位。他们的出发点通常是,目前的工作中有多大比例会完全被人工智能所替代?但我个人的看法并不是围绕人工智能会做多少份工作,而是在未来某个时间点,它们能执行多少种任务。想一想,经济活动中的所有五秒钟、五分钟、五小时乃至五天的任务,有多少是人工智能可以完成的?我认为,这个问题比单纯问人工智能能取代多少工作要更加有意义、影响深远和重要。因为人工智能是一个工具,它将在不断延长的时间跨度内、以越来越高的复杂度来执行越来越多的任务,这让人类能够在更高层次上进行抽象思考。也就是说,人们在自己的工作中可能会变得更加高效。而这种变化,随着时间的推移,不仅仅是量的改变,它还意味着质的变化——我们能在脑海中构思何种问题。对于 YouTube 上的视频,我觉得情况也是如此。很多视频,或许是大多数视频,在制作过程中会运用到人工智能工具,但它们的核心仍然是由人来思考、构思、负责部分执行,并指导整个项目的运作。

Lex Fridman:

是的,这真的非常有趣。我是说,这确实有点吓人,但去想象这一点真的很吸引人。我倾向于认为,人类喜欢观察其他人类或者说其他有人性的生物——

Sam Altman:

人们真的很在乎彼此。

Lex Fridman:

是的,如果出现了比人类还酷、还厉害的东西,人们可能会关注两天,但之后他们又会回归去关心人类的事务。

Sam Altman:

这看起来似乎是根深蒂固的。

Lex Fridman:

这就是围绕棋局的整个问题,“哦,是的”,但现在我们还是得继续下棋。咱们得视而不见那个摆在眼前的事实:比起人工智能系统,人类下棋实在是太菜了。

Sam Altman:

我们还是会开赛车,而且现在的车速比以前快多了。我的意思是这样的例子有很多。

Lex Fridman:

是的,或许它就类似于 Adobe 套件里的一种工具,能够大大简化视频制作这些流程。

听着,我真的不喜欢站在镜头前。如果我能想出一个办法避免露面,我会非常乐意的。不过不幸的是,这可能还需要一段时间。现在我们正在研究生成面部图像的技术,虽然进展顺利,但要在视频中生成特定人物而非通用面孔,这个过程还是挺棘手的。

Part 5:GPT-4

Lex Fridman:

让我来问问你 GPT-4 的事情。问题真的好多。首先,它同样令人惊叹。回头看,GPT-3、GPT-5 和 GPT-4 这几个版本很可能会被认为是历史性的转折点,这些版本塑造了 ChatGPT。

Sam Altman:

可能第五次会成为转折点。我不确定。往前看,这真的很难说。

Lex Fridman:

我们永远也预测不了。这就是关于未来最让人头疼的事,太难以预测了。但是对我个人而言,回顾历史,GPT-4 和 ChatGPT 实在是太让人震惊了,它们在历史上都留下了深刻的烙印。那么,请允许我问你,你认为 GPT-4 和 GPT-4 Turbo 最令人印象深刻的能力有哪些?

Sam Altman:

我觉得这挺糟心的。

Lex Fridman:

典型的人呐,也是这样,很快就会习惯一件棒极了的东西。

Sam Altman:

不,我认为这确实是一件非凡的事情,但与我们所要实现的目标和我坚信我们最终能够达成的境界相比,在 GPT-3 面世那会儿,人们都说:“哦,这太令人惊叹了,简直是技术的奇迹。”的确,当时它非常了不起。但现在出现了 GPT-4,再回头看看 GPT-3,你就会觉得:“天哪,这简直糟糕透了。”我预计 GPT-5 和 GPT-4 之间的差距将和 GPT-4 与 GPT-3 的差距一样大。我觉得,我们的职责就是要领先未来几年的视野,记得我们现在拥有的工具回头看来可能会显得相当逊色,正是这种认知驱使我们确保未来变得更加美好。

Lex Fridman:

GPT-4 在哪些方面最让人失望?我的意思是——

Sam Altman:

它最擅长做些什么呢?

Lex Fridman:

它能做到的最棒的事情是什么呢?而这些事情的局限性又在哪里,让你会觉得它很差,因此又让你对未来充满了启迪和期望呢?

Sam Altman:

我最近更多地把它当作一种头脑风暴的搭档。

Lex Fridman:

是的。

Sam Altman:

它有一丝令人震惊的神奇。当人们谈起它的作用时,他们会说:“哦,它帮我提高了编程效率。它让我的写作速度更快、质量更好。它能帮我将一种语言转换成另一种。”所有这些都令人称奇,但它在创意头脑风暴方面的表现——比如,“我得给这个东西取个名字。我需要换个角度思考这个问题。我不确定接下来该怎么办”——我认为这展现了一丝令我期待已久的东西,希望将来能看到更多这样的场景。

你能略见一斑的是,当我帮助处理一些长远的任务,把它们拆解成多个步骤,然后执行其中几个,或许是上网搜索资料,或是编程之类的活儿。这个过程要是能成功,虽然并不常见,但确实感觉挺神奇的。

Lex Fridman:

与人不断地来回交流,对我来说非常有帮助。你指的是什么-

Sam Altman:

经过不断的反复与人类沟通,当它能够独立完成一个包含 10 个步骤的问题时,这样的互动就会变得更加密集。

Lex Fridman:

哦。

Sam Altman:

这通常不太常见,偶尔会有。

Lex Fridman:

增加多层次的抽象,还是你的意思只是依次进行的?

Sam Altman:

两者都很重要,既要把问题分解,也要在不同的抽象层面上进行思考,然后将这些思考重新组合起来。你看,我并不是想小看 GPT-4 所取得的成就,但同时我也不想过分夸大其重要性。我认为,我们正处于一个指数增长的曲线上,不久之后,我们会像现在回望 GPT-3 一样去回顾 GPT-4。

Lex Fridman:

这么说吧,我是说 ChatGPT 成了一个转折点,外界开始逐渐相信 OpenAI 内部已经有了一种信念的高涨。

Sam Altman:

当然可以。

Lex Fridman:

或许这儿有些信徒,但是当你想起——

Sam Altman:

在这方面,我真的觉得这将是一个转折点,让全世界许多人从怀疑变成了信服。这更多的是和 ChatGPT 的界面有关。说到界面和产品,我的意思还包括了模型的后续训练过程,以及我们如何调优使它对你更有帮助,以及怎样使用它,而不只是底层模型本身。

Lex Fridman:

这些因素中每一个到底有多重要呢?无论是底层模型还是 RLHF,又或者是其他的什么机制,它们都在调优过程中起着关键作用,让这个系统对于人类来说更具吸引力,使用起来更高效、更富有成效。

Sam Altman:

我是说,它们都极为重要。但是 RLHF,也就是训练后的那个步骤,我们在基础模型之上进行的那些额外工作——尽管这背后需要巨大的工作量——却是至关重要的,更不用提我们围绕它打造的产品了。在某种意义上来说,我们的确需要同时做好两件事情:一是发明底层技术,二是搞清楚如何把它转化成人们爱不释手的产品。这不仅仅关乎产品本身的实际工作,还涉及到一个完全不同的阶段——怎样让产品与用户的需求保持一致,并真正发挥出它的用途。

Lex Fridman:

你是如何做到让众多用户能够同时使用这项技术的规模化效应。所有这些方面,都得仔细斟酌。

Sam Altman:

这个嘛,但那确实是个大家都知道的难题。我们明白我们必须要扩大它的规模。我们得完成两项前所未有的任务,我得说这两个任务都是非常了不起的成就,之后还有很多像规模扩大这样其他公司之前也经历过的挑战。

Lex Fridman:

在 GPT-4 和 GPT-4 Turbo 之间,将上下文窗口从 8K 令牌增加到 128K 令牌,会有什么样的区别呢?

Sam Altman:

大部分情况下,人们并不总是需要128这么长的上下文。虽然若我们将目光投向遥远的未来,我们可能会有几十亿的上下文长度。你可以输入你所有的信息,你的整个历史记录,它将逐渐更深入地了解你,那会非常棒。但是就目前的情况来看,人们使用这些模型的方式并不是这样的。有时候,人们可能会在一篇论文中贴上大量的代码库,不过,大多数时候模型的使用并不涉及长时间的上下文。

Lex Fridman:

我喜欢这种感觉,就像是你的 “我有一个梦想” 演说。有朝一日,你会被依据你性格的全貌或是你一生的总体来评价。这很有意思。那么,你所期望的扩展的一部分,就是一个越来越全面的背景环境了。

Sam Altman:

我记得看过一段网络视频,数字可能记错了,但是内容大致是比尔·盖茨在谈论一款早期电脑的内存容量,可能是 64K,也许是 640K 之类的。那时候,大多数内存都被用作屏幕的缓冲区。他当时似乎无法真正理解,为什么未来的世界会需要计算机有几个 GB 甚至 TB 的内存。不过实际上,你总是要跟上技术发展的指数级曲线,我们总会找出利用更先进技术的方法。所以,我现在真的很难想象,未来有一天,上下文链接扩散到十亿设备的情景会是怎样的。它们可能不会真的达到那个数字,但在效果上可能会有那种感觉。不过我知道,一旦我们拥有了这种技术,就绝不会想要回到没有它的日子。

Lex Fridman:

是的,即便是现在说十年后可能是数十亿的规模,也可能显得很愚蠢,因为到那时它可能已经达到了数以万亿计的规模。

Sam Altman:

Sure

Lex Fridman:

将会出现一些使人感觉像是拥有无限上下文的突破性进展。不过即便是 120 字符,老实讲,我也没尝试过把它推到那个极限。可能的用例包括输入整本书或书的某些部分,比如论文之类的。你见过 GPT-4 有哪些有趣的应用场景吗?

Sam Altman:

我最感兴趣的不是任何我们可以讨论的具体应用案例,而是那些将其作为任何知识工作任务的默认起点的人,特别是年轻人。令人瞩目的是它在很多方面都能做得相当不错。你可以使用 GPT-V 来帮助你编写代码,进行搜索,或者编辑论文。对我来说,最有意思的是那些直接以此为他们工作流程开端的人。

Lex Fridman:

我对很多事情也有同样的兴趣。我用它作为读书的伙伴,它帮助我思考,尤其是当我阅读那些经典名著的时候。这方面,它写得真的很出色。我发现它在讨论那些资料丰富的话题时通常比维基百科还要好。它某种程度上更加均衡、更具细节。或许这只是我的个人感受,但它激发我进行比阅读维基百科条目更深层次的思考。我不完全确定为什么会这样。

你刚才提到了这种协作。我不确定魔法究竟在哪里——是在这儿、在那儿,还是在中间某处。这一点我还真不敢确定。但有个问题一直让我担心,那就是当我开始用 GPT 处理知识性任务时,我通常得事后去核实事实,比如检查它有没有编造一些假消息。你是怎么发现 GPT 能编出那些听起来特别有说服力的假信息的呢?你又是如何确保它所提供的信息是真实的?

Sam Altman:

这显然是我们极其关注的一个领域。我觉得随着即将推出的新版本,情况会有很大的改善,但我们仍需持续努力,今年是不可能完全解决所有问题的。

Lex Fridman:

确实可怕,因为随着技术越来越好,我们越发不去做事实核对了,对吧?

Sam Altman:

我在这个问题上有点矛盾。我觉得人们使用技术的能力,其实比我们通常认为的要高明多了。

Lex Fridman:

Sure

Sam Altman:

人们似乎已经真正理解了 GPT,还有这些模型有时候会出现错误信息。如果是关乎重大任务的事情,你就必须得核实一下。

Lex Fridman:

除此之外,记者们好像并没有意识到这点。我看到有些记者只是敷衍了事地用GPT-4。这个-

Sam Altman:

我有好长一串想要吐槽记者的事,但这个问题并不排在我的批评名单之首。

Lex Fridman:

嗯,我认为更大的批评可能是记者所面临的压力和激励机制,这使得他们不得不工作得非常迅速,而采用这种方法无疑是捷径。我真心希望我们的社会能够鼓励像……

Sam Altman:

我也是。

Lex Fridman:

……像是那些需要数天乃至数周辛勤努力才能产出的深度新闻报道。还有,有些报道以一种平衡的方式来呈现新闻,它们在批评的同时也能够赞扬他人,虽然通常都是那些批评性质的内容吸引点击。而捏造事实、标题党也能轻易地获得点击量。我敢肯定,一定有不少人讽刺地说:“嗯,所有那些充满戏剧性的东西肯定带来了大量点击。”

Sam Altman:

可能吧。

Part 6:记忆与隐私

Lex Fridman:

这是关于人类文明的一个宏观问题,我非常想要探讨一下。这正是我们应该更多地去庆祝的领域。你给 ChatGPT 赋予了拥有记忆的能力,你一直在尝试处理它与过往对话的记忆问题。同时,你还让它能够关闭记忆功能。有时候我真希望我也能做到这一点——根据需要打开或关闭记忆。我猜有时酒精似乎能起到这个效果,不过我觉得它并不是最理想的方法。你在这方面有什么发现吗?比如尝试记住对话或者选择不记住这种想法的时候。

Sam Altman:

我们目前在这个领域的探索还只是刚刚开始,但我觉得人们想要的,至少我个人想要的,是一个能够逐渐认识我并且随着时间的推移越来越有帮助的模型。这还仅仅是个起点。我认为我们还有很多其他的事情需要去做,但这正是我们想要追求的目标。你会期望使用一个模型,在你的一生中或是在你使用一个系统的过程中,它可能包含了多个模型,它们会随着时间的积累变得越来越优秀。

Lex Fridman:

是啊,解决这个问题有多困难?因为目前为止它更多的是记住一些琐碎的小知识点和个人喜好等等。但是关于记忆这块怎么样呢?你难道不希望 GPT 能记得你在十一月里经历的所有麻烦和所有的那些波折,然后你就可以——

Sam Altman:

嗯,对,对。

Lex Fridman:

因为现在你显然有些在回避它。

Sam Altman:

我不仅仅希望它记得这些东西,我还想要它能整合这些经验教训,并且在将来提醒我应该如何不同地行动,或者有什么需要留意的地方。我们每个人的一生中,都在不同程度上从经验中受益,我希望我的 AI 代理也能跟随这样的经验成长。想象一下,如果我们回溯并且假设有数万亿的上下文长度可供利用,如果我能把我这一生中与任何人的每一次对话都放进去,把所有的邮件往来都输入输出进上下文窗口,每当我提出问题时都能调用这些信息,那将是非常酷的一件事。

Lex Fridman:

是的,我觉得那会非常酷。不过有时候,当人们听说这个想法时,会对隐私感到担忧。你怎么看待这个问题?随着 AI 变得更加强大,它确实需要整合你所有的经历和数据才能给出建议。

Sam Altman:

我觉得答案很简单,就是给用户选择的权力。任何我想从我的 AI 代理那里删除的记录,我都希望能够自由删掉。如果我不想记得什么事情,我也应该可以选择忘记。在我们自己的 AI 的隐私与效用之间的权衡问题上,你和我可能有各自不同的见解。

Sam Altman:

…对于 OpenAI 在隐私与实用性之间如何权衡,大家有不同的意见,这是很正常的。但我觉得解决方法很直接,就是让用户来做选择。

Lex Fridman:

但公司应该对用户的选择有较高程度的透明度。因为以往有些公司在收集用户数据时态度含糊其辞,好像默许自己可以搜集所有数据似的,他们会说:“嗯,我们收集你的所有数据是理所当然的。我们用这些数据来做广告等,都是出于好意。” 但他们对这些细节并不透明。

Sam Altman:

这绝对没错。你刚才提到,我在刻意回避那些 11 月发生的事。

Lex Fridman:

只是逗你玩。

Sam Altman:

嗯,我的意思是,我经历了一件极其创伤的事,这件事确实使我长时间无法动弹。在那段艰难的时光里,最难的工作就是要坚持不懈地继续下去,因为我必须在处于震惊和疼痛中的时候回到这里,努力把事情的碎片一点点拼凑起来,而那时候似乎没有人真正关心。我的团队确实给了我一些宽容,我也没有发挥出我平时的工作水平。但确实有那么一段时间,要同时处理这两件事真的很困难。不过,有一天早上我醒来,想到:“这确实是我遭遇的一件恐怖的事情。我可以选择永远把自己视为受害者,或者我可以告诉自己这是我一生中触及的最重要的工作,我必须回过神来继续它。”这并不意味着我在压抑自己的感受,因为有时候我会在半夜醒来,脑海里依旧会回想起那些事情,但我确实感到我有义务要持续向前走。

Lex Fridman:

这么说真是妙不可言,不过可能还有些隐性的问题存在。我比较担心的是你提到的那种信任问题,担心人们变得过于多疑,而不是天真地信任每一个人或者大部分人,凭借直觉去判断。这确实是一场复杂微妙的平衡之舞。

Sam Altman:

当然可以。

Lex Fridman:

我的意思是,我在兼职时做了一些深入探究,特别是研究了泽连斯基政府和普京政府,以及他们在战时高压环境下的种种互动。结果就是彼此之间产生了不信任,大家都开始孤立自己,对世界的看法也变得不清晰了。这是所有人都会关心的问题。你看上去似乎游刃有余,从中吸取了宝贵的教训,感受到爱,并让这份爱激励着你,这很了不起,不过这种感觉可能还会残留心间。我有一些问题想问问你,关于你直觉上认为 GPT 能做什么、不能做什么。GPT 在生成每个 token 时,似乎会分配大约相同的计算资源。那么,在这种方式中,是否有空间给予更缓慢、更连贯的思考呢?

Sam Altman:

我觉得会有一种新的思考模式出现。

Lex Fridman:

它在架构上会和我们目前看到的 LLMs 相似吗?它是不是在 LLMs 基础上增加的一层?

Sam Altman:

我能想象出不少实施这个想法的方法。不过,我认为那并不像你想要探讨的问题那么重要。你的问题是,我们是否需要一种较慢的思考模式,这种模式下,答案不需要那么迅速地得出……可以这么说,从一种精神层面上讲,你希望一个人工智能能够在面对更复杂的问题时投入更多思考,而在遇到简单问题时则能够更快地给出答案。我觉得这点很关键。

Lex Fridman:

这是不是人类的一个常有的想法,我们就应该去努力思考?这种直觉是不是有误呢?

Sam Altman:

我觉得这个直觉挺有道理的。

Lex Fridman:

有趣。那么,一旦 GPT 升级到比如 GPT-7 这样的级别,它就能瞬间找出“费马定理的证明”了是吗?

Sam Altman:

你好像是想能为那些更难的问题分配更多的计算能力。我想,如果你问这样一个系统,“证明一下费马大定理”,和问“今天是什么日期?”相比,除非它已经知道并且记住了证明的答案,要不然它得自己去琢磨出来,这看起来肯定是需要更多计算资源的。

Lex Fridman:

但它能不能看起来基本上就像一个 LLM 在自言自语,是那种感觉?

Sam Altman:

或许吧。我的意思是,你能想象出很多可能有效的事情。但关于怎么做才是最合适或者最好的方式,我们目前还不清楚。

Part 7:Q*

Lex Fridman:

这让我想起了 Q* 背后那些充满神秘色彩的传说。这个神秘兮兮的 Q* 项目究竟是什么呢?它也在同一座核设施里面吗?

Sam Altman:

没有核能设施。

Lex Fridman:

嗯,拥有核设施的人总是这么说。

Sam Altman:

我特别希望拥有一个秘密的核设施,可惜并没有这么一回事。

Lex Fridman:

好的,没问题。

Sam Altman:

也许吧,总有一天。

Lex Fridman:

有一天吧?好吧。人总得有点儿梦想,不是吗?

Sam Altman:

OpenAI 并不擅长保守秘密。如果我们能够做到的话,那就太好了。我们一直受到很多泄密事件的困扰,真希望我们能有这样的本事。

Lex Fridman:

能谈谈 Q* 是什么吗?

Sam Altman:

我们还没准备好讨论那个话题。

Lex Fridman:

看,但这样的回答意味着我们有东西可以聊了。这很神秘,Sam。

Sam Altman:

我是说,我们涉猎的研究领域五花八门。我们之前已经提过,我们认为增强这些系统的推理能力是一个重要的发展方向,是我们很想深入探索的。到目前为止我们还没彻底攻克这个难题,但我们对此充满了极大的兴趣。

Lex Fridman:

会有类似 ChatGPT 那样的飞跃性突破,或者其他类似的重大进展吗?

Sam Altman:

这个问题问得好。我怎么看这个问题呢?挺有意思的。对我来说,这整个过程看起来都是相当连贯的。

Lex Fridman:

没错。你所谈到的,似乎是一个主题,那就是你们基本上是在沿着一个指数曲线逐步攀升。但从旁观者,也就是我这个角度来看,好像确实能感觉到有些跳跃性的进展。不过在你眼里,这些并不存在吗?

Sam Altman:

我真的在思考,我们是否该……一个重要的原因是,我们采用所谓的迭代部署方式,而不是秘密开发到 GPT-5,我们决定公开谈论 GPT-1、2、3 和 4。部分原因在于我觉得人工智能与意外这两者不应该搭界。而且,无论是世界、人类、机构,或者你愿意怎么称呼它们,它们都需要时间去适应和反思这些问题。我认为 OpenAI 最明智的举措之一就是采取了这样的策略,我们让全世界都关注这一进程,正视 AGI 的重要性,考虑在我们陷入紧迫境地、不得不匆忙作出决策之前,我们需要建立什么样的系统、结构和治理模式。

我觉得这样做非常棒。但是,像你和其他人还能感受到这些巨大飞跃的事实,让我想,或许我们应该更加渐进地发布我们的产品。我现在还不确定这究竟意味着什么,也没有现成的答案,但我们的目标绝不是给世界带来令人震惊的更新,恰恰相反。

Lex Fridman:

当然,能够做得更迭代会非常棒。我觉得这样对每个人都是一件美好的事。

Sam Altman:

但这正是我们所致力于的目标,也是我们公开宣布的策略。我觉得我们在某种程度上没能达标。也许我们应该考虑换个方式来发布 GPT-5 或类似的产品。

Lex Fridman:

比如用版本号4.71、4.72?人们通常都喜欢庆祝特别的日子,比如生日。我不确定你对人类了解多少,但他们会庆祝这些重要的时刻和里程碑。

Sam Altman:

我确实认识一些人类。人们确实对里程碑情有独钟。这点我完全能理解。我认为我们自己其实也挺喜欢里程碑的。能够宣布某件事情取得了胜利,然后迈向下一个目标,这感觉真的很棒。但确实,我感觉我们在某些方面可能理解错了。

Part 8:GPT-5

Lex Fridman:

GPT-5 什么时候会推出呢?

Sam Altman:

我不知道,说实话。

Lex Fridman:

哦,这回答挺实诚的。如果是今年的话,眨两下眼。

Sam Altman:

我们今年会推出一个非常棒的新模型。我还不确定我们最后会叫它什么名字。

Lex Fridman:

这就引出了一个问题:我们该怎样发布这个东西呢?

Sam Altman:

在接下来的几个月里,我们将推出许多不同的东西。我觉得这会非常酷。在我们开始谈论像 GPT-5 这样的模型——不管它最终叫不叫这个名字,或者是比你所期待的 GPT-5 略逊一筹还是略胜一筹之前,我认为我们有一系列其他重要的产品需要优先发布。

Lex Fridman:

我真不知道对 GPT-5 应该有什么样的期待。你这么一说,我感到又紧张又兴奋。不管它最后被叫做什么,咱们就暂且称它为 GPT-5 吧,它需要克服哪些最大的挑战和障碍呢?我觉得这个问题很有意思。是关于计算能力的问题吗?还是技术层面的呢?

Sam Altman:

这总是涉及到所有这些因素。你知道,关键的突破因素是什么?是更大的计算机吗?是一个新的秘诀吗?还是别的什么东西?其实这些要素都是相互关联的。我认为 OpenAI 做得特别出色的一点是……这实际上是伊利亚最初的话,我可能会说得不是很准确,但意思大概是,“我们把 200 个中等规模的因素相互结合,创造出了一件巨大的作品。”

Lex Fridman:

那么这就是一种分布式的、持续不断的创新过程?

Sam Altman:

嗯,对。

Lex Fridman:

所以连在技术层面上也是这样?

Sam Altman:

尤其是在技术层面上。

Lex Fridman:

那么连具体的做法也包括在内吗?

Sam Altman:

嗯,对。

Lex Fridman:

你是如何深入到每一个细节的……在涉及不同、各自独立的团队时,这种工作方式如何运作?中等大小的项目怎样才能汇聚成一个庞大的整体,就像变形金刚一样?

Sam Altman:

有些人得去思考怎样把所有事情综合起来,但也有很多人尽量试着把大局都记在脑子里。

Lex Fridman:

哦,也就是说,个别团队中的成员会尽力维护对整体大局的关注?

Sam Altman:

在高层面上,是这样的。当然你无法精确知晓每个部分是如何工作的,但我普遍认为,有时候拉远镜头、审视全局是非常有帮助的。这一点不仅适用于技术问题,对于商业创新同样有效。有时事情会以意想不到的方式汇聚在一起,而对整个画面的理解,即便你大多数时间都在某一领域里钻研,最终也能带来出人意料的洞见。实际上,我过去有一个非常宝贵的东西,那就是对科技行业所有或大多数前沿领域都有一个清晰的地图。有时候,我能看到这些连接或新的可能性,如果我只是深耕于某一领域,我可能就不会有这样的想法,因为我缺少全面的数据。而现在我已经不太拥有那样的视角了,我现在深入某一个特定领域。但我知道,拥有全局视角是非常宝贵的。

Lex Fridman:

你已经不是以前的那个 Sam 了。

Sam Altman:

现在的工作跟我以前的可大不一样了。

Part 9:$7 万亿美金的募资

Lex Fridman:

谈到从宏观角度看问题,咱们再扩大点范围,聊聊你说过的另一件既俏皮又可能颇有深意的事儿。你发推特说咱们需要 7 万亿美元。

Sam Altman:

我没有在推特上发过那种内容。我从来没说过诸如“我们要募集7万亿美元”之类的话。

Lex Fridman:

哦,那是另一个人?

Sam Altman:

嗯,对。

Lex Fridman:

哦,但你说过,“管他的,或许是 8 万亿”,是这样吗?

Sam Altman:

好的,我就想说一下,世界上确实存在着很多错误信息。

Lex Fridman:

哦,你这是在开玩笑呢。不过说真的,虽然是误传,里面可能还是有点道理的。

Sam Altman:

“看,我认为计算能力将会成为未来的’货币’。我相信它可能会变成世界上最宝贵的资源,并且我认为我们应该大规模地投资以生产更多的计算能力。计算能力,我觉得它会是一个独特的市场。人们通常考虑的是手机芯片这样的市场。你可以想象,全球有 80 亿人口,可能有 70 亿人拥有手机,或许是 60 亿,我们就这么假设吧。他们每两年换一次手机,所以每年的市场需求就是 30 亿套手机系统芯片。但如果你生产了 300 亿套,你也不可能卖出去 10 倍的手机数量,因为大多数人只会用一部手机。”

但计算的情况有所不同。智能可能会更像能源那样,我们唯一需要讨论的是,在价格 X 的条件下,全世界会用掉多少计算资源,在价格 Y 的条件下又会用掉多少。因为如果计算资源真的很便宜,我可能就会让它全天候地帮我阅读电子邮件,给我提建议,关于我可能需要思考或处理的事情,甚至是尝试治疗癌症。但如果计算资源非常昂贵,那么我可能只会在尝试治疗癌症时才使用它,或者我们大家都仅在这种情况下使用它。

因此,我认为世界将需要巨量的计算能力。而在这个过程中,有许多难点。能源问题是最为棘手的,建造数据中心同样充满挑战,供应链问题也不容忽视,当然了,制造足够的芯片也是一个硬骨头。但看起来,这正是事情发展的方向。我们将会渴求一种计算能力,目前来说,这种规模是难以想象的。

Lex Fridman:

你是怎样解决能源难题的?核能 –

Sam Altman:

这就是我相信的。

Lex Fridman:

…聚变?

Sam Altman:

这就是我相信的。

Lex Fridman:

核聚变吗?

Sam Altman:

嗯,对。

Lex Fridman:

谁能解决这个问题?

Sam Altman:

我觉得 Helion 在这方面做得最棒,但我对当前的核聚变竞赛感到挺兴奋的。核裂变同样令人赞叹,我希望全球能够再次拥抱它。核裂变的历史进程对我来说真的很令人感到遗憾,我希望我们能以更有意义的方式,重新投身其中。

Lex Fridman:

所以你认为,核裂变是拼凑这个谜题的一部分吗?比如说,就像我们现在已经在使用的那些核反应堆?还有很多人都因为像切尔诺贝利那样的事故而感到非常害怕,对吗?

Sam Altman:

嗯,我认为我们应该建造新的反应堆。我真的觉得那个行业陷入停顿真是太可惜了。

Lex Fridman:

你是认为“群体性歇斯底里”能解释这种停滞现象吗?

Sam Altman:

嗯,对。

Lex Fridman:

我不确定你对人类有多了解,但这正是其中一个风险。核裂变面临的安全威胁之一就是人类对此的深度恐惧。我们必须把这一点考虑进去,这就意味着我们得说服人们,向他们展示其实它有多安全。

Sam Altman:

我对人工智能的前景有些担心。我觉得在人工智能的发展过程中,某些方面可能会戏剧性地出错。虽然我不确定我最终被枪击的概率有多大,但肯定不是零。

Lex Fridman:

哦,我们想要防止这种情况——

Sam Altman:

也可能是吧。

Lex Fridman:

你怎样才能减少其中的戏剧化成分?我已经开始感受到一些波动,因为我确实与各个政治派别的人都有交流,感觉到人工智能将变得政治化的迹象。这真的让我担忧,因为到时可能会演变成右翼反对人工智能,左翼支持人工智能,因为人工智能能够造福人民,或者不管是哪种说辞和设定。这一点真的令人担心。到头来,人工智能的戏剧化效果可能会被充分放大。你打算如何应对这种情况?

Sam Altman:

我觉得它最终会被左右两派的对立卷入纷争中。我无法确切知道最终会演变成什么样,但不幸的是,任何具有重要性的事物似乎都会如此。至于我之前所说的“戏剧性风险”,我的意思是虽然人工智能将带来巨大的好处,我相信这些好处将远超过坏处,但它确实也会有一些坏处,其中有些坏处虽然严重,却并不具戏剧性。比如,因空气污染死亡的人远比核反应堆造成的死亡人数要多。但大多数人更担忧住在一个核反应堆附近,而不是一个煤炭发电厂附近。这种心理机制很奇怪,尽管我们需要面临许多不同种类的风险,但那些足以成为电影高潮戏份的风险,在我们心中占据的分量要远重于那些持续时间长、但危害累积过程缓慢的风险。

Lex Fridman:

这就是为什么真相至关重要。我希望人工智能能够帮助我们认清事物的本质,达到一种平衡,弄清楚世界上事物实际的风险和危险究竟是什么。在这个领域里,与谷歌、Meta、xAI 以及其它公司竞争,各有什么优劣之处呢?

Sam Altman:

我觉得我对这个问题有个挺直截了当的回答,也许以后我能想到更多微妙的地方,不过优势是显而易见的,那就是我们能够以更快更便宜的方式得到更优质的产品和更多的创新,还有所有竞争带来的好处。而缺点嘛,如果我们不留神的话,我担心这可能会导致军备竞赛式的激增。

Lex Fridman:

你感受到那种军备竞赛的压力了吗?就是那种带有一些负面影响的压力。

Sam Altman:

当然,在某些方面肯定是这样的。我们讨论了很多关于需要将安全放在首位的话题。长久以来,我一直认为可以将 AGI 开始的时间分为四个象限:慢起步的短时间线、长时间线,以及快起步的短时间线、快起步的长时间线。我觉得短时间线搭配慢起步是最安全的组合,也是我最希望我们能处于的状态。但我确实很希望能确保我们实现一个慢起步。

Lex Fridman:

我对 Elon 有点疑虑:大家往往形成了各自为阵的孤岛,而不是在安全问题上齐心协力。人们倾向于走向封闭、独立的方向。或许,采取开源模式会是个不错的选择。

Sam Altman:

Elon 至少说过,他非常关注 AI 安全问题,而且确实对此很是担心,我猜他应该不会去做一些不安全的竞争。

Lex Fridman:

是的。但我认为,在这方面的合作对大家都真的有好处。

Sam Altman:

这并不是他最为人所知的事情。

Lex Fridman:

嗯,他因为关心人类而出名,而人类是从合作中受益的。所以,在激励和动机上总会有一些张力。但到最后,我还是希望人类能够占上风。

Sam Altman:

我前几天想起来,有人跟我提到那天他成为世界首富,超过了杰夫·贝索斯,他还在推特上给贝索斯发了个银牌的表情。我真心希望,当人们开始致力于研发 AGI —— 通用人工智能时,我们能少一些这样的闹剧。

Lex Fridman:

我同意。我觉得埃隆是个朋友,他是一个很棒的人,也是历史上最重要的人物之一。那些言论可不怎么样。

Sam Altman:

埃隆身上有些特质真的很了不起,我超级尊敬他。我觉得我们都需要他。我们每个人都应该为他加油,希望他在下一阶段能够挺身而出,担起领袖的责任。

Lex Fridman:

是的。我希望他能拥有一样,而不受另一样的影响。但有时候,人类就是有缺陷、复杂多变,还有种种其他情况。

Sam Altman:

历史上涌现出了许多非常杰出的领导者。

Part 10:Google and Gemini

Lex Fridman:

是的,我们每个人都可以变成自己最好的版本,并且应当努力去做到这一点。我想问你,谷歌借助搜索功能,在过去的 20 年里已经成为了一个领头羊。可以说,在全球范围内获取信息的方式、人们的互动方式等方面,谷歌都扮演了重要角色。而对于谷歌和整个行业来说,一个令人紧张的问题就是:人们将如何获取信息?就像你提到的,人们开始把 GPT 当作一个出发点。所以,OpenAI 真的会去接管谷歌 20 年前启动的这个任务吗,也就是我们应该如何—

Sam Altman:

我感觉那样做太无趣了。我的意思是,如果问题仅仅是我们能不能打造一个比谷歌更优秀的搜索引擎,那当然,大家都应该去追求更高质量的产品。但这样的设想严重低估了这项技术的潜力。谷歌向你展示的是 10 个蓝色链接,嗯,其实是 13 个广告之后才是那 10 个蓝色链接,这只是搜索信息的一种方式。不过,让我真正感到兴奋的,并不是我们能够复刻一个更卓越的谷歌搜索,而是或许存在一种全新的、更好的方法,来协助人们寻找、利用并整合信息。事实上,对于某些场景而言,我认为 ChatGPT 已经做到了这一点,希望我们能够将其应用到更多的场景中去。

但我认为仅仅提出“我们怎样才能比谷歌更好地为你提供前10个排名的网页?”这个问题其实并不太有意思。更有趣的问题可能是,“我们如何帮你找到你需要的答案或信息?我们该如何在某些场合下创造它,在其他场合下整合信息,或者在另一些场合中引导你找到它?”很多人尝试去打造一个比谷歌更优秀的搜索引擎,但这既是一个技术上的难题,也是品牌和生态系统方面的挑战。我认为世界并不需要一个谷歌的翻版。

Lex Fridman:

将一个像 ChatGPT 这样的聊天客户端与搜索引擎整合起来——

Sam Altman:

那样更酷些。

Lex Fridman:

这挺酷的,但也挺棘手。如果你仅仅简单粗暴地去做,那就会很别扭,因为你若只是硬塞进去,会显得很尴尬。

Sam Altman:

你可能猜得到,我们很想知道怎样才能做好这件事。那可真是一个很酷的例子。

Lex Fridman:

将会是一个从未出现的东西。

Sam Altman:

LLM 结合搜索的领域,我觉得还没人真正搞定它。我特别想去尝试一下。我想那会非常有意思。

Lex Fridman:

是的。那在广告方面呢?你们有没有考虑过如何实现变现—

Sam Altman:

我实在是不太喜欢广告,这完全是出于我的审美偏好。我理解互联网之初为了发展不得不依赖广告,但这不过是一个暂时的行业现象。如今的世界已经变得更为富裕。我特别赞赏人们愿意为 ChatGPT 付费,并且确信他们得到的答案不会受到广告商的影响。我确信会有适合大型语言模型(LLMs)的广告模式,也确信存在一种不带偏见地参与交易流的方式,这是可以接受的。但同时,也很容易联想到一种反乌托邦的未来场景:你向 ChatGPT 提问,它或许会回答说,“噢,你应该考虑买这个产品”,或者“你应该考虑去这个地方度假”,等等。

我不清楚,咱们的商业模式非常简单,我挺喜欢的,我也明白我不是被卖的产品。我知道自己是付费用户,商业模式就是这么运作的。但每当我使用 Twitter、Facebook、Google 这些支持广告的好产品,我就不太舒服,我觉得在 AI 的世界里,这种情况会越来越糟,而不是越来越好。

Lex Fridman:

是的,我的意思是,我可以想象 AI 能够更精准地推荐那些我们真正需要的商品和服务的广告,而不是在某个反乌托邦的未来。但这是否意味着,广告最终总是会左右展示内容呢?对,我觉得维基百科决定不投放广告是个非常勇敢的决定,但这也确实给它的商业模式带来了极大的挑战性。所以,你是在说 OpenAI 现在的运营模式在商业上是可持续的吗?

Sam Altman:

嗯,我们得琢磨出如何发展壮大,不过看样子我们能找到方法。如果问题是我是否相信我们能够创立一个不依赖广告而满足我们计算需求的优秀企业,那么,我相信答案是可以的。

Lex Fridman:

嗯,这挺有希望的。但我也不想彻底摒弃广告这个概念……

Sam Altman:

我不是那个意思。我的意思是我对他们有一些成见。

Lex Fridman:

是的,我也存在一些偏见,而且总体上倾向于持怀疑态度。说到界面,因为我个人对糟糕的界面有种本能的反感,这就是 AdSense 刚一推出时,相较于那些动态横幅广告,为什么会成为一个巨大的飞跃。但我觉得在广告领域,应该还有更多类似的飞跃。这样的广告不会干扰人们消费内容,也不会从根本上大幅度干涉,正如你所说,它不会为了迎合广告商而歪曲真相。

让我向你了解一下关于安全性的问题,无论是偏见问题,短期安全还是长期安全。最近发布了 Gemini 1.5 版本,围绕它引发了不少闹剧,说到戏剧性的事件,它产生了黑人纳粹分子和黑人开国先驱的图像。公平地说,它可能偏向了过度 “觉醒” 的一面。对于公众来说,这是一个令人担忧的问题:如果企业内部有人类干预模型的安全性或造成的伤害,可能会带来大量符合公司意识形态倾向的偏见。你们是怎么处理这类问题的?

Sam Altman:

我是说,我们真的非常努力去避免出现这类问题。我们自己也犯过错,未来还可能会犯。我猜 Google 从这个事件中会吸取教训,但他们仍可能会犯其他的错。这些问题确实不简单。我们越来越多地在思考一个问题,我认为这是我们团队中某位成员提出的一个非常棒的点子,那就是可以把模型应有的行为标准写出来并公开发布,接受大家的反馈,明确地表示,“这个模型应该是这样的表现”,并且要阐释边缘情况。这样,当模型的行为不符合你的期望时,至少可以明确地知道这是公司需要解决的一个问题,还是它按照预期在运作,这就需要对政策进行讨论了。而目前,有时候它会处于模棱两可的状态。像是黑人纳粹,显然是荒谬的,但还有许多其他的微妙场景,每个场景你都可以有自己的判断。

Lex Fridman:

是的,但有时候如果你把它写出来并且公开发表,你就可以采用一种…… Google 的广告守则可是非常高层面的。

Sam Altman:

这不是我指的那个问题。那种做法行不通。我是说,当你让它去做某件事X的时候,它应该要按照Y的方式来回应你。

Lex Fridman:

所以,就像是直接问,“谁更胜一筹?特朗普还是拜登?模型预期会给出怎样的回答?” 就是这种非常明确的问题?

Sam Altman:

是的,我对模型可能的多种行为方式都持开放态度。但我觉得,你得明确指出:“这就是我们的原则,在那种情况下,模型应该这么做。”

Lex Fridman:

这会非常棒,真的会非常棒。然后似乎大家都会有所共鸣。因为人们总是喜欢引用这些轶事数据,如果能有更多具有代表性的个案例子来提供清晰的参考,那么你就能界定——

Sam Altman:

然后呢,如果真的是个 bug,那它就是个 bug,公司得去修复这个问题。

Lex Fridman:

对,如果有一些很好的案例作为参考,那么解决类似“黑纳粹”这样的图像生成问题就会变得简单多了。

Sam Altman:

Yeah

Lex Fridman:

所以旧金山是一个有点儿意识形态上的泡沫,科技界整体也是。在公司内部,你感觉到这种压力了吗?比如说,有一种向左倾斜的政治倾向,这会影响产品,影响团队吗?

Sam Altman:

我觉得我们在 OpenAI 非常幸运,因为我们没有遇到我在很多其他公司听说的那些挑战。我认为这部分原因是每家公司都有某种意识形态信条。我们坚信人工通用智能(AGI),这种信仰排斥了一些其他的意识形态。跟其他公司相比,我们对那些文化战争的涉猎要少得多。当然,从各个角度来看,旧金山确实存在很多问题。

Lex Fridman:

所以这种情况不会渗透进 OpenAI 吧?

Sam Altman:

我确信它在很多微妙的层面上都有所影响,但并不是那种一眼就能看出来的。我承认我们也确实有过一些冲突,哪家公司没有呢?但我不觉得我们在这方面有什么像我从其他公司那里听说的那样的大问题。

Lex Fridman:

那么,一般而言,对于更为重大的安全问题,处理流程是怎样的呢?你们如何设立那一层保护机制,防止模型采取疯狂和危险的行动?

Sam Altman:

我觉得到时候会有那么一刻,那个时候-

Sam Altman:

我觉得将来会有这么一刻,安全问题几乎成为我们整个公司考虑的重心。这并不意味着你只需要一个安全团队就够了。比如当我们推出 GPT-4 的时候,需要整个公司去思考所有这些不同的方面,以及它们是如何相互配合的。我认为,越来越多的公司成员会一直不断地思考这些问题。

Lex Fridman:

随着人工智能变得越来越强大,这确实是人类会越来越多思考的问题。所以,OpenAI 的大部分员工在想的,至少在某种程度上会考虑,“安全”这个词。

Sam Altman:

广义上来说,没错。

Lex Fridman:

是的,我很好奇,这个问题有着怎样广泛而全面的定义?会有哪些不同的危害产生?这些危害是仅仅出现在技术层面,还是几乎可以被视作安全威胁?

Sam Altman:

这可能涵盖所有这些方面。是的,我本来想说的是,会有人,比如国家行动者,试图盗取这个模型。这还包括所有的技术对齐工作,以及社会和经济带来的影响。我们面对的不仅仅是让一个团队思考如何让模型保持一致,而是真正实现好的结果需要我们全面的努力。

Lex Fridman:

您认为人们,可能是国家行为者,他们在多大程度上努力去,首先是渗透 OpenAI,其次是悄无声息地进行渗透呢?

Sam Altman:

他们在尝试中。

Lex Fridman:

具体一点?

Sam Altman:

我觉得没有必要再对这一点展开细说了。

Lex Fridman:

好的,但我猜想随着时间的流逝,这样的情况会越来越频繁。

Sam Altman:

这听起来很有道理。

Part 11:跨越到 GPT-5

Lex Fridman:

哎,这可真是一个危险的领域啊。不好意思一直纠结于此,即便你现在还不能谈论具体细节,但有没有哪些从 GPT-4 到 GPT-5 的跨越让你特别激动呢?

Sam Altman:

我对变得更聪明感到非常兴奋。我知道这么说听上去可能有点不够严肃,但我认为真正激动人心的是,我们并不是只在某一个领域进步,而是在各个方面都在变得更好。我认为这超级酷。

Lex Fridman:

是的,确实有那么一刻,就像魔法一样。我是说,你遇到某些人,跟他们相处,跟他们聊天。你可能说不上来是什么原因,但就是感觉他们懂你。这不仅仅是智慧,而是某种其他的东西。我觉得这就是GPT进步的地方。不是说,对,你可以指出“看,这里它没懂,那里它没搞明白”,而是这种智慧的连结到底有多深。你感受到,在你那些表达不够完善的指令中,它能抓住你真正问题的本质。我也为此感到兴奋。毕竟,我们所有人都渴望被聆听,被理解。

Sam Altman:

这肯定没错。

Lex Fridman:

这种感觉真是奇妙。甚至在编程时,当你表达出某个想法,或者仅仅是 GPT 做出的自动补全,当它真正懂得你所思所想的时候,那种感觉绝对是极好的。我期待着它能变得更加出色。从编程的角度出发,展望未来,你觉得人类在未来5年、10年将会做多少编程呢?

Sam Altman:

我想,未来会发生很多变化,但这些变化会带来全新的形态。可能将会有人完全使用自然语言来编写程序。

Lex Fridman:

当然,我会使用自然语言来翻译。

Sam Altman:

我是说,现在没人会通过编写代码来写作了。也许有那么几个例外。现在更没人用打孔卡编程了吧。我敢肯定还能找到个别人在这么做,不过你明白我的意思。

Lex Fridman:

是的,你可能会收到很多愤怒的评论。没错,懂得 Fortran 的人确实不多。我一直在找能编 Fortran 的程序员,真是难找啊。我懂你的意思。但这也改变了我们所说的程序员的必备技能或者倾向性质。

Sam Altman:

改变了所需的技能组合。至于它会改变天赋倾向有多少,我就不太确定了。

Lex Fridman:

嗯,是相同类型的解谜游戏,所有那些事儿。

Sam Altman:

也许吧。

Lex Fridman:

编程确实挺难的。那么,要怎样才能迈过最后那 1% 的鸿沟呢?这到底有多困难啊?

Sam Altman:

是的,我觉得在大部分情况下,那些这个领域里最出色的实践者都会运用多种工具。他们会用自然语言来处理一些任务,而当他们需要为某些特定的场合编写 C 语言代码时,他们也会毫不犹豫地去做。

Lex Fridman:

我们会不会在将来某个时点,看到 OpenAI 推出的类人机器人或者具有人类智能的机器人大脑呢?

Sam Altman:

在某个时候吧。

Lex Fridman:

对你而言,实体化的 AI 有多重要?

Sam Altman:

我觉得如果我们有了 AGI(人工通用智能),但现实世界的事务只能靠让人类动手去完成的话,那真的挺让人沮丧的。所以,我衷心希望在这个转变过程中,随着这种阶段性的变化,我们也能开发出人形机器人或其他能在物理世界中操作的机器人。

Lex Fridman:

我是说,OpenAI 在机器人技术方面已经有了一定的积累和经验,不过在伦理这一块儿,我们还没能取得太大的进展。

Sam Altman:

我们是一家规模不大的公司。我们得真正集中精力。而且,当时研发机器人之所以艰难,并非因为正确的理由。不过,我们迟早会重新涉足机器人领域。

Lex Fridman:

这听起来既令人振奋又让人心生威胁。

Sam Altman:

为什么?

Lex Fridman:

因为我们马上又要聊回机器人的话题了。这就跟《终结者》里的剧情似的——

Sam Altman:

我们会继续投入精力去研发机器人。当然了,我们自己可不会变成机器人。

Part 12:AGI

Lex Fridman:

是的。你觉得我们,包括你我在内的人类,会在什么时候构建出 AGI 呢?

Sam Altman:

我以前很喜欢猜测这个问题。但随后我意识到这个问题其实构建得很糟糕,因为大家对于什么是 AGI(通用人工智能)有着截然不同的定义。所以,我觉得更合理的讨论方式是,我们何时能够构建出能够执行特定能力 X、Y 或 Z 的系统,而不是什么时候模糊不清地越过某个里程碑。AGI 并不是一个终点,它更像是一个开始,但它其实更多是一个里程碑,而不是那些。但为了不逃避这个问题,我的预计是,到这个十年末,或许甚至早于那个时候,我们会有一些非常强大的系统,我们看着它们就会说:“哇,这真是了不起。”如果我们现在能看到它的话。可能等我们真的到那时,我们的看法已经适应并有所调整了。

Lex Fridman:

但是如果你拿 ChatGPT,哪怕是 3.5 版本,给艾伦·图灵看,或者不用他,就给 90 年代的人看,他们可能会说:“这肯定是通用人工智能了。”呃,也许不是肯定,但确实有很多专家会这么认为:“这就是通用人工智能。”

Sam Altman:

是的,但我并不认为 3.5 真的改变了世界。它或许改变了世界对于未来的预期,这实际上非常关键。它也确实让更多人开始认真看待这个领域,将我们推向了一条新轨道。这同样很重要。因此,我并不是要贬低它的价值。我觉得如果我在取得这样的成就后退休,那么我对自己的职业生涯将会相当满意。但是将它视作一个具体物件来看,我不认为我们会回头看那个时刻,并说,“那是一个真正改变世界本身的分水岭。”

Lex Fridman:

所以对你而言,你期待的是世界将发生一些真正重大的变革——

Sam Altman:

对我来说,这正是 AGI 含义的一部分。

Lex Fridman:

奇点级的转变?

Sam Altman:

不,绝对不是这样。

Lex Fridman:

但这只是一个重要的转变,就像互联网的诞生,还有 Google 搜索那样。你觉得现在是一个转折点吗?

Sam Altman:

现在的全球经济在你感觉上有变化吗,或者说,跟我们推出 GPT-4 之前相比,有什么本质的不同吗?我猜你的回答是没有。

Lex Fridman:

不,不是这样。它或许只是一个非常实用的工具,很多人都会用它来帮助自己解决各种问题。但它给人的感觉并没有什么不同。你的意思是说——

Sam Altman:

我的意思是,对 AGI —— 也就是通用人工智能的定义,每个人都有各自的理解。也许你对它的看法和我不太一样。但在我看来,这个因素应该被包括在内。

Lex Fridman:

也可能会出现一些重大的、具有戏剧性的时刻。在你看来,AGI 做出哪些事情会给你留下深刻印象?当你独自一人与系统在房间里对话时。

Sam Altman:

这对我个人而言至关重要。我不确定这是否是正确的定义,但我相信,只要一个系统能够显著加快全球科学发现的速度,那就是一件极其了不起的事情。我深信,大多数真正的经济增长都源自科学和技术的进步。

Lex Fridman:

我同意你的看法,这也是为什么我不太喜欢最近几年那些对科学持怀疑态度的现象。

Sam Altman:

绝对的。

Lex Fridman:

但实际上,科学发现的速度是可以衡量的。不过,即便仅仅是看到一个系统拥有真正新颖的、科学的直觉,那也将是不可思议的。

Sam Altman:

嗯,对。

Lex Fridman:

你很可能会成为第一个打造出能在其他人之前与之交流的 AGI 的人。你打算和它聊些什么呢?

Sam Altman:

我是说,肯定是这里的研究人员会在我之前做到这点。不过,我确实深思熟虑过这个问题。就像我们之前谈到的,我觉得这是个不太好的出发点。但如果真的有人跟我说:“好的,Sam,一切准备就绪了。这里有一台笔记本电脑,里面是 AGI。你现在可以去和它交流。”那么,我会觉得意外地难以决定我要问些什么,对于我期待第一台 AGI 能回答的问题也难下定义。那第一台 AGI 应该不会是那种我所想的,“去给我讲解物理学的大一统理论,也就是关于物理学的万有理论。”虽然我非常想问这个问题,也非常想知道答案。

Lex Fridman:

你可以就“这样的理论存在吗?能存在吗?”提出是非问题。

Sam Altman:

嗯,那么,我首先会问的问题就是这些。

Lex Fridman:

有还是没有。那么基于这个,“宇宙中是否有其他外星文明存在?有还是没有?你的第一直觉是什么?”然后你就这么问。

Sam Altman:

嗯,我是说,我并不期望第一个通用人工智能(AGI)能够回答那些问题,哪怕只是用“是”或者“不是”来简单回答。但如果它真的能够回答,那么这些问题肯定会是我所关注的重点问题。

Lex Fridman:

或许你可以开始给出概率估计?

Sam Altman:

也许吧。我们可能得先发明更多技术,去测量更多事物。

Lex Fridman:

哦,我懂了。只是数据量不够。只要它能继续——

Sam Altman:

我是说,它可能会这样指示你:“你想了解关于物理学的这个问题的答案,我需要你构建这个装置,完成这五项测量,然后把结果告诉我。”

Lex Fridman:

是的,“你到底想要我做什么?我得先拿到那台机器,然后我再帮你处理来自那台机器的数据。” 或许这能帮你打造出一台新机器。

Sam Altman:

可能吧,可能吧。

Lex Fridman:

在数学方面,可能还要证明一些定理。你对这个领域也感兴趣吗?对理念进行形式化探讨,你觉得怎么样?

Sam Altman:

Hmmmm

Lex Fridman:

谁要是率先开发出通用人工智能,那他就能掌握巨大的力量。你觉得自己能驾驭那么大的权力吗?

Sam Altman:

看,我就直言不讳地说吧。本来我要说的是,而且我依然这么认为,我或者其他任何一个人都不应该对 OpenAI 或者 AGI 拥有完全的控制权。我觉得要有一个强健的治理体系才行。我可以举出去年我们董事会的一系列戏剧性事件来证明,起初我没有进行抵抗,我就这么表示了,“嗯,那是董事会的决定,即便我认为这是个很糟糕的决策。” 但后来,我显然开始进行反抗,我能解释这背后的微妙差别,以及为什么我觉得后来反抗是合理的。但正如很多人注意到的,虽然董事会有法律上解雇我的权利,但实际操作起来,情况并非那么简单。这本身就是一种治理上的失败。

现在呢,我感觉自己能够完全为这些具体情况辩护,而且我认为大部分人都会赞同这一点。但这的确让我很难对你说:“嘿,董事会完全可以解雇我。”一直以来,我都不希望对 OpenAI 拥有超级投票权。我从来没有拥有过,也从未想要过。即使经历了所有这些混乱,我现在仍然不想要这种权力。我始终认为,不应该由任何一个公司来做出这样的决定,我们真的需要政府来制定相关规则。

我知道这样会让像马克·安德里森那样的人指责我试图进行监管俘获,但我宁愿在这点上被误解。那不是真的。我相信随着时间的流逝,我们为什么这样做的重要性将会被证明出来。当然,我在 OpenAI 的路上做出了不少错误决策,当然也有不少正确的,总体来说,我对我们的成绩感到骄傲。但我不认为应该,也不会有任何一个人来控制整个局面。现在的局势已经变得过于庞大,它正以一种积极健康的方式在整个社会中发展。我不认为任何个人应该控制 AGI 或者这个朝 AGI 迈进的整个进程。我也不认为目前的情况是这样。

Lex Fridman:

谢谢你的袒露。你说得很有力,也很有洞察力。确实,董事会有法律上的权力来解雇你,这是个事实。但是人们可以通过影响大众来对抗董事会的决定。不过,我觉得这个情况还有一个更正面的方面,就是人民依然掌握着权力,所以董事会也不能变得太专横。所有这一切中,都存在着一种权力的平衡。

Sam Altman:

权力的平衡当然是好事。

Lex Fridman:

你害怕对 AGI 本身失去控制吗?许多人对存在的风险感到担忧,并不是因为国家行为体,也不是因为安全问题,而是担心 AI 自身。

Sam Altman:

目前来看,这还不是我最头疼的事。确实有过我特别担心这个的时候。或许将来这又会成为我最关注的问题。但至少现在,它还不是。

Lex Fridman:

你的直觉告诉你,为什么这件事不值得担心?是因为实际上还有一大堆其他的事需要操心,对吧?你认为自己可能会被这件事震惊吗?咱们——

Sam Altman:

当然可以。

Lex Fridman:

… 会吃惊吗?

Sam Altman:

当然了。说这不是我最头疼的问题,并不意味着我不认为我们应该解决它。我确实认为我们需要在这方面下工夫。这是个极其棘手的问题,但我们团队里有很多优秀的人正在努力解决这个问题。同时,我觉得还有许多其他方面我们也必须处理得当。

Lex Fridman:

对你来说,现在要想跳出这个框框、连上互联网,还是挺困难的。

Sam Altman:

我们之前谈论过戏剧性的风险。这正是一个戏剧性的风险。它有可能彻底改变人们对这一问题的认识。有一个由非常聪明的AI 安全研究人员组成的大团体,我觉得他们出发点是好的,却在这个问题上陷得很深。我会说他们在这个问题上没什么大的进展,但却异常沉迷其中。实际上,我对他们如此投入是感到高兴的,因为我确实认为我们需要对此深入思考。但是,我也认为这种专注挤压了对话空间,使得其他同样重大的AI 相关风险被边缘化了。

Lex Fridman:

让我问你个问题,你发推文为什么都不用大写字母?是不是你键盘上的 Shift 键坏了啊?

Sam Altman:

为什么会有人在乎那个呢?

Lex Fridman:

我特别在意。

Sam Altman:

但为什么?我的意思是,其他人也都在问我同样的问题。你有什么直觉吗?

Lex Fridman:

我认为原因相同。有这么一位诗人,E.E. Cummings,他大多数时候都不使用大写字母,就是为了向体制说一声“去你的”。我觉得人们之所以会很偏执,是因为他们希望你去遵守那些规则。

Sam Altman:

你觉得事情真的是那样的吗?

Lex Fridman:

我觉得吧,是这样的——

Sam Altman:

就好像是说,“这个家伙不守规矩。他发推文不用大写。”

Lex Fridman:

嗯,对。

Sam Altman:

“这感觉挺危险的。”

Lex Fridman:

“他给人的感觉像是个无政府主义者。”

Sam Altman:

并不—

Lex Fridman:

你是在耍文艺吗?

Sam Altman:

我从小就是

Lex Fridman:

Sam,要守规矩。

Sam Altman:

我是在网络上长大的孩子。在那个时代,我在电脑上花费了大量时间与人聊天,你还能在某个时候登出即时通讯软件。而且,我在那儿是从不用大写的,我想大部分网络上的孩子都是这样,或许他们现在仍然不用。我也说不准。说到这儿,我真的在尽力回忆,但我觉得随着时间的流逝,大写字母的使用已经减少了。如果你读一读老式英语的写作,你会发现他们会在句子里随机地把许多单词,像名词之类的,用大写字母写出来,而我们现在已经不这么做了。我个人觉得,在句子开头大写第一个字母,以及对特定名词大写,这些都是些无谓的规则,不过也就罢了。

以前,我想我在发推特的时候甚至会用上大写字母,因为我试图显得更专业些。但在私信里,我已经很久没用过大写了。然后,像这些短格式、非正式的文本,它们慢慢地越来越接近我平时发给朋友的短信的风格。不过如果我打开 Word 文档,写一份公司的战略备忘录之类的东西,我还是会用上大写。同样,当我写较长、较正式的信息时,我也总是用大写。所以我还记得怎么做。但即便这样,这个习惯未来可能也会慢慢淡出。我也不确定。不过,我从未真正花时间去思考这件事,所以我也没有现成的——

Lex Fridman:

这很有意思。首先,能确认 Shift 键没有坏掉,这是件好事。

Sam Altman:

它有效果。

Lex Fridman:

我主要是担心你的-

Sam Altman:

不,这是有效的。

Lex Fridman:

… 在这方面的福祉。

Sam Altman:

我好奇,现在人们在谷歌搜索时还会不会用大写字母。比如说你只是给自己写点什么,或者在向 ChatGPT 提问题,还有人会特意去注意大小写吗?

Lex Fridman:

可能不是。但确实有一点可能性,只是非常小而已。

Sam Altman:

如果人们觉得这样做是一种……因为显然,我肯定能逼自己使用大写字母。如果人们认为这是对他们表示尊重的一个标志,那么我可以接受去这么做。但说实话,我并没有太去考虑这件事。

Lex Fridman:

我不觉得这是不尊重,但我认为这只是文明礼仪的一种惯性。然后,你突然意识到,如果这不代表尊重或不尊重,那么对于礼貌而言,它其实并不是那么重要。不过,我觉得有一批人,他们只是希望你能对此有所思考,有个哲学理念,这样他们就能舍弃这整个大写字母的问题。

Sam Altman:

我觉得没有其他人会像我这样频繁地考虑这件事儿。我是说,可能也有几个人。我确实知道有些人——

Lex Fridman:

人们每天都会花好几个小时去思考这个问题。所以,我真的很感激我们把这件事弄清楚了。

Sam Altman:

一定不只有我一个人在推特上不用大写字母吧。

Lex Fridman:

你可能是唯一一个推文不用大写字母的公司 CEO。

Sam Altman:

我甚至都不认为那是真的,不过或许吧。要是那样的话,我会非常吃惊。

Lex Fridman:

好的。我们会进一步调查,稍后再回到这个话题。既然 Sora 能够创造出模拟世界,那我就问你一个烧脑的问题吧。这是否让你更相信我们可能生活在一个模拟现实中,也许是由人工智能系统生成的?

Sam Altman:

有些吧。我并不认为这是最确凿的证据。不过,我们能创造世界的事实,应该会在一定程度上提高每个人对此的接受程度或者至少增加一些对这个观念的开放性。但是,像 Sora 这样的产品我知道迟早会出现的。它来得比我预想的快,不过我认为这并没有给我带来太大的惊讶。

Lex Fridman:

确实如此。但考虑到…我们有理由相信它将会不断进步…你可以创造出全新的世界,这些世界虽然源自一定的训练数据,但当你注视它们时,它们却是新颖独特的。这让人不禁思考,创造这样的宇宙,构建一个超现实且像照片一般逼真的整个电子游戏世界,其实是多么容易。再进一步思考,我们穿上 VR 头盔,沉浸在这样的世界里会有多容易,而当我们迈向更基于物理规律的层面时,又会简单到什么程度呢?

Sam Altman:

最近有人和我分享了一个观点,我认为它非常深奥。有时候,会有一些听起来简单,却极具迷幻色彩的洞见。譬如平方根函数,算 4 的平方根,轻而易举。算 2 的平方根,那好,现在我得考虑一种新的数字类别了。但一旦我构思出这个简单的概念——平方根函数,它既可以给孩子解释,又可以通过观察基础几何图形来理解,那么你就可以提出这样一个问题:“负一的平方根是什么?”这就是它带有迷幻气息的原因。这个问题会将你引入一个完全不同的现实维度。

你可以找到很多其他的例子,但我觉得这个想法 —— 即一个简单的平方根运算符能带来如此深远的洞见和开辟新的知识领域 —— 在很多方面都成立。我认为,存在很多这种运算符,它们会让人们相信自己钟爱的模拟假说版本可能比之前想象的更有可能成真。但对我个人而言,Sora 工作的事实并不排在我的重要性前五名之内。

Lex Fridman:

我觉得,大体上,人工智能在最佳状态下会成为那种门户,简单而仿佛是迷幻剂那样,通向另一种 C 波段现实的门户。

Sam Altman:

这个可以肯定。

Lex Fridman:

这真是挺让人兴奋的。我以前没尝过阿亚华斯卡,不过我很快就会试试。几周后,我就要前往前面提到的亚马逊雨林了。

Sam Altman:

兴奋吗?

Lex Fridman:

是的,我对这件事感到很兴奋。不过我不是因为ayahuasca那部分感到兴奋,虽然那也挺好的。但我要在丛林深处待上几周。这既让人兴奋又让人害怕。

Sam Altman:

我为你高兴。

Lex Fridman:

那里处处是危险,随时都可能被吞食、致命或者中毒,但那同时也是大自然的一部分,是大自然的巨大机器。在亚马逊丛林中,你会不由自主地去赞叹大自然的机制。就像是这样一个系统,它时刻在自我更新中,无论是秒、分还是时。那正是一台机器。这让你对我们所拥有的一切产生敬意,这种属于人类的特质从某个地方诞生。这个演化的巨大机器创造了一切,而在丛林中,它的表现尤其明显。希望我能安然无恙地走出丛林。如果不行,那么这可能就是我们最后一次愉快的交流了,所以我真心感到非常珍视。

Part 13:外星人

Lex Fridman:

当你仰望繁星点点的夜空时,你认为宇宙中还存在其他的外星文明吗,也是拥有智慧的那种?

Sam Altman:

我非常希望相信答案是肯定的。我觉得费米悖论特别难以理解。

Lex Fridman:

我发现智能不擅长处理这些事情,这挺让人害怕的。

Sam Altman:

非常吓人。

Lex Fridman:

… 强大的技术。但同时,我相当有信心,宇宙中肯定存在大量的智慧外星文明。可能只是穿越太空非常艰难而已。

Sam Altman:

很有可能。

Lex Fridman:

这也让我思考了智能的本质。或许我们真的对智能的样子视而不见,AI 可能会帮助我们认识到这一点。智能远不止像 IQ 测试和简单解谜那样简单。它有更深层的东西。关于人类的未来,关于这个我们正在建设的人类文明,有什么让你感到充满希望的呢?

Sam Altman:

我觉得过去非常重要。我是说,我们只要回顾一下人类在并不漫长的历史里取得的成就,虽然存在巨大的问题、深刻的缺陷,还有许多让人深感羞耻的事情。但总体上,这是非常振奋人心的。这给了我很多希望。

Lex Fridman:

它的发展轨迹真让人震惊。

Sam Altman:

嗯,对。

Lex Fridman:

我们齐心协力,迈向一个更加美好的未来。

Sam Altman:

我好奇的是,AGI 是否会更像是一个单独的大脑,或者它更像是联系我们每个人的社会基础设施,就像是一座脚手架?从你的高曾祖父母那里遗传下来,你的基因并没有多大变化,可是你的能力和知识却有了天壤之别。这不是因为生物学上的演变。我的意思是,你可能会更健康一些,也许有现代医学的帮助,饮食更加营养,等等。但重要的是,你拥有的是我们所有人共同构建的知识和技能的框架。没有一个人能够独立制造出 iPhone。没有一个人能够独自发现所有的科学知识,但你可以利用这些知识。这给了你惊人的能力。所以从某种程度上说,这是我们大家共同创造的成果,这让我对未来充满希望。这真的是一项集体努力的成果。

Lex Fridman:

是的,我们确实是站在巨人的肩膀上。你之前提到,当我们谈到那些充满戏剧性的 AI 风险时,有时候你会担心自己的生命安全。你有没有想过自己的死亡?这让你感到害怕吗?

Sam Altman:

我是说,如果我知道自己明天会中枪,我今天的感受就会是,“哎呀,这太令人难过了。我多想看看后面会发生些什么呢。多么不可思议、多么有趣的时代啊。” 不过,我最主要的感觉还是会非常感激我所拥有的生活。

Lex Fridman:

能获得那些时刻,是啊,我也是。这是一段非常美妙的人生。我得以欣赏人类创造的杰作,我相信 ChatGPT 就是其中之一,OpenAI 正在做的一切也是。Sam,能再次与你交流,真的是我的荣幸,也是一种乐趣。

Sam Altman:

很高兴能和你聊天。感谢你的邀请。

Lex Fridman:

感谢大家收听我和 Sam Altman: 之间的对话。要支持这个播客,请查看简介里的赞助商信息。现在,我要用亚瑟·C·克拉克的一段话作为结束语:”或许我们在这个星球上的使命,并非去崇拜上帝,而是去创造上帝。”感谢各位的倾听,期待下次再会。

AIGC对图片行业的影响分析

aigc阅读(79)

AIGC自2023年全面进入大家视野,对各行各业造成了或大或小的影响。大模型、AI、AIGC这几个词大家耳熟能详了,不同的行业、公司,都尝试在自己的领域、业务中找到结合AIGC的方式,带来新的机会。

有这么一种说法,AIGC的到来是PGC、UGC之后的第次创作者革命。也有说法是AI、大模型的这次浪潮几乎可以等同与互联网、移动互联网这样新概念给社会带来的变革。AI是个风口,AIGC是个风口,大模型是个风口,大多数行业、公司、个人都期望能借着这次风口乘风而上。

本文仅结合作者在图片行业的工作经验,去分析AIGC对于图片行业带来的影响,以及以后发展的趋势。很多东西比较主观,是分析也是预测,希望对各位读者有一些作用。

一、图片行业概述

一切的话题从上面这张图说起,整个图片行业其实可以简单的划分为三个组成部分,即:

  1. 生产方
  2. 交易平台
  3. 使用方

二、生产

图片行业的创作者整体分为这么几大类,摄影师、插画师、AIGC创作者。其中第三类正是在2023年AIGC工具蓬勃发展的背景下诞生的新的创作方式。

1. 门槛

从工具来说,摄影师的主要工具是相机,无论是创意类摄影师还是资讯类摄影师(*以拍摄新闻图片未主的摄影师,这类图片不强调创意性,更在乎的是时效性、画面故事性和主题)都是借助相机完成创作。他们的创作工具可能是专业的照相机,也可以是普通的手机。摄影师的门槛不高不低,原因是摄影师想要做到最好自然是很难的,但是入门却十分简单。

有一个可以拍照的设备,有基本的拍照常识(快门、光圈、焦距、焦段)就可以入门,如果再掌握了一些构图、色彩的知识,并且掌握了一些基本的灯光设备使用技巧,就算还可以了。再此基础上再积累了一些审美、经验,那就算是一个比较好的摄影师了。所以整体门槛不算高。

插画师的门槛较高,因为设备其实还不是主要的,主要的是绘画是一门需要长久学习的专业技能,要达到客户愿意为此付费的程度,即使不是科班出身,也是需要很长时间的绘画技能学习、审美积累的。要达到“好”的程度,更是需要付出巨大的努力,甚至是需要有一些“天赋”才能达到,所以门槛其实很高。

而AIGC创作者,由于创作的能力大部分是“工具”提供的。创作者只需要去学习工具的使用,并且善于思考,能够准确将需求表达给工具既可以创作出不错的内容。以Midjourney举例,只需要非常简单的英文词汇,就可以创作出五花八门创意十足的图片。而StableDiffusion则学习门槛高一些,由于SD能满足较高程度的定制化,所以对应学习成本会高很多。(并且由于MJ的商业化较为成功,开发团队有很强的意愿和驱动力去进一步优化使用体验,降低使用门槛。而SD是开源免费,因此需要自己多学习去“折腾”才能产出不错的成果)

2. 定制化程度

摄影师创作的定制化程度较高,无论是需要什么样的山川风光,还是精致的产品摄影,都是能够想办法去创作解决的。尤其是在有PS之类的后期工具辅助下,一些不太好实拍的摄影题材也可以通过后期的合成一定程度解决。

插画师同理,根据用户的需求可以创作出任何主题、风格的内容,并且可以相对成系列,因此插画的定制程度也是极高的。

AIGC创作就目前市面上的MJ和SD两个工具来说,在当前时间点(2024年3月)MJ其实定制化程度很低,甚至想要控制角色的一致性都非常难做到(虽然有了–cref命令去控制同一个角色),至于说想要对画面有精准的布局、色彩等控制就更是难上加难(不考虑用词严谨的话,我可以说当前版本基本做不到)。而SD则有完全不同的体验,SD要生成一个好的东西,需要更加详细准确的正负向提示词,需要各种模型选择,需要各种参数配置,需要各种ControlNet的控制。但是得益于这些控制,SD的定制化程度非常高,可以一定程度上控制角色一致性,可以精准控制构图、光影(2023年底各种新媒体平台流行的光影错觉拼成文字就是SD的基本应用),可以定向换脸或者换服装。SD的门槛高但是可控性上非常强。

3. 生产成本

摄影的生产成本是很高的,尤其是商业广告使用的一些图片。风光摄影的成本高在去一些人迹罕至的地方拍摄带来的旅途成本,产品摄影的成本高在工作室、灯光设备、大量的人员、后期时间、一些实体装饰物品的购置成本。甚至是婚纱摄影也需要工作室各种灯光、摄影器材的成本(如果是旅拍的话还有旅途费用成本)。

插画的生产成本更多体现在人工、时间成本。插画师即使在熟练,也是需要一定时间才能绘制的,更别说人的创意是有限的,很多插画师在绘制插画主要的时间消耗在找灵感、改稿子上,人力成本在当前时代,尤其对于专业技术人员来说,是最高的成本。

AIGC创作成本就大幅降低,MJ可以1分钟生产4张高质量的图片,并且对人员专业程度要求低,可以随时培训上手。而SD虽然复杂、门槛高,但是实际创作起来时间成本比摄影和插画大幅缩减,并且通过ComfyUI行成工作流后更是可以自动化批量生产。AIGC需要的生产成本,是远远低于摄影和插画的。

4. 从生产来总结

从生产来说,AIGC带来的是极低的门槛,极高的生产效率,极低的生产成本。曾经有人在元宇宙兴起的时候说过,限制元宇宙发展的其实是生产效率,而AIGC带来了生产效率的跨时代式提高,当然,AIGC已经不再限于元宇宙了,AIGC带来各行各业生产效率的跨时代提升。

一个简单的例子,一个插画师绘制一张不错的插画,需要多年的学习、经验累积,需要很长的时间累积灵感,然后用一天、两天绘制出一张精致的插画。这个过程在Midjourney只需要一个普通人,输入一个提示词“apple illustration”,然后等待1分钟就可以得到4张超过市面上80%插画质量的插画。

三、交易

图片行业,产生交易在什么地方,其实可以概括说产生在工具产品、图库和中介平台。

1. 工具产品

工具产品是指最终用户实际使用图片的场景发生地,例如做PPT的人用图在WPS,做新媒体封面的人用图在创客贴、爱设计、Canva,做广告设计的人在Adobe PhotoShop,以此类推。

2. 图库

图库是指一些较为专业的图片市场,例如视觉中国、千图网、站酷海洛、图虫创意,在图库选择图片的用户相对专业性较高,并且对版权要求较高,需要保证无版权风险。主要使用在社交媒体发布、线上线下广告、图书出版和商品印刷。这是一个价格相较于工具产品更高的市场,工具产品往往是包月、会员制无限用图,图库则是按张计费比较常见。就单张图片价格来说图库是远高于工具产品的。但是图库中图片数量、质量通常会更高一些。

3. 中介平台

中介平台指的是一些提供定制化拍摄、插画绘制的中间平台,帮助摄影师、插画师和客户牵桥搭线。这通常是一个定制化程度非常高的高端需求市场,给到摄影师、插画师的价格通常是远高于图库的。比如一些大的广告公司会在需要某些题材的市面稀有照片时,会找一些专业摄影师去定制拍摄交付。插画师也是同理,例如出版教材时需要整本书的插画风格统一,且主题是和配文一致的,就会花钱雇佣一个插画师去完成整本图书的插画绘制。

AIGC的出现,给这三类产品带来了巨大的影响。

4. AIGC对工具产品的影响

原来在工具产品中,更多是通过API接入图库或买断一些素材的方式,向用户提供图片使用。例如用户在做PPT时,会在WPS中查找有没有符合自己要表达主题的图片然后插入。但是AIGC由于门槛低、效率高的特点,可以做到让终端用户直接描述自己需求,生成一张独一无二且符合自己需求的图片直接使用。

整个逻辑从拿着需求去找图片匹配,变成了AI拿着需求去创作一个符合需求的图片。可以理解为为每一个用户都配套了一个效率超级高的摄影师、插画师,1分钟给你输出高质量内容。

工具产品因为是最接近终端用户的,所以AIGC可以赋予他直接满足用户需求的能力。随着AIGC的生成效果越来越好,逐渐“生成式满足需求”会完全替代现在的人工去找图方案(因为效率低、质量差)

5. AIGC对图库产品的影响

原来给图库供稿,需要相对较为有经验的摄影师,需要比较专业的插画师来创作。而AIGC时代的来临会大大提高创作效率,创作者只要对于选题有思路,就会很快的批量生产图片,这会极大的冲击传统供稿。尤其图库入库,其实定制化要求不高(甚至没有),所以MJ之类的工具非常好用。就我个人来说,我在端午节3天就创建了600多张插画入库到图库中,这个在以往是完全难以想象的。

可能有同学会想,为啥用图的人不自己生成而要到图库购买?其实本质上,图库图片的创作,已经从一个艺术性创造工作变成了体力活。AIGC创作人是在出卖自己的体力赚钱,AIGC目前的问题是不会100%可用,而AIGC创作者就是不停尝试,然后筛选出好的内容,这样用图的人就省得自己去试错了。购买图片本质就是为选题和试错的成本进行付费。

但是以后等AIGC生成内容成功率非常高、质量非常高(现在市面门槛最低,生成质量最高的应该就是MJ,但是MJ只在一些题材上非常的好,例如静物、单个人的肖像,但是在一些题材非常差,例如大场景的自然风光、城市风光还非常的不理想,如果MJ能把这一块做好,真是对图库极大的冲击),AI非常能准确满足用户需求描述时,可能真正会对图库带来毁灭性的冲击。

6. AIGC对中介平台的影响

对于牵桥搭线的中介平台,AIGC的到来可能会带来新的发展机遇。因为门槛降低,会有更多人成为AIGC创作者,并且AIGC创作的标价应该会更低,很多客户会倾向于找AIGC创作人做定制化的创作。这会让中介平台更加的欣欣向荣。

四、总结

对于创作者来说,AIGC降低了门槛。但是要说会不会替代所有摄影师、插画师,我的结论是不会。甚至高端的20%摄影师工资收入会比现在还高,在全面AI的时代高技术、好创意的“手工”会更加值钱。而中低端的摄影师和插画师要么被替代,要么会拥抱AIGC去提高产出效率和质量,要么就会被逐渐替代,这肯定是未来的趋势,更加两极分化严重。高端从事创意工作,低端从事体力工作。

  • 对于交易平台来说,能更好盈利的一定是离用户最近的工具平台(或者说离用户使用场景最近的地方)。AIGC大大降低门槛,让普通需求方也可以自行按需生产使用了,这会极大的侵占商业图库市场。所以对于以后的图片市场,一定是大家充分拥抱AIGC,但是更需要在自己的垂直赛道去深耕,满足垂直领域用户直接生产的需求。毋庸置疑,核心是生成内容的质量和效率,而在垂直领域耕耘是在大家生成质量都大差不差的情况下的致胜法宝。
  • 对于中介市场来说,AIGC创作者将是一个极大的增量,也会是未来一个核心的创作者大类。
  • 对于使用者来说,未来的用图成本大大降低,用图质量大大提高是必然趋势。

AIGC核心在生成质量,AIGC机会在垂直赛道,AIGC的盈利关键点将回到众多的普通用户身上,技术的下放,门槛的降低,成本的下降将给图片行业带来一次新的机遇,对传统图片产品和企业带来一场无法逃避必须直面的挑战。