半年前,我写了篇文章——《浅淡游戏行业当前的AI视频工具》,将视频制作流程分成了寻找灵感、制作草稿、收集素材、剪辑成稿。
其中需要的AI视频能力分为了以下4类方向。
- 视频分析:利用人工智能的分析和理解能力,提炼出美术设计所关注的核心信息,将大量缩成关键要点,从而提高寻找灵感的效率。
- 素材搜索匹配:基于视频分析的AI技术,通过对素材库中的视频进行分析、解构和标记,再根据用户提供的关键词匹配最适合的视频内容,提高视频类资源制作的效率。
- 视频生成:基于生成式AI技术,能够通过文本和图像内容生成视频内容。
- 剪辑工具类:辅助视频资源的制作,提高制作效率。
而最近在“视频生成”方向,各家“视频生成”厂商接连内卷,先是快手可灵公布,然后是Luma公布,紧接着Runway公布了Gen3模型。用户能够在“没有素材”或者“仅有图片素材”时,使用这些工具进行“文生视频”、“图生视频”生成视频素材,随着行业的发展,当前“视频生成”也已发展到“抽多几次还勉强能用”的阶段。加上目前各家视频生成能力平均成本为几毛钱/1s,也就意味着平均几块钱能生成一个能用于生产的视频素材片段,相比以前“将静态图片变成动态”的“K帧”动作“1人1天的工作量”成本,AI现在已经能在某些场景下起到替代人力的作用了。
但是,这只是理想情况,在实际的业务中,AI视频生成还是存在诸多问题的。
在和业务同事访谈时,问到“如何看待当前AI视频生成能力时”,业务同事是这样表示的,“偶尔抽多几次,能抽到自己想要的东西。但有时候还是抽到想砸电脑,生成的东西总差点意思,想改又改不了。”
以下几个例子,或许能帮助大家更直观地认知。
可见,虽然AI能生成视频片段素材,但是存在“指令识别不准”、“无法修改”、“模糊”、“主体不一致”、“物理运动BUG”等问题。这导致“视频生成”仅仅能在“视频质量”要求较低的场景发挥作用。对于像是高精度的视频诉求,AI无法满足。
那么,像是“视频分析、素材搜索匹配、剪辑工具类”的发展情况如何呢?这些能力或多或少有在目前的AI剪辑工具上有体现,因此我特地研究了几家AI剪辑相关的厂商的产品,下面我浅浅盘下。各AI剪辑厂商的发展情况
由于认知和精力有限,仅仅选取了几个个人接触较多的AI剪辑工具。
01 剪映
提到AI剪辑,第一个肯定是字节旗下的剪映。背靠字节的大模型底层能力、抖音系视频生态提供的庞大剪辑需求量、多年的产品积累,剪映是所有AI工具中较为突出的那一个。下面我盘点下其部分部分AI能力。
1. 营销成片
该功能可以基于输入视频素材片段和文案生成,对画面内容进行分析并裁剪,匹配最合适的视频片段进行混剪视频,然后加上BGM、字幕、配音,并支持导出与继续编辑。
其中文案支持AI生成,用户只需要提供产品名称和相关的属性,AI便能生成多个文案供用户挑选。但个人觉得这个功能只能用于辅助激发创意,AI生成的结果往往不能直接使用,或者说生成的效果比较差。
选择好文案后,AI会生成多个结果供用户挑选,用户可选中需要的内容进行继续编辑或者直接导出。
体验下来,个人觉得这功能有点别扭,可能只能满足非企业用户(ToC)和成片质量较低的企业用户(ToB)的需求。(不是说功能不好,因为我是B端用户,不满足我的需求。)
“营销成片”这个功能,很明显是面向企业用户(ToB)的。企业会需要在批量产生视频素材的时候需要这类功能,那么企业的核心诉求是“较低成本产出符合业务最低限度诉求的大批量素材”,其中的要点是“低成本”、“符合业务最低限度诉求”、“大批量”。
剪映的“营销成片”这里有个问题,在生成时可配置的内容太少了,比如混剪逻辑、字体颜色、BGM这些内容都无法配置,用户只能按AI识别的内容获得生成的结果,这是个不可控的“黑盒”。对非企业用户(ToC)来说,这是个很好的功能,他能降低使用门槛。但是对企业用户(ToB)来说,这些不能配置的内容会降低AI成品的质量,导致不符合“业务最低限度诉求”。假设业务需要按音乐节拍混剪、字体使用制定字体、配音需要使用不那么呆AI配音,那么现在的“营销成片”便无法满足,需要人力额外花费时间修改。
所以ToB是最好能够提供配置能力,在一开始预设好该配置的参数,然后提交生成任务给计算机,人力就释放出来去干其他事情了。而不是让人力守在电脑前,一个个审核,然后去一个个编辑。如果用户有精力一个个编辑修改,还不如从一开始就自己混剪,批量混剪一批视频,也才几个小时的工作量,都能和一个个编辑修改持平了。
对于成片质量要求较高的企业用户来说,AI的“高黑盒程度”导致AI成片无法满足“符合业务最低限度诉求”,因此需要额外的人力成本进行修正,所以也无法满足“低成本”和“大批量”的需求了。
2. 智能裁剪
该功能可以识别视频人物主体位置,从而修改视频的运镜,保证人物主体在中心位置。这适用于运镜较多的人物视频,用于跟踪人物主体。
视频片段来自于B站主页推荐的up“芋圆有点甜-”
3. 图文成片
“图文成片”这个功能有点和“营销成片”类似,但是生成的是图片拼成的视频,而且更多面向于非企业用户(ToC)。
该功能也是基于AI生成或者自己撰写的脚本文案,再选上合适的AI音色,最后选择自行上传素材匹配 或是 交给剪映智能识别匹配。剪映匹配的内容支持表情包和素材,这明显是给非企业用户生成娱乐向内容用的。
尝试了下,剪映匹配的素材能一定程度上匹配文本内容,给到对应的图片素材。我试了下生成绝区零的宣传视频,结果生成的静态图片素材带有水印,多少有点尴尬。
而试了下生成螺蛳粉的宣传视频,其中也出现了不知名品牌的片段。
这说明这里的图文成片所匹配的素材库,多少有点版权相关的风险,所以这项能力并不能用于企业用户(ToB)的设计场景,还需要等图片素材库和AI匹配算法再发展一会儿。
而且如果要企业用户(ToB)使用,这项能力和“营销成片”存在同样的问题,其可配置的内容太少了,AI的“高黑盒程度”导致AI成片无法满足“符合业务最低限度诉求”,因此需要额外的人力成本进行修正,所以也无法企业用户(ToB)满足“低成本”和“大批量”的需求了。
4. 视频翻译
这项能力可以在用户上传本人视频的时候,将用户口播的内容翻译成指定语言,并将口型转换成对应语言的口型。在上传视频时候,需要进行本人认证,所以导致无法使用他人的视频,避免直接搬运他人的视频翻译后上传到别的网络。
目前功能仅支持6种语言,而且转换口型之后,在人物动作幅度或者角度不正的时候,嘴部有一些明显的瑕疵。(有点好奇,后续剪映上线某些较长的语种的时候,会采用怎么样的翻译方案。)
5. 编辑器中的能力
剪映除了上面提到的AI功能,在视频编辑器中也融入了AI能力,用于辅助视频生产者提效。
这里涉及到的功能很多,比如生成文本、文本生成配音、识别字幕、识别音乐、镜头分割、人生分离,就不一一赘述了。
02 即创
即创是巨量引擎旗下的“一站式智能创意生产与管理平台”,用于帮助企业用户在营销场景下提供AI帮助的。相比起剪映,即创的能力直接面向企业用户(ToB)。
其中的AI工具有视频创作、图文创作、直播创作模块,而视频创作相关的仅有“智能成片”和“AI视频脚本”。
1. 智能成片
该功能通过添加脚本、音乐、口播等配置能力,利用AI生成多个版本的成片视频。为了方便入门用户和高度自定义用户,即创还提供了“一键成片”和“高阶成片”模式。
“一键成片”和前面提到的剪映的“营销成片”一样,可控制的元素太少了(混剪逻辑、BGM、声音等都不可控),只能满足成片质量较低的企业用户(ToB)的需求。而且相比起剪映,即创还无法二次修改,AI生成错误的内容,想救也救不了。
比如下面的案例,即创会识别脚本中的关键文案,然后生成一些奇怪的特效。关键是这个特效抓得也不准,在成品中意义不明,也无法去掉。
“高阶成片”在“一键成片”的基础上增加了视频前后贴、数字人、配音、音乐、字幕等的自定义选项,这较大程度上解决了“一键成片”和剪映的“营销成片”的问题,使得企业用户能“较低成本产出符合业务最低限度诉求的大批量素材”。
2. AI视频脚本
该功能分为“脚本生成”和“脚本裂变”。
“脚本生成”是基于输入的信息,利用AI生成脚本文案,支持跳转到“智能成片”中进行快速生成。
就是个人感觉AI生成的脚本,估计只能满足成片质量较低的企业用户(ToB)的需求。
“脚本裂变”则是基于已有的脚本进行派生,用AI模仿已有脚本批量生成更多的脚本。相对来说,“脚本裂变”生成的效果会相对更好,因为等于进行了提示词工程,减少了AI发散的情况。
3. AI灵感
AI灵感功能会根据用户当前主体下,历史触达人群、售卖商品、素材偏好、品牌调性、营销偏好等多维历史信息为用户推荐素材内容,以便激发用户灵感创作。其中AI灵感功能便捷地提供了素材投放数据、视频要点拆解和一键生成类似脚本的能力,方便用户进行创作。
03 智能创作云
智能创作云是火山引擎旗下的AI剪辑工具,也是一款面向企业用户(ToB)的AI剪辑工具。其中涵盖的能力有视频混剪、智能脚本工具、自动剪辑成片、视频拆条、视频编辑器、视频裁剪、虚拟背景、智能配音、添加品牌等。
由于能力有点多,下面挑一些重点来讲解。
1. 视频混剪
该能力可对目标混剪素材进行分组,并对每组素材进行排列/组合+内容算法的智能拼接。根据多素材进行视频混剪,裂变出更多视频。适用于矩阵号投放场景,大幅降低营销成本,迅速起号转化。
相比起剪映和即创的能力,智能创作云的配置项更多,能力更抽象,能满足更多B端业务场景。比如其支持按镜头组设置混剪,而不像剪映和即创完全依赖AI进行视频编排。
2. 自动剪辑成片
自动剪辑成片支持用户自定义导入图片/视频素材一键生成精美视频,提供卡点、运镜、动画、特效等多种视频效果元素,降低创作门槛,赋能创作表达。
但是测试了下,成品效果比较一般,里面由AI控制的部分太多了。
3. 其余能力
剩下这些能力就简单文字概况下好了,和剪映、即创的能力有所重合。
- 视频编辑器:类似于剪映的视频编辑器,提供包含音视频裁剪、文字、特效、滤镜、贴纸、转场、字幕、配乐等常用能力。
- 视频裁剪:可更改视频尺寸,并在部分有主体的视频中,识别主体位置(类似于剪映的“智能裁剪”能力)。
- 视频拆条:可以结合视频内容进行拆分,可将长视频分成多个短视频。
- 智能配音:将输入的文字转化为智能虚拟人声配音,并支持添加背景音乐,生成MP3或WAV格式的音频。
04 其他AI剪辑工具
除了上面提到的剪映、即创、智能创作云,AI剪辑工具还有很多,比如:汇量科技的playturbo、美图的奇觅、网易的见外工作室、筷子科技……
05 AI剪辑工具的发展思路
我们可以整体发现,各家AI剪辑工具厂家提供的能力,其实和剪映、即创、智能创作云的大同小异。而且,个人觉得大体的功能建设思路差不多,都是:
- 结合业务流程提供AI能力支持,积累AI单点能力。
- 结合高频需求串联多个AI单点能力,构建工作流能力。
“结合业务流程提供AI能力支持,积累AI单点能力”这个很好理解。
工具类产品目的是在业务流程上提供“使能”与“提效”的辅助。但是直接给整个业务流程进行辅助难度很大。所以我们需要“把复杂的问题简单化”。我们可以将业务流程拆解成多个核心环节,同时拆解出每个核心环节所需的能力,并基于这些能力需求提供AI单点能力。相比起直接提供面向整个流程的能力,基于单点诉求提供AI支持反而很简单。因此这种基于业务流程提供AI单点能力支持是很好的AI功能切入点。
视频制作的业务流程可分为“寻找灵感、制作草稿、收集素材、剪辑成稿”这四个阶段。
- 寻找灵感:该环节重点是知道要做一个怎么的视频,这个视频需要达到什么样的目的,并构思其题材、内容、音乐、字幕等相关内容。因此能激发创作者灵感的功能都可视为该环节的内容,比如即创的“灵感库”。
- 制作草稿:将灵感构思落地成脚本稿或者分镜稿,形成视频的主体框架大纲,并与相关的业务人员进行确认与核对。利用AI生成脚本稿的功能属于该环节,比如即创的“AI视频脚本”、剪映“营销成片”中的AI生成脚本稿能力。
- 收集素材:该环节需要收集用于成片的素材内容,包括但不限于图片、视频片段、特效、配音、字幕、BGM等等。其中AI生成的图片、视频工具都属于该环节。
- 剪辑成稿:基于收集到的素材,基于大纲进行剪辑,从而输出成品稿。剪映的各项视频剪辑工具就属于该环节。
如下图,基本上AI剪辑工具都能对应上一个环节。
基于这四个阶段的能力建设,各家厂商还会提供将多个流程串联起来的自动化能力。这便是前面提到的“结合高频需求串联多个AI能力,构建工作流能力”思路。
比如各家厂商都有将“制作草稿、收集素材、剪辑成稿”三个环节串联起来,提供一键生成成品的能力。
如果AI生成的成品准确度够高,那么用户只需要收集到灵感,就可以快速走完“制作草稿、收集素材、剪辑成稿”三个环节,大批量低成本地生成符合需求的视频内容了。
因为单点AI能力的辅助提升是有限的,用户一般在实际的业务中会使用到多个单点能力。假设用户使用了AI脚本制作视频的脚本稿,然后使用AI配音能力生成配音,紧接着使用视频拆条功能剪辑视频,最后到视频剪辑器上完成剪辑。在多个功能上跳转、传输素材文件十分耗费人力,而且其中存在很多机械的重复工作。
因此,基于这些机械重复的场景,将多个AI单点能力串联成工作流,能进一步提升业务的效率,让用户做到一站式输入输出,极大释放生产力。
06 后续思路推测
前两个阶段是当前能从市面上AI剪辑工具看出的建设思路,那在这之后呢?
个人觉得后续的思路会和我之前思考过的作文《浅谈数字员工的实现路径问题》有点类似。
之前梳理到的数字员工建设四个阶段:
- 从“实习生”到“核心成员”。
- 将数字员工拆解成“技能”,把复杂问题简单化。
- 业务流程数字化、线上化,并贴合业务流程聚合“员工技能”。
- 行为数据采集,用于进一步训练AI模型,实现AI数字员工。
当前AI剪辑工具的两个阶段可以理解为各家厂商在尝试构造“AI数字员工”的各项剪辑能力,各家厂商需要持续发力,将AI剪辑能力建设到一定程度,以让AI能够覆盖各个视频制作流程,并一定程度能够替代人力。这等同于跑通了数字员工的前三个阶段。
然后各家AI剪辑厂商可以采集用户AI的使用数据、参数设置、成品数据等内容,用于训练AI数字员工所需的AI模型。AI数字员工适用于“AI Agent”框架,即感知、计划、行动三个模块。
各家厂商实现的“AI剪辑能力”属于“行动”模块的构建。
“感知”模块则是用户的需求输入、素材输入、业务的数据等外部情况。
“计划”模块则是我们所训练的AI模型,“计划”模块需要感知用户的需求、素材输入、业务的数据等外部信息,输出所需要产出的视频内容需求,然后调用合适的AI剪辑能力,进行视频的产出,实现视频的“无中生有”。
如此一来,各家AI剪辑厂商就可以配备自己的AI视频员工能力,帮助各行各业自动化、智能化生产视频内容了。
07 谁更容易卷成
既然各家的核心思路都一致,小的就产生了一个新的疑惑——那么最终哪家能在这场AI剪辑领域的内卷中胜出呢?
小的无法准确了解到每家公司的实际情况,但是个人觉得,能够在这场竞争中卷成功的AI剪辑工具必定满足以下条件:
- 用AI剪辑工具能吸引到足够的目标用户。(有用户)
- 能够跑通与用户价值交换的商业逻辑。(能赚钱)
- 在前两个过程中构建自己的竞争壁垒,以源源不断进行价值交换。(有壁垒)
先讲讲第一点“有用户”的思考。
虽然AI剪辑工具都是为了视频制作业务服务,但是也会根据对用户进行细分,这里有四个分类方向。
- 按用户类型:按用户类型可分为非企业用户(ToC)和企业用户(ToC),非企业用户会更倾向于制作内容向的视频,企业用户则会有较大一部分是制作营销向的视频。
- 按行业类型:指比如游戏、动漫、电商等行业。
- 按视频类型:可分为内容向和营销向。内容向是指有进行非营销目的内容输出与表达的视频,比如游戏解说、电影解说、舞蹈、动漫混剪、vlog等。而营销向则是指有一定营销目的的视频,比如产品推广、品牌宣传等视频。当然,视频可以同时属于内容向和营销向两个类别。
- 按视频质量:视频也是有高低质量之分的,有些视频会包含良好的创意脚本、精美的画面、优秀的分镜、动听的BGM等内容,这项视频可视为高质量的视频。但是有些视频脚本粗糙、画面低劣、分镜简陋,是低质量的视频。不过,低质量视频并不意味着这些视频没用,低视频也是有能发挥作用的地方,比如在广告投放场景上,低质量也能起到低成本获客的作用。
AI剪辑工具会有自己的目标人群、所服务行业、视频类型/视频质量制作倾向。
比如剪映的官网标语是“轻而易剪”,其目的是提供简单的易用的剪辑工具,因此剪映的服务群体会相对更泛,各种用户、行业、视频类型都会涵盖。
而即创和智能创作云是ToB的AI剪辑工具,一个是挂在广告买量平台上,一个作为SaaS工具被售卖,可见主打的就是给企业提供视频制作服务。
不同的群体意味着有不同倾向的剪辑需求。AI剪辑工具如何把AI能力点(比如混剪、文生脚本、AI配音、视频拆条等)结合用户的需求和场景提供合适的工作流能力支持?并平衡好功能的标准化与定制化建设?这个问题是吸引用户留存的关键。
比如面向C端用户,功能不能太复杂,最好是一键式的傻瓜操作。而面向B端用户,功能要有较好的标准化程度,才能更多地满足企业在不同场景下的需求。
就拿各家都有的“混剪成片”能力来举例说明,即剪映的“营销成片”、即创的“智能成片”、智能创作云的“视频混剪”,这几个能力都是基于“混剪”这个AI能力点进行产品功能设计的。
所谓标准化,在B端产品设计中经常用到,是指将多个类型的业务按统一的标准进行规范,使得在业务流程进行的过程中,不同类型的业务能按统一的标准进行,从而减少效率的损失。
如果在“混剪成片”能力上进行高度标准化建设,能使得“混剪成片”能力可满足大部分的混剪需求。
在研究到的示例中,智能创作云的“视频混剪”、即创的“智能成片”是标准化程度较高的,其中的混剪逻辑、视频前后贴、数字人、配音、音乐、字幕等选项都可以自定义。但这样带来一个问题——功能复杂度提高,这导致用户的学习成本变高了,实际生产中的操作成本也变高了。
所谓定制化,是指给特定的场景进行功能定制,使得在某些特定场景上做到“低配置成本的输入和输出”。而剪映的“营销成片”能力就是相对定制化的能力,其可配置的输入项做了减法,意在让更多人上手这项功能能力。这也可能和“剪映的用户群体涵盖更多的非企业用户”有关系,所以他们的功能需要更简单、更容易上手,从而让更多人能用上这些能力。
可见目前看到的各家剪辑工具,AI剪辑功能呈现上大体上都是较为符合用户群体的需求的,差距就在于后续的功能推出、产品运营、产品营销方面的手段差距了,这一块暂时未能看出任何结论。
那么接下来是“能赚钱”这一点。
个人觉得,AI剪辑工具的商业模式是:AI剪辑工具通过提供视频制作流程上的“使能”和“提效”服务,用户为这项服务能力进行付费。只要AI剪辑能力能给到业务“使能”和“提效”的帮助,并且这个成本低于产出同等质量和量级内容的人力成本。
BTW,剪映在这一块还会有点区别,因为剪映背后有抖音,其核心目的还有“为抖音的短视频内容生态提供生产辅助”,所以付费盈利不一定是剪映的核心商业模式。
目前各家AI剪辑工具都是直接开启商业化,要么是按点数收费、要么是会员制,不存在亏本获客,除非后续运营手段层面搞价格战、搞买量、搞政策扶持,搞到ROI为负数、无法回本。
最后就是“有壁垒”这一点。
值得一提的是,除开自行训练的大模型,AI剪辑中的大多数能力其实算不上“壁垒”。因此这些能力大多数都有开源的技术,或者说通用的底层大模型能力,其他家厂商稍微研究研究也能做到同等的程度。因此要在后续继续卷赢,必须得有自己的壁垒,这些壁垒可以是:
- 自行训练的大模型:除非企业基于自有的数据进行大模型训练,且大模型有较好的效果,且其他厂商不能使用这个大模型,能够给到与其他AI编辑工具有差异化的效果。那么,该大模型能力便可以算是技术层面的壁垒。
- 剪辑能力:由于AI幻觉问题的存在,AI生成的结果中往往有一定的错误比例,如果能够提供强大的编辑器作为兜底能力,便能一定程度环节壁垒的影响。比如剪映的编辑器已经发展了好几年,能够提供十分完善的剪辑能力,相比起即创的“抽盲盒”模式,剪映的体验会更好。
- 素材库:如果AI剪辑功能能够调用庞大的素材库,并对这些素材进行准确的AI分析分类,AI剪辑工具能在用户的“寻找灵感”、“制作草稿”、“收集素材”环节提供高效的辅助。比如在特定场景上,提供一键成片能力,通过输入的脚本关键词,匹配准确的视频片段画面。
这些能力依赖于企业有垂直于用户所属行业的庞大素材库,并且企业需要能够有资源进行这些素材的处理和AI模型训练。这个方向往往是需要企业能够背靠庞大的视频市场,比如背靠抖音的剪映、背靠巨量的即创。
- 行业赋能能力:由于AI剪辑工具有行业之间的区别,如果能垂直赋能某一行业,给某个行业提供更高效的能力支持,同时沉淀一些该行业的能力支持、最佳实践案例(比如行业素材模板、工作流模板等等),那么企业也能在某个领域守住自己的一亩三分地。
08 总结
总的来说,AI剪辑工具目前也处于快速发展的阶段,目前还存在一些技术和应用上的局限,但其潜力和前景不容忽视。随着技术的成熟和市场的适应,我们有理由相信,AI将在视频制作领域发挥更加关键的作用。
而其中谁能从中胜出,暂且也无从得知。但是个人认为,在其中能卷出头的AI剪辑工具,必定符合“有用户”、“能赚钱”、“有壁垒”这三个特点。