浅谈当前的AI剪辑工具-IT极限技术分享汇

半年前，我写了篇文章——《浅淡游戏行业当前的AI视频工具》，将视频制作流程分成了寻找灵感、制作草稿、收集素材、剪辑成稿。

其中需要的AI视频能力分为了以下4类方向。

视频分析：利用人工智能的分析和理解能力，提炼出美术设计所关注的核心信息，将大量缩成关键要点，从而提高寻找灵感的效率。
素材搜索匹配：基于视频分析的AI技术，通过对素材库中的视频进行分析、解构和标记，再根据用户提供的关键词匹配最适合的视频内容，提高视频类资源制作的效率。
视频生成：基于生成式AI技术，能够通过文本和图像内容生成视频内容。
剪辑工具类：辅助视频资源的制作，提高制作效率。

而最近在“视频生成”方向，各家“视频生成”厂商接连内卷，先是快手可灵公布，然后是Luma公布，紧接着Runway公布了Gen3模型。用户能够在“没有素材”或者“仅有图片素材”时，使用这些工具进行“文生视频”、“图生视频”生成视频素材，随着行业的发展，当前“视频生成”也已发展到“抽多几次还勉强能用”的阶段。加上目前各家视频生成能力平均成本为几毛钱/1s，也就意味着平均几块钱能生成一个能用于生产的视频素材片段，相比以前“将静态图片变成动态”的“K帧”动作“1人1天的工作量”成本，AI现在已经能在某些场景下起到替代人力的作用了。

但是，这只是理想情况，在实际的业务中，AI视频生成还是存在诸多问题的。

在和业务同事访谈时，问到“如何看待当前AI视频生成能力时”，业务同事是这样表示的，“偶尔抽多几次，能抽到自己想要的东西。但有时候还是抽到想砸电脑，生成的东西总差点意思，想改又改不了。”

以下几个例子，或许能帮助大家更直观地认知。

可见，虽然AI能生成视频片段素材，但是存在“指令识别不准”、“无法修改”、“模糊”、“主体不一致”、“物理运动BUG”等问题。这导致“视频生成”仅仅能在“视频质量”要求较低的场景发挥作用。对于像是高精度的视频诉求，AI无法满足。

那么，像是“视频分析、素材搜索匹配、剪辑工具类”的发展情况如何呢？这些能力或多或少有在目前的AI剪辑工具上有体现，因此我特地研究了几家AI剪辑相关的厂商的产品，下面我浅浅盘下。各AI剪辑厂商的发展情况

由于认知和精力有限，仅仅选取了几个个人接触较多的AI剪辑工具。

01 剪映

提到AI剪辑，第一个肯定是字节旗下的剪映。背靠字节的大模型底层能力、抖音系视频生态提供的庞大剪辑需求量、多年的产品积累，剪映是所有AI工具中较为突出的那一个。下面我盘点下其部分部分AI能力。

1. 营销成片

该功能可以基于输入视频素材片段和文案生成，对画面内容进行分析并裁剪，匹配最合适的视频片段进行混剪视频，然后加上BGM、字幕、配音，并支持导出与继续编辑。

其中文案支持AI生成，用户只需要提供产品名称和相关的属性，AI便能生成多个文案供用户挑选。但个人觉得这个功能只能用于辅助激发创意，AI生成的结果往往不能直接使用，或者说生成的效果比较差。

选择好文案后，AI会生成多个结果供用户挑选，用户可选中需要的内容进行继续编辑或者直接导出。

体验下来，个人觉得这功能有点别扭，可能只能满足非企业用户（ToC）和成片质量较低的企业用户（ToB）的需求。（不是说功能不好，因为我是B端用户，不满足我的需求。）

“营销成片”这个功能，很明显是面向企业用户（ToB）的。企业会需要在批量产生视频素材的时候需要这类功能，那么企业的核心诉求是“较低成本产出符合业务最低限度诉求的大批量素材”，其中的要点是“低成本”、“符合业务最低限度诉求”、“大批量”。

剪映的“营销成片”这里有个问题，在生成时可配置的内容太少了，比如混剪逻辑、字体颜色、BGM这些内容都无法配置，用户只能按AI识别的内容获得生成的结果，这是个不可控的“黑盒”。对非企业用户（ToC）来说，这是个很好的功能，他能降低使用门槛。但是对企业用户（ToB）来说，这些不能配置的内容会降低AI成品的质量，导致不符合“业务最低限度诉求”。假设业务需要按音乐节拍混剪、字体使用制定字体、配音需要使用不那么呆AI配音，那么现在的“营销成片”便无法满足，需要人力额外花费时间修改。

所以ToB是最好能够提供配置能力，在一开始预设好该配置的参数，然后提交生成任务给计算机，人力就释放出来去干其他事情了。而不是让人力守在电脑前，一个个审核，然后去一个个编辑。如果用户有精力一个个编辑修改，还不如从一开始就自己混剪，批量混剪一批视频，也才几个小时的工作量，都能和一个个编辑修改持平了。

对于成片质量要求较高的企业用户来说，AI的“高黑盒程度”导致AI成片无法满足“符合业务最低限度诉求”，因此需要额外的人力成本进行修正，所以也无法满足“低成本”和“大批量”的需求了。

2. 智能裁剪

该功能可以识别视频人物主体位置，从而修改视频的运镜，保证人物主体在中心位置。这适用于运镜较多的人物视频，用于跟踪人物主体。

视频片段来自于B站主页推荐的up“芋圆有点甜-”

3. 图文成片

“图文成片”这个功能有点和“营销成片”类似，但是生成的是图片拼成的视频，而且更多面向于非企业用户（ToC）。

该功能也是基于AI生成或者自己撰写的脚本文案，再选上合适的AI音色，最后选择自行上传素材匹配或是交给剪映智能识别匹配。剪映匹配的内容支持表情包和素材，这明显是给非企业用户生成娱乐向内容用的。

尝试了下，剪映匹配的素材能一定程度上匹配文本内容，给到对应的图片素材。我试了下生成绝区零的宣传视频，结果生成的静态图片素材带有水印，多少有点尴尬。

而试了下生成螺蛳粉的宣传视频，其中也出现了不知名品牌的片段。

这说明这里的图文成片所匹配的素材库，多少有点版权相关的风险，所以这项能力并不能用于企业用户（ToB）的设计场景，还需要等图片素材库和AI匹配算法再发展一会儿。

而且如果要企业用户（ToB）使用，这项能力和“营销成片”存在同样的问题，其可配置的内容太少了，AI的“高黑盒程度”导致AI成片无法满足“符合业务最低限度诉求”，因此需要额外的人力成本进行修正，所以也无法企业用户（ToB）满足“低成本”和“大批量”的需求了。

4. 视频翻译

这项能力可以在用户上传本人视频的时候，将用户口播的内容翻译成指定语言，并将口型转换成对应语言的口型。在上传视频时候，需要进行本人认证，所以导致无法使用他人的视频，避免直接搬运他人的视频翻译后上传到别的网络。

目前功能仅支持6种语言，而且转换口型之后，在人物动作幅度或者角度不正的时候，嘴部有一些明显的瑕疵。（有点好奇，后续剪映上线某些较长的语种的时候，会采用怎么样的翻译方案。）

5. 编辑器中的能力

剪映除了上面提到的AI功能，在视频编辑器中也融入了AI能力，用于辅助视频生产者提效。

这里涉及到的功能很多，比如生成文本、文本生成配音、识别字幕、识别音乐、镜头分割、人生分离，就不一一赘述了。

02 即创

即创是巨量引擎旗下的“一站式智能创意生产与管理平台”，用于帮助企业用户在营销场景下提供AI帮助的。相比起剪映，即创的能力直接面向企业用户（ToB）。

其中的AI工具有视频创作、图文创作、直播创作模块，而视频创作相关的仅有“智能成片”和“AI视频脚本”。

1. 智能成片

该功能通过添加脚本、音乐、口播等配置能力，利用AI生成多个版本的成片视频。为了方便入门用户和高度自定义用户，即创还提供了“一键成片”和“高阶成片”模式。

“一键成片”和前面提到的剪映的“营销成片”一样，可控制的元素太少了（混剪逻辑、BGM、声音等都不可控），只能满足成片质量较低的企业用户（ToB）的需求。而且相比起剪映，即创还无法二次修改，AI生成错误的内容，想救也救不了。

比如下面的案例，即创会识别脚本中的关键文案，然后生成一些奇怪的特效。关键是这个特效抓得也不准，在成品中意义不明，也无法去掉。

“高阶成片”在“一键成片”的基础上增加了视频前后贴、数字人、配音、音乐、字幕等的自定义选项，这较大程度上解决了“一键成片”和剪映的“营销成片”的问题，使得企业用户能“较低成本产出符合业务最低限度诉求的大批量素材”。

2. AI视频脚本

该功能分为“脚本生成”和“脚本裂变”。

“脚本生成”是基于输入的信息，利用AI生成脚本文案，支持跳转到“智能成片”中进行快速生成。

就是个人感觉AI生成的脚本，估计只能满足成片质量较低的企业用户（ToB）的需求。

“脚本裂变”则是基于已有的脚本进行派生，用AI模仿已有脚本批量生成更多的脚本。相对来说，“脚本裂变”生成的效果会相对更好，因为等于进行了提示词工程，减少了AI发散的情况。

3. AI灵感

AI灵感功能会根据用户当前主体下，历史触达人群、售卖商品、素材偏好、品牌调性、营销偏好等多维历史信息为用户推荐素材内容，以便激发用户灵感创作。其中AI灵感功能便捷地提供了素材投放数据、视频要点拆解和一键生成类似脚本的能力，方便用户进行创作。

03 智能创作云

智能创作云是火山引擎旗下的AI剪辑工具，也是一款面向企业用户（ToB）的AI剪辑工具。其中涵盖的能力有视频混剪、智能脚本工具、自动剪辑成片、视频拆条、视频编辑器、视频裁剪、虚拟背景、智能配音、添加品牌等。

由于能力有点多，下面挑一些重点来讲解。

1. 视频混剪

该能力可对目标混剪素材进行分组，并对每组素材进行排列/组合+内容算法的智能拼接。根据多素材进行视频混剪，裂变出更多视频。适用于矩阵号投放场景，大幅降低营销成本，迅速起号转化。

相比起剪映和即创的能力，智能创作云的配置项更多，能力更抽象，能满足更多B端业务场景。比如其支持按镜头组设置混剪，而不像剪映和即创完全依赖AI进行视频编排。

2. 自动剪辑成片

自动剪辑成片支持用户自定义导入图片/视频素材一键生成精美视频，提供卡点、运镜、动画、特效等多种视频效果元素，降低创作门槛，赋能创作表达。

但是测试了下，成品效果比较一般，里面由AI控制的部分太多了。

3. 其余能力

剩下这些能力就简单文字概况下好了，和剪映、即创的能力有所重合。

视频编辑器：类似于剪映的视频编辑器，提供包含音视频裁剪、文字、特效、滤镜、贴纸、转场、字幕、配乐等常用能力。
视频裁剪：可更改视频尺寸，并在部分有主体的视频中，识别主体位置（类似于剪映的“智能裁剪”能力）。
视频拆条：可以结合视频内容进行拆分，可将长视频分成多个短视频。
智能配音：将输入的文字转化为智能虚拟人声配音，并支持添加背景音乐，生成MP3或WAV格式的音频。

04 其他AI剪辑工具

除了上面提到的剪映、即创、智能创作云，AI剪辑工具还有很多，比如：汇量科技的playturbo、美图的奇觅、网易的见外工作室、筷子科技……

05 AI剪辑工具的发展思路

我们可以整体发现，各家AI剪辑工具厂家提供的能力，其实和剪映、即创、智能创作云的大同小异。而且，个人觉得大体的功能建设思路差不多，都是：

结合业务流程提供AI能力支持，积累AI单点能力。
结合高频需求串联多个AI单点能力，构建工作流能力。

“结合业务流程提供AI能力支持，积累AI单点能力”这个很好理解。

工具类产品目的是在业务流程上提供“使能”与“提效”的辅助。但是直接给整个业务流程进行辅助难度很大。所以我们需要“把复杂的问题简单化”。我们可以将业务流程拆解成多个核心环节，同时拆解出每个核心环节所需的能力，并基于这些能力需求提供AI单点能力。相比起直接提供面向整个流程的能力，基于单点诉求提供AI支持反而很简单。因此这种基于业务流程提供AI单点能力支持是很好的AI功能切入点。

视频制作的业务流程可分为“寻找灵感、制作草稿、收集素材、剪辑成稿”这四个阶段。

寻找灵感：该环节重点是知道要做一个怎么的视频，这个视频需要达到什么样的目的，并构思其题材、内容、音乐、字幕等相关内容。因此能激发创作者灵感的功能都可视为该环节的内容，比如即创的“灵感库”。
制作草稿：将灵感构思落地成脚本稿或者分镜稿，形成视频的主体框架大纲，并与相关的业务人员进行确认与核对。利用AI生成脚本稿的功能属于该环节，比如即创的“AI视频脚本”、剪映“营销成片”中的AI生成脚本稿能力。
收集素材：该环节需要收集用于成片的素材内容，包括但不限于图片、视频片段、特效、配音、字幕、BGM等等。其中AI生成的图片、视频工具都属于该环节。
剪辑成稿：基于收集到的素材，基于大纲进行剪辑，从而输出成品稿。剪映的各项视频剪辑工具就属于该环节。

如下图，基本上AI剪辑工具都能对应上一个环节。

基于这四个阶段的能力建设，各家厂商还会提供将多个流程串联起来的自动化能力。这便是前面提到的“结合高频需求串联多个AI能力，构建工作流能力”思路。

比如各家厂商都有将“制作草稿、收集素材、剪辑成稿”三个环节串联起来，提供一键生成成品的能力。

如果AI生成的成品准确度够高，那么用户只需要收集到灵感，就可以快速走完“制作草稿、收集素材、剪辑成稿”三个环节，大批量低成本地生成符合需求的视频内容了。

因为单点AI能力的辅助提升是有限的，用户一般在实际的业务中会使用到多个单点能力。假设用户使用了AI脚本制作视频的脚本稿，然后使用AI配音能力生成配音，紧接着使用视频拆条功能剪辑视频，最后到视频剪辑器上完成剪辑。在多个功能上跳转、传输素材文件十分耗费人力，而且其中存在很多机械的重复工作。

因此，基于这些机械重复的场景，将多个AI单点能力串联成工作流，能进一步提升业务的效率，让用户做到一站式输入输出，极大释放生产力。

06 后续思路推测

前两个阶段是当前能从市面上AI剪辑工具看出的建设思路，那在这之后呢？

个人觉得后续的思路会和我之前思考过的作文《浅谈数字员工的实现路径问题》有点类似。

之前梳理到的数字员工建设四个阶段：

从“实习生”到“核心成员”。
将数字员工拆解成“技能”，把复杂问题简单化。
业务流程数字化、线上化，并贴合业务流程聚合“员工技能”。
行为数据采集，用于进一步训练AI模型，实现AI数字员工。

当前AI剪辑工具的两个阶段可以理解为各家厂商在尝试构造“AI数字员工”的各项剪辑能力，各家厂商需要持续发力，将AI剪辑能力建设到一定程度，以让AI能够覆盖各个视频制作流程，并一定程度能够替代人力。这等同于跑通了数字员工的前三个阶段。

然后各家AI剪辑厂商可以采集用户AI的使用数据、参数设置、成品数据等内容，用于训练AI数字员工所需的AI模型。AI数字员工适用于“AI Agent”框架，即感知、计划、行动三个模块。

各家厂商实现的“AI剪辑能力”属于“行动”模块的构建。

“感知”模块则是用户的需求输入、素材输入、业务的数据等外部情况。

“计划”模块则是我们所训练的AI模型，“计划”模块需要感知用户的需求、素材输入、业务的数据等外部信息，输出所需要产出的视频内容需求，然后调用合适的AI剪辑能力，进行视频的产出，实现视频的“无中生有”。

如此一来，各家AI剪辑厂商就可以配备自己的AI视频员工能力，帮助各行各业自动化、智能化生产视频内容了。

07 谁更容易卷成

既然各家的核心思路都一致，小的就产生了一个新的疑惑——那么最终哪家能在这场AI剪辑领域的内卷中胜出呢？

小的无法准确了解到每家公司的实际情况，但是个人觉得，能够在这场竞争中卷成功的AI剪辑工具必定满足以下条件：

用AI剪辑工具能吸引到足够的目标用户。（有用户）
能够跑通与用户价值交换的商业逻辑。（能赚钱）
在前两个过程中构建自己的竞争壁垒，以源源不断进行价值交换。（有壁垒）

先讲讲第一点“有用户”的思考。

虽然AI剪辑工具都是为了视频制作业务服务，但是也会根据对用户进行细分，这里有四个分类方向。

按用户类型：按用户类型可分为非企业用户（ToC）和企业用户（ToC），非企业用户会更倾向于制作内容向的视频，企业用户则会有较大一部分是制作营销向的视频。
按行业类型：指比如游戏、动漫、电商等行业。
按视频类型：可分为内容向和营销向。内容向是指有进行非营销目的内容输出与表达的视频，比如游戏解说、电影解说、舞蹈、动漫混剪、vlog等。而营销向则是指有一定营销目的的视频，比如产品推广、品牌宣传等视频。当然，视频可以同时属于内容向和营销向两个类别。
按视频质量：视频也是有高低质量之分的，有些视频会包含良好的创意脚本、精美的画面、优秀的分镜、动听的BGM等内容，这项视频可视为高质量的视频。但是有些视频脚本粗糙、画面低劣、分镜简陋，是低质量的视频。不过，低质量视频并不意味着这些视频没用，低视频也是有能发挥作用的地方，比如在广告投放场景上，低质量也能起到低成本获客的作用。

AI剪辑工具会有自己的目标人群、所服务行业、视频类型/视频质量制作倾向。

比如剪映的官网标语是“轻而易剪”，其目的是提供简单的易用的剪辑工具，因此剪映的服务群体会相对更泛，各种用户、行业、视频类型都会涵盖。

而即创和智能创作云是ToB的AI剪辑工具，一个是挂在广告买量平台上，一个作为SaaS工具被售卖，可见主打的就是给企业提供视频制作服务。

不同的群体意味着有不同倾向的剪辑需求。AI剪辑工具如何把AI能力点（比如混剪、文生脚本、AI配音、视频拆条等）结合用户的需求和场景提供合适的工作流能力支持？并平衡好功能的标准化与定制化建设？这个问题是吸引用户留存的关键。

比如面向C端用户，功能不能太复杂，最好是一键式的傻瓜操作。而面向B端用户，功能要有较好的标准化程度，才能更多地满足企业在不同场景下的需求。

就拿各家都有的“混剪成片”能力来举例说明，即剪映的“营销成片”、即创的“智能成片”、智能创作云的“视频混剪”，这几个能力都是基于“混剪”这个AI能力点进行产品功能设计的。

所谓标准化，在B端产品设计中经常用到，是指将多个类型的业务按统一的标准进行规范，使得在业务流程进行的过程中，不同类型的业务能按统一的标准进行，从而减少效率的损失。

如果在“混剪成片”能力上进行高度标准化建设，能使得“混剪成片”能力可满足大部分的混剪需求。

在研究到的示例中，智能创作云的“视频混剪”、即创的“智能成片”是标准化程度较高的，其中的混剪逻辑、视频前后贴、数字人、配音、音乐、字幕等选项都可以自定义。但这样带来一个问题——功能复杂度提高，这导致用户的学习成本变高了，实际生产中的操作成本也变高了。

所谓定制化，是指给特定的场景进行功能定制，使得在某些特定场景上做到“低配置成本的输入和输出”。而剪映的“营销成片”能力就是相对定制化的能力，其可配置的输入项做了减法，意在让更多人上手这项功能能力。这也可能和“剪映的用户群体涵盖更多的非企业用户”有关系，所以他们的功能需要更简单、更容易上手，从而让更多人能用上这些能力。

可见目前看到的各家剪辑工具，AI剪辑功能呈现上大体上都是较为符合用户群体的需求的，差距就在于后续的功能推出、产品运营、产品营销方面的手段差距了，这一块暂时未能看出任何结论。

那么接下来是“能赚钱”这一点。

个人觉得，AI剪辑工具的商业模式是：AI剪辑工具通过提供视频制作流程上的“使能”和“提效”服务，用户为这项服务能力进行付费。只要AI剪辑能力能给到业务“使能”和“提效”的帮助，并且这个成本低于产出同等质量和量级内容的人力成本。

BTW，剪映在这一块还会有点区别，因为剪映背后有抖音，其核心目的还有“为抖音的短视频内容生态提供生产辅助”，所以付费盈利不一定是剪映的核心商业模式。

目前各家AI剪辑工具都是直接开启商业化，要么是按点数收费、要么是会员制，不存在亏本获客，除非后续运营手段层面搞价格战、搞买量、搞政策扶持，搞到ROI为负数、无法回本。

最后就是“有壁垒”这一点。

值得一提的是，除开自行训练的大模型，AI剪辑中的大多数能力其实算不上“壁垒”。因此这些能力大多数都有开源的技术，或者说通用的底层大模型能力，其他家厂商稍微研究研究也能做到同等的程度。因此要在后续继续卷赢，必须得有自己的壁垒，这些壁垒可以是：

自行训练的大模型：除非企业基于自有的数据进行大模型训练，且大模型有较好的效果，且其他厂商不能使用这个大模型，能够给到与其他AI编辑工具有差异化的效果。那么，该大模型能力便可以算是技术层面的壁垒。
剪辑能力：由于AI幻觉问题的存在，AI生成的结果中往往有一定的错误比例，如果能够提供强大的编辑器作为兜底能力，便能一定程度环节壁垒的影响。比如剪映的编辑器已经发展了好几年，能够提供十分完善的剪辑能力，相比起即创的“抽盲盒”模式，剪映的体验会更好。
素材库：如果AI剪辑功能能够调用庞大的素材库，并对这些素材进行准确的AI分析分类，AI剪辑工具能在用户的“寻找灵感”、“制作草稿”、“收集素材”环节提供高效的辅助。比如在特定场景上，提供一键成片能力，通过输入的脚本关键词，匹配准确的视频片段画面。

这些能力依赖于企业有垂直于用户所属行业的庞大素材库，并且企业需要能够有资源进行这些素材的处理和AI模型训练。这个方向往往是需要企业能够背靠庞大的视频市场，比如背靠抖音的剪映、背靠巨量的即创。

行业赋能能力：由于AI剪辑工具有行业之间的区别，如果能垂直赋能某一行业，给某个行业提供更高效的能力支持，同时沉淀一些该行业的能力支持、最佳实践案例（比如行业素材模板、工作流模板等等），那么企业也能在某个领域守住自己的一亩三分地。

08 总结

总的来说，AI剪辑工具目前也处于快速发展的阶段，目前还存在一些技术和应用上的局限，但其潜力和前景不容忽视。随着技术的成熟和市场的适应，我们有理由相信，AI将在视频制作领域发挥更加关键的作用。

而其中谁能从中胜出，暂且也无从得知。但是个人认为，在其中能卷出头的AI剪辑工具，必定符合“有用户”、“能赚钱”、“有壁垒”这三个特点。

浅谈当前的AI剪辑工具