帮助中心 发表于 2024-08-31
目前数字人制作流派分为了三大技术阵营。
第一类:通用数字人技术流派
第二类:针对单个视频训练,制作单视频数字人流派
第三类:AI绘画流派
也就是说,目前市场上能见到的数字人,基本都是这三个流派为主,其中前两类占据主要的市场。
1、先说通用数字人技术流派
通过通过学习大量人讲话的视频学习,此类技术以wav2lip为代表。
可以获得到一个基于对抗神经网络的,人脸重绘模型。
输入声音和人脸,即可生成语声音相对应口型的新人脸。
优点:数字人无需训练,使用成本低。
缺点:训练一个高清晰度的模型难度极高,训练成本大。
这类输入的视频,最好是闭嘴类的,因为他根本不需要学习你开口的样子,
开口说话,反而还会影响生成的效果。比如输入图片为啊音的口型,如果在需要改为闭口口型时,就会显得下巴很长,看起来就会很别扭。
所以,使用这类数字人,则输入不张嘴视频为宜。
2、为每个视频进行训练技术流派
此技术流派,需要为每个上传的视频,都进行一定的训练。
通过音声直接生成头部视频帧,而不是像通用流派一样,在原视频上改。
此类技术以NeRF为代表。
优点:口型会更加自然清晰。
缺点:相对通用性数字人,成本较高,每个视频都需要训练。
因为每个视频都需要训练,成本比较高,所以为了降低成本,一般需要录制绿幕视频,
这样生成的视频可以更换背景,来缓解过于单一的问题。
这个流派需要录制几分钟到十几分钟不等视频,进行训练。提高的视频需要是开口说话的视频。
或是同时提供两类视频。
3、AI绘画流派
随着SD的开源,各类AI绘画模型层出不穷,于是出现了
基于AI绘画的数字人系统,此类技术以EchoMimic为代表
优点:更加清晰,更丰富和更容易的表情控制
缺点:对计算机配置要求高,速度慢
这种一般通过一张照片即可完成数字人制作,不需要上传视频。
因为成本过高,速度也慢,所以目前这类数字人真正商用的还比较少。
最后,介绍下提酒映画的数字人技术,
提酒映画是基于第一类通用数字人技术结合A第三类AI绘画来完成数字人的生成的。
使用第一方案的原因是为了让更多用户用上免费的数字人,
这个方案成本最低,大多数电脑可以直接运行。
结合AI绘画,是为了取其长处,让生成效果更佳。
简单好用的 AI数字人视频工具