数字人制作视频说话还是不说话?

[来源:管理员A]  发表于  2024-08-31    

提到:数字人制作视频说话还是不说话?

就要先讲解下,数字人制作的几种技术流派。

目前数字人制作流派分为了三大技术阵营。

第一类:通用数字人技术流派

第二类:针对单个视频训练,制作单视频数字人流派

第三类:AI绘画流派

也就是说,目前市场上能见到的数字人,基本都是这三个流派为主,其中前两类占据主要的市场。

1、先说通用数字人技术流派

通过通过学习大量人讲话的视频学习,此类技术以wav2lip为代表。

可以获得到一个基于对抗神经网络的,人脸重绘模型。

输入声音和人脸,即可生成语声音相对应口型的新人脸。

优点:数字人无需训练,使用成本低。

缺点:训练一个高清晰度的模型难度极高,训练成本大。

这类输入的视频,最好是闭嘴类的,因为他根本不需要学习你开口的样子,

开口说话,反而还会影响生成的效果。比如输入图片为啊音的口型,如果在需要改为闭口口型时,就会显得下巴很长,看起来就会很别扭。

所以,使用这类数字人,则输入不张嘴视频为宜。

2、为每个视频进行训练技术流派

此技术流派,需要为每个上传的视频,都进行一定的训练。

通过音声直接生成头部视频帧,而不是像通用流派一样,在原视频上改。

此类技术以NeRF为代表。

优点:口型会更加自然清晰。

缺点:相对通用性数字人,成本较高,每个视频都需要训练。

因为每个视频都需要训练,成本比较高,所以为了降低成本,一般需要录制绿幕视频,

这样生成的视频可以更换背景,来缓解过于单一的问题。

这个流派需要录制几分钟到十几分钟不等视频,进行训练。提高的视频需要是开口说话的视频。

或是同时提供两类视频。

3、AI绘画流派

随着SD的开源,各类AI绘画模型层出不穷,于是出现了

基于AI绘画的数字人系统,此类技术以EchoMimic为代表

优点:更加清晰,更丰富和更容易的表情控制

缺点:对计算机配置要求高,速度慢

这种一般通过一张照片即可完成数字人制作,不需要上传视频。

因为成本过高,速度也慢,所以目前这类数字人真正商用的还比较少。

最后,介绍下提酒映画的数字人技术,

提酒映画是基于第一类通用数字人技术结合A第三类AI绘画来完成数字人的生成的。

使用第一方案的原因是为了让更多用户用上免费的数字人,

这个方案成本最低,大多数电脑可以直接运行。

结合AI绘画,是为了取其长处,让生成效果更佳。

欢迎大家试用。