数字人制作视频说话还是不说话？ -T9数字人- 提酒映画

[来源：管理员A] 发表于 2024-08-31

提到：数字人制作视频说话还是不说话？

就要先讲解下，数字人制作的几种技术流派。

目前数字人制作流派分为了三大技术阵营。

第一类：通用数字人技术流派

第二类：针对单个视频训练，制作单视频数字人流派

第三类：AI绘画流派

也就是说，目前市场上能见到的数字人，基本都是这三个流派为主，其中前两类占据主要的市场。

1、先说通用数字人技术流派

通过通过学习大量人讲话的视频学习，此类技术以wav2lip为代表。

可以获得到一个基于对抗神经网络的，人脸重绘模型。

输入声音和人脸，即可生成语声音相对应口型的新人脸。

优点：数字人无需训练，使用成本低。

缺点：训练一个高清晰度的模型难度极高，训练成本大。

这类输入的视频，最好是闭嘴类的，因为他根本不需要学习你开口的样子，

开口说话，反而还会影响生成的效果。比如输入图片为啊音的口型，如果在需要改为闭口口型时，就会显得下巴很长，看起来就会很别扭。

所以，使用这类数字人，则输入不张嘴视频为宜。

2、为每个视频进行训练技术流派

此技术流派，需要为每个上传的视频，都进行一定的训练。

通过音声直接生成头部视频帧，而不是像通用流派一样，在原视频上改。

此类技术以NeRF为代表。

优点：口型会更加自然清晰。

缺点：相对通用性数字人，成本较高，每个视频都需要训练。

因为每个视频都需要训练，成本比较高，所以为了降低成本，一般需要录制绿幕视频，

这样生成的视频可以更换背景，来缓解过于单一的问题。

这个流派需要录制几分钟到十几分钟不等视频，进行训练。提高的视频需要是开口说话的视频。

或是同时提供两类视频。

3、AI绘画流派

随着SD的开源，各类AI绘画模型层出不穷，于是出现了

基于AI绘画的数字人系统，此类技术以EchoMimic为代表

优点：更加清晰，更丰富和更容易的表情控制

缺点：对计算机配置要求高，速度慢

这种一般通过一张照片即可完成数字人制作，不需要上传视频。

因为成本过高，速度也慢，所以目前这类数字人真正商用的还比较少。

最后，介绍下提酒映画的数字人技术，

提酒映画是基于第一类通用数字人技术结合A第三类AI绘画来完成数字人的生成的。

使用第一方案的原因是为了让更多用户用上免费的数字人，

这个方案成本最低，大多数电脑可以直接运行。

结合AI绘画，是为了取其长处，让生成效果更佳。

欢迎大家试用。

相关新闻