声音克隆效果不理想怎么办?

[来源:管理员A]  发表于  2024-09-19    

录音质量是决定声音克隆效果的主要因素。

请务必在录音前,仔细阅读注意事项《https://t-9.cn/news/1828649730037649408

如果声音克隆多次仍然不理想。以下详述了几点影响克隆质量的几大重点因素:

音频分析工具,Adobe Audition 或 Audacity 可帮助我们了解音频质量。


1、噪声问题

噪声是人声以外的声音,对最终合成效果影响很大,且很难有效去除,因此需要在录制阶段特别注意。

含有噪声的音频具体表现为句间静音部分有持续不断的非人声数据,通过波形图或频谱图放大后如下图所示:

理想的低噪声数据在波形图中表现为平整,在频谱图中表现为无(低)能量信息,如下图所示:

混响问题

混响会导致声音浑浊,听感类似回声,对最终合成效果影响很大,且很难有效去除。

混响大的数据在频谱图中表现为单字能量有残留,在句末尤其明显,会影响下一个字的清晰度,如下图所示:

在低混响的数据中,每个字的能量图会有相对清晰的边界(如下图),图中最后位置附近的残留是正常的呼吸音,非混响,录制时无需特别控制,保持自然即可。

情绪过于平淡

当前算法最终合成效果的情感与录音数据是一致且单一的,如希望最终合成慷慨激昂、富裕感染力的声音,则需要提供相同情感的录音文件。常见的问题是录音人按照固定文案,通过朗读的方式进行录制,缺乏情感表现,另会由于疲惫导致情感逐渐低落,需要特别注意。

重要:录音时可以通过不断的心理暗示,提示自己要保持亢奋,按照最终使用场景完成录制。也可以请其他人帮忙监督,或通过回听的方式检验录音效果,防止情绪波动。


音量、语速不一致

此问题主要是拼接多段不同来源的音频导致,请经理在20秒内,将语速音量控制一致。

音量过大或过小

音量过大,会产生音频截幅现象,会导致声音信息不完整,具体表现为波形图中波峰信息被截断:

造成音量过大的可能原因有:

  1. 离麦克风过近
  2. 录制时发音过大
  3. 录音软件的增益调节过高

音量过小,主要会导致数据处理过程中噪声被同步放大,最终引起噪声过大的相关问题。

造成音量过小的可能原因有:

  1. 离麦克风过远
  2. 录制时声音太小

重要:在数字人视频采集中,一个误区是同时使用领夹麦完成音频采集。为满足美观性、防遮挡、麦克风隐藏等要求,经常出现音量过小问题,建议单独采集音频。

适合训练的音频,应使音量峰值控制在-6dB~-3dB范围内,如下图所示: