T9的智能AI主播发音原理-提酒映画

公告动态发表于 2022-05-24

内容摘要

让AI 虚拟人说话是使用神经网络的方法，将所发出的声音与所呈现的口型、表情、动作等相匹配。 T9的AI虚拟主播采用的是音素驱动技术，那么我们先了解下什么是音素。音素——是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。比如英语的音素分

正文内容

让AI虚拟人说话是使用神经网络的方法，将所发出的声音与所呈现的口型、表情、动作等相匹配。

T9的智能AI主播发音原理配图1

T9的AI虚拟主播采用的是音素驱动技术，那么我们先了解下什么是音素。音素——是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。比如英语的音素分为元音与辅音，而汉语的音素分为声母和韵母。基于音素驱动成功实现了实时的口型同步，可以实现对多语言和方言的支持，实时模拟出不同发音下口型的变化，及不同音素间的平滑过渡，并将音量驱动的优点结合进来，让嘴唇开合的启停与大小与音量一致。

T9的智能AI主播发音原理配图2

为了实现更逼真细腻的效果，口型驱动与表情驱动的过程中还会结合语音、图像等多模态的信息，在实现真人AI合成角色时，就会更加生动逼真。用语音驱动的口型来合成目标角色的口型、面部表情及姿态等动画，越流畅自然，就越能体现AI技术的成熟，当动画口型和语音准确对应，甚至让人忽略是AI人物以为是真人在主播。