T9的智能AI主播发音原理

公告动态  发表于  2022-05-24    

让AI虚拟人说话是使用神经网络的方法,将所发出的声音与所呈现的口型、表情、动作等相匹配。


T9的AI虚拟主播采用的是音素驱动技术,那么我们先了解下什么是音素。音素——是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。比如英语的音素分为元音与辅音,而汉语的音素分为声母和韵母。基于音素驱动成功实现了实时的口型同步,可以实现对多语言和方言的支持,实时模拟出不同发音下口型的变化,及不同音素间的平滑过渡,并将音量驱动的优点结合进来,让嘴唇开合的启停与大小与音量一致。



为了实现更逼真细腻的效果,口型驱动与表情驱动的过程中还会结合语音、图像等多模态的信息,在实现真人AI合成角色时,就会更加生动逼真。用语音驱动的口型来合成目标角色的口型、面部表情及姿态等动画,越流畅自然,就越能体现AI技术的成熟,当动画口型和语音准确对应,甚至让人忽略是AI人物以为是真人在主播。