PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架,用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时,保留说话者的独特说话风格和面部细节。第一阶段涉及风格感知的音频编码和唇形同步几何生成,第二阶段用双注意力面部渲染器渲染目标几何图形的纹理。PersonaTalk在视觉质量、唇形同步精度和个性保留方面展现出比现有技术更优的性能(包括Wav2Lip、VideoReTalking、DINet和IP_LAP),作为一个通用框架,能达到与特定人方法相媲美的效果。


全部评论
留言在赶来的路上...
发表评论