PersonaTalk – 字节跳动推出的实现高保真和个性化视觉配音框架

baidu09_com 2025-08-30 7 0

PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架，用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时，保留说话者的独特说话风格和面部细节。第一阶段涉及风格感知的音频编码和唇形同步几何生成，第二阶段用双注意力面部渲染器渲染目标几何图形的纹理。PersonaTalk在视觉质量、唇形同步精度和个性保留方面展现出比现有技术更优的性能（包括Wav2Lip、VideoReTalking、DINet和IP_LAP），作为一个通用框架，能达到与特定人方法相媲美的效果。