ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。


ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。
全部评论
留言在赶来的路上...
发表评论