ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。

ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架  第1张
(图片来源网络,侵删)
ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架  第2张
(图片来源网络,侵删)