PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目,用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频,为用户提供高效、便捷的头部动画生成方式。PoseTalk 的核心在于基于文本提示和音频线索,在姿势潜在空间中生成运动潜在,实现自然、逼真的头部运动效果。通过 Pose Latent Diffusion (PLD) 模型和级联网络 CoarseNet 与 RefineNet,实现高质量的唇部同步和头部姿势生成,适用于多种应用场景,如虚拟主播、在线教育和社交媒体。

PoseTalk – 文本和音频驱动的生成会说话的头部动画开源项目  第1张
(图片来源网络,侵删)
PoseTalk – 文本和音频驱动的生成会说话的头部动画开源项目  第2张
(图片来源网络,侵删)