PoseTalk – 文本和音频驱动的生成会说话的头部动画开源项目

baidu09_com 2025-08-30 9 0

PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目，用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频，为用户提供高效、便捷的头部动画生成方式。PoseTalk 的核心在于基于文本提示和音频线索，在姿势潜在空间中生成运动潜在，实现自然、逼真的头部运动效果。通过 Pose Latent Diffusion (PLD) 模型和级联网络 CoarseNet 与 RefineNet，实现高质量的唇部同步和头部姿势生成，适用于多种应用场景，如虚拟主播、在线教育和社交媒体。