X-baidu09Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

baidu09_com 2025-08-31 7 0

X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈框架，支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dancer结合自回归变换器（Transformer）和扩散模型，用 2D 人体姿态建模，基于广泛可用的单目视频数据捕捉舞蹈动作与音乐节奏的复杂对齐关系。X-Dancer 用多部分的 2D 姿态表示和置信度感知的量化方法，生成与音乐同步的舞蹈姿态序列，基于扩散模型将姿态序列转化为连贯的视频帧。X-Dancer 在运动多样性、音乐对齐和视频质量方面均优于现有方法，能适应不同体型和风格的参考图像，支持零样本生成和特定编舞的微调。