MoMask – 文本驱动生成高质量3D人体动作的模型

baidu09_com 2025-08-30 7 0

MoMask是创新的3D人体动作生成工具，通过生成式掩码建模技术，能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案，将人体运动表示为多层离散的运动标记，结合掩码Transformer和残差Transformer来生成动作序列。模型在文本到动作生成任务上表现出色，FID指标达到0.045（HumanML3D数据集），显著优于其他方法。MoMask可无缝应用于相关任务，如文本引导的时序修复，无需额外微调。