MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码Transformer和残差Transformer来生成动作序列。模型在文本到动作生成任务上表现出色,FID指标达到0.045(HumanML3D数据集),显著优于其他方法。MoMask可无缝应用于相关任务,如文本引导的时序修复,无需额外微调。

MoMask – 文本驱动生成高质量3D人体动作的模型  第1张
(图片来源网络,侵删)
MoMask – 文本驱动生成高质量3D人体动作的模型  第2张
(图片来源网络,侵删)