NoMask文本到人体动作

660 词

NoMask文本到人体动作

AI除了有文本到图像、视频,还有文本到动作↓

MoMask是文本到人体动作的新研究方向,生成的动画可以导入Blender和其他CG软件中。

项目:huggingface.co/spaces/MeYourHint/MoMask
论文:arxiv.org/abs/2312.00063

MoMask: Generative Masked Modeling of 3D Human Motions(3D 人体运动的生成蒙版建模)

论文摘要:
我们介绍 MoMask,这是一种新颖的蒙版建模框架,用于文本驱动的 3D 人体运动生成。

在 MoMask 中,采用分层量化方案将人体运动表示为具有高保真细节的多层离散运动标记。

从基础层开始,利用通过矢量量化获得的运动令牌序列,导出递增阶的剩余令牌并将其存储在层次结构的后续层中。因此,后面是两个不同的双向Transformer。对于基础层运动标记,指定了一个 Masked Transformer 来预测以训练阶段的文本输入为条件的随机掩蔽运动标记。

在生成(即推理)阶段,从空序列开始,我们的 Masked Transformer 迭代地填充缺失的标记;随后,残差变换器学习根据当前层的结果逐步预测下一层标记。

大量实验表明,MoMask 在文本到运动生成任务上优于最先进的方法,在 HumanML3D 数据集上的 FID 为 0.045(相对于 T2M-GPT 的 0.141),在 KIT 上的 FID 为 0.228(相对于 0.514) -ML,分别。MoMask 还可以无缝应用于相关任务,无需进一步模型微调,例如文本引导的时间修复。