近日,中山大学HCP Lab团队的论文 Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training (无中生有:离线开放式文本驱动的人物动作生成)被计算机视觉和模式识别领域的国际顶级学术会议CVPR 2023评选为Highlight论文(投稿9155篇, 接收2360篇, 有235篇论文被选为Highlight,占投稿论文2.5%)。下面带来该论文的详细解读。
/////
论文标题
Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training
作者
Junfan Lin, Jianlong Chang, Lingbo Liu, Guanbin Li, Liang Lin, Qi Tian, Chang Wen Chen
论文地址
https://arxiv.org/abs/2210.15929
/////
目前存在许多条件运动生成的方法,这些方法基于各种类型的输入条件,如用动作标签、短语描述。然而这些方法的成果很大程度依赖于大量的运动捕捉数据集,例如AMASS数据集。这些运动数据集往往受限于任务的领域知识以及采集者的偏好,使得这些数据集不够通用。例如,这些数据集往往都是比较容易标注的,一些比较开放性的描述,如情感描述,就没有囊括其中。受惠于近年来基础模型(例如大规模语言模型,文本-图像匹配模型)的快速发展,零样本或少样本学习展示了超越有监督学习潜能。其中,一个近年提出的文本-图像匹配模型,基于对比学习的语言图像预训练模型(CLIP),被验证具有强大的视觉、文本表征的提取能力。在这个工作中,我们旨在提出零样本的开放文本驱动的人物动作离线生成的框架。我们主要解决以下三个问题:
01
缺乏开放域文本和人物姿态/人物动作
的匹配数据
02
文本到人物姿态的生成模型的泛化性问题
03
人物姿态驱动人物运动实时且可控的生成
/////
我们借鉴自然语言处理的“提示-重建”,提出了基于提示的文本-动作的可控生成模型。已有的动作生成任务对每一种任务都设计一种模型,这使得动作生成模型不能实时地控制生成模型而适应不同的需求。尤其对于开放式文本,文本可能含有多种行为描述且对应了不同的动作生成的需求,我们可以将每一个文本都视为一种下游任务,已有的算法需要针对不同的文本对生成模型进行微调、训练,使得生成过程计算开销大、耗时长。为此,借鉴自然语言处理中特“提示”学习,我们提出了利用“预训练-提示”实现可以实时迎合开发式文本不同需求的动作生成模型。其中预训练动作生成模型采用了“掩盖-重建”的自监督训练范式,使得该生成模型能够集中地学习动作的动态模型。而习得的动作动态模型是通用的,因此我们的预训练动作生成模型可以直接运用于各种下游动作生成任务。因此,我们只需要将文本转换成“提示”的形式,就能够让该预训练动作生成模型生成对应的动作。在我们的工作中,将文本转“提示”不需要任何在线的训练或微调,从而实现高效实时的文本到动作生成。流程图如下:
/////
我们提出了首个放式文本-3D人物姿态的多模态模型。为了将开放式的文本转换成为“提示”,我们考虑将文本转换成为动作的元素,即姿态,然后在用生成的姿态构建“提示”去生成动作。然而,目前缺乏多样化的文本-姿态标注数据集。因此,我们转而利用已有的多模态模型来获取训练过程的监督信号。不巧的是,目前并没有开放式文本-3D人物姿态的多模态模型。为此,我们基于已有的文本-图像多模态模型CLIP,从中蒸馏出更精细化的文本-3D人物姿态的多模态模型,TPA。我们用TPA提供文本-姿态生成模型训练过程的监督信号。 该模型训练流程如下所示:
/////
我们设计了一种无字训练流程,基于该训练流程,我们的模型不需要见过任何真实文本描述,而在部署过程可以直接生成未见过的文本对应的姿态/动作。有了监督信号来源,我们还需要提供训练文本输入。然而,人为采集的文本可能会引入采集者的偏好,使得训练文本不够通用。这将限制文本-姿态生成模型只能处理跟训练文本分布相似的文本,与我们希望其做到开放式文本-姿态生成的目的相违背。因此,我们提出了一种能无字训练流程。取代用文本作为输入,该训练流程直接从文本编码器的特征空间采样文本特征作为训练输入。这样一来,我们不仅不需要采集文本用于训练,同时也能处理文本的多样性问题。我们发现,即便训练过程中没有见过任何真实文本,我们的文本-姿态生成模型能够直接适用于未见过的开放式文本。该模型训练流程如下所示:
/////
我们的方法显著优于该领域最新提出的工作。对于文本-姿态生成,我们的方法比较了三个对比方法Matching、Optimize、VPoserOptimize。衡量的指标包括用CLIP提取文本-姿态特征的余弦相似度、基于VPoser重建损失的不真实度、用CLIP进行匹配的Top50正确率。其结果如下:
对于文本-动作的生成,我们的方法比较了三个方法MotionCLIP、Interpolation、AvatarCLIP。衡量的指标包括基于预训练动作VAE的重建损失的不真实度、用CLIP进行匹配的Top50正确率。其结果如下:
/////
进一步地,对于开放式语句的姿态和动作生成,更有代表性的指标是人类评测的结果。为此,我们邀请了25位人类评测者进行问卷调查,每份问卷有50道题,其中25道文本-姿态的生成效果,25道文本-动作的生成效果。参与者被要求为每个问题中的方法生成的效果(生成内容的真实性、生成内容与文本的一致性)进行排序。其中对于文本-姿态生成,我们有三个方法。对每道题排1、2、3的方法,我们给分3、2、1分。同样地,对文本-动作生成,我们有四个方法。对每道题排1、2、3、4的方法,我们给分4、3、2、1分。我们的方法在各个指标上都表现优异。最终统计结果如下:
成果应用前景和价值
开放式文本驱动的人物动作实时生成:人与人之间的对话内容常常是开放式的、不受模板限制的。目前开放式的文本生成、对话乃至于图像生成都有令人兴奋的进展。然而,这些工作局限于静态的数据。开放式文本的动作生成仍然处在一个非常前期的阶段。这其中,又数人物动作生成最富有意义。在学术上,从预训练大模型挖掘蕴含的人类行为知识,将克服过去数据类型局限、数量缺乏、标注成本高等难题。特别地,我们探索零样本训练,完全不依赖任何标注的文本-动作数据,仅从预训练大模型中挖掘关联关系;在产品中,我们的虚拟数字人能够建立在对人类开放式语言的理解上,实时地融入人类可理解的、文本一致的动作,不仅不需要任何标注数据,同时克服模板化动作所带来的机械感,这无疑将会大大改进用户体验,甚至可能成为未来文本动作生成的标准流程。