中山大学人机物智能融合实验室15篇论文入选CVPR2023

中大HCP实验室

中山大学人机物智能融合实验室在CVPR 2023（IEEE Conference on Computer Vision and Pattern Recognition）再次大放异彩，共有15篇论文被接收。

CVPR是计算机视觉和模式识别领域的顶级国际会议之一，自1979年以来每年举办一次。它是世界三大顶级计算机视觉会议之一，也是中国计算机学会推荐的国际学术会议排名中人工智能领域的A类会议。投稿的文章将会经过双盲评审，在审稿人的严格筛选下，CVPR 2023 的接收率仅为25.78%。而我们有15篇论文被接收，这是实验室老师和同学们辛勤工作的成果，也说明了实验室在计算机视觉领域的强大实力。

我们的15篇论文中，涉及了AI内容生成、面向开放词汇类别的视觉理解、数据高效的视觉分类与检测、视觉语言多模态理解等多个计算机视觉核心研究领域。我们非常期待与计算机视觉社区分享我们的最新研究成果，相信我们的工作将为相关领域的发展做出重要贡献。

AI内容生成

零样本开放式文本到动作的生成

Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training

目前存在许多条件运动生成的方法，这些方法基于各种类型的输入条件，如用动作标签、短语描述等。然而这些方法的成功很大程度依赖于大量的运动捕捉数据集，例如AMASS数据集。这些运动数据集往往受限于任务的领域知识以及采集者的偏好，使得这些数据集不够通用。例如，这些数据集往往都是比较容易标注的，一些比较开放性的描述，如情感描述，就没有囊括其中。

为此，研究团队借鉴自然语言处理的“预训练-提示-重建”思路，提出了基于提示的“文本-动作”可控生成模型。其中预训练动作生成模型采用了“掩盖-重建”的自监督训练范式，使得该生成模型能够集中地学习动作的动态模型。而习得的动作动态模型是通用的，因此预训练动作生成模型可以直接运用于各种下游动作生成任务。只需要将文本转换成“提示”的形式，就能够让该预训练动作生成模型生成对应的动作。而将文本转换成“提示”不需要任何在线的训练或微调，从而实现高效实时的文本到动作生成。流程图如下：

为了实现文本和姿态的对齐，研究团队提出了首个开放式文本-3D人物姿态的多模态模型。为了将开放式的文本转换成为“提示”，研究团队考虑将文本转换成为动作的元素，即姿态，然后在用生成的姿态构建“提示”去生成动作。然而，目前缺乏多样化的文本-姿态标注数据集。因此，研究团队转而利用已有的多模态模型来获取训练过程的监督信号。不巧的是，目前并没有开放式文本-3D人物姿态的多模态模型。为此，研究团队基于已有的文本-图像多模态模型CLIP，从中蒸馏出更精细化的文本-3D人物姿态的多模态模型，TPA，然后用TPA提供文本-姿态生成模型训练过程的监督信号。该模型训练流程如下所示：

为了学习从任意文本到姿态的生成器，研究团队设计了一种无字训练流程，基于该训练流程，模型不需要见过任何真实文本描述，而在部署过程可以直接生成未见过的文本对应的姿态/动作。有了监督信号来源，还需要提供训练文本输入。然而，人为采集的文本可能会引入采集者的偏好，使得训练文本不够通用。这将限制文本-姿态生成模型只能处理跟训练文本分布相似的文本，与希望其做到开放式文本-姿态生成的目的相违背。因此，研究团队提出了一种能够无字训练流程。取代用文本作为输入，该训练流程直接从文本编码器的特征空间采样文本特征作为训练输入。这样一来，不仅不需要采集文本用于训练，同时也能处理文本的多样性问题。研究团队发现，即便训练过程中没有见过任何真实文本，提出的文本-姿态生成模型能够直接适用于未见过的开放式文本。该模型训练流程如下所示：

论文作者：

Junfan Lin，Jianlong Chang，Lingbo Liu，Guanbin Li， Liang Lin，Qi Tian，Chang-wen Chen

基于局部流和全局解析协作学习的

通用虚拟试穿方法

GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning

基于图像的虚拟试穿旨在将店内服装转移到特定的人身上。现有方法采用全局变形模块来模拟不同服装部分的各向异性变形，当接收到具有挑战性的输入（例如，复杂的人体姿势、困难的服装）时，无法保留不同部分的语义信息。此外，大多数方法直接扭曲输入服装以与保留区域边界对齐，需要压缩纹理以满足边界形状约束，最终导致纹理失真。上述问题阻碍了现有方法在实际场景中的应用。

为了解决这些问题并向真实世界的虚拟试穿迈出一步，研究团队提出了一个通用的虚拟试穿框架，名为GP-VTON。该框架包含一个新的局部流全局解析 (LPGP) 变形模块和动态梯度截断 (DGT) 训练策略。

具体来说，与之前的全局变形机制相比，LFGP 使用局部流来单独变形一部分服装，并通过全局服装解析组合局部变形结果，即使具有挑战性的输入也能产生局部变形合理和语义正确的完整服装。另一方面，DGT训练策略动态截断重叠区域的梯度，变形的服装不再需要满足边界约束，从而有效地避免了纹理挤压问题。最后，GP-VTON可以轻松扩展到多类别场景，并使用来自不同服装类别的数据进行联合训练。在两个高分辨率基准上进行的大量实验证明了该方法优于现有的最先进方法。

论文作者：

Zhenyu Xie, Zaiyu Huang, Xin Dong, Fuwei Zhao, Haoye Dong, Xijin Zhang, Feida Zhu, Xiaodan Liang

人脸关键点和外观先验驱动的保

身份数字人说话视频生成

Identity-Preserving Talking Face Generation with Landmark and Appearance Priors

人物通用型的说话人脸视频生成，可以首先在一个大规模数据集预训练然后泛化到任意人物的说话视频生成。现有的人物通用型方法在测试时由于模型没有见过特定人物，容易生成训练集平均意义上的人脸细节和说话风格，丢失了一些个性细节。

为此，研究团队提出了一个两阶段的基于人脸关键点为中间表征的生成框架。首先一个基于transformer的关键点预测阶段能够充分利用参考关键点和姿势关键点的先验信息，从而准确地预测和语音同步的下巴、嘴巴关键点，再和代表姿势的上半脸关键点组合成目标人脸轮廓。在目标轮廓渲染成真实人脸的过程中，对齐模块可以为每张参考图预测一个光流场然后利用光流场将参考图进行扭曲使其和目标轮廓对齐。多张扭曲后的参考图最后再加权汇总，为转换模块的渲染过程提供更多的外观先验信息，使生成效果更真实，保留更多ID细节。

论文作者：

Weizhi Zhong, Chaowei Fang, Yinqi Cai, Pengxu Wei, Gangming Zhao, Liang Lin, Guanbin Li

基于参数化隐式表达的音频驱动

数字说话人视频生成

Parametric Implicit Face Representation for Audio-Driven Facial Reenactment

基于音频驱动的数字人说话视频生成技术在电影制作、虚拟人物形象生成，视频会议等场景中有着广泛应用。当前的方法或使用了显式的中间脸部表达(2D脸部关键点或3D脸部模型)，或使用了隐式的中间脸部表达(神经辐射场)。这些方法在可解释性和表达能力之间存在取舍，不能对生成结果有很好的可控性。

为了应对这一挑战，研究团队提出了一种基于人脸参数化隐式表达的数字人说话视频生成框架。这一框架结合了3D人脸模型的可解释性参数和3D隐式表达实现了说话人视频的可控生成。具体来说，这一框架包含3个模块：i)音频-表情参数编码模块，这一模块基于transformer进行设计，实现了对音频上下文信息的有效提取;ii)参数化隐式表达模块，这一模块基于3D人脸模型的可解释性参数和3D隐式表达，实现了可控的隐式人脸3D结构建模。iii)基于隐式表达特征的渲染模块，该模块负责在人脸隐式表达的指引下渲染生成结果图像。实验证明研究团队提出的方法能够更好保持目标人物身份和说话风格的视频。

论文作者：

Ricong Huang, Peiwen Lai, Yipeng Qin, Guanbin Li

面向开放词汇类别的视觉理解

视觉范例提示驱动的自动驾驶统一

感知任务

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving

多任务学习已经成为一种可以同时解决一系列任务，同时在计算资源和推理时间方面都具有更好的效率的训练范式。然而，这些算法的设计领域大多不在自动驾驶的范围内，因此很难将他们与自动驾驶中的多任务方法比较。为了能够对自动驾驶中目前的多任务学习方法进行综合评估，研究团队广泛研究了流行的多任务方法在大规模驾驶数据集上的性能，其中涵盖了四种常见的感知任务，即目标检测、语义分割、可驾驶区域分割和车道检测。团队对不同常见设置下的当前多任务学习方法进行了深入分析，发现现有方法取得了进步，但与单任务基线相比仍有很大的性能差距。

为了解决自动驾驶中的这个困难，研究团队提出了一个有效的多任务框架 VE-Prompt，它通过基于特定任务的提示引入视觉范例，以指导模型学习高质量的特定任务表示。具体而言，团队基于边界框和颜色标记生成视觉范例，提供目标类别的准确视觉外观并进一步缩小性能差距。此外，通过连接Transformer编码器和卷积层，实现自动驾驶中高效准确的统一感知。在多样化的自动驾驶数据集BDD100K上的综合实验结果表明，VE-Prompt改进了多任务基线并进一步超越了单任务模型。

论文作者：

Xiwen Liang, Minzhe Niu, Jianhua Han, Hang Xu, Chunjing Xu, Xiaodan Liang

论文链接：

https://arxiv.org/pdf/2303.01788.pdf

统一预训练的稠密描述生成和开放

域检测

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

得益于图像文本对的大规模视觉语言预训练，开放域检测方法在零样本或少样本检测设置下显示出卓越的泛化能力。然而，现有方法在推理阶段仍然需要预定义的类别空间，只能预测属于预定义类别中的物体。

为了引入一个“真实的”开放域检测器，研究团队提出了一种名为 CapDet 的新方法，能预测给定类别列表下的类别，或直接给定预测的物体框生成其类别。具体来说，团队通过引入一个额外的稠密描述生成头来生成基于区域的描述，将开放世界检测和稠密描述生成任务统一到一个单一但有效的框架中。此外，因为描述生成数据集涵盖了更多概念，添加描述生成任务反过来将有利于检测的泛化。实验结果表明，通过统一稠密描述生成任务，CapDet在LVIS（1203类）上的基线方法上获得了显着的性能改进（例如，在 LVIS 稀有类上 +3.3% mAP）。此外，CapDet 还在密集字幕任务上实现了最优异的性能：VG V1.2 上的 mAP 为 15.44%，VG-COCO数据集上的mAP为13.98%。

论文作者：

Yanxin Long, Youpeng Wen, Jianhua Han, Hang Xu, Pengzhen Ren, Wei Zhang, Shen Zhao, Xiaodan Liang

论文链接：

https://arxiv.org/pdf/2303.02489.pdf

基于现实点云数据的语言-图像

-点云对比预训练

CLIP²: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data

受益于大规模未标记的文本-图像对，语言-图像的对比预训练模型在开放世界视觉理解任务中表现出色。然而，由于语言-3D数据对数据有限，将2D视觉语言模型(VLM)的成功应用于3D空间仍然是一个悬而未决的问题。利用VLM进行3D理解的现有工作通常采用为3D 数据构建中间 2D 表示，但会丢失3D几何信息。

为了向开放世界3D视觉理解更进一步，研究团队提出了语言-图像-点云对比预训练 (CLIP2)，通过使用新的代理对齐机制直接学习现实场景中的可迁移3D点云表示。具体来说，团队利用2D和3D场景中自然存在的对应关系，从这些复杂场景中构建对齐的实例级的文本图像点代理。团队进一步提出了一个跨模态对比目标来学习语义和实例级对齐的点云表示。室内和室外场景的实验结果表明，学习的3D表示在零样本和少样本3D识别等下游任务中具有很强的迁移能力，大大超过了最先进的方法。此外，团队分析了真实场景中不同表示的能力，并提出了可选的集成方案。

论文作者：

Yihan Zeng, Chenhan Jiang, Jiageng Mao, Jianhua Han, Chaoqiang Ye, Qingqiu Huang, Dit-Yan Yeung, Zhen Yang, Xiaodan Liang, Hang Xu

基于词区域对齐的可扩展的开放词

汇物体检测预训练

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

研究团队提出一种高效且可扩展的训练框架DetCLIPv2，结合大规模图像-文本对以实现开放词汇物体检测 (OVD)。与以往通常依赖于预训练视觉语言模型（例如 CLIP）或通过伪标注图像文本对的OVD框架不同，DetCLIPv2直接从大量图像文本对中以端到端的方式学习细粒度的词区域对齐。

为实现这一点，团队在区域候选框和文本词之间采用最大词区域相似度来指导对比训练目标。为了使模型在学习广泛概念的同时获得定位能力，DetCLIPv2在统一数据公式下同时进行检测、定位等图像文本对数据的混合监督训练。通过交替训练并利用低分辨率的图像文本对输入，DetCLIPv2能更高效且有效地利用图像文本对数据：DetCLIPv2使用的图像文本对比相同训练时间的DetCLIP多13倍，并提高了性能。使用13M图像文本对进行预训练，DetCLIPv2 展示了很高的开放词汇检测性能。具有Swin-T主干的DetCLIPv2在LVIS基准测试中实现了40.4%的零样本AP，优于之前GLIP/GLIPv2/DetCLIP的AP 14.4/11.4/4.5%，甚至大大超过了全监督训练的模型。

论文作者：

Lewei Yao, Jianhua Han, Xiaodan Liang, Dan Xu, Wei Zhang, Zhenguo Li, Hang Xu

数据高效的视觉分类与检测

基于改进分布匹配的数据集蒸馏方法

Improved Distribution Matching for Dataset Condensation

数据蒸馏旨在将大型数据集压缩为小数据集并尽可能保留其用于模型训练的能力，以此降低数据存储消耗与深度学习应用的训练成本。然而，先前的数据蒸馏方法使用面向优化的技术，对模型训练过程中的梯度或是模型参数本身进行匹配，即使是在小型数据集和模型上依然有较大的计算负担。研究团队提出了一种新的，基于分布匹配的数据蒸馏方法，计算更加高效并有更好的应用前景。具体而言，研究团队提出了两个普通分布匹配的方法的重大缺陷：不平衡的特征数目和用于距离计算的未验证嵌入，并且设计了新的方法处理这些缺陷，提出了分块与扩张增广，高效与丰富的模型采样，与类感知的分布正则化技术。该方法在使用更少计算资源的情况下，获得了超越先前面向优化的方法的性能，并成功应用到了更大的模型和数据集中。大量的实验证明了该方法的有效性。

论文作者：

Ganlong Zhao, Guanbin Li, Yipeng Qin, Yizhou Yu

基于DETR框架的半监督物体检测

Semi-DETR: Semi-Supervised Object Detection with Detection Transformers

研究团队分析了基于DETR的半监督目标检测(SSOD)框架，发现:(1)当伪标签框不准确时，会产生不正确的样本分配，而DETR中采用的一对一分配策略，使得可能正确的样本没有机会对网络产生正确的优化，导致训练效率低下;(2)基于DETR的检测器在输入查询和预测输出之间缺乏确定性对应关系，这阻碍了目前SSOD方法中广泛使用的基于一致性的正则化方法的使用。

为此，研究团队提出了第一个基于Transformer的端到端半监督目标检测器Semi-DETR，提出了一种结合一对多分配和一对一分配策略的分阶段混合匹配策略，在第一阶段保证当伪标签不准确时，仍然有合适的样本进行优化，以提高第一阶段的训练效率，从而为第二阶段的训练提供高质量的伪标签，并保证最终得到的模型仍然是端到端的，即无需极大值抑制(NMS)等后处理。此外，研究团队还引入了一种跨视图查询一致性方法来学习来自不同视图的物体查询(Object Query)的语义特征不变性，同时避免了获取物体查询对应关系的需要。与此同时，研究团队还提出了一个基于代价(Matching Cost)的伪标签挖掘模块，根据伪标签的匹配代价动态挖掘更多的伪标签框进行一致性训练，进一步提高一致性训练的效率。在COCO和Pascal VOC数据集上，研究团队提出的方法都取得了最先进的性能，以显著的优势超过了其他方法。

论文作者：

Jiacheng Zhang, Xiangru Lin, Kuo Wang, Wei Zhang, Xiao Tan, Junyu Han, Errui Ding, Jingdong Wang, Guanbin Li

基于定制学习的主动领域自适应方法

Divide and Adapt: Active Domain Adaptation via Customized Learning

近年来，主动领域自适应被提出用于在领域自适应问题中，设计主动学习算法在未标注的目标域数据中选择最有信息量的一小批样本进行标注，来最大化的提升深度学习模型在目标域数据上的性能，达到高效的标注效率。对于源域模型而言，目标域样本具有多层次的可迁移性。目前鲜有工作对可迁移性各异的样本分类讨论，迭代式的设计采样和训练策略。我们提出了一种分而治之的策略，综合考虑目标域样本与源域数据的差异性，和模型预测的不确定性，来设计主动学习的采样策略，并设计了定制化的目标函数来约束具有不同可迁移性的样本子集，实现了在多种领域自适应场景下的最优性能。

论文作者：

Duojun Huang, Jichang Li, Weikai Chen, Junshi Huang, Zhenhua Chai, Guanbin Li

基于图像掩码的反事实样本构造及

模型微调方法

Masked Images Are Counterfactual Samples for Robust Fine-tuning

深度学习模型通常受到训练数据和测试数据之间分布差异的挑战。最近，在多源数据上预训练的大模型展示了对各种分布偏移的前所未有的鲁棒性。然而，在下游数据上对这些模型进行微调可能导致鲁棒性的下降，即存在分布内（ID）性能和分布外（OOD）鲁棒性之间的权衡。现有的改进方法通常通过模型集成等方式，在模型参数层面隐式地保持微调后预训练模型的鲁棒性，并未从本质上分析和解决OOD鲁棒性问题。本文在对上述问题进行因果分析的基础上，提出了一种新的微调方法，使用掩码图像作为反事实样本以提高微调模型的鲁棒性。具体而言，我们基于类激活图（CAM）对图像语义相关或语义无关区域进行掩码，以打破非语义因素与图像语义的假性相关，并用其他图像的相应区域替换被掩码的区域。通过掩码生成的反事实样本用于微调模型与预训练模型之间的蒸馏。大量实验验证了该方法可以实现更好的ID性能和OOD鲁棒性之间的权衡，在提升鲁棒性方面相对现有方法具有显著优势。

论文作者：

Yao Xiao, Ziyi Tang, Pengxu Wei, Cong Liu, Liang Lin

论文链接：

https://arxiv.org/abs/2303.03052

视觉语言多模态理解

基于点到点的指称物体分割

Learning to Segment Every Referring Object Point by Point

指称表达分割 (RES) 可以促进视觉和语言之间的像素级语义对齐。大多数现有的 RES 方法都需要大量的像素级注释，进行这样详尽的注释昂贵且需要大量人力。

对此，研究团队提出了一种新的部分监督训练范式，使用大量指称边界框和少数（例如 1%）像素级参考掩码进行训练。为了最大化 REC 模型的泛化能力，团队基于点序列预测网络构建了模型，提出了一个co-content teacher，强制模型将点坐标（比例值）与所引用的图像区域显式关联，减轻了少量分割掩模下带来的偏差。为了充分利用指称边界框标注，团队进一步估计指称区域以确保解码器在生成点轮廓序列时关注这些区域内容。大量实验表明，当仅使用 1% 的掩码标注时，模型在 RefCOCO+@testA 上的准确率达到 52.06%（全监督为58.93%）。

论文作者：

Mengxue Qu, Yu Wu, Yunchao Wei, Wu Liu, Xiaodan Liang, Yao Zhao

基于动态图增强对比学习的医学报

告生成

Dynamic Graph Enhanced Contrastive Learning for Medical Report Generation

自动放射报告生成具有巨大的临床潜力，可以减轻放射科医生的繁重工作量并改善诊断解释。最近，研究人员用医学知识图增强了数据驱动的神经网络，以消除该任务中严重的视觉和文本偏差。这些图结构是通过医疗知识中疾病标签间的依赖关系来构建的，通常不会在训练过程中更新。因此，固定的图不能获得最为合适的知识，有效性上有一定限制。为了解决这一局限性，研究团队提出了一个具有动态结构和节点的知识图谱，以通过对比学习生成医学报告，称为 DCL。

详细地说，研究团队首先根据常识预先构建图的基本结构。然后从检索到的报告中提取的特定知识，以添加额外的节点或以自下而上的方式重新定义它们的关系。每个图像特征都与其自己的更新图结构集，并输入解码器模块以生成报告。最后，团队提出了图像-报告的对比和匹配损失函数，以更好地表示视觉特征和文本信息。在IU-Xray和MIMIC-CXR数据集上，提出的DCL都优于之前最先进的模型。

论文作者：

Mingjie Li, Bingqian Lin, Zicong Chen, Haokun Lin, Xiaodan Liang o, Xiaojun Chang

场景知识增强的跨模态视觉目标定位：标准数据集与方法

Advancing Visual Grounding with Scene Knowledge: Benchmark and Method

视觉定位 (Visual Grounding) 旨在图像中找出由自然语言指代的对应物体。理想情况下，它可以成为视觉和语言模型的试验台，以评估模型对图像和文本的联合理解及推理能力。然而，研究团队发现大多数现有的视觉定位数据集都是使用简单的描述文本构建的，这实际上大大降低了对模型上述能力的考察和评估。为此，研究团队提出了场景知识引导的视觉定位新任务，并提供了一个基准数据集，包括来自 4,000 张图像的 40,000 个（图像、场景知识、查询语句）三元组，其中仅依靠图像和查询语句不足以定位目标对象，迫使模型具有对长形式场景知识的理解和推理能力。

为了执行此任务，研究团队提出了两种方法（即知识嵌入视觉语言交互和语言增强视觉语言匹配）来接受三元组类型输入。前者在图像和查询语句交互之前将知识嵌入到图像特征中；后者则利用语言结构来帮助计算图像文本匹配。研究团队进行了大量实验来分析上述方法，并表明所提出的方法取得了可喜的结果，但仍有改进的空间，包括性能和可解释性。研究团队将向公众发布这个新任务/数据集，希望它能为研究人员提供对视觉和语言领域的新理解。

论文作者：

Zhihong Chen, Ruifei Zhang, Yibing Song, Xiang Wan, and Guanbin Li

END

继续滑动看下一个