中山大学HCP Lab团队：面向场景理解与自主规划的具身智能研究进展

中大HCP实验室

面向场景理解与自主规划的

具身智能研究进展

具身智能（Embodied Artificial Intelligence）指的是智能体通过与环境产生交互后，通过自身的学习，产生对于客观世界的理解和改造能力，它要求智能体能够感受周围环境，并做出相应的决策，完成看、说、听、行动、推理等任务。具身智能行为可以被具有对应形态的智能体通过适应环境的方式学习到。具身智能是能够提升当前的人工智能认知能力的重要方式。具身智能可以通过与环境交互的渠道，从真实的物理或虚拟的数字空间中学习和进步，是实现通用人工智能（AGI）的一条重要路径。

具身智能：通过身体与环境互动来获得的智能

为了深入分析目标及理解场景以规划并预测智能体的实时行为，中山大学人机物智能融合实验室（HCP-Lab）以视觉目标主动搜索、场景实例自主规划、视觉语言导航、机器人智能控制、自动驾驶为切入点，开展了一系列研究，实现了认知启发的视觉目标搜索技术，提出了知识引导与因果驱动的视觉语言导航技术，构建了大规模自动驾驶数据集，研发了模拟和虚拟机器人，并结合物理机器人在真实场景、复杂三维虚拟环境中验证了智能体对环境的感知、认知和行动能力，在面向实体机器人和真实环境的具身智能研究取得了重要突破。本文将对中山大学人机物智能融合实验室在具身智能领域的一系列代表性研究工作进行简要介绍。

HCP-Lab团队近年来在具身智能领域的研究脉络

论文1：3D室内场景主动目标搜索

Active Object Search

Jie Wu, Tianshui Chen, Lishan Huang, Hefeng Wu, Guanbin Li, Ling Tian, Liang Lin

ACM MM 2020

在这项工作中，我们研究了一项在文献中没有明确提到的主动物体搜索（Active Object Search，AOS）任务。该任务旨在通过尽可能少的行动步骤，在3D室内场景中搜索和定位目标物体。与经典的被动式物体检测不同，该任务鼓励智能代理通过合理的行动规划来执行主动搜索，因此它可以更好地回忆起目标对象，特别是在目标远离代理、被障碍物阻挡或看不到的挑战性情况下。为了处理这个AOS任务，我们制定了一个强化学习框架，其中包括一个3D物体检测器、一个状态控制器和一个跨模态行动规划器，它们合作工作以尽量少的行动步骤找出目标物体。在训练过程中，我们设计了一种新颖的代价敏感的主动搜索奖励，惩罚不准确的物体搜索和多余的行动步骤。为了评估这个新任务，我们构建了一个包含30个不同室内场景中5,845个样本的主动物体搜索（AOS）基准。我们对这个基准进行了广泛的定性和定量评估，以证明所提出的方法的有效性，并分析了对解决这个任务有更大贡献的关键因素。

主要贡献：

（1）鼓励智能代理通过合理的行动规划执行主动搜索；

（2）提出了一个强化学习框架，包括3D目标检测器、状态控制器和跨模态行动规划器，以尽可能少的行动步骤找到目标物体；

（3）构建了一个包含来自30个不同室内场景的5,845个样本的AOS数据集。

图1：跨模态行动规划器的总体流程。在每个时间步骤中，规划器将当前场景的图像特征、目标物体的嵌入式特征和当前时间步骤作为输入，预测下一步动作。

图2：所提出的框架流程。Agent以迭代的方式主动探索环境以搜索目标物体。在每个迭代中，3D检测器首先基于当前观察结果检测目标物体，然后控制器预测目标是否成功定位。如果控制器输出一个继续信号，规划器推理出继续搜索的动作。如果控制器输出一个停止信号，Agent停止搜索并输出最终结果。

图3：搜索过程可视化。在每个步骤中，从第三人称视角和第一人称视角可视化执行的动作和感知的场景。当物体超出视野或被障碍物挡住，代理执行改变其位置和姿态的动作以搜索目标物体。

论文2：2D自动驾驶数据集SODA10M

SODA10M: A Large-Scale 2D Self/Semi-Supervised Object Detection Dataset for Autonomous Driving

Jianhua Han, Xiwen Liang, Hang Xu, Kai Chen, Lanqing Hong, Jiageng Mao, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Xiaodan Liang, Chunjing Xu

NeurIPS 2021 Datasets and Benchmarks Track (Round 2), 2021

本文旨在促进一个现实世界的、不断发展的、可扩展的自动驾驶系统，提出了一个用于通过从原始数据中学习的自监督和半监督方法标准化评估的大规模数据集，这是迄今为止第一个和最大的数据集。现有的自动驾驶系统严重依赖于使用大量注释数据训练的“完美”视觉感知模型（即检测）来确保安全。然而，在部署强大的自动驾驶系统时，精心标注所有场景和情况（即夜晚、恶劣天气、城市）的实例是不现实的。受到自监督和半监督学习的最新进展的启发，一个有前途的方向是通过共同利用大规模未标记数据和少量标记数据来学习一个强大的检测模型。现有的数据集（如BDD100K、Waymo）只提供少量数据，或者只涵盖带有完整注释的有限领域，从而阻碍了大规模预训练模型的探索。在这里，我们发布了一个名为SODA10M的大规模2D自/半监督自动驾驶物体检测数据集，其中包含1000万个未标记图像和20K个标记有6个代表性物体类别的图像。为了提高多样性，这些图像是在32个不同城市的不同天气条件、时段和场景下的27833小时内收集的。我们提供了对现有流行的自监督和半监督方法的广泛实验和深入分析，并给出了一些有趣的自动驾驶领域的发现。实验表明，SODA10M可以作为不同自监督学习方法的有前途的预训练数据集，在自动驾驶领域的不同下游任务（如检测、语义/实例分割）fine-tuning时表现出卓越的性能。该数据集已被用于举办ICCV2021 SSLAD挑战赛。更多信息请参见https://soda-2d.github.io。

图4：SODA10M主要分为两个部分，分别包含一千万张无标签图片以及两万张有标签图片（标注了6种主要的人车场景类别，Pedestrian/Cyclist/Car/Truck/Tram/Tricycle）

图5：SODA10M数据集特点

论文3：基于指示性表达的图像实例推理

Structured attention network for referring image segmentation

Liang Lin, Pengxiang Yan, Xiaoqian Xu, Sibei Yang, Kun Zeng, and Guanbin Li

TMM 2021

Referring image segmentation旨在分割自然语言表达所指的对象或物品。这项任务的挑战在于需要理解视觉和语言两方面。指示性表达的语言结构可以为对视觉和语言概念进行推理提供直观和可解释的布局，该任务是具身智能的基础。在本文中，我们提出了一种结构化注意力网络（SANet），以探索从指示性表达解析的依赖树中进行多模态推理。具体而言，SANet使用自底向上的注意力多模态树结构循环模块（AMTreeGRU）实现多模态推理。此外，为了提高空间细节，SANet进一步使用所提出的注意力跳过连接模块将语义引导的低级特征合并到高级特征中。对四个公共基准数据集进行的大量实验表明，我们提出的SANet具有更多可解释的可视化示例，具有优越性。

主要贡献：

（1）提出了一种结构化注意力网络，以基于从指代表达式中解析出的依赖树的多模态推理；

（2）为了提高空间细节，进一步利用注意力跳跃连接模块将语义引导的低层特征合并到高层特征。

图6：我们提出的结构化注意力网络（SANet）的总体框架。

图7：在四个公共基准数据集上的实验结果。

图8：AMTreeGRU模块自下而上推理过程的注意力映射可视化。(a) 从指示性表达解析出的依赖树。(b) 原始图像。(c) 预测结果。(d) 自底向上推理过程的注意力图。

论文4：场景直观的远程具身视觉推理

Scene-intuitive agent for remote embodied visual grounding

Xiangru Lin, Guanbin Li, and Yizhou Yu

CVPR 2021

人类通过生活经历来形成对视觉环境和语言理解的直觉。设想你接到一项高层指示，“去主卧室的浴室，把左墙上的蓝色毛巾换掉”，你会怎么做来完成任务呢？直觉上，我们理解指令的语义，形成脑海中浴室和蓝色毛巾的概念；然后，我们通过将脑海中的浴室外观与当前场景进行一致性匹配来导航到目标位置。本文介绍了一种能够模仿人类行为的agent。具体而言，我们专注于名为REVERIE的远程实体化视觉指称任务，要求agent能够根据简洁的自然语言指令正确定位远程目标对象，并提出了一个两阶段的训练流程。在第一阶段中，我们使用两个跨模态对齐子任务进行agent的预训练，分别是场景定位任务和对象定位任务。agent学会了在场景定位任务中何时停止，在对象定位任务中关注什么。然后，为了生成行动序列，我们提出了一种增强记忆的关注行动解码器，以平稳地融合预训练的视觉和语言表示与agent过去的记忆经验。实验结果表明，我们的方法明显优于先前的最先进技术(SOTA)，证明了我们方法的有效性。

主要贡献：

（1）针对真实室内环境下，提出了一种能够理解人类直觉的代理REVERIE，该框架在训练和推理过程中密切结合导航和视觉定位；

（2）引入了两个新的预训练任务，称为场景定位任务和物体定位任务，以及一个新的带有记忆增强的注意力动作解码器。

图9：场景定位使代理能够推理出目标位置，物体定位需要学习关注区域。

图10：方法框架。

图11：和主流方法性能比较

图12：消融实验

论文5：偏差鲁棒的视觉语言导航

Towards Deviation-robust Agent Navigation via Perturbation-aware Contrastive Learning

Bingqian Lin∗ , Yanxin Long∗ , Yi Zhu, Fengda Zhu, Xiaodan Liang , Qixiang Ye, Liang Lin

TPAMI 2023

HCP-Lab Project链接: https://www.sysu-hcp.net/projects/robotics/108.html

图13：在现实场景中，一个VLN代理需要从起始位置s导航到目标位置，可能由于错误的行动决策或可能的干扰，在蓝色的真实路径中无法从c移动到o，从而导致路径偏离。红色和绿色轨迹分别表示在偏离情况下的失败和成功轨迹。

视觉语言导航（VLN）要求智能体根据给定的语言指令在真实三维环境中导航。尽管已经取得了显著进展，但传统的VLN智能体通常在无干扰的环境下训练，很容易在实际导航场景中失败，因为它们不知道如何处理各种可能的干扰，例如突然的障碍物或人为干扰，这些干扰经常会导致意外的路线偏差。在本文中，我们提出了一种称为“渐进扰动感知对比学习”（PROPER）的模型无关训练范式，通过要求智能体学习适应于偏差鲁棒的导航，来增强现有VLN智能体在实际环境中的泛化能力。具体来说，引入了一种简单而有效的路径扰动方案来实现路线偏差，智能体需要在遵循原始指令的情况下成功导航。由于直接让智能体学习扰动轨迹可能会导致训练不充分和低效，因此设计了一种逐步扰动的轨迹增强策略，其中智能体可以自适应地学习在扰动下导航，以改善其对特定轨迹的导航性能。为了鼓励智能体充分捕捉扰动带来的差异并适应无扰动和有扰动的环境，进一步开发了一种扰动感知对比学习机制，通过对比无扰动轨迹编码和扰动基础对应物。在标准的Room-to-Room（R2R）基准测试上进行的广泛实验表明，PROPER可以在无扰动场景下受益于多个最先进的VLN方法。我们进一步收集了扰动路径数据，构建了一个基于R2R的自省子集，称为Path-Perturbed R2R（PP-R2R）。在PP-R2R上的结果显示，流行的VLN代理的鲁棒性不尽如人意，而PROPER可以提高其在偏差下的导航鲁棒性。

主要贡献：

（1）为了使代理能够自适应地学习在扰动下导航，设计了一种渐进式扰动轨迹增强策略；

（2）为了鼓励代理充分捕捉扰动带来的差异，并适应无扰动和扰动基础环境，开发了一种扰动感知对比学习机制。

图14：PROPER概述。(a) 逐步扰动的轨迹增强。在每个训练迭代中，收集新的匹配真实路径轨迹，并加上扰动。然后将新的扰动轨迹与以前的扰动轨迹结合起来进行训练。(b) 扰动感知对比学习。在无扰动和基于扰动的场景中，通过轨迹编码器获取锚点、正样本和负样本，以计算对比学习损失。

图15：基于扰动的导航可视化示例。指令：指令：向右走，绕过玻璃窗朝房子的入口走去。走进房子并停下。代理根据每个时间步的指令和全景视图生成轨迹。遇到扰动时，关键的视觉对象在指令和全景视图中都会被突出显示。根据VLN中的评估标准，当代理在距离GT终点3米以内的位置停下时，轨迹才是成功的。

论文6：基于对抗强化指令攻击器的鲁棒视觉语言导航

Adversarial Reinforced Instruction Attacker for Robust Vision-Language Navigation

Bingqian Lin, Yi Zhu, Yanxin Long, Xiaodan Liang, Qixiang Ye, Liang Lin

TPAMI 2021

HCP-Lab Project链接: https://www.sysu-hcp.net/projects/robotics/86.html

语言指令在自然语言基础导航任务中起着关键作用。然而，受限于人类注释指令的导航器可能难以准确捕捉不同时间步骤中复杂指令中的关键信息，从而导致导航性能差。本文提出了一种对抗性攻击范式来训练更具鲁棒性的导航器，使其能够动态地从长指令中提取关键因素。具体而言，我们提出了一种动态强化指令攻击器（DR-Attacker），该攻击器通过摧毁指令中不同时间步骤中最具有说明性的信息，学习如何误导导航器移动到错误的目标。通过将扰动生成建模为马尔可夫决策过程，DR-Attacker 通过强化学习算法进行优化，以根据可学习的攻击分数在导航过程中逐步生成扰动指令。然后，这些扰动指令作为难样本用于改进导航器的鲁棒性，使用有效的对抗训练策略和辅助的自监督推理任务。在Vision-and-Language Navigation（VLN）和Navigation from Dialog History（NDH）任务上的实验结果表明，我们的方法优于现有最先进方法。此外，可视化分析显示出所提出的 DR-Attacker 的有效性，它可以成功攻击不同时间步骤中指令中的关键信息。代码已开源 https://github.com/expectorlin/DR-Attacker。

主要贡献：

（1）通过将扰动生成建模为马尔可夫决策过程，所提出的指令攻击者称为动态强化指令攻击者（DR-Attacker），可以通过强化学习算法进行优化，以实现有效的扰动，无需分类目标；

（2）为了提高导航器的鲁棒性，采用了替代的对抗训练策略和辅助的自监督推理任务，以在扰动指令上训练导航器，从而有效增强导航器的跨模态理解能力。

图16：我们提出的方法概述。在时刻t，DR-Attacker接收视觉观察和原始指令，并通过将选定的目标单词替换为攻击分数最高的候选单词来生成扰动指令。被攻击者导航员接收扰动指令，并在对抗性环境中强制最大化导航奖励RNav，同时推理DR-Attacker实际攻击的单词，以增强模型的鲁棒性。

图17：VLN上轨迹期间扰动指令，全景视图和语言注意权重（实例（b））的可视化示例。红色，蓝色和绿色的词分别表示DR-Attacker（A）实际攻击的词，导航器（P）预测的攻击词和替换词（S）。黄色边界框表示当前场景中的可视化对象或位置。“基准”和“我们”的代表没有和使用扰动指令训练的导航器。括号中的词表示DR-Attacker的实际攻击词。

论文7：非静态双足机器人行为控制

Reward-Adaptive Reinforcement Learning: Dynamic Policy Gradient Optimization for Bipedal Locomotion

Changxin Huang, Guangrun Wang, Zhibo Zhou, Ronghui Zhang, Liang Lin

TPAMI 2022

HCP-Lab Project链接: https://www.sysu-hcp.net/projects/robotics/107.html

控制非静态双足机器人是具有挑战性的，因为涉及到复杂的动力学和多标准优化。最近的研究已经证明了深度强化学习（DRL）在模拟和物理机器人中的有效性。在这些方法中，不同标准的奖励通常被总结到一起以学习标量函数。然而，标量的信息量较小，可能不足以从复杂的混合奖励中提取每个奖励通道的有效信息。在本文中，我们提出了一种新的自适应奖励强化学习方法，用于双足运动，允许使用动态机制同时通过多个标准来优化控制策略。所提出的方法应用多头批判家（critic）来学习每个奖励组件的单独值函数，从而产生混合策略梯度。我们进一步提出动态权重，允许每个组件使用不同的优先级来优化策略。这种混合和动态策略梯度（HDPG）设计使代理更加高效地学习。我们表明，所提出的方法优于总结奖励方法，并且能够转移到物理机器人中。MuJoCo的结果进一步证明了HDPG的有效性和泛化性。

主要贡献：

（1）引入多头评判原则来学习每个奖励的独立价值函数；

（2）提出了动态权重的混合策略梯度，以通过混合策略梯度以动态方式进行优化；

（3）在Gazebo模拟器中构建了双足机器人，成功地转移到了物理机器人上。

图18：框架概述。这个双足机器人与模拟器交互并获取经验转换。HDPG 的多头判别器为每个奖励组件学习单独的 Q 值函数。动态权重分配给混合策略梯度来调整每个策略梯度组件的学习优先级。

图19：仿真双足机器人、物理双足机器人、机器人草图。

图20：在仿真中进行动态随机化训练的 HDPG 策略被成功地转移到了物理机器人上。

图21：MuJoCo任务上的性能比较。

图22：双足机器人运动任务的示意图：（a）在随机干扰下行走；（b）越过障碍物行走；（c）在斜坡上行走。

继续滑动看下一个