CVPR2017论文精选五：一种学习物体交互关系与描述的语义图像分割方法

王广润中大HCP实验室

今天为大家分享第五篇中山大学人机物智能融合实验室HCP Lab被CVPR 2017收录的论文。

Learning Object Interactions and Descriptions for Semantic Image Segmentation

一种学习物体交互关系与描述的语义图像分割方法

GuangrunWang*, Ping Luo*, Liang Lin, Xiaogang Wang, Human Cyber Physical Intelligence Laboratory, SYSU; Multimedia Laboratory, CUHK
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017
DATASET:
https://www.dropbox.com/sh/m4diwb309myir9h/AAAjdcBN6RT4ny5N2ICwcZs4a?dl=0
Poster: https://drive.google.com/file/d/0B67pbOsOrAreM2l1cE45VkxlXzQ/view
Benchmarks: http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=6

预测结果可视化图

一、背景

近年来先进的深度卷积神经网络在许多计算机视觉任务中取得了巨大的成功，因为它具备强大学习能力，并且有大量标注好的数据供其学习。然而，深度卷积神经网络在机器自动分割并识别出图像中内容上的优势并未获得全面的开发，因为逐个像素的图像标注非常昂贵。

我们通过网络搜索引擎采集了许多自然环境中的图片来构建数据集Image Descriptions in the Wild（IDW，它由从网络下载的图片及图片旁边句子描述组成），利用这个数据集，大大提高了语义图像分割的精确度。与以往的图片描述数据集不同，他们通过昂贵的人工劳动人来标注图片描述，而我们的图片和图片相关描述是自动地从网络下载的，从而免除了人工的标注。我们提出了一种弱监督学习的技术，将我们的采集的自然图片数据集IDW，与已有的逐像素标注数据集PASCAL VOC 2012进行联合训练。它有两方面引人注目的性质：一方面，来自两个不同数据集的知识得以相互吸收融合、最大被利用，从而同时提高了图像分割和物体交互关系预测两种任务的精度；另一方面，PASCAL VOC 2012 的分割精度，随着所加入的IDW数据量的增加，得到持续提高，证明了这项技术在大规模数据应用上潜在的可扩展性。

二、贡献

1. 此算法率先尝试采集网络上客观自然存在的（不像众多数据集那样，需要人为标注，它们不自然、不真实、不客观，导致在那些数据集上训练出来的算法不一定能用于自然的、客观的、真实的环境）、不经手工标注的图片来提高语义图像分割效果，并构建了一个大于4万张图片的数据集。

2. 提出了一种将逐像素标注数据集(PASCALVOC)与互联网下载图片描述自然图片数据集（IDW）联合训练的技术，使来自两个不同数据集的知识得以相互吸收融合、最大被利用，从而同时提高了机器自动分割并识别出图像中内容，以及自动预测图像中物体间的交互关系两种任务的精度。

3. 随着所参与训练的自然环境图片数量的增加，此算法的语义图像分割精度能得到持续的增加，展示了此算法的可扩展性及其在大规模数据应用上的潜能。

三、算法介绍

1. 此算法采集自然环境下的、不经手工标注的图片来提高语义图像分割效果，可分为四个步骤进行。首先是利用深度残差网络对图像进行特征提取。其次，利用分割分支对图像进行初步分割。再次，利用行为交互分支预测图片中的物体语义类别及物体之间的交互关系。第四，利用行为交互分支的预测结果修正分割分支的初步分割结果。

2. 利用此算法，进行图片描述预测。根据1中的物体子网络的输出和行为子网络的输出，能够预测图像中含有哪些物体和物体之间的行为交互关系，进而得到图片描述预测。

3. 利用此算法对存在多事例的图片进行图片描述预测，而不需要进行物体检测。行为子网络中的卷积层发挥注意机制的作用，可以帮助集中注意力到拥有行为交互的事例上，提高图片描述预测的精度。

四、算法详介

本技术方案包含以下四个主要流程和一个训练方法。四个流程分别是特征提取、初步分割、物体和交互关系预测、修正分割（详见论文图4）。训练方法是弱监督学习方法。

➤主要流程：

主要框架图

1) 特征提取

输入：场景图片。

输出：用来表征这个场景的特征，由于是深度网络的一部分，所以又称为深度特征图。该特征可以表征此场景，可作为后续图像语义分割和物体交互关系预测的输入。

利用深度度残差卷积网络，对所给定的场景图片，提取出特征征图（注：常用的残差网络有101层，也可以用更多层，虽然层数越多，精度可能越高，但是越多层需要越多显存，101层的好处是时间复杂度和空间复杂度刚刚好。常用的101层残差网络输出特征图为2048个通道，输出特征图尺寸为原图的1/32, 我们作了后面一些改动，使输出特征图尺寸增大到输入的1/8，即45*45，增大特征图的尺寸，有利于抓捕图片的细节信息，但又增加时间复杂度和空间复杂度，故45*45刚刚好）。对比标准101层残差网（其输出大小为1*1），作如下改动：i)去掉残差网最后一个池化操作。ii)把中间两个卷积层res4a_branch2a和res5a_branch2a的步长由2降为1，对应的旁支res4a_branch1和res5a_branch1作相应调整。这些改动的作用是是增大输出特征图的尺寸，有利于抓捕图片的细节信息。

101层残差网，是近年一种常用的深度学习网络，其包含101个卷积层、若干个直接连接的旁支，以及3个带卷积操作的旁支。图像前向经过101层的残差网，得到图像的深度特征图。由于残差网在百万级别大规模图像分类数据上进行过预训练，所以，残差网各层，发挥提取较强判别性特征的作用。

2) 初步分割

输入：场景的深度特征。

输出：场景的初步分割图，可以用来初步了解图像的语义内容，并可作为后续物体语义类别及交互关系预测的输入。

以深度特征为输入，分别并行地经过四个不同的卷积，得到四个不同尺度的响应图。这四个卷积层，不同之处，在于它们采用不同膨胀（dilation）操作率，从而得到发挥不同作用的四种不同尺度的响应图。大的膨胀率，可以捕获更多的全局信息和上下文信息，但缺失细节信息；相反，小的膨胀率，可以捕获图像的细节信息，但是缺失全局信息。把这四个不同尺度的响应图进行融合，充分利用了全局信息和细节信息，得到初步分割的的响应图。该响应图有21个通道，代表每个像素属于21类物体中哪一类的可能性。

3) 物体及其交互关系预测

输入：场景的深度特征及初步分割图。

输出：物体语义类别信息及物体间交互关系预测，前者可以用来描述场景中的物体语义类别，并可作为后续精细化分割的输入；后者可以描述物体间的交互关系。

详细过程分两个子网络。

a. 物体子网络。

输入：场景深度特征图、初步分割图

输出：判断场景中有哪几类物体

首先对特征图进行降维，然后如下图橙色部分所示，将场景深度特征图与初步分割图进行相乘，得到潜在物体的特征图，将其依次经过一个卷积层、池化层（Pooling）和一个全连接层，得到潜在物体的特征，将该特征进行分类，判断其属于哪一类。

b. 行为子网络。

输入: 潜在物体的特征图、场景中物体类别的预测。

输出：判断场景中哪些物体之间存在何种交互

首先，如下图蓝色部分所示，将潜在物体的特征图进行两两相加，得到潜在物体特征图组合。然后如下图橙色部分所示，将组合特征图结过卷积层，该卷积层发挥注意力机制，对存在多事例的物体，集中注意力到拥有行为交互的事例上，然后依次池化层（Pooling）、全连接层，得到两个物体的交互特征，将该特征进行分类，判断场景中哪些物体之间存在何种交互。

物体子网络和行为子网络采取相似的网络配置（详见论文图4(b)），由3个卷积层和一个全连接层组成。

物体子网络与行为子网络图

4) 精细分割

输入：场景的初步分割响应图和物体语义类别预测值。

输出：场景的最终语义分割结果，可以用来全面分析理解图像的语义内容。

首先，将物体类别预测的响应值插值为尺寸较大的物体类别响应图，其尺寸与初步分割响应图相同。然后将物体类别响应图与初步分割图进行卷积相乘操作，得到精细分割的响应图。该响应图有21个通道，代表每个像素属于21类物体中哪一类的可能性。

五、训练方法：弱监督训练技术

对机器自动分割并识别出图像中内容的任务，为了让机器学会此任务，在训练机器的时候，训练集中的每个样本都应该有逐像素标注监督信息。然而现在我们的互联网图片描述自然图片数据集，并无逐像素标注标签，却依然想让机器学会自动分割并识别出图像中内容，这样的训练叫做弱监督训练。

虽然自然图片（IDW数据集）中，每张图有一句话描述了图片的主要内容（例如，“一个女人骑在一只马上，另一个男人站在马旁边”），却缺失了关键的人工逐像素标注标签，而PASCAL VOC数据集中虽有逐个像素标签，却无图像描述信息。

因此，上述四个流程的学习，需要采用弱监督的训练方法。具体地，在训练过程中采取伪标签监督的方案，即对缺失的标签，利用修正后的预测结果，作为伪标签，用以监督网络参数的学习。如论文图4或上述第一个图所示，对PACAL VOC的数据，第一个损失函数（图中第1个红色箭头，下面依次类推）和第二个损失函数分别用逐素标签来监督学习，第三个损失函数从逐像素标签中导出物体类别作为监督，第四个损失函数根据响应值和先验知识推测一个伪标签，作为监督。对IDW数据集，只有第二到四个损失函数。其中，第二个损失函数根据响应值和先验知识推测一个伪标签，作为监督。第三和第四个损失函数分别用图像描述信息来监督。

*点击“阅读原文”读原汁原味版Paper😘

继续滑动看下一个