今天为大家分享第二篇中山大学人机物智能融合实验室HCP Lab被CVPR 2017收录的论文。
Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing
LIP人物解析数据集与自监督结构敏感学习
Ke Gong, Xiaodan Liang, Dongyu Zhang, Xiaohui Shen, Liang Lin
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017
人物解析的目标是把人物图像精细化分割成多个具有明确语义信息的部位。它是人物身份识别,人物行为分析等高层次计算机视觉应用的基础。
目前,卷积神经网络在物体检测,语义分割,人物解析等问题上取得了突出的效果。然而,基于卷积神经网络的方法的效果严重依赖于训练图片的数量。已有的人物解析数据集的图片数量少,人物姿态单一,不足以用来训练一个应用于真实场景的网络。因此,我们提出了一个新的人物解析数据集(LIP),包含5万张人物图片和20个类别。从表1可以看出,LIP数据集在数量上远远超过了其他数据集。从图1可以看出LIP数据集的人物图片具有更高的多样性和复杂性。
表1
图1
LIP数据集的所有图片都来源于真实的生活场景,图片中的人物具有多种姿态和角度,以及不同程度的遮挡。我们定义了6个区分左右的身体部位和13个衣服类别,既包含了上衣,外套,裤子等常见服饰,也囊括了太阳镜,手套,围巾等小件配饰。各类别的数量如图2所示。我们还对不同外观的人物图片进行了统计,结果如图3所示。可以看出,LIP数据集非常贴合真实场景,也具有很强的挑战性。
图2
图3
现有的人物解析的方法主要是利用卷积神经网络和循环神经网络来改进特征表达,捕捉到丰富的特征信息后再结合图模型(如条件随机场)来实现像素级别的预测。这和通用物体语意分割的方法非常相似。然而,这些基于自底向上特征提取的通用物体分割方法,缺少了对人体结构信息的考虑,往往会产生一些不合理的预测结果,容易左右混淆。
为了使人物解析所产生的结果与人物姿态结构保持一致,我们提出了一个结构敏感的人物解析学习方法。除了使用传统的像素级别的区域标注信息作为监督,我们还提出了使用结构敏感的损失函数,从姿态结构的角度来评估人物解析预测结果的质量。这意味着一个理想的解析结果不仅能够划分出区域,还能够很好的保持合理的人物姿态。整个网络的框架如图4所示。
图4
首先,把人物图片输入到包含多个卷积层的解析网络中,并产生出解析的结果,即部位分割图。然后,我们计算出这些区域分割的中心点,用高斯函数来生产热点图,以此来表示人物姿态。人物姿态由九个关键点构成,分别是头,上半身,下半身,左右手,左右脚和左右鞋子。通过计算预测得到的人物姿态和真实的人物姿态之间的欧式距离,可以得到人物姿态误差。而最终的结构敏感损失函数则是姿态误差和分割误差二者的结合。
因为我们的结构敏感损失函数可以由现有的人物解析结果得到而不需要额外的标注信息,所以我们称之为一种自监督的学习方法。并且这个方法有着很好的适应性和拓展性,可以接入到其他网络中,从全局的角度提取高层次的结构信息,从而改善预测结果。
我们在两个大规模的极具挑战性的人物解析数据集上评测了我们提出的方法,并取得了突出的效果。如表2所示,在包含三千多张图片,6个类别的PASCAL-Person-Part数据集上,我们的方法比目前最好的方法提高了两个点,并且在多个类别上都取得了最好的效果。而LIP数据集的难度更加大,它包含三万张训练图片,一万张测试图片和20个类别,是目前规模和难度最大的人物解析数据集。表3展示了我们的方法与其他方法比较的结果。可以看出,我们的方法遥遥领先于其他方法,这也体现了我们所提出的结构敏感信息的重要性。图5展示了所有对比方法预测结果的一些例子,可以看出我们的方法能够很好地预测出小物体,并且能够修复出现在其他方法中的左右部位颠倒的问题。
表2
表3
图5
引用:
[1] X. Liang, C. Xu, X. Shen, J. Yang, S. Liu,J. Tang, L. Lin, and S. Yan. Human parsing with contextualized convolutionalneural network. In ICCV, 2015.
[2] X. Chen, R. Mottaghi, X. Liu, S.Fidler, R. Urtasun, et al. Detect what you can: Detecting and representing objects using holistic models and body parts. In CVPR, 2014.
[3] L.-C. Chen, Y. Yang, J. Wang, W. Xu,and A. L. Yuille. Attention to scale: Scale-aware semantic image segmentation.In CVPR, 2016.
*点击“阅读原文”到HCP Lab官网读原汁原味英文版介绍😘