cover_image

快讯| HCP Lab 7篇论文入选世界顶级计算机视觉会议CVPR 2017

中大HCP实验室
2017年07月24日 03:53

近日,世界顶级计算机视觉会议CVPR 2017于美国夏威夷时间7月21日正式拉开了帷幕,而中山大学人机物智能融合实验室受邀主办的Workshop, Look into Person (LIP) Challenge也在当日于CVPR分会场隆重召开。

图片

CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议,是目前计算机视觉领域中全球最具影响力、内容最全面的顶级学术会议。根据2017谷歌学术指标的论文引用率排名, CVPR位列计算机视觉领域榜首。

在本届CVPR大会上,中山大学人机物智能融合实验室(HCP Lab)共有7篇论文被收录,同比腾讯AI Lab 则为6篇,由此可见我校HCP Lab实力强潜力足势头猛,对学术上再创佳绩满怀信心。

以下我们将精选几篇论文展示给大家,详细论文后续将陆续发表在本公众号,届时欢迎感兴趣的朋友关注阅读。

图片

1

1.Joint Detection and Identification Feature Learning for Person Search

  联合检测的行人比对

图片

当前主要的行人再识别评测指标以及方法都基于截取好的行人图像与候选图像进行匹配。但是在真实的生活场景中,很多时候需要从大量的图像原图中搜索特定的目标人物,而原图中并不包含行人的标注框信息。为了弥补这个差距,本论文提出了一种新的深度学习框架,将行人检测(Pedestrian Detection)和人物再识别(Person Re-Identification)看做是一个任务——人物搜索(Person Search),而不是两个单独的任务。本论文提出了一种新的损失函数——Online Instance Matching,它能够充分利用未被标注的ID的人物信息,并具有很强的伸缩性,能够适应包含大规模数量人物 ID 的数据集。实验证明,我们的方法比其他将两个任务分开的方法效果要好,而提出的 OIM 损失函数比 Softmax 损失函数,收敛更快,效果更好。

2

Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing

LIP人物解析数据集与自监督结构敏感学习

图片图片

现有的人物解析数据集的图片数量少,人物姿态单一,不足以用来训练一个应用于真实场景的网络。本论文提出了一个新的人物解析数据集(LIP),包含5万张人物图片和20个类别,不仅在数量上远远超过了其他数据集,还具有更高的多样性和复杂性。

基于自底向上特征提取的通用物体分割方法,缺少了对人体结构信息的考虑,往往会产生一些不合理的预测结果,容易左右混淆。为了使人物解析所产生的结果与人物姿态结构保持一致,本论文提出了一个结构敏感的人物解析学习方法。除了使用传统的像素级别的区域标注信息作为监督,我们还提出了使用结构敏感的损失函数,从姿态结构的角度来评估人物解析预测结果的质量。实验证明,我们的方法能够很好地预测出小物体,并且能修复出现在其他方法中的左右部位颠倒的问题。

3

Instance-Level Salient Object Segmentation

实例级别的显著性物体分割

图片整体框架图

图像显著性检测近年来得益于深度卷积神经网络得到快速发展,然而,现有的方法都不能对显著性物体做到实例级别的检测,也就是不能把每个显著的实例分割开。基于此,本论文提出了一个实例级别的显著性性物体分割方法,它为输入图像生成了具有不同对象实例标签的显著性遮罩。此方法包括三个步骤,估计显著性图,检测显著性对象轮廓和识别显著性对象实例。

图片

多尺度调整框架图

在前两个步骤中,我们提出了一个多尺度显著性调整网络,此网络能产生高质量显著性区域遮罩和显著性对象轮廓。一旦集成了多尺度组合分组和基于MAP的子集优化框架,我们就可以生成很不错的显著性对象实例分割结果。为了进一步研究和评估显著性实例分割,我们还构建了一个包含了1000个图像的新数据库,加以像素级别的显著性实例标注。实验结果表明,本论文提出的方法能够在显著性检测的所有公共基准数据集以及我们新的显著性实例分割数据集上实现最先进的性能。

4

 Reccurrent 3D PoseSequence Machines 

递归3D 姿势序列机

图片

整体框架图

从单目图片序列中恢复3D人体姿势是一个很困难的任务,主要是因为人体各式各样的外观,任意的摄像机角度以及自遮挡和外遮挡, 并且从几何上说,从单目图片序列中恢复3D人体姿势本身就是二义性的。因此探索光节点间丰富的空间和时序上的依赖对于3D姿势估计人物就显得很关键。现存的方法通常手动设计一些精细化的先验项和人体身体运动的约束,这就导致不能够充分地探索所有的内在结构和不能适应所有的场景。为此,本论文提出了循环3D姿势序列机(RPSM),通过多阶段序列求精去自动地学习依赖图像的结构约束和依赖序列的时序上下文。在每一个阶段,由三个模块组成:1) 2D 姿势模块,该模块用来提取依赖于图像的姿势表达;2) 3D 循环模块,该模块用于回归3D 姿势;3) 特征转化模块,该模块作为桥梁沟通起模块1),2), 同时也把2D 的表达转化到3D领域。然后把这三个模块一起组装到一个序列预测的框架中微调预测的3D姿势。本文的方法在Human3.6M和HumanEva-I数据集上均取得很好的效果。

5

Learning Object Interactions and Descriptions for Semantic ImageSegmentation

一种学习物体交互关系与描述的语义图像分割方法

近年来先进的深度卷积神经网络在许多计算机视觉任务中取得了巨大的成功,因为它具备强大学习能力,并且有大量标注好的数据供其学习。然而,深度卷积神经网络在机器自动分割并识别出图像中内容语义图像分割上的优势并未获得全面的开发,因为逐个像素的图像标注非常昂贵。

图片


a)网络框架图,可分为四个步骤。首先是利用深度残差网络对图像进行特征提取。其次,利用分割分支对图像进行初步分割。再次,利用行为交互分支预测图片中的物体语义类别及物体之间的交互关系。第四,利用行为交互分支的预测结果修正分割分支的初步分割结果。

b)是(a)中物体子网络与行为子网络的细节图。

 

我们通过网络搜索引擎采集了许多自然环境中的图片来构建数据集Image Descriptions in the WildIDW,它由从网络下载的图片及图片旁边句子描述组成),利用这个数据集,提高了语义图像分割的精确度。与以往的图片描述数据集不同,他们通过昂贵的人工劳动人来标注图片描述,而我们的图片和图片相关描述是自动地从网络下载的,从而免除了人工的标注。本论文还提出了一种弱监督学习的技术,将我们的采集的自然图片数据集IDW,与已有的逐像素标注数据集PASCAL VOC 2012进行联合训练。它有两方面引人注目的性质:一方面,来自两个不同数据集的知识得以相互吸收融合、最大被利用,从而同时提高了图像分割和物体交互关系预测两种任务的精度;另一方面,PASCAL VOC 2012 的分割精度,随着所加入的IDW数据量的增加,有所提高,证明了这项技术在大规模数据应用上潜在的可扩展性。

附录:

1.  “Joint Detection andIdentification Feature Learning for Person Search”, Tong Xiao, ShuangLi, Bochao Wang, Liang Lin, and Xiaogang Wang, Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2017.

2.  “Look into Person:Self-supervised Structure-sensitive Learning and A New Benchmark for HumanParsing”, Ke Gong, Xiaodan Liang, Dongyu Zhang, Xiaohui Shen, andLiang Lin,Proc. of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.

3.  “Instance-Level Salient ObjectSegmentation”, Guanbin Li, Yuan Xie, LiangLin, and Yizhou Yu, Proc. of IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2017. 

4.   “Recurrent 3D Pose SequenceMachines”,Mude Lin, Liang Lin*, Xiaodan Liang, Keze Wang, and HuiCheng, Proc. of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.

5.  “Learning Object Interactionsand Descriptions for Semantic Image Segmentation”,Guangrun Wang,Ping Luo, Liang Lin*, and Xiaogang Wang,Proc. of IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2017.

6. “Attention-Aware FaceHallucination via Deep Reinforcement Learning”, QingxingCao, Liang Lin*, Yukai Shi, Xiaodan Liang, and Guanbin Li,roc. of IEEEConference on Computer Vision and Pattern Recognition (CVPR), 2017. 

7.   “InterpretableStructure-Evolving LSTM”, Xiaodan Liang, Liang Lin*, XiaohuiShen, Jiashi Feng, Shuicheng Yan, and Eric Xing, Proc. of IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR), 2017. 


图片

图片

继续滑动看下一个
中大HCP实验室
向上滑动看下一个