新的一年,中山大学AI科技俱乐部与商汤科技举办讲座——对象检测: R-CNN到Mask R-CNN(Object Detection: R-CNN to Mask-RCNN and beyond)。主讲人是商汤科技高级研究员曾星宇老师。
主讲人:曾星宇-商汤科技高级研究员
2011年于中国科学技术大学电子信息工程系获得学士学位,2016年于香港中文大学多媒体实验室获得博士学位,目前负责智能前端团队的研发工作,研究方向包含行人车辆检测跟踪以及相关研究领域。曾获Google Global PhD Fellowship和国家奖学金。就读博士期间,在顶级期刊(IEEE TPAMI, IEEE IJCV,IEEE TCSVT)和顶级会议(CVPR,ICCV,ECCV)发表论文十余篇,并作为核心成员参与ILSVRC(ImageNet大规模视觉识别挑战赛)的物体检测、视频对象检测/跟踪等多项比赛,并取得冠/亚军。现任国际期刊IEEE IJCV, IEEE TCSVT, IEEE CVIU, Neurocomputing, Cognitive Systems Research审稿人;国际会议ICCV, CVPR, ECCV, ACCV 审稿人。
简单的介绍后,本次讲座正式开始
对象检测(object detection)相信大家都不陌生。对象检测是指利用图像处理与模式识别等领域的理论和方法,检测出图像中存在的目标对象,确定这些目标对象的语义类别,并标定出目标对象在图像中的位置。其应用也非常广泛,比如⾃动驾驶的感知、机器⼈的感知让机器更⼈性化、智能监控及抓⼩偷等等。
好的模型应有许多考虑的因素。类别太多、⼀个类别中的差异太⼤或类间的差异太⼤都是好的模型面临的巨大挑战。一个好的模型能使往后学习更加便利以及适应不同的场景。
在检测中通用的模块中分为三个步骤:
第⼀步 放框Box Proposal
放框有两种方法:滑动窗口和相似性预处理。前者简单但⼗分慢,后者复杂但精确。
第⼆步 用Features识别物体
在识别物体的过程中,早期都⼈为设计特征。这种方法简单但需要人工手动设置。深度学习寻找特征是目前比较主流的方法。其精确度高但十分依赖数据。
第三步分类
分类法有很多种。老师在这里提到了SVM 、Boosting、 Regress 这三种比较常见的方法。
随着科技的发展,对象检测也有了很大的进展。老师讲解4中不同的模型分别是R-CNN、Fast R-CNN、 Faster R-CNN 和 Mask R-CNN。
R-CNN (Region based ConvolutionalNeural Networks) 。预训练和调整的训练⽅法的先锋, 训练慢且复杂。
老师在讲解RCNN
Fast R-CNN快速并有效联合训练 ,但提框的速度依然很慢。
Faster R-CNN⽹络能告诉哪个地⽅有框,训练速度快。
Mask R-CNN 框架与Faster R-CNN一样,但是增加了一堆的预测值,使物体的纹理整个描绘出来。
在提问环节中,同学们都积极提问。
同学提问
在座的同学和老师提问了许多问题如:YOLO与R-CNN的区别和联系、物体检测的进展和在移动端的设计和优化。老师很有细心的回答同学们的问题。
最后十分感谢曾老师在百忙之中抽空给我们带来一场干货满满的讲座!至此我们中山大学AI技术俱乐部2017年秋季学期讲座部分圆满结束!我们希望您下一个学期能够继续关注我们俱乐部的后续活动,探讨和学习人工智能的发展!再次感谢!
合影留念