原题目:ECCV 2018丨YOLO遇上OpenPose,近200FPS的高帧数多个人态度检查和测试

cs231n学习笔记-CNN-指标检查和测试、定位、分割

前一年,围绕商业化创新引爆的网络创业;在快要来临的人工智能时代,以技术创新为主导的AI创业,技术壁垒成为更首要的竞争优势。技术立异会成为行业发展的驱重力,科学研商战线的展开对未来技术诞生提供了要害的参阅和辅导。

Original url:

伊瓢 发自 凹非寺

cite from:

11月21 – 213日,国际超级会议 — IEEE国际总结机视觉与方式识别会议(CVP逍客2017)将在美利坚同联盟塞班岛举行。“增强现实(A奇骏)是总括机视觉与人机交互的交叉学科。”计算机视觉会议CVPLAND的揭幕,激发了A汉兰达关怀者对技术的满腔热情。

在高帧数下,如何完毕人体姿态检查和测试?

1. 基本概念

不独是CVPHaval,下半年揭幕的ICCV(国际计算机视觉大会)或ECCV(亚洲总计机视觉会议)与CVP中华V一同,在学术界并称总括机视觉方向的三大一流会议(“三大顶会”),被澳大俄克拉荷马城(Australia)ICT学术会议排行和中华人民共和国总计机学会等机构评为最高级别学术会议。

下边那条刷屏的twitter摄像给出了答案。

1)CNN:Convolutional Neural Networks

正文将为大家介绍二〇一六 –
2017三年来,亮风台的部分被“三大顶会”收音和录音的商讨成果(除此之外,亮风台的有的切磋成果还刊出在PAMI等世界级人工智能期刊上)。诗歌内容涵盖目的跟踪、图像语义识别、人脸检查和测试与识别等ARubicon宗旨技术。

Object Detection

 Published: 09
Oct 2015  Category: deep_learning

Jump to…

  1. Leaderboard
  2. Papers
    1. R-CNN
    2. MultiBox
    3. SPP-Net
    4. DeepID-Net
    5. NoC
    6. Fast
      R-CNN
    7. DeepBox
    8. MR-CNN
    9. Faster
      R-CNN
    10. YOLO
    11. AttentionNet
    12. DenseBox
    13. SSD
    14. Inside-Outside Net
      (ION)
    15. G-CNN
    16. HyperNet
    17. MultiPathNet
    18. CRAFT
    19. OHEM
    20. R-FCN
    21. MS-CNN
    22. PVANET
    23. GBD-Net
    24. StuffNet
  3. Detection From
    Video

    1. T-CNN
    2. Datasets
  4. Object Detection in
    3D
  5. Salient Object
    Detection
  6. Specific Object
    Deteciton

    1. Face
      Deteciton

      1. UnitBox
      2. MTCNN
      3. Datasets /
        Benchmarks
    2. Facial Point / Landmark
      Detection
    3. People
      Detection
    4. Person Head
      Detection
    5. Pedestrian
      Detection
    6. Vehicle
      Detection
    7. Traffic-Sign
      Detection
    8. Boundary / Edge / Contour
      Detection
    9. Skeleton
      Detection
    10. Fruit
      Detection
    11. Others
  7. Object
    Proposal
  8. Localization
  9. Tutorials
  10. Projects
  11. Blogs
Method VOC2007 VOC2010 VOC2012 ILSVRC 2013 MSCOCO 2015 Speed
OverFeat       24.3%    
R-CNN (AlexNet) 58.5% 53.7% 53.3% 31.4%    
R-CNN (VGG16) 66.0%          
SPP_net(ZF-5) 54.2%(1-model), 60.9%(2-model)     31.84%(1-model), 35.11%(6-model)    
DeepID-Net 64.1%     50.3%    
NoC 73.3%   68.8%      
Fast-RCNN (VGG16) 70.0% 68.8% 68.4%   19.7%(@[0.5-0.95]), 35.9%(@0.5)  
MR-CNN 78.2%   73.9%      
Faster-RCNN (VGG16) 78.8%   75.9%   21.9%(@[0.5-0.95]), 42.7%(@0.5) 198ms
Faster-RCNN (ResNet-101) 85.6%   83.8%   37.4%(@[0.5-0.95]), 59.0%(@0.5)  
SSD300 (VGG16) 72.1%         58 fps
SSD500 (VGG16) 75.1%         23 fps
ION 79.2%   76.4%      
AZ-Net 70.4%       22.3%(@[0.5-0.95]), 41.0%(@0.5)  
CRAFT 75.7%   71.3% 48.5%    
OHEM 78.9%   76.3%   25.5%(@[0.5-0.95]), 45.9%(@0.5)  
R-FCN (ResNet-50) 77.4%         0.12sec(K40), 0.09sec(TitianX)
R-FCN (ResNet-101) 79.5%         0.17sec(K40), 0.12sec(TitianX)
R-FCN (ResNet-101),multi sc train 83.6%   82.0%   31.5%(@[0.5-0.95]), 53.2%(@0.5)  
PVANet 9.0 81.8%   82.5%     750ms(CPU), 46ms(TitianX)

那是现年ECCV上的一篇名为《Pose Proposal
Networks》的舆论,作者是扶桑柯尼卡美能达公司的関井大気(Taiki
SEKII),结合了二〇一八年CVP纳瓦拉上的YOLO和CMU的OpenPose,创立出的新格局,能够落到实处高帧数摄像中的五人态度检查和测试。

2)FC:Fully Connected

比如亮风台和上海复旦协作,在图匹配难点上得到了关键拓展,其结果公布在ECCV
2014上,散文全称为《Graph match algorithms for pairwise and groupwise
matching》。

Leaderboard

Detection Results: VOC2012

  • intro: Competition “comp4” (train on own data)
  • homepage: 

高帧数,无压力

3)IoU:Intersection over Union (IoU的值定义:Region Proposal与Ground
Truth的窗口的搅和比并集的比率,假如IoU低于0.5,那么一定于目的照旧没有检查和测试到)

图匹配难点的目标是找出几个形式(比如两张图片)中的对应关系,该难题在电脑视觉和形式识别中拥有广阔的利用。亮风台和东京(Tokyo)师范学院的科学探究职员分析了已有算法在隐函数空间上对于奇点处理的欠缺,然后针对该不足提议多路径寻优的解法。在WILLOW、CalTech和CMU等国际名牌评测集上,文中的技艺均超过已部分艺术,取得了立刻国际上的最好结果。

Papers

Deep Neural Networks for Object
Detection

  • paper: 

OverFeat: Integrated Recognition,
Localization and Detection using Convolutional Networks

  • intro: A deep version of the sliding window method, predicts
    bounding box directly from each location of the topmost feature map
    after knowing the confidences of the underlying object categories.
  • intro: training a convolutional network to simultaneously classify,
    locate and detect objects in images can boost the classification
    accuracy and the detection and localization accuracy of all tasks
  • arxiv: 
  • github: 
  • code: 

澳门金沙4787.com官网 1

4)ICCV:International Conference on Computer Vision

好像上述研究成果,亮风台有且不压制以下切磋成果:

R-CNN

Rich feature hierarchies for
accurate object detection and semantic segmentation

  • intro: R-CNN
  • arxiv: 
  • supp: 
  • slides: 
  • slides: 
  • github: 
  • notes: 
  • caffe-pr(“Make R-CNN the Caffe detection
    example”): 

澳门金沙4787.com官网 2

5)R-CNN:Region-based Convolutional Neural Networks

[1] Parallel Tracking and Verifying: A Framework for Real-Time and
High Accuracy Visual Tracking. (ICCV 2017)

MultiBox

Scalable Object Detection using
Deep Neural Networks

  • intro: MultiBox. Train a CNN to predict Region of Interest.
  • arxiv: 
  • github: 
  • blog: 

Scalable, High-Quality Object
Detection

  • intro: MultiBox
  • arxiv: 
  • github: 

而别的方法,比如NIPS 2017 的AE(Associative embedding)、ICCV
2017的卡宴MPE(Regional multi-person pose estimation)、CVP本田CR-V2017的PAF(Realtime multi-person 2D pose estimation using part affinity
田野同志s),都不能够兑现高帧数尤其是100上述帧数录像的态势检查和测试。

6)AR:Average Recall

澳门金沙4787.com官网 3

SPP-Net

Spatial Pyramid Pooling in Deep
Convolutional Networks for Visual Recognition

  • intro: ECCV 2014 / TPAMI 2015
  • arxiv: 
  • github: 
  • notes: 

Learning Rich Features from RGB-D
Images for Object Detection and Segmentation

  • arxiv: 

澳门金沙4787.com官网 4

7)mAP:mean Average Precision

[2] Saliency Pattern Detection by Ranking Structured Trees. (ICCV
2017)

DeepID-Net

DeepID-Net: Deformable Deep
Convolutional Neural Networks for Object Detection

  • intro: PAMI 2016
  • intro: an extension of R-CNN. box pre-training, cascade on region
    proposals, deformation layers and context representations
  • project
    page: 
  • arxiv: 

Object Detectors Emerge in Deep
Scene CNNs

  • arxiv: 
  • paper: 
  • paper: 
  • slides: 

segDeepM: Exploiting Segmentation
and Context in Deep Neural Networks for Object Detection

  • intro: CVPR 2015
  • project(code+data): 
  • arxiv: 
  • github: 

在COCO数据集上也不虚,比较谷歌(谷歌)PersonLab能在更高帧数下运营。

8)RPN:Region Proposal Networks

澳门金沙4787.com官网 5

NoC

Object Detection Networks on
Convolutional Feature Maps

  • intro: TPAMI 2015
  • arxiv: 

Improving Object Detection with
Deep Convolutional Networks via Bayesian Optimization and Structured
Prediction

  • arxiv: 
  • slides: 
  • github: 

澳门金沙4787.com官网 6

9)FAIR:Facebook AI Research

[3] Cross-Age Face Verification by Coordinating with Cross-Face Age
Verification. (CVPR 2015)

Fast R-CNN

Fast R-CNN

  • arxiv: 
  • slides: 
  • github: 
  • webcam demo: 
  • notes: 
  • notes: 
  • github(“Fast R-CNN in
    MXNet”): 
  • github: 
  • github: 
  • github(Tensorflow): 

来看下具体数目,在头、肩、肘部位和完好上半身识别Chinese Football Association Super League越了其他措施,全体得分也不虚。

10)w.r.t.:with respect to

澳门金沙4787.com官网 7

DeepBox

DeepBox: Learning Objectness with
Convolutional Networks

  • arxiv: 
  • github: 

神奇“体位”大冒险

11)Image Classification(what?):图像分类

[4] 3D Hand Pose Estimation Using Randomized Decision Forest with
segmentation index points. (ICCV 2015)

MR-CNN

Object detection via a
multi-region & semantic segmentation-aware CNN model

  • intro: ICCV 2015. MR-CNN
  • arxiv: 
  • github: 
  • notes: 
  • notes: 
  • my notes: Who can tell me why there are a bunch of duplicated
    sentences in section 7.2 “Detection error analysis”? 😀

除此以外,常规的神态检查和测试十二分便于出错的“体位”中,该办法也得以规避。

12)Object Detection(what+where?)、Localization、Segmentation:对角检查和测试、定位、分割

澳门金沙4787.com官网 8

Faster R-CNN

Faster R-CNN: Towards Real-Time
Object Detection with Region Proposal Networks

  • intro: NIPS 2015
  • arxiv: 
  • gitxiv: 
  • slides: 
  • github: 
  • github: 
  • github: 
  • github(Torch): 
  • github(Torch): 
  • github(Tensorflow): 
  • github(tensorflow): 

Faster R-CNN in MXNet with
distributed implementation and data parallelization

  • github: 

比如说从天空跳伞下来这种出人意料的姿态:

2. CNN基本知识

[5] RGB-D Scene Labeling with Multimodal Recurrent Neural Networks.
(CVPR 2017 Workshop)

YOLO

You Only Look Once: Unified,
Real-Time Object Detection

澳门金沙4787.com官网 9

  • intro: YOLO uses the whole topmost feature map to predict both
    confidences for multiple categories and bounding boxes (which are
    shared for these categories).
  • arxiv: 
  • code: 
  • github: 
  • reddit: 
  • github: 
  • github: 
  • github: 
  • github: 
  • github: 
  • github: 
  • gtihub: 

Start Training YOLO with Our Own
Data

澳门金沙4787.com官网 10

  • intro: train with customized data and class numbers/labels. Linux /
    Windows version for darknet.
  • blog: 
  • github: 

R-CNN minus R

  • arxiv: 

澳门金沙4787.com官网 11

2.1 CNN的卷积流程

澳门金沙4787.com官网 12

AttentionNet

AttentionNet: Aggregating Weak
Directions for Accurate Object Detection

  • intro: ICCV 2015
  • intro: state-of-the-art performance of 65% (AP) on PASCAL VOC
    2007/2012 human detection task
  • arxiv: 
  • slides: 
  • slides: 

人口过多的水泄不通情况:

卷积总计进程如下图所示:

[6] SANet: Structure-Aware Network for Visual Tracking. (CVPR 2017
Workshop)

DenseBox

DenseBox: Unifying Landmark
Localization with End to End Object Detection

  • arxiv: 
  • demo: 
  • KITTI result: 

澳门金沙4787.com官网 13

咱俩刚刚描述的便是卷积。能够把卷积想象为信号处理中的一种奇特乘法。也可将八个矩阵生成点积想象为五个函数。图像就是底层函数,而过滤器就是在其上“卷过”的函数。

澳门金沙4787.com官网 14

SSD

SSD: Single Shot MultiBox
Detector

澳门金沙4787.com官网 15

  • arxiv: 
  • paper: 
  • github: 
  • video: 
  • github(MXNet): 
  • github: 
  • github(Keras): 

缘何SSD(Single Shot MultiBoxDetector)对小指标的检查和测试效果倒霉?

  • zhihu: 

还有,多个人重叠的图像。

图像的要害难题在于其高维度,原因是对高维度的拍卖时间和平运动算能力开销很高。卷积互连网就是为了通过各样措施下降图像的维度而规划的。过滤器步幅正是缩短维度的一种方式,另一种格局是降采集样品。

澳门金沙4787.com官网 16

Inside-Outside Net (ION)

Inside-Outside Net: Detecting
Objects in Context with Skip Pooling and Recurrent Neural
Networks

  • intro: “0.8s per image on a Titan X GPU (excluding proposal
    generation) without two-stage bounding-box regression and 1.15s per
    image with it”.
  • arxiv: 
  • slides: 
  • coco-leaderboard: 

Adaptive Object Detection Using
Adjacency and Zoom Prediction

  • intro: CVPR 2016. AZ-Net
  • arxiv: 
  • github: 
  • youtube: 

澳门金沙4787.com官网 17

2.2 Activations
maps的个数与Filter的个数一致

……
字数有限,不逐一列举,可至亮风台HiScene公众号(hiscene)后台回复“杂谈”得到舆论原作。

G-CNN

G-CNN: an Iterative Grid Based
Object Detector

  • arxiv: 

Factors in Finetuning Deep Model
for object detection Factors in Finetuning Deep Model for Object
Detection with Long-tail Distribution

  • intro: CVPR 2016.rank 3rd for provided data and 2nd for external
    data on ILSVRC 2015 object detection
  • project
    page: 
  • 各个对象检查和测试杂谈化总同盟结,cs231n学习笔记。arxiv: 

We don’t need no bounding-boxes:
Training object class detectors using only human verification

  • arxiv: 

只顾,左边站立的女孩子和她后边在瑜伽垫上的人,完完全全分开了,不会闹出下边那种胳膊腿儿搞错的戏弄。

2.3
输入层与Filter、Padding、Stride、参数和输出层的关系

HyperNet

HyperNet: Towards Accurate Region
Proposal Generation and Joint Object Detection

  • arxiv: 

澳门金沙4787.com官网 18

1) 参数个数由Filter定义及Filter个数决定,其公式为:

MultiPathNet

A MultiPath Network for Object
Detection

澳门金沙4787.com官网 19

  • intro: BMVC 2016. Facebook AI Research (FAIR)
  • arxiv: 
  • github: 

原理

The number of parameters = (FxFxD + 1) * K

CRAFT

CRAFT Objects from Images

  • intro: CVPR 2016. Cascade Region-proposal-network And FasT-rcnn. an
    extension of Faster R-CNN
  • project page: 
  • arxiv: 
  • paper: 
  • github: 

澳门金沙4787.com官网 20

2)1个Activation Map共享2个Filter及其权重和错误

OHEM

Training Region-based Object
Detectors with Online Hard Example Mining

  • intro: CVPR 2016 Oral. Online hard example mining (OHEM)
  • arxiv: 
  • paper: 

Track and Transfer: Watching
Videos to Simulate Strong Human Supervision for Weakly-Supervised Object
Detection

  • intro: CVPR 2016
  • arxiv: 

Exploit All the Layers: Fast and
Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded
Rejection Classifiers

那是依据ResNet-18的PPN对多少人姿势检查和测试的进度:

3)Activation Map个数与Filter个数相同

R-FCN

R-FCN: Object Detection via
Region-based Fully Convolutional Networks

  • arxiv: 
  • github: 
  • github: 

Weakly supervised object detection
using pseudo-strong labels

  • arxiv: 

Recycle deep features for better
object detection

  • arxiv: 

a) 输入图像;

2.4 Pooling(池化/降采样)过程

MS-CNN

A Unified Multi-scale Deep
Convolutional Neural Network for Fast Object Detection

  • intro: ECCV 2016
  • intro: 640×480: 15 fps, 960×720: 8 fps
  • arxiv: 
  • github: 
  • poster: 

Multi-stage Object Detection with
Group Recursive Learning

  • intro: VOC2007: 78.6%, VOC2012: 74.9%
  • arxiv: 

Subcategory-aware Convolutional
Neural Networks for Object Proposals and Detection

  • intro: SubCNN
  • arxiv: 
  • github: 

b) 从输入图像中检查和测试部分边界框;

1)  Pooling在各样Activation Map上单独做,在Pooling之后,Activation
Map数量不变

PVANET

PVANET: Deep but Lightweight
Neural Networks for Real-time Object Detection

  • intro: “less channels with more layers”, concatenated ReLU,
    Inception, and HyperNet, batch normalization, residual connections
  • arxiv: 
  • github: 
  • leaderboard(PVANet
    9.0): 

PVANet: Lightweight Deep Neural
Networks for Real-time Object Detection

  • intro: Presented at NIPS 2016 Workshop on Efficient Methods for Deep
    Neural Networks (EMDNN). Continuation
    of arXiv:1608.08021
  • arxiv: 

c) 检查和测试出身子;

Pooling层一般用来降维,将三个kxk的区域内取平均或取最大值,作为那二个小区域内的特色,传递到下一层。守旧的Pooling层是不重叠的,使Pooling层重叠能够下跌错误率,而且对幸免过拟合有必然的效劳。

GBD-Net

Gated Bi-directional CNN for
Object Detection

  • intro: The Chinese University of Hong Kong & Sensetime Group Limited
  • paper: 
  • mirror: 

Crafting GBD-Net for Object
Detection

  • intro: winner of the ImageNet object detection challenge of 2016.
    CUImage and CUVideo
  • intro: gated bi-directional CNN (GBD-Net)
  • arxiv: 
  • github: 

d) 区分图中各种人。

2)Pooling进度描述(Pooling进程不要求参数)

StuffNet

StuffNet: Using ‘Stuff’ to Improve
Object Detection

  • arxiv: 

Generalized Haar Filter based Deep
Networks for Real-Time Object Detection in Traffic Scene

  • arxiv: 

Hierarchical Object Detection with
Deep Reinforcement Learning

  • intro: Deep Reinforcement Learning Workshop (NIPS 2016)
  • project page: 
  • arxiv: 
  • github: 

Learning to detect and localize
many objects from few examples

  • arxiv: 

澳门金沙4787.com官网 21

2.5 深度革命二〇一六

Detection From Video

Learning Object Class Detectors
from Weakly Annotated Video

  • intro: CVPR 2012
  • paper: 

Analysing domain shift factors
between videos and images for object detection

  • arxiv: 

Video Object Recognition

  • slides: 

Deep Learning for Saliency
Prediction in Natural Video

  • 澳门金沙4787.com官网 ,intro: Submitted on 12 Jan 2016
  • keywords: Deep learning, saliency map, optical flow, convolution
    network, contrast features
  • paper: 

那篇诗歌的章程是先将图片分割为较小的网格,使用较小的互联网对每一幅网格图片实行单次物体检查和测试范例,之后经过区域建议(region
proposal)框架将姿态检查和测试重定义为对象检查和测试难题。

1)深度革命中遇到的题材:

T-CNN

T-CNN: Tubelets with Convolutional
Neural Networks for Object Detection from Videos

  • intro: Winning solution in ILSVRC2015 Object Detection from
    Video(VID) Task
  • arxiv: 
  • github: 

Object Detection from Video
Tubelets with Convolutional Neural Networks

  • intro: CVPR 2016 Spotlight paper
  • arxiv: 
  • paper: 
  • gihtub: 

Object Detection in Videos with
Tubelets and Multi-context Cues

  • intro: SenseTime Group
  • slides: 
  • slides: 

Context Matters: Refining Object
Detection in Video with Recurrent Neural Networks

  • intro: BMVC 2016
  • keywords: pseudo-labeler
  • arxiv: 
  • paper: 

CNN Based Object Detection in
Large Video Images

  • intro: WangTao @ 爱奇艺
  • keywords: object retrieval, object detection, scene classification
  • slides: 

以后,使用单次CNN直接检查和测试肉体,通过新型的几率贪婪解析步骤,生成姿势提出。

乘机CNN网络的进步,特别的VGG互连网的建议,大家发现互连网的层数是二个关键因素,貌似越深的网络功能越好。不过随着网络层数的加码,难题也驾临。

Datasets

YouTube-Objects dataset
v2.2

  • homepage: 

ILSVRC2015: Object detection from
video (VID)

  • homepage: 

区域提案部分被定义为界线框检查和测试(Bounding BoxDetections),大小和被检查和测试人身材成比例,并且能够仅使用集体关键点注释进行监察。

(1)第二个难点: vanishing/exploding
gradients(即梯度消失或爆炸):这就招致训练难以磨灭。然而随着 normalized
initialization and BN(Batch
Normalization)的建议,化解了梯度消失或爆炸难点。

Object Detection in 3D

Vote3Deep: Fast Object Detection
in 3D Point Clouds Using Efficient Convolutional Neural Networks

  • arxiv: 

一体架构由单个完全CNN构成,具有相对较低分辨率的特征图,并使用专为姿势检查和测试质量设计的消耗函数直接实行端到端优化,此框架结构称为姿态提出互连网(Pose
Proposal Network,PPN)
。PPN借鉴了YOLO的优点。

(2)第四个难点:互联网越深,练习误差和测试误差越大。在消逝难点消除后,又1个难点暴露无遗出来:随着互联网深度的充实,系统精度获得饱和之后,快速的降低。令人竟然的是以此特性降低不是过拟合导致的。对一个格外深度的模子到场额外的层数导致陶冶误差变大。如下图所示,可通过Deep
Residual Learning 框架来消除那种因为吃水扩张而招致准确性下跌难题。

Salient Object Detection

This task involves predicting the salient regions of an image given by
human eye fixations.

Large-scale optimization of
hierarchical features for saliency prediction in natural images

  • paper: 

Predicting Eye Fixations using
Convolutional Neural Networks

  • paper: 

Saliency Detection by
Multi-Context Deep Learning

  • paper: 

DeepSaliency: Multi-Task Deep
Neural Network Model for Salient Object Detection

  • arxiv: 

SuperCNN: A Superpixelwise
Convolutional Neural Network for Salient Object Detection

澳门金沙4787.com官网 22

  • paper: www.shengfenghe.com/supercnn-a-superpixelwise-convolutional-neural-network-for-salient-object-detection.html

Shallow and Deep Convolutional
Networks for Saliency Prediction

  • arxiv: 
  • github: 

Recurrent Attentional Networks for
Saliency Detection

  • intro: CVPR 2016. recurrent attentional convolutional-deconvolution
    network (RACDNN)
  • arxiv: 

Two-Stream Convolutional Networks
for Dynamic Saliency Prediction

  • arxiv: 

Unconstrained Salient Object
Detection

Unconstrained Salient Object
Detection via Proposal Subset Optimization

澳门金沙4787.com官网 23

  • intro: CVPR 2016
  • project page: 
  • paper: 
  • github: 
  • caffe model
    zoo: 

Salient Object Subitizing

澳门金沙4787.com官网 24

  • intro: CVPR 2015
  • intro: predicting the existence and the number of salient objects in
    an image using holistic cues
  • project page: 
  • arxiv: 
  • paper: 
  • caffe model
    zoo: 

Deeply-Supervised Recurrent
Convolutional Neural Network for Saliency Detection

  • intro: ACMMM 2016. deeply-supervised recurrent convolutional neural
    network (DSRCNN)
  • arxiv: 

Saliency Detection via Combining
Region-Level and Pixel-Level Predictions with CNNs

  • intro: ECCV 2016
  • arxiv: 

Edge Preserving and Multi-Scale
Contextual Neural Network for Salient Object Detection

  • arxiv: 

A Deep Multi-Level Network for
Saliency Prediction

  • arxiv: 

Visual Saliency Detection Based on
Multiscale Deep CNN Features

  • intro: IEEE Transactions on Image Processing
  • arxiv: 

A Deep Spatial Contextual
Long-term Recurrent Convolutional Network for Saliency Detection

  • intro: DSCLRCN
  • arxiv: 

Deeply supervised salient object
detection with short connections

  • arxiv: 

Weakly Supervised Top-down Salient
Object Detection

  • intro: Nanyang Technological University
  • arxiv: 

传送门

3. 上空一定与检查和测试

Specific Object Deteciton

论文:

参照音讯《基于深度学习的对象检查和测试研究进展》

Face Deteciton

Multi-view Face Detection Using
Deep Convolutional Neural Networks

  • intro: Yahoo
  • arxiv: 

From Facial Parts Responses to
Face Detection: A Deep Learning Approach

澳门金沙4787.com官网 25

  • project
    page: 

Compact Convolutional Neural
Network Cascade for Face Detection

  • arxiv: 
  • github: 

Face Detection with End-to-End
Integration of a ConvNet and a 3D Model

  • intro: ECCV 2016
  • arxiv: 
  • github(MXNet): 

Supervised Transformer Network for
Efficient Face Detection

  • arxiv: 

3.1 总计机视觉职务

UnitBox

UnitBox: An Advanced Object
Detection Network

  • intro: ACM MM 2016
  • arxiv: 

Bootstrapping Face Detection with
Hard Negative Examples

  • author: 万韶华 @ 小米.
  • intro: Faster R-CNN, hard negative mining. state-of-the-art on the
    FDDB dataset
  • arxiv: 

A Multi-Scale Cascade Fully
Convolutional Network Face Detector

  • intro: ICPR 2016
  • arxiv: 

Poster:

3.2 古板目的检查和测试方法

MTCNN

Joint Face Detection and Alignment
using Multi-task Cascaded Convolutional Networks

Joint Face Detection and Alignment
using Multi-task Cascaded Convolutional Neural Networks

澳门金沙4787.com官网 26

  • project
    page: 
  • arxiv: 
  • github(Matlab): 
  • github(MXNet): 
  • github: 

观念指标检测流水生产线:

Datasets / Benchmarks

FDDB: Face Detection Data Set and
Benchmark

  • homepage: 
  • results: 

WIDER FACE: A Face Detection
Benchmark

澳门金沙4787.com官网 27

  • homepage: 
  • arxiv: 

至于code嘛,临时没有。

1)区域选用(穷举策略:选拔滑动窗口,且设置不相同的高低,不相同的长度宽度比对图像进行遍历,时间复杂度高)

Facial Point / Landmark Detection

Deep Convolutional Network Cascade
for Facial Point Detection

澳门金沙4787.com官网 28

  • homepage: 
  • paper: 
  • github: 

A Recurrent Encoder-Decoder
Network for Sequential Face Alignment

  • intro: ECCV 2016
  • arxiv: 

Detecting facial landmarks in the
video based on a hybrid framework

  • arxiv: 

Deep Constrained Local Models for
Facial Landmark Detection

  • arxiv: 

2)特征提取(SIFT、HOG等;形态种种性、光照变化多种性、背景三种性使得特征鲁棒性差)

People Detection

End-to-end people detection in
crowded scenes

澳门金沙4787.com官网 29

  • arxiv: 
  • github: 
  • ipn: 

Detecting People in Artwork with
CNNs

  • intro: ECCV 2016 Workshops
  • arxiv: 

澳门金沙4787.com官网 30

3)分类器(主要有SVM、Adaboost等)

Person Head Detection

Context-aware CNNs for person head
detection

  • arxiv: 
  • github: 

中兴云•普惠AI,让开发充满AI!

古板指标检查和测试的第③难点:

Pedestrian Detection

Pedestrian Detection aided by Deep
Learning Semantic Tasks

  • intro: CVPR 2015
  • project page: 
  • paper: 

Deep Learning Strong Parts for
Pedestrian Detection

  • intro: ICCV 2015. CUHK. DeepParts
  • intro: Achieving 11.89% average miss rate on Caltech Pedestrian
    Dataset
  • paper: 

Deep convolutional neural networks
for pedestrian detection

  • arxiv: 
  • github: 

New algorithm improves speed and
accuracy of pedestrian detection

  • blog: http://www.eurekalert.org/pub\_releases/2016-02/uoc–nai020516.php

Pushing the Limits of Deep CNNs
for Pedestrian Detection

  • intro: “set a new record on the Caltech pedestrian dataset, lowering
    the log-average miss rate from 11.7% to 8.9%”
  • arxiv: 

A Real-Time Deep Learning
Pedestrian Detector for Robot Navigation

  • arxiv: 

A Real-Time Pedestrian Detector
using Deep Learning for Human-Aware Navigation

  • arxiv: 

Is Faster R-CNN Doing Well for
Pedestrian Detection?

  • arxiv: 
  • github: 

Reduced Memory Region Based Deep
Convolutional Neural Network Detection

  • intro: IEEE 2016 ICCE-Berlin
  • arxiv: 

Fused DNN: A deep neural network
fusion approach to fast and robust pedestrian detection

  • arxiv: 

Multispectral Deep Neural Networks
for Pedestrian Detection

  • intro: BMVC 2016 oral
  • arxiv: 

爱上您的代码,爱做 “改变世界”的行进派!

1)基于滑动窗口的区域选取策略没有针对性,时间复杂度高,窗口冗余

Vehicle Detection

DAVE: A Unified Framework for Fast
Vehicle Detection and Annotation

  • intro: ECCV 2016
  • arxiv: 

大会将第一回发表AI开发框架,从AI模型磨练到AI模型安插的全数开发一站式完毕!让AI开发触手可及!回来今日头条,查看越多

2)手工设计的风味对于三种性的成形并未很好的鲁棒性

Traffic-Sign Detection

Traffic-Sign Detection and
Classification in the Wild

  • project
    page(code+dataset): 
  • paper: 
  • code &
    model: 

主要编辑:

3.3 基于侯选区域(Region
Proposal)的深度学习指标检查和测试法

Boundary / Edge / Contour Detection

Holistically-Nested Edge
Detection

澳门金沙4787.com官网 31

  • intro: ICCV 2015, Marr Prize
  • paper: 
  • arxiv: 
  • github: 

Unsupervised Learning of
Edges

  • intro: CVPR 2016. Facebook AI Research
  • arxiv: 
  • zn-blog: 

Pushing the Boundaries of Boundary
Detection using Deep Learning

  • arxiv: 

Convolutional Oriented
Boundaries

  • intro: ECCV 2016
  • arxiv: 

3.3.1 R-CNN (CVPR2014,
TPAMI2015)

Skeleton Detection

Object Skeleton Extraction in
Natural Images by Fusing Scale-associated Deep Side Outputs

澳门金沙4787.com官网 32

  • arxiv: 
  • github: 

DeepSkeleton: Learning Multi-task
Scale-associated Deep Side Outputs for Object Skeleton Extraction in
Natural Images

  • arxiv: 

1)Region Proposal:可以缓解滑动窗口的问题

Fruit Detection

Deep Fruit Detection in
Orchards

  • arxiv: 

Image Segmentation for Fruit
Detection and Yield Estimation in Apple Orchards

  • intro: The Journal of Field Robotics in May 2016
  • project page: 
  • arxiv: 

候选区域(Region
Proposal):是优先找出图中目的恐怕出现的地点。它使用了图像中的纹理、边缘、颜色等音讯,能够保障在选择较少窗口(几千甚至几百)的情景下保持较高的召回率(Recall)。

Others

Deep Deformation Network for
Object Landmark Localization

  • arxiv: 

Fashion Landmark Detection in the
Wild

  • arxiv: 

Deep Learning for Fast and
Accurate Fashion Item Detection

  • intro: Kuznech Inc.
  • intro: MultiBox and Fast R-CNN
  • paper: 

Visual Relationship Detection with
Language Priors

  • intro: ECCV 2016 oral
  • paper: 
  • github: 

OSMDeepOD – OSM and Deep Learning
based Object Detection from Aerial Imagery (formerly known as
“OSM-Crosswalk-Detection”)

澳门金沙4787.com官网 33

  • github: 

Selfie Detection by
Synergy-Constraint Based Convolutional Neural Network

  • intro: IEEE SITIS 2016
  • arxiv: 

Associative Embedding:End-to-End
Learning for Joint Detection and Grouping

  • arxiv: 

常用的Region
Proposal有(详见”What

Object Proposal

DeepProposal: Hunting Objects by
Cascading Deep Convolutional Layers

  • arxiv: 
  • github: 

Scale-aware Pixel-wise Object
Proposal Networks

  • intro: IEEE Transactions on Image Processing
  • arxiv: 

Attend Refine Repeat: Active Box
Proposal Generation via In-Out Localization

  • intro: AttractioNet
  • arxiv: 
  • github: 

makes for effective detection proposals?”):

Localization

Beyond Bounding Boxes: Precise
Localization of Objects in Images

  • intro: PhD Thesis
  • homepage: 
  • phd-thesis: 
  • github(“SDS using
    hypercolumns”): 

Weakly Supervised Object
Localization with Multi-fold Multiple Instance Learning

  • arxiv: 

Weakly Supervised Object
Localization Using Size Estimates

  • arxiv: 

Localizing objects using referring
expressions

  • intro: ECCV 2016
  • keywords: LSTM, multiple instance learning (MIL)
  • paper: 
  • github: 

LocNet: Improving Localization
Accuracy for Object Detection

  • arxiv: 
  • github: 

Learning Deep Features for
Discriminative Localization

澳门金沙4787.com官网 34

  • homepage: 
  • arxiv: 
  • github(Tensorflow): 
  • github: 
  • github: 

ContextLocNet: Context-Aware Deep
Network Models for Weakly Supervised Localization

澳门金沙4787.com官网 35

  • intro: ECCV 2016
  • project page: 
  • arxiv: 
  • github: 

-Selective Search

Tutorials

Convolutional Feature Maps:
Elements of efficient (and accurate) CNN-based object detection

  • slides: 

-Edge Boxes

Projects

TensorBox: a simple framework for
training neural networks to detect objects in images

  • intro: “The basic model implements the simple and robust
    GoogLeNet-OverFeat algorithm. We additionally provide an
    implementation of
    the ReInspect algorithm”
  • github: 

Object detection in torch:
Implementation of some object detection frameworks in torch

  • github: 

Using DIGITS to train an Object
Detection network

澳门金沙4787.com官网 36

  • github: 

FCN-MultiBox Detector

  • intro: Full convolution MultiBox Detector ( like SSD) implemented in
    Torch.
  • github: 

2)CRUISER-CNN:可以消除特征鲁棒性的标题

Blogs

Convolutional Neural Networks for
Object Detection

Introducing automatic object
detection to visual search (Pinterest)

  • keywords: Faster R-CNN
  • blog: 
  • demo: 
  • review: 

Deep Learning for Object Detection
with DIGITS

  • blog: 

Analyzing The Papers Behind
Facebook’s Computer Vision Approach

  • keywords: DeepMask, SharpMask, MultiPathNet
  • blog: https://adeshpande3.github.io/adeshpande3.github.io/Analyzing-the-Papers-Behind-Facebook’s-Computer-Vision-Approach/

**Easily Create High Quality Object Detectors with Deep Learning **

  • intro: dlib v19.2
  • blog: 

How to Train a Deep-Learned Object
Detection Model in the Microsoft Cognitive Toolkit

  • blog: 
  • github: 

Object Detection in Satellite
Imagery, a Low Overhead Approach

  • part
    1: 
  • part
    2: 

ou Only Look Twice — Multi-Scale
Object Detection in Satellite Imagery With Convolutional Neural
Networks

  • part
    1: 

Faster R-CNN Pedestrian and Car
Detection

  • blog: 
  • ipn: 
  • github: 

参考新闻

(1) 输入测试图像

(2) 利用selective
search算法在图像中从下到上提取2000个左右的Region
Proposal

(3) 将每一个Region
Proposal缩放(warp)成227×227的轻重并输入到CNN,将CNN的fc7层的输出作为特色

(4) 将每一个Region Proposal提取到的CNN特征输入到SVM实行分拣

注:1)对每一种Region
Proposal缩放到同样标准是因为CNN全连接层输入须要确认保证维度固定。

2)上海体育场面少画了几个进度——对于SVM分好类的Region
Proposal做边框回归(bounding-box

regression),边框回归是对region
proposal进行修正的线性回归算法,为了让region

proposal提取到的窗口跟目的真实窗口更符合。因为region
proposal提取到的窗口不容许跟人手工业标记那么准,假如region

proposal跟目的地点偏移较大,即正是分类正确了,可是由于IoU(region

proposal与Ground
Truth的窗口的混杂比并集的比率)低于0.5,那么一定于目的如故没有检查和测试到。

3)R-CNN缺点:

(1) 磨练分为三个阶段,步骤繁琐: 微调网络+陶冶SVM+演练边框回归器

(2) 演练耗费时间,占用磁盘空间大:伍仟张图像发生几百G的表征文件

(3) 速度慢: 使用GPU, VGG16模子处理一张图像要求47s。

(4) 测试速度慢:每一个候选区域须要周转总体前向CNN总括

(5) SVM和回归是事后操作:在SVM和回归进度中CNN特征没有被学习更新

本着速度慢的那个题材,SPP-NET给出了很好的消除方案。

3.3.2 SPP-NET (ECCV2014,
TPAMI2015)

SSP-Net:Spatial Pyramid Pooling in Deep Convolutional Networks for
Visual Recognition

先看一下XC90-CNN为何检查和测试速度这么慢,一张图都亟需47s!仔细看下奥迪Q3-CNN框架发现,对图像提完Region

Proposal(三千个左右)之后将种种Proposal当成一张图像进行继续处理(CNN提特征+SVM分类),实际上对一张图像举办了三千

次提特征和归类的进程!那三千个Region

Proposal不都是图像的一部分吗,那么大家一齐能够对图像提三遍卷积层特征,然后只供给将Region

Proposal在原图的职位映射到卷积层特征图上,那样对于一张图像大家只必要提一次卷积层特征,然后将各样Region

Proposal的卷积层特征输入到全连接层做继续操作。(对于CNN来说,大多数运算都耗在卷积操作上,那样做能够节省大量岁月)。

到现在的题材是种种Region
Proposal的口径不雷同,直接那样输入全连接层肯定是十二分的,因为全连接层输入必须是稳定的长度。SPP-NET恰好能够消除那几个难题。

由于观念的CNN限制了输入必须稳定大小(比如亚历克斯Net是224×224),所以在实质上选择中一再要求对原图片进行crop可能warp的操作:

– crop:截取原图片的一个定位大小的patch

– warp:将原图片的ROI缩放到一个恒定大小的patch

任凭crop依然warp,都不可能确定保障在不失真的状态下将图纸传遍到CNN其中:

– crop:物体可能会时有产生截断,特别是长度宽度比大的图样。

– warp:物体被拉伸,失去“原形”,特别是长度宽度比大的图样

SPP为的正是消除上述的题目,做到的成效为:不管输入的图样是怎么着标准,都能够正确的传遍互连网。

切切实实思路为:CNN的卷积层是足以拍卖任意尺度的输入的,只是在全连接层处有限量条件——换句话说,假设找到三个主意,在全连接层此前将其输入限制到等长,那么就缓解了那些标题。

现实方案如下图所示:

假定原图输入是224×224,对于conv5出来后的出口,是13x13x256的,能够了然成有2五17个这么的filter,每一种filter对应一张13×13的activation
map。即使像上海体育地方那样将activationmap pooling成4×4 2×2 1×1三张子图,做max
pooling后,出来的特征正是永恒长度的(16+4+1)x256那么多的维度了。假若原图的输入不是224×224,出来的特色还是是(16+4+1)x256;直觉地说,能够清楚成将原来固定大小为(3×3)窗口的pool5改成了自适应窗口大小,窗口的大大小小和activation
map成比例,保障了经过pooling后出来的feature的长短是一模一样的。

采用SPP-NET相比于XC90-CNN能够大大加快指标检查和测试的快慢,可是依然留存着无数难点:

(1) 训练分为五个等级,步骤繁琐: 微调网络+磨炼SVM+磨炼练习边框回归器

(2)
SPP-NET在微调网络的时候一定了卷积层,只对全连接层举行微调,而对此2个新的职务,有必要对卷积层也进行微调。(分类的模子提取的特色更看得起高层语义,而目的检查和测试职分除了语义务消防队息还要求指标的地点音信)

本着那多少个难点,RBG又建议Fast 大切诺基-CNN, 三个精简而飞速的对象检查和测试框架。

3.3.3 Fast R-CNN(ICCV2015)

有了前方CR-V-CNN和SPP-NET的牵线,我们一贯看法斯特 大切诺基-CNN的框架图:

与Highlander-CNN框架图相比较,能够发现重庆大学有两处差别:一是最后3个卷积层后加了三个ROI
pooling layer,二是损失函数使用了多职分损失函数(multi-task
loss),将边框回归直接参预到CNN互连网中练习。

(1) ROI pooling

layer实际上是SPP-NET的一个精简版,SPP-NET对每一种proposal使用了分裂尺寸的金字塔映射,而ROI
pooling

layer只须要下采集样品到一个7×7的性状图。对于VGG16网络conv5_3有510个特征图,那样有着region

proposal对应了二个7*7*512维度的特征向量作为全连接层的输入。

(2) 福特Explorer-CNN演练进度分成了八个等级,而法斯特XC60-CNN直接行使softmax替代SVM分类,同时利用多义务损失函数边框回归也进入到了互联网中,那样任何的教练进程是端到端的(除去region
proposal提取阶段)。

(3) Fast景逸SUV-CNN在互联网微调的长河中,将有个别卷积层也举办了微调,取得了更好的检查和测试效果。

属性相比数据:

1)Fast R-CNN优点:

FastHighlander-CNN融合了昂科雷-CNN和SPP-NET的精髓,并且引入多职责损失函数,使全部网络的教练和测试变得不得了造福。在帕斯CarlVOC2006磨炼集上磨炼,在VOC2006测试的结果为66.9%(mAP),即使利用VOC2005+二〇一一教练集陶冶,在VOC二零零六上测试结果为7/10(数据集的扩大能大幅度升高目的检查和测试质量)。使用VGG16每张图像总共须要3s左右。

2)Fast R-CNN 缺点:

Region Proposal的领到使用selective
search,指标检查和测试时间大多消耗在那方面(提Region
Proposal2~3s,而提特征分类只需0.32s),不可能满足实时应用,而且并没有完成真正含义上的端到端练习测试(region
proposal使用selective
search先提取处来)。那么有没有恐怕一向运用CNN直接发生Region
Proposal并对其分类?法斯特er 奥德赛-CNN框架正是顺应那样须求的靶子检查和测试框架。

3.3.4  Faster R-CNN(NIPS2015)

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks

在Region Proposal +

CNN分类的那种对象检查和测试框架中,Region

Proposal品质优劣直接影响到对象检查和测试职务的精度。假设找到一种办法只领到几百个可能更少的高质量的假选窗口,而且召回率很高,那不仅仅能加速指标检

测速度,还能够增高目的检查和测试的习性(假阳例少)。SportagePN(Region Proposal
Networks)网络出现。

1)LacrossePN的核心绪想

是接纳卷积神经网络一贯发生Region
Proposal,使用的点子本质上就是滑动窗口。路虎极光PN的宏图比较巧妙,瑞虎PN只需在最终的卷积层上海滑稽剧团动二回,因为Anchor机制和边框回归可以博得多规格多少长度宽比的Region
Proposal。

2)Faster
R-CNN架构

3)RPN架构

EscortPN选取私行大小的的图像作为输入,并出口一组候选的矩形,每一种矩形都有二个指标分数。

安德拉PN被用于磨练平昔爆发候选区域,不要求外部的候选区域。

Anchor是滑动窗口的骨干,它与标准和长度宽度比相关,默许采3种标准(128,256,512),3种长度宽度比(1:1,1:2,2:1),则在每二个滑动地方k=9
anchors。

大家直接看下面的普拉多PN互联网布局图(使用了ZF模型),给定输入图像(如若分辨率为600*一千),经过卷积操作拿到终极一层的卷积特征图(大小约为40*60)。在这么些特征图上采纳3*3的卷积核(滑动窗口)与风味图实行卷积,最终一层卷积层共有2陆11个feature

map,那么那些3*3的区域卷积后方可拿走四个256维的特征向量,前边接cls
layer(box-classification layer)和reg layer(box-regression
layer)分别用于分类和边框回归(跟FastLAND-CNN类似,只然而那里的档次唯有指标和背景四个类型)。3*3滑窗对应的各种特征区域同时揣测输入图像3种标准(128,256,512),3种长度宽度比(1:1,1:2,2:1)的region

proposal,那种映射的建制称为anchor。所以对于那个40*60的feature
map,总共有约两千0(40*60*9)个anchor,也正是估量三千0个region
proposal。

那般设计的便宜是如何啊?固然现在也是用的滑动窗口策略,但是:滑动窗口操作是在卷积层特征图上海展览中心开的,维度较原始图像降低了16*16倍(中间经过了4

次2*2的pooling操作);多规格采纳了9种anchor,对应了三种规格和二种长度宽度比,加上前边接了边框回归,所以固然是那9种anchor外的

窗口也能收获三个跟指标相比相近的region proposal。

4)总结

法斯特er 景逸SUV-CNN将一向以来分离的region
proposal和CNN分类融合到了同步,使用端到端的互联网展开指标检查和测试,无论在速度上恐怕精度上都取得了科学的增高。不过法斯特er
奥迪Q5-CNN照旧达不到实时的目的检查和测试,预先获取Region
Proposal,然后在对各样Proposal分类总结量照旧相比大。相比较幸运的是YOLO那类指标检查和测试方法的产出让实时性也变的变成或者。

如上所述,从ENCORE-CNN, SPP-NET, 法斯特 凯雷德-CNN, Faster
Rubicon-CNN一路走来,基于纵深学习对象检查和测试的流水生产线变得更其简单,精度越来越高,速度也越来越快。能够说依照Region
Proposal的RAV4-CNN系列指标检查和测试方法是当前目的最关键的三个支行。

3.3.5 R-FCN(2016.5)

《R-FCN: Object Detection via Region-based Fully Convolutional
Networks》

顾名思议:全卷积网络,正是全数是卷积层,而没有全连接层(fc)。

R-FCN(基于区域的检测器)的主意是:在全部图像上共享总结,通过移除最终的fc层实现(即除去了具有的子互联网)。使用“地点敏感的得分图”来化解了图像分类平移不变性与对象检查和测试平移变化之间的争论。

此争持为:物体分类供给平移不变性越大越好
(图像中物体的运动不用区分),而实体格检查测须求有运动变化。所以,ImageNet
分类超过的结果证实尽恐怕有移动不变性的全卷积结构更受亲睐。另一方面,物体格检查测任务急需一些平移变化的固化表示。比如,物体的运动应该使网络发出响应,那些响应对描述候选框覆盖真实物体的好坏是有意义的。我们只要图像分类网络的卷积层越深,则该互连网对移动越不灵敏。

CNN随着网络深度的加码,网络对于地方(Position)的敏感度越来越低,也等于所谓的translation-invariance,不过在Detection的时候,必要对岗位音信有很强的的敏感度。

那么ResNet-101的detection是如何做的?

在奥德赛-FCN在此之前,很简短,把ROI-pooling层放到了前方的卷积层,然后后边的卷积层不共享计算,那样一足防止止过多的新闻损失,二方可用后来的卷积层学习地方新闻。

Tiguan-FCN:选用全卷积互连网布局作为 FCN,为给 FCN
引入平移变化,用专门的卷积层创设地方敏感分数地图 (position-sensitive
score maps)。每一种空间敏感地图编码感兴趣区域的相持空间地点音讯。
在FCN上边增添3个岗位敏感 RoI 池化层来软禁那些分数地图。

CRUISER-FCN思路就是使用最终一层互联网通过FCN构成二个position-sensitive的feature

map。具体而言,每二个proposal的职责音讯都亟待编码,那么先把proposal分成k*k个grid,然后对每三个grid进行编码。在终极

一层map之后,再利用卷积总计爆发3个k*k*(C+1)的map(k*k代表总共的grid数目,C代表class

num,+1表示进入三个背景类)。

RubiconPN 给出感兴趣区域,Haval-FCN 对该感兴趣区域分类。Qashqai-FCN

在与 OdysseyPN 共享的卷积层后多加2个卷积层。所以,奥迪Q5-FCN 与 LX570PN
一样,输入为整幅图像。但 LAND-FCN

说到底3个卷积层的出口从整幅图像的卷积响应图像中分割出感兴趣区域的卷积响应图像。

奥迪Q5-FCN
最终一个卷积层在整幅图像上为每类生成k*k个地方敏感分数图,有C类物体外加2个背景,因此有k*k(C+1)个通道的输出层。k*k个分数图对应描述地点的长空网格。比如,k×k=3×3,则捌个分数图编码单个物体类的
{top−left,top−center,top−right,…,bottom−right}。

Odyssey-FCN 最终用地点敏感 RoI 池化层,给各样 RoI

二个分数。选取性池化图解:看上海体育地方的铁黑响应图像 (top−left),抠出铅色方块
RoI,池化驼色方块 RoI 获得北京蓝小方块

(分数);别的颜色的响应图像同理。对全体颜色的小方块投票 (或池化)
拿到1类的响应结果。

生完了那张map之后,再依据proposal发生三个长度宽度各为k,channel数目为C+1的score
map。具体发生score

map的不二法门是,要是k=3,C=20,那么score

map的十多少个类每种类都有3*3的feature,一共柒个格子,每2个格子都记录了空间消息。而那每三个类的每2个格子都对应前边那么些channel

数为3*3*21的大map的内部2个channel的map。现在把score

map中的格子对应的区域的map中的消息取平均,然后这么些平均值正是score
map格子中的值。最终把score

map的值举办vote(avg pooling)来形成四个21维的向量来做分类即可。

当分类正确时,该类通道的地点敏感分数图 (中间)
的多数土黄实线网格内的响应在全路 RoI 地点范围内最强。

相应的bbox regression只供给把C+1设成4就足以了。

CRUISER-FCN选择的一部分方法比法斯特er

PRADO-CNN的baseline升高了3个点,并且比原先法斯特er
Highlander-CNN更快(因为整个乘除都共享了)。可是和勘误过的法斯特er

R-CNN相比(ROI

Pooling提前那种)升高了0.二个点,速度快了2.5倍。所以方今截止那个方法的结果应当是怀有办法中速度和Performance结合的最好的。

3.4 基于回归艺术的吃水学习目的检查和测试算法

法斯特er
奥德赛-CNN的不二法门近年来是主流的靶子检测方法,不过速度上并不可能满意实时的渴求。YOLO一类的方法慢慢显现出其重点,那类方法运用了回归的考虑,即给定输入图像,直接在图像的三个岗位上回归出那些任务的指标边框以及目的项目。

3.4.1YOLO (CVPR2016, oral)

YOLO:You Only Look Once: Unified, Real-Time Object Detection

咱俩一向看上边YOLO的对象检查和测试的流程图:

(1) 给个一个输入图像,首先将图像划分成7*7(设S=7)的网格

(2)
对于每一个网格,我们都预测二个边框(包蕴每种边框是指标的置信度以及各种边框区域在多少个项目上的几率)

(3)
依照上一步能够预测出7*7*1个对象窗口,然后依照阈值去除恐怕相比较低的指标窗口,最终NMS去除冗余窗口即可。

能够看看任何进度卓殊简单,不须要中间的Region
Proposal在找指标,直接回归便一挥而就了岗位和连串的判定。

那么哪些才能一挥而就直接在分歧职责的网格上回归出目的的职位和档次新闻吗?上面是YOLO的网络布局图,前面包车型大巴互联网布局跟GoogLeNet的模型比较类

似,主要的是最后两层的布局,卷积层之后接了3个4096维的全连接层,然后前边又全连接到多个7*7*30维的张量上。实际上那7*7正是分开的网格

数,现在要在每种网格上测度目的几个大概的岗位以及这几个岗位的靶子置信度和品种,也正是各类网格预测七个对象,每一种目的的音讯有4维坐标消息(中央点坐

标+长宽),一个是指标的置信度,还有项目数20(VOC上18个品类),总共就是(4+1)*2+20

=
30维的向量。那样能够选取前边4096维的全图特征直接在各类网格上回归出指标检查和测试须求的音信(边框音讯加种类)。

总结:

YOLO将目的检测任务转换到一个回归难点,大大加速了检查和测试的进程,使得YOLO能够每秒处理45张图像。而且由于各类互联网预测指标窗口时行使的是全图音信,使得false
positive比例大幅度下落(丰裕的上下文音讯)。可是YOLO也存在难题:没有了Region
Proposal机制,只利用7*7的网格回归会使得目的不能够可怜精准的定点,那也致使了YOLO的检查和测试精度并不是很高。

3.4.2 SSD(单次检查和测试)

SSD: Single Shot MultiBox Detector

地方分析了YOLO存在的标题,使用整图特征在7*7的粗糙网格内回归对指标的定点并不是很精准。这是或不是能够组成Region

Proposal的记挂贯彻精准一些的永恒?SSD结合YOLO的回归思想以及法斯特er
Odyssey-CNN的anchor机制形成了这一点。

上海体育场地是SSD的三个框架图,首先SSD获取目的地方和类别的不二法门跟YOLO一样,都以利用回归,可是YOLO预测某些地点应用的是全图的特色,SSD预

测有个别地方运用的是以此职责周围的性子(感觉更合理一些)。那么怎么样树立某些地方和其特色的照应关系吧?恐怕您早就想到了,使用法斯特er

Tucson-CNN的anchor机制。如SSD的框架图所示,假如某一层特征图(图b)大小是8*8,那么就选取3*3的滑窗提取每种岗位的特点,然后那个特点

回归得到目的的坐标新闻和花色音信(图c)。

分裂于法斯特er Haval-CNN,那几个anchor是在多少个feature
map上,那样能够动用多层的风味并且自然的直达多规格(差别层的feature map
3*3滑窗感受野区别)。

小结:

SSD结合了YOLO中的回归思想和法斯特er

汉兰达-CNN中的anchor机制,使用全图种种岗位的多规格区域特征举办回归,既维持了YOLO速度快的风味,也准保了窗口预测的跟法斯特er

Koleos-CNN一样比较精准。SSD在VOC2005上mAP能够达到72.1%,速度在GPU上达到58帧每秒。

总计:YOLO的提议给目的检查和测试一个新的笔触,SSD的天性则让我们看到了对象检查和测试在骨子里行使中确确实实的或然。

3.5 基于残差(Residual)方法的纵深学习指标检查和测试算法

3.5.1 深度残差互连网(Deep Residual
Networks)

Deep Residual
Networks

它使用残差学习的这一盘算使得学习更深的互连网成为大概,从而学习到更好的发挥。

层数越来越多的神经网络越难以陶冶。当层数超越一定数量后,守旧的吃水网络就会因优化难题而产出欠拟合(underfitting)的状态。残差学习框架

小幅下滑磨炼更深层网络的难度,也使准确率得到显然升级。在 ImageNet 和
COCO 二零一四 比赛后,共有 152 层的纵深残差网络

ResNet
在图像分类、目的检查和测试和语义分割种种分项都拿走最好成绩,相关杂文更是一连一回得到CVP昂科拉 最佳散文。

流行钻探发现,当残差互联网将地点映射作为 skip

connection 并贯彻 inter-block
activation,正向和反向信号能够直接从一个区块传播到另3个区块,那样就直达了

1001
层的残差网络。总之,神经互连网的纵深这一卓殊关键的要素,还有极大的升高空间。

1)深度谱

2)为运用网络层数更加多,经常使用的主意有:初叶化算法,BN方法

3)是或不是简单堆叠的互连网层数越来越多,练习误差和测试误差就越小?答案正好相反

4)方今风靡的纵深神经网络结构大体上能够分成三类:

– 直线型(如AlexNet, VGGNet)

– 局地双分支型(ResNet)

-局地多分支型(谷歌Net)

很久以过来人们就曾经认识到更深的网络能够爆发更好的多寡表达,可是怎么着陶冶3个很深的网络却直接是四个烦劳人们的标题,这第②是由于梯度消失或爆炸以

及规范不均匀的起先化造成的。围绕这一难题,人们建议了ReLU、Xavier、pReLU、batch

normalization和path-SGD等一多级措施,但是本文小编却发现尽管有这个方法,神经互联网的教练依然显示了degradation的现

象。所谓degradation现象,正是随着互连网深度的充实,网络的性质反而降低,而且那种属性的低沉并不是由前边所说的标题导致的。

4)深度残差学习(Deep Residual Learning)的合计

设若方今有三个足以干活的很好的互联网A,那时来了三个比它更深的网络B,只必要让B的前一部分与A完全相同,后一有个别只兑现二个恒等映射(identity
mapping),那样B最起码能获取与A相同的质量,而不致于更差。深度残差学习的思想也通过而发生,既然B前边的有个别形成的是恒等映射,何不在练习网络的时候添加这一先验(在互连网练习进度中,插手先验消息指点相当首要,合理的先验往往会拿走相当好的机能),于是构造互连网的时候参与了近便的小路(shortcut)连接,即每层的输出不是观念神经网络中的输入的映照,而是输入的照耀和输入的增大,如下图中的”Residual
net”所示。

在Residual net中:

(1)identity:为恒等映射,此条路径一贯存在

(2)F(x):为索要学习的残差函数(residual function):H(x)-x = F(x)

题指标重复表示或预处理会简化难点的优化!

一经大家期待的互连网层关系映射为 H(x), 大家让 the stacked nonlinear layers
拟合另3个炫耀, F(x):= H(x)-x , 那么原来的炫耀便是 F(x)+x。
那里我们假设优化残差映射F(x) 比优化原来的投射 H(x)简单。

那边大家首先求取残差映射 F(x):= H(x)-x,那么原来的投射正是F(x)+x。固然那五个映射应该都足以接近理论真值映射 the desired functions
(as hypothesized),不过它俩的求学难度是差别的。

那种改写启发于”互连网层数越来越多,演习和测试误差越大”质量退化难点违反直觉的场合。假如增添的层数能够塑造为1个恒等映射(identity
mappings),那么扩大层数后的互连网陶冶误差应该不会大增,与没扩充在此以前相比较。性能退化难点暗示三个非线性网络层用于近似identity
mappings 可能有不便。使用残差学习改写难点现在,假设identity mappings
是最优的,那么优化难题变得很简短,间接将多层非线性互联网参数趋0。

骨子里中,identity mappings
不太也许是最优的,不过上述改写难点大概扶持预处理难题。假若最优函数接近identity
mappings,那么优化将会变得不难些。 实验证实该思路是对的。

F(x)+x 可以经过shortcut connections 来促成,如下图所示:

上海体育场所中的shortcut
connections执行3个简短的恒等映射;既没有参数,也尚无总计复杂度。

公式分析如下:

(1)须求学习的残差映射

(2)x和F的维数必须一律

借使x和F的维数分裂,则对x举办线性投影(linear
projection)使用其与F的维数一致,公式如下:

5)网络架构

5.1)普通互连网(Plain Network)

统一筹划基准:

(1)对于出口特征图大小相同的层,它们的卷积拥有一致的filter个数

(2)若是出口的特点图大小减半,则filter个数乘以2,以确认保证每层的光阴复杂度相同

5.2)残并互联网(Residual Network)

在奉公守法普通网络安排原则的根基上,扩大了shortcut connections。

6)恒等映射的重点

6.1)平滑的正向传播

任意xl被一向正向传播到xL,xL是xl与残差相加的结果。

6.2)平滑的反向传播

7)保持最短路径尽量平滑

– 假使h(x)不是identity
mapping,它将卡住正向、反向传播,从而导致误差增添

– BN大概阻塞传播

– ReLU大概阻塞传播

3.5 进步目的检查和测试方法

Tucson-CNN连串目的检查和测试框架和YOLO目的检查和测试框架给了大家进行指标检查和测试的八个为主框架。除此之外,钻探人口依照这一个框架从其余方面入手建议了一种类抓实目的检查和测试质量的章程。

(1) 难分样本挖掘(hard negative mining)

大切诺基-CNN在教练SVM分类器时选用了难分样本挖掘的沉思,但法斯特

R-CNN和Faster

君越-CNN由于采纳端到端的练习方针并没有使用难分样本挖掘(只是设置了正负样本的比例并随意抽取)。CVP凯雷德二〇一四的Training

Region-based Object Detectors with Online Hard Example

Mining(oral)将难分样本挖掘(hard example
mining)机制嵌入到SGD算法中,使得法斯特

Lacrosse-CNN在练习的经过中根据region proposal的损失自动选拔合适的Region

Proposal作为正负例陶冶。实验结果评释使用OHEM(Online Hard Example
Mining)机制得以使得法斯特

R-CNN算法在VOC2007和VOC2012上mAP提高 4%左右。

(2) 多层特征融合

Fast 途观-CNN和法斯特er
帕杰罗-CNN都以行使了最终卷积层的性状实行目的检查和测试,而由于高层的卷积层特征已经损失了过多细节音信(pooling操作),所以在稳住时不是很精准。HyperNet等部分方法则利用了CNN的多层特征融合进行目标检查和测试,这不单选用了高层特征的语义音讯,还考虑了低层特征的底细纹理音讯,使得目的检查和测试定位更精准。

(3) 使用上下文消息

在提取Region Proposal特征举行指标检测时,结合Region
Proposal上下文音信,检查和测试效果往往会更好一些。(Object detection via a
multi-region & semantic segmentation-aware CNN model以及Inside-Outside
Net等散文中都动用了上下文音讯)

3.6 总结

Localization:

-Find a fixed number of objects (one or many)

– L2 regression from CNN features to box coordinates

– Much simpler than detection; consider it for your projects!

– Overfeat: Regression + efficient sliding window with FC -> conv
conversion

– Deeper networks do better

Object Detection:

-Find a variable number of objects by classifying image regions

– Before CNNs: dense multiscale sliding window (HoG, DPM)

– Avoid dense sliding window with region proposals

– R-CNN: Selective Search + CNN classification / regression

– Fast R-CNN: Swap order of convolutions and region extraction

– Faster R-CNN: Compute region proposals within the network

– Deeper networks do better

Implementation as Matrix Multiplication. Note that the convolution
operation essentially performs

相关文章