当前位置：完美毕业网 → 毕业设计下载 → 电子信息自动化通信毕业设计

基于深度学习框架的无约束人脸检测

联系方式：

QQ212181988
官方主页：www.biye114.com
图片预览：

;论坛转帖
插件情况：

售后服务：请联系客服QQ:212181988
一键分享拿折扣：

好的评价　如果您觉得此软件好，就请您
0%(0)
差的评价　如果您觉得此软件差，就请您
0%(0)

软件简介

基于深度学习框架的无约束人脸检测
Yutong Zheng∗ Chenchen Zhu∗ Khoa Luu Chandrasekhar Bhagavatula
T. Hoang Ngan Le Marios Savvides
CyLab Biometrics Center and the Department of Electrical and Computer Engineering, Carnegie Mellon University, Pittsburgh, PA, USA
{yutongzh, chenchez, kluu, cbhagava, thihoanl}@andrew.cmu.edu, msavvid@ri.cmu.edu

摘要

强大的脸部检测是支持面部表情分析，特征标记，面部识别，姿态估计，3D面部模型构建等最重要的预处理步骤之一。尽管这个主题已经被深入研究了几十年，由于现实世界场景中面部图像的多种变体，仍然具有挑战性。在本文中，我们提出了一种名为多尺度更快基于区域的卷积神经网络（MS-FRCNN）的新方法，以从各种挑战性条件下收集的图像鲁棒地检测人脸区域。大的遮挡，极低的分辨率，面部表情，强烈的照明变化等。提出的方法是基于两个具有挑战性的面部检测数据库，即Wider Face数据库和面部检测数据集及基准（FDDB），并和针对最近的其他面部检测方法进行比较，例如两级CNN，多级级联CNN，完整性，合并通道特征，HeadHunter，多视图面部检测，Cascade CNN等。实验结果表明，我们提出的方法表现出了非常好的性能与其他最近的脸部检测方法相比，有着非常高的竞争力。

1.引言
使用基于面部特征的生物识别技术进行门禁控制，监控系统和其他安全应用的人类检测和分析在过去几年中得到了广泛的关注。在全球的安全检查站中每天都有更多的这样的生物识别系统完成部署。特别是面部识别已成为对安全部门有吸引力的最受欢迎的生物方式之一。确实，人体的独一无二的面部特征比其他

∗indicates equal contribution.

图一，使用我们提出的MS-FRCNN方法的面部检测结果的一个例子。所提出的方法可以在Wider Face数据库上强制检测遮挡，面部表情，姿势，照明和低分辨率条件下的面部。

的生物特征更容易获取. 然而，为了进行脸部识别，通常需要首先进行脸部检测。面部检测的问题已经被深入研究了几十年，目的是确保鲁棒算法的泛化，使人们看不到面部图像[18,24,11,25,14]。虽然最近的脸部检测算法[2,10,20]的检测精度得到了很大的提高，但由于实践中的一些挑战，它们远远没有达到与人类相同的检测能力。例如，如图1所示，偏角，大遮挡，低分辨率和强照明条件始终是需要考虑的重要因素。
本文提出了一种基于卷积神经网络（ConvNet）的高级卷积神经网络方法，称为多比例快速区域卷积神经网络（MS-FRCNN），用于处理在许多具有挑战性的条件下收集的数字面部图像中的人脸检测问题。主动
闭塞，强照明，偏角度，低分辨率等。我们提出的方法通过允许它跨越ConvNet的多个深度特征图中的接收场来扩展更快的R-CNN [15]的框架。换句话说，这个过程有助于同步面部特征表示的全局和局部上下文信息。因此，它能够应对强大的面部检测问题的挑战。我们提出的方法引入了多尺度区域提案网络（MS-RPN），以生成一组区域提案和基于多尺度区域的卷积神经网络（MS-RNN）来提取面部感兴趣区域（RoI）地区。然后计算每个RoI的置信度。最后，面部检测系统能够通过在给定的脸部图像中对这些产生的置信度进行阈值来确定检测结果的质量。我们提出的MS-FRCNN深度网络的设计可以用于复杂的人脸检测问题，如图2所示。
在两个具有挑战性的面部检测数据库上评估了提出的MS-FRCNN方法，并与许多最近的面部检测方法进行了比较。首先，在面部检测问题中，将提出的MS-FRCNN方法与标准更快的R-CNN方法进行比较。在Wider Face数据库[16]上进行评估，该数据库是一个大规模的面部检测基准数据集，用于显示其检测野外的脸部图像的能力。照明，面部姿势，低分辨率条件等。它也是面部检测数据集和基准测试（FDDB）[7]的基准测试，这是为了研究问题而设计的面部区域数据集的无约束面部检测。实验结果表明，提出的MS-FRCNN方法始终与其他最先进的面部检测方法达成高度竞争的结果。最后，我们提出了MS-FRCNN方法在面部检测问题中的局限性。
本文的其余部分安排如下。在第2节中，我们总结了面部检测的先前工作。第3节回顾了一般的深度学习框架，背景以及面部检测问题中更快的R-CNN的局限性。在第4节中，我们介绍了我们提出的MS-FRCNN方法来强化人脸检测的问题。第5节介绍了使用我们提出的方法在两个具有挑战性的面部检测数据库（即Wider Face和FDDB数据库）上获得的实验面部检测结果和比较。最后，我们在这项工作中的结论在第6节中给出。
2.相关工作
脸部检测在计算机视觉学习领域得到了很好的研究。第一个表现最好的方法之一是Viola-Jones脸部检测器[18]。它能够使用级联的升级简单的Haar分类器进行实时脸部检测。提升和使用简单特征的概念已经成为许多不同方法的基础[24]，自从

图二，我们提出的用于无约束人脸检测的MS-FRCNN结构

Viola-Jones脸部检测器的提出。这些早期检测器往往在正面脸部图像上工作良好，但在不同姿势的脸部上不太好。随着时间的推移，许多这些方法已经能够通过利用面部各种姿势的多个模型来处理偏角面部检测。这增加了模型的大小，但是却提供了更多的实用方法。一些方法已经摆脱了简单特征的想法，但继续使用增强的学习框架。 Li和Zhang [11]使用SURF级联进行一般物体检测，但在脸部检测方面也表现出良好的效果。
最近关于脸部检测的工作往往侧重于使用不同的模型，如可变形零件模型（DPM）[25,3]。 Zhu和Ramanan的工作是面部检测问题的一种有趣的方法，因为它们将面部检测，姿态估计和面部标记问题结合到一个框架中。通过在一个框架中利用所有三个方面，他们能够在现实世界的图像上超越最先进的状态。 Yu et al。 [22]通过将群体稀疏性纳入学习哪些地标是最突出的面部检测，并结合3D模型的地标来处理姿势，扩展了这项工作。 Chen et al。 [1]通过利用级联检测框架，结合了这两种方法的想法，同时将面部特征定位在检测器的对齐位置。类似地，Ghiasi和Fowlkes [4]已经能够使用囊性DPM，不仅在存在闭塞的同时也实现了良好的面部检测，而且具有里程碑意义的地理化。然而，Mathias等人[14]能够表明，与Viola-Jones探测器类似的DPM模型和刚性模板检测器都有很大的潜力尚未得到充分的探索。

通过使用适当控制的训练数据重新训练这些模型，他们能够创建与其他更复杂的最先进的面部检测器相似的面部检测器。
所有这些面部检测方法都是基于事先选择特征提取器。然而，在使用ConvNet来了解哪些特征用于检测面孔方面已经做了很多工作。神经网络已经存在了很长时间，但是由于硬件的改进和新的技术，使得能够在大量培训数据上训练这些网络，因此受到人们的普遍欢迎。 Li et al [10]利用CNN的级联来执行人脸检测。级联网络允许他们在级联的不同级别处理不同尺度的面部，同时还允许以后的网络中的假阳性以与其他级联检测器类似的方式被移除。杨等[20]从与DPM方法更相似的不同观点接近问题。在他们的方法中，脸部被分成几个面部部分，如头发，眼睛，鼻子，嘴巴和胡须。通过训练每个部位的探测器并智能地组合分数图，即使在遮挡下也能实现准确的面部检测。这两种方法都需要训练几个网络，以达到高精度。另一方面，我们的方法可以作为一个单一的网络进行端到端的训练，从而允许更少的注释所需的训练数据，同时保持高度准确的面部检测。
3.背景
最近在深层ConvNets中的研究在物体检测，分类和模型方面取得了显着成果[9]。在本节中，我们将回顾各种知名的Deep ConvNets。然后，我们展示了在面部检测的定义上下文中，更快的R-CNN（目标检测中最先进的深ConvNet方法之一）的局限性。
3.1.深度学习框架
卷积神经网络是多层感知器的生物学启发变体。 ConvNet方法及其扩展，例如 LeNet-5，HMAX等，模仿了包含对接受场敏感的复杂细胞排列的动物视觉皮层系统的特征。在他们的模型中，设计的滤波器被认为是人类视觉细胞，以便探索自然图像中的空间局部相关性。它可以有效地呈现稀疏的连接性和共享的权重，因为这些内核过滤器在整个图像中被复制，每个层中的参数相同。此外，汇总步骤，一种下采样形式在ConvNet中起着关键作用。最大池化是用于对象检测和分类的流行的池化方法，因为最大池通过消除非最大值减少上层的计算，并在每个级别中提供少量的平移不变性。

虽然ConvNets可以探索深层功能，但它们的计算费用非常高。当在图形处理单元（GPU）中实现时，算法变得更加实用。 Caffe框架[8]是使用CUDA C ++进行GPU计算的最快的深度学习实现之一。它还支持与Python / Numpy和MATLAB的接口。它可以作为最先进的模型的现成部署使用。这个框架在我们的实现中被使用。
3.2.基于区域的卷积神经网络
目标检测任务中最重要的方法之一是基于区域的卷积神经网络系列。这个家族的第一代R- CNN [6]将高容量深度ConvNet应用于自下而上地区的建议。由于缺乏标记的训练数据，它采用了辅助任务的监督预训练策略，然后进行了域特定的微调。然后ConvNet被用作特征检测器，并且该系统进一步训练用于支持向量机（SVM）的对象检测。最后，它实现了边界回归。该方法实现高精度，但是非常耗时。系统需要很长时间才能生成区域建议，从每个图像中提取特征，并将这些特征存储在硬盘中，这也占用了大量的空间。在测试时，由于特征提取缓慢，使用VGG-16网络[17]，每个图像的检测过程需要47s。
R-CNN [6]很慢，因为它可以独立处理每个对象，而不需要共享计算。 Faster R- CNN [5]通过分享提案之间的功能来解决这个问题。该网络旨在仅以完全卷积风格的方式仅对每个图像计算一张特征图，并使用ROI池从每个对象提案的特征图动态样本特征。该网络还采用多任务丢失，即分类丢失和边界回归损失。基于这两个改进，框架是端对端的训练。每个图像的处理时间显着减少到0.3s。
Faster R-CNN使用ROI池池加速检测网络。然而，区域提案步骤由网络设计，仍然是瓶颈，导致了次优解决方案和对外部地区提案方法的依赖。 Faster R-CNN [15]通过引入区域提议网络（RPN）来解决这个问题。RPN以完全安排的风格实现，用于预测对象边界框和对象分数。此外，锚点被定义为具有不同的比例和比例以实现平移不变性。 RPN与检测网络共享全图像卷积特征。因此，使用非常深的VGG-16模型，整个系统能够在0.2秒内完成提案生成和检测计算[17]。使用较小的ZF模型[23]，可以达到实时处理的水平。

图3.我们提出的MS-FRCNN和Faster R-CNN在宽面验证集上的面部检测比较[16]。

3.3.Faster R-CNN的局限性

基于区域的CNN家族，例如Faster R-CNN [15]及其变体[5]，实现了PASCAL VOC数据集中物体检测的最先进的性能结果。这些方法可以非常高的精度检测车辆，动物，人，椅子等物体。通常，定义的对象通常占据给定图像的大部分。然而，当这些方法在具有挑战性的Microsoft COCO数据集[12]上进行测试时，性能下降很多，因为图像包含更小，最终和不完整的对象。类似的情况发生在面部检测的问题。我们专注于仅检测有时小，重度遮挡和低分辨率的面部区域（如图1所示）。设计Faster R-CNN的检测网络无法强力检测这样的微小面孔。直觉点是兴趣区域层（即ROI池）层仅在最后一个单一的高级特征图中构建特征。例如，VGG-16模型[17]中'conv5'层的全局步幅为16.因此，给定图像中尺寸小于16×16像素的面部区域，投影的ROI-池区域即使建议的区域是正确的，该位置将在“conv5”层中小于1个像素。因此，基于仅一个像素的信息，检测器将难以预测对象类和边界框位置。
4.
我们的鲁棒面部检测方法
本节介绍了我们提出的多尺度Faster R-CNN方法，以鲁棒检测面部区域。我们的方法利用面部区域的全局和局部表示编码的深层特征。由于滤波器响应的值在每个层中的不同尺度范围内，即一层越深，滤波器响应的值越小，因此需要进一步的校准过程以使从多个滤波器接收到的值同步回应。采用Faster-RCNN中层的平均特征来增强每个位置的特征。
4.1.深度网络结构
在人脸检测方面，观察图像中人脸的大小通常在低分辨率，大遮挡和强照明条件下进行收集。标准的更快的R-CNN能够粗略地检测这些面部区域是一项艰巨的任务。这是因为标准Faster R-CNN中最后卷积层（conv5）中的接收场相当大。例如，给定图像中尺寸为64×64像素的面部ROI区域，其在conv5中的输出仅包含4×4像素，这不足以编码信息特征。当卷积层深入时，相应特征图中的每个像素在ROI区域之外收集更多的卷积信息。因此，如果ROI非常小，则其在ROI区域之外包含较高比例的信息。这两个问题在一起，使最后一个运输层的特征图对于小的ROI区域来说不太具有代表性。
因此，为了增强Faster R-CNN模型中的全球和本地信息，全球和局部特征（即多个尺度）的组合可以帮助强大地检测面部区域。为了增强网络的这种能力，我们将来自较浅卷积特征图（即conv3和conv4）的特征图结合到用于ROI集合的约束特征映射conv5。因此，网络可以强大地检测在ROI区域中包含更高比例信息的较低级别的面部特征。
特别地，定义的网络包括使用预先训练的VGG-16模型初始化的13个卷积层。在每个卷积层之后，有一个ReLU层。但是，这些层中只有4个跟随有缩小空间尺度的池层。因此，卷积层分为5个主要部分，即conv1，conv2，conv3，conv4和conv5。每个包含2或3个卷积层，例如conv5 3.所有卷积层在MS-RPN和MS-RNN之间共享，类似于标准[15]。当每个网络有三个卷积层（即conv3 3，conv4 3和conv5 3）时，它们的输出也用作三个对应的ROI池层和归一化层的输入，如图2。这些L-2归一化输出被连接和缩小以用作下一个网络层的输入。
4.2.多尺度归一化
在我们的深层网络架构中，不同卷积层提取的特征不能简单地连接起来[13]。这是因为这些层之间的通道数量，特征图像像素的值和规范的总体差异。详细的研究表明，较深的层通常包含比下层更小的值。因此，较大的值将主导较小的值，使系统过度依赖于较浅的特征，而不是多尺度特征的组合，导致系统不再健壮。
为了解决这个问题，我们为CNN架构引入了一个标准化层[13]。该系统采用多尺度特征，并沿着每个特征图的通道轴应用L2规范化。然后，由于层之间的信道尺寸不同，因此需要重新加权来自每一层的归一化特征图，使得它们的值处于相同的尺度。之后，特征图连接到一个单一的特征图张量。该修改有助于稳定系统并提高精度。最后，连接的特征图的通道尺寸缩小到适合下游完全连接层的原始架构。
4.3.深度网络实施
在规范化之前，所有特征图都被同步到相同的大小，以便可以应用级联。在RPN中，较浅的特征映射之后是具有一定步幅的集合层来执行下采样。在检测网络中，ROI池层已经确定了集合的特征映射是相同的大小。 L2规范化层的实现遵循[13]中的层定义，即系统在训练期间更新每个特征图的重新加权因子。在我们的架构中，我们结合卷积层的三层特征图，即conv3，conv4和conv5。它们被独立地定义，重新加权并连接。重新加权因子的初始值需要仔细设置，以确保在训练初始化时下游值处于合理的尺度。
另外，为了缩小级联特征图的信道大小，则采用1×1卷积层。因此，最终特征图的通道大小与Faster-RCNN中的原始第五卷积层大小相同，如图2所示。

5.实验结果
本节介绍了我们在Wider Face数据库[16]和面部检测数据集和Benchmark（FDDB）[7]中提出的MS-FRCNN方法中的脸部检测标记。在第5.1节中，我们介绍了Wider Face数据库的培训步骤。在5.2节中，在Wider Face数据库中比较使用MS-FRCNN和更快的R-CNN的脸部检测结果。第5.3节评估了在Wider Face数据库中针对其他最近公布的脸部检测方法提出的MS-FRCNN。在5.4节中，我们的MS-FRCNN也在具有挑战性的FDDB面部数据库上进行了评估。最后，我们分析了MS-FRCNN检测人脸时出现的一些情况。

图4.使用Faster R-CNN（左）和MS-FRCNN（右）提出的ROI候选（上）和检测结果（较低）。彩条显示RPN给出的每个ROI区域的置信度。

5.1.训练数据
Wider Face是一个公开的面部检测基准数据集。它包含393,703个标记的人脸，从基于61个事件类别收集的32,203张图像。数据库具有许多具有高度姿态变化，大遮挡，低分辨率和强光照条件的人脸。该数据库中的图像被组织并分为三个子集，即训练，估值和测试。每个包含原始数据库的40％，10％和50％。培训和验证集的图像和实地标签可以在线获得实验。然而，在测试集中，只有在线可以使用测试图像（而不是实际标签）。所有检测结果都发送到数据库服务器，用于评估和接收Precision-Recall曲线。
在我们的实验中，所提出的MS-FRCNN训练有关Wider Face数据集的训练集，其中包含以12,880张图像收集的159,424个注释面。在这个数据库中训练有素的模型用于以下实验中的测试。

Two-stage CNN-0.304 Multiscale Cascade CNN-0.400 Faceness-WIDER-0.315
ACF-WIDER-0.290 MS-FRCNN-0.399

0

(a)(b) (c)
图5.由我们提出的MS-FRCNN（红色）和其他方法获得的精确回归曲线，即两阶段CNN [16]，多尺度级联CNN [16]，合适性[21]和聚合通道特征（ ACF）[19]。所有方法在Wider Face数据库的相同培训和测试集上进行了培训和测试。（a）：容易的水平，（b）：中等水平（c）：难水平。我们的方法在该数据库的方法中获得了最高的AP值为0.799（容易），0.773（中）和0.399（难）的最新结果。

5.2.MS-FRCNN 和Faster R-CNN 在
人脸检测中的对比

在本实验中，我们使用我们提出的MS-FRCNN方法和更快的R-CNN比较了人脸检测能力。这两种方法都是在与5.1节所示相同的训练集上训练的。此外，两种方法在相同的条件下执行。在面部检测问题中，MS-FRCNN和Faster R-CNN的精确回归曲线如图3所示。如图所示，提出的MS-FRCNN方法在问题上强大优于Faster R-CNN在精确度和回忆值方面的面部检测。我们的方法实现了0.329的平均精度（AP）值，而更快的R-CNN的AP值为0.188。这个实验表明，MS-FRCNN提供了一个更合适的深层模型来解决各种挑战条件下无约束面部检测的问题。
图4显示了一个例子，其中提出的MS-FRCNN在人脸候选者中始终如一地产生ROI，而Faster R-CNN具有许多ROI，从而影响分类器。
5.3.Wider Face Database 实验
在本实验中，训练阶段与5.1节相同。在测试阶段，测试集中的脸部图像根据EdgeBox的检测率分为三部分[26]。换句话说，根据检测的困难，即容易，中等和硬[16]，脸部图像被分为三个等级。将所提出的MS-FRCNN方法与最近的面部检测方法进行比较，即两阶段CNN [16]，多尺度级联CNN [16]，整合度[21]

和聚合通道特征（ACF）[19]。所有这些方法都在相同的训练集上进行训练，并在相同的测试集上进行测试。精确回归曲线和AP值如图5所示。我们的方法具有高度竞争的结果，与最近的面部检测方法的最先进的性能。它实现了所有水平面的最佳平均精度，即AP = 0.879（容易），0.773（中）和0.399（难）。图6显示了使用本数据库中提出的MS-FRCNN的人脸检测结果的一些示例。

5.4.FDDB database 实验
为了表明我们的方法对其他标准数据集很好地概括，拟议的MS-FRCNN也在FDDB数据库上被标准化。它是面部检测算法的测试和评估的标准数据库。它包含5,171个面孔的注释，它们是从Wild数据集中的Faces中获取的2,845张图像。我们使用在Widface数据库中训练的相同模型5.1节对FDDB数据库进行评估。
基于离散标准进行评估，即，如果检测到的区域与注释面部区域的交点的比例大于0.5，则将其视为真正的检测。评估按照FDDB评估方案进行，并与方案中提供的已发布方法进行比较。所提出的MS-FRCNN方法胜过大部分公布的脸部检测方法，与所有其他方法相比，达到非常高的召回率（如图7所示）。这是具体的证据表明，MS-FRCNN能够强大地检测到无约束的面孔。图8显示了使用FDDB数据库上提出的MS-FRCNN的人脸检测结果的一些示例。

图6.使用我们在Wider Face数据库中提出的MS-FRCNN方法的一些面部检测结果的例子[16]。

6.总结
本文提出了我们提出的MS-FRCNN方法，以在各种挑战性条件下收集的图像鲁棒地检测人脸部区域。高度遮挡，低分辨率，面部表情，照明变化等。该方法在两个具有挑战性的面部检测数据库（即Wider Face数据库和FDDB）上进行基准测试，并与最近的其他面部检测方法（例如，两级CNN，多尺度级联CNN，整体性，ACF等。实验结果表明，我们提出的方法一致地达到了与现有技术方法非常有竞争力的结果。

图7.我们提出的MS-FRCNN的ROC曲线和FDDB数据库上的其他已发布的方法。我们的方法在该数据库中实现了最佳的回收率。

5.5. 当MS-FRCNN在面部检测中失败时
在Wider Face数据库中，有许多需要学习的小标签的地区。在这些低质量条件下，所提出的方法被训练在太多的面上。事实上，这些面部区域的人脸特征非常有限。因此，在某些情况下，该算法适合于深层次的特征。给出一个新的测试图像，经过训练的系统可能会将一些具有复杂模式的小区域标记为人脸，如图9所示。这是我们将来探索更好解决方案的要点。
References
[1] D. Chen, S. Ren, Y. Wei, X. Cao, and J. Sun. Joint cascade face detection and alignment. In ECCV, volume 8694, pages 109–122. 2014.
[2] S. S. Farfade, M. J. Saberian, and L.-J. Li. Multi-view face detection using deep convolutional neural networks. In ICMR, pages 643–650, 2015.
[3] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ra- manan. Object detection with discriminatively trained part- based models. IEEE Trans. on PAMI, 32(9):1627–1645, Sept 2010.
[4] G. Ghiasi and C. Fowlkes. Occlusion coherence: Localizing occluded faces with a hierarchical deformable part model. In CVPR, 2014.
[5] R. Girshick. Fast r-cnn. In ICCV, pages 1440–1448, 2015. [6] R. Girshick, J. Donahue, and J. M. T. Darrell. Region-based
convolutional networks for accurate object detection and se-
mantic segmentation. IEEE Trans. on PAMI, 2015.

图8.使用我们在FDDB数据库上提出的MS-FRCNN方法的一些面部检测结果的例子[7]。

图9.在Wider Face数据库中使用MSCN-FRCNN进行故障的人脸检测示例[16]。错误的脸部区域显示在图像右侧的一个微小窗口中。

[7] V. Jain and E. Learned-Miller. Fddb: A benchmark for face detection in unconstrained settings. Technical Report UM- CS-2010-009, University of Massachusetts, Amherst, 2010.
[8] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Gir- shick, S. Guadarrama, and T. Darrell. Caffe: Convolu- tional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.
[9] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097–1105. 2012.
[10] H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua. A convolu- tional neural network cascade for face detection. In CVPR, June 2015.
[11] J. Li and Y. Zhang. Learning surf cascade for fast and ac- curate object detection. In CVPR, pages 3468–3475, June 2013.
[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ra- manan, P. Dolla´r, and C. L. Zitnick. Microsoft coco: Com- mon objects in context. In ECCV, pages 740–755. 2014.

[13] W. Liu, A. Rabinovich, and A. C. Berg. Parsenet: Looking wider to see better. arXiv preprint arXiv:1506.04579, 2015.
[14] M. Mathias, R. Benenson, M. Pedersoli, and L. Van Gool. Face detection without bells and whistles. In ECCV, volume 8692, pages 720–735. 2014.
[15] S. Ren, K. He, R. B. Girshick, and J. Sun. Faster R-CNN: towards real-time object detection with region proposal net- works. CoRR, abs/1506.01497, 2015.
[16] C. C. L. Shuo Yang, Ping Luo and X. Tang. Wider face: A face detection benchmark. arXiv:1511.06523, 2015.
[17] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[18] P. Viola and M. Jones. Robust real-time face detection. IJCV, 57:137–154, 2004.
[19] B. Yang, J. Yan, Z. Lei, and S. Z. Li. Aggregate channel features for multi-view face detection. In IJCB, pages 1–8. IEEE, 2014.
[20] S. Yang, P. Luo, C.-C. Loy, and X. Tang. From facial parts responses to face detection: A deep learning approach. In ICCV, Dec. 2015.
[21] S. Yang, P. Luo, C.-C. Loy, and X. Tang. From facial parts responses to face detection: A deep learning approach. In ICCV, pages 3676–3684, 2015.
[22] X. Yu, J. Huang, S. Zhang, W. Yan, and D. Metaxas. Pose- free facial landmark fitting via optimized part mixtures and cascaded deformable shape model. In ICCV, pages 1944– 1951, Dec 2013.
[23] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV, pages 818–833. 2014.
[24] C. Zhang and Z. Zhang. A survey of recent advances in face detection. Technical Report MSR-TR-2010-66, June 2010.
[25] X. Zhu and D. Ramanan. Face detection, pose estimation, and landmark localization in the wild. In CVPR, pages 2879– 2886, June 2012.
[26] C. L. Zitnick and P. Dolla´r. Edge boxes: Locating object proposals from edges. In ECCV, pages 391–405. Springer, 2014.