forked from rioxwang/BUPTGraduateThesis
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathch_1_intro.tex
54 lines (47 loc) · 10.5 KB
/
ch_1_intro.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
\chapter{绪论}
\section{课题研究的背景与意义}
\subsection{研究背景}
自从人类第一次张开眼睛观察世界开始,图像这一最早的原始信息传递媒介就开始以各种各样的形式在人类的信息传递过程中发挥着非彼寻常的作用,正所谓“一图胜千言”,“耳听为虚,眼见为实”说明的正是这个道理。随着图像的表现形式不断的发展和图像数据的日益增加,如何提取图像中所包含的海量信息以及信息的分析使用成了现代多媒体,人工智能,自动化控制等多个领域都亟需解决的问题。近些年来图像领域人工智能迅猛发展,神经网络技术因为简单,高效,对于数据适应性强等特性,在各种图像识别的领域大规模训练使用,取得了非常好的效果。人脸领域受相关技术的影响,有了很大的进步,从慢慢接近人眼的人脸识别分辨效果,到不断超越,以至于后来的百万级人脸搜索99\%的准确率,可以说正在慢慢朝着可以实际应用的方向发展。因此人脸领域也逐渐成为整个深度学习技术革命的排头兵。
\subsection{研究意义}
在人脸领域之中,包含人脸检测、人脸landmark点、人脸识别、人脸属性识别等多个分支。其中人脸识别作为图像信息中具有身份信息生物特征的一部分,可以广泛的用在安防,娱乐,多媒体等领域。而如果说人脸识别是识人,辩人。那么人脸属性识别就可以说是“相面算命”了,比如说人机交互中的表情识别互动,又比如说视频播放网站中限制级视频对于低龄观众限制,都是人工智能领域中不可缺少的功能。而在用户数据统计的过程中一张人脸图片,就可以识别出用户性别,年龄,是否戴眼镜,基本面部特征,发型状态等信息,这不仅让人听起来就很兴奋,而且可以在诸多面向用户的业务中实现个性化的分析与定制推荐。这些应用在逐渐强调个性化发展的社会中具有很高的市场。
但是人脸属性作为一项人脸中的重要研究领域,在深度学习中的技术进展却不如人脸识别领域一样快速,无论是准确率还是实际使用都有一定的发展空间。其中主要的问题在于网络结构上对于人脸属性多样性兼容问题,以及人脸属性任务对于人脸图片数据要求的复杂和严格性,人脸属性种类繁多,且人脸场景分布极为复杂,标注工作难度较大,且歧义性较大。因此,本文旨在在深度学习对于图像识别任务有较大推动的今天,研究网络结构和数据分布对于属性识别的影响。从属性识别的网络结构探索和不同数据分布整合对于属性数据的提高效果。同时结合迁移学习的思想为提高不同环境下人脸属性的识别准确率。
\section{国内外研究现状}
\subsection{人脸属性的任务目标发展}
从时间角度来看,基于人脸图像的多种人脸属性预测估计在上世纪90年代就开始,1990年,MIT的Cottrell和Metcalfe把基于AutoEncoder的特征降维用于性别和表情识别\cite{EMPATH};1999年,塞浦路斯学院的Lanitis构建了FGNET年龄估计数据库(共82人,1002张图像),当时用PCA做特征提取\cite{FGNET};2006年,北卡的Ricanek 和 Tesafaye构建了首个大规模年龄、性别、种族数据库MORPH(1.3万人,5.5万图像)\cite{MORPH};2008年,哥伦比亚大学的Kumar等人构建了包含10个属性(后在期刊文章里扩展到60多个)的大规模名人数据库PubFig(共200人,6万张图像)仅部分公开,提取了手工设计特征,之后对每个属性训练SVM\cite{FACETRACER};2010年,MIT的Pho等人首次研究了基于普通摄像头的非接触式心率估计,这是“由表及里”的一次突破;2015年,中科院计算所VIPL研究组首次研究了人与机器在属性识别上的性能差异(可控),并发现机器在年龄、性别和种族的识别上已经可以超过人类\cite{HUHAN};NIST组织了年龄和性别预测方面的评测竞赛,并且出了一个报告概括了领域相关工作\cite{FERET};此外,香港中文大学汤老师组构建了大规模互联网名人的40个属性数据集celeA\cite{CELEA}。由此可见,研究工作的时间跨越度并非很大,但是各方面工作的丰富性和多样性还是令人瞩目的。
\subsection{人脸属性识别方法变化}
从特征的表示方法来看,是一个从全局特征、细节特征到深度特征的过程,具体来讲:全局表观特征:包括Intensity、PCA\cite{PCA}、BIF生物启发式特征\cite{BIF},局部二值模式LBP(Local binary patterns)\cite{LBP},加窗傅立叶变换(Gabor)等。细节特征如:主动外观模型AAM(Active Appearance Model)\cite{AAM},
纹理,肤色,人脸形状,sift特征等。深度学习特征\cite{ADIENCE}\cite{CNNSVM}如CNN,DNN中网络的不同层卷积输出。其中是一个不断演变但是也时有结合的过程。从特征分类方法上来看:研究的任务形式也从单任务学习(常用方法:每个属性训练一个分类器)慢慢演变到多标签学习\cite{CELEA}\cite{HUHAN}(回归目标不仅是数,而是向量形式)而后根据不同的细粒度额精确化需求,发展出层级式的分类器(由粗到细,特别适用于年龄分类,如先确定年龄范围,再进行具体年龄分类)和多任务学习\cite{MULTITASK}(多任务限制玻尔兹曼机,多任务CNN等等)。总结来看,是一个从手工设计特征到深度特征、从组合式的学习到端到端学习、从STL到MTL(从单任务学习到多任务学习)的发展过程。
人脸视觉属性学习并不简单,特别是在非可控的真实场景下。影响因素有以下几个方面:传感环境(尤其在室外)的不可控性以及人物的不配合性,这会引起姿态、光照、遮挡等多种因素的影响;属性之间的相关性以及差异性;属性数量的增多引起内存消耗的增加,因此不仅需要高效的模型,而且需要对于不同场景能够行之有效的迁移学习方法。
\section{本文的工作与贡献}
\subsection{研究内容}
在本文的主要研究的内容有两个,第一项是结合人脸属性的性质探究在人脸属性在深度学习技术下的表现。其中包括人脸属性数据的总结与整理,规划人脸属性的标注类型,单任务模型下的人脸属性的表现,多任务模式下人脸属性的表现等,主要的衡量指标是在不同模型组合和模型策略的情况下人脸属性模型的准确率。另一方面,是针对于现实环境中图片采集的不可控制性,使用对抗生成网络来模拟不同场景的人脸数据,并且探究如何使用迁移学习的思想来对提高人脸属性对于不同场景泛化能力。在这一任务中,除了最终对于人脸属性的准确率提升之外,人脸图片的生成质量也是衡量得指标之一。
\subsection{主要贡献}
在这项研究工作之中主要贡献包括研究内容上的工作和一定的工程优化工作,具体如下:
研究上的工作:
根据人脸属性任务的性质,基于Alexnet\cite{ALEXNET}设计人脸属性的单任务和多任务网络,保证具有一定的可复用性。
设计具有网络输出置信评估的模块,增加网络对于自身的输出的感知能力,从而可以更加精确的把握模型的输出准确性。
研究对抗生成网络的使用,使用对抗生成网络成功通过噪声模拟出数字,物体和人脸图片,且效果较为逼真。
研究对抗生成网络在图像超分辨率领域上的应用,大幅度提升对抗生成网络的图像生成质量。
并基于此项技术,在不直接使用celeA数据的情况下,仅使用lfwA和对应的超分辨率图像进行训练,提高了模型在celeA数据集上的准确率。
证明基于超分辨率率的迁移学习是可行的。
工程上的工作:
研究如何使用多机多卡的训练,并基于机器学习框架的使用完成了对于人脸属性相关任务的训练,提升了训练和算法迭代的速度。
在具体的网络前馈过程之中,使用多线程、指令集等优化方式,提升识别模型输出的速度,包括人脸属性的概率输出和超分辨率的图片生成的速度。
\subsection{论文的组织结构}
第二章:笔者主要介绍涉及人脸属性在深度学习技术种一些基本常识和常见的操作和笔者对相关瓶颈操作的一些优化。具体包括:
在卷积神经网络的基础操作中介绍所谓卷积操作的多种实现和使用方式介绍,激活函数的具体使用,常见的网络参数初始化方法和网络训练相关细节。
在多机多卡的部分介绍,在多卡训练中数据的同步和分发方式,模型参数的更新策略,多机训练中需要注意的一些关键选项配置,以及如何简单的通过机器学习框架完成多机多卡的训练。
在网络前馈的优化部分会介绍一些实用性非常强的快速卷积算法,如im2col+gemm,Winograd等。对于网络中常见操作的如卷积、BatchNorm层的合并等。
第三章
笔者主要介绍针对于在人脸属性所进行的一些实验和创新的过程的一些相关工作,
包括对于人脸属性数据的性质分析、人脸常见数据集的介绍、人脸属性识别中常见的识别方法等。
在此基础上总结了三个人脸属性识别所面临的问题:充分利用标签不同的数据库,选择怎样的预处理方式才有助于人脸属性任务的学习,怎样更加精确的把控人脸属性的模型输出。
并在提出问题的基础上进行了解答,通过数据集并行训练的方式改进问题一,使用人脸矫正固定输入格式改进问题二,加入网络自评估模块改进问题三。
第四章
笔者会介绍如何使用对抗生成网络对于不同场景下的人脸进行学习并且根据噪声生成人脸图片。
使用超像素的方式对于人脸图片进行一定程度上的效果增强和场景迁移。
通过结合迁移之后的人脸图像进行学习可以方便的改进人脸属性中由于数据分布不同导致准确率下降情况
第五章
笔者主要对实验过程做一个综合性的概述并且自我评价一下整个实验过程中出现的问题和解决问题的方法。
回顾在解决问题种反应的一些现实层面的现象以及个人对这些现象出现的原因和结果的思考。
当然也包含一点关于未来和未解决工作的思索。