face recognition with learning-based descriptor

Face Recognition with Learning-based Descriptor

Authors: Zhimin Cao, Qi Yin, Xiaoou Tang, and Jian Sun

讲解人 : 谢术富

提纲作者信息文章信息拟解决的问题与采用的思路本文的方法实验结论

作者的相关信息—第一作者Zhimin Cao B.Eng., Tsinghua University Email: [email protected] Paper:

CVPR’10(1 篇 ) 。

作者的相关信息—第二作者 Qi Yin ITCS, Tsinghua University( 清华大学理论

计算机科学研究中心 )

?

作者的相关信息—第三作者 Xiaoou Tang(S’93-M’96-SM’02-F’09) Professor, Department of Information Engineering, the C

hinese University of Hong Kong. Publication:

K. He, J. Sun, and X. Tang, " Single Image Haze Removal Using Dark Channel Prior ," CVPR, 2009.

… Homepage: http://www.ie.cuhk.edu.hk/people/xotang.ht

ml

作者的相关信息—第四作者 Jian Sun 微软亚洲研究院视觉计算组研究员 1997,2000,2003 于西安交通大学分别获得学士、硕士、博士学位。研究兴趣

交互式计算机视觉 ( 用户交互 + 视觉 ) 互联网上的计算机视觉 ( 大图像集合 + 视觉 )

论文 CVPR’10(5 篇 ) ICCV’09(1 篇 ) SIGGRAPH’09(3 篇 ) CVPR’09(2

篇 ) HomePage:http://research.microsoft.com/en-us/people/jiansun/

文章信息文章出处

CVPR 2010相关文献

Yoav Freund, Sanjoy Dasgupta, Mayank Kabra, Nakul Verma, Learning the structure of manifolds using random projections, NIPS 2007.

Abstract

We present a novel approach to address the representation issue and the matching issue in face recognition (verification). Firstly, our approach encodes the micro-structures of the face by a new learning-based encoding method. Unlike many previous manually designed encoding methods (e.g., LBP or SIFT), we use unsupervised learning techniques to learn an encoder from the training examples, which can automatically achieve very good tradeoff between discriminative power and invariance.

Then we apply PCA to get a compact face descriptor. We find that a simple normalization mechanism after PCA can further improve the discriminative ability of the descriptor. The resulting face representation, learning-based (LE) descriptor, is compact, highly discriminative, and easy-to-extract.

Abstract

To handle the large pose variation in real-life scenarios, we propose a pose-adaptive matching method that uses pose-specific classifiers to deal with different pose combinations (e.g., frontal v.s. frontal, frontal v.s. left) of the matching face pair.

Our approach is comparable with the state-of-the-art methods on the Labeled Face in Wild (LFW) benchmark (we achieved 84.45% recognition rate), while maintaining excellent compactness, simplicity, and generalization ability across different datasets.

摘要我们提出了一种新颖的方法来强调人脸识别 ( 确认 ) 中的表示和匹配

问题。首先，我们的方法利用一种新的基于学习的编码方法来编码图像上的

微结构。不同于以前人工设计的编码方法 ( 如 LBP 和 SIFT) ，我们利用无监督学习的方法从训练样本中得到一个编码器。

然后，我们应用 PCA 得到一个紧致的人脸表示。我们发现， PCA 之后的一种简单的归一化操作可以进一步提高表示的判别能力。最终的人脸表示是紧致的，高判别性的，且易于提取的。

为了处理实际环境中的姿态变化，我们提出了一种姿态自适应的匹配方法，该方法利用了特定姿态的分类器来处理不同的姿态组合（例如 , 正面对正面，正面对左侧）。在保持了较高的紧致性，简单性和不同数据集上的推广性的条件下，我们的方法同 LFW 上最好的方法是可比的 ( 该方法达到了 84.45% 的识别率 ) 。

本文所研究问题的提出 LBP, HOG 等是手工设计 (handcrafted) 的特征表示。这些方法存在两个问题：

手工设计的表示方法不能保证最优的表示。在人脸图像上，模式的分布并不均匀，有些模式在人脸图像上很

少出现。

在 1000 幅人脸图像上统计得到的模式分布图

本文的主要思想提出基于学习的编码方法，利用无监督的学习方法来编码人脸的微结构。

在 1000 幅人脸图像上统计得到的模式分布图对基于学习的特征表示，进一步利用 PCA 得到更紧致的表示。当一对图像是不同的姿态组合时，不同部件所起的作用是不同的。根据这

一观察，训练了特定姿态组合的分类器，进行最后的分类。

文章结构 Introduction Overview of the framework Learning-based descriptor extraction Pose-adaptive matching Experimental results Conclusion and discussion

本文的方法

LE 特征表示姿态自适应分类器

本文的方法图像 / 块级别上的 LE 特征表示部件的对齐姿态自适应的匹配

基于学习的特征表示

采样与归一化基于学习的编码与直方图表示 PCA 降维

采样与归一化

在半径为 r 的圆环上以等间隔采样 r*8 个像素，构成一个向量。

对该向量进行模归一化操作。

采样方式

R1=1,R2=2 包括中心 (25个点 )(最优 )

R1=3 无中心 (24个点 ) R1=4 R2=7 无中心 (88个点 )

R1=1,包括中心 (9个点 )

基于学习的编码三种无监督学习的方法 ( 向量量化 )

K-means PCA tree 随机投影树 (Random-projection tree)

根据图像上采样得到的向量集合，利用无监督学习的方法得到一个 codebook.

随机投影树的构建过程

PCA树 &随机投影树二者都是构建一棵树，叶子结点作为每个 clus

ter 的表示。

不同之处 : 构建树的规则不同。

挑选规则 PCA树 :

随机生成树 : 选择随机的单位投影方向。根据选择的方向对样本点进行分裂。

特征表示通过编码，输入图像变成了”码字”图像。将“码字”图像划分为若干个图像块，提取直方图。

图像大小 :84x96 图像块数目 :5x7=35

PCA 降维 .(256 code, 原始维数 :256x35=8960 维 ,降维后维数 :400 维 )

多 LE 表示利用线性 SVM 组合不同 LE 表示产生的相似度。

S1

S2

S3

S4

＋

＋

＋

＋＋

＋

－

－－

－

－－

－

SVM

本文的方法图像 / 块级别上的特征表示部件的对齐姿态自适应的匹配

部件的对齐利用相似变换分别对齐人脸的 9 个部件。优点 : 部件对得更准，而不需要考虑整幅人脸

图像 .

本文的方法图像 / 块级别上的特征表示部件的对齐姿态自适应的匹配

姿态自适应配准动机：当不同姿态的图像匹配时，不同部件的

作用是不同的。

基本思路将姿态划分为正面 (F) 、朝左 (L) 、朝右 (R)

三个类别。姿态的分类

从 Multi PIE 数据库中选择了三幅 Gallery 图像，对测试图像计算它与三幅 Gallery 图像的相似度，将最相似的 Gallery 图像的姿态作为当前测试图像的姿态类别。

基本思路给定人脸的姿态，一对图像的可能姿态组合有

{FF, FL(LF), FR(RF), LL, LR(RL), RR} 。对给定的姿态组合，根据给定的训练集合来训

练相应的线性 SVM 分类器。给定一对测试图像时，根据姿态组合选择相应

姿态组合的分类器进行分类。

实验 LFW 上测试

不同学习方法的影响 PCA 特征归一化与无归一化的对比 LE 与已有方法的对比不同特征点对齐的影响姿态自适应与无姿态自适应的对比 Single LE 与 Multiple LE 的对比本文方法与已有方法的对比

Multi PIE 上结果

LFW 简介 13,233 幅人脸图像， 5749 个人。其中， 168

0 个人有两幅或更多幅图像，剩余 4069 人只有一幅图像。

图像大小是 250x250 个像素， JPEG格式，绝大多数彩色图像。

一些图像包含多张人脸，只有图像中心位置的人脸才作为定义的人脸。

对任意的训练 -测试划分，每个子集的人是互斥的。

LFW测试协议两种视图：视图 1 用于调试算法参数（模型或参数选择），视图 2 用于性能报告。

视图 1 ：训练集 (pairsDevTrain.txt) ： 1100对匹配图像与 1100 对未匹配图像；测试集 (pairDevTest.txt) ： 500 对匹配图像与 500 对未匹配图像

视图 2 ：性能报告。只能用一次。包括 10 个子集。一旦方法或模型通过视图 1 确定了，该方法或模型利用视图 2 的数据进行评测。 10折交叉验证。

LFW测试协议限制的训练 (restricted training)

实验者不能利用人的名字来推断非训练集给出的两幅图像的等价性 : 例如，乔治 . 布什的图像对 (10,12) 与 (42,50) 来自同一类，实验者不能利用 (10,42) 作为同一类放入训练集中；实验者可利用对的等价性来扩充训练集：例如， (1,2) 与 (2,3) 是同一类，那么（ 1,3 ）可以加入训练集。

非限制的训练 (unrestricted training) 实验者可以利用人的名字来构建任意的训练与测试对 (peopleDevTrain.txt

&peopleDevTest.txt). 但是，报告结果时测试数据只能用 pairs.txt 文件 . 常见方法所属类别 :

PCA, SVM, LBP 等属于限制训练的方法。 LDA属于非限制训练的方法。

LFW测试协议 View2估计的平均精度 :

pi 表示 Veiw2 利用子集 i测试时的分类精度 . View2 上精度的标准差 :

精度应当根据独立于测试数据选择的参数与阈值确定。

10

1ˆ10

ii

p

ˆ

10ES

10

2

1

ˆˆ

9

ii

p

LFW测试结果

Restricted training results Unrestricted training results

不同学习方法的影响测试 : LFW随机投影树要比

PCA树， K-Means 更好，因此被选作学习方法。

PCA 特征归一化与无归一化的对比

直接利用 PCA 特征性能比 LE 表示要差。

对 PCA 特征进行 L1或 L2 归一化后 ,性能会有较大提升。

“特征 L2 归一化 +欧式距离”等价于” consine 相似度”。

LE 与已有方法的对比 Single LE+PCA 比

LBP 高一些。 Multiple LE 相比 Si

ngle LE 有较大提高。

不同特征点对齐的影响

5点对齐比 2点对齐有很大提升。部件级上的对齐同 5点对齐的对比并不明显。

姿态自适应与无姿态自适应的对比

每种姿态组合，随机采样 3000 同类 /异类对，对 6 种姿态组合，共有18000 个样本。

取一半作训练集，另一半做测试集。图像块的划分

姿态自适应结果无 76.2%±0.41%

有 78.3%±0.42%

Single LE 与 Multiple LE 的对比

整幅图像编码直方图 PCA Single LE+holistic

部件 LE相似度

向量 (9 维 )姿态

自适应分类 Single LE+Comp

整幅图像 LE相似度

向量 (4 维 ) Multiple LE+CompSVM

部件 LE相似度

向量 (36 维 ) Multiple LE+Comp姿态

自适应分类

Single LE 与 Multiple LE 的对比 Multiple LE+comp

最优 Single LE+comp 与

Multiple LE+holistic相当

本文方法与已有方法的对比同类方法中，排名第三。

Multi PIE 上结果

在 LFW 上训练得到的 LE 码本。推广性能还不错。

结论以及进一步工作 LE 表示以及姿态自适应的匹配具有很好的性

能。 MultiPIE 上的结果表明提出的方法具有很好的

推广性。采样方式是人工设计的，能否自动地学习得到？

本文可以借鉴的地方 DoG 处理特征点对齐相似度向量 +SVM多种特征组合

谢谢！

face recognition with learning-based descriptor

Documents