introduction to "facial landmark detection by deep multi-task learning"

1

2014.12.6第26 回コンピュータビジョン勉強会＠関東　ECCV2014読み会

Facial Landmark Detectionby Deep Multi-task Learning

Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou TangThe Chinese University of Hong Kong

笹尾幸良　Yukiyoshi Sasao (紹介者)

@poyy

2

Summary目的：顔画像の５点の位置を得る (顔特徴点検出：Facial Landmark Detection)

補助的なタスク(性別とか顔向き)情報も用いて一緒に学習する

主目的

Deep CNN + Multi-Task Learning (タスク毎の停止条件付き)

によって、少ないNN-layer数で高精度 ,隠れに強い顔特徴点検出を実現

3

著者(研究室) 紹介1香港中文大学The Chinese University of Hong Kong　 / Multimedia Laboratory

Xiaogang Wang

Deep Learning を人・顔などの認識に応用

ECCV2014 : 10papers acceptedCVPR2014 : 12papers accepted

4

著者(研究室) 紹介2

顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度

人が実施した精度 (Human performance)

Facebook

5

● Regression-based method

● Template fitting method

● Cascaded CNN

顔特徴点検出の先行研究Valstar, M., Martinez, B., Binefa, X., Pantic, M.: Facial point detection using boosted regression and graph models. In: CVPR. pp. 2729-2736 (2010)

Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. PAMI 23(6), 681-685 (2001)

Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascadefor facial point detection.In: CVPR. pp. 3476-3483 (2013)

回帰で、点の位置を直接求める

位置や見た目のモデルをあてはめる

同じ研究室の手法特徴点ごとに分割して段階的にCNNを適用.CNN数が多い. 23 CNNs.

先行研究に対し,補助的なタスクを使うことと,Raw-pixel入力のCNNで,Cascadeせずに少ない処理時間で処理できることが特徴.

6

メインTask と補助Task

w

メインTask 5点の2 次元座標 (回帰)

眼鏡をかけているか (識別)

笑顔か (識別)

性別 (識別)

顔向き (識別)

g

7

● 一般的な Multi-Task Learning (MTL)

目的関数 1

各Task 各訓練サンプル

→　全てのTaskの損失関数を平等に最適化

正解y 特徴量x, パラメータwによる関数

各Taskの損失関数

正則化

8

● 本稿でのMTL

目的関数 2

メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失

各補助Taskその補助Taskの重要度

→ Taskごとに重要度λ は異なる (λも学習) 目的はあくまでメインTaskを最適化すること

正則化の線形関数 softmax関数

実装は..

9

全体構造

TCDCN : Tasks-Constrained Deep Convolutional Network

特徴量は共通

Network (特徴抽出)は全Taskで共通

各Taskで回帰

10

・学習した特徴量を可視化すると..

CNNで抽出した特徴量

似たような顔向き、顔属性の入力に対し同じような特徴量を抽出できている

→　顔向き・顔属性にロバストな特徴空間

11

学習方法:

一般的な確率的勾配降下法 (Stochastic Gradient Descent)例：

特徴量のエラー = 全TaskのErrorを統合したものBack propagation

収束するまで繰り返す

12

Task-wise early stopping:

Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる例えば, 眼鏡のあり/なしは, 笑顔かどうかよりも簡単であるそのTaskの最良の時を過ぎて学習を続けることは, メインTaskの学習を阻害することになりかねない

→　Taskごとに, 最良の時に学習をstopする

[最良の時]のcriterion

閾値

training-errorの傾向 .直近k回のtraining-errorが急激に落ちていると,

値は小さくなる　→ stop しない

汎化性能 .training-error に対する validation-error の率.

：補助Taskの重要度

13

結果評価Dataset : AFLW

評価Dataset : AFW

失敗例

14

評価(1) 各補助Taskの効果:

評価Dataset : AFLW

・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善・補助Taskの中ではposeが最も寄与している

学習画像として , 自ら用意した公開Dataset (MTFL) を使用

15

評価(2) Smile, Poseの効果:

評価Dataset : AFLW

16

評価(3) Task-wise Early Stoppingの効果:

補助Taskごとにstopすることで, 精度向上している

17

評価(4) 他手法との比較 1

Cascaded CNN と比較し, より少ない計算量で, 精度が良い

CNN数処理時間 on Core i5

Cascaded CNN 23 120 msec

TCDCN 1 17 msec GPU→ 1.5 msec

18

評価(4) 他手法との比較 2

19

● Live Demo (exe, windows)● Multi-Task Facial Landmark (MTFL) dataset

Demo

http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html

http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html

20

● 異なる, だが少し関係するTaskとのjoint-learningによって,

隠れや顔角度に頑強な顔特徴点検出を実現.

● Taskごとの早期停止スキームによってモデルを収束.

● CNNをCascadeしないため高速.

● 他の手法の初期位置推定としても使用可能.

まとめ

RCPR(Robust face landmark estimation under occlusion)を高精度化

introduction to "facial landmark detection by deep multi-task learning"

Technology