introduction to "facial landmark detection by deep multi-task learning"

20
1 2014.12.6 26回 コンピュータビジョン勉強会@関東 ECCV2014読み会 Facial Landmark Detection by Deep Multi-task Learning Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou Tang The Chinese University of Hong Kong 笹尾幸良 Yukiyoshi Sasao (紹介者) @poyy

Upload: yukiyoshi-sasao

Post on 12-Jul-2015

853 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

1

2014.12.6第26 回 コンピュータビジョン勉強会@関東 ECCV2014読み会

Facial Landmark Detectionby Deep Multi-task Learning

Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou TangThe Chinese University of Hong Kong

笹尾幸良 Yukiyoshi Sasao (紹介者)

@poyy

Page 2: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

2

Summary目的:顔画像の5点の位置を得る (顔特徴点検出:Facial Landmark Detection)

補助的なタスク(性別とか顔向き)情報も用いて一緒に学習する

主目的

Deep CNN + Multi-Task Learning (タスク毎の停止条件付き)

によって、少ないNN-layer数で高精度 ,隠れに強い顔特徴点検出を実現

Page 3: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

3

著者(研究室) 紹介1香港中文大学The Chinese University of Hong Kong  / Multimedia Laboratory

Xiaogang Wang

Deep Learning を人・顔などの認識に応用

ECCV2014 : 10papers acceptedCVPR2014 : 12papers accepted

Page 4: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

4

著者(研究室) 紹介2

顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度

人が実施した精度 (Human performance)

Facebook

Page 5: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

5

● Regression-based method

● Template fitting method

● Cascaded CNN

顔特徴点検出の先行研究Valstar, M., Martinez, B., Binefa, X., Pantic, M.: Facial point detection using boosted regression and graph models. In: CVPR. pp. 2729-2736 (2010)

Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. PAMI 23(6), 681-685 (2001)

Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascadefor facial point detection.In: CVPR. pp. 3476-3483 (2013)

回帰で、点の位置を直接求める

位置や見た目のモデルをあてはめる

同じ研究室の手法特徴点ごとに分割して段階的にCNNを適用.CNN数が多い. 23 CNNs.

先行研究に対し,補助的なタスクを使うことと,Raw-pixel入力のCNNで,Cascadeせずに少ない処理時間で処理できることが特徴.

Page 6: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

6

メインTask と 補助Task

w

メインTask 5点の2 次元座標 (回帰)

眼鏡をかけているか (識別)

笑顔か (識別)

性別 (識別)

顔向き (識別)

g

Page 7: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

7

● 一般的な Multi-Task Learning (MTL)

目的関数 1

各Task 各訓練サンプル

→ 全てのTaskの損失関数を平等に最適化

正解y 特徴量x, パラメータwによる関数

各Taskの損失関数

正則化

Page 8: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

8

● 本稿でのMTL

目的関数 2

メインTask(顔特徴点検出)の損失 補助Task(笑顔,眼鏡,..)の損失

各補助Taskその補助Taskの重要度

→ Taskごとに重要度λ は異なる (λも学習) 目的はあくまでメインTaskを最適化すること

正則化の線形関数 softmax関数

実装は..

Page 9: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

9

全体構造

TCDCN : Tasks-Constrained Deep Convolutional Network

特徴量は共通

Network (特徴抽出)は全Taskで共通

各Taskで回帰

Page 10: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

10

・学習した特徴量を可視化すると..

CNNで抽出した特徴量

似たような顔向き、顔属性の入力に対し同じような特徴量を抽出できている

→ 顔向き・顔属性にロバストな特徴空間

Page 11: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

11

学習方法:

一般的な確率的勾配降下法 (Stochastic Gradient Descent)例:

特徴量のエラー = 全TaskのErrorを統合したものBack propagation

収束するまで繰り返す

Page 12: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

12

Task-wise early stopping:

Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる 例えば, 眼鏡のあり/なしは, 笑顔かどうか よりも簡単であるそのTaskの最良の時を過ぎて学習を続けることは, メインTaskの学習を阻害することになりかねない

→ Taskごとに, 最良の時に学習をstopする

[最良の時]のcriterion

閾値

training-errorの傾向 .直近k回のtraining-errorが急激に落ちていると,

値は小さくなる → stop しない

汎化性能 .training-error に対する validation-error の率.

:補助Taskの重要度

Page 13: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

13

結果 評価Dataset : AFLW

評価Dataset : AFW

失敗例

Page 14: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

14

評価(1) 各補助Taskの効果:

評価Dataset : AFLW

・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善・補助Taskの中ではposeが最も寄与している

学習画像として , 自ら用意した公開Dataset (MTFL) を使用

Page 15: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

15

評価(2) Smile, Poseの効果:

評価Dataset : AFLW

Page 16: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

16

評価(3) Task-wise Early Stoppingの効果:

補助Taskごとにstopすることで, 精度向上している

Page 17: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

17

評価(4) 他手法との比較 1

Cascaded CNN と比較し, より少ない計算量で, 精度が良い

CNN数 処理時間 on Core i5

Cascaded CNN 23 120 msec

TCDCN 1 17 msec GPU→ 1.5 msec

Page 18: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

18

評価(4) 他手法との比較 2

Page 19: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

19

● Live Demo (exe, windows)● Multi-Task Facial Landmark (MTFL) dataset

Demo

http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html

Page 20: Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

20

● 異なる, だが少し関係するTaskとのjoint-learningによって,

隠れや顔角度に頑強な顔特徴点検出を実現.

● Taskごとの早期停止スキームによってモデルを収束.

● CNNをCascadeしないため高速.

● 他の手法の初期位置推定としても使用可能.

まとめ

RCPR(Robust face landmark estimation under occlusion)を高精度化