テレビ映像における顔認識技術 - nhk · 2017. 8. 16. · 研究発表 1...

8
研究発表 ■ 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face Recognition Technique for TV Program Video Yoshihiko Kawai, Internet Service Systems Research Division ABSTRACT 概 要 近年,人工知能(AI:Artificial Intelligence)を活用した 映像解析技術や,機械学習,ビッグデータ解析などの技術 が大きく進展し,放送やネットサービスへの応用に期待が高 まっている。当所では,番組制作の高度な支援やアーカイブ ス映像の有効活用を目指し,テレビ映像の内容に関するさま ざまな情報(メタデータ)を自動付与するための映像解析技 術の研究を進めている。 本研究発表では,テレビ映像に映 る人物が誰であるかを判別するための顔認識技術を紹介す る。セキュリティーゲートなどにおける顔認証に比べ,テレビ 映像では照明条件や顔の向き,出演者の表情が大きく変動 するため,十分な認識精度を得ることが難しいという課題が ある。そこで本研究発表では,目鼻や口などの大まかな位置 関係を考慮した画像特徴や,細かな領域から求めた画像特 徴を段階的に統合していく手法を利用することで,変動の大 きいテレビ映像においても高精度に人物を認識できる技術を 紹介する。 A video analysis technique that uses artificial intelligence (AI), machine learning and big data analysis has undergone dramatic development in recent years, raising expectations for its application to broadcasting and internet services. We are studying an image analysis technique for automatically annotating content- based information (metadata) of TV program, aiming at sophisticated support of the production of TV programs and effective use of archived video. The metadata will enable TV producers to search for desired video scenes from a large amount of video materials quickly and to produce a shorter summary video automatically, for example. This report introduces a face recognition technique that can identify a person in a TV program video. Compared with authentication at a security gate, it is more difficult to achieve high recognition accuracy on TV video because the luminance condition, face direction and facial expression vary significantly on a TV program video. In this report, we introduce the technique of using image features considering the positional relationship of facial parts such as the eyes, nose and mouth to improve the accuracy of face detection. We also introduce the technique of integrating image features calculated using a small-region step-by-step method to reduce the negative effects of video variation and to recognize individual differences accurately. 23 NHK技研 R&D/No.164/2017.8

Upload: others

Post on 22-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

研究発表 ■1

テレビ映像における顔認識技術河合吉彦 ネットサービス基盤研究部

Face Recognition Technique for TV Program Video

Yoshihiko Kawai, Internet Service Systems Research Division

ABSTRACT概 要

近年,人工知能(AI:Artificial Intelligence)を活用した

映像解析技術や,機械学習,ビッグデータ解析などの技術

が大きく進展し,放送やネットサービスへの応用に期待が高

まっている。当所では,番組制作の高度な支援やアーカイブ

ス映像の有効活用を目指し,テレビ映像の内容に関するさま

ざまな情報(メタデータ)を自動付与するための映像解析技

術の研究を進めている。本研究発表では,テレビ映像に映

る人物が誰であるかを判別するための顔認識技術を紹介す

る。セキュリティーゲートなどにおける顔認証に比べ,テレビ

映像では照明条件や顔の向き,出演者の表情が大きく変動

するため,十分な認識精度を得ることが難しいという課題が

ある。そこで本研究発表では,目鼻や口などの大まかな位置

関係を考慮した画像特徴や,細かな領域から求めた画像特

徴を段階的に統合していく手法を利用することで,変動の大

きいテレビ映像においても高精度に人物を認識できる技術を

紹介する。

A video analysis technique that uses artificial intelligence

(AI), machine learning and big data analysis has

undergone dramatic development in recent years,

raising expectations for its application to broadcasting

and internet services. We are studying an image

analysis technique for automatically annotating content-

based information (metadata) of TV program, aiming at

sophisticated support of the production of TV programs

and effective use of archived video. The metadata

will enable TV producers to search for desired video

scenes from a large amount of video materials quickly

and to produce a shorter summary video automatically,

for example. This report introduces a face recognition

technique that can identify a person in a TV program

video. Compared with authentication at a security gate,

it is more difficult to achieve high recognition accuracy

on TV video because the luminance condition, face

direction and facial expression vary significantly on a TV

program video. In this report, we introduce the technique

of using image features considering the positional

relationship of facial parts such as the eyes, nose

and mouth to improve the accuracy of face detection.

We also introduce the technique of integrating image

features calculated using a small-region step-by-step

method to reduce the negative effects of video variation

and to recognize individual differences accurately.

23NHK技研 R&D/No.164/2017.8

Page 2: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

顔領域と顔特徴点の位置を検出(顔検出処理)角度や大きさを補正 誰であるかを判定

(顔認識処理)

Aさん:スコア0.99Bさん:スコア0.01

入力フレーム画像

Aさん Bさん Cさん

学習済みの判定器

顔領域

顔特徴点

スケール1 スケール2 スケールN

走査窓

1図 本技術の概要

2図 走査窓方式による顔検出処理

1.はじめに

近年,人工知能(AI)を活用した映像解析技術や,機械学習,ビックデータ解析などの技術が大きく進展し,放送やネットサービスへの応用に期待が高まっている。当所では,番組制作の高度な支援やアーカイブス映像の有効活用を目指し,映像内容に関するさまざまな情報(メタデータ)を自動付与するための映像解析技術の研究を進めている1)。メタデータを使うことで,素材映像の中から特定のシーンを素早く検索することや,番組を短くまとめた要約映像を自動生成することなどの応用を目指している。本研究発表では,テレビ映像に映る人物が誰であるかを自動認識する技術を紹介する。映像中の人物を認識する技術は,セキュリティー分野において高精度化が進んでおり2),すでに実用化されている例もある。しかしテレビ映像においては,照明条件や顔の向き,表情が大きく変動するため,既存技術をそのまま適用しても十分な認識精度を得ることが難しいという課題が残されていた。そこで本研究発表では,目鼻や口などの大まかな位置関係を考慮した画像特徴を利用することで変動への頑健性を高め,顔位置の検出精度を改善する技術について

説明する。また,細かく分割した領域から画像特徴を求め,段階的に統合していくことで,精度よく個人の差異を判別できる認識技術について説明する。

2.テレビ映像における顔認識

2.1 本技術の概要1図に本技術の概要を示す。まず始めに,入力フレーム画像に顔が映っているかどうかを判定する。顔が映っている場合にはその顔領域の位置と,目尻や口端などの顔特徴点の位置を検出する(これを以下,「顔検出処理」と呼ぶ)。次に,検出された顔特徴点の座標情報を用いて,顔の角度や大きさを補正する。その後,あらかじめ学習しておいた人物ごとの判定器を用いて,その人物らしさを表すスコアを求め,それが誰であるかを決定する(これを以下,「顔認識処理」と呼ぶ)。次節以降で,顔検出処理と顔認識処理の詳細を説明する。

2.2 顔検出処理2図に顔検出処理の概要を示す。2図では,入力フレー

24 NHK技研 R&D/No.164/2017.8

Page 3: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

研究発表 ■1

カボールフィルターの例

ステージ1 判定器 ステージ2 判定器 ステージT 判定器 顔であると判定顔特徴点座標の推定値走査窓

顔ではない 顔ではない 顔ではない

顔ではない

決定木1

顔ではない 顔ではない

ステージtの判定器

決定木 2 決定木 Sノード

画像の中心が原点 選択する2点の各点から最も近い顔特徴点が原点

ム画像に対して走査窓と呼ばれる小領域を設定し,走査窓の位置を少しずつ移動しながら顔か否かを判定していく。フレーム画像全体に対する判定が終了したら,走査窓の大きさ(スケール)を変えて同様の処理を繰り返す。走査窓方式において重要となるのは,窓領域からの画像特徴の算出方法と,その画像特徴に基づいた顔か否かの判定方法である。始めに,窓領域から算出する画像特徴について説明する。3図に概要を示す。本技術では,窓領域内の任意の2点にガボールフィルター*1を適用し,それらの出力値の差分を画像特徴とする。判定器を学習する際には,2点の位置とガボールフィルターが反応する方向や周波

数をさまざまに変化させ,その中から判定に有用なものを機械学習によって選択する。ガボールフィルターを適用する2点の選択方法について述べる。4図に示すように,画像の中心を原点とした絶対座標系で2点を選択すると,画像によって比較する位置がずれてしまう。4図の例では,すべての画像において(正面から見て)口の左端と右目の右端が選択されるのが理想である。このようなずれが生じる原因は,個人による顔形状の差異や顔の向き,表情の変化によって目鼻の位置関係が変化するためである。本技術では,こ

3図 顔検出処理に用いる画像特徴の例(任意の2点におけるガボールフィルターの出力値の差分を利用)

6図 顔検出処理の判定器の構造

4図 絶対座標系で2点を選択した例 (人によって目鼻の位置関係が異なるため,

比較する位置がずれてしまう)

5図 局所座標系で2点を選択した例 (個人差や顔の向き,表情の変化による位置ずれが軽減できる)

*1ある画素を含む小領域において,特定の方向成分と特定の周波数成分を抽出する画像フィルター(3図参照)。

25NHK技研 R&D/No.164/2017.8

Page 4: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

画像特徴1⦆>⦆閾値1

画像特徴2⦆>⦆閾値2

画像特徴4⦆>⦆閾値4

顔 顔ではない

画像特徴5⦆>⦆閾値5

顔 顔ではない

画像特徴3⦆>⦆閾値3

顔 顔ではない

はいノード

いいえ

はい いいえ はい いいえ

はい いいえはい いいえ

画像特徴1⦆>⦆閾値1

画像特徴2⦆>⦆閾値2

画像特徴4⦆>⦆閾値4 画像特徴5⦆>⦆閾値5

画像特徴3⦆>⦆閾値3

顔特徴点座標:x5 顔特徴点座標:x6

はい いいえ

はい いいえ はい いいえ

はい いいえはい いいえ

顔特徴点座標:x1 顔特徴点座標:x2 顔特徴点座標:x3 顔特徴点座標:x4

れらのずれを軽減するために,5図に示すような顔特徴点を原点とした局所座標系を利用する3)。ここで顔特徴点とは,目や鼻の角など,顔の目印となる点を指す。顔特徴点からの相対座標で2点の位置を指定することで,画像が異なっても,類似した位置に2点を置くことができる。顔特徴点の検出は,次に述べる顔の判定処理において実施する。画像特徴に基づいた顔の判定方法について説明する。本技術で利用する判定器の構造を6図に示す。T個の判定器が直列に接続され,各判定器はS個の決定木4)が直列に連結される構造となっている3)5)。あるステージの判定器において顔でないと判定されると,即座に処理が終了される。同様に,ある決定木において顔でないと判定された場合も処理が終了される。このような構造を採用することで計算時間を大幅に削減することができる。顔かどうかを判定する決定木の例を7図に示す。画像特徴に基づいてノードを順に分岐していき,最終的に到達したノードのラベルに基づいて顔かどうかを判定する。各ノードでは,顔とそれ以外のデータがなるべく混在なく分離できるように分岐条件(使用する画像特徴の種類と閾値)を設定する。

同様の構造を用いて,顔特徴点の位置を推定することもできる。8図に例を示す。画像特徴に基づいてノードを分岐していき,最終的に到達したノードの値に基づいて顔特徴点の座標を決定する。各ノードでは,推定された顔特徴点から正解位置までの移動ベクトル(移動方向と距離)が類似したデータがなるべく同じノードに分離されるように分岐条件を設定する。各ノードの分岐条件は,学習データに基づいて決定する。顔特徴点の正解位置も学習データとして与えられるものとする。本技術では,7図の決定木と,8図の決定木を1つに組み合わせることで,顔の判定と顔特徴点座標の推定を並列に実行する。具体的には,9図に示すように決定木の各ノードに対して,顔か否かの判定と,顔特徴点座標の推定のどちらに基づいて分岐条件を設定するかをランダムに割り振る。以上の処理によって入力フレーム画像から顔領域と顔特徴点を検出する。

2.3 顔認識処理本節では,顔認識処理について説明する。始めに顔認識の既存技術について述べる。多くの既存技術6)7)では,

7図 顔かどうかを判定する決定木の模式図

8図 顔特徴点の座標を推定する決定木の模式図

26 NHK技研 R&D/No.164/2017.8

Page 5: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

研究発表 ■1

画像特徴1⦆>⦆閾値1

画像特徴2⦆>⦆閾値2

画像特徴4⦆>⦆閾値4 画像特徴5⦆>⦆閾値5

画像特徴3⦆>⦆閾値3

顔特徴点座標:x3顔ではない

はい いいえ

はい いいえ はい いいえ

はい いいえはい いいえ

顔特徴点座標:x1 顔特徴点座標:x2

顔 顔顔ではない 顔ではない

矩形領域

拡大入力顔領域

入力顔特徴点

勾配ヒストグラムを算出(xm, dm)

符号化特徴ベクトルに変換vm

周辺情報を統合gm

領域毎に集計

重みマップ各座標における重みを定義

wm

機械学習機械学習

サポートベクターマシン

hi

矩形領域に分割 ぼかしフィルター

エッジ画像

顔特徴点の周辺から画像特徴を求め,それらを比較することで人物を認識している。顔特徴点が正確に検出できる場合には,個人の差異が表れやすい部位を厳密に比較することが可能となり,高い顔認識精度が得られる。しかし,照明条件や顔の向き,表情の変化が大きいテレビ映像においては,顔特徴点の検出位置に誤差が生じるため,認識精度が低下するという問題がある。そこで本技術では,顔特徴点が正確に検出できない場合でも精度の低下が抑えられる領域ベースの画像特徴を利用する。10図に本技術による顔認識処理の概要を示す。始めに,顔検出処理で検出された顔領域とそのエッジ画像*2を,重なりを持つ細かな矩

形けい

領域に分割し,各領域から勾配ヒストグラム*3を求める。エッジはSobelフィルター*4を用いて検出する。算出した勾配ヒストグラムを(1)式のように表す。

{(x1,d1),…,(xM,dM)}� (1)

ここでxmとdmは,それぞれm番目の矩形領域の中心座標と勾配ヒストグラムを表す。次に,勾配ヒストグラムdmを分類が容易となるよう

なスパース(疎)な特徴空間*5�へ変換する8)。変換後の画像特徴を符号化特徴ベクトルvmと置く。その後,それぞれの符号化特徴ベクトルvmについて,その周辺情報を統合する。vmの座標xmからk番目に近い矩形領域の座標をxm

(k),対応する符号化特徴ベクトルをvm(k)とした

とき,�周辺情報を統合した特徴ベクトルgmの算出式は(2)式のとおりである。

gm=max (vm+sk・vm(k) )

1≤k≤K  � (2)

ここで,maxは要素単位でベクトルの最大値を求める演算を表す。またskは,xmからの距離に基づく重みを表し,(3)式で定義する。

sk=exp{−σ×(xm−xm(k) )�2�}� (3)

その後,入力顔画像を重なりのあるN個の矩形領域に

*2輝度値が急激に変化する箇所を抽出した画像。

*3横軸にエッジの方向,縦軸にその方向を持つ画素の総数をとったヒストグラム(度数分布を表すグラフ)。

*4 x方向とy方向の輝度値の変化量に基づいてエッジの強度と方向を求める手法。

*5特徴ベクトルの要素の値が0となる軸が多く存在するような特徴空間。

9図 本技術で利用する決定木の模式図(顔か否かの判定と顔特徴点の座標の推定を1つの決定木で実行する)

10 図 顔認識処理の概要

27NHK技研 R&D/No.164/2017.8

Page 6: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

1 2 3 4

675

98

*6エッジにおける輝度値の変化量の値。

*7ラベル付きの学習データを用いて調整した識別器を使って,未知の入力データのラベルを推定する手法。

*8切れ目なく撮影された映像の区間。

*92つの領域間の,輝度値の総和の差分に基づいて顔を検出する手法。

*10畳み込みニューラルネットワークを利用して顔を検出する手法。

*11輝度の勾配情報とサポートベクターマシンを利用して顔を検出する手法。

*122点間の輝度値の差分と決定木を利用して顔を検出する手法。

分割し,領域ごとにgmを集計することで,各領域に対応する特徴ベクトルhi(i=1,…,�N)を求める。hiの算出式は(4)式で定義する。

hi= max (wm・ gm)m:xm∈ri � (4)

ここで,riは i番目(i=1,…,�N)の領域に含まれる画素の集合を表し,wmは重みを表す。wmは座標xmにおけるエッジ強度*6と,顔特徴点からの距離に基づいて定義する。具体的には,エッジ検出画像と顔特徴点の検出結果にぼかしフィルターを適用して生成した重みマップ(10図右下)を利用する。最後に,すべてのhiを連結して顔領域全体の画像特徴とする。以上の処理によって顔認識のための画像特徴を算出する。顔認識には,サポートベクターマシン*7による機械

学習を用いる。機械学習は,事前の学習処理と,認識処理の2つの処理から成る。学習処理においては,人物名のラベルが付与された顔画像を用いて,人物ごとに判定器を学習する。認識処理においては,学習済みの判定器を用いて,その人物らしさを表すスコアを求め,入力顔画像が誰であるかを決定する(1図)。

3.評価実験

本技術の有効性を検証するために,実際のテレビ映像を用いて評価実験を実施した。顔検出処理と顔認識処理のそれぞれについて実験結果を示す。

3.1 顔検出処理の評価顔検出処理の評価実験について述べる。顔検出のための判定器の学習には,NHK総合とEテレで放送された約2か月分のテレビ映像を利用した。映像の解像度は横縦が432×240画素である。各ショット*8�の冒頭から代表フレーム画像を取り出し,約20,000の顔領域を人手で抽

出した。また,抽出した顔領域に対して,11図に示すような9点の顔特徴点を人手で付与した。判定器のパラメーターは,予備実験の結果を考慮してT�=�5,S�=�700に設定した。また走査窓のサイズは,横縦20×20画素から開始し,1.1倍ずつ拡大した。評価実験には,NHK総合で放送された1日分のテレビ

映像を利用した。各ショットの冒頭から代表フレーム画像を抽出し,評価に利用した。比較手法として�Viola�&�Jones法9)*9�,Deep�CNN(Convolutional�Neural�Net-work)10)�*10�,Dlib11)�*11�,Joint�Cascade法12)*12を利用した。なお,Deep�CNNについてはYuが作成したプログラム13),Joint�Cascade法についてはZhangjieが作成したプログラム14)を利用した。評価指標には,(4)式に示す再現率と適合率を用いた。

再現率= 正検出数正解数 , �適合率= 正検出数検出数 � (5)

再現率は未検出の少なさを,適合率は誤検出の少なさを反映した評価指標である。いずれも値が大きいほど精度が高いことを表す。また,再現率と適合率はトレードオフの関係にある。実験結果を1表に示す。実験の結果,Viola�&�Jones法の再現率は55.9%,適合率は74.3%となった。未検出,誤検出が多く発生する結果となり,テレビ映像への適用が難しいことが分かった。顔の向き,表情などの変動や,背景領域の複雑性などが精度低下を招いたものと考えられる。Deep�CNNは再現率が62.2%となりViola�&�Jones法

11 図 顔特徴点の位置

手法 再現率 適合率

Viola&Jones9) 55.9% 74.3%

DeepCNN10) 62.2% 32.4%

Dlib11) 70.1% 82.4%

JointCascade12) 80.8% 95.1%

本技術 83.2% 97.2%

1表 顔検出処理の評価結果

 

28 NHK技研 R&D/No.164/2017.8

Page 7: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

研究発表 ■1

よりも高い結果となった。しかし,適合率については32.4%まで低下した。Dlibについては,再現率70.1%,適合率82.4%という良好な結果が得られた。Dlibは広く利用されているライブラリーであり,その汎用性能の高さが確認できた。しかし,再現率,適合率ともにまだ改善の余地が残る結果となった。Joint�Cascade法は,再現率が80.8%,適合率が95.1%という結果となった。Dlibに比べ,再現率,適合率が10%以上向上する結果となった。最後に本技術については,再現率83.2%,適合率97.2%となった。再現率,適合率ともにすべての手法の中で最も高い結果となった。目や鼻などの顔特徴点の位置を考慮した画像特徴が精度向上に貢献したものと考えられる。しかし,顔の傾きが大きい場合や,サングラスやマスクによる隠蔽がある場合は未検出が発生し,再現率については課題が残る結果となった。今後は,学習方式の改良や,傾きや隠蔽に頑健な画像特徴の検討が必要と考えられる。

3.2 顔認識処理の評価顔認識処理の評価実験について述べる。実験には,「連続テレビ小説�あまちゃん」の全156話(1話あたり15分)を使用した。各ショットの冒頭から代表フレーム画像を取り出し,顔領域を検出した。ショットの総数は41,269であり,検出された顔領域数は12,566であった。検出された顔領域から約10%に当たる1,300を無作為に抽出して学習データとし,残りを評価に用いた。出演俳優の中から登場回数がある程度多い17名を顔認識の対象とした。パラメーターについては,予備実験の結果を考慮してK�=�20,N�=�21とした。比較手法として,Clippingdale 6)�*13�,Turk15)*14�,Belhumeur16)�*15�,Ahonen17)�*16�の4手法を用いた。評価指標には,検索結果の上位n件(その人物らしさを表

すスコアが高い順にn件)の平均適合率AP (n)を用いた。

AP(n )=Σn

i=l δi・P (i)

Σn

i=l δi

 ,P(n )=Σn

i=l δi

n� (6)

ここで,δi は検索結果の第i位の結果が正解なら1,不正解なら0を表すものとする。平均適合率は,誤りの少なさを表す指標であり,検索結果の上位に正解が集中するほど高い値となる。

2表に実験結果を示す。実験の結果,本技術の平均適合率の平均(顔認識の対象とした17名の平均)は,上位50件が98.2%,上位100件が96.6%,上位300件が90.3%,上位500件が87.6%となった。実験映像には照明条件や顔の向き,表情の大きな変化が含まれていたが,非常に良好な結果を得ることができた。特に,上位50件の平均適合率については,17名中14名の俳優が100%という結果となった。他手法との比較においても,本技術が最も高い結果となった。本技術に次ぐ精度となったのはAhonenであった。上位50件の精度は80.5%であった。本技術と比較して約18%の精度低下となり,既存手法をテレビ映像にそのまま適用しても,十分な精度を得ることが難しいことが確認された。続いて,Turkが72.7%,Clippingdaleが65.9%という結果となり,最も低い結果となったのはBelhumeurの29.3%であった。いずれの既存手法も,テレビ映像における画像変動への頑健性が不足し,精度低下につながったものと考えられる。

4.おわりに

本研究発表では,テレビ映像に映る人物が誰であるかを判別するための顔認識技術を紹介した。テレビ映像における照明条件や顔の向き,表情の変動に対応するために,本技術では目鼻や口などの顔特徴点の位置を考慮した画像特徴を利用して顔を検出した。また,細かな領域から求めた画像特徴を段階的に統合していくことで,顔認識に対する変動の影響を軽減した。テレビ映像を用いた実験によって,既存技術に比べ精度が向上することを

手法上位n件の平均適合率の平均

50件 100件 300件 500件

Clippingdale6) 65.9% 56.3% 44.8% 39.4%

Turk15) 72.7% 61.5% 48.4% 40.3%

Belhumeur16) 29.3% 26.2% 23.5% 22.2%

Ahonen17) 80.5% 71.7% 57.8% 51.7%

本技術 98.2% 96.6% 90.3% 87.6%

2表 顔認識処理の評価結果

 

*13ガボール特徴(人間の視覚処理に近いガボールフィルターを用いて算出した画像特徴)を利用して顔認識する手法。

*14主成分分析(主要な成分を抽出する手法の1つ)を利用して顔認識する手法。

*15線形判別分析(データのラベルを推定する手法の1つ)を利用して顔認識する手法。

*16ローカルバイナリパターン特徴を利用して顔認識する手法。ローカルバイナリパターンは,着目する画素とその周辺画素との画素値の大小関係を反映した特徴。

29NHK技研 R&D/No.164/2017.8

Page 8: テレビ映像における顔認識技術 - NHK · 2017. 8. 16. · 研究発表 1 テレビ映像における顔認識技術 河合吉彦 ネットサービス基盤研究部 Face

研究発表 ■1

河か わ い

合 吉よし

彦ひこ

2001年入局。放送技術局を経て,2005年から放送技術研究所において,マルチメディア処理の研究に従事。現在,放送技術研究所ネットサービス基盤研究部上級研究員。博士(工学)。

参考文献

1) 望月, 河合, 佐野, 住吉, 岩崎, 新井, 竹口, 杉森:“画像解析によるアーカイブス検索の試験運用とユーザ評価,”FIT2015,No.3,I-041,pp.303-304(2015)

2) 今岡:“NEC の顔認証技術と応用事例,”情処技報,CVIM,Vol.38,pp.1-4(2013)

3) X. Cao, Y. Wei, F. Wen and J. Sun:“Face Alignment by Explicit Shape Regression,”Proc. CVPR(2012)

4) L. Breiman:“Random Forests,”Machine Learning,Vol.45,pp.5-32(2001)

5) S. Ren, X. Cao, Y. Wei and J. Sun:“Face Alignment at 3000 fps via Regressing Local Binary Features,”Proc. CVPR(2014)

6) S. Clippingdale and M. Fujii:“Video Face Tracking and Recognition with Skin Region Extraction and Deformable Template Matching,”Int. J. of Multimedia Data Engineering and Management,Vol.3,No.1,pp.36-48(2012)

7) M. Everingham, J. Sivic and A. Zisserman:“Hello! My name is... Buffy - Automatic Naming of Characters in TV Video,”Proc. The British Machine Vision Conference(2006)

8) J. Wang, J. Yang, K. Yu, F. Lv, T. Huang and Y. Gong:“Locality-constrained Linear Coding for Image Classification,”Proc. IEEE CVPR,pp.3360-3367(2010)

9) P. Viola and M. Jones:“Rapid Object Detection Using a Boosted Cascade of Simple Features,”Proc. CVPR(2001)

10) H. Li, X. Shen, J. Brandt and G. Hua:“Convolutional Neural Network Cascade for Face Detection,”Proc. CVPR,pp.5325-5334(2015)

11) D. E. King:“Dlib-ml: A Machine Learning Toolkit,”J. of Machine Learning Research,Vol.10,pp.1755-1758, http://dlib.net/(2009)

12) D. Chen, S. Ren, Y. Wei, X. Cao and J. Sun:“Joint Cascade Face Detection and Alignment,”Proc. ECCV(2014)

13) A. Yu, https://github.com/anson0910/CNN_face_detection

14) Zhangjie, https://github.com/luoyetx/JDA

15) M. Turk and A. Pentland:“Eigenfaces for Recognition,”J. of Cognitive Neuroscience,Vol.3,No.1,pp.71-86(1991)

16) P. N. Belhumeur, J. P. Hespanha and D. J. Kriegman:“Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection,”IEEE Trans. on PAMI,Vol.19,No.7,pp.711-720(1997)

17) T. Ahonen, A. Hadid and M. Pietikainen:“Face Description with Local Binary Patterns: Application to Face Recognition,”IEEE Trans. on PAMI,Vol.28,No.12,pp.2037-2041(2006)

確認した。今後は,顔の向きや表情変化への頑健性をさらに向上

させるとともに,マスクやサングラスによる隠蔽への対応

を検討したい。また,アーカイブス映像へのメタデータの自動付与など,実用化に向けた検討も進めていきたい。

30 NHK技研 R&D/No.164/2017.8