transfer forest(prmu jun 2014)

共変量シフトに基づくTransfer Forest

!

共変量シフトに基づくTransfer Forest !!

PRMU研究会 2014年6月20日 !

土屋成光*，弓場竜**，山内悠嗣***，山下隆義***，藤吉弘亘***

*（株）セキュア，**（株）日立，***中部大学

1

共変量シフトに基づくTransfer Forest背景

Random Forest

•Random Forest[Breiman, ML, 2001] - ランダムに作成した木構造識別器の集合 •大量の木（＝Forest）による高精度な識別が可能 •木々のランダム性により汎化性能向上

2

サブセット決定木

学習サンプルRandom Forest


Random Forest Series

•様々な問題に対応[Criminisi et. al., 2012] - 識別 - Classification Forest - 回帰 - Regression Forest - 密度推定 - Density Forest - 多様体学習 - Manifold learning Forest - 半教師あり学習 - Semi-Supervised learning Forest !

•利用分野 - セグメンテーション[Shotton et. al., CVPR2008] - 姿勢推定[Shotton et. al., CVPR2011] - 医用画像処理[Margeta et. al., MICCAI Work. on SACMH2013]

3


統計的学習手法の抱える問題

•識別性能が学習サンプルに依存 - 高コストな，大量の学習サンプル収集が必要 - 学習サンプル≠実際の識別対象

4

Random Forestもこの問題からは逃れられない

INRIA評価画像特定シーン画像未検出

再学習：特定シーンにおいてサンプルを再収集し識別器構築サンプル収集コストは非常に大


転移学習

•異なるシーン（目的ドメイン）に対する統計的学習の効率化 - 事前に収集した学習サンプルやその学習結果（事前ドメイン）を利用 •TrAdaBoost[Dai et. al., ICML, 2007] •Confidence-Encoded SVM[Wang et. al., CVPR, 2012] !!

!

- 目標ドメインと事前ドメインの分布の違いをどう捉えるかが重要 •多次元で分布の差を捉えることは困難

5

仮定：識別が困難な事前ドメインサンプルは関連性が薄い

共変量シフト適応


共変量シフトによる転移学習

•CovBoost[Pang et. al., IP, 2011] - Boostingに共変量シフトによる転移学習を導入 - 共変量損失により事前データを重み付け •有効な事前学習サンプルのみを学習に利用

- 共変量損失は識別器の出力より簡便に算出可能

6

事前ドメインの強識別器

目標ドメインの強識別器

一にして大量のサンプルを得ることができるため，位置ずれがない良質な学習サンプルを準備することができる．しかし，学習サンプルを収集した環境と人検出システムが稼働するシーンが異なる場合，人の見え方が異なるため人検出性能が低下するという問題がある．例えば，カメラの俯角が異なれば同一人物であっても縦横比や部位ごとの比率など，大きく見えが変化する．この問題を解決するためには，システムが稼働する環境から人画像を収集し，識別器を再学習する必要がある．しかしながら，シーン毎に人検出器を学習するためのデータセットを作成し，学習することは大きな労働力と多大な時間を必要とする．このような問題を解決するアプローチが転移学習の利用である．転移学習は異なるバリエーションについて学習する際のサンプル収集を省力化する手法として提案されており，この手法では多数の標準的なサンプルで事前学習を行い，得られた識別器を少数の目的サンプルに適合するよう転移させることで省力化を実現している [9]．しかし，シーンの間に大きな差がある事前学習から目標学習へ転移する際，再学習に比べ大きく性能が低下する．　そこで我々は，転移により得られる特徴量と，再学習と同様の全特徴探索の 2つの特徴空間を用意し，定義する学習効率に基づいて特徴空間を選択的に切り替えるハイブリッド型転移学習を提案する．これにより，転移学習では対応困難な大きな隔たりがあるシーン間であっても高精度に，且つ再学習するより高速な識別器の構築が可能となる．

2. 共変量シフトによる転移学習転移学習とは機械学習の分野で利用される学習手法の一つで

ある．転移学習という言葉には様々な解釈があるが，機械学習の分野においては NIPS 2005 workshop - inductive transfer:

10 years later [6]の論文募集要項で定義された，「新規タスクの効果的な仮説を効率的に見つけ出すために，一つ以上の別のタスクで学習された知識を得て，それを適用する問題」と定義されている．転移学習を用いた研究は近年になって増えており，SOINN [8]や TRAdaBoost [7]，CovBoost [9]などの論文が報告されている．本研究では，共変量シフトに基づく転移学習をBoostingに導入した Covariate-shift Boost（CovBoost）を転移学習を用いる．

2. 1 Covariate-shift Boost(CovBoost)

Covariate-shift Boost(CovBoost) とは，事前学習によって取得した弱識別器の情報と，学習に用いた学習サンプルを再学習に用いることで，新たなシーンにおける学習サンプルが少量でも大量の学習サンプルを用いた時と変わらない検出精度を保持する Boosting手法である．標準的な学習サンプルと検出対象である特定シーンの学習サンプルとに俯角変化がある場合の省力化として Pangらにより提案され，半教師型オンライン学習などにも展開されている [9], [10]．Boosting手法は一般的に式 (1)に示す損失関数を最小化する強識別器 H(x)を求めることが目標となる．ここで，Ωは学習サンプルの総数を示す．また，ここで，xと yはそれぞれ学習サンプルの特徴量 xとそのクラスラベル y を示す．

L =!

Ω

e−yH(x) (1)

CovBoostでは入力するサンプルが事前学習で用いた学習サンプル (事前ドメイン)と再学習に用いる学習サンプル（目標ドメイン）が存在する．ここで，特徴量により観測される事前ドメインの確率密度分布 pa(x)は，一般的に目標ドメインの確率密度分布 pt(x)と異なる分布を持つ．すなわち，pa(y|x) |= pt(y|x)

であると考えられる．そこで， pt(y|x)pa(y|x) で事前ドメインのサンプ

ルに重みを与えることで目標ドメインの学習に有効なサンプルを取捨選択する．ここで pt(y|x)

pa(y|x) は共変量と呼ばれ，この値により事前ドメインのサンプルを目標ドメインに挿入することを共変量シフトによる転移学習とよぶ．また，共変量 pt(y|x)

pa(y|x) は記号 λj で表す．共変量シフトを用いた転移学習の目的関数を式 (2)に示す．ここで，(xi, yi) ∈ Tt と (xj , yj) ∈ Ta はそれぞれ目標ドメインと事前ドメインの学習サンプルの特徴量 xとそのクラスラベル y を示す．

L =!

(xi,yi)∈Tt

e−yiHt(xi) +!

(xj ,yj)∈Ta

λje−yjHt(xj) (2)

また，ベイズ推定を用いることで，λは次のように変形することができる．

λ =pt(x, y)

pa(x, y)

=p(x, y|t)p(x, y|a)

=p(t|x, y)p(x, y)

p(t)1

p(a|x,y)p(x,y)p(a)

=p(t|x, y)p(a)

p(a|x, y)p(t)(3)

p(a) = p(t)と仮定すると式 (3)は，目標ドメインの条件付き確率と事前ドメインの条件付き確率の比となる．ここで，条件付き確率を次式のようなロジスティック関数に変形する．

p(t|x, y) =1

1 + eyHt(x)(4)

p(a|x, y) =1

1 + eyHa(x)(5)

ここでHa(x)とは，事前学習によって構築された強識別器を示し，Ht は事前ドメインと目標ドメインの両方を使って学習された強識別器を示す．この式 (4)と式 (5)から λは式 (6)のように変形できる．

λ =1 + e−yHa(x)

1 + e−yHt(x)(6)

λは事前ドメインのサンプルが目標ドメインにどれだけ適合しているかを識別器Ha，Ht により表現し，目標ドメインに適合しているほど大きな値となる．

2. 2 CovBoostの問題点Pang等は，視点等の異なる環境において，新規に採集する

学習サンプルを 3分の 1に削減しても CovBoostにより識別器を転移することで，同等の性能を実現した．しかし，カメラの俯角が大きく変化する場合，図 1に示すように俯角の変化につ

— 2 —

目標識別器の出力=事前識別器の出力の場合：λ=1 目標ドメインへの適応性を示す多変量の密度推定をしなくてよい

共変量シフトに基づくTransfer Forest目的

本研究の目的：Random Forestへの転移学習の導入

•Random Forest - ランダムに作成した木構造識別器の集合 •大量のTree（＝Forest）により高精度な識別が可能 •マルチクラス識別器であり，非常に応用範囲が広い

7

異なる環境で利用する場合，大量に学習サンプルを再収集することが必要

共変量シフトに基づくTransfer Forest目的

本研究の目的：Random Forestへの転移学習の導入

•Random Forest - ランダムに作成した木構造識別器の集合 •大量のTree（＝Forest）により高精度な識別が可能 •マルチクラス識別器であり，非常に応用範囲が広い

!

!•転移学習(Transfer Learning) - 分布の異なる複数ドメインに対する学習法 •サンプル取得の低コスト化 ‒大量な事前ドメインと少数の目的ドメイン

•共変量シフトによる転移学習を導入

8

異なる環境で利用する場合，大量に学習サンプルを再収集することが必要

Transfer Forest

共変量シフトに基づくTransfer ForestTransfer Forest

Transfer Forest：転移学習を導入したRandom Forest

•事前ドメインから事前RFを学習済み 1. 事前ドメイン，目標ドメインからサブセットを作成 2. 共変量を用いて事前ドメインに重み付け 3. 目標RFを学習

9

事前ドメイン

目標ドメイン

…

事前RF

サブセット


Transfer Forest：転移学習を導入したRandom Forest

•事前ドメインから事前RFを学習済み 1. 事前ドメイン，目標ドメインからサブセットを作成 2. 共変量を用いて事前ドメインに重み付け 3. 目標RFを学習

10

…

共変量

事前ドメイン

目標ドメイン

事前RF

サブセット重み付きサブセット

…

目標RF


複数ドメインからのサブセット作成

•目標+事前ドメインからランダムにサブセット作成

11

事前ドメイン

目標ドメイン

n サンプルサブセット決定木

事前ドメインだけを学習する木が発生


複数ドメインからのサブセット作成

•目標+事前ドメインからランダムにサブセット作成 !

!

!

!

!!•目標・事前ドメインから同数となるようにサブセット作成

12

事前ドメインだけを学習する木が発生

目標ドメインを必ず含むサブセットで学習

事前ドメイン

目標ドメイン

n/2

n/2


事前ドメイン

目標ドメイン

n サンプルサブセット決定木


共変量シフトによる転移学習

•事前ドメインのサンプルに対しλで重み付け

13

事前ドメイン

目標ドメイン

事前ドメイン

目標ドメイン


事前ドメイン

目標ドメイン

事前RF…

λは初期値1から逐次変化　初期状態：　　λが一律　学習が進行：　　不要なデータをスポイル

学習後半部を識別に使用

…

事前学習されたRFの出力

学習中のTFの出力


共変量損失λの働き（例：俯角の異なる人画像）

14

共変量損失λ

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0

決定木の学習

…

事前ドメイン

目標ドメイン

事前Random Forest

Transfer Forest



λの算出



15

0.9 0.6 0.8 0.9 0.7 0.9 0.6 0.8 0.7

…

事前ドメイン

目標ドメイン

事前Random Forest

Transfer Forest



λの算出

共変量損失λ

決定木の学習



16

0.7 0.2 0.9 0.9 0.5 0.9 0.3 0.6 0.6

…

事前ドメイン

目標ドメイン

事前Random Forest

Transfer Forest



λの算出

共変量損失λ

決定木の学習



17

0.8 0.1 0.9 0.9 0.4 0.9 0.1 0.7 0.5

…

事前ドメイン

目標ドメイン

事前Random Forest

Transfer Forest



λの算出

共変量損失λ

決定木の学習

…


共変量損失を考慮した決定木の学習

•分岐関数選択 - ランダムに選択された特徴候補から，情報利得を最大にするよう選択

18

事前ドメインに重みを付けて確率を算出

情報利得エントロピー

クラス確率：ラベル k の目標サンプルの数

：ラベル k のλの総和事前ドメイン

Random Forestと同様

共変量シフトに基づくTransfer ForestTransfer Forestの評価

評価実験

•人検出に関する2種類の評価実験 - 実験1：異なるデータベース間の転移学習 - 実験2：マルチクラス問題での転移学習

19


実験1：異なるデータベース間の転移学習評価実験

•事前ドメイン：Daimler Pedestrian Classification Benchmark •ポジティブサンプル：15,600枚 •ネガティブサンプル：背景画像6,700枚 !

!

!

•目標ドメイン：INRIA Person Dataset •ポジティブサンプル：2,416枚 •ネガティブサンプル：背景画像1,218枚

20



•比較手法 - 目標ドメイン＋事前ドメインを学習 - 目標ドメインのみを学習 - 提案手法：目標ドメイン＋重み付き事前ドメインを学習

21

決定木の数 50

決定木の最大深さ 5

特徴数（HOG特徴量） 3780特徴選択回数 63（≒√3780）

学習のパラメータ



22

目標サンプル 2,416枚

目標サンプル 800枚

目標サンプル 100枚

提案手法 86.9 88.9 86.4

目標ドメインのみ 87.4 84.6 58.7

目標+事前ドメイン 84.4 84.9 77.5

誤検出5%時の検出率 [%]

サンプル数が多いときは同等サンプル数が少ないとき提案手法は80%を維持


サンプル数に対する識別性能の変化

23

学習サンプル削減数

検出率（誤検出率5%時）

目標ドメインのみ提案手法

1400枚削減

目標ドメインの学習サンプル不足を補填

学習サンプルが不足


実験2：マルチクラス問題での転移学習

•CGで生成した人画像の向きをマルチクラスとした識別問題

24

右向き左向き正面／背面

事前ドメイン 2,416枚俯角20度

目標ドメイン 2,416枚俯角30度


実験2：マルチクラス問題での転移学習

25

均勾配画像がぼやけていることがわかる．

入力特徴量は HOG特徴量とする．Random Forest構築の際のパラメータは 7.1と同様である．

7.4.4 マルチクラス分類問題への転移学習の導入による効率化目標ドメインのポジティブ学習サンプルを 2,416枚，800枚，100枚と削減した際の，各カテゴリ

に対する識別性能を，それぞれ表 7.2，表 7.3，表 7.4に示す．表 7.2より，目標ドメインの学習サン

表 7.2: マルチクラス問題に対する転移学習結果（2,416枚）．正面／背面 [%] 右向き [%] 左向き [%] 背景 [%] 平均 [%]

提案手法 55.8 91.0 88.1 97.1 83.0

目標ドメインのみ 60.0 90.8 88.7 98.5 84.5

事前ドメイン＋目標ドメイン 53.5 87.6 84.6 98.8 81.1

表 7.3: マルチクラス問題に対する転移学習結果（800枚）．正面／背面 [%] 右向き [%] 左向き [%] 背景 [%] 平均 [%]

提案手法 55.0 77.5 73.7 98.9 76.3

目標ドメインのみ 60.4 81.5 77.8 98.8 79.6

事前ドメイン＋目標ドメイン 42.9 77.8 73.2 94.6 72.1


提案手法 44.4 70.9 71.9 98.8 71.5

目標ドメインのみ 47.6 28.8 43.7 98.9 54.8

事前ドメイン＋目標ドメイン 36.1 65.3 67.1 94.7 65.8

プルを 2,416枚全て使用した場合，提案手法と目標ドメインのみ，目標ドメイン＋事前ドメインは3手法ともほぼ同程度の平均性能となることがわかる．正面／背面の精度が 60%程度であることや，右向き，左向きがそれぞれ 90%程度の精度で識別可能であることなどクラス毎の識別率の傾向も 3

手法で共通である．次に，800枚に学習サンプルを削減した場合，表 7.3より，各手法とも精度が低下しており，サン

プル数が不足していることがわかる．特に，事前ドメイン＋目標ドメインは 9%と大きく性能を低下させている．これは，マルチクラス問題において俯角が異なると，事前ドメインと目標ドメインの差が大きくなり，適応できない事前ドメインサンプルが多く発生しているためであると考えられる．提案手法は転移学習により，適応できない事前ドメインサンプルを学習に用いないことで，事前ド

104






提案手法 55.8 91.0 88.1 97.1 83.0

目標ドメインのみ 60.0 90.8 88.7 98.5 84.5

事前ドメイン＋目標ドメイン 53.5 87.6 84.6 98.8 81.1


提案手法 55.0 77.5 73.7 98.9 76.3

目標ドメインのみ 60.4 81.5 77.8 98.8 79.6

事前ドメイン＋目標ドメイン 42.9 77.8 73.2 94.6 72.1


提案手法 44.4 70.9 71.9 98.8 71.5

目標ドメインのみ 47.6 28.8 43.7 98.9 54.8

事前ドメイン＋目標ドメイン 36.1 65.3 67.1 94.7 65.8




104






提案手法 55.8 91.0 88.1 97.1 83.0

目標ドメインのみ 60.0 90.8 88.7 98.5 84.5

事前ドメイン＋目標ドメイン 53.5 87.6 84.6 98.8 81.1


提案手法 55.0 77.5 73.7 98.9 76.3

目標ドメインのみ 60.4 81.5 77.8 98.8 79.6

事前ドメイン＋目標ドメイン 42.9 77.8 73.2 94.6 72.1


提案手法 44.4 70.9 71.9 98.8 71.5

目標ドメインのみ 47.6 28.8 43.7 98.9 54.8

事前ドメイン＋目標ドメイン 36.1 65.3 67.1 94.7 65.8




104

目標ドメイン：800枚

目標ドメイン：100枚

目標ドメイン：2,416枚

共変量シフトに基づくTransfer Forest

まとめ

•Transfer Forest：RFに共変量シフトによる転移学習を導入 - より少数の目標ドメインサンプルで性能を維持 •人検出問題 ‒従来法で28%性能が低下するケースにおいて0.4%の性能低下

•人向き分類問題 ‒従来法で29%性能が低下するケースにおいて12%の性能低下

•サンプル収集の効率化が可能

•今後の予定 - 事前学習した識別器の再利用 - 事前学習した木構造を共変量損失の算出にしか使用していない - 木構造の部分的な再利用により学習の高速化

- Classification Forest以外のRandom Forestでの検証26


27


Random Forestへの転移学習の導入による効率化転移学習を導入したRFの評価

学習時間の比較

•目標RF構築に必要な時間を計測 - 事前ドメイン：Daimler Pedestrian Classification Benchmark - 目標ドメイン：INRIA Person Dataset

28

目標サンプル数[枚] 事前サンプル数[枚] 学習時間[min]提案手法 2,416+12,180 15,600+67,000 2.3

目標ドメインのみ 2,416+12,180 0 1.2目標+事前ドメイン 2,416+12,180 15,600+67,000 1.2

サブセットのサンプル復元数に依存提案手法はn本のRFのために2n本構築


共変量損失評価値λの過渡的性質

•λは一律の初期値から逐次最適化 - 学習序盤はドメイン間の差を正確に評価していない - T=100で構築したForestの前半部と後半部を比較

29

transfer forest(prmu jun 2014)

Technology