random forestを用いた能動学習による有効なサンプル選択

1
Random Forest を用いた能動学習における有効なサンプル選択 村田 隆英,三品 陽平,山内 悠嗣,山下 隆義, 藤吉 弘亘 ( 中部大学 ) スパイラルデータによる評価実験 ラベル無しサンプルに最も距離が近いラベル付きサンプルの ラベルを伝播 ランダム性により各木の推定した密度分布にばらつきが発生 Step2:ラベル伝播 測地線距離の算出 局所距離(マハラノビス距離)の算出 伝播するラベル 測地線距離 ラベル無しサンプル集合 局所距離 真のラベル付きサンプルまでの距離 ラベル無しサンプルが到達した末端ノードのマハラノビス距離 ラベル付きサンプルが到達した末端ノードのマハラノビス距離 密度分布の類似度の算出 Step3:曖昧さと密度分布の類似度によるサンプル選択 各木の推定した密度分布を基にラベル伝播 サンプルが到達した各木の末端ノードの密度分布 シャノンの情報量 密度分布の類似度を考慮したサンプル選択 Step4: ラベルの再伝播によるクラス分布の更新 各木の末端ノードにクラス分布を作成 選択されたサンプルにラベルを付与 ラベルを付与したサンプルを含めてラベルの再伝播,クラス分布の更新 密度木の再構築は行わず,Step2,3を繰り返す 考察 類似したサンプルの選択を抑制することで ラベル伝播精度が向上し,結果として識別精度も向上 識別結果 従来法にLeast confident, Margin Sampling, Entropy, Vote Entropyを用いた場合 提案手法では識別境界が効率よく変化 2回目のラベル追加で識別精度99.0% Vote Entropyと提案手法の選択されたサンプルと識別境界の比較 本研究の目的 類似したサンプルを選択してしまう 問題点 曖昧さの高い順にサンプルを選択 Uncertainty Sampling[Lewis and Gale, 1994] 能動学習における従来のサンプル選択法 -Least confident, Margin Sampling, Entropy Query-By-Committee[H. Seung, M.Opper, 1992] サンプルの曖昧さが高いサンプルを選択 -Vote Entropy サンプルの分布を考慮していない 能動学習 識別境界の決定に有効であろうサンプルの選択 ラベル付けに対する人的コストの削減 識別率 ラベルの追加回数 Vote Entropy(1個追加) Vote Entropy(2個追加) 提案手法+Vote Entropy 識別率 ラベルの追加回数 Entropy(1個追加) Entropy(2個追加) 提案手法+Entropy 識別率 ラベルの追加回数 Margin Sampling(1個追加) Margin Sampling(2個追加) 提案手法+Margin Sampling 識別率 ラベルの追加回数 Least Confident(1個追加) Least Confident(2個追加) 提案手法+Least Confident 各木の密度分布のばらつき 入力サンプル Tree1 Tree2 TreeT x 1 x 2 Step1:Density Forest による密度推定 -ランダム性の導入による高速な学習 -複数の木の平均による非線形表現 提案手法:密度分布の類似度を考慮したサンプル選択 密度分布の類似度を用いて類似したサンプル選択の抑制 親ノードの正規分布のエントロピー 子ノードの正規分布のエントロピー 木の本数 サンプルが到達した末端ノードの密度分布 -木構造による領域分割 Density Forest -Random Forestを密度推定に利用 -局所距離の組み合わせで表現 Density Forest による密度推定 分岐ノード 末端ノード 最大で2回のラベル追加回数を削減 入力データ 識別境界(44.4%) 識別境界(66.2%) 入力データ(追加後) Vote Entropy 従来の能動学習におけるサンプル選択法の問題点 + 類似度が しきい値以上 類似度が しきい値以下 それぞれから 曖昧さの高い サンプルを選択 提案手法でのサンプル選択方法 Vote Entropy 密度分布の類似度 選択されるサンプルによるラベル伝播の変化 能動学習の効率が低下 今後の予定 大規模,高次元のデータセットに提案手法を適用

Upload: mprgchubuuniversity

Post on 28-May-2015

401 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Random Forestを用いた能動学習による有効なサンプル選択

Random Forest を用いた能動学習における有効なサンプル選択村田 隆英,三品 陽平,山内 悠嗣,山下 隆義,藤吉 弘亘 (中部大学)

スパイラルデータによる評価実験ラベル無しサンプルに最も距離が近いラベル付きサンプルのラベルを伝播

ランダム性により各木の推定した密度分布にばらつきが発生

Step2:ラベル伝播

測地線距離の算出

局所距離(マハラノビス距離)の算出

伝播するラベル 測地線距離 ラベル無しサンプル集合

局所距離 真のラベル付きサンプルまでの距離

ラベル無しサンプルが到達した末端ノードのマハラノビス距離

ラベル付きサンプルが到達した末端ノードのマハラノビス距離

密度分布の類似度の算出Step3:曖昧さと密度分布の類似度によるサンプル選択

各木の推定した密度分布を基にラベル伝播

サンプルが到達した各木の末端ノードの密度分布 シャノンの情報量

密度分布の類似度を考慮したサンプル選択

Step4: ラベルの再伝播によるクラス分布の更新

各木の末端ノードにクラス分布を作成

選択されたサンプルにラベルを付与ラベルを付与したサンプルを含めてラベルの再伝播,クラス分布の更新

密度木の再構築は行わず,Step2,3を繰り返す

考察

類似したサンプルの選択を抑制することでラベル伝播精度が向上し,結果として識別精度も向上

識別結果従来法にLeast confident, Margin Sampling, Entropy,Vote Entropyを用いた場合

提案手法では識別境界が効率よく変化2回目のラベル追加で識別精度99.0%

Vote Entropyと提案手法の選択されたサンプルと識別境界の比較

本研究の目的

類似したサンプルを選択してしまう

問題点曖昧さの高い順にサンプルを選択

Uncertainty Sampling[Lewis and Gale, 1994]能動学習における従来のサンプル選択法

-Least confident, Margin Sampling, EntropyQuery-By-Committee[H. Seung, M.Opper, 1992]

サンプルの曖昧さが高いサンプルを選択-Vote Entropy

サンプルの分布を考慮していない

能動学習識別境界の決定に有効であろうサンプルの選択

ラベル付けに対する人的コストの削減

識別率

ラベルの追加回数

Vote Entropy(1個追加) Vote Entropy(2個追加) 提案手法+Vote Entropy

識別率

ラベルの追加回数

Entropy(1個追加) Entropy(2個追加) 提案手法+Entropy

識別率

ラベルの追加回数

Margin Sampling(1個追加) Margin Sampling(2個追加) 提案手法+Margin Sampling

識別率

ラベルの追加回数

Least Confident(1個追加) Least Confident(2個追加) 提案手法+Least Confident

密度分布の類似度各木の密度分布のばらつき入力サンプル

Tree1 Tree2 TreeTx1

x2

類似度

Step1:Density Forest による密度推定

-ランダム性の導入による高速な学習-複数の木の平均による非線形表現

提案手法:密度分布の類似度を考慮したサンプル選択密度分布の類似度を用いて類似したサンプル選択の抑制

親ノードの正規分布のエントロピー 子ノードの正規分布のエントロピー

木の本数 サンプルが到達した末端ノードの密度分布

-木構造による領域分割

Density Forest-Random Forestを密度推定に利用

-局所距離の組み合わせで表現

Density Forest による密度推定

分岐ノード末端ノード

最大で2回のラベル追加回数を削減

入力データ 識別境界(44.4%) 識別境界(66.2%)入力データ(追加後)Vote Entropy

従来の能動学習におけるサンプル選択法の問題点

類似度

曖昧さ

+

曖昧さ

曖昧さ

類似度がしきい値以上

類似度がしきい値以下

それぞれから曖昧さの高いサンプルを選択

提案手法でのサンプル選択方法

Vote Entropy

密度分布の類似度

選択されるサンプルによるラベル伝播の変化

能動学習の効率が低下

今後の予定大規模,高次元のデータセットに提案手法を適用