logistic regression in rare events data

38
Logistic Regression in Rare Events Logistic Regression in Rare Events Logistic Regression in Rare Events Logistic Regression in Rare Events Data Data Data Data Gary King,Harvard University Langche Zeng,George Washington University (Oxford Journals February 16, 2001) @shima_x

Upload: -shima

Post on 20-Jun-2015

628 views

Category:

Education


7 download

TRANSCRIPT

Page 1: logistic regression in rare events data

Logistic Regression in Rare Events Logistic Regression in Rare Events Logistic Regression in Rare Events Logistic Regression in Rare Events DataDataDataData

Gary King,Harvard UniversityLangche Zeng,George Washington University

(Oxford Journals February 16, 2001)

@shima_x

Page 2: logistic regression in rare events data

概要 - 何千倍もある不均衡率のデータを使った学習による過小評価の改善を行う - サンプリングによって調整する手法と出力値の補正によって調整によって行う手法の2222つを提案している

Page 3: logistic regression in rare events data

貢献 - 不均衡データによるバイアスを緩和する手法の提案 - 本稿の手法において

   解析的な根拠とモンテカルロシミュレーションによる実験的根拠を示した

Page 4: logistic regression in rare events data

ロジスティック回帰◆ ベルヌーイ分布の定義 - ロジスティックも基本{0,1}{0,1}{0,1}{0,1}

Page 5: logistic regression in rare events data

ロジスティック回帰◆ パラメタβが与えられた場合の条件付き確率

Page 6: logistic regression in rare events data

サンプリングバイアス

◆ Prior correctionPrior correctionPrior correctionPrior correction - 事前情報を使ってバイアスを補正する

選択されたサンプル集合の一部についての事前情報(センサスデータから取得)

ランダムに選択された横断データ

Page 7: logistic regression in rare events data

サンプリングバイアス◆ WeightingWeightingWeightingWeighting - バイアスを減らすようにサンプルを重みづけする手法 - 以下の重み付き対数尤度の最大化を行う

Page 8: logistic regression in rare events data

推定バイアス◆ 推定パラメタのバイアス

◆ 近似的にバイアスを除去したパラメタ

Page 9: logistic regression in rare events data

推定バイアス◆ 式展開(重要な部分だけ) -対数尤度の2222階偏微分しフィッシャー情報行列を算出

ここでラベルによる場合分けを除外し表現を統一

Page 10: logistic regression in rare events data

推定バイアス◆ 式展開(重要な部分だけ) - 対数尤度の2222階偏微分しフィッシャー情報行列を算出

Page 11: logistic regression in rare events data

推定バイアス◆ パラメタ推定値のバイアスの期待値

0.50.50.50.5未満であればレアイベントと判断

Page 12: logistic regression in rare events data

バイアスを考慮した確率推定◆ 推定 - tildtildtildtildβであればバイアスは少ないし、分散も小さいのでこれを使って確率推定

を行う

しかし、バイアスが少ないと言えどもまだtildπ0でも望ましく無い。サンプリングエラーを含むなどtildβ0が不確かであるからである。これはβの誤差の標準誤差が0で無い事を見ればわかる。

Page 13: logistic regression in rare events data

バイアスを考慮した確率推定◆ ベータの不確実性による分布の違い(バイアス) - YYYYについて周辺化した分布の方が裾野が広い分布となっている  → サンプリングバイアスなどが考慮されているため

Page 14: logistic regression in rare events data

バイアスを考慮した確率推定◆ バイアスを消す方法 (1)(1)(1)(1) ランダムサンプリングを行って、それについての確率密度関数を求めその平

均値を取る

 (2)(2)(2)(2) バイアスの補正を行う(本稿の手法)

直接的なバイアス 0.50.50.50.5未満でレアイベントと判断

※0.50.50.50.5を超える場合は、補正の必要性が無いため補正は行わない

Page 15: logistic regression in rare events data

バイアスを考慮した確率推定◆ バイアス補正 (1) approximate unbiased estimator(1) approximate unbiased estimator(1) approximate unbiased estimator(1) approximate unbiased estimator (2) approximate Bayesian estimator(2) approximate Bayesian estimator(2) approximate Bayesian estimator(2) approximate Bayesian estimator

(1)(1)(1)(1)は漸近的にバイアスが無い予測値となる。(2)(2)(2)(2)はバイアスが無いわけではない。しかし最小二乗誤差を減らす良い予測値とな

る。(※実験的に証明している)

Page 16: logistic regression in rare events data

実験条件◆ サンプル数

◆ 切片

◆ 陽性反応率(1 - 1 - 1 - 1 - 不均衡率)

◆ 陽性確率

◆ 相対リスク

Page 17: logistic regression in rare events data

実験条件◆ 絶対リスクと相対リスク - 1,0001,0001,0001,000回モンテカルロシミュレーションを行うことで確認

Page 18: logistic regression in rare events data

実 験◆ Logit-Bayesian differencesLogit-Bayesian differencesLogit-Bayesian differencesLogit-Bayesian differences(絶対リスク) -縦軸スケール:logit, 横軸スケール:log

← 陽性反応が占める割合

Page 19: logistic regression in rare events data

実 験◆ Logit-Bayesian differencesLogit-Bayesian differencesLogit-Bayesian differencesLogit-Bayesian differences(相対リスク) -縦軸スケール:logit, 横軸スケール:log

Page 20: logistic regression in rare events data

実 験◆ リスク評価の結果 - 本稿の手法は通常のlogitlogitlogitlogitモデルと比較して以下の場合効果が高い

  ・不均衡率が高い場合  ・総サンプル数が少ない場合

Page 21: logistic regression in rare events data

実 験◆ 平均サンプリングバイアス(切片・Prior CorrecitonPrior CorrecitonPrior CorrecitonPrior Correciton)

Page 22: logistic regression in rare events data

実 験◆ 平均サンプリングバイアス(切片・WeightingWeightingWeightingWeighting)

Page 23: logistic regression in rare events data

実 験◆平均サンプリングバイアス(傾き・ Prior CorrectionPrior CorrectionPrior CorrectionPrior Correction)

Page 24: logistic regression in rare events data

実 験◆ 平均サンプリングバイアス( 傾き・WeightingWeightingWeightingWeighting)

Page 25: logistic regression in rare events data

実 験◆ バイアス比較の結果 -logitlogitlogitlogitよりも補正をかけたほうがバイアスは小さい

Page 26: logistic regression in rare events data

実 験◆バイアスの平均標準誤差(Prior CorrectionPrior CorrectionPrior CorrectionPrior Correction)

Page 27: logistic regression in rare events data

実 験◆ バイアスの平均標準誤差(WeightingWeightingWeightingWeighting)

Page 28: logistic regression in rare events data

実 験◆ バイアスの平均標準偏差の結果 -logitlogitlogitlogitも補正をかけたモノも結果は理想的な値となった - したがって、logitlogitlogitlogitの結果グラフのみを載せた - 陰性のデータの削除割合を大きくするにつれて情報行列の誤差が大きくなる

Page 29: logistic regression in rare events data

実 験◆ 確率値の平均最小二乗誤差(RMSW)(RMSW)(RMSW)(RMSW)

Page 30: logistic regression in rare events data

実 験◆ 確率値のバイアス

Page 31: logistic regression in rare events data

実 験◆ 確率値のバイアスと平均最小二乗誤差(RMSE)(RMSE)(RMSE)(RMSE) - RMSE RMSE RMSE RMSE をみるとBayesianBayesianBayesianBayesian補正が他の2222つの手法に優っている -バイアスではBayesianBayesianBayesianBayesian補正が最も悪い - バイアスは大きいがRMSERMSERMSERMSEは十分小さいため、バランスされる

Page 32: logistic regression in rare events data

実 験◆ 確率値のRMSE(Prior Correction)RMSE(Prior Correction)RMSE(Prior Correction)RMSE(Prior Correction)

Page 33: logistic regression in rare events data

実 験◆確率値のRMSE(Weighting)RMSE(Weighting)RMSE(Weighting)RMSE(Weighting)

Page 34: logistic regression in rare events data

実 験◆ ダウンサンプリングによる平均最小二乗誤差(RMSE)(RMSE)(RMSE)(RMSE)の絶対リスク - BayesitanBayesitanBayesitanBayesitan補正は他の手法と比較して誤差が小さい - Prior Correction, WeightingPrior Correction, WeightingPrior Correction, WeightingPrior Correction, Weightingの両者において同様の結果となった

Page 35: logistic regression in rare events data

実 験◆ 相対リスクのRSME(Prior Correciton)RSME(Prior Correciton)RSME(Prior Correciton)RSME(Prior Correciton)

Page 36: logistic regression in rare events data

実 験◆ 相対リスクのRSMERSMERSMERSME (Weighting)(Weighting)(Weighting)(Weighting)

Page 37: logistic regression in rare events data

実 験◆ ダウンサンプリングによる平均最小二乗誤差(RMSE)(RMSE)(RMSE)(RMSE)の相対リスク - BayesitanBayesitanBayesitanBayesitan補正は他の手法と比較して誤差が小さい - 提案手法が従来の2222つの手法より良いことが証明された

Page 38: logistic regression in rare events data

結 論- 出現率5%5%5%5%未満のレアイベントに対して大きな効果がある- 多くのレアイベントの調査に適用可能な手法を提案した

 (たとえば戦争などの国同士の争いにも適用可能)- パラメタが非常に多い場合に有効

 (時系列データとかダミーデータが多い素性の場合など)