"approximate residual balancing: de-biased inference of average treatment effects in high...

Post on 09-Feb-2017

363 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

⾼次元データにおけるun-biased Average Treatment Effects の推定

Sugio Tatsuki

®

for TokyoR®

Profile®

๏ Sugio Tatsuki

๏ 位置情報を軸に研究

๏ プローブデータ

๏ スポーツデータ

๏ “機械学習”よりも”モデリング”思考

๏ サイバー系企業のAI系部署

๏ DMP → 代理店

Approximate Residual Balancing: De-Biased Inference of Average Treatment effects

in High Dimensions

Susan Atley Guido W. Imbens Stefan Wager

今⽇の元ネタ ↓

Index

1. 因果効果の推定(causal inference)に関して

1. Average Treatment Effect とは

2. Propensity score とは

2. High-Dimensions での問題点

3. “Approximate Residual Balancing”に関して

4. Simulation

5. play R

参考⽂献

前提

前提

前提

• 昨今では、データが⽐較的容易に⼿に⼊る。

• ⾼次元なデータセットを扱うことが、エコノミストでも多くなってきた。

• トラフィックデータ

• センシングデータ

• 購買データ etc

• しかし、そのようなデータセットに対して、従来の⽅法は適していないケースが多い。

• ⾼次元なデータセットを扱うために開発された「機械学習」アルゴリズムを活⽤または改造し、prediction, inference and causationを果たす。

【論⽂の冒頭によく飾られている内容】

前提

• 参考

• American Economic Association (2017) で公開された「Approximate Residual Balancing: De-Biased Inference of Average Treatment Effects in High Dimensions」について話します。

• 上記の論⽂に関して、間違った箇所もあるかもしれません。そのような場合は、”やさしーく”教えていただけるとありがたいです。

• 提案アプローチの理論的証明は、時間の関係上省きます。

• 発表

• まず、因果効果の推定における基礎的な説明を少し話します。

• 次に、⾼次元なデータで従来の⼿法が機能しないという事実を記し、そのために提案された各⼿法を”ザッと”話します。(それに関するアルゴリズムの説明は時間の関係上、省いてる箇所もあります。)

• 本提案アプローチのアルゴリズムとそのシミュレーション結果、およびRのコードを紹介。

【本⽇の議題の進め⽅】

今⽇の話の流れInference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

前提

• 回帰調整と回帰残差の重み付けの”ハイブリッド”。

“Approximate Residual Balancing”とは何か…

• 回帰調整(Regression Adjustment) • RAは標本平均を⽤いてTreatment Effectを推定する

という考え⽅に基づくもの。回帰モデルによってpotantial outcomeを予測するという拡張もある。

• 回帰残差の重み付け • 残差に重みを加えることで、バイアスを取り除く。

今⽇の話の流れInference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

1. 因果効果の推定(causal inference)に関して

因果

いろいろな因果関係…

タバコ

職業訓練

投薬

因果

モビルスーツにおける「脚」の効果って…

脚の因果効果 =

脚のあるジオングの性能 ー 脚のないジオングの性能

「実証分析⼊⾨」より引⽤

1. 因果効果の推定(causal inference)に関して

個体 i に処理 t = 0 を与えた場合の outcome

個体 i に処理 t = 1 を与えた場合の outcome=

=

因果効果

「実証分析⼊⾨」より引⽤

1. 因果効果の推定(causal inference)に関して

脚の因果効果 =

脚のあるバルバトスの性能 ー 脚のないバルバトスの性能

1. 因果効果の推定(causal inference)に関して

脚の因果効果 =

脚のあるバルバトスの性能 ー 脚のないバルバトスの性能難しい…

1. 因果効果の推定(causal inference)に関して

カウンターファクチュアル(counterfactual)

= 反事実

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Control group Treatment group

control effect

treatment effect⽋損値(反事実的)

⽋損値(反事実的)control 群 の観測データ

treatment 群 の観測データ

Average Treatment Effect =因果効果の推定は、 ⽋損値の補完(imputation)との闘い

因果効果における反事実的問題

以下、Average Treatment Effect = ATE 「林岳彦 (2012)」より引⽤

共変量

1. 因果効果の推定(causal inference)に関して

因果効果

ただし、バルバトスは同一世界にただ一つであり、 異なる処理を同時に与える(観測する)ことは不可能 反事実的

因果効果の推定における根本的な問題

「林岳彦 (2012)」より引⽤

個体 i に処理 t = 0 を与えた場合の outcome

個体 i に処理 t = 1 を与えた場合の outcome=

=

1. 因果効果の推定(causal inference)に関して

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Confoundedness (交絡性!?)

• 交絡とは何か… • 交絡とは、⽬的変数と説明変数の両⽅に相関する外部変数が存在すること。

そのような外部変数を交絡変数(confounding variable)という。(from Wiki)

⽬的変数 説明変数

交絡変数

⾒たい影響

影響影響

1. 因果効果の推定(causal inference)に関して

Confoundedness

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Propensity Score(傾向スコア)

• 共変量を調整し、交絡性を取り除く • 潜在的な交絡要因となる様々な共変量を傾向スコアという⼀つの合成変数に縮約(⼀次元化)し、

その傾向スコアを基準としてマッチングや層別化、またはWeightted Estimationを⾏う。

⽬的変数 説明変数

傾向スコア

⾒たい影響

適応適応

共変量

モデリング

層別化 マッチング 重み付け

1. 因果効果の推定(causal inference)に関して

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

2. High-Dimensions での問題点

counterfactual confoundedness

Exact Causal Effect の算出

High-Dimensionsな場合…

• Lassoなどの正則化回帰などを⽤いて、上記の問題を解決しようとする。 • A. Belloni, V. Chernozhukov, and C. Hansen. (2014, 2016)

2. High-Dimensions での問題点

しかしながら…

• バイアスが発⽣ • Lassoの場合、正確な予測にのみ焦点を当てているため、Treatmentの割り当て、

つまり傾向スコアに⼊る共変量を調整することを犠牲にしている。

• Average Treatment Effect の予測に限らず、Coefficientも統計的に正しくない。(⼀致性・不偏性を⽋く)

2. High-Dimensions での問題点

• un-biasedとは何か… • ⾒⽅によって変わる⾯もあるが、

• 推定量が「⼀致性」または「不偏性」を有しており、良好な「漸近性」が満たされた状態。

• OLSは、⼀定の条件下では、数ある推定⼿法の中で最も効率的であり、かつ、不偏性を持つ。

• OLSはBLUE(Best Linear Unbiased Estimator)。

• ⼀致性(consistency) • 標本サイズnを⼤きくしていくと、推定値の平均が次第に⺟集団の真の値と⼀致する性質。

• 不偏性(unbiasedness) • 標本抽出を繰り返した場合に、推定値の平均が⺟集団の真の値と⼀致する性質。

2. High-Dimensions での問題点

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

• 変数選択のスキームを拡張 • “Inference on treatment effects after selection among high-dimensional controls.”, Belloni, 2014.

• ”doubly robust”なアプローチを⽤いて、Lassoのバイアスを補償する⽅法

• “Robust inference on average treatment effects with possibly more covariates than observations.” Farrell, 2015.

• “Double machine learning for treatment and causal parameters.”, Chernozhukov, 2016.

• 傾向スコアを考慮したATEを推定するための従来の⽅法と機械学習技術の組み合わせ • ブースティングを使⽤してPropensity Score・Inverse Propensity score Weighting(IPW)を応⽤。McCarey (2004)

• SVM、Neural Network、CARTの活⽤。Westreich (2010)

現状提案されている提案⼿法

Belloni ChernozhukovFarrell

2. High-Dimensions での問題点

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

3. “Approximate Residual Balancing” に関して

3. “Approximate Residual Balancing” に関して

⽬標• 純粋な推定とATEの推定の関係を調整し、

⾼次元なデータでun-biasedなATEを推定すること。(de-bias する)

1. 2つのgroupに対して、個別にFeatureを与えた場合の結果をregularized linear modelに適合する。(like ”doubly robust”)

2. 全ての特徴量をほぼ均衡させる重みを使⽤して、第1段階の残差を再度重み付けする。

2段階の近似残差平衡アルゴリズム

傾向スコアをより適合させていくのではなく、重みによって付与される(暗黙の)バランスと分散に焦点を当てる!?。Zubizarreta (2015)

• Control groupのデータを、Treatment groupの共変量分布に似せるため、 を使⽤し、重み付けをする。

Weighted Estimation

High-Dimensions では良好な漸近特性を有さない。

• 重み は、スタンダードな⽅法では、Propensity Scoreを⽤いる。(IPW)

• IPWは、望ましい漸近特性を有する(Hirano, 2003)。(⼀致性 or 不偏性)

• しかし、「共変量の分布の重なり」、「共変量の数」、「 の値」といった制限もある。

3. “Approximate Residual Balancing” に関して

• 線形モデルにおけるバイアスは、               に依存。

• 重み の算出⽅法の改善!! • Deville &Sarndal (1992) , Chan (2015), Graham (2012, 2016) ,

Hainmueller (2012), Hellerstein & Imbens (1999), Imai & Ratkovic (2014), Zhao (2016), Zubizarreta (2015).

Weighted Estimation

3. “Approximate Residual Balancing” に関して

• ⼀般的に正確なbalancing weightは存在しない。

• そのため、balancing weightを近似し、結果の推定値の精度とバイアスとのトレードオフを考慮したアプローチが存在する。

• “Stable weights that balance covariates for estimation with incomplete outcome data”, Zubizarreta, 2015.

• (それでも、バイアスは残るらしい…)

しかしながら、High-Dimensionsの場合では…

3. “Approximate Residual Balancing” に関して

• ここでの命題は、control groupにおける  で  を予測し、  を        として推定すること。

Regression Adjustments

•      の低次元データで、かつ、OLSを使⽤できる場合では、  は、  の不偏推定量になる。

3. “Approximate Residual Balancing” に関して

• OLSがフルランクモデルになるようなケースでは、正則化が必要であるケースが多い。

• 単純なLassoの場合、2つの群間の平均値に⼤きな差がある特徴量は、これらの係数が⼩さい場合でも⼤きなバイアスを⽣み出す。

• そもそも、outcome modelの適合度を最適化するように調整された正則化された回帰は、潜在的な交絡因⼦の制御ができない。treatment effect estimatorのバイアスが懸念されるときは適切ではない。

しかしながら、High-Dimensionsの場合では…

3. “Approximate Residual Balancing” に関して

• ”double-selection”

• Lassoにより共変量を変数選択。Belloni (2014)

• treatmentの割り当てをLasso(Logistic Regression)で実⾏する。Belloni (2014)

• 変数選択された変数に対して、OLSによって推定される  を伴う回帰調整        で  を推定することと、変数選択された特徴量のバランスをとるために重み  を⽤いて、(6)を解くことと等価。

現状提案されている提案⼿法

• しかしながら、Propensityがスパースではない場合、このような”double-selection”の性能はしばしば貧弱である!?。

3. “Approximate Residual Balancing” に関して

• これまで上げてきた⼿法とその問題点を解決できるかたちで⽣み出された”ハイブリッド”。

• 強い影響を捕捉するには、回帰調整が効果的。

• 重み付けは⼩さな効果を捕捉するのに効果的。

Approximate Residual Balancing

1. treatment effectの最初のpilot推定値を得るために、Lassoまたはelastic netを使⽤。

2. treatment effectを推定するために“回帰残差のapproximate balancing”を⾏う。

• すなわち、Treatment groupとControl groupとの間の共変量分布の近似的なバランスを達成する重みを⽤いて、残差に重み付けをする。

3. “Approximate Residual Balancing” に関して

Procedure 1.   Approximate Residual Balancing with Elastic net

3. “Approximate Residual Balancing” に関して

Procedure 1.   Approximate Residual Balancing with Elastic net

重みの算出

elastic netでβの推定

ATE(τ)の算出

3. “Approximate Residual Balancing” に関して

理論的保証

: our proposal approach

: intrinsic noise

: only the weighting

: only the regression adjustment

Setting and Notation

3. “Approximate Residual Balancing” に関して

•   と  との間に⼤きな相違がある場合に役⽴つ。

• 回帰は、推定誤差       が   に対して⼩さい場合が実質的なバイアスの減少。

• 調整を⾏わずに、単に  の⾒積もりとしてのControl groupの平均結果を使⽤するだけで、  の⾒積りと実際の値の間の差異は、

理論的保証

• 重み付けはこれを            にさらに減らします。

回帰調整と重み付けの相補的性質を⽰している。

3. “Approximate Residual Balancing” に関して

4. Application & Simulation

4. Application & Simulation

Application: The Efficacy of Welfare-to-Work Programs• カリフォルニア州の実施した政策のデータ。

(福利厚⽣への依存を減らし、恵まれない世帯間の仕事を促進する。)

• 各個⼈の多種多様なデモグラフィックな属性データ(共変量; p = 93)が存在する。

• 上記のデータのランダムサンプリングして作成されたデータセットを使⽤。(n = 19,170)

• ATEを推定するための異なる⽅法の挙動を⽐較する。

Simulation Design

• replication : 1000

• four different simulation

• Two Cluster Layout

• n = 300, p = 800

• Many Cluster Layout

• 20 cluster

• n = 300, p = 800

• Misspecified simulation

• dataset from “LaLonde (1986 )”

• Two Stage simulation

• an experiment of “Belloni (2014)”

より詳細な設定は論⽂を参照

4. Application & Simulation

4. Application & Simulation

4. Application & Simulation

• RMSEで評価 • 基本的には、⼀番良い性能 • ENもSparseなデータセットにおいては、予測性能に関しては良い性能。

4. Application & Simulation

5. Play R

5. Play R

https://github.com/swager/balanceHD

• [balanceHD] • Estimation of average treatment effects in high dimensions

via approximate residual balancing, as proposed by Athey et al. (2016).

R package の紹介

参考⽂献

• 「Approximate Residual Balancing: De-Biased Inference of Average Treatment Effects in High Dimensions」, Susan Athey, Guido W. Imbens, Stefan Wager, American Economic Association, 2017.

• 「実証分析⼊⾨ データから「因果関係」を読み解く作法」、森⽥、2014/06. • 「調査観察データの統計科学―因果推論・選択バイアス・データ融合」, 星野, 2009. • 「岩波データサイエンス Vol.3」, 2016/06.

書籍・論⽂

Slide・URL

• 「傾向スコア:その概念とRによる実装」、林岳彦、2012/04

top related