統計的因果推論勉強会 第1回

31
経営学系 統計学エンドユーザーのための 統計的因果推論 勉強会 第1回 五島 光 @hikaru1122 2016528

Upload: hikaru-goto

Post on 16-Apr-2017

3.516 views

Category:

Data & Analytics


0 download

TRANSCRIPT

経営学系統計学エンドユーザーのための

統計的因果推論勉強会

第1回

五島光

@hikaru11222016年5月28日

本⽇の概要

Ø オリエンテーション

Ø 宮川本1章

Ø 星野本1章

Ø 質問タイム&ディスカッション

2

オリエンテーション

3

本勉強会の⽬的Ø 「相関と因果関係は違うよ」とただ⾔うだけ、

知ってるだけから⼀歩先に進む。

Ø これからベイズ統計とともにホットトピックになるであろう統計的因果推論について学びながら、論⽂を読む、書く時に必要な統計分析を⾝に付ける

Ø 質的研究も量的研究も⼤事にできる⼈になる

4

スケジュール&⽅針

Ø 1ヶ⽉に1回、宮川本と星野本を1章ずつ

Ø 五島が15〜20分ほど内容を説明。その後,わからないこと,活⽤⽅法を話し合う

Ø 2016年12⽉までに終えたい数式の込み⼊ったところは⽴ち⼊りすぎない

Ø いっしょに学び合いたい(みんな⾮専⾨家)

5

みんなで勉強するメインの本

6

宮川本 星野本

副読本

7

Ø 2016年6⽉『岩波データサイエンス』vol.3は統計的因果推論の特集号。マストバイ

その他、関連しそうな本

8

統計学エンドユーザーとしての態度

Ø 統計分析は⾃動⾞・⾃転⾞と同じ

Ø 詳しいクルマの構造がわからなくても,交通マナーを守り、正しく運転すれば便利

Ø まちがって使えば危険

9

統計的因果推論を学ぶメリットØ 統計分析によって因果効果を推定し、

さらにその先に⾏ける。

Ø 原因が結果に影響を与えるプロセスの解明

Ø 結果がポジティブなものならより向上する⽅法、ネガティブなものならより少なくする⽅法の探求

10

社会科学の統計的因果推論の例Ø 組織改⾰をしたら⽣産性は上がるのか?

(川上・淺⽻ 2015)

Ø 中学時代の通塾は⾼校進学にどう効果をもたらすのか?(中澤 2013)

Ø 顧客の価値共創への関わりは顧客のQOLを⾼めるのか?(五島 いまやってる)

11

統計的因果推論とは何か?

Ø ✕ データ分析で勝⼿に因果関係がわかる

Ø ○ 因果効果を正しく推定する

Ø 「ヘテロな現実の環境下でいかにすれば因果関係が主張されるのか」を問う

Ø 「ある処置に効果があるか、あるとしたらそれはどの程度か」を測る

12

データの裏にあるストーリーが必要Ø データだけでは因果推論はできない

Ø 「相関なくして因果関係なし」

Ø 「調査観察データを⽤いた実証分析から導かれる因果関係については、確定的なことを述べることがきわめて難しい」

Ø 「観察研究から因果関係の確⽴はできないというのは極論であり、我々は最善を尽くす必要がある」

13

必要な統計分析・数学の知識・⽤語

Ø 期待値(平均) 分散・共分散 相関

Ø 回帰 交絡 構造⽅程式モデリング

Ø 事象 変数 条件付き確率 独⽴全確率の法則 同時確率 ベイズの定理

Ø 潜在反応モデル 反事実・可能世界

Ø グラフィカルモデル(モデリング)14

宮川本 第1章

15

宮川本についてØ グラフィカルモデリングに基づく統計的因果

推論の本

Ø 本勉強会では第6章をゴールにしたい

Ø 我々⽂系には厳しい本だけど、統計的因果推論の基盤を固めるために有益

Ø 第1章のメインコンテンツ回帰分析の濫⽤への警告層別に分析するときの注意点

16

回帰分析のabuseØ 1)AのときにBである

(例:Aが⾼いときにBも⾼い)2)AすればBになる(例:Aを⾼めればBは⾼くなる)

Ø 実は1)なのに、2)のつもりで回帰分析するのが「濫⽤」(abuse)

17

回帰分析のabuseØ 因果関係を調べるときに回帰分析を使うこと

は悪くない

Ø 正しい(偏)回帰係数になっていない恐れが問題

18

𝑌 = 𝛽$ + 𝛽&𝑋& + 𝛽(𝑋( + 𝜀↑偏回帰係数

説明変数結果変数

ノイズ

回帰分析のabuseØ 第1営業部に新しい福利厚⽣を与え、第2営

業部は従来どおりにしたところ第1営業部の職員満⾜度が上がった。この新しい福利厚⽣は職員満⾜度を上げる効果があると⾔えるか?

Ø 職員満⾜度を結果変数、新しい福利厚⽣の有無を説明変数にして分析でいいの?

Ø 職員満⾜度=切⽚+β×福利厚⽣の有無+ε19

回帰分析のabuseØ 説明変数をたくさん⼊れる?

Ø 職員満⾜度=切⽚+福利厚⽣の有無+職歴+営業成績+会話量+…いろいろ…+ε

Ø 説明変数について次の2点を疑う①含まれるべきものが含まれてない②含まれるべきでないものが含まれている

Ø 確率統計の概念だけでなく、因果に関する概念が必要

20

層別分析の注意点Ø シンプソンのパラドックス

21出所:Pearl,etal.(2016)

層別分析の注意点Ø ①層別したときと併合したときの結果が違う

②層別することに意味がない

Ø 層別するときの適切な「交絡因⼦」を⾒つけることが⼤切

Ø まちがうとセレクションバイアス(選択による偏り・選択バイアス)が⽣じる

22

交絡因⼦と因果ダイアグラムØ 「交絡因⼦」=層別すべき変数

Ø 「因果ダイアグラム」=変量を⽮印で結んで変量間の因果関係を表した図

Ø いまは9〜11ページで⽤語を確認すればOK

23

その他Ø (コクラン・)マンテル・ヘンツェル検定

Ø クロス表の分析は太郎丸(2005)、藤井(2010)が勉強になる。

Ø 統計分析をするとき、結果変数の尺度に気をつけること。

24

星野本 第1章

25

星野本についてØ 調査観察データは⽋測データとして考えよう

とする本

Ø テーマは3つ(サブタイトルより)だが本勉強会では,はじめの2つを扱う

Ø よって第5章,または第6章をゴールとしたい

Ø 著者が⾶ばしてよいと書いているところは⾶ばします。

26

調査観察研究のデータØ 調査観察データ(⼀般的な社会科学のデー

タ)の扱いって難しいね!

Ø 無作為割り当てはできないし,できたとしても不⾃然だし(⽣態学的妥当性に⽋ける)やろうとしてもやってくれないし(不遵守)

Ø 今後登場する変数については,7ページの図1.1が直感的でわかりやすい

Ø 共変量=宮川本で出てきた「交絡因⼦」27

調査観察研究のデータØ 多くの因果効果の推定例が載っている(11

〜16ページ)

Ø 「グラフィカルモデリングは社会科学の研究で全く利⽤されていない」

Ø 「もし実験が⾏えたら得られるであろう,独⽴変数の従属変数への単独効果(因果効果)を推定する⽅法論と限界を知ろう」

28

統計的因果推論と⽋測データØ 「もし実験が⾏えたら」=調査観察研究の因

果推論を⽋測データの問題として扱う

Ø 割り当てられてない側の結果を共変量を活⽤して推定する

Ø 実際の分析では,パラメトリック分析とノンパラメトリック分析のいいとこ取りをしよう=セミパラメトリック解析

29

統計的因果推論と⽋測データØ 図1.4を参照

30

処置群のデータ ⽋測

⽋測 対照群のデータ

共変量

処置群 対象群

Ø 潜在反応モデル/反実仮想モデル(次章)

参考⽂献Pearl, J., Glymour, M., & Jewell, N. P. (2016). "Causal Inference in Statistics: A Primer". John Wiley & Sons.

⽯⽥浩(2012)「社会科学における因果推論の可能性」『理論と⽅法』,27(1),1-18⾴。

⼊⼭章栄(2012)『世界の経営学者はいま何を考えているのか ―知られざるビジネスの知のフロンティア』,英治出版。

岩崎学(2014)「統計的因果推論の考え⽅」『現代思想』, 42(9), 86-97⾴。

川上淳之・淺⽻茂(2015)「組織改⾰は⽣産性に影響するか?」RIETI Discussion Paper Series 15-J-048。

太郎丸博(2005)『⼈⽂・社会科学のためのカテゴリカル・データ解析⼊⾨』,ナカニシヤ出版。

中澤渉(2013)「通塾が進路選択に及ぼす因果効果の異質性 ─傾向スコア・マッチングの応⽤─」『教育社会学研究』,Vol. 92,151-174⾴。

藤井良宜(2010)『Rで学ぶデータサイエンス1 カテゴリカルデータ解析』,共⽴出版。

星野崇宏(2009)『調査観察データの統計科学: 因果推論・選択バイアス・データ融合』,岩波書店。

宮川雅⺒(2004)『統計的因果推論 -回帰分析の新しい枠組み-』,朝倉書店。

※イラストは「いらすとや」http://www.irasutoya.com/