rによる計量分析:データ解析と可視化 -...

47
R による計量分析:データ解析と可視化 4 伊藤 岳 富山大学 経済学部 2017 年度後期 Email: [email protected] November 6, 2017 伊藤 岳 (Toyama/NIHU) R による計量分析 (4 ) November 6, 2017 1 / 41

Upload: others

Post on 24-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Rによる計量分析:データ解析と可視化第 4回

伊藤 岳

富山大学 経済学部 2017 年度後期

Email: [email protected]

November 6, 2017

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 1 / 41

Agenda

1 社会のデータ,解析と可視化

2 標本,母集団,母数

3 中心極限定理

4 RStudioでの演習とシミュレーション

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 2 / 41

社会科学の難しさ

本当のような「怪しい」話

▶ 「広告費を倍増した結果,アイスクリームの売り上げが 50%伸びた」▶ 「新社長の改革の成果によって,株価が 30%上昇した」▶ 「政府の補助金政策の効果で,地域経済が活性化した」▶ 「マンションの高層階に住むと,妊娠しにくくなる」

▶ 出所:伊藤 公一朗「Google検索の『青色』に隠された最強の分析力:世界の勝ち組企業はビッグデータをこう使う」(http://toyokeizai.net/articles/-/171160)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 3 / 41

なぜ「難しい」のか?

▶ 問題:「X と Y の動きに関連があった」という主張 (相関関係) と,「X が Yに影響する」という主張 (因果関係) の区別

▶ 上の例は,なんとなく「ぽい」し,図を描くと「関係ありそう」に見える▶ 相関関係は因果関係とは限らない▶ 内生変数の問題

▶ 「難しい」根本的な理由の 1つは,実験ができないから (困難だから)▶ 適切な実験ができれば,「X が Y に影響する」か否かを適切に評価できる▶ 実験をするにも,費用・倫理的な問題がある▶ 社会や個人による (割り当ての) 選択の問題

▶ たとえば,「東大卒」や「大学卒」といった処置 (treatment) は,ランダムに (無作為に) 割り当てられる訳ではない

▶ 優秀な人が,そうした割り当てを得るはず (入試してるから!)▶ 特に後者の点 (非ランダムな処置割り当て) は,実験室での実験とは対照的

▶ Rubin の「完璧な医者」

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 4 / 41

相関関係と因果関係

▶ なぜ,ときに相関関係 ̸= 因果関係なのか?▶ 単なる偶然▶ 「第 3の変数」の存在:欠落変数バイアス (omitted variable bias)▶ 逆の因果関係:同時性バイアス (simultaneity bias)

etc.

次回講義では,図を描いて実感する

▶ 海賊の数と温暖化:偶然▶ ゲーム時間と学業成績:欠落変数バイアス▶ 警察官数と犯罪認知件数:同時性バイアス

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 5 / 41

実験と擬似実験

▶ 自然科学に比べ,社会科学の研究では上記のような問題 (バイアス) に直面しやすい

▶ バイアスを除去する常套手段 = 実験が,費用・倫理的に難しい▶ 18世紀のヒューム,20世紀初頭のネイマンとフィッシャー,20世紀後半のルービンとパールの伝統

▶ ランダム化比較試験 (randomized controlled trial, RCT)▶ RCTができたとしても,注意すべき問題もある:標本の欠落 (脱落),標本の代表性,ホーソン効果

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 6 / 41

実験と擬似実験

▶ この講義では扱わないが,擬似実験的手法 (quasi-experimental approach) と呼ばれる方法が,現在の研究では存在感を高めている

▶ 擬似/自然実験:実際には実験を行なうことなく,擬似的な実験的状況を作り出して (自然に生じた実験的状況を利用して) 分析する手法

▶ 例:統計的マッチング (statistical matching),不連続回帰/回帰分断デザイン(regression discontinuity design, RDD),差 (分) の差 (分)(difference-in-difference, DiD),操作変数法 (instrumental variable, IV)

▶ 11/15 (Wed.) の環境塾 (手元の資料) では擬似実験的手法を扱う▶ この講義 + 環境塾で基礎 (考え方と Rのスキル) は身につく (はず)

▶ なんだかんだいっても,この講義で扱う回帰分析 (特に OLS) や基礎的な手法が中心/前提になる

▶ 回帰分析との繋がりがわかりやすい RDDは,この講義でも時間があれば扱う

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 7 / 41

データの可視化と解析,解析の可視化

可視化と解析

▶ データを得たら,まず可視化して「あたりを付ける」▶ それだけだと間違っているかもしれないので,解析に進む

▶ 上述の「本当のような『怪しい』話」が例示する落とし穴

解析の可視化

▶ 適切に解析したとしても,「解析自体も可視化」しなければ分かりにくく,信頼もできない

▶ 解析過程の可視化:解析の過程 (・手順) を,1年後に再現できる?▶ 解析結果の可視化:「よく見る回帰分析の表」を見て,普通の人が理解できる?

▶ 解析の過程や結果を報告する上でも,可視化が必要になる▶ 講義の副題「データ解析と可視化」の意味

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 8 / 41

母集団と標本

母集団 (population)研究において,興味がある/理解したい対象のこと.一般的に,母集団を直接観察することはできない

1 有限の集団例 有権者全体,日本人全体,人類全体

2 データ生成過程 (data generating process),確率分布▶ 観察されたデータ (標本),分析対象のデータを生み出したメカニズム

標本 (sample)データとして観察された,母集団の一部

▶ 標本抽出 (sampling):母集団から標本を得ること▶ 標本サイズ (sample size): 標本の大きさ.ある標本に含まれる (変数の) 観察値の数のこと.一般的に nといわれる数

▶ 標本数 (number of samples): 標本 (群) の数.観測値の集合の数

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 9 / 41

有限の集団としての母集団と標本

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 10 / 41

確率分布としての母集団と標本

教科書第 2章の例

▶ 日本人の所得が,ある確率分布 (e.g., 正規分布) に従って生成されると考える▶ 元の確率分布が分かれば,日本人の (無限の) 所得を知ることができたことになる▶ このとき,確率分布に従って実現した値が標本,確率分布そのものが母集団

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 11 / 41

母集団と母数

▶ 母数 (parameter):母集団・分布を特徴付けるパラメータ▶ 分母ではない!▶ 誤った用法:「文科省の調査は母数を『就職希望者』としているのに対し,今回の調査は卒業生全体を母数に取っている」

▶ 出所:「今春大卒 2割,進路未定 学部間差,最大 5倍」『朝日新聞』「『ひらく日本の大学』2011年度調査結果報告」(http://www.asahi.com/edu/hiraku/hiraku2011/article01.html)

▶ 統計的推定:一定の誤差を許容した上で,手元にある標本 (部分) から母集団 (全体) を知ること.パラメータを推定すること例 1 標本として得られた有権者の情報 (政権支持率) を用いて,日本の有権者全体

の政権支持率を推定する例 2 標本として得られた国家の情報を用いて,経済状況が内戦の発生確率に与える

影響を推定する

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 12 / 41

母集団と標本

母集団は観察できない

▶ データとして観察できる (手に入る) のは母集団ではなく標本▶ 母集団:データ生成過程,確率分布 (有限の集合とは考えない)▶ 母数:母集団を特徴付ける数値,パラメータQ では,「現実に起こったすべてのデータ」が標本として得られた場合は?A 「現実に起こったすべてのデータ」は母集団とは考えない.仮に「全データ」が得られたとしても,それを母集団とは考えない (!)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 13 / 41

母集団と標本

実現したデータと可能性

▶ 「現実に起こった現象/データ」=「無数にあった可能性のうちの 1つ」▶ 全小選挙区のデータは「母集団」?(副読本の浅野・矢内本,第 6章)

▶ 現象を繰り返せば,実現する現象には違いが出る▶ 選挙の例でいえば,偶然にも左右される (e.g., 天気や個人の気まぐれ)

▶ 言い換えれば,現実に観察されたデータは「標本」にしかならない▶ 今日の後半で行なうシミュレーションでの標本抽出で実感できる (はず)

統計的推定の目的に繋がる

▶ 知りたいのは,「実現したデータや値」 (= 標本) ではなく,それを生み出すメカニズム (= 母集団) とそれを特徴付ける (未知の) 母数

▶ 母数について知識を得るために,統計的推定が必要になる▶ 中心極限定理は,統計的推定の基礎の 1つ

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 14 / 41

大数の法則と中心極限定理

大数の法則 (law of large numbers)ある同一の分布から独立に得られた大きさ (標本サイズ) nの標本X1, X2, . . . , Xn の標本平均をXn とする.また,この分布に従う確率変数X の期待値を E[X]とする.n → ∞のとき,Xn は E[X]に近づく.

大数の法則と中心極限定理の関係

▶ 大数の法則は,標本平均の振舞い:n → ∞のとき,Xn が E[X]に近づく▶ 中心極限定理は,標本平均と期待値の誤差の振舞い:n → ∞のとき,

Xn − E[X]は正規分布N (0, σ2X/n)に近づく

▶ つまり,nを大きくすると,Xn − E[X]は小さくなり (大数の法則),Xn − E[X]の分布は正規分布N (0, σ2

X/n)に近づく (中心極限定理)▶ これを意識すると,以下の内容を理解しやすい▶ 確率変数や正規分布については,補足スライドを参照 (次回も扱う)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 15 / 41

中心極限定理

中心極限定理 (central limit theorem, CLT)ある同一の分布から独立に得られた大きさ (標本サイズ) nの標本X1, X2, . . . , Xn の平均をXn, 分散を σ2

X とする.また,この分布に従う確率変数X の期待値を E[X]とする.標本の大きさ nが大きくなるにつれ (n → ∞の極限で),以下の統計量 Zn (Xn − E[X]は標本平均と母平均の誤差) は,平均 0,標準偏差 1の正規分布 (標準正規分布) N (0, 1)に近づく (弱収束する).

Zn = Xn − E[X]√σ2

X/n(1)

▶ 標本サイズ nが十分に大きければ,元の分布どんなものであれ,誤差Xn − E[X]がN (0, σ2

X/n)に近付く,でも同じ意味▶ 正規分布の標準化を使えば,(1)式が得られる (補足スライド)▶ ただし,元の分布に平均値と分散が存在すれば▶ 平均 µ, 標準偏差 σ (分散 σ2) の正規分布を,一般的に N (µ, σ2)と書く

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 16 / 41

中心極限定理

中心極限定理の帰結 (正規分布が出てくると何が嬉しいのか)ある同一の分布から独立に得られた大きさ (標本サイズ) nの標本X1, X2, . . . , Xn の平均をXn, 分散を σ2

X とする.また,この分布に従う確率変数X の期待値を E[X]とする (ここまではさっきと同じ).標本の大きさ nが大きいとき (n → ∞の極限で),以下の不等式が,95%の確率で近似的に成立する.

Xn − 1.96√

σ2X/n ≤ E[X] ≤ Xn + 1.96

√σ2

X/n (2)

標本平均 Xn の分布は,正規分布N (E[X], σ2X/n)に従う

▶ 母数を 95%の精度で含む 95%信頼区間を計算できる! (解釈に注意)▶ 統計的推定・検定の基礎になる定理 = 正規分布が「大事にされる」理由

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 17 / 41

信頼区間

中心極限定理と信頼区間

▶ (2) 式の区間を E[X]の 95%信頼区間 (confidence interval, CI) と呼ぶ▶ 標準誤差 (standard error, SE): さっきからよく出てきた

√σ2

X/n = σX/√

n▶ (不偏) 標準偏差 σX を

√n (標本サイズ nの平方根) で割った値

▶ つまり,95% CI は [Xn − 1.96SE, Xn + 1.96SE]▶ 95%信頼区間を使って,母数を推定できる

▶ 統計的推定で問題になるのは,標本統計量と母数の誤差▶ 誤差 (Xn − E[X]) が正規分布に従うなら,正規分布の性質を利用して信頼区間を計算できる

▶ nが大きくない場合は,(正規分布ではなく) t分布で近似する▶ t分布については,「なぜ 1.96が出てくるのか」とあわせて次回以降で説明

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 18 / 41

正規分布と信頼区間

正規分布の性質平均 µ, 標準偏差 σの正規分布N (µ, σ2)に従う確率変数X について,事象(event) µ − 1.96σ ≤ X ≤ µ + 1.96σが成立する確率は,ほぼ 95%である.

▶ 中心極限定理より,Zn = Xn−E[X]√σ2

X/n

∼ N (0, 1)

▶ したがって,事象 −1.96 ≤ Zn ≤ 1.96が成立する確率は,(ほぼ) 95%(Zn ∼ N (0, 1)に注意)

▶ ここから,(2)式 (95%信頼区間) が導出できる

−1.96 ≤ Zn = Xn − E[X]√σ2

X/n≤ 1.96

⇐⇒ −1.96√

σ2X/n ≤ Xn − E[X] ≤ 1.96

√σ2

X/n

⇐⇒ Xn − 1.96√

σ2X/n ≤ E[X] ≤ Xn + 1.96

√σ2

X/n

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 19 / 41

確認:中心極限定理と信頼区間のありがたみ

中心極限定理と信頼区間の整理

▶ 標本サイズ nが十分に大きければ,元の分布がどんなものであれ,▶ 標本平均の分布:Xn ∼ N (E[X], σ2

X/n)▶ 標本平均と期待値の誤差の分布:Xn − E[X] ∼ N (0, σ2

X/n)▶ Zn = Xn−E[X]√

σ2X

/n∼ N (0, 1) (正規分布の標準化)

▶ ただし,元の分布に平均値と分散が存在すれば▶ つまり,例外的な分布もある:e.g., コーシー分布,一部のベキ乗分布

▶ 信頼区間を使って,母数を (区間) 推定できる▶ SE =

√σ2

X/nと正規分布の性質を踏まえると,E[X]の 95%信頼区間[Xn − 1.96SE, Xn + 1.96SE] が得られる

▶ 統計的推定で問題になるのは,標本統計量と母数の誤差▶ 誤差が正規分布なら,正規分布の性質を利用して統計的推定・検定ができる

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 20 / 41

補足:信頼区間

▶ α%信頼区間の αを信頼係数 (confidence coefficient)と呼ぶ▶ 慣習的な信頼係数:95%, 90%, 99% (原理的には,94%, 96%, etc.でもよい)▶ それぞれ,5%有意,10%有意,1%有意に対応する▶ つまり,p < 0.05, p < 0.1, p < 0.01 (「第一種過誤 (Type I/α error)」(偽陽性)をおかす危険率が 5%, 10%, 1%)

▶ 「第一種過誤 (Type I/α error)」:帰無仮説 H0 (e.g.,「病気ではない」) が真にもかかわらず,H0 を棄却してしまう誤り

▶ 区間推定 (interval estimation):「幅」を持たせた推定▶ ざっくりした例:「母集団から 100回標本をとってきて,各々の標本平均 (あるいは,他の統計量) から母平均の 95%信頼区間を求めるという作業を繰り返したとき,95回については 95%信頼区間の中に母平均が含まれる」

▶ 「幅」を持たせる区間推定に対して,1つの値で母数を推定することを点推定(point estimation) と呼ぶ

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 21 / 41

標準偏差と標準誤差

▶ SD = σX , SE = σX/√

nなのだから,常に SD > SE▶ 標本サイズ nが分母にあるのだから,nを大きくすればするほど,SEは小さくなる

▶ 標本サイズ nが大きいほど,誤差を正確に推定できる (信頼区間の幅を狭くできる)

▶ Xn ∼ N (E[X], σ2X/n)なので,SEは標本平均の標準偏差

▶ nが大きいほど,SE = σX/√

nは小さくなる▶ SEが小さくなれば,95%信頼区間 [Xn − 1.96SE, Xn + 1.96SE]も狭くなる

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 22 / 41

信頼区間の解釈と注意何の信頼度合いかα%信頼区間:1つの標本から得られた区間の信頼度ではなく,区間を求める手続きの信頼度を示す誤 「手元の標本から 95%信頼区間を計算した.この信頼区間の中に母数が含まれる確率は 95%だ」

ざっくりした例 (再掲) と解釈「母集団から 100回標本をとってきて,各々の標本平均 (あるいは,他の統計量)から母平均の 95%信頼区間を求めるという作業を繰り返したとき,95回については 95%信頼区間の中に母平均が含まれる」

▶ 標本数が 100だから,100個の 95%信頼区間が得られる▶ 100個の 95%信頼区間のうち,95個は母平均を含み,5個は含まない▶ 「各々の 95%信頼区間が母平均を含む確率」は,0か 1 (!)▶ 手元の標本から得た信頼区間は,「たまたま」母平均を含まないかも知れない (この点は次回以降のシミュレーション)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 23 / 41

中心極限定理のシミュレーション

▶ 中心極限定理が本当なのか,Rを使ったシミュレーションで確かめる▶ 図にしないとシミュレーション結果を理解できないので,R(Studio) での図の作り方も学ぶ

▶ 図を描くためには Rに慣れないといけないので,R自体の練習もする▶ まずはシミュレーションの手順と結果を確認する

▶ うまくいけば次スライド以降の結果が出てくる▶ 信頼区間のシミュレーションは,次回講義

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 24 / 41

中心極限定理のシミュレーション

1 連続一様分布 X ∼ U(−10, 10)から,大きさ (標本サイズ) nの標本を抽出▶ U(−10, 10)は,最小値 −10, 最大値 10の連続一様分布

▶ X ∼ U(a, b), f(x) ={ 1

b−aa ≤ x ≤ b

0 x < a or x > b▶ 期待値 (母平均) は,(−10 + 10)/2 = 0

2 標本平均Xn を計算して,記録する3 以上の作業をm回繰り返す4 m回の結果をまとめて,標本平均Xn の分布をプロットする5 標本サイズ nを変化させ,以上の作業を繰り返す

▶ 中心極限定理に従えば,nが大きいとき,Xn の分布は正規分布に近付くはず▶ nが大きいほど,誤差を正確に推定できるはず▶ シミュレーション回数はm = 10, 000に固定する

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 25 / 41

シミュレーションで用いる連続一様分布U(−10, 10)D

ensi

ty

−10 −5 0 5 10

0.00

0.02

0.04

0.06

0.08

0.10

▶ この図では,標本平均は −0.014 (期待値 E[X] = (−10 + 10)/2 = 0)▶ 標本平均の分布:Xn ∼ N (E[X], σ2

X/n)▶ 標本平均と期待値の誤差の分布:Xn − E[X] ∼ N (0, σ2

X/n)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 26 / 41

シミュレーションで用いる連続一様分布U(−10, 10)

ヒストグラムについて補足

▶ ヒストグラム:度数分布表を棒グラフにした図のこと▶ 度数分布表:変量をいくつかの階級に区分して,各階級を代表する階級値,各階級に属する個数 (度数) とそれが全体の中で締める割合 (相対度数) をまとめたもの

▶ ヒストグラムの「棒の場所」は階級値,「棒の高さ」は (相対) 度数あるいは確率密度を示す

▶ Rでは,hist()関数で簡単に作成できる▶ 分布の形状やデータが分布する範囲を視覚的に示す

シミュレーションの結果もヒストグラムで示す

▶ 分布の形状:標本サイズ nを大きくすると,標本平均の分布はどう変わる?▶ 分布の範囲:標本サイズ nを大きくすると,横軸はどう変わる?

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 27 / 41

シミュレーション結果:n = 1D

ensi

ty

−10 −5 0 5 10

0.00

0.01

0.02

0.03

0.04

0.05

0.06

n=1, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 28 / 41

シミュレーション結果:n = 2D

ensi

ty

−10 −5 0 5 10

0.00

0.02

0.04

0.06

0.08

0.10

n=2, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 29 / 41

シミュレーション結果:n = 10D

ensi

ty

−6 −4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

n=10, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 30 / 41

シミュレーション結果:n = 100D

ensi

ty

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

n=100, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 31 / 41

シミュレーション結果:n = 1000D

ensi

ty

−0.5 0.0 0.5

0.0

0.5

1.0

1.5

2.0

n=1000, m=10000

▶ 標本サイズ nを大きくすると,標本平均の分布は正規分布に近付く▶ 標本サイズ nを大きくすると,横軸は狭くなる (目盛りに注意)▶ Xn ∼ N (E[X], σ2

X/n)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 32 / 41

指数分布 (exponential distribution) にも通用する?D

ensi

ty

0 1 2 3 4 5

0.0

0.5

1.0

1.5

▶ 「歪んだ」分布の典型例:X ∼ E(λ), f(x) =

{λe−λx x ≥ 00 x < 0

▶ ただし,λ > 0▶ 指数分布の期待値 (母平均) は E[X] = 1

λ , 分散は( 1

λ

)2 = 1λ2

▶ 上の指数分布は λ = 2なので,E[X] = 1λ = 0.5

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 33 / 41

シミュレーション結果:n = 10D

ensi

ty

0.2 0.4 0.6 0.8 1.0 1.2 1.4

0.0

0.5

1.0

1.5

2.0

2.5

n=10, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 34 / 41

シミュレーション結果:n = 1000D

ensi

ty

0.44 0.46 0.48 0.50 0.52 0.54 0.56

05

1015

2025

n=1000, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 35 / 41

双峰型分布D

ensi

ty

0 20 40 60

0.00

0.01

0.02

0.03

0.04

0.05

▶ もっと「変に」する:「山」が 2つある分布 (双峰型分布)▶ 上の例は,正規分布を 2つ足し合わせた分布:N (0, 4)とN (30, 10)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 36 / 41

シミュレーション結果:n = 1000D

ensi

ty

13 14 15 16 17

0.0

0.2

0.4

0.6

n=1000, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 37 / 41

Rスクリプト

Rコードを保存する

▶ Rスクリプト:1行以上の Rコードを保存したファイル▶ 拡張子は .r or .R▶ 例:第 2回講義で,パッケージの一括インストールに使った

install_packages_fall_1016_2017.R

▶ 実体はある種のテキストファイル

Rスクリプトのありがたみ

▶ コードを Rスクリプトとして保存しておくことで,複数の処理 (行) を一括実行したり,他の環境で同じ作業を再現したりできる

▶ 例:伊藤が用意した Rの処理を,各自の PCで実行・再現する▶ 今日は演習のついでに,Rスクリプト作成も練習する

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 38 / 41

RStudioでの演習

中心極限定理のシミュレーションを行なうまずはブラウザで次の作業をする

1 講義資料ウェブページ内の「演習資料」にアクセス (URL:http://cfes-project.eco.u-toyama.ac.jp/education/education_2017/r_2017/rcode_fall2017/)

2 「Rコード」の下の「3. 基礎概念のシミュレーション」の見出しの下にある,simulating_clt.R を開く

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 39 / 41

RStudioでの演習

中心極限定理のシミュレーションを行なう (続き)RStudioで次の作業をする

4 RStudioを開き,command + shift + N (m)/control + shift + N (w) して,新しい Rスクリプトを開く (作成する)

5 command + S (m)/control + S (w) して,(真っ白な) Rスクリプトを分かりやすい場所に保存

▶ ファイル名は半角文字のみにすること!▶ 例:clt_simulation.R

6 ブラウザで開いている simulating_clt.Rの中身を,今作成した Rスクリプトにコピペ

7 command + S (m)/control + S (w) して,Rスクリプトを (上書き) 保存8 冒頭のディレクトリ指定の部分を,自分の環境にあわせて修正9 指示する部分を選択し,command + enter (m)/control + enter (w) で実行

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 40 / 41

次回講義と課題

▶ 次回講義 (休講の都合で,講義内容/順番を多少変更)▶ 今日の続きと大数の法則・信頼区間のシミュレーション▶ 確率論の導入▶ データの基礎的な可視化

▶ 文献と課題必須 星野・田中『Rによる実証分析』第 1–3, 6章 (教科書,前回と同じ)推奨 Gelman & Hill. Data analysis. Chap. 1–2 (教科書,前回と同じ)推奨 浅野・矢内『Stataによる計量政治学』第 3, 5–9章 (副読本,章追加)推奨 伊藤『データ分析の力』第 1–2章 (副読本,前回と同じ)推奨 森田『実証分析入門』第 1–2章 (副読本)課題 (1) 講義資料「R言語の基礎,オブジェクトとその要素へのアクセス」と「R

によるデータの読み込みと書き出し」を RStudioで練習しておくこと.(2) 中心極限定理のシミュレーションを再度行ってみること (できれば nを変えて)

▶ 中間課題 (1) もそろそろ出るので注意 (11月後半)▶ 出題から提出までは 1–2週間とります▶ 休講追加の加減で,シラバスの予定から時期が 1週間ずれます (たぶん)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 41 / 41

補足:確率変数の期待値と分散確率変数の期待値 (母集団分布の平均)離散型確率変数 (discrete random variable) X のとりえる値の集合が S = {x1, x2, . . .}であり,確率質量関数を fX(xi) = Pr(X = xi)と表すとき,X の期待値 E[X]は次のように定義される (e.g., サイコロの目).

E[X] = µ =∑

i

xifX(xi) (3)

連続確率変数 (continuous random variable) X の確率密度関数を fX(x)とするとき,Xの期待値 E[X]は次のように定義される (e.g., 身長).

E[X] = µ =∫ ∞

−∞xfX(x)dx (4)

確率変数の分散確率変数 X の (母集団分布の) 分散 V (X)を,次式で定義する.

V (X) = σ2 = E[(X − E[X])2] = E[X2] − (E[X])2 (5)

また,σ =√

V (X)を (母集団分布の) 標準偏差という.

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 1 / 6

補足:累積分布関数と確率密度関数累積分布関数 (cumulative distribution function, CDF)確率変数 X に対して,ある値 xについて事象「X ≤ x」が成立する (X が x以下になる) 確率を示す関数 FX(x)を,累積分布関数と呼ぶ

FX(x) = Pr(X ≤ x) =∫ x

−∞fX(x)dx (6)

確率密度関数 (probability density function, PDF)連続型確率変数 X が従う確率分布を表す関数 fX(x)のこと.連続型確率変数 X に対して,X が区間 [a, b]の値をとる確率が

Pr(a ≤ x ≤ b) =∫ b

a

fX(x)dx (7)

で与えられるときの fX(x)を,確率密度関数と呼ぶ.

fX(a) = limh→0

FX(a + h) − FX(a)h

= FX(x)dx

= F ′X(x) (8)

すなわち,PDFは CDFの導関数である.伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 2 / 6

補足:正規分布と確率密度関数

▶ 正規分布N (µ, σ2)の確率密度関数は,

f(x) = 1√2πσ2

exp(

− (x − µ)2

2σ2

)(9)

▶ 連続型確率変数 X が,a 以上 b 以下 (区間 [a, b]) の値をとる確率は

Pr(a ≤ x ≤ b) =∫ b

a

fX(x)dx (10)

▶ 連続型確率変数 X が特定の値 xに完全に一致する確率 Pr(X = x) = 0 (意味がない) なので,「a ≤ X ≤ b となる確率 Pr(a ≤ x ≤ b)」を考える (e.g., 正規分布から抽出された標本の値)

▶ 離散型確率変数 X なら確率質量関数 (probability mass function, PMF)fX(x) = Pr(X = x)を用いる (e.g., サイコロの目)

▶ µ ± σの区間の値をとる確率は,約 68%▶ µ ± 1.96σの区間の値をとる確率は,約 95%

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 3 / 6

補足:標準正規分布と正規分布の標準化▶ N (0, 1)を,標準正規分布 (standard normal distribution) と呼ぶ▶ 標準正規分布は µ = 0, σ = 1なので,PDFは (11)式

f(x) = 1√2π

exp(

−x2

2

)(11)

▶ 確率変数 X について,X ∼ N (µ, σ2) (12)

ならば,X − µ√

σ2= X − µ

σ= z ∼ N (0, 1) (13)

が成り立つ▶ すなわち,正規分布 N (µ, σ2)に従う確率変数 X は,定数倍・平行移動すると,標準正規分布 N (0, 1)に従う

▶ (1)式で出てきた正規分布の標準化は,この性質 (定理) のこと▶ Xn − E[X] ∼ N (0, σ2

X/n)を標準化すれば,Zn = Xn−E[X]√σ2

X/n

∼ N (0, 1)となる

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 4 / 6

再掲:R言語の基本的発想▶ オブジェクト:「何かしらの情報を保持する,名前をつきの入れ物」「Rで作成・操作したもの全般」

▶ R言語では,常にオブジェクトを用いてデータや解析結果を管理する▶ オブジェクトの単純な例は,下記の “x”

1 > x <- 1 + 1

▶ “<-” (ここでは “=” でもよい) は,「代入する」という意味▶ Rでは,統計処理を念頭に,複数の種類 (「型」) のオブジェクトが用意されている (演習資料で体験)

▶ よく使う「型」:vector, matrix, data.frame (tibble), list

▶ オブジェクトの「型」によって,保持できるデータ・情報や,可能な処理が異なる

▶ 一旦保持したオブジェクトの操作・加工や,一定の処理 (e.g., 数値の変換や回帰分析) を行なうことで,データを整理・可視化・解析する

1 > x2 <- x/22 > x23 [1] 1

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 5 / 6

再掲:R言語の基本的発想

▶ Rでは,上述のデータの「種類/尺度」に対応する形で,データの「型」が複数用意されている

▶ よく使うデータの「型」:double (実数), integer (整数), logical (論理値),character (文字列), factor (因子)

1 > x_num <- 1 + 12 > x_num3 [1] 24 > x_chr <- "2"5 > x_chr6 [1] "2"7 > class(x_num)8 [1] "numeric"9 > class(x_chr)

10 [1] "character"

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 6, 2017 6 / 6