rによる計量分析:データ解析と可視化 -...

74
R による計量分析:データ解析と可視化 5 伊藤 岳 富山大学 経済学部 2017 年度後期 Email: [email protected] November 13, 2017 伊藤 岳 (Toyama/NIHU) R による計量分析 (4 ) November 13, 2017 1 / 70

Upload: others

Post on 12-Jul-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rによる計量分析:データ解析と可視化第 5回

伊藤 岳

富山大学 経済学部 2017 年度後期

Email: [email protected]

November 13, 2017

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 1 / 70

Page 2: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Agenda

1 確率論の導入

2 大数の法則:シミュレーションと Rコードの解説

3 中心極限定理:シミュレーションと Rコードの解説

4 信頼区間:シミュレーションと Rコードの解説

5 事象の独立性と相関 (共分散)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 2 / 70

Page 3: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

確率分布としての母集団と標本

教科書第 2章の例

日本人の所得が,ある確率分布 (e.g., 正規分布) に従って生成されると考える 元の確率分布が分かれば,日本人の (無限の) 所得を知ることができたことになる このとき,確率分布に従って実現した値が標本,確率分布そのものが母集団 「無数の可能性からたまたま実現した標本」が,我々の手元にあるデータ

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 3 / 70

Page 4: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

試行・事象・確率

(以下の説明は標本空間が有限の場合)

ざっくりとした定義

試行 (trial):同じ条件下で繰り返すことのできる行為・試みのこと例 サイコロ投げ,コイン投げ

事象 (event):試行の結果起こる事柄のこと例 「コインを投げたら表が出た」「サイコロを投げたら 1が出た」

もう少し厳密な定義

事象:1回の試行の結果起こる得る根元事象・標本点の集合例 「サイコロを投げたら 1と 3が出た」

根元事象 (elementary event):それ以上分解できない事象 標本空間 (sample space): ある試行において起こる事象全体からなる集合

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 4 / 70

Page 5: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

試行・事象・確率

確率の公理有限の標本空間 Ωが与えられたとき,Ωの部分集合 E (事象) の任意のものについて値 Pr(E)が定まり,かつ次の 3つが成り立つとき,それを確率と呼ぶ

1 すべての E ⊂ Ωについて,0 ≤ Pr(E) ≤ 1 (確率なのだから 0から 1)2 Pr(Ω) = 1 (全事象が生じる確率は 1; Pr(∅) = 0)3 E1, E2, . . . ⊂ Ωが排反事象 (i = j ならば Ei ∩ Ej = ∅) のとき,

Pr

(∪i=1

Ei

)=∑

i

Pr(Ei)

(無限の標本空間の場合も,考え方は同じ: 1と 3の Ωを可測空間 F にする)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 5 / 70

Page 6: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

試行・事象・確率

事象と確率変数

事象:生じる確率を計算できる何かしらの現象 確率変数:生じた事象に応じて値が定まる変数のこと.試行の結果を「数」として示すもの例 1 サイコロを振って出た数例 2 コインを投げて出た面を,「表 = 1, 裏 = 0」のように数値化したもの

では,具体的に,どのような関数を採用する? (確率関数へ)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 6 / 70

Page 7: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

確率変数の期待値と分散確率変数の期待値 (母集団分布の平均)離散型確率変数 (discrete random variable; e.g., サイコロの目) X のとりえる値の集合がS = x1, x2, . . .であり,確率質量関数 (probability mass function, PMF) をfX(xi) = Pr(X = xi)と表すとき,X の期待値 E[X]は,

E[X] = µ =∑

i

xifX(xi). (1)

連続型確率変数 (continuous random variable; e.g., 身長) X の確率密度関数 (probabilitydensity function, PDF) を fX(x)とするとき,X の期待値 E[X]は,

E[X] = µ =∫ ∞

−∞xfX(x)dx. (2)

確率変数の分散確率変数 X の (母集団分布の) 分散 V (X)を,次式で定義する.

V (X) = σ2 = E[(X − E[X])2] = E[X2] − (E[X])2 (3)

また,σ =√

V (X)を (母集団分布の) 標準偏差という.

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 7 / 70

Page 8: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

累積分布関数と確率密度関数累積分布関数 (cumulative distribution function, CDF)確率変数 X に対して,ある値 xについて事象「X ≤ x」が成立する (X が x以下になる) 確率 (下側確率) を示す関数 FX(x)を,累積分布関数と呼ぶ

FX(x) = Pr(X ≤ x) =∫ x

−∞fX(x)dx (4)

確率密度関数 (probability density function, PDF)連続型確率変数 X が従う確率分布を表す関数 fX(x)のこと.連続型確率変数 X に対して,X が区間 [a, b]の値をとる確率が

Pr(a ≤ x ≤ b) =∫ b

a

fX(x)dx (5)

で与えられるときの fX(x)を,確率密度関数と呼ぶ.なお,

fX(a) = dFX(x)dx

= F ′X(x) (6)

すなわち,PDFは CDFの導関数である (CDFを微分すれば PDFを導出できる)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 8 / 70

Page 9: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

累積分布関数と確率密度関数

a b

Pr(a ≤ x ≤ b) =∫ b

a

fX(x)dxPr(x ≤ a) =∫ a

−∞fX(x)dx

面積 = 確率 (密度) と考える オレンジの面積: Pr(x ≤ a) =

∫ a

−∞fX(x)dx

青の面積: Pr(a ≤ x ≤ b) =∫ b

a

fX(x)dx

なお,∫ ∞

−∞fX(x)dx = 1 (確率の公理の 2)

CDF (FX(x)) と PDF (fX(x))の具体的な形は確率分布 (とその母数) によって様々伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 9 / 70

Page 10: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

累積分布関数と確率密度関数:連続一様分布連続一様分布 U(−10, 10)の CDF: 縦軸の最大値は 1

a = −10 0 b = 10

0.0

0.2

0.4

0.6

0.8

1.0

X

Cum

ulat

ive

dist

ribut

ion

連続一様分布 U(−10, 10)の PDF: 曲線の下の面積は 11

b − a

a = −10 0 b = 10

0.00

0.01

0.02

0.03

0.04

0.05

X

Pro

babi

lity

dens

ity

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 10 / 70

Page 11: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

累積分布関数と確率密度関数:標準正規分布標準正規分布N (0, 1)の CDF: 縦軸の最大値は 1

−1.96 0.00 1.96

0.0

0.2

0.4

0.6

0.8

1.0

X

Cum

ulat

ive

dist

ribut

ion

標準正規分布N (0, 1)の PDF: 曲線の下の面積は 1

−1.96 0.00 1.96

0.0

0.1

0.2

0.3

0.4

X

Pro

babi

lity

dens

ity

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 11 / 70

Page 12: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

累積分布関数と確率密度関数:指数分布指数分布 E(λ)の CDF: 縦軸の最大値は 1

0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

X

Cum

ulat

ive

dist

ribut

ion

Lambda = 2Lambda = 1Lambda = 0.5

指数分布 E(λ)の PDF: 曲線の下の面積は 1

0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

X

Pro

babi

lity

dens

ity

Lambda = 2Lambda = 1Lambda = 0.5

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 12 / 70

Page 13: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

正規分布と確率密度関数

正規分布N (µ, σ2)の確率密度関数は,

f(x|µ, σ2) = 1√2πσ2

exp(

− (x − µ)2

2σ2

)(7)

連続型確率変数 X が,a 以上 b 以下 (区間 [a, b]) の値をとる確率は

Pr(a ≤ x ≤ b) =∫ b

a

fX(x)dx (8)

連続型確率変数 X が特定の値 xに完全に一致する確率 Pr(X = x) = 0 (意味がない) なので,「a ≤ X ≤ b となる確率 Pr(a ≤ x ≤ b)」を考える (e.g., 正規分布から抽出された標本の値)

離散型確率変数X なら確率質量関数 fX(x) = Pr(X = x)を用いる (e.g., サイコロの目)

µ ± σの区間の値をとる確率は,約 68% µ ± 1.96σの区間の値をとる確率は,約 95%

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 13 / 70

Page 14: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

正規分布と確率密度関数

a b

∫ b

a

exp(

− (x−µ)2

2σ2

)√

2πσ2dx

µ µ + 1.96σµ − 1.96σ

特に,平均 0, 分散 1の標準正規分布N (0, 1)の確率密度関数は,

f(x|µ = 0, σ2 = 1) = 1√2π

exp(

−x2

2

)= ϕ(x) (9)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 14 / 70

Page 15: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

正規分布と確率密度関数

a b

∫ b

a

exp(

− (x−µ)2

2σ2

)√

2πσ2dx

µ µ + 1.96σµ − 1.96σ

正規分布に従う連続型確率変数 X が区間 [a, b]の値をとる確率は (面積の差分を取ればよいので),

Pr(a ≤ x ≤ b) =∫ b

a

fX(x)dx =∫ b

a

exp(

− (x−µ)2

2σ2

)√

2πσ2dx

=∫ b

−∞

exp(

− (x−µ)2

2σ2

)√

2πσ2dx −

∫ a

−∞

exp(

− (x−µ)2

2σ2

)√

2πσ2dx

X ∼ N (0, 1)なら,Φ(b) − Φ(a)で通じる:Φ′(x) = ϕ(x) =exp(

− x22

)√

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 15 / 70

Page 16: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

正規分布と確率密度関数

a b

∫ b

a

exp(

− (x−µ)2

2σ2

)√

2πσ2dx

µ µ + 1.96σµ − 1.96σ

ϕ(x) = 1√2π

exp(

− x2

2

)(PDF) と Φ(x) (CDF) は計量経済学/統計学で頻出

するので覚えておくこと例 この講義でも扱う (可能性のある) Probit model (GLMの一種)

コミュニケーション的に便利・楽 実際的にも,数表が 1つで済むので楽 (だった)

今はコンピュータに計算させればよいが,昔は大変だった (数表で確認) 先週導入した中心極限定理でも,Zn ∼ N (0, 1)に結びつけた理由の 1つはこれ

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 16 / 70

Page 17: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

正規分布と確率密度関数

正規分布の性質平均 µ, 標準偏差 σの正規分布N (µ, σ2)に従う確率変数X について,事象(event) µ − 1.96σ ≤ X ≤ µ + 1.96σが成立する確率は,ほぼ 95%である.

X が µ ± σの区間の値をとる確率は,約 68% X が µ ± 1.96σの区間の値をとる確率は,約 95%

µ µ + σµ − σ µ + 1.96σµ − 1.96σ

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 17 / 70

Page 18: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:正規分布と確率密度関数正規分布の性質が本当か確認してみる.N (0, 1)の場合:

1 > pnorm(1.96, mean = 0, sd = 1)2 [1] 0.97500213 > pnorm(-1.96, mean = 0, sd = 1)4 [1] 0.02499795 > pnorm(1.96, mean = 0, sd = 1) - pnorm(-1.96, mean = 0, sd = 1)6 [1] 0.9500042

N (10, 102)の場合:1 > pnorm(10+1.96*10, mean = 10, sd = 10)2 [1] 0.97500213 > pnorm(10-1.96*10, mean = 10, sd = 10)4 [1] 0.02499795 > pnorm(10+1.96*10, mean = 10, sd = 10) - pnorm(10-1.96*10, mean = 10, sd = 10)6 [1] 0.9500042

pnorm()は,正規分布の CDFを計算する関数 両端に約 2.5%ずつ = 合計約 5%あるので,µ ± 1.96σの範囲に約 95%が入る 各自,µと σが異なる正規分布でも計算してみる (どこを変えるのか考える)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 18 / 70

Page 19: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

大数の法則と中心極限定理

確認:大数の法則 (law of large numbers)ある同一の分布から独立に得られた大きさ (標本サイズ) nの標本X1, X2, . . . , Xn の標本平均をXn とする.また,この分布に従う確率変数X の期待値を E[X]とする.n → ∞のとき,Xn は E[X]に近づく.

大数の法則と中心極限定理

大数の法則は,標本平均の振舞い:n → ∞のとき,Xn が E[X]に近づく 中心極限定理は,標本平均と期待値の誤差の振舞い:n → ∞のとき,

Xn − E[X]は正規分布N (0, σ2X/n)に近づく

つまり,nを大きくすると,Xn − E[X]は小さくなり (大数の法則),Xn − E[X]の分布は正規分布N (0, σ2

X/n)に近づく (中心極限定理)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 19 / 70

Page 20: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

基礎概念のシミュレーション

シミュレーション (Rコードはすべて「演習資料」のページ)

1 大数の法則のシミュレーション:simulating_lln.R2 中心極限定理のシミュレーション:simulating_clt.R (前回の続きと解説)3 信頼区間のシミュレーション:simulating_ci.R

シミュレーションの目的と注意

シミュレーションでは,標本抽出を繰り返す (多数の標本を母集団から抽出する) ことができる

他方,実際に入手・観察できる標本は「たまたま実現した 1つのみ」 「ある統計的推定手法はどの程度信頼できるのか」「バイアスは生じないのか」を明らかにするために,仮想的な世界 (シミュレーション) を用いる

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 20 / 70

Page 21: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

手順:大数の法則のシミュレーション

1 p = 0.5の確率で表 (head) が出て,q = 1 − p = 0.5の確率で裏が出るコイン投げを,n回繰り返す

厳密にいうと,二項分布 (binomial distribution): X ∼ B(n, p) 二項分布:独立なベルヌーイ試行を n回行ったとき,ある事象が起こる回数を示す確率分布

ベルヌーイ試行:確率 pで “1,” 確率 p − 1で “0”になるような事象の (独立) 試行 「独立性」は相関を扱うときに解説

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 21 / 70

Page 22: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

手順:大数の法則のシミュレーション

2 「これまでに何度表が出たか」を計算し,nで割る 10回中 4回なら 0.4, 20回中 12回なら 0.6, etc. この要領で,長さ nの vector型オブジェクトを作る

オブジェクトの型:講義資料「R 言語の基礎,オブジェクトとその要素へのアクセス」

つまり,次のような vector型オブジェクト (の長さ n版) を作る1 > c(0/1, 0/2, 1/3, 1/4, 2/5, 3/6)2 [1] 0.0000000 0.0000000 0.3333333 0.2500000 0.4000000 0.5000000

3 結果をまとめて,プロットする4 nを変えて,以上を繰り返す (以下の図では,10から 10,000まで)

大数の法則に従えば,nが大きくなれば 0.5に近付くはず

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 22 / 70

Page 23: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

補足:大数の法則のシミュレーションベルヌーイ分布 (Bernoulli distribution):X ∼ Ber(p)

ベルヌーイ試行:確率 pで “1” (e.g., 成功),確率 p − 1で “0” (失敗) になる試行(2つだけ)

ベルヌーイ分布:ベルヌーイ試行を行なったときに,ある事象 (多くは “1”の「成功」) が生起する確率の確率分布

ベルヌーイ分布の確率質量関数:f(x) = px(1 − p)1−x, x ∈ 0, 1 母数は p, 期待値 E[X] = µ = p, 分散 V (X) = σ2 = p(1 − p)

二項分布 (binomial distribution):X ∼ B(n, p)

独立なベルヌーイ試行を n回行ったとき,ある事象 (e.g., 成功) が起こる回数を示す確率分布

k = 0, 1, . . . , nを「表が出る回数」とすれば,確率質量関数は

Pr(X = k) =(

n

k

)pkqn−k. なお,

(n

k

)= nCk = n!

k!(n − k)! 母数は n, p, 期待値 E[X] = µ = np, 分散 V (X) = σ2 = np(1 − p)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 23 / 70

Page 24: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:大数の法則のシミュレーション (n = 10)

N coin toss (logged)

Pr(

head

s)

0.0 0.5 1.0 1.5 2.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

1 10

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 24 / 70

Page 25: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:大数の法則のシミュレーション (n = 100)

N coin toss (logged)

Pr(

head

s)

0 1 2 3 4

0.2

0.3

0.4

0.5

0.6

0.7

0.8

1 10 100

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 25 / 70

Page 26: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:大数の法則のシミュレーション (n = 1, 000)

N coin toss (logged)

Pr(

head

s)

0 1 2 3 4 5 6 7

0.2

0.3

0.4

0.5

0.6

0.7

0.8

1 10 100 1000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 26 / 70

Page 27: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:大数の法則のシミュレーション (n = 10, 000)

N coin toss (logged)

Pr(

head

s)

0 2 4 6 8

0.2

0.3

0.4

0.5

0.6

0.7

0.8

1 10 100 1000 10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 27 / 70

Page 28: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:大数の法則のシミュレーション

10回の (正しい) コイン投げ (fair coin toss): p = 0.51 > library(stringr)2 > n_toss = 10 ## n: number of trials3 > pr_head = 0.5 ## p: probability of "omote"4 > rbinom(n_toss, size = 1, prob = pr_head)5 [1] 1 0 0 1 0 1 1 1 0 0

Rコードの URL: http://cfes-project.eco.u-toyama.ac.jp/wp-content/uploads/simulating_lln.r

講義では解説のみにするので,各自復習として Rコードを実行しておくこと 上の URLの Rコードを開きながら聞くと分かりやすい (はず) “>”は Rのコンソールに出てるので入力不要 (「実行結果」を示すためにつけてる)

以下のコードでも用いる,seq()関数や c()関数については,講義資料「R言語の基礎,オブジェクトとその要素へのアクセス」を参照 (いずれもベクトル型オブジェクトを作る関数)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 28 / 70

Page 29: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:大数の法則のシミュレーション10,000回の (連続した) コイン投げ

1 > ## Many coin tosses2 > set.seed(123456) ## random seed3 > n_toss = 10^4 ## n: number of trials4 > pr_head = 0.5 ## p: probability of "omote"5 > simz = rbinom(n_toss, size = 1, prob = pr_head) ## a random coin toss6 >7 > ## Skim the first 10 results8 > head(simz, n = 10)9 [1] 1 1 0 0 0 0 1 0 1 0

コイン投げの結果をまとめる1 > ## Divide by the cumulative number of trials2 > divide_by = seq(1:n_toss) ## c(1, 2, 3,...,n_toss)3 > simz = cumsum(simz)/divide_by

cumsum()関数は累積和を計算する関数:上では「表」の合計回数の計算に使用1 > ## See what cumsum() function does2 > simple_vec = seq(1:10)3 > sum(simple_vec) ## simple sum4 [1] 555 > cumsum(simple_vec) ## cumulative sum6 [1] 1 3 6 10 15 21 28 36 45 55

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 29 / 70

Page 30: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:大数の法則のシミュレーション

保存先のディレクトリ (フォルダ) のパスを設定する (ここでコケないように!)1 ########## 下記の fig_dir (図の保存先フォルダ)は各自の環境にあわせて置き換える##########2 fig_dir = "/Users/Gaku/Desktop/Rworkspace"3 setwd(fig_dir) ## all figures will be saved under this directory

結果を図にして保存する1 ## Figure settings2 fig_cex = .85 ## font size3 fig_margin = c(5, 4, 1, 1.25) ## margin: c(bottom, left, top, right)4 fig_height = 4 ## figure height56 ## Plot the simulation results7 pdf("simulation_lln.pdf", width = plt_ratio(fig_height), height = fig_height)8 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin9 pm_y = 0.3 ## you can modify this: e.g., 0.1 to zoom up

10 ylimz = c(pr_head-pm_y, pr_head+pm_y) ## y-axis range11 plot(x = log(1:n_toss), y = simz, type="l", lwd = .85, col = "royalblue3", main = "",

xlab = "Ncointoss(logged)", ylab = "Pr(heads)", ylim = ylimz, yaxs = "i")12 abline(h = pr_head, col = "firebrick3", lwd = 1.25)13 dev.off()

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 30 / 70

Page 31: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:大数の法則のシミュレーション

図を直接保存せず,RStudio内で直接開きたい場合は,次のコードになる ここまでのコードを実行済みなら,以下コピペで可能 RStudioの “Plots”パネルに図が描画される

1 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin2 pm_y = 0.3 ## you can modify this: e.g., 0.1 to zoom up3 ylimz = c(pr_head-pm_y, pr_head+pm_y) ## y-axis range4 plot(x = log(1:n_toss), y = simz, type="l", lwd = .85, col = "royalblue3", main = "",

xlab = "Ncointoss(logged)", ylab = "Pr(heads)", ylim = ylimz, yaxs = "i")5 abline(h = pr_head, col = "firebrick3", lwd = 1.25)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 31 / 70

Page 32: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

再掲:大数の法則と中心極限定理

大数の法則と中心極限定理

大数の法則は,標本平均の振舞い:n → ∞のとき,Xn が E[X]に近づく 中心極限定理は,標本平均と期待値の誤差の振舞い:n → ∞のとき,

Xn − E[X]は正規分布N (0, σ2X/n)に近づく

つまり,nを大きくすると,Xn − E[X]は小さくなり (大数の法則),Xn − E[X]の分布は正規分布N (0, σ2

X/n)に近づく (中心極限定理)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 32 / 70

Page 33: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

手順:中心極限定理のシミュレーション (前回の続き)

1 連続一様分布 X ∼ U(−10, 10)から,大きさ (標本サイズ) nの標本を抽出 U(−10, 10)は,最小値 −10, 最大値 10の連続一様分布

X ∼ U(a, b), f(x) = 1

b−aa ≤ x ≤ b

0 x < a or x > b 期待値 (母平均) は,(−10 + 10)/2 = 0

2 標本平均Xn を計算して,記録する3 以上の作業をm回繰り返す4 m回の結果をまとめて,標本平均Xn の分布をプロットする5 標本サイズ nを変化させ,以上の作業を繰り返す

シミュレーション (標本抽出) 回数はm = 10, 000に固定する

標本サイズは n, 標本数はm

現実には,我々は 1つの標本しか得られないことに注意 (m = 1)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 33 / 70

Page 34: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

シミュレーションで用いる連続一様分布U(−10, 10)D

ensi

ty

−10 −5 0 5 10

0.00

0.02

0.04

0.06

0.08

0.10

この図では,標本平均Xn = −0.014 (期待値 E[X] = (−10 + 10)/2 = 0) 標本平均の分布:Xn ∼ N (E[X], σ2

X/n) 標本平均と期待値の誤差の分布:Xn − E[X] ∼ N (0, σ2

X/n)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 34 / 70

Page 35: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:中心極限定理のシミュレーション

一様分布を生成して,プロットする (パッケージの読み込み部分も先に実行しておくこと)

1 ## Figure settings2 fig_cex = .85 ## font size3 fig_margin = c(5, 4, .6, .5) ## margin: c(bottom, left, top, right)4 set.seed(123) ## set random seed for replication5 unif_range = c(-10, 10) ## set min and max values6 sample_size = 10^5 ## sample size N7 unif_dist = runif(sample_size, min = unif_range[1], max = unif_range[2]) ## uniform

distribution8 fig_height = 4 ## figure height9 pdf("uniform_sample.pdf", width = plt_ratio(fig_height), height = fig_height)

10 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin11 hist(unif_dist, freq = FALSE, col = "ivory2", main = "", xlab = "", ylim = c(0,0.1),

breaks = 30) ## draw a histgram12 abline(v = mean(unif_range), col = "red3", lwd = 2) ## add a reference line13 box()14 dev.off()

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 35 / 70

Page 36: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:中心極限定理のシミュレーションn = 100, m = 10, 000のシミュレーションを実行し,結果をプロットする

1 ## Set sample size (n) and number of simulations (m)2 sample_size = 10^2 ## sample size = 1003 n_simulations = 10^4 ## N draws (simulations) = 10,00045 ## Prepare a matrix object to store results6 sample_mean_matrix = matrix(nrow = n_simulations, ncol = 1)7 colnames(sample_mean_matrix) = sample_size ## rename column8 head(sample_mean_matrix) ## skim the first 6 rows9

10 ## Simulation11 for(j in 1:n_simulations)12 tmp_sample = runif(sample_size, min = unif_range[1], max = unif_range[2])13 sample_mean_matrix[j,1] = mean(tmp_sample)14 1516 ## Histogram17 fig_height = 4 ## figure height18 pdf("uniform_clt_sample.pdf", width = plt_ratio(fig_height), height = fig_height)19 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin20 hist(sample_mean_matrix, freq = FALSE, col = "ivory2", main = "", xlab = "", breaks =

40) ## draw a histgram21 abline(v = mean(unif_range), col = "red3", lwd = 2) ## add a reference line22 box()23 dev.off()

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 36 / 70

Page 37: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:中心極限定理のシミュレーション

n = 1, 2, 5, 10, 102, 103 のシミュレーションをまとめて実行する1 set.seed(123) ## set random seed for replication2 vec_sample_size = c(1, 2, 5, 10, 10^2, 10^3) ## try various sample sizes3 n_simulations = 10^4 ## N draws4 ## Prepare a matrix object to store results5 sample_mean_matrix = matrix(nrow = n_simulations, ncol = length(vec_sample_size))6 colnames(sample_mean_matrix) = vec_sample_size78 ## Simulations for different sample sizes9 for(i in 1:length(vec_sample_size))

10 ## Set sample size11 sample_size = vec_sample_size[i]12 ## Draw13 for(j in 1:n_simulations)14 tmp_sample = runif(sample_size, min = -10, max = 10)15 sample_mean_matrix[j,i] = mean(tmp_sample)16 17

これで,nを変化させたシミュレーションを自動で実行できる

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 37 / 70

Page 38: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:中心極限定理のシミュレーション

結果のプロットもまとめて行なう1 ## Plot the results2 fig_height = 4 ## figure height3 for (i in 1:length(vec_sample_size)) 4 ## Figure name (path)5 fig_name = file.path(fig_dir, str_c("unif_clt_n_", vec_sample_size[i], "_m_", n_

simulations, ".pdf"))6 pdf(fig_name, width = plt_ratio(fig_height), height = fig_height)7 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin8 hist(sample_mean_matrix[,i], freq = FALSE, col = "ivory2", main = "", xlab = "",

breaks = 40) ## draw a histgram9 abline(v = mean(unif_range), col = "red3", lwd = 2) ## add a reference line

10 text_label = str_c("n=", vec_sample_size[i], ",m=", n_simulations) ## simulationsettings

11 mtext(text_label, side = 1, line = 2.25, cex = .85) ## add as axis label12 box()13 dev.off()14

配布したコードのこれ以下の部分は,一様分布を他の分布 (指数分布と双峰型分布) に変更して同じことをしている (コードの一般的な構造は同一)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 38 / 70

Page 39: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:中心極限定理のシミュレーション (n = 2)D

ensi

ty

−10 −5 0 5 10

0.00

0.02

0.04

0.06

0.08

0.10

n=2, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 39 / 70

Page 40: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:中心極限定理のシミュレーション (n = 100)D

ensi

ty

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

n=100, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 40 / 70

Page 41: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:中心極限定理のシミュレーション (n = 1000)D

ensi

ty

−0.5 0.0 0.5

0.0

0.5

1.0

1.5

2.0

n=1000, m=10000

標本サイズ nを大きくすると,標本平均の分布は正規分布に近付く 標本サイズ nを大きくすると,横軸は狭くなる (目盛りに注意) Xn ∼ N (E[X], σ2

X/n)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 41 / 70

Page 42: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

指数分布 (exponential distribution) にも通用する?D

ensi

ty

0 1 2 3 4 5

0.0

0.5

1.0

1.5

「歪んだ」分布の典型例:X ∼ E(λ), f(x) =

λe−λx x ≥ 00 x < 0

ただし,λ > 0 指数分布の期待値 (母平均) は E[X] = 1

λ , 分散は( 1

λ

)2 = 1λ2

上の指数分布は λ = 2なので,E[X] = 1λ = 0.5

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 42 / 70

Page 43: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:中心極限定理のシミュレーション (n = 1000)D

ensi

ty

0.44 0.46 0.48 0.50 0.52 0.54 0.56

05

1015

2025

n=1000, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 43 / 70

Page 44: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

双峰型分布D

ensi

ty

0 20 40 60

0.00

0.01

0.02

0.03

0.04

0.05

もっと「変に」する:「山」が 2つある分布 (双峰型分布) 上の例は,正規分布を 2つ足し合わせた分布:N (0, 4)とN (30, 10)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 44 / 70

Page 45: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

シミュレーション結果:n = 1000D

ensi

ty

13 14 15 16 17

0.0

0.2

0.4

0.6

n=1000, m=10000

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 45 / 70

Page 46: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

信頼区間

中心極限定理の帰結 (正規分布が出てくると何が嬉しいのか)ある同一の分布から独立に得られた大きさ (標本サイズ) nの標本X1, X2, . . . , Xn の平均をXn, 分散を σ2

X とする.また,この分布に従う確率変数X の期待値を E[X]とする.標本の大きさ nが大きいとき (n → ∞の極限で),以下の不等式が,95%の確率で近似的に成立する.

Xn − 1.96√

σ2X/n ≤ E[X] ≤ Xn + 1.96

√σ2

X/n (10)

標本平均 Xn の分布は,正規分布N (E[X], σ2X/n)に従う

母数を 95%の精度で含む 95%信頼区間を計算できる! (解釈に注意) 統計的推定・検定の基礎になる定理 = 正規分布が「大事にされる」理由

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 46 / 70

Page 47: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

信頼区間

中心極限定理と信頼区間

(10) 式の区間を E[X]の 95%信頼区間 (confidence interval, CI) と呼ぶ 標準誤差 (standard error, SE):

√σ2

X/n = σX/√

n (不偏) 標準偏差 σX を

√n (標本サイズ nの平方根) で割った値

つまり,95% CI は [Xn − 1.96SE, Xn + 1.96SE] 95%信頼区間を使って,母数を推定できる

統計的推定で問題になるのは,標本統計量と母数の誤差 誤差 (Xn − E[X]) が正規分布に従うなら,正規分布の性質を利用して信頼区間を計算できる

nが大きくない場合は,(正規分布ではなく) t分布で近似する

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 47 / 70

Page 48: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

信頼区間 中心極限定理より,Zn = Xn−E[X]√

σ2X

/n∼ N (0, 1)

したがって,事象 −1.96 ≤ Zn ≤ 1.96が成立する確率は,約 95%(Zn ∼ N (0, 1)に注意)

ここから,(10)式 (95%信頼区間) が導出できる

−1.96 ≤ Zn = Xn − E[X]√σ2

X/n≤ 1.96

⇐⇒ Xn − 1.96√

σ2X/n ≤ E[X] ≤ Xn + 1.96

√σ2

X/n

µ = 0 µ + 1.96σ = 1.96µ − 1.96σ = 1.96

2.5% 2.5%

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 48 / 70

Page 49: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

確認:中心極限定理と信頼区間のありがたみ

中心極限定理と信頼区間の整理

標本サイズ nが十分に大きければ,元の分布がどんなものであれ, 標本平均の分布:Xn ∼ N (E[X], σ2

X/n) 標本平均と期待値の誤差の分布:Xn − E[X] ∼ N (0, σ2

X/n) Zn = Xn−E[X]√

σ2X

/n∼ N (0, 1) (正規分布の標準化)

ただし,元の分布に平均値と分散が存在すれば つまり,例外的な分布もある:e.g., コーシー分布,一部のベキ乗分布

信頼区間を使って,母数を (区間) 推定できる SE =

√σ2

X/nと正規分布の性質を踏まえると,E[X]の 95%信頼区間[Xn − 1.96SE, Xn + 1.96SE] が得られる

統計的推定で問題になるのは,標本統計量と母数の誤差 誤差が正規分布なら,正規分布の性質を利用して統計的推定・検定ができる

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 49 / 70

Page 50: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

信頼区間の解釈と注意何の信頼度合いかα%信頼区間:1つの標本から得られた区間の信頼度ではなく,区間を求める手続きの信頼度を示す誤 「手元の標本から 95%信頼区間を計算した.この信頼区間の中に母数が含まれる確率は 95%だ」

ざっくりした例 (再掲) と解釈「母集団から 100回標本をとってきて,各々の標本平均 (あるいは,他の統計量) から母平均の 95%信頼区間を求めるという作業を繰り返したとき,95回については 95%信頼区間の中に母平均が含まれる」

標本数が 100だから,95%信頼区間も 100個得られる (100回打席に立つ) 100個の 95%信頼区間のうち 95個は母平均を含み,5個は含まない (95回はヒット) 「手元の標本」から得た信頼区間は,「たまたま」母平均を含まないかも (凡打かも) とはいえ,「5%よりも 95%の方にいるだろう」と考える (ヒットだろう) このとき,「母平均を含む信頼区間の割合」が信頼係数 α (「打率 9割 5分のすごいイチロー」が 95%信頼区間)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 50 / 70

Page 51: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

手順:信頼区間のシミュレーション

1 連続一様分布 X ∼ U(−10, 10)から,大きさ (標本サイズ) n = 1, 000の標本を抽出

U(−10, 10)は,最小値 −10, 最大値 10の連続一様分布

X ∼ U(a, b), f(x) = 1

b−aa ≤ x ≤ b

0 x < a or x > b 期待値 (母平均) は,(−10 + 10)/2 = 0

2 1回毎に,標本平均と 95%信頼区間を計算して記録する3 以上の作業をm = 10, 000回繰り返す4 m回の結果をまとめて,95%信頼区間をプロットする

ただし,図にする際は見やすいよう,1, 000の標本の結果をランダムに抽出

中心極限定理 (と正規分布の性質) に従えば,10, 000の 95%信頼区間のうち約 95%は期待値を含むはず (5%は含まない)

現実には,我々は 1つの標本しか得られないことに注意 (標本数m = 1)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 51 / 70

Page 52: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:信頼区間のシミュレーション

1 100 200 300 400 500 600 700 800 900 1000

−1.

0−

0.5

0.0

0.5

1.0

Simulation ID

95%

Con

fiden

ce In

terv

al

1,000回中,941回 (94.1%) が母平均を捉え,59回 (5.9%) が捉えていない 10,000回中では,9,484回 (94.8%) と 516回 (5.2%) 「過小評価」(左端) もあれば「過大評価」(右端) もある 手元の標本から得た 95%信頼区間は,「真ん中」かもしれないし「端」かもしれない (統計的推定の不確実性)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 52 / 70

Page 53: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

結果:信頼区間のシミュレーション

−0.5 0.0 0.5

0.0

0.5

1.0

1.5

2.0

2.5

Sample mean

Den

sity

このとき,標本平均Xnの分布はN (0, σ2X/n)で近似できる (中心極限定理;

E[X] = 0に注意) 中心極限定理のシミュレーションとは「同じものを違う角度からみている」

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 53 / 70

Page 54: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:信頼区間のシミュレーション

最初の方の設定やパッケージの読み込みは今までと共通なのでスライドでは省略(実行は必須)

1 > ## Set sample size (n) and number of simulations (m)2 > sample_size = 10^3 ## sample size = 10003 > n_simulations = 10^4 ## N draws (simulations) = 10,0004 > ## Min and max values (parameters) of uniform distribution5 > unif_range = c(-10, 10)6 > ## True mean? (should be (-10+10)/2 = 0)7 > expected_value = mean(unif_range)8 > ## Empty matrix object with n_simulations length9 > result_matrix = matrix(NA, nrow = n_simulations, ncol = 6)

10 > ## Add true mean (expected value) as the 5th column11 > result_matrix[,5] = expected_value12 > ## Rename columns13 > colnames(result_matrix) = c("sample_mean", "sample_variance", "ci_lower", "ci_upper",

"expected_value", "nice_ci")14 > head(result_matrix, n = 3)15 sample_mean sample_variance ci_lower ci_upper expected_value nice_ci16 [1,] NA NA NA NA 0 NA17 [2,] NA NA NA NA 0 NA18 [3,] NA NA NA NA 0 NA

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 54 / 70

Page 55: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:信頼区間のシミュレーション

for文を使って,以下の作業を 10,000 (n_simulations) 回繰り返す1 一様分布から大きさ 1,000の標本を抽出し2 信頼区間を計算する

1 ## Repetition using a for loop2 for(i in 1:n_simulations)3 ## Draw a sample4 ith_sample = runif(sample_size, min = unif_range[1], max = unif_range[2])56 ## Calculate and store sample mean and variance7 sample_mean = mean(ith_sample)8 sample_variance = var(ith_sample)9 result_matrix[i,1] = sample_mean

10 result_matrix[i,2] = sample_variance1112 ## Calculate and store CI13 result_matrix[i,3] = sample_mean - 1.96*sqrt(sample_variance/sample_size)14 result_matrix[i,4] = sample_mean + 1.96*sqrt(sample_variance/sample_size)15 16 head(result_matrix, n = 3) ## skim the results

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 55 / 70

Page 56: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:信頼区間のシミュレーション

結果を綺麗にして,確認する.matrixオブジェクトを tibbleオブジェクトに変換すると分かりやすい

1 > result_matrix = tbl_df(result_matrix) ## convert object class2 > result_matrix ## skim it3 # A tibble: 10,000 x 64 sample_mean sample_variance ci_lower ci_upper expected_value nice_ci5 <dbl> <dbl> <dbl> <dbl> <dbl> <lgl>6 1 -0.10835783 32.94505 -0.4641129 0.2473973 0 TRUE7 2 0.00225444 34.21742 -0.3603054 0.3648143 0 TRUE8 3 0.01322800 33.46065 -0.3453001 0.3717561 0 TRUE9 4 -0.01196082 33.73306 -0.3719454 0.3480238 0 TRUE

10 5 -0.11172662 32.60768 -0.4656555 0.2422023 0 TRUE11 6 0.03035974 31.97566 -0.3201224 0.3808419 0 TRUE12 7 -0.03196303 32.86246 -0.3872719 0.3233459 0 TRUE13 8 -0.09431571 33.13859 -0.4511143 0.2624828 0 TRUE14 9 -0.22712681 31.80207 -0.5766562 0.1224026 0 TRUE15 10 0.03443083 31.67815 -0.3144170 0.3832786 0 TRUE16 # ... with 9,990 more rows

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 56 / 70

Page 57: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:信頼区間のシミュレーション

それぞれの 95% CIが,期待値を含むか否かを示す変数 nice_ciを作る1 result_matrix = result_matrix %>%2 mutate(3 nice_ci = ifelse(4 ci_lower < expected_value & expected_value < ci_upper, ## ci_lower < expected

value < ci_upper or not?5 TRUE, ## "nice" if true6 FALSE ## "bad" if false7 )8 )

結果を確認する1 > table(result_matrix$nice_ci)2 FALSE TRUE3 511 9489

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 57 / 70

Page 58: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:信頼区間のシミュレーション

結果をプロットする.まずは色とかの設定1 ## Figure settings2 fig_cex = .85 ## font size3 fig_margin = c(3.25, 3.25, .6, .5) ## margin: c(bottom, left, top, right)4 fig_height = 4 ## figure height5 nice_color = "gray20"6 bad_color = "gray80"7 true_color = "dodgerblue2"

10,000を全部プロットすると見にくいので,1,000の結果をランダムに抽出1 set.seed(123)2 result_subset = sample_n(result_matrix, size = 1000)3 result_subset4 result_subset = result_subset %>%5 arrange(ci_upper) %>%6 mutate(7 id = row_number(), ## add ID variable8 color = ifelse(nice_ci, nice_color, bad_color) ## add color9 )

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 58 / 70

Page 59: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

Rコード:信頼区間のシミュレーション

保存先の pdfファイルの名前やらを設定1 pdf(str_c("simulation_ci_n_", sample_size, "_m_", n_simulations, ".pdf"), width = plt_

ratio(fig_height), height = fig_height)2 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin3 xlimz = c(1-3, nrow(result_subset)+3) ## x-axis range4 ylimz = c(-1, 1) ## y-axis range

順次プロットする1 ## Draw segments2 plot(0,0, type="n", main = "", xlab = "", ylab = "", axes = FALSE, xlim = xlimz, ylim =

ylimz, xaxs = "i", yaxs = "i") ## empty plot3 segments(x0 = result_subset$id, y0 = result_subset$ci_lower, y1 = result_subset$ci_upper

, col = result_subset$color, lwd = 1, lend="square") ## individual CIs4 abline(h = result_subset$expected_value, col = true_color) ## expected value5 ## Add axis and label6 axis(1, at = c(1, seq(from = 50, to = nrow(result_subset), by = 50)) ) ## add x-axis7 axis(2) ## add y-axis8 mtext("SimulationID", side = 1, cex = fig_cex, line = 2.25) ## x-axis label9 mtext("95%ConfidenceInterval", side = 2, cex = fig_cex, line = 2.25) ## x-axis label

10 box() ## draw box11 dev.off() ## close devise

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 59 / 70

Page 60: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関係数と共分散相関関係の単純な解釈

正の相関関係:X と Y が比例 (右上がり) する例 身長と体重,年収と老眼率

負の相関関係:X と Y が反比例 (右下がり) する例 高齢者人口とゴミ排出量,居住階と妊娠率

相関関係の測り方

1 (Pearson’s) 相関係数 r:2つの変数の共変関係の強弱 (共分散) を,−1 (負の完全相関) から 1 (正の完全相関) の数値で表したもの

強弱の目安として,|r| ≤ 0.3 (0.4) や |r| ≥ 0.7が,あるにはある 非線形な関係にあることが分かっていれば,他の指標を使う:スピアマンの順位相関係数 (Spearman’s rank correlation coefficient; Spearman’s ρ), ケンドールの順位相関係数 (Kendall’s rank correlation coefficient; Kendall’s τ)

2 散布図 (scatter plot):2つの変数をX 軸と Y 軸にとった図 「点」の 1つ 1つは,「個人」や「自治体」のような観察 (observation)

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 60 / 70

Page 61: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関係数と共分散

相関係数 (ピアソンの積率相関係数) r

標本サイズ nの 2つの標本 x = (x1, x2, . . . , xn)と y = (y1, y2, . . . , yn)について,それぞれの標本平均を xn と yn とするとき,xと yの (ピアソンの) 相関係数([Pearson’s] correlation coefficient) rxy は,次式で定義される.

rxy =∑n

i=1(xi − xn)(yi − yn)√∑ni=1(xi − xn)2

√∑ni=1(yi − yn)2

(11)

相関係数は −1 ≤ r ≤ 1の値をとり,r = 0のときは無相関,|r| = 1のときは完全な相関がある.xと yの共分散 (covariance) を sxy, それぞれの標準偏差を sx と sy とするとき,

rxy = sxy

sxsy(12)

とも表せる.

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 61 / 70

Page 62: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関係数と共分散共分散

(11)式の分子に注目すると,「偏差 (平均からのズレ) の掛け算 (偏差積) の合計」:∑n

i=1(xi − xn)(yi − yn)

これを (標本分散と同じ) n − 1 で割った値 sxy =∑n

i=1(xi − xn)(yi − yn)n − 1 を,(標

本) 共分散 (covariance) という (分散の 2変数版)

相関係数と共分散の関係

(11)式の分母に注目すると,分子と同じく n − 1で割れば「標準偏差の掛け算」:√∑n

i=1(xi − xn)2√∑n

i=1(yi − yn)2

n − 1

=

√∑n

i=1(xi − xn)2

n − 1

√∑n

i=1(yi − yn)2

n − 1 = sxsy (13)

(12)式:共分散を標準偏差の積で割り,−1から 1の間に正規化した値が相関係数 r

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 62 / 70

Page 63: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関関係と散布図:仮想的な例

強い正の相関 (r = 0.9)

−3 −2 −1 0 1 2 3

−4

−2

02

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 63 / 70

Page 64: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関関係と散布図:仮想的な例

強い負の相関 (r = −0.9)

−3 −2 −1 0 1 2 3

−4

−2

02

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 64 / 70

Page 65: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関関係と散布図:仮想的な例

弱い正の相関 (r = 0.3)

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 65 / 70

Page 66: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関関係と散布図:仮想的な例

弱い負の相関 (r = −0.3)

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 66 / 70

Page 67: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

相関関係と散布図:仮想的な例

無相関 (r = 0)

−3 −2 −1 0 1 2 3

−4

−2

02

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 67 / 70

Page 68: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

独立性

事象の独立性2つの事象 Aと B が起きる確率を,それぞれ Pr(A)と Pr(B)とする.このとき,事象 Aと Bが独立 (independent) であるとは,事象 Aと Bがが同時に起きる確率 Pr(A ∩ B)について,

Pr(A ∩ B) = Pr(A) × Pr(B)

が成り立つことをいう.

確率変数の独立性2つの確率変数X と Y が独立であるとは,X に関する事象と Y に関する事象が常に独立であることを示し,

X |= Y

が成り立つことをいう.

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 68 / 70

Page 69: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

独立性と相関係数 (共分散)

「相関係数」には種類があるが,単に「相関係数」といった場合にはPearsonの積率相関係数 rを指すことが多い

他の相関係数:Spearman’s ρ, Kendall’s τ

「2つの確率変数は独立」:2つの確率変数の間に「いかなる関係もない」 「2つの確率変数の相関係数が 0」:2つの確率変数の間に「比例的な関係はない」

2つの確率変数が独立であれば,相関係数は 0になる 他方,相関係数が 0でも,2つの確率変数が独立とは限らない

比例的ではない関係がある場合もあるから 相関係数 r が捉えるのは,2つの変数の直線的 (線形的 linear) な関係の強弱例 二次関数的な関係:教科書第 3章の図 3.2例 V字型の関係:副読本 浅野・矢内本第 9章の図 9.5

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 69 / 70

Page 70: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

次回講義と課題

次回講義 今日の続き (シミュレーション) 二次元のデータの可視化と諸々Rの使い方まとめ (解説)

文献と課題必須 星野・田中『Rによる実証分析』第 1–3, 6章 (教科書)推奨 Gelman & Hill. Data analysis. Chap. 1–2 (教科書)推奨 浅野・矢内『Stataによる計量政治学』第 3, 5–9章 (副読本)推奨 伊藤『データ分析の力』第 1–2章 (副読本)推奨 森田『実証分析入門』第 1–3章 (副読本)課題 (1) 講義資料「R言語の基礎,オブジェクトとその要素へのアクセス」と「R

によるデータの読み込みと書き出し」を RStudioで練習しておくこと.(2) シミュレーションを再度行ってみること (できれば nを変えて)

中間課題 (1) もそろそろ出るので注意 (11月後半) 出題から提出までは 1–2週間とります オフィスアワー +αをとるので,やばそうならヘルプを求めること PCの買替え予定があれば,応相談

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 70 / 70

Page 71: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

補足・再掲:中心極限定理

中心極限定理 (central limit theorem, CLT)ある同一の分布から独立に得られた大きさ (標本サイズ) nの標本X1, X2, . . . , Xn の平均をXn, 分散を σ2

X とする.また,この分布に従う確率変数X の期待値を E[X]とする.標本の大きさ nが大きくなるにつれ (n → ∞の極限で),以下の統計量 Zn (Xn − E[X]は標本平均と母平均の誤差) は,平均 0,標準偏差 1の正規分布 (標準正規分布) N (0, 1)に近づく (弱収束する).

Zn = Xn − E[X]√σ2

X/n(14)

標本サイズ nが十分に大きければ,元の分布どんなものであれ,誤差Xn − E[X]がN (0, σ2

X/n)に近付く,でも同じ意味 正規分布の標準化を使えば,(14)式が得られる (補足スライド) ただし,元の分布に平均値と分散が存在すれば 平均 µ, 標準偏差 σ (分散 σ2) の正規分布を,一般的に N (µ, σ2)と書く

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 1 / 4

Page 72: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

補足:標準正規分布と正規分布の標準化 N (0, 1)を,標準正規分布 (standard normal distribution) と呼ぶ 標準正規分布は µ = 0, σ = 1なので,PDFは (15)式

f(x) = 1√2π

exp(

−x2

2

)= ϕ(x) (15)

確率変数 X について,X ∼ N (µ, σ2) (16)

ならば,X − µ√

σ2= X − µ

σ= z ∼ N (0, 1) (17)

が成り立つ すなわち,正規分布 N (µ, σ2)に従う確率変数 X は,定数倍・平行移動すると,標準正規分布 N (0, 1)に従う

(14)式で出てきた正規分布の標準化は,この性質 (定理) のこと Xn − E[X] ∼ N (0, σ2

X/n)を標準化すれば,Zn = Xn−E[X]√σ2

X/n

∼ N (0, 1)となる

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 2 / 4

Page 73: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

補足:信頼区間

α%信頼区間の αを信頼係数 (confidence coefficient)と呼ぶ 慣習的な信頼係数:95%, 90%, 99% (原理的には,94%, 96%, etc.でもよい) それぞれ,5%有意,10%有意,1%有意に対応する つまり,p < 0.05, p < 0.1, p < 0.01 (「第一種過誤 (Type I/α error)」(偽陽性)をおかす危険率が 5%, 10%, 1%)

「第一種過誤 (Type I/α error)」:帰無仮説 H0 (e.g.,「病気ではない」) が真にもかかわらず,H0 を棄却してしまう誤り

区間推定 (interval estimation):「幅」を持たせた推定 ざっくりした例:「母集団から 100回標本をとってきて,各々の標本平均 (あるいは,他の統計量) から母平均の 95%信頼区間を求めるという作業を繰り返したとき,95回については 95%信頼区間の中に母平均が含まれる」

「幅」を持たせる区間推定に対して,1つの値で母数を推定することを点推定(point estimation) と呼ぶ

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 3 / 4

Page 74: Rによる計量分析:データ解析と可視化 - 第5回...Rによる計量分析:データ解析と可視化 第5 回 伊藤岳 富山大学経済学部2017 年度後期 Email:

補足・再掲:Rスクリプトの作成

Rスクリプト作成の手順RStudioで次の作業をする

1 RStudioを開き,command + shift + N (m)/control + shift + N (w) して,新しい Rスクリプトを開く (作成する)

2 command + S (m)/control + S (w) して,(真っ白な) Rスクリプトを分かりやすい場所に保存

ファイル名は半角文字のみにすること! 例:clt_simulation.R

3 演習の際は,ブラウザで開いているテンプレートの中身を,今作成した Rスクリプトにコピペ.自分で全く新しいスクリプトを作る際は,逐次 Rの関数や処理を書いていく

4 command + S (m)/control + S (w) して,Rスクリプトを (上書き) 保存5 冒頭のディレクトリ指定の部分を,自分の環境にあわせて修正6 指示する部分を選択し,command + enter (m)/control + enter (w) で実行

伊藤 岳 (Toyama/NIHU) R による計量分析 (第 4 回) November 13, 2017 4 / 4