rによる計量分析:データ解析と可視化 - 第7回 ·...

71
R による計量分析:データ解析と可視化 7 伊藤 岳 富山大学 経済学部 2017 年度後期 Email: [email protected] November 27, 2017 伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 1 / 62

Upload: others

Post on 22-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Rによる計量分析:データ解析と可視化第 7回

伊藤 岳

富山大学 経済学部 2017 年度後期

Email: [email protected]

November 27, 2017

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 1 / 62

Agenda

1 中間課題 (1) の説明

2 事象の独立性と相関 (共分散)

3 相関係数のシミュレーション

4 統計的仮説検定

5 統計的仮説検定の解釈と統計的過誤

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 2 / 62

中間課題 (1) の説明

中間課題 (1)

概要

▶ 締切:12/11 (Mon.) 11:59 pm▶ 内容:信頼区間のシミュレーション

▶ 提出物:(1) Rスクリプト (.Rファイル),(2) 行なった内容を解釈・説明するファイル (pdf)

▶ (1) の Rスクリプトは,講義ウェブページのテンプレート修正版でも,オリジナルでも可

▶ (2) の pdfファイルの内容は,日本語または英語で記述▶ 提出方法:[email protected]にメール添付

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 3 / 62

中間課題 (1)

内容の説明:Rスクリプト

▶ 次スライドのシミュレーションを行なう Rスクリプトを作成する▶ シミュレーション結果を,講義で提示した信頼区間のシミュレーション結果と同様の図で出力 (保存) する (次の次のスライド)

テンプレート URLURL: http://cfes-project.eco.u-toyama.ac.jp/wp-content/uploads/simulating_ci4midterm1.r

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 4 / 62

中間課題 (1)

Rスクリプトで実行する内容

1 連続一様分布 X ∼ U(−10, 10)から,大きさ (標本サイズ) n = 1, 000の標本を抽出

▶ 期待値 (母平均) は,(−10 + 10)/2 = 02 1回毎に,標本平均と 99%信頼区間を計算して記録する3 以上の作業をm = 10, 000回繰り返す4 m回の結果をまとめて,99%信頼区間をプロットする

▶ ただし,図にする際は見やすいよう,1, 000の標本の結果をランダムに抽出する

▶ 90%信頼区間:[Xn − 1.65SE, Xn + 1.65SE]▶ 95%信頼区間:[Xn − 1.96SE, Xn + 1.96SE]▶ 99%信頼区間:[Xn − 2.56SE, Xn + 2.56SE]▶ 95%信頼区間のシミュレーションをしているテンプレートでは「1.96」を使っているので,どこかを変えればよい

▶ αが有意水準のとき,100 × (1 − α)が信頼係数

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 5 / 62

再掲:信頼区間のシミュレーション

1 100 200 300 400 500 600 700 800 900 1000

−1.

0−

0.5

0.0

0.5

1.0

Simulation ID

95%

Con

fiden

ce In

terv

al

▶ 1,000回中,941回 (94.1%) が母平均を捉え,59回 (5.9%) が捉えていない▶ 10,000回中では,9,484回 (94.8%) と 516回 (5.2%)▶ 「過小評価」(左端) もあれば「過大評価」(右端) もある▶ 現実に手元にある標本から得た 95%信頼区間は,「真ん中」かもしれないし「端」かもしれない

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 6 / 62

中間課題 (1)

内容の説明:説明・解釈の PDFファイル以下の内容を記述すること:

1 Rスクリプトの説明▶ テンプレートを修正した場合,どこをどのように変えたか説明する▶ オリジナルのスクリプトの場合,どのような処理をしたか説明する

2 講義スライドと同じ要領で,1,000 (図にした分) と 10,000の 99%信頼区間のうち,何個 (何%)が期待値を含んでいるかを報告する

3 (講義スライドで例示した) 95%信頼区間と 99%信頼区間を比較した場合,どのような違いがあるかを説明・解釈する

▶ ヒント:違いは「図を見比べるとわかること」と「Rで出力される数字を見比べるとわかること」(上記 2) の 2つがある

4 Rスクリプトを実行した結果保存される図を含めること5 余裕があれば,90%信頼区間についても同じ作業をした結果を,同じ要領で報告する (これは必須ではない)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 7 / 62

中間課題 (1)

注意

▶ 以下の場合,機械的に 0評価 (未提出扱い)▶ 正当な理由なく,締切を過ぎた場合▶ 内容に問題がある場合▶ ファイル名や Rスクリプトに日本語や全角文字を入れた場合▶ 上記 (2) のファイルを pdf以外で提出した場合 (e.g., wordファイル)▶ メールの件名,ファイル名および pdfの内容で,履修者名・所属・学籍番号を判別できない場合

▶ 0評価にならないように▶ (1) は “ito_econ_******.r,” (2) は “ito_econ_******.pdf”のようにする▶ 「メールの件名 and/or 本文が空白」のような非常識なメールは避ける (spam判定されて終わり)

▶ 携帯のメールアドレスを避ける (u-toyama.ac.jpのアドレスを使う)▶ 当然ながら,日本語の場合は日本語の,英語の場合は英語のルールを守ること▶ その他「就活ならしないだろうな」と思うことは全部避ける

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 8 / 62

中間課題 (1)

「提出しても (本人は提出したつもりでも) 0評価」のメールの例From: [email protected]: [email protected]件名:(なし)本文:課題提出します.よろしくお願いします.添付ファイル:Rの課題.docx

▶ 恐らく spamに判定されます▶ 仮に届いたとしても,「怪し過ぎる」ので開封せず削除します▶ 情報教育で習ったことを実践してください

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 9 / 62

事象の独立性と相関 (共分散)

相関係数と共分散相関関係の単純な解釈

▶ 正の相関関係:X と Y が比例 (右上がり) する例 身長と体重,年収と老眼率

▶ 負の相関関係:X と Y が反比例 (右下がり) する例 高齢者人口とゴミ排出量,居住階と妊娠率

相関関係の測り方

1 (Pearson’s) 相関係数 r:2つの変数の共変関係の強弱 (共分散) を,−1 (負の完全相関) から 1 (正の完全相関) の数値で表したもの

▶ 強弱の目安として,|r| ≤ 0.3 (0.4) や |r| ≥ 0.7が,あるにはある▶ 非線形な関係にあることが分かっていれば,他の指標を使う:スピアマンの順位相関係数 (Spearman’s rank correlation coefficient; Spearman’s ρ), ケンドールの順位相関係数 (Kendall’s rank correlation coefficient; Kendall’s τ)

2 散布図 (scatter plot):2つの変数をX 軸と Y 軸にとった図▶ 「点」の 1つ 1つは,「個人」や「自治体」のような観察 (observation)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 10 / 62

相関係数と共分散

相関係数 (ピアソンの積率相関係数) r

標本サイズ nの 2つの標本 x = (x1, x2, . . . , xn)と y = (y1, y2, . . . , yn)について,それぞれの標本平均を xn と yn とするとき,xと yの (ピアソンの) 相関係数([Pearson’s] correlation coefficient) rxy は,次式で定義される.

rxy =∑n

i=1(xi − xn)(yi − yn)√∑ni=1(xi − xn)2

√∑ni=1(yi − yn)2

(1)

相関係数は −1 ≤ r ≤ 1の値をとり,r = 0のときは無相関,|r| = 1のときは完全な相関がある.xと yの共分散 (covariance) を sxy, それぞれの標準偏差を sx と sy とするとき,

rxy = sxy

sxsy(2)

とも表せる.

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 11 / 62

相関係数と共分散共分散

▶ (1)式の分子に注目すると,「偏差 (平均からのズレ) の掛け算 (偏差積) の合計」:∑n

i=1(xi − xn)(yi − yn)

▶ これを (標本分散と同じ) n − 1 で割った値 sxy =∑n

i=1(xi − xn)(yi − yn)n − 1 を,(標

本) 共分散 (covariance) という (分散の 2変数版)

相関係数と共分散の関係

▶ (1)式の分母に注目すると,分子と同じく n − 1で割れば「標準偏差の掛け算」:√∑n

i=1(xi − xn)2√∑n

i=1(yi − yn)2

n − 1

=

√∑n

i=1(xi − xn)2

n − 1

√∑n

i=1(yi − yn)2

n − 1 = sxsy (3)

▶ (2)式:共分散を標準偏差の積で割り,−1から 1の間に正規化した値が相関係数 r

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 12 / 62

相関関係と散布図:仮想的な例

強い正の相関 (r = 0.9)

−4 −2 0 2 4

−4

−2

02

4

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 13 / 62

相関関係と散布図:仮想的な例

強い負の相関 (r = −0.9)

−4 −2 0 2 4

−4

−2

02

4

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 14 / 62

相関関係と散布図:仮想的な例

弱い正の相関 (r = 0.3)

−4 −2 0 2 4

−4

−2

02

4

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 15 / 62

相関関係と散布図:仮想的な例

弱い負の相関 (r = −0.3)

−4 −2 0 2 4

−4

−2

02

4

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 16 / 62

相関関係と散布図:仮想的な例

無相関 (r = 0)

−4 −2 0 2 4

−4

−2

02

4

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 17 / 62

独立性

事象の独立性2つの事象 Aと B が起きる確率を,それぞれ Pr(A)と Pr(B)とする.このとき,事象 Aと Bが独立 (independent) であるとは,事象 Aと Bがが同時に起きる確率 Pr(A ∩ B)について,

Pr(A ∩ B) = Pr(A) × Pr(B)

が成り立つことをいう.

確率変数の独立性2つの確率変数X と Y が独立であるとは,X に関する事象と Y に関する事象が常に独立であることを示し,

X |= Y

が成り立つことをいう.

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 18 / 62

独立性と相関係数 (共分散)

▶ 「相関係数」には種類があるが,単に「相関係数」といった場合にはPearsonの積率相関係数 rを指すことが多い

▶ 他の相関係数:Spearman’s ρ, Kendall’s τ

▶ 「2つの確率変数は独立」:2つの確率変数の間に「いかなる関係もない」▶ 「2つの確率変数の相関係数が 0」:2つの確率変数の間に「比例的な (直線的な) 関係はない」

▶ 2つの確率変数が独立であれば,相関係数は 0になる▶ 他方,相関係数が 0でも,2つの確率変数が独立とは限らない

▶ 比例的ではない関係がある場合もあるから▶ 今までの例はすべて比例的な関係だったことに注意▶ 相関係数 r が捉えるのは,2つの変数の直線的 (線形的 linear) な関係の強弱例 二次関数的な関係:教科書第 3章の図 3.2 (次スライド)例 V字型の関係:副読本 浅野・矢内本第 9章の図 9.5

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 19 / 62

独立性と相関係数 (共分散)

xと yは独立ではなさそうだが,相関係数は?

−3 −2 −1 0 1 2 3

02

46

810

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 20 / 62

相関係数のシミュレーション

概要:相関係数のシミュレーション

2つのシミュレーションを行なう1 相関関係と散布図

▶ 任意の母相関 ρをもつ母集団から,大きさ nの標本を抽出する▶ 標本の相関係数を計算し,プロットする▶ プロットの練習がてら,ρと nを変えて散布図を描き,解釈する

2 標本を用いた母相関係数の推定▶ 中心極限定理等のシミュレーションと同様のシミュレーション▶ 標本から,どれ位の精度で ρを正しく推定できるかを考える

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 21 / 62

手順:相関係数のシミュレーション (1)

Rコードの URLURL: http://cfes-project.eco.u-toyama.ac.jp/wp-content/uploads/sample_correlation.r

シミュレーションの手順

1 任意の母相関 ρをもつ母集団から,大きさ nの標本を抽出する▶ 単純化のため,2変数

2 標本の要約統計を確認する3 標本の相関係数 rを計算する4 散布図を描く (RStudioの “Plot” pane に出力する)5 散布図を pdfで保存する

▶ 授業後,ρと nを変えて以上を再度実行し,練習しておく

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 22 / 62

結果:相関係数のシミュレーション (1)

ρ = 0.5, n = 3, 000, r = 0.504 (ρと rが「微妙に違う」ことに注意)

−4 −2 0 2 4

−4

−2

02

4

X variable

Y v

aria

ble

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 23 / 62

Rコード:相関係数のシミュレーション (1)

パッケージの呼び出し.simstudyは最初に入れていないかもしれないので,なければインストールする

1 ## --------------------------------------------------2 ## Execute the following two lines if library(simstudy) generates an error. Skip them if

it does not.3 # library(devtools)4 # install_cran("simstudy")5 ## --------------------------------------------------6 ## Load packages7 library(simstudy)8 library(stringr)9 library(tidyverse)

library(devtools)と install_cran("simstudy")を実行したい場合は,文頭の#を削除する (他のパッケージと同じく,一回だけインストールすればよい)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 24 / 62

Rコード:相関係数のシミュレーション (1)

母数 (パラメータ) 等の設定:ρや nを設定する1 ## Set sample size etc.2 sample_size = 10^3*3 ## sample size3 mu = rep(0, 2) ## mean4 sigma = rep(1, 2) ## variance5 rho = 0.5 ## rho67 ## True correlation matrix8 correlation_matrix <- matrix(c(9 1, rho,

10 rho, 111 ), nrow = 2)12 correlation_matrix

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 25 / 62

Rコード:相関係数のシミュレーション (1)

simstudy::genCorData()関数を用いて,任意の母相関をもつ架空データを発生させる

1 set.seed(123)2 fake_data = genCorData(sample_size, mu = mu, sigma = sigma, corMatrix = correlation_

matrix)3 fake_data = tbl_df(fake_data)4 var_labz = c("id", "x_var", "y_var")5 names(fake_data) = var_labz

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 26 / 62

Rコード:相関係数のシミュレーション (1)

発生させた架空データの要約統計を確認する1 fake_data %>% summary2 var(fake_data$x_var)3 var(fake_data$y_var)

発生させた架空データの相関係数 rを計算する1 > ## Correlation estimates2 > cor(fake_data[,-1])3 x_var y_var4 x_var 1.0000000 0.50422025 y_var 0.5042202 1.0000000

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 27 / 62

Rコード:相関係数のシミュレーション (1)散布図用の細かな設定.余白とか色とか

1 ## Figure settings2 fig_cex = .85 ## font size3 fig_margin = c(3.25, 3.25, .6, .5) ## margin: c(bottom, left, top, right)4 figure_height = 5 ## figure height5 figure_width = gld_ratio(figure_height) ## figure width6 xy_limz = c(-4.5, 4.5)7 ## Color8 alpha_par = 0.5 ## opacity9 border_col = "dodgerblue4"

10 fill_col = adjustcolor("dodgerblue2", alpha = alpha_par)

散布図を描く (RStudioの “Plot” paneに散布図が出力される)1 ## Plot a scatter plot within the "Plot" pane23 ## Simple <- New!4 plot(fake_data$x_var, y = fake_data$y_var)56 ## Customized7 par(mar = fig_margin, cex = fig_cex)8 plot(fake_data$x_var, y = fake_data$y_var, col = border_col, bg = fill_col, pch = 21,

lwd = .5, xlim = xy_limz, ylim = xy_limz, xlab = "", ylab = "")9 mtext("X␣variable", side = 1, line = 2.25, cex = fig_cex)

10 mtext("Y␣variable", side = 2, line = 2.25, cex = fig_cex)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 28 / 62

Rコード:相関係数のシミュレーション (1)

ディレクトリの指定1 ## CHANGE THE FOLLOWING PATH BEFORE EXECUTING SIMULATIONS2 fig_dir = "/Users/Gaku/Dropbox/040-ToyamaNIHU/090-ToyamaTeaching/030-DataVisualization/

020-R_code_fall2017/030-SimulatingCorrelation"

前スライドと同じ散布図を描いて,保存する1 fig_filename = "correlation_sample.pdf" ## change this if you want to change the

filename of the output pdf2 save_figure_here = file.path(fig_dir, fig_filename)3 pdf(save_figure_here, width = figure_width, height = figure_height)4 par(mar = fig_margin, cex = fig_cex)5 plot(fake_data$x_var, y = fake_data$y_var, pch = 21, col = border_col, bg = fill_col,

lwd = .5, xlab = "", ylab = "", xlim = xy_limz, ylim = xy_limz)6 mtext("X␣variable", side = 1, line = 2.25, cex = fig_cex)7 mtext("Y␣variable", side = 2, line = 2.25, cex = fig_cex)8 dev.off()

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 29 / 62

手順:相関係数のシミュレーション (2)

Rコードの URLURL: http://cfes-project.eco.u-toyama.ac.jp/wp-content/uploads/simulating_correlation.r

シミュレーションの手順

1 母相関係数 ρ = 0 (無相関) の母集団から,n = 1, 000の標本を抽出する2 標本の相関係数 rとその 95%信頼区間を計算する

▶ 相関係数の信頼区間の計算方法はやや煩雑なので,補足スライドを参照3 以上の作業をm = 10, 000回繰り返す4 m回の結果をまとめて,95%信頼区間をプロットする

▶ ただし,図にする際は見やすいよう,1, 000の標本の結果をランダムに抽出

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 30 / 62

結果:相関係数のシミュレーション

1 100 200 300 400 500 600 700 800 900 1000

−0.

15−

0.10

−0.

050.

000.

050.

100.

15

Simulation ID

95%

Con

fiden

ce In

terv

al

▶ 1,000回中,937回 (93.7%) が ρを捉え,63回 (6.3%) が捉えていない▶ 10,000回中では, 9,489 回 (94.9%) と 511回 (5.1%)▶ 「過小評価」(左端) もあれば「過大評価」(右端) もある▶ 注意:手元の標本から得た rの推定値と 95%信頼区間は,「真ん中」かもしれないし「端」かもしれない

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 31 / 62

結果:相関係数のシミュレーション

−0.10 −0.05 0.00 0.05 0.10

02

46

810

12

Sample correlation estimates

Den

sity

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 32 / 62

Rコード:相関係数のシミュレーション (2)

ディレクトリの指定1 ## CHANGE THE FOLLOWING PATH BEFORE EXECUTING SIMULATIONS2 fig_dir = "/Users/Gaku/Dropbox/040-ToyamaNIHU/090-ToyamaTeaching/030-DataVisualization/

020-R_code_fall2017/030-SimulatingCorrelation"

母数等の設定1 n_simulations = 10^4 ## N simulations (m)2 sample_size = 10^3 ## sample size (n)3 mu = rep(0, 2) ## mean4 sigma = rep(2, 2) ## variance56 ## True correlation matrix7 rho = 0 ## true correlation8 correlation_matrix <- matrix(c(9 1, rho,

10 rho, 111 ), nrow = 2)12 correlation_matrix

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 33 / 62

Rコード:相関係数のシミュレーション (2)シミュレーション結果を保存する matrixオブジェクトを作る

1 ## Empty matrix object with n_simulations length2 result_matrix = matrix(NA, nrow = n_simulations, ncol = 4)3 colnames(result_matrix) = c("correlation_estimate", "ci_lower", "ci_upper", "ci_level")

架空データを作り相関係数を記録する作業を for文を使ってm回繰り返す1 set.seed(12345)2 sim_loop = 1:n_simulations ## 1,2,..., n_simulations3 for (i in sim_loop) {4 ## Show progress5 cat(str_c("Simulating␣", i, "/", n_simulations, "␣\r"))67 ## Generate fake data8 fake_data = genCorData(sample_size, mu = mu, sigma = sigma, corMatrix = correlation_

matrix)9 fake_data = tbl_df(fake_data)

10 var_labz = c("id", "x_var", "y_var")11 names(fake_data) = var_labz1213 ## Estimate correlation and store result14 cor_test = cor.test(fake_data$x_var, fake_data$y_var, method="pearson")15 tmp_cor_est = confint(cor_test)16 result_matrix[i,] = as.matrix(tmp_cor_est)17 }

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 34 / 62

Rコード:相関係数のシミュレーション (2)

シミュレーション結果を概観する1 ## Expected value within the CIs?2 result_matrix = tbl_df(result_matrix) ## convert object class3 result_matrix ## skim it4 result_matrix = result_matrix %>%5 mutate(6 true_correlation = rho,7 nice_ci = ifelse(8 ci_lower < rho & rho < ci_upper, ## ci_lower < expected value < ci_upper or

not?9 TRUE, ## "nice" if true

10 FALSE ## "bad" if false11 )12 )1314 ## Count results!15 table(result_matrix$nice_ci)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 35 / 62

Rコード:相関係数のシミュレーション (2)図の設定

1 fig_cex = .85 ## font size2 fig_margin = c(3.25, 3.25, .6, .6) ## margin: c(bottom, left, top, right)3 fig_height = 4 ## figure height4 nice_color = "gray20"5 dumm_color = "gray80"6 true_color = "dodgerblue2"7 ## Estimates’ quantiles8 quantilez = quantile(result_matrix$correlation_estimate, probs = c(0.025, 0.975))9 quantilez

シミュレーション結果をヒストグラムにして保存する1 pdf(file.path(fig_dir, "correlation_sim_hist.pdf"), width = plt_ratio(fig_height),

height = fig_height)2 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin3 hist(result_matrix$correlation_estimate, freq = FALSE, col = "ivory2", main = "", xlab =

"", ylab = "", breaks = 30) ## draw a histgram4 mtext("Sample␣correlation␣estimates", side = 1, line = 2.25, cex = fig_cex)5 mtext("Density", side = 2, line = 2.25, cex = fig_cex)6 abline(v = rho, col = true_color, lwd = 2) ## add a reference line: true correlation7 abline(v = quantilez[1], col = "orangered2", lwd = 2) ## add a reference line: lower

2.5%8 abline(v = quantilez[2], col = "orangered2", lwd = 2) ## add a reference line: upper

2.5%9 box()

10 dev.off()

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 36 / 62

Rコード:相関係数のシミュレーション (2)

シミュレーション結果を 1,000個抽出する1 set.seed(123456)2 result_subset = sample_n(result_matrix, size = 1000) %>%3 arrange(ci_upper) %>%4 mutate(5 id = row_number(), ## add ID variable6 color = ifelse(nice_ci, nice_color, dumm_color) ## add color7 )89 ## Similar results?

10 table(result_subset$nice_ci)

図の設定1 fig_filename = str_c("simulation_correlation_n_", sample_size, "_m_", n_simulations, "_r

_", 10*xy_correlation, ".pdf")2 pdf(file.path(fig_dir, fig_filename), width = plt_ratio(fig_height), height = fig_height

)3 par(cex = fig_cex, mar = fig_margin) ## smaller character size and margin4 xlimz = c(1-nrow(result_subset)/100, nrow(result_subset)*1.01) ## x-axis range5 ylimz = c(min(result_subset$ci_lower), max(result_subset$ci_upper)) ## y-axis range

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 37 / 62

Rコード:相関係数のシミュレーション (2)

図を描いて保存する1 ## Empty plot2 plot(0,0, type="n", main = "", xlab = "", ylab = "", axes = FALSE, xlim = xlimz, ylim =

ylimz, xaxs = "i", yaxs = "i")3 ## Draw individual CIs4 segments(x0 = result_subset$id, y0 = result_subset$ci_lower, y1 = result_subset$ci_upper

, col = result_subset$color, lwd = .25, lend="square")5 ## Draw expected value (true mean)6 abline(h = result_subset$true_correlation, col = true_color)78 ## Add axis and label9 axis(1, at = c(1, seq(from = 100, to = nrow(result_subset), by = 100)) ) ## add x-axis

10 axis(2) ## add y-axis11 mtext("Simulation␣ID", side = 1, cex = fig_cex, line = 2.25) ## add x-axis label12 mtext("95%␣Confidence␣Interval", side = 2, cex = fig_cex, line = 2.25) ## add x-axis

label13 box() ## draw box1415 dev.off() ## close devise

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 38 / 62

統計的仮説検定

統計的仮説検定への導入:t分布

▶ t分布 (Student’s t distribution): X ∼ t(v)

▶ f(x|v) =Γ

( (v+1)s

)√

vπΓ(

v2

) (1 + x2

v

)− v+12

▶ Γ(·)は Γ関数 (階乗の一般化):任意の正の整数 nについて,Γ(n) = (n − 1)!▶ 実部が正である複素数 z について,Γ(z) =

∫ ∞

0tz−1e−tdt (Rz > 0)

▶ 母数の v = n − 1 > 0 を自由度 (degree of freedom, DF) と呼ぶ▶ 正規分布の PDF:f(x|µ, σ2) = 1√

2πσ2e

− (x−µ)2

2σ2

▶ t分布の母数は自由度で,µ, σ2 に依存しない▶ v = 1 のとき,コーシー分布 (Cauchy distribution) に一致する

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 39 / 62

統計的仮説検定への導入:t分布

t分布の性質

▶ 期待値は 0, 分散は vv−2 (v > 2), ∞ (1 < v ≤ 2)

▶ 標準正規分布N (0, 1)に近いが,「裾が分厚い」分布▶ n → ∞で t分布はN (0, 1)に近づく▶ nが小さいとき,t分布とN (0, 1)の「ズレ」は大きくなる

▶ 標準正規分布 (95%信頼区間) で使えた 1.96にも「ズレ」が出る

t分布の記法

▶ 自由度 v = n − 1の t分布を,t(n − 1)と書く▶ t(n − 1)の (100 × q)パーセンタイル点を tn−1,q と書く (tがその値以上になる確率が qであるような値)

▶ 有意水準 α (e.g., 0.05) の場合,下側臨界値 cL = −tn−1,α/2 = −tn−1,0.025,上側臨界値 cU = tn−1,α/2 = tn−1,0.025 と書く (後半のスライドで扱う)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 40 / 62

統計的仮説検定への導入:t分布と標準正規分布t分布 t(v)の CDF: 縦軸の最大値は 1

−1.96 0.00 1.96

0.0

0.2

0.4

0.6

0.8

1.0

X

Cum

ulat

ive

dist

ribut

ion

Standard normalt distribution (v=10)t distribution (v=3)t distribution (v=1)

t分布 t(v)の PDF: 曲線の下の面積は 1

−1.96 0.00 1.96

0.0

0.1

0.2

0.3

0.4

X

Pro

babi

lity

dens

ity

Standard normalt distribution (v=10)t distribution (v=3)t distribution (v=1)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 41 / 62

復習:正規分布の性質

正規分布の性質平均 µ, 標準偏差 σの正規分布N (µ, σ2)に従う確率変数X について,事象(event) µ − 1.96σ ≤ X ≤ µ + 1.96σが成立する確率は,ほぼ 95%である.

▶ X が µ ± σの区間の値をとる確率は,約 68%▶ X が µ ± 1.96σの区間の値をとる確率は,約 95%

▶ (nが小さいときの) 統計的検定では,正規分布の代わりに t分布を用いる

▶ あるいは,母分散 σ2 = V (X) =∑n

i=1(xi − x̄)2

nが未知のとき

▶ n → ∞のとき不偏分散 s2 は母分散 σ2 に近付く (収束する)▶ nが小さければ,t分布と正規分布の「ズレ」が生じるから

▶ 「ズレ」のために,1.96という目安にも「ズレ」が生じる▶ nが十分大きければ,正規分布近似が使える

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 42 / 62

Rコード:t分布と正規分布の性質N (0, 1)での 1.96の意味を考える:

1 > qnorm(0.025, mean = 0, sd = 1)2 [1] -1.9599643 > qnorm(0.975, mean = 0, sd = 1)4 [1] 1.959964

t分布の場合,95%のデータが分布する範囲は自由度に依存する:1 > qt(0.025, df = 10) ## v = 102 [1] -2.2281393 > qt(0.975, df = 10)4 [1] 2.2281395 > qt(0.025, df = 10^4) ## v = 10,0006 [1] -1.9602017 > qt(0.975, df = 10^4)8 [1] 1.960201

▶ qnorm()は正規分布の,qt()は t分布の確率点 (quantile) を計算する関数▶ N (0, 1)では,µ ± 1.96を境目に両端に約 2.5%ずつ = 合計約 5%あるので,

µ ± 1.96σの範囲に約 95%が入る▶ t分布でも,nが十分大きければ同様のことがいえる

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 43 / 62

Rコード:t分布と正規分布の性質

正規分布の性質が本当か確認してみる.N (0, 1)の場合 (既出コード):1 > pnorm(1.96, mean = 0, sd = 1) - pnorm(-1.96, mean = 0, sd = 1)2 [1] 0.9500042

t分布の場合,±1.96の範囲に分布するデータの割合は自由度に依存する:1 > pt(1.96, df = 10) - pt(-1.96, df = 10) ## v = 102 [1] 0.92156383 > pt(1.96, df = 10^2) - pt(-1.96, df = 10^2) ## v = 1004 [1] 0.94722115 > pt(1.96, df = 10^3) - pt(-1.96, df = 10^3) ## v = 1,0006 [1] 0.94972687 > pt(1.96, df = 10^4) - pt(-1.96, df = 10^4) ## v = 10,0008 [1] 0.94997659 > pt(1.96, df = 10^5) - pt(-1.96, df = 10^5) ## v = 100,000

10 [1] 0.9500014

▶ pnorm()は正規分布の,pt()は t分布の CDFを計算する関数▶ 両端に約 2.5%ずつ = 合計約 5%あるので,µ ± 1.96σの範囲に約 95%が入る▶ t分布でも,nが十分大きければ同様のことがいえる

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 44 / 62

統計的仮説検定への導入:t分布

▶ 大きさ nの標本について,以下の検定統計量 t値 (t value) は,自由度v = n − 1の t分布 t(v)に従う (X, s2 はそれぞれ標本平均と不偏分散)

t = X − µ√s2/n

= X − µ

SE(4)

▶ 中心極限定理で出てきた z = X−µ√σ2/n

∼ N (0, 1)と同じく,t値もX − µに着目している (分母が違う:zの σ2 は厳密にいうと母分散)

▶ n → ∞で t分布は標準正規分布N (0, 1)に近付くので,nが大きければ標準正規分布で近似できる (tが zに近付く)

▶ nや正規分布近似について回りくどい言い方をしていた理由の 1つ (n → ∞)▶ 教科書が正規分布近似を使う際,「nが十分に大きな数であるならば」と断っていることに注意 (e.g., 第 5章)

▶ 検定統計量によって従う分布は異なるが (t分布とは限らない),以下で説明する検定の基本的手続きは同じ (e.g., F 分布, χ2 分布)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 45 / 62

統計的仮説検定

考え方 (統計的な背理法, 教科書 pp.96–97)

1 「現実に起こり得ないこと」とみなす確率 (有意水準 level of significance) αを設定する (例:5%)

2 ある確率分布について,なんらかの仮説を立てる▶ 帰無仮説 (null hypothesis, H0): 否定したい仮説 (例:µ = 1)▶ 対立仮説 (alternative hypothesis, H1): H0 と対立する仮説 (例:µ ̸= 1)

3 母集団から標本を抽出する4 「H0 が正しい場合に」抽出した標本が得られる確率 pを計算する5 確率 pが有意水準より小さければ,H0 を「現実に起こり得ないこと」と考えH0 を棄却し (reject),H1 を受容 (accept) する.確率 pが有意水準より大きければ,H0 を棄却できない (fail to reject)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 46 / 62

統計的仮説検定

具体例:平均値の検定

1 有意水準を 5%とする2 帰無仮説H0 を「µ = µ0 = 0.1」,対立仮説H1 を「µ ̸= 0.1」とする3 母集団 f から,n = 10, 000の標本を抽出する (ここではN (0, 1)を使う)4 「H0 が正しいときに」抽出した標本が得られる確率 pを計算する

▶ t = Xn − µ

SE = Xn − µ0

SE = Xn − 0.1SE と自由度 v = 10, 000 − 1の t分布

5 確率 pが有意水準より小さければ,「H0 が正しければ起こり得ないこと」と考えてH0 を棄却し (reject),H1 を受容 (accept) する.確率 pが有意水準より大きければ,H0 を受容する

▶ nが十分大きければ,|t| > 1.96が目安 (「約 2」と覚える)▶ N (0, 1)で近似できるから (教科書の例)▶ 厳密には t値による検定と p値による検定は異なるので注意 (教科書,第 5章)▶ とはいえ,本質的には同じ作業 (副読本・浅野矢内本,第 7章も参照)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 47 / 62

統計的仮説検定:t分布t分布,t値と p値

▶ t分布に従う確率変数について,cL = −tn−1,0.025 (下側臨界値) からcU = tn−1,0.025 (上側臨界値) の区間 [cL, cU ]に,データの約 95%が収まる(α = 0.05を考えているので,α/2 = 0.025)

▶ 大きさ nの標本から得た t値は,自由度 n − 1の t分布に従う▶ cL, cU の値は,既出の Rコードを使えば求められる▶ nが十分大きければ,N (0, 1)と区間 [−1.96, 1.96]を用いてもよい

▶ t値による検定では αを事前に定めた上で,t > cU (t < cL) かを判定する

0 (X = µ0) cUcL

α

2

棄却域 [−∞, cl] 棄却域 [cu, ∞]受容域 [cl, cu]

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 48 / 62

統計的仮説検定:t分布t分布,t値と p値

▶ 大きさ nの標本から得た t値は,自由度 n − 1の t分布に従う▶ p値 (p value):帰無仮説が正しいとき,標本から得た t値以上に (絶対値で)分布の中心からからかけ離れた値をとる確率 (両側検定の場合)

▶ t値が 0から離れるほど,p値は小さくなる:「帰無仮説が正しいとすれば,以上な t値が出た」(起こり得ないことが起きた) と考える

▶ t値による検定とは異なり,p値による検定では「異常性」を p値によって確率的に示すだけで棄却はしない (「棄却の妥当性」を示す)

0 (X = µ0) |t|−|t|

p

2p

2

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 49 / 62

Rコード:t検定

以下の t検定のコードは講義ウェブページURL: http://cfes-project.eco.u-toyama.ac.jp/wp-content/uploads/one_sample_t_test.r

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 50 / 62

Rコード:t検定

前スライドの t検定の Rコード (n = 1, 000; 帰無仮説H0「µ = µ0 = 0.1」を5%水準で棄却できる場合):

1 > set.seed(123456)2 > sample_size = 10^3 ## sample size3 > mu_true = 0 ## true mu4 > mu_zero = 0.1 ## mu in null hypothesis5 >6 > ## Draw sample7 > sample_1 = rnorm(sample_size, mean = mu_true, sd = 1)8 >9 > ## Sample mean and variance

10 > sample_mean = mean(sample_1)11 > sample_var = var(sample_1)12 >13 > ## Compute t value14 > t_val = (sample_mean - mu_zero)/sqrt(sample_var/sample_size)15 > t_val16 [1] -2.84205817 >18 > ## Compute probability using t value and t-distribution19 > pt(t_val, df = sample_size - 1)*220 [1] 0.004573558

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 51 / 62

Rコード:t検定

前スライドの t検定の Rコード (n = 100; 帰無仮説H0「µ = µ0 = 0.1」を 5%水準で棄却できない場合):

1 > set.seed(123456)2 > sample_size = 10^2 ## sample size3 > mu_true = 0 ## true mu4 > mu_zero = 0.1 ## mu in null hypothesis5 >6 > ## Draw sample7 > sample_2 = rnorm(sample_size, mean = mu_true, sd = 1)8 >9 > ## Sample mean and variance

10 > sample_mean = mean(sample_2)11 > sample_var = var(sample_2)12 >13 > ## Compute t value14 > t_val = (sample_mean - mu_zero)/sqrt(sample_var/sample_size)15 > t_val16 [1] -0.837244817 >18 > ## Compute probability using t value and t-distribution19 > pt(t_val, df = sample_size - 1)*220 [1] 0.4044716

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 52 / 62

Rコード:t検定以上の Rコードが t検定を正しく実行していたか確認.t.test()関数はデフォルトの t検定用の関数:

1 > t.test(sample_1, mu = mu_zero) ## n = 1,0002 One Sample t-test3 data: sample_14 t = -2.8421, df = 999, p-value = 0.0045745 alternative hypothesis: true mean is not equal to 0.16 95 percent confidence interval:7 -0.05069901 0.072406058 sample estimates:9 mean of x

10 0.010853521112 > t.test(sample_2, mu = mu_zero) ## n = 10013 One Sample t-test14 data: sample_215 t = -0.83724, df = 99, p-value = 0.404516 alternative hypothesis: true mean is not equal to 0.117 95 percent confidence interval:18 -0.1803120 0.213951619 sample estimates:20 mean of x21 0.01681979

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 53 / 62

統計的仮説検定の解釈と統計的過誤

帰無仮説,対立仮説と仮説検定の解釈

検定結果の解釈と注意

▶ 「(有意水準 αで) 統計的に有意 (statistically significant)」:「H0 を棄却した」(H0 が正しいとすると,起こり得ないような稀な現象が起きた)

▶ 帰無仮説H0 が棄却されれば,対立仮説H1 の正当性を強く主張できる▶ 帰無仮説H0 が棄却されなかったからといって,H0 が真とは限らない

例:母平均の検定

▶ 帰無仮説H0を「µ = µ0 = 1」,対立仮説H1を「µ ̸= 1」とした t検定の結果,H0 を棄却できなかった

▶ しかし,µは µ0 = 1かもしれないが,1.1や 0.9かもしれない (無数の可能性が残る)

▶ µ0 = 1を棄却できなかったからといって,「どの帰無仮説 (1, 1.1, 0.9, etc.)が正しいか」は分からない (H0「µ = µ0 = 1」が真とは限らない)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 54 / 62

帰無仮説,対立仮説と仮説検定の解釈

例:有罪か無罪か (副読本・浅野矢内本,第 7章)

▶ 帰無仮説H0:「容疑者X はこの事件の犯人ではない (無罪である)」▶ 対立仮説H1:「容疑者X はこの事件の犯人である (無罪ではない)」▶ H0が棄却できなかった場合にも,「X が完全犯罪を達成し,(推定) 無罪を勝ち取った」可能性は残る

▶ H0 が棄却できれば,より強い結論を得られる▶ ただし,「H0 が正しく,かつ非常に稀な現象が起きた」可能性は残る (その確率は有意水準 α)

▶ 確率 αで偽陽性 (この例でいえば「冤罪」) が生じ得るから▶ 有意水準 αは,偽陽性と偽陰性のバランスを決める (統計的過誤へ)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 55 / 62

統計的過誤

2つの統計的過誤

▶ 第一種過誤 (Type I/α error; 偽陽性 false positive):帰無仮説H0が正しいにもかかわらず,H0 を棄却してしまう誤り

▶ 第二種過誤 (Type II/β error; 偽陰性 false negative ):帰無仮説H0が正しくないにもかかわらず,H0 を棄却できない誤り

▶ 有意水準 αを厳しく (小さく) すれば,偽陽性 (誤検出) を減らせるが,偽陰性 (検出失敗) を増やしてしまう例 有意水準 αを厳しくすれば,冤罪を減らせるが,完全犯罪を増やしてしまう

▶ 有意水準 αは「偽陽性の確率」,あるいは偽陽性と偽陰性のバランスの (ある学術分野における) 「相場」「伝統的に使う目安」に依存する

▶ 社会科学なら多くの場合 α = 0.05 (5%水準)▶ 他によく使われる水準:10%, 1%, 0.1%水準

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 56 / 62

統計的過誤真実

仮説検定の結果 H0 が正しい H1 が正しい

H0 を棄却

H0 を受容

第一種過誤確率: 有意水準 α

正しい検定結果確率: 1 − α

正しい検定結果確率: 検出力 1 − β

第二種過誤確率: β

▶ 第一種過誤の確率は,有意水準 αに一致する▶ 第二種過誤の確率 β は,(1) α の大きさと (2) 帰無仮説 µ0 が真実 (µ)からどれ位離れているかに依存する

▶ µを知らないので,標本から β を計算することはできない▶ (1) を変更するか,(2) を代替的な方法で変更して,β を縮減することはできる▶ 我々は µを知らないので,µ0 を直接変更することは無意味 (できない)

▶ 1 − β を,検定のパワー/検出力 (power) と呼ぶ:H1 が正しいときに第二種過誤を犯さない確率

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 57 / 62

第二種過誤と有意水準α

H0 が正しい場合の標本分布

µ0 cUcL

α

2= 0.025

α

2= 0.025

真の標本分布

β

µ

H0 が正しい場合の標本分布

µ0 cUcL

真の標本分布

β

µ

α

2= 0.005

α

2= 0.005

▶ 有意水準 αは「厳しければよい」訳ではない:第一種過誤の確率 αは小さくなるが,第二種過誤の確率 β は大きくなる

▶ 両者はトレード・オフの関係にある

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 58 / 62

第二種過誤と標本サイズH0 が正しい場合の標本分布

µ0 cUcL

α

2= 0.025

α

2= 0.025

真の標本分布

β

µ

真の標本分布

β

µµ0 cUcL

α

2= 0.005

α

2= 0.005

H0 が正しい場合の標本分布

▶ 我々は µを知らないので,µ0 を直接変更することは無意味 (できない)▶ なら,標本サイズ nを大きくして分散を小さくすればよい▶ αが一定でも,nが大きくなれば β は小さくなる (検出力は大きくなる)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 59 / 62

第二種過誤と標本サイズ

t検定の Rコードを思い出す

▶ 母平均 µ = 0としたシミュレーションで,▶ n = 1, 000のときには,H0「µ = µ0 = 0.1」を 5%水準で棄却できた▶ n = 100のときには,H0「µ = µ0 = 0.1」を 5%水準で棄却できなかった

▶ nが小さいときには第二種過誤 (偽陰性) が生じていた▶ nを 100から 1, 000に増やしたことで,αを一定 (α = 0.05) にしつつ β を小さくできた

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 60 / 62

統計的過誤:まとめ

▶ 第一種過誤は偽陽性,第二種過誤は偽陰性▶ 第一種過誤の確率は有意水準 αに等しく,分析者が設定できる

▶ 分野の「お作法」や「慣習」がある (例: 社会科学での α = 0.05)▶ αは検定を始める前に決めておく (結果を見てから都合よく変えてはいけない)

▶ 第二種過誤の確率 β は標本から計算できないが,(1) α と (2) 帰無仮説H0が主張する µ0 と真実 (µ) の距離に依存する

▶ (1) 有意水準 αを適切に設定し,(2) 標本サイズ nを大きくすることで,過誤の可能性を小さくできる

▶ H0 が「真実とかけ離れたこと」を主張していれば β は小さいが,我々は真実を知らないので,H0 を直接調整することはできない

▶ 1 − β を検出力という▶ αが小さいとき,(β が大きくなるので) 検出力は小さくなる▶ nが大きいとき,(β が小さくなるので) 検出力は大きくなる

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 61 / 62

次回講義と課題

▶ 次回講義▶ 今日の続き (シミュレーションと統計的仮説検定)▶ 回帰分析 (OLS) の導入 or データの自動取得 (API, ウェブスクレイピング)

▶ 文献と課題 (OLSを前提)必須 星野・田中『Rによる実証分析』第 4–6章 (教科書)推奨 Gelman & Hill. Data analysis. Chaps. 3–4 (教科書)推奨 浅野・矢内『Stataによる計量政治学』第 7–12章 (副読本)推奨 森田『実証分析入門』第 4–8章 (副読本)課題 (1) 講義資料「R言語の基礎,オブジェクトとその要素へのアクセス」と「R

によるデータの読み込みと書き出し」を RStudioで練習しておくこと.(2) シミュレーションを再度行なってみること

▶ 中間課題 (1) も出た▶ オフィスアワー (月曜 3限) +αをとるので,やばそうならヘルプを求めること

(オフィスアワー以外は要予約)▶ 12/11 (Mon.) は休講 (出張)▶ 11/30–12/1, 12/7–8 も研究室/大学にいないので注意

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 62 / 62

補足・再掲:Rスクリプト作成と実行

RStudioで次の作業をする1 RStudioを開き,command + shift + N (m)/control + shift + N (w) して,新しい Rスクリプトを開く (作成する)

2 command + S (m)/control + S (w) して,(真っ白な) Rスクリプトを分かりやすい場所に保存

▶ ファイル名は半角文字のみにすること!▶ 例:clt_simulation.R

3 演習の際は,ブラウザで開いているテンプレートの中身を,今作成した Rスクリプトにコピペする.自分で全く新しいスクリプトを作る際は,Rの関数や処理を上から (実行したい順番に) 書いていく

4 command + S (m)/control + S (w) して,Rスクリプトを (上書き) 保存5 実行したい部分を選択し,command + enter (m)/control + enter (w) で実行

6 (エラーが出れば,コードに間違いがないか確認する)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 1 / 4

補足:相関係数の信頼区間標本サイズ nの 2つの標本 x = (x1, x2, . . . , xn)と y = (y1, y2, . . . , yn)について,標本相関係数を rxy, 母相関係数を ρとするとき,Fisherの z 変換を用いて,

z = z(rxy) = 12 ln

(1 + rxy

1 − rxy

). (5)

nが十分大きいとき,z は平均 ζ = 12 ln

(1 + ρ

1 − ρ

), 分散 σ2

ρ = 1n − 3 の正規分布

N (ζ, σ2ρ)に近似的に従う.

したがって,(正規分布の性質を使い) z の 95%信頼区間の上限 zU と下限 zL はそれぞれ,

zU = z + 1.96σ = z + 1.96√n − 3

, (6)

zL = z − 1.96σ = z − 1.96√n − 3

. (7)

zU と zL を逆 z 変換すれば,ρの 95%信頼区間の上限 ρU と下限 ρL が得られる.

ρU = z−1(zU ) = e2zU − 1e2zU + 1 , (8)

ρL = z−1(zL) = e2zL − 1e2zL + 1 . (9)

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 2 / 4

補足:両側検定と片側検定両側検定と片側検定

▶ 両側検定 (two-sided/-tailed test):分布の両側に棄却域を設定する検定▶ 片側検定 (one-sided/-tailed test):分布の片側に棄却域を設定する検定

対立仮説の性質

▶ 帰無仮説H0が「µ = µ0」のとき,対立仮説H1には 3つのバリエーションがあり得る

1 H1a「µ ̸= µ0」2 H1b「µ < µ0」3 H1c「µ > µ0」

▶ 対立仮説の性質に応じ,両側検定 (H1a) か片側検定 (H1b, H1c) かが決まる▶ 「µ < µ0」(H1b) や「µ > µ0」(H1c) を設定する特段の理由がなければ,

H1a と両側検定を用いる (一般に,片側検定の方がH0 を棄却しやすい)▶ 副読本・浅野矢内本 pp.132–134を参照のこと

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 3 / 4

補足:両側検定と片側検定

0 (X = µ0)c

α

棄却域 [−∞, c] 受容域 [c, ∞]

0 (X = µ0) c

α

棄却域 [c, ∞]受容域 [−∞, c]

▶ H1b「µ < µ0」(上図) とH1c「µ > µ0」(下図) を想定した片側検定の棄却域と受容域

伊藤 岳 (Toyama/NIHU) R による計量分析 November 27, 2017 4 / 4