統計学 ダミー変数による分析 - keio...

26
1 統計学 ダミー変数による分析 担当: 長倉 大輔 (ながくらだいすけ)

Upload: others

Post on 03-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

1

統計学ダミー変数による分析

担当: 長倉 大輔

(ながくらだいすけ)

Page 2: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

2

ダミー変数

切片 (定数項) ダミー

以下の単回帰モデルを考えよう。これは賃金と就業年数の関係を分析している。:

(賃金関数)

Yi = α + β Xi + ui , i =1,…, n, ui ~ i.i.d. N(0, σ2)

ここでYi : 賃金の対数値, Xi : 就業年数.

(実際は賃金を就業年数だけで説明するのは現実的はない。このモデルは、あくまでダミー変数をどのように使うかを説明するための非常に簡略化したモデルである)

Page 3: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

3

ダミー変数

切片 (定数項) ダミー

観測されたデータから、最小二乗法によって未知パラメータの α と β を推定する事は難しくない。

しかしながら、就業年数が賃金に与える影響は、何らかの理由により、男性と女性で異なる可能性がある。

もしこの仮説が正しいのであれば、これはつまり、先ほどの回帰モデルにおいて、男性の場合と女性の場合で α とβ の値が異なる事を意味している。

Page 4: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

4

ダミー変数

切片 (定数項) ダミー

このような男女の違いを分析するために、以下の回帰モデルを考えよう:

Yi = α + αM DM,i + β Xi + ui , i =1,…, n,

ここで DM,i は以下のような変数である。

( i番目の労働者のデータが男性の場合),

( i番目の労働者のデータが女性の場合).

この DM,i のような変数の事をダミー変数もしくは単純にダミーと呼ぶ。

0

1,iMD

Page 5: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

5

ダミー変数

切片 (定数項) ダミー

i番目の労働者が女性だった場合、DM,i = 0 であるので Yiは

Yi = α + β Xi + ui

によって決定される。切片の値は α である。

また、男性の場合は、DM,i = 1であるから Yi は

Yi = α + αM + β Xi + ui

によって決定される。切片の値は α + αMである。

Page 6: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

6

ダミー変数

切片 (定数項) ダミー

この 2つの回帰モデルを比較すると、αM いうのはそれ

ぞれ男性と女性の回帰モデルの切片の値の差である事がわかる。

もし αM が正であれば、これは(就業年数の影響を除くと)男性の賃金の方が平均的に高い事を意味している。負であれば逆の解釈になる。

以後この αM を(賃金における)「男性効果」と呼ぶ事にしよう。

Page 7: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

7

ダミー変数

切片 (定数項) ダミー

先ほどのモデルにおいて、未知係数の α, αM, βは

Yi = α + αM DM,i + β Xi + ui

という回帰モデルの係数を最小二乗法で推定する事により推定する事ができる。

またこの場合も、t検定によって帰無仮説 H0: αM = 0

を通常通り検定することができる。この仮説は男性効果が存在しないことを意味している。

Page 8: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

8

ダミー変数

係数ダミー

就業年数が賃金へ与える影響も男性と女性で違う可能性がある。この場合賃金関数において就業年数の係数である βの値が男性と女性で異なるという事になる。

もし、そうであるとするならば、この β における男性と女性の違いはどのようにとらえることができるだろうか?

Page 9: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

9

ダミー変数

係数ダミー

もし賃金関数において (α に加えて) β における男女の違いも考慮したい場合は以下の回帰モデルを推定すればよい:

Yi = α + αM DM,i + (β + βM DM,i) Xi + ui ,

= α + αM DM,i + β Xi + βM DM,i Xi + ui ,

ここで DM,i は先ほどと同じである。

この回帰モデルにおいては、 βM の値が就業年数の影響の男女間の違いを表している。このようにダミー変数を入れることをしばしば係数ダミーを入れるという。

Page 10: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

10

ダミー変数

係数ダミー

この場合もやはりこの回帰モデルの α, αM, β, および βM

は最小二乗法で推定する事ができる。

この回帰モデルにおける説明変数は

1, DM,i , Xi , および DM,i Xi

の 4 つある事に注意。

通常通り、t検定で帰無仮説 H0: βM = 0 を検定する事もできる(また H0: αM = 0 , βM = 0 も F 検定で検定することができる)。

Page 11: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

11

ダミー変数

ダミー変数

例題 1:

DF,i を i番目の労働者が女性なら 1 , 男性なら 0 を取るダミー変数としよう。以下の回帰モデルを考えよう:

Yi = δ + δF DF,i + γXi + γF DF,i Xi + ui .

このモデルにおける δ, δF, γ, および γF, を、先ほどの回帰モデルの α, αM, β,および βMを用いて表しなさい。

Page 12: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

12

ダミー変数

2 つ以上のダミー変数

ここまではダミー変数は 1 つだけであったが、分析によっては 2 つ以上のダミー変数が必要となる場合がある。

例えば、賃金関数において、ブルーカラー(肉体労働系の仕事)とホワイトカラー(事務系の仕事)の違いも考慮したいとする。この場合は以下の回帰モデルを推定する

Page 13: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

13

ダミー変数

2 つ以上のダミー変数

(以下では説明の簡単化のため、説明変数は定数だけとする) :

Yi = α + αM DM,i + αW DW,i + ui , i =1,…, n.

ここで DW,i はもし i番目の労働者がホワイトカラーなら 1

をとり、ブルーカラーなら 0を取るダミー変数とする。

この回帰モデルは、労働者のカテゴリー(ダミー変数の値)によって、以下の 4つの回帰モデルになる:

Page 14: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

14

ダミー変数

2 つ以上のダミー変数

(ホワイトカラーで男性の場合; DW,i = 1, DM,i = 1)

Yi = α + αM + αW + ui ,

(ブルーカラーで男性の場合; DW,i = 0, DM,i = 1)

Yi = α + αM + ui ,

(ホワイトカラーで女性の場合; DW,i = 1, DM,i = 0)

Yi = α + αW + ui ,

(ブルーカラーで女性の場合; DM,i = 0, DW,i = 0)

Yi = α + ui .

Page 15: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

15

ダミー変数

2 つ以上のダミー変数

これら 4 つの回帰モデルを比べると、αM は男女間の違いを反映しており、αW はブルーカラーとホワイトカラーの違いを反映している事がわかる。

これら 2 つの値の解釈の仕方は先ほどのダミー変数が1つの時の解釈の仕方と同じである(すなわち、αM が正であれば、男性であると女性より αM だけ賃金が高い事を表すことになる)。

Page 16: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

16

ダミー変数

相互作用効果

上記の回帰モデルにおいて、αW は「ホワイトカラーである事の効果」を反映していたが、暗黙のうちに、この「ホワイトカラーである事の効果」は男性の場合も女性の場合も同じであると仮定していた。

しかしながら、(何らかの理由により)、この効果も男性と女性で異なるかもしれない。

Page 17: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

17

ダミー変数

相互作用効果

このような違いを分析するには、以下の回帰モデルを考えればよい:

Yi = α + αM DM,i + (αW + αWMDM,i) DW,i + ui ,

= α + αM DM,i + αW DW,i + αMW DM,i DW,i + ui .

この回帰モデルに(暗黙のうちに)含まれる 4 つの回帰モデルは:

Page 18: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

18

ダミー変数

相互作用効果

(ホワイトカラーで男性; DW,i = 1, DM,i = 1)

Yi = α + αM + αW + αWM + ui ,

(ブルーカラーで男性; DW,i = 0, DM,i = 1)

Yi = α + αM + ui ,

(ホワイトカラーで女性; DW,i = 1, DM,i = 0)

Yi = α + αW + ui ,

(ブルカラーで女性; DW,i = 0, DM,i = 0)

Yi = α + ui .

Page 19: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

19

ダミー変数

相互作用効果

最初の回帰モデル(ホワイトカラーで男性)に追加的な項である αWM が出てきたのが確認できる。

この数値は「男性におけるホワイトカラーである事の追加的な効果」を表している。

この追加的な効果である αWM を相互作用効果と呼ぶ。

Page 20: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

20

ダミー変数

相互作用効果

これらの 4 つの未知パラメーター α, αM, αW, αWM は最小二乗法で推定する事ができ、通常通り t検定や F 検定を行う事ができる。帰無仮説としては例えば,

H0: αM = 0 ( 「男性効果」は存在しない),

やH0: αW = 0 ( 「ホワイトカラー効果は存在しない),

やH0: αWM = 0

(「男性への追加的なホワイトカラー効果」は存在しない)

などである。

Page 21: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

21

ダミー変数

3 つ以上のカテゴリーに分けられるダミー変数

ここまでは、ダミー変数として、カテゴリーの数が 2つしかないもの ( 「男性か女性」、「ホワイトカラーかブルーカラー」) を見てきた。

しかしながら、実際の分析において、カテゴリーの数が3

つ以上ある場合がある。

例として、あるテストにおける、「勉強時間の試験の点数への効果」を考えてみよう。

Page 22: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

ダミー変数

以下はある科目におけるある中間試験のために勉強した時間に関するアンケートの結果である。

22

0

2

4

6

8

10

12

14

1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

次の級

人数

勉強時間

勉強時間のヒストグラム

Page 23: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

ダミー変数

3 つ以上のカテゴリーに分けられるダミー変数

試験における勉強時間の効果を見るために、これらを以下の3つのカテゴリーに分けるとする。

グループ1: 勉強時間が 9 時間未満

グループ2: 勉強時間が 9 時間以上18時間未満

グループ3: 勉強時間が18時間以上

(この分け方はあくまで一つの例で深い意味はない)

23

Page 24: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

24

ダミー変数

3 つ以上のカテゴリーに分けられるダミー変数

これらのグループ分けに対して以下の回帰モデルを考えよう:

Yi = α + α2 S2,i + α3 S3,i + ui, i = 1,…, n,

ここで

Yi : i番目の学生の試験の点数、S2,i : i番目の学生がグループ2なら 1 、そうでないな

ら 0 を取るダミー変数、S3,i : i番目の学生がグループ3なら 1、そうでないなら

0 を取るダミー変数、

とする。この回帰モデルは以下の 3 つの回帰モデルを暗黙に含んでいる。

Page 25: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

25

ダミー変数

3 つ以上のカテゴリーに分けられるダミー変数

(グループ3: 勉強時間が 18 時間以上の学生)

Yi = α + α3 + ui ,

(グループ2: 勉強時間が 9 時間以上 18 時間未満の学生)

Yi = α + α2 + ui ,

(グループ1: 勉強時間が 9 時間未満の学生)

Yi = α + ui .

この場合は相互作用効果は考えられない事に注意(勉強時間が 9 時間未満、かつ18時間以上というような学生は存在しない)。

Page 26: 統計学 ダミー変数による分析 - Keio Universityuser.keio.ac.jp/~nagakura/stat2017A/stat10_slide_2017...4 ダミー変数 切片(定数項) ダミー このような男女の違いを分析するために、以下の回帰モ

26

ダミー変数

例題 2:

「勉強時間効果」に加え、「講義出席率効果」も考えよう。Piを i番目の学生の講義出席率が50%以上なら 1 、そうでないなら 0 をとるダミー変数とする。

「勉強時間効果」 と「講義出席率効果」があるかどうかを同時に確かめるためにはどのような回帰モデルを考えればよいか?またその回帰モデルにおいて「講義出席率効果」があるかどうかを見るにはどのような帰無仮説を検定すればよいか?相互作用効果も合わせて考えなさい。