計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , pr y 3 0 , pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・...

28
計量経済学 講義 28 回 二項選択モデル 2018 1 23 日(火)3 担当教員: 唐渡 広志 研究室: 経済学研究棟4432号室 email: [email protected] website: http://www3.u-toyama.ac.jp/kkarato/ 1

Upload: others

Post on 22-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

計量経済学 講義第 28 回 二項選択モデル

2018 年 1 月 23 日(火)3 限担当教員: 唐渡 広志

研究室: 経済学研究棟4階432号室

email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/

1

Page 2: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

講義の目的

より高度な計量経済分析を行うために総合的な統計分析ソフト R の基本的な使い方を,学びます。

二項変数を被説明変数とする場合の問題点を理解します。

二項選択モデル(ロジット・モデル,プロビット・モデル)について学びます。

keywords: 線形確率モデル,プロビット・モデル,一般化線形モデル,ロジット・モデル,ポアソン回帰モデル

2

Page 3: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

R の準備 (1)1. data.csv (1月5日以降に使うデータ(csv) )をダウンロー

ドしておく。

2. ダウンロードした data.csv の置き場所を覚えておく。

3. Rを起動する。

4. ファイル >> ディレクトリの変更( data.csv を置いてあるフォルダ)

5. エディタの起動

新規に作る場合

ファイル >> 新しいスクリプト(エディタを起動)

前回のものを引き継ぐ場合

ファイル >> スクリプトを開く(***.R または ***.rを開く)

3

Page 4: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

R の準備 (2)

data<- read.csv(“data.csv”)

attach(data)

n<- dim(data)[1]

str(data)

y<- ifelse(work.sf!=3,1,0)D1<- ifelse(job.sf==2,1,0)D2<- ifelse(edu.sf==5,1,0)

x1<- cbind(data,y,D1,D2)

x2<- subset(x1, sex==2)

data2<- data.frame(x2)

dim(data2)

4

本日の分析を進めるために必要なコード

Page 5: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

二項変数を被説明変数としたモデル (1)

y<- ifelse(work.sf!=3,1,0)

y = 就労している場合 1,

そうでなければ 0 となる二項変数(ダミー変数)とする。

就労している:work.sf が 1 また 2 のとき

就労していない: work.sf が 3 のとき

work.sf != 3

A != B は A と B が等しくないことを示す論理演算記号

D1 正規雇用ダミー,D2 大卒ダミー

x1<- cbind(data,y,D1,D2)

x2<- subset(x1, sex==2)

作成した y を data にくっつけて(cbind),さらに女性(sex==2)だけのデータを利用する(subset)

観測値の数 1070,変数の数 47

5

20 work.sf 仕事(本人)1 仕事をした2 休んだ(病気,休暇)3 仕事をしていない

Page 6: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

二項変数を被説明変数としたモデル (2)データ・フレーム data2 において,年齢 age.sf と就労状態 y の関係を調べる。

年齢10歳階級 age.sf10 と就労状態 y の関係を調べる。

6

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

data2$age.sf

data

2$y

plot(data2$age.sf,data2$y)table(data2$age.sf10,data2$y)

就労していない

就労している

y = 0 y = 1age.sf10 20歳代 18 33

30 76 10940 65 18950 78 14560 151 9470 89 1180 12 0

Page 7: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

二項変数を被説明変数としたモデル (3)

最小2乗法による推定での問題点

理論値が y (0,1) の範囲に収まるとは限らない。結果の解釈が難しい。

攪乱項 u は正規分布に従わない。また,不均一分散となる。

7

eq<- lm(y~ age.sf, data=data2)summary(eq)abline(eq)

推定式: y = a + b age.sf + u最小2乗法による推定

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

data2$age.sfda

ta2$

y

推定した回帰直線y = 1.1335 −0.0114 age.sf

Page 8: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

二項変数を被説明変数としたモデル (4)

8

01

, iiii yuXy ただし線形確率モデル

pupuyyu

11100

0Pr

y = 0 または y = 1 となる確率

11001

uypuyp

項の実現値はとなり,そのとき攪乱で確率

項の実現値はとなり,そのとき攪乱で確率

ベルヌーイ分布:成功 (y=1) か失敗 (y=0) かだけを問うような確率分布。(確率 p で成功し,確率 1−p で失敗)これを n 回繰り返したときの成功回数の分布は二項分布。

ii

ii

XuXu

11,0

Page 9: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

二項変数を被説明変数としたモデル (5)

9

線形確率モデルの攪乱項の期待値と分散

でなければならない。

を満たすには,標準的仮定

i

i

XpuE 0:0

11

i

iii

XppXpXuE

よりiiii XuXu 11,0

ii

iiii

iii

XXXXXX

pXpXuV

111

1122

22

不均一分散が異なるの大きさによって分散iX

Page 10: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

プロビットモデル (1)

10

**ii yyの範囲は潜在変数

0

iX

iX

*iy

の領域0*iy

選択メカニズム

仕事をするyi =1

仕事をしないyi =0

閾値 (=0)

仕事をするか,しないかという選択 (y=1 または 0) は二項分布(ベルヌーイ分布)であり,その成功確率は誤差項 u の確率で表現できる。

仕事をしない

仕事をする

0010

*

*

ii

ii

yy

yy iiiii XuuXy 0*

iiiii XuuXy 0*

の関係を考える潜在変数と

の関係ではなく,と*

variablelatentyX

yX

という選択をする。のとき「仕事をする」において 10**iiiii yyuXy

の関係と *yX

Page 11: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

プロビットモデル (2)

11

選択確率

iiiiii XuXuyy PrPr0Pr1Pr *

誤差項を標準正規分布 N(0, 1) で定義する。

0u

X

N 0 1

u

0u

X

N 0 1

u

uf

1Pr

Pr1,0~

i

iX

i

iiii

ydttfXF

XuNuuf

累積分布は

を満たすとの確率密度関数とするを

0Pr *iy

0Pr *iy

Page 12: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

プロビットモデル (3)

12

最尤法 (Maximum Likelihood Method, ML)

を尤度とよぶ。同時確率を同時に満たす確率

,1Pr,0Pr,0Pr,1Pr 4321 yyyy

i yi

1 12 03 04 1・・・

・・・

においてのとき 10,1,0~ **iiiiii yyNuuXy

1Pr0Pr0Pr1Pr 4321 yyyyL尤度関数

の関数より尤度はここで ,10Pr

1Pr

ii

ii

XFyXFy

4321 11, XFXFXFXFL

を最尤推定量とよぶ。が最大となる ˆ,ˆˆ,ˆL

よぶ。をプロビットモデルととするとき iiii uXyNu *1,0~

Page 13: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

最尤法(最も尤もらしい推定法)

13

を対数尤度とよぶ。の対数値尤度

を最大尤度とよぶ。最尤推定量のとき

を最尤推定量とよぶ。が最大となる

ˆ,ˆlogˆ,ˆ

ˆ,ˆˆ,ˆ

ˆ,ˆˆ,ˆ

LLLL

L

L

Page 14: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

Rでのプロビット推定 (1)

14

eq<- glm(y~ age.sf + c06, data=data2,family=binomial(link="probit"))summary(eq)

プロビットモデルを推定するには glm 関数を使うglm(式, data=使用データ, family=binomial(link="probit")

Estimate Std. Error z value Pr(>|z|) (Intercept) 2.553738 0.207571 12.303 < 2e-16 ***age.sf -0.044548 0.003688 -12.080 < 2e-16 ***c06 -0.751036 0.104850 -7.163 7.9e-13 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1475.4 on 1069 degrees of freedomResidual deviance: 1312.8 on 1067 degrees of freedomAIC: 1318.8

c06age.sf1Pr: Fy推定モデル

Page 15: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

Rでのプロビット推定 (2)Null deviance: 1475.4 on 1069 degrees of freedom

データの個数だけパラメータを持つことを想定した(完全にフィットする)モデルを飽和モデルとよび,その対数尤度を LLS とおく。さらに,推定モデルにおいて H0: b = 0, g = 0 とおいたときの対数尤度を LL0 とおくとき Dev0 = 2(LLS-LL0) を H0 のもとでの「残差逸脱度」Null deviance とよぶ。

Residual deviance: 1312.8 on 1067 degrees of freedom

推定モデルの最大対数尤度を LL とおくとき Dev = 2(LLS-LL) を「残差逸脱度」 Residual deviance とよぶ。

AIC: 1318.8

説明変数の数を k とするとき AIC = Dev + 2(k+1) を赤池情報基準量Akaike information criterion とよぶ。

複数のモデルがある場合,AICが最小となるモデルが選択される。

15

Page 16: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

限界効果 (1)

16

c06age.sf1Pr: Fy推定モデル

は難しい。をそのまま解釈するの推定値 751036.0ˆ,044548.0ˆ

。関数は正規分布の確率密度ここで,

変化するかを求める。である確率が何単位変化したとき,説明変数が

xfxxFf

fy

y

c06ˆage.sfˆˆˆage.sf

1Pr%11

とよぶ。これを限界効果

書き換える。(平均値)を利用して

な値が変動するので代表的はサンプルによって値

MEEffects;Marginal

ˆ

c06ˆage.sfˆˆ

fME

f

Page 17: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

限界効果 (2)

17

phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))as.matrix(ME)

0u

X

N 0 1

u

phat = 確率 Pr(y=1)

qnorm(phat)

正規分布

確率密度 f

dnorm(qnorm(phat))

Page 18: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

限界効果 (3)

18

> ME(Intercept) age.sf c06 0.89534736 -0.01561865 -0.26331516

限界効果MEの意味• 年齢が1歳上がると就労確率が1.56%低下する。• 6歳未満の子供の数が1人増えると就労確率が26.33%低下する。

Page 19: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

GLM関数の中身

19

family=binomial(link="probit")

family : 目的変数 y が従う確率分布の族(familiy)binomial 二項分布

link=“probit”リンク関数がプロビットリンクであることを指定リンク関数とは y の期待値と系統的部分 a+bX との関係をつなぐ関数のことであり,g(E(y))= a+bX と表現する。

主な family 目的変数の確率分布 linkbinomial 二項分布(1か0か) probit g(E(y)) = F-1(a+bX)

logit g(E(y)) = ln (p/(1-p)) など

gaussian 正規分布 identity g(E(y)) = E(y)

poisson ポアソン分布 (0, 1, 2, ...) log g(E(y)) = log(l)など

Page 20: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

ロジット・モデル

20

eq<- glm(y~ age.sf + c06, data=data2,family=binomial(link=“logit"))summary(eq)

c06age.sf1Pr: y推定モデル

限界効果 1ˆage.sf

c06ˆage.sfˆˆˆage.sf

1PrME

y

phat<- eq$fitbhat<- eq$coefME<- bhat*mean(phat*(1-phat))as.matrix(ME)

-6 -4 -2 0 2 4 6

phat確率 L(a+bX)

確率密度

1

a+bX

の累積分布はロジスティック関数

Page 21: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

ポアソン回帰モデル

21

eq<- glm(c18~ factor(age.sf10), data=data, family=poisson(link="log"))summary(eq)

年齢層に応じて18歳未満の子供の数 c18 がどのように変動するか。

Page 22: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

演習問題 (1)

22

市郡規模ダミー

世帯年収ダミー

年齢説明変数

それ以外

持ち家目的変数

y)factor(citome.hh)factor(inc

age.sf01

2ownhouse y

データの条件指定: 男性 (sex==1) のみを利用。以下の変数を利用して,持ち家であるか否かのプロビット推定を行いなさい。限界効果も計算しなさい。

Page 23: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

演習問題 (1) 解答例

23

y2<- ifelse(ownhouse==1,1,0)x1<- cbind(data, y2)x2<- subset(x1, sex==1)data3<- data.frame(x2)dim(data3)

eq<- glm(y2~ age.sf + factor(income.hh) + factor(city), data=data3, family=binomial(link="probit"))summary(eq)phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))ME

Page 24: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

演習問題 (1) 解答例

24

Estimate Std. Error z value Pr(>|z|) (Intercept) -1.842156 0.278154 -6.623 3.52e-11 ***age.sf 0.038886 0.003981 9.767 < 2e-16 ***factor(income.hh)2 0.394269 0.150900 2.613 0.008981 ** factor(income.hh)3 0.717169 0.154891 4.630 3.65e-06 ***factor(income.hh)4 0.754204 0.166290 4.535 5.75e-06 ***factor(city)2 0.312626 0.134151 2.330 0.019785 * factor(city)3 0.639517 0.128650 4.971 6.66e-07 ***factor(city)4 0.737933 0.205108 3.598 0.000321 ***

限界効果age.sf 0.007334739factor(income.hh)2 0.074367300factor(income.hh)3 0.135273000factor(income.hh)4 0.142258587factor(city)2 0.058967775factor(city)3 0.120626263factor(city)4 0.139189426

主な結果• 年齢が1歳上がると,持ち家率が

0.7%上昇する。• 年収階級1の人と比較して,年収階級

4の人は持ち家率が14.2%高い。• 大都市の人に比べて,人口20万人未

満の都市の人は持ち家率が12.1%高い。

Page 25: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

演習問題 (2)

25

35 st52現在の生活面で,「配偶者との関係」について満足していますか?

1 満足2 どちらかといえば満足3 どちらともいえない4 どちらかといえば不満5 不満

市郡規模ダミー

世帯年収ダミー

乗年齢の

年齢

女性ダミー説明変数

それ以外

らかといえば満足」「満足」または「どち目的変数

y)factor(citome.hh)factor(inc

2age.sf^2Iage.sf

)factor(sex01

3st52 y

データの条件指定: なし以下の変数を利用して,「配偶者との関係」に満足しているか否かについてのプロビット推定を行いなさい。限界効果も計算しなさい。

Page 26: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

演習問題 (2) 解答例

26

y3<- ifelse(st52<=2,1,0)x1<- cbind(data, y3)data4<- data.frame(x1)dim(data4)

eq<- glm(y3~ factor(sex) + age.sf + I(age.sf^2)+ factor(income.hh) + factor(city), data=data4, family=binomial(link="probit"))

summary(eq)phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))as.matrix(ME)

Page 27: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

演習問題 (2) 解答例

27

推定値 標準誤差 t値 p値 限界効果

(Intercept) 1.985 0.392 5.069 0.000 ***factor(sex)2 -0.264 0.057 -4.603 0.000 *** -0.094 age.sf -0.058 0.015 -3.862 0.000 *** -0.021 I(age.sf^2) 0.001 0.000 3.881 0.000 *** 0.000 factor(income.hh)2 0.175 0.082 2.144 0.032 * 0.062 factor(income.hh)3 0.147 0.084 1.742 0.082 . 0.052 factor(income.hh)4 0.404 0.093 4.321 0.000 *** 0.144 factor(city)2 -0.204 0.082 -2.486 0.013 * -0.073 factor(city)3 -0.197 0.074 -2.651 0.008 ** -0.070 factor(city)4 -0.154 0.103 -1.502 0.133 -0.055

主な結果• 男性に比べて,女性は「配偶者との関係」に満足している確率が9.4%低い• 年齢の2乗項の係数が正なので,満足度が最低となる年齢がある。• 年収階級1の人と比較して,年収階級4の人は「配偶者との関係」に満足して

いる確率が14.4%高い。• 大都市の人に比べて,人口20万人未満の都市の人は「配偶者との関係」に満

足している確率が7.0%低い。

Page 28: 計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , Pr y 3 0 , Pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・ ・ ・ ・ ・ ・ * ~ 0,1 , * 0のとき 1 において y i X i u i u i N y i

演習問題 (2) 解答例

28

age.sf

20 30 40 50 60 70 80 90

20 30 40 50 60 70 80

-0.0

100.

000

0.01

0

age.sf

限界効果

b1age.sf + b2 age.sf2

平均で評価しない限界効果