計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , pr y 3 0 , pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・...

計量経済学講義第 28 回二項選択モデル

2018 年 1 月 23 日（火）3 限担当教員: 唐渡広志

研究室: 経済学研究棟4階432号室

email: kkarato@eco.u-toyama.ac.jpwebsite: http://www3.u-toyama.ac.jp/kkarato/

講義の目的

より高度な計量経済分析を行うために総合的な統計分析ソフト R の基本的な使い方を，学びます。

二項変数を被説明変数とする場合の問題点を理解します。

二項選択モデル（ロジット・モデル，プロビット・モデル）について学びます。

keywords: 線形確率モデル，プロビット・モデル，一般化線形モデル，ロジット・モデル，ポアソン回帰モデル

R の準備 (1)1. data.csv （1月5日以降に使うデータ(csv) ）をダウンロー

ドしておく。

2. ダウンロードした data.csv の置き場所を覚えておく。

3. Rを起動する。

4. ファイル >> ディレクトリの変更（ data.csv を置いてあるフォルダ）

5. エディタの起動

新規に作る場合

ファイル >> 新しいスクリプト（エディタを起動）

前回のものを引き継ぐ場合

ファイル >> スクリプトを開く（***.R または ***.rを開く）

R の準備 (2)

data<- read.csv(“data.csv”)

attach(data)

n<- dim(data)[1]

str(data)

y<- ifelse(work.sf!=3,1,0)D1<- ifelse(job.sf==2,1,0)D2<- ifelse(edu.sf==5,1,0)

x1<- cbind(data,y,D1,D2)

x2<- subset(x1, sex==2)

data2<- data.frame(x2)

dim(data2)

本日の分析を進めるために必要なコード

二項変数を被説明変数としたモデル (1)

y<- ifelse(work.sf!=3,1,0)

y = 就労している場合 1，

そうでなければ 0 となる二項変数（ダミー変数）とする。

就労している：work.sf が 1 また 2 のとき

就労していない： work.sf が 3 のとき

work.sf != 3

A != B は A と B が等しくないことを示す論理演算記号

D1 正規雇用ダミー，D2 大卒ダミー

x1<- cbind(data,y,D1,D2)

x2<- subset(x1, sex==2)

作成した y を data にくっつけて(cbind)，さらに女性(sex==2)だけのデータを利用する(subset)

観測値の数 1070，変数の数 47

20 work.sf 仕事（本人）1 仕事をした2 休んだ（病気，休暇）3 仕事をしていない

二項変数を被説明変数としたモデル (2)データ・フレーム data2 において，年齢 age.sf と就労状態 y の関係を調べる。

年齢10歳階級 age.sf10 と就労状態 y の関係を調べる。

20 30 40 50 60 70 80

data2$age.sf

plot(data2$age.sf,data2$y)table(data2$age.sf10,data2$y)

就労していない

就労している

y = 0 y = 1age.sf10 20歳代 18 33

30 76 10940 65 18950 78 14560 151 9470 89 1180 12 0

最小2乗法による推定での問題点

理論値が y (0,1) の範囲に収まるとは限らない。結果の解釈が難しい。

攪乱項 u は正規分布に従わない。また，不均一分散となる。

eq<- lm(y~ age.sf, data=data2)summary(eq)abline(eq)

推定式: y = a + b age.sf + u最小2乗法による推定

20 30 40 50 60 70 80

data2$age.sfda

推定した回帰直線y = 1.1335 −0.0114 age.sf

, iiii yuXy ただし線形確率モデル

pupuyyu

y = 0 または y = 1 となる確率

uypuyp

項の実現値はとなり，そのとき攪乱で確率

ベルヌーイ分布：成功 (y=1) か失敗 (y=0) かだけを問うような確率分布。（確率 p で成功し，確率 1−p で失敗）これを n 回繰り返したときの成功回数の分布は二項分布。

線形確率モデルの攪乱項の期待値と分散

でなければならない。

を満たすには，標準的仮定

XpuE 0:0

XppXpXuE

よりiiii XuXu 11,0

XXXXXX

pXpXuV

不均一分散が異なるの大きさによって分散iX

プロビットモデル (1)

**ii yyの範囲は潜在変数

の領域0*iy

選択メカニズム

仕事をするyi =1

仕事をしないyi =0

閾値 (=0)

仕事をするか，しないかという選択 (y=1 または 0) は二項分布（ベルヌーイ分布）であり，その成功確率は誤差項 u の確率で表現できる。

仕事をしない

仕事をする

yy iiiii XuuXy 0*

iiiii XuuXy 0*

の関係を考える潜在変数と

の関係ではなく，と*

variablelatentyX

という選択をする。のとき「仕事をする」において 10**iiiii yyuXy

の関係と *yX

選択確率

iiiiii XuXuyy PrPr0Pr1Pr *

誤差項を標準正規分布 N(0, 1) で定義する。

Pr1,0~

ydttfXF

XuNuuf

累積分布は

を満たすとの確率密度関数とするを

0Pr *iy

最尤法 (Maximum Likelihood Method, ML)

を尤度とよぶ。同時確率を同時に満たす確率

,1Pr,0Pr,0Pr,1Pr 4321 yyyy

1 12 03 04 1・・・

・・・

においてのとき 10,1,0~ **iiiiii yyNuuXy

1Pr0Pr0Pr1Pr 4321 yyyyL尤度関数

の関数より尤度はここで ,10Pr

XFyXFy

4321 11, XFXFXFXFL

を最尤推定量とよぶ。が最大となる ˆ,ˆˆ,ˆL

よぶ。をプロビットモデルととするとき iiii uXyNu *1,0~

最尤法（最も尤もらしい推定法）

を対数尤度とよぶ。の対数値尤度

を最大尤度とよぶ。最尤推定量のとき

を最尤推定量とよぶ。が最大となる

ˆ,ˆlogˆ,ˆ

ˆ,ˆˆ,ˆ

Rでのプロビット推定 (1)

eq<- glm(y~ age.sf + c06, data=data2,family=binomial(link="probit"))summary(eq)

プロビットモデルを推定するには glm 関数を使うglm(式, data=使用データ, family=binomial(link="probit")

Estimate Std. Error z value Pr(>|z|) (Intercept) 2.553738 0.207571 12.303 < 2e-16 ***age.sf -0.044548 0.003688 -12.080 < 2e-16 ***c06 -0.751036 0.104850 -7.163 7.9e-13 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1475.4 on 1069 degrees of freedomResidual deviance: 1312.8 on 1067 degrees of freedomAIC: 1318.8

c06age.sf1Pr: Fy推定モデル

Rでのプロビット推定 (2)Null deviance: 1475.4 on 1069 degrees of freedom

データの個数だけパラメータを持つことを想定した（完全にフィットする）モデルを飽和モデルとよび，その対数尤度を LLS とおく。さらに，推定モデルにおいて H0: b = 0, g = 0 とおいたときの対数尤度を LL0 とおくとき Dev0 = 2(LLS-LL0) を H0 のもとでの「残差逸脱度」Null deviance とよぶ。

Residual deviance: 1312.8 on 1067 degrees of freedom

推定モデルの最大対数尤度を LL とおくとき Dev = 2(LLS-LL) を「残差逸脱度」 Residual deviance とよぶ。

AIC: 1318.8

説明変数の数を k とするとき AIC = Dev + 2(k+1) を赤池情報基準量Akaike information criterion とよぶ。

複数のモデルがある場合，AICが最小となるモデルが選択される。

限界効果 (1)

c06age.sf1Pr: Fy推定モデル

は難しい。をそのまま解釈するの推定値 751036.0ˆ,044548.0ˆ

。関数は正規分布の確率密度ここで，

変化するかを求める。である確率が何単位変化したとき，説明変数が

xfxxFf

c06ˆage.sfˆˆˆage.sf

1Pr%11

とよぶ。これを限界効果

書き換える。（平均値）を利用して

な値が変動するので代表的はサンプルによって値

MEEffects;Marginal

c06ˆage.sfˆˆ

限界効果 (2)

phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))as.matrix(ME)

phat = 確率 Pr(y=1)

qnorm(phat)

正規分布

確率密度 f

dnorm(qnorm(phat))

限界効果 (3)

> ME(Intercept) age.sf c06 0.89534736 -0.01561865 -0.26331516

限界効果MEの意味• 年齢が1歳上がると就労確率が1.56%低下する。• 6歳未満の子供の数が1人増えると就労確率が26.33%低下する。

GLM関数の中身

family=binomial(link="probit")

family : 目的変数 y が従う確率分布の族(familiy)binomial 二項分布

link=“probit”リンク関数がプロビットリンクであることを指定リンク関数とは y の期待値と系統的部分 a+bX との関係をつなぐ関数のことであり，g(E(y))= a+bX と表現する。

主な family 目的変数の確率分布 linkbinomial 二項分布（1か0か） probit g(E(y)) = F-1(a+bX)

logit g(E(y)) = ln (p/(1-p)) など

gaussian 正規分布 identity g(E(y)) = E(y)

poisson ポアソン分布 (0, 1, 2, ...) log g(E(y)) = log(l)など

ロジット・モデル

eq<- glm(y~ age.sf + c06, data=data2,family=binomial(link=“logit"))summary(eq)

c06age.sf1Pr: y推定モデル

限界効果 1ˆage.sf

c06ˆage.sfˆˆˆage.sf

phat<- eq$fitbhat<- eq$coefME<- bhat*mean(phat*(1-phat))as.matrix(ME)

-6 -4 -2 0 2 4 6

phat確率 L(a+bX)

確率密度

の累積分布はロジスティック関数

ポアソン回帰モデル

eq<- glm(c18~ factor(age.sf10), data=data, family=poisson(link="log"))summary(eq)

年齢層に応じて18歳未満の子供の数 c18 がどのように変動するか。

演習問題 (1)

市郡規模ダミー

世帯年収ダミー

年齢説明変数

それ以外

持ち家目的変数

y)factor(citome.hh)factor(inc

age.sf01

2ownhouse y

データの条件指定: 男性 (sex==1) のみを利用。以下の変数を利用して，持ち家であるか否かのプロビット推定を行いなさい。限界効果も計算しなさい。

演習問題 (1) 解答例

y2<- ifelse(ownhouse==1,1,0)x1<- cbind(data, y2)x2<- subset(x1, sex==1)data3<- data.frame(x2)dim(data3)

eq<- glm(y2~ age.sf + factor(income.hh) + factor(city), data=data3, family=binomial(link="probit"))summary(eq)phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))ME

Estimate Std. Error z value Pr(>|z|) (Intercept) -1.842156 0.278154 -6.623 3.52e-11 ***age.sf 0.038886 0.003981 9.767 < 2e-16 ***factor(income.hh)2 0.394269 0.150900 2.613 0.008981 ** factor(income.hh)3 0.717169 0.154891 4.630 3.65e-06 ***factor(income.hh)4 0.754204 0.166290 4.535 5.75e-06 ***factor(city)2 0.312626 0.134151 2.330 0.019785 * factor(city)3 0.639517 0.128650 4.971 6.66e-07 ***factor(city)4 0.737933 0.205108 3.598 0.000321 ***

限界効果age.sf 0.007334739factor(income.hh)2 0.074367300factor(income.hh)3 0.135273000factor(income.hh)4 0.142258587factor(city)2 0.058967775factor(city)3 0.120626263factor(city)4 0.139189426

主な結果• 年齢が1歳上がると，持ち家率が

0.7%上昇する。• 年収階級1の人と比較して，年収階級

4の人は持ち家率が14.2%高い。• 大都市の人に比べて，人口20万人未

満の都市の人は持ち家率が12.1%高い。

演習問題 (2)

35 st52現在の生活面で，「配偶者との関係」について満足していますか？

1 満足2 どちらかといえば満足3 どちらともいえない4 どちらかといえば不満5 不満

市郡規模ダミー

世帯年収ダミー

乗年齢の

年齢

女性ダミー説明変数

それ以外

らかといえば満足」「満足」または「どち目的変数

y)factor(citome.hh)factor(inc

2age.sf^2Iage.sf

)factor(sex01

3st52 y

データの条件指定: なし以下の変数を利用して，「配偶者との関係」に満足しているか否かについてのプロビット推定を行いなさい。限界効果も計算しなさい。

y3<- ifelse(st52<=2,1,0)x1<- cbind(data, y3)data4<- data.frame(x1)dim(data4)

eq<- glm(y3~ factor(sex) + age.sf + I(age.sf^2)+ factor(income.hh) + factor(city), data=data4, family=binomial(link="probit"))

summary(eq)phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))as.matrix(ME)

推定値標準誤差 t値 p値限界効果

(Intercept) 1.985 0.392 5.069 0.000 ***factor(sex)2 -0.264 0.057 -4.603 0.000 *** -0.094 age.sf -0.058 0.015 -3.862 0.000 *** -0.021 I(age.sf^2) 0.001 0.000 3.881 0.000 *** 0.000 factor(income.hh)2 0.175 0.082 2.144 0.032 * 0.062 factor(income.hh)3 0.147 0.084 1.742 0.082 . 0.052 factor(income.hh)4 0.404 0.093 4.321 0.000 *** 0.144 factor(city)2 -0.204 0.082 -2.486 0.013 * -0.073 factor(city)3 -0.197 0.074 -2.651 0.008 ** -0.070 factor(city)4 -0.154 0.103 -1.502 0.133 -0.055

主な結果• 男性に比べて，女性は「配偶者との関係」に満足している確率が9.4%低い• 年齢の2乗項の係数が正なので，満足度が最低となる年齢がある。• 年収階級1の人と比較して，年収階級4の人は「配偶者との関係」に満足して

いる確率が14.4%高い。• 大都市の人に比べて，人口20万人未満の都市の人は「配偶者との関係」に満

足している確率が7.0%低い。

age.sf

20 30 40 50 60 70 80 90

20 30 40 50 60 70 80

age.sf

限界効果

b1age.sf + b2 age.sf2

平均で評価しない限界効果

計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , pr y 3 0 , pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・...

Documents

g il st u 01 doq 0 0 00 -a ill [e ill rx — 9-14 < i s —...

catalogul surselor de finanȚare regiunea centru · 0 4 0 0...

ÿþm i c r o s o f t w o r d - u u 0 0 1 2 0 0 3 . r t...

scan0016 - sara.o.oo7.jpsara.o.oo7.jp/2014.12-1.pdf ·...

صيد الفوائد saaid.net · o) 0) . —al . (t) o)...

0«~u«~ «0 ~z-«u~ · 0«~u«~ «0 ~z-«u~ ... 'w

japanese embassy injapanese embassy in iceland 2 0 2 0 . 0 7...

· a c# r ˇp ˚ ˇ ˚ o˚ ˇ> ... e˘u˚4 ˘0 7 k e˘u˚4...

sveuČiliŠte u s p l i t u...matematika i fizika 20 + 2* 0...

ÿþm i c r o s o f t w o r d - u u 0 0 3 2 0 0 2 . r t...

the second term is equal to e u;t h e u0 hx 0 f^ (u+ t^u0) i...

5 0 5 0 5 i 5 i 0 i 0 i 0 i 5 i 0 5 0 i 0 i !u 0 tavola...

za upis studenata u i. godinu diplomsk u aj-diplomski-17 ·...

cc w - dtic44 .; %!-4! 4 ' . iz 0 w e-i-e i4 l r - i i, o x0...

“luigi luzzatti” › sito › didattica ›...

v/ 0/05/ u/ 5lw u/ las y/ 945 cjs > asi (i

ct—intranet.unionepedemontana.pr.it/pubblica/allegati/1794.pdf*1...

vyt z50t -5 u vx r5bi55u t1&lal05 'u 'u a u ol5 i u =b u 0

533 pg~ 84 · d8 533 pg~ 84 il'' i ii"u 0 0 0 0 z 6 z0 "~ z...

0.uvod u kolegij-sadržaj i uvjeti.pptx