計量経済学講義 - u-toyama.ac.jp€¦ · 2 0 , pr y 3 0 , pr y 4 1 , i yi 1 1 2 0 3 0 4 1 ・...
Post on 22-May-2020
2 Views
Preview:
TRANSCRIPT
計量経済学 講義第 28 回 二項選択モデル
2018 年 1 月 23 日(火)3 限担当教員: 唐渡 広志
研究室: 経済学研究棟4階432号室
email: kkarato@eco.u-toyama.ac.jpwebsite: http://www3.u-toyama.ac.jp/kkarato/
1
講義の目的
より高度な計量経済分析を行うために総合的な統計分析ソフト R の基本的な使い方を,学びます。
二項変数を被説明変数とする場合の問題点を理解します。
二項選択モデル(ロジット・モデル,プロビット・モデル)について学びます。
keywords: 線形確率モデル,プロビット・モデル,一般化線形モデル,ロジット・モデル,ポアソン回帰モデル
2
R の準備 (1)1. data.csv (1月5日以降に使うデータ(csv) )をダウンロー
ドしておく。
2. ダウンロードした data.csv の置き場所を覚えておく。
3. Rを起動する。
4. ファイル >> ディレクトリの変更( data.csv を置いてあるフォルダ)
5. エディタの起動
新規に作る場合
ファイル >> 新しいスクリプト(エディタを起動)
前回のものを引き継ぐ場合
ファイル >> スクリプトを開く(***.R または ***.rを開く)
3
R の準備 (2)
data<- read.csv(“data.csv”)
attach(data)
n<- dim(data)[1]
str(data)
y<- ifelse(work.sf!=3,1,0)D1<- ifelse(job.sf==2,1,0)D2<- ifelse(edu.sf==5,1,0)
x1<- cbind(data,y,D1,D2)
x2<- subset(x1, sex==2)
data2<- data.frame(x2)
dim(data2)
4
本日の分析を進めるために必要なコード
二項変数を被説明変数としたモデル (1)
y<- ifelse(work.sf!=3,1,0)
y = 就労している場合 1,
そうでなければ 0 となる二項変数(ダミー変数)とする。
就労している:work.sf が 1 また 2 のとき
就労していない: work.sf が 3 のとき
work.sf != 3
A != B は A と B が等しくないことを示す論理演算記号
D1 正規雇用ダミー,D2 大卒ダミー
x1<- cbind(data,y,D1,D2)
x2<- subset(x1, sex==2)
作成した y を data にくっつけて(cbind),さらに女性(sex==2)だけのデータを利用する(subset)
観測値の数 1070,変数の数 47
5
20 work.sf 仕事(本人)1 仕事をした2 休んだ(病気,休暇)3 仕事をしていない
二項変数を被説明変数としたモデル (2)データ・フレーム data2 において,年齢 age.sf と就労状態 y の関係を調べる。
年齢10歳階級 age.sf10 と就労状態 y の関係を調べる。
6
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
data2$age.sf
data
2$y
plot(data2$age.sf,data2$y)table(data2$age.sf10,data2$y)
就労していない
就労している
y = 0 y = 1age.sf10 20歳代 18 33
30 76 10940 65 18950 78 14560 151 9470 89 1180 12 0
二項変数を被説明変数としたモデル (3)
最小2乗法による推定での問題点
理論値が y (0,1) の範囲に収まるとは限らない。結果の解釈が難しい。
攪乱項 u は正規分布に従わない。また,不均一分散となる。
7
eq<- lm(y~ age.sf, data=data2)summary(eq)abline(eq)
推定式: y = a + b age.sf + u最小2乗法による推定
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
data2$age.sfda
ta2$
y
推定した回帰直線y = 1.1335 −0.0114 age.sf
二項変数を被説明変数としたモデル (4)
8
01
, iiii yuXy ただし線形確率モデル
pupuyyu
11100
0Pr
y = 0 または y = 1 となる確率
11001
uypuyp
項の実現値はとなり,そのとき攪乱で確率
項の実現値はとなり,そのとき攪乱で確率
ベルヌーイ分布:成功 (y=1) か失敗 (y=0) かだけを問うような確率分布。(確率 p で成功し,確率 1−p で失敗)これを n 回繰り返したときの成功回数の分布は二項分布。
ii
ii
XuXu
11,0
二項変数を被説明変数としたモデル (5)
9
線形確率モデルの攪乱項の期待値と分散
でなければならない。
を満たすには,標準的仮定
i
i
XpuE 0:0
11
i
iii
XppXpXuE
よりiiii XuXu 11,0
ii
iiii
iii
XXXXXX
pXpXuV
111
1122
22
不均一分散が異なるの大きさによって分散iX
プロビットモデル (1)
10
**ii yyの範囲は潜在変数
0
iX
iX
*iy
の領域0*iy
選択メカニズム
仕事をするyi =1
仕事をしないyi =0
閾値 (=0)
仕事をするか,しないかという選択 (y=1 または 0) は二項分布(ベルヌーイ分布)であり,その成功確率は誤差項 u の確率で表現できる。
仕事をしない
仕事をする
0010
*
*
ii
ii
yy
yy iiiii XuuXy 0*
iiiii XuuXy 0*
の関係を考える潜在変数と
の関係ではなく,と*
variablelatentyX
yX
という選択をする。のとき「仕事をする」において 10**iiiii yyuXy
の関係と *yX
プロビットモデル (2)
11
選択確率
iiiiii XuXuyy PrPr0Pr1Pr *
誤差項を標準正規分布 N(0, 1) で定義する。
0u
X
N 0 1
u
0u
X
N 0 1
u
uf
1Pr
Pr1,0~
i
iX
i
iiii
ydttfXF
XuNuuf
累積分布は
を満たすとの確率密度関数とするを
0Pr *iy
0Pr *iy
プロビットモデル (3)
12
最尤法 (Maximum Likelihood Method, ML)
を尤度とよぶ。同時確率を同時に満たす確率
,1Pr,0Pr,0Pr,1Pr 4321 yyyy
i yi
1 12 03 04 1・・・
・・・
においてのとき 10,1,0~ **iiiiii yyNuuXy
1Pr0Pr0Pr1Pr 4321 yyyyL尤度関数
の関数より尤度はここで ,10Pr
1Pr
ii
ii
XFyXFy
4321 11, XFXFXFXFL
を最尤推定量とよぶ。が最大となる ˆ,ˆˆ,ˆL
よぶ。をプロビットモデルととするとき iiii uXyNu *1,0~
最尤法(最も尤もらしい推定法)
13
を対数尤度とよぶ。の対数値尤度
を最大尤度とよぶ。最尤推定量のとき
を最尤推定量とよぶ。が最大となる
ˆ,ˆlogˆ,ˆ
ˆ,ˆˆ,ˆ
ˆ,ˆˆ,ˆ
LLLL
L
L
Rでのプロビット推定 (1)
14
eq<- glm(y~ age.sf + c06, data=data2,family=binomial(link="probit"))summary(eq)
プロビットモデルを推定するには glm 関数を使うglm(式, data=使用データ, family=binomial(link="probit")
Estimate Std. Error z value Pr(>|z|) (Intercept) 2.553738 0.207571 12.303 < 2e-16 ***age.sf -0.044548 0.003688 -12.080 < 2e-16 ***c06 -0.751036 0.104850 -7.163 7.9e-13 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1475.4 on 1069 degrees of freedomResidual deviance: 1312.8 on 1067 degrees of freedomAIC: 1318.8
c06age.sf1Pr: Fy推定モデル
Rでのプロビット推定 (2)Null deviance: 1475.4 on 1069 degrees of freedom
データの個数だけパラメータを持つことを想定した(完全にフィットする)モデルを飽和モデルとよび,その対数尤度を LLS とおく。さらに,推定モデルにおいて H0: b = 0, g = 0 とおいたときの対数尤度を LL0 とおくとき Dev0 = 2(LLS-LL0) を H0 のもとでの「残差逸脱度」Null deviance とよぶ。
Residual deviance: 1312.8 on 1067 degrees of freedom
推定モデルの最大対数尤度を LL とおくとき Dev = 2(LLS-LL) を「残差逸脱度」 Residual deviance とよぶ。
AIC: 1318.8
説明変数の数を k とするとき AIC = Dev + 2(k+1) を赤池情報基準量Akaike information criterion とよぶ。
複数のモデルがある場合,AICが最小となるモデルが選択される。
15
限界効果 (1)
16
c06age.sf1Pr: Fy推定モデル
は難しい。をそのまま解釈するの推定値 751036.0ˆ,044548.0ˆ
。関数は正規分布の確率密度ここで,
変化するかを求める。である確率が何単位変化したとき,説明変数が
xfxxFf
fy
y
c06ˆage.sfˆˆˆage.sf
1Pr%11
とよぶ。これを限界効果
書き換える。(平均値)を利用して
な値が変動するので代表的はサンプルによって値
MEEffects;Marginal
ˆ
c06ˆage.sfˆˆ
fME
f
限界効果 (2)
17
phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))as.matrix(ME)
0u
X
N 0 1
u
phat = 確率 Pr(y=1)
qnorm(phat)
正規分布
確率密度 f
dnorm(qnorm(phat))
限界効果 (3)
18
> ME(Intercept) age.sf c06 0.89534736 -0.01561865 -0.26331516
限界効果MEの意味• 年齢が1歳上がると就労確率が1.56%低下する。• 6歳未満の子供の数が1人増えると就労確率が26.33%低下する。
GLM関数の中身
19
family=binomial(link="probit")
family : 目的変数 y が従う確率分布の族(familiy)binomial 二項分布
link=“probit”リンク関数がプロビットリンクであることを指定リンク関数とは y の期待値と系統的部分 a+bX との関係をつなぐ関数のことであり,g(E(y))= a+bX と表現する。
主な family 目的変数の確率分布 linkbinomial 二項分布(1か0か) probit g(E(y)) = F-1(a+bX)
logit g(E(y)) = ln (p/(1-p)) など
gaussian 正規分布 identity g(E(y)) = E(y)
poisson ポアソン分布 (0, 1, 2, ...) log g(E(y)) = log(l)など
ロジット・モデル
20
eq<- glm(y~ age.sf + c06, data=data2,family=binomial(link=“logit"))summary(eq)
c06age.sf1Pr: y推定モデル
限界効果 1ˆage.sf
c06ˆage.sfˆˆˆage.sf
1PrME
y
phat<- eq$fitbhat<- eq$coefME<- bhat*mean(phat*(1-phat))as.matrix(ME)
-6 -4 -2 0 2 4 6
phat確率 L(a+bX)
確率密度
1
a+bX
の累積分布はロジスティック関数
ポアソン回帰モデル
21
eq<- glm(c18~ factor(age.sf10), data=data, family=poisson(link="log"))summary(eq)
年齢層に応じて18歳未満の子供の数 c18 がどのように変動するか。
演習問題 (1)
22
市郡規模ダミー
世帯年収ダミー
年齢説明変数
それ以外
持ち家目的変数
y)factor(citome.hh)factor(inc
age.sf01
2ownhouse y
データの条件指定: 男性 (sex==1) のみを利用。以下の変数を利用して,持ち家であるか否かのプロビット推定を行いなさい。限界効果も計算しなさい。
演習問題 (1) 解答例
23
y2<- ifelse(ownhouse==1,1,0)x1<- cbind(data, y2)x2<- subset(x1, sex==1)data3<- data.frame(x2)dim(data3)
eq<- glm(y2~ age.sf + factor(income.hh) + factor(city), data=data3, family=binomial(link="probit"))summary(eq)phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))ME
演習問題 (1) 解答例
24
Estimate Std. Error z value Pr(>|z|) (Intercept) -1.842156 0.278154 -6.623 3.52e-11 ***age.sf 0.038886 0.003981 9.767 < 2e-16 ***factor(income.hh)2 0.394269 0.150900 2.613 0.008981 ** factor(income.hh)3 0.717169 0.154891 4.630 3.65e-06 ***factor(income.hh)4 0.754204 0.166290 4.535 5.75e-06 ***factor(city)2 0.312626 0.134151 2.330 0.019785 * factor(city)3 0.639517 0.128650 4.971 6.66e-07 ***factor(city)4 0.737933 0.205108 3.598 0.000321 ***
限界効果age.sf 0.007334739factor(income.hh)2 0.074367300factor(income.hh)3 0.135273000factor(income.hh)4 0.142258587factor(city)2 0.058967775factor(city)3 0.120626263factor(city)4 0.139189426
主な結果• 年齢が1歳上がると,持ち家率が
0.7%上昇する。• 年収階級1の人と比較して,年収階級
4の人は持ち家率が14.2%高い。• 大都市の人に比べて,人口20万人未
満の都市の人は持ち家率が12.1%高い。
演習問題 (2)
25
35 st52現在の生活面で,「配偶者との関係」について満足していますか?
1 満足2 どちらかといえば満足3 どちらともいえない4 どちらかといえば不満5 不満
市郡規模ダミー
世帯年収ダミー
乗年齢の
年齢
女性ダミー説明変数
それ以外
らかといえば満足」「満足」または「どち目的変数
y)factor(citome.hh)factor(inc
2age.sf^2Iage.sf
)factor(sex01
3st52 y
データの条件指定: なし以下の変数を利用して,「配偶者との関係」に満足しているか否かについてのプロビット推定を行いなさい。限界効果も計算しなさい。
演習問題 (2) 解答例
26
y3<- ifelse(st52<=2,1,0)x1<- cbind(data, y3)data4<- data.frame(x1)dim(data4)
eq<- glm(y3~ factor(sex) + age.sf + I(age.sf^2)+ factor(income.hh) + factor(city), data=data4, family=binomial(link="probit"))
summary(eq)phat<- eq$fitbhat<- eq$coefME<- bhat*mean(dnorm(qnorm(phat)))as.matrix(ME)
演習問題 (2) 解答例
27
推定値 標準誤差 t値 p値 限界効果
(Intercept) 1.985 0.392 5.069 0.000 ***factor(sex)2 -0.264 0.057 -4.603 0.000 *** -0.094 age.sf -0.058 0.015 -3.862 0.000 *** -0.021 I(age.sf^2) 0.001 0.000 3.881 0.000 *** 0.000 factor(income.hh)2 0.175 0.082 2.144 0.032 * 0.062 factor(income.hh)3 0.147 0.084 1.742 0.082 . 0.052 factor(income.hh)4 0.404 0.093 4.321 0.000 *** 0.144 factor(city)2 -0.204 0.082 -2.486 0.013 * -0.073 factor(city)3 -0.197 0.074 -2.651 0.008 ** -0.070 factor(city)4 -0.154 0.103 -1.502 0.133 -0.055
主な結果• 男性に比べて,女性は「配偶者との関係」に満足している確率が9.4%低い• 年齢の2乗項の係数が正なので,満足度が最低となる年齢がある。• 年収階級1の人と比較して,年収階級4の人は「配偶者との関係」に満足して
いる確率が14.4%高い。• 大都市の人に比べて,人口20万人未満の都市の人は「配偶者との関係」に満
足している確率が7.0%低い。
演習問題 (2) 解答例
28
age.sf
20 30 40 50 60 70 80 90
20 30 40 50 60 70 80
-0.0
100.
000
0.01
0
age.sf
限界効果
b1age.sf + b2 age.sf2
平均で評価しない限界効果
top related