Download - Curs10 econometrie ipoteze dv 2013
1
ECONOMETRIE - Curs 10 -
2
Tematică C10
Ipoteze statistice Media erorilor egală cu zero Homoscedasticitatea
Ipotezele statistice care se formulează în modelarea econometrică sunt ipoteze asupra componentei aleatoare (erorilor) şi ipoteze asupra componentei deterministe (variabilelor independente).
3
Ipotezele asupra componentei aleatoare (erorilor) sunt următoarele:
a. Media erorilor este nulă: M(εi)=0.
b. Ipoteza de homoscedasticitate: V(εi)=σ2.
c. Ipoteza de normalitate:
d. Ipoteza de necorelare sau de independenţă a erorilor: cov(εi, εi)=0.
),0(~ 2σε Ni
4
a. Media erorilor este nulă
1. Definire: M(εi)=0.
2. Efectele încălcării acestei ipoteze:- dacă această ipoteză este încălcată, atunci se
modifică proprietăţile estimatorilor parametrilor modelului de regresie.
5
Există două situaţii:
a) M(εi)=μ=constantă
Considerăm Y = β0 + β1xi + ε.
Fie Y = β0 + μ+ β1xi + ε –μ = β0 *+ β1xi + ε*, unde:
β0 * = β0 + μ, iar ε* = ε –μ .
Parametrul este estimat deplasat de estimatorul :
Parametrul β1 este estimat nedeplasat de estimatorul .1̂β
0β µββ += 0*0 )ˆ(M*
0β̂
6
b) M(εi)=μi
Considerăm Yi = β0 + μi+ β1xi + ε –μi = β0 *+ β1xi + ε*,
Parametrul β1 este estimat deplasat de estimatorul :
Etape:
- Se estimează modelul de regresie yi = β0 + β1xi + ei
- Se determină erorile estimate ei = yi – b0 – b1xi
- Se verifică dacă media erorilor este zero.
( )∑ ∑∑ ∑ ∑
−
−+=
2211 )ˆ(ii
iiii
xxn
xxnM
µµββ
1̂β
7
3. Testarea ipotezei cu privire la media erorilor
Ipoteze:
H0: M(εi)=0
H1:
Alegerea testului:
Calculul statisticii test:
Valoarea teoretică a testului: tα/2,n-1
Decizie
)(M̂
icalc s
)e(Mt
ε
=
( ) ( )( )( )i
ii
M̂V̂
MM̂t
εεε −=
0)(M i ≠ε
8
4. Exemplu
One-Sample Statistics
15 ,0000000 73271,63549 18918,65Unstandardized ResidualN Mean Std. Deviation
Std. ErrorMean
Residuals Statisticsa
58508,12 6084511 1582428 1957596,554 15
-98125,2 131202,7 ,00000 73271,63549 15
-,778 2,300 ,000 1,000 15
-1,290 1,725 ,000 ,964 15
Predicted Value
Residual
Std. Predicted Value
Std. Residual
Minimum Maximum Mean Std. Deviation N
Dependent Variable: salariua.
One-Sample Test
,000 14 1,000 ,00000000 -40576,5 40576,48Unstandardized Residualt df Sig. (2-tailed)
MeanDifference Lower Upper
95% ConfidenceInterval of the
Difference
Test Value = 0
9
5. Corectarea modelului
Modelul iniţial se corectează cu ajutorul estimaţiei erorilor calculate la nivelul eşantionului.
Modelul corectat este de forma:
, unde:iii0*i uxy ++= ββ
)(Myy ii*i ε−=
10
b. Ipoteza de homoscedasticitate a erorilor
1. Definire- ipoteza de homoscedasticitate presupune ca
varianţa erorilor să fie constantă:
- această ipoteză presupune o varianţă constantă a erorilor la nivelul distribuţiilor condiţionate de forma .
2i )(V σε =
ixXY =
11
2. Efectele încălcării acestei ipoteze
pierderea eficienţei estimatorilor parametrilor modelului de regresie (estimează parametrul cu o varianţă mai
mare).
3. Identificarea heteroscedasticităţii
3.1. Procedee grafice
- presupun reprezentarea distribuţiei erorilor şi aprecierea varianţei acesteia.
12
- cazul existenţei heteroscedasticităţii:
13
3.2. Procedee numerice a. Testul Glejser
are la bază un model de regresie între variabila reziduală estimată şi variabila independentă.
Etapele testării:1. Se estimează modelul de regresie de forma:
2. Se calculează erorile ei. 3. Se construieşte un model de regresie pe baza
erorilor estimate în valoare absolută şi variabila independentă. Exemplu:
εββ +⋅+= XY 10
iii ux +⋅+= 10 ααε
14
4. Se testează parametrii acestui model: dacă parametrul α1 este semnificativ, atunci modelul iniţial este heteroscedastic.
Exemplu:
Coefficientsa
50921,663 12000,771 4,243 ,001
,016 ,012 ,348 1,337 ,204
(Constant)
PIB
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: eroria.
15
b. Testul corelaţiei neparametrice dintre erorile estimate şi valorile variabilei independente
- se bazează pe calculul rangurilor valorilor estimate ale erorilor, εi , şi a valorilor Xi .
Ipoteze statistice:H0: ipoteza de homoscedasticitate
H1: ipoteza de heteroscedasticitate
16
Statistica test:Se foloseşte statistica test t Student:
unde: r este estimaţia coeficientului Spearman.
Regula de decizie:
tcalc>tteor sau o valoare a lui Sig. asociată statisticii test t Student calculate < 0,05 duce la respingerea ipotezei Ho.
21
2
r
nrtcalc
−−=
17
Exemplu: În studiul legăturii dintre două variabile, X şi Y, s-au obţinut
următoarele rezultate:
Se cere să se testeze ipoteza de homoscedasticitate, considerând un risc de 0,05.
Correlations
1,000 ,000
. 1,000
5 5
,000 1,000
1,000 .
5 5
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
X
Unstandardized Residual
Spearman's rhoX
Unstandardized Residual
18
Rezolvare:
Pentru aceasta, se formulează următoarele ipoteze statistice:
H0: ipoteza de homoscedasticitate
H1: ipoteza de heteroscedasticitate
Statistica test :
2ˆ1
2nˆt
θθ
−
−=
19
Coeficientul Spearman este:
Statistica test t Student se calculează astfel:
- pentru exemplul dat:
Deci, se acceptă, cu o probabilitate de 0,95, ipoteza Ho, ipoteza de homoscedasticitate.
0r =
001
250
r1
2nrt
2calc =−
−⋅=−
−=
)182,3()0( 3;025,0 =<= ttcalc
20
c. Testul Goldfeld-Quandt
Ipoteze statistice:
H0: ipoteza de homoscedasticitate
H1: ipoteza de heteroscedasticitate
21
Etape pentru calculul statisticii test:
- se ordonează crescător seria valorilor empirice xi .
- se împarte seria în două părţi egale, după omiterea unui set de date din centrul seriei (în cazul seriilor cu un număr mare de termeni);
- se estimează parametrii ecuaţiei de regresie pentru fiecare din cele două seturi de date şi se calculează variaţia reziduală (RSS) pentru fiecare model în parte;
22
- se calculează statistica test Fisher care compară cele două variaţii reziduale:
unde: RSS1 corespunde celei mai mici valori a variaţiei reziduale.
F urmează o lege de distribuţie F( ),
unde: l reprezintă numărul de termeni eliminaţi din seria iniţială
1
2
RSS
RSSFcalc =
kln
kln −−−−
2,
2
23
Regula de decizie:
- dacă sau Sig.<0.05, atunci se respinge ipoteza Ho.
Exemplu:
Pentru două variabile, X şi Y, se cunosc următoarele valori:
knkncalc FF −−>21 ;;05,0
24
xi yi
2 15
3 20
1 10
4 19
6 25
5 23
7 30
8 35
9 38
10 40
25
Se cere să se testeze ipoteza de homoscedasticitate, folosind testul Goldfeld-Quandt.
Rezolvare:
1. Se ordonează crescător şirul valorilor xi.
2. Se împarte seria valorilor xi în două serii: prima serie este reprezentată de valorile 1, 2, …, 5; iar a doua serie este reprezentată de valorile 6, 7, …, 10.
26
3. Pentru fiecare din cele două serii se estimează parametrii modelului de regresie. Se obţine:
Seria 1: Yx=8,3+3X
Seria 2: Yx=3,2+3,8X
4. Pentru aceste modele, se estimează variaţia reziduală (valoare prezentată în output-ul ANOVA):
- pentru seria 1: RSS=3,73;- pentru seria 2: RSS=1,6.
27
5. Se calculează raportul F, considerând RSS1 cea mai mică valoare, şi anume RSS1=1,6:
Fcalc=3,73/1,6=2,33.
6. Se compară valoarea calculată a statisticii test F cu valoarea teoretică:
(k este numărul de parametri estimaţi).
.277,925;25;05,0;;05,0 21== −−−− FF knkn
28
7. Interpretare:
Pentru exemplul dat, se acceptă ipoteza de homoscedasticitate, cu o probabilitate de 0,95.
)277,9()33,2( 3;3;05,0 =<= FFcalc
29
4. Corectarea heteroscedasticităţii
4.1. Dacă se cunosc parametrii
Corecţia heteroscedasticităţii este aplicată modelului de regresie liniară simplă:
Corectarea heteroscedasticităţii presupune ponderarea modelului iniţial cu variabila .
2iσ
ii10i xy εββ ++=
i
1
σ
30
Noul model de regresie (corectat) se obţine astfel:
Estimarea parametrilor acestui model se realizează pe baza MCMMP ponderată (method of weighted least squares).
i
i
i
i1
i
0
i
i xy
σε
σβ
σβ
σ++=
31
4.2. Dacă nu se cunosc parametrii Corecţia heteroscedasticităţii se realizează pe baza relaţiei:
Corectarea heteroscedasticităţii presupune ponderarea modelului iniţial cu variabila 1/xi.
2iσ
2i
22i xσσ =
32
Noul model de regresie (corectat) este de forma:
i
i1
i
0
i
i
xxx
y εββ ++=
Coefficientsa
64.365 3.802 16.927 .000
-.004 .000 -.640 -8.625 .000
(Constant)
Gross domesticproduct / capita
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Infant mortality (deaths per 1000 live births)a.
Coefficientsa,b
36.414 2.989 12.184 .000
-.002 .000 -.609 -7.933 .000
(Constant)
Gross domesticproduct / capita
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Infant mortality (deaths per 1000 live births)a.
Weighted Least Squares Regression - Weighted by invb.
33
Testarea ipotezei de homoscedasticitate pentru modelele multiple
Testarea homoscedaticitatii pentru modelele
multiple se poate face cu ajutorul testelor:
Testul Breusch-Pagan-Godfrey
Testul White
34
Testul Breusch-Pagan-GodfreyPlecand de la ipoteza ca exista o legatura multipla liniara intre variabila
Y si variabilele X1 si X2 descrisa de relatia: Y=β0+β1X1+β2X2+ε, testarea homoscedasticitatii presupune parcurgerea urmatoarilor pasi:
estimarea parametrilor modelului de regresie liniara multipla: β0;β1 si β2
pe baza modelului estimat se obtin valorile erorii de modelare; construirea modelului auxiliar de regresie:
ei2=α0 +α1X1+ α2X2+u
se estimeaza raportul de determinatie a modelului auxiliar (Rα2). Pe baza
acestuia se caluleaza valoarea statisticii χ2 = n Rα2 care va fi comparata cu o
valoare teoretica χ2α, k-1, unde k reprezinta numarul parametrilor din modelul
auxiliar; prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/
respinge ipoteza de homoscedasticitate a erorilor:
χ2 < χ2α, k-1=>AH0 respectiv χ2 ≥χ2
α, k-1=>RH0
35
Estimarea parametrilor modelului de baza
SAL – salariul curent anual ($) ->YSAL0 – salariul anual la angajare ($) -> X1
ED – nivelul educatie (ani de scoala)-> X2
Forma modelului liniar multiplu de estimat:SAL = β0+ β1*SAL0 + β2*ED+ε
Modelul estimat:SAL = -7808.71415718 +1.67263052172*SAL0 + 1020.3901421*ED+ε
36
Heteroskedasticity Test: Breusch-Pagan-Godfrey
F-statistic 27.28751 Prob. F(2,471) 0.0000 Obs*R-squared 49.21954 Prob. Chi-Square(2) 0.0000 Scaled explained SS 245.2163 Prob. Chi-Square(2) 0.0000
Test Equation: Dependent Variable: ε^2 Method: Least Squares Date: 01/15/13 Time: 20:38 Sample: 1 474 Included observations: 474
Var. Coefficient Std. Error t-Statistic P β0 -1.31E+08 40991028 -3.2033800.0015 SAL0 6150.668 1375.365 4.472026 0.0000 ED 6452228 3752366 1.719509 0.0862
R-sq. 0.103839 Mean dependent var 60401068 Adjusted R-sq. 0.100033 S.D. dependent var 1.92E+08 S.E. of reg. 1.82E+08 Akaike info criterion 40.88563 Sum sq. resid 1.56E+19 Schwarz criterion 40.91197 Log likelihood -9686.895 Hannan-Quinn criter. 40.89599 F-statistic 27.28751 Durbin-Watson stat 1.796592 Prob(F-statistic) 0.000000
37
Testul WhiteTestul White urmeaza acelasi algoritm
ca in cazul testului Breusch-Pagan-Godfrey, singura diferenta consta in faptul ca se utilizeaza o alta forma mult mai complexa a modelului auxiliar:
ei2=α0 +α1X1+ α2X2+α3X1X2+ α4X1
2+ α5X2 2+u
Calculul statisticii χ2 si luarea deciziei se realizeaza ca in cazul testului precedent.
38
Heteroskedasticity Test: WhiteF-statistic 11.97360 Prob. F(5,468) 0.0000Obs*R-sq. 53.75859 Prob. Chi-Square(5) 0.0000Scaled expl. SS 267.8303 Prob. Chi-Square(5) 0.0000
Test Equation:Dependent Variable: ε^2Method: Least SquaresDate: 01/15/13 Time: 23:19Sample: 1 474Included observations: 474
Variable Coefficient Std. Error t-Statistic Prob. β0 -2.13E+08 1.67E+08 -1.275593 0.2027SAL0 13826.12 9771.187 1.414989 0.1577SAL0^2 -0.138886 0.082003 -1.693663 0.0910SAL0*ED 72.27410 765.1561 0.094457 0.9248ED 9214356. 26870194 0.342921 0.7318ED^2 -291287.7 1381016. -0.210923 0.8330
R-sq. 0.113415 Mean dependent va 60401068Adj R-sq 0.103943 S.D. dependent var 1.92E+08S.E. of reg 1.82E+08 Akaike info criterion 40.88755Sum sq. res 1.55E+19 Schwarz criterion 40.94022Log likelihood -9684.348 Hannan-Quinn criter 40.90826F-statistic 11.97360 Durbin-Watson stat 1.799331Prob(F-statistic) 0.000000