Download - C4 C7 Econometrie 2015 CBalan
Econometrie (C4 – C7)
Regresia prin origine Regresia liniară multiplă Modele cu variabile standardizate
1
2
1. Regresia prin origine (1)
Situaţii în care am putea construi un model de regresie prin origine: În urma testării parametrilor modelului,
parametrul β0 are o valoare nesemnificativă statistic, iar parametrul β1 este semnificativ statistic;
Există suport teoretic care să impună estimarea unui model care trece prin origine.
3
1. Regresia prin origine (2)
În cazul modelului de regresie aplicarea metodei celor mai mici pătrate
se simplifică. Problema de minim care trebuie rezolvată
este de forma:
XY 1
4
1. Regresia prin origine (3)
Estimatorul este nedeplasat Avem n-1 grade de libertate Probleme ale utilizării în practică:
Suma erorilor nu mai este zero; R2 poate avea o valoare foarte mare, prin urmare
interpretarea acestuia nu mai are sens. Se utilizează o variantă a lui R2, şi anume:
Aceste probleme dispar dacă modelul de regresie liniară are variabilele standardizate. În acest caz, panta dreptei de regresie are aceeaşi valoare cu coeficientul de corelaţie Pearson.
1
5
Regresia liniară multiplă
1. Prezentarea modelului liniar multiplu
2. Estimarea parametrilor modelului liniar multiplu
3. Testarea parametrilor modelului liniar multiplu
4. Testarea modelului de regresie
5. Indicatori de corelaţie
6. Testarea influenței marginale a unei variabile
6
2. Modelul liniar multiplu (1)
Forma generală a modelului liniar multiplu este dată prin relaţia: unde:Y - variabila dependentă;X1, X2,…,Xi,…,Xp - variabile independente (predictori);ε - variabilă reziduu de modelare (variabila aleatoare);βi - parametrii modelului de regresiek - numărul de parametri din model, k=p+1.
Exemplu: Pentru un eşantion de 50 de mărci de cereale, se poate studia legătura dintre ratingul acordat de consumatori unei mărci de cereale şi factorii de influenţă (nr. de calorii, de grame de grăsimi, de zahăr, de fibre, etc.)
pp22110 X...XXX/YMY
7
2. Modelul liniar multiplu (2)
Cei k parametri ai modelului liniar multiplu au următoarea semnificaţie: β0 – valoarea medie a variabilei dependente Y, în condiţiile în care influenţa variabilelor independente ar fi nulă (X1=0, X2=0, …., Xp=0);
βi – variaţia absolută a variabilei dependente Y la o variaţie absolută cu o unitate a variabilei independente Xi, în condiţiile în care influenţa celorlalte variabile independente este menţinută constantă.
βi – arată influenţa parţială a fiecărei variabile independente asupra variabilei dependente.
p,1i,X
Y
ii
8
2. Modelul liniar multiplu (3)
Ipotezele modelului clasic de regresie:
-variabilele independente sunt nestochastice
-normalitatea erorilor :
-homoscedasticitate:
-necorelarea erorilor:
-lipsa corelaţiei dintre variabilele independente şi variabila eroare
- lipsa coliniarităţii sau a unei legături liniare între variabilele independente
2~ (0, )i N
22ii )(M)(V
0),cov( ji
9
3. Estimarea parametrilor modelului multiplu liniar (1)
Se consideră modelul de regresie liniară multiplă cu două variabile independente:
La nivelul unui eşantion, modelul devine:
sau
Rezultă
Estimarea parametrilor modelului prin metoda celor mai mici pătrate presupune respectarea condiţiei:
, adică
ii22i110i xxy
ii22i110iˆxˆxˆˆy iii yy ˆ
i22i110iiii xxˆˆyyyˆ
n
1i
2i immin immin)xxˆˆy( 2
ii22i110i
10
3. Estimarea parametrilor modelului multiplu liniar (2)
Pentru satisfacerea condiţiei MCMMP trebuie ca derivatele parţiale de ordin I în raport cu coeficienţii modelului să se anuleze. Astfel se va obţine un sistem de 2+1=3 ecuaţii cu 3 necunoscute.
n
1i
n
1i2ii
22i2
n
1i2i1i1
n
1i2i0
n
1i
n
1i1ii
n
1i2i1i2
21i1
n
1i1i0
n
1i
n
1ii
n
1i2i21i10
xyxβxxβxβ
xyxxβxβxβ
yxβxββn
11
3. Estimarea parametrilor modelului multiplu liniar (3)
Estimarea punctuală a parametrilor modelului
La nivelul unui eşantion de date, sistemul de ecuaţii devine:
Prin rezolvarea sistemului, se obţin relaţiile pentru estimaţiile parametrilor modelului de regresie.
n
1i
n
1i2ii
22i2
n
1i2i1i1
n
1i2i0
n
1i
n
1i1ii
n
1i2i1i2
21i1
n
1i1i0
n
1i
n
1ii
n
1i2i21i10
xyxbxxbxb
xyxxbxbxb
yxbxbnb
12
3. Estimarea parametrilor modelului multiplu liniar (4)
Estimarea parametrilor prin interval de încredere
Intervalele de încredere sunt de forma:
La nivelul unui eşantion de date se obţine un interval de forma:
]ˆtˆ[i
ˆkn,2/ii
ii
stbstb kniknii ˆ,2/ˆ,2/ ,
13
4. Testarea parametrilor modelului liniar multiplu (1)
Testarea parametrilor modelului multiplu liniar se face cu ajutorul testului t (Student) (Tabelul Coefficients din SPSS sau Excel), la fel ca în cazul modelului simplu liniar:
1. Formularea ipotezelor:
H0:
H1:
2. Alegerea pragului de semnificaţie αDe regulă, se asumă un risc α = 0,05.
3. Alegerea statisticii test
0i
0i
iˆ
i
ˆ
ˆt
14
4. Testarea parametrilor modelului liniar multiplu (2)4. Valoarea teoretică a statisticii testPentru pragul de semnificaţie ales şi v=n-k grade de libertate, se citeşte valoarea teoretică din tabelul Repartiţiei Student: tα/2;n-k
5. Valoarea calculată a statisticii testLa nivelul eşantionului se determină valoarea calculată a testului:
6. Regula de decizieDacă se respinge H0
Dacă se acceptă H0, pentru risc asumat de 5%.
iˆ
icalc s
bt
2/calc tt
2/calc tt
15
4. Testarea parametrilor modelului liniar multiplu (3)
În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):- dacă , se respinge H0
-dacă , se acceptă H0, pentru un nivel de încredere de 95%.
7. Compararea celor două valori ale statisticii test şi luarea deciziei
8. Interpretarea rezultatului testării
tSig
tSig
16
5. Testarea modelului de regresie (1)Testarea modelului de regresie se realizează cu ajutorul testului F, (Tabelul ANOVA din SPSS sau Excel) după următorul demers:
1. Formularea ipotezelorH0: β0=β1=…=βp=0 (modelul nu este semnificativ)
H1: nu toţi coeficienţii sunt simultan zero
2. Alegerea pragului de semnificaţie α
3. Alegerea statisticii test
~F(k-1, n-k)
4. Valoarea teoretică a statisticii test se citeşte din tabelul Repartiţiei Fisher : F α, k-1, n-k
5. Valoarea calculată a testului:
1ˆ1
ˆ
1ˆ
ˆ2
2
k
kn
k
kn
V
VF
R
E
111 2
2
k
kn
R
R
k
kn
RSS
ESSF
17
5. Testarea modelului de regresie (2)6. Regula de decizieDacă se respinge H0
Dacă se acceptă H0, pentru risc asumat de 5%.
În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):- dacă , se respinge H0
-dacă , se acceptă H0, pentru un nivel de încredere de 95%.
7. Compararea celor două valori ale statisticii test şi luarea deciziei
8. Interpretarea rezultatului testării
kn,1kcalc FF
kn,1kcalc FF
FSig
FSig
18
EXEMPLU
Pentru un eşantion de mărci de cereale, se studiază legătura dintre ratingul acordat de consumatori unei mărci de cereale (Y) şi cantitatea de grăsimi (X1), de zahăr (X2) şi de fibre (X3) exprimate in grame.
19
Model Summary
,789a ,622 ,612 8,75456Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), sugars, fata.
ANOVAb
9325,268 2 4662,634 60,836 ,000a
5671,533 74 76,642
14996,800 76
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), sugars, fata.
Dependent Variable: ratingb.
Coefficientsa
61,089 1,953 31,284 ,000
-3,066 1,036 -,220 -2,958 ,004
-2,213 ,235 -,700 -9,428 ,000
(Constant)
fat
sugars
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: ratinga.
20
Model Summary
,930a ,865 ,859 5,35086Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), fat, fiber, sugarsa.
ANOVAb
12503,728 3 4167,909 145,570 ,000a
1946,958 68 28,632
14450,686 71
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), fat, fiber, sugarsa.
Dependent Variable: ratingb.
Coefficientsa
53,673 1,389 38,637 ,000
2,938 ,261 ,507 11,265 ,000
-1,992 ,150 -,622 -13,238 ,000
-3,347 ,656 -,238 -5,103 ,000
(Constant)
fiber
sugars
fat
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: ratinga.
Pentru un model de regresie liniară multiplă, pot fi determinaţi următorii coeficienţi:
1. coeficienţi de corelaţie simplă între variabila dependentă şi fiecare variabilă independentă (coeficienţi bivariaţi);
2. coeficienţi de corelaţie parţială;3. coeficientul de corelaţie multiplă;4. coeficientul de determinaţie multiplă;5. raportul de corelaţie multiplă;6. raportul de determinaţie multiplă.
6. Estimarea indicatorilor de corelaţie
21
Estimarea indicatorilor de corelaţie (1)
Coeficienţi de corelaţie bivariată
Pentru un model liniar de forma:
Există trei coeficienţi de corelaţie bivariată: ry1, ry2, r12
ii22i110i xxy
])(][)([ 2221
21
11
1
i iii
i iii
ii
ii
iii
yyynxxn
yxyxnr
])(][)([ 2222
22
22
2
i iii
i iii
ii
ii
iii
yyynxxn
yxyxnr
])(][)([ 22
22
21
21
2121
12
i iii
i iii
ii
ii
iii
xxnxxn
xxxxnr
22
Estimarea indicatorilor de corelaţie (2)Coeficienţi de corelaţie parţială
Coeficienţi de corelaţie parţială sunt:
Corelaţia parţială măsoară dependenţa dintre variabile prin excluderea succesivă a influenţei celorlalţi factori, considerând influenţa lor constantă si menţinând numai influenţa factorului măsurat.
În funcţie de numărul variabilelor a căror influenţă se elimină din calcul, coeficienţii de corelaţie parţială pot fi:
de ordinul întâi (pentru o variabilă eliminată), de ordinul doi (pentru două variabile)etc.
)1)(1( 212
22
12212.1
rr
rrrr
y
yyy
)1)(1( 212
21
12121.2
rr
rrrr
y
yyy
)1)(1( 22
21
2112.12
yy
yyy
rr
rrrr
23
Estimarea indicatorilor de corelaţie (3)
Coeficientul de corelaţie multiplăCoeficientul de corelaţie multiplă se calculează numai pentru
modelele multiple liniare şi se exprimă cu ajutorul coeficienţilor de corelaţie simplă dintre variabilele perechi.
Astfel, în cazul corelaţiei dintre o variabilă rezultativă Y şi două variabile independente , ,la nivelul unui eşantion, coeficientul de corelaţie multiplă, notat cu r, se calculează după relaţia:
1X 2X
2.122
221.2
21
212
12
122122
21 )1()1(
1
2yyyyyy
yyyy rrrrrrrrr
rrrrrr
24
Estimarea indicatorilor de corelaţie (4)Raportul de determinaţie şi raportul de corelaţie multiplă
Parametrii
=>
Estimatorii
=>
Estimaţii
=>
T
R
T
E
ii
i
V
V
V
V
yy
yy
1)(
)ˆ(
2
2
2
2
ii
ii
T
R
T
E
yyV
V
V
V2
2
2
)(1
ˆ
ˆ1
ˆ
ˆˆ
2ˆˆ
ii
ii
yy
e
TSS
RSS
TSS
ESSR
2
2
2
)(11 2RR
25
Raportul de determinaţie ajustat
Raportul de determinaţie ajustat:
Pt. k>1, Dacă numărul variabilelor independente
X creşte, R2 ajustat creşte mai puţin decât R2.
R2 ajustat poate lua şi valori negative, în timp ce R2 este întotdeauna pozitiv.
26
7. Testarea indicatorilor de corelaţie
Raportul de determinaţie si raportul de corelatie se testează cu testul F după algoritmul prezentat la modelul liniar simplu, ţinând cont de faptul că k=p+1 reprezintă numărul parametrilor modelului multiplu.
Coeficienţii de corelaţie se testează cu ajutorul testului t , după algoritmul prezentat la modelul liniar simplu, ţinând cont de faptul că k=p+1 reprezintă numărul parametrilor modelului multiplu.
27
Exemplu
28
Exemplu
29
Coeficienţii de corelaţiei parţială (de ordinul 2)
8. Testarea influenţei marginale a unei variabile independente asupra variabilei dependente
1. Formularea ipotezelorH0: variabila independentă nou introdusă în model nu are o
influenţă semnificativă asupra variaţiei variabilei aleatoare
H1: variabila independentă nou introdusă în model are o influenţă semnificativă asupra variaţiei variabilei aleatoare
2. Fixarea pragului de semnificaţie α=0,05
3. Alegerea statisticii test : Statistica Fisher
31
Testarea influenţei marginale a unei variabile independente
Pentru a testa influenţa marginală a unei variabile independente se foloseşte statistica Fisher:
unde: ESS – variaţia explicată pentru modelul 2, respectiv modelul 1 k – numărul parametrilor modelului 2 , respectiv modelului 1 RSS – variaţia reziduală pentru modelul 2.
2 1 2 1
2 2
(ESS ESS ) / (k k )
/ (n k )F
RSS
Testarea influenţei marginale a unei variabile independente
O expresie echivalentă pentru statistica Fisher este următoarea:
unde: R2 – raportul de determinaţie pentru modelul 2,
respectiv modelul 1 k – numărul parametrilor modelului 2 , respectiv
modelului 1
2 22 1 2 1
22 2
( ) / (k k )
(1 ) / (n k )
R RF
R
Testarea influenţei marginale a unei variabile independente asupra variabilei dependente
4. Regula de decizie:
Dacă Fcalc≤
=> se acceptă H0 cu o probabilitate de 1-α.
Dacă Fcalc>
=> se respinge H0 cu un risc asumat α.
2 1 2;(k k );(n k )F
2 1 2;(k k );(n k )F
34
EXEMPLUL 1
S-a observat un eşantion de 540 angajaţi şi s-a înregistrat Nivelul studiilor (ani), Nivelul de cunoştinţe de specialitate (puncte) şi Salariul orar (USD).
Să se verifice dacă variabila Nivelul de cunoştinţe are influenţă semnificativă.
H0: variabila Nivel cunoştinţe nu are o influenţă semnificativă asupra Salariului.
H1: variabila Nivel cunoştinţe are o influenţă semnificativă asupra Salariului.
Testarea influenţei marginale a unei variabile independente
ANOVAc
27757.307 1 27757.307 126.722 .000a
117843.8 538 219.041
145601.1 539
29054.251 2 14527.125 66.935 .000b
116546.9 537 217.033
145601.1 539
Regression
Residual
Total
Regression
Residual
Total
Model1
2
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Studiia.
Predictors: (Constant), Studii, Nivel cunostinteb.
Dependent Variable: Salariulc.
Statistica Fisher este egală cu:
(29054,251 27757,307) / (3 2) 1296,944/1 1296,9445,976
116546,9 / (540 3) 116546,9 / 537 217,033F
2 1 2 1
2 2
(ESS ESS ) / (k k )
/ (n k )F
RSS
Testarea influenţei marginale a unei variabile independente
Statistica Fisher este egală cu:
Model Summary
.437a .191 .189 14.80002
.447b .200 .197 14.73205
Model1
2
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Studiia.
Predictors: (Constant), Studii, Nivel cunostinteb.
2 22 1 2 1
22 2
( ) / (k k )
(1 ) / (n k )
R RF
R
(0, 200 0,191) / (3 2) 0,009/1 0,0096
(1 0,200) / (540 3) 0,800 / 537 0,0015F
Testarea influenţei marginale a unei variabile independente
2 1 2;(k k );(n k ) ;1;537 0,05;1;537 3,842F F F
EXEMPLUL 2
Model Summary
.661a .436 .435 $12,833.540 .436 365.381 1 472 .000
.663b .439 .437 $12,815.280 .003 2.346 1 471 .126
Model1
2
R R SquareAdjustedR Square
Std. Error ofthe Estimate
R SquareChange F Change df1 df2 Sig. F Change
Change Statistics
Predictors: (Constant), Educational Level (years)a.
Predictors: (Constant), Educational Level (years), Months since Hireb.
H0: variabila Months since hire (Vechimea) nu are o influenţă semnificativă asupra Salariului.
H1: variabila Months since hire (Vechimea) are o influenţă semnificativă asupra Salariului.
EXEMPLUL 2
Model Summary
.661a .436 .435 $12,833.540 .436 365.381 1 472 .000
.890b .792 .792 $7,796.524 .356 807.889 1 471 .000
Model1
2
R R SquareAdjustedR Square
Std. Error ofthe Estimate
R SquareChange F Change df1 df2 Sig. F Change
Change Statistics
Predictors: (Constant), Educational Level (years)a.
Predictors: (Constant), Educational Level (years), Beginning Salaryb.
H0: variabila Beginning Salary (Salariul la angajare) nu are o influenţă semnificativă asupra Salariului curent.
H1: variabila Beginning Salary (Salariul la angajare) are o influenţă semnificativă asupra Salariului curent.
EXEMPLUL 2
Model Summary
.910a .828 .818 5.2961 .828 83.271 4 69 .000
.907b .822 .814 5.3542 -.006 2.544 1 69 .115
Model1
2
R R SquareAdjustedR Square
Std. Error ofthe Estimate
R SquareChange F Change df1 df2 Sig. F Change
Change Statistics
Predictors: (Constant), Average female life expectancy, People living in cities (%), Daily calorie intake, People who read (%)a.
Predictors: (Constant), Average female life expectancy, Daily calorie intake, People who read (%)b.
H0: variabila People living in cities (Populația din urban) nu are o influenţă semnificativă asupra Speranței de viață
H1: variabila People living in cities (Populația din urban) are o influenţă semnificativă asupra Speranței de viață
9. Modele cu variabile standardizate
42
Modele cu variabile standardizate
43
• Avantajul standardizării este acela că face posibilă compararea coeficienţilor de regresie din model, pentru că valorile standardizate ale factorilor sunt comparabile.
• Pentru comparaţie se consideră valoarea estimată a coeficienţilor în modul sau în valoare absolută.
•Fiecare coeficient arată impactul parţial al variaţiei cu o unitate a variabilei independente standardizate asupra variabilei dependente standardizate.
•În urma standardizării, discutăm despre variaţia în unităţi de abateri standard pentru fiecare variabilă.
• Valoarea coeficienţilor de regresie din modelul standardizat se interpretează ca unităţi de abateri standard pentru variabila dependentă.
•Cel mai mare coeficient în valoare absolută indică cea mai mare influenţă asupra variabilei dependente, iar semnul coeficientului arată sensul acestei influenţe.
Exemplu
44