regresia multipla
DESCRIPTION
..TRANSCRIPT
![Page 1: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/1.jpg)
Regresia liniară multiplă
M. Popa
![Page 2: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/2.jpg)
cuprins
1. Noțiuni de bază – regresia liniară simplă
2. Modelul de predicție multivariată
3. Obiectivele analizei de regresie multiplă
4. Condiţii şi limitări
5. Alegerea modelului de analiză
6. Volumul eșantionului
7. Regresia multiplă cu SPSS
– Operații preliminare
– Procedura de calcul
– Interpretarea rezultatelor
8. Validarea modelului de regresie
9. Raportarea rezultatelor
![Page 3: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/3.jpg)
Corelația și Regresia
• Corelaţia– arată legătura (asocierea) dintre variabile
– nu descrie relaţia cauzală dintre variabile
– nu permite predicţia unei variabile pe baza celeilalte variabile
– nu există variabilă dependentă şi dependentă
• Regresia– metodă de predicţie a valorilor unei variabile pe baza valorilor altei
variabile
– variabila independentă• variabila “cauză”
• valorile ei “prezic” valorile variabilei dependente
• este denumită “predictor”
– variabila dependentă• variabila “efect”
• valorile ei sunt “prezise” pe baza valorilor variabilei independente
• este denumită şi “criteriu”
• Situaţia tipică în psihologie - examenele de selecţie 3
![Page 4: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/4.jpg)
Tipuri de regresie liniară
• Regresia simplă
– o singură variabilă predictor
– se bazează pe corelaţia simplă
dintre criteriu şi predictor
• Regresia multiplă
– mai multe variabile predictor
– se bazează pe corelaţia multiplă
dintre criteriu şi predictori
– situaţia tipică în psihologie:
selecţia bazată pe baterii de teste
4
P C
P2 C
P3
P1
![Page 5: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/5.jpg)
Predicţia perfectă
• r=±1
– zx=1.5
– zy’=1.5
– zy’ creşte sau scade cu
aceeaşi unitate cu cât
creşte sau scade zx
5
xyzz ='
z(x)
3,53,02,52,01,51,0,50,0
z(y
)
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0
![Page 6: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/6.jpg)
Predicţia în cazul corelaţiei imperfecte
• corelaţiile sunt numai prin
excepţie perfecte
• în mod normal, r variază în jurul
lui 0
– exemplu: corelaţia între
cunoştinţele de matematică şi
rezultatele la statistică
6
xyzrz *' =
![Page 7: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/7.jpg)
Noţiunea de regresie către medie
• Sir Francis Galton (1822-
1911)
• relaţia dintre înălţimea
medie a părinţilor şi
înălţimea copiilor (r=+0.67 )
7
34.12*67.0' ==yz
� văr cu Ch. Darwin
� descoperitorul amprentelor
digitale
� meteorolog, psiholog,
statistician, genetician,
explorator
![Page 8: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/8.jpg)
SubiectQI
(X)
performanța școlară
(Y)
1 123 96
2 119 83
3 115 85
4 120 90
5 124 96
6 113 73
7 110 78
8 112 89
9 132 100
10 128 99
… un exemplu
![Page 9: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/9.jpg)
Xa=123
Eroare de predicțieε=3.4
Valoare reală Ya=96
Valoare prezisă Y’a=92.6
A
B
Ycriteriu
Xpredictor
Satterplot bivariat cu dreapta de regresie
![Page 10: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/10.jpg)
Ecuaţia dreptei de regresie
• Y’ → valoare prezisă (criteriu)
• ayx → originea dreptei; (punctul în care linia de regresie intersectează axa Oy).
• byx → panta liniei de regresie
– poate fi exprimată ca fracţiuni ale lui X determinate de r
• X → valoare predictor a variabilei Y
XbaY yxyx *'+=
10
![Page 11: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/11.jpg)
Expresia grafică a regresiei
aceeaşi origine dar pante diferite
11
origini diferite, dar aceeaşi pantăorigini diferite, dar aceeaşi pantă
![Page 12: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/12.jpg)
Modelul de regresie simplă
• Acuratețea predicției este dată de coeficientul de
regresie R (expresia lui r)
– Exemplul nostru: R=0.85
• Semnificația statistică se testează cu testul F
– Exemplul nostru: F=22.10; p=0.002
• Termenul liber (a)
– Exemplul nostru: -40.42 (ns… eșantion foarte mic…)
• Coeficientul de pondere (b)
– Exemplul nostru: 1.08 (p=0.002)
• Y=-40.42+1.08*X
![Page 13: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/13.jpg)
Scor
inteligență
(predictor)
X
Performanța
școlară
(criteriu)
Y
Valoarea
prezisă
Y’
Eroare de
predicție
ε
110 78 78.5 -0.52
112 89 80.7 8.32
113 73 81.8 -8.76
115 85 83.9 1.07
119 83 88.3 -5.25
120 90 89.3 0.67
123 96 92.6 3.42
124 96 93.7 2.34
128 99 98.0 1.02
132 100 102.3 -2.31
Varianța predicției = eroarea standard a estimării
![Page 14: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/14.jpg)
Xa=123
Eroare de predicțieε=3.4
Valoare reală Ya=96
Valoare prezisă Y’a=92.6
A
B
Ycriteriu
Xpredictor
Varianță neexplicată
(diferență reziduală)
Ya-Y ’=3.4
Media predicției Y’m=88.9
Varianță
explicată
Y’a-Ym=3.7
Varianța predicției
![Page 15: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/15.jpg)
regresia nu este simetrică !
• dacă inversăm variabilele în ecuaţia de regresie se
va obţine o linie de regresie diferită
• dacă se inversează ordinea variabilelor în
calcularea corelaţiei, se obţine acelaşi coeficient r
15
![Page 16: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/16.jpg)
Modelul de predicție multivariată
Unde
• Y’ este valoarea estimată pentru variabila criteriu (dependentă)
• ai este punctul de origine al liniei (constanta)
• b1, b2, b3... bk sunt coeficienţii b pentru cele k variabile predictor
• X1, X2, X3.... Xk sunt valorile celor k variabile predictor
kki XbXbXbXbaY *....*** 332211
'+++++=
![Page 17: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/17.jpg)
Scatterplot trivariat
Ycriteriu
X1
predictor
X2
predictor
![Page 18: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/18.jpg)
Planul de regresie multivariată
Ycriteriu
X1
predictor
X2
predictor
![Page 19: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/19.jpg)
Indicatori ai intensității predicției
• R = coeficientul de corelație multiplă
• R2 = procentul de variaţie din VD (criteriu) determinat de variaţia
simultană a VI (predictori)
• R2adj=R2 corectat pentru numărul predictorilor
– R2adj > 75% - foarte bun (peste 90% rar… probabil un artefact)
– 50% - 75% - bun
– 25% - 50% - slab dar acceptabil
– sub 25% - foarte slab (probabil inacceptabil)
• Semnificaţia statistică a lui R este calculată cu ajutorul unui test
de varianţă (F)
• Cu cât contribuie fiecare predictor la estimarea criteriului?
– dificil de spus, fiindcă fiecare predictor acționează în prezența celorlalți
– o soluție … coeficienții beta (standardizați)
– corelația semi-parțială dintre criteriu și predictori (cursul urmator)
NOU
![Page 20: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/20.jpg)
Utilitatea regresiei multiple
• Descrierea relațiilor dintre variabile
• Predicția în scop de selecție
• Dezvoltarea teoriei testării psihologice
![Page 21: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/21.jpg)
Condiții și limitări
• Variabila dependentă (criteriu):
– Trebuie să fie măsurată pe scală de interval raport, cu
respectarea condiţiilor de aplicare a testului de corelaţie
(normalitatea distribuţiei, în special).
– Poate fi măsurată şi pe scală ordinală
– … în nici un caz pe scală nominală (în acest caz, se
utilizează alte tehnici de regresie – analiza de discriminare
sau regresia logistică)
![Page 22: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/22.jpg)
Condiții și limitări
• Variabilele independente (predictori)
– vor fi măsurate pe scale de interval
– pot fi introduse în ecuație şi variabile măsurate la nivel
ordinal
– pot fi utilizate direct şi variabile nominale categoriale
dihotomice, codificate numeric (ex: masc.=0; fem.=1)
• mărimea coeficientului de regresie în acest caz, indică diferența
dintre cele două categorii
• ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7
unități decât al bărbaților (celelalte variabile fiind constante)
NOU
![Page 23: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/23.jpg)
• Distribuţia variabilelor cantitative trebuie să fie
normală
– Dacă se abat grav de la această condiţie, se vor utiliza
proceduri adecvate de transformare.
• Relaţiile dintre VI și VD trebuie să fie liniare
– condiţie verificabilă cu ajutorul unui grafic scatterplot
• Omogenitatea pantei de regresie
Homoscedasticitate Heterodasticitate Heterodasticitate
![Page 24: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/24.jpg)
multicoliniaritatea
• Variabilele predictor trebuie să fie
ortogonale
• Corelația dintre predictori se numește
multicoliniaritate
– este mereu prezentă (… contează mărimea ei)
• Efecte negative
– Diminuarea coeficientului de corelație multiplă
– Amplifică variabilitatea coeficienților de regresie
– Reduce precizia predicției
• Evaluare
– Corelații bivariate
– Matricea de scatterplot-uri
– Indicele de ”toleranță”
• ia valori între 0 şi 1
• valorile apropiate de 0 sunt un semn al coliniarităţii
• Dacă „toleranţa” este mai mică de 0.1 ridică o
problemă de coliniaritate
– VIF (Variation Inflation Factor) >5 sau 10 !
Soluții: • combinarea predictorilor sau eliminarea
• mărirea volumului eșantionului
![Page 25: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/25.jpg)
• Variabilele vor fi măsurate fără erori, iar cazurile care
prezintă valori extreme vor fi analizate şi tratate
corespunzător
• Valorile reziduale (erorile de predicţie) se vor supune
următoarelor condiţii:
– media valorilor reziduale în studii de replicare să fie zero;
– erorile din cazul unei variabile independente nu au nici o
legătură cu erorile altei sau altor variabile independente;
– erorile nu corelează cu variabilele independente;
– varianţa valorilor reziduale pe toată distribuţia variabilelor
independente este omogenă (homoscedasticitate)
– erorile au o distribuţie normală;
![Page 26: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/26.jpg)
• efectul valorilor extreme (outliers) asupra ecuaţiei
de regresie,
– poate fi considerabil
– uneori chiar şi una sau două valori excesive pot influenţa
analiza de regresie
– aceste valori vor fi identificate şi tratate corespunzător
înaintea calculării ecuaţiei de regresie multiplă
![Page 27: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/27.jpg)
alegerea modelului de analiză
• Fixarea modului în care variabilele predictor sunt
introduse în modelul de regresie este una dintre
deciziile importante
• se referă în esență la:– stabilirea importanței predictorilor
– ordinea de introducere
– modul de tratare a acestora de către programul de regresie
• se vor utiliza:
– informații despre relația bivariată dintre predictori și criteriu
– rezultate ale unor cercetări anterioare sau modele teoretice validate
ori aflate în stadiul de ipoteză.
![Page 28: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/28.jpg)
– metode de introducere a variabilelor predictor în ecuaţie
• Regresia multipla standard.
• Regresia multiplă secvenţială (regresie ierarhică).
• Regresia multiplă pas cu pas.
![Page 29: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/29.jpg)
Regresia multiplă standard
• toate variabilele predictor sunt incluse în ecuaţie,
• efectul fiecăreia este evaluat după şi independent de
efectul tuturor celorlalte variabile introduse anterior
• fiecare variabilă independentă este evaluată numai
prin prisma contribuţiei proprii la explicarea
variabilei dependente
![Page 30: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/30.jpg)
Regresia multiplă secvenţială (ierarhică)
• Variabilele independente sunt introduse în ecuaţie
într-o anumită ordine, în funcţie de opţiunile
analistului.
• Atunci când acesta are motive să creadă că o
anumită variabilă are o influenţă mai mare, o poate
introduce în ecuaţie înaintea altora.
![Page 31: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/31.jpg)
Regresia multiplă pas cu pas
• utilizată în studii exploratorii, (nr. mare de predictori)
• trei variante:
– Selecţia anterogradă
– Selecţia pas cu pas
– Selecţia retrogradă
![Page 32: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/32.jpg)
Selecţia anterogradă
• Toate variabilele predictor sunt corelate cu variabila criteriu după care variabila care are corelaţia cea mai mare este introdusă prima în ecuaţie.
• Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai mare, după ce a fost eliminat efectul variabilei anterioare.
• Procesul continuă până ce nivelul contribuţiei variabilelor predictor este prea mic pentru a mai fi luat în considerare.
• O variabilă odată introdusă în ecuaţie rămâne acolo.
![Page 33: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/33.jpg)
Selecţia pas cu pas
• Este o variantă a metodei anterioare.
• la fiecare pas, fiecare variabilă deja introdusă este retestată pentru a se evalua efectul ei ca şi cum ar fi fost introdusă ultima.
• Dacă o variabilă nou introdusă are o contribuţie mai consistentă asupra variabilei dependente, va determina eliminarea unei variabile anterioare care se dovedeşte mai puţin predictivă.
![Page 34: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/34.jpg)
Selecţia retrogradă
• Pasul iniţial este calcularea a unei ecuaţii de regresie în care toate variabilele predictor sunt incluse
• Ulterior, pentru fiecare variabilă predictor este efectuat un test de semnificaţie „F”, pentru a se evalua contribuţia fiecărui predictor la corelaţia de ansamblu.
• Valorile testului F sunt comparate cu o valoare limită prestabilită, variabilele care nu trec acest prag fiind eliminate din ecuaţie.
• Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este calculată şi un nou test F este efectuat pentru variabilele rămase, urmat de eventuala eliminare a unei alte variabile.
• Procesul continuă până când doar variabilele semnificative rămân în ecuaţie
![Page 35: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/35.jpg)
Concluzii la alegerea metodei de
introducere a variabilelor
• metoda „secvenţială” şi cea „pas cu pas” sunt
superioare metodei „standard”.
– în cazul metodei secvenţiale, decizia de selecţionare a
variabilelor introduse în ecuaţie aparţine cercetătorului
– în cazul metodei pas cu pas, programul este cel care face în
mod automat selecţia, în funcţie de parametri fixaţi de
analist.
![Page 36: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/36.jpg)
Analiza de putere pentru regresia multiplă
• stabilirea volumul eșantionului în funcție de:
– mărimea efectului
– numărul predictorilor
– puterea testului
• Recomandări:
– 15/1 (pentru 150 de subiecţi se poate miza pe cel mult 10
variabile independente (predictori)
– N≥50+8*m
![Page 37: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/37.jpg)
• Mărimea efectului
– Mic = 0.02
– Mediu = 0.15
– Mare = 0.35
• G*Power
2
22
1 R
Rf
−=
![Page 38: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/38.jpg)
![Page 39: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/39.jpg)
![Page 40: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/40.jpg)
![Page 41: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/41.jpg)
Obiective de cercetare specifice analizei de regresie multiplă
• analiza de regresie multiplă este utilizabilă în situaţii de predicţie
– dorim să selectăm candidaţi pentru o anumită profesie pe baza performanţelor la un set de teste psihologice
– odată stabilită ecuaţia de regresie pentru eşantionul studiat, utilizăm bateria de teste pentru a face predicţii de adaptare în cazul altor subiecţi
• Întrebări tipice:– Care dintre indicatorii testelor utilizate are capacitatea de predicţie cea
mai ridicată?
– Există indicatori care nu au relevanţă pentru predicţia performanţei profesionale?
– Are ecuaţia de regresie astfel obţinută o capacitate sigură de predicţie?
– Care dintre indicatorii testelor utilizate pot fi incluse în ecuaţia de predicţie a performanţei profesionale?
– Are ecuaţia de regresie, astfel obţinută, o capacitate sigură de predicţie?
![Page 42: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/42.jpg)
Efectuarea analizei de regresie cu SPSS
![Page 43: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/43.jpg)
![Page 44: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/44.jpg)
![Page 45: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/45.jpg)
Validarea predicţiei...
![Page 46: regresia multipla](https://reader034.vdocuments.pub/reader034/viewer/2022050620/548a5909b479590f0d8b5c47/html5/thumbnails/46.jpg)
Raportarea rezultatelor
• datele iniţiale şi eventualele eliminări sau transformări efectuate;
• indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaţie, graficele ilustrative pentru diferitele distribuţii;
• coeficienţii de regresie şi semnificaţiile lor (R2, R2adj şi gradele de libertate);
• dacă a fost utilizată metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas şi nivelul lor de semnificaţie;
• tabelul cu coeficienţii B (sau beta), coeficienţii r bivariaţi şi corelaţia parţială pentru fiecare variabilă independentă inclusă în model;
• se vor trage concluzii de ansamblu...