evaluarea coef pearson

Upload: marginean-radu

Post on 19-Oct-2015

37 views

Category:

Documents


0 download

DESCRIPTION

aa

TRANSCRIPT

  • M. Popa Statistica psihologic: Coeficientul de corelaie Pearson

    Coeficientul de corelaie liniar Pearson (r)

    Conf. dr. Marian Popa

    Introducere Am utilizat testul t pentru eantioane dependente pentru a evalua semnificaia diferenei dintre dou medii, rezultate n urma msurrii unei variabile cantitative, pe un eantion de subieci (sau de subieci pereche) aflat n dou situaii (condiii) diferite. Cele dou condiii reprezint valorile variabilei independente, iar cercettorul este interesat s afle dac exist o diferen semnificativ ntre mediile rezultate n fiecare dintre cele dou condiii. n concluzie, problema cercetrii ntr-o situaie de acest gen este axat pe ideea de diferen ntre perechile de valori.

    n practica cercetrii exist fie situaii n care nu suntem interesai de diferena dintre dou medii rezultate pe acelai grup de subieci, ci de gradul de asociere dintre dou variabile msurate pe acelai grup de subieci. fiecare variabil reprezentnd altceva. n acest caz cercettorul dorete s afle dac exist o legtur ntre variaia valorilor unei variabile n raport cu cealalt variabil.

    Pentru a nelege mai bine diferena dintre cele dou abordri statistice, s ne uitm puin n tabelele de date de mai jos:

    (a) n cazul diferenei dintre medii, valorile celor dou distribuii

    (v1 i v2) pentru un eantion de 5 subieci sunt condensate prin mediile lor (7 i 5), a cror diferen (7-5=2) este testat din punct de vedere al semnificaiei statistice.

    (b) n cazul corelaiei dintre valorile celor dou distribuii se

    urmrete punerea n eviden a modului n care se asociaz valorile perechi, adic n ce msur exist o legtur ntre fiecare valoare i perechea ei.

    ntr-o relaie de asociere ambele variabile sunt dependente una de alta, iar valorile lor pot fi

    exprimate, fie cu aceeai unitate de msur, fie cu uniti de msur diferite. Iat cteva exemple de acest gen:

    exist o legtur ntre numrul atitudinilor pozitive pe care le manifest oamenii i numrul atitudinilor pozitive pe care le primesc din partea celor din jur?

    exist o legtur ntre timpul de reacie i nivelul extraversiunii, ca trstur de personalitate?

    exist o legtur ntre greutate i nlime?

    exist o relaie ntre frecvena pulsului oferilor i viteza cu care conduc maina?

    exist o relaie ntre numrul orelor de studiu la statistic i punctajul obinut la evaluri?

    n toate aceste situaii avem cte dou variabile, ambele fiind dependente una n raport cu alta, n sensul c este vizat existena unei concordane n variaia reciproc a valorilor celor dou variabile, iar testul statistic utilizat se bazeaz pe calcularea unui coeficient de corelaie.

    nainte de a fi un concept statistic termenul de corelaie este un cuvnt uzual n limbajul cotidian. n esen, el exprim o legtur ntre anumite aspecte ale realitii, aa cum este ea reflectat n planul observaiei directe. De exemplu, o parcare plin cu maini ne sugereaz c magazinul alturat

    v1 v2 sub 1 7 4 sub 2 9 5 sub 3 8 6 sub 4 6 7 sub 5 5 3 media 7 5

    v1 v2 sub 1 7 4 sub 2 9 5 sub 3 8 6 sub 4 6 7 sub 5 5 3

  • Coeficientul de corelaie liniar Pearson

    2/15 Actualizat la: 07.12.2007/08:47:10

    este plin cu cumprtori, ntre numrul de maini din parcare i numrul de cumprtori existnd o anumit corelare. La nivel statistic, corelaia exprim o legtur cantitativ sistematic ntre valorile a dou variabile perechi, msurate pe subieci aparinnd aceluiai eantion de cercetare. Coeficientul de corelaie este doar una dintre procedurile statistice prin care se pune n eviden corelarea dintre variabile. n termeni generali, chiar i testele t, prezentate anterior, pun n eviden (co)relaia (legtura) dintre o variabil dependent i valorile unei variabile independente. Corelaia liniar

    S presupunem c un grup de studeni au efectuat un test de inteligen bazat pe raionament abstract/figurativ i un altul, bazat pe raionament verbal/logic. Dac studenii care obin valori mari la primul test tind s obin valori mari i la cel de-al doilea, avem ceea ce se numete o corelaie pozitiv. Dac, dimpotriv, studenii care obin valori mari la unul dintre teste tind s obin valori mici la cel de-al doilea, atunci ne aflm n faa unei corelaii negative. Este evident c exist i posibilitatea ca valorile celor dou variabile s evolueze absolut independent unele de celelalte, ceea ce indic absena oricrei corelaii.

    Precursorul teoretic al coeficientului de corelaie este coeficientul de covarian. El se definete ca sum a produselor dintre valorile celor dou variabile, raportat la numrul perechilor de valori din cele dou distribuii:

    yxxy

    =

    *cov

    (formula 3.27) unde x i y sunt valorile perechi ale celor dou variabile, iar N este volumul eantionului. Problema pe care o ridic coeficientul de covarian este legat de unitile de msur.

    Formula poate fi aplicat numai dac valorile perechi sunt exprimate n aceeai unitate de msur, pentru ca produsul lor s aib sens. Evident, nu am putea-o utiliza pentru a calcula coeficientul de covariaie ntre nlime i greutate, de exemplu, deoarece este dificil s nelegem rezultatului unui produs dintre uniti de msur diferite (greutate i lungime). Soluia problemei const n transformarea valorilor celor dou variabile n scoruri standard, ceea ce produce un rezultat care nu mai are legtur cu unitatea de msur. Intensitatea legturii dintre valorile a dou variabile se exprim prin coeficientul de corelaie liniar, notat cu simbolul r. Introdus de Karl Pearson1, acest coeficient mai este cunoscut i sub numele de coeficientul de corelaie Pearson, sau al moment-produsului, dup expresia uneia din formulele de calcul.

    Formula de definiie a coeficientului de corelaie este: (formula 3.28) unde zx respectiv zy sunt scorurile z ale variabilelor x i y, iar N este volumul eantionului.

    Situaia de maxim corelaie posibil ntre cele dou distribuii este atunci cnd valorile lor

    sunt identice. Dac ar fi aa, atunci valorile zx sunt egale cu valorile zy, iar formula 3.28 ar putea scris ca:

    zr

    x=

    2

    (formula 3.29)

    n continuare, dac nlocuim n formula de mai sus expresia de calcul a lui z i facem toate

    simplificrile posibile, ajungem n final la formula deja cunoscut a dispersiei. n consecin, din faptul c dispersia unei distribuii z este ntotdeauna egal cu +1, rezult c valoarea maxim pe care o poate atinge coeficientul de corelaie, n cazul unei corelaii pozitive perfecte, este r=+1.

    1 Karl Pearson (1857-1936), matematician, filozof al tiinei, biometrician i statistician englez.

    zzr

    yx=

    *

  • Coeficientul de corelaie liniar Pearson

    3/15 Actualizat la: 07.12.2007/08:47:10

    Corespunztor, n cazul unei corelaii negative perfecte, conform aceluiai raionament, rezult c valoarea minim posibil a coeficientului de corelaie este r= -1.

    Reprezentarea grafic a corelaiei

    Plasarea valorilor corelate pe un grafic, produce o imagine intuitiv a relaiei dintre valori.

    Acest tip de grafic se numete scatterplot (denumiri echivalente: scattergram i scattergraf)

    n cazul unei corelaii pozitive, reprezentrile scatterplot arat astfel:

    Relaie direct Corelaie pozitiv

    r = 1.00 r = .80 r = .20

    + + + | | | | | | | | | | | | |________________ |________________

    n cazul unei corelaii pozitive valorilor mari ale unei variabile tind s le corespund valori

    mari le celeilalte variabile. La limit, pentru o corelaie pozitiv perfect (r=+1) punctele de intersecie ale perechilor de valori se plaseaz pe o linie dreapt, dinspre stnga jos spre dreapta sus, la un unghi de 45 de grade ntre cele dou axe. Cu ct corelaia este mai mic, cu att norul de puncte este mai larg, dar forma elipsei indic relaia pozitiv dintre cele dou variabile.

    n imaginea de mai jos avem reprezentri scatterplot caracteristice pentru trei corelaii liniare negative.

    Relaie indirect- Corelaie negativ r = -1.00 r = -.80 r = -.20 + + + | | | | | | | | | | | | |________________ |________________ |________________ - + - + - +

    n cazul corelaiei negative, tendina este aceea ca valorilor mari ale unei variabile s le

    corespund valori mici ale celeilalte variabile. Ca urmare, att linia corelaiei negative perfecte (r=-1), ct i diagonala mare a elipsei norului de puncte al unei corelaii negative imperfecte, se orienteaz din stnga sus spre dreapta jos a sistemului de coordonate.

    n fine, atunci cnd corelaia dintre cele dou variabile este inexistent, norul punctelor de intersecie are o form circular, care nu contureaz nici o tendin (r=0).

  • Coeficientul de corelaie liniar Pearson

    4/15 Actualizat la: 07.12.2007/08:47:10

    %ici o relaie %u exist corelaie r = 0.00

    + |

    | | | | |________________

    - +

    Calcularea coeficientului de corelaie liniar Pearson

    De obicei, pentru a uura calcularea manual a coeficientului de corelaie, mai ales atunci cnd avem date numeroase, sunt utilizate formule derivate din formula de definiie (formula 3.28), prin nlocuirea expresiilor pentru scorul z.

    [ ] [ ]

    smYsmX

    zzr

    yyxxyx ==

    /)(*/)(*

    Se deduce astfel o formul care, dei apare mai complicat, este mai uor de pus n practic,

    deoarece se bazeaz pe valori care se obin prin calcule mai simple:

    de unde obinem: ( ) ( )

    yx

    yx

    ss

    mYmXr

    **

    * = (formula 3.30)

    unde: X i Y reprezint valorile individuale ale distribuiilor X i Y mx i my reprezint mediile distribuiilor X i Y sx i sy reprezint abaterile standard ale distribuiilor X i Y N este volumul eantionului Formula 3.30 este doar una dintre variantele utilizate. Ea poate fi utilizat pentru calcule, la fel

    de bine ca i formula 3.28, obinndu-se rezultate identice. n general, pentru pstrarea acurateei rezultatului se recomand pstrarea primelor patru zecimale ale fiecrei operaii de calcul dar, pentru exemplele didactice, unde rezultatul nu are o finalitate real, se poate lucra i cu primele dou zecimale. Oricum, n final, valoarea coeficientului r se raporteaz n mod obinuit cu doar dou zercimale.

    Criteriile deciziei statistice

    La fel ca n cazul celorlalte teste statistice, i coeficientul r se raporteaz la o distribuie teoretic, care este una derivat din distribuia t. Indiferent de ct de mare este r calculat, nu putem avea ncredere n acesta atta timp ct nu tim n ce msur este diferit de un r care ar rezulta prin jocul ntmplrii. Pentru aceasta se utilizeaz distribuia t i o formul care deriv din testul t.

    Pentru uurarea evalurii semnificaiei, a fost creat un tabel special cu praguri de semnificaie ale coeficientului de corelaie r care poate fi folosit fr a mai fi necesar utilizarea formulei (vezi tabelul semnificaiilor coeficientului de corelaie din anex). Practic, se caut n tabel care este nivelul lui r pentru numrul gradelor de libertate (df=N-2), i un prag ales n prealabil. Dac valoarea calculat este cel puin egal sau mai mare dect valoarea tabelar (critic) a lui r, atunci ipoteza de nul se respinge, coeficientul de corelaie fiind considerat semnificativ.

    Pentru exemplul nostru, pentru test unilateral, =0.05 i df=6 (8-2), citirea tabelului se face ca n figura de mai jos.

  • Coeficientul de corelaie liniar Pearson

    5/15 Actualizat la: 07.12.2007/08:47:10

    df

    Nivel de semnificaie test

    unilateral

    .05 .025 .01 .005

    Nivel de semnificaie test

    bilateral

    .10 .05 .02 .01

    1 .988 .997 .9995 .9999

    2 .900 .950 .980 .990

    3 .805 .878 .934 .959

    4 .729 .811 .882 .917

    5 .669 .754 .833 .874

    6 .622 .707 .789 .834

    n condiiile precizate pentru cercetarea propus ca exemplu, valoarea tabelar (critic) a lui r

    este 0.622. Dac am fi preferat un test bilateral, pentru acelai nivel al lui alfa, valoarea r critic ar fi fost 0.707.

    EXEMPLU DE CALCUL Vom lua n considerare cazul aplicrii celor dou teste de raionament de tip diferit. n acest caz, ipoteza cercetrii se exprim n maniera: exist o legtur (corelaie) ntre cele dou tipuri de raionament, cei care obin rezultate bune la unul din teste, vor tinde sa obin rezultate bune i la

    celalalt. Desigur, ipoteza poate fi formulat i corespunztor unei corelaii negative, dac avem motive s presupunem acest lucru.

    Scorul la testul

    de calcul aritmetic

    Scorul la testul

    de raionament verbal

    Produsul abaterilor de

    la medie

    X (x-mx) (x-mx)2 Y (y-my) (y-my)

    2 (x-mx)* (y-my)

    25 -4.63 21.44 28 -1.88 3.53 8.70 32 2.37 5.62 27 -2.88 8.29 -6.83 40 10.37 107.54 41 11.12 123.65 115.31 29 -0.63 0.40 34 4.12 16.97 -2.60 31 1.37 1.88 25 -4.88 23.81 -6.69 16 -13.63 185.78 19 -10.88 118.37 148.29 28 -1.63 2.66 26 -3.88 15.05 6.32 36 6.37 40.58 39 9.12 83.17 58.09

    = 237 =365.88 = 239 =392.88 =320,63 mX= 29.63 mY = 29.88 sX = 7.23 sY = 7.49

    Pentru calcularea coeficientului de corelaie am ales, de data aceasta, formula 3.30, prin care, nlocuind valorile, obinem valoarea coeficientului de corelaie:

    ( ) ( )74.0

    433.22

    63.320

    49.7*23.7*8

    63.320

    **

    *+===

    =

    yx

    yx

    ss

    mYmXr

    Graficul scatterplot pentru datele din exemplu este corespunztor unei asocieri pozitive ntre cele dou variabile, norul de puncte urmnd o elips cu diagonala mare pe direcia stnga jos-dreapta sus:

  • Coeficientul de corelaie liniar Pearson

    6/15 Actualizat la: 07.12.2007/08:47:10

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    0 10 20 30 40 50

    Y

    X

    Decizia statistic Valoarea calculat a lui r (+0.74) este mai mare dect valoarea critic (+0.62), fapt care

    ndreptete respingerea ipotezei de nul. Ca urmare, acceptm ca semnificativ coeficientul de corelaie obinut. Datele cercetrii susin ipoteza c ntre scorurile celor dou teste exist o legtur pozitiv semnificativ2.

    Corelaie i cauzalitate Coeficientul de corelaie ne ofer informaii despre modul n care variaz valorile a dou

    variabile, una n raport cu cealalt. Ca urmare, coeficientul de corelaie nu are o semnificaie cauzal dect dac cele dou variabile au fost msurate ntr-un context care probeaz cauzalitatea. Iar acest lucru se petrece numai n condiii de experiment.

    %atura liniar a corelaiei Pearson Trebuie s reinem faptul c ceea ce exprim r este intensitatea corelaiei liniare, adic msura

    n care norul de puncte reprezentat de intersecia valorilor perechi ale celor dou variabile poate fi reprezentat de o linie dreapt. Asocierea de tip liniar este ns doar una dintre formele de aproximare a legturii dintre variabile. n realitate, uneori, corelaia dintre dou variabile are o form care se abate de la modelul rectiliniu (are o form curb). Dac privim imaginile de mai jos, putem observa cteva tipuri posibile de curbe de corelaie. Figurile a i b exprim corelaii perfecte, dar care se supun unui model curbiliniu, n timp ce figura c reprezint o corelaie perfect rectilinie.

    Relaiile curbilinii sunt calculate pe baza altor proceduri dect coeficientul Pearson (r), dar acestea nu fac de regul obiectul de studiu al unei introduceri n statistica aplicat. S reinem totui c, dac am calcula un coeficient r pentru distribuiile din figurile a i b, atunci valoarea acestora ar fi foarte mic i, cel mai probabil, nesemnificativ, n ciuda asocierii grafice evidente a valorilor lor.

    Pentru a nelege i mai bine acest fapt, oferim un exemplu ilustrativ. Am introdus valorile lui

    z i probabilitile corespunztoare lor de pe curba normal, ntr-un program de prelucrri statistice. Forma normal a curbei obinute ne indic faptul c, dinspre partea stng a acesteia, valorile z devin

    2 n mod uzual, valorile lui r se raporteaz cu dou zecimale, chiar dac valorile tabelare i cele calculate de programele statistice sunt cu mai mult de dou zecimale.

  • Coeficientul de corelaie liniar Pearson

    7/15 Actualizat la: 07.12.2007/08:47:10

    din ce n ce mai mici (n valoare absolut), corespunztor cu creterea probabilitii, pn la mijlocul curbei, unde z=0, iar probabilitatea este maxim. Mergnd mai departe, spre dreapta, valorile lui z ncep s creasc, concomitent cu reducerea probabilitii. Coeficientul de corelaie calculat pentru un eantion de date ale celor dou variabile statistice este r=0, iar imaginea scatterplot a relaiei dintre ele este prezentat n figura alturat3:

    Aa cum se observ, dei r=0, ceea ce indic absena oricrei corelaii liniare ntre variabile, curba de distribuie arat o corelaie curbilinie perfect.

    Din fericire, astfel de situaii sunt relativ rare n realitate, modelul corelaiei liniare fiind

    adecvat pentru un mare numr de relaii dintre variabilele naturale, incluzndu-le i pe cele psihologice. Atunci cnd exist suspiciuni consistente cu privire la natura liniar a legturii dintre variabile, se pot efectua anumite transformri care s le aduc n cadrul unei variaii liniare (de exemplu, extragerea radicalului sau logaritmarea variabilelor). Atunci cnd se raporteaz un coeficient de corelaie fr a se preciza caracterul liniar sau curbiliniu, vom considera c acesta se refer la corelaia liniar.

    Exemplul dat ne sugereaz faptul c graficul scatterplot ofer informaii suplimentare semnificative i, din acest motiv, este recomandabil realizarea acestuia de fiecare dat cnd utilizm testul de corelaie Pearson. Un argument spectaculos n sprijinul acestui aspect ne este oferit de Anscombe (1973), care a realizat cele patru seturi de date din tabelul de mai jos:

    Setul #1 Setul #2 Setul #3 Setul #4

    X1 Y1 X2 Y2 X3 Y3 X4 Y4

    10,00 8,04 10,00 9,14 10,00 7,46 8,00 6,58 8,00 6,95 8,00 8,14 8,00 6,77 8,00 5,76

    13,00 7,58 13,00 8,74 13,00 12,74 8,00 7,71 9,00 8,81 9,00 8,77 9,00 7,11 8,00 8,84

    11,00 8,33 11,00 9,26 11,00 7,81 8,00 8,47 14,00 9,96 14,00 8,10 14,00 8,84 8,00 7,04 6,00 7,24 6,00 6,13 6,00 6,08 8,00 5,25 4,00 4,26 4,00 3,10 4,00 5,39 19,00 12,50

    12,00 10,84 12,00 9,13 12,00 8,15 8,00 5,56 7,00 4,82 7,00 7,26 7,00 6,42 8,00 7,91 5,00 5,68 5,00 4,74 5,00 5,73 8,00 6,89

    Coeficienii de corelaie dintre cele patru perechi de variabile (X1-Y1, X2-Y2, X3-Y3; X4-Y4)

    sunt identici: r=0.81. i totui, dac sunt analizate reprezentrile scatterplot pentru fiecare dintre cele patru perechi de variabile, imaginile ne ofer diferene importante cu privire la natura real a relaiei dintre ele:

    3 Exemplul se bazeaz pe un eantion de 61 de perechi de valori, selectate de pe toat plaja distribuiei z

    Distributia normala z (r=0)

    z

    43210-1-2-3-4

    p,6

    ,5

    ,4

    ,3

    ,2

    ,1

    0,0

  • Coeficientul de corelaie liniar Pearson

    8/15 Actualizat la: 07.12.2007/08:47:10

    n cazul perechii X3-Y3, o valoare extrem a redus coeficientul de corelaie, iar n cazul

    perechii de variabile X4-Y4, unde corelaia ar fi fost nul, ea este generat de o singur valoare extrem. Desigur, astfel de efecte apar cu precdere n cazul eantioanelor de volum mic, dar grija pentru valorile extreme trebuie meninut n toate cazurile.

    Mrimea efectului coeficientului de crelaie Spre deosebire de testele t, introduse anterior, valoarea testului r este interpretabil prin ea

    nsi, exprimnd intensitatea asocierii dintre variabile. Aa cum am spus deja, avem o corelaie perfect atunci cnd r este egal cu +1 sau 1. Valoarea obinut pe exemplul nostru (+0.74) este destul de apropiat de +1. Desigur, +0.74 este mai puin dect +1, dar i mai mult dect, s zicem, +0.32. O asemenea interpretare, dei absolut corect, nu poate fi satisfctoare. Se simte necesitatea de a avea un criteriu de valorizare a cuantificrii numerice a corelaiei. De-a lungul timpului au fost propuse diverse astfel de scale de valorizare, prin atribuirea unor calificative coeficienilor de corelaie, n funcie de mrimea lor. Aceast problem comport multe discuii, iar soluiile oferite de diferii autori sunt deseori diferite. Ca regul general, toi autorii sunt de acord c valorile mai mici de 0.1 ale coeficienilor de corelaie trebuie s fie considerate neglijabile, chiar i atunci cnd ating pragul de semnificaie statistic.

    Oferim, cu caracter orientativ, modelul de descriere propus de Hopkins (2000) cu privire la interpretarea valorilor coeficienilor de corelaie: Coeficientul de corelaie Descriptor

    0.0-0.1 Foarte mic, neglijabil, nesubstanial 0.1-0.3 Mic, minor 0.3-0.5 Moderat, mediu 0.5-0.7 Mare, ridicat, major 0.7-0.9 Foarte mare, foarte ridicat 0.9-1 Aproape perfect, descrie relaia dintre dou variabile practic indistincte

    O alt variant de interpretare a mrimii efectului recunoscut este cea propus de Davis (citat

    de Kotrlik i Williams, 2003):

    0.70 asociere foarte puternic 0.50 0.69 asociere substanial

    12,0010,008,006,00

    y4

    20,00

    18,00

    16,00

    14,00

    12,00

    10,00

    8,00

    x4

    11,0010,009,008,007,006,005,004,00

    y1

    14,00

    12,00

    10,00

    8,00

    6,00

    4,00

    x1

    10,009,008,007,006,005,004,003,00

    y2

    14,00

    12,00

    10,00

    8,00

    6,00

    4,00

    x212,0010,008,006,00

    y3

    14,00

    12,00

    10,00

    8,00

    6,00

    4,00

    x3

  • Coeficientul de corelaie liniar Pearson

    9/15 Actualizat la: 07.12.2007/08:47:10

    0.30 0.49 asociere moderat 0.10 0.29 asociere sczut 0.01 0.09 asociere neglijabil

    naintea oricrui calificativ ns, prima condiie pentru a lua n considerare existena unei

    corelaii ntre dou variabile rmne atingerea pragului de semnificaie (alfa). Dac valoarea lui r este mai mic dect r critic (corespunde unui nivel p mai mare de 0.05, sau dect alt prag legitim decis de cercettor), existena unei corelaii nu poate fi luat n considerare, indiferent de mrimea coeficientului r Pearson. Aceasta, deoarece nu avem temei pentru a accepta c se ndeprteaz suficient de o valoare care ar fi putut decurge prin jocul hazardului.

    n cele din urm ce trebuie s lum n considerare, semnificaia sau intensitatea asocierii? Desigur, rspunsul este unul relativ. Dac finalitatea studiului este aceea de a lua decizii, ca n cazul seleciei de personal, de exemplu, se vor cuta valori ct mai mari ale coeficientului de corelaie (r). Dar dac obiectivul este preponderent teoretic, de a pune n eviden relaii ascunse ntre variabile, atunci, indiferent de mrimea lor, coeficienii de corelaie vor fi luai n considerare (desigur, dac sunt mai mari de 0.1).

    Coeficientul de determinare

    Valorile lui r trebuie considerate pe o scal ordinal. Ca urmare, nu este corect s afirmm c

    un coeficient de corelaie de 0.40 este de dou ori mai mare dect un altul de 0.20. Dac dorim s comparm n mod direct doi coeficieni de corelaie trebuie s ridicm valorile lui r la ptrat (r2), obinnd astfel ceea ce se numete coeficient de determinare (prezentat n programele statistice i ca r squared). Acesta este considerat un indicator mai adecvat al mrimii efectului, deoarece ia valori sensibili mai mici dect cele ale coeficientului de corelaie. Pentru exemplul nostru, coeficientul de determinare este 0.742=0.55. Transformat n procente, acest rezultat se interpreteaz astfel: 55% din variaia (mprtierea) uneia dintre cele dou variabile este determinat de variaia celeilalte

    variabile. Sau, altfel spus, cele dou variabile au in comun 55% din variaia care le caracterizeaz, ceea ce nseamn c 45% din variabilitatea lor provine din alte surse. Atenie, interpretarea procentual, n maniera prezentat, este valabil numai pentru coeficientul de determinare. Coeficientul de corelaie (r) nu poate fi interpretat n nici un caz sub form procentual!

    Cohen (citat de Kotrlik i Williams, 2003) a propus urmtoarea regul de evaluare a mrimii coeficentului de determinare ca indice de mrime a efectului n cazul corelaiei:

    r2

    (Cohen)

    0.0196 efect mic 0.1300 efect mediu 0.2600 efect mare

    Vom observa c valorile lui r corespunztoare celor trei praguri ale lui r2 sunt 0.14, 0.36 i, respectiv, 0.50, ceea ce este n concordan cu recomandrile de mai sus pentru interpretarea lui r. S reinem c mrimea efectului, care este, de fapt, nsi mrimea coeficientului r, depinde de dou elemente principale:

    - Caracterul liniar al relaiei dintre variabile. O component curbilinie a asocierii va conduce la valori mai mici ale coeficientului de corelaie. Graficul scatterplot ne poate ajuta la evidenierea acestui aspect.

    - Variabilitatea distribuiilor comparate. Dac variabilele cercetate au o mprtiere redus, acest fapt limiteaz posibilitatea de a obine valori ridicate pentru r.

    Mrimea eantionului are efect doar asupra puterii testului (eantioanele mari conduc

    mai uor la atingerea pragului de semnificaie), dar nu au un efect important asupra mrimii lui r.

  • Coeficientul de corelaie liniar Pearson

    10/15 Actualizat la: 07.12.2007/08:47:10

    Limitele de ncredere pentru coeficientul de corelaie r Atunci cnd calculm coeficientul de corelaie pentru valorile msurate pe un eantion, o

    facem, desigur, cu scopul de a avea o estimare asupra gradului n care cele dou variabile au o variaie comun la nivelul ntregii populaii. Deoarece calcularea corelaiei pe valorile populaiei este practic imposibil, tot ce putem face este s o estimm, cu o anumit marj de eroare, prin utilizarea corelaiei pe eantion. Astfel, n termeni formali, r (calculat pentru eantion) este o estimare pentru (ro), corelaia adevrat la nivelul populaiei.

    Calcularea limitelor de ncredere

    Construirea intervalelor de ncredere pentru coeficientul de corelaie la nivelul populaiei () nu este la fel de simpl ca n cazul altor valori statistice, dar se bazeaz pe acelai raionament fundamental: limitele de ncredere se afl n jurul unui punt de estimare (r) la care se adaug sau se scade valoarea r critic nmulit cu eroarea standard a estimrii. Problemele specifice decurg din natura distribuiei lui r. Atunci cnd valoarea corelaiei la nivelul populaiei este =0, distribuia de eantionare rs (valorile lui r care ar fi calculate pe eantioanele extrase din aceeai populaie) formeaz o distribuie normal n jurul lui zero (dac volumul eantionului este suficient de mare). Dar dac =+0.7, distribuia lui rs are o mprtiere asimetric n jurul lui acestei valori. Motivul este simplu: este mai mult loc pentru valori sub +0.7 dect peste aceast valoare, deoarece tim c r ia valori ntre -1 i +1. Cu ct estimarea pentru este mai aproape de limitele teoretice ale lui r, cu att distribuia rs este mai asimetric spre partea opus. Aceast particularitate creeaz o piedic n transformarea coeficienilor rs n scoruri Z (cu majuscul, pentru a se evita confuzia cu scorurile z clasice), necesare construirii limitelor intervalului de ncredere pentru . Problema a fost rezolvat de Fisher, care a elaborat un algoritm pe baza cruia valorile rs sunt transformate n valori Z, a cror arie de distribuie sub curba normal este cunoscut:

    Z=0.5ln[(1 + r)/(1 - r)] (formula 3.31)

    Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi n

    anex tabelul Fisher de transformare n Z a valorilor lui r) care, chiar dac nu conine toate valorile intermediare, este suficient pentru a acoperi nevoile practice.

    S lum ca exemplu valoarea coeficientului de corelaie parial obinut de noi mai sus: r=+0.74. Ne propunem s aflm care sunt limitele de ncredere ale acestei valori, adic s definim intervalul n care se poate afla valoarea real a corelaiei la nivelul populaiei, cu o probabilitate asumat. De regul, aa cum tim, aceast probabilitate asumat este de 0.05 sau, exprimat altfel, un nivel de ncredere de 95%. Practic, aflarea limitelor se face n felul urmtor:

    Se transform r calculat n valoare Z, citind tabela Fisher: n cazul nostru, pentru r=0.74 avem o valoare Zr=0.9505 (dac valoarea lui r nu se regsete ca atare n tabel, se poate face o medie a valorilor apropiate). Pe o distribuie normal, cum este distribuia de eantionare Z, tim c aproximativ 95% dintre valori se ntind ntre -1.96 i +1.96. Adic, pe o distan de aproximativ dou abateri standard n jurul mediei (abaterea standard a valorilor Z fiind 1).

    Se calculeaz eroarea standard a transformrii Zr, cu formula:

    unde N este volumul eantionului

    Se calculeaz limitele superioar i inferioar a intervalului: ecriticr rzZ *= , adic: Limita superioar (Z): 0.9505+1.96*0.447=+1.826 Limita inferioar (Z): 0.9505-1.96*0.447=+0.074

    447,038

    1

    3

    1=

    =

    =

    re

  • Coeficientul de corelaie liniar Pearson

    11/15 Actualizat la: 07.12.2007/08:47:10

    Limitele astfel calculate sunt exprimate n valori transformate Z, ori noi avem nevoie s tim limitele n valori ale lui r. Pentru aceasta, facem acum transformarea invers, citind valorile lui Z n tabela Fisher, corespunztoare celor dou limite de mai sus: Limita superioara de ncredere pentru r=+0.95 Limita inferioar de ncredere pentru r=+0.07 n concluzie, valoarea adevrat (la nivelul populaiei) a corelaiei dintre cele dou variabile, se afl, cu o probabilitate de 95%, n intervalul cuprins ntre +0.07 i +0.95. Limita inferioar este n apropierea unei corelaii egale cu 0, iar limita superioar n vecintatea corelaiei perfecte, ceea ce ne arat o precizie de estimare sczut. Acest fapt este normal, dac avem n vedere mrimea redus a eantionului, care determin un nivel ridicat al erorii standard pentru r (prin faptul c se afl la numitorul formulei). Utilizarea limitelor de ncredere

    Dac analizm limitele intervalului de ncredere astfel obinute, pentru exemplul nostru, trebuie s constatm c ele sunt foarte mari, n zona valorilor pozitive, dar avnd limita inferioar destul de aproape de valoarea zero. Acest fapt conduce la concluzia c, dei este att mare i semnificativ statistic, coeficientul obinut are o valoare mic de generalizare. Situaia este generat, n acest caz, de volumul extrem de mic al eantionului. Amplitudinea intervalului de ncredere este direct dependent de volumul eantionului. Cu ct N este mai mare, cu att valoarea erorii standard tinde s scad, ceea ce aduce limitele intervalului de ncredere mai aproape de valoarea calculat a lui r.

    S ne imaginm c am efectuat un calcul de corelaie pe 30 de subieci i am obinut r=0.30 (cnd semnul corelaiei nu este specificat, se consider pozitiv). Limitele de ncredere pentru acesta sunt ntre -0.07 i +0.60, ceea ce arat c este nesemnificativ, dat fiind faptul c ntre cele dou limite este i valoarea zero, aceea care este vizat de ipoteza de nul. Faptul c limita inferioar este foarte aproape de valoarea zero (la numai 7 sutimi de ea), ne ndreptete s credem c, prin mrirea volumului eantionului de cercetare ar putea fi atins nivelul de semnificaie statistic. Aceasta, deoarece n formula erorii standard a lui r volumul eantionului se afl la numitor i, cu ct N va fi mai mare, cu att valoarea lui re va fi mai mic, iar limitele intervalului de ncredere pentru r, mai aproape de r.

    Tabelul urmtor arat care sunt limitele pentru exemplul dat, dac N ar crete, progresiv, pn la 100:

    Utilitatea practic a acestor estimri de limite este dat de faptul c ne arat cu ct ar trebui s

    cretem volumul eantionului pentru a obine un rezultat semnificativ al coeficientului de corelaie dintre cele dou variabile. Aa cum se vede, dac am crete volumul eantionului la 50 de subieci, limita inferioar ar trece deja peste valoarea zero. Celelalte linii din tabel prezint efectul de mrime al eantionului n cazul creterii lui N pn la 100 de subieci.

    N Pearson r

    Niv. de ncredere

    (%)

    Limite de ncredere

    inferioar superioar

    30 0,30 95 -0,07 0,60

    40 0,30 95 -0,01 0,56

    50 0,30 95 0,02 0,53

    60 0,30 95 0,05 0,51

    70 0,30 95 0,07 0,50

    80 0,30 95 0,09 0,49

    90 0,30 95 0,10 0,48

    100 0,30 95 0,11 0,47

  • Coeficientul de corelaie liniar Pearson

    12/15 Actualizat la: 07.12.2007/08:47:10

    Semnificaia diferenei dintre doi coeficieni de corelaie

    S presupunem c ntr-o cercetare este evaluat corelaia dintre extraversie i agresivitate

    separat, pentru brbai i pentru femei, obinndu-se o valoare r=0.50 pentru brbai i o valoare r=0.30 pentru femei, ambii coeficieni fiind semnficativi. n acest caz ne-am putea pune problema dac cei doi coeficieni difer semnificativ ntre ei, ceea ce ar nsemna c relaia dintre extraversie i agresivitate este mai ridicat la brbai dect la femei.

    Diferena dintre doi coeficieni de corelaie poate fi evaluat cu un test specific, care ia n considerare nu doar diferena dntre valorile r, ci i mrimea eantioanelor i mrimea n sine a celor doi coeficieni. De exemplu, avnd n vedere c semnificaia coeficienilor de corelaie depinde i de mrimea eantionului, nseamn c o diferen de 0.1 ntre doi indici de corelaie poate fi nesemnficativ dac cei doi r sunt 0.15 i 0.25, dar poate fi semnificativ dac valorile r comparate sunt 0.80 i 0.90.

    Modul de calcul al semnificaiei dintre doi coeficieni de corelaie va fi prezentat mai trziu, n seciunea rezervat procedurilor SPSS.

    Condiii pentru calcularea coeficientului de corelaie Pearson

    Pentru a putea utiliza n mod legitim calculul de corelaie eantionul trebuie s fie aleatoriu, iar cele dou variabile (ambele msurate pe scale de interval/raport) trebuie s aib o distribuie care s nu se abat grav de la distribuia normal. Aceast condiie este cu att mai important cu ct eantionul este mai mic. O atenie aparte trebuie acordat valorilor excesive, prezena acestora putnd avea efecte neateptate asupra valorii coeficientului de corelaie (vezi exemplele lui Anscombe).

    Utilizarea coeficientul de corelaie

    Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n cercetarea psihologic. Printre utilizrile cele mai comune menionm analiza consistenei i validitii testelor psihologice. Consistena se refer la gradul n care un instrument de evaluare se concentreaz asupra unei anumite realiti psihice. Validitatea, se refer la faptul dac ceea ce presupune c msoar un instrument psihologic este msurat cu adevrat (de exemplu, o scal de anxietate msoar cu adevrat anxietatea?).

    Din cele prezentate, rezult c putem utiliza coeficientul atunci cnd avem serii perechi de distribuii. Pentru o mai bun nelegere, se cuvine s facem cteva aprecieri comparative cu testul t pentru eantioane dependente. Testul t pentru eantioane dependente, se aplic atunci cnd msurm o anumit variabil n dou situaii diferite (de ex. nainte/dup), ceea ce presupune aceeai unitate de msur. Coeficientul de corelaie poate fi aplicat att pentru variabile msurate cu aceeai unitate de msur ct i pentru variabile exprimate n uniti de msur diferite. Aceasta deoarece formula de calcul ia n considerare expresia standardizat a valorilor (corurile z). ntrebarea este, cnd utilizm unul sau altul dintre cele dou teste? Rspunsul ine de scopul pe care ni-l propunem. Dac dorim s punem n eviden diferena dintre valorile medii ale variabilelor, vom aplica testul t pentru eantioane dependente. Dac ne intereseaz intensitatea variaiei concomitente a variabilelor, vom utiliza coeficientul de corelaie.

    Coeficientul de corelaie Pearson nu este singurul test al asocierii variabilelor. Exist o varietate de teste de corelaie, utilizate pentru situaiile n care variabilele cercetate sunt msurate, fiecare, pe oricare dintre scalele de murare.

    Publicarea rezultatului corelaiei

    Raportarea coeficienilor de corelaie va cuprinde, pe lng indicatorii statistici descriptivi ai variabiulelor (medii, abateri standard, indicatorii simetriei i aplatizrii), volumul eantionului, valoarea lui r, nivelul de semnificaie i coeficientul de determinare (r2). Prezentarea limitelor de ncredere nu este uzual, poate i pentru c programele statistice obinuite nu le ofer, dar calcularea i includerea lor n documentul cercetrii este de dorit.

  • Coeficientul de corelaie liniar Pearson

    13/15 Actualizat la: 07.12.2007/08:47:10

    Pentru exemplul de mai sus, o prezentare narativ a rezultatului ar putea arta astfel: A fost evaluat performana la un test de calcul aritmetic i la unul de raionament verbal logic, pentru un eantion de 6 subieci. Scorurile mari se refer la performane ridicate. Media scorului la

    primul test a fost de m=29.63 (s=6.76), iar la al doilea m=29.88 (s=7.01). Am obinut o corelaie

    semnificativ ntre cele dou performane, r=0.74 (r2=0.55), p

  • Coeficientul de corelaie liniar Pearson

    14/15 Actualizat la: 07.12.2007/08:47:10

    Tabelul cu valori critice pentru coeficientul de corelaie Pearson (r) (limitat la df=100)

    df

    Nivel de semnificaie test

    unilateral

    .05 .025 .01 .005

    Nivel de semnificaie test

    bilateral

    .10 .05 .02 .01

    1 .988 .997 .9995 .9999

    2 .900 .950 .980 .990

    3 .805 .878 .934 .959

    4 .729 .811 .882 .917

    5 .669 .754 .833 .874

    6 .622 .707 .789 .834

    7 .582 .666 .750 .798

    8 .549 .632 .716 .765

    9 .521 .602 .685 .735

    10 .497 .576 .658 .708

    11 .476 .553 .634 .684

    12 .458 .532 .612 .661

    13 .441 .514 .592 .641

    14 .426 .497 .574 .628

    15 .412 .482 .558 .606

    16 .400 .468 .542 .590

    17 .389 .456 .528 .575

    18 .378 .444 .516 .561

    19 .369 .433 .503 .549

    20 .360 .423 .492 .537

    21 .352 .413 .482 .526

    22 .344 .404 .472 .515

    23 .337 .396 .462 .505

    24 .330 .388 .453 .495

    25 .323 .381 .445 .487

    26 .317 .374 .437 .479

    27 .311 .367 .430 .471

    28 .306 .361 .423 .463

    29 .301 .355 .416 .456

    30 .296 .349 .409 .449

    35 .275 .325 .381 .418

    40 .257 .304 .358 .393

    45 .243 .288 .338 .372

    50 .231 .273 .322 .354

    60 .211 .250 .295 .325

    70 .195 .232 .274 .302

    80 .183 .217 .256 .284

    90 .173 .205 .242 .267

    100 .164 .195 .230 .254

    Sursa: Cohen, B. (2004). Explaining Psychological Statistics (2 ed.): John Wiley & Sons, Inc.

  • Coeficientul de corelaie liniar Pearson

    15/15 Actualizat la: 07.12.2007/08:47:10

    Tabelul Fisher de transformare a valorilor r n scoruri Z

    R Z r Z r Z R Z

    0.0000 0.0000 0.2600 0.2661 0.5200 0.5763 0.7800 1.0454 0.0100 0.0100 0.2700 0.2769 0.5300 0.5901 0.7900 1.0714 0.0200 0.0200 0.2800 0.2877 0.5400 0.6042 0.8000 1.0986 0.0300 0.0300 0.2900 0.2986 0.5500 0.6184 0.8100 1.1270 0.0400 0.0400 0.3000 0.3095 0.5600 0.6328 0.8200 1.1568 0.0500 0.0500 0.3100 0.3205 0.5700 0.6475 0.8300 1.1881 0.0600 0.0601 0.3200 0.3316 0.5800 0.6625 0.8400 1.2212 0.0700 0.0701 0.3300 0.3428 0.5900 0.6777 0.8500 1.2562 0.0800 0.0802 0.3400 0.3541 0.6000 0.6931 0.8600 1.2933 0.0900 0.0902 0.3500 0.3654 0.6100 0.7089 0.8700 1.3331 0.1000 0.1003 0.3600 0.3769 0.6200 0.7250 0.8800 1.3758 0.1100 0.1104 0.3700 0.3884 0.6300 0.7414 0.8900 1.4219 0.1200 0.1206 0.3800 0.4001 0.6400 0.7582 0.9000 1.4722 0.1300 0.1307 0.3900 0.4118 0.6500 0.7753 0.9100 1.5275 0.1400 0.1409 0.4000 0.4236 0.6600 0.7928 0.9200 1.5890 0.1500 0.1511 0.4100 0.4356 0.6700 0.8107 0.9300 1.6584 0.1600 0.1614 0.4200 0.4477 0.6800 0.8291 0.9400 1.7380 0.1700 0.1717 0.4300 0.4599 0.6900 0.8480 0.9500 1.8318 0.1800 0.1820 0.4400 0.4722 0.7000 0.8673 0.9600 1.9459 0.1900 0.1923 0.4500 0.4847 0.7100 0.8872 0.9700 2.0923 0.2000 0.2027 0.4600 0.4973 0.7200 0.9076 0.9800 2.2976 0.2100 0.2132 0.4700 0.5101 0.7300 0.9287 0.9900 2.6467 0.2200 0.2237 0.4800 0.5230 0.7400 0.9505 0.2300 0.2342 0.4900 0.5361 0.7500 0.9730 0.2400 0.2448 0.5000 0.5493 0.7600 0.9962 0.2500 0.2554 0.5100 0.5627 0.7700 1.0203

    (Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)