Download - Corrélation Régression
Statistiques 1
Licence STE 2eme année
Statistiques 2
1. Introduction
2. Coefficient de corrélation PrincipeInterprétation
3. Modèles de régressionRégression linéaireAjustement par un polynômeFonction exponentielleLe coéfficient de détermination
4. Approche non-paramétriqueCoefficient de correlation de Spearman
Plan
Statistiques 3
Méthode et but• 2 variables numériques (quantitatives)• Identifier la nature des variables : indépendante x et dépendante y.• Décrire la relation entre les variables
graphiquement en utilisant une équation
• Utiliser l’équation pour prévoir une valeur yi à partir d’une valeur xi.
• Etablir le degré de fiabilité de l’estimation (relation probabiliste seulement)
La relation entre deux variables peut être :• déterministe (Ceci ne nous concerne pas ici)• probabiliste (C’est ce dont on va parler)
1. Introduction
Statistiques 4
Relation déterministe: La valeur de la variable yy peut être précisement prédite à partir de la valeur de la variable xx.
Exemples: Prix d’une maison et taxe due. Vitesse d’un corps en chute libre et temps.
V=V0+gt V
tV0
1. Introduction
Statistiques 5
Relation probabiliste: La valeur d’une variable yy ne peut pas être précisement prédite à partir de la valeur de la variable xx - à cause d’autres facteurs.
Exemples:
1. Consommation en eau et une populationxx = nombre d’habitantsyy = eau consommée
2. Nombre d’heures passées à réviser un examen et la note obtenue.
xx = heures passées à réviser yy = note obtenue
Regression possible avec une relation probabiliste.
1. Introduction
Statistiques 6
Le coefficient de corrélation est une mesure du degré de corrélation linéaire. En pratique on essaye d’obtenir une estimation (r) à partir d’un échantillon représentatif de la population.
Approche géométrique:
x
y
x
y
Q1
Q3
Q2
Q4
Q1 Q2 Q3 Q4
)( xxi + - - +
)( yyi + + - -
))(( yyxx ii + - + -
2. Coefficient de correlation
Statistiques 7
yyxx i
n
ii
1
Évidemment cette somme dépend de n. On va donc diviser par (n-1).Au fait, pourquoi (n-1) et pas simplement n???
xy
n
iii
sn
yyxxyxCov appelée aussi
1
))((),( 1
Cov(x,y) est la covariance. Elle est utilisée dans de nombreusesméthodes multivariées.
Il y a encore un problème… La covariance dépend fortement des unités de x et de y. Alors que faire...?
est un paramètre intéressant
2. Coefficient de correlation
Statistiques 8
Pour éviter ce problème on va diviser la covariance par l’écart type de x et l’écart type de y. Attention : les données doivent être normalement distribuée (mais nous reviendrons sur ce point…)
22
1
),(
yyxx
yyxxr
ss
s
ss
yxCovr
ii
i
n
ii
yx
xy
yx
Coefficient de corrélation de Bravais-Pearson
Un exemple...
2. Coefficient de correlation
Statistiques 9
Numéro de l'essai i
Masse mi
xi Long. li
yi xxi 2xxi yyi 2yyi ))(( yyxx ii
1 2 42.0 -4.0 16.0 -9.3 86.9 37.28 2 4 48.4 -2.0 4.0 -2.9 8.5 5.84 3 6 51.3 0.0 0.0 0.0 0.0 0 4 8 56.3 2.0 4.0 5.0 24.8 9.96 5 10 58.6 4.0 16.0 7.3 53.0 29.12
n=5 X 6 Y 51.32 0.0 40 0.0 173.2 82.2
987,0
402,173
2,8222
1
yyxx
yyxxr
ii
i
n
ii
2. Coefficient de correlation
Statistiques 10
Balance à ressort
30.0
35.0
40.0
45.0
50.0
55.0
60.0
65.0
0 2 4 6 8 10 12
Masse (kg)
Lo
ngu
eu
r (c
m)
r = 0,987r = 0,987
2. Coefficient de correlation
Statistiques 11
Allons un peu plus loin...
yxxy sss Inégalité de Schwarz:
Donc... 11 ou 1 rr
r = 1
r = -1
r = 0.7 r 0
Liaisons absolues(déterministe)
Liaison stochastique(probabiliste)
Pas de liaison
2. Coefficient de correlation
Statistiques 12
Un exemple:Teneurs en Be, Zn et Sr (ppm)dans l’étang de Thau
Etude des variables deux à deux
2. Coefficient de correlation
Statistiques 13
La matrice de corrélation...
Représentation pratique pour l’exploration
2. Coefficient de correlation
Statistiques 14
2. Coefficient de correlation
Statistiques 15
En pratique attention!!!!!!
Ce coefficient de corrélation doit être manié avec grande précaution
r = 0.93
r = 0
• r donne le degré de liaison linéaire.• Dépendance curvilinéaire forte et r faible dans le 2eme cas.• Le diagramme xy doit donc toujours être examiné en même temps que la valeur de r.
2. Coefficient de correlation
Statistiques 16
r = -0.13 r = 0.19
r = 0.53 r = 0.92
Le coefficient de corrélation peut produire de hautes valeurs si des points isolés sont présents.
2. Coefficient de correlation
Statistiques 17
La corrélation de deux variables log-transformées doit toujoursêtre interprétée avec précaution
r = 0.355
100
50
030 60 90
Zn
Pb
r = 0.784
4.8
3.0
1.22.0 3.0 5.0
ln(Zn)
ln(P
b)
4.0
2. Coefficient de correlation
Statistiques 18
Les coefficients de corrélation pour des données fermées (i.e. %) sontprobablement biaisés!!!
r = -1
100
50
0
Qz (%)
Fld
p (%
)
Pourquoi? La valeur d’une variable aura tendance à affecter les autres.
10050
r = - 0.62
100
50
0
Qz (%)
Fld
p (%
)
10050
Roche ignée avec Roche ignée avec un 3ieme composantun 3ieme composant<50%<50%
Mélange pur Qz - FldpMélange pur Qz - Fldp
2. Coefficient de correlation
Statistiques 19
r = - 0.62
100
50
0
Qz (%)10050
Roche ignée avec Roche ignée avec un 3ieme composantun 3ieme composant<50%<50%
Si l’on ajoute du Qz, le feldspath diminue. Mauvaise interprétation: le Qz se substitue au feldspath!En fait le feldspath est constant mais le volume change
Fld
p (%
)
2. Coefficient de correlation
Statistiques 20
Paleoécologie. Fréquence d’une communauté par m2.Attention. Ce sont des données fermées et une corrélationnégative peut être induite.
Mieux vaut travailler en nombre absolu d’individus.
Ceci n’est malheureusement pas possible en pétrologie.
Autre exemple de données fermées:
2. Coefficient de correlation
Statistiques 21
Encore un autre exemple (données fermées):
Pb, Zn, Cd, Tl (ppm) dans un sédiment.SiO2 varie
La corrélation entre les éléments traces devient positive par dilution avec le SiO2!!
Alors comment faire??
2. Coefficient de correlation
Statistiques 22
2. Coefficient de correlation
A B C A/C B/C 12 50 2 6 25 10 49 6 1,67 8,2 9 46 3 3 15 7 65 20 0,35 3,3 5 37 54 0,09 0,7 11 69 3 3,67 23 9 58 5 1,8 12 8 48 28 0,29 1,7 9 37 55 0,16 0,7 10 51 32 0,31 1,6 12 43 40 0,3 1,1 13 43 2 6,5 22 6 56 17 0,35 3,3 7 76 8 0,88 9,5 8 48 12 0,67 4 13 67 54 0,24 1,2 Moyenne 9,31 52,7 21 ET 2,44 11,5 20 CV 26,2 21,9 94
Quoiqu’il en soit gare aux corrélations entre rapports de variables!
Quand la même variable apparaît dans chacun des rapports…
Quand son coefficient de variation est important face aux autres variables…
Quand les données sont loin d’être normalement distribuées…
Statistiques 23
Au fait, à partir de quelle valeur de r peut-on considérer qu’on a vraisemblablement une corrélation??
0.6 ?0.9 ?
0.4 ?
2. Coefficient de correlation
Statistiques 24
Tests d’hypothèses
Population normale conjointe, hypothèse concernant la valeur de
2
10
1
2
: de Calcul
0: contre 0:
r
nrt
HH
c
si ou si rejette On 2,2/2,2/0 ncnc ttttH
Remarque: un coefficient de corrélation r = 0.4 peut être significatifsi n = 100 mais pas si n = 10.
2. Coefficient de correlation
Statistiques 25
Exemple:Les données Pb(ppm) vs. Zn (ppm) mesurées dans les sols du Derbyshire(n=44) permettent de calculer un coefficient de corrélation r = 0,765.Y-a-t ’il une corrélation significative entre Pb et Zn?
Znet Pb entre ivesignificat ncorrélatio une a y Il :Conclusion
rejetéest donc critique, calculé
2critique 0.05,Pour
7.7765.01
244765.0
1
2
:Test
0: contre 0:
0
22
10
Htt
tr
nrt
HH
c
c
2. Coefficient de correlation
Statistiques 26
Comparaison de deux coefficients de corrélation expérimentaux:Deux valeurs de r obtenues sur deux différents groupes sont-elles différentes?
31
31
calculeOn
:
:
21
21
211
210
nn
ZZZ
H
H
d
)1
1ln(
2
1
r
rZ
Z est la transformée de r par transformation de Fisher
Si –Z<Zd < Zon accepte H0
2. Coefficient de correlation
Quand n1 & n2 sont assez grands (>20):
Zd est censé suivre une loi normale N(0,1)
Statistiques 27
Attention: ces tests sont valides seulement si les données sont prises sans biais dans une population normalement distribuée (au moins raisonnablement) par rapport aux deux variables. Ce n’est pas souvent le cas en géologie ou en environnement!
Une alternative: l’approche non-paramétrique que nous allons voir plus tard.
2. Coefficient de correlation
Statistiques 28
La régression
Une technique statistique pour analyser les relations qui existent parmi les variables.
Modèle de régression linéaire simple.
Equation linéaire décrivant la relation entre une simple variable independante x et une variable dépendante y
2. Analyse de regression
Statistiques 29
Estimer l’équation linéaire qui décrit le mieux la relation entre une variable dépendante (yy) et une variable indépendante (xx).
Exemple Un échantillon aléatoire de 15 appartements vendus à Dijon. Variables (pour chaque appartement): prix de vente (kF) et taille (m2).
Taille (m2) Prix (kF)20,0 225,270,4 725,920,5 296,0etc etc
2. Analyse de regression
Statistiques 30
0
40
80
120
160
0 50 100 150 200 250 300
Taille m2
Pri
x (k
euro
s)
• La relation linéaire apparaît positive mais elle n’est pas parfaite (non déterministe). Il y a un élément du au hasard.
• Modèle probabiliste, avec un terme d’erreur aléatoire qui va compter pour toutes les variables qui ne sont pas dans le modèle. (emplacement, présence de jardins...)
2. Analyse de regression
Statistiques 31
• La droite qui s’ajuste le mieux aux données (best fit) est trouvée par la méthode aux moindres carrés. La méthode minimise la somme des carrés des distances verticales || entre les points et la droite.
iyiy
Droite de régression de y en x
2. Analyse de regression – relation linéaire
Statistiques 32
iii baxy
aléatoireerreur :
pente:
intercept:
teindependan variable:
dépendante variable:
i
i
i
a
b
x
y
Ce sont des paramètres qui s’appliquent à l’équation
s’ajustant le mieux à la population (x,y).
a et b sont les coefficients de la régression
2. Analyse de regression – relation linéaire
Statistiques 33
Un brin de mathématiques…?
2. Analyse de regression – relation linéaire
Statistiques 34
alors...? .possible..petit plus le êtredoit D
2
11
2
2211
2ba,
ba,
)(
:est droite la à écarts des carrés des somme la
,....,1 ,:aux lesliant suivanteéquation l'et
,...,,:nsobservatio aon l' Si
.aux méthode la à correspond 2 critère Le
min .2
min 1.
:éspossibilit Plusieurs
minimiserfaut Il
ii
n
i
n
ii
iiiii
nn
i i
i i
iii
i
axbyD
n iaxbyxy
),y(x),y(x),y (xn
axby
carrés moindres
2. Analyse de regression – relation linéaire
Statistiques 35
bien...ou
0
0
:par donnéessont deet de estimées valeursLes
)(2
)(2
)(
zéro. à égales pose leson et partielles dérivées ...
n
1i
n
1i
1
1
1
2
iii
ii
n
iiii
n
iii
n
iii
axbyx
axby
ba
axbyxa
D
axbyb
D
axbyD
2. Analyse de regression – relation linéaire
Statistiques 36
n
i
inn
i
in
n
ii
n
iii
n
ii
n
ii
n
ii
n
ii
n
iii
n
ii
n
ii
n
ii
n
y
n
yyy
n
x
n
xxx
xaxbyx
xanby
xaxbyx
xanby
1
1
1
1
1
2
11
11
1
2
11
11
...et
...
:part autreD'
dire...-à-estC'
0
0
2. Analyse de regression – relation linéaire
Statistiques 37
xayn
xa
n
yb
s
s
xx
yyxx
n
xx
n
yxyx
a
ii
x
xy
i
ii
ii
iiii
222
2
La droite de régression passe par );( yx
2. Analyse de regression – relation linéaire
Statistiques 38
Ne nous énervons pas!!En fait, ce n’est pas sorcier du tout…
Voyons plutôt un exemple.Cas d’un ressort subissant un allongement sous l’effet d’un poids.
2. Analyse de regression – relation linéaire
Statistiques 39
Numéro de l'essai ‘X’ Masse ‘Y’ Longueur mi2 mili
i mi li
1 2 42.0 4.0 84.0 2 4 48.4 16.0 193.6 3 6 51.3 36.0 307.8 4 8 56.3 64.0 450.4 5 10 58.6 100.0 586.0
n=5
30 im
5,256 il
2202 im
1622 iilm
Balance à ressort
y = 2.055x + 38.99
30.0
35.0
40.0
45.0
50.0
55.0
60.0
65.0
0 2 4 6 8 10 12
Masse (kg)
Long
ueur
(cm
)
38,99
2,055
5
30055,2
5
5,256
5900
220
55,25630
1622
2
2
n
ma
n
lb
n
mm
n
lmlm
a
ii
ii
iiii
2. Analyse de regression – relation linéaire
Statistiques 40
2
2
)(
2
)ˆ(
)xx
n
yy
S(ai
ii
)]();([ )2,2/()2,2/( aStaaSta a nn
L’écart type de la pente a, estimé à partir de l’échantillon est noté S(a):
On peut alors déterminer l’intervalle de confiance de la pente (cf cours L1)
Si 0 apparaît dans cet intervalle, alors la pente ne peut être considérée comme significativement différente de 0. On peut conclure qu’il n’existe pas de corrélation significative entre les deux variables.
C’est l’ordonnée estimée à partir du modèle linéaire:
baxy ii ˆ
2. Analyse de regression – relation linéaire
Statistiques 41
Ceci correspond à la procédure habituelle d’un test d’hypothèses:
0)2,2/(
)2,2/(
1
0
rejèteon alors Si
avec den Comparaiso
)(
0:
0:
Htt
tt
aS
at
aH
aH
nc
nc
c
Autre méthode pour finalement tester l’existence d’une corrélation
2. Analyse de regression – relation linéaire
Statistiques 42
3 méthodes possibles pour déterminer l’existence d’une corrélation entre 2 variables:
1. Calcul de r et test sur r
2. Calcul de l’intervalle de confiance de la pente. 0 appartient-il à cet intervalle?
3. Calcul de la pente et de son écart type, test sur la pente.
Heureusement les trois méthodes aboutissent rigoureusement à la même conclusion!!
2. Analyse de regression – relation linéaire
Statistiques 43
)(
:eststudent de test lepour de valeur La
)]();([
2
)ˆ(
)()(
:est , noté , de estimé écart typeL'
)2,2/()2,2/(
2
2
2
bs
bt
t
bStbbStbb
n
yy
xxn
xbS
S(b)b
c
c
nn
ii
i
i
On peut alors déterminer l’intervalle de confiance de l’ordonnée à l’origine (cf cours L1)
Test sur la table de Student
2. Analyse de regression – relation linéaire
0:
0:
1
0
bH
bH
Statistiques 44
La droite de régression passe par la moyenne de x et la moyenne de y.
La corrélation est significative (de peu)
L’ordonnée à l’origine ne peut pas être considérée comme différente de 0
Soyons honnête, de tels résultats indiquent un piètre analyste
Intervalle de confiance à 95%
2. Analyse de regression – relation linéaire
Statistiques 45
On accepte l’hypothèse nulle H0: b=0
2
2
22
:estéquation l'satisfait qui de valeur La
0
0)(
)(2
: àrapport par dérivant En
)(
ii
iii
i iiii
iiii
iiii
iii
iii
iii
x
yxa
a
xayx
axyx
axyxa
D
a
axyD
axy
axy
a: pente de la droite,pas d’ordonnée à l’origine
2. Analyse de regression – relation linéaire
Statistiques 46
Y s’exprime comme polynôme d’une seconde variable X
carrés moindrespar polynômial Ajustement
:tprécédemen comme On tire2
1
: tdu temps equadratiqufonction uneest corpsun d' chute deh hauteur la :Exemple
...
1
4
1
3
1
2
1
2
1
3
1
2
11
1
2
11
200
2
n
ii
n
ii
n
iii
n
ii
n
ii
n
ii
n
iii
n
ii
n
ii
n
ii
n
ii
n
xcxbxayx
xcxbxayx
xcxbnay
gttvhh
Hxcxbxay
cba ,,
2. Analyse de regression – relation polynomiale
Statistiques 47
yx
yx
yx
h
b
a
xxx
xxx
xxx
yx
xy
y
c
b
a
xxx
xxx
xxn
nnnn
n
n
)1(
1
0
121
21
110
2432
32
2
......
...
............
...
...
n... degré de polynômeun pour et
Ou sous forme matricielle...
Même principe pour les sommes de fonctions trigonométriques
xbxay cossin
2. Analyse de regression – relation polynomiale
Statistiques 48
La fonction exponentielle est très courante en sciences
bxaey Par exemple la décroissance d’un élément radioactif...
tePbtPb 0210210 )(
Si les constantes a et b sont inconnues, on espère pouvoir lesestimer à partir de x et y. Malheureusement l’approche directe fournit des équations insolubles.
Alors… comment faire????
2. Analyse de regression – relation exponentielle
Statistiques 49
Très facile! On transforme l’équation non linéaire en une équationlinéaire. Linéarisation en prenant le logarithme:
bxay lnln
xy en linéairedevient ln
Plus simple encore!! On utilise un papier « semi-log » puisque l’espacement logarithmique des graduations évite le calcul de lny.
Voyons cela sur un exemple...
2. Analyse de regression – relation exponentielle
Statistiques 50
Une population de bactéries décroît exponentiellement:
/0
teNN
Temps ti (jours)
Population Ni Zi = ln Ni
0 153000 11.94 1 137000 11.83 2 128000 11.76
t est le temps et est la vie moyenne de la population. A rapprocher de la demi-vie t1/2; en fait t1/2 = (ln2) .
2. Analyse de regression – relation exponentielle
Statistiques 51
Opération bactéries
125000
130000
135000
140000
145000
150000
155000
0 0.5 1 1.5 2 2.5
Temps (jours)
Po
pu
lati
on
Opération bactéries
y = -0.089x + 11.933
11.7
11.75
11.8
11.85
11.9
11.95
0 0.5 1 1.5 2 2.5
Temps (jours)
Po
pu
lati
on
ln N0 = 11,93 et (-1/ ) = -0.089 j-1
jours
2. Analyse de regression – relation exponentielle
Statistiques 52
Extrêmement facile mais attention quand même…!!!
L’ajustement par moindres carrés de la droite y = ax+b supposeque toutes les mesure y1,…,yn soient également incertaines.
2. Analyse de regression – relation exponentielle
Statistiques 53
2. Analyse de regression – Les autres grands modèles
Statistiques 54
Attention• Les points isolés ont un effet indésirables sur la régression Leur influence doit être testée en les éliminant et en répétant la régression.
• La différence en y entre un point et la droite de régression est connue sous le nom de résidu. La validité de la régression statistique dépend de la distribution des résidus:
1. Les résidus doivent être normalement distribués2. Il ne doit pas y avoir de tendance dans la distribution de variance le long de x.
2. Analyse de regression – Et les résidus…?
Statistiques 55
i
x
Bande incurvée: Relation curvilinéaire. Ajouter des termes polynomiaux!
2. Analyse de regression – Et les résidus…?
Statistiques 56
i
x
Le fuseau: La variance des résidus n’est pas indépendante des valeurs de x. Des corrections doivent être apportées (courbe log. log p.e.)
2. Analyse de regression – Et les résidus…?
Statistiques 57
i
x
Bande oblique: Relation entre les résidus et la variable x. Si x n’est pas dans le modèle, il faudrait l’introduire, ou erreur importante.
2. Analyse de regression – Et les résidus…?
Statistiques 58
i
x
Bande horizontale: les conditions d’application sont suffisamment respectées
2. Analyse de regression – Et les résidus…?
Statistiques 59
y
y
x
Variationinexpliquée
Variationexpliquée
Variationtotale
iy
iy
R2 = Variation expliquée / variation totale
2. Analyse de regression – Le coefficient de détermination
Statistiques 60
222)ˆ( ˆ yyyyyy iiii
Somme des carréstotale (SCtot)
Somme des carrésdes résidus (SCres)
Somme des carrésde la régression (SCreg)
Variation totale = variation inexpliquée + variation expliquée
R2 = Variation expliquée / variation totale
R2 est le coefficient de détermination, proportion de la variationde y qui s’explique par la présence de x. Plus R2 est grand, plus SCres est petit.
2. Analyse de regression – Le coefficient de détermination
21/04/23 Statistiques 61
Comme nous l’avons déjà vu, il est rare en géologie de trouver des variables normalement distribuées.
La corrélation paramétrique est donc particulièrement dangereuse car elle donne de forte corrélation en présence de points isolés.
En conséquence on utilisera plutôt une corrélation de rang.
Coefficient de rang de Spearman- une méthode simple et populaire -
3. Corrélations non-paramétriques – rs de Spearman
21/04/23 Statistiques 62
Echelle de la 1ere variable : ordinaleEchelle de la 2eme variable : ordinale, rapport, intervalle
rs :coefficient de rang (Spearman)
)1(
61
21
2
nn
Dr
n
is
D représente, pour chaque observation, les différences de rang obtenues sur les deux variables.
3. Corrélations non-paramétriques – rs de Spearman
21/04/23 Statistiques 63
Ech. Be Zr Rang Be Rang Zr D*D1 1,71 62,04 5 5 02 1,91 71,50 10 13 93 1,98 68,40 12 11 14 1,74 61,25 7 4 95 1,87 64,16 9 7 46 1,38 58,49 3 3 07 0,99 30,33 1 1 08 1,13 39,55 2 2 09 1,65 64,71 4 8 16
10 2,26 71,47 16 12 1611 1,72 63,14 6 6 012 1,77 67,09 8 9 113 2,31 85,68 17 15 414 2,09 88,52 15 17 415 2,03 88,30 14 16 416 2,02 77,45 13 14 117 1,91 68,20 11 10 1
Somme D*D 70
914.0
)117(17
7061
)1(
61
2
21
2
s
s
n
is
r
r
nn
Dr
Be (ppm)
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4Z
r (p
pm)
20
30
40
50
60
70
80
90
100
3. Corrélations non-paramétriques – rs de Spearman
Un exemple
21/04/23 Statistiques 64
3. Corrélations non-paramétriques – rs de Spearman
21/04/23 Statistiques 65
0:
0:
1
0
s
s
H
H
Deux cas possibles
Si n<20, il existe une table qui donne en fonction de n et , la valeur rs telle que sous H0, on ait P(IRsI>r)=
On rejette donc H0 si IrsI>r
Ici, n=17, rs =0,91>0,5, donc H0 est rejeté, il y a donc une corrélation significative entre Zr et Be au sens de Spearman
3. Corrélations non-paramétriques – rs de Spearman (petits échantillons)
Cette valeur est-elle significative?
(absence de corrélation)
n (nbre de paires) 0.05 0.02 0.01
5 0.95 0,99
6 0.886 0.943 1
7 0.786 0.893 0.929
8 0.738 0.833 0.881
9 0.683 0.783 0.833
10 0.648 0.746 0.794
12 0.591 0.712 0.777
14 0.544 0.645 0.715
16 0.506 0.601 0.665
18 0.475 0.564 0.625
20 0.45 0.534 0.591
21/04/23 Statistiques 66
3. Corrélations non-paramétriques – rs de Spearman (grands échantillons)
Si n>20, on opère de la même façon que pour le coefficient de corrélation linéaire :
2
10
1
2
: de Calcul
0: contre 0:
s
sc
r
nrt
HH
si ou si rejette On 2,2/2,2/0 ncnc ttttH
21/04/23 Statistiques 67
3. Corrélations non-paramétriques – rs de Spearman
ATTENTION : Un rs significatif signifie que les variables sont liées sans savoir de quelle façon!!!
Voyons cela sur quelques exemples…
21/04/23 Statistiques 68
rs=1
3. Corrélations non-paramétriques – rs de Spearman
21/04/23 Statistiques 69
r = 0.88
3. Corrélations non-paramétriques – rs de Spearman
21/04/23 Statistiques 70
r de
Pea
rson
For
tF
aibl
e
Faible Fort
rs de Spearman
3. Corrélations non-paramétriques – rs de Spearman