introduction et concepts de base - e-monsite
TRANSCRIPT
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Introduction et concepts de base Les statistiques sont un ensemble de procédures destinées à traiter des données quantitatives.
Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de décrire les données
recueillies: on parle de statistiques descriptives. Un autre type de procédures vident à vérifier
des hypothèses quant à l'effet de certains facteurs sur les variables mesurées. On parle alors de
statistiques inférentielles. On peut comparer ces deux étapes dans un premier temps à une
enquête policière, destinée à recueillir le maximum d'informations, puis au procès visant à
établir les responsabilités.
Toute étude statistique s'appuie sur des données. Dans le cas ou ces données sont numériques
(95% des cas), on distingue les données discrètes (qui prennent un nombre fini de valeurs :
par ex, le nombre de voitures par famille en France) des données continues (qui prennent des
valeurs quelconques : par ex, la taille des basketteurs).
Dans le cas d'une série discrète, le nombre de fois ou l'on retrouve la même valeur s'appelle
l'effectif de cette valeur. Si cet effectif est exprimé en pourcentage, on parle alors de
fréquence de cette valeur.
Dans le cas d'une série continue, on répartit souvent les données par classes.
Le but des statistiques est d'analyser les données dont on dispose. Pour cela, on peut par
exemple chercher déterminer la moyenne ou la médiane de la série. De tels nombres
permettent notamment de comparer plusieurs séries entre elles. On les appelle indicateurs
statistiques ou paramètres statistiques. On distingue les indicateurs de position (qui proposent
une valeur "centrale" de la série) et les indicateurs de dispersion (qui indiquent si la série est
très regroupée autour de son "centre" ou non).Ainsi, le mode d'une série (valeur qui a le plus
grand effectif de la série) est un indicateur de position. L’étendue de cette série (différence
entre la plus grande et la plus petite valeur) est un indicateur de dispersion. La moyenne et la
médiane sont des indicateurs de position. De plus, lorsque la série est trop importante
(population d'un pays…), on est obligé de faire un sondage, c'est à dire de restreindre l'étude à
un échantillon de cette série. Tout le problème est alors de choisir un échantillon vraiment
représentatif (de taille suffisante et non biaisé) et d'évaluer l'erreur commise par rapport à une
étude qui porterait sur l'ensemble de la série.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
DESCRIPTION DE LA MÉTHODE STATISTIQUE
Identifier le problème (fondamental!) Rassembler les données pertinentes
Recueillir de nouvelles données Classer et synthétiser les données
Présenter les données (de façon réfléchie) Analyser les données
et... Interpréter correctement les résultats obtenus
L'APPROCHE CRITIQUE EN STATISTIQUES
L'obstacle du biais 95% des dentistes recommandent le dentifrice Tresse...
mais si 94% recommandaient un dentifrice quelconque ?!? Les «moyennes» trompeuses
Dans une classe de secondaire I de l'école de La Conception (nord de Montréal) les filles ont, en moyenne, plus d'un enfant (1,2 , i.e. 1 × 12 + 9 × 0)
La dispersion (variance), cette grande oubliée Sur la route de ville Vide, il passe, en moyenne, un seul véhicule par heure.
Un véhicule a passé il y a 5 minutes, alors traversons... Les artistes de la persuasion
(pages suivantes) Post hoc ergo proper hoc (à la suite de cela, donc à cause de cela)
L'espérance de vie a augmenté depuis la découverte du plant de tabac... Les corrélations fallacieuses
Au Québec, il existe une corrélation entre la vente de crème glacée et le nombre de morts par noyade, donc..!
Jouer sur les mots Cette nouvelle marque de beignes contient 20% moins de sucres
et de matières grasses... que si on n'y avait pas fait de trou! La tendance doit se maintenir
La moyenne d'âge lors de la première relation sexuelle diminue de x mois à toutes les décennies... dans 200 ans, l'humain naîtra après sa première relation!
La précision excessive Parmi les 44 étudiants/es d'un cours de statistiques, 2,727% sont nés le 29 février
1967 à 11h38... en fait, il ne s'agit que d'une seule personne Décrire sans inférer (pour un échantillon)
Exemple: les nombreux sondages d'opinions
Inférer sans décrire (sic!) Voir les quelques (!) exemples dans la littérature «scientifique»
ÉVITER LES PIÈGES!
Question à se poser
Quelle est la source de l'information ? Sur quelle preuve se base la source pour appuyer l'information ?
Quelle preuve ou quelle information manque-t-il ? La conclusion est-elle vraisemblable ?
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
CHAPITRE 1 : Statistiques descriptives
1. La mesure.
Puisque les statistiques servent à traiter des données numériques, se pose dans un premier
temps le problème du recueil de ces données, c'est-à-dire le problème de la mesure.
1.1. Mesure, échantillon, population.
Un échantillon est un ensemble de données (et non un ensemble d'individus). Un échantillon
est supposé représentatif d'une population parente de données. Il faut noter que la population
parente n'est pas une population démographique: c'est l'ensemble des mesures possibles,
compte-tenu de l'ensemble des variables incontrôlables. La population parente est donc
toujours infinie.
Une donnée est une information de nature numérique. La mesure va consister à relever des
données numériques constituant l'échantillon. Stevens (1969) a proposé une théorie désormais
classique de la mesure. S'insurgeant contre l'idée ancienne que mesurer, c'est compter, il
estime que le système numérique est un modèle comprenant plusieurs sortes, ou plutôt
plusieurs niveaux de règles.
La mesure est le fait d'attribuer des nombres à des objets ou à des événements, en suivant une
règle rigoureuse. Puisqu'il y a différentes sortes de règles, il y a différentes sortes de mesure.
La mesure sera possible quand il y aura isomorphisme entre les relations empiriques des
objets et les relations formelles des nombres. A cette condition, les secondes servent de
modèle pour les premières.
1.2. Les niveaux de mesure
Stevens décrit quatre niveaux de propriétés empiriques des objets pour lesquelles les nombres
peuvent servir de modèles. Chacune de ces échelles se caractérise, au niveau mathématique,
par le type de transformation que l'on peut opérer sur l'ensemble de l'échelle sans en modifier
la nature.
1.2.1. Echelles nominales
L'identité: les nombres étiquettent des objets ou des classes d'objets. Les seules opérations
empiriques possibles sont les relations d'égalité et d'inégalité entre les objets. La
Classification Périodique des Eléments est une échelle de mesure de ce niveau (échelle
nominale).
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Les échelles nominales ne supportent qu'une substitution bi-univoque: chaque
évaluation est remplacée de manière univoque et exclusive par une autre. c'est ce qui se passe
par exemple lorsque l'on modifie un codage (passer de homme=M et femme =F à homme =1
et femme=2).
L'analyse statistique va principalement porter sur les données de numération: à chaque
classe déterminée par l'échelle nominale est affecté un effectif. Les données de numération
sont toujours des entiers. Les données de numération peuvent être présentées sous forme de
tableaux de contingence.
A B C Total
Effectifs x y z x+y+z
Ces effectifs peuvent être additionnés, et transformés en fréquence (on divise alors
l'effectif d'une classe par le nombre total d'observations. La somme des fréquences est alors
égale à 1. En multipliant une fréquence par 100, on obtient un pourcentage. L'intérêt des
fréquences est de pouvoir faire des comparaisons entre distributions portant sur des effectifs
totaux différents.
1.2.2. Echelles ordinales
L'ordre: les nombres représentent les objets selon leur rang. Les opérations de
détermination du rang (inférieur à, supérieur à) sont possibles. L'échelle de dureté des
minéraux est un exemple de ce type de mesure (échelle ordinale).
Les échelles ordinales supportent toute transformation monotone croissante. Ce type
de fonction respecte l'ordre de données et les propriétés de l'échelle sont conservées.
Les données relevées sont appelées données de rang. On peut noter que les rangs
statistiques sont déterminés de manière à ce que la somme des rangs ne varie pas, même en
cas d'ex-aecquo. Par exemple: rang attribué rang statistique
A 1 1
B 2 2.5
C 2 2.5
D 4 4
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
1.2.3. Echelles d'intervalles
Les intervalles: les nombres peuvent servir à représenter les différences ou les
distances entre les éléments. On obtient des échelles de classement à intervalles égaux. Les
opérations de détermination de l'égalité des intervalles et des différences sont possibles. Les
échelles de température Celsius et Fahrenheit sont de ce niveau.
Les échelles d'intervalles supportent toute transformation affine de type y=ax + b.
Ces transformations conservent la proportionnalité des intervalles et des différences. C'est
une opération de ce type qui est réalisée lorsque l'on convertit des degrés Fahrenheit et degrés
Celsius.
C°=(F° -32) x (5/9)
1.2.4. Echelles de rapport
Les rapports: les nombres peuvent servir à représenter les rapports entre éléments. La
détermination de l'égalité des rapports est possible. Ces échelles se distinguent des
précédentes par l'apparition d'une origine, d'un zéro absolu. L'échelle Kelvin de température
est une échelle de rapport.
Les échelles de rapport ne supportent qu'une multiplication par une constante (y=ax).
Cette transformation ne modifie pas le zéro absolu de l'échelle: l'origine de l'échelle demeure
donc invariante, et la proportionnalité des rapports est maintenue. C'est ce type de
transformation qui est utilisé par exemple pour convertir une mesure des miles aux
kilomètres:
mile=1.61 x km
On peut noter à ce niveau que plus les échelles sont sophistiquées, plus les
transformations permises sont précises. Et la transformation permise à un niveau donnée est
toujours un cas particulier de la fonction permise au niveau inférieur.
Les échelles d'intervalles et de rapport procurent des données dites de scores. Les
données de scores peuvent être représentées de diverses manières:
-le tableau des effectifs (quels effectifs pour chaque niveau de mesure).
-le tableau des groupements en classes d'intervalles égaux -le tableau des proportions -le
tableau des fréquences.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Classe Valeur centrale Effectif Fréquence Pourcentage
xn-xn' X=(xn-xn')/2 n n/N (n*100)/N
-histogramme (effectif) -courbe de fréquence Exercice:
Score Effectif Fréquence Pourcentage
1 2 .076 7.6
2 6 .231 23.1
3 5 .192 19.2
4 3 .115 11.5
5 3 .115 11.5
6 6 .231 23.1
7 1 .038 3.8
26 1 100
*) le recueil des données et leurs présentations
Le plus souvent le recueil des données se fait de façon quelconque, le résultat de ces données
est le plus souvent, représenté par des nombres, ainsi il va falloir donner un certain ordre à ces
nombres. On ordonne le plus souvent du plus petit au plus grand, cette classification donne
une série stat, celle-ci peut être faite sous forme de tableau.
Mesure 1 2 3 4 5 N
Effectif
Note
Effectif
cumulé
Quand une valeur apparaît deux fois pour la même mesure, cela s’appelle l’effectif, c'est
caractéristique des variables.
Autre type de tableau pour des scores d’un questionnaire pour 7 sujets des deux sexes.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Sujets SEXE AGE Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10
S1 F 16 2 6 1 1 5 6 5 2 5 1
S2 F 15 2 6 1 1 6 6 5 2 6 1
S3 F 16 2 5 2 1 5 6 6 5 5 1
S4 G 15 5 6 6 1 5 5 5 5 4 1
S5 G 16 6 2 1 6 2 1 6 3 2 1
S6 G 15 2 5 2 1 2 6 5 2 5 2
Pour rendre compte de ces séries il faut les décrire :
- Forme de la série : symétrie, cloche, Gauss…
- Valeur centrale : mode, moyenne, médiane
- Indice de dispersion : variance, écart type, étendu.
*) les représentations graphiques
2.1. Le diagramme en bâton
Dans le diagramme en dessous réalisé sous Microsoft Excel, on représente les pourcentages
de correction en sport collectif et individuelle pour 3 sujets.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
D'autres représentations sont également possibles
Par exemple: le camembert
2.2 L’histogramme
L'histogramme est une représentation graphique (en tuyaux d'orgue) de la distribution de
fréquences d'une variable quantitative.
Souvent, les «tuyaux» sont accolés pour montrer la continuité de la variable.
La hauteur du tuyau est proportionnelle à la fréquence de la classe correspondante.
2.3 Polygone de fréquences
Le polygone de fréquences est une autre représentation graphique (en ligne brisée) de la
distribution de fréquences d'une variable quantitative.
Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents par un
segment de droite.
Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Effectifs cumulés
L’effectif cumulé sert lors du calcul de la médiane ou du quantilage (quand on découpe les
variables en tranches).
Poids 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77
effectif 1 0 0 1 0 1 1 2 0 0 0 1 0 2 2
effectif
cumulé 1 1 1 2 2 3 4 6 6 6 6 7 7 9 11
Après on précède à un regroupement par variable :
tailles inf. ou égales à 162 167 172
eff cumulé 2 6 11
On procède ainsi par regroupements pour ne pas avoir de trop grands tableaux. L’effectif
correspond au nombre de chaque tranche de la variable ; on peut prendre la valeur en % alors
c’est de la fréquence.
On peut réunir les deux courbes sur le même graphique.
Dans certaines situations, il est plus intéressant de savoir le nombre d'observations se situant au-dessous ou au-dessus de certaines valeurs, plutôt qu'à l'intérieur d'un intervalle donné.
Une simple transformation du tableau de fréquences précédent permet de construire
le tableau de fréquences cumulées suivant :
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Résultat Nombre d’élèves
(fréquence cumulée)
Moins de 50 4
Moins de 60 10
Moins de 70 20
Moins de 80 24
Moins de 90 28
Moins de 100 30
À cette distribution correspond également une représentation graphique appelée parfois ogive.
Une telle figure fournit des données descriptives intéressantes telles que la valeur médiane,
i.e. le point séparant le groupe en deux parties égales.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
SURVOL DES MESURES DE SYNTHÈSE
MESURES DE TENDANCE CENTRALE ° Objectif: résumer en un seul nombre la valeur typique
Moyenne (arithmétique): somme des valeurs divisée par le nombre d'observations Médiane: valeur pour laquelle 50% des mesures sont au-dessous (ou au-dessus)
Mode: valeur observée la plus fréquente (pas nécessairement unique) Graphiquement: supposons que la moyenne de la distribution A
est supérieure à la moyenne de la distribution B
Note importante
Deux distributions peuvent avoir exactement la même moyenne, sans pour autant être identiques.
Elles peuvent différer, par exemple, au plan de l'éparpillement (dispersion) des valeurs autour de la moyenne.
Exemple: l'âge dans la population ou l'âge des universitaires (?)
MESURES DE DISPERSION ° Objectif: quantifier le taux de dispersion des données autour de la valeur centrale
Étendue: différence entre la valeur la plus grande et la valeur la plus petite Écart interquartile: différence entre le premier et le troisième quartile Écart type: mesure de dispersion la plus fréquente (distances au carré) Graphiquement: Supposons que la distribution A et la distribution B
ont la même moyenne, mais que la distribution B possède un taux de dispersion plus grand que la distribution A
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
LA MOYENNE ARITHMÉTIQUE
Définition: la moyenne arithmétique d'un ensemble de données est la somme des valeurs obtenues divisée par le nombre d'observations
La formule générale est
où
μ (mu) = moyenne (d'une population) N = nombre d'unités d'observation
Exemple
LA MÉDIANE Définition: La médiane, notée Md, est la valeur qui sépare une série
d'observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d'observations La formule générale est différente selon que
le nombre d'observations (N) est pair ou impair Si N est impair,
dans le rangement ascendant (ou descendant)
Exemple: Si on a les données suivantes: 34, 37, 40, 41, 44, 44, 45, alors
Si N est pair
la médiane correspond au point milieu (ou la moyenne) des deux observations centrales dans le rangement ascendant (ou descendant)
En formule, soit N = 2K, donc K = N/2; alors
Exemple: Pour les notes du professeur Le compte, il y a N = 30 observations.
Par conséquent, K = 30/2 = 15 et, dans le classement ascendant, la 15e valeur était 65 et la 16e valeur était aussi 65, d'où
LE MODE
Définition: Le mode, noté Mo, est la valeur la plus fréquente dans une série d'observations Note: le mode n'est pas nécessairement unique
Exemples l d é i 6 6 8 8
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
ECHELLE D’INTERVALLE ECHELLE ORDINALE
ECHELLE NOMINALE
Définition : Les intervalles entre 2 nombres qui se suivent sont toujours égaux. Ex : taille, âge, notes (justifier : profs font des moyennes), moyennes (observées/théoriques) résultats test de connaissances, test de lecture, consommation de cigarettes avant/après stage, température, ancienneté, ….
Définition : Ordre hiérarchique entre les variables, attribué en fonction de notre propre subjectivité. RANGS. Ex : score, notes (si pas justifié intervalles inégaux) opinion subjective (hiérarchie), diplôme (si hiérarchie), rangs, un peu, beaucoup, comportement (violence, autonomie …) nombre de livres lus Classer dans différentes catégories (co. échelle nominale) mais hiérarchie entre classe de sujets (ex. ranger par ordre croissant ou décroissant des résultats à un exercice, ordre d’arrivée des étudiants ;…).
Relation d’ordre.
Définition : Pas de hiérarchie quantitative entre les modalités de la variable pas de quantité. Ex : variable nom, sexe, oui/non, réussite/échec, pile/face, nationalité, favorable/peu favorable, jeune/vieux, pour/contre/S.O., formation initiale, diplôme (si pas de hiérarchie), + de 50 ans/- de 50 ans, connaissance bonne ou mauvaise, niveau de formation, … Elle permet le simple dénombrement des sujets selon un critère qualitatif.
Outils : Les moyennes La médiane La loi normale (normalité des distributions) Les intervalles de confiance :
• sur moyenne, • sur %, • sur écart type.
On peut faire des stats (descriptives) inférentielles.
Outils : Médiane qui permet de transformer une donnée d’échelle d’intervalle (ex. 28 ans, 30, 39, 40,…) en une échelle nominale (les – 50 ans et les + 50 ans ou jeune/vieux). C’est une valeur qui occupe la place du milieu lorsqu’on énumère la totalité des valeurs du groupe, soit dans ordre croissant, soit décroissant. ! pas de moyenne car écrase les intervalles qui ne sont pas égaux.
Outils : Pourcentages Histogrammes Secteurs angulaires Effectifs.
Test : Le t de Student Permet de comparer des moyennes (2 observées /1observée +1 théorique) Le r de Bravais Pearson (correlation)
Test : Le U de Mann-Withney (non-paramétrique). Le U de Mann-Withney ne pouvant porter sur des moyennes, nécessite la transformation des données de scores (= notes) en données de rang. Le p de Spearman (correlation) rangs
Test : Le CHI2 : permet de prendre une décision quant au lien qui existerait entre les variables.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Chapitre 2 : Les tests statistiques Introduction : le test statistique donne une règle permettant de décider si l’on peut rejeter une
hypothèse, en fonction des observations relevées sur des échantillons.
Les tests peuvent être classés selon leur finalité, le type et le nombre des variables d’intérêt,
l’existence d’hypothèses a priori sur les distributions des données, le mode de constitution des
échantillons.
Les tests selon leur finalité
La finalité définit l’objectif du test, les hypothèses que l’on veut opposer, l’information que
l’on souhaite extraire des données.
Le test de conformité consiste à confronter un paramètre calculé sur l’échantillon à une
valeur pré-établie. On parle alors de test de conformité à un standard. Les plus connus sont
certainement les tests portant sur la moyenne ou sur les proportions. Par exemple, dans un jeu
de dés à 6 faces, on sait que la face 3 a une probabilité de 1/6 d’apparaître. On demande à un
joueur de lancer (sans précautions particulières) 100 fois le dé, on teste alors si la fréquence
d’apparition de la face 3 est compatible avec la probabilité 1/6. Si ce n’est pas le cas, on peut
se poser des questions sur l’intégrité du dé.
Le test d’adéquation consiste à vérifier la comptabilité des données avec une distribution
choisie a priori. Le test le plus utilisé dans cette optique est le test d’adéquation à la loi
normale.
Le test d’homogénéité (ou de comparaison) consiste à vérifier que K (K >= 2) échantillons
(groupes) proviennent de la même population ou, cela revient à la même chose, que la
distribution de la variable d’intérêt est la même dans les K échantillons.
Le test d’association (ou d’indépendance) consiste à éprouver l’existence d’une liaison entre
2 variables. Les techniques utilisées diffèrent selon que les variables sont qualitatives
nominales, ordinales ou quantitatives.
Les tests selon le type et le nombre de variables
On distingue généralement 3 principaux types de variables. Une variable qualitative
nominale prend un nombre restreint de valeurs (modalités), il n’y a pas d’ordre entre ces
valeurs, l’exemple le plus connu est le sexe, il y a 2 valeurs possibles Homme et Femme. Une
variable qualitative ordinale prend un nombre restreint de valeurs, il y a un ordre entre les
valeurs. Un exemple naturel est la préférence ou la satisfaction : peu satisfait, satisfait, très
satisfait. Il y a un ordre naturel entre les valeurs, mais nous ne pouvons pas quantifier les
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
écarts. Enfin, une variable quantitative prend théoriquement un nombre infini de valeurs,
l’écart entre 2 valeurs a un sens. Un exemple simple serait le poids, la différence de poids
entre 2 personnes est quantifiable, on sait l’interpréter.
Le type de données joue un rôle très important. Il circonscrit le cadre d’application des
techniques. Pour un même objectif, selon le type de données, nous serons emmenés à mettre
en œuvre des tests différents. Par exemple, pour mesurer l’association entre 2 variables : si
elles sont quantitatives, nous utiliserons plutôt le coefficient de corrélation de Pearson ; si
elles sont qualitatives nominales, le coefficient de corrélation n’a pas de sens, on utilisera
plutôt des mesures telles que le V de Cramer ou le t de Tschuprow.
Principalement concernant les tests de conformité et d’homogénéité, on dit que le test est
univarié s’il ne porte que sur une variable d’intérêt (ex. comparer la consommation de
véhicules selon le type de carburant utilisé), il est multivarié s’il met en jeu simultanément
plusieurs variables (ex. la comparaison porte sur la consommation, la quantité de CO2 émise,
la quantité de particules émises, etc.).
Tests paramétriques et tests non paramétriques
On parle de tests paramétriques lorsque l’on stipule que les données sont issues d’une
distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées à
l’aide de paramètres estimés sur l’échantillon, la procédure de test subséquente ne porte alors
que sur ces paramètres. L’hypothèse de normalité sous jacente des données est le plus souvent
utilisée, la moyenne et la variance suffisent pour caractériser complètement la distribution.
Concernant les tests d’homogénéité par exemple, pour éprouver l’égalité des distributions, il
suffira de comparer les moyennes et/ou les variances.
Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des
données. On les qualifie souvent de tests distribution free. L’étape préalable consistant à
estimer les paramètres des distributions avant de procéder au test d’hypothèse proprement dit
n’est plus nécessaire.
Lorsque les données sont quantitatives, les tests non paramétriques transforment les valeurs en
rangs. L’appellation tests de rangs est souvent rencontrée. Lorsque les données sont
qualitatives, seuls les tests non paramétriques sont utilisables.
La distinction paramétrique – non paramétrique est essentielle. Elle est systématiquement
mise en avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse
sur les distributions des données, élargissent le champ d’application des procédures
statistiques. En contrepartie, ils sont moins puissants lorsque ces hypothèses sont compatibles
avec les données.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Démarche scientifique
– Poser une hypothèse
– Conduire une expérience
– Analyser la compatibilité de cette hypothèse avec les observations issues de
l’expérience
Lors de cette démarche il faut distinguer :
• Hypothèse nulle : l’hypothèse dont cherche à savoir si elle peut être rejetée, notée H0
souvent définie comme une absence de différence.
• Hypothèse alternative : hypothèse concurrente, notée H1.
Un test est un mécanisme qui permet de trancher entre deux hypothèses au vu des résultats
d'un échantillon.
Soient H0 et H1, ces deux hypothèses (H0 est appelée hypothèse nulle, H1 hypothèse
alternative), dont une et une seule est vraie. La décision aboutira à choisir H0 ou H1. Il y a
donc 4 cas possibles schématisés dans le tableau suivant avec les probabilités
correspondantes :
Décision \ Vérité H0 H1
H0 1 - α β
H1 α 1 - β
α Et β sont les probabilités d'erreur de première et deuxième espèce :
• α probabilité de choisir H1, alors que H0 est vraie. Autrement dit, si l'on rejette
l'hypothèse vraie, on commet une erreur de première espèce (ou erreur de type I). α
symbolise le seuil de signification. Traditionnellement, on favorise deux seuils : le
premier α = 0.05 correspond à un événement de cinq chances sur cent de se produire,
le second α = 0.01 correspond à une chance sur cent.
• β probabilité de conserver H0 alors que H1 est vraie. Si l'on accepte une hypothèse
fausse alors on commet une erreur de deuxième espèce (ou erreur de type II).
(1-α) est la probabilité de rejeter H1 en ayant raison.
(1 - β) est la probabilité d'opter pour H1 en ayant raison. (1 - β) s'appelle "puissance du
test". Généralement l'hypothèse alternative H1 correspond à l'hypothèse que l'on désire
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
mettre en évidence. De ce fait, (1 - β) est la probabilité d'obtenir le résultat que l'on
souhaite démontrer.
La puissance d’un test statistique, est la probabilité de rejeter l’hypothèse nulle si elle est
fausse.
La puissance (1−β) dépend à la fois :
o de l’hypothèse alternative : plus la différence à mettre en évidence est
importante, meilleure est la puissance du test
o de la taille de l’échantillon : la puissance croît avec le carré de la taille de
l’échantillon
Elle dépend aussi de la variabilité du critère (quantitatif).
2.1 Les tests paramétriques
Un test est dit paramétrique si son objet est de tester certaine hypothèse relative à un ou
plusieurs paramètres d'une variable aléatoire de loi spécifiée ou non. Dans la plupart des cas,
ces tests sont basés sur la considération de la loi normale et supposent donc explicitement
l'existence d'une variable aléatoire de référence X suivant une loi de Laplace-Gauss ou un
effectif important (>30, >40, >50 ?...). La question se pose alors de savoir si les résultats
restent encore valables lorsque X n'est pas normale : si les résultats sont valables, on dit que le
test est robuste. La robustesse d'un test par rapport à un certain modèle est donc la qualité de
rester relativement insensible à certaines modifications du modèle : on constatera que les tests
sur les moyennes sont robustes.
a. Le test de Student Ce test permet de comparer une moyenne d'un échantillon à une valeur donnée, de comparer
les moyennes de deux échantillons indépendants ou de deux échantillons appariés.
L'emploi de ce test reste subordonné en général à deux conditions d'application importantes :
la normalité et le caractère aléatoire et simple des échantillons. La première condition n'est
toutefois pas essentielle lorsque les échantillons ont des effectifs suffisants (en pratique, la
valeur de 30 est souvent retenue) pour assurer la quasi-normalité des distributions
d'échantillonnage des moyennes. En plus, de ces deux conditions, nous devrons supposer,
dans certains tests relatifs aux moyennes, l'égalité des variances des échantillons considérées.
i. Cas d'un seul échantillon Egalement appelé par certains auteurs test de conformité, ce test a pour but de vérifier si
l'échantillon à notre disposition provient bien d'une population avec la moyenne spécifiée, µ0,
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
ou s'il y a une différence significative entre la moyenne de l'échantillon et la moyenne
présumée de la population.
Les hypothèses que l'on souhaite tester sont :
• hypothèse nulle : H0 : µ = µ0
• hypothèse alternative : Elle prend trois formes :
o H1 : µ > µ0 (test unilatéral à droite)
o H1 : µ < µ0 (test unilatéral à gauche)
o H1 : µ ≠ µ0 (test bilatéral symétrique)
ii. Conditions d'application du test de Student
Le caractère de l'échantillon étant supposé aléatoire, seule l'hypothèse de normalité de la
variable X doit être vérifiée par exemple avec le test de Kolmogorov-Smirnov ou plus
simplement graphiquement avec un histogramme ou un diagramme de normalité tel la droite
de Henry (que nous verrons ultérieurement). Cependant, on admet que ceci est vrai pour un
effectif suffisamment important (n > 30).
Calcul :
Soit X une variable aléatoire distribuée selon un loi normale, la variable aléatoire définie ci-
dessus suit une loi de Student avec n - 1 degrés de liberté.
tobs =
Où µ0 est la moyenne de la population spécifiée par H0, est la moyenne de l'échantillon, S²
est la variance de l'échantillon et n la taille de l'échantillon
On compare la valeur calculée de t (tobs) avec la valeur critique appropriée de t avec n - 1
degrés de liberté. On rejette H0 si la valeur absolue de tobs est supérieure à cette valeur
critique.
Les valeurs critiques pour différents degrés de liberté et différents seuils de signification sont
données par la table de Student. Pour un test unilatéral, nous prendrons la valeur tn-1,1-α de la
table et pour un test bilatéral, nous prendrons tn-1,1-α /2. (La notation de t varie selon les
auteurs). Nous pouvons, par exemple, la trouver sous la forme tα (2), n et tα (1), n avec (2) et (1)
correspondant respectivement à un test bilatéral et à un test unilatéral, et n étant le degré de
liberté)
1.1.1.2 Cas de deux échantillons indépendants
Etant donné deux échantillons de taille n1 et n2, peut-on admettre qu'ils ont été prélevés dans
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
une même population relativement à la variable étudiée, ces deux échantillons ayant été
prélevés indépendamment l'un de l'autre ?
Les hypothèses à tester sont :
• hypothèse nulle : H0 : µ1 = µ2
• hypothèse alternative qui prend trois formes :
o H1 : µ1 > µ2 (test unilatéral à droite)
o H1 : µ1 < µ2 (test unilatéral à gauche)
o H1 : µ1 ≠ µ2 (test bilatéral)
Conditions d'application :
• Les deux échantillons sont indépendants entre eux, sont aléatoires et ont n1 et n2 unités
indépendantes. Cette condition est d'ordinaire satisfaite en utilisant une procédure
d'aléatorisation (ou de randomisation). Procédure pour laquelle on affecte au hasard
chaque individu à un groupe expérimental).
• La variable aléatoire suit une loi normale. Ce qui est vrai pour des effectifs supérieurs
à 30.
• Il est aussi nécessaire de vérifier l'égalité des variances des échantillons (grâce au test
de Fisher). Cette condition est indispensable pour des effectifs inégaux.
Calcul :
On calcule la valeur t observé (tobs) qui suit une variable aléatoire de Student à (ν = n1 + n2 -2)
degrés de liberté.
tobs =
où et sont les moyennes des deux échantillons, Sp² la variance commune.
Cette dernière statistique correspond à la variance σ ² de la population parentale. Elle est égale
à :
Sp² = =
Si les effectifs des échantillons sont égaux, la valeur de t devient :
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
tobs =
La valeur de t est comparée à la valeur critique appropriée de t (dans la table de Student) avec
(n1 + n2 - 2) degrés de liberté. On rejette H0 si la valeur absolue de tobs est supérieure à cette
valeur critique. Si le test est unilatéral, nous prendrons la valeur tn1 + n2 - 2,1-α (ou tα (2), ν) de la
table de Student. S'il est bilatéral, nous prendrons la valeur tn1+n2-2,1-α /2 (ou tα (1), ν).
2.1.1.3 Cas de deux échantillons appariés
Le test de Student pour observations pariées sert à comparer les moyennes de deux
populations, dont chaque élément de l'une des populations est mis en relation avec un élément
de l'autre.
Par exemple, il peut s'agir de comparer deux traitements, les données étant considérées
comme des paires d'observations (première observation de la paire recevant le traitement 1 et
deuxième observation recevant le traitement 2).
Aspects mathématiques :
Soit xij l'observation j pour la paire i (j = 1,2 et i = 1,2,...,n). Pour chaque paire d'observations
on calcule la différence di = xi2- xi1
Le test statistique est défini par :
t =
où n est le nombre de paires d'observations, est la moyenne des différences entre les
observations et Sd² la variance.
Le test de Student pour observations pariées est un test bilatéral. Les hypothèses sont :
• H0 : µ1 - µ2 = 0 (il n'y a pas de différence entre les traitements)
• H1 : µ1 - µ2 ≠ 0 (il y a une différence entre les traitements)
On rejette l'hypothèse nulle au seuil de signification α si : |tobs| > tn-1,1-α /2 où tn-1,1-α /2 est la
valeur de la table de Student avec n - 1 degrés de liberté.
Conditions d'application :
• les échantillons ont été tirés aléatoirement
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
• la population des différences doit suivre une loi de Gauss. Cette condition est moins
restrictive que celle de normalité des deux populations.
Puissance du test :
Pour calculer la puissance du test, on utilise la même procédure que pour le cas d'un seul
échantillon en remplaçant par et S² par Sd². ce qui donne l'équation :
tβ (1), ν = - tα (2), ν
2.1.2 Le test de Fisher :
Utilisé pour tester l'égalité de deux variances, il est très sensible à la non-normalité des
échantillons (on suppose aussi que les échantillons sont aléatoires et ont été prélevés
indépendamment les uns des autres dans deux populations). Le principe de ce test est de
calculer le rapport des variances ci-dessous (avec la variance la plus grande au dénominateur)
et de la comparer à la variable donnée par la table de Fisher-Snedecor avec n1 - 1 et n2 - 1
pour paramètres, correspondant aux degrés de liberté.
Fobs =
où n1 et n2 sont les effectifs des deux échantillons et S1² et S2² les variances.
Avec Fobs > 1
si Fobs ≤ F(n1-1,n2-1;1-α ) on accepte l'hypothèse nulle H0 : σ 1² = σ 2² (σ 1² et σ 2² sont les
variances des populations "parentales") sinon on rejette H0.
Remarques :
Pour des effectifs égaux la valeur de F calculée se simplifie :
Fobs =
• Si on examine la table de Fisher, on remarque qu'il est difficile de rejeter l'hypothèse
d'égalité des variances. Par exemple, afin de rejeter l'égalité des variances de deux
échantillons de 20 sujets chacun, le rapport des variances, avec un α de 0.05, doit être
supérieur à 2.12, ce qui correspond à une marge très importante. Autre exemple, pour
2 échantillons de 100 sujets chacun, le rapport doit être supérieur à 1.39, ce qui est
encore très important.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
• Dans le cas d'échantillons non gaussiens, ce test n'est plus valable, mais on a le résultat
capital suivant qui permet de tester µ1 = µ2 : pour n1 et n2 assez grand (> 30), on peut
quand même appliquer le test de Student que σ 1 soit différent ou non de σ 2. Le test
de Student est dit robuste.
2.1.3 Les coefficients de corrélation
1) Le coefficient de corrélation de Bravais Pearson
Il permet de mesurer l'intensité de la liaison entre deux caractères quantitatifs. C'est donc
un paramètre important dans l'analyse des régressions linéaires (simples ou multiples).
Il se calcule à partir de la covariance et des écart-types : r =
Ce coefficient varie entre -1 et +1 :
• une valeur proche de +1 montre une forte liaison entre les deux caractères. La relation
linéaire est ici croissante (c'est-à-dire que les variables varient dans le même sens);
• une valeur proche de -1 montre également une forte liaison mais la relation linéaire
entre les deux caractères est décroissante (les variables varient dans le sens contraire);
• une valeur proche de 0 montre une absence de relation linéaire entre les deux
caractères.
Lorsque r est calculé sur un échantillon, on est amené à tester sa significativité. Pour un
risque d'erreur α fixé, celle-ci varie en fonction du nombre d'individus de la distribution.
Quand ce nombre d'individus augmente, le seuil inférieur de significativité s'abaisse.
La table fournit les valeurs r critiques au-delà desquelles les coefficients de corrélation de
Pearson obtenus sont significatifs. Pour des échantillons de taille n, on prendra (n-2)
comme degré de liberté.
Remarques
Il est fondamental de noter qu'une corrélation significative ne signifie aucunement qu'il
existe une relation de cause à effet entre les deux variables. La corrélation peut en effet
être liée à une troisième variable, qui agit de manière indépendante sur les deux premières.
Pour contrôler l'influence d'autres variables, il est nécessaire de procéder à des
corrélations partielles (voir ci après).
De même, un faible coefficient de corrélation ne signifie pas forcément l'indépendance
des deux caractères. Il se peut que la relation entre ces deux caractères soit non linéaire
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
(elle peut être parabolique, logarithmique ou exponentiel …).
La corrélation est à ce niveau essentiellement descriptive (et non explicative).
2) Le coefficient de détermination r² :
Ce coefficient est le carré du coefficient de corrélation. Il traduit la qualité d'une
régression en résumant la part de l'information totale prise en compte par le modèle de
régression.
r² =
Par exemple, r² = 0.87 : le modèle de régression prend en compte 87% de l'information
contenue dans la distribution.
100% = 87% + 13%
Information totale
de la distribution Y
Information prise en
compte par la régression Information résiduelle
3) Le corrélation multiple :
Le coefficient de corrélation multiple R exprime l'intensité de la liaison entre la variable à
expliquer et l'ensemble des variables explicatives (nommées encore régresseurs).
4) Les corrélations partielles :
Comme énoncé précédemment, cette corrélation exprime la liaison entre deux paramètres, en
contrôlant l'influence d’un troisième paramètre.
Par exemple, on peut rechercher la corrélation entre la taille et le poids pour des sujets d'âge
donné.
Pour trois variables, le coefficient de corrélation partielle peut être calculé à partir des
coefficients de corrélation simple :
r12-3 =
Bien sûr, il est possible de calculer les deux autres coefficients de corrélation partielle r13-2 r23-
1.
Les calculs pour un nombre supérieur à trois variables sont très lourds : l'emploi des
ordinateurs est ici la bienvenue.
Un coefficient de corrélation partielle se teste comme un coefficient de corrélation simple
avec n p1 degrés de liberté.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Ce coefficient est très utile lors des analyses de régressions multiples. Au coefficient de
corrélation multiple, il convient de lui associer les coefficients de corrélation partielle. En
effet, quand les variables explicatives sont corrélées entre elles, il est indispensable de
connaître les coefficients de corrélation partielle entre la variable à expliquer (Y) et chacune
des variables explicatives (X1, X2, X3…Xj). Un coefficient de corrélation partielle entre Y et
un des régresseurs indique l'intensité de la relation spécifique, compte tenu des autres
variables explicatives présentes.
Par exemple, si l'on recherche pour un ensemble de stations (individus), la liaison entre la
production de la biomasse (Y), la pluviosité (X1) et l'ensoleillement (X2), pluviométrie et
ensoleillement étant partiellement liée, il est difficile de connaître le rôle de chacun des deux
facteurs retenus. Le coefficient de corrélation partielle entre Y et X1 indique l'intensité de la
relation entre biomasse et pluviosité, en maintenant l'ensoleillement constant (la variable X2
est prise en compte). Un coefficient de corrélation partielle est donc défini en fonction des
autres régresseurs.
5) Comparaison de coefficients de corrélation de Bravais - Pearson :
La comparaison de coefficients de corrélation n'est possible que si ces coefficients suivent une
distribution normale. Il est donc nécessaire, dans un premier temps, de normaliser les
coefficients de corrélation en utilisant la transformation de Fisher. On applique la formule :
z =
Alors que r varie de -1 à +1, z varie entre 0 et ∞.
Cette transformation normalise les coefficients de corrélation mais présente un autre avantage:
elle permet de stabiliser la variance de la distribution initiale.
Pour comparer deux coefficients de corrélation, on calcule : Z = où
=
n1 et n2 étant les effectifs de chacun des échantillons impliqués dans le calcul des coefficients
de corrélation.
Si n1 = n2 alors =
La valeur de Z suit une distribution de Student. Comme pour une comparaison de deux
moyennes, si on choisit un test bilatéral, l'hypothèse nulle correspond à r1= r2 et l'hypothèse
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
alternative à r1 ≠ r2 . On apprécie la signification de la valeur de Z avec celle lue dans la table
de Student (Zα (2) = tα (2), ∞ ). Ici, le degré de liberté est égal à l'infini.
2.1.4 Le test d'indépendance du chi carré :
Le test d'indépendance du chi-carré vise à déterminer si deux variables observées sur un
échantillon sont indépendantes ou non. Les variables étudiées sont des variables qualitatives
catégorielles.
Le test d'indépendance s'effectue sur la base d'une table de contingence.
2.2 Les tests non paramétriques :
Un test non paramétrique est un test d'hypothèse pour lequel il n'est pas nécessaire de
spécifier la forme de la distribution de la population étudiée. Il faut cependant en général que
les observations soient indépendantes, c'est-à-dire que la sélection d'un quelconque individu
dans la population en vue de former l'échantillon ne doit pas influencer le choix des autres
individus.
Les méthodes non paramétriques requièrent peu d'hypothèses concernant la population
étudiée. Elles ignorent notamment l'hypothèse classique de la normalité de la population.
Ces tests non paramétriques peuvent être appliqués à de petits échantillons.
Ils peuvent s'appliquer à des caractères qualitatifs, à des grandeurs de mesure, à des rangs de
classement ...
Ils peuvent s'appliquer à des données incomplètes ou imprécises.
Des recherches théoriques ont montré que l'efficacité des tests non paramétriques n'est que
légèrement inférieure à celle de leurs équivalents paramétriques quand la distribution de la
population étudiée est spécifiée, par exemple la loi normale. Elle est en revanche supérieure à
celle des tests paramétriques quand la distribution de la population dévie sensiblement de la
distribution spécifiée (normale).
2.2.1 Méthodes graphiques et tests statistiques permettant de vérifier la normalité d'un
échantillon
Rappels : La loi normale, ou Loi de Gauss ou encore de Laplace-Gauss est la loi d'une
variable X continue, variant de - ∞ à + ∞ , dont la densité de probabilité f(x) est :
f(x) =
La loi normale dépend de deux paramètres : la moyenne m et l'écart-type σ .
La courbe représentative de f(x) est "la courbe en cloche", symétrique par rapport à x = m.
Cette loi normale est notée N (m, σ ). La fonction de répartition est :
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
F(x) =
Toute loi normale N (m, σ ) se ramène par le changement de variable à une loi normale de
moyenne nulle et u =
D’écart-type unité, dite loi normale réduite N (0, 1) dont les fonctions de densité de probabilité f(u) et
de répartition F(u) sont :
f(u) = et F(u) =
Grâce aux tables de la loi normale réduite, il est possible de répondre à toutes les questions
que l'on peut se poser à propos d'une loi normale N (m, σ) quelconque.
On peut ainsi déterminer la probabilité P pour que la variable X soit comprise dans un certain
intervalle, en tirant partie de la formule résultant du changement de variable
u = avec u1 = et u2 =
P(x1 < X ≤ x2) = F(x2) - F(x1) = F(u2) - F(u1)
La symétrie de la fonction f(x) permet de simplifier la table donnant les valeurs F(u) en
retenant seulement les valeurs pour u ≥ 0 de sorte que pour une valeur négative "-u1", on a :
F (-u1) = 1 - F(u1)
2.2.1.1 La droite de Henry :
C'est une procédure pratique et rapide, permettant de vérifier la présomption de normalité
pour une population dont on observe un échantillon.
Cette procédure graphique ne constitue pas, à proprement parler, un test statistique.
Néanmoins, le tracé d'un graphique de Henry peut suffire dans de nombreux cas où l'on doit
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
s'assurer de la normalité d'une distribution d'échantillonnage.
Le principe de la méthode repose sur la liaison linéaire entre une variable normale x
(moyenne m, écart-type σ ) et la variable réduite u (on rappelle que u = ).
2.2.1.2 Les tests de normalité
La plupart des méthodes de test paramétriques requièrent la normalité des données. Il est donc
important de disposer d'une méthode permettant de vérifier cette normalité. Une approche
élégante est le test de conformité de Kolmogorov-Smirnov.
Ce test non paramétrique consiste à comparer la distribution de fréquences relatives cumulées
d'une variable observée avec la distribution théorique que cette variable aurait si elle était
distribuée normalement. On superpose les deux distributions, on cherche la classe où l'écart
entre la distribution théorique et la distribution observée est le plus grand, et on vérifie (dans
une table conçue à cet effet ou en calculant directement la valeur critique Dα, voir plus bas) si
cet écart est significativement grand, c'est-à-dire si l'hypothèse de normalité peut être rejetée
au seuil considéré.
L'idée est que, dans une distribution relative cumulée observée, chaque classe peut diverger
un peu (en plus ou en moins) par rapport au niveau qui serait le sien sous une distribution
normale, mais si une classe est particulièrement éloignée de sa position théorique, ça signifie
qu'une ou plusieurs autres le sont aussi (dans l'autre sens), ce qui veut dire que c'est l'ensemble
de la distribution qui n'est pas conforme à la loi normale.
Remarque: les premières tables de Kolmogorov-Smirnov se basaient sur le fait qu'on
connaissait les vrais paramètres de la distribution théorique (moyenne et écart-type). Ce n'est
pratiquement jamais le cas, et en cas de calcul fondé sur des paramètres estimés à partir des
données, les tables originales sont trop conservatrices (on accepte trop souvent l'hypothèse
nulle de normalité). Liliefors (1967), puis Stephens (1974) ont proposé des tables corrigées.
Cependant, il est facile de calculer soi-même les valeurs critiques, de sorte qu'on peut
aisément se passer de tables de référence.
Calcul :
Les étapes de calcul (détaillées par Scherrer) sont les suivantes:
1 Calculer les fréquences relatives cumulées de la distribution observée.
2 Calculer la distribution de fréquences relatives cumulées qu'aurait une variable possédant
la même moyenne et le même écart-type que la distribution réelle, mais qui serait, elle,
distribuée normalement.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
3 Pour chaque classe, soustraire la fréquence cumulée observée de la fréquence cumulée
théorique, et chercher la plus grande valeur absolue de la série.
4 Trouver la valeur critique Dα au seuil choisi (table ou calcul).
5 Comparer la valeur obtenue en 3 (D observé) avec celle obtenue en 4 (Dα). Si le D
observé est plus grand ou égal à Dα, on rejette l'hypothèse nulle de normalité au seuil choisi.
Calcul de la valeur critique (Dα): on trouve une table de valeurs corrigées selon Liliefors
(1967) et Stephens (1974) chez Legendre et Legendre (1998), p. 834 (attention, avant-dernière
colonne fausse). Mais si n>50 il est facile de calculer soi-même les valeurs critiques par les
formules suivantes:
• pour α = 0.05: D0.05
= 0.895/S
• pour α = 0.01: D0.01
= 1.035/S
Où S = n − 0.01 + 0.85
n étant le nombre d'individus (et non n de classes).
On trouvera dans un document annexe des indications résumées pour le calcul manuel du test
de Kolmogorov-Smirnov pour données groupées en classes, basées sur le tableau de Scherrer
2007 p. 640.
Test de Kolmogorov-Smirnov pour données non groupées en classes
Le test de Kolmogorov-Smirnov peut aussi s'appliquer à de petits échantillons, sans avoir à
regrouper les données en classes. Le développement est donné par Sokal & Rohlf (1981, p.
716).
Dans ce cas, chaque observation représente une "classe" à elle seule (une marche dans
l'histogramme de fréquences cumulées). L'échelle de la variable est reportée en abscisse, de
sorte que c'est la largeur des marches qui varie en fonction de la valeur prise par la variable
dans chaque observation (les marches ont toutes la même hauteur).
L'exemple de Sokal et Rohlf montre les masses en grammes de 12 crabes. Les observations
sont placées par ordre croissant de masse. La figure et le tableau de données, avec des
commentaires en surimpression, sont fournis dans deux documents séparés. Les "marches
d'escalier" représentent les données observées, la courbe continue représente la fonction
attendue en cas de normalité.
Les calculs visent à trouver l'écart le plus grand entre les données observées et attendues. On
doit pour ce faire calculer les écarts audessus (d+) et en-dessous (d
–) de la courbe.
Les étapes de calcul sont les suivantes:
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
• Classement des données brutes par ordre croissant.
• Centrage-réduction des données brutes (on obtient les zi).
• Recherche, dans la table IV de Scherrer de l'aire de la courbe normale centrée-réduite
correspondant aux valeurs zi ci-dessus.
• Calcul des fréquences observées cumulées (voir col. 4 du tableau).
• Calcul des différences absolues.
• Comparaison de la plus grande valeur trouvée avec le D critique Dα .
Remarque: il existe d'autres tests de normalité que celui de Kolmogorov-Smirnov,
notamment celui de Shapiro-Wilk. Plusieurs études, rapportées par Legendre et Legendre
(1998, p.183), ont tenté de déterminer lequel était le meilleur. Selon Dutilleul & Legendre
(1992), les tests de Kolmogorov-Smirnov et Shapiro-Wilk se comportent bien dans la majorité
des situations. Le test de Kolmogorov-Smirnov est, en particulier, robuste en présence
d'autocorrélation spatiale.
Test de Shapiro-Wilk
Ce test est une très bonne alternative au test de Kolmogorov-Smirnov. La théorie de ce test est
présentée par Legendre & Legendre (1998) p. 181. Elle ne fait pas partie de la matière du
cours. En quelques phrases, le test consiste à mesurer la conformité de la distribution observée
avec une distribution normale théorique, sur une représentation permettant de visualiser la
distribution de fréquence cumulée normale comme une droite (graphique à échelle
fonctionnelle normale ou probit).
2.2.2 Le test de Mann Whitney
C'est un test non-paramétrique qui permet de tester les moyennes de deux échantillons
indépendants. La réalisation du test est basée sur le classement dans un ordre croissant de
l'ensemble des observations. Ici, ce n'est donc pas indispensable que les échantillons suivent
une distribution normale : des distributions symétriques suffisent à valider le test. Ce test est
un cas particulier du test de Kruskall-Wallis.
2.2.3 Le test de Wilcoxon
C'est aussi un test sur les rangs mais il permet de tester les moyennes de deux échantillons
associés par paires. Là aussi, des distributions symétriques suffisent. Ce test est un cas
particulier du test de Friedman.
2.2.4 Le test de Kruskall Wallis
Ce test est préféré à l'analyse de variance à un facteur lorsque les hypothèses de normalité des
différents échantillons ne sont pas respectées. Il vise à tester l'égalité de plusieurs populations
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
mais indépendantes. C'est toujours un test sur les rangs comme l'est aussi le test suivant.
2.2.5 Le test de Friedman
Ce test est utilisé pour tester l'égalité de plusieurs populations appariées lorsque l'analyse de
variance ne peut être utilisée toujours pour des raisons d'hypothèses de normalité non
respectées ou de faibles effectifs.
2.2.6 Le test du coefficient de corrélation de Spearman
Il correspond à l'équivalent non-paramétrique du test basé sur le coefficient de corrélation de
Pearson et est également un test sur les rangs.
Les coefficients de corrélation des rangs sont très utiles pour tester l'indépendance de deux
variables non normales ou lorsque l'échantillon est petit : on sait en effet qu'on ne peut
appliquer le test du coefficient de corrélation linéaire de Pearson. Les tests de corrélation sont
alors les seuls applicables, car ils ne dépendent pas de la distribution normale.
De plus ils sont robustes car insensibles à des valeurs aberrantes.
Bien sûr ces tests peuvent être appliqués dans le cas de variables ordinales.
La table de Spearman fournit les valeurs critiques au-delà desquelles les coefficients de
corrélation de Spearman obtenus sont significatifs. Pour des échantillons de taille n, on
prendra n comme degrés de liberté.
2.2.7 Le test de corrélation des rangs de Kendall
C'est l'équivalent du test du coefficient de corrélation de Spearman mais pour des observations appariées.
2. L'analyse de variance (ou Anova) L'analyse de variance (ANOVA pour Analysis Of Variance) regroupe un ensemble de
techniques de tests et d'estimation visant à optimiser des protocoles expérimentaux pour
individualiser l'influence de différents facteurs sur un paramètre à mesurer et revient dans le
cas simple à comparer plusieurs moyennes d'échantillons gaussiens.
Ces différentes techniques sont le reflet formel de plans d'expérience conçus préalablement et
pouvant être diversifiés à l'infini au gré de l'astuce des expérimentateurs. De ce fait, il existe
différentes techniques d'analyse de variance. Citons quelques exemples typiques :
• Analyse de variance à un facteur de variabilité, en principe la situation la plus simple;
• Analyse de variance à deux facteurs de variabilité;
• Méthode des blocs;
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
• Méthode dont le plan expérimental utilise des carrés latins;
• Analyse de variance sur des mesures répétées.
Les variables qualitatives susceptibles d'influer sur la distribution de la variable numérique
observée sont appelées "facteurs de variabilité" et leurs modalités "niveaux". Lorsqu'il y a
plusieurs facteurs, une combinaison de niveaux est un "traitement".
2.1 L'analyse de variance à un facteur de variabilité:
Il s'agit ici d'étudier l'influence d'un seul facteur de variabilité sur un paramètre quantitatif, ce
qui revient à comparer les moyennes de plusieurs populations supposées normales et de même
variance à partir d'échantillons aléatoires simples et indépendants les uns des autres. Cette
analyse peut être considérée comme une généralisation du test de Student.
Pourquoi délaisser le test de Student : si l'on compare toutes les moyennes entre elles, il est
nécessaire de réaliser p(p-1)/2 tests. Chacun de ces tests étant susceptibles de conclure de
façon non appropriée à une différence significative, le risque global de trouver une telle
différence à tort devient bien supérieur au 5% que l'on octroie habituellement.
Démonstration
• Différence entre erreur de type I par comparaison et erreur de type I par famille de
comparaisons :
Pour la comparaison de deux échantillons, la probabilité de ne pas commettre d'erreur
de type I vaut au seuil de .05 :
(1 - .05) = .95
• Pour trois échantillons, si on veut faire toutes les comparaisons deux à deux il faut
faire trois tests. La probabilité de ne pas commettre d'erreur de type I sur les trois
comparaisons s'obtient par le produit des probabilités, soit :
.95 * .95 * .95 = .953 = 0.86
• De manière plus générale pour k épreuves indépendantes chacune évaluées avec un
seuil α , la probabilité de ne pas commettre d'erreur de type I sur cette famille sera
donnée par la formule : (1 - α )k avec k, nombre de comparaisons par paires.
Par conséquent, la probabilité de commettre au moins une erreur de type I sur la
famille de comparaisons (chacune évaluée au seuil α) s'obtient par : 1 - 0.86 = 0.14,
plus généralement par :
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
1 - (1 - α )k.
• Alors que nous avons 5 chances sur 100 de rejeter l'hypothèse nulle à tort pour une
comparaison, nous avons 14 chances sur 100 de rejeter à tort l'hypothèse nulle au
moins une fois pour une famille de 3 comparaisons.
Cet exemple montre qu'il faut distinguer, pour les comparaisons analytiques, 2
acceptions du seuil α :
d'une part, la probabilité de commettre une erreur de type I pour une comparaison;
et d'autre part, la probabilité de commettre au moins une erreur de type I sur une
famille de comparaisons.
p moyennesk comparaisons
par paires .05 .01
2
3
4
5
6
10
1
3
6
10
15
45
.05
.14
.26
.40
.54
.90
.01
.03
.06
.10
.14
.36
Il est donc indispensable d'utiliser une analyse de variance qui permet de réduire ce risque
d'erreur.
Procédure d'une analyse de variance:
La comparaison des moyennes se fait en deux étapes :
• un premier test permet d'accepter ou de rejeter l'hypothèse d'une égalité globale des
moyennes, en d'autres termes, s'il existe ou non un effet groupe;
• si cette hypothèse est rejetée, il est ensuite possible de rechercher dans quelle
configuration se situent les moyennes les unes par rapport aux autres. Il est donc
nécessaire de faire une étude des contrastes (tests post-hoc) pour localiser avec
précision les différences. Il n'existe malheureusement pas d'unanimité sur la conduite à
tenir pour une telle étude.
Conditions nécessaires à la validité de l'analyse de variance :
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
• nous supposerons que les populations sont normales et de même écart-type σ.
• nous admettrons que les échantillons sont aléatoires, simples et indépendants les uns
des autres. Autrement dit, les différentes observations sont indépendantes les unes aux
autres aussi bien à l'intérieur des groupes expérimentaux qu'entre les groupes.
Rappelons qu'un histogramme ou un diagramme de normalité tel la droite de Henry peut
suffire à vérifier le bien fondé des conditions de normalité.
La dernière condition est d'ordinaire satisfaite en utilisant une procédure "d'aléatorisation" (ou
de randomisation). Procédure pour laquelle on affecte au hasard chaque individu à un groupe
expérimental.
En ce qui concerne l'hypothèse de normalité, des études ont permis de conclure que l'analyse
de variance est peu sensible, dans l'ensemble, à la non-normalité des populations considérées.
Il suffit en pratique d'éviter d'employer l'analyse de variance lorsque les distributions des
populations parents sont très différentes des distributions normales (distributions en i ou en j
par exemple), et lorsque les distributions sont de formes fortes différentes d'une population à
l'autre (distribution en cloche à dissymétrie de sens opposés par exemple), surtout pour de
petits échantillons.
De même, l'hypothèse des variances ou hypothèse d'homoscédasticité est d'importance
relativement secondaire lorsque les effectifs des échantillons sont tous égaux. Dans ces
conditions, l'analyse de variance est, comme pour le test de Student, une méthode robuste, tant
en ce qui concerne la normalité qu'au point de vue de l'égalité des variances.
Il n'en est cependant pas ainsi quand les effectifs des échantillons sont variables. Le risque de
première espèce peut alors être influencé considérablement par une inégalité des variances,
surtout lorsque les échantillons d'effectifs les plus réduits correspondent aux populations de
variances maximums.
Quand certaines des conditions d'application sont loin d'être satisfaites, on peut tout d'abord
essayer de s'en rapprocher en effectuant l'une ou l'autre transformation des variables :
certaines de ces transformations permettent en effet de normaliser dans une certaine mesure
les distributions et de stabiliser leurs variances. Si cette façon ne donne pas satisfaction, on
peut aussi utiliser des tests non paramétriques, qui ne sont pas soumis à de telles restrictions
en ce qui concerne leurs conditions d'utilisation.
Rappels : principes et réalisation d'une analyse de variance
Désignons par xik les différentes valeurs observées, le symbole xik représentant d'une manière
générale la kème observation (k = 1, ..., ni) de l'échantillon extrait de la ième population (i = 1,
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
..., p). Et désignons respectivement par i et les moyennes des différents échantillons et de
la moyenne générale :
- Le modèle observé de l'analyse de variance à un facteur de classification s'écrit pour chaque
valeur observée xik :
xik - = ( i - ) + (xik - i) (1)
variation totale = variation factorielle + variation résiduelle
Cette relation signifie que les écarts par rapport à la moyenne générale (variation totale) se
divisent en deux composantes : les écarts des moyennes des échantillons par rapport à la
moyenne générale (variation factorielle) et les écarts existant à l'intérieur des échantillons
(variation résiduelle).
Le modèle théorique de l'analyse de variance s'écrira :
(Xik - m) = (mi - m) + (Xik - mi)
ou Xik = m + ai + ε ik
avec Xik : représente la variable dépendante, m : la moyenne générale de la population
parentale, elle est estimée par , la moyenne de l'ensemble des échantillons ; ai : les écarts
factoriels, ai = mi - m, existant entre les moyennes théoriques mi des différentes populations
(ces moyennes mi sont estimées par les moyennes i des échantillons) et la moyenne m de la
population parentale. Les quantités ai sont souvent appelées effets du facteur contrôlé ou
effets principaux ; ε ik : les écarts résiduels (ε ik = xik - mi). ε ik correspond à l'erreur
expérimentale de l'observation xik. Ils suivent une distribution de Gauss N (0, σ )
Et l'hypothèse nulle Ho à tester se présente sous la forme :
• Ho : m1 = m2 = ... = mi = ... = mp = m
• ou Ho : (m - m1) = (m - m2) = ... = (m - mi) = ... = (m - mp) = 0
• ou Ho : a1 = a2 = ... = ai = ... = ap = 0
Si les écarts factoriels (= effets principaux) sont nuls alors il n'existe pas d'effet groupe.
Cette hypothèse est testée après avoir calculée la valeur F de Fisher-Snedecor et comparée à
une valeur théorique trouvée dans la table de Fisher-Snedecor. Cette valeur F se calcule de la
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
manière suivante :
- En élevant au carré les deux membres de l'identité (1) et en les sommant pour toutes les
valeurs observées, on obtient l'équation d'analyse de variance :
(xik - )² = ( i - )² + (xik - i)²
SCEt = SCEa + SCEr
La somme des carrés des écarts totale est divisée en deux composantes additives : une somme
des carrés des écarts factorielle ou entre échantillons et une somme des carrés des écarts
résiduelle ou dans les échantillons.
• Le nombre de degrés de liberté se décompose comme suit : n - 1 = (p - 1) + (n - p)
• Les carrés moyens concernant la variation totale sont égaux à : CMt = SCEt / (n - 1)
Les carrés moyens concernant la variation factorielle sont égaux à : CMa = SCEa / (p - 1)
Les carrés moyens concernant la variation résiduelle sont égaux à : CMr = SCEr / (n - p).
Nous verrons ci-après que cette valeur intervient dans la méthode de la plus petite différence
significative.
Le rapport CMa / CMr correspond à la valeur Fobservée. C'est aussi le rapport
C'est ce rapport qui est comparé à la valeur Fthéorique lue dans la table de Fisher-Snedecor avec
p - 1 et n - p degrés de liberté.
Tableau récapitulatif :
Variation Totale Variation factorielle Variation résiduelle
Modèle observé xik - = i - + Xik - i
Equation d'analyse de variance (xik - )²
(ou SCEt)
= ( i - )²
(ou SCEa)
+ (xik - i)²
(ou SCEr)
Nombre de degrés de liberté n – 1 = p – 1 + n – p
Carrés moyens SCEt / (n - 1)
(ou CMt)
SCEa / (p - 1)
(ou CMa)
SCEr / (n - p)
(ou CMr)
Modèle théorique Xik – m = mi – m + Xik - mi
F observé F = CMa / CMr
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Remarques :
Dans une analyse de variance, un facteur peut être à effet fixe ou à effet aléatoire.
Un facteur à effet fixe est un facteur dont les modalités ne changent pas quand l'expérience
considérée est réalisée à plusieurs reprises. Si, par exemple, on compare quatre variétés de
maïs cultivées chacune sur six parcelles de terre; dans une telle situation, le facteur "variété"
est à effet fixe, car si l'on désire dupliquer l'expérience, cela n'a pas de sens de modifier les
variétés de maïs à comparer. A l'opposé, les six parcelles de terre étant tirées au sort parmi un
vaste lot de terres, on peut imaginer qu'une nouvelle expérience conduise à une nouveau
tirage au sort, les parcelles ne seraient nécessairement plus les identiques... Dans un tel cas, le
facteur "parcelle" est, par définition, aléatoire. On pourrait néanmoins tout aussi bien décider
de conserver les six parcelles retenues pour la première expérience, le facteur "parcelle" serait
alors fixe, au même titre que le facteur "variété".
De ce fait, il existe deux modèles :
Modèle I : ANOVA à un facteur fixe
Modèle II : ANOVA à un facteur aléatoire
Dans le cas de l'analyse de variance à un facteur, la distinction entre ces deux modèles n'est
pas essentielle. Par contre, elle l'est lors des analyses de variance à deux facteurs.
Puissance de l'analyse de variance à un facteur :
Si l'ANOVA montre qu'il n'y a pas d'effet du facteur étudié, il peut être utile de connaître la
probabilité de commettre une erreur de type II (β ).
Le calcul de la puissance se fait en deux temps : le calcul du paramètre φ , puis la consultation
des graphes de Hartley et Pearson.
φ =
avec p : nombre de populations.
Exemple numérique :
p = 3 n1 = n2 = 4 n3 = 5
H0 : μ 1 = μ 2 = μ 3
Formes de variations Somme des carrés Degrés de liberté Carrés moyens
Totale 26.9231 12
Factorielle 10.3721 2 5.1866
Résiduelle 16.5500 10 1.6550
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
F = 3.13 F0.05(1), 2, 10 = 4.10 H0 non rejetée, la puissance peut être calculée :
φ = = 1.19
avec p = 3, ν 1 = 2 et ν 2 = 10, on lit dans les graphes de Hartley et Pearson pour φ = 1.19 : 1 -
β = 0.33. Donc il y a 67 % de chances de commettre une erreur de type II (Rappelons que β
est la probabilité d'accepter l'hypothèse nulle alors que c'est l'hypothèse alternative qui est
vraie.). Comparaisons de plusieurs moyennes :
Rappelons que les comparaisons de plusieurs moyennes (c'est-à-dire les tests post hoc) ne
peuvent être réalisées que si l'analyse de variance montre un effet significatif du facteur
étudié.
Comme précisé précédemment il n'existe pas de méthodes "idéales". Plusieurs permettent
d'effectuer toutes les comparaisons de moyenne deux à deux, ce sont celles de :
1. Least Significative Difference Fisher (LSD)
2. Bonferonni
3. Newman-Keuls
4. Tukey
5. Duncan
Dans les suivantes, seules une partie de l'ensemble des comparaisons de moyenne deux à deux
seront effectuées.
1. Dunnet
2. Méthode de Gupta et Sobel
3. Méthode des contrastes par Scheffé
Dans l'exposé des différentes méthodes de comparaison, nous supposerons toujours que les
conditions de base de l'analyse de variance sont satisfaites tant en ce qui concerne le caractère
aléatoire et simple des échantillons que la normalité et l'égalité des variances des populations
parents. Cette dernière condition s'avère particulièrement importante dans les problèmes de
comparaisons multiples. Nous supposerons en outre, généralement, que les échantillons
considérés sont tous de même effectif.
2.1.1 - le test Least Significative Difference (LSD)
Cette méthode permet de comparer toutes les moyennes deux à deux grâce au test de Student.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
On rappelle que tobs = ou =
Toutefois, puisqu'en réalisant l'analyse de variance, on a supposé que les variances de toutes
les populations étaient égales, il ne se justifie pas de rechercher pour chacune de ces
comparaisons une nouvelle estimation de la variance commune. Il est préférable d'employer
dans tous les cas l'estimation globale fournie par le carré moyen résiduel (CMr).
D'autre part, lorsque les effectifs sont égaux, au lieu de calculer les p(p - 1)/2 valeurs de tobs et
de rejeter l'hypothèse d'égalité des moyennes chaque fois que :
tobs = ≥ t1 - α /2 , il est plus facile de calculer une fois pour toutes la quantité : t1 - α /2
,
et de rejeter l'hypothèse d'égalité des moyennes chaque fois que la différence | i - j | est
supérieure ou égale à cette quantité. Cette expression est appelée la plus petite différence
significative.
Inconvénient de la méthode : cette approche s'appuie sur le test de Student. Or, comme nous
l'avons dit dans l'introduction relative à l'analyse de variance à un facteur, si l'on compare
toutes les moyennes entre elles, il est nécessaire de réaliser p(p-1)/2 tests. Et donc, chacun de
ces tests étant susceptibles de conclure de façon non appropriée à une différence significative,
le risque global de trouver une telle différence à tort devient bien supérieur au 5% que l'on
octroie habituellement.
Il est donc indispensable d'utiliser d'autres méthodes qui permettent de réduire ce risque
d'erreur. Plusieurs méthodes ont été proposées par différents auteurs : Bonferonni, Newman-
Keuls, Tukey, Duncan pour palier cet inconvénient.
2.1.2 - le test de Bonferonni :
Appelé aussi "test du t-corrigé", le test de Bonferonni permet de réaliser toutes les
comparaisons deux à deux des moyennes c'est-à-dire comparaisons avec p
populations groupes (ou p niveaux) en respectant globalement le risque α choisi : chacune des
comparaisons est effectuée au risque . Ce test est dit "conservateur" car il devient plus
difficile de mettre en évidence une différence significative (l'hypothèse de nullité est
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
difficilement rejetée). La méthode de Bonferonni est néanmoins très grossière, il faut donc
généralement l'éviter.
2.1.3 Méthode de Newman Keuls :
C'est certainement la méthode la plus utilisée. L'essentiel du test de Newman-Keuls réside
dans une approche séquentielle ou l'on teste les comparaisons entre paires en choisissant la
valeur critique en fonction de l'étendue de la comparaison.
Pour simplifier l'exposé, nous admettrons que les moyennes sont numérotées en fonction de
leur ordre de grandeur : de M1 (la plus petite) à MA (la plus grande).
Principe du test de Newman-Keuls : on sélectionne la comparaison entre paire de moyennes
correspondant à la plus grande différence. (cette comparaison possède, donc, une étendue A).
On teste pour cette paire maximale, l'hypothèse de la nullité de la différence des moyennes. Si
l'on ne peut rejeter l'hypothèse nulle, le test s'arrête là, car toutes les autres comparaisons sont
incluses dans celles-ci. Si l'on peut rejeter l'hypothèse nulle alors on peut soumettre au test les
deux comparaisons avec l'étendue de (A-1), en prenant comme valeur critique la valeur
obtenue dans la table élaborée par Newman et Keuls pour une étendue de (A-1).
Si l'on ne peut pas rejeter l'hypothèse nulle pour une comparaison, alors on décide que toutes
les comparaisons entre paires impliquées par cette comparaison ne permettront pas non plus
de rejeter l'hypothèse nulle.
Si l'on peut rejeter l'hypothèse pour une comparaison alors on recommence l'opération pour
les moyennes séparées par une étendue de (A-2), en choisissant la valeur critique dans la table
de Newman-Keuls pour une étendue de (A-2), et ce jusqu'à l'épuisement de l'ensemble des
paires.
Cette procédure séquentielle évite l'apparition de décisions dissonantes : comme par exemple
juger que la différence entre M1 et M4 n'est pas significative, et admettre que la différence
entre M1 et M2 est significative. Il faut se rappeler que les moyennes sont numérotées en
fonction de leur taille.
Signalons que la possibilité d'utiliser cette méthode lorsque les effectifs sont inégaux est
envisagée par Kramer.
2.1.4 - le test de Tukey
Le test de Tukey emploie exactement la même procédure que celle de Newman-Keuls mais la
valeur critique choisie pour une étendue de A moyennes (de la plus petite à la plus grande),
reste utilisée pour les autres comparaisons dont l'étendue est forcément moindre. Le test est
dit "conservateur" c'est-à-dire que l'hypothèse de nullité est rejetée moins souvent qu'elle ne
devrait (on oublie de détecter des effets; on augmente l'erreur de type II, β )
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
2.1.5 le test de Duncan
Ce test suit la procédure présentée dans le test de Newman-Keuls mais utilise pour les valeurs
critiques la table de Duncan. Au même titre que le test de Newman-Keuls, il semble être un
test puissant.
Le choix de l'une ou de l'autre de ces méthodes reste d'ailleurs très discutable (les "meilleures"
semblent être celles de Newman-Keuls et de Duncan), et la meilleure façon d'échapper à ce
choix est vraisemblablement d'éviter toute utilisation des méthodes de comparaisons de
moyennes deux à deux. Le plus souvent, il ne se justifie d'ailleurs pas d'effectuer toutes les
comparaisons des moyennes deux à deux, le vrai problème étant de réaliser certaines
comparaisons particulières, telles que les comparaisons d'une série de traitements avec un
témoin. Ce sont alors, selon les cas, les méthodes de Dunnet, de Gupta et Sobel, de Scheffé
qui doivent être utilisées.
2.1.6 le test de Dunnet
Il permet de comparer des groupes expérimentaux à un groupe témoin (ou à un groupe
contrôle).
On effectue dans ce cas, pour p populations, (p-1) comparaisons. l'erreur globale de première
espèce propre à la méthode de la plus petite différence significative doit en conséquence être
réduite dans une moindre mesure que dans le cas général, où le nombre de comparaisons à
réaliser est égal à p(p-1)/2. Des tables spéciales ont été élaborées par Dunnet, pour traiter
correctement ce cas particulier.
Ces tables réunissent des valeurs d1-α /2 qui doivent remplacer les valeurs t1-α /2, de telle sorte
que le risque global de première espèce soit ramené au niveau de α , pour l'ensemble des p-1
comparaisons. Ces valeurs sont bien évidemment comprises entre celles correspondant aux
méthodes de la plus petite différence significative d'une part et de Newman-Keuls d'autre part.
Toujours dans les conditions normales d'emploi de l'analyse de variance, la différence entre la
moyenne de l'échantillon témoin et la moyenne de l'un quelconque des échantillons traités
doit être considérée comme significative lorsqu'elle égale ou dépasse
La valeur critique = d1-α /2 .
Après avoir mis en évidence, par un test de Dunnet, les traitements qui sont meilleurs que le
témoin, il est possible d'enchaîner un test de Newman-Keuls pour classer ces traitements entre
eux.
2.1.7 - la recherche des moyennes les plus élevées : Gupta et Sobel
Le but poursuivi est de délimiter le plus petit ensemble de moyennes observées i qui ait une
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
probabilité élevée, par exemple 1-α , d'englober la population de moyenne théorique
maximum. Cet objectif peut être atteint, dans les conditions habituelles de l'analyse de la
variance, en réunissant les valeurs i qui sont telles que :
i ≥ max - d1-α
où max désigne la moyenne la plus élevée, CMr le carré moyen résiduel et n le nombre
d'observations intervenant dans chacune des moyennes. Quand au facteur d1-α , il représente
les valeurs déjà utilisées dans le test de Dunnet, mais relatives ici à un test unilatéral. La
méthode présentée ici revient donc à effectuer un test unilatéral de comparaison de p-1
moyennes observées avec une moyenne témoin, la valeur maximum servant de témoin.
2.1.8 - le test de Scheffé :
La méthode de Scheffé repose sur le test de contrastes. On appelle contraste une somme
pondérée de moyennes :
C = c1m1 + c2m2 + ... + ckmk
avec Σ ci = 0
et Σ |ci| = 2 (afin d'homogénéiser les coefficients)
Exemples :
1, -1, 0, 0 pour comparer m1 avec m2
1, 0; -1; 0 pour comparer m1 et m3
1/2, 1/2, -1/2, -1/2 pour comparer m1 et m2 avec m3 et m4
Le contraste est jugé significatif si la valeur absolue de C est supérieure à :
S =
p étant le nombre de niveaux de la variable indépendante ; Fc étant la valeur critique de F
avec p-1 et n-p degrés de liberté, pour le seuil α déterminé. Cette valeur est lue dans la table
de Fisher - Snedecor. ni étant l'effectif du groupe du niveau i ; CMa : étant les carrés moyens
du facteur a à p niveaux.
2.2 L'analyse de variances à deux facteurs de variabilité :
Les expériences factorielles doubles, ou plus généralement multiples, sont importantes pour
les raisons suivantes :
• Une expérience factorielle double est plus efficace par rapport aux ressources que ne
le serait la combinaison de deux expériences à un seul facteur. La première prend
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
moins de temps et nécessite moins d'unités expérimentales pour un niveau donné de
précision.
• Une expérience factorielle double permet aux effets sur les réponses dues à
l'augmentation du niveau de chaque facteur d'être estimés à chaque niveau de l'autre
facteur. Ceci amène des conclusions valables sur une plus vaste étendue de conditions
expérimentales qu'une suite de plans à un seul facteur.
• Finalement, la recherche simultanée sur deux facteurs est nécessaire quand des
interactions entre les facteurs sont présentes, c'est-à-dire l'effet d'un facteur dépend du
niveau de l'autre facteur.
Nous avons vu que l'analyse de variance à un critère de classification a notamment pour
principe de diviser la variation totale en deux composantes : l'une factorielle, l'autre
résiduelle. Cette façon de procéder peut être étendue à deux critères de classification, la
variation totale étant alors divisée en plus de deux composantes : l'une résiduelle également,
et les autres liées aux deux critères de classification.
Les deux facteurs considérés peuvent être placés sur le même pied ou subordonnés l'un à
l'autre. les modèles de l'analyse de variance correspondant au premier cas sont dits croisés,
ceux qui correspondent au deuxième cas sont dits hiérarchisés (ou emboîtés). Dans chaque
cas, on doit distinguer aussi un modèle fixe, un modèle aléatoire et un modèle mixte selon que
les deux critères de classification sont fixes, aléatoires ou l'un fixe et l'autre aléatoire.
Considérons pq populations dans chacune desquelles est prélevée un échantillon d'effectif n et
désignons par xijk les différentes valeurs observées, l'indice i servant à distinguer p variantes
(ou niveaux) d'un premier critère de classification (i = 1, …, p), l'indice j permettant de
distinguer q variantes d'un deuxième critère de classification (j + 1, …, q) et k désignant, pour
chaque échantillon, les numéros d'ordre des différentes observations (k = 1, …, n).
A partir de ces données, on peut calculer une moyenne par échantillon :
ij. =
une moyenne par variante (par facteur) de chacun des deux critères de classification :
i.. = = et .j. = =
et une moyenne générale :
… = = = =
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
En se basant sur ces définitions, on peut diviser les écarts par rapport à la moyenne générale
en deux, puis en quatre composantes, et écrire le modèle observé :
xijk - … = ( ij. - …) + (xijk - ij.)
= ( i.. - …) + ( .j. - …) + ( ij. - .i.. - .j. + …) + (xijk - ij.)
La première décomposition est identique à celle qui a été réalisée au cours de l'analyse de la
variance à un critère de classification. La seconde décomposition distingue en plus du terme
résiduel, deux termes mesurant les différences entre la moyenne générale et les moyennes
relatives aux différentes variantes des deux critères de classification, et enfin, un terme
d'interaction :
ij. - .i.. - .j. + …
Ces termes d'interaction sont nuls lorsque les différences liées à l'action d'un des deux facteurs
contrôlés sont indépendantes de l'action de l'autre.
Xijk - m.. = (mi. - m..) + (m.j - m..) + (mij - mi. - m.j + m..) + (Xijk - mij)
ou Xijk = m.. + α i + β j + γ ij + ε ijk
avec : Xijk : représente la variable dépendante ;m.. : la moyenne générale de la population
parentale, elle est estimée par ..., la moyenne de l'ensemble des échantillons ; mi. les
moyennes théoriques relatives aux différents niveaux du facteur a (estimées par les moyennes
i.. des échantillons) ; m.j les moyennes théoriques relatives aux différents niveaux du facteur
b (estimées par les moyennes .j. des échantillons) ; α i : les écarts factoriels, α i = mi. - m..,
mesurant les différences théoriques entre les moyennes des différents niveaux et la moyenne
générale pour le facteur a ; β j : les écarts factoriels, β j = m.j - m.., mesurant les différences
théoriques entre les moyennes des différents niveaux et la moyenne générale pour le facteur b
; Les quantités α i et β j sont souvent appelées effets du facteur contrôlé ou effets principaux ;
γ ij sont des valeurs théoriques des interactions ; ε ijk : les écarts résiduels (ε ijk = Xijk - mij). ε ijk
correspond à l'erreur expérimentale de l'observation Xijk. Ces écarts résiduels sont normaux,
indépendants de moyenne nulle et d'écart-type σ .
Ce modèle théorique peut faire l'objet de trois hypothèses nulles différentes.
L'une est relative à l'absence d'action du premier facteur :
Ho : α 1 = α 2 = ... = α P = 0 ou m1. = m2. = ... = mp.
La seconde est relative à l'absence d'action du deuxième facteur :
H'o : β 1 = β 2 = ... = β q = 0 ou m.1 = m.2 = ... = m.q
La troisième concerne l'absence d'interactions :
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
H''o : γ 11 = γ 12 = ... = γ pq = 0 ou mij - m.j = α i pour tout i et tout j
ou encore mij - mi. = β j pour tout i et tout j.
Les calculs des sommes des carrés des écarts puis des carrés moyens permettent de tester la
validité de ces hypothèses. Les différentes comparaisons des carrés moyens sont résumés dans
le tableau suivant.
Source de variabilité ddl carrés moyens F
Facteur a p-1 CMa = SCEa / (p-1) Fa = CMa / CMr
Facteur b q-1 CMb = SCEb / (q-1) Fb = CMb / CMr
Interaction (p-1)(q-1) CMab = SCEab / (p-1)(q-1) Fab = CMab / CMr
Variation résiduelle pq(n-1) CMr = SCEt / pq(n-1)
Totaux pqn-1 CMt = SCEt / (pqn-1)
Ce tableau est valable si les différents groupes ont des effectifs égaux. C'est d'ailleurs dans ce
cas que la puissance de l'analyse de variance est maximale. L'expérimentateur a donc tout
intérêt de prendre un même nombre d'unités expérimentales pour l'ensemble des groupes.
Remarques :
Dans le chapitre précédent (ANOVA à un facteur), nous avons expliqué les différences entre
facteurs fixes et facteurs aléatoires. Trois modèles peuvent être rencontrés :
• Modèle I : les deux facteurs sont fixes.
• Modèle II : les deux facteurs sont aléatoires.
• Modèle III : un facteur est fixe, l'autre est aléatoire. Le modèle III est aussi appelé
modèle mixte.
Puissance de l'analyse variance à deux facteurs :
Pour chaque facteur, le paramètre φ prend la valeur :
φ =
avec p' = nombre de groupes par facteur
Pour l'effet interaction :
φ =
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
A partir de φ , la puissance du test est connue en consultant les graphes de Hartley et Pearson.
Cas particuliers :
Quand on compare la moyenne d'un paramètre dans plusieurs groupes, il est crucial de
pouvoir disposer de groupes comparables, mais aussi de groupes les plus homogènes possible
afin d'obtenir une puissance élevée pour la comparaison. Il est parfois des situations
expérimentales où l'on connaît par avance certains facteurs susceptibles de nuire à une telle
homogénéité. Différents plans d'expérience ont donc été conçus afin d'éliminer les effets des
sources d'erreur.
Si on cherche à réduire les effets d'une seule source d'erreur, on utilisera la méthode des blocs
(complets si possibles). Pour deux sources d'erreurs, ce sera la méthode des carrés latins, et
pour trois, quatre ou cinq sources d'erreurs, le plan d'expérience utilisé sera un plan carré
graeco-latin.
La méthode des blocs :
On désigne par blocs des ensembles dans lesquels sont regroupées les unités expérimentales
de telle sorte qu’elles soient aussi semblables que possible à l’intérieur de chaque bloc.
On peut s’attendre ainsi à ce que l’erreur expérimentale soit moindre que pour un même
nombre d’unités aléatoirement situées à l’intérieur de la totalité de l’espace expérimental.
Les blocs sont généralement déterminés pour tenir compte, outre les causes contrôlables
définies par les facteurs étudiés, d’autres causes qu’il peut être difficile, voire impossible, de
maintenir constantes sur la totalité des unités expérimentales de l’expérience.
Les variations entre les blocs sont alors éliminés lorsque l’on compare les effets des facteurs.
Cette méthode peut être comparée à une analyse de variance à deux facteurs croisés. Le
premier facteur étant le facteur étudié, le second se rapportant aux blocs.
Si toutes les situations sont représentées dans l'expérience réalisée, on dit qu'on utilise un plan
à blocs complets; si ce n'est pas le cas, c'est un plan à blocs incomplets.
Exemple : si on compare le rendement de quatre variétés de maïs en les semant sur un lot de
parcelle (six par exemple); les différences de fertilité de ces dernières vont introduire une
variabilité parasite, nuisible pour la comparaison. L'idéal serait de découper chaque parcelle
en quatre, de répartir aléatoirement chaque variété dans chaque quart pour comparer la
productivité de chaque espèce de maïs au sein de chaque parcelle, et finalement résumer ces
six comparaisons en une seule conclusion.
La figure suivante montre l'arrangement aléatoire des 4 variétés de maïs dans 6 parcelles.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Parcelle
1
(bloc 1)
Rendement
Maïs 2
Rendement
Maïs 1
Rendement
Maïs 4
Rendement
Maïs 3
Parcelle
2
(bloc 2)
Rendement
Maïs 1
Rendement
Maïs 3
Rendement
Maïs 2
Rendement
Maïs 4
Parcelle
3
(bloc 3)
Rendement
Maïs 2
Rendement
Maïs 3
Rendement
Maïs 1
Rendement
Maïs 4
Parcelle
4
(bloc 4)
Rendement
Maïs 4
Rendement
Maïs 2
Rendement
Maïs 3
Rendement
Maïs 1
Parcelle
5
(bloc 5)
Rendement
Maïs 3
Rendement
Maïs 4
Rendement
Maïs 1
Rendement
Maïs 2
Parcelle
6
(bloc 6)
Rendement
Maïs 1
Rendement
Maïs 4
Rendement
Maïs 2
Rendement
Maïs 3
Une analyse de variance à deux facteurs (le premier facteur correspond au rendement; le
second à l'effet bloc) pourra nous dire si, après élimination des effets de bloc, il existe une
différence significative entre les variétés de maïs.
- La méthode des carrés latins
Le carré latin est un dispositif qui permet de contrôler l'hétérogénéité du matériel
expérimental dans deux directions.
Dans certaines expériences, il arrive qu'une série de k traitements soit donnée à des sujets à
des moments différents (ou à des endroits différents du corps s'il s'agit de crèmes), et que
l'ordre (ou le lieu d'application) dans lequel est donnée la séquence soit potentiellement
important. Il est alors indispensable de tenir compte dans l'analyse d'un effet "ordre (ou lieu)
d'administration" et faire attention à ce que chaque traitement soit donné de façon équilibrée
en 1ère , 2ème, ..., kème position. L'utilisation des carrés latins répond à cet impératif.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Prenons l'exemple de 4 traitements donnés à 4 moments différents de la journée. Les sources
d'erreur sont :
- les moments de la journée
- l'ordre d'administration
Dans la figure suivante sont représentés par des lettres les 4 traitements. Les lignes du tableau
représente les moments; les colonnes, l'ordre.
A B C D
B C D A
C D A B
D A B C
Chaque traitement doit apparaître une fois dans chaque ligne et dans chaque colonne. Dans un
carré latin, le nombre de lignes doit être égal au nombre de colonnes. Ainsi le carré latin sera
toujours de type 3 x 3 ou 4 x 4 …
Pour un carré latin 3 x 3, il y a donc 12 configurations possibles; pour un carré latin 4 x 4,
576; pour un carré latin 5 x 5, 161.280 combinaisons différentes …
La méthode des carrés latins est assimilée à une analyse de variance à trois facteurs. En effet,
le premier facteur est le facteur traitement; les deux autres correspondent aux sources d'erreur
(facteur ligne et facteur colonne).
En résumé :
tests paramétriques tests non-paramétriques
Echantillons 2 v.a. / 1 pop k v.a. / 1 pop 2 v.a. / 1 pop k v.a. / 1 pop
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Appariés Student ANOVA Wilcoxon Friedman
Echantillons
Indépendants
1 v.a. / 2 s.pop
Student
1 v.a. / k s.pop
ANOVA
1 v.a. / 2 s.pop
Mann-Whitney
k v.a. / 2 s.pop
Kruskall-Wallis
Echantillons
Appariés
k v.a. / 2 s.pop
T² Hotelling
k v.a. / k s.pop
MANOVA
Echantillons
Indépendants
k v.a. / 2 s.pop
T² Hotelling
k v.a. / k s.pop
MANOVA
3. La régression simple
La droite d'une régression linéaire peut s'écrire :
Y = aX + b + e
avec Y : la variable à expliquer ou la variable dépendante,
X : la variable estimée ou la variable indépendante et e : les erreurs également appelées
les résidus qui correspondent aux différences entre les valeurs réelles de la variable
dépendante Y et son estimation Yi.
Pour valider ce modèle, il faut vérifier au préalable les quatre conditions suivantes :
• 1: la linéarité du modèle.
• 2 : les résidus doivent suivre une distribution normale.
• 3 : les résidus doivent avoir une moyenne nulle et une variance constante et égale à
s ² (= homoscédasticité)
• 4 : il ne doit pas y avoir d'auto-corrélation entre les résidus.
Les tests ou graphiques couramment utilisés sont :
• pour vérifier l'hypothèse 1 de linéarité, l'étude du coefficient de détermination R². Il se
définit comme étant la proportion de la variabilité de Y expliquée par X ou encore
comme étant le rapport : information due au modèle de régression sur l'information
totale de la distribution Y.
• pour vérifier les hypothèses 2, la normalité des erreurs peut être étudiée soit par un test
de Kolmogorov-Smirnov, soit plus généralement graphiquement. L'analyse graphique
peut se faire de trois manières différentes :
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
o par un histogramme
o par la droite de Henry : pour valider cette hypothèse, il faut que les points
forment une droite pratiquement parfaite.
o par l'analyse des résidus en étudiant le graphe Yi - Yestimé = f(X) (équivalent à
tracer les résidus (Yi - Yestimé) en fonction de Yestimé car Yestimé est également
une fonction linéaire de X).
Si le modèle choisi est adéquat, les résidus sont distribués uniformément sur une bande
horizontale du graphique entre les valeurs de -2 et de +2 : ce qui correspond à 95% de
l'échantillon (référence à +1.96 et -1.96 de la distribution normale).
Ce graphe des résidus permet de confirmer également l'hypothèse 3. Le graphique peut
prendre des allures différentes. Les trois figures ci-dessous montrent que:
1°) la variance s ² n'est pas constante. Dans ce cas, il est nécessaire d'effectuer une
transformation des données Yi avant d'effectuer l'analyse de régression.
2°) le modèle choisi est inadéquat (le modèle est linéaire, mais on a par exemple omis le
terme constant alors que celui-ci est nécessaire)
3°) le modèle choisi est inadéquat (tendance parabolique)
Remarques :
• ce sont ici les résidus réduits qui correspondent au rapport des résidus sur l'écart-type
résiduel.
• si les hypothèses de normalité et d'homoscédasticité ne sont pas respectées, on peut
améliorer la régression :
o en transformant les données (par exemple Y = log10 X). Ce changement de
variable conduit à une distribution normale des la variable transformée Y mais
l'interprétation est ensuite plus difficile,
o en introduisant une ou plusieurs variables explicatives, ce qui revient à faire
une régression multiple,
o en éliminant les individus statistiquement aberrants.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
• Pour l'hypothèse d'auto-corrélation qui n'est en pratique valable que pour des séries
temporelles, il faut faire un test de Durbin-Watson (0 = d = 4). Si d est voisin de 0, il y
a corrélation entre les résidus. Si d est voisin 4, il n'y a pas de corrélation.
4. La régression multiple :
L'équation de la régression est : Y = X1 + X2 + X3 + ... + Xj + ε
Condition de validité :
Une régression multiple doit le plus possible s'approcher de ces conditions
• Linéarité : chaque régresseur doit être en liaison linéaire avec la variable à expliquer
Y. si cette condition n'est pas remplie, il faut procéder à une transformation de la
variable explicative si cela est possible et souhaitable (l'ajustement est meilleur mais
l'interprétation ...)
• Absence de colinéarité entre régresseurs : on ne doit pas pouvoir déduire l'une des
variables explicatives des autres (notion de redondance). Si c'est le cas, il faut enlever
un des régresseurs, on ne perd ainsi aucune information.
• Homoscédasticité et normalité des résidus : les résidus doivent avoir même variance et
être distribués selon une loi normale. Ceci peut se vérifier graphiquement.
• Test de significativité du coefficient de corrélation multiple : ce coefficient doit être
supérieur au seuil de signification pour un risque d'erreur α fixé. On calcule :
F =
p : nombre de variables explicatives, n : nombre de valeurs de chaque variable
Si F calculé est supérieur à F lu dans la table de Fisher-Snedecor pour ν 1 = p et ν 2 = n-p-1
degrés de liberté, le coefficient de corrélation multiple est significatif pour α donné.
- Significativité de chaque régresseur :
R peut se révéler significatif alors que l'équation de régression contient un ou plusieurs
variables explicatives inutiles. Le test des coefficients de corrélation partielle permet de
détecter les variables qui peuvent être rejetées. Un coefficient de corrélation partielle se teste
comme un coefficient de corrélation simple avec n-p-1 degrés de liberté.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
ANALYSE DE RÉGRESSION ET DE CORRÉLATION: RAPPELS
L'analyse de régression permet de déduire une équation d'estimation qui décrit la
nature fonctionnelle de la relation entre deux variables, alors que l'analyse de corrélation donne une mesure de la force de cette relation
En formule, une droite de régression est donnée par
où
X = la valeur de la variable indépendante Yc = la valeur estimée de la variable dépendante
a = l'ordonnée à l'origine, i.e. la valeur de Yc lorsque X = 0 b = la pente, i.e. la variation de Yc pour une variation d'une unité de
X
On a aussi
Le coefficient de détermination
est une mesure de la proportion des variations de la variable Y
qui s'«explique» par les variations de la variable X
Le coefficient de corrélation
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
5. L'analyse en composantes principales (ACP)
C'est une technique descriptive qui permet de faire la synthèse de l'information contenue dans
un grand nombre de variables.
But de l'ACP :
Il est aisé de représenter les observations d'une variable (sur une droite), de deux variables
(dans un plan), de trois variables (en faisant de la géométrie dans l'espace) mais l'étude
devient impossible lorsque le nombre de variables est supérieur à trois.
Le but de la méthode est la réduction des dimensions de l'espace de représentation des
données en projetant le nuage de points dans un ou plusieurs graphiques plan, en essayant de
limiter la perte d'informations au cours de cette réduction. Les "composantes principales"
seront des nouvelles variables, indépendantes, combinaisons linéaires des variables initiales,
possédant une variance maximum.
Cette technique ne s'applique qu'à des variables quantitatives. Pour des variables
qualitatives, on utilisera plutôt les analyses des correspondances multiples.
La première étape d'une analyse en composantes principales est de centrer et réduire
l'ensemble des variables. En effet, dans la plupart des cas, les données à analyser sont
hétérogènes tant du point de vue des ordres de grandeur que des échelles de utilisées.
Le centrage consiste à soustraire à chaque valeur la moyenne de la variable correspondante et
la réduction s'effectue en divisant chacune des valeurs du tableau par l'écart-type
correspondant. Ce procédé permet de donner la même importance à toutes les variables
quelles que soient les échelles de mesure dans lesquelles elles sont exprimées. Cette opération
est indispensable lorsqu'on est en face à des unités de mesure différentes.
Les ACP fournissent généralement dans un premier temps la matrice de corrélation que l'on
est pas obligé d'examiner car il y a souvent beaucoup de données (pour 10 variables étudiées
il y aura 100 coefficients de corrélation).,
La deuxième étape est l'examen des pourcentages d'inertie fournis avec les valeurs propres
(ces dernières peuvent être utiles essentiellement pour calculer les coordonnées de nouvelles
composantes principales). C'est une étape importante car elle permet de savoir sur quels axes
se trouve le maximum d'informations et de choisir le nombre d'axes à étudier.
Le pourcentage d'inertie d'un axe est synonyme de pourcentage d'information totale retrouvée
sur cet axe. Il est évident qu'à la suite de chacune des projections du nuage de points sur les
différents axes, le pourcentage d'information va dans le sens d'une diminution.
Au pourcentage d'inertie est associé le pourcentage d'inertie cumulée. C'est ce paramètre qu'il
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
faut tenir compte pour le choix du nombre d'axes. Par exemple, sur les trois premiers axes il y
a 82% d'inertie cumulée (50% sur l'axe 1, 20% sur l'axe 2 et 12% sur l'axe 3) soit 82% des
informations se retrouvent sur les axes 1, 2 et 3. Généralement, on ne tient compte que des
axes regroupant 80% d'information totale. Dans cet exemple là, on étudiera les plans (1,2)
appelé aussi plan principal, (1,3) et (2,3). Il faudra alors rester prudent lors des interprétations
car nous ne sommes pas en présence de toutes les informations sur les axes choisis.
Les logiciels spécifient ensuite pour chaque variable et pour chaque individu sa coordonnée,
sa qualité de représentation et sa contribution par rapport à chacun des axes factoriels.
* les variables :
• les coordonnées sur les axes factoriels : Les axes factoriels obtenus par l'analyse en
composantes principales sont des combinaisons linéaires de l'ensemble des variables
analysées. La coordonnée d'une variable sur un axe factoriel donné est représentée par
la projection de cette variable sur l'axe qui n'est autre que le coefficient de corrélation
entre la variable et cet axe. Les coordonnées varient donc entre -1 et +1 : des valeurs
absolues élevées traduisent une forte ressemblance entre les distributions induites par
la variable et l'axe factoriel, des valeurs faibles indiquent au contraire une absence de
relation linéaire entre la variable et l'axe. La figure ci-dessous permet de donner une
interprétation géométrique à la signification de ces corrélations. Les variables VAR1
et VAR3 sont bien corrélées avec l'axe k, la première positive et la seconde négative
puisqu'elle a un sens opposé à celui de l'axe. La variable VAR2, perpendiculaire à
l'axe k aura en revanche une coordonnée nulle. La corrélation traduit la proximité
géométrique entre les vecteurs caractérisant les variables et l'axe.
L'ensemble des variables ayant des coordonnées relativement importantes servent à
établir sa signification. Ainsi, dans l'exemple représenté sur la figure, le côté positif de
l'axe k est caractérisé par des valeurs particulièrement élevées de la variable VAR1 et
faibles de la variable VAR3. Les propriétés inverses s'appliquent au côté négatif de
l'axe. La variable VAR2, avec une coordonnée nulle sur cet axe, n'intervient pas dans
son interprétation.
• La qualité de représentation d'une variable par un axe : Elle est donnée par le carré de
sa coordonnée sur cet axe. Chacun de ces carrés représente la part de la variable
expliquée par l'axe associé. L'addition des carrés des coordonnées d'une variable sur
l'ensemble des axes est égale à 1.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Exemple numérique : supposons que l'on relève les coordonnées et qualités de représentation
suivantes pour une variable V dans une analyse relative à un espace de 4 dimensions :
variable V Coordonnée qualité de rep.
axe 1
axe 2
axe 3
axe 4
0.71
-0.50
0.22
0.45
0.50
0.25
0.05
0.20
total : 1.00
Le premier axe, avec une corrélation de 0.71 rend compte de 50% de la dispersion de la
variable V, le deuxième axe, avec une corrélation négative de -0.50 concentre 25%, le
troisième 5% et le quatrième 20%. Ainsi, la moitié de l'information relative à la variable V est
concentrée sur le premier axe, les axes 2 et 4 rendant compte ensemble de la majeure partie de
l'autre moitié.
La qualité de représentation d'une variable par un groupe d'axe s'obtient en additionnant les
valeurs relatives à chacun des axes. Ainsi, le premier plan factoriel concentre 75% de
l'information relative à la variable V dans l'exemple ci-dessous.
- La contribution d'une variable à un axe :
La somme des carrés des coordonnées de l'ensemble des variables sur l'axe est égale à la
valeur propre associée à l'axe. La contribution de chaque variable s'obtient en effectuant le
rapport entre le carré de sa coordonnée et la valeur propre. Les contributions mesurent donc
les rôles relatifs joués par chacune des variables dans la formation de l'axe, et l'addition de
toutes les contributions vaut 1.
En règle générale, on examine les contributions à l'élaboration des axes : pour p variables,
seules on considérera sur un axe k les variables possédant des contributions supérieures à 1/p
(ce qui signifie que ce sont essentiellement ces variables qui auront contribué à la formation
de cet axe k).
* Les individus :
• les coordonnées des individus sur les axes factoriels :
L'analyse des coordonnées permet de situer les individus par rapport au système d'axes
factoriel et de mettre en évidence des ressemblances ou des oppositions entre des
groupes d'individus par rapport aux combinaisons de variables définies par les axes.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
• les contributions des individus aux axes factoriels :
De la même manière que pour les variables, les individus contribuent différemment à
la formation de chaque axe factoriel. Ces valeurs sont surtout utiles pour détecter des
individus aberrants : par exemple, un individu avec une contribution de 82.4% sur un
axe k peut être considérer comme aberrant. Cela a pour conséquence de fausser l'étude
et il serait alors conseiller de faire une deuxième analyse en mettant ces individus en
éléments supplémentaires.
• La qualité de représentation des individus sur les axes factoriels :
Elle est mesurée par le cosinus carré de l'angle α formé par le vecteur GC avec l'axe k.
Plus la valeur ne sera proche de l'unité, meilleure sera la représentation de l'individu
sur un axe.
7. Références • Bertrand, R. (1986). Pratique de l'Analyse Statistique des Données. Québec: Presse de
l'Université du Québec. • Bonnet, C. (1986). Manuel pratique de psychophysique. Paris: A. Colin. • Langouet, G. & Porlier, J.C. (1991). Mesure et Statistique en Milieu Educatif (4ème édition).
Paris: ESF. • Mialaret, G. (1991). Statistiques Appliquées aux Sciences Humaines. Paris: PUF. • Reuchlin, M. (1976). Précis de statistique. Paris: PUF. • Snedecor, G.W., & Cochran, W.G. (1967). Statistical Methods. Ames, Iowa: Iowa State
University Press (6ème édition). • Thomas, J.R. & Nelson, J.K. (1990). Research Methods in Physical Activity. Champaign, Ill.:
Human Kinetics. • Wilkinson, L., Hill, M., Welna, J.P. & Birkenbeuel, G.K. (1992). Systat for Windows:
Statistics, Version 5 Edition. Evanston, Ill.: Systat, Inc.
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Liste des tables Table du t de Student
Seuil de risque alphaNb. DL 0,05 0,01 0,001
1 12,6 63,7 636,02 4,303 9,925 31,6003 3,182 5,841 12,9404 2,776 4,604 8,6105 2,571 4,032 6,8596 2,447 3,707 5,9597 2,365 3,499 5,4058 2,306 3,355 5,0419 2,262 3,250 4,78110 2,228 3,169 4,58711 2,201 3,106 4,43712 2,179 3,055 4,31813 2,160 3,012 4,22114 2,145 2,977 4,14015 2,131 2,947 4,073
Seuil de risque alpha Nb. DL 0,05 0,01 0,001
16 2,120 2,921 4,015 17 2,110 2,898 3,965 18 2,101 2,878 3,922 19 2,093 2,861 3,883 20 2,086 2,845 3,850 21 2,080 2,831 3,819 22 2,074 2,819 3,792 23 2,069 2,807 3,767 24 2,064 2,797 3,745 25 2,060 2,787 3,725 26 2,056 2,779 3,707 27 2,052 2,771 3,690 28 2,048 2,763 3,674 29 2,045 2,756 3,659 30 2,042 2,750 3,646
infini 1,960 2,576 3,291
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Cours de statistiques appliquées à la recherche scientifique
Guelmemi Noômen
Table de Barvais-Pearson
NB : le plan du cours et des exercices de TD sont disponibles sur le site :
www.sport-tic.om