© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 1
Graphisme en statistique : quelques bases …
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 2
Motivation et buts du cours
MotivationLe graphique est un élément clef de la communication des résultats d’uneanalyse statistique. La plupart des observations que l’on peut faire sur des
séries de données peuvent en général être illustrées sur la base degraphiques et les “clients” de la statistique sont de plus en plus
demandeurs de ce type de résultat.
Buts du cours• Présenter les différents types de graphiques statistique de base les plus
courament utilisés.• Montrer comment les utiliser, les combiner et les mettre en oeuvre dans
différents software (S-Plus et SPSS).• Quelques exemples de graphiques dynamiques (treillis graphs, XYZ…)• Donner quelques recommandations dans la réalisation de graphiques
statistiques.• Donner quelques exemples d’horreurs produites par les logiciels…
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 3
Graphiques de base
Il existe quelques graphiques génériques qui combinésastucieusement forment des outils puissants de présentation
de données et de résultats d’analyses statistique.
• Graphique temporel• Graphe X-Y• Diagramme en points, histogramme, box plot• Diagramme en barre à 2 ou 3 dimensions, diagramme en tarte• Surfaces de réponse, courbes de niveaux• QQ plot, PP plot, PQ plot• Graphe d’autocorrélation
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 4
Les données
environ.txtEtude de la qualité de l’eau d’une rivière canadienne.Trois variables sont mesurées 1 fois par semaine durant 3 ans.Les variables :• Semaine : no de la semaine• temp : la température de l’eau,• DO : quantité d’oxygène dissoud dans l’eau• secchi : clarté de l’eau• saison : saison de la mesure
Memoire.txtComparaison de cinq méthodes de mémorisation d’une liste de mots. 50
sujets sont regroupés en 5 groupes. Chacun est confronté à la liste de motsavec un méthode donnée.
Variables :• methode : type de méthode de mémorisation utilisée (…)• mots : nombre de mots retenus.
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 5
Les données (suite)
stress.txtEnquête sur le lien entre stress, cigarette et mode de transport dans une
entreprise. 144 personnes interrogées.Variables :• stress : niveau de stress (peu, moyen, beaucoup),• trajet : mode de transport domicile-travail (piedvelo, transpcom, voiture),• fumeur : type de fumeur (non, peu, beaucoup)• cigarettes : nombre moyen de cigarettes fumées par jour
pubsplus.txtEtude de la relation entre la publicité faite pour une chaine de magasin et le
chiffre d’affaire dans les 3 région de Belgique (78 magasins).Variables• Region : region du pays (1=bxl, 2=wal, 3=fl)• Regiont : region sous forme texte• Pub : montant (en Euro) utilisé pour la campagne publicitaire• Ventes : ventes (en Euros) durant le mois après la campagne publicitaire
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 6
Représentation de la distribution d’UNE variable quantitative
Une variablequantitative
Le choix dépenddu nombre dedonnées
Bon pour n<15 Presque toujours OK OK pour n>50
•
••
•
•
•••
10
00
30
00
50
00
•
••
•
•
•••
10
00
30
00
50
00
10
00
30
00
50
00
•
••
•
•
•••••••••••••••
10
00
30
00
50
00
•
••
•
•
•••••••••••••••
10
00
30
00
50
00
10
00
30
00
50
00
10
00
30
00
50
00
•
•
••
•
•
••••••••••••••••
•
•
••
•
••••
••
•••
•••••
•
••
•
•
••
•
•••
•
•
•
•
••
•
•
•
•
••
•
•
••••••••••••••••
•
•
••
•
••••
••
•••
•••••••
•
•
••
•
•••
•
•
•
•
••
•
•
•
10
00
30
00
50
00
10
00
30
00
50
00
Dot plot Box plot Histogramme
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 7
SECCHI
2.001.88
1.751.63
1.501.38
1.251.13
1.00.88
.75.63
.50.38
Histogramme de la variable Secchi
Données environ.txt
Eff
ectif
40
30
20
10
0
Std. Dev = .35
Mean = .93
N = 148.00
Histogramme : définition et recommandations
Permet de visualiser la forme dela distribution statistique d’unevariable quantitative.
Sa forme peut varier très fort quandon modifie les limites et le nombre declasses.
Prendre un nombre de classes prochede la racine carrée de n
Ne pas utiliser quand n<50
Classes
Nb d’observations par classeou fréquence relative
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 8
Box plot : définition et construction
median
Percentile 75
Percentile 25
Maximum (sans outliers)
Minimum (sans outliers)
Outlier (observation < percentile 25 - 1.5 IQR)
010
0020
0030
0040
0050
00
*
•
•
•
•
•
••
•••••
•
•
•••
•
•
•
•
•
•
•
••
••••
••••
•••
•
••
•
•
••••
••
••••
••
•••
••
•
1.5 iqr
Ecart interquartile
1.5 iqr
Le box plot donne une idée de la distribution d’une variable même quand lenombre de données est faible. Il permet de repérer des valeurs aberrantes.
Méthode : ordonner les données et les couper en 4 groupes de 25% d’observations.
25%
25%
25%
25%
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 9
QQ plot pour vérifier la normalité de données
Un QQ plot consiste à comparer les données observées aux données que l’ondevrait avoir si elles suivaient « parfaitement » une distribution normale.
Les valeurs observées et « idéales » sont comparées sur un graphe X-Y quidoit montrer une tendance linéaire en cas de normalité.
1/4 1/4 1/4 1/4
x1 x2 x3 x4
observations
z1 z2 z3 z4
Quantiles de la distribution normale
QQ Plot
Ligne de référence
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 10
QQ plots typiques
Attention à ce qui est mis en X et Y, cela dépend du software !
Le qqplot peut s’utiliser pour comparer deux distributions quelconques !
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 11
Diagramme temporel ou «time sequence plot»
Un diagramme temporel est une représentation graphique d’une série dedonnées quantitatives en fonction de l’ordre dans lequel elles ont été
récoltées. Il permet de visualiser la valeur centrale et la variabilité desdonnées ainsi que des tendances ou cycles.
Données environ.txt
Evolution de la température de la rivière
WEEK
************978981736557494133251791
TEM
P
40
30
20
10
0
Environ.txt
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 12
Comparaison des tendances de plusieurs variables
5 30 55 80 105 130 155
7
9
11
13
15
DO
0
10
20
30
TE
MP
DOTEMP
Semaine5 30 55 80 105 130 155
0
10
20
30
DOSECCHITEMP
SemaineEnviron.txt Environ.txt
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 13
Graphique d’autocorrélation
Le graphique d ’autocorrélation présente les autocorrélationsd ’ordre 1 à k pour une série de données. C’est un outil qui
permet de vérifier l’indépendance entre les observations de lasérie. Le même type de graphique se réalise pour les
autocorrélations partielles.
Lag
AC
F
0 5 10 15 20
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
Environ.txt, variable temp
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 14
UNE variable qualitative : Diagramme en barre et en tarte
peu
moy
bea
Le diagramme en barre ou en tarte (moinsutile) permet de présenter les fréquencesdes niveaux d ’une variable catégorielle.
Attention !!!• Eviter de l ’utiliser pour des variables
quantitatives.• Mettre les niveaux dans l’ordre logique• Se méfier absolument des diagrammes en
barre avec l ’axe des Y ne commencant pas à 0Stress
beaucoupmoyenpeu
Cou
nt
60
55
50
45
40
35
30
25
20
15
10
5
0
Stress
beaucoupmoyenpeu
Cou
nt
60
55
50
45
40
stress.txt, variable stress
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 15
DEUX variables quantitatives : graphe X-Y
La graphe XY (ou scatter diagram) permet de visualiser larelation entre deux variables quantitatives
Température
403020100
Oxy
gène
Dis
soud
16
14
12
10
8
6
Environ.txt, variables temp et DO
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 16
Une variable quantitative et une qualitative
Adjectifs Rimes addition image intentionMéthode de mémorisation
0
5
10
15
20
Nom
bre
de m
ots
rete
nus
0 5 10 15 20
mots
Adjectifs
Rimes
addition
image
intention
met
hode
Environ.txt, Variable DO par saison
memoire.txt, Variable mots par methode
39393934N =
WinterSummerSpringfall
95%
CI D
O
13.0
12.5
12.0
11.5
11.0
10.5
10.0
9.5
9.08.5
Valeurs centrales et barres d’erreur
Graphe en points par catégoriesBox plot par catégories
Spring Summer fall WinterSEASON
7
9
11
13
15
DO
Graphe en points par catégories
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 17
peu
moyenbeaucoup
Stress
Pies show counts
pied_velo
transp_com
voiture
peu
moyenbeaucoup
Stress
B a r s s h o w c o u n t s
pied_velo transp_com voiture
Trajet domicile-bureau
0
25
50
75
Co
un
t
Deux variables qualitatives
stress.txt, Variables trajet et stress
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 18
Trois variables quantitatives
Graphe X-Y-Z
Environ.txt, Variable DO, Temp, Secchi
Scatter matrix
DO
0.0
0.5
1.0
1.5
2.0
5 7 9 11 13 15
0.0 0.5 1.0 1.5 2.0
SECCHI
5
7
9
11
13
15
TEMP
0
10
20
30
0 10 20 30
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 19
Deux variables quantitatives, une qualitative
0 10 20 30 40 50pub
100
200
300
400
vent
es
Wal
Wal
Wal
Wal
Wal
Bxl
Bxl
Bxl
Wal
Wal
Bxl
Wal
BxlWal
Wal
Wal
Wal
Wal
Wal
Wal
Bxl
Wal
Wal
Wal
Wal
Bxl
WalBxl
Wal
Bxl
Bxl
Wal
Bxl
WalBxl
Bxl
Bxl
Bxl
Bxl
Bx lWal
Bx l
WalWal
Wal
WalFlFl
Fl
Fl Fl
FlFl
Fl
Fl
Fl
Fl FlFl
Fl
Fl
Fl
FlFl
Fl
Fl
Fl
Fl
Fl
Fl FlFl
Fl
Fl
Fl
Fl
0 10 20 30 40 50Publicité
100
200
300
400
vent
es
BxlFlWal
pubsplus.txt, Variables ventes et pub par region
10 30 50
pub
200
400
200
400
200
400
vent
esregiont: Bxl
regiont: Fl
regiont: Wal
Graphique en « treilli »
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 20
Trois variables qualitatives
pas peu beaucoup
Fumeur
pied_velo
transp_com
voiture
Tra
jet
do
mic
ile-b
ure
au
paspeu
beaucoup
Fumeur
peumoyen
beaucoup
Stress
Bars show counts
pied_velo transp_com voiture
Trajet domicile-bureau
0
10
20
30
Co
un
t
stress.txt, Variables trajet, fumeur et stress
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 21
Trois variables quantitatives et une qualitative
DO
0.5
1.0
1.5
2.0
7 9 11 13 15
0.5 1.0 1.5 2.0
SECCHI
7
9
11
13
15
TEMP
0
10
20
30
0 10 20 30
Environ.txt, Variable DO, Temp, Secchi par saison
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 22
Visualisation dynamique 3D (brush and spin)
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 23
Courbes de niveau et surfaces de réponse.
0.0 2.5 5.0 7.5 10.0 12.5
ADD1
0
2
4
6
8
10
AD
D2
16.1
19.1 22.2
25.2
28.3
31.3
34.3
37.4
37.4
Courbes de niveau
Les graphiques en courbes de niveaux (contour plot) ou surfacede réponse permettent de représenter une fonction z=f(x,y).Il sont utiles pour représenter par exemple l’équation d’un
modèle estimé ou un fonction à optimiser (ex. fonction devraissemblance ou des moindres carrés…)
© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 24
Recommandations pour la réalisation de « bons » graphiques
• Dans la présentation d’une série de données essayer de présenter chaqueobservation individuelle au moins une fois (pas uniquement des résumés)
• Mettre tous les résultats importants d’un travail statistique sous forme graphique.• Ne pas trop remplir un graphique, les données doivent être l’information la plus
visible.• Choisir des limites pour les axes les plus proches possibles des intervalles de
variation des données mais inclure le 0 quand c’est nécessaire (comptage).• Choisir des échelles pour les axes qui permettent de visualiser au mieux les données
(ex. Log.). Mettre dans ce cas si possible l’échelle réelle sur les axes.• Quand deux graphiques doivent être comparés, utiliser les mêmes échelles.• Utiliser un ligne ou des référence (ex. Moyenne) si utile. Entourer le graphe par un
rectangle.• Méfiance des graphiques 3D, ils sont difficile à interpréter.• Libellez clairement les axes (avec les unités des variables), donner un titre, mettre
une légende pour les symboles et couleurs.• Attention aux couleurs, elle disparaissent à la reproduction...• Expliquer clairement ce que sont les barres d ’erreurs quand il y en a• La préparation d’un graphique est un travail itératif qui prend du temps et vient
avec l’expérience...