statistique tableau à double entrée nuage de points
TRANSCRIPT
Statistique
Tableau à double entrée
Nuage de points
Les travaux statistiques sont d’abord et avant tout des travaux d’observations sur des phénomènes, des objets, des populations…
En sciences, l’analyse de données issues d’expériences ou d’études statistiques est un élément essentiel de la recherche.
Vérifier s’il existe une relation entre certaines variables ou entre deux caractères quantitatifs d’une distribution est l’une des premières démarches des scientifiques.
Une fois qu’un lien est mis en évidence et que son intensité a été mesurée, il devient possible de le modéliser à l’aide d’une fonction.
Dans cette présentation, nous apprendrons à construire deux nouveaux outils:
- le tableau à double entrée ou tableau de corrélation:
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
- le nuage de points ou diagramme de dispersion:
10 11 12 13 14 15 16 17 Âge
120
130
140
150
160
170Taille ( cm )
180
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
2
2
Ces deux types de représentation servent à déterminer la corrélation entre deux caractères ( variables ) d’une population.
Rappels:
Les premières études de la statistique portaient sur les populations humaines.
Le terme « population » est resté mais aujourd’hui, en statistique, ce terme désigne aussi bien des objets, des phénomènes que des humains.
Exemple: Si on s’intéresse à la qualité de l’eau des piscines d’une municipalité, la population étudiée est « les piscines ».
Le terme « caractère » signifie le sujet de l’étude. Dans l’exemple des piscines, le caractère étudié est « la qualité de l’eau » .
Les différents caractères d’une étude statistique peuvent être aussi appelés les variables à l’étude.
Souvent, l’étude de toute une population est impossible; on se sert alors d’un échantillon, c’est-à-dire un petit ensemble représentatif de toute la population.
Exemple: On ne pourrait pas étudier toute la population des morues qui vivent en mer; cependant, on pourrait faire l’étude des morues capturées par plusieurs pêcheurs. On aurait alors un échantillon.
On collecte différentes informations quantitatives et/ou qualitatives et on les organise pour qu’elles nous apprennent des choses.
Exemples d’informations qualitatives: sexe, couleur des yeux, opinion politique, …
Exemples d’informations quantitatives: l’âge, le poids, le salaire, le nombre de
bactéries, etc.; tout ce qui représente une
quantité donc mesurable.
Le tableau à double entrée et le nuage de points utilisent principalement des données quantitatives.
Le mot « corrélation » signifie simplement une relation entre deux choses.
La corrélation statistique sert donc à quantifier la liaison mathématique entre deux variables.
Ces deux variables doivent donc être quantitatives.
Le tableau à double entrée
Lors d’une étude statistique, on obtient plusieurs informations ( plusieurs variables ).
Le tableau à double entrée
permet de savoir s’il existe
un lien entre certaines variables.
BERNADETTE
ANDREE BARBARA
GAETANE JEANNE MARTINE ODILE SOLANGE
ANTOINE HENRI PATRICK THOMAS BRUNO FRANÇOIS JEANMATHIAS PHILIPPEXAVIER
VALENTINE
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
FFFFFFFF
MMMMMMMMMM
F
38,244.346,138,250,522,440,434,7
50,538,157,339,346,137,145,966,360,050,5
50,5
Individu Âge Sexe Taille (cm)
Poids(Kg)
Quelques caractéristiques d’un groupe d’adolescents
Prenons un exemple:
Voici un tableau de compilation représentant un échantillon de 19 adolescents.
Ce tableau nous donne 4 informations concernant certains individus: l’âge, le sexe, la taille et le poids.
Existe-il un lien entre l’âge et la taille ?
Existe-il un lien entre la taille et le poids ?
Pour le savoir, nous allons construire un tableau à double entrée en utilisant uniquement les variables « âge et taille ».
Existe-il un lien entre l’âge et la taille ?
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm) À l’aide de ce tableau, on construit un tableau à double entrée:
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
Âge 11 12 13 14 15 16 Total
On place une des variables en colonnes, ici l’âge, qui varie de 11 à 16 ans.
On garde une dernière colonne pour
le total des effectifs de chaque ligne.
Ici, l’âge ne comporte pas beaucoup de données différentes; on peut donc toutes les utiliser.
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
On place l’autre variable, en lignes, ici, la taille.
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Ici, l’écart entre les données est assez considérable; il est donc préférable d’utiliser des classes.
On garde une dernière ligne pour
le total des effectifs de chaque colonne.
Taille(cm)
Remarque: On aurait pu inverser les variables; mettre l’âge en lignes et la taille en colonnes.
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Rappel Pour déterminer les classes:
on regarde la plus petite donnée;
on regarde la plus grande donnée;
on construit des classes d’égale largeur;
il n’y a pas de règle absolue pour la construction des classes; on utilise habituellement entre 6 et 10 classes en utilisant pour chaque classe, une largeur significative.
La classe [ 121 , 133 [ n’est pas très significative ( pas très facile à lire ).
La classe [ 120 , 130 [ est plus significative ( facile à lire ).
Ici, l’étendue de la distribution est de 180 – 123 donc de 57. On peut donc utiliser 6 classes d’une largeur de 10 unités chacune.
La première classe doit débuter un peu avant la première donnée, ici, 123 donc [ 120 ,
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Remarque sur les crochets [ , [
La classe [ 120 , 130 [
Ce crochet fermé indique que 120 est compris dans cette classe ainsi que tous les nombres jusqu’à 130
Remarque:
étant donné que 180 est la dernière donnée et qu’elle respecte la largeur de la classe, on peut refermer le crochet dessus, ce qui signifiera que 180 fera parti de cette classe: [ 170 , 180 ] .
mais pas 130. C’est pour cela que lecrochet est ouvert.
On aurait pu ouvrir une dernière classe pour 180, soit [ 180 , 190 [ mais
Dépendamment des distributions de données avec lesquelles on travaille, les tableaux à double entrée peuvent être construits avec des données ordinaires ou des données regroupées en classe.
Poids\Taille 160 175 18050 155 160 170 2
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Les colonnes et les lignes du tableau sont bien identifiées;
il ne manque qu’un titre.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
Nous pouvons maintenant compiler les données.
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Présentement les données sont inscrites d’une manière désordonnée.
Pour t’aider à la compilation, il serait préférable de les mettre en ordre croissant.
Tu peux faciliter ce travail avec la calculatrice à affichage graphique.
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Il faut d’abord entrer les données.
Pèse sur la touche STAT
dans le menu qui apparaît,
EDIT CALC1: Edit…2: SortA(3: SortD(4: Clrlist
sélectionne 1: Edit
Tu obtiendras une autre fenêtre;
L1 L2
dans la colonne L1, inscris les valeurs pour l’âge.
À chaque entrée, pèse sur ENTER.
Déplace-toi dans la colonne L2 avec les flèches et inscris les valeurs pour la taille.
Tu devrais avoir deux listes inscrites comme dans le tableau ci-contre.
13
13
14
140
161
155
Appelle maintenant la deuxième colonne
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm) EDIT CALC
1: Edit…2: SortA(3: SortD(4: Clrlist
Maintenant, repèse sur STAT
sélectionne 2: SortA(SortA(
La fenêtre qui apparaît, indique que la calculatrice est prête à mettre les données en ordre croissant.
Appelle tes deux colonnes comme suit:
2nd puis la touche 1
Tu remarqueras, au-dessus,il est inscrit L1.
La calculatrice affiche alors L1
L1
maintenant, inscris une virgule.
,
2nd puis la touche 2
L2
ATTENTION: tu dois inscrire une virgule.
La calculatrice affiche L2.
SortA( , L2L1
Pèse sur ENTER,
La calculatrice affichera DONE
DONELes listes sont prêtes.
Remarque:
Quand tu effectues cette opération, la calculatrice met en ordre croissant la colonne L1 qui correspond à la variable de référence ( dans le graphique, cette variable sera représentée sur l’axe des abscisses );
mais elle ne le fait pas pour la deuxième colonne car elle garde le lien d’association qui existait entre les variables avant l’opération.
Pour retrouver les listes, refais dans l’ordre:
STAT/ 1: Edit
et regarde les nouvelles listes.
1313141215111412
14131211141212161515
15
140161155148155123160140
172155160142157142148180167165
165
Âge Taille (cm)
Avant Après
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2La colonne L1 est en ordre croissant.
Le lien d’association est inchangé.
Attention: Quand tu as terminé d’entrer les données, vérifie pour être certain de ne pas avoir fait d’erreur avant d’effectuer la mise en ordre, sinon, tu devras tout recommencer !
Remarque:
Si tu as plusieurs listes de données, tu peux faire la même démarche.
La première liste sera en ordre croissant et toutes les autres listes garderont le lien d’association avec elle et entre elles.
Tu n’as qu’à procéder ainsi:
SORTA( L1 , L2 , L3, L4Exemple pour 4 listes:
La première liste ( L1 ) est en ordre croissant et toutes les autres listes ont gardé le lien d’association).
Bien entendu, la première liste sera en ordre croissant mais pas les autres.
Pour corriger une donnée:
Positionne le curseur sur la donnée, inscris la bonne donnée et pèse sur ENTER.
Si tu as fait plusieurs erreurs dans la même colonne:
EDIT CALC1: Edit…2: SortA(3: SortD(4: Clrlist
L1 L2
13
13
14
140
161
155
162
Positionne le curseur sur l’entête de la colonne,
Pèse sur CLEAR puis sur ENTER;
Exemple: la colonne L2.
La colonne est vide.
Pour effacer toutes les listes de données rapidement:
Retourne dans STAT,
EDIT CALC1: Edit2: SortA(3: SortD(4: ClrlistSélectionne 4: Crllist
Crllist
Rappelle les listes:
2nd 1 2nd 2,
Fais ENTER
L1 , L2
Les listes sont vides.
Nous sommes prêts pour la compilation.
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
Fais correspondre chaque couple dans la bonne case en indiquant un trait.
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
Maintenant, transforme ces barres en nombres.
1
1 4
1
1
1
1
2
1
1
1
1
3
Fais le total de chaque ligne et de chaque colonne.
1
0
6
4
6
2
2 5 3 4 4 1 19
Le total de la dernière ligne et de la dernière colonne devrait être 19 puisqu’ils y avaient 19 adolescents dans l’échantillon.
Si le total de ton tableau ne correspond pas à l’échantillon que tu étudies, tu dois avoir une erreur à quelque part.
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
Le tableau à double entrée donne certaines informations sur la répartition d’une distribution.
Exemple: Ici, la majorité des adolescents de cet échantillon ont entre 12 et 15 ans et ont une taille entre 140 et 170 centimètres.
Quelques exceptions existent.
Le tableau à double entrée est terminé.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
Un tableau à double entrée démontre parfois une certaine corrélation quand les couples inscrits sont proches d’une des diagonales du tableau.
Exemple: Dans cet exemple, une corrélation semble exister .
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
1
1
4
1
1 2
1
1
1
1
35
3
4
Ici, la corrélation semble assez forte puisque les données gravitent très près de la diagonale.
1
1
4 1
1
2 1
1
1
3
5
3
4
Ici, la corrélation est pratiquement nulle puisque les données sont dispersées dans tout le tableau.
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
Mais cette façon d’estimer une corrélation à partir d’un tableau est peu précise; elle donne une idée mais reste très approximative.
Il nous faut donc un autre moyen plus précis, le nuage de points.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
Le nuage de points
Le nuage de points ( appelé aussi diagramme de dispersion ) est un graphique cartésien montrant les points correspondants aux couples d’une relation statistique.
Utilisons l’exemple de l’âge et la taille
de l’échantillon de 19 adolescents.
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2
Remarque:
Comme pour la construction du tableau à double entrée, il est préférable, pour faciliter le travail, de commencer par mettre la liste de données en ordre croissant par rapport à une des variables.
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2
Chaque couple de données peut s’écrire comme un couple de coordonnées dans le plan cartésien.
Exemple:
( 11, 142 )
Il s’agit alors d’inscrire chaque couple dans un plan cartésien.
La première coordonnée
( ici, l’âge )
sera représentée
sur l’axe des abscisses.
La deuxième coordonnée
( ici, la taille )
sera représentée
sur l’axe des ordonnées.
La graduation des axes est importante.
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2
Sur un même axe, la distance entre les échelons doit être égale.
Pour une meilleure interprétation, le graphique devrait avoir une forme approximativement carrée.
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2
Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution ( chaque colonne ).
L1: 16 – 11 = 5
Comme l’étendue est très petite, chaque petit trait vaudra 1.
On commence avec un nombre inférieur à la première donnée et on termine avec un nombre supérieur à la dernière donnée.
donc de 10 à 17
10 11 12 13 14 15 16 17
Remarque:
Comme chaque trait représente une unité et que par rapport à l’origine il y a plusieurs unités qu’on n’utilise pas, il faut penser à mettre ce petit symbole:
Âge
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2
Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution ( chaque colonne ).
Ici, l’étendue de la distribution est de 180 – 123 donc de 57. On peut donc utiliser 6 intervalles d’une largeur de 10 unités chacun.
L2: - 123 = 57180
120
130
140
150
160
170
Pense à
Taille ( cm )
180
10 11 12 13 14 15 16 17 Âge
120
130
140
150
160
170Taille ( cm )
180
Nous pouvons maintenant tracer le nuage de points.
1111121212121213
13141414141515151516
13
142123142140160148148140
155155172160157155165165167180
161
L1 L2Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
Il faut être le plus précis possible.
Remarque:
on inscris alors un 2 à côté du point pour indiquer qu’il y en a 2.
ici, on a 2 fois le couple ( 12 , 148 );
2
2
Voilà, le nuage de points est tracé.
10 11 12 13 14 15 16 17 Âge
120
130
140
150
160
170Taille ( cm )
180
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
2
2
Le nuage de points est un graphique de dispersion.
Il nous renseigne sur la corrélation entre deux variables.
La densité des points est un bon indice de la force d’une corrélation.
Lorsque les points sont très près les uns des autres, la corrélation est forte.
2
3
4
5
6
7
8
9
10
2 3 4 5 6 7 8
Si les points sont situés un peu partout dans le graphique. La corrélation est faible.
456789
1011121314151617
2 4 6 8
Si les variables varient dans le même sens ( y augmente quand x augmente ) la corrélation est qualifiée de positive.
2
3
4
5
6
7
8
9
10
2 3 4 5 6 7 8
Si les variables varient dans le sens contraire ( y diminue quand x augmente ) la corrélation est qualifiée de négative.
-9
-8
-7
-6
-5
-4
-3
-2
2 3 4 5 6 7
Les nuages de points représentent des observations faites avec des variables différentes; ils peuvent donc prendre toutes sortes de formes.
2
3
4
5
6
7
8
9
10
2 3 4 5 6 7 8
4
5
6
2 3 4 5 6 7
4,8
5
5,2
5,4
5,6
5,8
6
6,2
4,5 5 5,5 6 6,5
Si les points tendent à former une droite oblique,
2
3
4
5
6
7
8
9
10
2 3 4 5 6 7 8
on dit que la corrélation est linéaire.
Nous nous intéresserons donc à ce type de nuage.
Nous verrons comment estimer le coefficient de corrélation, c’est-à-dire déterminer un nombre qui décrit la densité des points du nuage.
Comme la corrélation est linéaire, nous verrons comment en déterminer la droite de régression, c’est-à-dire y = ax + b.
Attention:
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
La ligne « Âge » dans ce tableau est dans le même sens que l’axe des abscisses du nuage de points.
10 11 12 13 14 15 16 17 Âge
Attention:
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
La colonne « taille » dans ce tableau n’est pas dans le même sens que l’axe des ordonnées du nuage de points.
120
130
140
150
160
170Taille ( cm )
180
ÂgeTaille
11 12 13 14 15 16 Total
Total
(cm)
2 5 3 4 4 1 19
[120 , 130[ 1 1
[130 , 140[ 0
[140 , 150[ 1 4 1 6
[150 , 160[ 1 2 1 4
[160 , 170[ 1 1 1 3 6
[170 , 180] 1 1 2
Pour que la colonne soit dans le même sens, il faudrait l’écrire de bas en haut comme l’axe des ordonnées.
120
130
140
150
160
170Taille ( cm )
180
Il est important de se souvenir de cette particularité pour interpréter le tableau.
Alors, la diagonale monterait; les variables iraient dans le même sens.
Il est important de se souvenir de cette particularité pour interpréter le tableau.
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
Même si la diagonale descend, la relation entre la taille et l’âge est dans le même sens.
La corrélation est donc positive.
ÂgeTaille
11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
(cm)
1
1 4
1
1
1
1
2
1
1
1
1
3
1
0
6
4
6
2
2 5 3 4 4 1 19
La corrélation est donc négative.
Ici la diagonale monte, la relation entre la taille et l’âge est dans le sens contraire.
2
3
4
5
6
7
8
9
10
2 3 4 5 6 7 8
-9
-8
-7
-6
-5
-4
-3
-2
2 3 4 5 6 7
Dans le nuage de points, si la droite est comme ceci;
x et y varient dans le même sens.
Dans le nuage de points, si la droite est comme ceci;
x et y varient dans le sens contraire.
la corrélation est positive.
la corrélation est négative.
1
1 4 1
1 2
1
1
1
1
3
5 3
4
Dans le tableau à double entrée, si la diagonale est comme ceci:
x et y varient dans le même sens; la corrélation est positive.
Dans le tableau à double entrée, si la diagonale est comme ceci:
x et y varient dans le sens contraire;
1
1
4
1
1 2
1
1
1
1
35
3
4
la corrélation est négative.
Le tableau à double entrée et le nuage de points sont deux modes de représentation d’une même réalité.
Ils ne fonctionnent pas de la même façon.