statistique tableau à double entrée nuage de points

Statistique

Tableau à double entrée

Nuage de points

Les travaux statistiques sont d’abord et avant tout des travaux d’observations sur des phénomènes, des objets, des populations…

En sciences, l’analyse de données issues d’expériences ou d’études statistiques est un élément essentiel de la recherche.

Vérifier s’il existe une relation entre certaines variables ou entre deux caractères quantitatifs d’une distribution est l’une des premières démarches des scientifiques.

Une fois qu’un lien est mis en évidence et que son intensité a été mesurée, il devient possible de le modéliser à l’aide d’une fonction.

Dans cette présentation, nous apprendrons à construire deux nouveaux outils:

- le tableau à double entrée ou tableau de corrélation:

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille

- le nuage de points ou diagramme de dispersion:

10 11 12 13 14 15 16 17 Âge

120

130

140

150

160

170Taille ( cm )

180


2

2

Ces deux types de représentation servent à déterminer la corrélation entre deux caractères ( variables ) d’une population.

Rappels:

Les premières études de la statistique portaient sur les populations humaines.

Le terme « population » est resté mais aujourd’hui, en statistique, ce terme désigne aussi bien des objets, des phénomènes que des humains.

Exemple: Si on s’intéresse à la qualité de l’eau des piscines d’une municipalité, la population étudiée est « les piscines ».

Le terme « caractère » signifie le sujet de l’étude. Dans l’exemple des piscines, le caractère étudié est « la qualité de l’eau » .

Les différents caractères d’une étude statistique peuvent être aussi appelés les variables à l’étude.

Souvent, l’étude de toute une population est impossible; on se sert alors d’un échantillon, c’est-à-dire un petit ensemble représentatif de toute la population.

Exemple: On ne pourrait pas étudier toute la population des morues qui vivent en mer; cependant, on pourrait faire l’étude des morues capturées par plusieurs pêcheurs. On aurait alors un échantillon.

On collecte différentes informations quantitatives et/ou qualitatives et on les organise pour qu’elles nous apprennent des choses.

Exemples d’informations qualitatives: sexe, couleur des yeux, opinion politique, …

Exemples d’informations quantitatives: l’âge, le poids, le salaire, le nombre de

bactéries, etc.; tout ce qui représente une

quantité donc mesurable.

Le tableau à double entrée et le nuage de points utilisent principalement des données quantitatives.

Le mot « corrélation » signifie simplement une relation entre deux choses.

La corrélation statistique sert donc à quantifier la liaison mathématique entre deux variables.

Ces deux variables doivent donc être quantitatives.

Le tableau à double entrée

Lors d’une étude statistique, on obtient plusieurs informations ( plusieurs variables ).

Le tableau à double entrée

permet de savoir s’il existe

un lien entre certaines variables.

BERNADETTE

ANDREE BARBARA

GAETANE JEANNE MARTINE ODILE SOLANGE

ANTOINE HENRI PATRICK THOMAS BRUNO FRANÇOIS JEANMATHIAS PHILIPPEXAVIER

VALENTINE

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

FFFFFFFF

MMMMMMMMMM

F

38,244.346,138,250,522,440,434,7

50,538,157,339,346,137,145,966,360,050,5

50,5

Individu Âge Sexe Taille (cm)

Poids(Kg)

Quelques caractéristiques d’un groupe d’adolescents

Prenons un exemple:

Voici un tableau de compilation représentant un échantillon de 19 adolescents.

Ce tableau nous donne 4 informations concernant certains individus: l’âge, le sexe, la taille et le poids.

Existe-il un lien entre l’âge et la taille ?

Existe-il un lien entre la taille et le poids ?

Pour le savoir, nous allons construire un tableau à double entrée en utilisant uniquement les variables « âge et taille ».

Existe-il un lien entre l’âge et la taille ?

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm) À l’aide de ce tableau, on construit un tableau à double entrée:

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

Âge 11 12 13 14 15 16 Total

On place une des variables en colonnes, ici l’âge, qui varie de 11 à 16 ans.

On garde une dernière colonne pour

le total des effectifs de chaque ligne.

Ici, l’âge ne comporte pas beaucoup de données différentes; on peut donc toutes les utiliser.

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Âge 11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

On place l’autre variable, en lignes, ici, la taille.

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Ici, l’écart entre les données est assez considérable; il est donc préférable d’utiliser des classes.

On garde une dernière ligne pour

le total des effectifs de chaque colonne.

Taille(cm)

Remarque: On aurait pu inverser les variables; mettre l’âge en lignes et la taille en colonnes.

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Rappel Pour déterminer les classes:

on regarde la plus petite donnée;

on regarde la plus grande donnée;

on construit des classes d’égale largeur;

il n’y a pas de règle absolue pour la construction des classes; on utilise habituellement entre 6 et 10 classes en utilisant pour chaque classe, une largeur significative.

La classe [ 121 , 133 [ n’est pas très significative ( pas très facile à lire ).

La classe [ 120 , 130 [ est plus significative ( facile à lire ).

Ici, l’étendue de la distribution est de 180 – 123 donc de 57. On peut donc utiliser 6 classes d’une largeur de 10 unités chacune.

La première classe doit débuter un peu avant la première donnée, ici, 123 donc [ 120 ,

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Remarque sur les crochets [ , [

La classe [ 120 , 130 [

Ce crochet fermé indique que 120 est compris dans cette classe ainsi que tous les nombres jusqu’à 130

Remarque:

étant donné que 180 est la dernière donnée et qu’elle respecte la largeur de la classe, on peut refermer le crochet dessus, ce qui signifiera que 180 fera parti de cette classe: [ 170 , 180 ] .

mais pas 130. C’est pour cela que lecrochet est ouvert.

On aurait pu ouvrir une dernière classe pour 180, soit [ 180 , 190 [ mais

Dépendamment des distributions de données avec lesquelles on travaille, les tableaux à double entrée peuvent être construits avec des données ordinaires ou des données regroupées en classe.

Poids\Taille 160 175 18050 155 160 170 2

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Les colonnes et les lignes du tableau sont bien identifiées;

il ne manque qu’un titre.


ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

Nous pouvons maintenant compiler les données.

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Présentement les données sont inscrites d’une manière désordonnée.

Pour t’aider à la compilation, il serait préférable de les mettre en ordre croissant.

Tu peux faciliter ce travail avec la calculatrice à affichage graphique.

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Il faut d’abord entrer les données.

Pèse sur la touche STAT

dans le menu qui apparaît,

EDIT CALC1: Edit…2: SortA(3: SortD(4: Clrlist

sélectionne 1: Edit

Tu obtiendras une autre fenêtre;

L1 L2

dans la colonne L1, inscris les valeurs pour l’âge.

À chaque entrée, pèse sur ENTER.

Déplace-toi dans la colonne L2 avec les flèches et inscris les valeurs pour la taille.

Tu devrais avoir deux listes inscrites comme dans le tableau ci-contre.

13

13

14

140

161

155

Appelle maintenant la deuxième colonne

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm) EDIT CALC

1: Edit…2: SortA(3: SortD(4: Clrlist

Maintenant, repèse sur STAT

sélectionne 2: SortA(SortA(

La fenêtre qui apparaît, indique que la calculatrice est prête à mettre les données en ordre croissant.

Appelle tes deux colonnes comme suit:

2nd puis la touche 1

Tu remarqueras, au-dessus,il est inscrit L1.

La calculatrice affiche alors L1

L1

maintenant, inscris une virgule.

,

2nd puis la touche 2

L2

ATTENTION: tu dois inscrire une virgule.

La calculatrice affiche L2.

SortA( , L2L1

Pèse sur ENTER,

La calculatrice affichera DONE

DONELes listes sont prêtes.

Remarque:

Quand tu effectues cette opération, la calculatrice met en ordre croissant la colonne L1 qui correspond à la variable de référence ( dans le graphique, cette variable sera représentée sur l’axe des abscisses );

mais elle ne le fait pas pour la deuxième colonne car elle garde le lien d’association qui existait entre les variables avant l’opération.

Pour retrouver les listes, refais dans l’ordre:

STAT/ 1: Edit

et regarde les nouvelles listes.

1313141215111412

14131211141212161515

15

140161155148155123160140

172155160142157142148180167165

165

Âge Taille (cm)

Avant Après

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2La colonne L1 est en ordre croissant.

Le lien d’association est inchangé.

Attention: Quand tu as terminé d’entrer les données, vérifie pour être certain de ne pas avoir fait d’erreur avant d’effectuer la mise en ordre, sinon, tu devras tout recommencer !

Remarque:

Si tu as plusieurs listes de données, tu peux faire la même démarche.

La première liste sera en ordre croissant et toutes les autres listes garderont le lien d’association avec elle et entre elles.

Tu n’as qu’à procéder ainsi:

SORTA( L1 , L2 , L3, L4Exemple pour 4 listes:

La première liste ( L1 ) est en ordre croissant et toutes les autres listes ont gardé le lien d’association).

Bien entendu, la première liste sera en ordre croissant mais pas les autres.

Pour corriger une donnée:

Positionne le curseur sur la donnée, inscris la bonne donnée et pèse sur ENTER.

Si tu as fait plusieurs erreurs dans la même colonne:

EDIT CALC1: Edit…2: SortA(3: SortD(4: Clrlist

L1 L2

13

13

14

140

161

155

162

Positionne le curseur sur l’entête de la colonne,

Pèse sur CLEAR puis sur ENTER;

Exemple: la colonne L2.

La colonne est vide.

Pour effacer toutes les listes de données rapidement:

Retourne dans STAT,

EDIT CALC1: Edit2: SortA(3: SortD(4: ClrlistSélectionne 4: Crllist

Crllist

Rappelle les listes:

2nd 1 2nd 2,

Fais ENTER

L1 , L2

Les listes sont vides.

Nous sommes prêts pour la compilation.

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

Fais correspondre chaque couple dans la bonne case en indiquant un trait.

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

Maintenant, transforme ces barres en nombres.

1

1 4

1

1

1

1

2

1

1

1

1

3

Fais le total de chaque ligne et de chaque colonne.

1

0

6

4

6

2

2 5 3 4 4 1 19

Le total de la dernière ligne et de la dernière colonne devrait être 19 puisqu’ils y avaient 19 adolescents dans l’échantillon.

Si le total de ton tableau ne correspond pas à l’échantillon que tu étudies, tu dois avoir une erreur à quelque part.

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

Le tableau à double entrée donne certaines informations sur la répartition d’une distribution.

Exemple: Ici, la majorité des adolescents de cet échantillon ont entre 12 et 15 ans et ont une taille entre 140 et 170 centimètres.

Quelques exceptions existent.

Le tableau à double entrée est terminé.


ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

Un tableau à double entrée démontre parfois une certaine corrélation quand les couples inscrits sont proches d’une des diagonales du tableau.

Exemple: Dans cet exemple, une corrélation semble exister .


1

1

4

1

1 2

1

1

1

1

35

3

4

Ici, la corrélation semble assez forte puisque les données gravitent très près de la diagonale.

1

1

4 1

1

2 1

1

1

3

5

3

4

Ici, la corrélation est pratiquement nulle puisque les données sont dispersées dans tout le tableau.

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

Mais cette façon d’estimer une corrélation à partir d’un tableau est peu précise; elle donne une idée mais reste très approximative.

Il nous faut donc un autre moyen plus précis, le nuage de points.


Le nuage de points

Le nuage de points ( appelé aussi diagramme de dispersion ) est un graphique cartésien montrant les points correspondants aux couples d’une relation statistique.

Utilisons l’exemple de l’âge et la taille

de l’échantillon de 19 adolescents.

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2

Remarque:

Comme pour la construction du tableau à double entrée, il est préférable, pour faciliter le travail, de commencer par mettre la liste de données en ordre croissant par rapport à une des variables.

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2

Chaque couple de données peut s’écrire comme un couple de coordonnées dans le plan cartésien.

Exemple:

( 11, 142 )

Il s’agit alors d’inscrire chaque couple dans un plan cartésien.

La première coordonnée

( ici, l’âge )

sera représentée

sur l’axe des abscisses.

La deuxième coordonnée

( ici, la taille )

sera représentée

sur l’axe des ordonnées.

La graduation des axes est importante.

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2

Sur un même axe, la distance entre les échelons doit être égale.

Pour une meilleure interprétation, le graphique devrait avoir une forme approximativement carrée.

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2

Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution ( chaque colonne ).

L1: 16 – 11 = 5

Comme l’étendue est très petite, chaque petit trait vaudra 1.

On commence avec un nombre inférieur à la première donnée et on termine avec un nombre supérieur à la dernière donnée.

donc de 10 à 17

10 11 12 13 14 15 16 17

Remarque:

Comme chaque trait représente une unité et que par rapport à l’origine il y a plusieurs unités qu’on n’utilise pas, il faut penser à mettre ce petit symbole:

Âge

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2

Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution ( chaque colonne ).

Ici, l’étendue de la distribution est de 180 – 123 donc de 57. On peut donc utiliser 6 intervalles d’une largeur de 10 unités chacun.

L2: - 123 = 57180

120

130

140

150

160

170

Pense à

Taille ( cm )

180

10 11 12 13 14 15 16 17 Âge

120

130

140

150

160

170Taille ( cm )

180

Nous pouvons maintenant tracer le nuage de points.

1111121212121213

13141414141515151516

13

142123142140160148148140

155155172160157155165165167180

161

L1 L2Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille

Il faut être le plus précis possible.

Remarque:

on inscris alors un 2 à côté du point pour indiquer qu’il y en a 2.

ici, on a 2 fois le couple ( 12 , 148 );

2

2

Voilà, le nuage de points est tracé.

10 11 12 13 14 15 16 17 Âge

120

130

140

150

160

170Taille ( cm )

180


2

2

Le nuage de points est un graphique de dispersion.

Il nous renseigne sur la corrélation entre deux variables.

La densité des points est un bon indice de la force d’une corrélation.

Lorsque les points sont très près les uns des autres, la corrélation est forte.

2

3

4

5

6

7

8

9

10

2 3 4 5 6 7 8

Si les points sont situés un peu partout dans le graphique. La corrélation est faible.

456789

1011121314151617

2 4 6 8

Si les variables varient dans le même sens ( y augmente quand x augmente ) la corrélation est qualifiée de positive.

2

3

4

5

6

7

8

9

10

2 3 4 5 6 7 8

Si les variables varient dans le sens contraire ( y diminue quand x augmente ) la corrélation est qualifiée de négative.

-9

-8

-7

-6

-5

-4

-3

-2

2 3 4 5 6 7

Les nuages de points représentent des observations faites avec des variables différentes; ils peuvent donc prendre toutes sortes de formes.

2

3

4

5

6

7

8

9

10

2 3 4 5 6 7 8

4

5

6

2 3 4 5 6 7

4,8

5

5,2

5,4

5,6

5,8

6

6,2

4,5 5 5,5 6 6,5

Si les points tendent à former une droite oblique,

2

3

4

5

6

7

8

9

10

2 3 4 5 6 7 8

on dit que la corrélation est linéaire.

Nous nous intéresserons donc à ce type de nuage.

Nous verrons comment estimer le coefficient de corrélation, c’est-à-dire déterminer un nombre qui décrit la densité des points du nuage.

Comme la corrélation est linéaire, nous verrons comment en déterminer la droite de régression, c’est-à-dire y = ax + b.

Attention:

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

La ligne « Âge » dans ce tableau est dans le même sens que l’axe des abscisses du nuage de points.

10 11 12 13 14 15 16 17 Âge

Attention:

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

La colonne « taille » dans ce tableau n’est pas dans le même sens que l’axe des ordonnées du nuage de points.

120

130

140

150

160

170Taille ( cm )

180

ÂgeTaille

11 12 13 14 15 16 Total

Total

(cm)

2 5 3 4 4 1 19

[120 , 130[ 1 1

[130 , 140[ 0

[140 , 150[ 1 4 1 6

[150 , 160[ 1 2 1 4

[160 , 170[ 1 1 1 3 6

[170 , 180] 1 1 2

Pour que la colonne soit dans le même sens, il faudrait l’écrire de bas en haut comme l’axe des ordonnées.

120

130

140

150

160

170Taille ( cm )

180

Il est important de se souvenir de cette particularité pour interpréter le tableau.

Alors, la diagonale monterait; les variables iraient dans le même sens.

Il est important de se souvenir de cette particularité pour interpréter le tableau.

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

Même si la diagonale descend, la relation entre la taille et l’âge est dans le même sens.

La corrélation est donc positive.

ÂgeTaille

11 12 13 14 15 16

[120 , 130[

[130 , 140[

[140 , 150[

[150 , 160[

[160 , 170[

[170 , 180]

Total

Total

(cm)

1

1 4

1

1

1

1

2

1

1

1

1

3

1

0

6

4

6

2

2 5 3 4 4 1 19

La corrélation est donc négative.

Ici la diagonale monte, la relation entre la taille et l’âge est dans le sens contraire.

2

3

4

5

6

7

8

9

10

2 3 4 5 6 7 8

-9

-8

-7

-6

-5

-4

-3

-2

2 3 4 5 6 7

Dans le nuage de points, si la droite est comme ceci;

x et y varient dans le même sens.

Dans le nuage de points, si la droite est comme ceci;

x et y varient dans le sens contraire.

la corrélation est positive.

la corrélation est négative.

1

1 4 1

1 2

1

1

1

1

3

5 3

4

Dans le tableau à double entrée, si la diagonale est comme ceci:

x et y varient dans le même sens; la corrélation est positive.

Dans le tableau à double entrée, si la diagonale est comme ceci:

x et y varient dans le sens contraire;

1

1

4

1

1 2

1

1

1

1

35

3

4

la corrélation est négative.

Le tableau à double entrée et le nuage de points sont deux modes de représentation d’une même réalité.

Ils ne fonctionnent pas de la même façon.

statistique tableau à double entrée nuage de points

Documents