Initiation à l’utilisation du logiciel STATISTICA
Joseph LARMARANGEhttp://joseph.larmarange.net
Intervention du 9 janvier 20042ème année en Ressources HumainesGEA (Gestion des Entreprises et des Administrations)
IUT d’Orléans
Initiation à STATISTICA
Joseph LARMARANGE 2
Plan
Saisie des donnéesStatistiques descriptivesCorrélation linéaireTest du Khi 2
Initiation à STATISTICA
Joseph LARMARANGE 3
Principes d’un fichier STATISTICA
Les données sont saisies sous la forme d’un tableau.
En colonnes, des variables (soit le nombre d’information que nous avons pour chaque individu).
En lignes, des individus (cela peut-être des personnes physiques, des ménages, des institutions, etc.).
Initiation à STATISTICA
Joseph LARMARANGE 4
Exemple de données à saisir
Il s’agit du montant des ventes d’une équipe de 15 vendeurs.Pour chacun d’eux, on dispose
du sexe, de l’âge et du chiffre d’affaire réalisé.
Initiation à STATISTICA
Joseph LARMARANGE 5
Création d’un nouveau fichier (Fichier > Nouveau)
Indiquer le nombre de variables (3)
Et le nombre d’observations (ici 15)
Cliquez sur OK.
Initiation à STATISTICA
Joseph LARMARANGE 6
Création d’un nouveau fichier
Apparition du fichier de données.
On va maintenant spécifier le nom des variables
Initiation à STATISTICA
Joseph LARMARANGE 7
Nommer les variables
On donnera un nom court mais explicite. Mieux vaut éviter les caractères particuliers.
Il est aussi possible de faire une description détaillée des variables.
Initiation à STATISTICA
Joseph LARMARANGE 8
Nommer les variables
On donnera un nom court mais explicite. Mieux vaut éviter les caractères particuliers.
Il est aussi possible de faire une description détaillée des variables.
Initiation à STATISTICA
Joseph LARMARANGE 9
Les variables qualitatives
On privilégiera de saisir un code chiffre plutôt qu’un texte pour éviter les erreurs de saisie.
Cependant, il est toujours possible de donner une étiquette (valeurs-texte) aux différentes modalités.ATTENTION :Avant de cliquer, sur Valeurs-Texte, il faut d ’abord sélectionner la variable concernée.
Initiation à STATISTICA
Joseph LARMARANGE 10
Donner un texte court pour la Valeur-Texte.
Préciser la correspondance numérique.
Une étiquette pour préciser la modalité est disponible.
<< & >> servent à passer d ’une variable à l’autre.
Le nom de la variable concernée apparaît en haut à droite
Modifier les Valeurs-Texte
Initiation à STATISTICA
Joseph LARMARANGE 11
Saisie des données
Exemple 1 :
Sexe ÂgeChiffre
d’AffaireSexe Âge
Chiffred’Affaire
Homme 25 230 Homme 42 332Homme 32 257 Homme 34 165
Femme 23 200 Femme 36 352
Femme 35 197 Homme 29 318
Homme 41 409 Femme 24 400
Femme 28 287 Femme 31 255Femme 39 372 Homme 28 333
Femme 33 470
Initiation à STATISTICA
Joseph LARMARANGE 12
Saisie des données
On peut choisir d’afficher les Valeurs-Texte ou leur équivalent numérique en allant dans le menu
Affichage > Afficher les Valeurs-Texte
ou en cliquant sur le bouton
Initiation à STATISTICA
Joseph LARMARANGE 13
Statistiques descriptives
Aller dans le module Statistiques Élémentaires disponible dans le menu Statistiques.
Initiation à STATISTICA
Joseph LARMARANGE 14
Statistiques descriptives
Choisir les statistiques descriptives.
Initiation à STATISTICA
Joseph LARMARANGE 15
Choisir les variables
Un clic sur le bouton Variables.
Initiation à STATISTICA
Joseph LARMARANGE 16
Choisir les variables
Sélectionner les variables retenues pour l’analyse
Pour une liste continue de variables, utilisez la touche SHIFT (ou ) et pour une liste discontinue la touche CTRL
Initiation à STATISTICA
Joseph LARMARANGE 17
Statistiques descriptives
Cliquer sur le bouton Synthèse
Initiation à STATISTICA
Joseph LARMARANGE 18
Résultats
Initiation à STATISTICA
Joseph LARMARANGE 19
Pour poursuivre l’analyse
Cliquer sur ce bouton
Initiation à STATISTICA
Joseph LARMARANGE 20
Onglet Avancé
Cet onglet donne accès à un nombre plus important de statistiques
Initiation à STATISTICA
Joseph LARMARANGE 21
Petit rappel sur le coefficient de corrélation r
Initiation à STATISTICA
Joseph LARMARANGE 22
Exemple 2 :
Corrélation
Initiation à STATISTICA
Joseph LARMARANGE 23
Saisie des données
Initiation à STATISTICA
Joseph LARMARANGE 24
Corrélation
Choisir les matrices de corrélation dans les Statistiques élémentaires.
Initiation à STATISTICA
Joseph LARMARANGE 25
Définir les variables de l’analyse
Un clic sur le bouton 2 listes.
Initiation à STATISTICA
Joseph LARMARANGE 26
Définir les variables de l’analyse
Initiation à STATISTICA
Joseph LARMARANGE 27
Sous l’onglet Options, choisir Tableau détaillé.
Cliquer sur Synthèse.
Lancer l’analyse
Initiation à STATISTICA
Joseph LARMARANGE 28
Résultats détaillés
r(X,Y) est le coefficient de corrélation. Les résultats sont en rouge si les résultats sont
significatifs avec un risque d’erreur de 5% (p<0.05, le seuil est paramétrable sous l’onglet options). La valeur de p est fournie. t correspond à la statistique du test utilisé.
Initiation à STATISTICA
Joseph LARMARANGE 29
Résultats détaillés
N rappelle le nombre d’observations considérées.
La moyenne et l’écart-type de chacune des deux variables sont donnés à titre indicatif.
Initiation à STATISTICA
Joseph LARMARANGE 30
Résultats détaillés
Rappelons que le principe est de trouver une droite qui représente le mieux les deux variables. On cherche donc à modéliser le rapport entre X et Y de la forme Y = a X + b.
Mais il est aussi possible de modéliser sous la forme X = c Y + d.
Initiation à STATISTICA
Joseph LARMARANGE 31
Résultats détaillés
Statistica donne ces 4 coefficients :Y = a X + BX = c Y + d
Ainsi ici, Y = 0,18 X + 1,39 etX = 4,87 Y - 4,34
b a d c
Initiation à STATISTICA
Joseph LARMARANGE 32
Afficher la droite de régression
Un clic sur Nuages de points en 2D.
Initiation à STATISTICA
Joseph LARMARANGE 33
Afficher la droite de régression
Statistica trace la droite de régression ainsi que les valeurs observées représentées par un petit cercle.
Initiation à STATISTICA
Joseph LARMARANGE 34
Autre exemple :
Un psychologue de l’armée américaine a remarqué que les soldats qui fumaient le plus avaient tendance à contracter plus de rhumes que les fumeurs légers. Par ailleurs il pense que les fumeurs sont des personnalités plus stressées que les non-fumeurs et que ce facteur ‘stress’ pourrait être responsable de leur santé fragile.
Variables relevées :
CIGA : nombre de cigarettes fumées par semaineRHUM : nombre de rhumes contractés dans l’année écouléeSTRE : mesure du stress sur une échelle de 1 (faible) à 5
(élevé)
Exemple 3 :
Initiation à STATISTICA
Joseph LARMARANGE 35
Autre exemple :Exemple 3 :
Le tableau présente les résultatsobtenus par 20 soldats.
CIGA RHUM STRE CIGA RHUM STRE70 2 4 65 1 4
105 6 3 110 6 335 1 2 40 2 2
105 4 3 100 4 30 2 2 0 1 270 7 3 65 8 335 3 1 40 3 1
140 6 5 145 6 50 4 5 0 3 5
140 4 3 145 4 3
Initiation à STATISTICA
Joseph LARMARANGE 36
Résultats Nous avons affiché la
matrice de corrélation simple.
Il apparaît à p=5% qu’il y a une corrélation significative entre le nombre de cigarettes et le nombre de rhumes.
Par contre, le stress n’enregistre aucune corrélation significative avec les deux autres variables.
Initiation à STATISTICA
Joseph LARMARANGE 37
Test du Khi 2
Lors d'une étude sur la connaissance du sida chez les femmes guinéennes âgées de 15-49 ans, on a construit un indicateur de connaissance du sida répartie en quatre groupes : faible, moyenne, bonne et très bonne. Les données sont issues de l'Enquête de Démographie et de Santé 1999. On a comparé cet indicateur avec le niveau d'instruction des femmes. Les effectifs sont les suivants (elles portent sur 6.561 femmes) :
Exemple 4 :
Niveau d’instructionConnaissancedu sida Aucun Primaire Secondaire Supérieur
Faible 888 50 4 0Moyenne 2.230 204 99 9Bonne 1.018 170 114 16Très Bonne 1.142 249 267 101
Initiation à STATISTICA
Joseph LARMARANGE 38
Saisie des données
Nous avons 6.561 individus et 2 variables. Nous devrions donc remplir un tableau comportant 6.561 lignes et 2 colonnes.
Cependant, il apparaît que certains individus sont identiques (c’est-à-dire présentant exactement les mêmes valeurs pour chaque variables).Ainsi, nous avons 888 femmes qui ont toute une faible connaissance du sida et aucun niveau d’instruction.
Nous constatons qu’il y a en tout 16 « profils d’individu » différents.
Au lieu de rentrer les caractéristiques des 6.561 femmes, nous allons saisir les caractéristiques des 16 profils type et indiquer dans une troisième variable (le poids) le nombre de femmes que ce profil représente.
C’est le principe de la pondération.
Initiation à STATISTICA
Joseph LARMARANGE 39
Saisie des données
Nous allons donc créer un fichier comportant 16 observations et 3 variables.
Pour la connaissance du sida, nous coderons 1 une faible connaissance, 2 une moyenne, 3 une bonne et 4 une très bonne.
Pour le niveau d’instruction, 0 pour aucun, 1 pour primaire, 2 pour secondaire et 3 pour supérieur.
Initiation à STATISTICA
Joseph LARMARANGE 40
Saisie des données
Voici le fichier de données que nous obtenons.
Initiation à STATISTICA
Joseph LARMARANGE 41
Test du Khi 2
Choisir les tableaux et tris croisés dans les Statistiques élémentaires.
Initiation à STATISTICA
Joseph LARMARANGE 42
Saisir les variables
Un clic sur Spécifier les tables.
Initiation à STATISTICA
Joseph LARMARANGE 43
Saisir les variables
Sélectionner les variables de l’analyse
Initiation à STATISTICA
Joseph LARMARANGE 44
Préciser la pondération
Cliquer sur ce bouton
Ce bouton est accessible dans toutes les fenêtres de Statistica, la pondération pouvant être utilisée pour n’importe quel calcul.
Initiation à STATISTICA
Joseph LARMARANGE 45
Préciser la pondération
Sélectionner la variable de pondération
Activer la pondération Un double clic dans le champ
d’édition du nom de la variable ouvre une liste de l ’ensemble des variables du fichier.
Initiation à STATISTICA
Joseph LARMARANGE 46
Lancer l’analyse
Cliquez deux fois sur OK. Aller sous l’onglet Options. Sélectionner Chi² & Pearson
et Effectifs théoriques
Initiation à STATISTICA
Joseph LARMARANGE 47
Premier tableau de résultats
Pour naviguer d’un tableau à l’autre
Il s’agit du tableau croisé des effectifs.
Initiation à STATISTICA
Joseph LARMARANGE 48
Second tableau de résultats
Affichage des effectifs théoriquesRappel : il s’agit des effectifs que l’on aurait si les deux variables étaient parfaitement indépendantes.
Ici p est inférieur à 0,05. On en déduit qu’avec une erreur de première espèce de 5% que les deux variables ne sont pas indépendantes.NB : petit hic, normalement on ne doit pas avoir d’effectifs inférieurs à 5 (ou à 10 pour plus de précision). Il serait donc préférable de regrouper auparavant certaines catégories.
Initiation à STATISTICA
Joseph LARMARANGE 49
Autre exemple :
Dans une enquête sur le réseau Internet auprès de 1006 personnes, une des questions posées était la suivante:" Personnellement quelle est votre attitude à l'égard de cette nouvelle application de la micro-informatique ? Vous êtes... Passionné, Intéressé, Indifférent,Dépassé, Agacé,ou ne se prononce pas (NSP).
Les personnes interrogées ont été regroupées en 5 catégories d'âge :18-24 ans, 25-34 ans, 34-49 ans, 50-64 ans, plus de 65 ans.
Exemple 5 :
Initiation à STATISTICA
Joseph LARMARANGE 50
Autre exemple :Exemple 5 :
Groupe d’âgesInternet
18-24 25-34 34-49 50-64 65&+Passionné 15 5 9 9 2Intéressé 72 84 112 96 28Indifférent 34 68 112 144 52Dépassé 10 10 23 21 16Agacé 7 7 26 24 6NSP 0 0 6 6 2
Voici les données observées.Étant donné le très faible nombre de NSP, nous n’en tiendrons pas compte.L’analyse portera donc sur 992 individus.
Initiation à STATISTICA
Joseph LARMARANGE 51
Fichier de données
Tableau à 3 colonnes et 25 lignes(puisqu’on ne tient pas compte des NSP)
Initiation à STATISTICA
Joseph LARMARANGE 52
Résultats
p < 0,05 L’attitude à l’égard de Internet diffère avec l ’âge.
Initiation à STATISTICA
Joseph LARMARANGE 53
Liens
Ce diaporama est disponible, ainsi que les fichiers des exemples, à l’adressehttp://joseph.larmarange.free.fr
Les statistiques élémentaires sont disponibles gratuitement dans la version de démonstration de statistica disponible sur internet :http://www.statsoft.com/french/welcome.html