statistique core international management program 2008/2009 michel tenenhaus
TRANSCRIPT
STATISTIQUECore International Management Program
2008/2009
Michel Tenenhaus
2
STATISTIQUE ?
Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir.
Simplifier une réalité complexe à l’aide de graphiques.
Simplifier une réalité complexe à l’aide de modèles mathématiques.
Outils de manipulation de grosses bases de données pour identifier et segmenter la clientèle d’une entreprise (data mining).
Décrire ?
4
Exemple 1Enquête FT sur les MBA 2001
100 MBA12 caractéristiques de l’école :
Women Faculty, Women Students, Women board,
International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating
2 caractéristiques des diplômés :Salary today (weighted), Salary % increase
Extrait des données de l’enquête FT sur les MBA 2001
1 University of Pennsylvania: Wharton 76 151714 225.4 ... 100 100 91
2 Harvard Business School 75 164152 216.0 100 47 100
3 Stanford University GSB 73 171318 205.5 92 76 85
4 University of Chicago GSB 70 143935 245.4 97 56 86
5 Columbia University GSB 70 140886 250.5 94 36 72
6 MIT: Sloan 69 148986 200.0 100 68 70
7 Insead 68 127190 143.4 98 15 46
8 London Business School 65 113538 159.9 97 47 63
9 Northwestern University: Kellogg 65 130101 191.6 100 68 53
10 New York University: Stern 64 119780 203.8 96 73 62
11 IMD 62 126656 119.5 96 0 22
... ... ...
51 Arizona State University 48 96748 143.1 100 26 42
52 HEC 48 100284 109.9 ... 73 25 353 Babson College: FW Olin 47 94037 164.4 90 0 16
53 Rice University: Jones 47 101105 162.6 95 0 25
55 Thunderbird 47 81483 148.7 87 0 17
... ...
61 ESCP-EAP 46 83401 75.2 80 0 2
... ... ... ... ...
67 IEP 46 83243 75.7 100 8 8
... ... ...
100 Norwegian School of Management 38 58978 74.0 86 2 11
Rank 2001 School Name FT ScoreSalary
weightedSalary
Increase ...
Faculty withdoctorates
(%)FT Doctoral
ratingFT Research
rating
Analyse factorielle des MBA
1
2
0
Harvard
HEC
**
Warwick
*
X1 = Women Faculty
X2 = WomenStudent
X14 = Salaryincrease . . .
Analyse Factorielle des MBA : Carte des MBA
Analyse réalisée sur les 67 premiers MBA
Analyse Factorielle des MBACarte des caractéristiques utilisées pour l’analyse
Les variables fléchées en pointillés sont illustratives.
Conclusion : HEC troisième MBA non anglo-saxon
FT Research rating
120100806040200-20
Sa
lary
we
igh
ted
180000
160000
140000
120000
100000
80000
60000
40000
US/UK/Autre
Autre
UK
US
Total Population
HEC
Dartmouth
IMD
LBS
INSEAD
MIT
StanfordHarvard
Wharton
Exemple 2 : les races canines
Race Taille Poids Vitesse Intell. Affect. Agress. Fonction123456789101112131415161718192021222324252627
BeauceronBassetBerger-AllemandBoxerBull-DogBull-MastiffCanicheChihuahuaCockerColleyDalmatienDobermanDogue AllemandEpagneul BretonEpagneul FrançaisFox-HoundFox-TerrierGrd Bleu de GascogneLabradorLévrierMastiffPékinoisPointerSaint-BernardSetterTeckelTerre-Neuve
TA++TA-TA++TA+TA-TA++TA-TA-TA+TA++TA+TA++TA++TA+TA++TA++TA-TA++TA+TA++TA++TA-TA++TA++TA++TA-TA++
PO+PO-PO+PO+PO-PO++PO-PO-PO-PO+PO+PO+PO++PO+PO+PO+PO-PO+PO+PO+PO++PO-PO+PO++PO+PO-PO++
V++V-V++V+V-V-V+V-V-V++V+V++V++V+V+V++V+V+V+V++V-V-V++V-V++V-V-
INT+INT-INT++INT+INT+INT++INT++INT-INT+INT+INT+INT++INT-INT++INT+INT-INT+INT-INT+INT-INT-INT-INT++INT+INT+INT+INT+
AF+AF-AF+AF+AF+AF-AF+AF+AF+AF+AF+AF-AF-AF+AF-AF-AF+AF-AF+AF-AF-AF+AF-AF-AF-AF+AF-
AG+AG+AG+AG+AG-AG+AG-AG-AG+AG-AG-AG+AG+AG-AG-AG+AG+AG+AG-AG-AG+AG-AG-AG+AG-AG-AG-
UtilitéChasseUtilitéCompagnieCompagnieUtilitéCompagnieCompagnieCompagnieCompagnieCompagnieUtilitéUtilitéChasseChasseChasseCompagnieChasseChasseChasseUtilitéCompagnieChasseUtilitéChasseCompagnieUtilité
Le tableau disjonctif complet
Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité__________ _____ _____ ______ _____ _____ ______ _____ _____ _____ _____ ______ _____ ______ ______ ______ _____ _________ ________ ________
Beauceron 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 1Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0Berger all 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0Bull-dog 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Bull Mastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1Dogue all 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1Epagneul br 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0Epagneul fr 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0Fox-Hound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0Fox-Terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0Grd Bl de G 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0Lévrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1Pékinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0St-Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Terre neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1
xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon
Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant
Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet)
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
bull-dog 5 teckel 26 chihuahua 8 pékinois 22 caniche 7 cocker 9 fox-terrier 17 epagneul breton 14 labrador 19 boxer 4 dalmatien 11 dogue allemand 13 mastiff 21 saint-bernard 24 terre-neuve 27 bull-mastiff 6 berger allemand 3 dobermann 12 beauceron 1 pointer 23 setter 25 levrier 20 epagneul français 15 colley 10 fox-hound 16 grd bleu de gasc 18 basset 2
Visualisation de la classification des chiens en 4 groupes
Facteur 1
420-2-4
Fa
cte
ur
2
4
3
2
1
0
-1
-2
-3
-4
terre-neuveteckel
setter
saint-bernard
pointer
pékinois
mastiff
levrier
labrador
grd bleu de gasc
fox-terrier
fox-hound
epagneul français
epagneul breton
dogue allemand
dobermann
dalmatien
colley
cocker
chihuahua
caniche
bull-mastiff
bull-dog
boxer
berger allemand
basset
beauceron
Les signes de ponctuation chez Zola(Brunet, 1985)
Roman ! ? , ; : - 1. Thérèse Raquin 3468 236 138 76 6195 691 168 285 543 2. Madeleine Ferrat 5131 362 236 245 8012 922 291 518 1115 3. La fortune des Rougon 6157 238 534 229 11346 936 362 711 1301 4. La curée 4958 443 357 232 11164 738 364 679 1200 5. Le ventre de Paris 5538 534 426 232 13234 1015 318 734 1201 6. La conquête de Plassans 6292 943 756 512 11585 1285 402 1432 1916 7. La faute de l'abbé Mouret 6364 679 859 462 13948 634 377 1067 1564 8. Son excellence Eugène Rougon 7258 728 1002 496 14295 889 543 1469 1907 9. L'assommoir 7820 769 1929 443 19244 1399 436 995 2272 10 Une page d'amour 6206 843 918 492 11953 647 347 1235 1409 11. Nana 7821 1007 1796 611 17881 1087 509 1523 1797 12. Pot Bouille 6875 1045 1873 651 17044 912 675 1669 1935 13. Au bonheur des dames 6916 808 1313 651 18402 972 642 1531 2114 14. La joie de vivre 5803 710 972 623 13917 602 420 1142 1590 15. Germinal 7944 606 1463 729 21388 908 621 1362 2083 16. L'Œuvre 5000 774 1692 668 18292 811 566 1107 1489 17. La terre 6979 957 2307 796 23417 947 657 1681 2113 18. Le rêve 3052 292 385 237 9551 345 230 416 650 19. La bête humaine 5484 601 929 557 18264 673 467 957 1721 20. L'argent 5022 850 1235 569 19267 684 399 1049 1677 21. La débâcle 7440 860 1833 690 26482 832 564 1398 2197 22. Le docteur Pascal 4586 621 1072 464 15598 462 315 955 1218
Analyse Factorielle des Correspondances
Expliquer ?
Salaire des professeurs duGroupe HEC
Compta-Contrôle 32.5 46 M 1 0 0 0 4 1
Compta-Contrôle 32.0 46 M 1 0 0 0 4 1
Compta-Contrôle 31.0 48 M 1 0 1 1 4 1
Compta-Contrôle 30.0 52 M 0 0 0 0 4 1
Compta-Contrôle 30.0 50 M 1 1 0 1 4 4
Compta-Contrôle 30.0 62 M 0 0 0 1 4 1
Compta-Contrôle 29.5 50 M 1 0 0 0 4 2
Compta-Contrôle 29.5 54 M 1 0 0 0 3 3
Compta-Contrôle 28.5 51 M 0 1 0 0 4 1
.... ... ... ... ... ... ... ... ... ...
S.P.E. 36.0 48 M 1 1 0 1 4 1
S.P.E. 36.0 52 M 1 0 1 1 4 2
S.P.E. 36.0 60 M 0 1 0 1 4 2
S.P.E. 35.0 55 M 0 0 0 0 4 1
S.P.E. 33.5 48 M 1 0 0 0 4 1
S.P.E. 31.5 46 M 1 0 0 0 4 2
S.P.E. 31.0 51 M 0 0 0 1 3 2
S.P.E. 28.5 48 M 0 0 0 0 4 1
S.P.E. 28.5 38 M 1 0 0 0 4 5
S.P.E. 27.5 51 M 1 0 0 0 4 1
S.P.E. 26.5 51 M 0 1 0 0 2 2
S.P.E. 22.0 31 M 1 0 0 0 4 5
S.P.E. 19.5 36 M 0 0 0 0 3 4
S.P.E. 17.0 30 M 0 0 0 0 4 4
S.P.E. 16.0 35 M 0 0 1 0 4 4
1
2
3
4
5
6
7
8
9
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
DEPARTEMENT CRAN AGE SEXE HEC DOC PHD DIRECT PEDAGO RECH
Salaire en fonction de l’age
AGE
706050403020
CR
AN
40
30
20
10
0
HEC
OUI
NON
Pédagogie et HEC
HEC
OUINON
Co
un
t40
30
20
10
0
PEDAGOGIE
1
2
3
4
24
37
5
17
11
2
Recherche et HEC
HEC
OUINONC
ou
nt
100
90
80
70
60
50
40
30
20
10
0
RECHERCHE
5
4
3
2
1
179
14
15
7
19
21
18
4139
HEC
OUINON
Co
un
t
30
20
10
0
RECHERCHE
1
2
3
4
5
56
4
10
2
13
6
12 12
26
Modèle de salaire des professeurs
0 1 2 3 4
107
5 6 118
129
13PédagogieRecherche
11
22
33
44
5
Cran Age HEC Doctorat PhD
00
Directeur Homme
Estimation du modèle par la méthode des moindres carrés
Coefficientsa
-12.792 4.120 -3.105 .003 -20.988 -4.596
.557 .053 .774 10.495 .000 .451 .662
2.593 .938 .195 2.764 .007 .727 4.460
.972 .999 .079 .974 .333 -1.014 2.959
1.197 1.186 .081 1.009 .316 -1.162 3.556
2.685 1.064 .164 2.524 .014 .569 4.801
1.163 1.523 .053 .764 .447 -1.867 4.193
6.448 2.898 .337 2.225 .029 .682 12.214
7.786 2.809 .536 2.772 .007 2.199 13.374
9.322 2.728 .736 3.417 .001 3.895 14.750
1.900 1.079 .122 1.761 .082 -.247 4.048
1.889 1.222 .112 1.546 .126 -.542 4.320
2.200 1.306 .127 1.684 .096 -.398 4.798
5.495 1.444 .287 3.806 .000 2.623 8.367
(Constant)
AGE
HEC
DOC
PHD
DIRECT
HOMME
P2
P3
P4
R2
R3
R4
R5
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig. Lower Bound Upper Bound
95% Confidence Interval for B
Dependent Variable: CRANa.
Un paramètre est significativement différent de 0 si son intervallede confiance ne contient pas 0.
Estimation du modèle par la méthode des moindres carrés
PédagogieRecher
11
22
33
44
5
Cran théorique -12.792 .557Age 2.593HEC .972Doctorat
1.197PhD 2.685Directeur 1.163Homme
00
1.9006.448
1.8897.786
2.2009.322
5.495
che
Qualité du modèle
Cran théorique
40302010
Cra
n o
bse
rvé
40
30
20
10
0
26
Référendum sur la constitution européenne
Vote constitution européenne
Sexe Classe d'age Proximité politique
Dernier diplôme Confiance
en son avenir
Oui Femme 25-34 PS Bac+3/4 Confiant+ Oui Homme 60 et + PS < Bac Confiant- Oui Femme 35 à 44 ans UMP Bac+3/4 Nsp Oui Homme 45-59 PS Bac Confiant++ Oui Femme 35 à 44 ans UMP Bac+5/Grande école Confiant++ Oui Homme 25-34 UMP Bac Confiant+ Oui Femme 25-34 UMP Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+5/Grande école Confiant+ Oui Femme 35 à 44 ans UDF Pas de diplôme Confiant+ Oui Homme 45-59 UDF < Bac Confiant-- Oui Homme 25-34 UMP Bac+5/Grande école Confiant+ Oui Homme 60 et + UMP < Bac Confiant+ Oui Femme 35 à 44 ans PS < Bac Confiant+ Oui Homme 18-24 UMP Bac+3/4 Confiant- Oui Femme 35 à 44 ans PS Bac+2 Confiant- Oui Femme 18-24 Verts Bac Confiant++ Oui Femme 60 et + UMP < Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+2 Confiant+ Oui Homme 60 et + UMP < Bac Confiant+
27
Arbre de segmentation avec Answer Tree
Prévoir ?
La méthode de Winters
Exemple : Ventes de Champagne
1962 … 1968 1969 1970JanvierFévrierMarsAvrilMaiJuinJuilletAoûtSeptembreOctobreNovembreDécembre
281526722755272129463036228222122922430157647312
26392899337037402927398642171738522164249842
13076
39343162428646765010487446331649595169819851
12670
434835644577478846185312429814315877
On exclut les douze derniers mois pour valider la méthode.
Ventes de Champagne
On exclut les douze derniers mois pour valider la méthode.
Date
CH
AM
PA
GN
E
16000
14000
12000
10000
8000
6000
4000
2000
0
Résultats sur l’historique utilisé(prévision à l’horizon 1)
Date
16000
14000
12000
10000
8000
6000
4000
2000
0
Champagne
Prévision
Résultats sur la période test (prévision sur l’horizon 1 à 12)
Date
14000
12000
10000
8000
6000
4000
2000
0
Champagne
Prévision
33
Contenu du cours
Présentation de méthodes statistiques permettant de décrire, d’expliquer et prévoir un phénomène étudié.
Utilisation du logiciel SPSS sous Windows Version 16.0.
Pour installer SPSS :
Contacter les moyens informatiques
34
Le site web du cours
Tous les documents et tous les fichiers dedonnées utilisés dans le cours sont disponiblessur mes pages personnelles dans www.hec.fr/tenenhaus.
35
Cours
Tout ce qui est fait en classe doit être connu : ni plus ni moins.
Maximum de cas et d’exercices pendant les séances de cours et les séances de soutien.
Savoir faire les exercices du cours est une garantie de succès.
PLAN de COURS
Séance
Date
Contenu
Statistique
Exercices
Cas à remettre
1 24/09 Introduction au cours. Panorama des méthodes statistiques en gestion
2 29/09 Description d’une variable quantitative Chap. 1 Rola-Cola, 3 01/10 Estimation d'une moyenne et d'une
proportion Chap. 2 ET : 3, 4, 5,
1, 2
4 06/10 Comparaison d'une moyenne et d’une proportion à un standard
" ET : 6 à 9
5 08/10 Régression simple (1) Chap. 4 Prix d’un appartement
6 13/10 Régression simple (2) " 7 15/10 Régression simple (3) TP Ryder 8 20/10 Régression multiple (1) Chap. 5 Ventes Ryder 9 27/10 Régression multiple (2) "
10 29/10 Régression multiple (3) " Pharmax 11 03/11 Modèle linéaire général Chap. 5 Prix Auto 12 05/11 Décomposition d'une série
chronologique Chap. 14 IPI
13 12/11 Méthodes de lissage Chap. 16 Cours, CA, Champagne
Easton
14 17/11 Exercices sur les séries chronologiques " Cigare
37
Contrôle des connaissances
Rédaction de trois projets statistiques par groupe (50%)
- Ryder- Easton- Cigares
Deux tests individuels (chacun 25%)
Des notes au moins égales à 10/20 sont exigées pour la moyenne des projets de groupe et pour la moyenne des
tests individuels
38
GALTON, 1908
Some people hate the very name of Statistics, but I find them full of beauty and interest. Whenever they are not brutalized, but delicatelyhandled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary.They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of
man.
Proverbe chinois
J ’entends et j ’oublie.Je vois et je me souviens.Je fais et je comprends.
耳听为虚眼见为实身教重于言传
40
Mark Rothko (1903 - 1970)
Le travail évolue à mesure qu’il avancevers plus de clarté, vers l’élimination
detous les obstacles entre le peintre etl’idée, et entre l’idée et le spectateur.
1949
1952
1956
1960
1968
50
Références
M. Tenenhaus : Statistique : Méthodes pour décrire, expliquer et prévoir, Dunod, 2007
P. Kinnear & C. Gray :SPSS 16 made simple,Psychology Press, 2008
Table des matières Introduction : Panorama général des méthodes statistiques
Chapitre 1 : Statistique descriptive
Chapitre 2 : Estimation et Test
Chapitre 3 : Comparaison d’échantillons indépendants
Chapitre 4 : La régression simple
Chapitre 5 : La régression multiple
Chapitre 6 : L’analyse en composantes principales
Chapitre 7 : L’analyse des correspondances simple
Chapitre 8 : L’analyse des correspondances multiple
Chapitre 9 : Analyse des proximités, des préférences et typologie
Chapitre 10: L’analyse discriminante
Chapitre 11 : La régression logistique binaire
Chapitre 12 : La régression logistique multinomiale
Chapitre 13 : Les méthodes de segmentation
Chapitre 14 : Décomposition d’une série chronologique
Chapitre 15 : La méthodologie de Box-Jenkins pour l’analyse et la prévision d’une série chronologique
Chapitre 16 : Les méthodes de lissage exponentiel
Annexe 1 : Rappels d’algèbre linéaire
Annexe 2 : Rappels de calcul des probabilités
54
Panorama des méthodes statistiques en gestion
Recueil des données- Sondage
- Plan d’expériences
Méthodes explicatives
Y = f(X1,…,Xk)
Méthodes descriptives- Visualisation
- Classification
Méthodes de prévision
Xt = f(Xt-1, Xt-2,…)
55
Méthodes explicatives
Plusieurs variables à expliquer, plusieurs variables explicatives :Régression PLS
Variable à expliquer X1, X2, …, Xk
Y Quantitatives Qualitatives Mélange Quantitatif Régression multiple Analyse de la variance Modèle linéaire
général Qualitatif - Régression
Logistique - Segmentation - Analyse factorielle
discriminante - Analyse factorielle bayesienne
- Régression Logistique - Segmentation - Analyse factorielle
discriminante
- Régression Logistique - Segmentation - Analyse factorielle discriminante
Variables explicatives
56
Méthodes descriptives
Méthodes de visualisationX1, X2, …, Xk
Quantitatives Qualitatives MélangeAnalyse encomposantesprincipales
Analyse descorrespondancesmultiples
- ACP- ACM- Codage optimal
Méthodes de classification
- Classification ascendante hiérarchique(observations ou variables)
- Méthode des centres mobiles
57
Méthodes de prévision
Analyse d’une série chronologique- Recherche d’une tendance et de facteurs
saisonniers- Identification de valeurs atypiques
Prévision- Méthodes de lissage (série courte)- Méthode de Box-Jenkins (série longue)
58
Témoignage
Mr Tenenhaus,
Je suis en ce moment en échange à Atlanta, où je faisbeaucoup de marketing. Je voulais vous envoyer un petit mot pour vous remercierde m'avoir permis d'avoir des bases solides en statistiqueet de m'avoir appris à utiliser SPSS, car cela m'est TRES, TRES utile!!!J'espère que vous allez proposer votre électif tous les ans.Bon courage..
Caroline GOUSSEAU (isa 2001)