probas-stats 1a novembre 10 1 probabilités et statistiques année 2010/2011...
TRANSCRIPT
![Page 1: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/1.jpg)
Probas-Stats 1A
novembre 10
1
Probabilités et Statistiques
Année 2010/2011
[email protected]@emse.fr
![Page 2: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/2.jpg)
Cours n°5
Statistique exploratoire
![Page 3: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/3.jpg)
Plan
Un problème : Peut-on reconnaître des variétés d’iris par les dimensions de leurs fleurs ?
Données historiques (R. Fisher)Statistiques descriptives
Indicateurs chiffrés Outils de visualisation : fonction de répartition
empirique, histogramme, boxplot (boîtes à moustaches !), estimation non paramétrique d’une densité
Probas-Stats 1A
novembre 10
3
![Page 4: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/4.jpg)
Les iris de Fisher
Question : Pour 3 variétés d’iris (setosa, versicolor, virginica), on
mesure largeur et longueur du sépale et du pétale. Les mesures permettent-elles de deviner la variété ?
Peut-on identifier des facteurs qui expliquent l’appartenance à un groupe ? Santé :
• facteurs = résultats d’analyses• groupes = malades, sains
Etude financière : • facteurs = indicateurs macroéconomiques• groupes = ratings (cf. agences de notation)
Probas-Stats 1A
novembre 10
4
![Page 5: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/5.jpg)
Les données
Probas-Stats 1A
novembre 10
5
numéroSepal.Length
Sepal.Width
Petal.Length
Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
… … … … … …
147 6.3 2.5 5.0 1.9 virginica
148 6.5 3.0 5.2 2.0 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 virginica
![Page 6: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/6.jpg)
Premier graphique
Probas-Stats 1A
novembre 10
6plot(iris[1:4], pch=c("s", "e", "i")[as.numeric(iris$Species)])
![Page 7: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/7.jpg)
Premières observations
Les dimensions du sépale semblent peu discriminantes
On se concentre donc sur : longueur pétale largeur pétale
Probas-Stats 1A
novembre 10
7
![Page 8: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/8.jpg)
Résumés numériques
Setosa Versicolor Virginica
moyenne 1.462 4.260 5.552
médiane 1.50 4.35 5.55
écart-type 0.174 0.470 0.552
interquartiles 0.175 0.600 0.775
quantile 5% 1.200 3.39 4.845
quantile 95% 1.700 4.90 6.655
quantile 25% 1.400 4.00 5.100
quantile 75% 1.575 4.60 5.875
Probas-Stats 1A
novembre 10
8
Fonction utiles : mean, median, sd, quantile
Longueur des pétales
![Page 9: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/9.jpg)
Boxplot (boîte à moustaches)
novembre 10
boxplot(iris[,3]~iris$Species,xlab="Longueur des pétales")boxplot(iris[,4]~iris$Species,xlab="Largeur des pétales")
Probas-Stats 1A 9
![Page 10: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/10.jpg)
Comment est faite la boîte ?
Probas-Stats 1A
novembre 10
10
quantile q75
quantile q75
quantile q50 = médiane
q75 + 1.5*(q75-q25)
q25 - 1.5*(q75-q25)
valeur extrême
![Page 11: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/11.jpg)
Fonction de répartition empirique
novembre 10
x
#{i, xi<x} / n
Probas-Stats 1A 11
![Page 12: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/12.jpg)
Quantiles empiriques
novembre 10
x
Fn(x)
x(i)
(i - 0.5)/n
Probas-Stats 1A 12
Si : x(1) ≤ x(2) ≤ … ≤ x(n) sont les données classées dans l’ordre croissant: x(i) = q((i-0.5)/n) quantile empirique d’ordre (i-0.5)/n
![Page 13: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/13.jpg)
Histogramme
novembre 10
Hauteur de chaque barre : proportion des données dans
une classe, rapportée à sa longueur
Question : que vaut la surface totale?
Probas-Stats 1A 13
hist(Petal.Length[Species=="virginica"], freq=FALSE, border="blue",xlab="Longueur des pétales en mm",main="Histogramme - variété virginica")
![Page 14: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/14.jpg)
Les trois histogrammes
Probas-Stats 1A
novembre 10
14
![Page 15: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/15.jpg)
Histogrammes superposés
Probas-Stats 1A
novembre 10
15
Choix à faire :-nb classes-largeur classes-position classes
nb classes différents
![Page 16: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/16.jpg)
Histogrammes superposés
Probas-Stats 1A
novembre 10
16
non comparables
faux ami
![Page 17: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/17.jpg)
Influence du nombre de classes
Probas-Stats 1A
novembre 10
17
![Page 18: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/18.jpg)
Estimation de densité
Rappel :
Histogramme :Pour x dans la classe [a,b]
Estimation de densité :
Probas-Stats 1A
novembre 10
18
€
fX (x) =P(X ∈ [x,x + dx])
dx
€
fX (x) ≈Card{x i ∈ [a,b]}/n
b − a
€
ˆ f X (x) =Card{x i ∈ [x − h, x + h]}/n
2h
![Page 19: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/19.jpg)
Interprétation (filtrage)
Soit Pn la probabilité empirique :
Alors :
Pour K quelconque (densité de probabilité) :
Probas-Stats 1A
novembre 10
19
€
Pn =1
nδxi
i=1
n
∑
€
ˆ f X = Kh ∗Pn
€
Kh (x) =1/h K(x /h), où K(u) =1/2 [−1,1]1 (u)
€
ˆ f X (x) =1
nhK(
x − x i
h)
i=1
n
∑
![Page 20: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/20.jpg)
Estimation de densité
novembre 10
Probas-Stats 1A 20
Options par défaut- choix automatique de h- noyau K gaussien
![Page 21: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/21.jpg)
Influence de h (bandwidth)
Probas-Stats 1A
novembre 10
21
![Page 22: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/22.jpg)
Influence de h (bandwidth)
Probas-Stats 1A
novembre 10
22
![Page 23: Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr](https://reader036.vdocuments.pub/reader036/viewer/2022081514/551d9da0497959293b8ced9c/html5/thumbnails/23.jpg)
Conclusion ?
Séparation des variétés : Si Petal.Length < 2 : setosa Si 2 < Petal.Length < 4.5 : versicolor Si Petal.Length > 5.1 : virginica Si 4.5 < Petal.Length < 5.1 : ???
Pour aller plus loin : règles valables hors de l’échantillon observé ? donner une probabilité d’appartenance à la variété raisonner en multidimensionnel (c’est l’analyse
discriminante)
Probas-Stats 1A
novembre 10
23