analyse de donn ees licence pro am elioration v eg etale
TRANSCRIPT
Analyse de donnees
Analyse de donneesLicence Pro ”Amelioration Vegetale”
Marc Bailly-Bechet
Universite Claude Bernard Lyon I – France
1 [email protected] Analyse de donnees
Analyse de donnees
Des stats pour faire quoi ?
Table des matieres
1 Des stats pour faire quoi ?
2 Variables aleatoires et lois de probabilite
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
2 [email protected] Analyse de donnees
Analyse de donnees
Des stats pour faire quoi ?
Organisation des enseignements d’analyse de donnees
3 cours ”theoriques” de 1h30.
16h de TP sur ordinateur.
3 [email protected] Analyse de donnees
Analyse de donnees
Des stats pour faire quoi ?
Pourquoi faire des statistiques en biologie ?
Variabilite : Une experience en biologie donne rarement unresultat tranche ou parfaitement reproductible.
Quantite : Les nouvelles technologies biologiques permettentde recueillir des quantites pharamineuses de donnees.
4 [email protected] Analyse de donnees
Analyse de donnees
Des stats pour faire quoi ?
Les statistiques vues de loin
Population ⇒ Echantillonp, µ, σ2 n individus tires aleatoirement
⇑ ⇓Tests, estimation k
n , x , s2
Statistique inferentielle ⇐ Statistiques descriptives
5 [email protected] Analyse de donnees
Analyse de donnees
Variables aleatoires et lois de probabilite
Table des matieres
1 Des stats pour faire quoi ?
2 Variables aleatoires et lois de probabilite
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
6 [email protected] Analyse de donnees
Analyse de donnees
Variables aleatoires et lois de probabilite
Loi binomiale
La loi binomiale est la loi de probabilite decrivant le nombre dereussites parmi un ensemble de tirages aleatoires et independants.Elle se note B(n, p) avec n le nombre de tirages et p la probabilitede reussite a chaque tirage.
● ●
●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 10 20 30 40
0.0
0.1
0.2
0.3
n=100
Nombre de succès
Pro
babi
lité
●
●
●
●
● ●
●
●
●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●
●
●
●
●
●● ●
●
●
●
●
●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●
●●
●●
● ● ● ●●
●●
●●
●● ● ● ● ● ● ● ●
●
●
●
●
p = 0.01p = 0.05p = 0.1p = 0.25
5 10 25
7 [email protected] Analyse de donnees
Analyse de donnees
Variables aleatoires et lois de probabilite
Loi de Poisson
La loi de Poisson (de Simeon Denis Poisson, 1781-1840) est la loide probabilite decrivant le nombre d’evenements aleatoires etindependants arrivant dans le meme intervalle de temps oud’espace. Elle se note P(λ) avec λ l’esperance et la variance de laloi.
● ●
●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20
0.0
0.1
0.2
0.3
Nombre d'évenements
Pro
babi
lité
●
● ●
●
●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
● ●
●
●
●
●
●● ● ● ● ● ● ● ● ● ●● ● ● ●
●
●
●
●
●● ●
●
●
●
●
●●
● ● ● ●
●
●
●
●
λ = 1λ = 2λ = 5λ = 10
1 2 5 10
8 [email protected] Analyse de donnees
Analyse de donnees
Variables aleatoires et lois de probabilite
Probabilite absolue
Pas de 10 cm
Taille
a<P
(x)<
b
120 160 200
0
0.1
0.2
0.3
0.4
Pas de 5 cm
Taille
a<P
(x)<
b
120 160 200
0
0.1
0.2
0.3
0.4
Pas de 1 cm
Taille
a<P
(x)<
b
120 160 200
0
0.1
0.2
0.3
0.4
Pas de 0.1 cm
Taille
a<P
(x)<
b
120 160 200
0
0.1
0.2
0.3
0.4
9 [email protected] Analyse de donnees
Analyse de donnees
Variables aleatoires et lois de probabilite
Densite de probabilite
Pas de 10 cm
Taille
Den
sité
120 160 200
0.00
0.01
0.02
0.03
0.04
Pas de 5 cm
Taille
Den
sité
120 160 200
0.00
0.01
0.02
0.03
0.04
Pas de 1 cm
Taille
Den
sité
120 160 200
0.00
0.01
0.02
0.03
0.04
120 160 200
0.00
0.01
0.02
0.03
0.04
Limite continue
Taille
Den
sité
10 [email protected] Analyse de donnees
Analyse de donnees
Variables aleatoires et lois de probabilite
Loi normale
La loi normale est la loi de probabilite des variables aleatoirescontinues dependantes d’un grand nombre de causesindependantes et additives. Elle se note N (µ, σ) avec µ l’esperancede la loi et σ l’ecart-type.
−2 0 2 4 6 8 10 12
0.0
0.1
0.2
0.3
0.4µ=5
Valeur obtenue
Den
sité
de
prob
abili
té
σ = 1σ = 2σ = 5σ = 20
11 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Table des matieres
1 Des stats pour faire quoi ?
2 Variables aleatoires et lois de probabilite
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
12 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Variable discrete
Le balanin est un parasite de la chataigne.
Nb. de parasites xi 0 1 2 3 4 5 6 et plusNombre de fruits ni 1043 172 78 15 10 7 4ayant xi parasites
Frequence fi 0.785 0.129 0.059 0.011 0.007 0.005 0.004Frequence cumulee 0.785 0.914 0.973 0.984 0.991 0.996 1∑i
j=1 fj
13 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Variable continue
On observe la concentration en glucose dans plusieursmangues.
Concentration (g.L−1) Nb de mangues Frequence Frequence cumulee
X njniN
∑ij=1 fj
[135, 150[ 7 0.113 0.113[150, 165[ 10 0.161 0.274[165, 180[ 23 0.371 0.645[180, 195[ 14 0.226 0.871[195, 210[ 5 0.080 0.951[210, 225[ 3 0.049 1
14 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Moyenne observee sur des donnees groupees
On veut la moyenne du taux de glucose dans le melangefinal de nos 4 types de mangues :
Concentration (g.L−1) Moyenne Nb de manguesX x?j nj
[135, 165[ 150 17[165, 180[ 172.5 23[180, 195[ 187.5 14[195, 225[ 210 8
x =1
62(150× 17 + 172.5× 23 + . . .) =
10822.5
62= 174.56 g.L−1
15 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Difference entre mediane et moyenne
Revenu mensuel moyen des menages en France : 2474 eurosRevenu mensuel median des menages en France : 1514 euros
0 2000 4000 6000 8000 10000
0.00
000
0.00
010
0.00
020
Revenu mensuel des ménages
Den
sité
de
prob
abili
té
MoyenneMédiane
16 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Difference entre mediane et moyenne
Revenu mensuel moyen des menages en France : 2474 eurosRevenu mensuel median des menages en France : 1514 euros
0 2000 4000 6000 8000 10000
0.00
000
0.00
010
0.00
020
Revenu mensuel des ménages
Den
sité
de
prob
abili
té
MoyenneMédiane
16 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Les mangues sont a la mode
On observe la concentration en glucose dans plusieursmangues.
Concentration en glucose (g/L)
Nom
bre
de m
angu
es
140 160 180 200 220
0
5
10
15
20
17 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Variance et ecart-type observes, donnees groupees
La variance sur des donnees groupees se calcule ainsi :
Concentration (g.L−1) Moyenne Nb de manguesX x?
j nj[135, 165[ 150 17[165, 180[ 172.5 23[180, 195[ 187.5 14[195, 225[ 210 8
x = 174.56 g.L−1
s2 =1
62
(17× 1502 + 23× 172.52 + . . .
)− 174.562
= 365.60
s =√
365.60 = 19.12 g.L−1
18 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Loi de la moyenne de n v.a., n grand
n=1
Fré
quen
ce
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
n=20
Fré
quen
ce
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
n=100
Fré
quen
ce
0.0 0.2 0.4 0.6 0.8 1.0
02
46
810
n=1000
Fré
quen
ce
0.0 0.2 0.4 0.6 0.8 1.0
010
2030
40
19 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Distribution d’echantillonnage d’une moyenne observee
0.0
0.1
0.2
0.3
0.4
Moyenne observée de l'échantillon
Den
sité
de
prob
abili
té
µ
20 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale
P(µ− Cα < x < µ+ Cα) = 1− α
0.0
0.1
0.2
0.3
0.4
Moyenne observée de l'échantillon
Den
sité
de
prob
abili
té
µ − Cα µ µ + Cα
α 2 α 2
21 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.20
P(µ− C0.20 < x < µ+ C0.20) = 0.80
0.0
0.1
0.2
0.3
0.4
Moyenne observée de l'échantillon
Den
sité
de
prob
abili
té
µ − C0.2 µ µ + C0.2
0.1 0.1
22 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.05
P(µ− C0.05 < x < µ+ C0.05) = 0.95
0.0
0.1
0.2
0.3
0.4
Moyenne observée de l'échantillon
Den
sité
de
prob
abili
té
µ − C0.05 µ µ + C0.05
0.025 0.025
23 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.001
P(µ− C0.001 < x < µ+ C0.001) = 0.999
0.0
0.1
0.2
0.3
0.4
Moyenne observée de l'échantillon
Den
sité
de
prob
abili
té
µ − C0.001 µ µ + C0.001
5e−04 5e−04
24 [email protected] Analyse de donnees
Analyse de donnees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale centree reduite
0.0
0.1
0.2
0.3
0.4
Den
sité
de
prob
abili
té
z =x − µ
σ2
n
−3.29 −1.96−1.29 0 1.29 1.96 3.29− ε0.001 − ε0.05 − ε0.2 0 ε0.2 ε0.05 ε0.001
25 [email protected] Analyse de donnees
Analyse de donnees
Tests de comparaison de moyennes et de proportions
Table des matieres
1 Des stats pour faire quoi ?
2 Variables aleatoires et lois de probabilite
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
26 [email protected] Analyse de donnees
Analyse de donnees
Tests de comparaison de moyennes et de proportions
Distribution d’echantillonnage et moyenne observee
0.0
0.1
0.2
0.3
0.4
Den
sité
de
prob
abili
té
µ0 x
27 [email protected] Analyse de donnees
Analyse de donnees
Tests de comparaison de moyennes et de proportions
Distribution d’echantillonnage et moyenne observee
0.0
0.1
0.2
0.3
0.4
Den
sité
de
prob
abili
té
µ0 x
Risque α
0.200.050.001
28 [email protected] Analyse de donnees
Analyse de donnees
Tests de comparaison de moyennes et de proportions
Risque de deuxieme espece
0.0
0.1
0.2
0.3
0.4
Den
sité
de
prob
abili
té
−4 −2 0 2 4 6x − µ
σ2
n
H0 H1
29 [email protected] Analyse de donnees
Analyse de donnees
Tests de comparaison de moyennes et de proportions
Risque de deuxieme espece
0.0
0.1
0.2
0.3
0.4
Den
sité
de
prob
abili
té
−4 −2 0 2 4 6x − µ
σ2
n
H0 H1
α2
α2
30 [email protected] Analyse de donnees
Analyse de donnees
Tests de comparaison de moyennes et de proportions
Risque de deuxieme espece
0.0
0.1
0.2
0.3
0.4
Den
sité
de
prob
abili
té
−4 −2 0 2 4 6x − µ
σ2
n
H0 H1
α2
α2
β
31 [email protected] Analyse de donnees
Analyse de donnees
Tests de comparaison de moyennes et de proportions
Test unilateral, α = 5%
H1 : µ 6= µ0 H1 : µ > µ0
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
Den
sité
de
prob
abili
té
α2
α2
ε0.05 = 1.96−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
α
ε0.1 = 1.645
32 [email protected] Analyse de donnees