variables aléatoires et distributions de probabilité (1...
TRANSCRIPT
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
1
Variables aléatoires et distributions de probabilité (1ière partie)
&
Variables aléatoires, lois et simulations en R (2ième partie)
2 Variable aléatoire, c’est quoi?
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• Variable aléatoire: est un nombre dépendant du résultat d’une expérience aléatoire.
• Notation: X = variable aléatoire
• Deux types: discrète, continue
3 Variable aléatoire discrète
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• Variable aléatoire discrète: une variable aléatoire est discrète si elle ne prend qu’un nombre fini ou dénombrable de valeurs
• Exemples?
• Notation: X = le nombre de résultats positifs, observations, etc.
Après http://w3.mi.parisdescartes.fr/smel/cours/mp/node12.html
4 Variable aléatoire de Bernoulli
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• L'expérience la plus simple: seulement deux résultats possibles (variable aléatoire de Bernoulli X)
• Expérience d'essais indépendants: deux résultats possibles pour chaque essai (essai de Bernoulli) avec X ~ Bernoulli(p)
• De nombreux essais de Bernoulli: variable aléatoire binomiale avec X ~ Bin(n, p)
• n = 1: variable aléatoire de Bernoulli = variable aléatoire binomiale
€
Bernoulli
€
Binomial
5 Variable aléatoire binomiale
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• avec n = nombre d'essais, X = résultats positifs (X ≤ n)
• avex n! = n factorielle
• avec pX = probabilité d'obtenir X succès indépendants
• avec (1 – p)(n - X) = probabilité d'obtenir (n – X) échecs avec probabilité (1 – p) €
P(X) =n!
X!(n − X)!pX (1− p)n−X
€
n!X!(n − X)!
€
nX"
# $ %
& ' • = = coefficient binomial
• Pourquoi y at-il un X!?
• Dans une série de n essais indépendants, chacun ayant seulement deux issues possibles (appelé "succès" et "échec"), avec la probabilité p succès et la probabilité q=1-p d'échec, la probabilité de succès en n essais est
Après http://www.bf.refer.org/peche/chap2/chap24.html
6 Fonction de distribution de probabilité
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• Fonction de distribution de probabilité: fonction qui fournit la probabilité de chaque résultat possible en Ω ! obtenue pour chaque X avec P (X).
• Histogramme: en général, un graphique de résumer le nombre d'essais résultant en un résultat particulier (TP1)
http://en.wikipedia.org/
7 Distribution de probabilité
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• Distribution de probabilité: assigne des probabilités pour toutes les valeurs possibles d'une variable aléatoire calculé avec P(X) ! Exigences: toutes les probabilités doit être comprise entre 0 et 1 inclus; la somme des probabilités des résultats doit être 1.
http://www.stat.yale.edu/Courses/1997-98/101/binom.htm
Densité de probabilité Distribution cumulative
8 Variable aléatoire de Poisson
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• Utilisé lorsque le cas le plus fréquent est égal à 0!
• Le nombre d'occurrences d'un événement enregistré dans une zone fixe de l'échantillon ou au cours d'un intervalle de temps fixe (variable aléatoire de Poisson X)
• X ~ Poisson(λ) avec λ = “rate parameter” (valeur moyenne d'occurrence)
• avec X = observations
• avec e = base du logarithme naturel (≈ 2.71828)
P(X) = λx
x!e−λ
http://www.dichotomistic.com/hierarchies_thermodynamics.html
(λ)
9 Espérance E(X): discrète
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
€
E(X) = a1p1 = a1p1 + a2p2 + ...+ an pni=1
n
∑
• … aucune idée de la variation
• avec ai = valeurs d'une variable aléatoire discrète
• avec pi = probabilités de ai
10 Variance : discrète
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
€
σ2 X( )
€
σ2 X( ) = E X − E X( )[ ]2 = pi ai − ai pii=1
n
∑%
& '
(
) *
2
i=1
n
∑
• … une mesure de base de la quantité de chaque valeur X se distingue E(X).
• Pourquoi à la puissance de 2?
11 Résumé: distributions discrètes
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf
"
"
"
12 Variable aléatoire continue
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• Variable aléatoire continue: une variable aléatoire est dite continue si elle peut prendre toutes les valeurs dans un intervalle donné (borné ou non borné). En règle générale, toutes les variables qui résultent d’une mesure sont de type continu.
• Défi 1: infinité de résultats possibles (au sein de précision de la mesure!)
• Défi 2: probabilité d'une valeur particulière
13 Variable aléatoire uniforme
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
f (x) =1
a− b when a ≤ x ≤ b
0 when x < a or x > b
"
#$
%$
• avec a = limite inférieure
• avec b = limite supérieure
http://www.r-tutor.com/
14 PDF et CDF
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• f(x) = fonction de distribution de probabilité (PDF): PDF d'une variable aléatoire continue est l'attribution de probabilités qu'une variable aléatoire continue X se produit dans un intervalle I [a, b]
• F(x) = fonction de distribution cumulative (CDF): CDF d’une variable continue X est F(x) = P(X < x)
!
• PDF is the derivative (i.e., rate of change) of the CDF.
Non-negative
integrable
g
f
Normalize by integral of g
CDF
F
Integrate Differentiate
and one place that’s true is when it comes to defining expectations. Rememberthat for discrete variables
E [X] ⌘X
x
xp(x)
For a continuous variable, we just substitute f(x) for p(x) and an integral for asum:
E [X] ⌘Z 1
�1xf(x)dx
All of the rules which we learned for discrete expectations still hold for contin-uous expectations.
Let’s see how this works for the uniform-over-[0, 10] example.
E [X] =Z 1
�1xf(x)dx =
Z 10
0x
110
dx =110
12⇥x
2⇤100
=110
12(100� 0) = 5
Notice that 5 is the mid-point of the interval [0, 10]. Suppose we had a uniformdistribution over another interval, say (to be imaginative) [a, b]. What would theexpectation be? First, find the CDF F (x), from the same kind of reasoning weused on the interval [0, 10]: the probability of an interval is its length, divided bythe total length. Then, find the pdf, f(x) = dF/dx; finally, get the expectation,
11
Cumulative probabilities provide, for each value x, the probability of a result less than or equal to X
15 Variable aléatoire normale (Gaussian)
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• La distribution de probabilité la plus familière
• Constitue le fondement théorique de la régression linéaire et analyse de la variance (ANOVA) ! séances 9 & 10
• Defined by two parameters (µ, σ):
! E(X) = µ ! central tendency
! σ2(X) = σ2 ! spread around the central tendency
• Variable aléatoire normale (“variable aléatoire de Gauss”): X ~ N(µ, σ)
• Standard normal distribution: µ = 0 et σ = 1
! Variable aléatoire normale standard (Z): E(Z) = 0, σ2 = 1
16 PDF et CDF de la distribution normale
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
Densité de probabilité
f (x) = f (µ,σ ) = 1σ 2π
e−12X−µσ
"
#$
%
&'2
F(x) = f (x)dx−∞
X
∫
Pas de solution analytique existe, dans R: intégration numérique!
Distribution cumulative
http://http://en.wikipedia.org/
17 Propriétés de la distribution normale
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• Three important properties:
! Somme: E(X+Y) = E(X) + E(Y); σ2(X + Y) = σ2(X) + σ2(Y)
! Shift and change of scale: X ~ N(µ, σ); Y = aX +b ! E(X) = aµ+b; σ2(Y) = a2σ2
! Transformability: a = 1/σ and b = -1(µ/ σ) ! E(Y) = 0; σ2(Y)=1 !!!All operations applicable to a standard normal random variable can be applied to an normal random variable after transformation!!!!!
18 Variable aléatoire log-normale
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
E(X) = eµ+σ 2
2
σ 2 (X) = eµ+σ 2
2 *eσ2
• Variable aléatoire log-normale: variable aléatoire X avec ln(X) = variable aléatoire normale X ~ lnN(µ, σ):
• Qu'advient-il de l'asymétrie lorsqu'elle est tracée sur une échelle logarithmique?
Densité de probabilité
Distribution cumulative
http://http://en.wikipedia.org/
19 D'autres importantes variables aléatoires
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• exponentielle
• student-t
• Chi-square
• F
• gamma
• inverse gamma
• beta
• …. tous utilisés plus tard dans le cours!
Densité de probabilité: beta
Densité de probabilité: exponentielle
Densité de probabilité: student-t
Densité de probabilité: gamma
20
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
Résumé: distributions continues
http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf
21 Comment travailler aves les distributions dans R?
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• R a les fonctions de densité et de distribution intégré pendant environ 20 distributions de probabilité, comprenant
Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html
• “d”: PDF
• “p”: CDF
• “q”: quantiles
• “r”: nombres aléatoires
"
"
"
"
22 Exemple: R pour les distribution normales
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html
23 Exemple: distribution binomiale
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• PROBLÈME: Supposez qu'il ya douze questions à choix multiples dans un quiz d’un cours d'anglais. Chaque question comporte cinq réponses possibles, et un seul d'entre eux est correcte. Trouver la probabilité d'avoir quatre ou moins réponses correctes si un étudiant tente de répondre à toutes les questions au hasard.
• SOLUTION: Étant donné que seule une personne sur cinq réponses possibles est correcte, la probabilité de répondre correctement à une question par hasard est de 1/5 = 0,2. Nous pouvons trouver la probabilité d'avoir exactement 4 bonnes réponses par des tentatives aléatoires comme suit.
Voir aussi http://www.r-tutor.com/
24 Exemple: distribution de Poisson
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• PROBLÈME: S’il ya douze voitures traversant un pont par minute en moyenne, trouver la probabilité d'avoir dix-sept ou plus de voitures qui traversent le pont en une minute particulière.
• SOLUTION: S’il ya douze voitures traversant un pont par minute en moyenne, la probabilité d'avoir dix-sept ou plus de voitures de traverser le pont en une minute particulière est 10,1%.
Voir aussi http://www.r-tutor.com/
25 Exemple: distribution uniforme
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• PROBLÈME: Sélectionnez dix nombres aléatoires entre un et trois.
• SOLUTION: Il suffit d'appliquer la fonction runif pour générer des nombres aléatoires entre un et trois.
Voir aussi http://www.r-tutor.com/
26 Exemple: distribution normale
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• PROBLÈME: Supposez que les résultats d'un examen d'entrée au collège correspond une distribution normale. Par ailleurs, le score du test moyenne est 72 et l'écart-type est 15,2. Quel est le pourcentage d'étudiants obtenant 84 ou plus à l'examen?
• SOLUTION: Le pourcentage d'étudiants obtenant 84 ou plus à l'examen d'entrée au collège est 21,5%.
Voir aussi http://www.r-tutor.com/
27 Exemple: distribution exponentielle
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�
• PROBLÈME: Supposez que la moyenne “check-out” d'un caissier de supermarché est trois minutes. Trouver la probabilité d'une “check-out” étant complété par le caissier en moins de deux minutes.
• Solution: La probabilité de terminer une “check-out” en moins de deux minutes par le caissier est 48,7%.
Voir aussi http://www.r-tutor.com/
28 Lectures
Lectures complémentaires
• Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R – Maîtriser le langange, effectuer des analyses statistiques.
! Chapitre 10
• Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for biologists. Cambridge University Press.
! Chapitre 1.4
Lectures obligatoires • Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer Associates Inc., Sunderland, MA, USA.
! chaptre 2
• http://www.r-tutor.com/elementary-statistics/probability-distributions
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 8 octobre 2012�