variables aléatoires et distributions de probabilité (1...

28
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012 1 Variables aléatoires et distributions de probabilité (1 ière partie) & Variables aléatoires, lois et simulations en R (2 ième partie)

Upload: doanhuong

Post on 15-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

1

Variables aléatoires et distributions de probabilité (1ière partie)

&

Variables aléatoires, lois et simulations en R (2ième partie)

2 Variable aléatoire, c’est quoi?

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  Variable aléatoire: est un nombre dépendant du résultat d’une expérience aléatoire.

•  Notation: X = variable aléatoire

•  Deux types: discrète, continue

3 Variable aléatoire discrète

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  Variable aléatoire discrète: une variable aléatoire est discrète si elle ne prend qu’un nombre fini ou dénombrable de valeurs

•  Exemples?

•  Notation: X = le nombre de résultats positifs, observations, etc.

Après http://w3.mi.parisdescartes.fr/smel/cours/mp/node12.html

4 Variable aléatoire de Bernoulli

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  L'expérience la plus simple: seulement deux résultats possibles (variable aléatoire de Bernoulli X)

•  Expérience d'essais indépendants: deux résultats possibles pour chaque essai (essai de Bernoulli) avec X ~ Bernoulli(p)

•  De nombreux essais de Bernoulli: variable aléatoire binomiale avec X ~ Bin(n, p)

•  n = 1: variable aléatoire de Bernoulli = variable aléatoire binomiale

Bernoulli

Binomial

5 Variable aléatoire binomiale

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  avec n = nombre d'essais, X = résultats positifs (X ≤ n)

•  avex n! = n factorielle

•  avec pX = probabilité d'obtenir X succès indépendants

•  avec (1 – p)(n - X) = probabilité d'obtenir (n – X) échecs avec probabilité (1 – p) €

P(X) =n!

X!(n − X)!pX (1− p)n−X

n!X!(n − X)!

nX"

# $ %

& ' •  = = coefficient binomial

•  Pourquoi y at-il un X!?

•  Dans une série de n essais indépendants, chacun ayant seulement deux issues possibles (appelé "succès" et "échec"), avec la probabilité p succès et la probabilité q=1-p d'échec, la probabilité de succès en n essais est

Après http://www.bf.refer.org/peche/chap2/chap24.html

6 Fonction de distribution de probabilité

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  Fonction de distribution de probabilité: fonction qui fournit la probabilité de chaque résultat possible en Ω ! obtenue pour chaque X avec P (X).

•  Histogramme: en général, un graphique de résumer le nombre d'essais résultant en un résultat particulier (TP1)

http://en.wikipedia.org/

7 Distribution de probabilité

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  Distribution de probabilité: assigne des probabilités pour toutes les valeurs possibles d'une variable aléatoire calculé avec P(X) ! Exigences: toutes les probabilités doit être comprise entre 0 et 1 inclus; la somme des probabilités des résultats doit être 1.

http://www.stat.yale.edu/Courses/1997-98/101/binom.htm

Densité de probabilité Distribution cumulative

8 Variable aléatoire de Poisson

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  Utilisé lorsque le cas le plus fréquent est égal à 0!

•  Le nombre d'occurrences d'un événement enregistré dans une zone fixe de l'échantillon ou au cours d'un intervalle de temps fixe (variable aléatoire de Poisson X)

•  X ~ Poisson(λ) avec λ = “rate parameter” (valeur moyenne d'occurrence)

•  avec X = observations

•  avec e = base du logarithme naturel (≈ 2.71828)

P(X) = λx

x!e−λ

http://www.dichotomistic.com/hierarchies_thermodynamics.html

(λ)

9 Espérance E(X): discrète

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

E(X) = a1p1 = a1p1 + a2p2 + ...+ an pni=1

n

•  … aucune idée de la variation

•  avec ai = valeurs d'une variable aléatoire discrète

•  avec pi = probabilités de ai

10 Variance : discrète

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

σ2 X( )

σ2 X( ) = E X − E X( )[ ]2 = pi ai − ai pii=1

n

∑%

& '

(

) *

2

i=1

n

•  … une mesure de base de la quantité de chaque valeur X se distingue E(X).

•  Pourquoi à la puissance de 2?

11 Résumé: distributions discrètes

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf

"

"

"

12 Variable aléatoire continue

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  Variable aléatoire continue: une variable aléatoire est dite continue si elle peut prendre toutes les valeurs dans un intervalle donné (borné ou non borné). En règle générale, toutes les variables qui résultent d’une mesure sont de type continu.

•  Défi 1: infinité de résultats possibles (au sein de précision de la mesure!)

•  Défi 2: probabilité d'une valeur particulière

13 Variable aléatoire uniforme

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

f (x) =1

a− b when a ≤ x ≤ b

0 when x < a or x > b

"

#$

%$

•  avec a = limite inférieure

•  avec b = limite supérieure

http://www.r-tutor.com/

14 PDF et CDF

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  f(x) = fonction de distribution de probabilité (PDF): PDF d'une variable aléatoire continue est l'attribution de probabilités qu'une variable aléatoire continue X se produit dans un intervalle I [a, b]

•  F(x) = fonction de distribution cumulative (CDF): CDF d’une variable continue X est F(x) = P(X < x)

!

•  PDF is the derivative (i.e., rate of change) of the CDF.

Non-negative

integrable

g

pdf

f

Normalize by integral of g

CDF

F

Integrate Differentiate

and one place that’s true is when it comes to defining expectations. Rememberthat for discrete variables

E [X] ⌘X

x

xp(x)

For a continuous variable, we just substitute f(x) for p(x) and an integral for asum:

E [X] ⌘Z 1

�1xf(x)dx

All of the rules which we learned for discrete expectations still hold for contin-uous expectations.

Let’s see how this works for the uniform-over-[0, 10] example.

E [X] =Z 1

�1xf(x)dx =

Z 10

0x

110

dx =110

12⇥x

2⇤100

=110

12(100� 0) = 5

Notice that 5 is the mid-point of the interval [0, 10]. Suppose we had a uniformdistribution over another interval, say (to be imaginative) [a, b]. What would theexpectation be? First, find the CDF F (x), from the same kind of reasoning weused on the interval [0, 10]: the probability of an interval is its length, divided bythe total length. Then, find the pdf, f(x) = dF/dx; finally, get the expectation,

11

Cumulative probabilities provide, for each value x, the probability of a result less than or equal to X

15 Variable aléatoire normale (Gaussian)

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  La distribution de probabilité la plus familière

•  Constitue le fondement théorique de la régression linéaire et analyse de la variance (ANOVA) ! séances 9 & 10

•  Defined by two parameters (µ, σ):

! E(X) = µ ! central tendency

! σ2(X) = σ2 ! spread around the central tendency

•  Variable aléatoire normale (“variable aléatoire de Gauss”): X ~ N(µ, σ)

•  Standard normal distribution: µ = 0 et σ = 1

! Variable aléatoire normale standard (Z): E(Z) = 0, σ2 = 1

16 PDF et CDF de la distribution normale

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

Densité de probabilité

f (x) = f (µ,σ ) = 1σ 2π

e−12X−µσ

"

#$

%

&'2

F(x) = f (x)dx−∞

X

Pas de solution analytique existe, dans R: intégration numérique!

Distribution cumulative

http://http://en.wikipedia.org/

17 Propriétés de la distribution normale

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  Three important properties:

! Somme: E(X+Y) = E(X) + E(Y); σ2(X + Y) = σ2(X) + σ2(Y)

! Shift and change of scale: X ~ N(µ, σ); Y = aX +b ! E(X) = aµ+b; σ2(Y) = a2σ2

! Transformability: a = 1/σ and b = -1(µ/ σ) ! E(Y) = 0; σ2(Y)=1 !!!All operations applicable to a standard normal random variable can be applied to an normal random variable after transformation!!!!!

18 Variable aléatoire log-normale

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

E(X) = eµ+σ 2

2

σ 2 (X) = eµ+σ 2

2 *eσ2

•  Variable aléatoire log-normale: variable aléatoire X avec ln(X) = variable aléatoire normale X ~ lnN(µ, σ):

•  Qu'advient-il de l'asymétrie lorsqu'elle est tracée sur une échelle logarithmique?

Densité de probabilité

Distribution cumulative

http://http://en.wikipedia.org/

19 D'autres importantes variables aléatoires

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  exponentielle

•  student-t

•  Chi-square

•  F

•  gamma

•  inverse gamma

•  beta

•  …. tous utilisés plus tard dans le cours!

Densité de probabilité: beta

Densité de probabilité: exponentielle

Densité de probabilité: student-t

Densité de probabilité: gamma

20

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

Résumé: distributions continues

http://www.stat.ufl.edu/~ssaha/4322/distributions.pdf

21 Comment travailler aves les distributions dans R?

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  R a les fonctions de densité et de distribution intégré pendant environ 20 distributions de probabilité, comprenant

Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html

•  “d”: PDF

•  “p”: CDF

•  “q”: quantiles

•  “r”: nombres aléatoires

"

"

"

"

22 Exemple: R pour les distribution normales

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

Voir aussi http://ww2.coastal.edu/kingw/statistics/R-tutorials/prob.html

23 Exemple: distribution binomiale

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  PROBLÈME: Supposez qu'il ya douze questions à choix multiples dans un quiz d’un cours d'anglais. Chaque question comporte cinq réponses possibles, et un seul d'entre eux est correcte. Trouver la probabilité d'avoir quatre ou moins réponses correctes si un étudiant tente de répondre à toutes les questions au hasard.

•  SOLUTION: Étant donné que seule une personne sur cinq réponses possibles est correcte, la probabilité de répondre correctement à une question par hasard est de 1/5 = 0,2. Nous pouvons trouver la probabilité d'avoir exactement 4 bonnes réponses par des tentatives aléatoires comme suit.

Voir aussi http://www.r-tutor.com/

24 Exemple: distribution de Poisson

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  PROBLÈME: S’il ya douze voitures traversant un pont par minute en moyenne, trouver la probabilité d'avoir dix-sept ou plus de voitures qui traversent le pont en une minute particulière.

•  SOLUTION: S’il ya douze voitures traversant un pont par minute en moyenne, la probabilité d'avoir dix-sept ou plus de voitures de traverser le pont en une minute particulière est 10,1%.

Voir aussi http://www.r-tutor.com/

25 Exemple: distribution uniforme

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  PROBLÈME: Sélectionnez dix nombres aléatoires entre un et trois.

•  SOLUTION: Il suffit d'appliquer la fonction runif pour générer des nombres aléatoires entre un et trois.

Voir aussi http://www.r-tutor.com/

26 Exemple: distribution normale

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  PROBLÈME: Supposez que les résultats d'un examen d'entrée au collège correspond une distribution normale. Par ailleurs, le score du test moyenne est 72 et l'écart-type est 15,2. Quel est le pourcentage d'étudiants obtenant 84 ou plus à l'examen?

•  SOLUTION: Le pourcentage d'étudiants obtenant 84 ou plus à l'examen d'entrée au collège est 21,5%.

Voir aussi http://www.r-tutor.com/

27 Exemple: distribution exponentielle

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 22 octobre 2012�

•  PROBLÈME: Supposez que la moyenne “check-out” d'un caissier de supermarché est trois minutes. Trouver la probabilité d'une “check-out” étant complété par le caissier en moins de deux minutes.

•  Solution: La probabilité de terminer une “check-out” en moins de deux minutes par le caissier est 48,7%.

Voir aussi http://www.r-tutor.com/

28 Lectures

Lectures complémentaires

•  Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R – Maîtriser le langange, effectuer des analyses statistiques.

! Chapitre 10

•  Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for biologists. Cambridge University Press.

! Chapitre 1.4

Lectures obligatoires •  Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer Associates Inc., Sunderland, MA, USA.

! chaptre 2

•  http://www.r-tutor.com/elementary-statistics/probability-distributions

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 4: 8 octobre 2012�