probabilités et biostatistiqueprobabilités et biostatistique · probabilités et...
Post on 10-Sep-2018
235 Views
Preview:
TRANSCRIPT
Probabilités et BiostatistiqueProbabilités et Biostatistique
2 – Variables aléatoiresP incipales lois de p obabilitéPrincipales lois de probabilité
PAES Faculté de Médecine P. et M. CurieV M iV. Morice
Variable aléatoireUne variable aléatoire désigne la grandeur mesurée lors d'une expérience aléatoiremesurée lors d une expérience aléatoire
Exemples : âge, couleur des yeuxRésultats possibles de l'expérience ⇒ valeurs
ibl d l bl lépossibles de la variable aléatoireTypes de variables aléatoires
Si résultats numériques (variable quantitative)Si résultats numériques (variable quantitative)V.a. continue : les valeurs couvrent ou un intervalleV.a. discrète : les valeurs sont discontinues ( )
Sinon (variable qualitative)Sinon (variable qualitative)V.a. ordinale : les valeurs sont ordonnéesV.a. nominale ou catégorielle : valeurs sans ordre
V. Morice - Biostatistique PAES 2
Fonction de répartitionSoit X une v.a. quantitativeOn cherche une fonction définissant la probabilité de tout intervalle [a ; b]p [ ; ]Soit l’événement [X ≤ x] où x est un nombrenombrePr ([X ≤ x]) dépend de la valeur xF ( ) F( ) P ([X ])FX(x) = F(x) = Pr ([X ≤ x]) = fonction de répartition de X
V. Morice - Biostatistique PAES 3
Fonction de répartition :Fonction de répartition : premières propriétés
FX(-∞) = 0( )FX(+∞) = 1
a < b ⇒P ([X ≤ b]) P ([X ≤ ]) + P ([ < X ≤ b])Pr ([X ≤ b]) = Pr ([X ≤ a]) + Pr ([a < X ≤ b])car [X ≤ a] et [a < X ≤ b] = événements exclusifs
F (b) = F (a) + Pr ([a < X ≤ b])FX(b) = FX(a) + Pr ([a < X ≤ b])FX est monotone croissanteOn trace la courbe en cumulant les probabilités rencontrées l tlorsque x augmente
Pr ([a < X ≤ b]) = FX(b) - FX(a)
V. Morice - Biostatistique PAES 4
Fonction de répartition :Fonction de répartition : exemple d’une v.a. discrète
Jet d’une pièce : E = {p, f} ; Pr (p) = Pr (f) = ½V.a. X : X(f) = 0 ; X(p) = 1Fonction de répartition
V. Morice - Biostatistique PAES 5
Fonction de répartition :Fonction de répartition : exemple d’une v.a. continue
Appel téléphonique dans l’intervalle [0,T]t =instant d’appel : Pr (t1 ≤ t ≤ t2)=(t2-t1)/T (t1 et t2 ∈ [0 T])t =instant d appel : Pr (t1 ≤ t ≤ t2)=(t2 t1)/T (t1 et t2 ∈ [0,T])Fonction de répartition
Si x<0, l’appel n’a pas eu lieu avant x : F(x) = 0( )
Si x >T, l’appel a eu lieu avant x : F(x) = 1
Sinon F(x)=Pr (0≤ t≤ x)= x/T
V. Morice - Biostatistique PAES 6
Fonction de répartition :Fonction de répartition : autres propriétés
On sait Pr ([x - < X ≤ x]) = FX(x) - FX(x -)Si Pr ([ < X ≤ ]) Pr ([X ])Si x - → x, Pr ([x - < X ≤ x]) → Pr ([X = x]) Si X est une v.a. continue
F est continue (si - → F ( -) → F ( ))FX est continue (si x - → x, FX(x -) → FX(x))Pour tout x, Pr ([X = x]) = 0Pr ([a ≤ X ≤ b]) = Pr ([a < X < b]) ([ ]) ([ ])
Si X est une v.a. discrèteFX est discontinueX
En chaque point x de discontinuité, la hauteur du saut(FX(x) - FX(x -) lorsque x - → x) est la probabilité de x
V. Morice - Biostatistique PAES 7
v.a. discrète : distribution desv.a. discrète : distribution des probabilités
V. Morice - Biostatistique PAES 8
v.a. continue : densité dev.a. continue : densité de probabilité
xxxx X
X d)(dF )f( )(f ==
Densité de probabilité
F ti d é titiFonction de répartition∫ ∞−= x
XX ttx )d(f )(FPr ([a ≤ X ≤ b])
f( )≥0 (F croissante)
([ ])= FX(b) – FX(a)
∫= ba )d(f xxX
f(x)≥0 (F croissante)f(x)dx=Pr ([x≤X≤x+dx])f(x)dx≈ Pr ([X=x])( ) ([ ])
1 )df(- =∫∞∞ xx
V. Morice - Biostatistique PAES 9
Pour définir une v.a. …
v.a. discrète v.a. continuev.a. discrète ou qualitative
v.a. continue
Définition de la Tableau des Densité de proba f(x)Définition de la loi de proba
Tableau despi=Pr (X=xi)
Densité de proba f(x)
Propriétés p ≥ 0 f(x) ≥ 0∫ ==≤≤ba
F(a)-F(b))df(b])([a xxXPr
Propriétés pi ≥ 0
Uniquement si
f(x) ≥ 0∑= =n
i ip1 1 1 )df( =∫∞∞− xx
∫x tt)df()F(Uniquement si
quantitative : f(x)dx = Pr (x≤X≤x+dx)f( )d Pr (X )∑= px)F(
∫ ∞−= x ttx )df()F(
V. Morice - Biostatistique PAES 10
f(x)dx ≈ Pr (X=x)∑ ≤xix ipx)F(
Espérance mathématiqueEspérance mathématique [variable quantitative]
Moyenne au niveau de la populationNotation E(X) = μX = μCalcul : somme de toutes les valeursCalcul : somme de toutes les valeurs pondérées par leur probabilité
∑ == ni ii pxX 1 )E(V.a. discrète :
∫∞= xxxX )df()E(V a continue : ∫ ∞−= xxxX )df( )E(V.a. continue :
V. Morice - Biostatistique PAES 11
Espérance mathématique :Espérance mathématique : propriétés
E(c) = cSoient des v.a. X et Y et des constantes a, b, c
E(c) = cE(X+c) = E(X)+cDémonstration du cas discret : Y=X+c a pour valeurs yi=xi+cDémonstration du cas discret : Y X c a pour valeurs yi xi cE(X+c) = E(Y) = ∑yiPr (Y=yi) = ∑(xi+c)Pr (Y=yi) Or Pr (Y=yi) = Pr (X+c=xi+c) = Pr (X = xi) = piDonc E(X+c) = ∑(xi+c)pi = ∑xipi + c∑pi = E(X)+c( ) ( i )pi ipi pi ( )Plus généralement si Y=g(X), on a ∑yiPr (Y=yi) = ∑g(xi)pi
Si c = -E(X) ⇒ E(X -E(X)) = E(X) - E(X) = 0Une v a d’espérance nulle est dite centréeUne v.a. d espérance nulle est dite centrée
E(aX) = aE(X)E(X +Y) = E(X) + E(Y)
V. Morice - Biostatistique PAES 12
E(X +Y) = E(X) + E(Y)
Variance (et écart-type)Variance (et écart-type)[variable quantitative]
Variance = mesure de la variabilité autour de l’espéranceNotation var(X) = σ2
X = σ2Notation var(X) = σ X = σDéfinition var(X) = E[(X -E(X))2]On ne peut utiliser E[X -E(X)] qui est nul
CalculCalculV.a. discrète ∑= =
ni ii pXxX 1
2))E(-( )var(
V.a. continue xxXxX )df())E(-( )var( -2
∫= ∞∞
A t défi iti (X) E(X 2) E(X)2Autre définition var(X) = E(X 2) -E(X)2
Car E[(X -E(X))2] = E[X 2-2X E(X)+E(X)2] = E(X 2)-2E(X)E(X)+E(X)2 = E(X 2) -E(X)2
CalculV di èt 22 )E()( nV.a. discrète 22 )E(-)var( XpxX n
i ii∑= =1
V.a. continue 2- )E(-)df( )var( XxxxX ∫= ∞∞
2
Ecart-type = σX = σ = )var(X
V. Morice - Biostatistique PAES 13
Ecart type = σX = σ = )var(X
Variance : propriétésVar(X) ≥ 0 (somme de carrés)Variance nulle pour une constanteVariance nulle pour une constante.Variance faible pour une variable peu dispersée
Si X possède une unitéE(X) t t l ê itéE(X) et σ ont la même unitéVar(X) a cette unité au carré
Si c est une constanteSi c est une constanteVar(c) = 0Var(X +c) = var(X)Var(X c) var(X)Var(c X) = c2var(X)
Var(X +Y) = ?
V. Morice - Biostatistique PAES 14
Loi de 2 variables discrètes ouLoi de 2 variables discrètes ou qualitatives
X et Y, deux v.a. discrètes ou qualitatives mesurables sur les mêmes individussur les mêmes individusEX = {x1, x2, …, xn} ; Ey = {y1, y2, …, ym} Exemple :Exemple :X =sexe (x1=H ; x2=F)Y =CSP (y1=agriculteur ; y2=ouvrier ; … ; ym=retraité)
Pour parler simultanément de X et Y il fautPour parler simultanément de X et Y, il faut considérer l’espace produit :EX ×Ey = {(x1,y1), (x1,y2), …, (x1,ym), …, (xn,ym)}On doit se donner les probabilités de chaque couple :Pr ([X = xi] ∩ [Y = yj]) = pxi,yj
V. Morice - Biostatistique PAES 15
Loi de 2 variables discrètes :Loi de 2 variables discrètes : tableau des probabilités
X \ Y y1 y2 … ym ∑y
x1 p 1 1 p 1 2 … p 1 p 1x1 px1,y1 px1,y2 … px1,ym px1
x2 px2,y1 px2,y2 … px2,ym px2
… … … … … …
xn pxn,y1 pxn,y2 … pxn,ym pxn
∑x py1 py2 … pym 1
p xi,yj = Pr ([X = xi] ∩ [Y = yj])p i = ∑p i j ; p j = ∑p i jpxi ∑pxi,yj ; pyj ∑pxi,yj
px et py sont souvent appelées lois marginalesCe sont les lois des variables X et Y indépendamment l’une de l’autre
V. Morice - Biostatistique PAES 16
Covariance et corrélationCovariance et corrélation [variables quantitatives]
Var(X+Y) = E[((X+Y)-(μX+μY))2] = E[((X -μX)+(Y -μY))2] = E[(X -μX)2 +(Y -μY)2 +2(X -μX)(Y -μY)] = σX
2+ σY2 +2cov(X,Y)
Première définition : cov(X,Y) = E[(X -μX)(Y -μY)]Seconde définition : cov(X,Y) = E(XY)-μX μY = E(XY)-E(X)E(Y)car E[(X -μ )(Y -μ )] = E(XY-μ Y-Xμ +μ μ ) = E(XY)-μ μ -μ μ +μ μcar E[(X -μX)(Y -μY)] = E(XY-μXY-XμY+μX μY ) = E(XY)-μX μY-μX μY+μX μY
Calculs pour deux variables discrètes :cov(X,Y) = ∑i,j(xi-μX)(yj-μY) pxi,yj
cov(X,Y) = ∑i,jxiyj pxi,yj - μX μY
La covariance est une mesure de l’intensité de la liaison linéaireentre deux variablesentre deux variables
La corrélation est toujours entre -1 et 1σσ
ρYX
XYYX ),cov( =Corrélation
V. Morice - Biostatistique PAES 17
La corrélation est toujours entre 1 et 1
Indépendance de deuxIndépendance de deux variables aléatoires
X et Y quantitatives sont indépendantes si et seulement si les événements [X ≤ x] et [Y ≤ y] sontseulement si les événements [X ≤ x] et [Y ≤ y] sont indépendants pour tout x et tout y⇔ Pr ([X ≤ x]∩[Y ≤ y]) = Pr ([X ≤ x])Pr ([Y ≤ y])([ ] [ y]) ([ ]) ([ y])⇔ FXY(x,y) = FX(x)FY(y)où FX et FY sont les fonctions de répartition de X et de Y, et FXY est la fonction de répartition du couple X, Y (définition)fonction de répartition du couple X, Y (définition)
Si X et Y sont des v.a. discrètes ou qualitatives, l’indépendance peut s’écrire (pour tout xi et tout yj) P ([X ] [Y ]) P ([X ])P ([Y ])Pr ([X = xi]∩[Y = yj]) = Pr ([X = xi])Pr ([Y = yj])⇔ pxi,yj = pxi pyj
V. Morice - Biostatistique PAES 18
Conséquences de l’indépendanceConséquences de l indépendance de 2 variables quantitatives
Si X et Y sont indépendantes alors :
cov(X Y) = 0 et ρ = 0
Si X et Y sont indépendantes, alors :
cov(X, Y) = 0 et ρXY = 0var(X + Y) = var(X ) + var(Y) E(XY) = E(X)E(Y) car cov(X Y) = E(XY) - E(X)E(Y)car cov(X, Y) = E(XY) - E(X)E(Y)
La réciproque est fausse
V. Morice - Biostatistique PAES 19
Loi normale N(μ ; σ2)Loi continue la plus importante
é21 ( )1 x μ−
E(X) = μ(X) 2 (d 0)
Densité : 2
12( )
e1
f( ) 2
x μ
σx
π−=
σ
var(X) = σ2 (donc σ > 0)Si X et Y sont N et indépendantes, alors aX+bY est NC ti li (0 1)Cas particulier N(0 ; 1)
Loi centrée (μ = 0) et réduite (σ = 1)21 2
2e1
f( ) 2
xx
π−=
V. Morice - Biostatistique PAES 20
Allure de la loi N(0 ; 1)
Courbe de la densitéSurface sous la courbe = 1Loi symétriqueAxe de symétrie = espéranceAxe de symétrie = espéranceMaximum sur l’axe de symétrieEcart-type = distance entre axe de symétrie et point d’inflexiond inflexion
V. Morice - Biostatistique PAES 21
Loi N(0 ; 1) et probabilitésProbabilité d’un intervalle = surface sous la courbesurface sous la courbePr (0,5 ≤ X ≤ 2) = 0,312 = surface griséeCalcul = intégration de f(x)⇒ ???Des tables numériquesDes tables numériques donnent les résultatsPr (-2 ≤ X ≤ 2) ≈ 0,95
V. Morice - Biostatistique PAES 22
Loi N(μ ; σ2) : influence de μ
σ = 1 pour les 3 courbesσ = 1 pour les 3 courbesL’allure de la courbe se conserve si on change de moyenneIl s’agit d’un simple décalagedécalage
V. Morice - Biostatistique PAES 23
Loi N(μ ; σ2) : influence de σ
μ = 0 pour les 3 courbesLa courbe s’aplatit si σElle se resserre si σLe maximum s’ajusteLe maximum s ajuste pour que la surface = 1Le maximum peut dépasser 1
V. Morice - Biostatistique PAES 24
Loi N(μ ; σ2) et probabilités
S l N(0 1) t t b léSoit X→ N(μ ; σ2). On cherche Pr (a ≤ X ≤ b)
Seule N(0 ; 1) est tabuléeMais )1;0( N →−= σ
μXYO t t éd i bt i l b bilitéOn va centrer et réduire pour obtenir la probabilité
)Pr()Pr( σσσμμXμX -b - -a b a ≤≤=≤≤
a b
Alors Pr (a ≤ X ≤ b) = Pr (c ≤ Y ≤ d)
Posons et σμ-a c = σ
μ -b d =
Alors Pr (a ≤ X ≤ b) Pr (c ≤ Y ≤ d)La probabilité sur Y se lit dans la table de la loi normale centrée réduite
V. Morice - Biostatistique PAES 25
Loi du « chi-deux » χ2(n)Famille de lois dérivées de N(0 ; 1)
Si X1 → N(0 ; 1), alors X = X12 → χ2(1)
Si X1, X2, …, X → N(0 ; 1) et sont indépendantes,Si X1, X2, …, Xn → N(0 ; 1) et sont indépendantes, alors X = X1
2 + X22 + … + Xn
2 → χ2(n)n est le nombre de degrés de liberté (ddl)g ( )X ≥ 0E(X) = n, var(X) = 2nLa probabilité d’un intervalle est donnée par une table (qui dépend du ddl)
V. Morice - Biostatistique PAES 26
Allure de la loi du χ2χExemples avec un ddl n = 1, 2, et 8Courbes = densités de probabilitéCourbes = densités de probabilitéSi n > 2, la courbe présente un maximum en n – 2Si n augmente, la courbe se rapproche d’une loi normale
V. Morice - Biostatistique PAES 27
Loi de BernoulliBase des lois discrètes ou qualitatives
é à é è éExpérience à deux résultats possibles succès et échecVariable de Bernoulli : X(échec) = 0, X(succès) = 1
èPr (succès) = Pr ([X = 1]) = ΠPr (échec) = Pr ([X = 0]) = 1 – ΠE(X) Π 1 (1 Π) 0 ΠE(X) = Π × 1 + (1 - Π) × 0 = Πvar(X) = E(X 2) – E(X)2
E(X 2) Π 12 (1 Π) 02 ΠE(X 2) = Π × 12 + (1 - Π) × 02 = Πvar(X) = Π - Π 2 = Π(1 - Π)
V. Morice - Biostatistique PAES 28
Loi binomiale B(n, Π)Construite sur n expériences de Bernoulli indépendantes (Π ne change pas entre lesindépendantes (Π ne change pas entre les épreuves)La variable X est le nombre de succès parmi les npexpériences (valeur entre 0 et n)
La probabilité d’avoir exactement k succès estp
( ) )()( )!(!!)Pr( Π− −ΠΠ− −Π −=== 11 knkknk
kn
knknkX
( )n
E(X) = nΠ ; var(X) = nΠ(1- Π)
est le nombre de manières d’obtenir k succès parmi nΠk(1-Π)n-k est la probabilité d’en obtenir une( )k
n
V. Morice - Biostatistique PAES 29
( ) ; ( ) ( )
Loi de PoissonLoi concernant la réalisation d’événements
Faiblement probables (loi des événements rares)Faiblement probables (loi des événements rares)IndépendantsExemples : accidents, files d’attente, ruptures de stock
La variable X est le nombre de réalisations de l’événementLa loi dépend d’un paramètre λ (λ > 0)La probabilité d’avoir k réalisations de l’événement rare est
L b k d é li ti i t 0 t ( l i bi i l )
La probabilité d avoir k réalisations de l événement rare est
!)Pr( kkXkλλe -==
Le nombre k de réalisations varie entre 0 et ∞ (≠ loi binomiale)λ−eE(X) = λ ; var(X) = λ ; Pr(X=0) =
Si X →Poisson(λ ) X →Poisson(λ ) X et X indépendantes
V. Morice - Biostatistique PAES 30
Si X1→Poisson(λ1), X2→Poisson(λ2), X1 et X2 indépendantes, alors X=X1+X2 → Poisson(λ1 +λ2)
Approximations d’une loiApproximations d une loi binomiale B(n, Π)
Approximation par une loi normaleX → B(n, Π)
Approximation par une loi normaleConditions : nΠ ≥ 5 et n(1-Π) ≥ 5
Variable pour l’approximation Y → N(nΠ ; nΠ(1- Π))Variable pour l approximation Y → N(nΠ ; nΠ(1 Π))On a Pr ([X=k]) ≈ Pr ([k - 0,5 ≤ Y ≤ k + 0,5])Les probabilités Pr([Y <0]) et Pr ([Y > n]) sont faibles, mais
llnon nullesApproximation par une loi de Poisson
Conditions : Π < 0,1 et n ≥ 50Conditions : Π < 0,1 et n ≥ 50 Variable pour l’approximation Y → Poisson(λ = nΠ)On a Pr ([X=k]) ≈ Pr ([Y=k]) L b bilité P ([Y ]) t f ibl i ll
V. Morice - Biostatistique PAES 31
La probabilité Pr ([Y > n]) est faible, mais non nulle
Approximation d’une loi deApproximation d une loi de poisson par une loi normale
X → Poisson(λ)Conditions : λ > 25Variable pour l’approximationVariable pour l’approximationY → N(λ ; λ)
On a Pr ([X=k]) ≈ Pr ([k - 0,5 ≤ Y ≤ k + 0,5])
V. Morice - Biostatistique PAES 32
Loi de Poisson et risque sanitaireLoi de Poisson et risque sanitaire pas encore observé
Après 10.000 prescriptions d'un nouveau médicament pas d'effet indésirablemédicament, pas d effet indésirableQue se passera-t-il après 1.000.000 prescriptions ?prescriptions ?Π = risque individuel d'effet indésirable, inconnu mais faibleinconnu mais faibleSur n individus, si X est le nombre d'effets indésirables observés, X → B(n, Π)indésirables observés, X → B(n, Π)
Π faible, n grand : X → Poisson(λ = nΠ)Pr(X=0) = e-λ = e-nΠ( )
V. Morice - Biostatistique PAES 33
Loi de Poisson et risque sanitaireLoi de Poisson et risque sanitaire pas encore observé (2)
Que peut-on dire de Π qui soit compatible avec la non observation d'effet indésirable sur n individus ?Règle : il n'est pas raisonnable d'imaginer ne pas observer d'effet indésirable si la probabilité de cette non observation est inférieure à 5%Si X 0 i di id P (X 0) nΠ 0 05Si X=0 sur n individus, Pr(X=0)= e-nΠ≥0,05 ⇒nΠ ≤ 3 ⇒ Π ≤ 3/nLa non observation d'effet indésirable sur n individus est compatible avec un risque individuel Π ≤ 3/ncompatible avec un risque individuel Π ≤ 3/nSi n=10000 prescriptions sans effet indésirable, et Π=3/n=3×10-4
Avec 1 000 000 de prescriptions on s'attend à 300 effetsAvec 1.000.000 de prescriptions on s attend à 300 effets indésirablesCe qui est énorme
V. Morice - Biostatistique PAES 34
top related