cursul – ii - justmed.eu filecurs 2 2 statistic Ă matematic Ă Şi biostatistic Ă statistica...
TRANSCRIPT
Curs 2 2
STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ
Statistica matematică este principala aplicaţie a teoriei probabilităţilor. Procedeele statistice
constau, în esenţă, în elaborarea unor concluzii plauzibile privitoare la colectivităţi mari de fenomene,
pe baza cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor.
Legile care stau la baza statisticii şi care permit aceste generalizări sunt teorema limită centrală
şi legea numerelor mari.
Într-o exprimare intuitivă, avem rezultatul că, dacă o variabilă aleatoare ξ este suma unui
număr mare de variabile aleatoare independente, fiecare variabilă aleatoare având o pondere mică în
sumă, atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o funcţie de repartiţie
normală.
Exprimat mai riguros şi mai general, avem următoarea teoremă:
Teorema limită centrală (A.M.Leapunov)
Fie nξξξ ,...,, 21 variabile aleatoare independente.
Fie ( ) ( ) 2,k k k kM a Dξ ξ σ= = şi ( )33kkk mM −= ξρ când nk ,1=
Notăm ( ) ∑=n
in 1
22 σσ , ( ) ∑=n
in 1
33 ρρ
Dacă ( )
( )
0lim =∞→
n
n
nσ
ρ , atunci funcţia de repartiţie a variabilei
( )
( )n
nn aaa
σ
ξξξ +++−+++ ...... 2121
tinde, când ∞→n , către funcţia ( )xΦ a lui Laplace.
( )2
21
2
z t
x e dtπ
−
−∞
Φ = ∫
Teorema limită centrală este teorema fundamentală a teoriei erorilor. Laplace, Gauss şi alţi
matematicieni, studiind repartiţia erorilor, au ajuns la concluzia că funcţia de repartiţie normală poate fi
luată drept model teoretic pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.
Teorema lui Cebâşev
Dacă nζζζ ,...,, 21 sunt variabile aleatoare (discrete sau continue) independente ale căror
dispersii sunt mai mici decât o constantă C, atunci oricare ar fi numărul pozitiv ε, probabilitatea
inegalităţii
Curs 2 3
( ) ( ) ( )1 21 2
...... nnM M M
n n
ζ ζ ζζ ζ ζε
+ + ++ + +− ⟨
tinde către 1, atunci când numărul variabilelor aleatoare tinde către infinit.
Demonstraţie:
Să considerăm variabila aleatoare n
nζζζζ
+++=
...21 . Având în vedere liniaritatea
operatorului de calcul a mediei avem ( ) ( ) ( ) ( )1 2 ...n
M M MM
n
ζ ζ ζζ
+ + += .
Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine:
( ) ( ) ( )1 2
1 21 22
.........
1
n
nn
DM M M n
Pn n
ζ ζ ζζ ζ ζζ ζ ζ
εε
+ + + + + ++ + + − ⟨ ≥ −
Mai departe, din proprietăţile operatorului D
( ) ( ) ( )n
C
n
nC
n
CCC
n
DDD
nD nn ==
+++≤
+++=
+++222
2121 ......... ζζζζζζ
Deci
( ) ( ) ( )1 21 2
2
......1nn
M M M CP
n n n
ζ ζ ζζ ζ ζε
ε
+ + ++ + +− ⟨ ≥ −
Trecând la limita pentru ∞→n obţinem
( ) ( ) ( )1 21 2......
lim 1nnn
M M MP
n n
ζ ζ ζζ ζ ζε→∞
+ + ++ + +− ⟨ ≥
şi cum probabilitatea nu poate depăşi 1,
( ) ( ) ( )1 21 2......
lim 1nnn
M M MP
n n
ζ ζ ζζ ζ ζε→∞
+ + ++ + +− ⟨ =
Cel mai frecvent, în practică, variabilele aleatoare iζ au aceiaşi medie µ şi concluzia teoremei devine
1...
lim 21 =
⟨−
+++∞→ εµ
ζζζ
nP n
n
În esenţă, teorema lui Cebâşev stabileşte că, deşi variabilele aleatoare independente pot lua
valori îndepărtate faţă de mediile lor, media aritmetică a unui număr suficient de mare de astfel de
Curs 2 4
variabile aleatoare ia cel mai probabil valori apropiate de un număr constant
( ) ( ) ( )1 2 ...n
M M M
n
ζ ζ ζ+ + + (sau µ atunci când mediile variabilelor sunt egale între ele).
Ca urmare, între comportarea fiecărei variabile aleatoare şi comportarea mediilor lor există
diferenţă esenţială. Putem spune foarte precis ce valoare va lua media aritmetică a acestor variabile
aleatoare. Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile aleatoare sunt de
semne diferite şi, ca urmare, se compensează între ele.
TEORIA SELECŢIEI
Populaţii şi selecţii. Inferenţa statistică
În practică avem adesea nevoie să facem judecăţi asupra unor mari colecţii de rezultate posibile
experimental ori a altor cantităţi, dar nu putem sau este extrem de scump, să examinăm toate aceste
date. În astfel de cazuri, în loc să examinăm întregul set de date pe care îl numim în cele ce urmează
populaţie, tragem concluziile după examinarea a o parte din ele, alese la întâmplare, parte pe care o
numim selecţie.
Procedeul de obţinere a probelor este numit tot selecţie, iar procedeul de extrapolare a
concluziilor la întreaga populaţie este cunoscut ca inferenţa statistică.
Vom considera că o caracteristică dată a populaţiei este o variabilă aleatoare pe un câmp de
probabilitate ( )PK ,,Ω în care elementele lui Ω sunt chiar elementele populaţiei, iar P este o
probabilitate cunoscută sau nu.
Enumerarea valorilor observate ale caracteristicii urmărite şi a frecvenţelor lor relative defineşte
repartiţia statistică a selecţiei.
Teorema lui Leapunov, numită şi teorema fundamentală a statisticii matematice, care justifică
utilizarea metodei selecţiei stabileşte că funcţia de repartiţie statistică a caracteristicilor selecţiilor tinde
la funcţia teoretică de repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞.
Exemplu 1
Putem dori să tragem concluzii despre evoluţia rezistentei unei tulpini de germeni patologeni la
un medicament dat şi, în acest scop, examinăm rezultatele antibiogramelor făcute într-un eşantion de
spitale într-o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului precedent. Deşi
rezultatele obţinute se referă la spitale şi mai precis numai la o parte din ele, concluziile le extindem la
scara întregii populaţii.
Curs 2 5
Exemplu 2
Rezultatele privind absorbţia unui medicament după administrarea orală prin determinarea
nivelurilor din plasma ale medicamentului la un lot de voluntari sănătoşi le considerăm ca rezultate
probabile pentru întreaga populaţie ce include şi potenţiali pacienţi.
Populaţia poate fi infinită sau finită, în ultimul caz, numărul indivizilor populaţiei – N- se mai
numeşte şi volumul populaţiei. În mod similar, numărul de indivizi sau valori din cadrul unei probe este
denumit volumul probei sau volumul eşantionului.
Valabilitatea concluziilor despre populaţie depinde de “reprezentativitatea” probei. Pentru
populaţii finite aceasta înseamnă că fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când
spunem că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că selecţia unor
voluntari sănătoşi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din
acest punct de vedere o selecţie reprezentativă. În cazurile în care avem motive să credem că patologia
căreia se adresează medicamentul nu afectează funcţiile metabolice şi de excreţie, această aproximare
este acceptată pentru motivul că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp
de lucru mult crescute.
În practică, în studiile de bioechivalenţă, pentru reducerea volumului loturilor pe care se fac
testările, se administrează amândouă medicamentele la toţi membri lotului, în două perioade diferite.
Fiecare component al lotului primeşte unul din medicamente în prima perioadă şi celălalt în a doua
perioadă.
Deoarece perioada de administrare poate influenţa şi ea rezultatul experimentului, alegerea
indivizilor care vor primi în prima perioadă primul medicament se face în mod aleator. În cazul când
sunt mai multe perioade, de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un tabel
de felul
I II III IV
A B D C
B C A D
C D B A
D A C B
Curs 2 6
aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată în fiecare linie şi în fiecare
coloană. Se numeşte pătrat latin deoarece, cum se va arata mai departe, în cazul în care mai intervine şi
o altă variabilă, de exemplu doza din fiecare medicament, se folosesc şi litere grecesti, alcătuindu-se
pătrate “greco-latine”.
Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari sănătoşi, pornind de la ipoteza că
modificările de biodisponibilitate asociate stărilor patologice sunt aceleaşi pentru cele două
medicamente testate, ceea ce, evident, este numai în parte adevărat.
În toate experimentele biologice, planificarea experimentului trebuie făcută în aşa fel încât
diferenţele în tratament să nu coincidă cu diferenţe în vârstă, sex, sau alţi parametri. Dacă, de exemplu,
femeile din lot primesc primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt
“confundate” cu diferenţele de tratament. În acest caz nu se poate spune dacă diferenţele obţinute se
datorează tratamentului sau diferenţei de sex.
Parametrii de selecţie ai unei variabile aleatoare :
Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor microbiene la antibioticele
din exemplul 1, sau dacă luăm în consideraţie concentraţiile de medicament în sânge, din al doilea
exemplu, şi probabilităţile ca valorile să aparţină unor intervale diferite, obţinem o variabilă aleatoare X
asociată cu rezultatul experimentului corespunzător.
Parametrii acestei variabile aletoare sunt denumiţi, prin abuz de limbaj, “parametri ai
populaţiei”.
Dacă în exemplul al doilea Xi este concentraţia de medicament în sângele bolnavului i, la o oră
de la administrare, la primul voluntar putem obţine o valoare x1, pentru al doilea voluntar o valoare x2,
etc. În acest fel găsim valorile nxxx ,...,, 21 ale varibilelor aleatoare independente nXXX ,...,, 21 .
Media de selecţie este o variabilă aleatoare: n
XXXX n+++
=...21
Dacă distribuţia lui X este normală - ( )σµ,N , aceiaşi pentru fiecare i, datorită linearităţii
operatorului E care defineşte media, obţinem ( ) XM X µ µ= = adică valoarea pentru media mediei de
selecţie este media populaţiei.
Dacă la datele experimentale se adaugă o constantă, axx ii +=′ , media de selecţie creşte cu
aceeaşi constantă: ( )
aXn
aXW
n
i+=
+=∑1
Curs 2 7
Similar, dacă fiecare valoare se înmulţeşte cu o constanta ii kXZ = , media de selecţie Z se
înmulţeşte cu aceeaşi contantă: Xkn
kXZ
n
i==
∑1
Dispersia de selecţie
Ca o măsură a abaterii datelor faţă de media de selecţie, se introduce noţiunea de dispersie de
selecţie ( )2
1
2
1
1∑ −
−=
n
iX Xxn
S .
În aplicaţiile practice, pentru reducerea numărului de calcule, formula se aduce la o altă formă
şi anume:
( )
( )
−
−=
−
−
=
+−
−=
+−
−=−
−=
∑ ∑∑
∑∑ ∑∑
n
n
i
i
n
i
n
i
n n
ii
n
iX
n
xx
nXnx
n
XnXnxn
XnxXxn
Xxn
s
1
2
122
1
2
1
222
1
2
1
2
1
22
1
1
1
1
21
12
1
1
1
1
Dacă
222xzii sksakxz =⇒+= . Într-adevăr
( ) ( ) 222
11
22
1
1
1
1x
n
i
n
iZ skaXkakxn
Zzn
s =−−+−
=−−
= ∑∑
xs se numeşte abaterea standard de selecţie sau deviaţie standard, când nu este pericol de confutie
privind variabila aleatoare la care se referă folosindu-se şi notaţia d
s .
Se mai utilizează în practică şi noţiunile:
• Dispersia”populaţiei” = ( )2
11
1∑ −
−
n
i Xxn
şi respectiv
• Deviaţia standard a “populaţiei”, precum şi “abaterea standard a mediei” (prescurtarea SEM –
standard error of mean) definită prin raportul n
sSEM x=
• precum şi coeficientul de variatie *100xs
vX
= .
Covarianta de selecţie
Covarianta de selecţie se defineşte prin formula ( )( )YyXxn
s i
n
iXY −−−
= ∑11
1
Curs 2 8
Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă în sensul simplificărilor de
calcul în anumite aplicaţii.
( ) ( )
( )
−
−=−
−
=+−−−
=+−−−
=
∑ ∑ ∑∑
∑∑ ∑ ∑
n
n n
ii
ii
n
ii
n
ii
n n n
iiiiXY
n
yxyx
nYXnyx
n
YXnYXnYXnyxn
YXnxYyXyxn
s
1
1 1
1
11 1 1
1
1
1
1
1
1
1
1
Coeficientul de corelaţie de selecţie
Coeficientul de corelaţie de selecţie se defineşte prin formula
( )( )( )
( ) ( )
( ) ( )
( ) ( )
1 1
2 22 2
1 11 1
11,
1 11 1
n ni i i i
XY
n nn nX Yi ii i
x X y Y x X y Ys nx ys s
x X y Yx X y Yn n
ρ− − − −
−= = =
− −− −− −
∑ ∑
∑ ∑∑ ∑
Proprietăţi ale caracteristicilor de selecţie
Considerăm în continuare o selecţie de volum n dintr-o populaţie cu media µ si dispersia 2σ
Propoziţie
Media mediei de selecţie este egală cu media populaţiei. ( )M X µ=
Demonstraţie:
( ) ( ) ( )i iM x M x n
M Xn n n
µµ= = = =
∑ ∑
Propoziţie
Media dispersiei de selecţie este egală cu dispersia populaţiei ( )2 2X
M s σ=
Demonstraţie:
( ) ( ) ( )
( ) ( ) ( )
222 2
1 1 1 1
2
22 2 12 2 2
1 1 1
1 12
1 1
1 1 12
1 1 1
n n n n
X i i i
n
in n n
i i i
M s M x X M x X x xn n
xM x nX nX M x nX M x
n n n n
= − = − + =
− −
− + = − − = − − − −
∑ ∑ ∑ ∑
∑∑ ∑ ∑
Dar, mai departe
( ) ( )2 2 2
1
n
iM x n σ µ= +∑
Curs 2 9
( ) ( ) ( )
( ) ( )
( ) ( )
22 2
11 1 1
2 2 2 2 2 2
12 2
2
1
n n n n
i i i j i i ji j
n nM x M x x x M x M x M x
n n n n nσ µ µ σ µ
≠
− = + = + =
= + + − = +
∑ ∑ ∑ ∑
şi înlocuind în expresia lui ( )2X
M s obţinem ( )( )2 2 2 2
2 2
1X
n nM s
n
σ µ σ µσ
+ − −= =
−
Propoziţie
Variabila aleatoare
n
xZ
σµ−
= tinde , când ∞→n către o variabilă ( )1,0N
Aceasta este o consecinţă a teoremei limită centrală şi este aplicabilă atât variabilelor continue cât şi
celor discrete.
Într-adevăr aplicând teorema lui Leapunov pentru variabilele aleatoare nxxx ,...,, 2, obţinem că:
( )
n
X
n
nXnxxx nn
σµ
σ
µ
σσσ
µµµ −=
−=
+++
+++−+++2222
2121
...
......
tinde către o variabilă aleatoare ( )1,0N .
Propoziţie
Dacă variabila aleatoare X este normal distribuită, atunci variabila aleatoare ( )2
2
1σ
XsnV −=
este repartizată ( )12 −nχ
Demonstraţie:
( )( ) ( ) ( )[ ]
( ) ( )( ) ( ) ( ) ( )( ) ( )
( ) ( )2
2
121
21
22
21 1 1
22
21
2
21
2
2
22
1
−
−
−=
−−−
=−+−−−−
=−+−−−−
=−−−
=−
=−=
∑∑
∑∑ ∑ ∑
∑∑
n
XxXnx
XnXnXnxXXxx
XxXxsnV
n i
n
i
n
i
n n n
ii
n
i
n
iX
σµ
σ
µ
σ
µµ
σ
µµµµ
σ
µµµµ
σ
µµ
σσ
Curs 2 10
Dar variabila aleatoare σ
µ−ix este repartizată ( )1,0N deoarece
( )iiM xx
Mµµ
σ σ
−− =
şi
( )1
2==
−
σσ
µ ii xDxD , iar
( )
n
X
σµ−
este repatizată tot ( )1,0N în conformitate cu teorema limită
centrală.
Deci, V este o sumă de n-1 pătrate de variabile de tip ( )1,0N .
Propoziţie
Dacă nxxx ,...,, 21 este o selecţie dintr-o populaţie normal distribuită, atunci variabila aleatoare
n
s
XT
µ−= este repartizată Student cu n grade de libertate.
Demonstraţie:
( )( ) 1
1 21
2
−
=
−
−
−
=
−
=−
∑n
V
Z
n
Xx
n
X
s
n
X
n
s
X
n
i
σ
σµ
σ
σµ
µ
unde
n
XZ
σµ−
= este repartizată ( )1,0N , iar ( )
21
2
σ
∑ −=
n
i XxV este repartizată ( )12 −nχ .
Deci, T este repartizată Student cu n-1 grade de libertate.
Propoziţie
Date fiind două selecţii aleatoare independente 111211 ,...,, nxxx si
2,...,, 2221 nxxx din populaţii
normal distribuite ( )11 ,σµN şi ( )22 ,σµN , variabila aleatoare
22
22
21
21
σ
σ
S
S
F = este repartizată Fisher –
Snedecor ( )1,1 21 −− nnF
Demonstraţie:
Curs 2 11
Avem într-adevar
( )( )
( )( ) 2
22
1
2
22
211
1
2
11
22
22
21
21
1
12
1
σ
σ
σ
σ
−
−
−
−
==
∑
∑
n
Xx
n
Xx
S
S
Fn
i
n
i
iar număratorul şi numitorul sunt repartizate, conform
propozitiei 2.3.5.4., respectiv ( )
1
1
1
12
−
−
n
nχşi
( )1
1
2
22
−
−
n
nχ.
Estimaţii
Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute. Valorile
numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se
folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în
cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.
Un estimator al parametrului θ se va nota cu θ . O estimaţie este nedeplasată dacă ( )ˆM θ θ= ,
adică media estimaţiei este egală chiar cu valoarea teoretică a parametrului estimat.
Conform proprietăţii 2.3.5.1, ( )M X µ= adică media de selecţie este un estimator nedeplasat al
mediei, iar conform proprietăţii 2.3.5.2., ( )2 2M s σ= adică dispersia de selecţie este un estimator
nedeplasat al dispersiei.
Problema estimării intervalelor se reduce la găsirea unui interval de încredere ( )UL θθ , cu un
coeficient de încredere α−1 astfel încât ( ) αθθθ −=⟨⟨ 1ULP .
Este de dorit ca α−1 să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar intervalul
( )UL θθ , să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se
numesc cuantile de ordin β valoarea βx a variabilei aleatoare x pentru care ( ) ( ) βββ =⟨= xxPxF
adică valoarea variabilei aleatoare care are la stânga ei aria β sub curba densităţii de probabilitate.
Evident:
22
αα =
⟨ xxP
21
21
αα −=
⟨ −xxP
ααα
αα −=−−=
⟨⟨ − 1
221
21
2
xxxP
Curs 2 12
Pentru a estima un interval se alege α−1 , se citesc din tabelele cuantilele, de exemplu 2
1α
−x şi
2
αx şi se precizează intervalul. În prealabil, în funcţie de mărimea pentru care se caută intervalul se
precizează cu care din repartiţiile cunoscute trebuie lucrat.
Estimarea intervalelor de încredere pentru medii
Cazul când se cunoaste dispersia.
Se consideră o populaţie repartizată normal ( )2,σµN . Dacă se cunoaşte dispersia se poate folosi
faptul că
n
Xz
σµ−
= este repartizată ( )1,0N . Se notează cu αz cuantila de ordinul α pentru repartiţia
( )1,0N . Evident
ααα
αααα −=−−=
−
=
⟨⟨
−−1
221
221
21
2
zFzFzzzP
Aşadar intervalul
−
21
2
, αα zz este un interval de estimare cu coeficientul de încredere α−1 . Din
anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi
la stânga lor aceeaşi arie, egală cu 2
α.
Deoarece repartiţia ( )1,0N este simetrică faţă de axa Oy avem relaţia 2
12
αα−
−= zz
Din relaţiile
1 1 1 1 1 12 2 2 2 2 2
1 12 2
* *
* *
xz z z z z z x z
n n
n
x z x zn n
α α α α α α
α α
µ σ σµ
σ
σ σµ
− − − − − −
− −
−− ⟨ ⟨ ⇒ − ⟨ ⟨ ⇒ − ⟨ − ⟨ ⇒
− − ⟨ − ⟨ − +
rezultă
1 12 2
X z X zn n
α α
σ σµ
− −− ⟨ ⟨ +
Aşadar intervalul căutat este
Curs 2 13
( )
+−=
−− nzX
nzXUL
σσθθ αα
21
21
,,
Mărimea n
zEσ
α
21−
= poartă numele de eroare şi serveşte la calculul numărului de experienţe
2
21
=−
E
z
n
α
atunci când este impusă eroarea şi se alege un coeficient α−1
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este
repartizată ( )1,0N indiferent de repartiţia variabilelor nxxx ,...,, 21 (teorema limită centrală).
Cazul când dispersia este necunoscută
Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de selecţie care este
un estimator nedeplasat al dispersiei deoarece ( ) 22 σ=sE
Se consideră nxxx ,...,, 21 o selecţie dintr-o populaţie de tipul ( )2,σµN .
Conform celor arătate anterior mărimea
n
s
XT
µ−= este repartizată ( )1−nT şi, ca urmare
1, 1,1 1,1 1,2 2 2 2
1 12 2n n n n
P t T t F t F tε ε α α
α αα
− − − − − −
⟨ ⟨ = − = − − = −
Deoarece repartitia Student este simetrică faţă de origine2
1,12
1,1αα
−−−−−=
nntt şi înlocuindu-l pe T în
relaţia anterioară, se obţine
1, 1,1 1, 1,12 2 2 2
1n n n n
XP t T t P t t
s
n
α α α α
µα
− − − − − −
−
⟨ ⟨ = ⟨ ⟨ = −
şi 1,1 1,1
2 2n n
s sX t X t
n nα αµ
− − − −− ⟨ ⟨ +
Ca urmare intervalul căutat este
( )
+−=
−−−− n
stX
n
stX
nnUL
21,1
21,1
,, ααθθ
În acest caz eroarea este
Curs 2 14
n
stE
n2
1,1α
−−=
Dacă numărul de experienţe este 30⟩n , se poate folosi aproximaţia
2
12
1,1αα
−−−= zt
n
Estimarea intervalului de încredere α−1 pentru diferenţei a două medii
Se consideră două selecţii din populaţii normal repartizate ( )211 ,σµN şi ( )2
22 ,σµN .
Cazul dispersiilor 22
21 ,σσ cunoscute.
Considerăm o selecţie aleatoare 111211 ,...,, nxxx din populaţia ( )2
11 ,σµN şi o selecţie
222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN . Estimatorii nedeplasaţi ai mediilor 1µ şi 2µ sunt:
1
1 11
1
n
xX
n
i∑= si
2
1 22
2
n
xX
n
i∑=
Considerând variabila aleatoare 21 XX − , ea este normal repartizată iar estimaţia şi dispersia ei vor fi
( ) ( ) ( )1 2 1 2 1 2M X X M X M X µ µ− = − = − şi ( ) ( ) ( )2
22
1
21
2121nn
XDXDXXDσσ
+=+=− unde am ţinut
cont că ix1 şi ix2 sunt independente.
Mai departe, variabila aleatoare ( ) ( )
( )( ) ( )
2
22
1
21
2121
21
2121
nn
XX
XXD
XXz
σσ
µµµµ
+
−−−=
−
−−−= este repartizată
N(0,1).
Deoarece, ααα −=
⟨⟨
−1
21
2
zzzP şi 2
12
αα−
−= zz rezult
( ) ( )2 2 2 21 2 1 2
1 2 1 2 1 21 1
1 2 1 22 2
X X z X X zn n n n
α α
σ σ σ σµ µ
− −− − + ⟨ − ⟨ − + +
Aşadar, intervalul de estimaţie pentru diferenţa mediilor este
( ) ( ) ( )
++−+−−=ΘΘ
−−2
22
1
21
21
212
22
1
21
21
2121 ,,nn
zXXnn
zXXσσσσ
αα
Curs 2 15
În acest caz, eroarea este 2
22
1
21
21 nn
zEσσ
α +=−
.
Dispersii necunoscute dar presupuse egale
În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale 222
21 σσσ == utilizăm dispersia
ponderată de selecţie
( ) ( ) ( ) ( )1 22 2
2 21 1 2 21 11 1 2 22
1 2 1 2
1 1
2 2
n n
i i
p
x X x Xn s n ss
n n n n
− + −− + −= =
+ − + −
∑ ∑
ca un estimator nedeplasat pentru 2σ .
Avem într-adevăr,
( )( ) ( ) ( ) ( ) ( ) ( )
2 2 2 21 1 2 2 1 1 2 22 2
1 2 1 2
1 1 1 1
2 2p
n M s n M s n nM s
n n n n
σ σσ
− + − − + −= = =
+ − + −
În continuare vom arăta că mărimea ( ) ( )
21
2121
11
nns
XXT
p +
−−−=
µµ este repartizată ( )221 −+ nnT
Se observă că
( ) ( )
21
2121
11
21
21
nn
s
XX
T
XX
p
XX
+
−−−
=
−
−
σ
σ
µµ
este raportul între o variabila aleatoare repartizată N(0,1) şi
deoarece
( ) ( )( ) 22
11
11
11
21
1 1
2
22
2
11
221
1 1
2
22
2
11
2
2
21
21
21
1 2
1 2
21
−+
−+
−
=−+
−+−
===+
+
=+
∑ ∑∑ ∑
−
nn
XxXx
nn
XxXx
ss
nn
nn
s
nn
s
n n iin n
ii
ppp
XX
p
σσ
σ
σσσ
σ
variabila 21
11
21nn
s
XX
p+
−σ
este de tipul ( )
2
2
21
212
−+
−+
nn
nnχ
Curs 2 16
Dar
2
1
111∑
−n i Xx
σeste repartizat ( )11
2 −nχ iar ∑
−2
1
2
22n i Xx
σeste repartizat ( )12
2 −nχ , deci T
este repartizat ( )221 −+ nnT şi
ααα
αα −=−−=
⟨⟨
−−+−+1
221
21,2
2,2 2121 nnnn
tTtP
Deoarece repartiţia Student este simetrică 2
1,22
,2 2121αα
−−+−+−=
nnnntt rezultă că
2121,2
2121212
1,221
1111
2121 nnstXX
nnstXX p
nnp
nn+−−⟨−⟨+−−
−−+−−+αα µµ
Deci, ( )
++−+−−=ΘΘ
−−+−−+212
1,221
2121,2
2121
11,
11,
1221 nn
stXXnn
stXX pnn
pnn
αα cu eroarea
2121,2
11
21 nnstE p
nn+=
−−+α .
Estimarea intervalelor de încredere pentru dispersie
Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σµN . Conform celor arătate
anterior variabila aleatoare ( )
2
21
σ
snv
−= este repartizată ( )12 −nχ şi ca urmare
ααα
χχ αα −=−−=
⟨⟨
−−−1
2212
21,1
2
2,1 nn
vP
Deci, ( ) 2
21,12
22
2,1
1 αα χσ
χ−−−
⟨−⟨nn
sn si
( ) ( )2
2,1
22
2
21,1
2 11
αα χσ
χ−−−
−⟨⟨
−
nn
snsn.
Estimarea intervalului de încredere raportul a două dispersii
Se consideră selecţia aleatoare 111211 ,...,, nxxx dintr-o populaţie ( )2
1, ,σµN şi o selecţie
222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN .
Curs 2 17
Conform cu cele arătate anterior, raportul
22
22
21
21
σ
σ
s
s
F = este repartizat ( )1,1 21 −− nnF şi deci
ααα
αα −=−−=
⟨⟨
−−−−−1
221
21,1,1
2,1,1 2121 nnnn
fFfP
Rezultă că 2
1,1,121
22
21
22
2,1,12
1
22
2121αα
σ
σ−−−−−
⟨⟨nnnn
fs
sf
s
s , iar intervalul de estimaţie pentru raportul
dispersiilor este:
( )
=ΘΘ
−−−−−2
1,1,121
22
2,1,12
1
22
2121
,, ααnnnn
UL fs
sf
s
s
Aplicaţie: Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii
medicamentelor1
La introducerea în terapie de către un producător a unui medicament ce reprezintă o reproducere
a altui medicament deja în uz, se pune problema comparării biodisponibilităţii acestora. În practică se
cere ca raportul ariilor de sub curbele concentraţiilor plasmatice ale celor două medicamente să se afle
in intervalul 0,8 - 1,25.
0,8 1, 25T
AUC
R
AUC
µ
µ⟨ ⟨
unde indicele T se referă la medicamentul testat şi R desemnează medicamentul referinţă.
Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi interindividuale considerabile
(determinările de biodisponiblitate se fac pe loturi de circa 10 – 20 de voluntari sănătoşi) este de
preferat a se determina un interval de încredere pentru media ariei realizată de medicamentul nou.
Pornind de la faptul ca ( ) ( )
1 1
R T R T
p
R T
X XT
sn n
µ µ− − −=
+
este repartizată ( )2R TT n n+ − se deduce un
interval de încredere cu probabilitatea α−1 pentru T R
µ µ−
1 12 2
T R T RT RX X t X X tα αµ µ
− −− − ⟨ − ⟨ − +
Curs 2 18
unde am notat 1 1
p
R T
s sn n
= + .
După cum se va arăta mai departe, această estimare este puţin utilă în caz că p
s reprezintă
practic intervariabilitatea, iar interschimbabilitatea care necesită bioechivalenţă trebuie să se bazeze pe
intravariabilitatea.
Curs 2 19
STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ
Statistica matematică este principala aplicaţie a teoriei probabilităţilor. Procedeele statistice
constau, în esenţă, în elaborarea unor concluzii plauzibile privitoare la colectivităţi mari de fenomene,
pe baza cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor.
Legile care stau la baza statisticii şi care permit aceste generalizări sunt teorema limită centrală
şi legea numerelor mari.
Într-o exprimare intuitivă, avem rezultatul că, dacă o variabilă aleatoare ξ este suma unui
număr mare de variabile aleatoare independente, fiecare variabilă aleatoare având o pondere mică în
sumă, atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o funcţie de repartiţie
normală.
Exprimat mai riguros şi mai general, avem următoarea teoremă:
Teorema limită centrală (A.M.Leapunov)
Fie nξξξ ,...,, 21 variabile aleatoare independente.
Fie ( ) ( ) 2,k k k kM a Dξ ξ σ= = şi ( )33kkk mM −= ξρ când nk ,1=
Notăm ( ) ∑=n
in 1
22 σσ , ( ) ∑=n
in 1
33 ρρ
Dacă ( )
( )
0lim =∞→
n
n
nσ
ρ , atunci funcţia de repartiţie a variabilei
( )
( )n
nn aaa
σ
ξξξ +++−+++ ...... 2121
tinde, când ∞→n , către funcţia ( )xΦ a lui Laplace.
( )2
21
2
z t
x e dtπ
−
−∞
Φ = ∫
Teorema limită centrală este teorema fundamentală a teoriei erorilor. Laplace, Gauss şi alţi
matematicieni, studiind repartiţia erorilor, au ajuns la concluzia că funcţia de repartiţie normală poate fi
luată drept model teoretic pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.
Teorema lui Cebâşev
Dacă nζζζ ,...,, 21 sunt variabile aleatoare (discrete sau continue) independente ale căror
dispersii sunt mai mici decât o constantă C, atunci oricare ar fi numărul pozitiv ε, probabilitatea
inegalităţii
Curs 2 20
( ) ( ) ( )1 21 2
...... nnM M M
n n
ζ ζ ζζ ζ ζε
+ + ++ + +− ⟨
tinde către 1, atunci când numărul variabilelor aleatoare tinde către infinit.
Demonstraţie:
Să considerăm variabila aleatoare n
nζζζζ
+++=
...21 . Având în vedere liniaritatea
operatorului de calcul a mediei avem ( ) ( ) ( ) ( )1 2 ...n
M M MM
n
ζ ζ ζζ
+ + += .
Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine:
( ) ( ) ( )1 2
1 21 22
.........
1
n
nn
DM M M n
Pn n
ζ ζ ζζ ζ ζζ ζ ζ
εε
+ + + + + ++ + + − ⟨ ≥ −
Mai departe, din proprietăţile operatorului D
( ) ( ) ( )n
C
n
nC
n
CCC
n
DDD
nD nn ==
+++≤
+++=
+++222
2121 ......... ζζζζζζ
Deci
( ) ( ) ( )1 21 2
2
......1nn
M M M CP
n n n
ζ ζ ζζ ζ ζε
ε
+ + ++ + +− ⟨ ≥ −
Trecând la limita pentru ∞→n obţinem
( ) ( ) ( )1 21 2......
lim 1nnn
M M MP
n n
ζ ζ ζζ ζ ζε→∞
+ + ++ + +− ⟨ ≥
şi cum probabilitatea nu poate depăşi 1,
( ) ( ) ( )1 21 2......
lim 1nnn
M M MP
n n
ζ ζ ζζ ζ ζε→∞
+ + ++ + +− ⟨ =
Cel mai frecvent, în practică, variabilele aleatoare iζ au aceiaşi medie µ şi concluzia teoremei devine
1...
lim 21 =
⟨−
+++∞→ εµ
ζζζ
nP n
n
În esenţă, teorema lui Cebâşev stabileşte că, deşi variabilele aleatoare independente pot lua
valori îndepărtate faţă de mediile lor, media aritmetică a unui număr suficient de mare de astfel de
Curs 2 21
variabile aleatoare ia cel mai probabil valori apropiate de un număr constant
( ) ( ) ( )1 2 ...n
M M M
n
ζ ζ ζ+ + + (sau µ atunci când mediile variabilelor sunt egale între ele).
Ca urmare, între comportarea fiecărei variabile aleatoare şi comportarea mediilor lor există
diferenţă esenţială. Putem spune foarte precis ce valoare va lua media aritmetică a acestor variabile
aleatoare. Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile aleatoare sunt de
semne diferite şi, ca urmare, se compensează între ele.
TEORIA SELECŢIEI
Populaţii şi selecţii. Inferenţa statistică
În practică avem adesea nevoie să facem judecăţi asupra unor mari colecţii de rezultate posibile
experimental ori a altor cantităţi, dar nu putem sau este extrem de scump, să examinăm toate aceste
date. În astfel de cazuri, în loc să examinăm întregul set de date pe care îl numim în cele ce urmează
populaţie, tragem concluziile după examinarea a o parte din ele, alese la întâmplare, parte pe care o
numim selecţie.
Procedeul de obţinere a probelor este numit tot selecţie, iar procedeul de extrapolare a
concluziilor la întreaga populaţie este cunoscut ca inferenţa statistică.
Vom considera că o caracteristică dată a populaţiei este o variabilă aleatoare pe un câmp de
probabilitate ( )PK ,,Ω în care elementele lui Ω sunt chiar elementele populaţiei, iar P este o
probabilitate cunoscută sau nu.
Enumerarea valorilor observate ale caracteristicii urmărite şi a frecvenţelor lor relative defineşte
repartiţia statistică a selecţiei.
Teorema lui Leapunov, numită şi teorema fundamentală a statisticii matematice, care justifică
utilizarea metodei selecţiei stabileşte că funcţia de repartiţie statistică a caracteristicilor selecţiilor tinde
la funcţia teoretică de repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞.
Exemplu 1
Putem dori să tragem concluzii despre evoluţia rezistentei unei tulpini de germeni patologeni la
un medicament dat şi, în acest scop, examinăm rezultatele antibiogramelor făcute într-un eşantion de
spitale într-o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului precedent. Deşi
rezultatele obţinute se referă la spitale şi mai precis numai la o parte din ele, concluziile le extindem la
scara întregii populaţii.
Curs 2 22
Exemplu 2
Rezultatele privind absorbţia unui medicament după administrarea orală prin determinarea
nivelurilor din plasma ale medicamentului la un lot de voluntari sănătoşi le considerăm ca rezultate
probabile pentru întreaga populaţie ce include şi potenţiali pacienţi.
Populaţia poate fi infinită sau finită, în ultimul caz, numărul indivizilor populaţiei – N- se mai
numeşte şi volumul populaţiei. În mod similar, numărul de indivizi sau valori din cadrul unei probe este
denumit volumul probei sau volumul eşantionului.
Valabilitatea concluziilor despre populaţie depinde de “reprezentativitatea” probei. Pentru
populaţii finite aceasta înseamnă că fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când
spunem că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că selecţia unor
voluntari sănătoşi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din
acest punct de vedere o selecţie reprezentativă. În cazurile în care avem motive să credem că patologia
căreia se adresează medicamentul nu afectează funcţiile metabolice şi de excreţie, această aproximare
este acceptată pentru motivul că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp
de lucru mult crescute.
În practică, în studiile de bioechivalenţă, pentru reducerea volumului loturilor pe care se fac
testările, se administrează amândouă medicamentele la toţi membri lotului, în două perioade diferite.
Fiecare component al lotului primeşte unul din medicamente în prima perioadă şi celălalt în a doua
perioadă.
Deoarece perioada de administrare poate influenţa şi ea rezultatul experimentului, alegerea
indivizilor care vor primi în prima perioadă primul medicament se face în mod aleator. În cazul când
sunt mai multe perioade, de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un tabel
de felul
I II III IV
A B D C
B C A D
C D B A
D A C B
Curs 2 23
aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată în fiecare linie şi în fiecare
coloană. Se numeşte pătrat latin deoarece, cum se va arata mai departe, în cazul în care mai intervine şi
o altă variabilă, de exemplu doza din fiecare medicament, se folosesc şi litere grecesti, alcătuindu-se
pătrate “greco-latine”.
Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari sănătoşi, pornind de la ipoteza că
modificările de biodisponibilitate asociate stărilor patologice sunt aceleaşi pentru cele două
medicamente testate, ceea ce, evident, este numai în parte adevărat.
În toate experimentele biologice, planificarea experimentului trebuie făcută în aşa fel încât
diferenţele în tratament să nu coincidă cu diferenţe în vârstă, sex, sau alţi parametri. Dacă, de exemplu,
femeile din lot primesc primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt
“confundate” cu diferenţele de tratament. În acest caz nu se poate spune dacă diferenţele obţinute se
datorează tratamentului sau diferenţei de sex.
Parametrii de selecţie ai unei variabile aleatoare :
Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor microbiene la antibioticele
din exemplul 1, sau dacă luăm în consideraţie concentraţiile de medicament în sânge, din al doilea
exemplu, şi probabilităţile ca valorile să aparţină unor intervale diferite, obţinem o variabilă aleatoare X
asociată cu rezultatul experimentului corespunzător.
Parametrii acestei variabile aletoare sunt denumiţi, prin abuz de limbaj, “parametri ai
populaţiei”.
Dacă în exemplul al doilea Xi este concentraţia de medicament în sângele bolnavului i, la o oră
de la administrare, la primul voluntar putem obţine o valoare x1, pentru al doilea voluntar o valoare x2,
etc. În acest fel găsim valorile nxxx ,...,, 21 ale varibilelor aleatoare independente nXXX ,...,, 21 .
Media de selecţie este o variabilă aleatoare: n
XXXX n+++
=...21
Dacă distribuţia lui X este normală - ( )σµ,N , aceiaşi pentru fiecare i, datorită linearităţii
operatorului E care defineşte media, obţinem ( ) XM X µ µ= = adică valoarea pentru media mediei de
selecţie este media populaţiei.
Dacă la datele experimentale se adaugă o constantă, axx ii +=′ , media de selecţie creşte cu
aceeaşi constantă: ( )
aXn
aXW
n
i+=
+=∑1
Curs 2 24
Similar, dacă fiecare valoare se înmulţeşte cu o constanta ii kXZ = , media de selecţie Z se
înmulţeşte cu aceeaşi contantă: Xkn
kXZ
n
i==
∑1
Dispersia de selecţie
Ca o măsură a abaterii datelor faţă de media de selecţie, se introduce noţiunea de dispersie de
selecţie ( )2
1
2
1
1∑ −
−=
n
iX Xxn
S .
În aplicaţiile practice, pentru reducerea numărului de calcule, formula se aduce la o altă formă
şi anume:
( )
( )
−
−=
−
−
=
+−
−=
+−
−=−
−=
∑ ∑∑
∑∑ ∑∑
n
n
i
i
n
i
n
i
n n
ii
n
iX
n
xx
nXnx
n
XnXnxn
XnxXxn
Xxn
s
1
2
122
1
2
1
222
1
2
1
2
1
22
1
1
1
1
21
12
1
1
1
1
Dacă
222xzii sksakxz =⇒+= . Într-adevăr
( ) ( ) 222
11
22
1
1
1
1x
n
i
n
iZ skaXkakxn
Zzn
s =−−+−
=−−
= ∑∑
xs se numeşte abaterea standard de selecţie sau deviaţie standard, când nu este pericol de confutie
privind variabila aleatoare la care se referă folosindu-se şi notaţia d
s .
Se mai utilizează în practică şi noţiunile:
• Dispersia”populaţiei” = ( )2
11
1∑ −
−
n
i Xxn
şi respectiv
• Deviaţia standard a “populaţiei”, precum şi “abaterea standard a mediei” (prescurtarea SEM –
standard error of mean) definită prin raportul n
sSEM x=
• precum şi coeficientul de variatie *100xs
vX
= .
Covarianta de selecţie
Covarianta de selecţie se defineşte prin formula ( )( )YyXxn
s i
n
iXY −−−
= ∑11
1
Curs 2 25
Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă în sensul simplificărilor de
calcul în anumite aplicaţii.
( ) ( )
( )
−
−=−
−
=+−−−
=+−−−
=
∑ ∑ ∑∑
∑∑ ∑ ∑
n
n n
ii
ii
n
ii
n
ii
n n n
iiiiXY
n
yxyx
nYXnyx
n
YXnYXnYXnyxn
YXnxYyXyxn
s
1
1 1
1
11 1 1
1
1
1
1
1
1
1
1
Coeficientul de corelaţie de selecţie
Coeficientul de corelaţie de selecţie se defineşte prin formula
( )( )( )
( ) ( )
( ) ( )
( ) ( )
1 1
2 22 2
1 11 1
11,
1 11 1
n ni i i i
XY
n nn nX Yi ii i
x X y Y x X y Ys nx ys s
x X y Yx X y Yn n
ρ− − − −
−= = =
− −− −− −
∑ ∑
∑ ∑∑ ∑
Proprietăţi ale caracteristicilor de selecţie
Considerăm în continuare o selecţie de volum n dintr-o populaţie cu media µ si dispersia 2σ
Propoziţie
Media mediei de selecţie este egală cu media populaţiei. ( )M X µ=
Demonstraţie:
( ) ( ) ( )i iM x M x n
M Xn n n
µµ= = = =
∑ ∑
Propoziţie
Media dispersiei de selecţie este egală cu dispersia populaţiei ( )2 2X
M s σ=
Demonstraţie:
( ) ( ) ( )
( ) ( ) ( )
222 2
1 1 1 1
2
22 2 12 2 2
1 1 1
1 12
1 1
1 1 12
1 1 1
n n n n
X i i i
n
in n n
i i i
M s M x X M x X x xn n
xM x nX nX M x nX M x
n n n n
= − = − + =
− −
− + = − − = − − − −
∑ ∑ ∑ ∑
∑∑ ∑ ∑
Dar, mai departe
( ) ( )2 2 2
1
n
iM x n σ µ= +∑
Curs 2 26
( ) ( ) ( )
( ) ( )
( ) ( )
22 2
11 1 1
2 2 2 2 2 2
12 2
2
1
n n n n
i i i j i i ji j
n nM x M x x x M x M x M x
n n n n nσ µ µ σ µ
≠
− = + = + =
= + + − = +
∑ ∑ ∑ ∑
şi înlocuind în expresia lui ( )2X
M s obţinem ( )( )2 2 2 2
2 2
1X
n nM s
n
σ µ σ µσ
+ − −= =
−
Propoziţie
Variabila aleatoare
n
xZ
σµ−
= tinde , când ∞→n către o variabilă ( )1,0N
Aceasta este o consecinţă a teoremei limită centrală şi este aplicabilă atât variabilelor continue cât şi
celor discrete.
Într-adevăr aplicând teorema lui Leapunov pentru variabilele aleatoare nxxx ,...,, 2, obţinem că:
( )
n
X
n
nXnxxx nn
σµ
σ
µ
σσσ
µµµ −=
−=
+++
+++−+++2222
2121
...
......
tinde către o variabilă aleatoare ( )1,0N .
Propoziţie
Dacă variabila aleatoare X este normal distribuită, atunci variabila aleatoare ( )2
2
1σ
XsnV −=
este repartizată ( )12 −nχ
Demonstraţie:
( )( ) ( ) ( )[ ]
( ) ( )( ) ( ) ( ) ( )( ) ( )
( ) ( )2
2
121
21
22
21 1 1
22
21
2
21
2
2
22
1
−
−
−=
−−−
=−+−−−−
=−+−−−−
=−−−
=−
=−=
∑∑
∑∑ ∑ ∑
∑∑
n
XxXnx
XnXnXnxXXxx
XxXxsnV
n i
n
i
n
i
n n n
ii
n
i
n
iX
σµ
σ
µ
σ
µµ
σ
µµµµ
σ
µµµµ
σ
µµ
σσ
Curs 2 27
Dar variabila aleatoare σ
µ−ix este repartizată ( )1,0N deoarece
( )iiM xx
Mµµ
σ σ
−− =
şi
( )1
2==
−
σσ
µ ii xDxD , iar
( )
n
X
σµ−
este repatizată tot ( )1,0N în conformitate cu teorema limită
centrală.
Deci, V este o sumă de n-1 pătrate de variabile de tip ( )1,0N .
Propoziţie
Dacă nxxx ,...,, 21 este o selecţie dintr-o populaţie normal distribuită, atunci variabila aleatoare
n
s
XT
µ−= este repartizată Student cu n grade de libertate.
Demonstraţie:
( )( ) 1
1 21
2
−
=
−
−
−
=
−
=−
∑n
V
Z
n
Xx
n
X
s
n
X
n
s
X
n
i
σ
σµ
σ
σµ
µ
unde
n
XZ
σµ−
= este repartizată ( )1,0N , iar ( )
21
2
σ
∑ −=
n
i XxV este repartizată ( )12 −nχ .
Deci, T este repartizată Student cu n-1 grade de libertate.
Propoziţie
Date fiind două selecţii aleatoare independente 111211 ,...,, nxxx si
2,...,, 2221 nxxx din populaţii
normal distribuite ( )11 ,σµN şi ( )22 ,σµN , variabila aleatoare
22
22
21
21
σ
σ
S
S
F = este repartizată Fisher –
Snedecor ( )1,1 21 −− nnF
Demonstraţie:
Curs 2 28
Avem într-adevar
( )( )
( )( ) 2
22
1
2
22
211
1
2
11
22
22
21
21
1
12
1
σ
σ
σ
σ
−
−
−
−
==
∑
∑
n
Xx
n
Xx
S
S
Fn
i
n
i
iar număratorul şi numitorul sunt repartizate, conform
propozitiei 2.3.5.4., respectiv ( )
1
1
1
12
−
−
n
nχşi
( )1
1
2
22
−
−
n
nχ.
Estimaţii
Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute. Valorile
numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se
folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în
cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.
Un estimator al parametrului θ se va nota cu θ . O estimaţie este nedeplasată dacă ( )ˆM θ θ= ,
adică media estimaţiei este egală chiar cu valoarea teoretică a parametrului estimat.
Conform proprietăţii 2.3.5.1, ( )M X µ= adică media de selecţie este un estimator nedeplasat al
mediei, iar conform proprietăţii 2.3.5.2., ( )2 2M s σ= adică dispersia de selecţie este un estimator
nedeplasat al dispersiei.
Problema estimării intervalelor se reduce la găsirea unui interval de încredere ( )UL θθ , cu un
coeficient de încredere α−1 astfel încât ( ) αθθθ −=⟨⟨ 1ULP .
Este de dorit ca α−1 să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar intervalul
( )UL θθ , să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se
numesc cuantile de ordin β valoarea βx a variabilei aleatoare x pentru care ( ) ( ) βββ =⟨= xxPxF
adică valoarea variabilei aleatoare care are la stânga ei aria β sub curba densităţii de probabilitate.
Evident:
22
αα =
⟨ xxP
21
21
αα −=
⟨ −xxP
Curs 2 29
ααα
αα −=−−=
⟨⟨ − 1
221
21
2
xxxP
Pentru a estima un interval se alege α−1 , se citesc din tabelele cuantilele, de exemplu 2
1α
−x şi
2
αx şi se precizează intervalul. În prealabil, în funcţie de mărimea pentru care se caută intervalul se
precizează cu care din repartiţiile cunoscute trebuie lucrat.
Estimarea intervalelor de încredere pentru medii
2.4.1.1.Cazul când se cunoaste dispersia.
Se consideră o populaţie repartizată normal ( )2,σµN . Dacă se cunoaşte dispersia se poate folosi
faptul că
n
Xz
σµ−
= este repartizată ( )1,0N . Se notează cu αz cuantila de ordinul α pentru repartiţia
( )1,0N . Evident
ααα
αααα −=−−=
−
=
⟨⟨
−−1
221
221
21
2
zFzFzzzP
Aşadar intervalul
−
21
2
, αα zz este un interval de estimare cu coeficientul de încredere α−1 . Din
anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi
la stânga lor aceeaşi arie, egală cu 2
α.
Deoarece repartiţia ( )1,0N este simetrică faţă de axa Oy avem relaţia 2
12
αα−
−= zz
Din relaţiile
1 1 1 1 1 12 2 2 2 2 2
1 12 2
* *
* *
xz z z z z z x z
n n
n
x z x zn n
α α α α α α
α α
µ σ σµ
σ
σ σµ
− − − − − −
− −
−− ⟨ ⟨ ⇒ − ⟨ ⟨ ⇒ − ⟨ − ⟨ ⇒
− − ⟨ − ⟨ − +
rezultă
1 12 2
X z X zn n
α α
σ σµ
− −− ⟨ ⟨ +
Curs 2 30
Aşadar intervalul căutat este
( )
+−=
−− nzX
nzXUL
σσθθ αα
21
21
,,
Mărimea n
zEσ
α
21−
= poartă numele de eroare şi serveşte la calculul numărului de experienţe
2
21
=−
E
z
n
α
atunci când este impusă eroarea şi se alege un coeficient α−1
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este
repartizată ( )1,0N indiferent de repartiţia variabilelor nxxx ,...,, 21 (teorema limită centrală).
Cazul când dispersia este necunoscută
Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de selecţie care este
un estimator nedeplasat al dispersiei deoarece ( ) 22 σ=sE
Se consideră nxxx ,...,, 21 o selecţie dintr-o populaţie de tipul ( )2,σµN .
Conform celor arătate anterior mărimea
n
s
XT
µ−= este repartizată ( )1−nT şi, ca urmare
1, 1,1 1,1 1,2 2 2 2
1 12 2n n n n
P t T t F t F tε ε α α
α αα
− − − − − −
⟨ ⟨ = − = − − = −
Deoarece repartitia Student este simetrică faţă de origine2
1,12
1,1αα
−−−−−=
nntt şi înlocuindu-l pe T în
relaţia anterioară, se obţine
1, 1,1 1, 1,12 2 2 2
1n n n n
XP t T t P t t
s
n
α α α α
µα
− − − − − −
−
⟨ ⟨ = ⟨ ⟨ = −
şi 1,1 1,1
2 2n n
s sX t X t
n nα αµ
− − − −− ⟨ ⟨ +
Ca urmare intervalul căutat este
( )
+−=
−−−− n
stX
n
stX
nnUL
21,1
21,1
,, ααθθ
Curs 2 31
În acest caz eroarea este
n
stE
n2
1,1α
−−=
Dacă numărul de experienţe este 30⟩n , se poate folosi aproximaţia
2
12
1,1αα
−−−= zt
n
Estimarea intervalului de încredere α−1 pentru diferenţei a două medii
Se consideră două selecţii din populaţii normal repartizate ( )211 ,σµN şi ( )2
22 ,σµN .
Cazul dispersiilor 22
21 ,σσ cunoscute.
Considerăm o selecţie aleatoare 111211 ,...,, nxxx din populaţia ( )2
11 ,σµN şi o selecţie
222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN . Estimatorii nedeplasaţi ai mediilor 1µ şi 2µ sunt:
1
1 11
1
n
xX
n
i∑= si
2
1 22
2
n
xX
n
i∑=
Considerând variabila aleatoare 21 XX − , ea este normal repartizată iar estimaţia şi dispersia ei vor fi
( ) ( ) ( )1 2 1 2 1 2M X X M X M X µ µ− = − = − şi ( ) ( ) ( )2
22
1
21
2121nn
XDXDXXDσσ
+=+=− unde am ţinut
cont că ix1 şi ix2 sunt independente.
Mai departe, variabila aleatoare ( ) ( )
( )( ) ( )
2
22
1
21
2121
21
2121
nn
XX
XXD
XXz
σσ
µµµµ
+
−−−=
−
−−−= este repartizată
N(0,1).
Deoarece, ααα −=
⟨⟨
−1
21
2
zzzP şi 2
12
αα−
−= zz rezult
( ) ( )2 2 2 21 2 1 2
1 2 1 2 1 21 1
1 2 1 22 2
X X z X X zn n n n
α α
σ σ σ σµ µ
− −− − + ⟨ − ⟨ − + +
Aşadar, intervalul de estimaţie pentru diferenţa mediilor este
( ) ( ) ( )
++−+−−=ΘΘ
−−2
22
1
21
21
212
22
1
21
21
2121 ,,nn
zXXnn
zXXσσσσ
αα
Curs 2 32
În acest caz, eroarea este 2
22
1
21
21 nn
zEσσ
α +=−
.
Dispersii necunoscute dar presupuse egale
În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale 222
21 σσσ == utilizăm dispersia
ponderată de selecţie
( ) ( ) ( ) ( )1 22 2
2 21 1 2 21 11 1 2 22
1 2 1 2
1 1
2 2
n n
i i
p
x X x Xn s n ss
n n n n
− + −− + −= =
+ − + −
∑ ∑
ca un estimator nedeplasat pentru 2σ .
Avem într-adevăr,
( )( ) ( ) ( ) ( ) ( ) ( )
2 2 2 21 1 2 2 1 1 2 22 2
1 2 1 2
1 1 1 1
2 2p
n M s n M s n nM s
n n n n
σ σσ
− + − − + −= = =
+ − + −
În continuare vom arăta că mărimea ( ) ( )
21
2121
11
nns
XXT
p +
−−−=
µµ este repartizată ( )221 −+ nnT
Se observă că
( ) ( )
21
2121
11
21
21
nn
s
XX
T
XX
p
XX
+
−−−
=
−
−
σ
σ
µµ
este raportul între o variabila aleatoare repartizată N(0,1) şi
deoarece
( ) ( )( ) 22
11
11
11
21
1 1
2
22
2
11
221
1 1
2
22
2
11
2
2
21
21
21
1 2
1 2
21
−+
−+
−
=−+
−+−
===+
+
=+
∑ ∑∑ ∑
−
nn
XxXx
nn
XxXx
ss
nn
nn
s
nn
s
n n iin n
ii
ppp
XX
p
σσ
σ
σσσ
σ
variabila 21
11
21nn
s
XX
p+
−σ
este de tipul ( )
2
2
21
212
−+
−+
nn
nnχ
Curs 2 33
Dar
2
1
111∑
−n i Xx
σeste repartizat ( )11
2 −nχ iar ∑
−2
1
2
22n i Xx
σeste repartizat ( )12
2 −nχ , deci T
este repartizat ( )221 −+ nnT şi
ααα
αα −=−−=
⟨⟨
−−+−+1
221
21,2
2,2 2121 nnnn
tTtP
Deoarece repartiţia Student este simetrică 2
1,22
,2 2121αα
−−+−+−=
nnnntt rezultă că
2121,2
2121212
1,221
1111
2121 nnstXX
nnstXX p
nnp
nn+−−⟨−⟨+−−
−−+−−+αα µµ
Deci, ( )
++−+−−=ΘΘ
−−+−−+212
1,221
2121,2
2121
11,
11,
1221 nn
stXXnn
stXX pnn
pnn
αα cu eroarea
2121,2
11
21 nnstE p
nn+=
−−+α .
Estimarea intervalelor de încredere pentru dispersie
Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σµN . Conform celor arătate
anterior variabila aleatoare ( )
2
21
σ
snv
−= este repartizată ( )12 −nχ şi ca urmare
ααα
χχ αα −=−−=
⟨⟨
−−−1
2212
21,1
2
2,1 nn
vP
Deci, ( ) 2
21,12
22
2,1
1 αα χσ
χ−−−
⟨−⟨nn
sn si
( ) ( )2
2,1
22
2
21,1
2 11
αα χσ
χ−−−
−⟨⟨
−
nn
snsn.
Estimarea intervalului de încredere raportul a două dispersii
Se consideră selecţia aleatoare 111211 ,...,, nxxx dintr-o populaţie ( )2
1, ,σµN şi o selecţie
222221 ,...,, nxxx dintr-o populaţie ( )222 ,σµN .
Curs 2 34
Conform cu cele arătate anterior, raportul
22
22
21
21
σ
σ
s
s
F = este repartizat ( )1,1 21 −− nnF şi deci
ααα
αα −=−−=
⟨⟨
−−−−−1
221
21,1,1
2,1,1 2121 nnnn
fFfP
Rezultă că 2
1,1,121
22
21
22
2,1,12
1
22
2121αα
σ
σ−−−−−
⟨⟨nnnn
fs
sf
s
s , iar intervalul de estimaţie pentru raportul
dispersiilor este:
( )
=ΘΘ
−−−−−2
1,1,121
22
2,1,12
1
22
2121
,, ααnnnn
UL fs
sf
s
s
Aplicaţie: Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii
medicamentelor1
La introducerea în terapie de către un producător a unui medicament ce reprezintă o reproducere
a altui medicament deja în uz, se pune problema comparării biodisponibilităţii acestora. În practică se
cere ca raportul ariilor de sub curbele concentraţiilor plasmatice ale celor două medicamente să se afle
in intervalul 0,8 - 1,25.
0,8 1, 25T
AUC
R
AUC
µ
µ⟨ ⟨
unde indicele T se referă la medicamentul testat şi R desemnează medicamentul referinţă.
Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi interindividuale considerabile
(determinările de biodisponiblitate se fac pe loturi de circa 10 – 20 de voluntari sănătoşi) este de
preferat a se determina un interval de încredere pentru media ariei realizată de medicamentul nou.
Pornind de la faptul ca ( ) ( )
1 1
R T R T
p
R T
X XT
sn n
µ µ− − −=
+
este repartizată ( )2R TT n n+ − se deduce un
interval de încredere cu probabilitatea α−1 pentru T R
µ µ−
1 12 2
T R T RT RX X t X X tα αµ µ
− −− − ⟨ − ⟨ − +
Curs 2 35
unde am notat 1 1
p
R T
s sn n
= + .
După cum se va arăta mai departe, această estimare este puţin utilă în caz că p
s reprezintă
practic intervariabilitatea, iar interschimbabilitatea care necesită bioechivalenţă trebuie să se bazeze pe
intravariabilitatea.
1.
W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm.
Sci. , 61 (8), 1340 – 1, 1972.