-
populaţie
eşantion
m e t o d o l o g i a c e r c e t ă r i i
s
t
a
t
i
s
t
i
c
a
Statistica inferentială- noţiuni fundamentale -
M. Popa
-
Populaţie şi eşantion
Parametrii populatiei Indicatorii esantionuluiestimeaza
Populaţie, totalitatea „unităţilor de informaţie” care constituie obiectivul de interes al unei investigaţii
Eşantion, reprezintă „unităţile de informaţie” selecţionate pentru a fi efectiv studiate.
Reprezentativitatea eşantionului: Calitatea unui eşantion de a permite extinderea concluziilor la întreaga populaţie din care a fost extras
-
Exemple:
• Într-un studiu asupra efectelor accesului la internet asupra elevilor de liceu, elevii de liceureprezintă „populaţia”, iar elevii selecţionaţipentru investigaţie, „eşantionul”.
• Într-un studiu care vizează influenţa inteligenţei asupra performanţei în instruirea de zbor, populaţia este reprezentată de toţi piloţii, iar eşantionul, de subiecţii incluşi în studiu
-
eşantion
nereprezentativ
Reprezentativitatea eşantionului
reprezentativ
-
POPULAŢIE 1,2,3,4
eşantion 1 eşantion 2 eşantion 3 eşantion 4
Distribuţia de eşantionare
1,2,3 1,2,4 3,4,1 2,3,4
m1=2.00 m2=2.33 m3=2.67 m4=3.00
Σ=10.00µ=10/4=2.5
5.24
10
4
367.233.22...321 ==+++
=++++
=k
mmmmkµ
Media distribuției de eșantionare
-
Împrăștierea distribuţiei de eşantionare
m1=5.00 m2=4.5 m3=4.0 m4=2.5 m5=5.5 1
• considerăm o populaţie de valori: 1,2,3,4,5,6,7,8,9,10, • pentru care µ=5.5 şi σ=3,02
• extragem aleatoriu cinci eşantioane de N=3 valori:
Nsm
σ=
cu cât N este maimare, cu atât Smeste mai mică
74.13
02.3===
Nsm
σ
eroarea standard a mediei (sm)
s1=5.65
26.33
65.5===
N
ssm
Dacă σ este necunoscut, se utilizează ”s”
-
Teorema limitei centrale
1. Media de eşantionare se apropie de media
populaţiei pe măsură ce numărul de eşantioane
extrase creşte (la infinit)
2. Distribuţia mediei de eşantionare se supune legilor
curbei normale, aproape indiferent de forma
distribuţiei valorilor populaţiei, dacă:a) volumul eşantionului este „suficient de mare” (N≥30).
b) distribuţia populaţiei nu se abate grav de la normalitate
c) se respectă condiţiile eşantionării:
– eşantioane aleatoare
– volum egal
-
Efectul limitei centraleilustrări grafice
-
0.0 0.2 0.4 0.6 0.8 1.00
1
2
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
4
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
4
5
0.0 0.2 0.4 0.6 0.8 1.00
1
2
(a) Triangular
n = 2n = 1
n = 4 n = 10
From Chance Encounters by C.J. Wild and G.A.F. Seber, © John Wiley & Sons, 2000.
-
n = 2n = 1
n = 4 n = 10
00.0 0.2 0.4 0.6 0.8 1.0
1
2
3
0.0 0.2 0.4 0.6 0.8 1.00
1
2
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
4
0.0 0.2 0.4 0.6 0.8 1.00
1
2
(b) Uniform
From Chance Encounters by C.J. Wild and G.A.F. Seber, © John Wiley & Sons, 2000.
-
n = 2n = 1
n = 4 n = 10
0 1 2 3 4 5 60.0
0.2
0.4
0.6
0.8
1.0
0 1 20.0
0.4
0.8
1.2
0 1 2 3 4 5 60.0
0.2
0.4
0.6
0.8
1.0
(a) Exponential
0 1 2 30.0
0.2
0.4
0.6
0.8
1.0
0 1 2 3 40.0
0.2
0.4
0.6
0.8
From Chance Encounters by C.J. Wild and G.A.F. Seber, © John Wiley & Sons, 2000.
-
n = 2n = 1
n = 4 n = 10
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
0.0 0.2 0.4 0.6 0.8 1.00
1
2
3
(b) Quadratic U
From Chance Encounters by C.J. Wild and G.A.F. Seber, © John Wiley & Sons, 2000.
-
Scoruri standardizate zpentru eşantioane (grupuri)
• Se pot calcula scoruri z pentru eşantion (grup) în mod similar ca şi pentru valori individuale
• Pentru a calcula z pentru grup avem nevoie de:• media populaţiei (µ=5.5)• eroarea standard a mediei (sm=1.74)
28.074.1
5.55−=
−=
−=
ms
mz
µ
Exemplu: populaţia valorilor 1,2,3,4,5,6,7,8,9,10 µ=5.5 şi σ=3,02
Extragem un eșantion (N=3) având m=5 și s=6.36:
-
• Scorurile z pentru grupuri se supun aceloraşi raţionamente în raport cu distribuţia normală ca şi scorurile zindividuale
• Diferenţa este dată de cadrul de referinţă– GRUPUL (eşantionul) în cazul z individual– POPULAŢIA în cazul z pentru grup
• Scorul z pentru grup permite poziţionarea rezultatului unui eşantion pe distribuţia populaţiei
-
Exemplu:• La un examen de cunoştinţe de statistică, o grupă de 45
de studenţi obţine un scor mediu de m=28.5 puncte. • Dacă
– media pe populaţia studenţească care a mai dat acest examen este µ=27.3,
– ... iar σ=8.2
• ...cât de “bună” este performanţa grupei respective?
22.170.6
2.8
45
2.8====
Nsm
σ
98.022.1
20.1
22.1
3.275.28==
−=
−=
ms
mz
µ
Calculăm apoi scorul z pentru grup:
Calculăm mai întâi eroarea standard a mediei:
-
Ipoteza cercetării
• Un psiholog şcolar îşi pune întrebarea dacă elevii participanţi la olimpiadele şcolare au un nivel de inteligenţă (QI) superior elevilor în general.
• problemă de cercetare:– „Elevii participanţi la olimpiade sunt mai
inteligenţi decât toţi elevii în general, fie ei participanţi sau nu la olimpiade?”.
-
Ipoteza cercetării (H1)
• Este rezultatul prefigurat, posibil, al cercetării– Qi mediu al elevilor participanţi la olipiade este mai
mare decât al elevilor în general
H1 → µpo≠ µeg
• H1 presupune că există două populaţii distincte sub aspectul nivelului de inteligenţă
– elevii participanţi la olimpiade– elevii în general
-
Ipoteza statistică (H0)• Variante:
– „ipoteza diferenţei nule”– “ipoteza de nul”
• Se formulează ca opusul ipotezei cercetării– „participanţii la olimpiadă nu au o inteligenţă
mai mare decât populaţia de elevi în general”.• H0 presupune că nu există două populații
distincte de elevi, ci doar una singură
• Expresia formală: H0 → mpo=meg
-
Distribuţia ipotezei de nul
• Distribuția mediei eșantioanelor de valori QI, indiferent de participarea la olimpiadă– media olimpicilor nu diferă de media populaţiei
generale de elevi– µpo=µeg
• În conformitate cu TLC– Distribuția mediei de eșantionare urmează legea
curbei normală• .... putem utiliza tabela distribuţiei normale
pentru a aprecia poziția unei medii de eșantion, la fel ca și pentru o valoare individuală
-
Testul z pentru un singur eşantion
• Eşantionul de participanţi la olimpiadă (N=30): m=106 şi s=7
• QI: µ=100, σ=15• Scorul z pentru eşantion devine un test pentru
evaluarea diferenţei dintre media unui grup faţă de media populaţiei din care este extras– rar utilizat, deoarece presupune cunoaşterea
parametrilor populaţiei (µ şi σ)– util în introducerea teoretică a testelor statistice
• şi totuşi, este utilizabil în practică....
-
calcule
QI=100z=0
QIcalculat=106zcalculat =+2.18
?%
18.274.2
6
47.5/15
6
/
100106+===
−=
−=
Ns
mz
m σµ
ms
mz
µ−=
50-48.54=1.46%
-
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
-
Rezultatul eșantionului
QI=100z=0
QIcalculat=106zcalculat =+2.18
1,4%
� Media calculată (QI=106) este corespunzătoare lui z=+2.18� Cel mult 1,4% din eșantioanele extrase aleatoriu pot avea un QI mai mare decât media populației de nul
� Sunt cele două medii (populație și eșantion) diferite?� Aritmetic, da (106≠100)� Dar ele pot diferi și ca urmare a variabilității de eșantionare� Avem nevoie de un mecanism decizional pentru a decide dacă diferența poate fi atribuită faptului că eșantionul este compus din elevi olimpici 48.5%
-
Decizia statistică• Întotdeauna pe distribuția de nul putem
avea valori mai mari decât valorile calculate pe eșantion
• Pragul “critic” alfa (nivel alfa)1 α– corespunde probabilităţii de 0.05. – probabilităţii „critice” alfa îi corespunde o
valoare critică z (1.65)– Se mai numește și „valoare tabelară”.
0 z critic=1.65
≤5%
-
Decizia statistică
0 z critic=1.65
≤5%
- Dacă media eşantionului poate rezulta aleatoriu în mai puțin sau cel mult 5%din cazuri, atunci DIFERĂ SEMNIFICATIV de media populaţiei
- Dacă media eşantionului poate rezulta aleatoriu în mai mult de 5% din cazuri, atunci NU DIFERĂ SEMNIFICATIV de media populaţiei
ipoteza de nul ESTE ADMISĂ
ipoteza cercetării NU SE CONFIRMĂipoteza de nul ESTE RESPINSĂ
ipoteza cercetării SE CONFIRMĂ
>5%
-
1 pentru exemplul nostru
QI=100z=0
QIcalculat=106zcalculat =+2.18
1,4%
• z calculat (+2.18) este mai mare decât z critic (1.65)
• şansa ca o medie QI=106 să apară în mod aleator este 1.4%, mai mică decât nivelul alfa (5%)
• altfel spus: p(0.014)
-
5%5%
• rezultatul este NESEMNIFICATIV
• ipoteza de nul este acceptată
• ipoteza cercetării NU SE CONFIRMĂ
Decizia statistică unilaterală
z=-1.65 z=+1.65
• rezultatul este SEMNIFICATIV
• ipoteza de de nul este respinsă
• ipoteza cercetării SE CONFIRMĂ
• rezultatul este SEMNIFICATIV
• ipoteza de de nul este respinsă
• ipoteza cercetării SE CONFIRMĂ
-
2.5% 2.5%
z=-1.96 z=+1.96
Decizia statistică bilaterală
Dacă scorul eşantionului se află într-una din aceste arii:
- rezultatul este SEMNIFICATIV
- ipoteza de nul este respinsă
- ipoteza cercetării este confirmată
-
Logica pragului p=0.05• alfa=0.05 → standard convenţional ştiinţific unanim acceptat
– are rolul de a garanta faptul că orice concluzie bazată pe date statistice răspunde aceluiaşi criteriu de exigenţă
– standard decizional în studii statistice (R. Fisher - tabele statistice• z critic bilateral =±1.96
– un rezultat aflat la două abateri standard de media populaţiei este considerat semnificativ statistic (improbabil să apară din întâmplare)
• praguri mai “exigente”: 0.01, 0.001– Pragul alfa 0.05 înseamnă un nivel de încredere de 95% în rezultatul
cercetării– 99%, pentru p=0.01– 99.9% pentru p=0.00
• utilizarea acestor „praguri” vine din perioada în care nu existau calculatoare şi programe automate de prelucrare statistică. – Nivelul alfa de 0.05 nu este decât pragul maxim acceptat
• programele statistice (SPSS - Sig.)
-
Interpretare corectă pentru p≤0.05(sau alt prag autoimpus)
• probabilitatea ca rezultatul obţinut să poată rezulta din întâmplare este suficient de mică pentru admite că rezultatul decurge prin “efectul” (“în contextul existenţei”) variabilei independente
-
Interpretări greşite pentru p ≤ 0.05
• efectul este probabil mare• efectul este cu atât mai mare cu cât p este mai
mic de 0.05• sunt mai puţin de 5% şanse ca efectul să fie
zero• sunt mai puţin de 2.5% şanse ca efectul să fie
mai mic decât zero• este o şansă mare ca efectul să fie mai mare
decât zero• efectul este publicabil
-
Interpretări greşite pentru p > 0.05
• efectul nu este publicabil• nu există efect• efectul este probabil zero sau extrem de mic• este o şansă destul de mare ca efectul să fie
mai mic decât zero
-
Estimarea intervalului de încredere pentru media populaţiei
• Media oricărui eşantion diferă de media populaţiei– este o estimare (aproximare) a acesteia– în ce interval se află media reală a populaţiei,
dacă ştim media unui eşantion?
• TLC permite estimarea limitelor acestui interval
-
Estimarea intervalului de încredere pentru media populaţiei
p=0.95
z=+1.96z=-1.96
p=0.025 p=0.025
interval de încrederez critic z critic
mcriticszm *±=µ
limita inferioară
limita superioară
Cu o probabilitate de 0.95 (cu un nivel de încredere de 95%)media populaţiei, estimată prin media eşantionului cercetării,
este cuprinsă între +1.60 şi +8.39
1000.04 8.3
62.10074.2*96.1106 =−=µ
37.11174.2*96.1106 =+=µ0.75
Z=0.04
Z=0.75
-
Testul t pentru un singur eşantion
• condiţii de utilizare pentru testul z– cunoaştem media populaţiei de referinţă– eşantion „mare” (N≥ 30)
• pentru eşantioane cu N
-
Valorile critice ale lui t pentru p=0.05
(bilateral)
df≥31... ∞
df=6
df=3
+1.96
+2.45
+3.18
-1.96
-2.45
-3.18
Distribuţia t (Student)
-
ms
mt
µ−=
Mod de calcul – identic cu testul z
media eşantionului
media populaţiei
eroarea standard a eşantionului
-
df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005
1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240
4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688
6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588
7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413
9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869
30 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75000 3.6460
inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905
Tabelul t pentru probalităţile din dreapta curbei
-
alfa=0.05 unilateralpentru N=10
(df=9)
-
df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005
1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240
4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688
6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588
7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413
9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869
11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370
12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178
13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208
14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405
Tabelul t pentru probalităţile din dreapta curbei
-
alfa=0.05 bilateralpentru N=12
(df=11)
-
df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005
1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240
4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688
6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588
7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413
9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869
11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370
12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178
13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208
14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405
Tabelul t pentru probalităţile din dreapta curbei
-
Concluzii
• testul z sau t se utilizează atunci când dorim să comparăm media unui eşantion cu media cunoscută a populaţiei
• Publicarea rezultatelor– sintetic
• în formă tabelară dacă sunt mai multe teste z(t)• se vor afişa m, z, p, N şi tipul de decizie (dacă este unilateral)
– narativ• „„Eşantionul de elevi participanţi la olimpiade a
obţinut un scor (QI=106; 95%CI:100.6-111.3) peste media populaţiei generale (QI=100). Testul z, cu alfa 0.05, a demonstrat că diferenţa nu este semnificativă statistic, z=+2.13, p>0.05, unilateral”.
-
Concluzii generale• Atunci când media şi abaterea standard ale unei populaţii
sunt cunoscute:
• ştim că distribuţia de eşantionare este normală (TLC)
• ştim că media distribuţiei de eşantionare este egală cu media populaţiei
• ştim că abaterea standard a distribuţiei de eşantionare este
mai mică decât abaterea standard a populaţiei de valori
individuale (sm= s/√√√√n, unde n este volumul eşantionului)• abaterea standard a distribuţiei de eşantionare (sm) poartă
numele de eroare standard a mediei
• ştim probabilitatea ca media unui anumit eşantion să se afle
într-o regiune a distribuţiei de eşantionare
• putem testa o ipoteză legată de mărimea acestei medii