testy dobré shody (testy shody rozdělení)

34
Testy dobré shody (testy shody rozdělení)

Upload: john-chaney

Post on 04-Jan-2016

111 views

Category:

Documents


8 download

DESCRIPTION

Testy dobré shody (testy shody rozdělení). Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož byl výběrový soubor pořízen, je určitého konkrétního typu. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Testy dobré shody (testy shody rozdělení)

Testy dobré shody (testy shody rozdělení)

Page 2: Testy dobré shody (testy shody rozdělení)

Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož byl výběrový soubor pořízen, je určitého konkrétního typu.

V jiných případech hledáme rozdělení, které by odpovídalo provedenému náhodnému výběru a sloužilo tak jako teoretický model.

Přitom vycházíme z výběrového rozdělení, které se přirozeně od od rozdělení teoretického více či méně liší.

Máme tedy důvody v některých případech porovnávat empirická rozdělení četností s rozděleními teoretickými.

Page 3: Testy dobré shody (testy shody rozdělení)

Volba teoretického rozdělení je prováděna na základě některých věcných úvah o sledovaném jevu, popřípadě na základě odhadu typu teoretického rozdělení z grafického vyobrazení výběrového rozdělení četností.

Tato volba nemusí být vždy správná, a proto je aktuální ověřit shodu empirického rozdělení rozdělení s teoretickým vhodným testem.

Testy hypotézy, že náhodný výběr x1, x2, …, xn pochází z určitého předpokládaného rozdělení (např. normálního), se nazývají testy dobré shody.

Mezi nejčastěji užívané testy dobré shody patří Pearsonův 2 – test dobré shody.

Page 4: Testy dobré shody (testy shody rozdělení)

Tento test lze použít ve dvou nejčastěji se vyskytujících situacích: Nulová hypotéza H0 předpokládá, že v konečném ZS

roztříděném podle nějakého kvantitativního či kvalitativního znaku do k skupin jsou podíly variant v základním souboru rovny číslům p0,1, p0,2, …, p0,k.

Nulová hypotéza H0 předpokládá, že nekonečný ZS má rozdělení určitého typu (např. normální).

V případě, že H0 udává nejen typ rozdělení, ale i jeho parametry, mluvíme o úplně specifikovaném modelu.

V případě, že je udán pouze typ rozdělení, tak hovoříme o neúplně specifikovaném modelu.

Page 5: Testy dobré shody (testy shody rozdělení)

Předpokládejme, že základní soubor má libovolné rozdělení s neznámou distribuční funkcí F(x).

Provedeme náhodný výběr o rozsahu n a zjištěné výsledky roztřídíme do k tříd (intervalů) s četnostmi n1, n2, …, nk.

Na základě výběrových zjištění pak chceme ověřit hypotézu, že daný náhodný výběr pochází ze základního souboru s určitým rozdělením pravděpodobností.

H0: F(x) = F0(x)

Předpokládáme, že F0(x) je pevně daná hypotetická distribuční funkce, v níž nefigurují žádné neznámé parametry.

Page 6: Testy dobré shody (testy shody rozdělení)

Z formulace problému vyplývá, že není třeba rozlišovat jednostranné a dvoustranné alternativní hypotézy.

H1 prostě popírá platnost H0, tzn. tvrdí, že rozdělení je jiné, než udává hypotéza H0.

H1: F(x) F0(x)

Postup při stanovení testového kritéria

Pozorované hodnoty rozdělíme do k disjunktních intervalů Ij = xj, xj+1, j = 1, …, k, přičemž

- x1 x2 … xk xk+1 .

Počet pozorování, která leží v j-tém intervalu, nazýváme j-tá empirická četnost a označujeme nj.

Page 7: Testy dobré shody (testy shody rozdělení)

Pro jednotlivé intervaly vypočteme teoretické (očekávané) četnosti npj odvozené za předpokladu

platnosti nulové hypotézy (na základě distribuční funkce a parametrů daného rozdělení se stanoví pravděpodobnost pj , že hodnota náhodné veličiny X

padne do j-tého intervalu).

Užitím vlastnosti distribuční funkce lze pravděpodobnost pj vyjádřit pomocí F0(x)

pj = P(xj X xj+1) = F0(xj+1) – F0(xj).

Page 8: Testy dobré shody (testy shody rozdělení)

,

np

npnχ

k

1j j

2jj2

Shodu mezi empirickým a teoretickým rozdělením se posuzuje pomocí testového kritéria

kde nj jsou empirické (skutečné) četnosti v intervalu j

(j = 1, 2, …, k) a npj teoretické četnosti (stanovené na

základě pravděpodobnosti) v intervalu j.

Vzorec testového kritéria lze snadno upravit na ekvivalentní tvar

.nnp

nk

1j j

2j2

Page 9: Testy dobré shody (testy shody rozdělení)

Za platnosti H0 má statistika asymptoticky 2 – rozdělení o k-1 stupních volnosti.

Kritický obor pro test H0 má tedy tvar:

, kde je kritická hodnota

2 – rozdělení.

Pokud , nulová hypotéza se zamítá, platí hypotéza alternativní, která tvrdí, že náhodný výběr není ze základního souboru s daným rozdělením pravděpodobností.

2)1k(

2K 2

)1k(

22

Page 10: Testy dobré shody (testy shody rozdělení)

Situace, kdy hypotetická distribuční funkce je určena jednoznačně, jsou v praxi poměrně vzácné (jde o případ, kdy H0 určuje tvar i hodnoty parametrů testovaného rozdělení).

Častější jsou případy, kdy H0 nespecifikuje teoretické rozdělení úplně, tzn. specifikuje jen tvar rozdělení, nikoliv hodnoty jeho parametrů.

Počet parametrů, které nejsou H0 specifikovány, označíme c.

Mohou to být jenom některé parametry zkoumaného rozdělení, ale také parametry všechny.

Tyto parametry je pak nutno z daného náhodného výběru odhadnout.

Page 11: Testy dobré shody (testy shody rozdělení)

Testové kritérium budeme následně porovnávat s tabulkovou hodnotou – rozdělení pro f = (k – c – 1) stupňů volnosti, kde

k je počet tříd – intervalů,

c je počet parametrů ověřované distribuční funkce, např. distribuční funkce normálního rozdělení má 2 parametry a 2, exponenciálního rozdělení jeden parametr ).

Spolehlivost – testu dobré shody se zvyšuje s rostoucím rozsahem výběru n.

Je tedy žádoucí, aby byla splněna podmínka n > 50.

Page 12: Testy dobré shody (testy shody rozdělení)

Pro použití – testu je však nezbytné, aby teoretické četnosti npj byly větší než 5.

Nevyhovují-li některé četnosti této podmínce, lze dosáhnout jejího splnění sloučením několika sousedních tříd (tím se sníží počet stupňů volnosti, neboť k je rovno počtu tříd po sloučení).

Je nutno tedy hledat skupiny nějak příbuzné, věcně spolu související, které je možné následně sloučit.

Jde-li o kvantitativní třídicí znak, a tedy intervalové rozdělení četností, slučují se běžně okrajové skupiny.

Page 13: Testy dobré shody (testy shody rozdělení)

Z obecnějšího hlediska však můžeme nesplnění podmínky (velikost teoretických četností) považovat za varovný signál toho, že test provádíme při nedostatečném rozsahu výběru a že naše závěry budou možná zpochybnitelné.

Je-li to podle povahy výběrového šetření reálné, dává se kvůli splnění podmínky npj 5 raději

přednost zvýšení rozsahu výběru před slučováním sousedních tříd (okrajových skupin).

Page 14: Testy dobré shody (testy shody rozdělení)

PříkladV rámci přijímacího řízení absolvují uchazeči o studium na VŠ Amthauerův test struktury inteligence. Výsledky tohoto testu se vyjadřují prostřednictvím tzv. celkového hrubého skóre. Ze studentů přijatých ke studia během 4 let byl proveden náhodný výběr 98 studentů. Ověřte předpoklad normality rozdělení pro tento výběr.

Soubor je potřeba nejprve setřídit do intervalového rozdělení a stanovit základní číselné charakteristiky, které odpovídají parametrům normálního rozdělení.

4898,109x 629526,16s

Page 15: Testy dobré shody (testy shody rozdělení)

Hodnota znaku Četnost nj pj npj npj 70 < x 80 5 0,02947 2,89 80 < x 90 7 0,08264 8,10

10,99

90 < x 100 11 0,16334 16,01 16,01 100 < x 110 31 0,22763 22,31 22,31 110 < x 120 20 0,22694 22,24 22,24 120 < x 130 12 0,15686 15,37 15,37 130 < x 140 8 0,07647 7,49 140 < x 150 4 0,02628 2,58

10,07

celkem 98 0,98963 96,99 96,99

02947,0)99111,01(96164,01)77,1U37,2(P80X70P

08264,0)96164,01(879,01)17,1U77,1(P90X80P

16334,0)879,01(71566,01)57,0U17,1(P100X90P

Při sčítání teoretických četností je nutno sečíst i četnosti empirické.

Page 16: Testy dobré shody (testy shody rozdělení)

3899,7983899,105nnp

n

j

2j2

815,72)126(05,0

2)1ck(

022 H

V případě přijetí nulové hypotézy lze konstatovat, že daný výběr byl pořízen ze základního souboru s normálním rozdělením.

Page 17: Testy dobré shody (testy shody rozdělení)
Page 18: Testy dobré shody (testy shody rozdělení)
Page 19: Testy dobré shody (testy shody rozdělení)

Nulovou hypotézu může také obecněji tvořit jakékoliv teoretické rozdělení pravděpodobností, které může být formulováno intuitivně, např. jako zobecněná zkušenost apod.

PříkladHudební vydavatelství připravuje k vydání zvukovou nahrávku, která vychází na 3 typech audionosičů: MG, CD, LP. S ohledem na charakter nahrávky a na okruh potencionálních posluchačů firma v marketingovém plánu předpokládá, že pro uspokojení zákazníků a minimalizaci režijních nákladů bude vhodné vydat nosiče v této struktuře:

Page 20: Testy dobré shody (testy shody rozdělení)

5000 ks MG (= 50 % nákladu), 3000 ks CD (30 %) a 2000 ks LP (20 %).

Po uplynutí 3 měsíců kontrolovala firma záznamy o prodeji, z nichž vyplynuly tyto průběžné počty prodaných nosičů:

2552 MG, 923 CD a 384 LP. Je původní úvaha vydavatelství o struktuře prodeje nosičů potvrzena výběrem, a tudíž správná ( = 0,05)?

Jde o situaci, kde na místě testované H0 nestojí předpoklad o tvaru určitého standardizovaného rozdělení, nýbrž hypotetický předpoklad vycházející z intuitivního odhadu jisté situace.

Page 21: Testy dobré shody (testy shody rozdělení)

Nosič

Prodáno (ks)

Pravděpo-dobnost

Očekávaná četnost

nj pj npj = 3859·pj

MG 2552 0,50 1929,5 200,83

CD 923 0,30 1157,7 47,58

LP 384 0,20 771,8 194,85

Součet 3859 1,00 3859 443,26

j

2jj

np

npn

2 = 443,26 f = k – c – 1 = 3 – 0 –1 = 2Kritická hodnota

H0 se zamítá (původní marketingová úvaha vydavatele o struktuře nosičů se reálným prodejem vůbec nepotvrdila)

22

991,52)2(05,0

Page 22: Testy dobré shody (testy shody rozdělení)

Kolmogorov - Smirnovův test

Je-li plně známo teoretické rozdělení, tzn. jeho typ i příslušné parametry, je velmi výhodným a jednoduchým testem shody Kolmogorov – Smirnovův test, který je použitelný i v případech, kdy není použitelný 2 – test dobré shody (např. v případě výběru malého rozsahu, velký podíl teoretických četností menších než 5).

Jeho předností je, že vychází z původních jednotlivých napozorovaných hodnot a nikoliv z údajů setříděných do tříd (skupin).

Tím nedochází ke ztrátě informace obsažené ve výběru.

Page 23: Testy dobré shody (testy shody rozdělení)

,HNmaxn

1D jj

Test se používá k ověření hypotézy, že pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x), která ovšem musí být úplně specifikována včetně všech parametrů.

Test se provádí pomocí testového kritéria

kde Nj – jsou kumulativní četnosti empirické,

Hj – kumulativní četnosti teoretické,

n – četnost sledovaného souboru, max Nj – Hj – je největší rozdíl mezi

kumulativními četnostmi empirickými a teoretickými.

Page 24: Testy dobré shody (testy shody rozdělení)

Jestliže hodnota testového kritéria D překročí kritickou hodnotu D , nalezenou v tabulce pro daný

rozsah výběrového souboru n a zvolenou hladinu významnosti , zamítáme nulovou hypotézu o shodě mezi empirickým a teoretickým rozdělením.

Tabulka kritických hodnot D je sestavena pouze

pro n 40. Pro výběry větších rozsahů se musí kritické hodnoty určit podle vztahů (pro = 0,05 a = 0,01).

n

36,1D 05,0

n

63,1D 01,0

Page 25: Testy dobré shody (testy shody rozdělení)

Příklad

Součástí biologického monitoringu je i cytogenetická analýza krve. Předložená data jsou počty aberantních buněk ve vzorcích krve, odebraných v jednom okrese. Aberantní buňka představuje buňku, v jejíž genetické informaci došlo ke změně, např. ke zlomu chromozonu. Bylo vždy měřeno 100 buněk a počty aberantních buněk jsou celá čísla. Určete typ diskrétního rozdělení.

28571,249

112x)X(E

Page 26: Testy dobré shody (testy shody rozdělení)

nj Nj pj npj Hj Nj - Hj 0 5 5 0,101701 5 5 0 1 11 16 0,232460 11 16 0 2 12 28 0,265669 13 29 -1 3 10 38 0,202414 10 39 -1 4 9 47 0,115665 6 45 2 5 1 48 0,052876 3 48 0 6 1 49 0,020143 1 49 0

101701,0!0

28571,2e)0X(P

028571,2

23246,0!1

28571,2e)1X(P

128571,2

Page 27: Testy dobré shody (testy shody rozdělení)

040816,0249

1HNmax

n

1D jj

Kritická hodnota pro Kolmogorov-Smirnovův test

194286,049

36,1D 05,0

0HDD

Byla potvrzena nulová hypotéza o přítomnosti Poissonova rozdělení.

Page 28: Testy dobré shody (testy shody rozdělení)
Page 29: Testy dobré shody (testy shody rozdělení)
Page 30: Testy dobré shody (testy shody rozdělení)

Davidův test normality

2 – test dobré shody lze užívat pro ověřování shody s libovolným typem rozdělení. Pro ověření nulové hypotézy, která říká, že náhodný výběr pochází z normálního rozdělení, lze použít Davidův test normality. Jeho testové kritérium má tvar:

,s

xx

s

RT minmax

kde s je výběrová směrodatná odchylka.

Page 31: Testy dobré shody (testy shody rozdělení)

Jestliže vypočtená hodnota T bude splňovat relaci

Td T Th,

kde Td a Th jsou tabelované kritické hodnoty, nulová

hypotéza o normalitě rozdělení se nezamítá.

Tento test má velmi malou sílu testu, a proto se používá spíše pro rychlou informaci o přítomnosti normality rozdělení.

Page 32: Testy dobré shody (testy shody rozdělení)

PříkladMěření hustoty Země H. Cavendishem v roce 1798 je na svou dobu pozoruhodné zvláště, když si uvědomíme, že dnešní měření přináší hodnotu blízkou, a to okolo 5,517. Určete, zda se v tomto případě jedná o soubor s normálním rozdělením.

5,50 5,36 5,62 5,27 5,46 5,61 5,29 5,29 5,39 5,30 4,88 5,58 5,44 5,42 5,75 5,07 5,65 5,34 5,47 5,68 5,26 5,57 5,79 5,63 5,85 5,55 5,53 5,10 5,34

Page 33: Testy dobré shody (testy shody rozdělení)

xmax = 5,85 xmin = 4,88 s = 0,220946

3902,4220946,0

88,485,5

s

xxT minmax

Tabulkové hodnoty pro Davidův test

(pro n = 30 a = 0,05)

Td = 3,47 Th= 4,89

Protože platí základní podmínka, tzn.

3,47 < 4,39 < 4,89,je možné potvrdit normalitu rozdělení tohoto souboru.

Page 34: Testy dobré shody (testy shody rozdělení)