testy dobré shody (testy shody rozdělení)

Post on 04-Jan-2016

111 Views

Category:

Documents

8 Downloads

Preview:

Click to see full reader

DESCRIPTION

Testy dobré shody (testy shody rozdělení). Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož byl výběrový soubor pořízen, je určitého konkrétního typu. - PowerPoint PPT Presentation

TRANSCRIPT

Testy dobré shody (testy shody rozdělení)

Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož byl výběrový soubor pořízen, je určitého konkrétního typu.

V jiných případech hledáme rozdělení, které by odpovídalo provedenému náhodnému výběru a sloužilo tak jako teoretický model.

Přitom vycházíme z výběrového rozdělení, které se přirozeně od od rozdělení teoretického více či méně liší.

Máme tedy důvody v některých případech porovnávat empirická rozdělení četností s rozděleními teoretickými.

Volba teoretického rozdělení je prováděna na základě některých věcných úvah o sledovaném jevu, popřípadě na základě odhadu typu teoretického rozdělení z grafického vyobrazení výběrového rozdělení četností.

Tato volba nemusí být vždy správná, a proto je aktuální ověřit shodu empirického rozdělení rozdělení s teoretickým vhodným testem.

Testy hypotézy, že náhodný výběr x1, x2, …, xn pochází z určitého předpokládaného rozdělení (např. normálního), se nazývají testy dobré shody.

Mezi nejčastěji užívané testy dobré shody patří Pearsonův 2 – test dobré shody.

Tento test lze použít ve dvou nejčastěji se vyskytujících situacích: Nulová hypotéza H0 předpokládá, že v konečném ZS

roztříděném podle nějakého kvantitativního či kvalitativního znaku do k skupin jsou podíly variant v základním souboru rovny číslům p0,1, p0,2, …, p0,k.

Nulová hypotéza H0 předpokládá, že nekonečný ZS má rozdělení určitého typu (např. normální).

V případě, že H0 udává nejen typ rozdělení, ale i jeho parametry, mluvíme o úplně specifikovaném modelu.

V případě, že je udán pouze typ rozdělení, tak hovoříme o neúplně specifikovaném modelu.

Předpokládejme, že základní soubor má libovolné rozdělení s neznámou distribuční funkcí F(x).

Provedeme náhodný výběr o rozsahu n a zjištěné výsledky roztřídíme do k tříd (intervalů) s četnostmi n1, n2, …, nk.

Na základě výběrových zjištění pak chceme ověřit hypotézu, že daný náhodný výběr pochází ze základního souboru s určitým rozdělením pravděpodobností.

H0: F(x) = F0(x)

Předpokládáme, že F0(x) je pevně daná hypotetická distribuční funkce, v níž nefigurují žádné neznámé parametry.

Z formulace problému vyplývá, že není třeba rozlišovat jednostranné a dvoustranné alternativní hypotézy.

H1 prostě popírá platnost H0, tzn. tvrdí, že rozdělení je jiné, než udává hypotéza H0.

H1: F(x) F0(x)

Postup při stanovení testového kritéria

Pozorované hodnoty rozdělíme do k disjunktních intervalů Ij = xj, xj+1, j = 1, …, k, přičemž

- x1 x2 … xk xk+1 .

Počet pozorování, která leží v j-tém intervalu, nazýváme j-tá empirická četnost a označujeme nj.

Pro jednotlivé intervaly vypočteme teoretické (očekávané) četnosti npj odvozené za předpokladu

platnosti nulové hypotézy (na základě distribuční funkce a parametrů daného rozdělení se stanoví pravděpodobnost pj , že hodnota náhodné veličiny X

padne do j-tého intervalu).

Užitím vlastnosti distribuční funkce lze pravděpodobnost pj vyjádřit pomocí F0(x)

pj = P(xj X xj+1) = F0(xj+1) – F0(xj).

,

np

npnχ

k

1j j

2jj2

Shodu mezi empirickým a teoretickým rozdělením se posuzuje pomocí testového kritéria

kde nj jsou empirické (skutečné) četnosti v intervalu j

(j = 1, 2, …, k) a npj teoretické četnosti (stanovené na

základě pravděpodobnosti) v intervalu j.

Vzorec testového kritéria lze snadno upravit na ekvivalentní tvar

.nnp

nk

1j j

2j2

Za platnosti H0 má statistika asymptoticky 2 – rozdělení o k-1 stupních volnosti.

Kritický obor pro test H0 má tedy tvar:

, kde je kritická hodnota

2 – rozdělení.

Pokud , nulová hypotéza se zamítá, platí hypotéza alternativní, která tvrdí, že náhodný výběr není ze základního souboru s daným rozdělením pravděpodobností.

2)1k(

2K 2

)1k(

22

Situace, kdy hypotetická distribuční funkce je určena jednoznačně, jsou v praxi poměrně vzácné (jde o případ, kdy H0 určuje tvar i hodnoty parametrů testovaného rozdělení).

Častější jsou případy, kdy H0 nespecifikuje teoretické rozdělení úplně, tzn. specifikuje jen tvar rozdělení, nikoliv hodnoty jeho parametrů.

Počet parametrů, které nejsou H0 specifikovány, označíme c.

Mohou to být jenom některé parametry zkoumaného rozdělení, ale také parametry všechny.

Tyto parametry je pak nutno z daného náhodného výběru odhadnout.

Testové kritérium budeme následně porovnávat s tabulkovou hodnotou – rozdělení pro f = (k – c – 1) stupňů volnosti, kde

k je počet tříd – intervalů,

c je počet parametrů ověřované distribuční funkce, např. distribuční funkce normálního rozdělení má 2 parametry a 2, exponenciálního rozdělení jeden parametr ).

Spolehlivost – testu dobré shody se zvyšuje s rostoucím rozsahem výběru n.

Je tedy žádoucí, aby byla splněna podmínka n > 50.

Pro použití – testu je však nezbytné, aby teoretické četnosti npj byly větší než 5.

Nevyhovují-li některé četnosti této podmínce, lze dosáhnout jejího splnění sloučením několika sousedních tříd (tím se sníží počet stupňů volnosti, neboť k je rovno počtu tříd po sloučení).

Je nutno tedy hledat skupiny nějak příbuzné, věcně spolu související, které je možné následně sloučit.

Jde-li o kvantitativní třídicí znak, a tedy intervalové rozdělení četností, slučují se běžně okrajové skupiny.

Z obecnějšího hlediska však můžeme nesplnění podmínky (velikost teoretických četností) považovat za varovný signál toho, že test provádíme při nedostatečném rozsahu výběru a že naše závěry budou možná zpochybnitelné.

Je-li to podle povahy výběrového šetření reálné, dává se kvůli splnění podmínky npj 5 raději

přednost zvýšení rozsahu výběru před slučováním sousedních tříd (okrajových skupin).

PříkladV rámci přijímacího řízení absolvují uchazeči o studium na VŠ Amthauerův test struktury inteligence. Výsledky tohoto testu se vyjadřují prostřednictvím tzv. celkového hrubého skóre. Ze studentů přijatých ke studia během 4 let byl proveden náhodný výběr 98 studentů. Ověřte předpoklad normality rozdělení pro tento výběr.

Soubor je potřeba nejprve setřídit do intervalového rozdělení a stanovit základní číselné charakteristiky, které odpovídají parametrům normálního rozdělení.

4898,109x 629526,16s

Hodnota znaku Četnost nj pj npj npj 70 < x 80 5 0,02947 2,89 80 < x 90 7 0,08264 8,10

10,99

90 < x 100 11 0,16334 16,01 16,01 100 < x 110 31 0,22763 22,31 22,31 110 < x 120 20 0,22694 22,24 22,24 120 < x 130 12 0,15686 15,37 15,37 130 < x 140 8 0,07647 7,49 140 < x 150 4 0,02628 2,58

10,07

celkem 98 0,98963 96,99 96,99

02947,0)99111,01(96164,01)77,1U37,2(P80X70P

08264,0)96164,01(879,01)17,1U77,1(P90X80P

16334,0)879,01(71566,01)57,0U17,1(P100X90P

Při sčítání teoretických četností je nutno sečíst i četnosti empirické.

3899,7983899,105nnp

n

j

2j2

815,72)126(05,0

2)1ck(

022 H

V případě přijetí nulové hypotézy lze konstatovat, že daný výběr byl pořízen ze základního souboru s normálním rozdělením.

Nulovou hypotézu může také obecněji tvořit jakékoliv teoretické rozdělení pravděpodobností, které může být formulováno intuitivně, např. jako zobecněná zkušenost apod.

PříkladHudební vydavatelství připravuje k vydání zvukovou nahrávku, která vychází na 3 typech audionosičů: MG, CD, LP. S ohledem na charakter nahrávky a na okruh potencionálních posluchačů firma v marketingovém plánu předpokládá, že pro uspokojení zákazníků a minimalizaci režijních nákladů bude vhodné vydat nosiče v této struktuře:

5000 ks MG (= 50 % nákladu), 3000 ks CD (30 %) a 2000 ks LP (20 %).

Po uplynutí 3 měsíců kontrolovala firma záznamy o prodeji, z nichž vyplynuly tyto průběžné počty prodaných nosičů:

2552 MG, 923 CD a 384 LP. Je původní úvaha vydavatelství o struktuře prodeje nosičů potvrzena výběrem, a tudíž správná ( = 0,05)?

Jde o situaci, kde na místě testované H0 nestojí předpoklad o tvaru určitého standardizovaného rozdělení, nýbrž hypotetický předpoklad vycházející z intuitivního odhadu jisté situace.

Nosič

Prodáno (ks)

Pravděpo-dobnost

Očekávaná četnost

nj pj npj = 3859·pj

MG 2552 0,50 1929,5 200,83

CD 923 0,30 1157,7 47,58

LP 384 0,20 771,8 194,85

Součet 3859 1,00 3859 443,26

j

2jj

np

npn

2 = 443,26 f = k – c – 1 = 3 – 0 –1 = 2Kritická hodnota

H0 se zamítá (původní marketingová úvaha vydavatele o struktuře nosičů se reálným prodejem vůbec nepotvrdila)

22

991,52)2(05,0

Kolmogorov - Smirnovův test

Je-li plně známo teoretické rozdělení, tzn. jeho typ i příslušné parametry, je velmi výhodným a jednoduchým testem shody Kolmogorov – Smirnovův test, který je použitelný i v případech, kdy není použitelný 2 – test dobré shody (např. v případě výběru malého rozsahu, velký podíl teoretických četností menších než 5).

Jeho předností je, že vychází z původních jednotlivých napozorovaných hodnot a nikoliv z údajů setříděných do tříd (skupin).

Tím nedochází ke ztrátě informace obsažené ve výběru.

,HNmaxn

1D jj

Test se používá k ověření hypotézy, že pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x), která ovšem musí být úplně specifikována včetně všech parametrů.

Test se provádí pomocí testového kritéria

kde Nj – jsou kumulativní četnosti empirické,

Hj – kumulativní četnosti teoretické,

n – četnost sledovaného souboru, max Nj – Hj – je největší rozdíl mezi

kumulativními četnostmi empirickými a teoretickými.

Jestliže hodnota testového kritéria D překročí kritickou hodnotu D , nalezenou v tabulce pro daný

rozsah výběrového souboru n a zvolenou hladinu významnosti , zamítáme nulovou hypotézu o shodě mezi empirickým a teoretickým rozdělením.

Tabulka kritických hodnot D je sestavena pouze

pro n 40. Pro výběry větších rozsahů se musí kritické hodnoty určit podle vztahů (pro = 0,05 a = 0,01).

n

36,1D 05,0

n

63,1D 01,0

Příklad

Součástí biologického monitoringu je i cytogenetická analýza krve. Předložená data jsou počty aberantních buněk ve vzorcích krve, odebraných v jednom okrese. Aberantní buňka představuje buňku, v jejíž genetické informaci došlo ke změně, např. ke zlomu chromozonu. Bylo vždy měřeno 100 buněk a počty aberantních buněk jsou celá čísla. Určete typ diskrétního rozdělení.

28571,249

112x)X(E

nj Nj pj npj Hj Nj - Hj 0 5 5 0,101701 5 5 0 1 11 16 0,232460 11 16 0 2 12 28 0,265669 13 29 -1 3 10 38 0,202414 10 39 -1 4 9 47 0,115665 6 45 2 5 1 48 0,052876 3 48 0 6 1 49 0,020143 1 49 0

101701,0!0

28571,2e)0X(P

028571,2

23246,0!1

28571,2e)1X(P

128571,2

040816,0249

1HNmax

n

1D jj

Kritická hodnota pro Kolmogorov-Smirnovův test

194286,049

36,1D 05,0

0HDD

Byla potvrzena nulová hypotéza o přítomnosti Poissonova rozdělení.

Davidův test normality

2 – test dobré shody lze užívat pro ověřování shody s libovolným typem rozdělení. Pro ověření nulové hypotézy, která říká, že náhodný výběr pochází z normálního rozdělení, lze použít Davidův test normality. Jeho testové kritérium má tvar:

,s

xx

s

RT minmax

kde s je výběrová směrodatná odchylka.

Jestliže vypočtená hodnota T bude splňovat relaci

Td T Th,

kde Td a Th jsou tabelované kritické hodnoty, nulová

hypotéza o normalitě rozdělení se nezamítá.

Tento test má velmi malou sílu testu, a proto se používá spíše pro rychlou informaci o přítomnosti normality rozdělení.

PříkladMěření hustoty Země H. Cavendishem v roce 1798 je na svou dobu pozoruhodné zvláště, když si uvědomíme, že dnešní měření přináší hodnotu blízkou, a to okolo 5,517. Určete, zda se v tomto případě jedná o soubor s normálním rozdělením.

5,50 5,36 5,62 5,27 5,46 5,61 5,29 5,29 5,39 5,30 4,88 5,58 5,44 5,42 5,75 5,07 5,65 5,34 5,47 5,68 5,26 5,57 5,79 5,63 5,85 5,55 5,53 5,10 5,34

xmax = 5,85 xmin = 4,88 s = 0,220946

3902,4220946,0

88,485,5

s

xxT minmax

Tabulkové hodnoty pro Davidův test

(pro n = 30 a = 0,05)

Td = 3,47 Th= 4,89

Protože platí základní podmínka, tzn.

3,47 < 4,39 < 4,89,je možné potvrdit normalitu rozdělení tohoto souboru.

top related