statistickÉ minimum - vŠpj/statistické minimum... · 2015-01-08 · prof. ing. bohumil...

96
STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH BOHUMIL MINAŘÍK 2014

Upload: others

Post on 05-Jan-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO

STUDIA NA

TECHNICKÝCH OBORECH

BOHUMIL MINAŘÍK

2014

prof. Ing. Bohumil Minařík, CSc.

STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH1. vydání

ISBN 978-80-88064-03-9

Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2014Za jazykovou a věcnou správnost obsahu díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou.

© Bohumil Minařík, 2014

Tento učební text je směrován na cílovou skupinu studentů technických oborů

na bakalářském stupni studia. Statistika patří těžším předmětům, protože vyžaduje určitou matematickou průpravu a způsob uvažování, který není zdaleka běžný. Také průběžná příprava je docela důležitá, neboť nárazově a na poslední chvíli se statisti-ka rozhodně nastudovat nedá. Každé podcenění a odkládání studia „na později“ se s jistotou projeví.

Také tento učební text, jakkoli sympatický nízkým počtem stran, rozhodně nepatří do kategorie lehké četby. Na druhou stranu je třeba konstatovat, že rozhodně nejde o matematickou exhibici, ale určité (snad i ohleduplné, pokud se to tak dá říci) převyprávění se snahou o maximální čtivost a srozumitelnost.

Při srovnání s běžnými učebnicemi statistiky, které se vyznačují pět až deset-krát větším počtem stran, je výklad poměrně hutný, poznamenaný snahou ve čtyřech kapitolách se alespoň dotknout mnoha témat, které použití statistiky v technických oborech otevírá.

Jde rozhodně o statistické minimum, které bude nucen skutečný uživatel sta-tistických metod v budoucnu podstatně rozšířit.

Na několika místech textu je poukázáno na užití pravděpodobnosti a statistiky v technice, která jsou na těchto základech vybudována. Protože však ambicí tohoto textu je seznámit čtenáře s obecnými základy statistiky (jak ostatně odpovídá syla-bům příslušného předmětu), nemůže v žádném případě jít o systematický výklad tý-kající se (namátkou) nejistot měření, hromadné obsluhy, regulačních diagramů nebo statistické přejímky. To už je náplň dalších disciplín, které obecné základy statistiky využívají a aplikují na konkrétní případy z technického výzkumu i praxe.

Jde takříkajíc o pokus o beta-verzi (snad) budoucího kvalitního učebního textu, který již budou připravovat jiní, pro výuku statistiky na technických oborech (pře-devším v oblasti výpočetní techniky a informatiky) jistě lépe disponovaní učitelé. Nakolik je už tato „zkušební“ verze alespoň zčásti zdařilá, nechť posoudí studenti sami.

To, že v dnešní době lze většinu pojmů použitých v této pomůcce vyhledat na internetu (bohužel ne vždy přesně a správně), není třeba připomínat. Jihlava, srpen 2014 Autor

Orientace v textu Text sestává ze čtyř kapitol

• Zpracování a popis datového souboru v rozsahu 20 stran, který obsa-huje tyto odstavce • Datový soubor (strana 5)

• Třídění (strana 6)

• Charakteristiky úrovně (strana 15)

• Charakteristiky variability (strana 18)

• Pravděpodobnost v rozsahu 29 stran, s těmito odstavci • Rekapitulace základních pojmů (strana 25)

• Náhodná veličina (strana 29)

• Zákony rozdělení diskrétních náhodných veličin (strana 39)

• Zákony rozdělení spojitých náhodných veličin (strana 43)

• Odhady a testy hypotéz v rozsahu 30 stran, s těmito odstavci • Náhodný výběr z rozdělení náhodné veličiny (strana 54)

• Bodový odhad (strana 61)

• Intervalový odhad (strana 64)

• Testování hypotéz o parametrech rozdělení (strana 70)

• Některé další testy hypotéz (ukázky) (strana 77)

• Metoda nejmenších čtverců v rozsahu 12 stran, s těmito odstavci • Regresní úloha (strana 84)

• Měření průběhu závislosti (strana 85)

• Měření intenzity závislosti (strana 87)

• Příklad regresní úlohy (strana 88)

• Kalibrace (strana 90)

Na konci textu je připojen stručný výtah z tabulek kvantilů dvou důležitých náhodných veličin. Vždy za jedním nebo několika odstavci jsou vloženy otázky a úkoly, které by měl student vyřešit, pokud chce postoupit vpřed. Celkem jde o 159 položek, které mohou dokonale prověřit samostatnou přípravu studenta a současně tvoří výchozí materiál pro průběžné písemné práce a formulování otázek ke zkoušce. Každá kapitola končí souhrnem probrané látky. Na závěr kapitoly jsou vyjmenovány některé další související problémy, na které ne-zbyl čas a prostor.

5

Kapitola 1 Zpracování a popis datového souboru Základní „surovinou“ popisné statistiky je datový soubor, konkrétně způsob jeho poří-

zení, zpracování (k tomu se používá se především metoda třídění) a měření hlavních statis-tických vlastností dat (především úrovně a variability) pomocí souhrnných statistických cha-rakteristik.

Pořízení datového souboru (statistické zjišťování, šetření) má, vzhledem k velmi širo-kému použití statistiky dotýkajícího se mnoha oborů lidské činnosti, velmi různou podobu – počínaje experimentálními měřeními v laboratořích a zkušebnách, přes nejrůznější zjišťování probíhající takříkajíc v provozních podmínkách, až třeba po dotazníková šetření v souborech domácností. Moderní přístup k získávání statistických dat představuje tzv. data mining, spo-čívající v sofistikovaném vytěžování statistických dat organizovaných v databázích. O tom, že tato činnost nabyla „průmyslového“ charakteru, svědčí používané pojmy jako datový sklad, datová pumpa apod. K experimentálním účelům se také využívají tzv. generátory náhod-ných čísel, které automaticky produkují simulované datové soubory požadovaných vlastnosti.

Pokud bychom hodlali zůstat na půdě popisné statistiky (např. v rámci našeho studij-ního předmětu), nehrál by způsob pořízení datového souboru až takovou roli. Protože však hodláme zabrousit také do matematické statistiky (ta se zabývá především metodami statis-tické indukce – zobecnění poznatků získaných na datovém souboru), dospějeme v jistém okamžiku k pojmu náhodný výběr z rozdělení pravděpodobnosti náhodné veličiny. Čistě pro potřeby popisné statistiky ovšem zatím stačí představit si, že jsme „přišli k hotovému“ a dato-vý soubor máme tudíž k dispozici, aniž pátráme po způsobu, jakým byl pořízen.

1.1 Datový soubor

Měřená veličina

Měřené veličiny rozlišujeme podle způsobu, jakým získáváme jejich hodnoty:

• Kardinální veličina jejíž číselné hodnoty získáváme cestou měření ve vlastním slova smyslu (typicky fyzikálních měření) v měrných jednotkách v souladu se soustavou SI (sedm základních jednotek, odvozené jednotky, násobné jednotky, vedlejší jednotky). Při označování měřené veličiny má přednost X (velké x). Kardinální veličiny rozlišujeme podle spojitosti na diskrétní – nespojité (nabývající izolovaných hodnot, často – ne nutně – celočíselných) a spojité (reálná čísla). Kromě toho rozlišujeme kardinální veličiny s přirozenou a konvenční nulou. To je důležité pro jejich rozdělení na poměrové (jejich hodnoty lze porovnávat rozdílem i podílem) a intervalové (jejich hodnoty lze porovnávat jen rozdílem – typicky např. teploty ve °C). V dalším textu této kapitoly budeme předpokládat výhradně kardi-nální veličinu.

• Ordinální veličina, jejíž číselné hodnoty získáme různě, typicky např. očíslováním uspořádaných hodnot kardinální veličiny pořadovými čísly vzestupně nebo se-stupně. V tomto případě jsou eliminovány rozdíly mezi hodnotami (rozdíl dvou sousedních hodnot je nahrazen jednotkovým rozdílem jejich pořadových čísel). S touto veličinou se v našem předmětu prakticky nesetkáme.

• Kategoriální veličina, kdy jednotlivé případy klasifikujeme do slovně vyjádřených kategorií (např. událost nastala/nenastala, tiskárna je jehličková/inkoustová/lase-rová apod.). Zde se nehovoří o měření, ale o srovnávání, ani o hodnotách, nýbrž o obměnách. Pokud jsou kategorie očíslovány (např. událost nastala = 1, událost nenastala = 0), jde o číselný kód a čísla nemají význam velikosti. V rámci této ka-pitoly se s kategoriální veličinou nesetkáme.

6

Naměřené hodnoty Pokud jde o kardinální veličinu (vezměme příklad měření určité fyzikální vlastnosti součástky), je třeba si uvědomit, že její naměřená hodnota je jen náhodou totožná s hod-notou skutečnou. Naměřená hodnota je především zatížena nejistotou měření. Skutečná hodnota je pak složena z hodnoty nominální (jmenovité, očekávané) a individuální, případ od případu se měnící, odchylky od nominální hodnoty – viz diagram. Naměřená hodnota i dato-vý soubor jako celek jsou tedy jednotou deterministické (předvídatelné) složky a složky náhodné (tudíž nepředvídatelné). Pokud by šlo např. o měření proudových jističů, můžeme očekávat že naměřené hodnoty budou kolísat orientačně kolem nominální hodnoty (jme-novitého proudu v A uvedeného na jističi), jednak vlivem individuálních odchylek vzniklých při výrobě jednotlivých jističů, jednak vlivem nejistot měření. Statistika (zejména popisná) se problematikou nejistot měření nezabývá, proto ji ponecháme stranou.

Diagram: naměřená vs. skutečná hodnota

Naměřená hodnota Skutečná hodnota Nejistoty měření Typ A Typ B Nominální hodnota

Individuální odchylka

od nominální hodnoty

Naměřené hodnoty měřené veličiny X, které tvoří datový soubor, označíme

• buď jako ni xxxx ,...,,...,, 21 , kde číslo n je rozsah datového souboru,

• alternativně můžeme použít označení ix , pro ni ,...,2,1= ,

kde index i souvisí s pořadím měření.

Posloupnost )()()2()1( ....... ni xxxx ≤≤≤≤≤ nazveme uspořádaným datovým soubo-rem, kde čísla )( ix jsou pořádkové statistiky. Platí min)1( xx = (nejmenší naměřená hodnota),

max)( xx n = . Vzdálenost mezi oběma extrémními hodnotami minmax xxR −= je variační rozpětí.

Posloupnost nazveme vektorem variant. Číslo k (počet vzájemně od sebe různých variant) je řádově menší než rozsah souboru n.

1.2 Třídění Má-li datový soubor větší rozsah (orientačně alespoň 30)>n je vhodné přistoupit k je-ho zpracování pomocí třídění. Výsledkem třídění je rozdělení četností, které je opět jed-notou očekávaného – zákonitého a nahodilého. Třídění není samoúčelné, protože tabulkové nebo grafické vyjádření rozdělení četností umožňuje usuzovat např. na symetrii či nesymetrii rozdělení kolem nějakého „centrálního“ bodu, stupeň a místo nakupení největšího počtu hod-

[ ] [ ] [ ] [ ]kixx x x...... 2 1 <<< < <

7

not, délku „konců“, přítomnost „chvostu“ apod. Kromě toho rozdělení četností umožňuje měřit a porovnávat strukturu datových souborů.

Bodové a intervalové třídění, rozdělení četností O bodovém třídění se hovoří tehdy, pokud se podaří z dat extrahovat vektor variant (několik málo různých hodnot se mnohonásobně opakuje). Rozdělení četností při bodovém třídění je tvořeno dvousloupcovou tabulkou (viz).

K intervalovému třídění přistoupíme tehdy, pokud se z dat nepodaří extrahovat vek-tor variant (naměřené hodnoty jsou např. vesměs různá reálná čísla). V tom případě přistou-píme k vytvoření třídicích intervalů. Jde o subjektivní záležitost, ale abychom dosáhli žádou-cího efektu, je vhodné při tom respektovat určité obecné zásady (přiměřený počet k intervalů, jejichž počet by neměl poklesnout pod šest, konstantní šířka intervalu h, nesporné vymezení hranic intervalů, eliminace odlehlých hodnot pomocí prvního a posledního otevřeného inter-valu). Interval je zpravidla zastupován svým středem (viz tabulka).

Tabulka rozdělení četností při bodovém a intervalovém třídění Varianta

[ ]ix Četnost

in Střed třídicího intervalu

ix Četnost

in

[ ]1x 1n 1x 1n

[ ]2x 2n 2x 2n : : : : [ ]kx kn kx kn

Součet n Součet n Poznámky k tabulce

• hranaté závorky u variant budeme nadále vynechávat, takže varianty i středy in-tervalů budeme značit stejně, význam vyplyne z kontextu,

• počet variant a počet třídicích intervalů se značí shodně jako k,

• pojmem četnost (viz dále) označujeme počet opakování i-té varianty nebo počet hodnot ležících v i-tém intervalu,

• součet četností je v obou případech roven rozsahu výběru.

Druhy četností Četnosti v tabulce, někdy nazývané také absolutní četnosti, nejsou vhodné pro po-rovnávání struktury dvou nebo více rozdělení četností, neboť závisí na rozsahu souboru, který je jejich součtem.

Závislost četností na rozsahu souboru odstraníme přechodem na relativní četnosti ip

(případně v procentech vyjádřené ). Relativní četnost nn

p ii = . Relativní četnosti jsou tedy

nezáporná desetinná čísla, jejichž součet je roven jedné.

Postupným načítáním (kumulací) absolutních nebo relativních četností vznikají

kumulativní četnosti. Kumulativní četnosti ∑=

=i

jji nkn

1

(tj. ∑=

+++k

jjnnnnnnn

1321211 ,...,,, ).

Relativní kumulativní četnosti mohou být rovněž vyjádřeny v procentech. Případný součet

8

kumulativních četností by nedával smysl. Toto v tabulce označíme symbolem (ležatý křížek) v příslušném políčku součtového řádku.

Skalárním součinem absolutních četností a variant/středů intervalů získáme úhrn hodnot souboru. Zatímco v prvním případě jde o přesné číslo (stejný výsledek bychom získali sečtením původních netříděných hodnot), ve druhém případě jde jen o přibližný úhrn, vzhledem k tomu, že střed intervalu není dokonalým „reprezentantem“ všech hodnot interva-lu.

Tabulkové a grafické vyjádření rozdělení četností viz následující příklady.

Příklad bodového třídění V datovém souboru o rozsahu 80=n byly identifikovány varianty nula a přirozená čísla 1 až 4. Následující tabulka prezentuje rozdělení četností při bodovém třídění tohoto datového souboru.

Tabulka rozdělení četností při bodovém třídění

Kumulativní četnost Varianta ix

Absolutníčetnost

in

Relativníčetnost

ip ikn ikp100 0 12 0,150 12 15,0 1 33 0,412 45 56,2 2 16 0,200 61 76,2 3 15 0,188 76 95,0 4 4 0,050 80 100,0

Součet 80 1,000

Úsečkový graf absolutní četnosti a graf relativní kumulativní četnosti v %

Poznámky k příkladu na bodové třídění

• součty relativních četností nemusí vzhledem k zaokrouhlování nutně vyjít jedna (100 %),

x x

in ikp100

9

• skalární součin ∑=

=k

iii nx

1

126 udává úhrn (přesnou hodnotu) datového souboru,

• graf kumulativní četnosti má typický stupňovitý průběh,

• relativní četnosti postačí ke srovnání struktury datových souborů různých rozsahů.

Příklad intervalového třídění Hodnoty datového souboru o rozsahu 110=n jsou reálná čísla (po zaokrouhlení na celá čísla) ležící v rozmezí 7328,1783 maxmin == xx . Rozhodli jsme třídit datový soubor do šesti třídicích intervalů pro 1000=h , které vymezíme, jak je uvedeno v tabulce rozdělení čet-ností.

Tabulka rozdělení četností při intervalovém třídění

Kumulativní četnostVymezení intervalu

Střed intervaluix

Absolutníčetnost

in

Relativníčetnost

ip ikn ikp ( ∞− – 2000) 1500 3 0,027 3 0,027

<2000 – 3000) 2500 11 0,100 14 0,127<3000 – 4000) 3500 18 0,164 32 0,291<4000 – 5000) 4500 19 0,173 51 0,464<5000 – 6000) 5500 42 0,382 93 0,846<6000 – ∞+ ) 6500 17 0,154 110 1,000

Součet 110 1,000

Histogram absolutní četnosti a graf relativní kumulativní četnosti

Poznámky k příkladu na intervalové třídění

• intervaly musíme vymezit tak, abychom do nich (nejlépe s určitou rezervou) umís-tili všechny hodnoty,

x x

in ikp

10

• šířku, hranice a středy intervalů je třeba volit s ohledem na maximální přehlednost,

• intervaly jsme vymezili nesporně, význam závorek je zřejmý (vyskytne-li se např. hodnota 3000, patří do třetího intervalu),

• první a poslední interval jsme koncipovali tak, aby byly otevřené, což má smysl zejména u posledního intervalu, kam by se hodnota 7328 jinak „nevešla“,

• není žádoucí, aby rozdělení četností obsahovalo intervaly s nulovou četností,

• šířka otevřených intervalů se považuje za stejnou jako u ostatních intervalů, i když se do nich zařazují odlehlé hodnoty – to na vysvětlenou ke středům prvního a posledního intervalu,

• skalární součin ∑=

=k

iii nx

1

522000 udává úhrn (přibližná hodnota) datového sou-

boru,

• sloupcový graf absolutní (relativní) četnosti se „slepenými“ sloupci se nazývá his-togram,

• graf kumulativní četnosti je lomená čára, často esovitého tvaru; body se vynášejí proti horním hranicím intervalů; čáru je vhodné napojit na vodorovnou osu v horní hranici fiktivního předchozího intervalu,

• relativní četnosti nepostačí k porovnání struktury intervalově tříděných datových souborů z důvodu předpokládané různé šířky a různého počtu intervalů.

Četnostní funkce a četnostní hustota Pro intervalově tříděná data zavedeme hustotu četností jako funkci

hp

f ii = , tj. jako

relativní četnost připadající na jednotku třídicího intervalu. Hustota četností (na rozdíl od relativní četnosti) nezávisí na šířce třídicího intervalu a zachovává si svůj průběh i při třídění do stále většího počtu stále užších intervalů. Lze si představit, že při extrémně jemném třídě-ní, kdy 0→h , přejde lomená čára představující průběh relativní kumulativní četnosti v hlad-kou křivku a podobně hladkou čarou „se obaluje“ i histogram hustoty četností.

Pokud budeme relativní četnost při bodovém třídění a hustotu četností při intervalo-vém třídění chápat jako funkci hodnot měřené veličiny, můžeme zavést

• četnostní funkci )( xp , která je nezáporná na normovaná na intervalu 1;0 , při-

čemž ∑ =x

xp 1)( (součet délek úseček představujících relativní četnosti je roven

jedné),

• funkci četnostní hustoty, která je nezáporná 0)( ≥xf a normovaná ∫+∞

∞−

= 1)( dxxf ,

tj. plocha histogramu četnostní hustoty je vždy rovna jedné.

Významné hodnoty V netříděném, bodově nebo intervalově tříděném datovém souboru lze najít hodnoty, které jsou významné svojí polohou nebo četností. Jde o

• Extrémní hodnoty maxmin , xx , které lze u netříděných a bodově tříděných dat určit přesně, zatímco u intervalově tříděných dat je z tabulky rozdělení četností určit nedokážeme.

11

• Typická hodnota (modus, x̂ ), což je u bodově tříděných dat varianta s největší četností, zatímco u intervalově tříděných dat leží uvnitř intervalu s největší čet-ností (jak její polohu uvnitř intervalu odhadujeme, ponecháme stranou). U netřídě-ných údajů s malým rozsahem souboru se o určení typické hodnoty zpravidla nepokoušíme.

• Kvantily, což jsou hodnoty, které dělí uspořádaný nebo tříděný datový soubor ve stanoveném poměru četností. Hlavním kvantilem je medián 50,0x (prostřední hod-

nota), což je u netříděných uspořádaných dat hodnota s pořadím 2

1+n . Pokud

vypočtené pořadí není celé číslo, vyhovují definici mediánu dvě hodnoty – bez-

prostředně předchozí a následující (např. 42

1,7 =+

=nn , mediánem je tedy čtvrtá

hodnota, zatímco pro 5,42

1,8 =+

=nn a mediánem je současně čtvrtá a pátá

hodnota). U bodově tříděných dat je mediánem varianta, u které kumulativní relativní četnost poprvé překročí hodnotu 0,5 (50 %). U intervalově tříděných dat leží medián v intervalu, pro který kumulativní relativní četnost poprvé překročí tutéž hodnotu (0,5 nebo 50 %). Jak jeho polohu uvnitř intervalu odhadujeme, ponecháme stranou. Kvartily ( 75,050,025,0 ,, xxx ) jsou tři kvantily, které rozdělují sou-

bor na čtvrtiny. Dolní kvartil 25,0x je mediánem dolní poloviny souboru, horní kvar-

til 75,0x je mediánem horní poloviny souboru. Prostřední kvartil je medián. Vedle mediánu a kvartilů existuje množství dalších kvantilů. Jako vhodný příklad uvádíme percentily, jejichž počet je 99 ( 99,001,0 ,..., xx ) a dělí soubor na sto částí o relativní četnosti 0,01 (1 %). Prostředním (padesátým) percentilem je medián a oba percentily v závorce se nazývají dolní a horní percentil. Konkrétně s těmito kvantily se později v jiné souvislosti setkáme.

Tvar rozdělení četností Jak jsme již dříve uvedli, datový soubor obsahuje prvek zákonitého a předvídatelného a současně i prvek nahodilého, případ od případu proměnlivého. Proto můžeme hovořit o ur-čitých typických, opakovatelných, tvarech rozdělení četností.

• Všímáme si symetrie či asymetrie rozdělení četností. Prakticky se běžně set-káváme s oběma případy. Pokud jde o asymetrická rozdělení, hovoříme o levo-stranné (viz příklad k bodovému třídění) nebo pravostranné (viz příklad k interva-lovému třídění) asymetrii. Při tom se řídíme tím, zda vrchol rozdělení je vychýlen doleva (k nižším hodnotám) či doprava. O extrémně asymetrických rozděleních se hovoří tehdy, je-li vrchol rozdělení zcela vlevo (např. v prvním intervalu) nebo vpravo (např. u poslední varianty).

• Dále se zajímáme o rovnoměrnost či nerovnoměrnost rozložení četností mezi jednotlivé varianty/intervaly. Pokud jsou četnosti rozděleny přibližně rovnoměrně, hovoří se o rovnoměrném rozdělení. V opačném případě jde zpravidla (ne vždy) o modální rozdělení vyznačující se vyšší frekvencí hodnot u určité varianty nebo v určitém intervalu. Protikladem k modálním rozdělení je rozdělení typu U (dolík místo vrcholu). Zvláštní kategorii tvoří vícevrcholová rozdělení. Přítomnost více vrcholů může vypovídat o škodlivé heterogenitě v datech (vzniká např. sloučením datových souborů, které vznikaly za různých podmínek).

12

• Kromě toho se můžeme zabývat délkou konců rozdělení, výskytem odlehlých hodnot, případně přítomností „chvostu“ hodnot na jednom z okrajů rozdělení. Tuto problematiku ale ponecháme stranou.

Různé typické tvary rozdělení četností při intervalovém třídění

Krabicový graf s vlákny Tento graf představuje vedle grafů rozdělení četností alternativní pohled na statistická data, založený na významných hodnotách. V grafu se objevuje „krabice“ ohraničená dolním a horním kvartilem a s vyznačenou polohou mediánu. Šířka krabice je funkcí rozsahu dato-vého souboru. „Vlákna“ mají maximální hodnotu 1,5násobku vzdálenosti příslušného kvartilu od mediánu nebo končí v příslušné extrémní hodnotě (pokud je vzdálena méně než 1,5ná-sobek vzdálenosti kvartilu a mediánu). Vymezují tzv. hradby dat. Hodnoty ležící „za hradba-mi“ jsou podle vzdálenosti označeny jako odlehlé, případně extrémně odlehlé. I když „na prv-ní setkání“ se z toho grafu nedá moc vyčíst, tak zkušené oko rychle odhalí vlastnosti a zvláštnosti takto zobrazených dat.

13

Krabicové grafy s vlákny

Poznámky ke grafu

• podle šířky krabic je zřejmé, že soubor vpravo má větší rozsah,

• soubor vlevo je přesně symetrický a neobsahuje žádné odlehlé hodnoty (všechny jeho hodnoty jsou uvnitř hradeb dat),

• soubor vpravo je silně levostranně nesymetrický (vzdálenost mezi dolním kvarti-lem a mediánem je malá, protože zde leží více hodnot souboru než na opačné straně),

• soubor vpravo obsahuje jednu odlehlou a jednu extrémně odlehlou hodnotu,

• graf je znázorněný v extrémně zjednodušené podobě, protože může obsahovat daleko více prvků vypovídajících o dalších vlastnostech dat (pro nás by byl ovšem příliš složitý).

Zmíněné pohledy na datový soubor jsou kromě dalších postupů součástí tzv. průzku-mové (exploratorní) analýzy dat.

14

Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Charakterizujte kardinální, ordinální a kategoriální veličinu.

2. Co vám říkají pojmy diskrétní a spojitá veličina a intervalová a poměrová veličina? Ke které z veličin z bodu 1 se vztahují?

3. Rozeberte vztah mezi naměřenou a skutečnou hodnotou kardinální veličiny.

4. Co je uspořádaný datový soubor a jak se nazývají jeho hodnoty?

5. Co jsou varianty?

6. Jaké druhy třídění rozlišujeme?

7. Shrňte obecné principy intervalového třídění.

8. Rekapitulujte druhy četností a jejich vzájemné vztahy.

9. Srovnejte grafické znázornění rozdělení četností pro bodové a intervalové třídění.

10. Jak se stanoví úhrn hodnot tříděného datového souboru? Kdy jde o přesné číslo a kdy jde jen o odhad úhrnu a proč?

11. Proveďte samostatně intervalové třídění individuálně zadaného datového souboru.

12. U následujících pojmů rozhodněte, zda se vztahují k bodovému nebo intervalovému třídění, případně k oběma druhům

• vektor variant, • histogram, • relativní kumulativní četnost v %, • stupňový graf kumulativní četnosti, • hustota četností, • četnostní funkce.

13. Co rozumíme pod pojmem významné hodnoty? Čím jsou významné a jaké jsou jejich druhy?

14. Doplňte způsob určení extrémních hodnot, mediánu a modu do tabulky.

Extrémníhodnoty Medián Modus

Netříděné údaje Bodově tříděné údaje Intervalově tříděné údaje

15. Co je medián? Přesvědčte se, že jste pochopili princip jeho určení na příkladu, kde hodnoty 13,5,9,0,0,25,3,6,11,22: −ix .

16. Jak se nazývá a jaké prvky obsahuje graf založený na významných hodnotách, ze kterého lze vyčíst hlavní vlastnosti datového souboru (asymetrie, přítomnost odleh-lých hodnot apod.)?

17. Pojmenujte každý z tvarů rozdělení četností na příslušném obrázku.

18. Pokud neznáte, vyhledejte význam pojmů data mining, simulace, generátory náhod-ných čísel a exploratorní analýza dat.

15

1.3 Charakteristiky úrovně Údaje datového souboru charakterizují každý případ zvlášť. V této chvíli jde o to, aby-chom zobecnili statistické vlastnosti datového souboru jako celku.

Tvrzení „soubor A má nižší úroveň než soubor B“ neznamená nutně, že každý údaj souboru A nabývá nižší hodnoty než libovolný údaj souboru B, ale to, že existuje taková ten-dence, která je rozpoznatelná pro datové soubory jako celek.

Veličiny, které jedním číslem vyjadřují určitou vlastnost datového souboru jako celku, se nazývají souhrnné statistické charakteristiky.

Nejběžnější charakteristikou úrovně je aritmetický průměr, i když se o průměrech zpravidla hovoří v množném čísle (existuje např. průměr geometrický, harmonický aj.). Kro-mě toho lze ke změření úrovně datového souboru využít např. i medián.

Aritmetický průměr

Aritmetický průměr x (x s pruhem) se od ostatních průměrů liší tzv. určující vlastností,

kterou můžeme formulovat takto:

xxxxxx n +++=+++ ......21

a můžeme ji přepsat jako ∑=

=n

ii xnx

1

, z čehož aritmetický průměr ∑=

=n

iix

nx

1

1 .

Vzhledem k tomu, že při výpočtu využíváme prostý součet hodnot datového souboru, nazývá se tato forma prostou formou aritmetického průměru.

Jsou-li data předem zpracována pomocí bodového nebo intervalového třídění, vyu-žíváme aritmetický průměr ve vážené formě. Hodnoty ix jsou v případě bodového třídění va-rianty a v případě intervalového třídění středy intervalů. Jde o tutéž charakteristiku, pouze o jinou formu vyjádření.

Aritmetický průměr ve vážené formě ∑∑==

==k

iii

k

iii pxnx

nx

11

1 , kde in je absolutní a ip

je relativní četnost, ∑=

=k

iinn

1

, ∑=

=k

iip

1

1 a k je počet variant nebo počet třídicích intervalů.

Pro aritmetický průměr je typické, že na jeho hodnotu má vliv každá, tedy i odlehlá hodnota datového souboru, případně hrubá chyba.

Vlastnosti aritmetického průměru

• aritmetický průměr má rozměr měřené veličiny a lze ho určit z jakýchkoli reálných hodnot ix ,

• aritmetický průměr konstanty je roven této konstantě,

• odchylky hodnot datového souboru od aritmetického průměru se kompenzují (jako

bezprostřední důsledek určující vlastnosti) a platí ∑=

=−n

ii xx

1

0)( (aritmetický prů-

měr je těžištěm datového souboru),

16

• souhlasně s vlastnostmi těžiště platí ∑ ∑= =

−+−=−n

i

n

iii cxnxxcx

1 1

222 )()()( a nej-

menší možnou hodnotu tedy součet čtverců odchylek nabývá, je-li xc = ,

• je-li veličina ckXY += , kde ck, jsou konstanty, platí také

∑=

+=+=n

ii cxkckx

ny

1

)(1 ,

• je-li veličina YXW ±= , je současně yxw ±= ,

• je-li dáno k dílčích souborů s rozsahy ki nnnn ,...,,...,, 21 a dílčími průměry ix , pak

společný průměr těchto dílčích souborů je roven ∑∑ =

=

=k

iiik

ii

nxn

x1

1

1 .

Výpočet aritmetického průměru v prosté formě a využití jeho vlastností

Hodnoty datového souboru tvoří pět naměřených teplot ve °C

1,22;7,23;9,21;8,24;6,22:ix .

Součet teplot je 115,1 a průměrná teplota stanovená jako aritmetický průměr v prosté

formě 02,231,115511

1

=== ∑=

n

iix

nx [°C].

Průměr stanovený ve °C přepočteme na °F (Fahrenheita). Vztah mezi oběma teplot-ními stupnicemi je °F = 1,8 °C + 32. Takže 44,733202,238,1 =+⋅=y [°F].

Máme tedy 02,23,5 11 == xn K dispozici je další soubor měření o rozsahu 82 =n s průměrem 11,232 =x . Z obou dílčích souborů měření vypočteme společný průměr jako vážený aritmetický průměr

08,2398,299131)811,23502,23(

1311 2

121

==⋅+⋅=+

= ∑=i

ii nxnn

x [°C].

Další charakteristiky úrovně

Ke změření úrovně datového souboru můžeme z dosud známých veličin využít medián 50,0x a modus x̂. Pro medián je charakteristická poloha uvnitř datového souboru — je jeho prostřední hodnotou. Modus zase souvisí s četností výskytu (často největší četnost vykazují právě varianty nebo intervaly někde „uprostřed“ tříděného datového souboru, i když to není 100% pravidlem). Žádná z obou jmenovaných charakteristik není odvozena od všech hodnot datového souboru, extrémní hodnoty dokonce na charakteristiku nemají žádný nebo jen minimální vliv. Charakteristiky s takovou vlastností nazýváme robustní charakteristiky.

17

Vlastnosti mediánu jako charakteristiky úrovně Použijeme uspořádaný výběr z předchozího příkladu, tj.

8,24;7,23;6,22;1,22;9,21:)( ix

Mediánem je prostřední hodnota 6,2250,0 =x [°C]. Na °F bychom přepočítávali me-dián podle stejného vzorce jako aritmetický průměr. Společný medián z mediánů dílčích sou-borů nelze stanovit.

Nyní rozšíříme datový soubor o jednu hodnotu. Při poruše klimatizace byla naměřena teplota 44,5 °C. Vypočítáme-li z těchto údajů aritmetický průměr, jeho hodnota bude 26,6 °C. Definici mediánu naproti tomu vyhovují hodnoty 22,6 a 23,7. Chceme-li získat medián jako

jediné číslo, určíme 15,232

7,236,2250,0 =

+=x [°C].

Vzájemná poloha aritmetického průměru, modu a mediánu určuje tvar rozdělení čet-ností, pokud jde o jeho symetrii, resp. asymetrii. U symetrického rozdělení platí 50,0ˆ xxx == . Máme zde ovšem na mysli „statistickou“ symetrii, nikoli symetrii přísně geometrickou.

U asymetrických rozdělení bude

• xx <ˆ u levostranně (pozitivně) asymetrického rozdělení četností,

• xx ˆ< u pravostranně (negativně) asymetrického rozdělení četností,

přičemž medián zpravidla leží mezi oběma uvedenými charakteristikami.

Asymetrie datového souboru je jeho další měřitelnou statistickou vlastností. Jejím mě-řením se ovšem nebudeme zabývat.

Na závěr jsme si ponechali krátký příklad výpočtu váženého aritmetického průměru z intervalově tříděných dat.

Výpočet váženého aritmetického průměru z intervalově tříděných dat

V příkladu na intervalové třídění jsme naznačili třídění 110 hodnot (řekněme, že jde o životnost součástek v hodinách) do šesti intervalů o šířce 1000=h . Vážený aritmetický

průměr ∑=

=k

iii nx

nx

1

1 . V poznámkách pod zmíněným příkladem je uvedena hodnota skalár-

ního součinu ∑=

=k

iii nx

1

522000 . Vážený aritmetický průměr je tedy 5,4745522000110

1==x .

Průměrná životnost součástky je tedy 4745,5 hodin.

Poznámka k příkladu

• musíme si uvědomit, že nejde o stejnou hodnotu, kterou bychom získali výpočtem prostého aritmetického průměru ze všech 110 netříděných údajů (je vám jasné, proč?).

18

1.4 Charakteristiky variability Variabilita – proměnlivost – je neodmyslitelnou součástí každých statistických dat. Příčin a zdrojů variability je více, v zásadě rozlišujeme variabilitu přirozenou a chybovou. K chápání a měření variability lze přistupovat různým způsobem a existuje také velké množ-ství charakteristik variability. Od nejprimitivnějších (mezi které patří již dříve zmíněné vari-ační rozpětí R), až po nejdůležitější (a nejen to, doslova unikátní) charakteristiku variability, kterou je rozptyl – průměrná čtvercová odchylka kolem aritmetického průměru.

Unikátní vlastností rozptylu (kterou nemá žádná další charakteristika variability) je rozkládat celkovou variabilitu ve složky a ty opět podle potřeby skládat. Proto se v této části budeme věnovat především této charakteristice variability.

Rozptyl V souladu se svojí definicí průměrné čtvercové odchylky kolem aritmetického průměru

stanovíme rozptyl v prosté formě (pro netříděná data) jako

∑=

−==n

iix xx

nsx

1

22 )(1var , po úpravě 222

1

22 1var xxxxn

sxn

iix −=−== ∑

=

.

Vidíme, že rozptyl lze označovat dvojím způsobem, přičemž označení var je zkratkou alternativního názvu rozptylu – variance. Tomuto označení budeme většinou dávat přednost.

Ve vážené formě (pro tříděná data) bude analogicky

∑=

−==k

iiix nxx

nsx

1

22 )(1var , po úpravě 222

1

22 1var xxxnxn

sxk

iiix −=−== ∑

=

,

kde ix jsou varianty (při bodovém třídění) nebo středy třídicích intervalů a in jsou jejich četnosti. Vidíme, že v obou případech můžeme rozptyl vyjádřit prostřednictvím aritmetických průměrů – jako průměr čtverců hodnot zmenšený o čtverec jejich aritmetického průměru. Vlastnosti rozptylu

• rozptyl je rozměrná charakteristika (jako čtverec má rozměr, který je čtvercem rozměru veličiny X) a lze ho určit z libovolných reálných hodnot ix ,

• rozptyl, jako čtverec, je vždy nezáporný, nule je roven při výpočtu z konstanty,

• rozptyl je v souladu odpovídající vlastností aritmetického průměru nejmenší exis-tující průměrnou čtvercovou odchylkou,

• je-li veličina ckXY += , kde ck, jsou konstanty, platí xky varvar 2= ,

• je-li veličina YXW ±= , je xyyxwwn

wn

ii cov2varvar)(1var

1

2 ±+=−= ∑=

(zdůrazňujeme znaménko + mezi oběma rozptyly, přičemž mezi znaky je ± ), kde

∑∑==

−=−=−−=n

iii

n

iii yxxyyxyx

nyyxx

nxy

11

11 ))((cov , 0≥≤xycov ,

je tzv. kovariance veličin X, Y, jejíž hodnota souvisí s uspořádáním hodnot ii yx , do dvojic (stejné hodnoty při různém uspořádání vedou k různé hodnotě kovari-ance),

• je-li dáno k dílčích souborů s rozsahy ki nnnn ,...,,...,, 21 , dílčími průměry ix a díl-čími rozptyly 2

is , společný rozptyl těchto dílčích souborů

19

22

1

2

1

1

2

1

2 )(11xi

k

iiik

ii

k

iiik

ii

ssnxxn

nsn

s +=−+= ∑∑

∑∑ =

=

=

=

,

přičemž první sčítanec reprezentuje průměrný rozptyl uvnitř dílčích souborů a druhý sčítanec rozptyl dílčích průměrů kolem společného průměru ( x).

Způsob výpočtu a vlastnosti rozptylu budeme demonstrovat na příkladech.

Výpočet rozptylu z netříděných dat V tabulce jsou naměřené hodnoty vstupního napětí ve voltech. Tabulku využijeme současně i k demonstrování postupu výpočtu rozptylu dvěma způsoby.

Číslo měření

Naměřenáhodnota

ix [V] 2)( xx i −

2ix

1. 2. 3. 4. 5. 6. 7. 8.

236,3238,7239,6239,0239,5237,0237,9236,8

3,240,362,250,811,961,210,041,69

55837,6956977,6957408,1657121,0057360,2556169,0056596,4156074,24

Součet 1904,8 11,56 453544,44

Aritmetický průměr 1,2388,190481

==x [V].

Rozptyl (vzorec se závorkou) 445,156,1181var ==x [V2].

Rozptyl (vzorec bez závorky) 445,161,56691055,566931,23844,45354481var 2 =−=−=x

[V2].

Poznámky k příkladu

• vzorec pro výpočet volíme zpravidla podle komplikovanosti průběhu výpočtu (zde se více hodí závorková forma), oběma způsoby musí vyjít stejný výsledek,

• pokud bychom do tabulky vložili sloupec )( xx i − , získali bychom v součtovém řádku nulu,

• v průběhu výpočtu se snažíme nezaokrouhlovat – např. zaokrouhlením průměru stanovíme odchylky od hodnoty lišící se od průměru, což se na výsledku projeví,

• vzhledem k měrné jednotce je obtížné si pod vypočtenou hodnotou něco před-stavit – tento problém řeší charakteristiky odvozené od rozptylu (viz dále).

20

Schematické příklady týkající se vlastností rozptylu Zvolíme jednoduchá data v tabulce

• 2var =x (každá pětice čísel rostoucích/klesajících po jedné má rozptyl roven této hodnotě),

• 80var2var 2 =+−= xy (rozptyl se mění se čtvercem konstanty k, přičemž kon-stanta c na něj nemá vliv),

• xyyxyx cov2varvar2)var( ++==+ , tj. rozptyl součtu je roven součtu rozp-

tylů zvětšený o dvojnásobek kovariance, z čehož 4)822(21cov −=−−=xy ,

• xyyxyx cov2varvar18)var( −+==− , tj. rozptyl rozdílu je roven součtu rozp-tylů zmenšený o dvojnásobek kovariance, z čehož opět

4)8218(21cov −=−−−=xy ,

• sloupec iz obsahuje původní hodnoty iy v jiném pořadí (čímž přestal platit vztah z druhého sloupce, ale 8varvar == yz ), pak 6,7)var( =+ zx , z čehož

2,1)826,7(21cov −=−−=xy – záleží tedy na uspořádání hodnot ve dvojicích,

• sloučíme-li hodnoty prvních dvou sloupců do jednoho souboru, můžeme z těchto 10 hodnot určit rozptyl 5,25, což je společný rozptyl, který lze stanovit také jako

průměrný rozptyl uvnitř dílčích souborů 52

82)5852(101

=+

=⋅+⋅ (výjimečně při

stejném rozsahu postačí prostý průměr), zvětšený o rozptyl dílčích průměrů kolem

společného průměru [ ] 25,02

25,025,05)5,45(5)5,44(101 22 =

+=⋅−+⋅− (opět vý-

jimečně při stejném rozsahu postačí prostý aritmetický průměr). Společný rozptyl je tedy 25,525,05 =+ (stejný výsledek, jako při výpočtu z původních hodnot).

Dále se zaměříme na výpočet rozptylu ve vážené formě. K tomu využijeme příklad na bodové třídění.

ix 132 +−= ii xy ii yx + ii yx − iz ii zx + 23456

97531

1110987

-7-4-125

59173

7 12 5

12 9

21

Výpočet vážené formy rozptylu

Varianta ix

Absolutníčetnost

in 2)( xx i − ii nxx 2)( − 2

ix ii nx 2

0 12 2,481 29,772 0 0 1 33 0,331 10,923 1 33 2 16 0,181 2,896 4 64 3 15 2,031 30,465 9 135 4 4 5,881 23,524 16 64

Součet 8 97,580 296 Aritmetický průměr 575,1126

801

==x .

Rozptyl (závorková forma) 21975,1580,97801var ==x .

Rozptyl (bezzávorková forma) 219375,1575,1296801var 2 =−=x .

Poznámky k příkladu

• vidíme, že tentokrát je výpočetně výhodnější použití vzorce bez závorek,

• vypočtené rozptyly jsme tentokrát záměrně nezaokrouhlili a rozdíl v obou výsled-cích je způsoben zaokrouhlením 2)( xx i − v tabulce ze šesti na tři platné číslice.

Směrodatná odchylka a variační koeficient Evidentní nevýhodou rozptylu je jeho měrná jednotka, která znesnadňuje interpretaci vypočtené hodnoty.

Odmocnina rozptylu je směrodatná odchylka xx ssx == 2var . Ta má rozměr měře-

né veličiny. Aritmetický průměr a směrodatná odchylka se často uvádějí ve tvaru xsx ± . V tomto rozmezí leží (až na naprosté výjimky) více než polovina naměřených hodnot. Vyjádříme-li tedy mzdu programátora jako 645 ± tis. Kč, znamená to, že víc než polovina dotazovaných programátorů má mzdu v rozmezí 39 až 51 tis. Kč.

Je-li ckXY += , pak xy sks = . Ze směrodatných odchylek yx ss , nelze určit směro-datnou odchylku )( yx + . Z dílčích směrodatných odchylek nelze určit společnou.

Bezrozměrnou charakteristikou variability je variační koeficient xs

v xx = . Jeho stoná-

sobek se uvádí v procentech. Může tedy sloužit pro porovnání variability veličin udaných v různých (nepřevoditelných) měrných jednotkách.

Je-li ckXY += , nelze určit vztah mezi yx vv , . Z variačních koeficientů yx vv , nelze určit variační koeficient )( yx + . Z dílčích variačních koeficientů nelze určit společný.

Potvrzuje se výjimečné postavení rozptylu, který uvedené operace umožňuje.

22

Charakteristika MAD

Mediánová absolutní odchylka od mediánu (MAD – median absolute deviation) je alternativní – robustní – charakteristikou variability. Její výpočet je snadný. Spočívá ve vzes-tupném uspořádání absolutních odchylek kolem mediánu a nalezení prostřední (mediánové) z nich. Mediánová absolutní odchylka kolem mediánu na rozdíl od dosud uvedených cha-rakteristik variability nereaguje na přítomnost odlehlých hodnot v datech. Využívá se k jejich detekci a případnému vyloučení, jak uvidíme později.

Témata pro tutoriál (resp. pro cvičení na prezenční formě studia)

1. Co je určující vlastnost aritmetického průměru?

2. Uvažujte, jak se změní aritmetický průměr, pokud všechny četnosti vynásobíme něja-

kou konstantou (např. n1 ).

3. Porovnejte součet odchylek a součet čtverců odchylek od aritmetického průměru a od mediánu. Použijte vzorový příklad, ve kterém jsme počítali prostý aritmetický průměr a medián.

4. Které charakteristiky označujeme jako robustní a čím se vyznačují?

5. Vypočtěte vážený aritmetický průměr pro vzorový příklad na bodové třídění. Máte šanci získat jeho přesnou hodnotu?

6. Vypočtěte vážený aritmetický průměr pro individuálně zadaný příklad s intervalově tříděnými daty. Máte šanci získat jeho přesnou hodnotu?

7. O jaké vlastnosti dat vypovídá vzájemná poloha aritmetického průměru, modu a me-diánu?

8. Porovnejte srovnatelné vlastnosti aritmetického průměru a rozptylu.

9. Jak se změní rozptyl, pokud před jeho výpočtem upravíme aritmetický průměr

• směrem nahoru, • směrem dolů.

10. V jaké souvislosti jsme použili charakteristiku s názvem kovariance?

11. Může se společný rozptyl rovnat průměrnému rozptylu uvnitř dílčích souborů? Co to znamená?

12. Jaký vztah je mezi rozptylem, směrodatnou odchylkou a variačním koeficientem?

13. Vypočtěte rozptyl, směrodatnou odchylku a variační koeficient pro vzorový příklad na intervalové třídění. Máte šanci získat jejich přesné hodnoty?

14. Určete společný rozptyl. Znáte údaje 38,22,15,7,11,6 321321 ====== xxxnnn 9,3,4 2

322

21 === sss .

15. Určete vztah mezi variačními koeficienty xv a yv , pokud XY 4= .

16. Vypočtěte rozptyl, směrodatnou odchylku a variační koeficient pro individuálně zada-ný příklad s intervalově tříděnými daty. Výpočet rozptylu proveďte oběma možnými způsoby a výsledky porovnejte.

17. Určete charakteristiku MAD pro obě verze příkladu o vlastnostech mediánu a zhod-noťte vliv nepřítomnosti/přítomnosti odlehlé hodnoty 44,5 °C.

23

Shrnutí první kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou

• seznámení s podstatou popisné statistiky jako úvodní statistické disciplíny,

• klasifikace měřených veličin z pohledu statistiky a logika měření jejich hodnot,

• datový soubor, jeho uspořádání, vektor variant,

• smysl metody třídění,

• rozdělení četností při bodovém a intervalovém třídění a jeho tabulková a grafická prezentace,

• druhy četností, hustota četností, četnostní funkce a funkce četnostní hustoty,

• praktické provedení bodového třídění (výpočet různých druhů četností a jejich grafická prezentace),

• praktické provedení intervalového třídění při respektování základních zásad (dále viz předchozí bod),

• významné hodnoty a jejich stanovení z netříděných, bodově a intervalově třídě-ných dat, s důrazem na kvantily, zejména medián,

• různé frekventované tvary rozdělení četností,

• krabicové grafy jako prostředek poznání statistických vlastností dat,

• úroveň, její měření a charakteristiky,

• aritmetický průměr a jeho vlastnosti,

• praktický výpočet prostého a váženého aritmetického průměru,

• robustní charakteristiky úrovně,

• pojem variability,

• rozptyl jako nejdůležitější charakteristika variability a jeho vlastnosti,

• unikátní schopnost rozptylu být rozkládán ve složky a podle potřeby opět skládán,

• praktický výpočet rozptylu v prosté a vážené formě podle disponibilních vzorců,

• směrodatná odchylka a variační koeficient (včetně stanovení a vlastností),

• mediánová absolutní odchylka od mediánu (včetně stanovení a vlastností).

Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor Je toho opravdu hodně, co se nám do výkladu „nevešlo“. Jen namátkou

• přesnější lokalizace modální hodnoty a kvantilů uvnitř příslušných intervalů,

• hierarchické třídění (pro dvě a více veličin), kombinační třídění a kombinační ta-bulky (pro dvě veličiny), včetně 3D grafické prezentace rozdělení četností,

• podrobnější pojednání o kvantilech (kvintily, oktily, decily, sedecily, …) a způso-bech jejich určování pro netříděná, bodově a intervalově tříděná data,

24

• další druhy průměrů kromě aritmetického jako zvláštní případy mocninového průměru stupně s (harmonický, geometrický, kvadratický, …), jejich použití a vlastnosti,

• další koncepty měření variability a jim odpovídající charakteristiky (rozpětí kvar-tilů, diference, průměrné absolutní odchylky),

• momenty (obecné, centrální a normované) a soustava momentových charak-teristik,

• měření asymetrie (tento pojem jsme použili) a excesu (tento pojem jsme ani ne-použili) datového souboru.

Zmíněná problematika je běžnou součástí vysokoškolských učebnic a skript. Elektronická učební pomůcka, obsahující všechny citované pasáže a určená pro studenty ekonomických studijních programů, je k dispozici rovněž na e-learningu Vysoké školy polytechnické a je možno ji získat na CD přímo u autora tohoto textu.

25

Kapitola 2 PRAVDĚPODOBNOST Pravděpodobnost, zejména v podobě obávané teorie pravděpodobnosti, je obtížnou,

rozsáhlou a všeobecně nepříliš oblíbenou partií matematiky. Alternativní název počet prav-děpodobnosti poněkud méně děsí běžného uživatele zejména tím, že slibuje spíše řešení pravděpodobnostních úloh, ovšem opět s využitím alespoň některých poznatků zmíněné teorie. Naše pojetí problematiky pravděpodobnosti je maximálně triviální. Jde o určité stručné převyprávění základní proble matiky populární formou, kdy se vyhýbáme exaktním definicím a místo o větách (abychom je nemuseli dokazovat) hovoříme o vlastnostech příslušných poj-mů. Jako ilustrační příklady volíme často jednoduché a všeobecně známé situace, jako je házení mincí nebo kostkou, střelba do terče apod. Ostatně tuto taktiku běžně využívají i da-leko sofistikovanější učební pomůcky, aniž by šlo o výchovu hazardních hráčů nebo profe-sionálních ostřelovačů. Podstata problému je v tom, aby čtenář dokázal obecné poznatky aplikované na triviálních příkladech promítnout a využít ve svém oboru. 2.1 Rekapitulace základních pojmů

Před vstupem do vlastní problematiky uvedeme stručný přehled základních pojmů, které tvoří pilíře dalšího výkladu.

Jistota, nemožnost, náhodnost, neurčitost

Představme si, že provádíme určitý experiment, jehož podmínky máme plně pod kon-trolou. Pak mohou v principu nastat tyto situace:

• Pokud jsou podmínky splněny, určitá událost nastane. Např. vzroste-li teplota ocelové tyče, vzroste současně i její délka. Zde se hovoří o jisté události. Jistou událost značíme symbolem I (velké i).

• Pokud jsou podmínky splněny, určitá událost nenastane. Pokud tedy vzroste tep-lota ocelové tyče, její délka se nemůže zmenšit. Zde se hovoří o nemožné udá-losti. Nemožnou událost značíme symbolem ø (škrtnutá nula).

V prvních dvou případech hovoříme o tom, že experiment probíhá v podmínkách jis-toty. Je zřejmé, že opakovaně studovat jisté a nemožné události (pokud se o tomto jejich charakteru přesvědčíme) postrádá smysl. Kromě toho byly tyto případy již před staletími for-mulovány do podoby přírodních (typicky fyzikálních) zákonů.

• Pokud jsou podmínky splněny a určitá událost buď nastane nebo nenastane (o jejím nastoupení či nenastoupení spolurozhoduje náhoda), hovoří se o náhodné události. Náhodné události je zvykem označovat velkými písmeny ze začátku abecedy. Přednost má písmeno A (velké a). V tomto případě se hovoří, že náhod-ný experiment probíhá v podmínkách rizika.

Pravděpodobnost je matematická veličina určená k práci s náhodnými událostmi. Zá-kladní informace o ní uvádíme níže.

Pokud náhodná událost A jako výsledek experimentu nastane, říkáme, že nastal příznivý případ (pro tuto událost). Opakem je nepříznivý případ. Pokud náhodná událost A nenastane, můžeme tvrdit, že nastala událost opačná. Opačnou událost k náhodné události A značíme A (a s pruhem). Takovými opačnými událostmi jsou např. padnutí sudého a pad-nutí lichého čísla na hrací kostce, zásah/minutí terče apod.).

Pojmem riziko se označuje situace, kdy nastal jiný výsledek, než očekávaný. Nejde o to, zda „lepší“ nebo „horší“. V tomto kontextu lze např. říci, že hazardní hráč podstupuje riziko, že získá velmi vysokou výhru.

26

• Pokud neexistuje způsob, jak určit pravděpodobnost nastoupení náhodné události, hovoří se o podmínkách neurčitosti.

Tuto situaci, stejně jako již dříve zmíněné jisté a nemožné události, ponecháme stra-nou.

Pojem a vlastnosti pravděpodobnosti Jak jsme již uvedli, je pravděpodobnost matematická veličina, určená pro práci s ná-

hodnými událostmi. Existuje více dílčích „definic“ pravděpodobnosti, které jsou společně za-střešeny univerzální (tzv. axiomatickou) definicí. Tu nebudeme uvádět. Soustředíme se na vlastnosti pravděpodobnosti (exaktněji věty o pravděpodobnosti):

• Pravděpodobnost je bezrozměrná, nezáporná a je normována na intervalu 1;0 .

Pravděpodobnost náhodné události A značíme )(AP . pAP =)( , nabývá tedy reálné hodnoty 1;0∈p . Pokud je pravděpodobnost uváděna v procentech (v této kapitole tomu

tak zpravidla nebude), pak 100;0100 ∈p .

• Pravděpodobnost jisté události je rovna jedné, 1)( =IP .

• Pravděpodobnost nemožné události je rovna nule, 0ø)( =P .

• Pravděpodobnost, že nastane alespoň jedna (kterákoli) z neslučitelných (disjunkt-ních) náhodných událostí nAAA ,..., 21 je rovna součtu jejich pravděpodobností – tzv. aditivita pravděpodobnosti.

Aditivita pravděpodobnosti je nejdůležitější vlastností pravděpodobnosti. V této chvíli je ovšem třeba vysvětlit některé pojmy.

Neslučitelné (disjunktní) náhodné události se vyznačují tím, že nastoupení jedné sou-časně vylučuje nastoupení kterékoli jiné. Padne-li při jednom hodu kostkou např. číslo 4, nemůže padnout žádné z čísel 1, 2, 3, 5, 6. Opakem neslučitelnosti je slučitelnost náhodných událostí. Např. padnutí čísla 4 je slučitelné s událostí padnutí sudého čísla a neslučitelné s událostí padnutí lichého čísla.

Nastoupení alespoň jedné (libovolné) z událostí nAAA ,..., 21 se nazývá jejich sjedno-cením (logickým součtem). Operátorem sjednocení je ∪ . S tímto symbolem zacházíme po-

dobně jako s operátorem Σ . Pro nAAA ,..., 21 můžeme tedy psát Un

iiA

1=

a aditivitu pravděpo-

dobnosti vyjádřit vztahem )()(11∑==

=n

ii

n

ii APAP U .

Aditivita pravděpodobnosti se týká výhradně disjunktních událostí. Pro slučitelné udá-losti jde o řádově složitější záležitost, kterou se nebudeme zabývat.

• Pravděpodobnost události A je rovna doplňku pravděpodobnosti A do jedné, tj. )(1)( APAP −= .

• Je-li událost B částí události A , je )()( APBP ≤ .

Zde je opět třeba upřesnit. To, že mezi oběma událostmi je uvedený vztah, značíme AB ⊂ . Z příkladů, které jsme uvedli, je padnutí čísla 4 částí události padnutí sudého čísla,

ale není částí události padnutí lichého čísla. Znaménko ≤ ve vztahu obou pravděpodobností pamatuje i na případ, kdy je současně AB ⊂ a BA⊂ . V tom případě jsou obě události to-

27

tožné a )()( BPAP = . Tento vztah platí např. mezi událostmi padnutí lichého čísla a padnutí libovolného z čísel 1, 3, nebo 5.

Připomeneme-li si dříve uvedený pojem riziko, vidíme že očekávané události spojené s největším rizikem mají pravděpodobnost rovnou 0,5 (takže i riziko vykazuje hodnotu 0,5). Očekávané náhodné události s nejmenším rizikem jsou ty, jejichž pravděpodobnost se blíží jedné. V tomto případě se hovoří místo o absolutní jistotě o jistotě praktické. Lze důvodně předpokládat, že prakticky jistá náhodná událost v jediném experimentu nastane. Přítomnost rizika se prakticky projevuje teprve při velkém počtu opakování experimentu (kdy čas od ča-su nastane „jiný než očekávaný“ výsledek). Opakem praktické jistoty je praktická nemožnost náhodné události.

Vztah mezi některými pojmy pravděpodobnosti a popisné statistiky Tento vztah lze úspěšně demonstrovat na jedné z mnoha dílčích definic pravděpo-

dobnosti – statistické pravděpodobnosti. V tomto případě vycházíme z mnohonásobného opakování experimentu za stejných podmínek. Jednotlivé výsledky evidujeme a čas od času stanovíme relativní četnost (tento pojem bychom si měli připomenout z popisné statistiky) nastoupení náhodné události. Tento experiment můžeme snadno realizovat házením mincí, kdy náhodnou událostí je např. padnutí líce.

S rostoucím počtem pokusů pozorujeme ustalování relativní četnosti na určité hodno-tě, kterou v jistém okamžiku prohlásíme za statistickou pravděpodobnost náhodné události. Pochopení vztahu mezi popisnou statistikou a pravděpodobností spočívá v interpretaci prav-děpodobnosti jako stabilizované relativní četnosti náhodné události. Např. relativní četnost narození dětí mužského pohlaví se podle dlouholetých pozorování stabilizuje na hodnotě 0,505.

Svoji analogii mají i relativní kumulativní četnost stejně jako hustota četností. Na vhodném místě se k těmto analogiím vrátíme.

Nezávislost

Zatím jsme se dozvěděli o slučitelnosti a neslučitelnosti náhodných událostí. Nyní je třeba rozlišit ještě závislé a nezávislé náhodné události. Nezávislost je jeden z klíčových pojmů pravděpodobnosti, proto je třeba se s ním důkladně seznámit. V principu jde o velmi jednoduchou záležitost – náhodné události BA, s nenulovými pravděpodobnostmi

)(),( BPAP prohlásíme za nezávislé, pokud pravděpodobnost jejich společného nastoupení je rovna součinu jejich pravděpodobností.

Společné nastoupení událostí BA, se nazývá průnik (logický součin). Symbolem pro průnik je ∩ . Pro nezávislé události tedy píšeme )()()( BPAPBAP =∩ . Nezávislost je žádoucí, ale zdaleka ne samozřejmou vlastností náhodných událostí. Závislost náhodných událostí komplikuje práci s náhodnými událostmi takovým způsobem, že se tomuto případu důsledně vyhneme.

Pomůckou pro pochopení principu nezávislosti náhodných událostí je tzv. výběr s opakováním. Ten můžeme charakterizovat tak, že po každém tahu zamícháme vybraný objekt zpět mezi ostatní. Vybíráme tedy stále ze stejné množiny objektů, každý objekt může být vybrán libovolněkrát a počet tahů, které lze uskutečnit, je nekonečný (vybrat můžeme větší počet objektů, než ze kterých vybíráme). Opakem této strategie výběru je výběr bez opakování, jehož výsledky jednotlivých tahů jsou závislé náhodné události.

28

Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Uveďte příklady jistých, nemožných a náhodných událostí ze svého oboru.

2. Co označují symboly AI ø,, ?

3. Na obrázku je znázorněn tzv. Vennův diagram pro slučitelné události BA, . Celá vy-barvená část představuje nastoupení nejméně jedné (libovolné) z obou událostí.

Podle tohoto vzoru sestrojte Vennovy digramy pro

a) stejnou situaci, ovšem pro případ neslučitelných události BA, , b) případ, kdy událost A je částí události B , c) opačné události AA, (vyšrafujte událost A ), d) společné nastoupení událostí BA, , e) nastoupení právě jedné (libovolné) ze slučitelných událostí BA, , f) nastoupení události B při nenastoupení události A ( BA, jsou slučitelné udá-

losti).

4. Do textu předchozího příkladu vhodně zakomponujte pojmy průnik a sjednocení udá-lostí. Jak s uvedenými pojmy souvisí logický součet a logický součin?

5. Ke kterému bodu příkladu 3 se vztahuje výrok o dvojici neslučitelných událostí, je-jichž sjednocením je I (říkáme, že tvoří úplnou skupinu – pozor, důležitý pojem)?

6. Vysvětlete význam symbolů ∩∪⊂ ,, .

7. Doplňte příklad 3 o Vennův diagram, kdy BA⊂ a současně AB ⊂ .

8. Tvrdím, že z neslučitelnosti událostí BA, automaticky plyne i neslučitelnost událostí k nim opačných ( BA, ). Při hledání odpovědi na tuto otázku sestrojte dva Vennovy diagramy. Jeden pro případ, že události BA, netvoří úplnou skupinu (viz úkol 5) a druhý, pokud úplnou skupinu tvoří. Vaše zjištění můžete zobecnit.

9. Rekapitulujte vlastnosti pravděpodobnosti.

10. Jsou dány dvě nezávislé události BA, s pravděpodobnostmi 4,0)(7,0)( == BPAP .

Určete pravděpodobnosti )(),(),(),( BAPBAPBAPBAP ∩∩∩∩ . V případě nezá-vislosti platí, že pokud jsou události BA, nezávislé, jsou automaticky nezávislé i udá-losti k nim opačné.

11. Tvrdím, že neslučitelnost dvojice náhodných událostí vylučuje jejich nezávislost (musí být závislé). Mám pravdu? Jak to dokážeme?

12. Podle vzoru praktické jistoty interpretujte princip praktické nemožnosti náhodné udá-losti. Najděte příklady (jednoduché, ze života) pro oba principy.

13. Tvrdím, že pojem riziko označuje vždy určitý problém či neúspěch. Mám pravdu?

14. Charakterizujte vztah mezi relativní četností a (statistickou) pravděpodobností.

15. Podle vzoru výběru s opakováním popište postup výběru bez opakování. Najděte příklady (jednoduché, ze života) na oba případy výběru.

A

B

29

2.2 Náhodná veličina V našem výkladu základů pravděpodobnosti je náhodná veličina naprosto klíčovým

pojmem. Proto se budeme snažit se jí věnovat podstatně podrobněji, než jsme předvedli v předchozím odstavci věnovaném náhodným událostem. Co zůstaneme čtenáři dlužni, je její exaktní definice, což jsme již avizovali v úvodu kapitoly o pravděpodobnosti. Přirozeně navazujícím pojmem je rozdělení pravděpodobnosti náhodné veličiny, které můžeme inter-pretovat jako jednu (důležitou) dílčí definicí pravděpodobnosti (vzpomeňme na dříve zmíně-nou statistickou pravděpodobnost jako jednu z jejích dílčích definicí). Současně připomínáme pojem rozdělení (relativních) četností frekventovaný v popisné statistice a to, že jsme v před-chozím odstavci pravděpodobnost interpretovali jako stabilizovanou relativní četnost.

Pojem náhodné veličiny O náhodné veličině budeme jednoduše hovořit tehdy, je-li přirozené výsledek experi-mentu vyjádřit číselně. Náhodné veličiny označujeme velkými písmeny z konce abecedy. Přednost má písmeno X . Veličina X se v náhodném experimentu realizuje v předem ne-známé hodnotě x . To je důvod, proč se hovoří zcela rovnocenně o hodnotách nebo realizacích náhodných veličin.

Náhodnou událost slovně vyjádřenou jako „padnutí šestky“ při hodu hrací kostkou můžeme interpretovat tak, že náhodná veličina X , kterou je počet padnutých ok, se při hodu kostkou realizovala v hodnotě 6=x .

Vůbec nejjednodušším způsobem zavedení náhodné veličiny je náhodné události A s pravděpodobností pAP =)( přiřadit hodnotu 1=x pokud nastala a hodnotu 0=x pokud nenastala (nastala opačná událost A s pravděpodobností pAP −= 1)( ). Toto je vůbec nejjednodušší možná náhodná veličina nazývaná nula–jedničková nebo alternativní náhodná veličina. Jako příklad můžeme uvést to, zda v určitém časovém intervalu nastala nebo nenastala porucha nějakého zařízení. Použití nula–jedničkové náhodné veličiny je ovšem podstatně širší. Lze bez nadsázky říci, že (samozřejmě se ztrátou informace) lze jakoukoli situaci modelovat pomocí nula–jedničkové veličiny, stejně jako lze výsledek jakéhokoli experimentu nejjednodušším způsobem vyjádřit tak, že náhodná událost A buď nastala nebo nenastala, protože nastala opačná náhodná událost A .

Všimněme si, že tato veličina nabývá pouze dvou (to není důležité) izolovaných hodnot (to je naopak klíčové). Shodou okolností jde v tomto případě o nezáporná celá čísla. I když v tomto případě je výskyt realizací náhodné veličiny na oboru celých nezáporných čísel (tj. ,...2,1,0 ), případně přirozených čísel (tj. ,...3,2,1 ) poměrně typický, je pro tento typ náhodné veličiny rozhodující právě izolovanost jejích hodnot v oboru reálných čísel. Náhod-ná veličina nabývající nejméně dvou izolovaných hodnot v oboru reálných čísel se nazývá diskrétní náhodná veličina. Naproti tomu náhodná veličina nabývající libovolné reálné hodno-ty z celého oboru reálných čísel nebo z nějaké jeho části (např. 1;0,0 ∈≥ xx apod.) je spo-jitou náhodnou veličinou. V zápětí poznáme, že spojitost náhodné veličiny přináší určité ma-tematické problémy, které se diskrétních náhodných veličin netýkají.

Pravděpodobnostní funkce diskrétní náhodné veličiny Jak jsme již uvedli, pravděpodobnostní chování náhodné veličiny je definováno

prostřednictvím rozdělení pravděpodobnosti. V případě diskrétní náhodné veličiny X je pro každé reálné x definována pravděpodobnost )( xXP = , tj. že diskrétní náhodná veličina se realizuje právě v hodnotě x. Tato pravděpodobnost je pro některá x nulová, pro některá nenulová. Značíme ji )( xP a nazýváme ji pravděpodobnostní funkce. Tedy )()( xXPxP == .

30

Pravděpodobnostní funkce je pravděpodobnost, má její vlastnosti, které jsou poměr-ně jednoduché a zřejmé:

• 1)(0 ≤≤ xP (její hodnoty jsou normovány na intervalu od nuly do jedné),

• ∑ =x

xP 1)( (součet jejích hodnot přes všechna x je roven jedné – jde o pravdě-

podobnost jisté události I ).

Pravděpodobnostní funkce může být formálně vyjádřena třemi rovnocennými způ-soby: vzorcem pro výpočet pravděpodobností )( xXP = , tabulkou nenulových hodnot

)( xXP = , grafem na jehož vodorovné ose jsou vynesena x pro která jsou )( xXP = nenulové a hodnoty funkce jsou vyneseny na svislé ose. Zpravidla se využívá úsečkový (tzv. hůlkový) graf. Tato vyjádření dokumentujeme na jednoduchém smyšleném příkladu.

Příklad na rozdělení pravděpodobnosti diskrétní náhodné veličiny (první část) Diskrétní náhodná veličina X má pravděpodobnostní funkci danou vzorcem

⎪⎩

⎪⎨⎧ −=

−=

jinak0

1,01 pro15

5)( ,x x

xP

Slůvko „jinak“ znamená, že pro jakékoli jiné než vyjmenované realizace x je hodnota pravděpodob-nostní funkce nulová.

Tabulka vypočtených hodnot pravděpodobnostní funkce

x –1 0 1 Součet)( xP 0,400 0,333 0,267 1,000

Zde se můžeme přesvědčit, že funkce splňuje výše uvedené vlastnosti pravděpodobnostní funkce. Jednička je pravděpodobnost jisté události. Náhodná veličina se s jistotou realizuje jako jedna z hodnot –1, 0, 1.

Úsečkový graf pravděpodobnostní funkce

Je zřejmé, že pro spojitou náhodnou veličinu není pravděpodobnostní funkce definována. Na každé sebemenší části oboru reálných čísel leží nekonečně mnoho realizací náhodné veličiny. Na každou z těchto realizací připadá tedy nekonečně malá část pravděpo-dobnosti jisté události. Náhodná veličina se ovšem v některé hodnotě realizovat musí – ho-

x

P(x)

31

voří se o paradoxu nulové pravděpodobnosti. Je zřejmé, že rozdělení pravděpodobnosti spojité náhodné veličiny je třeba vyjádřit jiným způsobem.

Hustota pravděpodobnosti spojité náhodné veličiny Problém spojité náhodné veličiny je natolik složitý, že bude vhodné přiblížit ho nejprve na zjednodušujícím příkladu. Představme si, že náhodná veličina X může nabýt libovolné z nekonečně mnoha reálných hodnot na intervalu reálných čísel βα ;∈x a přijměme zjed-nodušující předpoklad, že realizace náhodné veličiny je na tomto intervalu všude stejně možná. To, že náhodná veličina se realizuje na jednotce uvedeného intervalu, měří hustota pravděpodobnosti (vzpomeňme četnostní hustotu intervalového rozdělení četností v popisné statistice!) a je v tomto zjednodušujícím případě na celém intervalu konstantní. Z jednotko-

vé pravděpodobnosti jisté události tedy na jednotku délky intervalu připadá αβ −

1 . Na kaž-

dou z polovin výše uvedeného intervalu připadá pravděpodobnost 0,5. Na každou ze čtvrtin (desetin atd.) připadá pravděpodobnost 0,25 (0,10 atd.). Na každou jednotlivou hodnotu intervalu pak připadá nekonečně malá pravděpodobnost. To se týká i obou krajních bodů, proto nezáleží na tom, zda do intervalu patří nebo nepatří: )()( βαβα <<=≤≤ XPXP . Toto platí pouze pro spojitou náhodnou veličinu. U diskrétní náhodné veličiny k této rovnosti může dojít pouze náhodou (konkrétně v tomto případě jen pokud 0)()( ==== βα XPXP )!

Hustota pravděpodobnosti )(xf spojité náhodné veličiny X může být vyjádřena vzorcem nebo graficky. Tabulkové vyjádření není vhodné. Grafem hustoty pravděpodobnosti je na intervalu možných hodnot náhodné veličiny spojitá čára. Ve výše uvedeném (netypic-kém, zjednodušeném) příkladě by na intervalu βα; šlo o rovnoběžku s osou náhodné ve-

ličiny ve vzdálenosti αβ −

1 . Mimo tento interval by bylo 0)( =xf . K vlastnostem hustoty

pravděpodobnosti se vrátíme až probereme tzv. distribuční funkci.

Přestože demonstrativní příklad vypadá až příliš jednoduše (díky předpokladu stejné možnosti realizace náhodné veličiny), ve vhodném okamžiku se k němu podrobněji vrátíme a uvidíme, že zdaleka nejde o nicotnou záležitost.

Distribuční funkce Protože je nepohodlné používat různé nástroje pro rozdělení pravděpodobnosti obou typů náhodných veličin, je vhodné uvažovat o společném nástroji, kterým je distribuční funkce náhodné veličiny (lhostejno zda diskrétní nebo spojité).

Distribuční funkce )(xF náhodné veličiny X je definována jako pravděpodobnost, že náhod-ná veličina nepřesáhne hodnotu x (realizuje se nejvýše v hodnotě x ) . Tj. )()( xXPxF ≤= (rozdíl oproti pravděpodobnostní funkci nepatrný, ovšem zcela zásadní!).

Distribuční funkci vyjadřujeme vzorcem, graficky a v případě diskrétní veličiny také tabulkou.

Distribuční funkce diskrétní náhodné veličiny vzniká kumulací (postupným načítáním) hodnot pravděpodobnostní funkce. Nyní se vrátíme k našemu smyšlenému příkladu diskrétní náhodné veličiny a vyjádříme distribuční funkci tabulkou a graficky. Vyjádření vzorcem je pochopitelně možné, ale vzhledem k průběhu funkce (viz graf) poněkud komplikované. Proto se mu raději vyhneme.

32

Příklad na rozdělení pravděpodobnosti diskrétní náhodné veličiny (dokončení) Tabulka hodnot distribuční funkce diskrétní náhodné veličiny

x –1 0 1 Součet)(xF 0,400 0,733 1,000

Součet již jednou kumulovaných hodnot postrádá smysl (to víme už díky kumulativním četnostem). Ležatý křížek se používá jako smluvená značka pro tento účel.

Graf distribuční funkce diskrétní náhodné veličiny

Hodnota distribuční funkce pro každou hodnotu <x –1 je nulová. Pro každé 1≥x je 1)( =xF . Plné značky jsou hodnoty distribuční funkce z tabulky. Prázdné značky vyznačují nespojitost distribuční funkce. Každá diskrétní náhodná veličina má tento typický stupňovitý tvar distribuční funkce. Význam vodorovných šipek objasníme později.

Nyní by bylo vhodné vrátit se k bodovému třídění z první kapitoly a porovnat dosa-vadní poznatky o distribuční funkci s tím, co víme o relativních kumulativních četnostech. O relativní kumulativní četnosti můžeme potom ve světle stávajících poznatků hovořit jako o empirické (na základě konečného počtu pozorování vytvořené) distribuční funkci.

Vztah mezi distribuční funkcí a hustotou pravděpodobnosti spojité náhodné veličiny není triviální, neboť jde o záležitost spadající do vyšší matematiky. Ukažme tento problém na příkladu, který vzápětí zobecníme.

Náhodná veličina X nabývá hodnot z intervalu βα; , přičemž její výskyt na celém intervalu je všude stejně možný. Položíme 2−=α a 3=β . Hustota pravděpodobnosti této náhodné veličiny je

⎪⎩

⎪⎨⎧ −∈==

−=jinak0

3;2pro2,0511

)( xxf αβ (Tj. na intervalu βα; rovnoběžka s osou

náhodné veličiny ve vzdálenosti 0,2. Mimo interval βα; nabývá hodnoty 0.

Distribuční funkce )(xF měří velikost plochy pod čarou hustoty pravděpodobnosti. Na inter-valu βα; má tvar rostoucí přímky (např. na dvou pětinách intervalu, pro 0=x , je tato plocha rovna 0,4). Pro každé α<x je 0)( =xF a pro každé β>x 1)( =xF .

x

F(x)

33

Vztah obou funkcí je zřejmý z následujícího schematického obrázku.

Vztah hustoty pravděpodobnosti a distribuční funkce

Velikost plochy pod funkcí )(xf na intervalu 0;2− je rovna 0,4, stejně jako hodnota distribuční

funkce )(xF v bodě 0=x , tj. 4,0)0( =F . Význam šipek viz dále.

Distribuční funkce )(xF je tedy primitivní funkcí k hustotě pravděpodobnosti )(xf .

Hustota pravděpodobnosti )(xf je naopak diferenciální funkcí (vzhledem ke spoji-tosti obou funkcí na intervalu možných hodnot můžeme říci derivací) distribuční funkce )(xF .

Primitivní funkci k výše uvedené hustotě můžeme zapsat jako

⎪⎩

⎪⎨

>

−∈+

−<

=

3 pro1

3;2pro5

22pro0

)(

x

xxx

xF .

x

x

F(x)

f(x)

34

To, co platí pro náš velmi zjednodušující příklad, platí i obecně. Bohužel jde ve větši-ně případů o velmi složité vztahy, což v našem ukázkovém případě odpadá.

Nyní můžeme přistoupit k formulací vlastností distribuční funkce (přesněji vět o distri-buční funkci):

• Distribuční funkce je pravděpodobnost, její hodnoty jsou tedy normovány na inter-valu 1)(0 ≤≤ xF .

• Vzhledem k nezápornosti pravděpodobnosti je distribuční funkce funkcí neklesa-jící. Pro každé 12 xx > platí, že ).()( 12 xFxF ≥ Kromě toho je evidentní, že

)()()( 1221 xFxFxXxP −=≤≤ , přičemž u spojité náhodné veličiny nezáleží na tom, zda krajní body do intervalu patří nebo nepatří.

• V bodech ∞± pro distribuční funkci platí 1)(,0)( =+∞=−∞ FF . Z ukázkových grafů distribučních funkcí vyplývá, že distribuční funkce může těchto hodnot do-sáhnout daleko dříve než v nekonečnu. To ovšem na platnosti původního tvrzení nic nemění.

• Šipky na grafech distribučních funkcí demonstrují, že libovolného bodu na distri-buční funkci lze v případě spojité náhodné veličiny dosáhnout z levého i pravého okolí. U diskrétní náhodné veličiny to ovšem pro některé body distribuční funkce neplatí, protože jich lze dosáhnout pouze z pravého okolí. Proto s matematickou úsporností tvrdíme, že distribuční funkce je vždy alespoň zprava spojitá.

Ze vztahu mezi distribuční funkcí a hustotou pak vyplývají vlastnosti hustoty pravdě-podobnosti:

• Hustota pravděpodobnosti je derivací neklesající funkce a je proto nezáporná. Platí 0)( ≥xf . Žádné omezení pro její maximální hodnotu neexistuje.

• Integrál ∫+∞

∞−

=1)( dxxf , tj. pravděpodobnost jisté události. Plocha pod čarou hustoty

pravděpodobnosti je tedy vždy jednotková.

• Pomocí hustoty pravděpodobnosti vyjádříme pravděpodobnost, že náhodná veli-

čina je z intervalu 21 ; xx jako určitý integrál ∫ ≤≤=2

1

)()( 21

x

x

xXxPdxxf .

Vzhledem k tomu, že v budoucím výkladu se budeme zabývat především spojitými náhodnými veličinami, je třeba poznamenat, že náš příklad se poněkud vymyká obvyklému průběhu hustoty pravděpodobnosti a distribuční funkce. Typickým tvarem hustoty je sou-měrný nebo nesouměrný „kopeček“, přičemž odpovídající průběh distribuční funkce je eso-vitý (pravidelný nebo nepravidelný).

Určitá typická, důležitá a opakující se rozdělení pravděpodobnosti náhodných veličin se nazývají zákony rozdělení pravděpodobnosti. O některých z nich pojednáme později.

Nezávislost náhodných veličin

Podobně jako u náhodných událostí je i u náhodných veličin důležitý pojem nezá-vislost (opakem je závislost). Dvě diskrétní náhodné veličiny YX , prohlásíme za nezávislé, pokud jejich sdružená pravděpodobnostní funkce ),( yxP , jako funkce dvou proměnných, je rovna součinu pravděpodobnostních funkcí )()( yPxP ⋅ , z nichž každá je funkcí jedné proměnné. Funkce )(),( yPxP se v této souvislosti nazývají marginálními pravděpodob-

35

nostními funkcemi. Podobně pro dvě spojité náhodné veličiny je sdružená hustota pravděpo-dobnosti rovna součinu marginálních hustot, tj. )()(),( yfxfyxf ⋅= .

Stejný vztah v obou případech platí i pro sdružené a marginální distribuční funkce.

Nezávislost lze zobecnit na n-tici náhodných veličin nXXX ,...,, 21 .

Měření úrovně a variability náhodných veličin Úroveň a variabilitu náhodných veličin měříme pomocí charakteristik.

Charakteristikou úrovně náhodné veličiny je střední hodnota (pozor na nevhodné použití pojmu průměr!). Operátorem střední hodnoty náhodné veličiny X je )(XE .

Střední hodnota diskrétní náhodné veličiny X je ∑=x

xxPXE )()( , tj. součet součinů

(skalární součin) přes všechny možné realizace náhodné veličiny X .

Střední hodnota spojité náhodné veličiny X je ∫+∞

∞−

= dxxxfXE )()( . K jejímu určení je

tedy třeba ovládat alespoň základy integrálního počtu (ale mnohdy pouhé základy nestačí).

Charakteristikou variability náhodné veličiny je rozptyl (v tomto případě žádná pojmo-vá kolize nehrozí). Operátorem rozptylu náhodné veličiny X je )(2 XD .

Rozptyl náhodné veličiny je definován jako střední kvadratická odchylka kolem střed-ní hodnoty [ ]22 )()( XEXEXD −= , což můžeme upravit na ).()()( 222 XEXEXD −= Po dosazení za střední hodnoty dostáváme pro

• diskrétní náhodnou veličinu X rozptyl 2

22 )()()( ⎥⎦

⎤⎢⎣

⎡−= ∑∑

xx

xxPxPxXD ,

• spojitou náhodnou veličinu X rozptyl 2

22 )()()( ⎥⎦

⎤⎢⎣

⎡−= ∫∫

∞+

∞−

∞+

∞−

dxxxfdxxfxXD .

Kladný kořen druhé odmocniny )(2 XD je směrodatná odchylka (rovněž již známý po-jem) )(XD . Směrodatná odchylka se využívá jako charakteristika stability náhodné veličiny, zatímco střední hodnota se interpretuje jako její očekávaná hodnota.

Tento způsob výpočtu charakteristik nemusíme považovat za klíčový. V okamžiku, kdy začneme probírat jednotlivé zákony rozdělení, se seznámíme s alternativním (a řádově jednodušším) způsobem jejich stanovení pomocí tzv. parametrů rozdělení.

Při lineární transformaci náhodné veličiny ckXY += stanovíme střední hodnotu veli-činy Y jako cXkEYE += )()( , její rozptyl jako )()( 222 XDkYD = a směrodatnou odchyl-ku jako )()( XDkYD = .

Je-li náhodná veličina YXW ±= je střední hodnota )()()( YEXEWE ±= . Pokud jsou veličiny YX , nezávislé, je rozptyl )()()( 222 YDXDWD += (pozor na znaménko!). Pokud jsou veličiny YX , naopak závislé, je analogický vztah poněkud složitější.

36

Kvantily spojitých náhodných veličin Kvantily existují jak pro diskrétní, tak i pro spojité náhodné veličiny. Kvantily diskrét-

ních náhodných veličin (na rozdíl od spojitých) nebudeme využívat, takže o nich nehovoříme.

p–kvantilem či (100p procentním kvantilem) nazýváme takovou hodnotu spojité ná-hodné veličiny, pro kterou

• pxXPxF pp =≤= )()( ,

• ∫∞−

=px

pdxxf )( ,

kde )1;0(∈p je uživatelem předem zvolená pravděpodobnost. Pro 5,0=p se příslušný kvantil nazývá medián (rovněž známý pojem). Hodnoty kvantilů důležitých zákonů rozdělení bývají tabelovány, vzhledem k tomu, že jejich výpočet je až na výjimky poměrně pracný.

Postup určení p–kvantilu náhodné veličiny prostřednictvím distribuční funkce

Zvolíme hodnotu p a vedeme rovnoběžku s osou náhodné veličiny. V průsečíku s funkci )(xF spustíme kolmici na vodorovnou osu. Průsečíkem je p–kvantil náhodné veličiny.

Ořezání konců rozdělení

0≥X padá s jistotou do intervalu ∞;0 . Prakticky jistě (s pravděpodobností 0,98) padá do intervalu nesrovnatelně užšího.

Význam mediánu je v tom, že může posloužit jako alternativní charakteristika úrovně náhodné veličiny. Větší význam mají „okrajové“ kvantily (např. 1%, 95% apod. – vidíme, že zde poprvé pravděpodobnost uvádíme v procentech), které slouží k „ořezání“ konců rozdě-

px x

f(x)

x0,01 x0,99 x

0,98

pxF )(

37

lení. Zatímco celá plocha pod čarou hustoty pravděpodobnosti odpovídá (absolutní) jistotě, po ořezání konců rozdělení (např. v hodnotě 1% a 99% kvantilu, kdy zůstává 98 % plochy, tj. pravděpodobnost 0,98) jde o nám již známou jistotu praktickou.

Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Uveďte příklady diskrétních a spojitých náhodných veličin ze svého oboru. Vyjádřete

se k oboru možných hodnot (realizací) každé takové veličiny a pokuste se o její na-hrazení nula–jedničkovou veličinou.

2. Porovnejte z hlediska spojitosti naměřených hodnot analogová a digitální měřidla.

3. Jak nazvete rozdělení stabilizovaných relativních četností/relativních kumulativních četností při bodovém a intervalovém třídění?

4. Kterou z dále uvedených veličin (znáte její možné realizace) byste zařadili mezi disk-rétní

• náhodná veličina se realizuje jako libovolná hodnota z oboru přirozených čísel, • náhodná veličina se realizuje jako libovolná hodnota z intervalu 45 10;10 −− ,

• náhodná veličina se realizuje výhradně v hodnotách –0,5; 0; 1; 3,75.

5. Uveďte názvy a vlastnosti funkcí )(),(),( xFxfxP . Současně uveďte pro jakou ná-hodnou veličinu (diskrétní, spojitá) jsou určeny. Která z těchto funkcí není pravdě-podobnost (její hodnoty neleží v intervalu 1;0 )?

6. Rozeberte tvrzení, že distribuční funkce je vždy alespoň zprava spojitá.

7. Pro náhodnou veličinu X platí )93()93( <<−≠≤≤− XPXP . O jaký typ náhodné veličiny jde?

8. Doplňte tabulku hodnot pravděpodobnostní a distribuční funkce diskrétní náhodné veličiny z ukázkového příkladu o případy (sloupce) pro 5,2;5,1;5,0;4 ===−= xxxx .

9. Vyberte jaký obor hodnot přísluší hustotě pravděpodobnosti spojité náhodné veličiny

• +∞≤≤∞− )(xf , 1)(1 ≤≤− xf , 1)(0 ≤≤ xf Pokud se vám nepodařilo nic vybrat, uveďte správnou odpověď.

10. Jakých hodnot nabývá distribuční funkce v bodech ∞± ?

11. Jaké hodnoty nabývá ∫+∞

∞−

dxxf )( . Kde byste na grafu funkce )(xf tuto hodnotu hle-

dali? Pravděpodobnost jaké události udává?

12. V jaké souvislosti se setkáváme s pojmy sdružené a marginální distribuční funkce (pravděpodobnostní funkce, hustoty)?

13. I když jsme uvedli, že to není zvlášť důležité, pokuste se vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro ukázkovou diskrétní náhodnou veličinu.

14. Pokuste se provést tento úkol pro ukázkovou spojitou náhodnou veličinu (rozšiřte o určení mediánu).

15. Porovnejte srovnatelné vlastnosti aritmetického průměru a rozptylu s vlastnostmi střední hodnoty a rozptylu náhodné veličiny.

16. Znáte 1350)(,600)(,190)(,100)( 22 ==== YDXDYEXE . Uveďte hodnoty kons-tant použité při transformaci ckXY += .

38

17. Je dáno YXW −= . Znáte 300)(,200)(,45)(,15)( 22 ==== YDXDYEXE . Vypoč-těte )(),(),( 2 WDWDWE . Jaký vztah mezi veličinami YX , musí být, abychom mohli bez dalšího vypočítat rozptyl )(2 WD ?

18. Jaký vztah je v úkolu 16 mezi 50,050,0 a yx ?

19. Tvrdím, že kvantily jsou definovány výhradně pro spojitou veličinu. Mám pravdu?

20. Zařaďte do kontextu výkladu pojem medián (tj. jaký má význam, kam patří, v jaké souvislosti se o něm hovoří).

21. Pravděpodobnost prakticky jisté události je určena na 0,95. V jakých kvantilech je třeba (symetricky z pohledu plochy pod křivkou) ořezat konce rozdělení?

22. V návaznosti na úkol 21 určete, kolik případů, kdy náhodná událost (tj. padnutí rea-lizace náhodné veličiny mezi oba kvantily) nenastane, připadá na každých sto ná-hodných experimentů. Lze to říci přesně (tj. pro zcela konkrétní stovku experimentů)?

39

2.3 Zákony rozdělení diskrétních náhodných veličin Určitá typická, opakující se a prakticky významná rozdělení pravděpodobnosti náhod-

ných veličin (diskrétních i spojitých) se nazývají zákony rozdělení. Náhodné veličiny, řídící se stejným zákonem rozdělení, se vzájemně liší (nebo naopak shodují) pouze v hodnotách parametrů rozdělení.

Binomické rozdělení

Diskrétní náhodná veličina X , jejíž hodnoty x představují počet realizací náhodné události A v n nezávislých opakovaných pokusech a mohou tedy nabýt hodnot

nx ,...,2,1,0= , má binomické rozdělení. Pravděpodobnost uskutečnění náhodné události v jednom pokusu označíme jako θ=)(AP (malé řecké písmeno theta). Binomické rozdělení se používá v případě, že počet pokusů n (nezáporné celé číslo) není příliš velký a pravdě-podobnost 10 << θ nenabývá hodnoty velmi blízké nule nebo jedné. Typické je použití binomického rozdělení v situacích interpretovatelných jako výběr s opakováním.

Pravděpodobnostní funkce binomického rozdělení

⎪⎩

⎪⎨⎧

=−⎟⎟⎠

⎞⎜⎜⎝

⎛=

jinak0

,...,2,1,0pro)1()( nxxn

xPxnx θθ

⎟⎟⎠

⎞⎜⎜⎝

⎛xn

je kombinační číslo (čteme „n nad x“), které vyčíslíme jako!)!(

!xxn

n−

. Vykřičníkem

značíme faktoriál, tj. součin všech přirozených čísel až po dané číslo. Pro nulu 1!0 = .

Vzorec se nazývá Bernoulliův a konstanty θ,n jsou parametry binomického rozdělení. V hodnotách parametrů se jednotlivá binomická rozdělení vzájemně liší nebo naopak shodují. Funkci )(xP graficky znázorníme zpravidla úsečkovým (hůlkovým) grafem. Distribuční funkce )(xF vzniká kumulací (postupným načítáním) hodnot pravděpodobnostní funkce. Její vzorec neuvádíme. Grafické znázornění )(xF má typický stupňovitý průběh.

Binomické rozdělení označujeme symbolem [ ]θ;nBi . Pro toto rozdělení (známe-li hodnoty obou parametrů) je střední hodnota θnXE =)( a rozptyl )1()(2 θθ −= nXD .

Laboratoř má tři ( )3=n měřicí přístroje, z nichž každý v jistém (dlouhém) časovém intervalu pracuje bezchybně s pravděpodobností 8,0=θ . Jde o situaci, kterou lze inter-pretovat jako nezávislé opakované pokusy (pokud vyloučíme situaci, že např. všechny pří-stroje současně selžou v důsledku přepětí), můžeme proto využít binomické rozdělení.

Sestavíme tabulku hodnot pravděpodobnostní a distribuční funkce a vypočteme střední hodnotu a směrodatnou odchylku počtu bezchybně současně pracujících přístrojů. Hodnoty v tabulce získáme dosazením do vzorce pravděpodobnostní funkce a následně pro-vedeme jejich kumulaci.

x 0 1 2 3)(xP 0,008 0,096 0,384 0,512)(xF 0,008 0,104 0,488 1,000

Např. 384,0)8,01(8,023

)2( 232 =−⎟⎟⎠

⎞⎜⎜⎝

⎛= −P , 488,0)2()1()0()2( =++= PPPF atd.

Grafické znázornění obou funkcí ponecháváme na čtenáři.

40

Všimněte si, že situaci, kdy k dispozici nebude ani jeden měřicí přístroj 008,0)0( =P zřejmě prohlásíme za událost prakticky nemožnou.

Střední („očekávaná“) hodnota počtu bezchybně pracujících přístrojů 4,28,03)( =⋅=XE .

Směrodatná odchylka (míra stability tohoto stavu) 693,0)8,01(8,03)( =−⋅⋅=XD .

Alternativní rozdělení Alternativní rozdělení je rozdělením nula–jedničkové (alternativní) náhodné veličiny. Toto rozdělení lze interpretovat jako zvláštní příklad binomického rozdělení pro jediný pokus ( )1=n . Můžeme ho tedy označit jako [ ]θ;1Bi , kde 10 << θ je jediným (pohyblivým) parametrem tohoto rozdělení.

Střední hodnota θ=)(XE a rozptyl je roven )1()(2 θθ −=XD .

Poissonovo rozdělení Toto rozdělení je dalším zvláštním případem binomického rozdělení, tentokrát pro počet pokusů rostoucí nade všechny meze ∞→n( ) a pravděpodobnost nastoupení náhod-né události blížící se nule ( 0→θ ). Jde o rozdělení tzv. vzácných událostí. Součin

0>= λθn (malé řecké písmeno lambda) je kladné reálné číslo.

Pravděpodobnostní funkce !

)(x

exPxλλ−

= pro každé ,...2,1,0=x (celé nezáporné

číslo). Symbol !x je opět faktoriál a ...71828,2=e je základ přirozených logaritmů.

Lambda je tak jediným parametrem tohoto rozdělení, které označujeme symbolem [ ]λPo . Pro Poissonovo rozdělení je λ== )()( 2 XDXE .

Pro Poissonovo rozdělení se zpravidla uvádějí dvě vlastnosti:

• Mají-li nezávislé náhodné veličiny nXXX ,...,, 21 Poissonova rozdělení [ ]iPo λ pro

ni ,...,2,1= , má jejich součet rozdělení ⎥⎦

⎤⎢⎣

⎡∑=

n

iiPo

1

λ .

• Má-li počet výskytů nějaké události za jednotku času rozdělení [ ]λPo , pak v ča-sovém intervalu o délce t jednotek má rozdělení [ ]λtPo .

I když způsob, kterým se toto rozdělení zavádí, vyhlíží poněkud exoticky, lze Pois-sonovo rozdělení označit za nejdůležitější zákon mezi diskrétními rozděleními. Běžně se jím řídí počet událostí na jednotce plochy (objemu) nebo v časové jednotce. Typicky se tímto rozdělením vyjadřuje počet požadavků na obsluhu přicházejících za jednotku času. Jako obslužné zařízení si lze představit telefonní ústřednu, bankomat, procesor počítače, síťovou tiskárnu a množství dalších zařízení určených k obsluze nepravidelně (náhodně) přichá-zejících požadavků. Tok přicházejících požadavků se v tomto případě označuje jako Poisso-novský proud jevů a parametr λ se nazývá intenzitou tohoto proudu. Typické je to, že počet budoucích požadavků nezávisí na počtu požadavků předchozích.

Jakou kapacitu musí mít obslužné zařízení, má-li počet požadavků na obsluhu rozdělení [ ]3Po (tj. střední hodnota počtu požadavků za jednotku času 3)( =XE ), aby bylo

41

schopno uspokojit nejméně 90 % požadavků. Požadavek je buď okamžitě uspokojen (pokud je kapacita zařízení dostatečná) nebo odmítnut (nevytváří se fronta čekajících požadavků).

Tuto úlohu můžeme interpretovat jako nalezení takové hodnoty x , pro kterou hodnota distri-buční funkce )(xF tohoto rozdělení poprvé překročí hodnotu 0,9. K tomu účelu opět sestaví-me tabulku hodnot pravděpodobnostní a distribuční funkce, jako tomu bylo u binomického rozdělení.

x 0 1 2 3 4 5 6 … )(xP 0,050 0,149 0,224 0,224 0,168 0,101 0,050 … )(xF 0,050 0,199 0,423 0,647 0,815 0,916 0,956 …

Např. 224,0!33)3(

33

==−eP , 647,0)3()2()1()0()3( =+++= PPPPF .

Grafické znázornění obou funkcí ponecháváme opět na čtenáři.

Z hodnot v tabulce vyplývá, že příchod nejvýše pěti požadavků na obsluhu má pravděpodob-nost větší než 0,9. Zařízení by tedy mělo mít kapacitu na obsluhu tohoto počtu požadavků. Zbývajících téměř 10 % požadavků nebude obslouženo.

V úloze jsme neřešili racionální využití vypočtené kapacity. Jen pro zajímavost – „zrcadlovou“ úlohou je úloha o nalezení takové kapacity zařízení, aby nevyužití této kapacity nepřesáhlo zadané procento bez ohledu na podíl odmítnutých požadavků na obsluhu. Ve skutečnosti je úloha o kapacitě obslužného zařízení hledáním kompromisu mezi racionálním využitím této kapacity při minimalizaci podílu požadavků, jejichž obsluha byla odmítnuta. Tím bychom ovšem opustili půdu počtu pravděpodobnosti a dostali bychom se do problematiky teorie hromadné obsluhy, kde se operuje takovými pojmy jako počet kanálů obsluhy, rozdě-lení doby obsluhy, fronta čekajících požadavků a režimy frontové disciplíny. To je nepochyb-ně velmi zajímavé, ale mimo náš příběh.

Poissonovým rozdělením se běžně aproximuje (nahrazuje) binomické rozdělení v pří-padě, kdy 30>n a kdy pravděpodobnost θ vybočí z intervalu 9,01,0 <<θ .

Další zákony rozdělení diskrétních náhodných veličin Zde pouze vyjmenujeme a stručně charakterizujeme některé zákony rozdělení disk-

rétních náhodných veličin, které jsou zpravidla uváděny, ovšem v podrobnějších příručkách než je naše:

• Diskrétní rovnoměrné rozdělení – náhodná veličina má konečný počet realizací, z nichž každá má stejnou pravděpodobnost (toto rozdělení má např. náhodná veličina, kterou je počet ok padlých na hrací kostce).

• Hypergeometrické rozdělení – náhodnou veličinou je počet výskytů náhodné události v n závislých opakovaných pokusech, typicky při výběru bez opakování.

• Geometrické rozdělení – náhodnou veličinou je počet nezávislých pokusů, které je třeba vykonat, aby se realizovala určitá náhodná událost (třeba počet součás-tek, které je třeba proměřit, abychom v posledním pokusu nalezli jedinou vadnou).

• Záporně binomické rozdělení – náhodnou veličinou je počet nezávislých pokusů, které je třeba vykonat, aby se realizoval zadaný počet náhodných událostí (větší než jedna) – pokud bychom z nějakého důvodu například potřebovali nalézt celkem tři vadné součástky.

42

• Multinomické rozdělení – pro nezávislé opakované pokusy, u nichž se uvažuje úplná skupina neslučitelných událostí kAAA ,...,, 21 s pravděpodobnostmi nastou-pení v jednom pokusu rovnými kθθθ ,...,, 21 (zobecnění binomického rozdělení pro

2=k , tj. s dvojicí opačných událostí AA, s pravděpodobnostmi θθ −1, ).

Témata pro tutoriál (resp. pro cvičení na prezenčním studiu)

1. Najděte pravděpodobnost, že náhodná veličina s rozdělením [ ]5,0;10Bi nabude ne-nulové hodnoty. Tip: Přejděte na opačnou událost.

2. Složitější verzí tohoto úkolu je nalézt minimální počet pokusů, aby s předem zvole-nou pravděpodobností (řekněme 0,95) nabyla náhodná veličina nenulové hodnoty. Pravděpodobnost úspěchu v jednom pokusu zvolíme jako 2,0=θ .

3. Určete střední hodnotu počtu správných odpovědí v testu s 10 nezávislými úkoly, při-čemž je dána pravděpodobnost 0625,0)10( =P (že všech 10 odpovědí bude správ-ných). I když se podobné příklady vyskytují poměrně často, je třeba si uvědomit, že se mlčky předpokládá stejná připravenost účastníků a stejná obtížnost odpovědí na všechny otázky (= konstantní pravděpodobnost úspěchu v jednom pokusu).

4. Zůstaňme ještě chvíli u této problematiky a sestavme tabulku hodnot pravděpodob-nostní a distribuční funkce a stanovme střední hodnotu a směrodatnou odchylku počtu správných odpovědí v testu o 5 otázkách nabízejících vždy čtyři možné odpo-vědi, z nichž právě jedna (náhodná) je správná. Řešitel používá metodu „ryzího od-hadu“ (tj. o problematice nic neví a volí odpovědi náhodně). Doslova „uměním“ je pak dopadnout hůře, než odpovídá metodě ryzího odhadu!

5. Nakreslete graf pravděpodobnostní a distribuční funkce náhodné veličiny s rozděle-ním [ ]5,0;1Bi . Určete její střední hodnotu,rozptyl a směrodatnou odchylku.

6. Tvrdím, že náhodná veličina z úkolu 5 má maximální rozptyl ze všech možných nula–jedničkových veličin. Můžete toto tvrzení dokázat? Tip: Jde o nalezení extrému funk-ce.

7. Počet požadavků zaslaných na helpdesk během hodiny je náhodná veličina se střed-ní hodnotou 2)( =XE . Sestavte tabulku hodnot pravděpodobnostní a distribuční funkce pro několik prvních hodnot x a znázorněte obě funkce graficky.

8. Najděte rozdělení této náhodné veličiny, pokud časovou jednotkou je osmihodinová pracovní směna. Určete pravděpodobnost, že v tomto časovém intervalu bude na helpdesk zasláno právě osm požadavků.

9. Počet poruch nového zařízení za směnu se řídí rozdělením [ ]3,0Po . Souběžně pracující dosluhující zařízení vykazuje za směnu počet poruch řídící se rozdělením

[ ]8,1Po . Sestavte tabulku hodnot pravděpodobnostní a distribuční funkce pro součet obou náhodných veličin (tj. celkový počet poruch obou zařízení za směnu). Opět stačí jen pro několik málo hodnot x .

10. Hranici praktické nemožnosti vymezíme pravděpodobností 0,05. Pro jakou hodnotu parametru λ můžeme výskyt hodnoty 0=x prohlásit za prakticky nemožný?

11. Pravděpodobnost úspěšného vyřešení úkolu je 0,8. Určete pravděpodobnost, že úkol bude správně vyřešen na první, druhý, třetí pokus (geometrické rozdělení, jednotlivé pokusy tudíž považujeme za nezávislé, i když „od chyb se člověk učí“).

43

2.4 Zákony rozdělení spojitých náhodných veličin Určitá typická, opakující se a prakticky významná rozdělení pravděpodobnosti se

rovněž v případě spojitých náhodných veličin nazývají zákony rozdělení. Náhodné veličiny, řídící se stejným zákonem rozdělení, se vzájemně liší (nebo naopak shodují) pouze v hod-notách parametrů rozdělení. Spojitých rozdělení existuje velký počet, my uvedeme jen něko-lik málo nejdůležitějších. V případě potřeby je nutné se uchýlit k sofistikovanější literatuře, než kterou představuje tato informativní učební pomůcka. Nicméně některé nezbytné zákony rozdělení spojitých náhodných veličin zavedeme ještě v další kapitole věnované statistickým odhadům a testům hypotéz.

Rovnoměrné spojité rozdělení

Spojitá náhodná veličina X může nabýt libovolné reálné hodnoty na intervalu reál-ných čísel βα ; , přičemž její realizace na celém intervalu je stejně možná. Tato veličina má rovnoměrné spojité rozdělení.

Hustota pravděpodobnosti je dána jako ⎪⎩

⎪⎨⎧ ≤≤

−=jinak0

pro1)( βα

αβxxf . Primitivní

funkcí k )( xf je distribuční funkce a

xxF−−

α)( na intervalu βα ≤≤ x . Konstanty βα , , ve

kterých se tyto veličiny vzájemně liší (nebo naopak shodují), jsou parametry rovnoměrného spojitého rozdělení.

Se znalostí parametrů lehce určíme 2

)( βα +=XE (této hodnoty nabývá i medián

tohoto rozdělení) a 12

)()(2

2 αβ −=XD . p–kvantilem je )( αβα −+= px p .

Toto rozdělení je velmi jednoduché (zdá se, že až příliš), nicméně jeho použití je vel-mi významné, např. v oblasti digitálních měření.

Představme si digitální měřicí přístroj, konkrétně např. digitální hodiny, které ukazují správný čas s přesností na celé minuty. Rozdíl mezi zobrazenou hodnotou a neznámým přesným časem (vyjádřeným s přesností na sekundy a jejich zlomky, které přístroj neukazuje) je náhodná veličina s rovnoměrným rozdělením na intervalu ( )60;0 (u spojité veličiny nezá-leží na tom, zda krajní body do intervalu patří nebo nepatří a navíc pro tyto krajní body budou hodiny ukazovat přesný čas). Úloha souvisí s tzv. nejistotou měření.

Hustota pravděpodobnosti této náhodné veličiny je na intervalu ( )60;0 ,601)( =xf , její

střední hodnota je 30)( =XE [s], její rozptyl 300)(2 =XD [s2] a její směrodatná odchylka 32,17)( =XD [s]. Medián má stejnou hodnotu jako střední hodnota. Např. 95% kvantilem je

5795,0 =x [s].

Zkontrolujte všechny výpočty podle vzorců, zapište korektně hustotu pravděpodob-nosti a distribuční funkci (tj. rovněž mimo interval ( )60;0 a obě funkce znázorněte graficky.

Rovnoměrné rozdělení má kromě uvedené vazby na nejistoty měření i řadu dalších aplikací. Používá se např. jako přibližné rozdělení, kdy o náhodné veličině víme jen to, že je spojitá, ale její zákon rozdělení neznáme. Tato úvaha je podložena tím, že jde o rozdělení s nízkou stabilitou a každé jiné skutečné rozdělení je zřejmě stabilnější (měřeno )( XD ).

44

Exponenciální rozdělení

Exponenciální rozdělení má spojitá náhodná veličina AX > (A je libovolné reálné číslo) s hustotou pravděpodobnosti

⎪⎩

⎪⎨⎧

>=

−−

Axpro

AxproexfAx

0

1)(

δ

δ ,

kde δ,A ( 0)>δ jsou parametry tohoto rozdělení. Pokud je náhodnou veličinou např. život-nost součástky podléhající tzv. „náhlé smrti“ (např. v důsledku náhodného přepětí elektrické sítě a podobných fatálních událostí), klade se 0=A a rozdělení má pak jediný parametr δ . Charakteristiky této náhodné veličiny jsou 22 )(,)( δδ == XDxE . Kvantily určujeme naleze-

ním hodnoty distribuční funkce (pro kladné xp) kde pexFpx

=−=−δ1)( .

Funkce udávající )(1)( xFxXP −=> se nazývá funkce přežití. Tato funkce má velký význam pro modelování procesů vymírání (např. zmíněných součástek „náhlou smrtí“).

Hustota pravděpodobnosti exponenciálního rozdělení má pro Ax > monotónní kle-

sající průběh. Její počátek je v bodě δ1 (může nabýt hodnoty větší než jedna!) a s rostoucím

x asymptoticky klesá k ose náhodné veličiny. Distribuční funkce má naproti tomu monotónně rostoucí průběh asymptoticky se blížící hodnotě jedna.

Nechť má okamžik náhlé smrti elektronické součástky exponenciální rozdělení s paramet-rem 5,0=δ [tis. h].

• Určíme s jakou pravděpodobností nepřežije náhodně vybraná součástka střední dobu náhlé smrti, tj. 5,0)( === δXEx .

632,0368,011 5,05,0

=−=−−

e , jinak řečeno, očekáváme, že střední dobu náhlé smrti nepřežije 63,2 % všech součástek,

• Určíme dobu, kterou přežije střední dobu náhlé smrti 10 % všech součástek.

10,05,010,0

=−x

e z čehož 10,010,0ln5,0 x−= a 151,110,0 =x , tj. 10 % všech součástek může přežít dobu života 1151 [h].

Pro tento konkrétní příklad znázorněte graficky průběh hustoty pravděpodobnosti, distribuční funkce a funkce přežití a znázorněte na nich vypočtené hodnoty.

Exponenciální rozdělení má úzkou souvislost s rozdělením Poissonovým. Pokud např. počet požadavků za jednotku času má rozdělení [ ]λPo , pak časové intervaly mezi jednot-livými požadavky mají exponenciální rozdělení s parametrem δ . Délka budoucích intervalů je při tom nezávislá na délce intervalů minulých.

Weibullovo rozdělení

Kromě „náhlé smrti“ dochází k ukončení životnosti součástek také z důvodu opotře-bení (v důsledku intenzivního mechanického pohybu, únavy materiálu, koroze apod.) a dále z důvodu přítomnosti skrytých vad. Univerzálním nástrojem pro modelování všech tří situací je Weilbullovo rozdělení.

45

Spojitá náhodná veličina X nabývající kladných hodnot má toto rozdělení, pokud hus-tota pravděpodobnosti

⎪⎩

⎪⎨⎧

>=⎟⎠⎞

⎜⎝⎛−−

jinak0

0pro)(1

xecxxf

cx

C

δ , kde 0)(, >cδ jsou parametry rozdělení, které se označuje

symbolem [ ]cW ;δ . Střední hodnotu a rozptyl Weilbullova rozdělení lze opět určit z para-

metrů. Vztahy jsou (pokud 11+

c není přirozené číslo) poměrně složité, proto je neuvádíme.

Mediánem je cx1

50,0 )2(lnδ= , vrchol grafu hustoty pravděpodobnosti (modus) má pro 0>c

souřadnici c

cc 1

)1( −δ .

Je-li 1=c , jde o zvláštní případ Weilbullova rozdělení [ ]1;δW – již zmíněné expo-nenciální rozdělení. Pro 1>c jde o délku života součástky podléhající opotřebení. Pro 1<c jde o délku života součástky se skrytou vadou.

Pravděpodobnost, že dojde k ukončení života v krátkém časovém intervalu ( )hxx +;

je rovna c

chcxδ

1−

.

Pro 1>c jde o rostoucí funkci x – pravděpodobnost poruchy součástky podléhající opotřebení (např. ložisko ventilátoru chladicí jednotky počítače) v čase roste.

Pro 1<c jde o klesající funkci x – čím déle je součástka v provozu, tím větší je prav-děpodobnost, že skrytou vadu nemá.

Ukázka několika hustot Weilbullových rozdělení pro různé hodnoty parametrů

Normální rozdělení Normální rozdělení spojité náhodné veličiny X , kde +∞<<∞− x , představuje zcela unikátní zákon rozdělení. Lze říci, že toto rozdělení vzniká

• Kdykoli se náhodná veličina utváří pod vlivem velkého počtu nezávislých činitelů, z nichž žádný nemá na výsledek rozhodující vliv (typicky ukazatele kvality pro-duktů).

[ ]9,0;2W

[ ]5,1;2W

[ ]1;2W

f(x)

x

46

• Součtem dostatečného počtu n nezávislých náhodných veličin nXXX ,...,, 21 , která mají libovolný zákon rozdělení (třeba každá jiný) s konečným rozptylem.

Podmínkami vzniku normálního rozdělení se zabývá řada matematických vět, které zde ovšem nebudeme uvádět. Tato problematika přesahuje stručný rámec této pomůcky a dá se dohledat v příslušné odborné literatuře.

Hustota pravděpodobnosti 2

2)(

21)( σ

μ

πσ

=x

exf , kde e,π jsou známé matematické

konstanty a 2,σμ (mí, sigma na druhou) jsou parametry tohoto rozdělení. Jejím grafem je známá matematická křivka – Gaussova křivka, která má symetrický zvonovitý průběh s vr-

cholem v bodě μ (souřadnice vrcholu je σ

μ 3989,0)( =f ). σ určuje vzdálenost inflexních

bodů od vrcholu křivky. Obě větve křivky se asymptoticky blíží k ose náhodné veličiny

Normální rozdělení (někdy se v této souvislosti používá pojem obecné normální roz-dělení) se označuje [ ]2;σμN ( μ je libovolné reálné číslo a parametr 02 >σ ). Parametr polohy xxXE ˆ)( 50,0 ===μ , má tedy současně význam střední hodnoty, mediánu a modu

(důsledek symetrie). Parametr měřítka )(),( 222 XDXD === σσσ , jde tedy o rozptyl a směrodatnou odchylku rozdělení.

Ukázka hustot rozdělení [ ] [ ] [ ]22 5,1;1,1;0,5,0;5,0 NNN −

Poloha vrcholů rozdělení je zřejmá, vzdálenosti kolem vrcholu symetricky položených

inflexních bodů (což jsou body, v nichž se průběh křivky mění z konvexního na konkávní a naopak) jsou postupně rovny 0.5, 1 a 1.5 (čím nižší vzdálenost, tím je příslušné rozdělení stabilnější). Vidíme, že asymptotické přibližování větví křivek k ose náhodné veličiny je velmi rychlé, takže již v hodnotách σμ 2± se křivky této osy prakticky dotýkají – hovoří se o roz-dělení s „krátkými konci“. Můžeme si rovněž zkontrolovat, že hustoty pravděpodobnosti

)(μf se rovnají přibližně 0.8, 0.4 a 0.27.

Distribuční funkce (jejich vyjádření neuvádíme) mají tvar pravidelných esovitých kři-vek. Strmost křivky je tím větší, čím nižší je hodnota σ . Obě větve křivky vykazují asymptot-tické přibližování (levá k ose náhodné veličiny a pravá k hodnotě jedna). Inflexní bod má souřadnice [ ]5,0;μ .

[ ]25,0;5,0−N

[ ]1;0N

[ ]25,1;1N

x

f(x)

47

Ukázka distribučních funkcí normálních rozdělení z předchozího obrázku

Pracovat s obecným normálním rozdělením (tj. např. hodnotami distribuční funkce,

kvantily s výjimkou mediánu apod.) je matematicky vysoce náročné. Nabízí se proto přejít na normované normální rozdělení a všechny potřebné hodnoty tabelovat. V časech tištěných papírových tabulek to byla dokonce jediná možná cesta.

Normované normální rozdělení

Má-li obecná náhodná veličina X rozdělení [ ]2;σμN , má normovaná náhodná veli-

čina σμ−

=−

=X

XDXEXU)(

)( rozdělení [ ]1;0N – normované normální rozdělení se střední

hodnotou 0)( =UE a rozptylem i směrodatnou odchylkou rovnou 1)()(2 == UDUD . Jeho hustotu značíme výjimečně symbolem )(uϕ a distribuční funkci )(uΦ .

Symetrická zvonovitá Gaussova křivka hustoty pravděpodobnosti rozdělení [ ]1;0N má vrchol 3989,0)0( =ϕ v bodě 0=u a inflexní body odpovídají hodnotám 1,1 +=−= uu . Přestože veličina U nabývá hodnot z intervalu +∞<<∞− u , přibližování k ose náhodné veličiny je tak rychlé, že prakticky jistě nabývá hodnot z intervalu 22 +<<− u (s rezervou

33 +<<− u ). Výskyt veličiny U mimo tento interval je událostí prakticky nemožnou. Grafy hustoty pravděpodobnosti a distribuční funkce rozdělení [ ]1;0N najdeme na předchozích obrázcích.

Pro pohodlnou práci s normovaným normálním rozdělením slouží tabelované hodnoty puuu a)(),( Φϕ . I když v dnešní době lze pracovat s aplikacemi, které jednotlivě vrací pří-

slušné hodnoty pro obecné normální rozdělení (např. i MS Excel), spočívá kouzlo papíro-vých tabulek v tom, že lze přehlédnout celou tabulku a vysledovat zákonitosti v chování příslušných hodnot při měnících se vstupních hodnotách ( pu, ). Pro zestručnění a tím i zpřehlednění tabulek se používají následující důležité vztahy vyplývající ze symetrie rozdě-lení kolem počátku:

• )()( uu ϕϕ =− ,

• )(1)( uu Φ−=−Φ ,

• pp uu −=−1 .

[ ]25,1;1N

[ ]25,0;5,0−N[ ]1;0N

F(x)

x

48

Proto v tabulkách najdeme vstupní hodnoty 0≥u a 5,0≥p a zbývající potřebné hodnoty si případně dopočteme.

Tabulka hodnot funkcí )(a)( uu Φϕ pro vybraná u

u 0,00 0,50 1,00 1,50 2,00 2,50 3,00 )(uϕ 0,399 0,352 0,242 0,130 0,054 0,018 0,004 )(uΦ 0,500 0,691 0,841 0,933 0,977 0,994 0,999

Příklady: 242,0)1()1( ==− ϕϕ ; 023,0977,01)2(1)2( =−=Φ−=−Φ

Tabulka hodnot p–kvantilů pu pro vybraná p

p 0,500 0,900 0,950 0,975 0,990 0,995 0,999 pu 0,000 1,282 1,645 1,960 2,326 2,576 3,090

Příklad: 960,1975,0025,0 −=−= uu

Grafické znázornění příkladů pod oběma tabulkami

Mezi distribučními funkcemi rozdělení [ ]2;σμN a [ ]1;0N platí )()(σμ−

Φ=xxF .

Mezi kvantily obou rozdělení platí pp ux σμ += .

Určit pravděpodobnost, že náhodná veličina X s rozdělením [ ]215;100N bude ležet v intervalu 115;70 . Tj.

[ ]

818,0023,0841,0)977,01(841,0

)2(1)1()2()1()15

10070()15

100115()70()115(

=−=−−=

=Φ−−Φ=−Φ−Φ=−

Φ−−

Φ=− FF

Jde o úlohu o nalezení pravděpodobnosti při zadaných hodnotách náhodné veličiny.

242,0)1()1( ==− ϕϕ

023,0977,01)2(1)2( =−=Φ−=−Φ

960,1975,0025,0 −=−= uu

)(uϕ

u

49

Grafické znázornění vypočtené pravděpodobnosti

Určit symetrický interval, do kterého náhodná veličina X padne s pravděpodobností 0,95. Hledáme tedy 2,5% a 97,5% kvantil veličiny X , mezi nimiž leží tato náhodná veličina s pravděpodobností 0,95

6,70)96,1(15100)(15100151004,12996,11510015100

975,0025,0025,0

975,0975,0

=−⋅+=−+=+=

=⋅+=+=

uuxux

Jde o úlohu o nalezení hodnot náhodné veličiny pro zadanou pravděpodobnost.

Grafické znázornění hodnot vypočtených pro zadanou pravděpodobnost

Normální rozdělení mnohokrát použijeme v následující kapitole věnované statistic-kému odhadu a testování hypotéz. Na jeho bázi zavedeme v budoucí kapitole také některá další užitečná rozdělení (např. rozdělení veličiny 2U ) apod.

Normální rozdělení je teoretickým základem mnoha statistických strategií řízení jakos-ti. Na normální rozdělení přímo odkazuje název systému Six Sigma ( σ6 ), původně produkt společnosti Motorola. Hlavními komponentami statistického řízení jakosti jsou statistická regulace v podmínkách hromadné výroby (udržování náhodného procesu v předem urče-ných mezích) a statistická přejímka (garantující, že s vysokou pravděpodobností bude přijata jen hromadná dodávka vyhovující sjednaným podmínkám, zatímco nevyhovující bude odmít-nuta). Jde o problematiku, která si zasluhuje samostatné (a velmi rozsáhlé) pojednání, neboť se nám do našeho příběhu „nevejde“.

x

f(x)

x

f(x)

0,950,0250,025

0,818

50

Logaritmicko normální rozdělení

Má-li náhodná veličina XY ln= rozdělení [ ]2;σμN , má veličina 0>= YeX tzv. loga-ritmicko normální rozdělení [ ]2;σμLN . Toto typicky kladně sešikmené rozdělení (modus < medián < střední hodnota) se často používá v teorii spolehlivosti, kde se pracuje se součiny (nikoli součty, které by vedly na normální rozdělení) nezávislých náhodných veličin.

Jeho střední hodnota je rovna )

2(

2

)(σ

μ+= eXE a rozptyl ( ) )1()(

2222 −= + σσμ eeXD .

Vztah mezi kvantily pu normovaného normálního rozdělení a kvantily logaritmicko normálního rozdělení je ( )pu

p ex σμ +=

Porovnání hustot rozdělení [ ]25,0;5,0N a [ ]25,0;5,0LN

Témata pro tutoriál (resp. pro cvičení na prezenčním studiu)

1. K příkladu na rovnoměrné rozdělení na intervalu ( )60;0 najít interval symetrický ko-lem střední hodnoty, do kterého náhodná veličina padá s pravděpodobností 0,5.

2. Pro stejný příklad jako v bodě 1 najít pravděpodobnost, že náhodná veličina padne do intervalu )()( XDXE ± .

3. Náhodnou veličinou je chyba při zaokrouhlování náhodných reálných čísel na čísla celá. Najděte zákon rozdělení pro tuto náhodnou veličinu, stanovte jeho parametry, hustotu a distribuční funkci, střední hodnotu, medián, rozptyl a směrodatnou odchylku. Obě funkce znázorněte graficky.

4. Určete pravděpodobnost, že náhodná veličina s exponenciálním rozdělením s para-metrem 1=δ [tis. h] padne do intervalu )()( XDXE ± , který uveďte v hodinách. Výsledek porovnejte s řešením úkolu 2.

5. Jaká je střední hodnota náhodné veličiny, která je rozdělením pravděpodobnosti životnosti součástky z důvodu „náhlé smrti“, pokud 3000 hodin „přežilo“ 1 % všech součástek. Znázorněte graficky hustotu pravděpodobnosti, distribuční funkci a funkci přežití.

[ ]25,0;5,0N

[ ]25,0;5,0LN

x

f(x)

51

6. Určete prostřední (mediánovou) a typickou (modální) dobu života pro Weilbullovo rozdělení s parametry z úlohy 7.

7. Vypočtěte a znázorněte graficky pravděpodobnosti ukončení života součástky v krát-kém období pro 5,1;1;9,0 === ccc , pokud parametr 2=δ [tis. h]. Dále zvolte 8=h [h]. Cca tři až čtyři realizace náhodné veličiny volte např. jako δδδ 2,1;;8,0 .

8. Pro rozdělení [ ]25;50N určete hodnotu )50(f a dále

• pravděpodobnost, že veličina nepřesáhne hodnotu 57,5,

• pravděpodobnost, že přesáhne hodnotu 40,

• pravděpodobnost, že bude ležet na intervalu 47,5 až 60.

Všechny pravděpodobnosti znázorněte na přiloženém „slepém“ grafu hustoty pravdě-podobnosti.

9. Pro rozdělení z úkolu 8 určete symetricky položené intervaly, do který náhodná

veličina postupně padá s pravděpodobnostmi 0.9, 0.95 a 0.99.

10. Pro rozdělení z úkolu 8 určete pravděpodobnost, že náhodná veličina bude ležet na intervalu σμ ± . Výsledek porovnejte s výsledky úkolu 2 a 4. Které z rozdělení vyka-zuje největší stabilitu?

11. Jaké hodnoty parametrů má normálně rozdělená náhodná veličina, jejíž 90% kvantil má hodnotu 264,1 a 99% kvantil hodnotu 316,3?

12. Prověřte excelovské funkce NORMDIST, NORMSDIST, NORMINV, NORMSINV a zkontrolujte pomocí nich správnost vypočtených příkladů na normální rozdělení, stej-ně jako správnost hodnot v tabulkách distribuční funkce )(uΦ a kvantilů pu .

13. Kvantily pu můžeme interpretovat jako hodnoty tzv. kvantilové funkce, která je inver-

zní funkcí k distribuční funkci. Zapište tuto kvantilovou funkci pomocí 1−Φ .

14. Určete střední hodnotu, medián, rozptyl a směrodatnou odchylku logaritmicko normál-ního rozdělení [ ]25,0;5,0LN .

52

Shrnutí druhé kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou

• pojem náhodná událost a operace s náhodnými událostmi s důrazem na neslučitelné a nezávislé náhodné události,

• princip chápání pravděpodobnosti jako stabilizované relativní četnosti,

• aktivní použití vlastností pravděpodobnosti,

• rozlišení (absolutně) jisté/nemožné události od prakticky jisté/nemožné náhodné události a významu s tím souvisejícího pojmu rizika,

• použití výběru s opakováním a bez opakování k demonstraci nezávislých/závis-lých opakovaných pokusů,

• pojmy diskrétní a spojitá náhodná veličina a její zavedení jako číselného vyjádření výsledku náhodného experimentu,

• rozdělení pravděpodobnosti náhodné veličiny jako jedné z jejích speciálních definicí,

• aktivní využití pravděpodobnostní funkce náhodné veličiny včetně všech způsobů jejího vyjádření a vlastností,

• aktivní využití distribuční funkce náhodné veličiny včetně všech způsobů jejího vyjádření a vlastností,

• aktivní využití hustoty pravděpodobnosti náhodné veličiny včetně všech způsobů jejího vyjádření a vlastností,

• vzájemné vztahy mezi hustotou pravděpodobnosti a distribuční funkcí spojité náhodné veličiny,

• měření úrovně a variability náhodné veličiny pomocí střední hodnoty a rozptylu,

• princip a postup stanovení kvantilů spojitých náhodných veličin,

• řešení úloh s binomickým rozdělením,

• řešení úloh s alternativním rozdělením,

• řešení úloh s Poissonovým rozdělením,

• řešení úloh se spojitým rovnoměrným rozdělením a souvislost tohoto rozdělení s nejistotami měření,

• řešení úloh s exponenciálním rozdělením,

• Weilbullovo rozdělení jako univerzální nástroj pro měření životnosti součástek, k jejíchž ukončení dochází z různých příčin (jen rámcově),

• normální a normované normální rozdělení, která budeme používat v následující třetí kapitole v souvislosti se statistickými odhady a testováním hypotéz,

• práce z tabulkami pro normované normální rozdělení a řešení obou „zrcadlo-vých“ úlohy – k zadané hodnotě (hodnotám) určit pravděpodobnost a naopak – k zadané pravděpodobnosti určit hodnotu (hodnoty) náhodné veličiny s obecným normálním rozdělením,

• grafické znázornění výsledků úloh v předchozím bodě,

• vztah mezi normálním a logaritmicko normálním rozdělením (jen rámcově).

53

Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor

• operace se slučitelnými a závislými událostmi ve dvojicích i n-ticích,

• další dílčí „definice“ pravděpodobnosti, jako je pravděpodobnost klasická (včetně jejích kombinatorických výpočtů), diskrétní, geometrická apod.,

• podmíněná a úplná pravděpodobnost, apriorní a aposteriorní pravděpodobnost,

• závislé opakované pokusy,

• rozdělení pravděpodobnosti náhodného vektoru a jeho charakteristiky,

• závislost náhodných veličin, podmíněná rozdělení a jejich charakteristiky,

• funkce náhodných veličin,

• další diskrétní zákony rozdělení, které jsme pouze vyjmenovali,

• několik dalších spojitých zákonů rozdělení, o nichž jsme se ani nezmínili,

• zákon velkých čísel,

• centrální limitní věty,

• stochastické procesy.

Mezery ve vzdělání si čtenář se solidním matematickým základem může samostatně doplnit např. v MAREK, L. Pravděpodobnost. První vydání. Praha: Professional Publishing, 2012, 249 stran. ISBN 978-80-7431-087-4.

54

Kapitola 3 Odhady a testy hypotéz Při setkání s náhodnou veličinou musíme rozlišit tři případy

• Známe rozdělení náhodné veličiny a známe i její parametry. V tom případě k práci s náhodnou veličinou potřebujeme tabulky hodnot distribuční funkce a tabulky kvantilů, pomocí nichž můžeme řešit úlohy podobně, jako tomu bylo v zá-věru druhé kapitoly. Tento případ je spíše výjimečný a je omezen zejména na tri-viální příklady školského charakteru.

• Známe rozdělení náhodné veličiny, tudíž známe počet parametrů a jejich význam, ale neznáme hodnoty parametrů – ty jsou (a navždy zůstanou) pro nás neznámými konstantami. Tento příklad je nejběžnější. Neznámé hodnoty para-metrů buď odhadujeme (pomocí bodového či intervalového odhadu) nebo ověřu-jeme hypotézy (předpoklady) o jejich možných hodnotách. Cílem je označit hypo-tézu za neudržitelnou, pokud důkazy svědčí proti ní, v opačném případě je hypo-téza označena za udržitelnou. Tato problematika tvoří samostatné odvětví sta-tistiky – tzv. matematickou statistiku, která kombinuje poznatky pravděpodobnosti a popisné statistiky. Význam matematické statistiky je značný, protože parametry rozdělení mají většinou velký praktický význam (např. při řízení kvality). Tuto va-riantu problému je možno označit za klíčovou a jako jediné se jí budeme podrob-ně věnovat.

• Neznáme rozdělení ani jeho parametry. Tudíž netušíme ani kolik jich je (existují rozdělení s jedním až cca čtyřmi parametry), ani jaký je jejich význam (např. jejich vztah ke střední hodnotě, rozptylu apod.). Jde o tzv. neparametrický problém, který se řeší přechodem od neznámého ke známému rozdělení pravděpodobnosti. Přechod na známé rozdělení je vždy „vykoupen“ ztrátou části informace obsa-žené v datech. Neparametrický problém ponecháme stranou.

3.1 Náhodný výběr z rozdělení náhodné veličiny

Základní „surovinou“ při konstrukci odhadů a provádění testů hypotéz o parametrech rozdělení náhodných veličin se známým rozdělením je náhodný výběr z příslušného zákona rozdělení. Proto, než se dostaneme k samotné problematice odhadů a testů – té se říká také statistická indukce – se musíme seznámit s některými důležitými skutečnostmi.

Pojem náhodného výběru

Posloupnost nezávislých a stejně rozdělených náhodných veličin nXXX ,...,, 21 je ná-hodným výběrem z rozdělení pravděpodobnosti náhodné veličiny X o (konečném) rozsahu výběru n. Např. při splnění podmínek výběru s opakováním jsou prvky náhodného výběru nezávislé náhodné veličiny. Náhodnost výběru je zajištěna pomocí vhodného návrhu expe-rimentu. Touto problematikou se podrobněji nebudeme zabývat. Jako výběrovou techniku, zajišťující náhodnost výběru, si můžeme provizorně představit např. losování.

To, že veličiny nXXX ,...,, 21 pocházejí z téhož rozdělení pravděpodobnosti, má za nás-

ledek, že všechny mají stejnou střední hodnotu i rozptyl )(),( 2 XDXE (to se týká i dalších charakteristik, které nás však v tomto okamžiku nezajímají). Charakteristiky náhodné veli-činy X (stejně jako její parametry) jsou neznámými konstantami.

Orientačně se rozlišují tzv. malé výběry pro 30≤n a velké výběry pro 30>n .

55

Výběrové charakteristiky – statistiky Od charakteristik náhodné veličiny musíme striktně rozlišit charakteristiky náhodného

výběru, kterým se souhrnně říká statistiky (další význam pojmu statistika!).

Nejdůležitější výběrovou charakteristikou je pochopitelně výběrový průměr nX . Jde o náhodnou veličinu (proto označení velkým písmenem), jejíž vlastnosti závisí na rozsahu výběru n (proto index n). Od výběrového průměru jako náhodné veličiny musíme odlišit konkrétní číslo, hodnotu — realizaci, kterou tato veličina nabyla pro určitý konkrétní náhodný výběr, a kterou označíme x (tj. jako konstantu malým písmenem a bez indexu n). Podobně jako s výběrovým průměrem zacházíme i s dalšími statistikami, např. výběrovým mediánem, výběrovým rozptylem apod. Pro účely zobecnění označujeme libovolnou statistiku, jejíž vlast-nosti souvisí s rozsahem výběru, symbolem nT .

Jako každá náhodná veličina, má i statistika nT svoji střední hodnotu )( nTE , rozptyl )(2

nTD a samozřejmě i další charakteristiky.

To, co nás mimořádně zajímá, je vztah charakteristik náhodné veličiny nT k paramet-rům (které mají mnohdy současně význam charakteristik) náhodné veličiny X , ze které byl pořízen náhodný výběr. Dvě důležitá rozdělení Abychom poznali rozdělení pravděpodobnosti alespoň některých náhodných veličin

nT , musíme zavést další rozdělení pravděpodobnosti spojitých náhodných veličin, alespoň Pearsonovo a Studentovo rozdělení, která nám umožní zabývat se rozdělením výběrového rozptylu a výběrového průměru při malém rozsahu výběru a neznalosti parametru 2σ .

Tato rozdělení nyní zavedeme, abychom je ve vhodné chvíli použili.

Pearsonovo rozdělení

Náhodná veličina 2

2⎥⎦⎤

⎢⎣⎡ −

μXU . Má-li U rozdělení [ ]1;0N (viz tečkovaná křivka na

obrázku), má 02 ≥U rozdělení pravděpodobnosti, jehož hustota je klesající funkce. Rozdělení veličiny 2U a jejích součtů

Při výpočtu rozptylu se setkáváme se souč-

tem n čtverců odchylek, z nichž ale jen n – 1 je nezávislých. Poslední (n–tou) odchylku můžeme vždy vypočítat ze součtu zbývajících n – 1 odchy-lek při využití toho, že součet všech odchylek je roven nule.

Na obrázku je tedy ještě znázorněna hustota pravděpodobnosti tohoto součtu n – 1 čtverců od-chylek pro n = 6. Takovéto rozdělení, které nelze dobře aproximovat rozdělením normálním, se na-zývá Pearsonovým rozdělením (rozdělením chí–

kvadrát); značíme [ ]νχ 2 , kde 1−= nν (ný) je jediným parametrem tohoto rozdělení. Klesa-jící hustota na obrázku je tedy Pearsonovým rozdělením [ ]12χ . Kvantily Pearsonova rozdě-lení jsou tabelovány (výtah z tabulek je na konci této pomůcky).

0

0.25

0.5

0.75

f(x)

-3 -1 1 3 5 7 9 x

[ ]52χ

[ ]12χ

56

Studentovo rozdělení

Náhodná veličina

nS

Xtn

n

1−

−=

μ (veličinu t i její realizace je zvykem výjimečně značit

malým písmenem), má rozdělení, které se nazývá Studentovo, s jediným parametrem, kte-rým je opět počet stupňů volnosti =ν n – 1. Toto rozdělení budeme označovat [ ]νt . Hustota pravděpodobnosti Studentova rozdělení je symetrická zvonovitá křivka, která se s rostoucí hodnotou parametru blíží ke Gaussově křivce pro normované normální rozdělení. Tou se běžně nahrazuje pro 30>n . Pro nízké hodnoty parametru je při porovnání s Gaussovou křivkou patrná nižší

Studentovo rozdělení výška vrcholu křivky v kombinaci s delšími konci rozdělení (pomalejším přibližováním obou větví křivky k ose náhodné veličiny). Hodnoty odpoví-dajících si kvantilů jsou proto u Studentova rozdě-lení vzdálenější od počátku, než je tomu u normo-vaného normálního rozdělení.

Studentovo rozdělení umožňuje práci s výběry již od rozsahu 2>n (aby bylo možno vypočítat rozptyl).

Také pro Studentovu veličinu můžeme psát

αμαα −=

⎥⎥⎥⎥

⎢⎢⎢⎢

≤−

≤−−

12

112

t

nS

XtPn

n , kde α−1 je prav-

děpodobnost prakticky jistého jevu. Tento výraz obsahuje jedinou neznámou μ a může tedy být využit k jejímu stanovení. Kvantily, pro které vzhledem k symetrii platí

21

2αα

−−= tt , jsou

tabelovány (výtah z tabulek je na konci této pomůcky).

Rozdělení výběrového průměru při výběru velkého rozsahu nebo při známém σ2

Nejdůležitější výběrovou charakteristikou je výběrový průměr nX . Jde o náhodnou veličinu (proto označení velkým písmenem), jejíž vlastnosti závisí na rozsahu výběru n (pro-to index n). Od výběrového průměru jako náhodné veličiny musíme odlišit konkrétní číslo, hodnotu — realizaci, kterou tato veličina nabyla pro určitý konkrétní náhodný výběr, kterou označíme x (tj. jako konstantu malým písmenem a bez indexu n).

Zajímáme se o charakteristiky náhodné veličiny, vzniklé jako součet jiných náhodných veličin, přičemž budeme předpokládat, že výsledná veličina konverguje k normálnímu rozdě-lení. Mají-li všechny sčítance stejné střední hodnoty i rozptyly )(),( 2 XDXE (což je případ

náhodného výběru), pak )()(1

XnEXEn

ii =∑

=, ∑

==

n

ii XnDXD

1

22 )()( . Při dostatečném počtu

sčítanců můžeme psát také μnXnEXEn

ii ==∑

=)()(

1 a 2

1

22 )()( σnXnDXDn

ii ==∑

=.

∑=

n

iiX

1

má tedy rozdělení [ ]2; σμ nnN .

0

0.25

0.5

-3 -2 -1 0 1 2 3

[ ]1;0N

[ ]20t

[ ]5t

57

Ilustrativní příklad sčítání náhodných veličin

Tento příklad uvádíme proto, že při výpočtu výběrového průměru operujeme se sou-

čtem ∑=

n

iiX

1

.

Na obrázku je pravděpodobnostní chování součtu nezávislých náhodných veličin demonstrováno pomocí součtu rovnoměrně rozdělené spojité náhodné veličiny. Podobný výsledek bychom ovšem obdrželi i při sčítání jinak rozdělených náhodných veličin (dokonce i při různém rozdělení jednotlivých sčítanců, což však není pro náhodný výběr typické).

Konvergence součtu nezávislých náhodných veličin k normálnímu rozdělení

Střední hodnota výběrového průměru (který je součtem ∑=

n

iiX

1

, děleným rozsahem

výběru n) je za těchto okolností μ==== ∑=

)()(1)(1)(1

XEXnEn

XEn

XEn

iin .

Variabilita výběrového průměru vyjádřená jeho rozptylem je

nnXDXnD

nXD

nXD

n

iin

222

12

22

2 )()(1)(1)( σ==== ∑

=

a směrodatná odchylka je dána jako nn

XDXD nσ

==)()( . Směrodatná odchylka libovolné

výběrové charakteristiky se nazývá směrodatná chyba (důležitý pojem!).

f(x), pi

x

f(x), pi

x

f(x), pi

x

Jedna náhodná veličina má rov-noměrné rozdělení. Součet dvou nezá-vislých veličin má již tzv. trojúhelníkové rozdělení. Součet pouhých pěti veličin má již rozdělení, které je blízké normál-nímu. Histogramy byly získány tříděním 500 realizací náhodných veličin a prolo-ženy odpovídajícím rozdělením. Původní rovnoměrné rozdělení bylo vytvořeno počítačovou simulací.

58

Rozdělení výběrového průměru

Tečkovanou čarou je znázorněna hustota pravděpodobnosti rozdělení, ze kterého byl výběr pořízen. Přesto, že toto rozdělení se od normálního rozdělení liší, výběrové průměry mají rozdělení, jehož hustota pravděpodobnosti je symetrická zvonovitá křivka. S rostoucím rozsahem výběru se poloha střed-ní hodnoty výběrového průměru nemění, zatímco jeho variabilita klesá (rozdělení se stabilizuje). Jednotlivé křivky jsou znázorněny pro n rovno postupně 3, 5 a 10.

Rozdělení výběrového průměru je tedy ⎥⎦⎤

⎢⎣⎡ 2)(;

nN σμ a normovaná veličina

n

XU nσ

μ−= má

normované normální rozdělení [ ]1;0N . Pro veličinu U můžeme např. napsat

ασμ

αα −=

⎥⎥⎥⎥

⎢⎢⎢⎢

≤−

≤−

12

12

u

n

XuP n . Je-liα dostatečně blízké nule, je jev, že veličina padne do

intervalu vymezeného oběma kvantily normovaného normálního rozdělení, jevem prakticky jistým. Vztah obsahuje jako neznámé σμ, , všechny ostatní veličiny jsou známé: rozsah výběru n, výběrový průměr a dále kvantily, mezi nimiž platí

21

2αα

−−= uu , najdeme v ta-

bulkách (stručný výtah je u normovaného normálního rozdělení v předchozí kapitole). Pokud je rozsah výběru 30>n , lze neznámou σ ve vzorci bez dalšího nahradit

výběrovou směrodatnou odchylkou 1−nS .

Rozdělení výběrového průměru při výběru malého rozsahu a neznámém σ2

Pokud je však rozsah náhodného výběru 30≤n a neznámý parametr σ ve vztahu

n

XU nσ

μ−= nahradíme výběrovou směrodatnou odchylkou 1−nS , tj. statistikou získanou

z náhodného výběru (neznámou konstantu nahrazujeme náhodnou veličinou!), tak náhodná

veličina, popisující rozdělení výběrového průměru, je

nS

Xtn

n

1−

−=

μ , tj. má Studentovo rozdě-

lení [ ]1−= nt ν .

0

0.25

0.5

0.75

f(x)

1 2 3 4 5 x

n

59

Rozdělení výběrového rozptylu

Náhodná veličina 2

21

2

2

1 )1()(

σσ−= −

=−∑

n

n

ini Sn

XX má rozdělení [ ]12 −nχ .

∑=

− −−

=n

inin XX

nS

1

221 )(

11 je výběrový rozptyl. Ten se od popisné formy rozptylu liší tím, že

pro dělení součtu čtverců se používá místo rozsahu výběru n hodnota n – 1, která se nazývá počet stupňů volnosti. Pro výběrový rozptyl můžeme napsat.

αχσ

χ αα −=⎥⎥⎦

⎢⎢⎣

⎡≤

−≤

−− 1)1( 2

212

212

2

nSnP . Tento výraz obsahuje pro zvolené α−1 jedinou nezná-

mou veličinu, kterou je rozptyl 2σ . Vzhledem k asymetrii hustoty pravděpodobnosti jsou i kvantily umístěny asymetricky (mohou nabýt pouze kladných hodnot, protože 02 ≥χ ).

Vzájemný přepočet popisné a výběrové formy rozptylu je snadný: n

nSS nn12

12 −

= − ,

zatímco např. 11 −

=− nnSS nn .

Rozdělení výběrové relativní četnosti

Výběrová relativní četnost p je náhodnou veličinou se střední hodnotou θ=)( pE a rozptylem ),1()(2 θθ −=pD kde θ je jediný parametr a současně charakteristika polohy alternativního rozdělení. Při splnění podmínky 9)1( >− pnp lze rozdělení výběrové relativní

četnosti nahradit normálním rozdělením ⎥⎦⎤

⎢⎣⎡ −

nN )1(; θθθ , přičemž ve vzorci rozptylu nahra-

díme neznámý parametr θ výběrovou relativní četností p. Veličina

npp

pU)1( −

−=

θ má roz-

dělení [ ]1;0N .

Další úvahy jsou pak zcela analogické jako u rozdělení výběrového průměru.

60

Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Rekapitulujte případy o náhodné veličině a jejích parametrech z úvodu této kapitoly.

2. K čemu slouží náhodný výběr a jaké jsou jeho vlastnosti? Jaká hranice odděluje malý a velký výběr?

3. Co jsou to statistiky?

4. Co víte o rozdělení pravděpodobnosti veličiny 2U , která je čtvercem náhodné veličiny s rozdělením [ ]1;0N ?

5. Co víte o rozdělení pravděpodobnosti veličiny t? Jaký je jeho vztah k rozdělení [ ]1;0N ? Od jakého rozsahu výběru není nezbytné obě rozdělení rozlišovat?

6. Vysvětlete pojem stupně volnosti.

7. Jakou střední hodnotu, rozptyl a směrodatnou odchylku má

• součet prvků náhodného výběru ∑=

n

iiX

1

,

• statistika ∑=

=n

iin X

nX

1

1 .

8. Co je směrodatná chyba statistiky? Čemu je konkrétně rovna pro výběrový průměr?

9. Jak se chová

• střední hodnota, • směrodatná chyba,

statistiky nX při rostoucím rozsahu náhodného výběru?

Kolikrát se musí zvýšit/snížit rozsah výběru, pokud bychom chtěli směrodatnou chybu

zmenšit na polovinu, zmenšit na desetinu, zvětšit na dvojnásobek.

10. Vyjádřete se k možnosti náhrady parametru σ výběrovou směrodatnou odchylkou

1−nS ve vztahu

n

X n

σμ− .

11. Kolik parametrů mají Pearsonovo a Studentovo rozdělení a jaký je jejich význam?

12. Rekapitulujte, co víte o rozdělení pravděpodobnosti výběrové relativní četnosti p.

61

3.2 Bodový odhad

Princip bodového odhadu Nejprve formalizujeme pojem statistiky jako náhodné veličiny, která je funkcí náhod-

ného výběru ),...,,( 21 nn XXXgT = . Realizaci statistiky nT – její konkrétní hodnotu vypoč-tenou z určitého konkrétního náhodného výběru – označíme symbolem t (pozor na možnou kolizi se Studentovou veličinou t!) Již víme, že statistika je náhodnou veličinou, má svůj zá-kon rozdělení pravděpodobnosti, který je charakterizován střední hodnotou )( nTE , rozptylem a směrodatnou odchylkou (směrodatnou chybou) )(),(2

nn TDTD . Vlastnosti rozdělení statis-tiky nT často souvisí s rozsahem výběru n. Směrodatná odchylka signalizuje, jak statistika výběr od výběru kolísá a označujeme ji proto jako její směrodatnou chybu. Směrodatná chyba měří velikost náhodné chyby, které se dopustíme, pokud statistikou vypočtenou z náhodného výběru nahradíme neznámý parametr rozdělení pravděpodobnosti náhodné veličiny (např. parametr σ statistikou 1−nS ).

Nechť nXXX ,...,, 21 je náhodným výběrem o rozsahu n z rozdělení pravděpo-dobnosti náhodné veličiny, která má distribuční funkci );( xF Θ , kde Θ (velké theta) je ne-známý parametr tohoto rozdělení. Statistiku nT nazveme bodovým odhadem neboli estimá-torem neznámého parametru Θ a píšeme Θ= estnT . Požadujeme, aby statistika byla výs-tižným odhadem a přiměřeně splňovala následující vlastnosti — kritéria výstižnosti bodového odhadu.

Výstižnost bodového odhadu

• Statistika je konzistentním odhadem neznámého parametru, pokud s rostoucím rozsahem výběru klesá pravděpodobnost, že se při odhadu dopustíme velké chyby. Konzistentní odhad splňuje 0)(lim =>Θ−

∞→εn

nTP pro libovolné 0>ε .

Populárně lze říci, že konzistence odhadu znamená „zhodnocení“ většího rozsa-hu výběru tím, že pravděpodobnost hrubé chyby při odhadu klesá (říkáme, že konverguje podle pravděpodobnosti k nule).

• Statistika je nestranným odhadem neznámého parametru, platí-li Θ=)( nTE . Populárně řečeno, nestranným odhadem se nedopustíme systematické chyby. U některých statistik můžeme ovšem pozorovat pouze tzv. asymptotickou ne-strannost, kdy teprve Θ=

∞→)(lim n

nTE . Opakem nestranného odhadu je zkreslený

(vychýlený) odhad. Měřítkem vychýlení odhadu je rozdíl Θ−)( nTE .

• Nestranný odhad s nejmenším rozptylem nazýváme maximálně vydatný (nejvy-datnější) odhad. Pro nejvydatnější odhad ∗

nT platí )()( 22nn TDTD ≤∗ , kde nT je

libovolný nestranný odhad. U některých statistik se hovoří o asymptoticky nejvy-datnějším odhadu, což znamená, že vydatnost odhadu roste se zvyšujícím se rozsahem výběru. Opět populárně řečeno, nejvydatnější odhad je takový nestran-ný odhad, jehož použitím se při daném rozsahu výběru dopouštíme nejmenší náhodné chyby.

Nejlepším nestranným odhadem je odhad, splňující výše uvedené vlastnosti nejdoko-nalejším možným způsobem (lepší odhad neexistuje).

62

Pozor – základním problémem bodového odhadu ovšem je, že se při jeho použití dopouštíme chyby s pravděpodobností jedna (bezchybný bodový odhad neexistuje), přičemž velikost konkrétní chyby, které jsme se dopustili, neumíme stanovit.

Bodové odhady parametrů některých rozdělení náhodných veličin Nejprimitivnější metodou konstrukce bodových odhadů je metoda tzv. výběrových

protějšků. Ta je ovšem vhodná pouze pro parametry některých rozdělení. Nyní uvedeme některé nejlepší nestranné odhady, které lze získat metodou výběrových protějšků, pokud jsou splněny podmínky, které jsme uvedli u rozdělení statistik nX a p.

• μestX n = (výběrový průměr jako estimátor střední hodnoty normálního rozdě-lení),

• σσ estSestS nn == −− 122

1 a (výběrový rozptyl jako estimátor rozptylu normálního rozdělení a výběrová směrodatná odchylka jako estimátor směrodatné odchylky normálního rozdělení),

• θestp = (výběrová relativní četnost jako estimátor střední hodnoty alternativního rozdělení),

• δestX n = (výběrový aritmetický průměr jako estimátor střední hodnoty expo-nenciálního rozdělení),

Kromě toho je možné sestrojit bodové odhady pro rozdíl/podíl dvou parametrů, např.

• )( 2121 μμ −=− estXX (rozdíl dvou výběrových průměrů jako estimátor rozdílu středních hodnot dvou normálních rozdělení),

• 22

21

22

21

σσ

estSS

= (podíl dvou výběrových rozptylů jako estimátor podílu rozptylů dvou

normálních rozdělení),

• )( 2121 θθ −=− estpp (rozdíl dvou výběrových relativních četností jako estimátor rozdílu středních hodnot dvou alternativních rozdělení).

I když posledními odhady se zabývat nebudeme, upozorňujeme, že nelze sestrojit bo-

dový odhad pro podíly 2

1

μμ

a 2

1

θθ

ani pro rozdíl rozptylů 22

21 σσ − .

Pro parametry některých rozdělení není metoda výběrových protějšků vhodná vůbec. Alternativní (a dokonalejší) metodou bodového odhadu parametrů je metoda maximální věro-hodnosti, která všeobecně vede k odhadům s lepšími vlastnostmi, než metoda výběrových protějšků.

Bodový odhad parametru Poissonova rozdělení Speciálním případem je pak odhad parametru λ . V tomto případě existuje postup pro odhad tzv. parametrické funkce λ−e , což je konkrétně pravděpodobnost )0( =XP . Estimáto-

rem této parametrické funkce je (bez odvození, jen výsledek) ∑

−= =−

n

iiX

neest 1)11(λ . Z čehož

∑=

−−=n

iiX

nest

1

)11ln(λ .

63

Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Co je statistika a jaký význam má její směrodatná chyba?

2. Co označujeme symbolem velké theta a jaký smysl má zápis Θ= estTn ?

3. Tvrdím, že pojmy nejlepší nestranný odhad a bezchybný odhad jsou synonyma (znamenají totéž). Mám pravdu?

4. Jak souvisejí kritéria výstižnosti bodového odhadu s hrubými, systematickými a náhodnými chybami, kterých se při bodovém odhadu dopouštíme?

5. Kdy hovoříme o asymptotické nestrannosti a asymptotické vydatnosti bodových od-hadů?

6. Čísly 1 až 4 jsou na obrázku označeny čtyři rozdělení možných statistik pro bodový odhad parametru Θ při určitém rozsahu výběru n. Porovnejte je z hlediska nestran-nosti a vydatnosti.

7. Uveďte příklady parametrů rozdělení a jejich výběrových protějšků.

8. Lze dokázat, že 22 1)( σn

nSE n−

= , zatímco 221 )( σ=−nSE Jak se tyto střední hodnoty

chovají při rostoucím rozsahu výběru n?

9. V úvodní části této kapitoly jsme bodový odhad už použili (aniž bychom tento pojem vyslovili). Konkretizujte.

10. Při výrobě LCD monitorů starší generace se objevovaly monitory s vadnými pixely. Počet vadných pixelů na ploše monitoru je veličina s Poissonovým rozdělením s neznámým parametrem λ . Bylo náhodně vybráno 12 monitorů, u nichž byl zjištěn tento počet vadných pixelů: 0, 1, 0, 0, 2, 4, 1, 0, 0, 1, 0, 0. Odhadněte parametrickou funkci λ−e a parametr λ .

4

3

2

1

Θ

64

3.3 Intervalový odhad Nelze zkonstruovat bezchybný bodový odhad a nelze stanovit velikost chyby, které

jsme se v konkrétním případě dopustili. To je důvodem přejít k intervalovému odhadu, jehož výsledek je sice vágnější (není to jedno číslo, ale číselný interval), ale výsledek je ve shodě se skutečností s vysokou, předem uživatelem zvolenou, pravděpodobností. Intervaly pro od-had parametrů rozdělení se nazývají konfidenční intervaly, intervaly pro stanovení rozmezí hodnot náhodné veličiny jsou toleranční intervaly. Na principu blízkém intervalovému odha-du jsou sestrojovány regulační diagramy, které se používají při řízení kvality v hromadné prů-myslové výrobě.

Tvary konfidenčních intervalů

• Statistiku αD , pro kterou [ ] αα −=Θ≤ 1DP , kde číslo α je blízké nule, nazveme

dolním odhadem parametru Θ a interval )∞+;αD nazveme levostranným inter-valem pro odhad parametru Θ .

• Statistiku α−1H , pro kterou [ ] αα −=≤Θ − 11HP , kde číslo α je blízké nule, na-

zveme horním odhadem parametru Θ a interval ( α−∞− 1; H nazveme pravo-stranným intervalem pro odhad parametru Θ .

• Dvojici statistik 2

12

, αα−

HD pro které ααα −=⎥⎦

⎤⎢⎣

⎡≤Θ≤

−1

21

2

HDP , kde čísloα je blíz-

ké nule, nazveme oboustranným odhadem parametru Θ a interval 2

12

; αα−

HD

nazveme oboustranným intervalem pro odhad parametru Θ .

Jednotlivé tvary intervalových odhadů se neužívají současně, ale odpovídají vždy ře-šenému problému.

Výše uvedené intervaly se nazývají také intervaly spolehlivosti nebo konfidenční intervaly. Předem zvolené číslo α−1 , blízké jedné, se nazývá spolehlivostí odhadu, zatímco α je riziko odhadu. Spolehlivost odhadu se často volí např. na úrovni 0,95 nebo 0,99 (hovoří se také o 95% nebo 99% spolehlivosti).

Výše uvedené vzorce vypovídají o tom, že očekáváme, že neznámý parametr Θ bude konfidenčním intervalem pokryt s vysokou (a předem zvolenou) pravděpodobností

α−1 blízkou jedné, zatímco jeho nepokrytí (kdy intervalový odhad „selže“) je možné s pravděpodobností α , blízkou nule (selhání odhadu je jevem prakticky nemožným).

Nadále budeme konstruovat pouze oboustranné konfidenční intervaly. K jedno-strannému intervalu přejdeme vynecháním jedné z obou hranic konfidenčního intervalu,

přičemž ovšem zaměníme pravděpodobnosti 2α

a 2

1 α− za αα −1, .

65

Konfidenční interval pro parametr μ při známém σ nebo velkém rozsahu výběru Při stanovení tohoto (oboustranného) konfidenčního intervalu stačí použít vztah

ασμ

αα −=

⎥⎥⎥⎥

⎢⎢⎢⎢

≤−

≤−

12

12

u

n

XuP n , jehož snadnou úpravou ( přičemž 2

12

αα−

−= uu ) získáme

ασμσαα −=

⎥⎥⎦

⎢⎢⎣

⎡+≤≤−

−−1

21

21 n

uXn

uXP nn . Tohoto tvaru konfidenčního intervalu lze

využít nejen pro známé σ , ale i v případě velkého výběru, je-li 30>n . V tom případě bez dalších úprav použijeme bodového odhadu σestSn =−1 .

Všimněte si, prosím, jak se mění zápis konfidenčního intervalu v okamžiku, kdy místo náhodných veličin začneme pracovat s jejich konkrétními hodnotami — realizacemi — z urči-tého náhodného výběru. Obecně můžeme pro realizaci intervalu psát

n

uxn

ux σμσαα2

12

1 −−+≤≤− (srovnejte s předchozím tvarem).

Výpočet konfidenčního intervalu pro parametr μ

Se spolehlivostí 95,01 =− α odhadněte parametr μ . Na základě náhodného výběru

o rozsahu 40=n (velký výběr) byly vypočteny realizace statistik 68,126,104 1 == −nsx . V ta-bulkách kvantilů normovaného normálního rozdělení (viz) najdeme 960,1975,0 =u . Takže

4068,1296,16,104

4068,1296,16,104 +≤≤− μ . S vysokou pravděpodobností (skoro jistě) může-

me tvrdit, že neznámý parametr μ se nachází v intervalu (obě hranice jsme zaokrouhlili) 6,1086,100 ≤≤ μ .

Poznámky k příkladu:

• spolehlivost a riziko se běžně udává v procentech (v našem případě 95 % a 5 %),

• u realizace konfidenčního intervalu už nemluvíme o konkrétní hodnotě spoleh-livosti, ale o praktické jistotě,

• dolní hranici zaokrouhlujeme zásadně směrem dolů, horní nahoru (abychom udr-želi, spíše poněkud zvýšili, zadanou spolehlivost),

• na jednostranné intervaly bychom přešli vypuštěním jedné z obou hranic a nahra-zením kvantilů

21

2

, αα−

uu kvantily αα −1,uu ,

• vypočtený konfidenční interval nemá nic společného s intervalem, na kterém se vyskytují jednotlivé realizace náhodné veličiny(!), jde o interval možných hodnot jejich střední hodnoty,

• vypovídací hodnota konfidenčního intervalu je nepřímo úměrná jeho šířce, kterou dopředu neznáme a vypočtený interval se může jevit jako příliš široký (vzácněji zbytečně úzký).

K poslednímu problému se ještě vrátíme.

66

Konfidenční interval pro parametr μ při neznámém σ a malém rozsahu výběru

V případě výběru malého rozsahu ( )30≤n při neznámém σ použijeme estimátor

σestSn =−1 čímž získáme αμ αα −=⎥⎥⎦

⎢⎢⎣

⎡+≤≤− −

−−

−11

21

1

21 n

StXn

StXP nnnn . V konfidenčním

intervalu jsou použity kvantily Studentova rozdělení s 1−n stupni volnosti.

Konfidenční intervaly pro parametry σ2 , σ

S použitím rozdělení [ ]12 −nχ je αχ

σχ αα

−=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡−

≤≤− −

− 1)1()1(2

2

212

2

21

21 nn SnSnP . Pozor –

tentokrát nelze kalkulovat se symetrií, protože oba kvantily jsou různá kladná čísla! Hranice konfidenčního intervalu pro směrodatnou odchylku získáme odmocněním hranic konfi-denčního intervalu pro rozptyl.

Výpočet konfidenčního intervalu pro parametr σ

Vypočteme 95% konfidenční interval pro směrodatnou odchylku σ , pokud je známo 426,25 2

1 == −nsn .

V tabulkách kvantilů Pearsonova rozdělení najdeme [ ] [ ] 364,3924,401,1224 2975,0

2025,0 == χχ

401,1242624

364,3942624 2

22 ⋅

≤≤⋅ σ z čehož 593332 ≤≤ σ . Můžeme tedy tvrdit, že směrodatná od-

chylka se prakticky jistě nachází ve vypočteném rozmezí. Vypočtené intervaly pro σσ ,2 nejsou tentokrát symetrické podle realizace statistiky, jako tomu bylo u parametru μ .

Stanovení minimálního rozsahu výběru při odhadu μ, σ2 Vypovídací schopnost konfidenčního intervalu je nepřímo úměrná jeho šířce. Veliči-

nou, která v podstatné míře ovlivňuje šířku dosud probraných konfidenčních intervalů (a nejen jejich), je rozsah výběru n.

Oba konfidenční intervaly pro střední hodnotu mají analogickou konstrukci, kterou můžeme vyjádřit jako [ ] α−=Δ+≤Θ≤Δ− 1nn TTP . Přitom (je-li použit kvantil veličiny U)

)(2

1 nTDu α−

=Δ . Zatímco )( nTD jsme nazvali směrodatnou chybou, pak po jejím vynásobení

příslušným kvantilem získanou veličinu Δ (velká delta) nazveme přípustnou chybou. Pří-pustná chyba představuje při dané spolehlivosti právě polovinu šířky konfidenčního inter-

valu. Vyjádříme-li n ze vztahu n

u σα2

1−≤Δ , získáme 2

22

21

Δ≥

−σαu

n , což je minimální rozsah

výběru, který zabezpečí, aby poloviční šířka konfidenčního intervalu (přípustná chyba) nepřekročila zadanou hodnotu. Prakticky se vypočtené n zaokrouhluje na nejbližší celé číslo směrem nahoru. Očekáváme-li, že rozsah výběru vyjde větší než 30, můžeme hodnotu ne-známého parametru 2σ snadno nahradit výběrovým rozptylem.

67

Konfidenční interval pro rozptyl je svojí stavbou odlišný. Místo absolutního pojetí šířky

intervalu ( Δ=− 2DH ) se využívá její relativní pojetí a [ ]

[ ]1

1

2

2

2

21

−==

n

n

DH

α

α

χ

χκ (kappa). Úloha

se řeší tak, že hledáme oba kvantily pro takový počet stupňů volnosti 1−n , pro který jejich podíl nepřesáhne zadanou hodnotu κ .

Konfidenční interval pro parametr θ

V souvislosti s bodovým odhadem parametru θ jsme uvedli podmínku normální aproximace, kdy 9)1( >− pnp . Při splnění tohoto předpokladu má výběrová relativní četnost

p normální rozdělení s n

pDpE )1()(,)( 2 θθθ −== . Veličina

n

pU)1( θθ

θ−

−= má rozdělení

[ ]1;0N . Bodovým odhadem rozptylu veličiny p je výběrový rozptyl n

pp )1( − (předpokládejme,

že rozsah výběru bude vždy dostatečně velké číslo). Oboustranný konfidenční interval pro parametr θ je (přibližně)

αθ αα −=⎥⎥⎦

⎢⎢⎣

⎡ −+≤≤

−−

−−1)1()1(

21

21 n

ppupn

ppupP . I pro tento konfidenční interval je

adekvátní obecná konstrukce zmíněná v souvislosti s minimálním rozsahem výběru. Analo-

gicky jako u parametru μ můžeme označit n

ppu )1(

21

−≤Δ

−α , z čehož 2

2

21

)1(

Δ

≥−

ppu

.

Konfidenční interval pro parametr λ Vyvození tohoto intervalu je poměrně komplikované. Existuje několik jeho možných

vyjádření lišících se stupněm přibližnosti výpočtu jeho hranic. Bez vyvození uvádíme přibliž-ný a poměrně „přijatelný“ tvar konfidenčního intervalu využívající kvantily normovaného nor-málního rozdělení

αλ αα −=⎥⎥⎦

⎢⎢⎣

⎡+++≤≤− ∑∑∑∑

== −=−=

1)11(1)(111 2

11211

n

ii

n

ii

n

ii

n

ii XuX

nXuX

nP .

Tento tvar konfidenčního intervalu ovšem předpokládá, že ∑=

n

iiX

1

je velké číslo, jinak

jsou vypočtené hranice málo přesné.

Další konfidenční intervaly Na závěr tohoto odstavce konstatujeme, že existují (kromě mnoha jiných) také konfidenční intervaly např. pro parametr δ exponenciálního rozdělení, pro rozdíly parametrů

21 μμ − a 21 θθ − a pro podíl 22

21

σσ

– poslední tři jsou tzv. dvouvýběrové intervalové odhady.

68

Toleranční intervaly

Toleranční interval obou- nebo jednostranný vymezuje pro náhodný výběr rozsahu n hranice, mezi kterými se se zvolenou spolehlivostí α−1 (např. 0.95, 0.99 apod.) bude nacházet γ100 % ( 10 << γ ) budoucích pozorovaných hodnot.

Nejjednodušším případem je rozdělení [ ]2;σμN , jehož toleranční součinitele lze nejsnáze nalézt v příslušné technické literatuře. Oboustranný toleranční interval je v tomto případě dán jako [ ] 12 1;; −−± nn SnkX αγ . Veličina 2k je toleranční součinitel, jehož hodnoty závisí na rozsahu výběru n , koeficientu γ a spolehlivosti α−1 a jsou tabelovány.

Pro ilustraci uvedeme, že např. pro 20=n , 90,0=γ a 95,01 =− α bychom v pří-slušné tabulce nalezli [ ] 31,295,0;90,0;202 =k . Pokud má tedy konkrétní náhodný výběr

15,100 1 == −nsx , můžeme pomocí nalezeného tolerančního součinitele tvrdit, že u všech náhodných výběrů ze stejného rozdělení se bude 90 % hodnot nacházet se spolehlivostí 0,95 na intervalu 1531,2100 ⋅± , tedy v rozmezí 65,35 až 134,65.

O tolerančních intervalech jsme se zmínili jen pro informaci a inspiraci eventuálních budoucích odborníků na oblast řízení kvality průmyslové výroby. Podstatně dokonalejší in-formaci o nich poskytují technické normy, např. ČSN ISO 16269-6.

Pro úplnost dodáváme, že vedle tolerančních intervalů se používají ještě tzv. před-povědní intervaly, o nichž v ČSN ISO 16269-8.

Regulační diagramy

Statistická regulace je jednou z oblastí řízení kvality. Provádí se v průběhu výroby a jejím cílem je udržovat proces v předem stanovených mezích. Statistickou regulaci lze klasifikovat z několika hledisek, jde tudíž o různorodou a rozsáhlou problematiku.

Grafickým výstupem regulace je regulační diagram, jehož nejdůležitější součástí jsou regulační meze. Mezi regulačními mezemi leží čára, znázorňující nominální (jmenovitou, požadovanou) hodnotu dané charakteristiky kvality.

Jedním z nejjednodušších regulačních diagramů je symetrický diagram pro regulaci průměru za předpokladu normality rozdělení. Nominální hodnotu označíme symbolem a,

horní regulační mez n

aHM σ2+= , dolní regulační mez n

aDM σ2−= . σ je výrobní

přesnost (daná vlastnostmi výrobního zařízení), n je průměrný rozsah náhodného výběru (pokud jsou prováděny různě početné náhodné výběry), jinak n, a jejich podíl je směrodatná chyba. Koeficient 2 pro případ normality říká, že (libovolná) regulační mez bude překročena s pravděpodobností 0,046 (pro 0,05 by koeficient byl 1,96). Obvykle se konstruují dvoje regu-lační meze – vnitřní (varovné) a vnější (např. s koeficientem 3). Do grafu se postupně vyná-šejí skutečné hodnoty zjištěné z odebraných vzorků výrobků. Proces je pod kontrolou (a ne-vyžaduje regulaci), pokud jsou skutečné hodnoty uvnitř regulačních mezí.

Regulační diagram pro rozptyl umožňuje regulovat výrobní přesnost. Využívá Pear-sonovo rozdělení a mívá výrazně nesymetricky položené regulační meze.

Regulační diagram pro počet vad na jednom výrobku, který má Poissonovo rozdělení s neznámým parametrem λ . Bodovým odhadem λest jsme se zabývali. V tomto případě má regulační diagram nesymetricky umístěné regulační meze. λλ α estuestHM

21−

+= ,

69

⎭⎬⎫

⎩⎨⎧

−=−

λλ α estuestDM2

1;0max . Pokud DM=0, je regulační diagram jednostranný a u HM

použijeme kvantil α−1u . Jako odhad parametru λ je možno při velkém rozsahu výběru použít i průměrný počet vad na jednom výrobku.

Problematika regulačních diagramů je velmi obsáhlá, využívá se množství „exotic-kých“ (nám neznámých) charakteristik úrovně a variability, a je podrobně zpracována v tech-nických normách.

Témata pro tutoriál (resp. pro cvičení na prezenční formě studia)

1. Převeďte tvary konfidenčních intervalů do grafické podoby.

2. Vysvětlete pojmy spolehlivost a riziko odhadu.

3. Jaký vliv na šířku oboustranného konfidenčního intervalu pro parametr μ mají

• klesající variabilita náhodné veličiny, ze které je výběr pořízen, • rostoucí rozsah výběru n , • rostoucí riziko odhadu α .

4. V této souvislosti experimentujte s vypočteným příkladem v textu a změňte vždy jen jednu hodnotu v zadání a zbývající ponechejte. Rozsah výběru zvyšte na dvojnásob-bek. Spolehlivost odhadu snižte na 0,90. Estimátor parametru σ zmenšete na polo-vinu. Porovnejte vždy s původním intervalem.

5. Kdy použijeme při stanovení konfidenčního intervalu pro parametr μ kvantily Studen-tova rozdělení? Kdy kvantily normovaného normálního rozdělení?

6. Stanovte vztah mezi přípustnou chybou Δ a minimálním rozsahem výběru n pro pří-klad z úlohy 4. Hodnoty Δ volte postupně 4, 3, 2, 1. Vztah mezi veličinami zná-zorněte graficky. Jak budete postupovat, pokud rozsah výběru nebude celé číslo a spolehlivost odhadu nesmí v žádném případě klesnout pod 0,95?

7. Pro konfidenční intervaly kterých z parametrů využijete kvantily Pearsonova rozdě-lení?

8. Uveďte příklady parametrů, jejichž konfidenční intervaly jsou symetrické/nesymet-rické vzhledem k hodnotě statistiky nT .

9. Co znamená zápis [ ] α−=Δ+≤Θ≤Δ− 1nn TTP ? Jak se nazývá veličina Δ ?

10. Jaký vztah je mezi směrodatnou a přípustnou chybou?

11. Šířku kterých konfidenčních intervalů vyjadřujeme absolutně (rozdílem) a kdy pou-žijeme relativní vyjádření (podílem)?

12. Napište směrodatnou a přípustnou chybu pro intervalový odhad parametru θ .

13. Kvantily kterého rozdělení se využívají při konstrukci (přibližného) konfidenčního intervalu pro parametr λ Poissonova rozdělení? Jde o symetrický nebo nesymetrický interval?

14. Na čem závisí hodnota tolerančního součinitele pro oboustranný toleranční interval?

15. S jakou pravděpodobností dojde k překročení libovolné vnější regulační meze pro průměr, pokud každá leží ve vzdálenosti tří směrodatných chyb od nominální hod-noty. Kolika násobek směrodatné chyby odpovídá pravděpodobnosti překročení libovolné regulační meze rovné 0,01?

70

3.4 Testování hypotéz o parametrech rozdělení Techniky testování hypotéz lze bez nadsázky označit jako „vlajkovou loď“ matema-tické statistiky. Formulace a ověřování hypotéz nejsou vlastní pouze statistice, ale tvoří zá-kladní mechanismus postupu lidského vědění v mnoha oborech. Statistika čerpá potřebné informace z náhodných výběrů z rozdělení pravděpodobnosti náhodných veličin.

Pole pro testování statistických hypotéz je neobyčejně široké a zahrnuje bez přehánění stovky různých testů a jejich variant. V této části se zaměříme na testy o nezná-mých parametrech některých rozdělení pravděpodobností. Z předchozí kapitoly již víme, že parametry rozdělení jsou důležité konstanty, bez nichž se neobejde např. řízení kvality (nemusíme „hlídat“ hodnotu náhodné veličiny na každé vyrobené součástce, stačí, když máme pod kontrolou parametry rozdělení), ale mnoho dalších oborů lidské činnosti.

Tím, že informace, které jsou k dispozici, pocházejí z náhodných výběrů, je vytvořen prostor pro selhání procedury testování. Výsledek testu nutně nemusí být v souladu s (ne-známou) skutečností.

Základní principy Statistickou hypotézou rozumíme apriorní předpoklad o určitých vlastnostech náhod-

né veličiny (např. o její úrovni nebo variabilitě) vyslovený nezávisle na konkrétních informa-cích o ní.

Obecně testované hypotézy o parametrech rozdělení formulujeme nejčastěji tak, že

• náhodný výběr pochází z rozdělení náhodné veličiny, jejíž parametr je roven před-pokládané hodnotě c=Θ ,

• dva náhodné výběry pochází z rozdělení náhodných veličin se stejnou hodnotou parametrů 021 =Θ−Θ ,

Proti testované (říkáme také nulové) hypotéze stavíme její protiklad — alternativní hypotézu. Např. 0, 21 ≠Θ−Θ≠Θ c .

Smyslem testování hypotéz je zamítnutí nulové hypotézy a přijetí hypotézy alternativní. Pouze v tomto případě, kdy se testovaná hypotéza ukáže jako neudržitelná, lze hovořit o jednoznačném výsledku testu. Pokud se nulovou hypotézu nepodaří zamítnout, nelze to považovat za důkaz její správnosti, neboť současně lze zpravidla sestrojit nekonečně mnoho dalších (různých) nulových hypotéz, které by společně s původní za daných okolností zůstaly rovněž nezamítnuty. Testy vycházející z tohoto principu nazýváme testy významnosti a pou-ze těmito testy se nadále budeme zabývat.

Vzhledem k tomu, že při testování hypotéz jsme odkázáni na informace z náhodného výběru, existuje riziko, že výsledek testu nebude v souladu s realitou.

Formulace testované a alternativní hypotézy

Formulace testované (nulové) hypotézy 0H a alternativní hypotézy 1H . Např. testo-vanou (nulovou) hypotézu, že „plnicí linka je správně nastavena“, budeme formulovat jako

cH =μ:0 (kde c je požadované množství výrobku v obalu), kdežto alternativu můžeme zformulovat různě – např. jako cH ≠μ:1 – „plnicí linka je nesprávně nastavena“, jako

cH <μ:1 – „linka plní menší množství“ případně cH >μ:1 – „linka plní větší množství“.

Hypotézu, která obsahuje pouze jeden možný případ (takovou hypotézou je právě testovaná hypotéza obsahující =), označíme jako jednoduchou. Alternativní hypotéza je naproti tomu hypotézou složenou, a to buď oboustrannou ( ≠ ) nebo jednostrannou (>, <).

71

V souvislosti s tím se hovoří též o jednostranných a oboustranných testech. Podobně jako u konfidenčních intervalů je vhodný tvar alternativní hypotézy odvozen od konkrétního řeše-ného problému.

Hladina významností Hladina významnosti α je pravděpodobnost (riziko) nesprávného zamítnutí pravdivé nulové hypotézy. Tuto pravděpodobnost lze (na rozdíl od pravděpodobnosti nesprávného nezamítnutí nepravdivé hypotézy) předem zvolit. Prakticky se hladina významnosti často volí na hodnotách 01,0;05,0 == αα (tj. stejně jako v předchozím odstavci riziko odhadu), případně podle okolností na jiných vhodných hodnotách. Pozor – v souvislosti s nižší hod-notou α se hovoří o vyšší hladině významnosti.

Testové kritérium Testové kritérium je náhodná veličina – statistika, jejíž rozdělení pravděpodobnosti za

předpokladu platnosti nulové hypotézy je známo. Jsou tedy známy i jeho kvantily, resp. pravděpodobnosti, že se testové kritérium odchýlí od své předpokládané hodnoty o více, než je libovolná zadaná hodnota. Častými testovými kritérii jsou náhodné veličiny s nor-movaným normálním rozdělením, Studentovým, Pearsonovým a mnoha dalšími. Pro někte-ré testy jsou dokonce sestrojena unikátní testová kritéria. Hypotézy, ke kterým nelze sestrojit testové kritérium, nelze testovat.

Obor „přijetí“ a kritický obor Obor hodnot testového kritéria, do kterého při platnosti nulové hypotézy a zvolené

hladině významnosti α kritérium padá prakticky jistě – tj. s pravděpodobností α−1 , nazý-váme oborem „přijetí“ (měli bychom spíše říkat nezamítnutí, protože testovanou hypotézu vlastně nelze přijmout) testované hypotézy. Doplňkem oboru přijetí je tzv. kritický obor, v němž je výskyt testového kritéria za předpokladu platnosti testované hypotézy jevem prak-ticky nemožným. Pokud se v něm tedy hodnota testového kritéria přesto nachází, svědčí to s velkou pravděpodobností o její neudržitelnosti a ve prospěch alternativní hypotézy. Hranice kritického oboru tvoří tzv. kritické hodnoty, které jsou zároveň i kvantily rozdělení testového kritéria. U oboustranných testů, na které se až na nezbytné výjimky omezíme, je kritický obor

testového kritéria tvořen vždy dvěma samostatnými intervaly, které ohraničují vlevo %2

100 α

a vpravo )%2

1(100 α− kvantil testového kritéria. Pokud má testové kritérium např.

Kritický obor testového kritéria U

rozdělení [ ]1;0N , je kritický obor oboustran-ného testu při hladině významnosti 05,0=α tvořen všemi hodnotami testového kritéria, které buď nedosahují kritické hodnoty

=−=−

21

2αα uu 96,1975,0 −=− u nebo přesahu-

jí kritickou hodnotu 96,1975,02

1+==

−uu α .

0

0.2

0.4

- 3 2 α u

- 1 0 1

21 α−

u u

φ ( u )

Kritický obor

Obor “přijetí”

72

Interpretace výsledků Jednoznačným výsledkem testu je zamítnutí testované hypotézy a přijetí hypotézy

alternativní. Pokud je předmětem testování rozdíl skutečné a předpokládané hodnoty para-metru, hovoří se v tomto případě o prokázání významného (zvykově na hladině 05,0=α ), resp. vysoce významného (zvykově pro 01,0=α ), rozdílu. Pokud existující rozdíl nepostačí k zamítnutí nulové hypotézy, hovoří se o statisticky nevýznamném rozdílu.

Selhání testu Protože jsme při testování odkázáni na informace z náhodného výběru, je přirozené, že

výsledek testu nemusí být vždy v souladu se skutečností.

• Nastane-li případ, že testovaná hypotéza je sice pravdivá, ale hodnota testového kritéria přesto padne do kritického oboru, dojde k neoprávněnému zamítnutí testované hypotézy – k chybě prvního druhu. Pravděpodobnost tohoto výsledku je předem známá a dokonce volitelná – jde o pravděpodobnost odpovídající zvolené hladině významnosti α .

• Nastane-li opačný případ, tj. že testovaná hypotéza není pravdivá, ale testové kritérium přesto nepadne do kritického oboru, dojde k neoprávněnému neza-mítnutí nepravdivé testované hypotézy – chybě druhého druhu. Zatímco pravdě-podobnost chyby prvního druhu je předem známá a volitelná, lze pravděpodob-nost chyby druhého druhu β stanovit (nejde o triviální problém) až po známém výsledku testu. Tato pravděpodobnost je totiž proměnlivá a navíc nepřímo úměr-ná pravděpodobnosti chyby prvního druhu (čím nižšíα , tím vyšší β ).

Síla testu Velmi důležitou kategorií je síla testu β−1 , což je pravděpodobnost oprávněného zamít-

nutí testované hypotézy. Problematikou síly testů se kvůli její náročnosti zabývat nebudeme, ale musíme alespoň upozornit na to, že je-li rozdíl skutečné a předpokládané hodnoty parametru (např. θσμ ,, 2 apod.) malý, je při malém rozsahu výběru velmi obtížné hypotézu zamítnout (síla testu je malá a reálně hrozí, že i nepravdivá hypotéza zůstane nezamítnuta). Opačným případem je situace, kdy při extrémně vysokém rozsahu výběru (takové případy se stávají, typicky např. při testování hypotéz o tvaru rozdělení) je každý i sebemenší rozdíl bezdůvodně indikován jako významný a i pravdivou hypotézu tedy „nelze nezamítnout“.

V souvislosti s chybami při testování si můžeme položit otázku, co můžeme očekávat při mnohonásobném opakovaném provádění statistického testu.

• Při jednotlivých pokusech je pravděpodobnost, že se dopustíme chyby prvního a druhého druhu, dána pravděpodobnostmi βα , a uživatel (pokud jsou tyto prav-děpodobnosti malé) vůbec nemusí kalkulovat s tím, že se těchto chyb skutečně dopustí.

• Při mnohonásobném opakování určitého testu je naopak prakticky jisté, že 100α % výsledků bude nesprávných z titulu neoprávněného zamítnutí pravdivé hypotézy a 100 β % výsledků bude nesprávných z titulu nezamítnutí nepravdivé hypotézy (které výsledky to konkrétně jsou, se pochopitelně nikdy nedozvíme).

73

Jednovýběrové testy o parametrech některých rozdělení Veškeré potřebné údaje o některých nejfrekventovanějších testech shromáždíme do

tabulky. Tvar alternativních hypotéz a kritických oborů vypovídá o tom, že jde o oboustranné testy.

Přehled jednovýběrových testů

Hypotéza

0H 1H Testové kritérium Kritický obor Stupně

volnosti Podmínky

testu

c=μ c≠μ n

cXU n

σ−

= );;(2

12

1∞<∪>−−∞

−−αα uu známé σ

nebo 30>n

c=μ c≠μ n

ScXt

n

n

1−

−= );;(

21

21

∞<∪>−−∞−−

αα tt 1−n

neznámé σ a

30≤n

c=2σ c≠2σ c

Sn n2

12 )1( −−=χ );;0( 2

21

2

2

∞<∪>−

αα χχ 1−n

c=θ c≠θ n

cccpU

)1( −−

= );;(2

12

1∞<∪>−−∞

−−αα uu 9)1( >− cnc

c=λ c≠λ n

ccXU n −

=

);;(2

12

1∞<∪>−−∞

−−αα uu

30>nc

Příklad testu

Ověříme hypotézu, že tvrzení výrobce o střední hodnotě životnosti součástky 2400 hodin je pravdivé, tj. 2400:0 =μH proti alternativě 2400:1 ≠μH . Zvolíme obě obvyklé hla-diny významnosti (tj. 0,05 i 0,01). Náhodný výběr má 426,2022,25 1 === −nsxn .

Realizace testového kritéria z předchozí tabulky 44,4

25426

24002022−=

−=t .

Hranice kritického oboru jsou pro [ ] 064,22405,0 975,0 ±=±= tα zatímco pro [ ] 797,22401,0 995,0 ±=±= tα . Testové kritérium spadá do kritického oboru při obou hladi-

nách významnosti. Testovanou hypotézu tedy na obou hladinách zamítáme, přijímáme hypo-tézu alternativní. Rozdíl mezi udávanou a skutečnou životností můžeme označit za vysoce významný.

74

Poznámky k příkladu:

• stejný rozdíl v čitateli testového kritéria může být podle okolností prohlášen za nevýznamný, významný či vysoce významný, protože vypočtená hodnota testo-vého kritéria závisí také na variabilitě náhodné veličiny (nebo jejím odhadu) a rozsahu výběrového souboru,

• odpovídající si konfidenční intervaly a testy hypotéz jsou ve vzájemně jednoznač-ném vztahu – je-li na hladině významnosti α testovaná hypotéza o neznámém parametru cH =Θ:0 zamítnuta, pak konfidenční interval při riziku α neobsahuje číslo c, a naopak,

• k předchozímu bodu dodáváme, že nejde o zbytečné zdvojení problematiky, ne-boť ne ke všem testům lze sestrojit odpovídající konfidenční intervaly,

• o pravdivosti tvrzení, že při extrémně malém rozsahu výběru je obtížné testo-vanou hypotézu zamítnout, se můžeme přesvědčit, pokud bychom položili 5=n , protože vypočtená hodnota testového kritéria by v tomto případě padla do oboru „přijetí“ (t = –1,98),

• naproti tomu při extrémně velkém rozsahu výběru např. n = 1000, by byl za vyso-ce významný prohlášen už rozdíl v čitateli přesahující hodnotu 38 hodin,

• k řešení této konkrétní úlohy by byl zřejmě vhodnější jednostranný test s alterna-tivní hypotézou c:1 <μH ,

• test v příkladu je všeobecně známý pod názvem t-test.

Dvouvýběrové testy o parametrech rozdělení Všechny údaje o těchto testech opět prezentujeme v podobě tabulky. Podoba alter-

nativní hypotézy a jí odpovídající vymezení kritického oboru odpovídají oboustranným tes-tům.

Upozorňujeme na nejpoužívanější test hypotézy 0: 210 =− μμH , u kterého přichází v úvahu tyto varianty:

• Dva nezávislé výběry buď se známými rozptyly 22

21 ,σσ (případně s velkými

rozsahy výběrů 21 , nn ) nebo s neznámými rozptyly, které jsou nahrazeny bodo-vými odhady 2

221 , SS . Poslední případ vyžaduje provést nejprve ověření tzv. homo-

genity rozptylů. Podle výsledku testu o rozptylech se pak volí odpovídající testové kritérium. Tento případ ponecháme stranou, protože bychom museli zavést další náhodnou veličinu (F).

• Dva závislé výběry s párově uspořádanými dvojicemi měření ii yx , (kdy

21 nn = ). V tomto případě nahrazujeme zjištěné hodnoty jejich rozdíly ve dvoji-cích iii yxd −= a

2

11

)(1

1,1 ∑∑==

−−

==n

iid

n

ii dd

nsd

nd .

75

Přehled dvouvýběrových testů Hypotéza

0H 1H Testové kritérium Kritický obor Stupně

volnosti Podmínky testu

021 =− μμ 021 ≠− μμ

2

22

1

21

21

nn

XXUσσ

+

−= );;(

21

21

∞<∪>−−∞−−

αα uu Nezávislé výběry, známé rozptyly nebo velké rozsahy výběrů

021 =− μμ 021 ≠− μμ

2)1()1(

21

222

211

21

21

21

−+−+−+

−=

nnSnSn

nnnn

XXt );;(2

12

1∞<∪>−−∞

−−αα tt 221 −+ nn Nezávislé výběry, neznámé

homogenní rozptyly

021 =− μμ 021 ≠− μμ 21221

212

21 nnSnSn

XXt+

−= );;(

21

21

∞<∪>−−∞−−

αα tt

redukované (je třeba spočítat)

Nezávislé výběry, neznámé nehomogenní rozptyly

0)( =DE 0)( ≠DE nDS

Dt)(

= );;(2

12

1∞<∪>−−∞

−−αα tt 1−n Párově uspořádané výběry,

YXD −=

122

21 =

σσ 12

2

21 ≠

σσ 12

2

21 ≥=

SS

F );2

1∞<

−αF 1;1 21 −− nn Test homogenity rozptylů

021 =− θθ 021 ≠− θθ

2121

22112211

21

)())((

nnnnpnpnnpnpn

ppU

+−−+

−= );;(

21

21

∞<∪>−−∞−−

αα uu Velké rozsahy výběrů

Testy na 2., 3. a 5. řádku ponecháváme stranou.

76

Statistické přejímky Statistická přejímka je typickým příkladem využití techniky testování hypotéz v praxi.

Statistická přejímka je procedura, která na základě náhodného výběru při předávání hromad-né dodávky umožňuje dospět k jednomu ze dvou rozhodnutí: dodávku přijmout nebo odmít-nout. Pravděpodobnost chyby prvního druhu je riziko dodavatele (kvalitní dodávka bude od-mítnuta), pravděpodobnost chyby druhého druhu je riziko odběratele (nevyhovující dodávka bude přijata).

Kontrola výrobků je prováděna buď měřením nebo srovnáváním. Výhody rychlejší a levnější kontroly srovnáváním jsou „zaplaceny“ podstatně vyšším rozsahem výběru, který je v tomto případě potřebný k přijetí rozhodnutí.

Přejímací plán při přejímce srovnáváním je uspořádaná dvojice čísel {n; c}, kde n je rozsah výběru a c je akceptační číslo (je to takový maximální počet vadných výrobků ve výběru, při kterém dodávku ještě přijmeme).

Pravděpodobnost přijetí dodávky se nazývá operativní charakteristika a je funkcí p (podílu vadných výrobků), n a c. Označuje se L( p, c, n) .

Typickým rozdělením při přejímce srovnáváním je hypergeometrické rozdělení počtu vadných výrobků x ve výběru o rozsahu n z dodávky N výrobků, mezi nimiž je M vadných (jsou-li splněny podmínky, toto rozdělení lze aproximovat binomickým, normálním, případně Poissonovým rozdělením).

Obě strany přejímky (dodavatel, odběratel) stanoví své podmínky. Dodavatel stanoví přípustnou úroveň kvality 0p a riziko α , že dodávka s těmito parametry bude odmítnuta. Odběratel stanoví nepřípustnou úroveň kvality 1p (jde-li o podíl vadných výrobků v dodávce, je 01 p>p ) a riziko β , že dodávku této kvality bude muset přijmout.

Je třeba zdůraznit, že statistická přejímka má smysl v pouze případě, že dodavatel je (s určitým úsilím) schopen dostát požadavkům odběratele na kvalitu. Jsou-li požadavky odběratele na kvalitu dodávek snadno splnitelné nebo naopak zcela nesplnitelné, je zřejmé, že statistická přejímka nemá smysl (její výsledek by byl předem známý). Z tohoto pohledu je tedy statistická přejímka nejen technickou, ale i navýsost ekonomickou záležitostí.

K problematice statistických přejímek existuje rozsáhlá literatura, včetně několika technických norem, které ji upravují.

77

3.5 Některé další testy hypotéz (ukázky) Testování shody rozdělení

Náhodný výběr z rozdělení pravděpodobnosti může být malého rozsahu (v tom případě bude zpravidla netříděný) nebo velkého rozsahu, přičemž může být tříděný nebo netříděný. Probereme pouze případ výběru velkého rozsahu n, tříděného do k intervalů. Testuje se hypotéza, že hodnoty jsou náhodným výběrem z určitého rozdělení pravděpodobnosti. Pokud jsou známy parametry tohoto rozdělení, hovoříme o úplně specifikovaném problému, pokud parametry rozdělení neznáme, jde o neúplně specifikovaný problém.

Princip testu spočívá v obou případech v tom, že pozorované (empirické, skutečné) čet-nosti ),...,2,1( kini = v jednotlivých intervalech se porovnávají s četnostmi očekávanými (vypočtenými, teoretickými) in′ , stanovenými pro příslušné rozdělení pravděpodobnosti ná-hodné veličiny.

Testovým kritériem je veličina ∑= ′

′−=

k

i i

iin

nn

1

22 )(

χ , která má za předpokladu platnosti

testované hypotézy Pearsonovo rozdělení s počtem stupňů volnosti, který je

• u úplně specifikovaného problému, kdy jsou známy parametry, dán jako ,1−k

• u neúplně specifikovaného problému, kdy je třeba z výběru nejprve odhadnout parametry rozdělení a teprve pak určovat příslušné teoretické četnosti, roven

1−− pk , kde p je počet odhadovaných parametrů.

Podmínkou použití Pearsonova rozdělení je 5>′in ve všech intervalech. V případě, že tato podmínka není splněna, je třeba sousední intervaly spojit, čímž dojde k poklesu počtu stupňů volnosti testového kritéria.

Příklad testu dobré shody Ověříme hypotézu, že výběr o rozsahu 80=n tříděný do 5=k intervalů pochází

z rovnoměrného rozdělení se známými parametry 100,0 == βα . Hladina významnosti 05,0=α .

Pracovní tabulka k testu dobré shody

Vypočtená hodnota 3750,32 =χ .

Tabulková hodnota [ ] 49942950 ,, =χ .

Hypotézu tedy není možno zamítnout.

Teoretické četnosti in′ se stanovují

• pro diskrétní náhodnou veličinu jako součin rozsahu výběru n a hodnoty pravdě-podobnostní funkce P(x),

Vymezení Intervalu

Empirickáčetnost

Teoretická četnost

i

ii

nnn′

′− 2)(

)20;0 11 16 1,5625)40;20 20 16 1,0000)60;40 14 16 0,2500)80;60 16 16 0,0000)100;80 19 16 0,5625

Součet 80 80 3,3750

78

• pro spojitou náhodnou veličinu ),( 11 xnFn =′ další hodnoty jsou pak stanoveny jako ))()(( 1−−=′ iii xFxFnn a poslední hodnota ))(1( 1−−=′ kk xFnn kde )( xF je distribuční funkce.

Poznámky k příkladu:

• Test pomocí kritéria 2χ se nazývá testem dobré shody.

• Kritický obor tohoto testu je množina všech hodnot testového kritéria, které přesa-hují hodnotu )%1(100 α− kvantilu rozdělení 2χ – tento test existuje jen jako jed-nostranný (žádné rozdělení nemůže z principu být např. „rovnoměrnější“ nebo „normálnější“, než rozdělení rovnoměrné nebo normální).

• Nejčastěji se pomocí testů shody rozdělení (kterých je velký počet – viz různé situace naznačené na začátku tohoto odstavce) ověřuje normalita rozdělení pravděpodobnosti náhodné veličiny.

Odlehlé hodnoty

• Tradiční řešení problému identifikace odlehlých hodnot reprezentuje např. Grub-bsův test extrémních odchylek, založený za předpokladu normálního rozdělení

[ ]2;σμN na tom, že [ ] 05,0046,02 =<=>− ασμXP . Při této hladině význam-nosti tedy považujeme za odlehlou hodnotu každou hodnotu h, pro kterou

12 −>− nn SXh .

Příklad tradičního přístupu

Je dán uspořádaný náhodný výběr 2, 3, 4, 5, 6, 7, 8, 9, 100, 100, pro který 4,24=x a 9,391 =−ns . Pro hodnotu 100=h je 189,14,24100 −=− ns a hodnota 100 není tedy, jistě pře-

kvapivě, identifikována jako odlehlá.

Použití aritmetického průměru a směrodatné odchylky není pro řešení problému odlehlých hodnot příliš efektivní a vede často k výsledkům, které jsou v rozporu s logikou.

• K řešení problému identifikace odlehlých hodnot lze s úspěchem využít robustní-ho přístupu založeného na charakteristice MAD (median absolute deviation), tj. prostřední (mediánové) absolutní odchylce od mediánu jako robustní charak-teristice variability. MAD je prostřední v řadě uspořádaných odchylek xx i

~)( − a

mezi ní a směrodatnou odchylkou je vztah 6745,0

MADest =σ , kde σ je směrodatná

odchylka [ ]2;σμN . Klasické kritérium 12 −>− nn SXh je tedy nahrazeno krité-

riem 6745,0

2~ MADxh >− .

Příklad robustního přístupu Pro uspořádaný náhodný výběr z předchozího příkladu je medián roven 5,6 a

3=MAD . Proto 9,86745,0

2 =MAD . Jako odlehlá tedy bude označena každá hodnota, jejíž od-

chylka od mediánu je větší než právě vypočtená hodnota. To se týká hodnoty 100, u níž je tato odchylka rovna 5,93 .

79

Tento odstavec chápeme současně jako malou demonstraci významu „neklasických“ robustních metod ve statistice. Je třeba si ovšem uvědomit, že žádná metoda nedokáže identifikovat hrubé chyby za situace, kdy je hrubou chybou zatížena podstatná část pozo-rování.

Rozhodnutí o vyloučení odlehlé hodnoty je vždy problematické. Nevyloučení odlehlé hodnoty, která je hrubou chybou, představuje problém, stejně jako vyloučení odlehlé hodnoty, která hrubou chybou není. Výskyt odlehlých hodnot lze běžně očekávat u silně asymetrických rozdělení s jedním dlouhým koncem, kde není samozřejmě důvod je vylučo-vat.

Ověření normality Jak jsme již uvedli, jedním z nejfrekventovanějších požadavků je ověření předpokladu normality rozdělení. Existuje řada testů založených na různých principech. Jedním z pro uživatele nejjednodušších (pokud má k dispozici příslušný program), ale nepříliš exaktních způsobů ověření normality, je použití normálního pravděpodobnostního grafu. Tento graf má na svislé ose hodnoty distribuční funkce normálního rozdělení. Ta je v grafu transformována do rostoucí přímky. Tečkový diagram netříděného náhodného výběru má v případě normality přibližně tvar této přímky. Jiné tvary svědčí proti hypotéze o normalitě. Posouzení je ovšem subjektivní záležitostí uživatele.

Normální pravděpodobnostní grafy

Na obrázku vlevo je 50 hodnot náhodné veličiny, generované jako [ ]22;10N . Na ob-rázku vpravo je tentýž počet hodnot generovaný z exponenciálního rozdělení s parametrem

10=δ . Na první pohled je vidět nelineární průběh a přítomnost jedné extrémně odlehlé hodnoty. Toto je ovšem snadný případ, protože rozdělení na obrázcích jsou známá.

Neparametrické metody a testy

Neparametrické metody předpokládají takové úpravy v datech, kterými se neznámé rozdělení (za cenu ztráty části informace obsažené v datech), převede na rozdělení známé. Jednou z těchto metod je tzv. znaménková metoda, kterou se hodnoty náhodného výběru z neznámého spojitého rozdělení převedou na posloupnost symbolů dvojího druhu (např. znamének + a –), čímž je úplně ztracena informace o jejich velikosti.

80

Nechť nXXX ,...,, 21 je náhodným výběrem z neznámého spojitého rozdělení s me-diánem 50,0x . Testovaná hypotéza cxH =50,00 : proti oboustranné alternativě

cxH ≠50,01 : . Počet kladných odchylek od mediánu v souboru o rozsahu n označíme jako

náhodnou veličinu Z. Tato veličina má binomické rozdělení se střední hodnotou 2

)( nZE = a

rozptylem 4

)(2 nZD = . Je-li rozsah výběru dostatečně velký, lze potom veličinu n

nZU −=

2

aproximovat rozdělením [ ]1;0N . Kritický obor testového kritéria je stejný jako u všech ostat-ních oboustranných testů s kritériem U.

Příklad znaménkové metody Pro výběr o rozsahu 50=n předpokládáme hodnotu mediánu 33050,0 =x . V da-tech bylo ovšem zjištěno celkem 35=z kladných odchylek od této hodnoty. Ověříme hypo-tézu o hodnotě mediánu na hladině významnosti 01,0=α .

Vypočtená hodnota testového kritéria .83,250

50352=

−⋅=u Porovnáním s hranicemi

kritického oboru, tj. hodnotami 576,2± dospíváme k závěru, že hypotéza je na hladině 01,0=α neudržitelná a je třeba ji zamítnout.

Další používanou neparametrickou metodou je metoda pořadová, při níž nahra-

zujeme hodnoty uspořádaného náhodného výběru pořadovými čísly, čímž se (za cenu ztráty informace o rozdílech sousedních hodnot) dostáváme k diskrétnímu rovnoměrnému roz-dělení.

Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Tvrdím, že hlavním účelem testování je dokázat pravdivost testované hypotézy. Mám

pravdu? Pokud ne, uveďte na pravou míru.

2. Rozeberte pojmy hypotéza jednoduchá/složená, jednostranná/oboustranná a přiřaďte je k testované a alternativní hypotéze.

3. Rozeberte pojem hladina významnosti.

4. Proč hovoříme o oboru „přijetí“ (v uvozovkách)?

5. Vyhledejte v tabulce jednovýběrových testů testová kritéria ve tvaru )( n

n

TDcT − ( nT je

statistika a )( nTD je její směrodatná chyba).

6. Testové kritérium nepadlo/padlo do kritického oboru. Které chyby je možno/není mož-no se v obou případech dopustit?

81

7. Doplňte následující „slepou“ tabulku

Výsledek testu zamítnutí nezamítnutí pravda Testovaná hypotéza je

nepravda

8. Jaký vztah je mezi konfidenčním intervalem pro parametr Θ při riziku α a výsledkem testu cH =Θ:0 při hladině významnosti α ?

9. Propočtěte čtvrtý a pátý bod poznámek k příkladu o testování parametru μ .

10. Náhodný výběr z Poissovona rozdělení je tvořen hodnotami 1, 2, 2, 0, 4, 0, 1, 2, 3, 1, 1, 1, 0, 1, 1, 1, 0, 1, 2, 0. Ověřte hypotézu 5,2:0 =λH proti oboustranné alternativě

5,2:1 ≠λH na hladině významnosti 05,0=α .

11. Při srovnání dvou měřicích přístrojů bylo deset vzorků měřeno na obou přístrojích. Rozdíly naměřených hodnot jednotlivých vzorků jsou 3,3,2,2,1,4,3,1,0,2 −−=id . Ověřte na hladině významnosti 0,01 hypotézu o shodě naměřených hodnot.

12. Charakterizujte styčné body a hlavní rozdíly testování hypotéz a statistické přejímky.

13. Algoritmus údajně generuje realizace náhodné veličiny s Poissonovým rozdělením. Výsledky generování pro 50 hodnot jsou tříděny v tabulce.

ix in0 71 122 173 74 55 2

Testem dobré shody ověřte pro 05,0=α hypotézu, že jde skutečně o náhodný výběr z Poissonova rozdělení s parametrem λ , který nejprve vypočtěte z dat (tj. jde o ne-úplně specifikovaný problém). Nezapomeňte zapracovat podmínku 5>′in .

14. Jak vypadá a k čemu slouží normální pravděpodobnostní graf?

15. Které „triky“ (mimo jiné) se u neparametrických testů používají k transformaci nezná-mého rozdělení na známé? K jakým ztrátám informace z dat při tom dochází?

82

Shrnutí třetí kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou

• klasifikace úloh s náhodnými veličinami podle množství informace, která je k dis-pozici o jejich zákonech rozdělení a parametrech,

• pojem náhodného výběru a jeho atributy,

• přehled nejdůležitějších výběrových charakteristik – statistik,

• rozdělení pravděpodobnosti veličin ∑=

n

iiUU

1

22 , a t a jejich parametry (pojem stup-

ně volnosti),

• rozdělení pravděpodobnosti výběrového průměru, výběrového rozptylu a výběro-vé relativní četnosti, jejich střední hodnoty a rozptyly,

• chování výběrového průměru v souvislosti s rostoucím rozsahem výběru,

• princip bodového odhadu a jeho použití, kritéria výstižnosti a jejich vztah k chy-bám odhadu,

• metody konstrukce bodových odhadů (metoda výběrových protějšků),

• princip a vlastnosti intervalového odhadu (ve srovnání s bodovým odhadem),

• tvary konfidenčních intervalů včetně jejich grafického znázornění,

• pojmy spolehlivost a riziko, směrodatná a přípustná chyba,

• praktický výpočet některých konfidenčních intervalů (pro λθσσμ ,,,, 2 ),

• vztahy mezi vypovídací hodnotou a šířkou konfidenčního intervalu a stanovení mi-nimálního rozsahu výběru,

• interpretace tolerančních intervalů a regulačních diagramů (rámcově),

• princip a základní pojmy testování hypotéz o parametrech rozdělení,

• obecný postup při testování (od formulace hypotéz po interpretaci výsledků),

• možná selhání statistických testů významnosti a jejich interpretace,

• praktický výpočet probraných jedno– a dvouvýběrových testů s důrazem na interpretaci výsledků,

• interpretace statistické přejímky (rámcově),

• testování tvaru rozdělení na příkladu testu dobré shody,

• možné přístupy k identifikaci odlehlých hodnot,

• interpretace neparametrických metod a testů (rámcově).

83

Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor

• další statistiky, jejich rozdělení pravděpodobnosti (zavedení Fisherova-Snedeco-rova rozdělení F), a charakteristiky,

• uspořádané výběry, pořádkové statistiky a jejich rozdělení,

• podstatné prohloubení problematiky teorie bodových odhadů,

• rozšíření bodových odhadů o další případy,

• problematika maximálně věrohodných odhadů,

• rozšíření intervalových odhadů o další případy (např. konfidenční intervaly pro rozdíl nebo podíl dvou parametrů),

• stanovení pravděpodobnosti chyby druhého druhu a měření síly testů,

• podstatné rozšíření testů o parametrech rozdělení o další případy,

• podstatné rozšíření problematiky testování shody rozdělení (výběry malého roz-sahu, netříděné výběry),

• podstatné rozšíření problematiky neparametrických metod a neparametrických testů,

• aplikace metod matematické statistiky na statistickou regulaci a přejímku.

K této problematice existuje množství titulů propastně se lišících zejména nároky, kte-ré jsou kladeny na matematickou průpravu čtenáře. Kromě odborné literatury se této proble-matice věnuje i řada technických norem, a to nejen pokud jde o problematiku statistické regulace a přejímky. Literaturu odpovídající schopnostem a zaměření konkrétního zájemce lze dohledat na internetu v nabídkách knihkupectví a knihoven, zejména vysokoškolských. Za všechny můžeme doporučit vybrané kapitoly z knih

• MELOUN, M., MILITKÝ, J. Kompendium statistického zpracování dat. Praha: Ka-rolinum, 2013, 984 stran. ISBN 978-80-246-2196-8.

• HENDL, J. Přehled statistických metod. Praha: Portál, 2012, 734 stran. ISBN 978-80-262-0200-4.

84

Kapitola 4 Metoda nejmenších čtverců V pokusných podmínkách se často setkáme se situací, kdy experimentátor aktivně

nastavuje hodnoty jedné – tzv. vysvětlující veličiny a měří hodnoty druhé – vysvětlované veličiny, která je vůči ní v příčinné souvislosti. Vysvětlující veličina je tedy veličinou řízenou s pevně nastavenými hodnotami. Vysvětlovaná veličina je pozorovanou (náhodnou) veličinou, jejíž hodnoty zčásti souvisí s hodnotou vysvětlující veličiny, ale zčásti závisí na náhodě.

4.1 Regresní úloha Takovouto závislost nazýváme příčinnou stochastickou jednostrannou závislostí

(veličiny jsou nezaměnitelné, ale jejich závislost je vždy vzájemná). Cílem je změřit průběh závislosti (případně směr závislosti, pokud je její průběh monotónní) a intenzitu závislosti. Úlohu o měření takto formulované závislosti nazýváme regresní úlohou.

Adekvátní metodou pro řešení regresní úlohy je Gaussova metoda nejmenších čtverců. Ta prokládá naměřenými hodnotami regresní čáru a intenzitu závislosti měří pomo-cí tzv. indexu korelace. Omezení, která přijmeme při řešení regresní úlohy, je použití funkce jedné proměnné, která je současně lineární v parametrech.

Hodnoty řízené vysvětlující veličiny X a pozorované hodnoty vysvětlované náhodné veličiny Y představují body v rovině o souřadnicích ];[ ii yx pro ni ,...,2,1= , kde n je rozsah souboru (tj. celkový počet dvojic hodnot v úloze).

Deterministická a stochastická závislost v tečkových diagramech

Grafické znázornění se nazývá tečkový diagram. Zatímco v případě tzv. deter-ministických závislostí (typických např. pro klasickou fyziku) leží body na určité matematické čáře a případné odchylky jsou způsobeny pouze chybami měření, tak v případě stochas-

x x

y y

85

tických závislostí jde o „mračno“ bodů, kdy je třeba tvar regresní funkce (přímka, parabola, hyperbola, …) vyvodit ze zákonitostí příčinného vztahu mezi oběma veličinami a její para-metry (tj. číselné koeficienty v rovnici funkce) je třeba vypočítat z konkrétních dat.

Na tečkovém diagramu si povšimněte

• že obě závislosti mají monotónní rostoucí průběh – v tomto případě hovoříme o pozitivní závislosti a v opačném případě by šlo o závislost negativní,

• že v případě stochastické závislosti leží pozorované hodnoty vysvětlované veliči-ny přesně na regresní funkci pouze náhodou.

4.2 Měření průběhu závislosti Jako regresní funkce volíme mezi funkcemi lineárními v parametrech – pak jde o tzv. lineární regresi – funkce s co nejmenším počtem parametrů a jednoduchým průběhem. Účelem měření průběhu závislosti je vystihnout základní zákonitosti vztahu vysvětlující a vy-světlované veličiny, nikoli to, aby funkce prošla co největším počtem pozorovaných hodnot.

Funkce lineární v parametrech

Funkci jedné proměnné )(xfy = nazveme lineární v parametrech, pokud ji lze vyjád-

řit ve tvaru ∑=

=m

jjj xfby

0

)( (tj. součtu součinů – skalárního součinu), kde jb jsou parametry

funkce a index mj ,...,2,1,0= signalizuje, že funkce obsahuje absolutní člen 0b . Funkce )(xf j jsou regresory funkce, které nesmí obsahovat žádné další parametry. Funkcemi line-

árními v parametrech jsou např. všechny polynomiální funkce ,, 11010

−+=+= xbbyxbby 2

210 xbxbby ++= … atd. a mnoho dalších typů. Nejjednodušší regresní funkcí je první z uvedených funkcí – regresní přímka. Funkcemi, které nejsou lineární v parametrech (nelze

je zapsat výše uvedeným způsobem), jsou např. xb bbbyxbb

yxby 21010

0 ,1,1 +=+

== a

rovněž mnoho dalších. Vzhledem k tomu, že právě tato druhá kategorie funkcí patří mezi mimořádně důležité, řekneme aspoň, že hodnoty jejich parametrů hledáme pomocí tzv. nelineární regrese, jejíž výklad ovšem přesahuje možnosti tohoto textu.

Pozorované a vypočtené hodnoty Z bodového diagramu stochastické závislosti vyplývá, že u vysvětlované veličiny Y se

hodnoty pozorované a odpovídající hodnoty ležící na regresní funkci zpravidla liší. Musíme tedy rozlišovat

• pozorované hodnoty vysvětlované veličiny, které značíme iy ,

• vypočtené hodnoty vysvětlované veličiny ležící na regresní funkci, které značíme iy ′ .

Pozorované hodnoty se také někdy nazývají empirické a vypočtené hodnoty teore-tické nebo vyrovnané.

Regresní funkci proto budeme důsledně značit )(xfy =′ a na ní ležící hodnoty (její body) )( ii xfy =′ . To na vysvětlenou, proč se index i ve vzorcích někdy objevuje a někdy ne.

86

Kritérium nejmenších čtverců

Vztah ∑=

→′−n

iii yy

1

2 min)( se nazývá kritérium nejmenších čtverců. Princip metody

nejmenších čtverců spočívá v nalezení minima uvedeného výrazu pro regresní funkci zvole-ného typu (zvolit adekvátní typ funkce je zcela na zkušenostech uživatele). Pro funkce line-ární v parametrech je úloha – tzv. lineární regrese – snadno řešitelná, protože jde o klasický případ nalezení extrému funkce položením prvních parciálních derivací neznámých (těmi jsou v tomto případě hledané parametry regresní funkce uživatelem předem zvoleného typu) nule.

Pokud nějaká funkce vyhovuje kritériu nejmenších čtverců, splňuje současně i krité-

rium ∑=

=′−n

iii yy

1

0)( , které říká, že kladné a záporné odchylky pozorovaných a vypočtených

hodnot se kompenzují. Toto kritérium však neurčuje regresní funkci jednoznačně.

Soustava normálních rovnic Položíme-li každou z 1+m parciálních derivací kritéria nejmenších čtverců podle pa-rametrů mbbb ,...,, 10 nule, získáme soustavu 1+m normálních rovnic, které jsou pro reg-resní funkci lineární v parametrech lineárními rovnicemi s neznámými mbbb ,...,, 10 . Hodnoty neznámých vypočteme řešením této soustavy lineárních normálních rovnic.

Tento postup ukážeme na příkladu uživatelem apriori zvolené kvadratické funkce 2

210 xbxbby ++=′ .

Kritérium nejmenších čtverců je v tomto případě ∑=

→−−−n

iiii xbxbby

1

22210 min)( .

Neznámé jsou 210 ,, bbb a budeme tedy řešit soustavu tří lineárních normálních rovnic. Operátor sčítání nemá na derivování žádný vliv (jen ho opisujeme). Derivovaná funkce je složená. Derivace složené funkce je součinem derivací vnější (druhá mocnina) a vnitřní (obsah závorky) funkce.

Takže parciální derivace postupně podle 210 ,, bbb

∑∑

=

= −−−−=∂

−−−∂ n

iiii

n

iiii

xbxbbyb

xbxbby

1

2210

0

1

22210

)1)((2)(

∑∑

=

= −−−−=∂

−−−∂ n

iiiii

n

iiii

xxbxbbyb

xbxbby

1

2210

1

1

22210

))((2)(

∑∑

=

= −−−−=∂

−−−∂ n

iiiii

n

iiii

xxbxbbyb

xbxbby

1

22210

2

1

22210

))((2)(

Jednoduchou úpravou a položením všech tří parciálních derivací nule získáme sou-stavu normálních rovnic ve tvaru

87

01

22

1 110 =−−− ∑∑ ∑

== =

n

ii

n

i

n

iii xbxbnby

01

32

1 1

21

10 =−−− ∑∑ ∑∑

== ==

n

ii

n

i

n

ii

n

iiii xbxbxbyx

01

42

1 1

31

1

20

2 =−−− ∑∑ ∑∑== ==

n

ii

n

i

n

ii

n

iiii xbxbxbyx

Všechny součty určíme z konkrétních dat a soustavu vyřešíme libovolným způsobem.

Výpočet parametrů Jednou z možností je využít maticový výpočet, kde sloupcový vektor parametrů

⎥⎥⎥

⎢⎢⎢

⎡=

2

1

0

bbb

b stanovíme jako yFFFb TT 1)( −= , kde

⎥⎥⎥⎥

⎢⎢⎢⎢

=

ny

yy

:2

1

y je sloupcový vektor pozorovaných hodnot vysvětlované veličiny,

matice F – matice regresorů – má v tomto konkrétním případě tvar

⎥⎥⎥⎥

⎢⎢⎢⎢

=

2

222

211

1:::

11

nn xx

xxxx

F , má

tedy rozměr )1( +× mn . Symbol T je operátorem transpozice matice a –1 je operátorem inverze matice. Matice obsahuje jedničky v prvním sloupci, pokud regresní funkce obsahuje absolutní člen. V tomto případě je regresor 1)( 0

0 == xxf u parametru 0b , u parametru 1b

je regresor xxxf == 11 )( a konečně regresor 2

2 )( xxf = u parametru 2b . Matici regresorů je třeba tedy vždy sestavit individuálně v souladu s konkrétním tvarem regresní funkce.

Maticový výpočet lze bez potíží realizovat v programu MS Excel pomocí matema-tických funkcí pro násobení matic (a vektorů), inverzi a transpozici matice (vektoru).

Všimněte si, že v tomto případě soustavu rovnou řešíme, aniž bychom ji museli pře-dem sestavovat.

Pro úplnost – pro náš příklad tvoří čtvercovou matici ⎥⎥⎥

⎢⎢⎢

=

∑∑∑∑∑∑∑∑

432

32

2

iii

iii

iiT

xxxxxxxxn

FF

koeficienty u parametrů v soustavě normálních rovnic. Vektor ⎥⎥⎥

⎢⎢⎢

⎡=

∑∑∑

2i

ii

iT

xyx

yyF obsahuje ab-

solutní členy rovnic (obsahující hodnoty iy ). Pro přehlednost jsme si dovolili vynechat hra-nice pro sčítání, které jsou ve všech případech od 1 do n.

88

4.3 Měření intenzity závislosti Stochastická závislost nefunguje tak, že buď je nebo není. Naopak – existuje neko-

nečná škála jejích možných intenzit od úplné stochastické nezávislosti, až po determinis-tickou (pevnou, funkční) závislost, která ovšem není předmětem našeho zájmu. Tento fakt vyvolává nutnost měřit a porovnávat intenzity různých stochastických závislostí.

Rovnice rozkladu součtu čtverců Součet čtverců odchylek pozorovaných hodnot vysvětlované veličiny od průměru

2

1

)(∑=

−n

ii yy je tvořen součtem dvou složek – součtem čtverců odchylek vypočtených hodnot

iy ′ kolem průměru (platí yy ′= ), tj. 2

1

)(∑=

−′n

ii yy a součtem čtverců odchylek pozorovaných

kolem vypočtených hodnot ∑=

′−n

iii yy

1

2)( (což je kritérium nejmenších čtverců).

Rovnice rozkladu součtu čtverců je tedy

2

1

)(∑=

−n

ii yy = 2

1

)(∑=

−′n

ii yy +∑

=

′−n

iii yy

1

2)( .

Levá strana rovnice měří celkovou variabilitu vysvětlované veličiny, složky na pravé straně jsou postupně variabilita vypočtených hodnot – jinak řečeno, část variability vysvětlované veličiny, která je objasněna závislostí na vysvětlující veličině – objasněná variabilita a variabilita pozorovaných hodnot kolem vypočtených – nevysvětlená, reziduální, variabilita (která jde na vrub jiných, v úloze neobsažených činitelů – např. náhody).

Smyslem této rovnice je porovnat objasněnou a celkovou variabilitu vysvětlované veli-činy.

Index determinace

Podíl 100)(

)(100

1

2

1

2

2

=

=

−′= n

ii

n

ii

yy

yyI udávaný v procentech měří podíl (v %) vysvětlené

variability na variabilitě celkové a nazývá se index determinace. Má-li být úloha hodnocena jako „úspěšná“, je žádoucí, aby se tento podíl blížil hodnotě 100 %. Naopak podíl reziduální variability by měl být co nejmenší. Neadekvátní (a neočekávané) podíly obou složek varia-bility mohou mít více důvodů

• nevhodná volba tvaru funkce uživatelem (pokud je průběh závislosti např. para-bolický, tak ho nevystihne sebelepší přímka),

• závislost vysvětlované na zvolené vysvětlující veličině je skutečně slabá (má níz-kou intenzitu), např. proto, že vysvětlující veličina byla zvolena nevhodně,

• přítomnost vlivných bodů nebo heterogenity v datech což lze mnohdy odhalit na tečkovém diagramu.

89

Index korelace Druhá odmocnina indexu determinace (který je udán jako desetinné číslo, nikoli v %)

2II = pro 10 ≤≤ I je bezrozměrná charakteristika – index korelace –, který se používá jako charakteristika intenzity závislosti v regresní úloze. O jeho hodnotách platí to, co bylo řečeno v souvislosti s indexem determinace. Vzhledem k tomu, že má vždy kladné zna-ménko, nevypovídá o směru závislosti (pozitivní, negativní), který je třeba vyvodit z průběhu regresní čáry. Pokud ovšem funkce není monotónně rostoucí nebo klesající, nelze o směru závislosti hovořit vůbec.

Vlivné body a heterogenita dat Vlivným bodem nazveme takový bod (měření, pozorování), který nápadným způsob-bem mění charakteristiky závislosti. Rozlišujeme dva typy vlivných bodů:

• Odlehlé, které leží ve směru regresní funkce, příliš nemění její parametry, ale přispívají k nereálnému zvýšení intenzity závislosti. K přítomnosti odlehlých bodů dochází, pokud experimentátor nemá řízenou vysvětlující veličinu „tak úplně“ pod kontrolou. Typicky – je-li regresní čarou přímka, pak odlehlý bod ležící ve směru přímky její průběh nemusí nijak zvlášť ovlivnit, ale rozhodně zvýší hodnotu inde-xu korelace.

• Vybočující, které leží mimo směr regresní funkce, mění hodnoty jejích parametrů a snižují intenzitu závislosti.

Další „bolestí“ je, pokud experimentátor neudrží pod kontrolou podmínky experimentu a dojde k tomu, že datový soubor je vytvořen spojením dat z dvou nebo více fakticky odliš-ných experimentů. Tomuto jevu se říká heterogenita dat a pokud je přítomna, jsou výsledky měření závislosti prakticky neočekávatelné a mnohdy směřují proti logice vztahu.

Všechny uvedené případy se společně nazývají defekty v datech.

4.4 Příklad regresní úlohy Mějme určitý algoritmus jehož asymptotickou složitost předpokládáme ve třídě N, kde N je délka vstupu. Vysvětlující veličina regresní úlohy je tedy délka vstupu, kterou pro tento případ označíme obvyklým způsobem, tj. jako řízenou veličinu X. Vysvětlovanou veličinou Y je čas potřebný ke zpracování úlohy na mikroprocesoru s taktovací frekvencí 1 MHz (jeden cyklus mikroprocesoru tedy trvá 10–6 sekundy). Byly náhodně generovány pětice expe-rimentálních řetězců vstupních hodnot určitých vlastností o pevných délkách. Pozorované časy zpracování úlohy jsou v mikrosekundách ( sμ ). Příklad je silně schematický, ve sku-tečnosti by bylo k dosažení seriozních výsledků třeba provést o několik řádů více pokusů. Smyslem úlohy je (pokud algoritmus skutečně patří do třídy N) ukázat, že regresní funkcí je přímka procházející počátkem (eventuálně s kladným absolutním členem blízkým nule) a s kladnou směrnicí nepřesahující hodnotu jedna.

Datová tabulka pro 20=n

ix [tis.] [ ]s

yi

μ

10 9,4 9,7 9,2 9,8 8,8 30 22,0 28,0 20,5 21,5 17,0 50 37,5 37,0 33,9 34,4 45,0 80 72,0 62,5 62,1 53,7 63,8

90

Soustava normálních rovnic pro přímku je

∑ ∑∑∑ ∑

=−−

−−

0210

10

iiii

ii

xbxbyx

xbnby

a její koeficienty vypočteme z dat jako ∑ ∑ ∑ ==== 49500850208,657 2iii xxny

∑ = 38257ii yx . Matice ⎥⎦

⎤⎢⎣

⎡=

4950085085020

FFT a matice k ní inverzní (vypočteno pomocí

funkce INVERZE v MS Excel) [ ] ⎥⎦

⎤⎢⎣

⎡−−

−=−

0547664,70318,0003178,0185047,01

ET FF

. Vektor ⎥⎦

⎤⎢⎣

⎡=

382758,657

yFT . Vynásobením inverzní matice uvedeným vektorem zprava získáme

sloupcový vektor parametrů ⎥⎦

⎤⎢⎣

⎡=

7701,01594,0

b .

Rovnice regresní funkce je tedy xy 7701,01594,0 +=′ a zbývá určit index determi-ace 2100I a index korelace I .

Průměry 89,32=′= yy a součty čtverců odchylek vysvětlované veličiny jsou pro

pozorované hodnoty ∑ =− 68,29913)( 2yyi a pro vypočtené 80,28663)( 2∑ =−′ yyi .

Z čehož %82,95100.68,2991380,28663100 2 ==I a 9789,0958217,0 ==I .

Vypočtené hodnoty iy ′ získáme dosazením hodnot ix do rovnice regresní přímky.

Graf vypočtené regresní přímky

xy 7701,01594,0 +=′

y = x

doba

výp

očtu

v μ

s

délka řetězce [v tis.]

91

Lze konstatovat, že intenzita závislosti je vysoká a doba výpočtu v sμ je téměř z 96 % determinována (a tudíž vysvětlena) různou délkou vstupních dat. Zbývajících něco přes 4 % připadají na individualitu jednotlivých generovaných řetězců dat. V úvodu jsme uvedli, že experimentální řetězce byly generovány podle určitých pravidel. Pokud by vlast-nosti řetězců byly ponechány náhodě, byl by poměr vysvětlené a nevysvětlené složky variability jiný, a to nepochybně v neprospěch vysvětlené složky. Připomínáme, že příklad jsme deklarovali jako silně zjednodušující. Vážně bychom se tímto problémem snad mohli zabývat, pokud vstupních dat (řetězců) by bylo o několik řádů více.

V předešlém grafu jsou vyneseny vstupní hodnoty a z nich vypočtená přímka. Graf je doplněn o přímku xy = , která odpovídá složitosti třídy N.

4.5 Kalibrace Při laboratorních měřeních často řešíme opačnou úlohu, než je úloha regresní. Tzv.

kalibrace spočívá v určení kalibrační funkce, která je určena k nalezení neznámé hodnoty vysvětlující veličiny na základě známé hodnoty veličiny vysvětlované.

Kalibrační funkce

Je-li )(xfy =′ regresní funkcí, je inverzní funkce )(1 yfx −=′ funkcí kalibrační. Pro jednoduchost budeme jako regresní funkci uvažovat regresní přímku xbby 10 +=′ . Odpoví-

dající kalibrační přímkou je 1

0

1 bb

byx −=′ . V zájmu dosažení maximální spolehlivosti výsledku

se konstruuje symetrický oboustranný konfidenční interval pro přímku pro uživatelem zada-nou spolehlivost odhadu. Konkrétní postup (vzorce jsou relativně složité) neuvádíme, ale v principu jde o stanovení směrodatné chyby regresní přímky (která je rovněž výběrovou charakteristikou – statistikou) a poloviční šířka konfidenčního intervalu (který má tvar části roviny) je pak dána jako její přípustná chyba (všechno jsou pojmy ze třetí kapitoly).

Odhady hodnot vysvětlující veličiny

Na základě naměřené hodnoty ky vysvětlované veličiny můžeme pomocí kalibrační funkce získat buď bodový nebo intervalový (symetrický konfidenční interval pro odhadova-nou hodnotu) odhad odpovídající hodnoty vysvětlující veličiny kx .

Vzorce je třeba hledat v příslušné literatuře, my se omezíme pouze na schematickou grafickou prezentaci tohoto problému. K tomu použijeme příklad pro vztah mezi délkou vstupu a časem potřebným ke zpracování úlohy, pro bodový i intervalový odhad se spo-lehlivostí 0,95. Řekněme, že hledáme délku vstupu kx , pokud zpracování úlohy trvalo

syk μ55= .

2,717701,01594,0

7701,055

1

0

1

=−=−=bb

by

x kk . Takže bodovým odhadem délky vstupu je 71,2 [tis.

položek].

Uvedený výsledek je schematicky znázorněn na následujícím obrázku.

92

Bodový odhad délky vstupu při známé době zpracování úlohy

Po výpočtu, který neuvádíme, získáme výsledek, který říká, že se spolehlivostí 0,95

leží hledaná hodnota délky vstupu v rozmezí 2,75;2,67 . Intervalový odhad délky vstupu pro zadanou dobu zpracování úlohy tedy uvedeme bez výpočtu, pouze graficky.

Intervalový odhad délky vstupu při známé době zpracování úlohy

Vypovídací hodnota (nepřímo úměrná jeho šířce) konfidenčního intervalu závisí na

počtu provedených pozorování při výpočtu regresní přímky, na velikosti její směrodatné chy-by (která je nepřímo úměrná intenzitě závislosti) a zvolené spolehlivosti odhadu.

55=ky

2,71=kx

Hranice konfidenčního

intervalu regresní přímky

55=ky

93

Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Pokuste se uvést příklady deterministických (inspirujte se klasickou fyzikou) a sto-

chastických (třeba ze života) závislostí. Identifikujte vždy vysvětlující a vysvětlovanou veličinu (upozorňujeme, že v mnoha případech jsou obě veličiny zaměnitelné).

2. Co nejpřesněji charakterizujte regresní úlohu.

3. Vysvětlete rozdíl mezi lineární a nelineární regresí. Souvisí tyto pojmy nějak s přímo-čarostí, resp. křivočarostí průběhu závislosti?

4. Vysvětlete, co znamená měřit průběh, směr a intenzitu závislosti a jak se nazývají k tomu určené charakteristiky. Za jakých podmínek nelze hovořit o směru závislosti?

5. K čemu slouží tečkový diagram závislosti a jaké defekty v datech pomocí něho může-me pozorovat?

6. Jak nazveme funkci, jejíž první parciální derivace podle všech parametrů jsou lineár-ními funkcemi?

7. Identifikujte funkce lineární v parametrech

xbby 10 ⋅= , x

bby 110 += , xbby 10 += , xbby log10 +=

a napište jejich regresory )(),( 10 xfxf .

8. Mezi následujícími funkcemi identifikujte možné regresory ( z je neznámý parametr)

zx1

, ,lg 2 x xzlg , xln

1, z xln , xzln .

9. Načrtněte jednoduchý bodový diagram (nejlépe odpovídající regresní přímce s něko-lika málo body), na kterém graficky vysvětlíte princip metody nejmenších čtverců. Zejména vyznačte kritérium nejmenších čtverců a nezapomeňte na to, že kladné a záporné odchylky od regresní funkce se kompenzují.

10. Pro funkce, které jste určili v úloze 7 jako lineární v parametrech, proveďte první par-ciální derivace podle parametrů, sestavte soustavy normálních rovnic a najděte pro ně konkrétní tvary matic FFT a vektorů yFT .

11. Určete regresní funkce, kterým odpovídají soustavy normálních rovnic

0

0

10

10

=−−

=−−

∑∑∑ ∑

iiii

ii

xbxbxy

xbnby ,

∑ ∑ ∑∑ ∑

=−−

=−−

0

04

12

02

210

iiii

ii

xbxbxy

xbnby

Vyjděte z toho, že koeficienty u parametrů každé normální rovnice jsou dány vynáso-bením celé rovnice regresorem stojícím u příslušného parametru. Meze pro sčítání jsme opět pro větší přehlednost vynechali.

12. Pro přímku, která má tvar xy 9856,00376,0 +=′ , přičemž vysvětlovaná veličina je uvedena v tunách a vysvětlující veličina v hodinách, určete rozměry obou parametrů.

13. Co rozumíme pod pojmem rovnice rozkladu součtu čtverců odchylek pro vysvětlo-vanou veličinu?

14. Objasněte pojem reziduální variabilita.

15. Označte případy, které jsou podle vás možné

∑ ∑ −′≤− 22 )()( yyyy ii , ∑ ∑ −′=′− 22 )()( yyyy iii

94

Meze pro sčítání jsme opět pro větší přehlednost vynechali.

16. Jaký vztah je mezi aritmetickými průměry pozorovaných a vypočtených hodnot vy-světlované veličiny?

17. Vysvětlete vztah mezi indexem determinace a indexem korelace.

18. Lze pro některou z obou situací v úloze 15 dokonce bez dalšího určit index determi-nace a index korelace? Pokud ano, jakých hodnot tyto charakteristiky nabývají?

19. Data v tabulce (jsou dvě varianty hodnot vysvětlované veličiny)

ix 1 5 10 20 50

iy 9 15 20 60 240

iy 105 115 120 128 140

vyrovnejte pomocí vhodných funkcí z dvojice 21010 , xbbyxbby +=′+=′ , tj. vypoč-

těte pro ně rovnici regresní funkce, index determinace a index korelace. Data a reg-resní funkce znázorněte v tečkovém diagramu (ten vám současně umožní vybrat vhodný typ funkce pro každá data).

20. Porovnejte výsledky úlohy 19 s těmi, které dostanete při vyrovnání přímkou (která datům nevyhovuje). Zaměřte se zejména na indexy determinace a indexy korelace.

21. Co je kalibrace a jak spolu souvisí regresní a kalibrační funkce?

22. Vraťte se k úloze o kalibrační přímce a odpovězte na otázku, jaký vliv na vypovídací hodnotu intervalového odhadu vysvětlující veličiny má

• zvýšení rozsahu datového souboru při výpočtu přímky, • zvýšení indexu determinace, • zvýšení spolehlivosti odhadu (např. z 0,95 na 0,99).

23. Jakou hodnotu má přípustná chyba odhadu v našem řešeném příkladě (samotný po-jem viz kapitola 3).

95

Shrnutí čtvrté kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou

• základní pojmy jako vysvětlující a vysvětlovaná veličina, deterministická a sto-chastická závislost, regresní úloha, průběh, směr a intenzita závislosti,

• grafické znázornění stochastické závislosti pomocí tečkového diagramu a identifi-kace defektů v datech,

• pojem regresní funkce lineární v parametrech jako skalárního součinu parametrů a regresorů a jako funkce, jejíž všechny první parciální derivace podle parametrů jsou lineální funkce,

• rozlišení lineární a nelineární regrese a regrese s přímočarým a křivočarým prů-během,

• rozdíl mezi pozorovanými a vypočtenými hodnotami vysvětlované veličiny,

• princip metody nejmenších čtverců, kritérium nejmenších čtverců,

• vytvoření soustavy lineárních normálních rovnic položením prvních parciálních derivací podle parametrů nule,

• maticový výpočet parametrů regresní funkce v programu MS Excel,

• rozklad součtu čtverců pozorovaných hodnot vysvětlované veličiny kolem jejího aritmetického průměru (rovnice rozkladu součtu čtverců),

• index determinace a index korelace, jejich vztah a vlastnosti,

• praktický výpočet regresní funkce lineární v parametrech a její grafické znázor-nění, výpočet indexu determinace a indexu korelace a interpretace vypočtených hodnot,

• stanovení bodového (a rámcově i intervalového) odhadu hodnoty vysvětlující veli-činy na základě známé hodnoty veličiny vysvětlované (kalibrace).

Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor Samotný minimální rozsah této kapitoly naznačuje, že jde jen o pouhý zlomek široké prob-lematiky měření stochastických závislostí. Problematika měření závislostí je natolik rozsáhlá, že po skončení studia této kapitoly nemá ani smysl uvádět, co všechno zůstalo vynecháno a zamlčeno. Různě pojaté a na různém stupni náročnosti rozvíjené kapitoly o měření stochas-tických závislostí jsou běžnou součástí mnoha odborných knih z oblasti statistiky. V této sou-vislosti platí doporučení ze závěru 3. kapitoly, včetně tam doporučovaných studijních pomů-cek.

Kvantily Pearsonova rozdělení [ ]12 −npχ p

1−n 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995

1−n

4 9

14 19 24 29

0,21 1,73 4,07 6,84 9,90

13,10

0,30 2,09 4,66 7,63

10,90 14,30

0,48 2,70 5,63 8,91

12,40 16,00

0,71 3,33 6,57

10,12 13,80 17,70

1,06 4,17 7,79

11,65 15,70 19,80

7,78 14,68 21,06 17,20 33,20 39,10

9,49 16,92 23,68 30,14 36,40 42,60

11,14 19,02 26,12 32,85 39,40 45,70

13,28 21,67 29,14 36,19 43,00 49,60

14,86 23,59 31,32 38,58 45,60 52,30

4 9

14 19 24 29

Tabelovány jsou hodnoty, pro které pF p =)( 2χ . Tabulka je maximálně zestručněna na úrovni ukázky. Pro jiné pravděpodobnosti a stupně volnosti je možno použít excelovskou funkci CHIINV[ )1();1( −− np ].

Kvantily Studentova rozdělení [ ]1−ntp p

1−n 0,900 0,950 0,975 0,990 0,995

4 9

14 19 24 29

1,533 1,383 1,345 1,327 1,318 1,311

2,132 1,833 1,761 1,729 1,711 1,699

2,776 2,821 2,625 2,540 2,492 2,462

3,747 3,250 2,977 2,861 2,797 2,756

4,604 3,250 2,977 2,861 2,797 2,756

Tabelovány jsou hodnoty, pro které ptF p =)( . Vzhledem k symetrii platí pp tt −=−1 . Tabulka je maximálně zestručněna na úrovni ukázky. Pro jiné pravděpodobnosti a stupně volnosti je možno použít excelovskou funkci TINV[ )1();1( −− np ] . Pro 30)1( ≥−n se kvantily Studentova rozdělení běžně nahrazují kvantily pu normovaného normálního rozdělení.