gazdaságstatisztika matematikai statisztika alapjai_2017.pdfa matematikai statisztika alapjai...

Budapesti Műszaki és Gazdaságtudományi Egyetem

Gazdaság- és Társadalomtudományi Kar

Üzleti Tudományok Intézet

Menedzsment és Vállalatgazdaságtan Tanszék

Dr. Tóth Zsuzsanna Eszter – Dr. Jónás Tamás – Erdei János

Gazdaságstatisztika

II. rész

A matematikai statisztika alapjai

Oktatási segédanyag

a Gazdálkodási és menedzsment (BA), Műszaki menedzser (BSc),

Nemzetközi gazdálkodás (BA), a Pénzügy és Számvitel (BA)

valamint az Alkalmazott közgazdaságtan (BA) alapszakok részére

Budapest, 2017

GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai

2

Tartalom

1. BEVEZETŐ FOGALMAK ........................................................................................................................ 5

1.1 A MATEMATIKAI STATISZTIKA TÁRGYA ........................................................................................................ 5 1.2 MINTAVÉTEL, MINTAVÉTELI HIBA ................................................................................................................. 5 1.3 SOKASÁGOK CSOPORTOSÍTÁSA ..................................................................................................................... 7 1.4 ISMÉRVEK ..................................................................................................................................................... 8 1.5 MÉRÉSI SKÁLÁK ............................................................................................................................................ 9 1.1.1 Névleges (nominális) skála ................................................................................................................... 9 1.1.2 Sorrendi (ordinális) skála ................................................................................................................... 10 1.1.3 Intervallumskála (különbségskála) ..................................................................................................... 11 1.1.4 Arányskála (abszolút skála) ................................................................................................................ 11

2. LEÍRÓ STATISZTIKA ............................................................................................................................ 12

2.1 A LEÍRÓ STATISZTIKA TÁRGYA .................................................................................................................... 12 2.2 A STATISZTIKAI LEÍRÁS CÉLJA, MÓDSZEREI ................................................................................................. 12 2.2.1 Adatgyűjtés ......................................................................................................................................... 13 2.2.2 Az adatok ábrázolása .......................................................................................................................... 13

2.3 TAPASZTALATI ELOSZLÁSOK ....................................................................................................................... 15 2.3.1 Mennyiségi ismérv szerinti rendezés és osztályozás ........................................................................... 15 2.3.2 Mennyiségi sorok grafikus ábrázolása ............................................................................................... 17

2.4 TAPASZTALATI ELOSZLÁSOK JELLEGZETESSÉGEI ........................................................................................ 23 2.4.1 Helyzetmutatók (középértékek) ........................................................................................................... 23 2.4.2 Választás a középértékek között .......................................................................................................... 29 2.4.3 Kvantilisek .......................................................................................................................................... 30 2.4.4 Szóródási mutatók............................................................................................................................... 33

2.5 FOGALMAK ................................................................................................................................................. 38 2.6 GYAKORLÓ FELADATOK .............................................................................................................................. 39 2.6.1 Feladat ................................................................................................................................................ 39 2.6.2 Feladat ................................................................................................................................................ 42 2.6.3 Feladat ................................................................................................................................................ 45

2.7 ELMÉLETI KÉRDÉSEK................................................................................................................................... 49

3. RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA ........................................................................... 50

3.1 RÉSZ- ÉS FŐÁTLAGOK .................................................................................................................................. 51 3.2 RÉSZ- ÉS FŐSOKASÁGOK VARIANCIÁJA ÉS SZÓRÁSA ................................................................................... 53 3.3 ISMÉRVEK KÖZÖTTI KAPCSOLAT ................................................................................................................. 57 3.4 FOGALMAK ................................................................................................................................................. 58 3.5 GYAKORLÓ FELADATOK .............................................................................................................................. 59 3.5.1 Feladat ................................................................................................................................................ 59 3.5.2 Feladat ................................................................................................................................................ 61

3.6 ELMÉLETI KÉRDÉSEK................................................................................................................................... 63

4. MINTAVÉTEL ÉS BECSLÉS ................................................................................................................. 64

4.1 MINTAVÉTEL ............................................................................................................................................... 64 4.1.1 Mintavételi módok .............................................................................................................................. 64

4.2 PARAMÉTEREK BECSLÉSE ............................................................................................................................ 66 4.3 A BECSLÉS TULAJDONSÁGAI ........................................................................................................................ 67 4.3.1 Torzítatlan becslés .............................................................................................................................. 67 4.3.2 Hatásos becslés................................................................................................................................... 68 4.3.3 Konzisztens becslés ............................................................................................................................. 69 4.3.4 Elégséges becslés ................................................................................................................................ 71

4.4 A PONTBECSLÉS MÓDSZEREI ....................................................................................................................... 71 4.5 INTERVALLUMBECSLÉS ............................................................................................................................... 72 4.5.1 Konfidencia-intervallum a normális eloszlás várható értékére .......................................................... 74 4.5.2 Konfidencia-intervallum a normális eloszlás várható értékére, ha az elméleti szórás ismeretlen ..... 77 4.5.3 Sokasági arány becslése ..................................................................................................................... 78 4.5.4 Sokasági variancia becslése

, ............................................................................................................... 79

4.5.5 A mintanagyság meghatározása ......................................................................................................... 81 4.6 FOGALMAK ................................................................................................................................................. 82


3

4.7 GYAKORLÓ FELADATOK .............................................................................................................................. 82 4.7.1 Feladat ................................................................................................................................................ 82 4.7.2 Feladat ................................................................................................................................................ 83 4.7.3 Feladat ................................................................................................................................................ 84 4.7.4 Feladat ................................................................................................................................................ 85 4.7.5 Feladat ................................................................................................................................................ 86 4.7.6 Elméleti kérdések ................................................................................................................................ 87

5. HIPOTÉZISVIZSGÁLAT ........................................................................................................................ 88

5.1 A HIPOTÉZISVIZSGÁLAT CÉLJA, ESZKÖZEI ................................................................................................... 88 5.1.1 A vizsgálandó hipotézis megfogalmazása ........................................................................................... 89 5.1.2 A próbafüggvény ................................................................................................................................. 90 5.1.3 Kritikus tartomány .............................................................................................................................. 90 5.1.4 A hipotézisvizsgálat lépései ................................................................................................................ 93 5.1.5 A hipotézisvizsgálat során elkövethető hibák ..................................................................................... 93

5.2 FOGALMAK ................................................................................................................................................. 96 5.3 ELMÉLETI KÉRDÉSEK................................................................................................................................... 96

6. STATISZTIKAI PRÓBÁK ...................................................................................................................... 97

6.1 NEMPARAMÉTERES PRÓBÁK ........................................................................................................................ 97 6.1.1 Illeszkedésvizsgálat 2

-próbával ......................................................................................................... 98 6.1.2 Homogenitásvizsgálat 2

-próbával ................................................................................................... 102 6.1.3 Függetlenségvizsgálat 2

-próbával .................................................................................................. 105 6.2 NEMPARAMÉTERES PRÓBÁK ÖSSZEFOGLALÁS ........................................................................................... 108 6.3 PARAMÉTERES PRÓBÁK ............................................................................................................................. 108 6.3.1 Egymintás próbák ............................................................................................................................. 109 6.3.2 Kétmintás próbák .............................................................................................................................. 115 6.3.3 Több független mintás próbák .......................................................................................................... 125

6.4 FOGALMAK ............................................................................................................................................... 131 6.5 TÍPUSFELADATOK ...................................................................................................................................... 131 6.5.1 Feladat .............................................................................................................................................. 131 6.5.2 Feladat .............................................................................................................................................. 133 6.5.3 Feladat .............................................................................................................................................. 135 6.5.4 Feladat .............................................................................................................................................. 136 6.5.5 Feladat .............................................................................................................................................. 137

6.6 ELMÉLETI KÉRDÉSEK................................................................................................................................. 140

7. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS ................................................................................. 141

7.1 KAPCSOLATOK JELLEGE ............................................................................................................................ 141 7.2 A KORRELÁCIÓS KAPCSOLAT SZEMLÉLTETÉSE .......................................................................................... 142 7.3 KORRELÁCIÓ- ÉS REGRESSZIÓELEMZÉS ALAPJAI ....................................................................................... 143 7.3.1 A kétváltozós regressziós modell ...................................................................................................... 144 7.3.2 Korrelációs mérőszámok .................................................................................................................. 150 7.3.3 Intervallumbecslés ............................................................................................................................ 151 7.3.4 A regressziófüggvény eredményeinek ellenőrzése: hipotézisvizsgálatok .......................................... 152 7.3.5 Példák korreláció és regressziószámítása ........................................................................................ 155

7.4 FOGALMAK ............................................................................................................................................... 161 7.5 TÍPUSFELADATOK ...................................................................................................................................... 161 7.5.1 Feladat .............................................................................................................................................. 161 7.5.2 Feladat .............................................................................................................................................. 162 7.5.3 Feladat .............................................................................................................................................. 163 7.5.4 Feladat .............................................................................................................................................. 164

7.6 ELMÉLETI KÉRDÉSEK................................................................................................................................. 166

8. IDŐSOROK ELEMZÉSE, ...................................................................................................................... 167

8.1 AZ IDŐSORELEMZÉS ESZKÖZEI .................................................................................................................. 167 8.2 IDŐSOROK KOMPONENSEINEK VIZSGÁLATA .............................................................................................. 169 8.2.1 Trend becslése mozgó átlagok segítségével ...................................................................................... 172 8.2.2 Szezonalitás vizsgálata ..................................................................................................................... 174 8.2.3 Idősorok szezonális kiigazítása ......................................................................................................... 175


4

8.2.4 Auto- és keresztkorreláció idősorok elemzésénél ............................................................................. 176 8.3 FOGALMAK ............................................................................................................................................... 176 8.4 ELMÉLETI KÉRDÉSEK................................................................................................................................. 176 8.5 TÍPUSFELADATOK ...................................................................................................................................... 177 8.5.1 Feladat .............................................................................................................................................. 177 8.5.2 Feladat .............................................................................................................................................. 179


5

1. Bevezető fogalmak

1.1 A matematikai statisztika tárgya

A matematikai statisztika a valószínűségszámítás önálló fejezete, amely a gyakorlat számára

igen nagy jelentőségű. Eredeti motivációját az olyan véletlen tömegjelenségek, röviden

kísérletek mennyiségi, gyakorisági viszonyainak vizsgálata adta, melyek egyrészt

tetszőlegesen sokszor ismétlődhetnek (ezért tömegjelenségek), és minden megismétlődésük

többféle eredménnyel – kimenetellel járhat. Mindemellett nem tudjuk (esetleg nem akarjuk,

mert nem éri meg utánajárni) pontosan megmondani, kiszámítani, melyik ismétlődés

alkalmával melyik kimenetel következik be (ettől indeterminisztikus a tömegjelenség). Példa

ilyen kísérletre egy pénzérme feldobása: tetszőlegesen sokszor feldobhatjuk, de nem tudjuk

határozottan megjósolni, hogy éppen melyik oldalára esik. Nagy számban végbemenő

tömegjelenség pl. az atomi bomlás, sokszor megismételhető tömegjelenség pl. a

szerencsejáték. A levonható törvényszerűségek statisztikai jellegűek, azaz nagyszámú

végrehajtás során átlagosan érvényes törvények.

A matematikai statisztika lényegét foglalja össze az 1. ábra. Sohasem a teljes sokaságot,

hanem az abból alkalmas módon kivett mintát vizsgáljuk, és a minta jellemzői alapján

kívánunk következtetést levonni a teljes sokaságra vonatkozóan. Hangsúlyozzuk, hogy nem a

minta, hanem a teljes sokaság tulajdonságaira vagyunk kíváncsiak, és következtetéseinket

részleges megfigyelések eredményeire alapozzuk.

1. ábra: Mintavételi alapelvek

1.2 Mintavétel, mintavételi hiba

Statisztikai sokaság: A vizsgálat tárgyát képező egységek összességét, halmazát statisztikai

sokaságnak, vagy röviden sokaságnak nevezzük.

Statisztikai sokaságot alkotnak valamely ország lakosai, családjai, egy vállalat munkavállalói,

ha mindegyiküket pl. életkorukkal, az egy főre jutó átlagjövedelmükkel, vagy a munkában

eltöltött éveik számával együtt vesszük tekintetbe. Ugyanígy statisztikai sokaságot alkotnak

egy üzem egy időegységre vonatkozó termelési adatai, darabszámban vagy forintban, vagy a

Sokaság

Minta

Mintavétel

Következtetés

http://hu.wikipedia.org/w/index.php?title=V%C3%A9letlen&action=edit&redlink=1


6

mezőgazdasági terméseredmények (növény fajtánként vagy területegységenként). Ez utóbbi

esetben az éppen realizálódó értékek sok kisebb vagy nagyobb mértékben ható véletlen

tényezőtől is függnek, s így a megvalósulásra szóba jöhető értékek összessége a konkrét

esetek igen széles körét ölelheti fel. Statisztikai sokasággal állunk szemben minden olyan

esetben, ahol mérésről, megfigyelések gyűjtéséről van szó. Így statisztikai sokasággal

találkozunk a társadalmi-gazdasági vizsgálódások során ugyanúgy, mint a műszaki vagy

természettudományi kutatások esetében.

Amennyiben egy számszerűsíthető tulajdonsággal rendelkező statisztikai sokaságból véletlen

kiválasztással egyedi elemet emelünk ki, eredményül egy véletlentől függő mennyiséget, azaz

egy valószínűségi változót kapunk. A kapott változó eloszlását a statisztikai sokaság

eloszlásának nevezzük.

Ha a statisztikai sokaságból információszerzés céljából véletlenszerűen egyedi elemeket

emelünk ki, mintavételről beszélünk. Ha a sokaság bármely eleme egyenlő valószínűséggel

kerülhet bele a mintába, egyszerű véletlen mintavételről beszélünk.

Statisztikai minta: A statisztikai minta valamely valószínűségi változóra vonatkozó véges

számú független kísérlet vagy megfigyelés (mérés) eredménye: véges sok, azonos eloszlású

független valószínűségi változó együttese.

Az egyes megfigyelési eredményeket a minta elemeinek, a megfigyelések számát a minta

nagyságának vagy elemszámának nevezzük. A minta elemei az alapsokaság eloszlásával

megegyező eloszlású valószínűségi változók.

Mint a felvezetésben láttuk, a matematikai statisztika lényege, hogy a sokaságnak csak egy

részét, vagyis a mintát vizsgáljuk, ezért a statisztikai módszerek alkalmazásakor sohasem

lehetünk biztosak a döntésünkben (kivéve természetesen a 100%-os mintavételt, de az már

nem matematikai statisztika). Következtetésünk természetesen alapvetően a mintán, a

mintából meghatározott jellemzőkön alapul. Ugyanakkor mi nem a minta, hanem az egész

sokaság tulajdonságaira vagyunk kíváncsiak, azaz a részleges megfigyelések eredményeiből

következtetünk a teljes sokaságra. A statisztikai mintavételek és az ebből származó adatokat

felhasználó elemzések, következtetések tehát mindig tartalmaznak hibákat. A hiba szó

jelentése ebben az esetben kissé eltér a hétköznapi szóhasználatban megszokottól. A

statisztikai hiba nem jelent szükségképpen valamilyen tévedést, nem megfelelő

munkavégzést, figyelmetlenséget stb., hiszen a leggondosabban elvégzett mintavétel és

elemzés is tartalmaz hibákat, melyek egy része elkerülhetetlen. A statisztikai hiba, amelynek

egy része a módszertan sajátosságaiból (mintavétel, tömörítés, közelítés, becslés stb.) adódik,

a statisztika szükségszerű velejárója.

A mintavétellel felmerülő hibák alapvetően két nagy csoportba sorolhatók.

Nem mintavételi hiba: A statisztikai hibák közül a mintával kapcsolatos teendőkhöz, az

adatgyűjtéshez kapcsolódó hibát nem mintavételi hibának nevezzük.

A nem mintavételi hiba független attól, hogy teljes körű vagy részleges-e az adatgyűjtés. Ilyen

hibák adódhatnak abból, hogy a vizsgálni kívánt sokaságot nem tudjuk teljesen vagy helyesen

áttekinteni, pontatlan az adatgyűjtés (kérdőív, a mérés stb.), hibásan rögzítik az adatokat stb.

Ezek nagy része elsősorban emberi figyelmetlenségből, nem kellő körültekintésből, hibából (a

szó hétköznapi értelmében), félreértésből stb. származik. Az ilyen hibák tehát függetlenek

attól, hogy a teljes sokaságot vizsgáljuk-e, vagy mintavételt alkalmazunk, ezért ezeket nem

mintavételi hibának nevezzük.


7

Mintavételi hiba: A statisztikai hiba azon része, amely részleges vizsgálatok (mintavétel)

esetén abból adódik, hogy nem a teljes sokaságot figyeljük meg. A sokaság teljes

megfigyeléséről való lemondás ára.

A mintavétel tervezésekor – nem lebecsülve a nem mintavételi hiba jelentőségét – elsősorban

a jól mérhető, számszerűsíthető mintavételi hibából indulunk ki, és olyan eljárásokat

keresünk, amelyek mellett a mintavételi hiba a lehető legkisebb. A mintavételi hiba a sokaság

jellegén, az alkalmazott mintavételi eljáráson és a szóban forgó mutatószám milyenségén

túlmenően alapvetően a mintanagyságtól függ (2. ábra):

2. ábra: A mintanagyság és a mintavételi hiba kapcsolata

Az ábrából látható, hogy a pontosság és az olcsóság (kicsi mintaszám) egymásnak

ellentmondó követelmények: a mintavételi hiba csökkentésének útja a mintanagyság

növelése. A mintavételek tervezésének éppen ez a kiindulópontja.

1.3 Sokaságok csoportosítása

A statisztikai sokaságoknak többféle típusát különböztethetjük meg. Egyrészt léteznek álló és

mozgó sokaságok, másrészt diszkrét és folytonos sokaságok.

Álló sokaság: Az álló sokaság állapotot fejez ki, adatai időpontra értelmezhetőek.

Álló sokaságnak tekinthető például a Budapesti Műszaki és Gazdaságtudományi Egyetem

foglalkoztatottjainak vagy hallgatóinak létszáma 2013. január 1-jén.

Mozgó sokaság: A mozgó sokaság folyamatot fejez ki, időtartamra értelmezhető.

Mozgó sokaság például a BME-nél történő munkaerő-felvétel vagy az új hallgatók száma

2013 folyamán, vagy például a lakossági gázfogyasztás 2012 decemberében.

Diszkrét sokaság: A diszkrét sokaság elkülönülő egységekből áll.

Az elkülönülő egységek lehetnek például vállalatok, hallgatók, foglalkoztatottak stb.

Folytonos sokaság: A folytonos sokaság olyan tömegből áll, amelynek egységeit önkényesen

határozzuk meg.

mintanagyság

mintavételi

hiba

mintanagyság

mintavételi

hiba


8

Folytonos sokaság pl. a gázfogyasztás, kőolajtermelés, búza vetésterülete stb.

A statisztikai sokaság tartalmazhat véges vagy végtelen számosságú egyedet. A társadalmi-

gazdasági jelenségek vizsgálatakor általában véges sokaságokkal van dolgunk, e

megfigyelések ugyanis térben és időben pontosan lehatárolt egyedek összességére

vonatkoznak. Végtelen sokaságokkal a kísérletek tervezése és elemzése során, illetve

különböző folyamatok modellezésénél találkozunk.

1.4 Ismérvek

A sokasággal összefüggő fogalom az ismérv.

Ismérv: Olyan szempont(ok), amely(ek) alapján a sokaságot megfigyeljük, a sokaság

egységeinek jellemzője.

Így ismérv pl. foglalkoztatottaknál a jövedelem nagysága, a nem, a betöltött munkakör,

részvényeknél a hozam vagy az árfolyam.

A sokaság egységei bizonyos jellemzők szerint egyformák, ezek a közös ismérvek. Más

jellemzők tekintetében különböznek, ezek a megkülönböztető ismérvek. Így például, ha

Magyarország területén működő felsőoktatási intézmények képezik a megfigyelt sokaságot

(2013. január 1-jén), a közös ismérvek például a területi megjelölés (Magyarország), a

tevékenység jellege (felsőoktatás), és az időponti megjelölés (2013.01.01.). Megkülönböztető

ismérvek például a foglalkoztatottak száma, a szakok száma, a hallgatók száma, a

tőkeállomány nagysága, az intézmény létesítésének éve stb.

Ismérv változat: Az ismérv lehetséges kimeneteleit ismérv változatnak (tulajdonságnak)

nevezzük.

Alternatív ismérv: A két változattal rendelkező ismérvet alternatív ismérvnek nevezzük.

Például népesség vizsgálata esetén a nemhez való tartozás: férfi, nő, vagy legyártott termékek

vizsgálata esetén: selejtes, nem selejtes.

Mennyiségi ismérv: Méréses jellemző, kvantitatív változó. A sokaság egységeire vonatkozó

számszerű megjelölést jelent, egy számmal írható le, amellyel matematikai műveletek

végezhetők.

Mennyiségi ismérv például foglalkoztatottak esetében a kereset nagysága, vagy az életkor,

gazdálkodó szervezetek esetében például a tőkeállomány.

Nem mennyiségi ismérv: A sokaság egységeire vonatkozóan valamilyen kategóriát rögzít,

típusa szerint lehet időbeli, területi és minőségi ismérv.

Az időbeli ismérv a sokaság egységeire vonatkozó időponti vagy időtartam megjelölést

jelent: pl. egy vállalat létesítésének éve vagy működésének időtartama. A területi ismérv a

sokaság egységeire nézve földrajzi elhatárolást fejez ki (így pl. az egyes felsőoktatási

intézményeket megkülönböztető területi ismérv, hogy melyik megyében találhatók). A

minőségi ismérv (minősítéses jellemző) a sokaság egységeinek valamilyen minőségi


9

tulajdonság szerinti megjelölése (pl. a foglalkoztatottak nem, vagy munkakör szerinti

hovatartozása).

Az ismérvek különböző típusaival összefüggésben foglalkozni kell azok méréselméleti

kérdéseivel. E szempontok figyelmen kívül hagyásával előfordulhat, hogy nem megfelelően

választjuk meg az alkalmazható módszereket, illetve műveleteket.

1.5 Mérési skálák

A mérés során bizonyos hozzárendelési szabályok alapján szimbólumokat, számokat

rendelünk dolgokhoz, tulajdonságokhoz. Ezek a hozzárendelési szabályok, illetve a mérés

során alkalmazott számsoroktól elvárt tulajdonságok határozzák meg a mérési skálát. Ennek

alapján négy különböző skálatípust különböztetünk meg:

1. névleges (nominális) skálát,

2. sorrendi/rangsor (ordinális) skálát,

3. intervallumskálát és

4. arányskálát.

A mérési skálákat, a mérés szintjét a hozzárendelési szabályok határozzák meg. Mindegyik

skálát invarianciájának mértékével lehet jellemezni, vagyis azokkal a transzformációkkal,

amelyek a skála struktúráját változatlanul hagyják.

Mielőtt az egyes skálákat részletesebben ismertetnénk, a számokból alkotható formális

rendszerek néhány lényeges vonását kell megvizsgálnunk. A számok különféle relációk és

műveletek szerint alkothatnak formális rendszert. A rendszert alkotó relációk és műveletek

közül az egyenlőség, a sorrendiség és az additivitás minősül lényegesnek a mérési skálák

meghatározása szempontjából.

Az egyenlőséget, a sorrendiséget és az additivitást a következő axiómák szerint írhatjuk le:

l. vagy A=B vagy AB

2. ha A=B, akkor B=A

3. ha A=B és B=C, akkor A=C

4. ha AB, akkor B<A

5. ha AB és BC, akkor AC

6. ha A=P és B0, akkor A+BP

7. A+B=B+A

8. ha A=P és B=Q, akkor A+B=P+Q

9. (A+B)+C=A+(B+C)

Az 1.-3. axióma az egyenlőség, a 4-5. a sorrendiség, a 6-9. az additivitás (összeadás)

axiómái. Ezeket az axiómákat használjuk a mérési skálák megkülönböztetésére, vagyis a

hozzárendelési szabályok a fenti axiómákban fejeződnek ki.

1.1.1 Névleges (nominális) skála

A névleges mérési szint a legegyszerűbb mérési forma. A névleges skálán az objektumokhoz

rendelt szimbólumok, számok csak az objektumok, vagy azok bizonyos osztályainak

azonosítására szolgálnak. A hozzárendelés teljesen kötetlen, a jelölésre bármilyen szimbólum,

szám alkalmazható. A skálán a megkülönböztethetőséget követeljük meg, csak az egyenlőségi

reláció értelmezhető, ez azt jelenti, hogy két objektum egyenlő vagy különböző.

A névleges számhozzárendelésnek tehát két típusát ismerjük:


10

- az egyedi objektumok azonosító számozása;

- osztályok azonosítása (az egyes osztályokon belül lévő objektumok azonos számot

kapnak).

A jelölésre tehát bármilyen szám megfelel. A hozzárendelési szabály ebben az esetben a

következő: ne rendeljünk azonos számokat különböző osztályokhoz (dolgokhoz) vagy

különböző számokat azonos osztályokhoz (dolgokhoz, jelenségekhez, személyekhez stb.).

Névleges mérési szintet jelent pl. a termékek azonosító számozása, az útlevélszám,

repülőjárat-számok, sportban a mezszámok. Osztályok esetén meghatározható az egyes

osztályokba tartozó egységek száma (tehát a gyakoriság), ill. meghatározható a legnagyobb

gyakorisággal rendelkező osztály (modális osztály), és így a módusz.

1.1.2 Sorrendi (ordinális) skála

A névleges skála továbbfejlesztésének legegyszerűbb lépése, ha két dolgot valamilyen közös

tulajdonság alapján hasonlítunk össze. A gyakorlatban számos olyan eset van, amikor a

megfigyelendő dolgokat valamilyen közös tulajdonságuk alapján hasonlítjuk össze és állítjuk

sorrendbe vagy másképpen kifejezve rangsort készítünk. Hangsúlyoznunk kell, hogy a

sorrendi skálán mért dolgoknak egy közös tulajdonság szerint kell összehasonlíthatóknak és

tranzitívnak lenni.

A sorrendi skála az egységek viszonylagos helyét is meghatározza, rendezi azokat, így az

egyenlőségi axiómákat a sorrendiségét tükröző 4. és 5. axiómával egészítjük ki, vagyis e skála

a kisebb (<) és nagyobb () relációkat is tartalmazza. A sorrendi skálán mért dolgok

nincsenek egymástól egyenlő távolságra, vagyis az egymást követő intervallumok nem azonos

nagyságúak. Ezért a sorrendi skála számaival csak azokat a műveleteket végezhetjük, amelyek

nem tételezik fel az intervallumok azonosságát. Bármilyen „sorrendmegőrző” transzformáció

a skálát változatlanul hagyja, ezért bármelyik monoton növekvő függvény szerint

transzformálhatunk. A statisztikai műveletek közül alkalmazhatjuk a névleges mérésre

engedélyezett műveleteket, továbbá számíthatunk mediánt, kvantiliseket és rangkorrelációs

együtthatót1.

Például a két közismert statisztikai jellemzőt – a számtani átlagot és szórást – szigorúan véve

nem számíthatjuk ki a sorrendi mérés szintjén nyert számokból. A sorrendet jelölő mindegyik

számhoz hozzáadhatunk egy állandó számot vagy vehetjük a sorszámok logaritmusát,

négyzetét, stb., ezek a sorrendmegőrző transzformációk.

Ordinális mérési szintnek felel meg a termékek minőségi osztályba sorolása, kérdőíves

felméréseknél egy-egy kérdésre adott válasz 3, 5, vagy 7 fokozatú skálán történő mérése.

Megjegyezzük, hogy jelenleg számos gazdasági, társadalomtudományi jelenséget csak

sorrendi skálán mérhetünk. Az így kapott számok gyakran magasabb szintű mérésnek tűnnek,

s ezért sajnos gyakori a nem engedélyezett műveletek alkalmazása, amelynek eredménye a

homályos vagy félrevezető értelmezés.

1 A rangkorrelációs együttható tárgyalása nem témája jegyzetünknek. Röviden annyit jegyeznénk meg, hogy a

rangkorrelációs együttható két sorrendi skálán mérhető ismérv közötti kapcsolat szorosságát méri, szemben a

jegyzetben a későbbiekben tárgyalni kívánt korrelációs együtthatóval, amely arányskálán mért ismérvek közötti

kapcsolat szorosságát képes mérni.


11

1.1.3 Intervallumskála (különbségskála)

Az intervallumskála rendelkezik a sorrendi skála tulajdonságaival, továbbá a skálán lévő

bármelyik két pont közötti különbség, távolság (a különbségek összege és aránya) is

értelmezhető. Az intervallumskálát a közös és állandó mértékegység jellemzi és a számokat

ennek alapján rendeljük a sorba rendezett dolgokhoz. Az intervallumskálán nincs rögzített

nullpont, a skála nullpontját és mértékegységét ebben az esetben szabadon választhatjuk meg.

A skála bármilyen lineáris transzformációja megengedett.

A hőmérsékletet véve példaként: ha egyik nyári napon reggel +12°C, 14 órakor +36°C

hőmérsékletet mértek, e két értéket nem lehet összeadni és az összegét értelmezni, vagy nem

lehet azt mondani, hogy 14 órakor háromszor olyan meleg volt, mint reggel. A különbség

viszont, a +24°C hőmérséklet-emelkedés értelmezhető. (Ráadásul, ha a hőmérsékletet nem

Celsius-fokban, hanem Fahrenheit fokban fejezzük ki, egészen más értéket kapunk).

Intervallumskálán mérjük a naptári időt, a tengerszint feletti magasságot, bizonyos

pszichológiai, pszichofizikai jelenségeket, az intelligenciát, a szélességi-hosszúsági köröket, a

vízállást stb. Az intervallumskálán nyert adatokból a mértani átlag és a relatív szórás

kivételével valamennyi statisztikai jellemző és mutató számítható.

1.1.4 Arányskála (abszolút skála)

Az arányskála rendelkezik az előbbi skálák összes tulajdonságával, valamint a 6-9.

axiómákban megfogalmazott additivitási tulajdonsággal is. Az arányskálának valódi

nullpontja van és bármelyik két pontjának aránya független a mértékegységtől. Az

arányskálának mindig van abszolút nullpontja még akkor is, ha ezt gyakorlatilag nem lehet

elérni. Az arányskála számszerű értékei egy konstans értékkel való szorzással

transzformálhatók.

Tömeget, hosszúságot, villamos ellenállást, és általában a klasszikus műszaki tulajdonságokat

arányskálán mérjük. Így az arányskálák a műszaki és természettudományokban gyakoriak,

míg a gazdaság-, társadalomtudományok területén ritkán használatosak. Az arányskálán

kapott számokkal az összes aritmetikai és statisztikai művelet elvégezhető.

A mérési skálák négy szintje hierarchikusan épül egymásra, minden skála rendelkezik az őt

megelőző skála tulajdonságaival is. Az ismérvek és a skálák közötti kapcsolatot szemlélteti az

alábbi ábra (3. ábra).

3. ábra: Az ismérv típusok és a mérési skálák közötti kapcsolat (forrás: Kerékgyártóné et al., 2001)

Ismérv Mérési skála

Területi

Minőségi

Mennyiségi

Időbeli

Nominális skála

Sorrendi skála

Intervallum skála

Arányskála


12

2. Leíró statisztika

2.1 A leíró statisztika tárgya

A számszerű információ, annak mérése és elemzése alapvető szerepet játszik a társadalmi és

gazdasági jelenségek elemzésében. E számszerű adatok a legtöbb esetben azzal a

sajátossággal rendelkeznek, hogy a megfigyelésük, a feldolgozásuk, elemzésük és az elemzés

eredményeinek felhasználása tudományos módszereket igényel.

A statisztika kifejezést többféle értelmezésben is használják. A két legáltalánosabb

értelmezés: 1. statisztikai adatok, illetve azok előállításával kapcsolatos gyakorlati

tevékenység; 2. statisztikai módszertan. Így statisztikának nevezzük a tömegesen előforduló

jelenségek adatait, az ún. statisztikai számanyagot, de azt a tevékenységet is statisztikának

hívjuk, amely az adatok gyűjtését, rendezését, tömörítését, elemzését foglalja magában. A

módszertan pedig az a statisztikai gyakorlati tevékenység, amely a statisztikai következtetések

elméletével, módszereivel foglalkozik (Kerékgyártóné et al., 2001).

A statisztikai módszertannak többféle ágát szokás megkülönböztetni. Az általános statisztikai

módszertanon belül különbséget teszünk leíró (deskriptív) és következtető statisztika között.

A jegyzet e részében a leíró statisztika eszközeivel és módszereivel ismerkedünk.

A leíró statisztika célja a vizsgálat tárgyát képező jelenség tömör, számszerű jellemzése az

adatok rendezése és elemzése alapján. Nem lép túl a megfigyelésen, de a megfigyelt adatok

legjobb megértésére, bemutatására, összefoglaló jellemzésére törekszik gazdag eszköztára

segítségével.

Ezzel szemben a következtető statisztika célja a mintából történő következtetés és

általánosítás a teljes sokaságra vonatkozóan (pl. néhány ezer háztartás jövedelmi adataiból

megfelelő pontossággal megbecsülhető, hogy a magyar lakosság körében milyen jövedelmi

különbségek vannak, vagy a gyártósorról lekerülő termékekből vett minta alapján

következtethetünk a gyártás bizonyos jellemzőire), vagyis a jelenségekre, folyamatokra

vonatkozóan olyan megállapításokat tehetünk, amelyek nem csak a közvetlen megfigyelésen

alapulnak. A mai bonyolult társadalmi-gazdasági jelenségek vizsgálatakor a mintavételes

eljárások a gyakoribbak, mert a jelenségek teljes körű felmérése erőforrás-igényes feladat.

A leíró statisztika a megfigyelt adatok bemutatását, összefoglaló jellemzését tűzi ki célul, és

ehhez az elemzéshez sokoldalú eszköztárt kínál, ebben a fejezetben célunk ennek az

eszköztárnak a bemutatása.

2.2 A statisztikai leírás célja, módszerei

Ahogy azt fentebb is összefoglaltuk, a leíró statisztika a numerikus információk

összegyűjtését, az információk összegzését, tömör jellemzését szolgáló módszereket foglalja

magában, legfontosabb területei:

adatgyűjtés

adatok ábrázolása

adatok csoportosítása, osztályozása

adatokkal végzett egyszerűbb aritmetikai műveletek

eredmények megjelenítése


13

2.2.1 Adatgyűjtés

Az egyedi mérésekből származó adatok (mennyiségi ismérvek) lehetnek diszkrétek és

folytonosak.

Egy diszkrét mennyiségi ismérv csak véges vagy megszámlálhatóan sok, egymástól jól

elkülöníthető értéket vehet fel.

Például háztartások nagysága, téves telefonhívások száma, balesetek száma, adott időszak

alatt bekövetkező gépmeghibásodások száma stb.

Egy folytonos mennyiségi ismérv valamely adott intervallumon belül bármilyen értéket

felvehet.

Például háztartások havi jövedelme, lakások alapterülete, átmérő, nyúlás, gépkocsi abroncsok

futásteljesítménye, nedvességtartalom.

2.2.2 Az adatok ábrázolása

1. Táblázat

Képzési terület Összes hallgató

(fő)

Ebből nő,

%

Tanárképzés, oktatástudomány 53 563 71,2

Művészetek 5 463 56,9

Humán tudományok 26 932 69,1

Társadalomtudományok 44 772 65,0

Gazdaság és irányítás 87 651 66,2

Jog 18 474 61,7

Természettudományok 7 217 47,1

Informatika 12 791 20,8

Műszaki tudományok 50 974 18,3

Mezőgazdaság 11 773 45,5

Egészségügy, szociális gondoskodás 31 751 76,2

Szolgáltatás 29 271 57,3

Összesen 380 632 57,8

4. ábra: Példa oszlopdiagramra


14

5. ábra: Példa kördiagramra

6. ábra: Példa sávdiagramra

7. ábra: Példa vonaldiagramra


15

8. ábra: Adatok ábrázolása piktogram segítségével

2.3 Tapasztalati eloszlások

2.3.1 Mennyiségi ismérv szerinti rendezés és osztályozás

Ebben a fejezetben olyan X mennyiségi ismérvekkel dolgozunk, melyeknek a megfigyelt

sokaság egységeinel fellépő Xi változatai különbségi vagy arányskálán mért, valamilyen

mértékegységgel rendelkező számértékek, mivel osztályozáson túlmenő elemzésre csak így

nyílik lehetőség. Az ilyen mennyiségi ismérvet ezután legtöbbször változónak, az Xi

ismérvértékeket pedig többnyire (ismérv)értékeknek nevezzük.

Az Xi ismérvértékek számszerű jellegében rejlő egyik legkézenfekvőbb lehetőség a sokaság

egységeinek sorba rendezése az X változó nagysága szerint. Ezt rendszerint monoton

nemcsökkenő módon szokás véghezvinni. A sorbarendezés eredményét rangsornak

nevezzük.

A rangsor a megfigyelési egységeknek és/vagy azokhoz tartozó Xi ismérvértékeknek monoton

nemcsökkenő sorrendben történő felsorolása.

A rangsor gyakran kizárólag abból a célból készül, hogy megkönnyítse a sokaság egységeinek

X változó szerinti osztályozását. Az osztályozás már egyértelműen az Xi alapadatokban rejlő

információ sűrítését jelenti. Az X szerinti körültekintő osztályozás eredménye és annak

grafikus ábrája sok információt szolgáltat a vizsgált jelenség természetéről.

Az osztályozás eredményét gyakorisági sornak vagy gyakorisági eloszlásnak nevezzük.

Általános sémáját mutatja az alábbi ábra.


16

9. ábra: Gyakorisági sor

A táblázatban látható alsó és felső határok az X ismérv szerint képzett osztályok

elhatárolására szolgálnak. Az egyes osztályok Xi0 alsó és Xi1 felső határai bizonyos esetekben

egybeesnek, máskor nem. Ez utóbbi esetben osztályközös gyakorisági sorról beszélünk.

Az fi gyakoriságok rendre azt mutatják, hogy a sokaságnak hány egysége tartozik az X változó

szerinti i-edik osztályba.

A belőlük képzett gi gyakoriságok a relatív gyakoriságok: gf

ni

i

A gi relatív gyakoriságok rendre azt mutatják, hogy a sokaságnak hány %-a tartozik az X

változó szerinti i-edik osztályba, vagyis milyen a sokaság megoszlása az egyes osztályok

között.

Az Xi*-gal jelölt osztályközepek arra szolgálnak, hogy a később részletezendő esetekben az i-

edik osztályba sorolt összes ismérvértéket helyettesítsék. Az i-edik osztály osztályközepét az

i-edik osztály alsó és felső határának egyszerű számtani átlagaként adjuk meg:

)(2

110 iii XXX

Térjünk vissza az X ismérv szerint képzett osztályok elhatárolásának kérdésére. Két esetet

célszerű megkülönböztetni:

1. Az X változó diszkrét, és az általa felvehető értékek száma kicsi. Ebben az esetben a

megfigyelt sokaság egységeinek X szerinti osztályozása igen egyszerű. Annyi osztályt

képezünk, ahány különböző X érték lehetséges, és az egyes osztályok a sokaság azon

egységeiből állnak, melyeknél az X ismérvnek egy-egy adott értéke lép fel. Ekkor az i-

edik osztály esetében fennáll az alsó és felső osztályhatár egybeesése.

2. Az X változó folytonos, vagy diszkrét ugyan, de az általa felvehető különböző

értékek száma nagy. Ebben az esetben X lehetséges értékeinek tartományát alkalmas

osztópontok kijelölése útján egymást át nem fedő intervallumokra, ún.

osztályközökre bontjuk, és az i-edik osztályközbe a sokaság azon egységeit soroljuk

be, melyekre nézve 10 ii XXX áll fenn. Mivel az egymást követő osztályközök

nem fedhetik át egymást, az i-edik osztályköz Xi1 felső határa nem eshet egybe az

(i+1)-dik osztályköz Xi+1,0 alsó határával. Az Xi0 legalsó és Xk1 legfelső határ

megadása viszont nem kötelező, mert magához az X változó szerinti osztályozáshoz e

két érték ismerete nem feltétlenül szükséges.

Az X szerint képzett osztály

Osztály-közép

abszolút relatív

alsó felső gyakoriság

határa

X10 X11 X1* f1 g1

X20 X21 X2* f2 g2

Xi0 Xi1 Xi* fi gi

… … … … …

Xk0 Xk1 Xk* fk gk

Összesen N 1


17

Osztályközhosszúságnak a 01 iii XXh különbséget szokás tekinteni. Mi olyan esetekkel

foglalkozunk, ahol az egyes osztályok osztályközhosszúsága megegyezik.

Még egy lényeges kérdés van: hogyan dönthető el, hogy adott esetben hány osztályt

képezzünk, illetve milyen hosszúságú osztályközöket alakítsunk ki?

Ezzel kapcsolatban csak meglehetősen általános útmutatást lehet adni: mindig annyi és olyan

hosszúságú osztályközt képezzünk, hogy a kapott gyakorisági sor:

könnyen áttekinthető legyen;

hagyja megmutatkozni a sokaság egységeinek az X változó nagysága szerinti

megoszlásában mutatkozó szabályszerűséget;

előnyös, ha az osztályközök határai és/vagy hosszúságai és/vagy az osztályközepek

kerek számok.

Mindez a tömörítés és részletezés közötti kompromisszumok kereséséről szól. Az osztályozás

egyrészről információveszteséggel jár, hiszen az egységek egyedi tulajdonságaira vonatkozó

ismereteink elvesznek. Ugyanakkor egy jó osztályozás jelentősen megkönnyíti a vizsgált

jelenség egészének áttekintését, ami viszont bizonyos többletinformáció az alapadatokhoz

képest. Ezért minden osztályozás során törekedni kell az osztályozás révén előálló

információveszteség és információnyereség bizonyos egyensúlyára. A túl kevés osztályköz

nagy információveszteséghez vezethet, túl sok osztály esetén pedig nem tud érvényesülni a

gyakoriságok alakulásában többnyire jelenlévő szabályszerűség.

Az osztályok ésszerű számát illetően jó támpont lehet k azon legkisebb k0 értéke, amelyre már

Nk

02

áll fenn. Ha osztályközös gyakorisági sor képzésére van szükség, és egyenlő hosszúságú

osztályközöket kívánunk kialakítani, akkor a k0-nak megfelelő osztályközhosszúság

0

minmax

0k

XXh

ahol Xmin, ill. Xmax az X változó legkisebb, ill. legnagyobb előforduló értéke. Semmiképpen

sem merev szabályról van szó, hiszen teljesen elfogadott gyakorlat a h0 érték nagyvonalú

kerekítése is. A legmegfelelőbb megoldás érdekében célszerű többféle osztályközszámmal

és/vagy –hosszúsággal is kísérletezni, és az osztályozási eredményeket grafikusan is ábrázolni

és összehasonlítani. A gyakorlati tapasztalatok szerint egy osztályozás akkor megfelelő,

ha az osztályok számának és határainak egy bizonyos sávon belüli változtatása nem

nagyon befolyásolja a grafikus képet. A gyakorlatban ehhez 5-15 osztály használata

szinte mindig elegendő.

Eddig egyenlő hosszúságú osztályközökről esett szó, de ezek alkalmazása nem mindig

kötelező és nem is mindig célszerű. Ha az X ismérv legnagyobb és legkisebb értéke közötti

különbség nagy, és a sokaság egységei nem egyenletesen helyezkednek el az adott

intervallumon belül, hanem annak valamely szakaszára tömörülnek, akkor célszerűbb

egyenlőtlen hosszúságú osztályközöket használni.

2.3.2 Mennyiségi sorok grafikus ábrázolása

Az adatok ábrázolásának általános lépései a következők:

1. Osztályba sorolás (folytonos adatok és nagyszámú diszkrét megfigyelés esetén);

2. gyakoriságok (fi) megállapítása;

3. relatív gyakoriságok (gi) megállapítása:


18

gf

ni

i ,

ahol n a megfigyelt elemek száma;

4. összegzett (kumulált) gyakoriságok (fi’), illetve összegzett relatív gyakoriságok (gi’)

megállapítása;

5. gyakorisági táblázat készítése (fi , gi , fi’ , gi’ adataiból);

6. gyakorisági (relatív gyakorisági), illetve összegzett gyakorisági (relatív gyakorisági)

hisztogramok (folytonos adatok esetén a poligon és az ogiva) felvétele (tapasztalati

eloszlások elkészítése);

7. grafikus ábrázolás.

A mennyiségi sorok közül elsősorban a (relatív) gyakorisági és a kumulált (relatív)

gyakorisági sorokat szokás ábrázolni vonal-, ill. oszlopdiagramok segítségével. A gyakorisági

sor oszlopdiagramját hisztogramnak, vonaldiagramját pedig gyakorisági poligonnak

nevezik. A vízszintes tengelyre mindig az X ismérv értékei kerülnek, a függőleges

tengelyen pedig a (relatív) gyakoriságok, ill. kumulált (relatív) gyakoriságok

szerepelnek.

Példa (kevés számú diszkrét adat)

A Gazdaságstatisztika c. tárgyat a 2012 őszi félévben teljesíteni kívánó 760 hallgató végső

érdemjegyeinek gyakoriságát és relatív gyakoriságát foglalja össze az alábbi táblázat.

2. Táblázat: A Gazdaságstatisztika c. tárgyat a 2012 őszi félévben felvett hallgatók érdemjegyeinek gyakorisági

táblázata

Érdemjegy Tapasztalati gyakoriság (fi) Relatív gyakoriság (gi)

1 68 0,089

2 280 0,368

3 274 0,361

4 91 0,120

5 47 0,062

Összesen 760 1

A relatív gyakoriságok ábrázolási módja ilyen diszkrét adatok esetében:

10. ábra: Relatív gyakoriságok ábrázolása diszkrét adatok esetén

0,089

0,3680,361

0,120

0,062

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

0 1 2 3 4 5

Re

latí

v gy

ako

risá

g

Érdemjegyek

Pálcikadiagram

Érdemjegyek relatív gyakorisági értékei


19

Kevésféle értéket felvevő diszkrét mennyiségi ismérvek esetében csakis az ábrázolni kívánt

(relatív) gyakoriságokkal arányos hosszúságú, valamilyen feltűnő módon megjelölt végpontú

egyenes szakaszokkal történhet az ábrázolás. Az ilyen ábrát pálcikadiagramnak nevezik.

A kumulált (összegzett) gyakorisági táblázat és hisztogram:

3. Táblázat: Gyakorisági táblázat

11. ábra: Kumulált relatív gyakoriságok ábrázolása diszkrét adatok esetén

Példa (nagyszámú folytonos adat)

Mint későbbi tanulmányaink (pl. Vállalati pénzügyek) során látni fogják, a gazdasági

elemzéseknél gyakran szükség van a részvényektől elvárt hozam becslésére. (A részvények

elvárt hozama időben viszonylag stabil, így a jövőre vonatkozó becsléseinket múltbeli

adatainkra alapozhatjuk).

A Budapesti Értéktőzsde Részvényindexének (BUX) 2005 márciusától 2013 júniusáig tartó

időszak havi hozamainak értékeit az alábbi táblázatban foglaltuk össze.

Tekintve, hogy a 2008. októberi adat (-33,44%) a többi adatot tekintve erősen kiugrónak

számít, így ezt az adatot elemzésünkből elhagyjuk, és a maradék 99 adat alapján végezzük el a

leíró statisztikai elemzést.

Érdemjegy

Tapasztalati

gyakoriság (fi)

Relatív

gyakoriság (gi)

Kumulált tapasztalati

gyakoriság (fi')

Kumulált relatív

gyakoriság (gi')

1 68 0,089 68 0,089

2 280 0,368 348 0,458

3 274 0,361 622 0,818

4 91 0,120 713 0,938

5 47 0,062 760 1,000

Összesen 760 1


20

4. Táblázat: BUX index havi hozamadatok

A fenti példánk alapján a gyakoriság táblázat:

5. Táblázat: Bux index havi hozamadatainak gyakorisági táblázata

alsó határ felső határ fi f’i gi [%] g’i [%]

-20,00% -15,00% 2 2 2,02% 2,02%

-15,00% -10,00% 9 11 9,09% 11,11%

-10,00% -5,00% 9 20 9,09% 20,20%

-5,00% 0,00% 23 43 23,23% 43,43%

0,00% 5,00% 32 75 32,32% 75,76%

5,00% 10,00% 15 90 15,15% 90,91%

10,00% 15,00% 8 98 8,08% 98,99%

15,00% 20,00% 1 99 1,01% 100,00%

összesen 99 100,00%

Osztályközös gyakorisági sorok esetében egymás mellé állított oszlopokkal történhet a

gyakoriságok vagy kumulált gyakoriságok ábrázolása. Vonaldiagramok esetében az egymás

után következő oszlopok felső éleinek középpontját kötjük össze egyenes szakaszokkal. Ez

utóbbi esetben a legelső és a legutolsó középpontot szokás összekötni az X tengely azon

pontjaival, amelyek az első osztályközt megelőző, illetve az utolsó osztályközt követő, e két

osztályközzel azonos hosszúságú fiktív osztályköz középpontjának felelnek meg.

Oszlopdiagram ábrázolásánál az oszlopok területe kell, hogy arányos legyen az ábrázolni

kívánt gyakorisággal vagy más adattal.

hónap hozam hónap hozam hónap hozam hónap hozam

2005. március -7,188% 2007. április 8,200% 2009. május 14,878% 2011. június -2,963%

2005. április -4,360% 2007. május 4,917% 2009. június 2,533% 2011. július -4,857%

2005. május 3,185% 2007. június 7,997% 2009. július 12,038% 2011. augusztus -15,731%

2005. június 10,292% 2007. július 1,152% 2009. augusztus 11,520% 2011. szeptember -15,778%

2005. július 10,053% 2007. augusztus -6,569% 2009. szeptember 4,223% 2011. október 10,947%

2005. augusztus 4,021% 2007. szeptember 3,616% 2009. október 1,698% 2011. november 0,196%

2005. szeptember 6,182% 2007. október -3,696% 2009. november 1,132% 2011. december -3,817%

2005. október -11,159% 2007. november -6,113% 2009. december 1,999% 2012. január 10,699%

2005. november 3,112% 2007. december 1,836% 2010. január 2,808% 2012. február 2,072%

2005. december -1,857% 2008. január -11,116% 2010. február -2,616% 2012. március -3,433%

2006. január 6,599% 2008. február 0,111% 2010. március 13,104% 2012. április -2,173%

2006. február 4,480% 2008. március -7,927% 2010. április 2,119% 2012. május -12,454%

2006. március -0,669% 2008. április 3,986% 2010. május -11,369% 2012. június 7,427%

2006. április 5,447% 2008. május -0,057% 2010. június -4,881% 2012. július 0,385%

2006. május -13,671% 2008. június -10,216% 2010. július 5,612% 2012. augusztus 0,606%

2006. június 0,764% 2008. július 8,558% 2010. augusztus 1,320% 2012. szeptember 5,956%

2006. július 5,398% 2008. augusztus -5,564% 2010. szeptember 2,963% 2012. október 3,343%

2006. augusztus -2,072% 2008. szeptember -10,735% 2010. október -0,402% 2012. november -5,098%

2006. szeptember -1,713% 2008. október -33,440% 2010. november -11,464% 2012. december -0,505%

2006. október 2,883% 2008. november -6,192% 2010. december 3,276% 2013. január 6,368%

2006. november 2,161% 2008. december -3,634% 2011. január 6,280% 2013. február -2,950%

2006. december 8,234% 2009. január -6,110% 2011. február 1,946% 2013. március -5,170%

2007. január -3,210% 2009. február -12,233% 2011. március -0,414% 2013. április 2,372%

2007. február -2,902% 2009. március 8,298% 2011. április 4,667% 2013. május 5,203%

2007. március 0,222% 2009. április 15,066% 2011. május -3,304% 2013. június -1,247%


21

12. ábra: Relatív gyakoriság vonaldiagramja

Folytonos mennyiségi ismérv esetén, ha a gyakorisági hisztogramot úgy alakítjuk ki, hogy az

oszlopok összterülete 1, a kapott ábrát az X változó szerinti empirikus sűrűségfüggvénynek

szokás nevezni.

13. ábra: Empirikus sűrűségfüggvény (relatív gyakorisági hisztogram)

Empirikus eloszlásfüggvény: A kumulált relatív gyakorisági sor oszlopdiagramja.

Ezek az elnevezések a valószínűségszámítás és a matematikai statisztika közötti szoros

kapcsolatra hívják fel a figyelmet.

2,02%

9,09%

9,09%

23,23%

32,32%

15,15%

8,08%

1,01%

0%

10%

20%

30%

40%

50%

-17,50%-12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%

Re

latí

v gy

ako

risá

g

Osztályközép

2,02%

9,09% 9,09%

23,23%

32,32%

15,15%

8,08%

1,01%

0%

10%

20%

30%

40%

50%

-17,50% -12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%

Re

latí

v gy

ako

risá

g

Osztályközép


22

A kumulált relatív gyakoriság vonaldiagramja:

14. ábra: Kumulált relatív gyakoriság vonaldiagramja

Kumulált relatív gyakorisági hisztogram (tapasztalati eloszláskép, empirikus

eloszlásfüggvény):

15. ábra: Empirikus eloszlásfüggvény (kumulált relatív gyakorisági hisztogram)

Ha elképzeljük, hogy a vizsgált sokaság végtelen nagy, és oly módon ábrázoljuk a hozzá

tartozó gyakorisági sort, hogy a használt osztályközök hossza egyre kisebb, azaz 0-hoz tart,

akkor a gyakorisági poligon folytonos görbébe megy át, amit az X ismérv gyakorisági

görbéjének nevezünk. A gyakorisági görbe a gyakorisági poligon (hisztogram) elméleti

határesete, egyfajta matematikai modellje. A gyakorisági görbe ugyanis mindig megadható az

ismérvértékek valamilyen függvényeként.

A folytonos adatok eloszlásfüggvényét folytonos vonallal is összeköthetjük, és az így kapott

görbét ogivának nevezzük. Ez azt mutatja meg, hogy megközelítően milyen lenne a

tapasztalati eloszlásfüggvény, ha az osztályközöket minden határon túl csökkentenénk, az

osztályközökbe eső adatok számát pedig minden határon túl növelnénk.

2,02%

11,11%

20,20%

43,43%

75,76%

90,91% 98,99% 100,00%

0%

20%

40%

60%

80%

100%

-17,50% -12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%

Ku

mu

lált

re

latí

v gy

ako

risá

g

Osztályközép

2,02%

11,11%

20,20%

43,43%

75,76%

90,91% 98,99% 100,00%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

-17,50% -12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%

Ku

mu

lált

re

latí

v gy

ako

risá

g

Osztályközép


23

16. ábra: Példa ogivára

Az ogivát felhasználhatjuk egy adott értéknél kisebb értékek számának vagy relatív

gyakoriságának meghatározására. Fordítva is eljárhatunk, vagyis megállapíthatjuk azt az

értéket, amelyik alá adott relatív gyakorisággal esnek az adatok. Az ilyen értékeket

kvantiliseknek nevezzük (lásd 2.4.3 alfejezet).

2.4 Tapasztalati eloszlások jellegzetességei

2.4.1 Helyzetmutatók (középértékek)

A középérték mutatók a gyakorisági eloszlás helyzetét egyetlen, az adatokkal azonos

mértékegységű számértékkel jellemzik. E középértékekkel kapcsolatos elvárásaink, hogy

legyenek:

közepes helyzetűek,

tipikusak,

egyértelműen meghatározhatóak,

könnyen értelmezhetőek.

Ezeknek az elvárásoknak az egyes középérték-mutatók különféle módokon tesznek eleget.

A középérték-mutatóknak két nagy csoportja ismeretes:

Helyzeti középértékek: az adatok közötti elhelyezkedésüknél fogva jellemzik a

vizsgált gyakorisági eloszlás helyzetét.

o Medián

o Módusz

Számított középértékek: az adatokkal kapcsolatos számszerű összefüggésük révén

jellemzik a vizsgált gyakorisági eloszlás helyzetét.

o Számtani átlag

o Mértani átlag

o Harmonikus átlag

o Négyzetes átlag

0,00%

20,00%

40,00%

60,00%

80,00%

100,00%

Ku

mu

lált

re

latí

v gy

ako

risá

g


24

2.4.1.a Medián (Me)

Jellemzői: helyzeti középérték, közepes helyzetű elvárásnak tesz a legjobban eleget.

A medián a változó azon számértéke, amelynél az összes előforduló számérték fele kisebb, fele

pedig nagyobb, így a rangsorba állított sokasági számértékeket két egyenlő gyakoriságú

osztályra bontja. Mindig egyértelműen meghatározható, valódi középérték, érzéketlen a

szélsőértékekre, és nem függ a többi ismérvértéktől sem. Ha az adathalmazunkban sok az

egyforma ismérvérték, akkor használata nem tanácsos.

Röviden: a nagyságrend szerint rendezett adatok középső értéke (páros számú adat esetén a

két középső érték átlaga). A medián említésre méltó tulajdonsága, hogy

min1

N

i

i AX , ha MeA

Ez a tulajdonság úgy értelmezhető, hogy ha minden ismérvértéket a mediánnal

helyettesítenénk, akkor ezzel összességében a lehető legkisebb hibát követnénk el,

amennyiben ezt a hibát minden esetben előjeltől elvonatkoztatva, az MeX i módon

mérjük.

Példa

6, 8, 4, 9, 7, 3, 5, 3, 4, 5, 6, 7, 8, 9 Me=6

4, 9, 7, 8, 11, 5, 4, 5, 7, 8, 9, 11 Me=7,5

7, 9, 3, 10, 5, 2, 5, 2, 3, 5, 5, 7, 9, 10 Me=5

Ha a BUX index korábbi, 99 havi hozamadatait vesszük alapul, akkor e 99 adatot sorba

állítva, a rangsor 50. tagja lesz a medián, hiszen ennél 49 kisebb, és 49 nagyobb érték lesz a

rangsorban, ez pedig 1,132%.

Osztályközös gyakorisági sor esetén a medián az alábbi formulával becsülhető:

me

me

me

me hf

fN

XeM

'

1

0,2ˆ

ahol me annak a legelső osztályköznek a sorszáma, amelyre igaz, hogy

2'

Nf me

és Xme,0 az me sorszámú osztályköz alsó határa, és a hme pedig ennek az osztálynak az

osztályközhosszúsága, ami egyszerűen a felső és alsó osztályhatár értékének a különbsége.

-15,778% -10,216% -4,881% -2,950% -0,414% 1,152% 2,533% 4,021% 6,182% 10,053%

-15,731% -7,927% -4,857% -2,902% -0,402% 1,320% 2,808% 4,223% 6,280% 10,292%

-13,671% -7,188% -4,360% -2,616% -0,057% 1,698% 2,883% 4,480% 6,368% 10,699%

-12,454% -6,569% -3,817% -2,173% 0,111% 1,836% 2,963% 4,667% 6,599% 10,947%

-12,233% -6,192% -3,696% -2,072% 0,196% 1,946% 3,112% 4,917% 7,427% 11,520%

-11,464% -6,113% -3,634% -1,857% 0,222% 1,999% 3,185% 5,203% 7,997% 12,038%

-11,369% -6,110% -3,433% -1,713% 0,385% 2,072% 3,276% 5,398% 8,200% 13,104%

-11,159% -5,564% -3,304% -1,247% 0,606% 2,119% 3,343% 5,447% 8,234% 14,878%

-11,116% -5,170% -3,210% -0,669% 0,764% 2,161% 3,616% 5,612% 8,298% 15,066%

-10,735% -5,098% -2,963% -0,505% 1,132% 2,372% 3,986% 5,956% 8,558%


25

Példa

Vegyük a korábbi BUX-indexes példánkat, és tegyük fel, hogy csak a gyakorisági táblázat áll

rendelkezésünkre, és nem ismerjük egyenként az összes hozamadatot. Nézzük meg, hogy

ilyen esetben hogyan becsülhető a medián!


-20,00% -15,00% 2 2 2,02% 2,02%

-15,00% -10,00% 9 11 9,09% 11,11%

-10,00% -5,00% 9 20 9,09% 20,20%

-5,00% 0,00% 23 43 23,23% 43,43%

0,00% 5,00% 32 75 32,32% 75,76%

5,00% 10,00% 15 90 15,15% 90,91%

10,00% 15,00% 8 98 8,08% 98,99%

15,00% 20,00% 1 99 1,01% 100,00%


2

' Nfme N/2=49,5 a mediánt tartalmazó osztály az ötödik osztály: 0,00% ≤ x < 5,00%.

%0163,1)00,000,5(32

435,4900,02ˆ

'

1

0,

me

me

me

me hf

fN

XeM

A medián becsült értéke 1,0163%.

2.4.1.b Módusz (Mo)

A módusz helyzeti középérték, a tipikus ismérvérték megtestesítője. Diszkrét ismérv esetén a

módusz a leggyakrabban előforduló ismérvérték, folytonos ismérv esetén a gyakorisági görbe

maximumhelye. A módusz nem mindig határozható meg egyértelműen, és nem is mindig

létezik. Ugyanakkor előnye, hogy érzéketlen a szélsőértékekre, nem függ sem az összes, sem a

kiugró ismérvértékektől.

Példa

Korábbi diszkrét, a 2012 őszi félév érdemjegyeinek alakulását vizsgáló példánkban az

elégséges érdemjegy gyakorisága a legnagyobb (280 db), így a módusz értéke 2.

Folytonos változó esetén – a mediánhoz hasonló módon – osztályközös gyakorisági sorból is

becsülhető.

mo

fa

amo h

dd

dXoM

0,

ˆ

Érdemjegy

Tapasztalati

gyakoriság (fi)

Relatív

gyakoriság (gi)

1 68 0,089

2 280 0,368

3 274 0,361

4 91 0,120

5 47 0,062

Összesen 760 1


26

Ebben a képletben mo a móduszt tartalmazó osztályköz sorszáma, és

1 momoa ffd 1 momof ffd

A móduszt mindig az az osztályköz tartalmazza, amelyikhez a hisztogram legmagasabb

oszlopa tartozik2.

Példa


-20,00% -15,00% 2 2 2,02% 2,02%

-15,00% -10,00% 9 11 9,09% 11,11%

-10,00% -5,00% 9 20 9,09% 20,20%

-5,00% 0,00% 23 43 23,23% 43,43%

0,00% 5,00% 32 75 32,32% 75,76%

5,00% 10,00% 15 90 15,15% 90,91%

10,00% 15,00% 8 98 8,08% 98,99%

15,00% 20,00% 1 99 1,01% 100,00%


Folytonos ismérv esetén a móduszt a legnagyobb gyakoriságú osztály tartalmazza:

%73077,1)00,000,5()1532()2332(

)2332(00,0ˆ

0,

mo

fa

amo h

dd

dXoM

Bux indexes példánkban a módusz becsült értéke 1,73%.

2.4.1.c Számtani átlag

A leggyakrabban használt középértékmutató: az „átlag”, a mediánnal és a módusszal

szemben, amelyek helyzeti középértékek, a számtani átlag számított középértékfajta.

Számtani átlag: Az a szám, amellyel az átlagolandó számértékeket helyettesítve azok összege

változatlan marad. Bármely alapadathalmazból egyértelműen meghatározható, minden

alapadatot felhasznál. A hátránya, hogy érzékeny a szélsőértékekre.

Számítása:

N

X

N

X

N

XXXX

N

i

i

N

121 ...

A képlet harmadik tagját felhasználva és átrendezve azt kapjuk, hogy XXN . Ez azt

jelenti, hogy az X összegben minden Xi helyébe az átlagot téve pontosan az ismérvértékek

összegét kapjuk. E definíció következménye:

N

i

i XX1

0)(

Ez azt jelenti, hogy ha minden ismérvértéket a számtani átlaggal helyettesítünk, akkor az e

helyettesítéssel elkövetett

XXd ii

2 Megjegyzés: néha a módusz becslésének egyszerűen a móduszt tartalmazó osztályköz osztályközepét tekintik

(példánkban ez 2,50 % lenne), ezt nyers módusznak hívják. Bárhogyan is határozzuk meg a móduszt, az arra

kapott közelítő érték esetleges, mert függ az osztályközök számától és hosszától.


27

előjeles hibák összességükben pontosan kiegyenlítik egymást. Bizonyítható, hogy

N

i

i AX1

2)(

eltérés-négyzetösszeg éppen akkor minimális, ha XA . Ez pedig úgy is érthető, hogy az

ismérvértékeknek a számtani átlaggal való helyettesítése nemcsak egymást összességükben

kiegyenlítő előjeles hibákkal jár, hanem még minimálissá is teszi az e helyettesítéssel

elkövetett hibák négyzetösszegét.

A számtani átlagot igen gyakran nem az egyenként ismert Xi alapadatokból kiindulva

számítjuk, hanem sok esetben egy gyakorisági sor adataiból. Az alábbi formulát súlyozott

számtani átlag formulának nevezik:

r

i

iir

i

i

r

i

ii

Xg

f

Xf

X1

1

1

ahol:

Xi = az i. tag számértéke

Xi*= az i. osztály osztályközepe

fi = az i. osztály tapasztalati gyakorisága

gi = az i. osztály relatív gyakorisága

r = osztályok száma

Mint látható, egy súlyozott számtani átlag nagyságát két tényező határozza meg: az Xi értékek

sorozata (vagyis az átlagolandó értékek nagysága), illetve az Xi értékekhez tartozó fi

súlyszámok egymás közötti aránya, azaz relatív nagysága.

Diszkrét példa

7,2760

475914274328026815

0

5

0

i

i

i

i

i

f

xf

x

E példa érdekessége, hogy a számtani átlagszámítás eredményeként olyan értéket kaptunk,

amely a valóságban nem fordulhat elő, hiszen senki nem kaphat ilyen érdemjegyet.

Folytonos példa

Vegyük ismét a korábbi BUX-indexes példánkat!

Ha a rendelkezésre álló 99 egyedi adatunkból számítjuk ki a számtani átlagot, 0,372%-ot

kapunk.

Érdemjegy

Tapasztalati

gyakoriság (fi)

Relatív

gyakoriság (gi)

1 68 0,089

2 280 0,368

3 274 0,361

4 91 0,120

5 47 0,062

Összesen 760 1


28

%372,099

870,36

99

066,15878,14104,13...)671,13()731,15(778,15

99

99

1

i

ix

x


-20,00% -15,00% 2 2 2,02% 2,02%

-15,00% -10,00% 9 11 9,09% 11,11%

-10,00% -5,00% 9 20 9,09% 20,20%

-5,00% 0,00% 23 43 23,23% 43,43%

0,00% 5,00% 32 75 32,32% 75,76%

5,00% 10,00% 15 90 15,15% 90,91%

10,00% 15,00% 8 98 8,08% 98,99%

15,00% 20,00% 1 99 1,01% 100,00%


A BUX indexes példához tartozó osztályközös gyakorisági táblázatunkat alapul véve is

becsülhetjük a számtani átlagot a tapasztalati gyakoriságok vagy a relatív gyakoriságok

segítségével:

%37879,050,170101,050,120808,050,71515,050,23232,0

)50,2(2323,0)50,7(0909,0)50,12(0909,0)50,17(0202,0

%37879,099

50,17150,12850,71550,232

99

)50,2(23)50,7(9)50,12(9)50,17(2

8

1

8

1

8

1

i

ii

i

i

i

ii

xgx

f

xf

x

Ebben az esetben a két eredmény (az egyenkénti értékek ismeretében számított 0,372% és a

súlyozott formulával számított 0,37879%) közötti eltérés összefüggésben van a sokaság

számosságával, az osztályközök hosszával, és az osztályközepek megválasztásával.

2.4.1.d Egyéb átlagfajták

Harmonikus átlag: Az a szám, amellyel az átlagolandó értékeket helyettesítve azok

reciprokainak összege változatlan marad.

Számítása (súlyozatlan, majd súlyozott formula):

r

i i

i

r

i

i

N

i i

h

Xf

f

X

NX

1

1

1

11

Leggyakrabban akkor használjuk, ha az értékek reciprokainak összege értelmezhető. Ilyen

esetekkel elsősorban a leíró statisztikai viszonyszámok és indexek számításánál találkozunk.


29

Mértani átlag: Az a szám, amellyel az átlagolandó értékeket helyettesítve azok szorzata

változatlan marad.


k

r

ii

ff

i

N

i

Ni

N

ig XXX 1

11

A mértani átlagot akkor használjuk, ha az értékek szorzata értelmezhető, illetve az

átlagolandó értékek exponenciálisan nőnek vagy csökkennek. Leggyakrabban az időbeli

fejlődés átlagos ütemének vizsgálatakor használjuk. Idősorok elemzése során (pl. termelés

évenkénti alakulása, tőzsdeindex havi változása, stb.) általában az időszakról időszakra

bekövetkezett növekedést, vagy csökkenést vizsgáljuk.

Négyzetes átlag: Az a szám, amellyel az átlagolandó értékeket helyettesítve azok

négyzetösszege változatlan marad.


r

i

i

r

i

ii

N

i

i

q

f

Xf

N

X

X

1

11

2 2

Természeténél fogva a négyzetes átlag a kiugróan magas értékekre reagál érzékenyen.

A négyzetes átlag alkalmazására leginkább akkor kerül sor, amikor az értékek között pozitív

és negatív értékek egyaránt előfordulnak, de az előjeleknek a vizsgálat szempontjából nincs

jelentőségük, az értékek abszolút nagyságát kívánjuk a középértékekkel jellemezni. Tipikus

alkalmazási területe a szórásszámítás.

2.4.2 Választás a középértékek között

Bebizonyítható, hogy ugyanazon pozitív xi értékekből számított különböző fajta átlagok

között a következő nagyságrendi reláció áll fenn:

maxmin XXXXXX qgh

A harmonikus és a mértani átlag a nagyon alacsony, a négyzetes átlag a magas értékekre

mutat fokozott érzékenységet.

Az átlagolandó értékek jellege, és az átlag számításához rendelkezésre álló információ

együttesen határozza meg, hogy milyen esetben melyik átlagfajtát célszerű használni. A

választás során érdemes mérlegelni a következőket:

Egyértelműen meghatározható-e?

Az összes rendelkezésre álló adattól függ-e vagy sem?

Mennyire érzékeny a szélsőségesen nagy vagy kicsi értékekre?

Mekkora és milyen módon értelmezhető hibával képes helyettesíteni az alapadatokat?


30

2.4.3 Kvantilisek

Eddig egyenlő osztályköz-hosszúságú gyakorisági sorokat képeztünk, az ilyen osztályközök

relatív gyakoriságai eltértek egymástól. Lehetőség van a rangsorban olyan osztópontok

(osztályhatárok) keresésére, amelyek egyenlő relatív gyakoriságokat fognak közre. Az ilyen

osztályközök – általában – nem egyenlő hosszúságúak. Ezen osztályhatárok megállapításához

használjuk a kvantiliseket.

Kvantilis: Az Xi/k i-edik k-ad rendű kvantilis az a szám, amelynél az összes előforduló

ismérvértékek i/k-ad része kisebb, (1-i/k)-ad része pedig nagyobb, ahol k≥2 és

i=1, 2 ,…, k-1.

A mindig 0 és 1 közé eső i/k hányadost p-vel is szokás jelölni, a megfelelő Xp kvantilist pedig

p-ed rendű kvantilisnek is szokás hívni. Meghatározásuk úgy történik, hogy adatainkat

nagyság szerint növekvő sorrendbe rendezzük (rangsort készítünk), majd az értékeket k számú

egyenlő gyakoriságú csoportra osztjuk, és az egyes csoportok felső határán lévő

ismérvértékeket vesszük. Ezek lesznek a kvantilis értékek.

A különböző számú csoportba rendezéshez a kvantilisek konkrét elnevezései tartoznak. Ha az

adatokat két részre osztjuk, akkor a mediánt (Me) kapjuk. Négy részre való osztásnál

kvartiliseket (Qi, i=1,2,3) ad, öt rész esetén kvintiliseket (Ki, i=1, 2, 3, 4), tíz rész esetén

deciliseket (Di, i=1,2,…,9) száz részre való osztásnál percentiliseket (Pi, i=1,2,3,…,99)

nyerünk.

Ha például az egyetemre jelentkezők pontszámát értékelve 312 pont a hatodik decilis érték, ez

azt jelenti, hogy a jelentkezők hatvan százaléka 312 pontnál kevesebbel, 40%-a pedig 312

ponttal, vagy annál többel rendelkezik.

6. Táblázat: A leggyakrabban használt kvantilisek

Számítása:

Rangsorba rendezett adataink i/k-ik tagja.

)1(/ Nk

is ki Értéke: )(

/// 1//

kikiki sskiski XXsXX

(Megjegyzés: a [ ] az egészrészt, a { } a zárójelben levő mennyiség törtrészét jelöli.)

Példa

A BUX-indexes példánk alapján számítsuk ki az alsó és felső kvartilist, ill. az alsó és felső

decilist!

P1, P

2, …,P

991,2,…,99P

iPercentilis100

D1, D

2, … D

91,2,…,9D

iDecilis10

K1, K

2, K

3,

K4

1,2,3,4,Ki

Kvintilis5

Q1, Q

2, Q

31,2,3Q

iKvartilis4

Me1-Medián2

Lehetséges

kvantilisek

i lehetséges

értéke

Általános

jelölés

Elnevezésk

P1, P

2, …,P

991,2,…,99P

iPercentilis100

D1, D

2, … D

91,2,…,9D

iDecilis10

K1, K

2, K

3,

K4

1,2,3,4,Ki

Kvintilis5

Q1, Q

2, Q

31,2,3Q

iKvartilis4

Me1-Medián2

Lehetséges

kvantilisek

i lehetséges

értéke

Általános

jelölés

Elnevezésk

P1, P

2, …,P

991,2,…,99P

iPercentilis100

D1, D

2, … D

91,2,…,9D

iDecilis10

K1, K

2, K

3,

K4

1,2,3,4,Ki

Kvintilis5

Q1, Q

2, Q

31,2,3Q

iKvartilis4

Me1-Medián2

Lehetséges

kvantilisek

i lehetséges

értéke

Általános

jelölés

Elnevezésk

P1, P

2, …,P

991,2,…,99P

iPercentilis100

D1, D

2, … D

91,2,…,9D

iDecilis10

K1, K

2, K

3,

K4

1,2,3,4,Ki

Kvintilis5

Q1, Q

2, Q

31,2,3Q

iKvartilis4

Me1-Medián2

Lehetséges

kvantilisek

i lehetséges

értéke

Általános

jelölés

Elnevezésk

P1, P

2, …,P

991,2,…,99P

iPercentilis100

D1, D

2, … D

91,2,…,9D

iDecilis10

K1, K

2, K

3,

K4

1,2,3,4,Ki

Kvintilis5

Q1, Q

2, Q

31,2,3Q

iKvartilis4

Me1-Medián2

Lehetséges

kvantilisek

i lehetséges

értéke

Általános

jelölés

Elnevezésk

P1, P

2, …,P

991,2,…,99P

iPercentilis100

D1, D

2, … D

91,2,…,9D

iDecilis10

K1, K

2, K

3,

K4

1,2,3,4,Ki

Kvintilis5

Q1, Q

2, Q

31,2,3Q

iKvartilis4

Me1-Medián2

Lehetséges

kvantilisek

i lehetséges

értéke

Általános

jelölés

Elnevezésk


31

Alsó kvartilis:

25)991(4

14/1 s

Az alsó kvartilis a rangsorba rendezett 99 db havi hozamadat 25.-ik tagja: -3,696%.

Értelmezése: a rangsorba rendezett adatok 1/4-e kisebb, mint -3,696%, és 3/4-e pedig

nagyobb.

Felső kvartilis:

75)991(4

34/3 s

A felső kvartilis a rangsorba rendezett 99 db havi hozamadat 75.-ik tagja: 4,917%.

Értelmezése: a rangsorba rendezett adatok 3/4-e kisebb, mint 4,917%, és 1/4-e pedig nagyobb.

Alsó decilis

10)991(10

110/1 s

Az alsó decilis a rangsorba rendezett 99 db havi hozamadat 10. tagja: -10,735%.

Értelmezése: a rangsorba rendezett adatok 1/10-e kisebb, mint -10,735, és 9/10-e pedig

nagyobb.

Felső decilis:

90)991(10

910/9 s

Az alsó decilis a rangsorba rendezett 99 db havi hozamadat 90. tagja: 8,558%.

Értelmezése: a rangsorba rendezett adatok 9/10-e kisebb, mint 8,558, és 1/10-e pedig

nagyobb.

A kvantilisek meghatározására olyankor is szükség lehet, amikor az ismérvértékek rangsora

helyett osztályközös gyakorisági sor áll rendelkezésünkre. Ilyenkor az Xi/k kvantilis a

következő képlettel becsülhető:

q

q

qqkif

hfN

k

iXX

10/ 'ˆ

ahol q annak a legelső osztályköznek a sorszáma, amelyre már igaz, hogy

Nk

if q '

A keresett kvantilist ezen osztályközön belül a becslési képlet azon egyszerű feltételezés

mellett helyezi el, hogy az ismérvértékek az osztályközön belül egymástól egyenlő távolságra

vannak.

Vegyük újra a BUX indexes példánkhoz tartozó gyakorisági táblázatot, és becsüljük az

előzőleg kiszámított kvantiliseket!

-15,778% -10,216% -4,881% -2,950% -0,414% 1,152% 2,533% 4,021% 6,182% 10,053%

-15,731% -7,927% -4,857% -2,902% -0,402% 1,320% 2,808% 4,223% 6,280% 10,292%

-13,671% -7,188% -4,360% -2,616% -0,057% 1,698% 2,883% 4,480% 6,368% 10,699%

-12,454% -6,569% -3,817% -2,173% 0,111% 1,836% 2,963% 4,667% 6,599% 10,947%

-12,233% -6,192% -3,696% -2,072% 0,196% 1,946% 3,112% 4,917% 7,427% 11,520%

-11,464% -6,113% -3,634% -1,857% 0,222% 1,999% 3,185% 5,203% 7,997% 12,038%

-11,369% -6,110% -3,433% -1,713% 0,385% 2,072% 3,276% 5,398% 8,200% 13,104%

-11,159% -5,564% -3,304% -1,247% 0,606% 2,119% 3,343% 5,447% 8,234% 14,878%

-11,116% -5,170% -3,210% -0,669% 0,764% 2,161% 3,616% 5,612% 8,298% 15,066%

-10,735% -5,098% -2,963% -0,505% 1,132% 2,372% 3,986% 5,956% 8,558%


32


-20,00% -15,00% 2 2 2,02% 2,02%

-15,00% -10,00% 9 11 9,09% 11,11%

-10,00% -5,00% 9 20 9,09% 20,20%

-5,00% 0,00% 23 43 23,23% 43,43%

0,00% 5,00% 32 75 32,32% 75,76%

5,00% 10,00% 15 90 15,15% 90,91%

10,00% 15,00% 8 98 8,08% 98,99%

15,00% 20,00% 1 99 1,01% 100,00%


Alsó kvartilis becslése:

Keressük meg azt az osztályközt, amelyik az alsó kvartilist tartalmazza a Nk

if q ' képlettel.

75,24994

1N

k

i

A legelső osztály, amelynél a kumulált tapasztalati gyakoriság nagyobb, vagy egyenlő mint

24,75, a 4. osztály, ahol a kumulált tapasztalati gyakoriság 43.

Behelyettesítve a becslési képletbe:

%97,323

00,52099

4

100,5'

4

414401

f

hfN

k

iXQ

Ennek analógiájára végezzük el a többi kvantilis becslését.

Felső kvartilis becslése:

25,74994

3N

k

i

A legelső osztály, amelynél a kumulált tapasztalati gyakoriság nagyobb, vagy egyenlő, mint

74,25, az 5. osztály, ahol a kumulált tapasztalati gyakoriság 75.

%88,432

00,54399

4

30'

5

515503

f

hfN

k

iXQ

Alsó decilis becslése:

9,99910

1N

k

i


9,9, a 2. osztály, ahol a kumulált tapasztalati gyakoriság 11.

%61,109

00,5299

10

100,15'

2

212201

f

hfN

k

iXD

Felső decilis becslése:

1,899910

9N

k

i


89,1 a 6. osztály, ahol a kumulált tapasztalati gyakoriság 90.

%7,915

00,57599

10

900,5'

6

616601

f

hfN

k

iXD


33

2.4.4 Szóródási mutatók

A rendelkezésre álló adathalmazunkban szereplő értékek változékonysága, szóródása

kétféleképpen is megragadható: az egyes értékek egymás közötti különbségein, vagy pedig az

egyes értékeknek egy kitüntetett értéktől (középérték) való eltérésein keresztül. Egy másik

csoportosítási lehetőség szerint léteznek abszolút és relatív ingadozásmutatók. Az abszolút

szóródási mutatók mértékegysége ugyanaz, mint az alapadatoké. A relatív szóródási mutatók

elvonatkoztatnak az eredeti mértékegységtől, és különböző ismérvértékek szóródásának az

összehasonlítását szolgálják.

2.4.4.a Terjedelem (R)

Terjedelem: Az adathalmazban szereplő legnagyobb és legkisebb adat különbsége.

Számítása:

minmax XXR

Előnye a könnyű számítás, hátránya, hogy csak a két legszélsőségesebb ismérvértéktől függ,

ennek kiküszöbölésre használják az interkvantilis terjedelemmutatót, amely csökkenti a

véletlen szélsőértékeket alakító szerepét.

Interkvantilis terjedelem: Az adathalmaz két szélső k-adrendű kvantilisének különbsége.

Számítása:

kkk

k

XXR /1/)1(21

, k>2

A fenti képletnek megfelelően az interkvartilis terjedelemmutató a felső és alsó kvartilis

különbségeként adódik:

132/1 QQR

Példa

Korábbi diszkrét, érdemjegyeket vizsgáló példánk esetében:

415 R

Példa

Vegyük ismét a korábbi BUX-indexes példánkat, és számítsuk ki a terjedelmet:

%844,30%)778,15(%066,15 R

Az interkvartilis terjedelem a felső (Q3) és alsó (Q1) kvartilis különbségeként:

%613,8%)696,3(%917,42/1 R

Az interdecilis terjedelem a felső (D9) és alsó (D1) decilis különbségeként:

%293,19%)735,10(%558,810/8 R

Érdemjegy

Tapasztalati

gyakoriság (fi)

Relatív

gyakoriság (gi)

1 68 0,089

2 280 0,368

3 274 0,361

4 91 0,120

5 47 0,062

Összesen 760 1


34

2.4.4.b Átlagos abszolút különbség (G)

Átlagos abszolút különbség: A minden lehetséges módon párba állított ismérvértékek

különbségeinek abszolút értékéből számított számtani átlag. Ez a G-vel jelölt

ingadozásmutató azt mutatja meg, hogy az X ismérv értékei átlagosan mennyire különböznek

egymástól. Mértékegysége ugyanaz, mint az alapadatoké.

Számítása:

N

i

N

j

ji XXNN

G1 1)1(

1

ahol N az adatok számát jelenti.

Speciális felhasználási területe a koncentrációelemzés, hátránya, hogy számítása

meglehetősen kényelmetlen.

Alkalmazását egy egyszerűbb példán mutatjuk be.

Példa

Véletlenszerűen kiválasztunk 5 hallgatót, és kiszámítjuk a Gazdaságstatisztika tárgy zh-ján

elért eredményük átlagos abszolút különbségét.

Az elért pontok: 45, 52, 76, 87, 92

45 52 76 87 92

45 0 7 31 42 47

52 7 0 24 35 40

76 31 24 0 11 16

87 42 35 11 0 5

92 47 40 16 5 0

8,25)15(5

516

G , azaz az 5 hallgató zh-n elért pontja átlagosan 25,8 ponttal tér el

egymástól.

2.4.4.c Átlagos abszolút eltérés ()

Az átlagos abszolút eltérés az ingadozásmutatók azon csoportjába tartozik, amelyek a

szóródást az értékeknek egy kitüntetett értéktől való eltéréseire támaszkodva jellemzik.

Átlagos abszolút eltérés: Az egyes ismérvértékek és a számtani átlag különbségeinek abszolút

értékeiből számított számtani átlag.

Számítása:

n

dn

ii

1 , ahol: XXd ii

Ez a mutató is becsülhető osztályközös gyakorisági sorból a tapasztalati gyakoriságok

felhasználásával. Ebben az esetben a di eltérések számításánál az osztályközepeket kell alapul

vennünk. A súlyozott formula:


35

r

ii

r

iii

f

df

1

1

Példa


81,0760

74,2547...7,222807,2168

Az érdemjegyek átlagosan 0,81-gyel térnek el az átlagtól.

Példa

A BUX-indexes példánk átlagos abszolút eltérése.

(Az egyedi adatokból számított számtani átlagot (0,372%) felhasználva)

%3776,599

372,0066,15...372,0371,15372,0779,151

n

dn

ii

Azaz az egyes hozamadatok átlagosan 5,3776%-kal térnek el a számtani átlagtól.

Osztályközös gyakorisági sorból becsülve (az ugyancsak becsült számtani átlaggal (0,379%)

számolva és a gyakoriságokkal súlyozva):

%213,699

379,050,171...379,050,129379,050,172

Azaz az egyes hozamadatok átlagosan 6,213%-kal térnek el a számtani átlagtól.

2.4.4.d Tapasztalati szórás (s), korrigált tapasztalati szórás (s*)

Ahogy a számtani átlag „az átlag”, úgy a tapasztalati és a korrigált tapasztalati szórás „a

szórás”. A szórás az adathalmazunk változékonyságának legfontosabb mérőszáma. Nagyon

hasonlít az előbbi mutatóhoz, és jelentése is hasonló: annyiban tér el, hogy a di eltérések

előjelét nem abszolút érték képzésével, hanem négyzetre emeléssel „oldja meg”, majd a

négyzetre emelést gyökvonással „teszi jóvá”.

A szórás az egyes Xi ismérvértékek átlagtól vett di eltéréseinek négyzetes átlaga. Azt mutatja,

hogy az egyes értékek átlagosan mennyire térnek el a számtani átlagtól.

Tapasztalati szórás számítása (súlyozatlan és súlyozott formulák):

Érdemjegy

Tapasztalati

gyakoriság (fi)

Relatív

gyakoriság (gi)

1 68 0,089

2 280 0,368

3 274 0,361

4 91 0,120

5 47 0,062

Összesen 760 1


36

r

iif

iX

iXif

N

iid

N

N

i

Xi

X

s

rN

1

1

2)(1

2

1

2

Korrigált tapasztalati szórás számítása:

1

2

1*

N

XXs

i

N

i

Példa


1760

)7,25(47...)7,22(280)7,21(68

1

1

2222

5

5

iif

iidif

s

Az érdemjegyek átlagosan 1 db-bal térnek el az átlagos értéktől.

Példa

BUX-indexes példánk szórása az egyedi adatokból számolva (az egyenkénti adatokból

számított számtani átlagtól (0,372%) való átlagos eltérést mérve):

%77,699

372,0066,15...372,0371,15372,0779,15

99

99

1

2372,0222

ii

X

s

%806,698

372,0066,15...372,0371,15372,0779,15

98

99

1

2372,0222

ii

X

s

Az egyes hozamadatok 6,77%-kal, illetve korrigált esetben 6,806%-kal térnek el átlagosan az

átlagtól.

Érdemjegy

Tapasztalati

gyakoriság (fi)

Relatív

gyakoriság (gi)

1 68 0,089

2 280 0,368

3 274 0,361

4 91 0,120

5 47 0,062

Összesen 760 1


37

Osztályközös gyakorisági sorból becsülve:


-20,00% -15,00% 2 2 2,02% 2,02%

-15,00% -10,00% 9 11 9,09% 11,11%

-10,00% -5,00% 9 20 9,09% 20,20%

-5,00% 0,00% 23 43 23,23% 43,43%

0,00% 5,00% 32 75 32,32% 75,76%

5,00% 10,00% 15 90 15,15% 90,91%

10,00% 15,00% 8 98 8,08% 98,99%

15,00% 20,00% 1 99 1,01% 100,00%


Gyakorisági sorból becsült számtani átlaggal (0,379%):

%3,799

)379,050,17(1...)379,050,12(9)379,050,17(2

1

1

2222

8

8

iif

iidif

s

Az egyes hozamadatok átlagosan 7,3%-kal térnek el az átlagtól.

2.4.4.e Relatív szórás (v)

Relatív szórás: A szórás és a számtani átlag hányadosa. Elsősorban különböző sokaságok

vagy ismérvek szóródásának összehasonlítására használják. Úgy is értelmezhető, mint az

értékek átlagtól vett átlagos eltérése, ezért minél kisebb a relatív szórás, a számtani átlag

annál jobban jellemzi az alapadatokat.

Számítása csak pozitív értékű ismérvekre:

%100X

sv


38

2.5 Fogalmak

Statisztikai sokaság Statisztikai minta

Nem mintavételi hiba Mintavételi hibaÁ

Álló sokaság Mozgó sokaság

Diszkrét sokaság Folytonos sokaság

Ismérv Ismérvváltozat

Alternatív ismérv Mennyiségi ismérv

Nem mennyiségi ismérv Nominális skála

Sorrendi skála Intervallumskála

Arányskála

Leíró statisztika Diszkrét mennyiségi ismérv

Folytonos mennyiségi ismérv Rangsor

Gyakoriság Relatív gyakoriság

Pálcika diagram Empirikus sűrűségfüggvény

Empirikus eloszlásfüggvény Ogiva

Medián Módusz

Számtani átlag Harmonikus átlag

Mértani átlag Négyzetes átlag

Kvantilis Terjedelem

interkvantilis terjedelem Átlagos abszolút különbség

Átlagos abszolút eltérés (Korrigált) tapasztalati szórás

Relatív szórás


39

2.6 Gyakorló feladatok

2.6.1 Feladat

Egy internetszolgáltató vállalkozásnál 280 napon keresztül vizsgálták az ügyfelek napi

reklamációinak számát. A megfigyelések eredményeiből az alábbi gyakorisági eloszlást

készítették.

a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági

sorból az 5. osztályhoz tartozó értéket!

b) Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat!

c) Mekkora a napi reklamációk átlagos száma?

d) Mekkora a napi reklamációk tipikus értéke?

e) Mekkora a medián értéke?

f) Mekkora az átlagtól vett eltérések négyzetes átlaga (szórás)?

g) Mekkora a relatív szórás?

Megoldás:

a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági sorból az

5. osztályhoz tartozó értéket!

Az 5. osztályhoz tartozó gyakorisági értékek jelentése:

5f : A megfigyelések során 32 napon volt a napi reklamációk száma 4. '

5f : 250 napon volt a napi reklamációk száma 4, vagy annál kevesebb.

5g : Az esetek 11,4%-ban volt napi 4 reklamáció. '

5g :Az esetek 89,3%-ban volt a napi reklamációk száma 4, vagy annál kevesebb.

Reklamációk száma

(reklamáció naponta)Napok száma

0 31

1 45

2 65

3 77

4 32

5 21

6 9

Reklamációk száma

(reklamáció naponta)

0 31 31 0.111 0.111

1 45 76 0.161 0.271

2 65 141 0.232 0.504

3 77 218 0.275 0.779

4 32 250 0.114 0.893

5 21 271 0.075 0.968

6 9 280 0.032 1

if'

if ig '

ig


40

b) Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat!

(Relatív) gyakoriságok ábrázolása (pálcika diagram):

Kumulált (relatív) gyakoriságok ábrázolása:

c) Mekkora a napi reklamációk átlagos száma?

475,2280

69521432377265145031

1

1

r

i

i

r

i

ii

f

xf

x

A napi reklamációk átlagos száma 2,475. Diszkrét adatról lévén szó, ilyen érték a valóságban

nem fordulhat elő.

d) Mekkora a napi reklamációk tipikus értéke?


41

A napi reklamációk tipikus értéke a módusz.

Diszkrét ismérv esetén a módusz az ismérv leggyakrabban előforduló értéke. A táblázatból

látható, hogy a leggyakrabban (az összes megfigyelésből 77-szer előforduló) érték a 3. Azért

ez a tipikus érték, mert ez a leggyakoribb.

e) Mekkora a medián értéke?

Páros számú adat esetén a sorba rendezett adatok között a két középső átlaga a medián.

Esetünkben a 140. és a 141. adat a növekvő sorrendbe rendezett adatok között a két középső.

E két adat értéke rendre a 2 és a 2. Ezért a medián értéke 2.

f) Mekkora az átlagtól vett eltérések négyzetes átlaga (szórás)?

299,2

280

475,269...475,2145475,2031222

2

S

516,1S

Vagyis a reklamációk száma átlagosan 1,516 db-bal tér el az átlagtól.


613,0475,2

516,1

x

S

Reklamációk száma (reklamáció naponta)

0 31 31 0.111 0.111

1 45 76 0.161 0.271

2 65 141 0.232 0.504

3 77 218 0.275 0.779

4 32 250 0.114 0.893

5 21 271 0.075 0.968

6 9 280 0.032 1

if'

if ig '

ig


0 31 31 0.111 0.111

1 45 76 0.161 0.271

2 65 141 0.232 0.504

3 77 218 0.275 0.779

4 32 250 0.114 0.893

5 21 271 0.075 0.968

6 9 280 0.032 1

if'

if ig '

ig


0 31 31 0.111 0.111

1 45 76 0.161 0.271

2 65 141 0.232 0.504

3 77 218 0.275 0.779

4 32 250 0.114 0.893

5 21 271 0.075 0.968

6 9 280 0.032 1

if'

if ig '

ig


42

A relatív szórás 61,3%. Ez a mutató önmagában nem informatív, másik vállalkozás hasonló

adataival, vagy ugyanezen vállalkozás más időszakban nyert adataival való

összehasonlításkor nyerne igazán értelmet.

2.6.2 Feladat

Egy áramszolgáltatónál 650 megfigyelést végeztek a szolgáltatásban bekövetkező

áramkimaradásokra vonatkozóan. A megfigyelések eredményit az alábbi táblázatban

rögzítették.

a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági

sorból a 4. osztályhoz tartotó értéket!

b) Ábrázolja az áramkimaradások időtartam szerinti megoszlását és a tapasztalati

eloszlásképet!

c) Mekkora az áramkimaradások átlagos időtartama?

d) Mekkora a tipikusnak tekinthető áramkimaradás időtartama?

e) Becsülje meg és értelmezze a mediánt!

f) Adjon becslést a szórásra!


Megoldás:

a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági sorból a

4. osztályhoz tartotó értéket!

A negyedik osztályhoz tartozó gyakoriságok értelmezése:

4f : A megfigyelések során 40 esetben volt az áramkimaradás időtartama 30 percnél hosszabb

vagy azzal egyenlő és 40 percnél rövidebb. '

4f : 620 esetben volt az áramkimaradás időtartama 40 percnél rövidebb.

4g : Az esetek 6,2%-ban volt az áramkimaradás időtartama 30 percnél hosszabb vagy azzal

egyenlő és 40 percnél rövidebb. '

4g : Az esetek 95,4%-ban volt az áramkimaradás időtartama 40 percnél rövidebb.

b) Ábrázolja az áramkimaradások időtartam szerinti megoszlását és a tapasztalati

eloszlásképet!

Áramkimaradás

időtartama (perc)

Áramkimaradások

száma

[0;10) 40

[10;20) 190

[20;30) 350

[30;40) 40

[40;50) 20

[50;60) 10

Áramkimaradás időtartama (perc)

[0;10) 40 40 0.062 0.062

[10;20) 190 230 0.292 0.354

[20;30) 350 580 0.538 0.892

[30;40) 40 620 0.062 0.954

[40;50) 20 640 0.031 0.985

[50;60) 10 650 0.015 1

if'

if ig '

ig


43

Relatív gyakorisági hisztogram (tapasztalati sűrűségfüggvény): vízszintes tengelyen az

osztályhatárok, függőleges tengelyen a relatív gyakoriságok.

Kumulált relatív gyakorisági hisztogram (tapasztalati eloszláskép): vízszintes tengelyen az

osztályhatárok, függőleges tengelyen a kumulált relatív gyakoriságok.

c) Mekkora az áramkimaradások átlagos időtartama?

A számtani átlag becslése:

538,22650

5510540

1

1

r

i

i

r

i

ii

f

xf

x

Az áramkimaradások átlagos hossza 22,538 perc.

d) Mekkora a tipikusnak tekinthető áramkimaradás időtartama?

Módusz: folytonos ismérv esetén a gyakorisága görbe maximum helye(i).

ixif'

if ig '

igÁramkimaradás időtartama

(perc)

[0;10) 40 40 0.062 0.062 5

[10;20) 190 230 0.292 0.354 15

[20;30) 350 580 0.538 0.892 25

[30;40) 40 620 0.062 0.954 35

[40;50) 20 640 0.031 0.985 45

[50;60) 10 650 0.015 1 55


44

Módusz becslése: tudjuk, hogy a 3. osztályközben van.

mo

fa

amo h

dd

dXoM

0,

ˆ

310403501 momof ffd

1601903501 momoa ffd

404,2310310160

16020ˆ

0,

mo

fa

amo h

dd

dXoM

A módusz becsült értéke 23,404, ez az az érték, ahol a gyakorisági görbe a maximumát veszi

fel.

e) Becsülje meg és értelmezze a mediánt!

me

me

me

me hf

fN

XeM

'

1

0,2ˆ

714,2210350

2302

650

202ˆ

'

1

0,

me

me

me

me hf

fN

XeM

A medián becsült értéke 22,714. Ez az az érték, amelynél az összes előforduló érték fele

kisebb, fele pedig nagyobb.

f) Adjon becslést a szórásra!

Átlagtól való átlagos eltérést kell számolnunk. A számtani átlag becsült értéke 22,538 perc

volt. Ez ettől az értéktől való átlagos eltérés érdekel minket:

r

i

i

r

i

ii

f

xxf

S

1

1

2

ixif'

if ig '

igÁramkimaradás időtartama (perc)

[0;10) 40 40 0.062 0.062 5

[10;20) 190 230 0.292 0.354 15

[20;30) 350 580 0.538 0.892 25

[30;40) 40 620 0.062 0.954 35

[40;50) 20 640 0.031 0.985 45

[50;60) 10 650 0.015 1 55

ixif'

if ig '


[0;10) 40 40 0.062 0.062 5

[10;20) 190 230 0.292 0.354 15

[20;30) 350 580 0.538 0.892 25

[30;40) 40 620 0.062 0.954 35

[40;50) 20 640 0.031 0.985 45

[50;60) 10 650 0.015 1 55


45

95,8

650

538,225510538,2254022

S

Az átlagtól való átlagos eltérés, és így az áramkimaradás időtartamának szórása 8,95 perc.


%7,39397,0538,22

95,8

x

SV

Értéke 39,7%. Más időszakban nyert, vagy hasonló adatokkal való összehasonlításban nyerhet

értelmet.

2.6.3 Feladat

100 utas poggyászának tömegét vizsgálták meg egy repülőtéren. Az eredményeket az alábbi

táblázat tartalmazza:

Poggyász tömege Utasok száma

0 6x 14

6 12x 22

12 18x 40

18 24x 12

24 30x 8

30 36x 4

Végezze el az adatok leíró statisztikai elemzését! Számítsa ki a gyakorisági táblázatot,

ábrázolja a táblázat adatait, számolja ki a legfontosabb középérték- és ingadozásmutatókat,

valamint jellemezze az eloszlás alakját a Pearson-féle mutatószámmal!

Megoldás:

A táblázat adatai az iF gyakoriságokat tartalmazzák. Ebből a kumulált értékek, illetve a

relatív gyakoriság ii

fg

n

számolható, ez nem más, mint az adott osztályba eső adatok

száma osztva az összes adat, azaz a teljes minta elemszámával. A kumulált gyakorisági

értékek nem mások, mint az adott osztályba eső, valamint minden, megelőző osztályba eső

adat gyakoriságának összege. A negyedik osztályra például:

' 14 22 40 12 884 1 2 3 4f f f f f ; hasonlóan számolhatóak a kumulált relatív

ixif'

if ig '


[0;10) 40 40 0.062 0.062 5

[10;20) 190 230 0.292 0.354 15

[20;30) 350 580 0.538 0.892 25

[30;40) 40 620 0.062 0.954 35

[40;50) 20 640 0.031 0.985 45

[50;60) 10 650 0.015 1 55


46

gyakoriságok is. Érdemes megjegyezni, hogy az utolsó osztály kumulált gyakorisága a minta

elemszámával, kumulált relatív gyakorisága 1-gyel kell megegyezzen.

Érdemes a táblázatban az osztályközepeket is meghatározni, később a szórás számolásánál

mindenképpen hasznos lesz. Az osztályközép az adott osztály felső és alsó határának egyszerű

számtani átlaga, a második osztályra például: 12 62, 2,

9.22 2

X Xalsó felsőx

A

tapasztalati gyakoriságokból, illetve a kumulált relatív gyakoriságokból –ezt a tapasztalati

eloszlásfüggvénynek nevezzük- ezután a grafikonok egyszerűen elkészíthetőek.

Poggyász

tömege ix

osztályközép

if tapasztalati

gyakoriság

if kumulált

tapasztalati

gyakoriság

ig relatív

gyakoriság ig

kumulált

relatív

gyakoriság

0 6x 3 14 14 0,14 0,14

6 12x 9 22 36 0,22 0,36

12 18x 15 40 76 0,4 0,76

18 24x 21 12 88 0,12 0,88

24 30x 27 8 96 0,08 0,96

30 36x 33 4 100 0,04 1,00

0

4

8

12

16

20

24

28

32

36

40

0-6 kg 6-12 kg 12-18 kg 18-24 kg 24-30 kg 30-36 kg

Gyakorisági hisztogram


47

A legfontosabb középérték mutató a számtani átlag. Mivel nem ismerjük egyenként az

adatokat, így az osztályközepek segítségével becsüljük. Az osztályközép tulajdonképpen arra

szolgál, hogy minden az osztályba eső adatot vele helyettesítsünk.

1 14 3 22 9 40 15 12 21 8 27 4 3314,4

100

r

i i

i

f x

xn

Helyzeti középérték mutató még a medián és a módusz is, ezek szintén becsülhetőek a

gyakorisági táblázatból. Tudjuk, hogy a medián abból az osztályból kell származzon, amelyre

teljesül, hogy '

2me

Nf , azaz azt az osztályt keressük, ahol a kumulált relatív gyakoriság

nagyobb, mint az elemszám fele, esetünkben a negyedik osztály lesz a mediánt tartalmazó.

0

'

1 50 362ˆ 12 6 14,140

me

me me

me

Nf

Me X hf

. 0meX a mediánt tartalmazó osztály alsó

határa, N az adatok száma, '

1mef a mediánt megelőző osztály kumulált gyakorisága, mef a

mediánt tartalmazó osztály tapasztalati gyakorisága, meh a mediánt tartalmazó osztály

osztályköz-hosszúsága (a felső és az alsó osztályhatár különbsége).

A módusz szintén becsülhető osztályba sorolt adatokból. Mindig az az osztály tartalmazza a

móduszt, amelyhez a legnagyobb relatív gyakoriság tartozik, ez esetünkben a negyedik

osztály3.

0moX ennek az osztálynak az alsó határa, moh a modális osztály osztályköz-

hosszúsága. Két paramétert kell még számolni, 1a mo mod f f és 1f mo mod f f , ahol

, 1, 1 mo mo mof f f rendre a móduszt tartalmazó, az azt megelőző és a követő osztály gyakorisága.

Esetünkben 40 22 18ad és 40 12 28fd .

3 Meg kell azonban jegyezni, hogy a mediánt és a móduszt nem szükségszerűen ugyanaz az osztály tartalmazza.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0-6 kg 6-12 kg 12-18 kg 18-24 kg 24-30 kg 30-36 kg

Tapasztalati eloszlásfüggvény


48

0

18ˆ 12 6 14,3478

18 25

amo mo

a f

dMo X h

d d

. Érdemes megemlíteni, hogy gyakran a

legnagyobb gyakoriságú osztály osztályközepét tekintik, ezt nyers módusznak nevezzük.

Az ingadozásmutatók közül leggyakrabban a terjedelmet és a szórást használjuk. Mivel az

egyenkénti adatokat nem ismerjük, a terjedelem nem számolható. A tapasztalati szórásnégyzet

és a korrigált tapasztalati szórásnégyzet a következőképpen számolható.

2

2 1

( )r

i i

i

f x x

sn

illetve

2

2 1

( )

1

r

i i

i

f x x

sn

. Tehát (1) vesszük az osztályközepek ( )ix

négyzetes eltérését a számtani átlagtól ( )x és (2) ezt súlyozzuk az osztályok gyakoriságával

( )if minden r darab osztályra, majd ezeket összegezzük (3). Az így kapott úgynevezett

eltérés-négyzetösszeget (!!!) osztjuk (4) az elemek számával (n) vagy az elemek száma-1-

gyel. A korrigált tapasztalati szórás számolása a későbbiekben azért célszerűbb, mert az

elméleti –ismeretlen- alapsokasági varianciára ez ad torzítatlan becslést. Behelyettesítve az

összefüggésbe először meghatározzuk az eltérés-négyzetösszeget:

2 2 2 2 2

1

2 2

( ) 14(3 14,4) 22(9 14,4) 40(15 14,4) 12(21 14,4)

8(27 14,4) 4(33 14,4) 5652

r

i i

i

f x x

Innen a tapasztalati és a korrigált tapasztalati szórásnégyzet, majd szórás:

2

2 1

( )5652

56,52100

r

i i

i

f x x

sn

, így 2 56,52 7,518s s

2

2 1

( )5652

57,09091 99

r

i i

i

f x x

sn

így 2 2 57,0909 7,556s s

Látható, hogy még viszonylag nagy elemszámnál is viszonylag nagy az eltérés a tapasztalati

és a korrigált tapasztalati szórás értéke között.

Az eloszlás alakját a Pearson-féle mutatószámmal (aszimetria) mutatóval jellemezhetjük.

3 ( ) 3 (14,4 14,1)0,119

7,516

x MeP

s

. A mutató értelmezése: Nagyon enyhe bal oldali

aszimetria. A grafikus képen látható, hogy a tapasztalati sűrűségfüggvény jobbra!) kissé

elnyúltabb.


49

2.7 Elméleti kérdések

1. Ismertesse a matematikai statisztika tárgyát, lényegét, a mintavételi és nem mintavételi

hiba közötti különbséget!

2. Mutassa be a sokaság és az ismérv csoportosításának lehetőségeit, minden esetre írjon

2-2 példát!

3. Jellemezze a mérési skálák egyes típusait, írjon 2-2 példát!

4. Ismertesse a leíró statisztika tárgyát, célját és mutassa be annak eszközrendszerét! Mi

a különbség a diszkrét és folytonos mennyiségi ismérv között?

5. Foglalja össze az egy mennyiségi ismérv szerinti osztályozás lényeges kérdéseit!

6. Melyek a mennyiségi sorok ábrázolásának főbb lépései? Röviden jellemezze az egyes

lépéseket!

7. Mutassa be a legfontosabb középérték mutatók osztályozásának szempontjait,

jellemezze az alkalmazás előnyei és hátrányai szempontjából a legfontosabb

mutatókat!

8. Mutassa be az ingadozásmutatók osztályozásának szempontjait, jellemezze az

alkalmazás szempontjából az egyes mutatókat!


50

3. Részekre bontott sokaság vizsgálata

A gyakorlatban sokszor előfordul, hogy olyan sokaságot kell vizsgálnunk, amelyek egységei

olyan kisebb-nagyobb csoportokra sorolhatóak, melyeken belül az egységek az elemzés

ismérve szempontjából jellegzetesen eltérő módon viselkednek, így például a budapesti

lakások fajlagos – egy négyzetméterre vetített – ára is nagy különbségeket mutat nemcsak az

egyes kerületek között, hanem sokszor az egyes kerületeken belül is. Ezekben az esetekben a

teljes sokaság mellett szükséges a részekre bontott sokaság vizsgálata is, pontosan azért, mert

a teljes sokaságra vonatkozó elemzési eredmények nem fedik fel az előzőekben említett

jellegzetes eltéréseket, ami sok esetben komoly információveszteséggel járhat együtt4.

Heterogén sokaság: A vizsgált ismérv szempontjából lényegesen eltérő jellegzetességeket

mutató részekre bontható sokaságokat az adott ismérv szempontjából heterogén

sokaságoknak nevezzük.

Így minden olyan esetben, amikor felmerül a vizsgált sokaság heterogenitásának gyanúja,

célszerű a sokaságot részekre bontva is elemezni, mert a sokaság egyes részsokaságaira kapott

eredmények, és azok egymással való összehasonlítása lényegi információkat adhat a vizsgált

jelenségről.

A részekre bontott elemzés elvégzéséhez részsokaságokat kell kialakítani, ami nem mindig

egyszerű feladat. Olyan csoportképző ismérvet kell választani, amely a részsokaságok

között meglévő heterogenitást meg tudja ragadni. Természetesen nemcsak egy sokaság

valamely ismérv szerinti elemzése esetén jelentkezhetnek a sokaság heterogenitásából fakadó

problémák, hanem olyan esetekben is, amikor egyszerre több sokaságot vizsgálunk

viszonyszámok segítségével. Ilyenkor gyakran előfordul az, hogy az együtt vizsgált

sokaságok egészének és egyes részeinek egymáshoz viszonyított nagysága lényegesen eltérő

módon alakul. Az ilyen elemzések céljából azonos módon kell a sokaságon belül a

részsokaságokat kialakítani.

A viszonyszám két egymással összefüggő statisztikai adat hányadosa, amelynek általános

formulája:

Viszonyszám (V)= Viszonyítandó adat (A) / Viszonyítási alap (B)

A viszonyszámok három fő típusát különböztetjük meg: megoszlási, intenzitási és dinamikus

viszonyszámokat.

Megoszlási viszonyszám: Olyan viszonyszám, amely valamely részadatnak az egészhez való

viszonyát fejezi ki.

Például nyugdíjasok aránya a népességen belül, valamely cég piaci részesedése egy adott

termék forgalmazásában

4 Ez az információveszteség a sokaság mennyiségi ismérv szerinti elemzésekor ismerhető fel (pl. leíró statisztikai

feldolgozás során), mert ilyenkor a gyakorisági eloszlás grafikus képe rendszerint több módusszal rendelkezik.

Ennek következtében egyik középérték sem jellemzi jól a sokaságot, ami a szórás, és a relatív szórás nagy

értékeiben is meg fog nyilvánulni.


51

Intenzitási viszonyszám: Két, egymással kapcsolatban lévő, különböző fajta adat hányadosa,

melyek között vannak fajlagos mérőszámok, sűrűségi, ellátottsági mérőszámok, valamint

arányszámok.

Például fajlagos mérőszám az egy termékre jutó anyagfelhasználás, 100 km-re jutó

üzemanyag-fogyasztás, egy háziorvosra jutó betegek száma, egy főre jutó GDP, egy lakosra

jutó vízfogyasztás.

Sűrűségi, ellátottsági mérőszám például a népsűrűség (fő/km2), személygépkocsi sűrűség

(gépkocsi/1000 fő).

Arányszám például a születési, halálozási arányszám (1000 (!) főre jutó születések,

halálozások száma).

Az ilyen típusú viszonyszámok elemzésével foglalkozik a standardizálás módszere.

Dinamikus viszonyszám: két összehasonlított időszak vagy időpont adatának a hányadosa,

ahol a viszonyítandó adat (A) a tárgyidőszak adata, a viszonyítási alap (B) pedig a bázis

időszak adata.

A megoszlási és dinamikus viszonyszámokat azonos fajta, azonos mértékegységű adatokból

számítjuk, ezért tiszta számok. Ez azt jelenti, hogy nincs mértékegységük, kifejezhetők %-os

vagy ‰-es formában. (pl. %-os formában fejezzük ki a fogyasztó árindex változását egyik

időszakról a másikra, a halálozási arányszám változását pedig ‰-es formában) A dinamikus

viszonyszámok elemzésével az indexszámítás foglalkozik.

3.1 Rész- és főátlagok

Abból indulunk ki, hogy adott egy m számú részre bontott sokaság. A teljes sokaságot

fősokaságnak, a sokaság részeit pedig részsokaságoknak nevezzük. A részsokaságok (a

fősokaságot összesen r részsokaságra osztva) egymástól való megkülönböztetésére a j indexet

használjuk, amelynek lehetséges értékei: j=1, 2, …, r.

A továbbiakban azzal foglalkozunk, hogy a részekre bontott fősokaság vizsgálatával hogy

gazdagíthatjuk elemzésünket, és milyen kapcsolat van a fősokaságra és a részsokaságokra

vonatkozó elemzési eredmények között.

Yij-vel jelöljük a vizsgált mennyiségi ismérvnek a j-edik részsokaság (j=1, 2, …, r) i-edik (i=

1, 2, …., Nj) egységénél felvett értékét. A fősokaság nagyságát N-nel jelöljük, ami r

jj 1

N N

összefüggéssel fejezhető ki, ahol Nj a j-edik részsokaság nagysága, vagyis elemszáma.

A j-edik részsokaságra vonatkozó részátlag:

MjN

SY

NY

j

jN

i

ij

j

j

j

,...,2,1,1

1

, ahol

jN

i

ijj YS1

, és a j-edik részsokaság értékösszegét

jelenti.

Az egész sokaságra vonatkozó főátlag

jNr r

ij jj 1 i 1 j 1

1 1Y Y S

N N


52

Példa5

Ismeretes, hogy budapesti lakótelepeken a lakásárak különböző tényezők következtében

lényegesen eltérnek egymástól. Ennek illusztrálása céljából egy hirdetési újságból

kigyűjtötték mindazoknak az 3+1 fél szobás lakásoknak az árát, amelyek egy adott napon az

újságban Budapest III. kerületében meghirdetésre kerültek. A négy lakótelepről aznap

eladásra kínált sokaságokat egy-egy részsokaságnak tekintették. Az adatokat az alábbi

táblázat tartalmazza:

Első feladatunk az, hogy határozzuk meg és hasonlítsuk össze egymással az egyes

részsokaságokba tartozó lakások átlagos kínálati árát, és állítsuk elő azokból az adott napon

eladásra kínált 45 lakás átlagos árát.

Békásmegyeri lakótelep átlagára:

mFtY 467,2215

337

15

25...28221

A másik három lakótelep átlagárai rendre:

Pók utcai: mFtY 625,468

3732

Óbudai: mFtY 5,3212

3903

Kaszásdűlő: mFtY 6,3110

3164

Látható, hogy a Pók utcai lakások átlagos kínálati ára a legmagasabb 46,625 mFt-os átlaggal.

Az összes lakás átlagára, vagyis a főátlag az egyes részátlagos az adott részsokaság

elemszámával súlyozott átlaga:

5 Forrás: Hunyadi – Vita: Statisztika közgazdászoknak, KSH, Budapest, 2002 alapján készült saját példa

Békásmegyer Pók utca Óbudai Kaszásdűlő

Lakásárak 22 59 32 28

28 52 28 28

19 40 37 35

28 47 31 29

18 45 26 36

27 54 26 25

19 38 38 42

21 38 39 24

22 25 34

24 30 35

20 38

18 40

23

23

25

Mintaszám 15 8 12 10

Értékösszeg 337 373 390 316


53

1 1 2 2 3 3 4 4

1

15 22,467 8 46,625 12 32,5 10 31,6 141431,467

45 45

r

i i

i

N Y N Y N Y N Y N YY

N N

mFt

Ebben az összefüggésben az 1414 mFt a vizsgált lakások árának összege, azaz a korábbiakban

Sj-vel jelölt értékösszeg.

3.2 Rész- és fősokaságok varianciája és szórása

A szórás számítása a YYd átlagtól vett eltérésekből indul ki.

Ha a sokaságot részekre bontjuk, akkor a fenti jijij NiMjYYd ,...,2,1,,...,2,1, eltérés

két részre bontható: belső és külső eltérésre.

A belső eltérés az egyes sokasági egyedekhez tartozó ismérvértékeknek (Yij-knek) az adott

részsokaságra az ismérvértékekből számított átlagtól ( jY ) vett eltérését méri:

jjijij NiMjYYB ,...,2,1,,...,2,1,

A külső eltérés az egyes részsokasági átlagoknak ( jY ) a főátlagtól (Y ) vett eltérését

számszerűsíti:

MjYYK jj ,...,2,1,

A teljes eltérés a belső és külső eltérés összege: jijij KBd , ahol dij a teljes eltérés. A teljes

eltérés azt mutatja, hogy bármely Yij ismérvérték két ok miatt térhet el a főátlagtól: részben

azért, mert az ismérvértékek minden részsokaságon belül ingadoznak az adott részsokaságra

jellemző részátlag körül, részben pedig azért, mert az egyes részátlagok ingadoznak a főátlag

körül.

Az első fajta ingadozás a csoportképző ismérven kívüli összes egyéb tényezőnek, a második

fajta ingadozás pedig kizárólag a csoportképző ismérvnek tudható be. Ez pedig annak

köszönhető, hogy a csoportképző ismérv alkalmazásának célja, hogy a fősokaságot olyan

részsokaságokra bontsuk, amelynek elemei az adott ismérv szempontjából jobban

hasonlítanak egymáshoz, mint más részsokaság elemeihez, így az Y ismérv egy-egy

részsokaságon belüli ingadozása csakis más tényezőknek tulajdonítható.

Példa

A legmagasabb kínálati árú Pók utcai lakás ára 59 millió Ft korábbi táblázatunk szerint. Ez a

kínálati ár (általunk nem vizsgált okok miatt) 59-46,625=12,375 millió Ft-tal magasabb, mint

az ugyanebbe a csoportba tartozó lakások átlagos kínálati ára. Ez az 59 mFt értékű lakás belső

eltérése. A Pók utcai lakások átlagos kínálati ára a lakótelep egyedi sajátosságai miatt 46,625-

31,467=15,158 millió Ft-tal magasabb, mint a III. kerületi ilyen típusú lakások átlagos ára. Ez

pedig az adott részsokasághoz (Pók utcai lakótelep) külső eltérése. Így végül az adott 59 mFt

értékű lakás 12,375+15,158=27,533 millió Ft-tal drágábban került meghirdetésre, mint egy

általunk vizsgált átlagos lakótelepi lakás.

A háromféle eltérés alapján háromféle szórás, illetve variancia számítható:


54

Teljes szórás, illetve teljes variancia: A T teljes szórás az egyes ismérvértékeknek a

fősokasági átlagtól vett átlagos eltérése. A 2

T teljes variancia a teljes szórás négyzete. A

teljes variancia a külső és belső variancia négyzetének összegeként is felírható.

j jN Nr r2 2

T ij ijj 1 i 1 j 1 i 1

1 1(Y Y) d

N N

, illetve

M

j

N

i

ij

M

j

N

i

ijT

jj

dN

YYN 1 1

2

1 1

22 1)(

1

A belső eltérések felhasználásával egy részsokaságra vonatkozó részszórás, illetve

részvariancia:

jN

i

ij

j

j BN 1

21 , illetve

jN

i

ij

j

j BN 1

22 1

Ha a belső eltéréseket nemcsak egy-egy részsokaságra, hanem az egész fősokaságra

vonatkozóan átlagoljuk, akkor a belső szóráshoz jutunk:

M

j

N

i

ijB

j

BN 1 1

21

A B belső szórás azt mutatja meg, hogy a fősokaság egyes egységeihez tartozó Yij

ismérvértékek átlagosan mennyivel térnek el saját részsokasági átlaguktól. A belső szórás

négyzete a belső variancia ( 2

B ).

A 2

B belső variancia a részvarianciáknak az egyes részsokaságok nagyságával súlyozott

átlaga:

N

N j

M

j

j

B

2

12

Külső szórás és külső variancia: A külső eltérésekből kiindulva a K külső szórás azt

mutatja meg, hogy a részátlagok átlagosan mennyivel térnek el a főátlagtól. A 2

K külső

variancia a külső szórás négyzete.

2 2

1 1

1 1( )

r r

K j j j jj j

N Y Y N KN N

A háromféle variancia közötti összefüggés: 222

BKT

Másik gyakran használt formája: SST=SSK+SSB, ahol SST a teljes eltérés-négyzetösszeg6,

SSB a belső, SSK pedig a külső eltérés-négyzetösszeg. Az Y ismérv SST teljes eltérés

négyzetösszegének, változékonyságának SSK nagyságú része a részsokaságok képzésére

használt csoportképző ismérvnek tulajdonítható, azzal magyarázható. Ezzel szemben az

6 Az SS jelölés a statisztikában a Sum of Squares = négyzetösszeg elnevezés rövidítése.


55

SSB nagyságú rész az Y ismérv szóródását előidéző más, kiemelten nem vizsgált

tényezők együttes hatásának tudható be.

A részsokaságok képzésére használt Y ismérv annál hasznosabbnak tekinthető, minél

nagyobb az SSK/SST vagyis σk2/σ

2 hányados.

Példa

A főátlag és a táblázatban található lakásárak alapján a teljes szórás számítása (mind a 45

lakás árának vesszük a főátlagtól vett négyzetes eltérését és átlagoljuk):

2

2 2 21 1

( )(22 31,467) (28 31,467) ... (35 31,467)

45

4301,29,7766

45

iN r

ii j

T

x x

N

mFt

582,952 T

A teljes szórás értelmezése a következő: az egyes lakások eladási ára átlagosan 9,7766 m F-tal

tér el a lakások átlagárától.

Az első részsokaság – békásmegyeri lakások- σ1 szórása az egyes békásmegyeri lakások

árának eltérése a békásmegyeri lakások átlagárától:

2 2 2 2

1

(22 22,467) (28 22,467) ... (23 22,467) (25 22,467)

15

163,7333353,3039

15

mFt

Rendre a további lakótelepek részszórása az adott lakótelep egyes lakásainak átlagos

négyzetes eltérése az adott lakótelep átlagárától:

2 2 2

2

2 2 2

3

2 2 2

4

(59 46,625) (52 46,625) ... (38 46,625) 431,8757,3474

8 8

(32 32,5) (28 32,5) ... (40 32,5) 3495,3929

12 12

(28 31,6) (28 31,6) ... (35 31,6) 290,45,3889

10 10

mFt

mFt

mFt

A részsokaságok szórásai egymással közvetlenül nehezen hasonlíthatóak össze, mivel az

egyes részsokaságokban a kínálati árak más-más átlag körül szóródnak.

A relatív szórások –az adott részsokaság részszórásának és részátlagának hányadosa- értékei:

11

1

2

3

4

3,303914,7%

22,467

15,76%

16,6%

17,05%

V

Y

V

V

V

Ezeket összehasonlítva azt látjuk, hogy a békásmegyeri lakások árai a legegyöntetűbbek, itt a

legkisebb a relatív szórás.


56

A belső szórás az egyes részszórások részsokasági elemszámával súlyozott átlaga: 2 2 2 2 2

2

1

15 3,3039 8 7,3474 12 5,3929 10 5,3889 1235,0827,444

45 45

ri i

Bi

N

N,

illetve 27,444 5,2387 B mFt

Ez azt jelenti, hogy a kínálati lakásárak átlagosan mintegy 5,24 mFt-tal térnek el saját

részsokaságuk átlagától, ami a teljes szórásnál észrevehetően kisebb. Azaz, az ugyanazon a

lakótelepen található egyes lakások árai átlagosan 5,2387 mFt-tal térnek el az adott lakótelep

átlagos lakásárától.

A külső szórásnégyzet és szórás:

255,8142,6844,27582,95222 kBk . A gyakorlati számításokat

ugyanakkor jelentősen megkönnyíthetjük, ha a belső és a külső szórást számítjuk ki, majd

ezek segítségével határozzuk meg a teljes szórást. A külső szórás az egyes részsokasági

átlagok átlagos eltérése a fősokasági átlagtól, súlyozva a szóban forgó részsokaság

elemszámával. 2

2

1

2 2 2 2

( )

15(22,467 31,467) 8(46,625 31,467) 12(32,5 31,467) 10(31,6 31,467)

45

3066,1016768,1356

45

r

j i

kj

N Y Y

N

Innen 2 68,1356 8,2544 k k k k . A külső szórás értelmezése: az egyes

lakótelepek átlagos lakásárai (ezek az egyes részátlagok) átlagosan 8,2544 mFt-tal térnek el

valamennyi lakás (azaz a részekre nem bontott sokaság; hiszen a főátlagnál nem vizsgáljuk a

csoportosítás hatását) átlagárától.

A 2

1

( )

r

j ij

N Y Y négyzetösszeget külső eltérésnégyzetösszegnek nevezzük (SSK).

A varianciahányados, vagy szórásnégyzethányados mutató: 2

2

2

68,13560,7129

95,582

k SSKH

SST, amely összefüggés úgy interpretálható, hogy a kínálati

lakásárak ingadozásának mintegy 71%-a azzal magyarázható, hogy a lakás a négy

lakótelep közül melyiken található, 29% pedig egyéb, itt külön nem vizsgált tényezőknek

tulajdonítható, amely alapján állíthatjuk azt, hogy a négy lakótelep megkülönböztetése

hasznos a vizsgált kínálati árak ingadozásának magyarázata szempontjából.

A 2H szórásnégyzethányados mutató négyzetgyöke a H-val jelölt szóráshányados mutató,

amely nullához vagy egyhez való közelsége alapján a kapcsolat szorosságát jellemezhetjük.

2 0,7129 0,8443 H H H H . A H szóráshányados mutató alapján a lakás

elhelyezkedése és ára között erős kapcsolat fedezhető fel.


57

3.3 Ismérvek közötti kapcsolat

Két ismérv, X és Y ismérv között háromféle természetű kapcsolat lehetséges:

- A két ismérv független egymástól.

- A két ismérv között sztochasztikus kapcsolat van. Ezt azt jelenti, hogy nincs egyértelmű

függvénykapcsolat a két ismérv értékei között, azonban fennáll egy tendencia jellegű

kapcsolat.

- A két ismérv függvényszerű, determinisztikus kapcsolatban áll egymással. Ez azt

jelenti, hogy az egyik ismérv bármely értékéhez a másik változó egy adott értéke

tartozik.

A sztochasztikus kapcsolat lényege, hogy a megfigyelt sokaság egységeinek X ismérv szerinti

milyenségét, hovatartozását ismerve levonható ugyan bizonyos következtetés az egységek Y

szerinti hovatartozásáról, de ez a következtetés nem teljesen egyértelmű.

Az ismérvek közötti kapcsolat elemzésekor a következő három kérdésre keressük a választ:

1. Van-e kapcsolat a vizsgált ismérvek között?

2. Milyen szoros a kapcsolat?

3. Hogyan lehet felhasználni az ismérvek közötti kapcsolat természetének ismeretét arra,

hogy egy adott egység bizonyos ismérvek szerinti milyenségéből következtethessünk

annak más ismérvek szerinti hovatartozására?

Az egyidejűleg vizsgált két ismérv fajtája (a változók mérési szintje, lásd 1.5 fejezet) szerint a

továbbiakban a következő eseteket különböztetjük meg7:

- Asszociáció(s kapcsolat): az egymással kapcsolatban álló ismérvek minőségi vagy

területi ismérvek (mindkét változó nominális mérési szintű).

- Vegyes kapcsolat: az egyik vizsgált ismérv mennyiségi ismérv, a másik területi vagy

minőségi ismérv (azaz az egyik változó intervallum- vagy arányskálán, a másik pedig

nominális skálán mérhető).

- Korrelációs kapcsolat: mindkét vizsgált ismérv mennyiségi ismérv (mindkét változó

intervallum- vagy arányskálán mérhető).

- Rangkorrelációs kapcsolat: mindkét változó sorrendi skálán mérhető.

Korábbi példánkat (lakótelepi példa) alapul véve itt ejtünk szót a vegyes kapcsolatról.

A H2

variancia- vagy szóráshányados mutató az Y-nal jelölt ismérv szórásnégyzetének az X

ismérv által magyarázott hányada. A vegyes kapcsolat szorosságának mutatója; 10 2 H .

Számítása:

2

2

2

22 1

KB

SST

SSK

SST

SSBSSTH

A H2 mutató értékét gyakran százalékká alakítva használják.

A H2=0 eset akkor fordul elő, ha 02 KSSK . Ez akkor következhet be, ha az X ismérv

szerint képzett osztályok részátlagai mind egyformák. Ez akkor fordul elő, ha X és Y

függetlenek egymástól.

7 Az asszociációs kapcsolatról majd a hipotézisvizsgálatoknál a függetlenségvizsgálat kapcsán fogunk szólni, a

korrelációs kapcsolat bemutatásával külön fejezet foglalkozik jegyzetünkben, és e tárgynak nem része a

rangkorreláció tárgyalása.


58

A H2=1 eset ezzel szemben akkor áll elő, ha 22

TK , azaz 02 B . Ez pedig annyit jelent,

hogy az X szerint képzett csoportokon belül nem szóródik Y. Ekkor az X szerinti hovatartozás

mindent elmond Y-ról. A varianciahányados H2=1 értéke a két vizsgált ismérv függvényszerű

kapcsolatát jelzi.

Az óbudai lakótelepeken található lakások árát vizsgáló példánkban láttuk, hogy a vizsgált két

ismérv közül az egyik területi (melyik lakótelepen van a lakás), a másik mennyiségi

(mennyibe kerül). Így a két ismérv közötti kapcsolat vegyes kapcsolatként jellemezhető.

713,02

22

SST

SSKH

T

k

, azaz láttuk, hogy a kínálati lakásárak szóródását kb. 71%-ban

magyarázza, hogy melyik lakótelepen van a lakás, és a lakásárak szóródásának maradék 29%-

át pedig más, a példában nem vizsgált tényezők, ismérvek magyarázzák (pl. hányadik

emeleten van a lakás, milyen a lépcsőház, van-e lift, milyen a tájolása, tömegközlekedési

viszonyok, a lakótelep környékének infrastruktúrája stb.).

A H2 varianciahányados mutatóból származtatott és H-val jelölt szóráshányados mutató két

ismérv közötti vegyes kapcsolat szorosságát méri. Értéke 0 és 1 között mozog. Ha H=0, a két

ismérv független egymástól, míg H=1 a két ismérv közötti függvényszerű kapcsolatra utal.

A H nem fejezhető ki százalékosan, hanem kizárólag a kapcsolat szorosságának

megítélésére használható a 0-hoz, illetve 1-hez való közelségét figyelembe véve.

A példánk alapján 844,0713,02 HH , amely érték szoros kapcsolatot mutat a lakás

ára és a lakótelepi elhelyezkedés között.

3.4 Fogalmak

Heterogén sokaság Viszonyszám

Megoszlási viszonyszám Intenzitási viszonyszám

Dinamikus viszonyszám Belső eltérés

Külső eltérés Teljes eltérés

Belső szórás Belső variancia

Külső szórás Külső variancia

Teljes szórás Teljes variancia

Varianciahányados Szóráshányados


59


3.5.1 Feladat

Egy vállalatnál megvizsgálják a férfiak és a nők kereseteit:

Nem Bruttó kereset (ezer Ft/hó)

Férfi 120, 83, 65, 190, 230, 120, 130, 190

Nő 70, 65, 90, 100, 120, 130

Jellemezze a munkavállalók keresetének homogenitását, állapítsa meg, hogy milyen szoros a

kapcsolat a munkavállaló neme és a bruttó keresete között!

Megoldás:

A kereset szerinti szóródást két részre kell bontani, a „munkavállaló neme” ismérvhez

kapcsolódó külső szórásra és a más tényezőkhöz (pl. tapasztalat, korábbi beosztások, iskolai

végzettség stb.) kapcsolható belső szóródásra az SST=SSK+SSB összefüggés alapján.

2

1 1

2

11

2

1

)()()(

M

j

N

i

jij

M

j

jj

M

j

N

i

ij

jj

YYYYNYY

Az ehhez szükséges számítások:

A

munkavállaló

neme

Munkavállalók

száma

Átlagkereset Szórás

(részsokaságok

tapasztalati szórása)

Férfi 8 141 53,46

Nő 6 95,83 23,88

Összesen 14 121,64 48,75

A részátlagok:

1418

190...831201

1

ffiN

i

iffi

ffi

ffi YN

Y , vagyis a vizsgált férfiak átlagkeresete 141

eFt/hó.

83,956

130...65701

1

nőN

i

inő

nő

nő YN

Y , vagyis a vizsgált nők átlagkeresete 95,83

eFt/hó.

A főátlag:

64,12114

83,9561418

1

1

M

j

j

M

j

jj

N

YN

Y , vagyis a vizsgált vállalat esetében az átlagkereset

(nemtől függetlenül) a minta alapján 121,64 eFt/hó.

A részszórások:


60

46,538

)141190(...)14183()141120()(

1 2222

1

ffiN

i

ffiiffi

ffi

ffi YYN

Ez azt jelenti, hogy a férfiak esetében az átlagkeresettől való átlagos eltérés 53,46 eFt/hó.

88,236

)83,95130(...)83,9565()83,9570()(

1 2222

1

nőN

i

nőinő

nő

nő YYN

Ez azt jelenti, hogy a nők esetében az átlagkeresettől való átlagos eltérés 23,88 eFt/hó.

A belső variancia a részvarianciák alapján:

52,187714

88,23646,538 22

2

12

N

N j

M

j

j

B

33,43B

Ez azt jelenti, hogy a vizsgált vállalat esetében az átlagos keresettől való átlagos eltérés (a

részátlagoktól való átlagos eltérés) 43,33 eFt/hó.

67,49914

)64,12183,95(6)64,121141(8)(

221

2

2

N

YYNM

j

jj

K 35,22K

Ez azt jelenti, hogy a nemenkénti átlagkeresetek átlagosan 22,35 eFt/hó-val térnek el a

főátlagtól.

2 2 2 1977,52 499,67 2377,19 T K B 48,75T

Ez azt jelenti, hogy az egyes munkavállalók keresete átlagosan 48,75 eFt/hó-val tér el a

főátlagtól.

Bontsuk fel a teljes eltérés-négyzetösszeget a példa elején felírt módon: SST=SSK+SSB

Az SSK számítása:

SSK=22 )64,12183,95(6)64,121141(8 = 6995,41

SSB pedig a csoportonkénti eltérés-négyzetösszegek összege, ami a szórásokból

„visszaszámolható”:

SSB = 22 88,23646,538 = 22863,77 + 3421,53= 26285,3

SST = SSK +SSB= 6995,41 + 26285,3 = 33280,71

A kapcsolat szorosságának jellemzése:

2

2

SSK 6995,41H 0,21

SST 33280,71

H H 0,21 0,458

A munkavállaló neme 21%-ban magyarázza a fizetésekben megfigyelhető szóródást. A két

ismérv között gyenge közepes kapcsolat van, erre utal a H mutató 0,458-ös értéke. Ez egyúttal

azt is jelzi számunkra, hogy a fizetésekben meglévő szóródás vizsgálatához a „munkavállaló


61

neme” nem volt igazán jó választás, hiszen azt csak kismértékben magyarázza. Érdemes lenne

más csoportképző ismérvvel (pl. iskolai végzettséggel) próbálkozni.

3.5.2 Feladat

Három hallgatói csoportot vizsgálunk. Az első csoportba azok a hallgatók kerültek, akik a

szüleikkel laknak, a másik csoportba pedig azok, akik kollégiumban, míg a harmadik

csoportba azok kerültek, akik albérletben laknak. Az alábbi táblázat mutatja az egyes

csoportokban megkérdezett hallgatók heti költéseit ezer Ft-ban.

Hallgató

lakhelye

Heti költség (eFt)

Szülőknél 13, 18, 20, 20, 28, 30, 31, 40

Kollégiumban 25, 30, 30, 31, 33, 35, 38, 40, 40,

44, 50

Albérletben 40, 48, 50, 50, 52

Számítsuk ki az átlagos heti kiadást a különböző lakáshelyzetű hallgatói csoportokban!

Vonjunk le következtetéseket! Vizsgáljuk meg a szóródást különböző módokon! Számítsuk ki,

hogy a szóródás milyen mértékben magyarázható a lakáshelyzettel! Milyen szoros a kapcsolat

a lakhely és a kiadások között?

Megoldás:

Átlagos heti kiadások és szórások kiszámítása:

Hallgató

lakhelye

Heti költségek

Átlaga Szórása

Szülőknél 25 8,2

Kollégiumban 36 6,902

Albérletben 48 4,195

Összesen

258

40...2018131

1

szN

i

isz

sz

sz YN

Y

3611

50...3030251

1

kN

i

ik

k

k YN

Y

485

52505048401

1

aN

i

ia

a

a YN

Y

A szülőknél lakók átlagos heti kiadása 25 eFt, a kollégistáké 36 eFt, és az albérletben lakóké

48 eFt, így ez utóbbi csoport esetében a legmagasabb a heti kiadás.

Főátlag:

83,3424

4853611258

1

1

M

j

j

M

j

jj

N

YN

Y


62

A megkérdezett hallgatók átlagos heti költsége 34,83 eFt.

Részszórások:

2,88

)2540(...)2518()2513()(

1 2222

1

szN

i

szisz

sz

sz YYN

2 2 22

1

1 (25 36) (30 36) ... (50 36)( ) 6,902

11

kN

k ik kik

Y YN

2 2 22

1

1 (40 48) (48 48) ... (52 48)( ) 4,195

5

kN

a ik kik

Y YN

A szülőknél lakók átlagos költése átlagosan 8,2 eFt-tal tér el az átlagtól, az átlagtól való

átlagos eltérés 6,9 eFt a kollégistáknál és 4,2 eFt az albérletben lakóknál.

A belső variancia:

2

2 2 212 8 8,2 11 6,902 5 4,195

47,9124

6,92

m

j jj

B

B

N

N

A belső szórás értéke azt jelenti, hogy a hallgatók heti költése átlagosan 6,92 eFt-tal tér el a

saját részsokaságuk (lakhely szerint számított) átlagától.

2

2 2 212

( )8 (25 34,83) 11 (36 34,83) 5 (48 34,83)

68,9724

8,305

M

j jj

K

K

N Y Y

N

A külső szórás értéke szerint az egyes részsokságok költésének átlagai 8,3 eFt-tal térnek el a

heti költések főátlagától.

81,10

88,11697,6891,472

T

T

Az egyes hallgatók heti költése átlagosan 10,81 eFt-tal tér el a vizsgálatba bevont hallgatók

átlagos heti költségétől.

A teljes variancia és a külső variancia felhasználásával a varianciahányados mutató:

%5959,088,116

97,682 H , a heti költések ingadozását 59%-ban magyarázza a hallgató

lakhelye. A maradék 41%-nyi ingadozást más, lakhelyen kívüli, most nem vizsgált tényezők

okozzák.

768,00,592 HH , a két ismérv (hallgató lakhelye és a heti költés) között

közepesnél erősebb kapcsolat áll fenn.


63


1. A belső, külső és teljes eltérésen keresztül mutassa be a belső, külső és teljes variancia

közötti összefüggést! Ismertesse a közöttük lévő kapcsolat gyakorlati jelentőségét!

2. Ismertesse az ismérvek közötti kapcsolatok típusait az ismérvek mérési szintjeit is alapul

véve!

3. Mutassa be a vegyes kapcsolat mérésére alkalmazott mutatókat!


64

4. Mintavétel és becslés

4.1 Mintavétel

A bevezetőben már tárgyaltuk, hogy a sokaságra vonatkozó adatgyűjtések lehetnek teljes

körűek vagy részlegesek. A teljes körű felmérések a sokaság minden egységére kiterjednek,

míg a részleges adatgyűjtés esetén a sokaság egy alkalmasan kiválasztott részét vizsgáljuk. A

sokaság egy részének kiválasztását mintavételnek, a sokaság így kiválasztott részét pedig

mintának nevezzük.

Az általunk vizsgált társadalmi-gazdasági jelenségek vizsgálatakor a teljes körű adatfelvétel

ritka, mert időigényes, drága, és a legtöbb esetben lehetetlen is, nincs lehetőség a sokaság

teljes körű megismerésére. Mintavételes technikával készül ugyanis a legtöbb piac- és

közvéleménykutatás, a demográfiai vagy szociológiai kutatások, sok esetben mintavételes

eljárásokra támaszkodnak a Központi Statisztikai Hivatal kimutatásai is, amikor a termelés, a

fogyasztás, a kereskedelmi forgalom, vagy az árindexek alakulását vizsgálja adott

rendszerességgel.

Azt is hangsúlyoztuk a bevezetőben, hogy minket nem a minta konkrét jellemzése érdekel, a

minta eszköz, hogy segítségével következtessünk a sokaságra, és éppen ezért az is érdekes,

hogy a minta mennyire jó eszköz, mennyire megbízható az az alapján levont következtetés.

A mintavételes eljárás első kulcsfontosságú mozzanata a sokaság helyes definiálása, azaz

annak rögzítése, hogy mely sokaság megfigyelésére irányul a mintavétel.

Korábban említést tettünk a mintavétellel kapcsolatban említett hibák két nagy csoportjára is.

Újból hangsúlyoznánk, hogy a nem mintavételi hiba az emberi figyelmetlenség, hibás

felmérés, adatrögzítés, lekérdezés, kódolás, feldolgozás során keletkezik. A technika és az

alkalmazott módszerek fejlődésével már sokféle módon lehet védekezni a nem mintavételi

hibák ellen, de ez nyilván valamivel költségesebbé teheti a felmérést.

A mintavételi hiba az előzővel ellentétben abból származik, hogy nem a teljes sokaságot

vizsgáljuk, hanem annak csak egy részét, így az eredmények függnek attól, hogy éppen

milyen mintát veszünk.

4.1.1 Mintavételi módok

Az alapsokaságból többféleképpen választható ki egy n elemű minta. A kiválasztás két nagy

csoportja: véletlen és nem véletlen mintavételi módok.

A véletlen mintavétel olyan kiválasztási eljárás, melynek során ismert vagy meghatározható a

sokaság elemeinek mintába kerülési esélye. A mintavételi hiba számítása csak véletlen minta

esetében lehetséges. A véletlen minta biztosítja a reprezentativitást.

A sokaságból kivett minta egyik legfontosabb elvárt tulajdonsága a reprezentativitás.

A reprezentativitás azt jelenti, hogy a minta összetétele csak a véletlen hatások miatt tér el a

sokaságétól. A minta vizsgált ismérvek szerinti összetétele követi a sokaságét.

Ha pl. egy vizsgált sokaságban 50-50% a férfiak és a nők aránya, akkor a véletlen kiválasztás

biztosítja, hogy nagyjából a mintában is fele-fele lesz a férfiak-nők aránya, természetesen a

véletlen hatása miatt ettől a megoszlástól a mintabeli megoszlás kismértékben eltérhet.


65

A gyakrabban alkalmazott mintavételi módok a visszatevéses egyszerű véletlen minta, a

visszatevés nélküli egyszerű véletlen minta, a rétegzett minta, a csoportos és a többlépcsős

minta.

A visszatevéses egyszerű véletlen mintavétel esetén a sokaságból egyenlő valószínűséggel, a

visszatevéses technika miatt egymástól függetlenül veszünk mintát. A gyakorlatban ritkán

fordul elő, inkább elméleti jelentősége van, a mintavételi tulajdonságok ezen keresztül

mutathatóak be a legjobban.

A visszatevés nélküli egyszerű véletlen mintavétel során a sokaságból egyenlő

valószínűséggel veszünk mintát, de egy sokasági elem csak egyszer kerülhet a mintába, így a

mintaelemek egymástól nem függetlenek. A gyakorlatban gyakran előfordul, a sokaság egy

teljes körű listájából véletlen generátorral adott nagyságú mintát generálnak.

Az egyszerű véletlen minták a véletlenség következtében reprezentatívak. Ilyen minták

esetében a következtetés pontossága két dologtól függ:

mintaelemszám: minél nagyobb a minta, annál megbízhatóbb a következtetés, mivel

annál kisebb a véletlen szerepe;

eredeti sokaság heterogeneitása: minél heterogénebb az alapsokaság, annál nagyobb a

véletlen szerepe, hogy milyen lesz az aktuális mintánk, így ez a következtetés

megbízhatóságát csökkenti.

Egyszerű véletlen minták esetében a következtetés pontossága csak a minta elemszámnak

növelésével érhető el. A rétegzett minta abban segít, hogy rögzített mintaelemszám mellett

pontosabb eredményeket kapjunk.

A rétegzett mintavétel esetében a sokaságot egy csoportképző ismérv szerint átfedésmentes,

az egész sokaságot lefedő rétegekre bontjuk, majd minden rétegből egyszerű véletlen mintát

veszünk.

Ebben az esetben a következtetések megbízhatósága a rétegek heterogenitásától függ, vagyis

olyan rétegképző ismérvet (lásd Részekre bontott sokaság vizsgálata fejezet) érdemes

választani, amely homogenizálja a rétegeket, vagyis amely minél erősebb sztochasztikus

kapcsolatban áll a vizsgált ismérvvel. Tehát alkalmazása elsősorban akkor célszerű, ha a

sokaság heterogén és van előzetes információnk arról, hogy a sokaságot hogyan lehet a

vizsgált ismérv szempontjából homogén, de legalábbis kevésbé heterogén csoportokba

sorolni.

Az egyszerű véletlen és rétegzett minták esetében feltétel, hogy legyen egy teljes lista a

vizsgált egységekről, és rétegzett minta esetén még azt is tudni kell, hogy melyik egyed

melyik rétegbe tartozik.

Amennyiben egy sokaságról nem áll rendelkezésre lista vagy annak beszerzése költséges,

összeállítása hosszadalmas lenne, használható a csoportos vagy többlépcsős mintavétel.

A csoportos és többlépcsős mintavétel alkalmazásakor olyan nyilvántartásból történik a

kiválasztás, amely a sokaság egységeit nem elkülönítve, hanem természetes vagy mesterséges

csoportokban tartalmazza. A sokaságot a csoportképző ismérv szerint átfedésmentes, a

sokaságot lefedő csoportokra bontjuk, majd a csoportok közül választunk egyszerű véletlen

mintát, majd a mintába került csoportok minden egysége bekerül a mintába. A többlépcsős

eset ennek általánosítása, két, három vagy több csoportosítás is végezhető.

A csoportos minta annál megbízhatóbb, minél heterogénebbek a csoportok, hiszen ha egy

csoport homogén, akkor a csoport elemei nem fogják bemutatni a sokaság jellegzetességeit.

Az a jó, ha minden csoport önmagában is minél jobban tükrözi a sokaság összetételét.


66

E jegyzetben nem részletezzük a nemvéletlen mintavételi eljárásokat, bár a gyakorlatban

gyakran előfordulnak egyszerűségük, olcsóságuk miatt. Legfőbb hátrányuk, hogy

alkalmazásukkor nem számszerűsíthető a mintavételi hiba nagysága.

4.2 Paraméterek becslése

A mintavétel után a célunk a sokaság jellemzése a minta segítségével (lásd 1. ábra).

Leggyakrabban a sokaság valamely jellemzőjére, paraméterére van szükségünk. A sokaság

egy paraméterének mintából való közelítését becslésnek nevezzük.

A korábbi tanulmányok során azt is megértettük, hogy minden – majdnem minden – elméleti

eloszlásnak van(nak) paramétere(i), melyeket általában nem ismerünk, azokat a -re

vonatkozó statisztikai mintából kell közelítőleg meghatároznunk, becsülnünk, mert csak ezek

ismeretében tudunk a vizsgált jelenséggel kapcsolatos valószínűségi kérdésekre válaszolni.

A becslési eljárásokat két nagy kategóriába soroljuk. Megkülönböztetünk pontbecslést és

intervallumbecslést.

A pontbecslés a paramétert egy értékkel becsüli.

Az intervallumbecslés előre meghatározott megbízhatósággal egy intervallumot ad a keresett

sokasági paraméterre.

A becsülni kívánt paramétert általánosságban ϴ-val (ejtsd: théta) jelöljük. A leggyakrabban

becsült sokasági paraméterek a várható érték, a szórás és az arány. Ezek a sokaság számunka

ismeretlen konstans értékei, azaz értékük nem függ a véletlentől. A becslés a sokaságból

kivett véletlen minta alapján valósul meg, a mintaelemek függvénye, ezt többféle formulával

is előállíthatjuk és becslőfüggvénynek nevezzük. Véletlen minta esetén az éppen aktuális

minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is

valószínűségi változó. A mintából származó pontbecslést általában -val jelöljük.

Hangsúlyozzuk, hogy a becsülni kívánt sokasági paraméter konstans szám, erre a kivett

mintából sokféle becslést adhatunk. A várható értéket becsülhetjük a mintaátlaggal, a

mediánnal, a módusszal, a legkisebb és legnagyobb érték átlagával, esetleg egy nyesett

átlaggal. Éppen ezért a becslések jóságát valamilyen kritériumok szerint értékelni kell, ezeket

a becslési kritériumokat tárgyaljuk a következő alfejezetben.

17. ábra: A becslés elméletet

Minta-2

Minta-1

Minta-3

1x

2x

3x

mintáról mintára változik

maga is valósz. változó

adott elméleti eloszlással,

szórással stb.

jellemezhető


67

Nem arról van tehát szó, hogy a mintából kiszámoljuk az ismeretlen paramétert. A

mintából számolt mutatók értékei függnek a véletlentől, mintáról mintára változnak, így

maguk is valószínűségi változónak tekinthetők.

A mintából számolt mutatók eloszlását mintavételi eloszlásnak nevezzük.

Annak megítélése, hogy a mintából számolt mutató (amit minta statisztikának vagy röviden

statisztikának is neveznek) mikor tekinthető az ismeretlen elméleti paraméter „jó”

becslésének, többféle szempontból történhet.

4.3 A becslés tulajdonságai8

Említettük, hogy az ismeretlen sokasági paramétereket általában több statisztikával is

becsülhetjük. Így pl. a várható értéket – normális eloszlású alapsokaság esetében – a

mintaátlaggal és a mediánnal, a szórást a minta szórásával, de a terjedelem segítségével is

becsülhetjük stb. Természetesen felmerül a kérdés, hogy ezek közül melyik becslést kell

választanunk. Azért, hogy ilyen esetekben a legmegfelelőbb becslést választhassuk,

kritériumokat kell felállítanunk arra vonatkozólag, hogy mikor fogadjunk el egy becslést

jónak, illetve mikor tartsunk jobbnak egy becslést a másiknál. A statisztikai becslés Fisher-

féle kritériumait az alábbiakban foglaljuk össze9.

4.3.1 Torzítatlan becslés

A legfontosabb tulajdonság, amit egy „jónak” minősített becsléstől megkívánunk, hogy a

becslés a szóban forgó paraméterérték körül ingadozzék. Pontosabban azt kívánjuk meg,

hogy a becslés (az illető statisztika) várható értéke éppen a megfelelő paraméterérték

legyen. Ha egy becslésre ez a követelmény teljesül, akkor torzítatlan becslésről beszélünk.

)ˆ(E

A torzítatlanság kritériuma azt jelenti, hogy bár a minta függ a véletlentől, ezért a különböző

mintából származó becslések eltérhetnek a becsülni kívánt elméleti paramétertől, az eltérések

középpontja az elméleti paraméter legyen, ne legyen semmilyen szisztematikus „félrehúzás”,

torzítást.

A torzítatlanság nem azt jelenti, hogy egy adott mintából kapott becslés egyenlő az

ismeretlen paraméterrel, sőt arra sem ad feleletet, hogy a mintából kapott becslés értéke

közel, vagy távol esik-e a valódi paramétertől. A torzítatlanság esetében csupán abban

lehetünk biztosak, hogy nincs semmiféle szisztematikus, egyirányú eltérés a becslés és a

becsült paraméter között.

Így pl. torzítatlan a becslés, ha a mintaátlagok várható értéke megegyezik az alapsokaság

várható értékével: )(ExE , vagy a korrigált tapasztalati szórásnégyzet várható értéke az

elméleti varianciával egyenlő: )()( 22* DsE .

Ez azonban nem igaz a tapasztalati szórásnégyzetre. A tapasztalati szórásnégyzet várható

értéke (az elméleti varianciát az egyszerűség kedvéért 2-el jelölve):

222 11

1)(

nn

nsE . Az empirikus (tapasztalati) szórásnégyzet tehát az elméleti

variancia torzított becslése. Látható, hogy a „torzítás mértéke” függ a mintaszámtól, s a

8 Kövesi J.: Kvantitatív módszerek, Oktatási segédanyag, BME MBA Mérnököknek program, Budapest, 1998

9 A 4.3 részben található ábrák a STATISTICA for Windows programmal készültek


68

mintaszám növekedésével csökken. Az ilyen tulajdonságú becsléseket aszimptotikusan

torzítatlan becslésnek nevezzük.

Példa Vizsgáljuk meg n=3 elemű statisztikai minták alapján a kockadobás tapasztalati és korrigált

tapasztalati szórását. (A valószínűségszámítás alapjai részben meghatároztuk a kockadobás

elméleti szórását, s azt találtuk, hogy D()1,71.) A kísérletet 50-szer megismételve a

számított tapasztalati, ill. korrigált tapasztalati szórásokat az alábbi ábrán (18. ábra) láthatjuk.

18. ábra: Tapasztalati szórások összehasonlítása

Az ábrán folytonos vonal mutatja a tapasztalati, ill. szaggatott vonal a korrigált tapasztalati

szórásokat a mintaszám függvényében. Vízszintes folytonos vonallal jelöltük a kétfajta

szórás (50-50 elem) átlagát. A korrigált tapasztalati szórások átlaga 1,73, a tapasztalati

szórásoké 1,41. Jól látható, hogy a korrigált tapasztalati szórások az elméleti (1,71) szórás

körül ingadoznak (átlaguk közel esik az elméleti értékhez), míg a tapasztalati szórások átlaga

1,41, jóval nagyobb az eltérés az elméleti értéktől.

Amennyiben a becslésünk torzított, a torzítás mértékét a becslőfüggvény várható értéke és az

alapsokasági jellemző különbségeként definiáljuk:

)ˆ(Etorzítás

4.3.2 Hatásos becslés

A hatásosságot nagyon fontos becslési kritériumnak tekintjük.

A torzítatlanság csak azt biztosítja, hogy a becslések a becsülni kívánt paraméter körül

ingadozzanak, de az ingadozás mértékéről nem mond semmit. Minél kisebb az ingadozás

mértéke, annál nagyobb megbízhatósággal tudunk majd egy mintára támaszkodni. A

becslések ingadozását a becslések szórásával (standard hiba) mérjük, egy becslés annál

hatásosabb, minél kisebb a szórása.

T_SZ3

K_TSZ3

n=3 elemû minták szórásai

0.0

0.5

1.0

1.5

2.0

2.5

3.0

0 4 8 12 16 20 24 28 32 36 40 44 48

1,73

1,41


69

Két becslés összehasonlításakor a hatásosság kritériuma alapján döntjük el, hogy a kettő közül

melyik a jobb. Két becslés közül a kevésbé ingadozót nevezzük hatásosabbnak. Az ingadozás

mértéke a szórás, ezért a becslések ingadozását is a szórásukkal jellemezzük. Tehát két

becslés közül a kisebb szórású becslést tekintjük hatásosabbnak, jobbnak. Ha 1 hatásosabb

becslés, mint 2 , akkor

)ˆ()ˆ( 21 DD

Gyakran előfordul, hogy a torzítatlan becslések között van olyan, amelyiknek a szórása az

összes többi becslés szórásánál kisebb (adott n mellett). Ekkor ezt a minimális szórású,

torzítatlan becslést hatásosnak nevezzük, és a többi becslés hatásfokát ehhez mérjük.

Példa A „szokott” módon, tapasztalati adatokból hasonlítsuk össze (n=5 elemű minták alapján) a

kockadobás átlagát és mediánját. A kísérletet 50-szer megismételve, a minták átlagait és

mediánjait a 19. ábra mutatja.

19. ábra: A kockadobás átlaga és mediánja

Az ábrán szaggatott vonallal összekötve a négyzetek a mediánokat, folytonos vonallal

összekötve körök jelölik az egyes minták átlagait. Vízszintesen behúzott folytonos vonal a

várható értéket mutatja (E() = 3,5). Megfigyelhetjük, hogy a medián is és az átlag is az

elméleti érték körül ingadozik (torzítatlan becslések), ugyanakkor az átlagok eltérése,

ingadozása kisebb, mint a mediánoké. Kiszámolva a két adatsor korrigált tapasztalati

szórásait, az eredmények az alábbiak: 794,0* átlags ; 320,1* mediáns . Az átlag szórása valóban

kisebb, mint a mediáné, az adatok alapján kb. 40%-kal. Az átlag tehát hatásosabb becslés,

mint a medián.

4.3.3 Konzisztens becslés

Eddig rögzített mintaelemszám mellett vizsgáltuk a becslések pontosságát. Konzisztencia alatt

azt értjük, hogy nagyobb mintából egyre pontosabb becslést kapunk, így a torzítás mértéke és

a becslés varianciája 0-hoz tart.

Konzisztensnek (összetartónak) nevezzük a becslést akkor, ha ingadozása a becsült

paraméter körül a minta elemszámának növelésével egyre csökken.

ATL

MED

n=5 el emû mi nt ák át l aga és medi ánj a

0. 5

1. 5

2. 5

3. 5

4. 5

5. 5

6. 5

0 5 10 15 20 25 30 35 40 45 50


70

A korábbiakban láttuk, hogy a számtani átlag torzítatlan becslése a várható értéknek, s szórása

nx

. Nyilvánvaló, hogy n esetén 0

x , vagyis a számtani átlag konzisztens

becslése a várható értéknek.

Egy paraméter n elemű mintákból számított n becslései egy valószínűségi változó

sorozatot alkotnak ( ,...2,1n ). A valószínűségszámítás részben megismertük egy

valószínűségi változó sorozat majdnem biztos (1 valószínűségű) és sztochasztikus

konvergenciájának fogalmát. Ezek felhasználásával azt mondhatjuk, hogy n a paraméter

erősen konzisztens becslése, ha n majdnem biztosan (1 valószínűséggel) a paraméterhez

tart, illetve n a paraméter gyengén konzisztens becslése, ha n sztochasztikusan

konvergál a paraméterhez.

Példa Az előző példához hasonlóan „kevésbé matematikai módon”, tapasztalati adatokból

vizsgáljuk meg a kockadobás esetén a két empirikus szórás viselkedését a mintaszám

növekedésének függvényében.

A 20. ábra mutatja a kapott eredményeket. Az ábrán folytonos vízszintes vonal jelzi az

elméleti értéket (D()1,71). Az ábrából egyértelműen látszik, hogy a mintaszám

növekedésével mind a korrigált tapasztalati, mind a tapasztalati szórás az elméleti érték körül

ingadozik (torzítatlan, ill. aszimptotikusan torzítatlan becslés), s az ingadozás mértéke a

mintaszám növekedésével egyre kisebb (konzisztens a becslés).

20. ábra: A kockadobás szórása a mintaszám függvényében (n=100)

Megfigyelhetjük, hogy kb. 30-35 elemű minták esetén a különbség a két szórás között már

gyakorlatilag elhanyagolható. Az 21. ábra csak az első 50 adatot ábrázolva mutatja a két

szórás közötti különbség alakulását.

T_SZ_

K_T_SZ

Kockadobás szórása

0.8

1.2

1.6

2.0

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95100


71

21. ábra: A kockadobás szórása a mintaszám függvényében (n=50)

4.3.4 Elégséges becslés

Egy becslés elégséges, ha az lényegében minden információt tartalmaz a paraméterre

vonatkozóan. Ez más szóval annyit jelent, nincs más olyan becslés, amelyik a paraméterről

több információt szolgáltatna, mint az elégségesnek minősülő becslés.

4.4 A pontbecslés módszerei

A jegyzet bevezetésében felvázoltuk a statisztikai következtetés logikai menetét, s annak első

lépését, a mintavétel elveit és módszereit is áttekintettük. A második lépéssel, a mintából

származó adatok feldolgozásával (tömörítésével, rendezésével, ábrázolásával stb.) a leíró

statisztika foglalkozik, melynek eszközeit és módszereit szintén részletesen megismertük a 2.

fejezetben. Már akkor előrevetítettük, hogy a mintából számított mutatókat (átlag, szórás, stb.)

a sokasági jellemzőkre való következtetésre, az ismeretlen paraméterek becslésére (is)

használjuk. Ebben az esetben tehát a mintából meghatározunk egy számértéket, s ezt a számot

tekintjük az ismeretlen paraméter közelítő értékének. Ezt az eljárást nevezzük az előzőek

értelmében pontbecslésnek.

Az eddigiek során is használtunk különféle becslőfüggvényeket pontbecslés céljára, de ezeket

csak „ösztönösen” választottuk. Így természetesen adódott, hogy pl. a várható értéket a

mintából számított átlaggal vagy más középértékkel becsüljük. Ez az ún. analógia elve, ami

azt jelenti, hogy a mintából a becsülendő jellemzővel megegyező tartalmú mutatót számítunk

ki, és ennek segítségével becsüljük a megfelelő sokasági jellemzőt. Léteznek azonban olyan

általános elvek, módszerek, amelyek segítségével olyan esetekben is tudunk jó tulajdonságú

becslőfüggvényeket készíteni, amikor a megérzés vagy az analógia már nem segít. A

legegyszerűbb grafikus becslést kivéve nem célunk ezek részletes ismertetése, csak röviden

felsoroljuk, illetve ismertetjük lényegüket10,11

.

10

Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985 11

Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996

T_SZ_

K_T_SZ

Kockadobás szórása

0.8

1.2

1.6

2.0

2.4

0 5 10 15 20 25 30 35 40 45 50


72

Maximum-likelihood módszer (a legnagyobb valószínűség elve): az eljárás

lényege az ún. likelihood függvény felállítása, amely nem más, mint a

mintaelemek együttes sűrűségfüggvénye, s az ismeretlen paraméter becslésére azt a

statisztikát használjuk, melyre ez a függvény maximális értéket vesz fel. Ez az

egyik legjobb és leggyakrabban alkalmazott eljárás. A módszer alkalmazásához

ismernünk kell az eredeti sokasági eloszlást. Az ismeretlen paraméter becslésének

azt a függvényt tekintjük, amely mellett egy adott minta bekövetkezésének

valószínűsége maximális.

Legkisebb négyzetek módszere: nem pusztán a statisztikai becslésre szolgáló

eljárás, hanem alkalmazható más becslési feladatok megoldására is. A módszer

lényege, hogy egy elméleti modellnek (ez lehet egy eloszlás vagy

sűrűségfüggvény, de lehet egy egyszerű konstans függvény is) a paramétereit

határozza meg úgy, hogy a tényleges és a becsült paraméterekkel illesztett

modellek négyzetes eltérése, azaz az eltérések négyzetösszege minimális legyen.

Ezt az elvet használjuk majd a regressziószámítás során is.

Momentumok módszere abban áll, hogy ha k számú paramétert akarunk becsülni,

akkor az eloszlás első k számú elméleti momentumát egyenlővé tesszük a mintából

számított tapasztalati momentumokkal. Ily módon az ismeretlen paraméterekre

egyenletrendszert nyerünk, amely kedvező esetben megoldható.

Grafikus paraméterbecslés: az előző matematikai eljárásokhoz képest, ez inkább

a gyakorlat számára könnyebben kezelhető eljárás. Bár pontossága természetesen a

grafikus ábrázolás adta lehetőségektől függ, de egyszerűsége miatt sokszor jól

használható. Lényegük, hogy valamilyen módon (többnyire logaritmizálással)

linearizáljuk az eloszlásfüggvényt, s az adatokat grafikusan ábrázolva az egyenes

meredekségéből és/vagy tengelymetszetéből következtetünk az eloszlás ismeretlen

paraméteré(ei)re.

4.5 Intervallumbecslés

A becslésről szóló eddigi fejtegetéseink során az eloszlás valamely ismeretlen paraméterét

egyetlen mennyiséggel, a mintaelemekből számított statisztika numerikus értékével, tehát

egyetlen számadattal becsültük, azaz pontbecslést alkalmaztunk. A pontbecslés csak

véletlenül egyezik meg a sokasági paraméterrel, általában annak környezetében helyezkedik

el. Hogy milyen sugarú környezetében, az alapvetően a mintavételi hibától függ. Az elemzés

árnyaltabbá tehető azzal, hogy a pontbecslést intervallumbecsléssel egészítjük ki, és a

mintavételi hibát is figyelembe véve adott (nagy) megbízhatóságú intervallumbecslést adunk

a becsülni kívánt sokasági paraméterre, mert ez mutatja meg, mennyire megbízható a

mintából számolt információ.

Az intervallumbecslés eredményeként előálló ún. konfidencia-intervallummal (amely

intervallum a becsülni kívánt elméleti paramétert előre megadott nagy valószínűséggel

tartalmazza) kapcsolatos legfontosabb kérdés, hogy az milyen széles legyen, hogy lefedje a

becsülni kívánt sokasági paramétert. A sokaságból kivett minta függ a véletlentől, vagyis a

mintából számolt statisztika is valószínűségi változó, aktuális értéke általában eltér a becsült

paramétertől. Ha sokszor (sok n-es mintából) végezzük a becslést, akkor a mintastatisztika

értékei – torzítatlan becslés esetén – az elméleti érték körül szóródnak. A szóródás mértéke

természetesen függ a minta nagyságától.

Olyan intervallumot, ami 100%-os biztonsággal lefedi a becsülni kívánt paramétert, nem

tudunk megadni, de nagy megbízhatóságra törekszünk. A mintastatisztika eloszlásának


73

ismeretében (ezeket neveztük mintavételi eloszlásoknak) sokszor meg tudunk adni egy olyan

intervallumot, amely az ismeretlen paramétert nagy valószínűséggel tartalmazza. A

leggyakrabban 95%-os megbízhatóságú konfidencia-intervallum használata terjedt el. Az

ilyen intervallumot az adott paraméterre vonatkozó 95%-os konfidencia-intervallumnak

(megbízhatósági intervallumnak) nevezzük. A 95%-os megbízhatóság jelentése az, hogy 100

hasonló mintavétel esetén 95-ször a becsülni kívánt alapsokasági jellemző valóban a

konfidencia-intervallumban található.

A továbbiakban a különböző paraméterekre vonatkozó intervallumbecsléssel foglalkozunk.12

A konfidencia-intervallum számításához ismernünk kell, hogy hogyan viselkedik a sokasági

paramétert becslő függvényünk. Nemcsak azt kell tudnunk, hogy mi a becslőfüggvény átlaga

és szórása, hanem azt is, hogy a becslőfüggvény, mint valószínűségi változó milyen eloszlást

követ.

Ha tehát pl. a sokaság várható értékét kívánjuk becsülni, akkor annak becslésére felhasznált

számtani átlag értéke mintáról mintára változik, azaz valószínűségi változó. Az

intervallumbecsléshez tudnunk kell, hogy a számtani átlag milyen várható értékkel és

szórással, milyen eloszlást követ.

Az intervallumbecslés lényege, hogy ismerjük pontbecslésünk valószínűségi tulajdonságait,

és ezek segítségével egy adott megbízhatósági intervallumot adunk meg a sokasági

paraméterre.

12

Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985


74

4.5.1 Konfidencia-intervallum a normális eloszlás várható értékére13

Tegyük fel, hogy a valószínűségi változó N(,0) eloszlású, ahol 0 szórás ismert. A

sokasági paramétert statisztikai mintából a számtani átlaggal becsüljük. Tudjuk, hogy az átlag

eloszlása (mintavételi eloszlás) szintén normális eloszlású )(xE várható értékkel, és

nD 0)(

szórással.

A normális eloszlás ismert tulajdonsága az ún 2-szabály alapján, hogy az átlag értéke

95,44% valószínűséggel a várható érték 2 szórás tartományba, vagyis a

nn

00 2,2

intervallumba esik: 9544,022 00

nx

nP

.

Ha ismernénk tehát a várható értéket, és a számegyenesen megrajzolnánk a fenti

intervallumot, akkor az n elemű minták számtani közepét kiszámolva 100 esetből kb. 95

mintaközép ebbe az intervallumba esik. Sajnos azonban értékét nem ismerjük (éppen ezt

szeretnénk becsülni), a fenti intervallumot nem tudjuk megrajzolni. Rendezzük át az

összefüggést a következő formára: 9544,022 00

nx

nxP

.

Ezen összefüggés valószínűségelméleti értelme a következő. Az ismeretlen paraméter nem

valószínűségi változó, hanem egy állandó, a számegyenes egy adott pontja. Valószínűségi

változó viszont az

nx

nx 00 2,2

intervallum két végpontja. Azaz annak a

valószínűsége, hogy ez a véletlen helyzetű intervallum tartalmazza (lefedi) a pontot,

közelítőleg 95%. (22. ábra)

22. ábra: Konfidencia-intervallumok a várható értékre

13



75

Az

nx

nx 00 2,2

intervallumot a normális eloszlás várható értékére vonatkozó 95%-

os (pontosabban 95,44%-os) konfidencia-intervallumnak nevezzük. Természetesen nem csak

95%-os intervallumot lehet szerkeszteni. Ha a sokaság elméleti szórása ismert (0), akkor az

átlag mintavételi eloszlása lapján tetszőleges kicsiny >0 számhoz meghatározható olyan z/2

mennyiség, hogy a

10

2/

0

2/n

zxn

zxP .

Normális eloszlás esetén tehát az

nzx

nzx 0

2/

0

2/ ,

intervallum (1-) szintű

konfidencia intervallum a várható értékre.

A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának

nevezzük.

Adott eloszlás esetén minél nagyobb a megbízhatósági szint (1-), annál szélesebb

intervallumot kapunk. Nagy biztonsággal csak viszonylag hosszabb intervallumról állíthatjuk,

hogy valóban tartalmazza az ismeretlen paramétert. Mint látható az intervallum hossza függ

még a minta nagyságától és az alapsokasági (0) szórástól.

Az eddigiekben csak kétoldali intervallumról beszéltünk, mivel a gyakorlatban ez az

elterjedtebb. Ha csak alsó vagy csak felső határokat kívánunk becsülni, akkor a követendő

eljárás az eddigiekhez hasonló lesz. A részletek mellőzésével belátható, hogy felső korlát

esetén

10

nzxP kapható, ahol z a standard normális eloszlás táblázatból

kereshető ki14

. Azaz annak a valószínűsége, hogy az ismeretlen sokasági paraméter az

nzx 0

érték alá esik, 1-. Hasonló módon az alsó korlátra a

10

nzxP

összefüggést kapunk.

Miután a mintaátlag függ a véletlentől, valószínűségi változó, így a konfidencia-intervallum is

valószínűségi változó, vagyis a konfidencia-intervallumok is mintáról mintára változnak. A

mintavétel végrehajtása után a konfidencia-intervallum vagy tartalmazza a sokasági

paramétert vagy nem. Ezt nem tudjuk, csak azt, hogy amennyiben a mintavételt újra és újra

megismételnénk, és elkészítenénk a konfidencia-intervallumokat, az esetek 1-α %-ában a

sokasági jellemző a konfidencia intervallumon belül lenne.

A gyakorlatban általában csak egy mintát veszünk, és az alapsokasági jellemző nem ismert,

éppen ezért becsüljük a mintából. Abban reménykedünk, hogy a minta alapján szerkesztett

konfidencia-intervallum tartalmazza a sokasági paramétert, de mivel a véletlen szerepet

játszik így nincs 100%-os megbízhatóság. 95%-os megbízhatósági szint mellett 5% az esélye,

hogy ez egy olyan szélsőséges minta, hogy még a konfidencia-intervallummal sem sikerült

„lefedni” a sokasági paramétert.

14



76

Példa

Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát

vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban:

990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000

A gép által töltött tömeg normális eloszlású valószínűségi változó 4,5g szórással.

Határozzuk meg 95%-os megbízhatósággal a termékek várható értékének konfidencia

intervallumát!

n=9

9

10001001997100599910009961004990x 999,11g

0=4,5g

=0,95 =0,05 kétoldali becslés: /2=0,025 z/2=1,96

behelyettesítve a fenti összefüggésbe:

9

5,496,111,999

9

5,496,111,999 ,

996,1711 < < 1002,051

Ez azt jelenti, hogy 95%-os megbízhatósági szinten a gép által töltött tömeg 996,1711 gramm

és 1002,051 gramm között van.

Tegyük fel, hogy a töltési technológiát úgy kell beállítani, hogy a töltősúly hosszabb távon

ne haladja meg az 1002 grammot. A minta alapján – 95%-os megbízhatósággal – teljesíti-e

ezt a feltételt a töltőgép?

n=9

gx 11,999

0=4,5g

=0,95 =0,05 egyoldali becslés z=1,645

gn

zx 58,10019

5,4645,111,9990

95%-os megbízhatósággal a gép teljesíti a technológiai elvárást.

A fenti gondolatmenet nem csak a normális eloszlás várható értékének becslésére igaz, hanem

a mintavételi eloszlás ismeretében egyéb paraméterek konfidencia-intervallumának

meghatározására is. A továbbiakban – a részletes levezetés mellőzésével – a legfontosabb

paraméterek intervallumbecsléseit mutatjuk be.


77

4.5.2 Konfidencia-intervallum a normális eloszlás várható értékére, ha az elméleti

szórás ismeretlen15

Ebben az esetben továbbra is feltételezzük, hogy a sokaság N(,) eloszlású, de sem -t sem

-t nem ismerjük. A problémát ezúttal az okozza, hogy bár az átlag továbbra is normális

eloszlású, de az elméleti szórás nem ismert, így kénytelenek vagyunk a szórást a mintából

becsülni (s*). A gyakorlatban gyakran nem ismerjük az eredeti szórást, ilyenkor meg kell azt

becsülni a mintabeli korrigált tapasztalati szórás segítségével. Ebben az esetben azonban az

n

x

helyett kénytelenek vagyunk a

ns

x*

változót használni.

A ns

x*

változó nem standard normális eloszlású, hiszen nevezője is függ a véletlentől,

mintáról mintára változik. Amennyiben a sokasági eloszlás továbbra is normális, ez a változó

t- (Student-) eloszlású = n-1 szabadságfokkal. (A szabadságfokot szokták még DF-fel és

néha f-fel is jelölni. Mi a továbbiakban elsősorban majd a DF jelölést használjuk.)

A Student-eloszlás a normális eloszláshoz hasonlóan szimmetrikus eloszlás, az eloszlás egy

paramétere az ún. szabadságfok () jellemzi. A sűrűségfüggvénye ugyanúgy szimmetrikus

haranggörbe alakú, de minél kisebb n értéke, annál nagyobb lesz a t érték, annál tágabb

konfidencia-intervallumot tudunk szerkeszteni.

A t-eloszlás ismeretében nézzük tehát az intervallumbecslés határainak meghatározását. Az

előző esethez képest „csak” annyi a különbség, hogy normális eloszlás helyett a t-eloszlást

kell alkalmaznunk.

1)()(

*

2/

*

2/n

stx

n

stxP

A t/2() értéket a = n-1 szabadságfokú t-eloszlás táblázatából kereshetjük ki. Az s* - az

eddigieknek megfelelően – a korrigált tapasztalati szórást jelöli.

A Student-féle t-eloszlás használata csak kis minta esetében fontos (de továbbra is előfeltétel

a sokaság normalitása). Ha a mintaelemszám nő, akkor ennek két következménye lesz.

Egyrészt feloldható az eredeti eloszlásra tett feltevés. Erre a nagy számok egyik törvénye ad

lehetőséget, mely szerint, ha elég sok azonos típusú és paraméterű eloszlást adunk össze, az

összeg eloszlása tart a normálishoz. Ez azt jelenti, hogy nagy minták esetében nem kell

tudnunk semmit az eredeti eloszlásról, a mintaátlagok eloszlásának normalitását

feltételezhetjük. A gyakorlatban 100 feletti mintaelemszám nagynak tekinthető, sőt ha az

eredeti eloszlás a szimmetrikushoz közeli, akkor már 30 elemű minta esetén is a mintaátlagok

jó közelítéssel normális eloszlást követnek. Másrészt nagy minta esetében a Student-féle t-

eloszlás a normális eloszláshoz tart, így az ns

x*

változóról feltételezhető, hogy standard

normális eloszlású.

15



78

Példa Tegyük fel, hogy az előző töltőgépes példánál nem ismerjük az elméleti szórást, de továbbra

is tudjuk, hogy a töltési tömeg normális eloszlással írható le. A kilencelemű minta korrigált

tapasztalati szórása s*= 4,48g, az átlag továbbra is 999,11g.

Adjunk becslést 95%-os megbízhatósági szinten a töltőtömeg várható értékére!16

n=9

gx 11,999

s*=4,48g

(DF)=n–1=9–1=8

= 0,95 =0,05 kétoldali becslés: /2=0,025 t/2=2,306

9

48,4306,211,999

9

48,4306,211,999 ,

995,6675g< < 1002,555g

95%-os megbízhatósági szinten a töltőtömeg várható értéke 995,6675g és 1002,555g között

található. Ha összehasonlítjuk azzal a konfidencia-intervallummal, amit akkor kaptunk,

amikor a sokasági alapszórást ismerjük, akkor azt látjuk, hogy ebben az esetben szélesebb

konfidencia-intervallumot kaptunk a korábbi magyarázatoknak megfelelően.

4.5.3 Sokasági arány becslése17

A sokasági arány egy bizonyos jelenség előfordulásának aránya a sokaságon belül. A piac- és

közvélemény-kutatásokban az egyik leggyakrabban becsülni kívánt paraméter, hiszen olyan

jellegű kérdésekre lehet válaszolni, hogy a választásra jogosult népesség hány %-a menne el

szavazni, hány %-a venne meg egy új terméket, milyen arányban hajlandók egy

szolgáltatásért fizetni. Az arány becslése egy (visszatevéses egyszerű véletlen) minta esetében

tulajdonképpen egy Bernoulli kísérletet jelent, az adott jelenség megvalósulását figyelhetjük

meg n (egymástól) független esetben. Így annak a valószínűsége, hogy n esetből a vizsgált

jelenség k-szor előfordul, binomiális eloszlást követ, azaz

knkqpk

nkP

)( , ahol

)!(!

!

knk

n

k

n

A vizsgált egyedek (pl. férfiak aránya a népességen belül, a selejtes termékek aránya stb.)

sokasági arányát jelöljük nagy P-vel. Ennek torzítatlan (pont)becslése a p=k/n relatív

gyakoriság, ahol n a mintaszám, k a mintában talált „kedvező” esetek száma. Mivel n rögzített

(nem valószínűségi változó), k binomiális eloszlást követ, így p is binomiális eloszlású lesz,

M(p)=P várható értékkel és D2(p)=P(1–P)/n varianciával.

Mivel az elméleti variancia eleve ismeretlen, az sp2=p(1–p)/n értékkel becsüljük. A mintából

számított p ismeretében a binomiális eloszlás táblázatából könnyen megkaphatjuk a keresett

intervallumot. Ezt az eljárást azonban a gyakorlatban ritkán alkalmazzuk, mert diszkrét jellege

meglehetősen pontatlanná teszi. A valószínűségszámítás részben láttuk, hogy a Moivre-

Laplace tétel értelmében egy p valószínűségű esemény relatív gyakoriságának, mint

valószínűségi változónak, az eloszlása jól közelíthető a p ,

n

pp

1 paraméterű

normális eloszlással, ha a megfigyelések n száma nagy. Ha például p közel van 0,5-hez,

16

Banks, J.: Principles of Quality Control, Wiley, New York, 1989 17



79

akkor már n=20 elemű minta is elegendő a normális közelítéshez. Ezek alapján a P sokasági

arányra a következő intervallumbecslés adható:

1

)1()1(2/2/

n

ppzpP

n

ppzpP

Példa A Felvillanyozzuk Kft. napi termeléséből vett n = 200 elemű mintában a hibás égők száma 24

db. 95%-os megbízhatósági szint mellett adjunk intervallumbecslést a sokasági arányra!

n = 200

p = 24/200 = 0,12

= 0,95 = 0,05 kétoldali becslés: /2 = 0,025 z/2 = 1,96

200

88,012,096,112,0

200

88,012,096,112,0

P

0,075 < P < 0,165

4.5.4 Sokasági variancia becslése18,19

Ebben a részben a normális eloszlású sokaság szórásnégyzetének intervallumbecslését

mutatjuk be, amely az eddigi gondolkodástól eltérően valósítható meg. Kiindulópontunk a

mintabeli korrigált tapasztalati szórásnégyzet, ami a sokasági variancia torzítatlan becslése.

Ha a sokaság eloszlása nem normális, akkor még nagy minták esetén sem érvényes az itt

következő intervallumbecslés.

Amennyiben az eredeti eloszlás normális, akkor az 22

2

2

1

2...

)1(2

xxxxxxsn n

összefüggés mutatja, hogy a felírt függvény standard normális eloszlások négyzetének

összege, azaz a 2-eloszlás (ejtsd khí-négyzet) használható a jellemzésére n-1 szabadsági

fokkal.

A 2-eloszlás jellemzőit, alakját egy paramétere – a t-eloszláshoz hasonlóan – a szabadságfok

határozza meg. Különböző 2-eloszlásokat mutat a 23. ábra. Sajnálatos módon az eddig

megszokott, kényelmes mintavételi eloszlásoktól eltérően, a 2-eloszlás csak pozitív értékekre

van értelmezve, nem szimmetrikus, de ettől eltekintve ugyanúgy használhatjuk

intervallumbecslésre, mint a standard normál, ill. a t-eloszlásokat. A szabadságfok

növekedésével az eloszlás közelít a normális eloszláshoz, amit a későbbiekben a konfidencia

intervallumok meghatározásánál is kihasználunk.

18

Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996 19

Sincich, T.:Statistics by Example, Dellen Publishing Company, San Fransisco, 1990


80

23. ábra: 2-eloszlás sűrűségfüggvénye20

Mivel az eloszlás nem szimmetrikus, kétoldali becslés esetén az eloszlás alsó és felső oldalán

kijelölt /2 valószínűség nem egyforma hosszúságú intervallumokat jelent, ennél fogva az

előzőekben vizsgált esetekkel ellentétben a konfidencia-intervallum nem lesz szimmetrikus a

pontbecslésre. Normális eloszlású valószínűségi változó ismeretlen varianciájának

megbízhatósági intervallumát az alábbi összefüggéssel határozhatjuk meg:

111

2

2/1

2*2

2

2/

2* snsnP

A 2

2/ és a 2

2/1 értékeket a (ill. DF) = n-1 szabadságfokú 2 táblázatból lehet

meghatározni. Ha a konfidencia-határokat az eloszlás elméleti szórására szeretnénk

vonatkoztatni, akkor mindkét határ pozitív előjelű négyzetgyökét kell képeznünk. Ha a

becslését a tapasztalati szórással végeztük, akkor a számlálóban (n-1) helyett n-nel szorozzuk

a szórást.

Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt

találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők

varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat!

n = 16

s* = 10 óra

(DF) = n – 1 = 16 – 1 = 15

= 0,95 = 0,05 kétoldali becslés: /2 = 0,025 1 – /2 = 0,975

26,6

10116

5,27

10116 22

2

54,5 < 2 < 239,6

7,38 < < 15,5

20

Készült a STATISTICA for Windows program segítségével

Chi-négyzet eloszlás sûrûségfüggvénye

0.0

0.1

0.2

0.3

0.4

0.5

0 2 4 6 8 10 12 14 16

DF = 2

DF = 4

DF = 7

f(x)

x


81

Nagy szabadsági fok (nagy mintaszám) esetén a 2-eloszlás közelíthető normális eloszlással.

Ha a mintaszám n>30, akkor felhasználva azt az eredményt, hogy a 122 2

mennyiség közelítőleg standard normális eloszlású változó, adott valószínűséghez tartozó

2α értéke kifejezhető a standard normális eloszlás u értékéből: 22 12

2

1 u .

21

Példa Tegyük fel, hogy az előző példában említett vizsgálatot n=50 elemű mintából végezték. 95%-

os megbízhatósági szinten milyen intervallumban található az elméleti szórás?

n=50

s*=10 óra

(DF)=n–1=50–1=49

= 0,95 =0,05 kétoldali becslés: /2=0,025 1-/2=0,975

4,32

10150

4,71

10150 22

2

68,6 < 2 < 151,2

8,28 < < 12,3

Mivel n elég nagy, ezért a 2 értékeket normális eloszlással közelítve azt kapjuk, hogy

72,69149296,12

1 22

975,0 ill.

11,31149296,12

1 22

025,0 .

Ezeket behelyettesítve a konfidencia-határok képletébe, a szórásnégyzetre, ill. szórásra az

alábbi intervallumok adódnak:

70,3 < 2 < 157,5

8,38 < < 12,55

4.5.5 A mintanagyság meghatározása

Sokszor előfordul, hogy a megbízhatósági, pontossági követelmények alapján kell

megtervezni azt, hogy mekkora mintára van szükség. A megbízhatósági követelmény a

megbízhatósági szint, a pontossági követelmény pedig a maximális hiba rögzítését jelenti.

Ezek függvényében a különböző mintavételi módok esetében a mintanagyságra képlet adható.

Visszatevéses egyszerű véletlen mintánál

nz

2/ ,

ahol Δ az elméleti várható értéktől való maximális eltérés, 2/z pedig a standard normális

eloszlásfüggvény inverze az 1-α/2 helyen.

21

Spiegel, Murray R.: Statisztika: Elmélet és gyakorlat, Panem – McGraw-Hill, Budapest, 1995


82

Ebből n-t kifejezve: 2

2/

zn

A szükséges mintaelemszám négyzetesen arányos a megbízhatósággal és a sokasági szórással,

fordított négyzetesen arányos a maximális hibával. Ez azt jelenti, hogy dupla pontosságú

becsléshez pl. 4-szer, háromszor olyan pontos becsléshez 9-szer akkora mintát kell venni,

azaz a pontosság növelése költséges dolog.

4.6 Fogalmak

mintavételi hiba nem mintavételi hiba

véletlen mintavétel reprezentativitás

visszatevéses egyszerű véletlen mintavétel

visszatevés nélküli egyszerű véletlen mintavétel

rétegzett mintavétel csoportos és többlépcsős mintavétel

pontbecslés intervallumbecslés

minta statisztika mintavételi eloszlás

torzítatlanság hatásosság

konzisztencia elégséges becslés

konfidencia-intervallum megbízhatósági szint


4.7.1 Feladat

Egy elektronikai gyártósoron egy alkatrész nyomtatott áramkörre történő beültetési

pozíciójának x-irányú koordinátáját vizsgálták. Korábbi elemzésekből ismert, hogy az x-

irányú beültetési pozíció normális eloszlású valószínűségi változó 0,03mm szórással. 10

mérést elvégezve az x-irányú beültetési koordináta átlaga 10,34mm-re adódott.

a) Adjunk 95%-os megbízhatósági szintű intervallumbecslést az alkatrész x-irányú

beültetési koordinátájának várható értékére!

b) Legalább hány elemű mintát vegyünk, hogy az alkatrész x-irányú beültetési

koordinátájának várható értékét 95% valószínűséggel 0,01mm-nél kisebb eltéréssel

tudjuk becsülni?

Megoldás:

a) Adjunk 95%-os megbízhatósági szintű intervallumbecslést az alkatrész x-irányú

beültetési koordinátájának várható értékére!

Az x-irányú beültetési koordináta normális eloszlású ismeretlen μ várható értékkel és ismert

σ0=3 mm elméleti szórással.

n=10

0,05 95,01

96,1)975,0()2/1( 11

2/ z

34,10x mm


83

10

2/

0

2/n

zxn

zxP

0186,010

03,096,10

2/ n

z

A várható értékre vonatkozó 95%-os megbízhatósági szintű konfidencia-intervallum:

)3586,10;3214,10()0186,034,10;01186,034,10(

95%-os megbízhatósági szinten az alkatrész x-irányú beültetési koordinátájának várható

értéke 10,3214mm és 10,3586mm között van.

b) Legalább hány elemű mintát vegyünk, hogy az alkatrész x-irányú beültetési

koordinátájának várható értékét 95% valószínűséggel 0,01mm-nél kisebb eltéréssel

tudjuk becsülni?

A

10

2/

0

2/n

zxn

zxP

összefüggésből

10

2/n

zxP

Keressük azt az n értéket, amelyre a x eltérés 1-α valószínűséggel kisebb az előre

rögzített Δ értéknél.

Ha n értékét úgy választjuk meg, hogy n

z 02/

teljesül, akkor

10

2/n

zxP

is teljesül.

Tehát a várható érték 1-α valószínűséggel Δ-nál kisebb eltéréssel történő becsléséhez

szükséges minta nagysága: nz

2

0

2/

Esetünkben

01,0 mm

03,00 mm

96,1)975,0()2/1( 11

2/ z

5744,3401,0

03,096,1

22

02/

zn

Ahhoz tehát, hogy a várható értéket 95%-os valószínűséggel legfeljebb 0,01mm eltéréssel

tudjuk becsülni legalább 35 elemű minta szükséges.

4.7.2 Feladat

Egy kávéautomata ellenőrzése során az automata által adagolt eszpresszó kávé térfogatát

vizsgálták. Korábbi tapasztalatok alapján az adagolt kávé térfogata normális eloszlású

valószínűségi változónak tekinthető. A vizsgálat során 10 mérést végeztek, a mérési


84

eredmények értékei ml-ben a következők voltak: 101; 97; 103; 99; 102; 98; 104; 101; 97;

100.

Adjunk 95%-os megbízhatósági szintű intervallumbecslést az eszpresszó kávé adagolt

térfogatára!

Megoldás:

Az adagolt kávétérfogat normális eloszlású valószínűségi változó, melynek elméleti várható

értékét és elméleti szórását nem ismerjük.

A feladatunk az, hogy 95%-os megbízhatósági szintű konfidencia-intervallumot adjunk a

várható értékre. Mivel az elméleti szórás ismeretlen, így az következő összefüggést

használhatjuk:

1)()(

*

2/

*

2/n

stx

n

stxP

A mintaátlag:

2,10010

10097101104981029910397101

x

A korrigált tapasztalati szórás:

4404,29

100,2)-(100...100,2)-97(100,2)-(101 222

s

05,0

DF=n-1=9

262,2975,0 t

A 95%-os megbízhatósági szintű konfidencia-intervallum:

9456,101;4544,9810

4404,2262,22,100;

10

4404,2262,22,100

)(;)(*

2/

*

2/

n

stx

n

stx

Az eszpresszó kávé adagolt térfogata 95%-os valószínűséggel a (98,4544; 1019456)

intervallumba esik.

4.7.3 Feladat

Egy forgácsoló üzemben esztergált tengelyek átmérőjét vizsgálták. A vizsgálat során 30 darab

tengely átmérőjét mérték meg. A tengelyek átmérőjének a mintából számított átlaga 55mm,

korrigált tapasztalati szórása 0,2mm. A tengelyek átmérőjéről feltételezhető, hogy normális

eloszlású valószínűségi változó.

Adjunk 99%-os megbízhatósági szintű intervallumbecslést

a.) a tengelyek várható átmérő méretére!

b.) a tengelyek átmérőjének szórására!

Megoldás:

Adjunk 99%-os megbízhatósági szintű intervallumbecslést a tengelyek várható átmérő

méretére!

A feladat az, hogy 99%-os megbízhatósági szintű konfidencia-intervallumot adjunk egy

normális eloszlású valószínűségi változó várható értékére ismeretlen elméleti szórás esetén.

A mintából számított átlag: 55x mm


85

A mintából számított korrigált tapasztalati szórás: 2,0* s mm

1)()(

*

2/

*

2/n

stx

n

stxP

01,0

DF= n-1=30-1=29

756,2995,02/01,01 tt

A keresett konfidencia-intervallum:

30

2,0756,255;

30

2,0756,255 mm1006,55 ;mm8994,54

A tengelyek átmérőjének várható értéke 54,8994mm és 55,1006mm között van.

Adjunk 99%-os megbízhatósági szintű intervallumbecslés a tengelyek átmérőjének szórására!

A feladat az, hogy 99%-os megbízhatósági szintű konfidencia-intervallumot adjunk egy

normális eloszlású valószínűségi változó várható szórására.

111

2

2/1

2*2

2

2/

2* snsnP

2,0* s mm

01,0

DF=n-1=30-1=29

A khi-négyzet eloszlás táblázatából:

121,13 335,52 2

995,0

2

2/1

2

005,0

2

2/

A szórásnégyzetre vonatkozó konfidencia-intervallum:

0884,0;0222,0121,13

2,029;

335,52

2,029 22

A szórásra vonatkozó konfidencia-intervallum:

0884,0;0222,0 mm2973,0 ;mm1489,0

A tengelyek átmérőjének szórása 99%-os megbízhatósági szinten 0,1489mm és 0,2973mm

között van.

4.7.4 Feladat

Megbízhatósági elemzések során a 60W-os izzók élettartamát vizsgálták. Összesen 60 darab

izzó élettartamát figyelték meg, a megfigyelések eredményeit az alábbi gyakorisági

táblázatban rögzítették. Az izzók élettartamáról feltételezhető, hogy normális eloszlást követ.

Élettartam (hónap) Izzók száma (db)

0≤t<6 5

6≤t<12 7

12≤t<18 18

18≤t<24 22

24≤t<30 7

30≤t<36 1


86

Adjunk 95%-os megbízhatósági szintű intervallumbecslést az izzók várható élettartamára!

Megoldás:

Az izzók élettartamáról tudjuk, hogy normális eloszlású valószínűségi változónak tekinthető,

ismeretlen várható értékkel és ismeretlen szórással.

A feladatunk az, hogy a várható értékre adjunk 95%-os megbízhatósági szintű konfidencia-

intervallumot. Mivel az elméleti szórás ismeretlen, így a következő összefüggést

használhatjuk.

1)()(

*

2/

*

2/n

stx

n

stxP

Az átlagot a gyakorisági táblázatból a leíró statisztikából ismert módon számítjuk:

2,1760

331277212215189735

1

1

r

i

i

i

r

i

i

f

xf

x

A korrigált tapasztalati szórást a gyakorisági táblázatból a leíró statisztikából ismert módon

számítjuk:

8958,6160

)2,1733(1...)2,173(5

1

)( 22

1

2

*

n

xxf

s

r

i

ii

05,0

DF=n-1=59

001,2975,0 t

A 95%-os megbízhatósági szintű konfidencia-intervallum:

9814,18;4186,1560

8958,6001,22,17;

60

8958,6001,22,17

)(;)(*

2/

*

2/

n

stx

n

stx

Az izzók várható élettartama 95%-os valószínűséggel a (15,4186 hónap; 18,9814 hónap)

intervallumba esik.

4.7.5 Feladat

Az előző feladat adatai alapján adjunk 95%-os megbízhatósági szintű intervallumbecslést

a.) a legalább 18 hónap élettartamú izzók arányára!

b.) a 12 hónapnál rövidebb élettartamú izzók arányára!

Megoldás:

a.) Adjunk 95%-os megbízhatóságú intervallumbecslést a legalább 18 hónap élettartamú

izzók arányára!

A legalább 18 hónap élettartamú izzók aránya a gyakorisági táblázatból (a konkrét mintából):

5,060

1722

p


87

Konfidencia-intervallum a sokasági arányra:

1

)1()1(2/2/

n

ppzpP

n

ppzpP

60n

0,05 95,01

96,1)975,0()2/1( 11

2/ z

A 95%-os konfidencia-intervallum:

60

)5,01(5,096,15,0;

60

)5,01(5,096,15,0

A legalább 18 hónap élettartamú izzók aránya 95%-os valószínűséggel a (0,3735; 0,6265)

intervallumba esik.

b.) Adjunk 95%-os megbízhatóságú intervallumbecslést a 12 hónapnál rövidebb élettartamú

izzók arányára a gyakorisági táblázatból (a konkrét mintából):

2,060

75

p

Konfidencia-intervallum a sokasági arányra:

1

)1()1(2/2/

n

ppzpP

n

ppzpP

60n

0,05 95,01

96,1)975,0()2/1( 11

2/ z

A 95%-os konfidencia-intervallum:

60

)2,01(2,096,12,0;

60

)2,01(2,096,12,0

A 12 hónapnál rövidebb élettartamú izzók aránya 95%-os valószínűséggel a (0,0988; 0,3012)

intervallumba esik.

4.7.6 Elméleti kérdések

1. Ismertesse a mintavételi és a nem mintavételi hibák lényegét, és a véletlen mintavétel

szerepét!

2. Adjon rövid áttekintést a véletlen mintavételi eljárások lényegéről és főbb

jellemzőikről!

3. Részletezze a becslés Fisher-féle kritériumait!

4. Mi a pontbecslés lényege?

5. Ismertesse az intervallumbecslés, mint matematikai statisztikai módszer lényegét!


88

5. Hipotézisvizsgálat

A hipotézisvizsgálat a becsléselmélet mellett, a mintából a sokaságra történő statisztikai

következtetés másik fontos területe. Az előző Becslés c. fejezetben azt mutattuk be, hogy a

minta alapján hogyan lehet közelítőleg meghatározni (becsülni) a sokaság bizonyos

jellemzőit. Számos esetben azonban nemcsak egy paramétert szeretnénk meghatározni, hanem

mondjuk két vagy több paramétert összehasonlítani, konkrét szakmai kérdéseket szeretnénk

eldönteni a tapasztalati adatok alapján. Így például kíváncsiak lehetünk arra, hogy a termelési

folyamat bizonyos jellemzői (selejtarány, termék tulajdonságai, méretei stb.) megfelelnek-e az

előírásnak, bármilyen termék töltési térfogata, tömege, fizikai paraméterei azonosak-e a két

(vagy több) különböző töltő- vagy gyártósoron, vagy pl. az eladások száma valóban megnőtt-

e az új reklámkampány hatására. Az ilyen jellegű kérdések mintavétel segítségével történő

megválaszolása a statisztikai hipotézisvizsgálat területe. A mintavételi eredményekre

támaszkodó következtetés, döntés természetes velejárója a bizonytalanság, a tévedés

lehetősége. Ezért valahányszor mintából nyert adatokra támaszkodva kell választ adnunk a

példaként megfogalmazott vagy ahhoz hasonló kérdésekre, valójában annak eldöntéséről van

szó, hogy a mintavétel eredménye inkább cáfolja vagy inkább alátámasztja-e a feltett kérdésre

adott igenlő választ. A sokaságra vonatkozó feltevésünket a sokaság(ok)ból kivett mintá(k)

alapján ellenőrizzük, és azt vizsgáljuk, hogy mennyire fogadható el, hihető a feltevés a

sokaság(ok)ra vonatkozóan az aktuális mintá(k) ismeretében.

Ebben a fejezetben a hipotézisvizsgálatok általános kérdéseiről, valamint néhány konkrét

módszerről lesz szó.

5.1 A hipotézisvizsgálat célja, eszközei

A sokaságra vonatkozó ismereteink sok esetben hiányosak és/vagy bizonytalanok. E probléma

megoldásának eszköze az lehet, ha a sokasággal kapcsolatos feltételezéseinket hipotézisként

fogalmazzuk meg.

Hipotézis: a sokasággal kapcsolatos olyan feltételezés, amelynek igazságáról a

hipotézisvizsgálat során meggyőződünk. A hipotézisek a vizsgált sokaság(ok) eloszlására vagy

az adott eloszlás(ok) egy vagy több paraméterére vonatkozhatnak.

Ilyen hipotézis lehet például az, hogy egy termék két meghibásodás közötti átlagos

hibamentes működési ideje nem kisebb egy adott értéknél, vagy a frissen végzett gazdálkodási

szakos hallgatók jövedelmének havi átlagos nagysága lognormális eloszlású. Ezek az állítások

lehetnek igazak, vagy hamisak, így az állítások helyességéről való döntés további

vizsgálatokat igényel.

Az ilyen állítások helyességéről kétféleképpen győződhetünk meg. Ha teljes körű adatfelvételt

végzünk az állítás igazságának ellenőrzésére, akkor teljes bizonyossággal eldönthető, hogy a

vizsgált hipotézis igaz-e vagy sem. Ha mintavétel eredményeire támaszkodunk, tehát

részleges adatgyűjtést végzünk, akkor mivel mintavétellel nyert eredményeket használunk,

nem lehetünk teljesen biztosak abban, hogy a mintavétel eredménye a hipotézist alátámasztja,

vagy az ellen szól. Ennek magyarázatát láttuk már az előző fejezetben: a mintavétel esetében

fellépő mintavételi ingadozás következtében egy mintavétel eredménye még akkor is eltérhet

a hipotézisben szereplő megfelelő értéktől, ha a hipotézis igaz. Ezzel együtt azt sem lehet

kizárni, hogy a hipotézis nem igaz, de a véletlen szeszélye folytán mégis a hipotézist

alátámasztani látszó mintavételi eredményt kapunk.


89

A gyakorlatban főleg mintavételes eljárásokon alapulnak a sokaságra vonatkozó hipotézisek

helyességének ellenőrzésére szolgáló vizsgálatok. Ennek oka, hogy a véges sokaságok teljes

körű megfigyelése gyakran anyagi vagy egyéb korlátokba ütközik, másrészt pedig az

ellenőrizendő hipotézis sok esetben valamilyen végtelen sokasággal kapcsolatos (pl. egy adott

gyártási folyamatból kikerülő termékek összessége).

A továbbiakban a hipotézisek helyességének mintavételre alapozott ellenőrzésével

foglalkozunk, amit hipotézisvizsgálatnak nevezünk. A fejezetben végig visszatevéses,

egyszerű véletlen mintákat feltételezünk.

Hipotézisvizsgálat: A hipotézisek helyességének mintavételi eredményekre alapozott

vizsgálatát hipotézisvizsgálatnak nevezzük. A különféle hipotézisek vizsgálatára szolgáló

eljárásokat statisztikai próbáknak vagy teszteknek hívjuk. A hipotézisvizsgálat annak

mérlegelése, hogy az adott sokaságra megfogalmazott állítás mennyire hihető a mintavételi

eredmények fényében.

Ha ez a mintavételi eredmény összhangban áll a sokaságra megfogalmazott feltevéssel, akkor

nincs okunk arra, hogy kétségbe vonjuk a feltevés helyességét. Ebben az esetben a sokaságra

vonatkozó állítást célszerű fenntartani, mert az valószínűleg (de nem 100%-os biztonsággal!)

igaz.

Ha a mintavételi eredmény nem áll összhangban a sokaságra vonatkozó állítással, akkor pedig

minden okunk megvan arra, hogy megkérdőjelezzük az állítás helyességét. Ebben az esetben

a sokaságra vonatkozó állítást célszerű elvetni, mert az valószínűleg nem igaz.

A sokaságra és a mintavétel módjára vonatkozó olyan kikötéseket, amelyeknek a teljesülését

bármilyen oknál fogva eleve elfogadjuk és a hipotézisvizsgálat keretein belül külön nem

vizsgáljuk, alkalmazási feltételeknek nevezzük.

5.1.1 A vizsgálandó hipotézis megfogalmazása

Minden hipotézisvizsgálat céljaira két hipotézist fogalmazunk meg egyszerre: egy

nullhipotézist és egy azzal szemben álló állítást, az ún. alternatív vagy ellenhipotézist.

Nullhipotézis: az a sokaságra vonatkozó feltevés, amelynek igazságáról a hipotézisvizsgálat

során közvetlenül meg kívánunk győződni.

Alternatív vagy ellenhipotézis: a nullhipotézissel együtt minden lehetőséget kimerítő, azzal

egymást kölcsönösen kizáró hipotézis, amelynek helysségéről közvetetten döntünk a

hipotézisvizsálat során.

A hipotézisvizsgálat során e két hipotézist versenyeztetjük egymással, és a végén a kettő

közül azt fogjuk igaznak tekinteni, elfogadni, amelyik a mintavétel eredménye alapján

hihetőbbnek tűnik a másiknál.

A nullhipotézis jelölésére a H0, az alternatív hipotézis jelölésére pedig a H1 szimbólumot

használjuk. A két hipotézist oly módon kell megfogalmazni, hogy azok akármelyikét is

tekintjük majd a másiknál hihetőbbnek, megválaszolható legyen a bennünket érdeklő kérdés,

és egyszerre ne lehessenek igazak, de együtt minden lehetőséget kimerítsenek.

Az a hipotézis, amelynek a helyességéről döntünk közvetlenül, mindig a nullhipotézis. Ha

azonban a nullhipotézis és az alternatív hipotézis kölcsönösen kizárják egymást, akkor a H0

hipotézisre vonatkozó döntés közvetetten mindig döntést jelent a H1-ről is: a nullhipotézis

elfogadása egyúttal H1 elvetését, H0 elvetése pedig a H1 elfogadását jelenti.


90

Példaként tegyük fel, hogy a sokaság várható értékére vonatkozó feltevést szeretnénk

vizsgálni, és azt a feltevést kívánjuk ellenőrizni, hogy igaz-e, hogy egy őrölt kávét töltő gép

az előírásoknak megfelelően átlagosan 1kg töltősúlyú csomagokat készít. Természetesen a

legideálisabb az lenne, ha minden csomagban pontosan 1kg kávé lenne, de nincs abszolút

pontos gép, így a töltőtömeg némileg szóródik. A várható értékre vonatkozó feltevéssel

ellenőrzése azt jelenti, hogy azt szeretnénk megvizsgálni, hogy a töltés szisztematikusan nem

tolódik-e el valamelyik irányba, mert az vagy veszteséget okoz a vállalatnak, vagy a vevőket

károsítja meg. Ettől a szórás akár nagy is lehet, így egy-egy csomagban lehet 1kg-nál jóval

kevesebb vagy több kávé is, de a szórásra vonatkozó feltevést is lehet külön ellenőrizni.

A nullhipotézis ebben az esetben a töltőtömeg várható értékére vonatkozó feltevés teljesülése:

H0: μ=1kg

A várható értékre vonatkozó feltételezésünket többféle alternatív hipotézissel szemben

vizsgálhatjuk, azt hogy melyiket célszerű választani, az 5.1.3 alfejezetben tárgyaljuk. Most

csak bemutatjuk a három lehetőséget:

H1: (1) μ≠1kg;

(2) μ>1kg;

(3) μ<1kg

5.1.2 A próbafüggvény

A vizsgálni kívánt hipotézisek felállítása után a következő feladat a hipotézis helyességének

ellenőrézésére szolgáló próbafüggvény kiválasztása. A próbafüggvényt úgy kell

megválasztani, hogy a sokaságra tett bizonyos kikötések teljesülése, a mintavétel módja és a

minta adott nagysága, az ellenőrizendő H0 helyességének feltételezése mellett ismert legyen

annak valószínűség eloszlása.

A próbafüggvény a mintaelemek egy olyan függvénye, amelynek valószínűségi eloszlása a

sokaság ismert tulajdonságait tekintetbe véve, H0 igazságát pedig feltételezve pontosan

ismert. A próbafüggvényt eloszlásának ismerete teszi alkalmassá a H0 helyességének

vizsgálatára.

A próbafüggvények az előző fejezetben megismert becslőfüggvények közeli rokonai, mert

azokhoz hasonlóan a mintából a sokaságra való következtetés céljait szolgálják. A

próbafüggvény a mintavétel előtt mintáról mintára ingadozó valószínűségi változó, a

mintavétel után pedig az adott valószínűségi változónak egy konkrét értéke.

A próbafüggvények konstruálása alapvetően elvi, matematikai feladat egy-egy konkrét

nullhipotézis és alkalmazási feltételrendszer mellett. Erre a célra az elméleti statisztikusok

ugyanúgy általános módszereket dolgoztak ki, mint a jó tulajdonságokkal rendelkező

becslőfüggvények készítésére, egy-egy nullhipotézis tesztelésére akár több próbafüggvény

közül is választhatunk. A próbák minősítésére is éppúgy bizonyos kritériumokat használnak,

mint a becslőfüggvények minősítésére és egymással való összehasonlítására, de

jegyzetünknek nem célja ennek bemutatása.

5.1.3 Kritikus tartomány

A nullhipotézis és annak vizsgálatára alkalmas próbafüggvény birtokában végrehajtható a

hipotézisvizsgálat.

Elfogadási és elutasítási tartomány: A hipotézis helyességének ellenőrzése céljából a

próbafüggvény lehetséges értékeinek tartományát alkalmas osztópontok segítségével két

egymást át nem fedő – ún. diszjunkt – részre bontjuk: egy elfogadási és egy elutasítási

tartományra. E két tartomány határait úgy választjuk meg, hogy a próbafüggvény a


91

nullhipotézis fennállása esetén előre megadott nagy 1-α valószínűséggel az elfogadási

tartományba essen. Így a próbafüggvény értéke csak kicsi α valószínűséggel kerülhet a

kritikus tartományba.

Ha ezek után a próbafüggvénynek a rendelkezésünkre álló egy – esetleg több – minta dataiból

származó értéke az elfogadási tartományba esik, akkor elfogadjuk H0-t, ellenkező esetben

pedig elvetjük azt. Ez utóbbi esetben a H0 elvetésével együtt elfogadjuk a vele szemben

állított H1 alternatív hipotézist.

Ennek az eljárásnak az az alapja, hogy egy olyan eseménynek a bekövetkezése, amire H0

igazságát feltételezve nagy valószínűséggel számítunk (vagyis, hogy a probafüggvény értéke

az elfogadási tartományba esik) megerősíti a H0 hipotézis helyességébe vetett hitünket, és így

hajlamosak vagyunk annak elfogadására. Ha ezzel szemben a kis valószínűséggel várt másik

esemény következik be (vagyis a próbafüggvény értéke az elutasítási tartományba esik),

akkor ez megingatja a H0 hipotézis helyességébe vetett hitünket, s így inkább visszautasítjuk

azt.

Szignifikancia szint: a kritikus tartományba esés α valószínűségét szignifikancia szintnek

nevezzük.

A szignifikancia szint megválasztásával kapcsolatban megjegyezzük, hogy azt általában

kicsinek (0,05 és 0,10 közötti értéknek) szokás választani a gyakorlatban.

Az elfogadási és elutasítási tartomány egymáshoz képesti elhelyezkedése háromféle (bal vagy

jobb oldali, ill. kétoldali kritikus tartomány) lehet, ezt mutatja az alábbi ábra:

24. ábra: A kritikus tartomány lehetséges helyzetei

Bal vagy jobb oldali kritikus tartomány kijelölésére olyan esetekben van szükség, amikor

eleve arra számítunk, hogy a valóság meghatározott irányú eltérést mutat egy általunk

feltételezett helyzettől.

Egyoldali kritikus tartományt indokolt kijelölni olyan esetekben is, ha valamilyen

feltételezett, előírt állapottól való adott irányú eltérés a fontos számunkra. A teljes kritikus

tartományt a próbafüggvény eloszlásának vagy csak a bal, vagy csak a jobb szélére tesszük.

Ilyen esetekben a hipotézisvizsgálat során azt kell megvizsgálni, hogy a próbafüggvény

mintá(k)ból nyert értéke elég kicsi-e (vagy elég nagy-e) ahhoz, hogy a H0 helyett inkább a H0-

beli állapottól adott irányban való eltérést kimondó alternatív hipotézis fennállását legyen

Kritikus Elfogadási

Kritikus érték

α 1-α Bal oldali

kritikus tartomány

KritikusElfogadási

Kritikus érték

α1-α Jobb oldali

kritikus tartomány

KritikusElfogadási

Kritikus érték

α/21-α

Kritikus

α/2

Kritikus érték

Két oldali

kritikus tartomány


92

indokolt feltételezni. Ezért ilyenkor a teljes kritikus tartományt a próbafüggvény eloszlásának

vagy csak a bal, vagy csak a jobb szélére tesszük, ahogyan az a 24. ábrán látható.

Így, ha az egyoldali alternatív hipotézis fennállása esetén a próbafüggvény kisebb értéket vesz

fel, mint a H0 fennállásakor, akkor bal oldali, ellenkező esetben pedig jobb oldali alternatív

hipotézisről beszélünk.

Kétoldali kritikus tartomány kijelölésére olyan esetekben kerül sor, amikor egyszerűen csak a

nullhipotézisben feltételezett helyzettől való eltérés ténye érdekel minket, és közömbös az

eltérés iránya. Kétoldali kritikus tartomány használata esetén a kritikus tartományba esés

teljes α valószínűségét egyenlő arányban szokás megosztani a kritikus tartomány két része

között (lásd 24. ábra).

Kétoldali alternatív hipotézis fennállása esetén a próbafüggvény értéke akár nagyobb, akár

kisebb lehet, mint a H0 fennállásakor.

Kritikus értékek: Az elfogadási és elutasítási tartományt egymástól elhatároló ca és cf

értékeket alsó és felső kritikus értéknek szokás nevezni. A kritikus értékeket mindig a kritikus

tartomány részének tekintjük. A kritikus tartomány kijelölésére kétoldali kritikus tartomány

használata esetén két kritikus értékre, egyoldali kritikus tartomány esetén pedig egy kritikus

értékre van szükség. A kritikus értékek a szignifikancia szint és a próbafüggvény eloszlásának

ismeretében egyértelműen meghatározhatóak.

A kritikus értékek kereséséhez speciális táblázatok állnak rendelkezésre (lásd

Képletgyűjtemény).

A legtöbb próba mind egyoldali, mint kétoldali kritikus tartomány mellett végrehajtható. A

kritikus tartomány elhelyezkedését mindig a H0 hipotézissel szemben álló ellenhipotézisben

szereplő feltevés, pontosabban e feltevés H0-ban feltételezett helyzettől való eltérésének

iránya határozza meg.

Vegyük a korábbi kávétöltési példánkat! Láttuk, hogy a várható értékre vonatkozó

feltételezésünket többféle alternatív hipotézissel szemben vizsgálhatjuk:

H1: (1) μ≠1kg;

(2) μ>1kg;

(3) μ<1kg

Az első esetben a nullhipotézis kétoldali, a második és a harmadik esetben pedig egyoldali.

Azt, hogy melyik alkalmazása célszerű, a vizsgált gazdasági-társadalmi probléma jellege

dönti el. Esetünkben az is rossz, ha a töltőtömeg várható értéke 1kg alatti, mert ebben az

esetben a vevők károsodnak, meg az is, ha 1kg feletti, mert akkor meg a gyártó jár rosszul.

Így célszerű kétoldali ellenhipotézist választani.

Abban az esetben, ha azt a sokaságra vonatkozó feltevést kell ellenőriznünk, hogy egy adott

berendezés teljesíti-e azt az előírást, hogy legalább 10000 órát hibamentesen működjön, akkor

az alternatív hipotézisként a harmadik esethez hasonló relációt kell választani, hiszen csak

akkor utasítjuk el a nullhipotézist, ha a minta alapján határozottan nem teljesül az előírás.


93

5.1.4 A hipotézisvizsgálat lépései

Összefoglalva az eddig leírtakat a hipotézisvizsgálat a következő lépésekből áll:

1. A H0 hipotézis és a vele szemben álló H1 hipotézis megfogalmazása.

2. Olyan próbafüggvény készítése, illetve keresése, amelynek eloszlása H0 helyességét

feltételezve és a próba alkalmazási feltételeit adottnak véve egyértelműen

meghatározható.

3. Az α szignifikancia szint megválasztása, és a próbafüggvény lehetséges

értéktartományának ezzel és az alternatív hipotézissel összhangban lévő felosztása

elfogadási és elutasítási tartományra.

4. A mintavétel lebonyolítása, és a próbafüggvény számszerű értékének meghatározása a

mintából.

5. Döntés a H0 és H1 helyességéről: ha a próbafüggvény értéke az előre kijelölt

elfogadási tartományba esik, elfogadjuk H0-t, ellenkező esetben pedig elvetjük azt.

5.1.5 A hipotézisvizsgálat során elkövethető hibák

Az előzőekben leírtakat átgondolva nem nehéz belátni, hogy a leírt módon eljárva a H0

hipotézis helyességéről hozott döntésünk nem lesz mindig feltétlenül helyes.

Elsőfajú hiba: előfordulhat, hogy a H0 hipotézis helyes, de a próbafüggvénynek egy adott

mintából számított értéke mégis a kritikus tartományba esik. Ilyenkor a H0 hipotézist annak

ellenére utasítjuk el, hogy az valójában helyes. Ez nyilvánvalóan hibás döntés, és e döntés

valószínűségét elsőfajú hibának nevezzük. Ilyen hibás döntés az elfogadási és elutasítási

tartomány felépítését tekintve α valószínűséggel fordulhat elő.

Ezzel azonban nem merítettünk ki minden hibalehetőséget.

Másodfajú hiba: előfordulhat, hogy a H0 nem igaz, és a próbafüggvény értéke mégis az

elfogadási tartományba esik. Ennek az a következménye, hogy a H0-t elfogadjuk, pedig az

valójában nem igaz. Ez is hibás döntés, amit másodfajú hibának neveznek, és β-val jelölnek.

Nyilvánvaló, hogy a cél az lenne, hogy mindkét fajta hiba elkövetésének a valószínűségét

minél alacsonyabb szinten tartsuk. A kétféle hiba jelentését és az elkövetés valószínűségét

foglalja össze az alábbi táblázat:

7. Táblázat: A hipotézisvizsgálat során elkövethető hibák és valószínűségeik

H0-t H0 a valóságban

igaz nem igaz

elvetjük elsófajú hiba (α) a döntés erőssége (1-β=e)

elfogadjuk a döntés megbízhatósága

(1-α=ε)

másodfajú hiba

(β)

Összesen 1 1

Az elsőfajú hiba elkövetési valószínűsége megegyezik a korábban megismert szignifikancia

szinttel.

Megbízhatósági szint: A szignifikancia szintet 1-re kiegészítő (1-α) valószínűséget, azaz

annak az eseménynek a valószínűségét, hogy nem vetjük el a helyes nullhipotézist, a próba

megbízhatósági szintjének nevezzük, és ε-nal jelöljük.


94

Az elsőfajú hiba elkövetési valószínűségét a hipotézisvizsgálat végzője α alkalmas

megválasztásával tetszés szerint korlátozni tudja. A másodfajú hiba esetében ez már nem áll

módjában, mert a β a valóságban fennálló, de általában nem ismert helyzettől függ.

A döntés erőssége: Az (1-β) komplementer valószínűséget, vagyis annak az eseménynek a

valószínűségét, hogy nem követjük el a másodfajú hibát (nem fogadjuk el tévesen a

nullhipotézist), a próba erejének nevezzük, és e-vel jelöljük..

Adott mintanagyság mellett az elsőfajú és másodfajú hiba elkövetési valószínűsége egymással

ellentétes irányba mozog. Rögzített mintaelemszám mellett, ha az α nő, akkor β csökken, ha

pedig α csökken, akkor β nő.

Adott szignifikancia szint mellett a másodfajú hiba elkövetésének valószínűsége a

mintanagyság növelésével mérsékelhető.

Így egy-egy nullhipotézis helyességének ellenőrzéséhez olyan próbát célszerű választani,

amely az elsőfajú hiba adott elkövetési valószínűsége mellett minimálissá teszi a másodfajú

hiba elkövetési valószínűségét.

Gyakorlati szempontból érdekes kérdés, hogy egy konkrét hipotézisvizsgálat során milyen

szignifikancia szintet célszerű választani. Ha a kétféle hiba elkövetésének van valamilyen

költségvonzata, akkor ezt feltétlen célszerű figyelembe venni, és a szignifikancia szintet ezzel

összhangban kell megválasztani. Ha pl. az elsőfajú hiba elkövetése igen nagy anyagi

veszteséggel jár, de a másodfajú hiba elkövetése nem okoz különösebb bajt, akkor a

szingifikancia szintet célszerű kicsire választani. Ez a helyzet előfordulhat pl. egy gyárban,

amikor a hipotézisvizsgálattal végzett gyártásközi minőségellenőrzés célja annak eldöntése,

hogy beavatkozzanak-e az adott folyamatba vagy sem, és a beavatkozás költsége igen magas.

Ha ugyanis a nullhipotézis az, hogy a folyamat a technológiai előírásoknak megfelelően

zajlik, akkor az elsőfajú hiba a folyamatba való fölösleges beavatkozást jelent. Ha viszont

inkább a másodfajú hiba elkövetése ellen indokolt védekezni, akkor nyilván célszerű

viszonylag magas szignifikancia szintet használni, vagy ha lehetőség van rá, akkor nagy

mintát választani.

Adott mintanagyság mellett a kétféle hiba elkövetésének valószínűsége csakis egymás

rovására változtatható. E probléma áthidalásának több módja van. Az egyik lehetőség H0 és

H1 oly módon történő megfogalmazása, hogy a hipotézisvizsgálat végzője lehetőleg H0

elvetésében legyen érdekelt, a szignifikancia szint pedig minél kisebb legyen. Ekkor ugyanis

kicsi a hibás döntés kockázata. Ha nem lehet H0-t úgy megfogalmazni, hogy a

hipotézisvizsgálat végzőjének H0 elvetése álljon az érdekében, akkor viszonylag magas

szignifikancia szintet célszerű választani és/vagy viszonylag nagy minta használatára célszerű

törekedni. Egy másik lehetséges megoldás az ún. p-értékek használata.

A p-érték az a legkisebb szignifikancia szint, amin H0 már épp elvethető H1-gyel szemben.

A p-érték tehát nem más, mint a próbafüggvény mintából nyert értékéhez tartozó

szignifikancia szint.

E p-értékeknek az a lényeges előnyük az előre rögzített α szignifikancia szinttel szemben,

hogy a p-érték ismeretében bárki saját megítélése szerint értékelheti a hipotézisvizsgálat

eredményét. Ha ugyanis valaki a saját szempontjai alapján adott esetben egy α0 szignifikancia

szint használatát tartja indokoltnak, akkor minden olyan esetben el fogja vetni a H0-t, amikor

p≤α0, és minden olyan esetben el fogja fogadni, amikor p>α0. A számítógépes

programcsomagok legtöbbször a p-értéket adják meg a próbák végrehajtása során, és a p-érték


95

használatának nagy előnye, hogy a p-érték nem függ a kritikus értékeket tartalmazó táblázatok

részletezettségétől.

Az α és β valószínűségek értelmezésével kapcsolatban megjegyezzük, hogy azok pontosan

úgy értendők, mint a konfidencia-intervallumokhoz kapcsolódó megbízhatósági szint: ha a

hipotézisvizsgálatot adott H0, H1 mellett sokszor – adott nagyságú, de különböző összetételű

véletlen minták alapján – elvégeznénk, akkor átlagosan az összes eset 100α százalékában

követnénk el az elsőfajú hibát, a másodfajú hibát pedig az összes eset 100β százalékában. Az

α és a β itt is az eljárásba vetett hitünk fokmérője, és nem egy-egy egyedi esetre

vonatkoztatható.

Példa

Nézzük meg példaként kávétöltési példánkon keresztül az előző lépéseket!

Adott egy feltevés a sokaságról, vagyis az, hogy a gép által töltött kávécsomagok átlagos

tömege 1kg.

H0: μ=1kg

H1: μ≠1kg

Tegyük fel, hogy veszünk egy 16 elemű mintát a töltési folyamatból (sokaság), és lemérjük a

véletlenszerűen kiválasztott 16 kávécsomag tömegét. Tegyük fel, hogy a töltőgép normális

eloszlás szerint tölti a csomagokat, és a szórás ismert: 0,05kg.

A próbafüggvény lehet a mintaátlag, mert a becslés fejezetben leírtak alapján ismerjük a

mintaátlag eloszlását és paramétereit. A mintaátlag normális eloszlást követ 1kg várható

értékkel és kgn

0125,04

05,0

szórással, azaz x normális eloszlású: N(1, 0,0125)

paraméterekkel.

Ha a mintaátlag pontosan 1 kg, ez szól a nullhipotézis mellett leginkább, de ha némileg kisebb

vagy nagyobb, ez is beleférhet a véletlen ingadozásba, hiszen az éppen aktuális minta függ a

véletlentől. Minél nagyobb az 1kg-tól való eltérés, annál kevésbé hihető a nullhipotézis. Az

elfogadási tartomány előre meghatározott valószínűséggel éppen azt a határt jelenti, amíg úgy

döntünk, hogy az eltérés még belefér a véletlenbe. A 95%-os elfogadási tartomány (z=1,96)

esetünkben

)025,1;975,0(025,010125,096,11 kgkgkgkg

Amennyiben a mintaátlag ebbe az intervallumba esik, a nullhipotézist fogadjuk el,

amennyiben nem ide esik, akkor pedig az ellenhipotézist.

Ha esetünkben a mintaátlag 1,02 kg, akkor a nullhipotézis elfogadható, a mintaátlag eltérése a

hipotézistől belefér a véletlen ingadozásba. Ha a mintaátlag egy konkrét esetben pl. 1,03kg,

akkor 5%-os szignifikancia szinten a nullhipotézis elutasítható, a mintaátlag eltérése már túl

nagy a feltételezett értéktől ahhoz, hogy azt a véletlen számlájára lehessen írni, vagyis

szignifikánsan különbözik 1kg-tól.

25. ábra

1 kg0,975 kg 1,025 kg

%5,22

%5,22


96

Mint említettük, nem mindig egy előre meghatározott szignifikancia szinten kívánunk

dönteni, hanem az a kérdés, hogy mennyire nagy biztonsággal utasíthatjuk el a nullhipotézist.

Ennek eldöntésére szolgál az empirikus szignifikancia szint, vagy p-érték, amely az a

szignifikancia szint, ahol elfogadásból elutasításba váltunk. A példánknál maradva, ha a

mintaátlag értéke 1,025, azt a szignifikancia szintet keressük, amely mellett a kritikus értékek

1-0,025=0,975, illetve 1+0,025=1,025. Ez azt jelenti, hogy a 0,975 alatti és az 1,025 feletti

területek összege p.

016,0)9918,01(2

))4,2(1(2)4,2(220125,0

1025,11

0125,0

1975,0)025,1()0975(

p

pxPxP

A p-érték 1,6%. Ez alapján minden 1,6%-nál nagyobb szignifikancia szinten elutasítjuk,

kisebb szignifikancia szinten már elfogadjuk a nullhipotézist. Minél kisebb a p-érték, annál

nagyobb biztonsággal utasítható el a nullhipotézis.

5.2 Fogalmak

hipotézis hipotézisvizsgálat

nullhipotézis alternatív vagy ellenhipotézis

próbafüggvény elfogadási és elutasítási tartomány

szignifikancia szint p-érték

egyoldali kritikus tartomány kétoldali kritikus tartomány

kritikus érték elsőfajú hiba

másodfajú hiba megbízhatósági szint

döntés erőssége


1. Mi a hipotézisvizsgálatok célja?

2. Mi a nullhipotézis és az alternatív (ellen-)hipotézis, mi a szerepük a hipotézisvizsgálat

során, és hogyan kell őket megfogalmazni?

3. Mi a próbafüggvény és mire használjuk a hipotézisvizsgálat során?

4. Hogyan jelölhetjük ki az elfogadási és elutasítási tartományokat? Mi a kritikus érték?

5. Melyek a hipotézisvizsgálatok általános lépései?

6. Milyen hibákat lehet elkövetni a hipotézisvizsgálatok során? Ezek a hibák milyen

kapcsolatban állnak egymássak, hogyan csökkenthetőek?


97

6. Statisztikai próbák

Az egyes hipotézisvizsgálatok az 0 alfejezetben leírt módon hajthatók végre, és minden

hipotézisvizsgálat során a 5.1.5 alfejezetben bemutatott és jellemzett első- és másodfajú hiba

követhető el. Az egy-egy konkrét hipotézisvizsgálat elvégzésére használható próbák a

következő lényeges kérdésekben különböznek:

a vizsgálat tárgyát képező H0 hipotézisben

az alkalmazási feltételek tekintetében,

az alkalmazott próbafüggvényben és annak eloszlásában.

Az egyes hipotézisvizsgálatok elvégzésének előfeltétele, hogy rendelkezésre álljon egy vagy

több független, azonos eloszlású minta. Egyes hipotézisvizsgálatok elvégzéséhez emellett más

feltételekre is szükség lehet.

A független, azonos eloszlású (FAE) mintákhoz vagy végtelen sokaságok véges számú,

véletlenszerűen realizálódó elemének megfigyelésével, vagy véges sokaságokból történő

visszatevéses egyszerű véletlen mintavétel útján juthatunk. Ha a próba végrehajtásához egynél

több mintára van szükség, akkor még annak kikötésére is szükség lehet, hogy milyen az egyes

minták egymáshoz való viszonya (függetlenek-e egymástól vagy sem).

A próbák többféle szempont szerint csoportosíthatóak:

mi a nullhipotézis tárgya:

o paraméteres próba: a nullhipotézis a sokaság valamely paraméterére irányul

o nemparaméteres próba: a nullhipotézis a sokaság eloszlására irányul

milyen jellegűek a sokaság eloszlásával szemben támasztott feltételek:

o paraméteres próbák alkalmazási feltételei között szerepelnek a sokaság

eloszlásának típusára és/vagy az egyes paramétereire vonatkozó kívánalmak

o a nemparaméteres próbák alkalmazása legfeljebb a sokaság eloszlásának

folytonosságát követeli meg

hány és mekkora minta szükséges a végrehajtásukhoz:

o a próba végrehajtásához szükséges minták száma alapján egy-, két-, ill.

többmintás próbákat különböztetünk meg

o a minták egymáshoz való viszonya alapján pedig független és páros mintákat

o az igényelt minták nagysága szerint pedig kis-, ill. nagymintás próbákat (a

legtöbb szakirodalom 30-ban jelöli meg a kis és nagy minták elemszáma

közötti határt).

E tárgyban a célunk, hogy bemutassuk a legfontosabb paraméteres és nemparaméteres

próbákat az elvégzésükhöz szükséges minták száma, típusa, és a nulhipotézis tárgya szerint

csoportosítva.

6.1 Nemparaméteres próbák

Nemparaméteres próba: A hipotézisvizsgálatoknak azon csoportját, ahol az eloszlás típusa

nem ismert, és a H0 hipotézis magára az eloszlásra vonatkozik, nemparaméteres próbáknak

nevezzük.


98

6.1.1 Illeszkedésvizsgálat 2-próbával

Az olyan statisztikai próbát, amelynek alapján arról döntünk, hogy valamely valószínűségi

változó F (tapasztalati) eloszlása lehet-e adott F0 (elméleti) eloszlásfüggvénnyel jellemzett

eloszlás, illeszkedésvizsgálatnak nevezzük.

H0: F = F0

H1: F ≠ F0

Ha a nullhipotézis az eloszlás paramétereinek ismeretét is feltételezi, akkor tiszta

illeszkedésvizsgálatról beszélünk. Ha viszont hipotézisünk csak az eloszlás jellegét

(normalitás, exponencialitás stb.) tételezi fel, és a paramétereket a mintából kell becsülnünk,

akkor becsléses illeszkedésvizsgálatot végzünk.

Az illeszkedésvizsgálatra szolgáló próbák alkotják a nemparaméteres próbák egyik nagy

csoportját. E próbák közül legelterjedtebb a 2-próba és a Kolmogorov-próba, mi most csak

az előbbivel kívánunk foglalkozni.

A 2-próba mind diszkrét, mind folytonos eloszlások esetében alkalmazható, de nagy

mintaelemszámot igényel. A próba segítségével azt tudjuk eldönteni, hogy adott

szignifikancia szinten a tapasztalati gyakoriságok szignifikánsan eltérnek-e a feltételezett

elméleti gyakoriságoktól, avagy az eltérés csupán a véletlen következménye.

A 2-próbával történő illeszkedésvizsgálatnál az ún. próbastatisztikát (a számított értéket) az

alábbi képlet szolgáltatja:

r

i i

ii

F

Ff

1

2

2

DF=r––l

ahol: DF: a szabadságfok, az eloszlás paramétere

fi: a tapasztalati gyakoriság

Fi: az elméleti gyakoriság

: a becsült paraméterek száma

r: a kategóriák vagy osztályok száma


99

26. ábra: A 2-próbán alapuló döntések elve a nullhipotézist illetően

A Yates-féle korrekció: A korábbi fejezetekben láttuk, hogy amikor diszkrét adatokra

folytonos eloszlások eredményeit alkalmazzuk, bizonyos folytonossági korrekciókat

alkalmazhatunk. Hasonló korrekció létezik a 2-eloszlás alkalmazása esetén is. Ez a korrekció

a fenti egyenlet

r

i i

ii

F

Ff

1

2

25,0

alakú módosítását igényli. Általában csak DF=1

szabadságfok esetén alkalmazzuk. Nagy minták esetén ugyanis a korrekcióval gyakorlatilag

ugyanahhoz az eredményhez jutunk, mint korrekció nélkül, de a kritikus értékek körül

bonyodalmak léphetnek fel. Kisebb minták esetén, amikor a várt gyakoriságok 5 és 10 közé

esnek, legjobb, ha a 2-nek mind a korrigált, mind a korrigálatlan értékét kiszámoljuk. Ha egy

adott hipotézist tekintve mindkét érték alapján ugyanarra a következtetésre jutunk, akkor

ritkán ütközünk nehézségekbe. Ha egymásnak ellentmondó következtetésre jutunk, akkor

próbálkozhatunk a minta növelésével, vagy más módszert alkalmazhatunk22

.

Példa – diszkrét eloszlás

A Tiszán egy adott időszakban levonuló árhullámok számát vizsgálva az elmúlt 68 év során

az alábbi eredményeket kapták: 30 év volt, amikor nem volt árhullám, 25 olyan év volt,

amikor 1 árhullám vonult le az adott időszakban, 9 év volt, amikor 2 és 4 olyan év volt,

amikor 3 vagy több árhullám következett be. Feltehető-e, hogy a folyón levonuló árhullámok

száma modellezhető Poisson-eloszlással?23

árhullámok száma 0 1 2 3 v. több

gyakoriság [db] 30 25 9 4

=? nem ismerjük a mintából kell becsülnünk

Poisson-eloszlás esetén: M()= ( x -gal becsülhető)

Mivel az elmúlt 68 év során a kérdéses időszakban összesen 55 árhullám volt:

55/68 0,8

Nullhipotézis felállítása:

H0 = az árhullámok száma =0,8 paraméterű Poisson-eloszlású

H1: az árhullámok száma nem =0,8 paraméterű Poisson-eloszlású

Mintavétel, adatok feldolgozása, kritikus érték meghatározása:

Ha az árhullámok száma valóban 0,8 paraméterű Poisson-eloszlással írható le, akkor annak

valószínűsége, hogy az adott időszakban nem lesz árhullám (Poisson-eloszlás táblázatából)

0, 4493, hogy 1 árhullám vonul le: 0,3595, hogy 2: 0,1438, s hogy 3 vagy több (1-ből levonva

az eddigiek összege): 0,0474.

Az elméleti gyakoriságok ebből már „automatikusan” adódnak, hiszen ha 0,4493

valószínűséggel nincs árhullám az adott időszakban, akkor ez elméletileg 68 év során

összesen 680,4493 = 30,55 alkalommal következik be. Hasonló módon a többi elméleti

gyakoriságot kiszámolva az eredményeket az alábbi táblázat tartalmazza:

22

Spiegel, Murray R.: Statisztika: Elmélet és gyakorlat, Panem – McGraw-Hill, Budapest, 1995 23



100

k f(k) pk F(k)

0 30 0,4493 30,55

1 25 0,3595 24,45

2 9 0,1438 9,78

3 v. több 4 0,0474 3,22

68 1 68

DF=r--1=4-1-1=2

=5% táblázatból: 2

elm.=5,99

Számított érték meghatározása:

27,0

22,3

78,0

78,9

78,0

45,24

55,0

55,30

55,3030 2222

2

sz

A számított és a kritikus érték összehasonlítása:

2

elm.=5,99 >> 2

sz=0,27

Döntés a nullhipotézisről:

Mivel a számított érték jóval kisebb, mint a kritikus – a számított érték az elfogadási

tartományba esik –, ezért 95%-os megbízhatósági szinten nincs okunk a H0-t elutasítani. A

folyón levonuló árhullámok száma modellezhető =0,8 paraméterű Poisson-eloszlással.

Példa – folytonos eloszlás24

A légi közlekedésben fontos figyelemmel kísérni az utasok átlagos testsúlyát, hogy egyrészt

ne terheljék túl a gépet, másrészt ne utazzon a gép fölös kapacitással. Ezért időről időre

ellenőrzik, hogy a felnőtt utasok testsúlya nem tér-e el a feltételezettől. A légitársaság a

terhelést a 78kg-os átlagos testsúlyra és 11kg-os szórásra tervezi.

A feltételezés ellenőrzése céljából megmérték 100 véletlenszerűen kiválasztott utas súlyát,

akik között 44 nő volt. A mérés eredménye látható a következő táblázatban. A mintából

számított jellemzők:

�� = 78,6𝑘𝑔

𝑠∗ = 12,187𝑘𝑔

5%-os szignifikancia szint mellett teszteljük, hogy az utasok testsúlya normális eloszlású

változó!

24

Keresztély, T., Sugár, A., Szarvas, B. (2005): Statisztika közgazdászoknak, Példatár és feladatgyűjtemény,

Nemzeti Tankönyvkiadó, 176. o.


101

Testsúly

(kg)

Ügyfelek száma

(fő)

-60 7

60-70 16

70-80 32

80-90 28

90-100 13

100- 4

Összesen 100

Hipotézisek felállítása:

𝐻0: Az alapsokaság (78,6; 12,187) paraméterekkel normális eloszlású.

𝐻1: Az alapsokaság nem (78,6; 12,187) paraméterekkel normális eloszlású.

Az átlag és a szórás értékeket a minta értékei alapján becsültük, ezért becsléses

illeszkedésvizsgálatról beszélhetünk.

Mintavétel, adatok feldolgozása, számított érték meghatározása:

A minta értékeit osztályokba soroltuk. A számolás egyes lépéseinél kapott értékeket a

következő táblázatban foglaljuk össze. Az osztályok száma 𝑟 = 6.

Testsúly

(kg)

Ügyfelek száma

(fő) - fi

Pi Fi

i

ii

F

Ff 2)(

-60 7 0,064255 6,4255 0,0911

60-70 16 0,1746 17,46 0,122

70-80 32 0,305 30,5 0,074

80-90 28 0,2826 28,26 0,0024

90-100 13 0,1344 13,44 0,0144

100- 4 0,04 4 0

Összesen 100 ~1 ~100

A Pi valószínűségi értékek meghatározása:

064255,00,9357451)52,1(1)52,1(187,12

6,7860)60()60(1

FPP

1746,0064255,0238852,0064255,0)761148,01(064255,0)71,0(1

064255,0)71,0(064255,0187,12

6,7870)60()70()7060(2

FFPP

305,0238852,0543795,0

238852,0)11,0(238852,0187,12

6,7880)70()80()8070(3

FFPP

2826,0543795,0826391,0

543795,0)94,0(543795,0187,12

6,7890)80()90()9080(4

FFPP


102

1344,0826391,0960796,0

826391,0)76,1(826391,0187,12

6,78100)90()100()10090(5

FFPP

04,0960796,01)100(1)100(6 FPP

Elméleti gyakorisági értékek meghatározása (lásd táblázat):

4255,6100064255,010011 PF

46,171001746,010022 PF

és így tovább.

A számított érték meghatározása (lásd táblázat):

0911,02455,6

)2455,67()( 2

1

2

11

F

Ff

122,046,17

)46,1716()( 2

2

2

22

F

Ff

és így tovább.

Ezen értékek összege adja a számított értéket, vagyis a próbafüggvény értékét a minta alapján:

𝜒𝑠𝑧2 = 0,3038

A kritikus érték meghatározása:

𝐷𝐹 = 𝑟 − 𝑙 − 1 = 6 − 2 − 1 = 3

𝜒𝑘𝑟2 = 7,815

A számított és kritikus érték összehasonlítása, döntés a nullhipotézisről:

Mivel a számított érték kisebb, mint a kritikus érték, ezért elfogadjuk a 𝐻0 hipotézist, azaz a

vizsgált alapsokaság eloszlása normálisnak tekinthető N(78,6; 12,187) paraméterekkel 5%-os

szignifikancia szinten.

6.1.2 Homogenitásvizsgálat 2-próbával

Homogenitásvizsgálat segítségével eldönthetjük, hogy két valószínűségi változó azonos

eloszlásúnak tekinthető-e. A közösnek feltételezett eloszlásfüggvény a próbában nem

szerepel, s annak jellegére vonatkozóan semmilyen kikötésünk nincs.

H0 = a valószínűségi változó két sokaságon belüli eloszlása azonos

H1 = a valószínűségi változó két sokaságon belüli eloszlása nem azonos

A két sokaságból kivett minta nagysága nem kell, hogy azonos legyen, de a vizsgált változó

szerint mindkét mintán belül azonos osztályokat kell képezni.

Diszkrét valószínűségi változó esetén a próba közvetlenül vagy csoportképzéssel

elvégezhető, míg folytonos valószínűségi változó esetén az adatokat osztályokba kell

sorolnunk.


103

Kontingencia táblázat: a homogenitásvizsgálathoz (és majd látjuk, hogy a

függetlenségvizsgálathoz is) célszerű az adatokat táblázatos formába rendezni. A táblázat

elemi részeit celláknak nevezzük, amelyek bal felső sarkában a tapasztalati, jobb alsó

sarkában az elméleti gyakoriságokat szokás feltüntetni. A sor, ill. oszlop szerint összegzett

gyakoriságokat marginális vagy peremgyakoriságoknak nevezzük. Az így összeállított

táblázatot kontingencia-táblázatnak nevezzük.

8. Táblázat: Kontingencia táblázat - homogenitásvizsgálat

Osztály (r db)

Gyakoriságok

Összesen (sor

peremgyakorisága,

fi)

az egyik (Y)

sokaságból kivett

minta

a másik (X)

sokaságból kivett

minta

mintában

C1 1Yn

1Xn 1Yn +

1Xn = f1

C2 2Yn

2Xn 2Yn +

2Xn = f2

.

.

.

.

.

.

.

.

.

.

.

.

Ci iYn

iXn iYn +

iXn = fi

.

.

.

.

.

.

.

.

.

.

.

.

Cr rYn

rXn rYn +

rXn = fr

Összesen (oszlop

peremgyakoriság, fj) Yn = fY

Xn = fX Yn +Xn =N

A próbastatisztika:

r

1i

2

1j ij

2

ijij2

F

Ff

ahol: N

ffF

ji

ij

az elméleti gyakoriság

r: a sorok száma

fi: i-edik sor peremgyakorisága (sorösszege)

fj: j-edik oszlop peremgyakorisága (oszlopösszege)

N: mintaszám

DF = (r–1)·(s–1), ám mivel s=2 minden esetben, így DF = r–1

Példa

A személysérüléssel járó közúti balesetekre vonatkoznak az alábbi, mintavételből származó

adatok 2003-ban. Hasonlítsuk össze a Budapesten és az ország többi részén történt balesetek

idősávok szerinti eloszlását (α=1%)!


104

A baleset ideje a nap

órái szerint

Balesetek száma

Budapesten

Balesetek száma az

ország többi részén

0-8 14 27

8-12 20 39

12-15 19 34

15-18 23 47

18-24 24 53

Összesen 100 200


H0: FBP = Gegyéb

H1: FBP Gegyéb

Mintavétel, adatok feldolgozása, kritikus érték meghatározása:

n1=100 n2=200 N=300 r=5

DF=r–1=5–1=4 =0,01

2

krit=13,277

Sor- és oszlopösszegek kiszámítása:

Sorösszegek: f1 =41; f2 =59; f3 =53 stb.; az oszlopösszegek: f1 =100; f2 =200

Elméleti gyakoriságok meghatározása: F11= 41100/300=13,67

F12= 41200/300=27,33

F21= 59100/300=19,67 stb.,

Az eredményeket az alábbi kontingencia táblázat mutatja:

14

13.67

27

27.33 41

20

19,67

39

39.33 59

19

17.67

34

35.33 53

23

23.33

47

46.67 70

24

25.67

53

51.33 77

100 200 300


29656,00543,0065,000233,000467,005,01,000277,000554,000398,000797,0

33,51

)33,5153(

67,25

)67,2524(...

33,27

)33,2727(

67,13

)67,1314( 22222

szám

A számított és a kritikus érték összehasonlítása:

2

szám=0,029656 < 2

krit=13,277


A számított érték az elfogadási tartományba esik, ezért 1%-os szignifikancia szinten a két

sokaság eloszlásának egyezését elfogadjuk.


105

6.1.3 Függetlenségvizsgálat 2-próbával

A függetlenségvizsgálat annak a nullhipotézisnek a vizsgálatára szolgál, hogy két minőségi

ismérv valamely adott sokaságon belül független egymástól. Ezzel szemben az az alternatív

hipotézis áll, hogy a két ismérv nem független egymástól, vagyis a két ismérv között

sztochasztikus vagy függvényszerű kapcsolatot enged meg.

H0 = a két valószínűségi változó független egymástól (nincs sztochasztikus kapcsolat)

H1 = a két valószínűségi nem független egymástól (közöttük sztochaszikus vagy

függvénykapcsolat van)

Az a kérdés, hogy két valószínűségi változó között van-e sztochasztikus kapcsolat vagy sem,

kontingencia táblázat segítségével és 2-próba alkalmazásával dönthető el. A 2

-próbával

történő függetlenségvizsgálat valójában a diszkrét – minősítéses – ill. csoportosított

(kategorizált) folytonos változók közötti kapcsolat vizsgálatára használható. Két (v. több)

folytonos valószínűségi változó közötti kapcsolat vizsgálata, ill. a kapcsolat jellegének

meghatározása a korreláció – és regresszióelemzés területe.

A próba során hasonlóan járunk el, mint a homogenitásvizsgálatnál, „csak” a kontingencia

táblázat mérete változ(hat)ik, nem feltétlenül két oszlopból áll (homogenitásvizsgálatnál

mindig s=2 volt). Újabb különbség – bár a próba elvégzésében nem okoz eltérést –, hogy a

homogenitásvizsgálatnál értelemszerűen ugyanazt a valószínűségi változót (pl. rózsa ára)

hasonlítottuk össze két minta alapján, míg a függetlenségvizsgálatnál természetesen két

teljesen különböző változó közötti kapcsolatot vizsgálunk (pl. van-e összefüggés a szem és a

haj színe között, van-e kapcsolat a szülők iskolai végzettsége és a gyerekek iskolai

végzettsége között stb.).

9. Táblázat: Kontingencia táblázat - függetlenségvizsgálat

Az X

szerinti

osztályok

Az Y szerinti osztályok YC1 YC2 … Y

jC … Y

sC j

XC1 11f 12f …

jf1 … sf1

1f XC2

21f 22f … jf 2 …

sf 2 2f

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. X

rC 1rf 2rf …

rjf … rsf

rf

i 1f 2f …

jf … sf n

A kontingencia táblázatban szereplő gyakoriságok most egy n elemű véletlen mintából

származnak. A kontingencia táblázat egyes celláinak elméleti gyakoriságait a marginális

értékek felhasználásával becsüljük.


r

i

s

j ij

ijij

F

Ff

1 1

2

2

A szabadsági fok: DF=(r-1)·(s-1)


106

Az elméleti gyakoriságok: N

ffF

ji

ij

,

ahol s: az oszlopok száma,

A többi jelölés megegyezik a homogenitásvizsgálatnál bemutatottakkal.

Minőségi ismérvek asszociációja

A függetlenség, vagy a kapcsolat léte és szorossága a minőségi ismérvek közötti

asszociációval és az asszociációs együtthatóval vizsgálható.

Egy kontingencia táblához az )1(

2

qNr

módon definiálhatjuk a minőségi ismérvek (vagy

osztályozások) közötti Cramer-féle asszociációs együtthatót, ahol q=min(r,s).

Cramer-féle asszociációs együttható: Két minőségi ismérv közötti kapcsolat szorosságát

(asszociációt) mérő mutató. Az együttható 0 és 1 közötti értékeket vesz fel. Minél közelebb esik

az érték a 0-hoz, annál gyengébb, minél közelebb esik 1-hez, annál erősebb a függés a két

eseményrendszer között.

Példa

Egy közvéleménykutatás során egyik gazdasági témájú TV-műsorról a következő kép alakult

ki a diplomások körében:

A nyilatkozó

foglalkozása

A műsor megítélése összesen

jó megfelelő rossz

közgazdász 100 200 100 400

jogász 100 60 40 200

egyéb diplomás 100 60 40 200

összesen 300 320 180 800

Tesztelje 5%-os szignifikancia szinten a foglalkozás jellege és a TV-műsor minősítése közötti

kapcsolatot! Határozzuk meg az asszociációs együtthatót is, jellemezzük a kapcsolat

szorosságát!


H0: A foglalkozás jellege és a TV-műsor minősítése független egymástól.

H1: A foglalkozás jellege és a TV-műsor minősítése nem független egymástól.

Kontingencia-táblázat elkészítése:

A nyilatkozó

foglalkozása

A műsor megítélése összesen

jó megfelelő rossz

közgazdász 100=f11 F11=150 200=f12 F12=160 100=f13 F13=90 400

jogász 100=f21 F21=75 60=f22 F22=80 40=f23 F23=45 200

egyéb diplomás 100=f31 F31=75 60=f32 F32=80 40=f33 F33=45 200

összesen 300 320 180 800

Az elméleti gyakorisági értékek meghatározása a peremgyakoriságok segítségével

(„összesen” cellák):


107

150800

30040011

F 160

800

32040012

F 90

800

18040013

F

75800

30020021

F 80

800

32020022

F 45

800

18020023

F

75800

30020031

F 80

800

32020032

F 45

800

18020033

F


53,5555,0211,1521033,8266,16

45

)4540(2

90

)90100(

80

)8060(2

160

)160200(

75

)75100(2

150

)150100(

2

2222222

szám

szám

Kritikus érték meghatározása:

α=5%

DF=(r-1)(s-1)=(3-1)(3-1)=4

488,92 krit


Mivel a számított érték (55,53) nagyobb, mint a kritikus érték (9,488), ezért 5%-os

szignifikancia szinten elutasítjuk a nullhipotézist, vagyis a diploma jellege és a TV-műsor

megítélése között van kapcsolat, nem függetlenek egymástól.

Asszociációs együttható:

n=800

2

szám=55,53

r=s=3 q=3

186,0)13(800

53,55

)1(

2

qN

r

A diploma típusa és a TV-műsor megítélése, mint két minőségi ismérv között gyenge az

asszociációs kapcsolat.


108

6.2 Nemparaméteres próbák összefoglalás

10. Táblázat: Nemparaméteres próbák összefoglaló jellemzői

Próba típusa Minták

száma

Alkalmazás

feltétele

Hipotézisek Próbafüggvény Próbafügg-

vény eloszlása

Illeszkedés-

vizsgálat

egymintás nagymintás H0: F = F0

H1: F ≠ F0

r

i i

ii

F

Ff

1

2

2

2

DF=r––1

Homogenitás-

vizsgálat

kétmintás nagymintás H0 = a

valószínűségi

változó két

sokaságon belüli

eloszlása azonos

H1 = a

valószínűségi

változó két

sokaságon belüli

eloszlása nem

azonos

r

1i

2

1j ij

2

ijij2

F

Ff

2

DF = r–1

Függetlenség-

vizsgálat (két

minőségi

ismérv

függetlensége)

egymintás A

kontingen-

cia táblázat

méretétől

függően

nagy minta

H0 = a két

valószínűségi

változó független

egymástól (nincs

sztochasztikus

kapcsolat)

H1 = a két

valószínűségi nem

független

egymástól

(közöttük

sztochaszikus

vagy

függvénykapcsola

t van)

r

i

s

j ij

ijij

F

Ff

1 1

2

2

DF=(r-1)·(s-1)

2

DF=

(r-1)·(s-1)

6.3 Paraméteres próbák

A hipotézisvizsgálatok bevezető fejezetben elmondottak alapján a paraméteres próbák

szigorúbb alkalmazási feltételeket igényelnek (például eleve feltételezik az adott elméleti

eloszlás ismeretét), ezért kevésbé széleskörűen alkalmazhatók. Általában arányos, esetleg

intervallum skáláról származó adatokkal dolgozhatunk velük, viszont erősségük (a hamis

nullhipotézis elutasításának valószínűsége) nagyobb, mint a nemparaméteres próbáké.

A paraméteres próbák végrehajtásának általános menete, ill. az elkövethető kétféle hiba is

(első-, másodfajú hiba) azonos az előző fejezetben tárgyaltakkal. Egy-egy konkrét

hipotézisvizsgálat elvégzésére használható próbák csak a vizsgálat tárgyát képező

nullhipotézisben, az alkalmazási feltételekben, a próbafüggvényben és annak eloszlásában

térnek el egymástól, így a próbák elméletének, sajátos logikájának megismerése után

gyakorlatilag bármilyen hipotézisvizsgálatot el tudunk végezni, csak az adott próba


109

alkalmazási feltételeire kell kellő figyelmet fordítanunk. A továbbiakban ennek

figyelembevételével tárgyaljuk a paraméteres próbákat.

E próbák közül elsősorban a minőségügyi eljárásokban leggyakrabban alkalmazott, a normális

eloszlás paramétereire vonatkozó statisztikai próbákat tekintjük át. A próbákat többféle

szempont szerint csoportosíthatjuk. Elsősorban aszerint, hogy mire vonatkozik a nullhipotézis

(szórásra, várható értékre), hány és mekkora minta szükséges a vizsgálathoz (egy-, két- ill.

többmintás próbák) és két mintás esetben milyen a minták közötti kapcsolat (független és

páros próbák).

6.3.1 Egymintás próbák

Az egymintás próbák mindig egy adott sokaság valamely jellemzőjére vonatkozó feltevések

helyességének ellenőrzésére szolgálnak. Ennek érdekében a rendelkezésre álló egyetlen

mintából meghatározott jellemzőt (átlag, tapasztalati szórás) valamely feltételezett, vagy

kívánatosnak tartott állapothoz viszonyítjuk.

Az egymintás próbák annak a kérdésnek a megválaszolására alkalmasak, hogy az a sokaság,

amelyből a minta származik, lehet-e olyan, mint amilyennek mi azt a nullhipotézisben

feltételezzük. Két- és többmintás próbák esetében ettől eltérő lesz a kérdésfeltevés.

6.3.1.a A sokasági szórásra vonatkozó próba

A sokaság eloszlásának varianciájára (szórásnégyzetére) vagy szórására vonatkozó

2

0

2

0 : H

A nullhipotézist egy- és kétoldali alternatívával szemben is vizsgálhatjuk. A próba

ellenhipotézisei az alábbiak lehetnek:

2

0

2

1 : H

2

0

2

1 : H

2

0

2

1 : H

A H0 hipotézis helyességét csak azon alkalmazási feltétel mellett vizsgáljuk, hogy annak a

sokaságnak az eloszlása, amelyből a minta származik, normális.

Ekkor, H0 fennállása esetén az alábbi próbafüggvény n-1 szabadságfokú 2-eloszlást követ:

2

0

22 *1

snsz

ahol n a sokaságból származó minta elemszáma, s* a minta korrigált tapasztalati szórása.


110

11. Táblázat: Egymintás szórásra irányuló próba

szóráspróba

egyoldali kétoldali

H0 2

0

2

0 : H

H1 2

0

2

1 : H

):( 2

0

2

1 H

2

0

2

1 : H

Próba-

statisztika

2

0

22 *1

snsz

Elfogadási

tartomány

22

sz

)( 22

1 sz

2

2/

22

2/1 sz

Feltételek a sokaság normalitása

Példa25

A kerti törpék piacán az elmúlt évtizedekben a törpék átlagos magassága 120 cm volt,

ugyanakkor a szórás ingadozott. A kiszámítható alapanyag ellátás feltétele, hogy a szórás ne

haladja meg a 10cm-t. Egy tavalyi felmérés szerint egy 25 elemű véletlen minta szórása

12cm. A magasság normális eloszlása ismert. Ellenőrizzük 95%-os megbízhatósággal, nincs-e

veszélyben az alapanyag ellátás?

Hipotézisek felállítása: 22

0 10: H

22

1 10: H


56,34

10

1224*12

2

2

0

22

snsz


α=5%

DF=24

415,362


Mivel a számított érték kisebb, mint a kritikus érték, így 5%-os szignifikancia szinten

elfogadható a nullhipotézis, vagyis nincs szignifikáns eltérés a szórás tekintetében.

Példa

Nézzük ismét az a példát, amely a légi közlekedésben az utasok átlagos testsúlyára és a

testsúly szórására vonatkozóan élt feltételezésekkel (lásd illeszkedésvizsgálat, ahol a

normalitást már igazoltuk).

Emlékeztetőül:

A légitársaság a terhelést 78kg-os átlagos testsúlyra és 11kg-os szórásra tervezi.

25

Kerékgyártóné, Gy., Mundruczó, Gy., Sugár, A. (2001): Statisztikai módszerek és alkalmazásuk a gazdasági,

üzleti elemzésekben, Aula Kiadó, 363. o.


111

A feltételezés ellenőrzése céljából megmérték 100 véletlenszerűen kiválasztott utas súlyát,



�� = 78,6𝑘𝑔

𝑠∗ = 12,187𝑘𝑔

5%-os szignifikancia szint mellett most teszteljük az utasok testsúlyának szórására vonatkozó

feltevést!

Testsúly

(kg)

Ügyfelek száma

(fő)

-60 7

60-70 16

70-80 32

80-90 28

90-100 13

100- 4

Összesen 100


H0: σ=11kg

H1: σ>11kg


52,121

11

187,1299*12

2

2

0

22

snsz


α=5%

DF=99

34,1242


Mivel a számított érték kisebb, mint a kritikus érték, így 5%-os szignifikancia szinten

elfogadjuk a nullhipotézist, azaz a sokasági szórásra vonatkozó feltételezés elfogadható.

6.3.1.b A sokasági várható értékre irányuló próbák

Az alkalmazási feltételek függvényében többféle próbát használhatunk: egymintás z-próbát és

egymintás t-próbát.

Nullhipotézisünk mindkét esetben:

H0: =m0, vagyis a várható érték egy adott m0 értékkel egyenlő.

Szakmai feltevésünktől függően, mindkét próba esetén alkalmazhatunk egy- vagy kétoldali

ellenhipotézist.

H1: (1) ≠m0

(2) > m0

(3) < m0

Abban az esetben, ha ismerjük az alapsokasági szórást (0), vagy ha nem ismerjük, de nagy

mintával dolgozunk (n>30 és a 0-t a korrigált tapasztalati szórással becsüljük), egymintás z-


112

próbával, ha nem ismerjük az alapsokasági szórást, és kis mintánk van, akkor egymintás t-

próbával vizsgálhatjuk a fenti nullhipotézist.

A két statisztikai próbával kapcsolatos alapismereteket az alábbi táblázat foglalja össze:

12. Táblázat: Egymintás várható értékre irányuló próbák: egymintás z- és t-próba

z-próba t-próba

egyoldali kétoldali egyoldali kétoldali

H0 =m0

H1 >m0

(<m0)

m0

>m0

(<m0)

m0

Próba-

statisztika ns

x

n

xzsz *

0

ns

xtsz *

(DF=n-1)

Elfogadási

tartomány zsz<z

(zsz>-z)

zsz>-z/2 vagy

zsz<z/2

tsz<t

(tsz>-t)

tsz>-t/2 vagy

tsz<t/2

Feltételek 0 ismert v. n>30

sokaság normalitása

sokaság normalitása, 0 nem

ismert v. n≤30

Egymintás z-próba

E próba alkalmazásának feltétele, hogy a hipotézisvizsgálat céljaira rendelkezésre álló

véletlen minta ismert σ02 varianciájú normális eloszlásból származik.

E feltétel mellett a

n

xzsz

0

standardizált mintaátlag a minta nagyságára való tekintet nélkül N(0;1) eloszlást (standard

normális eloszlást) követ.

Példa

Nézzük ismét az a példát, amely a légi közlekedésben az utasok átlagos testsúlyára

vonatkozóan élt feltételezésekkel (lásd illeszkedésvizsgálat, ahol a normalitást már igazoltuk).

Emlékeztetőül:

A légitársaság a terhelést 78kg-os átlagos testsúlyra és 11kg-os szórásra tervezi.

A feltételezés ellenőrzése céljából megmértek 100 véletlenszerűen kiválasztott utas súlyát,



�� = 78,6𝑘𝑔

𝑠∗ = 12,187𝑘𝑔

5%-os szignifikancia szint mellett most teszteljük az utasok testsúlyának várható értékére

vonatkozó feltevést!


113

Testsúly

(kg)

Ügyfelek száma

(fő)

-60 7

60-70 16

70-80 32

80-90 28

90-100 13

100- 4

Összesen 100

Egymintás z-próbát végezhetünk, mivel a mintaelemszám > 30 (a sokasági szórásra már jó

becslést ad a korrigált tapasztalati szórás).

Elvégzésének feltétele a sokaság normalitása, ezt már igazoltuk az illeszkedésvizsgálatnál e

példa esetén.


H0: μ=78

H0: μ>78


49,0100/187,12

786,78

0

n

xzsz


α=5%

zα=1,64


Mivel a számított érték (0,49) kisebb, mint a kritikus érték, így a nullhipotézist elfogadjuk,

azaz 5%-os szignifikancia szinten elfogadható, hogy a sokasági várható érték 78kg.

Megjegyzés: a próba elvégezhető kétoldali ellenhipotézissel is, ekkor a két kritikus érték:

±1,96, és mivel a számított érték így is az elfogadási tartományba esik, így a nullhipotézist így

is elfogadjuk.

Egymintás t-próba

Ez a próba valamelyest enyhít az előző próba szigorúnak számító alkalmazási feltételein,

mivel nem követeli meg a sokasági eloszlás szórásának ismeretét, de a sokaság normális

eloszlását továbbra is kiköti. Ebben az esetben H0 helyességének ellenőrzésére a következő

próbafüggvény használható fel:

ns

xtsz *

ahol s*

a sokaságból származó minta korrigált tapasztalati szórása, vagyis a standardizált

változó n-1 szabadságfokú Student-féle t-eloszlású.

Másképpen fogalmazva, amennyiben H0 igaz, és a sokaság eloszlása normális, a

próbafüggvény (tsz) n-1 szabadságfokú Student eloszlást követ. Erre alapozva a próba

végrehajtásához szükséges kritikus értékek kereshetőek a Student eloszlás táblázatából a

szignifikancia szint és a szabadsági fok ismeretében.


114

Szeretnénk arra is emlékeztetni, hogy az előző két statisztikát már korábban is használtuk,

ugyanis e statisztikák ismeretében adtunk intervallumbecslést a sokaság ismeretlen μ

paraméterére.

Példa26

Egy konzervgyárban a sűrített paradicsom töltését automata gép végzi. A dobozok névleges

súlya 450g, amitől csak véletlenszerű eltérések megengedettek. A súly szerinti eloszlás

normálisnak tekinthető. A gyár az egyik szállítmányból 25 elemű mintát vett, a mintában a

dobozok átlagos súlya 446g volt, a szórás pedig 11g.

Ellenőrizzük a névleges töltősúlyra vonatkozó hipotézist 5%-os szignifikancia szinten!

Mivel a mintaelemszám kisebb, mint 30 és nem ismert a sokasági szórás, továbbá a súly

szerinti eloszlás normálisnak tekinthető, így a sokaság várható értékére vonatkozó

feltevésünket egymintás t-próbával végezhetjük el.


H0: μ=450g

H1: μ<450g


82,125/11

450446*

ns

xtsz


α=5%

DF=24

tα=-1,711


Mivel a számított érték kisebb, mint a kritikus érték, így a nullhipotézist 5%-os szignifikancia

szinten elutasítjuk, azaz nem fogadható el a névleges töltősúlyra vonatkozó feltevés, a

töltősúly szignifikánsan eltér 450g-tól.

26

Keresztély, T., Sugár, A., Szarvas, B. (2005): Statisztika közgazdászoknak, Példatár és feladatgyűjtemény,

Nemzeti Tankönyvkiadó, 170.o.


115

6.3.1.c Egymintás paraméteres próbák összefoglalás

Tesztelendő

paraméter

Alkalmazási

feltételek

Hipotézisek Próbafüggvény Próbafüggvény

eloszlása

Sokasági várható

érték

Sokasági eloszlás

normális

sokasági szórás

ismert

H0: = m0

H1:

(1) ≠ m0

(2) > m0

(3) < m0

n

xzsz

0

standard

normális (z)

Sokasági eloszlás

normális

sokasági szórás nem

ismert

H0: = m0

H1:

(1) ≠ m0

(2) > m0

(3) < m0

ns

xtsz *

Student t-

eloszlás

(DF=n-1)

Sokasági variancia

(szórás)

Sokasági eloszlás

normális H0: σ = σ0

H1:

(1) σ ≠ σ0

(2) σ > σ0

(3) σ < σ0

2

0

22 *1

snsz

χ2-eloszlás

(DF=n-1)

6.3.2 Kétmintás próbák

A kétmintás próbák – ideértve a speciális páros mintás próbákat is – annak a kérdésnek a

vizsgálatára használhatók, hogy két meghatározott szempontból eltérő (pl. különböző

műszakok, gépek stb.) sokaságban a vizsgált paraméterek (várható értékek, szórások) is

különböznek-e egymástól.

Míg tehát az egymintás próbák valamilyen feltételezett, előírt értékhez viszonyítják az

egyetlen sokaságot, addig a kétmintás próbák két sokaság egymással való összehasonlítására

szolgálnak27

. Az összehasonlításra kerülő sokaságok időben, térben, vagy bármilyen más

tekintetben különbözhetnek egymástól.

6.3.2.a A sokasági szórások összehasonlítására irányuló próba

Szórásokra vonatkozó próbákat szórásnégyzetek segítségével végezhetünk. A

szórásnégyzetekre vonatkozó próbák a normális alapeloszlástól való eltérésre sokkal

érzékenyebbek, mint az átlagpróbák. Általános esetben – mivel a varianciák azonossága a

várható értékek összehasonlítására leggyakrabban alkalmazott kétmintás t-próba feltétele – a

szórásokra vonatkozó próbákat az átlagpróbák előtt célszerű elvégezni.

Két független, ismeretlen várható értékű és szórású, normális eloszlást követő valószínűségi

változó varianciáinak azonosságára vonatkozó hipotézisünk:

H0: 2

2

2

1

ún. F-próbával ellenőrizhető.

2*

2

2*

1

s

sFsz , ahol s1

*2>s2

*2

A számítást mindig úgy kell végeznünk, hogy a számlálóban a nagyobb variancia szerepeljen.

27

Sincich, T.:Statistics by Example, Dellen Publishing Company, San Fransisco, 1990


116

Az F próbát ily módon mindig egyoldali próbaként végezzük, vagyis ellenhipotézisünk:

H1: 12>2

2.

(Megjegyezzük, hogy az F-próbát baloldali és kétoldali alternatíva esetén is elvégezhetjük, de

ez most nem témája jegyzetünknek.) Táblázataink is egyoldali próbára vonatkoznak

(mégpedig F, DF1, DF2, kritikus értékeit adják meg).

A két alapeloszlásból vett n1 és n2 elemű minták 2*

1s illetve 2*

2s korrigált varianciái torzítatlan

becslései az alapeloszlás 12

, illetve 22

varianciáinak.

Ha H0 és a kiindulási feltételek teljesülnek, akkor az így képzett F érték az ún. Fisher-

Snedecor féle F-eloszlást követi, amely a számláló (DF1) és a nevező (DF2) szabadságfokától

(DF1,2=n1,2 -1) függ.

Példa

Egy fodrászatba férfiak és nők egyaránt járnak. 12 véletlenszerűen kiválasztott férfi és 15

véletlenszerűen kiválasztott nő esetében mérjük a szolgáltatás időtartamát, amelynek eloszlása

normális. A férfiak esetében a szolgáltatás igénybevételének átlagos ideje 35 perc, 26 perc

szórással. A nők esetében a frizura elkészítésének átlagos ideje 48 perc, 30 perc szórással.

Teszteljük 5%-os szignifikancia szinten, hogy van-e különbség a szolgáltatási idő szórása

között a férfiak és nők esetében!


0 : férfinőH

22

1 : férfinőH


33,126

302

2

2*

2*

férfi

nősz

s

sF


α=5%

DFnő=15-1=14=DF1

DFférfi=12-1=11=DF2

Fkrit=2,72


Mivel a számított érték (1,33), kisebb, mint a kritikus érték (2,72), így a nullhipotézist 5%-os

szignifikancia szinten nincs jogunk elutasítani, vagyis a férfiak és nők kiszolgálási idejének

szórása között nincs szignifikáns különbség.

Példa28

Két film tetszési indexét hasonlítja össze egy közvéleménykutató intézet. Az első filmre, a

Leányregény címűre 104 elemű mintát vettek, ebből 40 nő volt. A pontok átlaga 65, szórása

3,6 volt a mintában. A rém c. filmre 140 elemű mintát vettek, melyben a férfiak száma 96

volt, a pontok átlaga itt 74 volt, a szórás pedig 4,4. A pontok normális eloszlása mindkét

csoportban feltételezhető.

28

Juhász, Gy.-né, Sándorné, K. É. (1998): Példatár A Statisztika távoktatással c. könyvhöz, Pénzügyi és

Számviteli Főiskola, 94.o.


117

Teszteljük 1%-os szignifikancia szinten, hogy van-e különbség a két filmre adott pontok

szórása között!

Mivel a filmre adott pontszámok normalitása feltételezhető, így használhatjuk az F-próbát a

sokasági szórások egyezőségének a vizsgálatára. 1-es indexszel jelöljük a A rém c. filmet, 2-

es indexszel Leányregény c. filmet.


2

2

10 : H

2

2

2

11 : H


494,16,3

4,42

2

2*

2

2*

1 s

sFsz


α=1%

DF1=140-1=139

DF2=104-1=103

Fkrit=1,53


Mivel a számított érték (1,494), kisebb, mint a kritikus érték (1,53), így a nullhipotézist 1%-os

szignifikancia szinten nincs jogunk elutasítani, vagyis a két filmre adott ponszámok szórása

között nincs szignifikáns különbség.

6.3.2.b A sokasági várható értékek összehasonlítására irányuló próbák – független

minták esete

A minta függetlensége azt jelenti, hogy az egyik sokaságban egy elem mintába kerülése, ill.

be nem kerülése semmilyen módon nem befolyásolja a másik sokaságban az elemek mintába

kerülésének valószínűségét.

Független mintás esetekben a mintaelemszámok különbözőek lehetnek.

A két sokaságból külön-külön és egymástól függetlenül vett minta alapján ellenőrizni

kívánjuk a

H0: 1=2 (vagyis a két sokasági várható érték egyenlő)

hipotézis helyességét.

Az alkalmazási feltételek függvényében többféle próbát használhatunk: kétmintás z-próbát és

kétmintás t-próbát. H0 helyessége most is attól függően más-más próbafüggvény segítségével

vizsgálható, hogy milyen információkkal rendelkezünk a sokaságról.

Szakmai feltevésünktől függően mindkét próba esetén alkalmazhatunk egy- vagy kétoldali

ellenhipotézist.

H1: (1) 1 ≠ μ2

(2) 1 > μ2

(3) 1 < μ2

Abban az esetben, ha ismerjük az alapsokasági szórásokat (1 és 2), vagy ha nem ismerjük,

de nagy mintával dolgozunk (n1>30 és n2>30, s az elméleti szórásokat a korrigált tapasztalati

szórással becsüljük), kétmintás z-próbával, ha nem ismerjük az alapsokasági szórást, de

feltehető a szórások egyezése, akkor kétmintás t-próbával vizsgálhatjuk a fenti nullhipotézist.


118

Ha mindkét sokaság normális eloszlású, az elméleti szórásokat nem ismerjük, de a szórások

különböznek egymástól, akkor a kétmintás t-próba nem alkalmazható, helyette a Welch-

próbát használhatjuk. Szakmai feltevésünktől függően, mindhárom próba esetén

alkalmazhatunk egy- vagy kétoldali ellenhipotézist.

Kétmintás z-próba

Abból indulunk ki, hogy mindkét sokaság normális eloszlású és mindkét sokaság szórása

ismert. A próbafüggvény

2

2

2

1

2

1

21

nn

xxzsz

H0 helyessége esetén standard normális eloszlást N(0,1) követ.

Példa

Nézzük ismét az előző, két film tetszési indexét összehasonlító példánkat.

Most teszteljük azt 1%-os szignifikancia szinten, hogy a van-e különbség a két film átlagos

tetszési pontszáma között!

Emlékeztetőül:

Az első filmre, a Leányregény címűre 104 elemű mintát vettek, ebből 40 nő volt. A pontok

átlaga 65, szórása 3,6 volt a mintában. A rém c. filmre 140 elemű mintát vettek, melyben a

férfiak száma 96 volt, a pontok átlaga itt 74 volt, a szórás pedig 4,4. A pontok normális

eloszlása mindkét csoportban feltételezhető.

Mivel mindkét film esetében a mintaelemszám nagyobb, mint 30, továbbá feltételezhető a

pontok normális eloszlása, így kétmintás z-próbát használhatunk (1-es index A rém c. film, 2-

es index a Leányregény c. film).


H0: 1=2

H1: 1≠2


14,16311,0

9

104

6,3

140

4,4

6574

22

2

2

2

1

2

1

21

nn

xxzsz


α=1%

zα/2=±2,34


Mivel a számított érték nem az elfogadási tartományba esik, így szignifikáns különbség van

1%-os szignifikancia szinten a két film tetszési indexe között.

Kétmintás t-próba

A két sokaság eloszlása továbbra is normális, de a szórások nem ismertek. Ez a

feltételrendszer közelebb áll a valósághoz. Ez kis minták esetén akkor kezelhető, ha az

ismeretlen szórásokról tudjuk, hogy azok egyenlőek. Ekkor a H0 helyessége a következő

próbafüggvénnyel vizsgálható:


119

21

2

p

21sz

n1

n1s

xxt ,

ahol

2

)1()1(

21

2*

22

2*

112

nn

snsns p

a két sokaság egyforma varianciájának a két minta együttes felhasználásával nyert kombinált

becslése. A próbafüggvény H0 fennállása és az alkalmazási feltételek teljesülése esetén

DF=n1+n2-2 szabadságfokú t-eloszlást követ.

Példa

Korábbi fodrászatos példánk (lásd sokasági szórások egyezésére irányuló próba) vizsgáljuk

meg, hogy van-e különbség a kiszolgálási idő szórása között a férfiak és a nők esetében 5%-

os szignifikancia szinten!

nnő=15

nférfi=12

48nőx 30

nős

35férfix 26

férfis

A kétmintás t-próba alkalmazási feltételei:

az alapsokaságok eloszlásának normalitása (nevezetesen a szolgáltatási idő eloszlása

mind a férfiak, mind a nők esetében normális, ezt feltételeztük már az F-próba

elvégzésénél is)

nő és férfi nem ismert és nnő<30 és nférfi<30

nő = férfi, ezt már bizonyítottuk F-próbával korábban


H0: nő=férfi

H1: nő≠férfi


44,80121215

26)112(30)115(

2

)1()1( 222*2*

2

férfinő

férfiférfinőnő

pnn

snsns

185,196,10

13

12

1

15

144,801

3548

112

férfinőp

férfinő

sz

nns

xxt


Az ellenhipotézis kétoldali, így két kritikus érték meghatározására van szükség:

α=5%

DF=15+12-2=25

t0,975=±2,06


Mivel a számított érték az elfogadási tartományba esik, így a H0 hipotézist elfogadjuk, azaz

5%-os szignifikancia szinten nincs különbség a férfiak és a nők kiszolgálási idejének várható

értéke között.

Megjegyzés: A próba elvégezhető a következő ellenhipotézissel is:


120

H0: nő=férfi

H1: nő>férfi

Ehhez az ellenhipotézishez tartozó kritikus érték:

t0,95=1,708

Mivel tsz=1,185<1,708, így a H0-t elfogadjuk, azaz nincs különbség a két várható érték között

5%-os szignifikancia szinten.

Példa29

Egy gépről két különböző napon lekerülő alkatrészekből mintát vettek, és az alkatrészek

tömegére a következőket kapták:

101 n gx 501 2

1 02,02

gs

152 n gx 8,492 2

2 015,02

gs

Különbözik-e a két napon gyártott alkatrészek tömegének várható értéke 5%-os szignifikancia

szinten?

Az alkatrészek tömegének normalitása feltételezhető. Mivel az alapsokasági szórások nem

ismertek, és a mintaelemszám is kisebb, mint 30, így kétmintás t-próbával kell ellenőriznünk

a nullhipotézis helyességét:

H0: 1=2

H1: 1≠2

Először F-próbát kell végeznünk.

F-próba elvégzése

Először F-próbával ellenőrizzük azt a hipotézist, hogy a két minta azonos varianciájú

sokaságból származik.

H0: σ1=σ2

H1: σ1>σ2

Számított érték kiszámítása:

33,1015,0

02,0szF

Kritikus érték kiszámítása:

α=5%

DF1=9

DF2=14

Fkrit=2,65


Mivel a számított érték (1,33) kisebb, mint a kritikus érték (2,65), így 5%-os szignifikancia

szinten a szórások egyezése elfogadható.

Kétmintás t-próba


29

Kemény, S., Papp, L., Deák, A. (1999): Statisztikai minőség-(megfelelőség-) szabályozás, Műszaki

Könyvkiadó, Magyar Minőség Társaság, Budapest, 67.o.


121

017,021510

015,0)115(02,0)110(

2

)1()1( 22

21

2*

22

2*

112

nn

snsns p

7,3

15

1

10

1017,0

8,4950

1121

2

21

fp

sz

nns

xxt

Kritikus értékek meghatározása:

α=5%

DF=10+15-2=23

tα/2=±2,069


Mivel a számított érték kívül esik az elfogadási tartományon így a nullhipotézist, vagyis a

várható értékek egyezését, elutasítjuk, így a két nap közötti különbség 5%-os szinten

szignifikáns.

Kétmintás várható értékre irányuló próbák független minták esetén - összefoglalás

13. Táblázat: Kétmintás várható értékre irányuló próbák: kétmintás z- és t-próba

z-próba t-próba

egyoldali kétoldali egyoldali kétoldali

H0 1=2

H1 1>2

(1<2)

12

1>2

(1<2)

12

Próba-

statisztika

2

2

2

1

2

1

21

nn

xxzsz

21

2

p

21sz

n1

n1s

xxt

Elfogadási

tartomány zsz<z

(zsz>-z)

zsz>-z/2 vagy

zsz<z/2

tsz<t

(tsz>-t)

tsz>-t/2 vagy

tsz<t/2

Feltételek mindkét sokaság normális

eloszlású,

1 és 2 ismert v. n1 és n2>30

mindkét sokaság normális

eloszlású, 1 és 2 nem ismert v.

n1 és n2<30

1=2

6.3.2.c A sokasági várható értékek összehasonlítására irányuló próbák – páros minták

esete

Az eddig tárgyalt kétmintás statisztikai próbák alkalmazásánál fontos feltétel volt a minták

függetlensége. Ez a feltétel a gyakorlatban legtöbbször teljesül, de vannak bizonyos speciális

esetek, amikor a két minta elemei között van valamilyen kapcsolat. Az ún. páros minták

esetén a mintaelemek nem függetlenek egymástól, „van bennük valamilyen közös tényező”

(pl. ugyan az a mérőeszköz, ugyan azt az alkatrészt, embert stb. vizsgáljuk).

Páros mintáknál tehát az egyik minta elemeinek kiválasztása maga után vonja a másik minta

elemeinek kiválasztását, s így a két minta elemei nem tekinthetők egymástól függetleneknek. A

páros minták nagysága egyforma.


122

Az ilyen páros (összefüggő) sokaságokban a két sokaság (s ebből következően természetesen

a minta) elemei egymással kölcsönös és egyértelmű megfeleltetésbe hozhatók. A páros

elnevezés onnan származik, hogy a két sokaság egymáshoz rendelt egységeinek összessége

egy elempárokból álló, egyetlen sokaságnak is tekinthető.

Ha például két iskola tanulóinak testsúlyát szeretnénk összehasonlítani, akkor csak nehezen és

mesterkélten képzelhető el a tanulók párokba rendezése, már csak a két iskola létszámának

különbsége miatt is. Ugyanakkor, ha egy új fogyókúra eljárás hatékonyságát szeretnénk

értékelni, akkor célszerű ugyanazon személyek testsúlyát megmérni két időpontban, a

fogyókúra előtt és után. Ebben az esetben annak megítélésére, hogy valóban csökkent-e a

fogyókúra után a testsúly, már nem véletlenszerűen választunk a fogyókúrázók közül, az első

minta elemei meghatározzák a második mintát is. Természetesen az összefüggő sokaságokból

is vehetünk független mintákat, de ez általában nem célszerű, mert így elveszítjük az

elempárok egyenkénti összehasonlításával nyerhető információt.

A páros mintákat általában oly módon kezeljük, hogy egymásnak megfeleltethető elemeik

különbségét (vagy hányadosát képezzük), majd a továbbiakban e különbségeket (vagy

hányadosokat) már egyetlen minta elemeinek tekintjük.

Ha képezzük a két páros minta összetartozó elemeinek

di=yi-xi

különbségeit, és tekintsük e különbségeket a továbbiakban egy n elemű minta elemeinek. Ez

lényegében annak hallgatólagos feltételezése, hogy az a sokaság, amelyből e minta származik,

bizonyos elempárok összessége.

A páros minták összetartozó elemei közötti különbségek vizsgálata útján legtöbbször arra

keressük a választ, hogy az elempárok tagjai által kapott eltérő „kezelésnek” van-e valamilyen

hatása.

A próbához kapcsolódó nullhipotézis:

H0: μ1=μ2

vagy

H0: μd=δ0

(μd itt az elempárokhoz tartozó különbségek feltétezett várható értékét jelenti, a δ0 érték nem

csak 0 lehet, hanem egy adott különbség meglétét is vizsgálhatjuk.)

A nullhipotézis helyessége a megfelelő bal-, két- vagy jobb oldali alternatív hipotézissel

szemben vizsgálható.

Képezve tehát páronként a különbségeket (di), majd a különbségek átlagát (

n

i

idn

d1

1) és

korrigált tapasztalati szórását (1

)( 2

12

n

dd

s

n

i

i

d ), a nullhipotézisünket, vagyis a két várható

érték egyezését az alábbi próbastatisztikával vizsgálhatjuk (ha n<30, és a sokasági szórások

nem ismertek):

n

s

dt

d

sz

Ha H0 igaz, tsz értéke DF=n-1 szabadságfokú t-eloszlást követ.


123

Példa

Egy speciális diéta hatásosságát vizsgálják. Ehhez minden vizsgálati személy testsúlyát

megmérték a diéta előtt és után. A hipotetikus kísérlet eredménye 9 kísérleti személyen a

következő táblázatban látható.

A vizsgált

személy

sorszáma

Testsúly a diéta

előtt

Testsúly a

diéta után

1 95 90

2 75 72

3 110 100

4 81 75

5 92 88

6 83 83

7 94 93

8 88 82

9 105 99

Vizsgáljuk meg 1%-os szignifikancia szinten, hogy hatásos volt-e a diéta!

Páros mintáról van szó, hiszen ugyanazon diétában résztvevő személyek testsúlyát mérték

meg a diéta megkezdése előtt és után.

A diéta megkezdése előtt a 9 résztvevő testsúlyának átlaga:

44,919

10588948392811107595

ex

A diéta után a 9 résztvevő testsúlyának átlaga:

88,869

9982938388751007290

ux


H0: μe=μu

H1: μe>μu


Először képeznünk kell a különbségeket páronként, majd azok átlagát és szórását kell

kiszámolnunk.

A vizsgált

személy

sorszáma

Testsúly a

diéta előtt

Testsúly a

diéta után

di

1 95 90 5

2 75 72 3

3 110 100 10

4 81 75 6

5 92 88 4

6 83 83 0

7 94 93 1

8 88 82 6

9 105 99 6

56,49

66104610351

1

n

i

idn

d


124

05,98

)56,46(...)56,43()56,45(

1

)(222

2

12

n

dd

s

n

i

i

d

547,49/05,9

56,4

n

s

dt

d

sz


α=1%

tα=2,896


Mivel a számított érték (4,547) nagyobb, mint a kritikus érték (2,896), így a nullhipotézist

elutasítjuk, vagyis van szignifikáns különbség a páciensek testsúlyában a diéta előtt és után,

így a diéta hatásosnak tekinthető.

6.3.2.d Kétmintás paraméteres próbák összefoglalás

Tesztelendő

paraméter

Alkalmazási

feltételek

Hipotézisek Próbafüggvény Próbafüggvény

eloszlása

Sokasági

várható érték

mindkét sokaság

normális

eloszlású,

1 és 2 ismert

v. n1 és n2>30, a

minták

függetlenek

H0: 1=2

H1:

(1) 1 ≠ 2

(2) 1 > 2

(3) 1 < 2

2

2

2

1

2

1

21

nn

xxzsz

standard

normális (z)

mindkét sokaság

normális

eloszlású, 1 és

2 nem ismert v.

n1 és n2<30

1=2,

a minták

függetlenek

H0: 1=2

H1:

(1) 1 ≠ 2

(2) 1 > 2

(3) 1 < 2

21

2

p

21sz

n1

n1s

xxt ,

ahol

2

)1()1(

21

2*

22

2*

112

nn

snsns p

Student t-

eloszlás

(DF=n1+n2-2)

a sokaság

normális

eloszlású,

páros minta

H0: 1=2

(H0: μd=δ0)

H1:

(1) 1 ≠ 2 (μd

≠ δ0)

(2) 1 > 2

(μd > δ0)

(3) 1 < 2

(μd < δ0)

n

s

dt

d

sz

Student t-

eloszlás

(DF=n-1)

Sokasági

variancia

(szórás)

Mindkét

sokasági

eloszlás

normális

2

2

2

10 : H

2

2

2

11 : H

2*

2

2*

1

s

sFsz , ahol s1

*2 > s2

*2

F-eloszlás

(DF1=n1-1;

DF2=n2-1)


125

6.3.3 Több független mintás próbák

A több független mintás próbák kettőnél több sokaság bizonyos paramétereinek vagy

eloszlásának összehasonlítására szolgálnak.

A többmintás próbák – a kétmintás próbákhoz hasonlóan – annak a kérdésnek a vizsgálatára

használhatók, hogy több – meghatározott szempontból eltérő (pl. különböző műszakok, gépek

stb.) – sokaságban a vizsgált paraméterek (várható értékek, szórások) is különböznek-e

egymástól. A többmintás próbák kettőnél több sokaság egymással való összehasonlítására

szolgálnak30

.

6.3.3.a Több sokasági variancia egyenlőségének vonatkozó próbák31

Az F-próbát csak abban az esetben alkalmazzuk, ha két minta szórását hasonlítjuk össze. Ha

több normális eloszlásból származó mintát kell összehasonlítanunk, akkor használhatjuk a

Cochran-próbát.

H0: 22

2

2

1 ... n

H1: nem minden variancia egyenlő

A Cochran-próba segítségével azt dönthetjük el, hogy a szórások között talált legnagyobb

érték tekinthető-e a többivel azonos eloszlásból származónak.

A Cochran-próbát akkor alkalmazhatjuk, ha az alapeloszlás normális és a minták mind

azonos darabszámúak.

A közös mintadarabszámot most n-el jelöljük (a szabadságfok DF=n-1), az r darab különböző

minta korrigált tapasztalati szórásnégyzetét pedig s1*2

, s2*2

, …sr*2

– tel.


22

2

2

1

2

max

... r

szsss

sg

,

ahol 2

max

s smax*2 az összehasonlítani kívánt sokaságokból vett minták korrigált tapasztalati

szórásnégyzetei közül a legnagyobb.

A nullhipotézisről való döntéshez a Képletgyűjtemény Cochran-próbához kapcsolódó

táblázatai szükségesek, amelyekkel meghatározható egy adott szignifikancia szinthez

szükséges kritikus érték.

A kiértékeléshez szükséges táblázatok segítségével a már ismert módon eldönthetjük, hogy a

legnagyobb szórás jelentős mértékben különbözik-e a többitől. Ha a számított érték (gsz)

kisebb, mint a kritikus érték, akkor elfogadjuk a H0 hipotézist, ellenkező esetben pedig

elutasítjuk, vagyis nem tekinthetjük az összes alapsokaságot egyenlő szórásúnak. Ilyenkor

vagy teljesen elejtjük a homogenitásra vonatkozó feltevésünket, vagy pedig csak ezt a kiugró

szórással rendelkező mintát (vagy ha több minta szórása lépte át a szignifikancia-határt,

mindegyik ilyent) kizárjuk a sokaságból és megvizsgáljuk, hogy a megmaradó sokaságra

eredeti feltevésünk fenntartható-e. Ezt tehát semmi esetre sem tekinthetjük természetesnek,

hanem a megmaradó sokaságra meg kell ismételnünk a Cochran-próbát, azaz gsz értékét a

megmaradó adatokból újra ki kell számítani és r új értékének figyelembevételével összevetni

az ábrával. A megmaradó sokaságot a szórás szempontjából homogénnek csak akkor

tekinthetjük, ha az utoljára végzett Cochran-próba „nem szignifikáns” eredményt mutat.

30

Sincich, T.:Statistics by Example, Dellen Publishing Company, San Fransisco, 1990 31

Kövesi J.: Kvantitatív módszerek, Oktatási segédanyag, BME MBA Mérnököknek program, Budapest, 1998


126

Példa

Egy áruházláncnál megvizsgálták, hogy 3 boltjukban azonos-e az egy vásárlásnál fizetett

összeg. Minden boltban kiválasztottak 6 véletlen mintát. A vásárláskor fizetett összegeket az

alábbi táblázat mutatja (dollárban):

1. bolt 2. bolt 3. bolt

12,05 15,17 9,48

23,94 18,52 6,92

14,63 19,57 10,47

25,78 21,4 7,63

17,52 13,59 11,90

18,45 20,57 5,92

Feltételezve, hogy a kifizetések normális eloszlásúak, van-e különbség a szórás tekintetében a

3 üzlet között 5%-os szignifikancia szinten?


H0: 2

3

2

2

2

1

H1: nem minden variancia egyenlő


Ehhez először ki kell számítanunk mindhárom üzlet esetében a minták számtani átlagát és

korrigált tapasztalati szórását.

73,181 x 96,275

)73,1845,18(...)73,1894,23()73,1805,12( 222

1

2

s

14,182 x 65,95

)14,1857,20(...)14,1852,18()14,1817,15( 222

2

2

s

72,83 x 2,55

)72,892,5(...)72,892,6()72,848,9( 222

3

2

s

653,02,565,996,27

96,27

... 22

2

2

1

2

max

r

szsss

sg


α=5%

n=6 (egy-egy minta azonos elemszáma)

DF=n-1=6-1=5

r=3 (a minták száma)

Cochran-táblázatból a kritikus érték: gkrit=0,73


Mivel a számított érték (0,653) kisebb, mint a kritikus érték (0,73), a nullhipotézist elfogadjuk

5%-os szignifikancia szinten, azaz a sokasági szórások egyezése feltételezhető.


127

6.3.3.b Több sokaság várható értékének az összehasonlítása – varianciaanalízis

A varianciaanalízis – nevével ellentétben – a vizsgált sokaságok (r db) várható értékének az

összehasonlítására szolgál.

H0: r ...21

H1: bármely két várható érték nem egyenlő egymással

A próba végrehajtásának előfeltétele, hogy ebben az esetben is minden sokaságból külön-

külön, függetlenül egyszerű véletlen mintákat veszünk, minden sokaságról feltételezhető a

vizsgált ismérv szerinti normális eloszlása, és a sokasági szórások egyezősége (lásd előző

Cochran próba).

Felidézve a 3. Részekre bontott sokaság vizsgálata c. fejezetben tanultakat, a nullhipotézis

fennállása azt jelenti, hogy nincs kapcsolat az X mennyiségi ismérv és a sokaságokat

megkülönböztető minőségi ismérv között. H1 fennállása ezzel szemben azt jelenti, hogy van

kapcsolat az adott két ismérv között.

Ugyanis arról van szó, hogy a nullhipotézisben nemcsak az r darab sokasági átlag

egyenlőségét feltételezhetjük, hanem azt is, hogy ezek mindegyike megegyezik az r sokaság

összevonása után számolt főátlaggal. Ha a problémát úgy fogjuk fel, hogy egy sokaságot egy

kategóriaképző minőségi ismérv változatai szerint n részsokaságra bontunk, és vizsgáljuk,

hogy egy X mennyiségi ismérv szerint megegyeznek-e az átlagok, akkor ez a próba a vegyes

kapcsolat tesztelésének is tekinthető, a nullhipotézis elfogadás esetén a minőségi ismérv nem

befolyásolja a mennyiségi ismérv alakulását, a két ismérv független egymástól. Ezért ez a

módszer is a 3. fejezetben megismert szórásnégyzet-felbontás módszerére épül, és

varianciaanalízisnek szokás nevezni.

A próba elvégzéséhez mindenekelőtt (természetesen a csoportok átlagának és szórásának

meghatározása után, amelyek már a szórások egyezésének vizsgálatához is szükségesek)

képezzük az összes megfigyelés számtani átlagát ( x ), ami megegyezik a mintaátlagoknak ( x

i) a minta elemszámával súlyozott számtani közepével:

r

i

ii

r

i

n

j

ij xnn

xn

xi

11 1

11

Ahol: ni az i-edik minta elemszáma,

n az összes minta elemszáma n=n1+n2+…+nr.

Ezek után képezzük az összes mért értéknek (xij) az összes adat átlagától ( x ) való eltérésének

a négyzetösszegét az ún teljes négyzetösszeget:

r

1i

n

1j

2

ij

i

xx , amely két négyzetösszeg

összegére bontható.

Az egyik az ún. csoportok közötti

r

i

ii xxn1

2

négyzetösszeg, amely a csoportok közti

eltéréseket magyarázza, méri, a másik a csoportokon belüli

r

i

n

j

iij

i

xx1 1

2

négyzetösszeg,

amely a csoportokon belüli eltéréseket, a véletlen hatásokat mutatja32

.

A 3.2 Rész- és fősokaságok varianciája és szórása című fejezetben láttuk, hogy ha egy

heterogén sokaságot részekre bontunk, akkor az eltérésnégyzet-összegek között az alábbi

összefüggés áll fenn:

32

Lukács O.: Matematikai statisztika, Példatár, Műszaki Könyvkiadó, Budapest, 1987


128

r

i

n

j

iij

r

i

ii

r

i

n

j

ij

ii

xxxxnxx1 1

2

1

2

1 1

2

SST=SSK+SSB

Emlékeztetőül: ez az azonosság azt fejezi ki, hogy az átlagtól vett teljes eltérésnégyzet-összeg

(SST) két részre bontható:

A külső eltérésnégyzet-összeg (SSK) azt a részt mutatja, amelyet az egyes

részsokaságban számított átlagok eltérései magyaráznak, azaz ez a csoportosítás

hatása a szóródásra. Értékét az SST-hez viszonyítva kaptuk a H2 mérőszámot, amit

szintén a 3. fejezetben ismertünk meg.

A belső eltérésnégyzet-összeg (SSB), amelynek a nagyságát a csoportosító ismérven

kívüli, egyéb tényezők magyaráznak. Ez a szóródásnak az a része, amit a csoportosító

ismérv nem magyaráz.

A varianciaanalízis éppen arra keresi a választ, hogy a csoportosító ismérvnek köszönhető

eltérésnégyzet-összeg (SSK) szignifikáns nagyságrendű-e.

Ha H0 igaz, s a kiindulási feltételek is teljesülnek, akkor bizonyítható, hogy a csoporton belüli

négyzetösszeg 2-eloszlású n-r szabadságfokkal, s a csoportok közötti négyzetösszeg

független a csoporton belüli négyzetösszegtől, és szintén 2-eloszlású r-1 szabadságfokkal.

Ha ez igaz, akkor a négyzetösszegek és a megfelelő szabadságfokok hányadosából képzett ún

külső (sk2), ill. belső (sb

2) szórásnégyzetek egymástól függetlenek, s a közös várható értékük

az ismeretlen, de egyenlő alapsokasági szórás: E(sk2)=E(sb

2)=.

A két szórás egyezésének vizsgálatával így ellenőrizhetjük eredeti hipotézisünket, a várható

értékek azonosságát. Két szórás összehasonlítására a korábban megismert F-próba

használható, képezve az F=sk2/sb

2 statisztikát, amely – H0 fennállása esetén – (r-1, n-r)

paraméterű F-eloszlású33

.

A képzett próbafüggvény:

)/(

)1/(

)/(

)1/(

1 1

2

1

2

rnSSB

rSSK

rnxx

rxxn

Fr

i

n

j

iij

r

i

ii

szi

Mint látható, ebben az esetben a számláló, és így a próbafüggvény 0 értéke szól a

nullhipotézis teljesülése mellett leginkább, hiszen ez azt jelenti, hogy minden részátlag

pontosan megegyezik egymással. Minél nagyobb a számláló értéke (és ezzel párhuzamosan

csökken a nevezőé), annál inkább eltérnek a részátlagok egymástól. A hipotézisvizsgálat

feladata ezúttal is az, hogy meghatározza azt a kritikus értéket, amely felett a részátlagok

eltérése már nem tekinthető véletlen ingadozásnak. Az eddigiek alapján a varianciaanalízis is

egy csak jobboldali kritikus értékkel végrehajtható próba. A szignifikancia szint és a

fentiekben definiált szabadsági fokok ismeretében a kritikus érték az F-eloszlás táblázatából

meghatározható.

A varianciaanalízis eredményeinek összefoglalására gyakran alkalmazzák az ún.

szórásfelbontó táblázatot, amit a varianciaanalízis angol nevének rövidítéséből ANOVA

táblának is szokás nevezni. Az egyszeres osztályozású varianciaanalízis ANOVA táblájának

felépítését mutatja a következő táblázat:

33

Lukács O.: Matematikai statisztika, Példatár, Műszaki Könyvkiadó, Budapest, 1987


129

14. Táblázat: ANOVA tábla

Négyzetösszeg

neve

Négyzet-

összegek

Szabad-

ságfok

Szórás

becslése

F érték p-érték

Csoportok

közötti *

r

i

ii xxn1

2

r-1 sk2 sk

2/sb

2 p

Csoporton

belüli **

r

i

n

j

iij

i

xx1 1

2 n-r sb2 - -

Teljes

r

1i

n

1j

2

ij

i

xx

n-1 - - -

Példa

Nézzük ismét a Cochran-próbánál bemutatott példát.

Egy áruházláncnál megvizsgálták, hogy 3 boltjukban azonos-e az egy vásárlásnál fizetett

összeg. Minden boltban kiválasztottak 6 véletlen mintát. A vásárláskor fizetett összegeket az

alábbi táblázat mutatja (dollárban):

1. bolt 2. bolt 3. bolt

12,05 15,17 9,48

23,94 18,52 6,92

14,63 19,57 10,47

25,78 21,4 7,63

17,52 13,59 11,90

18,45 20,57 5,92

Feltételezve, hogy a kifizetések normális eloszlásúak, van-e különbség az eladások várható

értékeinek tekintetében a 3 üzlet között 5%-os szignifikancia szinten?

A varianciaanalízis alkalmazási feltételei között szerepel a sokasági szórások egyezése, ezt

már igazoltuk Cochran-próbával, továbbá feltételeztük az értékesítések értékének

normalitását.


H0: 321

H1: bármely két várható érték nem egyenlő egymással


n1=n2=n3=6 r=3

Az átlagok boltonként )( ix : 73,181 x 14,182 x 72,83 x

Az összes adat átlaga )(x : $15,2

6,378)2,1572,8(6)2,1514,18(6)2,1573,18(6 222

1

2

r

i

ii xxnSSK

Az SSB számításának leegyszerűsítéséhez vegyük elő azokat a korrigált tapasztalati

szórásokat, amelyeket a Cochran-próbánál már kiszámítottunk:


130

96,275

)73,1845,18(...)73,1894,23()73,1805,12( 222

1

2

s

65,95

)14,1857,20(...)14,1852,18()14,1817,15( 222

2

2

s

2,55

)72,892,5(...)72,892,6()72,848,9( 222

3

2

s

E korrigált tapasztalati szórásnégyzetek számlálójában szereplő eltérésnégyzet-összegek

összege adja a keresett SSB belső eltérésnégyzet-összeget:

r

i

n

j

iij

i

xx1 1

2

05,21452,5565,9596,27 SSB

45,5924,37805,214 SSKSSBSST

A számításokat elvégezve, az ANOVA tábla:

Négyzet-

összegek

Szabad-

ságfok

Szórás

becslése F érték p érték

Csoportok közötti 378,4 r-1=3-1=2 189,2 13,23 0,0005

Csoporton belüli 214,05 n-r=18-3=15 14,3 - -

Teljes 592,45 17 - - -

23,13

3,14

2,189

15/05,2014

2/4,378

)/(

)1/(

)/(

)1/(

1 1

2

1

2

rnSSB

rSSK

rnxx

rxxn

Fr

i

n

j

iij

r

i

ii

szi


=0,05

A számláló szabadságfoka (DF1) = 2

A nevező szabadságfoka (DF2) = 15

A kritikus érték: Fkr=3,68

Döntés a nullhipotézisrről:

Mivel Fsz>>Fkr, a nullhipotézist 5%-os szignifikancia szinten elutasítjuk, azaz az átlagok, ill.

legalább egy átlag szignifikánsan különbözik a többitől. Esetünkben ez értelemszerűen a 3.

bolt, ahol az egy vásárlásnál kifizetett összeg nagysága átlagosan kevesebb, mint a fele a

másik két bolt átlagánál.


131

6.4 Fogalmak

nemparaméteres próba paraméteres próba

illeszkedésvizsgálat kontingencia táblázat

homogenitásvizsgálat függetlenségvizsgálat

Cramer-féle asszociációs együttható egymintás próba

egymintás z-próba egymintás t-próba

egymintás szóráspróba kétmintás próba

F-próba független minta

páros minta kétmintás t-próba

kétmintás z-próba többmintás próbák

Cochran-próba varianciaanalízis

ANOVA-tábla

6.5 Típusfeladatok

6.5.1 Feladat

Egy ipari parkban az elmúlt 70 évben az évente bekövetkező áramkimaradások gyakorisága

az alábbi táblázat szerint alakult.

5%-os szignifikancia szinten elfogadható-e az a feltételezés, hogy az áramkimaradások száma

Poisson-eloszlású valószínűségi változó?

Megoldás:

A megoldás menete:

Tudjuk, hogy a nullhipotézis teljesülése esetén az áramkimaradások éves

száma Poisson-eloszlású valószínűségi változónak tekinthető.

A mintából becslést adunk az eloszlás λ paraméterére.

Meghatározzuk, hogy az áramkimaradások száma a feladatban megadott

értékeket mekkora valószínűséggel veszi fel.

Kiszámítjuk az áramkimaradások számának elméleti gyakoriságait.

Az elméleti és tapasztalati gyakoriságok ismeretében – a khi-négyzet próba

alkalmazásával – illeszkedésvizsgálatot hajtunk végre.

Jelölje ξ az áramkimaradások éves számát, mint valószínűségi változót.

Ha a nullhipotézis teljesül, akkor a ξ λ paraméterű Poisson-eloszlású.

A λ paraméter (maximum likelihood) becslése a mintaátlag:

2,270

1760524731522311606


A feladat szövege alapján a következő hipotézisek fogalmazhatók meg:

H0: az áramkimaradások éves száma Poisson-eloszlást követ 2,2 paraméterrel

H1: az áramkimaradások éves száma nem 2,2 paraméterrel követ Poisson-eloszlást

Áramkimaradások

száma (évente):0 1 2 3 4 5 6 7 7-nél több

Évek száma: 6 16 23 15 7 2 0 1 0


132

A feltételezett eloszlás (Poisson-eloszlás) λ paramétere nem ismert, ezért becsléses

illeszkedésvizsgálatot hajtunk végre.

Az elméleti gyakoriságok meghatározásához a következő valószínűségeket kell

kiszámítanunk (de kereshetőek a Poisson eloszlás táblázatából):

)7,...,0( !

)( kek

kPpk

k

7

0

7 1)7(1)7(k

kpPPp

A valószínűségek ismeretében az Fk elméleti gyakoriságok az kk NpF összefüggés alapján

számíthatók, ahol N=70 a minta elemszáma.

A következő táblázat a próba végrehajtásához szükséges tapasztalati és kiszámított elméleti

gyakoriságokat tartalmazza.

k kf kp kF

0 6 0,1108 7,7562

1 16 0,2438 17,0637

2 23 0,2681 18,7701

3 15 0,1966 13,7647

4 7 0,1082 7,5706

5 2 0,0476 3,3311

6 0 0,0174 1,2214

7 1 0,0055 0,3839

7-nél több 0 0,0020 0,1384

r=9

4517,4

1384,0

1384,00...

7562,7

7562,7622

1

2

2

r

i i

iisz

F

Ff


A szabadságfok: DF = r-l-1 = 9-1-1 = 7 (r=9, l=1, mert 1 paramétert becsültünk.)

α=5%

067,142

05,0

2 krit


Mivel a számított érték kisebb, mint a kritikus érték, így a nullhipotézist elfogadjuk, azaz 5%-

os szignifikancia szinte elfogadható, hogy az áramkimaradások száma λ=2,2 paraméterrel

Poisson eloszlást követ.


133

6.5.2 Feladat

Egy faipari üzemben a méretre gyártott asztallapok vastagságát vizsgálták. 200 asztallap

vastagságát megmérve az adatokat az alábbi táblázatban rögzítették.

5%-os szignifikancia szinten elfogadható-e az a feltételezés, hogy az asztallapok vastagsága

normális eloszlású valószínűségi változó 50,2mm várható értékkel és 1,3mm szórással?

Megoldás:


A feladat szövege alapján a következő hipotézisek fogalmazhatók meg.

H0: az asztallapok vastagsága 50,2mm várható értékű, 1,3mm szórású normális eloszlást

követ

H1: az asztallapok vastagsága nem 50,2mm várható értékű, 1,3mm szórású normális eloszlást

követ

Mivel ismertek a feltételezett eloszlás elméleti paraméterei, ezért tiszta illeszkedésvizsgálatot

hajtunk végre.


A feladat megoldásához meg kell határoznunk az asztallap vastagságának a megadott

kategóriákba esési elméleti gyakoriságait. A nullhipotézis teljesülése esetén az asztallap

vastagság megadott kategóriákba esési valószínűségeit a μ=50,2mm,σ=1,3mm paraméterű

normális eloszlásfüggvény segítségével számíthatjuk ki. E valószínűségek ismeretében a

megadott kategóriákba esési elméleti gyakoriságok kiszámíthatóak.

A megadott kategóriákba esési valószínűségek meghatározása:

Asztallap

vastagsága (d)

(mm)

d < 47

47 ≤ d < 49

49 ≤ d < 51

51 ≤ d < 53

53 ≤ d

?)53(

?)5351(

?)5149(

?)4947(

?)47(

5

4

3

2

1

Pp

Pp

Pp

Pp

Pp

A μ=50,2mm, σ=1,3mm paraméterű normális eloszlás helyett a standard normális

eloszlásfüggvénnyel számolunk.

Asztallap vastagsága (d)

(mm)

Asztallapok száma

(darab)

d < 47 3

47 ≤ d < 49 31

49 ≤ d < 51 105

51 ≤ d < 53 56

53 ≤ d 5


134

0156,09844,011538,213,1

2,50531)53(1)53(

2534,07308,09844,0

6154,01538,23,1

2,5051

3,1

2,5053)5351(

5528,01780,07308,09931,016154,0

9931,06154,03,1

2,5049

3,1

2,5051)5149(

1711,09931,08220,04615,219231,01

4615,29231,03,1

2,5047

3,1

2,5049)4947(

007,0993,014615,214615,23,1

2,5047)47(

5

4

3

2

1

PPp

Pp

Pp

Pp

Pp

A pi valószínűségek ismeretében az Fi elméleti gyakoriságok az ii NpF összefüggéssel

meghatározhatóak, ahol N=200.

Asztallap vastagsága (d)

(mm) if ip iF

d < 47 3 0,007 1,3834

47 ≤ d < 49 31 0,1711 34,2133

49 ≤ d < 51 105 0,5528 110,5732

51 ≤ d < 53 56 0,2534 50,7049

53 ≤ d 5 0,0156 3,1252

Megjegyzés: 15

1

i

ip

r=5

1493,4

1252,3

1252,35...

3834,1

3834,1322

1

2

2

r

i i

iisz

F

Ff

A kritikus érték meghatározása:

A szabadságfok: DF = r-l-1 = 5-0-1 = 4 (l=0, mert nem becsültünk egyetlen paramétert sem)

05,0

488,92

05,0

2 krit


Mivel a számított érték kisebb, mint a kritikus érték, ezért a nullhipotézist elfogadjuk, azaz

5%-os szignifikancia szinten elfogadható az a feltételezés, hogy az asztallapok vastagsága

normális eloszlású valószínűségi változó 50,2mm várható értékkel és 1,3mm szórással.


135

6.5.3 Feladat

A csokoládé, a vanília és az eper-fagylaltok iránti preferenciát vizsgálták kisiskolások

körében. 4 korcsoportban, összesen 289 kisiskolástól kérdezték meg, hogy melyik fagylaltok

kedveli a leginkább. A felmérés eredményét a következő táblázat összegzi:

1. osztály 2. osztály 3. osztály 4. osztály

Csokoládé 26 62 48 12

Vanília 8 18 12 6

Eper 16 42 28 11

5%-os szignifikancia szinten elfogadható-e az a feltételezés, hogy a fagylaltok iránti

preferencia független a kisiskolás korától?

Megoldás:

Hipotézisek meghatározása:

H0: a fagylalt íze és a korcsoport független egymástól

H1: a fagylalt íze és a korcsoport nem független egymástól


r=3; s=4; DF=(r-1)(s-1)=(3-1)(4-1)=6; =5%

592,122

05,0

2 kritikus


N

ffF

ji

ij

F11= 148*50/289 = 25,606

F21= 44*50/289 = 7,612

…

F34=97*29/289=9,734

809,1

734,9

734,911......

606,25

606,252622

1 1

2

2

r

i

s

j ij

ijij

szF

Ff


χ 2

sz ≤ χ2

0,05 =>a nullhipotézis elfogadható, a fagylaltok iránti preferencia független a

kisiskolás korától.

1. osztály 2. osztály 3. osztály 4. osztály

Csokoládé26 62 48 12 148

25.606 62.478 45.066 14.851

Vanília8 18 12 6 44

7.612 18.574 13.398 4.415

Eper16 42 28 11 97

16.782 40.948 29.536 9.734

50 122 88 29 289

f·1 f·2 f·3 f·4

f1·

f2·

f3·


136

6.5.4 Feladat

Egy fémipari üzemben a 300mm névleges átmérőjű tárcsákat az “A” és “B” jelű

műszakokban gyártják. A két műszakban gyártott tárcsák átmérőjének hosszára vonatkozóan

elvégzett mérések eredményeit az alábbi táblázat összegzi. (A gyártott tárcsák átmérőjének

hossza normális eloszlású valószínűségi változónak tekinthető.)

"A" műszak "B" műszak

Minta elemszáma 11 10

Mintából számított átlag (mm) 300,1 299,6

Tapasztalati szórásnégyzet 0,8944 0,7745

5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az “A” műszakban gyártott

tárcsák átmérőjének várható értéke nagyobb, mint a “B” műszakban gyártottaké?

Megoldás:

A megoldás menete:

Két normális eloszlású valószínűségi változó várható értékei egyenlőségét

Kétmintás z-próbával tesztelhetjük, ha ismertek az elméleti szórások vagy a minták

elemszáma nagyobb 30-nál

Kétmintás t-próbával tesztelhetjük, ha az elméleti szórások ismeretlenek, de azok

egyenlősége feltételezhető

Esetünkben az elméleti szórások ismeretlenek és a minták elemszámai 30-nál nem

nagyobbak, ezért a kétmintás z-próba nem alkalmazható

F-próbát alkalmazunk az elméleti szórások egyenlőségének tesztelésére

Ha az F-próba eredményeként feltételezhető az elméleti szórások egyenlősége, akkor

kétmintás t-próbával teszteljük a várható értékek egyenlőségét



H0: az “A” műszakban gyártott tárcsák átmérőjének várható értéke egyenlő a “B” műszakban

gyártott tárcsák átmérőjének várható értékével.

H1: az “A” műszakban gyártott tárcsák átmérőjének várható értéke nagyobb, mint a “B”

műszakban gyártottaké

A tárcsák átmérőjének hossza normális eloszlású valószínűségi változó, ezért a feladatunk két

normális eloszlású valószínűségi változó várható értékei egyenlőségének tesztelése.


F-próba

H0: az “A” műszakban gyártott tárcsák átmérőjének szórása egyenlő a “B” műszakban

gyártott tárcsák átmérőjének szórásával.

H1: az “A” műszakban gyártott tárcsák átmérőjének szórása nagyobb, mint a “B” műszakban

gyártottaké.

1548,17745,0

9844,02

2

B

Asz

s

sF

α=5%

Számlálóhoz tartozó szabadságfok: 11-1=10

Nevezőhöz tartozó szabadságfok: 10-1=9


137

14,3kritF

Mivel Fsz< Fkrit, ezért a nullhipotézist 5%-os szignifikancia szinten elfogadjuk, azaz

elfogadjuk az elméleti szórások egyezését, és így a várható értékek egyenlőségét kétmintás t-

próbával ellenőrizhetjük.

Kétmintás t-próba:

H0: az “A” műszakban gyártott tárcsák átmérőjének várható értéke egyenlő a “B”

műszakban gyártott tárcsák átmérőjének várható értékével.

H1: az “A” műszakban gyártott tárcsák átmérőjének várható értéke nagyobb, mint a “B”

műszakban gyártottaké.

α=5%

DF=11+10-2=19

egyoldali próba, 729,195,0 t

2504,1

10/111/18376,0

6,2991,300

/1/12

BAp

BAsz

nns

xxt


Mivel a számított érték az elfogadási tartományba esik, ezért 5%-os szignifikancia szinten

elfogadjuk a nullhipotézist, azaz az “A” és “B” műszakban gyártott tárcsák átmérőjének

várható értéke között nincs szignifikáns különbség.

6.5.5 Feladat

Egy palackozó üzemben az 1-es és 2-es gyártósorokon palackozott 1 liter névleges űrtartalmú

üdítőitalok töltési térfogatát vizsgálták. Egy-egy mintát vettek a két soron palackozott

üdítőitalokból, s a mintákból meghatározták a töltési térfogatok átlagát és tapasztalati

szórásnégyzetét. Az eredményeket az alábbi táblázatban rögzítették. (A töltési térfogat

normális eloszlású valószínűségi változónak tekinthető.)

1-es gyártósor 2-es gyártósor

Minta elemszáma 61 61

Mintából számított átlag 1,02 0,98

Tapasztalati szórásnégyzet 0,045 0,05

a.) 5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az 1-es gyártósoron

palackozott üdítőitalok töltési térfogatának várható értéke nagyobb, mint a 2-es gyártósoron

palackozottaké?

b.) 5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az 1-es gyártósoron

palackozott üdítőitalok töltési térfogatának szórása kisebb, mint a 2-es gyártósoron

palackozottaké?

8376,0

21011

7745,098944,010

2

11 222

BA

BBAAp

nn

snsns


138

Megoldás:

A megoldás menete:

Két normális eloszlású valószínűségi változó várható értékei egyenlőségét

Kétmintás z-próbával tesztelhetjük, ha ismertek az elméleti szórások vagy a minták

elemszáma nagyobb 30-nál

Kétmintás t-próbával tesztelhetjük, ha az elméleti szórások ismeretlenek, de azok

egyenlősége feltételezhető

Esetünkben az elméleti szórások ismeretlenek és a minták elemszámai 30-nál nagyobbak,

ezért a kétmintás z-próba alkalmazható

A kétmintás t-próba szintén alkalmazható, ha az elméleti szórások egyenlősége feltételezhető.

Ez utóbbi feltételezést F-próbával tesztelhetjük.



H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke egyenlő a

2-es gyártósóron palackozott üdítőitalok töltési térfogatának várható értékével (H0: 21 )

H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb,

mint a 2-es gyártósoron palackozottaké (H1: 21 )

A töltési térfogat normális eloszlású valószínűségi változó, ezért a feladatunk két normális

eloszlású valószínűségi változó várható értékei egyenlőségének tesztelése.


0136,198,002,1

61

05,0

61

045,0

2

2

2

1

2

1

21

n

s

n

s

xxzsz


05,0

65,1)1(1 z


A próbastatisztika értéke az elfogadási tartományba esik, ezért a két gyártósoron palackozott

üdítőitalok várható töltési térfogatát 5%-os szignifikancia szinten egyenlőnek tekinthetjük.

Nem fogadható el az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési

térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké.

Másik lehetséges megoldás: kétmintás t-próba

Hipotézisek felállítása –F-próba


H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának szórása egyenlő a 2-es

gyártósoron palackozott üdítőitalok töltési térfogatának szórásával ( 21 )

H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának szórása kisebb, mint a 2-

es gyártósoron palackozottaké ( 21 )


139

A töltési térfogat normális eloszlású valószínűségi változó, ezért a feladatunk két normális

eloszlású valószínűségi változó szórásai egyenlőségének tesztelése. A szórások

egyenlőségének tesztelésére F-próbát alkalmazunk.

Számított érték meghatározása – F-próba:

Mivel 2

2

2

1

ss , ezért

1111,1045,0

05,02

1

2

2

s

sFsz

Kritikus érték meghatározása – F-próba:

A számlálóhoz tartozó szabadságfok: 6012 n

A nevezőhöz tartozó szabadságfok: 6011 n

05,0

53,1kritF


Mivel a számított érték kisebb, mint a kritikus érték, a nullhipotézis 5%-os szignifikancia

szinten elfogadható, így ezen a szignifikancia szinten elfogadható a szórások egyenlősége, s

nem fogadható el az az állítás, miszerint az 1-es gyártósoron palackozott üdítőitalok szórása

kisebb, mint a 2-es soron palackozottaké.

Mivel 5%-os szignifikancia szinten a szórások egyenlősége elfogadható, így az a.) feladat

kétmintás t-próbával is megoldható.

H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke egyenlő a

2-es gyártósóron palackozott üdítőitalok töltési térfogatának várható értékével (H0: 21 )

H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb,

mint a 2-es gyártósoron palackozottaké (H1: 21 )

Számított érték meghatározása – kétmintás t-próba:

0475,0

26161

05,060045,060

2

11

21

2

22

2

112

nn

snsns p

0136,1

61/161/10475,0

98,002,1

/1/1 21

2

21

nns

xxt

p

sz

Kritikus érték meghatározása – kétmintás t-próba:

DF= 61+61-2=120

05,0

66,195,0 t

A próbastatisztika értéke az elfogadási tartományba esik, ezért a két gyártósoron palackozott

üdítőitalok várható töltési térfogatát 5%-os szignifikancia szinten egyenlőnek tekinthetjük.

Nem fogadható el az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési

térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké.


140

Megjegyzés: A kétmintás z-próbánál, valamint a kétmintás t-próbánál a próbastatisztikák és

az elfogadási tartományok

0136,1szz 0136,1szt

A kapott értékek jól érzékeltetik, hogy a két próba végrehajtása a gyakorlat szempontjából

azonos eredményt hoz.


1. Mi a paraméteres és mi a nemparaméteres próbák közötti különbség? Mire

vonatkozhatnak a hipotézisvizsgálat alkalmazási feltételei?

2. Mi tekinthető független és mi páros mintának?

3. Jellemezze a megismert nemparaméteres próbákat! (típusok, alkalmazási feltételek,

nullhipotézisek)

4. Jellemezze a megismert egymintás próbákat! (típusok, alkalmazási feltételek,

nullhipotézisek)

5. Jellemezze a megismert kétmintás próbákat! (típusok, alkalmazási feltételek,

nullhipotézisek)

6. Jellemezze a megismert többmintás próbákat! (típusok, alkalmazási feltételek,

nullhipotézisek)

65,1szz 66,1szt


141

7. Korreláció- és regressziószámítás

7.1 Kapcsolatok jellege34

A társadalmi, a műszaki és a gazdasági jelenségek törvényszerűségeit nemcsak önmagunkban,

hanem a jelenségekkel szoros kapcsolatban lévő más tényezők összefüggésében is

vizsgálhatjuk. Az eddigi fejezetekben a véletlen tömegjelenségek leírását mindig egy már

bekövetkezett állapot valószínűségelméleti, matematikai-statisztikai vizsgálatával végeztük el.

Az ún. összefüggés-vizsgálatok során arra keressük a választ, hogy egy adott állapot milyen

tényezők hatására jött létre, az egyes tényezők milyen mértékben befolyásolják a jelenség

alakulását, a tényezők milyen szoros kapcsolatban vannak egymással.

Két ismérv között háromféle kapcsolat lehetséges:

1. a két ismérv független egymástól (ha a változók között nincs összefüggés, vagyis az

egyik ismérv szerinti hovatartozásból nem következtethetünk a másik ismérv

változatára)

2. a két ismérv között sztochasztikus kapcsolat van

3. a két ismérv között függvényszerű (determinisztikus) kapcsolat van (ha az egyik ismérv

változata minden esetben a másik ismérv adott változatával fordul elő, azaz az egyik

ismérv által felvett ismérvváltozat ismeretében egyértelműen lehet következtetni a

másik ismérv által felvett értékre)

A sztochasztikus kapcsolat a függetlenség és a determinisztikus kapcsolat között foglal helyet.

Ilyen kapcsolat esetén az egyik ismérv változathoz való tartozásból csak tendenciaszerűen,

valószínűségi jelleggel következtethetünk a másik ismérvváltozatra. Más szóval a

sztochasztikus kapcsolat lényege az, hogy a megfigyelt sokaság egységeinek egyik ismérv

szerinti milyenségét, hovatartozását ismerve levonható ugyan bizonyos következtetés az

egységek másik ismérv szerinti hovatartozásáról, de ez a következtetés nem teljesen

egyértelmű (pl. a munkanélkülivé válás esélye és az iskolai végzettség közötti kapcsolat vagy

a biztonsági öv használata és a baleset súlyossága közötti kapcsolat).

Az ismérvek közötti kapcsolat elemzésekor a következő három kérdésre keressük a választ:

1. Van-e kapcsolat a vizsgált ismérvek között?

2. Milyen szoros a kapcsolat? (a két szélsőség, vagyis a függetlenség és a függvényszerű

kapcsolat között hol helyezkedik el; egy kapcsolat annál lazább/gyengébb, minél

közelebb van a függetlenséghez, és annál erősebbnek/szorosabbnak mondható, minél

közelebb áll a függvényszerű kapcsolathoz)

3. Hogyan lehet felhasználni az ismérvek közötti kapcsolat természetének ismeretét arra,

hogy egy adott egység bizonyos ismérvek szerinti milyenségéből következtessünk

annak más ismérvek szerinti hovatartozására?

E kérdések megválaszolásának módja attól függ, hogy a sokaság egységeit egyidejűleg hány

ismérv, illetve milyen fajta (milyen mérési szinten mért változók) szerint vizsgáljuk.

34

Az alfejezet Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996 felhasználásával

készült.


142

Most kizárólag két ismérv fajtája (a változók mérési szintje) szerint a következő eseteket

különböztetjük meg:

asszociációs kapcsolat: az egymással kapcsolatban álló ismérvek minőségi vagy

területi ismérvek (mindkét változó nominális mérési szintű)

rangkorrelációs kapcsolat: mindkét változó sorrendi skálán mérhető

vegyes kapcsolat: az egyik vizsgált ismérv mennyiségi ismérv, a másik területi vagy

minőségi ismérv (az egyik változót intervallum- vagy arányskálán, a másik változót

meg nominális skálán mértük)

korrelációs kapcsolat: mindkét vizsgált ismérv mennyiségi ismérv (mindkét változó

intervallum- vagy arányskálán mérhető)

E négy eset megkülönböztetése azért fontos, mert az ismérvek közötti kapcsolat elemzésének

három alapvető kérdése a megjelölt esetekben más-más eszközökkel vizsgálható. Az

asszociációs kapcsolatról már szóltunk a függetlenségvizsgálat során, a vegyes kapcsolatot

elemeztük a heterogén sokaságok jellemezése kapcsán. A rangkorrelációs kapcsolat elemzése

nem tárgya jegyzetünknek. Most a korrelációs kapcsolat bemutatása és jellemzése a

következő alfejezetek tárgya.

7.2 A korrelációs kapcsolat szemléltetése

A nagyobb számítási munkát igénylő matematikai módszerek alkalmazása előtt a kapcsolat

létezésére vonatkozó szakmai feltevésünket grafikus ábrázolással célszerű szemléltetni. Az

ún. szóródás-diagramon az xi; yi értékpárok által meghatározott pontdiagram, illetve

empirikus regressziófüggvény szemlélteti a kapcsolatot. A diagram segítségével elsődleges

információt szerezhetünk a kapcsolat meglétéről vagy hiányáról, a kapcsolat szorosságáról,

jellegéről és irányáról is (lásd 27. ábra).

27. ábra: Pontdiagramok

3 2 1 0-1-2-3

3

2

1

0

-1

-2

-3

Pozitív korreláció

R-Sq = 62.5 %

Y = -8.6E-02 + 0.690286X

-3 -2 -1 0 1 2 3

-3

-2

-1

0

1

2

3

Negatív korreláció

Y = 5.07E-02 - 0.647872X

R-Sq = 70.9 %

-3 -2 -1 0 1 2 3

0

10

20

30

40

Nem lineáris korreláció

Y = 12.0958 + 6.07684X + 1.16686X**2

R-Sq = 88.4 %

-2 -1 0 1 2

-3

-2

-1

0

1

2

3

Nincs korreláció

Y = -7.4E-02 + 0.208348X

R-Sq = 3.4 %


143

Ha a pontok vonulási iránya (képzeletbeli tengelye) felfelé mutat, pozitív korrelációról

beszélünk (növekvő xi értékekhez növekvő yi értékek tartoznak), ellenkező esetben a

korreláció negatív. A görbevonali korreláció azt jelzi, hogy nem lehet minden korrelációt

egyértelműen pozitívnak, vagy negatívnak tekinteni. Ha a pontok közel helyezkednek el

egymáshoz (ill. a kapcsolat jellegét mutató függvényhez) szoros, ha távolabb, gyengébb

kapcsolatot sejthetünk az ismérvek között.

7.3 Korreláció- és regresszióelemzés alapjai

A korreláció- és regressziószámítás a statisztika két, egymással szorosan összefüggő területét

képezi. Ebben a fejezetben a mennyiségi ismérvek közötti kapcsolatvizsgálat eszközeivel

fogunk megismerkedni.

A mennyiségi ismérvek közötti sztochasztikus összefüggést korrelációnak nevezzük.

Ilyen összefüggés van pl. a háztartások egy főre jutó jövedelme és egy főre jutó fogyasztása

között, vagy pl. a termékek ára és a termék minőségét jellemző paraméterek között. A

korrelációs kapcsolatok statisztikai módszerekkel végzett elemzésével nagymértékben

gazdagíthatjuk a jelenségeikről és összefüggéseikről alkotott ismereteinket.

A korrelációszámítás intervallum-, vagy arányskálán mért változók kapcsolatainak

vizsgálatával foglalkozik, elemzi a kapcsolat meglétét, szorosságát és irányát.

A regressziószámítás az összefüggésekben lévő tendenciát vizsgálja, és a kapcsolat

természetét valamilyen függvénnyel írja le.

Így a kapcsolat megléte esetén annak formáját, jellegét, minőségi jellemzőit vizsgálja, és

alkalmas arra, hogy a változók közötti kapcsolat segítségével mélyebb ismereteket szerezzünk

a vizsgált változókról, illetve hogy a kapcsolat felhasználásával statisztikai következtetéseket

vonjunk le. Hangsúlyozni kell azonban, hogy a korrelációs és regressziós számítás a

kapcsolatot jellemzi, de semmit nem mond az oksági viszonyról. Tehát két, vagy több változó

közötti sztochasztikus kapcsolat megállapításából nem következik, hogy a változók oksági

összefüggésben vannak, azaz, hogy egyik tényező változása oka a másik tényező változásának.

Az oksági kapcsolatot csak alapos szakmai és statisztikai vizsgálattal lehet megállapítani.

Egy adott korrelációs összefüggés elemzésénél általában mind a kétfajta vizsgálódásra

szükség van, mivel a regresszió- és korrelációszámítással nyert információk más kérdésekre

adnak választ, kiegészíthetik egymást.

Általában megkülönböztetünk kétváltozós és többváltozós eseteket.

Kétváltozós esetben két változó kapcsolatát vizsgáljuk, mely két változó közül az egyik (legyen

X) magyarázza a másik Y-nal jelölt eredményváltozó alakulását. A kétváltozós regresszióban

így egy magyarázó változó áll szemben egy eredményváltozóval.

Többváltozós esetben abból indulunk ki, hogy egy eredményváltozót több magyarázó változó

ír le.

A regressziószámítás lényege az, hogy egy jól definiált sokaságban két vagy több változó

között sztochasztikus kapcsolatot tételezünk fel, és ezt a kapcsolatot szeretnénk leírni és

megragadni annak érdekében, hogy a vizsgált sokaság tulajdonságait statisztikailag jobban

megismerjük. Általában azzal a helyzettel állunk szemben, hogy a megfelelő sokasági

összefüggéseket mintákból kell meghatározni.


144

A regressziószámítás során feltételezzük, hogy eredményváltozónk (Y) sztochasztikus

kapcsolatban áll a magyarázó változókkal (X). Ennek általános formája:

),,...,,...,,( 21 kj XXXXfY

Ebben az esetben k számú magyarázó változót feltételeztünk, az ε maradékváltozó pedig azt

fejezi ki, hogy a kapcsolat sztochasztikus, azaz a függvény szerves részét képezi egy

valószínűségi változó is. Ennek az általános függvényformának a leggyakoribb és

legkényelmesebben alkalmazható formája a lineáris regresszió.

A többváltozós lineáris regressziós függvény általános alakja:

kkjj XXXXY ......22110

Ebben az alakban k számú magyarázó változó, egy eredményváltozó és egy maradékváltozó

van. A modellben k+1 számú paraméter van, hiszen a legelső paraméter az egyenlet konstans

változójának együtthatója. Ezt az általános k+1 változós modellt gyakran alkalmazzuk a k=1

esetre, amikor tehát egy magyarázó változó, egy eredményváltozó és két paraméter jellemzi a

kapcsolatot.

Ezt az esetet nevezzük kétváltozós lineáris regressziós modellnek:

XY 10

Feltételezzük tehát, hogy az X magyarázó változó és az Y eredményváltozó között lineáris

sztochasztikus kapcsolat van, és ez a kapcsolat a fenti formulával írható le. Az összefüggés

sztochasztikus jellegéből következik, hogy pl. ha egy rakomány elszállításánál vizsgáljuk a

szállítási idő és a távolság kapcsolatát, a szállítási távolság bármely rögzített értékéhez tartozó

menetidők nem lesznek azonosak. A szállítás idejét ugyanis a távolságon kívül befolyásolja

pl. a rakomány súlya, a gépkocsi típusa, az időjárási és útviszonyok, a forgalmi helyzet stb.

Az ε az X-szel együtt fellépő véletlen hatás.

7.3.1 A kétváltozós regressziós modell

A továbbiakban tehát az XY 10 összefüggést szeretnénk egy n elemű halmazból

(mintából) felépíteni.

Az X magyarázó és Y eredményváltozó közötti összefüggések lényegének megragadásában

fontos szerepet játszik a grafikus ábrázolás. Kétváltozós kapcsolat esetén könnyen

elkészíthető az ilyen grafikus ábra, hiszen a derékszögű koordináta-rendszer vízszintes

tengelyére az X magyarázó változó értékeit, a függőleges tengelyére pedig az Y

eredményváltozó értékeit mérjük fel. Egy ilyen példát mutat az alábbi ábra:


145

28. ábra: Példa grafikus ábrázolásra egy kétváltozós regressziós modellben

A változók (X magyarázó és Y eredményváltozó) közötti összefüggés feltárásához fontos,

hogy a fenti ábrán látható pontok vonulási irányát valamilyen ismert függvénnyel fejezzük ki,

vagyis lényegében arról van szó, hogy keressük a pontokra illesztett egyenes egyenletét.

Ha a pontok vonulási irányát egy egyenessel jellemezzük, akkor a változók közötti

összefüggést leíró függvényt lineáris regressziós függvénynek nevezzük. Az ábrán a

gépkocsik által megtett km (X magyarázó változó, lásd vízszintes tengely) és az eladási ár (Y

eredményváltozó, lásd függőleges tengely) közti kapcsolat látható, ami alapján ránézésre az

állapítható meg, hogy a gépkocsi eladási ára és a megtett km között negatív, lineáris jellegű

sztochasztikus kapcsolat van, azaz az árban egyéb tényezők is szerepet játszanak, melyeket itt

összességében a véletlennel azonosítunk.

A lineáris regressziós függvény meghatározása során arra törekszünk, hogy olyan egyenessel

jellemezzük a változók közötti kapcsolatot, amely legjobban illeszkedik a megfigyelésből

származó X, Y adatpárokhoz. A sztochasztikus kapcsolatnál azonban számos egyenes szóba

jöhet a kapcsolat jellemzésére, ezek közül azt az egyenest célszerű választani, amelyik

esetében a pontoknak a regressziós egyenestől mért átlagos távolsága a legkisebb. Ehhez a

legkisebb négyzetek becslési módszerét használják a leggyakrabban (lásd 4.4 A pontbecslés

módszerei c. alfejezetet).

A függő vagy eredményváltozó (Y) és a magyarázó változó (X) kapcsolatát n megfigyelésből

származó adatpár alapján vizsgáljuk.

A függő és a magyarázó változó mintabeli értékei:

nYYY ,...,, 21

nXXX ,...,, 21

A minta alapján a becsült regressziófüggvény:

XY 10ˆ

A legkisebb négyzetek módszerének értelmében keressük a regressziófüggvény azon β0, β1

paramétereinek azon becslését ( 0 és 1 ), amely mellett a megfigyelésből származó és a

regressziófüggvény alapján becsült Y értékek különbségének az eltérésnégyzet-összege a

legkisebb.

A futásteljesítmény és az eladási ár kapcsolata

0

200

400

600

800

1000

1200

1400

1600

0 20 40 60 80 100 120 140

ezer km

ezer

Ft

A futásteljesítmény és az eladási ár kapcsolata

0

200

400

600

800

1000

1200

1400

1600

0 20 40 60 80 100 120 140

ezer km

ezer

Ft


146

min)ˆ( 2

1

i

n

i

i YY

A regressziófüggvényt behelyettesítve a célfüggvénybe:

min)ˆˆ( 2

10

1

i

n

i

i XY

A 0 és

1 paramétereket a szélsőérték-számítás szabályai alapján lehet meghatározni. Az

előző egyenlet 0 és

1 szerinti parciális deriváltjait vesszük, és ezeket nullával tesszük

egyenlővé. Így jutunk el az ún. normál egyenletekhez.

ii xnY 10ˆˆ

2

10ˆˆ iiii XXYX

E normál egyenletek megoldásával a 0 és 1 paraméterek meghatározhatóak.

Az egyenletrendszer megoldása különböző módszerekkel végezhető el. A leggyakrabban

alkalmazott módszer az, hogy a fenti két egyenletet úgy transzformáljuk, hogy az eredeti X és

Y változókat az átlaguktól vett eltéréseikkel, vagyis XXd x és YYd y eltérésekkel

helyettesítjük.

A normál egyenletek e transzformált változókkal felírva:

xy dnd 10ˆˆ

2

10ˆˆ xxyx dddd

Mivel 0yx dd , a 1 paraméter:

n

i

x

n

i

yx

n

i

n

i

d

dd

XX

YYXX

1

2

1

1

2

11

)(

)()(

A 0 paraméter:

XY 10ˆˆ

A regressziófüggvény:

XY 10ˆˆˆ

A 1 regressziós együttható jelentése az, hogy a magyarázó változó egységnyi növekedése a

becsült eredményváltozó átlagosan hány egységnyi növekedésével/csökkenésével jár együtt.

Az ún. tengelymetszet paraméter, vagyis 0 jelentése az, hogy ha a magyarázó változó 0

értéket vesz fel, a modell szerint mekkora lesz az eredményváltozó értéke.

A regressziós együtthatók természetes mértékegységben jellemzik a két változó kapcsolatát.

Előfordul azonban, hogy a kapcsolat jobban leírható olyan mutatóval, amelyik azt mondja

meg, hogy a magyarázó változó 1%-os növekedése az eredményváltozó hány %-os

növekedésével/csökkenésével jár együtt. Erre a célra használható a rugalmasság mutatója:

Y

X

X

Y

X

X

Y

YXYEL

),(


147

Ezt a formát szokták ívrugalmasságnak is nevezni, a gyakrabban használt pontrugalmasság

végtelen kis elmozdulás esetén vizsgálja a változók kapcsolatának %-os formában kifejezhető

mutatószámát:

Y

X

dX

dYXYEl ),(

Kétváltozós esetben az előző egyenletbe beírva a becsült regressziós paramétereket, a

következő egyszerű formát kapjuk:

x

x

y

xxyEl

10

11

ˆˆ

ˆ

ˆ

ˆ),ˆ(

Az eredmény értékelésekor arra kell figyelni, hogy az nem állandó, hanem x függvénye, azaz

lineáris regresszió esetén a változók kapcsolatát %-os formában kifejező rugalmassági mutató

értéke attól is függ, hogy az elmozdulás milyen szintről történik. A rugalmassági együttható

értelmezése: az x változó adott szintről kiinduló 1%-os növekedése mekkora növekedés jelent

y -ban.35

A következő lépés az elemzés során a regressziós függvényértékek meghatározása. Ez a

paraméterbecslések után adódik, hiszen:

xy 10ˆˆˆ

Ez az egyenlet valójában a mintából számított regressziós függvényt adja meg, ami maga az

ismeretlen és keresett sokasági regressziós függvény becslése. Csak a mintán belül maradva

azonban ez a függvény alkalmas a megfigyelési pontokhoz tartozó regressziós

függvényértékek számítására. Ennek tartalma az, hogy az adott megfigyelési pontban (az

annak megfelelő x helyen) becsült modellünk szerint mi lenne a vizsgált eredményváltozó

értéke. A függvény segítségével meghatározhatjuk az eredményváltozó értékét olyan x

helyeken, amelyek belül vannak ugyan a vizsgálat tartományán, de közvetlen megfigyelés

nincs rájuk. Ekkor interpolációt végzünk. Ha olyan pontokra becsülünk a függvénnyel,

amelyek kívül esnek a megfigyelés tartományán, akkor extrapolációról beszélünk. Ezt

bizonyos esetekben előrejelzésnek tekintjük, ami a regressziós modellszámítások fontos

végeredménye.

29. ábra: Interpoláció és extrapoláció

35

Leggyakrabban keresleti, fogyasztási függvényeknél használják, a fogyasztás becslésekor, tervezésekor fontos

mutatószám az ár-, ill. jövedelemrugalmassági együttható.

x

Megfigyelési tartomány

Interpoláció

Extrapoláció

x

Megfigyelési tartomány

Interpoláció

Extrapoláció


148

A becsült regressziós függvény segítségével a megfigyelési pontokban meghatározhatjuk a

reziduumok értékeit:

iii eyy ˆ

A reziduumok a mintából származó megfigyelések és a regressziófüggvény által becsült

függvényértékek közötti különbséget adják.

30. ábra: A reziduumok szemléltetése

Az ei maradékok igen fontos szerepet játszanak a modellezésben: megmutatják, hogy a modell

mennyire tudott közel jutni a valósághoz, hiszen ei kis értékei jó, nagy értékei pedig gyenge

illeszkedésre utalnak, és ez egy igen fontos kritérium a modell megítélésekor.

Ezért célszerű az ei maradékokból egy olyan mutatót képezni, amelyik tömören, egyetlen

számértékbe sűrítve tartalmazza az illeszkedés jellemzőit. A maradékok összege erre nem

alkalmas, hiszen azok algebrai összege 0. Leggyakrabban négyzetösszegüket képezik, ami

valójában az eredeti megfigyelések és a becsült modellértékek eltérésének négyzetösszege:

n

i

ieSSE1

2

Az illeszkedés jellemzésére ennek a mutatónak a normált alakját használják. Ha ezt a

négyzetösszeget n-nel elosztjuk, akkor a mintán belüli reziduális varianciát kapjuk meg,

aminek négyzetgyöke a reziduális szórás:

n

e

s

n

i

i

e

1

2

Reziduális szórás (regressziós becslés abszolút hibája): ez a mutató egyfajta szóródásmutató,

és a regressziós becslés során elkövetett hiba egyik gyakran alkalmazott mérőszáma. Kifejezi,

hogy a regressziós becslések átlagosan mennyivel térnek el az eredményváltozó megfigyelt

értékeitől.

A reziduális szóródás becslésére az alábbi torzítatlan becslést is használják:

iy

iii eyy ˆ

xix

y

yi

ei2 minimum


149

2n

)yy(

2n

e

s

n

1i

2

ii

n

1i

2

i

e

Az

es az Y egyedi értékeknek az Y regressziós függvény szerinti érték körüli ingadozását

fejezi ki. Értékét a gyakorlatban nem ismerjük, ezért a mintabeli adatok alapján becsüljük.

Ebben a képletben yye iiˆ ”maradéktag”, vagy más néven becsült reziduum,

n

i

ie1

2 az a

reziduális négyzetösszeg, amelynek nagyságát a legkisebb négyzetek módszerével történő

becslés során minimalizáljuk. Elméleti megfontolásból, a torzítatlanság követelményének

teljesülése végett a négyzetösszeget a szabadságfokkal korrigáljuk, ami jelen esetben (n-2).

Így elérjük, hogy

es torzítatlan becslőfüggvénye lesz az alapsokasági varianciának.

Mivel az analitikus regresszió az elméleti regresszió mintából számított becslése, ezért a

regressziófüggvény paraméterei ( 10ˆ,ˆ ) a valóságos β0 és β1 paraméterek becsült értékei. A

mintából számított regressziós paraméterek – mint minden reprezentatív mintából származó

becsült paraméter – szóródnak az elméleti értékek körül. Ezt a szóródást az együtthatók

standard hibái fejezik ki. Így a regressziós együtthatók hibái:

A β0 (vagy b0) paraméter standard hibája:

2

x

2

eˆd

x

n

1ss

0

A β1 (vagy b1) paraméter standard hibája:

2

x

eˆ

d

ss

1

A hiba másik forrása az, hogy a vizsgált ismérvek között sztochasztikus kapcsolat van (lásd

es ). Y-nak X szerinti regressziós becslése nem a tényleges Y értékeket, hanem annak csak az

X-től függő részét adja. A tényleges és a regressziófüggvénnyel becsült értékek eltérése miatt

beszélhetünk a regressziófüggvény, illetve a regresszióértékek hibájáról. Az eltérések

nagyságát értelemszerűen befolyásolja a kapcsolat szorossága. Szoros korreláció esetén a

becsült értékek jól közelítik az eredményváltozó értékeit, laza kapcsolatnál viszont a kétféle

érték között – az Y-t befolyásoló egyéb tényezők jelentős súlya miatt – nagy eltérések

mutatkoznak.


150

7.3.2 Korrelációs mérőszámok

A következő lépés a kapcsolat szorosságának és irányának a vizsgálata a mintán belül. Ennek

során arra keressük a választ, hogy a két változó milyen szoros és milyen irányú kapcsolatban

áll egymással.

7.3.2.a Kovariancia

A mintából számított (becsült) kovariancia a magyarázó és az eredményváltozó között:

n

ddyx

yx),cov(

A vizsgált ismérvek függetlensége esetén a kovariancia 0 értéket vesz fel. Ha az ismérvek

pozitív korrelációs kapcsolatban állnak egymással, vagyis X változó átlagnál magasabb

(alacsonyabb) értékéhez az Y változónak is általában átlagnál magasabb (alacsonyabb)

értéke tartozik, a kovariancia értéke pozitív előjelű lesz. Negatív korrelációnál a kovariancia

előjele is negatív, mert ilyenkor tendenciájában igaz lesz, hogy amennyiben X értéke átlag

alatti, Y értéke átlag feletti, azaz az átlagtól vett eltérések szorzata általában negatív lesz.

7.3.2.b Lineáris korrelációs együttható

A kovariancia mérőszáma a függetlenséget is jól jelzi, nagyságát azonban a változók

mértékegysége befolyásolja. Célszerű a kapcsolat erősségének a mérésére normált, 0 és 1

intervallumban elhelyezkedő mérőszámot alkalmazni. Ilyen mérőszámot kapunk, ha a

kovarianciát standardizált változók alapján számítjuk.

A korábbiakhoz hasonlóan állíthatjuk elő a két változó mintabeli varianciáját:

n

dsx

x

x

2

2)var( és n

dsy

y

y

2

2)var(

Ezek segítségével felírható a lineáris korrelációs együttható a két változóra (ha

)0)var()var( yx

22)var()var(

),cov(

yx

yx

dd

dd

yx

yxr

A mintabeli „r” korrelációs együttható olyan -1 és +1 között elhelyezkedő mutatószám,

amelyik 1-hez közeli abszolút értékei szoros, közel lineáris függvényszerű kapcsolatot, 0 körüli

értékei a lineáris kapcsolat hiányát, ún. korrelálatlanságot jelentik.

A korrelációs együttható pozitív értékei egy irányban mozgó, míg a negatív értékei ellentétes

irányban mozgó változókat jelentenek. A korrelációs együttható a két változó kapcsolatának

mérőszáma.

7.3.2.c Determinációs együttható

A következő mutató a kétváltozós regressziós modell egészének illeszkedését méri. Ennek

származtatásához írjuk fel a kétváltozós lineáris modellre vonatkozó varianciafelbontást. A

belső négyzetösszeg szerepét a megfigyeléseknek a regressziós egyenestől vett eltéréseiből

számított négyzetösszeg veszi át, a külső négyzetösszeget pedig a regressziós egyenes

pontjainak saját átlaguktól vett eltérése határozza meg. A kettő összegeként adódik a teljes

négyzetösszeg.


151

Ebben az esetben a regressziós egyenes az, ami a csoportosítást végzi: a regressziós

egyenesnek a megfelelő xi pontokhoz tartozó értékei alkotják a csoportátlagokat. Ha a

megfigyelések pontosan rajta vannak az egyenesen, akkor a belső négyzetösszeg 0, és a teljes

négyzetösszeget kizárólag a külső tényező, azaz a regresszió magyarázza. Ha ellenben a

megfigyelések jócskán eltérnek a regressziós egyenestől, akkor a belső eltérés-négyzetösszeg

nagy lesz, és tekintve, hogy a teljes négyzetösszeg (SST) állandó, a külső viszonylag

kevesebbet magyaráz. A külső négyzetösszeget így regressziós, vagy magyarázott

négyzetösszegnek (SSR) is szokták nevezni, míg a belső négyzetösszeg az, amit nem tudunk

a regresszióval magyarázni, a maradék-vagy hibanégyzetösszeg (SSE).

SSRSSESST

Ebből képezhető a determinációs együttható, ami megmutatja, hogy a regressziós modellel

az yi adatokban meglévő variancia (bizonytalanság) hány %-a szüntethető meg:

SST

SSE

SST

SSRR 12

Ezt a %-os értelmezésű mutatót a modell magyarázó erejének szokás nevezni. Értékei 0 és 1

között mozoghatnak: nagy, 1-hez közeli értékei jó illeszkedést, nagy magyarázó erőt, kis, 0-

hoz közeli értékei gyenge modellteljesítményt jeleznek.

7.3.3 Intervallumbecslés

A regressziós modell feltételeinek rögzítése és a paraméterek becslőfüggvényének

kidolgozása után lehetővé válik, hogy összefüggést teremtsünk a mintából becsült

paraméterek és az elméleti, alapsokasági paraméterek között. Így módunkban áll a

gyakorlatban egyetlen mintából következtetni az alapsokasági paraméterekre. A regressziós

paraméterek pontbecslése után intervallumbecslés is adható.

Intervallumbecslést szoktunk adni a paraméterekre, és gyakrabban pedig a függvényértékekre

(ez utóbbiaktól mi eltekintünk). Ami a paramétereket illeti, a priori felírhatók a

becsléselméletből ismert összefüggések.

1ˆ2/1111 s)2n(tˆ)(Int

0ˆ2/1001 s)2n(tˆ)(Int

A konfidencia intervallumok értelmezése teljesen analóg azzal, amit korábban megismertünk:

az itt számított intervallumok 95%-os megbízhatósággal lefedik az ismeretlen sokasági

paramétert (α=5% mellett). A 95%-os megbízhatóság annyit jelent, hogy ismételt mintavétel

esetében az esetek 95%-a olyan intervallumot eredményez, amelyik tartalmazza az ismeretlen

jellemzőt.


152

7.3.4 A regressziófüggvény eredményeinek ellenőrzése: hipotézisvizsgálatok

A regressziófüggvény illesztésének logikai feltétele, hogy a vizsgált változók között

korrelációs kapcsolat legyen. Korreláció fennállása esetén a függvény regressziós

együtthatója 0-tól különbözik. Előfordulhat azonban, hogy a korreláció hiánya esetén sem

kapunk pontosan 0 értéket. A véletlen mintából származó eredményeket ugyanis a véletlen

hatások is befolyásolják. E véletlen hatások következtében a regressziós együttható értéke

akkor is eltérhet 0-tól, ha a két változó között semmilyen kapcsolat nincs. Ha az elméleti

regressziót analitikus függvénnyel a mintából közelítjük, felvetődik a paraméterek

hipotézisellenőrzésének gondolata.

Így amennyiben a regressziószámítást mintavételi keretek közt értelmezzük, lehetőségünk van

arra, hogy a mintából ellenőrizzünk egy sor feltevést, amelyek a számítások eredményének

értékelését segítik. Hipotézisvizsgálattal ellenőrizhető az, hogy a magyarázó változó

kapcsolatban áll-e az eredményváltozóval, annak magyarázatához érdemben hozzájárul-e. A

másik fontos kérdés, hogy a magyarázó változó elegendően magyarázza-e az

eredményváltozót, kell-e esetleg azon gondolkozni, hogy a jelenség jobb leírása érdekében

további változókat kell felkutatni és beépíteni a modellbe. E két kérdés mellett fontos azt is

vizsgálni, hogy vajon a modellezésnek a maradékváltozóra tett feltételei megerősíthetők- vagy

elutasítandók-e (homoszkedaszticitás, autokorreláció mentesség, normális eloszlás). Ezek

azok az alapkérdések, amelyet minden regressziós modellben vizsgálni kell.

7.3.4.a Paraméterek szeparált tesztelése

Itt arra keressük a választ, hogy a paraméterek eleget tesznek-e valamiféle előre

meghatározott korlátozásnak. Általában a hipotéziseink úgy írhatók fel, hogy )0(

110 :H és )0(

110 :H

ahol az általunk feltételezett paraméterérték a )0(

1 -ban jelenik meg. Ezt a próbát akkor

használhatjuk, ha a regressziós függvény sokasági meredekségére van ellenőrizni kívánt

feltevésünk.

Azonban többször ennél egyszerűbb a kérdés: ha ugyanis azt feltételezzük, hogy 0)0(

1 ,

akkor a nullhipotézis elfogadása azt jelenti, hogy a meredekségi paraméter sokasági értéke

lehet 0, ami azt jelenti, hogy X alakulása nem befolyásolja Y-t, azaz a két változó között nincs

a sokasági szinten is fennálló lineáris kapcsolat.

Ez egyben azt is jelenti, hogy a kétváltozós regressziós modell nem jó, az eredményváltozót

érdemesebb a saját átlagával, mintsem az aktuális X-szel becsülni. E próba hipotézisei:

0:H 10 és 0:H 10

A paraméterek tesztelése t-próbával történik.

1

1ˆ

st

A próba menete az, hogy mintából kiszámoljuk a becsült paraméterértékeket, annak standard

hibáját, és amennyiben ez a hányados a kritikus t-értékeken kívüli (elutasítási) tartományba

esik, a nullhipotézist elutasítjuk, azaz elfogadjuk a kapcsolat létét, és megerősítjük X-et

magyarázó változó szerepében. A számított értéket adott α szignifikancia szinten és (n-2)

szabadságfokhoz tartozó kritikus értékhez viszonyítjuk. Amennyiben az empirikus t-érték az

elfogadási tartományba esik, akkor nincs okunk elutasítani a nullhipotézist, ez pedig azt


153

jelenti, hogy elvetjük az X-et, mint magyarázó változót, és/vagy másik magyarázatot

keresünk, vagy pedig lemondunk a regressziós magyarázatról.

Elvben teljesen hasonló t-próba készíthető a másik (β0) paraméterre is, bár ennek jelentősége

kisebb, mivel nem tulajdonítanak neki magyarázó erőt a modellben, mint illeszkedést javító

paramétert általában megtartják akkor is, ha sokasági értéke nem különbözik szignifikánsan 0-

tól.

7.3.4.b Varianciaanalízis alkalmazása a regressziószámításban

A regressziós együttható tesztelése mellett magának a regressziófüggvénynek a

hipotézisellenőrzése is elvégezhető. Ez varianciaanalízissel történhet.

A másik kérdés, amit hipotézisvizsgálattal szeretnénk megválaszolni az az, hogy vajon a

regresszió minden hatást megragad-e, és a modell által adott magyarázat elégséges-e?

Lineáris modellek esetében ez a kérdés általában úgy merül fel, hogy az R2 determinációs

együttható elegendően nagy-e? Mivel kétváltozós esetben a determinációs együttható a

korrelációs együttható négyzetével egyenlő, a determinációs együttható tesztelése is

ekvivalens lesz annak vizsgálatával, hogy a két változó között van-e szignifikánsan 0-tól

különböző kapcsolat. Ez pedig azt jelenti, hogy kétváltozós lineáris modell esetében ezt a

feladatot a t-próba segítségével már megoldottuk.

Most azonban mégis bemutatunk egy másik tesztet, ami varianciaanalízisen alapul. Ennek

alkalmazása kétváltozós esetben egyszerű, többváltozós esetben elválik a t-próbától és a

modell jóságát, az illeszkedést vizsgálja.

Elsőként írjuk fel az eredményváltozó és a magyarázó változó közötti összefüggést az i-edik

megfigyelésre:

iii eyy ˆ

iii exy 10ˆˆ

(vagyis a megfigyelt Y érték (X=xi) = az xi-hez tartozó regressziós becslés + a maradéktag)

Megállapíthatjuk, hogy maradéktag összege nulla, ez az első (korábban bemutatott)

normálegyenlet átrendezése után belátható:

n

i

n

i

iii exy1 1

10 )ˆˆ(

Ebből következik, hogy:

n

i

n

i

n

i

iii yxy1 1 1

10ˆ)ˆˆ(

Ez azt jelenti, hogy a regressziós becslések összege és ebből következően átlaga is

megegyezik az eredményváltozó tényleges értékeinek összegével és átlagával. Az induló

összefüggésünk, tehát az átlagtól vett eltérések alapján is felírható:

)ˆ()ˆ()( iiii yyyyyy

Ez fontos összefüggés számunkra, mert kifejezi, hogy az eredményváltozó yi megfigyelt

értékeinek átlagtól való eltérése két komponenssel magyarázható, egyrészt a becsült

regressziófüggvény szóródásával, másrészt a maradéktag ingadozásával.

Az eltérések összetevőkre bontása az eltérés-négyzetösszegekre is felírható:

n

i

ii

n

i

n

i

ii yyyyyy1

2

1 1

22 )ˆ()ˆ()(

SSESSRSST

Különleges jelentősége van a reziduális négyzetösszegnek (SSE), mivel a megfigyelt yi

értékeknek a regressziófüggvény körüli szóródását fejezi ki. Ha SSE=0, ez azt jelenti, hogy a


154

függő változó teljes varianciája megmagyarázható a magyarázó változó segítségével. Minden

megfigyelt yi érték a regressziófüggvényen helyezkedik el. Egyéb tényezőknek nincs hatása

az eredményváltozóra, vagyis az ismérvek közötti kapcsolat determinisztikus. Ha SSE≠0,

akkor a két ismérv között sztochasztikus kapcsolat áll fenn. Minél nagyobb a reziduális

négyzetösszeg értéke, annál nagyobb a becslés hibája, mert a modellben nem szereplő egyéb

magyarázó változók hatása annál nagyobb szerepet játszik a függő változó szóródásában.

Nullhipotézisünk szerint a regresszió nem érvényes, a (kétváltozós esetben egyetlen) X

magyarázó változó nem magyarázza az eredményváltozó alakulását, azaz paraméterének

sokasági értéke (lehet) 0. A varianciaanalízis terminológiája szerint ez azt jelenti, hogy a

magyarázó változó szerint képzett csoportok várható értékei nem térnek el egymástól, azaz a

magyarázó változó együtthatója 0.

A hipotézisünk az előzőhöz hasonlóan:

0:H 10 és 0:H 10

Most azonban a vizsgálat eszköze a varianciaanalízis lesz. Kihasználva, hogy a regressziós és

a maradék négyzetösszegek 2 -eloszlásúak és függetlenek, felírható egy olyan változó,

amelyik eloszlását a nullhipotézis alatt ismerjük, ezért alkalmas próbafüggvénynek:

)2n,1(F~)2n/(SSE

1/SSRF

A próba végrehajtása egyszerű, hiszen a regressziós számításokból átvesszük a mintából

számított négyzetösszegeket, kiszámoljuk a fenti próbafüggvény empirikus értékét, és azt

összevetjük a megfelelő szabadsági fokú és megfelelő szignifikancia szinthez tartozó

táblázatbeli (kritikus) értékkel. Ha az F értékünk nagyobb, mint a kritikus érték, a

nullhipotézist elutasítjuk, ellenkező esetben erre nincs elég statisztikai bizonyítékunk, tehát

elfogadjuk. Az elutasítás így a modell megerősítését (jóságát) jelenti, míg az elfogadás a

modell elutasítását.

A varianciaanalízis elterjedt módszere a statisztikának, így kialakult egy olyan táblázata,

amely segítséget nyújt egyrészt a számítások elvégzéséhez, másrészt pedig az eredmények

közlését is elősegíti.

15. Táblázat: Varianciaanalízis a kétváltozós lineáris regresszióban

A variancia

forrása

Négyzetösszeg Szabadsági fok Átlagos

négyzetösszeg

F

Regresszió SSR 1

1

SSRMSR

MSE

MSRF

Maradék

(hibatényező)

SSE n-2

2n

SSEMSE

Teljes SST n-1

1n

SSTMST

A szabadságfokokról a következőket kell tudni. Az SST szabadságfoka (n-1), mert

számításához először a mintából az y -t, azaz egy paramétert kell számítani. A hibatényező

négyzetösszegének (SSE) szabadságfoka (n-2). Ennek az a magyarázata, hogy számításához


155

két paraméter ( )1,0 becslése szükséges. A regresszióból becsült négyzetösszeg (SSR)

szabadságfoka pedig a szabadságfokok közötti additív összefüggésből következik.

Korábban az illeszkedés jóságát a determinációs együtthatóval jellemeztük, ezért most a

varianciaanalízis F-próbáját is kifejezzük ezzel a mutatóval. A determinációs együttható a

regressziós és a teljes eltérés négyzetösszeg hányadosa, azaz SST

SSE

SST

SSRR 12

. Ebből

egyszerű átalakításokkal adódik, hogy:

2

2

2

2

1)2(

)1()2(

)2/(

1/

R

Rn

RSST

RSSTn

nSSE

SSR

MSE

MSRF

Az első összefüggés azt mutatja, hogy ha az MSE (a „belső” szórásnégyzet becslése) relatíve

nagy az MSR-hez (a „külső” szórásnégyzet becsléséhez) képest, a regressziófüggvény rosszul

illeszkedik a ponthalmazhoz, ami a változók közötti lineáris kapcsolat hiányára utal, és így a

nullhipotézis elfogadását támasztja alá. A fordított eset a magyarázó változó és az

eredményváltozó lineáris kapcsolatára utal. Ekkor az X és Y közötti lineáris kapcsolat hiányát

megfogalmazó nullhipotézisnek ellentmond, és így az alternatív hipotézist támasztja alá.

A második összefüggés azt mutatja, hogy a nagyobb determinációs együtthatók (melyek jobb

illeszkedést jeleznek) nagyobb F-értékeket indukálnak, ami pedig az előzőek alapján a modell

helyességének a bizonyítéka. Ez az eredmény tehát teljes mértékben konzisztens azzal a

logikával, miszerint a jó illeszkedés egyben a jó modell kritériuma is.

7.3.5 Példák korreláció és regressziószámítása

Az alábbi táblázatban 11 lakás alapterületére és eladási árára vonatkozó adatok szerepelnek,

ahol X, vagyis a magyarázó változó az alapterület nm-ben, míg Y, vagyis az

eredményváltozó, az eladási ár mFt-ban.

Lakás sorszáma Eladási ár

(Y)

Alapterület

(X)

1 24,8 83

2 34,0 88

3 40,6 117

4 40,8 120

5 45,8 177

6 47,6 164

7 50,2 186

8 52,1 192

9 56,3 191

10 74,9 233

11 80,3 211

Számítsuk ki a lineáris regressziófüggvény paramétereit! Számítsuk ki a 60nm-hez tartozó

rugalmassági együtthatót! Jellemezzük a kapcsolat szorosságát! Teszteljük a modellt!

Ha ábrázolnánk a minta adatait, az alábbi képet kapnánk!


156

A feladatunk a minta adatai alapján a regressziófüggvény előállítása:

xy 10ˆˆˆ

Ehhez a minta adatai alapján meg kell becsülnünk a regressziós paramétereket.

21

ˆ

x

yx

d

dd

Ehhez a következő segédszámításokra van szükségünk:

Az alapterületek átlagos nagysága a minta alapján:

2,16011

211...1178883

x

Az eladási árak átlagos nagysága a minta alapján:

8,4911

3,80...6,404,308,24

y

A mintaátlagok segítségével meghatározhatóak a dx és dy értékek:

xxd ix yyd iy

Az eredmények a következő táblázatban láthatóak.

291,06,25457

8,7414ˆ21

x

yx

d

dd

A tengelymetszet becslése:

18,32,160291,08,49ˆˆ10 xy

A regressziós egyenes egyenlete:

xy 291,018,3ˆ

A paraméterek közül a meredekségi paraméter jelentése az, hogy nm-enként átlagosan 0,291

mFt-tal (291 000Ft-tal) nő az eladási ár. A tengelymetszet-paraméter jelentése az, hogy

modellünk szerint a 0 nm-es lakások ára 3,18 millió Ft. E paraméter kapcsán fontos kiemelni,

hogy nem lehet neki minden esetben tárgyi jelentést tulajdonítani.

0

10

20

30

40

50

60

70

80

90

0 50 100 150 200 250

Elad

ási á

r

Alapterület


157

Lakás

sorszáma Eladási ár Alapterület dy dx dxdy dx

2

1 24,8 83 -25,0 -77,2 1926,7 5957,0

2 34 88 -15,8 -72,2 1137,8 5210,2

3 40,6 117 -9,2 -43,2 395,7 1864,7

4 40,8 120 -9,0 -40,2 360,2 1614,6

5 45,8 177 -4,0 16,8 -66,7 282,9

6 47,6 164 -2,2 3,8 -8,3 14,6

7 50,2 186 0,4 25,8 11,3 666,6

8 52,1 192 2,3 31,8 74,3 1012,4

9 56,3 191 6,5 30,8 201,4 949,8

10 74,9 233 25,1 72,8 1830,4 5302,5

11 80,3 211 30,5 50,8 1551,8 2582,5

Össz. 547,4 1762 0 0 7414,8 25457,6

Átlag 49,8 160,2

Rugalmassági együttható:

x

x

x

x

y

xxyEl

291,018,3

291,0

ˆˆ

ˆ

ˆ

ˆ),ˆ(

10

11

Ez minden x esetében más és más értéket ad. Ha rögzítjük az x értékét valamilyen szinten (pl.

60 nm-ben), akkor az elaszticitás egy konkrét értékét kapjuk eredményként:

846,060291,018,3

60291,0)60,ˆ(

xyEl

Ez azt jelenti, hogy ha a 60nm-es szintről kiindulva 1%-kal növeljük a nm-t, az eladási ár

átlagosan 0,84 6%-kal nő. Más pontokból kiindulva más rugalmassági értékeket kapunk.

Az elemzés következő lépése, hogy kiszámítjuk a regressziós egyenes pontjainak értékét,

majd a megfigyelt és a becsült értékek különbözeteként a reziduumokat.

Lakás

sorszáma Eladási ár Alapterület dy dx dxdy dx

2 dy

2 y ei

1 24,8 83 -25,0 -77,2 1926,7 5957,0 623,2 27,3 2,5

2 34 88 -15,8 -72,2 1137,8 5210,2 248,5 28,8 -5,2

3 40,6 117 -9,2 -43,2 395,7 1864,7 84,0 37,2 -3,4

4 40,8 120 -9,0 -40,2 360,2 1614,6 80,3 38,1 -2,7

5 45,8 177 -4,0 16,8 -66,7 282,9 15,7 54,7 8,9

6 47,6 164 -2,2 3,8 -8,3 14,6 4,7 50,9 3,3

7 50,2 186 0,4 25,8 11,3 666,6 0,2 57,3 7,1

8 52,1 192 2,3 31,8 74,3 1012,4 5,5 59,1 7,0

9 56,3 191 6,5 30,8 201,4 949,8 42,7 58,8 2,5

10 74,9 233 25,1 72,8 1830,4 5302,5 631,8 71,0 -3,9

11 80,3 211 30,5 50,8 1551,8 2582,5 932,5 64,6 -15,7

Össz. 547,4 1762 0 0 7414,8 25457,6 2669,1

Átlag 49,8 160,2


158

Az első sorban, az y oszlopban megjelenő 27,3 mFt azt jelenti, hogy modellünk szerint a

83nm alapterületű lakások átlagosan ilyen áron kelnek el. A maradék oszlopában 27,3-

24,8=2,5mFt áll, ami azt jelenti, hogy a megfigyelésünkben szereplő lakás az átlagos,

modellből következő árnál 2,5mFt-tal olcsóbban kelt el, ami feltehetően egyebek közt az

átlagosnál rosszabb állapotának tudható be. A reziduumok oszlopának algebrai összege 0, ami

azt jelenti, hogy az egyenestől vett eltérések kioltják egymást.

Amennyiben a regressziós egyenessel a megfigyelési intervallumon kívülre is szeretnénk

következtetni, extrapolációt végzünk. Ha pl. azt vizsgáljuk, hogy várhatóan milyen áron

kelnek el a 250nm alapterületű lakás, akkor x=250-et behelyettesítve a regressziós egyenletbe:

93,75250291,018,3ˆ y

Tehát egy 250 nm alapterületű lakás esetében kb. 76 mFt eladási árra lehet számítani.

Emlékeznünk kell arra, hogy ezek a számítások mind azzal a feltétellel készültek, hogy az

eladási árat csak az alapterülettel magyarázzuk. Az árnak emellett természetesen egy sor

egyéb összetevője lehet (pl. a lakás fekvése, közlekedési lehetőségek, parkolás, igényel-e

felújítást, melyik utcában van stb.). Ezek persze lényeges tényezők, de a mostani példánkban

rejtve maradnak és csupán a maradékváltozóban jelennek meg, mint az egyéb tényezők

összetett hatása.

A lineáris korrelációs együttható:

Az előző táblázatban szereplő számítások alapján könnyen megadható a lineáris korrelációs

együttható konkrét értéke:

9,01,26696,25457

8,7414

)var()var(

),cov(

22

yx

yx

dd

dd

yx

yxr

Az eredmény azt mutatja, hogy a vizsgált két változó között meglehetősen szoros, pozitív

irányú kapcsolat tapasztalható. A korrelációs együttható értéke közel áll a +1-hez, ami arra

utal, hogy a regressziós egyenes jól illeszkedik a megfigyelési pontokhoz.

A teljes eltérésnégyzet-összeg két részből áll:

n

i

ii

n

i

n

i

ii yyyyyy1

2

1 1

22 )ˆ()ˆ()(

SSESSRSST

A teljes négyzetösszeg SST nem más, mint 1,26692

yd . Ez bontható a regresszió által

magyarázott (SSR) és nem magyarázott (SSE) négyzetösszegekre.


159

Lakás

sorszáma Eladási ár Alapterület dy

2 yi ei yi - y (yi - y)

2 ei

2

1 24,8 83 623,2 27,3 2,5 -22,4 503,1 6,4

2 34 88 248,5 28,8 -5,2 -21,0 440,0 27,2

3 40,6 117 84,0 37,2 -3,4 -12,5 157,2 11,4

4 40,8 120 80,3 38,1 -2,7 -11,7 136,0 7,3

5 45,8 177 15,7 54,7 8,9 4,9 24,2 79,0

6 47,6 164 4,7 50,9 3,3 1,1 1,3 10,9

7 50,2 186 0,2 57,3 7,1 7,5 56,9 50,5

8 52,1 192 5,5 59,1 7,0 9,3 86,3 48,3

9 56,3 191 42,7 58,8 2,5 9,0 81,0 6,1

10 74,9 233 631,8 71,0 -3,9 21,2 450,3 15,3

11 80,3 211 932,5 64,6 -15,7 14,8 219,6 247,1

Össz. 547,4 1762 2669,1

0,0

2155,8 509,5

Átlag 49,8 160,2

22 )ˆ(8,21556,25457)291,0( yySSR i és 5,5092

ieSSE

Látható, hogy a teljes négyzetösszeg nagy hányadát teszi ki a magyarázott négyzetösszeg.

81,01,2669

8,21552 SST

SSRR

Ez úgy értelmezhető, hogy az eladási árban tapasztalt eltérések 81%-át magyarázni tudjuk a

lakások alapterületével. A modell magyarázó ereje 81%-os. Az eltérések maradék 19%-át

egyéb, itt nem tárgyalt tényezők befolyásolják.

Intervallumbecslés:

A regressziós becslés során elkövetett hiba:

52,7211

5,509

2

n

SSEse

Ez önmagában azt jelenti, hogy az egyes lakások ára átlagosan mintegy 7,5mFt-tal tér el attól,

amit a regressziós modellel becsülni tudnánk.

A paraméterek standard hibája:

89,76,25457

2,160

11

152,7

1 2

2

2

ˆ0

x

ed

x

nss

047,06,25457

52,7

2ˆ1

x

e

d

ss

Ezek tehát a paraméterek mintavételi szóródását kifejező mutatók.

Ha megbízhatóságot 95%-os szinten rögzítjük, akkor 262,2)9(975,0 t , a keresett konfidencia

intervallumok:

)397,0;185,0(047,0262,2291,0)2(ˆ)(1ˆ2/1111 sntInt


160

)027,21;67,14(89,7262,218,3)2(ˆ)(0ˆ2/1001 sntInt

A paraméterek szeparált tesztelése továbbra is 5%-os szignifikancia szint mellett:

A meredekségi paraméter tesztelése:

0:H 10 és 0:H 10

19,6047,0

291,01 szt

A tengelyparaméter tesztelése:

0:H 00 és 0:H 00

403,089,7

18,30 szt

Ezeket az értékeket a 12-2=10 szabadsági fokú t-eloszlás megfelelő rendű kvantiliseivel kell

összehasonlítani. Kétoldali próbáról van szó, így a )10(t 975,0 értéket táblázatból kell kikeresni.

A kritikus tartomány határai +2,262 és -2,262.

Az első empirikus t-értékünk az elutasítási tartományba esik, így ezen a szignifikancia szinten

az első regressziós paraméterre vonatkozó nullhipotézist elutasítjuk. A 1 esetében ez azt

jelenti, hogy van számottevő, lényegi modellezhető kapcsolat az alapterület és az eladási ár

között, tehát az alapterület, mint magyarázó változó releváns ebben a kapcsolatban.

A második nullhipotézist, amely a tengelymetszetre vonatkozik, elfogadjuk, mivel a számított

érték az elfogadási tartományba esik, azaz a β0 paraméter értéke nem különbözik

szignifikánsan 0-tól.

A β0 paraméterre vonatkozó tesztelés jelentősége kisebb, mivel nem tulajdonítanak neki

magyarázó erőt a modellben, de mint illeszkedést javító paramétert általában megtartják akkor

is, ha sokasági értéke nem különbözik szignifikánsan 0-tól.

Varianciaanalízis:

A nullhipotézisünk ezúttal is:

0:H 10 és 0:H 10

A korábbi számításokból ismertek a négyzetösszegek értékei, így a varianciaanalízis táblája

felírható:

A

variancia

forrása

Négyzetösszeg Szabadságfok Átlagos

négyzetösszeg

F

Regresszió SSR=2155,8 1

1

8,2155MSR 08,38

61,56

8,2155

MSE

MSRF

Maradék SSE=509,5 n-2=11-2=9

9

5,509MSE

Teljes SST=2665,3 n-1=10

10

5,2665MST

A táblázatból kiszámított empirikus F-értéket 5%-os szignifikancia szint esetén

12,5)9,1(95,0 F értékkel kell összehasonlítani. Mivel az empirikus próbafüggvény értéke


161

jóval meghaladja az elméletit, döntésünk a nullhipotézis igen határozott elutasítása, azaz

statisztikailag nem támasztható alá az, hogy a különböző alapterületű kocsik ára közt ne lenne

szignifikáns különbség.

7.4 Fogalmak

korrelációszámítás regressziószámítás

függvényszerű kapcsolat sztochasztikus kapcsolat

független kapcsolat korrelációs kapcsolat

kétváltozós regresszió többváltozós regresszió

magyarázó változó eredményváltozó

regressziós paraméter rugalmassági együttható

reziduum reziduális szórás

regressziós együtthatók hibája kovariancia

lineáris korrelációs együttható determinációs együttható

regressziós vagy magyarázott négyzetösszeg (SSR)

maradék vagy hibanégyzetösszeg (SSE)

7.5 Típusfeladatok

7.5.1 Feladat

Egy vállalat havi árbevétele (x) és havi üzleti eredménye (y) közötti kapcsolat egy 10 elemű

minta alapján az y = -9+0,1x lineáris regressziós függvénnyel írható le. A mintában az

árbevétel korrigált empirikus szórása 9,8 millió Ft, az üzleti eredményé 1,1 millió Ft.

Értelmezze a regressziós egyenes meredekségét!

Határozza meg az árbevétel és az üzleti eredmény közötti determinációs együtthatót, és

értelmezze az eredményt!

Megoldás:

A regressziós egyenes: y = -9+0,1x. Ennek meredeksége 0,1. Ez azt jeleneti, hogy az

árbevétel egységnyi növekedése az üzleti eredmény átlagosan 0,1 egységnyi növekedését

vonja maga után.

Az árbevétel (x) és az üzleti eredmény (y) közötti determinációs együttható meghatározása

Egyrészt a determinációs együttható: 2

22

2

yx

yx

dd

ddr

Másrészt a regressziós egyenes meredeksége:

21

x

yx

d

ddb

Ez utóbbi két összefüggésből a determinációs együttható:


162

2

2

2

1

2222222

1 y

x

yxxd

dbrddrdb

A megadott empirikus szórások felhasználásával 2

xd és 2

yd meghatározható:

36,8648,91101

11

222

2

1

2

2

xx

x

n

i

i

x sndn

d

n

xx

s

89,101,11101

11

222

2

1

2

2

yy

y

n

i

i

y sndn

d

n

yy

s

A determinációs együttható:

7937,098,10

36,8641,0 2

2

2

2

1

2

y

x

d

dbr

A determinációs együttható megadja, hogy az eredményváltozó (y) varianciáját mekkora

hányadban magyarázza a magyarázó változó (x). Esetünkben ez azt jelenti, hogy az üzleti

eredmény varianciáját (változékonyságát) 79,37%-ban magyarázza az árbevétel.

7.5.2 Feladat

Teherhajók tömege (x) és kirakodási idejük (y) között a tapasztalati lineáris korrelációs

együttható értéke egy 10 elemű minta alapján 0,87. A mintában a hajótömegek korrigált

tapasztalati szórása 7,2 tonna, a kirakodási időé 2,1 óra.

Hány %-ban magyarázza a kirakodási idő varianciáját a teherhajók tömege?

Adja meg a kirakodási idő és a hajótömeg közötti regressziós egyenes meredekségét!

Megoldás:

A determinációs együttható megadja, hogy az eredményváltozó (y) varianciáját mekkora

hányadban magyarázza a magyarázó változó (x). Esetünkben a korrelációs együttható értéke

0,87. Ennek négyzete 0,7569 a determinációs együttható értéke, azaz a kirakodási idő

varianciájának 75,69%-át magyarázza a teherhajók tömege.

A regressziós egyenes meredekségének meghatározása:

Egyrészt a regressziós egyenes meredeksége:

21

x

yx

d

ddb

Másrészt a korrelációs együttható:

22

yx

yx

dd

ddr

Ez utóbbi két összefüggésből a regressziós egyenes meredekségére:

2

2

1

222

1 x

y

yxxd

drbddrdb

A megadott empirikus szórások felhasználásával 2

xd és 2

yd meghatározható:


163

69,391,21101

11

222

2

1

2

2

yy

y

n

i

i

y sndn

d

n

yy

s

56.4662,71101

11

222

2

1

2

2

xx

x

n

i

i

x sndn

d

n

xx

s

A regressziós egyenes meredekségéről tudjuk, hogy

254,056,466

69,3987,0

2

2

1

x

y

d

drb

A teherhajók tömegének 1 egységnyi növekedése a kirakodási idő átlagosan 0,254 egységnyi

növekedését eredményezi.

7.5.3 Feladat

Kísérletképpen egy áruházlánc 8 azonos méretű üzletében egy nap egy adott fajta prémium

csokoládét 8 különböző áron árultak, és figyelték a keresletet.

Bolt sorszáma Csokoládé ára

(Ft/tábla)

Eladott táblák

száma

1 300 1120

2 310 999

3 320 932

4 330 884

5 340 807

6 350 760

7 360 701

8 370 688

Összesen 2680 6891

Néhány további adat:

42002

xd 1603402

yd 25535yxdd 2622

ie

Becsülje meg és értelmezze a lineáris regresszió paramétereit!

Tesztelje a β1 paraméter szignifikanciáját 95%-os megbízhatósággal!

Számítsa ki és értelmezze a deteminációs együtthatót!

Megoldás:

A lineáris regresszió paramétereinek meghatározása:

08,64200

25535ˆ21

x

yx

d

dd

Amennyiben a csokoládé ára táblánként 1Ft-tal magasabb, az eladott mennyiség átlagosan

6,08 táblával kevesebb.

xy 10ˆˆ

3358

2680x 375,861

8

6891y


164

175,289833508,6375,861ˆˆ10 xy

Amennyiben a csokoládé ára 0 Ft, az eladott mennyiség 2898,175 tábla.

A β1 paraméter szignifikanciájának tesztelése 95%-os megbízhatósággal:

0:H 10 és 0:H 10

61,628

262

2

)ˆ(

2

1

2

1

2

n

yy

n

e

s

n

i

ii

n

i

i

e

102,04200

61,6

2ˆ1

x

e

d

ss

Ez az érték (0,102) azt fejezi ki, hogy a lehetséges becsült b1 paraméterek átlagosan 0,1374

egységgel szóródnak az alapsokasági regressziófüggvény β1 paramétere körül, lehetséges

összes 8 elemű minta esetén.

6,59102,0

08,6ˆ

1

1

stsz

Kritikus érték: t0,975(DF=8): ±2,45

Mivel a számított érték az elutasítási tartományba esik, így a β1 paraméter szignifikáns.

Determinációs együttható számítás és értelmezése:

984,01603404200

25535

22

yx

yx

dd

ddr

968,0)984,0( 22 r

A csokoládé táblánkénti ára 96,8%-ban magyarázza az eladott mennyiség szóródását.

7.5.4 Feladat

10 véletlenszerűen kiválasztott gazdálkodó szervezetnél megvizsgálták az éves nettó

árbevételnek (x) az adózott eredményre (y) gyakorolt hatását. A felmérésből a következő

részeredmények ismeretesek:

mFtx 6,578 mFty 24,29 mFtsx 8,274

Szórásnégyzet

forrása


négyzetösszeg

Regresszió (SSR)

Hibatényező (SSE) 733,1

Teljes (SST) 1860,0

Írjuk be a táblázat hiányzó adatait!

Határozzuk meg a lineáris korrelációs együtthatót és értelmezzük az eredményt!

Számítsuk ki a lineáris regressziófüggvény paramétereit és értelmezzük azokat! Írjuk fel a

regressziófüggvényt!

Teszteljük a modell egészét!

Határozzuk meg a rugalmassági együtthatót x=600 mFt helyen és értelmezzük az eredményt!


165

Megoldás:

Táblázat hiányzó adatainak feltöltése:

Szórásnégyzet

forrása


négyzetösszeg

Regresszió (SSR) =1860-733,1=1126,9 1 1126,9

Hibatényező (SSE) 733,1 8 91,6375

Teljes (SST) 1860,0 9

A lineáris korrelációs együttható meghatározása és értelmezése:

9,1126SSR 69,11210

9,1126ˆ ys

0,1860SST 18610

18602 ys

7784,0186

69,112r

Közepesen szoros kapcsolat van a nettó árbevétel és az adózott eredmény között.

Lineáris regressziófüggvény paraméterei és értelmezése:

mFtd

sx

x 8,27410

2

64,13186 ys

0386,08,274

64,137784,0 1

x

y

s

srb

9,66,5780386,024,29 10 xbyb

xxbby 0386,09,6ˆ 10

Amennyiben 1mFt-tal nagyobb az árbevétel, akkor átlagosan 36,6 ezerFt-tal magasabb az

adózott eredmény.

Modell tesztelése:

0:H 10 és 0:H 10

29,123675,91

9,1126

)2/(

1/

nSSE

SSRFsz

32,5)8,1%,5( kritF

Mivel a számított érték nagyobb, minta a kritikus érték, így a nullhipotézist elutasítjuk, a

regressziófüggvény szignifikáns.

Rugalmasság számítása és értelmezése x=600mFt-nál

%77,06000386,09,6

6000386,0

ˆˆ

ˆ),ˆ(

10

1

x

xxyEl

A nettó árbevétel 1%-os növekedése az adózott eredmény 0,77%-os növekedését eredményezi

átlagosan az x=600mFt nettó árbevétel környezetében.


166


1. Milyen lehet a kapcsolat két ismérv között? Jellemezze e kapcsolatokat!

2. Mutassa be a kétváltozós regressziós modellt! Értelmezze a regressziós paramétereket!

3. Milyen mutatókkal jellemezhető a regressziós becslés hibája? Hogyan értelmezhetőek

a kapcsolódó mutatók?

4. Mi a regressziós együtthatók intervallumbecslésének a lényege, célja?

5. Hogyan alkalmazhatóak a hipotézisvizsgálatok a regressziófüggvény eredményeinek

ellenőrzésére?


167

8. Idősorok elemzése36,37

A gazdálkodó egységek tevékenységének egyik meghatározó tényezője, hogy mennyire

képesek a jövőbe látni, és így milyen sikerrel képesek jövőre vonatkozó stratégia kialakítására

és az ezzel kapcsolatos stratégiai döntések megalapozására. A gazdasági-társadalmi életben

kitüntetett szerepe van azoknak az előrejelzéseknek, amelyek a foglalkoztatottság, a

munkanélküliség, a jövedelmek vagy az árak, illetve egy-egy vállalat esetében a termékek

iránti keresletnek, a készletezésnek, vagy az erőforrások, köztük pl. a munkaerő-szükséglet

változásának a prognózisát jelentik.

A jövő előrejelzésében nagy szerepük van az időbeli változások vizsgálatának és az idősoros

elemzések felhasználásának. Az idősorok elemezése lehetőséget teremt a múlt megértésére és

megmagyarázására, és ezek alapján a jövőre történő előrejelzésre.

Az idősorok jövőbeli értékeinek előrejelzése történhet kvantitatív és/vagy kvalitatív

eszközökkel. A kvantitatív módszerek a múltbeli információk (idősorok) felhasználásával

készülnek vagy önmagában a vizsgált jelenségre vonatkozó idősorra támaszkodva, vagy a

vizsgált jelenséggel összefüggésben lévő más változókat is bevonva (regresszióra alapozva).

A kvalitatív módszerek pedig szakértők által készített becslések.

A fejezet célja, hogy különböző módszereket mutasson be a múltra vonatkozó összefüggések

feltárásához, és egyben alapot adjon a jövőre vonatkozó előrejelzések készítéséhez.

Egyes időpontokban, általában azonos időközönként végzett megfigyelések sorozatát

(tapasztalati) idősornak nevezzük.

Ebben az esetben tehát az X változó időpontokat jelöl (továbbiakban t-vel jelöljük) valójában

nem sztochasztikus jellegű, s ennek függvényében vizsgáljuk a sztochasztikusan változó Y

értékek alakulását.

Ilyen jellegű adatsorokat a gazdasági, társadalmi élet jellemzésére, vizsgálatára gyakran

használunk. Idősorokra példa a Magyarországon évente felsőfokú végzettséget szerző

hallgatók száma, a BUX index napi záró értéke, a napi maximum hőmérséklet, egy bolt napi,

heti vagy havi árbevétele, egy bizonyos termék havonta értékesített mennyisége, stb.

A matematikai statisztika az idősorokat sztochasztikus folyamat eredményeként tekinti. A

vizsgált jelenségek minden egyes időpontban (vagy időtartam alatt) elméletileg különböző

értékeket vehetnek fel, ugyanis értéküket sok-sok egyedi tényező együttes hatása alakítja. Az

időtényezőtől függő Y valószínűségi változók sorozatát elméleti idősornak nevezzük.

A statisztikai megfigyelés a tapasztalati idősorra vonatkozik, amelyet az elméleti idősor egy

lehetséges realizációjának, megvalósult értékének, tehát mintának kell tekinteni. Ez az idősor

elemzés kiindulópontja.

8.1 Az idősorelemzés eszközei

Az idősorok vizsgálatának gyakran alkalmazott eszközei: a viszonyszámok, a grafikus

ábrázolás, az átlagok és a különböző indexszámok.

36

Spiegel, Murray R.: Statisztika: Elmélet és gyakorlat, Panem – McGraw-Hill, Budapest, 1995 37

Korpás A.-né (szerk.): Általános statisztika I., II., Nemzeti Tankönyvkiadó, Budapest, 1996


168

A viszonyszám két egymással összefüggő adat hányadosa. A viszonyszámok közül az ún.

dinamikus viszonyszámok alkalmasak az idősorok elemzésére, amelyek két különböző,

összehasonlítani kívánt időszak adatainak hányadosai.

Idősorok sajátosságainak vizsgálatánál célszerű az adatokat ábrázolni. A vízszintes tengelyen

most a t időpontokat (időszakokat), a függőleges tengelyen a megfelelő y értékeket

ábrázoljuk. A szóródás diagramtól eltérően azonban most vonaldiagramot célszerűbb

készítünk, ugyanis így könnyebben felismerhetőek az adatsorban meglévő szabályszerűségek.

Példaként a Magyarországon felsőoktatásban tanuló illetve dolgozó hallgatók/oktatók

számának38

alakulását mutatja a következő ábra.

31. ábra: Példa idősor grafikus szemléltetésére

A különböző (jellemzően vonalas) ábrázolási módok mellett természetesen indexekkel,

átlagokkal is jellemezhetjük az adatokat. Ezekre részletesen most nem térünk ki, csak az

átlagszámolás tartam- és állapotidősorok közötti különbségére hívjuk fel a figyelmet.

Tartamidősorok39

adatai összegezhetők, így átlagolásukra is a szokásos számtani átlagot

használhatjuk. Állapotidősorok40

egy-egy időpontra vonatkoznak, összegüknek nincs tárgyi

értelme. Ebben az esetben az idősor átlaga az átlagos állománynagyságot mutatja. Két időpont

esetén ez a nyitó- és a záróállomány számtani átlaga. Több időpont esetén a két-két időpont

közötti időszakokra számított átlagos állományok számtani átlaga. Az így kapott átlagot

kronologikus átlagnak nevezzük (jelölése: kY ), és kizárólag állapotidősorok adatainak

átlagolására használjuk. A megfigyelt időpontok adataiból (Y1, Y2, … Yn) tehát a kronológikus

átlagot az alábbi összefüggéssel számolhatjuk:

1

22

1

2

1

n

YY

Y

Y

nn

t

t

k

38

Forrás: http://portal.ksh.hu/pls/ksh/docs/hun/xstadat/xstadat_eves/tabl2_06_07ia.html 39

Mozgó sokaságok időbeli alakulását mutatják, a sor elemei egy-egy időtartam alatt bekövetkező események

adatait mutatják. 40

Álló sokaságok időbeli változását mutatják, a sor elemei egy-egy időpontra vonatkozó állapotfelvételek

eredményeit rögzítik.


169

Tekintsük a következő példát41

.

Egy utazási iroda valutakészletének és -értékesítésének adatai az alábbiak:

Hónap Valutakészlet a hónap

utolsó napján [eUSD]

Valutaértékesítés

[eUSD]

Június 18,8 ---

Július 19,6 35,8

Augusztus 20,2 35,2

Szeptember 19,8 34,3

Október 21,1 33,5

November 20,3 32,4

December 19,2 35,8

Határozzuk meg a 2. félévben a havi átlagos valutaértékesítést, s az átlagos valutakészletet!

A havi átlagos valutaértékesítés:

eUSDY 5,346

207

6

8,354,325,333,342,358,35

Az adott hónapban értékesített valuta mennyisége tartamidősor, így összegének van értelme (a

2. félévben összesen 207eUSD-t adott el az iroda), így átlagolásukra a számtani átlagot

használtuk.

A 2. félévben az átlagos valutakészlet (július 1-je és december 31-e között):

eUSDYk 206

2

2,193,201,218,192,206,19

2

8,18

(A július 1-jei készlet a június 30-aival azonos.)

A valutakészlet csak időpontokra értelmezhető, így átlagolására a kronologikus átlagot

használtuk.

8.2 Idősorok komponenseinek vizsgálata

Az idősor a vizsgált jelenség múltbeli adatainak a mintája. Így ahhoz, hogy az idősorokban az

adatok viselkedését feltárjuk, megmagyarázzuk, nagyban segít, ha az idősorokat úgy

közelítjük meg, hogy az különböző összetevőkből, komponensekből áll.

Idősorok elemzésének két fő megközelítésmódja ismert. Az egyik az ún. sztochasztikus

modell, mely szerint az idősor pillanatnyi értékeit saját korábbi állapotából és a véletlen

hatásokból lehet magyarázni. E felfogás szerint a véletlen változó beépül a folyamatba, annak

aktív alkotóeleme lesz, a jelenség fő mozgatójává válik. Ebbe a kategóriába tartoznak például

a mozgóátlag (MA), az autoregresszív (AR) és a kettőt ötvöző autoregresszív mozgóátlag

(ARMA) modellek. A Gazdaságstatisztika tárgyban nem foglalkozunk a sztochasztikus

modellekkel, az – többek között – az Ökonometria c. tárgy anyaga.

A másik, az ún determinisztikus modell felfogása szerint az idősor alakulását egy tartósan

érvényesülő hosszútávú tendencia (trend), és egy tartósan ható, szabályos, jól modellezhető

hullámmozgás (periódikus ingadozás) határozza meg, s ezektől eseti-egyedi eltérítő hatást

41

Forrás: Korpás A.-né (szerk.) : Általános statisztika I. nemzeti Tannkönyvkiadó, Budapest, 1996, pp.89.-90.


170

eredményez a véletlen. A determinisztikus modell felfogása szerint az idősorok értékeit négy fő

tényező (összetevő) határozza meg: a trend, a ciklus, a szezonális ingadozás és a véletlen

ingadozás.

Hosszútávú vagy tartós irányzat (trend). Ez az összetevő az idősor pályájának a hosszú távú

alapirányzatát jelenti, az idősorban hosszabb időszakon át, tartósan érvényesülő tendencia.

Az idősorok grafikus ábrázolásánál bemutatott adatokon például jól látszik, hogy a hallgatók

száma folyamatosan nőtt az 1990/91-es tanévtől a 2006/07-es tanévig. Ugyanakkor az oktatók

száma is alapvetően emelkedő tendenciát mutat, annak ellenére, hogy időnként egy-egy évben

csökkent az oktatók létszáma.

A periodikus ingadozás az idősorokban rendszeresen ismétlődő hullámzást jelenti. Két

fajtáját különböztetjük meg, a szezonális (vagy idényszerű) hullámzást, és a ciklikus (vagy

konjukturális) ingadozást.

A ciklikus (konjunkturális) mozgások a trendgörbe, vagy trendegyenes körüli (alatti és

fölötti) hosszú távú, tartós kilengésekre, ingadozásokra vonatkoznak. Olyan periodikus

ingadozás az idősorban, amely kevésbé szabályos, jelenlétét hosszabb idősorok alapján lehet

feltárni.

Ilyenek a rövidebb-hosszabb ökológiai ciklusok, vagy gazdasági, konjunkturális ingadozások.

Az üzleti és gazdasági tevékenységek esetében az ingadozásokat csak akkor nevezzük

ciklikusnak, ha azok több, mint egy éves időintervallum után ismétlődnek. Az üzleti

ingadozások fontos példáját adják az ún. üzleti ciklusok, melyek a konjunktúra, a recesszió, a

stagnálás és a megújulás időszakait foglalják magukban. A tárgy keretében nem foglalkozunk

a ciklikus ingadozás elemzésével.

A szezonális (vagy idényszerű) ingadozások állandó periódushosszúságú hullámzás, ritmikus

ingadozás, amely szabályosan visszatérő időközönként (pl. évente, havonta) mindig azonos

irányba téríti el az idősor értékét az alapirányzattól.

Az idősor adataiban jellemzően azonos időszakok egymás utáni sorozatai ismétlődnek, így

amennyiben a megfigyelt változót az egyes időszakokban fellépő szezonális hatások érik, az

időszakonkénti eltérések a trendtől nagyon hasonló, ismétlődő mintázatot mutatnak.

A szezonalitás az évszakok változásaival és részben az ezzel kapcsolatos egyéb társadalmi

szokásokkal van összefüggésben. A periódus hossza legfeljebb egy év, tehát olyan

idősorokban találkozhatunk szezonalitással, melynek adatai egy évnél rövidebb időszakra

vonatkoznak.

Ilyen szezonális hatás például a karácsony előtti, vagy a hétvégi nagyobb bevásárlás. Sörből is

jellemzően többet fogyasztunk a nyári hónapokban, mint télen. Az ismétlődő időszakoknak

megfelelően a szezonális ingadozások periódushossza állandó. Az üzleti, gazdasági adatok

elemzésénél jellemzően az éven belüli ingadozásokat szezonális ingadozásnak tekintjük.

Szabálytalan vagy véletlen ingadozások a véletlen hatásokból fakadó eltérések, az idősorban

megtalálható szabálytalan mozgás, nem mutat semmilyen szisztematikusságot. A tapasztalati

idősorok adatai általában eltérnek a trend, a ciklikusság és a szezonális komponens alapján

várt értéktől.

Ezt az összetevőt valószínűségi változónak tekintjük. A véletlen ingadozás sok, önmagában

nem jelentős tényező együttes hatása az idősorra.

Bár előfordulhat, hogy egy-egy tényező (elemi károk, időjárási feltételek, politikai események

stb.) jelentősebb hatást gyakorol a megfigyelt mennyiségre, feltesszük, ezek csak rövid ideig


171

okoznak változást, így hatásuk összességében véletlennek tekinthető. Esetenként azonban e

hatások elég intenzívek lehetnek ahhoz, hogy újabb ciklikus vagy másféle ingadozást

idézzenek elő. Általában minél rövidebb időszakra vonatkozik az idősor, annál jelentősebb a

véletlen ingadozás. Szabálytalan jellege miatt az idősorra gyakorolt hatását a múltra

vonatkozóan ki lehet mutatni, de előrejelezni nem lehet.

Nagyon egyszerű lenne, ha egy-egy idősorban csak egy komponens hatása érvényesülne, a

valóságban azonban a komponensek együtt jelennek meg.

Az idősorok determinisztikus modell szerinti elemzése az ingadozásokat előidéző összetevők

(matematikai) leírását jelenti.

Az idősorok elemzésének klasszikus módszere az egyes komponensek (trend, ciklus,

szezonalitás, véletlen ingadozás) elkülönítése. Az idősorok komponensekre bontásán alapuló

eljárásokat dekompozíciós módszereknek szokás nevezni.

Ha feltételezzük, hogy az idősorban megjelenik mind a négy komponens, akkor kérdés, hogy

e komponensek milyen kombinációja, ill. kapcsolódása eredményezi a tényleges idősort. Erre

nézve két általános módszer van: az additív és a multiplikatív modell.

Az additív modellben a komponensek összegének tekintjük az Y változót:

ijjijijij SCYY ˆ

E modellben a jobb oldalon lévő komponensek mértékegysége megegyezik az idősor

adatainak (Y) mértékegységével.

A multiplikatív modellben a komponensek szorzataként állítjuk elő Y-t:

ijjijijij SCYY ˆ

Ebben a modellben csak a trendadatok mértékegysége azonos az idősor adataival, a többi

komponens mértékegység nélküli index, illetve viszonyszám, amely a trendhez viszonyítva

fejti ki hatását. A véletlen tényező várható értéke multiplikatív modell esetén 1.

Yij = az idősor értéke

ijY = trend

ijC = ciklus

jS = szezonális komponens

ij = a véletlen ingadozás

i = 1,2, …, n a periódusok (pl. évek)

j = 1,2, …, m a perióduson belüli rövidebb időszakok (pl. hónapok, negyedévek).

E modellek mögötti alapgondolat az, hogy az idősorokat felbontsuk, és a különböző

komponensek becslését használjuk fel az idősorok leírására, elemzésére, illetve előrejelzési

célokra.

A gyakorlati tapasztalatok azt mutatják, hogy a társadalmi-gazdasági jelenségek idősorainál a

komponensek az esetek többségében multiplikatív módon viselkednek.

Különböző módszerek állnak rendelkezésünkre akár a trend, akár a szezonális eltérések

jellemzésére, a tárgy keretében azonban mindkettőre csak egy-egy módszert mutatunk be.


172

8.2.1 Trend becslése mozgó átlagok segítségével

Az idősor alapirányzatának, tendenciájának meghatározásánál az idősor kiegyenlítése,

kisimítása a célunk úgy, hogy a periodikus és a véletlen ingadozás hatását kiküszöböljük. A

trend meghatározása lényegében az idősor kisimítását jelenti.

A trendszámításnak két fő módszere van: mozgó átlag módszere és az analitikus

trendszámítás, mi most csak az első módszert mutatjuk be.

A mozgó átlag (csúszó átlagok) módszerénél a trendet az idősor dinamikus átlagaként

állítjuk elő. A t-esik időszakhoz tartozó trendértéket a környező adatok átlagaként

származtatja.

A mozgó átlagos módszernél az eltéréseket átlagolással igyekszünk „eltüntetni”. Mozgó

átlagolásnál az idősor előre elhatározott számú első néhány eleméből számtani átlagot

képzünk, majd az első elemet kihagyva, s a következőt bevonva folytatjuk a számítást az

utolsó adatig. Az így képzett átlagokat páratlan elemszám esetén a részsorozat középső

elemének tekintjük. Páros elemszámú mozgóátlagok képzésénél azonban a részsorozatok

indexei nem egész számok (pl. 2 elem esetén 1,5, 2,5, 3,5, … n-0,5), ezért az így kapott

átlagokból kéttagú mozgóátlagokat képzésével kapjuk az egész indexű elemeket. Ez utóbbi

műveletet nevezzük középre igazításnak vagy centírozásnak.

Ha az idősor értékei egy állandó érték körül ingadoznak, az idősor értékeiből számított

számtani átlag pontosan ezt az állandó értéket adja eredményül. A mozgó átlagok számítása

rámutat arra, hogy az idősor értékei a saját átlaguk körül ingadoznak, amely az idők folyamán

változik, eltolódik. Ez jelenti a trendet.

Mozgó átlagolás alkalmazásakor meghatározó a mozgó átlag elemszámának megválasztása.

Amennyiben az idősorban szezonális eltéréseket is találunk, akkor a szezonális hullámzás

kisimítására a mozgóátlag taglétszámát úgy kell megválasztani, hogy az a perióduson belüli

szakaszok (szezonok) számával azonos, vagy annak egész számú többszöröse legyen. Így a

szezonális hatást a mozgó átlagok képzéséhez használt tagszám megválasztásával elimináljuk.

A véletlen hatást pedig maga az átlagolás tompítja, szűri ki.

Érdemes megjegyezni, hogy a mozgó átlagoláshoz hosszabb idősoroknál célszerű nagyobb

tagszámot venni, ugyanis a sor elejéről és végéről elveszített tagok nem okoznak különösebb

problémát, a véletlen hatása pedig jobban kiszűrhető. Nem mindig könnyű a tagszám

megválasztása, bizonyos esetekben szükség lehet többféle tagszámmal is számításokat

végezni, és azt a k számot választani, amelyre nézve az y-y eltérésekből számított átlagos

négyzetes hiba a legkisebb.

A módszer bemutatására tekintsük az alábbi példát 42

.

Háztartások számára értékesített gázmennyiség (milló m3) Nógrád megyében 1990 és 1994

között negyedéves bontásban az alábbiak szerint alakult:

42

Forrás: Korpás A.-né (szerk.): Általános statisztika II. Nemzeti Tankönyvkiadó, Budapest, 1996, pp. 249.-250.


173

I. II. III. IV.

1990 3,5 3,1 2,4 3,9

1991 6,7 6,4 5,1 7,2

1992 7,4 7,2 5,2 8,0

1993 8,2 8,1 7,2 8,5

1994 9,3 8,0 7,2 11,7

A gázfogyasztás értékeit (és a mozgóátlagolással kapott trendértékeket is) a következő ábra

mutatja:

32. ábra

Mivel éves periodicitásról és negyedéves szezonalitásról van szó, a mozgóátlagok

elemszámának célszerű 4-et választani. A számításokat az alábbi táblázat tartalmazza:

Ért.gáz Időszak cMA(4)

3,5 1990 - I

3,1 1990 - II

2,4 1990 - III 3,63

3,9 1990 - IV 4,44

6,7 1991 - I 5,19

6,4 1991 - II 5,94

5,1 1991 - III 6,44

7,2 1991 - IV 6,63

7,4 1992 - I 6,74

7,2 1992 - II 6,85

5,2 1992 - III 7,05

8 1992 - IV 7,26

8,2 1993 - I 7,63

8,1 1993 - II 7,94

7,2 1993 - III 8,14

8,5 1993 - IV 8,26

9,3 1994 - I 8,25

8 1994 - II 8,65

7,2 1994 - III

11,7 1994 - IV

0

2

4

6

8

10

12

14

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20


174

8.2.2 Szezonalitás vizsgálata

Nagyon sok gazdasági idősor éven belüli mozgásában ugyanazt az oszcilláló viselkedést

követi. Az idősor értékének előrejelzéséhez a szezonalitás, mint szabályosan viselkedő

komponens mindenképpen figyelembe veendő. Vannak olyan jelenségek, amelyeknél éppen a

szezonalitás hatásának a tompítása a cél, és ehhez kell felhasználni a szezonális hatásra

vonatkozó elemzéseket.

A szezonhatás vizsgálatánál arra keresünk választ, hogy a rendszeresen (s azonos

periódushosszal) visszatérő hatások, milyen mértékben vagy arányban térítik el az idősor

értékeit az alapirányzattól. Vizsgálatánál ki kell szűrnünk a trendhatást és a véletlen

hatásokat az adatokból.

Megkülönböztetünk változó és állandó szezonalitást.

Változó szezonalitásnál a szezonális kilengések nem mutatnak állandóságot, periódusonként

változik az egyes szezonokhoz tartozó ingadozás.

Állandó szezonalitásnál a szezonális komponens viselkedése lehet additív és multiplikatív.

Additív szezonalitás esetén a szezonális kilengések abszolút nagysága, a hullámzás

amplitúdója állandóságot mutat, nem függ az idősor értékének nagyságától. Multiplikatív

szezonalitás esetén a szezonális kilengések relatív, a trendhez viszonyított nagysága mutat

állandóságot.

Additív modell esetén a szezonalitást a trendtől való eltérés nagyságával, azaz a trendtől vett

abszolút eltéréssel, multiplikatív modellnél a relatív eltéréssel jellemezzük.

Additív modellnél az idősor egy elemének értékét a komponensek összegeként írhatjuk fel:

ijjijijij scyy ˆ

Míg multiplikatív modellnél a komponensek szorzataként írhatjuk fel.

ijjijijij scyy *ˆ

A trend- és ciklushatást úgy szűrjük ki, hogy az idősor értékeiből rendre kivonjuk (ill. az

idősor értékeit rendre elosztjuk) a trend- és ciklusértékeket.

Additív esetben:

ijjijijij scyy ˆ

Multiplikatív esetben:

ijjs

cy

y

ijij

ij

*

ˆ

Ezt követően minden periódusból vesszük a j-edik eltérést (hányadost), és ezek számtani

átlagát képezzük. Ezzel a véletlen hatást szűrjük ki, illetve tompítjuk.

pn

cyy

s

pn

i

ijijij

j/

ˆ/

1

pn

cyy

s

pn

i

ijijij

j/

)ˆ/(/

1*

Ha a trendet nem lineáris függvénnyel határozzuk meg, akkor nem teljesül az a feltétel, hogy

a szezonális eltérések összege (illetve átlaga) 0 (multiplikatív modellnél, hogy szorzatuk 1)

legyen. Mozgóátlagolással kapott trendértékek esetén ez elméletileg teljesül, de ha kevés

számú megfigyelésünk van, akkor előfordulhat, hogy az átlag nem 0 (illetve a szorzat nem 1).


175

Ilyenkor az előbbiekben kiszámított ún. nyers szezonális eltéréseket (ill. szezonindexeket)

korrigáljuk. A korrekció úgy történik, hogy a szezonális eltérések átlagát levonjuk az sj

értékekből (illetve az sj* értékeket elosztjuk az átlaggal).

A szezonális eltérés azt mutatja, hogy a szezonális hatás miatt az adott részidőszakban (pl. a

harmadik negyedévben) mennyivel tér el az idősor adata átlagosan az alapirányzatnak

megfelelő értéktől:

p

s

ss

p

j

j

jj

1'

A szezonindex azt fejezi ki, hogy a szezonhatás következtében az adott részidőszakban a

megfigyelt idősor adata átlagosan hányszorosa a trendértéknek, azaz relatíve mennyivel

(hány %-kal) magasabb vagy alacsonyabb az idősor adata, mint a megfelelő trendadat:

p

s

ss

p

j

j

j

j

1

*

**'

8.2.3 Idősorok szezonális kiigazítása

Sok esetben felmerül a szezonális hatástól megtisztított idősorok előállításának, vagyis az

idősorok szezonális kiigazításának igénye.

Additív modell esetében a szezonálisan kiigazított idősort úgy származtatjuk, hogy az idősor

adataiból kivonjuk a megfelelő szezonális eltérést.

Multiplikatív modellben a szezonális kiigazítást úgy végezzük, hogy az idősor adatait

elosztjuk a megfelelő szezonindexszel.

Példaként tekintsük ismét Nógrád megye lakossági gázfogyasztását!

Additív modellt alkalmazva a szezonalitás jellemzésére, a számítási eredményeket a

következő táblázatba foglaltuk össze.

Ért.gáz Időszak cMA(4) Különb. s’j

Sz.korr.

ért.

3,5 1990 – I 0,96 2,54

3,1 1990 – II 0,09 3,01

2,4 1990 – III 3,63 -1,23 -1,32 3,72

3,9 1990 – IV 4,44 -0,54 0,27 3,63

6,7 1991 – I 5,19 1,51 0,96 5,74

6,4 1991 – II 5,94 0,46 0,09 6,31

5,1 1991 – III 6,44 -1,34 -1,32 6,42

7,2 1991 – IV 6,63 0,58 0,27 6,93

7,4 1992 – I 6,74 0,66 0,96 6,44

7,2 1992 – II 6,85 0,35 0,09 7,11

5,2 1992 – III 7,05 -1,85 -1,32 6,52

8 1992 – IV 7,26 0,74 0,27 7,73

8,2 1993 – I 7,63 0,57 0,96 7,24

8,1 1993 – II 7,94 0,16 0,09 8,01

7,2 1993 – III 8,14 -0,94 -1,32 8,52

8,5 1993 – IV 8,26 0,24 0,27 8,23


176

9,3 1994 – I 8,25 1,05 0,96 8,34

8 1994 – II 8,65 -0,65 0,09 7,91

7,2 1994 – III -1,32 8,52

11,7 1994 – IV 0,27 11,43

Az egyes negyedévek szezonális eltérései: sI=0,9475 sII=0,08 sIII=-1,34 sIV=0,255.

A korrekciós tényező: (0,9475+0,08-1,34+0,255)/4=-0,0575/4=-0,01438.

Ezt az értéket rendre levonva a nyers szezonális eltérésekből kapjuk a tényleges sj’ értékeket,

melyeket a táblázatban tüntettünk fel.

8.2.4 Auto- és keresztkorreláció idősorok elemzésénél

Gazdasági idősorok adatainak elemzése a korrelációszámítás szempontjából számos speciális

problémát vet fel. Gyakran előfordul, hogy egy vagy több idősor egymást követő adatai

egymástól nem függetlenek, hanem szoros korrelációban állnak egymással. Ez a jelenség az

autokorreláció, amennyiben egy változó egymást követő adatainak kapcsolatát vizsgáljuk, és

keresztkorreláció, ha több változó hasonló kapcsolatát nézzük. A regressziós modellben ez

úgy jelentkezik, hogy az egymást követő reziduális értékek között korrelációs kapcsolat

mutatkozik. Az autokorreláció különböző rendű lehet. Elsőrendű az autokorreláció, ha az

idősorban a hibatényező t-edik értéke a (t-1)-edik, közvetlen szomszédos értékkel van

korrelációs kapcsolatban.

8.3 Fogalmak

idősor kronologikus átlag

idősorelemzés sztochasztikus modellje idősorelemzés determinisztikus modellje

trend periodikus ingadozás

ciklikus ingadozás szezonális ingadozás

véletlen ingadozás dekompozíciós módszer

additív modell multiplikatív modell

mozgó átlagolás változó szezonalitás

állandó szezonalitás szezonindex

szezonális eltérés


1. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és additív

dekompozícióját!

2. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és multiplikatív

dekompozícióját!

3. Ismertesse az idősorban lévő trend becslésére alkalmas mozgó átlagolás módszerét!

4. Mi a lényege és hogyan történik a szezonalitás vizsgálata az additív és a multiplikatív

modell esetében?


177

8.5 Típusfeladatok

8.5.1 Feladat

A Magyarországra érkező külföldi látogatók számának idősorából 4-tagú mozgó átlagokat

készítünk. Az adatokat és a számításokat a következő táblázat tartalmazza és az alábbi ábra

szemlélteti:

A példa adatai alapján kiszámítjuk a szezonális eltéréseket, ehhez az előző táblázat alapján

először kiszámítjuk a trend és a mozgóátlag különbségeit:

Év Negyedév y 4 tagú

mozgóátlag

Középre

igazított

átlagok

2007 IV. 3,4

2008 I. 1,9

II. 3,6 4,45

III. 8,8 4,6

IV. 3,6 4,91

2009 I. 2,9 5,38

II. 5,1 5,94

III. 11,0 6,49

IV. 5,9 7,30

2010 I. 5,0 8,30

II. 9,5 9,09

III. 14,6 9,44

IV. 8,6 9,21

2011 I. 5,1 8,81

II. 7,6 8,49

III. 13,3 8,34

IV. 7,3 8,36

2012 I. 5,2 8,29

II. 7,7 8,33

III. 12,6 8,58

IV. 8,3 8,91

2013 I. 6,2 9,38

II. 9,4 9,89

III. 14,6 10,24

IV. 10,4 10,26

2014 I. 6,9 10,73

II. 8,9

III. 14,6

4,425

4,4754,725

5,1

5,65

6,225

6,757,85

8,75

9,425

9,45

8,975

8,65

8,325

8,35

8,3758,2

8,45

8,79,1259,625

10,15

10,325

10,2

10,2


178

A jobb áttekinthetőség kedvéért az alábbi táblázatba rendezzük az utolsó oszlopban látható

adatokat, amelyek év ugyanazon negyedévéhez tartozó egyedi szezonális eltéréseket jelentik.

Év I. n.év II. n.év III. n.év IV. n.év

2007

2008 -0,85 4,2 -1,31

2009 -2,44 -0,084 6,38 -1,4

2010 -3,3 0,41 5,16 0,61

2011 -3,71 -0,89 4,96 -1,06

2012 -3,09 -0,63 4,02 -0,61

2013 -3,18 -0,49 4,38 0,14

2014

Minden negyedév szezonmutatóját kiszámítjuk a szezonális eltérések átlagaként:

36,36

15,20

5

43,418,309,371,330,344,2..

évnIs

Év Negyedév y

Középre

igazított

átlagok (y )

(y-y)

2007 IV. 3,4

2008 I. 1,9

II. 3,6 4,45 -0,85

III. 8,8 4,6 4,2

IV. 3,6 4,91 -1,31

2009 I. 2,9 5,38 -2,48

II. 5,1 5,94 -0,84

III. 11 6,48 4,52

IV. 5,9 7,3 -1,4

2010 I. 5 8,3 -3,3

II. 9,5 9,09 0,41

III. 14,6 9,44 5,16

IV. 8,6 9,21 -0,61

2011 I. 5,1 8,81 -3,71

II. 7,6 8,49 -0,89

III. 13,3 8,34 4,96

IV. 7,3 8,36 -1,06

2012 I. 5,2 8,29 -3,09

II. 7,7 8,33 -0,63

III. 12,6 8,58 4,02

IV. 8,3 8,91 -0,61

2013 I. 6,2 9,38 -3,18

II. 9,4 9,89 -0,49

III. 14,6 10,24 4,36

IV. 10,4 10,26 0,14

2014 I. 6,9 10,73 -3,83

II. 8,9

III. 14,6


179

55,06

29,3

6

49,063,089,041,084,085,0..

évnIIs

85,46

10,29

6

38,402,496,416,538,620,4..

évnIIIs

76,06

55,4

6

14,061,006,161,040,131,1..

évnIIIs

A korrekciós tényező:

045,04

18,0

4

76,085,455,036,3

s

Ezt az értéket rendre levonva a nyers szezonális eltérésekből kapjuk a tényleges sj’ értékeket:

405,3045,036,3' .. évnIs

Az I. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a I. negyedévekben

átlagosan 3,405 millió fővel kevesebb külföldi látogat Magyarországra, mint a trend szerinti

érték.

595,0045,055,0' .. évnIIs

A II. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a II. negyedévekben


érték.

805,4045,085,4' .. évnIIIs

A III. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a III. negyedévekben

átlagosan 4,81 millió fővel több külföldi látogat Magyarországra, mint a trend szerinti érték.

805,0045,076,0' .. évnIVs

A IV. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a IV. negyedévekben


érték.

8.5.2 Feladat

A magyarországi piaci zöldségfelhozatalra vonatkoznak az alábbi adatok. A táblázatban 4

tagú mozgóátlagolás segítségével meghatároztuk a trendet:

0

500

1000

1500

2000

2500

3000

I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV.

Zöldségfelhozatal

Mozgóátlag


180

Számítsuk ki a szezonindexeket a piaci zöldségfelhozatalra vonatkozóan és értelmezzük az

eredményeket!

Megoldás:

Az egyszerűbb áttekinthetőség érdekében használjuk ezt a táblázatot, amely az egyedi

szezonális indexeket mutatja:

Év I. n.év II. n.év III. n.év IV. n.év

2007

0,89 0,37

2008 1,04 1,71 0,88 0,32

2009 0,95 1,79 0,86 0,34

2010 1,36 1,33

Év Negyedév y 4 tagú

mozgóátlag

Középre

igazított

átlagok

2007 I. 1158

II. 1981

III. 1029 1158

IV. 432 1168,5

2008 I. 1222 1171,25

II. 2001 1167,75

III. 1031 1177,5

IV. 402 1269,75

2009 I. 1330 1398

II. 2631 1473

III. 1427 1652

IV. 607 1803,25

2010 I. 2557 1874

II. 2613 1970,125

III. 2011

IV. 792

1150

1171

1171,5

1164

1191

1348,51447,5

1498,5

1805,5

1801

1947

1993,25

1166

ÉvNegyed

év y

Középre

igazított

átlagok (y)

y/y

2007 I. 1158

II. 1981

III. 1029 1158 0,89

IV. 432 1168,5 0,37

2008 I. 1222 1171,25 1,04

II. 2001 1167,75 1,71

III. 1031 1177,5 0,88

IV. 402 1269,75 0,32

2009 I. 1330 1398 0,95

II. 2631 1473 1,79

III. 1427 1652 0,86

IV. 607 1803,25 0,34

2010 I. 2557 1874 1,36

II. 2613 1970,13 1,33

III. 2011

IV. 792


181

Minden negyedév szezonindexét kiszámítjuk az egyedi szezonindexek átlagaként:

167,13

36,195,004,1..

évnIs

61,13

33,179,171,1..

évnIIs

877,03

86,088,089,0..

évnIIIs

343,03

34,032,037,0..

évnIVs

A korrekciós tényező:

99925,04

343,0877,061,1167,1

js

Ezzel az értékkel leosztva a nyers szezonindexeket kapjuk a tényleges sj’ értékeket:

176,19925,0

1675,1' .. évnIs

Az I. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a I. negyedévekben a

zöldségfelhozatal átlagosan 1,176-szoros, mint a trend szerinti érték.

622,19925,0

61,1' .. évnIIs

Az II. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a II. negyedévekben a


884,09925,0

877,0' .. évnIIIs

Az III. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a III. negyedévekben a


346,09925,0

343,0' .. évnIVs

Az IV. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a IV. negyedévekben a


gazdaságstatisztika matematikai statisztika alapjai_2017.pdfa matematikai statisztika alapjai...

Documents