gazdaságstatisztika matematikai statisztika alapjai_2017.pdfa matematikai statisztika alapjai...
TRANSCRIPT
Budapesti Műszaki és Gazdaságtudományi Egyetem
Gazdaság- és Társadalomtudományi Kar
Üzleti Tudományok Intézet
Menedzsment és Vállalatgazdaságtan Tanszék
Dr. Tóth Zsuzsanna Eszter – Dr. Jónás Tamás – Erdei János
Gazdaságstatisztika
II. rész
A matematikai statisztika alapjai
Oktatási segédanyag
a Gazdálkodási és menedzsment (BA), Műszaki menedzser (BSc),
Nemzetközi gazdálkodás (BA), a Pénzügy és Számvitel (BA)
valamint az Alkalmazott közgazdaságtan (BA) alapszakok részére
Budapest, 2017
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
2
Tartalom
1. BEVEZETŐ FOGALMAK ........................................................................................................................ 5
1.1 A MATEMATIKAI STATISZTIKA TÁRGYA ........................................................................................................ 5 1.2 MINTAVÉTEL, MINTAVÉTELI HIBA ................................................................................................................. 5 1.3 SOKASÁGOK CSOPORTOSÍTÁSA ..................................................................................................................... 7 1.4 ISMÉRVEK ..................................................................................................................................................... 8 1.5 MÉRÉSI SKÁLÁK ............................................................................................................................................ 9 1.1.1 Névleges (nominális) skála ................................................................................................................... 9 1.1.2 Sorrendi (ordinális) skála ................................................................................................................... 10 1.1.3 Intervallumskála (különbségskála) ..................................................................................................... 11 1.1.4 Arányskála (abszolút skála) ................................................................................................................ 11
2. LEÍRÓ STATISZTIKA ............................................................................................................................ 12
2.1 A LEÍRÓ STATISZTIKA TÁRGYA .................................................................................................................... 12 2.2 A STATISZTIKAI LEÍRÁS CÉLJA, MÓDSZEREI ................................................................................................. 12 2.2.1 Adatgyűjtés ......................................................................................................................................... 13 2.2.2 Az adatok ábrázolása .......................................................................................................................... 13
2.3 TAPASZTALATI ELOSZLÁSOK ....................................................................................................................... 15 2.3.1 Mennyiségi ismérv szerinti rendezés és osztályozás ........................................................................... 15 2.3.2 Mennyiségi sorok grafikus ábrázolása ............................................................................................... 17
2.4 TAPASZTALATI ELOSZLÁSOK JELLEGZETESSÉGEI ........................................................................................ 23 2.4.1 Helyzetmutatók (középértékek) ........................................................................................................... 23 2.4.2 Választás a középértékek között .......................................................................................................... 29 2.4.3 Kvantilisek .......................................................................................................................................... 30 2.4.4 Szóródási mutatók............................................................................................................................... 33
2.5 FOGALMAK ................................................................................................................................................. 38 2.6 GYAKORLÓ FELADATOK .............................................................................................................................. 39 2.6.1 Feladat ................................................................................................................................................ 39 2.6.2 Feladat ................................................................................................................................................ 42 2.6.3 Feladat ................................................................................................................................................ 45
2.7 ELMÉLETI KÉRDÉSEK................................................................................................................................... 49
3. RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA ........................................................................... 50
3.1 RÉSZ- ÉS FŐÁTLAGOK .................................................................................................................................. 51 3.2 RÉSZ- ÉS FŐSOKASÁGOK VARIANCIÁJA ÉS SZÓRÁSA ................................................................................... 53 3.3 ISMÉRVEK KÖZÖTTI KAPCSOLAT ................................................................................................................. 57 3.4 FOGALMAK ................................................................................................................................................. 58 3.5 GYAKORLÓ FELADATOK .............................................................................................................................. 59 3.5.1 Feladat ................................................................................................................................................ 59 3.5.2 Feladat ................................................................................................................................................ 61
3.6 ELMÉLETI KÉRDÉSEK................................................................................................................................... 63
4. MINTAVÉTEL ÉS BECSLÉS ................................................................................................................. 64
4.1 MINTAVÉTEL ............................................................................................................................................... 64 4.1.1 Mintavételi módok .............................................................................................................................. 64
4.2 PARAMÉTEREK BECSLÉSE ............................................................................................................................ 66 4.3 A BECSLÉS TULAJDONSÁGAI ........................................................................................................................ 67 4.3.1 Torzítatlan becslés .............................................................................................................................. 67 4.3.2 Hatásos becslés................................................................................................................................... 68 4.3.3 Konzisztens becslés ............................................................................................................................. 69 4.3.4 Elégséges becslés ................................................................................................................................ 71
4.4 A PONTBECSLÉS MÓDSZEREI ....................................................................................................................... 71 4.5 INTERVALLUMBECSLÉS ............................................................................................................................... 72 4.5.1 Konfidencia-intervallum a normális eloszlás várható értékére .......................................................... 74 4.5.2 Konfidencia-intervallum a normális eloszlás várható értékére, ha az elméleti szórás ismeretlen ..... 77 4.5.3 Sokasági arány becslése ..................................................................................................................... 78 4.5.4 Sokasági variancia becslése
, ............................................................................................................... 79
4.5.5 A mintanagyság meghatározása ......................................................................................................... 81 4.6 FOGALMAK ................................................................................................................................................. 82
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
3
4.7 GYAKORLÓ FELADATOK .............................................................................................................................. 82 4.7.1 Feladat ................................................................................................................................................ 82 4.7.2 Feladat ................................................................................................................................................ 83 4.7.3 Feladat ................................................................................................................................................ 84 4.7.4 Feladat ................................................................................................................................................ 85 4.7.5 Feladat ................................................................................................................................................ 86 4.7.6 Elméleti kérdések ................................................................................................................................ 87
5. HIPOTÉZISVIZSGÁLAT ........................................................................................................................ 88
5.1 A HIPOTÉZISVIZSGÁLAT CÉLJA, ESZKÖZEI ................................................................................................... 88 5.1.1 A vizsgálandó hipotézis megfogalmazása ........................................................................................... 89 5.1.2 A próbafüggvény ................................................................................................................................. 90 5.1.3 Kritikus tartomány .............................................................................................................................. 90 5.1.4 A hipotézisvizsgálat lépései ................................................................................................................ 93 5.1.5 A hipotézisvizsgálat során elkövethető hibák ..................................................................................... 93
5.2 FOGALMAK ................................................................................................................................................. 96 5.3 ELMÉLETI KÉRDÉSEK................................................................................................................................... 96
6. STATISZTIKAI PRÓBÁK ...................................................................................................................... 97
6.1 NEMPARAMÉTERES PRÓBÁK ........................................................................................................................ 97 6.1.1 Illeszkedésvizsgálat 2
-próbával ......................................................................................................... 98 6.1.2 Homogenitásvizsgálat 2
-próbával ................................................................................................... 102 6.1.3 Függetlenségvizsgálat 2
-próbával .................................................................................................. 105 6.2 NEMPARAMÉTERES PRÓBÁK ÖSSZEFOGLALÁS ........................................................................................... 108 6.3 PARAMÉTERES PRÓBÁK ............................................................................................................................. 108 6.3.1 Egymintás próbák ............................................................................................................................. 109 6.3.2 Kétmintás próbák .............................................................................................................................. 115 6.3.3 Több független mintás próbák .......................................................................................................... 125
6.4 FOGALMAK ............................................................................................................................................... 131 6.5 TÍPUSFELADATOK ...................................................................................................................................... 131 6.5.1 Feladat .............................................................................................................................................. 131 6.5.2 Feladat .............................................................................................................................................. 133 6.5.3 Feladat .............................................................................................................................................. 135 6.5.4 Feladat .............................................................................................................................................. 136 6.5.5 Feladat .............................................................................................................................................. 137
6.6 ELMÉLETI KÉRDÉSEK................................................................................................................................. 140
7. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS ................................................................................. 141
7.1 KAPCSOLATOK JELLEGE ............................................................................................................................ 141 7.2 A KORRELÁCIÓS KAPCSOLAT SZEMLÉLTETÉSE .......................................................................................... 142 7.3 KORRELÁCIÓ- ÉS REGRESSZIÓELEMZÉS ALAPJAI ....................................................................................... 143 7.3.1 A kétváltozós regressziós modell ...................................................................................................... 144 7.3.2 Korrelációs mérőszámok .................................................................................................................. 150 7.3.3 Intervallumbecslés ............................................................................................................................ 151 7.3.4 A regressziófüggvény eredményeinek ellenőrzése: hipotézisvizsgálatok .......................................... 152 7.3.5 Példák korreláció és regressziószámítása ........................................................................................ 155
7.4 FOGALMAK ............................................................................................................................................... 161 7.5 TÍPUSFELADATOK ...................................................................................................................................... 161 7.5.1 Feladat .............................................................................................................................................. 161 7.5.2 Feladat .............................................................................................................................................. 162 7.5.3 Feladat .............................................................................................................................................. 163 7.5.4 Feladat .............................................................................................................................................. 164
7.6 ELMÉLETI KÉRDÉSEK................................................................................................................................. 166
8. IDŐSOROK ELEMZÉSE, ...................................................................................................................... 167
8.1 AZ IDŐSORELEMZÉS ESZKÖZEI .................................................................................................................. 167 8.2 IDŐSOROK KOMPONENSEINEK VIZSGÁLATA .............................................................................................. 169 8.2.1 Trend becslése mozgó átlagok segítségével ...................................................................................... 172 8.2.2 Szezonalitás vizsgálata ..................................................................................................................... 174 8.2.3 Idősorok szezonális kiigazítása ......................................................................................................... 175
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
4
8.2.4 Auto- és keresztkorreláció idősorok elemzésénél ............................................................................. 176 8.3 FOGALMAK ............................................................................................................................................... 176 8.4 ELMÉLETI KÉRDÉSEK................................................................................................................................. 176 8.5 TÍPUSFELADATOK ...................................................................................................................................... 177 8.5.1 Feladat .............................................................................................................................................. 177 8.5.2 Feladat .............................................................................................................................................. 179
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
5
1. Bevezető fogalmak
1.1 A matematikai statisztika tárgya
A matematikai statisztika a valószínűségszámítás önálló fejezete, amely a gyakorlat számára
igen nagy jelentőségű. Eredeti motivációját az olyan véletlen tömegjelenségek, röviden
kísérletek mennyiségi, gyakorisági viszonyainak vizsgálata adta, melyek egyrészt
tetszőlegesen sokszor ismétlődhetnek (ezért tömegjelenségek), és minden megismétlődésük
többféle eredménnyel – kimenetellel járhat. Mindemellett nem tudjuk (esetleg nem akarjuk,
mert nem éri meg utánajárni) pontosan megmondani, kiszámítani, melyik ismétlődés
alkalmával melyik kimenetel következik be (ettől indeterminisztikus a tömegjelenség). Példa
ilyen kísérletre egy pénzérme feldobása: tetszőlegesen sokszor feldobhatjuk, de nem tudjuk
határozottan megjósolni, hogy éppen melyik oldalára esik. Nagy számban végbemenő
tömegjelenség pl. az atomi bomlás, sokszor megismételhető tömegjelenség pl. a
szerencsejáték. A levonható törvényszerűségek statisztikai jellegűek, azaz nagyszámú
végrehajtás során átlagosan érvényes törvények.
A matematikai statisztika lényegét foglalja össze az 1. ábra. Sohasem a teljes sokaságot,
hanem az abból alkalmas módon kivett mintát vizsgáljuk, és a minta jellemzői alapján
kívánunk következtetést levonni a teljes sokaságra vonatkozóan. Hangsúlyozzuk, hogy nem a
minta, hanem a teljes sokaság tulajdonságaira vagyunk kíváncsiak, és következtetéseinket
részleges megfigyelések eredményeire alapozzuk.
1. ábra: Mintavételi alapelvek
1.2 Mintavétel, mintavételi hiba
Statisztikai sokaság: A vizsgálat tárgyát képező egységek összességét, halmazát statisztikai
sokaságnak, vagy röviden sokaságnak nevezzük.
Statisztikai sokaságot alkotnak valamely ország lakosai, családjai, egy vállalat munkavállalói,
ha mindegyiküket pl. életkorukkal, az egy főre jutó átlagjövedelmükkel, vagy a munkában
eltöltött éveik számával együtt vesszük tekintetbe. Ugyanígy statisztikai sokaságot alkotnak
egy üzem egy időegységre vonatkozó termelési adatai, darabszámban vagy forintban, vagy a
Sokaság
Minta
Mintavétel
Következtetés
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
6
mezőgazdasági terméseredmények (növény fajtánként vagy területegységenként). Ez utóbbi
esetben az éppen realizálódó értékek sok kisebb vagy nagyobb mértékben ható véletlen
tényezőtől is függnek, s így a megvalósulásra szóba jöhető értékek összessége a konkrét
esetek igen széles körét ölelheti fel. Statisztikai sokasággal állunk szemben minden olyan
esetben, ahol mérésről, megfigyelések gyűjtéséről van szó. Így statisztikai sokasággal
találkozunk a társadalmi-gazdasági vizsgálódások során ugyanúgy, mint a műszaki vagy
természettudományi kutatások esetében.
Amennyiben egy számszerűsíthető tulajdonsággal rendelkező statisztikai sokaságból véletlen
kiválasztással egyedi elemet emelünk ki, eredményül egy véletlentől függő mennyiséget, azaz
egy valószínűségi változót kapunk. A kapott változó eloszlását a statisztikai sokaság
eloszlásának nevezzük.
Ha a statisztikai sokaságból információszerzés céljából véletlenszerűen egyedi elemeket
emelünk ki, mintavételről beszélünk. Ha a sokaság bármely eleme egyenlő valószínűséggel
kerülhet bele a mintába, egyszerű véletlen mintavételről beszélünk.
Statisztikai minta: A statisztikai minta valamely valószínűségi változóra vonatkozó véges
számú független kísérlet vagy megfigyelés (mérés) eredménye: véges sok, azonos eloszlású
független valószínűségi változó együttese.
Az egyes megfigyelési eredményeket a minta elemeinek, a megfigyelések számát a minta
nagyságának vagy elemszámának nevezzük. A minta elemei az alapsokaság eloszlásával
megegyező eloszlású valószínűségi változók.
Mint a felvezetésben láttuk, a matematikai statisztika lényege, hogy a sokaságnak csak egy
részét, vagyis a mintát vizsgáljuk, ezért a statisztikai módszerek alkalmazásakor sohasem
lehetünk biztosak a döntésünkben (kivéve természetesen a 100%-os mintavételt, de az már
nem matematikai statisztika). Következtetésünk természetesen alapvetően a mintán, a
mintából meghatározott jellemzőkön alapul. Ugyanakkor mi nem a minta, hanem az egész
sokaság tulajdonságaira vagyunk kíváncsiak, azaz a részleges megfigyelések eredményeiből
következtetünk a teljes sokaságra. A statisztikai mintavételek és az ebből származó adatokat
felhasználó elemzések, következtetések tehát mindig tartalmaznak hibákat. A hiba szó
jelentése ebben az esetben kissé eltér a hétköznapi szóhasználatban megszokottól. A
statisztikai hiba nem jelent szükségképpen valamilyen tévedést, nem megfelelő
munkavégzést, figyelmetlenséget stb., hiszen a leggondosabban elvégzett mintavétel és
elemzés is tartalmaz hibákat, melyek egy része elkerülhetetlen. A statisztikai hiba, amelynek
egy része a módszertan sajátosságaiból (mintavétel, tömörítés, közelítés, becslés stb.) adódik,
a statisztika szükségszerű velejárója.
A mintavétellel felmerülő hibák alapvetően két nagy csoportba sorolhatók.
Nem mintavételi hiba: A statisztikai hibák közül a mintával kapcsolatos teendőkhöz, az
adatgyűjtéshez kapcsolódó hibát nem mintavételi hibának nevezzük.
A nem mintavételi hiba független attól, hogy teljes körű vagy részleges-e az adatgyűjtés. Ilyen
hibák adódhatnak abból, hogy a vizsgálni kívánt sokaságot nem tudjuk teljesen vagy helyesen
áttekinteni, pontatlan az adatgyűjtés (kérdőív, a mérés stb.), hibásan rögzítik az adatokat stb.
Ezek nagy része elsősorban emberi figyelmetlenségből, nem kellő körültekintésből, hibából (a
szó hétköznapi értelmében), félreértésből stb. származik. Az ilyen hibák tehát függetlenek
attól, hogy a teljes sokaságot vizsgáljuk-e, vagy mintavételt alkalmazunk, ezért ezeket nem
mintavételi hibának nevezzük.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
7
Mintavételi hiba: A statisztikai hiba azon része, amely részleges vizsgálatok (mintavétel)
esetén abból adódik, hogy nem a teljes sokaságot figyeljük meg. A sokaság teljes
megfigyeléséről való lemondás ára.
A mintavétel tervezésekor – nem lebecsülve a nem mintavételi hiba jelentőségét – elsősorban
a jól mérhető, számszerűsíthető mintavételi hibából indulunk ki, és olyan eljárásokat
keresünk, amelyek mellett a mintavételi hiba a lehető legkisebb. A mintavételi hiba a sokaság
jellegén, az alkalmazott mintavételi eljáráson és a szóban forgó mutatószám milyenségén
túlmenően alapvetően a mintanagyságtól függ (2. ábra):
2. ábra: A mintanagyság és a mintavételi hiba kapcsolata
Az ábrából látható, hogy a pontosság és az olcsóság (kicsi mintaszám) egymásnak
ellentmondó követelmények: a mintavételi hiba csökkentésének útja a mintanagyság
növelése. A mintavételek tervezésének éppen ez a kiindulópontja.
1.3 Sokaságok csoportosítása
A statisztikai sokaságoknak többféle típusát különböztethetjük meg. Egyrészt léteznek álló és
mozgó sokaságok, másrészt diszkrét és folytonos sokaságok.
Álló sokaság: Az álló sokaság állapotot fejez ki, adatai időpontra értelmezhetőek.
Álló sokaságnak tekinthető például a Budapesti Műszaki és Gazdaságtudományi Egyetem
foglalkoztatottjainak vagy hallgatóinak létszáma 2013. január 1-jén.
Mozgó sokaság: A mozgó sokaság folyamatot fejez ki, időtartamra értelmezhető.
Mozgó sokaság például a BME-nél történő munkaerő-felvétel vagy az új hallgatók száma
2013 folyamán, vagy például a lakossági gázfogyasztás 2012 decemberében.
Diszkrét sokaság: A diszkrét sokaság elkülönülő egységekből áll.
Az elkülönülő egységek lehetnek például vállalatok, hallgatók, foglalkoztatottak stb.
Folytonos sokaság: A folytonos sokaság olyan tömegből áll, amelynek egységeit önkényesen
határozzuk meg.
mintanagyság
mintavételi
hiba
mintanagyság
mintavételi
hiba
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
8
Folytonos sokaság pl. a gázfogyasztás, kőolajtermelés, búza vetésterülete stb.
A statisztikai sokaság tartalmazhat véges vagy végtelen számosságú egyedet. A társadalmi-
gazdasági jelenségek vizsgálatakor általában véges sokaságokkal van dolgunk, e
megfigyelések ugyanis térben és időben pontosan lehatárolt egyedek összességére
vonatkoznak. Végtelen sokaságokkal a kísérletek tervezése és elemzése során, illetve
különböző folyamatok modellezésénél találkozunk.
1.4 Ismérvek
A sokasággal összefüggő fogalom az ismérv.
Ismérv: Olyan szempont(ok), amely(ek) alapján a sokaságot megfigyeljük, a sokaság
egységeinek jellemzője.
Így ismérv pl. foglalkoztatottaknál a jövedelem nagysága, a nem, a betöltött munkakör,
részvényeknél a hozam vagy az árfolyam.
A sokaság egységei bizonyos jellemzők szerint egyformák, ezek a közös ismérvek. Más
jellemzők tekintetében különböznek, ezek a megkülönböztető ismérvek. Így például, ha
Magyarország területén működő felsőoktatási intézmények képezik a megfigyelt sokaságot
(2013. január 1-jén), a közös ismérvek például a területi megjelölés (Magyarország), a
tevékenység jellege (felsőoktatás), és az időponti megjelölés (2013.01.01.). Megkülönböztető
ismérvek például a foglalkoztatottak száma, a szakok száma, a hallgatók száma, a
tőkeállomány nagysága, az intézmény létesítésének éve stb.
Ismérv változat: Az ismérv lehetséges kimeneteleit ismérv változatnak (tulajdonságnak)
nevezzük.
Alternatív ismérv: A két változattal rendelkező ismérvet alternatív ismérvnek nevezzük.
Például népesség vizsgálata esetén a nemhez való tartozás: férfi, nő, vagy legyártott termékek
vizsgálata esetén: selejtes, nem selejtes.
Mennyiségi ismérv: Méréses jellemző, kvantitatív változó. A sokaság egységeire vonatkozó
számszerű megjelölést jelent, egy számmal írható le, amellyel matematikai műveletek
végezhetők.
Mennyiségi ismérv például foglalkoztatottak esetében a kereset nagysága, vagy az életkor,
gazdálkodó szervezetek esetében például a tőkeállomány.
Nem mennyiségi ismérv: A sokaság egységeire vonatkozóan valamilyen kategóriát rögzít,
típusa szerint lehet időbeli, területi és minőségi ismérv.
Az időbeli ismérv a sokaság egységeire vonatkozó időponti vagy időtartam megjelölést
jelent: pl. egy vállalat létesítésének éve vagy működésének időtartama. A területi ismérv a
sokaság egységeire nézve földrajzi elhatárolást fejez ki (így pl. az egyes felsőoktatási
intézményeket megkülönböztető területi ismérv, hogy melyik megyében találhatók). A
minőségi ismérv (minősítéses jellemző) a sokaság egységeinek valamilyen minőségi
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
9
tulajdonság szerinti megjelölése (pl. a foglalkoztatottak nem, vagy munkakör szerinti
hovatartozása).
Az ismérvek különböző típusaival összefüggésben foglalkozni kell azok méréselméleti
kérdéseivel. E szempontok figyelmen kívül hagyásával előfordulhat, hogy nem megfelelően
választjuk meg az alkalmazható módszereket, illetve műveleteket.
1.5 Mérési skálák
A mérés során bizonyos hozzárendelési szabályok alapján szimbólumokat, számokat
rendelünk dolgokhoz, tulajdonságokhoz. Ezek a hozzárendelési szabályok, illetve a mérés
során alkalmazott számsoroktól elvárt tulajdonságok határozzák meg a mérési skálát. Ennek
alapján négy különböző skálatípust különböztetünk meg:
1. névleges (nominális) skálát,
2. sorrendi/rangsor (ordinális) skálát,
3. intervallumskálát és
4. arányskálát.
A mérési skálákat, a mérés szintjét a hozzárendelési szabályok határozzák meg. Mindegyik
skálát invarianciájának mértékével lehet jellemezni, vagyis azokkal a transzformációkkal,
amelyek a skála struktúráját változatlanul hagyják.
Mielőtt az egyes skálákat részletesebben ismertetnénk, a számokból alkotható formális
rendszerek néhány lényeges vonását kell megvizsgálnunk. A számok különféle relációk és
műveletek szerint alkothatnak formális rendszert. A rendszert alkotó relációk és műveletek
közül az egyenlőség, a sorrendiség és az additivitás minősül lényegesnek a mérési skálák
meghatározása szempontjából.
Az egyenlőséget, a sorrendiséget és az additivitást a következő axiómák szerint írhatjuk le:
l. vagy A=B vagy AB
2. ha A=B, akkor B=A
3. ha A=B és B=C, akkor A=C
4. ha AB, akkor B<A
5. ha AB és BC, akkor AC
6. ha A=P és B0, akkor A+BP
7. A+B=B+A
8. ha A=P és B=Q, akkor A+B=P+Q
9. (A+B)+C=A+(B+C)
Az 1.-3. axióma az egyenlőség, a 4-5. a sorrendiség, a 6-9. az additivitás (összeadás)
axiómái. Ezeket az axiómákat használjuk a mérési skálák megkülönböztetésére, vagyis a
hozzárendelési szabályok a fenti axiómákban fejeződnek ki.
1.1.1 Névleges (nominális) skála
A névleges mérési szint a legegyszerűbb mérési forma. A névleges skálán az objektumokhoz
rendelt szimbólumok, számok csak az objektumok, vagy azok bizonyos osztályainak
azonosítására szolgálnak. A hozzárendelés teljesen kötetlen, a jelölésre bármilyen szimbólum,
szám alkalmazható. A skálán a megkülönböztethetőséget követeljük meg, csak az egyenlőségi
reláció értelmezhető, ez azt jelenti, hogy két objektum egyenlő vagy különböző.
A névleges számhozzárendelésnek tehát két típusát ismerjük:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
10
- az egyedi objektumok azonosító számozása;
- osztályok azonosítása (az egyes osztályokon belül lévő objektumok azonos számot
kapnak).
A jelölésre tehát bármilyen szám megfelel. A hozzárendelési szabály ebben az esetben a
következő: ne rendeljünk azonos számokat különböző osztályokhoz (dolgokhoz) vagy
különböző számokat azonos osztályokhoz (dolgokhoz, jelenségekhez, személyekhez stb.).
Névleges mérési szintet jelent pl. a termékek azonosító számozása, az útlevélszám,
repülőjárat-számok, sportban a mezszámok. Osztályok esetén meghatározható az egyes
osztályokba tartozó egységek száma (tehát a gyakoriság), ill. meghatározható a legnagyobb
gyakorisággal rendelkező osztály (modális osztály), és így a módusz.
1.1.2 Sorrendi (ordinális) skála
A névleges skála továbbfejlesztésének legegyszerűbb lépése, ha két dolgot valamilyen közös
tulajdonság alapján hasonlítunk össze. A gyakorlatban számos olyan eset van, amikor a
megfigyelendő dolgokat valamilyen közös tulajdonságuk alapján hasonlítjuk össze és állítjuk
sorrendbe vagy másképpen kifejezve rangsort készítünk. Hangsúlyoznunk kell, hogy a
sorrendi skálán mért dolgoknak egy közös tulajdonság szerint kell összehasonlíthatóknak és
tranzitívnak lenni.
A sorrendi skála az egységek viszonylagos helyét is meghatározza, rendezi azokat, így az
egyenlőségi axiómákat a sorrendiségét tükröző 4. és 5. axiómával egészítjük ki, vagyis e skála
a kisebb (<) és nagyobb () relációkat is tartalmazza. A sorrendi skálán mért dolgok
nincsenek egymástól egyenlő távolságra, vagyis az egymást követő intervallumok nem azonos
nagyságúak. Ezért a sorrendi skála számaival csak azokat a műveleteket végezhetjük, amelyek
nem tételezik fel az intervallumok azonosságát. Bármilyen „sorrendmegőrző” transzformáció
a skálát változatlanul hagyja, ezért bármelyik monoton növekvő függvény szerint
transzformálhatunk. A statisztikai műveletek közül alkalmazhatjuk a névleges mérésre
engedélyezett műveleteket, továbbá számíthatunk mediánt, kvantiliseket és rangkorrelációs
együtthatót1.
Például a két közismert statisztikai jellemzőt – a számtani átlagot és szórást – szigorúan véve
nem számíthatjuk ki a sorrendi mérés szintjén nyert számokból. A sorrendet jelölő mindegyik
számhoz hozzáadhatunk egy állandó számot vagy vehetjük a sorszámok logaritmusát,
négyzetét, stb., ezek a sorrendmegőrző transzformációk.
Ordinális mérési szintnek felel meg a termékek minőségi osztályba sorolása, kérdőíves
felméréseknél egy-egy kérdésre adott válasz 3, 5, vagy 7 fokozatú skálán történő mérése.
Megjegyezzük, hogy jelenleg számos gazdasági, társadalomtudományi jelenséget csak
sorrendi skálán mérhetünk. Az így kapott számok gyakran magasabb szintű mérésnek tűnnek,
s ezért sajnos gyakori a nem engedélyezett műveletek alkalmazása, amelynek eredménye a
homályos vagy félrevezető értelmezés.
1 A rangkorrelációs együttható tárgyalása nem témája jegyzetünknek. Röviden annyit jegyeznénk meg, hogy a
rangkorrelációs együttható két sorrendi skálán mérhető ismérv közötti kapcsolat szorosságát méri, szemben a
jegyzetben a későbbiekben tárgyalni kívánt korrelációs együtthatóval, amely arányskálán mért ismérvek közötti
kapcsolat szorosságát képes mérni.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
11
1.1.3 Intervallumskála (különbségskála)
Az intervallumskála rendelkezik a sorrendi skála tulajdonságaival, továbbá a skálán lévő
bármelyik két pont közötti különbség, távolság (a különbségek összege és aránya) is
értelmezhető. Az intervallumskálát a közös és állandó mértékegység jellemzi és a számokat
ennek alapján rendeljük a sorba rendezett dolgokhoz. Az intervallumskálán nincs rögzített
nullpont, a skála nullpontját és mértékegységét ebben az esetben szabadon választhatjuk meg.
A skála bármilyen lineáris transzformációja megengedett.
A hőmérsékletet véve példaként: ha egyik nyári napon reggel +12°C, 14 órakor +36°C
hőmérsékletet mértek, e két értéket nem lehet összeadni és az összegét értelmezni, vagy nem
lehet azt mondani, hogy 14 órakor háromszor olyan meleg volt, mint reggel. A különbség
viszont, a +24°C hőmérséklet-emelkedés értelmezhető. (Ráadásul, ha a hőmérsékletet nem
Celsius-fokban, hanem Fahrenheit fokban fejezzük ki, egészen más értéket kapunk).
Intervallumskálán mérjük a naptári időt, a tengerszint feletti magasságot, bizonyos
pszichológiai, pszichofizikai jelenségeket, az intelligenciát, a szélességi-hosszúsági köröket, a
vízállást stb. Az intervallumskálán nyert adatokból a mértani átlag és a relatív szórás
kivételével valamennyi statisztikai jellemző és mutató számítható.
1.1.4 Arányskála (abszolút skála)
Az arányskála rendelkezik az előbbi skálák összes tulajdonságával, valamint a 6-9.
axiómákban megfogalmazott additivitási tulajdonsággal is. Az arányskálának valódi
nullpontja van és bármelyik két pontjának aránya független a mértékegységtől. Az
arányskálának mindig van abszolút nullpontja még akkor is, ha ezt gyakorlatilag nem lehet
elérni. Az arányskála számszerű értékei egy konstans értékkel való szorzással
transzformálhatók.
Tömeget, hosszúságot, villamos ellenállást, és általában a klasszikus műszaki tulajdonságokat
arányskálán mérjük. Így az arányskálák a műszaki és természettudományokban gyakoriak,
míg a gazdaság-, társadalomtudományok területén ritkán használatosak. Az arányskálán
kapott számokkal az összes aritmetikai és statisztikai művelet elvégezhető.
A mérési skálák négy szintje hierarchikusan épül egymásra, minden skála rendelkezik az őt
megelőző skála tulajdonságaival is. Az ismérvek és a skálák közötti kapcsolatot szemlélteti az
alábbi ábra (3. ábra).
3. ábra: Az ismérv típusok és a mérési skálák közötti kapcsolat (forrás: Kerékgyártóné et al., 2001)
Ismérv Mérési skála
Területi
Minőségi
Mennyiségi
Időbeli
Nominális skála
Sorrendi skála
Intervallum skála
Arányskála
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
12
2. Leíró statisztika
2.1 A leíró statisztika tárgya
A számszerű információ, annak mérése és elemzése alapvető szerepet játszik a társadalmi és
gazdasági jelenségek elemzésében. E számszerű adatok a legtöbb esetben azzal a
sajátossággal rendelkeznek, hogy a megfigyelésük, a feldolgozásuk, elemzésük és az elemzés
eredményeinek felhasználása tudományos módszereket igényel.
A statisztika kifejezést többféle értelmezésben is használják. A két legáltalánosabb
értelmezés: 1. statisztikai adatok, illetve azok előállításával kapcsolatos gyakorlati
tevékenység; 2. statisztikai módszertan. Így statisztikának nevezzük a tömegesen előforduló
jelenségek adatait, az ún. statisztikai számanyagot, de azt a tevékenységet is statisztikának
hívjuk, amely az adatok gyűjtését, rendezését, tömörítését, elemzését foglalja magában. A
módszertan pedig az a statisztikai gyakorlati tevékenység, amely a statisztikai következtetések
elméletével, módszereivel foglalkozik (Kerékgyártóné et al., 2001).
A statisztikai módszertannak többféle ágát szokás megkülönböztetni. Az általános statisztikai
módszertanon belül különbséget teszünk leíró (deskriptív) és következtető statisztika között.
A jegyzet e részében a leíró statisztika eszközeivel és módszereivel ismerkedünk.
A leíró statisztika célja a vizsgálat tárgyát képező jelenség tömör, számszerű jellemzése az
adatok rendezése és elemzése alapján. Nem lép túl a megfigyelésen, de a megfigyelt adatok
legjobb megértésére, bemutatására, összefoglaló jellemzésére törekszik gazdag eszköztára
segítségével.
Ezzel szemben a következtető statisztika célja a mintából történő következtetés és
általánosítás a teljes sokaságra vonatkozóan (pl. néhány ezer háztartás jövedelmi adataiból
megfelelő pontossággal megbecsülhető, hogy a magyar lakosság körében milyen jövedelmi
különbségek vannak, vagy a gyártósorról lekerülő termékekből vett minta alapján
következtethetünk a gyártás bizonyos jellemzőire), vagyis a jelenségekre, folyamatokra
vonatkozóan olyan megállapításokat tehetünk, amelyek nem csak a közvetlen megfigyelésen
alapulnak. A mai bonyolult társadalmi-gazdasági jelenségek vizsgálatakor a mintavételes
eljárások a gyakoribbak, mert a jelenségek teljes körű felmérése erőforrás-igényes feladat.
A leíró statisztika a megfigyelt adatok bemutatását, összefoglaló jellemzését tűzi ki célul, és
ehhez az elemzéshez sokoldalú eszköztárt kínál, ebben a fejezetben célunk ennek az
eszköztárnak a bemutatása.
2.2 A statisztikai leírás célja, módszerei
Ahogy azt fentebb is összefoglaltuk, a leíró statisztika a numerikus információk
összegyűjtését, az információk összegzését, tömör jellemzését szolgáló módszereket foglalja
magában, legfontosabb területei:
adatgyűjtés
adatok ábrázolása
adatok csoportosítása, osztályozása
adatokkal végzett egyszerűbb aritmetikai műveletek
eredmények megjelenítése
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
13
2.2.1 Adatgyűjtés
Az egyedi mérésekből származó adatok (mennyiségi ismérvek) lehetnek diszkrétek és
folytonosak.
Egy diszkrét mennyiségi ismérv csak véges vagy megszámlálhatóan sok, egymástól jól
elkülöníthető értéket vehet fel.
Például háztartások nagysága, téves telefonhívások száma, balesetek száma, adott időszak
alatt bekövetkező gépmeghibásodások száma stb.
Egy folytonos mennyiségi ismérv valamely adott intervallumon belül bármilyen értéket
felvehet.
Például háztartások havi jövedelme, lakások alapterülete, átmérő, nyúlás, gépkocsi abroncsok
futásteljesítménye, nedvességtartalom.
2.2.2 Az adatok ábrázolása
1. Táblázat
Képzési terület Összes hallgató
(fő)
Ebből nő,
%
Tanárképzés, oktatástudomány 53 563 71,2
Művészetek 5 463 56,9
Humán tudományok 26 932 69,1
Társadalomtudományok 44 772 65,0
Gazdaság és irányítás 87 651 66,2
Jog 18 474 61,7
Természettudományok 7 217 47,1
Informatika 12 791 20,8
Műszaki tudományok 50 974 18,3
Mezőgazdaság 11 773 45,5
Egészségügy, szociális gondoskodás 31 751 76,2
Szolgáltatás 29 271 57,3
Összesen 380 632 57,8
4. ábra: Példa oszlopdiagramra
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
14
5. ábra: Példa kördiagramra
6. ábra: Példa sávdiagramra
7. ábra: Példa vonaldiagramra
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
15
8. ábra: Adatok ábrázolása piktogram segítségével
2.3 Tapasztalati eloszlások
2.3.1 Mennyiségi ismérv szerinti rendezés és osztályozás
Ebben a fejezetben olyan X mennyiségi ismérvekkel dolgozunk, melyeknek a megfigyelt
sokaság egységeinel fellépő Xi változatai különbségi vagy arányskálán mért, valamilyen
mértékegységgel rendelkező számértékek, mivel osztályozáson túlmenő elemzésre csak így
nyílik lehetőség. Az ilyen mennyiségi ismérvet ezután legtöbbször változónak, az Xi
ismérvértékeket pedig többnyire (ismérv)értékeknek nevezzük.
Az Xi ismérvértékek számszerű jellegében rejlő egyik legkézenfekvőbb lehetőség a sokaság
egységeinek sorba rendezése az X változó nagysága szerint. Ezt rendszerint monoton
nemcsökkenő módon szokás véghezvinni. A sorbarendezés eredményét rangsornak
nevezzük.
A rangsor a megfigyelési egységeknek és/vagy azokhoz tartozó Xi ismérvértékeknek monoton
nemcsökkenő sorrendben történő felsorolása.
A rangsor gyakran kizárólag abból a célból készül, hogy megkönnyítse a sokaság egységeinek
X változó szerinti osztályozását. Az osztályozás már egyértelműen az Xi alapadatokban rejlő
információ sűrítését jelenti. Az X szerinti körültekintő osztályozás eredménye és annak
grafikus ábrája sok információt szolgáltat a vizsgált jelenség természetéről.
Az osztályozás eredményét gyakorisági sornak vagy gyakorisági eloszlásnak nevezzük.
Általános sémáját mutatja az alábbi ábra.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
16
9. ábra: Gyakorisági sor
A táblázatban látható alsó és felső határok az X ismérv szerint képzett osztályok
elhatárolására szolgálnak. Az egyes osztályok Xi0 alsó és Xi1 felső határai bizonyos esetekben
egybeesnek, máskor nem. Ez utóbbi esetben osztályközös gyakorisági sorról beszélünk.
Az fi gyakoriságok rendre azt mutatják, hogy a sokaságnak hány egysége tartozik az X változó
szerinti i-edik osztályba.
A belőlük képzett gi gyakoriságok a relatív gyakoriságok: gf
ni
i
A gi relatív gyakoriságok rendre azt mutatják, hogy a sokaságnak hány %-a tartozik az X
változó szerinti i-edik osztályba, vagyis milyen a sokaság megoszlása az egyes osztályok
között.
Az Xi*-gal jelölt osztályközepek arra szolgálnak, hogy a később részletezendő esetekben az i-
edik osztályba sorolt összes ismérvértéket helyettesítsék. Az i-edik osztály osztályközepét az
i-edik osztály alsó és felső határának egyszerű számtani átlagaként adjuk meg:
)(2
110 iii XXX
Térjünk vissza az X ismérv szerint képzett osztályok elhatárolásának kérdésére. Két esetet
célszerű megkülönböztetni:
1. Az X változó diszkrét, és az általa felvehető értékek száma kicsi. Ebben az esetben a
megfigyelt sokaság egységeinek X szerinti osztályozása igen egyszerű. Annyi osztályt
képezünk, ahány különböző X érték lehetséges, és az egyes osztályok a sokaság azon
egységeiből állnak, melyeknél az X ismérvnek egy-egy adott értéke lép fel. Ekkor az i-
edik osztály esetében fennáll az alsó és felső osztályhatár egybeesése.
2. Az X változó folytonos, vagy diszkrét ugyan, de az általa felvehető különböző
értékek száma nagy. Ebben az esetben X lehetséges értékeinek tartományát alkalmas
osztópontok kijelölése útján egymást át nem fedő intervallumokra, ún.
osztályközökre bontjuk, és az i-edik osztályközbe a sokaság azon egységeit soroljuk
be, melyekre nézve 10 ii XXX áll fenn. Mivel az egymást követő osztályközök
nem fedhetik át egymást, az i-edik osztályköz Xi1 felső határa nem eshet egybe az
(i+1)-dik osztályköz Xi+1,0 alsó határával. Az Xi0 legalsó és Xk1 legfelső határ
megadása viszont nem kötelező, mert magához az X változó szerinti osztályozáshoz e
két érték ismerete nem feltétlenül szükséges.
Az X szerint képzett osztály
Osztály-közép
abszolút relatív
alsó felső gyakoriság
határa
X10 X11 X1* f1 g1
X20 X21 X2* f2 g2
Xi0 Xi1 Xi* fi gi
… … … … …
Xk0 Xk1 Xk* fk gk
Összesen N 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
17
Osztályközhosszúságnak a 01 iii XXh különbséget szokás tekinteni. Mi olyan esetekkel
foglalkozunk, ahol az egyes osztályok osztályközhosszúsága megegyezik.
Még egy lényeges kérdés van: hogyan dönthető el, hogy adott esetben hány osztályt
képezzünk, illetve milyen hosszúságú osztályközöket alakítsunk ki?
Ezzel kapcsolatban csak meglehetősen általános útmutatást lehet adni: mindig annyi és olyan
hosszúságú osztályközt képezzünk, hogy a kapott gyakorisági sor:
könnyen áttekinthető legyen;
hagyja megmutatkozni a sokaság egységeinek az X változó nagysága szerinti
megoszlásában mutatkozó szabályszerűséget;
előnyös, ha az osztályközök határai és/vagy hosszúságai és/vagy az osztályközepek
kerek számok.
Mindez a tömörítés és részletezés közötti kompromisszumok kereséséről szól. Az osztályozás
egyrészről információveszteséggel jár, hiszen az egységek egyedi tulajdonságaira vonatkozó
ismereteink elvesznek. Ugyanakkor egy jó osztályozás jelentősen megkönnyíti a vizsgált
jelenség egészének áttekintését, ami viszont bizonyos többletinformáció az alapadatokhoz
képest. Ezért minden osztályozás során törekedni kell az osztályozás révén előálló
információveszteség és információnyereség bizonyos egyensúlyára. A túl kevés osztályköz
nagy információveszteséghez vezethet, túl sok osztály esetén pedig nem tud érvényesülni a
gyakoriságok alakulásában többnyire jelenlévő szabályszerűség.
Az osztályok ésszerű számát illetően jó támpont lehet k azon legkisebb k0 értéke, amelyre már
Nk
02
áll fenn. Ha osztályközös gyakorisági sor képzésére van szükség, és egyenlő hosszúságú
osztályközöket kívánunk kialakítani, akkor a k0-nak megfelelő osztályközhosszúság
0
minmax
0k
XXh
ahol Xmin, ill. Xmax az X változó legkisebb, ill. legnagyobb előforduló értéke. Semmiképpen
sem merev szabályról van szó, hiszen teljesen elfogadott gyakorlat a h0 érték nagyvonalú
kerekítése is. A legmegfelelőbb megoldás érdekében célszerű többféle osztályközszámmal
és/vagy –hosszúsággal is kísérletezni, és az osztályozási eredményeket grafikusan is ábrázolni
és összehasonlítani. A gyakorlati tapasztalatok szerint egy osztályozás akkor megfelelő,
ha az osztályok számának és határainak egy bizonyos sávon belüli változtatása nem
nagyon befolyásolja a grafikus képet. A gyakorlatban ehhez 5-15 osztály használata
szinte mindig elegendő.
Eddig egyenlő hosszúságú osztályközökről esett szó, de ezek alkalmazása nem mindig
kötelező és nem is mindig célszerű. Ha az X ismérv legnagyobb és legkisebb értéke közötti
különbség nagy, és a sokaság egységei nem egyenletesen helyezkednek el az adott
intervallumon belül, hanem annak valamely szakaszára tömörülnek, akkor célszerűbb
egyenlőtlen hosszúságú osztályközöket használni.
2.3.2 Mennyiségi sorok grafikus ábrázolása
Az adatok ábrázolásának általános lépései a következők:
1. Osztályba sorolás (folytonos adatok és nagyszámú diszkrét megfigyelés esetén);
2. gyakoriságok (fi) megállapítása;
3. relatív gyakoriságok (gi) megállapítása:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
18
gf
ni
i ,
ahol n a megfigyelt elemek száma;
4. összegzett (kumulált) gyakoriságok (fi’), illetve összegzett relatív gyakoriságok (gi’)
megállapítása;
5. gyakorisági táblázat készítése (fi , gi , fi’ , gi’ adataiból);
6. gyakorisági (relatív gyakorisági), illetve összegzett gyakorisági (relatív gyakorisági)
hisztogramok (folytonos adatok esetén a poligon és az ogiva) felvétele (tapasztalati
eloszlások elkészítése);
7. grafikus ábrázolás.
A mennyiségi sorok közül elsősorban a (relatív) gyakorisági és a kumulált (relatív)
gyakorisági sorokat szokás ábrázolni vonal-, ill. oszlopdiagramok segítségével. A gyakorisági
sor oszlopdiagramját hisztogramnak, vonaldiagramját pedig gyakorisági poligonnak
nevezik. A vízszintes tengelyre mindig az X ismérv értékei kerülnek, a függőleges
tengelyen pedig a (relatív) gyakoriságok, ill. kumulált (relatív) gyakoriságok
szerepelnek.
Példa (kevés számú diszkrét adat)
A Gazdaságstatisztika c. tárgyat a 2012 őszi félévben teljesíteni kívánó 760 hallgató végső
érdemjegyeinek gyakoriságát és relatív gyakoriságát foglalja össze az alábbi táblázat.
2. Táblázat: A Gazdaságstatisztika c. tárgyat a 2012 őszi félévben felvett hallgatók érdemjegyeinek gyakorisági
táblázata
Érdemjegy Tapasztalati gyakoriság (fi) Relatív gyakoriság (gi)
1 68 0,089
2 280 0,368
3 274 0,361
4 91 0,120
5 47 0,062
Összesen 760 1
A relatív gyakoriságok ábrázolási módja ilyen diszkrét adatok esetében:
10. ábra: Relatív gyakoriságok ábrázolása diszkrét adatok esetén
0,089
0,3680,361
0,120
0,062
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
0,400
0 1 2 3 4 5
Re
latí
v gy
ako
risá
g
Érdemjegyek
Pálcikadiagram
Érdemjegyek relatív gyakorisági értékei
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
19
Kevésféle értéket felvevő diszkrét mennyiségi ismérvek esetében csakis az ábrázolni kívánt
(relatív) gyakoriságokkal arányos hosszúságú, valamilyen feltűnő módon megjelölt végpontú
egyenes szakaszokkal történhet az ábrázolás. Az ilyen ábrát pálcikadiagramnak nevezik.
A kumulált (összegzett) gyakorisági táblázat és hisztogram:
3. Táblázat: Gyakorisági táblázat
11. ábra: Kumulált relatív gyakoriságok ábrázolása diszkrét adatok esetén
Példa (nagyszámú folytonos adat)
Mint későbbi tanulmányaink (pl. Vállalati pénzügyek) során látni fogják, a gazdasági
elemzéseknél gyakran szükség van a részvényektől elvárt hozam becslésére. (A részvények
elvárt hozama időben viszonylag stabil, így a jövőre vonatkozó becsléseinket múltbeli
adatainkra alapozhatjuk).
A Budapesti Értéktőzsde Részvényindexének (BUX) 2005 márciusától 2013 júniusáig tartó
időszak havi hozamainak értékeit az alábbi táblázatban foglaltuk össze.
Tekintve, hogy a 2008. októberi adat (-33,44%) a többi adatot tekintve erősen kiugrónak
számít, így ezt az adatot elemzésünkből elhagyjuk, és a maradék 99 adat alapján végezzük el a
leíró statisztikai elemzést.
Érdemjegy
Tapasztalati
gyakoriság (fi)
Relatív
gyakoriság (gi)
Kumulált tapasztalati
gyakoriság (fi')
Kumulált relatív
gyakoriság (gi')
1 68 0,089 68 0,089
2 280 0,368 348 0,458
3 274 0,361 622 0,818
4 91 0,120 713 0,938
5 47 0,062 760 1,000
Összesen 760 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
20
4. Táblázat: BUX index havi hozamadatok
A fenti példánk alapján a gyakoriság táblázat:
5. Táblázat: Bux index havi hozamadatainak gyakorisági táblázata
alsó határ felső határ fi f’i gi [%] g’i [%]
-20,00% -15,00% 2 2 2,02% 2,02%
-15,00% -10,00% 9 11 9,09% 11,11%
-10,00% -5,00% 9 20 9,09% 20,20%
-5,00% 0,00% 23 43 23,23% 43,43%
0,00% 5,00% 32 75 32,32% 75,76%
5,00% 10,00% 15 90 15,15% 90,91%
10,00% 15,00% 8 98 8,08% 98,99%
15,00% 20,00% 1 99 1,01% 100,00%
összesen 99 100,00%
Osztályközös gyakorisági sorok esetében egymás mellé állított oszlopokkal történhet a
gyakoriságok vagy kumulált gyakoriságok ábrázolása. Vonaldiagramok esetében az egymás
után következő oszlopok felső éleinek középpontját kötjük össze egyenes szakaszokkal. Ez
utóbbi esetben a legelső és a legutolsó középpontot szokás összekötni az X tengely azon
pontjaival, amelyek az első osztályközt megelőző, illetve az utolsó osztályközt követő, e két
osztályközzel azonos hosszúságú fiktív osztályköz középpontjának felelnek meg.
Oszlopdiagram ábrázolásánál az oszlopok területe kell, hogy arányos legyen az ábrázolni
kívánt gyakorisággal vagy más adattal.
hónap hozam hónap hozam hónap hozam hónap hozam
2005. március -7,188% 2007. április 8,200% 2009. május 14,878% 2011. június -2,963%
2005. április -4,360% 2007. május 4,917% 2009. június 2,533% 2011. július -4,857%
2005. május 3,185% 2007. június 7,997% 2009. július 12,038% 2011. augusztus -15,731%
2005. június 10,292% 2007. július 1,152% 2009. augusztus 11,520% 2011. szeptember -15,778%
2005. július 10,053% 2007. augusztus -6,569% 2009. szeptember 4,223% 2011. október 10,947%
2005. augusztus 4,021% 2007. szeptember 3,616% 2009. október 1,698% 2011. november 0,196%
2005. szeptember 6,182% 2007. október -3,696% 2009. november 1,132% 2011. december -3,817%
2005. október -11,159% 2007. november -6,113% 2009. december 1,999% 2012. január 10,699%
2005. november 3,112% 2007. december 1,836% 2010. január 2,808% 2012. február 2,072%
2005. december -1,857% 2008. január -11,116% 2010. február -2,616% 2012. március -3,433%
2006. január 6,599% 2008. február 0,111% 2010. március 13,104% 2012. április -2,173%
2006. február 4,480% 2008. március -7,927% 2010. április 2,119% 2012. május -12,454%
2006. március -0,669% 2008. április 3,986% 2010. május -11,369% 2012. június 7,427%
2006. április 5,447% 2008. május -0,057% 2010. június -4,881% 2012. július 0,385%
2006. május -13,671% 2008. június -10,216% 2010. július 5,612% 2012. augusztus 0,606%
2006. június 0,764% 2008. július 8,558% 2010. augusztus 1,320% 2012. szeptember 5,956%
2006. július 5,398% 2008. augusztus -5,564% 2010. szeptember 2,963% 2012. október 3,343%
2006. augusztus -2,072% 2008. szeptember -10,735% 2010. október -0,402% 2012. november -5,098%
2006. szeptember -1,713% 2008. október -33,440% 2010. november -11,464% 2012. december -0,505%
2006. október 2,883% 2008. november -6,192% 2010. december 3,276% 2013. január 6,368%
2006. november 2,161% 2008. december -3,634% 2011. január 6,280% 2013. február -2,950%
2006. december 8,234% 2009. január -6,110% 2011. február 1,946% 2013. március -5,170%
2007. január -3,210% 2009. február -12,233% 2011. március -0,414% 2013. április 2,372%
2007. február -2,902% 2009. március 8,298% 2011. április 4,667% 2013. május 5,203%
2007. március 0,222% 2009. április 15,066% 2011. május -3,304% 2013. június -1,247%
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
21
12. ábra: Relatív gyakoriság vonaldiagramja
Folytonos mennyiségi ismérv esetén, ha a gyakorisági hisztogramot úgy alakítjuk ki, hogy az
oszlopok összterülete 1, a kapott ábrát az X változó szerinti empirikus sűrűségfüggvénynek
szokás nevezni.
13. ábra: Empirikus sűrűségfüggvény (relatív gyakorisági hisztogram)
Empirikus eloszlásfüggvény: A kumulált relatív gyakorisági sor oszlopdiagramja.
Ezek az elnevezések a valószínűségszámítás és a matematikai statisztika közötti szoros
kapcsolatra hívják fel a figyelmet.
2,02%
9,09%
9,09%
23,23%
32,32%
15,15%
8,08%
1,01%
0%
10%
20%
30%
40%
50%
-17,50%-12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%
Re
latí
v gy
ako
risá
g
Osztályközép
2,02%
9,09% 9,09%
23,23%
32,32%
15,15%
8,08%
1,01%
0%
10%
20%
30%
40%
50%
-17,50% -12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%
Re
latí
v gy
ako
risá
g
Osztályközép
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
22
A kumulált relatív gyakoriság vonaldiagramja:
14. ábra: Kumulált relatív gyakoriság vonaldiagramja
Kumulált relatív gyakorisági hisztogram (tapasztalati eloszláskép, empirikus
eloszlásfüggvény):
15. ábra: Empirikus eloszlásfüggvény (kumulált relatív gyakorisági hisztogram)
Ha elképzeljük, hogy a vizsgált sokaság végtelen nagy, és oly módon ábrázoljuk a hozzá
tartozó gyakorisági sort, hogy a használt osztályközök hossza egyre kisebb, azaz 0-hoz tart,
akkor a gyakorisági poligon folytonos görbébe megy át, amit az X ismérv gyakorisági
görbéjének nevezünk. A gyakorisági görbe a gyakorisági poligon (hisztogram) elméleti
határesete, egyfajta matematikai modellje. A gyakorisági görbe ugyanis mindig megadható az
ismérvértékek valamilyen függvényeként.
A folytonos adatok eloszlásfüggvényét folytonos vonallal is összeköthetjük, és az így kapott
görbét ogivának nevezzük. Ez azt mutatja meg, hogy megközelítően milyen lenne a
tapasztalati eloszlásfüggvény, ha az osztályközöket minden határon túl csökkentenénk, az
osztályközökbe eső adatok számát pedig minden határon túl növelnénk.
2,02%
11,11%
20,20%
43,43%
75,76%
90,91% 98,99% 100,00%
0%
20%
40%
60%
80%
100%
-17,50% -12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%
Ku
mu
lált
re
latí
v gy
ako
risá
g
Osztályközép
2,02%
11,11%
20,20%
43,43%
75,76%
90,91% 98,99% 100,00%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
-17,50% -12,50% -7,50% -2,50% 2,50% 7,50% 12,50% 17,50%
Ku
mu
lált
re
latí
v gy
ako
risá
g
Osztályközép
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
23
16. ábra: Példa ogivára
Az ogivát felhasználhatjuk egy adott értéknél kisebb értékek számának vagy relatív
gyakoriságának meghatározására. Fordítva is eljárhatunk, vagyis megállapíthatjuk azt az
értéket, amelyik alá adott relatív gyakorisággal esnek az adatok. Az ilyen értékeket
kvantiliseknek nevezzük (lásd 2.4.3 alfejezet).
2.4 Tapasztalati eloszlások jellegzetességei
2.4.1 Helyzetmutatók (középértékek)
A középérték mutatók a gyakorisági eloszlás helyzetét egyetlen, az adatokkal azonos
mértékegységű számértékkel jellemzik. E középértékekkel kapcsolatos elvárásaink, hogy
legyenek:
közepes helyzetűek,
tipikusak,
egyértelműen meghatározhatóak,
könnyen értelmezhetőek.
Ezeknek az elvárásoknak az egyes középérték-mutatók különféle módokon tesznek eleget.
A középérték-mutatóknak két nagy csoportja ismeretes:
Helyzeti középértékek: az adatok közötti elhelyezkedésüknél fogva jellemzik a
vizsgált gyakorisági eloszlás helyzetét.
o Medián
o Módusz
Számított középértékek: az adatokkal kapcsolatos számszerű összefüggésük révén
jellemzik a vizsgált gyakorisági eloszlás helyzetét.
o Számtani átlag
o Mértani átlag
o Harmonikus átlag
o Négyzetes átlag
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
Ku
mu
lált
re
latí
v gy
ako
risá
g
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
24
2.4.1.a Medián (Me)
Jellemzői: helyzeti középérték, közepes helyzetű elvárásnak tesz a legjobban eleget.
A medián a változó azon számértéke, amelynél az összes előforduló számérték fele kisebb, fele
pedig nagyobb, így a rangsorba állított sokasági számértékeket két egyenlő gyakoriságú
osztályra bontja. Mindig egyértelműen meghatározható, valódi középérték, érzéketlen a
szélsőértékekre, és nem függ a többi ismérvértéktől sem. Ha az adathalmazunkban sok az
egyforma ismérvérték, akkor használata nem tanácsos.
Röviden: a nagyságrend szerint rendezett adatok középső értéke (páros számú adat esetén a
két középső érték átlaga). A medián említésre méltó tulajdonsága, hogy
min1
N
i
i AX , ha MeA
Ez a tulajdonság úgy értelmezhető, hogy ha minden ismérvértéket a mediánnal
helyettesítenénk, akkor ezzel összességében a lehető legkisebb hibát követnénk el,
amennyiben ezt a hibát minden esetben előjeltől elvonatkoztatva, az MeX i módon
mérjük.
Példa
6, 8, 4, 9, 7, 3, 5, 3, 4, 5, 6, 7, 8, 9 Me=6
4, 9, 7, 8, 11, 5, 4, 5, 7, 8, 9, 11 Me=7,5
7, 9, 3, 10, 5, 2, 5, 2, 3, 5, 5, 7, 9, 10 Me=5
Ha a BUX index korábbi, 99 havi hozamadatait vesszük alapul, akkor e 99 adatot sorba
állítva, a rangsor 50. tagja lesz a medián, hiszen ennél 49 kisebb, és 49 nagyobb érték lesz a
rangsorban, ez pedig 1,132%.
Osztályközös gyakorisági sor esetén a medián az alábbi formulával becsülhető:
me
me
me
me hf
fN
XeM
'
1
0,2ˆ
ahol me annak a legelső osztályköznek a sorszáma, amelyre igaz, hogy
2'
Nf me
és Xme,0 az me sorszámú osztályköz alsó határa, és a hme pedig ennek az osztálynak az
osztályközhosszúsága, ami egyszerűen a felső és alsó osztályhatár értékének a különbsége.
-15,778% -10,216% -4,881% -2,950% -0,414% 1,152% 2,533% 4,021% 6,182% 10,053%
-15,731% -7,927% -4,857% -2,902% -0,402% 1,320% 2,808% 4,223% 6,280% 10,292%
-13,671% -7,188% -4,360% -2,616% -0,057% 1,698% 2,883% 4,480% 6,368% 10,699%
-12,454% -6,569% -3,817% -2,173% 0,111% 1,836% 2,963% 4,667% 6,599% 10,947%
-12,233% -6,192% -3,696% -2,072% 0,196% 1,946% 3,112% 4,917% 7,427% 11,520%
-11,464% -6,113% -3,634% -1,857% 0,222% 1,999% 3,185% 5,203% 7,997% 12,038%
-11,369% -6,110% -3,433% -1,713% 0,385% 2,072% 3,276% 5,398% 8,200% 13,104%
-11,159% -5,564% -3,304% -1,247% 0,606% 2,119% 3,343% 5,447% 8,234% 14,878%
-11,116% -5,170% -3,210% -0,669% 0,764% 2,161% 3,616% 5,612% 8,298% 15,066%
-10,735% -5,098% -2,963% -0,505% 1,132% 2,372% 3,986% 5,956% 8,558%
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
25
Példa
Vegyük a korábbi BUX-indexes példánkat, és tegyük fel, hogy csak a gyakorisági táblázat áll
rendelkezésünkre, és nem ismerjük egyenként az összes hozamadatot. Nézzük meg, hogy
ilyen esetben hogyan becsülhető a medián!
alsó határ felső határ fi f’i gi [%] g’i [%]
-20,00% -15,00% 2 2 2,02% 2,02%
-15,00% -10,00% 9 11 9,09% 11,11%
-10,00% -5,00% 9 20 9,09% 20,20%
-5,00% 0,00% 23 43 23,23% 43,43%
0,00% 5,00% 32 75 32,32% 75,76%
5,00% 10,00% 15 90 15,15% 90,91%
10,00% 15,00% 8 98 8,08% 98,99%
15,00% 20,00% 1 99 1,01% 100,00%
összesen 99 100,00%
2
' Nfme N/2=49,5 a mediánt tartalmazó osztály az ötödik osztály: 0,00% ≤ x < 5,00%.
%0163,1)00,000,5(32
435,4900,02ˆ
'
1
0,
me
me
me
me hf
fN
XeM
A medián becsült értéke 1,0163%.
2.4.1.b Módusz (Mo)
A módusz helyzeti középérték, a tipikus ismérvérték megtestesítője. Diszkrét ismérv esetén a
módusz a leggyakrabban előforduló ismérvérték, folytonos ismérv esetén a gyakorisági görbe
maximumhelye. A módusz nem mindig határozható meg egyértelműen, és nem is mindig
létezik. Ugyanakkor előnye, hogy érzéketlen a szélsőértékekre, nem függ sem az összes, sem a
kiugró ismérvértékektől.
Példa
Korábbi diszkrét, a 2012 őszi félév érdemjegyeinek alakulását vizsgáló példánkban az
elégséges érdemjegy gyakorisága a legnagyobb (280 db), így a módusz értéke 2.
Folytonos változó esetén – a mediánhoz hasonló módon – osztályközös gyakorisági sorból is
becsülhető.
mo
fa
amo h
dd
dXoM
0,
ˆ
Érdemjegy
Tapasztalati
gyakoriság (fi)
Relatív
gyakoriság (gi)
1 68 0,089
2 280 0,368
3 274 0,361
4 91 0,120
5 47 0,062
Összesen 760 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
26
Ebben a képletben mo a móduszt tartalmazó osztályköz sorszáma, és
1 momoa ffd 1 momof ffd
A móduszt mindig az az osztályköz tartalmazza, amelyikhez a hisztogram legmagasabb
oszlopa tartozik2.
Példa
alsó határ felső határ fi f’i gi [%] g’i [%]
-20,00% -15,00% 2 2 2,02% 2,02%
-15,00% -10,00% 9 11 9,09% 11,11%
-10,00% -5,00% 9 20 9,09% 20,20%
-5,00% 0,00% 23 43 23,23% 43,43%
0,00% 5,00% 32 75 32,32% 75,76%
5,00% 10,00% 15 90 15,15% 90,91%
10,00% 15,00% 8 98 8,08% 98,99%
15,00% 20,00% 1 99 1,01% 100,00%
összesen 99 100,00%
Folytonos ismérv esetén a móduszt a legnagyobb gyakoriságú osztály tartalmazza:
%73077,1)00,000,5()1532()2332(
)2332(00,0ˆ
0,
mo
fa
amo h
dd
dXoM
Bux indexes példánkban a módusz becsült értéke 1,73%.
2.4.1.c Számtani átlag
A leggyakrabban használt középértékmutató: az „átlag”, a mediánnal és a módusszal
szemben, amelyek helyzeti középértékek, a számtani átlag számított középértékfajta.
Számtani átlag: Az a szám, amellyel az átlagolandó számértékeket helyettesítve azok összege
változatlan marad. Bármely alapadathalmazból egyértelműen meghatározható, minden
alapadatot felhasznál. A hátránya, hogy érzékeny a szélsőértékekre.
Számítása:
N
X
N
X
N
XXXX
N
i
i
N
121 ...
A képlet harmadik tagját felhasználva és átrendezve azt kapjuk, hogy XXN . Ez azt
jelenti, hogy az X összegben minden Xi helyébe az átlagot téve pontosan az ismérvértékek
összegét kapjuk. E definíció következménye:
N
i
i XX1
0)(
Ez azt jelenti, hogy ha minden ismérvértéket a számtani átlaggal helyettesítünk, akkor az e
helyettesítéssel elkövetett
XXd ii
2 Megjegyzés: néha a módusz becslésének egyszerűen a móduszt tartalmazó osztályköz osztályközepét tekintik
(példánkban ez 2,50 % lenne), ezt nyers módusznak hívják. Bárhogyan is határozzuk meg a móduszt, az arra
kapott közelítő érték esetleges, mert függ az osztályközök számától és hosszától.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
27
előjeles hibák összességükben pontosan kiegyenlítik egymást. Bizonyítható, hogy
N
i
i AX1
2)(
eltérés-négyzetösszeg éppen akkor minimális, ha XA . Ez pedig úgy is érthető, hogy az
ismérvértékeknek a számtani átlaggal való helyettesítése nemcsak egymást összességükben
kiegyenlítő előjeles hibákkal jár, hanem még minimálissá is teszi az e helyettesítéssel
elkövetett hibák négyzetösszegét.
A számtani átlagot igen gyakran nem az egyenként ismert Xi alapadatokból kiindulva
számítjuk, hanem sok esetben egy gyakorisági sor adataiból. Az alábbi formulát súlyozott
számtani átlag formulának nevezik:
r
i
iir
i
i
r
i
ii
Xg
f
Xf
X1
1
1
ahol:
Xi = az i. tag számértéke
Xi*= az i. osztály osztályközepe
fi = az i. osztály tapasztalati gyakorisága
gi = az i. osztály relatív gyakorisága
r = osztályok száma
Mint látható, egy súlyozott számtani átlag nagyságát két tényező határozza meg: az Xi értékek
sorozata (vagyis az átlagolandó értékek nagysága), illetve az Xi értékekhez tartozó fi
súlyszámok egymás közötti aránya, azaz relatív nagysága.
Diszkrét példa
7,2760
475914274328026815
0
5
0
i
i
i
i
i
f
xf
x
E példa érdekessége, hogy a számtani átlagszámítás eredményeként olyan értéket kaptunk,
amely a valóságban nem fordulhat elő, hiszen senki nem kaphat ilyen érdemjegyet.
Folytonos példa
Vegyük ismét a korábbi BUX-indexes példánkat!
Ha a rendelkezésre álló 99 egyedi adatunkból számítjuk ki a számtani átlagot, 0,372%-ot
kapunk.
Érdemjegy
Tapasztalati
gyakoriság (fi)
Relatív
gyakoriság (gi)
1 68 0,089
2 280 0,368
3 274 0,361
4 91 0,120
5 47 0,062
Összesen 760 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
28
%372,099
870,36
99
066,15878,14104,13...)671,13()731,15(778,15
99
99
1
i
ix
x
alsó határ felső határ fi f’i gi [%] g’i [%]
-20,00% -15,00% 2 2 2,02% 2,02%
-15,00% -10,00% 9 11 9,09% 11,11%
-10,00% -5,00% 9 20 9,09% 20,20%
-5,00% 0,00% 23 43 23,23% 43,43%
0,00% 5,00% 32 75 32,32% 75,76%
5,00% 10,00% 15 90 15,15% 90,91%
10,00% 15,00% 8 98 8,08% 98,99%
15,00% 20,00% 1 99 1,01% 100,00%
összesen 99 100,00%
A BUX indexes példához tartozó osztályközös gyakorisági táblázatunkat alapul véve is
becsülhetjük a számtani átlagot a tapasztalati gyakoriságok vagy a relatív gyakoriságok
segítségével:
%37879,050,170101,050,120808,050,71515,050,23232,0
)50,2(2323,0)50,7(0909,0)50,12(0909,0)50,17(0202,0
%37879,099
50,17150,12850,71550,232
99
)50,2(23)50,7(9)50,12(9)50,17(2
8
1
8
1
8
1
i
ii
i
i
i
ii
xgx
f
xf
x
Ebben az esetben a két eredmény (az egyenkénti értékek ismeretében számított 0,372% és a
súlyozott formulával számított 0,37879%) közötti eltérés összefüggésben van a sokaság
számosságával, az osztályközök hosszával, és az osztályközepek megválasztásával.
2.4.1.d Egyéb átlagfajták
Harmonikus átlag: Az a szám, amellyel az átlagolandó értékeket helyettesítve azok
reciprokainak összege változatlan marad.
Számítása (súlyozatlan, majd súlyozott formula):
r
i i
i
r
i
i
N
i i
h
Xf
f
X
NX
1
1
1
11
Leggyakrabban akkor használjuk, ha az értékek reciprokainak összege értelmezhető. Ilyen
esetekkel elsősorban a leíró statisztikai viszonyszámok és indexek számításánál találkozunk.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
29
Mértani átlag: Az a szám, amellyel az átlagolandó értékeket helyettesítve azok szorzata
változatlan marad.
Számítása (súlyozatlan, majd súlyozott formula):
k
r
ii
ff
i
N
i
Ni
N
ig XXX 1
11
A mértani átlagot akkor használjuk, ha az értékek szorzata értelmezhető, illetve az
átlagolandó értékek exponenciálisan nőnek vagy csökkennek. Leggyakrabban az időbeli
fejlődés átlagos ütemének vizsgálatakor használjuk. Idősorok elemzése során (pl. termelés
évenkénti alakulása, tőzsdeindex havi változása, stb.) általában az időszakról időszakra
bekövetkezett növekedést, vagy csökkenést vizsgáljuk.
Négyzetes átlag: Az a szám, amellyel az átlagolandó értékeket helyettesítve azok
négyzetösszege változatlan marad.
Számítása (súlyozatlan, majd súlyozott formula):
r
i
i
r
i
ii
N
i
i
q
f
Xf
N
X
X
1
11
2 2
Természeténél fogva a négyzetes átlag a kiugróan magas értékekre reagál érzékenyen.
A négyzetes átlag alkalmazására leginkább akkor kerül sor, amikor az értékek között pozitív
és negatív értékek egyaránt előfordulnak, de az előjeleknek a vizsgálat szempontjából nincs
jelentőségük, az értékek abszolút nagyságát kívánjuk a középértékekkel jellemezni. Tipikus
alkalmazási területe a szórásszámítás.
2.4.2 Választás a középértékek között
Bebizonyítható, hogy ugyanazon pozitív xi értékekből számított különböző fajta átlagok
között a következő nagyságrendi reláció áll fenn:
maxmin XXXXXX qgh
A harmonikus és a mértani átlag a nagyon alacsony, a négyzetes átlag a magas értékekre
mutat fokozott érzékenységet.
Az átlagolandó értékek jellege, és az átlag számításához rendelkezésre álló információ
együttesen határozza meg, hogy milyen esetben melyik átlagfajtát célszerű használni. A
választás során érdemes mérlegelni a következőket:
Egyértelműen meghatározható-e?
Az összes rendelkezésre álló adattól függ-e vagy sem?
Mennyire érzékeny a szélsőségesen nagy vagy kicsi értékekre?
Mekkora és milyen módon értelmezhető hibával képes helyettesíteni az alapadatokat?
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
30
2.4.3 Kvantilisek
Eddig egyenlő osztályköz-hosszúságú gyakorisági sorokat képeztünk, az ilyen osztályközök
relatív gyakoriságai eltértek egymástól. Lehetőség van a rangsorban olyan osztópontok
(osztályhatárok) keresésére, amelyek egyenlő relatív gyakoriságokat fognak közre. Az ilyen
osztályközök – általában – nem egyenlő hosszúságúak. Ezen osztályhatárok megállapításához
használjuk a kvantiliseket.
Kvantilis: Az Xi/k i-edik k-ad rendű kvantilis az a szám, amelynél az összes előforduló
ismérvértékek i/k-ad része kisebb, (1-i/k)-ad része pedig nagyobb, ahol k≥2 és
i=1, 2 ,…, k-1.
A mindig 0 és 1 közé eső i/k hányadost p-vel is szokás jelölni, a megfelelő Xp kvantilist pedig
p-ed rendű kvantilisnek is szokás hívni. Meghatározásuk úgy történik, hogy adatainkat
nagyság szerint növekvő sorrendbe rendezzük (rangsort készítünk), majd az értékeket k számú
egyenlő gyakoriságú csoportra osztjuk, és az egyes csoportok felső határán lévő
ismérvértékeket vesszük. Ezek lesznek a kvantilis értékek.
A különböző számú csoportba rendezéshez a kvantilisek konkrét elnevezései tartoznak. Ha az
adatokat két részre osztjuk, akkor a mediánt (Me) kapjuk. Négy részre való osztásnál
kvartiliseket (Qi, i=1,2,3) ad, öt rész esetén kvintiliseket (Ki, i=1, 2, 3, 4), tíz rész esetén
deciliseket (Di, i=1,2,…,9) száz részre való osztásnál percentiliseket (Pi, i=1,2,3,…,99)
nyerünk.
Ha például az egyetemre jelentkezők pontszámát értékelve 312 pont a hatodik decilis érték, ez
azt jelenti, hogy a jelentkezők hatvan százaléka 312 pontnál kevesebbel, 40%-a pedig 312
ponttal, vagy annál többel rendelkezik.
6. Táblázat: A leggyakrabban használt kvantilisek
Számítása:
Rangsorba rendezett adataink i/k-ik tagja.
)1(/ Nk
is ki Értéke: )(
/// 1//
kikiki sskiski XXsXX
(Megjegyzés: a [ ] az egészrészt, a { } a zárójelben levő mennyiség törtrészét jelöli.)
Példa
A BUX-indexes példánk alapján számítsuk ki az alsó és felső kvartilist, ill. az alsó és felső
decilist!
P1, P
2, …,P
991,2,…,99P
iPercentilis100
D1, D
2, … D
91,2,…,9D
iDecilis10
K1, K
2, K
3,
K4
1,2,3,4,Ki
Kvintilis5
Q1, Q
2, Q
31,2,3Q
iKvartilis4
Me1-Medián2
Lehetséges
kvantilisek
i lehetséges
értéke
Általános
jelölés
Elnevezésk
P1, P
2, …,P
991,2,…,99P
iPercentilis100
D1, D
2, … D
91,2,…,9D
iDecilis10
K1, K
2, K
3,
K4
1,2,3,4,Ki
Kvintilis5
Q1, Q
2, Q
31,2,3Q
iKvartilis4
Me1-Medián2
Lehetséges
kvantilisek
i lehetséges
értéke
Általános
jelölés
Elnevezésk
P1, P
2, …,P
991,2,…,99P
iPercentilis100
D1, D
2, … D
91,2,…,9D
iDecilis10
K1, K
2, K
3,
K4
1,2,3,4,Ki
Kvintilis5
Q1, Q
2, Q
31,2,3Q
iKvartilis4
Me1-Medián2
Lehetséges
kvantilisek
i lehetséges
értéke
Általános
jelölés
Elnevezésk
P1, P
2, …,P
991,2,…,99P
iPercentilis100
D1, D
2, … D
91,2,…,9D
iDecilis10
K1, K
2, K
3,
K4
1,2,3,4,Ki
Kvintilis5
Q1, Q
2, Q
31,2,3Q
iKvartilis4
Me1-Medián2
Lehetséges
kvantilisek
i lehetséges
értéke
Általános
jelölés
Elnevezésk
P1, P
2, …,P
991,2,…,99P
iPercentilis100
D1, D
2, … D
91,2,…,9D
iDecilis10
K1, K
2, K
3,
K4
1,2,3,4,Ki
Kvintilis5
Q1, Q
2, Q
31,2,3Q
iKvartilis4
Me1-Medián2
Lehetséges
kvantilisek
i lehetséges
értéke
Általános
jelölés
Elnevezésk
P1, P
2, …,P
991,2,…,99P
iPercentilis100
D1, D
2, … D
91,2,…,9D
iDecilis10
K1, K
2, K
3,
K4
1,2,3,4,Ki
Kvintilis5
Q1, Q
2, Q
31,2,3Q
iKvartilis4
Me1-Medián2
Lehetséges
kvantilisek
i lehetséges
értéke
Általános
jelölés
Elnevezésk
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
31
Alsó kvartilis:
25)991(4
14/1 s
Az alsó kvartilis a rangsorba rendezett 99 db havi hozamadat 25.-ik tagja: -3,696%.
Értelmezése: a rangsorba rendezett adatok 1/4-e kisebb, mint -3,696%, és 3/4-e pedig
nagyobb.
Felső kvartilis:
75)991(4
34/3 s
A felső kvartilis a rangsorba rendezett 99 db havi hozamadat 75.-ik tagja: 4,917%.
Értelmezése: a rangsorba rendezett adatok 3/4-e kisebb, mint 4,917%, és 1/4-e pedig nagyobb.
Alsó decilis
10)991(10
110/1 s
Az alsó decilis a rangsorba rendezett 99 db havi hozamadat 10. tagja: -10,735%.
Értelmezése: a rangsorba rendezett adatok 1/10-e kisebb, mint -10,735, és 9/10-e pedig
nagyobb.
Felső decilis:
90)991(10
910/9 s
Az alsó decilis a rangsorba rendezett 99 db havi hozamadat 90. tagja: 8,558%.
Értelmezése: a rangsorba rendezett adatok 9/10-e kisebb, mint 8,558, és 1/10-e pedig
nagyobb.
A kvantilisek meghatározására olyankor is szükség lehet, amikor az ismérvértékek rangsora
helyett osztályközös gyakorisági sor áll rendelkezésünkre. Ilyenkor az Xi/k kvantilis a
következő képlettel becsülhető:
q
q
qqkif
hfN
k
iXX
10/ 'ˆ
ahol q annak a legelső osztályköznek a sorszáma, amelyre már igaz, hogy
Nk
if q '
A keresett kvantilist ezen osztályközön belül a becslési képlet azon egyszerű feltételezés
mellett helyezi el, hogy az ismérvértékek az osztályközön belül egymástól egyenlő távolságra
vannak.
Vegyük újra a BUX indexes példánkhoz tartozó gyakorisági táblázatot, és becsüljük az
előzőleg kiszámított kvantiliseket!
-15,778% -10,216% -4,881% -2,950% -0,414% 1,152% 2,533% 4,021% 6,182% 10,053%
-15,731% -7,927% -4,857% -2,902% -0,402% 1,320% 2,808% 4,223% 6,280% 10,292%
-13,671% -7,188% -4,360% -2,616% -0,057% 1,698% 2,883% 4,480% 6,368% 10,699%
-12,454% -6,569% -3,817% -2,173% 0,111% 1,836% 2,963% 4,667% 6,599% 10,947%
-12,233% -6,192% -3,696% -2,072% 0,196% 1,946% 3,112% 4,917% 7,427% 11,520%
-11,464% -6,113% -3,634% -1,857% 0,222% 1,999% 3,185% 5,203% 7,997% 12,038%
-11,369% -6,110% -3,433% -1,713% 0,385% 2,072% 3,276% 5,398% 8,200% 13,104%
-11,159% -5,564% -3,304% -1,247% 0,606% 2,119% 3,343% 5,447% 8,234% 14,878%
-11,116% -5,170% -3,210% -0,669% 0,764% 2,161% 3,616% 5,612% 8,298% 15,066%
-10,735% -5,098% -2,963% -0,505% 1,132% 2,372% 3,986% 5,956% 8,558%
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
32
alsó határ felső határ fi f’i gi [%] g’i [%]
-20,00% -15,00% 2 2 2,02% 2,02%
-15,00% -10,00% 9 11 9,09% 11,11%
-10,00% -5,00% 9 20 9,09% 20,20%
-5,00% 0,00% 23 43 23,23% 43,43%
0,00% 5,00% 32 75 32,32% 75,76%
5,00% 10,00% 15 90 15,15% 90,91%
10,00% 15,00% 8 98 8,08% 98,99%
15,00% 20,00% 1 99 1,01% 100,00%
összesen 99 100,00%
Alsó kvartilis becslése:
Keressük meg azt az osztályközt, amelyik az alsó kvartilist tartalmazza a Nk
if q ' képlettel.
75,24994
1N
k
i
A legelső osztály, amelynél a kumulált tapasztalati gyakoriság nagyobb, vagy egyenlő mint
24,75, a 4. osztály, ahol a kumulált tapasztalati gyakoriság 43.
Behelyettesítve a becslési képletbe:
%97,323
00,52099
4
100,5'
4
414401
f
hfN
k
iXQ
Ennek analógiájára végezzük el a többi kvantilis becslését.
Felső kvartilis becslése:
25,74994
3N
k
i
A legelső osztály, amelynél a kumulált tapasztalati gyakoriság nagyobb, vagy egyenlő, mint
74,25, az 5. osztály, ahol a kumulált tapasztalati gyakoriság 75.
%88,432
00,54399
4
30'
5
515503
f
hfN
k
iXQ
Alsó decilis becslése:
9,99910
1N
k
i
A legelső osztály, amelynél a kumulált tapasztalati gyakoriság nagyobb, vagy egyenlő mint
9,9, a 2. osztály, ahol a kumulált tapasztalati gyakoriság 11.
%61,109
00,5299
10
100,15'
2
212201
f
hfN
k
iXD
Felső decilis becslése:
1,899910
9N
k
i
A legelső osztály, amelynél a kumulált tapasztalati gyakoriság nagyobb, vagy egyenlő mint
89,1 a 6. osztály, ahol a kumulált tapasztalati gyakoriság 90.
%7,915
00,57599
10
900,5'
6
616601
f
hfN
k
iXD
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
33
2.4.4 Szóródási mutatók
A rendelkezésre álló adathalmazunkban szereplő értékek változékonysága, szóródása
kétféleképpen is megragadható: az egyes értékek egymás közötti különbségein, vagy pedig az
egyes értékeknek egy kitüntetett értéktől (középérték) való eltérésein keresztül. Egy másik
csoportosítási lehetőség szerint léteznek abszolút és relatív ingadozásmutatók. Az abszolút
szóródási mutatók mértékegysége ugyanaz, mint az alapadatoké. A relatív szóródási mutatók
elvonatkoztatnak az eredeti mértékegységtől, és különböző ismérvértékek szóródásának az
összehasonlítását szolgálják.
2.4.4.a Terjedelem (R)
Terjedelem: Az adathalmazban szereplő legnagyobb és legkisebb adat különbsége.
Számítása:
minmax XXR
Előnye a könnyű számítás, hátránya, hogy csak a két legszélsőségesebb ismérvértéktől függ,
ennek kiküszöbölésre használják az interkvantilis terjedelemmutatót, amely csökkenti a
véletlen szélsőértékeket alakító szerepét.
Interkvantilis terjedelem: Az adathalmaz két szélső k-adrendű kvantilisének különbsége.
Számítása:
kkk
k
XXR /1/)1(21
, k>2
A fenti képletnek megfelelően az interkvartilis terjedelemmutató a felső és alsó kvartilis
különbségeként adódik:
132/1 QQR
Példa
Korábbi diszkrét, érdemjegyeket vizsgáló példánk esetében:
415 R
Példa
Vegyük ismét a korábbi BUX-indexes példánkat, és számítsuk ki a terjedelmet:
%844,30%)778,15(%066,15 R
Az interkvartilis terjedelem a felső (Q3) és alsó (Q1) kvartilis különbségeként:
%613,8%)696,3(%917,42/1 R
Az interdecilis terjedelem a felső (D9) és alsó (D1) decilis különbségeként:
%293,19%)735,10(%558,810/8 R
Érdemjegy
Tapasztalati
gyakoriság (fi)
Relatív
gyakoriság (gi)
1 68 0,089
2 280 0,368
3 274 0,361
4 91 0,120
5 47 0,062
Összesen 760 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
34
2.4.4.b Átlagos abszolút különbség (G)
Átlagos abszolút különbség: A minden lehetséges módon párba állított ismérvértékek
különbségeinek abszolút értékéből számított számtani átlag. Ez a G-vel jelölt
ingadozásmutató azt mutatja meg, hogy az X ismérv értékei átlagosan mennyire különböznek
egymástól. Mértékegysége ugyanaz, mint az alapadatoké.
Számítása:
N
i
N
j
ji XXNN
G1 1)1(
1
ahol N az adatok számát jelenti.
Speciális felhasználási területe a koncentrációelemzés, hátránya, hogy számítása
meglehetősen kényelmetlen.
Alkalmazását egy egyszerűbb példán mutatjuk be.
Példa
Véletlenszerűen kiválasztunk 5 hallgatót, és kiszámítjuk a Gazdaságstatisztika tárgy zh-ján
elért eredményük átlagos abszolút különbségét.
Az elért pontok: 45, 52, 76, 87, 92
45 52 76 87 92
45 0 7 31 42 47
52 7 0 24 35 40
76 31 24 0 11 16
87 42 35 11 0 5
92 47 40 16 5 0
8,25)15(5
516
G , azaz az 5 hallgató zh-n elért pontja átlagosan 25,8 ponttal tér el
egymástól.
2.4.4.c Átlagos abszolút eltérés ()
Az átlagos abszolút eltérés az ingadozásmutatók azon csoportjába tartozik, amelyek a
szóródást az értékeknek egy kitüntetett értéktől való eltéréseire támaszkodva jellemzik.
Átlagos abszolút eltérés: Az egyes ismérvértékek és a számtani átlag különbségeinek abszolút
értékeiből számított számtani átlag.
Számítása:
n
dn
ii
1 , ahol: XXd ii
Ez a mutató is becsülhető osztályközös gyakorisági sorból a tapasztalati gyakoriságok
felhasználásával. Ebben az esetben a di eltérések számításánál az osztályközepeket kell alapul
vennünk. A súlyozott formula:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
35
r
ii
r
iii
f
df
1
1
Példa
Korábbi diszkrét, érdemjegyeket vizsgáló példánk esetében:
81,0760
74,2547...7,222807,2168
Az érdemjegyek átlagosan 0,81-gyel térnek el az átlagtól.
Példa
A BUX-indexes példánk átlagos abszolút eltérése.
(Az egyedi adatokból számított számtani átlagot (0,372%) felhasználva)
%3776,599
372,0066,15...372,0371,15372,0779,151
n
dn
ii
Azaz az egyes hozamadatok átlagosan 5,3776%-kal térnek el a számtani átlagtól.
Osztályközös gyakorisági sorból becsülve (az ugyancsak becsült számtani átlaggal (0,379%)
számolva és a gyakoriságokkal súlyozva):
%213,699
379,050,171...379,050,129379,050,172
Azaz az egyes hozamadatok átlagosan 6,213%-kal térnek el a számtani átlagtól.
2.4.4.d Tapasztalati szórás (s), korrigált tapasztalati szórás (s*)
Ahogy a számtani átlag „az átlag”, úgy a tapasztalati és a korrigált tapasztalati szórás „a
szórás”. A szórás az adathalmazunk változékonyságának legfontosabb mérőszáma. Nagyon
hasonlít az előbbi mutatóhoz, és jelentése is hasonló: annyiban tér el, hogy a di eltérések
előjelét nem abszolút érték képzésével, hanem négyzetre emeléssel „oldja meg”, majd a
négyzetre emelést gyökvonással „teszi jóvá”.
A szórás az egyes Xi ismérvértékek átlagtól vett di eltéréseinek négyzetes átlaga. Azt mutatja,
hogy az egyes értékek átlagosan mennyire térnek el a számtani átlagtól.
Tapasztalati szórás számítása (súlyozatlan és súlyozott formulák):
Érdemjegy
Tapasztalati
gyakoriság (fi)
Relatív
gyakoriság (gi)
1 68 0,089
2 280 0,368
3 274 0,361
4 91 0,120
5 47 0,062
Összesen 760 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
36
r
iif
iX
iXif
N
iid
N
N
i
Xi
X
s
rN
1
1
2)(1
2
1
2
Korrigált tapasztalati szórás számítása:
1
2
1*
N
XXs
i
N
i
Példa
Korábbi diszkrét, érdemjegyeket vizsgáló példánk esetében:
1760
)7,25(47...)7,22(280)7,21(68
1
1
2222
5
5
iif
iidif
s
Az érdemjegyek átlagosan 1 db-bal térnek el az átlagos értéktől.
Példa
BUX-indexes példánk szórása az egyedi adatokból számolva (az egyenkénti adatokból
számított számtani átlagtól (0,372%) való átlagos eltérést mérve):
%77,699
372,0066,15...372,0371,15372,0779,15
99
99
1
2372,0222
ii
X
s
%806,698
372,0066,15...372,0371,15372,0779,15
98
99
1
2372,0222
ii
X
s
Az egyes hozamadatok 6,77%-kal, illetve korrigált esetben 6,806%-kal térnek el átlagosan az
átlagtól.
Érdemjegy
Tapasztalati
gyakoriság (fi)
Relatív
gyakoriság (gi)
1 68 0,089
2 280 0,368
3 274 0,361
4 91 0,120
5 47 0,062
Összesen 760 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
37
Osztályközös gyakorisági sorból becsülve:
alsó határ felső határ fi f’i gi [%] g’i [%]
-20,00% -15,00% 2 2 2,02% 2,02%
-15,00% -10,00% 9 11 9,09% 11,11%
-10,00% -5,00% 9 20 9,09% 20,20%
-5,00% 0,00% 23 43 23,23% 43,43%
0,00% 5,00% 32 75 32,32% 75,76%
5,00% 10,00% 15 90 15,15% 90,91%
10,00% 15,00% 8 98 8,08% 98,99%
15,00% 20,00% 1 99 1,01% 100,00%
összesen 99 100,00%
Gyakorisági sorból becsült számtani átlaggal (0,379%):
%3,799
)379,050,17(1...)379,050,12(9)379,050,17(2
1
1
2222
8
8
iif
iidif
s
Az egyes hozamadatok átlagosan 7,3%-kal térnek el az átlagtól.
2.4.4.e Relatív szórás (v)
Relatív szórás: A szórás és a számtani átlag hányadosa. Elsősorban különböző sokaságok
vagy ismérvek szóródásának összehasonlítására használják. Úgy is értelmezhető, mint az
értékek átlagtól vett átlagos eltérése, ezért minél kisebb a relatív szórás, a számtani átlag
annál jobban jellemzi az alapadatokat.
Számítása csak pozitív értékű ismérvekre:
%100X
sv
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
38
2.5 Fogalmak
Statisztikai sokaság Statisztikai minta
Nem mintavételi hiba Mintavételi hibaÁ
Álló sokaság Mozgó sokaság
Diszkrét sokaság Folytonos sokaság
Ismérv Ismérvváltozat
Alternatív ismérv Mennyiségi ismérv
Nem mennyiségi ismérv Nominális skála
Sorrendi skála Intervallumskála
Arányskála
Leíró statisztika Diszkrét mennyiségi ismérv
Folytonos mennyiségi ismérv Rangsor
Gyakoriság Relatív gyakoriság
Pálcika diagram Empirikus sűrűségfüggvény
Empirikus eloszlásfüggvény Ogiva
Medián Módusz
Számtani átlag Harmonikus átlag
Mértani átlag Négyzetes átlag
Kvantilis Terjedelem
interkvantilis terjedelem Átlagos abszolút különbség
Átlagos abszolút eltérés (Korrigált) tapasztalati szórás
Relatív szórás
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
39
2.6 Gyakorló feladatok
2.6.1 Feladat
Egy internetszolgáltató vállalkozásnál 280 napon keresztül vizsgálták az ügyfelek napi
reklamációinak számát. A megfigyelések eredményeiből az alábbi gyakorisági eloszlást
készítették.
a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági
sorból az 5. osztályhoz tartozó értéket!
b) Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat!
c) Mekkora a napi reklamációk átlagos száma?
d) Mekkora a napi reklamációk tipikus értéke?
e) Mekkora a medián értéke?
f) Mekkora az átlagtól vett eltérések négyzetes átlaga (szórás)?
g) Mekkora a relatív szórás?
Megoldás:
a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági sorból az
5. osztályhoz tartozó értéket!
Az 5. osztályhoz tartozó gyakorisági értékek jelentése:
5f : A megfigyelések során 32 napon volt a napi reklamációk száma 4. '
5f : 250 napon volt a napi reklamációk száma 4, vagy annál kevesebb.
5g : Az esetek 11,4%-ban volt napi 4 reklamáció. '
5g :Az esetek 89,3%-ban volt a napi reklamációk száma 4, vagy annál kevesebb.
Reklamációk száma
(reklamáció naponta)Napok száma
0 31
1 45
2 65
3 77
4 32
5 21
6 9
Reklamációk száma
(reklamáció naponta)
0 31 31 0.111 0.111
1 45 76 0.161 0.271
2 65 141 0.232 0.504
3 77 218 0.275 0.779
4 32 250 0.114 0.893
5 21 271 0.075 0.968
6 9 280 0.032 1
if'
if ig '
ig
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
40
b) Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat!
(Relatív) gyakoriságok ábrázolása (pálcika diagram):
Kumulált (relatív) gyakoriságok ábrázolása:
c) Mekkora a napi reklamációk átlagos száma?
475,2280
69521432377265145031
1
1
r
i
i
r
i
ii
f
xf
x
A napi reklamációk átlagos száma 2,475. Diszkrét adatról lévén szó, ilyen érték a valóságban
nem fordulhat elő.
d) Mekkora a napi reklamációk tipikus értéke?
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
41
A napi reklamációk tipikus értéke a módusz.
Diszkrét ismérv esetén a módusz az ismérv leggyakrabban előforduló értéke. A táblázatból
látható, hogy a leggyakrabban (az összes megfigyelésből 77-szer előforduló) érték a 3. Azért
ez a tipikus érték, mert ez a leggyakoribb.
e) Mekkora a medián értéke?
Páros számú adat esetén a sorba rendezett adatok között a két középső átlaga a medián.
Esetünkben a 140. és a 141. adat a növekvő sorrendbe rendezett adatok között a két középső.
E két adat értéke rendre a 2 és a 2. Ezért a medián értéke 2.
f) Mekkora az átlagtól vett eltérések négyzetes átlaga (szórás)?
299,2
280
475,269...475,2145475,2031222
2
S
516,1S
Vagyis a reklamációk száma átlagosan 1,516 db-bal tér el az átlagtól.
g) Mekkora a relatív szórás?
613,0475,2
516,1
x
S
Reklamációk száma (reklamáció naponta)
0 31 31 0.111 0.111
1 45 76 0.161 0.271
2 65 141 0.232 0.504
3 77 218 0.275 0.779
4 32 250 0.114 0.893
5 21 271 0.075 0.968
6 9 280 0.032 1
if'
if ig '
ig
Reklamációk száma (reklamáció naponta)
0 31 31 0.111 0.111
1 45 76 0.161 0.271
2 65 141 0.232 0.504
3 77 218 0.275 0.779
4 32 250 0.114 0.893
5 21 271 0.075 0.968
6 9 280 0.032 1
if'
if ig '
ig
Reklamációk száma (reklamáció naponta)
0 31 31 0.111 0.111
1 45 76 0.161 0.271
2 65 141 0.232 0.504
3 77 218 0.275 0.779
4 32 250 0.114 0.893
5 21 271 0.075 0.968
6 9 280 0.032 1
if'
if ig '
ig
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
42
A relatív szórás 61,3%. Ez a mutató önmagában nem informatív, másik vállalkozás hasonló
adataival, vagy ugyanezen vállalkozás más időszakban nyert adataival való
összehasonlításkor nyerne igazán értelmet.
2.6.2 Feladat
Egy áramszolgáltatónál 650 megfigyelést végeztek a szolgáltatásban bekövetkező
áramkimaradásokra vonatkozóan. A megfigyelések eredményit az alábbi táblázatban
rögzítették.
a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági
sorból a 4. osztályhoz tartotó értéket!
b) Ábrázolja az áramkimaradások időtartam szerinti megoszlását és a tapasztalati
eloszlásképet!
c) Mekkora az áramkimaradások átlagos időtartama?
d) Mekkora a tipikusnak tekinthető áramkimaradás időtartama?
e) Becsülje meg és értelmezze a mediánt!
f) Adjon becslést a szórásra!
g) Mekkora a relatív szórás?
Megoldás:
a) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági sorból a
4. osztályhoz tartotó értéket!
A negyedik osztályhoz tartozó gyakoriságok értelmezése:
4f : A megfigyelések során 40 esetben volt az áramkimaradás időtartama 30 percnél hosszabb
vagy azzal egyenlő és 40 percnél rövidebb. '
4f : 620 esetben volt az áramkimaradás időtartama 40 percnél rövidebb.
4g : Az esetek 6,2%-ban volt az áramkimaradás időtartama 30 percnél hosszabb vagy azzal
egyenlő és 40 percnél rövidebb. '
4g : Az esetek 95,4%-ban volt az áramkimaradás időtartama 40 percnél rövidebb.
b) Ábrázolja az áramkimaradások időtartam szerinti megoszlását és a tapasztalati
eloszlásképet!
Áramkimaradás
időtartama (perc)
Áramkimaradások
száma
[0;10) 40
[10;20) 190
[20;30) 350
[30;40) 40
[40;50) 20
[50;60) 10
Áramkimaradás időtartama (perc)
[0;10) 40 40 0.062 0.062
[10;20) 190 230 0.292 0.354
[20;30) 350 580 0.538 0.892
[30;40) 40 620 0.062 0.954
[40;50) 20 640 0.031 0.985
[50;60) 10 650 0.015 1
if'
if ig '
ig
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
43
Relatív gyakorisági hisztogram (tapasztalati sűrűségfüggvény): vízszintes tengelyen az
osztályhatárok, függőleges tengelyen a relatív gyakoriságok.
Kumulált relatív gyakorisági hisztogram (tapasztalati eloszláskép): vízszintes tengelyen az
osztályhatárok, függőleges tengelyen a kumulált relatív gyakoriságok.
c) Mekkora az áramkimaradások átlagos időtartama?
A számtani átlag becslése:
538,22650
5510540
1
1
r
i
i
r
i
ii
f
xf
x
Az áramkimaradások átlagos hossza 22,538 perc.
d) Mekkora a tipikusnak tekinthető áramkimaradás időtartama?
Módusz: folytonos ismérv esetén a gyakorisága görbe maximum helye(i).
ixif'
if ig '
igÁramkimaradás időtartama
(perc)
[0;10) 40 40 0.062 0.062 5
[10;20) 190 230 0.292 0.354 15
[20;30) 350 580 0.538 0.892 25
[30;40) 40 620 0.062 0.954 35
[40;50) 20 640 0.031 0.985 45
[50;60) 10 650 0.015 1 55
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
44
Módusz becslése: tudjuk, hogy a 3. osztályközben van.
mo
fa
amo h
dd
dXoM
0,
ˆ
310403501 momof ffd
1601903501 momoa ffd
404,2310310160
16020ˆ
0,
mo
fa
amo h
dd
dXoM
A módusz becsült értéke 23,404, ez az az érték, ahol a gyakorisági görbe a maximumát veszi
fel.
e) Becsülje meg és értelmezze a mediánt!
me
me
me
me hf
fN
XeM
'
1
0,2ˆ
714,2210350
2302
650
202ˆ
'
1
0,
me
me
me
me hf
fN
XeM
A medián becsült értéke 22,714. Ez az az érték, amelynél az összes előforduló érték fele
kisebb, fele pedig nagyobb.
f) Adjon becslést a szórásra!
Átlagtól való átlagos eltérést kell számolnunk. A számtani átlag becsült értéke 22,538 perc
volt. Ez ettől az értéktől való átlagos eltérés érdekel minket:
r
i
i
r
i
ii
f
xxf
S
1
1
2
ixif'
if ig '
igÁramkimaradás időtartama (perc)
[0;10) 40 40 0.062 0.062 5
[10;20) 190 230 0.292 0.354 15
[20;30) 350 580 0.538 0.892 25
[30;40) 40 620 0.062 0.954 35
[40;50) 20 640 0.031 0.985 45
[50;60) 10 650 0.015 1 55
ixif'
if ig '
igÁramkimaradás időtartama (perc)
[0;10) 40 40 0.062 0.062 5
[10;20) 190 230 0.292 0.354 15
[20;30) 350 580 0.538 0.892 25
[30;40) 40 620 0.062 0.954 35
[40;50) 20 640 0.031 0.985 45
[50;60) 10 650 0.015 1 55
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
45
95,8
650
538,225510538,2254022
S
Az átlagtól való átlagos eltérés, és így az áramkimaradás időtartamának szórása 8,95 perc.
g) Mekkora a relatív szórás?
%7,39397,0538,22
95,8
x
SV
Értéke 39,7%. Más időszakban nyert, vagy hasonló adatokkal való összehasonlításban nyerhet
értelmet.
2.6.3 Feladat
100 utas poggyászának tömegét vizsgálták meg egy repülőtéren. Az eredményeket az alábbi
táblázat tartalmazza:
Poggyász tömege Utasok száma
0 6x 14
6 12x 22
12 18x 40
18 24x 12
24 30x 8
30 36x 4
Végezze el az adatok leíró statisztikai elemzését! Számítsa ki a gyakorisági táblázatot,
ábrázolja a táblázat adatait, számolja ki a legfontosabb középérték- és ingadozásmutatókat,
valamint jellemezze az eloszlás alakját a Pearson-féle mutatószámmal!
Megoldás:
A táblázat adatai az iF gyakoriságokat tartalmazzák. Ebből a kumulált értékek, illetve a
relatív gyakoriság ii
fg
n
számolható, ez nem más, mint az adott osztályba eső adatok
száma osztva az összes adat, azaz a teljes minta elemszámával. A kumulált gyakorisági
értékek nem mások, mint az adott osztályba eső, valamint minden, megelőző osztályba eső
adat gyakoriságának összege. A negyedik osztályra például:
' 14 22 40 12 884 1 2 3 4f f f f f ; hasonlóan számolhatóak a kumulált relatív
ixif'
if ig '
igÁramkimaradás időtartama (perc)
[0;10) 40 40 0.062 0.062 5
[10;20) 190 230 0.292 0.354 15
[20;30) 350 580 0.538 0.892 25
[30;40) 40 620 0.062 0.954 35
[40;50) 20 640 0.031 0.985 45
[50;60) 10 650 0.015 1 55
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
46
gyakoriságok is. Érdemes megjegyezni, hogy az utolsó osztály kumulált gyakorisága a minta
elemszámával, kumulált relatív gyakorisága 1-gyel kell megegyezzen.
Érdemes a táblázatban az osztályközepeket is meghatározni, később a szórás számolásánál
mindenképpen hasznos lesz. Az osztályközép az adott osztály felső és alsó határának egyszerű
számtani átlaga, a második osztályra például: 12 62, 2,
9.22 2
X Xalsó felsőx
A
tapasztalati gyakoriságokból, illetve a kumulált relatív gyakoriságokból –ezt a tapasztalati
eloszlásfüggvénynek nevezzük- ezután a grafikonok egyszerűen elkészíthetőek.
Poggyász
tömege ix
osztályközép
if tapasztalati
gyakoriság
if kumulált
tapasztalati
gyakoriság
ig relatív
gyakoriság ig
kumulált
relatív
gyakoriság
0 6x 3 14 14 0,14 0,14
6 12x 9 22 36 0,22 0,36
12 18x 15 40 76 0,4 0,76
18 24x 21 12 88 0,12 0,88
24 30x 27 8 96 0,08 0,96
30 36x 33 4 100 0,04 1,00
0
4
8
12
16
20
24
28
32
36
40
0-6 kg 6-12 kg 12-18 kg 18-24 kg 24-30 kg 30-36 kg
Gyakorisági hisztogram
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
47
A legfontosabb középérték mutató a számtani átlag. Mivel nem ismerjük egyenként az
adatokat, így az osztályközepek segítségével becsüljük. Az osztályközép tulajdonképpen arra
szolgál, hogy minden az osztályba eső adatot vele helyettesítsünk.
1 14 3 22 9 40 15 12 21 8 27 4 3314,4
100
r
i i
i
f x
xn
Helyzeti középérték mutató még a medián és a módusz is, ezek szintén becsülhetőek a
gyakorisági táblázatból. Tudjuk, hogy a medián abból az osztályból kell származzon, amelyre
teljesül, hogy '
2me
Nf , azaz azt az osztályt keressük, ahol a kumulált relatív gyakoriság
nagyobb, mint az elemszám fele, esetünkben a negyedik osztály lesz a mediánt tartalmazó.
0
'
1 50 362ˆ 12 6 14,140
me
me me
me
Nf
Me X hf
. 0meX a mediánt tartalmazó osztály alsó
határa, N az adatok száma, '
1mef a mediánt megelőző osztály kumulált gyakorisága, mef a
mediánt tartalmazó osztály tapasztalati gyakorisága, meh a mediánt tartalmazó osztály
osztályköz-hosszúsága (a felső és az alsó osztályhatár különbsége).
A módusz szintén becsülhető osztályba sorolt adatokból. Mindig az az osztály tartalmazza a
móduszt, amelyhez a legnagyobb relatív gyakoriság tartozik, ez esetünkben a negyedik
osztály3.
0moX ennek az osztálynak az alsó határa, moh a modális osztály osztályköz-
hosszúsága. Két paramétert kell még számolni, 1a mo mod f f és 1f mo mod f f , ahol
, 1, 1 mo mo mof f f rendre a móduszt tartalmazó, az azt megelőző és a követő osztály gyakorisága.
Esetünkben 40 22 18ad és 40 12 28fd .
3 Meg kell azonban jegyezni, hogy a mediánt és a móduszt nem szükségszerűen ugyanaz az osztály tartalmazza.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0-6 kg 6-12 kg 12-18 kg 18-24 kg 24-30 kg 30-36 kg
Tapasztalati eloszlásfüggvény
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
48
0
18ˆ 12 6 14,3478
18 25
amo mo
a f
dMo X h
d d
. Érdemes megemlíteni, hogy gyakran a
legnagyobb gyakoriságú osztály osztályközepét tekintik, ezt nyers módusznak nevezzük.
Az ingadozásmutatók közül leggyakrabban a terjedelmet és a szórást használjuk. Mivel az
egyenkénti adatokat nem ismerjük, a terjedelem nem számolható. A tapasztalati szórásnégyzet
és a korrigált tapasztalati szórásnégyzet a következőképpen számolható.
2
2 1
( )r
i i
i
f x x
sn
illetve
2
2 1
( )
1
r
i i
i
f x x
sn
. Tehát (1) vesszük az osztályközepek ( )ix
négyzetes eltérését a számtani átlagtól ( )x és (2) ezt súlyozzuk az osztályok gyakoriságával
( )if minden r darab osztályra, majd ezeket összegezzük (3). Az így kapott úgynevezett
eltérés-négyzetösszeget (!!!) osztjuk (4) az elemek számával (n) vagy az elemek száma-1-
gyel. A korrigált tapasztalati szórás számolása a későbbiekben azért célszerűbb, mert az
elméleti –ismeretlen- alapsokasági varianciára ez ad torzítatlan becslést. Behelyettesítve az
összefüggésbe először meghatározzuk az eltérés-négyzetösszeget:
2 2 2 2 2
1
2 2
( ) 14(3 14,4) 22(9 14,4) 40(15 14,4) 12(21 14,4)
8(27 14,4) 4(33 14,4) 5652
r
i i
i
f x x
Innen a tapasztalati és a korrigált tapasztalati szórásnégyzet, majd szórás:
2
2 1
( )5652
56,52100
r
i i
i
f x x
sn
, így 2 56,52 7,518s s
2
2 1
( )5652
57,09091 99
r
i i
i
f x x
sn
így 2 2 57,0909 7,556s s
Látható, hogy még viszonylag nagy elemszámnál is viszonylag nagy az eltérés a tapasztalati
és a korrigált tapasztalati szórás értéke között.
Az eloszlás alakját a Pearson-féle mutatószámmal (aszimetria) mutatóval jellemezhetjük.
3 ( ) 3 (14,4 14,1)0,119
7,516
x MeP
s
. A mutató értelmezése: Nagyon enyhe bal oldali
aszimetria. A grafikus képen látható, hogy a tapasztalati sűrűségfüggvény jobbra!) kissé
elnyúltabb.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
49
2.7 Elméleti kérdések
1. Ismertesse a matematikai statisztika tárgyát, lényegét, a mintavételi és nem mintavételi
hiba közötti különbséget!
2. Mutassa be a sokaság és az ismérv csoportosításának lehetőségeit, minden esetre írjon
2-2 példát!
3. Jellemezze a mérési skálák egyes típusait, írjon 2-2 példát!
4. Ismertesse a leíró statisztika tárgyát, célját és mutassa be annak eszközrendszerét! Mi
a különbség a diszkrét és folytonos mennyiségi ismérv között?
5. Foglalja össze az egy mennyiségi ismérv szerinti osztályozás lényeges kérdéseit!
6. Melyek a mennyiségi sorok ábrázolásának főbb lépései? Röviden jellemezze az egyes
lépéseket!
7. Mutassa be a legfontosabb középérték mutatók osztályozásának szempontjait,
jellemezze az alkalmazás előnyei és hátrányai szempontjából a legfontosabb
mutatókat!
8. Mutassa be az ingadozásmutatók osztályozásának szempontjait, jellemezze az
alkalmazás szempontjából az egyes mutatókat!
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
50
3. Részekre bontott sokaság vizsgálata
A gyakorlatban sokszor előfordul, hogy olyan sokaságot kell vizsgálnunk, amelyek egységei
olyan kisebb-nagyobb csoportokra sorolhatóak, melyeken belül az egységek az elemzés
ismérve szempontjából jellegzetesen eltérő módon viselkednek, így például a budapesti
lakások fajlagos – egy négyzetméterre vetített – ára is nagy különbségeket mutat nemcsak az
egyes kerületek között, hanem sokszor az egyes kerületeken belül is. Ezekben az esetekben a
teljes sokaság mellett szükséges a részekre bontott sokaság vizsgálata is, pontosan azért, mert
a teljes sokaságra vonatkozó elemzési eredmények nem fedik fel az előzőekben említett
jellegzetes eltéréseket, ami sok esetben komoly információveszteséggel járhat együtt4.
Heterogén sokaság: A vizsgált ismérv szempontjából lényegesen eltérő jellegzetességeket
mutató részekre bontható sokaságokat az adott ismérv szempontjából heterogén
sokaságoknak nevezzük.
Így minden olyan esetben, amikor felmerül a vizsgált sokaság heterogenitásának gyanúja,
célszerű a sokaságot részekre bontva is elemezni, mert a sokaság egyes részsokaságaira kapott
eredmények, és azok egymással való összehasonlítása lényegi információkat adhat a vizsgált
jelenségről.
A részekre bontott elemzés elvégzéséhez részsokaságokat kell kialakítani, ami nem mindig
egyszerű feladat. Olyan csoportképző ismérvet kell választani, amely a részsokaságok
között meglévő heterogenitást meg tudja ragadni. Természetesen nemcsak egy sokaság
valamely ismérv szerinti elemzése esetén jelentkezhetnek a sokaság heterogenitásából fakadó
problémák, hanem olyan esetekben is, amikor egyszerre több sokaságot vizsgálunk
viszonyszámok segítségével. Ilyenkor gyakran előfordul az, hogy az együtt vizsgált
sokaságok egészének és egyes részeinek egymáshoz viszonyított nagysága lényegesen eltérő
módon alakul. Az ilyen elemzések céljából azonos módon kell a sokaságon belül a
részsokaságokat kialakítani.
A viszonyszám két egymással összefüggő statisztikai adat hányadosa, amelynek általános
formulája:
Viszonyszám (V)= Viszonyítandó adat (A) / Viszonyítási alap (B)
A viszonyszámok három fő típusát különböztetjük meg: megoszlási, intenzitási és dinamikus
viszonyszámokat.
Megoszlási viszonyszám: Olyan viszonyszám, amely valamely részadatnak az egészhez való
viszonyát fejezi ki.
Például nyugdíjasok aránya a népességen belül, valamely cég piaci részesedése egy adott
termék forgalmazásában
4 Ez az információveszteség a sokaság mennyiségi ismérv szerinti elemzésekor ismerhető fel (pl. leíró statisztikai
feldolgozás során), mert ilyenkor a gyakorisági eloszlás grafikus képe rendszerint több módusszal rendelkezik.
Ennek következtében egyik középérték sem jellemzi jól a sokaságot, ami a szórás, és a relatív szórás nagy
értékeiben is meg fog nyilvánulni.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
51
Intenzitási viszonyszám: Két, egymással kapcsolatban lévő, különböző fajta adat hányadosa,
melyek között vannak fajlagos mérőszámok, sűrűségi, ellátottsági mérőszámok, valamint
arányszámok.
Például fajlagos mérőszám az egy termékre jutó anyagfelhasználás, 100 km-re jutó
üzemanyag-fogyasztás, egy háziorvosra jutó betegek száma, egy főre jutó GDP, egy lakosra
jutó vízfogyasztás.
Sűrűségi, ellátottsági mérőszám például a népsűrűség (fő/km2), személygépkocsi sűrűség
(gépkocsi/1000 fő).
Arányszám például a születési, halálozási arányszám (1000 (!) főre jutó születések,
halálozások száma).
Az ilyen típusú viszonyszámok elemzésével foglalkozik a standardizálás módszere.
Dinamikus viszonyszám: két összehasonlított időszak vagy időpont adatának a hányadosa,
ahol a viszonyítandó adat (A) a tárgyidőszak adata, a viszonyítási alap (B) pedig a bázis
időszak adata.
A megoszlási és dinamikus viszonyszámokat azonos fajta, azonos mértékegységű adatokból
számítjuk, ezért tiszta számok. Ez azt jelenti, hogy nincs mértékegységük, kifejezhetők %-os
vagy ‰-es formában. (pl. %-os formában fejezzük ki a fogyasztó árindex változását egyik
időszakról a másikra, a halálozási arányszám változását pedig ‰-es formában) A dinamikus
viszonyszámok elemzésével az indexszámítás foglalkozik.
3.1 Rész- és főátlagok
Abból indulunk ki, hogy adott egy m számú részre bontott sokaság. A teljes sokaságot
fősokaságnak, a sokaság részeit pedig részsokaságoknak nevezzük. A részsokaságok (a
fősokaságot összesen r részsokaságra osztva) egymástól való megkülönböztetésére a j indexet
használjuk, amelynek lehetséges értékei: j=1, 2, …, r.
A továbbiakban azzal foglalkozunk, hogy a részekre bontott fősokaság vizsgálatával hogy
gazdagíthatjuk elemzésünket, és milyen kapcsolat van a fősokaságra és a részsokaságokra
vonatkozó elemzési eredmények között.
Yij-vel jelöljük a vizsgált mennyiségi ismérvnek a j-edik részsokaság (j=1, 2, …, r) i-edik (i=
1, 2, …., Nj) egységénél felvett értékét. A fősokaság nagyságát N-nel jelöljük, ami r
jj 1
N N
összefüggéssel fejezhető ki, ahol Nj a j-edik részsokaság nagysága, vagyis elemszáma.
A j-edik részsokaságra vonatkozó részátlag:
MjN
SY
NY
j
jN
i
ij
j
j
j
,...,2,1,1
1
, ahol
jN
i
ijj YS1
, és a j-edik részsokaság értékösszegét
jelenti.
Az egész sokaságra vonatkozó főátlag
jNr r
ij jj 1 i 1 j 1
1 1Y Y S
N N
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
52
Példa5
Ismeretes, hogy budapesti lakótelepeken a lakásárak különböző tényezők következtében
lényegesen eltérnek egymástól. Ennek illusztrálása céljából egy hirdetési újságból
kigyűjtötték mindazoknak az 3+1 fél szobás lakásoknak az árát, amelyek egy adott napon az
újságban Budapest III. kerületében meghirdetésre kerültek. A négy lakótelepről aznap
eladásra kínált sokaságokat egy-egy részsokaságnak tekintették. Az adatokat az alábbi
táblázat tartalmazza:
Első feladatunk az, hogy határozzuk meg és hasonlítsuk össze egymással az egyes
részsokaságokba tartozó lakások átlagos kínálati árát, és állítsuk elő azokból az adott napon
eladásra kínált 45 lakás átlagos árát.
Békásmegyeri lakótelep átlagára:
mFtY 467,2215
337
15
25...28221
A másik három lakótelep átlagárai rendre:
Pók utcai: mFtY 625,468
3732
Óbudai: mFtY 5,3212
3903
Kaszásdűlő: mFtY 6,3110
3164
Látható, hogy a Pók utcai lakások átlagos kínálati ára a legmagasabb 46,625 mFt-os átlaggal.
Az összes lakás átlagára, vagyis a főátlag az egyes részátlagos az adott részsokaság
elemszámával súlyozott átlaga:
5 Forrás: Hunyadi – Vita: Statisztika közgazdászoknak, KSH, Budapest, 2002 alapján készült saját példa
Békásmegyer Pók utca Óbudai Kaszásdűlő
Lakásárak 22 59 32 28
28 52 28 28
19 40 37 35
28 47 31 29
18 45 26 36
27 54 26 25
19 38 38 42
21 38 39 24
22 25 34
24 30 35
20 38
18 40
23
23
25
Mintaszám 15 8 12 10
Értékösszeg 337 373 390 316
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
53
1 1 2 2 3 3 4 4
1
15 22,467 8 46,625 12 32,5 10 31,6 141431,467
45 45
r
i i
i
N Y N Y N Y N Y N YY
N N
mFt
Ebben az összefüggésben az 1414 mFt a vizsgált lakások árának összege, azaz a korábbiakban
Sj-vel jelölt értékösszeg.
3.2 Rész- és fősokaságok varianciája és szórása
A szórás számítása a YYd átlagtól vett eltérésekből indul ki.
Ha a sokaságot részekre bontjuk, akkor a fenti jijij NiMjYYd ,...,2,1,,...,2,1, eltérés
két részre bontható: belső és külső eltérésre.
A belső eltérés az egyes sokasági egyedekhez tartozó ismérvértékeknek (Yij-knek) az adott
részsokaságra az ismérvértékekből számított átlagtól ( jY ) vett eltérését méri:
jjijij NiMjYYB ,...,2,1,,...,2,1,
A külső eltérés az egyes részsokasági átlagoknak ( jY ) a főátlagtól (Y ) vett eltérését
számszerűsíti:
MjYYK jj ,...,2,1,
A teljes eltérés a belső és külső eltérés összege: jijij KBd , ahol dij a teljes eltérés. A teljes
eltérés azt mutatja, hogy bármely Yij ismérvérték két ok miatt térhet el a főátlagtól: részben
azért, mert az ismérvértékek minden részsokaságon belül ingadoznak az adott részsokaságra
jellemző részátlag körül, részben pedig azért, mert az egyes részátlagok ingadoznak a főátlag
körül.
Az első fajta ingadozás a csoportképző ismérven kívüli összes egyéb tényezőnek, a második
fajta ingadozás pedig kizárólag a csoportképző ismérvnek tudható be. Ez pedig annak
köszönhető, hogy a csoportképző ismérv alkalmazásának célja, hogy a fősokaságot olyan
részsokaságokra bontsuk, amelynek elemei az adott ismérv szempontjából jobban
hasonlítanak egymáshoz, mint más részsokaság elemeihez, így az Y ismérv egy-egy
részsokaságon belüli ingadozása csakis más tényezőknek tulajdonítható.
Példa
A legmagasabb kínálati árú Pók utcai lakás ára 59 millió Ft korábbi táblázatunk szerint. Ez a
kínálati ár (általunk nem vizsgált okok miatt) 59-46,625=12,375 millió Ft-tal magasabb, mint
az ugyanebbe a csoportba tartozó lakások átlagos kínálati ára. Ez az 59 mFt értékű lakás belső
eltérése. A Pók utcai lakások átlagos kínálati ára a lakótelep egyedi sajátosságai miatt 46,625-
31,467=15,158 millió Ft-tal magasabb, mint a III. kerületi ilyen típusú lakások átlagos ára. Ez
pedig az adott részsokasághoz (Pók utcai lakótelep) külső eltérése. Így végül az adott 59 mFt
értékű lakás 12,375+15,158=27,533 millió Ft-tal drágábban került meghirdetésre, mint egy
általunk vizsgált átlagos lakótelepi lakás.
A háromféle eltérés alapján háromféle szórás, illetve variancia számítható:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
54
Teljes szórás, illetve teljes variancia: A T teljes szórás az egyes ismérvértékeknek a
fősokasági átlagtól vett átlagos eltérése. A 2
T teljes variancia a teljes szórás négyzete. A
teljes variancia a külső és belső variancia négyzetének összegeként is felírható.
j jN Nr r2 2
T ij ijj 1 i 1 j 1 i 1
1 1(Y Y) d
N N
, illetve
M
j
N
i
ij
M
j
N
i
ijT
jj
dN
YYN 1 1
2
1 1
22 1)(
1
A belső eltérések felhasználásával egy részsokaságra vonatkozó részszórás, illetve
részvariancia:
jN
i
ij
j
j BN 1
21 , illetve
jN
i
ij
j
j BN 1
22 1
Ha a belső eltéréseket nemcsak egy-egy részsokaságra, hanem az egész fősokaságra
vonatkozóan átlagoljuk, akkor a belső szóráshoz jutunk:
M
j
N
i
ijB
j
BN 1 1
21
A B belső szórás azt mutatja meg, hogy a fősokaság egyes egységeihez tartozó Yij
ismérvértékek átlagosan mennyivel térnek el saját részsokasági átlaguktól. A belső szórás
négyzete a belső variancia ( 2
B ).
A 2
B belső variancia a részvarianciáknak az egyes részsokaságok nagyságával súlyozott
átlaga:
N
N j
M
j
j
B
2
12
Külső szórás és külső variancia: A külső eltérésekből kiindulva a K külső szórás azt
mutatja meg, hogy a részátlagok átlagosan mennyivel térnek el a főátlagtól. A 2
K külső
variancia a külső szórás négyzete.
2 2
1 1
1 1( )
r r
K j j j jj j
N Y Y N KN N
A háromféle variancia közötti összefüggés: 222
BKT
Másik gyakran használt formája: SST=SSK+SSB, ahol SST a teljes eltérés-négyzetösszeg6,
SSB a belső, SSK pedig a külső eltérés-négyzetösszeg. Az Y ismérv SST teljes eltérés
négyzetösszegének, változékonyságának SSK nagyságú része a részsokaságok képzésére
használt csoportképző ismérvnek tulajdonítható, azzal magyarázható. Ezzel szemben az
6 Az SS jelölés a statisztikában a Sum of Squares = négyzetösszeg elnevezés rövidítése.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
55
SSB nagyságú rész az Y ismérv szóródását előidéző más, kiemelten nem vizsgált
tényezők együttes hatásának tudható be.
A részsokaságok képzésére használt Y ismérv annál hasznosabbnak tekinthető, minél
nagyobb az SSK/SST vagyis σk2/σ
2 hányados.
Példa
A főátlag és a táblázatban található lakásárak alapján a teljes szórás számítása (mind a 45
lakás árának vesszük a főátlagtól vett négyzetes eltérését és átlagoljuk):
2
2 2 21 1
( )(22 31,467) (28 31,467) ... (35 31,467)
45
4301,29,7766
45
iN r
ii j
T
x x
N
mFt
582,952 T
A teljes szórás értelmezése a következő: az egyes lakások eladási ára átlagosan 9,7766 m F-tal
tér el a lakások átlagárától.
Az első részsokaság – békásmegyeri lakások- σ1 szórása az egyes békásmegyeri lakások
árának eltérése a békásmegyeri lakások átlagárától:
2 2 2 2
1
(22 22,467) (28 22,467) ... (23 22,467) (25 22,467)
15
163,7333353,3039
15
mFt
Rendre a további lakótelepek részszórása az adott lakótelep egyes lakásainak átlagos
négyzetes eltérése az adott lakótelep átlagárától:
2 2 2
2
2 2 2
3
2 2 2
4
(59 46,625) (52 46,625) ... (38 46,625) 431,8757,3474
8 8
(32 32,5) (28 32,5) ... (40 32,5) 3495,3929
12 12
(28 31,6) (28 31,6) ... (35 31,6) 290,45,3889
10 10
mFt
mFt
mFt
A részsokaságok szórásai egymással közvetlenül nehezen hasonlíthatóak össze, mivel az
egyes részsokaságokban a kínálati árak más-más átlag körül szóródnak.
A relatív szórások –az adott részsokaság részszórásának és részátlagának hányadosa- értékei:
11
1
2
3
4
3,303914,7%
22,467
15,76%
16,6%
17,05%
V
Y
V
V
V
Ezeket összehasonlítva azt látjuk, hogy a békásmegyeri lakások árai a legegyöntetűbbek, itt a
legkisebb a relatív szórás.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
56
A belső szórás az egyes részszórások részsokasági elemszámával súlyozott átlaga: 2 2 2 2 2
2
1
15 3,3039 8 7,3474 12 5,3929 10 5,3889 1235,0827,444
45 45
ri i
Bi
N
N,
illetve 27,444 5,2387 B mFt
Ez azt jelenti, hogy a kínálati lakásárak átlagosan mintegy 5,24 mFt-tal térnek el saját
részsokaságuk átlagától, ami a teljes szórásnál észrevehetően kisebb. Azaz, az ugyanazon a
lakótelepen található egyes lakások árai átlagosan 5,2387 mFt-tal térnek el az adott lakótelep
átlagos lakásárától.
A külső szórásnégyzet és szórás:
255,8142,6844,27582,95222 kBk . A gyakorlati számításokat
ugyanakkor jelentősen megkönnyíthetjük, ha a belső és a külső szórást számítjuk ki, majd
ezek segítségével határozzuk meg a teljes szórást. A külső szórás az egyes részsokasági
átlagok átlagos eltérése a fősokasági átlagtól, súlyozva a szóban forgó részsokaság
elemszámával. 2
2
1
2 2 2 2
( )
15(22,467 31,467) 8(46,625 31,467) 12(32,5 31,467) 10(31,6 31,467)
45
3066,1016768,1356
45
r
j i
kj
N Y Y
N
Innen 2 68,1356 8,2544 k k k k . A külső szórás értelmezése: az egyes
lakótelepek átlagos lakásárai (ezek az egyes részátlagok) átlagosan 8,2544 mFt-tal térnek el
valamennyi lakás (azaz a részekre nem bontott sokaság; hiszen a főátlagnál nem vizsgáljuk a
csoportosítás hatását) átlagárától.
A 2
1
( )
r
j ij
N Y Y négyzetösszeget külső eltérésnégyzetösszegnek nevezzük (SSK).
A varianciahányados, vagy szórásnégyzethányados mutató: 2
2
2
68,13560,7129
95,582
k SSKH
SST, amely összefüggés úgy interpretálható, hogy a kínálati
lakásárak ingadozásának mintegy 71%-a azzal magyarázható, hogy a lakás a négy
lakótelep közül melyiken található, 29% pedig egyéb, itt külön nem vizsgált tényezőknek
tulajdonítható, amely alapján állíthatjuk azt, hogy a négy lakótelep megkülönböztetése
hasznos a vizsgált kínálati árak ingadozásának magyarázata szempontjából.
A 2H szórásnégyzethányados mutató négyzetgyöke a H-val jelölt szóráshányados mutató,
amely nullához vagy egyhez való közelsége alapján a kapcsolat szorosságát jellemezhetjük.
2 0,7129 0,8443 H H H H . A H szóráshányados mutató alapján a lakás
elhelyezkedése és ára között erős kapcsolat fedezhető fel.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
57
3.3 Ismérvek közötti kapcsolat
Két ismérv, X és Y ismérv között háromféle természetű kapcsolat lehetséges:
- A két ismérv független egymástól.
- A két ismérv között sztochasztikus kapcsolat van. Ezt azt jelenti, hogy nincs egyértelmű
függvénykapcsolat a két ismérv értékei között, azonban fennáll egy tendencia jellegű
kapcsolat.
- A két ismérv függvényszerű, determinisztikus kapcsolatban áll egymással. Ez azt
jelenti, hogy az egyik ismérv bármely értékéhez a másik változó egy adott értéke
tartozik.
A sztochasztikus kapcsolat lényege, hogy a megfigyelt sokaság egységeinek X ismérv szerinti
milyenségét, hovatartozását ismerve levonható ugyan bizonyos következtetés az egységek Y
szerinti hovatartozásáról, de ez a következtetés nem teljesen egyértelmű.
Az ismérvek közötti kapcsolat elemzésekor a következő három kérdésre keressük a választ:
1. Van-e kapcsolat a vizsgált ismérvek között?
2. Milyen szoros a kapcsolat?
3. Hogyan lehet felhasználni az ismérvek közötti kapcsolat természetének ismeretét arra,
hogy egy adott egység bizonyos ismérvek szerinti milyenségéből következtethessünk
annak más ismérvek szerinti hovatartozására?
Az egyidejűleg vizsgált két ismérv fajtája (a változók mérési szintje, lásd 1.5 fejezet) szerint a
továbbiakban a következő eseteket különböztetjük meg7:
- Asszociáció(s kapcsolat): az egymással kapcsolatban álló ismérvek minőségi vagy
területi ismérvek (mindkét változó nominális mérési szintű).
- Vegyes kapcsolat: az egyik vizsgált ismérv mennyiségi ismérv, a másik területi vagy
minőségi ismérv (azaz az egyik változó intervallum- vagy arányskálán, a másik pedig
nominális skálán mérhető).
- Korrelációs kapcsolat: mindkét vizsgált ismérv mennyiségi ismérv (mindkét változó
intervallum- vagy arányskálán mérhető).
- Rangkorrelációs kapcsolat: mindkét változó sorrendi skálán mérhető.
Korábbi példánkat (lakótelepi példa) alapul véve itt ejtünk szót a vegyes kapcsolatról.
A H2
variancia- vagy szóráshányados mutató az Y-nal jelölt ismérv szórásnégyzetének az X
ismérv által magyarázott hányada. A vegyes kapcsolat szorosságának mutatója; 10 2 H .
Számítása:
2
2
2
22 1
KB
SST
SSK
SST
SSBSSTH
A H2 mutató értékét gyakran százalékká alakítva használják.
A H2=0 eset akkor fordul elő, ha 02 KSSK . Ez akkor következhet be, ha az X ismérv
szerint képzett osztályok részátlagai mind egyformák. Ez akkor fordul elő, ha X és Y
függetlenek egymástól.
7 Az asszociációs kapcsolatról majd a hipotézisvizsgálatoknál a függetlenségvizsgálat kapcsán fogunk szólni, a
korrelációs kapcsolat bemutatásával külön fejezet foglalkozik jegyzetünkben, és e tárgynak nem része a
rangkorreláció tárgyalása.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
58
A H2=1 eset ezzel szemben akkor áll elő, ha 22
TK , azaz 02 B . Ez pedig annyit jelent,
hogy az X szerint képzett csoportokon belül nem szóródik Y. Ekkor az X szerinti hovatartozás
mindent elmond Y-ról. A varianciahányados H2=1 értéke a két vizsgált ismérv függvényszerű
kapcsolatát jelzi.
Az óbudai lakótelepeken található lakások árát vizsgáló példánkban láttuk, hogy a vizsgált két
ismérv közül az egyik területi (melyik lakótelepen van a lakás), a másik mennyiségi
(mennyibe kerül). Így a két ismérv közötti kapcsolat vegyes kapcsolatként jellemezhető.
713,02
22
SST
SSKH
T
k
, azaz láttuk, hogy a kínálati lakásárak szóródását kb. 71%-ban
magyarázza, hogy melyik lakótelepen van a lakás, és a lakásárak szóródásának maradék 29%-
át pedig más, a példában nem vizsgált tényezők, ismérvek magyarázzák (pl. hányadik
emeleten van a lakás, milyen a lépcsőház, van-e lift, milyen a tájolása, tömegközlekedési
viszonyok, a lakótelep környékének infrastruktúrája stb.).
A H2 varianciahányados mutatóból származtatott és H-val jelölt szóráshányados mutató két
ismérv közötti vegyes kapcsolat szorosságát méri. Értéke 0 és 1 között mozog. Ha H=0, a két
ismérv független egymástól, míg H=1 a két ismérv közötti függvényszerű kapcsolatra utal.
A H nem fejezhető ki százalékosan, hanem kizárólag a kapcsolat szorosságának
megítélésére használható a 0-hoz, illetve 1-hez való közelségét figyelembe véve.
A példánk alapján 844,0713,02 HH , amely érték szoros kapcsolatot mutat a lakás
ára és a lakótelepi elhelyezkedés között.
3.4 Fogalmak
Heterogén sokaság Viszonyszám
Megoszlási viszonyszám Intenzitási viszonyszám
Dinamikus viszonyszám Belső eltérés
Külső eltérés Teljes eltérés
Belső szórás Belső variancia
Külső szórás Külső variancia
Teljes szórás Teljes variancia
Varianciahányados Szóráshányados
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
59
3.5 Gyakorló feladatok
3.5.1 Feladat
Egy vállalatnál megvizsgálják a férfiak és a nők kereseteit:
Nem Bruttó kereset (ezer Ft/hó)
Férfi 120, 83, 65, 190, 230, 120, 130, 190
Nő 70, 65, 90, 100, 120, 130
Jellemezze a munkavállalók keresetének homogenitását, állapítsa meg, hogy milyen szoros a
kapcsolat a munkavállaló neme és a bruttó keresete között!
Megoldás:
A kereset szerinti szóródást két részre kell bontani, a „munkavállaló neme” ismérvhez
kapcsolódó külső szórásra és a más tényezőkhöz (pl. tapasztalat, korábbi beosztások, iskolai
végzettség stb.) kapcsolható belső szóródásra az SST=SSK+SSB összefüggés alapján.
2
1 1
2
11
2
1
)()()(
M
j
N
i
jij
M
j
jj
M
j
N
i
ij
jj
YYYYNYY
Az ehhez szükséges számítások:
A
munkavállaló
neme
Munkavállalók
száma
Átlagkereset Szórás
(részsokaságok
tapasztalati szórása)
Férfi 8 141 53,46
Nő 6 95,83 23,88
Összesen 14 121,64 48,75
A részátlagok:
1418
190...831201
1
ffiN
i
iffi
ffi
ffi YN
Y , vagyis a vizsgált férfiak átlagkeresete 141
eFt/hó.
83,956
130...65701
1
nőN
i
inő
nő
nő YN
Y , vagyis a vizsgált nők átlagkeresete 95,83
eFt/hó.
A főátlag:
64,12114
83,9561418
1
1
M
j
j
M
j
jj
N
YN
Y , vagyis a vizsgált vállalat esetében az átlagkereset
(nemtől függetlenül) a minta alapján 121,64 eFt/hó.
A részszórások:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
60
46,538
)141190(...)14183()141120()(
1 2222
1
ffiN
i
ffiiffi
ffi
ffi YYN
Ez azt jelenti, hogy a férfiak esetében az átlagkeresettől való átlagos eltérés 53,46 eFt/hó.
88,236
)83,95130(...)83,9565()83,9570()(
1 2222
1
nőN
i
nőinő
nő
nő YYN
Ez azt jelenti, hogy a nők esetében az átlagkeresettől való átlagos eltérés 23,88 eFt/hó.
A belső variancia a részvarianciák alapján:
52,187714
88,23646,538 22
2
12
N
N j
M
j
j
B
33,43B
Ez azt jelenti, hogy a vizsgált vállalat esetében az átlagos keresettől való átlagos eltérés (a
részátlagoktól való átlagos eltérés) 43,33 eFt/hó.
67,49914
)64,12183,95(6)64,121141(8)(
221
2
2
N
YYNM
j
jj
K 35,22K
Ez azt jelenti, hogy a nemenkénti átlagkeresetek átlagosan 22,35 eFt/hó-val térnek el a
főátlagtól.
2 2 2 1977,52 499,67 2377,19 T K B 48,75T
Ez azt jelenti, hogy az egyes munkavállalók keresete átlagosan 48,75 eFt/hó-val tér el a
főátlagtól.
Bontsuk fel a teljes eltérés-négyzetösszeget a példa elején felírt módon: SST=SSK+SSB
Az SSK számítása:
SSK=22 )64,12183,95(6)64,121141(8 = 6995,41
SSB pedig a csoportonkénti eltérés-négyzetösszegek összege, ami a szórásokból
„visszaszámolható”:
SSB = 22 88,23646,538 = 22863,77 + 3421,53= 26285,3
SST = SSK +SSB= 6995,41 + 26285,3 = 33280,71
A kapcsolat szorosságának jellemzése:
2
2
SSK 6995,41H 0,21
SST 33280,71
H H 0,21 0,458
A munkavállaló neme 21%-ban magyarázza a fizetésekben megfigyelhető szóródást. A két
ismérv között gyenge közepes kapcsolat van, erre utal a H mutató 0,458-ös értéke. Ez egyúttal
azt is jelzi számunkra, hogy a fizetésekben meglévő szóródás vizsgálatához a „munkavállaló
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
61
neme” nem volt igazán jó választás, hiszen azt csak kismértékben magyarázza. Érdemes lenne
más csoportképző ismérvvel (pl. iskolai végzettséggel) próbálkozni.
3.5.2 Feladat
Három hallgatói csoportot vizsgálunk. Az első csoportba azok a hallgatók kerültek, akik a
szüleikkel laknak, a másik csoportba pedig azok, akik kollégiumban, míg a harmadik
csoportba azok kerültek, akik albérletben laknak. Az alábbi táblázat mutatja az egyes
csoportokban megkérdezett hallgatók heti költéseit ezer Ft-ban.
Hallgató
lakhelye
Heti költség (eFt)
Szülőknél 13, 18, 20, 20, 28, 30, 31, 40
Kollégiumban 25, 30, 30, 31, 33, 35, 38, 40, 40,
44, 50
Albérletben 40, 48, 50, 50, 52
Számítsuk ki az átlagos heti kiadást a különböző lakáshelyzetű hallgatói csoportokban!
Vonjunk le következtetéseket! Vizsgáljuk meg a szóródást különböző módokon! Számítsuk ki,
hogy a szóródás milyen mértékben magyarázható a lakáshelyzettel! Milyen szoros a kapcsolat
a lakhely és a kiadások között?
Megoldás:
Átlagos heti kiadások és szórások kiszámítása:
Hallgató
lakhelye
Heti költségek
Átlaga Szórása
Szülőknél 25 8,2
Kollégiumban 36 6,902
Albérletben 48 4,195
Összesen
258
40...2018131
1
szN
i
isz
sz
sz YN
Y
3611
50...3030251
1
kN
i
ik
k
k YN
Y
485
52505048401
1
aN
i
ia
a
a YN
Y
A szülőknél lakók átlagos heti kiadása 25 eFt, a kollégistáké 36 eFt, és az albérletben lakóké
48 eFt, így ez utóbbi csoport esetében a legmagasabb a heti kiadás.
Főátlag:
83,3424
4853611258
1
1
M
j
j
M
j
jj
N
YN
Y
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
62
A megkérdezett hallgatók átlagos heti költsége 34,83 eFt.
Részszórások:
2,88
)2540(...)2518()2513()(
1 2222
1
szN
i
szisz
sz
sz YYN
2 2 22
1
1 (25 36) (30 36) ... (50 36)( ) 6,902
11
kN
k ik kik
Y YN
2 2 22
1
1 (40 48) (48 48) ... (52 48)( ) 4,195
5
kN
a ik kik
Y YN
A szülőknél lakók átlagos költése átlagosan 8,2 eFt-tal tér el az átlagtól, az átlagtól való
átlagos eltérés 6,9 eFt a kollégistáknál és 4,2 eFt az albérletben lakóknál.
A belső variancia:
2
2 2 212 8 8,2 11 6,902 5 4,195
47,9124
6,92
m
j jj
B
B
N
N
A belső szórás értéke azt jelenti, hogy a hallgatók heti költése átlagosan 6,92 eFt-tal tér el a
saját részsokaságuk (lakhely szerint számított) átlagától.
2
2 2 212
( )8 (25 34,83) 11 (36 34,83) 5 (48 34,83)
68,9724
8,305
M
j jj
K
K
N Y Y
N
A külső szórás értéke szerint az egyes részsokságok költésének átlagai 8,3 eFt-tal térnek el a
heti költések főátlagától.
81,10
88,11697,6891,472
T
T
Az egyes hallgatók heti költése átlagosan 10,81 eFt-tal tér el a vizsgálatba bevont hallgatók
átlagos heti költségétől.
A teljes variancia és a külső variancia felhasználásával a varianciahányados mutató:
%5959,088,116
97,682 H , a heti költések ingadozását 59%-ban magyarázza a hallgató
lakhelye. A maradék 41%-nyi ingadozást más, lakhelyen kívüli, most nem vizsgált tényezők
okozzák.
768,00,592 HH , a két ismérv (hallgató lakhelye és a heti költés) között
közepesnél erősebb kapcsolat áll fenn.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
63
3.6 Elméleti kérdések
1. A belső, külső és teljes eltérésen keresztül mutassa be a belső, külső és teljes variancia
közötti összefüggést! Ismertesse a közöttük lévő kapcsolat gyakorlati jelentőségét!
2. Ismertesse az ismérvek közötti kapcsolatok típusait az ismérvek mérési szintjeit is alapul
véve!
3. Mutassa be a vegyes kapcsolat mérésére alkalmazott mutatókat!
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
64
4. Mintavétel és becslés
4.1 Mintavétel
A bevezetőben már tárgyaltuk, hogy a sokaságra vonatkozó adatgyűjtések lehetnek teljes
körűek vagy részlegesek. A teljes körű felmérések a sokaság minden egységére kiterjednek,
míg a részleges adatgyűjtés esetén a sokaság egy alkalmasan kiválasztott részét vizsgáljuk. A
sokaság egy részének kiválasztását mintavételnek, a sokaság így kiválasztott részét pedig
mintának nevezzük.
Az általunk vizsgált társadalmi-gazdasági jelenségek vizsgálatakor a teljes körű adatfelvétel
ritka, mert időigényes, drága, és a legtöbb esetben lehetetlen is, nincs lehetőség a sokaság
teljes körű megismerésére. Mintavételes technikával készül ugyanis a legtöbb piac- és
közvéleménykutatás, a demográfiai vagy szociológiai kutatások, sok esetben mintavételes
eljárásokra támaszkodnak a Központi Statisztikai Hivatal kimutatásai is, amikor a termelés, a
fogyasztás, a kereskedelmi forgalom, vagy az árindexek alakulását vizsgálja adott
rendszerességgel.
Azt is hangsúlyoztuk a bevezetőben, hogy minket nem a minta konkrét jellemzése érdekel, a
minta eszköz, hogy segítségével következtessünk a sokaságra, és éppen ezért az is érdekes,
hogy a minta mennyire jó eszköz, mennyire megbízható az az alapján levont következtetés.
A mintavételes eljárás első kulcsfontosságú mozzanata a sokaság helyes definiálása, azaz
annak rögzítése, hogy mely sokaság megfigyelésére irányul a mintavétel.
Korábban említést tettünk a mintavétellel kapcsolatban említett hibák két nagy csoportjára is.
Újból hangsúlyoznánk, hogy a nem mintavételi hiba az emberi figyelmetlenség, hibás
felmérés, adatrögzítés, lekérdezés, kódolás, feldolgozás során keletkezik. A technika és az
alkalmazott módszerek fejlődésével már sokféle módon lehet védekezni a nem mintavételi
hibák ellen, de ez nyilván valamivel költségesebbé teheti a felmérést.
A mintavételi hiba az előzővel ellentétben abból származik, hogy nem a teljes sokaságot
vizsgáljuk, hanem annak csak egy részét, így az eredmények függnek attól, hogy éppen
milyen mintát veszünk.
4.1.1 Mintavételi módok
Az alapsokaságból többféleképpen választható ki egy n elemű minta. A kiválasztás két nagy
csoportja: véletlen és nem véletlen mintavételi módok.
A véletlen mintavétel olyan kiválasztási eljárás, melynek során ismert vagy meghatározható a
sokaság elemeinek mintába kerülési esélye. A mintavételi hiba számítása csak véletlen minta
esetében lehetséges. A véletlen minta biztosítja a reprezentativitást.
A sokaságból kivett minta egyik legfontosabb elvárt tulajdonsága a reprezentativitás.
A reprezentativitás azt jelenti, hogy a minta összetétele csak a véletlen hatások miatt tér el a
sokaságétól. A minta vizsgált ismérvek szerinti összetétele követi a sokaságét.
Ha pl. egy vizsgált sokaságban 50-50% a férfiak és a nők aránya, akkor a véletlen kiválasztás
biztosítja, hogy nagyjából a mintában is fele-fele lesz a férfiak-nők aránya, természetesen a
véletlen hatása miatt ettől a megoszlástól a mintabeli megoszlás kismértékben eltérhet.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
65
A gyakrabban alkalmazott mintavételi módok a visszatevéses egyszerű véletlen minta, a
visszatevés nélküli egyszerű véletlen minta, a rétegzett minta, a csoportos és a többlépcsős
minta.
A visszatevéses egyszerű véletlen mintavétel esetén a sokaságból egyenlő valószínűséggel, a
visszatevéses technika miatt egymástól függetlenül veszünk mintát. A gyakorlatban ritkán
fordul elő, inkább elméleti jelentősége van, a mintavételi tulajdonságok ezen keresztül
mutathatóak be a legjobban.
A visszatevés nélküli egyszerű véletlen mintavétel során a sokaságból egyenlő
valószínűséggel veszünk mintát, de egy sokasági elem csak egyszer kerülhet a mintába, így a
mintaelemek egymástól nem függetlenek. A gyakorlatban gyakran előfordul, a sokaság egy
teljes körű listájából véletlen generátorral adott nagyságú mintát generálnak.
Az egyszerű véletlen minták a véletlenség következtében reprezentatívak. Ilyen minták
esetében a következtetés pontossága két dologtól függ:
mintaelemszám: minél nagyobb a minta, annál megbízhatóbb a következtetés, mivel
annál kisebb a véletlen szerepe;
eredeti sokaság heterogeneitása: minél heterogénebb az alapsokaság, annál nagyobb a
véletlen szerepe, hogy milyen lesz az aktuális mintánk, így ez a következtetés
megbízhatóságát csökkenti.
Egyszerű véletlen minták esetében a következtetés pontossága csak a minta elemszámnak
növelésével érhető el. A rétegzett minta abban segít, hogy rögzített mintaelemszám mellett
pontosabb eredményeket kapjunk.
A rétegzett mintavétel esetében a sokaságot egy csoportképző ismérv szerint átfedésmentes,
az egész sokaságot lefedő rétegekre bontjuk, majd minden rétegből egyszerű véletlen mintát
veszünk.
Ebben az esetben a következtetések megbízhatósága a rétegek heterogenitásától függ, vagyis
olyan rétegképző ismérvet (lásd Részekre bontott sokaság vizsgálata fejezet) érdemes
választani, amely homogenizálja a rétegeket, vagyis amely minél erősebb sztochasztikus
kapcsolatban áll a vizsgált ismérvvel. Tehát alkalmazása elsősorban akkor célszerű, ha a
sokaság heterogén és van előzetes információnk arról, hogy a sokaságot hogyan lehet a
vizsgált ismérv szempontjából homogén, de legalábbis kevésbé heterogén csoportokba
sorolni.
Az egyszerű véletlen és rétegzett minták esetében feltétel, hogy legyen egy teljes lista a
vizsgált egységekről, és rétegzett minta esetén még azt is tudni kell, hogy melyik egyed
melyik rétegbe tartozik.
Amennyiben egy sokaságról nem áll rendelkezésre lista vagy annak beszerzése költséges,
összeállítása hosszadalmas lenne, használható a csoportos vagy többlépcsős mintavétel.
A csoportos és többlépcsős mintavétel alkalmazásakor olyan nyilvántartásból történik a
kiválasztás, amely a sokaság egységeit nem elkülönítve, hanem természetes vagy mesterséges
csoportokban tartalmazza. A sokaságot a csoportképző ismérv szerint átfedésmentes, a
sokaságot lefedő csoportokra bontjuk, majd a csoportok közül választunk egyszerű véletlen
mintát, majd a mintába került csoportok minden egysége bekerül a mintába. A többlépcsős
eset ennek általánosítása, két, három vagy több csoportosítás is végezhető.
A csoportos minta annál megbízhatóbb, minél heterogénebbek a csoportok, hiszen ha egy
csoport homogén, akkor a csoport elemei nem fogják bemutatni a sokaság jellegzetességeit.
Az a jó, ha minden csoport önmagában is minél jobban tükrözi a sokaság összetételét.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
66
E jegyzetben nem részletezzük a nemvéletlen mintavételi eljárásokat, bár a gyakorlatban
gyakran előfordulnak egyszerűségük, olcsóságuk miatt. Legfőbb hátrányuk, hogy
alkalmazásukkor nem számszerűsíthető a mintavételi hiba nagysága.
4.2 Paraméterek becslése
A mintavétel után a célunk a sokaság jellemzése a minta segítségével (lásd 1. ábra).
Leggyakrabban a sokaság valamely jellemzőjére, paraméterére van szükségünk. A sokaság
egy paraméterének mintából való közelítését becslésnek nevezzük.
A korábbi tanulmányok során azt is megértettük, hogy minden – majdnem minden – elméleti
eloszlásnak van(nak) paramétere(i), melyeket általában nem ismerünk, azokat a -re
vonatkozó statisztikai mintából kell közelítőleg meghatároznunk, becsülnünk, mert csak ezek
ismeretében tudunk a vizsgált jelenséggel kapcsolatos valószínűségi kérdésekre válaszolni.
A becslési eljárásokat két nagy kategóriába soroljuk. Megkülönböztetünk pontbecslést és
intervallumbecslést.
A pontbecslés a paramétert egy értékkel becsüli.
Az intervallumbecslés előre meghatározott megbízhatósággal egy intervallumot ad a keresett
sokasági paraméterre.
A becsülni kívánt paramétert általánosságban ϴ-val (ejtsd: théta) jelöljük. A leggyakrabban
becsült sokasági paraméterek a várható érték, a szórás és az arány. Ezek a sokaság számunka
ismeretlen konstans értékei, azaz értékük nem függ a véletlentől. A becslés a sokaságból
kivett véletlen minta alapján valósul meg, a mintaelemek függvénye, ezt többféle formulával
is előállíthatjuk és becslőfüggvénynek nevezzük. Véletlen minta esetén az éppen aktuális
minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is
valószínűségi változó. A mintából származó pontbecslést általában -val jelöljük.
Hangsúlyozzuk, hogy a becsülni kívánt sokasági paraméter konstans szám, erre a kivett
mintából sokféle becslést adhatunk. A várható értéket becsülhetjük a mintaátlaggal, a
mediánnal, a módusszal, a legkisebb és legnagyobb érték átlagával, esetleg egy nyesett
átlaggal. Éppen ezért a becslések jóságát valamilyen kritériumok szerint értékelni kell, ezeket
a becslési kritériumokat tárgyaljuk a következő alfejezetben.
17. ábra: A becslés elméletet
Minta-2
Minta-1
Minta-3
1x
2x
3x
mintáról mintára változik
maga is valósz. változó
adott elméleti eloszlással,
szórással stb.
jellemezhető
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
67
Nem arról van tehát szó, hogy a mintából kiszámoljuk az ismeretlen paramétert. A
mintából számolt mutatók értékei függnek a véletlentől, mintáról mintára változnak, így
maguk is valószínűségi változónak tekinthetők.
A mintából számolt mutatók eloszlását mintavételi eloszlásnak nevezzük.
Annak megítélése, hogy a mintából számolt mutató (amit minta statisztikának vagy röviden
statisztikának is neveznek) mikor tekinthető az ismeretlen elméleti paraméter „jó”
becslésének, többféle szempontból történhet.
4.3 A becslés tulajdonságai8
Említettük, hogy az ismeretlen sokasági paramétereket általában több statisztikával is
becsülhetjük. Így pl. a várható értéket – normális eloszlású alapsokaság esetében – a
mintaátlaggal és a mediánnal, a szórást a minta szórásával, de a terjedelem segítségével is
becsülhetjük stb. Természetesen felmerül a kérdés, hogy ezek közül melyik becslést kell
választanunk. Azért, hogy ilyen esetekben a legmegfelelőbb becslést választhassuk,
kritériumokat kell felállítanunk arra vonatkozólag, hogy mikor fogadjunk el egy becslést
jónak, illetve mikor tartsunk jobbnak egy becslést a másiknál. A statisztikai becslés Fisher-
féle kritériumait az alábbiakban foglaljuk össze9.
4.3.1 Torzítatlan becslés
A legfontosabb tulajdonság, amit egy „jónak” minősített becsléstől megkívánunk, hogy a
becslés a szóban forgó paraméterérték körül ingadozzék. Pontosabban azt kívánjuk meg,
hogy a becslés (az illető statisztika) várható értéke éppen a megfelelő paraméterérték
legyen. Ha egy becslésre ez a követelmény teljesül, akkor torzítatlan becslésről beszélünk.
)ˆ(E
A torzítatlanság kritériuma azt jelenti, hogy bár a minta függ a véletlentől, ezért a különböző
mintából származó becslések eltérhetnek a becsülni kívánt elméleti paramétertől, az eltérések
középpontja az elméleti paraméter legyen, ne legyen semmilyen szisztematikus „félrehúzás”,
torzítást.
A torzítatlanság nem azt jelenti, hogy egy adott mintából kapott becslés egyenlő az
ismeretlen paraméterrel, sőt arra sem ad feleletet, hogy a mintából kapott becslés értéke
közel, vagy távol esik-e a valódi paramétertől. A torzítatlanság esetében csupán abban
lehetünk biztosak, hogy nincs semmiféle szisztematikus, egyirányú eltérés a becslés és a
becsült paraméter között.
Így pl. torzítatlan a becslés, ha a mintaátlagok várható értéke megegyezik az alapsokaság
várható értékével: )(ExE , vagy a korrigált tapasztalati szórásnégyzet várható értéke az
elméleti varianciával egyenlő: )()( 22* DsE .
Ez azonban nem igaz a tapasztalati szórásnégyzetre. A tapasztalati szórásnégyzet várható
értéke (az elméleti varianciát az egyszerűség kedvéért 2-el jelölve):
222 11
1)(
nn
nsE . Az empirikus (tapasztalati) szórásnégyzet tehát az elméleti
variancia torzított becslése. Látható, hogy a „torzítás mértéke” függ a mintaszámtól, s a
8 Kövesi J.: Kvantitatív módszerek, Oktatási segédanyag, BME MBA Mérnököknek program, Budapest, 1998
9 A 4.3 részben található ábrák a STATISTICA for Windows programmal készültek
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
68
mintaszám növekedésével csökken. Az ilyen tulajdonságú becsléseket aszimptotikusan
torzítatlan becslésnek nevezzük.
Példa Vizsgáljuk meg n=3 elemű statisztikai minták alapján a kockadobás tapasztalati és korrigált
tapasztalati szórását. (A valószínűségszámítás alapjai részben meghatároztuk a kockadobás
elméleti szórását, s azt találtuk, hogy D()1,71.) A kísérletet 50-szer megismételve a
számított tapasztalati, ill. korrigált tapasztalati szórásokat az alábbi ábrán (18. ábra) láthatjuk.
18. ábra: Tapasztalati szórások összehasonlítása
Az ábrán folytonos vonal mutatja a tapasztalati, ill. szaggatott vonal a korrigált tapasztalati
szórásokat a mintaszám függvényében. Vízszintes folytonos vonallal jelöltük a kétfajta
szórás (50-50 elem) átlagát. A korrigált tapasztalati szórások átlaga 1,73, a tapasztalati
szórásoké 1,41. Jól látható, hogy a korrigált tapasztalati szórások az elméleti (1,71) szórás
körül ingadoznak (átlaguk közel esik az elméleti értékhez), míg a tapasztalati szórások átlaga
1,41, jóval nagyobb az eltérés az elméleti értéktől.
Amennyiben a becslésünk torzított, a torzítás mértékét a becslőfüggvény várható értéke és az
alapsokasági jellemző különbségeként definiáljuk:
)ˆ(Etorzítás
4.3.2 Hatásos becslés
A hatásosságot nagyon fontos becslési kritériumnak tekintjük.
A torzítatlanság csak azt biztosítja, hogy a becslések a becsülni kívánt paraméter körül
ingadozzanak, de az ingadozás mértékéről nem mond semmit. Minél kisebb az ingadozás
mértéke, annál nagyobb megbízhatósággal tudunk majd egy mintára támaszkodni. A
becslések ingadozását a becslések szórásával (standard hiba) mérjük, egy becslés annál
hatásosabb, minél kisebb a szórása.
T_SZ3
K_TSZ3
n=3 elemû minták szórásai
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0 4 8 12 16 20 24 28 32 36 40 44 48
1,73
1,41
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
69
Két becslés összehasonlításakor a hatásosság kritériuma alapján döntjük el, hogy a kettő közül
melyik a jobb. Két becslés közül a kevésbé ingadozót nevezzük hatásosabbnak. Az ingadozás
mértéke a szórás, ezért a becslések ingadozását is a szórásukkal jellemezzük. Tehát két
becslés közül a kisebb szórású becslést tekintjük hatásosabbnak, jobbnak. Ha 1 hatásosabb
becslés, mint 2 , akkor
)ˆ()ˆ( 21 DD
Gyakran előfordul, hogy a torzítatlan becslések között van olyan, amelyiknek a szórása az
összes többi becslés szórásánál kisebb (adott n mellett). Ekkor ezt a minimális szórású,
torzítatlan becslést hatásosnak nevezzük, és a többi becslés hatásfokát ehhez mérjük.
Példa A „szokott” módon, tapasztalati adatokból hasonlítsuk össze (n=5 elemű minták alapján) a
kockadobás átlagát és mediánját. A kísérletet 50-szer megismételve, a minták átlagait és
mediánjait a 19. ábra mutatja.
19. ábra: A kockadobás átlaga és mediánja
Az ábrán szaggatott vonallal összekötve a négyzetek a mediánokat, folytonos vonallal
összekötve körök jelölik az egyes minták átlagait. Vízszintesen behúzott folytonos vonal a
várható értéket mutatja (E() = 3,5). Megfigyelhetjük, hogy a medián is és az átlag is az
elméleti érték körül ingadozik (torzítatlan becslések), ugyanakkor az átlagok eltérése,
ingadozása kisebb, mint a mediánoké. Kiszámolva a két adatsor korrigált tapasztalati
szórásait, az eredmények az alábbiak: 794,0* átlags ; 320,1* mediáns . Az átlag szórása valóban
kisebb, mint a mediáné, az adatok alapján kb. 40%-kal. Az átlag tehát hatásosabb becslés,
mint a medián.
4.3.3 Konzisztens becslés
Eddig rögzített mintaelemszám mellett vizsgáltuk a becslések pontosságát. Konzisztencia alatt
azt értjük, hogy nagyobb mintából egyre pontosabb becslést kapunk, így a torzítás mértéke és
a becslés varianciája 0-hoz tart.
Konzisztensnek (összetartónak) nevezzük a becslést akkor, ha ingadozása a becsült
paraméter körül a minta elemszámának növelésével egyre csökken.
ATL
MED
n=5 el emû mi nt ák át l aga és medi ánj a
0. 5
1. 5
2. 5
3. 5
4. 5
5. 5
6. 5
0 5 10 15 20 25 30 35 40 45 50
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
70
A korábbiakban láttuk, hogy a számtani átlag torzítatlan becslése a várható értéknek, s szórása
nx
. Nyilvánvaló, hogy n esetén 0
x , vagyis a számtani átlag konzisztens
becslése a várható értéknek.
Egy paraméter n elemű mintákból számított n becslései egy valószínűségi változó
sorozatot alkotnak ( ,...2,1n ). A valószínűségszámítás részben megismertük egy
valószínűségi változó sorozat majdnem biztos (1 valószínűségű) és sztochasztikus
konvergenciájának fogalmát. Ezek felhasználásával azt mondhatjuk, hogy n a paraméter
erősen konzisztens becslése, ha n majdnem biztosan (1 valószínűséggel) a paraméterhez
tart, illetve n a paraméter gyengén konzisztens becslése, ha n sztochasztikusan
konvergál a paraméterhez.
Példa Az előző példához hasonlóan „kevésbé matematikai módon”, tapasztalati adatokból
vizsgáljuk meg a kockadobás esetén a két empirikus szórás viselkedését a mintaszám
növekedésének függvényében.
A 20. ábra mutatja a kapott eredményeket. Az ábrán folytonos vízszintes vonal jelzi az
elméleti értéket (D()1,71). Az ábrából egyértelműen látszik, hogy a mintaszám
növekedésével mind a korrigált tapasztalati, mind a tapasztalati szórás az elméleti érték körül
ingadozik (torzítatlan, ill. aszimptotikusan torzítatlan becslés), s az ingadozás mértéke a
mintaszám növekedésével egyre kisebb (konzisztens a becslés).
20. ábra: A kockadobás szórása a mintaszám függvényében (n=100)
Megfigyelhetjük, hogy kb. 30-35 elemű minták esetén a különbség a két szórás között már
gyakorlatilag elhanyagolható. Az 21. ábra csak az első 50 adatot ábrázolva mutatja a két
szórás közötti különbség alakulását.
T_SZ_
K_T_SZ
Kockadobás szórása
0.8
1.2
1.6
2.0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95100
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
71
21. ábra: A kockadobás szórása a mintaszám függvényében (n=50)
4.3.4 Elégséges becslés
Egy becslés elégséges, ha az lényegében minden információt tartalmaz a paraméterre
vonatkozóan. Ez más szóval annyit jelent, nincs más olyan becslés, amelyik a paraméterről
több információt szolgáltatna, mint az elégségesnek minősülő becslés.
4.4 A pontbecslés módszerei
A jegyzet bevezetésében felvázoltuk a statisztikai következtetés logikai menetét, s annak első
lépését, a mintavétel elveit és módszereit is áttekintettük. A második lépéssel, a mintából
származó adatok feldolgozásával (tömörítésével, rendezésével, ábrázolásával stb.) a leíró
statisztika foglalkozik, melynek eszközeit és módszereit szintén részletesen megismertük a 2.
fejezetben. Már akkor előrevetítettük, hogy a mintából számított mutatókat (átlag, szórás, stb.)
a sokasági jellemzőkre való következtetésre, az ismeretlen paraméterek becslésére (is)
használjuk. Ebben az esetben tehát a mintából meghatározunk egy számértéket, s ezt a számot
tekintjük az ismeretlen paraméter közelítő értékének. Ezt az eljárást nevezzük az előzőek
értelmében pontbecslésnek.
Az eddigiek során is használtunk különféle becslőfüggvényeket pontbecslés céljára, de ezeket
csak „ösztönösen” választottuk. Így természetesen adódott, hogy pl. a várható értéket a
mintából számított átlaggal vagy más középértékkel becsüljük. Ez az ún. analógia elve, ami
azt jelenti, hogy a mintából a becsülendő jellemzővel megegyező tartalmú mutatót számítunk
ki, és ennek segítségével becsüljük a megfelelő sokasági jellemzőt. Léteznek azonban olyan
általános elvek, módszerek, amelyek segítségével olyan esetekben is tudunk jó tulajdonságú
becslőfüggvényeket készíteni, amikor a megérzés vagy az analógia már nem segít. A
legegyszerűbb grafikus becslést kivéve nem célunk ezek részletes ismertetése, csak röviden
felsoroljuk, illetve ismertetjük lényegüket10,11
.
10
Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985 11
Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996
T_SZ_
K_T_SZ
Kockadobás szórása
0.8
1.2
1.6
2.0
2.4
0 5 10 15 20 25 30 35 40 45 50
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
72
Maximum-likelihood módszer (a legnagyobb valószínűség elve): az eljárás
lényege az ún. likelihood függvény felállítása, amely nem más, mint a
mintaelemek együttes sűrűségfüggvénye, s az ismeretlen paraméter becslésére azt a
statisztikát használjuk, melyre ez a függvény maximális értéket vesz fel. Ez az
egyik legjobb és leggyakrabban alkalmazott eljárás. A módszer alkalmazásához
ismernünk kell az eredeti sokasági eloszlást. Az ismeretlen paraméter becslésének
azt a függvényt tekintjük, amely mellett egy adott minta bekövetkezésének
valószínűsége maximális.
Legkisebb négyzetek módszere: nem pusztán a statisztikai becslésre szolgáló
eljárás, hanem alkalmazható más becslési feladatok megoldására is. A módszer
lényege, hogy egy elméleti modellnek (ez lehet egy eloszlás vagy
sűrűségfüggvény, de lehet egy egyszerű konstans függvény is) a paramétereit
határozza meg úgy, hogy a tényleges és a becsült paraméterekkel illesztett
modellek négyzetes eltérése, azaz az eltérések négyzetösszege minimális legyen.
Ezt az elvet használjuk majd a regressziószámítás során is.
Momentumok módszere abban áll, hogy ha k számú paramétert akarunk becsülni,
akkor az eloszlás első k számú elméleti momentumát egyenlővé tesszük a mintából
számított tapasztalati momentumokkal. Ily módon az ismeretlen paraméterekre
egyenletrendszert nyerünk, amely kedvező esetben megoldható.
Grafikus paraméterbecslés: az előző matematikai eljárásokhoz képest, ez inkább
a gyakorlat számára könnyebben kezelhető eljárás. Bár pontossága természetesen a
grafikus ábrázolás adta lehetőségektől függ, de egyszerűsége miatt sokszor jól
használható. Lényegük, hogy valamilyen módon (többnyire logaritmizálással)
linearizáljuk az eloszlásfüggvényt, s az adatokat grafikusan ábrázolva az egyenes
meredekségéből és/vagy tengelymetszetéből következtetünk az eloszlás ismeretlen
paraméteré(ei)re.
4.5 Intervallumbecslés
A becslésről szóló eddigi fejtegetéseink során az eloszlás valamely ismeretlen paraméterét
egyetlen mennyiséggel, a mintaelemekből számított statisztika numerikus értékével, tehát
egyetlen számadattal becsültük, azaz pontbecslést alkalmaztunk. A pontbecslés csak
véletlenül egyezik meg a sokasági paraméterrel, általában annak környezetében helyezkedik
el. Hogy milyen sugarú környezetében, az alapvetően a mintavételi hibától függ. Az elemzés
árnyaltabbá tehető azzal, hogy a pontbecslést intervallumbecsléssel egészítjük ki, és a
mintavételi hibát is figyelembe véve adott (nagy) megbízhatóságú intervallumbecslést adunk
a becsülni kívánt sokasági paraméterre, mert ez mutatja meg, mennyire megbízható a
mintából számolt információ.
Az intervallumbecslés eredményeként előálló ún. konfidencia-intervallummal (amely
intervallum a becsülni kívánt elméleti paramétert előre megadott nagy valószínűséggel
tartalmazza) kapcsolatos legfontosabb kérdés, hogy az milyen széles legyen, hogy lefedje a
becsülni kívánt sokasági paramétert. A sokaságból kivett minta függ a véletlentől, vagyis a
mintából számolt statisztika is valószínűségi változó, aktuális értéke általában eltér a becsült
paramétertől. Ha sokszor (sok n-es mintából) végezzük a becslést, akkor a mintastatisztika
értékei – torzítatlan becslés esetén – az elméleti érték körül szóródnak. A szóródás mértéke
természetesen függ a minta nagyságától.
Olyan intervallumot, ami 100%-os biztonsággal lefedi a becsülni kívánt paramétert, nem
tudunk megadni, de nagy megbízhatóságra törekszünk. A mintastatisztika eloszlásának
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
73
ismeretében (ezeket neveztük mintavételi eloszlásoknak) sokszor meg tudunk adni egy olyan
intervallumot, amely az ismeretlen paramétert nagy valószínűséggel tartalmazza. A
leggyakrabban 95%-os megbízhatóságú konfidencia-intervallum használata terjedt el. Az
ilyen intervallumot az adott paraméterre vonatkozó 95%-os konfidencia-intervallumnak
(megbízhatósági intervallumnak) nevezzük. A 95%-os megbízhatóság jelentése az, hogy 100
hasonló mintavétel esetén 95-ször a becsülni kívánt alapsokasági jellemző valóban a
konfidencia-intervallumban található.
A továbbiakban a különböző paraméterekre vonatkozó intervallumbecsléssel foglalkozunk.12
A konfidencia-intervallum számításához ismernünk kell, hogy hogyan viselkedik a sokasági
paramétert becslő függvényünk. Nemcsak azt kell tudnunk, hogy mi a becslőfüggvény átlaga
és szórása, hanem azt is, hogy a becslőfüggvény, mint valószínűségi változó milyen eloszlást
követ.
Ha tehát pl. a sokaság várható értékét kívánjuk becsülni, akkor annak becslésére felhasznált
számtani átlag értéke mintáról mintára változik, azaz valószínűségi változó. Az
intervallumbecsléshez tudnunk kell, hogy a számtani átlag milyen várható értékkel és
szórással, milyen eloszlást követ.
Az intervallumbecslés lényege, hogy ismerjük pontbecslésünk valószínűségi tulajdonságait,
és ezek segítségével egy adott megbízhatósági intervallumot adunk meg a sokasági
paraméterre.
12
Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
74
4.5.1 Konfidencia-intervallum a normális eloszlás várható értékére13
Tegyük fel, hogy a valószínűségi változó N(,0) eloszlású, ahol 0 szórás ismert. A
sokasági paramétert statisztikai mintából a számtani átlaggal becsüljük. Tudjuk, hogy az átlag
eloszlása (mintavételi eloszlás) szintén normális eloszlású )(xE várható értékkel, és
nD 0)(
szórással.
A normális eloszlás ismert tulajdonsága az ún 2-szabály alapján, hogy az átlag értéke
95,44% valószínűséggel a várható érték 2 szórás tartományba, vagyis a
nn
00 2,2
intervallumba esik: 9544,022 00
nx
nP
.
Ha ismernénk tehát a várható értéket, és a számegyenesen megrajzolnánk a fenti
intervallumot, akkor az n elemű minták számtani közepét kiszámolva 100 esetből kb. 95
mintaközép ebbe az intervallumba esik. Sajnos azonban értékét nem ismerjük (éppen ezt
szeretnénk becsülni), a fenti intervallumot nem tudjuk megrajzolni. Rendezzük át az
összefüggést a következő formára: 9544,022 00
nx
nxP
.
Ezen összefüggés valószínűségelméleti értelme a következő. Az ismeretlen paraméter nem
valószínűségi változó, hanem egy állandó, a számegyenes egy adott pontja. Valószínűségi
változó viszont az
nx
nx 00 2,2
intervallum két végpontja. Azaz annak a
valószínűsége, hogy ez a véletlen helyzetű intervallum tartalmazza (lefedi) a pontot,
közelítőleg 95%. (22. ábra)
22. ábra: Konfidencia-intervallumok a várható értékre
13
Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
75
Az
nx
nx 00 2,2
intervallumot a normális eloszlás várható értékére vonatkozó 95%-
os (pontosabban 95,44%-os) konfidencia-intervallumnak nevezzük. Természetesen nem csak
95%-os intervallumot lehet szerkeszteni. Ha a sokaság elméleti szórása ismert (0), akkor az
átlag mintavételi eloszlása lapján tetszőleges kicsiny >0 számhoz meghatározható olyan z/2
mennyiség, hogy a
10
2/
0
2/n
zxn
zxP .
Normális eloszlás esetén tehát az
nzx
nzx 0
2/
0
2/ ,
intervallum (1-) szintű
konfidencia intervallum a várható értékre.
A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának
nevezzük.
Adott eloszlás esetén minél nagyobb a megbízhatósági szint (1-), annál szélesebb
intervallumot kapunk. Nagy biztonsággal csak viszonylag hosszabb intervallumról állíthatjuk,
hogy valóban tartalmazza az ismeretlen paramétert. Mint látható az intervallum hossza függ
még a minta nagyságától és az alapsokasági (0) szórástól.
Az eddigiekben csak kétoldali intervallumról beszéltünk, mivel a gyakorlatban ez az
elterjedtebb. Ha csak alsó vagy csak felső határokat kívánunk becsülni, akkor a követendő
eljárás az eddigiekhez hasonló lesz. A részletek mellőzésével belátható, hogy felső korlát
esetén
10
nzxP kapható, ahol z a standard normális eloszlás táblázatból
kereshető ki14
. Azaz annak a valószínűsége, hogy az ismeretlen sokasági paraméter az
nzx 0
érték alá esik, 1-. Hasonló módon az alsó korlátra a
10
nzxP
összefüggést kapunk.
Miután a mintaátlag függ a véletlentől, valószínűségi változó, így a konfidencia-intervallum is
valószínűségi változó, vagyis a konfidencia-intervallumok is mintáról mintára változnak. A
mintavétel végrehajtása után a konfidencia-intervallum vagy tartalmazza a sokasági
paramétert vagy nem. Ezt nem tudjuk, csak azt, hogy amennyiben a mintavételt újra és újra
megismételnénk, és elkészítenénk a konfidencia-intervallumokat, az esetek 1-α %-ában a
sokasági jellemző a konfidencia intervallumon belül lenne.
A gyakorlatban általában csak egy mintát veszünk, és az alapsokasági jellemző nem ismert,
éppen ezért becsüljük a mintából. Abban reménykedünk, hogy a minta alapján szerkesztett
konfidencia-intervallum tartalmazza a sokasági paramétert, de mivel a véletlen szerepet
játszik így nincs 100%-os megbízhatóság. 95%-os megbízhatósági szint mellett 5% az esélye,
hogy ez egy olyan szélsőséges minta, hogy még a konfidencia-intervallummal sem sikerült
„lefedni” a sokasági paramétert.
14
Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
76
Példa
Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát
vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban:
990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000
A gép által töltött tömeg normális eloszlású valószínűségi változó 4,5g szórással.
Határozzuk meg 95%-os megbízhatósággal a termékek várható értékének konfidencia
intervallumát!
n=9
9
10001001997100599910009961004990x 999,11g
0=4,5g
=0,95 =0,05 kétoldali becslés: /2=0,025 z/2=1,96
behelyettesítve a fenti összefüggésbe:
9
5,496,111,999
9
5,496,111,999 ,
996,1711 < < 1002,051
Ez azt jelenti, hogy 95%-os megbízhatósági szinten a gép által töltött tömeg 996,1711 gramm
és 1002,051 gramm között van.
Tegyük fel, hogy a töltési technológiát úgy kell beállítani, hogy a töltősúly hosszabb távon
ne haladja meg az 1002 grammot. A minta alapján – 95%-os megbízhatósággal – teljesíti-e
ezt a feltételt a töltőgép?
n=9
gx 11,999
0=4,5g
=0,95 =0,05 egyoldali becslés z=1,645
gn
zx 58,10019
5,4645,111,9990
95%-os megbízhatósággal a gép teljesíti a technológiai elvárást.
A fenti gondolatmenet nem csak a normális eloszlás várható értékének becslésére igaz, hanem
a mintavételi eloszlás ismeretében egyéb paraméterek konfidencia-intervallumának
meghatározására is. A továbbiakban – a részletes levezetés mellőzésével – a legfontosabb
paraméterek intervallumbecsléseit mutatjuk be.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
77
4.5.2 Konfidencia-intervallum a normális eloszlás várható értékére, ha az elméleti
szórás ismeretlen15
Ebben az esetben továbbra is feltételezzük, hogy a sokaság N(,) eloszlású, de sem -t sem
-t nem ismerjük. A problémát ezúttal az okozza, hogy bár az átlag továbbra is normális
eloszlású, de az elméleti szórás nem ismert, így kénytelenek vagyunk a szórást a mintából
becsülni (s*). A gyakorlatban gyakran nem ismerjük az eredeti szórást, ilyenkor meg kell azt
becsülni a mintabeli korrigált tapasztalati szórás segítségével. Ebben az esetben azonban az
n
x
helyett kénytelenek vagyunk a
ns
x*
változót használni.
A ns
x*
változó nem standard normális eloszlású, hiszen nevezője is függ a véletlentől,
mintáról mintára változik. Amennyiben a sokasági eloszlás továbbra is normális, ez a változó
t- (Student-) eloszlású = n-1 szabadságfokkal. (A szabadságfokot szokták még DF-fel és
néha f-fel is jelölni. Mi a továbbiakban elsősorban majd a DF jelölést használjuk.)
A Student-eloszlás a normális eloszláshoz hasonlóan szimmetrikus eloszlás, az eloszlás egy
paramétere az ún. szabadságfok () jellemzi. A sűrűségfüggvénye ugyanúgy szimmetrikus
haranggörbe alakú, de minél kisebb n értéke, annál nagyobb lesz a t érték, annál tágabb
konfidencia-intervallumot tudunk szerkeszteni.
A t-eloszlás ismeretében nézzük tehát az intervallumbecslés határainak meghatározását. Az
előző esethez képest „csak” annyi a különbség, hogy normális eloszlás helyett a t-eloszlást
kell alkalmaznunk.
1)()(
*
2/
*
2/n
stx
n
stxP
A t/2() értéket a = n-1 szabadságfokú t-eloszlás táblázatából kereshetjük ki. Az s* - az
eddigieknek megfelelően – a korrigált tapasztalati szórást jelöli.
A Student-féle t-eloszlás használata csak kis minta esetében fontos (de továbbra is előfeltétel
a sokaság normalitása). Ha a mintaelemszám nő, akkor ennek két következménye lesz.
Egyrészt feloldható az eredeti eloszlásra tett feltevés. Erre a nagy számok egyik törvénye ad
lehetőséget, mely szerint, ha elég sok azonos típusú és paraméterű eloszlást adunk össze, az
összeg eloszlása tart a normálishoz. Ez azt jelenti, hogy nagy minták esetében nem kell
tudnunk semmit az eredeti eloszlásról, a mintaátlagok eloszlásának normalitását
feltételezhetjük. A gyakorlatban 100 feletti mintaelemszám nagynak tekinthető, sőt ha az
eredeti eloszlás a szimmetrikushoz közeli, akkor már 30 elemű minta esetén is a mintaátlagok
jó közelítéssel normális eloszlást követnek. Másrészt nagy minta esetében a Student-féle t-
eloszlás a normális eloszláshoz tart, így az ns
x*
változóról feltételezhető, hogy standard
normális eloszlású.
15
Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
78
Példa Tegyük fel, hogy az előző töltőgépes példánál nem ismerjük az elméleti szórást, de továbbra
is tudjuk, hogy a töltési tömeg normális eloszlással írható le. A kilencelemű minta korrigált
tapasztalati szórása s*= 4,48g, az átlag továbbra is 999,11g.
Adjunk becslést 95%-os megbízhatósági szinten a töltőtömeg várható értékére!16
n=9
gx 11,999
s*=4,48g
(DF)=n–1=9–1=8
= 0,95 =0,05 kétoldali becslés: /2=0,025 t/2=2,306
9
48,4306,211,999
9
48,4306,211,999 ,
995,6675g< < 1002,555g
95%-os megbízhatósági szinten a töltőtömeg várható értéke 995,6675g és 1002,555g között
található. Ha összehasonlítjuk azzal a konfidencia-intervallummal, amit akkor kaptunk,
amikor a sokasági alapszórást ismerjük, akkor azt látjuk, hogy ebben az esetben szélesebb
konfidencia-intervallumot kaptunk a korábbi magyarázatoknak megfelelően.
4.5.3 Sokasági arány becslése17
A sokasági arány egy bizonyos jelenség előfordulásának aránya a sokaságon belül. A piac- és
közvélemény-kutatásokban az egyik leggyakrabban becsülni kívánt paraméter, hiszen olyan
jellegű kérdésekre lehet válaszolni, hogy a választásra jogosult népesség hány %-a menne el
szavazni, hány %-a venne meg egy új terméket, milyen arányban hajlandók egy
szolgáltatásért fizetni. Az arány becslése egy (visszatevéses egyszerű véletlen) minta esetében
tulajdonképpen egy Bernoulli kísérletet jelent, az adott jelenség megvalósulását figyelhetjük
meg n (egymástól) független esetben. Így annak a valószínűsége, hogy n esetből a vizsgált
jelenség k-szor előfordul, binomiális eloszlást követ, azaz
knkqpk
nkP
)( , ahol
)!(!
!
knk
n
k
n
A vizsgált egyedek (pl. férfiak aránya a népességen belül, a selejtes termékek aránya stb.)
sokasági arányát jelöljük nagy P-vel. Ennek torzítatlan (pont)becslése a p=k/n relatív
gyakoriság, ahol n a mintaszám, k a mintában talált „kedvező” esetek száma. Mivel n rögzített
(nem valószínűségi változó), k binomiális eloszlást követ, így p is binomiális eloszlású lesz,
M(p)=P várható értékkel és D2(p)=P(1–P)/n varianciával.
Mivel az elméleti variancia eleve ismeretlen, az sp2=p(1–p)/n értékkel becsüljük. A mintából
számított p ismeretében a binomiális eloszlás táblázatából könnyen megkaphatjuk a keresett
intervallumot. Ezt az eljárást azonban a gyakorlatban ritkán alkalmazzuk, mert diszkrét jellege
meglehetősen pontatlanná teszi. A valószínűségszámítás részben láttuk, hogy a Moivre-
Laplace tétel értelmében egy p valószínűségű esemény relatív gyakoriságának, mint
valószínűségi változónak, az eloszlása jól közelíthető a p ,
n
pp
1 paraméterű
normális eloszlással, ha a megfigyelések n száma nagy. Ha például p közel van 0,5-hez,
16
Banks, J.: Principles of Quality Control, Wiley, New York, 1989 17
Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
79
akkor már n=20 elemű minta is elegendő a normális közelítéshez. Ezek alapján a P sokasági
arányra a következő intervallumbecslés adható:
1
)1()1(2/2/
n
ppzpP
n
ppzpP
Példa A Felvillanyozzuk Kft. napi termeléséből vett n = 200 elemű mintában a hibás égők száma 24
db. 95%-os megbízhatósági szint mellett adjunk intervallumbecslést a sokasági arányra!
n = 200
p = 24/200 = 0,12
= 0,95 = 0,05 kétoldali becslés: /2 = 0,025 z/2 = 1,96
200
88,012,096,112,0
200
88,012,096,112,0
P
0,075 < P < 0,165
4.5.4 Sokasági variancia becslése18,19
Ebben a részben a normális eloszlású sokaság szórásnégyzetének intervallumbecslését
mutatjuk be, amely az eddigi gondolkodástól eltérően valósítható meg. Kiindulópontunk a
mintabeli korrigált tapasztalati szórásnégyzet, ami a sokasági variancia torzítatlan becslése.
Ha a sokaság eloszlása nem normális, akkor még nagy minták esetén sem érvényes az itt
következő intervallumbecslés.
Amennyiben az eredeti eloszlás normális, akkor az 22
2
2
1
2...
)1(2
xxxxxxsn n
összefüggés mutatja, hogy a felírt függvény standard normális eloszlások négyzetének
összege, azaz a 2-eloszlás (ejtsd khí-négyzet) használható a jellemzésére n-1 szabadsági
fokkal.
A 2-eloszlás jellemzőit, alakját egy paramétere – a t-eloszláshoz hasonlóan – a szabadságfok
határozza meg. Különböző 2-eloszlásokat mutat a 23. ábra. Sajnálatos módon az eddig
megszokott, kényelmes mintavételi eloszlásoktól eltérően, a 2-eloszlás csak pozitív értékekre
van értelmezve, nem szimmetrikus, de ettől eltekintve ugyanúgy használhatjuk
intervallumbecslésre, mint a standard normál, ill. a t-eloszlásokat. A szabadságfok
növekedésével az eloszlás közelít a normális eloszláshoz, amit a későbbiekben a konfidencia
intervallumok meghatározásánál is kihasználunk.
18
Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996 19
Sincich, T.:Statistics by Example, Dellen Publishing Company, San Fransisco, 1990
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
80
23. ábra: 2-eloszlás sűrűségfüggvénye20
Mivel az eloszlás nem szimmetrikus, kétoldali becslés esetén az eloszlás alsó és felső oldalán
kijelölt /2 valószínűség nem egyforma hosszúságú intervallumokat jelent, ennél fogva az
előzőekben vizsgált esetekkel ellentétben a konfidencia-intervallum nem lesz szimmetrikus a
pontbecslésre. Normális eloszlású valószínűségi változó ismeretlen varianciájának
megbízhatósági intervallumát az alábbi összefüggéssel határozhatjuk meg:
111
2
2/1
2*2
2
2/
2* snsnP
A 2
2/ és a 2
2/1 értékeket a (ill. DF) = n-1 szabadságfokú 2 táblázatból lehet
meghatározni. Ha a konfidencia-határokat az eloszlás elméleti szórására szeretnénk
vonatkoztatni, akkor mindkét határ pozitív előjelű négyzetgyökét kell képeznünk. Ha a
becslését a tapasztalati szórással végeztük, akkor a számlálóban (n-1) helyett n-nel szorozzuk
a szórást.
Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt
találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők
varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat!
n = 16
s* = 10 óra
(DF) = n – 1 = 16 – 1 = 15
= 0,95 = 0,05 kétoldali becslés: /2 = 0,025 1 – /2 = 0,975
26,6
10116
5,27
10116 22
2
54,5 < 2 < 239,6
7,38 < < 15,5
20
Készült a STATISTICA for Windows program segítségével
Chi-négyzet eloszlás sûrûségfüggvénye
0.0
0.1
0.2
0.3
0.4
0.5
0 2 4 6 8 10 12 14 16
DF = 2
DF = 4
DF = 7
f(x)
x
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
81
Nagy szabadsági fok (nagy mintaszám) esetén a 2-eloszlás közelíthető normális eloszlással.
Ha a mintaszám n>30, akkor felhasználva azt az eredményt, hogy a 122 2
mennyiség közelítőleg standard normális eloszlású változó, adott valószínűséghez tartozó
2α értéke kifejezhető a standard normális eloszlás u értékéből: 22 12
2
1 u .
21
Példa Tegyük fel, hogy az előző példában említett vizsgálatot n=50 elemű mintából végezték. 95%-
os megbízhatósági szinten milyen intervallumban található az elméleti szórás?
n=50
s*=10 óra
(DF)=n–1=50–1=49
= 0,95 =0,05 kétoldali becslés: /2=0,025 1-/2=0,975
4,32
10150
4,71
10150 22
2
68,6 < 2 < 151,2
8,28 < < 12,3
Mivel n elég nagy, ezért a 2 értékeket normális eloszlással közelítve azt kapjuk, hogy
72,69149296,12
1 22
975,0 ill.
11,31149296,12
1 22
025,0 .
Ezeket behelyettesítve a konfidencia-határok képletébe, a szórásnégyzetre, ill. szórásra az
alábbi intervallumok adódnak:
70,3 < 2 < 157,5
8,38 < < 12,55
4.5.5 A mintanagyság meghatározása
Sokszor előfordul, hogy a megbízhatósági, pontossági követelmények alapján kell
megtervezni azt, hogy mekkora mintára van szükség. A megbízhatósági követelmény a
megbízhatósági szint, a pontossági követelmény pedig a maximális hiba rögzítését jelenti.
Ezek függvényében a különböző mintavételi módok esetében a mintanagyságra képlet adható.
Visszatevéses egyszerű véletlen mintánál
nz
2/ ,
ahol Δ az elméleti várható értéktől való maximális eltérés, 2/z pedig a standard normális
eloszlásfüggvény inverze az 1-α/2 helyen.
21
Spiegel, Murray R.: Statisztika: Elmélet és gyakorlat, Panem – McGraw-Hill, Budapest, 1995
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
82
Ebből n-t kifejezve: 2
2/
zn
A szükséges mintaelemszám négyzetesen arányos a megbízhatósággal és a sokasági szórással,
fordított négyzetesen arányos a maximális hibával. Ez azt jelenti, hogy dupla pontosságú
becsléshez pl. 4-szer, háromszor olyan pontos becsléshez 9-szer akkora mintát kell venni,
azaz a pontosság növelése költséges dolog.
4.6 Fogalmak
mintavételi hiba nem mintavételi hiba
véletlen mintavétel reprezentativitás
visszatevéses egyszerű véletlen mintavétel
visszatevés nélküli egyszerű véletlen mintavétel
rétegzett mintavétel csoportos és többlépcsős mintavétel
pontbecslés intervallumbecslés
minta statisztika mintavételi eloszlás
torzítatlanság hatásosság
konzisztencia elégséges becslés
konfidencia-intervallum megbízhatósági szint
4.7 Gyakorló feladatok
4.7.1 Feladat
Egy elektronikai gyártósoron egy alkatrész nyomtatott áramkörre történő beültetési
pozíciójának x-irányú koordinátáját vizsgálták. Korábbi elemzésekből ismert, hogy az x-
irányú beültetési pozíció normális eloszlású valószínűségi változó 0,03mm szórással. 10
mérést elvégezve az x-irányú beültetési koordináta átlaga 10,34mm-re adódott.
a) Adjunk 95%-os megbízhatósági szintű intervallumbecslést az alkatrész x-irányú
beültetési koordinátájának várható értékére!
b) Legalább hány elemű mintát vegyünk, hogy az alkatrész x-irányú beültetési
koordinátájának várható értékét 95% valószínűséggel 0,01mm-nél kisebb eltéréssel
tudjuk becsülni?
Megoldás:
a) Adjunk 95%-os megbízhatósági szintű intervallumbecslést az alkatrész x-irányú
beültetési koordinátájának várható értékére!
Az x-irányú beültetési koordináta normális eloszlású ismeretlen μ várható értékkel és ismert
σ0=3 mm elméleti szórással.
n=10
0,05 95,01
96,1)975,0()2/1( 11
2/ z
34,10x mm
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
83
10
2/
0
2/n
zxn
zxP
0186,010
03,096,10
2/ n
z
A várható értékre vonatkozó 95%-os megbízhatósági szintű konfidencia-intervallum:
)3586,10;3214,10()0186,034,10;01186,034,10(
95%-os megbízhatósági szinten az alkatrész x-irányú beültetési koordinátájának várható
értéke 10,3214mm és 10,3586mm között van.
b) Legalább hány elemű mintát vegyünk, hogy az alkatrész x-irányú beültetési
koordinátájának várható értékét 95% valószínűséggel 0,01mm-nél kisebb eltéréssel
tudjuk becsülni?
A
10
2/
0
2/n
zxn
zxP
összefüggésből
10
2/n
zxP
Keressük azt az n értéket, amelyre a x eltérés 1-α valószínűséggel kisebb az előre
rögzített Δ értéknél.
Ha n értékét úgy választjuk meg, hogy n
z 02/
teljesül, akkor
10
2/n
zxP
is teljesül.
Tehát a várható érték 1-α valószínűséggel Δ-nál kisebb eltéréssel történő becsléséhez
szükséges minta nagysága: nz
2
0
2/
Esetünkben
01,0 mm
03,00 mm
96,1)975,0()2/1( 11
2/ z
5744,3401,0
03,096,1
22
02/
zn
Ahhoz tehát, hogy a várható értéket 95%-os valószínűséggel legfeljebb 0,01mm eltéréssel
tudjuk becsülni legalább 35 elemű minta szükséges.
4.7.2 Feladat
Egy kávéautomata ellenőrzése során az automata által adagolt eszpresszó kávé térfogatát
vizsgálták. Korábbi tapasztalatok alapján az adagolt kávé térfogata normális eloszlású
valószínűségi változónak tekinthető. A vizsgálat során 10 mérést végeztek, a mérési
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
84
eredmények értékei ml-ben a következők voltak: 101; 97; 103; 99; 102; 98; 104; 101; 97;
100.
Adjunk 95%-os megbízhatósági szintű intervallumbecslést az eszpresszó kávé adagolt
térfogatára!
Megoldás:
Az adagolt kávétérfogat normális eloszlású valószínűségi változó, melynek elméleti várható
értékét és elméleti szórását nem ismerjük.
A feladatunk az, hogy 95%-os megbízhatósági szintű konfidencia-intervallumot adjunk a
várható értékre. Mivel az elméleti szórás ismeretlen, így az következő összefüggést
használhatjuk:
1)()(
*
2/
*
2/n
stx
n
stxP
A mintaátlag:
2,10010
10097101104981029910397101
x
A korrigált tapasztalati szórás:
4404,29
100,2)-(100...100,2)-97(100,2)-(101 222
s
05,0
DF=n-1=9
262,2975,0 t
A 95%-os megbízhatósági szintű konfidencia-intervallum:
9456,101;4544,9810
4404,2262,22,100;
10
4404,2262,22,100
)(;)(*
2/
*
2/
n
stx
n
stx
Az eszpresszó kávé adagolt térfogata 95%-os valószínűséggel a (98,4544; 1019456)
intervallumba esik.
4.7.3 Feladat
Egy forgácsoló üzemben esztergált tengelyek átmérőjét vizsgálták. A vizsgálat során 30 darab
tengely átmérőjét mérték meg. A tengelyek átmérőjének a mintából számított átlaga 55mm,
korrigált tapasztalati szórása 0,2mm. A tengelyek átmérőjéről feltételezhető, hogy normális
eloszlású valószínűségi változó.
Adjunk 99%-os megbízhatósági szintű intervallumbecslést
a.) a tengelyek várható átmérő méretére!
b.) a tengelyek átmérőjének szórására!
Megoldás:
Adjunk 99%-os megbízhatósági szintű intervallumbecslést a tengelyek várható átmérő
méretére!
A feladat az, hogy 99%-os megbízhatósági szintű konfidencia-intervallumot adjunk egy
normális eloszlású valószínűségi változó várható értékére ismeretlen elméleti szórás esetén.
A mintából számított átlag: 55x mm
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
85
A mintából számított korrigált tapasztalati szórás: 2,0* s mm
1)()(
*
2/
*
2/n
stx
n
stxP
01,0
DF= n-1=30-1=29
756,2995,02/01,01 tt
A keresett konfidencia-intervallum:
30
2,0756,255;
30
2,0756,255 mm1006,55 ;mm8994,54
A tengelyek átmérőjének várható értéke 54,8994mm és 55,1006mm között van.
Adjunk 99%-os megbízhatósági szintű intervallumbecslés a tengelyek átmérőjének szórására!
A feladat az, hogy 99%-os megbízhatósági szintű konfidencia-intervallumot adjunk egy
normális eloszlású valószínűségi változó várható szórására.
111
2
2/1
2*2
2
2/
2* snsnP
2,0* s mm
01,0
DF=n-1=30-1=29
A khi-négyzet eloszlás táblázatából:
121,13 335,52 2
995,0
2
2/1
2
005,0
2
2/
A szórásnégyzetre vonatkozó konfidencia-intervallum:
0884,0;0222,0121,13
2,029;
335,52
2,029 22
A szórásra vonatkozó konfidencia-intervallum:
0884,0;0222,0 mm2973,0 ;mm1489,0
A tengelyek átmérőjének szórása 99%-os megbízhatósági szinten 0,1489mm és 0,2973mm
között van.
4.7.4 Feladat
Megbízhatósági elemzések során a 60W-os izzók élettartamát vizsgálták. Összesen 60 darab
izzó élettartamát figyelték meg, a megfigyelések eredményeit az alábbi gyakorisági
táblázatban rögzítették. Az izzók élettartamáról feltételezhető, hogy normális eloszlást követ.
Élettartam (hónap) Izzók száma (db)
0≤t<6 5
6≤t<12 7
12≤t<18 18
18≤t<24 22
24≤t<30 7
30≤t<36 1
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
86
Adjunk 95%-os megbízhatósági szintű intervallumbecslést az izzók várható élettartamára!
Megoldás:
Az izzók élettartamáról tudjuk, hogy normális eloszlású valószínűségi változónak tekinthető,
ismeretlen várható értékkel és ismeretlen szórással.
A feladatunk az, hogy a várható értékre adjunk 95%-os megbízhatósági szintű konfidencia-
intervallumot. Mivel az elméleti szórás ismeretlen, így a következő összefüggést
használhatjuk.
1)()(
*
2/
*
2/n
stx
n
stxP
Az átlagot a gyakorisági táblázatból a leíró statisztikából ismert módon számítjuk:
2,1760
331277212215189735
1
1
r
i
i
i
r
i
i
f
xf
x
A korrigált tapasztalati szórást a gyakorisági táblázatból a leíró statisztikából ismert módon
számítjuk:
8958,6160
)2,1733(1...)2,173(5
1
)( 22
1
2
*
n
xxf
s
r
i
ii
05,0
DF=n-1=59
001,2975,0 t
A 95%-os megbízhatósági szintű konfidencia-intervallum:
9814,18;4186,1560
8958,6001,22,17;
60
8958,6001,22,17
)(;)(*
2/
*
2/
n
stx
n
stx
Az izzók várható élettartama 95%-os valószínűséggel a (15,4186 hónap; 18,9814 hónap)
intervallumba esik.
4.7.5 Feladat
Az előző feladat adatai alapján adjunk 95%-os megbízhatósági szintű intervallumbecslést
a.) a legalább 18 hónap élettartamú izzók arányára!
b.) a 12 hónapnál rövidebb élettartamú izzók arányára!
Megoldás:
a.) Adjunk 95%-os megbízhatóságú intervallumbecslést a legalább 18 hónap élettartamú
izzók arányára!
A legalább 18 hónap élettartamú izzók aránya a gyakorisági táblázatból (a konkrét mintából):
5,060
1722
p
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
87
Konfidencia-intervallum a sokasági arányra:
1
)1()1(2/2/
n
ppzpP
n
ppzpP
60n
0,05 95,01
96,1)975,0()2/1( 11
2/ z
A 95%-os konfidencia-intervallum:
60
)5,01(5,096,15,0;
60
)5,01(5,096,15,0
A legalább 18 hónap élettartamú izzók aránya 95%-os valószínűséggel a (0,3735; 0,6265)
intervallumba esik.
b.) Adjunk 95%-os megbízhatóságú intervallumbecslést a 12 hónapnál rövidebb élettartamú
izzók arányára a gyakorisági táblázatból (a konkrét mintából):
2,060
75
p
Konfidencia-intervallum a sokasági arányra:
1
)1()1(2/2/
n
ppzpP
n
ppzpP
60n
0,05 95,01
96,1)975,0()2/1( 11
2/ z
A 95%-os konfidencia-intervallum:
60
)2,01(2,096,12,0;
60
)2,01(2,096,12,0
A 12 hónapnál rövidebb élettartamú izzók aránya 95%-os valószínűséggel a (0,0988; 0,3012)
intervallumba esik.
4.7.6 Elméleti kérdések
1. Ismertesse a mintavételi és a nem mintavételi hibák lényegét, és a véletlen mintavétel
szerepét!
2. Adjon rövid áttekintést a véletlen mintavételi eljárások lényegéről és főbb
jellemzőikről!
3. Részletezze a becslés Fisher-féle kritériumait!
4. Mi a pontbecslés lényege?
5. Ismertesse az intervallumbecslés, mint matematikai statisztikai módszer lényegét!
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
88
5. Hipotézisvizsgálat
A hipotézisvizsgálat a becsléselmélet mellett, a mintából a sokaságra történő statisztikai
következtetés másik fontos területe. Az előző Becslés c. fejezetben azt mutattuk be, hogy a
minta alapján hogyan lehet közelítőleg meghatározni (becsülni) a sokaság bizonyos
jellemzőit. Számos esetben azonban nemcsak egy paramétert szeretnénk meghatározni, hanem
mondjuk két vagy több paramétert összehasonlítani, konkrét szakmai kérdéseket szeretnénk
eldönteni a tapasztalati adatok alapján. Így például kíváncsiak lehetünk arra, hogy a termelési
folyamat bizonyos jellemzői (selejtarány, termék tulajdonságai, méretei stb.) megfelelnek-e az
előírásnak, bármilyen termék töltési térfogata, tömege, fizikai paraméterei azonosak-e a két
(vagy több) különböző töltő- vagy gyártósoron, vagy pl. az eladások száma valóban megnőtt-
e az új reklámkampány hatására. Az ilyen jellegű kérdések mintavétel segítségével történő
megválaszolása a statisztikai hipotézisvizsgálat területe. A mintavételi eredményekre
támaszkodó következtetés, döntés természetes velejárója a bizonytalanság, a tévedés
lehetősége. Ezért valahányszor mintából nyert adatokra támaszkodva kell választ adnunk a
példaként megfogalmazott vagy ahhoz hasonló kérdésekre, valójában annak eldöntéséről van
szó, hogy a mintavétel eredménye inkább cáfolja vagy inkább alátámasztja-e a feltett kérdésre
adott igenlő választ. A sokaságra vonatkozó feltevésünket a sokaság(ok)ból kivett mintá(k)
alapján ellenőrizzük, és azt vizsgáljuk, hogy mennyire fogadható el, hihető a feltevés a
sokaság(ok)ra vonatkozóan az aktuális mintá(k) ismeretében.
Ebben a fejezetben a hipotézisvizsgálatok általános kérdéseiről, valamint néhány konkrét
módszerről lesz szó.
5.1 A hipotézisvizsgálat célja, eszközei
A sokaságra vonatkozó ismereteink sok esetben hiányosak és/vagy bizonytalanok. E probléma
megoldásának eszköze az lehet, ha a sokasággal kapcsolatos feltételezéseinket hipotézisként
fogalmazzuk meg.
Hipotézis: a sokasággal kapcsolatos olyan feltételezés, amelynek igazságáról a
hipotézisvizsgálat során meggyőződünk. A hipotézisek a vizsgált sokaság(ok) eloszlására vagy
az adott eloszlás(ok) egy vagy több paraméterére vonatkozhatnak.
Ilyen hipotézis lehet például az, hogy egy termék két meghibásodás közötti átlagos
hibamentes működési ideje nem kisebb egy adott értéknél, vagy a frissen végzett gazdálkodási
szakos hallgatók jövedelmének havi átlagos nagysága lognormális eloszlású. Ezek az állítások
lehetnek igazak, vagy hamisak, így az állítások helyességéről való döntés további
vizsgálatokat igényel.
Az ilyen állítások helyességéről kétféleképpen győződhetünk meg. Ha teljes körű adatfelvételt
végzünk az állítás igazságának ellenőrzésére, akkor teljes bizonyossággal eldönthető, hogy a
vizsgált hipotézis igaz-e vagy sem. Ha mintavétel eredményeire támaszkodunk, tehát
részleges adatgyűjtést végzünk, akkor mivel mintavétellel nyert eredményeket használunk,
nem lehetünk teljesen biztosak abban, hogy a mintavétel eredménye a hipotézist alátámasztja,
vagy az ellen szól. Ennek magyarázatát láttuk már az előző fejezetben: a mintavétel esetében
fellépő mintavételi ingadozás következtében egy mintavétel eredménye még akkor is eltérhet
a hipotézisben szereplő megfelelő értéktől, ha a hipotézis igaz. Ezzel együtt azt sem lehet
kizárni, hogy a hipotézis nem igaz, de a véletlen szeszélye folytán mégis a hipotézist
alátámasztani látszó mintavételi eredményt kapunk.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
89
A gyakorlatban főleg mintavételes eljárásokon alapulnak a sokaságra vonatkozó hipotézisek
helyességének ellenőrzésére szolgáló vizsgálatok. Ennek oka, hogy a véges sokaságok teljes
körű megfigyelése gyakran anyagi vagy egyéb korlátokba ütközik, másrészt pedig az
ellenőrizendő hipotézis sok esetben valamilyen végtelen sokasággal kapcsolatos (pl. egy adott
gyártási folyamatból kikerülő termékek összessége).
A továbbiakban a hipotézisek helyességének mintavételre alapozott ellenőrzésével
foglalkozunk, amit hipotézisvizsgálatnak nevezünk. A fejezetben végig visszatevéses,
egyszerű véletlen mintákat feltételezünk.
Hipotézisvizsgálat: A hipotézisek helyességének mintavételi eredményekre alapozott
vizsgálatát hipotézisvizsgálatnak nevezzük. A különféle hipotézisek vizsgálatára szolgáló
eljárásokat statisztikai próbáknak vagy teszteknek hívjuk. A hipotézisvizsgálat annak
mérlegelése, hogy az adott sokaságra megfogalmazott állítás mennyire hihető a mintavételi
eredmények fényében.
Ha ez a mintavételi eredmény összhangban áll a sokaságra megfogalmazott feltevéssel, akkor
nincs okunk arra, hogy kétségbe vonjuk a feltevés helyességét. Ebben az esetben a sokaságra
vonatkozó állítást célszerű fenntartani, mert az valószínűleg (de nem 100%-os biztonsággal!)
igaz.
Ha a mintavételi eredmény nem áll összhangban a sokaságra vonatkozó állítással, akkor pedig
minden okunk megvan arra, hogy megkérdőjelezzük az állítás helyességét. Ebben az esetben
a sokaságra vonatkozó állítást célszerű elvetni, mert az valószínűleg nem igaz.
A sokaságra és a mintavétel módjára vonatkozó olyan kikötéseket, amelyeknek a teljesülését
bármilyen oknál fogva eleve elfogadjuk és a hipotézisvizsgálat keretein belül külön nem
vizsgáljuk, alkalmazási feltételeknek nevezzük.
5.1.1 A vizsgálandó hipotézis megfogalmazása
Minden hipotézisvizsgálat céljaira két hipotézist fogalmazunk meg egyszerre: egy
nullhipotézist és egy azzal szemben álló állítást, az ún. alternatív vagy ellenhipotézist.
Nullhipotézis: az a sokaságra vonatkozó feltevés, amelynek igazságáról a hipotézisvizsgálat
során közvetlenül meg kívánunk győződni.
Alternatív vagy ellenhipotézis: a nullhipotézissel együtt minden lehetőséget kimerítő, azzal
egymást kölcsönösen kizáró hipotézis, amelynek helysségéről közvetetten döntünk a
hipotézisvizsálat során.
A hipotézisvizsgálat során e két hipotézist versenyeztetjük egymással, és a végén a kettő
közül azt fogjuk igaznak tekinteni, elfogadni, amelyik a mintavétel eredménye alapján
hihetőbbnek tűnik a másiknál.
A nullhipotézis jelölésére a H0, az alternatív hipotézis jelölésére pedig a H1 szimbólumot
használjuk. A két hipotézist oly módon kell megfogalmazni, hogy azok akármelyikét is
tekintjük majd a másiknál hihetőbbnek, megválaszolható legyen a bennünket érdeklő kérdés,
és egyszerre ne lehessenek igazak, de együtt minden lehetőséget kimerítsenek.
Az a hipotézis, amelynek a helyességéről döntünk közvetlenül, mindig a nullhipotézis. Ha
azonban a nullhipotézis és az alternatív hipotézis kölcsönösen kizárják egymást, akkor a H0
hipotézisre vonatkozó döntés közvetetten mindig döntést jelent a H1-ről is: a nullhipotézis
elfogadása egyúttal H1 elvetését, H0 elvetése pedig a H1 elfogadását jelenti.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
90
Példaként tegyük fel, hogy a sokaság várható értékére vonatkozó feltevést szeretnénk
vizsgálni, és azt a feltevést kívánjuk ellenőrizni, hogy igaz-e, hogy egy őrölt kávét töltő gép
az előírásoknak megfelelően átlagosan 1kg töltősúlyú csomagokat készít. Természetesen a
legideálisabb az lenne, ha minden csomagban pontosan 1kg kávé lenne, de nincs abszolút
pontos gép, így a töltőtömeg némileg szóródik. A várható értékre vonatkozó feltevéssel
ellenőrzése azt jelenti, hogy azt szeretnénk megvizsgálni, hogy a töltés szisztematikusan nem
tolódik-e el valamelyik irányba, mert az vagy veszteséget okoz a vállalatnak, vagy a vevőket
károsítja meg. Ettől a szórás akár nagy is lehet, így egy-egy csomagban lehet 1kg-nál jóval
kevesebb vagy több kávé is, de a szórásra vonatkozó feltevést is lehet külön ellenőrizni.
A nullhipotézis ebben az esetben a töltőtömeg várható értékére vonatkozó feltevés teljesülése:
H0: μ=1kg
A várható értékre vonatkozó feltételezésünket többféle alternatív hipotézissel szemben
vizsgálhatjuk, azt hogy melyiket célszerű választani, az 5.1.3 alfejezetben tárgyaljuk. Most
csak bemutatjuk a három lehetőséget:
H1: (1) μ≠1kg;
(2) μ>1kg;
(3) μ<1kg
5.1.2 A próbafüggvény
A vizsgálni kívánt hipotézisek felállítása után a következő feladat a hipotézis helyességének
ellenőrézésére szolgáló próbafüggvény kiválasztása. A próbafüggvényt úgy kell
megválasztani, hogy a sokaságra tett bizonyos kikötések teljesülése, a mintavétel módja és a
minta adott nagysága, az ellenőrizendő H0 helyességének feltételezése mellett ismert legyen
annak valószínűség eloszlása.
A próbafüggvény a mintaelemek egy olyan függvénye, amelynek valószínűségi eloszlása a
sokaság ismert tulajdonságait tekintetbe véve, H0 igazságát pedig feltételezve pontosan
ismert. A próbafüggvényt eloszlásának ismerete teszi alkalmassá a H0 helyességének
vizsgálatára.
A próbafüggvények az előző fejezetben megismert becslőfüggvények közeli rokonai, mert
azokhoz hasonlóan a mintából a sokaságra való következtetés céljait szolgálják. A
próbafüggvény a mintavétel előtt mintáról mintára ingadozó valószínűségi változó, a
mintavétel után pedig az adott valószínűségi változónak egy konkrét értéke.
A próbafüggvények konstruálása alapvetően elvi, matematikai feladat egy-egy konkrét
nullhipotézis és alkalmazási feltételrendszer mellett. Erre a célra az elméleti statisztikusok
ugyanúgy általános módszereket dolgoztak ki, mint a jó tulajdonságokkal rendelkező
becslőfüggvények készítésére, egy-egy nullhipotézis tesztelésére akár több próbafüggvény
közül is választhatunk. A próbák minősítésére is éppúgy bizonyos kritériumokat használnak,
mint a becslőfüggvények minősítésére és egymással való összehasonlítására, de
jegyzetünknek nem célja ennek bemutatása.
5.1.3 Kritikus tartomány
A nullhipotézis és annak vizsgálatára alkalmas próbafüggvény birtokában végrehajtható a
hipotézisvizsgálat.
Elfogadási és elutasítási tartomány: A hipotézis helyességének ellenőrzése céljából a
próbafüggvény lehetséges értékeinek tartományát alkalmas osztópontok segítségével két
egymást át nem fedő – ún. diszjunkt – részre bontjuk: egy elfogadási és egy elutasítási
tartományra. E két tartomány határait úgy választjuk meg, hogy a próbafüggvény a
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
91
nullhipotézis fennállása esetén előre megadott nagy 1-α valószínűséggel az elfogadási
tartományba essen. Így a próbafüggvény értéke csak kicsi α valószínűséggel kerülhet a
kritikus tartományba.
Ha ezek után a próbafüggvénynek a rendelkezésünkre álló egy – esetleg több – minta dataiból
származó értéke az elfogadási tartományba esik, akkor elfogadjuk H0-t, ellenkező esetben
pedig elvetjük azt. Ez utóbbi esetben a H0 elvetésével együtt elfogadjuk a vele szemben
állított H1 alternatív hipotézist.
Ennek az eljárásnak az az alapja, hogy egy olyan eseménynek a bekövetkezése, amire H0
igazságát feltételezve nagy valószínűséggel számítunk (vagyis, hogy a probafüggvény értéke
az elfogadási tartományba esik) megerősíti a H0 hipotézis helyességébe vetett hitünket, és így
hajlamosak vagyunk annak elfogadására. Ha ezzel szemben a kis valószínűséggel várt másik
esemény következik be (vagyis a próbafüggvény értéke az elutasítási tartományba esik),
akkor ez megingatja a H0 hipotézis helyességébe vetett hitünket, s így inkább visszautasítjuk
azt.
Szignifikancia szint: a kritikus tartományba esés α valószínűségét szignifikancia szintnek
nevezzük.
A szignifikancia szint megválasztásával kapcsolatban megjegyezzük, hogy azt általában
kicsinek (0,05 és 0,10 közötti értéknek) szokás választani a gyakorlatban.
Az elfogadási és elutasítási tartomány egymáshoz képesti elhelyezkedése háromféle (bal vagy
jobb oldali, ill. kétoldali kritikus tartomány) lehet, ezt mutatja az alábbi ábra:
24. ábra: A kritikus tartomány lehetséges helyzetei
Bal vagy jobb oldali kritikus tartomány kijelölésére olyan esetekben van szükség, amikor
eleve arra számítunk, hogy a valóság meghatározott irányú eltérést mutat egy általunk
feltételezett helyzettől.
Egyoldali kritikus tartományt indokolt kijelölni olyan esetekben is, ha valamilyen
feltételezett, előírt állapottól való adott irányú eltérés a fontos számunkra. A teljes kritikus
tartományt a próbafüggvény eloszlásának vagy csak a bal, vagy csak a jobb szélére tesszük.
Ilyen esetekben a hipotézisvizsgálat során azt kell megvizsgálni, hogy a próbafüggvény
mintá(k)ból nyert értéke elég kicsi-e (vagy elég nagy-e) ahhoz, hogy a H0 helyett inkább a H0-
beli állapottól adott irányban való eltérést kimondó alternatív hipotézis fennállását legyen
Kritikus Elfogadási
Kritikus érték
α 1-α Bal oldali
kritikus tartomány
KritikusElfogadási
Kritikus érték
α1-α Jobb oldali
kritikus tartomány
KritikusElfogadási
Kritikus érték
α/21-α
Kritikus
α/2
Kritikus érték
Két oldali
kritikus tartomány
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
92
indokolt feltételezni. Ezért ilyenkor a teljes kritikus tartományt a próbafüggvény eloszlásának
vagy csak a bal, vagy csak a jobb szélére tesszük, ahogyan az a 24. ábrán látható.
Így, ha az egyoldali alternatív hipotézis fennállása esetén a próbafüggvény kisebb értéket vesz
fel, mint a H0 fennállásakor, akkor bal oldali, ellenkező esetben pedig jobb oldali alternatív
hipotézisről beszélünk.
Kétoldali kritikus tartomány kijelölésére olyan esetekben kerül sor, amikor egyszerűen csak a
nullhipotézisben feltételezett helyzettől való eltérés ténye érdekel minket, és közömbös az
eltérés iránya. Kétoldali kritikus tartomány használata esetén a kritikus tartományba esés
teljes α valószínűségét egyenlő arányban szokás megosztani a kritikus tartomány két része
között (lásd 24. ábra).
Kétoldali alternatív hipotézis fennállása esetén a próbafüggvény értéke akár nagyobb, akár
kisebb lehet, mint a H0 fennállásakor.
Kritikus értékek: Az elfogadási és elutasítási tartományt egymástól elhatároló ca és cf
értékeket alsó és felső kritikus értéknek szokás nevezni. A kritikus értékeket mindig a kritikus
tartomány részének tekintjük. A kritikus tartomány kijelölésére kétoldali kritikus tartomány
használata esetén két kritikus értékre, egyoldali kritikus tartomány esetén pedig egy kritikus
értékre van szükség. A kritikus értékek a szignifikancia szint és a próbafüggvény eloszlásának
ismeretében egyértelműen meghatározhatóak.
A kritikus értékek kereséséhez speciális táblázatok állnak rendelkezésre (lásd
Képletgyűjtemény).
A legtöbb próba mind egyoldali, mint kétoldali kritikus tartomány mellett végrehajtható. A
kritikus tartomány elhelyezkedését mindig a H0 hipotézissel szemben álló ellenhipotézisben
szereplő feltevés, pontosabban e feltevés H0-ban feltételezett helyzettől való eltérésének
iránya határozza meg.
Vegyük a korábbi kávétöltési példánkat! Láttuk, hogy a várható értékre vonatkozó
feltételezésünket többféle alternatív hipotézissel szemben vizsgálhatjuk:
H1: (1) μ≠1kg;
(2) μ>1kg;
(3) μ<1kg
Az első esetben a nullhipotézis kétoldali, a második és a harmadik esetben pedig egyoldali.
Azt, hogy melyik alkalmazása célszerű, a vizsgált gazdasági-társadalmi probléma jellege
dönti el. Esetünkben az is rossz, ha a töltőtömeg várható értéke 1kg alatti, mert ebben az
esetben a vevők károsodnak, meg az is, ha 1kg feletti, mert akkor meg a gyártó jár rosszul.
Így célszerű kétoldali ellenhipotézist választani.
Abban az esetben, ha azt a sokaságra vonatkozó feltevést kell ellenőriznünk, hogy egy adott
berendezés teljesíti-e azt az előírást, hogy legalább 10000 órát hibamentesen működjön, akkor
az alternatív hipotézisként a harmadik esethez hasonló relációt kell választani, hiszen csak
akkor utasítjuk el a nullhipotézist, ha a minta alapján határozottan nem teljesül az előírás.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
93
5.1.4 A hipotézisvizsgálat lépései
Összefoglalva az eddig leírtakat a hipotézisvizsgálat a következő lépésekből áll:
1. A H0 hipotézis és a vele szemben álló H1 hipotézis megfogalmazása.
2. Olyan próbafüggvény készítése, illetve keresése, amelynek eloszlása H0 helyességét
feltételezve és a próba alkalmazási feltételeit adottnak véve egyértelműen
meghatározható.
3. Az α szignifikancia szint megválasztása, és a próbafüggvény lehetséges
értéktartományának ezzel és az alternatív hipotézissel összhangban lévő felosztása
elfogadási és elutasítási tartományra.
4. A mintavétel lebonyolítása, és a próbafüggvény számszerű értékének meghatározása a
mintából.
5. Döntés a H0 és H1 helyességéről: ha a próbafüggvény értéke az előre kijelölt
elfogadási tartományba esik, elfogadjuk H0-t, ellenkező esetben pedig elvetjük azt.
5.1.5 A hipotézisvizsgálat során elkövethető hibák
Az előzőekben leírtakat átgondolva nem nehéz belátni, hogy a leírt módon eljárva a H0
hipotézis helyességéről hozott döntésünk nem lesz mindig feltétlenül helyes.
Elsőfajú hiba: előfordulhat, hogy a H0 hipotézis helyes, de a próbafüggvénynek egy adott
mintából számított értéke mégis a kritikus tartományba esik. Ilyenkor a H0 hipotézist annak
ellenére utasítjuk el, hogy az valójában helyes. Ez nyilvánvalóan hibás döntés, és e döntés
valószínűségét elsőfajú hibának nevezzük. Ilyen hibás döntés az elfogadási és elutasítási
tartomány felépítését tekintve α valószínűséggel fordulhat elő.
Ezzel azonban nem merítettünk ki minden hibalehetőséget.
Másodfajú hiba: előfordulhat, hogy a H0 nem igaz, és a próbafüggvény értéke mégis az
elfogadási tartományba esik. Ennek az a következménye, hogy a H0-t elfogadjuk, pedig az
valójában nem igaz. Ez is hibás döntés, amit másodfajú hibának neveznek, és β-val jelölnek.
Nyilvánvaló, hogy a cél az lenne, hogy mindkét fajta hiba elkövetésének a valószínűségét
minél alacsonyabb szinten tartsuk. A kétféle hiba jelentését és az elkövetés valószínűségét
foglalja össze az alábbi táblázat:
7. Táblázat: A hipotézisvizsgálat során elkövethető hibák és valószínűségeik
H0-t H0 a valóságban
igaz nem igaz
elvetjük elsófajú hiba (α) a döntés erőssége (1-β=e)
elfogadjuk a döntés megbízhatósága
(1-α=ε)
másodfajú hiba
(β)
Összesen 1 1
Az elsőfajú hiba elkövetési valószínűsége megegyezik a korábban megismert szignifikancia
szinttel.
Megbízhatósági szint: A szignifikancia szintet 1-re kiegészítő (1-α) valószínűséget, azaz
annak az eseménynek a valószínűségét, hogy nem vetjük el a helyes nullhipotézist, a próba
megbízhatósági szintjének nevezzük, és ε-nal jelöljük.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
94
Az elsőfajú hiba elkövetési valószínűségét a hipotézisvizsgálat végzője α alkalmas
megválasztásával tetszés szerint korlátozni tudja. A másodfajú hiba esetében ez már nem áll
módjában, mert a β a valóságban fennálló, de általában nem ismert helyzettől függ.
A döntés erőssége: Az (1-β) komplementer valószínűséget, vagyis annak az eseménynek a
valószínűségét, hogy nem követjük el a másodfajú hibát (nem fogadjuk el tévesen a
nullhipotézist), a próba erejének nevezzük, és e-vel jelöljük..
Adott mintanagyság mellett az elsőfajú és másodfajú hiba elkövetési valószínűsége egymással
ellentétes irányba mozog. Rögzített mintaelemszám mellett, ha az α nő, akkor β csökken, ha
pedig α csökken, akkor β nő.
Adott szignifikancia szint mellett a másodfajú hiba elkövetésének valószínűsége a
mintanagyság növelésével mérsékelhető.
Így egy-egy nullhipotézis helyességének ellenőrzéséhez olyan próbát célszerű választani,
amely az elsőfajú hiba adott elkövetési valószínűsége mellett minimálissá teszi a másodfajú
hiba elkövetési valószínűségét.
Gyakorlati szempontból érdekes kérdés, hogy egy konkrét hipotézisvizsgálat során milyen
szignifikancia szintet célszerű választani. Ha a kétféle hiba elkövetésének van valamilyen
költségvonzata, akkor ezt feltétlen célszerű figyelembe venni, és a szignifikancia szintet ezzel
összhangban kell megválasztani. Ha pl. az elsőfajú hiba elkövetése igen nagy anyagi
veszteséggel jár, de a másodfajú hiba elkövetése nem okoz különösebb bajt, akkor a
szingifikancia szintet célszerű kicsire választani. Ez a helyzet előfordulhat pl. egy gyárban,
amikor a hipotézisvizsgálattal végzett gyártásközi minőségellenőrzés célja annak eldöntése,
hogy beavatkozzanak-e az adott folyamatba vagy sem, és a beavatkozás költsége igen magas.
Ha ugyanis a nullhipotézis az, hogy a folyamat a technológiai előírásoknak megfelelően
zajlik, akkor az elsőfajú hiba a folyamatba való fölösleges beavatkozást jelent. Ha viszont
inkább a másodfajú hiba elkövetése ellen indokolt védekezni, akkor nyilván célszerű
viszonylag magas szignifikancia szintet használni, vagy ha lehetőség van rá, akkor nagy
mintát választani.
Adott mintanagyság mellett a kétféle hiba elkövetésének valószínűsége csakis egymás
rovására változtatható. E probléma áthidalásának több módja van. Az egyik lehetőség H0 és
H1 oly módon történő megfogalmazása, hogy a hipotézisvizsgálat végzője lehetőleg H0
elvetésében legyen érdekelt, a szignifikancia szint pedig minél kisebb legyen. Ekkor ugyanis
kicsi a hibás döntés kockázata. Ha nem lehet H0-t úgy megfogalmazni, hogy a
hipotézisvizsgálat végzőjének H0 elvetése álljon az érdekében, akkor viszonylag magas
szignifikancia szintet célszerű választani és/vagy viszonylag nagy minta használatára célszerű
törekedni. Egy másik lehetséges megoldás az ún. p-értékek használata.
A p-érték az a legkisebb szignifikancia szint, amin H0 már épp elvethető H1-gyel szemben.
A p-érték tehát nem más, mint a próbafüggvény mintából nyert értékéhez tartozó
szignifikancia szint.
E p-értékeknek az a lényeges előnyük az előre rögzített α szignifikancia szinttel szemben,
hogy a p-érték ismeretében bárki saját megítélése szerint értékelheti a hipotézisvizsgálat
eredményét. Ha ugyanis valaki a saját szempontjai alapján adott esetben egy α0 szignifikancia
szint használatát tartja indokoltnak, akkor minden olyan esetben el fogja vetni a H0-t, amikor
p≤α0, és minden olyan esetben el fogja fogadni, amikor p>α0. A számítógépes
programcsomagok legtöbbször a p-értéket adják meg a próbák végrehajtása során, és a p-érték
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
95
használatának nagy előnye, hogy a p-érték nem függ a kritikus értékeket tartalmazó táblázatok
részletezettségétől.
Az α és β valószínűségek értelmezésével kapcsolatban megjegyezzük, hogy azok pontosan
úgy értendők, mint a konfidencia-intervallumokhoz kapcsolódó megbízhatósági szint: ha a
hipotézisvizsgálatot adott H0, H1 mellett sokszor – adott nagyságú, de különböző összetételű
véletlen minták alapján – elvégeznénk, akkor átlagosan az összes eset 100α százalékában
követnénk el az elsőfajú hibát, a másodfajú hibát pedig az összes eset 100β százalékában. Az
α és a β itt is az eljárásba vetett hitünk fokmérője, és nem egy-egy egyedi esetre
vonatkoztatható.
Példa
Nézzük meg példaként kávétöltési példánkon keresztül az előző lépéseket!
Adott egy feltevés a sokaságról, vagyis az, hogy a gép által töltött kávécsomagok átlagos
tömege 1kg.
H0: μ=1kg
H1: μ≠1kg
Tegyük fel, hogy veszünk egy 16 elemű mintát a töltési folyamatból (sokaság), és lemérjük a
véletlenszerűen kiválasztott 16 kávécsomag tömegét. Tegyük fel, hogy a töltőgép normális
eloszlás szerint tölti a csomagokat, és a szórás ismert: 0,05kg.
A próbafüggvény lehet a mintaátlag, mert a becslés fejezetben leírtak alapján ismerjük a
mintaátlag eloszlását és paramétereit. A mintaátlag normális eloszlást követ 1kg várható
értékkel és kgn
0125,04
05,0
szórással, azaz x normális eloszlású: N(1, 0,0125)
paraméterekkel.
Ha a mintaátlag pontosan 1 kg, ez szól a nullhipotézis mellett leginkább, de ha némileg kisebb
vagy nagyobb, ez is beleférhet a véletlen ingadozásba, hiszen az éppen aktuális minta függ a
véletlentől. Minél nagyobb az 1kg-tól való eltérés, annál kevésbé hihető a nullhipotézis. Az
elfogadási tartomány előre meghatározott valószínűséggel éppen azt a határt jelenti, amíg úgy
döntünk, hogy az eltérés még belefér a véletlenbe. A 95%-os elfogadási tartomány (z=1,96)
esetünkben
)025,1;975,0(025,010125,096,11 kgkgkgkg
Amennyiben a mintaátlag ebbe az intervallumba esik, a nullhipotézist fogadjuk el,
amennyiben nem ide esik, akkor pedig az ellenhipotézist.
Ha esetünkben a mintaátlag 1,02 kg, akkor a nullhipotézis elfogadható, a mintaátlag eltérése a
hipotézistől belefér a véletlen ingadozásba. Ha a mintaátlag egy konkrét esetben pl. 1,03kg,
akkor 5%-os szignifikancia szinten a nullhipotézis elutasítható, a mintaátlag eltérése már túl
nagy a feltételezett értéktől ahhoz, hogy azt a véletlen számlájára lehessen írni, vagyis
szignifikánsan különbözik 1kg-tól.
25. ábra
1 kg0,975 kg 1,025 kg
%5,22
%5,22
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
96
Mint említettük, nem mindig egy előre meghatározott szignifikancia szinten kívánunk
dönteni, hanem az a kérdés, hogy mennyire nagy biztonsággal utasíthatjuk el a nullhipotézist.
Ennek eldöntésére szolgál az empirikus szignifikancia szint, vagy p-érték, amely az a
szignifikancia szint, ahol elfogadásból elutasításba váltunk. A példánknál maradva, ha a
mintaátlag értéke 1,025, azt a szignifikancia szintet keressük, amely mellett a kritikus értékek
1-0,025=0,975, illetve 1+0,025=1,025. Ez azt jelenti, hogy a 0,975 alatti és az 1,025 feletti
területek összege p.
016,0)9918,01(2
))4,2(1(2)4,2(220125,0
1025,11
0125,0
1975,0)025,1()0975(
p
pxPxP
A p-érték 1,6%. Ez alapján minden 1,6%-nál nagyobb szignifikancia szinten elutasítjuk,
kisebb szignifikancia szinten már elfogadjuk a nullhipotézist. Minél kisebb a p-érték, annál
nagyobb biztonsággal utasítható el a nullhipotézis.
5.2 Fogalmak
hipotézis hipotézisvizsgálat
nullhipotézis alternatív vagy ellenhipotézis
próbafüggvény elfogadási és elutasítási tartomány
szignifikancia szint p-érték
egyoldali kritikus tartomány kétoldali kritikus tartomány
kritikus érték elsőfajú hiba
másodfajú hiba megbízhatósági szint
döntés erőssége
5.3 Elméleti kérdések
1. Mi a hipotézisvizsgálatok célja?
2. Mi a nullhipotézis és az alternatív (ellen-)hipotézis, mi a szerepük a hipotézisvizsgálat
során, és hogyan kell őket megfogalmazni?
3. Mi a próbafüggvény és mire használjuk a hipotézisvizsgálat során?
4. Hogyan jelölhetjük ki az elfogadási és elutasítási tartományokat? Mi a kritikus érték?
5. Melyek a hipotézisvizsgálatok általános lépései?
6. Milyen hibákat lehet elkövetni a hipotézisvizsgálatok során? Ezek a hibák milyen
kapcsolatban állnak egymássak, hogyan csökkenthetőek?
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
97
6. Statisztikai próbák
Az egyes hipotézisvizsgálatok az 0 alfejezetben leírt módon hajthatók végre, és minden
hipotézisvizsgálat során a 5.1.5 alfejezetben bemutatott és jellemzett első- és másodfajú hiba
követhető el. Az egy-egy konkrét hipotézisvizsgálat elvégzésére használható próbák a
következő lényeges kérdésekben különböznek:
a vizsgálat tárgyát képező H0 hipotézisben
az alkalmazási feltételek tekintetében,
az alkalmazott próbafüggvényben és annak eloszlásában.
Az egyes hipotézisvizsgálatok elvégzésének előfeltétele, hogy rendelkezésre álljon egy vagy
több független, azonos eloszlású minta. Egyes hipotézisvizsgálatok elvégzéséhez emellett más
feltételekre is szükség lehet.
A független, azonos eloszlású (FAE) mintákhoz vagy végtelen sokaságok véges számú,
véletlenszerűen realizálódó elemének megfigyelésével, vagy véges sokaságokból történő
visszatevéses egyszerű véletlen mintavétel útján juthatunk. Ha a próba végrehajtásához egynél
több mintára van szükség, akkor még annak kikötésére is szükség lehet, hogy milyen az egyes
minták egymáshoz való viszonya (függetlenek-e egymástól vagy sem).
A próbák többféle szempont szerint csoportosíthatóak:
mi a nullhipotézis tárgya:
o paraméteres próba: a nullhipotézis a sokaság valamely paraméterére irányul
o nemparaméteres próba: a nullhipotézis a sokaság eloszlására irányul
milyen jellegűek a sokaság eloszlásával szemben támasztott feltételek:
o paraméteres próbák alkalmazási feltételei között szerepelnek a sokaság
eloszlásának típusára és/vagy az egyes paramétereire vonatkozó kívánalmak
o a nemparaméteres próbák alkalmazása legfeljebb a sokaság eloszlásának
folytonosságát követeli meg
hány és mekkora minta szükséges a végrehajtásukhoz:
o a próba végrehajtásához szükséges minták száma alapján egy-, két-, ill.
többmintás próbákat különböztetünk meg
o a minták egymáshoz való viszonya alapján pedig független és páros mintákat
o az igényelt minták nagysága szerint pedig kis-, ill. nagymintás próbákat (a
legtöbb szakirodalom 30-ban jelöli meg a kis és nagy minták elemszáma
közötti határt).
E tárgyban a célunk, hogy bemutassuk a legfontosabb paraméteres és nemparaméteres
próbákat az elvégzésükhöz szükséges minták száma, típusa, és a nulhipotézis tárgya szerint
csoportosítva.
6.1 Nemparaméteres próbák
Nemparaméteres próba: A hipotézisvizsgálatoknak azon csoportját, ahol az eloszlás típusa
nem ismert, és a H0 hipotézis magára az eloszlásra vonatkozik, nemparaméteres próbáknak
nevezzük.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
98
6.1.1 Illeszkedésvizsgálat 2-próbával
Az olyan statisztikai próbát, amelynek alapján arról döntünk, hogy valamely valószínűségi
változó F (tapasztalati) eloszlása lehet-e adott F0 (elméleti) eloszlásfüggvénnyel jellemzett
eloszlás, illeszkedésvizsgálatnak nevezzük.
H0: F = F0
H1: F ≠ F0
Ha a nullhipotézis az eloszlás paramétereinek ismeretét is feltételezi, akkor tiszta
illeszkedésvizsgálatról beszélünk. Ha viszont hipotézisünk csak az eloszlás jellegét
(normalitás, exponencialitás stb.) tételezi fel, és a paramétereket a mintából kell becsülnünk,
akkor becsléses illeszkedésvizsgálatot végzünk.
Az illeszkedésvizsgálatra szolgáló próbák alkotják a nemparaméteres próbák egyik nagy
csoportját. E próbák közül legelterjedtebb a 2-próba és a Kolmogorov-próba, mi most csak
az előbbivel kívánunk foglalkozni.
A 2-próba mind diszkrét, mind folytonos eloszlások esetében alkalmazható, de nagy
mintaelemszámot igényel. A próba segítségével azt tudjuk eldönteni, hogy adott
szignifikancia szinten a tapasztalati gyakoriságok szignifikánsan eltérnek-e a feltételezett
elméleti gyakoriságoktól, avagy az eltérés csupán a véletlen következménye.
A 2-próbával történő illeszkedésvizsgálatnál az ún. próbastatisztikát (a számított értéket) az
alábbi képlet szolgáltatja:
r
i i
ii
F
Ff
1
2
2
DF=r––l
ahol: DF: a szabadságfok, az eloszlás paramétere
fi: a tapasztalati gyakoriság
Fi: az elméleti gyakoriság
: a becsült paraméterek száma
r: a kategóriák vagy osztályok száma
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
99
26. ábra: A 2-próbán alapuló döntések elve a nullhipotézist illetően
A Yates-féle korrekció: A korábbi fejezetekben láttuk, hogy amikor diszkrét adatokra
folytonos eloszlások eredményeit alkalmazzuk, bizonyos folytonossági korrekciókat
alkalmazhatunk. Hasonló korrekció létezik a 2-eloszlás alkalmazása esetén is. Ez a korrekció
a fenti egyenlet
r
i i
ii
F
Ff
1
2
25,0
alakú módosítását igényli. Általában csak DF=1
szabadságfok esetén alkalmazzuk. Nagy minták esetén ugyanis a korrekcióval gyakorlatilag
ugyanahhoz az eredményhez jutunk, mint korrekció nélkül, de a kritikus értékek körül
bonyodalmak léphetnek fel. Kisebb minták esetén, amikor a várt gyakoriságok 5 és 10 közé
esnek, legjobb, ha a 2-nek mind a korrigált, mind a korrigálatlan értékét kiszámoljuk. Ha egy
adott hipotézist tekintve mindkét érték alapján ugyanarra a következtetésre jutunk, akkor
ritkán ütközünk nehézségekbe. Ha egymásnak ellentmondó következtetésre jutunk, akkor
próbálkozhatunk a minta növelésével, vagy más módszert alkalmazhatunk22
.
Példa – diszkrét eloszlás
A Tiszán egy adott időszakban levonuló árhullámok számát vizsgálva az elmúlt 68 év során
az alábbi eredményeket kapták: 30 év volt, amikor nem volt árhullám, 25 olyan év volt,
amikor 1 árhullám vonult le az adott időszakban, 9 év volt, amikor 2 és 4 olyan év volt,
amikor 3 vagy több árhullám következett be. Feltehető-e, hogy a folyón levonuló árhullámok
száma modellezhető Poisson-eloszlással?23
árhullámok száma 0 1 2 3 v. több
gyakoriság [db] 30 25 9 4
=? nem ismerjük a mintából kell becsülnünk
Poisson-eloszlás esetén: M()= ( x -gal becsülhető)
Mivel az elmúlt 68 év során a kérdéses időszakban összesen 55 árhullám volt:
55/68 0,8
Nullhipotézis felállítása:
H0 = az árhullámok száma =0,8 paraméterű Poisson-eloszlású
H1: az árhullámok száma nem =0,8 paraméterű Poisson-eloszlású
Mintavétel, adatok feldolgozása, kritikus érték meghatározása:
Ha az árhullámok száma valóban 0,8 paraméterű Poisson-eloszlással írható le, akkor annak
valószínűsége, hogy az adott időszakban nem lesz árhullám (Poisson-eloszlás táblázatából)
0, 4493, hogy 1 árhullám vonul le: 0,3595, hogy 2: 0,1438, s hogy 3 vagy több (1-ből levonva
az eddigiek összege): 0,0474.
Az elméleti gyakoriságok ebből már „automatikusan” adódnak, hiszen ha 0,4493
valószínűséggel nincs árhullám az adott időszakban, akkor ez elméletileg 68 év során
összesen 680,4493 = 30,55 alkalommal következik be. Hasonló módon a többi elméleti
gyakoriságot kiszámolva az eredményeket az alábbi táblázat tartalmazza:
22
Spiegel, Murray R.: Statisztika: Elmélet és gyakorlat, Panem – McGraw-Hill, Budapest, 1995 23
Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
100
k f(k) pk F(k)
0 30 0,4493 30,55
1 25 0,3595 24,45
2 9 0,1438 9,78
3 v. több 4 0,0474 3,22
68 1 68
DF=r--1=4-1-1=2
=5% táblázatból: 2
elm.=5,99
Számított érték meghatározása:
27,0
22,3
78,0
78,9
78,0
45,24
55,0
55,30
55,3030 2222
2
sz
A számított és a kritikus érték összehasonlítása:
2
elm.=5,99 >> 2
sz=0,27
Döntés a nullhipotézisről:
Mivel a számított érték jóval kisebb, mint a kritikus – a számított érték az elfogadási
tartományba esik –, ezért 95%-os megbízhatósági szinten nincs okunk a H0-t elutasítani. A
folyón levonuló árhullámok száma modellezhető =0,8 paraméterű Poisson-eloszlással.
Példa – folytonos eloszlás24
A légi közlekedésben fontos figyelemmel kísérni az utasok átlagos testsúlyát, hogy egyrészt
ne terheljék túl a gépet, másrészt ne utazzon a gép fölös kapacitással. Ezért időről időre
ellenőrzik, hogy a felnőtt utasok testsúlya nem tér-e el a feltételezettől. A légitársaság a
terhelést a 78kg-os átlagos testsúlyra és 11kg-os szórásra tervezi.
A feltételezés ellenőrzése céljából megmérték 100 véletlenszerűen kiválasztott utas súlyát,
akik között 44 nő volt. A mérés eredménye látható a következő táblázatban. A mintából
számított jellemzők:
�� = 78,6𝑘𝑔
𝑠∗ = 12,187𝑘𝑔
5%-os szignifikancia szint mellett teszteljük, hogy az utasok testsúlya normális eloszlású
változó!
24
Keresztély, T., Sugár, A., Szarvas, B. (2005): Statisztika közgazdászoknak, Példatár és feladatgyűjtemény,
Nemzeti Tankönyvkiadó, 176. o.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
101
Testsúly
(kg)
Ügyfelek száma
(fő)
-60 7
60-70 16
70-80 32
80-90 28
90-100 13
100- 4
Összesen 100
Hipotézisek felállítása:
𝐻0: Az alapsokaság (78,6; 12,187) paraméterekkel normális eloszlású.
𝐻1: Az alapsokaság nem (78,6; 12,187) paraméterekkel normális eloszlású.
Az átlag és a szórás értékeket a minta értékei alapján becsültük, ezért becsléses
illeszkedésvizsgálatról beszélhetünk.
Mintavétel, adatok feldolgozása, számított érték meghatározása:
A minta értékeit osztályokba soroltuk. A számolás egyes lépéseinél kapott értékeket a
következő táblázatban foglaljuk össze. Az osztályok száma 𝑟 = 6.
Testsúly
(kg)
Ügyfelek száma
(fő) - fi
Pi Fi
i
ii
F
Ff 2)(
-60 7 0,064255 6,4255 0,0911
60-70 16 0,1746 17,46 0,122
70-80 32 0,305 30,5 0,074
80-90 28 0,2826 28,26 0,0024
90-100 13 0,1344 13,44 0,0144
100- 4 0,04 4 0
Összesen 100 ~1 ~100
A Pi valószínűségi értékek meghatározása:
064255,00,9357451)52,1(1)52,1(187,12
6,7860)60()60(1
FPP
1746,0064255,0238852,0064255,0)761148,01(064255,0)71,0(1
064255,0)71,0(064255,0187,12
6,7870)60()70()7060(2
FFPP
305,0238852,0543795,0
238852,0)11,0(238852,0187,12
6,7880)70()80()8070(3
FFPP
2826,0543795,0826391,0
543795,0)94,0(543795,0187,12
6,7890)80()90()9080(4
FFPP
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
102
1344,0826391,0960796,0
826391,0)76,1(826391,0187,12
6,78100)90()100()10090(5
FFPP
04,0960796,01)100(1)100(6 FPP
Elméleti gyakorisági értékek meghatározása (lásd táblázat):
4255,6100064255,010011 PF
46,171001746,010022 PF
és így tovább.
A számított érték meghatározása (lásd táblázat):
0911,02455,6
)2455,67()( 2
1
2
11
F
Ff
122,046,17
)46,1716()( 2
2
2
22
F
Ff
és így tovább.
Ezen értékek összege adja a számított értéket, vagyis a próbafüggvény értékét a minta alapján:
𝜒𝑠𝑧2 = 0,3038
A kritikus érték meghatározása:
𝐷𝐹 = 𝑟 − 𝑙 − 1 = 6 − 2 − 1 = 3
𝜒𝑘𝑟2 = 7,815
A számított és kritikus érték összehasonlítása, döntés a nullhipotézisről:
Mivel a számított érték kisebb, mint a kritikus érték, ezért elfogadjuk a 𝐻0 hipotézist, azaz a
vizsgált alapsokaság eloszlása normálisnak tekinthető N(78,6; 12,187) paraméterekkel 5%-os
szignifikancia szinten.
6.1.2 Homogenitásvizsgálat 2-próbával
Homogenitásvizsgálat segítségével eldönthetjük, hogy két valószínűségi változó azonos
eloszlásúnak tekinthető-e. A közösnek feltételezett eloszlásfüggvény a próbában nem
szerepel, s annak jellegére vonatkozóan semmilyen kikötésünk nincs.
H0 = a valószínűségi változó két sokaságon belüli eloszlása azonos
H1 = a valószínűségi változó két sokaságon belüli eloszlása nem azonos
A két sokaságból kivett minta nagysága nem kell, hogy azonos legyen, de a vizsgált változó
szerint mindkét mintán belül azonos osztályokat kell képezni.
Diszkrét valószínűségi változó esetén a próba közvetlenül vagy csoportképzéssel
elvégezhető, míg folytonos valószínűségi változó esetén az adatokat osztályokba kell
sorolnunk.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
103
Kontingencia táblázat: a homogenitásvizsgálathoz (és majd látjuk, hogy a
függetlenségvizsgálathoz is) célszerű az adatokat táblázatos formába rendezni. A táblázat
elemi részeit celláknak nevezzük, amelyek bal felső sarkában a tapasztalati, jobb alsó
sarkában az elméleti gyakoriságokat szokás feltüntetni. A sor, ill. oszlop szerint összegzett
gyakoriságokat marginális vagy peremgyakoriságoknak nevezzük. Az így összeállított
táblázatot kontingencia-táblázatnak nevezzük.
8. Táblázat: Kontingencia táblázat - homogenitásvizsgálat
Osztály (r db)
Gyakoriságok
Összesen (sor
peremgyakorisága,
fi)
az egyik (Y)
sokaságból kivett
minta
a másik (X)
sokaságból kivett
minta
mintában
C1 1Yn
1Xn 1Yn +
1Xn = f1
C2 2Yn
2Xn 2Yn +
2Xn = f2
.
.
.
.
.
.
.
.
.
.
.
.
Ci iYn
iXn iYn +
iXn = fi
.
.
.
.
.
.
.
.
.
.
.
.
Cr rYn
rXn rYn +
rXn = fr
Összesen (oszlop
peremgyakoriság, fj) Yn = fY
Xn = fX Yn +Xn =N
A próbastatisztika:
r
1i
2
1j ij
2
ijij2
F
Ff
ahol: N
ffF
ji
ij
az elméleti gyakoriság
r: a sorok száma
fi: i-edik sor peremgyakorisága (sorösszege)
fj: j-edik oszlop peremgyakorisága (oszlopösszege)
N: mintaszám
DF = (r–1)·(s–1), ám mivel s=2 minden esetben, így DF = r–1
Példa
A személysérüléssel járó közúti balesetekre vonatkoznak az alábbi, mintavételből származó
adatok 2003-ban. Hasonlítsuk össze a Budapesten és az ország többi részén történt balesetek
idősávok szerinti eloszlását (α=1%)!
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
104
A baleset ideje a nap
órái szerint
Balesetek száma
Budapesten
Balesetek száma az
ország többi részén
0-8 14 27
8-12 20 39
12-15 19 34
15-18 23 47
18-24 24 53
Összesen 100 200
Hipotézisek felállítása:
H0: FBP = Gegyéb
H1: FBP Gegyéb
Mintavétel, adatok feldolgozása, kritikus érték meghatározása:
n1=100 n2=200 N=300 r=5
DF=r–1=5–1=4 =0,01
2
krit=13,277
Sor- és oszlopösszegek kiszámítása:
Sorösszegek: f1 =41; f2 =59; f3 =53 stb.; az oszlopösszegek: f1 =100; f2 =200
Elméleti gyakoriságok meghatározása: F11= 41100/300=13,67
F12= 41200/300=27,33
F21= 59100/300=19,67 stb.,
Az eredményeket az alábbi kontingencia táblázat mutatja:
14
13.67
27
27.33 41
20
19,67
39
39.33 59
19
17.67
34
35.33 53
23
23.33
47
46.67 70
24
25.67
53
51.33 77
100 200 300
Számított érték meghatározása:
29656,00543,0065,000233,000467,005,01,000277,000554,000398,000797,0
33,51
)33,5153(
67,25
)67,2524(...
33,27
)33,2727(
67,13
)67,1314( 22222
szám
A számított és a kritikus érték összehasonlítása:
2
szám=0,029656 < 2
krit=13,277
Döntés a nullhipotézisről:
A számított érték az elfogadási tartományba esik, ezért 1%-os szignifikancia szinten a két
sokaság eloszlásának egyezését elfogadjuk.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
105
6.1.3 Függetlenségvizsgálat 2-próbával
A függetlenségvizsgálat annak a nullhipotézisnek a vizsgálatára szolgál, hogy két minőségi
ismérv valamely adott sokaságon belül független egymástól. Ezzel szemben az az alternatív
hipotézis áll, hogy a két ismérv nem független egymástól, vagyis a két ismérv között
sztochasztikus vagy függvényszerű kapcsolatot enged meg.
H0 = a két valószínűségi változó független egymástól (nincs sztochasztikus kapcsolat)
H1 = a két valószínűségi nem független egymástól (közöttük sztochaszikus vagy
függvénykapcsolat van)
Az a kérdés, hogy két valószínűségi változó között van-e sztochasztikus kapcsolat vagy sem,
kontingencia táblázat segítségével és 2-próba alkalmazásával dönthető el. A 2
-próbával
történő függetlenségvizsgálat valójában a diszkrét – minősítéses – ill. csoportosított
(kategorizált) folytonos változók közötti kapcsolat vizsgálatára használható. Két (v. több)
folytonos valószínűségi változó közötti kapcsolat vizsgálata, ill. a kapcsolat jellegének
meghatározása a korreláció – és regresszióelemzés területe.
A próba során hasonlóan járunk el, mint a homogenitásvizsgálatnál, „csak” a kontingencia
táblázat mérete változ(hat)ik, nem feltétlenül két oszlopból áll (homogenitásvizsgálatnál
mindig s=2 volt). Újabb különbség – bár a próba elvégzésében nem okoz eltérést –, hogy a
homogenitásvizsgálatnál értelemszerűen ugyanazt a valószínűségi változót (pl. rózsa ára)
hasonlítottuk össze két minta alapján, míg a függetlenségvizsgálatnál természetesen két
teljesen különböző változó közötti kapcsolatot vizsgálunk (pl. van-e összefüggés a szem és a
haj színe között, van-e kapcsolat a szülők iskolai végzettsége és a gyerekek iskolai
végzettsége között stb.).
9. Táblázat: Kontingencia táblázat - függetlenségvizsgálat
Az X
szerinti
osztályok
Az Y szerinti osztályok YC1 YC2 … Y
jC … Y
sC j
XC1 11f 12f …
jf1 … sf1
1f XC2
21f 22f … jf 2 …
sf 2 2f
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. X
rC 1rf 2rf …
rjf … rsf
rf
i 1f 2f …
jf … sf n
A kontingencia táblázatban szereplő gyakoriságok most egy n elemű véletlen mintából
származnak. A kontingencia táblázat egyes celláinak elméleti gyakoriságait a marginális
értékek felhasználásával becsüljük.
A próbastatisztika:
r
i
s
j ij
ijij
F
Ff
1 1
2
2
A szabadsági fok: DF=(r-1)·(s-1)
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
106
Az elméleti gyakoriságok: N
ffF
ji
ij
,
ahol s: az oszlopok száma,
A többi jelölés megegyezik a homogenitásvizsgálatnál bemutatottakkal.
Minőségi ismérvek asszociációja
A függetlenség, vagy a kapcsolat léte és szorossága a minőségi ismérvek közötti
asszociációval és az asszociációs együtthatóval vizsgálható.
Egy kontingencia táblához az )1(
2
qNr
módon definiálhatjuk a minőségi ismérvek (vagy
osztályozások) közötti Cramer-féle asszociációs együtthatót, ahol q=min(r,s).
Cramer-féle asszociációs együttható: Két minőségi ismérv közötti kapcsolat szorosságát
(asszociációt) mérő mutató. Az együttható 0 és 1 közötti értékeket vesz fel. Minél közelebb esik
az érték a 0-hoz, annál gyengébb, minél közelebb esik 1-hez, annál erősebb a függés a két
eseményrendszer között.
Példa
Egy közvéleménykutatás során egyik gazdasági témájú TV-műsorról a következő kép alakult
ki a diplomások körében:
A nyilatkozó
foglalkozása
A műsor megítélése összesen
jó megfelelő rossz
közgazdász 100 200 100 400
jogász 100 60 40 200
egyéb diplomás 100 60 40 200
összesen 300 320 180 800
Tesztelje 5%-os szignifikancia szinten a foglalkozás jellege és a TV-műsor minősítése közötti
kapcsolatot! Határozzuk meg az asszociációs együtthatót is, jellemezzük a kapcsolat
szorosságát!
Hipotézisek felállítása:
H0: A foglalkozás jellege és a TV-műsor minősítése független egymástól.
H1: A foglalkozás jellege és a TV-műsor minősítése nem független egymástól.
Kontingencia-táblázat elkészítése:
A nyilatkozó
foglalkozása
A műsor megítélése összesen
jó megfelelő rossz
közgazdász 100=f11 F11=150 200=f12 F12=160 100=f13 F13=90 400
jogász 100=f21 F21=75 60=f22 F22=80 40=f23 F23=45 200
egyéb diplomás 100=f31 F31=75 60=f32 F32=80 40=f33 F33=45 200
összesen 300 320 180 800
Az elméleti gyakorisági értékek meghatározása a peremgyakoriságok segítségével
(„összesen” cellák):
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
107
150800
30040011
F 160
800
32040012
F 90
800
18040013
F
75800
30020021
F 80
800
32020022
F 45
800
18020023
F
75800
30020031
F 80
800
32020032
F 45
800
18020033
F
Számított érték meghatározása:
53,5555,0211,1521033,8266,16
45
)4540(2
90
)90100(
80
)8060(2
160
)160200(
75
)75100(2
150
)150100(
2
2222222
szám
szám
Kritikus érték meghatározása:
α=5%
DF=(r-1)(s-1)=(3-1)(3-1)=4
488,92 krit
Döntés a nullhipotézisről:
Mivel a számított érték (55,53) nagyobb, mint a kritikus érték (9,488), ezért 5%-os
szignifikancia szinten elutasítjuk a nullhipotézist, vagyis a diploma jellege és a TV-műsor
megítélése között van kapcsolat, nem függetlenek egymástól.
Asszociációs együttható:
n=800
2
szám=55,53
r=s=3 q=3
186,0)13(800
53,55
)1(
2
qN
r
A diploma típusa és a TV-műsor megítélése, mint két minőségi ismérv között gyenge az
asszociációs kapcsolat.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
108
6.2 Nemparaméteres próbák összefoglalás
10. Táblázat: Nemparaméteres próbák összefoglaló jellemzői
Próba típusa Minták
száma
Alkalmazás
feltétele
Hipotézisek Próbafüggvény Próbafügg-
vény eloszlása
Illeszkedés-
vizsgálat
egymintás nagymintás H0: F = F0
H1: F ≠ F0
r
i i
ii
F
Ff
1
2
2
2
DF=r––1
Homogenitás-
vizsgálat
kétmintás nagymintás H0 = a
valószínűségi
változó két
sokaságon belüli
eloszlása azonos
H1 = a
valószínűségi
változó két
sokaságon belüli
eloszlása nem
azonos
r
1i
2
1j ij
2
ijij2
F
Ff
2
DF = r–1
Függetlenség-
vizsgálat (két
minőségi
ismérv
függetlensége)
egymintás A
kontingen-
cia táblázat
méretétől
függően
nagy minta
H0 = a két
valószínűségi
változó független
egymástól (nincs
sztochasztikus
kapcsolat)
H1 = a két
valószínűségi nem
független
egymástól
(közöttük
sztochaszikus
vagy
függvénykapcsola
t van)
r
i
s
j ij
ijij
F
Ff
1 1
2
2
DF=(r-1)·(s-1)
2
DF=
(r-1)·(s-1)
6.3 Paraméteres próbák
A hipotézisvizsgálatok bevezető fejezetben elmondottak alapján a paraméteres próbák
szigorúbb alkalmazási feltételeket igényelnek (például eleve feltételezik az adott elméleti
eloszlás ismeretét), ezért kevésbé széleskörűen alkalmazhatók. Általában arányos, esetleg
intervallum skáláról származó adatokkal dolgozhatunk velük, viszont erősségük (a hamis
nullhipotézis elutasításának valószínűsége) nagyobb, mint a nemparaméteres próbáké.
A paraméteres próbák végrehajtásának általános menete, ill. az elkövethető kétféle hiba is
(első-, másodfajú hiba) azonos az előző fejezetben tárgyaltakkal. Egy-egy konkrét
hipotézisvizsgálat elvégzésére használható próbák csak a vizsgálat tárgyát képező
nullhipotézisben, az alkalmazási feltételekben, a próbafüggvényben és annak eloszlásában
térnek el egymástól, így a próbák elméletének, sajátos logikájának megismerése után
gyakorlatilag bármilyen hipotézisvizsgálatot el tudunk végezni, csak az adott próba
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
109
alkalmazási feltételeire kell kellő figyelmet fordítanunk. A továbbiakban ennek
figyelembevételével tárgyaljuk a paraméteres próbákat.
E próbák közül elsősorban a minőségügyi eljárásokban leggyakrabban alkalmazott, a normális
eloszlás paramétereire vonatkozó statisztikai próbákat tekintjük át. A próbákat többféle
szempont szerint csoportosíthatjuk. Elsősorban aszerint, hogy mire vonatkozik a nullhipotézis
(szórásra, várható értékre), hány és mekkora minta szükséges a vizsgálathoz (egy-, két- ill.
többmintás próbák) és két mintás esetben milyen a minták közötti kapcsolat (független és
páros próbák).
6.3.1 Egymintás próbák
Az egymintás próbák mindig egy adott sokaság valamely jellemzőjére vonatkozó feltevések
helyességének ellenőrzésére szolgálnak. Ennek érdekében a rendelkezésre álló egyetlen
mintából meghatározott jellemzőt (átlag, tapasztalati szórás) valamely feltételezett, vagy
kívánatosnak tartott állapothoz viszonyítjuk.
Az egymintás próbák annak a kérdésnek a megválaszolására alkalmasak, hogy az a sokaság,
amelyből a minta származik, lehet-e olyan, mint amilyennek mi azt a nullhipotézisben
feltételezzük. Két- és többmintás próbák esetében ettől eltérő lesz a kérdésfeltevés.
6.3.1.a A sokasági szórásra vonatkozó próba
A sokaság eloszlásának varianciájára (szórásnégyzetére) vagy szórására vonatkozó
2
0
2
0 : H
A nullhipotézist egy- és kétoldali alternatívával szemben is vizsgálhatjuk. A próba
ellenhipotézisei az alábbiak lehetnek:
2
0
2
1 : H
2
0
2
1 : H
2
0
2
1 : H
A H0 hipotézis helyességét csak azon alkalmazási feltétel mellett vizsgáljuk, hogy annak a
sokaságnak az eloszlása, amelyből a minta származik, normális.
Ekkor, H0 fennállása esetén az alábbi próbafüggvény n-1 szabadságfokú 2-eloszlást követ:
2
0
22 *1
snsz
ahol n a sokaságból származó minta elemszáma, s* a minta korrigált tapasztalati szórása.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
110
11. Táblázat: Egymintás szórásra irányuló próba
szóráspróba
egyoldali kétoldali
H0 2
0
2
0 : H
H1 2
0
2
1 : H
):( 2
0
2
1 H
2
0
2
1 : H
Próba-
statisztika
2
0
22 *1
snsz
Elfogadási
tartomány
22
sz
)( 22
1 sz
2
2/
22
2/1 sz
Feltételek a sokaság normalitása
Példa25
A kerti törpék piacán az elmúlt évtizedekben a törpék átlagos magassága 120 cm volt,
ugyanakkor a szórás ingadozott. A kiszámítható alapanyag ellátás feltétele, hogy a szórás ne
haladja meg a 10cm-t. Egy tavalyi felmérés szerint egy 25 elemű véletlen minta szórása
12cm. A magasság normális eloszlása ismert. Ellenőrizzük 95%-os megbízhatósággal, nincs-e
veszélyben az alapanyag ellátás?
Hipotézisek felállítása: 22
0 10: H
22
1 10: H
Számított érték meghatározása:
56,34
10
1224*12
2
2
0
22
snsz
Kritikus érték meghatározása:
α=5%
DF=24
415,362
Döntés a nullhipotézisről:
Mivel a számított érték kisebb, mint a kritikus érték, így 5%-os szignifikancia szinten
elfogadható a nullhipotézis, vagyis nincs szignifikáns eltérés a szórás tekintetében.
Példa
Nézzük ismét az a példát, amely a légi közlekedésben az utasok átlagos testsúlyára és a
testsúly szórására vonatkozóan élt feltételezésekkel (lásd illeszkedésvizsgálat, ahol a
normalitást már igazoltuk).
Emlékeztetőül:
A légitársaság a terhelést 78kg-os átlagos testsúlyra és 11kg-os szórásra tervezi.
25
Kerékgyártóné, Gy., Mundruczó, Gy., Sugár, A. (2001): Statisztikai módszerek és alkalmazásuk a gazdasági,
üzleti elemzésekben, Aula Kiadó, 363. o.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
111
A feltételezés ellenőrzése céljából megmérték 100 véletlenszerűen kiválasztott utas súlyát,
akik között 44 nő volt. A mérés eredménye látható a következő táblázatban. A mintából
számított jellemzők:
�� = 78,6𝑘𝑔
𝑠∗ = 12,187𝑘𝑔
5%-os szignifikancia szint mellett most teszteljük az utasok testsúlyának szórására vonatkozó
feltevést!
Testsúly
(kg)
Ügyfelek száma
(fő)
-60 7
60-70 16
70-80 32
80-90 28
90-100 13
100- 4
Összesen 100
Hipotézisek felállítása:
H0: σ=11kg
H1: σ>11kg
Számított érték meghatározása:
52,121
11
187,1299*12
2
2
0
22
snsz
Kritikus érték meghatározása:
α=5%
DF=99
34,1242
Döntés a nullhipotézisről:
Mivel a számított érték kisebb, mint a kritikus érték, így 5%-os szignifikancia szinten
elfogadjuk a nullhipotézist, azaz a sokasági szórásra vonatkozó feltételezés elfogadható.
6.3.1.b A sokasági várható értékre irányuló próbák
Az alkalmazási feltételek függvényében többféle próbát használhatunk: egymintás z-próbát és
egymintás t-próbát.
Nullhipotézisünk mindkét esetben:
H0: =m0, vagyis a várható érték egy adott m0 értékkel egyenlő.
Szakmai feltevésünktől függően, mindkét próba esetén alkalmazhatunk egy- vagy kétoldali
ellenhipotézist.
H1: (1) ≠m0
(2) > m0
(3) < m0
Abban az esetben, ha ismerjük az alapsokasági szórást (0), vagy ha nem ismerjük, de nagy
mintával dolgozunk (n>30 és a 0-t a korrigált tapasztalati szórással becsüljük), egymintás z-
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
112
próbával, ha nem ismerjük az alapsokasági szórást, és kis mintánk van, akkor egymintás t-
próbával vizsgálhatjuk a fenti nullhipotézist.
A két statisztikai próbával kapcsolatos alapismereteket az alábbi táblázat foglalja össze:
12. Táblázat: Egymintás várható értékre irányuló próbák: egymintás z- és t-próba
z-próba t-próba
egyoldali kétoldali egyoldali kétoldali
H0 =m0
H1 >m0
(<m0)
m0
>m0
(<m0)
m0
Próba-
statisztika ns
x
n
xzsz *
0
ns
xtsz *
(DF=n-1)
Elfogadási
tartomány zsz<z
(zsz>-z)
zsz>-z/2 vagy
zsz<z/2
tsz<t
(tsz>-t)
tsz>-t/2 vagy
tsz<t/2
Feltételek 0 ismert v. n>30
sokaság normalitása
sokaság normalitása, 0 nem
ismert v. n≤30
Egymintás z-próba
E próba alkalmazásának feltétele, hogy a hipotézisvizsgálat céljaira rendelkezésre álló
véletlen minta ismert σ02 varianciájú normális eloszlásból származik.
E feltétel mellett a
n
xzsz
0
standardizált mintaátlag a minta nagyságára való tekintet nélkül N(0;1) eloszlást (standard
normális eloszlást) követ.
Példa
Nézzük ismét az a példát, amely a légi közlekedésben az utasok átlagos testsúlyára
vonatkozóan élt feltételezésekkel (lásd illeszkedésvizsgálat, ahol a normalitást már igazoltuk).
Emlékeztetőül:
A légitársaság a terhelést 78kg-os átlagos testsúlyra és 11kg-os szórásra tervezi.
A feltételezés ellenőrzése céljából megmértek 100 véletlenszerűen kiválasztott utas súlyát,
akik között 44 nő volt. A mérés eredménye látható a következő táblázatban. A mintából
számított jellemzők:
�� = 78,6𝑘𝑔
𝑠∗ = 12,187𝑘𝑔
5%-os szignifikancia szint mellett most teszteljük az utasok testsúlyának várható értékére
vonatkozó feltevést!
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
113
Testsúly
(kg)
Ügyfelek száma
(fő)
-60 7
60-70 16
70-80 32
80-90 28
90-100 13
100- 4
Összesen 100
Egymintás z-próbát végezhetünk, mivel a mintaelemszám > 30 (a sokasági szórásra már jó
becslést ad a korrigált tapasztalati szórás).
Elvégzésének feltétele a sokaság normalitása, ezt már igazoltuk az illeszkedésvizsgálatnál e
példa esetén.
Hipotézisek felállítása:
H0: μ=78
H0: μ>78
Számított érték meghatározása:
49,0100/187,12
786,78
0
n
xzsz
Kritikus érték meghatározása:
α=5%
zα=1,64
Döntés a nullhipotézisről:
Mivel a számított érték (0,49) kisebb, mint a kritikus érték, így a nullhipotézist elfogadjuk,
azaz 5%-os szignifikancia szinten elfogadható, hogy a sokasági várható érték 78kg.
Megjegyzés: a próba elvégezhető kétoldali ellenhipotézissel is, ekkor a két kritikus érték:
±1,96, és mivel a számított érték így is az elfogadási tartományba esik, így a nullhipotézist így
is elfogadjuk.
Egymintás t-próba
Ez a próba valamelyest enyhít az előző próba szigorúnak számító alkalmazási feltételein,
mivel nem követeli meg a sokasági eloszlás szórásának ismeretét, de a sokaság normális
eloszlását továbbra is kiköti. Ebben az esetben H0 helyességének ellenőrzésére a következő
próbafüggvény használható fel:
ns
xtsz *
ahol s*
a sokaságból származó minta korrigált tapasztalati szórása, vagyis a standardizált
változó n-1 szabadságfokú Student-féle t-eloszlású.
Másképpen fogalmazva, amennyiben H0 igaz, és a sokaság eloszlása normális, a
próbafüggvény (tsz) n-1 szabadságfokú Student eloszlást követ. Erre alapozva a próba
végrehajtásához szükséges kritikus értékek kereshetőek a Student eloszlás táblázatából a
szignifikancia szint és a szabadsági fok ismeretében.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
114
Szeretnénk arra is emlékeztetni, hogy az előző két statisztikát már korábban is használtuk,
ugyanis e statisztikák ismeretében adtunk intervallumbecslést a sokaság ismeretlen μ
paraméterére.
Példa26
Egy konzervgyárban a sűrített paradicsom töltését automata gép végzi. A dobozok névleges
súlya 450g, amitől csak véletlenszerű eltérések megengedettek. A súly szerinti eloszlás
normálisnak tekinthető. A gyár az egyik szállítmányból 25 elemű mintát vett, a mintában a
dobozok átlagos súlya 446g volt, a szórás pedig 11g.
Ellenőrizzük a névleges töltősúlyra vonatkozó hipotézist 5%-os szignifikancia szinten!
Mivel a mintaelemszám kisebb, mint 30 és nem ismert a sokasági szórás, továbbá a súly
szerinti eloszlás normálisnak tekinthető, így a sokaság várható értékére vonatkozó
feltevésünket egymintás t-próbával végezhetjük el.
Hipotézisek felállítása:
H0: μ=450g
H1: μ<450g
Számított érték meghatározása:
82,125/11
450446*
ns
xtsz
Kritikus érték meghatározása:
α=5%
DF=24
tα=-1,711
Döntés a nullhipotézisről:
Mivel a számított érték kisebb, mint a kritikus érték, így a nullhipotézist 5%-os szignifikancia
szinten elutasítjuk, azaz nem fogadható el a névleges töltősúlyra vonatkozó feltevés, a
töltősúly szignifikánsan eltér 450g-tól.
26
Keresztély, T., Sugár, A., Szarvas, B. (2005): Statisztika közgazdászoknak, Példatár és feladatgyűjtemény,
Nemzeti Tankönyvkiadó, 170.o.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
115
6.3.1.c Egymintás paraméteres próbák összefoglalás
Tesztelendő
paraméter
Alkalmazási
feltételek
Hipotézisek Próbafüggvény Próbafüggvény
eloszlása
Sokasági várható
érték
Sokasági eloszlás
normális
sokasági szórás
ismert
H0: = m0
H1:
(1) ≠ m0
(2) > m0
(3) < m0
n
xzsz
0
standard
normális (z)
Sokasági eloszlás
normális
sokasági szórás nem
ismert
H0: = m0
H1:
(1) ≠ m0
(2) > m0
(3) < m0
ns
xtsz *
Student t-
eloszlás
(DF=n-1)
Sokasági variancia
(szórás)
Sokasági eloszlás
normális H0: σ = σ0
H1:
(1) σ ≠ σ0
(2) σ > σ0
(3) σ < σ0
2
0
22 *1
snsz
χ2-eloszlás
(DF=n-1)
6.3.2 Kétmintás próbák
A kétmintás próbák – ideértve a speciális páros mintás próbákat is – annak a kérdésnek a
vizsgálatára használhatók, hogy két meghatározott szempontból eltérő (pl. különböző
műszakok, gépek stb.) sokaságban a vizsgált paraméterek (várható értékek, szórások) is
különböznek-e egymástól.
Míg tehát az egymintás próbák valamilyen feltételezett, előírt értékhez viszonyítják az
egyetlen sokaságot, addig a kétmintás próbák két sokaság egymással való összehasonlítására
szolgálnak27
. Az összehasonlításra kerülő sokaságok időben, térben, vagy bármilyen más
tekintetben különbözhetnek egymástól.
6.3.2.a A sokasági szórások összehasonlítására irányuló próba
Szórásokra vonatkozó próbákat szórásnégyzetek segítségével végezhetünk. A
szórásnégyzetekre vonatkozó próbák a normális alapeloszlástól való eltérésre sokkal
érzékenyebbek, mint az átlagpróbák. Általános esetben – mivel a varianciák azonossága a
várható értékek összehasonlítására leggyakrabban alkalmazott kétmintás t-próba feltétele – a
szórásokra vonatkozó próbákat az átlagpróbák előtt célszerű elvégezni.
Két független, ismeretlen várható értékű és szórású, normális eloszlást követő valószínűségi
változó varianciáinak azonosságára vonatkozó hipotézisünk:
H0: 2
2
2
1
ún. F-próbával ellenőrizhető.
2*
2
2*
1
s
sFsz , ahol s1
*2>s2
*2
A számítást mindig úgy kell végeznünk, hogy a számlálóban a nagyobb variancia szerepeljen.
27
Sincich, T.:Statistics by Example, Dellen Publishing Company, San Fransisco, 1990
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
116
Az F próbát ily módon mindig egyoldali próbaként végezzük, vagyis ellenhipotézisünk:
H1: 12>2
2.
(Megjegyezzük, hogy az F-próbát baloldali és kétoldali alternatíva esetén is elvégezhetjük, de
ez most nem témája jegyzetünknek.) Táblázataink is egyoldali próbára vonatkoznak
(mégpedig F, DF1, DF2, kritikus értékeit adják meg).
A két alapeloszlásból vett n1 és n2 elemű minták 2*
1s illetve 2*
2s korrigált varianciái torzítatlan
becslései az alapeloszlás 12
, illetve 22
varianciáinak.
Ha H0 és a kiindulási feltételek teljesülnek, akkor az így képzett F érték az ún. Fisher-
Snedecor féle F-eloszlást követi, amely a számláló (DF1) és a nevező (DF2) szabadságfokától
(DF1,2=n1,2 -1) függ.
Példa
Egy fodrászatba férfiak és nők egyaránt járnak. 12 véletlenszerűen kiválasztott férfi és 15
véletlenszerűen kiválasztott nő esetében mérjük a szolgáltatás időtartamát, amelynek eloszlása
normális. A férfiak esetében a szolgáltatás igénybevételének átlagos ideje 35 perc, 26 perc
szórással. A nők esetében a frizura elkészítésének átlagos ideje 48 perc, 30 perc szórással.
Teszteljük 5%-os szignifikancia szinten, hogy van-e különbség a szolgáltatási idő szórása
között a férfiak és nők esetében!
Hipotézisek felállítása: 22
0 : férfinőH
22
1 : férfinőH
Számított érték meghatározása:
33,126
302
2
2*
2*
férfi
nősz
s
sF
Kritikus érték meghatározása:
α=5%
DFnő=15-1=14=DF1
DFférfi=12-1=11=DF2
Fkrit=2,72
Döntés a nullhipotézisről:
Mivel a számított érték (1,33), kisebb, mint a kritikus érték (2,72), így a nullhipotézist 5%-os
szignifikancia szinten nincs jogunk elutasítani, vagyis a férfiak és nők kiszolgálási idejének
szórása között nincs szignifikáns különbség.
Példa28
Két film tetszési indexét hasonlítja össze egy közvéleménykutató intézet. Az első filmre, a
Leányregény címűre 104 elemű mintát vettek, ebből 40 nő volt. A pontok átlaga 65, szórása
3,6 volt a mintában. A rém c. filmre 140 elemű mintát vettek, melyben a férfiak száma 96
volt, a pontok átlaga itt 74 volt, a szórás pedig 4,4. A pontok normális eloszlása mindkét
csoportban feltételezhető.
28
Juhász, Gy.-né, Sándorné, K. É. (1998): Példatár A Statisztika távoktatással c. könyvhöz, Pénzügyi és
Számviteli Főiskola, 94.o.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
117
Teszteljük 1%-os szignifikancia szinten, hogy van-e különbség a két filmre adott pontok
szórása között!
Mivel a filmre adott pontszámok normalitása feltételezhető, így használhatjuk az F-próbát a
sokasági szórások egyezőségének a vizsgálatára. 1-es indexszel jelöljük a A rém c. filmet, 2-
es indexszel Leányregény c. filmet.
Hipotézisek felállítása: 2
2
2
10 : H
2
2
2
11 : H
Számított érték meghatározása:
494,16,3
4,42
2
2*
2
2*
1 s
sFsz
Kritikus érték meghatározása:
α=1%
DF1=140-1=139
DF2=104-1=103
Fkrit=1,53
Döntés a nullhipotézisről:
Mivel a számított érték (1,494), kisebb, mint a kritikus érték (1,53), így a nullhipotézist 1%-os
szignifikancia szinten nincs jogunk elutasítani, vagyis a két filmre adott ponszámok szórása
között nincs szignifikáns különbség.
6.3.2.b A sokasági várható értékek összehasonlítására irányuló próbák – független
minták esete
A minta függetlensége azt jelenti, hogy az egyik sokaságban egy elem mintába kerülése, ill.
be nem kerülése semmilyen módon nem befolyásolja a másik sokaságban az elemek mintába
kerülésének valószínűségét.
Független mintás esetekben a mintaelemszámok különbözőek lehetnek.
A két sokaságból külön-külön és egymástól függetlenül vett minta alapján ellenőrizni
kívánjuk a
H0: 1=2 (vagyis a két sokasági várható érték egyenlő)
hipotézis helyességét.
Az alkalmazási feltételek függvényében többféle próbát használhatunk: kétmintás z-próbát és
kétmintás t-próbát. H0 helyessége most is attól függően más-más próbafüggvény segítségével
vizsgálható, hogy milyen információkkal rendelkezünk a sokaságról.
Szakmai feltevésünktől függően mindkét próba esetén alkalmazhatunk egy- vagy kétoldali
ellenhipotézist.
H1: (1) 1 ≠ μ2
(2) 1 > μ2
(3) 1 < μ2
Abban az esetben, ha ismerjük az alapsokasági szórásokat (1 és 2), vagy ha nem ismerjük,
de nagy mintával dolgozunk (n1>30 és n2>30, s az elméleti szórásokat a korrigált tapasztalati
szórással becsüljük), kétmintás z-próbával, ha nem ismerjük az alapsokasági szórást, de
feltehető a szórások egyezése, akkor kétmintás t-próbával vizsgálhatjuk a fenti nullhipotézist.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
118
Ha mindkét sokaság normális eloszlású, az elméleti szórásokat nem ismerjük, de a szórások
különböznek egymástól, akkor a kétmintás t-próba nem alkalmazható, helyette a Welch-
próbát használhatjuk. Szakmai feltevésünktől függően, mindhárom próba esetén
alkalmazhatunk egy- vagy kétoldali ellenhipotézist.
Kétmintás z-próba
Abból indulunk ki, hogy mindkét sokaság normális eloszlású és mindkét sokaság szórása
ismert. A próbafüggvény
2
2
2
1
2
1
21
nn
xxzsz
H0 helyessége esetén standard normális eloszlást N(0,1) követ.
Példa
Nézzük ismét az előző, két film tetszési indexét összehasonlító példánkat.
Most teszteljük azt 1%-os szignifikancia szinten, hogy a van-e különbség a két film átlagos
tetszési pontszáma között!
Emlékeztetőül:
Az első filmre, a Leányregény címűre 104 elemű mintát vettek, ebből 40 nő volt. A pontok
átlaga 65, szórása 3,6 volt a mintában. A rém c. filmre 140 elemű mintát vettek, melyben a
férfiak száma 96 volt, a pontok átlaga itt 74 volt, a szórás pedig 4,4. A pontok normális
eloszlása mindkét csoportban feltételezhető.
Mivel mindkét film esetében a mintaelemszám nagyobb, mint 30, továbbá feltételezhető a
pontok normális eloszlása, így kétmintás z-próbát használhatunk (1-es index A rém c. film, 2-
es index a Leányregény c. film).
Hipotézisek felállítása:
H0: 1=2
H1: 1≠2
Számított érték meghatározása:
14,16311,0
9
104
6,3
140
4,4
6574
22
2
2
2
1
2
1
21
nn
xxzsz
Kritikus érték meghatározása:
α=1%
zα/2=±2,34
Döntés a nullhipotézisről:
Mivel a számított érték nem az elfogadási tartományba esik, így szignifikáns különbség van
1%-os szignifikancia szinten a két film tetszési indexe között.
Kétmintás t-próba
A két sokaság eloszlása továbbra is normális, de a szórások nem ismertek. Ez a
feltételrendszer közelebb áll a valósághoz. Ez kis minták esetén akkor kezelhető, ha az
ismeretlen szórásokról tudjuk, hogy azok egyenlőek. Ekkor a H0 helyessége a következő
próbafüggvénnyel vizsgálható:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
119
21
2
p
21sz
n1
n1s
xxt ,
ahol
2
)1()1(
21
2*
22
2*
112
nn
snsns p
a két sokaság egyforma varianciájának a két minta együttes felhasználásával nyert kombinált
becslése. A próbafüggvény H0 fennállása és az alkalmazási feltételek teljesülése esetén
DF=n1+n2-2 szabadságfokú t-eloszlást követ.
Példa
Korábbi fodrászatos példánk (lásd sokasági szórások egyezésére irányuló próba) vizsgáljuk
meg, hogy van-e különbség a kiszolgálási idő szórása között a férfiak és a nők esetében 5%-
os szignifikancia szinten!
nnő=15
nférfi=12
48nőx 30
nős
35férfix 26
férfis
A kétmintás t-próba alkalmazási feltételei:
az alapsokaságok eloszlásának normalitása (nevezetesen a szolgáltatási idő eloszlása
mind a férfiak, mind a nők esetében normális, ezt feltételeztük már az F-próba
elvégzésénél is)
nő és férfi nem ismert és nnő<30 és nférfi<30
nő = férfi, ezt már bizonyítottuk F-próbával korábban
Hipotézisek felállítása:
H0: nő=férfi
H1: nő≠férfi
Számított érték meghatározása:
44,80121215
26)112(30)115(
2
)1()1( 222*2*
2
férfinő
férfiférfinőnő
pnn
snsns
185,196,10
13
12
1
15
144,801
3548
112
férfinőp
férfinő
sz
nns
xxt
Kritikus érték meghatározása:
Az ellenhipotézis kétoldali, így két kritikus érték meghatározására van szükség:
α=5%
DF=15+12-2=25
t0,975=±2,06
Döntés a nullhipotézisről:
Mivel a számított érték az elfogadási tartományba esik, így a H0 hipotézist elfogadjuk, azaz
5%-os szignifikancia szinten nincs különbség a férfiak és a nők kiszolgálási idejének várható
értéke között.
Megjegyzés: A próba elvégezhető a következő ellenhipotézissel is:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
120
H0: nő=férfi
H1: nő>férfi
Ehhez az ellenhipotézishez tartozó kritikus érték:
t0,95=1,708
Mivel tsz=1,185<1,708, így a H0-t elfogadjuk, azaz nincs különbség a két várható érték között
5%-os szignifikancia szinten.
Példa29
Egy gépről két különböző napon lekerülő alkatrészekből mintát vettek, és az alkatrészek
tömegére a következőket kapták:
101 n gx 501 2
1 02,02
gs
152 n gx 8,492 2
2 015,02
gs
Különbözik-e a két napon gyártott alkatrészek tömegének várható értéke 5%-os szignifikancia
szinten?
Az alkatrészek tömegének normalitása feltételezhető. Mivel az alapsokasági szórások nem
ismertek, és a mintaelemszám is kisebb, mint 30, így kétmintás t-próbával kell ellenőriznünk
a nullhipotézis helyességét:
H0: 1=2
H1: 1≠2
Először F-próbát kell végeznünk.
F-próba elvégzése
Először F-próbával ellenőrizzük azt a hipotézist, hogy a két minta azonos varianciájú
sokaságból származik.
H0: σ1=σ2
H1: σ1>σ2
Számított érték kiszámítása:
33,1015,0
02,0szF
Kritikus érték kiszámítása:
α=5%
DF1=9
DF2=14
Fkrit=2,65
Döntés a nullhipotézisről:
Mivel a számított érték (1,33) kisebb, mint a kritikus érték (2,65), így 5%-os szignifikancia
szinten a szórások egyezése elfogadható.
Kétmintás t-próba
Számított érték meghatározása:
29
Kemény, S., Papp, L., Deák, A. (1999): Statisztikai minőség-(megfelelőség-) szabályozás, Műszaki
Könyvkiadó, Magyar Minőség Társaság, Budapest, 67.o.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
121
017,021510
015,0)115(02,0)110(
2
)1()1( 22
21
2*
22
2*
112
nn
snsns p
7,3
15
1
10
1017,0
8,4950
1121
2
21
fp
sz
nns
xxt
Kritikus értékek meghatározása:
α=5%
DF=10+15-2=23
tα/2=±2,069
Döntés a nullhipotézisről:
Mivel a számított érték kívül esik az elfogadási tartományon így a nullhipotézist, vagyis a
várható értékek egyezését, elutasítjuk, így a két nap közötti különbség 5%-os szinten
szignifikáns.
Kétmintás várható értékre irányuló próbák független minták esetén - összefoglalás
13. Táblázat: Kétmintás várható értékre irányuló próbák: kétmintás z- és t-próba
z-próba t-próba
egyoldali kétoldali egyoldali kétoldali
H0 1=2
H1 1>2
(1<2)
12
1>2
(1<2)
12
Próba-
statisztika
2
2
2
1
2
1
21
nn
xxzsz
21
2
p
21sz
n1
n1s
xxt
Elfogadási
tartomány zsz<z
(zsz>-z)
zsz>-z/2 vagy
zsz<z/2
tsz<t
(tsz>-t)
tsz>-t/2 vagy
tsz<t/2
Feltételek mindkét sokaság normális
eloszlású,
1 és 2 ismert v. n1 és n2>30
mindkét sokaság normális
eloszlású, 1 és 2 nem ismert v.
n1 és n2<30
1=2
6.3.2.c A sokasági várható értékek összehasonlítására irányuló próbák – páros minták
esete
Az eddig tárgyalt kétmintás statisztikai próbák alkalmazásánál fontos feltétel volt a minták
függetlensége. Ez a feltétel a gyakorlatban legtöbbször teljesül, de vannak bizonyos speciális
esetek, amikor a két minta elemei között van valamilyen kapcsolat. Az ún. páros minták
esetén a mintaelemek nem függetlenek egymástól, „van bennük valamilyen közös tényező”
(pl. ugyan az a mérőeszköz, ugyan azt az alkatrészt, embert stb. vizsgáljuk).
Páros mintáknál tehát az egyik minta elemeinek kiválasztása maga után vonja a másik minta
elemeinek kiválasztását, s így a két minta elemei nem tekinthetők egymástól függetleneknek. A
páros minták nagysága egyforma.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
122
Az ilyen páros (összefüggő) sokaságokban a két sokaság (s ebből következően természetesen
a minta) elemei egymással kölcsönös és egyértelmű megfeleltetésbe hozhatók. A páros
elnevezés onnan származik, hogy a két sokaság egymáshoz rendelt egységeinek összessége
egy elempárokból álló, egyetlen sokaságnak is tekinthető.
Ha például két iskola tanulóinak testsúlyát szeretnénk összehasonlítani, akkor csak nehezen és
mesterkélten képzelhető el a tanulók párokba rendezése, már csak a két iskola létszámának
különbsége miatt is. Ugyanakkor, ha egy új fogyókúra eljárás hatékonyságát szeretnénk
értékelni, akkor célszerű ugyanazon személyek testsúlyát megmérni két időpontban, a
fogyókúra előtt és után. Ebben az esetben annak megítélésére, hogy valóban csökkent-e a
fogyókúra után a testsúly, már nem véletlenszerűen választunk a fogyókúrázók közül, az első
minta elemei meghatározzák a második mintát is. Természetesen az összefüggő sokaságokból
is vehetünk független mintákat, de ez általában nem célszerű, mert így elveszítjük az
elempárok egyenkénti összehasonlításával nyerhető információt.
A páros mintákat általában oly módon kezeljük, hogy egymásnak megfeleltethető elemeik
különbségét (vagy hányadosát képezzük), majd a továbbiakban e különbségeket (vagy
hányadosokat) már egyetlen minta elemeinek tekintjük.
Ha képezzük a két páros minta összetartozó elemeinek
di=yi-xi
különbségeit, és tekintsük e különbségeket a továbbiakban egy n elemű minta elemeinek. Ez
lényegében annak hallgatólagos feltételezése, hogy az a sokaság, amelyből e minta származik,
bizonyos elempárok összessége.
A páros minták összetartozó elemei közötti különbségek vizsgálata útján legtöbbször arra
keressük a választ, hogy az elempárok tagjai által kapott eltérő „kezelésnek” van-e valamilyen
hatása.
A próbához kapcsolódó nullhipotézis:
H0: μ1=μ2
vagy
H0: μd=δ0
(μd itt az elempárokhoz tartozó különbségek feltétezett várható értékét jelenti, a δ0 érték nem
csak 0 lehet, hanem egy adott különbség meglétét is vizsgálhatjuk.)
A nullhipotézis helyessége a megfelelő bal-, két- vagy jobb oldali alternatív hipotézissel
szemben vizsgálható.
Képezve tehát páronként a különbségeket (di), majd a különbségek átlagát (
n
i
idn
d1
1) és
korrigált tapasztalati szórását (1
)( 2
12
n
dd
s
n
i
i
d ), a nullhipotézisünket, vagyis a két várható
érték egyezését az alábbi próbastatisztikával vizsgálhatjuk (ha n<30, és a sokasági szórások
nem ismertek):
n
s
dt
d
sz
Ha H0 igaz, tsz értéke DF=n-1 szabadságfokú t-eloszlást követ.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
123
Példa
Egy speciális diéta hatásosságát vizsgálják. Ehhez minden vizsgálati személy testsúlyát
megmérték a diéta előtt és után. A hipotetikus kísérlet eredménye 9 kísérleti személyen a
következő táblázatban látható.
A vizsgált
személy
sorszáma
Testsúly a diéta
előtt
Testsúly a
diéta után
1 95 90
2 75 72
3 110 100
4 81 75
5 92 88
6 83 83
7 94 93
8 88 82
9 105 99
Vizsgáljuk meg 1%-os szignifikancia szinten, hogy hatásos volt-e a diéta!
Páros mintáról van szó, hiszen ugyanazon diétában résztvevő személyek testsúlyát mérték
meg a diéta megkezdése előtt és után.
A diéta megkezdése előtt a 9 résztvevő testsúlyának átlaga:
44,919
10588948392811107595
ex
A diéta után a 9 résztvevő testsúlyának átlaga:
88,869
9982938388751007290
ux
Hipotézisek felállítása:
H0: μe=μu
H1: μe>μu
Számított érték meghatározása:
Először képeznünk kell a különbségeket páronként, majd azok átlagát és szórását kell
kiszámolnunk.
A vizsgált
személy
sorszáma
Testsúly a
diéta előtt
Testsúly a
diéta után
di
1 95 90 5
2 75 72 3
3 110 100 10
4 81 75 6
5 92 88 4
6 83 83 0
7 94 93 1
8 88 82 6
9 105 99 6
56,49
66104610351
1
n
i
idn
d
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
124
05,98
)56,46(...)56,43()56,45(
1
)(222
2
12
n
dd
s
n
i
i
d
547,49/05,9
56,4
n
s
dt
d
sz
Kritikus érték meghatározása:
α=1%
tα=2,896
Döntés a nullhipotézisről:
Mivel a számított érték (4,547) nagyobb, mint a kritikus érték (2,896), így a nullhipotézist
elutasítjuk, vagyis van szignifikáns különbség a páciensek testsúlyában a diéta előtt és után,
így a diéta hatásosnak tekinthető.
6.3.2.d Kétmintás paraméteres próbák összefoglalás
Tesztelendő
paraméter
Alkalmazási
feltételek
Hipotézisek Próbafüggvény Próbafüggvény
eloszlása
Sokasági
várható érték
mindkét sokaság
normális
eloszlású,
1 és 2 ismert
v. n1 és n2>30, a
minták
függetlenek
H0: 1=2
H1:
(1) 1 ≠ 2
(2) 1 > 2
(3) 1 < 2
2
2
2
1
2
1
21
nn
xxzsz
standard
normális (z)
mindkét sokaság
normális
eloszlású, 1 és
2 nem ismert v.
n1 és n2<30
1=2,
a minták
függetlenek
H0: 1=2
H1:
(1) 1 ≠ 2
(2) 1 > 2
(3) 1 < 2
21
2
p
21sz
n1
n1s
xxt ,
ahol
2
)1()1(
21
2*
22
2*
112
nn
snsns p
Student t-
eloszlás
(DF=n1+n2-2)
a sokaság
normális
eloszlású,
páros minta
H0: 1=2
(H0: μd=δ0)
H1:
(1) 1 ≠ 2 (μd
≠ δ0)
(2) 1 > 2
(μd > δ0)
(3) 1 < 2
(μd < δ0)
n
s
dt
d
sz
Student t-
eloszlás
(DF=n-1)
Sokasági
variancia
(szórás)
Mindkét
sokasági
eloszlás
normális
2
2
2
10 : H
2
2
2
11 : H
2*
2
2*
1
s
sFsz , ahol s1
*2 > s2
*2
F-eloszlás
(DF1=n1-1;
DF2=n2-1)
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
125
6.3.3 Több független mintás próbák
A több független mintás próbák kettőnél több sokaság bizonyos paramétereinek vagy
eloszlásának összehasonlítására szolgálnak.
A többmintás próbák – a kétmintás próbákhoz hasonlóan – annak a kérdésnek a vizsgálatára
használhatók, hogy több – meghatározott szempontból eltérő (pl. különböző műszakok, gépek
stb.) – sokaságban a vizsgált paraméterek (várható értékek, szórások) is különböznek-e
egymástól. A többmintás próbák kettőnél több sokaság egymással való összehasonlítására
szolgálnak30
.
6.3.3.a Több sokasági variancia egyenlőségének vonatkozó próbák31
Az F-próbát csak abban az esetben alkalmazzuk, ha két minta szórását hasonlítjuk össze. Ha
több normális eloszlásból származó mintát kell összehasonlítanunk, akkor használhatjuk a
Cochran-próbát.
H0: 22
2
2
1 ... n
H1: nem minden variancia egyenlő
A Cochran-próba segítségével azt dönthetjük el, hogy a szórások között talált legnagyobb
érték tekinthető-e a többivel azonos eloszlásból származónak.
A Cochran-próbát akkor alkalmazhatjuk, ha az alapeloszlás normális és a minták mind
azonos darabszámúak.
A közös mintadarabszámot most n-el jelöljük (a szabadságfok DF=n-1), az r darab különböző
minta korrigált tapasztalati szórásnégyzetét pedig s1*2
, s2*2
, …sr*2
– tel.
A próbastatisztika:
22
2
2
1
2
max
... r
szsss
sg
,
ahol 2
max
s smax*2 az összehasonlítani kívánt sokaságokból vett minták korrigált tapasztalati
szórásnégyzetei közül a legnagyobb.
A nullhipotézisről való döntéshez a Képletgyűjtemény Cochran-próbához kapcsolódó
táblázatai szükségesek, amelyekkel meghatározható egy adott szignifikancia szinthez
szükséges kritikus érték.
A kiértékeléshez szükséges táblázatok segítségével a már ismert módon eldönthetjük, hogy a
legnagyobb szórás jelentős mértékben különbözik-e a többitől. Ha a számított érték (gsz)
kisebb, mint a kritikus érték, akkor elfogadjuk a H0 hipotézist, ellenkező esetben pedig
elutasítjuk, vagyis nem tekinthetjük az összes alapsokaságot egyenlő szórásúnak. Ilyenkor
vagy teljesen elejtjük a homogenitásra vonatkozó feltevésünket, vagy pedig csak ezt a kiugró
szórással rendelkező mintát (vagy ha több minta szórása lépte át a szignifikancia-határt,
mindegyik ilyent) kizárjuk a sokaságból és megvizsgáljuk, hogy a megmaradó sokaságra
eredeti feltevésünk fenntartható-e. Ezt tehát semmi esetre sem tekinthetjük természetesnek,
hanem a megmaradó sokaságra meg kell ismételnünk a Cochran-próbát, azaz gsz értékét a
megmaradó adatokból újra ki kell számítani és r új értékének figyelembevételével összevetni
az ábrával. A megmaradó sokaságot a szórás szempontjából homogénnek csak akkor
tekinthetjük, ha az utoljára végzett Cochran-próba „nem szignifikáns” eredményt mutat.
30
Sincich, T.:Statistics by Example, Dellen Publishing Company, San Fransisco, 1990 31
Kövesi J.: Kvantitatív módszerek, Oktatási segédanyag, BME MBA Mérnököknek program, Budapest, 1998
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
126
Példa
Egy áruházláncnál megvizsgálták, hogy 3 boltjukban azonos-e az egy vásárlásnál fizetett
összeg. Minden boltban kiválasztottak 6 véletlen mintát. A vásárláskor fizetett összegeket az
alábbi táblázat mutatja (dollárban):
1. bolt 2. bolt 3. bolt
12,05 15,17 9,48
23,94 18,52 6,92
14,63 19,57 10,47
25,78 21,4 7,63
17,52 13,59 11,90
18,45 20,57 5,92
Feltételezve, hogy a kifizetések normális eloszlásúak, van-e különbség a szórás tekintetében a
3 üzlet között 5%-os szignifikancia szinten?
Hipotézisek felállítása:
H0: 2
3
2
2
2
1
H1: nem minden variancia egyenlő
Számított érték meghatározása:
Ehhez először ki kell számítanunk mindhárom üzlet esetében a minták számtani átlagát és
korrigált tapasztalati szórását.
73,181 x 96,275
)73,1845,18(...)73,1894,23()73,1805,12( 222
1
2
s
14,182 x 65,95
)14,1857,20(...)14,1852,18()14,1817,15( 222
2
2
s
72,83 x 2,55
)72,892,5(...)72,892,6()72,848,9( 222
3
2
s
653,02,565,996,27
96,27
... 22
2
2
1
2
max
r
szsss
sg
Kritikus érték meghatározása:
α=5%
n=6 (egy-egy minta azonos elemszáma)
DF=n-1=6-1=5
r=3 (a minták száma)
Cochran-táblázatból a kritikus érték: gkrit=0,73
Döntés a nullhipotézisről:
Mivel a számított érték (0,653) kisebb, mint a kritikus érték (0,73), a nullhipotézist elfogadjuk
5%-os szignifikancia szinten, azaz a sokasági szórások egyezése feltételezhető.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
127
6.3.3.b Több sokaság várható értékének az összehasonlítása – varianciaanalízis
A varianciaanalízis – nevével ellentétben – a vizsgált sokaságok (r db) várható értékének az
összehasonlítására szolgál.
H0: r ...21
H1: bármely két várható érték nem egyenlő egymással
A próba végrehajtásának előfeltétele, hogy ebben az esetben is minden sokaságból külön-
külön, függetlenül egyszerű véletlen mintákat veszünk, minden sokaságról feltételezhető a
vizsgált ismérv szerinti normális eloszlása, és a sokasági szórások egyezősége (lásd előző
Cochran próba).
Felidézve a 3. Részekre bontott sokaság vizsgálata c. fejezetben tanultakat, a nullhipotézis
fennállása azt jelenti, hogy nincs kapcsolat az X mennyiségi ismérv és a sokaságokat
megkülönböztető minőségi ismérv között. H1 fennállása ezzel szemben azt jelenti, hogy van
kapcsolat az adott két ismérv között.
Ugyanis arról van szó, hogy a nullhipotézisben nemcsak az r darab sokasági átlag
egyenlőségét feltételezhetjük, hanem azt is, hogy ezek mindegyike megegyezik az r sokaság
összevonása után számolt főátlaggal. Ha a problémát úgy fogjuk fel, hogy egy sokaságot egy
kategóriaképző minőségi ismérv változatai szerint n részsokaságra bontunk, és vizsgáljuk,
hogy egy X mennyiségi ismérv szerint megegyeznek-e az átlagok, akkor ez a próba a vegyes
kapcsolat tesztelésének is tekinthető, a nullhipotézis elfogadás esetén a minőségi ismérv nem
befolyásolja a mennyiségi ismérv alakulását, a két ismérv független egymástól. Ezért ez a
módszer is a 3. fejezetben megismert szórásnégyzet-felbontás módszerére épül, és
varianciaanalízisnek szokás nevezni.
A próba elvégzéséhez mindenekelőtt (természetesen a csoportok átlagának és szórásának
meghatározása után, amelyek már a szórások egyezésének vizsgálatához is szükségesek)
képezzük az összes megfigyelés számtani átlagát ( x ), ami megegyezik a mintaátlagoknak ( x
i) a minta elemszámával súlyozott számtani közepével:
r
i
ii
r
i
n
j
ij xnn
xn
xi
11 1
11
Ahol: ni az i-edik minta elemszáma,
n az összes minta elemszáma n=n1+n2+…+nr.
Ezek után képezzük az összes mért értéknek (xij) az összes adat átlagától ( x ) való eltérésének
a négyzetösszegét az ún teljes négyzetösszeget:
r
1i
n
1j
2
ij
i
xx , amely két négyzetösszeg
összegére bontható.
Az egyik az ún. csoportok közötti
r
i
ii xxn1
2
négyzetösszeg, amely a csoportok közti
eltéréseket magyarázza, méri, a másik a csoportokon belüli
r
i
n
j
iij
i
xx1 1
2
négyzetösszeg,
amely a csoportokon belüli eltéréseket, a véletlen hatásokat mutatja32
.
A 3.2 Rész- és fősokaságok varianciája és szórása című fejezetben láttuk, hogy ha egy
heterogén sokaságot részekre bontunk, akkor az eltérésnégyzet-összegek között az alábbi
összefüggés áll fenn:
32
Lukács O.: Matematikai statisztika, Példatár, Műszaki Könyvkiadó, Budapest, 1987
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
128
r
i
n
j
iij
r
i
ii
r
i
n
j
ij
ii
xxxxnxx1 1
2
1
2
1 1
2
SST=SSK+SSB
Emlékeztetőül: ez az azonosság azt fejezi ki, hogy az átlagtól vett teljes eltérésnégyzet-összeg
(SST) két részre bontható:
A külső eltérésnégyzet-összeg (SSK) azt a részt mutatja, amelyet az egyes
részsokaságban számított átlagok eltérései magyaráznak, azaz ez a csoportosítás
hatása a szóródásra. Értékét az SST-hez viszonyítva kaptuk a H2 mérőszámot, amit
szintén a 3. fejezetben ismertünk meg.
A belső eltérésnégyzet-összeg (SSB), amelynek a nagyságát a csoportosító ismérven
kívüli, egyéb tényezők magyaráznak. Ez a szóródásnak az a része, amit a csoportosító
ismérv nem magyaráz.
A varianciaanalízis éppen arra keresi a választ, hogy a csoportosító ismérvnek köszönhető
eltérésnégyzet-összeg (SSK) szignifikáns nagyságrendű-e.
Ha H0 igaz, s a kiindulási feltételek is teljesülnek, akkor bizonyítható, hogy a csoporton belüli
négyzetösszeg 2-eloszlású n-r szabadságfokkal, s a csoportok közötti négyzetösszeg
független a csoporton belüli négyzetösszegtől, és szintén 2-eloszlású r-1 szabadságfokkal.
Ha ez igaz, akkor a négyzetösszegek és a megfelelő szabadságfokok hányadosából képzett ún
külső (sk2), ill. belső (sb
2) szórásnégyzetek egymástól függetlenek, s a közös várható értékük
az ismeretlen, de egyenlő alapsokasági szórás: E(sk2)=E(sb
2)=.
A két szórás egyezésének vizsgálatával így ellenőrizhetjük eredeti hipotézisünket, a várható
értékek azonosságát. Két szórás összehasonlítására a korábban megismert F-próba
használható, képezve az F=sk2/sb
2 statisztikát, amely – H0 fennállása esetén – (r-1, n-r)
paraméterű F-eloszlású33
.
A képzett próbafüggvény:
)/(
)1/(
)/(
)1/(
1 1
2
1
2
rnSSB
rSSK
rnxx
rxxn
Fr
i
n
j
iij
r
i
ii
szi
Mint látható, ebben az esetben a számláló, és így a próbafüggvény 0 értéke szól a
nullhipotézis teljesülése mellett leginkább, hiszen ez azt jelenti, hogy minden részátlag
pontosan megegyezik egymással. Minél nagyobb a számláló értéke (és ezzel párhuzamosan
csökken a nevezőé), annál inkább eltérnek a részátlagok egymástól. A hipotézisvizsgálat
feladata ezúttal is az, hogy meghatározza azt a kritikus értéket, amely felett a részátlagok
eltérése már nem tekinthető véletlen ingadozásnak. Az eddigiek alapján a varianciaanalízis is
egy csak jobboldali kritikus értékkel végrehajtható próba. A szignifikancia szint és a
fentiekben definiált szabadsági fokok ismeretében a kritikus érték az F-eloszlás táblázatából
meghatározható.
A varianciaanalízis eredményeinek összefoglalására gyakran alkalmazzák az ún.
szórásfelbontó táblázatot, amit a varianciaanalízis angol nevének rövidítéséből ANOVA
táblának is szokás nevezni. Az egyszeres osztályozású varianciaanalízis ANOVA táblájának
felépítését mutatja a következő táblázat:
33
Lukács O.: Matematikai statisztika, Példatár, Műszaki Könyvkiadó, Budapest, 1987
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
129
14. Táblázat: ANOVA tábla
Négyzetösszeg
neve
Négyzet-
összegek
Szabad-
ságfok
Szórás
becslése
F érték p-érték
Csoportok
közötti *
r
i
ii xxn1
2
r-1 sk2 sk
2/sb
2 p
Csoporton
belüli **
r
i
n
j
iij
i
xx1 1
2 n-r sb2 - -
Teljes
r
1i
n
1j
2
ij
i
xx
n-1 - - -
Példa
Nézzük ismét a Cochran-próbánál bemutatott példát.
Egy áruházláncnál megvizsgálták, hogy 3 boltjukban azonos-e az egy vásárlásnál fizetett
összeg. Minden boltban kiválasztottak 6 véletlen mintát. A vásárláskor fizetett összegeket az
alábbi táblázat mutatja (dollárban):
1. bolt 2. bolt 3. bolt
12,05 15,17 9,48
23,94 18,52 6,92
14,63 19,57 10,47
25,78 21,4 7,63
17,52 13,59 11,90
18,45 20,57 5,92
Feltételezve, hogy a kifizetések normális eloszlásúak, van-e különbség az eladások várható
értékeinek tekintetében a 3 üzlet között 5%-os szignifikancia szinten?
A varianciaanalízis alkalmazási feltételei között szerepel a sokasági szórások egyezése, ezt
már igazoltuk Cochran-próbával, továbbá feltételeztük az értékesítések értékének
normalitását.
Hipotézisek felállítása:
H0: 321
H1: bármely két várható érték nem egyenlő egymással
Számított érték meghatározása:
n1=n2=n3=6 r=3
Az átlagok boltonként )( ix : 73,181 x 14,182 x 72,83 x
Az összes adat átlaga )(x : $15,2
6,378)2,1572,8(6)2,1514,18(6)2,1573,18(6 222
1
2
r
i
ii xxnSSK
Az SSB számításának leegyszerűsítéséhez vegyük elő azokat a korrigált tapasztalati
szórásokat, amelyeket a Cochran-próbánál már kiszámítottunk:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
130
96,275
)73,1845,18(...)73,1894,23()73,1805,12( 222
1
2
s
65,95
)14,1857,20(...)14,1852,18()14,1817,15( 222
2
2
s
2,55
)72,892,5(...)72,892,6()72,848,9( 222
3
2
s
E korrigált tapasztalati szórásnégyzetek számlálójában szereplő eltérésnégyzet-összegek
összege adja a keresett SSB belső eltérésnégyzet-összeget:
r
i
n
j
iij
i
xx1 1
2
05,21452,5565,9596,27 SSB
45,5924,37805,214 SSKSSBSST
A számításokat elvégezve, az ANOVA tábla:
Négyzet-
összegek
Szabad-
ságfok
Szórás
becslése F érték p érték
Csoportok közötti 378,4 r-1=3-1=2 189,2 13,23 0,0005
Csoporton belüli 214,05 n-r=18-3=15 14,3 - -
Teljes 592,45 17 - - -
23,13
3,14
2,189
15/05,2014
2/4,378
)/(
)1/(
)/(
)1/(
1 1
2
1
2
rnSSB
rSSK
rnxx
rxxn
Fr
i
n
j
iij
r
i
ii
szi
Kritikus érték meghatározása:
=0,05
A számláló szabadságfoka (DF1) = 2
A nevező szabadságfoka (DF2) = 15
A kritikus érték: Fkr=3,68
Döntés a nullhipotézisrről:
Mivel Fsz>>Fkr, a nullhipotézist 5%-os szignifikancia szinten elutasítjuk, azaz az átlagok, ill.
legalább egy átlag szignifikánsan különbözik a többitől. Esetünkben ez értelemszerűen a 3.
bolt, ahol az egy vásárlásnál kifizetett összeg nagysága átlagosan kevesebb, mint a fele a
másik két bolt átlagánál.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
131
6.4 Fogalmak
nemparaméteres próba paraméteres próba
illeszkedésvizsgálat kontingencia táblázat
homogenitásvizsgálat függetlenségvizsgálat
Cramer-féle asszociációs együttható egymintás próba
egymintás z-próba egymintás t-próba
egymintás szóráspróba kétmintás próba
F-próba független minta
páros minta kétmintás t-próba
kétmintás z-próba többmintás próbák
Cochran-próba varianciaanalízis
ANOVA-tábla
6.5 Típusfeladatok
6.5.1 Feladat
Egy ipari parkban az elmúlt 70 évben az évente bekövetkező áramkimaradások gyakorisága
az alábbi táblázat szerint alakult.
5%-os szignifikancia szinten elfogadható-e az a feltételezés, hogy az áramkimaradások száma
Poisson-eloszlású valószínűségi változó?
Megoldás:
A megoldás menete:
Tudjuk, hogy a nullhipotézis teljesülése esetén az áramkimaradások éves
száma Poisson-eloszlású valószínűségi változónak tekinthető.
A mintából becslést adunk az eloszlás λ paraméterére.
Meghatározzuk, hogy az áramkimaradások száma a feladatban megadott
értékeket mekkora valószínűséggel veszi fel.
Kiszámítjuk az áramkimaradások számának elméleti gyakoriságait.
Az elméleti és tapasztalati gyakoriságok ismeretében – a khi-négyzet próba
alkalmazásával – illeszkedésvizsgálatot hajtunk végre.
Jelölje ξ az áramkimaradások éves számát, mint valószínűségi változót.
Ha a nullhipotézis teljesül, akkor a ξ λ paraméterű Poisson-eloszlású.
A λ paraméter (maximum likelihood) becslése a mintaátlag:
2,270
1760524731522311606
Hipotézisek felállítása:
A feladat szövege alapján a következő hipotézisek fogalmazhatók meg:
H0: az áramkimaradások éves száma Poisson-eloszlást követ 2,2 paraméterrel
H1: az áramkimaradások éves száma nem 2,2 paraméterrel követ Poisson-eloszlást
Áramkimaradások
száma (évente):0 1 2 3 4 5 6 7 7-nél több
Évek száma: 6 16 23 15 7 2 0 1 0
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
132
A feltételezett eloszlás (Poisson-eloszlás) λ paramétere nem ismert, ezért becsléses
illeszkedésvizsgálatot hajtunk végre.
Az elméleti gyakoriságok meghatározásához a következő valószínűségeket kell
kiszámítanunk (de kereshetőek a Poisson eloszlás táblázatából):
)7,...,0( !
)( kek
kPpk
k
7
0
7 1)7(1)7(k
kpPPp
A valószínűségek ismeretében az Fk elméleti gyakoriságok az kk NpF összefüggés alapján
számíthatók, ahol N=70 a minta elemszáma.
A következő táblázat a próba végrehajtásához szükséges tapasztalati és kiszámított elméleti
gyakoriságokat tartalmazza.
k kf kp kF
0 6 0,1108 7,7562
1 16 0,2438 17,0637
2 23 0,2681 18,7701
3 15 0,1966 13,7647
4 7 0,1082 7,5706
5 2 0,0476 3,3311
6 0 0,0174 1,2214
7 1 0,0055 0,3839
7-nél több 0 0,0020 0,1384
r=9
4517,4
1384,0
1384,00...
7562,7
7562,7622
1
2
2
r
i i
iisz
F
Ff
Kritikus érték meghatározása:
A szabadságfok: DF = r-l-1 = 9-1-1 = 7 (r=9, l=1, mert 1 paramétert becsültünk.)
α=5%
067,142
05,0
2 krit
Döntés a nullhipotézisről:
Mivel a számított érték kisebb, mint a kritikus érték, így a nullhipotézist elfogadjuk, azaz 5%-
os szignifikancia szinte elfogadható, hogy az áramkimaradások száma λ=2,2 paraméterrel
Poisson eloszlást követ.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
133
6.5.2 Feladat
Egy faipari üzemben a méretre gyártott asztallapok vastagságát vizsgálták. 200 asztallap
vastagságát megmérve az adatokat az alábbi táblázatban rögzítették.
5%-os szignifikancia szinten elfogadható-e az a feltételezés, hogy az asztallapok vastagsága
normális eloszlású valószínűségi változó 50,2mm várható értékkel és 1,3mm szórással?
Megoldás:
Hipotézisek felállítása:
A feladat szövege alapján a következő hipotézisek fogalmazhatók meg.
H0: az asztallapok vastagsága 50,2mm várható értékű, 1,3mm szórású normális eloszlást
követ
H1: az asztallapok vastagsága nem 50,2mm várható értékű, 1,3mm szórású normális eloszlást
követ
Mivel ismertek a feltételezett eloszlás elméleti paraméterei, ezért tiszta illeszkedésvizsgálatot
hajtunk végre.
Számított érték meghatározása:
A feladat megoldásához meg kell határoznunk az asztallap vastagságának a megadott
kategóriákba esési elméleti gyakoriságait. A nullhipotézis teljesülése esetén az asztallap
vastagság megadott kategóriákba esési valószínűségeit a μ=50,2mm,σ=1,3mm paraméterű
normális eloszlásfüggvény segítségével számíthatjuk ki. E valószínűségek ismeretében a
megadott kategóriákba esési elméleti gyakoriságok kiszámíthatóak.
A megadott kategóriákba esési valószínűségek meghatározása:
Asztallap
vastagsága (d)
(mm)
d < 47
47 ≤ d < 49
49 ≤ d < 51
51 ≤ d < 53
53 ≤ d
?)53(
?)5351(
?)5149(
?)4947(
?)47(
5
4
3
2
1
Pp
Pp
Pp
Pp
Pp
A μ=50,2mm, σ=1,3mm paraméterű normális eloszlás helyett a standard normális
eloszlásfüggvénnyel számolunk.
Asztallap vastagsága (d)
(mm)
Asztallapok száma
(darab)
d < 47 3
47 ≤ d < 49 31
49 ≤ d < 51 105
51 ≤ d < 53 56
53 ≤ d 5
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
134
0156,09844,011538,213,1
2,50531)53(1)53(
2534,07308,09844,0
6154,01538,23,1
2,5051
3,1
2,5053)5351(
5528,01780,07308,09931,016154,0
9931,06154,03,1
2,5049
3,1
2,5051)5149(
1711,09931,08220,04615,219231,01
4615,29231,03,1
2,5047
3,1
2,5049)4947(
007,0993,014615,214615,23,1
2,5047)47(
5
4
3
2
1
PPp
Pp
Pp
Pp
Pp
A pi valószínűségek ismeretében az Fi elméleti gyakoriságok az ii NpF összefüggéssel
meghatározhatóak, ahol N=200.
Asztallap vastagsága (d)
(mm) if ip iF
d < 47 3 0,007 1,3834
47 ≤ d < 49 31 0,1711 34,2133
49 ≤ d < 51 105 0,5528 110,5732
51 ≤ d < 53 56 0,2534 50,7049
53 ≤ d 5 0,0156 3,1252
Megjegyzés: 15
1
i
ip
r=5
1493,4
1252,3
1252,35...
3834,1
3834,1322
1
2
2
r
i i
iisz
F
Ff
A kritikus érték meghatározása:
A szabadságfok: DF = r-l-1 = 5-0-1 = 4 (l=0, mert nem becsültünk egyetlen paramétert sem)
05,0
488,92
05,0
2 krit
Döntés a nullhipotézisről:
Mivel a számított érték kisebb, mint a kritikus érték, ezért a nullhipotézist elfogadjuk, azaz
5%-os szignifikancia szinten elfogadható az a feltételezés, hogy az asztallapok vastagsága
normális eloszlású valószínűségi változó 50,2mm várható értékkel és 1,3mm szórással.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
135
6.5.3 Feladat
A csokoládé, a vanília és az eper-fagylaltok iránti preferenciát vizsgálták kisiskolások
körében. 4 korcsoportban, összesen 289 kisiskolástól kérdezték meg, hogy melyik fagylaltok
kedveli a leginkább. A felmérés eredményét a következő táblázat összegzi:
1. osztály 2. osztály 3. osztály 4. osztály
Csokoládé 26 62 48 12
Vanília 8 18 12 6
Eper 16 42 28 11
5%-os szignifikancia szinten elfogadható-e az a feltételezés, hogy a fagylaltok iránti
preferencia független a kisiskolás korától?
Megoldás:
Hipotézisek meghatározása:
H0: a fagylalt íze és a korcsoport független egymástól
H1: a fagylalt íze és a korcsoport nem független egymástól
Kritikus érték meghatározása:
r=3; s=4; DF=(r-1)(s-1)=(3-1)(4-1)=6; =5%
592,122
05,0
2 kritikus
Számított érték meghatározása:
N
ffF
ji
ij
F11= 148*50/289 = 25,606
F21= 44*50/289 = 7,612
…
F34=97*29/289=9,734
809,1
734,9
734,911......
606,25
606,252622
1 1
2
2
r
i
s
j ij
ijij
szF
Ff
Döntés a nullhipotézisről:
χ 2
sz ≤ χ2
0,05 =>a nullhipotézis elfogadható, a fagylaltok iránti preferencia független a
kisiskolás korától.
1. osztály 2. osztály 3. osztály 4. osztály
Csokoládé26 62 48 12 148
25.606 62.478 45.066 14.851
Vanília8 18 12 6 44
7.612 18.574 13.398 4.415
Eper16 42 28 11 97
16.782 40.948 29.536 9.734
50 122 88 29 289
f·1 f·2 f·3 f·4
f1·
f2·
f3·
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
136
6.5.4 Feladat
Egy fémipari üzemben a 300mm névleges átmérőjű tárcsákat az “A” és “B” jelű
műszakokban gyártják. A két műszakban gyártott tárcsák átmérőjének hosszára vonatkozóan
elvégzett mérések eredményeit az alábbi táblázat összegzi. (A gyártott tárcsák átmérőjének
hossza normális eloszlású valószínűségi változónak tekinthető.)
"A" műszak "B" műszak
Minta elemszáma 11 10
Mintából számított átlag (mm) 300,1 299,6
Tapasztalati szórásnégyzet 0,8944 0,7745
5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az “A” műszakban gyártott
tárcsák átmérőjének várható értéke nagyobb, mint a “B” műszakban gyártottaké?
Megoldás:
A megoldás menete:
Két normális eloszlású valószínűségi változó várható értékei egyenlőségét
Kétmintás z-próbával tesztelhetjük, ha ismertek az elméleti szórások vagy a minták
elemszáma nagyobb 30-nál
Kétmintás t-próbával tesztelhetjük, ha az elméleti szórások ismeretlenek, de azok
egyenlősége feltételezhető
Esetünkben az elméleti szórások ismeretlenek és a minták elemszámai 30-nál nem
nagyobbak, ezért a kétmintás z-próba nem alkalmazható
F-próbát alkalmazunk az elméleti szórások egyenlőségének tesztelésére
Ha az F-próba eredményeként feltételezhető az elméleti szórások egyenlősége, akkor
kétmintás t-próbával teszteljük a várható értékek egyenlőségét
Hipotézisek felállítása:
A feladat szövege alapján a következő hipotézisek fogalmazhatók meg.
H0: az “A” műszakban gyártott tárcsák átmérőjének várható értéke egyenlő a “B” műszakban
gyártott tárcsák átmérőjének várható értékével.
H1: az “A” műszakban gyártott tárcsák átmérőjének várható értéke nagyobb, mint a “B”
műszakban gyártottaké
A tárcsák átmérőjének hossza normális eloszlású valószínűségi változó, ezért a feladatunk két
normális eloszlású valószínűségi változó várható értékei egyenlőségének tesztelése.
Számított érték meghatározása:
F-próba
H0: az “A” műszakban gyártott tárcsák átmérőjének szórása egyenlő a “B” műszakban
gyártott tárcsák átmérőjének szórásával.
H1: az “A” műszakban gyártott tárcsák átmérőjének szórása nagyobb, mint a “B” műszakban
gyártottaké.
1548,17745,0
9844,02
2
B
Asz
s
sF
α=5%
Számlálóhoz tartozó szabadságfok: 11-1=10
Nevezőhöz tartozó szabadságfok: 10-1=9
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
137
14,3kritF
Mivel Fsz< Fkrit, ezért a nullhipotézist 5%-os szignifikancia szinten elfogadjuk, azaz
elfogadjuk az elméleti szórások egyezését, és így a várható értékek egyenlőségét kétmintás t-
próbával ellenőrizhetjük.
Kétmintás t-próba:
H0: az “A” műszakban gyártott tárcsák átmérőjének várható értéke egyenlő a “B”
műszakban gyártott tárcsák átmérőjének várható értékével.
H1: az “A” műszakban gyártott tárcsák átmérőjének várható értéke nagyobb, mint a “B”
műszakban gyártottaké.
α=5%
DF=11+10-2=19
egyoldali próba, 729,195,0 t
2504,1
10/111/18376,0
6,2991,300
/1/12
BAp
BAsz
nns
xxt
Döntés a nullhipotézisről:
Mivel a számított érték az elfogadási tartományba esik, ezért 5%-os szignifikancia szinten
elfogadjuk a nullhipotézist, azaz az “A” és “B” műszakban gyártott tárcsák átmérőjének
várható értéke között nincs szignifikáns különbség.
6.5.5 Feladat
Egy palackozó üzemben az 1-es és 2-es gyártósorokon palackozott 1 liter névleges űrtartalmú
üdítőitalok töltési térfogatát vizsgálták. Egy-egy mintát vettek a két soron palackozott
üdítőitalokból, s a mintákból meghatározták a töltési térfogatok átlagát és tapasztalati
szórásnégyzetét. Az eredményeket az alábbi táblázatban rögzítették. (A töltési térfogat
normális eloszlású valószínűségi változónak tekinthető.)
1-es gyártósor 2-es gyártósor
Minta elemszáma 61 61
Mintából számított átlag 1,02 0,98
Tapasztalati szórásnégyzet 0,045 0,05
a.) 5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az 1-es gyártósoron
palackozott üdítőitalok töltési térfogatának várható értéke nagyobb, mint a 2-es gyártósoron
palackozottaké?
b.) 5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az 1-es gyártósoron
palackozott üdítőitalok töltési térfogatának szórása kisebb, mint a 2-es gyártósoron
palackozottaké?
8376,0
21011
7745,098944,010
2
11 222
BA
BBAAp
nn
snsns
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
138
Megoldás:
A megoldás menete:
Két normális eloszlású valószínűségi változó várható értékei egyenlőségét
Kétmintás z-próbával tesztelhetjük, ha ismertek az elméleti szórások vagy a minták
elemszáma nagyobb 30-nál
Kétmintás t-próbával tesztelhetjük, ha az elméleti szórások ismeretlenek, de azok
egyenlősége feltételezhető
Esetünkben az elméleti szórások ismeretlenek és a minták elemszámai 30-nál nagyobbak,
ezért a kétmintás z-próba alkalmazható
A kétmintás t-próba szintén alkalmazható, ha az elméleti szórások egyenlősége feltételezhető.
Ez utóbbi feltételezést F-próbával tesztelhetjük.
Hipotézisek felállítása:
A feladat szövege alapján a következő hipotézisek fogalmazhatók meg.
H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke egyenlő a
2-es gyártósóron palackozott üdítőitalok töltési térfogatának várható értékével (H0: 21 )
H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb,
mint a 2-es gyártósoron palackozottaké (H1: 21 )
A töltési térfogat normális eloszlású valószínűségi változó, ezért a feladatunk két normális
eloszlású valószínűségi változó várható értékei egyenlőségének tesztelése.
Számított érték meghatározása:
0136,198,002,1
61
05,0
61
045,0
2
2
2
1
2
1
21
n
s
n
s
xxzsz
Kritikus érték meghatározása:
05,0
65,1)1(1 z
Döntés a nullhipotézisről:
A próbastatisztika értéke az elfogadási tartományba esik, ezért a két gyártósoron palackozott
üdítőitalok várható töltési térfogatát 5%-os szignifikancia szinten egyenlőnek tekinthetjük.
Nem fogadható el az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési
térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké.
Másik lehetséges megoldás: kétmintás t-próba
Hipotézisek felállítása –F-próba
A feladat szövege alapján a következő hipotézisek fogalmazhatók meg.
H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának szórása egyenlő a 2-es
gyártósoron palackozott üdítőitalok töltési térfogatának szórásával ( 21 )
H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának szórása kisebb, mint a 2-
es gyártósoron palackozottaké ( 21 )
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
139
A töltési térfogat normális eloszlású valószínűségi változó, ezért a feladatunk két normális
eloszlású valószínűségi változó szórásai egyenlőségének tesztelése. A szórások
egyenlőségének tesztelésére F-próbát alkalmazunk.
Számított érték meghatározása – F-próba:
Mivel 2
2
2
1
ss , ezért
1111,1045,0
05,02
1
2
2
s
sFsz
Kritikus érték meghatározása – F-próba:
A számlálóhoz tartozó szabadságfok: 6012 n
A nevezőhöz tartozó szabadságfok: 6011 n
05,0
53,1kritF
Döntés a nullhipotézisről:
Mivel a számított érték kisebb, mint a kritikus érték, a nullhipotézis 5%-os szignifikancia
szinten elfogadható, így ezen a szignifikancia szinten elfogadható a szórások egyenlősége, s
nem fogadható el az az állítás, miszerint az 1-es gyártósoron palackozott üdítőitalok szórása
kisebb, mint a 2-es soron palackozottaké.
Mivel 5%-os szignifikancia szinten a szórások egyenlősége elfogadható, így az a.) feladat
kétmintás t-próbával is megoldható.
H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke egyenlő a
2-es gyártósóron palackozott üdítőitalok töltési térfogatának várható értékével (H0: 21 )
H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb,
mint a 2-es gyártósoron palackozottaké (H1: 21 )
Számított érték meghatározása – kétmintás t-próba:
0475,0
26161
05,060045,060
2
11
21
2
22
2
112
nn
snsns p
0136,1
61/161/10475,0
98,002,1
/1/1 21
2
21
nns
xxt
p
sz
Kritikus érték meghatározása – kétmintás t-próba:
DF= 61+61-2=120
05,0
66,195,0 t
A próbastatisztika értéke az elfogadási tartományba esik, ezért a két gyártósoron palackozott
üdítőitalok várható töltési térfogatát 5%-os szignifikancia szinten egyenlőnek tekinthetjük.
Nem fogadható el az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési
térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
140
Megjegyzés: A kétmintás z-próbánál, valamint a kétmintás t-próbánál a próbastatisztikák és
az elfogadási tartományok
0136,1szz 0136,1szt
A kapott értékek jól érzékeltetik, hogy a két próba végrehajtása a gyakorlat szempontjából
azonos eredményt hoz.
6.6 Elméleti kérdések
1. Mi a paraméteres és mi a nemparaméteres próbák közötti különbség? Mire
vonatkozhatnak a hipotézisvizsgálat alkalmazási feltételei?
2. Mi tekinthető független és mi páros mintának?
3. Jellemezze a megismert nemparaméteres próbákat! (típusok, alkalmazási feltételek,
nullhipotézisek)
4. Jellemezze a megismert egymintás próbákat! (típusok, alkalmazási feltételek,
nullhipotézisek)
5. Jellemezze a megismert kétmintás próbákat! (típusok, alkalmazási feltételek,
nullhipotézisek)
6. Jellemezze a megismert többmintás próbákat! (típusok, alkalmazási feltételek,
nullhipotézisek)
65,1szz 66,1szt
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
141
7. Korreláció- és regressziószámítás
7.1 Kapcsolatok jellege34
A társadalmi, a műszaki és a gazdasági jelenségek törvényszerűségeit nemcsak önmagunkban,
hanem a jelenségekkel szoros kapcsolatban lévő más tényezők összefüggésében is
vizsgálhatjuk. Az eddigi fejezetekben a véletlen tömegjelenségek leírását mindig egy már
bekövetkezett állapot valószínűségelméleti, matematikai-statisztikai vizsgálatával végeztük el.
Az ún. összefüggés-vizsgálatok során arra keressük a választ, hogy egy adott állapot milyen
tényezők hatására jött létre, az egyes tényezők milyen mértékben befolyásolják a jelenség
alakulását, a tényezők milyen szoros kapcsolatban vannak egymással.
Két ismérv között háromféle kapcsolat lehetséges:
1. a két ismérv független egymástól (ha a változók között nincs összefüggés, vagyis az
egyik ismérv szerinti hovatartozásból nem következtethetünk a másik ismérv
változatára)
2. a két ismérv között sztochasztikus kapcsolat van
3. a két ismérv között függvényszerű (determinisztikus) kapcsolat van (ha az egyik ismérv
változata minden esetben a másik ismérv adott változatával fordul elő, azaz az egyik
ismérv által felvett ismérvváltozat ismeretében egyértelműen lehet következtetni a
másik ismérv által felvett értékre)
A sztochasztikus kapcsolat a függetlenség és a determinisztikus kapcsolat között foglal helyet.
Ilyen kapcsolat esetén az egyik ismérv változathoz való tartozásból csak tendenciaszerűen,
valószínűségi jelleggel következtethetünk a másik ismérvváltozatra. Más szóval a
sztochasztikus kapcsolat lényege az, hogy a megfigyelt sokaság egységeinek egyik ismérv
szerinti milyenségét, hovatartozását ismerve levonható ugyan bizonyos következtetés az
egységek másik ismérv szerinti hovatartozásáról, de ez a következtetés nem teljesen
egyértelmű (pl. a munkanélkülivé válás esélye és az iskolai végzettség közötti kapcsolat vagy
a biztonsági öv használata és a baleset súlyossága közötti kapcsolat).
Az ismérvek közötti kapcsolat elemzésekor a következő három kérdésre keressük a választ:
1. Van-e kapcsolat a vizsgált ismérvek között?
2. Milyen szoros a kapcsolat? (a két szélsőség, vagyis a függetlenség és a függvényszerű
kapcsolat között hol helyezkedik el; egy kapcsolat annál lazább/gyengébb, minél
közelebb van a függetlenséghez, és annál erősebbnek/szorosabbnak mondható, minél
közelebb áll a függvényszerű kapcsolathoz)
3. Hogyan lehet felhasználni az ismérvek közötti kapcsolat természetének ismeretét arra,
hogy egy adott egység bizonyos ismérvek szerinti milyenségéből következtessünk
annak más ismérvek szerinti hovatartozására?
E kérdések megválaszolásának módja attól függ, hogy a sokaság egységeit egyidejűleg hány
ismérv, illetve milyen fajta (milyen mérési szinten mért változók) szerint vizsgáljuk.
34
Az alfejezet Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996 felhasználásával
készült.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
142
Most kizárólag két ismérv fajtája (a változók mérési szintje) szerint a következő eseteket
különböztetjük meg:
asszociációs kapcsolat: az egymással kapcsolatban álló ismérvek minőségi vagy
területi ismérvek (mindkét változó nominális mérési szintű)
rangkorrelációs kapcsolat: mindkét változó sorrendi skálán mérhető
vegyes kapcsolat: az egyik vizsgált ismérv mennyiségi ismérv, a másik területi vagy
minőségi ismérv (az egyik változót intervallum- vagy arányskálán, a másik változót
meg nominális skálán mértük)
korrelációs kapcsolat: mindkét vizsgált ismérv mennyiségi ismérv (mindkét változó
intervallum- vagy arányskálán mérhető)
E négy eset megkülönböztetése azért fontos, mert az ismérvek közötti kapcsolat elemzésének
három alapvető kérdése a megjelölt esetekben más-más eszközökkel vizsgálható. Az
asszociációs kapcsolatról már szóltunk a függetlenségvizsgálat során, a vegyes kapcsolatot
elemeztük a heterogén sokaságok jellemezése kapcsán. A rangkorrelációs kapcsolat elemzése
nem tárgya jegyzetünknek. Most a korrelációs kapcsolat bemutatása és jellemzése a
következő alfejezetek tárgya.
7.2 A korrelációs kapcsolat szemléltetése
A nagyobb számítási munkát igénylő matematikai módszerek alkalmazása előtt a kapcsolat
létezésére vonatkozó szakmai feltevésünket grafikus ábrázolással célszerű szemléltetni. Az
ún. szóródás-diagramon az xi; yi értékpárok által meghatározott pontdiagram, illetve
empirikus regressziófüggvény szemlélteti a kapcsolatot. A diagram segítségével elsődleges
információt szerezhetünk a kapcsolat meglétéről vagy hiányáról, a kapcsolat szorosságáról,
jellegéről és irányáról is (lásd 27. ábra).
27. ábra: Pontdiagramok
3 2 1 0-1-2-3
3
2
1
0
-1
-2
-3
Pozitív korreláció
R-Sq = 62.5 %
Y = -8.6E-02 + 0.690286X
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
Negatív korreláció
Y = 5.07E-02 - 0.647872X
R-Sq = 70.9 %
-3 -2 -1 0 1 2 3
0
10
20
30
40
Nem lineáris korreláció
Y = 12.0958 + 6.07684X + 1.16686X**2
R-Sq = 88.4 %
-2 -1 0 1 2
-3
-2
-1
0
1
2
3
Nincs korreláció
Y = -7.4E-02 + 0.208348X
R-Sq = 3.4 %
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
143
Ha a pontok vonulási iránya (képzeletbeli tengelye) felfelé mutat, pozitív korrelációról
beszélünk (növekvő xi értékekhez növekvő yi értékek tartoznak), ellenkező esetben a
korreláció negatív. A görbevonali korreláció azt jelzi, hogy nem lehet minden korrelációt
egyértelműen pozitívnak, vagy negatívnak tekinteni. Ha a pontok közel helyezkednek el
egymáshoz (ill. a kapcsolat jellegét mutató függvényhez) szoros, ha távolabb, gyengébb
kapcsolatot sejthetünk az ismérvek között.
7.3 Korreláció- és regresszióelemzés alapjai
A korreláció- és regressziószámítás a statisztika két, egymással szorosan összefüggő területét
képezi. Ebben a fejezetben a mennyiségi ismérvek közötti kapcsolatvizsgálat eszközeivel
fogunk megismerkedni.
A mennyiségi ismérvek közötti sztochasztikus összefüggést korrelációnak nevezzük.
Ilyen összefüggés van pl. a háztartások egy főre jutó jövedelme és egy főre jutó fogyasztása
között, vagy pl. a termékek ára és a termék minőségét jellemző paraméterek között. A
korrelációs kapcsolatok statisztikai módszerekkel végzett elemzésével nagymértékben
gazdagíthatjuk a jelenségeikről és összefüggéseikről alkotott ismereteinket.
A korrelációszámítás intervallum-, vagy arányskálán mért változók kapcsolatainak
vizsgálatával foglalkozik, elemzi a kapcsolat meglétét, szorosságát és irányát.
A regressziószámítás az összefüggésekben lévő tendenciát vizsgálja, és a kapcsolat
természetét valamilyen függvénnyel írja le.
Így a kapcsolat megléte esetén annak formáját, jellegét, minőségi jellemzőit vizsgálja, és
alkalmas arra, hogy a változók közötti kapcsolat segítségével mélyebb ismereteket szerezzünk
a vizsgált változókról, illetve hogy a kapcsolat felhasználásával statisztikai következtetéseket
vonjunk le. Hangsúlyozni kell azonban, hogy a korrelációs és regressziós számítás a
kapcsolatot jellemzi, de semmit nem mond az oksági viszonyról. Tehát két, vagy több változó
közötti sztochasztikus kapcsolat megállapításából nem következik, hogy a változók oksági
összefüggésben vannak, azaz, hogy egyik tényező változása oka a másik tényező változásának.
Az oksági kapcsolatot csak alapos szakmai és statisztikai vizsgálattal lehet megállapítani.
Egy adott korrelációs összefüggés elemzésénél általában mind a kétfajta vizsgálódásra
szükség van, mivel a regresszió- és korrelációszámítással nyert információk más kérdésekre
adnak választ, kiegészíthetik egymást.
Általában megkülönböztetünk kétváltozós és többváltozós eseteket.
Kétváltozós esetben két változó kapcsolatát vizsgáljuk, mely két változó közül az egyik (legyen
X) magyarázza a másik Y-nal jelölt eredményváltozó alakulását. A kétváltozós regresszióban
így egy magyarázó változó áll szemben egy eredményváltozóval.
Többváltozós esetben abból indulunk ki, hogy egy eredményváltozót több magyarázó változó
ír le.
A regressziószámítás lényege az, hogy egy jól definiált sokaságban két vagy több változó
között sztochasztikus kapcsolatot tételezünk fel, és ezt a kapcsolatot szeretnénk leírni és
megragadni annak érdekében, hogy a vizsgált sokaság tulajdonságait statisztikailag jobban
megismerjük. Általában azzal a helyzettel állunk szemben, hogy a megfelelő sokasági
összefüggéseket mintákból kell meghatározni.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
144
A regressziószámítás során feltételezzük, hogy eredményváltozónk (Y) sztochasztikus
kapcsolatban áll a magyarázó változókkal (X). Ennek általános formája:
),,...,,...,,( 21 kj XXXXfY
Ebben az esetben k számú magyarázó változót feltételeztünk, az ε maradékváltozó pedig azt
fejezi ki, hogy a kapcsolat sztochasztikus, azaz a függvény szerves részét képezi egy
valószínűségi változó is. Ennek az általános függvényformának a leggyakoribb és
legkényelmesebben alkalmazható formája a lineáris regresszió.
A többváltozós lineáris regressziós függvény általános alakja:
kkjj XXXXY ......22110
Ebben az alakban k számú magyarázó változó, egy eredményváltozó és egy maradékváltozó
van. A modellben k+1 számú paraméter van, hiszen a legelső paraméter az egyenlet konstans
változójának együtthatója. Ezt az általános k+1 változós modellt gyakran alkalmazzuk a k=1
esetre, amikor tehát egy magyarázó változó, egy eredményváltozó és két paraméter jellemzi a
kapcsolatot.
Ezt az esetet nevezzük kétváltozós lineáris regressziós modellnek:
XY 10
Feltételezzük tehát, hogy az X magyarázó változó és az Y eredményváltozó között lineáris
sztochasztikus kapcsolat van, és ez a kapcsolat a fenti formulával írható le. Az összefüggés
sztochasztikus jellegéből következik, hogy pl. ha egy rakomány elszállításánál vizsgáljuk a
szállítási idő és a távolság kapcsolatát, a szállítási távolság bármely rögzített értékéhez tartozó
menetidők nem lesznek azonosak. A szállítás idejét ugyanis a távolságon kívül befolyásolja
pl. a rakomány súlya, a gépkocsi típusa, az időjárási és útviszonyok, a forgalmi helyzet stb.
Az ε az X-szel együtt fellépő véletlen hatás.
7.3.1 A kétváltozós regressziós modell
A továbbiakban tehát az XY 10 összefüggést szeretnénk egy n elemű halmazból
(mintából) felépíteni.
Az X magyarázó és Y eredményváltozó közötti összefüggések lényegének megragadásában
fontos szerepet játszik a grafikus ábrázolás. Kétváltozós kapcsolat esetén könnyen
elkészíthető az ilyen grafikus ábra, hiszen a derékszögű koordináta-rendszer vízszintes
tengelyére az X magyarázó változó értékeit, a függőleges tengelyére pedig az Y
eredményváltozó értékeit mérjük fel. Egy ilyen példát mutat az alábbi ábra:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
145
28. ábra: Példa grafikus ábrázolásra egy kétváltozós regressziós modellben
A változók (X magyarázó és Y eredményváltozó) közötti összefüggés feltárásához fontos,
hogy a fenti ábrán látható pontok vonulási irányát valamilyen ismert függvénnyel fejezzük ki,
vagyis lényegében arról van szó, hogy keressük a pontokra illesztett egyenes egyenletét.
Ha a pontok vonulási irányát egy egyenessel jellemezzük, akkor a változók közötti
összefüggést leíró függvényt lineáris regressziós függvénynek nevezzük. Az ábrán a
gépkocsik által megtett km (X magyarázó változó, lásd vízszintes tengely) és az eladási ár (Y
eredményváltozó, lásd függőleges tengely) közti kapcsolat látható, ami alapján ránézésre az
állapítható meg, hogy a gépkocsi eladási ára és a megtett km között negatív, lineáris jellegű
sztochasztikus kapcsolat van, azaz az árban egyéb tényezők is szerepet játszanak, melyeket itt
összességében a véletlennel azonosítunk.
A lineáris regressziós függvény meghatározása során arra törekszünk, hogy olyan egyenessel
jellemezzük a változók közötti kapcsolatot, amely legjobban illeszkedik a megfigyelésből
származó X, Y adatpárokhoz. A sztochasztikus kapcsolatnál azonban számos egyenes szóba
jöhet a kapcsolat jellemzésére, ezek közül azt az egyenest célszerű választani, amelyik
esetében a pontoknak a regressziós egyenestől mért átlagos távolsága a legkisebb. Ehhez a
legkisebb négyzetek becslési módszerét használják a leggyakrabban (lásd 4.4 A pontbecslés
módszerei c. alfejezetet).
A függő vagy eredményváltozó (Y) és a magyarázó változó (X) kapcsolatát n megfigyelésből
származó adatpár alapján vizsgáljuk.
A függő és a magyarázó változó mintabeli értékei:
nYYY ,...,, 21
nXXX ,...,, 21
A minta alapján a becsült regressziófüggvény:
XY 10ˆ
A legkisebb négyzetek módszerének értelmében keressük a regressziófüggvény azon β0, β1
paramétereinek azon becslését ( 0 és 1 ), amely mellett a megfigyelésből származó és a
regressziófüggvény alapján becsült Y értékek különbségének az eltérésnégyzet-összege a
legkisebb.
A futásteljesítmény és az eladási ár kapcsolata
0
200
400
600
800
1000
1200
1400
1600
0 20 40 60 80 100 120 140
ezer km
ezer
Ft
A futásteljesítmény és az eladási ár kapcsolata
0
200
400
600
800
1000
1200
1400
1600
0 20 40 60 80 100 120 140
ezer km
ezer
Ft
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
146
min)ˆ( 2
1
i
n
i
i YY
A regressziófüggvényt behelyettesítve a célfüggvénybe:
min)ˆˆ( 2
10
1
i
n
i
i XY
A 0 és
1 paramétereket a szélsőérték-számítás szabályai alapján lehet meghatározni. Az
előző egyenlet 0 és
1 szerinti parciális deriváltjait vesszük, és ezeket nullával tesszük
egyenlővé. Így jutunk el az ún. normál egyenletekhez.
ii xnY 10ˆˆ
2
10ˆˆ iiii XXYX
E normál egyenletek megoldásával a 0 és 1 paraméterek meghatározhatóak.
Az egyenletrendszer megoldása különböző módszerekkel végezhető el. A leggyakrabban
alkalmazott módszer az, hogy a fenti két egyenletet úgy transzformáljuk, hogy az eredeti X és
Y változókat az átlaguktól vett eltéréseikkel, vagyis XXd x és YYd y eltérésekkel
helyettesítjük.
A normál egyenletek e transzformált változókkal felírva:
xy dnd 10ˆˆ
2
10ˆˆ xxyx dddd
Mivel 0yx dd , a 1 paraméter:
n
i
x
n
i
yx
n
i
n
i
d
dd
XX
YYXX
1
2
1
1
2
11
)(
)()(
A 0 paraméter:
XY 10ˆˆ
A regressziófüggvény:
XY 10ˆˆˆ
A 1 regressziós együttható jelentése az, hogy a magyarázó változó egységnyi növekedése a
becsült eredményváltozó átlagosan hány egységnyi növekedésével/csökkenésével jár együtt.
Az ún. tengelymetszet paraméter, vagyis 0 jelentése az, hogy ha a magyarázó változó 0
értéket vesz fel, a modell szerint mekkora lesz az eredményváltozó értéke.
A regressziós együtthatók természetes mértékegységben jellemzik a két változó kapcsolatát.
Előfordul azonban, hogy a kapcsolat jobban leírható olyan mutatóval, amelyik azt mondja
meg, hogy a magyarázó változó 1%-os növekedése az eredményváltozó hány %-os
növekedésével/csökkenésével jár együtt. Erre a célra használható a rugalmasság mutatója:
Y
X
X
Y
X
X
Y
YXYEL
),(
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
147
Ezt a formát szokták ívrugalmasságnak is nevezni, a gyakrabban használt pontrugalmasság
végtelen kis elmozdulás esetén vizsgálja a változók kapcsolatának %-os formában kifejezhető
mutatószámát:
Y
X
dX
dYXYEl ),(
Kétváltozós esetben az előző egyenletbe beírva a becsült regressziós paramétereket, a
következő egyszerű formát kapjuk:
x
x
y
xxyEl
10
11
ˆˆ
ˆ
ˆ
ˆ),ˆ(
Az eredmény értékelésekor arra kell figyelni, hogy az nem állandó, hanem x függvénye, azaz
lineáris regresszió esetén a változók kapcsolatát %-os formában kifejező rugalmassági mutató
értéke attól is függ, hogy az elmozdulás milyen szintről történik. A rugalmassági együttható
értelmezése: az x változó adott szintről kiinduló 1%-os növekedése mekkora növekedés jelent
y -ban.35
A következő lépés az elemzés során a regressziós függvényértékek meghatározása. Ez a
paraméterbecslések után adódik, hiszen:
xy 10ˆˆˆ
Ez az egyenlet valójában a mintából számított regressziós függvényt adja meg, ami maga az
ismeretlen és keresett sokasági regressziós függvény becslése. Csak a mintán belül maradva
azonban ez a függvény alkalmas a megfigyelési pontokhoz tartozó regressziós
függvényértékek számítására. Ennek tartalma az, hogy az adott megfigyelési pontban (az
annak megfelelő x helyen) becsült modellünk szerint mi lenne a vizsgált eredményváltozó
értéke. A függvény segítségével meghatározhatjuk az eredményváltozó értékét olyan x
helyeken, amelyek belül vannak ugyan a vizsgálat tartományán, de közvetlen megfigyelés
nincs rájuk. Ekkor interpolációt végzünk. Ha olyan pontokra becsülünk a függvénnyel,
amelyek kívül esnek a megfigyelés tartományán, akkor extrapolációról beszélünk. Ezt
bizonyos esetekben előrejelzésnek tekintjük, ami a regressziós modellszámítások fontos
végeredménye.
29. ábra: Interpoláció és extrapoláció
35
Leggyakrabban keresleti, fogyasztási függvényeknél használják, a fogyasztás becslésekor, tervezésekor fontos
mutatószám az ár-, ill. jövedelemrugalmassági együttható.
x
Megfigyelési tartomány
Interpoláció
Extrapoláció
x
Megfigyelési tartomány
Interpoláció
Extrapoláció
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
148
A becsült regressziós függvény segítségével a megfigyelési pontokban meghatározhatjuk a
reziduumok értékeit:
iii eyy ˆ
A reziduumok a mintából származó megfigyelések és a regressziófüggvény által becsült
függvényértékek közötti különbséget adják.
30. ábra: A reziduumok szemléltetése
Az ei maradékok igen fontos szerepet játszanak a modellezésben: megmutatják, hogy a modell
mennyire tudott közel jutni a valósághoz, hiszen ei kis értékei jó, nagy értékei pedig gyenge
illeszkedésre utalnak, és ez egy igen fontos kritérium a modell megítélésekor.
Ezért célszerű az ei maradékokból egy olyan mutatót képezni, amelyik tömören, egyetlen
számértékbe sűrítve tartalmazza az illeszkedés jellemzőit. A maradékok összege erre nem
alkalmas, hiszen azok algebrai összege 0. Leggyakrabban négyzetösszegüket képezik, ami
valójában az eredeti megfigyelések és a becsült modellértékek eltérésének négyzetösszege:
n
i
ieSSE1
2
Az illeszkedés jellemzésére ennek a mutatónak a normált alakját használják. Ha ezt a
négyzetösszeget n-nel elosztjuk, akkor a mintán belüli reziduális varianciát kapjuk meg,
aminek négyzetgyöke a reziduális szórás:
n
e
s
n
i
i
e
1
2
Reziduális szórás (regressziós becslés abszolút hibája): ez a mutató egyfajta szóródásmutató,
és a regressziós becslés során elkövetett hiba egyik gyakran alkalmazott mérőszáma. Kifejezi,
hogy a regressziós becslések átlagosan mennyivel térnek el az eredményváltozó megfigyelt
értékeitől.
A reziduális szóródás becslésére az alábbi torzítatlan becslést is használják:
iy
iii eyy ˆ
xix
y
yi
ei2 minimum
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
149
2n
)yy(
2n
e
s
n
1i
2
ii
n
1i
2
i
e
Az
es az Y egyedi értékeknek az Y regressziós függvény szerinti érték körüli ingadozását
fejezi ki. Értékét a gyakorlatban nem ismerjük, ezért a mintabeli adatok alapján becsüljük.
Ebben a képletben yye iiˆ ”maradéktag”, vagy más néven becsült reziduum,
n
i
ie1
2 az a
reziduális négyzetösszeg, amelynek nagyságát a legkisebb négyzetek módszerével történő
becslés során minimalizáljuk. Elméleti megfontolásból, a torzítatlanság követelményének
teljesülése végett a négyzetösszeget a szabadságfokkal korrigáljuk, ami jelen esetben (n-2).
Így elérjük, hogy
es torzítatlan becslőfüggvénye lesz az alapsokasági varianciának.
Mivel az analitikus regresszió az elméleti regresszió mintából számított becslése, ezért a
regressziófüggvény paraméterei ( 10ˆ,ˆ ) a valóságos β0 és β1 paraméterek becsült értékei. A
mintából számított regressziós paraméterek – mint minden reprezentatív mintából származó
becsült paraméter – szóródnak az elméleti értékek körül. Ezt a szóródást az együtthatók
standard hibái fejezik ki. Így a regressziós együtthatók hibái:
A β0 (vagy b0) paraméter standard hibája:
2
x
2
eˆd
x
n
1ss
0
A β1 (vagy b1) paraméter standard hibája:
2
x
eˆ
d
ss
1
A hiba másik forrása az, hogy a vizsgált ismérvek között sztochasztikus kapcsolat van (lásd
es ). Y-nak X szerinti regressziós becslése nem a tényleges Y értékeket, hanem annak csak az
X-től függő részét adja. A tényleges és a regressziófüggvénnyel becsült értékek eltérése miatt
beszélhetünk a regressziófüggvény, illetve a regresszióértékek hibájáról. Az eltérések
nagyságát értelemszerűen befolyásolja a kapcsolat szorossága. Szoros korreláció esetén a
becsült értékek jól közelítik az eredményváltozó értékeit, laza kapcsolatnál viszont a kétféle
érték között – az Y-t befolyásoló egyéb tényezők jelentős súlya miatt – nagy eltérések
mutatkoznak.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
150
7.3.2 Korrelációs mérőszámok
A következő lépés a kapcsolat szorosságának és irányának a vizsgálata a mintán belül. Ennek
során arra keressük a választ, hogy a két változó milyen szoros és milyen irányú kapcsolatban
áll egymással.
7.3.2.a Kovariancia
A mintából számított (becsült) kovariancia a magyarázó és az eredményváltozó között:
n
ddyx
yx),cov(
A vizsgált ismérvek függetlensége esetén a kovariancia 0 értéket vesz fel. Ha az ismérvek
pozitív korrelációs kapcsolatban állnak egymással, vagyis X változó átlagnál magasabb
(alacsonyabb) értékéhez az Y változónak is általában átlagnál magasabb (alacsonyabb)
értéke tartozik, a kovariancia értéke pozitív előjelű lesz. Negatív korrelációnál a kovariancia
előjele is negatív, mert ilyenkor tendenciájában igaz lesz, hogy amennyiben X értéke átlag
alatti, Y értéke átlag feletti, azaz az átlagtól vett eltérések szorzata általában negatív lesz.
7.3.2.b Lineáris korrelációs együttható
A kovariancia mérőszáma a függetlenséget is jól jelzi, nagyságát azonban a változók
mértékegysége befolyásolja. Célszerű a kapcsolat erősségének a mérésére normált, 0 és 1
intervallumban elhelyezkedő mérőszámot alkalmazni. Ilyen mérőszámot kapunk, ha a
kovarianciát standardizált változók alapján számítjuk.
A korábbiakhoz hasonlóan állíthatjuk elő a két változó mintabeli varianciáját:
n
dsx
x
x
2
2)var( és n
dsy
y
y
2
2)var(
Ezek segítségével felírható a lineáris korrelációs együttható a két változóra (ha
)0)var()var( yx
22)var()var(
),cov(
yx
yx
dd
dd
yx
yxr
A mintabeli „r” korrelációs együttható olyan -1 és +1 között elhelyezkedő mutatószám,
amelyik 1-hez közeli abszolút értékei szoros, közel lineáris függvényszerű kapcsolatot, 0 körüli
értékei a lineáris kapcsolat hiányát, ún. korrelálatlanságot jelentik.
A korrelációs együttható pozitív értékei egy irányban mozgó, míg a negatív értékei ellentétes
irányban mozgó változókat jelentenek. A korrelációs együttható a két változó kapcsolatának
mérőszáma.
7.3.2.c Determinációs együttható
A következő mutató a kétváltozós regressziós modell egészének illeszkedését méri. Ennek
származtatásához írjuk fel a kétváltozós lineáris modellre vonatkozó varianciafelbontást. A
belső négyzetösszeg szerepét a megfigyeléseknek a regressziós egyenestől vett eltéréseiből
számított négyzetösszeg veszi át, a külső négyzetösszeget pedig a regressziós egyenes
pontjainak saját átlaguktól vett eltérése határozza meg. A kettő összegeként adódik a teljes
négyzetösszeg.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
151
Ebben az esetben a regressziós egyenes az, ami a csoportosítást végzi: a regressziós
egyenesnek a megfelelő xi pontokhoz tartozó értékei alkotják a csoportátlagokat. Ha a
megfigyelések pontosan rajta vannak az egyenesen, akkor a belső négyzetösszeg 0, és a teljes
négyzetösszeget kizárólag a külső tényező, azaz a regresszió magyarázza. Ha ellenben a
megfigyelések jócskán eltérnek a regressziós egyenestől, akkor a belső eltérés-négyzetösszeg
nagy lesz, és tekintve, hogy a teljes négyzetösszeg (SST) állandó, a külső viszonylag
kevesebbet magyaráz. A külső négyzetösszeget így regressziós, vagy magyarázott
négyzetösszegnek (SSR) is szokták nevezni, míg a belső négyzetösszeg az, amit nem tudunk
a regresszióval magyarázni, a maradék-vagy hibanégyzetösszeg (SSE).
SSRSSESST
Ebből képezhető a determinációs együttható, ami megmutatja, hogy a regressziós modellel
az yi adatokban meglévő variancia (bizonytalanság) hány %-a szüntethető meg:
SST
SSE
SST
SSRR 12
Ezt a %-os értelmezésű mutatót a modell magyarázó erejének szokás nevezni. Értékei 0 és 1
között mozoghatnak: nagy, 1-hez közeli értékei jó illeszkedést, nagy magyarázó erőt, kis, 0-
hoz közeli értékei gyenge modellteljesítményt jeleznek.
7.3.3 Intervallumbecslés
A regressziós modell feltételeinek rögzítése és a paraméterek becslőfüggvényének
kidolgozása után lehetővé válik, hogy összefüggést teremtsünk a mintából becsült
paraméterek és az elméleti, alapsokasági paraméterek között. Így módunkban áll a
gyakorlatban egyetlen mintából következtetni az alapsokasági paraméterekre. A regressziós
paraméterek pontbecslése után intervallumbecslés is adható.
Intervallumbecslést szoktunk adni a paraméterekre, és gyakrabban pedig a függvényértékekre
(ez utóbbiaktól mi eltekintünk). Ami a paramétereket illeti, a priori felírhatók a
becsléselméletből ismert összefüggések.
1ˆ2/1111 s)2n(tˆ)(Int
0ˆ2/1001 s)2n(tˆ)(Int
A konfidencia intervallumok értelmezése teljesen analóg azzal, amit korábban megismertünk:
az itt számított intervallumok 95%-os megbízhatósággal lefedik az ismeretlen sokasági
paramétert (α=5% mellett). A 95%-os megbízhatóság annyit jelent, hogy ismételt mintavétel
esetében az esetek 95%-a olyan intervallumot eredményez, amelyik tartalmazza az ismeretlen
jellemzőt.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
152
7.3.4 A regressziófüggvény eredményeinek ellenőrzése: hipotézisvizsgálatok
A regressziófüggvény illesztésének logikai feltétele, hogy a vizsgált változók között
korrelációs kapcsolat legyen. Korreláció fennállása esetén a függvény regressziós
együtthatója 0-tól különbözik. Előfordulhat azonban, hogy a korreláció hiánya esetén sem
kapunk pontosan 0 értéket. A véletlen mintából származó eredményeket ugyanis a véletlen
hatások is befolyásolják. E véletlen hatások következtében a regressziós együttható értéke
akkor is eltérhet 0-tól, ha a két változó között semmilyen kapcsolat nincs. Ha az elméleti
regressziót analitikus függvénnyel a mintából közelítjük, felvetődik a paraméterek
hipotézisellenőrzésének gondolata.
Így amennyiben a regressziószámítást mintavételi keretek közt értelmezzük, lehetőségünk van
arra, hogy a mintából ellenőrizzünk egy sor feltevést, amelyek a számítások eredményének
értékelését segítik. Hipotézisvizsgálattal ellenőrizhető az, hogy a magyarázó változó
kapcsolatban áll-e az eredményváltozóval, annak magyarázatához érdemben hozzájárul-e. A
másik fontos kérdés, hogy a magyarázó változó elegendően magyarázza-e az
eredményváltozót, kell-e esetleg azon gondolkozni, hogy a jelenség jobb leírása érdekében
további változókat kell felkutatni és beépíteni a modellbe. E két kérdés mellett fontos azt is
vizsgálni, hogy vajon a modellezésnek a maradékváltozóra tett feltételei megerősíthetők- vagy
elutasítandók-e (homoszkedaszticitás, autokorreláció mentesség, normális eloszlás). Ezek
azok az alapkérdések, amelyet minden regressziós modellben vizsgálni kell.
7.3.4.a Paraméterek szeparált tesztelése
Itt arra keressük a választ, hogy a paraméterek eleget tesznek-e valamiféle előre
meghatározott korlátozásnak. Általában a hipotéziseink úgy írhatók fel, hogy )0(
110 :H és )0(
110 :H
ahol az általunk feltételezett paraméterérték a )0(
1 -ban jelenik meg. Ezt a próbát akkor
használhatjuk, ha a regressziós függvény sokasági meredekségére van ellenőrizni kívánt
feltevésünk.
Azonban többször ennél egyszerűbb a kérdés: ha ugyanis azt feltételezzük, hogy 0)0(
1 ,
akkor a nullhipotézis elfogadása azt jelenti, hogy a meredekségi paraméter sokasági értéke
lehet 0, ami azt jelenti, hogy X alakulása nem befolyásolja Y-t, azaz a két változó között nincs
a sokasági szinten is fennálló lineáris kapcsolat.
Ez egyben azt is jelenti, hogy a kétváltozós regressziós modell nem jó, az eredményváltozót
érdemesebb a saját átlagával, mintsem az aktuális X-szel becsülni. E próba hipotézisei:
0:H 10 és 0:H 10
A paraméterek tesztelése t-próbával történik.
1
1ˆ
st
A próba menete az, hogy mintából kiszámoljuk a becsült paraméterértékeket, annak standard
hibáját, és amennyiben ez a hányados a kritikus t-értékeken kívüli (elutasítási) tartományba
esik, a nullhipotézist elutasítjuk, azaz elfogadjuk a kapcsolat létét, és megerősítjük X-et
magyarázó változó szerepében. A számított értéket adott α szignifikancia szinten és (n-2)
szabadságfokhoz tartozó kritikus értékhez viszonyítjuk. Amennyiben az empirikus t-érték az
elfogadási tartományba esik, akkor nincs okunk elutasítani a nullhipotézist, ez pedig azt
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
153
jelenti, hogy elvetjük az X-et, mint magyarázó változót, és/vagy másik magyarázatot
keresünk, vagy pedig lemondunk a regressziós magyarázatról.
Elvben teljesen hasonló t-próba készíthető a másik (β0) paraméterre is, bár ennek jelentősége
kisebb, mivel nem tulajdonítanak neki magyarázó erőt a modellben, mint illeszkedést javító
paramétert általában megtartják akkor is, ha sokasági értéke nem különbözik szignifikánsan 0-
tól.
7.3.4.b Varianciaanalízis alkalmazása a regressziószámításban
A regressziós együttható tesztelése mellett magának a regressziófüggvénynek a
hipotézisellenőrzése is elvégezhető. Ez varianciaanalízissel történhet.
A másik kérdés, amit hipotézisvizsgálattal szeretnénk megválaszolni az az, hogy vajon a
regresszió minden hatást megragad-e, és a modell által adott magyarázat elégséges-e?
Lineáris modellek esetében ez a kérdés általában úgy merül fel, hogy az R2 determinációs
együttható elegendően nagy-e? Mivel kétváltozós esetben a determinációs együttható a
korrelációs együttható négyzetével egyenlő, a determinációs együttható tesztelése is
ekvivalens lesz annak vizsgálatával, hogy a két változó között van-e szignifikánsan 0-tól
különböző kapcsolat. Ez pedig azt jelenti, hogy kétváltozós lineáris modell esetében ezt a
feladatot a t-próba segítségével már megoldottuk.
Most azonban mégis bemutatunk egy másik tesztet, ami varianciaanalízisen alapul. Ennek
alkalmazása kétváltozós esetben egyszerű, többváltozós esetben elválik a t-próbától és a
modell jóságát, az illeszkedést vizsgálja.
Elsőként írjuk fel az eredményváltozó és a magyarázó változó közötti összefüggést az i-edik
megfigyelésre:
iii eyy ˆ
iii exy 10ˆˆ
(vagyis a megfigyelt Y érték (X=xi) = az xi-hez tartozó regressziós becslés + a maradéktag)
Megállapíthatjuk, hogy maradéktag összege nulla, ez az első (korábban bemutatott)
normálegyenlet átrendezése után belátható:
n
i
n
i
iii exy1 1
10 )ˆˆ(
Ebből következik, hogy:
n
i
n
i
n
i
iii yxy1 1 1
10ˆ)ˆˆ(
Ez azt jelenti, hogy a regressziós becslések összege és ebből következően átlaga is
megegyezik az eredményváltozó tényleges értékeinek összegével és átlagával. Az induló
összefüggésünk, tehát az átlagtól vett eltérések alapján is felírható:
)ˆ()ˆ()( iiii yyyyyy
Ez fontos összefüggés számunkra, mert kifejezi, hogy az eredményváltozó yi megfigyelt
értékeinek átlagtól való eltérése két komponenssel magyarázható, egyrészt a becsült
regressziófüggvény szóródásával, másrészt a maradéktag ingadozásával.
Az eltérések összetevőkre bontása az eltérés-négyzetösszegekre is felírható:
n
i
ii
n
i
n
i
ii yyyyyy1
2
1 1
22 )ˆ()ˆ()(
SSESSRSST
Különleges jelentősége van a reziduális négyzetösszegnek (SSE), mivel a megfigyelt yi
értékeknek a regressziófüggvény körüli szóródását fejezi ki. Ha SSE=0, ez azt jelenti, hogy a
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
154
függő változó teljes varianciája megmagyarázható a magyarázó változó segítségével. Minden
megfigyelt yi érték a regressziófüggvényen helyezkedik el. Egyéb tényezőknek nincs hatása
az eredményváltozóra, vagyis az ismérvek közötti kapcsolat determinisztikus. Ha SSE≠0,
akkor a két ismérv között sztochasztikus kapcsolat áll fenn. Minél nagyobb a reziduális
négyzetösszeg értéke, annál nagyobb a becslés hibája, mert a modellben nem szereplő egyéb
magyarázó változók hatása annál nagyobb szerepet játszik a függő változó szóródásában.
Nullhipotézisünk szerint a regresszió nem érvényes, a (kétváltozós esetben egyetlen) X
magyarázó változó nem magyarázza az eredményváltozó alakulását, azaz paraméterének
sokasági értéke (lehet) 0. A varianciaanalízis terminológiája szerint ez azt jelenti, hogy a
magyarázó változó szerint képzett csoportok várható értékei nem térnek el egymástól, azaz a
magyarázó változó együtthatója 0.
A hipotézisünk az előzőhöz hasonlóan:
0:H 10 és 0:H 10
Most azonban a vizsgálat eszköze a varianciaanalízis lesz. Kihasználva, hogy a regressziós és
a maradék négyzetösszegek 2 -eloszlásúak és függetlenek, felírható egy olyan változó,
amelyik eloszlását a nullhipotézis alatt ismerjük, ezért alkalmas próbafüggvénynek:
)2n,1(F~)2n/(SSE
1/SSRF
A próba végrehajtása egyszerű, hiszen a regressziós számításokból átvesszük a mintából
számított négyzetösszegeket, kiszámoljuk a fenti próbafüggvény empirikus értékét, és azt
összevetjük a megfelelő szabadsági fokú és megfelelő szignifikancia szinthez tartozó
táblázatbeli (kritikus) értékkel. Ha az F értékünk nagyobb, mint a kritikus érték, a
nullhipotézist elutasítjuk, ellenkező esetben erre nincs elég statisztikai bizonyítékunk, tehát
elfogadjuk. Az elutasítás így a modell megerősítését (jóságát) jelenti, míg az elfogadás a
modell elutasítását.
A varianciaanalízis elterjedt módszere a statisztikának, így kialakult egy olyan táblázata,
amely segítséget nyújt egyrészt a számítások elvégzéséhez, másrészt pedig az eredmények
közlését is elősegíti.
15. Táblázat: Varianciaanalízis a kétváltozós lineáris regresszióban
A variancia
forrása
Négyzetösszeg Szabadsági fok Átlagos
négyzetösszeg
F
Regresszió SSR 1
1
SSRMSR
MSE
MSRF
Maradék
(hibatényező)
SSE n-2
2n
SSEMSE
Teljes SST n-1
1n
SSTMST
A szabadságfokokról a következőket kell tudni. Az SST szabadságfoka (n-1), mert
számításához először a mintából az y -t, azaz egy paramétert kell számítani. A hibatényező
négyzetösszegének (SSE) szabadságfoka (n-2). Ennek az a magyarázata, hogy számításához
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
155
két paraméter ( )1,0 becslése szükséges. A regresszióból becsült négyzetösszeg (SSR)
szabadságfoka pedig a szabadságfokok közötti additív összefüggésből következik.
Korábban az illeszkedés jóságát a determinációs együtthatóval jellemeztük, ezért most a
varianciaanalízis F-próbáját is kifejezzük ezzel a mutatóval. A determinációs együttható a
regressziós és a teljes eltérés négyzetösszeg hányadosa, azaz SST
SSE
SST
SSRR 12
. Ebből
egyszerű átalakításokkal adódik, hogy:
2
2
2
2
1)2(
)1()2(
)2/(
1/
R
Rn
RSST
RSSTn
nSSE
SSR
MSE
MSRF
Az első összefüggés azt mutatja, hogy ha az MSE (a „belső” szórásnégyzet becslése) relatíve
nagy az MSR-hez (a „külső” szórásnégyzet becsléséhez) képest, a regressziófüggvény rosszul
illeszkedik a ponthalmazhoz, ami a változók közötti lineáris kapcsolat hiányára utal, és így a
nullhipotézis elfogadását támasztja alá. A fordított eset a magyarázó változó és az
eredményváltozó lineáris kapcsolatára utal. Ekkor az X és Y közötti lineáris kapcsolat hiányát
megfogalmazó nullhipotézisnek ellentmond, és így az alternatív hipotézist támasztja alá.
A második összefüggés azt mutatja, hogy a nagyobb determinációs együtthatók (melyek jobb
illeszkedést jeleznek) nagyobb F-értékeket indukálnak, ami pedig az előzőek alapján a modell
helyességének a bizonyítéka. Ez az eredmény tehát teljes mértékben konzisztens azzal a
logikával, miszerint a jó illeszkedés egyben a jó modell kritériuma is.
7.3.5 Példák korreláció és regressziószámítása
Az alábbi táblázatban 11 lakás alapterületére és eladási árára vonatkozó adatok szerepelnek,
ahol X, vagyis a magyarázó változó az alapterület nm-ben, míg Y, vagyis az
eredményváltozó, az eladási ár mFt-ban.
Lakás sorszáma Eladási ár
(Y)
Alapterület
(X)
1 24,8 83
2 34,0 88
3 40,6 117
4 40,8 120
5 45,8 177
6 47,6 164
7 50,2 186
8 52,1 192
9 56,3 191
10 74,9 233
11 80,3 211
Számítsuk ki a lineáris regressziófüggvény paramétereit! Számítsuk ki a 60nm-hez tartozó
rugalmassági együtthatót! Jellemezzük a kapcsolat szorosságát! Teszteljük a modellt!
Ha ábrázolnánk a minta adatait, az alábbi képet kapnánk!
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
156
A feladatunk a minta adatai alapján a regressziófüggvény előállítása:
xy 10ˆˆˆ
Ehhez a minta adatai alapján meg kell becsülnünk a regressziós paramétereket.
21
ˆ
x
yx
d
dd
Ehhez a következő segédszámításokra van szükségünk:
Az alapterületek átlagos nagysága a minta alapján:
2,16011
211...1178883
x
Az eladási árak átlagos nagysága a minta alapján:
8,4911
3,80...6,404,308,24
y
A mintaátlagok segítségével meghatározhatóak a dx és dy értékek:
xxd ix yyd iy
Az eredmények a következő táblázatban láthatóak.
291,06,25457
8,7414ˆ21
x
yx
d
dd
A tengelymetszet becslése:
18,32,160291,08,49ˆˆ10 xy
A regressziós egyenes egyenlete:
xy 291,018,3ˆ
A paraméterek közül a meredekségi paraméter jelentése az, hogy nm-enként átlagosan 0,291
mFt-tal (291 000Ft-tal) nő az eladási ár. A tengelymetszet-paraméter jelentése az, hogy
modellünk szerint a 0 nm-es lakások ára 3,18 millió Ft. E paraméter kapcsán fontos kiemelni,
hogy nem lehet neki minden esetben tárgyi jelentést tulajdonítani.
0
10
20
30
40
50
60
70
80
90
0 50 100 150 200 250
Elad
ási á
r
Alapterület
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
157
Lakás
sorszáma Eladási ár Alapterület dy dx dxdy dx
2
1 24,8 83 -25,0 -77,2 1926,7 5957,0
2 34 88 -15,8 -72,2 1137,8 5210,2
3 40,6 117 -9,2 -43,2 395,7 1864,7
4 40,8 120 -9,0 -40,2 360,2 1614,6
5 45,8 177 -4,0 16,8 -66,7 282,9
6 47,6 164 -2,2 3,8 -8,3 14,6
7 50,2 186 0,4 25,8 11,3 666,6
8 52,1 192 2,3 31,8 74,3 1012,4
9 56,3 191 6,5 30,8 201,4 949,8
10 74,9 233 25,1 72,8 1830,4 5302,5
11 80,3 211 30,5 50,8 1551,8 2582,5
Össz. 547,4 1762 0 0 7414,8 25457,6
Átlag 49,8 160,2
Rugalmassági együttható:
x
x
x
x
y
xxyEl
291,018,3
291,0
ˆˆ
ˆ
ˆ
ˆ),ˆ(
10
11
Ez minden x esetében más és más értéket ad. Ha rögzítjük az x értékét valamilyen szinten (pl.
60 nm-ben), akkor az elaszticitás egy konkrét értékét kapjuk eredményként:
846,060291,018,3
60291,0)60,ˆ(
xyEl
Ez azt jelenti, hogy ha a 60nm-es szintről kiindulva 1%-kal növeljük a nm-t, az eladási ár
átlagosan 0,84 6%-kal nő. Más pontokból kiindulva más rugalmassági értékeket kapunk.
Az elemzés következő lépése, hogy kiszámítjuk a regressziós egyenes pontjainak értékét,
majd a megfigyelt és a becsült értékek különbözeteként a reziduumokat.
Lakás
sorszáma Eladási ár Alapterület dy dx dxdy dx
2 dy
2 y ei
1 24,8 83 -25,0 -77,2 1926,7 5957,0 623,2 27,3 2,5
2 34 88 -15,8 -72,2 1137,8 5210,2 248,5 28,8 -5,2
3 40,6 117 -9,2 -43,2 395,7 1864,7 84,0 37,2 -3,4
4 40,8 120 -9,0 -40,2 360,2 1614,6 80,3 38,1 -2,7
5 45,8 177 -4,0 16,8 -66,7 282,9 15,7 54,7 8,9
6 47,6 164 -2,2 3,8 -8,3 14,6 4,7 50,9 3,3
7 50,2 186 0,4 25,8 11,3 666,6 0,2 57,3 7,1
8 52,1 192 2,3 31,8 74,3 1012,4 5,5 59,1 7,0
9 56,3 191 6,5 30,8 201,4 949,8 42,7 58,8 2,5
10 74,9 233 25,1 72,8 1830,4 5302,5 631,8 71,0 -3,9
11 80,3 211 30,5 50,8 1551,8 2582,5 932,5 64,6 -15,7
Össz. 547,4 1762 0 0 7414,8 25457,6 2669,1
Átlag 49,8 160,2
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
158
Az első sorban, az y oszlopban megjelenő 27,3 mFt azt jelenti, hogy modellünk szerint a
83nm alapterületű lakások átlagosan ilyen áron kelnek el. A maradék oszlopában 27,3-
24,8=2,5mFt áll, ami azt jelenti, hogy a megfigyelésünkben szereplő lakás az átlagos,
modellből következő árnál 2,5mFt-tal olcsóbban kelt el, ami feltehetően egyebek közt az
átlagosnál rosszabb állapotának tudható be. A reziduumok oszlopának algebrai összege 0, ami
azt jelenti, hogy az egyenestől vett eltérések kioltják egymást.
Amennyiben a regressziós egyenessel a megfigyelési intervallumon kívülre is szeretnénk
következtetni, extrapolációt végzünk. Ha pl. azt vizsgáljuk, hogy várhatóan milyen áron
kelnek el a 250nm alapterületű lakás, akkor x=250-et behelyettesítve a regressziós egyenletbe:
93,75250291,018,3ˆ y
Tehát egy 250 nm alapterületű lakás esetében kb. 76 mFt eladási árra lehet számítani.
Emlékeznünk kell arra, hogy ezek a számítások mind azzal a feltétellel készültek, hogy az
eladási árat csak az alapterülettel magyarázzuk. Az árnak emellett természetesen egy sor
egyéb összetevője lehet (pl. a lakás fekvése, közlekedési lehetőségek, parkolás, igényel-e
felújítást, melyik utcában van stb.). Ezek persze lényeges tényezők, de a mostani példánkban
rejtve maradnak és csupán a maradékváltozóban jelennek meg, mint az egyéb tényezők
összetett hatása.
A lineáris korrelációs együttható:
Az előző táblázatban szereplő számítások alapján könnyen megadható a lineáris korrelációs
együttható konkrét értéke:
9,01,26696,25457
8,7414
)var()var(
),cov(
22
yx
yx
dd
dd
yx
yxr
Az eredmény azt mutatja, hogy a vizsgált két változó között meglehetősen szoros, pozitív
irányú kapcsolat tapasztalható. A korrelációs együttható értéke közel áll a +1-hez, ami arra
utal, hogy a regressziós egyenes jól illeszkedik a megfigyelési pontokhoz.
A teljes eltérésnégyzet-összeg két részből áll:
n
i
ii
n
i
n
i
ii yyyyyy1
2
1 1
22 )ˆ()ˆ()(
SSESSRSST
A teljes négyzetösszeg SST nem más, mint 1,26692
yd . Ez bontható a regresszió által
magyarázott (SSR) és nem magyarázott (SSE) négyzetösszegekre.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
159
Lakás
sorszáma Eladási ár Alapterület dy
2 yi ei yi - y (yi - y)
2 ei
2
1 24,8 83 623,2 27,3 2,5 -22,4 503,1 6,4
2 34 88 248,5 28,8 -5,2 -21,0 440,0 27,2
3 40,6 117 84,0 37,2 -3,4 -12,5 157,2 11,4
4 40,8 120 80,3 38,1 -2,7 -11,7 136,0 7,3
5 45,8 177 15,7 54,7 8,9 4,9 24,2 79,0
6 47,6 164 4,7 50,9 3,3 1,1 1,3 10,9
7 50,2 186 0,2 57,3 7,1 7,5 56,9 50,5
8 52,1 192 5,5 59,1 7,0 9,3 86,3 48,3
9 56,3 191 42,7 58,8 2,5 9,0 81,0 6,1
10 74,9 233 631,8 71,0 -3,9 21,2 450,3 15,3
11 80,3 211 932,5 64,6 -15,7 14,8 219,6 247,1
Össz. 547,4 1762 2669,1
0,0
2155,8 509,5
Átlag 49,8 160,2
22 )ˆ(8,21556,25457)291,0( yySSR i és 5,5092
ieSSE
Látható, hogy a teljes négyzetösszeg nagy hányadát teszi ki a magyarázott négyzetösszeg.
81,01,2669
8,21552 SST
SSRR
Ez úgy értelmezhető, hogy az eladási árban tapasztalt eltérések 81%-át magyarázni tudjuk a
lakások alapterületével. A modell magyarázó ereje 81%-os. Az eltérések maradék 19%-át
egyéb, itt nem tárgyalt tényezők befolyásolják.
Intervallumbecslés:
A regressziós becslés során elkövetett hiba:
52,7211
5,509
2
n
SSEse
Ez önmagában azt jelenti, hogy az egyes lakások ára átlagosan mintegy 7,5mFt-tal tér el attól,
amit a regressziós modellel becsülni tudnánk.
A paraméterek standard hibája:
89,76,25457
2,160
11
152,7
1 2
2
2
ˆ0
x
ed
x
nss
047,06,25457
52,7
2ˆ1
x
e
d
ss
Ezek tehát a paraméterek mintavételi szóródását kifejező mutatók.
Ha megbízhatóságot 95%-os szinten rögzítjük, akkor 262,2)9(975,0 t , a keresett konfidencia
intervallumok:
)397,0;185,0(047,0262,2291,0)2(ˆ)(1ˆ2/1111 sntInt
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
160
)027,21;67,14(89,7262,218,3)2(ˆ)(0ˆ2/1001 sntInt
A paraméterek szeparált tesztelése továbbra is 5%-os szignifikancia szint mellett:
A meredekségi paraméter tesztelése:
0:H 10 és 0:H 10
19,6047,0
291,01 szt
A tengelyparaméter tesztelése:
0:H 00 és 0:H 00
403,089,7
18,30 szt
Ezeket az értékeket a 12-2=10 szabadsági fokú t-eloszlás megfelelő rendű kvantiliseivel kell
összehasonlítani. Kétoldali próbáról van szó, így a )10(t 975,0 értéket táblázatból kell kikeresni.
A kritikus tartomány határai +2,262 és -2,262.
Az első empirikus t-értékünk az elutasítási tartományba esik, így ezen a szignifikancia szinten
az első regressziós paraméterre vonatkozó nullhipotézist elutasítjuk. A 1 esetében ez azt
jelenti, hogy van számottevő, lényegi modellezhető kapcsolat az alapterület és az eladási ár
között, tehát az alapterület, mint magyarázó változó releváns ebben a kapcsolatban.
A második nullhipotézist, amely a tengelymetszetre vonatkozik, elfogadjuk, mivel a számított
érték az elfogadási tartományba esik, azaz a β0 paraméter értéke nem különbözik
szignifikánsan 0-tól.
A β0 paraméterre vonatkozó tesztelés jelentősége kisebb, mivel nem tulajdonítanak neki
magyarázó erőt a modellben, de mint illeszkedést javító paramétert általában megtartják akkor
is, ha sokasági értéke nem különbözik szignifikánsan 0-tól.
Varianciaanalízis:
A nullhipotézisünk ezúttal is:
0:H 10 és 0:H 10
A korábbi számításokból ismertek a négyzetösszegek értékei, így a varianciaanalízis táblája
felírható:
A
variancia
forrása
Négyzetösszeg Szabadságfok Átlagos
négyzetösszeg
F
Regresszió SSR=2155,8 1
1
8,2155MSR 08,38
61,56
8,2155
MSE
MSRF
Maradék SSE=509,5 n-2=11-2=9
9
5,509MSE
Teljes SST=2665,3 n-1=10
10
5,2665MST
A táblázatból kiszámított empirikus F-értéket 5%-os szignifikancia szint esetén
12,5)9,1(95,0 F értékkel kell összehasonlítani. Mivel az empirikus próbafüggvény értéke
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
161
jóval meghaladja az elméletit, döntésünk a nullhipotézis igen határozott elutasítása, azaz
statisztikailag nem támasztható alá az, hogy a különböző alapterületű kocsik ára közt ne lenne
szignifikáns különbség.
7.4 Fogalmak
korrelációszámítás regressziószámítás
függvényszerű kapcsolat sztochasztikus kapcsolat
független kapcsolat korrelációs kapcsolat
kétváltozós regresszió többváltozós regresszió
magyarázó változó eredményváltozó
regressziós paraméter rugalmassági együttható
reziduum reziduális szórás
regressziós együtthatók hibája kovariancia
lineáris korrelációs együttható determinációs együttható
regressziós vagy magyarázott négyzetösszeg (SSR)
maradék vagy hibanégyzetösszeg (SSE)
7.5 Típusfeladatok
7.5.1 Feladat
Egy vállalat havi árbevétele (x) és havi üzleti eredménye (y) közötti kapcsolat egy 10 elemű
minta alapján az y = -9+0,1x lineáris regressziós függvénnyel írható le. A mintában az
árbevétel korrigált empirikus szórása 9,8 millió Ft, az üzleti eredményé 1,1 millió Ft.
Értelmezze a regressziós egyenes meredekségét!
Határozza meg az árbevétel és az üzleti eredmény közötti determinációs együtthatót, és
értelmezze az eredményt!
Megoldás:
A regressziós egyenes: y = -9+0,1x. Ennek meredeksége 0,1. Ez azt jeleneti, hogy az
árbevétel egységnyi növekedése az üzleti eredmény átlagosan 0,1 egységnyi növekedését
vonja maga után.
Az árbevétel (x) és az üzleti eredmény (y) közötti determinációs együttható meghatározása
Egyrészt a determinációs együttható: 2
22
2
yx
yx
dd
ddr
Másrészt a regressziós egyenes meredeksége:
21
x
yx
d
ddb
Ez utóbbi két összefüggésből a determinációs együttható:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
162
2
2
2
1
2222222
1 y
x
yxxd
dbrddrdb
A megadott empirikus szórások felhasználásával 2
xd és 2
yd meghatározható:
36,8648,91101
11
222
2
1
2
2
xx
x
n
i
i
x sndn
d
n
xx
s
89,101,11101
11
222
2
1
2
2
yy
y
n
i
i
y sndn
d
n
yy
s
A determinációs együttható:
7937,098,10
36,8641,0 2
2
2
2
1
2
y
x
d
dbr
A determinációs együttható megadja, hogy az eredményváltozó (y) varianciáját mekkora
hányadban magyarázza a magyarázó változó (x). Esetünkben ez azt jelenti, hogy az üzleti
eredmény varianciáját (változékonyságát) 79,37%-ban magyarázza az árbevétel.
7.5.2 Feladat
Teherhajók tömege (x) és kirakodási idejük (y) között a tapasztalati lineáris korrelációs
együttható értéke egy 10 elemű minta alapján 0,87. A mintában a hajótömegek korrigált
tapasztalati szórása 7,2 tonna, a kirakodási időé 2,1 óra.
Hány %-ban magyarázza a kirakodási idő varianciáját a teherhajók tömege?
Adja meg a kirakodási idő és a hajótömeg közötti regressziós egyenes meredekségét!
Megoldás:
A determinációs együttható megadja, hogy az eredményváltozó (y) varianciáját mekkora
hányadban magyarázza a magyarázó változó (x). Esetünkben a korrelációs együttható értéke
0,87. Ennek négyzete 0,7569 a determinációs együttható értéke, azaz a kirakodási idő
varianciájának 75,69%-át magyarázza a teherhajók tömege.
A regressziós egyenes meredekségének meghatározása:
Egyrészt a regressziós egyenes meredeksége:
21
x
yx
d
ddb
Másrészt a korrelációs együttható:
22
yx
yx
dd
ddr
Ez utóbbi két összefüggésből a regressziós egyenes meredekségére:
2
2
1
222
1 x
y
yxxd
drbddrdb
A megadott empirikus szórások felhasználásával 2
xd és 2
yd meghatározható:
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
163
69,391,21101
11
222
2
1
2
2
yy
y
n
i
i
y sndn
d
n
yy
s
56.4662,71101
11
222
2
1
2
2
xx
x
n
i
i
x sndn
d
n
xx
s
A regressziós egyenes meredekségéről tudjuk, hogy
254,056,466
69,3987,0
2
2
1
x
y
d
drb
A teherhajók tömegének 1 egységnyi növekedése a kirakodási idő átlagosan 0,254 egységnyi
növekedését eredményezi.
7.5.3 Feladat
Kísérletképpen egy áruházlánc 8 azonos méretű üzletében egy nap egy adott fajta prémium
csokoládét 8 különböző áron árultak, és figyelték a keresletet.
Bolt sorszáma Csokoládé ára
(Ft/tábla)
Eladott táblák
száma
1 300 1120
2 310 999
3 320 932
4 330 884
5 340 807
6 350 760
7 360 701
8 370 688
Összesen 2680 6891
Néhány további adat:
42002
xd 1603402
yd 25535yxdd 2622
ie
Becsülje meg és értelmezze a lineáris regresszió paramétereit!
Tesztelje a β1 paraméter szignifikanciáját 95%-os megbízhatósággal!
Számítsa ki és értelmezze a deteminációs együtthatót!
Megoldás:
A lineáris regresszió paramétereinek meghatározása:
08,64200
25535ˆ21
x
yx
d
dd
Amennyiben a csokoládé ára táblánként 1Ft-tal magasabb, az eladott mennyiség átlagosan
6,08 táblával kevesebb.
xy 10ˆˆ
3358
2680x 375,861
8
6891y
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
164
175,289833508,6375,861ˆˆ10 xy
Amennyiben a csokoládé ára 0 Ft, az eladott mennyiség 2898,175 tábla.
A β1 paraméter szignifikanciájának tesztelése 95%-os megbízhatósággal:
0:H 10 és 0:H 10
61,628
262
2
)ˆ(
2
1
2
1
2
n
yy
n
e
s
n
i
ii
n
i
i
e
102,04200
61,6
2ˆ1
x
e
d
ss
Ez az érték (0,102) azt fejezi ki, hogy a lehetséges becsült b1 paraméterek átlagosan 0,1374
egységgel szóródnak az alapsokasági regressziófüggvény β1 paramétere körül, lehetséges
összes 8 elemű minta esetén.
6,59102,0
08,6ˆ
1
1
stsz
Kritikus érték: t0,975(DF=8): ±2,45
Mivel a számított érték az elutasítási tartományba esik, így a β1 paraméter szignifikáns.
Determinációs együttható számítás és értelmezése:
984,01603404200
25535
22
yx
yx
dd
ddr
968,0)984,0( 22 r
A csokoládé táblánkénti ára 96,8%-ban magyarázza az eladott mennyiség szóródását.
7.5.4 Feladat
10 véletlenszerűen kiválasztott gazdálkodó szervezetnél megvizsgálták az éves nettó
árbevételnek (x) az adózott eredményre (y) gyakorolt hatását. A felmérésből a következő
részeredmények ismeretesek:
mFtx 6,578 mFty 24,29 mFtsx 8,274
Szórásnégyzet
forrása
Négyzetösszeg Szabadságfok Átlagos
négyzetösszeg
Regresszió (SSR)
Hibatényező (SSE) 733,1
Teljes (SST) 1860,0
Írjuk be a táblázat hiányzó adatait!
Határozzuk meg a lineáris korrelációs együtthatót és értelmezzük az eredményt!
Számítsuk ki a lineáris regressziófüggvény paramétereit és értelmezzük azokat! Írjuk fel a
regressziófüggvényt!
Teszteljük a modell egészét!
Határozzuk meg a rugalmassági együtthatót x=600 mFt helyen és értelmezzük az eredményt!
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
165
Megoldás:
Táblázat hiányzó adatainak feltöltése:
Szórásnégyzet
forrása
Négyzetösszeg Szabadságfok Átlagos
négyzetösszeg
Regresszió (SSR) =1860-733,1=1126,9 1 1126,9
Hibatényező (SSE) 733,1 8 91,6375
Teljes (SST) 1860,0 9
A lineáris korrelációs együttható meghatározása és értelmezése:
9,1126SSR 69,11210
9,1126ˆ ys
0,1860SST 18610
18602 ys
7784,0186
69,112r
Közepesen szoros kapcsolat van a nettó árbevétel és az adózott eredmény között.
Lineáris regressziófüggvény paraméterei és értelmezése:
mFtd
sx
x 8,27410
2
64,13186 ys
0386,08,274
64,137784,0 1
x
y
s
srb
9,66,5780386,024,29 10 xbyb
xxbby 0386,09,6ˆ 10
Amennyiben 1mFt-tal nagyobb az árbevétel, akkor átlagosan 36,6 ezerFt-tal magasabb az
adózott eredmény.
Modell tesztelése:
0:H 10 és 0:H 10
29,123675,91
9,1126
)2/(
1/
nSSE
SSRFsz
32,5)8,1%,5( kritF
Mivel a számított érték nagyobb, minta a kritikus érték, így a nullhipotézist elutasítjuk, a
regressziófüggvény szignifikáns.
Rugalmasság számítása és értelmezése x=600mFt-nál
%77,06000386,09,6
6000386,0
ˆˆ
ˆ),ˆ(
10
1
x
xxyEl
A nettó árbevétel 1%-os növekedése az adózott eredmény 0,77%-os növekedését eredményezi
átlagosan az x=600mFt nettó árbevétel környezetében.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
166
7.6 Elméleti kérdések
1. Milyen lehet a kapcsolat két ismérv között? Jellemezze e kapcsolatokat!
2. Mutassa be a kétváltozós regressziós modellt! Értelmezze a regressziós paramétereket!
3. Milyen mutatókkal jellemezhető a regressziós becslés hibája? Hogyan értelmezhetőek
a kapcsolódó mutatók?
4. Mi a regressziós együtthatók intervallumbecslésének a lényege, célja?
5. Hogyan alkalmazhatóak a hipotézisvizsgálatok a regressziófüggvény eredményeinek
ellenőrzésére?
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
167
8. Idősorok elemzése36,37
A gazdálkodó egységek tevékenységének egyik meghatározó tényezője, hogy mennyire
képesek a jövőbe látni, és így milyen sikerrel képesek jövőre vonatkozó stratégia kialakítására
és az ezzel kapcsolatos stratégiai döntések megalapozására. A gazdasági-társadalmi életben
kitüntetett szerepe van azoknak az előrejelzéseknek, amelyek a foglalkoztatottság, a
munkanélküliség, a jövedelmek vagy az árak, illetve egy-egy vállalat esetében a termékek
iránti keresletnek, a készletezésnek, vagy az erőforrások, köztük pl. a munkaerő-szükséglet
változásának a prognózisát jelentik.
A jövő előrejelzésében nagy szerepük van az időbeli változások vizsgálatának és az idősoros
elemzések felhasználásának. Az idősorok elemezése lehetőséget teremt a múlt megértésére és
megmagyarázására, és ezek alapján a jövőre történő előrejelzésre.
Az idősorok jövőbeli értékeinek előrejelzése történhet kvantitatív és/vagy kvalitatív
eszközökkel. A kvantitatív módszerek a múltbeli információk (idősorok) felhasználásával
készülnek vagy önmagában a vizsgált jelenségre vonatkozó idősorra támaszkodva, vagy a
vizsgált jelenséggel összefüggésben lévő más változókat is bevonva (regresszióra alapozva).
A kvalitatív módszerek pedig szakértők által készített becslések.
A fejezet célja, hogy különböző módszereket mutasson be a múltra vonatkozó összefüggések
feltárásához, és egyben alapot adjon a jövőre vonatkozó előrejelzések készítéséhez.
Egyes időpontokban, általában azonos időközönként végzett megfigyelések sorozatát
(tapasztalati) idősornak nevezzük.
Ebben az esetben tehát az X változó időpontokat jelöl (továbbiakban t-vel jelöljük) valójában
nem sztochasztikus jellegű, s ennek függvényében vizsgáljuk a sztochasztikusan változó Y
értékek alakulását.
Ilyen jellegű adatsorokat a gazdasági, társadalmi élet jellemzésére, vizsgálatára gyakran
használunk. Idősorokra példa a Magyarországon évente felsőfokú végzettséget szerző
hallgatók száma, a BUX index napi záró értéke, a napi maximum hőmérséklet, egy bolt napi,
heti vagy havi árbevétele, egy bizonyos termék havonta értékesített mennyisége, stb.
A matematikai statisztika az idősorokat sztochasztikus folyamat eredményeként tekinti. A
vizsgált jelenségek minden egyes időpontban (vagy időtartam alatt) elméletileg különböző
értékeket vehetnek fel, ugyanis értéküket sok-sok egyedi tényező együttes hatása alakítja. Az
időtényezőtől függő Y valószínűségi változók sorozatát elméleti idősornak nevezzük.
A statisztikai megfigyelés a tapasztalati idősorra vonatkozik, amelyet az elméleti idősor egy
lehetséges realizációjának, megvalósult értékének, tehát mintának kell tekinteni. Ez az idősor
elemzés kiindulópontja.
8.1 Az idősorelemzés eszközei
Az idősorok vizsgálatának gyakran alkalmazott eszközei: a viszonyszámok, a grafikus
ábrázolás, az átlagok és a különböző indexszámok.
36
Spiegel, Murray R.: Statisztika: Elmélet és gyakorlat, Panem – McGraw-Hill, Budapest, 1995 37
Korpás A.-né (szerk.): Általános statisztika I., II., Nemzeti Tankönyvkiadó, Budapest, 1996
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
168
A viszonyszám két egymással összefüggő adat hányadosa. A viszonyszámok közül az ún.
dinamikus viszonyszámok alkalmasak az idősorok elemzésére, amelyek két különböző,
összehasonlítani kívánt időszak adatainak hányadosai.
Idősorok sajátosságainak vizsgálatánál célszerű az adatokat ábrázolni. A vízszintes tengelyen
most a t időpontokat (időszakokat), a függőleges tengelyen a megfelelő y értékeket
ábrázoljuk. A szóródás diagramtól eltérően azonban most vonaldiagramot célszerűbb
készítünk, ugyanis így könnyebben felismerhetőek az adatsorban meglévő szabályszerűségek.
Példaként a Magyarországon felsőoktatásban tanuló illetve dolgozó hallgatók/oktatók
számának38
alakulását mutatja a következő ábra.
31. ábra: Példa idősor grafikus szemléltetésére
A különböző (jellemzően vonalas) ábrázolási módok mellett természetesen indexekkel,
átlagokkal is jellemezhetjük az adatokat. Ezekre részletesen most nem térünk ki, csak az
átlagszámolás tartam- és állapotidősorok közötti különbségére hívjuk fel a figyelmet.
Tartamidősorok39
adatai összegezhetők, így átlagolásukra is a szokásos számtani átlagot
használhatjuk. Állapotidősorok40
egy-egy időpontra vonatkoznak, összegüknek nincs tárgyi
értelme. Ebben az esetben az idősor átlaga az átlagos állománynagyságot mutatja. Két időpont
esetén ez a nyitó- és a záróállomány számtani átlaga. Több időpont esetén a két-két időpont
közötti időszakokra számított átlagos állományok számtani átlaga. Az így kapott átlagot
kronologikus átlagnak nevezzük (jelölése: kY ), és kizárólag állapotidősorok adatainak
átlagolására használjuk. A megfigyelt időpontok adataiból (Y1, Y2, … Yn) tehát a kronológikus
átlagot az alábbi összefüggéssel számolhatjuk:
1
22
1
2
1
n
YY
Y
Y
nn
t
t
k
38
Forrás: http://portal.ksh.hu/pls/ksh/docs/hun/xstadat/xstadat_eves/tabl2_06_07ia.html 39
Mozgó sokaságok időbeli alakulását mutatják, a sor elemei egy-egy időtartam alatt bekövetkező események
adatait mutatják. 40
Álló sokaságok időbeli változását mutatják, a sor elemei egy-egy időpontra vonatkozó állapotfelvételek
eredményeit rögzítik.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
169
Tekintsük a következő példát41
.
Egy utazási iroda valutakészletének és -értékesítésének adatai az alábbiak:
Hónap Valutakészlet a hónap
utolsó napján [eUSD]
Valutaértékesítés
[eUSD]
Június 18,8 ---
Július 19,6 35,8
Augusztus 20,2 35,2
Szeptember 19,8 34,3
Október 21,1 33,5
November 20,3 32,4
December 19,2 35,8
Határozzuk meg a 2. félévben a havi átlagos valutaértékesítést, s az átlagos valutakészletet!
A havi átlagos valutaértékesítés:
eUSDY 5,346
207
6
8,354,325,333,342,358,35
Az adott hónapban értékesített valuta mennyisége tartamidősor, így összegének van értelme (a
2. félévben összesen 207eUSD-t adott el az iroda), így átlagolásukra a számtani átlagot
használtuk.
A 2. félévben az átlagos valutakészlet (július 1-je és december 31-e között):
eUSDYk 206
2
2,193,201,218,192,206,19
2
8,18
(A július 1-jei készlet a június 30-aival azonos.)
A valutakészlet csak időpontokra értelmezhető, így átlagolására a kronologikus átlagot
használtuk.
8.2 Idősorok komponenseinek vizsgálata
Az idősor a vizsgált jelenség múltbeli adatainak a mintája. Így ahhoz, hogy az idősorokban az
adatok viselkedését feltárjuk, megmagyarázzuk, nagyban segít, ha az idősorokat úgy
közelítjük meg, hogy az különböző összetevőkből, komponensekből áll.
Idősorok elemzésének két fő megközelítésmódja ismert. Az egyik az ún. sztochasztikus
modell, mely szerint az idősor pillanatnyi értékeit saját korábbi állapotából és a véletlen
hatásokból lehet magyarázni. E felfogás szerint a véletlen változó beépül a folyamatba, annak
aktív alkotóeleme lesz, a jelenség fő mozgatójává válik. Ebbe a kategóriába tartoznak például
a mozgóátlag (MA), az autoregresszív (AR) és a kettőt ötvöző autoregresszív mozgóátlag
(ARMA) modellek. A Gazdaságstatisztika tárgyban nem foglalkozunk a sztochasztikus
modellekkel, az – többek között – az Ökonometria c. tárgy anyaga.
A másik, az ún determinisztikus modell felfogása szerint az idősor alakulását egy tartósan
érvényesülő hosszútávú tendencia (trend), és egy tartósan ható, szabályos, jól modellezhető
hullámmozgás (periódikus ingadozás) határozza meg, s ezektől eseti-egyedi eltérítő hatást
41
Forrás: Korpás A.-né (szerk.) : Általános statisztika I. nemzeti Tannkönyvkiadó, Budapest, 1996, pp.89.-90.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
170
eredményez a véletlen. A determinisztikus modell felfogása szerint az idősorok értékeit négy fő
tényező (összetevő) határozza meg: a trend, a ciklus, a szezonális ingadozás és a véletlen
ingadozás.
Hosszútávú vagy tartós irányzat (trend). Ez az összetevő az idősor pályájának a hosszú távú
alapirányzatát jelenti, az idősorban hosszabb időszakon át, tartósan érvényesülő tendencia.
Az idősorok grafikus ábrázolásánál bemutatott adatokon például jól látszik, hogy a hallgatók
száma folyamatosan nőtt az 1990/91-es tanévtől a 2006/07-es tanévig. Ugyanakkor az oktatók
száma is alapvetően emelkedő tendenciát mutat, annak ellenére, hogy időnként egy-egy évben
csökkent az oktatók létszáma.
A periodikus ingadozás az idősorokban rendszeresen ismétlődő hullámzást jelenti. Két
fajtáját különböztetjük meg, a szezonális (vagy idényszerű) hullámzást, és a ciklikus (vagy
konjukturális) ingadozást.
A ciklikus (konjunkturális) mozgások a trendgörbe, vagy trendegyenes körüli (alatti és
fölötti) hosszú távú, tartós kilengésekre, ingadozásokra vonatkoznak. Olyan periodikus
ingadozás az idősorban, amely kevésbé szabályos, jelenlétét hosszabb idősorok alapján lehet
feltárni.
Ilyenek a rövidebb-hosszabb ökológiai ciklusok, vagy gazdasági, konjunkturális ingadozások.
Az üzleti és gazdasági tevékenységek esetében az ingadozásokat csak akkor nevezzük
ciklikusnak, ha azok több, mint egy éves időintervallum után ismétlődnek. Az üzleti
ingadozások fontos példáját adják az ún. üzleti ciklusok, melyek a konjunktúra, a recesszió, a
stagnálás és a megújulás időszakait foglalják magukban. A tárgy keretében nem foglalkozunk
a ciklikus ingadozás elemzésével.
A szezonális (vagy idényszerű) ingadozások állandó periódushosszúságú hullámzás, ritmikus
ingadozás, amely szabályosan visszatérő időközönként (pl. évente, havonta) mindig azonos
irányba téríti el az idősor értékét az alapirányzattól.
Az idősor adataiban jellemzően azonos időszakok egymás utáni sorozatai ismétlődnek, így
amennyiben a megfigyelt változót az egyes időszakokban fellépő szezonális hatások érik, az
időszakonkénti eltérések a trendtől nagyon hasonló, ismétlődő mintázatot mutatnak.
A szezonalitás az évszakok változásaival és részben az ezzel kapcsolatos egyéb társadalmi
szokásokkal van összefüggésben. A periódus hossza legfeljebb egy év, tehát olyan
idősorokban találkozhatunk szezonalitással, melynek adatai egy évnél rövidebb időszakra
vonatkoznak.
Ilyen szezonális hatás például a karácsony előtti, vagy a hétvégi nagyobb bevásárlás. Sörből is
jellemzően többet fogyasztunk a nyári hónapokban, mint télen. Az ismétlődő időszakoknak
megfelelően a szezonális ingadozások periódushossza állandó. Az üzleti, gazdasági adatok
elemzésénél jellemzően az éven belüli ingadozásokat szezonális ingadozásnak tekintjük.
Szabálytalan vagy véletlen ingadozások a véletlen hatásokból fakadó eltérések, az idősorban
megtalálható szabálytalan mozgás, nem mutat semmilyen szisztematikusságot. A tapasztalati
idősorok adatai általában eltérnek a trend, a ciklikusság és a szezonális komponens alapján
várt értéktől.
Ezt az összetevőt valószínűségi változónak tekintjük. A véletlen ingadozás sok, önmagában
nem jelentős tényező együttes hatása az idősorra.
Bár előfordulhat, hogy egy-egy tényező (elemi károk, időjárási feltételek, politikai események
stb.) jelentősebb hatást gyakorol a megfigyelt mennyiségre, feltesszük, ezek csak rövid ideig
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
171
okoznak változást, így hatásuk összességében véletlennek tekinthető. Esetenként azonban e
hatások elég intenzívek lehetnek ahhoz, hogy újabb ciklikus vagy másféle ingadozást
idézzenek elő. Általában minél rövidebb időszakra vonatkozik az idősor, annál jelentősebb a
véletlen ingadozás. Szabálytalan jellege miatt az idősorra gyakorolt hatását a múltra
vonatkozóan ki lehet mutatni, de előrejelezni nem lehet.
Nagyon egyszerű lenne, ha egy-egy idősorban csak egy komponens hatása érvényesülne, a
valóságban azonban a komponensek együtt jelennek meg.
Az idősorok determinisztikus modell szerinti elemzése az ingadozásokat előidéző összetevők
(matematikai) leírását jelenti.
Az idősorok elemzésének klasszikus módszere az egyes komponensek (trend, ciklus,
szezonalitás, véletlen ingadozás) elkülönítése. Az idősorok komponensekre bontásán alapuló
eljárásokat dekompozíciós módszereknek szokás nevezni.
Ha feltételezzük, hogy az idősorban megjelenik mind a négy komponens, akkor kérdés, hogy
e komponensek milyen kombinációja, ill. kapcsolódása eredményezi a tényleges idősort. Erre
nézve két általános módszer van: az additív és a multiplikatív modell.
Az additív modellben a komponensek összegének tekintjük az Y változót:
ijjijijij SCYY ˆ
E modellben a jobb oldalon lévő komponensek mértékegysége megegyezik az idősor
adatainak (Y) mértékegységével.
A multiplikatív modellben a komponensek szorzataként állítjuk elő Y-t:
ijjijijij SCYY ˆ
Ebben a modellben csak a trendadatok mértékegysége azonos az idősor adataival, a többi
komponens mértékegység nélküli index, illetve viszonyszám, amely a trendhez viszonyítva
fejti ki hatását. A véletlen tényező várható értéke multiplikatív modell esetén 1.
Yij = az idősor értéke
ijY = trend
ijC = ciklus
jS = szezonális komponens
ij = a véletlen ingadozás
i = 1,2, …, n a periódusok (pl. évek)
j = 1,2, …, m a perióduson belüli rövidebb időszakok (pl. hónapok, negyedévek).
E modellek mögötti alapgondolat az, hogy az idősorokat felbontsuk, és a különböző
komponensek becslését használjuk fel az idősorok leírására, elemzésére, illetve előrejelzési
célokra.
A gyakorlati tapasztalatok azt mutatják, hogy a társadalmi-gazdasági jelenségek idősorainál a
komponensek az esetek többségében multiplikatív módon viselkednek.
Különböző módszerek állnak rendelkezésünkre akár a trend, akár a szezonális eltérések
jellemzésére, a tárgy keretében azonban mindkettőre csak egy-egy módszert mutatunk be.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
172
8.2.1 Trend becslése mozgó átlagok segítségével
Az idősor alapirányzatának, tendenciájának meghatározásánál az idősor kiegyenlítése,
kisimítása a célunk úgy, hogy a periodikus és a véletlen ingadozás hatását kiküszöböljük. A
trend meghatározása lényegében az idősor kisimítását jelenti.
A trendszámításnak két fő módszere van: mozgó átlag módszere és az analitikus
trendszámítás, mi most csak az első módszert mutatjuk be.
A mozgó átlag (csúszó átlagok) módszerénél a trendet az idősor dinamikus átlagaként
állítjuk elő. A t-esik időszakhoz tartozó trendértéket a környező adatok átlagaként
származtatja.
A mozgó átlagos módszernél az eltéréseket átlagolással igyekszünk „eltüntetni”. Mozgó
átlagolásnál az idősor előre elhatározott számú első néhány eleméből számtani átlagot
képzünk, majd az első elemet kihagyva, s a következőt bevonva folytatjuk a számítást az
utolsó adatig. Az így képzett átlagokat páratlan elemszám esetén a részsorozat középső
elemének tekintjük. Páros elemszámú mozgóátlagok képzésénél azonban a részsorozatok
indexei nem egész számok (pl. 2 elem esetén 1,5, 2,5, 3,5, … n-0,5), ezért az így kapott
átlagokból kéttagú mozgóátlagokat képzésével kapjuk az egész indexű elemeket. Ez utóbbi
műveletet nevezzük középre igazításnak vagy centírozásnak.
Ha az idősor értékei egy állandó érték körül ingadoznak, az idősor értékeiből számított
számtani átlag pontosan ezt az állandó értéket adja eredményül. A mozgó átlagok számítása
rámutat arra, hogy az idősor értékei a saját átlaguk körül ingadoznak, amely az idők folyamán
változik, eltolódik. Ez jelenti a trendet.
Mozgó átlagolás alkalmazásakor meghatározó a mozgó átlag elemszámának megválasztása.
Amennyiben az idősorban szezonális eltéréseket is találunk, akkor a szezonális hullámzás
kisimítására a mozgóátlag taglétszámát úgy kell megválasztani, hogy az a perióduson belüli
szakaszok (szezonok) számával azonos, vagy annak egész számú többszöröse legyen. Így a
szezonális hatást a mozgó átlagok képzéséhez használt tagszám megválasztásával elimináljuk.
A véletlen hatást pedig maga az átlagolás tompítja, szűri ki.
Érdemes megjegyezni, hogy a mozgó átlagoláshoz hosszabb idősoroknál célszerű nagyobb
tagszámot venni, ugyanis a sor elejéről és végéről elveszített tagok nem okoznak különösebb
problémát, a véletlen hatása pedig jobban kiszűrhető. Nem mindig könnyű a tagszám
megválasztása, bizonyos esetekben szükség lehet többféle tagszámmal is számításokat
végezni, és azt a k számot választani, amelyre nézve az y-y eltérésekből számított átlagos
négyzetes hiba a legkisebb.
A módszer bemutatására tekintsük az alábbi példát 42
.
Háztartások számára értékesített gázmennyiség (milló m3) Nógrád megyében 1990 és 1994
között negyedéves bontásban az alábbiak szerint alakult:
42
Forrás: Korpás A.-né (szerk.): Általános statisztika II. Nemzeti Tankönyvkiadó, Budapest, 1996, pp. 249.-250.
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
173
I. II. III. IV.
1990 3,5 3,1 2,4 3,9
1991 6,7 6,4 5,1 7,2
1992 7,4 7,2 5,2 8,0
1993 8,2 8,1 7,2 8,5
1994 9,3 8,0 7,2 11,7
A gázfogyasztás értékeit (és a mozgóátlagolással kapott trendértékeket is) a következő ábra
mutatja:
32. ábra
Mivel éves periodicitásról és negyedéves szezonalitásról van szó, a mozgóátlagok
elemszámának célszerű 4-et választani. A számításokat az alábbi táblázat tartalmazza:
Ért.gáz Időszak cMA(4)
3,5 1990 - I
3,1 1990 - II
2,4 1990 - III 3,63
3,9 1990 - IV 4,44
6,7 1991 - I 5,19
6,4 1991 - II 5,94
5,1 1991 - III 6,44
7,2 1991 - IV 6,63
7,4 1992 - I 6,74
7,2 1992 - II 6,85
5,2 1992 - III 7,05
8 1992 - IV 7,26
8,2 1993 - I 7,63
8,1 1993 - II 7,94
7,2 1993 - III 8,14
8,5 1993 - IV 8,26
9,3 1994 - I 8,25
8 1994 - II 8,65
7,2 1994 - III
11,7 1994 - IV
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
174
8.2.2 Szezonalitás vizsgálata
Nagyon sok gazdasági idősor éven belüli mozgásában ugyanazt az oszcilláló viselkedést
követi. Az idősor értékének előrejelzéséhez a szezonalitás, mint szabályosan viselkedő
komponens mindenképpen figyelembe veendő. Vannak olyan jelenségek, amelyeknél éppen a
szezonalitás hatásának a tompítása a cél, és ehhez kell felhasználni a szezonális hatásra
vonatkozó elemzéseket.
A szezonhatás vizsgálatánál arra keresünk választ, hogy a rendszeresen (s azonos
periódushosszal) visszatérő hatások, milyen mértékben vagy arányban térítik el az idősor
értékeit az alapirányzattól. Vizsgálatánál ki kell szűrnünk a trendhatást és a véletlen
hatásokat az adatokból.
Megkülönböztetünk változó és állandó szezonalitást.
Változó szezonalitásnál a szezonális kilengések nem mutatnak állandóságot, periódusonként
változik az egyes szezonokhoz tartozó ingadozás.
Állandó szezonalitásnál a szezonális komponens viselkedése lehet additív és multiplikatív.
Additív szezonalitás esetén a szezonális kilengések abszolút nagysága, a hullámzás
amplitúdója állandóságot mutat, nem függ az idősor értékének nagyságától. Multiplikatív
szezonalitás esetén a szezonális kilengések relatív, a trendhez viszonyított nagysága mutat
állandóságot.
Additív modell esetén a szezonalitást a trendtől való eltérés nagyságával, azaz a trendtől vett
abszolút eltéréssel, multiplikatív modellnél a relatív eltéréssel jellemezzük.
Additív modellnél az idősor egy elemének értékét a komponensek összegeként írhatjuk fel:
ijjijijij scyy ˆ
Míg multiplikatív modellnél a komponensek szorzataként írhatjuk fel.
ijjijijij scyy *ˆ
A trend- és ciklushatást úgy szűrjük ki, hogy az idősor értékeiből rendre kivonjuk (ill. az
idősor értékeit rendre elosztjuk) a trend- és ciklusértékeket.
Additív esetben:
ijjijijij scyy ˆ
Multiplikatív esetben:
ijjs
cy
y
ijij
ij
*
ˆ
Ezt követően minden periódusból vesszük a j-edik eltérést (hányadost), és ezek számtani
átlagát képezzük. Ezzel a véletlen hatást szűrjük ki, illetve tompítjuk.
pn
cyy
s
pn
i
ijijij
j/
ˆ/
1
pn
cyy
s
pn
i
ijijij
j/
)ˆ/(/
1*
Ha a trendet nem lineáris függvénnyel határozzuk meg, akkor nem teljesül az a feltétel, hogy
a szezonális eltérések összege (illetve átlaga) 0 (multiplikatív modellnél, hogy szorzatuk 1)
legyen. Mozgóátlagolással kapott trendértékek esetén ez elméletileg teljesül, de ha kevés
számú megfigyelésünk van, akkor előfordulhat, hogy az átlag nem 0 (illetve a szorzat nem 1).
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
175
Ilyenkor az előbbiekben kiszámított ún. nyers szezonális eltéréseket (ill. szezonindexeket)
korrigáljuk. A korrekció úgy történik, hogy a szezonális eltérések átlagát levonjuk az sj
értékekből (illetve az sj* értékeket elosztjuk az átlaggal).
A szezonális eltérés azt mutatja, hogy a szezonális hatás miatt az adott részidőszakban (pl. a
harmadik negyedévben) mennyivel tér el az idősor adata átlagosan az alapirányzatnak
megfelelő értéktől:
p
s
ss
p
j
j
jj
1'
A szezonindex azt fejezi ki, hogy a szezonhatás következtében az adott részidőszakban a
megfigyelt idősor adata átlagosan hányszorosa a trendértéknek, azaz relatíve mennyivel
(hány %-kal) magasabb vagy alacsonyabb az idősor adata, mint a megfelelő trendadat:
p
s
ss
p
j
j
j
j
1
*
**'
8.2.3 Idősorok szezonális kiigazítása
Sok esetben felmerül a szezonális hatástól megtisztított idősorok előállításának, vagyis az
idősorok szezonális kiigazításának igénye.
Additív modell esetében a szezonálisan kiigazított idősort úgy származtatjuk, hogy az idősor
adataiból kivonjuk a megfelelő szezonális eltérést.
Multiplikatív modellben a szezonális kiigazítást úgy végezzük, hogy az idősor adatait
elosztjuk a megfelelő szezonindexszel.
Példaként tekintsük ismét Nógrád megye lakossági gázfogyasztását!
Additív modellt alkalmazva a szezonalitás jellemzésére, a számítási eredményeket a
következő táblázatba foglaltuk össze.
Ért.gáz Időszak cMA(4) Különb. s’j
Sz.korr.
ért.
3,5 1990 – I 0,96 2,54
3,1 1990 – II 0,09 3,01
2,4 1990 – III 3,63 -1,23 -1,32 3,72
3,9 1990 – IV 4,44 -0,54 0,27 3,63
6,7 1991 – I 5,19 1,51 0,96 5,74
6,4 1991 – II 5,94 0,46 0,09 6,31
5,1 1991 – III 6,44 -1,34 -1,32 6,42
7,2 1991 – IV 6,63 0,58 0,27 6,93
7,4 1992 – I 6,74 0,66 0,96 6,44
7,2 1992 – II 6,85 0,35 0,09 7,11
5,2 1992 – III 7,05 -1,85 -1,32 6,52
8 1992 – IV 7,26 0,74 0,27 7,73
8,2 1993 – I 7,63 0,57 0,96 7,24
8,1 1993 – II 7,94 0,16 0,09 8,01
7,2 1993 – III 8,14 -0,94 -1,32 8,52
8,5 1993 – IV 8,26 0,24 0,27 8,23
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
176
9,3 1994 – I 8,25 1,05 0,96 8,34
8 1994 – II 8,65 -0,65 0,09 7,91
7,2 1994 – III -1,32 8,52
11,7 1994 – IV 0,27 11,43
Az egyes negyedévek szezonális eltérései: sI=0,9475 sII=0,08 sIII=-1,34 sIV=0,255.
A korrekciós tényező: (0,9475+0,08-1,34+0,255)/4=-0,0575/4=-0,01438.
Ezt az értéket rendre levonva a nyers szezonális eltérésekből kapjuk a tényleges sj’ értékeket,
melyeket a táblázatban tüntettünk fel.
8.2.4 Auto- és keresztkorreláció idősorok elemzésénél
Gazdasági idősorok adatainak elemzése a korrelációszámítás szempontjából számos speciális
problémát vet fel. Gyakran előfordul, hogy egy vagy több idősor egymást követő adatai
egymástól nem függetlenek, hanem szoros korrelációban állnak egymással. Ez a jelenség az
autokorreláció, amennyiben egy változó egymást követő adatainak kapcsolatát vizsgáljuk, és
keresztkorreláció, ha több változó hasonló kapcsolatát nézzük. A regressziós modellben ez
úgy jelentkezik, hogy az egymást követő reziduális értékek között korrelációs kapcsolat
mutatkozik. Az autokorreláció különböző rendű lehet. Elsőrendű az autokorreláció, ha az
idősorban a hibatényező t-edik értéke a (t-1)-edik, közvetlen szomszédos értékkel van
korrelációs kapcsolatban.
8.3 Fogalmak
idősor kronologikus átlag
idősorelemzés sztochasztikus modellje idősorelemzés determinisztikus modellje
trend periodikus ingadozás
ciklikus ingadozás szezonális ingadozás
véletlen ingadozás dekompozíciós módszer
additív modell multiplikatív modell
mozgó átlagolás változó szezonalitás
állandó szezonalitás szezonindex
szezonális eltérés
8.4 Elméleti kérdések
1. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és additív
dekompozícióját!
2. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és multiplikatív
dekompozícióját!
3. Ismertesse az idősorban lévő trend becslésére alkalmas mozgó átlagolás módszerét!
4. Mi a lényege és hogyan történik a szezonalitás vizsgálata az additív és a multiplikatív
modell esetében?
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
177
8.5 Típusfeladatok
8.5.1 Feladat
A Magyarországra érkező külföldi látogatók számának idősorából 4-tagú mozgó átlagokat
készítünk. Az adatokat és a számításokat a következő táblázat tartalmazza és az alábbi ábra
szemlélteti:
A példa adatai alapján kiszámítjuk a szezonális eltéréseket, ehhez az előző táblázat alapján
először kiszámítjuk a trend és a mozgóátlag különbségeit:
Év Negyedév y 4 tagú
mozgóátlag
Középre
igazított
átlagok
2007 IV. 3,4
2008 I. 1,9
II. 3,6 4,45
III. 8,8 4,6
IV. 3,6 4,91
2009 I. 2,9 5,38
II. 5,1 5,94
III. 11,0 6,49
IV. 5,9 7,30
2010 I. 5,0 8,30
II. 9,5 9,09
III. 14,6 9,44
IV. 8,6 9,21
2011 I. 5,1 8,81
II. 7,6 8,49
III. 13,3 8,34
IV. 7,3 8,36
2012 I. 5,2 8,29
II. 7,7 8,33
III. 12,6 8,58
IV. 8,3 8,91
2013 I. 6,2 9,38
II. 9,4 9,89
III. 14,6 10,24
IV. 10,4 10,26
2014 I. 6,9 10,73
II. 8,9
III. 14,6
4,425
4,4754,725
5,1
5,65
6,225
6,757,85
8,75
9,425
9,45
8,975
8,65
8,325
8,35
8,3758,2
8,45
8,79,1259,625
10,15
10,325
10,2
10,2
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
178
A jobb áttekinthetőség kedvéért az alábbi táblázatba rendezzük az utolsó oszlopban látható
adatokat, amelyek év ugyanazon negyedévéhez tartozó egyedi szezonális eltéréseket jelentik.
Év I. n.év II. n.év III. n.év IV. n.év
2007
2008 -0,85 4,2 -1,31
2009 -2,44 -0,084 6,38 -1,4
2010 -3,3 0,41 5,16 0,61
2011 -3,71 -0,89 4,96 -1,06
2012 -3,09 -0,63 4,02 -0,61
2013 -3,18 -0,49 4,38 0,14
2014
Minden negyedév szezonmutatóját kiszámítjuk a szezonális eltérések átlagaként:
36,36
15,20
5
43,418,309,371,330,344,2..
évnIs
Év Negyedév y
Középre
igazított
átlagok (y )
(y-y)
2007 IV. 3,4
2008 I. 1,9
II. 3,6 4,45 -0,85
III. 8,8 4,6 4,2
IV. 3,6 4,91 -1,31
2009 I. 2,9 5,38 -2,48
II. 5,1 5,94 -0,84
III. 11 6,48 4,52
IV. 5,9 7,3 -1,4
2010 I. 5 8,3 -3,3
II. 9,5 9,09 0,41
III. 14,6 9,44 5,16
IV. 8,6 9,21 -0,61
2011 I. 5,1 8,81 -3,71
II. 7,6 8,49 -0,89
III. 13,3 8,34 4,96
IV. 7,3 8,36 -1,06
2012 I. 5,2 8,29 -3,09
II. 7,7 8,33 -0,63
III. 12,6 8,58 4,02
IV. 8,3 8,91 -0,61
2013 I. 6,2 9,38 -3,18
II. 9,4 9,89 -0,49
III. 14,6 10,24 4,36
IV. 10,4 10,26 0,14
2014 I. 6,9 10,73 -3,83
II. 8,9
III. 14,6
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
179
55,06
29,3
6
49,063,089,041,084,085,0..
évnIIs
85,46
10,29
6
38,402,496,416,538,620,4..
évnIIIs
76,06
55,4
6
14,061,006,161,040,131,1..
évnIIIs
A korrekciós tényező:
045,04
18,0
4
76,085,455,036,3
s
Ezt az értéket rendre levonva a nyers szezonális eltérésekből kapjuk a tényleges sj’ értékeket:
405,3045,036,3' .. évnIs
Az I. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a I. negyedévekben
átlagosan 3,405 millió fővel kevesebb külföldi látogat Magyarországra, mint a trend szerinti
érték.
595,0045,055,0' .. évnIIs
A II. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a II. negyedévekben
átlagosan 0,595 millió fővel kevesebb külföldi látogat Magyarországra, mint a trend szerinti
érték.
805,4045,085,4' .. évnIIIs
A III. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a III. negyedévekben
átlagosan 4,81 millió fővel több külföldi látogat Magyarországra, mint a trend szerinti érték.
805,0045,076,0' .. évnIVs
A IV. negyedévi szezonális eltérés azt mutatja, hogy a szezonhatás miatt a IV. negyedévekben
átlagosan 0,805 millió fővel kevesebb külföldi látogat Magyarországra, mint a trend szerinti
érték.
8.5.2 Feladat
A magyarországi piaci zöldségfelhozatalra vonatkoznak az alábbi adatok. A táblázatban 4
tagú mozgóátlagolás segítségével meghatároztuk a trendet:
0
500
1000
1500
2000
2500
3000
I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV.
Zöldségfelhozatal
Mozgóátlag
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
180
Számítsuk ki a szezonindexeket a piaci zöldségfelhozatalra vonatkozóan és értelmezzük az
eredményeket!
Megoldás:
Az egyszerűbb áttekinthetőség érdekében használjuk ezt a táblázatot, amely az egyedi
szezonális indexeket mutatja:
Év I. n.év II. n.év III. n.év IV. n.év
2007
0,89 0,37
2008 1,04 1,71 0,88 0,32
2009 0,95 1,79 0,86 0,34
2010 1,36 1,33
Év Negyedév y 4 tagú
mozgóátlag
Középre
igazított
átlagok
2007 I. 1158
II. 1981
III. 1029 1158
IV. 432 1168,5
2008 I. 1222 1171,25
II. 2001 1167,75
III. 1031 1177,5
IV. 402 1269,75
2009 I. 1330 1398
II. 2631 1473
III. 1427 1652
IV. 607 1803,25
2010 I. 2557 1874
II. 2613 1970,125
III. 2011
IV. 792
1150
1171
1171,5
1164
1191
1348,51447,5
1498,5
1805,5
1801
1947
1993,25
1166
ÉvNegyed
év y
Középre
igazított
átlagok (y)
y/y
2007 I. 1158
II. 1981
III. 1029 1158 0,89
IV. 432 1168,5 0,37
2008 I. 1222 1171,25 1,04
II. 2001 1167,75 1,71
III. 1031 1177,5 0,88
IV. 402 1269,75 0,32
2009 I. 1330 1398 0,95
II. 2631 1473 1,79
III. 1427 1652 0,86
IV. 607 1803,25 0,34
2010 I. 2557 1874 1,36
II. 2613 1970,13 1,33
III. 2011
IV. 792
GAZDASÁGSTATISZTIKA II. rész. A matematikai statisztika alapjai
181
Minden negyedév szezonindexét kiszámítjuk az egyedi szezonindexek átlagaként:
167,13
36,195,004,1..
évnIs
61,13
33,179,171,1..
évnIIs
877,03
86,088,089,0..
évnIIIs
343,03
34,032,037,0..
évnIVs
A korrekciós tényező:
99925,04
343,0877,061,1167,1
js
Ezzel az értékkel leosztva a nyers szezonindexeket kapjuk a tényleges sj’ értékeket:
176,19925,0
1675,1' .. évnIs
Az I. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a I. negyedévekben a
zöldségfelhozatal átlagosan 1,176-szoros, mint a trend szerinti érték.
622,19925,0
61,1' .. évnIIs
Az II. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a II. negyedévekben a
zöldségfelhozatal átlagosan 1,622-szoros, mint a trend szerinti érték.
884,09925,0
877,0' .. évnIIIs
Az III. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a III. negyedévekben a
zöldségfelhozatal átlagosan 0,884-szoros, mint a trend szerinti érték.
346,09925,0
343,0' .. évnIVs
Az IV. negyedév szezonindexe azt mutatja, hogy a szezonhatás miatt a IV. negyedévekben a
zöldségfelhozatal átlagosan 0,346-szoros, mint a trend szerinti érték.