statisztikai adatfeldolgozás (excel és r)

136
Tarnóczi Tibor Statisztikai adatfeldolgozás számítástechnikai lehet ő ségei 2006

Upload: tarnoczitibor

Post on 27-Jun-2015

6.957 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Statisztikai adatfeldolgozás (Excel és R)

T a r n ó c z i T i b o r

S t a t i s z t i k a i a d a t f e l d o l g o z á s s z á mí t á s t e c h n i k a i l e h e tő s é g e i

2 0 0 6

Page 2: Statisztikai adatfeldolgozás (Excel és R)
Page 3: Statisztikai adatfeldolgozás (Excel és R)

I

Tartalomjegyzék

Bevezetés .................................................................................................................................... 1

1. A statisztikai adatfeldolgozás és annak számítógépes támogatási lehetőségei ................ 3

1.1. Az adatfeldolgozás szakaszai és jellemzői ....................................................... 4 1.2. Az adatfeldolgozást támogató számítógépes programok .................................. 7 1.3. Az MS Excel alkalmazása statisztikai adatfeldolgozásban .............................. 8 1.4. Az R statisztikai programnyelv alkalmazása statisztikai adatfeldolgozásban 12

2. Főbb eloszlástípusok és ábrázolási lehetőségek ................................................................ 21

2.1. Egyenletes eloszlás ......................................................................................... 22 2.2. Binomiális eloszlás (Bernoulli eloszlás) ......................................................... 25 2.3. Poisson-eloszlás .............................................................................................. 28 2.4. Exponenciális eloszlás .................................................................................... 30 2.5. Normális eloszlás ............................................................................................ 33 2.6. Ábrázolási lehetőségek ................................................................................... 37

2.6.1. Hisztogramok ........................................................................................... 39 2.6.2. Pont-, vonal-, oszlop- és kördiagramok ................................................... 43 2.6.3. Boxplot ábrázolás .................................................................................... 49 2.6.4. Páronkénti ábrázolás ................................................................................ 54 2.6.5. Egyéb ábrázolási technikák ..................................................................... 56

3. Alapstatisztikák ................................................................................................................... 62

3.1. Helyzeti és számított középértékek ................................................................. 62 3.1.1. Számtani átlag .......................................................................................... 62 3.1.2. Harmonikus átlag ..................................................................................... 64 3.1.3. Mértani átlag ............................................................................................ 65 3.1.4. Négyzetes átlag ........................................................................................ 65 3.1.5. Módusz ..................................................................................................... 66 3.1.6. Medián ..................................................................................................... 66 3.1.7. Kvantilisek ............................................................................................... 67

3.2. A szóródás és mérőszámai .............................................................................. 68 3.3. A ferdeség (skewness) és a csúcsosság (kurtosis) .......................................... 69 3.4. A középértékek és a szóródás kiszámításának lehetőségei az Excelben és az R rendszerben ............................................................................................................ 71 3.5. Hipotézistesztelés, alapvető paraméteres és nem-paraméteres statisztikai próbák .................................................................................................................... 78

3.5.1. A hipotézisvizsgálat menete .................................................................... 78 3.5.2. u-próba ..................................................................................................... 79 3.5.3. t-próba ...................................................................................................... 81 3.5.4. F-próba ..................................................................................................... 84 3.5.5. χ2-próba .................................................................................................... 85

4. Mintavételezés, varianciaanalízis ...................................................................................... 90

4.1. Mintavételi eljárások ....................................................................................... 90 4.2. A varianciaanalízis .......................................................................................... 92

4.2.1. Egytényezős varianciaanalízis ................................................................. 92 4.2.2. Kéttényezős varianciaanalízis .................................................................. 98

Page 4: Statisztikai adatfeldolgozás (Excel és R)

II

5. Korreláció és regressziószámítás ..................................................................................... 103

5.1. Korrelációszámítás ........................................................................................ 103 5.2. Regressziószámítás ........................................................................................ 105

5.2.1. Kétváltozós lineáris regresszió ............................................................... 105 5.2.2. Többváltozós lineáris regresszió ............................................................ 113

5.3. Idősorok elemzése ......................................................................................... 117

6. Többváltozós statisztikai módszerek .............................................................................. 122

6.1. Faktor- és főkomponensanalízis .................................................................... 122 6.2. Diszkriminanciaanalízis ................................................................................ 129 6.3. Klaszterelemzés ............................................................................................. 131

Irodalomjegyzék ................................................................................................................... 132

Page 5: Statisztikai adatfeldolgozás (Excel és R)

1

Bevezetés

A társadalmi jelenségek és folyamatok elemzése az objektív valóság megfigyelésén

és megértésén alapszik. Magában foglalja a megfigyelések eredményeinek

rendszerezését, a lényeg megállapítását, az ellentmondások és a fejlődési tendenciák

feltárását, valamint a jelenségek és folyamatok ok-okozati kapcsolatainak tisztázását.

Az elemzés, mint irányítási funkció komplex és rendszeres tevékenységnek

tekinthető.

A globalizálódó, vagy inkább már a globalizálódott gazdaságban az erősödő verseny

egyre inkább előtérbe helyezi a gyors és minőségi vezetői döntéshozatal jelentőségét.

A társadalom és a gazdaság szinte minden területén, a döntések megfelelő szintű

támogatásához, elengedhetetlenül szükség van elemzések végzésére. A társadalmi és

a gazdasági folyamatok felgyorsulása és a reakcióidő lecsökkenése miatt a döntési

folyamatra kevesebb idő maradt, ugyanakkor a megoldandó problémák

bonyolultsága és a döntéshez felhasználandó információ mennyisége megnövekedett.

Ilyen környezetben még inkább növekszik az igény vezetői döntéshozatal

számítógépes támogatására. Nagyobb vállalatok esetében ma már elképzelhetetlen,

hogy megalapozott döntéseket lehessen hozni megfelelő számítógépes rendszerek

igénybevétele nélkül.

Az elmúlt néhány évtized alatt a számítástechnika mind a hardver, mind a szoftver

vonatkozásában hatalmas fejlődésen ment keresztül. Ma már általában nem az a

kérdés, hogy meg lehet-e oldani az adott problémát számítógéppel, mert az esetek

többségében erre megvan a lehetőség. Ma már inkább azt a kérdést kell előtérbe

helyezni, hogyan oldható meg a probléma úgy, hogy a számítógép a felhasználó által

könnyen kezelhető módon, a lehető legmagasabb szintű támogatást tudja nyújtani. A

számítógépes rendszerek csak megfelelő számítógépes és szakmai intelligenciával

működtethetők, ami azt is megköveteli, hogy a szakmai képzés elengedhetetlen

részének kell lennie az alapvető számítástechnikai és informatikai intelligencia

megszerzésének.

Page 6: Statisztikai adatfeldolgozás (Excel és R)

2

Ma már egyre több elemzési lehetőséget biztosító szoftver áll rendelkezésre és az

elmúlt évtizedekben az elemzési módszerek is hatalmas mértékben fejlődtek. A

könyvben, mint elemzési módszerekkel, a statisztikai módszerekkel foglalkozunk. A

statisztikai módszerekkel megalapozott döntések azonban csak akkor lesznek

helyesek, a gyakorlatban is jól interpretálhatók, ha sikerül megtalálni a megfelelő

módszert és az alkalmazásánál körültekintően, a statisztika szabályainak megfelelően

járunk el. Tisztában kell lennünk azzal is, hogy a társadalmi és gazdasági jelenségek

statisztikai vizsgálata a nem teljes információjú döntések kategóriájába tartozik, és az

elemzésnél, valamint a kapott eredmények felhasználásánál erről sohasem szabad

megfeledkezni. A bizonytalansággal szembenézni természetesen nem mindig könnyű

dolog, és ezért néha úgy teszünk, mintha nem is létezne, ugyanakkor a vizsgált

jelenség természetének megfelelő módszer és eljárás kiválasztásával és egzakt

alkalmazásával a probléma nagyrészt kezelhető.

A statisztika módszertanával minden elemzést végzőnek annak ellenére tisztában kell

lennie, hogy sok könnyen használható, a számításokat támogató program áll

rendelkezésre, mert a számítások elvégzése után komoly feladatot jelent a kapott

eredmények értelmezése. Azt is tudomásul kell vennünk, hogy a realitások világa a

korlátozások világa, ami azt jelenti, hogy a különböző statisztikai módszereket

alkalmazva arra kell törekednünk, hogy inkább a gyakorlati szempontokat

részesítsük előnyben a módszertani eleganciával szemben. A módszerek

megkövetelte alaposságot azonban sohasem szabad figyelmen kívül hagyni.

A statisztikai módszertan megismerése hozzájárulhat az egyes számítási eljárások

pontosabb használatához, és megkönnyíti a kapott eredmények jobb értelmezését, a

jelenségek ok-okozati kapcsolatainak megmagyarázását. A bonyolultabb módszerek

(pl. faktor-, főkomponens-, klaszter- és diszkriminancia-elemzés) lehetővé tehetik új

összefüggések feltárását megismerését, illetve új megvilágításba helyezhetnek már

feltárt kapcsolatokat.

Page 7: Statisztikai adatfeldolgozás (Excel és R)

3

1. A statisztikai adatfeldolgozás és annak számítógépes

támogatási lehetőségei

A statisztika latin eredetű, a "status" szóból származik, amelyet állapotnak és

államnak is fordíthatunk; arra utal, hogy a statisztika tárgya mindig valamilyen

állapot leírására szolgál. Az ebbe a körbe tartozó adatok - természetesen - kielégítik

az informatika általános adatfogalmát, de annál kicsit szűkebbek.

Azt mondhatjuk, hogy a statisztika által használt adatfogalom mindig valamilyen - a

valós világra vonatkozó - kísérlet, megfigyelés, vizsgálat eredményeként adódik, s a

legtöbbször számként jelenik meg, méghozzá általában nem is egy számként - hanem

több adatként. Ahogy matematikai statisztikai könyvek gyakran fogalmaznak: a

statisztika a véletlen tömegjelenségekkel, ezek törvényeivel foglalkozik.

A mindennapokban egyre több új és reagálásra késztető problémával szembesülünk.

A kormányok, a vállalatok és a társadalom széles rétegei több információt

igényelnek, mint bármikor ezelőtt, hogy megfelelő segítséget kapjanak a problémák

megoldásához szükséges döntések meghozatalához. Ez az igény helyez különös

hangsúlyt az adatgyűjtésre és az összegyűjtött adatok feldolgozására, az adatok

döntéshozatalhoz szükséges információvá alakítására, és a kapott információ

megfelelő formában történő bemutatására.

Mielőtt a fenti tevékenységekkel foglalkoznánk célszerű megérteni az adat, az

információ és a statisztikai feldolgozás fogalmakat. Az adatok megfigyeléseket vagy

tényeket jelentenek, amelyek összegyűjtve, rendszerezve és kiértékelve válnak

információvá, majd tudássá. Az előzőek alapján az információ tehát adott

felhasználási célból rendszerezett és feldolgozott adatot jelent, amely már

közvetlenül felhasználható a döntéshozatalban.

A statisztika az információ előállításához és bemutatásához biztosít általános

módszereket. A statisztika általában numerikus adatokkal dolgozik, és többnyire

azokon a tudományterületeken használható, amelyek numerikus adatokból kívánnak

Page 8: Statisztikai adatfeldolgozás (Excel és R)

4

információt előállítani. A statisztika tehát hasznos információt állít elő többnyire

számok felhasználásával.

1.1. Az adatfeldolgozás szakaszai és jellemzői

A vállalatok és a magánszemélyek adatokat gyűjtenek, mert nekik vagy valaki

másnak a döntéshozatalhoz információra van szüksége. Az adatgyűjtésnek általában

három fő formáját szoktuk megkülönböztetni: összeírás, mintavétel és adminisztráció

útján. Mindhárom adatgyűjtési módnak vannak előnyei és hátrányai, önállóan és

egymással összehasonlítva is. A módszer kiválasztása több tényezőtől is függhet.

Az összeírás azt jelenti, hogy adatot gyűjtünk megadott jellemzők vonatkozásában

egy megadott csoport vagy populáció minden egyes tagjára vonatkozóan. Előnye a

pontosság és a részletesség, hátránya a magas költség és időigény.

A mintavétel azt jelenti, hogy a teljes csoport vagy populáció helyett, annak

valamilyen szempont szerint kiválasztott részéről szerzünk be adatokat a megadott

jellemzők vonatkozásában. Előnye a gyorsabb és olcsóbb adatgyűjtés, hátránya a

pontosságban és a részletességben bekövetkező veszteség.

Az adminisztráció útján történő adatgyűjtés a szervezet napi tevékenysége során

összegyűjtött adatokat értjük. Az adatgyűjtés ebben az esetben szorosan kapcsolódik

a szervezet tevékenységéhez. Előnye a pontosság, egyszerűség és az idősoros adat

előállás, hátránya a rugalmatlanság és a külső kontroll hiánya.

Az adat feldolgozatlan tény, és ha rendszerezzük, és az igényeknek megfelelően

bemutatjuk, akkor válik információvá. Az adat információvá válása több lépésen

keresztül megy végbe, amely lépések alkotják az adatfeldolgozási folyamatot. Az

adatmennyiség növekedésével a feldolgozási folyamat egyre hosszabbá válik, és

egyre bonyolultabb módszereket igényelhet. A folyamat, megfelelő teljesítményű

számítógépekkel és a feldolgozást magas szinten támogató programokkal jelentős

mértékben lerövidíthető. Napjaink felgyorsult világa, és az ehhez társuló lerövidült

Page 9: Statisztikai adatfeldolgozás (Excel és R)

5

reakcióidő feltétlenül szükségessé teszi az adatfeldolgozás megfelelő technikai és

módszertani támogatását.

Az adatok számítógépes feldolgozása – az összegyűjtött adattömeg milyenségének

függvényében - a következő fázisokat foglalhatja magában:

• az adatok kódolása,

• az adatok rögzítése,

• az adatok szerkesztése, rendszerezése,

• az adatokon elvégzett műveletek.

Mielőtt az adatokat a számítógépbe bevinnénk, szükségessé válhat az adatok

kódolása. A kódolás jelentheti a megfelelő azonosítókkal történő ellátást, az

adatokhoz egységes jellemzők rendelését vagy akár a nem numerikus adatok

numerikussá tételét is (pl. kérdőívek feldolgozása). A kódolásra azért lehet szükség,

hogy a nyers adatok számítógépre vitelét és számítógépes feldolgozását könnyebbé

tegyük.

Az adatok rögzítése jelentheti az adatok számítógépbe vitelét, más adatbázisokból

történő kinyerését és adathordozókon a feldolgozó programok által igényelt

formában történő tárolását. A megfelelő formában tárolt adatok könnyebbé és

gyorsabbá teszik az adatokon elvégzendő manipulációkat.

Az adatok szerkesztése és rendszerezése jelentheti az adatok ellenőrzését, az

adatokban meglévő problémák kiküszöbölését, az adatrekordok valamilyen

szempontok szerinti rendezését, vagy a rendezéshez szükséges információk

megadását. A szerkesztés és rendszerezés gyorsabbá tehető speciális számítógépes

programok segítségével. Az adatok pontatlansága, érvénytelensége, hiányossága az

eredmények interpretálási hatékonyságát fogja rontani.

Az adatfeldolgozási folyamat utolsó lépése a szükséges adatmanipulációk, illetve

számítások elvégzése, az igényelt output előállítása. Az adatmanipulációhoz

szükséges program kiválasztása annak függvénye, hogy milyen számításokra van

szükségünk, illetve milyen outputot szeretnénk előállítani. Minden esetben azt kell

Page 10: Statisztikai adatfeldolgozás (Excel és R)

6

figyelembe venni, hogy a programmal olyan információkat biztosítsunk, hogy azok a

döntéshozatalhoz a lehető legkönnyebben felhasználhatóak legyenek. Az egész

adatfeldolgozást a döntéshozatal alá kell rendelni. Az előzőek figyelembe vételével

használhatunk egyszerűbb és bonyolultabb programokat is. Kisebb adatmennyiség és

egyszerűbb módszerek esetén jó szolgálatot tehetnek a táblázatkezelő programok, de

nagyobb adattömegek és bonyolultabb számítások esetén célprogramokat célszerű

használni. Nagy adatmennyiség feldolgozása esetén szükség lehet az adatok

adatbázisban történő tárolására is, ami meghatározhatja, hogy mely feldolgozó

programok vehetők számításba. Fontos szempont lehet az is, hogy az adott program

milyen típusú outputok előállítására képes. Előfordulhat, hogy az outputot tárolni

kell és később más programmal továbbfeldolgozást kell végezni rajta, vagy szükség

lehet olyan outputra, amely lehetővé teszi az információk megfelelő formában

történő továbbítását vagy nyilvánosságra hozatalát (pl. internet).

A vizsgálat jellege szerint a statisztika adatainak két nagy fajtáját különböztetjük

meg: a mérhető és a megállapítható adatokat. Amennyiben az adatunk valamilyen

mérés termékeként keletkezik, akkor mérhető adatról beszélhetünk. A mérés -

általánosítva - nem más, mint egy hozzárendelés, ami a valós világ egy bizonyos

objektuma (illetve annak része) és egy szám között áll fenn. Figyelembe véve azt is,

hogy nem minden jelenség mérhető megfelelő szabatossággal, a mérés fogalmát

általánosíthatjuk: a mérhető adatok tehát egy olyan skálán helyezkednek el, amelyet

hasonlónak tekinthetünk valamilyen mérőműszer skálájához.

Megállapítható adatokhoz úgy juthatunk, ha a mérés szerepét egy megállapítás veszi

át. A megállapításban szereplő kategóriákhoz tartozhat számérték, de olyan eset is

lehetséges, amikor nem kapcsolódik hozz á számérték (pl.: egy adott személy neme).

Ide tartoznak az "igen - nem"-mel megválaszolható kérdések is.

Amennyiben az adatok között hierarchiát értelmezünk, akkor belátható, hogy a

megállapítható adatok alacsonyabb rendűek, mint a mérési adatok. Ennek oka

egyszerű: nyilvánvaló, hogy számokkal sokkal egyszerűbb műveleteket végezni,

mint a megállapításokkal (kategóriákkal). Ráadásul a mérhető adatok mindig

átalakíthatóak megállapíthatókká, az ellenkező lehetőség azonban nem áll fenn.

Page 11: Statisztikai adatfeldolgozás (Excel és R)

7

1.2. Az adatfeldolgozást támogató számítógépes programok

A vállalkozások napjainkban a kiélezett verseny követelményeinek csak

számítógépes adatfeldolgozással tudnak megfelelni. A felhasznált számítógépes

rendszerek egyre szélesebb szolgáltatásokat nyújtanak a felhasználóknak. Ezen

rendszerek használata ugyanakkor a számítástechnikát, és a használt programot

megfelelő szinten használni képes felhasználókat igényel. Azt is látnunk kell, hogy

az egyre többet tudó programok egyre bonyolultabbakká válnak, és az áruk is egyre

magasabb lesz. Általában olyan programokat célszerű beszerezni, amelyek

használata rövid idő alatt elsajátítható és a használatuk is viszonylag egyszerű.

Napjainkban nagyon sok statisztikai számításokra alkalmas program létezik, a

táblázatkezelő programoktól az integrált statisztikai programrendszerekig. A

legkönnyebben hozzáférhető program a Microsoft Excel táblázatkezelő programja,

amely része a Microsoft Windows Office-nak, így szinte minden számítógépen

hozzáférhető. Sok statisztikai elemző program is létezik, köztük például a

következők:

Ingyenes programok Kereskedelmi forgalomban beszerezhető programok

• MicrOsiris • Minitab

• Scilab • SAS

• OpenStat • S-plus

• R • SPSS

• Gnumeric • STATGRAPHICS Plus

• Octave • STATISTICA

• ViSta • XPlore

• WinIDAMS

A programok között felsorolásra került a SAS Institute rendszere is, amely ugyan

tartalmaz statisztikai alrendszert is, de az egész rendszer valójában egy integrált

Page 12: Statisztikai adatfeldolgozás (Excel és R)

8

üzleti intelligencia rendszerként fogható fel. Ez a programrendszer nagyon

széleskörű szolgáltatásokat biztosít a felhasználók számára, de a magas ára (és a

rendszer viszonylagos bonyolultsága) nem teszi lehetővé, hogy a vállalkozások nagy

száma használja ezt a rendszert.

A tananyaghoz kapcsolódó példák megoldásához két programot fogunk használni.

Az egyik a széles körben elérhető MS Excel táblázatkezelő, a másik az R statisztikai

programnyelv. Az első programot azért választottuk, mert azt gondoljuk, hogy az

szerves része a számítástechnikai alapintelligenciának, és ismerete az alapvető

elvárások közé tartozik. A második program pedig azért került kiválasztásra, mert

szinte minden operációs rendszeren működik, ingyenesen hozzáférhető és nagyon

sok szolgáltatással rendelkezik.

1.3. Az MS Excel alkalmazása statisztikai adatfeldolgozásban

A Microsoft Excel (továbbiakban: Excel) táblázatkezelő szinte minden PC-n

megtalálható, ezért a számítógép használók széles köre számára biztosít különböző

számítási és jelentéskészítési lehetőséget. Az Excel hatékony elemzési,

kommunikációs és megosztási szolgáltatásokat kínál, amelyek segítségével az

adatokból információt nyerhetünk. Az Excel egyszerűbbé teszi a csoportmunkát,

valamint lehetővé teszi az adatok védelmét és az adatokhoz való hozzáférés

szabályozását. Ezen kívül használható a szabványos XML-formátum is, és így

egyszerűbben részt vehetünk az üzleti folyamatokban.

Az Excel más hasonló táblázatkezelő programokhoz hasonlóan az adatokat

táblázatban (munkalapon), pontosabban fogalmazva a táblázatok celláiban (a sorok

és az oszlopok kereszteződése), mezőiben tárolja. A táblázatokat sorok és oszlopok

alkotják, illetve más megközelítésben, a táblázat cellái oszlopokba és sorokba

rendeződnek. A munkalapok egy munkafüzetet alkotnak, amely tartalma egy önálló

fájlba menthető. A munkafüzet a fájl nevét kapja, és a munkafüzet összes

alkotóeleme ellátható névvel, amely nevekre a képletekben hivatkozni is lehet. A

képletekben azonban hivatkozhatunk munkalap tartományokra is (vektor, mátrix).

Page 13: Statisztikai adatfeldolgozás (Excel és R)

9

A képlet egy olyan összefüggés (kifejezés), amely ugyanazon vagy más

munkalapokon lévő adatokat használ fel különböző számítások, műveletek

elvégzéséhez. A képletek megadásához szükségünk van azok szintaxisának az

ismeretére is, mert különben hibát követhetünk el. A szintaxis egy programnyelv

használatára vonatkozó szabályok összessége. A számítás folyamatát az Excelben a

képletek szintaxisa szabja meg. A képletek begépelését az „=” vagy a „+” jellel kell

kezdenünk.

Az Excel képletekben, kifejezésekben függvényeket is használhatunk. A függvények

lehetnek beépítettek és saját fejlesztésűek. Az Excel több mint 300 beépített

függvénnyel rendelkezik. A függvények begépelhetők a billentyűzetről vagy

megadhatók az „fx” függvényvarázslóval is. A függvényvarázsló táblázatos

formában lehetőséget biztosít a függvény argumentumainak (paramétereinek) a

megadására, és segítséget is biztosít az egyes paraméterek értelmezéséhez. A

függvényargumentumok helyes megadása esetén, a függvényvarázsló alján (Érték:)

megjelenik a számított érték is (1. ábra). A függvényvarázsló gyorsabbá és

kényelmesebbé teszi a függvények megadását és szerkesztését. A függvények

argumentumaként megadhatók konstans értékek, cella és tartomány (tömb)

hivatkozások is. A függvények segítségével egyszerű és összetett számításokat is

végezhetünk.

Az Excel beépített függvényei jól használhatók az üzleti élet különböző területein.

Az Excel beépített függvényeivel a munka- és makrólapokon, a gyakorta előforduló

számításokat hajthatjuk végre. Az Excel függvény csoportjai:

• Adatbázis függvények

• Dátum és idő függvények

• Külső függvények (a bővítménykezelő segítségével tölthetők be)

• Mérnöki függvények

• Pénzügyi függvények

• Információs függvények

• Logikai függvények

• Kereső és hivatkozási függvények

• Matematikai és trigonometriai függvények

Page 14: Statisztikai adatfeldolgozás (Excel és R)

10

• Statisztikai függvények

• Szöveg és adat függvények

1. ábra

A függvényvarázsló használata

Azokat az értékeket, amelyeket a függvényeknek adunk a műveletek

végrehajtásához, a függvény argumentumainak, a függvényből visszakapott értékeket

pedig eredménynek nevezzük.

A függvényeket a munkalap képleteiben használhatjuk. A függvény leírásakor a

karakterek sorrendjét (leírási szabályait) a függvény szintaxisának nevezzük. Az

összes függvényt azonos szabályok szerint kell leírni. Ha nem tartjuk be az előírt

szintaxist, az Excel hibaüzenetet jelenít meg, amely a képletben lévő hibára hívja fel

a figyelmet. Ha a függvény a képlet elején szerepel, akkor eléje egyenlőségjelet kell

Page 15: Statisztikai adatfeldolgozás (Excel és R)

11

írni. A zárójelek az argumentum sorozat kezdetét és végét jelzik az Excelnek. A

zárójeleket párosával kell használni, és sem előttük, sem utánuk nem állhat szóköz.

Az argumentumokat a zárójelek között kell megadni. Az argumentum szám, szöveg,

logikai érték, tömb, hibaérték vagy hivatkozás lehet, azaz bármi, ami az

argumentumban megkívánt típusú értéket adja. Több függvényhez megadhatunk

olyan argumentumo(ka)t is, amely(ek) a számítások végrehajtásához nem feltétlenül

szükségesek (opcionális argumentum).

Az argumentumok állandók vagy képletek is lehetnek. Ha argumentumként képletet

használunk, ebben szerepelhetnek további függvények is. Ha egy függvény

argumentuma maga is függvény, azt beágyazott függvénynek nevezzük. Az Excel

képleteiben legfeljebb hét szint mélységig ágyazhatunk egymásba függvényeket.

A függvények egyik csoportja a statisztikai elemzésekhez biztosít különböző

eljárásokat, és az Eszközök menü Adatelemzés almenüjében is találhatók különböző

összetettebb statisztikai elemzési (modellezési) lehetőségek:

• Egytényezős varianciaanalízis

• Kéttényezős varianciaanalízis ismétlésekkel és ismétlések nélkül

• Korreláció- és kovariancia analízis

• Leíró statisztikák

• Exponenciális simítás

• Kétmintás F-próba a szórásnégyzetre

• Fourier-analízis

• Mozgóátlag

• Véletlenszám generálás

• Rangsor és százalékos rangsor

• Regresszió

• Mintavétel

• Kétmintás párosított t-próba a várható értékekre

• Kétmintás t-próba egyenlő és nem-egyenlő szórásnégyzeteknél

• Kétmintás z-próba a várható értékekre

Page 16: Statisztikai adatfeldolgozás (Excel és R)

12

Az MS Excel előnye, hogy könnyű hozzáférni, használata viszonylag könnyen

megtanulható és a táblázatos forma lehetővé teszi az adatok könnyű áttekintését és

kezelését. Az elemzési lehetőségeken túl az Excel különböző adatbeviteli

lehetőségeket biztosít a billentyűzeten keresztüli beviteltől az adatbázisokból történő

adat kinyerésig. Mindezeken túl adatainkat, illetve az elemzés eredményeit sokféle

formában ábrázolhatjuk is, illetve lehetőségünk van különböző táblázatokban történő

megjelentetésükre is.

1.4. Az R statisztikai programnyelv alkalmazása statisztikai adat-

feldolgozásban

Az R statisztikai programnyelv az S-plus (Bell Laboratories) kereskedelmi

forgalmazású statisztikai programnyelv ingyenes, szabad fejlesztésű változata.1 Az R

nyelv szinte minden operációs rendszer alatt működik. Használata egyszerű, mégis

nagyon sokféle feladat megoldására alkalmas. Az R rendszer egy programnyelv és

egy környezet statisztikai feladatok megoldására és ábrázolására. A nyelv

alapváltozata párbeszédes üzemmódban script-ek megadásával használható (2. ábra),

de ma már léteznek olyan fejlesztések is, amelyek lehetővé teszik a program

elfogadható szintű grafikus felületen történő használatát is (pl.: Rcmdr, JGR,

Statistical Lab2) (3. ábra).

A nyelv kiváló, beépített help (segítség) rendszerrel rendelkezik, ami nagymértékben

megkönnyíti az egyes parancsok, függvények használatát. Az R amellett, hogy

lehetővé teszi különböző statisztikai feladatok megoldását, lényegében egy könnyen

megtanulható és használható programnyelv is. Fontos megjegyezni, hogy a

statisztikai elemzések széles körének elvégzése (lineáris és nem-lineáris modellezés,

klasszikus statisztikai tesztek, idősor elemzések, osztályozások, stb.) nem igényel

programozási ismertet. Programozásra csak akkor van szükség, ha a rendelkezésre

álló csomagok között nem találjuk a számunkra szükségeset, vagy a meglévők

valamelyikét át szeretnénk alakítani. Az R rendszer könnyen bővíthető.

1 A program és az alapvető dokumentációk letölthetők a http://www.r-project.org/ honlapról. 2 A program letölthető a http://www.statistiklabor.de/en/ honlapról.

Page 17: Statisztikai adatfeldolgozás (Excel és R)

13

Az R környezet egy integrált szoftver eszköz adatmanipulációs, számítási és grafikus

megjelenítési lehetőségekkel, amelyek magukban foglalják a következőket:

• hatékony adatkezelési és tárolási lehetőség,

• tömbökön számításokat végző operátorok,

• széleskörű, koherens, integrált adatelemzési eszközök,

• az adatelemzés grafikus megjelenítési lehetőségei képernyőn, nyomtatott

formában, illetve web-es felületeken,

• magas szintű, mégis egyszerű és hatékony programozási nyelv, amely

tartalmazza a hagyományos programozási elemeket is.

2. ábra

Az R nyelv script üzemmódú működési felülete

Az R nyelv különböző adatstruktúrákon képes műveletet végezni. Az alap adat-

struktúra a vektor. Az R nyelv alapértelmezésben minden megadott adatot vektornak

tekint, és műveleteket is alapvetően vektorokkal végez. A megadott változók is

alapértelmezésben vektorok. Mivel a statisztikai elemzésben általában nem egyedi

Page 18: Statisztikai adatfeldolgozás (Excel és R)

14

adatokkal, hanem adatsorokkal dolgozunk, ezért ez a működési mód lehetővé teszi a

gyors és egyszerű munkavégzést. Például, ha az alábbi adatokkal a megadott össze-

függést szeretnénk kiszámolni, akkor azt a következőképpen tehetjük:

3. ábra

A Statistical Lab induló felülete

>3 x = c(1, 2, 3, 4, 5, 6)

> y = c(2.5, 3.4, 5.4, 3.8, 4.6, 6.1)

> z = x * y + 1

Eredményül a z vektort kapjuk. A számítás során a két vektor megfelelő elemei

szorzódnak össze, és minden elemhez hozzáadásra kerül 1 (4. ábra).

3 A ’>’ szimbólum a prompt jel, amely után lehet az utasításokat begépelni.

Page 19: Statisztikai adatfeldolgozás (Excel és R)

15

A nyelv lehetővé teszi, hogy a vektorokra a megszokott műveleti jeleket,

függvényeket használjuk, illetve magunk is írhatunk függvényeket, amelyek más

műveletekben felhasználhatók, esetleg a későbbi felhasználáshoz tárolhatók is.4 A

vektorok nemcsak numerikus értékeket, hanem logikai és karakter értékeket is

tartalmazhatnak.

5

4. ábra

Műveletvégzés az R rendszerben

Az R nyelv más adatstruktúrákat is tud létrehozni és azokon műveleteket végezni.

Ilyen adatstruktúrák lehetnek a mátrixok (tömbök), a factor-ok, a listák, a data frame-

ek. Ezen adatstruktúrák létrehozása különböző függvények segítségével lehetséges.

A létrehozott struktúrákkal szintén képes műveleteket végezni az R nyelv. A

mátrixok esetében lehetőség van a lineáris algebrában megszokott mátrix műveletek

elvégzésére is, ami leegyszerűsíti a különböző statisztikai számítások elvégzését.

A factor a vektor egy speciális formája, ahol a vektorok különböző szintjei

alakíthatók ki, ami jól használható különböző kategóriák megjelenítéséhez, mind a

modellezésben és mind az ábrázolásokban. A data frame lényegében egy

általánosított mátrix, ahol a különböző oszlopok eltérő típusokat is jelenthetnek, de

egy adott oszlopnak ugyanazt a típust kell tartalmaznia. A data frame oszlopainak és

sorainak neveket is adhatunk, és a számításokban ezekkel a nevekkel hivatkozhatunk

is az adott oszlopra vagy sorra. Így lényegében táblázatokat tudunk létrehozni. A

data frame lényegében adatoszlopok listájának is tekinthető.

4 A vektorokra alapozott műveletvégzés, programozás esetén, az esetek többségében feleslegessé teszi

az ún. ciklusutasítások használatát, ami jelentős mértékben megkönnyíti a programozást. 5 A ’c’ függvény az argumentumait egy vektorrá vagy listává konvertálja. Az argumentumok tipusa

tetszőleges lehet.

Page 20: Statisztikai adatfeldolgozás (Excel és R)

16

1. feladat

Data frame példa: 10 embertől megkérdezték a súlyát és a magasságát és

feljegyezték a nemüket (N – nő, F – férfi), az adatokból a következő lépésekben lehet

data frame-et létrehozni (eredmény - 5. ábra):

> súly = c(55, 65, 52, 70, 76, 61, 80, 57, 68, 85)

> magasság = c(151, 166, 148, 180, 178, 164, 180, 160, 162, 179)

> nem = c(’N’, ’F’, ’N’, ’F’, ’F’, ’N’, ’F’, ’N’, ’N’, ’F’)

> személyek = c(”Személy_1”, ”Személy_2”, ”Személy_3”, ”Személy_4”,

+6 ”Személy_5”, ”Személy_6”, ”Személy_7”, ”Személy_8”, ”Személy_9”,

+ ”Személy_10”)

> vizsgálat = data.frame(személyek, súly, magasság, nem,

+ row.names=”személyek”)

> vizsgálat 7

Az előzőekben említett adatstruktúráknak nemcsak a programozásban van szerepük,

hanem a már kész statisztikai eljárások használatát is jelentős mértékben

megkönnyítik, amint azt később a konkrét statisztikai alkalmazásoknál látni is

fogjuk.

2. feladat:

Hozzunk létre egy függvényt, amely a szórást (standard eltérést) számítja ki (6. ábra).

A szórás képlete:

6 Ha egy utasítás nem fér el egy sorban, akkor több sorban is megadható, és a ’+’ szimbólum a

folytató sort jelenti. 7 A változó nevének beírása és Enter után kiírásra kerül a változó tartalma. Változónévként lehet

ékezetes betűket is használni.

( )

1)( 1

2

=

∑=

n

xx

xSD

n

ii

Page 21: Statisztikai adatfeldolgozás (Excel és R)

17

A függvény létrehozása a képlet alapján az R nyelvben:

std = function(x) sqrt(sum((x - mean(x))^2) / (length(x) - 1))8

5. ábra

A „data frame” példa eredménye

Az egyenlőségjel bal oldalán található „std” a függvény neve. Az egyenlőségjel jobb

oldalán található függvényt a „function” utasítással kell kezdeni, és az utána lévő

zárójelben kell megadni a függvény attribútumait9. A függvény beépített

függvényeket is meghív:

• sqrt négyzetgyökvonás

• sum összegzés

• mean átlagszámítás

• length a vektor hossza

8 A függvény létrehozását a képlet elemeihez ragaszkodva oldottam meg. A valóságban ez az eljárás

egyszerűbben is létrehozható (és az igazat megvallva a függvény ’sd’ néven létezik is az R-ben): std = function(x) sqrt(var(x)) 9 Lehetőség van az attributumoknak kezdő érték megadására is. Ilyenkor, ha az attributum hiányzik,

akkor a megadott értékkel számol a program.

Page 22: Statisztikai adatfeldolgozás (Excel és R)

18

A R statisztikai programnyelv többféle adatbeolvasási lehetőséggel is rendelkezik.

Vihetünk be adatokat billentyűzetről, olvashatunk be file-okból vagy akár az

internetről is. Web oldalról a következőképpen olvashatunk be adatokat (jelen

esetben egy data frame-et):

xx = read.table(http://www.econ.unideb.hu/tarnoczi/buscalc/stocks.txt")

6. ábra

Függvény létrehozása az R rendszerben

Az utasítás a honlapról egy táblázatot olvas be, amely a BUX indexet, az OTP, az

EGIS és a BCHEM részvények záróárfolyamát, kereskedési mennyiségét és értékét

tartalmazza. Ha a beolvasott ’data frame’-et hozzárendeljük a rendszerhez (attach),

akkor az oszlop elnevezésekre, mint változókra hivatkozhatunk is.

Lehetőségünk van különböző formátumban megadott adatok beolvasására is, illetve

adatokat vehetünk át más rendszerekből is (pl.: Excel, SAS, SPSS, stb.). A rendszer

azt is biztosítja, hogy különböző adatbázis-kezelő rendszerek által létrehozott

adatbázisokból nyerjünk ki adatokat, illetve ilyen adatbázisokba vigyünk be adatokat.

Egy statisztikai programrendszer használatához elengedhetetlenül szükséges az

ábrázolási lehetőségek biztosítása. Az R nyelv nagyon magas szintű ábrázolási

lehetőségeket biztosít, a statisztikai ábrák széles körét képes létrehozni, de lehetőség

van a felhasználó általi új ábrázolási módok kialakítására is. A rendszer nagyon

lényeges szolgáltatása több, esetleg különböző típusú, ábrának egy keretben történő

elhelyezése.

Az R rendszerhez tartozó R(D)COM szerver lehetőséget biztosít standard

alkalmazásokkal történő összekapcsolódáshoz is. Ami azt jelenti, hogy az adott

Page 23: Statisztikai adatfeldolgozás (Excel és R)

19

rendszerből adatokat és utasításokat küldhetünk az R rendszerbe, és az R rendszer az

utasítások végrehajtásának eredményét visszaküldi a hívó rendszernek. Pl.: az

RExcel.xla Excel bővítmény segítségével a Microsoft Excelből is adhatók át adatok

és hívhatók meg R utasítások a 7. ábrán látható menürendszer felhasználásával. Ez a

megoldás kibővíti mind az Excel, mind az R rendszer lehetőségeit. Jól ki lehet

használni az R által biztosított szélesebb körű ábrázolási lehetőségeket, és az Excelbe

felvitt adatokat, elvégzett számítások eredményeit átadhatjuk az R rendszernek, és az

ott meglévő csomagok segítségével alaposabb elemzéseket is végezhetünk.

Az R rendszer további lehetőségei, hogy különböző grafikus programozási

lehetőségek is beépítésre kerültek (Tcl/Tk, Java), és lehetőség van a meglévő eljárás

csomagokhoz megfelelő input és output felületet elkészíteni. Igaz, ez már komolyabb

programozási feladatot jelent, de a Tcl/Tk nyelv grafikus utasításai viszonylag

könnyen megtanulhatók, és alkalmazhatók.

7. ábra

Az Rexcel.xla által biztosított menü az R rendszer használatához

Page 24: Statisztikai adatfeldolgozás (Excel és R)

20

Ellenőrző kérdések:

1. Mi a statisztikai adatfogalom?

2. Milyen módjai vannak az adatgyűjtésnek?

3. Mit jelent az adat információvá válása?

4. Melyek a számítógépes-adatfeldolgozás szakaszai?

5. Melyek a statisztikai adatok fő fajtái, és mi jellemzi azokat?

6. Melyek az Microsoft Excel főbb jellemzői?

7. Mi a függvényvarázsló szerepe az MS Excelben?

8. Az R statisztikai programnyelv (rendszer) jellemzői?

9. Hogyan foglalhatók össze az R rendszer főbb előnyei?

Page 25: Statisztikai adatfeldolgozás (Excel és R)

21

2. Főbb eloszlástípusok és ábrázolási lehetőségek

A valószínűségi eloszlások alapkoncepciónak tekinthetők a statisztikai

vizsgálatokban, amelyek mind elméleti mind gyakorlati szinten használunk. Az

eloszlások típusaival, tulajdonságaik felderítésével és megismerésével a

valószínűségszámítás foglalkozik. A matematikai statisztika minden megállapítását,

következtetését erre alapozza. A fejezetben leírtak megértéséhez az alapvető

valószínűségszámítási ismeretek meglétét feltételezzük.

Különböző kutatásokból nyert adatok kiértékeléséhez kapcsolódóan szükségessé

válhat hipotézisek megfogalmazása a vizsgálatba bevont változók eloszlásának a

meghatározásához, illetve bizonyos vizsgálatok elvégzéséhez szükségünk lehet

valamilyen ismert eloszlást követő véletlen számok előállítására. Fontos lehet az a

kísérlet vagy adatgyűjtés során létrejött adatsorok tesztelése előtt azok eloszlásának

meghatározása is. Előrejelzési célból is szükséges lehet annak megismerése, hogy

adattömegünk eloszlása milyen formát követ. Ahhoz, hogy az előzőeket

megtehessük, szükségünk van az elméleti eloszlástípusok alapvető jellemzőinek és

tulajdonságainak a megismerésére.

Melyik eloszlást használjuk? Tudnunk kell, hogy bizonyos jelenségek rendszerint

meghatározott eloszlást követnek. Például, azok a változók, amelyekhez független

véletlen események végtelen sorozata tartozik általában normális eloszlást követnek.

Azok a változók, amelyeknek az értékei rendkívül ritka események eredményei

általában Poisson-eloszlást követnek. Azok a főbb eloszlástípusok, amelyeket

például a túlélési modellekhez javasolnak, az exponenciális és a Weibull-eloszlások.

A főbb eloszlástípusokkal történő számítások mind az Excelben, mind az R nyelvben

megtalálhatóak. A különbség abban jelentkezik, hogy az Excelben csak az eloszlások

valószínűségértékének és sűrűségfüggvényének a kiszámítását biztosító függvények

találhatók (pl.: BINOM.ELOSZLÁS), addig az R rendszerben minden

eloszlástípushoz négy függvény található, például:

• dbinom – sűrűségfüggvény: általában a sűrűségfüggvény megrajzolásához

használják.

Page 26: Statisztikai adatfeldolgozás (Excel és R)

22

• pbinom – eloszlásfüggvény: arra ad választ, hogy mennyi annak a

valószínűsége, hogy a véletlen változó kisebb, mint x.

• qbinom – kvantilis függvény: a p… függvény inverze, és arra ad választ,

hogy melyik érték felel meg az adott valószínűségnek.

• rbinom – véletlen számok generálása (egyszerre több véletlen számot is

generál és egy vektorba helyezi azokat)

Ebben a fejezetben a nevezetesebb eloszlástípusok és azok főbb jellemzői kerülnek

bemutatásra.

2.1. Egyenletes eloszlás

A diszkrét eloszlások közül az egyik legfontosabb az ún. egyenletes-eloszlás. A

diszkrét egyenletes-eloszlás bemutatását elsősorban az indokolja, hogy az egyik

legfontosabb valószínűségszámítási tétel, a központi határeloszlás tétele levezetését

ennek segítségével szoktuk szemléltetni. A diszkrét egyenletes eloszlás gyakorlati

előfordulása viszonylag ritka, jelentősége csekély. Ez a lehető legegyszerűbb eset,

valamennyi értékhez ugyanakkora gyakoriság tartozik. A relatív gyakoriság a

különböző kategóriák, osztályok számának reciprokával egyenlő: a "férfi-nő", illetve

"fej vagy írás" esetében két osztály van, s ezért egyketted, azaz 0,5 (50 %) a relatív

gyakoriság, a dobókockánál egyhatod (0,167 = 16,7 %), a közlekedési lámpa fénye

(vörös, sárga, zöld; 0, 1, 2; 0,33 = 33 %), vagy a lottóhúzás.

X egyenletes eloszlású az (a,b) intervallumon (a<b) (jele: X U(a,b) eloszlású), ha

abxf

−=

1)( , ha a<x<b és f(x) = 0 egyébként.

Az egyenletes eloszlást a gyakorlatban igen ritkán alkalmazzuk, ezért

bonyolultabban számítható várható értékét és szórását nem adjuk meg.

Az előzőekből is következően, az egyenletes eloszlás értékei egy adott [a, b]

tartományba esnek, ahol az ’a’ és a ’b’ értéke a probléma függvénye.

Page 27: Statisztikai adatfeldolgozás (Excel és R)

23

Az Excel nem biztosít igazán jó lehetőséget az egyenletes eloszlású értékek

előállítására, ugyan a RANDBETWEEN függvény lehetővé teszi, hogy megadott

intervallumba eső véletlen számokat állítsunk elő. Az R rendszer a (d,b,q,r)unif

függvénnyel lehetővé teszi az eloszlással való számolást. Még jobb lehetőséget

biztosít a sample függvény, amelyet használhatunk ismétléses, illetve ismétlés

nélküli formában.

3. feladat

• dobjunk 10-szer egy kockával

> sample(1:6, 10, replace=TRUE)

[1] 6 1 4 2 5 4 1 6 1 1 10

• dobjunk 20-szor egy pénzérmével

> sample(c(”F”,”Í”), 20, TRUE)

[1] "Í" "Í" "F" "F" "Í" "Í" "Í" "Í" "F" "F" "Í" "Í" "Í" "F" "F" "Í" "F" "F" "F"

[20] "F" 11

• állítsunk elő 5 számot az ötös lottóhoz

> sample(1:90, 5) 12

[1] 17 7 69 66 47

• a magyar kártya lapjaiból válasszunk ki 8-at (ez már egy kicsit összetettebb

feladat, használnunk kell a paste13 utasítást is)

> kártya = paste(c(”piros”, ”tök”, ”zöld”, ”makk”),

+ rep(c(7:10, ”alsó”, ”felső”, ”király”, ”ász”), 4))14

> sample(kártya, 8)

[1] "makk ász" "tök 8" "tök felső" "piros alsó" "tök felső"

[6] "piros 7" "zöld király" "piros alsó"

10 Az eredménysor elején lévő szám ’[1]’ a vektor indexére utal. Ha több soros eredményt kapunk,

akkor soronként az előző sor elemszámának figyelembe vételével folytatódik a számozás. 11 ”F” – fej; ”Í” - írás 12 A 3. paramétert, amely az ismételhetőségre vonatkozik, mert az alapértelmezés, hogy nincsen

ismétlés. 13 Az argumentumaiból karakter sztringet hoz létre, és a rész sztrigeket összefűzí. 14 A ’rep’ a megadott számnak (4) megfelelően többszörözi a megadott adatsorozatot.

Page 28: Statisztikai adatfeldolgozás (Excel és R)

24

4. feladat

Állítsunk elő 1000 darab 0 és 1 közötti egyenletes eloszlású véletlen számot és a

kapott értékeket és ábrázoljuk hisztogrammal (8. ábra).

> x = runif(1000)

> hist(x, probability=TRUE, col=gray(0.8),

+ main=”[0,1] egyenletes eloszlás”, ylab=”sűrűség”)15

> curve(dunif(x, 0, 1), add=T)16

8. ábra

1000 darab egyenletes eloszlású véletlen szám

15 probability = TRUE – a hisztogram gyakoriságokat ábrázol col – az oszlopokat kitöltő szín main – a hisztogram címe ylab, xlab – az y, illetve az x tengelyek elnevezése 16 A megadott függvényhez vagy kifejezéshez kapcsolódó görbe megrajzolása.

Page 29: Statisztikai adatfeldolgozás (Excel és R)

25

2.2. Binomiális eloszlás (Bernoulli eloszlás)

A diszkrét eloszlások nagyon sok esetben, megállapítható változók viselkedését írják

le jól. Abban a - legegyszerűbb - esetben, ha a változó csak két értéket vehet föl -

hasonlóan a logikai értékekhez -, akkor az értékek eloszlása binomiális eloszlást

határoz meg.

A statisztikusok gyakran vizsgálnak olyan típusú jelenségeket, amelyekben

– egy megismételhető esemény sikeres vagy sikertelen kimenetelű,

– sok ismétlődés figyelhető meg,

– a siker és a sikertelenség megszámlálható,

– a sikerek száma segít ismereteket szerezni a sikeresség valószínűségéről.

Az ilyen jellegű jelenségek jellemzője, hogy a vizsgált populáció egyedeinek egyik

hányada megadott tulajdonságú. A két kimenetű (dichotóm) jelenséghez kapcsolódó

kísérleteket N-szer elvégezve (N próbát téve), az egyik alternatíva

bekövetkezéseinek a száma (X) binomiális eloszlást követ. A kísérletben P(X) annak

a valószínűsége, hogy az egyik alternatíva k-szor bekövetkezik. A binomiális

kísérletek nagyon elterjedtek. Ilyenek lehetnek például orvosi kísérletek, toxicitási

tesztek, ökológiai kísérletek, minőség ellenőrzések.

A két kimenetű események a 0 és az 1 számjegyekkel kódolhatók. Például, egy adott

eseményhez kapcsolódó személyekből (populációból) mintát veszünk (N) és meg-

vizsgáljuk, hogyan alakul az eseményben résztvevő férfiak személyek aránya. A

vizsgálatban az 1-es számjegy jelenti a férfiakat, a 0 pedig a nőket. Egy ilyen

populációból vett mintában a sikeres találatok száma X (az 1-es számmal kódoltak).

A sikeresség valószínűsége p-vel jelölhető. Az előzőek így a következőképpen is

leírhatók:

X ~ Binominális(N, p)

Ahol a „~” jel „eloszlású”-ként olvasható, azaz a teljes kifejezés azt jelenti, hogy az

X egy (N, p) paraméterű binomiális eloszlás. A binomiális kísérletek esetében fontos

feltételezés, hogy az N előre rögzített, a p minden próbálkozás esetén ugyanaz, és

Page 30: Statisztikai adatfeldolgozás (Excel és R)

26

bármely próba kimenete nem befolyásolja a többi próbák kimeneteit. Ha N = 1,

akkor azt mondjuk, hogy az X Bernoulli(p) eloszlást követ, és így írjuk:

X ~ Bernoulli(p)

Az egyedi próbálkozásokat egy binomiális kísérletben Bernoulli-próbálkozásoknak

nevezzük. Amikor binomiális kísérletet hajtunk végre, az X egy 0 és N közötti egész

értéket vesz fel, és tudnunk kell a hozzákapcsolódó valószínűséget, azaz a P[X = k]-t

a k valamennyi 0 és N közötti értékére. Ez a valószínűség a következő egyenlőséggel

adható meg:

kNk ppkNk

NkXP −−

−== )1(**

)!(!

!][

vagy egyszerűen

ahol

N - a minta mérete (próbálkozások száma)

k - a megfigyelések száma

p - az 1-gyel kódolt megfigyelések arány

Az eloszlás általános statisztikai jellemző

Átlag Terjedelem Szórás Relatív szórás

N * p 0 .. N p)(1*p*N −

p*N

p(1 )−

5. feladat

Mekkora valószínűséggel találunk egy 5 %-os selejtaránnyal jellemezhető

tömeggyártásból kivett 20 elemű véletlen mintában 1 db selejtes terméket?

p = 0,05 k = 1 N = 20

kNkpk

NkXP −−

== )1(**][

Page 31: Statisztikai adatfeldolgozás (Excel és R)

27

Excel megoldás:

Az „Eloszlásfv” attribútum a függvény fajtáját megadó logikai érték: ha IGAZ, a

BINOM.ELOSZLÁS az eloszlásfüggvény értékét számítja ki (amely annak a

valószínűsége, hogy csak a sikeresek sikeresek), egyébként a sűrűségfüggvényét

(amely a sikeresek valószínűsége).

A megoldás a függvényvarázslóban található és értéke: 0,377353603

Megoldás az R rendszerben:

> dbinom(1, 20, 0.05)

[1] 0.3773536

6. feladat

Tételezzük fel, hogy a gyógykezelés 75 %-ban eredményes. A kezelést 4 páciens

esetében alkalmazzák. Átlagosan 4 páciensből 3 reagál a kezelésre, de ostoba dolog

lenne azt gondolni, hogy minden 4 páciensből 3 mindig reagál a kezelésre. A reagáló

Page 32: Statisztikai adatfeldolgozás (Excel és R)

28

páciensek száma próbálkozásról próbálkozásra változni fog, mégpedig binomiális

eloszlásnak megfelelően.

> sikeresség = c(0, 1, 2, 3, 4)

> valószínűség = dbinom(sikeresség, 4, 0.75)

> data.frame(sikeresség, valószínűség, row.names="sikeresség")

Eredmény a különböző sikerességi értékek esetén, amelyek az első oszlopban

találhatók:

2.3. Poisson-eloszlás

A diszkrét eloszlások közül legfontosabb a Poisson-eloszlás - amely a binomiális

eloszlás határesetként (bizonyos feltételek mellett) valósulhat meg. Az ad neki

ekkora jelentőséget, hogy igen gyakran lép fel a természetben és jó közelítését adja a

gyakorlatban előforduló véletlen változónak.

A Poisson-eloszlás a diszkrét binomiális eseményekhez kapcsolódó eseményeket írja

le, amely megfigyelési típusok a következő helyzetekben fordulnak elő:

• egy vizsgálat tárgyköre, rendszerint egy terület vagy egy időblokk,

• események, amelyek látszólag véletlenszerűen keletkeznek az adott

tartományban,

• létezik egy alaparány, amelyen az események előfordulnak.

Ilyenek esetek fordulhatnak elő például ökológiai vizsgálatoknál, számítógép

programozásnál, minőség ellenőrzések esetében, genetikai kutatásokban, közlekedési

Page 33: Statisztikai adatfeldolgozás (Excel és R)

29

vizsgálatokban és a vevők kiszolgálásánál (pl.: üzletben, bankban, okmányirodában,

stb.).

Például, az iskolában a tanulók vagy jelen vannak vagy nincsenek. Annak az esélye,

hogy az összes tanuló hiányzik elég kicsi. Annak a valószínűsége, hogy X számú

gyerek hiányzik az iskolából az iskola méretével (n) növekszik. Egy másik példa

lehet a hallgatók lemorzsolódása (kimaradása). Minden egyes hallgató lehet

kimaradó vagy nem kimaradó „állapotban”. A hallgató kimaradásának a

valószínűsége rendszerint elég kicsi. Annak a valószínűsége, hogy X hallgató fog

kimaradni egy megadott időszakban Poisson-eloszlással írható le.

A Poisson-eloszlást szokták a kis számok „törvényének” is nevezni, mert az, a ritkán,

de nagyon nagy valószínűséggel, bekövetkező események előfordulási számának a

valószínűségi eloszlása.

Azt az arányt, amelyen az események előfordulnak rendszerint λ-val jelölik, a

vizsgálati területen előforduló események számát pedig X-szel, és a jelenség a

következőképpen is leírható:

X ~Poisson(λ)

Fontos követelmény a Poisson-típusú vizsgálatokkal, hogy a két esemény nem

fordulhat elő egyszerre pontosan ugyanazon a helyen és időben, hogy az llll1 helyen

előforduló esemény nincsen hatással bármely más llll2 helyen előforduló eseményre,

valamint az események felmerülésének aránya a vizsgálati területen nem változik.

Amikor egy Poisson-kísérlet kerül megfigyelésre, az X egy nem-negatív egész

számmá változik, és a hozzákapcsolódó valószínűség a következő egyenlettel adható

meg:

[ ]!

*

k

ekXP

k λλ −

==

A statisztika egyik alapvető témája az a mennyiségi (kvantitatív) vizsgálati mód,

amely lehetőséget biztosít számunkra, hogy a tanulmányozott jelenségről ismereteket

szerezzünk (pl.: egy Poisson-eloszlás λ arányáról).

Page 34: Statisztikai adatfeldolgozás (Excel és R)

30

Az eloszlás általános statisztikai jellemző

Átlag Terjedelem Szórás Relatív szórás

Λ 0 .. +∞ λ λ

1

7. feladat

Egy készülék meghibásodásainak átlagos száma 10000 működési óra alatt 10.

Határozzuk meg annak a valószínűségét, hogy a készülék 200 működési óra alatt

nem romlik el!

Excel:

=POISSON(0;200*10/10000;HAMIS)

0,818730753

R rendszer:

> dpois(0, 200 * 10 / 10000)

[1] 0.8187308

2.4. Exponenciális eloszlás

Az exponenciális eloszlást olyan Poisson-folyamatok modellezésére használhatjuk,

amelyeknél egy kezdetben az A állapotban lévő objektum, λ időegységenként

konstans valószínűséggel, a B állapotba tud elmozdulni. Az időegység, amely alatt az

állapot aktuálisan megváltozik, egy λ paraméterű exponenciális véletlen változóval

írható le. Tehát az exponenciális eloszlás egy folyamatosan zajló folyamat

állapotváltozási idejét írja le. Az exponenciális eloszlás függvénnyel az események

között eltelt idő modellezhető (például, egy bankjegykiadó automata a kéréstől

számítva mennyi idő múlva adja ki a pénzt).

Page 35: Statisztikai adatfeldolgozás (Excel és R)

31

A valós világban a konstans arányú (vagy egység időnkénti valószínűség)

megközelítés ritkán kielégítő. Például, a bejövő telefonhívások napszakonkénti

aránya különbözik, de ha kijelölünk egy időintervallumot, akkor már egy nagyjából

konstans arányt találhatunk, és az exponenciális eloszlás az idő jó becslő

modelljeként használható a következő telefonhívások beérkezéséhez. Az

exponenciális eloszlás használható a következő esetekben is: az idő, amíg a

következő autóbaleset bekövetkezik; az idő, amíg a radioaktív részecske lebomlik; a

kockadobások száma, ami ahhoz szükséges, hogy tizenegyszer dobjunk 6-ost egymás

után; az idő, amíg egy nagy meteor becsapódás tömegpusztító eseményt okoz; a

távolság egy DNA szálon bekövetkezett mutációk között; az időtáv az utcai

gyilkosságok között egy adott utcán; stb.

Ezekben a példákban az várható, hogy a hívások, az idő és a távolság többnyire rövid

lesz és csak kevés esetben hosszú. Így a sűrűség X = 0 közelében lesz nagy és

csökken, amint az X növekszik. Ezekben az esetekben lehet hasznos az exponenciális

sűrűség

0*1

)( >=−

xexpx

λ

λ

Az X egy paraméterű exponenciális eloszlást követ, azaz

X ~Exponenciális(λ)

Az eloszlás általános statisztikai jellemző

Átlag Terjedelem Szórás Relatív szórás

Λ 0 .. +∞ λ 1

8. feladat

Egy villanyégő átlagos élettartama 2500 óra, az exponenciális eloszlás szerint

alakuló élettartam átlaga 2500. Az eloszlás paramétere 1/átlag. Az előző értékek

Page 36: Statisztikai adatfeldolgozás (Excel és R)

32

figyelembe vételével készítsünk egy hisztogramot 100 véletlen szám generálásával

(9. ábra).

> x = rexp(100, 1/2500)

> hist(x, probability=TRUE, col=gray(0.9),

+ main=”Exponenciális eloszlás”, ylab=”sűrűség”)

> curve(dexp(x, 1/2500), add=T)

9. ábra

Véletlenszerű exponenciális adatok

Page 37: Statisztikai adatfeldolgozás (Excel és R)

33

2.5.Normális eloszlás

Mind elméleti mind gyakorlati szempontból valószínűleg a normális eloszlás a

legfontosabb eloszlás típus a statisztikában, mert

• több hagyományos statisztikai teszt azon a feltételezésen alapszik, hogy az

adatok normális eloszlást követnek,

• a statisztikai modellekben, mint például a lineáris és a nem-lineáris regresszió

esetében, azt feltételezzük, hogy a hiba normális eloszlást követ,

• a normális eloszlást használjuk több hipotézis teszt és a konfidencia

intervallum meghatározása esetében a szignifikancia szint megkereséséhez.

A normális eloszlás folytonos, szimmetrikus eloszlástípus. A grafikon, a függvény

görbéje haranghoz hasonlít, a csúcsa lekerekített - sem lapos, sem hegyes nem lehet.

Mindezek miatt "harang-görbének", vagy Gauss-görbének is szokták nevezni (10.

ábra). Kétoldalt messze (elvileg végtelen messze) elnyúlik, de a maximumához

viszonylag közel már annyira megközelíti az x tengelyt, hogy sem rajzolni nem lehet,

sem számításba venni nem kell. Jellegén belül formája nagyon változatos lehet:

kiemelkedőbb, vagy lapultabb; a függőleges y tengelyt is metszheti.

10. ábra

A normális eloszlás sűrűségfüggvénye és a paraméterek jelentése

Azt is szokták mondani, hogy a normál eloszlás a klasszikus statisztikai elmélet

gerince, a központi határeloszlás tétele következtében. A normál eloszlás, mint a

kvantitatív jelenségek modellezési módszere alapvető fontossággal bír a természet-

Page 38: Statisztikai adatfeldolgozás (Excel és R)

34

és a magatartástudományokban, a központi határeloszlás tételének következtében. A

természettudományokban a jelenségek többsége jól közelíthető a normál eloszlással.

A normál eloszlásnak nagy a jelentősége a statisztika több területén is, mint például a

mintavételi eljárások.

Gyakran van szükség az Y folytonos véletlen változó modellezésére, amelynek a

sűrűsége harang alakot követ. Minden ilyen esetben a véletlen változó várhatóan

rendelkezik egy központi értékkel, amely körül a megfigyelések többsége

csoportosul, és ahogy távolodunk a központi értéktől, egyre kevesebb és kevesebb

megfigyelést találhatunk. Ez azt jelenti, hogy a valószínűségi sűrűségfüggvény a

legnagyobb értékkel a centrumban rendelkezik, amely a centrumtól mindkét irányba

távolodva csökken. A normális eloszlás függvény

2

σ

µY*

2

1

e*σ*π*2

1P(Y)

−−

=

A normális eloszlás speciális esete a standard normális eloszlás, amikor a µ = 0 és a

σ = 1. Ebben az esetben az eloszlásfüggvény

2

Y

e*π*2

1P(Y)

2

=

Ha az X valószínűségi változó N(µ, σ) normális eloszlású, akkor a

változó N(0,1) standard normális eloszlású. Ezért, ha az x1, x2, …, xn minta egy N(µ,

σ) eloszlású populációból származik, akkor a minta z étékei, azaz a standardizált

mintaelemek, standard normális eloszlásúak lesznek.

Az Y µ átlagú és σ szórású normál eloszlást követ, azaz

X ~Normál(µ, σ)

σ

µ−=

Xz

Page 39: Statisztikai adatfeldolgozás (Excel és R)

35

Az eloszlás általános statisztikai jellemző

Átlag Terjedelem Szórás Relatív szórás

Μ -∞ .. +∞ σ

µ

σ

9. feladat

Egy laboratóriumban a kísérleti patkányok testsúlyait normális eloszlásúnak találták

µ =14 átlaggal és σ =2 szórással. Egy ilyen populációban mi annak a valószínűsége,

hogy a patkányok testsúlya 10 és 15 közé esik?

Excel:

A valószínűségi értéket a ”C6 – C5” művelet elvégzése után kapjuk. (Az Excel egyik

hátránya, hogy a táblázatból első rátekintésre nem látszik, hogyan számoltunk, csak

ha a megfelelő cellá(k)ra lépünk és megnézzük az abban szereplő képletet.)

Page 40: Statisztikai adatfeldolgozás (Excel és R)

36

R rendszer:

> (pnorm(15, 14, 2) - pnorm(10, 14, 2)) * 100

[1] 66.87123

Tehát várhatóan a populáció 66.87 %-ának a testsúlya fog 10 és 15 közé esni.

10. feladat

A vámpír denevérek tépőfogainak a hossza normális eloszlást követ µ = 28 mm

átlaggal és σ = 4 mm szórással. Azoknak az állatoknak a harapása halálos, akiknek a

tépőfogmérete a populáció felső 5 %-ába esik. Számítsuk ki, hogy ez hány mm-es

fogméretet jelent.

Excel:

A megoldás előállítása a táblázatból nem látszik pontosan. A megoldás előállításához

fel kell használni az ”Eszközök” menüpontban lévő ”Célértékkeresés” almenüt,

amelynek segítségével meghatározzuk a standard normális eloszlás értékét, és annak

felhasználásával a táblázat C5 cellájában látható képlet segítségével meghatározzuk

azt az értéket, amely már a megadott intervallumba esik.

R rendszer:

> qnorm(0.05, 28, 4, lower.tail = FALSE)

[1] 34.57941

Page 41: Statisztikai adatfeldolgozás (Excel és R)

37

Az R rendszerben a feladat megoldása egyszerűbb, mert egyetlen függvénnyel

eljuthatunk az eredményhez. (Az R általában sokkal szélesebb számítási

lehetőségeket biztosít, mint az Excel.17)

2.6. Ábrázolási lehetőségek

A régi kínai mondás szerint: egy kép tízezer szónál többet ér. Bár ez nem mindig

igaz, kétségtelen, hogy egy jó ábra sok szöveget pótol. A mérnöki, hivatalos és

tudományos közlésben az ábrák legfontosabb célja a mondanivaló szemléletessé

tétele.

A diagramok (vagy más néven grafikonok) segítségével az adataink könnyen

szemléletessé, jól áttekinthetővé tehetők, így azok értelmezése egyszerűbbé válik.

Szinte minden táblázatkezelő lehetővé teszi, hogy adatainkat diagram formájában is

megjeleníthessük. Sok program esetében - ilyen az Excel és az R is - a táblázat adatai

és a diagramok szerves egységet képeznek, ami többek között azt jelenti, hogy a

táblázat adatainak megváltoztatásakor a diagram automatikusan módosul.

Az ábrák készítésének vannak olyan alapelvei, amelyek általánosan érvényesek

minden típusra, mint például

• szükségesség

Csak akkor alkalmazzunk illusztrációt, ha valóban szükséges, ha új

információt ad.

• pontosság

Legyen az ábra összhangban a szöveggel, ugyanaz legyen a mondanivalója.

• szerkesztés

A jó ábra tetszetős, nem túlzsúfolt, mégsem semmitmondó. A szerkesztés

igazodjon a tartalomhoz, és esztétikailag is pozitív benyomást keltsen az

olvasóban.

17 A szélesebb körű számítási lehetőséget az is biztosítja, hogy sok helyen fejlesztettek/fejlesztenek ki speciális alkalmazásokat, amiket később szabadon hozzáférhetővé tesznek. Még nagyobb lenne a jelentősége az R rendszernek, ha magas szintű grafikus felület is támogatná.

Page 42: Statisztikai adatfeldolgozás (Excel és R)

38

• láthatóság

Minden kép, ábra és táblázat megfelelő méretű, kontrasztos, jól olvasható

legyen. Az ábra segítségével felkelthetjük a figyelmét, arra késztetve, hogy

utánanézzen a pontos értékeknek a táblázatban.

• érthetőség

Illusztrációink a szöveg gondos tanulmányozása nélkül is érthetőek legyenek,

ne kívánjanak az olvasótól nagy erőfeszítést.

A következőkben tárgyalt ábrázolási lehetőségek – kisebb-nagyobb eltérésekkel -

többnyire megtalálhatók mind az Excelben és mind az R statisztikai rendszerben.

Ugyanakkor az R rendszer sokkal többféle ábrázolási lehetőséget biztosít, mint az

Excel táblázatkezelő és az R-ben könnyen létre tudunk hozni összetett ábrákat is (11.

ábra).

11. ábra

Összetett ábrázolás az R rendszerben

Page 43: Statisztikai adatfeldolgozás (Excel és R)

39

A R rendszer nem csak az ábrák típusában biztosít többféleséget, hanem azok

kivitelezésében, és milyenségében. (12. ábra

12. ábra

Az R rendszer grafikus lehetőségei

2.6.1. Hisztogramok

A hisztogramok nagyon hasznos grafikus lehetőségek egy változó adatainak

megjelenítésére, és fontos eszközei lehetnek a kutató- és elemző munkának,

amelyeket általában gyakorisági sorokból készítenek. A hisztogram egy rendezett

minta előre kitűzött változó-tartományaiba eső elemek számát vagy gyakoriságát

ábrázolja. A hisztogram részekre bontja a sokaságot (osztályokat képez) és megadja

az egyes részsokaságokhoz tartozó megfigyelésszámot. Az egyes részsokaságok

egyedszámát általában oszlopok formájában jeleníti meg, és az oszlopok nagysága az

egyedek részsokaságonkénti arányát mutatja.

Azt is mondhatjuk, hogy a hisztogram egy olyan táblázat grafikus verziója, amely azt

mutatja meg, hogy a megfigyelések milyen aránya esik a megadott kategóriákba, és

Page 44: Statisztikai adatfeldolgozás (Excel és R)

40

ahol a kategóriák (oszlopok) rendszerint egymást nem átfedő, de egymás mellett lévő

intervallumok.

A hisztogramoknak több fajtája is lehetséges. Ebben a részben csak a két alapformát

mutatjuk be:

• Az első forma az intervallumonkénti elemszámot mutatja be, ahol az

oszlopok magassága egyenlő a rész sokaság arányával az összsokaságon

belül, és az oszlopok abszolút számokat mutatnak.

• A második forma a vertikális skálát tekintve különbözik az első formától,

mert az oszlopok magassága az összsokaságon belüli százalékos arányt

képviseli és az oszlopértékek összege 100 %. Ezt a formát akkor célszerű

használni, ha az arányokat akarjuk összehasonlítani.

A hisztogram a következőket mutatja meg grafikusan:

• az adathalmaz közzépontja,

• az adathalmaz terjedelme,

• az adathalmaz ferdesége,

• kiugró adatok jelenléte,

• többszörös módusz jelenléte az adathalmazban.

Az előzőek alapján, összefoglalva azt is mondhatjuk, hogy a hisztogramok

megmutatják az adathalmaz eloszlásának alakját. Vigyáznunk kell azonban az

intervallumok számának a megválasztásánál, mert túl kevés intervallum kitűzésekor

az információ szegényes lesz, túl sok esetén pedig a kapott ábra lesz áttekinthetetlen.

11. feladat

30 db AA típusú elemet teszteltek az élettartamuk megállapítása érdekében, és a

következő adatokat kapták (perc):

R rendszerben (13. ábra):

> élettartam = c(423, 369, 387, 411, 393, 394, 371, 377, 389, 409, 392, 408,

+ 431, 401, 363, 391, 405, 382, 400, 381, 399, 415, 428, 422, 396, 372, 410,

+ 419, 386, 390)

Page 45: Statisztikai adatfeldolgozás (Excel és R)

41

> hist(élettartam, main="Élettartam teszt eredménye",

+ xlab="élettartam (perc)",ylab="gyakoriság")18

13. ábra

Az R rendszerben készített hisztogram

Lehetőség van a hisztogram jellemzőinek a kiíratására és feldolgozására is (14. ábra),

ha az eredményt egy változóban eltároljuk (pl.: élettartam.hisztogram.jellemzők19)

> hist(élettartam, plot = F20)

18 A hist függvénynek további paraméterei is vannak, amelyekkel a hisztogram tovább fínomítható. A

további parancsok a Help (?) utasítással megnézhetők. 19 Az R rendszerben, ha egy név több részből áll, akkor a részeket ponttal lehet összekapcsolni. 20 Az egyes elnevezések jelentései: breaks – intervallum határok counts – intervallumok egyedszámai intensities (densities) – a relatív gyakoriságok mids – intervallum közepek equidist – egyenlő intervallum méret vagy nem

Page 46: Statisztikai adatfeldolgozás (Excel és R)

42

14. ábra

A 13. ábrán látható hisztogram jellemzői

Excel:

Az Excelben az Eszközök menü Adatelemzés almenüjéből érhető el a hisztogram

készítés. Az eljárás segítségével egy cellatartomány adatai és az adatkategóriák

alapján egyenkénti és halmozott gyakoriságok számíthatók ki. A hisztogram

eljárással az adathalmazban egy megadott érték előfordulásainak számát is ki lehet

számítani (15. ábra).

Az Excelben egyszerű a hisztogram létrehozása, de csak egyszerűbb hisztogramok

hozhatók létre. Jelen feladatban ugyan az látszik, hogy az Excel hisztogramja szebb

kivitelezésű, de ha megnézzük az R alábbi hisztogram-függvény paraméterezési

lehetőségeit, akkor azt látjuk, hogy még sok lehetőséget lehetne használni:

hist(x, breaks = "Sturges", freq = NULL, probability = !freq,

include.lowest = TRUE, right = TRUE, density = NULL, angle = 45,

col = NULL, border = NULL, main = paste("Histogram of" , xname),

Page 47: Statisztikai adatfeldolgozás (Excel és R)

43

xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE,

plot = TRUE, labels = FALSE, nclass = NULL, ...)21

15. ábra

Az Excelben előállított hisztogram

Az R esetében az alap lehetőség mindig egy nagyon egyszerű ábra létrehozása vagy

számítás elvégzése, ami paraméterezéssel tovább finomítható és nagyon elegánsan

kivitelezett ábrák is létrehozhatók. Mivel a paraméterek többségének kezdő értéke is,

amint az a hist függvényből is látható, ezeket nem szükséges megadni, és akkor a

program a kezdő értékkel számol, de ha akarjuk, ezeket meg tudjuk változtatni.

2.6.2. Pont-, vonal-, oszlop- és kördiagramok

A pontdiagramokat általában két változó közötti lehetséges kapcsolat vizsgálatára,

megjelenítésére alkalmazzák. Ezek a diagramok általában nem mutatják meg a két

21 A függvény paramétereinek pontos jelentése az R rendszer help utasításának segítségével

megnézhető (?hist vagy help(hist)). A help minden R függvény esetében jól használható és megfelelő információt ad a függvény használatáról. A helpben találhatók példák is a függvény használatához és néhány függvény esetében adatfile-okat is mellékelnek, amelyek segítségével a függvények kipróbálhatók.

Page 48: Statisztikai adatfeldolgozás (Excel és R)

44

változó közötti oksági kapcsolatot, de jelezhetik a kapcsolat fennállását (regresszió)

és a kapcsolat erősségét (korreláció) is. A két változó értékei az X és az Y tengelyen

jelennek meg, ahol általában az X tengely tartalmazza a mért értéket, és az Y tengely

pedig a másik változónak ahhoz kapcsolódó mértékét jeleníti meg. A pontdiagram

használatának általában az a célja, hogy azt vizsgáljuk meg, milyen kapcsolat lehet

két változó között, és a kapcsolatot a pontok tendenciájának a meredeksége jelzi. A

kapcsolat alapvetően háromféle lehet: pozitív (emelkedő), negatív (csökkenő) vagy

nincsen kapcsolat.

A vonaldiagram numerikus mennyiség(ek) folytonos skála feletti változását

szemléltető grafikon. Matematikailag függvényábrázolás adott pontokban ismert

értékek alapján. Interpolációra (köztes értékek becslésére) és extrapolációra alkalmas

(szélső értékek becslésére, előrejelzésre). A vonaldiagram egy lehetőség annak

összefoglalására, hogy az információ két ”darabja” hogyan viszonyul egymáshoz és

hogyan változnak egymás függvényében. A vonaldiagram lehet olyan grafikontípus

is, amely egyenlő közönként elhelyezkedő adatok változását vagy trendjét mutatja.

Az adatok adatpontok egy sorozatát összekötő vonalként jelennek meg. A

vonaldiagram hasonlít a területdiagramra, de a vonaldiagram inkább a trendeket

emeli ki. Nem szabad vonaldiagramot alkalmazni olyan adatsor esetén, amelyben az

adatok között nincs (pl. mért értéken alapuló) átmenet. Ez ugyanis azt sugallja, hogy

két szomszédos érték közötti részre vonatkozóan is rendelkezünk információval,

pedig ez nem igaz.

Pont- és vonaldiagramot mindkét programban egyszerűen lehet létrehozni. Az

Excelben a grafikonvarázslóval tudunk létrehozni ilyen típusú grafikonokat a Pont

vagy a Grafikon parancsok segítségével (16. ábra).

Az R rendszerben a ”plot” függvénnyel tudunk pont- vagy vonaldiagramokat

létrehozni.

Page 49: Statisztikai adatfeldolgozás (Excel és R)

45

16. ábra

A grafikonvarázsló az Excelben.

12. példa

Generáljunk 100 db Poisson-eloszlású, λ = 5 paraméterű véletlen számot, és

ábrázoljuk az egyes számokhoz tartozó gyakoriságokat egy pontdiagramban (17.

ábra).

> plot(table(rpois(100,5)), type = "p", col = "red", lwd=10,

+ main="Poisson véletlen számok(lambda=5)",

+ ylab="gyakoriság",xlab="véletlenszámok")

Az oszlopdiagram a diszkrét – vagyis elkülönült elemekből álló, nem folytonos –

kategóriákhoz tartozó számadatok szemléletes összevetésére szolgáló ábrázolási

módszer. A számadatokat az oszlopok magassága jelzi. Az oszlopdiagram az értékek

Page 50: Statisztikai adatfeldolgozás (Excel és R)

46

időbeni változását mutatja be, vagy különböző tételeket hasonlít össze. A kategóriák

horizontálisan (vízszintesen), az értékek vertikálisan (függőlegesen) helyezkednek el,

ezzel kiemelve az időbeli változást. A halmozott oszlopdiagramok az egyedinek az

egészhez való viszonyát tükrözik. Az oszlopdiagrammal gyakorlatilag megegyezik a

sávdiagram, ahol az egyes oszlopok vízszintesen helyezkednek el.

17. ábra

Pontdiagram az R rendszerben

13. feladat

Egy felmérés során 25 főt kérdeztek meg a sörivási szokásaikról, hogy melyik típust

szeretik: belföldi doboz (1), belföldi üveg (2), csapolt (3) és import (4). A válaszok:

3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1

Készítsünk oszlopdiagramot a gyakoriságok és az arányok ábrázolásásra.

Page 51: Statisztikai adatfeldolgozás (Excel és R)

47

Az Excelben a normál oszlopdiagram előállítása viszonylag egyszerű (18. ábra), de

ha gyakorisági sorként vagy arányként szeretnénk ábrázolni, akkor el kell végezni

bizonyos csoportosításokat, számításokat.

Excel:

18. ábra

Sörivási szokások felmérésének ábrázolása

R rendszer

Az R rendszer beépített utasításainak köszönhetően a probléma viszonylag

egyszerűen megoldható. A megoldást három oszlopdiagramban mutatjuk be,

mégpedig úgy, hogy az oszlopdiagramokat egy keretben helyezzük el (19. ábra).

> sörivás = c(3, 4, 1, 1, 3, 4, 3, 3, 1, 3, 2, 1, 2, 1, 2, 3, 2, 3, 1, 1, 1, 1, 4, 3, 1)

> par(mfcol=c(1,3))22

> cl =colors()23

22 Ezzel az utasítással lehet mátrix elrendezésű grafikon sorozatot létrehozni. Az első érték az

oszlopok számát, a második érték a sorok számát jelenti. Jelen esetben 1 sort és 3 oszlopot hozunk létre.

23 Beolvassuk az összes lehetséges színt, ami 658 darab.

Page 52: Statisztikai adatfeldolgozás (Excel és R)

48

> barplot(sörivás, col=cl[1:25], main=”Sörivás teszt”, sub=”alap”)

> barplot(table(sörivás), col=cl[1:25], main=”Sörivás teszt”,

+ sub=„gyakoriság”)

> barplot(table(sörivás)/length(sörivás), col=cl[1:25],

+ main=”Sörivás teszt”, sub=”arány”)

19. ábra

Oszlop diagram az R rendszerben

A halmozott oszlopdiagramban (osztott oszlopdiagram) az egyes adatsorokat

szimbolizáló oszlopok egymás tetejére kerülnek, így nemcsak az egyes oszlopok

nagysága, hanem azok együttes értéke is leolvasható. Ezt a diagramtípust

használhatjuk pl. az egyes havi gáz-, villany- és telefonszámlánk ábrázolására. Így

leolvasható az egyes számlák, valamint a teljes havi rezsi nagysága is.

A kördiagram viszonylag kisszámú érték és csak egyetlen adatsor megjelenítésére

alkalmas, ahol az egyes körcikkek aránya fejezi ki a részadatok nagyságát, a tételeket

Page 53: Statisztikai adatfeldolgozás (Excel és R)

49

az egészhez viszonyított arányát mutatja be. A kördiagram csak egy adatsorozatot

jelenít meg, ezért egy fontos jellemző kiemelésére a leghasznosabb. Mivel a részek

az egészhez való arányviszonyának bemutatására szolgál, ezért csak akkor

alkalmazható, ha ismerjük az alaphalmazra vonatkozó adatokat.

Az Excelben a Grafikonvarázslót tudjuk használni kördiagramok ábrázolására, míg

az R-ben a ”pie” függvényt.

2.6.3. Boxplot ábrázolás

A boxplot-ok (vagy „szakállas ábrák”) egyfajta összefoglaló statisztikát (medián,

felső és alsó kvartilis, maximum és minimum érték) készítenek egydimenziós

adatokról és ezt az összefoglaló statisztikát speciális formában (2. ábra) megjelenítik

A 20. ábra alapján a boxplot a következőképpen interpretálható:

• a ’doboz’ az adatok középső 50 %-át tartalmazza, a ’doboz’ felső sarka az

adatok 75 %-át (harmadik kvartilis), míg az alsó sarka a 25 %-át (első

kvartilis) jelzi, amit interkvartilis távolságnak (IQR) neveznek;

• a ’dobozban’ található vonal a mediánt jelzi;

• ha a ’dobozban’ található medián-vonal nem egyenlő távolságra van az alsó

vagy a felső saroktól, akkor az adatok asszimetrikusak (ferdeség);

• a ’dobozból’ kiinduló vertikális vonalak végei a maximális és a minimális

értéket jelzik, kivéve azt az esetet, amikor az adatok kívül esnek az

interkvartilis távolság másfélszeresén;

• az extrém pontok (apró körökkel, pontokkal jelölve), ha az értékek kívül

esnek az ”1.5 * IQR” távolságon akár az első, akár a harmadik kvartilis

esetében.

A boxplot erősségei:

• grafikusan mutatja be egy változó értékeinek az elhelyezkedését és

terjedelmét,

• jelzéseket ad az adatok szimmetriájáról és ferdeségéről,

Page 54: Statisztikai adatfeldolgozás (Excel és R)

50

• más módszerektől eltérően megmutatja, hogy az adathalmaznak vannak-e

extrém pontjai,

• jó és gyors összehasonlítási lehetőséget biztosít különböző adathalmazok

számára.

20. ábra

Általános boxplot ábrázolás

14. feladat

A UsingR csomagban (package) lévő EWR adathalmaz24 és boxplot ábrázolási mód

felhasználásával ábrázoljuk a taxik beérkezési és kiindulási időpontjait a Newark

repülőtérre az egyes repülőgép társaságok vonatkozásában (1999-2001), egy ábrában

(21. ábra). Az adathalmaz 46 sort és 11 oszlopot tartalmaz, amelyek különböző

hónapokban tartalmazzák a taxik adatait. A repülőgépkódok: AA (American

Airlines), AQ (Aloha Airlines), AS (Alaska Airlines), CO (Continental Airlines), DL

(Delta Airlines), HP (America West Airlines), NW (Northwest Airlines), T TW

(Trans World Airlines), UA (United Airlines), US (US Airways), és WN (Southwest

Airlines).

24 Az EWR adatokat tartalmazó csomag megtalálható az R programrendszer könyvtárában a ”library-

UsingR” alkönyvtárban, ahol megtalálható az adatokat leíró help-file is.

extrém pontok

Q3 + 1.5 * IQR

Q1 Q3

min.

max.

Page 55: Statisztikai adatfeldolgozás (Excel és R)

51

> library(UsingR)25

> data(ewr)26

> társaságok = names(ewr)

> ewr.aktuális = ewr[,3:10]27

> boxplot(ewr.aktuális)

21. ábra

Taxi beérkezési és kiindulási idők a Newark Repülőtéren

Majd ábrázoljuk egy ”lapon”, de különálló boxplotokban a különböző

légitársaságokhoz tartozó beérkezési és kiindulási időket. (22. ábra)

> par(mfrow=c(2,4))

> attach(ewr)

> for(i in 3:10) boxplot(ewr[,i] ~ as.factor(inorout), main=társaságok[i])

> detach(ewr) 25 A UsingR csomag betöltése. 26 A csomag több adathalmazt is tartalmaz, az ”ewr” adathalmaz betöltése. 27 A szükséges oszlopok kiválogatása, az 1. oszlop az éveket, a második a hónapokat tartalmazza,

amelyekhez nincsen szükség az ábrázoláshoz.

Page 56: Statisztikai adatfeldolgozás (Excel és R)

52

22. ábra

A taxi beérkezési és kiindulási időpontok külön-külön ábrázolása

repülőjáratonként az EWR repülőtéren

A boxplot ábrázolás az Excelben is megvalósítható (23. ábra), csak jóval

bonyolultabban, mint az R rendszerben. Az Excelben történő boxplot ábrázoláshoz

először ki kell számítanunk a jellemző értékeket: alsó kvartilis, minimum, medián,

maximum, felső kvartilis. A kiszámított jellemzőket táblázatba kell foglalni. Az

elkészült táblázatot, a megnevezésekkel együtt ki kell jelölni, majd meg kell hívni a

grafikus varázslót, ahol a grafikon ábratípust választjuk ki. A grafikonkészítés 2.

lépésében Az adatsorok jellemzőnél a Sorokban paramétert jelöljük be, majd a 3.

lépésben megadhatjuk a grafikon megnevezéseit és befejezzük a grafikonkészítést.

Az elkészült grafikon egy vonal- és pontdiagram, amit át kell alakítanunk boxplot

diagrammá. Ennek a menete a következő:

1. Törölnünk kell a vonaldiagramokat, és csak a pontdiagramot tartjuk meg.

Az egér jobb oldali gombjával a grafikon első vonalára kattintunk, és

Page 57: Statisztikai adatfeldolgozás (Excel és R)

53

kiválasztjuk Az adatsorok formázása… menüt, majd a Mintázat – Vonal

almenüben bejelöljük a Nincs paramétert. Ezt tesszük az összes vonal

esetében.

2. Újra kiválasztjuk Az adatsorok formázása… menüt, majd a Beállítások

almenüben beállítjuk a Különbségvonalak és a Pozitív/negatív eltérés

paramétereket, valamint a Köz paraméterhez beírunk 150-et (ez állítja be

a box szélességét).

23. ábra

Boxplot ábrázolás az Excelben

Az R rendszer lehetővé teszi hisztogram és boxplot együttes megjelenítését is, a

”simple.hist.and.boxplot” függvény felhasználásával, aminek segítségével a két

grafikon közötti viszonyt is láthatjuk. A két grafikon együttes használata az adatok

jobb értékelhetőségét is biztosítja.

Page 58: Statisztikai adatfeldolgozás (Excel és R)

54

15. feladat

A feladatban néhány eloszlástípust (binomiális, Poisson, exponenciális és normális)

mutatunk be a kettős ábrázolással (24. ábra).

> binomiál=rbinom(100, 20, 0.05)

> poiss=rpois(100,5)

> expon=rexp(100)

> normál=rnorm(100,20,5)

> par(mfrow=c(2,2))

> simple.hist.and.boxplot(binomiál, main=”Binomiális-eloszlás”)

> simple.hist.and.boxplot(poiss, main=”Poisson-eloszlás”)

> simple.hist.and.boxplot(expon, main=”Exponenciális-eloszlás”)

> simple.hist.and.boxplot(normál, main=”Normális-eloszlás”)

2.6.4. Páronkénti ábrázolás

A páronkénti ábrázolás egy nagyon jól használható magas szintű ábrázolási funkció

többváltozós összefüggések megjelenítésére és vizsgálatára. Különösen hasznos, ha

az adatainkban lévő tendenciákat szeretnénk megismerni.

Legyen adott egy X1, X2, …, Xk változókat tartalmazó ábrázolandó mátrix, amely

változóit egy lapon páronként akarjuk ábrázolni mátrix formában (k oszlop és k sor).

A mátrix i-edik sora és j-edik oszlopa az Xi és az Xj változókat mutatja be. Az

előzőekből látható, hogy a páronkénti ábrázolás (pairwise vagy scatter plot)

valójában egy nagyon egyszerű dolog, de a megjelenítésnek sok alternatívája

lehetséges:

• Például az ábrázolási mátrix diagonáljában, egyszerűen egy 45 fokos vonalat

kapunk az Xi – Xi változók ábrázolása esetén, de a diagonálist üresen is

hagyhatjuk, vagy beleírhatjuk a változók elnevezéseit is.

• Vagy egy másik probléma, hogy az Xi – Xj és az Xj – Xi csak a tengelyek

felcserélést jelenti, egyébként megegyeznek. Az utóbbi esetben elhagyhatjuk

a diagonális alatti ábrákat.

Page 59: Statisztikai adatfeldolgozás (Excel és R)

55

24. ábra

Eloszlások ábrázolása hisztogrammal és boxplottal

• Gondot okozhat az ábrák nagy száma, mert nehéz lehet a tengelyekre

vonatkozó elnevezések informatív és átlátható megjelenítése. Ez bizonyos

mértékig megoldható, ha az elnevezéseket a két oldal (mind a sorok és mind

az oszlopok esetében) között felváltva használjuk

• A jobb áttekinthetőség érdekében szükséges lehet, hogy az egyes ábrák

között üres helyeket hagyjunk.

A páronkéti ábra mátrix a következő kérdésekre adhat választ:

• Van-e páronkénti kapcsolat a változók között?

• Ha van kapcsolat, akkor milyen a kapcsolat természete?

Page 60: Statisztikai adatfeldolgozás (Excel és R)

56

• Vannak-e kiugró (extrém) adatok?

• Van-e klaszterképzési (csoportba rendezési) lehetőség az adatokban?

16. feladat

Napjaink egyik sokat tárgyalt kérdése a melegházhatás, amelynek befolyásolója a

CO2 emisszió. Az emissions adathalmaz különböző európai országok és az USA

1999-es adatait tartalmazza az összes GDP, az egy főre jutó GDP és a CO2 emisszió

vonatkozásában. Az R rendszerben pairs függvénnyel elő tudunk állítani egy

szórásdiagramot valamennyi párt figyelembe véve (25. ábra). A pairs függvénynek

sok paramétere van az ábra alakítására.

> library(UsingR)

> data(emissions)

> pairs(emissions, labels=c("GDP", "GDP/fő", "CO2"),

+ main="Szórásdiagram")

2.6.5. Egyéb ábrázolási technikák

Az R rendszerben szinte mindenfajta ábra előállítható, a grafikus lehetőségek nagyon

fontos és különösen sokoldalú komponensét képezik a programnak. A beépített

grafikus függvényeknek nagy számával tudunk dolgozni, de magunk is hozhatunk

létre új ábra típusokat. A grafikus lehetőségeket használhatjuk interaktív módban,

ahol az alap ábra újabb attribútumok hozzáadásával vagy a már megadottak

megváltoztatásával lépésenként továbbfejleszthető, valamint batch üzemmódban is.

A terjedelmi korlátok miatt valamennyi lehetőséget bemutatni nem lehet, de a

rendszerhez kapcsolódó szakkönyvekből könnyen meg lehet ismerkedni valamennyi

lehetőséggel. Az R rendszer csomagjai között sok speciális ábrázolási technikát

megvalósító csomaggal is találkozhatunk (http://cran.r-project.org/src/contrib/

PACKAGES.html).

Page 61: Statisztikai adatfeldolgozás (Excel és R)

57

25. ábra

A pairs függvény felhasználása páronkénti szórásdiagram előállítására

A speciális ábrázolási lehetőségek közül a hegedű (violin) ábrát mutatjuk be, ami a

boxplot és a sűrűségdiagram lényegének a kombinációja. Tulajdonképpen az egy

boxplot elkészítésével indul, és azután a boxplot mindkét oldalához hozzáadódik egy

sűrűség diagram, amely az átláthatóság érdekében tükörképpel van megadva. A

hegedű ábra létrehozásához egy a rendszerhez tartozó adathalmazt használunk fel, az

InsectSprays-t. A jobb megértés érdekében egymás mellett megadjuk a boxplot, a

violinplot és a sűrűségdiagram formát is. (26. ábra)

> library(UsingR)

> data(InsectSprays)

> par(mfrow=c(1,3))

> boxplot(count ~ spray, data=InsectSprays, col="lightgray")

> simple.violinplot(count ~ spray, data=InsectSprays, col="lightgray")

> simple.densityplot(count ~ spray, data=InsectSprays)

Page 62: Statisztikai adatfeldolgozás (Excel és R)

58

26. ábra

A violindiagram ábrázolása a boxplot és a sűrűségdiagram társaságában

Az ábrázolási lehetőségek közül végezetül egy bonyolultabb formát is bemutatunk,

mégpedig egy 3 dimenziós ábrát, amely egy kétváltozós normális eloszlás

sűrűségfüggvényét ábrázolja és felírjuk rá a képletet és a kezdőértékeket is (27.

ábra). Az ábra létrehozása több lépésben oldható meg, és minimális programozási

ismereteket is igényel.

17. feladat

Hozzuk létre a kétváltozós normális eloszlás 3 dimenziós ábráját úgy, hogy az ábrára

rákerüljön az eloszlás függvény is. (A feladat megoldása kicsit bonyolult, de szép

ábrát kapunk.) A kétváltozós normális eloszlás sűrűségfüggvénye

A feladat megoldása:

( ) ( )( ) ( )

−+

−−−

−−

−=

22

222

22

22

11

11

11

211

221211

***2*1*2

1exp*

1****2

1)(

σ

µ

σ

µ

σ

µρ

σ

µ

ρρσσπ

xxxxxf

Page 63: Statisztikai adatfeldolgozás (Excel és R)

59

1. a függvény létrehozása az R-ben

> f = function(x1, x2)

+ {

+ term1 = 1 / (2 * pi * sqrt(s11 * s22 *(1 - rho^2)))

+ term2 = -1 / (2 *(1 - rho^2))

+ term3 = (x1 - mu1)^2 / s11

+ term4 = (x2 - mu2)^2 / s22

+ term5 = -2 * rho * ((x1 - mu1) * (x2 - mu2)) / (sqrt(s11) * sqrt(s22))

+ term1 * exp(term2 * (term3 + term4 - term5))

+ }

2. kezdőértékek megadása

> mu1 = 0 # expected value of x1

> mu2 = 0 # expected value of x2

> s11 = 10 # variance of x1

> s12 = 15 # covariance of x1 and x2

> s22 = 10 # variance of x2

> rho = 0.5 # correlation coefficient of x1 and x2

> x1 = seq(-10, 10, length=41) # generating the vector series x1

> x2 = x1 # copying x1 to x2

3. A kétváltozós normális eloszlás sűrűségfüggvényének kiszámítása

> z = outer(x1, x2, f) 28

4. A sűrűségfüggvény képletének az összeállítása a TEX szövegszerkesztőnek

megfelelő utasításkészlet segítségével:

> p.s = expression(italic(f)~(bold(x)) ==

+ frac(1,2~pi~sqrt( sigma[11]~sigma[22]~(1-rho^2)))~phantom(0)^

+ bold(.)~exp~bgroup("{", list(-frac(1,2(1-rho^2)), bgroup("[",

+ frac((x[1]~-~mu[1])^2, sigma[11])~-~2~rho~frac(x[1]~-~mu[1],

+ sqrt(sigma[11]))~ frac(x[2]~-~mu[2],sqrt(sigma[22]))~+~

+ frac((x[2]~-~mu[2])^2, sigma[22]),"]")),"}"))

5. A függvény megrajzolása és a képlet kiírása

> persp(x1, x2, z, main = "Kétváltozós normális eloszlás", sub = p.s,

28 A megadott vektorok felhasználásával, előállítja a 3. paraméterként megadott függvény értékeit, és

elhelyezi a z-ben.

Page 64: Statisztikai adatfeldolgozás (Excel és R)

60

+ col = "lightgreen", theta = 30, phi = 20, r = 50, d = 0.1, expand = 0.5,

+ ltheta = 90, lphi = 180, shade = .75, ticktype = "detailed", nticks = 5)

6. Az alapparaméterek kiírása az ábrára

> mtext(expression(list(mu[1]==0, mu[2]==0, sigma[11]==10,

+ sigma[22]==10, sigma[12]==15, rho==0.5)), side=3)

13( ) ( )

( ) ( )

−+

−−−

−−

−=

22

222

22

22

11

11

11

211

221211

***2*1*2

1exp*

1****2

1)(

σ

µ

σ

µ

σ

µρ

σ

µ

ρρσσπ

xxxxxf

27. ábra

A kétváltozós normális eloszlás 3 dimenziós ábrázolása

Ellenőrző kérdések:

1. Mi az egyenletes-eloszlás fő jellemzője?

2. Milyen jelenségek vizsgálatában alkalmazzák általában a binomiális-

eloszlást?

3. Melyik eloszlást szokták a „kis számok törvényének” nevezni?

4. Melyek az exponenciális-eloszlás fő jellemzői?

Page 65: Statisztikai adatfeldolgozás (Excel és R)

61

5. Miért tartják a normális eloszlást gyakorlati szempontból a

legfontosabb eloszlástípusnak?

6. Mikor nevezünk egy valószínűségi változót standard normális

eloszlásúnak?

7. Melyek az ábrák készítésének alapelvei?

8. Hogyan történik az adatok hisztogrammal való ábrázolása?

9. Mi jellemzi a pont-, a vonal-, az oszlop- és a kördiagramot?

10. Milyen főbb statisztikai jellemzők jelennek meg a boxplot

ábrázolásban?

11. Mi a lényege a páronként ábrázolásnak, és milyen kérdésekre adhat

választ ez az ábrázolási mód?

12. Milyen diagramokat foglal magában a violindiagram?

Page 66: Statisztikai adatfeldolgozás (Excel és R)

62

3. Alapstatisztikák

Túlesve a legfontosabb eloszlásokkal kapcsolatos elemi ismereteken, láthatjuk, hogy

a gyakorisági eloszlás, ha jóval kevesebb adat figyelembevételét is követeli meg a

mintánál, meglehetősen nehezen jellemezhető. Jó lenne az adatokat - lehetőleg -

minél tömörebben jellemezni. Egy numerikus adathalmaz alapvető jellemzőiként a

középértéket és a terjedelmet szokták megadni, amelyeket még ki lehet egészíteni

más jellemzőkkel is.

3.1. Helyzeti és számított középértékek

Az egyik leggyakrabban használt statisztikai jellemző a középérték, amely azonos

fajta számszerű adatok tömegének közös jellemzője. Azokat a középértékeket,

amelyeket számítással határozunk meg, számított középértékeknek nevezzük (átlag),

amelyeket pedig az elhelyezkedésük alapján, azokat helyzeti középértékeknek

nevezzük (pl.: medián).

A középértékekkel szemben támaszthatunk bizonyos követelményeket, amelyeknek

a különböző középértékek különböző mértékben tesznek eleget. Ilyen követelmény,

hogy a középérték valóban közepes helyzetet foglaljon el, tehát legyen nála kisebb és

nagyobb érték is, vagyis érvényesüljön, hogy

Xmin < K <Xmax

Megkövetelhető az is, hogy a középérték tipikus legyen, azaz olyan érték, amely

közel áll az előforduló értékek zöméhez, amely körül sűrűsödnek az értékek. Nagyon

fontos, hogy a használt középérték egyértelműen legyen definiálva, és könnyen

értelmezhető legyen.

3.1.1. Számtani átlag

A minta középértékének a leírására több lehetőség is van, de közülük a leginkább

elterjedt az átlag használata. A különböző átlagok közül a leggyakrabban használt a

Page 67: Statisztikai adatfeldolgozás (Excel és R)

63

számtani átlag, amelynek egyszerű formája a megfigyelési egységekhez tartozó

értékek (Xi) összegének és a megfigyelési egységek számának (n) a hányadosa, ami a

következő képlettel adható meg:

A fenti képlet alapján úgy is fogalmazhatnánk, hogy a számtani átlag az a szám,

amellyel az egyes megfigyelési értékeket helyettesítve azok összege változatlan

marad.

A számtani átlagot általában akkor használjuk, ha a megfigyelési egységek

összegének tárgyi értelme van. A számtani átlag közel szimmetrikus eloszlások

esetén jó mérőszáma a középértéknek, de félrevezető lehet ferde eloszlások esetében,

mert erősen befolyásolhatják a „végeken” lévő értékek. Normál eloszlás esetén a

számtani átlag a leghatékonyabb, és ebből következően az összes középtendencia

mérőszám közül a legkevésbé kitett a minta ingadozásainak.

Ha az adatainkat valamilyen szempont szerint csoportosítjuk, és gyakorisági sorokat

hozunk létre, akkor a számlálóban szereplő értékösszeget, az egyes csoportokat

jellemző értékek, és a hozzájuk tartozó gyakoriságok (fi) szorzatösszegeként állítjuk

elő, a nevezőben szereplő egyedszámot pedig a gyakoriságok összege adja:

=

==

k

ii

k

iii

f

Xf

X

1

1

*

Ezt az összefüggést súlyozott számtani átlagnak nevezzük. Az összefüggésben a ’k’ a

csoportok számát jelenti.

A kronologikus átlag a számtani átlag speciális formája, amelyet olyan idősorok

esetében használunk, amikor az értékek között nyitó- és záróérték is szerepel. Ilyenek

n

X

X

n

ii∑

==

1

Page 68: Statisztikai adatfeldolgozás (Excel és R)

64

lehetnek például a különböző készlet kimutatások. A kronologikus átlag

kiszámításának képlete:

1

2

1

2

1

++

=

∑−

=

n

XXX

X

n

ii

n

3.1.2. Harmonikus átlag

Harmonikus átlagszámításra általában akkor kerül sor, amikor az átlagolandó értékek

reciprok értékei összegének van tárgyi értelme. Ebből következően, a harmonikus

átlag az a szám, amelyet az egyes átlagolandó értékek helyébe helyettesítve, azok

reciprokainak összege nem változik:

∑=

=n

i i

h

X

nX

1

1

A harmonikus átlag használatára általában a fordított intenzitási viszonyszámokból,

illetve indexekből történő átlagszámítás esetén van szükség. Ebből következően a

harmonikus átlag lényegében nem más, mint a megfigyelési egységek reciprokaiból

számított számtani átlag reciprok értéke.

A számtani átlaghoz hasonlóan lehetőség van a harmonikus átlag súlyozott formában

történő kiszámítására is:

=

==

k

i ii

k

ii

h

Xf

f

X

1

1

1*

Page 69: Statisztikai adatfeldolgozás (Excel és R)

65

3.1.3. Mértani átlag

Mértani (geometriai) átlagot akkor számolunk, ha az átlagolandó értékek szorzatának

van tárgyi jelentése. Ilyen esettel általában dinamikus viszonyszámokkal történő

számítások során találkozhatunk.

A mértani átlag az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata

változatlan marad, a számítás képlete:

n

n

iig XX C

1=

= 29

A mértani átlag súlyozott formája:

∑= =

=

k

ii

if k

i

fig XX 1

1C

3.1.4. Négyzetes átlag

A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értéket

helyettesítve, azok négyzetösszege nem változik. A négyzetes átlag önmagában

viszonylag ritkábban használt átlagforma, mert nagyon ritkán tudunk az átlagolandó

értékek négyzetösszegének tárgyi jelentést adni. Hasznos lehet az alkalmazása abban

az esetben, ha az átlagolandó értékek között pozitív és negatív számok is

előfordulnak, és az előjelnek nincsen jelentősége, a négyzetes átlaggal eltüntethető az

előjelek különbözősége. Kiszámításának képlete:

n

x

X

n

ii

q

∑=

=1

2

29 A ∏ szimbólum a szorzatot jelenti.

Page 70: Statisztikai adatfeldolgozás (Excel és R)

66

Az átlagszámításnál a négyzetgyököt mindig pozitív előjellel értelmezzük.

A négyzetes átlag súlyozott formája

=

==

n

ii

n

iii

q

f

xf

X

1

1

2

3.1.5. Módusz

Bármely gyakorisági eloszlás görbéjét tekintjük: mindig értelmezhetünk olyan

értéket - vagy osztályközt - amelyre igaz, hogy ennek a legnagyobb a gyakorisága a

mintában.

A módusz helyzeti középérték. Diszkrét értékek esetén a módusz a leggyakrabban

előforduló ismérvérték. Ez alapján azt is mondhatnánk, hogy a módusz a

legáltalánosabb, a legjellemzőbb, tipikus érték. Meghatározásához nincsen szükség

számításra, értékét egy gyakorisági sorból vagy egy hisztogramból rátekintéssel meg

tudjuk állapítani.

Folytonos ismérvek esetében a módusz a gyakorisági görbe maximumához tartozó

érték, mert ezen érték körül sűrűsödnek a legjobban a megfigyelési egységek.

Bizonyos esetekben a szélsőérték iránti érzéketlenség miatt célszerű a móduszt

használni a többi középértékkel szemben.

Hátrány lehet, hogy esetenként több módusza is lehet egy sokaságnak.

3.1.6. Medián

A medián is helyzeti középérték, amely sorba rendezett értékek közül a középső,

vagyis amelynél ugyanannyi kisebb, mint nagyobb érték fordul elő. A medián értéke

Page 71: Statisztikai adatfeldolgozás (Excel és R)

67

A medián sorszáma: 2

1+n

A képletből következően páros esetszám esetén a medián törtszám lesz, és ebben az

esetben mediánnak a két középső szám egyszerű számtani átlagát tekintjük.

A medián kevésbé érzékeny az extrém értékekre, mint az átlag és ezért erősen ferde

eloszlások esetén jobb mérőeszköz lehet.

Szimmetrikus eloszlások esetén az átlag, a módusz és a medián megegyezik. Ez azt

is jelenti, hogy az átlag általában magasabb, mint a medián pozitív irányban ferde

eloszlások esetében, és alacsonyabb, mint a medián negatív irányú ferdeség esetén.

3.1.7. Kvantilisek

A minta elhelyezkedését jellemezhetjük a kvantilisek segítségével. A t %-os

empirikus kvantilis az a legkisebb mintaelem, amelynél a mintaelemek t %-a kisebb,

vagy egyenlő. A 25 %-os, illetve 75 %-os kvantilist alsó (Q1), illetve felső (Q3)

kvartilisnek nevezzük.

A kvartilisek meghatározásánál a nagyság szerint rendezett sokaságból kell kiindulni.

A kvartilisek nem tartoznak a középértékek közé. A kvartilisek, mint az

elnevezésükből is következik, a sokaságot negyedekre osztják. Azt is mondhatnánk,

hogy a kvartilisek a mediánnál kisebb és a mediánnál nagyobb értékek mediánjai. A

mediánnál kisebb értékek mediánja az alsó kvartilis (Q1). A mediánnál nagyobb

értékeké pedig a felső kvartilis (Q3).

Q1 sorszáma (25%): 4

1+n

Q1 sorszáma (75%): 4

)1(*3 +n

Page 72: Statisztikai adatfeldolgozás (Excel és R)

68

A kvartilisekhez hasonlóan lehet a sokaságot tized- vagy századrészekre osztani

(decilis, centilis).

3.2. A szóródás és mérőszámai

A középérték azáltal, hogy egyetlen értékbe sűrítve jellemzi a sokaságot, mintegy

kiegyenlíti a sokaságban rejlő különbözőségeket. Ez a tulajdonsága adja

használatának értelmét, de egyúttal korlátját is. Különböző sokaságokban az egyes

értékek átlagtól való eltérései lehetnek kisebbek vagy nagyobbak, ezért a sokaság

jellemzéséhez szükségünk lehet egy olyan jellemzőre, mérőeszközre is, ami arra ad

választ, hogyan helyezkedhetnek el a megfigyelési egységek az átlag körül. Azt a

sokaságot jobban jellemzi a középérték, amelynél kisebbek az átlagtól való eltérések,

mint azt, amelyben nagyobbak.

Szóródáson valamely mennyiségi ismérv értékeinek a különbözőségét értjük, amelyet

különböző mutatókkal mérhetünk.

A terjedelem a legegyszerűbb és legkönnyebben megérthető mérőeszköze a

szóródásnak, ami egyenlő a legnagyobb és a legkisebb érték különbségével. A

terjedelem nagyon érzékeny a szélső értékekre, mert csak két értéken alapszik.

Ugyanakkor a terjedelmet szinte soha nem használják a szóródás egyetlen

mérőszámaként, mert egyedül kevésbé informatív.

A kvartilis eltérés (interkvartilis terjedelem - IQ) a terjedelemhez nagyon hasonló

mérőszám, amely az alsó és a felső kvartilis különbségének a fele:

213 QQ

IQ−

=

Az átlagos abszolút eltérés (δ) a megfigyelési értékek és a számtani átlag eltérései

abszolút értékeinek a számtani átlaga:

Page 73: Statisztikai adatfeldolgozás (Excel és R)

69

n

XXn

ii∑

=

=1

δ

A szóródás leggyakrabban használt mutatószáma a négyzetes eltérés vagy szórás,

amely az ismérvértékek és a számtani átlaguk eltéréseinek négyzetes átlaga.

Számítása

( )

n

XXn

ii∑

=

=1

2

σ

A négyzetes eltéréssel – mint az a képletből is látható - az átlagtól való eltérések

átlagos nagyságát számítjuk ki. A képletben azért a négyzetes átlagot használjuk,

mert kvadratikus értelemben (kvadratikus minimum) a számtani átlag az a

középérték, amely a legközelebb áll az egyes átlagolandó értékekhez.

A szórás gyakorisági sorból történő kiszámítása súlyozott formában történik:

( )

=

=

=k

ii

k

iii

f

XXf

1

1

2*

σ

A variancia a szórásnégyzet (σ2), és ugyanúgy a változékonyság mérésében van

szerepe, mint a szórásnak. A varianciát önállóan nem szoktuk használni, de sok

statisztikai számítás felhasználja.

3.3. A ferdeség (skewness) és a csúcsosság (kurtosis)

A ferdeség és a csúcsosság lényegében alak-mutatószámok, amelyek azt mutatják

meg, hogy egy adott sokaság milyen mértékben tér el az etalonnak tekintett normál

eloszlás gyakorisági görbéjétől.

Page 74: Statisztikai adatfeldolgozás (Excel és R)

70

A csúcsosság (vagy lapultság) az eloszlás „elnyúltságán” alapszik. A csúcsosság

általánosan használt mutatószáma

( )4

1

4

*σn

XX

k

n

ii∑

=

=

A normál eloszlás csúcsossági értéke 0.

A ferdeség az asszimetria mérőszámának is tekinthető. Ebből következően a jobbra

hosszan elnyúló eloszlásokat baloldali asszimetriájú eloszlásoknak (pozitív ferdeség),

míg a balra hosszan elnyúló eloszlásokat jobboldali asszimetriájú eloszlásoknak

(negatív ferdeség) nevezzük (28. ábra). A pozitív ferdeséggel rendelkező eloszlások

a gyakoribbak.

Pozitív ferdeség Negatív ferdeség Szimmetrikus eloszlás

28. ábra

Az eloszlások ferdesége

A ferdeség számítása:

( )3

1

3

*σn

XX

k

n

ii∑

=

=

A normális eloszlás ferdeségi értéke 0, mivel az szimmetrikus eloszlás. Általános

szabály, hogyha az átlag nagyobb, mint a medián, akkor pozitívan ferde az eloszlás,

és ha az átlag kisebb, mint a medián, akkor negatívan csúcsos az eloszlás.

Page 75: Statisztikai adatfeldolgozás (Excel és R)

71

3.4. A középértékek és a szóródás kiszámításának lehetőségei az Excelben és

az R rendszerben

A számított és a helyzeti középértékekhez, valamint a szóródáshoz tartozó, a két

programban elvégezhető számításokat összevontan mutatjuk be, mert egy-egy

adathalmazhoz célszerű többféle számítást is bemutatni. Ahogyan azt már korábban

is megállapítottuk, általában egy statisztikai jellemző nem mindig jellemzi

megfelelően a sokaságot.

18. feladat

A 1. táblázatban található adatok felhasználásával számítsuk ki a főbb statisztikai

jellemzőket.

Év Aktív keresők

száma (fő)

1995 3 727.90

1996 3 669.60

1997 3 654.20

1998 3 657.00

1999 3 687.10

2000 3 749.80

2001 3 824.50

2002 3 828.10

2003 3 843.50

2004 3 853.90

1. táblázat

Az aktív keresők száma Magyarországon

Excel:

Az Excelben a főbb jellemzők együttes kiszámítását az Eszközök – Adatelemzés –

Leíró statisztika menüvel végezhetjük el. (29. ábra)

Page 76: Statisztikai adatfeldolgozás (Excel és R)

72

29. ábra

Az aktív keresők statisztikai jellemzőinek meghatározása

Az R rendszerben is van lehetőség különböző összegző statisztikák számítására. Az

első ilyen lehetőség a summary30 vagy a fivenum31 függvények használata. (30. ábra)

Ugyanúgy, mint az Excelben lehetőség van az egyes jellemzők külön-külön

kiszámítására is. A két programrendszerben számítható statisztikai jellemzőket a 2.

táblázat tartalmazza. A táblázatból látható, hogy van különbség a két rendszer között

és az Excelben számítható több mutató, de nem szabad elfelejteni, hogy az R

statisztikai programban sokkal könnyebb újabb függvényeket létrehozni, és tárolni,

majd újrafelhasználni. Általában ugyanannak a feladatnak a megoldása az Excelben

több munkát igényel, mint az R rendszerben.

30 Minimum, alsó kvartilis, medián, átlag, felső kvartilis, maximum. 31 Minimum, alsó sarokpont, medián, felső sarokpont, maximum.

Page 77: Statisztikai adatfeldolgozás (Excel és R)

73

30. ábra

A summary és a fivenum függvények használata az R-ben

Excel R

ÁTL. ELTÉRÉS

ÁTLAG mean

CSÚCSOSSÁG

FERDESÉG

HARM. KÖZÉP

KVARTILIS quantile

MAX max

MEDIÁN median

MÉRTANI.KÖZÉP

MIN min

MÓDUSZ

PERCENTILIS

SZÓRÁS sd

VAR var

IQR

2. táblázat

Az Excel és az R nyelv alap statisztikát számító függvényei

Page 78: Statisztikai adatfeldolgozás (Excel és R)

74

19. feladat

Mennyi idő alatt takarítanak be a kombájnok 100 hektár kukoricát, ha 100 ha

kukorica betakarításának műszakóra szükséglete különböző kombájnok esetében az

alábbi:

Kombájn típus Műszakóra/100 ha

Kombájn1 55

Kombájn2 70

Kombájn3 100

Kombájn4 75

Az Excelben való megoldást a 31. ábra mutatja be. (Az adatok az ábrán egyenként

kerültek megadásra, de lehetett volna cellahivatkozást is használni.)

31. ábra

Az átlagos műszakóra kiszámítása Excelben

Az R rendszerben nincsen külön függvény a harmonikus átlag számítására, annak

megoldására két lehetőség van (az adatok a müó.szüks változóban vannak):

Page 79: Statisztikai adatfeldolgozás (Excel és R)

75

1. Vagy beírjuk a képletet és kiszámítjuk

> length(müó.szüks)/(sum(1.0/müó.szüks))

2. Vagy készítünk egy függvényt, amit a későbbiekben is fel tudunk használni és a

megfelelő értékeket behelyettesítjük

> harm.átlag = function(x, n) n / sum(1/x)

> harm.átlag(müó.szüks, length(müó.szüks))

20. feladat

Az Alföld megyéiben a mezőgazdasági vállalatok műtrágya-felhasználása és a

műtrágyázott terület a 3. táblázatban szereplő volt. Számítsuk ki, hogy mennyi volt

az egy hektár műtrágyázott területre jutó műtrágya felhasználás az Alföldön?

Megye megnevezése

Felhasznált

összes műtrágya

(t)

1 hektár

műtrágyázott

területre felhasznált

műtrágya kg/ha

Bács-Kiskun 33622.6 139

Békés 18716.6 84

Csongrád 15773.4 121

Hajdú-Bihar 19584.9 117

Jász-Nagykun-Szolnok 22905.8 101

Pest, Budapest 22869.0 165

Szabolcs-Szatmár-Bereg 18943.6 117

3. táblázat

Műtrágyázás az Alföldön

A feladatot mindkét esetben a képlet felhasználásával tudjuk megoldani. A

különbség annyi, hogy az R rendszerben viszonylag egyszerűen létrehozható egy

képlet (függvény) és az le is tárolható további felhasználásra, addig az Excelben ez

kicsit bonyolultabb (32. ábra), de képlet ott is tárolható.

Page 80: Statisztikai adatfeldolgozás (Excel és R)

76

32. ábra

Az átlagos műtrágyázás az Alföldön

R rendszer:

Függvény létrehozása:

> s.harm.átlag = function(f, x) sum(f) / sum(f/x)

Függvény behelyettesítése:

> s.harm.átlag(felh.össz.műtr, műtr.1ha)

Eredmény: [1] 118.1743

21. feladat

A 1. táblázat adatainak felhasználásával számítsuk ki, hogy milyen ütemben változott

1995 és 2004 között Magyarországon a foglalkoztatottak száma. Az Excel ehhez a

számításhoz biztosít egy függvényt, amelynek a segítségével az eredmény

kiszámítható, de előtte meg kell határozni azokat a láncviszonyszámokat, amelyből

mértani átlagszámítást el tudjuk végezni. (33. ábra)

Page 81: Statisztikai adatfeldolgozás (Excel és R)

77

33. ábra

Az aktív keresők számának átlagos növekedési üteme

Az R rendszerben létre kell hozni egy függvényt. A létrehozandó függvényt úgy is el

lehet készíteni, hogy először számítsa ki a láncviszonyszámokat, és azután számolja

az átlagot.

1. Függvény létrehozása

> mértani.átlag = function(x)

+ {

+ x1 = x[-length(x)]

+ x2 = x[-1]

+ lánc = x2 / x1

+ xprod = cumprod(lánc)^(1/(length(x)-1))

+ xprod[length(xprod)]

+ }

Az átlag kiszámítása

> mértani.átlag(aktív.kereső)

Eredmény: [1] 1.003700

Page 82: Statisztikai adatfeldolgozás (Excel és R)

78

3.5. Hipotézistesztelés, alapvető paraméteres és nem-paraméteres statisztikai

próbák

Gyakran előfordul, hogy az ismeretlenek nagy száma, vagy a megfigyelési

lehetőségek korlátozottsága folytán, nem tudunk közvetlen módszereket alkalmazni,

illetve érdeklődésünk nem az ismeretlen paraméter konkrét értékére irányul, hanem

például arra: lehetséges-e, hogy két adott minta ugyanabból az eloszlásból

származott, vagy származhatott-e a minták egy konkrét eloszlásból, stb.

Például, egy növénytermesztési kísérletnél az egyik parcellán nem adunk műtrágyát,

másikon pedig adunk bizonyos adagot. Igazolandó feltevésünk az – a

termésnövekedés a valószínűségi változó -, hogyan befolyásolja a műtrágya a

valószínűségi változó eloszlását, várható értékét megváltoztatja-e.

Statisztikai hipotézisen egy, az alapeloszlás paramétereire, vagy magára az egész

alapeloszlásra vonatkozó feltevést értünk.

A statisztikai hipotézisek két nagy csoportra oszthatók. Abban az esetben, ha

feltevésünk az ismert típusú alapeloszlás egy vagy több ismeretlen paraméterére

vonatkozik, akkor paraméterre vonatkozó hipotézisről beszélünk. Ha az egész

alapeloszlás típusára vonatkozó feltevéssel élünk, akkor eloszlásra vonatkozó

hipotézisről beszélünk.

Azt az eljárást, amelynek segítségével eldöntjük, hogy az adott hipotézis konkrét

esetben elfogadható-e, vagy sem, hipotézisvizsgálatnak nevezzük.

3.5.1. A hipotézisvizsgálat menete

A hipotézisvizsgálat első lépése a nullhipotézis képzése, amelyben az az állítás jut

kifejezésre, hogy az eloszlás paramétere és annak feltételezett értéke, vagy a

tényleges és a feltételezett alapeloszlás között nincsen különbség.

Page 83: Statisztikai adatfeldolgozás (Excel és R)

79

A hipotézisvizsgálatokban fontos szerepe van az alternatív hipotézisnek, ami a

nullhipotézistől eltérő hipotézis matematikai megfogalmazása. Egy nullhipotézishez

több alternatív hipotézis is megfogalmazható, amelyek lehetnek egyszerűek (H1: a =

2) és összetettek (H1: 1 < a < 3).

Ezután létre kell hoznunk a próbafüggvényt, és ki kell jelölni azt az intervallumot,

amely tetszőleges valószínűséggel foglalja magában a próbafüggvény értékét. Az

intervallum két végpontját kritikus értéknek, a valószínűségi szintet pedig

szignifikancia-szintnek nevezzük.

Ha a próbafüggvénynek az értéke beleesik a megadott intervallumba (elfogadási

tartományba), akkor nincsen okunk kételkedni a nullhipotézis helyességében, azaz

nincsen szignifikáns eltérés a nullhipotézisünk feltételezése és a valóság között.

3.5.2. u-próba

Az u-próba lehet egymintás és kétmintás próba. Az egymintás u-próba azt vizsgálja,

hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy

adott m értéktől. A próba alkalmazásának feltételei:

• a vizsgált valószínűségi változó normális eloszlású,

• a vizsgált valószínűségi változó intervallum vagy arányskálán mért,

• a vizsgált valószínűségi változó populáción belüli szórása ismert (tehát nem a

minta alapján kell becsülnünk).

Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az előre megadott

m értékkel. [H0 : x = m]

Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az

előre megadott m értékkel. [H1 : x ≠ m]

A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából

kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen

ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból

Page 84: Statisztikai adatfeldolgozás (Excel és R)

80

azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel

magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-

mel).

Az egymintás u-próba próbastatisztikája

n

mxu

σ

−=

ahol

• x a vizsgált valószínűségi változó átlaga a mintában,

• σ : a vizsgált valószínűségi változó ismert szórása,

• m : az előre adott érték, amihez az átlagot viszonyítjuk, és

• n : a minta elemszáma.

A kétmintás u-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi

változó átlagai egymástól szignifikánsan különböznek-e. A próba alkalmazásának

feltételei:

• a vizsgált valószínűségi változók normális eloszlásúak,

• a vizsgált valószínűségi változók intervallum vagy arányskálán mértek,

• a vizsgált valószínűségi változók populáción belüli szórásai ismertek,

• a vizsgált valószínűségi változók függetlenek.

Nullhipotézis: a két mintában a két átlag statisztikai szempontból megegyezik. [H0 :

E(x) = E(y)]

Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik

meg. [H1 : E(x) ≠ E(y)]

A kétmintás u-próba próbastatisztikája

Page 85: Statisztikai adatfeldolgozás (Excel és R)

81

mn

yxu

yx

22 σσ+

−=

ahol

• x az egyik valószínűségi változó átlaga a mintájában,

• y a másik valószínűségi változó átlaga a mintájában,

• σx az egyik valószínűségi változó korrigált szórása,

• σy a másik valószínűségi változó korrigált szórása,

• n az egyik minta elemszáma és

• m a másik minta elemszáma.

3.5.3. t-próba

A t-próba lehet egymintás és kétmintás próba. Az egymintás t-próba azt vizsgálja,

hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy

adott m értéktől. A próba alkalmazásának feltételei:

• a vizsgált valószínűségi változó normális eloszlású,

• a vizsgált valószínűségi változó intervallum vagy arányskálán mért.

Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az előre megadott

m értékkel. [H0 : x = m]

Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az

előre megadott m értékkel. [H1 : x ≠ m]

Az egymintás t-próba próbastatisztikája

n

smx

u−

=

ahol

• x a vizsgált valószínűségi változó átlaga a mintában,

Page 86: Statisztikai adatfeldolgozás (Excel és R)

82

• s a vizsgált valószínűségi változó becsült szórása,

• m az előre megadott érték, amihez az átlagot viszonyítjuk és

• n a minta elemszáma.

Szabadságfok: n - 1

A kétmintás t-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi

változó átlagai egymástól szignifikánsan különböznek-e. A próba alkalmazásának

feltételei:

• a vizsgált valószínűségi változók normális eloszlásúak,

• a vizsgált valószínűségi változók intervallum vagy arányskálán mértek,

• a vizsgált valószínűségi változók szórásai megegyeznek (a kétmintás u-

próbától eltérően itt nem kell ismernünk az elméleti értéküket, elegendő

becsülnünk a minták alapján),

• a vizsgált valószínűségi változók függetlenek.

Nullhipotézis: a két mintában a két átlag statisztikai szempontból megegyezik. [H0 :

E(x) = E(y)]

Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik

meg. [H1 : E(x) ≠ E(y)]

A kétmintás t-próba próbastatisztikája

mn

mnmn

smsn

yxt

yx+

−+

−+−

−=

)2(***

*)1(*)1( 22

ahol

• x az egyik valószínűségi változó átlaga a mintájában,

• y a másik valószínűségi változó átlaga a mintájában,

• sx az egyik valószínűségi változó korrigált szórása,

• sy a másik valószínűségi változó korrigált szórása,

Page 87: Statisztikai adatfeldolgozás (Excel és R)

83

• n az egyik minta elemszáma és

• m a másik minta elemszáma.

Szabadságfok: n1 + n2 -1

22. feladat

Egy új gyógyszer hatását mérik, ezért két csoportot vizsgálnak, az egyik csoport a

gyógyszert kapja, a másik placebót. Azt vizsgálják, hogy mennyi idő alatt gyógyul

meg az, aki a gyógyszert kapja és mennyi idő alatt (nap), aki a másik anyagot. Az

eredmény

gyógyszer: 15, 10, 13, 7, 9, 8, 21, 9, 14, 8

placebo: 15, 14, 12, 8, 14, 7, 16, 10, 15, 12

Az Excelben a feladat az Eszközök – Adatelemzés – Kétmintás párosított t-próba a

várható értékre menüben oldható meg. (34. ábra) Az eredményből láthatjuk, hogy a

két átlag egymástól szignifikánsan nem különbözik.

34. ábra

Gyógyszer hatásának vizsgálata

Page 88: Statisztikai adatfeldolgozás (Excel és R)

84

Az R rendszerben a t.test függvényt használhatjuk fel. (35. ábra) A számítás során

kicsit eltérő adatokat kaptunk, de a végkövetkeztetés ugyanaz, nincsen igazi

(szignifikáns) különbség az átlagok között.

35. ábra

Gyógyszer hatásának tesztelése

3.5.4. F-próba

Az F-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi változó

szórásai egymástól szignifikánsan különböznek-e.

Nullhipotézis: a két mintában a két szórás statisztikai szempontból megegyezik. [H0 :

σ1 = σ2]

Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik

meg. [H1 : σ1 ≠ σ2]

A kétmintás t-próba próbastatisztikája

22

21

s

sF =

ahol

Page 89: Statisztikai adatfeldolgozás (Excel és R)

85

• s1 az egyik valószínűségi változó szórása,

• s2 a másik valószínűségi változó szórása.

Az F-próbát a varianciaanalízis és a regresszióanalízis esetében alkalmazzuk.

3.5.5. χ2-próba

Az előzőekben tárgyalt hipotézis ellenőrzéseknél többször kellett a sokaság

eloszlására vonatkozó feltételezéssel élnünk, illetve a statisztikai ellenőrzések során

gyakran előforduló feladat különböző sokaságok valamely ismérv szerinti

megoszlásának összehasonlítása (illeszkedés-vizsgálat). A sokaság eloszlásában

szerepet játszik a véletlen, ezért ha egy megfigyelés (mintavétel) alapján kapott

tapasztalati eloszlás gyakoriságai nem teljesen azonosak az elméleti sűrűségfüggvény

szerint várható gyakoriságokkal, illetve ha a két tapasztalati megoszlás nem esik

teljesen egybe, számításba kell vennünk, hogy a különbségek nem szignifikánsak. Ez

a feltevés a próba nullhipotézise.

A próba alkalmazásának feltétele:

• a sokaság legalább 50 tagú kegyen,

• egy-egy ismérvváltozathoz tartozó várható gyakoriság legalább 5 legyen.

A χ2-próba próbastatisztikája

( )∑

=

−=

k

i i

ii

f

ff

1*

2*2χ

ahol

• fi az i-edik ismérvváltozathoz tartozó megfigyelt gyakoriság,

• *

if az i-edik ismérvváltozathoz tartozó várható gyakoriság.

• k a megkülönböztetett ismérvváltozatok száma,

Szabadságfok: k – 1

Page 90: Statisztikai adatfeldolgozás (Excel és R)

86

23. feladat

Egy kockával 150-szer dobtunk és a következő eredményt kaptuk:

Pont 1 2 3 4 5 6

Dobás 22 21 22 27 22 36

A kapott adatok eloszlása megfelelő-e?

Az Excelben végzett számítást a 36. ábra, míg az R rendszerben végzettet a 37. ábra

tartalmazza. Mindkét esetben ugyanazt kaptuk eredményül, és megállapítható, hogy

nincsen okunk elvetni azt a hipotézist, hogy a kockadobás eredménye megfelelően

illeszkedik a normális eloszlásra, ami azzal is alátámaszthatunk, ha elkészítjük a

dobások hisztogramját vagy boxplotját, vagy a kettőt együtt.

36. ábra

A kockadobás eloszlása illeszkedésének vizsgálata Excelben

Page 91: Statisztikai adatfeldolgozás (Excel és R)

87

37. ábra

A kockadobás illeszkedésének vizsgálata R-ben

A χ2-próbának az illeszkedés-vizsgálat mellett további nevezetes alkalmazásai a

homogenitás-vizsgálat és a függetlenség-vizsgálat.

Függetlenség-vizsgálat a sztochasztikus kapcsolatok vizsgálatának egyik módszere.

Függetlenség-vizsgálat esetén a nullhipotézis az, hogy a két ismérv (változó)

független egymástól, az alternatív hipotézis pedig az, hogy nem. A próba

szabadságfoka: (n - 1) * (m - 1), ahol az n és az m a két minta változatainak a száma.

24. feladat

Egy vizsgálat az ütközések során elszenvedett károk komolyságát elemezte, a szerint,

hogy a biztonsági övet bekötötték vagy sem. A kérdés az volt, hogy a biztonsági öv

használata okoz-e különbséget? A vizsgálat eredménye:

Sérülés(kár) szint

nincs kicsi közepes Jelentős

Biztonsági

öv

Igen 12813 647 359 42

Nem 65963 4000 2642 303

Az eredmény a 38. ábrán található. A rendkívül alacsony p-érték alapján azt a

következtetést kell levonnunk, hogy a két változat nem független, ezért a

függetlenségi feltételezésünket el kell vetni. (A megfelelő táblázat létrehozásához

használni kell a data.frame függvényt.

Page 92: Statisztikai adatfeldolgozás (Excel és R)

88

38. ábra

A biztonsági öv használatának és nem használatának összehasonlítása

A homogenitás-vizsgálat esetében az u- és a t-próbákkal szemben az összehasonlított

változóknak nemcsak a várható értékére, hanem az eloszlására nézve is feltételezzük

az azonosságot a nullhipotézisben. A kérdés, hogy a két minta azonos sokaságból

származi-e? A nullhipotézisünk az, hogy mindkét adatsor ugyanabból az eloszlásból

származik. A szabadságfok: (sorok száma – 1) * (oszlopok száma – 1).

25. feladat

Van két dobókocka, az egyik szabályos, a másikat manipulálták. Dobjunk a

szabályos kockával 200-at és 100-at a manipulálttal. A kérdés, hogy a két sorozat

származhat-e ugyanabból az eloszlásból?

Megoldás az R-ben:

> kocka.szab = sample(1:6, 200, p=c(1,1,1,1,1,1)/6, replace=T)

> kocka.nem.szab = sample(1:6,100, p=c(0.5,0.5,1,1,1,2)/6, replace=T)

> eredm.szab = table(kocka.szab)

> eredm.nem.szab = table(kocka.nem.szab)

> rbind(eredm.szab, eredm.nem.szab)

> chisq.test(rbind(eredm.szab, eredm.nem.szab))

Az eredményt az R rendszerben számítottuk ki, ami a 39. ábrán látható. A kapott

eredmény elég alacsony, de még a nullhipotézis elfogadható, azaz származhat a két

minta ugyanabból az eloszlásból.

Page 93: Statisztikai adatfeldolgozás (Excel és R)

89

39. ábra

Homogenitás vizsgálat az R rendszerben

Ellenőrző kérdések:

1. Mi a különbség a helyzeti és a számított középértékek között?

2. Mi a kronológikus átlag és mikor használjuk?

3. Milyen számokból szoktunk harmónikus átlagot számítani?

4. Milyen viszonyszámokból számítanak mértani átlagot?

5. Mi a módusz és a medián?

6. Mi a kvartilis?

7. Melyek a szóródás fő mérőszámai?

8. Mi az interkvartilis terjedelem?

9. Mit jelent a ferdeség és a csúcsosság?

10. Mit értünk statisztikai hipotézisen?

11. Mire használható az u-próba?

12. Miben különbözi a t-próba az u-próbától?

13. Milyen számításokban használjuk az F-próbát?

14. Melyek a khi-négyzet próba alkalmazásai?

Page 94: Statisztikai adatfeldolgozás (Excel és R)

90

4. Mintavételezés, varianciaanalízis

A gyakorlatban szinte soha sincs arra lehetőségünk, hogy az adott sokaság minden

tagját megvizsgáljuk. A mintavétel célja, hogy olyan adatokat nyerjünk, melyek

segítségével a populációra vonatkozóan megalapozott állításokat tehetünk. A minket

érdeklő sokasági változók jellemzőit (a populáció bizonyos paramétereit) a mintából

számolt statisztikákkal becsüljük. Egy adott populációból

N

M különböző mintát

vehetünk, ahol M a populáció elemszáma, N pedig a mintaelemszám. Ezek a minták

nem csak összetételükben, hanem a vizsgált jellemző szempontjából is

különbözhetnek. A mintajellemzők tehát maguk is valószínűségi változók, melyek

egy adott érték (a populációs paraméter) körül ingadoznak.

A reprezentatív megfigyelés logikai alapja az indukció, vagyis a következtetés azon

formája, amelynél egyes esetekből általánosító következtetést vonunk le. A

reprezentatív megfigyelés célja, hogy a sokaság jellemzőit a becsült értékkel

közelítse meg. Az így elkövetett véletlen hiba nagysága ellenőrizhető és

korlátozható.

4.1. Mintavételi eljárások

A reprezentatív statisztika a mintavételi eljárások különböző módjain alapszik,

amelyek lehetnek:

a. Véletlenen alapuló kiválasztás

• Egyszerű véletlen

Olyan kiválasztási eljárás, amelynek során az egységeket a

nyilvántartásból véletlenszerűen, egyenlő valószínűséggel választjuk

ki.

• Egylépcsős

Egylépcsős (csoportos) mintavételnek nevezzük az elsődleges

egységek kiválasztását egy nyilvántartásból abban az esetben, ha a

Page 95: Statisztikai adatfeldolgozás (Excel és R)

91

kiválasztott elsődleges egységeken32 belül minden másodlagos

egységet33 megfigyelünk.

• Többlépcsős

A mintasokasághoz több lépcsőben jutunk el. Az első lépésben

kiválasztjuk az elsődleges egységeket, majd ezután a kiválasztott

elsődleges egységeken belül végzünk további mintavételeket.

• Rétegzett kiválasztás

Lényege a minta belső összetételének mesterséges megjavítása. A

sokaság egységeit kiegészítő információ alapján csoportosítjuk,

miközben arra törekszünk, hogy minél homogénebb csoportokat

nyerjünk, amelyeket rétegeknek nevezünk. A kiválasztás az egyes

rétegekből külön-külön és egymástól függetlenül történik, rétegen

belül egyszerű véletlen kiválasztást alkalmazva.

b. Nem véletlen kiválasztás

• Kvótakiválasztás

• Koncentrált kiválasztás

• Önkényes kiválasztás

c. Szisztematikus kiválasztás

A mintavétel alapját képező nyilvántartásból egyenlő távolságra álló

egyedeket választunk ki. Úgy is értelmezhető, hogy a sokaságot n egyenlő

rétegre osztjuk és rétegenként egy elemből álló mintát veszünk.

A korábban már tárgyalt átlag és szórás fogalmakon túl, foglalkoznunk kell az ún.

standard hibával is. Egy becslő függvény szórását nevezzük az illető becslés standard

hibájának. A standard hiba megmutatja, hogy a mintából származó becslések milyen

mértékben szóródnak a populációs paraméter körül, vagyis megmondhatjuk, hogy a

populációs paraméter körüli bizonyos intervallumokba a mintabecslések mekkora

hányada fog esni: a mintából származó becsléseknek közelítőleg 68 százaléka esik a

paraméter körüli 1 standard hiba szélességű sávba (±1 standard hibányi távolságra),

becsléseknek közelítőleg 95 százaléka esik a paramétertől ±2 standard hibányi távolságra,

32 Elsődleges mintavételi egységnek tekintjük a nyilvántartásban felsorolt egységeket. 33 Másodlagos mintavételi egységnek tekintjük azon sokaság egységeit, amelyekre a megfigyelés

irányul.

Page 96: Statisztikai adatfeldolgozás (Excel és R)

92

és becsléseknek közelítőleg 99,9 százaléka esik a paraméter körüli ±3 standard hiba

szélességű sávba.

4.2. A varianciaanalízis

A varianciaanalízis több, azonos szórású, normális eloszlású populáció átlagának az

összehasonlítására szolgáló módszer, amelyet ANOVA néven is emlegetnek az angol

elnevezés betűinek rövidítéseként (Analysis of Variance). A varianciaanalízis a t-

próbák általánosítása több csoport esetére. Azért hívják varianciaanalízisnek, mert az

átlagokat hasonlítja ugyan, de ezt többféle módon definiált varianciák segítségével

teszi. A varianciaanalízis a teljes adathalmaz teljes-szóródását (összvarianciáját)

vizsgálja abból a szempontból, hogy azt csupán a véletlen ingadozás okozza-e, vagy

ahhoz valamilyen más tényező, pl. a csoportok átlagai közötti különbség is

hozzájárul.

Többféle varianciaanalízis van a kísérleti elrendezéstől függően. Amennyiben a

csoportok függetlenek, és csak egyetlen szempont szerint különböznek (pl. többféle

kezelést vagy többféle betegcsoportot hasonlítunk össze), akkor egytényezős

varianciaanalízisről beszélünk. Ha a csoportok függetlenek, de többféle szempont

szerint is vizsgálhatók (pl. nemek szerint és kezelések szerint is), akkor két- vagy

többtényezős varianciaanalízissel hasonlítjuk össze az átlagokat. Ha a csoportok

összetartozó minták csoportjai, (pl. ugyanazokon az egyedeken több mérést végeznek

több időpontban, vagy különböző kísérleti körülmények között), akkor az ún.

ismételt méréses varianciaanalízist kell alkalmazni.

4.2.1. Egytényezős varianciaanalízis

A t-próbát két független minta tesztelésére használtuk. A varianciaanalízist hasonló

célból használjuk, de általában több mint két független minta (kísérlet)

összehasonlítására.

Page 97: Statisztikai adatfeldolgozás (Excel és R)

93

Több csoport összehasonlítása lényegében a csoportok eloszlásának

összehasonlítását jelenti. Minden mérés hibával jár, a mintaadatok csoportonként

pusztán a véletlen miatt is különböznek. A kérdés éppen ez: annak eldöntése, hogy az

egyes minták ugyanabból a sokaságból származnak-e, vagy nem.

Az egyszempontos (egytényezős) varianciaanalízis több, általában párhuzamos

elrendezésű csoport valamely folytonos, normális eloszlású jellemzőjének átlagát

hasonlítja össze úgy, hogy a csoportok közt csak egyetlen szempont szerinti eltérést

vesz figyelembe. Az összehasonlítás alapja az F-próba, mely az átlagok különbségeit

jellemző ´csoportok közötti´ varianciát hasonlítja össze a véletlen ingadozást

jellemző ´csoportokon belüli´ varianciával. Szignifikáns eredmény esetén annyit

mondhatunk, hogy a populációk átlagai nem mind egyformák. A különbségek

megtalálása további vizsgálattal, pl. többszörös összehasonlításokkal vagy

kontrasztok vizsgálatával folytatható.

A varianciaanalízis alkalmazási feltételei:

1. Az egyes részsokaságokat jellemző Y1, Y2,.....Yk ismérvek normális

eloszlású valószínűségi változók.

2. Szórásuk azonos.

3. Az egyes részsokaságokból vett ni elemű minták (azaz a megfigyelések)

függetlenek.

A varianciaanalízis eredményei robusztusak (nem érzékenyek) az első két feltételtől

való mérsékelt eltérésre, de nagyon érzékenyek a 3. feltétel teljesülésére.

Az egyszempontos varianciaanalízis az összes varianciát két részre osztja, a

kezeléssel (csoportosítás) megmagyározott variancia és a hiba (amit a kezeléssel nem

tudunk megmagyarázni). (4. táblázat) Ha elvégeztük a szórásfelbontást, akkor a két

rész szórásnégyzet felhasználásával elvégezzük az F-próbát

B

K

SS

SSF =

Page 98: Statisztikai adatfeldolgozás (Excel és R)

94

Az F-próba esetén az a feltételezésünk (nullhipotézisünk), hogy a kezelés és a hiba

szórásnégyzete szignifikánsan nem különbözik, azaz az adatok szórása nem

magyarázható meg kellő „súllyal” a kezeléssel. Ha az F-próba értéke kellő nagyságú,

és a hozzátartozó szignifikanciaszint kellően kicsi, akkor a nullhipotézist el lehet

vetni, azaz a kezelés kellő magyarázó erővel rendelkezik

Négyzetösszeg Szabadságfok Szórásnégyzet

Csoportosítás (kezelés)

SSK= n Y Yi ii

k( )−

=∑ 2

1

k-1 MSK=

n Y Y

k

i ii

k( )−

−=∑ 2

1

1

Hiba SSB= ( )Y Yij ij

n

i

k i

==∑∑ 2

11

n-k MSB=

( )Y Y

N k

ij ij

n

i

k i

==∑∑ 2

11

Teljes SS= ( )Y Yijj

n

i

k i

==∑∑ 2

11

n-1 MS=

( )Y Y

N

ijj

n

i

k i

==∑∑ 2

11

1

4. táblázat

A varianciaanalízis táblája

26. feladat

Tyúkok tojástermelését vizsgálták egy takarmányozási kísérletben. A kísérletben

négyféle takarmányt etettek. Minden kísérleti csoportban 5 tyúk volt. A tyúkok az 5.

táblázatban található tojástermelésének alapján vizsgáljuk meg, hogy az eltérő

takarmányozásnak volt-e hatása a tojástermelésre?

A varianciaanalízis megoldására az Excelben az Eszközök – Adatelemzés –

Egytényezős varianciaanalízis utasítást használjuk. A számítás eredményét a 40. ábra

mutatja be, amelyből megállapítható, hogy az eltérő takarmányozásnak van hatása és

az eltérések nem a véletlennek tudhatók be.

Page 99: Statisztikai adatfeldolgozás (Excel és R)

95

Takarmány Tyúkok

1 2 3 4 5

A 94 86 69 78 73

B 114 99 97 108 111

C 97 84 94 87 93

D 81 77 90 85 75

5. táblázat

A takarmányozási kísérlet eredménye

40. ábra

A takarmánykísérlet értékelése Excelben

Page 100: Statisztikai adatfeldolgozás (Excel és R)

96

Az R rendszerben történő megoldást a 41. ábra tartalmazza. Az ábrából láthatjuk,

hogy az F-próba szignifikancia szintje 0,1 %, azaz a nullhipotézist el kell vetni, és a

kezelés szignifikánsan különbözik a hibától. Az előző megállapítás azt jelenti, hogy a

takarmányozásnak van hatása a tyúkok tojástermelésére.

41. ábra

Az R rendszerben elvégzett varianciaanalízis

A boxplot felhasználásával ábrázolhatjuk is a kísérletet. A 42. ábra is mutatja, hogy

az egyes kísérletek eredményei láthatóan eltérnek egymástól.

> s = data.frame(k1,k2,k3,k4)

> boxplot(s, main="Takarmányozási kísérlet", ylab="Tojástermelés",

+ xlab="Takarmányok")

Page 101: Statisztikai adatfeldolgozás (Excel és R)

97

42. ábra

A takarmányozási kísérlet eredményének ábrázolása boxplot diagrammal

27. feladat

Az egyik iskolában 27 ösztöndíj pályázatot kell értékelni. A munkát a gyorsabb

eredmény érdekében 3 emberre bízták. A pályázatokat véletlenszerűen osztották szét

az értékelők között. Ugyanakkor nem szeretnék, ha az értékelők személye döntené el

a pályázat sorsát, ezért a bizottság úgy döntött, hogy összehasonlítja a három értékelő

eredményét (43. ábra). Az értékelést 1-5 pontos rendszerben végezték. Az értékelés

eredménye

1. értékelő: 4, 3, 4, 5, 2, 3, 4, 5

2. értékelő: 4, 4, 5, 5, 4, 5, 4, 4

3. értékelő: 3, 4, 2, 4, 5, 5, 4, 4

Page 102: Statisztikai adatfeldolgozás (Excel és R)

98

43. ábra

A pályázatértékelők összehasonlítása

4.2.2. Kéttényezős varianciaanalízis

A kéttényezős varianciaanalízisben az összehasonlítandó csoportok két független

szempontból is vizsgálhatók (pl. kezelés és nemek szerint). Ekkor a két tényező (pl. a

kezelések közötti különbségek) hatásán kívül vizsgálható a kettő kölcsönhatása

(interakció) is, vagyis az, hogy a két tényező együtt másképpen hat-e, mint külön-

külön (pl. a kezelések közötti különbségek függnek-e a nemtől). A többtényezős

varianciaanalízisben többszörös kölcsönhatások is szerepelnek.

A kéttényezős varianciaanalízis használható, ha az adatok két különböző dimenzióba

sorolhatók. Adott például egy kísérlet, ahol a növények magasságát mérjük. A

növényeket különféle típusú tápoldattal kezeljük (A, B és C), továbbá különböző

hőmérsékleten tartjuk őket (alacsony és magas). Mind a hat lehetséges {tápoldat,

hőmérséklet} párosítás esetén azonos számú megfigyelés áll rendelkezésünkre a

növények magasságát illetően. Ebben az esetben a varianciaanalízissel a

következőket vizsgálhatjuk:

• Vajon a növények magasságára vonatkozó mérések a különböző tápoldatok

esetében ugyanabból a sokaságból származnak-e. Ez az elemzés nem veszi

figyelembe a hőmérséklet hatását.

Page 103: Statisztikai adatfeldolgozás (Excel és R)

99

• Vajon a növények magasságára vonatkozó mérések a különböző

hőmérsékletek esetében ugyanabból a sokaságból származnak-e. Ebben az

esetben a tápoldatok hatását hagytuk figyelmen kívül.

• Figyelembe véve a különböző tápoldatok, és a hőmérsékletkülönbség okozta

eltéréseket (amelyeket az első és a második lépésben kimutattunk), vajon az

összes {tápoldat, hőmérséklet} értékpárt jelölő hat minta ugyanabból a

sokaságból származik-e. Az alternatív hipotézis szerint nem kizárólag a

hőmérséklet vagy a tápoldat változása okozhat eltérést, az egyes {tápoldat,

hőmérséklet} párok esetében más hatások is felléphetnek.

A kéttényezős varianciaanalízis lehet ismétléses (cellánként több megfigyelés) vagy

ismétlés nélküli (cellánként egy megfigyelés). Kéttényezős, ismétlés nélküli

varianciaanalízis akkor használható, ha az adatok két különböző dimenzióba

sorolhatók, a kéttényezős, ismétléses varianciaanalízishez hasonlóan. Itt azonban

feltételezzük, hogy minden párhoz (például minden {tápoldat, hőmérséklet} párhoz)

csak egy megfigyelés tartozik. Ebben az esetben elvégezhetjük a kéttényezős,

ismétléses varianciaanalízis első és második lépését, a harmadik lépés elvégzéséhez

viszont nem rendelkezünk elegendő adattal.

28. feladat

Egy patkányokon végzett toxicitás vizsgálatban 3 mérget használtak (I, II, III) és

négyféle kezelést alkalmaztak (A, B, C, D), a vizsgálatokat 4 ismétlésben végezték.

A vizsgálat során a patkányok túlélési idejét mérték tíz órákban. Az eredményt a 6.

táblázat tartalmazza.

Megoldás az R rendszerben:

> toxi = read.table("c://Program Files//R//R-2.3.1//library//ascdata//

+ rats.txt", header=TRUE)34

> attach(toxi)35

> par(mfrow=c(1,2))

> plot(idő ~ kezelés + méreg, data=toxi) 34 Az adatok rendelkezésre álltak file-ban, ezért onnan kerültek beolvasásra. 35 Lehetővé teszi, hogy az oszlopneveket közvetlenül használjuk a függvényekben.

Page 104: Statisztikai adatfeldolgozás (Excel és R)

100

Méreg Kezelés

A B C D

I

0.31 0.82 0.43 0.45

0.45 1.10 0.45 0.71

0.46 0.88 0.63 0.66

0.43 0.72 0.76 0.62

II

0.36 0.92 0.44 0.56

0.29 0.61 0.35 1.02

0.40 0.49 0.31 0.71

0.23 1.24 0.40 0.38

III

0.22 0.30 0.23 0.30

0.21 0.37 0.25 0.36

0.18 0.38 0.24 0.31

0.23 0.29 0.22 0.33

6. táblázat

A toxicitási kísérlet eredménye

Az számítások elvégzése során elkészítettük az egyes tényezők boxplot diagramjait

(44. ábra), amelyek bemutatják a tényezőkön belüli szempontokhoz tartozó adatok

elhelyezkedését. Ezt követően elvégzésre került a kéttényezős varianciaanalízis,

amelynek eredménye a 45. ábrán látható. A 45. ábrából azt is láthatjuk, hogy a

kéttényezős varianciaanalízis számításhoz ugyanazt a függvényt használtuk, amit az

egytényezős esetben, csak itt megadásra került a második tényező is. A függvény

segítségével többtényezős varianciaanalízis is elvégezhető. A varianciaanalízis

eredményéből azt láthatjuk, hogy az egyes tényezőkön (hatásokon) belül szignifikáns

különbség van, azaz az egyes mérgek és kezelések egymástól szignifikánsan

különböznek. Ugyanakkor a tényezők kölcsönhatása nem szignifikáns.

Page 105: Statisztikai adatfeldolgozás (Excel és R)

101

44. ábra

A toxicitási vizsgálat boxplot diagramjai

45. ábra

A toxicitás vizsgálat varianciaanalízisének eredménye

Page 106: Statisztikai adatfeldolgozás (Excel és R)

102

Ellenőrző kérdések:

1. Mi a mintavétel célja?

2. Milyen mintavételi eljárásokat ismerünk?

3. Mi a standard hiba?

4. Melyek az egytényezős varianciaanalízis jellemzői?

5. Minek a megállapításában játszik szerepet az F-próba az egytényezős

varianciaanalízisben?

6. Mikor van szükség két- vagy többtényezős varianciaanalízisre?

7. Milyen típusai lehetnek a kéttényezős varianciaanalízisnek?

Page 107: Statisztikai adatfeldolgozás (Excel és R)

103

5. Korreláció és regressziószámítás

A kísérletek során a rendszer állapotát jellemző paraméterek kapcsolatát vizsgáljuk.

A nyert adatok alapján felállítjuk a rendszer matematikai modelljét, vagy ha már

vannak ismereteink, akkor az előre felállított modell (hipotézis) érvényességét

ellenőrizzük. Aszerint, hogy két paraméter (változó) vagy egyidejűleg több

tulajdonság egymás közötti összefüggését vizsgáljuk, kétváltozós, illetve

többváltozós összefüggés vizsgálatról beszélünk. Magát az összefüggést

korrelációnak is nevezik. Az általunk tervszerűen változtatott paramétert független

változónak, az ennek hatására változó másikat függő változónak tekintjük.

Az összefüggés-vizsgálattal foglalkozik a korreláció- és regresszióanalízis.

5.1.Korrelációszámítás

Amikor két változó mennyiség úgy függ össze egymással, hogy a független változó

adott értékéhez a függő változó egy jól meghatározott értéke tartozik,

függvénykapcsolatról beszélünk. A függvény alakját a változók közötti kapcsolat

jellege szabja meg. Gyakran előfordul azonban olyan, hogy a változó mennyiségek

között nem teljesen határozott az összefüggés: a független változó (x) minden

értékéhez a függő változó (y) bizonyos statisztikus sokasága tartozik, oly módon,

hogy az y eloszlása az x változásával meghatározott módon szintén változik. Ebben

az esetben az x és y közötti összefüggést korrelációs kapcsolatnak nevezzük.

Ilyenkor az összefüggést az egyik változó (x) és a másik változó (y) várható értéke

között tudjuk megadni. Tehát a korrelációs kapcsolat közbenső állapotot foglal el

a pontos függvényszerű összefüggések és a változók teljes függetlensége között

(az ilyen jellegű kapcsolatot sztochasztikusnak is nevezik).

Két mennyiség közötti kapcsolat szorosságát jellemző mérőszámok közül a

legelterjedtebb a korrelációs együttható, vagy Pearson-féle korrelációs együttható.

Az együtthatót r-rel jelöljük, és a mérések közötti lineáris kapcsolat szorosságát méri.

Page 108: Statisztikai adatfeldolgozás (Excel és R)

104

A korrelációszámítás képlete:

A korrelációszámítás képletének számlálójában van a kovariancia, amely két változó

(X, Y) együttes változásának mértéke, ezért nevezik együttes szórásnak is. A

kovariancia előjele határozza meg a korreláció irányát (pozitív vagy negatív; a két

változó együtt változik vagy ellentétesen).

A korrelációs együttható értéke mindig -1 és 1 között van. Ha a pontok nem

fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r

= 0), vagy gyenge korreláció van közöttük (r közel van 0-hoz.). Ha a pontok egy

egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt

mondjuk, hogy a két változó között szoros vagy magas korreláció van. Ha a pontok

pontosan rajta vannak egy növekvő egyenesen, akkor r = 1, ha pedig egy csökkenő

egyenesen vannak pontosan rajta, akkor r = -1.

Tegyük fel, hogy egy populáció vizsgálata során ki tudtuk számítani a populációbeli

korrelációs együtthatót két változó közötti lineáris kapcsolat mérésére. Ha ez az

együttható 0 lenne, azt mondhatnánk, hogy nincs korreláció a két változó között.

Tehát, ha egy mintát vizsgálunk, akkor a mintából számított korrelációs együttható 0-

hoz közeli értéke arra enged következtetni, hogy nincs korreláció a két változó

között. 0-tól távol eső (1-hez vagy -1-hez közeli) értékek pedig bizonyos korreláció

meglétére engednek következtetni. A statisztikai szempontból el kell tudnunk

dönteni, hogy r értéke elég messze van-e 0-tól ahhoz, hogy elég nagy biztonsággal

állíthassuk, hogy valóban fennáll.

H0: korrelációs együttható a populációban = 0 (r = 0; ρ = 0)

H1: r ≠ 0

Page 109: Statisztikai adatfeldolgozás (Excel és R)

105

Ez a próba egy t eloszlású statisztikával hajtható végre. Bebizonyítható, hogy ha igaz

a nullhipotézis, a következő, t-vel jelölt statisztika t-eloszlású n-2 szabadságfokkal:

5.2. Regressziószámítás

A statisztikában a regressziószámítás, vagy regresszióanalízis során két vagy több

véletlen változó között fennálló kapcsolatot modellezzük. A regressziós modell

tulajdonságai alapján megkülönböztethetünk lineáris és nemlineáris regressziót, az

adataink alapján pedig idősor, keresztmetszeti, és panel regresszióanalízist.

A regressziós egyenletben a magyarázandó vagy függő változót (Y) a magyarázó

változók vagy regresszorok (X) segítségével magyarázzuk. A regressziós egyenletek

fontos eleme a maradék (reziduum) vagy hibaváltozó (e, u, vagy gyakran ε), vagyis a

modellünk által nem magyarázott rész. Ha a függő változónkat egy magyarázó

változó segítségével modellezzük, akkor kétváltozós regresszióról, ha pedig több X

változót is használunk, többváltozós regresszióról beszélünk.

5.2.1. Kétváltozós lineáris regresszió

A kétváltozós lineáris regresszió egyenletének általános alakja

Y = a + b * X

A regressziószámítás során úgy szeretnénk meghatározni az ’a’ és a ’b’ értékét, hogy

az egyenes a legjobban illeszkedjen az eredeti sokaság pontjaira. Tegyük fel, hogy

’n’ számú megfigyeléspárunk van: [xi, yi, i=1, 2, ... ,n]. Szeretnénk az yi-t (a függő

vagy eredményváltozót) az egyenes xi (a független vagy magyarázó változó) helyen

felvett értékeivel közelíteni, azaz az ’a + b - xi’-vel. A közelítés akkor jó, ha az ’yi –

Page 110: Statisztikai adatfeldolgozás (Excel és R)

106

(a + b * xi)’ különbségek kicsik. Mivel ezek a különbségek pozitívak és negatívak is

lehetnek, vegyük ezek négyzetét és összegezzük a különbségek négyzetét. Így a

következő összeget kapjuk, melyet minimalizálnunk kell:

A fenti összefüggésből következően a regressziós együtthatókat a következő

képletekkel tudjuk meghatározni:

A korrelációs és regressziós együttható között fennáll a következő összefüggés:

ahol az sx és az sy az x1, x2, ... , xn és az y1, y2, ... , yn minták standard eltérései

(szórásai). A képletből látható, hogy az ’r’ és a ’b’ előjele megegyezik, mivel a

standard eltérés mindig pozitív. Tehát negatív korreláció esetén a regressziós egyenes

meredeksége negatív és fordítva. Bizonyítható, hogy ugyanaz a t-próba alkalmazható

a regressziós együttható nullától való eltérésének szignifikanciájára, mint a

korreláció szignifikanciájának vizsgálatára.

Page 111: Statisztikai adatfeldolgozás (Excel és R)

107

29. feladat

Hajdú-Bihar megye néhány gazdaságában az adott földminőség mellett a kukorica

termésátlaga a 7. táblázatban látható módon alakult. Határozzuk meg a föld minősége

és a kukorica termésátlaga közötti összefüggés szorosságát. Ellenőrizzük a

korrelációs együttható megbízhatóságát.

Gazdaság

sorszáma

Földminőség

aranykorona/ha

Kukorica

termésátlaga

t/ha

1 24.1 8.9

2 34.1 9.8

3 40.5 10.5

4 17.7 8.1

5 19.1 8.3

6 15.5 7.2

7 26.2 9.0

8 19.4 8.3

9 19.3 8.2

10 14.1 7.0

11 18.6 8.1

12 18.2 8.0

13 17.9 8.0

14 19.3 8.5

15 20.1 9.0

16 21.2 8.9

17 25.2 9.3

18 28.6 9.7

19 32.1 10.0

20 38.5 10.3

7. táblázat

A kukorica termésátlagának alakulása

Page 112: Statisztikai adatfeldolgozás (Excel és R)

108

A korreláció- és regressziószámítás az Excel táblázatkezelőben az Eszközök –

Adatelemzés – Korreláció, valamint az Eszközök – Adatelemzés – Regresszió

utasításokkal végezhető el. A számítás eredményét a 46. ábrán láthatjuk. Az ábrából

látható, hogy a vizsgált két tényező között szoros pozitív korreláció van, és az F-

próba értékei alapján az is megállapítható, hogy a regressziós függvénnyel az adott

összefüggés jól leírható, illetve a termésátlagot befolyásolja a föld minősége. Az r-

négyzet vagy determinációs együttható azt jelzi, hogy a független változó mintegy 88

%-ban határozza meg a függő változót, azaz a földminőség a kukorica termésátlagát.

Az F-próba segítségével az egész regresszióval kapcsolatos megállapításokat

tehetünk, míg az együtthatók megbízhatóságát (nullától való különbözőségüket) a t-

próbával ellenőrizhetjük. A kiszámított t-próbák alapján megállapítható, hogy

mindkét együttható szignifikánsan nagyobb a nullától.

46. ábra

A földminőség és a kukorica termésátlag közötti összefüggés kiszámítása

Page 113: Statisztikai adatfeldolgozás (Excel és R)

109

Az R rendszerben a regresszió számításnak többféle lehetősége is van. Mi ezek közül

az ’lm’ függvénnyel foglalkozunk. Az ’lm’ egy objektum orientált függvény, ami azt

jelenti, hogy az alapszámítás elvégzése után az egyes objektumok meghívásával a

regresszió eredményének további részeit jeleníthetjük meg.

Az elemzéshez a 7. táblázat adatait használtuk fel és először elkészítettük a két

változó összefüggésének pontdiagramját (47. ábra). A 47. ábrából látható, hogy az

összefüggés elég jól közelíthető egy egyenessel.

47. ábra

A földminőség és a kukoricatermés közötti összefüggés pontdiagramja

Ezután elvégezzük a regresszió kiszámítását. (48. ábra) A 48. ábra felső részén az

’lm’ függvény használatával megkaptuk a regressziósfüggvény együtthatóit. Ha több

információt szeretnénk kapni az összefüggésvizsgálatról, akkor az ’lm’ eredményét

Page 114: Statisztikai adatfeldolgozás (Excel és R)

110

egy változóba kell elhelyezni és ennek a változónak a segítségével többféle

eredményt is előállíthatunk. Az egyik ilyen lehetőség a ’summary’ függvény

használata, amelynek az eredménye a 48. ábra második részében látható.

48. ábra

Regressziószámítás az R rendszerben (kukoricatermés – földminőség)

Az R rendszerben a regressziószámítás során, többek között, például a következő

jellemzők előállítására van lehetőségünk:

• reziduumok ($residual)

• számított értékek ($fitted.values)

• együtthatók ($coefficients)

• reziduumok szabadságfoka ($df.residual)

Az eredmény objektum (regr) felhasználásával elkészíthetjük a regressziós

függvényünk grafikonját is (49. ábra):

Page 115: Statisztikai adatfeldolgozás (Excel és R)

111

> plot(földmin, kuk.termés,

+ main="A kukoricatermés és a földminőség közötti összefüggés",

+ sub="kukoricatermés = 5.94 + 0.12 * földminőség")

> abline(regr)

49. ábra

A regressziós függvény ábrázolása

Ha a regressziós objektumot adjuk a plot grafikus függvény paraméterének, akkor a

rendszer az 50. ábrán látható grafikonokat készíti el a regresszióhoz kapcsolódóan.

Az ’anova’ függvény felhasználásával kiszámíthatjuk a regresszió F-próba értékét is.

Page 116: Statisztikai adatfeldolgozás (Excel és R)

112

Az 51. ábrán láthatjuk, hogy a magas F-érték azt jelzi, hogy a földminőséggel jól

magyarázható a termésátlag változása (szignifikanciaszint < 0.1 %).

50. ábra

A plot(regr) eredménye

51. ábra

A regresszió varianciaanalízise

Page 117: Statisztikai adatfeldolgozás (Excel és R)

113

A nem-lineáris regresszióval részletesen nem foglalkozunk, mert az alapadatok

transzformálásával bármilyen olyan regressziós függvény előállítható, ahol az

alapfüggvény linearizálható. Az R rendszerben a transzformációt a regressziót

meghatározó függvény is el tudja végezni, pl.: lm(log(y) ~ x).

5.2.2. Többváltozós lineáris regresszió

A kétváltozós lineáris regresszió egyenletének általános alakja

Y = a + b1 * X1 + b2 * X2 + ... + bn * Xn

Az egyenletből is látható, hogy többváltozós regressziószámításról akkor

beszélhetünk, ha a kapcsolat vizsgálat egyidejűleg kettőnél több ismérvre terjed ki.

Az ismérvek között sokfajta és bonyolult oksági kapcsolat létezhet.

A többváltozós regressziószámítás számítógépes megvalósítási szempontból nem

különbözik a kétváltozós esettől, csak ebben az esetben az egy eredményváltozó

mellett több magyarázó változó szerepel. Kapott regressziós együtthatókat parciális

regressziós együtthatóknak nevezzük. A teljes kapcsolat szorosságát a totális

(többszörös) korrelációs együtthatóval fejezzük ki. Az egyes változó kombinációk

egymásra hatását pedig a parciális korrelációs együtthatók fejezik ki.

A többváltozós regresszió esetén is először az Excelben történő megoldást mutatjuk

be. A 52. ábrán a regressziószámítás paramétereinek megadását mutatjuk be, az 53.

ábra pedig a megoldás eredményét tartalmazza. A paramétereket értelemszerűen kell

megadni, általában elegendő az alapértékek megadása (változók és az output helye),

de ha további információkra is szükségünk van, vagy pedig az eredményt szeretnénk

más számításban felhasználni, akkor a további paraméterek megadásával, további

eredményekhez is hozzájuthatunk. Ennek a struktúrája teljes mértékben megegyezik

a kétváltozós regressziónál bemutatottal.

Page 118: Statisztikai adatfeldolgozás (Excel és R)

114

Sor-

szám

Kijuttatott műtrágya hatóanyag (kg/ha) Termésátlag

t/ha N P K

1 131 91 84 5.1

2 179 124 99 6.7

3 214 137 99 7.5

4 134 68 69 3.2

5 147 77 55 3.7

6 171 117 103 6.5

7 135 86 73 4.4

8 255 150 105 8.5

9 129 69 54 3.2

10 139 99 94 3.5

11 123 89 101 3.1

12 242 158 58 6.8

13 227 147 112 6.7

14 293 169 108 9.2

15 274 205 129 9.8

16 188 142 144 8.2

17 152 89 65 4.9

18 163 66 45 3.1

19 136 84 86 4.2

20 270 188 70 8.6

21 220 161 96 8.6

22 228 145 85 7.0

23 206 97 84 5.5

24 238 106 102 5.9

25 112 59 58 3.8

26 180 110 98 5.9

8. táblázat

A műtrágyázás hatása a termésátlagra

Page 119: Statisztikai adatfeldolgozás (Excel és R)

115

52. ábra

A többváltozós regressziószámítás paraméterezési lehetőségei az Excelben

Az 53. ábra eredményeit értékelve a következő megállapításokat tehetjük. Az F-

próba értéke alapján megállapítható, hogy a független változókkal (műtrágya

adagok) együttesen a függő változó jól megmagyarázható (ezt támasztja alá a

többszörös korrelációs együttható magas értéke is). Ha viszont a parciális regressziós

együtthatók t-próbáit vesszük vizsgálat alá, az állapítható meg, hogy egyikre sem

mondhatjuk azt, hogy szignifikánsan különbözik nullától. Ezt okozhatja a magyarázó

változók közötti kölcsönhatás (kollinearitás) is. Ez azt jelent, hogy a regresszióval jól

bemutatható az összefüggés, de a regressziós együtthatók külön-külön nem

értelmezhetők.

A következőkben az R rendszerben mutatjuk be a többváltozós regressziószámítás

megoldását. (54. ábra) Ebben az esetben is ugyanazt a függvényt kell használni, mint

a kétváltozós esetben. A magyarázó változókat ’+’ jellel összekötve tetszőleges

változó megadható. Többváltozós esetben is lehetőség van a változók konvertálására,

amit a regressziót megoldó függvényben meg is lehet adni.

Page 120: Statisztikai adatfeldolgozás (Excel és R)

116

53. ábra

A többváltozós regresszió eredménye az Excelben

54. ábra

A többváltozós regresszió megoldása az R rendszerben

Page 121: Statisztikai adatfeldolgozás (Excel és R)

117

5.3. Idősorok elemzése

Valamely jelenség fejlődését, időbeli alakulását különböző tényezők idézik elő. A

fejlődés törvényszerűségeinek tanulmányozásakor az idősorok statisztikai

elemzésének egyik fő problémája éppen az egyes komponensek elkülönítése. A

statisztikai elemzés szempontjából a következő komponenseket különböztetjük meg:

1. Alapirányzat vagy trend.

2. Periodikus ingadozás.

3. Véletlen ingadozás.

Az idősorok komponenseinek áttekintése után könnyen megfogalmazhatjuk az

idősorok elemzésének ebből adódó feladatait. Mindenekelőtt a fejlődés

alapirányzatát célszerű megismerni, ami az idősor „kisimítását” jelenti, azaz a

szezonális, ciklikus és véletlen ingadozásokat próbáljuk „eltüntetni”. Ezt a

trendszámítással tudjuk elvégezni. A következő feladat az idényszerű hullámzás

mérése lehet, amivel a szezonindex-számítás foglalkozik.

A trendszámítás elvégezhető mozgóátlagolással vagy analitikus trendszámítással. A

trendszámítás feladata az idősor fő komponensének, az alapirányzatnak a kimutatása.

A mozgóátlagolás alapgondolata, hogy a trendet az eredeti sor dinamikus átlagaként

állítjuk elő. Először meg kell határozni a mozgóátlagolás tagszámát (k), amit úgy kell

megválasztani, hogy egy-egy ciklushoz tartozó adatok számával legyen egyenlő,

vagy ennek egészszámú többszöröse legyen. Ezután elvégezzük az átlagolást az első

’k’ taggal, majd mindig elhagyjuk az első tagot, és utolsónak betesszük a sor

következő tagját. Ezt a folyamatot addig végezzük, amíg az adataink el nem fogynak.

Az analitikus trendszámítás a regressziószámításra épül, de az idősorok jellemzőiből

következően lehetőségünk van bizonyos egyszerűsítésekre. A lineáris trendszámítás

során az

tbbyt *ˆ10 +=

egyenes egyenletét kell meghatározni. Az egyenlet paramétereinek meghatározása

Page 122: Statisztikai adatfeldolgozás (Excel és R)

118

n

yb

n

tt∑

== 1

0 ∑

=

== n

t

n

tt

t

ytb

1

2

1

1

*

Az idősor értékeinek transzformálásával nem lineáris trendfüggvényeket is

meghatározhatunk, amelyek közül a következőket szokták használni:

• exponenciális trend,

• parabolikus trend,

• logisztikus trend.

Az előzőekben említett számításokon túl az idősorok elemzésében az utóbbi

évtizedekben jelentős mértékben megnőtt az autoregresszív és mozgóátlag-

folyamatok jelentősége (ARMA). A gyakorlatban előforduló, stacionárius viselkedést

mutató, véletlen folyamatok jól közelíthetők az ARMA folyamatokkal. Az ARMA

paraméterek meghatározását, vagyis az illesztést empirikus idősorok alapján

végezzük.

Az R rendszer ’stat’ csomagja több függvénnyel is rendelkezik az idősorokkal

kapcsolatos számításokhoz, illetve idősorok ábrázolásához. Például, az ’stl’

függvénnyel trend és szezonális komponensekbe transzformálhatjuk az idősort, az

’ar’ függvénnyel autoregresszív modelleket hozhatunk létre, az ’arima0’

függvénnyel pedig autoregresszív modellekbe integrált mozgóátlagokkal

végezhetünk számításokat. Az ’nlme’ csomag ’gls’ függvényével pedig viszonylag

komplex modelleket illeszthetünk.

A rendelkezésre álló modellek közül – terjedelmi korlátok miatt – csak az ’stl’

függvény néhány lehetőségét mutatom be.

> plot(stl(nottem, "per")) 55. ábra

> plot(stl(nottem, s.win = 4, t.win = 50, t.jump = 1)) 56. ábra

> plot(stllc <- stl(log(co2), s.window=21)) 57. ábra

> summary(stllc) 58. ábra

Page 123: Statisztikai adatfeldolgozás (Excel és R)

119

55. ábra

Az adatok tendenciája simítás nélkül

56. ábra

Az adatok tendenciája simítással

Page 124: Statisztikai adatfeldolgozás (Excel és R)

120

57. ábra

Adatok logaritmusának a simítása

58. ábra

Az idősor simítás eredménye

Page 125: Statisztikai adatfeldolgozás (Excel és R)

121

Ellenőrző kérdések:

1. Mit vizsgálunk a korrelációszámítással?

2. Mire használható a regressziószámítás?

3. Milyen következtetésekre juthatunk a regresszión elvégzett F-próba

által?

4. Milyen következtetésekre juthatunk a regressziós együtthatókon

elvégzett t-próbák által?

5. Milyen típusai vannak az idősorok elemzésének?

6. Mi az idősorelemzés lényege?

Page 126: Statisztikai adatfeldolgozás (Excel és R)

122

6. Többváltozós statisztikai módszerek

Az elemezni kívánt jelenségek többségénél nem lehet az összefüggéseket egyetlen

tulajdonság, megfigyelési változó segítségével leírni, és sokszor a megfigyelt

tulajdonságok mögött rejlő közös okváltozók, háttérváltozók érdekelnek bennünket.

A komplex háttérváltozók felderítéséhez megfelelő többváltozós statisztikai

eszközökre van szükségünk. A többváltozós módszerek alkalmazásának lehetőségét

alapvetően az elmúlt évtized hatalmas mértékű számítástechnikai fejlődése tette

lehetővé, mert a módszerek már régen rendelkezésre álltak, csak a számítások

elvégzése jelentett problémát a megfelelő eszköz hiányában.

A rendelkezésre álló többváltozós statisztikai módszerek közül csak a

legfontosabbakat tárgyaljuk, és azoknak is csak az alapjait. A bemutatott módszerek

mindegyike nagyon sok olyan lehetőséggel rendelkezik, ami a terjedelmi korlátok

miatt itt nem mutatható be.

6.1. Faktor- és főkomponensanalízis

Olyan statisztikai eljárás, melynek elsődleges célja az adatcsökkentés és –összegzés.

Gyakran nagyszámú változóval dolgozunk, amelyek egymással korrelálnak. Ezek

számát a kezelhetőség érdekében csökkenteni kell. Az elemzés során az egymással

kölcsönösen összefüggő változók közötti kapcsolatokat vizsgálunk, és ezeket néhány

magyarázó főkomponens/faktor alapján jelenítjük meg.

A faktoranalízis egy matematikai elemzési koncepció valamely többváltozós

összefüggésrendszer háttérváltozóinak a feltárására. A tudományos kutatásban a

jelenségkomplexumok mögötti háttérváltozók felismerése, azok számának a

meghatározása és számszerű kifejezése hozza a leglényegesebb előrehaladást.

A háttérváltozók feltárást nehezíti, hogy egy-egy háttérváltozó feltehetően csak több

megfigyelési változóval tudunk jellemezni, másrészt több háttérváltozó

befolyásolhatja ugyanazt a megfigyelési változót.

Page 127: Statisztikai adatfeldolgozás (Excel és R)

123

A megoldáshoz nagyon kevés támpontunk van:

1. A megfigyelési változókból kell visszakövetkeztetnünk a háttérváltozókra.

2. A megfigyelési változók többé-kevésbé korrelálnak egymással, korrelációs

rendszert képeznek, amelyet matematikailag a korrelációs koefficiensekkel,

illetve az azokat összefoglaló korrelációs mátrixszal fejezünk ki.

3. Legfeljebb annyi háttérváltozót feltételezünk, ahány megfigyelési változónk

van, de általában az várható, hogy a háttérváltozók száma kisebb.

A háttérváltozók feltárása szempontjából a kiindulási alap mindig a megfigyelési

változók korrelációs mátrixa. Ha valamelyik megfigyelési változó egyetlen más

változóval sem korrelál, akkor feltételezhető, hogy saját, önálló háttérváltozó idézi

elő a rajta megfigyelt jelenséget. Ha két vagy több megfigyelési változó között

szoros korreláció van, akkor egy közös háttérváltozót feltételezhetünk.

A faktorok nem korrelálnak egymással. Ugyanis, amíg korrelálnak, addig van közös

részük, tehát tovább faktorizálhatók. Arra is van azonban lehetőség, hogy egymással

korreláló faktorokat hozzunk létre, sőt a korreláció mértékét meg is határozzuk. Ezt

az eljárást nevezik ferdeszögű forgatásnak, rotációnak.

Valamely X megfigyelési változó modellje a faktoranalízisben

ieiimimiqiqiIIiIIiIiIi FeFbFaFaFaX ++++++= *...*...**

ahol

iX - az i-edik standardizált megfigyelési változó,

F - a standardizált faktorváltozó (analóg a főkomponensanalízis

standardizált C főkomponens változójával)

a – a közös faktorok súlya (közös faktor, amelyik több megfigyelési változót

befolyásol)

b – az egyedi faktorok súlya (egyedi faktor, amelyik csak egy megfigyelési

változót befolyásol)

e – a hibafaktor súlya (hibafaktor, amelyik származhat mérési

pontatlanságból, a korrelációs együtthatók becslési hibájából)

Page 128: Statisztikai adatfeldolgozás (Excel és R)

124

Az alapkérdés az, hogy az X megfigyelési változó varianciáját milyen mértékben

befolyásolják a közös faktorok, az egyedi faktor és a hiba. A befolyásolás mértékét a

faktorsúlyok négyzetei fejezik ki

∑=

++=q

jiimiji ebas

1

2222

ahol

i – az X megfigyelési változó általános indexe,

q – a közös faktorok száma,

∑=

q

jija

1

2 - a közös faktorok súlyainak négyzetösszege, amit kommunalitásnak

neveznek (h2).

A főkomponens analízis a többváltozós statisztikai módszerek közül az egyik

legfontosabbnak tekinthető. Ezen a módszeren keresztül lehet világosan megérteni és

követni mindazokat a többváltozós módszereket, amelyek a sajátértékszámításra

épülnek. A főkomponens analízis alkalmazási lehetőségei közül, a

legfontosabbaknak talán a következők tekinthetők:

• A vizsgált ismérvek (változók) csoportosítása az egymás közötti

korrelációjuk, kapcsolatuk szorossága alapján. Felismerhetővé válnak az

összetartozó változók, lehetővé válik csoportok képzése.

• A változók számának a csökkentése, változócsoportokhoz háttérváltozók

(közös okváltozók) rendelése által.

• Változók csoportosítása és a csoportok grafikus ábrázolása.

Az előzőekből már látható, hogy a főkomponens analízis lényege, hogy az eredeti

változókat korrelációjuk alapján főkomponensekbe vonjuk össze, és ezáltal a sok

megfigyelési változóból kevesebb főkomponens keletkezik. A lényeg az, hogy

jelentős mértékben csökkenteni tudjuk az eredeti változó számot. A csökkentésnek

igazán akkor van értelme, ha a kapott főkomponenseknek valamilyen közös

elnevezést tudunk adni. Az előzőek figyelembe vételével jól alkalmazható a

Page 129: Statisztikai adatfeldolgozás (Excel és R)

125

főkomponens analízis a többváltozós regresszióanalízis helyett vagy annak

kiegészítéseként.

A változók számának csökkentése során az is kiderül, hogy melyek a jelentéktelen

változó, azaz mely változóknak kicsi a magyarázó ereje a függő (eredmény) változó

vonatkozásában.

A főkomponensek kiszámításának lépései:

1. Az ismérvértékek standardizálása. A standardizált értékek jellemzője, hogy

átlaguk 0, szórásuk pedig 1. A standardizálás egyik célja a mértékegységek

kiküszöbölése, hogy eltérő mértékegységű ismérvek is összehasonlíthatók

legyenek.

2. A standardizált változókból a főkomponens változók (Cj) kiszámítása

∑=

=+++++=p

iiijnnjiijjjj XuXuXuXuXuC

12211 **...*...**

ahol

Cj – a főkomponensek, főkomponensváltozók

Xi – a standardizált ismérvértékek

uij – a főkomponens koefficiensek

p – az ismérvek száma

Az uij koefficienseket a standardizált X változók kovariancia mátrixából számoljuk

ki, és ennek a j-edik sajátértékéhez, a λi-hez tartozó uj sajátvektor elemei az uij

együtthatók.

a. Minden szimmetrikus mátrix átalakítható olyan diagonális mátrixszá,

amelyben a főátló összege egyenlő az eredeti mátrix főátlójának az

összegével, továbbá a főátló elemei csökkenő nagyságba rendeződnek,

függetlenül az eredeti mátrix sorainak sorrendjétől. Egy adott mátrixra csak

egyetlen ilyen megoldás létezik, ha egyáltalán van megoldás. Ezt az

átalakítást végezzük el a sajátérték számítással. Az új mátrix főátlójában

balról jobbra csökkenő sorrendben az eredeti mátrix ún. sajátértékei

(karakterisztikus értékei) állnak.

Page 130: Statisztikai adatfeldolgozás (Excel és R)

126

b. A sajátértékkel meghatároztuk az új mesterséges C változók varianciáit.

Ezután meg kell határoznunk az uij együtthatókat, hogy az eredeti

változókból (X) kiszámíthassuk a mesterséges változókat (főkomponenseket)

(C). Az uij együtthatók egyenletenként más és más vektorokat képeznek (uI).

A vektorok meghatározása a sajátvektor számítással történik. Egy adott p

rangú, szimmetrikus A mátrixhoz p számú λ sajátérték, és minden

sajátértékhez egyetlen uj sajátvektor tartozik.

A faktoranalízis általánosabban alkalmazott matematikai módszer, mint a

főkomponens analízis. Két módszerben sok közös vonás is van. Az eltérés – ami nem

lényegtelen – mindössze annyi, hogy a főkomponensanalízisben a korrelációs mátrix

főátlójában 1 szerepel, míg a faktoranalízis esetén a kommunalitások.

30. feladat

Egy élelmiszeripari laboratóriumban 14 búzafajtát vizsgáltak meg, és a búzák négy

minőségi tulajdonságát mérték. Vizsgáljuk meg a tulajdonságok

összefüggésrendszerét főkomponensanalízissel.

A vizsgálatot az R rendszerben végeztük el a ’prcomp’ főkomponenselemző

eljárással (stats package).

> búza = read.table("g://a//buzafaktor.txt", header=TRUE)

> prcomp(búza[,2:5], scale = TRUE)

> summary(fokomp)

> fokomp$x

> fokomp$scale

> fokomp$center

> plot(fokomp, main ="Búzafajták értékelése" )

A főkomponenselemzés eredménye az 59. ábrán látható. Az első számítás során

megkaptuk a főkomponens együtthatók mátrixát. A második számítás során arra

kapunk választ, hogy milyen mértékben részesednek az egyes főkomponensek az

Page 131: Statisztikai adatfeldolgozás (Excel és R)

127

összvarianciából. Az a főkomponenselemzés módszeréből következik, hogy mindig

az első komponens részesedik a legnagyobb mértékben a varianciából és így tovább.

A harmadik és a negyedik utasítás az eredeti értékek átlagát és szórását írja ki (a

főkomponenselemzés a regressziószámításhoz hasonlóan objektum orientált eljárás).

59. ábra

A főkomponenselemzés eredménye

A 60. ábrán a főkomponensváltozók értékei szerepelnek, amelyeknek az a

jellemzőjük, hogy az átlaguk nulla, a szórásuk pedig egyenlő a sajátértékeikkel. A

61. ábrán az egyes főkomponenssúlyokat a 62. ábrán pedig a főkomponensek

elhelyezkedését ábrázoltuk.

A faktoranalízis a főkomponensanalízishez hasonlóan számítható és hasonló ábrák,

értékek jeleníthetők meg. Az R rendszerben több függvény is van a faktoranalízis

elvégzésére, pl.: rfa, factorMineR.

Page 132: Statisztikai adatfeldolgozás (Excel és R)

128

60. ábra

A főkomponenselemzés főkomponensváltozói

61. ábra

A főkomponensek súlyainak ábrázolása

Page 133: Statisztikai adatfeldolgozás (Excel és R)

129

62. ábra

A főkomponensek elhelyezkedése

6.2. Diszkriminanciaanalízis

A diszkriminanciaanalízis olyan adatelemzési módszer, amelyet kategóriába tartozás

előrejelzésére lehet használni, és amelynél a kritériumváltozó kategorizált és a becslő

változók intervallumskálák.

A diszkriminanciaanalízis két csoport (pl.: A és B) szétválasztására alkalmas

módszer, több kvantitatív változó együttes figyelembevétele alapján. A módszer

kiindulási alapja, hogy minden megfigyelt egyedet megadott szempontok alapján

előre egy meghatározott csoportba soroltunk. A diszkriminanciaanalízis a korábban

már tárgyalt többváltozós regresszióanalízishez nagyon hasonló módszer, ahol

azonban a függő változó nem kvantitatív, hanem egy kvalitatív tulajdonság két

változata. A módszer segítségével a következő kérdésekre adhatunk választ:

Page 134: Statisztikai adatfeldolgozás (Excel és R)

130

• Egynél több kvantitatív tulajdonság együttes figyelembevételével

kimutatható-e szignifikáns különbség a két csoport között.

• Az megfigyelési egységeknek a két csoportba történt eredeti besorolásának

helyességét kvantitatív változók alapján ellenőrizzük, vagy reprodukáljuk.

• Keresünk egy függvényt, amely segítségével eldönthető, hogy egy további

megfigyelt egyed melyik csoportba sorolandó.

• Minden egyes egyedet több tulajdonság együttes figyelembevételével

számszerű értékkel kívánunk jellemezni.

• A két csoportra középértékeket számíthatunk ki, amelyek segítségével

számszerűsíteni tudjuk a két csoport közötti különbséget.

• Megvizsgálhatjuk, hogy a két csoport különbsége mennyire függ az egyes

tulajdonságoktól.

A diszkriminanciaanalízisben minden megfigyelési egységre, függetlenül egy adott

csoportba tartozásától, egy közös diszkriminanciaegyenlettel egyedi Z értéket,

diszkriminanciaváltozót számítunk ki. Az egyenlet

12211 ...... XwXwXwXwZ pii +++++=

ahol

wi a diszkriminancia együtthatókat

Xi a standardizált megfigyelési változókat jelenti

Néha előnyösebb lehet, ha az eredeti értékekkel számítjuk ki a fenti összefüggést, a Z

értéket. Erre alapvetően akkor van szükség, ha utólag újabb megfigyelési egységről

akarjuk eldönteni, hogy az egyik vagy a másik csoportba tartozik-e, mert ilyenkor a

megfigyelt értékkel kell a számítást végeznünk. A Z érték ebben az esetben is

ugyanaz marad.

A diszkriminanciaanalízis az R rendszerben az ’lda’ függvénnyel végezhető el.

Page 135: Statisztikai adatfeldolgozás (Excel és R)

131

6.3. Klaszterelemzés

A klaszterelemzés célja az, hogy a bevont változók szerint adott (k) számú homogén

csoportot különíthessünk el. A klaszteranalízis összefüggések halmazát vizsgálja,

nem tesz különbséget függő és független változó között, hanem a változók halmazán

belüli kölcsönös összefüggéseket vizsgálja. Elsődleges célja, hogy a megfigyelési

egységeket relatíve homogén csoportokba rendezze a kiválasztott változók alapján.

Az adott csoportba tartozó megfigyelési egységek viszonylag hasonlítanak egymásra,

de különböznek más csoportok tagjaitól.

A klaszterelemzés és a diszkriminanciaanalízis is csoportosítással foglalkozik. A

diszkriminanciaanalízis megköveteli a klaszterekbe tartozás előzetes ismeretét, s ez

alapján kialakít egy csoportosító szabályt. Ezzel szemben a klaszterelemzésnél nem

rendelkezünk előzetes ismerettel, a csoportok az adatok alapján alakulnak ki. A

módszer nagyon hasznos lehet például a marketing területén, hiszen ha tudjuk, hogy

a vásárlók fejében mely termékek alkotnak egy klasztert, akkor a szupermarketekben

az áruk megfelelő egymás mellé helyezésével jelentős extraprofitra lehet szert tenni.

A klaszterelemzés elvégzésére az R rendszer több lehetőséget is biztosít, mint pl.:

mclust, flexclust.

Ellenőrző kérdések:

1. Mi a faktor- és a főkomponensanalízis lényege?

2. Miben különbözik a faktor- és a főkomponens analízis?

3. Mire használható a diszkriminanciaanalízis?

4. Mi a klaszterelemzés lényege?

Page 136: Statisztikai adatfeldolgozás (Excel és R)

132

Irodalomjegyzék

1. Hunyadi L.-Mundruczó Gy.-Vita L.: Statisztika, Aula Kiadó, Budapest, 2000.

2. Kovalcsikné Pintér O.: Az Excel függvényei A-tól Z-ig, Computerbooks,

Budapest, 2004.

3. Köves P.-Párniczky G.: Általános statisztika, Közgazdasági és Jogi

Könyvkiadó, Budapest, 1975.

4. Reidmacher, H.P.: Excel közgazdászoknak: gazdasági feladatok megoldása,

Aula Kiadó, Budapest, 2000.

5. Sváb J.: Többváltozós módszerek a biometriában, Mezőgazdasági Kiadó,

1979.

6. Venables, W.N.-Smith, D.M.: An Introduction to R, 2005, [cran.r-

project.org/doc/manuals/R-intro.pdf]

7. Verzani, J.: SimpleR – Using R for Introductory Statistics, 2001, [cran.r-

project.org/doc/contrib/Verzani-SimpleR.pdf]

8. Vincze I.: Matematikai statisztika ipari alkalmazásokkal, Műszaki

Könyvkiadó, Budapest, 1975.

9. Zoonekynd, V.: Statistics with R, 2005, [http://zoonek2.free.fr/UNIX/48_R/

all.html]