ozsváth károly nyme acsjk testnevelési tanszék
DESCRIPTION
StatSoft Statistica for Windows kezelése: Cluster Analysis 1. Ozsváth Károly NYME ACSJK Testnevelési Tanszék. A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás. - PowerPoint PPT PresentationTRANSCRIPT
Ozsváth Károly
NYME ACSJK Testnevelési Tanszék
• A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás.
• Az analízis a csoportosítást mindenképpen elvégzi, de ez még nem jelenti azt, hogy a csoportok között ténylegesen szignifikáns különbségek találhatók. (Ez diszkriminancia-analízissel vizsgálható, szükség esetén.) A clusteranalízis – hasonlóan a faktoranalízishez – nem hipotézisvizsgálati eljárás, nincs nullhipotézis, nincs szignifikancia vizsgálat. Az analízis osztályozási, osztályba sorolási, csoportba sorolási technika. („Cluster”= csoport, csoportosul/összegyűlik, csomó, fürt, nyaláb)
• A clusteranalízis a vizsgált mintát részhalmazokra próbálja bontani. Az eljárás a változók vagy a vizsgálati személyek hierarchiáját mutatja meg a kiválasztott algoritmus szerint, és az eredeti adatok összessége, együttes figyelembe vétele alapján.
• A hierarchia egy „fa” diagramon is ábrázolható. E grafikus kép elnevezése: dendogram. A dendogramon többnyire jól láthatók „sűrűsödési”, csoportosulási pontok, melyek a hozzájuk tartozó clusterekkel beazonosíthatók.
• A clusteranalízis több módszerrel (algoritmussal) végezhető, amelyek eredményei egymástól részben eltérőek lehetnek. Ezért az osztályba sorolás „jóságáról” szakmai érvek és más statisztikai módszerek – pl. diszkriminanciaanalízis – alkalmazásával lehet meggyőződni.
• Feltétlenül meg kell győződni a kialakított csoportok jellemzőiről, változónkénti leíró statisztikáiról (átlag, szórás, stb.)
• Első lépésként azt kell eldönteni, hogy a változók clusterezésére, vagy az estek/vizsgálati személyek clusterezésére van-e szükségünk?
• El kell dönteni továbbá, hogy előre meghatározott számú csoportot kívánunk kialakítani, vagy nem szabunk korlátot a csoportok számára és a dendogram (clusterek) alapján kívánunk csoportokat kialakítani.
• Általában kiindulásként célszerű az utóbbit választani, és elsőként az összekapcsolódáso-kat (fa kapcsolatok, „Joining /tree clustering/ ” ) kimutatni. Azaz kiindulásként célszerű egy dendogramot kapni és azt vizsgálni.
• Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, 265-281. p.
(SPSS: 266-273.p., Statistica: 273-281.p.)
• Fájl: burka2.sta
• Példaként egy szakértői értékelés clusteranalízisét mutatom be. A problémát a következő diák szerint vetettük fel.
Milyen sajátosságokat, egyezéseket és eltéréseket
mutat?• több szakértő véleménye
• több dologról, jelenségről
(tárgyakról, intézményekről, személyekről)
• egységes szempontrendszer alapján
(strukturált, számszerűsíthető szempontok)
A szakértői értékelések egyezése vizsgálható:
• a szakértőkre vonatkozóan
• a vizsgált dolgokra, jelenségekre vonatkozóan
A bemutatott sporttudományi példa
• 11 szakértő
• 5 sportmotoros tesztrendszerről
(Eurofit, Hungarofit, Eiben-Barabás,
Arday-Farmosi, Nagy S. tesztrendszerei)
• 12 strukturált szempont szerinti értékelése
(max. 40 pont érhető el)
SZEMPONTRENDSZER A MOTOROS TESZTEK ÉRTÉKELÉSÉHEZ
/ Bös (1988) alapján /
1. DOKUMENTÁCIÓ (Max. 7 pont)
1.1. Név -
1.2. Szerző -
1.3. Forrás 3
1.4. Publikációk 2
1.5. Alkalmazások 2
3.TESZTSTATISZTIKA(Max. 20
pont)
3.1. A kritériumok megadásának általános szintje 3
3.2. Fő kritériumok 10
3.3. Normák, viszonyítási
értékek 7
2. KONCEPCIÓ(Max. 13
pont)
2.1. Tartalom 3
2.2. Itiner, instrukciók 2
2.3. Értelmezési tart. 1
2.4. Célmeghatározás 1
2.5. Konstrukciós jegyek 3
2.6. Test manual 3 Az egyes pontértékekhez további részletes szempontok
kerültek kidolgozásra.
• Az eredményeket a „burka2.sta” táblázat tartalmazza.
• A táblázatban a felkért szakértők nevét megváltoztattuk, de minden esetben valós személyt takarnak a „fantázianevek”.
• A szakértők elnevezése a későbbi csoportba sorolásnak megfelelő. Az egyes tesztekre adott eredeti pontszámokat az első 5 változó foglalja magába. A Var6 és Var7 csoportosítási változó, amelyek a vizsgálat idején, a clusterezés után kerültek kialakításra.
• Elsőként nézzük meg az átlagokat és a szórásokat.
• Jól látható, hogy a szakértők véleménye erősen szóródik.
• A magas szórások miatt az átlagok különbsége n.sz., kivéve a szélső
értékeket képviselő két tesztrendszert.
• Ezek után indítsuk el a clusteranalízist, ahol az első lépés a szokásos:
• Változók kijelölése
• Majd válasszuk ki, hogy mire vonatkozik a clusterezés: változókra vagy esetekre (oszlopokra/sorokra),
• valamint az eljárási algoritmust is válasszuk ki.
• Jelen esetben elsőként a változókat clusterezzük, a „Complete linkage” eljárással.
• A kapott eredmény szerint az Arday-Farmosi és a Nagy S. féle tesztrendszerek megítélése a legegységesebb. (Ezeknél volt a legkisebb az értékelő pontok szórása.) Ezzel szemben a szakértők egymástól leginkább eltérően az Eurofitet, és különösen a Hungarofitet minősítették.
• Vegyük észre, hogy jelen esetben a pontszámok szórása már eleve utalt a tesztek eltérő megítélésére. Nézzük meg, hogy ezen túlmenően csoportosíthatók-e a szakértői vélemények (illetve a szakértők)?
• Az első lépésben az Arday-Farmosi és a Nagy S. féle tesztrendszerek kapcsolódtak egymáshoz, a második lépésben kapcsolódott hozzájuk az Eiben-féle tesztrendszer, harmadik lépésben következett az Eurofit, majd végül a Hungarofit.
• „Amalgamation Schedule” eredményei egyértelműen mutatják fentieket, és egyúttal jelzik az egyre nagyobb „távolságokat” (distances) a tesztek kapcsolódása között. Ez egyébként grafikusan is lekérhető a továbbiak szerint.
• A következő lépésben visszatérünk egy korábbi ablakhoz („Cancel”), és a változók helyett az esetekre/személyekre („Cases/Rows”) végzünk clusteranalízist.
3
2
1
• Az analízis szerint 3 csoport jól elkülöníthető egymástól, ezen belül az első kettő áll közelebb egymáshoz. (Az adatáblázatban „TIPUS2” csoportosítási változó szerint.) A 3 csoport elkülönítéséhez 8 lépés volt szükséges.
• Sajnálatos – és nehezen érthető – módon a StatSoft Statistica program nem teszi lehetővé a clusterek/csoportok mentését, rögzítését ennél a módszernél (Joining/tree clustering). Ezt vagy manuálisan, vagy más programmal, pl. a fentiekre képes SPSS-el végezhetjük el.
• Kérdés még, hogy az elkülönített 3 csoport milyen jellemzőkkel rendelkezik?
• Ennek megítélésére nézzük meg a csoportonkénti átlagokat, és végezzünk diszkriminanciaanalízist a csoportok közötti különbségekre vonatkozóan.
Root 1 vs. Root 2
G_1:1 G_2:2 G_3:3-6 -4 -2 0 2 4 6
Root 1
-4
-3
-2
-1
0
1
2
3
4
5
6
Ro
ot
2
Root 1 vs. Root 2
G_1:1 G_2:2 G_3:3-6 -4 -2 0 2 4 6
Root 1
-4
-3
-2
-1
0
1
2
3
4
5
6
Ro
ot
2
JOVIÁLISOK
SZIGORÚAK
HUNGAROFITESEK
A csoportok átlagos értékelése
0
5
10
15
20
25
30
35
40
Eurofit
Arday-Farmosi
HungarofitEiben-Barabás
Nagy S.
Joviálisok Szigorúak Hufitesek Totál
• A szakértők elkülönített 3 csoportja tehát a (nagyon) kicsi elemszámok ellenére szignifikánsan különbözik egymástól. A számított diszkriminatív modell 100%-os biztonsággal sorol be a csoportokba.
• A szakértők első csoportja értékelte a tesztrendszereket a legmagasabb pontszámokkal. Ők a „JOVIÁLISOK”. Magasra értékelték az Eurofitet, alacsonyra a Hungarofitet.
• A szakértők második csoportja szűken mérte a pontszámokat. Ők a „SZIGORÚAK”. Relatíve magasra értékelték az Eurofitet, alacsonyra a Hungarofitet. A csillagdiagramon szinte párhuzamos az értékelésük a „Joviálisokkal”, csak alacsonyabb pontokat adtak.
• A szakértők harmadik csoportja is szűken mérte a pontokat, viszont magasra értékelte a Hungarofitet. Ők a „HUFITESEK”. Magasra értékelték a Hungarofitet, alacsonyra az Eurofitet.
• A szakértők 3 csoportjának elkülönítését clusteranalízis alapján végeztük el.
KÖVETKEZTETÉSEK
Az adott vizsgálatban:
• a szakértői vélemények nem egyeznek, hanem három egymástól szignifikánsan különböző csoportba sorolhatók
• a különbségeket alapvetően az Eurofit és a Hungarofit eltérő megítélése okozza
• Természetesen a clusterezés más módon is végrehajtható. Nézzük meg pl. a következő dia szerinti eljárást.
Tree Diagram for 11 Cases
Unweighted pair-group average
Euclidean distances
5 10 15 20 25 30 35 40 45
Linkage Distance
Egyedihufit
Szigoru4
Szigoru3
Szigoru2
Szigoru1
Jovial4
Jovial3
Jovial2
Jovial1
Hufit2
Hufit1
1
2
3
4
Var6= TIPUS
• Az eredmények a korábbiaktól annyiban térnek el, hogy egy szakértő véleménye markánsan különbözik a többiekétől. Azaz elkülönül egy egyedi(nek tekinthető) vélemény.
• (Szabad fordításban: „A Hungarofit tökéletes, a többi nem sokat ér.”)
• Végezetül nézzük meg, hogy mit ad a clusteranalízis, ha előre megadjuk a kiszűrendő csoportok számát.
• Az előzőek szerint a csoportok száma legyen 3.
• Az eljárás a „K-means clustering”
• Az eredmény nagyon hasonló a korábbiakhoz, csak egy „szigorú” a „hungarofitesek” közé soroltatott.
• Alaposabban megnézve az esetet látható, hogy ezúttal is az Eurofit alacsonyra és a Hungarofit viszonylag magasra értékeléséről van szó, ami a korábbiak után érthetővé teszi ezt a besorolást.
• Az eredmény ezúttal rögzíthető, és az eredeti adattáblázatba másolható.
0
10
20
30
40EUROFIT
ARDAY
HUNGAROFITEIBEN
NAGYS 1 Joviálisok
2 Hufitesek
3 Szigorúak
Total
• Az eredmények tehát nagyon hasonlóak a korábbiakhoz, de az alaptendenciák tovább polarizálódtak. A szakértők véleménye erősen különbözik egymástól, amit főleg az Eurofit és a Hungarofit eltérő megítélése okoz.
• A csoportok közötti különbségek másodlagosan a pontszámok számszerű nagyságával is magyarázhatók (joviálisok/szigorúak), a ténylegesen döntő alap azonban itt is a Hungarofit és Eurofit megítélése.
HUNGAROFIT70,4%
EUROFIT25,2%
ARDAY2,3%
EIBEN1,6%
NAGYS0,6%
• A szakérők csoportosulását tehát 70%-ban a Hungarofit megítélése, 25%-ban az Eurofit megítélése befolyásolja. A többi teszt értékelésének megkülönböztető hatása 5% alatti, gyakorlatilag elhanyagolható.
• A clusteranalízis igen hatékony osztálybasorolási technika. Kezdetként célszerű a dendogram meghatározása („Joining/tree clustering”), és ennek elemzése alapján megfontolandó a „K-means clustering” technika alkalmazása.
• A clusterezés eredményeire alapozott diszkriminanciaanalízis a „nehezebben emészthető” dendogramok eredményeit közérthetővé teheti.
• A clusteranalízis és a diszkriminanciaanalízis egymást kiegészítő alkalmazása szinte kivétel nélkül ajánlható.
The End of Cluster1