andmeanalüüs: statistiline andmestik ja kirjeldav...

9
22.10.2012 1 Andmeanalüüs: statistiline andmestik ja kirjeldav statistika Kairi Osula Andmeanalüüs: statistiline andmestik ja kirjeldav statistika Sissejuhatus Andmeanalüüs: statistiline andmestik ja kirjeldav statistika Teemad Statistiline andmestik, selle kogumine ning töötlemine. Statistiliste tunnuste tüübid. Kirjeldav statistika e. andmete kokkuvõtu- ning esitlusmeetodid: erinevad tabelid, diagrammid ja arvnäitajad. Seoste kirjeldamine: seosekordajad ning risttabelid. Sobiva analüüsi- või esitlusmeetodi valik. Mitme valikuvõimalusega küsimuste analüüs. Andmeanalüüs: statistiline andmestik ja kirjeldav statistika Lisalugemist “Uuri ja kirjuta” Autorid: S. Hirsjärvi, P. Remes, P. Sajavaara Kirjastus: Medicina Ilmumisaasta: 2005 “Uurija käsiraamat” Autor: A.Kidron Kirjastus: Mondo Ilmumisaasta: 2008 Andmeanalüüs: statistiline andmestik ja kirjeldav statistika Lisalugemist “Andmete analüüs ja tõlgendamine sotsiaalteadustes” Autor: Liina Mai Tooding Kirjastus: Tartu Ülikooli kirjastus Ilmumisaasta 2007 “Andmeanalüüs sotsiaalteadustes” Autor: Liina Mai Tooding Kirjastus: Tartu Ülikooli kirjastus Ilmumisaasta: 1998 Andmeanalüüs: statistiline andmestik ja kirjeldav statistika Lisalugemist “Statistilise andmetöötluse pakett SPSS 14.0” Põhikursus Autor: Katrin Niglas Kirjastus: Tallinna Ülikooli kirjastus Ilmumisaasta: 2008 www.tlu.ee/~katrin – Õppematerjalid SPSS õppematerjal

Upload: others

Post on 31-Dec-2019

10 views

Category:

Documents


0 download

TRANSCRIPT

22.10.2012

1

Andmeanalüüs:

statistiline andmestik ja kirjeldav statistika

Kairi Osula

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Sissejuhatus

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Teemad

Statistiline andmestik, selle kogumine ning töötlemine.

Statistiliste tunnuste tüübid.

Kirjeldav statistika e. andmete kokkuvõtu- ning

esitlusmeetodid: erinevad tabelid, diagrammid ja

arvnäitajad.

Seoste kirjeldamine: seosekordajad ning risttabelid.

Sobiva analüüsi- või esitlusmeetodi valik.

Mitme valikuvõimalusega küsimuste analüüs.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Lisalugemist

“Uuri ja kirjuta”

– Autorid: S. Hirsjärvi, P. Remes, P. Sajavaara

– Kirjastus: Medicina

– Ilmumisaasta: 2005

“Uurija käsiraamat”

– Autor: A.Kidron

– Kirjastus: Mondo

– Ilmumisaasta: 2008

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Lisalugemist

“Andmete analüüs ja tõlgendamine

sotsiaalteadustes”

– Autor: Liina Mai Tooding

– Kirjastus: Tartu Ülikooli kirjastus

– Ilmumisaasta 2007

“Andmeanalüüs

sotsiaalteadustes”

– Autor: Liina Mai Tooding

– Kirjastus: Tartu Ülikooli kirjastus

– Ilmumisaasta: 1998

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Lisalugemist

“Statistilise andmetöötluse pakett

SPSS 14.0” Põhikursus

– Autor: Katrin Niglas

– Kirjastus: Tallinna Ülikooli kirjastus

– Ilmumisaasta: 2008

www.tlu.ee/~katrin

– Õppematerjalid

– SPSS õppematerjal

22.10.2012

2

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Uuringute jagunemine.

Empiiriline uuring.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Uuringutüüpe saab klassifitseerida

järgmiselt:

• Avastav

• Kirjeldav

• Analüütiline

• Ennustav

Eesmärgi (purpose) alusel

• Teoreetiline

• Empiiriline

• Rakenduslik

Uuringu lähenemise (approach)

alusel

• Kvalitatiivne

• Kvantitatiivne

• Kombineeritud Protsessi alusel

Igas uuringu põhiskeemis on teatud alam-etappidel vajalik rakendada kõrvalolevatele uuringutüüpidele omaseid mõtlemis- või tegutsemisviise.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Teoreetiline uuring

Eesmärk – Olemasoleva teabe/uuringute analüüs

– Erinevate teooriate kriitiline analüüs (võrreldakse ühe eeliseid teisega)

Autor peab näitama, milline on tema panus uute teadmiste otsingul, kasutamisel, süstematiseerimisel ja hindamisel.

Näited – Filosoofilised küsimused

– Puhta matemaatika teoreemid – Ajaloolised uuringud

– Arvutikasutuseeetika (loogiline arutelu ja seisukohad).

– Tarkvara võrdlev analüüs

Referaat (?) – Seminaritöö kui referaat (teoreetiliste uuringute KÕIGE välimisem kiht)

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Rakendust loov uuring

Näited – Personaalne

arendusprojekt (või selle osa)

– Õppematerjalide loomine

Sammud – Probleemi analüüs (vajadused, eesmärgid, olemasolev teave)

– Disaini protsess (tööjaotus, ajakava, meetodid)

– Disaini protsessi resultaat (rakenduse visandid, vaheversioonid, lõplik rakendus)

– Hindamine e. evalvatsioon (rakenduse testimine, hindamine lähtuvalt standarditest, kasutajate tagasiside)

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Empiiriline uuring

Reaalsed andmed

– kirjeldamine (nähtuste ja selles toimuva fikseerimine)

– seletamine (põhjuslike seoste tuvastamine ja avamine, nende

tähenduse ja toimemehhanismide äraseletamine)

Analüüs andmete põhjal

– mõistmine ja tõlgendamine

Järeldused analüüsi põhjal

– prognoosimine (millegi kulgemise suuna ja viisi ettenägemine)

– uute probleemide ja hüpoteeside tuletamine

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Empiirilise uuringu etapid

Uurimisprobleem – küsimus, hüpotees, eesmärk

Valikumeetod – juhuslik valim, üks juhtum, mitu juhtumit

Andmekogumis meetod(id) – struktureeritud ankeet, struktureerimata intervjuu, ...

Andmeanalüüsi meetodid – statistilised meetodid, kodeerimine

Tulemused/järeldused – kirjeldused, empiirilised üldistused, seaduspärasused,...

K.Niglas

22.10.2012

3

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Andmeanalüüsi meetodi valik.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Meie kursus

Kvantitatiivne uuring

Kirjeldav statistika andmete esmane kokkuvõtt, ülevaatlik analüüs

– TABELID

– ARVJOONISED

– KIRJELDAVAD ARVNÄITAJAD

– SEOSED

Eeldame, et andmed on kogutud

Millal millist andmeanalüüsi meetodit kasutada?

Uurimis-

probleem

Taust

Valikumeetod

Andmekogumis meetod(id)

Andmeanalüüsi meetodid

Tulemused/

järeldused

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Millest sõltub analüüsimeetodi valik?

• Uurimisküsimus: laiem

• Analüüsiküsimus: kas kaks gruppi on erinevad/seotud?

Küsimuse tüübist

• Nimitunnused

• Järjestustunnused

• Intervalltunnused

• Binaarsed tunnused

Andmete tüübist (väärtuste järjestatavus, skaalavahemike võrdsus)

• Uurija teadmised/oskused

• Kellele esitab, kuidas?

Sihtrühmast

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Tunnuse/andme tüübid

Nimitunnused

– Nimitunnuse väärtuseid ei saa järjestada, järjestustunnusel saab

Järjestustunnused

– Arvtunnuse skaalavahemikud on võrdsed, järjestustunnusel

mitte

Intervalltunnused

– Arvtunnuse korral saame arvutada keskväärtust, st.hälvet;

binaarse tunnuse korral mitte

Binaarsed tunnused

– Kaks võimalikku väärtust

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Statistiliste andmete esitamine

TEKSTI SEES TOODUD

ARVUDENA

TABELINA ARVJOONISE E

DIAGRAMMINA

Vali arvulise info edastusviisiks tekst, kui korraga on vaja esitada vaid üks-kaks arvulist näitajat

Vali esitluseks tabel, kui on vajalik anda edasi täpset arvulist infot või kui võrreldavate arvnäitajate suurusjärgud on väga erinevad

Vali esitluseks diagramm, kui soovid eelkõige anda kiiret ülevaadet üldtendentsi(de)st ja suundumus(te)st

Esitlusviis peaks toetama

parimal viisil tulemuste

sisust kiiret ja õiget

arusaamist ning olema

kompaktne.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Meetodi valik vastavalt püstitatud küsimusele.

Esmane analüüs e tunnuste

kirjeldamine

Gruppide võrdlemine

Seosed e korrelatsioon-

analüüs

Tekst

Tabel

Diagrammid

22.10.2012

4

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Andmete esitamine - tekstina

Vastajaid vähem kui 100

– 23.03.09 toimunud kirjeldava statistika osa eksamil osales 39 üliõpilast.

– Eksamil osalenud 39-st üliõpilasest ligi kolmandik (15) oli osalenud

kõikides loengutes; kõikides praktikumides osalemise vastav arv oli 10.

Soovi korral võib ülevaatlikkuse tõstmiseks sagedusele sulgudes

lisada osakaalu

– Uuringus osales 17 inimest, kellest 4 (23%) olid teinud rahalisi annetusi

eelmise aasta jooksul.

Vastajaid rohkem kui 100

– Seisuga 30 aprill 2007 on 1.6% vanemahüvitise saajatest mehed.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Sagedustabel.

Tulemi interpreteerimine.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Sagedustabel

Tunnuse kõiki väärtusi kokkuvõttev sagedustabel

Kuidas tulite kaubamajja?

169 30,2

102 18,2

5 ,9

284 50,7

560 100,0

Ühistranspordiga

Autoga

Jalgrat taga

Jalgsi

KOKKU

Arv Protsent

Tabel 1. Kuidas tulite kaubamajja?

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Sagedustabel

Frequency - vastajate arv

Percent - osakaal

Valid percent - osakaal mittepuuduvatest väärtustest

Cumulative percent - kumulatiivne protsent

vanuse_grupid

43 4,9 5,0 5,0

147 16,7 17,0 21,9

174 19,7 20,1 42,0

162 18,4 18,7 60,7

160 18,1 18,5 79,1

181 20,5 20,9 100,0

867 98,3 100,0

15 1,7

882 100,0

kuni 20

21-30

31-40

41-50

51-60

üle 61

Total

Valid

SystemMissing

Total

Frequency Percent Valid Percent

Cumulat iv e

Percent

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Tabeli (ridade) järjestamine

Internetikasutuse osakaalud 2008.aastal erinevates riikides 6.-

17.aastaste laste seas.

Juhul kui tabelis

toodud kategooriad

ei ole sisuliselt

tähenduslikus

järjekorras, siis

järjestatakse tabeli read sageduste/osakaalude järgi (Tabel 2B).

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Tulemi interpreteerimine

Tabeli 10. põhjal näeme, et 15

vastajat (38,5%) hindas

ettevalmistust ebapiisavaks; 9

vastajat (23,1%) enam-vähem

piisavaks ning 15 vastajat (38,5%)

täiesti piisavaks.

Järeldustes ei tohiks liialdada

ebamääraste väljenditega

• Enamasti

• Sageli

• Suuremas osas

• Harva

• Mõnikord

• Kohati.

Need tekitavad küsimusi, kui sageli, kui

harva, mis tingimustel jne.

Paremad on täpsemad väljendid

• alla poole (46%)

• ligi kolmandikul juhtudest

• peaaegu kolmveerand näidetest jne.

22.10.2012

5

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Andmete graafiline kirjeldamine

TULPDIAGRAMM

SEKTORDIAGRAMM

JOONDIAGRAMM

HISTOGRAMM

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Tulpdiagramm

Tulba kõrgus näitab vastajate arvu või protsenti

* Võrdleb erinevaid kategooriaid

* Pika teksti korral teljed ära

vahetada

* Tulbad võiks paigutada suuruse

järjekorda (kui ei ole sisulist

järjestust)

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Tulpdiagrammi

kujundamine

Tulpasid kirjeldav tekst.

Tulpade järjestus.

Skaala.

Pealkiri.

X-telje kirjeldus.

Legend.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Diagrammi tüübi valik sõltuvalt andmetest

Turu-uuringute AS küsitles 16-17.02 telefoni teel 305 valimisõiguslikku Eesti elanikku. Küsitluse valim on representatiivne ning üldistatav valimisõiguslike Eesti elanike suhtes.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

SEKTORDIAGRAMM

• Sektorid võiks paigutada

suuruse järjekorda

• Kuni 7 sektorit (mitte 2 või 1!!)

Austraalia 5% Antarktis

10%

Lõuna-Ameerika

12%

Põhja-Ameerika

16%

Aafrika 20%

Euraasia 37%

Maismaa jaotus mandrite lõikes

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Kui erinevused gruppide vahel on väikesed,

kasuta tulpdiagrammi

0

2

4

6

8

10

12

14

16

18

20

'11-20 21-30 31-40 41-50 51-60

ETV

'11-20

21-30

31-40

41-50

51-60

22.10.2012

6

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Ühe sektori võib välja tõsta

17%

10%

10%

15%11%

16%

10%

11%

Olulisele sektorile võib tähelepanu juhtida.

jah

7%

ei

93%

Cosmopolitan

Eesti Ekspress

Eesti Päevaleht

Postimees

SL Õhtuleht

Time's

Äripäev

Lemmik ajaleht

Euroopa Liidu maades 2006. aasta kevadel korraldatud Eurobaromeetri uuring näitab, et ostude tegemine väljaspool kodumaad on viimastel aastatel kahekordistunud.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Joondiagramm

Ajas muutuvate andmete kirjeldamine

Õppijaid haridusastmete järgi, 1996-2004

(aasta alguses, tuhat)

0

10

20

30

40

50

60

70

80

1996 1997 1998 1999 2000 2001 2002 2003 2004

Kõrgharidus

Üldkeskharidus

(gümnaasiumiklassid)

Kutseharidus

tuhat

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5

Ma pole viimasel ajal oma elus midagi muuta püüdnud

Mulle meeldib vastutada

Olen iseendaga rahul

Olen rahul, kuidas kaaslases minusse suhtuvad

Olen aasta jooksul palju edasi arenenud

Ma ei karda oma arvamust välja öelda

Minu vanemad toetavad mind alati

Võin oma sõpru usaldada ja nemad mind

Mulle meeldivad avameelsed jutuajamised

Mulle meeldib suhelda

Isiksus/ enesehindamine. ?

Isiksus/enesehindamine

1

2

3

4

5

6

Mulle

meeldib

suhelda

Mulle

meeldib

vastutada

Olen aasta

jooksul palju

edasi

arenenud

Olen rahul,

kuidas

kaaslased

minusse

suhtuvad

Võin oma

sõpru

usaldada ja

nemad mind

Ma ei karda

oma

arvamust

välja öelda

Ma pole

viimasel ajal

oma elus

midagi

muuta

püüdnud

Olen

iseendaga

rahul

Mulle

meeldivad

avameelsed

jutuajamised

Minu

vanemad

toetavad

mind alati

7. klassid

9. klassid

10. klassid

11. klassid

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Vastajate vanuste graafiline kirjeldamine

0

10

20

30

40

50

60

…-20 21-25 26-30 31-35 36-40 41-45 46-50

0

2

4

6

8

10

12

14

16

18

19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Tulpdiagramm ≠ Histogramm

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Jäta meelde

Veendu, et graafiku/tabeli SISU on õige

TULEM peab olema sisuliselt arusaadav ka ilma selgitusteta

INFO peab olema LOETAV (mitte korduv)

Nimitunnuse korral oleks mõistlik read/tulbad/sektorid järjestada

Infot ei tohiks diagrammil olla LIIGA PALJU, eelistage siis juba

tabelit

Ühe projekti piires kasuta ÜHTSET STIILI – kuid arvesta andmete

iseloomuga.

22.10.2012

7

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Kirjeldavad arvnäitajad.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Arvnäitajate jagunemine eesmärgi põhiselt

KIRJELDAVAD

ARVNÄITAJAD

Keskmist taset Hajuvust

Mood

Mediaan

Ulatus

Kvartiilid

Jaotuse kuju

Aritmeetiline keskmine

Geomeetriline keskmine

Harmooniline keskmine

Ruutkeskmine

Protsentiilid

Dispersioon

Standardhälve

Kaalutud keskmine

Asümmeetria

Ekstsess

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Keskmine tase

MOOD on tunnuse kõige enam esinenud väärtus

– Nimitunnuse korral: sagedustabelist välja loetav kõige enam esinenud

väärtus.

MEDIAAN on variatsioonirea (järjestatud andmerea) keskel paiknev

väärtus

– Kui meil on paarisarv andmeid: 1 1 2 2 3 3 4 4

– Siis mediaan on variatsioonirea kahe keskmise liikme aritmeetiline keskmine

– Me= (2+3)/2=2,5

Mood ja mediaan – muutuvad siis, kui esineb olulisi muutusi andmetes

Aritmeetiline keskmine (keskväärtus) – muutub siis, kui muutub kasvõi üks

rea liige

KESKVÄÄRTUS on võrreldes teiste näitajatega kõige stabiilsem

NYDailyNews.com Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Keskmine tase erandlike väärtuste korral

Ekstreemsete väärtuste korral näitab keskmist taset paremini kui

aritmeetiline keskmine:

– MEDIAAN

– GEOMEETRILINE KESKMINE – ei ole tundlik ekstreemsete

väärtuste suhtes

– KAALUTUD KESKMINE – arvestab erinevat palka saavate

inimeste hulka => kui on rohkem madalamapalgalisi, siis nende

mõju keskmisele on suurem.

– KOHANDATUD KESKMINE – keskmine, mille arvutamisel

jäetakse välja 5% või 10% ekstreemsetest näitajatest,

eemaldame ülisuurte ja üliväikeste väärtuste mõju

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Arvnäitajate arvutamine SPSS-s

Inglise keele

eksami tulemus

Eesti keele

eksami tulemus

Valid VASTAJATE ARV 150 127

Missing PUUDUVAD VASTUSED 0 23

Mean KESKVÄÄRTUS 70,46 65,86

Median MEDIAAN 69,00 67,00

Mode MOOD 58(a) 70

Std. Deviation STANDARDHÄLVE 14,42 14,99

Skewness ASÜMMEETRIA ,30 -,64

Kurtosis EKSTSESS -,87 ,49

Minimum MIN. 46 15

Maximum MAX. 100 90

Percentiles 25 25-S PROTSENTIIL 58,00 55,00

50 50-S PROTSENTIIL 69,00 67,00

75 75-S PROTSENTIIL 82,00 78,00

a Multiple modes exist. The smallest value is shown

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

2005 a. lõpueksami

(kirjand) tulemused:

Esmasel vaatlusel ei teki

ülevaadet:

kuidas paiknevad hinded

max. ja min. vahel?

kas paiknevad ühtlaselt?

kas erinevate koolide

tasemed on sarnased?

MILLINE ON TULEMUSTE

HAJUVUS?

22.10.2012

8

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Ulatus

Ulatus on maksimaalse ja minimaalse väärtuse vahe e. vahemiku laius, milles andmed paiknevad

Milliste maakondade tulemused hajuvad kõige rohkem?

Ulatus on ...

+ väga lihtsalt arvutatav

- sõltub äärmistest väärtustest, mis võivad olla ekstreemsed!!

100 10 90

95 15 80

100 10 90

100 10 90

100 10 90

100 10 90

100 15 85

100 10 90

100 10 90

95 15 80

95 10 85

100 0 100

100 15 85

100 10 90

100 0 100

Harjumaa

Hiiumaa

Ida-Viru

Jõgev ama

Järvamaa

Lääne-Vi

Läänemaa

Põlvamaa

Pärnumaa

Raplamaa

Saaremaa

Tartumaa

Valgamaa

Viljandi

Võrumaa

Maximum Minimum Range

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Kvartiilid

Kvartiilid jagavad variatsioonirea nelja võrdsesse ossa

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Karp diagramm

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Standardhälve e

andmete keskmine erinevus keskväärtusest

Kui palju üksikud tulemused erinevad keskmisest?

Kui andmed on täpselt ühesugused => st.hälve=0

Mida rohkem andmed erinevad => suurem on st.hälve

21,86

17,81

22,05

21,10

18,49

18,81

19,58

19,74

20,05

17,61

18,38

22,27

20,41

20,40

21,19

Harjumaa

Hiiumaa

Ida-Viru

Jõgev ama

Järvamaa

Lääne-Vi

Läänemaa

Põlvamaa

Pärnumaa

Raplamaa

Saaremaa

Tartumaa

Valgamaa

Viljandi

Võrumaa

Std Dev iation

100 10 90

95 15 80

100 10 90

100 10 90

100 10 90

100 10 90

100 15 85

100 10 90

100 10 90

95 15 80

95 10 85

100 0 100

100 15 85

100 10 90

100 0 100

Harjumaa

Hiiumaa

Ida-Viru

Jõgev ama

Järvamaa

Lääne-Vi

Läänemaa

Põlvamaa

Pärnumaa

Raplamaa

Saaremaa

Tartumaa

Valgamaa

Viljandi

Võrumaa

Maximum Minimum Range

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Positiivne asümmeetria

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Negatiivne asümmeetria

22.10.2012

9

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Korrelatsioonanalüüs

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Kuidas on kaks tunnust seotud?

Reeglina

mõõdetakse seost kahe numbriliselt mõõdetava muutuja vahel.

On oluline, et mõlemad mõõdetavad tunnused moodustaksid mingi

järjestuse.

Pikkus Kaal

176 68

176 70

178 75

179 76

180 78

182 86

184 88

184 90

190 85

60

65

70

75

80

85

90

95

175 180 185 190 195 Mida suurem kaal, seda pikem JA vastupidi: mida vähem vastaja kaalub, seda lühem ta on.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Analüütiline hindamine

Korrelatsioonikordaja näitab:

– seose suunda • Positiivne (↑↑ või ↓↓)

• Negatiivne (↑↓ või ↓↑)

– seose tugevust (kordaja absoluutväärtus)

[0...0,1[ tunnused ei ole seotud

[ 0,1… 0,2[ väga nõrk seos

[ 0,2… 0,3[ nõrk seos

[ 0,3...0,7[ keskmine seos

[ 0,7…0,9[ tugev seos

[ 0,9...1[ väga tugev seos

1 funktsionaalne seos

Pearsoni r (arvtunnused)

Spearman ρ

Kendalli τ

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Kordajad

Pearsoni kordaja puudused

– Lineaarne seos: tunneb punktipilve, mis on venitatud piki sirget.

– Tundlik erandite suhtes: paar üksikut erandit väikeses valimis kahekordistavad

kordaja väärtust.

Spearman e. astakkorrelatsioonikordaja

– Pidevad tunnused ei ole normaaljaotusega (ka erandlikud väärtused)

– Järjestustunnus

– Spearmanni kordaja > Pearsoni kordaja (tavaliselt)

Kendall

– Vähemalt järjestustunnused

– Samasuunaliste ja vastassuunaliste paaride analüüs.

Eta

Value

Nominal by Interval Eta Sugu Dependent ,186

Sissetulek Dependent ,143

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Näide

Correlations

1 ,198**

, ,000

882 873

,198** 1

,000 ,

873 873

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

v anus

Tunde

majapidamistöödeks

(tööpäev it i)

v anus

Tunde

majapidami

stöödeks

(tööpäev it i)

Correlat ion is signif icant at the 0.01 level (2-tailed).**.

Andmeanalüüs: statistiline andmestik ja kirjeldav statistika

Näide

Correlations

1,000 -,357**

, ,000

829 821

-,357** 1,000

,000 ,

821 873

Correlation Coef f icient

Sig. (2-tailed)

N

Correlation Coef f icient

Sig. (2-tailed)

N

sissetulek v iimasel kuul

Tunde

majapidamistöödeks

(tööpäev iti)

Spearman's rho

sissetulek

v iimasel kuul

Tunde

majapidami

stöödeks

(tööpäev iti)

Correlation is signif icant at the .01 level (2-tailed).**.