kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille

41
Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) -harjoitukset pääaineopiskelijoille Mira Kalalahti Käyttäytymistieteiden laitos [email protected] Teollisuuskatu 23 (PL26) 00014 Helsingin yliopisto

Upload: fala

Post on 23-Feb-2016

57 views

Category:

Documents


0 download

DESCRIPTION

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille. Mira Kalalahti Käyttäytymistieteiden laitos [email protected] Teollisuuskatu 23 (PL26) 00014 Helsingin yliopisto. Muuttujien luonne. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

•Kvantitatiivisen aineiston keruu ja analyysi (kl.2011)-harjoitukset pääaineopiskelijoille

Mira Kalalahti Käyttäytymistieteiden laitos

[email protected] 23 (PL26)00014 Helsingin yliopisto

Page 2: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Muuttujien luonne

Ei-numeeriset/laadulliset muuttujat vs.

numeeriset/määrälliset

Esim. pituus, (numeerisia)

Esim. sukupuoli, (ei-numeerisia)

Page 3: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Muuttujien luonne

Jatkuvat vs. epäjatkuvat eli diskreetit muuttujat

Muuttuja on jatkuva, kun sen kahden arvon välissä

on ääretön määrä arvoja.

Muuttuja on epäjatkuva eli diskreetti, kun sen

mitta-asteikolla siirrytään hyppäyksittäin arvosta

toiseen.

Page 4: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Muuttujien luonne

Muuttuja on dikotominen, jos se saa kaksi arvoa:

Ominaisuus joko on olemassa kyseisellä tilastoyksiköllä tai sitä ei ole olemassa (esim. tutkittava on naimisissa tai ei ole).

Dikotomiset muuttujat voidaan koodata 0-1-muuttujiksi 0 = ei,1 = kyllä) eli dummy-muuttujiksi

Page 5: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Mittaustaso: ”sanallinen mittaaminen”

Luokittelu- eli nominaaliasteikko:

Muuttujat voidaan luokitella (ryhmiin tai luokkiin), mutta

luokkia ei voida asettaa mitattavan ominaisuuden mukaan

järjestykseen eikä arvoilla voi suorittaa laskutoimituksia

Esim. pohjoismaat, kansalaisuus, sukupuoli jne.

Page 6: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Mittaustaso: ”sanallinen mittaaminen”

Järjestys- eli ordinaaliasteikko:

Muuttujien arvot voidaan laittaa mitattavan

ominaisuuden mukaan luonnolliseen järjestykseen, mutta

arvot eivät ole välttämättä tasavälisiä● Esim. viran hakijat kelpoisuuden mukaan

● Esim. mielipidemittaukset (mm. likert): keskiarvojen

laskeminen ”sallittua” yleiskuvan antajana)

Page 7: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Mittaustaso: ”määrällinen mittaaminen”

Välimatka- eli intervalliasteikko:

Mittausarvojen etäisyys tunnetaan (muuttujan arvot ovat

säännöllisen välimatkan päässä toisistaan

Ei yksiselitteistä nollakohtaa

Esim. Celsius-asteikko, syntymävuosi (mittayksikkö on

yksi vuosi)

Page 8: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Mittaustaso: ”määrällinen mittaaminen”

Suhdeasteikko eli absoluuttinen asteikko:

Välimatka-asteikollisen lisäksi muuttujilla on

yksiselitteinen nollakohta, absoluuttinen nollapiste

Muuttujana arvojen suhde (eli toinen jaettuna toisella)

pysyy samana, vaikka mittayksikköä muutetaan

Esim. jos rahaa on 0 euroa, sitä ei ole yhtään,

lukumäärämuuttujat ovat suhdeasteikon muuttujia

Page 9: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Mittaustaso

Vaativammalla asteikolla on myös vähemmän vaativan

asteikon ominaisuudet: muuttujan mitta-asteikko on

”vaativin” mitta-asteikko (se, jolla on eniten ominaisuuksia)

(esim. ikämuuttuja on suhdeasteikon muuttuja, koska

sillä on absoluuttinen nollapiste kaikkien muiden

mitta-asteikkojen ominaisuuksien lisäksi)

Page 10: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Kuvaileva (deskriptiivinen) tutkimus vs. selittävä(tilastolliseen päättelyyn perustuva) tutkimus

Kuvaileva tutkimus tiivistää informaatiota muuttujien ominaisuuksista ja niiden välisistä suhteista

Esim. jakaumien tarkastelu, keskiarvot, hajonnat

Tilastollisen päättelyn avulla voidaan tehdä johtopäätöksiä perusjoukosta

Kuinka hyvin otoksen avulla mitatut tulokset kuvaavat perusjoukkoa?

Miten hyvin tulokset otoksesta voidaan yleistää perusjoukkoa koskeviksi tuloksiksi?

Page 11: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Analyysimenetelmän valinta

Tutkimusasetelma/-ongelma

Analysoidaanko erillisiä muuttujia?

Analysoidaanko muuttujien välisiä suhteita?

Ryhmitelläänkö tapauksia?

Mitta-asteikko

Otoskoko ja oletusten voimassaolo (esim. jakaumat)

Page 12: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Kuvaileva l. deskriptiivinen (perus)tutkimus

Erillisten muuttujien analysoiminen

Frekvenssijakaumat (lukumäärät, prosentit)

Jakaumat kertovat vastaajajoukon ominaisuuksista ja

jakautumisesta sekä mittarien toimivuudesta

Keskiluvut (jakauman sijainti x-akselilla)

mediaani (keskimmäinen arvo

moodi (yleisin arvo)

keskiarvo (mean)

Page 13: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Kuvaileva l. deskriptiivinen (perus)tutkimus

Hajontaluvut● keskihajonta (std.deviation)● varianssi (variance)● vaihteluväli (range)

Jakaumaa kuvaavat tunnusluvut:● vinous (skewness) (onko suuri osa havainnoista

keskiarvoa suurempia / pienempiä?)● huipukkuus (kurtosis) (onko jakauma huipukas tai

litteä?)● yhden muuttujan graafinen esittäminen

Page 14: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

1. Harjoitus: aineiston kuvaaminen, sijainti- ja hajontalukuja

● Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi)

● Keskiluvut (keskiarvo, mediaani, moodi)● Keskiarvo, keskihajonta, minimi- ja maksimiarvot,

muuttujien vinous (skewness) ja huipukkuus (kurtosis)

Page 15: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

1. Harjoitus: Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi)

● Luokittelumuuttujat: frekvenssit ja prosenttiosuudet, moodi

● Esim. Siviilisääty, tupakointihistoria● Välimatka-asteikolliset: histogrammi, moodi,

mediaani, keskiarvo, keskihajonta● Esim. Tyytyväisyys elämänlaatuun (kysymys 13)

Page 16: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille
Page 17: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille
Page 18: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

1. Harjoitus: Keskiluvut (keskiarvo, mediaani, moodi)

● Luokittelumuuttujista vai moodi● Järjestyasteikollisista mediaani tai moodi● Välimatka-asteikollisista (ja soveltuvista

järjestysasteikollisista): histogrammi, moodi, mediaani, keskiarvo

Page 19: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille
Page 20: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille
Page 21: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

1. Keskiarvo, keskihajonta, minimi- ja maksimiarvot, muuttujien vinous (skewness) ja huipukkuus (kurtosis)

Page 22: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Jakauman normaalisuus

● Parametriset testit edellyttävät numeeristen muuttujien jakauman olevan normaalisti jakautuneita. Normaalisti jakautunut muuttuja muistuttaa symmetristä Gaussin kellokäyrää.

● Tutkiminen havainnollisesti: histogrammin avulla (raportoi, ei tarvitse liittää raporttiin)

● Tutkiminen vinous- ja huipukkuuslukujen avulla: kuvaavat, miten jakauma poikkeaa normaalijakaumasta. Suuremmilla aineistoilla (N>200) vinous ei enää helposti vaaranna testin tulosta. Arvot eivät saisi olla yli kaksi kertaa suuremmat kuin niiden keskivirhe (standard error).

● Vinous (Skewness): mihin suuntaan jakauma laahaa esim. positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino, g₁ > 0, jakauma on oikealle vino ja g₁ < 0, jakauma on vasemmalle vino. Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5

● Huipukkuus (Kurtosis): esim. kaksihuippuinen, huiputon, huipukas: g₂ > 0, jakauma on terävähuippuinen ja g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat jokseenkin tasaisesti kaikille arvoille).Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on lähellä lukua +3.00

Page 23: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Jakauman normaalisuus

● Tutkiminen testaamalla: Analyze-Descriptive Statistic-Explore-Normality plots with tests

● Suuret aineistot (yli 50): Kolmogorov-Smirnov, pienet aineistot (alle 50). Saphiro-Wilkn -testi: Testitulos luetaan sig.-kohdasta: jos testin tulos EI ole merkitsevä, muuttujan voidaan sanoa olevan normaalisti jakautunut ja voidaan käyttää parametrisia testejä.

● Ongelma: testin tulos on yleensä merkitsevä (eli jakauma ei ole normaalisti jakautunut vaan testitulos on lähes aina epänormaali, joten testiä ei voi käyttää suoraviivaiseen päättelyyn.

● Jos jakuma on huomattavan vino, kannattaa käyttää non-parametrisiä testejä. Muutoin kannattaa tehdä molemmat rinnakkain ja katsoa, eroaako johtopäätös.

Page 24: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

● Jakauman luonnehdinta:● Jakauman huipukkuus

● esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas

● JA● symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä

laahaa’)● esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino

● Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.

Page 25: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Vinous (skewness)● Vinouskerroin g₁ ilmoittaa, mihin suuntaan jakauma on

vino● Jos g₁ > 0, jakauma on oikealle vino● Jos g₁ < 0, jakauma on vasemmalle vino

● Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5● Nyrkkisääntö: jos vinousindeksi on yli kaksi kertaa suurempi

kuin sen keskivirhe, jakauman katsotaan poikkeavan symmetriaoletuksesta

Page 26: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Huipukkuus (kurtosis)● Jakauman huipun muotoa tarkastellaan huipukkuuskertoimen

g₂ avulla● Kuinka terävähuippuinen jakauma on● Normaalijakauman huipukkuus on 0● Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on

lähellä lukua +3.00● Jos g₂ > 0, jakauma on terävähuippuinen (havainnot ‘pakkautuvat’

muutamille arvoille)● Jos g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat

jokseenkin tasaisesti kaikille arvoille)

Page 27: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

● Jakauman luonnehdinta:● Jakauman huipukkuus

● esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas

● JA● symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä

laahaa’)● esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino

● Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.

Page 28: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Kotitehtävä: Tulkitse kysymyksen 10.

muuttujasta tunnilla otetun tulosteen

tunnusluvut. Tarkastele myös

histogrammin avulla, onko muuttujan

jakauma tasainen (vinous,

huipukkuus, yksihuippuisuus).

Käyttäisitkö keskiarvoa tämän

muuttujan tulkinnassa?

Page 29: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille
Page 30: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Kuvaileva l.- deskriptiivinen (perus)tutkimus

● Otoksesta laskettavien tunnuslukujen yleistettävyys??

• Keskivirhe

• Luottamusväli

● Otoksesta laskettavien tulosten tilastollinen merkitsevyys? Eli millä todennäköisyydellä saatu tulos on totta myös perusjoukossa?

• Hypoteesien testauksen tekniikka

● Perusjoukon keskiarvoa (tai vastaavaa tunnuslukua) ei voida otoksen perusteella määrittää tarkasti.

● Otoksen perusteella voidaan kuitenkin sanoa, millä TODENNÄKÖISYYDELLÄ keskiarvo sijoittuu tietylle välille.

Page 31: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Tilastolliset testit

auttavat päättelemään, johtuuko tarkasteltu ilmiö

sattumasta vai ei (yleistys otoksesta perusjoukkoon)

aineisto kertoo, millä varmuudella teemme päätelmiä

jokaisessa tilastollisessa testissä otannasta saatavia

tuloksia verrataan teoreettiseen malliin

teoreettisen mallin mukaan testissä testataan ns.

nollahypoteesia, jonka mukaan vaikutusta tai eroa ei

ole (vaihtoehtoinen hypoteesi olettaa, että eroa on)

Page 32: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Tilastolliset testit

yhteiskuntatieteissä yleisin merkitsevyystaso on 0,05 eli sallitaan 5 %:n riski sille, että teemme virheellisen

johtopäätöksen hylätessämme nollahypoteesin

Merkitsevyys ei merkitse merkittävyyttä (onko tulos

sisällöllisesti merkittävä, relevantti, tärkeä)

Page 33: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Testauksen terminologia

Muuttuja

Luottamusväli

Luottamus- /merkitsevyystaso

Nollahypoteesi, vastahypoteesi ja vaihtoehtoinen hypoteesi

(tutkimushypoteesi)

Testisuure

Vapausasteet

P-arvo

Page 34: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Tilastollinen päättely

Luottamusväli: kertoo, millä välillä todellinen

perusjoukon tunnusluvun arvo on tietyllä

todennäköisyydellä.

Luottamustaso: kertoo, millä todennäköisyydellä

perusjoukkoa kuvaava tunnusluku on tietyllä

luottamusvälillä.

Toisen tietäminen edellyttää toisen tietämistä.

Luottamustason kasvaessa laajenee myös luottamusväli.

Page 35: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Testauksen terminologia

P-arvo, merkitsevyystaso: valinta määrittää

todennäköisyyden sille, että tutkija hylkää

nollahypoteesin, vaikka se todellisuudessa on tosi

(riskitaso, virheellisen valinnan riski)

Yleensä yhteiskuntatieteissä 0.05 (eli 5 %), myös 0.01 )eli 1

% ja 0.01 (eli 0,1 %) tasot.

Jos käytetään 5 %:n riskitaso, saavutetaan tällä 95%:n

todennäköisyys sille, että tulos on tutkimuksen perusjoukossa

pätevä. Samalla virheen todennäköisyys on 5 %.

Page 36: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Testauksen terminologia

• P-arvo: tilastollisen testin tuloksena saadaan ns. p-arvo (probability), joka ilmoittaa virheellisen päätelmän todennäköisyyden

● p < .05 tulos tilastollisesti ‘melkein merkitsevä’

● p < .01 tulos tilastollisesti ‘merkitsevä’● p < .001 tulos tilastollisesti ‘erittäin

merkitsevä’

Page 37: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Testauksen terminologia

Nollahypoteesi H0 : useimmiten teoriasta johdetun

oletuksen vastainen hypoteesi (eroa tai yhteyttä ei ole)

Vastahypoteesi H1 : nollahypoteesin vastainen,

hyväksytään, jos tilastollisen testauksen avulla

nollahypoteesi pystytään kumoamaan

Page 38: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Testauksen vaiheet

Aseta nollahypoteesi ja vastahypoteesi

Valitse tilastollinen testi (useimmat menetelmät

sisältävät testit automaattisesti) ja tutkijan tehtäväksi

jää tulkita tulokset oikein

Valitse merkitsevyystaso

HUOM: tilastollisesti merkitsevä ei ole yhtä

kuin tutkimuksellisesti merkittävä

Page 39: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Tilastolliset testit jaetaan parametrisiin ja

parametrittomiin (ei-parametriset, epäparametriset)

testeihin sen mukaan, minkälaisia jakaumia testit

käyttävät.

Ei-parametrisillä testeillä ei ole jakaumaoletuksia.

Testit eivät ole kuitenkaan yhtä voimakkaita kuin

parametriset testit, minkä vuoksi kannattaa käyttää

parametrisiä testejä aina kun siihen on mahdollisuus.

Parametriset ja ei-parametriset testit

Page 40: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Parametriset ja ei-parametriset testit

Parametrisillä testeillä on jakaumaoletuksia

vähintään välimatka-asteikko

varianssien yhtä suuruus

jakaumien normaalisuus 5 %.

Page 41: Kvantitatiivisen aineiston keruu ja analyysi  (kl.2011) - harjoitukset pääaineopiskelijoille

Parametrinen vs. parametriton

● Parametrinen

● Pearsonin tulomomentti-korrelaatio

● Riippumattomien otosten testi T-testi

● Yksisuuntainen varianssianalyysi (ANOVA)

● Toistomittaus MANOVA/ Riippuvien otosten T-testi

● Parametriton

● Spearmanin järjestyskorrelaatio

● Mann-Whitneyn U-testi

● Kruskal-Wallisin –testi

● Wilcoxonin testi