kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille
DESCRIPTION
Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille. Mira Kalalahti Käyttäytymistieteiden laitos [email protected] Teollisuuskatu 23 (PL26) 00014 Helsingin yliopisto. Muuttujien luonne. - PowerPoint PPT PresentationTRANSCRIPT
•Kvantitatiivisen aineiston keruu ja analyysi (kl.2011)-harjoitukset pääaineopiskelijoille
Mira Kalalahti Käyttäytymistieteiden laitos
[email protected] 23 (PL26)00014 Helsingin yliopisto
Muuttujien luonne
Ei-numeeriset/laadulliset muuttujat vs.
numeeriset/määrälliset
Esim. pituus, (numeerisia)
Esim. sukupuoli, (ei-numeerisia)
Muuttujien luonne
Jatkuvat vs. epäjatkuvat eli diskreetit muuttujat
Muuttuja on jatkuva, kun sen kahden arvon välissä
on ääretön määrä arvoja.
Muuttuja on epäjatkuva eli diskreetti, kun sen
mitta-asteikolla siirrytään hyppäyksittäin arvosta
toiseen.
Muuttujien luonne
Muuttuja on dikotominen, jos se saa kaksi arvoa:
Ominaisuus joko on olemassa kyseisellä tilastoyksiköllä tai sitä ei ole olemassa (esim. tutkittava on naimisissa tai ei ole).
Dikotomiset muuttujat voidaan koodata 0-1-muuttujiksi 0 = ei,1 = kyllä) eli dummy-muuttujiksi
Mittaustaso: ”sanallinen mittaaminen”
Luokittelu- eli nominaaliasteikko:
Muuttujat voidaan luokitella (ryhmiin tai luokkiin), mutta
luokkia ei voida asettaa mitattavan ominaisuuden mukaan
järjestykseen eikä arvoilla voi suorittaa laskutoimituksia
Esim. pohjoismaat, kansalaisuus, sukupuoli jne.
Mittaustaso: ”sanallinen mittaaminen”
Järjestys- eli ordinaaliasteikko:
Muuttujien arvot voidaan laittaa mitattavan
ominaisuuden mukaan luonnolliseen järjestykseen, mutta
arvot eivät ole välttämättä tasavälisiä● Esim. viran hakijat kelpoisuuden mukaan
● Esim. mielipidemittaukset (mm. likert): keskiarvojen
laskeminen ”sallittua” yleiskuvan antajana)
Mittaustaso: ”määrällinen mittaaminen”
Välimatka- eli intervalliasteikko:
Mittausarvojen etäisyys tunnetaan (muuttujan arvot ovat
säännöllisen välimatkan päässä toisistaan
Ei yksiselitteistä nollakohtaa
Esim. Celsius-asteikko, syntymävuosi (mittayksikkö on
yksi vuosi)
Mittaustaso: ”määrällinen mittaaminen”
Suhdeasteikko eli absoluuttinen asteikko:
Välimatka-asteikollisen lisäksi muuttujilla on
yksiselitteinen nollakohta, absoluuttinen nollapiste
Muuttujana arvojen suhde (eli toinen jaettuna toisella)
pysyy samana, vaikka mittayksikköä muutetaan
Esim. jos rahaa on 0 euroa, sitä ei ole yhtään,
lukumäärämuuttujat ovat suhdeasteikon muuttujia
Mittaustaso
Vaativammalla asteikolla on myös vähemmän vaativan
asteikon ominaisuudet: muuttujan mitta-asteikko on
”vaativin” mitta-asteikko (se, jolla on eniten ominaisuuksia)
(esim. ikämuuttuja on suhdeasteikon muuttuja, koska
sillä on absoluuttinen nollapiste kaikkien muiden
mitta-asteikkojen ominaisuuksien lisäksi)
Kuvaileva (deskriptiivinen) tutkimus vs. selittävä(tilastolliseen päättelyyn perustuva) tutkimus
Kuvaileva tutkimus tiivistää informaatiota muuttujien ominaisuuksista ja niiden välisistä suhteista
Esim. jakaumien tarkastelu, keskiarvot, hajonnat
Tilastollisen päättelyn avulla voidaan tehdä johtopäätöksiä perusjoukosta
Kuinka hyvin otoksen avulla mitatut tulokset kuvaavat perusjoukkoa?
Miten hyvin tulokset otoksesta voidaan yleistää perusjoukkoa koskeviksi tuloksiksi?
Analyysimenetelmän valinta
Tutkimusasetelma/-ongelma
Analysoidaanko erillisiä muuttujia?
Analysoidaanko muuttujien välisiä suhteita?
Ryhmitelläänkö tapauksia?
Mitta-asteikko
Otoskoko ja oletusten voimassaolo (esim. jakaumat)
Kuvaileva l. deskriptiivinen (perus)tutkimus
Erillisten muuttujien analysoiminen
Frekvenssijakaumat (lukumäärät, prosentit)
Jakaumat kertovat vastaajajoukon ominaisuuksista ja
jakautumisesta sekä mittarien toimivuudesta
Keskiluvut (jakauman sijainti x-akselilla)
mediaani (keskimmäinen arvo
moodi (yleisin arvo)
keskiarvo (mean)
Kuvaileva l. deskriptiivinen (perus)tutkimus
Hajontaluvut● keskihajonta (std.deviation)● varianssi (variance)● vaihteluväli (range)
Jakaumaa kuvaavat tunnusluvut:● vinous (skewness) (onko suuri osa havainnoista
keskiarvoa suurempia / pienempiä?)● huipukkuus (kurtosis) (onko jakauma huipukas tai
litteä?)● yhden muuttujan graafinen esittäminen
1. Harjoitus: aineiston kuvaaminen, sijainti- ja hajontalukuja
● Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi)
● Keskiluvut (keskiarvo, mediaani, moodi)● Keskiarvo, keskihajonta, minimi- ja maksimiarvot,
muuttujien vinous (skewness) ja huipukkuus (kurtosis)
1. Harjoitus: Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi)
● Luokittelumuuttujat: frekvenssit ja prosenttiosuudet, moodi
● Esim. Siviilisääty, tupakointihistoria● Välimatka-asteikolliset: histogrammi, moodi,
mediaani, keskiarvo, keskihajonta● Esim. Tyytyväisyys elämänlaatuun (kysymys 13)
1. Harjoitus: Keskiluvut (keskiarvo, mediaani, moodi)
● Luokittelumuuttujista vai moodi● Järjestyasteikollisista mediaani tai moodi● Välimatka-asteikollisista (ja soveltuvista
järjestysasteikollisista): histogrammi, moodi, mediaani, keskiarvo
1. Keskiarvo, keskihajonta, minimi- ja maksimiarvot, muuttujien vinous (skewness) ja huipukkuus (kurtosis)
Jakauman normaalisuus
● Parametriset testit edellyttävät numeeristen muuttujien jakauman olevan normaalisti jakautuneita. Normaalisti jakautunut muuttuja muistuttaa symmetristä Gaussin kellokäyrää.
● Tutkiminen havainnollisesti: histogrammin avulla (raportoi, ei tarvitse liittää raporttiin)
● Tutkiminen vinous- ja huipukkuuslukujen avulla: kuvaavat, miten jakauma poikkeaa normaalijakaumasta. Suuremmilla aineistoilla (N>200) vinous ei enää helposti vaaranna testin tulosta. Arvot eivät saisi olla yli kaksi kertaa suuremmat kuin niiden keskivirhe (standard error).
● Vinous (Skewness): mihin suuntaan jakauma laahaa esim. positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino, g₁ > 0, jakauma on oikealle vino ja g₁ < 0, jakauma on vasemmalle vino. Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5
● Huipukkuus (Kurtosis): esim. kaksihuippuinen, huiputon, huipukas: g₂ > 0, jakauma on terävähuippuinen ja g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat jokseenkin tasaisesti kaikille arvoille).Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on lähellä lukua +3.00
Jakauman normaalisuus
● Tutkiminen testaamalla: Analyze-Descriptive Statistic-Explore-Normality plots with tests
● Suuret aineistot (yli 50): Kolmogorov-Smirnov, pienet aineistot (alle 50). Saphiro-Wilkn -testi: Testitulos luetaan sig.-kohdasta: jos testin tulos EI ole merkitsevä, muuttujan voidaan sanoa olevan normaalisti jakautunut ja voidaan käyttää parametrisia testejä.
● Ongelma: testin tulos on yleensä merkitsevä (eli jakauma ei ole normaalisti jakautunut vaan testitulos on lähes aina epänormaali, joten testiä ei voi käyttää suoraviivaiseen päättelyyn.
● Jos jakuma on huomattavan vino, kannattaa käyttää non-parametrisiä testejä. Muutoin kannattaa tehdä molemmat rinnakkain ja katsoa, eroaako johtopäätös.
● Jakauman luonnehdinta:● Jakauman huipukkuus
● esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas
● JA● symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä
laahaa’)● esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino
● Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.
Vinous (skewness)● Vinouskerroin g₁ ilmoittaa, mihin suuntaan jakauma on
vino● Jos g₁ > 0, jakauma on oikealle vino● Jos g₁ < 0, jakauma on vasemmalle vino
● Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5● Nyrkkisääntö: jos vinousindeksi on yli kaksi kertaa suurempi
kuin sen keskivirhe, jakauman katsotaan poikkeavan symmetriaoletuksesta
Huipukkuus (kurtosis)● Jakauman huipun muotoa tarkastellaan huipukkuuskertoimen
g₂ avulla● Kuinka terävähuippuinen jakauma on● Normaalijakauman huipukkuus on 0● Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on
lähellä lukua +3.00● Jos g₂ > 0, jakauma on terävähuippuinen (havainnot ‘pakkautuvat’
muutamille arvoille)● Jos g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat
jokseenkin tasaisesti kaikille arvoille)
● Jakauman luonnehdinta:● Jakauman huipukkuus
● esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas
● JA● symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä
laahaa’)● esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino
● Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.
Kotitehtävä: Tulkitse kysymyksen 10.
muuttujasta tunnilla otetun tulosteen
tunnusluvut. Tarkastele myös
histogrammin avulla, onko muuttujan
jakauma tasainen (vinous,
huipukkuus, yksihuippuisuus).
Käyttäisitkö keskiarvoa tämän
muuttujan tulkinnassa?
Kuvaileva l.- deskriptiivinen (perus)tutkimus
● Otoksesta laskettavien tunnuslukujen yleistettävyys??
• Keskivirhe
• Luottamusväli
● Otoksesta laskettavien tulosten tilastollinen merkitsevyys? Eli millä todennäköisyydellä saatu tulos on totta myös perusjoukossa?
• Hypoteesien testauksen tekniikka
● Perusjoukon keskiarvoa (tai vastaavaa tunnuslukua) ei voida otoksen perusteella määrittää tarkasti.
● Otoksen perusteella voidaan kuitenkin sanoa, millä TODENNÄKÖISYYDELLÄ keskiarvo sijoittuu tietylle välille.
Tilastolliset testit
auttavat päättelemään, johtuuko tarkasteltu ilmiö
sattumasta vai ei (yleistys otoksesta perusjoukkoon)
aineisto kertoo, millä varmuudella teemme päätelmiä
jokaisessa tilastollisessa testissä otannasta saatavia
tuloksia verrataan teoreettiseen malliin
teoreettisen mallin mukaan testissä testataan ns.
nollahypoteesia, jonka mukaan vaikutusta tai eroa ei
ole (vaihtoehtoinen hypoteesi olettaa, että eroa on)
Tilastolliset testit
yhteiskuntatieteissä yleisin merkitsevyystaso on 0,05 eli sallitaan 5 %:n riski sille, että teemme virheellisen
johtopäätöksen hylätessämme nollahypoteesin
Merkitsevyys ei merkitse merkittävyyttä (onko tulos
sisällöllisesti merkittävä, relevantti, tärkeä)
Testauksen terminologia
Muuttuja
Luottamusväli
Luottamus- /merkitsevyystaso
Nollahypoteesi, vastahypoteesi ja vaihtoehtoinen hypoteesi
(tutkimushypoteesi)
Testisuure
Vapausasteet
P-arvo
Tilastollinen päättely
Luottamusväli: kertoo, millä välillä todellinen
perusjoukon tunnusluvun arvo on tietyllä
todennäköisyydellä.
Luottamustaso: kertoo, millä todennäköisyydellä
perusjoukkoa kuvaava tunnusluku on tietyllä
luottamusvälillä.
Toisen tietäminen edellyttää toisen tietämistä.
Luottamustason kasvaessa laajenee myös luottamusväli.
Testauksen terminologia
P-arvo, merkitsevyystaso: valinta määrittää
todennäköisyyden sille, että tutkija hylkää
nollahypoteesin, vaikka se todellisuudessa on tosi
(riskitaso, virheellisen valinnan riski)
Yleensä yhteiskuntatieteissä 0.05 (eli 5 %), myös 0.01 )eli 1
% ja 0.01 (eli 0,1 %) tasot.
Jos käytetään 5 %:n riskitaso, saavutetaan tällä 95%:n
todennäköisyys sille, että tulos on tutkimuksen perusjoukossa
pätevä. Samalla virheen todennäköisyys on 5 %.
Testauksen terminologia
• P-arvo: tilastollisen testin tuloksena saadaan ns. p-arvo (probability), joka ilmoittaa virheellisen päätelmän todennäköisyyden
● p < .05 tulos tilastollisesti ‘melkein merkitsevä’
● p < .01 tulos tilastollisesti ‘merkitsevä’● p < .001 tulos tilastollisesti ‘erittäin
merkitsevä’
Testauksen terminologia
Nollahypoteesi H0 : useimmiten teoriasta johdetun
oletuksen vastainen hypoteesi (eroa tai yhteyttä ei ole)
Vastahypoteesi H1 : nollahypoteesin vastainen,
hyväksytään, jos tilastollisen testauksen avulla
nollahypoteesi pystytään kumoamaan
Testauksen vaiheet
Aseta nollahypoteesi ja vastahypoteesi
Valitse tilastollinen testi (useimmat menetelmät
sisältävät testit automaattisesti) ja tutkijan tehtäväksi
jää tulkita tulokset oikein
Valitse merkitsevyystaso
HUOM: tilastollisesti merkitsevä ei ole yhtä
kuin tutkimuksellisesti merkittävä
Tilastolliset testit jaetaan parametrisiin ja
parametrittomiin (ei-parametriset, epäparametriset)
testeihin sen mukaan, minkälaisia jakaumia testit
käyttävät.
Ei-parametrisillä testeillä ei ole jakaumaoletuksia.
Testit eivät ole kuitenkaan yhtä voimakkaita kuin
parametriset testit, minkä vuoksi kannattaa käyttää
parametrisiä testejä aina kun siihen on mahdollisuus.
Parametriset ja ei-parametriset testit
Parametriset ja ei-parametriset testit
Parametrisillä testeillä on jakaumaoletuksia
vähintään välimatka-asteikko
varianssien yhtä suuruus
jakaumien normaalisuus 5 %.
Parametrinen vs. parametriton
● Parametrinen
● Pearsonin tulomomentti-korrelaatio
● Riippumattomien otosten testi T-testi
● Yksisuuntainen varianssianalyysi (ANOVA)
● Toistomittaus MANOVA/ Riippuvien otosten T-testi
● Parametriton
● Spearmanin järjestyskorrelaatio
● Mann-Whitneyn U-testi
● Kruskal-Wallisin –testi
● Wilcoxonin testi