statistik 1 – lektion 1

30
Statistik 1 – Lektion 1 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Upload: halee-flores

Post on 02-Jan-2016

42 views

Category:

Documents


0 download

DESCRIPTION

Statistik 1 – Lektion 1. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Mål og indhold. Mål: Efter kurset skal de studerende forstå de mest brugte statistiske metoder, og selv kunne benytte disse metoder på planlægningsrelaterede problemstillinger. Indhold: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Statistik 1 – Lektion 1

Statistik 1 – Lektion 1

By, energi & miljø, forår 2010v. Morten Skou Nicolaisen

Page 2: Statistik 1 – Lektion 1

Mål og indhold

o Mål:Efter kurset skal de studerende forstå de mest brugte statistiske metoder, og selv kunne benytte disse metoder på planlægningsrelaterede problemstillinger.

o Indhold:• Fokus på metodernes egnethed til forskellige

analyseopgaver og på forudsætninger, der skal være opfyldt.

• Øvelser i praktisk brug af de forskellige analyseteknikker ved hjælp af et EDB-program (SPSS).

• Ikke fokus på metodernes matematiske grundlag.

Page 3: Statistik 1 – Lektion 1

Kursets temaer

o Generelt om kvantitative analyser/anvendt statistik. Hvilke typer problemstillinger egner statiske analyser sig til?

o Datamatricer og intro til SPSS.o Beregning af statistiske mål for middelværdi og

spredning.o Krydstabulering.o Forskellige teknikker for beregning af korrelation.o Lineær regression.o Logistisk regression.

Page 4: Statistik 1 – Lektion 1

Denne kursusgango Hvad kan vi bruge statistik til?o Kausalitet.o Datamatricer.o Måleniveau.o Centraltendens og spredning.o Omkodning.o Krydstabulering.o Intro (med øvelser) til statistikprogrammet SPSS, herunder

kodning og omkodning, beregning af statistiske mål, konstruktion af krydstabeller, sammenligning af gennemsnitsværdier samt analyser på udvalgte dele af datamaterialet.

Page 5: Statistik 1 – Lektion 1

Hvornår anvendes statistiko Bør ikke bruges til:

• Studier af plan- og beslutningsprocesser.• Studier af landskabsmæssige konsekvenser af nye veje eller

kraftledninger.• Indgående psykologisk forståelse af menneskers handlemønstre.

o Kan bruges til:• Undersøgelse af hvorvidt der er et flertal blandt en bys

indbyggere for at implementere et givet anlægsprojekt.• Sammenligning af forskellige befolkningsgruppers vægtning af

egenskaber ved boligmiljøet.• Studier af hvordan lokaliseringen af boliger i en by påvirker

transportomfanget.

Page 6: Statistik 1 – Lektion 1

To hovedtyper

o Deskriptiv• Hvordan ser vores data ud?• Den ”nemme” del af statistik.

o Analytisk (inferential)• Hvad kan vi sige ud fra de sammenhænge, som kan

observeres i vores data?• Den ”svære” del af statistik.

Page 7: Statistik 1 – Lektion 1

Kausaliteto Statistisk angiver tendenser, ikke naturlove (specielt

indenfor samfundsvidenskaberne).o En af de mest almindelige fejl ved brugen af statistik er at

konkludere en kausal sammenhæng hvor dette ikke er tilfældet.

o Eks: mængden af overtøj henover året er måske korreleret med mængden af blade på træerne, men det ville være uklogt at konkludere, at det ene fænomen forårsager det andet. Tænk jer om og brug jeres sunde fornuft, når i tolker statistisk data. Teori og praksis skal stemme overens.

o Statistik kan forklare hvordan tingene hænger sammen, men ikke hvorfor de hænger sådan sammen.

Page 8: Statistik 1 – Lektion 1

Datamatricen

ENHEDER VARIABLER Køn Uddannelse Indtægt

Person nr. 1 mand lav 210 000 Person nr. 2 kvinde høj 180 000 Person nr. 3 kvinde høj 260 000 Person nr. 4 mand høj 440 000 Person nr. 5 kvinde lav 130 000 Person nr. 6 mand lav 150 000

Page 9: Statistik 1 – Lektion 1

Hvad er en variabel?o En variabel er en egenskab, der kan variere mellem

forskellige enheder i vores data (en enhed/case vil typisk repræsentere en person).

o Eksempler på variable:• Køn• Alder• Holdning til økologi• Indkomst• Børn• Etnicitet• Afstand til arbejde

Page 10: Statistik 1 – Lektion 1

Variablernes måleniveauo Forskellige variable kan have forskellige måleniveauer.

Dette betyder, at forskellige deskriptive mål og analytiske teknikker egner sig til forskellige data.

o Man opdeler traditionelt i fire forskellige måleniveauer:• Nominal: kategorier (eks: stilling)• Ordinal: rangordnede kategorier (eks: holdning)• Interval: rangordnet skala (eks: temperatur mål i celsius)• Ratio: rangordnet skala med absolut nulpunkt (eks: højde)

o Nominal og ordinal er typisk diskret og kvalitativ.o Interval og ratio er typisk kontinuert og kvantitativ.o SPSS betragter interval og ratio som ét måleniveau.

Page 11: Statistik 1 – Lektion 1

Centraltendens og spredning

o Centraltendens• Modus (mode)• Median• Gennemsnit (mean)

o Spredning• Variationsbredde• Kvartilafvigelse• Standardafvigelse (std. deviation)

Page 12: Statistik 1 – Lektion 1

Modus

o Modus (typetallet) er blot den hyppigst forekommende værdi i en fordeling.

o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6

o Modus vil her være 4.

Page 13: Statistik 1 – Lektion 1

Median

o Medianen er den midterste værdi i en ordnet liste af observationer.

o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6

o Medianen vil her være 3,5.

Page 14: Statistik 1 – Lektion 1

Gennemsnit

o Det (aritmetiske) gennemsnit er det mest benyttede mål for centraltendens.

o

o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6

o Gennemsnittet vil her være 3,25.

n

YYYY n

21

Page 15: Statistik 1 – Lektion 1

En tommelfingerregel

Nominal OrdinalInterval

eller ratio

Modus

Median

Gennemsnit

Som alle regler kan denne bøjes lidt efter behov, men pas på med det og tænk over om det giver mening før i kaster jer ud i det. Lemfældig omgang med statistiske mål fører ofte til grov manipulation af resultater, om det så er intentionelt eller ej.

Page 16: Statistik 1 – Lektion 1

Variationsbredde og kvartilafstand

38. M ennesker i r i ge l ande burde bet al e en ekst raskat f or at hj æ l pe f at t i ge l ande

293 16, 1 17, 1 17, 1

416 22, 8 24, 3 41, 3

282 15, 5 16, 4 57, 8

272 14, 9 15, 9 73, 6

452 24, 8 26, 4 100, 0

1715 94, 1 100, 0

83 4, 6

25 1, 4

108 5, 9

1823 100, 0

1. Helt enig

2. Delvis enig

3. Hver ken enig eller uenig

4. Delvis uenig

5. Helt uenig

Tot al

Valid

8. Uoplyst

9. Ved ikke

Tot al

M issing

Tot al

Fr equency Per cent Valid Per centCum ulat ivePer cent

Variationsbredden: 5 - 1 = 4 Kvartilafstand: 5 - 2 = 3

Page 17: Statistik 1 – Lektion 1

Standardafvigelse

o Standardafvigelsen er det mest benyttede mål for en fordelings spredning.

o

o 95% af observationerne ligger mellem ± 1,96 std.afv. fra gennemsnittet/middelværdien.

o Standardafvigelsen må ikke forveksles med standard fejl (S.E. mean). Matematisk er de beslægtede, men de udtaler sig om helt forskellige egenskaber ved en fordeling.

1

)( 22

n

YYs i

Page 18: Statistik 1 – Lektion 1
Page 19: Statistik 1 – Lektion 1

Omkodning

o Omkodning benyttes til at omskrive en variabel til en anden variabel, muligvis med et nyt måleniveau.

o Det kan f.eks. bruges til at reducere et stort antal kategorier til et mere overskueligt sæt eller til at inddele intervalvariable i kategorier.

o Eks: man skelner ofte mellem børn, unge, voksne og ældre i stedet for at bruge deres specifikke alder som variabel.

Page 20: Statistik 1 – Lektion 1

Krydstabulering

o Bruges til at danne sig et overblik over evt. sammenhæng mellem to variable.

o Hurtigt at udføre og nemt at forstå.o Kan bruges på alle måleniveauer, da alle variable

betragtes som nominale.

Page 21: Statistik 1 – Lektion 1

Eksempel 1

o Datafilen ”Hovedstadsområdet med udvalgte variabler 2” benyttes.

o SPSS bruges til at finde minimum, maksimum, median, gennemsnit og standardafvigelse for variablerne alder og bilhverd.

o Hvad kan vi se ud fra disse tal?

Page 22: Statistik 1 – Lektion 1

Opgave 1

o Datafilen ”Hovedstadsområdet …” benyttes.o Undersøg om der er fejlindtastninger for følgende

variable: koen, alder, bilkort, bilant1.o Korriger evt. fejl i data.

Page 23: Statistik 1 – Lektion 1

Eksempel 2

o Datafilen ”Hovedstadsområdet …” benyttes.o SPSS bruges til at undersøge en evt.

sammenhæng mellem respondenternes køn (koen) og hvorvidt de har kørekort (bilkkort) vha. krydstabulering.

o Hvad kan vi se ud fra disse tal?

Page 24: Statistik 1 – Lektion 1

Eksempel 3

o Datafilen ”Hovedstadsområdet …” benyttes.o Variablen bilafh udtrykker hvor afhængige

respondenterne føler sig af at have en bil til rådighed, for at få deres hverdagsaktiviteter til at hænge sammen. Den har tre værdier: 1 (i høj grad), 2 (i nogen grad) og 3 (slet ikke).

o Omkod denne variabel til en ny variabel, bilafh2, der ikke skelner mellem folk med lav bilafhængighed og slet ingen bilafhænghed.

o Funktionen transform>recode benyttes.

Page 25: Statistik 1 – Lektion 1

Opgave 2o Datafilen ”Hovedstadsområdet …” benyttes.o Brug transform>recode til at omkode respondenternes alder til

en ny variabel (alder2) med to værdier: høj alder (1) og lav alder (0). Lad skellet mellem høj og lav alder gå ved medianværdien, sådan at respondenter med alder lig med medianværdien kommer i den højeste alderskategori.

o Lav en tilsvarende omkodning af respondenternes rejselængde med bil på hverdage (bilhverd) til en ny variabel (bilhver2), hvor medianværdien og højere værdier kodes 1, og værdier under medianen kodes 0.

o Udfør en enkel krydstabulering mellem alder2 og bilhver2. Er der nogen sammenhæng mellem alder og bilkørsel?

Page 26: Statistik 1 – Lektion 1

Eksempel 4

o Datafilen ”Hovedstadsområdet …” benyttes.o Omkod indtægtsvariablen persindt til en ny variabel,

persindt2, hvor indtægten skal angives i kroneværdier (i tusinder). Brug hver gruppes gennemsnitlige indkomst (værdierne findes i spørgeskemaet).

o Hvordan varierer det gennemsnitlige indtægtsniveau (persindt2) blandt erhvervsaktive personer (jf. variablen erhvakt) mellem:• yngre og ældre (alder2)• mænd og kvinder (koen)

Page 27: Statistik 1 – Lektion 1

Opgave 3

o Datafilen ”Hovedstadsområdet …” benyttes.o Gennemsnitlig personlig indtægt (persindt2)

blandt erhvervsaktive (erhvakt) respondenter i alderen 20-66 år (alder) skal beregnes for hvert af de 29 undersøgte boligområder (omraad).

o Ser der ud til at være en sammenhæng mellem boligområder og indkomst? Hvis ja, hvordan tolker i så denne sammenhæng rent intuitivt?

Page 28: Statistik 1 – Lektion 1

Eksempel 5

o Datafilen ”Hovedstadsområdet …” benyttes.o Der skal laves en grafisk fremstilling af, hvordan

andelen med kørekort for bil (bilkkort) varierer mellem respondenter tilhørende den høje og den lave aldersgruppe (alder2). Der skal alene ses på respondenter på 18 år og derover.

o Derefter skal der laves en grafisk fremstilling af, hvordan andelen med kørekort til bil (bilkkort) varierer mellem kvindelige og mandlige respondenter (koen) inden for hver af de to aldersgrupper. Igen ses der alene på respondenter på 18 år og derover.

Page 29: Statistik 1 – Lektion 1

Opgave 4

o Datafilen ”Hovedstadsomraadet …” benyttes. Igen kun respondenter på 18+ år.

o Lav en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem respondenter bosat i forskellige afstandsbælter fra Københavns centrum (afskat4).

o Lav dernæst en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem erhvervsaktive og ikke-erhvervsaktive respondenter (erhvakt) indenfor hvert af disse afstandsbælter.

Page 30: Statistik 1 – Lektion 1

Opgave 5

o Datafilen ”NAMIT” benyttes.o Er kvinder mere villige end mænd til at prioritere

økonomisk vækst foran miljøhensyn? Benyt variablerne v47 (køn) og v35 (vækst versus miljø).