statistik 1 – lektion 1
DESCRIPTION
Statistik 1 – Lektion 1. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Mål og indhold. Mål: Efter kurset skal de studerende forstå de mest brugte statistiske metoder, og selv kunne benytte disse metoder på planlægningsrelaterede problemstillinger. Indhold: - PowerPoint PPT PresentationTRANSCRIPT
Statistik 1 – Lektion 1
By, energi & miljø, forår 2010v. Morten Skou Nicolaisen
Mål og indhold
o Mål:Efter kurset skal de studerende forstå de mest brugte statistiske metoder, og selv kunne benytte disse metoder på planlægningsrelaterede problemstillinger.
o Indhold:• Fokus på metodernes egnethed til forskellige
analyseopgaver og på forudsætninger, der skal være opfyldt.
• Øvelser i praktisk brug af de forskellige analyseteknikker ved hjælp af et EDB-program (SPSS).
• Ikke fokus på metodernes matematiske grundlag.
Kursets temaer
o Generelt om kvantitative analyser/anvendt statistik. Hvilke typer problemstillinger egner statiske analyser sig til?
o Datamatricer og intro til SPSS.o Beregning af statistiske mål for middelværdi og
spredning.o Krydstabulering.o Forskellige teknikker for beregning af korrelation.o Lineær regression.o Logistisk regression.
Denne kursusgango Hvad kan vi bruge statistik til?o Kausalitet.o Datamatricer.o Måleniveau.o Centraltendens og spredning.o Omkodning.o Krydstabulering.o Intro (med øvelser) til statistikprogrammet SPSS, herunder
kodning og omkodning, beregning af statistiske mål, konstruktion af krydstabeller, sammenligning af gennemsnitsværdier samt analyser på udvalgte dele af datamaterialet.
Hvornår anvendes statistiko Bør ikke bruges til:
• Studier af plan- og beslutningsprocesser.• Studier af landskabsmæssige konsekvenser af nye veje eller
kraftledninger.• Indgående psykologisk forståelse af menneskers handlemønstre.
o Kan bruges til:• Undersøgelse af hvorvidt der er et flertal blandt en bys
indbyggere for at implementere et givet anlægsprojekt.• Sammenligning af forskellige befolkningsgruppers vægtning af
egenskaber ved boligmiljøet.• Studier af hvordan lokaliseringen af boliger i en by påvirker
transportomfanget.
To hovedtyper
o Deskriptiv• Hvordan ser vores data ud?• Den ”nemme” del af statistik.
o Analytisk (inferential)• Hvad kan vi sige ud fra de sammenhænge, som kan
observeres i vores data?• Den ”svære” del af statistik.
Kausaliteto Statistisk angiver tendenser, ikke naturlove (specielt
indenfor samfundsvidenskaberne).o En af de mest almindelige fejl ved brugen af statistik er at
konkludere en kausal sammenhæng hvor dette ikke er tilfældet.
o Eks: mængden af overtøj henover året er måske korreleret med mængden af blade på træerne, men det ville være uklogt at konkludere, at det ene fænomen forårsager det andet. Tænk jer om og brug jeres sunde fornuft, når i tolker statistisk data. Teori og praksis skal stemme overens.
o Statistik kan forklare hvordan tingene hænger sammen, men ikke hvorfor de hænger sådan sammen.
Datamatricen
ENHEDER VARIABLER Køn Uddannelse Indtægt
Person nr. 1 mand lav 210 000 Person nr. 2 kvinde høj 180 000 Person nr. 3 kvinde høj 260 000 Person nr. 4 mand høj 440 000 Person nr. 5 kvinde lav 130 000 Person nr. 6 mand lav 150 000
Hvad er en variabel?o En variabel er en egenskab, der kan variere mellem
forskellige enheder i vores data (en enhed/case vil typisk repræsentere en person).
o Eksempler på variable:• Køn• Alder• Holdning til økologi• Indkomst• Børn• Etnicitet• Afstand til arbejde
Variablernes måleniveauo Forskellige variable kan have forskellige måleniveauer.
Dette betyder, at forskellige deskriptive mål og analytiske teknikker egner sig til forskellige data.
o Man opdeler traditionelt i fire forskellige måleniveauer:• Nominal: kategorier (eks: stilling)• Ordinal: rangordnede kategorier (eks: holdning)• Interval: rangordnet skala (eks: temperatur mål i celsius)• Ratio: rangordnet skala med absolut nulpunkt (eks: højde)
o Nominal og ordinal er typisk diskret og kvalitativ.o Interval og ratio er typisk kontinuert og kvantitativ.o SPSS betragter interval og ratio som ét måleniveau.
Centraltendens og spredning
o Centraltendens• Modus (mode)• Median• Gennemsnit (mean)
o Spredning• Variationsbredde• Kvartilafvigelse• Standardafvigelse (std. deviation)
Modus
o Modus (typetallet) er blot den hyppigst forekommende værdi i en fordeling.
o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6
o Modus vil her være 4.
Median
o Medianen er den midterste værdi i en ordnet liste af observationer.
o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6
o Medianen vil her være 3,5.
Gennemsnit
o Det (aritmetiske) gennemsnit er det mest benyttede mål for centraltendens.
o
o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6
o Gennemsnittet vil her være 3,25.
n
YYYY n
21
En tommelfingerregel
Nominal OrdinalInterval
eller ratio
Modus
Median
Gennemsnit
Som alle regler kan denne bøjes lidt efter behov, men pas på med det og tænk over om det giver mening før i kaster jer ud i det. Lemfældig omgang med statistiske mål fører ofte til grov manipulation af resultater, om det så er intentionelt eller ej.
Variationsbredde og kvartilafstand
38. M ennesker i r i ge l ande burde bet al e en ekst raskat f or at hj æ l pe f at t i ge l ande
293 16, 1 17, 1 17, 1
416 22, 8 24, 3 41, 3
282 15, 5 16, 4 57, 8
272 14, 9 15, 9 73, 6
452 24, 8 26, 4 100, 0
1715 94, 1 100, 0
83 4, 6
25 1, 4
108 5, 9
1823 100, 0
1. Helt enig
2. Delvis enig
3. Hver ken enig eller uenig
4. Delvis uenig
5. Helt uenig
Tot al
Valid
8. Uoplyst
9. Ved ikke
Tot al
M issing
Tot al
Fr equency Per cent Valid Per centCum ulat ivePer cent
Variationsbredden: 5 - 1 = 4 Kvartilafstand: 5 - 2 = 3
Standardafvigelse
o Standardafvigelsen er det mest benyttede mål for en fordelings spredning.
o
o 95% af observationerne ligger mellem ± 1,96 std.afv. fra gennemsnittet/middelværdien.
o Standardafvigelsen må ikke forveksles med standard fejl (S.E. mean). Matematisk er de beslægtede, men de udtaler sig om helt forskellige egenskaber ved en fordeling.
1
)( 22
n
YYs i
Omkodning
o Omkodning benyttes til at omskrive en variabel til en anden variabel, muligvis med et nyt måleniveau.
o Det kan f.eks. bruges til at reducere et stort antal kategorier til et mere overskueligt sæt eller til at inddele intervalvariable i kategorier.
o Eks: man skelner ofte mellem børn, unge, voksne og ældre i stedet for at bruge deres specifikke alder som variabel.
Krydstabulering
o Bruges til at danne sig et overblik over evt. sammenhæng mellem to variable.
o Hurtigt at udføre og nemt at forstå.o Kan bruges på alle måleniveauer, da alle variable
betragtes som nominale.
Eksempel 1
o Datafilen ”Hovedstadsområdet med udvalgte variabler 2” benyttes.
o SPSS bruges til at finde minimum, maksimum, median, gennemsnit og standardafvigelse for variablerne alder og bilhverd.
o Hvad kan vi se ud fra disse tal?
Opgave 1
o Datafilen ”Hovedstadsområdet …” benyttes.o Undersøg om der er fejlindtastninger for følgende
variable: koen, alder, bilkort, bilant1.o Korriger evt. fejl i data.
Eksempel 2
o Datafilen ”Hovedstadsområdet …” benyttes.o SPSS bruges til at undersøge en evt.
sammenhæng mellem respondenternes køn (koen) og hvorvidt de har kørekort (bilkkort) vha. krydstabulering.
o Hvad kan vi se ud fra disse tal?
Eksempel 3
o Datafilen ”Hovedstadsområdet …” benyttes.o Variablen bilafh udtrykker hvor afhængige
respondenterne føler sig af at have en bil til rådighed, for at få deres hverdagsaktiviteter til at hænge sammen. Den har tre værdier: 1 (i høj grad), 2 (i nogen grad) og 3 (slet ikke).
o Omkod denne variabel til en ny variabel, bilafh2, der ikke skelner mellem folk med lav bilafhængighed og slet ingen bilafhænghed.
o Funktionen transform>recode benyttes.
Opgave 2o Datafilen ”Hovedstadsområdet …” benyttes.o Brug transform>recode til at omkode respondenternes alder til
en ny variabel (alder2) med to værdier: høj alder (1) og lav alder (0). Lad skellet mellem høj og lav alder gå ved medianværdien, sådan at respondenter med alder lig med medianværdien kommer i den højeste alderskategori.
o Lav en tilsvarende omkodning af respondenternes rejselængde med bil på hverdage (bilhverd) til en ny variabel (bilhver2), hvor medianværdien og højere værdier kodes 1, og værdier under medianen kodes 0.
o Udfør en enkel krydstabulering mellem alder2 og bilhver2. Er der nogen sammenhæng mellem alder og bilkørsel?
Eksempel 4
o Datafilen ”Hovedstadsområdet …” benyttes.o Omkod indtægtsvariablen persindt til en ny variabel,
persindt2, hvor indtægten skal angives i kroneværdier (i tusinder). Brug hver gruppes gennemsnitlige indkomst (værdierne findes i spørgeskemaet).
o Hvordan varierer det gennemsnitlige indtægtsniveau (persindt2) blandt erhvervsaktive personer (jf. variablen erhvakt) mellem:• yngre og ældre (alder2)• mænd og kvinder (koen)
Opgave 3
o Datafilen ”Hovedstadsområdet …” benyttes.o Gennemsnitlig personlig indtægt (persindt2)
blandt erhvervsaktive (erhvakt) respondenter i alderen 20-66 år (alder) skal beregnes for hvert af de 29 undersøgte boligområder (omraad).
o Ser der ud til at være en sammenhæng mellem boligområder og indkomst? Hvis ja, hvordan tolker i så denne sammenhæng rent intuitivt?
Eksempel 5
o Datafilen ”Hovedstadsområdet …” benyttes.o Der skal laves en grafisk fremstilling af, hvordan
andelen med kørekort for bil (bilkkort) varierer mellem respondenter tilhørende den høje og den lave aldersgruppe (alder2). Der skal alene ses på respondenter på 18 år og derover.
o Derefter skal der laves en grafisk fremstilling af, hvordan andelen med kørekort til bil (bilkkort) varierer mellem kvindelige og mandlige respondenter (koen) inden for hver af de to aldersgrupper. Igen ses der alene på respondenter på 18 år og derover.
Opgave 4
o Datafilen ”Hovedstadsomraadet …” benyttes. Igen kun respondenter på 18+ år.
o Lav en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem respondenter bosat i forskellige afstandsbælter fra Københavns centrum (afskat4).
o Lav dernæst en grafisk fremstilling af, hvordan andelen med lang rejselængde med bil på hverdage (bilhverd2) varierer mellem erhvervsaktive og ikke-erhvervsaktive respondenter (erhvakt) indenfor hvert af disse afstandsbælter.
Opgave 5
o Datafilen ”NAMIT” benyttes.o Er kvinder mere villige end mænd til at prioritere
økonomisk vækst foran miljøhensyn? Benyt variablerne v47 (køn) og v35 (vækst versus miljø).