bortfalls-kartläggning i abis-studien371716/fulltext01.pdf · som underlag arbetar vi med de data...
TRANSCRIPT
Magisteruppsats i statistik
Bortfalls-kartlggning
i ABIS-studien
-ur ett sociodemografiskt perspektiv
Victoria Fomichov
Magisteruppsats i statistik
Bortfalls-kartlggning i ABIS-studien
-ur ett sociodemografiskt perspektiv
Victoria Fomichov
Upphovsrtt
Detta dokument hlls tillgngligt p Internet eller dess framtida ersttare frn
publiceringsdatum under frutsttning att inga extraordinra omstndigheter uppstr.
Tillgng till dokumentet innebr tillstnd fr var och en att lsa, ladda ner, skriva ut
enstaka kopior fr enskilt bruk och att anvnda det ofrndrat fr ickekommersiell
forskning och fr undervisning. verfring av upphovsrtten vid en senare tidpunkt kan
inte upphva detta tillstnd. All annan anvndning av dokumentet krver
upphovsmannens medgivande. Fr att garantera ktheten, skerheten och
tillgngligheten finns lsningar av teknisk och administrativ art.
Upphovsmannens ideella rtt innefattar rtt att bli nmnd som upphovsman i den
omfattning som god sed krver vid anvndning av dokumentet p ovan beskrivna stt
samt skydd mot att dokumentet ndras eller presenteras i sdan form eller i sdant
sammanhang som r krnkande fr upphovsmannens litterra eller konstnrliga
anseende eller egenart.
Fr ytterligare information om Linkping University Electronic Press se frlagets
hemsida http://www.ep.liu.se/
Copyright
The publishers will keep this document online on the Internet or its possible
replacement from the date of publication barring exceptional circumstances.
The online availability of the document implies permanent permission for anyone to
read, to download, or to print out single copies for his/hers own use and to use it
unchanged for non-commercial research and educational purpose. Subsequent transfers
of copyright cannot revoke this permission. All other uses of the document are
conditional upon the consent of the copyright owner. The publisher has taken technical
and administrative measures to assure authenticity, security and accessibility.
According to intellectual property law the author has the right to be mentioned when
his/her work is accessed as described above and to be protected against infringement.
For additional information about the Linkping University Electronic Press and its
procedures for publication and for assurance of document integrity, please refer to its
www home page: http://www.ep.liu.se/.
Victoria Fomichov
http://www.ep.liu.se/http://www.ep.liu.se/
Till Edgardo, Clara och Simn. Tack fr krleken och styrkan ni ger mig.
L.Q.M.
Sammanfattning
r 1997 pbrjades ett vrldsunikt projekt, ABIS-studien (Alla Barn i Sydstra
Sverige) p Hlsouniversitetet i Linkping (Linkpings Universitet). Av alla barn
som fddes under perioden 1 oktober 1997 till 1 oktober 1999 i Blekinge,
Smland, land och stergtland har ca 17 000 fljts med jmna mellanrum
ver ren: barnets fdelse, ettrsuppfljning, 2-3-rsuppfljning,
5-6-rsuppfljning samt ttarsuppfljning.
Barnen/familjerna har infr varje moment i studien lmnat in
biologiska prover och svarat p frgeformulr. Frgeformulren innehller frgor
av varierade typ och denna uppsats tar hnsyn till de sociodemografiska
variablerna samt de variabler som anvndes fr att mta stress hos frldrarna
och i vissa fall barnen.
Genom ren har antalet frgeformulr som fyllts i minskat kraftigt
frn 16051 till 4030 i ttarsuppfljningen. Med hjlp av den hr uppsatsen vill
vi underska om bortfallgruppen har speciella knnetecken och om orsaken till
bortfall kan frklaras. Som underlag arbetar vi med de data som registreras
genom frgeformulren med startpunkt i fdelseformulret, dr alla som svarat
antas vara populationen och de som drefter frsvinner infr kommande
uppfljningar r bortfall.
Fr att kunna angripa problemet har multidimensionell skalning,
klusteranalys och logistisk regression anvnts. Ingen av metoderna resulterade i
att vi kunde srskilja observationer i tv olika grupper som verensstmde med
grupperna svarande och bortfall. Drfr kan vi inte heller beskriva eller frklara
bortfallet utifrn de variabler som valdes, mot sociodemografiska variabler och
stressvariabler.
Abstract
In 1997 began a unique project, the ABIS study (All Babies in Southeast Sweden)
at the Faculty of Health Sciences in Linkping (Linkping University). Of all
babies born during the period 1 October 1997-1 October 1999 in the counties
Blekinge, Smland, land and stergtland have about 17 000 been followed-up
at regular intervals over the years: at birth, after one-year, after 2-3 years, after
5-6 years and after eight years.
Children/families have for each moment in the study submitted
biological samples and responded to questionnaires. The questionnaires contain
questions of varying types; this paper takes into account the socio-demographic
variables and the variables that were used to "measure" stress with the parents
and to some extent with the children.
Through the years the number of participants declined sharply from
16 051 filling out the first questionnaire to 4030 at the eight-year follow-up. With
this essay we will investigate if the nonresponse group has specific
characteristics and if the cause of the nonresponse can be explained. As a basis
we work with the data recorded by the questionnaires, with starting point at the
birth in which all who responded are assumed to be the population and then the
ones who leave the study into the next follow-ups constitute the nonresponse
group.
In order to tackle the problem, multidimensional scaling, cluster
analysis, and logistic regression have been used. None of the methods however
made it possible distinguish observations in two different groups that correspond
with the groups of respondents and dropouts. Therefore, we cannot describe or
explain the nonresponse from the variables that have been chosen, i.e. socio-
demographic and stress variables.
Frord
Den hr magisteruppsatsen r hjdpunkten av en lng tid av studier inte enbart
inom statistik och dataanalys utan ven allt innan dess som sammanlagt har
format mig som blivande statistiker och framfrallt som den mnniskan jag
blivit.
Mnga har fljt och hjlp mig under processen, speciellt min
handledare, Anders Nordgaard som guidat och sttt mig vid varje lilla steg.
Likas Maria Nygren (fr ABIS-studien) som gav mig detta spnnande uppdrag
och alltid var dr nr jag behvde f svar p mina frgor. ven mste jag nmna
minna lrare och klasskamrater som fljde med alla dessa r p Linkpings
Universitet.
Stor tack till alla.
Victoria Fomichov Linkping, juni 2010
Innehllfrteckning 1. Inledning ............................................................................................................................. 1
1.1 Bakgrund ...................................................................................................... 1
1.2 Problembeskrivning ..................................................................................... 2
1.3 Syfte .............................................................................................................. 3
1.4 Syftesavgrnsning ....................................................................................... 3
1.5 Frgestllningar .............................................................................................. 4
2. Materialbeskrivning ........................................................................................................... 5
2.1 Frberedelser av datamaterialet .................................................................... 5
2.1 Variablerna ...................................................................................................... 6
2.3 Datamaterialets kvalitet ............................................................................... 11
3. Metod ................................................................................................................................. 12
3.1 Multidimensionell skalning (MDS) ............................................................... 14
3.2 Klusteranalys ................................................................................................. 16
3.3 Logistiskregression ........................................................................................ 17
3.4 Jmfrelser per variabel ............................................................................... 20
3.5 Program ......................................................................................................... 21
4. Etapp 1 Fdelseformulret ............................................................................................ 22
4.1 Frgor och variabler ...................................................................................... 22
4.2 Resultat och analys ....................................................................................... 25
4.3 Etapp 1 Sammanfattning ........................................................................... 51
5. Etapp 2 - Ettrsformulret .............................................................................................. 52
5.1 Frgor och variabler ...................................................................................... 52
5.2 Resultat och analys ....................................................................................... 53
5.3 Etapp 2 - Sammanfattning ............................................................................ 69
6. Etapp 3 2-3-rsformulret ............................................................................................. 70
6.1 Frgor och variabler ...................................................................................... 70
6.2 Resultat och analys ....................................................................................... 71
6.3 Etapp 3 - Sammanfattning ............................................................................ 89
7. Etapp 4 56-rsformulret ............................................................................................ 90
7.1 Frgor och variabler ...................................................................................... 90
7.2 Resultat och analys ....................................................................................... 91
7.3 Etapp 4 - Sammanfattning - Etapp 4 ......................................................... 107
8. Etapp 5 - Fdelseformulret .......................................................................................... 108
8.1 Resultat och analys ..................................................................................... 108
8.2 Etapp 5 - Sammanfattning .......................................................................... 114
9. Slutsatser och diskussion ............................................................................................... 115
Referenser ........................................................................................................................... 118
Bilaga 1. Etapp 1 Frgeformulret ................................................................ 119
Bilaga 2. Etapp 1 SAS kod med variabel-transformationer ......................... 125
Bilaga 3. Etapp 1 Variabler namn och kategorier ........................................ 132
Bilaga 4. Korrelationsmatriser fr alla etapper ............................................... 133
Bilaga 5. Etapp 1 - Regressionsmodell ............................................................. 134
Bilaga 6. Etapp 2 Regressionsmodell ............................................................ 135
Bilaga 7. Etapp 3 Regressionsmodell ............................................................ 136
Bilaga 8. Etapp 4 Regressionsmodell ............................................................ 137
Bilaga 9. Etapp 5 Regressionsmodell ............................................................ 138
Inledning
1
1. Inledning
1.1 Bakgrund Sverige r ett land som brukar ligga i vrldstoppen nr det gller positiva
aspekter. Tyvrr finns ven Sverige med i topplistorna nr det gller antalet
barn som drabbas av diabetes, celiaki (glutenintolerans), allergi m.m. . Vilka
faktorer gr att s mnga drabbas? Kan man frutse vilka som insjuknar? Kan
man lra sig hur sjukdomar som till exempel cancer, leukemi och
ledgngsreumatism uppkommer?
Med alla dessa frgor och mnga fler att besvara pbrjades 1997 ett
unikt projekt som kallas ABIS-studien (Alla Barn i Sydstra Sverige). Av de
21700 barn som fddes under perioden 1 oktober 1997 till 1 oktober 1999 i
Blekinge, Smland, land och stergtland har ca. 17 000 fljts med jmna
mellanrum ver ren. Detta projekt initierades och drivs av professor Johnny
Ludvigsson p avdelningen fr pediatrik vid Hlsouniversitetet i Linkping
(Linkpings Universitet).
Informationen har samlats med hjlp av olika provtagningar (t.ex.
blodprov) och frgeformulr. Dessa frgeformulr har varierat ngot under ren
men i stora drag r de lika. De innehller frgor av varierade typ, det frgas om
saker ssom matvanor, hlsostillstnd, levnadsfrhllanden samt om olika
sociodemografiska frhllanden. Det finns ocks med olika frgor som hjlper att
mta stressnivn hos barnets frldrar.
Frgeformulren har varit de fljande: A vid fdelsen, 117 frgor. B vid ettrsuppfljningen, 150 frgor. C vid 2-3-rsuppfljningen, 196 frgor. E vid 5-6-rsuppfljningen, 180 frgor. F vid ttarsuppfljningen fr frldrarna, 141 frgor. FG vid ttarsuppfljningen fr barnen, 35 frgor.
Inledning
2
Just nu1 pgr 10-12-rsuppfljningen som r en del av den andra
etappen av studien. Den hr etappen planeras pg fram till 2017.
Studien har redan brjat ge frukt. Experterna har funnit flera faktorer som r frknippade med utveckling av s kallade autoantikroppar (som oftast fregr utveckling av diabetes): virusinfektioner tidigt i livet, introduktion av komjlk och gluten under en viss tidsperiod under spdbarnsret, samt vissa faktorer som normalt frknippas med ldersdiabetes (t.ex. svr stress). (ABIS-studien.se, 2010).
1.2 Problembeskrivning Som man kan frvnta sig s har en sdan hr vergripande studie vissa
problem som r enkla att frutse men svra att undvika. Det strsta problemet
som sjlvklart ven ABIS har drabbats av r bortfallet. Med detta menas att vid
varje tidpunkt av studien har ett betydelsefullt antal familjer inte svarat p
frgeformulren eller lmnat de prover som studien krvt. Med detta fljer
troligen en frlust av information.
Fr denna rapport kommer problemet att begrnsas till bortfallet i
frgeformulren. Studien hade 16051 svarande i sin frsta fas nr frgeformulr
A delades ut i samband med barnets fdelse. Antal deltagande har minskat vid
varje nytt moment, se Tabell 1.1. Dock finns det vissa barn/familjer som varit
med vid flera tillfllen och ngra som varit med konsekutivt vid alla tillfllen.
Tabell 1.1 - Antal observationer i ursprungliga data Antal deltagande per moment
Fdelsen 16051 Ettrsuppfljningen 11095 2-3-rsuppfljningen 8895 5-6-rsuppfljningen 7445 ttarsuppfljningen 4030
1 r 2009-2010
Inledning
3
Det hr betydande bortfallet kan ha pverkan p resultaten och
slutsatserna som forskarna fr ur studien om det r s att det finns ett visst
mnster. Med mnster menas att bortfallsgruppen kanske har egenskaper som
skiljer sig frn de som finns kvar i studien och d gr man miste om mjligheten
att studera just barn med sdana egenskaper. Sedan finns det andra mer
ofrutsgbara konsekvenser som bortfallet kan ge, kanhnda att populationen
verkar frndras med tiden nr det egentligen det r en biverkning av
minskningen av respondenter med specifika knnetecken.
Orsakerna till bortfallet kan vara mnga. Ett antal olika faktorer
kan bidra till det, mnga gr inte att frutse och inte ens studera. Sdana fall
kan t.ex. vara att en familj aldrig fick frgeformulret eller det blev besvarat
men frsvann i posthanteringen.
D vi har att gra med ett stort datamaterial som innehller mnga
frgor (variabler) r det ndvndigt att anvnda statistiska metoder som p ett
sytematiskt stt kan hitta speciella egenskaper i gruppen av de som inte svarat
frgeformulren.
1.3 Syfte Syftet med denna studie r att utreda om det successiva bortfallet i ABIS-studien
kan frklaras utifrn de karaktristiska hos respondenterna som har mtts via
det sista frgeformulret som de fyllde i.
1.4 Syftesavgrnsning De frgeformulr som anvnts i ABIS-studien innehller, som vi sagt tidigare, en
mngd olika frgor som tcker olika aspekter av barnen/familjen. Infr de
kommande analyserna ska vi begrnsa oss till frgor som beskriver
sociodemografiska drag. Dessutom ska frgor som ABIS-studiens forskare
anvnt fr att mtta stress hos frldrarna och i vissa moment ven barnen,
Inledning
4
underskas. Vi anser att stress direkt eller indirekt kan ha att gra med
sociodemografisk status och drfr ven bortfallet.
1.5 Frgestllningar Skiljer sig grupperna av de som stannade kvar i studien och de som inte
lngre deltar?
Finns det skillnader i egenskaper mellan bortfallsgrupperna i olika
moment av studien?
Kan man hitta ngon frklaring till bortfallet utifrn de sociodemografiska
aspekterna av barnen/familjen?
Frloras det specifik information p grund av minskningen i antalet
deltagare?
Materialbeskrivning
5
2. Materialbeskrivning
2.1 Frberedelser av datamaterialet Nr man via en underskning samlar in data s finns alltid behovet att gra en
stdning av materialet innan man kan brja med analyserna. Detta antyder
inte p ngot stt att man ska manipulera fakta, utan frbereda data s att den
r lmplig fr att kunna gra statistik analys av den.
Vi brjade med att ta bort information om de barn som inte fddes
enligt det inklusions-kriterium som sattes upp frn brjan av studien, mot barn
som fddes utanfr tidsramen frn oktober 1997 till oktober 1999 ska inte finnas
med i analyserna.
I det ursprungliga datamaterialet var det 16427 barn som varit med i
alla eller ngra av studiens moment och av dessa var det 167 som inte fddes
under den rtta tidpunkten. Vi kommer drfr i denna studie att anvnda de
resterande 16260 barnen som vr kohort2. I Tabell 2.1 kan vi se hur antalet barn
blev per moment efter eliminering utifrn inklusions-kriteriet.
Tabell 2.1- Antal deltagande efter eliminering utifrn inklusions-kriteriet
Antal deltagande per moment Fdelsen 15948 Ettrsuppfljningen 11016 2-3-rsuppfljningen 8812 5-6-rsuppfljningen 7401 ttarsuppfljningen 4009
Skillnaden mellan ett moment och det kommande r inte
ndvndigtvis antalet som kommer att betraktas som bortfall, detta eftersom det
finns vissa som var med i ett moment men inte var det i det fregende
momentet. 2 I demografin (befolkningslran), en grupp som har sitt ursprung i en viss period eller som d hade en viss egenskap gemensamt [] Nr en kohort vl definieras fljs den upp statistiks (Vejde & Leander, 2000, sida 127).
Materialbeskrivning
6
Den nya variabeln grupp markerar de som anses vara i gruppen bortfall med en etta och resten med en nolla. I Tabell 2.2 kan vi se antal barn/familjer i varje uppfljning som inte svarande p nstkommande formulr.
Tabell 2.2 - Antal (och andel) barn/familjer i bortfalls gruppen
Antal (och andel) i gruppen "bortfall" Fdelsen 5132 32.18% Ettrsuppfljningen 3505 31.82% 2-3-rsuppfljningen 2671 30.31% 5-6-rsuppfljningen 4442 60.02% ttarsuppfljningen * *
Som vi kan se ovan s r antalet som inte svarar frn tillfllen till tillflle
avsevrt och de 4442 som svarade vid 5-6-rsuppfljningen men inte svarade vid
nsta, utgr drygt 60 %. Notera att vid ttarsuppfljningen s kan vi inte
markera ngot bortfall, eftersom vi inte har information om hur mnga som inte
kommer att svara vid nsta tidpunkt.
2.1 Variablerna
2.2.1 Sociodemografiska variablerna Som sagts tidigare s kommer vi att begrnsa oss till de frgor som kan
anvndas fr att registrera data fr olika sociodemografiska variabler. Dessa
beskriver olika aspekter av barnen, frldrarna och fljaktligen familjerna. I alla
ABIS enkter frekommer inte alltid exakt samma frgor eftersom dessa
frgeformulr har utvecklats och frndrats ver tiden. Emellertid s frgas det
ungefr om samma fakta.
Fljande r en hjlplig sammanfattning av frgorna:
Hur och var barnet/frldrarna bor.
Frldrarnas utbildningsniv, sysselsttning och fdelseland,
(Sverige eller ej).
Materialbeskrivning
7
Familjesituation och storlek.
Nr tiden r inne s frgas ven om barnet har tillgng till barnomsorg.
Barnets och frldrarnas fdelse r och mn.
Eftersom det finns flera frgor av typen: Om ja, svara p frga X, om nej svara
p frga Y, s skapas ett antal tomma celler i datamaterialet som inte kan
betraktas som saknade vrden. Fr att undvika detta (vilket kan pverka
analysernas resultat p ett negativt stt) har vi valt att sammanfoga variabler av
den hr typen. Om analyserna skulle gras p svaren p de ursprungliga
frgorna uppstr ofta fr f observationer fr att ngra tillfrlitliga resultat skall
kunna erhllas.
Genom omkodning har t.ex. de tre fljande frgorna bara resulterat i
en variabel (mot en kolumn i datamaterialet i stllet fr tre)3:
Yrkesarbetar du? (med svarsalternativ Ja eller Nej).
Om du inte yrkesarbetar vad r orsaken? (med flera svarsalternativ).
Arbetar du heltid, deltid? (med tre svarsalternativ).
Informationen komprimerades p fljande stt:
Om svaren r ja p den frsta frgan s blir svaret p den tredje
frgan giltigt, men om istllet svaret r nej s blir svaret p den
andra frgan giltigt.
Nr det gller just sysselsttning s har man ltit svara med fritext vad
frldern har fr typ av arbete. Detta skapar tyvrr ett problem, eftersom vi inte
p ett enkelt stt kan kategorisera all sysselsttning i rtt yrkesgrupp. Drfr
kan den hr informationen inte tas med i vra analyser och vi kan enbart rkna
med informationen om frldrarna arbetar eller inte, arbetstider och
sysselsttningsgrad samt olika orsaker till att han/hon inte arbetar.
Fr att undvika verfldig information tar vi endast med
frldrarnas fdelser och inte fdelsemnad.
3 Fr nrmare detaljer se Bilaga 2.
Materialbeskrivning
8
Vi funderade ven p vilka andra faktorer som kan pverka att
frgorna blir besvarade. Frutom frldrarnas fdelser kan ven deras lder vid
den aktuella svarstidpunkten spela roll. Den hr informationen efterfrgas inte
direkt men kan tas fram med hjlp av det vi redan har. Vi skapade drfr de nya
variablerna mammans lder och pappans lder dr vi berknade deras lder med hjlp av barnets lder vid tidpunkten och deras eget fdelsedatum.
Nr det gller barnets lder s visade det sig att denna information
inte alltid r korrekt, och tillrckligt ofta fr att inte bara kunna bortse fall.
Orsaken r frmodligen endera att lder lsts in fel eller att frgan har
misstolkats. Exempelvis vid 2-3-rsuppfljningen har vissa registrerade vrden
fr barnets lder i mnader blivit s hr: 95 och 2.
Utifrn ngra antaganden s som att om barnet registrerats som att
hon/han r 3 mn, s r det egentligen 3 r som ska st, gjorde vi korrigeringar4 i
datamaterialet. Nr s var fallet att vi inte kunde frtydliga problemet s valde
vi istllet att skapa ett saknat vrde med medvetande om alla risker som detta
medfr.
Som vi sagt innan s frekom inte alltid samma frgor vid alla
tillfllen som frgeformulren delades ut. Detta frorsakade att viktig
information inte finns samlad vid varje tidpunkt, men det finns ocks fakta som
inte frndras med tiden eller som inte antas frndras betydelsefullt ver en
kort tidsperiod. Drfr kan vi kopiera dessa variabler frn en fregende
tidpunkt till den kommande. Ngra av dessa variabler r frldrarnas
fdelseland och fdelsedatum samt utbildningsniv.
2.2.2 Stressvariabler Vid ABIS:s alla moment har den psykoligiska stressen hos frldrarna
registrerats med hjlp av ett flertal variabler. Dock har inte alla frekommit i
varje frgeformulr, i vissa har det enbart frgats om en aspekt och i andra fall
4 Fr att se alla frndringar titta nrmare p SAS koden i Bilaga 2.
Materialbeskrivning
9
har en mer uttmmande utfrgning gjorts. En beskrivning av de stressmtt som
betraktas i denna uppsats fljer nedan.
Frldrar stress (Self-rated parenting stress): Frldrastress har mtts med Swedish Parenting Stress Questioannarie (SPSQ; stberg, Hagekull et al. 1997), vilket r en versttning och anpassning av Parenting Stress Index (Abidin 1990) till svenska frhllanden.(Nygren, 2010)
Anknytningsstil (Self-rated attachment style)5:
Anknytningsstil har mtts genom en svensk versttning av de 18 frgorna i
Relationship Scale Questionnarie, (RSQ) som utvecklats av Griffin och
Bartholomew (1994). RSQ var ursprungligen konstruerat fr att mta de tv
dimensionerna "modell av sjlv" och "modell av andra" samt fyra
anknytningsstilar. P grund av otillrcklig goodness-of-fit (Kurdek 2002;
Roisman, Holland et al. 2007) fr Griffin och Bartholomews modell har en
rekonstruktion gjorts av RSQs dimensionalitet som resulterade i tre
dimensioner.
(Nygren, 2010)
Svra livshndelser:
Sdana har registrerats via fljande frga: Har du sjlv utsatts fr ngot som du uppfattar som en svr livshndelse sen (specifik tidsperiod)? Vilken tidsperiod som gller r beroende frsts av frgeformulret (Nygren, 2010).
I femrsuppfljningens formulr har ven samma sak frgats om barnet.
Svaren som kommer att tas hnsyn till i denna uppsats r enbart ja och nej.
5 Stressvariabeln registreras i tre variabler som r berknade med hjlp av komponentanalys.
Materialbeskrivning
10
Frldrarnas oro (Parental worries): Med hjlp av ett antal punkter har det skattats hur orolig
frldern/frldrarna var av att deras barn skulle drabbas av saker som
t.ex. sjukdom, skada och/eller vergrepp (Nygren, 2010).
Barnets temperament:
Temperament har bedmts med en validerad justering av Child Characteristics Questionnarie (Lee och Bates 1985 se Nygren 2010, sida 3). lders-adaptation har gjorts fr frskolebarn och har anvnts i
2-3-rs-formulret.
Socialt std:
Med hjlp av en frga har det mtts om frlder/frldrarna knner att de har
tillrckligt std frn omgivningen fr dem sjlva och deras barn (Nygren 2010).
Svaren p frgan rknas med i SPSQ variabeln fr alla tidpunkter dr denna
registreras utom vid femrsformulret nr detta registreras separat.
I Tabell 2.3 ges en verblick av vilka stressvariabler som registrerats
i de olika frgeformulren.
Tabell 2.3 Parametrar som mter psykologiks stress vid varje tidpunkt.
Frgeformulr Variabler Fdelse 1 r 2-3 r 5-6 r
Frldrar stress - SPSQ X X X Anknytningsstil - RSQ X Svra livshndelser, (frldrar) X X X X Svra livshndelser, (barn) X Frldrarnas oro X X Barnets temperament X Socialstd i SPSQ i SPSQ X
Materialbeskrivning
11
2.3 Datamaterialets kvalitet Efter att datamaterialet har genomgtt de ovannmnda omformningarna har vi
frbttrat dess kvalitet, dock kan det finnas vissa faktorer som gr att analysen
nd inte grs p bst stt.
Ett av de strsta problemen r frekomsten av outliers (extremvrden), mot observationer som helt enkelt sticker ut ur mngden.
Orsakerna kan vara mnga drfr mste vi titta nrmare p dem. Det kan vara
att de extrema vrdena stmmer men det kan ocks vara att svaren har blivit fel
inmatade.
Vi kommer att ta hand om outliers infr regressionsanalysen, se
vidare metoddelen, avsnitt 3.2, dr vi frklarar nr och hur analysen ska
genomfras.
Nr vi beskrev variablerna ovan nmnde vi problemet med variabeln
barnets lder i mnader, mot att uppenbart felaktiga vrden observerats. Tyvrr r denna inte den enda variabel som uppvisat problem i det avseendet. I de flesta
frgeformulr nr det frgades om bostad, fanns variabeln bostadens antal kvadratmeter. Den finns inte med i vra analyser d svaren tenderade att inte spegla verkligheten. Sambandet mellan antal rum och kvadratmeter verkade i de flesta fall inte stmma, eftersom vldigt mnga kvadratmeter hade angivits. Vi
misstnkte en misstolkning av frgan och tog drfr bort den.
Metod
12
3. Metod
Ett stt att flja upp bortfallet i en studie r att gra en s kallad
dubbelsampling (Lohr, 1999). Med ett lyckosamt sdant frfarande kan de
slutsatser man drar frn insamlade data sgas vara giltiga fr hela populationen
och man behver egentligen inte studera bortfallet nrmare. Dock kan de svar
man fr in frn den grupp som initialt utgjorde bortfall (fas 1 i
dubbelsamplingen) anvndas fr att dra slutsatser om just denna grupp, t.ex. fr
att ge kunskap infr kommande liknande underskningar.
Ngon sdan bortfallsuppfljning har inte gjorts i ABIS-studien,
vilket frsts franleder att denna uppsats skrivs. Karaktristika om bortfallet
mste drfr uppskattas frn den information som trots allt finns om de
barn/familjer som successivt frsvinner ur underskningen. Vi antar drfr att de
som svarade p fdelseformulret r hela studiens population och att vid det
tillfllet inget bortfall fanns. Vi antar ven att barnen/familjerna som s
smningom blev bortfall hade redan sista gngen de svarade ngot speciell
knnetecken.
Kartlggningen av barnen/familjerna som tillhr bortfallet kommer
drfr att gras i flera etapper. Fr varje moment i ABIS-studien undersker vi
om de som besvarade frgeformulret var med vid nsta moment. P det sttet
kommer varje deltagande att identifieras som hrande till grupp 0 (om svarande
vid nsta moment) eller grupp 1 (om bortfall vid nsta moment). Utifrn den
grupperingen studerar vi om grupperna skiljer sig t, mot om bortfallsgruppen
har speciella knnetecken.
Vi har tidigare nmnt att det ven finns de som haft ett hackigt
deltagande, varit med vid ngot tillflle fr att sedan vara borta och drnst
komma tillbaka. Som ett frsk att f en mer vergripande beskrivning av dessa
kommer vi ven att gra en gruppering vid fdelseformulret dr vi ska frska
fnga olika mnster av deltagandet. P s stt kan vi kanske redan vid frsta
Metod
13
utfrgningen hitta ngot knnetecken som utmrker hur deras deltagande
kommer att vara.
Fr det sista momentet av studien, mot ttarsformulret kan vi inte
gra en sdan analys, d nstkommande uppfljningen nnu inte r avslutad.
Stressvariablerna som nmnts tidigare kommer inte att ing i brjan
av studien. Vra analyser kommer att brja med de variabler som r strikt
sociodemografiska. Nr vi ntt sista steget i analysen och (kanske) har ftt en
gruppering kommer vi att plocka fram stressvariablerna fr att se om de kan
tillfra ngot till de resultat vi ftt.
Alla etapper kommer d att mer eller mindre g igenom samma steg
drfr att vi vill t samma typ av information varje gng. I Tabell 3.1 redovisas
alla etapper. Tabell 3.1 - Etappens nummer och formulret som analyseras
Etapper Etapp 1 Fdelseformulret Etapp 2 Ettrsformulret Etapp 3 2-3rsformulret Etapp 4 5-6rsformulret Etapp 5 Fdelseformulret
Nu och framver kommer etapp anvndas som en benmning av de olika steg
som anvnds i denna uppsats och moment r de olika formulr, mot tidpunkter
som ABIS-studien delas i.
Fr att n uppsatsens syfte kommer en antal olika metoder att
anvndas, med den bakomliggande tanken att alla kan ge svar p
frgestllningarna men inte ndvndigtvis identiska svar.
Det frsta vi vill gra med datamaterialet r att visualisera
observationerna och d studera om en naturlig gruppering sker och om den
grupperingen stmmer med den vi skapat, mot bortfall och svarande.
Vi arbetar d med ett multidimensionellt rum, dr varje dimension
representeras av en variabel. Att visualisera hgdimensionell data och tolka det
Metod
14
vi ser r som regel frenat med stora svrigheter. Fr att minska antalet
dimensioner kommer Multidimensionell skalning att appliceras. Analysen fortstter med Hierarkisk klusteranalys, fr att ta fram
grupperingen genom en annan vg och drmed klassindela data i tv grupper.
Denna typ an klusteranalys har valts fr att den kan hantera bde kluster med
olika ttheter och kluster med olika former.
Fr att underska vilka variabler som kan vara mer relevanta fr
vrt syfte n andra kommer vi att anvnda oss av regressionsanalys. Tanken bakom detta r att de variabler som blir signifikanta i modellen kan vara
relevanta fr att beskriva bortfallet.
Vidare kommer de variabler som blir signifikanta i
regressionsanalysen att var och en jmfras med sedvanlig hypotesprvning mellan de svarande och bortfallet.
3.1 Multidimensionell skalning (MDS) Metoden bestr av tre steg. Den utgr frn en olikhetsmatris (dissimilarities = d) eller en avstndsmatris som bygger p avstnden mellan alla observationer
sinsemellan. Sedan anpassas en regressionsmodell dr dij (avstnd mellan objekt
i och j fr den resulterande konfigurationen) skattas med ij som r i sin tur avstndet mellan i och j men i indata. Modellen kan vara linjr, polynomial eller monoton. Grunden r d:
f
(Formel 1)
Antalet termer som funktionen i Formel 1 har bestmmer antal dimensioner som
representationen av data kommer att resultera i (Manly, 2005).
Metod
15
Kruskal nmner att i stllet fr att mtta hur bra skattningar
anpassas ska vi mtta hur dligt detta grs, genom att mtta badness of fit, (Kruskal & Wish, 1978) Diskrepansens mtt kallas d STRESS och definieras som:
(Formel 2)
Vilket blir ett vrde mellan 0 och 1.
Fr att hitta den optimala modellen fr ett visst antal dimensioner, ndras de
ursprungliga punkternas koordinater vid varje iteration till dess att STRESS -vrdet inte gr att minska ytterligare. Resultatet blir d de nya koordinaterna i
en matris med respektive antal dimensioner.
Fr att genomfra MDS i en mer hanterbart storlek gjordes ett slumpmssigt urval av 500 observationer frn datamaterialet. D variablerna r
p olika skalor kan inte det vanliga Euklidiska avstndsmttet anvndas, utan
fr distansmatrisen anvnds istllet mttet DGOWER.
, 1 , , s x, y r 5F6. (Formel 3)
Vi vill kunna hitta den lgdimensionella representation som bst anpassas till
data, drfr har vi valt att genomfra MDS fr mellan tv och nio dimensioner och sedan vlja den mest passande.
Fr att jmfra resultaten fr de olika valen av dimensioner anvnds
STRESS - mttet. Vi strvar efter att minimera STRESS men eftersom detta mtt minskar i takt att dimensionerna kar, s vi mste bestmma nr dessa r
balanserade. Vi kommer d att flja Kruskal rekommendationer. Dessa r att frst plotta STRESS mot antal dimensioner. Om ett hopp finns vid ett visst antal dimensioner r detta antal det lmpligaste. Annars utgr vi istllet frn
6 Hur berkningarna av Gower likhetskoefficienten gr till hnvisas
till SAS OnlineDoc 9.1.3, 2010 .
Metod
16
sjlva STRESS7-vrdet. Fr att hitta den optimala representationen fljs vissa tumregler som hjlper till att hitta balansen mellan litet STRESS-vrde och antal dimensioner. Dessa r: att antalet dimensioner inte ska minskas s att
STRESS blir hgre n 10 % och inte heller ska dimensionerna kas nr vrdet redan r 5 %, (Kruskal & Wish, 1978).
Vi kommer att visualisera resultatet av MDS med hjlp av programvaran Ggobi, fr att se om en naturlig gruppering sker,(Ggobi, 2010).
3.2 Klusteranalys Datamaterialet som ska klustras r det vi fick som resultat av MDS, mot
matrisen med koordinaterna fr de olika dimensionerna. Hrmed r alla
observationer p intervallskala och drfr kan vi anvnda Euklidiskta distansmtt. Vi vill inte frvrnga observationerna mer, d vi redan applicerat DGOWER distansen. Den Euklidiska distansen srprglas att vara den riktiga distansen mellan tv punkter. Denna distans berknas p fljande stt:
,
(Formel 4)
Vi kommer att testa tre olika lnkningsmetoder8: enkellnkning,
fullstndiglnkning och Wards metod fr att se vilken som ger bst resultat.
Resultatet av att ha separerat observationerna i kluster ska nnu n
gng visualiseras fr att se hur klustren stmmer verens med vr intressanta
gruppering.
7 Frn och med nu ska vi alltid referera till STRESS-vrdet i procent, mot vrdet av Formel 2
multipliceras med 100.
8 Fullstndig frklaring om hur varje lnkningsmetod gr till hnvisas till
SAS OnlineDoc 9.1.3, 2010.
Metod
17
3.3 Logistiskregression Analyserna kommer att gras fr det ursprungliga datamaterialet dr vi har alla
observationer och frsts alla variabler, det r ju de vi vill t. Vr modell ser ut
p fljande stt; alla variabler som r uttagna ur frgeformulren blir
frklarande variabler och den intressanta grupperingen blir responsvariabeln.
Etapp 1 till 4 har d en binr responsvariabel d den delas i tv
grupper bortfall och inte bortfall. Fr Etapp 5 mste vi vid rtt tidpunkt
analysera hur mnga grupper som r logiskt att forma9. Dessa kommer att vara i
alla fall fler r tv vilket resulterar i en kategorisk variabel med fler n tv
niver som responsvariabel
Fr sdana typer av responsvariabler r logistisk regression den lmpligaste regressionsmetoden; binr logistisk regression fr de fall dr vi har
binr responsvariabel och multinomial (polytom) logistisk regression nr vi har
fler n tv kategorier.
Innan vi genomfr analysen mste avvikande observationer som kan
ha stra modelleringen tas bort. En lmplig metod att hitta mjliga outliers r att gra en matris plott10 dr kan vi se alla variabler plottade mot varandra. I en
sdan plott identifieras som regel avvikande observationer .
Eftersom datamaterialet r s pass stort blir dock inte en sdan
matris plott verskdlig och vi fr lov att begrnsa oss till att studera lmpliga
val av spridningsdiagram mellan tv variabler i taget.
Den bkomliggande idn i logistiskregression r att berkna
sannolikheten fr respektive kategori i responsvariabeln att frekomma. Denna
sannolikhet betecknas vanligen , och med s.k. logit-lnk modelleras sambandet mellan och en frklarande variabel x som, (Agresti, 1990):
,
(Formel 5)
9 Hur antalet grupper ska bestmmas fr Etapp 5 tas upp i avsnitt 8. 10 En matris plott r flera spridningsdiagram sammanstllda i en matris.
Metod
18
Koefficienternas skattas med maximum-likelihood metoden. Tolkningen av skattade koefficienter grs vanligen med hjlp av s.k. oddskvoter, genom vilka
man mter frndringen av oddset fr en viss kategori i responsvariabeln i
jmfrelse med referenskategorin nr motsvarande frklarande variabel kar en
enhet Nr logit-lnk anvnds frenklas berkningen av oddskvoten till ibe , dr bi r den skattade lutningsparametern fr frklaringsvariabeln xi i modellen.
De kategoriska variablerna transformeras till flera dummyvariabler,
en fr varje niv. Nr vi har en multinomial respons variabel blir proceduren
likartad med skillnaden att fr varje kategori s skapas en binr respons
variabel. En av kategorierna vlj som referenskategori fr att resten ska
jmfras mot denna, (Kutner et al, 2005).
Fr att kunna vlja ut vilka variabler som r signifikanta ska vi
anvnda tre olika automatiska modell vals metoder. Dessa r:
Framtvalsprincipen, Baktelimineringsprincipen och Fullstndig stegvis regression. Signifikansnivn vljs genomgende till 5 %.
Framtvalsprincipen anpassar enkla regressionsmodeller med var och en av de frklarings variabler som finns med, fr att sedan vlja den variabel
som har hgst vrde p teststatistikan fr det signifikanstest som grs fr
motsvarande lutningsparameter (Walds test, se vidare Agresti (1990)). Om
motsvarande test r signifikant tas variabeln med i modellen. Successivt adderas
sedan en ny variabel enligt samma kriterium till dess att inga fler
signifikantavariabler kan fs med.
Baktelimineringsprincipen fungerar ungefr som fregende metod fast viceversa. Alla variabler r med frn brjan och vid varje steg tas den som
har lgst vrde p teststatistikan och dessutom inte r signifikant bort till dess
att alla kvarvarande variabler i modellen r signifikanta.
Fullstndig stegvis regression liknar framtvalsprincipen med den skillnaden att en variabel som tas med i modellen inte fixeras utan kan tas bort i
ett senare steg. Metoden pbrjas p samma stt som vid framtvalsprincipen,
men i varje steg tillmpas ven baktelimineringsprincipen som tar bort
variabler som inte r signifikanta.
Metod
19
Alla dessa metoder kan modellera bde med och utan intercept. Trots
att interceptet r svrt att tolka i en anpassad logistisk regressionsmodell ska vi
prva att modellera bde med och utan, d detta kan ge oss olika modeller att
vlja emellan. Detta resulterar att vi kommer att ha sex modeller, tv fr varje
modellvalsmetod frn vilka vi sedan vljer ut den bsta.
Bland de sex modeller som de stegvisa procedurerna resulterat i
vljer vi bsta modell utifrn mtten -2log L, AIC och SC. Vi sker efter
modellen som ger de minsta vrde fr dessa mtt, (Kutner et al , 2005).
Resultatet blir inte d att en och samma modell fr de minsta vrden fr alla
dessa jmfrelsemtt, vilket tvingar oss att vlja den som har mest antal sm
mtt.
Hr fljer en frklaring av mtten11:
-2 Log Likelihood,(-2Log L):
2 2 log ,
(Formel 6)
Akaikes Information Kriterium (AIC):
2 2 , (Formel 7)
Schwarz Bayesianka Kriterium (SBC eller SC):
2 log
(Formel 8)
Vi ska dessutom anvnda antalet variabler i modellen som ett jmfrelsetal och
ven hr r den modell som har lgst antal variabler att fredra.
Efter att en modell blivit vald kan modellens anpassning till
datamaterialet analyseras. Fr att gra en sdan modelldiagnostik finns det 11 SAS Institute, 2010, (http://support.sas.com/onlinedoc/913/docMainpage.jsp).
Metod
20
mnga mtt och analyser som kan genomfras, men vi ska anvnda det mest
enkla fr att se om modellen uppfyller vra krav p kvalitet.
Vi ska vi studera hur mnga av vra observationer som hamnar i rtt
grupp, bortfall eller ej, med hjlp av modellen. Eftersom logistiskregression
berknar sannolikheten att en observation tillhr en viss kategori mste vi stta
en grns i detta sannolikhetsvrde som avgr till vilken grupp en barn/familj
tillhr. Grnsen vi vljer vi i denna studie till p 0,5.
3.4 Jmfrelser per variabel Frn regressionsanalysen skall vi normalt ha ftt ett mindre antal variabler att
arbeta med. Om det skulle vara s att den resulterande modellen inte r
tillrckligt bra skall vi genom variabeljmfrelser mellan grupperna se om ngon
variabel kan tas bort.
Tanken r att fr varje variabel i modellen gra en lmpligt test fr
att se om en skillnad i medelvrde (eller median) mellan grupperna r
signifikant eller ej. Om den inte r det kan variabeln vervgas att vljas bort
infr en ny regressionsanalys. Fr att frtydliga s menar vi allts att ven om
variabeln ifrga har blivit signifikant i den modell som resulterat efter
modellvalsproceduren, s vill vi nd bedma hur vl den skiljer sig mellan
grupperna. En alltfr liten skillnad i medel/medianvrdesmening anser vi vara
argument fr att inte inkludera den i en regressionsmodell.
Vilka tester det blir bestms av skalan hos respektive variabel . De
test som kan bli aktuella r tecken test, chi-tv test och t-test.
Tecken test Nollhypotesen r att medianen r lika med 0. Test statistiska: 2 (Formel 9)
dr n+ och n- r antal vrde som r strre respektive mindre n 0.
Metod
21
P-vrde: Pr | | | | 0.5 , (Formel 10) dr nt r antalet observationer skilda frn 0. OBS! Om n+ och n- r lika d r P-vrdet lika med 1. Chi-tv test Med testet prvas om observationerna strider mot nollhypotesen om oberoende mellan tv variabler, (Vejde & Leander, 2000). Test statistiska: (Formel 11) dr O och E str fr observerad respektive frvntad frekvens. T-test Med testet prvas om differensen av tv medelvrde r lika med ett postulerade vrde under nollhypotesen, (Tamhane & Dunlop, 2000). Test statistiska:
(Formel 12)
dr r det observerade urvalsmedelvrdet, s observerade standaravvikelsen och r det postulerade vrdet av medelvrdet under nollhypotesen. Frihetsgrader: 2 (Formel 14)
3.5 Program Fljande program kommer att anvndas fr att utfra de statistiska analyserna:
SAS 9.1, SAS Institute Inc.
Minitab 16 Statistical Software, Minitab.
PASW Statistics 18, (f.d. SPSS), Microsoft.
Ggobi
Etapp 1 - Fdelseformulret
22
4. Etapp 1 Fdelseformulret
Kommentar: Av den orsaken att alla etapper kommer mer eller mindre att flja samma steg kommer de mest frdjupande frklaringarna och resonemangen att gras bara i detta avsnitt.
4.1 Frgor och variabler Ur frgeformulret12 valdes ut totalt 20 frgor som efter lmpliga
transformationer resulterade i 16 variabler13. Frn visa frgor skapades fler n
en variabel men det var ven s att flera frgor sammanstlldes i en variabel.
Mnga av de valda frgorna hr till tiden d mamman var gravid.
Sdana frgor r ndvndiga om vi vill komma s nra barnets och familjens
situation som mjligt. Detta gller frgorna som har att gra med
sysselsttningen fr bda frldrarna samt hur och var mamman bodde. Dessa
frgor bedms som viktiga utifrn en allmn uppfattning om att en barnafdelse
r en vndpunkt fr mnga dr livsfrhllandena ndras.
Mamman fick tillfllet att svara p dessa frgor strax efter fdelsen. I
detta lge r det inte alla som upplevt vndpunkten vilket gr att det r svrt att
frga om den aktuella situation, som t.ex. arbete, bostad etc. D det skulle det
finnas risk att frgorna (och svaren) blev fr diffusa, valde man att frga hur
dessa sociodemografiska aspekter var under sjlva graviditeten.
Nr det gller pappans arbete hittade vi ett fel i frgeformulret, som
gjorde att de svarande br ha missfrsttt frgan. Nedan i Figur 4.1 kan man se
exakt hur frgorna kring pappans arbete var formulerade.
12 Fr hela frgeformulret, se Bilaga 1, dr det ven finns markerat vilka frgor som valdes.
13 Variablernas namn och frklaring finns i Bilaga 3.
Etapp 1 - Fdelseformulret
23
Figur 4.1 - stycke ur fdelseformulret
Som vi kan se s ska pappan i frga nr 64 ange information om sin
sysselsttning ret innan graviditeten. I den nstkommande frgan (nr 65) vill
man veta orsaken till att han inte yrkesarbetade men d r det under
graviditeten. P det stt som frgorna har blivit formulerade s r det nra till
hands att man som respondent svarar p orsaken till varfr man inte arbetade
ret innan.
Detta missfrstnd kunde vi klart och tydligt se i de svar vi fick, de
som hade svarat nej i frga nr 64, var de som gav orsaken i frga nr 65. Nr
pappan senare skulle svara p frga nr 66 s skrev de flesta samma sak som de
hade svarat i textfltet fr frga nr 64. Detta missfrstnd hade undvikits om
frgorna hade varit vl formulerade och separerade frn varandra.
Som en konsekvens av detta kan vi inte heller lita p svaren p frga nr 66a eller
de fregende frgorna.
Trots det s tyckte vi att sysselsttningen beskriver en mycket viktig
aspekt av en mnniska och dess familj, speciellt om man vill analysera ur en
Etapp 1 - Fdelseformulret
24
sociodemografisk synvinkel. Detta gr det svrt fr oss att kasta bort den
information vi har bara fr att den inte r tillfrlitlig.
Fr att lsa dilemmat valde vi att i variabeln pappas sysselsttning redovisa dennes sysselsttning ret innan graviditeten och under graviditeten.
De svar som vi kommer att anvnda oss av r de vi fick p frgorna 64, 65 och
66a och d tcker vi de som svarade rtt och de som frstod frgorna p fel stt.
Med detta gr vi d antagandet att under den tidsperioden borde inte svaren ha
ndrats till ngon betydande del. Den hr delen av analysen kommer d att ha
fljande variabler14:
Mammans fdelser
Mammans lder vid barnets fdelse
Mammans utbildningsniv
Mammans fdelseland
Familjesituation
Hur mamman bodde under graviditeten
Mammans sysselsttning under graviditeten
Pappans fdelser
Pappans lder vid barnets fdelse
Pappans utbildningsniv
Pappans fdelseland
Pappans sysselsttning fre graviditeten
Pappans sysselsttning under graviditeten
Antal syskon som barnet har
Antal personer som bor i den nuvarande bostaden
Antal rum i den nuvarande bostaden
Variabeln som anger om ett barn/familj vid ABIS-studiens nsta
tillflle blir bortfall eller ej finns dessutom med, den kallas grupp och r lika med 0 om ej bortfall och lika med 1 om familjen tillhr bortfallet. 14 Fr mer omfattande information om variablerna och deras svarsalternativ se
Bilaga 3.
Etapp 1 - Fdelseformulret
25
4.2 Resultat och analys Som vi har beskrivit i metoddelen s vill vi se om data grupperas p ett naturligt
stt och drefter om den grupperingen stmmer verens med den gruppering vi
r intresserade av, mot om barn/familj blir bortfall eller ej vid studiens
nstkommande tidpunkt.
4.2.1 Multidimensionell skalning (MDS) Vi har 16 variabler dr varje variabel bidrar med en dimension till vrt
datamaterial. Att hantera ett s hgdimensionellt rum blir d som vi tidigare
sagt svrt. Det r drfr ndvndigt att applicera en procedur p materialet dr
vi frsker minska antalet dimensioner, och detta r vad en sdan metod som
multidimensionell skalning gr. Metodiken appliceras p vrt urval av 500
observationer.
Vi brjar med att frska avgra lmpligt antal dimensioner fr
tillmpning av MDS. Underfrsttt r att antalet dimensioner skall vljas s
litet som mjligt utan strre frlust av god anpassning till data. Vi prvar drfr
metoden p dimensionstal mellan tv och nio fr att empiriskt kunna bestmma
vad som verkar bli bst.
Nedan i Figur 4.2 har resultatet plottats, den horisontella axeln visar
antal dimensioner medan i den vertikala axeln r STRESS-vrdet15 redovisat.
15 Fr en utkad frklaring av STRESS-vrdet, se metoddelen, avsnitt 3.1.1
Etapp 1 - Fdelseformulret
26
Figur 4.2 Stress-vrde mot tillhrande antal dimensioner
Om vi i Figur 4.2 hade ftt en markerad brytning i linjen kunde vi tydligt ha
kunnat se hur mnga dimensioner som gett en bra representation, men s r inte
fallet. Kurvan minskar i niv men p ett ganska jmt stt, och drfr mste vi
titta nrmare p STRESS - vrdena. I Tabell 4.1 kan vi se hur bra eller dligt varje lgdimensionell
representation anpassas till de verkliga data.
Att STRESS-vrdet r s pass hgt nr vi terger datamaterialet i ett tvdimensionellt rum r inte ngon verraskning, eftersom vrt ursprungliga
antal dimensioner r s hgt som det r. Vi kan inte vara fr optimistiska i vra
frvntningar p resultatet frn en multidimensionell skalning, den kommer att
ge oss en representation med frre dimensioner men den kommer inte att vara
den optimala infr den grafiska framstllningen.
0%
5%
10%
15%
20%
25%
30%
0 2 4 6 8 10
Stre
ss
Antal dimensioner
Etapp 1 - Fdelseformulret
27
Tabell 4.1- Resultat av MDS fr olika antal dimensioner
Antal Dimensioner Badness of fit* Stress
2 0.24464 24.46% 3 0.17386 17.39% 4 0.13616 13.62% 5 0.10866 10.87% 6 0.08932 8.93% 7 0.07750 7.75% 8 0.06764 6.76% 9 0.05916 5.92%
*Konvergenskriterierna r uppfyllda fr alla dimensioner och maximalt antal iterationer var satt till 50.
Enligt Kruskals rekommendationer16 r det optimala antalet dimensioner sex,
detta efter att ha bekrftat att fr just det antalet r konvergenskriterierna
uppfyllda innan iterationerna tagit slut.
Nr vi nu har ftt en representation av vrt datamaterial i ett mer
hanterbart antal dimensioner skall vi visualisera fr att se om ngon gruppering
sker p ett naturligt stt.
MDS visualisering Fr att ge en bttre verskdlighet visar vi i figur 4.3 samma graf ur tre olika
vinklar, eftersom den omfattar alla sex dimensioner.
16 Kruskals rekommendationer gs igenom i avsnitt 3.1.
Etapp 1 - Fdelseformulret
28
Figur 4.3- MDS - Sexdimensionell helikoptervy frn tre olika vinklar dr grupperna r srskilda
Som vi kan se s delas observationerna i tv ganska separerade grupper, men
nr vi sedan har markerat vilka som hr till vilken grupp, kan vi tydligt se att
den efterskta grupperingen (i bortfall resp. ej bortfall) inte stmmer verens
med denna separation.
ven om vi inte kan hitta den gruppering vi nskar i Figur 4.3 ska vi
inte vid det hr stadiet pst att grupperingen inte finns. Som vi ppekat i
brjan av denna uppsats r visualisering av hgdimensionell data svr att tolka.
ven om vi kraftigt minskat antalet dimensioner, kan vi inte bortse frn att sex
Etapp 1 - Fdelseformulret
29
dimensioner fortfarande r hgt. Vi gr drfr vidare med materialet med hjlp
av klusteranalys.
4.2.2 Hierarkisk klusteranalys En av de problem som vi hade frn brjan var de typer av variabler vi har att
gra med. De flesta var p nominalskala, men vi har ven variabler p intervall-
och p ordinalskala. Detta medfr att vi har mixade typer av variabler. Men efter
att ha applicerat multidimensionell skalning p vra data har den
sexdimensionella representationen bara kontinuerliga variabler. Med dessa r
det mjligt att gra klusteranalys fr att se om ngon gruppering sker utver det
vi sg innan.
Figur 4.4 till 4.6 visar resulterande dendrogram efter att klustring
gjorts med de tre valda lnkningsmetoderna17.
Figur 4.4 Dendrogram med enkel lnkning
Enkellnknig mellan observationerna ger inte ngra grupperingar, detta kan vi
se i Figur 4.4 d barn/familjer inte verkar kunna separeras i tv grupper.
17 Utkad frklaring av lnkningsmetoder finns i metoddelen avsnitt 3.1.2 .
Etapp 1 - Fdelseformulret
30
Vid fullstndig lnkning (Figur 4.5) kan vi se att tv grupper kan
tydas ut (markerat med den vgrta linjen).
Figur 4.5 Dendrogram med fullstndiglnkning
Dock r det inte strre avstndsskillnad n fr de andra sammanlagningarna.
Det r lite tveksamt om dessa r de bsta kluster vi kan f.
Nr vi gjort klusteranalys med hjlp av Wards metod (Figur 4.6) kan
vi hgst tillfrlitligt sga att tv kluster kan identifieras, de r markerade med
den horisontella linjen. Analysen hittar allts tv grupper av observationer,
vilket r just vad vi skte efter.
Etapp 1 - Fdelseformulret
31
Figur 4.6 Dendrogram med Wards minsta-varians metoden
Vi mste komma ihg att vi redan hade sett att detta hnde nr vi visualiserade
den sexdimensionella representationen. Mlet med klusteranalysen var att hitta
ngon annan gruppering, en gruppering som var lik den gruppering vi r
intresserade av, nmligen om barnet/familjen r bortfall eller inte.
Eftersom Wards minsta-varians-metod ger de tv mest distinkta
klustren fortstter vi med den metoden. Nsta steg r att nnu en gng
visualisera resultatet.
Kluster visualisering Alla dimensioner behver inte gs igenom, det rcker med en graf av tv
dimensioner fr att kunna se hur klustringsproceduren grupperar
observationerna. Drefter kan denna gruppering jmfras med den vi har i form
av bortfall/ej bortfall.
I Figur 4.7 har vi plottat de tv frsta dimensionerna frn den
multidimensionella skalningen mot varandra. Plotten visar en tydlig uppdelning
i de tv kluster som r resultatet av lnkningen med Wards metod.
Etapp 1 - Fdelseformulret
32
Figur 4.7 Dimension1 vs Dimension 2 dr klustren har markerats
Av de 500 observationerna i urvalet har 189 hamnat i kluster 2. Diagrammet i
Figur 4.8 visar hur klustren frdelar sig ver bortfallen och svarande, varje frg
markerar ett kluster.
Figur 4.8 Grupper mot kluster
Tydligt noteras att klusteranalysen inte heller frmr att skapa en gruppering av
observationerna som r samstmmig med den intressanta grupperingen.
Orsaken till detta kan vara att kanske inte alla de variabler som valdes ut frn
brjan r relevanta.
Etapp 1 - Fdelseformulret
33
Vi kommer fortsttningsvis att modellera datamaterialet med hjlp
av regressionsanalys. Om vi hittar en bra modell kan vi med hjlp av den
identifiera vilka variabler som r relevanta fr att srskilja bortfallen frn de
svarande.
4.2.3 Modellering Regressionsanalysen kan vi gra fr alla observationer, mot ingen begrnsning i
form av ett urval behvs Dock kan vr modell pverkas av frekomsten av
outliers18 och drfr mste vi frst och frmst frska identifiera sdana observationer.
Outliers De tv graferna i Figur 4.9 och 4.10 visar vilka kombinationer av variabler som
markerade mjliga outliers.
I Figur 4.9 plottar vi antal personer i bostaden mot antal rum i bostaden och dr kan vi se att fr 20 barn/familjer har det blivit registrerat att ett hgt antal personer bor i en liten lgenhet.
18 Vad en outlier r frklaras i avsnitt 2.3.
Etapp 1 - Fdelseformulret
34
Obs! Fr bda variablerna anges vrdet noll fr observationer med saknade
vrden.
Figur 4.9 Antal rum i bostaden mot Antal personer i bostaden, med markerade outliers
Trngboddhet19 kan naturligtvis inte bortses frn, men vi har nd valt att stta
en rimlighetsgrns, och drfr har vi valt att betrakta observationer dr fyra
eller fler personer bor i en etta eller tva som outliers var fr dessa tas bort.
Vi mste ven komma ihg att eftersom det hr formulret var ifyllt
vid barnets fdelse s r inte det nyfdda barnet medrknat i antalet personer
som bor i bostaden.
Frldrarnas utbildningsniver r plottade mot varandra i Figur 4.10.
Utbildningsniverna r sex till antalet och svarsalternativen gr frn 9-rig 19 Definition av trngboddhet enligt norm 3: Fler n tv boende per rum, kk och ett rum
orknade, samt enpersonshushll i ett rum och kk eller mindre. Finns samboende i hushllet
reduceras rumskravet med ett rum. (Boverket, 2010).
Etapp 1 - Fdelseformulret
35
grundskola till hgskole/universitetsutbildning, 3,5 r eller mer. Obs! Fr bda variablerna anges vrdet -1 fr observationer med saknade vrden.
Figur 4.10 Mammans utbildningsniv mot Pappans utbildningsniv, med markerade outliers
Vi kan se att fyra observationer inte stmmer verens med de svarsalternativ
som fanns med i formulret. De vrden det handlar om r 0 och 8, som inget av
dem r mjliga svar. Drfr tas inte dessa med i de kommande analyserna.
Att bara fyra variabler redovisas betyder inte att det i andra
variabler inte hade kunnat finnas outliers. En extensiv analys gjordes fr
samtliga variabler och deras mjliga kombinationer men enbart de rapporterade
kombinationerna gav utslag20.
20 En fullstndig lista av de borttagna barnens/familjens id-nummer finns i en konfidentiell kopia
hos Maria Nygren ABIS studien.
Etapp 1 - Fdelseformulret
36
4.2.4 Regressionsanalys Med samtliga observationer (utom de som blev borttagna pga. att de var outliers)
och med de 16 variabler, som vi har valt som mjliga frklaringsvariabler till
frekomsten av bortfall, gr vi en logistisk regressionsanalys, med selektion av
variabler via olika metoder21, Vi antar d att de variabler som blir kvar i
modellen r de som avgr huruvida en familj tillhr gruppen av de svarande eller
icke svarande.
Innan vi brjar med regressionsanalysen mste vi ta hnsyn till om
variablerna r korrelerade med varandra eller inte. Hgkorrelerade variabler br
undvikas d de tillfr modellen samma typ av information, och riskerar att
influera parameterskattningarna och deras eventuella signifikanser.
Korrelations studie Vi studerar hr korrelationer mellan par av variabler p intervallskala (andra
skalor r inte frenliga med korrelationsmttet).
Vi utgr frn att en korrelation r hg nr den verstiger det
absoluta vrdet av 0,8 och i Tabell 4.2 kan vi se vilka par av variabler som enligt
denna definition r hgkorrelerade. Hela korrelationsmatrisen finns i Bilaga 4
Tabell 4.2 Variabelpar som r hgkorrelerade med varandra Hgkorrelerade variabler
Pearson korrelationskoefficient syskon antal personer i bostaden 0.863 mammans lder mammans fdelser -0.989 pappans lder pappans fdelser -0.992
Trots att tre variabelpar r hgkorrelerade kommer dock inte en variable i varje
par att tas bort. Fr just variablerna i dessa par finns mjligheter att de kanske i
alla fall bidrar med olika typer av information till vra framtida analyser.
21 Selektionsmetoderna frklaras i metod delen ,avsnitt 3.3.
Etapp 1 - Fdelseformulret
37
Vi kan inte gra sdana bedmningar i ett s tidigt stadium av vr
studie, och vi utgr frn att nr vi gr regressionsanalysen och vljer modellen
med hjlp av olika selektionsmetoder, s kommer dessa metoder att per
automatik vlja bort verfldiga variabler.
Modellval I metoddelen, avsnitt 3.3 finns det redovisat vilka selektionsmetoder som
anvnds, men fr att pminna s r de: Framtvalsprincipen, Baktelimineringsprincipen och Fullstndig stegvis regression.
Datamaterialet har partiellt bortfall och det verkar inte ligga ngon
systematik bakom det, mot det r inte s att en speciell typ av barn/familj str
fr dessa. Drfr kan vi ignorera dessa observationer och fortstta med
regressionsanalysen, (Lohr, 1999) och det terstr d 1867 observationer att
tillg fr regressionsanalysen
I Tabell 4.3 kan vi se vilka variabler som kom med i de resulterande
modellerna. Regressionsanalysen har gjorts med hjlp av de tre ovannmnda
selektionsmetoderna och har ven innefattat test att bde att ha och inte ha med
intercept i modellerna.
Etapp 1 - Fdelseformulret
38
Tabell 4.3 Variabler som valdes som signifikanta fr alla byggda modeller
Regressionsmodeller Selektions
metod Framtvalsprincipen Bakteliminerings
principen Fullstndig stegvis
regression Intercept Ja Nej Ja Nej Ja Nej
Varia
bler
ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_rum ant_rum ant_rum ant_rum ant_rum ant_rum fam_sit fam_sit fam_sit fam_sit fam_sit fam_sit ma_arb ma_alder ma_alder ma_alder ma_alder ma_alder ma_fod_ar ma_arb ma_arb ma_arb ma_arb ma_arb ma_typbo ma_typbo ma_fod_ar ma_fod_ar ma_typbo ma_typbo pa_fsve pa_fsve ma_typbo ma_typbo pa_fsve pa_fsve syskon syskon ma_utb ma_utb syskon syskon pa_fsve pa_fod_ar pa_utb pa_fsve syskon pa_utb syskon
Modell nummer 1 2 3 4 5 6
Vi kan se att fr alla modeller kom ungefr samma variabler med, dock r
antalet variabler hgre fr modellerna skapade med bakteliminering.
I alla modeller kom bde antal personer i bostaden och antal syskon med, trots att variablerna r hgkorrelerade. D bde framtvalsprincipen och
fullstndigt stegvis regression r kapabla att slla ut korrelerade variabler,
strker detta vrt tidigare beslut att inte rensa bland de hgkorrelerade
variablerna.
I Tabell 4.3 angavs till varje modell ett nummer, och i de fljande
kommentarerna anvnds dessa nummer fr att referera till modellerna . De
mtten fr varje modell som vi ska anvnda fr att vlja fram den bsta
redovisas i Tabell 4.4. Frklaring av dessa mtt finns i avsnitt 3.3, Metod delen.
Etapp 1 - Fdelseformulret
39
Tabell 4.4 Jmfrelsetal fr de byggda modeller
Modell selektion Modell 1 2 3 4 5 6 AIC 17168.778 17172.609 17163.257 17169.867 17172.609 17172.609 SC 17297.149 17293.429 17374.691 17381.302 17293.429 17293.429 -2LogL 17134.778 17140.609 17107.257 17113.867 17140.609 17140.609
Antal variabler 8 8 11 12 8 8
Notera att modell 2, 5 och 6 har exakt lika stora vrden fr alla mtt och
dessutom r deras vrden p SC vart och ett det lgsta. Om vi ska vlja modell
efter kriteriet att den modell som har lgst vrde i flera mtt r bst, kan ingen
modell vljas d dessa egentligen r samma modell eftersom
selektionsmetoderna valde lika. Mer detaljerade redovisningar av den valda
modellen finns i Bilaga 5.
Modelldiagnostik Frn de 14062 observationer som anvndes fr att gra regressionsanalysen s
var 9692 (68,9 %) frn de svarande och 4370 (31,1 %) frn bortfallet. Tabell 4.5
visar hur mnga i varje grupp som klassificerades rtt och hur mnga som inte
gjorde det. Observera att vi har satt klassifikationsgrnsen vid 0,5.
Tabell 4.5 Klassifikations-tabell
Klassifikations-tabell Frekvenser
Svarande Bortfall Totalt Korrekt 9582 103 9685 Inkorrekt 110 4267 4377
Procent Korrekt 98.9% 2.4% 68.9%
Barn/familjer frn gruppen ej bortfall klassificerades rtt i en vldigt hg
utstrckning, nstan 99 % av observationerna hamnade i rtt klass. Dremot s
Etapp 1 - Fdelseformulret
40
blev bara ett ftal barn/familjer i bortfallsgruppen korrekt klassificerade, endast
2,4 %.
Eftersom den slutliga modellen visar p dlig frmga att klassificera
korrekt till bortfallsgruppen, r den inte acceptabel utifrn det ml vi har med
denna studie. Vgen fram till denna modell har dock medfrt ett inringande av
de frklaringsvariabler som trots allt verkar bst frklara att ett barn/familj
tillhr bortfallsgruppen. Fr att underska om vi kan reducera antalet
frklaringsvariabler ytterligare kommer vi fortsttningsvis att ska signifikanta
skillnader mellan svarandegrupp och bortfallsgrupp med avseende p lgesmtt
fr de utvalda variablerna.
4.2.5 Jmfrelser per variabel Antalet frklaringsvariabler har halverats som resultat av selektionsmetoderna,
i brjan var det 16 variabler och nu r det 8 som kvarstr. Dessa r: Antal personer i bostaden, Antal rum i bostaden, Familjesituation, Mammans lder, Mammans sysselsttning under graviditeten, Mammans typ av boende under graviditeten, Pappans fdelseland (Sverige eller ej) samt Antal syskon.
Ngra av dessa variabler kan jmfras med avseende p lge
(medelvrde eller median) mellan de tv grupperna svarande och bortfall. Fr
andra variabler kan oberoendetest gras mellan variabeln och huruvida
barnet/familjen tillhr svarandegruppen eller ej. Avsikten med detta r att ska
minska mngden frklarande variabler ytterligare fr att p nytt gra en
regressionsmodell.
Antal personer i bostaden Det finns ett antal olika tester som kan gras fr att underska om grupperna
skiljer sig frn varandra nr det gller antalet personer i familjens bostad. Dock
mste ngra antaganden gras. Fr regressionsanalysen antogs att den hr
variabeln r p intervallskala.
Etapp 1 - Fdelseformulret
41
I den jmfrelse som grs nedan utgr vi dock inte frn detta
antagande utan behandlar variabeln som vore den p ordinalskala, detta medfr
att vi testar fr medianen. I Figur 4.11 kan vi se hur observationerna frdelas.
Figur 4.11 Frdelning av barn/familjer genom antal personer i bostaden separerad per grupp
Medianen fr bda grupperna r lika med 3 och bda har samma intervall av
vrden, (minimum 1 och maximum 9).
H0: Medianen fr bortfallet r lika med 3 Ha: Medianen fr bortfallet r inte lika med 3
Tecken test: M -361.5
P-vrde
Etapp 1 - Fdelseformulret
42
Figur 4.12 Frdelning av barn/familjer genom antal rum i bostaden separerad per grupp
H0: Medianen fr bortfallet r lika med 4 Ha: Medianen fr bortfallet r inte lika med 4
Tecken test: M 70.5
P-vrde 0.024
Frkastar H0 d P-vrdet r lgre n konfidensgrnsen av 0,05. Vi kan inte anta
att gruppernas median r lika.
Familjesituation Fr variabeln familjesituation anvnder vi ett oberoendetest d denna variabel r kategorisk. Figur 4.13 visar hur observationernas frdelas.
Etapp 1 - Fdelseformulret
43
Figur 4.13 Frdelning av barn/familjer genom familjesituation separerad per grupp
H0: Frdelningen mellan de olika alternativen i familjesituation r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i familjesituation r beroende av vilken grupp barnet/familjen tillhr.
Test: Frihetsgrader 2 2 49.7939 P-vrde
Etapp 1 - Fdelseformulret
44
Figur 4.14 Frdelning av barn/familjer genom mammans lder separerad per grupp22
En jmfrelse mellan mammornas medelldrar i de tv grupperna kan d gras
med ett vanligt t-test.
H0: Medelvrdet r lika fr bda grupper Ha: Medelvrdet r inte lika fr bda grupper
T-test: t 6.96 antagande om lika
varianser P-vrde
Etapp 1 - Fdelseformulret
45
Mammans sysselsttning under graviditeten Fr denna variabel anvnder vi ett oberoendetest. Tabell 4.6 visar hur svaren
frdelas.
Tabell 4.6 Frdelning av barn/familjer genom mammans sysselsttning separerad per grupp
Mammans sysselsttning
Svarande Bortfall Total Arbetar heltid 4646 1874 6520 44.05% 38.00% 42.12% Arbetar deltid 0-50% 783 410 1193 7.42% 8.31% 7.71% Arbetar deltid 51-90% 3249 1410 4659 30.80% 28.59% 30.10% Pgende utbildning 625 405 1030 5.93% 8.21% 6.65% Sjukskriven 254 205 459 2.41% 4.16% 2.97% Arbetsls 548 388 936 5.20% 7.87% 6.05% Annat skl 442 239 681 4.19% 4.85% 4.40% Total 10547 4931 15478 100.00% 100.00% 100.00%
H0: Frdelningen mellan de olika alternativen i mammans sysselsttning r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i mammans sysselsttning r beroende av vilken grupp barnet/familjen tillhr.
Test: Frihetsgrader 6 2 142.137 P-vrde
Etapp 1 - Fdelseformulret
46
Mammans typ av boende under graviditeten Figur 4.15 visar hur observationerna frdelas mellan de olika kategorierna av de
bda variablerna.
Figur 4.15 Frdelning av barn/familjer genom mammans typ av boende under graviditeten separerad per grupp
H0: Frdelningen mellan de olika alternativen i mammans typ av boende under graviditeten r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i mammans typ av boende under graviditeten r beroende av vilken grupp barnet/familjen tillhr.
Test: Frihetsgrader 2 2 95.7788 P-vrde
Etapp 1 - Fdelseformulret
47
Pappan fdd i Sverige eller ej I Figur 4.16 redovisas hur svaren frdelas bland de tv variablerna, pappans
fdelseland och grupp. Fr svarsalternativen vet ej r andelen s liten att den
inte syns i grafen. Fr de svarande r andelen lika med 0.02% och fr bortfallet
lika med 0.10 %.
Figur 4.16 Frdelning av barn/familjer genom pappans fdelseland separerad per grupp
P grund av det totala antalet svar i kategorin vet ej fr variabeln fdelseland
r s pass litet kan vi inte anvnda oberoende testet fr tre kategorier hos denna
variabel. Istllet slr vi ihop kategori 2 och 3 mot, att fadern inte r fdd i
Sverige samt att han inte vet om han r det. Detta gr det mjligt att utfra
testet, (Tamhane & Dunlop, 2000).
H0: Frdelningen mellan de olika alternativen i pappans fdelseland r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i pappans fdelseland r beroende av vilken grupp barnet/familjen tillhr.
Test: Frihetsgrader 1 2 63.9034 P-vrde
Etapp 1 - Fdelseformulret
48
Nollhypotesen frkastas och beroendet mellan variablerna antas.
Antal syskon ven fr variabeln antal syskon som ett barn har vid fdelsen har det antagits i
de tidigare gjorda analyserna att den var intervallskala. Nu utgr vi stllet frn
att den r p ordinalskala och medianen testas. Den r lika med 1 fr bda
grupper och ven intervallet r lika. I Figur 4.17 redovisas observationernas
frdelning.
Figur 4.17 Frdelning av barn/familjer genom antal syskon separerad per grupp
H0: Medianen i bortfallet r lika med 1 Ha: Medianen i bortfallet r inte lika med 1
Tecken test: M -223.5
P-vrde
Etapp 1 - Fdelseformulret
49
Diskussion Mlet med att gra alla tester var att hitta vilka variabler stack ut. Detta gjorde
vi genom att testa om skillnader fanns mellan de olika frklarande variablerna i
vr regressionsmodell nr vi separerade i de intressanta grupperna.
Eftersom alla tester har gett signifikanta resultat och drmed
signifikanta skillnader mellan grupperna blir slutsatsen att ingen variabel kan
tas bort.
Det var del av uppsatsens syfte att testa om stressvariablerna som
registrerats via frgeformulret kan ha pverkan p om en barn/familj blir
bortfall. Drfr ska vi ge regressionsmodellen en ny chans genom att tillgga
stressvariabeln som registrerades vid fdelsen.
4.2.6 Regressionsanalys med stressvariabeln I den fregende regressionsanalysen hade en modell resulterat som den bsta
trots att den fick kasseras fr att den inte klassificerade bra observationerna
mellan grupperna. Nu lgger vi till stressvariabeln svra livshndelser fr att se om det fr ngon positiv effekt ver modellen23.
I Tabell 4.7 ges de tre jmfrelsetalen som hjlper oss att jmfra
modeller emellan.
Tabell 4.7 Jmfrelsetal fr modell med stressvariabel
Modell med stressvariablerna AIC 18296.483 SC 18425.874 -2LogL 18262.483
Alla dessa mtt r lgre fr den ursprungliga modellen: AIC 17172,6
SC 17293,4 och 2LogL 17140,6, vilket tyder p att den nya modellen inte blir
bttre en den fregnga.
23 Detaljer av modellen finns i Bilaga 5.
Etapp 1 - Fdelseformulret
50
I Tabell 4.8 kan vi ven se, den nya variabeln (sle_b) inte r signifikant och br
d tas bort. Detta betyder att denna variabel inte ger ngon ny information till
modellen och drfr kan den inte frbttras.
Tabell 4.8 Variablernas signifikans i modellen med stress variabeln
Variabler i den nya modellen P-vrde pa_fsve
Etapp 1 - Fdelseformulret
51
4.3 Etapp 1 Sammanfattning Ur det frgeformulr mamman fick fylla i nr barnet fddes valdes det 20 frgor
som innefattade 16 variabler. Genom multidimensionell skalning och hierarkisk
klusteranalys frskte vi upptcka om den valda variabel sammansttningen
frorsakade att barnen/familjerna kunde klassificeras i grupperna av de
svarande och de icke-svarande.
Trots att de ovannmnda analyserna gav en gruppering stmde den
inte med den intressanta grupperingen. Som en konsekvens av dessa resultat
fortsatte vi med en regressionsanalys vilket skapade en modell med ett mindre
antal variabler. Modellens klassificeringsfrmga var inte alls bra d den
tenderade att gruppera alla observationer som tillhrande till de svarande.
Fr att frbttra modellens klassificeringsfrmga gjordes
hypotesprvningar fr varje variabel i modellen separat. Det testades om
likheterna eller skillnaderna mellan grupperna var statistiskt signifikanta med
en signifikansniv p 5 %. D alla tester utfll i att skillnaderna mellan gruppen
var signifikanta kunde ingen variabel tas bort frn modellen. nnu en
regressionmodell byggdes dr stressvariabeln, svra livshndelser, las in men denna variabel var inte signifikant.
Med hjlp av alla de steg som genomfrdes har ett mindre
sammansttning av variabler n den ursprungliga valts ut. ven om alla
variabler r statistiskt signifikanta nr det gller att knna igen skillnader
mellan bortfall och inte bortfall r den slutgiltiga modellen inte kapabel att
klassindela en strre del av observationerna p ett korrekt stt.
Trots strvan att hitta vilka variabler som kan frklara bortfallet har
resultaten lett till en modell som egentligen r inte anvndbar fr vrt syfte.
Detta p grund av att skillnaderna mellan grupperna bara knns igen genom
statistiska berkningar.
Vi har allts inte hittat sociodemografiska variabler ur fdelse
formulret som kan beskriva eller frklara bortfallet vid ettrsuppfljningen.
Etapp 2 - Ettrsformulret
52
5. Etapp 2 - Ettrsformulret
5.1 Frgor och variabler I frgeformulret som frldrarna fick besvara vid ettrskontrollen p BVC24
fanns det frgor som gllde det gnga ret och aktualiteten. Ur det valdes det 15
frgor25, men inte alla aspekter som tycks vara intressanta frn en
sociodemografisk synvinkel frgades ut, drfr importerade vi vissa frgor frn
fdelseformulret.
Totalt var det fyra sdana frgor som togs med: Frldrarnas
fdelseland (Sverige eller inte) och utbildningsniv. De frsta ndras inte med
tiden drfr r det valid att infra de frn en tidspunkt till den andra. Nr det
gller utbildningen s antar vi att den inte kan ndras dramatisk under en
rstid drfr r det ven hr giltig att infra dem.
Efter att inmatning av nya variabler och transformationer av de
valda frgorna gjordes blev produkten en grupp av 15 variabler. Den hr delen av
analysen kommer d att ha fljande variabler26:
En variabel som registrera om barnet ftt syskon. ven hur och var
barnet/familjen bor. Mamman och pappans fdelseland, utbildningsniv,
sysselsttning, fdelser och lder. Variabeln grupp finns frsts, hnvisar till dess frklaring i etapp 1.
24 Frgeformulret delas ut vid ettrskontrollen i Barnavrdcentralen, vissa fick svara den p
plats, andra fick gra det hemma, Det var upp till den enskilda barnsjukskterska som delade ut
hur det blev gjort.
25 Exempel p hur ett frgeformulr ser ut finns i Bilaga 1, denna r fdelseformulret.
26 I Bilaga 3 finns detaljerad information hur variablerna ser ut fr etapp 1. Detta kan anvndas
som guide i hur variablerna och dess kategorier blev tilldelad fr etapp 2.
Etapp 2 - Ettrsformulret
53
5.2 Resultat och analys
5.2.1 Multidimensionell skalning (MDS)
Minskning av STRESS vrdet framstllas i Figur 5.1. Ingen markerad hopp syns i nivn drfr kan vi inte utg frn grafen nr vi bestmmer antalet dimensioner
infr vidare analyser.
Figur 5.1 - Stress-vrde mot tillhrande antal dimensioner
I Tabell 5.1 kan vi se att sju r det antalet dimensioner som best representerar
vra data i ett ngorlunda lgdimensionell rum. Tabell 5.1 - Resultat av MDS fr olika antal dimensioner
Antal Dimensioner Badness of fit* Stress
2 0.26095 26.09% 3 0.20083 20.08% 4 0.16319 16.32% 5 0.13633 13.63% 6 0.11517 11.52% 7 0.10007 10.01% 8 0.08829 8.83% 9 0.07849 7.85%
*Konvergenskriterierna r uppfyllda fr alla dimensioner utom dimension 9 och maximalt antal iterationer var satt till 50.
0%
5%
10%
15%
20%
25%
30%
0 2 4 6 8 10
Stre
ss
Antal dimensioner
Etapp 2 - Ettrsformulret
54
MDS visualisering
Figur 5.2 visar tre olika vinklar av de sju dimensionernas helikoptervy. Ptaglig
ses att den naturliga grupperingen som tyds i graferna inte stmmer verens
med den intressanta barn/familjernas separation mellan svarande och icke-
svarande.
Figur 5.2 Sjudimensionell helikoptervy frn tre olika vinklar dr grupperna r srskilda
Etapp 2 - Ettrsformulret
55
5.2.2 Hierarkisk klusteranalys
Figur 5.3 och 5.4 visar enkellnkning respektive fullstndigtlkning. Nr vi utfr
en klusteranalys med enkellkning kan vi inte tyda att metoden skulle hitta tv
kluster.
Figur 5.3 Dendrogram med enkel lnkning
Vid fulstndigtlkning s kan en viss gruppering anas dock r det inte s tydlig
hur mnga skulle det vara, speciellt nr vi letar efter tv distinkta grupper.
Figur 5.4 Dendrogram med fullstndiglnkning
Etapp 2 - Ettrsformulret
56
Resultatet vi fick med Wards metod, Figur 5.5, visar tydligt att observationerna
kan delas i tv.
Figur 5.5 Dendrogram Wards minsta-varians metoden
Kluster visualisering
Det var med Wards lnknings metod vi sg tydlig klassindelning drfr kommer
vi att visualisera dess resultat nr vi gr tv kluster.
Enligt Figur 5.6 s stmmer verens de tv kluster med den
naturliga grupperingen vi redan sett. Dremot kan vi se i Figur 5.7 att klustren
inte fljer vr indelning av observationerna.
Etapp 2 - Ettrsformulret
57
Figur 5.6 Dimension1 vs Dimension 2 dr klustren har markerats
Figur 5.7 Grupper mot kluster
Etapp 2 - Ettrsformulret
58
5.2.3 Modellering
Outliers
Nr vi plottar i Figur 5.8 variablerna antal personer i bostaden mot antal rum i bostaden differentieras ngra observationer som outliers. Obs! Fr bda variablerna anges vrdet noll fr observationer med saknade vrden.
Figur 5.8 Antal rum i bostaden mot Antal personer i bostaden, med markerade outliers
Etapp 2 - Ettrsformulret
59
Vi har redan pratat om trngboddhet och kommer drfr inte att ta upp detta en
gng till, dremot har vi i den hr etappen jmfr med Etapp 127 lagt till att barn/familjer dr mer n sju personer bor i en trea ska ocks tas bort.
Figur 5.9 visar frldrarna utbildningsniv plottade mot varandra, vi
hittar d tv observationer som har ftt utbildningsniv 0, svarsalternativ som
inte fanns med i frgeformulret. Obs! Fr bda variablerna anges vrdet -1 fr
observationer med saknade vrden.
Figur 5.9 Mammans utbildningsniv mot Pappans utbildningsniv, med markerade outliers
Total har 12 observationer tagits bort.
27 Se outliers i etapp 1 fr bttre referens.
Etapp 2 - Ettrsformulret
60
5.2.4 Regressionsanalys
Korrelations studie Tabell 5.2 visar vilka variabelpar som r hgkorrelerade28, som vi set innan s r
det frldrarna lder mot respektive fdelser vars korrelationskoefficient nr
hga niver. Trots hg korrelation blir variablerna kvar infr
regressionsanalysen. Diskussion gllande detta har frts i Etapp 1. Tabell 5.2 Variabelpar som r hgkorrelerade med varandra
Hgkorrelerade variabler
Pearson korrelationskoefficient mammas lder mammas fdelser -0.988 pappas lder pappas fdelser -0.991
Modellval
Efter att ha utfrt regressionsanalys med hjlp av olika selektion metoder har vi
ftt fljande modeller att vlja emellan, se Tabell 5.3. Tabell 5.3 Variabler som valdes som signifikanta fr alla byggda modeller Regressionsmodeller Selektions metod
Framt elimination Bakt elimination Stegvis regression
Intercept Ja Nej Ja Nej Ja Nej
Varia
bler
ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo
bo_typ bo_typ bo_typ bo_typ bo_typ bo_typ
ma_alder ma_alder ma_alder ma_alder ma_alder ma_alder
ma_fsve ma_fsve ma_fsve ma_fsve ma_fsve ma_fsve
pa_arb pa_arb ma_utb ma_utb pa_arb pa_arb
var_bo var_bo pa_arb pa_arb var_bo var_bo
pa_utb pa_utb
var_bo var_bo
Modell nummer 1 2 3 4 5 6
28 Den kompletta korrelationsmatrisen finns i Bilaga 4.
Etapp 2 - Ettrsformulret
61
Alla modeller fick med samma variabler men modell 3 och 4 fick dessutom tv
variabler mer. Vi mste se om dessa fyra modeller verkligen r de bsta och
drfr tittar vi de olika parametrarna infr modell val, Tabell 5.4. Tabell 5.4 Jmfrelsetal fr de byggda modeller
Modell selektion Modell 1 2 3 4 5 6 AIC 11231.662 11230.567 11229.119 11227.908 11231.662 11230.567 SC 11352.859 11344.635 11421.608 11413.269 11352.859 11344.635 -2LogL 11197.662 11198.567 11175.119 11175.908 11197.662 11198.567
Antal variabler 6 6 8 8 6 6
Av de fyra parametrar vi jmfr s r det modell 2 och 6 som har de lngsta
vrde i tv av fyra mjliga. Vi kan konstatera att det r samma modell29 i och
med det fortstter vi med den hr.
Modelldiagnostik
Regressionsanalysen utfrdes med 9221 observationer av de ursprungliga 11002.
De som tog bort automatisk av proceduren hade saknade vrde. Hur
klassificering blir med hjlp av modellen redovisas i Tabell 5.5.
Trots att nsta 70 % av barnen/familjerna blir korrekt klassificerade
s r det enbart de i den svarande gruppen som hamnar rtt. Inte ens 1 % av
bortfallsgruppen har hamnat i sin grupp, detta gr modellen oanvndbart fr vr
intention att kunna srskilja de icke svarande frn resten. Tabell 5.5 Klassifikations-tabell
Klassifikations-tabell Frekvenser
Svarande Bortfall Totalt Korrekt 6413 9 6422 Inkorrekt 20 2779 2799
Procent Korrekt 99.7% 0.3% 69.6%
29 Fr en redovisning av hela modellen se Bilaga 6.
Etapp 2 - Ettrsformulret
62