bortfalls-kartläggning i abis-studien371716/fulltext01.pdf · som underlag arbetar vi med de data...

154
Magisteruppsats i statistik Bortfalls-kartläggning i ABIS-studien -ur ett sociodemografiskt perspektiv Victoria Fomichov

Upload: dangtuyen

Post on 11-Apr-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Magisteruppsats i statistik

Bortfalls-kartlggning

i ABIS-studien

-ur ett sociodemografiskt perspektiv

Victoria Fomichov

Magisteruppsats i statistik

Bortfalls-kartlggning i ABIS-studien

-ur ett sociodemografiskt perspektiv

Victoria Fomichov

Upphovsrtt

Detta dokument hlls tillgngligt p Internet eller dess framtida ersttare frn

publiceringsdatum under frutsttning att inga extraordinra omstndigheter uppstr.

Tillgng till dokumentet innebr tillstnd fr var och en att lsa, ladda ner, skriva ut

enstaka kopior fr enskilt bruk och att anvnda det ofrndrat fr ickekommersiell

forskning och fr undervisning. verfring av upphovsrtten vid en senare tidpunkt kan

inte upphva detta tillstnd. All annan anvndning av dokumentet krver

upphovsmannens medgivande. Fr att garantera ktheten, skerheten och

tillgngligheten finns lsningar av teknisk och administrativ art.

Upphovsmannens ideella rtt innefattar rtt att bli nmnd som upphovsman i den

omfattning som god sed krver vid anvndning av dokumentet p ovan beskrivna stt

samt skydd mot att dokumentet ndras eller presenteras i sdan form eller i sdant

sammanhang som r krnkande fr upphovsmannens litterra eller konstnrliga

anseende eller egenart.

Fr ytterligare information om Linkping University Electronic Press se frlagets

hemsida http://www.ep.liu.se/

Copyright

The publishers will keep this document online on the Internet or its possible

replacement from the date of publication barring exceptional circumstances.

The online availability of the document implies permanent permission for anyone to

read, to download, or to print out single copies for his/hers own use and to use it

unchanged for non-commercial research and educational purpose. Subsequent transfers

of copyright cannot revoke this permission. All other uses of the document are

conditional upon the consent of the copyright owner. The publisher has taken technical

and administrative measures to assure authenticity, security and accessibility.

According to intellectual property law the author has the right to be mentioned when

his/her work is accessed as described above and to be protected against infringement.

For additional information about the Linkping University Electronic Press and its

procedures for publication and for assurance of document integrity, please refer to its

www home page: http://www.ep.liu.se/.

Victoria Fomichov

http://www.ep.liu.se/http://www.ep.liu.se/

Till Edgardo, Clara och Simn. Tack fr krleken och styrkan ni ger mig.

L.Q.M.

Sammanfattning

r 1997 pbrjades ett vrldsunikt projekt, ABIS-studien (Alla Barn i Sydstra

Sverige) p Hlsouniversitetet i Linkping (Linkpings Universitet). Av alla barn

som fddes under perioden 1 oktober 1997 till 1 oktober 1999 i Blekinge,

Smland, land och stergtland har ca 17 000 fljts med jmna mellanrum

ver ren: barnets fdelse, ettrsuppfljning, 2-3-rsuppfljning,

5-6-rsuppfljning samt ttarsuppfljning.

Barnen/familjerna har infr varje moment i studien lmnat in

biologiska prover och svarat p frgeformulr. Frgeformulren innehller frgor

av varierade typ och denna uppsats tar hnsyn till de sociodemografiska

variablerna samt de variabler som anvndes fr att mta stress hos frldrarna

och i vissa fall barnen.

Genom ren har antalet frgeformulr som fyllts i minskat kraftigt

frn 16051 till 4030 i ttarsuppfljningen. Med hjlp av den hr uppsatsen vill

vi underska om bortfallgruppen har speciella knnetecken och om orsaken till

bortfall kan frklaras. Som underlag arbetar vi med de data som registreras

genom frgeformulren med startpunkt i fdelseformulret, dr alla som svarat

antas vara populationen och de som drefter frsvinner infr kommande

uppfljningar r bortfall.

Fr att kunna angripa problemet har multidimensionell skalning,

klusteranalys och logistisk regression anvnts. Ingen av metoderna resulterade i

att vi kunde srskilja observationer i tv olika grupper som verensstmde med

grupperna svarande och bortfall. Drfr kan vi inte heller beskriva eller frklara

bortfallet utifrn de variabler som valdes, mot sociodemografiska variabler och

stressvariabler.

Abstract

In 1997 began a unique project, the ABIS study (All Babies in Southeast Sweden)

at the Faculty of Health Sciences in Linkping (Linkping University). Of all

babies born during the period 1 October 1997-1 October 1999 in the counties

Blekinge, Smland, land and stergtland have about 17 000 been followed-up

at regular intervals over the years: at birth, after one-year, after 2-3 years, after

5-6 years and after eight years.

Children/families have for each moment in the study submitted

biological samples and responded to questionnaires. The questionnaires contain

questions of varying types; this paper takes into account the socio-demographic

variables and the variables that were used to "measure" stress with the parents

and to some extent with the children.

Through the years the number of participants declined sharply from

16 051 filling out the first questionnaire to 4030 at the eight-year follow-up. With

this essay we will investigate if the nonresponse group has specific

characteristics and if the cause of the nonresponse can be explained. As a basis

we work with the data recorded by the questionnaires, with starting point at the

birth in which all who responded are assumed to be the population and then the

ones who leave the study into the next follow-ups constitute the nonresponse

group.

In order to tackle the problem, multidimensional scaling, cluster

analysis, and logistic regression have been used. None of the methods however

made it possible distinguish observations in two different groups that correspond

with the groups of respondents and dropouts. Therefore, we cannot describe or

explain the nonresponse from the variables that have been chosen, i.e. socio-

demographic and stress variables.

Frord

Den hr magisteruppsatsen r hjdpunkten av en lng tid av studier inte enbart

inom statistik och dataanalys utan ven allt innan dess som sammanlagt har

format mig som blivande statistiker och framfrallt som den mnniskan jag

blivit.

Mnga har fljt och hjlp mig under processen, speciellt min

handledare, Anders Nordgaard som guidat och sttt mig vid varje lilla steg.

Likas Maria Nygren (fr ABIS-studien) som gav mig detta spnnande uppdrag

och alltid var dr nr jag behvde f svar p mina frgor. ven mste jag nmna

minna lrare och klasskamrater som fljde med alla dessa r p Linkpings

Universitet.

Stor tack till alla.

Victoria Fomichov Linkping, juni 2010

Innehllfrteckning 1. Inledning ............................................................................................................................. 1

1.1 Bakgrund ...................................................................................................... 1

1.2 Problembeskrivning ..................................................................................... 2

1.3 Syfte .............................................................................................................. 3

1.4 Syftesavgrnsning ....................................................................................... 3

1.5 Frgestllningar .............................................................................................. 4

2. Materialbeskrivning ........................................................................................................... 5

2.1 Frberedelser av datamaterialet .................................................................... 5

2.1 Variablerna ...................................................................................................... 6

2.3 Datamaterialets kvalitet ............................................................................... 11

3. Metod ................................................................................................................................. 12

3.1 Multidimensionell skalning (MDS) ............................................................... 14

3.2 Klusteranalys ................................................................................................. 16

3.3 Logistiskregression ........................................................................................ 17

3.4 Jmfrelser per variabel ............................................................................... 20

3.5 Program ......................................................................................................... 21

4. Etapp 1 Fdelseformulret ............................................................................................ 22

4.1 Frgor och variabler ...................................................................................... 22

4.2 Resultat och analys ....................................................................................... 25

4.3 Etapp 1 Sammanfattning ........................................................................... 51

5. Etapp 2 - Ettrsformulret .............................................................................................. 52

5.1 Frgor och variabler ...................................................................................... 52

5.2 Resultat och analys ....................................................................................... 53

5.3 Etapp 2 - Sammanfattning ............................................................................ 69

6. Etapp 3 2-3-rsformulret ............................................................................................. 70

6.1 Frgor och variabler ...................................................................................... 70

6.2 Resultat och analys ....................................................................................... 71

6.3 Etapp 3 - Sammanfattning ............................................................................ 89

7. Etapp 4 56-rsformulret ............................................................................................ 90

7.1 Frgor och variabler ...................................................................................... 90

7.2 Resultat och analys ....................................................................................... 91

7.3 Etapp 4 - Sammanfattning - Etapp 4 ......................................................... 107

8. Etapp 5 - Fdelseformulret .......................................................................................... 108

8.1 Resultat och analys ..................................................................................... 108

8.2 Etapp 5 - Sammanfattning .......................................................................... 114

9. Slutsatser och diskussion ............................................................................................... 115

Referenser ........................................................................................................................... 118

Bilaga 1. Etapp 1 Frgeformulret ................................................................ 119

Bilaga 2. Etapp 1 SAS kod med variabel-transformationer ......................... 125

Bilaga 3. Etapp 1 Variabler namn och kategorier ........................................ 132

Bilaga 4. Korrelationsmatriser fr alla etapper ............................................... 133

Bilaga 5. Etapp 1 - Regressionsmodell ............................................................. 134

Bilaga 6. Etapp 2 Regressionsmodell ............................................................ 135

Bilaga 7. Etapp 3 Regressionsmodell ............................................................ 136

Bilaga 8. Etapp 4 Regressionsmodell ............................................................ 137

Bilaga 9. Etapp 5 Regressionsmodell ............................................................ 138

Inledning

1

1. Inledning

1.1 Bakgrund Sverige r ett land som brukar ligga i vrldstoppen nr det gller positiva

aspekter. Tyvrr finns ven Sverige med i topplistorna nr det gller antalet

barn som drabbas av diabetes, celiaki (glutenintolerans), allergi m.m. . Vilka

faktorer gr att s mnga drabbas? Kan man frutse vilka som insjuknar? Kan

man lra sig hur sjukdomar som till exempel cancer, leukemi och

ledgngsreumatism uppkommer?

Med alla dessa frgor och mnga fler att besvara pbrjades 1997 ett

unikt projekt som kallas ABIS-studien (Alla Barn i Sydstra Sverige). Av de

21700 barn som fddes under perioden 1 oktober 1997 till 1 oktober 1999 i

Blekinge, Smland, land och stergtland har ca. 17 000 fljts med jmna

mellanrum ver ren. Detta projekt initierades och drivs av professor Johnny

Ludvigsson p avdelningen fr pediatrik vid Hlsouniversitetet i Linkping

(Linkpings Universitet).

Informationen har samlats med hjlp av olika provtagningar (t.ex.

blodprov) och frgeformulr. Dessa frgeformulr har varierat ngot under ren

men i stora drag r de lika. De innehller frgor av varierade typ, det frgas om

saker ssom matvanor, hlsostillstnd, levnadsfrhllanden samt om olika

sociodemografiska frhllanden. Det finns ocks med olika frgor som hjlper att

mta stressnivn hos barnets frldrar.

Frgeformulren har varit de fljande: A vid fdelsen, 117 frgor. B vid ettrsuppfljningen, 150 frgor. C vid 2-3-rsuppfljningen, 196 frgor. E vid 5-6-rsuppfljningen, 180 frgor. F vid ttarsuppfljningen fr frldrarna, 141 frgor. FG vid ttarsuppfljningen fr barnen, 35 frgor.

Inledning

2

Just nu1 pgr 10-12-rsuppfljningen som r en del av den andra

etappen av studien. Den hr etappen planeras pg fram till 2017.

Studien har redan brjat ge frukt. Experterna har funnit flera faktorer som r frknippade med utveckling av s kallade autoantikroppar (som oftast fregr utveckling av diabetes): virusinfektioner tidigt i livet, introduktion av komjlk och gluten under en viss tidsperiod under spdbarnsret, samt vissa faktorer som normalt frknippas med ldersdiabetes (t.ex. svr stress). (ABIS-studien.se, 2010).

1.2 Problembeskrivning Som man kan frvnta sig s har en sdan hr vergripande studie vissa

problem som r enkla att frutse men svra att undvika. Det strsta problemet

som sjlvklart ven ABIS har drabbats av r bortfallet. Med detta menas att vid

varje tidpunkt av studien har ett betydelsefullt antal familjer inte svarat p

frgeformulren eller lmnat de prover som studien krvt. Med detta fljer

troligen en frlust av information.

Fr denna rapport kommer problemet att begrnsas till bortfallet i

frgeformulren. Studien hade 16051 svarande i sin frsta fas nr frgeformulr

A delades ut i samband med barnets fdelse. Antal deltagande har minskat vid

varje nytt moment, se Tabell 1.1. Dock finns det vissa barn/familjer som varit

med vid flera tillfllen och ngra som varit med konsekutivt vid alla tillfllen.

Tabell 1.1 - Antal observationer i ursprungliga data Antal deltagande per moment

Fdelsen 16051 Ettrsuppfljningen 11095 2-3-rsuppfljningen 8895 5-6-rsuppfljningen 7445 ttarsuppfljningen 4030

1 r 2009-2010

Inledning

3

Det hr betydande bortfallet kan ha pverkan p resultaten och

slutsatserna som forskarna fr ur studien om det r s att det finns ett visst

mnster. Med mnster menas att bortfallsgruppen kanske har egenskaper som

skiljer sig frn de som finns kvar i studien och d gr man miste om mjligheten

att studera just barn med sdana egenskaper. Sedan finns det andra mer

ofrutsgbara konsekvenser som bortfallet kan ge, kanhnda att populationen

verkar frndras med tiden nr det egentligen det r en biverkning av

minskningen av respondenter med specifika knnetecken.

Orsakerna till bortfallet kan vara mnga. Ett antal olika faktorer

kan bidra till det, mnga gr inte att frutse och inte ens studera. Sdana fall

kan t.ex. vara att en familj aldrig fick frgeformulret eller det blev besvarat

men frsvann i posthanteringen.

D vi har att gra med ett stort datamaterial som innehller mnga

frgor (variabler) r det ndvndigt att anvnda statistiska metoder som p ett

sytematiskt stt kan hitta speciella egenskaper i gruppen av de som inte svarat

frgeformulren.

1.3 Syfte Syftet med denna studie r att utreda om det successiva bortfallet i ABIS-studien

kan frklaras utifrn de karaktristiska hos respondenterna som har mtts via

det sista frgeformulret som de fyllde i.

1.4 Syftesavgrnsning De frgeformulr som anvnts i ABIS-studien innehller, som vi sagt tidigare, en

mngd olika frgor som tcker olika aspekter av barnen/familjen. Infr de

kommande analyserna ska vi begrnsa oss till frgor som beskriver

sociodemografiska drag. Dessutom ska frgor som ABIS-studiens forskare

anvnt fr att mtta stress hos frldrarna och i vissa moment ven barnen,

Inledning

4

underskas. Vi anser att stress direkt eller indirekt kan ha att gra med

sociodemografisk status och drfr ven bortfallet.

1.5 Frgestllningar Skiljer sig grupperna av de som stannade kvar i studien och de som inte

lngre deltar?

Finns det skillnader i egenskaper mellan bortfallsgrupperna i olika

moment av studien?

Kan man hitta ngon frklaring till bortfallet utifrn de sociodemografiska

aspekterna av barnen/familjen?

Frloras det specifik information p grund av minskningen i antalet

deltagare?

Materialbeskrivning

5

2. Materialbeskrivning

2.1 Frberedelser av datamaterialet Nr man via en underskning samlar in data s finns alltid behovet att gra en

stdning av materialet innan man kan brja med analyserna. Detta antyder

inte p ngot stt att man ska manipulera fakta, utan frbereda data s att den

r lmplig fr att kunna gra statistik analys av den.

Vi brjade med att ta bort information om de barn som inte fddes

enligt det inklusions-kriterium som sattes upp frn brjan av studien, mot barn

som fddes utanfr tidsramen frn oktober 1997 till oktober 1999 ska inte finnas

med i analyserna.

I det ursprungliga datamaterialet var det 16427 barn som varit med i

alla eller ngra av studiens moment och av dessa var det 167 som inte fddes

under den rtta tidpunkten. Vi kommer drfr i denna studie att anvnda de

resterande 16260 barnen som vr kohort2. I Tabell 2.1 kan vi se hur antalet barn

blev per moment efter eliminering utifrn inklusions-kriteriet.

Tabell 2.1- Antal deltagande efter eliminering utifrn inklusions-kriteriet

Antal deltagande per moment Fdelsen 15948 Ettrsuppfljningen 11016 2-3-rsuppfljningen 8812 5-6-rsuppfljningen 7401 ttarsuppfljningen 4009

Skillnaden mellan ett moment och det kommande r inte

ndvndigtvis antalet som kommer att betraktas som bortfall, detta eftersom det

finns vissa som var med i ett moment men inte var det i det fregende

momentet. 2 I demografin (befolkningslran), en grupp som har sitt ursprung i en viss period eller som d hade en viss egenskap gemensamt [] Nr en kohort vl definieras fljs den upp statistiks (Vejde & Leander, 2000, sida 127).

Materialbeskrivning

6

Den nya variabeln grupp markerar de som anses vara i gruppen bortfall med en etta och resten med en nolla. I Tabell 2.2 kan vi se antal barn/familjer i varje uppfljning som inte svarande p nstkommande formulr.

Tabell 2.2 - Antal (och andel) barn/familjer i bortfalls gruppen

Antal (och andel) i gruppen "bortfall" Fdelsen 5132 32.18% Ettrsuppfljningen 3505 31.82% 2-3-rsuppfljningen 2671 30.31% 5-6-rsuppfljningen 4442 60.02% ttarsuppfljningen * *

Som vi kan se ovan s r antalet som inte svarar frn tillfllen till tillflle

avsevrt och de 4442 som svarade vid 5-6-rsuppfljningen men inte svarade vid

nsta, utgr drygt 60 %. Notera att vid ttarsuppfljningen s kan vi inte

markera ngot bortfall, eftersom vi inte har information om hur mnga som inte

kommer att svara vid nsta tidpunkt.

2.1 Variablerna

2.2.1 Sociodemografiska variablerna Som sagts tidigare s kommer vi att begrnsa oss till de frgor som kan

anvndas fr att registrera data fr olika sociodemografiska variabler. Dessa

beskriver olika aspekter av barnen, frldrarna och fljaktligen familjerna. I alla

ABIS enkter frekommer inte alltid exakt samma frgor eftersom dessa

frgeformulr har utvecklats och frndrats ver tiden. Emellertid s frgas det

ungefr om samma fakta.

Fljande r en hjlplig sammanfattning av frgorna:

Hur och var barnet/frldrarna bor.

Frldrarnas utbildningsniv, sysselsttning och fdelseland,

(Sverige eller ej).

Materialbeskrivning

7

Familjesituation och storlek.

Nr tiden r inne s frgas ven om barnet har tillgng till barnomsorg.

Barnets och frldrarnas fdelse r och mn.

Eftersom det finns flera frgor av typen: Om ja, svara p frga X, om nej svara

p frga Y, s skapas ett antal tomma celler i datamaterialet som inte kan

betraktas som saknade vrden. Fr att undvika detta (vilket kan pverka

analysernas resultat p ett negativt stt) har vi valt att sammanfoga variabler av

den hr typen. Om analyserna skulle gras p svaren p de ursprungliga

frgorna uppstr ofta fr f observationer fr att ngra tillfrlitliga resultat skall

kunna erhllas.

Genom omkodning har t.ex. de tre fljande frgorna bara resulterat i

en variabel (mot en kolumn i datamaterialet i stllet fr tre)3:

Yrkesarbetar du? (med svarsalternativ Ja eller Nej).

Om du inte yrkesarbetar vad r orsaken? (med flera svarsalternativ).

Arbetar du heltid, deltid? (med tre svarsalternativ).

Informationen komprimerades p fljande stt:

Om svaren r ja p den frsta frgan s blir svaret p den tredje

frgan giltigt, men om istllet svaret r nej s blir svaret p den

andra frgan giltigt.

Nr det gller just sysselsttning s har man ltit svara med fritext vad

frldern har fr typ av arbete. Detta skapar tyvrr ett problem, eftersom vi inte

p ett enkelt stt kan kategorisera all sysselsttning i rtt yrkesgrupp. Drfr

kan den hr informationen inte tas med i vra analyser och vi kan enbart rkna

med informationen om frldrarna arbetar eller inte, arbetstider och

sysselsttningsgrad samt olika orsaker till att han/hon inte arbetar.

Fr att undvika verfldig information tar vi endast med

frldrarnas fdelser och inte fdelsemnad.

3 Fr nrmare detaljer se Bilaga 2.

Materialbeskrivning

8

Vi funderade ven p vilka andra faktorer som kan pverka att

frgorna blir besvarade. Frutom frldrarnas fdelser kan ven deras lder vid

den aktuella svarstidpunkten spela roll. Den hr informationen efterfrgas inte

direkt men kan tas fram med hjlp av det vi redan har. Vi skapade drfr de nya

variablerna mammans lder och pappans lder dr vi berknade deras lder med hjlp av barnets lder vid tidpunkten och deras eget fdelsedatum.

Nr det gller barnets lder s visade det sig att denna information

inte alltid r korrekt, och tillrckligt ofta fr att inte bara kunna bortse fall.

Orsaken r frmodligen endera att lder lsts in fel eller att frgan har

misstolkats. Exempelvis vid 2-3-rsuppfljningen har vissa registrerade vrden

fr barnets lder i mnader blivit s hr: 95 och 2.

Utifrn ngra antaganden s som att om barnet registrerats som att

hon/han r 3 mn, s r det egentligen 3 r som ska st, gjorde vi korrigeringar4 i

datamaterialet. Nr s var fallet att vi inte kunde frtydliga problemet s valde

vi istllet att skapa ett saknat vrde med medvetande om alla risker som detta

medfr.

Som vi sagt innan s frekom inte alltid samma frgor vid alla

tillfllen som frgeformulren delades ut. Detta frorsakade att viktig

information inte finns samlad vid varje tidpunkt, men det finns ocks fakta som

inte frndras med tiden eller som inte antas frndras betydelsefullt ver en

kort tidsperiod. Drfr kan vi kopiera dessa variabler frn en fregende

tidpunkt till den kommande. Ngra av dessa variabler r frldrarnas

fdelseland och fdelsedatum samt utbildningsniv.

2.2.2 Stressvariabler Vid ABIS:s alla moment har den psykoligiska stressen hos frldrarna

registrerats med hjlp av ett flertal variabler. Dock har inte alla frekommit i

varje frgeformulr, i vissa har det enbart frgats om en aspekt och i andra fall

4 Fr att se alla frndringar titta nrmare p SAS koden i Bilaga 2.

Materialbeskrivning

9

har en mer uttmmande utfrgning gjorts. En beskrivning av de stressmtt som

betraktas i denna uppsats fljer nedan.

Frldrar stress (Self-rated parenting stress): Frldrastress har mtts med Swedish Parenting Stress Questioannarie (SPSQ; stberg, Hagekull et al. 1997), vilket r en versttning och anpassning av Parenting Stress Index (Abidin 1990) till svenska frhllanden.(Nygren, 2010)

Anknytningsstil (Self-rated attachment style)5:

Anknytningsstil har mtts genom en svensk versttning av de 18 frgorna i

Relationship Scale Questionnarie, (RSQ) som utvecklats av Griffin och

Bartholomew (1994). RSQ var ursprungligen konstruerat fr att mta de tv

dimensionerna "modell av sjlv" och "modell av andra" samt fyra

anknytningsstilar. P grund av otillrcklig goodness-of-fit (Kurdek 2002;

Roisman, Holland et al. 2007) fr Griffin och Bartholomews modell har en

rekonstruktion gjorts av RSQs dimensionalitet som resulterade i tre

dimensioner.

(Nygren, 2010)

Svra livshndelser:

Sdana har registrerats via fljande frga: Har du sjlv utsatts fr ngot som du uppfattar som en svr livshndelse sen (specifik tidsperiod)? Vilken tidsperiod som gller r beroende frsts av frgeformulret (Nygren, 2010).

I femrsuppfljningens formulr har ven samma sak frgats om barnet.

Svaren som kommer att tas hnsyn till i denna uppsats r enbart ja och nej.

5 Stressvariabeln registreras i tre variabler som r berknade med hjlp av komponentanalys.

Materialbeskrivning

10

Frldrarnas oro (Parental worries): Med hjlp av ett antal punkter har det skattats hur orolig

frldern/frldrarna var av att deras barn skulle drabbas av saker som

t.ex. sjukdom, skada och/eller vergrepp (Nygren, 2010).

Barnets temperament:

Temperament har bedmts med en validerad justering av Child Characteristics Questionnarie (Lee och Bates 1985 se Nygren 2010, sida 3). lders-adaptation har gjorts fr frskolebarn och har anvnts i

2-3-rs-formulret.

Socialt std:

Med hjlp av en frga har det mtts om frlder/frldrarna knner att de har

tillrckligt std frn omgivningen fr dem sjlva och deras barn (Nygren 2010).

Svaren p frgan rknas med i SPSQ variabeln fr alla tidpunkter dr denna

registreras utom vid femrsformulret nr detta registreras separat.

I Tabell 2.3 ges en verblick av vilka stressvariabler som registrerats

i de olika frgeformulren.

Tabell 2.3 Parametrar som mter psykologiks stress vid varje tidpunkt.

Frgeformulr Variabler Fdelse 1 r 2-3 r 5-6 r

Frldrar stress - SPSQ X X X Anknytningsstil - RSQ X Svra livshndelser, (frldrar) X X X X Svra livshndelser, (barn) X Frldrarnas oro X X Barnets temperament X Socialstd i SPSQ i SPSQ X

Materialbeskrivning

11

2.3 Datamaterialets kvalitet Efter att datamaterialet har genomgtt de ovannmnda omformningarna har vi

frbttrat dess kvalitet, dock kan det finnas vissa faktorer som gr att analysen

nd inte grs p bst stt.

Ett av de strsta problemen r frekomsten av outliers (extremvrden), mot observationer som helt enkelt sticker ut ur mngden.

Orsakerna kan vara mnga drfr mste vi titta nrmare p dem. Det kan vara

att de extrema vrdena stmmer men det kan ocks vara att svaren har blivit fel

inmatade.

Vi kommer att ta hand om outliers infr regressionsanalysen, se

vidare metoddelen, avsnitt 3.2, dr vi frklarar nr och hur analysen ska

genomfras.

Nr vi beskrev variablerna ovan nmnde vi problemet med variabeln

barnets lder i mnader, mot att uppenbart felaktiga vrden observerats. Tyvrr r denna inte den enda variabel som uppvisat problem i det avseendet. I de flesta

frgeformulr nr det frgades om bostad, fanns variabeln bostadens antal kvadratmeter. Den finns inte med i vra analyser d svaren tenderade att inte spegla verkligheten. Sambandet mellan antal rum och kvadratmeter verkade i de flesta fall inte stmma, eftersom vldigt mnga kvadratmeter hade angivits. Vi

misstnkte en misstolkning av frgan och tog drfr bort den.

Metod

12

3. Metod

Ett stt att flja upp bortfallet i en studie r att gra en s kallad

dubbelsampling (Lohr, 1999). Med ett lyckosamt sdant frfarande kan de

slutsatser man drar frn insamlade data sgas vara giltiga fr hela populationen

och man behver egentligen inte studera bortfallet nrmare. Dock kan de svar

man fr in frn den grupp som initialt utgjorde bortfall (fas 1 i

dubbelsamplingen) anvndas fr att dra slutsatser om just denna grupp, t.ex. fr

att ge kunskap infr kommande liknande underskningar.

Ngon sdan bortfallsuppfljning har inte gjorts i ABIS-studien,

vilket frsts franleder att denna uppsats skrivs. Karaktristika om bortfallet

mste drfr uppskattas frn den information som trots allt finns om de

barn/familjer som successivt frsvinner ur underskningen. Vi antar drfr att de

som svarade p fdelseformulret r hela studiens population och att vid det

tillfllet inget bortfall fanns. Vi antar ven att barnen/familjerna som s

smningom blev bortfall hade redan sista gngen de svarade ngot speciell

knnetecken.

Kartlggningen av barnen/familjerna som tillhr bortfallet kommer

drfr att gras i flera etapper. Fr varje moment i ABIS-studien undersker vi

om de som besvarade frgeformulret var med vid nsta moment. P det sttet

kommer varje deltagande att identifieras som hrande till grupp 0 (om svarande

vid nsta moment) eller grupp 1 (om bortfall vid nsta moment). Utifrn den

grupperingen studerar vi om grupperna skiljer sig t, mot om bortfallsgruppen

har speciella knnetecken.

Vi har tidigare nmnt att det ven finns de som haft ett hackigt

deltagande, varit med vid ngot tillflle fr att sedan vara borta och drnst

komma tillbaka. Som ett frsk att f en mer vergripande beskrivning av dessa

kommer vi ven att gra en gruppering vid fdelseformulret dr vi ska frska

fnga olika mnster av deltagandet. P s stt kan vi kanske redan vid frsta

Metod

13

utfrgningen hitta ngot knnetecken som utmrker hur deras deltagande

kommer att vara.

Fr det sista momentet av studien, mot ttarsformulret kan vi inte

gra en sdan analys, d nstkommande uppfljningen nnu inte r avslutad.

Stressvariablerna som nmnts tidigare kommer inte att ing i brjan

av studien. Vra analyser kommer att brja med de variabler som r strikt

sociodemografiska. Nr vi ntt sista steget i analysen och (kanske) har ftt en

gruppering kommer vi att plocka fram stressvariablerna fr att se om de kan

tillfra ngot till de resultat vi ftt.

Alla etapper kommer d att mer eller mindre g igenom samma steg

drfr att vi vill t samma typ av information varje gng. I Tabell 3.1 redovisas

alla etapper. Tabell 3.1 - Etappens nummer och formulret som analyseras

Etapper Etapp 1 Fdelseformulret Etapp 2 Ettrsformulret Etapp 3 2-3rsformulret Etapp 4 5-6rsformulret Etapp 5 Fdelseformulret

Nu och framver kommer etapp anvndas som en benmning av de olika steg

som anvnds i denna uppsats och moment r de olika formulr, mot tidpunkter

som ABIS-studien delas i.

Fr att n uppsatsens syfte kommer en antal olika metoder att

anvndas, med den bakomliggande tanken att alla kan ge svar p

frgestllningarna men inte ndvndigtvis identiska svar.

Det frsta vi vill gra med datamaterialet r att visualisera

observationerna och d studera om en naturlig gruppering sker och om den

grupperingen stmmer med den vi skapat, mot bortfall och svarande.

Vi arbetar d med ett multidimensionellt rum, dr varje dimension

representeras av en variabel. Att visualisera hgdimensionell data och tolka det

Metod

14

vi ser r som regel frenat med stora svrigheter. Fr att minska antalet

dimensioner kommer Multidimensionell skalning att appliceras. Analysen fortstter med Hierarkisk klusteranalys, fr att ta fram

grupperingen genom en annan vg och drmed klassindela data i tv grupper.

Denna typ an klusteranalys har valts fr att den kan hantera bde kluster med

olika ttheter och kluster med olika former.

Fr att underska vilka variabler som kan vara mer relevanta fr

vrt syfte n andra kommer vi att anvnda oss av regressionsanalys. Tanken bakom detta r att de variabler som blir signifikanta i modellen kan vara

relevanta fr att beskriva bortfallet.

Vidare kommer de variabler som blir signifikanta i

regressionsanalysen att var och en jmfras med sedvanlig hypotesprvning mellan de svarande och bortfallet.

3.1 Multidimensionell skalning (MDS) Metoden bestr av tre steg. Den utgr frn en olikhetsmatris (dissimilarities = d) eller en avstndsmatris som bygger p avstnden mellan alla observationer

sinsemellan. Sedan anpassas en regressionsmodell dr dij (avstnd mellan objekt

i och j fr den resulterande konfigurationen) skattas med ij som r i sin tur avstndet mellan i och j men i indata. Modellen kan vara linjr, polynomial eller monoton. Grunden r d:

f

(Formel 1)

Antalet termer som funktionen i Formel 1 har bestmmer antal dimensioner som

representationen av data kommer att resultera i (Manly, 2005).

Metod

15

Kruskal nmner att i stllet fr att mtta hur bra skattningar

anpassas ska vi mtta hur dligt detta grs, genom att mtta badness of fit, (Kruskal & Wish, 1978) Diskrepansens mtt kallas d STRESS och definieras som:

(Formel 2)

Vilket blir ett vrde mellan 0 och 1.

Fr att hitta den optimala modellen fr ett visst antal dimensioner, ndras de

ursprungliga punkternas koordinater vid varje iteration till dess att STRESS -vrdet inte gr att minska ytterligare. Resultatet blir d de nya koordinaterna i

en matris med respektive antal dimensioner.

Fr att genomfra MDS i en mer hanterbart storlek gjordes ett slumpmssigt urval av 500 observationer frn datamaterialet. D variablerna r

p olika skalor kan inte det vanliga Euklidiska avstndsmttet anvndas, utan

fr distansmatrisen anvnds istllet mttet DGOWER.

, 1 , , s x, y r 5F6. (Formel 3)

Vi vill kunna hitta den lgdimensionella representation som bst anpassas till

data, drfr har vi valt att genomfra MDS fr mellan tv och nio dimensioner och sedan vlja den mest passande.

Fr att jmfra resultaten fr de olika valen av dimensioner anvnds

STRESS - mttet. Vi strvar efter att minimera STRESS men eftersom detta mtt minskar i takt att dimensionerna kar, s vi mste bestmma nr dessa r

balanserade. Vi kommer d att flja Kruskal rekommendationer. Dessa r att frst plotta STRESS mot antal dimensioner. Om ett hopp finns vid ett visst antal dimensioner r detta antal det lmpligaste. Annars utgr vi istllet frn

6 Hur berkningarna av Gower likhetskoefficienten gr till hnvisas

till SAS OnlineDoc 9.1.3, 2010 .

Metod

16

sjlva STRESS7-vrdet. Fr att hitta den optimala representationen fljs vissa tumregler som hjlper till att hitta balansen mellan litet STRESS-vrde och antal dimensioner. Dessa r: att antalet dimensioner inte ska minskas s att

STRESS blir hgre n 10 % och inte heller ska dimensionerna kas nr vrdet redan r 5 %, (Kruskal & Wish, 1978).

Vi kommer att visualisera resultatet av MDS med hjlp av programvaran Ggobi, fr att se om en naturlig gruppering sker,(Ggobi, 2010).

3.2 Klusteranalys Datamaterialet som ska klustras r det vi fick som resultat av MDS, mot

matrisen med koordinaterna fr de olika dimensionerna. Hrmed r alla

observationer p intervallskala och drfr kan vi anvnda Euklidiskta distansmtt. Vi vill inte frvrnga observationerna mer, d vi redan applicerat DGOWER distansen. Den Euklidiska distansen srprglas att vara den riktiga distansen mellan tv punkter. Denna distans berknas p fljande stt:

,

(Formel 4)

Vi kommer att testa tre olika lnkningsmetoder8: enkellnkning,

fullstndiglnkning och Wards metod fr att se vilken som ger bst resultat.

Resultatet av att ha separerat observationerna i kluster ska nnu n

gng visualiseras fr att se hur klustren stmmer verens med vr intressanta

gruppering.

7 Frn och med nu ska vi alltid referera till STRESS-vrdet i procent, mot vrdet av Formel 2

multipliceras med 100.

8 Fullstndig frklaring om hur varje lnkningsmetod gr till hnvisas till

SAS OnlineDoc 9.1.3, 2010.

Metod

17

3.3 Logistiskregression Analyserna kommer att gras fr det ursprungliga datamaterialet dr vi har alla

observationer och frsts alla variabler, det r ju de vi vill t. Vr modell ser ut

p fljande stt; alla variabler som r uttagna ur frgeformulren blir

frklarande variabler och den intressanta grupperingen blir responsvariabeln.

Etapp 1 till 4 har d en binr responsvariabel d den delas i tv

grupper bortfall och inte bortfall. Fr Etapp 5 mste vi vid rtt tidpunkt

analysera hur mnga grupper som r logiskt att forma9. Dessa kommer att vara i

alla fall fler r tv vilket resulterar i en kategorisk variabel med fler n tv

niver som responsvariabel

Fr sdana typer av responsvariabler r logistisk regression den lmpligaste regressionsmetoden; binr logistisk regression fr de fall dr vi har

binr responsvariabel och multinomial (polytom) logistisk regression nr vi har

fler n tv kategorier.

Innan vi genomfr analysen mste avvikande observationer som kan

ha stra modelleringen tas bort. En lmplig metod att hitta mjliga outliers r att gra en matris plott10 dr kan vi se alla variabler plottade mot varandra. I en

sdan plott identifieras som regel avvikande observationer .

Eftersom datamaterialet r s pass stort blir dock inte en sdan

matris plott verskdlig och vi fr lov att begrnsa oss till att studera lmpliga

val av spridningsdiagram mellan tv variabler i taget.

Den bkomliggande idn i logistiskregression r att berkna

sannolikheten fr respektive kategori i responsvariabeln att frekomma. Denna

sannolikhet betecknas vanligen , och med s.k. logit-lnk modelleras sambandet mellan och en frklarande variabel x som, (Agresti, 1990):

,

(Formel 5)

9 Hur antalet grupper ska bestmmas fr Etapp 5 tas upp i avsnitt 8. 10 En matris plott r flera spridningsdiagram sammanstllda i en matris.

Metod

18

Koefficienternas skattas med maximum-likelihood metoden. Tolkningen av skattade koefficienter grs vanligen med hjlp av s.k. oddskvoter, genom vilka

man mter frndringen av oddset fr en viss kategori i responsvariabeln i

jmfrelse med referenskategorin nr motsvarande frklarande variabel kar en

enhet Nr logit-lnk anvnds frenklas berkningen av oddskvoten till ibe , dr bi r den skattade lutningsparametern fr frklaringsvariabeln xi i modellen.

De kategoriska variablerna transformeras till flera dummyvariabler,

en fr varje niv. Nr vi har en multinomial respons variabel blir proceduren

likartad med skillnaden att fr varje kategori s skapas en binr respons

variabel. En av kategorierna vlj som referenskategori fr att resten ska

jmfras mot denna, (Kutner et al, 2005).

Fr att kunna vlja ut vilka variabler som r signifikanta ska vi

anvnda tre olika automatiska modell vals metoder. Dessa r:

Framtvalsprincipen, Baktelimineringsprincipen och Fullstndig stegvis regression. Signifikansnivn vljs genomgende till 5 %.

Framtvalsprincipen anpassar enkla regressionsmodeller med var och en av de frklarings variabler som finns med, fr att sedan vlja den variabel

som har hgst vrde p teststatistikan fr det signifikanstest som grs fr

motsvarande lutningsparameter (Walds test, se vidare Agresti (1990)). Om

motsvarande test r signifikant tas variabeln med i modellen. Successivt adderas

sedan en ny variabel enligt samma kriterium till dess att inga fler

signifikantavariabler kan fs med.

Baktelimineringsprincipen fungerar ungefr som fregende metod fast viceversa. Alla variabler r med frn brjan och vid varje steg tas den som

har lgst vrde p teststatistikan och dessutom inte r signifikant bort till dess

att alla kvarvarande variabler i modellen r signifikanta.

Fullstndig stegvis regression liknar framtvalsprincipen med den skillnaden att en variabel som tas med i modellen inte fixeras utan kan tas bort i

ett senare steg. Metoden pbrjas p samma stt som vid framtvalsprincipen,

men i varje steg tillmpas ven baktelimineringsprincipen som tar bort

variabler som inte r signifikanta.

Metod

19

Alla dessa metoder kan modellera bde med och utan intercept. Trots

att interceptet r svrt att tolka i en anpassad logistisk regressionsmodell ska vi

prva att modellera bde med och utan, d detta kan ge oss olika modeller att

vlja emellan. Detta resulterar att vi kommer att ha sex modeller, tv fr varje

modellvalsmetod frn vilka vi sedan vljer ut den bsta.

Bland de sex modeller som de stegvisa procedurerna resulterat i

vljer vi bsta modell utifrn mtten -2log L, AIC och SC. Vi sker efter

modellen som ger de minsta vrde fr dessa mtt, (Kutner et al , 2005).

Resultatet blir inte d att en och samma modell fr de minsta vrden fr alla

dessa jmfrelsemtt, vilket tvingar oss att vlja den som har mest antal sm

mtt.

Hr fljer en frklaring av mtten11:

-2 Log Likelihood,(-2Log L):

2 2 log ,

(Formel 6)

Akaikes Information Kriterium (AIC):

2 2 , (Formel 7)

Schwarz Bayesianka Kriterium (SBC eller SC):

2 log

(Formel 8)

Vi ska dessutom anvnda antalet variabler i modellen som ett jmfrelsetal och

ven hr r den modell som har lgst antal variabler att fredra.

Efter att en modell blivit vald kan modellens anpassning till

datamaterialet analyseras. Fr att gra en sdan modelldiagnostik finns det 11 SAS Institute, 2010, (http://support.sas.com/onlinedoc/913/docMainpage.jsp).

Metod

20

mnga mtt och analyser som kan genomfras, men vi ska anvnda det mest

enkla fr att se om modellen uppfyller vra krav p kvalitet.

Vi ska vi studera hur mnga av vra observationer som hamnar i rtt

grupp, bortfall eller ej, med hjlp av modellen. Eftersom logistiskregression

berknar sannolikheten att en observation tillhr en viss kategori mste vi stta

en grns i detta sannolikhetsvrde som avgr till vilken grupp en barn/familj

tillhr. Grnsen vi vljer vi i denna studie till p 0,5.

3.4 Jmfrelser per variabel Frn regressionsanalysen skall vi normalt ha ftt ett mindre antal variabler att

arbeta med. Om det skulle vara s att den resulterande modellen inte r

tillrckligt bra skall vi genom variabeljmfrelser mellan grupperna se om ngon

variabel kan tas bort.

Tanken r att fr varje variabel i modellen gra en lmpligt test fr

att se om en skillnad i medelvrde (eller median) mellan grupperna r

signifikant eller ej. Om den inte r det kan variabeln vervgas att vljas bort

infr en ny regressionsanalys. Fr att frtydliga s menar vi allts att ven om

variabeln ifrga har blivit signifikant i den modell som resulterat efter

modellvalsproceduren, s vill vi nd bedma hur vl den skiljer sig mellan

grupperna. En alltfr liten skillnad i medel/medianvrdesmening anser vi vara

argument fr att inte inkludera den i en regressionsmodell.

Vilka tester det blir bestms av skalan hos respektive variabel . De

test som kan bli aktuella r tecken test, chi-tv test och t-test.

Tecken test Nollhypotesen r att medianen r lika med 0. Test statistiska: 2 (Formel 9)

dr n+ och n- r antal vrde som r strre respektive mindre n 0.

Metod

21

P-vrde: Pr | | | | 0.5 , (Formel 10) dr nt r antalet observationer skilda frn 0. OBS! Om n+ och n- r lika d r P-vrdet lika med 1. Chi-tv test Med testet prvas om observationerna strider mot nollhypotesen om oberoende mellan tv variabler, (Vejde & Leander, 2000). Test statistiska: (Formel 11) dr O och E str fr observerad respektive frvntad frekvens. T-test Med testet prvas om differensen av tv medelvrde r lika med ett postulerade vrde under nollhypotesen, (Tamhane & Dunlop, 2000). Test statistiska:

(Formel 12)

dr r det observerade urvalsmedelvrdet, s observerade standaravvikelsen och r det postulerade vrdet av medelvrdet under nollhypotesen. Frihetsgrader: 2 (Formel 14)

3.5 Program Fljande program kommer att anvndas fr att utfra de statistiska analyserna:

SAS 9.1, SAS Institute Inc.

Minitab 16 Statistical Software, Minitab.

PASW Statistics 18, (f.d. SPSS), Microsoft.

Ggobi

Etapp 1 - Fdelseformulret

22

4. Etapp 1 Fdelseformulret

Kommentar: Av den orsaken att alla etapper kommer mer eller mindre att flja samma steg kommer de mest frdjupande frklaringarna och resonemangen att gras bara i detta avsnitt.

4.1 Frgor och variabler Ur frgeformulret12 valdes ut totalt 20 frgor som efter lmpliga

transformationer resulterade i 16 variabler13. Frn visa frgor skapades fler n

en variabel men det var ven s att flera frgor sammanstlldes i en variabel.

Mnga av de valda frgorna hr till tiden d mamman var gravid.

Sdana frgor r ndvndiga om vi vill komma s nra barnets och familjens

situation som mjligt. Detta gller frgorna som har att gra med

sysselsttningen fr bda frldrarna samt hur och var mamman bodde. Dessa

frgor bedms som viktiga utifrn en allmn uppfattning om att en barnafdelse

r en vndpunkt fr mnga dr livsfrhllandena ndras.

Mamman fick tillfllet att svara p dessa frgor strax efter fdelsen. I

detta lge r det inte alla som upplevt vndpunkten vilket gr att det r svrt att

frga om den aktuella situation, som t.ex. arbete, bostad etc. D det skulle det

finnas risk att frgorna (och svaren) blev fr diffusa, valde man att frga hur

dessa sociodemografiska aspekter var under sjlva graviditeten.

Nr det gller pappans arbete hittade vi ett fel i frgeformulret, som

gjorde att de svarande br ha missfrsttt frgan. Nedan i Figur 4.1 kan man se

exakt hur frgorna kring pappans arbete var formulerade.

12 Fr hela frgeformulret, se Bilaga 1, dr det ven finns markerat vilka frgor som valdes.

13 Variablernas namn och frklaring finns i Bilaga 3.

Etapp 1 - Fdelseformulret

23

Figur 4.1 - stycke ur fdelseformulret

Som vi kan se s ska pappan i frga nr 64 ange information om sin

sysselsttning ret innan graviditeten. I den nstkommande frgan (nr 65) vill

man veta orsaken till att han inte yrkesarbetade men d r det under

graviditeten. P det stt som frgorna har blivit formulerade s r det nra till

hands att man som respondent svarar p orsaken till varfr man inte arbetade

ret innan.

Detta missfrstnd kunde vi klart och tydligt se i de svar vi fick, de

som hade svarat nej i frga nr 64, var de som gav orsaken i frga nr 65. Nr

pappan senare skulle svara p frga nr 66 s skrev de flesta samma sak som de

hade svarat i textfltet fr frga nr 64. Detta missfrstnd hade undvikits om

frgorna hade varit vl formulerade och separerade frn varandra.

Som en konsekvens av detta kan vi inte heller lita p svaren p frga nr 66a eller

de fregende frgorna.

Trots det s tyckte vi att sysselsttningen beskriver en mycket viktig

aspekt av en mnniska och dess familj, speciellt om man vill analysera ur en

Etapp 1 - Fdelseformulret

24

sociodemografisk synvinkel. Detta gr det svrt fr oss att kasta bort den

information vi har bara fr att den inte r tillfrlitlig.

Fr att lsa dilemmat valde vi att i variabeln pappas sysselsttning redovisa dennes sysselsttning ret innan graviditeten och under graviditeten.

De svar som vi kommer att anvnda oss av r de vi fick p frgorna 64, 65 och

66a och d tcker vi de som svarade rtt och de som frstod frgorna p fel stt.

Med detta gr vi d antagandet att under den tidsperioden borde inte svaren ha

ndrats till ngon betydande del. Den hr delen av analysen kommer d att ha

fljande variabler14:

Mammans fdelser

Mammans lder vid barnets fdelse

Mammans utbildningsniv

Mammans fdelseland

Familjesituation

Hur mamman bodde under graviditeten

Mammans sysselsttning under graviditeten

Pappans fdelser

Pappans lder vid barnets fdelse

Pappans utbildningsniv

Pappans fdelseland

Pappans sysselsttning fre graviditeten

Pappans sysselsttning under graviditeten

Antal syskon som barnet har

Antal personer som bor i den nuvarande bostaden

Antal rum i den nuvarande bostaden

Variabeln som anger om ett barn/familj vid ABIS-studiens nsta

tillflle blir bortfall eller ej finns dessutom med, den kallas grupp och r lika med 0 om ej bortfall och lika med 1 om familjen tillhr bortfallet. 14 Fr mer omfattande information om variablerna och deras svarsalternativ se

Bilaga 3.

Etapp 1 - Fdelseformulret

25

4.2 Resultat och analys Som vi har beskrivit i metoddelen s vill vi se om data grupperas p ett naturligt

stt och drefter om den grupperingen stmmer verens med den gruppering vi

r intresserade av, mot om barn/familj blir bortfall eller ej vid studiens

nstkommande tidpunkt.

4.2.1 Multidimensionell skalning (MDS) Vi har 16 variabler dr varje variabel bidrar med en dimension till vrt

datamaterial. Att hantera ett s hgdimensionellt rum blir d som vi tidigare

sagt svrt. Det r drfr ndvndigt att applicera en procedur p materialet dr

vi frsker minska antalet dimensioner, och detta r vad en sdan metod som

multidimensionell skalning gr. Metodiken appliceras p vrt urval av 500

observationer.

Vi brjar med att frska avgra lmpligt antal dimensioner fr

tillmpning av MDS. Underfrsttt r att antalet dimensioner skall vljas s

litet som mjligt utan strre frlust av god anpassning till data. Vi prvar drfr

metoden p dimensionstal mellan tv och nio fr att empiriskt kunna bestmma

vad som verkar bli bst.

Nedan i Figur 4.2 har resultatet plottats, den horisontella axeln visar

antal dimensioner medan i den vertikala axeln r STRESS-vrdet15 redovisat.

15 Fr en utkad frklaring av STRESS-vrdet, se metoddelen, avsnitt 3.1.1

Etapp 1 - Fdelseformulret

26

Figur 4.2 Stress-vrde mot tillhrande antal dimensioner

Om vi i Figur 4.2 hade ftt en markerad brytning i linjen kunde vi tydligt ha

kunnat se hur mnga dimensioner som gett en bra representation, men s r inte

fallet. Kurvan minskar i niv men p ett ganska jmt stt, och drfr mste vi

titta nrmare p STRESS - vrdena. I Tabell 4.1 kan vi se hur bra eller dligt varje lgdimensionell

representation anpassas till de verkliga data.

Att STRESS-vrdet r s pass hgt nr vi terger datamaterialet i ett tvdimensionellt rum r inte ngon verraskning, eftersom vrt ursprungliga

antal dimensioner r s hgt som det r. Vi kan inte vara fr optimistiska i vra

frvntningar p resultatet frn en multidimensionell skalning, den kommer att

ge oss en representation med frre dimensioner men den kommer inte att vara

den optimala infr den grafiska framstllningen.

0%

5%

10%

15%

20%

25%

30%

0 2 4 6 8 10

Stre

ss

Antal dimensioner

Etapp 1 - Fdelseformulret

27

Tabell 4.1- Resultat av MDS fr olika antal dimensioner

Antal Dimensioner Badness of fit* Stress

2 0.24464 24.46% 3 0.17386 17.39% 4 0.13616 13.62% 5 0.10866 10.87% 6 0.08932 8.93% 7 0.07750 7.75% 8 0.06764 6.76% 9 0.05916 5.92%

*Konvergenskriterierna r uppfyllda fr alla dimensioner och maximalt antal iterationer var satt till 50.

Enligt Kruskals rekommendationer16 r det optimala antalet dimensioner sex,

detta efter att ha bekrftat att fr just det antalet r konvergenskriterierna

uppfyllda innan iterationerna tagit slut.

Nr vi nu har ftt en representation av vrt datamaterial i ett mer

hanterbart antal dimensioner skall vi visualisera fr att se om ngon gruppering

sker p ett naturligt stt.

MDS visualisering Fr att ge en bttre verskdlighet visar vi i figur 4.3 samma graf ur tre olika

vinklar, eftersom den omfattar alla sex dimensioner.

16 Kruskals rekommendationer gs igenom i avsnitt 3.1.

Etapp 1 - Fdelseformulret

28

Figur 4.3- MDS - Sexdimensionell helikoptervy frn tre olika vinklar dr grupperna r srskilda

Som vi kan se s delas observationerna i tv ganska separerade grupper, men

nr vi sedan har markerat vilka som hr till vilken grupp, kan vi tydligt se att

den efterskta grupperingen (i bortfall resp. ej bortfall) inte stmmer verens

med denna separation.

ven om vi inte kan hitta den gruppering vi nskar i Figur 4.3 ska vi

inte vid det hr stadiet pst att grupperingen inte finns. Som vi ppekat i

brjan av denna uppsats r visualisering av hgdimensionell data svr att tolka.

ven om vi kraftigt minskat antalet dimensioner, kan vi inte bortse frn att sex

Etapp 1 - Fdelseformulret

29

dimensioner fortfarande r hgt. Vi gr drfr vidare med materialet med hjlp

av klusteranalys.

4.2.2 Hierarkisk klusteranalys En av de problem som vi hade frn brjan var de typer av variabler vi har att

gra med. De flesta var p nominalskala, men vi har ven variabler p intervall-

och p ordinalskala. Detta medfr att vi har mixade typer av variabler. Men efter

att ha applicerat multidimensionell skalning p vra data har den

sexdimensionella representationen bara kontinuerliga variabler. Med dessa r

det mjligt att gra klusteranalys fr att se om ngon gruppering sker utver det

vi sg innan.

Figur 4.4 till 4.6 visar resulterande dendrogram efter att klustring

gjorts med de tre valda lnkningsmetoderna17.

Figur 4.4 Dendrogram med enkel lnkning

Enkellnknig mellan observationerna ger inte ngra grupperingar, detta kan vi

se i Figur 4.4 d barn/familjer inte verkar kunna separeras i tv grupper.

17 Utkad frklaring av lnkningsmetoder finns i metoddelen avsnitt 3.1.2 .

Etapp 1 - Fdelseformulret

30

Vid fullstndig lnkning (Figur 4.5) kan vi se att tv grupper kan

tydas ut (markerat med den vgrta linjen).

Figur 4.5 Dendrogram med fullstndiglnkning

Dock r det inte strre avstndsskillnad n fr de andra sammanlagningarna.

Det r lite tveksamt om dessa r de bsta kluster vi kan f.

Nr vi gjort klusteranalys med hjlp av Wards metod (Figur 4.6) kan

vi hgst tillfrlitligt sga att tv kluster kan identifieras, de r markerade med

den horisontella linjen. Analysen hittar allts tv grupper av observationer,

vilket r just vad vi skte efter.

Etapp 1 - Fdelseformulret

31

Figur 4.6 Dendrogram med Wards minsta-varians metoden

Vi mste komma ihg att vi redan hade sett att detta hnde nr vi visualiserade

den sexdimensionella representationen. Mlet med klusteranalysen var att hitta

ngon annan gruppering, en gruppering som var lik den gruppering vi r

intresserade av, nmligen om barnet/familjen r bortfall eller inte.

Eftersom Wards minsta-varians-metod ger de tv mest distinkta

klustren fortstter vi med den metoden. Nsta steg r att nnu en gng

visualisera resultatet.

Kluster visualisering Alla dimensioner behver inte gs igenom, det rcker med en graf av tv

dimensioner fr att kunna se hur klustringsproceduren grupperar

observationerna. Drefter kan denna gruppering jmfras med den vi har i form

av bortfall/ej bortfall.

I Figur 4.7 har vi plottat de tv frsta dimensionerna frn den

multidimensionella skalningen mot varandra. Plotten visar en tydlig uppdelning

i de tv kluster som r resultatet av lnkningen med Wards metod.

Etapp 1 - Fdelseformulret

32

Figur 4.7 Dimension1 vs Dimension 2 dr klustren har markerats

Av de 500 observationerna i urvalet har 189 hamnat i kluster 2. Diagrammet i

Figur 4.8 visar hur klustren frdelar sig ver bortfallen och svarande, varje frg

markerar ett kluster.

Figur 4.8 Grupper mot kluster

Tydligt noteras att klusteranalysen inte heller frmr att skapa en gruppering av

observationerna som r samstmmig med den intressanta grupperingen.

Orsaken till detta kan vara att kanske inte alla de variabler som valdes ut frn

brjan r relevanta.

Etapp 1 - Fdelseformulret

33

Vi kommer fortsttningsvis att modellera datamaterialet med hjlp

av regressionsanalys. Om vi hittar en bra modell kan vi med hjlp av den

identifiera vilka variabler som r relevanta fr att srskilja bortfallen frn de

svarande.

4.2.3 Modellering Regressionsanalysen kan vi gra fr alla observationer, mot ingen begrnsning i

form av ett urval behvs Dock kan vr modell pverkas av frekomsten av

outliers18 och drfr mste vi frst och frmst frska identifiera sdana observationer.

Outliers De tv graferna i Figur 4.9 och 4.10 visar vilka kombinationer av variabler som

markerade mjliga outliers.

I Figur 4.9 plottar vi antal personer i bostaden mot antal rum i bostaden och dr kan vi se att fr 20 barn/familjer har det blivit registrerat att ett hgt antal personer bor i en liten lgenhet.

18 Vad en outlier r frklaras i avsnitt 2.3.

Etapp 1 - Fdelseformulret

34

Obs! Fr bda variablerna anges vrdet noll fr observationer med saknade

vrden.

Figur 4.9 Antal rum i bostaden mot Antal personer i bostaden, med markerade outliers

Trngboddhet19 kan naturligtvis inte bortses frn, men vi har nd valt att stta

en rimlighetsgrns, och drfr har vi valt att betrakta observationer dr fyra

eller fler personer bor i en etta eller tva som outliers var fr dessa tas bort.

Vi mste ven komma ihg att eftersom det hr formulret var ifyllt

vid barnets fdelse s r inte det nyfdda barnet medrknat i antalet personer

som bor i bostaden.

Frldrarnas utbildningsniver r plottade mot varandra i Figur 4.10.

Utbildningsniverna r sex till antalet och svarsalternativen gr frn 9-rig 19 Definition av trngboddhet enligt norm 3: Fler n tv boende per rum, kk och ett rum

orknade, samt enpersonshushll i ett rum och kk eller mindre. Finns samboende i hushllet

reduceras rumskravet med ett rum. (Boverket, 2010).

Etapp 1 - Fdelseformulret

35

grundskola till hgskole/universitetsutbildning, 3,5 r eller mer. Obs! Fr bda variablerna anges vrdet -1 fr observationer med saknade vrden.

Figur 4.10 Mammans utbildningsniv mot Pappans utbildningsniv, med markerade outliers

Vi kan se att fyra observationer inte stmmer verens med de svarsalternativ

som fanns med i formulret. De vrden det handlar om r 0 och 8, som inget av

dem r mjliga svar. Drfr tas inte dessa med i de kommande analyserna.

Att bara fyra variabler redovisas betyder inte att det i andra

variabler inte hade kunnat finnas outliers. En extensiv analys gjordes fr

samtliga variabler och deras mjliga kombinationer men enbart de rapporterade

kombinationerna gav utslag20.

20 En fullstndig lista av de borttagna barnens/familjens id-nummer finns i en konfidentiell kopia

hos Maria Nygren ABIS studien.

Etapp 1 - Fdelseformulret

36

4.2.4 Regressionsanalys Med samtliga observationer (utom de som blev borttagna pga. att de var outliers)

och med de 16 variabler, som vi har valt som mjliga frklaringsvariabler till

frekomsten av bortfall, gr vi en logistisk regressionsanalys, med selektion av

variabler via olika metoder21, Vi antar d att de variabler som blir kvar i

modellen r de som avgr huruvida en familj tillhr gruppen av de svarande eller

icke svarande.

Innan vi brjar med regressionsanalysen mste vi ta hnsyn till om

variablerna r korrelerade med varandra eller inte. Hgkorrelerade variabler br

undvikas d de tillfr modellen samma typ av information, och riskerar att

influera parameterskattningarna och deras eventuella signifikanser.

Korrelations studie Vi studerar hr korrelationer mellan par av variabler p intervallskala (andra

skalor r inte frenliga med korrelationsmttet).

Vi utgr frn att en korrelation r hg nr den verstiger det

absoluta vrdet av 0,8 och i Tabell 4.2 kan vi se vilka par av variabler som enligt

denna definition r hgkorrelerade. Hela korrelationsmatrisen finns i Bilaga 4

Tabell 4.2 Variabelpar som r hgkorrelerade med varandra Hgkorrelerade variabler

Pearson korrelationskoefficient syskon antal personer i bostaden 0.863 mammans lder mammans fdelser -0.989 pappans lder pappans fdelser -0.992

Trots att tre variabelpar r hgkorrelerade kommer dock inte en variable i varje

par att tas bort. Fr just variablerna i dessa par finns mjligheter att de kanske i

alla fall bidrar med olika typer av information till vra framtida analyser.

21 Selektionsmetoderna frklaras i metod delen ,avsnitt 3.3.

Etapp 1 - Fdelseformulret

37

Vi kan inte gra sdana bedmningar i ett s tidigt stadium av vr

studie, och vi utgr frn att nr vi gr regressionsanalysen och vljer modellen

med hjlp av olika selektionsmetoder, s kommer dessa metoder att per

automatik vlja bort verfldiga variabler.

Modellval I metoddelen, avsnitt 3.3 finns det redovisat vilka selektionsmetoder som

anvnds, men fr att pminna s r de: Framtvalsprincipen, Baktelimineringsprincipen och Fullstndig stegvis regression.

Datamaterialet har partiellt bortfall och det verkar inte ligga ngon

systematik bakom det, mot det r inte s att en speciell typ av barn/familj str

fr dessa. Drfr kan vi ignorera dessa observationer och fortstta med

regressionsanalysen, (Lohr, 1999) och det terstr d 1867 observationer att

tillg fr regressionsanalysen

I Tabell 4.3 kan vi se vilka variabler som kom med i de resulterande

modellerna. Regressionsanalysen har gjorts med hjlp av de tre ovannmnda

selektionsmetoderna och har ven innefattat test att bde att ha och inte ha med

intercept i modellerna.

Etapp 1 - Fdelseformulret

38

Tabell 4.3 Variabler som valdes som signifikanta fr alla byggda modeller

Regressionsmodeller Selektions

metod Framtvalsprincipen Bakteliminerings

principen Fullstndig stegvis

regression Intercept Ja Nej Ja Nej Ja Nej

Varia

bler

ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_rum ant_rum ant_rum ant_rum ant_rum ant_rum fam_sit fam_sit fam_sit fam_sit fam_sit fam_sit ma_arb ma_alder ma_alder ma_alder ma_alder ma_alder ma_fod_ar ma_arb ma_arb ma_arb ma_arb ma_arb ma_typbo ma_typbo ma_fod_ar ma_fod_ar ma_typbo ma_typbo pa_fsve pa_fsve ma_typbo ma_typbo pa_fsve pa_fsve syskon syskon ma_utb ma_utb syskon syskon pa_fsve pa_fod_ar pa_utb pa_fsve syskon pa_utb syskon

Modell nummer 1 2 3 4 5 6

Vi kan se att fr alla modeller kom ungefr samma variabler med, dock r

antalet variabler hgre fr modellerna skapade med bakteliminering.

I alla modeller kom bde antal personer i bostaden och antal syskon med, trots att variablerna r hgkorrelerade. D bde framtvalsprincipen och

fullstndigt stegvis regression r kapabla att slla ut korrelerade variabler,

strker detta vrt tidigare beslut att inte rensa bland de hgkorrelerade

variablerna.

I Tabell 4.3 angavs till varje modell ett nummer, och i de fljande

kommentarerna anvnds dessa nummer fr att referera till modellerna . De

mtten fr varje modell som vi ska anvnda fr att vlja fram den bsta

redovisas i Tabell 4.4. Frklaring av dessa mtt finns i avsnitt 3.3, Metod delen.

Etapp 1 - Fdelseformulret

39

Tabell 4.4 Jmfrelsetal fr de byggda modeller

Modell selektion Modell 1 2 3 4 5 6 AIC 17168.778 17172.609 17163.257 17169.867 17172.609 17172.609 SC 17297.149 17293.429 17374.691 17381.302 17293.429 17293.429 -2LogL 17134.778 17140.609 17107.257 17113.867 17140.609 17140.609

Antal variabler 8 8 11 12 8 8

Notera att modell 2, 5 och 6 har exakt lika stora vrden fr alla mtt och

dessutom r deras vrden p SC vart och ett det lgsta. Om vi ska vlja modell

efter kriteriet att den modell som har lgst vrde i flera mtt r bst, kan ingen

modell vljas d dessa egentligen r samma modell eftersom

selektionsmetoderna valde lika. Mer detaljerade redovisningar av den valda

modellen finns i Bilaga 5.

Modelldiagnostik Frn de 14062 observationer som anvndes fr att gra regressionsanalysen s

var 9692 (68,9 %) frn de svarande och 4370 (31,1 %) frn bortfallet. Tabell 4.5

visar hur mnga i varje grupp som klassificerades rtt och hur mnga som inte

gjorde det. Observera att vi har satt klassifikationsgrnsen vid 0,5.

Tabell 4.5 Klassifikations-tabell

Klassifikations-tabell Frekvenser

Svarande Bortfall Totalt Korrekt 9582 103 9685 Inkorrekt 110 4267 4377

Procent Korrekt 98.9% 2.4% 68.9%

Barn/familjer frn gruppen ej bortfall klassificerades rtt i en vldigt hg

utstrckning, nstan 99 % av observationerna hamnade i rtt klass. Dremot s

Etapp 1 - Fdelseformulret

40

blev bara ett ftal barn/familjer i bortfallsgruppen korrekt klassificerade, endast

2,4 %.

Eftersom den slutliga modellen visar p dlig frmga att klassificera

korrekt till bortfallsgruppen, r den inte acceptabel utifrn det ml vi har med

denna studie. Vgen fram till denna modell har dock medfrt ett inringande av

de frklaringsvariabler som trots allt verkar bst frklara att ett barn/familj

tillhr bortfallsgruppen. Fr att underska om vi kan reducera antalet

frklaringsvariabler ytterligare kommer vi fortsttningsvis att ska signifikanta

skillnader mellan svarandegrupp och bortfallsgrupp med avseende p lgesmtt

fr de utvalda variablerna.

4.2.5 Jmfrelser per variabel Antalet frklaringsvariabler har halverats som resultat av selektionsmetoderna,

i brjan var det 16 variabler och nu r det 8 som kvarstr. Dessa r: Antal personer i bostaden, Antal rum i bostaden, Familjesituation, Mammans lder, Mammans sysselsttning under graviditeten, Mammans typ av boende under graviditeten, Pappans fdelseland (Sverige eller ej) samt Antal syskon.

Ngra av dessa variabler kan jmfras med avseende p lge

(medelvrde eller median) mellan de tv grupperna svarande och bortfall. Fr

andra variabler kan oberoendetest gras mellan variabeln och huruvida

barnet/familjen tillhr svarandegruppen eller ej. Avsikten med detta r att ska

minska mngden frklarande variabler ytterligare fr att p nytt gra en

regressionsmodell.

Antal personer i bostaden Det finns ett antal olika tester som kan gras fr att underska om grupperna

skiljer sig frn varandra nr det gller antalet personer i familjens bostad. Dock

mste ngra antaganden gras. Fr regressionsanalysen antogs att den hr

variabeln r p intervallskala.

Etapp 1 - Fdelseformulret

41

I den jmfrelse som grs nedan utgr vi dock inte frn detta

antagande utan behandlar variabeln som vore den p ordinalskala, detta medfr

att vi testar fr medianen. I Figur 4.11 kan vi se hur observationerna frdelas.

Figur 4.11 Frdelning av barn/familjer genom antal personer i bostaden separerad per grupp

Medianen fr bda grupperna r lika med 3 och bda har samma intervall av

vrden, (minimum 1 och maximum 9).

H0: Medianen fr bortfallet r lika med 3 Ha: Medianen fr bortfallet r inte lika med 3

Tecken test: M -361.5

P-vrde

Etapp 1 - Fdelseformulret

42

Figur 4.12 Frdelning av barn/familjer genom antal rum i bostaden separerad per grupp

H0: Medianen fr bortfallet r lika med 4 Ha: Medianen fr bortfallet r inte lika med 4

Tecken test: M 70.5

P-vrde 0.024

Frkastar H0 d P-vrdet r lgre n konfidensgrnsen av 0,05. Vi kan inte anta

att gruppernas median r lika.

Familjesituation Fr variabeln familjesituation anvnder vi ett oberoendetest d denna variabel r kategorisk. Figur 4.13 visar hur observationernas frdelas.

Etapp 1 - Fdelseformulret

43

Figur 4.13 Frdelning av barn/familjer genom familjesituation separerad per grupp

H0: Frdelningen mellan de olika alternativen i familjesituation r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i familjesituation r beroende av vilken grupp barnet/familjen tillhr.

Test: Frihetsgrader 2 2 49.7939 P-vrde

Etapp 1 - Fdelseformulret

44

Figur 4.14 Frdelning av barn/familjer genom mammans lder separerad per grupp22

En jmfrelse mellan mammornas medelldrar i de tv grupperna kan d gras

med ett vanligt t-test.

H0: Medelvrdet r lika fr bda grupper Ha: Medelvrdet r inte lika fr bda grupper

T-test: t 6.96 antagande om lika

varianser P-vrde

Etapp 1 - Fdelseformulret

45

Mammans sysselsttning under graviditeten Fr denna variabel anvnder vi ett oberoendetest. Tabell 4.6 visar hur svaren

frdelas.

Tabell 4.6 Frdelning av barn/familjer genom mammans sysselsttning separerad per grupp

Mammans sysselsttning

Svarande Bortfall Total Arbetar heltid 4646 1874 6520 44.05% 38.00% 42.12% Arbetar deltid 0-50% 783 410 1193 7.42% 8.31% 7.71% Arbetar deltid 51-90% 3249 1410 4659 30.80% 28.59% 30.10% Pgende utbildning 625 405 1030 5.93% 8.21% 6.65% Sjukskriven 254 205 459 2.41% 4.16% 2.97% Arbetsls 548 388 936 5.20% 7.87% 6.05% Annat skl 442 239 681 4.19% 4.85% 4.40% Total 10547 4931 15478 100.00% 100.00% 100.00%

H0: Frdelningen mellan de olika alternativen i mammans sysselsttning r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i mammans sysselsttning r beroende av vilken grupp barnet/familjen tillhr.

Test: Frihetsgrader 6 2 142.137 P-vrde

Etapp 1 - Fdelseformulret

46

Mammans typ av boende under graviditeten Figur 4.15 visar hur observationerna frdelas mellan de olika kategorierna av de

bda variablerna.

Figur 4.15 Frdelning av barn/familjer genom mammans typ av boende under graviditeten separerad per grupp

H0: Frdelningen mellan de olika alternativen i mammans typ av boende under graviditeten r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i mammans typ av boende under graviditeten r beroende av vilken grupp barnet/familjen tillhr.

Test: Frihetsgrader 2 2 95.7788 P-vrde

Etapp 1 - Fdelseformulret

47

Pappan fdd i Sverige eller ej I Figur 4.16 redovisas hur svaren frdelas bland de tv variablerna, pappans

fdelseland och grupp. Fr svarsalternativen vet ej r andelen s liten att den

inte syns i grafen. Fr de svarande r andelen lika med 0.02% och fr bortfallet

lika med 0.10 %.

Figur 4.16 Frdelning av barn/familjer genom pappans fdelseland separerad per grupp

P grund av det totala antalet svar i kategorin vet ej fr variabeln fdelseland

r s pass litet kan vi inte anvnda oberoende testet fr tre kategorier hos denna

variabel. Istllet slr vi ihop kategori 2 och 3 mot, att fadern inte r fdd i

Sverige samt att han inte vet om han r det. Detta gr det mjligt att utfra

testet, (Tamhane & Dunlop, 2000).

H0: Frdelningen mellan de olika alternativen i pappans fdelseland r oberoende av vilken grupp barnet/familjen tillhr. Ha: Frdelningen mellan de olika alternativen i pappans fdelseland r beroende av vilken grupp barnet/familjen tillhr.

Test: Frihetsgrader 1 2 63.9034 P-vrde

Etapp 1 - Fdelseformulret

48

Nollhypotesen frkastas och beroendet mellan variablerna antas.

Antal syskon ven fr variabeln antal syskon som ett barn har vid fdelsen har det antagits i

de tidigare gjorda analyserna att den var intervallskala. Nu utgr vi stllet frn

att den r p ordinalskala och medianen testas. Den r lika med 1 fr bda

grupper och ven intervallet r lika. I Figur 4.17 redovisas observationernas

frdelning.

Figur 4.17 Frdelning av barn/familjer genom antal syskon separerad per grupp

H0: Medianen i bortfallet r lika med 1 Ha: Medianen i bortfallet r inte lika med 1

Tecken test: M -223.5

P-vrde

Etapp 1 - Fdelseformulret

49

Diskussion Mlet med att gra alla tester var att hitta vilka variabler stack ut. Detta gjorde

vi genom att testa om skillnader fanns mellan de olika frklarande variablerna i

vr regressionsmodell nr vi separerade i de intressanta grupperna.

Eftersom alla tester har gett signifikanta resultat och drmed

signifikanta skillnader mellan grupperna blir slutsatsen att ingen variabel kan

tas bort.

Det var del av uppsatsens syfte att testa om stressvariablerna som

registrerats via frgeformulret kan ha pverkan p om en barn/familj blir

bortfall. Drfr ska vi ge regressionsmodellen en ny chans genom att tillgga

stressvariabeln som registrerades vid fdelsen.

4.2.6 Regressionsanalys med stressvariabeln I den fregende regressionsanalysen hade en modell resulterat som den bsta

trots att den fick kasseras fr att den inte klassificerade bra observationerna

mellan grupperna. Nu lgger vi till stressvariabeln svra livshndelser fr att se om det fr ngon positiv effekt ver modellen23.

I Tabell 4.7 ges de tre jmfrelsetalen som hjlper oss att jmfra

modeller emellan.

Tabell 4.7 Jmfrelsetal fr modell med stressvariabel

Modell med stressvariablerna AIC 18296.483 SC 18425.874 -2LogL 18262.483

Alla dessa mtt r lgre fr den ursprungliga modellen: AIC 17172,6

SC 17293,4 och 2LogL 17140,6, vilket tyder p att den nya modellen inte blir

bttre en den fregnga.

23 Detaljer av modellen finns i Bilaga 5.

Etapp 1 - Fdelseformulret

50

I Tabell 4.8 kan vi ven se, den nya variabeln (sle_b) inte r signifikant och br

d tas bort. Detta betyder att denna variabel inte ger ngon ny information till

modellen och drfr kan den inte frbttras.

Tabell 4.8 Variablernas signifikans i modellen med stress variabeln

Variabler i den nya modellen P-vrde pa_fsve

Etapp 1 - Fdelseformulret

51

4.3 Etapp 1 Sammanfattning Ur det frgeformulr mamman fick fylla i nr barnet fddes valdes det 20 frgor

som innefattade 16 variabler. Genom multidimensionell skalning och hierarkisk

klusteranalys frskte vi upptcka om den valda variabel sammansttningen

frorsakade att barnen/familjerna kunde klassificeras i grupperna av de

svarande och de icke-svarande.

Trots att de ovannmnda analyserna gav en gruppering stmde den

inte med den intressanta grupperingen. Som en konsekvens av dessa resultat

fortsatte vi med en regressionsanalys vilket skapade en modell med ett mindre

antal variabler. Modellens klassificeringsfrmga var inte alls bra d den

tenderade att gruppera alla observationer som tillhrande till de svarande.

Fr att frbttra modellens klassificeringsfrmga gjordes

hypotesprvningar fr varje variabel i modellen separat. Det testades om

likheterna eller skillnaderna mellan grupperna var statistiskt signifikanta med

en signifikansniv p 5 %. D alla tester utfll i att skillnaderna mellan gruppen

var signifikanta kunde ingen variabel tas bort frn modellen. nnu en

regressionmodell byggdes dr stressvariabeln, svra livshndelser, las in men denna variabel var inte signifikant.

Med hjlp av alla de steg som genomfrdes har ett mindre

sammansttning av variabler n den ursprungliga valts ut. ven om alla

variabler r statistiskt signifikanta nr det gller att knna igen skillnader

mellan bortfall och inte bortfall r den slutgiltiga modellen inte kapabel att

klassindela en strre del av observationerna p ett korrekt stt.

Trots strvan att hitta vilka variabler som kan frklara bortfallet har

resultaten lett till en modell som egentligen r inte anvndbar fr vrt syfte.

Detta p grund av att skillnaderna mellan grupperna bara knns igen genom

statistiska berkningar.

Vi har allts inte hittat sociodemografiska variabler ur fdelse

formulret som kan beskriva eller frklara bortfallet vid ettrsuppfljningen.

Etapp 2 - Ettrsformulret

52

5. Etapp 2 - Ettrsformulret

5.1 Frgor och variabler I frgeformulret som frldrarna fick besvara vid ettrskontrollen p BVC24

fanns det frgor som gllde det gnga ret och aktualiteten. Ur det valdes det 15

frgor25, men inte alla aspekter som tycks vara intressanta frn en

sociodemografisk synvinkel frgades ut, drfr importerade vi vissa frgor frn

fdelseformulret.

Totalt var det fyra sdana frgor som togs med: Frldrarnas

fdelseland (Sverige eller inte) och utbildningsniv. De frsta ndras inte med

tiden drfr r det valid att infra de frn en tidspunkt till den andra. Nr det

gller utbildningen s antar vi att den inte kan ndras dramatisk under en

rstid drfr r det ven hr giltig att infra dem.

Efter att inmatning av nya variabler och transformationer av de

valda frgorna gjordes blev produkten en grupp av 15 variabler. Den hr delen av

analysen kommer d att ha fljande variabler26:

En variabel som registrera om barnet ftt syskon. ven hur och var

barnet/familjen bor. Mamman och pappans fdelseland, utbildningsniv,

sysselsttning, fdelser och lder. Variabeln grupp finns frsts, hnvisar till dess frklaring i etapp 1.

24 Frgeformulret delas ut vid ettrskontrollen i Barnavrdcentralen, vissa fick svara den p

plats, andra fick gra det hemma, Det var upp till den enskilda barnsjukskterska som delade ut

hur det blev gjort.

25 Exempel p hur ett frgeformulr ser ut finns i Bilaga 1, denna r fdelseformulret.

26 I Bilaga 3 finns detaljerad information hur variablerna ser ut fr etapp 1. Detta kan anvndas

som guide i hur variablerna och dess kategorier blev tilldelad fr etapp 2.

Etapp 2 - Ettrsformulret

53

5.2 Resultat och analys

5.2.1 Multidimensionell skalning (MDS)

Minskning av STRESS vrdet framstllas i Figur 5.1. Ingen markerad hopp syns i nivn drfr kan vi inte utg frn grafen nr vi bestmmer antalet dimensioner

infr vidare analyser.

Figur 5.1 - Stress-vrde mot tillhrande antal dimensioner

I Tabell 5.1 kan vi se att sju r det antalet dimensioner som best representerar

vra data i ett ngorlunda lgdimensionell rum. Tabell 5.1 - Resultat av MDS fr olika antal dimensioner

Antal Dimensioner Badness of fit* Stress

2 0.26095 26.09% 3 0.20083 20.08% 4 0.16319 16.32% 5 0.13633 13.63% 6 0.11517 11.52% 7 0.10007 10.01% 8 0.08829 8.83% 9 0.07849 7.85%

*Konvergenskriterierna r uppfyllda fr alla dimensioner utom dimension 9 och maximalt antal iterationer var satt till 50.

0%

5%

10%

15%

20%

25%

30%

0 2 4 6 8 10

Stre

ss

Antal dimensioner

Etapp 2 - Ettrsformulret

54

MDS visualisering

Figur 5.2 visar tre olika vinklar av de sju dimensionernas helikoptervy. Ptaglig

ses att den naturliga grupperingen som tyds i graferna inte stmmer verens

med den intressanta barn/familjernas separation mellan svarande och icke-

svarande.

Figur 5.2 Sjudimensionell helikoptervy frn tre olika vinklar dr grupperna r srskilda

Etapp 2 - Ettrsformulret

55

5.2.2 Hierarkisk klusteranalys

Figur 5.3 och 5.4 visar enkellnkning respektive fullstndigtlkning. Nr vi utfr

en klusteranalys med enkellkning kan vi inte tyda att metoden skulle hitta tv

kluster.

Figur 5.3 Dendrogram med enkel lnkning

Vid fulstndigtlkning s kan en viss gruppering anas dock r det inte s tydlig

hur mnga skulle det vara, speciellt nr vi letar efter tv distinkta grupper.

Figur 5.4 Dendrogram med fullstndiglnkning

Etapp 2 - Ettrsformulret

56

Resultatet vi fick med Wards metod, Figur 5.5, visar tydligt att observationerna

kan delas i tv.

Figur 5.5 Dendrogram Wards minsta-varians metoden

Kluster visualisering

Det var med Wards lnknings metod vi sg tydlig klassindelning drfr kommer

vi att visualisera dess resultat nr vi gr tv kluster.

Enligt Figur 5.6 s stmmer verens de tv kluster med den

naturliga grupperingen vi redan sett. Dremot kan vi se i Figur 5.7 att klustren

inte fljer vr indelning av observationerna.

Etapp 2 - Ettrsformulret

57

Figur 5.6 Dimension1 vs Dimension 2 dr klustren har markerats

Figur 5.7 Grupper mot kluster

Etapp 2 - Ettrsformulret

58

5.2.3 Modellering

Outliers

Nr vi plottar i Figur 5.8 variablerna antal personer i bostaden mot antal rum i bostaden differentieras ngra observationer som outliers. Obs! Fr bda variablerna anges vrdet noll fr observationer med saknade vrden.

Figur 5.8 Antal rum i bostaden mot Antal personer i bostaden, med markerade outliers

Etapp 2 - Ettrsformulret

59

Vi har redan pratat om trngboddhet och kommer drfr inte att ta upp detta en

gng till, dremot har vi i den hr etappen jmfr med Etapp 127 lagt till att barn/familjer dr mer n sju personer bor i en trea ska ocks tas bort.

Figur 5.9 visar frldrarna utbildningsniv plottade mot varandra, vi

hittar d tv observationer som har ftt utbildningsniv 0, svarsalternativ som

inte fanns med i frgeformulret. Obs! Fr bda variablerna anges vrdet -1 fr

observationer med saknade vrden.

Figur 5.9 Mammans utbildningsniv mot Pappans utbildningsniv, med markerade outliers

Total har 12 observationer tagits bort.

27 Se outliers i etapp 1 fr bttre referens.

Etapp 2 - Ettrsformulret

60

5.2.4 Regressionsanalys

Korrelations studie Tabell 5.2 visar vilka variabelpar som r hgkorrelerade28, som vi set innan s r

det frldrarna lder mot respektive fdelser vars korrelationskoefficient nr

hga niver. Trots hg korrelation blir variablerna kvar infr

regressionsanalysen. Diskussion gllande detta har frts i Etapp 1. Tabell 5.2 Variabelpar som r hgkorrelerade med varandra

Hgkorrelerade variabler

Pearson korrelationskoefficient mammas lder mammas fdelser -0.988 pappas lder pappas fdelser -0.991

Modellval

Efter att ha utfrt regressionsanalys med hjlp av olika selektion metoder har vi

ftt fljande modeller att vlja emellan, se Tabell 5.3. Tabell 5.3 Variabler som valdes som signifikanta fr alla byggda modeller Regressionsmodeller Selektions metod

Framt elimination Bakt elimination Stegvis regression

Intercept Ja Nej Ja Nej Ja Nej

Varia

bler

ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo ant_per_bo

bo_typ bo_typ bo_typ bo_typ bo_typ bo_typ

ma_alder ma_alder ma_alder ma_alder ma_alder ma_alder

ma_fsve ma_fsve ma_fsve ma_fsve ma_fsve ma_fsve

pa_arb pa_arb ma_utb ma_utb pa_arb pa_arb

var_bo var_bo pa_arb pa_arb var_bo var_bo

pa_utb pa_utb

var_bo var_bo

Modell nummer 1 2 3 4 5 6

28 Den kompletta korrelationsmatrisen finns i Bilaga 4.

Etapp 2 - Ettrsformulret

61

Alla modeller fick med samma variabler men modell 3 och 4 fick dessutom tv

variabler mer. Vi mste se om dessa fyra modeller verkligen r de bsta och

drfr tittar vi de olika parametrarna infr modell val, Tabell 5.4. Tabell 5.4 Jmfrelsetal fr de byggda modeller

Modell selektion Modell 1 2 3 4 5 6 AIC 11231.662 11230.567 11229.119 11227.908 11231.662 11230.567 SC 11352.859 11344.635 11421.608 11413.269 11352.859 11344.635 -2LogL 11197.662 11198.567 11175.119 11175.908 11197.662 11198.567

Antal variabler 6 6 8 8 6 6

Av de fyra parametrar vi jmfr s r det modell 2 och 6 som har de lngsta

vrde i tv av fyra mjliga. Vi kan konstatera att det r samma modell29 i och

med det fortstter vi med den hr.

Modelldiagnostik

Regressionsanalysen utfrdes med 9221 observationer av de ursprungliga 11002.

De som tog bort automatisk av proceduren hade saknade vrde. Hur

klassificering blir med hjlp av modellen redovisas i Tabell 5.5.

Trots att nsta 70 % av barnen/familjerna blir korrekt klassificerade

s r det enbart de i den svarande gruppen som hamnar rtt. Inte ens 1 % av

bortfallsgruppen har hamnat i sin grupp, detta gr modellen oanvndbart fr vr

intention att kunna srskilja de icke svarande frn resten. Tabell 5.5 Klassifikations-tabell

Klassifikations-tabell Frekvenser

Svarande Bortfall Totalt Korrekt 6413 9 6422 Inkorrekt 20 2779 2799

Procent Korrekt 99.7% 0.3% 69.6%

29 Fr en redovisning av hela modellen se Bilaga 6.

Etapp 2 - Ettrsformulret

62