aÐhvarfsgreining - university of icelandak/f_einar/kafli_15.docx · web viewÍ neðri töflunni á...

27
Fimmtándi kafli: Aðhvarfsgreining Einföld línuleg aðhvarfsgreining Fjölbreytuaðhvarfsgreining Aðhvarfsgreining hlutfalla

Upload: others

Post on 14-Feb-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Fimmtándi kafli: Aðhvarfsgreining

Einföld línuleg aðhvarfsgreining

Fjölbreytuaðhvarfsgreining

Aðhvarfsgreining hlutfalla

Page 2: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

15AÐHVARFSGREINING

Í þessum kafla er fjallað um hvernig aðhvarfsgreining (Regression analysis) er gerð í SPSS. Hafið forritið opið á meðan kaflinn er lesinn og gerið það sem tekið er fyrir. Í lok kaflans eru verkefni.

Aðhvarfsgreiningu er hægt að nota til þess að spá fyrir um útkomu ákveðins einstaklings á tiltekinni breytu ef útkoma hans á einhverri annarri breytu er þekkt.

Áður en aðhvarfgreining er gerð er góð regla að byrja á því að skoða dreifirit (scatterplot) sem lýsir sambandi breytanna. Þessi leið er farin í valrönd til að búa til dreifirit: Graphs Chart Builder.

Til að gera einfalda línulega aðhvarfsgreiningu í SPSS er þessi leið farin í valrönd: AnalyzeRegressionLinear.

Hægt er að búa til aðhvarfsjöfnu út frá gögnum í einfaldri aðhvarfsgreiningu. Form aðhvarfsjöfnu í einfaldri dreifigreiningu er eftirfarandi: y = a + bx + v.

Til að gera skipun um fjölbreytuaðhvarfsgreininguna í SPSS er eftirfarandi leið farin í valrönd:Analyze Regression Linear.

Hægt er að búa til aðhvarfsjöfnu út frá gögnum í fjölbreytuaðhvarfsgreiningu. Form aðhvarfsjöfnunnar þegar tvær frumbreytur eru notaðar er eftirfarandi: y = a + b1X1 + b2X2 + v.

Varast ber að líta svo á að niðurstöður úr aðhvarfsgreiningu segi til um orsakasamband milli breytanna í greiningunni. Að þessu leyti líkist aðhvarfsgreining fylgnirannsóknum.

Page 3: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Aðhvarfsgreiningu (regression analysis) er hægt að nota til þess að spá fyrir um útkomu ákveðins einstaklings á tiltekinni breytu ef útkoma hans á einhverri annarri breytu er þekkt. Við gætum til dæmis spáð fyrir um hvað ákveðinn einstaklingur er líklegur til þess að kjósa út frá fyrirliggjandi upplýsingum um þjóðfélagsstöðu hans, menntun eða tekjur. Jafnframt má nota niðurstöður úr aðhvarfsgreiningu til þess að meta hversu sterkt samband er á milli útkomu einstaklingsins á ákveðinni breytu eða breytum eftir gildum hans á tveimur eða fleiri breytum.

Aðhvarfsgreining er lík fylgnirannsóknum að því leyti að hún byggist á fylgni milli breyta. Eins og áður hefur komið fram (sjá 11. kafla) segir fylgni milli tveggja breyta ekkert um orsakasamhengi milli þeirra. Varast ber að líta svo á að niðurstöður úr aðhvarfsgreiningu, þar sem kemur fram að hægt er að spá fyrir um dreifingu á einni breytu út frá dreifingu á annarri, segi eitthvað um að önnur breytan valdi því hvernig gildin dreifast á hinni.

Einföld línuleg aðhvarfsgreiningÍ töflu 15.1 eru gögn um orðaforða 40 barna á aldrinum eins til fimm ára (átta börn á hverju aldursbili).1 Með dreifigreiningu getum við reynt að leggja mat á hversu sterkt sambandið er á milli aldurs og orðaforða, og búið til aðhvarfsjöfnu sem gerir mögulegt að spá fyrir um stærð orðaforða tiltekins barns ef upplýsingar um aldur þess liggja fyrir. Hér á eftir verður þetta gert.

Tafla 15.1. Orðaforði barna eftir aldri.

Aldur í árum Orðaforði Aldur í árum Orðaforði1 3 3,5 1203

1,5 24 3 1831,5 39 3 11171,5 7 3,5 915

1 10 4,5 15071,5 12 4 1786

1 17 4 12281 3 4,5 13302 240 4,5 19732 210 4 1540

2,5 239 4,5 18702,5 490 4 20722,5 370 5,5 2564

2 130 5 25342,5 376 5 2256

2 247 5,5 30103 912 5 2704

3,5 954 5,5 25903,5 431 5 1097

3 397 5,5 2578

Gögnin í töflu 15.1 eru sett upp í gagnasniði SPSS á sama hátt og sýnt er á mynd 15.1 (ein breyta fyrir aldur í árum og ein breyta fyrir orðaforða). Spurningin sem við viljum svara í aðhvarfsgreiningunni er hvort hægt sé að nota þessar upplýsingar til að spá fyrir um hversu mikinn orðaforða ákveðið barn hefur þegar við vitum aldur þess.

1 Gögnin eru að hluta byggð á: Everitt, B.S. (1996). Making sense of statistics in psychology. Oxford: Oxford University Press.

Page 4: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Mynd 15.1. Gögn í gagnasniði SPSS um orðaforða eftir aldri.

Í einfaldri aðhvarfsgreiningu er oft gott að byrja á því að skoða dreifirit (scatterplot) til þess að átta sig betur á því hvernig gögnin líta út. Hver einstaklingur er táknaður með punkti á dreifiritinu og gildi hans á breytunum tveimur (aldur, orðaforði) ræður staðsetningu punktsins á dreifiritinu. Þessi leið er farin í valrönd til að búa til dreifirit:

Graphs Chart Builder

Í glugganum sem opnast er valið og Simple Scatter (sjá nánar í kafla 4.) Breytan aldur er sett á X-ás (X Axis) og orðaford á Y-ás (Y Axis), eins og sýnt er á mynd 15.2. Síðan er smellt á takkann OK. Þá á dreifiritið á mynd 15.3 að birtast í niðurstöðuskrá.

Page 5: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Mynd 15.2. Úrvinnslugluggi myndrita.

Mynd 15.3. Dreifirit í niðurstöðuskrá.

Á dreifiritinu (mynd 15.3) kemur fram að gera má ráð fyrir að eftir því sem börnin eru eldri aukist orðaforði þeirra. Eftir því sem aldurinn hækkar (á lárétta ásnum) hækkar orðaforðinn (á lóðrétta ásnum) einnig.

Page 6: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Með aðhvarfsgreiningu má í fyrsta lagi meta hversu sterkt samband þetta er, og í öðru lagi gefur aðhvarfsgreining okkur færi á að spá fyrir um orðaforða ákveðins barns með aðhvarfsjöfnu ef við þekkjum aldur þess. Til eru margar mismunandi tegundir aðhvarfsgreiningar, þar sem gert er ráð fyrir mismunandi tegundum sambands á milli frum- og fylgibreytu. Hér munum við einblína á línulega aðhvarfsgreiningu (linear regression) þar sem gert er ráð fyrir línulegu sambandi milli frum- og fylgibreytu.

Til að gera línulega aðhvarfsgreiningu í SPSS á gögnunum í tafla 15.1 er byrjað á því að fara þessa leið í valrönd:

Analyze Regression

Linear

Mynd 15.4. Einföld línuleg aðhvarfsgreining skilgreind í úrvinnsluglugga í SPSS.

Þá birtist glugginn á mynd 15.4. Þar sem við erum að athuga áhrif aldurs á orðaforða setjum við ordaford inn sem fylgibreytu (Dependent) og aldur sem frumbreytu (Independent(s)) eins og gert hefur verið í glugganum á mynd 15.4.2 Með því að smella á takkann Statistics má síðan biðja um ýmsa lýsandi tölfræði. Smellt er á

2 Fjölmargir valmöguleikar eru í þessum glugga þegar aðhvarfsgreining er gerð sem ekki er lýst hér. Eftirfarandi bækur gefa gott yfirlit mismunandi aðferða við aðhvarfsgreiningu: Afifi, A.A. og Clark, V. (1996). Computer-aided multivariate analysis. London: Chapman og Hall; Lewis-Beck, M.S. (1980). Applied regression: An introduction. Newbury Park: Sage; Breen, R. (1996). Regression models:Censored, sample selected, or truncated data. Newbury Park: Sage.

Page 7: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Continue í glugganum sem birtist og síðan á OK. Þá birtast meðal annars töflurnar á mynd 15.5 í niðurstöðuskrá.

Model Summary

Model R R SquareAdjusted R

SquareStd. Error of the

Estimate1 ,927a ,859 ,855 365,211a. Predictors: (Constant), Aldur

ANOVAb

Model Sum of Squares df Mean Square F Sig.1 Regression 30776379,648 1 30776379,648 230,744 ,000a

Residual 5068398,752 38 133378,915

Total 35844778,400 39

a. Predictors: (Constant), Aldurb. Dependent Variable: Orðaforði

Mynd 15.5. Niðurstaða aðhvarfsgreiningar í niðurstöðuskrá.

Það sem skiptir ef til vill mestu máli í efri töflunni á mynd 15.5 er R2 (R square) sem segir til um hversu stórt hlutfall af dreifingu orðafjölda má skýra með aldri. R2 er 0,859. Það þýðir að aldur skýrir tæp 86% af dreifingu orðaforða í þessum gögnum. Það er hátt hlutfall. Nauðsynleg forsenda þess að nota stuðla þá sem gefnir eru í greiningunni til þess að fá fram spágildi er að breytur í aðhvarfsgreiningunni skýri viðunandi hluta af dreifingu fylgibreytunnar. Með öðrum orðum að R2 gildið sé tiltölulega hátt.

Í neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og p-gildið < 0,001 og samspil aldurs og orðafroða er marktækt. Þó verður að hafa í huga að út frá þessum niðurstöðum er ekki unnt að álykta neitt um orsakasamband milli aldurs og orðaforða. Hér erum við í raun aðeins að tala um tölfræðilega fylgni milli breytanna þó unnt sé að nota hana í forspá.

Coefficientsa

ModelUnstandardized Coefficients

Standardized Coefficients

T Sig.B Std. Error Beta1 (Constant) -955,821 142,867 -6,690 ,000

Aldur 610,776 40,208 ,927 15,190 ,000a. Dependent Variable: Orðaforði

Mynd 15.6. Stuðlar sem eru notaðir í aðhvarfsjöfnu.

Í töflunni á mynd 15.6 (fyrirsögnin Coefficients) má sjá aðhvarfsstuðulinn fyrir breytuna aldur (610,77) sem og skurðpunktinn þegar aldursbreytan er 0 (-955,8). Báðir stuðlarnir eru marktækir með p-gildi < 0,001. Hægt er að búa til aðhvarfsjöfnu út frá þessum gögnum þar sem spáð er fyrir um orðaforða barns á tilteknum aldri. Aðhvarfsjöfnur í einfaldri dreifigreiningu eru á eftirfarandi formi:3

y = a + bx + v

3 Sjá nánari umfjöllun í Lewis-Beck, M.S. (1980). Applied regression: An introduction. Newbury Park: Sage.

Page 8: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Í jöfnunni hér fyrir ofan vísar y til þess gildis sem við viljum spá fyrir um (gildi á fylgibreytunni), a er skurðpunkturinn á Y ásnum (kallað Constant í töflunni á mynd 15.6), b er stuðullinn fyrir frumbreytuna (aldur í okkar tilfelli), x er gildi þess einstaklings sem við viljum spá fyrir um á aldursbreytunni, og v er óþekkt skekkja og er því ekki notuð við útreikning spágildis.

Ef við viljum spá fyrir um hver orðaforði fjögurra og hálfs árs barns er, væri það gert með því að setja upp eftirfarandi jöfnu:

Orðaforði fjögurra og hálfs árs barns = - 955,8 + (4,5 * 610,77)

Útkoman úr þessu er 2748,47. Þetta þýðir að aðhvarfslíkan okkar gerir ráð fyrir að fjögurra og hálfs árs barn hafi orðaforða upp á 2700 til 2800 orð. Hægt er að meta hversu vel líkanið spáir fyrir um gildin með því að meta skekkjumörk þau sem fylgja greiningunni ef beðið er um að þau séu birt. Það er gert með því að smella á takkann Statistics á mynd 15.4.

Ef við viljum spá fyrir um væntanlegan orðaforða tveggja ára barns lítur jafnan svona út:

Orðaforði tveggja ára barns = - 955,8 + (2 * 610,77)

Útkoman úr þessu er 265,8, og samkvæmt líkaninu getum við því búist við að tveggja ára barn hafi orðaforða sem er á bilinu 260 til 270 orð.

Það er rétt að geta þess að þetta líkan hefur einn augljósan galla. Ef aldurinn 0,5 er t.d. settur inn í jöfnuna, þá fáum við út að orðaforði hálfs árs gamals barns sé minni en enginn (-650,4) sem er augljóslega út í hött. Tvennt ber að nefna í þessu sambandi. Í fyrsta lagi að það er oft varhugavert að nota aðhvarfslíkan til þess að spá fyrir um gildi sem eru ekki mæld í upphaflegu mælingunum (lægsta aldursbilið í gögnunum var 1) en hérna erum við að reyna að spá fyrir um orðaforða hálfs árs gamals barns, en það voru engin börn á þessum aldri í úrtakinu. Í öðru lagi ber að geta þess að í okkar tilfelli notuðum við línulega aðhvarfsgreiningu þar sem reynt er að meta línulegt samband á milli breytanna, en það má vera að annars konar samband lýsi tengslum þessara breyta betur, til dæmis einhvers konar sveiglínulíkan þar sem áhrifin eftir aldri lúta ekki einföldu samlagningarlögmáli heldur lúti þau til dæmis jákvæðu veldislögmáli.

FjölbreytuaðhvarfsgreiningHægt er að gera aðhvarfsgreiningu þar sem fleiri en ein frumbreyta er notuð. Í Everitt (1996)4 eru gögn sem sýna hversu mikið af rjómaís var neytt á 30 mismunandi fjögurra vikna tímabilum á ónefndum stað. Jafnframt var mældur meðalhiti og meðalverð á ísnum á sama tímabili. Hægt er að nota fjölbreytudreifigreiningu (multiple regression) til þess að leggja mat á það hvort fylgibreytan ísneysla sé háð þessum tveimur frumbreytum (meðalverði á ís og meðalhita). Jafnframt er hægt að spá fyrir um ísneyslu út frá hitastigi og ísverði. Í töflu 15.2 eru gögnin sem við notum til að athuga þetta.

4 Everitt, B.S. (1996). Making sense of statistics in psychology. Oxford: Oxford University Press.

Page 9: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Tafla 15.2. Ísneysla og hitastig.

Tímabil Ísneysla Meðalverð Meðalhiti (°C)1 0,386 0,270 5,002 0,374 0,282 13,333 0,393 0,277 17,224 0,425 0,280 20,005 0,406 0,272 20,566 0,344 0,262 18,337 0,327 0,275 16,118 0,288 0,267 8,339 0,269 0,265 0,00

10 0,256 0,277 -4,4411 0,286 0,282 -2,2212 0,298 0,270 -3,3313 0,329 0,272 0,0014 0,318 0,287 4,4415 0,381 0,277 12,7816 0,381 0,287 17,2217 0,470 0,280 22,2218 0,433 0,277 22,2219 0,386 0,277 19,4420 0,342 0,277 15,5621 0,319 0,292 6,6722 0,307 0,287 4,4423 0,284 0,277 0,0024 0,326 0,285 -2,7825 0,309 0,282 -2,2226 0,359 0,265 0,5627 0,376 0,265 5,0028 0,416 0,265 11,1129 0,437 0,268 17,7830 0,548 0,260 21,67

Gögnin eru sett upp í gagnasniði SPSS eins og í töflu 15.2. Fjórar breytur eru búnar til, ein fyrir tímabil, ein fyrir fylgibreytuna (ísneysla) og ein fyrir hvora frumbreytu (meðalverð og meðalhita) fyrir sig. Þegar um þrjár breytur er að ræða eins og hér (eina fylgibreytu og tvær frumbreytur) er hægt að fá fram dreifirit eins og gert var í einföldu aðhvarfsgreiningunni hér að framan. Túlkun þess er þó erfiðari því dreifiritið er þrívítt en ekki tvívítt. Þessi leið er farin í valrönd til að búa dreifireitið til:

Graphs Chart Builder

Veldu Scatter og tvísmellt er á Simple 3-D Scatter og síðan breytunum þremur komið fyrir á þrjá ása myndritsins: (a) ísneysla á Y ás, (b) meðalverð á X ás, og (c) meðalhiti á Z ás. Þegar þessu er lokið er smellt á takkann OK. Þá birtist myndritið á mynd 15.7 í niðurstöðuskrá.

Page 10: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Mynd 15.7. Þrívítt dreifirit (3D scatter plot) í niðurstöðuskrá fyrir ísneyslu eftir verði og hitastigi.

Það er nokkuð erfitt að túlka þetta myndrit á einfaldan hátt, en þó má sjá ef vel er gáð, að ísneysla virðist minnka þegar verðið hækkar og að ísneyslan eykst eftir því sem hitinn eykst.

Til þess að gefa skipun um fjölbreytuaðhvarfsgreininguna í SPSS er eftirfarandi leið síðan farin í valrönd:

Analyze Regression

Linear

Þá opnast glugginn á mynd 15.8. Í glugganum á myndinni hefur fylgibreytan isneysla verið færð í reitinn Dependent og frumbreyturnar is_verd og hiti í reitinn Independent(s). Þegar breyturnar hafa verið færðar á sinn stað í glugganum á mynd 15.8 er smellt á takkann OK. Þá birtast meðal annars töflurnar á mynd 15.9.

Mynd 15.8. Úrvinnslugluggi í SPSS þar sem línuleg aðhvarfsgreining er skilgreind.

Page 11: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Í efri töflunni á mynd 15.9 má í fyrsta lagi sjá að R2 bendir til þess að þetta aðhvarfsgreiningarlíkan lýsi gögnunum nokkuð vel. Líkanið skýrir 63% af dreifingu gilda ísneyslu á þessum 30 fjögurra vikna tímabilum. Hátt F-gildi og lágt p-gildi úr ANOVA töflunni bendir til þess að áhrif þeirra breyta sem við mældum á ísneyslu séu marktæk.

Model Summary

Model R R SquareAdjusted R

SquareStd. Error of the

Estimate1 ,794a ,630 ,603 ,04120a. Predictors: (Constant), Meðalhiti, Meðalverð

ANOVAb

Model Sum of Squares df Mean Square F Sig.1 Regression ,078 2 ,039 23,002 ,000a

Residual ,046 27 ,002

Total ,124 29

a. Predictors: (Constant), Meðalhiti, Meðalverðb. Dependent Variable: Ísneysla

Mynd 15.9. Niðurstöður aðhvarfsgreiningar í niðurstöðuskrá.

Í töflunni á mynd 15.10 (Coefficients) má sjá stuðla þá sem setja má inn í aðhvarfsjöfnu til þess að geta spáð fyrir um ísneyslu að því gefnu að við vitum hitastig og ísverð á þeim tíma sem við viljum spá um neysluna. Stuðullinn fyrir ísverð er neikvæður (-1,416) sem bendir til þess að ísneysla sé líkleg til þess að minnka þegar verðið hækkar, en stuðullinn er jákvæður fyrir hitastig (0,005) sem bendir til þess að ísneysla aukist þegar hitnar í veðri. Kannski augljós sannindi!

Coefficientsa

ModelUnstandardized Coefficients

Standardized Coefficients

t Sig.B Std. Error Beta1 (Constant) ,698 ,255 2,735 ,011

Meðalverð -1,416 ,923 -,181 -1,535 ,136Meðalhiti ,005 ,001 ,754 6,402 ,000

a. Dependent Variable: Ísneysla

Mynd 15.10. Stuðlar sem fara í aðhvarfsjöfnu.

Ef við vitum t.d. að hitastigið er 5,5 stig og verðstuðullinn er 0,275 getum við sett upp jöfnu til þess að spá fyrir um ísneysluna undir þessum tilteknu kringumstæðum. Í fjölbreytuaðhvarfsgreiningu höfum við bara einn skurðpunkt (a) en við bætum við aðhvarfsstuðlum fyrir hverja breytu sem við höfum í aðhvarfslíkaninu. Því er eftirfarandi form aðhvarfsjöfnu notað þar sem tvær frumbreytur eru notaðar:

y = a + b1X1 + b2X2 + v

Page 12: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Stuðlarnir b1 og b2 standa fyrir það sem er undir coefficients í niðurstöðuskrá (mynd 15.10) fyrir verð og hita. Við setjum þá upp jöfnu með skurðpunktinum þar sem stuðli fyrir hvora breytu sinnum gildið á breytunni er bætt við:

ísneysla = 0,698 + (-1,416 * 0,275) + (0,005 * 5,5)

eða

ísneysla = 0,698 - 0,389 + 0,0275 = 0,336

Tökum nú annað dæmi þar sem hitastigið er -14°C og verðstuðullinn er 0,6.

ísneysla = 0,698 + (- 1,416 * 0,6) + (0,005 * (-14))

eða

0,698 - 0,8496 - 0,071 = -0,223

Samkvæmt þessu er ísneyslan minni en engin sem er augljóslega röng niðurstaða. Ástæðan fyrir þessari niðurstöðu er að sjálfsögðu sú að við erum að setja gildi inn í aðhvarfsjöfnuna sem ekki eru í gögnunum sem liggja til grundvallar aðhvarfsjöfnunni. Það er afar varhugavert, eins og minnst var á hér að framan. Spönn breytunnar hitastig var -4,44 til 22.22, og spönn breytunnar verd var 0,260 til 0,292. Bæði gildin sem við notuðum í aðhvarfsjöfnunni eru utan þessarar spannar sem þýðir að afar ólíklegt er að við fáum sennilega niðurstöðu (nema sambandið milli breytanna sé fullkomlega línulegt).5

Aðhvarfsgreining hlutfallaÍ mörgum tilfellum er hægt að líta á fylgibreytuna sem samfellda breytu en það er þó ekki algilt. Ef rannsaka ætti hvort lengd menntunar hefur áhrif á hvort fólk reykir eða ekki yrði fylgibreytan tvíkosta. Annað hvort reykir fólk eða ekki og skiptist þess vegna í tvo hópa. Fylgibreytan mælir hve margir eru í hvorum hópi og lýsir þar af leiðandi hlutföllum. Hlutföll hafa þann eiginleika að vera á bilinu 0 til 1 en ef línulegri aðhvarfsgreiningu er beitt á tvíkosta breytu getur hlutfallið orðið neikvætt. Þetta er leyst með því að breyta hlutfallinu í hlutfallslíkur og logaritmi tekinn af hlutfallslíkunum og þá er verður til breyta sem getur tekið hvaða gildi sem er. Annað vandamál við línulega aðhvarfsgreiningu er að getur leifin fengið afbrigðilega dreifingu og það getur ógnað áreiðanleika marktektar prófa. Hér verður ekki fjallað nánar um fræðilega hlið aðhvarfsgreiningu hlutfalla en umfjöllun um þetta er hægt að finna víða6. Í töflu 15.3 eru gögn úr ímyndaðri rannsókn á tengslum launa (skipt í 6 hópa eftir launum) og reykinga. Talan 1 merkir að þátttakandinn reykir og talan 0 að þátttakandinn reykir ekki.

5 Sjá t.d. umfjöllun í Afifi, A.A. og Clark, V. (1996). Computer-aided multivariate analysis. London: Chapman og Hall.6 Sjá t.d. umfjöllun í Pampel, F. C. (2000). Logistic regression: A Primer. Thousand Oaks: Sage

Page 13: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Tafla 15.3. Laun og reykingar

Þátttakandi Laun Reykir Þátttakandi Laun Reykir

1 4 0 26 5 02 6 0 27 1 0

3 5 0 28 3 0

4 6 0 29 4 0

5 4 0 30 3 0

6 2 0 31 3 0

7 4 0 32 5 1

8 4 0 33 3 0

9 1 1 34 2 0

10 4 0 35 2 0

11 4 0 36 3 0

12 5 1 37 5 0

13 1 0 38 5 0

14 6 0 39 7 0

15 4 0 40 1 1

16 2 1 41 1 1

17 5 0 42 2 0

18 1 1 43 4 0

19 5 0 44 1 1

20 1 1 45 1 1

21 1 1 46 5 0

22 3 0 47 3 0

23 2 0 48 7 0

24 1 1 49 3 0

25 1 0 50 4 0

Til að gera aðhvarfsgreiningu hlutfalla er þessi leið farin í valblaðarönd SPSS:Analyze

RegressionBinary Logistic

Þá opnast glugginn á mynd 15.11 og þar er búið að færa fylgibreytuna Reykir í reitinn Dependent og frumbreytuna Laun í reitinn Covariates. Næst er smellt á hnappinn Options og þá opnast glugginn á mynd 15.12 og þar hefur verið hakað við Ci for exp(B) til að fá öryggisbil hlutfallslíkindanna og einnig við Include constant in model, en það er gert til að fá skurðpunkt líkansins. Notandi getur valið um fleiri aðgerðir í glugganum og að loknu vali er smellt á Continue og að lokum OK í glugganum á mynd 15.11 og þá koma niðurstöðutöflur í niðurstöðuskrá og þær mikilvægastu eru sýndar á mynd 15.13.

Page 14: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Mynd 15.11. Úrvinnslugluggi þar sem aðhvarfsgreining hlutfalla er skilgreind.

Mynd 15.12. Úrvinnslugluggi fyrir nánari skilgreiningu aðhvarfsgreiningar hlutfalla.

Í niðurstöðuskrá eru niðurstöður fyrir Block 0 og Block 1. Niðurstöður fyrir Block 0 sýna hvernig líkanið er þegar fylgibreytan eða fylgibreyturnar eru ekki í líkaninu og höfum við að jafnaði ekki mikinn áhuga á því og skoðum þess vegna bara niðurstöður fyrir Block 1. Efri taflan á mynd 1 sýnir niðurstöður allsherjarprófs fyrir líkanið og það er marktækt og það þýðir að líkanið batnar við að bæta frumbreytunni við líkanið.

Omnibus Tests of Model Coefficients

Chi-square df Sig.Step 1 Step 14,664 1 ,000

Block 14,664 1 ,000Model 14,664 1 ,000

Variables in the Equation

Page 15: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower UpperStep 1a Launaflokkur -,944 ,310 9,264 1 ,002 ,389 ,212 ,714

Constant 1,342 ,768 3,054 1 ,081 3,828

Mynd 15.13. Helstu niðurstöður aðhvarfsgreiningar hlutfalla

Í neðir töflunni á mynd 15.13 sést að gildi Wald-prófsins er hátt og það er marktækt sem þýðir að hallatalan (B) víkur marktækt frá 0 og líklegt er að laun hafi áhrif á líkur þess hvort fólk reykir eða ekki. Aðhvarfsjafna byggð á þessu líkani er ln(y) = 1,342 -0,944 * x. Til að finna hlutfallslíkurnar er andlogaritmi tekinn af y eða ey. Hlutfallslíkur þess að sá sem er í 5. launaflokki (í töflu 17.3) reyki eru e1,342-0,944 * 5 eða 0,034. Hlutfallslíkum er hægt að breyta í hlutföll samkvæmt jöfnunni:

Samkvæmt líkaninu ætti hlutfall þeirra sem eru í 5. launaflokki og reykja að vera 0,034/1,034 eða 3,3%. Til að meta hve áhrifin eru mikil er áhættuhlutfallið (Exp(B)) notað og ef það er minna en 1,0 þá lækkar áhættuhlutfallið. Í töflunni sést að áhættuhlutfallið er 0,389 og hlutfallslíkur ættu að lækka um rúmlega 38% við hækkun um einn launaflokk. Öryggisbil fyrir hlutfallslíkur er frá 0,212 til 0,714 sem þýðir að breyting á hlutfallslíkum getur verið hvar sem er á þessu bili.

Page 16: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

VERKEFNI 15.1

EINFÖLD LÍNULEG AÐHVARFSGREINING

1. Í töflu 15.4 eru gögn um hæð (í sentimetrum) 60 barna á ónefndum stað eftir aldri þeirra (í árum).

Tafla 15.4. Gögn um hæð 60 barna eftir aldri.

Aldur Hæð Aldur Hæð13,9 154,9 15,5 168,911,7 148,6 14,4 175,312,2 152,4 15,4 152,414,8 155,7 15,8 170,213,6 143,5 17,2 176,516,1 151,9 13,7 147,313,6 159,9 12,8 152,413,9 158,2 14,6 153,213,5 164,0 12,5 151,113,5 160,0 14,1 156,215,3 163,8 13,0 138,415,8 163,3 11,9 156,211,8 155,7 14,3 156,212,9 155,7 11,7 151,115,2 166,4 12,3 153,715,9 160,8 12,8 152,413,8 141,0 16,1 168,415,2 157,5 12,8 154,912,2 146,1 11,9 146,112,1 149,9 13,7 165,912,7 153,7 13,3 153,712,2 145,5 12,0 145,515,8 165,1 13,1 153,714,4 167,6 12,9 145,512,3 144,8 11,8 142,212,3 153,7 12,6 168,414,3 160,0 14,8 153,715,3 168,9 11,6 153,714,7 165,1 12,0 151,113,1 153,7 11,8 135,4

2. Setjið gögnin upp í gagnasniði SPSS með því að búa til þrjár breytur, eina fyrir númer einstaklingsins, aðra fyrir aldur og þá þriðju fyrir hæð í sentimetrum.

3. Búið síðan til dreifirit (scatterplot) fyrir breyturnar hæð og aldur. Farið þessa leið í valrönd: Graphs Chart Builder.

4. Gerið aðhvarfsgreiningu á gögnunum þar sem frumbreytan er aldur og fylgibreytan er hæð. Til þess að gera þetta er þessi leið farin í valrönd: Analyze Regression Linear. Þegar þessi leið er farin eiga töflurnar á mynd 15.14 að birtast í niðurstöðuskrá.

Model SummaryModel R R Square Adjusted R Std. Error of the

Page 17: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Square Estimate1 ,646a ,417 ,407 6,8767a. Predictors: (Constant), Aldur

ANOVAb

Model Sum of Squares Df Mean Square F Sig.1 Regression 1964,393 1 1964,393 41,541 ,000a

Residual 2742,736 58 47,289

Total 4707,130 59

a. Predictors: (Constant), Aldurb. Dependent Variable: Hæð

Coefficientsa

ModelUnstandardized Coefficients

Standardized Coefficients

t Sig.B Std. Error Beta1 (Constant) 101,187 8,492 11,916 ,000

Aldur 4,000 ,621 ,646 6,445 ,000a. Dependent Variable: Hæð

Mynd 15.14. Niðurstöður einfaldrar línulegrar aðhvarfsgreiningar.

5. Skráið niður og túlkið R2 og niðurstöður úr dreifigreiningunni sem fylgir. Hversu vel lýsir þetta aðhvarfslíkan gögnunum?

6. Setjið upp aðhvarfsjöfnu og notið hana til þess að spá fyrir um hver hæð 15,0 ára unglings gæti verið samkvæmt þessum gögnum. Hver myndi áætluð hæð eins árs barns vera samkvæmt gögnunum? Er niðurstaðan sannfærandi?

Page 18: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

VERKEFNI 15.2

LÍNULEG FJÖLBREYTUAÐHVARFSGREINING

1. Í töflu 15.5 eru sömu gögn um hæð (í sentimetrum) eftir aldri (í árum) og þau sem notuð voru í einbreytuaðhvarfsgreiningunni hér að framan. Í töflunni hefur hins vegar verið bætt við upplýsingum um kyn (1 vísar til stúlku og 2 til drengs) hvers einstaklings.

Tafla 15.5. Gögn um hæð 60 barna eftir aldri og kyni.

Kyn Aldur Hæð Kyn Aldur Hæð1 13,9 154,9 2 15,5 168,92 11,7 148,6 2 14,4 175,31 12,2 152,4 1 15,4 152,41 14,8 155,7 2 15,8 170,21 13,6 143,5 2 17,2 176,51 16,1 151,9 2 13,7 147,32 13,6 159,9 1 12,8 152,41 13,9 158,2 1 14,6 153,22 13,5 164,0 2 12,5 151,12 13,5 160,0 1 14,1 156,21 15,3 163,8 1 13,0 138,41 15,8 163,3 1 11,9 156,21 11,8 155,7 1 14,3 156,21 12,9 155,7 2 11,7 151,11 15,2 166,4 2 12,3 153,71 15,9 160,8 2 12,8 152,41 13,8 141,0 2 16,1 168,41 15,2 157,5 1 12,8 154,92 12,2 146,1 2 11,9 146,11 12,1 149,9 1 13,7 165,91 12,7 153,7 2 13,3 153,72 12,2 145,5 2 12,0 145,52 15,8 165,1 2 13,1 153,72 14,4 167,6 2 12,9 145,52 12,3 144,8 1 11,8 142,21 12,3 153,7 2 12,6 168,41 14,3 160,0 2 14,8 153,71 15,3 168,9 2 11,6 153,72 14,7 165,1 2 12,0 151,11 13,1 153,7 2 11,8 135,4

2. Gerið fjölbreytuaðhvarfsgreiningu á gögnunum í töflu 15.4 þar sem fylgibreytan er hæð eins og áður en frumbreyturnar eru tvær, kyn og aldur. Farið þessa leið í valrönd til að gera þetta:Analyze Regression Linear. Þegar þessi leið er farin eiga töflurnar á mynd 15.15 að birtast í niðurstöðuskrá.

Model Summary

Model R R SquareAdjusted R

SquareStd. Error of the

Estimate1 ,669a ,447 ,428 6,7580a. Predictors: (Constant), Aldur, Kyn

Page 19: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

ANOVAb

Model Sum of Squares df Mean Square F Sig.1 Regression 2103,946 2 1051,973 23,034 ,000a

Residual 2603,184 57 45,670

Total 4707,130 59

a. Predictors: (Constant), Aldur, Kynb. Dependent Variable: Hæð í sentimetrum

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 94,391 9,206 10,253 ,000

Kyn 3,084 1,764 ,174 1,748 ,086

Aldur 4,159 ,617 ,672 6,745 ,000

a. Dependent Variable: Hæðí sentimetrum

Mynd 15.15. Niðurstöður fjölbreytuaðhvarfsgreiningar.

3. Leggið mat á R2 og metið hve mikið af dreifingu hæðar er skýrt af kynferði og aldri einstaklinga.

4. Notið niðurstöðurnar til að fá spágildi um hæð eftir aldri og kyni fyrir: (a) 12 ára stúlku, (b) 15 ára pilt, (c) 50 ára konu, og (d) 5 ára dreng.

5. Hvert af þeim fjórum spágildum sem notuð voru í 4. lið er raunhæft að nota í túlkun niðurstaðnanna? Rökstyðjið með vísan í spönn gilda í gagnaskránni.

Page 20: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

VERKEFNI 15.3

AÐHVARFSGREINING HLUTFALLA

1. Í töflu 15.6 eru gögn úr sömu ímynduðu rannsókninni og í töflu 15.3 en hér er búið að bæta menntun þátttakenda í töfluna. Talan 1 merkir að þátttakandinn reykir og talan 0 að þátttakandinn reykir ekki.

Tafla 15.6. Menntun í árum, laun og reykingarÞátttakandi Menntun Laun Reykir Þátttakandi Menntun Laun Reykir

1 14 4 0 26 18 5 02 20 6 0 27 8 1 0

3 19 5 0 28 11 3 0

4 20 6 0 29 17 4 0

5 15 4 0 30 13 3 0

6 10 2 0 31 12 3 0

7 14 4 0 32 9 5 1

8 9 4 0 33 12 3 0

9 5 1 1 34 9 2 0

10 13 4 0 35 9 2 0

11 15 4 0 36 11 3 0

12 19 5 1 37 14 5 0

13 5 1 0 38 14 5 0

14 20 6 0 39 20 7 0

15 15 4 0 40 5 1 1

16 5 2 1 41 5 1 1

17 9 5 0 42 9 2 0

18 6 1 1 43 13 4 0

19 18 5 0 44 8 1 1

20 6 1 1 45 5 1 1

21 8 1 1 46 20 5 0

22 12 3 0 47 12 3 0

23 10 2 0 48 20 7 0

24 5 1 1 49 10 3 0

25 6 1 0 50 14 4 0

2. Setjið gögnin upp í gagnasniði SPSS með því að búa til fjórar breytur, eina fyrir númer einstaklingsins, aðra fyrir menntun í árum, þriðju fyrir laun og þá fjórðu fyrir reykingar.

3. Gerið aðhvarfsgreiningu hlutfalla til að kanna hvort laun og menntun hafi áhrif á líkur þess að fólk reyki.

4. Niðurstöður ykkar ættu að vera í samræmi við það sem sýnt er í töflunum á mynd 15.16.

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 19,390 2 ,000

Page 21: AÐHVARFSGREINING - University of Icelandak/F_Einar/Kafli_15.docx · Web viewÍ neðri töflunni á mynd 15.5 (tafla með fyrirsögninni ANOVA) má sjá að F-gildið ér hátt og

Block 19,390 2 ,000

Model 19,390 2 ,000

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a Launaflokkur -,011 ,447 ,001 1 ,980 ,989 ,412 2,375

Menntun -,450 ,210 4,620 1 ,032 ,637 ,423 ,961

Constant 3,262 1,319 6,122 1 ,013 26,111

Mynd 15.16. Helstu niðurstöður aðhvarfsgreiningar hlutfalla