digitális tankönyvtár · web view3.1.4.modell: (resid deviance = 14878,4 , resid df = 8198 )...
TRANSCRIPT
Függelék: a regressziós modellek R utasításai
Függelék: a regressziós modellek R utasításai
Regressziós modellek az egészségpolitikai tervezésben példatár
Vokó, Zoltán
Kabos, Sándor
Lőw, András
Regressziós modellek az egészségpolitikai tervezésben példatár
írta Vokó, Zoltán, Kabos, Sándor, és Lőw, András
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Tartalom
1. Bevezetés 0
1. Epidemiológiai gyakorisági kapcsolatok 0
2. Matematikai statisztikai háttér 0
2. Poisson regressziós modellek kategoriális magyarázó változókkal 0
1. Adatelemzési példák 0
2. Statisztikai összefoglaló 0
2.1. Poisson eloszlás 0
2.2. Poisson regresszió kategoriális magyarázó változókkal 0
2.3. Negatív binomiális regresszió kategoriális magyarázó változókkal 0
2.4. A modell statisztikai illeszkedésvizsgálata 0
2.5. Az általánosított lineáris modell (GLM) 0
3. Regressziós modellek folytonos és kategoriális magyarázó változókkal 0
1. Adatelemzési példák 0
2. Poisson regresszió 0
2.1. Poisson regresszió, kategoriális és szám értékű magyarázó változókkal 0
2.2. Poisson regresszió nemre és korcsoportra standardizálva 0
4. Fix és random tényezős regressziós modellek 0
1. Adatelemzési példák 0
2. Statisztikai összefoglaló 0
2.1. Normális eloszlás 0
2.2. Logisztikus-binomiális regresszió kategoriális magyarázó változókkal 0
2.3. Kevert modell, fix és random magyarázó változókkal 0
5. Regressziós becslések vizsgálata térképi megjelenítéssel 0
1. Adatelemzési példák 0
2. Statisztikai összefoglaló 0
2.1. Hierarchikus Poisson regresszió 0
3. Térképes adatelemzési példák 0
3.1. Magyarázat a random modell megyei ISH komponens számításához 0
Irodalom 0
A. Függelék: a regressziós modellek R utasításai 0
1. Fix tényezős Poisson modell 0
2. Fix és random tényezős Poisson modell 0
3. Fix tényezős negatív-binomiális modell 0
4. Fix tényezős logisztikus-binomiális modell 0
5. Fix és random tényezős logisztikus-binomiális modell 0
6. Fix és több random tényezős Poisson modell 0
7. Hierarchikus Poisson modell 0
Regressziós modellek az egészségpolitikai tervezésben példatár
Regressziós modellek az egészségpolitikai tervezésben példatár
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
A táblázatok listája
5.1. 5.3.2. Táblázat. Halálozási arányok (/100 000) a nők körében, 2009 (Forrás: KSH) 0
Regressziós modellek az egészségpolitikai tervezésben példatár
Regressziós modellek az egészségpolitikai tervezésben példatár
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
A példák listája
2.1. Poisson regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint 0
2.2. Negatív binomiális regresszió, mortalitás korcsoport, nem, korcsoport*nem interakció és lakhely népességszám szerint 0
2.3. (hibásan specifikált modell!): Lineáris regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint 0
3.1. Poisson regresszió, mortalitás korcsoportok szerint 0
3.2. Poisson regresszió, mortalitás a korcsoport, nem szerint 0
3.3. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint 0
3.4. A modellek illeszkedésének mérőszáma 0
3.5. Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nem és korcsoport figyelembevétele nélkül 0
3.6. Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva 0
3.7. Poisson regresszió, mortalitás a korcsoport és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva 0
3.8. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva 0
3.9. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település iskolai végzettség (kozepiskola, felsofoku) változói szerint, nemre és korcsoportra standardizálva 0
3.10. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői (munkanelkarany, mento, LSZKOD) változója szerint, nemre és korcsoportra standardizálva 0
3.11. BMA Bayes-féle modell átlagolási eljárás. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői változója szerint, nemre és korcsoportra standardizálva. 0
4.1. Logisztikus regresszió, vélt egészség korcsoport, nem, régió szerint 0
4.2. Poisson regresszió, vélt egészség korcsoport, nem, régió szerint 0
4.3. Logisztikus regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a régió random magyarázó változó szerint 0
4.4. Poisson regresszió, fix modell. Vélt egészség korcsoport, nem, lakóövezeti jelleg szerint 0
4.5. Poisson regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a lakóövezeti jelleg random magyarázó változó szerint 0
5.1. Poisson regresszió, kevert modell. Mortalitás nem és korcsoport fix magyarázó változók, lakhely megye random magyarázó változóval 0
5.2. Hierarchikus Poisson regresszió. Mortalitás nem, korcsoport és lakhely régió fix magyarázó változók, lakhely megye random magyarázó változóval 0
5.3. Poisson regresszió. Mortalitás nem, korcsoport és lakhely régió fix magyarázó változók, lakhely megye*nem*két kategóriás korcsoport random magyarázó változókkal 0
Regressziós modellek az egészségpolitikai tervezésben példatár
Regressziós modellek az egészségpolitikai tervezésben példatár
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
1. fejezet - Bevezetés
A példatár elsődleges célja, hogy a hallgatók a modellek illesztésének helyes gyakorlatát és az eredmények megfelelő értelmezését elsajátítsák.
A példatár olyan példákon alapul, amelyekhez hasonló az epidemiológiai gyakorlatban széleskörűen előfordulnak: aggregált statisztikák elemzése, illetve keresztmetszeti vizsgálatok (felmérések).
A használat során célszerű a tananyagban folyamatosan haladni, mert az egyes tananyagrészek egymásra épülnek.
1. Epidemiológiai gyakorisági kapcsolatok
Az epidemiológiai kutatások gyakorisági kapcsolatok számszerűsítésre irányulnak:
· hogyan függ a betegség kockázata az expozíciótól,
· hogyan függ a betegség fennállási valószínűsége a tünetektől, panaszoktól, leletektől,
· hogyan függ egy kimenetel valószínűsége a kezeléstől,
· hogyan függ egy betegség elterjedtsége tértől, időtől, populációtól, és ennek jellemzőitől.
Az epidemiológiai függvénykapcsolatokat matematikai reprezentálására, és paramétereik becslésére a gyakorlatban általánosított lineáris modelleket alkalmaznak.
2. Matematikai statisztikai háttér
Jelen tárgyalásmód alapszintű statisztikai előismeretet feltételez (lásd pl. Faraway[bib_2]).
Minden fejezet végén egy statisztikai összefoglalás van, az alkalmazott modellek formális megfogalmazásával és a legfontosabb matematikai statisztikai tudnivalókkal.
A bemutatásra kerülő regressziós elemzések statisztikai háttere az általánosított lineáris modell (egy részletesebb leírás pl. Gelman-Hill [bib_3] 6. fejezet, ). A technikai részletek nem egyszerűek, és csak annyit tárgyalunk belőle, amennyi az alkalmazott modellek illeszkedésvizsgálati statisztikáinak értelmezéséhez szükséges.
A regressziós modellek interpretálásánál gondot fordítunk arra, hogy megvizsgáljuk a modell illeszkedését. Amint azt egy példán is szemléltetjük, ha a modellünk egészében nem illeszkedik, akkor a részeredményeket sem szabad hitelesnek elfogadni.
Bevezetés
Bevezetés
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
2. fejezet - Poisson regressziós modellek kategoriális magyarázó változókkal
1. Adatelemzési példák
Ebben a fejezetben Magyarország 2009-es mortalitási adatait elemezzük. A megválaszolandó kutatási kérdés, hogyan függ a halálozás a nemtől az életkortól és a lakóhely népességszámától.
Bemenő adatok:
· teljes halálozás életkor (5-éves korcsoport), nem, lakhely népességszám kategória szerinti bontásban
· lakónépesség (ugyanilyen bontásban)
2.1. példa - Poisson regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint
call poisson: Y ~ offset(LOGN) + AGE + GENDER + LSZKOD
Incidencia sűrűség hányados
Együttható
Együttható standard hibája
z érték
Pr(>|z|)
(Intercept)
0,00052
-7,5534
0,05562
-135,806
0
AGE.00-04
2,33484
0,84794
0,0694
12,219
0
AGE.05-09
0,24172
-1,41996
0,14148
-10,03663
0
AGE.10-14
0,31793
-1,14592
0,12354
-9,2756
0
AGE.15-19
0,67058
-0,39961
0,08914
-4,48303
1,00E-05
AGE.25-29
1,10842
0,10294
0,07531
1,36684
0,17168
AGE.30-34
1,64896
0,50014
0,06718
7,44527
0
AGE.35-39
2,86927
1,05406
0,06324
16,66724
0
AGE.40-44
5,54978
1,71376
0,06002
28,55144
0
AGE.45-49
11,49942
2,4423
0,05794
42,15066
0
AGE.50-54
20,58072
3,02435
0,05663
53,40833
0
AGE.55-59
27,22385
3,30409
0,05631
58,67517
0
AGE.60-64
38,51154
3,65096
0,05622
64,93928
0
AGE.65-69
52,60813
3,96287
0,0561
70,64271
0
AGE.70-74
78,95571
4,36889
0,05601
78,00325
0
AGE.75-79
128,03337
4,85229
0,05586
86,86199
0
AGE.80-84
218,1694
5,38527
0,05582
96,47972
0
AGE.85-X
2004,5429
7,60317
0,05546
137,08131
0
GENDER.F
0,4294
-0,84536
0,0042
-201,3572
0
LSZKOD. –999
1,47814
0,39079
0,00846
46,20179
0
LSZKOD. 1000–1999
1,48537
0,39567
0,00833
47,49887
0
LSZKOD. 2000–4999
1,50867
0,41123
0,00736
55,86308
0
LSZKOD. 5000–9999
1,43496
0,36113
0,00842
42,88961
0
LSZKOD. 10000–19999
1,36816
0,31346
0,0081
38,68758
0
LSZKOD. 20000–49999
1,33951
0,2923
0,00793
36,86062
0
LSZKOD. 50000–99999
1,26126
0,23211
0,00968
23,98679
0
LSZKOD. 100-300 ezer
1,22477
0,20275
0,00828
24,49597
0
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .BP
Az adatelemzés referencia kategóriája a 20-24 éves budapesti férfiak, a modell az ő halandóságukat becsüli az Intercept=0,00052 (azaz 5,2 / 10 000) értékkel. A többi incidencia sűrűség hányados ehhez viszonyított, tehát az 50-54 éves budapesti férfiak esetében hússzoros (pontosabban 0,00052*20,58 = 0,0107) halandóságot becsül a modell.
A legfeljebb 999 lélekszámú településen lakó, 50-54 éves nők esetében ez az érték 0,00052*20,58 *1,47*0,4294 = 0,0067 Fontos tudni, hogy ez nem tényadat, hanem becslés, más modell esetén ugyanezekből az alapadatokból más becslést kapunk.
Goodness of fit signif = 0
(resid deviance = 3792,5 , resid df = 297 )
Az eredménylista fenti két sora azt jelenti, hogy a modell nem illeszkedik. Ez nem jelenti azt, hogy a modell becslései mind tévesek. Az eddig bemutatott halandósági becslések jól közelítik az alapsokasági adatokból a megfelelő részhalmazokra számolt halandósági tényadatokat.
A 2.2. fejezet mondja el, hogyan kell a modell illeszkedésvizsgálat eredményét értelmezni. A gyakorlati adatelemzés számára a lényeges az, hogy a nem illeszkedő modellben (Goodness of fit signif lt 0,05) kapott szignifikancia értékekre nem szabad úgy hivatkozni, mint statisztikai bizonyítékra.
2.2. példa - Negatív binomiális regresszió, mortalitás korcsoport, nem, korcsoport*nem interakció és lakhely népességszám szerint
call negbin: Y ~ offset(LOGN) + AGE + GENDER + AGE:GENDER + LSZKOD
Incidencia sűrűség hányados
Együttható
Együttható standard hibája
z érték
Pr(>|z|)
(Intercept)
0,00063
-7,37688
0,06673
-110,5426
0
AGE.00-04
1,59647
0,46779
0,08893
5,26006
0
AGE.05-09
0,18065
-1,71117
0,18443
-9,278
0
AGE.10-14
0,23681
-1,44049
0,16086
-8,95509
0
AGE.15-19
0,57782
-0,54849
0,10937
-5,01514
0
AGE.25-29
1,09534
0,09106
0,08949
1,01756
0,30889
AGE.30-34
1,5239
0,42127
0,08138
5,17668
0
AGE.35-39
2,53666
0,93085
0,07725
12,04994
0
AGE.40-44
5,056
1,62058
0,07324
22,12745
0
AGE.45-49
10,62039
2,36278
0,07078
33,38066
0
AGE.50-54
19,26348
2,95821
0,06922
42,73746
0
AGE.55-59
25,80242
3,25047
0,06884
47,21925
0
AGE.60-64
35,85012
3,57935
0,06877
52,0477
0
AGE.65-69
48,10098
3,8733
0,06867
56,40586
0
AGE.70-74
67,72765
4,21549
0,06866
61,39468
0
AGE.75-79
101,5715
4,62076
0,06853
67,42367
0
AGE.80-84
152,48681
5,02708
0,06863
73,24823
0
AGE.85-X
2013,381
7,60757
0,06782
112,17728
0
GENDER.F
0,30983
-1,17172
0,13452
-8,71039
0
LSZKOD. –999
1,37744
0,32023
0,02026
15,80531
0
LSZKOD. 1000–1999
1,33491
0,28886
0,02005
14,40887
0
LSZKOD. 2000–4999
1,34887
0,29927
0,01924
15,55678
0
LSZKOD. 5000–9999
1,3035
0,26505
0,02012
13,17331
0
LSZKOD. 10000–19999
1,21119
0,1916
0,01983
9,66075
0
LSZKOD. 20000–49999
1,19949
0,18189
0,01974
9,21476
0
LSZKOD. 50000–99999
1,10914
0,10358
0,02113
4,90233
0
LSZKOD. 100-300 ezer
1,09874
0,09416
0,02003
4,70207
0
AGE.00-04:GENDER.F
3,03915
1,11158
0,16041
6,92976
0
AGE.05-09:GENDER.F
2,50165
0,91695
0,2969
3,08841
0,00201
AGE.10-14:GENDER.F
2,53023
0,92831
0,26188
3,54486
0,00039
AGE.15-19:GENDER.F
1,72242
0,54373
0,20142
2,6995
0,00694
AGE.25-29:GENDER.F
1,0535
0,05212
0,18197
0,28643
0,77455
AGE.30-34:GENDER.F
1,36086
0,30811
0,16059
1,91861
0,05503
AGE.35-39:GENDER.F
1,57286
0,45289
0,15167
2,98613
0,00283
AGE.40-44:GENDER.F
1,42547
0,3545
0,14578
2,43181
0,01502
AGE.45-49:GENDER.F
1,37262
0,31672
0,14168
2,23544
0,02539
AGE.50-54:GENDER.F
1,31095
0,27075
0,13912
1,94622
0,05163
AGE.55-59:GENDER.F
1,26055
0,23155
0,1385
1,67188
0,09455
AGE.60-64:GENDER.F
1,33435
0,28844
0,13825
2,08632
0,03695
AGE.65-69:GENDER.F
1,40029
0,33668
0,13796
2,44034
0,01467
AGE.70-74:GENDER.F
1,61923
0,48195
0,13774
3,49893
0,00047
AGE.75-79:GENDER.F
1,88321
0,63298
0,13749
4,60385
0
AGE.80-84:GENDER.F
2,27707
0,82289
0,13745
5,98678
0
AGE.85-X:GENDER.F
1,18804
0,1723
0,13681
1,25946
0,20786
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .BP
Goodness of fit signif = 0,095042
(resid deviance = 311,45 , resid df = 280 )
Megállapítjuk, hogy a 2.1.2. modell 0.05 szignifikancia szinten illeszkedik. Ezt úgy értük el, hogy egyrészt bevontuk a modellbe a korcsoport és nem interakcióját. Ezzel a 2.1.1. modellhez képest ez a modell szélsőségesebb értéket ad a nem szerinti esélyhányadosnak (a GENDER.F érték 43%-ról 31%-ra csökkent), viszont ezt egyes korcsoportokban az interakciós tényező jelentősen módosítja (a 0-4 korcsoportban teljesen eltünteti). A másik ok az, hogy Poisson modell helyett Negatív binomiális modellben számolunk (a részleteket lásd a 2.2 fejezetben)
2.3. példa - (hibásan specifikált modell!): Lineáris regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint
call lm: Y ~ N + AGE + GENDER + LSZKOD
Együttható
Együttható standard hibája
t érték
Pr(>|t|)
(Intercept)
1534,4197
296,38432
5,17713
0
N
2,20083
0,5123
-4,29596
2,00E-05
AGE.00-04
-182,0544
162,90938
-1,11752
0,26468
AGE.05-09
-219,5142
163,50492
-1,34255
0,18045
AGE.10-14
-190,2798
161,72845
-1,17654
0,24032
AGE.15-19
-62,75903
156,9521
-0,39986
0,68955
AGE.25-29
64,77578
157,06404
0,41242
0,68033
AGE.30-34
267,49513
166,6551
1,60508
0,10954
AGE.35-39
168,39621
159,17392
1,05794
0,29095
AGE.40-44
116,78885
156,5768
0,74589
0,45633
AGE.45-49
116,60105
156,97109
0,74282
0,45818
AGE.50-54
455,67318
157,36489
2,89565
0,00407
AGE.55-59
626,09271
158,3914
3,95282
1,00E-04
AGE.60-64
504,07648
157,34297
3,20368
0,0015
AGE.65-69
524,51447
160,68026
3,26434
0,00123
AGE.70-74
490,40076
170,72486
2,87246
0,00437
AGE.75-79
659,05218
179,49239
3,67176
0,00029
AGE.80-84
644,22833
196,4611
3,27916
0,00117
AGE.85-X
6597,1837
209,13834
31,54459
0
GENDER.F
-18,82911
54,48614
-0,34558
0,72991
LSZKOD. –999
-1029,356
175,05217
-5,88028
0
LSZKOD. 1000–1999
-906,5593
159,16521
-5,69571
0
LSZKOD. 2000–4999
-229,8071
117,32347
-1,95875
0,05108
LSZKOD. 5000–9999
-928,6075
159,11282
-5,83616
0
LSZKOD. 10000–19999
-697,1132
136,51661
-5,10643
0
LSZKOD. 20000–49999
-616,3018
132,8107
-4,64045
1,00E-05
LSZKOD. 50000–99999
-1264,13
181,20397
-6,97628
0
LSZKOD. 100-300 ezer
-741,6092
135,91592
-5,45638
0
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .BP
F-statistics = 145,52 on df1= 27 and df2= 296
R-squared = 0,929942
A lineáris regresszió magyarázó változói ugyanazok, mint a Poisson regressziónál (az egyetlen különbség a népességszám N, ami itt magyarázó változó, a Poisson regressziónál offset volt).
Ez a modell hibásan specifikált, a lineáris modell előfeltételei nem teljesülnek. Nyilvánvalóan félrevezető eredmény pl. az, hogy a GENDER hatás ebben a modellben nem szignifikáns.
Felhívjuk a figyelmet arra, hogy a fenti konvencionális eredményközlésben semmi nem jelzi ezt a hibát: az F statisztika küszöbértéke 5%-os elsőfajú hibavalószínűség mellett 1,51 ezért a modell F=145,5 értéke szignifikáns, tehát a modell magyarázóereje szignifikáns (a null-modellhez képest). A számított R2=0.93 kiválóan magas illeszkedést mutat, szintén szignifikáns.
A 2.2.3. pontban tárgyalunk olyan diagnosztikai eszközöket, amelyek a rosszul specifikált modell hibáinak felderítésére alkalmasak.
2. Statisztikai összefoglaló
2.1. Poisson eloszlás
Az valószínűségi változó -paraméterű Poisson eloszlású ()
(2.1)
A Poisson eloszlás várható értéke:
(2.2)
A Poisson eloszlás szórásnégyzete:
(2.3)
Tehát a Poisson eloszlás várható értéke és szórásnégyzete megegyezik.
Exponenciális eloszlás
Az valószínűségi változó -paraméterű exponenciális eloszlású ()
ha sűrűségfüggvénye
(2.4)
Az exponenciális eloszlás várható értéke:
(2.5)
Az exponenciális eloszlás szórásnégyzete:
(2.6)
Tehát az exponenciális eloszlás várható értéke és szórása megegyezik.
Gamma eloszlás
Az valószínűségi változó -paraméterű Gamma eloszlású, ha darab független, paraméterű exponenciális valószínűségi változó összege (ahol valós szám, egész szám).
A Gamma eloszlás sűrűségfüggvénye:
(2.7)
A Gamma eloszlás várható értéke:
(2.8)
A Gamma eloszlás szórásnégyzete:
(2.9)
Geometriai eloszlás
Az valószínűségi változó paraméterű geometriai (= elsőrendű negatív binomiális, Pascal) eloszlású (ahol , ha lehetséges értékei a nemnegatív egész számok és
(2.10)
A geometriai eloszlás várható értéke:
(2.11)
A geometriai eloszlás szórásnégyzete:
(2.12)
Negatív binomiális eloszlás
Az valószínűségi változó -paraméterű negatív binomiális eloszlású, ha darab független, paraméterű geometriai valószínűségi változó összege (ahol és pozitív egész szám)
(2.13)
A negatív binomiális eloszlás várható értéke:
(2.14)
A negatív binomiális eloszlás szórásnégyzete:
(2.15)
Megjegyzés: ez a definíció kiterjeszthető az valós számokra.
2.2. Poisson regresszió kategoriális magyarázó változókkal
(2.16)
(2.17)
ahol
: a cellát azonosító index: a populáció -ik korcsoport, -ik nem, -ik lakhely népességszám kategória szerint homogén csoportja,
: az -ik cellában megfigyelt esemény-szám,
: az -ik cellában a populáció nagysága (lakónépesség),
: az -ik cellában az intenzitás,
: a modell ismeretlen paraméterei.
A modell illesztése:
· meghatározzuk az adatokból a paraméterek becslését,
· meghatározzuk a paraméterekhez tartozó szignifikancia-szinteket,
· meghatározzuk a modell illeszkedésének szignifikancia-szintjét,
· megvizsgáljuk a reziduumok eloszlását.
Megjegyzés: az interakciós hatások figyelembevétele a loglineáris elemzésnél szokott módon történik (lásd Agresti[bib_1] 5. fejezet).
Megjegyzés: az a modellben nem magyarázó változó, hanem együttható nélküli (azaz "offset") változó.
2.3. Negatív binomiális regresszió kategoriális magyarázó változókkal
(2.18)
(2.19)
(2.20)
a paraméterek értelmezése azonos a Poisson regressziónál elmondottakkal.
Megjegyzés: miközben a feltételes eloszlás Poisson, az feltétel nélküli eloszlása negatív binomiális.
Megjegyzés: a negatív binomiális regresszió fontos jellemzője, hogy a Poisson regressziónál nem kezelhető túlszórást is modellezi.
Megjegyzés: a fentiekkel egy hierarchikus regressziós modellt jellemeztünk.
2.4. A modell statisztikai illeszkedésvizsgálata
A lineáris regresszió modell feltételei:
ahol ismeretlen paraméterek és független (tehát állandó szórású)
A 2.1.3. példában az összhalálozást lineáris regresszióval közelítjük. Ez a modell rosszul specifikált, mert nem állandó szórású (például azért, mert különböző népességszámú statisztikai egységekre vonatkozik).
A következőkben bemutatjuk a legegyszerűbb modell diagnosztikai eszközöket, amelyekkel megvizsgálhatjuk, mennyire teljesülnek a modell feltételei.
A reziduumok homoszkedaszticitását szemléltető görbe: a reziduumok a modell által becsült érték függvényében ábrázolva. A 2.1.3. modell láthatóan rosszul specifikált, reziduumai nem állandó szórásúak: ha a számított érték nagyobb, akkor a reziduum szórása is nagyobb.
A standardizált reziduumok kvantilisei a standard normális eloszlás kvantiliseinek függvényében ábrázolva. A 2.1.3. modell láthatóan rosszul specifikált, reziduumainak eloszlása jelentősen eltér a normálistól.
A Poisson és a Negatív binomiális regressziós modell esetén hasonló illeszkedésvizsgálatot végzünk. A reziduumok értelmezése azonban kissé eltérő.
A modell illeszkedésvizsgálatának döntő eleme a likelihood függvény: ez a paraméterek függvényében fejezi ki, hogy az adott modellben mennyi a valószínûsége a megfigyelt mintának. Azt a paraméter értéket választjuk becslésnek (pontosabban maximum likelihood becslésnek), amely maximalizálja ezt a valószínûséget.
A reziduumok négyzetösszege a lineáris modellben monoton csökkenő függvénye (negatív logaritmus) a likelihoodnak: kisebb reziduális négyzetösszeg = nagyobb likelihood. Ez a kapcsolat itt kissé bonyolultabbá válik, ezért a reziduumok helyébe a deviance lép. A következő pontban szerepel az általános lineáris modell leírása, ahol a deviance fogalmának megvilágítása a fő cél, minden egyéb részlet csak nagyon leegyszerûsítve szerepel.
2.5. Az általánosított lineáris modell (GLM)
a kimeneti változó megfigyelt értékei, várhatóértéke
a magyarázó változók ismert értékei
lineáris prediktor, ismeretlen paraméterek
link függvény
Exponenciális eloszlás-család: függetlenek az alábbi eloszlással:
(2.21)
ahol (ismeretlen) paraméterek, φ (ismert v. ismeretlen) skála-paraméter,
γ ismert súlyok, γ() és τ() ismert függvények.
A exponenciális eloszlás-család tagja a normális, binomiális, exponenciális, Poisson eloszlás, ilyen eloszlású kimeneti változó esetén alkalmazható a GLM.
(2.22)
ahol a maximalizált likelihood ( a kimeneti változó eloszlásfüggvényébe behelyettesítjük a mintában megfigyelt értékeket és a paraméterekben maximalizálunk). A számlálóban az aktuális modell szerepel, a nevezőben a telített modell ( ahol a lehető legtöbb paraméter van).
A modell illeszkedésének likelihood ratio (LR) tesztje: ahol a szabadságfoka = megfigyelések száma - szabad paraméterek száma.
Hatékony számítógépes realizációk állnak rendelkezésre, az SPSS-ben GENLIN néven, a STATA-ban GLM néven. Az R nyelven sok megvalósítás ismert, az egyik a glm() függvény.
Az általánosított lineáris modell az normális eloszlás esetén = és és választással egyenértékû a klasszikus lineáris modellel.
A következőkben az epidemiológiai modellekben leggyakrabban alkalmazott GLM, a Poisson regresszió tulajdonságait foglaljuk össze, a következő fejezetben tárgyaljuk a logisztikus-binomiális regressziót.
A Poisson regresszió, mint általánosított lineáris regresszió
esetén és és és
ahol ahol
A modell illeszkedésvizsgálatának likelihood hányados tesztje:
a modell akkor illeszkedik 0,05 elsőfajú hibavalószínûség mellett, ha a (mintanagyság - modell paramétereinek száma) szabadságfokú eloszlás 0,95-kvantilise.
A fenti LR illeszkedesvizsgálat mellett hasznos a lineáris modellnél megismert modell diagnosztikai ábrák vizsgálata. Kiderül belőle, hogy ha nincs megfelelő illeszkedés, akkor ezt mely cellák tehetők ezért felelőssé (ez természetesen leegyszerûsítés, az illeszkedés hiányát az összes megfigyelés együttesen okozza). Az ábrákon az outlier pont mellett megjelenő szám az input adatfájl sorszámával utal az illeszkedés hiányáért felelőssé tehető cellára.
Q-Q plot hasonlóan szerkeszthető, mint a lineáris modell esetén, a vízszintes tengelyen az elméleti kvantilis, a függőleges tengelyen a standardizált deviance pontonkánti eloszlásának kvantilisei.
A reziduumok homoszkedaszticitását szemléltető görbének itt a scale-location görbe felel meg, a vízszintes tengelyen a modell által becsült érték, a függőleges tengelyen a standardizált deviance abszolut értéke négyzetgyökének pontonkénti értékei (részletesebben Gelman-Hill [bib_3]6.2. fejezet).
A 2.1.1. modell illeszkedésvizsgálata
deviance = 3792.5 , melynek szabadságfoka: resid df = 297 tehát az illeszkedésvizsgálat LR statisztikája szignifikáns: ez a modell nerm illeszkedik.
( jól közelíthető és normálissal, ha )
Mind a Q-Q plot, mind a reziduumok homoszkedaszticitását szemléltető görbe jól mutatja a az illeszkedés hiányának okát: nagyobb becsült értékeknél nagyobb a std. deviance.
A 2.1.2. modell illeszkedésvizsgálata
deviance = 311,45 , melynek szabadságfoka: resid df = 280 az illeszkedésvizsgálat LR statisztikájának 95% -os egyoldali elfogadási tartományának felső küszöbértéke 319 és miután ez nagyobb, mint 311,45 ezért a modell illeszkedik.
a számítás részletei:
jól közelíthető és normálissal, ha
és a küszöbérték:
Mind a Q-Q plot, mind a reziduumok homoszkedaszticitását szemléltető görbe jó illeszkedést mutat.
További eljárásokat tárgyal a GLM modellek illeszkedésvizsgálatára Gelman [bib_3]8. fejezet, a prediktív becslési hibát bootstrap és cross-validation segítségével elemzi.
Poisson regressziós modellek kategoriális magyarázó változókkal
Poisson regressziós modellek kategoriális magyarázó változókkal
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
3. fejezet - Regressziós modellek folytonos és kategoriális magyarázó változókkal
1. Adatelemzési példák
Ebben a fejezetben Vas megyei mortalitási adatokat elemzünk.
· teljes halálozás településenként, életkor (5-éves korcsoport) és nem szerinti bontásban
· lakónépesség (ugyanilyen bontásban)
· környezeti változók településenként
· lakosságszám (LSZKOD), a település mentőállomástól való távolsága (mento), munkanélküliek aránya (munkanelkarany), középiskola legmagasabb végzettséggel rendelkezők aránya (kozepisk), felsőfokú végzettségűek aránya (felsofoku).
Az alkalmazott regressziós eljárások statisztikai hátterének összefoglalása a 2.2. és a 3.2. fejezetekben.
3.1. példa - Poisson regresszió, mortalitás korcsoportok szerint
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z –érték
Pr(>|z|)
(Intercept)
0,00071
-7,2502
0,32455
-22,3392
0
AGE.00-00
3,45294
1,23922
0,37321
3,32045
0,0009
AGE.01-04
0,37085
-0,99195
0,64734
-1,53235
0,12544
AGE.05-09
0,19086
-1,6562
0,82802
-2,00018
0,04548
AGE.10-14
0,35258
-1,04249
0,62106
-1,67857
0,09324
AGE.15-19
0,55239
-0,5935
0,48945
-1,2126
0,22528
AGE.25-29
1,31103
0,27081
0,40089
0,67553
0,49934
AGE.30-34
2,10434
0,744
0,37013
2,01011
0,04442
AGE.35-39
3,43103
1,23286
0,33577
3,67174
0,00024
AGE.40-44
7,82675
2,05755
0,3102
6,63304
0
AGE.45-49
14,90628
2,70178
0,30362
8,89848
0
AGE.50-54
22,84387
3,12868
0,30127
10,38491
0
AGE.55-59
30,3301
3,41214
0,30022
11,36544
0
AGE.60-64
40,05764
3,69032
0,29893
12,34507
0
AGE.65-69
57,16813
4,046
0,2975
13,59979
0
AGE.70-74
103,54153
4,63997
0,29611
15,66984
0
AGE.75-79
260,15598
5,56128
0,29553
18,81826
0
AGE.80-84
280,80722
5,63767
0,29637
19,02216
0
AGE.85-X
505,2024
6,22496
0,29545
21,06971
0
AGE ref.level: .20-24
Egyetlen magyarázó változó van: az életkor (kategóriák 5-éves korcsoportonként).
α : a táblázat (Tengelymetszet) sorában írt becslés
β: pl. a táblázat (AGE.50-54) sorában az 50-54 korcsoportra vonatkozó együttható becslése.
A táblázat oszlopainak jelentése
első oszlop: a változó megnevezése,
második oszlop: az együttható becslése, exponenciálisa az incidencia sűrűség (arányszám hányados), amely a hozzátartozó változó egységnyi változásához tartozik. Jelen esetben az X-ek indikátor változók, értékük 1 az adott korcsoportban, egyébként 0.
harmadik oszlop: incidencia sűrűség (arányszám) hányados
negyedik oszlop: a becslés standard hibája ,
az ötödik oszlop: a számított Wald-féle z-statisztika értéke
hatodik oszlop: az együttható számított szignifikanciaszintje.
A referencia csoport a 20-24 évesek, körükben a mortalitás=exp(α)=exp(-7,51595)= 0,00054 azaz 5,4 per 10000 személy-év. Az 50-54 éves korosztályban a mortalitás ehhez képest exp(beta)=exp(3,12868)=22,84-szeres.
3.2. példa - Poisson regresszió, mortalitás a korcsoport, nem szerint
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z –érték
Pr(>|z|)
(Intercept)
0,00068
-7,2915
0,29301
-24,8845
0
AGE.00-00
3,45429
1,23962
0,37321
3,3215
9,00E-004
AGE.01-04
0,37202
-0,98881
0,64734
-1,52749
0,12664
AGE.05-09
0,19096
-1,65571
0,82801
-1,99963
0,04554
AGE.10-14
0,35388
-1,03879
0,62106
-1,67261
0,0944
AGE.15-19
0,55385
-0,59085
0,48945
-1,20718
0,22736
AGE.25-29
1,3131
0,27239
0,40089
0,67946
0,49685
AGE.30-34
2,10691
0,74522
0,37013
2,01341
0,04407
AGE.35-39
3,45253
1,23911
0,33577
3,69035
0,00022
AGE.40-44
7,87562
2,06377
0,3102
6,6531
0
AGE.45-49
15,01495
2,70905
0,30362
8,9224
0
AGE.50-54
23,3062
3,14872
0,30127
10,45134
0
AGE.55-59
31,48157
3,4494
0,30023
11,48923
0
AGE.60-64
42,24041
3,74338
0,29895
12,52183
0
AGE.65-69
61,28111
4,11547
0,29754
13,83188
0
AGE.70-74
112,7548
4,72522
0,29616
15,95518
0
AGE.75-79
287,93925
5,66275
0,29559
19,15719
0
AGE.80-84
318,76084
5,76444
0,29648
19,44276
0
AGE.85-X
509,1224
6,23269
0,29545
21,09585
0
GENDER.F
0,58561
-0,53511
0,0336
-15,92586
0
AGE ref.level: .20-24
GENDER ref.level: .MALE
3.3. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z -érték
Pr(>|z|)
(Intercept)
0,00122
-6,70968
0,35556
-18,87095
0
AGE.00-00
3,11553
1,1364
0,37166
3,05763
0,00223
AGE.01-04
0,42709
-0,85076
0,59933
-1,41952
0,15575
AGE.05-09
0,22017
-1,51333
0,76365
-1,98172
0,04751
AGE.10-14
0,33879
-1,08237
0,60749
-1,78169
0,0748
AGE.15-19
0,55029
-0,59731
0,47832
-1,24876
0,21175
AGE.25-29
1,35989
0,3074
0,3934
0,7814
0,43457
AGE.30-34
2,11189
0,74758
0,36308
2,05903
0,03949
AGE.35-39
3,34322
1,20694
0,33025
3,65465
0,00026
AGE.40-44
7,89268
2,06594
0,30582
6,75538
0
AGE.45-49
14,65945
2,68509
0,29971
8,95887
0
AGE.50-54
22,29776
3,10449
0,29747
10,43637
0
AGE.55-59
31,00256
3,43407
0,29624
11,59209
0
AGE.60-64
41,79252
3,73272
0,29484
12,65999
0
AGE.65-69
62,85608
4,14085
0,29338
14,11437
0
AGE.70-74
124,779
4,82654
0,29203
16,52779
0
AGE.75-79
274,12125
5,61357
0,2917
19,24414
0
AGE.80-84
339,13257
5,82639
0,29231
19,93216
0
AGE.85-X
744,27166
6,61241
0,29294
22,5729
0
GENDER.F
0,59625
-0,5171
0,04428
-11,67897
0
kozepiskola
0,98951
-0,01055
0,00551
-1,91588
0,05538
felsofoku
1,00789
0,00786
0,01057
0,74334
0,45727
munkanelkarany
0,98499
-0,01512
0,00733
-2,0623
0,03918
LSZKOD. 5000+
0,91834
-0,08519
0,07832
-1,08769
0,27673
LSZKOD. 3-5000
0,74271
-0,29745
0,12796
-2,32451
0,0201
LSZKOD. 1-3000
0,70274
-0,35276
0,12734
-2,77023
0,0056
LSZKOD. 500-1000
0,61445
-0,48703
0,14116
-3,45024
0,00056
LSZKOD. -500
0,34544
-1,06294
0,15225
-6,98165
0
mento
1,0031
0,00309
0,00196
1,5768
0,11484
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .MEGYESZÉKHELY
Itt kategoriális magyarázó változók (GENDER, AGE, LSZKOD) mellett szám-értékű változók is megjelentek (kozepiskola, felsofoku, munkanelkarany, mento), ezt a modellt 3.2.1. írja le.
3.4. példa - A modellek illeszkedésének mérőszáma
3.1.1. modell: (resid deviance = 4602,84 , resid df = 8189 )
3.1.2. modell: (resid deviance = 4349,36 , resid df = 8188 )
3.1.3. modell: (resid deviance = 3753,85 , resid df = 8179 )
A 2.2. fejezetben elmondottak alapján megállapíthatjuk, hogy ezek a modellek mind illeszkednek, ezért az egyes tényezőkre vonatkozó becsléseket, azok szignifikanciáját érvényesnek tekintjük. Az érvényesség a modellen belül értendő, mivel ha változtatunk azon, hogy mely magyarázó változókat vesszük be a modellbe, az természetesen a becsléseket is megváltoztatja.
Megfigyelhetjük, hogy az 3.1.2. táblázat becslései megváltoztak az 3.1.1. táblázatéhoz képest (mármint azok, melyek ott is szerepeltek), hasonlóan az 3.1.3. táblázat becslései az 3.1.2. táblázatéhoz képest.
3.5. példa - Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nem és korcsoport figyelembevétele nélkül
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z -érték
Pr(>|z|)
(Intercept)
0,04134
-3,18602
0,21401
-14,88734
0
kozepiskola
0,96725
-0,03329
0,005
-6,65278
0
felsofoku
1,02766
0,02728
0,00798
3,41889
0,00063
munkanelkarany
0,97737
-0,02289
0,00766
-2,98876
0,0028
LSZKOD. 5000+
0,68222
-0,38241
0,07857
-4,8672
0
LSZKOD. 3-5000
0,49321
-0,70683
0,12971
-5,44912
0
LSZKOD. 1-3000
0,53013
-0,63463
0,12921
-4,91166
0
LSZKOD. 500-1000
0,67018
-0,40021
0,14163
-2,82578
0,00472
LSZKOD. -500
0,56793
-0,56576
0,15222
-3,71661
2,00E-004
mento
1,00642
0,0064
0,00198
3,23741
0,00121
LSZKOD ref.level= .MEGYESZÉKHELY
3.1.4.modell: (resid deviance = 14878,4 , resid df = 8198 )
Ezért ez a modell nem illeszkedik.
3.6. példa - Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z -érték
Pr(>|z|)
(Intercept)
0,04109
-3,19197
0,20983
-15,21182
0
kozepiskola
0,98552
-0,01458
0,0049
-2,97373
0,00294
felsofoku
0,97107
-0,02935
0,00806
-3,64242
0,00027
munkanelkarany
0,97953
-0,02068
0,00753
-2,7449
0,00605
LSZKOD. 5000+
0,63739
-0,45037
0,07842
-5,74307
0
LSZKOD. 3-5000
0,46398
-0,76791
0,12801
-5,99893
0
LSZKOD. 1-3000
0,49395
-0,70533
0,12744
-5,53445
0
LSZKOD. 500-1000
0,58338
-0,53892
0,1399
-3,85207
0,00012
LSZKOD. -500
0,51553
-0,66257
0,15005
-4,41564
1,00E-005
mento
1,00766
0,00763
0,00194
3,92591
9,00E-005
LSZKOD ref.level= .MEGYESZÉKHELY
3.1.5.modell: (resid deviance = 4036,98 , resid df = 8198 )
A standardizálás műveletét a 3.2.2. fejezet írja le. A technikai megvalósítás az, hogy a kor és nem szerinti kategóriákban vett országos mortalitás érték és a népességszám szorzatát (pontosabban a szorzat logaritmusát) alkalmazzuk offset változóként.
Az interpretáció számára a lényeges az, hogy a standardizálással készült táblázatban az ISH értékek azt mutatják, hogy az egyes kategóriákban hogyan aránylik a Vas megyei mortalitás az országos átlag (ugyanilyen kategóriájában vett) mortalitás értékéhez.
Mint látjuk, ugyanazok a magyarázó változók a legutóbbi két példában. A standardizálás nélküli 3.1.4. modell nem illeszkedett, a standardizálással készült 3.1.5. modell igen.
3.7. példa - Poisson regresszió, mortalitás a korcsoport és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z -érték
Pr(>|z|)
(Intercept)
0,02659
-3,62712
0,35723
-10,15354
0
AGE.00-00
0,22123
-1,50854
0,3717
-4,05849
5,00E-005
AGE.01-04
0,68612
-0,37671
0,59935
-0,62852
0,52966
AGE.05-09
0,75215
-0,28482
0,76373
-0,37294
0,70919
AGE.10-14
1,01544
0,01532
0,60751
0,02522
0,97988
AGE.15-19
0,80295
-0,21946
0,47832
-0,45882
0,64636
AGE.25-29
1,05624
0,05471
0,3934
0,13907
0,88939
AGE.30-34
0,97681
-0,02347
0,36308
-0,06463
0,94847
AGE.35-39
0,77735
-0,25187
0,33025
-0,76266
0,44566
AGE.40-44
0,96743
-0,03311
0,30582
-0,10826
0,91379
AGE.45-49
1,19191
0,17556
0,29971
0,58576
0,55804
AGE.50-54
1,27781
0,24515
0,29747
0,82411
0,40988
AGE.55-59
1,29933
0,26185
0,29624
0,8839
0,37675
AGE.60-64
1,23469
0,21082
0,29484
0,71503
0,47459
AGE.65-69
1,28403
0,25
0,29338
0,85213
0,39414
AGE.70-74
1,67405
0,51524
0,29205
1,76426
0,07769
AGE.75-79
2,33802
0,8493
0,29174
2,91114
0,0036
AGE.80-84
1,78617
0,58007
0,29238
1,98401
0,04726
AGE.85-X
2,23482
0,80416
0,29289
2,74559
0,00604
kozepiskola
0,98137
-0,01881
0,00494
-3,80464
0,00014
felsofoku
0,98752
-0,01256
0,00817
-1,53734
0,12421
munkanelkarany
0,97932
-0,02089
0,00751
-2,78341
0,00538
LSZKOD. 5000+
0,68046
-0,38499
0,07853
-4,90236
0
LSZKOD. 3-5000
0,49377
-0,70569
0,12831
-5,49989
0
LSZKOD. 1-3000
0,50577
-0,68167
0,12821
-5,31706
0
LSZKOD. 500-1000
0,55783
-0,58369
0,14131
-4,13065
4,00E-005
LSZKOD. -500
0,44997
-0,79859
0,15301
-5,21907
0
mento
1,00708
0,00705
0,00195
3,62273
0,00029
3.1.6.modell: (resid deviance = 3621,65 , resid df = 8180 )
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .MEGYESZÉKHELY
3.8. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z -érték
Pr(>|z|)
(Intercept)
0,0265
-3,63054
0,35748
-10,15606
0
AGE.00-00
0,22097
-1,50972
0,37172
-4,06139
5,00E-005
AGE.01-04
0,68544
-0,3777
0,59936
-0,63017
0,52858
AGE.05-09
0,75139
-0,28583
0,76374
-0,37425
0,70822
AGE.10-14
1,01467
0,01456
0,60751
0,02397
0,98088
AGE.15-19
0,80268
-0,2198
0,47832
-0,45951
0,64586
AGE.25-29
1,05621
0,05469
0,3934
0,13902
0,88944
AGE.30-34
0,97687
-0,0234
0,36308
-0,06445
0,94861
AGE.35-39
0,77731
-0,25191
0,33025
-0,76279
0,44559
AGE.40-44
0,96742
-0,03313
0,30582
-0,10832
0,91374
AGE.45-49
1,1918
0,17547
0,29971
0,58545
0,55825
AGE.50-54
1,27754
0,24494
0,29747
0,82341
0,41027
AGE.55-59
1,29882
0,26145
0,29625
0,88255
0,37748
AGE.60-64
1,23396
0,21023
0,29485
0,71301
0,47584
AGE.65-69
1,28282
0,24906
0,2934
0,84887
0,39595
AGE.70-74
1,67175
0,51387
0,29209
1,7593
0,07853
AGE.75-79
2,33349
0,84737
0,29183
2,90365
0,00369
AGE.80-84
1,78169
0,57756
0,29252
1,97445
0,04833
AGE.85-X
2,23189
0,80285
0,29293
2,74072
0,00613
GENDER.F
1,01226
0,01218
0,04443
0,2742
0,78393
kozepiskola
0,98071
-0,01948
0,00552
-3,52954
0,00042
felsofoku
0,98937
-0,01068
0,01066
-1,00236
0,31617
munkanelkarany
0,97928
-0,02094
0,00751
-2,78965
0,00528
LSZKOD. 5000+
0,68284
-0,38149
0,07955
-4,79573
0
LSZKOD. 3-5000
0,49547
-0,70224
0,12893
-5,44685
0
LSZKOD. 1-3000
0,50769
-0,67789
0,12896
-5,2564
0
LSZKOD. 500-1000
0,56017
-0,57951
0,14215
-4,07669
5,00E-005
LSZKOD. -500
0,45167
-0,79481
0,15366
-5,17245
0
mento
1,00704
0,00702
0,00195
3,59897
0,00032
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .MEGYESZÉKHELY
3.1.7.modell: (resid deviance = 3621,58 , resid df = 8179)
Az értelmezésben fontos a standardizálás figyelembevétele, tehát pl. itt az AGE együtthatók a hasonló korosztályos országos adatokhoz viszonyítják a vasi adatokat. Látható, hogy az együtthatók általában nem szignifikánsak, kivéve a 75+ korosztályokat, ahol a Vasi mortalitás jelentősen meghaladja az országos átlagot.
Emlékszünk, hogy az 3.1.2. modellben megjelenő GENDER az 3.1.1. modell resid deviance értékét 250-nel javította, a standardizálás után ez a változó csak 0.07 javulást hozott. Ez azt jelenti, hogy a nemek közötti különbségek nagyjából az országos átlag szerint alakulnak Vas megyében. GENDER.F nagyobb, mint 1 és nem szignifikáns (a standardizálás előtt kisebb volt, mint 1, és szignifikáns). Ennek is az az oka, hogy a relatív incidencia sűrűség, amit számolunk, tehát mindig az azonos kategóriájú országos adatokhoz viszonyítunk.
3.9. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település iskolai végzettség (kozepiskola, felsofoku) változói szerint, nemre és korcsoportra standardizálva
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z –érték
Pr(>|z|)
(Intercept)
0,01026
-4,57944
0,29233
-15,66512
0
AGE.00-00
0,22033
-1,51264
0,37172
-4,06926
5,00E-005
AGE.01-04
0,6816
-0,38331
0,59936
-0,63954
0,52247
AGE.05-09
0,74633
-0,29259
0,76365
-0,38315
0,70161
AGE.10-14
1,00861
0,00857
0,60751
0,01411
0,98874
AGE.15-19
0,80096
-0,22195
0,47832
-0,46401
0,64264
AGE.25-29
1,05496
0,0535
0,3934
0,136
0,89182
AGE.30-34
0,97401
-0,02633
0,36308
-0,07252
0,94219
AGE.35-39
0,77467
-0,25532
0,33025
-0,77312
0,43945
AGE.40-44
0,96576
-0,03484
0,30582
-0,11392
0,9093
AGE.45-49
1,19301
0,17648
0,29971
0,58883
0,55598
AGE.50-54
1,28144
0,24799
0,29747
0,83365
0,40448
AGE.55-59
1,30372
0,26522
0,29624
0,89529
0,37063
AGE.60-64
1,24009
0,21518
0,29485
0,72981
0,46551
AGE.65-69
1,29092
0,25536
0,2934
0,87035
0,38411
AGE.70-74
1,68605
0,52239
0,29208
1,78853
0,07369
AGE.75-79
2,3584
0,85798
0,29182
2,94013
0,00328
AGE.80-84
1,80165
0,5887
0,2925
2,01264
0,04415
AGE.85-X
2,22041
0,79769
0,29236
2,72848
0,00636
GENDER.F
1,04166
0,04081
0,04362
0,93575
0,3494
kozepiskola
0,9929
-0,00713
0,00423
-1,68638
0,09172
felsofoku
1,00341
0,00341
0,01
0,34102
0,73309
AGE ref.level: .20-24
GENDER ref.level: .MALE
3.1.8.modell: (resid deviance = 3999,5 , resid df = 8186 )
Ebben a modellben a középiskolát végzettek aránya gyengén (p=0.092) szignifikáns, és ahol nagyobb az értéke, ott kicsit kisebb a mortalitás. A felsőfokú végzettségűek arányának nincs kimutatható hatása.
3.10. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői (munkanelkarany, mento, LSZKOD) változója szerint, nemre és korcsoportra standardizálva
Változó
Incidencia sűrűség hányados (ISH)
Együttható
Az együttható standard hibája
z -érték
Pr(>|z|)
(Intercept)
0,0088
-4,73349
0,29205
-16,20756
0
AGE.00-00
0,22143
-1,50764
0,37172
-4,05582
5,00E-005
AGE.01-04
0,68583
-0,37712
0,59936
-0,6292
0,52922
AGE.05-09
0,75029
-0,28729
0,76373
-0,37617
0,70679
AGE.10-14
1,01237
0,0123
0,60751
0,02024
0,98385
AGE.15-19
0,80185
-0,22084
0,47832
-0,4617
0,6443
AGE.25-29
1,0572
0,05562
0,3934
0,14139
0,88756
AGE.30-34
0,97763
-0,02263
0,36308
-0,06232
0,95031
AGE.35-39
0,77742
-0,25178
0,33025
-0,76239
0,44582
AGE.40-44
0,96695
-0,0336
0,30582
-0,10988
0,9125
AGE.45-49
1,19237
0,17595
0,29971
0,58705
0,55717
AGE.50-54
1,28005
0,2469
0,29747
0,83001
0,40654
AGE.55-59
1,30467
0,26595
0,29624
0,89775
0,36932
AGE.60-64
1,24151
0,21633
0,29485
0,7337
0,46313
AGE.65-69
1,29156
0,25585
0,2934
0,87203
0,38319
AGE.70-74
1,68517
0,52186
0,29208
1,78672
0,07398
AGE.75-79
2,35188
0,85521
0,29182
2,93062
0,00338
AGE.80-84
1,79682
0,58602
0,29251
2,00342
0,04513
AGE.85-X
2,24872
0,81036
0,29293
2,76641
0,00567
GENDER.F
1,02644
0,0261
0,03393
0,76924
0,44175
munkanelkarany
0,99013
-0,00992
0,00718
-1,38206
0,16695
LSZKOD. 5000+
0,93663
-0,06547
0,05128
-1,27666
0,20172
LSZKOD. 3-5000
0,80782
-0,21342
0,09119
-2,34049
0,01926
LSZKOD. 1-3000
0,9224
-0,08077
0,06178
-1,3075
0,19104
LSZKOD. 500-1000
1,10263
0,09769
0,06343
1,54011
0,12353
LSZKOD. -500
0,93319
-0,06915
0,07123
-0,97074
0,33168
mento
1,00701
0,00699
0,00194
3,59826
0,00032
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .MEGYESZÉKHELY
3.1.9.modell: (resid deviance = 3963,26 , resid df = 8181 )
Ebben a modellben a mentőállomástól való távolság hatása szignifikáns, ahol nagyobb a távolság ott magasabb a mortalitás. Ezen kívül az LSZKOD 3-5000 hatása szignifikáns.
Összefoglalva: a 3.1.4. példában minden környezeti változó parciális hatása szignifikáns (a felsőfokú végzettségűek aránya kivételével), de itt a modell nem illeszkedik. A 3.1.5. példa illeszkedő modell mellett kapjuk ugyanezt az eredményt, majd a 3.1.6. példában az AGE és a 3.1.7. példában a GENDER is magyarázó változó lett, és ez csökkentette a környezeti változók magyarázó erejét. Az igazán meglepő azonban a 3.1.8. és 3.1.9. példa, ahol még a környezeti változók egy-egy csoportját is kivettük a modellből, és ennek hatására a bent maradó változók hatása nem nőtt hanem csökkent.
A változószelekció a Poisson regressziónál nem végezhető a lineáris modellben megszokott parciális korreláción alapuló eljárásokkal, a modellben szereplő változók parciális hatását mutató szignifikancia értéket csak közelítésnek szabad tekinteni. A magyarázó változók szelekcióját az általánosított lineáris modell deviance statisztikáján alapuló módszerrel végezhetjük, erre szolgál az R bestglm csomagja (McLeod, A.I. – Xu, C.: Best Subset GLM package[bib_7]).
3.11. példa - BMA Bayes-féle modell átlagolási eljárás. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői változója szerint, nemre és korcsoportra standardizálva.
változó
szint/részvételi arány
Együttható
Az együttható standard hibája
1.model
2.model
3.model
(Intercept)
100,00%
-5,5059
0,5635
-5,514
-5,329
-5,726
AGE
100,00%
0,3505
0,0153
0,3496
0,3524
0,3564
GENDER
100,00%
AGE.00-00
-0,1832
0,4321
-0,1841
-0,1942
-0,1541
AGE.01-04
-1,1685
0,8676
-1,171
-1,175
-1,125
AGE.05-09
-1,5123
1,1342
-1,516
-1,517
-1,465
AGE.10-14
-0,6795
0,7401
-0,6828
-0,6851
-0,634
AGE.15-19
-0,1821
0,5348
-0,1846
-0,1899
-0,1416
AGE.25-29
0,4581
0,4159
0,4562
0,4491
0,4951
AGE.30-34
0,5994
0,389
0,5978
0,5897
0,6335
AGE.35-39
0,9215
0,3499
0,9207
0,9103
0,9496
AGE.40-44
1,5672
0,3185
1,567
1,554
1,591
AGE.45-49
1,9115
0,3111
1,911
1,898
1,935
AGE.50-54
2,1589
0,3076
2,159
2,145
2,182
AGE.55-59
2,2371
0,3067
2,237
2,223
2,259
AGE.60-64
2,2853
0,3059
2,286
2,271
2,306
AGE.65-69
2,4398
0,3046
2,44
2,426
2,459
AGE.70-74
2,6509
0,3032
2,652
2,637
2,668
AGE.75-79
2,8538
0,302
2,854
2,84
2,875
AGE.80-84
2,4834
0,3049
2,483
2,47
2,507
AGE.85-X
2,5241
0,3051
2,525
2,516
2,529
felsofoku
92,80%
0,032
0,0126
0,0338
0,0388
-
kozepiskola
100,00%
0,0772
0,0056
0,0767
0,0736
0,0895
munkanelkarany
87,50%
0,023
0,011
0,026
-
0,0301
mento
100,00%
-0,0142
0,0021
-0,0145
-0,0123
-0,0149
AGE.GENDER..
100,00%
.AGE.01-04:GENDER.F
0,1938
1,2445
0,1936
0,194
0,1959
.AGE.05-09:GENDER.F
0,1788
1,6172
0,1787
0,1783
0,1807
.AGE.10-14:GENDER.F
-0,368
1,2386
-0,3683
-0,3675
-0,3652
.AGE.15-19:GENDER.F
-0,8524
1,0403
-0,8529
-0,8507
-0,8497
.AGE.25-29:GENDER.F
-1,396
0,9208
-1,397
-1,394
-1,391
.AGE.30-34:GENDER.F
-0,8707
0,7216
-0,8715
-0,8692
-0,8651
.AGE.35-39:GENDER.F
-0,721
0,6004
-0,7217
-0,7195
-0,7152
.AGE.40-44:GENDER.F
-0,6459
0,5201
-0,6466
-0,6435
-0,6415
.AGE.45-49:GENDER.F
-0,4664
0,4967
-0,4671
-0,464
-0,4634
.AGE.50-54:GENDER.F
-0,6451
0,4914
-0,6458
-0,6433
-0,641
.AGE.55-59:GENDER.F
-0,6121
0,4871
-0,6129
-0,6103
-0,6067
.AGE.60-64:GENDER.F
-0,4223
0,4815
-0,4228
-0,4214
-0,4177
.AGE.65-69:GENDER.F
-0,3533
0,4769
-0,3537
-0,3537
-0,3486
.AGE.70-74:GENDER.F
-0,1274
0,4726
-0,1276
-0,1284
-0,1225
.AGE.75-79:GENDER.F
0,0839
0,4711
0,0839
0,0832
0,0862
.AGE.80-84:GENDER.F
0,2404
0,4737
0,2407
0,2392
0,2387
.AGE.85-X:GENDER.F
0,8484
0,4722
0,8467
0,837
0,8875
.ref
0,028
0,4658
0,0224
0,0071
0,1269
nVar
7
6
6
post probability
0,8022
0,1253
0,072
AGE ref.level: .20-24
GENDER ref.level: .MALE
A modellek közötti választás problémájára másfajta megoldást kínál a Bayes-féle modell átlagolás, ezt a módszert népszerűsíti a hivatkozott Hoeting[bib_5] et.all. cikk. Az eljárás az R nyelven a BMA csomagból érhető el (Raftery et.all BMA [bib_6]). A 3.1.10. példában a kiindulási modellben szerepel a 3.1.6-9. modellek minden magyarázó változója, a program a futás során módszeresen elhagy néhányat a magyarázó változók közül, és az illesztett modell likelihood értéke alapján minden modellhez egy (aposteriori) részvételi valószínűséget rendel.
A példában három modell került kiválasztásra, ezek részvételi valószínűsége a lista utolsó sorában jelenik meg: 0,8022 0,1253 0,072.
A három modell részvételi valószínűségeinek összege majdnem =1 (az összes többi modell osztozik a maradék valószínűségen, tehát azok a modellek mind elhanyagolhatók).
Az 1. modellben minden változó szerepel, a 2. modellben kimarad a munkanelkarany, a 3. modellben kimarad a felsofoku. A táblázat második oszlopában ahol % érték van, az azt jelenti, hogy azoknak a modelleknek, ahol ez a változó szerepel, mennyi a részvételi valószínűségek összege.
A három modellben kapott paraméterbecsléseket a modell részvételi valószínűségével súlyozottan átlagoljuk, és így kapjuk a paraméter BMA becslését. Ez általában közel van az 1. modellbeli értékekhez (hiszen ennek a súlya 80%) , de pl. az AGE:GENDER interakció referencia-cellájánál kissé eltér. Az eljárás neves népszerűsítője Adrian Raftery, számos cikkben igazolta statisztikai stabilitását.
2. Poisson regresszió
2.1. Poisson regresszió, kategoriális és szám értékű magyarázó változókkal
ahol (i,j,k): a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely népességszám kategória szerint homogén csoportja,
: az (i,j,k)-ik cellában megfigyelt esemény-szám,
: az (i,j,k)-ik cellában a populáció nagysága (lakónépesség),
: az (i,j,k)-ik cellában az intenzitás,
: a b-ik magyarázó változó az (i,j,k)-ik cellában,
: a b-ik regressziós együttható.
A fenti tárgyalásban nem szerepel a magyarázó változók közötti interakció.
Az interakciók a bemutatott adatelemzési példákban fontos szerepet játszanak, itt azért nem térünk ki erre, mert értelmezésük teljesen azonos azzal, ahogy ez a lineáris modellnél történik (lásd pl. Faraway, 16.2.).
A szám értékű változókat más szóhasználatban folytonos változóknak nevezik. Fontos megjegyezni, hogy ebben a modellben csak a kimeneti változó sztochasztikus jellegét vesszük figyelembe, a modell a magyarázó változókat mérési és megfigyelési hiba nélkül ismert értékeknek tekintjük.
2.2. Poisson regresszió nemre és korcsoportra standardizálva
ahol (i,j,k): a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely népességszám kategória szerint homogén csoportja,
: a k-ik lakhely kategóriában megfigyelt esemény-szám,
az (i,j,k) indexekben kifejezett megfigyelés-szám:
: a k-ik lakhely kategóriában az intenzitás,
A fenti modell ( helyett -val) illesztését a 3.1.4. példa mutatja.
A következőkben értelmezését mutatjuk be, ezt a modellt a 3.1.5. példa szemlélteti.
Indirekt standardizálás az országos populációra
: az országosan megfigyelt esemény-szám a i,j-ik (kor,nem) csoportban,
: az országos populáció nagysága a i,j-ik (kor,nem) csoportban,
az (i,j,k)-ik cellában a (Vas megyei) várt esemény-szám,
: az (i,j,k)-ik cellában a (Vas megyei) populáció nagysága,
: a kitettséggel arányosított populáció nagyság,
ahol és
Megjegyzés: a (Vas megyei) standardized mortality ratio (SMR)
Regressziós modellek folytonos és kategoriális magyarázó változókkal
Regressziós modellek folytonos és kategoriális magyarázó változókkal
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
4. fejezet - Fix és random tényezős regressziós modellek
1. Adatelemzési példák
Ebben a fejezetben az Európai Lakossági Egészségfelmérés (ELEF 2009) adatai kerülnek elemzésre.
Az ELEF2009 az első egységes európai kérdőíves egészségfelmérés volt, amelyet azonos módszertannal hajtottak végre az EU tagállamaiban. Az adatfelvételre 2009 őszén került sor. A magyarországi mintába 449 település került beválasztásra a kétlépcsős mintavételezés keretében. A tervezett 7000 fő közül 5051 esetében sikerült felvenni a kérdőíveket. A felmérés az egészségi állapotra (betegségek, balesetek, korlátozottság, munkahelyi körülmények, lelki és érzelmi állapot), az egészségmagatartás (testmozgás, táplálkozás, dohányzás, alkoholfogyasztás, kábítószer-fogyasztás), az egészségügyi ellátás igénybevételére, a lakossági egészségügyi kiadásokra, valamint a társadalmi-gazdasági tényezőkre terjedt ki (nem, kor, családi állapot, iskolázottság, munkaerőpiaci státusz, jövedelmi viszonyok).
Bemenő adatok:
· vélt egészség rossz vagy nagyon rossz,
· életkor (5-éves korcsoport),
· nem,
· a lakhely lakóövezeti jellege,
· a lakhely melyik régióban van.
4.1. példa - Logisztikus regresszió, vélt egészség korcsoport, nem, régió szerint
változó
Esélyhányados
Együttható log(esélyhányados)
Együttható standard hibája
z-érték
Pr(>|z|)
(Intercept)
0,00998
-4,60722
0,25604
-17,99394
0
AGE.15-17
0,89044
-0,11603
0,75894
-0,15289
0,87849
AGE.35-64
11,64057
2,4545
0,24302
10,09979
0
AGE.65-X
33,99391
3,52618
0,24892
14,16566
0
GENDER.F
1,30472
0,26599
0,09671
2,7505
0,00595
REGIO.Közép-Dunántúl
0,95794
-0,04297
0,18227
-0,23573
0,81364
REGIO.Észak- Dunántúl
0,72521
-0,3213
0,19986
-1,60763
0,10792
REGIO.Dél- Dunántúl
1,34135
0,29367
0,17562
1,67224
0,09448
REGIO.Észak-Magyarország
1,89074
0,63697
0,15427
4,12886
4,00E-005
REGIO.Észak-Alföld
1,61119
0,47697
0,15057
3,16784
0,00154
REGIO.Dél-Alföld
1,5158
0,41595
0,1561
2,66461
0,00771
AGE ref.level: .18-34
GENDER reg.level: .MALE
REGIO ref.level: .Közép-Magyarország
Goodness of fit signif = 0.9948
(resid deviance = 350.3 , resid df = 421)
változó
Esély
Együttható log(esély)
Együttható standard hibája
z-érték
Pr(>|z|)
(Intercept)
0,00998
-4,60722
0,25604
-17,99394
0
A paraméterbecslések interpretációja előtt megállapítjuk, hogy a modell illeszkedik. A tengelymetszet (intercept) becslés azt mutatja, hogy a rossz vagy nagyon rossz egészségállapot önbesorolás szerinti esélye a referencia (18-34 éves Közép-Magyarországon lakó férfiak) csoportban 0,00998 , azaz a gyakorisága 1% körüli*. Ez természetesen nem tényadat, hanem a modell szerinti becslés. Az idősebb korosztályokban a rossz vagy nagyon rossz egészségi állapotban lévők aránya növekszik. A paraméterbecslések és azok szignifikanciája alapján látjuk a nem és a lakhely régió szerinti területi besorolásának hatását. Az itt alkalmazott eljárás a logisztikus-binomiális regresszió kategoriális magyarázó változókkal, a statisztikai modell leírása a 4.2.1. pontban.
* Mert p = esély / (1+esély). Kis esély esetén egy kimenetel esély és a valószínűsége közel azonos értékű, hiszen a 1+esély ≈ 1
4.2. példa - Poisson regresszió, vélt egészség korcsoport, nem, régió szerint
változó
Esélyhányados
Együttható log(esélyhányados)
Együttható standard hibája
z-érték
Pr(>|z|)
(Intercept)
0,01079
-4,52948
0,24944
-18,15887
0
AGE.15-17
0,89632
-0,10946
0,75347
-0,14527
0,8845
AGE.35-64
9,98736
2,30132
0,23998
9,58947
0
AGE.65-
22,55744
3,11606
0,24244
12,85282
0
GENDER.F
1,23151
0,20824
0,08554
2,43438
0,01492
REGIO.Közép-Dunántúl
0,96479
-0,03584
0,16502
-0,21719
0,82806
REGIO.Észak- Dunántúl
0,76399
-0,2692
0,18377
-1,46483
0,14297
REGIO.Dél- Dunántúl
1,26202
0,23271
0,15522
1,49924
0,13381
REGIO.Észak-Magyarország
1,62666
0,48653
0,13332
3,64935
0,00026
REGIO.Észak-Alföld
1,45181
0,37281
0,13229
2,81805
0,00483
REGIO.Dél-Alföld
1,38636
0,32668
0,13732
2,37891
0,01736
AGE ref.level: .18-34
GENDER ref.level: .MALE
REGIO ref.level: .Közép-Magyarország
Goodness of fit signif = 1
(resid deviance = 284.68 , resid df = 421 )
A Poisson regressziós modell ugyanolyan jól illeszkedik, mint az előző pontban bemutatott logisztikus-binomiális modell, és az egyes együtthatók szignifikancia szintje alapján levonható következtetések is azonosak. A két modell összehasonlítását a 4.2.1. pontban tárgyaljuk.
4.3. példa - Logisztikus regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a régió random magyarázó változó szerint
fix rész
változó
Esélyhányados
Együttható log(esélyhányados)
Együttható standard hibája
z-érték
Pr(>|z|)
(Intercept)
0,02393
-3,73258
0,3121
-11,95966
0
AGE.15-17
0,22825
-1,47732
0,85841
-1,721
0,08598
AGE.35-64
7,23291
1,97864
0,28092
7,04356
0
AGE.65-
16,37372
2,79568
0,28022
9,97673
0
GENDER.F
1,25025
0,22335
0,15164
1,47283
0,14154
random rész
változó
Esélyhányados
Együttható log(esélyhányados)
Együttható standard hibája
.Közép-Magyarország
0,8285
-0,18813
0,22593
.Közép-Dunántúl
0,6529
-0,42632
0,24426
.Észak-Dunántúl
0,6674
-0,40437
0,23814
.Dél-Dunántúl
0,9539
-0,04723
0,22634
.Észak-Magyarország
1,3366
0,29016
0,2229
.Észak-Alföld
1,4336
0,3602
0,21232
.Dél-Alföld
1,5154
0,41569
0,21398
AGE ref.level: .18-34
GENDER reg.level: .MALE
Goodness of fit signif = 1
(pseudo resid deviance = 207.3 , resid df = 422)
A kevert (fix és random tényezőket tartalmazó) modell választásánál az alkalmazás számára az leggyakoribb szempont, hogy az egyéni szinten mért változóknak (itt: korcsoport és nem) és a kontextuális változóknak (itt: régió) kimenettel való kapcsolatát eltérő módon modellezhessük . Akkor használunk random tényezős modellt, amikor azt gondoljuk, hogy a kontextuális változók hatása nem közvetlen. A megkérdezettek az adott régió különböző településein laknak, és az, hogy a település melyik régióban van, az a település egyénre gyakorolt hatásának csak az egyik komponense. A kevert modellben a „random rész” által meghatározott valószínűségi modellben tudjuk ezt a hatást figyelmbe venni. A statisztikai specifikációt lásd a 4.2.2. pontban.
4.4. példa - Poisson regresszió, fix modell. Vélt egészség korcsoport, nem, lakóövezeti jelleg szerint
változó
Esélyhányados
Együttható log(esélyhányados)
Együttható standard hibája
z-érték
Pr(>|z|)
(Intercept)
0,00835
-4,78525
0,28061
-17,05286
0
AGE.15-17
0,83435
-0,1811
0,75434
-0,24007
0,81027
AGE.35-64
10,09824
2,31236
0,24005
9,63295
0
AGE.65-X
22,82483
3,12785
0,24266
12,88997
0
GENDER.F
1,23011
0,20711
0,08559
2,41986
0,01553
LAKOOV.lakótelep
1,561
0,44532
0,1862
2,39159
0,01678
LAKOOV.kertes városias
1,27807
0,24535
0,16714
1,46791
0,14213
LAKOOV.falusias
2,14494
0,76311
0,16934
4,50647
1,00E-005
LAKOOV.külterület
1,68057
0,51913
0,3121
1,66335
0,09624
LAKOOV.szoc.nem.megf
3,91291
1,36428
0,37433
3,64457
0,00027
AGE ref.level: .18-34
GENDER ref.level: .MALE
LAKOOV ref.level: .városias
Goodness of fit signif = 1
(resid deviance = 272,47 , resid df = 422)
4.5. példa - Poisson regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a lakóövezeti jelleg random magyarázó változó szerint
fix rész
változó
változó
Esélyhányados
Együttható log(esélyhányados)
Együttható standard hibája
z-érték
Pr(>|z|)
(Intercept)
(Intercept)
0,01412
-4,2602
0,25647
-16,61059
0
AGE.15-17
AGE.15-17
0,85655
-0,15484
0,60607
-0,25549
0,79847
AGE.35-64
AGE.35-64
10,06303
2,30887
0,19295
11,96624
0
AGE.65-X
AGE.65-X
22,67061
3,12107
0,19499
16,00636
0
GENDER.F
GENDER.F
1,22967
0,20675
0,0688
3,00518
0,00281
random rész
változó
Esélyhányados
Együttható log(esélyhányados)
Együttható standard hibája
.városias
0,6249
-0,47015
0,19769
.lakótelep
0,9366
-0,06553
0,18699
.kertes városias
0,7683
-0,26362
0,18001
.falusias
1,2766
0,24421
0,18088
.külterület
1,0041
0,00406
0,23446
.szoc.nem.megf
1,735
0,55103
0,26916
AGE ref.level: .18-34
GENDER reg.level: .MALE
Goodness of fit signif = 1
(pseudo resid deviance = 332.8 , resid df = 423)
változó
A kevert modellből számított esélyhányados
A kevert modellből transzformált esélyhányados
A fix modellből számított esélyhányados
.városias
0,6249
1
1
.lakótelep
0,9366
1,4987
1,561
.kertes városias
0,7683
1,2294
1,27807
.falusias
1,2766
2,0428
2,14494
.külterület
1,0041
1,6067
1,68057
.szoc.nem.megf
1,735
2,7764
3,91291
A fenti táblázat összehasonlítja a 4.14. és a 4.1.5 modellekben lakóövezeti jelleg szerinti csoportokra számolt esélyhányadosokat. Az összehasonlításhoz azt a transzformációt hajtottuk végre, hogy a kevert modell „városias” esélyhányadosával osztottuk a kevert modell esélyhányadosait, mert a fix modellben a „városias” kategória volt a referencia.
Azt látjuk, hogy a kevert modellben kisebb az eltérés az egyes kategóriák között, különösen a „szoc.nem.megfelelő” kategória került közelebb a többihez.
2. Statisztikai összefoglaló
2.1. Normális eloszlás
Az valószínűségi változó normális eloszlású, jelben
ha sűrűségfüggvénye:
(4.1)
Paraméterei: μ: várható érték, : szórásnégyzet (=variancia)
(μ tetszőleges, tetszőleges pozitív valós szám)
Normális eloszlás várható értéke:
(4.2)
Normális eloszlás szórásnégyzete:
(4.3)
Beta eloszlás
Az Beta eloszlású
(4.4)
N+1 darab [0,1]-ben egyenletes eloszlású valószínűségi változó közül a nagyság szerinti k+1-edik eloszlása
Beta eloszlás sűrűségfüggvénye:
(4.5)
és f(t) = 0, ha t lt 0 vagy 1ltt (N és k pozitív egész, k leq N).
Beta eloszlás várható értéke:
(4.6)
Beta eloszlás szórásnégyzete:
(4.7)
Binomiális eloszlás
Az valószínűségi változó N-ed rendű, p paraméterű binomiális eloszlású
(4.8)
ahol N pozitív egész,k nemnegatív egész, k leq N, 0 leq p leq 1
P(X = k): annak a valószínűsége, hogy egy p valószínűségű esemény N független megfigyelésben pontosan k alkalommal fordul elő.
(4.9)
A binomiális eloszlás várható értéke:
(4.10)
A binomiális eloszlás szórásnégyzete:
(4.11)
Logit függvény
(4.12)
ahol log() az e alapú logaritmus
a függvény értelmezési tartománya: 0 lt x lt 1
a függvény értékkészlete: a valós számok
A logit függvény szigorúan mononoton növekedő.
A logit függvény inverze:
2.2. Logisztikus-binomiális regresszió kategoriális magyarázó változókkal
ahol : a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely kategória szerint homogén csoportja,
: az -ik cellában megfigyelt esemény-szám,
: az -ik cellában a populáció nagysága (lakónépesség),
: az -ik cellában az esemény bekövetkezési valószínűsége,
? , , , : a modell ismeretlen paraméterei.
A modell szerint Y cellánként független binomiális eloszlású, az definícióval paraméterű, az -cellában bekövetkező várható eseményszám =
Ez a modell a 2.2.1. pontban tárgyalt Poisson regresszió rokona, mindketten az általános lineáris modell-család tagjai. A kategoriális magyarázó változós logisztikus regresszió a log-lineáris modell-család tagja.
A két modell közötti választás nem mindig triviális. Egy leegyszerűsített szabály az, hogy a értékek kisebbek, mint 0,01 akkor a Poisson modell a jobb. A 4.1. fejezetben bemutatott példák határeset, és mindkét példában mindkét modell használata elfogadható.
Q-Q görbe a Poisson modellnél.
A reziduumok homoszkedaszticitását szemléltető görbe a Poisson modellnél.
Q-Q görbe a logisztikus-binomiális modellnél.
A reziduumok homoszkedaszticitását szemléltető görbe a logisztikus-binomiális modellnél.
A két modell nem csak az illeszkedésvizsgálat LR tesztjében mutat hasonló eredményeket, hanem a diagnosztikai görbéknél is. Azt látjuk, hogy azokban a cellákban, ahol nagyon alacsony (1\% körüli) az esély, a binomiális modell rendre túl nagy becsléseket ad meg (ezt a Q-Q görbén látjuk), itt határozottan jobb a Poisson modell.
A reziduumok homoszkedaszticitását szemléltető görbén a binomiális modell jobb, a Poisson modellnél a 0 megfigyelt gyakoriságú cellák egy jól kirajzolódó exponenciális görbén helyezkednek el.
2.3. Kevert modell, fix és random magyarázó változókkal
A legegyszerűbb random paraméteres eljárásokat mutatjuk be, a tárgyalt általánosított lineáris modellek lineáris részében az ANOVA eljárásban ismert variancia komponens becslésekkel.
Hasonló eljárások régóta ismertek a Bayes-féle statisztikában. A klasszikus eset az, amikor feltételes eloszlás paraméterű binomiális, és (a priori) eloszlása Beta, akkor a (a poszteriori) feltételes eloszlás is Beta. A Bayes-féle statisztikán alapuló modellezési módszer 2000 óta vált igazán népszerűvé, ekkor olyan számítógépes megvalósítás vált ismertté, mely szinte bármilyen apriori eloszlás esetén hatékony becslést ad. A mi általunk tárgyalt példákban a a priori normális eloszlású, de a pontosabb modellekben indokolt más eloszlásokat is tekintetbe venni.
Kevert logisztikus-binomiális regresszió, kategoriális magyarázó változókkal
ahol a és a valószínűségi változók teljesen függetlenek.
A specifikáció további részei azonosak a 4.2.1. pontbeliekkel.
A döntő különbség az, hogy itt valószínűségi változó, ezért a specifikáció első sorában nem Y eloszlása, hanem Y feltételes eloszlása szerepel.
Kevert Poisson regresszió, kategoriális magyarázó változókkal
ahol a és a valószínűségi változók teljesen függetlenek.
A specifikáció további részei azonosak a 2.2.1. pontbeliekkel.
Szempontok a fix- és random tényezők megválasztásánál
A kérdés gyakran idézett összefoglalása Tom Snijders [bib_8]szócikke. További technikai részleteket tárgyal a Gelman-Hill [bib_3]11. fejezet. A felhasználó számára is érzékelhető különbség a fix tényezős modellekkel szemben az, hogy a Likelihood függvény (és ezért a deviance értékén alapuló illeszkedésvizsgálat) a random tényezős modellekben nem mindig számítható. Mi olyan modelleket tárgyalunk, amikor a random rész normális, és ilyenkor a Likelihood függvényre jó közelítés van, és a fix modellekhez hasonló illeszkedésvizsgálatot lehet végezni.
A Gelman-Hill [bib_3]könyv 24. fejezete tárgyalja azokat a statisztikai szimulációs eszközöket, melyekkel a fenti megszorítások nélkül is lehet modell illeszkedésvizsgálatot végezni.
A 4.1.3. pontban elmondtuk, hogy mikor indokolt a régiót random tényezőnek tekinteni. Pontosabb modell alkotásnál figyelembe kell venni, hogy a survey során a hét régió mindegyikéből milyen mintavétellel választották ki azokat a településeket ahonnan a megkérdezetteket kiválasztották.
A kevert modelleknél általánosabb, hierarchikus (más néven: multilevel) modelleket kell ilyenkor használni, mert itt megfelelő lehetőség van a paraméter random tulajdonságait kellő pontossággal figyelembe vevő beágyazott modelleket építeni. A hierarchikus modellek általános tárgyalásása nem fér jelen példatár kereteibe, de az 5. fejezet egyik példája szemlélteti az itt adódó elemzési lehetőségeket.
Fix és random tényezős regressziós modellek
Fix és random tényezős regressziós modellek
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
Created by XMLmind XSL-FO Converter.
5. fejezet - Regressziós becslések vizsgálata térképi megjelenítéssel
Ebben a fejezetben a kiinduló modell kevert Poisson regresszió, ahol a random tényező a MEGYE. A modellben olyan sok a becsült paraméter, hogy az eredmények értékeléséhez térképes ábrázolásokat használunk. Ezek elemzése során egyrészt több random paraméter együttes hatását vizsgáljuk, másrészt a régió hatásának vizsgálatában eljutunk egy nagyon egyszerű hierarckus modellig
1. Adatelemzési példák
Magyarország 2009-es mortalitási adatait elemezzük. A megválaszolandó kutatási kérdés a halálozás térbeli eloszlása, a nem és az életkor hatásának figyelembevételével.
Bemenő adatok
· teljes halálozás életkor (5-éves korcsoport), nem, lakhely megye bontásban
· lakónépesség (ugyanilyen bontásban)
Az epidemiológiai függvénykapcsolatokat matematikai reprezentálására, és paramétereik becslésére a gyakorlatban általánosított lineáris modelleket alkalmaznak.
5.1. példa - Poisson regresszió, kevert modell. Mortalitás nem és korcsoport fix magyarázó változók, lakhely megye random magyarázó változóval
fix rész
Incidencia sűrűség hányados
Együttható
Együttható standard hibája
z érték
Pr(>|z|)
(Intercept)
0,00077
-7,16346
0,09247
-77,47157
0
AGE.00-04
1,58939
0,46335
0,12369
3,74607
2,00E-004
AGE.05-09
0,18062
-1,71137
0,26487
-6,46128
0
AGE.10-14
0,23744
-1,43784
0,23034
-6,24229
0
AGE.15-19
0,57746
-0,54911
0,15425
-3,55986
4,00E-004
AGE.25-29
1,08709
0,0835
0,12455
0,67044
0,50281
AGE.30-34
1,5106
0,41251
0,11223
3,67569
0,00026
AGE.35-39
2,53017
0,92829
0,10592
8,76403
0
AGE.40-44
5,06703
1,62275
0,09976
16,26586
0
AGE.45-49
10,66057
2,36655
0,096
24,65157
0
AGE.50-54
19,34415
2,96239
0,09361
31,64652
0
AGE.55-59
25,81499
3,25096
0,09304
34,94296
0
AGE.60-64
35,7357
3,57615
0,09294
38,47896
0
AGE.65-69
47,93188
3,86978
0,09278
41,70918
0
AGE.70-74
67,73072
4,21554
0,09277
45,44005
0
AGE.75-79
100,97297
4,61485
0,09258
49,84919
0
AGE.80-84
151,8468
5,02287
0,09271
54,17843
0
AGE.85-X
1206,60272
7,09556
0,09161
77,45365
0
GENDER.F
0,30731
-1,17991
0,19168
-6,15567
0
AGE.00-04:GENDER.F
3,06532
1,12015
0,2269
4,93676
0
AGE.05-09:GENDER.F
2,52204
0,92507
0,42734
2,16471
0,03076
AGE.10-14:GENDER.F
2,55128
0,9366
0,37617