digitális tankönyvtár · web view3.1.4.modell: (resid deviance = 14878,4 , resid df = 8198 )...

Függelék: a regressziós modellek R utasításai

Függelék: a regressziós modellek R utasításai

Regressziós modellek az egészségpolitikai tervezésben példatár

Vokó, Zoltán

Kabos, Sándor

Lőw, András


írta Vokó, Zoltán, Kabos, Sándor, és Lőw, András

Created by XMLmind XSL-FO Converter.



Tartalom

1. Bevezetés 0

1. Epidemiológiai gyakorisági kapcsolatok 0

2. Matematikai statisztikai háttér 0

2. Poisson regressziós modellek kategoriális magyarázó változókkal 0

1. Adatelemzési példák 0

2. Statisztikai összefoglaló 0

2.1. Poisson eloszlás 0

2.2. Poisson regresszió kategoriális magyarázó változókkal 0

2.3. Negatív binomiális regresszió kategoriális magyarázó változókkal 0

2.4. A modell statisztikai illeszkedésvizsgálata 0

2.5. Az általánosított lineáris modell (GLM) 0

3. Regressziós modellek folytonos és kategoriális magyarázó változókkal 0


2. Poisson regresszió 0

2.1. Poisson regresszió, kategoriális és szám értékű magyarázó változókkal 0

2.2. Poisson regresszió nemre és korcsoportra standardizálva 0

4. Fix és random tényezős regressziós modellek 0



2.1. Normális eloszlás 0

2.2. Logisztikus-binomiális regresszió kategoriális magyarázó változókkal 0

2.3. Kevert modell, fix és random magyarázó változókkal 0

5. Regressziós becslések vizsgálata térképi megjelenítéssel 0



2.1. Hierarchikus Poisson regresszió 0

3. Térképes adatelemzési példák 0

3.1. Magyarázat a random modell megyei ISH komponens számításához 0

Irodalom 0

A. Függelék: a regressziós modellek R utasításai 0

1. Fix tényezős Poisson modell 0

2. Fix és random tényezős Poisson modell 0

3. Fix tényezős negatív-binomiális modell 0

4. Fix tényezős logisztikus-binomiális modell 0

5. Fix és random tényezős logisztikus-binomiális modell 0

6. Fix és több random tényezős Poisson modell 0

7. Hierarchikus Poisson modell 0






A táblázatok listája

5.1. 5.3.2. Táblázat. Halálozási arányok (/100 000) a nők körében, 2009 (Forrás: KSH) 0






A példák listája

2.1. Poisson regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint 0

2.2. Negatív binomiális regresszió, mortalitás korcsoport, nem, korcsoport*nem interakció és lakhely népességszám szerint 0

2.3. (hibásan specifikált modell!): Lineáris regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint 0

3.1. Poisson regresszió, mortalitás korcsoportok szerint 0

3.2. Poisson regresszió, mortalitás a korcsoport, nem szerint 0

3.3. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint 0

3.4. A modellek illeszkedésének mérőszáma 0

3.5. Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nem és korcsoport figyelembevétele nélkül 0

3.6. Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva 0

3.7. Poisson regresszió, mortalitás a korcsoport és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva 0

3.8. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva 0

3.9. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település iskolai végzettség (kozepiskola, felsofoku) változói szerint, nemre és korcsoportra standardizálva 0

3.10. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői (munkanelkarany, mento, LSZKOD) változója szerint, nemre és korcsoportra standardizálva 0

3.11. BMA Bayes-féle modell átlagolási eljárás. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői változója szerint, nemre és korcsoportra standardizálva. 0

4.1. Logisztikus regresszió, vélt egészség korcsoport, nem, régió szerint 0

4.2. Poisson regresszió, vélt egészség korcsoport, nem, régió szerint 0

4.3. Logisztikus regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a régió random magyarázó változó szerint 0

4.4. Poisson regresszió, fix modell. Vélt egészség korcsoport, nem, lakóövezeti jelleg szerint 0

4.5. Poisson regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a lakóövezeti jelleg random magyarázó változó szerint 0

5.1. Poisson regresszió, kevert modell. Mortalitás nem és korcsoport fix magyarázó változók, lakhely megye random magyarázó változóval 0

5.2. Hierarchikus Poisson regresszió. Mortalitás nem, korcsoport és lakhely régió fix magyarázó változók, lakhely megye random magyarázó változóval 0

5.3. Poisson regresszió. Mortalitás nem, korcsoport és lakhely régió fix magyarázó változók, lakhely megye*nem*két kategóriás korcsoport random magyarázó változókkal 0






1. fejezet - Bevezetés

A példatár elsődleges célja, hogy a hallgatók a modellek illesztésének helyes gyakorlatát és az eredmények megfelelő értelmezését elsajátítsák.

A példatár olyan példákon alapul, amelyekhez hasonló az epidemiológiai gyakorlatban széleskörűen előfordulnak: aggregált statisztikák elemzése, illetve keresztmetszeti vizsgálatok (felmérések).

A használat során célszerű a tananyagban folyamatosan haladni, mert az egyes tananyagrészek egymásra épülnek.

1. Epidemiológiai gyakorisági kapcsolatok

Az epidemiológiai kutatások gyakorisági kapcsolatok számszerűsítésre irányulnak:

· hogyan függ a betegség kockázata az expozíciótól,

· hogyan függ a betegség fennállási valószínűsége a tünetektől, panaszoktól, leletektől,

· hogyan függ egy kimenetel valószínűsége a kezeléstől,

· hogyan függ egy betegség elterjedtsége tértől, időtől, populációtól, és ennek jellemzőitől.

Az epidemiológiai függvénykapcsolatokat matematikai reprezentálására, és paramétereik becslésére a gyakorlatban általánosított lineáris modelleket alkalmaznak.

2. Matematikai statisztikai háttér

Jelen tárgyalásmód alapszintű statisztikai előismeretet feltételez (lásd pl. Faraway[bib_2]).

Minden fejezet végén egy statisztikai összefoglalás van, az alkalmazott modellek formális megfogalmazásával és a legfontosabb matematikai statisztikai tudnivalókkal.

A bemutatásra kerülő regressziós elemzések statisztikai háttere az általánosított lineáris modell (egy részletesebb leírás pl. Gelman-Hill [bib_3] 6. fejezet, ). A technikai részletek nem egyszerűek, és csak annyit tárgyalunk belőle, amennyi az alkalmazott modellek illeszkedésvizsgálati statisztikáinak értelmezéséhez szükséges.

A regressziós modellek interpretálásánál gondot fordítunk arra, hogy megvizsgáljuk a modell illeszkedését. Amint azt egy példán is szemléltetjük, ha a modellünk egészében nem illeszkedik, akkor a részeredményeket sem szabad hitelesnek elfogadni.

Bevezetés

Bevezetés




2. fejezet - Poisson regressziós modellek kategoriális magyarázó változókkal

1. Adatelemzési példák

Ebben a fejezetben Magyarország 2009-es mortalitási adatait elemezzük. A megválaszolandó kutatási kérdés, hogyan függ a halálozás a nemtől az életkortól és a lakóhely népességszámától.

Bemenő adatok:

· teljes halálozás életkor (5-éves korcsoport), nem, lakhely népességszám kategória szerinti bontásban

· lakónépesség (ugyanilyen bontásban)

2.1. példa - Poisson regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint

call poisson: Y ~ offset(LOGN) + AGE + GENDER + LSZKOD

Incidencia sűrűség hányados

Együttható

Együttható standard hibája

z érték

Pr(>|z|)

(Intercept)

0,00052

-7,5534

0,05562

-135,806

0

AGE.00-04

2,33484

0,84794

0,0694

12,219

0

AGE.05-09

0,24172

-1,41996

0,14148

-10,03663

0

AGE.10-14

0,31793

-1,14592

0,12354

-9,2756

0

AGE.15-19

0,67058

-0,39961

0,08914

-4,48303

1,00E-05

AGE.25-29

1,10842

0,10294

0,07531

1,36684

0,17168

AGE.30-34

1,64896

0,50014

0,06718

7,44527

0

AGE.35-39

2,86927

1,05406

0,06324

16,66724

0

AGE.40-44

5,54978

1,71376

0,06002

28,55144

0

AGE.45-49

11,49942

2,4423

0,05794

42,15066

0

AGE.50-54

20,58072

3,02435

0,05663

53,40833

0

AGE.55-59

27,22385

3,30409

0,05631

58,67517

0

AGE.60-64

38,51154

3,65096

0,05622

64,93928

0

AGE.65-69

52,60813

3,96287

0,0561

70,64271

0

AGE.70-74

78,95571

4,36889

0,05601

78,00325

0

AGE.75-79

128,03337

4,85229

0,05586

86,86199

0

AGE.80-84

218,1694

5,38527

0,05582

96,47972

0

AGE.85-X

2004,5429

7,60317

0,05546

137,08131

0

GENDER.F

0,4294

-0,84536

0,0042

-201,3572

0

LSZKOD. –999

1,47814

0,39079

0,00846

46,20179

0

LSZKOD. 1000–1999

1,48537

0,39567

0,00833

47,49887

0

LSZKOD. 2000–4999

1,50867

0,41123

0,00736

55,86308

0

LSZKOD. 5000–9999

1,43496

0,36113

0,00842

42,88961

0

LSZKOD. 10000–19999

1,36816

0,31346

0,0081

38,68758

0

LSZKOD. 20000–49999

1,33951

0,2923

0,00793

36,86062

0

LSZKOD. 50000–99999

1,26126

0,23211

0,00968

23,98679

0

LSZKOD. 100-300 ezer

1,22477

0,20275

0,00828

24,49597

0

AGE ref.level: .20-24

GENDER ref.level: .MALE

LSZKOD ref.level= .BP

Az adatelemzés referencia kategóriája a 20-24 éves budapesti férfiak, a modell az ő halandóságukat becsüli az Intercept=0,00052 (azaz 5,2 / 10 000) értékkel. A többi incidencia sűrűség hányados ehhez viszonyított, tehát az 50-54 éves budapesti férfiak esetében hússzoros (pontosabban 0,00052*20,58 = 0,0107) halandóságot becsül a modell.

A legfeljebb 999 lélekszámú településen lakó, 50-54 éves nők esetében ez az érték 0,00052*20,58 *1,47*0,4294 = 0,0067 Fontos tudni, hogy ez nem tényadat, hanem becslés, más modell esetén ugyanezekből az alapadatokból más becslést kapunk.

Goodness of fit signif = 0

(resid deviance = 3792,5 , resid df = 297 )

Az eredménylista fenti két sora azt jelenti, hogy a modell nem illeszkedik. Ez nem jelenti azt, hogy a modell becslései mind tévesek. Az eddig bemutatott halandósági becslések jól közelítik az alapsokasági adatokból a megfelelő részhalmazokra számolt halandósági tényadatokat.

A 2.2. fejezet mondja el, hogyan kell a modell illeszkedésvizsgálat eredményét értelmezni. A gyakorlati adatelemzés számára a lényeges az, hogy a nem illeszkedő modellben (Goodness of fit signif lt 0,05) kapott szignifikancia értékekre nem szabad úgy hivatkozni, mint statisztikai bizonyítékra.

2.2. példa - Negatív binomiális regresszió, mortalitás korcsoport, nem, korcsoport*nem interakció és lakhely népességszám szerint

call negbin: Y ~ offset(LOGN) + AGE + GENDER + AGE:GENDER + LSZKOD


Együttható


z érték

Pr(>|z|)

(Intercept)

0,00063

-7,37688

0,06673

-110,5426

0

AGE.00-04

1,59647

0,46779

0,08893

5,26006

0

AGE.05-09

0,18065

-1,71117

0,18443

-9,278

0

AGE.10-14

0,23681

-1,44049

0,16086

-8,95509

0

AGE.15-19

0,57782

-0,54849

0,10937

-5,01514

0

AGE.25-29

1,09534

0,09106

0,08949

1,01756

0,30889

AGE.30-34

1,5239

0,42127

0,08138

5,17668

0

AGE.35-39

2,53666

0,93085

0,07725

12,04994

0

AGE.40-44

5,056

1,62058

0,07324

22,12745

0

AGE.45-49

10,62039

2,36278

0,07078

33,38066

0

AGE.50-54

19,26348

2,95821

0,06922

42,73746

0

AGE.55-59

25,80242

3,25047

0,06884

47,21925

0

AGE.60-64

35,85012

3,57935

0,06877

52,0477

0

AGE.65-69

48,10098

3,8733

0,06867

56,40586

0

AGE.70-74

67,72765

4,21549

0,06866

61,39468

0

AGE.75-79

101,5715

4,62076

0,06853

67,42367

0

AGE.80-84

152,48681

5,02708

0,06863

73,24823

0

AGE.85-X

2013,381

7,60757

0,06782

112,17728

0

GENDER.F

0,30983

-1,17172

0,13452

-8,71039

0

LSZKOD. –999

1,37744

0,32023

0,02026

15,80531

0

LSZKOD. 1000–1999

1,33491

0,28886

0,02005

14,40887

0

LSZKOD. 2000–4999

1,34887

0,29927

0,01924

15,55678

0

LSZKOD. 5000–9999

1,3035

0,26505

0,02012

13,17331

0

LSZKOD. 10000–19999

1,21119

0,1916

0,01983

9,66075

0

LSZKOD. 20000–49999

1,19949

0,18189

0,01974

9,21476

0

LSZKOD. 50000–99999

1,10914

0,10358

0,02113

4,90233

0


1,09874

0,09416

0,02003

4,70207

0

AGE.00-04:GENDER.F

3,03915

1,11158

0,16041

6,92976

0

AGE.05-09:GENDER.F

2,50165

0,91695

0,2969

3,08841

0,00201

AGE.10-14:GENDER.F

2,53023

0,92831

0,26188

3,54486

0,00039

AGE.15-19:GENDER.F

1,72242

0,54373

0,20142

2,6995

0,00694

AGE.25-29:GENDER.F

1,0535

0,05212

0,18197

0,28643

0,77455

AGE.30-34:GENDER.F

1,36086

0,30811

0,16059

1,91861

0,05503

AGE.35-39:GENDER.F

1,57286

0,45289

0,15167

2,98613

0,00283

AGE.40-44:GENDER.F

1,42547

0,3545

0,14578

2,43181

0,01502

AGE.45-49:GENDER.F

1,37262

0,31672

0,14168

2,23544

0,02539

AGE.50-54:GENDER.F

1,31095

0,27075

0,13912

1,94622

0,05163

AGE.55-59:GENDER.F

1,26055

0,23155

0,1385

1,67188

0,09455

AGE.60-64:GENDER.F

1,33435

0,28844

0,13825

2,08632

0,03695

AGE.65-69:GENDER.F

1,40029

0,33668

0,13796

2,44034

0,01467

AGE.70-74:GENDER.F

1,61923

0,48195

0,13774

3,49893

0,00047

AGE.75-79:GENDER.F

1,88321

0,63298

0,13749

4,60385

0

AGE.80-84:GENDER.F

2,27707

0,82289

0,13745

5,98678

0

AGE.85-X:GENDER.F

1,18804

0,1723

0,13681

1,25946

0,20786




Goodness of fit signif = 0,095042

(resid deviance = 311,45 , resid df = 280 )

Megállapítjuk, hogy a 2.1.2. modell 0.05 szignifikancia szinten illeszkedik. Ezt úgy értük el, hogy egyrészt bevontuk a modellbe a korcsoport és nem interakcióját. Ezzel a 2.1.1. modellhez képest ez a modell szélsőségesebb értéket ad a nem szerinti esélyhányadosnak (a GENDER.F érték 43%-ról 31%-ra csökkent), viszont ezt egyes korcsoportokban az interakciós tényező jelentősen módosítja (a 0-4 korcsoportban teljesen eltünteti). A másik ok az, hogy Poisson modell helyett Negatív binomiális modellben számolunk (a részleteket lásd a 2.2 fejezetben)

2.3. példa - (hibásan specifikált modell!): Lineáris regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint

call lm: Y ~ N + AGE + GENDER + LSZKOD

Együttható


t érték

Pr(>|t|)

(Intercept)

1534,4197

296,38432

5,17713

0

N

2,20083

0,5123

-4,29596

2,00E-05

AGE.00-04

-182,0544

162,90938

-1,11752

0,26468

AGE.05-09

-219,5142

163,50492

-1,34255

0,18045

AGE.10-14

-190,2798

161,72845

-1,17654

0,24032

AGE.15-19

-62,75903

156,9521

-0,39986

0,68955

AGE.25-29

64,77578

157,06404

0,41242

0,68033

AGE.30-34

267,49513

166,6551

1,60508

0,10954

AGE.35-39

168,39621

159,17392

1,05794

0,29095

AGE.40-44

116,78885

156,5768

0,74589

0,45633

AGE.45-49

116,60105

156,97109

0,74282

0,45818

AGE.50-54

455,67318

157,36489

2,89565

0,00407

AGE.55-59

626,09271

158,3914

3,95282

1,00E-04

AGE.60-64

504,07648

157,34297

3,20368

0,0015

AGE.65-69

524,51447

160,68026

3,26434

0,00123

AGE.70-74

490,40076

170,72486

2,87246

0,00437

AGE.75-79

659,05218

179,49239

3,67176

0,00029

AGE.80-84

644,22833

196,4611

3,27916

0,00117

AGE.85-X

6597,1837

209,13834

31,54459

0

GENDER.F

-18,82911

54,48614

-0,34558

0,72991

LSZKOD. –999

-1029,356

175,05217

-5,88028

0

LSZKOD. 1000–1999

-906,5593

159,16521

-5,69571

0

LSZKOD. 2000–4999

-229,8071

117,32347

-1,95875

0,05108

LSZKOD. 5000–9999

-928,6075

159,11282

-5,83616

0

LSZKOD. 10000–19999

-697,1132

136,51661

-5,10643

0

LSZKOD. 20000–49999

-616,3018

132,8107

-4,64045

1,00E-05

LSZKOD. 50000–99999

-1264,13

181,20397

-6,97628

0


-741,6092

135,91592

-5,45638

0




F-statistics = 145,52 on df1= 27 and df2= 296

R-squared = 0,929942

A lineáris regresszió magyarázó változói ugyanazok, mint a Poisson regressziónál (az egyetlen különbség a népességszám N, ami itt magyarázó változó, a Poisson regressziónál offset volt).

Ez a modell hibásan specifikált, a lineáris modell előfeltételei nem teljesülnek. Nyilvánvalóan félrevezető eredmény pl. az, hogy a GENDER hatás ebben a modellben nem szignifikáns.

Felhívjuk a figyelmet arra, hogy a fenti konvencionális eredményközlésben semmi nem jelzi ezt a hibát: az F statisztika küszöbértéke 5%-os elsőfajú hibavalószínűség mellett 1,51 ezért a modell F=145,5 értéke szignifikáns, tehát a modell magyarázóereje szignifikáns (a null-modellhez képest). A számított R2=0.93 kiválóan magas illeszkedést mutat, szintén szignifikáns.

A 2.2.3. pontban tárgyalunk olyan diagnosztikai eszközöket, amelyek a rosszul specifikált modell hibáinak felderítésére alkalmasak.

2. Statisztikai összefoglaló

2.1. Poisson eloszlás

Az valószínűségi változó -paraméterű Poisson eloszlású ()

(2.1)

A Poisson eloszlás várható értéke:

(2.2)

A Poisson eloszlás szórásnégyzete:

(2.3)

Tehát a Poisson eloszlás várható értéke és szórásnégyzete megegyezik.

Exponenciális eloszlás

Az valószínűségi változó -paraméterű exponenciális eloszlású ()

ha sűrűségfüggvénye

(2.4)

Az exponenciális eloszlás várható értéke:

(2.5)

Az exponenciális eloszlás szórásnégyzete:

(2.6)

Tehát az exponenciális eloszlás várható értéke és szórása megegyezik.

Gamma eloszlás

Az valószínűségi változó -paraméterű Gamma eloszlású, ha darab független, paraméterű exponenciális valószínűségi változó összege (ahol valós szám, egész szám).

A Gamma eloszlás sűrűségfüggvénye:

(2.7)

A Gamma eloszlás várható értéke:

(2.8)

A Gamma eloszlás szórásnégyzete:

(2.9)

Geometriai eloszlás

Az valószínűségi változó paraméterű geometriai (= elsőrendű negatív binomiális, Pascal) eloszlású (ahol , ha lehetséges értékei a nemnegatív egész számok és

(2.10)

A geometriai eloszlás várható értéke:

(2.11)

A geometriai eloszlás szórásnégyzete:

(2.12)

Negatív binomiális eloszlás

Az valószínűségi változó -paraméterű negatív binomiális eloszlású, ha darab független, paraméterű geometriai valószínűségi változó összege (ahol és pozitív egész szám)

(2.13)

A negatív binomiális eloszlás várható értéke:

(2.14)

A negatív binomiális eloszlás szórásnégyzete:

(2.15)

Megjegyzés: ez a definíció kiterjeszthető az valós számokra.

2.2. Poisson regresszió kategoriális magyarázó változókkal

(2.16)

(2.17)

ahol

: a cellát azonosító index: a populáció -ik korcsoport, -ik nem, -ik lakhely népességszám kategória szerint homogén csoportja,

: az -ik cellában megfigyelt esemény-szám,

: az -ik cellában a populáció nagysága (lakónépesség),

: az -ik cellában az intenzitás,

: a modell ismeretlen paraméterei.

A modell illesztése:

· meghatározzuk az adatokból a paraméterek becslését,

· meghatározzuk a paraméterekhez tartozó szignifikancia-szinteket,

· meghatározzuk a modell illeszkedésének szignifikancia-szintjét,

· megvizsgáljuk a reziduumok eloszlását.

Megjegyzés: az interakciós hatások figyelembevétele a loglineáris elemzésnél szokott módon történik (lásd Agresti[bib_1] 5. fejezet).

Megjegyzés: az a modellben nem magyarázó változó, hanem együttható nélküli (azaz "offset") változó.

2.3. Negatív binomiális regresszió kategoriális magyarázó változókkal

(2.18)

(2.19)

(2.20)

a paraméterek értelmezése azonos a Poisson regressziónál elmondottakkal.

Megjegyzés: miközben a feltételes eloszlás Poisson, az feltétel nélküli eloszlása negatív binomiális.

Megjegyzés: a negatív binomiális regresszió fontos jellemzője, hogy a Poisson regressziónál nem kezelhető túlszórást is modellezi.

Megjegyzés: a fentiekkel egy hierarchikus regressziós modellt jellemeztünk.

2.4. A modell statisztikai illeszkedésvizsgálata

A lineáris regresszió modell feltételei:

ahol ismeretlen paraméterek és független (tehát állandó szórású)

A 2.1.3. példában az összhalálozást lineáris regresszióval közelítjük. Ez a modell rosszul specifikált, mert nem állandó szórású (például azért, mert különböző népességszámú statisztikai egységekre vonatkozik).

A következőkben bemutatjuk a legegyszerűbb modell diagnosztikai eszközöket, amelyekkel megvizsgálhatjuk, mennyire teljesülnek a modell feltételei.

A reziduumok homoszkedaszticitását szemléltető görbe: a reziduumok a modell által becsült érték függvényében ábrázolva. A 2.1.3. modell láthatóan rosszul specifikált, reziduumai nem állandó szórásúak: ha a számított érték nagyobb, akkor a reziduum szórása is nagyobb.

A standardizált reziduumok kvantilisei a standard normális eloszlás kvantiliseinek függvényében ábrázolva. A 2.1.3. modell láthatóan rosszul specifikált, reziduumainak eloszlása jelentősen eltér a normálistól.

A Poisson és a Negatív binomiális regressziós modell esetén hasonló illeszkedésvizsgálatot végzünk. A reziduumok értelmezése azonban kissé eltérő.

A modell illeszkedésvizsgálatának döntő eleme a likelihood függvény: ez a paraméterek függvényében fejezi ki, hogy az adott modellben mennyi a valószínûsége a megfigyelt mintának. Azt a paraméter értéket választjuk becslésnek (pontosabban maximum likelihood becslésnek), amely maximalizálja ezt a valószínûséget.

A reziduumok négyzetösszege a lineáris modellben monoton csökkenő függvénye (negatív logaritmus) a likelihoodnak: kisebb reziduális négyzetösszeg = nagyobb likelihood. Ez a kapcsolat itt kissé bonyolultabbá válik, ezért a reziduumok helyébe a deviance lép. A következő pontban szerepel az általános lineáris modell leírása, ahol a deviance fogalmának megvilágítása a fő cél, minden egyéb részlet csak nagyon leegyszerûsítve szerepel.

2.5. Az általánosított lineáris modell (GLM)

a kimeneti változó megfigyelt értékei, várhatóértéke

a magyarázó változók ismert értékei

lineáris prediktor, ismeretlen paraméterek

link függvény

Exponenciális eloszlás-család: függetlenek az alábbi eloszlással:

(2.21)

ahol (ismeretlen) paraméterek, φ (ismert v. ismeretlen) skála-paraméter,

γ ismert súlyok, γ() és τ() ismert függvények.

A exponenciális eloszlás-család tagja a normális, binomiális, exponenciális, Poisson eloszlás, ilyen eloszlású kimeneti változó esetén alkalmazható a GLM.

(2.22)

ahol a maximalizált likelihood ( a kimeneti változó eloszlásfüggvényébe behelyettesítjük a mintában megfigyelt értékeket és a paraméterekben maximalizálunk). A számlálóban az aktuális modell szerepel, a nevezőben a telített modell ( ahol a lehető legtöbb paraméter van).

A modell illeszkedésének likelihood ratio (LR) tesztje: ahol a szabadságfoka = megfigyelések száma - szabad paraméterek száma.

Hatékony számítógépes realizációk állnak rendelkezésre, az SPSS-ben GENLIN néven, a STATA-ban GLM néven. Az R nyelven sok megvalósítás ismert, az egyik a glm() függvény.

Az általánosított lineáris modell az normális eloszlás esetén = és és választással egyenértékû a klasszikus lineáris modellel.

A következőkben az epidemiológiai modellekben leggyakrabban alkalmazott GLM, a Poisson regresszió tulajdonságait foglaljuk össze, a következő fejezetben tárgyaljuk a logisztikus-binomiális regressziót.

A Poisson regresszió, mint általánosított lineáris regresszió

esetén és és és

ahol ahol

A modell illeszkedésvizsgálatának likelihood hányados tesztje:

a modell akkor illeszkedik 0,05 elsőfajú hibavalószínûség mellett, ha a (mintanagyság - modell paramétereinek száma) szabadságfokú eloszlás 0,95-kvantilise.

A fenti LR illeszkedesvizsgálat mellett hasznos a lineáris modellnél megismert modell diagnosztikai ábrák vizsgálata. Kiderül belőle, hogy ha nincs megfelelő illeszkedés, akkor ezt mely cellák tehetők ezért felelőssé (ez természetesen leegyszerûsítés, az illeszkedés hiányát az összes megfigyelés együttesen okozza). Az ábrákon az outlier pont mellett megjelenő szám az input adatfájl sorszámával utal az illeszkedés hiányáért felelőssé tehető cellára.

Q-Q plot hasonlóan szerkeszthető, mint a lineáris modell esetén, a vízszintes tengelyen az elméleti kvantilis, a függőleges tengelyen a standardizált deviance pontonkánti eloszlásának kvantilisei.

A reziduumok homoszkedaszticitását szemléltető görbének itt a scale-location görbe felel meg, a vízszintes tengelyen a modell által becsült érték, a függőleges tengelyen a standardizált deviance abszolut értéke négyzetgyökének pontonkénti értékei (részletesebben Gelman-Hill [bib_3]6.2. fejezet).

A 2.1.1. modell illeszkedésvizsgálata

deviance = 3792.5 , melynek szabadságfoka: resid df = 297 tehát az illeszkedésvizsgálat LR statisztikája szignifikáns: ez a modell nerm illeszkedik.

( jól közelíthető és normálissal, ha )

Mind a Q-Q plot, mind a reziduumok homoszkedaszticitását szemléltető görbe jól mutatja a az illeszkedés hiányának okát: nagyobb becsült értékeknél nagyobb a std. deviance.

A 2.1.2. modell illeszkedésvizsgálata

deviance = 311,45 , melynek szabadságfoka: resid df = 280 az illeszkedésvizsgálat LR statisztikájának 95% -os egyoldali elfogadási tartományának felső küszöbértéke 319 és miután ez nagyobb, mint 311,45 ezért a modell illeszkedik.

a számítás részletei:

jól közelíthető és normálissal, ha

és a küszöbérték:

Mind a Q-Q plot, mind a reziduumok homoszkedaszticitását szemléltető görbe jó illeszkedést mutat.

További eljárásokat tárgyal a GLM modellek illeszkedésvizsgálatára Gelman [bib_3]8. fejezet, a prediktív becslési hibát bootstrap és cross-validation segítségével elemzi.

Poisson regressziós modellek kategoriális magyarázó változókkal

Poisson regressziós modellek kategoriális magyarázó változókkal




3. fejezet - Regressziós modellek folytonos és kategoriális magyarázó változókkal


Ebben a fejezetben Vas megyei mortalitási adatokat elemzünk.

· teljes halálozás településenként, életkor (5-éves korcsoport) és nem szerinti bontásban


· környezeti változók településenként

· lakosságszám (LSZKOD), a település mentőállomástól való távolsága (mento), munkanélküliek aránya (munkanelkarany), középiskola legmagasabb végzettséggel rendelkezők aránya (kozepisk), felsőfokú végzettségűek aránya (felsofoku).

Az alkalmazott regressziós eljárások statisztikai hátterének összefoglalása a 2.2. és a 3.2. fejezetekben.

3.1. példa - Poisson regresszió, mortalitás korcsoportok szerint

Változó

Incidencia sűrűség hányados (ISH)

Együttható

Az együttható standard hibája

z –érték

Pr(>|z|)

(Intercept)

0,00071

-7,2502

0,32455

-22,3392

0

AGE.00-00

3,45294

1,23922

0,37321

3,32045

0,0009

AGE.01-04

0,37085

-0,99195

0,64734

-1,53235

0,12544

AGE.05-09

0,19086

-1,6562

0,82802

-2,00018

0,04548

AGE.10-14

0,35258

-1,04249

0,62106

-1,67857

0,09324

AGE.15-19

0,55239

-0,5935

0,48945

-1,2126

0,22528

AGE.25-29

1,31103

0,27081

0,40089

0,67553

0,49934

AGE.30-34

2,10434

0,744

0,37013

2,01011

0,04442

AGE.35-39

3,43103

1,23286

0,33577

3,67174

0,00024

AGE.40-44

7,82675

2,05755

0,3102

6,63304

0

AGE.45-49

14,90628

2,70178

0,30362

8,89848

0

AGE.50-54

22,84387

3,12868

0,30127

10,38491

0

AGE.55-59

30,3301

3,41214

0,30022

11,36544

0

AGE.60-64

40,05764

3,69032

0,29893

12,34507

0

AGE.65-69

57,16813

4,046

0,2975

13,59979

0

AGE.70-74

103,54153

4,63997

0,29611

15,66984

0

AGE.75-79

260,15598

5,56128

0,29553

18,81826

0

AGE.80-84

280,80722

5,63767

0,29637

19,02216

0

AGE.85-X

505,2024

6,22496

0,29545

21,06971

0


Egyetlen magyarázó változó van: az életkor (kategóriák 5-éves korcsoportonként).

α : a táblázat (Tengelymetszet) sorában írt becslés

β: pl. a táblázat (AGE.50-54) sorában az 50-54 korcsoportra vonatkozó együttható becslése.

A táblázat oszlopainak jelentése

első oszlop: a változó megnevezése,

második oszlop: az együttható becslése, exponenciálisa az incidencia sűrűség (arányszám hányados), amely a hozzátartozó változó egységnyi változásához tartozik. Jelen esetben az X-ek indikátor változók, értékük 1 az adott korcsoportban, egyébként 0.

harmadik oszlop: incidencia sűrűség (arányszám) hányados

negyedik oszlop: a becslés standard hibája ,

az ötödik oszlop: a számított Wald-féle z-statisztika értéke

hatodik oszlop: az együttható számított szignifikanciaszintje.

A referencia csoport a 20-24 évesek, körükben a mortalitás=exp(α)=exp(-7,51595)= 0,00054 azaz 5,4 per 10000 személy-év. Az 50-54 éves korosztályban a mortalitás ehhez képest exp(beta)=exp(3,12868)=22,84-szeres.

3.2. példa - Poisson regresszió, mortalitás a korcsoport, nem szerint

Változó


Együttható


z –érték

Pr(>|z|)

(Intercept)

0,00068

-7,2915

0,29301

-24,8845

0

AGE.00-00

3,45429

1,23962

0,37321

3,3215

9,00E-004

AGE.01-04

0,37202

-0,98881

0,64734

-1,52749

0,12664

AGE.05-09

0,19096

-1,65571

0,82801

-1,99963

0,04554

AGE.10-14

0,35388

-1,03879

0,62106

-1,67261

0,0944

AGE.15-19

0,55385

-0,59085

0,48945

-1,20718

0,22736

AGE.25-29

1,3131

0,27239

0,40089

0,67946

0,49685

AGE.30-34

2,10691

0,74522

0,37013

2,01341

0,04407

AGE.35-39

3,45253

1,23911

0,33577

3,69035

0,00022

AGE.40-44

7,87562

2,06377

0,3102

6,6531

0

AGE.45-49

15,01495

2,70905

0,30362

8,9224

0

AGE.50-54

23,3062

3,14872

0,30127

10,45134

0

AGE.55-59

31,48157

3,4494

0,30023

11,48923

0

AGE.60-64

42,24041

3,74338

0,29895

12,52183

0

AGE.65-69

61,28111

4,11547

0,29754

13,83188

0

AGE.70-74

112,7548

4,72522

0,29616

15,95518

0

AGE.75-79

287,93925

5,66275

0,29559

19,15719

0

AGE.80-84

318,76084

5,76444

0,29648

19,44276

0

AGE.85-X

509,1224

6,23269

0,29545

21,09585

0

GENDER.F

0,58561

-0,53511

0,0336

-15,92586

0



3.3. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint

Változó


Együttható


z -érték

Pr(>|z|)

(Intercept)

0,00122

-6,70968

0,35556

-18,87095

0

AGE.00-00

3,11553

1,1364

0,37166

3,05763

0,00223

AGE.01-04

0,42709

-0,85076

0,59933

-1,41952

0,15575

AGE.05-09

0,22017

-1,51333

0,76365

-1,98172

0,04751

AGE.10-14

0,33879

-1,08237

0,60749

-1,78169

0,0748

AGE.15-19

0,55029

-0,59731

0,47832

-1,24876

0,21175

AGE.25-29

1,35989

0,3074

0,3934

0,7814

0,43457

AGE.30-34

2,11189

0,74758

0,36308

2,05903

0,03949

AGE.35-39

3,34322

1,20694

0,33025

3,65465

0,00026

AGE.40-44

7,89268

2,06594

0,30582

6,75538

0

AGE.45-49

14,65945

2,68509

0,29971

8,95887

0

AGE.50-54

22,29776

3,10449

0,29747

10,43637

0

AGE.55-59

31,00256

3,43407

0,29624

11,59209

0

AGE.60-64

41,79252

3,73272

0,29484

12,65999

0

AGE.65-69

62,85608

4,14085

0,29338

14,11437

0

AGE.70-74

124,779

4,82654

0,29203

16,52779

0

AGE.75-79

274,12125

5,61357

0,2917

19,24414

0

AGE.80-84

339,13257

5,82639

0,29231

19,93216

0

AGE.85-X

744,27166

6,61241

0,29294

22,5729

0

GENDER.F

0,59625

-0,5171

0,04428

-11,67897

0

kozepiskola

0,98951

-0,01055

0,00551

-1,91588

0,05538

felsofoku

1,00789

0,00786

0,01057

0,74334

0,45727

munkanelkarany

0,98499

-0,01512

0,00733

-2,0623

0,03918

LSZKOD. 5000+

0,91834

-0,08519

0,07832

-1,08769

0,27673

LSZKOD. 3-5000

0,74271

-0,29745

0,12796

-2,32451

0,0201

LSZKOD. 1-3000

0,70274

-0,35276

0,12734

-2,77023

0,0056

LSZKOD. 500-1000

0,61445

-0,48703

0,14116

-3,45024

0,00056

LSZKOD. -500

0,34544

-1,06294

0,15225

-6,98165

0

mento

1,0031

0,00309

0,00196

1,5768

0,11484



LSZKOD ref.level= .MEGYESZÉKHELY

Itt kategoriális magyarázó változók (GENDER, AGE, LSZKOD) mellett szám-értékű változók is megjelentek (kozepiskola, felsofoku, munkanelkarany, mento), ezt a modellt 3.2.1. írja le.

3.4. példa - A modellek illeszkedésének mérőszáma

3.1.1. modell: (resid deviance = 4602,84 , resid df = 8189 )



A 2.2. fejezetben elmondottak alapján megállapíthatjuk, hogy ezek a modellek mind illeszkednek, ezért az egyes tényezőkre vonatkozó becsléseket, azok szignifikanciáját érvényesnek tekintjük. Az érvényesség a modellen belül értendő, mivel ha változtatunk azon, hogy mely magyarázó változókat vesszük be a modellbe, az természetesen a becsléseket is megváltoztatja.

Megfigyelhetjük, hogy az 3.1.2. táblázat becslései megváltoztak az 3.1.1. táblázatéhoz képest (mármint azok, melyek ott is szerepeltek), hasonlóan az 3.1.3. táblázat becslései az 3.1.2. táblázatéhoz képest.

3.5. példa - Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nem és korcsoport figyelembevétele nélkül

Változó


Együttható


z -érték

Pr(>|z|)

(Intercept)

0,04134

-3,18602

0,21401

-14,88734

0

kozepiskola

0,96725

-0,03329

0,005

-6,65278

0

felsofoku

1,02766

0,02728

0,00798

3,41889

0,00063

munkanelkarany

0,97737

-0,02289

0,00766

-2,98876

0,0028

LSZKOD. 5000+

0,68222

-0,38241

0,07857

-4,8672

0

LSZKOD. 3-5000

0,49321

-0,70683

0,12971

-5,44912

0

LSZKOD. 1-3000

0,53013

-0,63463

0,12921

-4,91166

0

LSZKOD. 500-1000

0,67018

-0,40021

0,14163

-2,82578

0,00472

LSZKOD. -500

0,56793

-0,56576

0,15222

-3,71661

2,00E-004

mento

1,00642

0,0064

0,00198

3,23741

0,00121


3.1.4.modell: (resid deviance = 14878,4 , resid df = 8198 )

Ezért ez a modell nem illeszkedik.

3.6. példa - Poisson regresszió, mortalitás a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva

Változó


Együttható


z -érték

Pr(>|z|)

(Intercept)

0,04109

-3,19197

0,20983

-15,21182

0

kozepiskola

0,98552

-0,01458

0,0049

-2,97373

0,00294

felsofoku

0,97107

-0,02935

0,00806

-3,64242

0,00027

munkanelkarany

0,97953

-0,02068

0,00753

-2,7449

0,00605

LSZKOD. 5000+

0,63739

-0,45037

0,07842

-5,74307

0

LSZKOD. 3-5000

0,46398

-0,76791

0,12801

-5,99893

0

LSZKOD. 1-3000

0,49395

-0,70533

0,12744

-5,53445

0

LSZKOD. 500-1000

0,58338

-0,53892

0,1399

-3,85207

0,00012

LSZKOD. -500

0,51553

-0,66257

0,15005

-4,41564

1,00E-005

mento

1,00766

0,00763

0,00194

3,92591

9,00E-005



A standardizálás műveletét a 3.2.2. fejezet írja le. A technikai megvalósítás az, hogy a kor és nem szerinti kategóriákban vett országos mortalitás érték és a népességszám szorzatát (pontosabban a szorzat logaritmusát) alkalmazzuk offset változóként.

Az interpretáció számára a lényeges az, hogy a standardizálással készült táblázatban az ISH értékek azt mutatják, hogy az egyes kategóriákban hogyan aránylik a Vas megyei mortalitás az országos átlag (ugyanilyen kategóriájában vett) mortalitás értékéhez.

Mint látjuk, ugyanazok a magyarázó változók a legutóbbi két példában. A standardizálás nélküli 3.1.4. modell nem illeszkedett, a standardizálással készült 3.1.5. modell igen.

3.7. példa - Poisson regresszió, mortalitás a korcsoport és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva

Változó


Együttható


z -érték

Pr(>|z|)

(Intercept)

0,02659

-3,62712

0,35723

-10,15354

0

AGE.00-00

0,22123

-1,50854

0,3717

-4,05849

5,00E-005

AGE.01-04

0,68612

-0,37671

0,59935

-0,62852

0,52966

AGE.05-09

0,75215

-0,28482

0,76373

-0,37294

0,70919

AGE.10-14

1,01544

0,01532

0,60751

0,02522

0,97988

AGE.15-19

0,80295

-0,21946

0,47832

-0,45882

0,64636

AGE.25-29

1,05624

0,05471

0,3934

0,13907

0,88939

AGE.30-34

0,97681

-0,02347

0,36308

-0,06463

0,94847

AGE.35-39

0,77735

-0,25187

0,33025

-0,76266

0,44566

AGE.40-44

0,96743

-0,03311

0,30582

-0,10826

0,91379

AGE.45-49

1,19191

0,17556

0,29971

0,58576

0,55804

AGE.50-54

1,27781

0,24515

0,29747

0,82411

0,40988

AGE.55-59

1,29933

0,26185

0,29624

0,8839

0,37675

AGE.60-64

1,23469

0,21082

0,29484

0,71503

0,47459

AGE.65-69

1,28403

0,25

0,29338

0,85213

0,39414

AGE.70-74

1,67405

0,51524

0,29205

1,76426

0,07769

AGE.75-79

2,33802

0,8493

0,29174

2,91114

0,0036

AGE.80-84

1,78617

0,58007

0,29238

1,98401

0,04726

AGE.85-X

2,23482

0,80416

0,29289

2,74559

0,00604

kozepiskola

0,98137

-0,01881

0,00494

-3,80464

0,00014

felsofoku

0,98752

-0,01256

0,00817

-1,53734

0,12421

munkanelkarany

0,97932

-0,02089

0,00751

-2,78341

0,00538

LSZKOD. 5000+

0,68046

-0,38499

0,07853

-4,90236

0

LSZKOD. 3-5000

0,49377

-0,70569

0,12831

-5,49989

0

LSZKOD. 1-3000

0,50577

-0,68167

0,12821

-5,31706

0

LSZKOD. 500-1000

0,55783

-0,58369

0,14131

-4,13065

4,00E-005

LSZKOD. -500

0,44997

-0,79859

0,15301

-5,21907

0

mento

1,00708

0,00705

0,00195

3,62273

0,00029





3.8. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település környezeti változói szerint, nemre és korcsoportra standardizálva

Változó


Együttható


z -érték

Pr(>|z|)

(Intercept)

0,0265

-3,63054

0,35748

-10,15606

0

AGE.00-00

0,22097

-1,50972

0,37172

-4,06139

5,00E-005

AGE.01-04

0,68544

-0,3777

0,59936

-0,63017

0,52858

AGE.05-09

0,75139

-0,28583

0,76374

-0,37425

0,70822

AGE.10-14

1,01467

0,01456

0,60751

0,02397

0,98088

AGE.15-19

0,80268

-0,2198

0,47832

-0,45951

0,64586

AGE.25-29

1,05621

0,05469

0,3934

0,13902

0,88944

AGE.30-34

0,97687

-0,0234

0,36308

-0,06445

0,94861

AGE.35-39

0,77731

-0,25191

0,33025

-0,76279

0,44559

AGE.40-44

0,96742

-0,03313

0,30582

-0,10832

0,91374

AGE.45-49

1,1918

0,17547

0,29971

0,58545

0,55825

AGE.50-54

1,27754

0,24494

0,29747

0,82341

0,41027

AGE.55-59

1,29882

0,26145

0,29625

0,88255

0,37748

AGE.60-64

1,23396

0,21023

0,29485

0,71301

0,47584

AGE.65-69

1,28282

0,24906

0,2934

0,84887

0,39595

AGE.70-74

1,67175

0,51387

0,29209

1,7593

0,07853

AGE.75-79

2,33349

0,84737

0,29183

2,90365

0,00369

AGE.80-84

1,78169

0,57756

0,29252

1,97445

0,04833

AGE.85-X

2,23189

0,80285

0,29293

2,74072

0,00613

GENDER.F

1,01226

0,01218

0,04443

0,2742

0,78393

kozepiskola

0,98071

-0,01948

0,00552

-3,52954

0,00042

felsofoku

0,98937

-0,01068

0,01066

-1,00236

0,31617

munkanelkarany

0,97928

-0,02094

0,00751

-2,78965

0,00528

LSZKOD. 5000+

0,68284

-0,38149

0,07955

-4,79573

0

LSZKOD. 3-5000

0,49547

-0,70224

0,12893

-5,44685

0

LSZKOD. 1-3000

0,50769

-0,67789

0,12896

-5,2564

0

LSZKOD. 500-1000

0,56017

-0,57951

0,14215

-4,07669

5,00E-005

LSZKOD. -500

0,45167

-0,79481

0,15366

-5,17245

0

mento

1,00704

0,00702

0,00195

3,59897

0,00032




3.1.7.modell: (resid deviance = 3621,58 , resid df = 8179)

Az értelmezésben fontos a standardizálás figyelembevétele, tehát pl. itt az AGE együtthatók a hasonló korosztályos országos adatokhoz viszonyítják a vasi adatokat. Látható, hogy az együtthatók általában nem szignifikánsak, kivéve a 75+ korosztályokat, ahol a Vasi mortalitás jelentősen meghaladja az országos átlagot.

Emlékszünk, hogy az 3.1.2. modellben megjelenő GENDER az 3.1.1. modell resid deviance értékét 250-nel javította, a standardizálás után ez a változó csak 0.07 javulást hozott. Ez azt jelenti, hogy a nemek közötti különbségek nagyjából az országos átlag szerint alakulnak Vas megyében. GENDER.F nagyobb, mint 1 és nem szignifikáns (a standardizálás előtt kisebb volt, mint 1, és szignifikáns). Ennek is az az oka, hogy a relatív incidencia sűrűség, amit számolunk, tehát mindig az azonos kategóriájú országos adatokhoz viszonyítunk.

3.9. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település iskolai végzettség (kozepiskola, felsofoku) változói szerint, nemre és korcsoportra standardizálva

Változó


Együttható


z –érték

Pr(>|z|)

(Intercept)

0,01026

-4,57944

0,29233

-15,66512

0

AGE.00-00

0,22033

-1,51264

0,37172

-4,06926

5,00E-005

AGE.01-04

0,6816

-0,38331

0,59936

-0,63954

0,52247

AGE.05-09

0,74633

-0,29259

0,76365

-0,38315

0,70161

AGE.10-14

1,00861

0,00857

0,60751

0,01411

0,98874

AGE.15-19

0,80096

-0,22195

0,47832

-0,46401

0,64264

AGE.25-29

1,05496

0,0535

0,3934

0,136

0,89182

AGE.30-34

0,97401

-0,02633

0,36308

-0,07252

0,94219

AGE.35-39

0,77467

-0,25532

0,33025

-0,77312

0,43945

AGE.40-44

0,96576

-0,03484

0,30582

-0,11392

0,9093

AGE.45-49

1,19301

0,17648

0,29971

0,58883

0,55598

AGE.50-54

1,28144

0,24799

0,29747

0,83365

0,40448

AGE.55-59

1,30372

0,26522

0,29624

0,89529

0,37063

AGE.60-64

1,24009

0,21518

0,29485

0,72981

0,46551

AGE.65-69

1,29092

0,25536

0,2934

0,87035

0,38411

AGE.70-74

1,68605

0,52239

0,29208

1,78853

0,07369

AGE.75-79

2,3584

0,85798

0,29182

2,94013

0,00328

AGE.80-84

1,80165

0,5887

0,2925

2,01264

0,04415

AGE.85-X

2,22041

0,79769

0,29236

2,72848

0,00636

GENDER.F

1,04166

0,04081

0,04362

0,93575

0,3494

kozepiskola

0,9929

-0,00713

0,00423

-1,68638

0,09172

felsofoku

1,00341

0,00341

0,01

0,34102

0,73309




Ebben a modellben a középiskolát végzettek aránya gyengén (p=0.092) szignifikáns, és ahol nagyobb az értéke, ott kicsit kisebb a mortalitás. A felsőfokú végzettségűek arányának nincs kimutatható hatása.

3.10. példa - Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői (munkanelkarany, mento, LSZKOD) változója szerint, nemre és korcsoportra standardizálva

Változó


Együttható


z -érték

Pr(>|z|)

(Intercept)

0,0088

-4,73349

0,29205

-16,20756

0

AGE.00-00

0,22143

-1,50764

0,37172

-4,05582

5,00E-005

AGE.01-04

0,68583

-0,37712

0,59936

-0,6292

0,52922

AGE.05-09

0,75029

-0,28729

0,76373

-0,37617

0,70679

AGE.10-14

1,01237

0,0123

0,60751

0,02024

0,98385

AGE.15-19

0,80185

-0,22084

0,47832

-0,4617

0,6443

AGE.25-29

1,0572

0,05562

0,3934

0,14139

0,88756

AGE.30-34

0,97763

-0,02263

0,36308

-0,06232

0,95031

AGE.35-39

0,77742

-0,25178

0,33025

-0,76239

0,44582

AGE.40-44

0,96695

-0,0336

0,30582

-0,10988

0,9125

AGE.45-49

1,19237

0,17595

0,29971

0,58705

0,55717

AGE.50-54

1,28005

0,2469

0,29747

0,83001

0,40654

AGE.55-59

1,30467

0,26595

0,29624

0,89775

0,36932

AGE.60-64

1,24151

0,21633

0,29485

0,7337

0,46313

AGE.65-69

1,29156

0,25585

0,2934

0,87203

0,38319

AGE.70-74

1,68517

0,52186

0,29208

1,78672

0,07398

AGE.75-79

2,35188

0,85521

0,29182

2,93062

0,00338

AGE.80-84

1,79682

0,58602

0,29251

2,00342

0,04513

AGE.85-X

2,24872

0,81036

0,29293

2,76641

0,00567

GENDER.F

1,02644

0,0261

0,03393

0,76924

0,44175

munkanelkarany

0,99013

-0,00992

0,00718

-1,38206

0,16695

LSZKOD. 5000+

0,93663

-0,06547

0,05128

-1,27666

0,20172

LSZKOD. 3-5000

0,80782

-0,21342

0,09119

-2,34049

0,01926

LSZKOD. 1-3000

0,9224

-0,08077

0,06178

-1,3075

0,19104

LSZKOD. 500-1000

1,10263

0,09769

0,06343

1,54011

0,12353

LSZKOD. -500

0,93319

-0,06915

0,07123

-0,97074

0,33168

mento

1,00701

0,00699

0,00194

3,59826

0,00032





Ebben a modellben a mentőállomástól való távolság hatása szignifikáns, ahol nagyobb a távolság ott magasabb a mortalitás. Ezen kívül az LSZKOD 3-5000 hatása szignifikáns.

Összefoglalva: a 3.1.4. példában minden környezeti változó parciális hatása szignifikáns (a felsőfokú végzettségűek aránya kivételével), de itt a modell nem illeszkedik. A 3.1.5. példa illeszkedő modell mellett kapjuk ugyanezt az eredményt, majd a 3.1.6. példában az AGE és a 3.1.7. példában a GENDER is magyarázó változó lett, és ez csökkentette a környezeti változók magyarázó erejét. Az igazán meglepő azonban a 3.1.8. és 3.1.9. példa, ahol még a környezeti változók egy-egy csoportját is kivettük a modellből, és ennek hatására a bent maradó változók hatása nem nőtt hanem csökkent.

A változószelekció a Poisson regressziónál nem végezhető a lineáris modellben megszokott parciális korreláción alapuló eljárásokkal, a modellben szereplő változók parciális hatását mutató szignifikancia értéket csak közelítésnek szabad tekinteni. A magyarázó változók szelekcióját az általánosított lineáris modell deviance statisztikáján alapuló módszerrel végezhetjük, erre szolgál az R bestglm csomagja (McLeod, A.I. – Xu, C.: Best Subset GLM package[bib_7]).

3.11. példa - BMA Bayes-féle modell átlagolási eljárás. Poisson regresszió, mortalitás a korcsoport, nem és a lakhely település egyéb jellemzői változója szerint, nemre és korcsoportra standardizálva.

változó

szint/részvételi arány

Együttható


1.model

2.model

3.model

(Intercept)

100,00%

-5,5059

0,5635

-5,514

-5,329

-5,726

AGE

100,00%

0,3505

0,0153

0,3496

0,3524

0,3564

GENDER

100,00%

AGE.00-00

-0,1832

0,4321

-0,1841

-0,1942

-0,1541

AGE.01-04

-1,1685

0,8676

-1,171

-1,175

-1,125

AGE.05-09

-1,5123

1,1342

-1,516

-1,517

-1,465

AGE.10-14

-0,6795

0,7401

-0,6828

-0,6851

-0,634

AGE.15-19

-0,1821

0,5348

-0,1846

-0,1899

-0,1416

AGE.25-29

0,4581

0,4159

0,4562

0,4491

0,4951

AGE.30-34

0,5994

0,389

0,5978

0,5897

0,6335

AGE.35-39

0,9215

0,3499

0,9207

0,9103

0,9496

AGE.40-44

1,5672

0,3185

1,567

1,554

1,591

AGE.45-49

1,9115

0,3111

1,911

1,898

1,935

AGE.50-54

2,1589

0,3076

2,159

2,145

2,182

AGE.55-59

2,2371

0,3067

2,237

2,223

2,259

AGE.60-64

2,2853

0,3059

2,286

2,271

2,306

AGE.65-69

2,4398

0,3046

2,44

2,426

2,459

AGE.70-74

2,6509

0,3032

2,652

2,637

2,668

AGE.75-79

2,8538

0,302

2,854

2,84

2,875

AGE.80-84

2,4834

0,3049

2,483

2,47

2,507

AGE.85-X

2,5241

0,3051

2,525

2,516

2,529

felsofoku

92,80%

0,032

0,0126

0,0338

0,0388

-

kozepiskola

100,00%

0,0772

0,0056

0,0767

0,0736

0,0895

munkanelkarany

87,50%

0,023

0,011

0,026

-

0,0301

mento

100,00%

-0,0142

0,0021

-0,0145

-0,0123

-0,0149

AGE.GENDER..

100,00%

.AGE.01-04:GENDER.F

0,1938

1,2445

0,1936

0,194

0,1959

.AGE.05-09:GENDER.F

0,1788

1,6172

0,1787

0,1783

0,1807

.AGE.10-14:GENDER.F

-0,368

1,2386

-0,3683

-0,3675

-0,3652

.AGE.15-19:GENDER.F

-0,8524

1,0403

-0,8529

-0,8507

-0,8497

.AGE.25-29:GENDER.F

-1,396

0,9208

-1,397

-1,394

-1,391

.AGE.30-34:GENDER.F

-0,8707

0,7216

-0,8715

-0,8692

-0,8651

.AGE.35-39:GENDER.F

-0,721

0,6004

-0,7217

-0,7195

-0,7152

.AGE.40-44:GENDER.F

-0,6459

0,5201

-0,6466

-0,6435

-0,6415

.AGE.45-49:GENDER.F

-0,4664

0,4967

-0,4671

-0,464

-0,4634

.AGE.50-54:GENDER.F

-0,6451

0,4914

-0,6458

-0,6433

-0,641

.AGE.55-59:GENDER.F

-0,6121

0,4871

-0,6129

-0,6103

-0,6067

.AGE.60-64:GENDER.F

-0,4223

0,4815

-0,4228

-0,4214

-0,4177

.AGE.65-69:GENDER.F

-0,3533

0,4769

-0,3537

-0,3537

-0,3486

.AGE.70-74:GENDER.F

-0,1274

0,4726

-0,1276

-0,1284

-0,1225

.AGE.75-79:GENDER.F

0,0839

0,4711

0,0839

0,0832

0,0862

.AGE.80-84:GENDER.F

0,2404

0,4737

0,2407

0,2392

0,2387

.AGE.85-X:GENDER.F

0,8484

0,4722

0,8467

0,837

0,8875

.ref

0,028

0,4658

0,0224

0,0071

0,1269

nVar

7

6

6

post probability

0,8022

0,1253

0,072



A modellek közötti választás problémájára másfajta megoldást kínál a Bayes-féle modell átlagolás, ezt a módszert népszerűsíti a hivatkozott Hoeting[bib_5] et.all. cikk. Az eljárás az R nyelven a BMA csomagból érhető el (Raftery et.all BMA [bib_6]). A 3.1.10. példában a kiindulási modellben szerepel a 3.1.6-9. modellek minden magyarázó változója, a program a futás során módszeresen elhagy néhányat a magyarázó változók közül, és az illesztett modell likelihood értéke alapján minden modellhez egy (aposteriori) részvételi valószínűséget rendel.

A példában három modell került kiválasztásra, ezek részvételi valószínűsége a lista utolsó sorában jelenik meg: 0,8022 0,1253 0,072.

A három modell részvételi valószínűségeinek összege majdnem =1 (az összes többi modell osztozik a maradék valószínűségen, tehát azok a modellek mind elhanyagolhatók).

Az 1. modellben minden változó szerepel, a 2. modellben kimarad a munkanelkarany, a 3. modellben kimarad a felsofoku. A táblázat második oszlopában ahol % érték van, az azt jelenti, hogy azoknak a modelleknek, ahol ez a változó szerepel, mennyi a részvételi valószínűségek összege.

A három modellben kapott paraméterbecsléseket a modell részvételi valószínűségével súlyozottan átlagoljuk, és így kapjuk a paraméter BMA becslését. Ez általában közel van az 1. modellbeli értékekhez (hiszen ennek a súlya 80%) , de pl. az AGE:GENDER interakció referencia-cellájánál kissé eltér. Az eljárás neves népszerűsítője Adrian Raftery, számos cikkben igazolta statisztikai stabilitását.

2. Poisson regresszió

2.1. Poisson regresszió, kategoriális és szám értékű magyarázó változókkal

ahol (i,j,k): a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely népességszám kategória szerint homogén csoportja,

: az (i,j,k)-ik cellában megfigyelt esemény-szám,

: az (i,j,k)-ik cellában a populáció nagysága (lakónépesség),

: az (i,j,k)-ik cellában az intenzitás,

: a b-ik magyarázó változó az (i,j,k)-ik cellában,

: a b-ik regressziós együttható.

A fenti tárgyalásban nem szerepel a magyarázó változók közötti interakció.

Az interakciók a bemutatott adatelemzési példákban fontos szerepet játszanak, itt azért nem térünk ki erre, mert értelmezésük teljesen azonos azzal, ahogy ez a lineáris modellnél történik (lásd pl. Faraway, 16.2.).

A szám értékű változókat más szóhasználatban folytonos változóknak nevezik. Fontos megjegyezni, hogy ebben a modellben csak a kimeneti változó sztochasztikus jellegét vesszük figyelembe, a modell a magyarázó változókat mérési és megfigyelési hiba nélkül ismert értékeknek tekintjük.

2.2. Poisson regresszió nemre és korcsoportra standardizálva

ahol (i,j,k): a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely népességszám kategória szerint homogén csoportja,

: a k-ik lakhely kategóriában megfigyelt esemény-szám,

az (i,j,k) indexekben kifejezett megfigyelés-szám:

: a k-ik lakhely kategóriában az intenzitás,

A fenti modell ( helyett -val) illesztését a 3.1.4. példa mutatja.

A következőkben értelmezését mutatjuk be, ezt a modellt a 3.1.5. példa szemlélteti.

Indirekt standardizálás az országos populációra

: az országosan megfigyelt esemény-szám a i,j-ik (kor,nem) csoportban,

: az országos populáció nagysága a i,j-ik (kor,nem) csoportban,

az (i,j,k)-ik cellában a (Vas megyei) várt esemény-szám,

: az (i,j,k)-ik cellában a (Vas megyei) populáció nagysága,

: a kitettséggel arányosított populáció nagyság,

ahol és

Megjegyzés: a (Vas megyei) standardized mortality ratio (SMR)

Regressziós modellek folytonos és kategoriális magyarázó változókkal

Regressziós modellek folytonos és kategoriális magyarázó változókkal




4. fejezet - Fix és random tényezős regressziós modellek


Ebben a fejezetben az Európai Lakossági Egészségfelmérés (ELEF 2009) adatai kerülnek elemzésre.

Az ELEF2009 az első egységes európai kérdőíves egészségfelmérés volt, amelyet azonos módszertannal hajtottak végre az EU tagállamaiban. Az adatfelvételre 2009 őszén került sor. A magyarországi mintába 449 település került beválasztásra a kétlépcsős mintavételezés keretében. A tervezett 7000 fő közül 5051 esetében sikerült felvenni a kérdőíveket. A felmérés az egészségi állapotra (betegségek, balesetek, korlátozottság, munkahelyi körülmények, lelki és érzelmi állapot), az egészségmagatartás (testmozgás, táplálkozás, dohányzás, alkoholfogyasztás, kábítószer-fogyasztás), az egészségügyi ellátás igénybevételére, a lakossági egészségügyi kiadásokra, valamint a társadalmi-gazdasági tényezőkre terjedt ki (nem, kor, családi állapot, iskolázottság, munkaerőpiaci státusz, jövedelmi viszonyok).

Bemenő adatok:

· vélt egészség rossz vagy nagyon rossz,

· életkor (5-éves korcsoport),

· nem,

· a lakhely lakóövezeti jellege,

· a lakhely melyik régióban van.

4.1. példa - Logisztikus regresszió, vélt egészség korcsoport, nem, régió szerint

változó

Esélyhányados

Együttható log(esélyhányados)


z-érték

Pr(>|z|)

(Intercept)

0,00998

-4,60722

0,25604

-17,99394

0

AGE.15-17

0,89044

-0,11603

0,75894

-0,15289

0,87849

AGE.35-64

11,64057

2,4545

0,24302

10,09979

0

AGE.65-X

33,99391

3,52618

0,24892

14,16566

0

GENDER.F

1,30472

0,26599

0,09671

2,7505

0,00595

REGIO.Közép-Dunántúl

0,95794

-0,04297

0,18227

-0,23573

0,81364

REGIO.Észak- Dunántúl

0,72521

-0,3213

0,19986

-1,60763

0,10792

REGIO.Dél- Dunántúl

1,34135

0,29367

0,17562

1,67224

0,09448

REGIO.Észak-Magyarország

1,89074

0,63697

0,15427

4,12886

4,00E-005

REGIO.Észak-Alföld

1,61119

0,47697

0,15057

3,16784

0,00154

REGIO.Dél-Alföld

1,5158

0,41595

0,1561

2,66461

0,00771


GENDER reg.level: .MALE

REGIO ref.level: .Közép-Magyarország

Goodness of fit signif = 0.9948

(resid deviance = 350.3 , resid df = 421)

változó

Esély

Együttható log(esély)


z-érték

Pr(>|z|)

(Intercept)

0,00998

-4,60722

0,25604

-17,99394

0

A paraméterbecslések interpretációja előtt megállapítjuk, hogy a modell illeszkedik. A tengelymetszet (intercept) becslés azt mutatja, hogy a rossz vagy nagyon rossz egészségállapot önbesorolás szerinti esélye a referencia (18-34 éves Közép-Magyarországon lakó férfiak) csoportban 0,00998 , azaz a gyakorisága 1% körüli*. Ez természetesen nem tényadat, hanem a modell szerinti becslés. Az idősebb korosztályokban a rossz vagy nagyon rossz egészségi állapotban lévők aránya növekszik. A paraméterbecslések és azok szignifikanciája alapján látjuk a nem és a lakhely régió szerinti területi besorolásának hatását. Az itt alkalmazott eljárás a logisztikus-binomiális regresszió kategoriális magyarázó változókkal, a statisztikai modell leírása a 4.2.1. pontban.

* Mert p = esély / (1+esély). Kis esély esetén egy kimenetel esély és a valószínűsége közel azonos értékű, hiszen a 1+esély ≈ 1

4.2. példa - Poisson regresszió, vélt egészség korcsoport, nem, régió szerint

változó

Esélyhányados



z-érték

Pr(>|z|)

(Intercept)

0,01079

-4,52948

0,24944

-18,15887

0

AGE.15-17

0,89632

-0,10946

0,75347

-0,14527

0,8845

AGE.35-64

9,98736

2,30132

0,23998

9,58947

0

AGE.65-

22,55744

3,11606

0,24244

12,85282

0

GENDER.F

1,23151

0,20824

0,08554

2,43438

0,01492

REGIO.Közép-Dunántúl

0,96479

-0,03584

0,16502

-0,21719

0,82806

REGIO.Észak- Dunántúl

0,76399

-0,2692

0,18377

-1,46483

0,14297

REGIO.Dél- Dunántúl

1,26202

0,23271

0,15522

1,49924

0,13381

REGIO.Észak-Magyarország

1,62666

0,48653

0,13332

3,64935

0,00026

REGIO.Észak-Alföld

1,45181

0,37281

0,13229

2,81805

0,00483

REGIO.Dél-Alföld

1,38636

0,32668

0,13732

2,37891

0,01736



REGIO ref.level: .Közép-Magyarország


(resid deviance = 284.68 , resid df = 421 )

A Poisson regressziós modell ugyanolyan jól illeszkedik, mint az előző pontban bemutatott logisztikus-binomiális modell, és az egyes együtthatók szignifikancia szintje alapján levonható következtetések is azonosak. A két modell összehasonlítását a 4.2.1. pontban tárgyaljuk.

4.3. példa - Logisztikus regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a régió random magyarázó változó szerint

fix rész

változó

Esélyhányados



z-érték

Pr(>|z|)

(Intercept)

0,02393

-3,73258

0,3121

-11,95966

0

AGE.15-17

0,22825

-1,47732

0,85841

-1,721

0,08598

AGE.35-64

7,23291

1,97864

0,28092

7,04356

0

AGE.65-

16,37372

2,79568

0,28022

9,97673

0

GENDER.F

1,25025

0,22335

0,15164

1,47283

0,14154

random rész

változó

Esélyhányados



.Közép-Magyarország

0,8285

-0,18813

0,22593

.Közép-Dunántúl

0,6529

-0,42632

0,24426

.Észak-Dunántúl

0,6674

-0,40437

0,23814

.Dél-Dunántúl

0,9539

-0,04723

0,22634

.Észak-Magyarország

1,3366

0,29016

0,2229

.Észak-Alföld

1,4336

0,3602

0,21232

.Dél-Alföld

1,5154

0,41569

0,21398




(pseudo resid deviance = 207.3 , resid df = 422)

A kevert (fix és random tényezőket tartalmazó) modell választásánál az alkalmazás számára az leggyakoribb szempont, hogy az egyéni szinten mért változóknak (itt: korcsoport és nem) és a kontextuális változóknak (itt: régió) kimenettel való kapcsolatát eltérő módon modellezhessük . Akkor használunk random tényezős modellt, amikor azt gondoljuk, hogy a kontextuális változók hatása nem közvetlen. A megkérdezettek az adott régió különböző településein laknak, és az, hogy a település melyik régióban van, az a település egyénre gyakorolt hatásának csak az egyik komponense. A kevert modellben a „random rész” által meghatározott valószínűségi modellben tudjuk ezt a hatást figyelmbe venni. A statisztikai specifikációt lásd a 4.2.2. pontban.

4.4. példa - Poisson regresszió, fix modell. Vélt egészség korcsoport, nem, lakóövezeti jelleg szerint

változó

Esélyhányados



z-érték

Pr(>|z|)

(Intercept)

0,00835

-4,78525

0,28061

-17,05286

0

AGE.15-17

0,83435

-0,1811

0,75434

-0,24007

0,81027

AGE.35-64

10,09824

2,31236

0,24005

9,63295

0

AGE.65-X

22,82483

3,12785

0,24266

12,88997

0

GENDER.F

1,23011

0,20711

0,08559

2,41986

0,01553

LAKOOV.lakótelep

1,561

0,44532

0,1862

2,39159

0,01678

LAKOOV.kertes városias

1,27807

0,24535

0,16714

1,46791

0,14213

LAKOOV.falusias

2,14494

0,76311

0,16934

4,50647

1,00E-005

LAKOOV.külterület

1,68057

0,51913

0,3121

1,66335

0,09624

LAKOOV.szoc.nem.megf

3,91291

1,36428

0,37433

3,64457

0,00027



LAKOOV ref.level: .városias


(resid deviance = 272,47 , resid df = 422)

4.5. példa - Poisson regresszió, kevert modell. Vélt egészség a korcsoport, nem fix magyarázó és a lakóövezeti jelleg random magyarázó változó szerint

fix rész

változó

változó

Esélyhányados



z-érték

Pr(>|z|)

(Intercept)

(Intercept)

0,01412

-4,2602

0,25647

-16,61059

0

AGE.15-17

AGE.15-17

0,85655

-0,15484

0,60607

-0,25549

0,79847

AGE.35-64

AGE.35-64

10,06303

2,30887

0,19295

11,96624

0

AGE.65-X

AGE.65-X

22,67061

3,12107

0,19499

16,00636

0

GENDER.F

GENDER.F

1,22967

0,20675

0,0688

3,00518

0,00281

random rész

változó

Esélyhányados



.városias

0,6249

-0,47015

0,19769

.lakótelep

0,9366

-0,06553

0,18699

.kertes városias

0,7683

-0,26362

0,18001

.falusias

1,2766

0,24421

0,18088

.külterület

1,0041

0,00406

0,23446

.szoc.nem.megf

1,735

0,55103

0,26916




(pseudo resid deviance = 332.8 , resid df = 423)

változó

A kevert modellből számított esélyhányados

A kevert modellből transzformált esélyhányados

A fix modellből számított esélyhányados

.városias

0,6249

1

1

.lakótelep

0,9366

1,4987

1,561

.kertes városias

0,7683

1,2294

1,27807

.falusias

1,2766

2,0428

2,14494

.külterület

1,0041

1,6067

1,68057

.szoc.nem.megf

1,735

2,7764

3,91291

A fenti táblázat összehasonlítja a 4.14. és a 4.1.5 modellekben lakóövezeti jelleg szerinti csoportokra számolt esélyhányadosokat. Az összehasonlításhoz azt a transzformációt hajtottuk végre, hogy a kevert modell „városias” esélyhányadosával osztottuk a kevert modell esélyhányadosait, mert a fix modellben a „városias” kategória volt a referencia.

Azt látjuk, hogy a kevert modellben kisebb az eltérés az egyes kategóriák között, különösen a „szoc.nem.megfelelő” kategória került közelebb a többihez.

2. Statisztikai összefoglaló

2.1. Normális eloszlás

Az valószínűségi változó normális eloszlású, jelben

ha sűrűségfüggvénye:

(4.1)

Paraméterei: μ: várható érték, : szórásnégyzet (=variancia)

(μ tetszőleges, tetszőleges pozitív valós szám)

Normális eloszlás várható értéke:

(4.2)

Normális eloszlás szórásnégyzete:

(4.3)

Beta eloszlás

Az Beta eloszlású

(4.4)

N+1 darab [0,1]-ben egyenletes eloszlású valószínűségi változó közül a nagyság szerinti k+1-edik eloszlása

Beta eloszlás sűrűségfüggvénye:

(4.5)

és f(t) = 0, ha t lt 0 vagy 1ltt (N és k pozitív egész, k leq N).

Beta eloszlás várható értéke:

(4.6)

Beta eloszlás szórásnégyzete:

(4.7)

Binomiális eloszlás

Az valószínűségi változó N-ed rendű, p paraméterű binomiális eloszlású

(4.8)

ahol N pozitív egész,k nemnegatív egész, k leq N, 0 leq p leq 1

P(X = k): annak a valószínűsége, hogy egy p valószínűségű esemény N független megfigyelésben pontosan k alkalommal fordul elő.

(4.9)

A binomiális eloszlás várható értéke:

(4.10)

A binomiális eloszlás szórásnégyzete:

(4.11)

Logit függvény

(4.12)

ahol log() az e alapú logaritmus

a függvény értelmezési tartománya: 0 lt x lt 1

a függvény értékkészlete: a valós számok

A logit függvény szigorúan mononoton növekedő.

A logit függvény inverze:

2.2. Logisztikus-binomiális regresszió kategoriális magyarázó változókkal

ahol : a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely kategória szerint homogén csoportja,

: az -ik cellában megfigyelt esemény-szám,

: az -ik cellában a populáció nagysága (lakónépesség),

: az -ik cellában az esemény bekövetkezési valószínűsége,

? , , , : a modell ismeretlen paraméterei.

A modell szerint Y cellánként független binomiális eloszlású, az definícióval paraméterű, az -cellában bekövetkező várható eseményszám =

Ez a modell a 2.2.1. pontban tárgyalt Poisson regresszió rokona, mindketten az általános lineáris modell-család tagjai. A kategoriális magyarázó változós logisztikus regresszió a log-lineáris modell-család tagja.

A két modell közötti választás nem mindig triviális. Egy leegyszerűsített szabály az, hogy a értékek kisebbek, mint 0,01 akkor a Poisson modell a jobb. A 4.1. fejezetben bemutatott példák határeset, és mindkét példában mindkét modell használata elfogadható.

Q-Q görbe a Poisson modellnél.

A reziduumok homoszkedaszticitását szemléltető görbe a Poisson modellnél.

Q-Q görbe a logisztikus-binomiális modellnél.

A reziduumok homoszkedaszticitását szemléltető görbe a logisztikus-binomiális modellnél.

A két modell nem csak az illeszkedésvizsgálat LR tesztjében mutat hasonló eredményeket, hanem a diagnosztikai görbéknél is. Azt látjuk, hogy azokban a cellákban, ahol nagyon alacsony (1\% körüli) az esély, a binomiális modell rendre túl nagy becsléseket ad meg (ezt a Q-Q görbén látjuk), itt határozottan jobb a Poisson modell.

A reziduumok homoszkedaszticitását szemléltető görbén a binomiális modell jobb, a Poisson modellnél a 0 megfigyelt gyakoriságú cellák egy jól kirajzolódó exponenciális görbén helyezkednek el.

2.3. Kevert modell, fix és random magyarázó változókkal

A legegyszerűbb random paraméteres eljárásokat mutatjuk be, a tárgyalt általánosított lineáris modellek lineáris részében az ANOVA eljárásban ismert variancia komponens becslésekkel.

Hasonló eljárások régóta ismertek a Bayes-féle statisztikában. A klasszikus eset az, amikor feltételes eloszlás paraméterű binomiális, és (a priori) eloszlása Beta, akkor a (a poszteriori) feltételes eloszlás is Beta. A Bayes-féle statisztikán alapuló modellezési módszer 2000 óta vált igazán népszerűvé, ekkor olyan számítógépes megvalósítás vált ismertté, mely szinte bármilyen apriori eloszlás esetén hatékony becslést ad. A mi általunk tárgyalt példákban a a priori normális eloszlású, de a pontosabb modellekben indokolt más eloszlásokat is tekintetbe venni.

Kevert logisztikus-binomiális regresszió, kategoriális magyarázó változókkal

ahol a és a valószínűségi változók teljesen függetlenek.

A specifikáció további részei azonosak a 4.2.1. pontbeliekkel.

A döntő különbség az, hogy itt valószínűségi változó, ezért a specifikáció első sorában nem Y eloszlása, hanem Y feltételes eloszlása szerepel.

Kevert Poisson regresszió, kategoriális magyarázó változókkal

ahol a és a valószínűségi változók teljesen függetlenek.

A specifikáció további részei azonosak a 2.2.1. pontbeliekkel.

Szempontok a fix- és random tényezők megválasztásánál

A kérdés gyakran idézett összefoglalása Tom Snijders [bib_8]szócikke. További technikai részleteket tárgyal a Gelman-Hill [bib_3]11. fejezet. A felhasználó számára is érzékelhető különbség a fix tényezős modellekkel szemben az, hogy a Likelihood függvény (és ezért a deviance értékén alapuló illeszkedésvizsgálat) a random tényezős modellekben nem mindig számítható. Mi olyan modelleket tárgyalunk, amikor a random rész normális, és ilyenkor a Likelihood függvényre jó közelítés van, és a fix modellekhez hasonló illeszkedésvizsgálatot lehet végezni.

A Gelman-Hill [bib_3]könyv 24. fejezete tárgyalja azokat a statisztikai szimulációs eszközöket, melyekkel a fenti megszorítások nélkül is lehet modell illeszkedésvizsgálatot végezni.

A 4.1.3. pontban elmondtuk, hogy mikor indokolt a régiót random tényezőnek tekinteni. Pontosabb modell alkotásnál figyelembe kell venni, hogy a survey során a hét régió mindegyikéből milyen mintavétellel választották ki azokat a településeket ahonnan a megkérdezetteket kiválasztották.

A kevert modelleknél általánosabb, hierarchikus (más néven: multilevel) modelleket kell ilyenkor használni, mert itt megfelelő lehetőség van a paraméter random tulajdonságait kellő pontossággal figyelembe vevő beágyazott modelleket építeni. A hierarchikus modellek általános tárgyalásása nem fér jelen példatár kereteibe, de az 5. fejezet egyik példája szemlélteti az itt adódó elemzési lehetőségeket.

Fix és random tényezős regressziós modellek

Fix és random tényezős regressziós modellek




5. fejezet - Regressziós becslések vizsgálata térképi megjelenítéssel

Ebben a fejezetben a kiinduló modell kevert Poisson regresszió, ahol a random tényező a MEGYE. A modellben olyan sok a becsült paraméter, hogy az eredmények értékeléséhez térképes ábrázolásokat használunk. Ezek elemzése során egyrészt több random paraméter együttes hatását vizsgáljuk, másrészt a régió hatásának vizsgálatában eljutunk egy nagyon egyszerű hierarckus modellig


Magyarország 2009-es mortalitási adatait elemezzük. A megválaszolandó kutatási kérdés a halálozás térbeli eloszlása, a nem és az életkor hatásának figyelembevételével.

Bemenő adatok

· teljes halálozás életkor (5-éves korcsoport), nem, lakhely megye bontásban


Az epidemiológiai függvénykapcsolatokat matematikai reprezentálására, és paramétereik becslésére a gyakorlatban általánosított lineáris modelleket alkalmaznak.

5.1. példa - Poisson regresszió, kevert modell. Mortalitás nem és korcsoport fix magyarázó változók, lakhely megye random magyarázó változóval

fix rész


Együttható


z érték

Pr(>|z|)

(Intercept)

0,00077

-7,16346

0,09247

-77,47157

0

AGE.00-04

1,58939

0,46335

0,12369

3,74607

2,00E-004

AGE.05-09

0,18062

-1,71137

0,26487

-6,46128

0

AGE.10-14

0,23744

-1,43784

0,23034

-6,24229

0

AGE.15-19

0,57746

-0,54911

0,15425

-3,55986

4,00E-004

AGE.25-29

1,08709

0,0835

0,12455

0,67044

0,50281

AGE.30-34

1,5106

0,41251

0,11223

3,67569

0,00026

AGE.35-39

2,53017

0,92829

0,10592

8,76403

0

AGE.40-44

5,06703

1,62275

0,09976

16,26586

0

AGE.45-49

10,66057

2,36655

0,096

24,65157

0

AGE.50-54

19,34415

2,96239

0,09361

31,64652

0

AGE.55-59

25,81499

3,25096

0,09304

34,94296

0

AGE.60-64

35,7357

3,57615

0,09294

38,47896

0

AGE.65-69

47,93188

3,86978

0,09278

41,70918

0

AGE.70-74

67,73072

4,21554

0,09277

45,44005

0

AGE.75-79

100,97297

4,61485

0,09258

49,84919

0

AGE.80-84

151,8468

5,02287

0,09271

54,17843

0

AGE.85-X

1206,60272

7,09556

0,09161

77,45365

0

GENDER.F

0,30731

-1,17991

0,19168

-6,15567

0

AGE.00-04:GENDER.F

3,06532

1,12015

0,2269

4,93676

0

AGE.05-09:GENDER.F

2,52204

0,92507

0,42734

2,16471

0,03076

AGE.10-14:GENDER.F

2,55128

0,9366

0,37617

digitális tankönyvtár · web view3.1.4.modell: (resid deviance = 14878,4 , resid df = 8198 )...

Documents