regresnÍ modely v pojiŠŤovnictvÍ

86
REGRESNÍ MODELY V POJIŠŤOVNICTVÍ Seminář z aktuárských věd 2. prosince 2016 Kateřina Vlčková

Upload: others

Post on 09-Dec-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

Seminář z aktuárských věd 2. prosince 2016 Kateřina Vlčková

Page 2: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

1. PŘEDSTAVENÍ2. ÚVOD3. REGRESNÍ MODELY

1. LM – Lineární modely (Linear Model)2. GLM - Zobecněné lineární modely (Generalised Linear Models)3. GEE – Zobecněné odhadovací rovnice (Generalised Estimating Equations)4. LMM - Smíšené lineární modely (Linear Mixed (Effects) Models)5. GLMM – Zobecněné Smíšené Lineární Modely (Generalised Linear Mixed

Models)6. Jiné – GAM (Generalised Additive Models), aj.7. Srovnání modelů, užití

4. ZÁVĚR5. REFERENCE / Literatura

Page 3: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

3

▲CO CO CO CO JE JE JE JE ««««««««MODELMODELMODELMODEL»»»»»»»»????

Page 4: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

Co

je M

OD

EL

?

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

4

▲napodobenina předmětu postrádající některé původní vlastnosti

▲objekt s charakteristickými vlastnostmi sloužící pro vytváření podobných objektů

▲kategorie výrobků se společnými parametry

▲Matematický model je abstraktní model používající matematický zápis k popisu chování soustavy (systému).

Model Matematický model

Page 5: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REG

RESN

Í MO

DELY V PO

JIŠŤOVN

ICTVÍ

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

5

▲"Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful."

1987 , Empirical Model-Building and Response Surfaces

▲„Essentially, all models are wrong, but some are useful.„

▲ George Edward Pelham Box,(*18. 10. 1919 – †28. 3. 2013)

Co je MODEL ? George E. P. Box

Page 6: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

6

▲CO JE CO JE CO JE CO JE ««««««««REGRESE REGRESE REGRESE REGRESE »»»»»»»»????

Page 7: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

Regresní m

odely

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

7

▲Do statistiky zavedl pojem REGRESE britskýučenec Francis Galton kolem roku 1880, a to jako „regres(i) k průměru“. Tím označil fakt, ženapř. synové vysokých rodičů jsou sicev průměru (statisticky) vyšší než průměrnápopulace, zároveň ale individuálně nedosahujíextrémních hodnot předchozí generace. Jakokdyby se jedinci postupně "vraceli k průměru". Podobně je tomu i s jinými vlastnostmi, nejenu lidí.

▲Regresní analýza je označení statistických metod, které umožňují odhadovat hodnotu jisté náhodné veličiny na základě znalosti jiných veličin

Co je REGRESE? REGRESNÍ ANALÝZA

Page 8: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

8

Lineární modelyLineární modelyLineární modelyLineární modely

LinearLinearLinearLinear ModelsModelsModelsModels

LMLMLMLM

Page 9: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LINEÁRNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

9

▲CO JE CO JE CO JE CO JE «««««««« LINEÁRNÍ LINEÁRNÍ LINEÁRNÍ LINEÁRNÍ »»»»»»»» ????

Page 10: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LINEÁRNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

10

▲CO JE «« LINEÁRNÍ »»▲Pomocí �…regresorů / vysvětlujících proměnných (resp. jejich lineární kombinací� � ��) modelujeme ��

Page 11: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LINEÁRNÍ MODELY � � �

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

11

▲LM (lineární model):▲ � � � ,

▲ …chybové členy jsou nezávislé náhodné veličiny, t.ž. �� � �, ���� � ��

▲Obvykle předpokládáme Normální lineární model:▲ ~N�0, ���� tj. |~����, ����

▲Pozn:▲Pomocí �regresorů / vysvětlujících proměnných (resp. jejich lineární kombinací� ��) modelujeme ��

▲odezvy � jsou homoskedastické (mají stejný rozptyl)

Page 12: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LINEÁRNÍ MODELY � � �

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

12

▲(N)LM (Normální lineární model):▲ � �� ,nezávislé ~N ��, �

���

▲V Normálním LM platí:▲YYYY~N ��, �

�"�

▲�#~N$��%, ���&'&�()�- odhad

▲#~N ��%, ��/�- odhad

▲0~N ��, ���" 1 /��rezidua

▲778/�~: ($�

▲778a�# jsounezávislé

Page 13: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LINEÁRNÍ MODELY � � �

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

13

▲V Normálním LM platí:▲�#~N$�� , ���&'&�()�

▲�#je nestranný odhad � �tj. ��# � ��

▲�#je MLE – maximálně věrohodný - odhad �

▲�#je konzistentní odhad �

Page 14: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

14

ZobecnZobecnZobecnZobecněné né né né lineární lineární lineární lineární modelymodelymodelymodely

GeneralisedGeneralisedGeneralisedGeneralised LinearLinearLinearLinear ModelsModelsModelsModels

GLMGLMGLMGLM

Page 15: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ZOBECNĚNÉ LINEÁRNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

15

▲CO JE CO JE CO JE CO JE «««««««« ZOBECNZOBECNZOBECNZOBECNĚNÝNÝNÝNÝ»»»»»»»» ????

Page 16: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ZOBECNĚNÉ LINEÁRNÍ MODELY - GLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

16

▲Lineární model▲ � � � ,nezávislost, ~N�0, ����▲Lineární model má svá omezení: Co nám vadí ?

▲Normalita → EDF – Rozdělení exponenciálního typu▲„linearita“ → linková / spojovací funkce

▲Zobecnění lineárního modelu▲Nelder, John A; Wedderburn, Robert W (1972). "Generalized linear models". Journal of the Royal

Statistical Society, Series A. Royal Statistical Society. 135 (3): 370–384.▲Zobecnění – definování společných předpokladů pro metody, které si již dříve používaly:

Logistická regrese, Poissonovská regrese, Gamma regrese, atd.

Page 17: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ROZDĚLENÍ EXPONENCIÁLNÍHO TYPU

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

17

▲Exponential Dispersion Family , EDF

▲Rodina exponenciálních rozdělení

▲Rozdělení s hustotou ve tvaru

D E; G, H � IJKEG 1 L�G�

M�H�� N�E, H� , E ∈ P

▲� ∈ QRS

Page 18: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ROZDĚLENÍ EXPONENCIÁLNÍHO TYPU

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

18

▲EDF…hustota

T U; V,W � XYZUV 1 [�V�

��W�� \�U,W� , E ∈ P

▲H…disperzní (škálový) parametr, neznámý…společný pro celý model▲G… kanonický parametr, neznámý…G]… závisí na pozorování▲M, L, N… funkce, známé

▲L… kumulantová funkce, dvakrát spojitě diferencovatelná

▲M… obvykle: M H � ^ nebo M H � ^/_, _… váhy

Page 19: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ROZDĚLENÍ EXPONENCIÁLNÍHO TYPU

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

19

▲Normální rozdělení

▲Gama rozdělení

▲Inverzní Gaussovo rozdělení

▲Poissonovo rozdělení

▲Binomické rozdělení

▲Negativně binomické rozdělení

▲Geometrické rozdělení

▲Alternativní rozdělení

▲Exponenciální rozdělení

▲Chí-kvadrát rozdělení

▲Weilbullovo rozdělení

▲Paretovo rozdělení

Page 20: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ROZDĚLENÍ EXPONENCIÁLNÍHO TYPU

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

20

▲�] …náhodná veličina , �] ∈ QRS▲Pro její momenty platí (L… dvakrát spojitě diferencovatelná funkce):

▲��] � L′ G] �a▲bMc�] � M H Ldd G] � ^Ldd G] (� ef Ldd G] )▲g a … rozptylová (varianční) funkce: h i ≡ [′′ [′ (k i▲bMc�] � M H g a � ^ g a

Page 21: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ROZPTYLOVÁ FUNKCE h i

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

21

▲g a … rozptylová funkce (variance function)

▲definovaná vtahem: g a � L′′ L′ () a � ^g a▲určuje vztah mezi střední hodnotou a rozptylem

▲��� � � W h i � l h i ▲Jednoznačně identifikuje konkrétní rozdělení z EDF

Page 22: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

RO

ZPTYLOVÁ

FUN

KC

E

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

22

▲Normální:

▲g a � 1▲Gama:

▲g a � a�▲Inverzní Gaussovo:

▲g a � an

▲Poissovovo:

▲g a � a▲Binomické:

▲g a � op�1 1 p�▲Negativně binomické:

▲g a � a�1 1 aκ�

EDF – SPOJITÁ ROZDĚLENÍ EDF – DISKRÉTNÍ ROZDĚLENÍ

Page 23: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ROZDĚLENÍ EXPONENCIÁLNÍHO TYPU

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

23

Page 24: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ZOBECNĚNÉ LINEÁRNÍ MODELY – od LM ke GLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

24

▲LM (lineární model):▲� � �� � �, �~N�0, ���� tj. �|�~����, ����

▲GLM zobecňuje (Normální) Lineární model:▲Rozdělení �…odezvy / vysvětlované proměnné… nemusí být normální

(ani se mu blížit)▲Pomocí �regresorů / vysvětlujících proměnných (resp. jejich lineární

kombinací � � ��) nemodelujeme ��, ale její transformaci r���▲Důsledek: odezvy � mohou být (a obvykle jsou) heteroskedastické

Page 25: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ZOBECNĚNÉ LINEÁRNÍ MODELY – 3 pilíře GLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

25

Definice modelu GLM▲Rozdělení exponenciálního typu…�…T ∈EDF

▲T U; V,l � XYZ UV([�V�l � \�U,l� , E ∈ P

▲Lineární prediktor… s (čti éta)… lineární kombinace regresorů▲s � �

▲Linková (spojovací) funkce…r…striktně monotónní, dvakrát spojitě diferencovatelná

▲r�i� � s � r��� � r��� i � � � r(k s▲Další předpoklady: 1. rozdělení � závisí na �. 2a) �, � nezávislé N.Ve. Nebo 2b) � jsou nezávislé N.V. a � měřené konstanty.

Page 26: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – KANONICKÝ LINK

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

26

▲Linková (spojovací) funkce…r…striktně monotónní, dvakrát spojitě diferencovatelná

▲r�i� � s � � � r��� i � � � r(k s▲Kanonický link

▲r ≡ [′ () ⟹ r i � s � V,▲tj. lineární prediktor je roven kanonickému parametru▲Platí : rd i � k h iu h i ≡ [′′ [′ (k i▲Kanonický link zjednodušuje vtahy při odhadu parametrů

Page 27: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

27

Linková funkce

r�i� Rozdělení U

identita i Normální

log ln�a� Poisson

inverze 1a

Gama

mocnina a$ = a() Gama p= -1

mocnina a$ = a(� Inverzní Gauss p= -2

odmocnina alogit vo a

1 1 aBinomické

▲Linková funkce: ▲r�i� � s � � � r���; ▲i � � � r(k s

▲Kanonický link: ▲r ≡ [′ () ⟹▲r i � s � V,

PříkladyLinková funkce

Page 28: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – VZTAHY MEZI PARAMETRY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

28

� � s s���� r�i� i � [′ V� s i V

r(k s � i [′ (k i ����V�… lineární prediktor a… střední hodnota EY, �… regresní parametr G… kanonický parametrw… linková funkce L…kumulantová funkce

Page 29: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

7 KROKŮ K MODELU GLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

29

▲Volba rozdělení odezvy / vysvětlované proměnné… T E▲Volba linkové funkce…r�i�▲Volba regresorů / vysvětlujících proměnných…Y▲Výběr (nezávislých) dat: pozorování E), … , E a odpovídajících hodnot

regresorů Y), … , Y ▲Odhad regresních parametrů � a případně disperzního parametru^▲Model fit: kvalita modelu, výběr podmodelů▲Kalibrace modelu, odhad predikční chyby modelu

Page 30: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 1) volba rozdělení odezvy … T U

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

30

▲Normální rozdělení

▲Gama rozdělení

▲Inverzní Gaussovo rozdělení

▲Poissonovo rozdělení

▲Binomické rozdělení

▲Negativně binomické rozdělení

▲Alternativní rozdělení

▲Jiné ∈EDF

Page 31: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 2) volba linkové funkce…r�i�

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

31

▲kanonický link

▲jiná linková funkce

Page 32: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 3) volba regresorů …Y

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

32

▲REGRESORY – Vysvětlující proměnné▲Metrické proměnné: věk, výše škody▲Faktory: pohlaví, typ vozidla, počet dětí▲Interakce: MxM, FxF, MxF

▲Metrické proměnné: ▲model odhaduje vliv jednotlivých proměnných na odezvu▲�x …vyjadřuje změnu při jednotkové změně regresoru x▲Lze i polynomy

▲Faktory: ▲Diskrétní proměnné nebo katerorie▲Dummy proměnné (o 1 katerorii méně, referenční kategorie - typická) ▲�x …vyjadřuje změnu oproti referenční kategorii

▲Interakce: �k,�YkY�

Page 33: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 3) volba regresorů - OFFSET

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

33

▲Člen v lineárním prediktoru s pevně daným koeficientem ▲Regresní koeficient roven 1, neodhaduje se▲Obvykle použit jako korekce modelu s ohledem na expozici v riziku

▲velikost skupiny, ▲různá doba pozorování

▲Nejčastěji: pro logaritmický link; zde příklad pro expozici o]. řádku:

�]� ln o] � J]'� a] �I yz �o] ∙ I|z}~▲PRAXE: délka platnosti smlouvy, počet rizik

Page 34: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 3) volba regresorů – váhy pozorování �

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

34

▲Do modelu je možné zahrnou apriorní váhy pro jednotlivá pozorování … _▲Parametrizace v EDF: M H � e f⁄

E � L′ G , var � Ldd G ∙ e f⁄ � g�G� ∙ e f⁄

▲PRAXE: průměrné výše škody: _ … počet škod na dané smlouvě▲PRAXE: škodní frekvence: _ … délka expozice / délka platnosti smlouvy

Page 35: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 4) Výběr dat: …Uk, … , U�

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

35

▲nezávislá data ▲náhodný výběr

Page 36: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 5a) odhad regresních parametrů �

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

36

▲ODHADY REGRESNÍCH PARAMETRŮ V GLM modelu – MODEL FIT▲Odhady a INFERENCE v GLM jsou založeny na teorii Maximální věrohodnosti▲Maximalizace vyžaduje iterativní řešení

▲Metoda iterativních vážených čtverců? IWLS X IRLS ▲Newton –Raphsonův iterační algoritmus▲Fisherova metoda skórů

▲MLE – Maximálně věrohodné odhady – MAXIMUM LIKELIHOOD▲Vlastnosti MLE odhadů:

▲Asymptoticky nezkreslené, konzistentní, asymptoticky vydatné, invariantní vůči monotónní funkci, asymptotický normální

▲IRLS algoritmus –Iteratively Re-Weighted Least Squares

Page 37: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 5b) odhad disperzního parametru l

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

37

▲Disperzní (škálový) parametr ^▲Obvykle není znám

▲Pro MLE odhady regresních parametrů �% není nutné znát odhad skutečné hodnoty disperzního parametru ^%. MLE odhady jsou stejné v obou případech. Asymptotické vlastnosti platí.

▲Odhad disperzního parametru ^% je však potřeba pro odhad asymptotického rozptylu.

▲MLE odhad ^% není vždy možné vypočítat. Pro odhady se proto obvykle používá modifikovaná Momentová metoda.

▲Odhad založen na Pearsonově :� statistice ^ � � ) ($∑

�z��z� �� �z�

]�) � ) ($��

Page 38: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 6) Výběr modelu

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

38

▲Kvalita modelu a testy▲Saturovaný model:

▲Počet parametrů = počet pozorování▲Prakticky se nepoužívá = perfect fit▲Teoretická aplikace = je v něm dosaženo maximální možné věrohodnosti

▲Deviance▲R � 2 ∗ v � 1 v �� (škálová deviance)▲Analogie indexu determinace v lineárním modelu

▲Waldovy testy▲Testy poměrem věrohodnosti

Page 39: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 6) Výběr modelu – INFORMAČNÍ KRITÉRIA

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

39

▲Čím více vysvětlujících proměnných v modelu, tím lepší „fit“ modelu, ale: tím více parametrů a horší přesnost jejich odhadů (zvyšuje se rozptyl)

▲=> hledáme kompromis (vysoká věrohodnost � malý počet parametrů)

▲Akaikeho informační kritérium: ▲��� � 12 v ; ��, � 1 �▲� … počet parametrů � (penalizace)

▲Bayesovské informační kritérium BIC▲ ��� � 12v ; ��, � � ln o ⋅ dim���▲Vybíráme modely s nízkým AIC a BIC.▲BIC více penalizuje za počet parametrů, v porovnání s AIC vybírá modely s menším počtem vysvětlujících

proměnných (někdy až příliš chudé???)▲Porovnávané modely musí být založeny na stejných pozorováních

Page 40: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 6) Výběr modelu – metody výběru (pod)modelů

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

40

▲Best Subset Selection – regresní model sestaven pro daný počet regresorů a všechny možné jejich kombinace, vybrán nejlepší model pro zvolené kritérium (AIC, BIC, CD), výpočetně náročné až nereálné

▲Kroková regrese (Stepwise Regression) – postupné přidávání/ubírání regresorů, postup ve směru největšího poklesu hodnoty kritéria, výpočetně jednodušší

▲Regularizovaná regrese – ve věrohodnostní funkci se penalizuje nárůst regresních parametrů

▲Sekvenční výběr proměnných – manuální verze krokové regrese

Page 41: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLM – 7) Kalibrace modelu, odhad predikční chyby

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

41

▲ Validace : rozdělení dat na Trénovací část (kalibrace - odhad modelu) a Testovací část (stanovení predikční chyby)

▲ Cross-validace: data rozdělena na několik částí: na všech kromě jedné odhadujeme model, na poslední testujeme; opakujeme pro všechny kombinace

▲ Nová data – pro stanovení predikční chyby

Page 42: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

ZOBECNĚNÉ LINEÁRNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

42

▲CO SE DO CO SE DO CO SE DO CO SE DO «««««««« GLM GLM GLM GLM »» »» »» »» NEVEŠLO NEVEŠLO NEVEŠLO NEVEŠLO

Page 43: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

CO DÁL? - ROZŠÍŘENÍ / ZOBECNĚNÍ GLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

43

▲ V praxi však nebývají všechny předpoklady splněny…▲ Je možné rozšíření teorie GLM na případy, kdy jsou předpoklady

porušeny?▲Rozdělení závislých proměnných / odezvy není exponenciálního typu▲Rozdělení odezvy není blíže specifikováno

▲Známe první 2 momenty▲Známe vztah mezi ��] a bMc�]

▲Data nejsou nekorelovaná / nezávislá▲Regresní parametry / efekty � nejsou pevné, ale náhodné▲Data vykazují nadměrnou disperzitu oproti teoretickým hodnotám

Page 44: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

CO DÁL? - ROZŠÍŘENÍ / ZOBECNĚNÍ GLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

44

▲OVERDISPERSION / NADMĚRNÁ DISPERZITA▲Pozorovaná data mají vyšší variabilitu/disperzitu, než by se očekávalo při

platnosti zvoleného modelu▲Průměr je většinou možné parametricky upravit, aby odpovídal teoretické

hodnotě.▲Vyšší momenty se však (obzvláště u malých výběrů) upravují těžko▲S nadměrnou disperzí se často setkáváme u modelů četností (Poissonovo

rozdělení, či binomické), obzvláště u malých výběrů a heterogenních populací▲Př: nadměrná disperze v Binomických datech -> Beta-binomické rozdělení▲Př: nadměrná disperze v Poissonovských datech -> Poisson-Gama rozdělení

Page 45: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

OVERDISPERSION / NADMĚRNÁ DISPERZITA

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

45

▲Příklad: Poissonovo rozdělení▲�), … , � ∼ �� λ% nezávislá pozorování▲bMc �] = � �] =λ%,�]∈ QRS▲Parametr �] považujme za náhodnou veličinu (nikoli parametr), � �] =λ%

▲�]|λ% ∼ �� λ% , � �] =λ%bMc �]] = �2�▲� �] =λ%bMc �] = �%+ ���▲Předpokládejme: �] ∼ � M, M�%

▲ -> Poisson-Gama rozdělení - není EDP, GLM neumí řešit▲Speciální případ: negativně-binomické rozd., geometrické

Page 46: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

CO DÁL? - ROZŠÍŘENÍ / ZOBECNĚNÍ GLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

46

▲KVAZIVĚROHODNOST / QUASI-LIKELIHOOD▲Neznáme rozdělení, ale známe rozptylovou funkci g . , která určuje vztah mezi prvními dvěma momenty,

▲g a � L′′ L′ () a ⟶ bMc�] � ^g a � ^g ��]▲MODEL:

▲Mějme o náhodných vektorů �] , ] , � � 1,… , o, kde� � �]), �]�, … , �]$ '

jsou regresory a �] jsou odezvy.▲Předpokládejme:

▲1. �), … , � jsou nezávislé▲2. a� � � �� , w a� � �] ��T�0, �]… lineární prediktor, ¨w… linková funkce▲3. bMc�� � ^g a] , ^… disperzní parametr, g… varianční funkce

▲GLM je parametrický model, toto semi-parametrický model: rozdělení není dáno, pouze vztah mezi momenty ▲Metodu maximální věrohodnosti (MLE) lze použít pro odhady pouze pro parametrické modely.▲Odhady regresních parametrů – „Metoda maximální kvazivěrohosnosti“ (?MQLE )

▲ ) ¢ �%

£ �$ �, "��%� o�� ¤ 1�%�£ �$ �, "()��%�

▲Je možné aplikovat Waldovy a skórové testy; nikoli však devianci či AIC.

Page 47: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

47

ZobecnZobecnZobecnZobecněné odhadovací rovnicené odhadovací rovnicené odhadovací rovnicené odhadovací rovnice

GeneralisedGeneralisedGeneralisedGeneralised EstimatingEstimatingEstimatingEstimating EquationsEquationsEquationsEquations

GEEGEEGEEGEE

Page 48: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - Zobecněné odhadovací rovnice

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

48

▲GEE – Generalised Estimating Equations– Zobecněné odhadovací rovnice

▲rozšíření GLM – korelace, skupinově závislá data

▲GEE model navržen v článku z r. 1986 – K.Y. Liang a S.L. Zeger: Longitudial data analysis

using generalized linear models

▲Umožňuje použít postupy z GLM i v případě, kdy nejsou splněny předpoklady pro GLM model

▲Data nejsou nekorelovaná

Page 49: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - DEFINICE MODELU pro skupinově závislá data

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

49

▲Data:), … , ¥ nezávislé náhodné vektory ] � �]), … , �] z', � � 1…¦, ∑ o] � o§

¨�)

▲Data rozdělena do ¦ nezávislých skupin (shluků, subjektů, jedinců)

▲V každé skupině je různý počet (o]) vzájemně korelovaných pozorování

▲Tj. data jsou: závislá v rámci jedné skupiny a nezávislá mezi jednotlivými skupinami (př. zuby pacienta, mláďata z jednoho vrhu, škody na jedné pojistné smlouvě, budovy v jedné obci)

▲Shluková data (bez uspořádání), opakovaná měření (uspořádání v čase), longitudinální data (se záznamem o čase), panelová data (ekonomická data)

▲Ke každému pozorování (odezvě, závisle/vysvětlované proměnná) �]x

přísluší vektor regresorů (nezávislých/vysvětlujících proměnných) ©�ª � X¨¬), … , X¨¬­'

, i � 1…K, j � 1,… n¨,∑ o] � o§�) .

Page 50: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - DEFINICE MODELU pro skupinově závislá data

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

50

▲Data: ), … , ¥ nezávislé náhodné vektory ] � �]), … , �] z', � � 1…¦, ∑ o] � o§�)

▲Ke každému pozorování (odezvě) �]x přísluší vektor regresorů ©¨¬ � �]x), … , �]x$ ¯,

i � 1,…K, j � 1,…n¨, ∑ o] � o§�) .▲Cíl: popsat závislost střední hodnoty pozorování 쨬 � �Y¨¬ na regresorech ]x pomocí regresního modelu.

▲Předpoklad: vztah je definován pomocí linkové funkce w a]x � &]x'�%, stejně jako v GLM

▲r … linková funkce: striktně monotónní, dvakrát spojitě diferencovatelná

▲�% � �%), … , �%$ 'neznámý vektor regresních parametrů (skutečná hodnota)

▲Předpokládejme :

▲�] �i] � a]), a]�, … , a] z' � w() &])' �% , … , w() &] z' �% '

▲bMc� nespecifikováno, bez předpokladů o rozptylu či kovarianci

Page 51: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - ODHADY REGRESNÍCH PARAMETRŮ v modelu pro skupinově závislá data

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

51

▲&] � ])' , … , ]$' '… regresní matice �o] � K)

±iz±� �$� z�

� &]' wd a]) ⋯ 0

⋮ ⋱ ⋮0 ⋯ wd a] z

()

…matice parciálních derivací

▲Připomenutí:skórová funkce GLM modelu: ¢] � � ±�z

±~ )

e� �z ��] 1 a]�, kde g a] je rozptylová funkce.

▲Zobecnění pro vícerozměrné ]:pseudo-skórová funkce příslušející �. skupině pozorování: ¢] � � ±i�

±� ]ℚ()�i����] 1 a]�. ▲ℚ] i] � ^¶]) �⁄ i] P]¶]) �⁄ i] … „pracovní kovarianční matice“, která reprezentuje naši představu (guess) o rozptylu bMc� .

▲¶] …diagonální matice, na diagonále členy g a]) , … , g a] z , které představují „pracovní rozptyl“ pro pozorování ] � �]), … , �] z'

.

▲P] … „pracovní korelační matice“ �o] � o]).▲Nepředpokládáme, že P] a g a]x , jsou známé či správně odhadnuté. (V opačném případě bychom rovnou použili N·c] abMc�]x místo P] a ^g a]x .)

▲GEE odhad regresních parametrů�:�¥¤ je definován jako řešení soustavy „zobecněných odhadovacích rovnic“:

¢¥ �¥¤ �¸¢] �¥¤ � �¥

]�)�GEE�

Page 52: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - asymptotické vlastnosti odhadů regresních parametrů

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

52

▲Označme: º � 1� ±±�} ¢] �% � � ±i�

±� ℚ()�i�� ±i�±�

' ▲Pro ¦ → ∞platí:

▲ � �¥¤$�% (konzistence)

▲ �� )¥ ¢¥ �%£ �$ �, ½

▲ ��� ¦��¥¤ 1�%�£ �$ �,º()½º() . (asymptotická normalita)

▲Asymptotika funguje pro velká ¦ → ∞. Potřebujeme velký počet nezávislých skupin.

▲Počet (korelovaných) pozorování v jednotlivých skupinách není podstatný.

Page 53: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - odhad asymptotického rozptylu

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

53

▲Asymptotický rozptyl º()½º() odhadujeme pomocí sendvičového odhadu (sandwich estimator / White estimator):

▲º()½º()¾ �º#()½#º#()

▲ kde: º# � )¥∑

±i¿�±� ℚ() i¿� ±i¿�

±�' ]�%

▲a ½# � )¥∑ ¢] �#¥ ⊗�¥]�) .

▲ ℚ i] � ^¶]) �⁄ i] P] ¶]) �⁄ i] … „pracovní kovarianční matice“, která reprezentuje naši představu (guess) o rozptylu bMc� .

▲ ¶] …diagonální matice, na diagonále členy g a]) , … , g a] z , které představují „pracovní rozptyl“ pro pozorování ] � �]), … , �] z'

.

▲ P] … „pracovní korelační matice“ �o] � o]).▲ Nepředpokládáme, že P] a g a]x , jsou známé či správně odhadnuté.

Page 54: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - řešení soustavy zobecněných odhadovacích rovnic

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

54

¢¥ �¥¤ �∑ ¢] �¥¤ � �¥]�) �GEE�

▲Soustava �GEE�se řeší iteračně.¨

▲GEE odhad �#¥hledáme pomocí modifikované metody IWLS (Irerrative Re-Weighted Least Squares).

▲Iterujeme: �# � ∑ ±i¿�±� ℚ() i¿� ±i¿�

±�' ]�%()

∑ ±i¿�±� ℚ() i¿� Á#� ]�% ,

▲kde: Á#� � �Â�]), … , Â�] z�' a Â�]x � y¿zÃÄ �zÃ(�¿zà ÅÆ �¿zÃÅÆ �¿zÃ

Page 55: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

55

▲Rozptylová funkce g a v GLM vyjadřuje vztah mezi rozptylem a střední hodnotou.

▲Pracovní kovarianční matice ℚ i] � ^¶]) �⁄ i] P]¶]) �⁄ i] ,

resp. pracovní korelační matice P] , reprezentuje v GEE rovněž naši představu o rozptylu.

▲Jak zvolit vhodnou pracovní korelační matici?

Page 56: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

56

▲pracovní nezávislost / working independence

▲metoda parametrizované korelace / parametrized correlation▲pásová korelace 1. řádu

▲pásová korelace m. řádu:

▲exchangeable correlations

▲AR(1) korelace a další korelace na bázi časových řad

Page 57: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury pracovní nezávislost

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

57

▲ Nejjednodušší volba, analyzujeme data, jako by byla nezávislá.

▲ Volíme pracovní korelační matici : P] ≡ " z (čtvercová jednotková matice �o] � o])).

▲ Pracovní kovarianční matice je diagonální: ℚ i] � ^¶] i] �^g a]) ⋯ 0

⋮ ⋱ ⋮0 ⋯ ^g a] z

.

▲ Odhady regresních parametrů �% jako při nezávislých datech,pomocí standardního IWLS algoritmu.

▲ Rozptyl odhadů je poté upraven pomocí sendvičového odhadu, zohlednění možných korelací a případné nevhodné volby rozptylové funkce g ∙ .

▲ Odhady jsou konzistentní. V případě velké korelace mezi daty nejsou eficientní.

Page 58: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury metoda parametrizované korelace

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

58

▲Volíme kovarianční strukturu, která není nezávislá.

▲Zavedeme nový vektorový parametr Ç ∈ PÈ.

▲Položíme:▲pracovní korelační matice: P] ≡ P] Ç▲pracovní korelační matice: ℚ] i] ≡ ℚ] i] , Ç � ^¶]) �⁄ i] P] Ç ¶]) �⁄ i]▲odhad pracovní korelační matice: ℚ# ] i] ≡ ℚ] i] , Ç¿ � �¶]) �⁄ i] P] Ç¿ ¶]) �⁄ i]▲kde Ç¿ je ¦-konzistentní odhad parametru Ç, např. momentový odhad.

▲Dostáváme modifikované skóre: ¢#] � � ±i�±� ℚ]¤() i] �] 1 i]�.

(! Ztráta nezávislosti vektorů)

▲Odhady regresních parametrů �#jsou řešením soustavy ¢¥ �# � ∑ ¢# ] �# � �¥]�) .

Page 59: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury obecný postup odhadu parametru Ç

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

59

▲Obecný postup při odhadování parametru Ç: (založen na reziduích):

▲Odhad� za předpokladu pracovní nezávislosti (Volíme: P] � " z)▲Spočteme Personova rezidua: c]xÊ � �zÃ(�¿zÃ�Ë�

� �¿zÃ�Ë�

▲Pokud a]x�Í�správně odhadují střední hodnotu �Y¨¬, potom:

▲� c]xÊ Î 0, bMc c]xÊ Î ^, � c]xÊ, c]ÏÊ Î ^N·c �]x , �]Ï � ^ Ð]xÏ Ç▲Hledáme momentové odhady parametru Ç spočtené ze součinů Personových reziduí c]xÊ ∙ c]ÏÊ y dat

ze stejné skupiny.

Page 60: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury metoda parametrizované korelacePříklady volby korelační struktury

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

60

▲Pásová korelace 1. řádu:

▲Ð] Ç � N·c �]x , �]Ï �

1 Ñ 0 ⋯ ⋯ 0Ñ 1 Ñ ⋱ ⋮0 Ñ ⋱ ⋱ ⋱ ⋮⋮ ⋱ ⋱ ⋱ Ñ 0⋮ ⋱ Ñ 1 Ñ0 ⋯ 0 0 Ñ 1

▲Konzistentní odhad parametru Ç : Ç¿ � )e¿

) (¥($∑ ∑ c]xÊ ∙ c],xÄ)Ê z()

x�)¥]�)

Page 61: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury metoda parametrizované korelacePříklady volby korelační struktury

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

61

▲Pásová korelace m. řádu: (m=2)

▲Ð] Ç � N·c �]x , �]Ï �

1 Ñ) Ñ� 0 ⋯ 0Ñ) 1 Ñ) ⋱ ⋮Ñ� Ñ ⋱ ⋱ ⋱ 00 ⋱ ⋱ ⋱ Ñ) Ñ�⋮ ⋱ Ñ) 1 Ñ)0 ⋯ 0 Ñ� Ñ) 1

▲matici rozšíříme na více pásem, � nesmí být moc vysoké▲Konzistentní odhad parametru Ç : Ç¿ � )

e¿)

(¥∗Ò($∑ ∑ c]xÊ ∙ c],xÄ)Ê z()x�)

¥]�)

Page 62: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury metoda parametrizované korelacePříklady volby korelační struktury

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

62

▲Exchangable correlation

▲Ð] Ç � N·c �]x , �]Ï �

1 Ñ Ñ ⋯ ⋯ ÑÑ 1 Ñ ⋱ ⋮Ñ Ñ ⋱ ⋱ ⋱ ⋮⋮ ⋱ ⋱ ⋱ Ñ Ñ⋮ ⋱ Ñ 1 ÑÑ ⋯ Ñ Ñ Ñ 1

▲Konzistentní odhad parametru Ç : Ç¿ � )e¿)….∑ ∑ Σc]xÊ ∙ c],Ê z

x�)¥]�)

Page 63: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE – volba korelační struktury metoda parametrizované korelacePříklady volby korelační struktury

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

63

▲AR(1) correlation

▲�]), … , �] z jsou z AR(1) časové řady

▲N·c �]x , �]Ï � Ñ x(Ï

Page 64: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - shrnutí

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

64

▲GEE metoda vhodná pro regresní analýzu dat rozdělených do K

nezávislých skupin. Uvnitř skupin jsou data vzájemně korelovaná.

▲Není nutně přesně určit rozdělení dat Y, ani jejich rozptyl či

korelační strukturu uvnitř skupin.

▲Regresní parametry � mají „population-average“ interpretaci

Page 65: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE - shrnutí

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

65

▲GEE metoda není založena na věrohodnosti, pouze na kvazi-věrohodnosti. Pro analýzu modelu proto nelze použít statistiky na bázi věrohodnosti (tj. Deviance, AIC, BIC).

▲Existují analogické statistiky na bázi kvazi-věrohodnosti (QIC (Quasilikelihood under the Independencemodel Information Criterion), QICHH, CIC(Correlation Information Criterion), CICHH), více viz Hudecová&Pešta, , podrobněji Hardin&Hilbe. Je rovněž možné použít skorové testy. (dj-h)

▲ GEE – ilustrace▲Příklad: Vehicle Insurance Claims – DeJong, Heller: Logistická regrese s korelovanými pozorováními, longitudinální data,

navrhovaná korelační struktura AR(1).

▲Využití GEE metod pro rezervování škod. Možnost modelování závislosti vývoje škodních trojúhelníků v jednotlivých letech – viz. Hudecová&Pešta, Gerthofer

Page 66: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

66

LLLLineární smíšené modelyineární smíšené modelyineární smíšené modelyineární smíšené modely

LinearLinearLinearLinear MixedMixedMixedMixed ((((EffectEffectEffectEffect) ) ) ) ModelsModelsModelsModels

LMMLMMLMMLMM

Page 67: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

67

▲Odezvy �),…, �¥ splňují jednoúrovňový model LMM, pokud platí:▲� � &]�� � Ô][� � �, � � 1,… , ¦▲[�(náhodné efekty)…nezávislé vektory t.ž.[� ∼NÕ �,º , ▲ �… náhodné vektory, t.ž.: � ∼N z �, �8�" z ,▲&]… regresní matice pro pevné efekty ��▲Ô]… regresní matice pro náhodné efekty [�

▲pevná složka: &]��▲náhodná složka: Ô][� � �, � Ô][� � � � �, var Ô][� � � � Ô]ºÔ]Ö � �8�" z▲(neznámé) parametry modelu MLE: �, �8� a º (kovariantní matice, symetrická a pozitivně

definitní)▲Matice º se nahrazuje maticí Δ, t.ž. ΔÖΔ = �8�º()

Page 68: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LLM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

68

▲Odezvy �),…, �¥ splňují jednoúrovňový model LMM, pokud platí:▲� � &]�� � Ô][� � �, � � 1,… , ¦▲[�(náhodné efekty)…nezávislé vektory t.ž.[� ∼ NÕ �,º , ▲ �… náhodné vektory, t.ž.: � ∼N z �, �8�" z ,

▲Marginální tvar - alternativní zápis modelu LMM: Marginální tvar:▲� ∼N z &]�, �8�Σ] , kde Σ]���� Ô]ºÔ]Ö �8�u �" z

▲nebo

▲ ∼ N &�, �8�Σ

Page 69: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LLM – odhady parametrů

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

69

▲Marginální tvar modelu LMM:

▲� ∼ N z &]�, �8�Σ] , ▲ kde Σ]����Ô]ºÔ]Ö �8�u �" z modelu je funkcí parametrů � a G.

▲1. Marginální věrohodnost:

▲Logaritmická věrohodností funkce:v ��, G, �8�)

▲Minimalizujeme v ��, G, �8�) vzhledem k � pro dané G:

▲řešení metodou vážených nejmenších čtverců

▲řešení: �Ø G � ∑ &]'Ù()&] ¥]�)() ∑ &]ÖÙ()] ¥]�)

▲Minimalizujeme v ��Ø G , G, �8�) vzhledem k�8�pro dané G:

▲řešení: ��8� G � ) ∑ � 1 &]�Ø G 'Ù() � 1 &]�Ø G¥]�)

▲Maximalizujeme profilovou věrohodnost: v ∗ G � v ��Ø G , G, ��8� G ) přesG:

▲řešení: GØ▲Toto je však těžko řešitelné, aplikujeme jiný přístup využívající strukturu náhodných efektů a dekompozici věrohodnosti

Page 70: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LLM – odhady parametrů Hendersonovy rovnice pro smíšený model

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

70

▲Obecný tvar pro smíšený model:

▲ � &� � Ô[ � ▲kde [ ∼ NÕ∗ �,º∗ , Ú ∼ N �, Û∗ , N·b L, � � 0, Σ � bMc � � Ôº∗Ô'+Û∗.

▲jednoúrovňový model LMM je speciálním případem. Ü∗ � ¦Ü, o � ∑ o]¥]�) , …, Û∗= �8�" ▲Sdruženou hustotu �, L � D E, L; � � D E|L; � D L považujme za věrohodností funkci neznámých parametrů

�, L ,maximalizujeme současně přes � i L, odhady ��, LØ , jako řešení Hendersonových rovnic pro smíšený model

▲�� � �&'Ù()&�()�&'Ù()��▲LØ � º∗Ô'Ù()� 1 &���

Page 71: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LLM – odhady parametrů Hendersonovy rovnice pro smíšený model

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

71

▲Odhady regresních parametrů pomocí Hendersonových rovnic pro smíšený model:▲�� � �&'Ù()&�()�&'Ù()��▲LØ � º∗Ô'Ù()� 1 &���

▲Pro jednoúrovňový LMM model dostáváme

▲LØ � ºÔ]Ö�Ô]ºÔ]Ö ��8�" z�(k�� 1 &]���

▲�� je BLUE (nejlepší lineární nestranný odhad) a konzistentní odhad parametru � bez ohledu na rozdělení �▲LØje BLUP (nejlepší lineární nestranný prediktor) pro L.

Page 72: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

LLM – odhady parametrů Hendersonovy rovnice pro smíšený model

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

72

▲Odhady rozptylů regresních parametrů pomocí Hendersonových rovnic pro jednoúrovňový smíšený model:

▲bMc(�� )� ∑ &]'Ù�()&] ¥]�)()

▲bMc(L]# ) � ºÔ]Ö Ù�()1Ù�()&] ∑ &]'Ù�()&] ¥]�)()&]'Ù�() Ô] º

▲bMc(L]# - LØ)� º1 bMc(L]# )

▲Odhady rozptylů regresních parametrů lze řešit i pomocí REML metody (Restricted Maximum Likelihood Estimators), výsledky se mírně liší od věrohodnostních odhadů.

▲Pro velké počty nezávislých skupin ¦ je rozdíl zanedbatelný. Asymptoticky jsou výsledky shodné.

Page 73: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE x LMM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

73

▲LMM:▲poskytuje detailní model pro var Y

▲Předpokládá Normalitu L] a �]▲Poskytuje informaci o struktuře rozptylu

▲Dekompozice

▲Odhady složek rozptylu▲Náhodné efekty

▲Testy hypotéz o struktuře rozptylu

▲Pokud struktura rozptylu NENÍ dobře specifikovaná, závěry o pevných efektech ��testy, intervaly spolehlivosti) jsou NEPLATNÉ

▲Vyžaduje velké ¦ (počet subjektů, nezávislých skupin)

▲GEE:▲používá „pracovní model“ pro var Y, o kterém se však nepředpokládá, že je správný

▲Neklade žádný předpoklad o rozdělení Y

▲Neposkytuje dostatek informací o struktuře rozptylu

▲Pokud je ¦ (počet subjektů, nezávislých skupin) dost velké, závěry o �jsou platné i když pracovní struktura rozptylu není správná▲Vyžaduje velké ¦ (počet subjektů, nezávislých skupin), pro malé selhává

Page 74: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

74

ZobecnZobecnZobecnZobecněné lineární smíšené modelyné lineární smíšené modelyné lineární smíšené modelyné lineární smíšené modely

GeneralisedGeneralisedGeneralisedGeneralised LinearLinearLinearLinear MixedMixedMixedMixed ModelsModelsModelsModels

GLMMGLMMGLMMGLMM

Page 75: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLMM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

75

▲GLMM - další možnost jak analyzovat data, u nichž je porušen předpoklad nezávislosti / nekorelovanosti.

▲GLMM lze pohlížet jako na zobecnění Lineárních smíšených modelů (LMM), kdy rozšíříme skupinu rozdělení, z nichž pochází odezva/vysvětlovaná proměnná �.

▲GLMM lze pohlížet jako na zobecnění Zobecněných lineárních modelů GLM, kdy do modelu kromě pevných regresních parametrů � (fixed effects, pevné efekty), zavedeme další prvek náhodnosti pomocí náhodných efektů [ (random effects).

Page 76: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLMM - DEFINICE MODELU pro skupinově závislá data

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

76

▲1. Data:), … , ¥ nezávislé náhodné vektory ] � �]), … , �] z', � � 1…¦, ∑ o] � o§

¨�)

▲2. náhodné efekty: [�… nezávislé q-rozměrné vektory s hustotou Ý�L; Þ�

▲Složky �]), … , �] z vektoru ] jsou při daném [�podmíněně nezávislé, podmíněná hustota ∈ QRS

▲D E [� � IJKEßzÃ1L�ßzÃ�

e� N�E, ^�

▲3. G]x…kanonický parametr, závisí na:

▲�p-rozměrných� regresorech pro pevné efekty… �]x▲pevných regresních parametrech� ∈ P▲�q-rozměrných� regresorech pro náhodné efekty… Â]x, Ü á K▲náhodných efektechL] prostřednictvím

▲Lineárního prediktoru ��â��ªT� �Á�ª' [�▲4. w…linková funkce , platí w�a]x� � �]x

Page 77: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLMM - DEFINICE MODELU pro skupinově závislá data

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

77

▲Data:), … , ¥ nezávislé náhodné vektory ] � �]), … , �] z', � � 1…¦, ∑ o] � o§�)

▲Náhodné efekty: [�… nezávislé q-rozměrné vektory s hustotou Ý�L; Þ�▲Podmíněná hustota D E [� � IJK EßzÃ1L�ßzÃ�

e � N�E, ^�▲Lineární prediktor ��â��ªT� �Á�ª' [�▲Linková funkce w�a]x� � �]x▲� �]x|L] � a]x � L′ G]x � w()(�]x) = w()(�ª'� �Á�ª' [�) ▲bMc �]x|L] � ^L′′ G�â � ^g a]x

Page 78: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLMM - DEFINICE MODELU pro skupinově závislá data

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

78

▲Při daném [� , �]x podmíněně splňují GLM model,

▲podmíněná hustota D E [� ∈ QRS▲stejně jako LMM modelu, má zavedení náhodných efektů [� do všech lineárních

prediktorů za následek korelaci mezi �]), … , �] z .

▲ � �]x|L] = w()(�ª'� �Á�ª' [�) ▲ � �]x = � � �]x|L] = � w()(�ª'� �Á�ª' [�)

Page 79: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLMM – odhady parametrů

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

79

▲Vzhledem k předpokladu podmíněného rozdělení odezvy/závislých proměnných, je možné pro odhady parametrů použít metodu maximální věrohodnosti

▲Věrohodností funkce v �, ^ ��však nemá explicitní řešení

▲Je nutné řešit aproximačními metodami

▲ jedním z možných přístupů je použití Laplaceovy aproximace, která zjednoduší tvar věrohodnostní funkce a umožní odhady parametrů následujícím způsobem:

▲Odhad �: modifikovaný IWLS algoritmus

▲Odhad[�: Hendersonovy rovnice

▲Odhad φaH: momentová metoda

Page 80: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GLMM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

80

▲ podmíněný model:

▲ � �]x|L] = w()(�ª'��Á�ª' [�) ▲� vyjadřuje podmíněný efekt �ªna � �]x vzhledem k [�▲tzv: subject-specific efekty▲Popisují vliv na � �]x|L] , když daný subjekt/jedinec mění hodnotu �ª▲Parametry � obecně nemohou porovnat dva různé subjekty, které se liší v hodnotě�ª

▲marginální model:▲� �]x = � � �]x|L] = � w()(�ª'��Á�ª' [�)▲Nepodmíněný efekt �ªna � �]x vzhledem k [�▲tzv: population-average efekty▲� �]x obecně nesplňuje předpoklady GLM , parametry � (v podmíněném modelu) obecně nemají population-

average interpretaci.

Page 81: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

81

GEE x GLMMGEE x GLMMGEE x GLMMGEE x GLMM

Page 82: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE x GLMM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

82

▲ GLM analyzuje nezávislá data

▲ V případě korelovaných dat GLM nedávají dobré výsledky

▲ Řešením může být použití modelů GLMM nebo GEE, která pracují s korelovanými daty

▲ Jak zvolit mezi GLMM a GEE?▲ Dle požadované interpretace parametrů

Page 83: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE x GLMM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

83

▲GLMM: Conditional Model

▲GEE: Marginal Model

▲GLMM: Subject Specific interpretace:

▲GEE: Population Average interpretace

▲GLMM: regresní koeficienty se vztahují na každého jednotlivce (subjekt), nikoli však nutně na celou populaci,

▲GEE: regresní koeficienty se vztahují na celou populaci, nemusí však platit pro každého jednotlivce

▲GLMM odhaduje jiné parametr než GEE. Pokud oba modely mají stejnou linkovou funkci -> aspoň jeden model není správný (výjimky)

▲Pokud je GLMM dobrý model, obvykle je i GEE dobrý, má však výrazně odlišné odhady parametrů

Page 84: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

GEE x GLMM

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

84

▲GLMM odhaduje jiné parametr než GEE. Pokud oba modely mají stejnou linkovou funkci -> aspoň jeden model není správný (výjimky)

▲Pokud je GLMM dobrý model, obvykle je i GEE dobrý, má však výrazně odlišné odhady parametrů. ▲ log-lineární model: liší se pouze v absolutním členu (intercept)

▲ Logistický model: liší se i směrnice (slope)

▲GLMM: závislost modeluje pomocí náhodných efektů přidaných do GLM modelu

▲GEE: nepředpokládá žádné konkrétní rozdělení odezvy, stejně jako GLM vyžaduje specifikaci: linkové funkce a lineárního prediktoru. Místo konkrétního rozdělení proměnných však stačí specifikovat vztah mezi Střední hodnotou a kovariancí (analogie rozptylové funkce, v případě kvazivěrohodnosti v GLM), resp. Specifikovat „pracovní varianci“

▲GEE: závislostní struktura je modelována pomocí „pracovní“ kovarianční matice, která nemusí odpovídat skutečné závislosti. Doporučuje se používat jednoduchou korelační strukturu

Page 85: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REGRESNÍ MODELY

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

85

A CO DÁL?A CO DÁL?A CO DÁL?A CO DÁL?

Page 86: REGRESNÍ MODELY V POJIŠŤOVNICTVÍ

REFERENCE

SAV 2. 12 .2016 - Regresní modely v pojišťovnictví

86

▲ P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press, 2008.

▲ E. Ohlsson, B. Johansson: Non-Life Insurance Pricing with Generalized Linear Models. EAA Series, Springer-Verlag Berlin Heidelberg, 2010.

▲ W. N. Venables, B. D. Ripley: Modern Applied Statistics with S. 4th edition. Springer 2002

▲ S.Wood: Generalized Additive Models, An Introduction with R, Chapman & Hall/CRC Press, 2006

▲ C.E. McCulloch, S.R. Searle: Generalized, Linear, and Mixed Models. Wiley Series in Probability and Statistics, Wiley 2001

▲ J. W. Hardin, J. M. Hilbe: Generalized Estimating Equations. Chapman & Hall/CRC, 2003

▲ A. Agresti: An Introduction to Categorical Data Analysis. Wiley, 2007

▲ M. Branda: Zobecněné lineární modely v pojišťovnictví. MFF UK 2013

▲ Š. Hudecová, M. Pešta: Modeling Dependencies in Claims Reserving with GEE. MFF UK 2003

▲ M. Gerthofer: Claims reserving within the panel data Framework. MFF UK 2015, diplomová práce

▲ Poznámky k přednášce: Pokročilé regresní modely / Advanced Regression Models (NMST432), 2015, MFF UK, přednášející Doc. Mgr. Michal Kulich, Ph.D.

▲ Poznámky k přednášce: Matematika neživotního pojištění (NMFM402), 2014, MFF UK, přednášející RNDr. Lucie Mazurová, Ph.D.

▲ Poznámky k přednášce: Vybraný software pro finance a pojišťovnictví / Selected Software Tools for Finance and Insurance (NMFM404), 2014, MFF UK, přednášející RNDr. Michal Pešta, Ph.D.

▲ Poznámky ze semináře České společnosti aktuárů: Zobecněné lineární modely (GLM) v pojišťovnictví, 2012, přednášející Ing. Pavel Zimmernann, Ph.D.

▲ Poznámky ze semináře České společnosti aktuárů: Aplikované modely storen, 2015,

▲ https://onlinecourses.science.psu.edu/statprogram/stat504 - Analysis of Discrete Data