l'utilisation des splines bidimensionnels pour l

23
- 1 - L'utilisation des splines bidimensionnels pour l’estimation de lois de maintien en arrĂȘt de travail FrĂ©dĂ©ric PLANCHET ∗ Pascal WINTER α ISFA – UniversitĂ© Lyon 1 ÎČ Winter & AssociĂ©s Îł RESUME L’objectif de ce travail est de proposer un modĂšle d’ajustement paramĂ©trique bi-dimensionnel pour des lois de maintien en incapacitĂ© de travail. La mĂ©thode proposĂ©e s’appuie sur des splines en dimension 2 ; elle est appliquĂ©e Ă  un portefeuille rĂ©el, et le barĂšme de provisionnement qui en rĂ©sulte est comparĂ© au barĂšme de rĂ©fĂ©rence du BCAC. MOTS-CLEFS : ArrĂȘt de travail, Kaplan-Meier, splines, estimation. ABSTRACT The aim of this paper is to propose an operational two-dimensional parametric adjustment for laws of maintenance in disability. The method suggested rests on splines in dimension 2; it is applied to a real data set, and the scale of reserving which results from it is compared with the scale of reference of the BCAC. KEYWORDS : Disability, Kaplan-Meier, splines, estimation. ∗ FrĂ©dĂ©ric Planchet est professeur associĂ© de Finance et d’Assurance Ă  l’ISFA (UniversitĂ© Lyon 1 – France) et actuaire associĂ© chez Winter & AssociĂ©s. Contact : [email protected]. α Pascal Winter est Ă©tudiant Ă  l’ISFA. Contact : [email protected]. ÎČ Institut de Science FinanciĂšre et d’Assurances (ISFA) - 50, avenue Tony Garnier 69366 Lyon Cedex 07. Îł Winter & AssociĂ©s - 9, rue Beaujon 75008 Paris et 18, avenue FĂ©lix Faure 69007 Lyon.

Upload: others

Post on 01-Dec-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

- 1 -

L'utilisation des splines bidimensionnels pour l’estimation de lois de maintien en arrĂȘt de travail

FrĂ©dĂ©ric PLANCHET∗ Pascal WINTERα

ISFA – UniversitĂ© Lyon 1 ÎČ Winter & AssociĂ©s Îł

RESUME

L’objectif de ce travail est de proposer un modĂšle d’ajustement paramĂ©trique bi-dimensionnel pour des lois de maintien en incapacitĂ© de travail. La mĂ©thode proposĂ©e s’appuie sur des splines en dimension 2 ; elle est appliquĂ©e Ă  un portefeuille rĂ©el, et le barĂšme de provisionnement qui en rĂ©sulte est comparĂ© au barĂšme de rĂ©fĂ©rence du BCAC.

MOTS-CLEFS : ArrĂȘt de travail, Kaplan-Meier, splines, estimation.

ABSTRACT

The aim of this paper is to propose an operational two-dimensional parametric adjustment for laws of maintenance in disability. The method suggested rests on splines in dimension 2; it is applied to a real data set, and the scale of reserving which results from it is compared with the scale of reference of the BCAC.

KEYWORDS : Disability, Kaplan-Meier, splines, estimation.

∗ FrĂ©dĂ©ric Planchet est professeur associĂ© de Finance et d’Assurance Ă  l’ISFA (UniversitĂ© Lyon 1 – France) et

actuaire associĂ© chez Winter & AssociĂ©s. Contact : [email protected]. α Pascal Winter est Ă©tudiant Ă  l’ISFA. Contact : [email protected]. ÎČ Institut de Science FinanciĂšre et d’Assurances (ISFA) - 50, avenue Tony Garnier 69366 Lyon Cedex 07. Îł Winter & AssociĂ©s - 9, rue Beaujon 75008 Paris et 18, avenue FĂ©lix Faure 69007 Lyon.

- 2 -

1. Introduction L’estimation de lois de maintien d’expĂ©rience en arrĂȘt de travail constitue un prĂ©-requis incontournable pour l’évaluation de provisions mathĂ©matiques sur des portefeuilles dont le comportement diffĂšre a priori de la norme proposĂ©e par le BCAC (cf. l’article A335-1 du Code des Assurances). L’expĂ©rience montre que le taux de sortie de l’arrĂȘt de travail dĂ©pend notamment, Ă  population fixĂ©e, de l’ñge au dĂ©but de l’arrĂȘt et de l’anciennetĂ© de cet arrĂȘt. Cette observation conduit Ă  Ă©laborer des tables doublement indicĂ©es, par l’ñge Ă  l’entrĂ©e d’une part et par l’anciennetĂ© d’autre part. C’est ce type de prĂ©sentation qui est par exemple retenu par le BCAC dans les tables rĂ©glementaires qu’il propose. Cependant, les mĂ©thodes statistiques couramment utilisĂ©es pour construire des lois de maintien sont essentiellement mono-dimensionnelles : c’est ainsi le cas pour l’estimation des taux bruts via l’estimateur de Kaplan-Meier, qui est Ă  certains Ă©gards le meilleur en prĂ©sence de censure (cf. DROESBEKE et al. [1989]), et Ă©galement pour les mĂ©thodes d’ajustement paramĂ©trique classiques, de type Makeham, logit ou splines (cf. PLANCHET [2004]). En ce qui concerne l’estimation des taux bruts, des travaux s’intĂ©ressent Ă  la gĂ©nĂ©ralisation de l’estimateur de Kaplan-Meier en dimension supĂ©rieure Ă  un ; plus prĂ©cisĂ©ment, ces travaux concernent l’estimation de Kaplan-Meier en prĂ©sence d’hĂ©tĂ©rogĂ©nĂ©itĂ© (cf. XIE et LIU [2000]). L’estimation des taux bruts pour chaque Ăąge Ă  l’entrĂ©e par Kaplan-Meier classique reste toutefois actuellement la mĂ©thode la plus robuste pour produire les taux bruts. Au surplus, la perte d’information que reprĂ©sente la non prise en compte de la loi conjointe selon les deux dimensions du problĂšme est faible et peu pĂ©nalisante en pratique. Lorsque l’on souhaite ajuster les taux bruts ainsi obtenus (voir par exemple LONDON [1985] pour les motivations d’un ajustement), l’approche usuelle consistant Ă  « recoller » des tables uni-dimensionnelles construites pour chaque Ăąge Ă  l’entrĂ©e possible (dĂ©crite par exemple dans GAUMET [2001]) rend dĂ©licate la prise en compte de la dynamique des taux de sortie en fonction de l’ñge Ă  l’entrĂ©e. ParallĂšlement, des approches dĂ©veloppĂ©es depuis quelques annĂ©es dans le cadre de la dĂ©termination de tables de mortalitĂ© prospectives proposent des modĂšles naturellement bi-dimensionnels : il s’agit notamment du modĂšle de Lee-Carter (cf. LEE et CARTER [1992] et LEE [2000]) et de ses variantes de type log-Poisson proposĂ©es par BROUHNS et al. [2002], ou d’autres approches comme les modĂšles de type gĂ©ostatistique de DEBON et al. [2004]. Dans le but de construire des tables de maintien en arrĂȘt de travail avec des mĂ©thodes bi-dimensionnelles, a priori mieux adaptĂ©es au contexte que l’approche usuelle rappelĂ©e ci-dessus, on peut tenter d’adapter les modĂšles de type Lee-Carter au contexte de l’arrĂȘt de travail, en faisant jouer Ă  l’ñge le rĂŽle de l’anciennetĂ© et Ă  l’annĂ©e calendaire le rĂŽle de l’ñge Ă  l’entrĂ©e. Toutefois les travaux de LELIEUR [2005] montrent que dĂšs lors que l’on sort du contexte de trĂšs grands Ă©chantillons dans lesquels ces mĂ©thodes ont Ă©tĂ© dĂ©veloppĂ©es pour travailler sur des portefeuilles nĂ©cessairement de taille plus rĂ©duite, une instabilitĂ© des coefficients liĂ©es aux fluctuations d’échantillonnage et Ă  une certaine « sur-paramĂ©trisation » apparaĂźt et rend ces

- 3 -

modĂšles inopĂ©rants, ou du moins peu efficaces. Cette difficultĂ© est contournĂ©e dans le cas de la mortalitĂ© en rĂ©duisant le nombre de paramĂštres du modĂšle au travers d’une spĂ©cification de la forme fonctionnelle de la dĂ©pendance en fonction de l’ñge et de l’annĂ©e des coefficients concernĂ©s (cf. LELIEUR [2005]). La transposition au cas de l’arrĂȘt de travail, effectuĂ©e par WINTER [2005], s’avĂšre globalement peu satisfaisante, les modĂšles de Lee-Carter ou log-Poisson s’avĂ©rant peu Ă  mĂȘme de bien prendre en compte la forme particuliĂšre des taux de sortie pour ce risque. L’objectif du prĂ©sent travail est de prĂ©senter une nouvelle mĂ©thode utilisant les splines en dimension 2. L’utilisation des splines dimension 2 est initialement nĂ©e dans le contexte d’applications industrielles, et est devenu une mĂ©thode classique dans ce domaine : on pourra notamment consulter RISLER [1991] et DE BOOR [1978]. On pourra se reporter Ă  BESSE et CARDOT [2001] pour une synthĂšse des mĂ©thodes statistiques de lissage dans les espaces fonctionnels. L’utilisation de splines bi-dimensionnels dans le domaine de la construction de lois de maintien constitue une innovation, mĂȘme si en dimension un il s’agit d’un outil souvent utilisĂ©. AprĂšs avoir exposĂ© l’approche par splines, on prĂ©sente une application sur le cas d’un portefeuille d’arrĂȘt de travail pour le risque incapacitĂ© ; l’application Ă  la construction d’un barĂšme de provisionnement de ce risque est ensuite prĂ©sentĂ©e. Le prĂ©sent travail est inspirĂ© d’un travail de recherche effectuĂ© dans le cadre de l’Institut de Science FinanciĂšre et d’Assurances de l’UniversitĂ© Lyon 1 par WINTER [2005]. 2. L’ajustement par splines 2.1. PrĂ©sentation gĂ©nĂ©rale L’ajustement Ă  une loi continue suppose implicitement que la courbe des taux de sortie peut ĂȘtre reprĂ©sentĂ©e sur toute la plage d’anciennetĂ© considĂ©rĂ©e par une seule fonction paramĂ©trique. En pratique, du fait par exemple de ruptures dans l’évolution des taux bruts, cette condition apparaĂźt assez restrictive dĂšs lors que l’on veut rester dans le cadre d’une fonction « simple ». L’idĂ©e du lissage par splines est de dĂ©couper la plage de la fonction Ă  ajuster en sous-intervalles, puis d’ajuster sur chaque sous-intervalle une fonction simple, en prenant des prĂ©cautions pour le raccordement aux points de jonction. Un dĂ©coupage bien choisi doit en effet permettre d’utiliser sur chaque sous-intervalle une fonction sensiblement plus simple que la fonction qu’il aurait fallu ajuster globalement. Les polynĂŽmes sont des fonctions simples et peuvent Ă  ce titre ĂȘtre utilisĂ©s pour construire des lissages par spline ; en pratique, on considĂšre en gĂ©nĂ©ral des polynĂŽmes de degrĂ© 3 qui vont nous permettre de construire des splines cubiques. Le raccordement de ces arcs se fera en imposant aux points de jonction la continuitĂ© ainsi que l’égalitĂ© des pentes et des courbures. La formalisation mathĂ©matique de cette approche en dimension un est relativement simple ; toutefois, en dimension deux elle s’avĂšre un peu plus dĂ©licate et nĂ©cessite un minimum de formalisme, dĂ©taillĂ© ci-aprĂšs.

- 4 -

On peut simplement retenir que l’idĂ©e est de fixer arbitrairement des nƓuds pour subdiviser la surface Ă  ajuster surface en zones. Ensuite, on ajuste un polynĂŽme de degrĂ© 3 (en dimension 2) Ă  chaque subdivision, en utilisant un critĂšre de type moindres carrĂ©s. Enfin, pour des raisons Ă©videntes de continuitĂ© et de rĂ©gularitĂ©, ce « patchwork » de polynĂŽmes de degrĂ© 3 est contraint Ă  ĂȘtre de classe 2C (ou 1C ). 2.2. Mise en Ɠuvre dans le cas de lois de maintien bi-dimensionnelles Soit ),( xtP un polynĂŽme de degrĂ© n en fonction de t et x. Il est entiĂšrement dĂ©fini par la

donnée de 21)( +n paramÚtres :

∑

∈

=20 nji

jiij xtaxtP,,),(

),(K

, (1 )

On note à présent 20 njiijaA

,,),()(

K∈= la matrice des coefficients du polynÎme ),( xtP . On

note Ă©galement ⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

=n

n

t

T M

1 et

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

=n

n

x

X M

1 et

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

−1

10

n

n

nx

XM

' le vecteur dérivé terme à terme. On

obtient ainsi la représentation matricielle du polynÎme :

),(.. xtPXAT nn =τ . (2 ) 2.2.1. Calculs prĂ©liminaires

Les conditions de régularité nécessitent le calcul des dérivées partielles premiÚres et secondes de ),( xtP . On obtient aisément :

∑

∑∑

∑∑

∈

−−

∈

−

∈

−

∈

−

∈

−

=∂∂

∂

−=∂

∂−=

∂

∂

=∂∂

=∂∂

nnji

jiij

nnji

jiij

nnji

jiij

nnji

jiij

nnji

jiij

xtijaxtxtP

xtajjxtx

Pxtaiixt

t

P

xtjaxtxP

xtiaxttP

,,*,,),(

,,*,,),(,,*,,),(

,,*,,),(,,*,,),(

),(

)(),()(),(

),(),(

KK

KKKK

KKKK

11

112

20

22

2

02

22

210

1

01

1

11

(3 )

Les deux premiĂšres sommes comportent )( 1+nn termes, les deux suivantes ))(( 11 +− nn et la derniĂšre 2n termes. Ces expressions s’écrivent simplement sous forme matricielle :

- 5 -

nn

nnnn

nnnn

XATxtxtP

XATxtx

PXATxtt

P

XATxtxPXATxt

tP

â€Čâ€Č=∂∂

∂

â€Čâ€Č=∂

∂â€Čâ€Č=∂

∂

â€Č=∂∂â€Č=

∂∂

..),(

..),(..),(

..),(..),(

τ2

τ2

2τ

2

2

ττ

(4 )

2.2.2. NƓuds On appelle nƓuds les points intĂ©rieurs de la table choisis pour dĂ©finir les zones sur lesquelles un unique polynĂŽme va ĂȘtre appliquĂ©. Ces points doivent choisis aussi judicieusement que possible, en fonction de la forme et l’allure gĂ©nĂ©rale de la surface Ă  reprĂ©senter. Par ailleurs, le choix du nombre de nƓuds influe grandement sur les rĂ©sultats obtenus. Un faible nombre de nƓuds conduit Ă  un lissage peu fidĂšle, un nombre Ă©levĂ© engendre quand Ă  lui un lissage trop fidĂšle et donc irrĂ©gulier. Pour plus de simplicitĂ©, on ne dĂ©finit ici que des droites horizontales et verticales, distinctes des bords de la table. Les intersections de ces droites forment alors les nƓuds. Si on dĂ©finit h droites horizontales, et v droites verticales, on obtient hv nƓuds, et la table est subdivisĂ©e en ))(( 11 ++ vh parties. On indice alors ces parties avec hk ,,K0= et

vl ,,K0= , ce qui conduit Ă  ))(( 11 ++ vh polynĂŽmes Ă  estimer et Ă  recoller. Dans notre problĂ©matique d’ajustement, la fonction brute est connue et donc reprĂ©sentable graphiquement. Une maniĂšre de choisir les nƓuds est alors l’analyse prĂ©alable des donnĂ©es brutes. Les grandes tendances pourront ĂȘtre conservĂ©es avec un maillage Ă©pais ; nĂ©anmoins, certaines irrĂ©gularitĂ©s (les pics en particulier) seront effacĂ©es. Pour Ă©viter ceci, il faut encadrer ces irrĂ©gularitĂ©s par la plus petite maille possible. Une approche possible est donc de considĂ©rer que plus la variation de la fonction Ă  ajuster est brutale, plus le maillage doit ĂȘtre petit si l’on veut conserver ces variations. DE BOOR [1978] signale un point sensible : si une irrĂ©gularitĂ© se prĂ©sente diagonalement par rapport aux composantes, les nƓuds scindant la surface brute en rectangles peuvent ne pas ĂȘtre adaptĂ©s. On peut alors considĂ©rer un dĂ©coupage de la surface Ă  lisser en triangles. Cette approche empirique de dĂ©termination des nƓuds peut ĂȘtre remplacĂ©e par une approche de sĂ©lection automatisĂ©e. Dans la prĂ©sente Ă©tude, le choix des nƓuds est rĂ©alisĂ© automatiquement par l’algorithme d’optimisation retenu (cf. infra). Le critĂšre s’appuie sur un rĂ©sultat prouvĂ© par DE BOOR et FIX [1973] fournissant une majoration de la distance entre la fonction spline et la fonction Ă  ajuster. Cette inĂ©galitĂ© permet alors de dĂ©finir un critĂšre de choix d’un jeu de nƓuds efficace en recherchant la stratĂ©gie qui minimise la majoration. Le dĂ©tail de l’approche est dĂ©crit dans DE BOOR et FIX [1973].

- 6 -

2.2.3. Conditions Limites Pour des raisons de continuitĂ©, le raccordement entre les splines est soumis Ă  des contraintes sur les dĂ©rivĂ©s des polynĂŽmes. Rappelons que dans la reprĂ©sentation matricielle du problĂšme chaque ligne reprĂ©sente une anciennetĂ©, chaque colonne un Ăąge. Contraintes horizontales : anciennetĂ© fixe Si 1P et 2P sont adjacents horizontalement, alors leurs valeurs et leurs dĂ©rivĂ©es partielles premiĂšres et secondes en fonction de t doivent ĂȘtre Ă©gale, ceci pour tout Ăąge variant sur l’ensemble de dĂ©finition induit par le spline. En notant )( , jia et )( , jib les paramĂštres des splines adjacents, ces contraintes s’écrivent :

∑∑∑∑= == =

=n

j

n

i

jiij

n

j

n

i

jiij xtbxta

0 00 0, (5 )

et

∑∑∑∑= =

−

= =

− =n

j

n

i

jiij

n

j

n

i

jiij xtibxtia

0 1

1

0 1

1 . (6 )

avec t fixĂ© et pour tout x variant dans l’ensemble de dĂ©finition du spline. Cela conduit Ă  Ă©crire :

00 0

=−∑ ∑= =

n

j

n

i

iijij

j tbax )(

),,()(,,)( 00000

KK =−⇔=∀=−⇔ τ

=∑ BATnjtba n

n

i

iijij

,

(7 )

et

00 1

1 =−∑ ∑= =

−n

j

n

i

iijij

j itbax )(

),,()(,,)( 00001

KK =−â€Č⇔=∀=−⇔ τ

=∑ BATnjitba n

n

i

iijij

(8 )

Si 0≠t , ces Ă©quations forment un systĂšme libre de )( 12 +n Ă©quations avec

212 )( +n paramĂštres. Contraintes verticales : Ăąge fixe De mĂȘme, si 1P et 2P sont adjacents horizontalement, alors leurs valeurs et leurs dĂ©rivĂ©es partielles premiĂšres et secondes en fonction de x doivent ĂȘtre Ă©gale, ceci pour toute anciennetĂ©

- 7 -

variant sur l’ensemble de dĂ©finition induit par le spline. Avec un raisonnement similaire Ă  celui dĂ©crit supra, on obtient le systĂšme :

),,()(,,)( 00000

KK τ

==−⇔=∀=−∑ n

n

j

jijij XBAnixba

),,()(,,)( 00001

KK τ

==â€Č−⇔=∀=−∑ n

n

j

jijij XBAnijtba

(9 )

Contraintes aux nƓuds : Ăąge et anciennetĂ© fixes On cumule les deux contraintes prĂ©cĂ©dentes. Par ailleurs, en un nƓud, il se trouve non plus deux mais quatre polynĂŽmes adjacents. Contraintes en bord de table En bord de table, il n’y a pas de contraintes de rĂ©gularitĂ©, puisque le polynĂŽme n’est pas raccordĂ© Ă  un autre. 2.2.4. Choix du critĂšre d’optimisation On combine un critĂšre de fidĂ©litĂ© et un critĂšre de rĂ©gularitĂ©, comme dĂ©crit supra. CritĂšre de fidĂ©litĂ© Ici, SP reprĂ©sente la surface des splines raccordĂ©s. Les polynĂŽmes ajustĂ©s doivent ĂȘtre le plus fidĂšle possible Ă  la surface brute. Pour ceci, on utilise un critĂšre des moindres carrĂ©s pour chaque spline :

( )∑∑ −ωx t

txtx qxtSP 2,, ),( (10 )

oĂč tx,ω est le poids associĂ© au point txq , . Notons que la sommation doit inclure les bornes, c'est-Ă -dire les points se trouvant sur les droites dĂ©finissant l’emplacement des nƓuds. CritĂšre de rĂ©gularitĂ© Comme dans le lissage de Whitaker-Henderson, on introduit un critĂšre permettant de contrĂŽler la rĂ©gularitĂ© du spline. La fidĂ©litĂ© Ă  elle seule n’est pas suffisante pour l’obtention d’une courbe rĂ©guliĂšre. En effet, outre le choix du nombre de nƓuds, plus une courbe est fidĂšle aux donnĂ©es brutes, moins elle sera rĂ©guliĂšre. Le meilleur moyen de contrĂŽler la rĂ©gularitĂ© est de minimiser la dĂ©rivĂ©e seconde des polynĂŽmes. Avec la norme 2L , cette contrainte s’écrit :

dsdyysPDys∫∫ λ22 ),(),( (11 )

- 8 -

oĂč ),( txλ est une fonction continue par morceau, valant le poids associĂ© au point txq , pour la

rĂ©gularitĂ© et ),( ysPD2 la matrice Hessienne1 de la fonction polynomiale par morceau calculĂ© au point ),( ys . 2.2.5. RĂ©solution Le systĂšme Ă  rĂ©soudre combine finalement la fidĂ©litĂ© aux donnĂ©es brutes, la rĂ©gularitĂ© de la surface ajustĂ©e et les contraintes aux nƓuds. On combine les deux premiĂšres contraintes pour former la fonction Ă  minimiser. La troisiĂšme constituera les contraintes du problĂšme d’optimisation. On obtient alors le critĂšre d’optimisation suivant :

( ) dsdyysPDysqxtSPx t

txtx ∫∫∑∑ λα−+−ωα222 1 ),(),()(),( ,, (12 )

Le paramĂštre [ ]10,∈α permet de privilĂ©gier soit la rĂ©gularitĂ©, soit la fidĂ©litĂ©. Les contraintes aux nƓuds s’expriment sous la forme du systĂšme linĂ©aire suivant :

[ ] [ ]

âŽȘâŽȘâŽȘ

⎩

âŽȘâŽȘâŽȘ

⎚

⎧

=â€Č−

=−

=−â€Č

=−

×∈∀

−

−

−

−

),,().().(

),,().().(

),,()).((

),,()).((

,,),(

*,,,

*,,,

,,*

,

,,*

,

00

00

00

00

11

τ1

τ1

1τ

1τ

K

K

K

K

lknlklk

lknlklk

lklklkn

lklklkn

xXPP

xXPP

PPtT

PPtT

vhlk (13 )

oĂč lkP , reprĂ©sente la matrice des coefficients du polynĂŽme lkP , . Les points *,lkt et *

,lkx reprĂ©sentent les abscisses et ordonnĂ©es du nƓud correspondant Ă  l’intersection de la (k-1) Ăšme droite verticale et de la (l-1) Ăšme droite horizontale (rappelons que les droite sont indicĂ©es de 1 Ă  k (resp. 1 Ă  l), et qu’elles sont distinctes des bords ; on a donc ))(( 22 ++ vh nƓuds). Pour des polynĂŽmes de degrĂ© n, on a alors )( 14 +nhv Ă©quations pour ))()(( 111 +++ nvh paramĂštres. Ce systĂšme dĂ©crit une condition de rĂ©gularitĂ© 1C pour la PP-Surface estimĂ©e. Il est facilement gĂ©nĂ©ralisable Ă  une condition 2C : il faut alors ajouter 2 Ă©quations aux contraintes prĂ©sentĂ©es ci-dessus :

),,()).(( ,,*

, 001τ K=−â€Čâ€Č − lklklkn PPtT et ),,().().( *

,,, 00τ1 K=â€Čâ€Č− − lknlklk xXPP (14 )

C’est ce qui sera retenu dans la suite. 1 Il s’agit de la matrice carrĂ©e composĂ©e des dĂ©rivĂ©es secondes de P.

- 9 -

2.3. L’approche de DE BOOR [1978] En pratique l’introduction simplifiĂ©e ci-dessus est formalisĂ©e au travers des B-splines, qui fournissent un cadre de travail particuliĂšrement bien adaptĂ© pour la description des problĂšmes d’ajustement Ă  des fonctions splines. Dans son ouvrage sur les splines, DE BOOR dĂ©taille ce cadre de travail. Les deux notions principales sont la diffĂ©rence divisĂ©e k Ăšme et les B-splines, qui permettent d’exprimer les « pp functions » (piecewise polynomial functions). La gĂ©nĂ©ralisation de l’approche en dimension deux se fait dans un second temps Ă  l’aide des produits tensoriels. Le problĂšme traitĂ© ici est suffisamment simple pour se passer de ce formalisme, toutefois indispensable pour des questions plus complexes. 3. Application Afin d’illustrer la pertinence de la mĂ©thode proposĂ©e, nous l’avons mise en Ɠuvre sur un portefeuille, dans l’optique de proposer une table d’expĂ©rience certifiable. Les aspects en lien avec la certification, et notamment la justification du caractĂšre prudent de la table d’expĂ©rience obtenue, ne sont pas abordĂ©s ici, notre objectif Ă©tant d’illustrer les Ă©tapes de la mise en Ɠuvre des splines. Le lecteur intĂ©ressĂ© par ces aspects pourra se reporter Ă  PLANCHET [2004]. 3.1. PrĂ©sentation des donnĂ©es La constitution de la base de donnĂ©es constitue en soi un travail dĂ©licat et dĂ©cisif, car il conditionne la qualitĂ© et la robustesse des estimations effectuĂ©es ensuite ; cette Ă©tape n’est pas abordĂ©e ici, et nous nous contentons de fournir un bref descriptif des donnĂ©es brutes aprĂšs mise en forme. Le portefeuille utilisĂ© contient environ 170 000 arrĂȘts, observĂ©s sur quatre ans. Il s’agit d’arrĂȘts d’une durĂ©e supĂ©rieure Ă  onze jours, du fait des dispositions de la convention collective concernĂ©e. Dans la suite on Ă©tudiera donc des lois conditionnelles au fait que la durĂ©e de l’arrĂȘt est supĂ©rieure (strictement) Ă  10 jours. Les donnĂ©es sont Ă©galement partiellement censurĂ©es Ă  droite, mais le taux de censure reste faible (et systĂ©matiquement infĂ©rieur Ă  10%). L’information transmise permet d’effectuer les calcul de Kaplan-Meier avec un pas quotidien. Au global l’étude porte sur environ 615 000 arrĂȘts, dont 22 500 censurĂ©s Ă  droite, soit 3,7% de l’effectif. La moyenne globale de l’échantillon n’est pas estimable aisĂ©ment, Ă  cause de la prĂ©sence des censures. Cependant, la durĂ©e moyenne d’arrĂȘt pour les individus non censurĂ©s est de 88 jours (plus 10 jours de troncature droite si on les compte depuis le dĂ©but) et l’écart-type de 176 jours. De mĂȘme, la durĂ©e moyenne d’observation pour les individus censurĂ©s est de 328 jours avec 10 jours en option, et l’écart type vaut 284 jours.

- 10 -

On porte une attention particuliĂšre aux grandeurs suivantes, calculĂ©es Ăąge par Ăąge : effectifs d’arrĂȘts observĂ©s, proportions d’arrĂȘts non censurĂ©s (rapportĂ©es sur les effectifs globaux) et nombre d’arrĂȘts ayant une durĂ©e supĂ©rieure Ă  1095 jours ; on obtient le graphe suivant :

Fig. 1 : Analyse du nombre d’arrĂȘt en fonction de l’ñge Ă  l’entrĂ©e

3.2. Estimation des taux bruts L’estimateur de Kaplan-Meier est calculĂ© Ăąge par Ăąge :

∏≀

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛−=∈∀

tT ix

ixx

iTnTd

tSAncMaxAncMint)()(

)(ˆ,, 1KK (15 )

avec )(tnx l’échantillon sous risque Ă  l’ñge x juste avant le jour t et )(tdx le nombre de sorties d’incapacitĂ© pour l’ñge x et l’instant iT (par reprise d’activitĂ©, passage en invaliditĂ©, dĂ©cĂšs ou fin de garanties). En pratique, l’estimateur de Kaplan Meier donne lieu Ă  un calcul que lorsqu’une personne sort de l’état ( iT ). Par ailleurs, en toute rigueur, il n’y a pas d’ex aequo, car la probabilitĂ© que deux personnes sortent exactement au mĂȘme instant est nulle presque sĂ»rement. NĂ©anmoins, comme les observations dont nous disposons sont volumineuses, et que, la durĂ©e des arrĂȘts est comptĂ©e en jours (observations discrĂštes), on est confrontĂ© Ă  la prĂ©sence d’ex aequo. On utilise donc la formule approchĂ©e suivante :

∏=

⎟⎟⎠

⎞⎜⎜⎝

⎛−=∈∀

t

AncMini x

xx in

idtSAncMaxAncMint )(

)()(ˆ 1KK (16 )

- 11 -

On obtient ainsi une estimation de la fonction de survie journaliÚre pour tous les ùges, présentée ci-aprÚs :

Fig. 2 : Taux de sortie d’incapacitĂ© bruts (Kaplan-Meier)

On observe que les taux bruts sont trĂšs erratiques, le choix d’une unitĂ© de temps petite (le jour) accentuant encore cette variabilitĂ©. Une analyse de la variance donnĂ©e par l’estimateur de Greenwood2 nous permet de conclure que les Ăąges 61, 62, 63 et 64 sont trĂšs volatils, les Ăąges 22, 23, 24 sont trĂšs volatils, surtout lorsque l’anciennetĂ© est Ă©levĂ©e et que la croissance du logarithme de la variance est constante pour les grands Ăąges, alors que sur les Ăąges faibles, la courbe croit beaucoup au dĂ©but pour ensuite se stabiliser :

2 L’expression utilisĂ©e est ∑=

−=

t

AncMini xxxx

xx idininid

tStSVar ))()()(()(

)(ˆ)(ˆ 2 .

- 12 -

Fig. 3 : Estimateur de Greenwood de la variance

On considĂ©rera donc par la suite les Ăąges d’entrĂ©e allant de 25 jusqu'Ă  60 ans, on considĂ©rant que ceux-ci sont stables. Les taux de sortie pour les Ăąges en dehors de cette plage pourront ĂȘtre ensuite dĂ©terminĂ©s par extrapolation (cf. infra). 3.3. Ajustement par splines 3.3.1. PrĂ©sentation des rĂ©sultats Il faut noter ici que si les calculs ne posent pas de problĂšme numĂ©rique particulier, ils dĂ©passent les capacitĂ©s d’un simple outil bureautique tel qu’Excel et nĂ©cessitent le recours Ă  des logiciels plus performants. La dĂ©termination des paramĂštres de l’ajustement a Ă©tĂ© effectuĂ©e dans le prĂ©sent travail en utilisant la librairie « spline » proposĂ©e par MatLab. Cette librairie s’appuie sur les algorithmes prĂ©sentĂ©s dans DE BOOR [1978]. La matrice des poids Ω est construite Ă  l’aide des effectifs sous risques initiaux : pour chaque Ăąge, le coefficient de pondĂ©ration est proportionnel Ă  l’effectif. La fonction λ est prise constante Ă©gale Ă  l’unitĂ©. Enfin, le coefficient α vaut 0.001. Ce coefficient a Ă©tĂ© dĂ©terminĂ© expĂ©rimentalement aprĂšs diffĂ©rentes tentative. Il apparaĂźt comme le meilleurs compromis entre fidĂ©litĂ© et rĂ©gularitĂ© sur la base de nos donnĂ©es. On obtient ainsi les taux suivants :

- 13 -

Fig. 4 : Taux de sortie d’incapacitĂ© en fonction de l’ñge Ă  l’entrĂ©e et de l’anciennetĂ©

On constate notamment Ă  l’examen du graphe ci-dessus une « pliure » Ă  6 mois, ainsi que des vaguelettes pour certaines anciennetĂ©s ; ceci est la consĂ©quence que les durĂ©es des arrĂȘts ne prennent en pratique pas toutes les valeurs possibles exprimĂ©es en jours, les prescripteurs d’arrĂȘt ayant tendance Ă  arrondir les durĂ©es dans une unitĂ© plus en phase avec la durĂ©e de l’arrĂȘt (la semaine par exemple). La surface est bien entendu trĂšs rĂ©guliĂšre : elle est par construction de classe 2C . Son expression paramĂ©trique est relativement lourde, mais reste manipulable simplement dans des outils informatiques, par exemple pour calculer des provisions. 3.3.2. Test de la validitĂ© du modĂšle La validitĂ© du modĂšle est testĂ©e au travers d’une version ad hoc du test du Chi2. On effectue des regroupements sur les Ăąges et sur les anciennetĂ©s, pour obtenir des classes bidimensionnelles. Le test du Chi2 reste valable dans ce contexte puisque la somme de deux variables indĂ©pendantes avec une distribution du Chi2 est une variable Chi2, de degrĂ© de libertĂ© la somme des degrĂ©s de libertĂ©. On obtient alors la statistique :

∑∑= =

−=

l

x

k

t tx

txtxlk D

DDW

1 1

2

* * **,

**,**,, ~

)~( (17 )

- 14 -

avec txD , le nombre observĂ© d’individus sortis entre +t et 1+t et txD ,~ le nombre d’individus

sortis entre +t et 1+t prĂ©vu par le modĂšle. On peut montrer que si ∞→0,xL , alors lkW , est

asymptotiquement distribuĂ© comme une variable 22−+χ lk . D’oĂč le test consistant Ă  rejeter

l’adĂ©quation des donnĂ©es brutes Ă  notre ajustement si la rĂ©alisation de lkW , est trop grande, c'est-Ă -dire supĂ©rieure Ă  une valeur qui n’a qu’une probabilitĂ© α d’ĂȘtre dĂ©passĂ©e. En pratique, nous avons regroupĂ© les Ăąges en neuf classes s’échelonnant de 26 Ă  60 ans. Quinze classes ont Ă©tĂ©s constituĂ©es sur les anciennetĂ©s, ce qui nous donne au total 9+15 = 24 classes. La distribution de la statistique lkW , est donc un Chi2 avec 24 degrĂ©s de libertĂ©. On obtient alors la rĂ©gion critique pour un seuil de 95% 8413., >lkW ; la valeur de la statistique de test sur notre exemple est de 10,27, ce qui nous conduit Ă  accepter l’ajustement. 3.4. Comparaison avec d’autres mĂ©thodes Il est apparu intĂ©ressant de comparer l’approche par splines avec la mĂ©thode (non paramĂ©trique) de Whittaker-Henderson, qui constitue, avec la mĂ©thode proposĂ©e dans KIMELDORF et JONES [1967], une version simple et assez naturelle de lissage bayĂ©sien (on pourra consulter sur ce sujet TAYLOR [1992]). La mĂ©thode de Whittaker-Henderson appliquĂ©e sur les mĂȘmes donnĂ©es conduit Ă  la reprĂ©sentation suivante des taux de sortie3 :

3 Voir WINTER [2005] pour le dĂ©tail de la mise en Ɠuvre.

- 15 -

Fig. 5 : Taux de sortie d’incapacitĂ© – lissage de Whittaker-Henderson

La statistique du Chi2 introduite en 3.3.2 ci-dessus est Ă©gal Ă  6,62, soit une valeur infĂ©rieure Ă  celle obtenue par les splines, et qui conduit donc Ă©galement Ă  accepter l’ajustement au mĂȘme seuil. On note d’ailleurs une forte parentĂ© entre les deux approches, l’allure gĂ©nĂ©rale des courbes Ă©tant proche. De plus chacun des deux modĂšles permet de combiner un critĂšre de rĂ©gularitĂ© et un critĂšre de fidĂ©litĂ© aux donnĂ©es. L’approche par splines prĂ©sente l’avantage, non nĂ©gligeable en pratique, de conduire Ă  une formulation entiĂšrement paramĂ©trique de la table, ce qui permet de traiter de maniĂšre simple les questions d’interpolation ou d’extrapolation. L’extrapolation des taux de sortie est en effet dĂ©cisive pour complĂ©ter la table aux Ăąges oĂč les donnĂ©es sont insuffisantes. Pour cette raison, elle doit Ă  notre sens ĂȘtre prĂ©fĂ©rĂ©e Ă  l’approche non paramĂ©trique. WINTER [2005] dĂ©veloppe Ă©galement d’autres approches, qui ne sont pas reprises ici ; on peut simplement retenir que du point de vue de critĂšres de type « chi2 », la mĂ©thode d’ajustement par splines s’avĂšre trĂšs performante. 3.5. Une approche alternative On peut observer que l’approche retenue conduit Ă  des coefficients de provisionnement trĂšs rĂ©guliers : en effet, ces coefficients sont obtenus par deux intĂ©grations successives Ă  partir des taux de sortie, qui sont ajustĂ©s par des splines (une premiĂšre intĂ©gration pour obtenir la fonction de survie, puis une seconde pour calculer le coefficient de provisionnement). De ce fait, mĂȘme si nous Ă©tions parti de taux de sortie relativement irrĂ©guliers, les coefficients de

- 16 -

provisionnement seraient rĂ©guliers (les tables du BCAC en sont une illustration, les taux de sortie Ă©tant trĂšs irrĂ©guliers). On peut envisager d’exploiter cette propriĂ©tĂ© de rĂ©gularisation du mĂ©canisme de calcul des provisions pour proposer la dĂ©marche d’ajustement suivante : Ă  partir des taux bruts, on dĂ©termine les espĂ©rances de maintien rĂ©siduel (qui s’interprĂštent comme des coefficients de provisionnement Ă  taux zĂ©ro) :

Fig. 6 : Espérance de maintien résiduel brute

On note bien l’effet de rĂ©gularisation associĂ© au calcul d’un coefficient de provisionnement, en rapprochant ce graphe de celui obtenue Ă  la Fig. 2 : ci-dessus. On ajuste alors un modĂšle Ă  splines sur cette surface afin de la rĂ©gulariser, ce qui conduit Ă  :

- 17 -

Fig. 7 : Espérance de maintien résiduel lissée

On peut ensuite « redescendre » aux taux de sortie par dérivation. On obtient alors les taux de sortie suivants :

Fig. 8 : Taux de sortie aprÚs ajustement spline des espérances de maintien

- 18 -

L’allure gĂ©nĂ©rale de la surface est relativement proche des rĂ©sultats prĂ©cĂ©dents, et la valeur de la statistique de test du mĂȘme ordre de grandeur. Toutefois, il nous semble qu’il est plus pertinent d’effectuer l’ajustement au niveau le « moins intĂ©grĂ© » possible, et donc au niveau des taux de sortie. 4. Application : calcul d’un barĂšme de provisionnement L’utilisation la plus immĂ©diate de la table d’expĂ©rience construite ci-dessus est l’obtention d’un barĂšme de provisionnement de rentes d’incapacitĂ©. Pour un taux technique i fixĂ©, le coefficient de provisionnement s’exprime de la maniĂšre suivante :

∑−

=

+

+

=y

kk

xykINC

xyINC

xyINC

i

L

LPM

36

0 121

1

)(

, (18 )

avec x l’ñge de l’assurĂ© lors de l’entrĂ©e dans l’état, y l’anciennetĂ© dans l’état et x

yINCL le coefficient de la table de maintien en incapacitĂ©. Incidemment, on peut noter que dans le cadre du modĂšle retenu il n’est pas indispensable de discrĂ©tiser les flux, ce qui permet d’utiliser une version continue de la formule ci-dessus :

( )∫+∞

+ −=0

1dtrtL

LPM x

ytINCxyINC

xyINC exp , (19 )

avec ( )ir += 1ln la version continue du taux technique et ( )⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ΞΞ”−= ∫

+

+

yt

xx

ytINC dL0

exp .

Cette formulation prĂ©sente l’avantage d’éviter les problĂ©matiques de choix d’un pas de discrĂ©tisation, d’une part, et d’ajustement en fonction du fractionnement, d’autre part. Dans l’expression ci-dessus, les paramĂštres x et y peuvent ĂȘtre non entiers. Le barĂšme ainsi obtenu a l’allure suivante, avec un taux technique de 3% :

- 19 -

Fig. 9 : BarĂšme de provisionnement d’incapacitĂ© d’expĂ©rience

On retrouve bien entendu une allure trĂšs proche de la Fig. 7 : ci-dessus. Le barĂšme du BCAC au mĂȘme taux conduit quant Ă  lui Ă  la surface suivante :

Fig. 10 : BarĂšme de provisionnement d’incapacitĂ© BCAC

- 20 -

Incidemment, on note une certaine irrĂ©gularitĂ© du barĂšme BCAC, consĂ©quence directe de l’utilisation de taux de sortie non ajustĂ©s dans la dĂ©marche retenue par cet organisme. La forme gĂ©nĂ©rale des deux barĂšmes est toutefois, comme on pouvait s’y attendre, trĂšs proche. La comparaison des deux sĂ©ries de coefficients est effectuĂ©e en calculant

Splinestx

Splinestx

BCACtx

e

eetx

,

,,),(−

∀ ; elle conduit Ă  la reprĂ©sentation suivante :

Fig. 11 : Comparaison avec les coefficients BCAC

On constate que globalement le barĂšme BCAC conduit Ă  sur-provisionner d’environ 5% Ă  10% en milieu de table. Pour les anciennetĂ©s importantes, les deux tables donnent des rĂ©sultats proches. Par contre, au moment de la survenance, les rĂ©sultats d’expĂ©rience sont au dessus du BCAC : l’effectif restant aprĂšs le premier mois varie de 30% Ă  50% pour le BCAC, et de 50% Ă  70% pour les taux d’expĂ©rience. Ensuite, pour une anciennetĂ© de 1 mois, le BCAC conduit Ă  sur provisionner de 30% Ă  40%. L’écoulement des sorties est donc sensiblement diffĂ©rent dans les deux populations, ce qui justifie ex post l’intĂ©rĂȘt du barĂšme d’expĂ©rience. Le graphique ci-dessus met de plus en Ă©vidence l’instabilitĂ© du barĂšme du BCAC, qui explique les irrĂ©gularitĂ©s que l’on observe (la surface d’expĂ©rience Ă©tant quant Ă  elle par construction rĂ©guliĂšre). L’avantage de la mĂ©thode d’ajustement retenue est de conduire mĂ©caniquement Ă  des barĂšmes trĂšs rĂ©guliers, a priori plus en phase avec la rĂ©alitĂ©.

- 21 -

5. Conclusion L’utilisation d’un ajustement des taux bruts par des splines bi-dimensionnels permet de construire une surface de taux de sortie paramĂ©trique. Sa mise en Ɠuvre numĂ©rique ne pose pas de difficultĂ© majeure avec des outils adaptĂ©s. L’intĂ©rĂȘt de cette approche, par rapport aux mĂ©thodes usuelles, repose principalement sur la prise en compte directe dans le modĂšle de la dĂ©pendance entre les lois de maintien aux diffĂ©rents Ăąges d’entrĂ©e possibles. On obtient ainsi une prise en compte directe des interactions dans les deux directions (Ăąge et anciennetĂ©). Au surplus, cette approche bi-dimensionnelle permet d’obtenir des lois de maintien pour des Ăąges Ă  l’entrĂ©e pour lesquels les observations sont insuffisantes pour construire directement la loi d’expĂ©rience, par simple interpolation. Enfin, le caractĂšre paramĂ©trique du modĂšle permet de disposer de valeurs des taux de sortie quelle que soit l’unitĂ© de temps retenue, ce qui simplifie les calculs de provisions, quel que soit le fractionnement de la rente. La mise en Ɠuvre des techniques prĂ©sentĂ©es ici dans le cas de l’invaliditĂ© est immĂ©diat ; des travaux sont en cours dans le prolongement de cette Ă©tude pour construire, Ă  partir de la surface ajustĂ©e des taux de maintien conditionnels4, une surface « au premier jour », avec l’objectif de disposer ainsi d’un outil permettant de tarifer des contrats individuels qui prendraient en charge les premiers jours de l’arrĂȘt. Nous nous inspirons pour cela de la dĂ©marche proposĂ©e par BONCHE et al. [2005]. .

4 On rappelle que la durĂ©e d’arrĂȘt minimale dans l’étude est de 11 jours.

- 22 -

Bibliographie BESSE P., CARDOT H. [2001] « ModĂ©lisation statistique de donnĂ©es fonctionnelles », UniversitĂ© de Toulouse, support de cours. BONCHE S., BRAU L., OLYMPIO N. [2005] « Analyse de l'impact sur la prime pure d'une baisse de la franchise en intĂ©grant l'effet d'un systĂšme bonus-malus » , ISFA, MĂ©moire de groupe de travail. BROUHNS N., DENUIT M., VERMUNT J.K. [2002] « A Poisson log-bilinear regression approach to the construction of projected lifetables », Insurance: Mathematics and Economics, vol. 31, 373-393. DEBON A., MARTINEZ-RUIZ F., MONTES F. [2004] « Dynamic Life Tables: A Geostatistical Approach », IME Congress. DE BOOR C., FIX G. [1973] « Splines approximation by quasi interpolants ». J. Approx. Theory 8, 19-45, p102,105. DE BOOR [1978] A practical guide to splines. Berlin: Springer Verlag. DROESBEKE J.J., FICHET B., TASSI P. [1989] « Analyse statistique des durĂ©es de vie ». Paris : Economica. GAUMET A. [2001] « Construction de tables d'expĂ©rience pour l'entrĂ©e et le maintien en incapacitĂ© », ISFA, MĂ©moire d’actuariat. KIMELDORF G.S, JONES D.A. [1967], « Bayesian graduation », TSA, XIX. LEE, R.D. [2000] « The Lee–Carter method of forecasting mortality, with various extensions and applications ». North American Actuarial Journal 4, 80–93. LEE, R.D., CARTER, L. [1992] « Modelling and forecasting the time series of US mortality ». Journal of the American Statistical Association 87,659–671. LELIEUR V. [2005] « Construction de tables de mortalitĂ© prospectives : le cas des petites populations ». ISFA, MĂ©moire d’actuariat. LONDON D. [1995], « The revision of estimates », Actex. PLANCHET F. [2004] « ModĂšles de durĂ©e », ISFA, support de cours. RISLER J.J. [1991] MĂ©thodes mathĂ©matiques pour la CAO. Paris : Masson SAPORTA G. [1990] ProbabilitĂ©s, analyse des donnĂ©es et statistique. Paris : Editions Technip. TAYLOR G. [1992], « A bayesian interpretation of Whittaker-Henderson graduation », Insurance: Mathematics and Economics, vol. 11, 7-16.

- 23 -

WINTER P. [2005] « MĂ©thodes bidimensionnelles pour l'ajustement de lois de maintien d'expĂ©rience en arrĂȘt de travail ». ISFA, MĂ©moire d’actuariat. XIE J., LIU C. [2000] « Adjusted Kaplan-Meier Estimator and Log-rank Test with Inverse Probability of Treatment Weighting for Survival Data », Statist. Med., vol. 00:1-6