l'utilisation des splines bidimensionnels pour l
TRANSCRIPT
- 1 -
L'utilisation des splines bidimensionnels pour lâestimation de lois de maintien en arrĂȘt de travail
FrĂ©dĂ©ric PLANCHETâ Pascal WINTERα
ISFA â UniversitĂ© Lyon 1 ÎČ Winter & AssociĂ©s Îł
RESUME
Lâobjectif de ce travail est de proposer un modĂšle dâajustement paramĂ©trique bi-dimensionnel pour des lois de maintien en incapacitĂ© de travail. La mĂ©thode proposĂ©e sâappuie sur des splines en dimension 2 ; elle est appliquĂ©e Ă un portefeuille rĂ©el, et le barĂšme de provisionnement qui en rĂ©sulte est comparĂ© au barĂšme de rĂ©fĂ©rence du BCAC.
MOTS-CLEFS : ArrĂȘt de travail, Kaplan-Meier, splines, estimation.
ABSTRACT
The aim of this paper is to propose an operational two-dimensional parametric adjustment for laws of maintenance in disability. The method suggested rests on splines in dimension 2; it is applied to a real data set, and the scale of reserving which results from it is compared with the scale of reference of the BCAC.
KEYWORDS : Disability, Kaplan-Meier, splines, estimation.
â FrĂ©dĂ©ric Planchet est professeur associĂ© de Finance et dâAssurance Ă lâISFA (UniversitĂ© Lyon 1 â France) et
actuaire associĂ© chez Winter & AssociĂ©s. Contact : [email protected]. α Pascal Winter est Ă©tudiant Ă lâISFA. Contact : [email protected]. ÎČ Institut de Science FinanciĂšre et dâAssurances (ISFA) - 50, avenue Tony Garnier 69366 Lyon Cedex 07. Îł Winter & AssociĂ©s - 9, rue Beaujon 75008 Paris et 18, avenue FĂ©lix Faure 69007 Lyon.
- 2 -
1. Introduction Lâestimation de lois de maintien dâexpĂ©rience en arrĂȘt de travail constitue un prĂ©-requis incontournable pour lâĂ©valuation de provisions mathĂ©matiques sur des portefeuilles dont le comportement diffĂšre a priori de la norme proposĂ©e par le BCAC (cf. lâarticle A335-1 du Code des Assurances). LâexpĂ©rience montre que le taux de sortie de lâarrĂȘt de travail dĂ©pend notamment, Ă population fixĂ©e, de lâĂąge au dĂ©but de lâarrĂȘt et de lâanciennetĂ© de cet arrĂȘt. Cette observation conduit Ă Ă©laborer des tables doublement indicĂ©es, par lâĂąge Ă lâentrĂ©e dâune part et par lâanciennetĂ© dâautre part. Câest ce type de prĂ©sentation qui est par exemple retenu par le BCAC dans les tables rĂ©glementaires quâil propose. Cependant, les mĂ©thodes statistiques couramment utilisĂ©es pour construire des lois de maintien sont essentiellement mono-dimensionnelles : câest ainsi le cas pour lâestimation des taux bruts via lâestimateur de Kaplan-Meier, qui est Ă certains Ă©gards le meilleur en prĂ©sence de censure (cf. DROESBEKE et al. [1989]), et Ă©galement pour les mĂ©thodes dâajustement paramĂ©trique classiques, de type Makeham, logit ou splines (cf. PLANCHET [2004]). En ce qui concerne lâestimation des taux bruts, des travaux sâintĂ©ressent Ă la gĂ©nĂ©ralisation de lâestimateur de Kaplan-Meier en dimension supĂ©rieure Ă un ; plus prĂ©cisĂ©ment, ces travaux concernent lâestimation de Kaplan-Meier en prĂ©sence dâhĂ©tĂ©rogĂ©nĂ©itĂ© (cf. XIE et LIU [2000]). Lâestimation des taux bruts pour chaque Ăąge Ă lâentrĂ©e par Kaplan-Meier classique reste toutefois actuellement la mĂ©thode la plus robuste pour produire les taux bruts. Au surplus, la perte dâinformation que reprĂ©sente la non prise en compte de la loi conjointe selon les deux dimensions du problĂšme est faible et peu pĂ©nalisante en pratique. Lorsque lâon souhaite ajuster les taux bruts ainsi obtenus (voir par exemple LONDON [1985] pour les motivations dâun ajustement), lâapproche usuelle consistant à « recoller » des tables uni-dimensionnelles construites pour chaque Ăąge Ă lâentrĂ©e possible (dĂ©crite par exemple dans GAUMET [2001]) rend dĂ©licate la prise en compte de la dynamique des taux de sortie en fonction de lâĂąge Ă lâentrĂ©e. ParallĂšlement, des approches dĂ©veloppĂ©es depuis quelques annĂ©es dans le cadre de la dĂ©termination de tables de mortalitĂ© prospectives proposent des modĂšles naturellement bi-dimensionnels : il sâagit notamment du modĂšle de Lee-Carter (cf. LEE et CARTER [1992] et LEE [2000]) et de ses variantes de type log-Poisson proposĂ©es par BROUHNS et al. [2002], ou dâautres approches comme les modĂšles de type gĂ©ostatistique de DEBON et al. [2004]. Dans le but de construire des tables de maintien en arrĂȘt de travail avec des mĂ©thodes bi-dimensionnelles, a priori mieux adaptĂ©es au contexte que lâapproche usuelle rappelĂ©e ci-dessus, on peut tenter dâadapter les modĂšles de type Lee-Carter au contexte de lâarrĂȘt de travail, en faisant jouer Ă lâĂąge le rĂŽle de lâanciennetĂ© et Ă lâannĂ©e calendaire le rĂŽle de lâĂąge Ă lâentrĂ©e. Toutefois les travaux de LELIEUR [2005] montrent que dĂšs lors que lâon sort du contexte de trĂšs grands Ă©chantillons dans lesquels ces mĂ©thodes ont Ă©tĂ© dĂ©veloppĂ©es pour travailler sur des portefeuilles nĂ©cessairement de taille plus rĂ©duite, une instabilitĂ© des coefficients liĂ©es aux fluctuations dâĂ©chantillonnage et Ă une certaine « sur-paramĂ©trisation » apparaĂźt et rend ces
- 3 -
modĂšles inopĂ©rants, ou du moins peu efficaces. Cette difficultĂ© est contournĂ©e dans le cas de la mortalitĂ© en rĂ©duisant le nombre de paramĂštres du modĂšle au travers dâune spĂ©cification de la forme fonctionnelle de la dĂ©pendance en fonction de lâĂąge et de lâannĂ©e des coefficients concernĂ©s (cf. LELIEUR [2005]). La transposition au cas de lâarrĂȘt de travail, effectuĂ©e par WINTER [2005], sâavĂšre globalement peu satisfaisante, les modĂšles de Lee-Carter ou log-Poisson sâavĂ©rant peu Ă mĂȘme de bien prendre en compte la forme particuliĂšre des taux de sortie pour ce risque. Lâobjectif du prĂ©sent travail est de prĂ©senter une nouvelle mĂ©thode utilisant les splines en dimension 2. Lâutilisation des splines dimension 2 est initialement nĂ©e dans le contexte dâapplications industrielles, et est devenu une mĂ©thode classique dans ce domaine : on pourra notamment consulter RISLER [1991] et DE BOOR [1978]. On pourra se reporter Ă BESSE et CARDOT [2001] pour une synthĂšse des mĂ©thodes statistiques de lissage dans les espaces fonctionnels. Lâutilisation de splines bi-dimensionnels dans le domaine de la construction de lois de maintien constitue une innovation, mĂȘme si en dimension un il sâagit dâun outil souvent utilisĂ©. AprĂšs avoir exposĂ© lâapproche par splines, on prĂ©sente une application sur le cas dâun portefeuille dâarrĂȘt de travail pour le risque incapacitĂ© ; lâapplication Ă la construction dâun barĂšme de provisionnement de ce risque est ensuite prĂ©sentĂ©e. Le prĂ©sent travail est inspirĂ© dâun travail de recherche effectuĂ© dans le cadre de lâInstitut de Science FinanciĂšre et dâAssurances de lâUniversitĂ© Lyon 1 par WINTER [2005]. 2. Lâajustement par splines 2.1. PrĂ©sentation gĂ©nĂ©rale Lâajustement Ă une loi continue suppose implicitement que la courbe des taux de sortie peut ĂȘtre reprĂ©sentĂ©e sur toute la plage dâanciennetĂ© considĂ©rĂ©e par une seule fonction paramĂ©trique. En pratique, du fait par exemple de ruptures dans lâĂ©volution des taux bruts, cette condition apparaĂźt assez restrictive dĂšs lors que lâon veut rester dans le cadre dâune fonction « simple ». LâidĂ©e du lissage par splines est de dĂ©couper la plage de la fonction Ă ajuster en sous-intervalles, puis dâajuster sur chaque sous-intervalle une fonction simple, en prenant des prĂ©cautions pour le raccordement aux points de jonction. Un dĂ©coupage bien choisi doit en effet permettre dâutiliser sur chaque sous-intervalle une fonction sensiblement plus simple que la fonction quâil aurait fallu ajuster globalement. Les polynĂŽmes sont des fonctions simples et peuvent Ă ce titre ĂȘtre utilisĂ©s pour construire des lissages par spline ; en pratique, on considĂšre en gĂ©nĂ©ral des polynĂŽmes de degrĂ© 3 qui vont nous permettre de construire des splines cubiques. Le raccordement de ces arcs se fera en imposant aux points de jonction la continuitĂ© ainsi que lâĂ©galitĂ© des pentes et des courbures. La formalisation mathĂ©matique de cette approche en dimension un est relativement simple ; toutefois, en dimension deux elle sâavĂšre un peu plus dĂ©licate et nĂ©cessite un minimum de formalisme, dĂ©taillĂ© ci-aprĂšs.
- 4 -
On peut simplement retenir que lâidĂ©e est de fixer arbitrairement des nĆuds pour subdiviser la surface Ă ajuster surface en zones. Ensuite, on ajuste un polynĂŽme de degrĂ© 3 (en dimension 2) Ă chaque subdivision, en utilisant un critĂšre de type moindres carrĂ©s. Enfin, pour des raisons Ă©videntes de continuitĂ© et de rĂ©gularitĂ©, ce « patchwork » de polynĂŽmes de degrĂ© 3 est contraint Ă ĂȘtre de classe 2C (ou 1C ). 2.2. Mise en Ćuvre dans le cas de lois de maintien bi-dimensionnelles Soit ),( xtP un polynĂŽme de degrĂ© n en fonction de t et x. Il est entiĂšrement dĂ©fini par la
donnée de 21)( +n paramÚtres :
â
â
=20 nji
jiij xtaxtP,,),(
),(K
, (1 )
On note à présent 20 njiijaA
,,),()(
Kâ= la matrice des coefficients du polynĂŽme ),( xtP . On
note Ă©galement ââââ
â
â
ââââ
â
â
=n
n
t
T M
1 et
ââââ
â
â
ââââ
â
â
=n
n
x
X M
1 et
âââââ
â
â
âââââ
â
â
=
â1
10
n
n
nx
XM
' le vecteur dérivé terme à terme. On
obtient ainsi la représentation matricielle du polynÎme :
),(.. xtPXAT nn =Ï . (2 ) 2.2.1. Calculs prĂ©liminaires
Les conditions de régularité nécessitent le calcul des dérivées partielles premiÚres et secondes de ),( xtP . On obtient aisément :
â
ââ
ââ
â
ââ
â
â
â
â
â
â
â
â
=ââ
â
â=â
ââ=
â
â
=ââ
=ââ
nnji
jiij
nnji
jiij
nnji
jiij
nnji
jiij
nnji
jiij
xtijaxtxtP
xtajjxtx
Pxtaiixt
t
P
xtjaxtxP
xtiaxttP
,,*,,),(
,,*,,),(,,*,,),(
,,*,,),(,,*,,),(
),(
)(),()(),(
),(),(
KK
KKKK
KKKK
11
112
20
22
2
02
22
210
1
01
1
11
(3 )
Les deux premiĂšres sommes comportent )( 1+nn termes, les deux suivantes ))(( 11 +â nn et la derniĂšre 2n termes. Ces expressions sâĂ©crivent simplement sous forme matricielle :
- 5 -
nn
nnnn
nnnn
XATxtxtP
XATxtx
PXATxtt
P
XATxtxPXATxt
tP
âČâČ=ââ
â
âČâČ=â
ââČâČ=â
â
âČ=âââČ=
ââ
..),(
..),(..),(
..),(..),(
Ï2
Ï2
2Ï
2
2
ÏÏ
(4 )
2.2.2. NĆuds On appelle nĆuds les points intĂ©rieurs de la table choisis pour dĂ©finir les zones sur lesquelles un unique polynĂŽme va ĂȘtre appliquĂ©. Ces points doivent choisis aussi judicieusement que possible, en fonction de la forme et lâallure gĂ©nĂ©rale de la surface Ă reprĂ©senter. Par ailleurs, le choix du nombre de nĆuds influe grandement sur les rĂ©sultats obtenus. Un faible nombre de nĆuds conduit Ă un lissage peu fidĂšle, un nombre Ă©levĂ© engendre quand Ă lui un lissage trop fidĂšle et donc irrĂ©gulier. Pour plus de simplicitĂ©, on ne dĂ©finit ici que des droites horizontales et verticales, distinctes des bords de la table. Les intersections de ces droites forment alors les nĆuds. Si on dĂ©finit h droites horizontales, et v droites verticales, on obtient hv nĆuds, et la table est subdivisĂ©e en ))(( 11 ++ vh parties. On indice alors ces parties avec hk ,,K0= et
vl ,,K0= , ce qui conduit Ă ))(( 11 ++ vh polynĂŽmes Ă estimer et Ă recoller. Dans notre problĂ©matique dâajustement, la fonction brute est connue et donc reprĂ©sentable graphiquement. Une maniĂšre de choisir les nĆuds est alors lâanalyse prĂ©alable des donnĂ©es brutes. Les grandes tendances pourront ĂȘtre conservĂ©es avec un maillage Ă©pais ; nĂ©anmoins, certaines irrĂ©gularitĂ©s (les pics en particulier) seront effacĂ©es. Pour Ă©viter ceci, il faut encadrer ces irrĂ©gularitĂ©s par la plus petite maille possible. Une approche possible est donc de considĂ©rer que plus la variation de la fonction Ă ajuster est brutale, plus le maillage doit ĂȘtre petit si lâon veut conserver ces variations. DE BOOR [1978] signale un point sensible : si une irrĂ©gularitĂ© se prĂ©sente diagonalement par rapport aux composantes, les nĆuds scindant la surface brute en rectangles peuvent ne pas ĂȘtre adaptĂ©s. On peut alors considĂ©rer un dĂ©coupage de la surface Ă lisser en triangles. Cette approche empirique de dĂ©termination des nĆuds peut ĂȘtre remplacĂ©e par une approche de sĂ©lection automatisĂ©e. Dans la prĂ©sente Ă©tude, le choix des nĆuds est rĂ©alisĂ© automatiquement par lâalgorithme dâoptimisation retenu (cf. infra). Le critĂšre sâappuie sur un rĂ©sultat prouvĂ© par DE BOOR et FIX [1973] fournissant une majoration de la distance entre la fonction spline et la fonction Ă ajuster. Cette inĂ©galitĂ© permet alors de dĂ©finir un critĂšre de choix dâun jeu de nĆuds efficace en recherchant la stratĂ©gie qui minimise la majoration. Le dĂ©tail de lâapproche est dĂ©crit dans DE BOOR et FIX [1973].
- 6 -
2.2.3. Conditions Limites Pour des raisons de continuitĂ©, le raccordement entre les splines est soumis Ă des contraintes sur les dĂ©rivĂ©s des polynĂŽmes. Rappelons que dans la reprĂ©sentation matricielle du problĂšme chaque ligne reprĂ©sente une anciennetĂ©, chaque colonne un Ăąge. Contraintes horizontales : anciennetĂ© fixe Si 1P et 2P sont adjacents horizontalement, alors leurs valeurs et leurs dĂ©rivĂ©es partielles premiĂšres et secondes en fonction de t doivent ĂȘtre Ă©gale, ceci pour tout Ăąge variant sur lâensemble de dĂ©finition induit par le spline. En notant )( , jia et )( , jib les paramĂštres des splines adjacents, ces contraintes sâĂ©crivent :
ââââ= == =
=n
j
n
i
jiij
n
j
n
i
jiij xtbxta
0 00 0, (5 )
et
ââââ= =
â
= =
â =n
j
n
i
jiij
n
j
n
i
jiij xtibxtia
0 1
1
0 1
1 . (6 )
avec t fixĂ© et pour tout x variant dans lâensemble de dĂ©finition du spline. Cela conduit Ă Ă©crire :
00 0
=ââ â= =
n
j
n
i
iijij
j tbax )(
),,()(,,)( 00000
KK =ââ=â=ââ Ï
=â BATnjtba n
n
i
iijij
,
(7 )
et
00 1
1 =ââ â= =
ân
j
n
i
iijij
j itbax )(
),,()(,,)( 00001
KK =ââČâ=â=ââ Ï
=â BATnjitba n
n
i
iijij
(8 )
Si 0â t , ces Ă©quations forment un systĂšme libre de )( 12 +n Ă©quations avec
212 )( +n paramĂštres. Contraintes verticales : Ăąge fixe De mĂȘme, si 1P et 2P sont adjacents horizontalement, alors leurs valeurs et leurs dĂ©rivĂ©es partielles premiĂšres et secondes en fonction de x doivent ĂȘtre Ă©gale, ceci pour toute anciennetĂ©
- 7 -
variant sur lâensemble de dĂ©finition induit par le spline. Avec un raisonnement similaire Ă celui dĂ©crit supra, on obtient le systĂšme :
),,()(,,)( 00000
KK Ï
==ââ=â=ââ n
n
j
jijij XBAnixba
),,()(,,)( 00001
KK Ï
==âČââ=â=ââ n
n
j
jijij XBAnijtba
(9 )
Contraintes aux nĆuds : Ăąge et anciennetĂ© fixes On cumule les deux contraintes prĂ©cĂ©dentes. Par ailleurs, en un nĆud, il se trouve non plus deux mais quatre polynĂŽmes adjacents. Contraintes en bord de table En bord de table, il nây a pas de contraintes de rĂ©gularitĂ©, puisque le polynĂŽme nâest pas raccordĂ© Ă un autre. 2.2.4. Choix du critĂšre dâoptimisation On combine un critĂšre de fidĂ©litĂ© et un critĂšre de rĂ©gularitĂ©, comme dĂ©crit supra. CritĂšre de fidĂ©litĂ© Ici, SP reprĂ©sente la surface des splines raccordĂ©s. Les polynĂŽmes ajustĂ©s doivent ĂȘtre le plus fidĂšle possible Ă la surface brute. Pour ceci, on utilise un critĂšre des moindres carrĂ©s pour chaque spline :
( )ââ âÏx t
txtx qxtSP 2,, ),( (10 )
oĂč tx,Ï est le poids associĂ© au point txq , . Notons que la sommation doit inclure les bornes, c'est-Ă -dire les points se trouvant sur les droites dĂ©finissant lâemplacement des nĆuds. CritĂšre de rĂ©gularitĂ© Comme dans le lissage de Whitaker-Henderson, on introduit un critĂšre permettant de contrĂŽler la rĂ©gularitĂ© du spline. La fidĂ©litĂ© Ă elle seule nâest pas suffisante pour lâobtention dâune courbe rĂ©guliĂšre. En effet, outre le choix du nombre de nĆuds, plus une courbe est fidĂšle aux donnĂ©es brutes, moins elle sera rĂ©guliĂšre. Le meilleur moyen de contrĂŽler la rĂ©gularitĂ© est de minimiser la dĂ©rivĂ©e seconde des polynĂŽmes. Avec la norme 2L , cette contrainte sâĂ©crit :
dsdyysPDysâ«â« λ22 ),(),( (11 )
- 8 -
oĂč ),( txλ est une fonction continue par morceau, valant le poids associĂ© au point txq , pour la
rĂ©gularitĂ© et ),( ysPD2 la matrice Hessienne1 de la fonction polynomiale par morceau calculĂ© au point ),( ys . 2.2.5. RĂ©solution Le systĂšme Ă rĂ©soudre combine finalement la fidĂ©litĂ© aux donnĂ©es brutes, la rĂ©gularitĂ© de la surface ajustĂ©e et les contraintes aux nĆuds. On combine les deux premiĂšres contraintes pour former la fonction Ă minimiser. La troisiĂšme constituera les contraintes du problĂšme dâoptimisation. On obtient alors le critĂšre dâoptimisation suivant :
( ) dsdyysPDysqxtSPx t
txtx â«â«ââ λαâ+âÏα222 1 ),(),()(),( ,, (12 )
Le paramĂštre [ ]10,âα permet de privilĂ©gier soit la rĂ©gularitĂ©, soit la fidĂ©litĂ©. Les contraintes aux nĆuds sâexpriment sous la forme du systĂšme linĂ©aire suivant :
[ ] [ ]
âȘâȘâȘ
â©
âȘâȘâȘ
âš
â§
=âČâ
=â
=ââČ
=â
Ăââ
â
â
â
â
),,().().(
),,().().(
),,()).((
),,()).((
,,),(
*,,,
*,,,
,,*
,
,,*
,
00
00
00
00
11
Ï1
Ï1
1Ï
1Ï
K
K
K
K
lknlklk
lknlklk
lklklkn
lklklkn
xXPP
xXPP
PPtT
PPtT
vhlk (13 )
oĂč lkP , reprĂ©sente la matrice des coefficients du polynĂŽme lkP , . Les points *,lkt et *
,lkx reprĂ©sentent les abscisses et ordonnĂ©es du nĆud correspondant Ă lâintersection de la (k-1) Ăšme droite verticale et de la (l-1) Ăšme droite horizontale (rappelons que les droite sont indicĂ©es de 1 Ă k (resp. 1 Ă l), et quâelles sont distinctes des bords ; on a donc ))(( 22 ++ vh nĆuds). Pour des polynĂŽmes de degrĂ© n, on a alors )( 14 +nhv Ă©quations pour ))()(( 111 +++ nvh paramĂštres. Ce systĂšme dĂ©crit une condition de rĂ©gularitĂ© 1C pour la PP-Surface estimĂ©e. Il est facilement gĂ©nĂ©ralisable Ă une condition 2C : il faut alors ajouter 2 Ă©quations aux contraintes prĂ©sentĂ©es ci-dessus :
),,()).(( ,,*
, 001Ï K=ââČâČ â lklklkn PPtT et ),,().().( *
,,, 00Ï1 K=âČâČâ â lknlklk xXPP (14 )
Câest ce qui sera retenu dans la suite. 1 Il sâagit de la matrice carrĂ©e composĂ©e des dĂ©rivĂ©es secondes de P.
- 9 -
2.3. Lâapproche de DE BOOR [1978] En pratique lâintroduction simplifiĂ©e ci-dessus est formalisĂ©e au travers des B-splines, qui fournissent un cadre de travail particuliĂšrement bien adaptĂ© pour la description des problĂšmes dâajustement Ă des fonctions splines. Dans son ouvrage sur les splines, DE BOOR dĂ©taille ce cadre de travail. Les deux notions principales sont la diffĂ©rence divisĂ©e k Ăšme et les B-splines, qui permettent dâexprimer les « pp functions » (piecewise polynomial functions). La gĂ©nĂ©ralisation de lâapproche en dimension deux se fait dans un second temps Ă lâaide des produits tensoriels. Le problĂšme traitĂ© ici est suffisamment simple pour se passer de ce formalisme, toutefois indispensable pour des questions plus complexes. 3. Application Afin dâillustrer la pertinence de la mĂ©thode proposĂ©e, nous lâavons mise en Ćuvre sur un portefeuille, dans lâoptique de proposer une table dâexpĂ©rience certifiable. Les aspects en lien avec la certification, et notamment la justification du caractĂšre prudent de la table dâexpĂ©rience obtenue, ne sont pas abordĂ©s ici, notre objectif Ă©tant dâillustrer les Ă©tapes de la mise en Ćuvre des splines. Le lecteur intĂ©ressĂ© par ces aspects pourra se reporter Ă PLANCHET [2004]. 3.1. PrĂ©sentation des donnĂ©es La constitution de la base de donnĂ©es constitue en soi un travail dĂ©licat et dĂ©cisif, car il conditionne la qualitĂ© et la robustesse des estimations effectuĂ©es ensuite ; cette Ă©tape nâest pas abordĂ©e ici, et nous nous contentons de fournir un bref descriptif des donnĂ©es brutes aprĂšs mise en forme. Le portefeuille utilisĂ© contient environ 170 000 arrĂȘts, observĂ©s sur quatre ans. Il sâagit dâarrĂȘts dâune durĂ©e supĂ©rieure Ă onze jours, du fait des dispositions de la convention collective concernĂ©e. Dans la suite on Ă©tudiera donc des lois conditionnelles au fait que la durĂ©e de lâarrĂȘt est supĂ©rieure (strictement) Ă 10 jours. Les donnĂ©es sont Ă©galement partiellement censurĂ©es Ă droite, mais le taux de censure reste faible (et systĂ©matiquement infĂ©rieur Ă 10%). Lâinformation transmise permet dâeffectuer les calcul de Kaplan-Meier avec un pas quotidien. Au global lâĂ©tude porte sur environ 615 000 arrĂȘts, dont 22 500 censurĂ©s Ă droite, soit 3,7% de lâeffectif. La moyenne globale de lâĂ©chantillon nâest pas estimable aisĂ©ment, Ă cause de la prĂ©sence des censures. Cependant, la durĂ©e moyenne dâarrĂȘt pour les individus non censurĂ©s est de 88 jours (plus 10 jours de troncature droite si on les compte depuis le dĂ©but) et lâĂ©cart-type de 176 jours. De mĂȘme, la durĂ©e moyenne dâobservation pour les individus censurĂ©s est de 328 jours avec 10 jours en option, et lâĂ©cart type vaut 284 jours.
- 10 -
On porte une attention particuliĂšre aux grandeurs suivantes, calculĂ©es Ăąge par Ăąge : effectifs dâarrĂȘts observĂ©s, proportions dâarrĂȘts non censurĂ©s (rapportĂ©es sur les effectifs globaux) et nombre dâarrĂȘts ayant une durĂ©e supĂ©rieure Ă 1095 jours ; on obtient le graphe suivant :
Fig. 1 : Analyse du nombre dâarrĂȘt en fonction de lâĂąge Ă lâentrĂ©e
3.2. Estimation des taux bruts Lâestimateur de Kaplan-Meier est calculĂ© Ăąge par Ăąge :
ââ€
ââ
â
â
ââ
â
ââ=ââ
tT ix
ixx
iTnTd
tSAncMaxAncMint)()(
)(Ë,, 1KK (15 )
avec )(tnx lâĂ©chantillon sous risque Ă lâĂąge x juste avant le jour t et )(tdx le nombre de sorties dâincapacitĂ© pour lâĂąge x et lâinstant iT (par reprise dâactivitĂ©, passage en invaliditĂ©, dĂ©cĂšs ou fin de garanties). En pratique, lâestimateur de Kaplan Meier donne lieu Ă un calcul que lorsquâune personne sort de lâĂ©tat ( iT ). Par ailleurs, en toute rigueur, il nây a pas dâex aequo, car la probabilitĂ© que deux personnes sortent exactement au mĂȘme instant est nulle presque sĂ»rement. NĂ©anmoins, comme les observations dont nous disposons sont volumineuses, et que, la durĂ©e des arrĂȘts est comptĂ©e en jours (observations discrĂštes), on est confrontĂ© Ă la prĂ©sence dâex aequo. On utilise donc la formule approchĂ©e suivante :
â=
âââ
ââââ
ââ=ââ
t
AncMini x
xx in
idtSAncMaxAncMint )(
)()(Ë 1KK (16 )
- 11 -
On obtient ainsi une estimation de la fonction de survie journaliÚre pour tous les ùges, présentée ci-aprÚs :
Fig. 2 : Taux de sortie dâincapacitĂ© bruts (Kaplan-Meier)
On observe que les taux bruts sont trĂšs erratiques, le choix dâune unitĂ© de temps petite (le jour) accentuant encore cette variabilitĂ©. Une analyse de la variance donnĂ©e par lâestimateur de Greenwood2 nous permet de conclure que les Ăąges 61, 62, 63 et 64 sont trĂšs volatils, les Ăąges 22, 23, 24 sont trĂšs volatils, surtout lorsque lâanciennetĂ© est Ă©levĂ©e et que la croissance du logarithme de la variance est constante pour les grands Ăąges, alors que sur les Ăąges faibles, la courbe croit beaucoup au dĂ©but pour ensuite se stabiliser :
2 Lâexpression utilisĂ©e est â=
â=
t
AncMini xxxx
xx idininid
tStSVar ))()()(()(
)(Ë)(Ë 2 .
- 12 -
Fig. 3 : Estimateur de Greenwood de la variance
On considĂ©rera donc par la suite les Ăąges dâentrĂ©e allant de 25 jusqu'Ă 60 ans, on considĂ©rant que ceux-ci sont stables. Les taux de sortie pour les Ăąges en dehors de cette plage pourront ĂȘtre ensuite dĂ©terminĂ©s par extrapolation (cf. infra). 3.3. Ajustement par splines 3.3.1. PrĂ©sentation des rĂ©sultats Il faut noter ici que si les calculs ne posent pas de problĂšme numĂ©rique particulier, ils dĂ©passent les capacitĂ©s dâun simple outil bureautique tel quâExcel et nĂ©cessitent le recours Ă des logiciels plus performants. La dĂ©termination des paramĂštres de lâajustement a Ă©tĂ© effectuĂ©e dans le prĂ©sent travail en utilisant la librairie « spline » proposĂ©e par MatLab. Cette librairie sâappuie sur les algorithmes prĂ©sentĂ©s dans DE BOOR [1978]. La matrice des poids Ω est construite Ă lâaide des effectifs sous risques initiaux : pour chaque Ăąge, le coefficient de pondĂ©ration est proportionnel Ă lâeffectif. La fonction λ est prise constante Ă©gale Ă lâunitĂ©. Enfin, le coefficient α vaut 0.001. Ce coefficient a Ă©tĂ© dĂ©terminĂ© expĂ©rimentalement aprĂšs diffĂ©rentes tentative. Il apparaĂźt comme le meilleurs compromis entre fidĂ©litĂ© et rĂ©gularitĂ© sur la base de nos donnĂ©es. On obtient ainsi les taux suivants :
- 13 -
Fig. 4 : Taux de sortie dâincapacitĂ© en fonction de lâĂąge Ă lâentrĂ©e et de lâanciennetĂ©
On constate notamment Ă lâexamen du graphe ci-dessus une « pliure » Ă 6 mois, ainsi que des vaguelettes pour certaines anciennetĂ©s ; ceci est la consĂ©quence que les durĂ©es des arrĂȘts ne prennent en pratique pas toutes les valeurs possibles exprimĂ©es en jours, les prescripteurs dâarrĂȘt ayant tendance Ă arrondir les durĂ©es dans une unitĂ© plus en phase avec la durĂ©e de lâarrĂȘt (la semaine par exemple). La surface est bien entendu trĂšs rĂ©guliĂšre : elle est par construction de classe 2C . Son expression paramĂ©trique est relativement lourde, mais reste manipulable simplement dans des outils informatiques, par exemple pour calculer des provisions. 3.3.2. Test de la validitĂ© du modĂšle La validitĂ© du modĂšle est testĂ©e au travers dâune version ad hoc du test du Chi2. On effectue des regroupements sur les Ăąges et sur les anciennetĂ©s, pour obtenir des classes bidimensionnelles. Le test du Chi2 reste valable dans ce contexte puisque la somme de deux variables indĂ©pendantes avec une distribution du Chi2 est une variable Chi2, de degrĂ© de libertĂ© la somme des degrĂ©s de libertĂ©. On obtient alors la statistique :
ââ= =
â=
l
x
k
t tx
txtxlk D
DDW
1 1
2
* * **,
**,**,, ~
)~( (17 )
- 14 -
avec txD , le nombre observĂ© dâindividus sortis entre +t et 1+t et txD ,~ le nombre dâindividus
sortis entre +t et 1+t prĂ©vu par le modĂšle. On peut montrer que si ââ0,xL , alors lkW , est
asymptotiquement distribuĂ© comme une variable 22â+Ï lk . DâoĂč le test consistant Ă rejeter
lâadĂ©quation des donnĂ©es brutes Ă notre ajustement si la rĂ©alisation de lkW , est trop grande, c'est-Ă -dire supĂ©rieure Ă une valeur qui nâa quâune probabilitĂ© α dâĂȘtre dĂ©passĂ©e. En pratique, nous avons regroupĂ© les Ăąges en neuf classes sâĂ©chelonnant de 26 Ă 60 ans. Quinze classes ont Ă©tĂ©s constituĂ©es sur les anciennetĂ©s, ce qui nous donne au total 9+15 = 24 classes. La distribution de la statistique lkW , est donc un Chi2 avec 24 degrĂ©s de libertĂ©. On obtient alors la rĂ©gion critique pour un seuil de 95% 8413., >lkW ; la valeur de la statistique de test sur notre exemple est de 10,27, ce qui nous conduit Ă accepter lâajustement. 3.4. Comparaison avec dâautres mĂ©thodes Il est apparu intĂ©ressant de comparer lâapproche par splines avec la mĂ©thode (non paramĂ©trique) de Whittaker-Henderson, qui constitue, avec la mĂ©thode proposĂ©e dans KIMELDORF et JONES [1967], une version simple et assez naturelle de lissage bayĂ©sien (on pourra consulter sur ce sujet TAYLOR [1992]). La mĂ©thode de Whittaker-Henderson appliquĂ©e sur les mĂȘmes donnĂ©es conduit Ă la reprĂ©sentation suivante des taux de sortie3 :
3 Voir WINTER [2005] pour le dĂ©tail de la mise en Ćuvre.
- 15 -
Fig. 5 : Taux de sortie dâincapacitĂ© â lissage de Whittaker-Henderson
La statistique du Chi2 introduite en 3.3.2 ci-dessus est Ă©gal Ă 6,62, soit une valeur infĂ©rieure Ă celle obtenue par les splines, et qui conduit donc Ă©galement Ă accepter lâajustement au mĂȘme seuil. On note dâailleurs une forte parentĂ© entre les deux approches, lâallure gĂ©nĂ©rale des courbes Ă©tant proche. De plus chacun des deux modĂšles permet de combiner un critĂšre de rĂ©gularitĂ© et un critĂšre de fidĂ©litĂ© aux donnĂ©es. Lâapproche par splines prĂ©sente lâavantage, non nĂ©gligeable en pratique, de conduire Ă une formulation entiĂšrement paramĂ©trique de la table, ce qui permet de traiter de maniĂšre simple les questions dâinterpolation ou dâextrapolation. Lâextrapolation des taux de sortie est en effet dĂ©cisive pour complĂ©ter la table aux Ăąges oĂč les donnĂ©es sont insuffisantes. Pour cette raison, elle doit Ă notre sens ĂȘtre prĂ©fĂ©rĂ©e Ă lâapproche non paramĂ©trique. WINTER [2005] dĂ©veloppe Ă©galement dâautres approches, qui ne sont pas reprises ici ; on peut simplement retenir que du point de vue de critĂšres de type « chi2 », la mĂ©thode dâajustement par splines sâavĂšre trĂšs performante. 3.5. Une approche alternative On peut observer que lâapproche retenue conduit Ă des coefficients de provisionnement trĂšs rĂ©guliers : en effet, ces coefficients sont obtenus par deux intĂ©grations successives Ă partir des taux de sortie, qui sont ajustĂ©s par des splines (une premiĂšre intĂ©gration pour obtenir la fonction de survie, puis une seconde pour calculer le coefficient de provisionnement). De ce fait, mĂȘme si nous Ă©tions parti de taux de sortie relativement irrĂ©guliers, les coefficients de
- 16 -
provisionnement seraient rĂ©guliers (les tables du BCAC en sont une illustration, les taux de sortie Ă©tant trĂšs irrĂ©guliers). On peut envisager dâexploiter cette propriĂ©tĂ© de rĂ©gularisation du mĂ©canisme de calcul des provisions pour proposer la dĂ©marche dâajustement suivante : Ă partir des taux bruts, on dĂ©termine les espĂ©rances de maintien rĂ©siduel (qui sâinterprĂštent comme des coefficients de provisionnement Ă taux zĂ©ro) :
Fig. 6 : Espérance de maintien résiduel brute
On note bien lâeffet de rĂ©gularisation associĂ© au calcul dâun coefficient de provisionnement, en rapprochant ce graphe de celui obtenue Ă la Fig. 2 : ci-dessus. On ajuste alors un modĂšle Ă splines sur cette surface afin de la rĂ©gulariser, ce qui conduit Ă :
- 17 -
Fig. 7 : Espérance de maintien résiduel lissée
On peut ensuite « redescendre » aux taux de sortie par dérivation. On obtient alors les taux de sortie suivants :
Fig. 8 : Taux de sortie aprÚs ajustement spline des espérances de maintien
- 18 -
Lâallure gĂ©nĂ©rale de la surface est relativement proche des rĂ©sultats prĂ©cĂ©dents, et la valeur de la statistique de test du mĂȘme ordre de grandeur. Toutefois, il nous semble quâil est plus pertinent dâeffectuer lâajustement au niveau le « moins intĂ©grĂ© » possible, et donc au niveau des taux de sortie. 4. Application : calcul dâun barĂšme de provisionnement Lâutilisation la plus immĂ©diate de la table dâexpĂ©rience construite ci-dessus est lâobtention dâun barĂšme de provisionnement de rentes dâincapacitĂ©. Pour un taux technique i fixĂ©, le coefficient de provisionnement sâexprime de la maniĂšre suivante :
ââ
=
+
+
=y
kk
xykINC
xyINC
xyINC
i
L
LPM
36
0 121
1
)(
, (18 )
avec x lâĂąge de lâassurĂ© lors de lâentrĂ©e dans lâĂ©tat, y lâanciennetĂ© dans lâĂ©tat et x
yINCL le coefficient de la table de maintien en incapacitĂ©. Incidemment, on peut noter que dans le cadre du modĂšle retenu il nâest pas indispensable de discrĂ©tiser les flux, ce qui permet dâutiliser une version continue de la formule ci-dessus :
( )â«+â
+ â=0
1dtrtL
LPM x
ytINCxyINC
xyINC exp , (19 )
avec ( )ir += 1ln la version continue du taux technique et ( )âââ
â
â
âââ
â
âΞΞ”â= â«
+
+
yt
xx
ytINC dL0
exp .
Cette formulation prĂ©sente lâavantage dâĂ©viter les problĂ©matiques de choix dâun pas de discrĂ©tisation, dâune part, et dâajustement en fonction du fractionnement, dâautre part. Dans lâexpression ci-dessus, les paramĂštres x et y peuvent ĂȘtre non entiers. Le barĂšme ainsi obtenu a lâallure suivante, avec un taux technique de 3% :
- 19 -
Fig. 9 : BarĂšme de provisionnement dâincapacitĂ© dâexpĂ©rience
On retrouve bien entendu une allure trĂšs proche de la Fig. 7 : ci-dessus. Le barĂšme du BCAC au mĂȘme taux conduit quant Ă lui Ă la surface suivante :
Fig. 10 : BarĂšme de provisionnement dâincapacitĂ© BCAC
- 20 -
Incidemment, on note une certaine irrĂ©gularitĂ© du barĂšme BCAC, consĂ©quence directe de lâutilisation de taux de sortie non ajustĂ©s dans la dĂ©marche retenue par cet organisme. La forme gĂ©nĂ©rale des deux barĂšmes est toutefois, comme on pouvait sây attendre, trĂšs proche. La comparaison des deux sĂ©ries de coefficients est effectuĂ©e en calculant
Splinestx
Splinestx
BCACtx
e
eetx
,
,,),(â
â ; elle conduit Ă la reprĂ©sentation suivante :
Fig. 11 : Comparaison avec les coefficients BCAC
On constate que globalement le barĂšme BCAC conduit Ă sur-provisionner dâenviron 5% Ă 10% en milieu de table. Pour les anciennetĂ©s importantes, les deux tables donnent des rĂ©sultats proches. Par contre, au moment de la survenance, les rĂ©sultats dâexpĂ©rience sont au dessus du BCAC : lâeffectif restant aprĂšs le premier mois varie de 30% Ă 50% pour le BCAC, et de 50% Ă 70% pour les taux dâexpĂ©rience. Ensuite, pour une anciennetĂ© de 1 mois, le BCAC conduit Ă sur provisionner de 30% Ă 40%. LâĂ©coulement des sorties est donc sensiblement diffĂ©rent dans les deux populations, ce qui justifie ex post lâintĂ©rĂȘt du barĂšme dâexpĂ©rience. Le graphique ci-dessus met de plus en Ă©vidence lâinstabilitĂ© du barĂšme du BCAC, qui explique les irrĂ©gularitĂ©s que lâon observe (la surface dâexpĂ©rience Ă©tant quant Ă elle par construction rĂ©guliĂšre). Lâavantage de la mĂ©thode dâajustement retenue est de conduire mĂ©caniquement Ă des barĂšmes trĂšs rĂ©guliers, a priori plus en phase avec la rĂ©alitĂ©.
- 21 -
5. Conclusion Lâutilisation dâun ajustement des taux bruts par des splines bi-dimensionnels permet de construire une surface de taux de sortie paramĂ©trique. Sa mise en Ćuvre numĂ©rique ne pose pas de difficultĂ© majeure avec des outils adaptĂ©s. LâintĂ©rĂȘt de cette approche, par rapport aux mĂ©thodes usuelles, repose principalement sur la prise en compte directe dans le modĂšle de la dĂ©pendance entre les lois de maintien aux diffĂ©rents Ăąges dâentrĂ©e possibles. On obtient ainsi une prise en compte directe des interactions dans les deux directions (Ăąge et anciennetĂ©). Au surplus, cette approche bi-dimensionnelle permet dâobtenir des lois de maintien pour des Ăąges Ă lâentrĂ©e pour lesquels les observations sont insuffisantes pour construire directement la loi dâexpĂ©rience, par simple interpolation. Enfin, le caractĂšre paramĂ©trique du modĂšle permet de disposer de valeurs des taux de sortie quelle que soit lâunitĂ© de temps retenue, ce qui simplifie les calculs de provisions, quel que soit le fractionnement de la rente. La mise en Ćuvre des techniques prĂ©sentĂ©es ici dans le cas de lâinvaliditĂ© est immĂ©diat ; des travaux sont en cours dans le prolongement de cette Ă©tude pour construire, Ă partir de la surface ajustĂ©e des taux de maintien conditionnels4, une surface « au premier jour », avec lâobjectif de disposer ainsi dâun outil permettant de tarifer des contrats individuels qui prendraient en charge les premiers jours de lâarrĂȘt. Nous nous inspirons pour cela de la dĂ©marche proposĂ©e par BONCHE et al. [2005]. .
4 On rappelle que la durĂ©e dâarrĂȘt minimale dans lâĂ©tude est de 11 jours.
- 22 -
Bibliographie BESSE P., CARDOT H. [2001] « ModĂ©lisation statistique de donnĂ©es fonctionnelles », UniversitĂ© de Toulouse, support de cours. BONCHE S., BRAU L., OLYMPIO N. [2005] « Analyse de l'impact sur la prime pure d'une baisse de la franchise en intĂ©grant l'effet d'un systĂšme bonus-malus » , ISFA, MĂ©moire de groupe de travail. BROUHNS N., DENUIT M., VERMUNT J.K. [2002] « A Poisson log-bilinear regression approach to the construction of projected lifetables », Insurance: Mathematics and Economics, vol. 31, 373-393. DEBON A., MARTINEZ-RUIZ F., MONTES F. [2004] « Dynamic Life Tables: A Geostatistical Approach », IME Congress. DE BOOR C., FIX G. [1973] « Splines approximation by quasi interpolants ». J. Approx. Theory 8, 19-45, p102,105. DE BOOR [1978] A practical guide to splines. Berlin: Springer Verlag. DROESBEKE J.J., FICHET B., TASSI P. [1989] « Analyse statistique des durĂ©es de vie ». Paris : Economica. GAUMET A. [2001] « Construction de tables d'expĂ©rience pour l'entrĂ©e et le maintien en incapacitĂ© », ISFA, MĂ©moire dâactuariat. KIMELDORF G.S, JONES D.A. [1967], « Bayesian graduation », TSA, XIX. LEE, R.D. [2000] « The LeeâCarter method of forecasting mortality, with various extensions and applications ». North American Actuarial Journal 4, 80â93. LEE, R.D., CARTER, L. [1992] « Modelling and forecasting the time series of US mortality ». Journal of the American Statistical Association 87,659â671. LELIEUR V. [2005] « Construction de tables de mortalitĂ© prospectives : le cas des petites populations ». ISFA, MĂ©moire dâactuariat. LONDON D. [1995], « The revision of estimates », Actex. PLANCHET F. [2004] « ModĂšles de durĂ©e », ISFA, support de cours. RISLER J.J. [1991] MĂ©thodes mathĂ©matiques pour la CAO. Paris : Masson SAPORTA G. [1990] ProbabilitĂ©s, analyse des donnĂ©es et statistique. Paris : Editions Technip. TAYLOR G. [1992], « A bayesian interpretation of Whittaker-Henderson graduation », Insurance: Mathematics and Economics, vol. 11, 7-16.
- 23 -
WINTER P. [2005] « MĂ©thodes bidimensionnelles pour l'ajustement de lois de maintien d'expĂ©rience en arrĂȘt de travail ». ISFA, MĂ©moire dâactuariat. XIE J., LIU C. [2000] « Adjusted Kaplan-Meier Estimator and Log-rank Test with Inverse Probability of Treatment Weighting for Survival Data », Statist. Med., vol. 00:1-6