mémoire présenté devant l’institut de statistique de l ... · mémoire d’actuariat -...
TRANSCRIPT
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
1
Mémoire présenté devant l’Institut de Statistique de
l’Université Pierre et Marie Curie
Pour l’obtention du diplôme de Statisticien Mention Actuariat et
l’admission à l’Institut des Actuaires
Par : Doan NGUYEN TUAN
Titre : Refonte du modèle de prime pure en Multirisques Habitation, aide à la décision dans la
sélection de modèles
Confidentialité : NON OUI (Durée : 1 an 2 ans)
Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus.
Membres présents du jury de l’Institut des
Actuaires :
Arnaud COHEN
Jean-Marie NESSI
Gérard CROSET
Brigitte DUBUS-THIRKELL
Entreprise : AXA France
Membres présents du jury de l’ISUP :
Olivier LOPEZ
Directeur de mémoire en entreprise :
Laura GENDREY, Véronique MARPILLAT
Autorisation de publication et de mise en
ligne sur un site de diffusion de documents
actuariels (après expiration de l’éventuel
délai de confidentialité)
Signature du responsable entreprise
Signature du candidat
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
2
Refonte de la prime pure en Multirisques-Habitation : aide à la décision dans la sélection de modèles
Remerciements ......................................................................................................................... 4
Résumé ...................................................................................................................................... 5
Abstract ..................................................................................................................................... 6
1. Cadre et objectif de l’étude ............................................................................................. 7
2. Construction de la base de données par contrat : écrêtement et mutualisation
segmentés ................................................................................................................................. 11
2.1. Périmètre pour la modélisation de la prime pure ..................................................... 11
2.2. Les variables de la base initiale ................................................................................ 11
2.3. Calcul des charges ultimes ....................................................................................... 12
2.4. Ecrêtement et mutualisation segmentés des charges ultimes ................................... 14
2.5. Franchise .................................................................................................................. 27
2.6. Base finalisée ............................................................................................................ 28
3. Etude descriptive de la prime pure et des variables: graphiques et corrélations .... 30
3.1. Etude descriptive de la prime pure globale hors catnat, options, dommages
électriques, climatiques ........................................................................................................ 36
3.2. Etude descriptive de la prime pure par type de sinistre ............................................ 37
3.3. Corrélation prime pure et variables .......................................................................... 42
4. Corrélation entre variables ........................................................................................... 45
5. Modélisation des primes pures : sélection des variables sur critère d’ajustement aux
données .................................................................................................................................... 47
5.1. Méthode .................................................................................................................... 48
5.2. Application à la prime pure globale mutualisée ....................................................... 53
5.3. Application aux primes pures par type de sinistre ................................................... 58
5.4. Surplus de capitaux et d’objets de valeur ................................................................. 67
5.5. Comparaison de la distribution des résidus bruts issue du modèle unique à la
distribution des résidus bruts issue des modèles par type de sinistre ................................... 67
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
3
6. Sélection d’un modèle robuste sur critère estimé par Bootstrap ............................... 69
6.1. Revue des critères existants ...................................................................................... 69
6.2. Méthode proposée .................................................................................................... 71
6.3. Etude de la méthode par simulation ......................................................................... 74
6.4. Application en Responsabilité Civile et analyse du critère ...................................... 77
6.5. Application au modèle unique Global ...................................................................... 82
6.6. Application en Bris de Glace ................................................................................... 83
7. La courbe de sélection de modèles: un outil graphique pour la sélection de modèles
84
7.1. Cadre et définition .................................................................................................... 84
7.2. Utilisation ................................................................................................................. 87
Conclusion et extension possible ........................................................................................... 89
8. Annexes ........................................................................................................................... 90
8.1. Algorithme d’estimation dans le modèle linéaire généralisé ................................... 90
8.2. Codage des variables qualitatives dans le modèle linéaire généralisé ..................... 92
8.3. Origine des critères BIC et AIC ............................................................................... 92
8.4. Calibrage d’une loi Pareto aux incendies et attentats ............................................... 95
8.5. Répartition des années police ................................................................................... 95
8.6. Graphiques des interactions estimées ....................................................................... 97
8.7. Effet des variables comportementales ...................................................................... 97
8.8. Ecarts aux marges ..................................................................................................... 98
8.9. Modèle Tweedie ....................................................................................................... 99
8.10. Garanties Multirisques Habitation ..................................................................... 100
9. Bibliographie ................................................................................................................. 105
10. Table des figures et des tableaux ................................................................................ 107
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
4
Remerciements
Je tiens à adresser mes remerciements à Monsieur Arnaud Cohen, responsable de la Filière
Actuariat de l’ISUP, pour ses précieux conseils, son soutien et son suivi de la réalisation de ce
mémoire.
J’adresse mes remerciements à Mademoiselle Laura Gendrey et Madame Véronique
Marpillat, du service Actuariat Multirisques Habitation, pour m’avoir suivie pendant toute la
réalisation de ce stage et m’avoir donné la possibilité de le réaliser dans les meilleures
conditions possibles, ainsi que pour la confiance qu’elles m’accordent.
Je tiens également à remercier Monsieur Julien Callard, responsable du service non-Auto,
pour ses conseils, sa disponibilité et les riches échanges au sujet de méthodes statistiques
utilisées dans ce mémoire.
J’adresse aussi ma reconnaissance à l’équipe Multirisques-Habitation et en particulier
Madame Corinne Castanet, Monsieur Olivier Meneux et Monsieur Dadhy Barmou Batouré
pour leur gentillesse et leur soutien.
Je tiens enfin à remercier le service Auto, pour les échanges concernant des méthodes
statistiques en tarification et leurs conseils ayant accompagné mes travaux.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
5
Résumé
Dans cette étude, nous proposons des méthodes visant à apporter une aide à la décision dans
la sélection des variables dans un modèle linéaire généralisé et dans le choix d’une
modélisation de prime pure par type de sinistre ou d’une modélisation unique globale.
L’objectif est d’orienter le choix de l’assureur quant à la sélection de variables tarifaires et
quant à la segmentation en Multirisques-Habitation.
Nous souhaitons ainsi répondre à la question : est-il robuste, au sens d’un critère à définir,
d’intégrer les variables comportementales choisies et de segmenter la modélisation de la
prime pure?
Cette étude s’inscrit dans les travaux de construction d’un nouveau modèle de prime pure en
Multirisques-Habitation:
-Ventilé par type de sinistre
-Intégrant des variables tarifaires non utilisées usuellement dans cette branche, dans l’objectif
de mieux segmenter le tarif
-Satisfaisant des critères de robustesse : minimisation de critères basés sur l’erreur de
prédiction.
Les deux axes d’étude principaux sont l’écrêtement et la mutualisation segmentés et la
proposition de méthodes de sélection de modèles dans le cadre des modèles linéaires
généralisés. Pour ce dernier point, nous définissons d’abord un critère mesurant à la fois la
précision et la robustesse d’un modèle ; puis nous présentons une méthode d’estimation de la
composante de mesure de robustesse, avant d’étudier le critère à travers une étude simulatoire
et dans la mise en œuvre de notre cadre Multirisques-Habitation. L’utilisation de ce critère
s’ajoute au recours aux critères plus usuels mesurant l’ajustement aux données. Nous
constatons que le critère montre des variations plus visibles que les critères usuels AIC et BIC
suivant le modèle. De plus, contrairement au critère BIC, le coefficient mis devant la pénalité
du nombre de paramètres autorise la sélection de modèles peu parcimonieux. Ensuite, nous
englobons le critère dans un ensemble de valeurs en le considérant comme une fonction du
poids de la pénalité dans le critère. Cette approche permet d’évaluer la sensibilité de la
sélection au poids de pénalité et de fournir une nouvelle procédure graphique de sélection de
modèle.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
6
Abstract
In this study, we propose methods to provide decision support in the selection of variables in a
generalized linear model and the choice of a model of pure premium by type of disaster or a
single global model.
The aim is to guide the insurer in the selection of variables in the tariff and in segmentation in
housing insurance.
We want to answer the question: is it robust, in the sense of a criterion to define, to integrate
new behavioral variables in the modeling of the pure premium?
This study answers the need to build a new model of pure premium in housing insurance:
-Broken down by type of disaster
-Integrating rating factors usually not used by the company in this line of business, in order to
better segment the price
-Meeting a robustness criterion: minimizing a criterion based on the prediction error.
The two main focus points are: segmented capping and sharing of over claims, and the
proposed methods for model selection in generalized linear models. For the latter, we first
define a criterion measuring the accuracy and robustness of a model and study it through
some simulations and implementation in our housing insurance framework. We use this
criterion in addition to the use of commonly used criteria measuring the goodness-of-fit to the
data. We note that the test shows more visible changes than the usual criteria AIC and BIC
from one model to another one. Moreover, unlike the BIC, the weight penalty put to the
number of parameters allows the selection of model somewhat parsimonious. Next, we
include the criterion in a set of values by considering it as a function of the weight of the
penalty in the criterion. This approach allows us to evaluate the sensitivity of the selection
procedure with the weight penalty and to provide a new graphical model selection procedure.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
7
1. Cadre et objectif de l’étude
L’étude a été réalisée au sein de la Direction des Marchés IARD d’AXA France, au sein de la
branche AXA Particuliers/Professionnels.
La refonte tarifaire du produit Multirisques-Habitation d’AXA France est nécessaire car la
structure actuelle n’a pas été revue depuis 2001. Les constats réalisés par le Service sont les
suivants. L’évolution des indicateurs classiques montre qu’il est devenu indispensable de
revalider le positionnement tarifaire et de trouver des leviers pour améliorer l’adéquation tarif
/ risque par segment.
Les travaux sur les affaires nouvelles, réalisés début 2009, ont fait apparaître la disparité de
résultat sur les trois populations analysées : propriétaires de maison très déficitaires,
propriétaires d’appartement très rentables et locataires tangents.
La revue du portefeuille, fin 2009, a confirmé l’existence de ces décalages sur l’ensemble du
portefeuille.
La dégradation des résultats Multirisques-Habitation, due à des événements majeurs mais
aussi à l’accroissement de la sinistralité, en particulier grave, augmente l’urgence du
rééquilibrage
Le recul des affaires nouvelles, lié pour une part au contexte économique général, et le climat
concurrentiel tendu accroissent l’importance de réinjecter de la compétitivité là où les
résultats techniques le permettent.
La dernière grande révision du tarif Multirisques-Habitation date de 2003, elle a été réalisée à
l’occasion de la réorganisation en cinq régions au lieu de douze. Si, à ce moment, les niveaux
tarifaires avaient été revus, la structure demeurait la même qu’en 2001 (mise en place du
« produit harmonisé » entre AXA Assurances, AXA Courtage et AXA Conseil), à
l’introduction de la notion de réseau près.
La structure de 2001 était elle-même assez proche de celle de 1998 (produit commun Agents
AXA et ex-UAP) les évolutions majeures correspondant : à la création d’un coefficient
croisant département du distributeur et zone qui permettait d’amortir l’impact du changement
de zonage pour AXA Courtage et AXA Conseil ; à la redistribution entre central et région du
pilotage des variables.
Cette stabilité dans le temps s’explique par l’accès aux informations : la taille de notre
portefeuille permet de disposer d’une masse d’informations très importante pour les variables
tarifaires que nous pratiquons, l’introduction d’une nouvelle variable étant en revanche
nécessairement empirique.
Depuis 2003, compte-tenu de la bonne position des résultats Multirisques-Habitation et de la
volonté de développer l’apport net, les efforts en termes d’études tarifaires ont été concentrés
sur le développement de formules commerciales (Logement Neuf et Récent en 2004,
Propriétaire d’appartement en 2005, Locataire en 2006, Confort Etendu et packs en 2007,
Résidences secondaires en 2009) et la refonte complète de tarifs « parallèles » (Etudiant en
2007, Propriétaire Non Occupant et Référence en 2008).
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
8
Sur le tarif du produit central - celui de la formule « Confort », seuls les aménagements
suivants ont été apportés :
- modification de la franchise en 2009,
- augmentation des propriétaires de maison en 2010 de + 2 points
- introduction du critère « chauffage au bois » associé à un impact tarifaire fin septembre 2010
Présence d’un insert, foyer fermé, poêle ou cuisinière à bois : + 9 %
Maison sans insert, foyer fermé, poêle ou cuisinière à bois : - 3 %
Appartement ou Rez-de-chaussée sans insert, foyer fermé, poêle ou cuisinière à bois :
sans modification
L’étude présentée ici concerne la refonte de la prime pure de la formule Confort. La prime
pure est l’espérance de la sinistralité annuelle d’un assuré.
Tout d’abord, le Service souhaite segmenter davantage la tarification au sein du portefeuille
d’assurés, afin de ne pas pénaliser les assurés de la même manière et proposer le tarif le plus
juste pour un profil de risque donné. Ainsi, on considère que puisque les climatiques
impactent davantage les maisons que les appartements, les occupants de ces derniers méritent
de payer moins cher que les occupants de maisons.
En outre, une segmentation suivant le type de sinistre serait souhaitable. Actuellement, la
structure tarifaire est issue d’une modélisation de la prime pure tous types de sinistre
confondus. Or, les risques couverts par la Multirisques Habitation engendrent des charges
hétérogènes, c’est notamment le cas si on prend l’exemple des bris de glace, de charges
associées faibles vis-à-vis d’un sinistre en Responsabilité Civile ; de plus, ces risques peuvent
être expliqués par des facteurs différents. Ainsi, un sinistre type Vol pourra être du à un
niveau de richesse alors qu’un sinistre en Responsabilité Civile pourra être associé plutôt au
comportement de l’assuré et de sa famille.
Dans le but de modéliser par type de sinistre, il faut au préalable réfléchir à la façon d’allouer
les sinistres, en déterminant un seuil définissant les graves et des méthodes de réallocation des
surcrêtes au sein d’un type de sinistre et d’une classe de risque à définir.
Notons qu’au-delà de la dimension statistique, la dimension politique d’Axa est prise en
compte. Dans la visée de la segmentation, on décide d’allouer des charges de sinistres à des
profils d’assurés dont on considère qu’ils sont plus sinistrés que d’autres. Les profils de risque
pénalisés proviennent ainsi, en partie, de l’expérience et des constats passés du Service.
L’étude présentée ici propose une aide à la décision dans l’intégration de nouvelles variables
et dans la segmentation par type de sinistre, par la mesure de robustesse et de stabilité d’un
modèle.
Nous commencerons par présenter la façon dont la base de données est constituée. Cette
explication est nécessaire pour connaître le conditionnement réalisé en amont de la
modélisation. En particulier, nous retraitons la répartition des charges de sinistres du
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
9
portefeuille servant à la modélisation, en nous intéressant à la prise en compte des charges de
sinistres importantes, sur la base des constats passés sur la sinistralité et la rentabilité. Des
profils de risque dégradant la rentabilité de la branche peuvent voir leur sinistralité revue à la
hausse, d’autres moins impactés par la sinistralité peuvent connaître une hausse moindre.
L’ajustement des charges se fait via l’écrêtement des sinistres et la mutualisation des
surcrêtes, avec une allocation de charge segmentée. Ces calculs sont réalisés sur des charges
individuelles de sinistres projetées à l’ultime par la méthode Chain Ladder. Dans cette partie,
nous soulignons notamment la segmentation utilisée dans l’écrêtement et la mutualisation, en
accord avec la visée du Service.
Nous étudierons ensuite des tris à plat de la prime pure selon les critères tarifaires à tester et
les corrélations ; ces études doivent donner :
une idée des variables qu’on souhaite tester dans la modélisation de la prime pure
une idée des variables à croiser pour conserver un maximum d’information pour la
modélisation
Puis, se plaçant dans le cadre des modèles linéaires généralisés, la sélection des variables et
des interactions par algorithme forward sera présentée. Sur l’idée que l’on remet à plat le
modèle de prime pure, nous partons d’un modèle de base sans variable, et nous intégrons une
à une les variables suivant un critère d’ajustement aux données
L’estimation de modèles linéaires généralisés, un pour chaque garantie, conduit à
l’observation des résidus et écarts aux marges, et au suivi des statistiques de mesure
d’ajustement.
Ces analyses fournissent des premiers outils d’aide à la décision pour la sélection de variables.
Nous proposerons et étudierons ensuite, en plus de ces outils traditionnels de sélection de
variables, un critère mesurant la robustesse d’un modèle. Le principe est de minimiser un
critère dont une des composantes représentant l’erreur de prédiction est calculée par bootstrap.
Une étude simulatoire permet d’estimer la robustesse de la procédure de sélection de variables
et d’en proposer une variante, avant d’en présenter une application à la sélection de variables
comportementales. Nous étudions en particulier graphiquement la sensibilité du critère à un
paramètre déterminant le poids du nombre de paramètres estimés et sa stabilité, ce qui permet
de proposer une extension vers une autre méthode de sélection de variables.
En résumé, l’étude menée apporte une aide à la décision nouvelle sur les problématiques de :
-la segmentation par garantie
dans l’écrêtement et la mutualisation
dans le calcul de prime pure
- l’introduction de variables comportementales
-la sélection d’un modèle robuste via le calcul d’un critère par Bootstrap.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
10
Le schéma ci-dessous résume les étapes de l’étude :
Préparation des données :
écrêtement et mutualisation segmentés des charges
Modélisation :
Sélection des variables par algorithme forward sur critère AIC et argument stratégique ou
commercial
Sélection des interactions
Sélection d’un modèle: méthode comparative par déviance et critères AIC, BIC
Nouvelle aide à la décision :
Proposition d’un critère de robustesse pour la sélection d’un modèle
Etude simulatoire pour comparer la méthode avec les critères usuels
Application au portefeuille de contrat du périmètre d’étude
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
11
2. Construction de la base de données par contrat : écrêtement et
mutualisation segmentés
2.1. Périmètre pour la modélisation de la prime pure
Périmètre de l’ensemble des contrats
On s’intéresse à modéliser la prime pure sur des contrats Multirisques-Habitation relatifs à la
Formule Confort, hors options et clauses à sinistralité non identifiable. Ainsi, nous
sélectionnons les contrats dont la sinistralité peut être avec exactitude rattachée aux garanties
de base du contrat Confort. Nous conservons uniquement les contrats contenant au moins une
année police entre le 1er
janvier 2008 et le 31 décembre 2010. Nous travaillons sur les contrats
gérés par les Agents Généraux et courtiers classiques.
Périmètre de la sinistralité
Pour les études descriptives et les calibrages des modèles de primes pures, on utilise un
historique de survenance d’une profondeur de trois années allant du 1er janvier 2008 au 31
décembre 2010. Les charges de sinistres sont observées jusqu’au 28 février 2011.
Garanties
Les garanties auxquelles nous nous intéressons sont les suivantes : Bris de Glace (BG),
Dégâts des Eaux (DDE), Dommages électriques (DELEC), Incendie (INC), Responsabilité
Civile (RC) et Vol (VOL).
Notons que l’analyse des résultats et les prises de décisions dans la sélection des variables ne
peuvent être correctement menées sans la connaissance du produit Multirisques Habitation,
notamment des évènements garantis. Ainsi, un descriptif des principales garanties du produit
est disponible dans l’Annexe 8.10.
2.2. Les variables de la base initiale
Dans le but de modéliser une prime pure par garantie, on construit une base contenant pour
chaque couple (contrat, garantie) :
1. des variables traditionnelles de tarification caractérisant le logement ;
2. des variables relatives au mode de vie de l’assuré et susceptibles de traduire son
comportement ;
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
12
3. des variables géocodées relatives à la commune et susceptibles de décrire l’environnement
du logement assuré;
4. la charge de sinistres sur les trois années de survenance ;
5. le montant des primes acquises relatifs aux trois derniers exercices ; le montant des primes
annualisées
Dans la base de données à disposition, les charges sont arrêtées à fin février 2011. Pour la
modélisation des primes pures, on souhaite raisonner sur des charges ultimes.
L’expert estime en effet le sinistre à des charges dites Charges Dossier/Dossier, à chaque date
d’observation, lors des réouvertures du dossier, jusqu’à ce que le sinistre soit clos à une
certaine charge finale. Pour calculer une charge finale prévisible, qui est une estimation d’une
charge finale, nous utiliserons la méthode de Chain Ladder.
La section suivante expose la méthode d’actualisation des charges utilisée.
2.3. Calcul des charges ultimes
La méthodologie utilisée consiste à distinguer trois groupes de sinistres et de leur affecter des
modes de calcul de charges ultimes propres.
Sinistres climatiques et sinistres graves au sens de l’Actuariat central, soit supérieurs à
150 000 euros
L’Actuariat central nous fournit les charges finales prévisibles iCFP par année de survenance
i et les dernières charges connues ci pour cette survenance. Pour un sinistre de notre base
survenu l’année i, de dernière charge connue c, la charge ultime est donnée par :
i
i
c
CFPcc U
On n’inclut pas dans le groupe de sinistres venant d’être décrit la tempête Klaus survenue en
2009) et la tempête Xynthia, survenue en 2010.
Sinistres Klaus, Félix et Xynthia
Pour ces sinistres, on utilise également la donnée des charges finales prévisibles fournie par
L’Actuariat central.
Les autres sinistres
Pour les autres sinistres, la méthode est la suivante. Pour chacune des garanties BG, DDE,
DELEC, VOL, INC et RC, on calcule la liste des coefficients Link Ratios issus de la méthode
Chain Ladder sur un déroulé de six années. On projette ensuite les sinistres à l’ultime selon
leurs garanties et leurs délais d’observation.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
13
Le modèle Chain Ladder s’applique au triangle des charges cumulées et fournit, en partant de
lui, les charges ultimes.
Les hypothèses du modèle Chain Ladder sont les suivantes :
L’horizon de développement est de n+1 années, ce qui signifie que tous les paiements de
sinistres ou de primes sont ou seront réglés avec un délai inférieur ou égal à n+1 années. Les
indices i et j ici varient de 0 à n.
Pour tout i de 0 à n et pour tout j de 0 à n-1,
jjiji fCC ,1,
où jf est appelé Link Ratio ou facteur de développement.
On connaît les jiC , pour nji . Ce sont les valeurs du triangle suivant :
Figure 1. Triangle pour la mise en œuvre de la méthode Chain Ladder
On estime les coefficients jf par l’expression
1
0
,
1
0
1,
jn
i
ji
jn
i
ji
j
C
C
f
La valeur qui nous intéresse est la valeur à l’ultime niC , , pour un indice de survenance donné
i dans {1, 2,…, n}:
11,, ... ninininini fffCC
...
…
n n
-1 …
i
…
0
0 … j … n-1 n
…..
.....
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
14
Nous disposons maintenant des charges actualisées pour chaque sinistre. Nous procédons à
présent à la révision du seuil d’écrêtement des sinistres.
2.4. Ecrêtement et mutualisation segmentés des charges ultimes
Notons d’abord que les charges négatives dues aux recours représentent 0,04% de la charge
totale et 2% des sinistres ; nous considérons cette représentation négligeable. Nous
n’inclurons donc pas dans la base les sinistres de charges négatives. Ceci a pour conséquence
la suppression automatique des contrats affectés uniquement par un sinistre de charge
négative. On garde au final 98 % des contrats du portefeuille d’étude en procédant ainsi.
A l’origine, un seuil d’écrêtement de 150 000 euros unique pour tous les types de sinistres est
utilisé. Or, nous constatons une différence de coût moyen par sinistre suivant le type de
garantie ; ainsi, les sinistres Incendie se distinguent des autres, comme on peut le voir sur le
graphe suivant :
Figure 2. Coûts moyens d’un sinistre pour différentes garanties.
L’Incendie se démarque des autres garanties.
Nous proposons donc de calculer deux seuils distincts, un pour les incendies et attentats, et un
autre pour les autres sinistres.
Afin de prendre en compte, dans l’estimation de la prime pure, la charge de sinistre écartée, il
faut ensuite répartir le montant de charge dépassant le seuil sur un ensemble de contrats, c’est
ce qu’on appelle la mutualisation. La mutualisation proposée est une mutualisation
segmentée. En effet, nous distinguons les surcrêtes des sinistres de contrats rattachés à des
segments de risque distincts, puis nous distribuons ces surcrêtes sur les segments de risque
correspondants.
Coût moyen de sinistre en base 100.
La base 100 correpond au coût moyen toutes UPs confondues
0
100
200
300
400
500
600
700
BGCLIM
DDE
INC
RCVO
L
DELEC
bas
e=10
0
Coût moyen d'un sinistre en base 100
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
15
Nous exposons ci-dessous les méthodes utilisées pour la détermination des seuils
d’écrêtement et la mutualisation des surcrêtes des :
-sinistres hors incendies et attentats puis,
-des sinistres incendies et attentats.
Une méthode usuelle pour déterminer le seuil d’écrêtement d’un sinistre est d’utiliser d’une
part les quantiles de la distribution des charges de sinistres individuelles, d’autre part la
répartition en charge de ces sinistres. Ceci permet d’avoir une estimation du montant de
charge individuelle à partir de laquelle un sinistre présenterait une charge exceptionnellement
élevée, qu’il faut répartir sur d’autres contrats afin de ne pas déformer une répartition qui
semblerait plus probable d’observer. C’est la méthode que nous utilisons pour déterminer le
seuil d’écrêtement des sinistres attritionnels : Bris de Glace, Dégâts des Eaux, Responsabilité
Civile et Vol.
Nous proposons une autre méthode pour la détermination du seuil d’écrêtement des incendies
et attentats, qui consiste à diminuer le coefficient de variation de la distribution de ces
sinistres, supposée suivre une loi continue à calibrer. Nous avons en effet peu de connaissance
sur ces sinistres et nous souhaitons utiliser une méthode plus fine que celle des quantiles.
La répartition des sur-crêtes par profil de risque se fait suivant plusieurs méthodes. L’une
adaptée pour l’affectation des surcharges à des contrats sinistrés est la mutualisation sur la
sous-crête ; une autre méthode est proposée pour mutualiser sur des contrats même non
sinistrés ; c’est le cas lorsque nous souhaitons répartir les sur-crêtes sur l’ensemble du
portefeuille d’étude.
2.4.1. Toutes garanties hors incendies et attentats
Ecrêtement
Les résultats pour les sinistres de charges strictement positives hors incendie et attentats, hors
catastrophes naturelles, sont les suivants.
a) On constate que seul 1% des sinistres survenus entre 2008 et fin 2010 pour ces garanties
sont de coûts supérieurs à 10 293,10 euros ; ces sinistres, au nombre de 2 932, forment
une charge totale de 73 190 512,83 euros, soit 19,4 % de la charge totale des sinistres
attritionnels.
b) On constate aussi que 0,5% des sinistres survenus entre 2008 et fin 2010 pour ces
garanties sont de coûts supérieurs à 16 093,72 euros. Ces sinistres, au nombre de 1 465,
forment une charge totale de 54 708 403,42 euros, soit 14,5% de la charge totale des
sinistres attritionnels.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
16
Répartition des charges de sinistres hors incendie, attentat, catnat, en
pourcentage de charge cumulée et en fréquence
0
10
20
30
40
50
60
70
80
90
100
118,02
164,11
254,81
364,02
511,24
700,05
953,87
1120,76
1519,82
2482,87
3615,66
10293,12
16093,72
2174260,74
Charge individuelle de sinistre en euros
%
Fdr de la charge individuelle Pourcentage de charge cumulée
Figure 3. Fonction de répartition empirique de la charge d’un sinistre et charge cumulée, hors incendie,
attentat, catastrophes naturelles
Le seuil d’écrêtement retenu est de 16 000 euros sur les charges individuelles actualisées
en se basant sur le quantile à 0,5% de la distribution des charges individuelles
actualisées.
Mutualisation
Avant notre étude, la méthode utilisée consistait à répartir la surcrête sur la souscrête de tous
les sinistres, en considérant que la charge pour un sinistre donné est :
Où :
L’idée maintenant est de tester une méthode consistant à mutualiser la surcrête d’un segment
de risque d’une garantie, sur la sous-crête de ce segment de risque sur cette garantie. Ceci
signifie que pour un sinistre relatif à une garantie i et à un contrat appartenant à une classe de
risque j, sa charge mutualisée est donnée par :
)
s
S1(c c
ij
ij
eme
)s
S1(c c eme
totalecrête-souss
totalecrête-surS
écrêtée charge c
mutualisée charge c
e
me
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
17
Où :
Les segments de risque choisis sont basés sur les croisements des modalités des variables
Type de logement (maison ou appartement) et Type de propriété (propriétaire ou locataire).
Le graphe présenté ci-dessous justifie à titre d’exemple l’intérêt d’une mutualisation
segmentée :
DDE sinistres > 16 000 euros
La base 100 de l'axe de droite correspond au niveau de prime pure tous
segments confondus.
0
5
10
15
20
25
30
35
40
45
50
LA LM PA PM
%
0
20
40
60
80
100
120
Prim
e p
ure
en b
ase 1
00
% de contrats sinistrés % de contrats du portefeuille prime pure en base 100
Figure 4. Prime pure moyenne suivant le segment de risque, sur les sinistres dépassant le seuil d’écrêtement en
Dégâts des Eaux.
Nous représentons aussi la répartition des sinistrés par ces charges, à comparer avec la répartition sur
l’ensemble des contrats. Ainsi, les propriétaires de maison constituent une part significative des assurés touchés
par des sinistres dépassant le seuil.
En effet, nous constatons une différence de prime pure selon le segment de risque. Une
mutualisation segmentée permettrait d’éviter de pénaliser les segments moins sinistrés sur
cette garantie (comme les locataires de maison).
Nous résumons ci-dessous la méthode de mutualisation.
-Pour les sinistres climatiques et les dommages électriques, on répartit la surcrête totale
sur la sous-crête des Propriétaires de maison. En effet, ces derniers représentent la majorité
des contrats sinistrés par des climatiques supérieurs au seuil d’écrêtement ; ils vont porter
l’ensemble de la surcrête.
j risque desegment du i garantie la de totalecrête-souss
j risque desegment du i garantie la de totalecrête-surS
écrêtée charge c
mutualisée charge c
ij
ij
e
me
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
18
La charge pour un sinistre de type i affectant un contrat de segment j est :
-Pour les autres garanties, soient Dégâts des Eaux, Responsabilité Civile et Vol, on
répartit la surcrête du croisement {garantie, segment de risque} sur la sous-crête de ce
croisement.
La charge pour un sinistre de type i affectant un contrat de segment j est :
Notons que cette méthode repose sur l’a priori des classes de risque fondées sur le type de
logement et le type de propriété. Au cours des études menées précédemment sur le
portefeuille Multirisques-Habitation par le Service, il a été montré que ces quatre segments
ont des comportements et des résultats différents.
Les résultats de la mutualisation figurent dans le tableau ci-dessous :
Coefficients
de
mutualisation
LA LM PA PM
DDE 1,7% 1,8% 1,5% 4,3%
VOL 4,2% 4,3% 10,5% 4,9%
CLIM 9,5%
DELEC 0,06%
RC 34% 38,4% 53% 50,4%
Tableau 1. Coefficients de mutualisation de la méthode sur-crête sur sous-crête, pour chaque couple {garantie,
segment de risque}
Pour exemple, en Dégâts des Eaux, les Propriétaires de maison voient leur charge par sinistre
augmenter de 4,3%.
Revue du seuil d’écrêtement des sinistres RC et de la méthode de mutualisation en RC
)s
S1(c c
ij
i
eme
)s
S1(c c
ij
ij
eme
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
19
La part de surcrête importante en RC montre que le seuil de 16 000 euros retenu n’est pas
adapté à cette garantie. Il a été décidé que les sinistres RC seraient écrêtés à 100 000 euros,
qui est le seuil retenu pour les incendies comme nous l’exposerons ensuite. En effet, la part de
charge supérieure au seuil de 16 000 euros est de 60%. On remonte donc le seuil à 100 000
euros ce qui permet d’avoir 20% de charge en surcrête.
Répartition de la charge individuelle de sinistre en RC
0
10
20
30
40
50
60
70
80
90
100
92,37
124,51
167,98
242,51
341,09
484,62
643,35
809,46
904,98
1529,7
7
2614,6
1
9377,3
4
16000,0
0
18456,4
3
2174260,74
Charge individuelle de sinistre en euros
Pou
rcen
tage
s
Fdr empirique de la charge individuelle de sinistre RC % cumulé de charge RC
Figure 5. Fonction de répartition empirique de la charge d’un sinistre en Responsabilité Civile et charge
cumulée
Il y a deux façons de mutualiser la surcrête des sinistres RC sur la RC :
-soit de manière uniforme sur la sous-crête des RC
-soit en distinguant des classes établies sur la base de la variable « Enfant à charge ».
L’étude des sinistres responsables de la surcrête à 100 000 euros montre que les assurés ayant
au moins un enfant à charge sont les plus concernés par ces sinistres graves.
RC sinistres > 100 000 euros, <1 000 000 euros
VARIABLE ENFANT A CHARGE 0/1
La base 100 de l'axe de droite correspond au niveau de prime pure tous
segments confondus.
0
10
20
30
40
50
60
70
80
0 1
%
0
20
40
60
80
100
120
Prim
e pu
re e
n ba
se 1
00
% de contrats sinistrés % de contrats du portefeuille prime pure en base 100
Figure 6. Prime pure moyenne suivant le fait d’avoir un enfant ou pas, sur les sinistres dépassant le seuil
d’écrêtement en Responsabilité Civile.
Nous représentons aussi la répartition des sinistrés par ces charges, à comparer avec la répartition sur
l’ensemble des contrats. Ainsi, les assurés ayant au moins un enfant à charge constituent une part significative
des assurés touchés par des sinistres dépassant le seuil.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
20
Appelant classe 1, la classe des contrats touchés par un sinistre RC et d’assuré ayant au moins
un enfant à charge, et classe 2, la classe des contrats touchés par un sinistre RC et d’assuré
n’ayant pas d’enfant à charge, on décide de mutualiser la surcrête de la classe i sur la sous-
crête de la classe i.
2.4.2. Sinistres Incendie et Attentats
Constat sur l’ancien seuil de 150 000 euros
1,7% des sinistres ont une charge individuelle inférieure à 150 000 euros. Ces sinistres
représentent une charge totale de 44,8% de la charge Incendie. Nous testons une méthode
permettant de réviser ce seuil.
Méthode pour la détermination du seuil d’écrêtement
Nous proposons la méthode suivante :
-Calibrer une loi pour la variable aléatoire Coût de sinistre individuel
-Réduire le coefficient de variation de la variable aléatoire Charge écrêtée d’un contrat par
rapport à celui de la Charge non écrêtée.
Notre choix de loi pour la variable aléatoire se définit grâce à la comparaison des quantiles
empiriques et théoriques.
L’idée de cette analyse graphique est la suivante.
Soit 0F la fonction de répartition de la loi calibrée et F la fonction de répartition réelle. On
veut tester 0H : 0FF contre 1H : 0FF .
On appelle quantile d’ordre p, pxFxpF )(:inf)( .
Idée : Comme la fonction de répartition empirique nF est un bon estimateur de F , on peut
supposer que nF est un bon estimateur de F : 0sup
psn FF , où, notant )(iX la
statistique d’ordre i,
n
iFiX n)( pour i de 1 à n.
Si on voit un alignement des points
)(;0 iXn
iF pour i de 1 à n, sur la droite xy (ce
qui implique 0FFn ), on peut accepter 0H .
Nous choisissons la loi de Pareto, loi à queue épaisse. L’estimation des paramètres de la loi se
fait par maximum de vraisemblance.
Les estimateurs du maximum de vraisemblance sont calculés par la méthode de Newton
Raphson par le Solver d’Excel. Un point nécessitant l’attention est la stabilité du Solver. Il est
important d’examiner l’initialisation des paramètres et de tester les solutions obtenues pour
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
21
différentes initialisations. Retrouver plusieurs fois des solutions proches les unes des autres
peut garantir la stabilité de la solution. L’initialisation est un point clé de l’optimisation et ce
test doit être effectué car il se peut que le vecteur de paramètres initial ne soit pas un
minimum local mais au bord du domaine de définition des paramètres, auquel cas il y a
saturation.
Les résultats du calibrage sont disponibles dans l’Annexe 8.4.
A titre illustratif, les graphiques suivants permettent de comparer les ajustements à une loi
Pareton, une loide Weibull et une loi Exponentielle. Nous considérons que l’ajustement à une
loi Pareto est meilleur que ceux à d’autres lois, suivant le principe des QQ-plots.
Figure 7. Graphiques des quantiles estimés en fonction des quantiles empiriques.
Les quantiles sont ceux de la variable Charge divisée par la moyenne, paramètre de normalisation pour éviter la
divergence des fonctions de répartition. L’ajustement le meilleur est celui de l’ajustement à la loi Pareto.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
22
Sous l’hypothèse de modèle collectif pour représenter la charge d’un contrat sur trois années,
notant iX le coût du sinistre i, N le nombre de sinistres et S le seuil d’écrêtement, l’équation
en S, pour une valeur de α fixée, s’écrit :
N
i
N
i
SXiESXiVar11
));min((.));min((
Si N et les iX sont indépendants et les iX sont identiquement distribués :
N
i
SXiESXiENVarSXiVarNE1
));min((.));²(min().());(min().(
Si N suit une loi de Poisson on a alors :
N
i
SXiESXiENE1
));min((.));²((min).(
soit ));(min()(.));²((min).( SXiENESXiENE
Cela fournit une équation d’inconnue le seuil d’écrêtement S, pour une valeur de coefficient
de variation α fixée.
Les résultats sont les suivants sous l’hypothèse de la loi de Pareto calibrée et d’un modèle
collectif pour représenter la charge pour un contrat.
Un seuil d’écrêtement de 100 000 euros permet une réduction de 46% du coefficient de
variation par rapport au coefficient de variation de la charge non écrêtée et une réduction de
10,6% par rapport à la charge écrêtée au seuil de 150 000 euros.
Les sinistres supérieurs à 100 000 euros en incendie et attentat représentent 0,14% de
l’ensemble de sinistres tous types de sinistres confondus, en nombre.
Nous retenons un seuil d’écrêtement de 100 000 euros pour les sinistres Incendie et
Attentat.
Nous montrons à titre indicatif le graphique ci-dessous, soulignant le fait qu’une grosse partie
de la charge incendie et attentat est expliquée par la surcrête.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
23
Figure 8. Répartition des sinistres Incendies et attentats
Nous nous intéressons ci-dessous à la façon dont on répartit la surcrête des Incendies et
Attentats.
Mutualisation des sinistres Incendie et Attentat
Nous distinguons la façon de mutualiser la surcrête à 100 000 euros de celle de traiter le
surplus de charge à 16 000 euros.
Sinistres de charges supérieures à 100 000 euros
Les sinistres incendies et attentats de charges supérieures à 100 000 euros sont écrêtés à ce
seuil, puis la surcrête résultante est répartie sur tous les contrats du portefeuille par classe :
Propriétaires de maison (PM), sans dépendance, Résidence Principale
Propriétaires de maison, avec dépendance, Résidence Principale
Propriétaires de maison, sans dépendance, Résidence Secondaire
Locataires de maison (LM)
Locataires d’appartement (LA)
Autres,
La majeure partie de la charge incendie et attentat est expliquée par les
graves de la surcrête:
0
0,2
0,4
0,6
0,8
1
1,2
0,10
144,
40
208,
43
271,
31
338,
28
443,
14
571,
66
739,
84
958,
06
1253
,42
1663
,72
2308
,79
2665
,25
2853
,06
2934
,60
4117
,03
6267
,91
1192
5,08
3275
5,54
1888
56,4
9
charge individuelle en euros
u. m
.
fdr empirique part cumulée de charge
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
24
Nous estimons en effet que ces sinistres graves et exceptionnels doivent être financés par
l’ensemble du portefeuille, avec un poids différent selon les segments (le sinistre grave d’un
locataire d’appartement n’a pas le même poids que le propriétaire de maison).
Chaque contrat reçoit une part en euros fixe de la surcrête.
On ajoute ainsi un sinistre fictif en garantie Incendie pour les contrats non sinistrés.
La partition précédente des contrats tire son origine d’une classification des contrats touchés
par un incendie ou un attentat supérieur à 100 000 euros, sur les variables qualitatives :
croisement Type de logement, Type de propriété,
fait d’avoir une dépendance,
résidence principale ou secondaire,
zone de risque issue du zonier.
Cette partition a été réalisée afin d’obtenir des classes homogènes en terme de risque incendie.
Méthode de classification
On utilise la méthode du saut minimum pour classifier (single linkage en anglais), et la
distance sous-jacente ayant servi à transformer l’ensemble des observations caractérisées par
des variables qualitatives en matrice de distances est la distance de Jaccard, qui est un indice
de dissimilarité.
Ce coefficient de Jaccard est égal, pour un couple d’observations caractérisées par des
variables qualitatives codées en 0-1, au nombre de variables valant 1 pour les deux
observations, divisé par le nombre de variables valant 1 pour l’une des deux ou les deux.
L’indice de dissimilarité entre deux contrats i et j vaut : cba
a
, avec
a = nombre de caractéristiques communes ;
b = nombre de caractéristiques possédées par i et pas par j ;
c = nombre de caractéristiques possédées par j et pas par i.
La méthode de classification de la matrice des distances consiste à :
- munir l’espace des observations d’un critère de regroupement, ici le saut minimum
- considérer chaque observation comme une classe, puis à regrouper les deux amas les plus
proches pour former une nouvelle classe remplaçant celles ayant servi à sa formation. La
fusion des deux classes les plus proches est répétée jusqu’à ce qu’aucune classe ne reste.
- on obtient un arbre résumant les classes formées à chaque itération.
Il faut ensuite choisir un nombre de classes pour déterminer le niveau de coupure de l’arbre;
on obtient ainsi à partir de l’arbre et ce nombre de classes choisi, des observations réparties
dans les classes.
Nous pouvons ainsi affecter les contrats sinistrés par un incendie ou un attentat à l’une des
cinq classes de risques construites. On donne les caractéristiques prédominantes en nombre de
contrats sinistrés par les incendies-attentats supérieurs à 100 000 euros.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
25
Classe 1 : PM, présence d’une dépendance, résidence principale, zones A-B-C-D
Classe 2 : PM, pas de dépendance, résidence principale, zones C-D-E
Classe 3 : PM, pas de dépendance, résidence secondaire, zones B-C
Classe 4 : LA, pas de dépendance, résidence principale, zones I-Q
Classe 5 : LM, pas de dépendance, résidence principale, zones B-D-E-F
Mutualisation par classe
Intéressons-nous à la méthode de mutualisation par classe de la surcrête sur l’ensemble des
contrats.
Notant :
X l’évènement « avoir un incendie ou un attentat de charge supérieure à 100 000
euros » et P(X) la probabilité associée
ni le nombre de sinistres dans la classe i, y compris les fictifs
P(X|i) la probabilité d’avoir un incendie ou un attentat de charge supérieure à 100 000
euros sachant que le contrat est dans la classe i
P(i) la probabilité d’être dans la classe i,
a le nombre total d’années police du portefeuille
Nous appliquons la formule suivante pour le calcul de la charge mutualisée d’un sinistre d’un
contrat de la classe i :
En estimant les probabilités par les fréquences de sinistres annuelles,
Avec cette formule, la surcrête globale est répartie par classe de risque, ce qui a pour effet de
ne pas pénaliser tous les contrats de la même façon.
Les résultats suivants montrent en unités mathématiques la part de la surcrête Incendie et
Attentat à 100 000 euros que prend chacune des six classes :
)(
),(
)(
)()( c iiime,
j
j
ij
j
i
SnX
iXsS
nX
iiXs
c
c
iime,
iime,
j
j
iX
iX
j
j
i
X
iX
Snn
ns
S
na
n
a
n
s
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
26
Classe 1 0,39
Classe 2 0,18
Classe 3 0,04
Classe 4 0,23
Classe 5 0,11
Classe 6 0,05
Tableau 2. Part de surcrête Incendie et attentat
Remarquons que le fait d’avoir une dépendance, connu pour être un facteur favorable au
déclenchement d’incendie, n’est pas forcément favorable au déclenchement d’un incendie
grave au sens supérieur à 100 000 euros.
De plus, il faut noter que même les contrats non sinistrés se retrouvent avec une charge en
incendie.
Il existe une autre méthode permettant de mutualiser la surcrête sur les contrats même non
sinistrés. Il s’agit de mutualiser sur la prime acquise, soit, notant Pi la prime du contrat i et P
la somme des primes sur les contrats, de prendre :
Pour un contrat sinistré :
iPP
SC C eme
Pour un contrat non sinistré :
iPP
S C me
L’inconvénient de cette méthode est l’existence des rabais et des générations. La prime payée
par le client actuellement n’est pas forcément représentative du risque du contrat par rapport
aux autres clients. Ainsi, nous pénaliserions un assuré ayant une prime sans rabais par rapport
à un assuré ayant un risque plus important mais payant une prime plus faible par application
de 50% de rabais. Pour cette raison, nous avons choisi de d’appliquer la méthode qui a été
décrite au-dessus.
Sinistres de charges comprises entre 16 000 et 100 000 euros
Les charges de sinistres comprises entre 16 000 et 100 000 euros sont réparties sur l’incendie
et attentat par classe de risque, classe construite sur la classification des incendies et attentats
décrite dans la section précédente. Une analyse discriminante sur les contrats touchés par un
sinistre incendie ou attentat permet d’affecter chaque contrat à sa classe de risque.
La méthode de mutualisation utilisée consiste à répartir la surcrête d’une classe sur la sous-
crête d’une classe.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
27
2.4.3. Sinistres de charges supérieures à 1 000 000 d’euros
Les charges supérieures à un million d’euros par sinistre sont considérées comme des
montants exceptionnels que tous les contrats, même non sinistrés, doivent se partager. Les
sinistres de ce type relevés sur notre base concernaient les garanties Incendie et
Responsabilité Civile.
La surcrête à 100 000 euros des charges des sinistres supérieurs à 1 000 000 d’euros est
répartie sur l’ensemble des contrats en augmentant la charge par contrat de :
euros Sg
caa
Où Sg est la surcrête des sinistres supérieurs à 1 000 000 d’euros, a le nombre d’années police
du portefeuille d’étude, ac le nombre d’années police du contrat.
Au final, tous les contrats prennent chacun une charge de 2,10 euros par année police au titre
du partage des exceptionnels.
Cette charge ajoutée par contrat est ventilée de la façon suivante pour la modélisation par
garantie : 1,05 euros par année police du contrat pour la garantie Incendie et 1,05 euros par
année police du contrat pour la garantie Responsabilité Civile.
Ainsi, 2,10 euros de chargement pour sinistres exceptionnels seront ajoutés à la prime pure de
chaque contrat après modélisation.
2.5. Franchise
La base construite jusqu’ici contient les charges franchises déduites. Pour la modélisation, il
faut ajouter à ces montants par sinistre les franchises.
Pour les Dommages électriques, la franchise est ajoutée à la charge par sinistre qu’il y ait
franchise pour le contrat ou non et vaut :
indice FFB au trimestre de la survenance du sinistre * 0.23 jusqu’à avril 2009
indice FFB au trimestre de la survenance du sinistre * 0.17 après avril 2009.
Pour les autres garanties hors catastrophes naturelles et hors climatiques, la franchise est
ajoutée à la charge par sinistre s’il y a une franchise pour le contrat et vaut :
indice FFB au trimestre de la survenance du sinistre * 0.23 jusqu’à avril 2009
indice FFB au trimestre de la survenance du sinistre * 0.17 après avril 2009.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
28
T1
2008
T2
2008
T3
2008
T4
2008
T1
2009
T2
2009
T3
2009
T4
2009
T1
2010
T2
2010
T3
2010
T4
2010
indice FFB 774,6 773,5 791,2 810,4 829,1 802,9 799,4 804,4 811,8 817,9 841,7 851,2 franchise calculée
178 178 182 186 191 136 136 137 138 139 143 145
Tableau 3. Chronologie des franchises
2.6. Base finalisée
La base finalisée comporte les contrats du portefeuille d’étude avec :
- lorsqu’ils sont réellement sinistrés, leur charge mutualisée par garantie, franchise non
déduite
-lorsqu’ils n’ont pas été sinistrés, une charge affectée à la garantie Incendie due à la
répartition des Incendies et attentats supérieurs à 100 000 euros
-leurs primes pures par garantie.
Bilan et transition
Ayant présenté la façon dont la sinistralité a été réajustée sur l’ensemble du portefeuille
d’étude, nous nous intéressons dans les parties suivantes à des outils permettant d’orienter le
choix dans la sélection de variables.
Nous commencerons dans la section suivante par des constats sur les variations de la prime
pure en fonction des variables. Les études descriptives servent à donner une idée des variables
influentes pour chaque type de sinistre. Nous étudierons d’une part la prime pure globale et
d’autre part les primes pures par type de sinistre.
Nous poursuivrons par des résultats sur la corrélation des variables à la prime pure et les
corrélations entre variables qualitatives.
Ces chiffres et graphiques sont des premiers outils permettant de réaliser une première
sélection de variables qu’il serait convenable d’introduire dans les modèles.
Une sélection de variables prises seules par méthode Forward utilisant le critère AIC,
mesurant l’ajustement aux données, est réalisée afin d’introduire des effets principaux dans le
modèle. On recherche ensuite des interactions par méthode Forward sur critère BIC. Nous
choisissons ce critère pénalisant davantage le nombre de paramètres à estimer que le critère
AIC, car nous ne souhaitons pas inclure des interactions donnant lieu à un trop grand nombre
de paramètres à estimer. La parcimonie est recherchée.
Une analyse des statistiques et résidus issus de la modélisation par des modèles linéaires
généralisés permet de comparer les modèles incluant les variables comportementales et ceux
ne les incluant pas. Ceci vise à voir si l’ajustement à l’observé est bien meilleur en présence
de ces variables pour un type de sinistre donné, et donc à justifier leur introduction dans la
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
29
modélisation d’une garantie donnée. Il est important de valider ainsi l’inclusion de ces
nouvelles variables dans certains modèles pour justifier, auprès des Agents et Services de
souscription, la nécessité de poser des questions relatives au Client pour un risque
Multirisques Habitation.
Nous proposerons ensuite une méthode de sélection de variables reposant sur un nouveau
critère, mesurant la précision et la robustesse des modèles testés, et des extensions possibles.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
30
3. Etude descriptive de la prime pure et des variables: graphiques et
corrélations
Les variables que nous songeons à tester sont divisibles en trois groupes principaux,
-les variables caractéristiques du logement, dites variables contrat – ce sont les variables
traditionnellement utilisées en Multirisques-Habitation - ;
-les variables dites comportementales ou clients – il s’agit de variables susceptibles de
traduire le comportement de l’assuré et d’influencer sa sinistralité - ; ces variables sont
récupérées du Service Marketing fournissant des données sur les Clients ;
-les variables géocodées et la variable Zonier – il s’agit de variables caractérisant une
commune dans laquelle se situe le risque assuré. Nous présenterons les constats sur les deux
premiers groupes de variables ; en effet, une étude du Zonier et des variables géocodées font
l’objet d’un travail parallèle sortant du cadre de ce rapport.
Le tableau suivant contient la liste des variables dont nous disposons et que nous pourrions
utiliser. Nous présenterons ensuite la mise en classe et apporterons des précisions sur les
modalités.
Variable contrat Variable Clients Autres
Nombre de pièces
Capital
Montant des objets de valeur
Ancienneté du logement
Franchise
Type de logement (maison, appartement, rez-de-
chaussée)
Type de propriété (locataire, propriétaire, colocataire)
Résidence
(secondaire ou principale)
Dépendance (oui, non)
Segment de risque
(Locataire d’appartement=LA, Locataire de maison=LM,
Propriétaire d’appartement=PA, Propriétaire de maison =PM)
Insert
Réseau de distribution
Age
Enfant (oui/non/inconnu)
Situation familiale
Segment client
Catégorie Socioprofessionnelle
Valeur Client
Région AXA
(64 Ile de France, 65
Nord-Est, 66 Ouest, 67
Sud-Est, 68 Sud-Ouest, 13 DOM TOM, 83 AXA
Partenaires)
Zonier
Tableau 4. Variables d'étude
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
31
Dans le groupe des variables Clients, la valeur client est un indice allant de 1 à 5 et a été
construit pour refléter la rentabilité du client au vu de sa mono ou multi-détention de contrats
chez AXA. La valeur 5 correspond à la valeur sensée représenter un client rentable.
Le segment client représente la catégorie socioprofessionnelle.
Nous commençons par préciser les classes utilisées pour les variables quantitatives. Ces
classes ont été construites à partir des quantiles et de manière à ce qu’elles soient
suffisamment représentées. Nous avons procédé à un examen des variables en vue de voir si
leur renseignement est correct et retraité les modalités pour aboutir à un ensemble de
modalités compréhensibles.
Notons que tous les contrats étudiés sont relatifs à des assurés Occupants.
Pour les variables présentées ci-dessous, nous indiquons les classes et la répartition des
années police suivant les modalités.
Variable Age
modalités
Répartition des années police suivant l'âge
2,40%
14,20%
18,40%16,90%
16,70%
2,00%
29,40%
<= 25 ans 25< <=35 ans 35<<=45 ans 45< <=61 ans 61< <=74 ans >74 ans inconnue
1 <= 25 ans
2 25< <=35 ans
3 35<<=45 ans
4 45< <=61 ans
5 61< <=74 ans
6 >74 ans
un inconnue
Variable Montant du capital assuré
Cette variable est renseignée sur tous les contrats.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
32
modalités Répartition des années police suivant le montant du capital assuré
5,50%
14,40%
27,60%
24,70%
16,30%
11,50%
<= 8 000 euros 8 000< <=10 520 euros 10 520<<=20 000 euros
2 0000< <=30 000 euros 30 000< <=43 000 euros 43 000< <=620 000 euros
01 <= 8 000 euros
02 8 000< <=10 520 euros
03 10 520<<=20 000 euros
04 2 0000< <=30 000 euros
05 30 000< <=43 000 euros
06 43 000< <=620 000 euros
Variable Nombre de pièces
modalités Répartition des années police suivant le nombre de pièces
6,60%
14,70%
23,80%
47,90%
7,10%
Une pièce Deux pièces Trois pièces Quatre à six pièces Plus de sept pièces
1 Une pièce
2 Deux pièces
3 Trois pièces
4 Quatre à six pièces
5 Plus de sept pièces
Variable ancienneté du logement
Nous retenons deux types de logement :
Classe 1 : strictement inférieure à 10 ans (logements neufs ou récents)
Classe 2 : supérieure à 10 ans (anciens logements)
modalités % années police
1 <10 ans 4,2%
2 >=10 ans 95,8%
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
33
Segments Clients
Le retraitement de la variable Segment Client fournie par le Service Marketing aboutit aux
classes suivantes :
modalités Répartition des années police suivant le segment client
5,60%
11,60%
29,00%
7,90%
28,40%
14,10%
3,30%
Cadres supérieurs Employés personnes seulesEmployés avec famille Agriculteurs, artisans, professions libéralesretraités entreprisesinconnue
2 Cadres
supérieurs
3 Employés
personnes seules
4 Employés avec
famille
5
Agriculteurs, artisans,
professions libérales
6 retraités
E entreprises
INC inconnue
Variable Situation Familiale
Les modalités et leurs significations sont les suivantes : modalités Répartition des années police suivant la situation familiale
21,88%
57,71%
3,79%
7,61%
9,00%
Célibataire Conjoint Inconnue
Séparé Veuf
CE Célibataire
CO Avec
conjoint
IN Inconnue
SE Séparé
VE Veuf
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
34
Variable Montant des Objets de Valeur
D’après l’étude de la distribution de la variable Montant des objets de valeurs, les classes
proposées sont les suivantes :
modalités Répartition des années police suivant le montant des objets de valeur
33,40%
2,60%
42,10%
15,60%
6,30%
0 euros 0 <<= 1 000 euros
1 000 < <= 5 000 euros 5 000 < <= 10 000 euros
> 10 000 euros
1 0
euros
2 0 <<= 1 000
euros
3
1 000
< <=
5 000
euros
4
5 000
< <= 10 000
euros
5 >
10 000
euros
Le lecteur pourra se reporter à l’Annexe 8.5 pour la répartition des années police suivant
d’autres variables.
Capitaux
En pratique, les variables montant de capital assuré et montant des objets de valeur sont
parfois mal déclarées par les assurés. En effet, il s’agit de variables déclaratives souvent mal
évaluées par les assurés. La répartition du capital déclaré en fonction du nombre de pièces fait
apparaître des capitaux étonnamment bas. Le capital ayant un poids important dans le tarif
actuel, il semble que le capital déclaré soit parfois utilisé plus comme variable d’ajustement
tarifaire que comme grandeur objective.
Cela a pour conséquence une sous-déclaration moyenne des capitaux et des résultats dégradés
sur les contrats à faibles capitaux déclarés. Le constat sur le capital objet de valeur est
semblable, certainement du fait du lien de proportionnalité entre ces deux variables : le
montant des objets de valeur déclaré est en pourcentage du capital contenu.
Il nous paraît donc intéressant de revoir les coefficients tarifaires associés à cette variable en
lui donnant moins de poids qu’au nombre de pièces qui est une variable objective déclarée
correctement sous peine de RP.
Pour cette raison, nous choisissons au final de tarifer non pas en fonction de ces variables,
mais en fonction des surplus de capitaux vis-à-vis du nombre de pièces. Nous définissons les
surplus de la manière suivante.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
35
Surplus de capital et surplus d’objets de valeurs
On appelle surplus, la différence entre le capital ou le montant d’objets de valeurs déclaré par
l’assuré et une valeur de référence, cette dernière valant:
Pour le capital : 10 000 euros par pièce
Pour le capital des objets de valeur :
5 000 euros par pièce, entre 1 et 4 pièces
10 000 euros par pièce, entre 5 et 10 pièces
15 000 euros par pièce strictement au-delà de 10 pièces
Nous retenons le codage suivant :
Surplus de capital : 0=surplus négatif ou nul, 1=surplus strictement positif, strictement
inférieur à 10 000 euros, 2=surplus supérieur à 10 000 euros.
Surplus de capital objets de valeur : 0=surplus négatif ou nul, 1=surplus strictement positif,
strictement inférieur à 3 000 euros, 2=surplus supérieur à 3 000 euros.
Par souci de simplicité dans la mise en œuvre au niveau du service Informatique du nouveau
processus de tarification, et pour une communication aisée, nous faisons les choix suivants.
Pour toutes les garanties et au global, les variables:
surplus de capital
surplus d'objets de valeur
Interviennent dans la prime pure par ajustement additif sur la prime pure globale issue des
modélisations
Pour la garantie Incendie, la variable insert sera tarifée après calcul de la prime pure
incendie, par ajustement additif sur la prime pure incendie.
En effet, la variable insert n’est renseignée que pour les affaires nouvelles et remplacements
émis après le 20 septembre 2010.
De plus, nous choisissons de tarifer par la prime pure et pas par un modèle en fréquence-coût
moyen, en raison du nombre de paramètres à estimer dans ce dernier cas qui serait plus
important qu’en modèle de prime pure. La modélisation par type de sinistre impose déjà un
nombre élevé de paramètres à estimer.
Nous présentons dans les deux sections suivantes les constats issus de l’observation des
graphiques de primes pures tous types de sinistres confondus, hors catastrophes naturelles,
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
36
climatiques et dommages électriques, et des graphiques de primes pures par type de sinistre,
en fonction des variables testées.
3.1. Etude descriptive de la prime pure globale hors catnat, options,
dommages électriques, climatiques
L’étude partant de l’idée de la remise à plat de la structure tarifaire, nous proposons dans cette
section des premières sélections de variables basées sur les graphiques seuls.
L’observation des graphiques nous invite à sélectionner les variables suivantes semblant
différencier le niveau de primes pures toutes charges confondues.
-montant du capital assuré : on observe une croissance marquée du niveau de prime pure
moyenne
-nombre de pièces
-région (Ouest majoritaire, Ile de France ; prime pure la plus élevée si on ne considère pas la
région AXA Partenaires moins exposée). On peut faire le classement par ordre de prime pure
croissante : groupe {Ouest, Sud-ouest}, Sud-est, Ile de France.
-réseau de distribution (prime pure plus élevée avec un écart relatif de 21% pour les courtiers
vis-à-vis des agents)
-inhabitation (résidence secondaire/principale) : la prime pure pour les résidences secondaires
est en moyenne plus faible avec un écart relatif de 14,4%. Elle est plus élevée pour les
résidences secondaires que les résidences principales en Dégâts des Eaux.
-présence d’insert : on observe un écart relatif de 73% pour les assurés ayant un insert
-présence d’une dépendance : un écart relatif de 27,5% est relevé pour les assurés ayant une
dépendance.
-zonier : on observe une croissance marquée à partir de la zone H
-segment de risque : on observe peu de différence entre Locataires d’Appartement et
Locataires de Maison, et une croissance nette de prime pure dans la comparaison des
Propriétaires d’Appartement aux Propriétaires de Maison et aux Locataires.
-type d’habitation : les maisons enregistrent une prime pure plus élevée
-type de propriété : les propriétaires ont une prime pure plus élevée
-montant des objets de valeurs : la prime pure est croissante avec le montant des objets de
valeur
Nous avons également testé des variables relatives au client, obtenues du Service Marketing.
Concernant les variables comportementales, les suivantes pourraient éventuellement être
sélectionnées :
-fait d’avoir au moins un enfant : on note un écart relatif de 28%.
-situation familiale : les personnes ayant un conjoint enregistrent un écart relatif de 32,3% vis-
à-vis des célibataires.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
37
-âge : on observe une différence du groupe des personnes d’âge compris entre 35 et 61 ans,
par rapport aux jeunes et aux personnes plus âgées.
-segment client : on note deux groupes de niveau : le plus bas concerne les personnes
retraitées et les employés vivant seuls, l’autre groupe concerne essentiellement les cadres
supérieurs, les professions libérales, artisans.
-catégorie socioprofessionnelle : cadres et artisans ont une prime pure plus élevée que les
employés et chômeurs
-valeur client: la prime pure est croissante avec la valeur client
Certaines variables semblent ne pas différencier énormément le niveau de prime pure suivant
leurs modalités ou ne sont renseignées que sur une partie mineure du portefeuille d’étude. Ces
variables qu’on peut songer à ne pas utiliser pour le modèle sont :
- l’ancienneté du logement : différence peu visible ; la prime pure est plus légèrement plus
élevée pour les logements neufs.
-la franchise : différence de prime pure moyenne peu visible. Contrairement au plan
global où la différence relative de prime pure entre ceux ayant une franchise et ceux
n’en ayant pas n’est que de 0,48%, celle pour les Bris de Glace est de 64%.
Nous présentons dans la section suivante les constats par type de sinistre.
3.2. Etude descriptive de la prime pure par type de sinistre
Bris de Glace
Sur cette garantie, une différence relative de prime pure de 70% entre maison et
appartement est observée, contre 34% au global.
Nous notons une différence relative de prime pure de 36 % pour la variable « dépendance ou
pas » en bris de glace, contre 27% en prime pure globale.
Un écart relatif de 34% entre Locataires d’Appartement et Locataires de Maison est constaté,
alors qu’au global cet écart ne ressort pas.
Nous observons également une différence de 38% sur le fait d’avoir au moins un enfant à
charge, contre 28% au global.
Contrairement au niveau global où la différence relative de prime pure entre ceux ayant une
franchise et ceux n’en ayant pas n’est que de 0,48%, celle pour les Bris de Glace est de 64%.
Pour le nombre de pièces, nous notons pour des écarts relatifs de prime pure :
Classe 1 vs classe 2 : 39,5%, contre 20% au global,
Classe 3 vs classe 2 : 19,8% contre 18,3% au global.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
38
Entre la valeur client 1 et la valeur client 5 on note un écart relatif de 49% alors qu’au global
on note un écart de 32,5%.
On distingue, concernant la région Axa, deux niveaux généraux de primes pures : un pour
l’Ile de France, le Nord-est, l’Ouest et Axa Partenaires, un autre pour le Sud-est et le Sud-
ouest.
On peut noter une opposition célibataire-conjoint (écart relatif 62% contre 31% au global)
peut-être due aux enfants et une opposition célibataire-veuf (écart relatif 28% contre 5% au
global) peut être due à la différence d’âge.
Nous présentons ci-dessous, à titre illustratif, les primes pures moyennes observées par
modalité pour les variables Enfant et Nombre de pièces, en base 1. Pour chaque variable, la
base 1 est la modalité la plus exposée. Nous superposons les primes pures au global et en Bris
de Glace. Ainsi, la différence de prime pure entre les deux modalités « Pas d’enfant » et « Au
moins un enfant » est plus nette sur les Bris de Glace qu’au global, ce qui nous invite à
vouloir introduire cette variable pour cette garantie.
Variable Enfant, base 1=pas d'enfant à charge
0,9
0,95
1
1,05
1,1
1,15
1,2
1,25
1,3
1,35
1,4
0 1 U
IDENFCLI
Prim
e p
ure
en b
ase 1
0
0,2
0,4
0,6
0,8
1
Répartitio
n d
es a
nnées p
olic
e (u
m)
Répartition des années police pp globale avec charge fictive BG
Nombre de pièces, base 1=classe 4
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
1 2 3 4 5
1, 2, 3: 1 à 3 pièces; 4: 4 à 6 pièces; 3: plus de 7 pièces
Prim
e p
ure
base 1
00
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Répartitio
n d
es a
nnées p
olic
e e
n
base 1
00
Répartition des années police pp globale avec charge fictive BG
Figure 9. Variables Enfant et nombre de pièces : Prime pure moyenne observée et répartition des années police.
En bleu, prime pure moyenne toutes garanties confondues. En rouge, prime pure moyenne en Bris de Glace.
Variables sans impact remarquable
Les logements récents ont une prime pure plus élevée d’un écart relatif de 6% en Bris de
Glace. On pourrait penser à l’enlever des variables à intégrer au modèle.
On observe également peu de différence de prime pure selon le canal de distribution.
On remet en question la pertinence du zonier pour la garantie Bris de Glace. En effet, on
n’observe pas de croissance, ni de décroissance marquée.
Dégâts des Eaux
On remarque une croissance marquée de la prime pure avec les zones du zonier.
On note également une prime pure élevée pour les copropriétaires et les appartements.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
39
Les régions Ile de France, Sud-est et Axa Partenaires se démarquent des autres régions par
leurs primes pures plus importantes et les courtiers enregistrent le niveau le plus élevé. Les
courtiers ont une prime pure moyenne de 80% plus élevée que les agents.
Les personnes ayant un conjoint et les personnes séparées ont des primes pures plus élevées.
Ce sont les cadres supérieurs qui voient leurs primes pures au-dessus des autres catégories.
Alors qu’au global l’ancienneté du logement ne joue pratiquement pas, en Dégâts des Eaux,
les logements considérés comme récents ont une prime pure moyenne de 30% plus faible que
les logements plus anciens. Cependant, ce constat est à prendre avec précaution en raison de
la faible exposition des logements récents.
La croissance de la prime pure moyenne avec le capital assuré n’est marquée que lors du
passage des montants strictement supérieurs à 43 000 euros. Sa croissance avec le nombre de
pièces n’est marquée qu’en passant aux plus de sept pièces.
Au global, le fait d’avoir une dépendance augmente la prime pure moyenne de 30%, tandis
qu’en Dégâts des Eaux, cette caractéristique la diminue de 30%.
On pourrait éventuellement enlever du modèle de prime pure en Dégâts des Eaux les
variables :
-franchise
-résidence secondaire/principale
-enfant (augmentation de 20% du fait d’avoir un enfant, alors qu’on constate une
augmentation de 30% au global)
-insert.
A titre illustratif, nous montrons ci-dessous les graphiques des variables Segment de risque et
Enfant. En Dégâts des Eaux, la différenciation suivant la première variable citée est plus forte
qu’au global, alors que pour la deuxième, elle est moins nette qu’au global. Nous pourrions
penser ne pas intégrer la variable Enfant dans cette garantie.
SEGMRISK, base 1=PM
0,55
0,75
0,95
1,15
1,35
1,55
1,75
1,95
2,15
2,35
LA LM PA PM
SEGMRISK
Pri
me
pu
re e
n b
ase
1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Ré
pa
rtition
de
s a
nn
ée
s p
olic
e
Répartition des années police pp globale avec charge fictive DDE
Variable Enfant, base 1=pas d'enfant à charge
0,9
0,95
1
1,05
1,1
1,15
1,2
1,25
1,3
1,35
1,4
0 1 U
IDENFCLI
Pri
me
pu
re e
n b
ase
1
0
0,2
0,4
0,6
0,8
1 Ré
pa
rtition
de
s a
nn
ée
s p
olic
e (u
m)
Répartition des années police pp globale avec charge fictive DDE
Figure 10. Variable Segment de risque en Dégâts des Eaux. Primes pures moyennes observées en Dégâts des
Eaux (courbe rouge) et au global (courbe bleue).
La variable Enfant a moins d’impact qu’au global.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
40
Incendie
On remarque que la présence d’une dépendance impacte en croissance la prime pure de façon
plus marquée qu’au global.
Ce sont les maisons qui sont touchés par des primes pures plus élevées.
La présence d’insert impacte en forte hausse la prime pure ; cependant, la part d’exposition
relevée des personnes ayant un insert n’est que de 0.67%.
Il y a une différence de 30% dans le niveau de prime pure si on compare les résidences
principales aux résidences secondaires, contre moins de 15% au global.
Au niveau des régions, seule la région DOM-TOM se démarque des autres régions AXA par
son faible niveau relatif de prime pure moyenne.
Il y a peu de distinction de niveau de prime pure suivant le réseau de distribution, le fait
d’avoir une franchise et l’ancienneté du logement. La différence de prime pure suivant la
région est également peu marquée. L’impact de la CSP et, de façon similaire, du segment
client, sont peu visibles.
Contrairement au plan global où les cadres supérieurs ont une prime pure plus élevée de 30%
vis-à-vis des employés, on constate que pour les incendies, les cadres supérieurs ne se
démarquent quasiment pas des employés.
Le niveau de prime pure décroît avec les zones.
Responsabilité Civile
La différence de prime pure en Responsabilité Civile (notée RC) est bien marquée entre ceux
ayant au moins un enfant à charge et ceux n’en ayant pas, comme le montre la figure ci-
dessous.
Variable enfant, base 1=pas d'enfant à charge
0,9
1,1
1,3
1,5
1,7
1,9
2,1
0 1 U
IDENFCLI
Prime pure en base 1
0
0,2
0,4
0,6
0,8
1
Répartition des années
police (um)
Répartition des années police pp globale avec charge fictive RC
Figure 11. Variable Enfant en Responsabilité Civile (RC). Primes pures moyennes observées en RC (courbe
rouge) et au global (courbe bleue).
La variable Enfant a plus d’impact qu’au global.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
41
Par ailleurs, on note une augmentation de 49% du niveau de prime pure moyenne pour les
employés avec famille par rapport aux employés vivant seuls.
Les retraités ont une prime pure moyenne se démarquant à la baisse de celle des actifs.
Lorsqu’il n’y a pas de franchise, la prime pure RC est de 10% plus élevée que lorsqu’il n’y en
a pas.
On constate une augmentation de 16% pour les logements anciens par rapport aux logements
récents; cependant, cette remarque est à utiliser avec précaution car seul 4,2% du portefeuille
d’étude se trouve dans la catégorie des logements anciens.
On peut intégrer le critère résidence secondaire /résidence principale pour ne pas pénaliser
ceux souscrivant pour leur résidence secondaire en RC.
On remet en cause la validité du zonier pour la RC.
On constate peu de différence de niveau de prime pure entre les canaux de distribution
Agents-Courtiers-Salariés. On note également peu de différence suivant la région AXA.
Le capital assuré et le capital objet de valeur jouent moins sur le niveau de prime pure
moyenne de la RC qu’au niveau global.
Vol
On valide la pertinence du zonier sur les sinistres Vols.
On note une croissance marquée de la prime pure moyenne suivant les classes du montant
des objets de valeurs, croissance plus forte qu’au plan global.
Les régions Ile de France, Sud-est et Axa Partenaires enregistrent des niveaux de primes
pures moyennes fortement démarquées de la région Ouest par leurs augmentations de plus de
100% par rapport à cette dernière.
On observe que les logements récents ont une prime pure moyenne de 50% plus élevée que
les logements plus anciens ; cependant, ce constat est à prendre avec précaution en raison de
la faible exposition au risque des logements récents.
Ce sont les cadres supérieurs qui ont une prime pure moyenne bien plus élevée que les
autres CSP avec une forte opposition.
Les courtiers présentent une prime pure moyenne de 60% plus élevée que les agents.
L’augmentation de la prime pure moyenne avec la valeur client est plus nette pour le Vol que
celle observée au plan global.
La progression de la prime pure moyenne suivant le nombre de pièces, le type de logement, le
type de propriété, suit la même que celle observée au plan global.
On pourrait ne pas retenir les variables :
-fait d’avoir au moins un enfant à charge,
-insert
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
42
L’aide à la décision quant au choix des variables peut également être orientée par les mesures
de corrélations entre prime pure et variables, ce que nous abordons ci-dessous.
3.3. Corrélation prime pure et variables
Le V de Cramer est un indice compris entre -1 et 1 qui vaut 1 ou -1 à la parfaite association et
1 à l’indépendance. Sa loi n’est pas connue, on ne peut donc pas l’utiliser pour un test
d’indépendance. On l’utilise pour mesurer l’association entre deux variables nominales.
Nous utilisons la mesure de Cramer comme indicateur de corrélation entre nos variables
tarifaires potentielles et une variable qualitative définie comme suit :
-pour la prime pure par type de sinistre, variable binaire suivant que le contrat ait une prime
pure observée nulle ou non
-pour la prime pure globale, variable différenciant quatre niveaux de prime pure.
Présentons à titre illustratif le tableau ci-dessous concernant la prime pure globale, classant les
variables dans l’ordre de mesures de Cramer décroissantes.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
43
Variable
V de Cramer entre
variable et prime
pure
type de propriété 0,428
segment de risque LA-PM 0,381
Type de logement 0,367
nombre de pièces 0,218
Inhabitation (résidence secondaire/principale) 0,211
présence/absence de dépendance 0,17
zonier 0,158
segment client 0,118
situation familiale 0,113
valeur client 0,112
franchise (oui/non) 0,097
âge 0,088
région Axa 0,084
enfant (oui/non) 0,081
CSP 0,074
réseau de distribution 0,047
surplus d'objets de valeur 0,044
insert 0,041
surplus de capital 0,034
ancienneté du logement 0,023
Tableau 5. V de Cramer entre fait d'avoir de la sinistralité et variables
La prime pure globale est notamment liée aux variables segment de risque, nombre de pièces,
inhabitation et dépendance. Les variables comportementales interviennent dans une moindre
mesure.
Pour les Bris de Glace, nous constatons par les mesures de Cramer que la sinistralité est
particulièrement liée au fait d’avoir une franchise, au nombre de pièces, au segment de risque,
et au fait d’avoir un enfant à charge. On observe ainsi la composante comportementale par
cette dernière variable.
En Dégâts des Eaux, le zonier, le segment de risque et la région sont les variables ayant les
mesures de Cramer les plus élevées. Les variables comportementales ne ressortent pas par
rapport à ces variables.
La sinistralité en Incendie est notamment liée au segment de risque, à la catégorie
socioprofessionnelle et au nombre de pièces. La corrélation à la catégorie
socioprofessionnelle pourrait s’expliquer par le fait que les incendies sont concentrés vers des
profils sociaux particuliers, tels que les chômeurs.
La sinistralité en Responsabilité Civile est particulièrement liée aux variables
comportementales : l’âge, le segment client, le fait d’avoir un enfant à charge, la catégorie
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
44
socio-professionnelle, la situation familiale, et aux variables nombres de pièces et segment de
risque qui peuvent être représentatives du fait d’avoir des enfants à charge.
Concernant les variables surplus de capital et surplus d’objets de valeur, on constate par la
mesure de Cramer qu’elles sont liées au fait d’avoir de la sinistralité essentiellement en
Dégâts des Eaux et en Vol, et au global. Pour la simplicité de la mise en œuvre pratique, ces
variables de surplus ne sont pas retenues comme variables pour la modélisation, mais on
appliquera un pourcentage d’augmentation de prime pure globale après modélisation, suivant
l’existence de surplus.
Nous avons présenté des éléments donnant une idée de quelles variables seraient susceptibles
de différencier les niveaux de prime pures. Nous présentons dans la rubrique suivante des
mesures de corrélations entre variables. Celles-ci sont utilisées pour éventuellement retirer
une variable corrélée à d’autres, ou la remplacer par son croisement avec ces dernières.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
45
4. Corrélation entre variables
Par la mesure de Cramer, on constate que les variables présentant les corrélations les plus
élevées sont :
-les variables comportementales : fait d’avoir au moins un enfant à charge, situation familiale,
catégorie socioprofessionnelle ; ces variables peuvent, en effet, apporter la même information
sur le profil social de l’assuré.
On donne ci-dessous à titre indicatif les valeurs du V de Cramer dans l’ordre décroissant.
Croisement V de
Cramer
Situation familiale
avec Enfant 0,734
CSP avec Segment
Client 0,656
Age avec Enfant 0,525
Segment client avec
Enfant 0,512
Segment client avec
Situation Familiale 0,494
CSP avec Enfant 0,479
Age avec Situation
Familiale 0,443
Segment client avec
Age 0,414
CSP avec Situation
Familiale 0,404
CSP avec Age 0,392
Tableau 6. V de Cramer entre variables comportementales
-les variables type de propriété et type de logement : le V de Cramer est à 0,484 ;
-les variables réseaux de distribution et régions : le V de Cramer est à 0,46.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
46
On pourra ainsi remplacer les variables type de propriété et type de logement prises
séparément par leur croisement, et remplacer la variable situation familiale par l’âge, car cette
dernière information est plus simple à obtenir de l’assuré que la situation familiale.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
47
5. Modélisation des primes pures : sélection des variables sur critère
d’ajustement aux données
La structure actuelle de la prime de base de la formule Confort utilise les variables : type
d’habitation, qualité, inhabitation, nombre de pièces, franchise, capital, zone, réseau et
département de l’intermédiaire. La prime s’obtient par multiplication d’une constante par les
coefficients associés à chaque modalité. Ces coefficients peuvent être régionaux ou nationaux.
Dans cette étude, les démarches de calcul de prime pure globale sont les suivantes. Nous
proposons d’abord un modèle unique de prime pure calibré sur l’ensemble des charges, tous
types de sinistre confondus. Dans un deuxième temps, nous tentons de segmenter la structure
suivant le type de sinistre ; une modélisation par type de sinistre est menée, puis la prime pure
globale par contrat est calculée par somme des primes pures des différents types de sinistre.
Ces deux méthodes permettent d’obtenir une prime de base multirisque hors taxes,
chargements et catastrophes naturelles.
Cette prime est ensuite majorée des clauses et/ou options dont le tarif est multiplicatif.
La prime Catastrophes Naturelles est alors calculée et ajoutée.
Sont ensuite prises en compte les primes des clauses et/ou options dont le tarif est additif.
Les taxes ainsi que les différents chargements sont enfin ajoutés.
Dans la modélisation par type de sinistre, l’avantage est que l’on peut affiner le calcul de
prime pure en introduisant les variables adaptées à chaque type de sinistre.
Nous présenterons dans cette partie la méthode utilisée pour les modélisations des primes
pures ainsi que ses résultats, avant de s’interroger dans la partie suivante sur la sélection de
variables. Certes la précision qu’apporte l’ajout des variables est un atout ; il semble aussi
intéressant de mener une réflexion sur la façon de mesurer la robustesse d’un modèle de prime
pure. Nous allons pour cela étendre l’étude à la constitution d’un critère de sélection de
variables combinant la mesure de l’ajustement à l’observé, à celle de la robustesse. Une
pénalité fonction du nombre de paramètres estimés pourra être testée. Dans le cadre de
l’application à la prime pure, la méthode de sélection de variables pourra être utilisée pour
justifier de l’intégration des variables non traditionnellement utilisées, que sont les variables
type Client, ajoutées en plus des variables plus usuelles, que sont les variables caractéristiques
du logement telles que le nombre de pièces.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
48
5.1. Méthode
Nous nous intéressons à modéliser la prime pure. Rappelons que la prime pure observée est le
rapport de la charge de sinistralité d’un contrat, à sa durée d’exposition au risque en année.
La démarche de modélisation de la prime pure par les modèles linéaires généralisés pour
chaque type de sinistre et au globale est la suivante :
-Partir d’une hypothèse de loi usuelle Gamma
-Sélection des variables : mettre en œuvre une méthode Forward par AIC pour sélectionner a
priori des variables: à chaque étape la variable satisfaisant le mieux le critère AIC est ajoutée,
jusqu’à ce que plus aucun candidat ne reste.
Le critère AIC est défini par:
qLLAIC 22
Où LL est la log-vraisemblance du modèle et q est le nombre de paramètres estimés.
On prendra garde au fait que pour des variables corrélées entre elles, l’une d’entre elles étant
incluse à une étape donnée, elle mange une partie de la minimisation de déviance,
minimisation due également à la variable corrélée. A l’étape suivante, la minimisation de
déviance observée sur l’ajout de la variable corrélée sera faible car la baisse de déviance aura
été captée par la variable incluse dans l’étape d’avant.
-Vérifier la cohérence des variables sélectionnées avec les constats de la rubrique « Tris à
plat »
-Eventuellement retirer une variable corrélée à d’autres variables
-Suivant l’analyse des résidus et des déviances des modèles, proposer l’ajout de variables et
l’ajout d’interactions. Nous décrirons plus loin la méthode d’introduction des interactions
éventuelles.
Ainsi, pour une aide à la décision quant à la sélection des variables :
nous testons toutes les variables et certaines interactions et nous observons :
o les déviances et critères AIC des modèles
o les graphes de résidus
nous proposerons ensuite un critère de sélection de modèle pour orienter la décision
d’intégrer des variables comportementales.
Rappelons de plus les choix suivants :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
49
Pour toutes les garanties et au global, les variables surplus de capital et surplus
d'objets de valeur interviennent dans la prime pure par ajustement additif sur la prime
pure globale issue des modélisations
Pour la garantie Incendie, la variable insert sera tarifée après calcul de la prime pure
incendie, par ajustement additif sur la prime pure incendie.
En effet, la variable insert n’est renseignée que pour les affaires nouvelles et remplacements
émis après le 20 septembre 2010.
On définit le niveau de référence comme le profil de risque suivant :
Résidence principale
Pas de dépendance
Zone D
Pas d’enfant
Classe d’âge 4 (46 à 61 ans)
Classe de nombre de pièces : 4 (4, 5, 6 pièces)
Segment client 4 (employés avec famille)
Valeur client 1
Franchise : oui
Réseau de distribution Agents
Locataire d’appartement
Région 66
La prime pure s’obtient en multipliant la constante correspondant au niveau de référence, par
les coefficients des autres modalités.
5.1.1. Cadre et notation du Modèle Linéaire Généralisé
Soit Y la variable réponse observée sur une base de taille n, qu’on cherche à expliquer par p
variables représentant q modalités.
La définition du modèle linéaire généralisé impose à Y de suivre une loi de la famille
exponentielle ; à son espérance d’être liée à une combinaison linéaire des variables dont les
poids βj, pour j=1 à q, sont les inconnues à déterminer.
Fonctions de vraisemblance
Notant a, b et c des fonctions, θ et des réels, la densité de Y est de la forme suivante :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
50
),()(
)(exp);;(
yc
a
byyfY
La log-vraisemblance est donnée par :
),()(
)()),;(log();,(
yc
a
byyfyl YY
Ses dérivées première et seconde par rapport à θ sont données par :
)(
)('
a
byl
)(
)(''2
2
a
bl
Des égalités :
0)(
lE
0)()( 2
2
2
lE
lE
Il en découle :
)(')( bYE
)(
)(
)(
)(''0
2
a
YVar
a
b
D’où
)()('')( abYVar
La variance de Y est considérée comme le produit de deux fonctions ; l’une, b’’(θ) ne dépend
que du paramètre θ et ainsi de la moyenne, et est appelée Fonction Variance ; l’autre est
indépendante de θ et dépend seulement de . La fonction variance considérée comme
fonction de μ sera notée V(μ).
La fonction )(a est usuellement de la forme w
a
)( avec appelé paramètre de
dispersion, aussi noté 2 , et w un poids mis a priori et connu qui varie d’une observation à
une autre.
Fonction Lien
Elle relie la moyenne μ au prédicteur linéaire
q
j
jjx1
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
51
Estimation des paramètres β
Nous estimons les paramètres βj, j=1 à q, par maximums de vraisemblance estimés par
méthode itérative. Des détails sont apportés dans l’Annexe « Algorithme d’estimation dans le
modèle linéaire généralisé ».
Mesure du Goodness-of-Fit : discrépance d’un modèle
Déviance d’un modèle
Soit ); ,ˆ( yl la log-vraisemblance maximisée par un β pour une valeur fixée de .
La discrépance d’un ajustement est proportionnelle à :
)ˆ;()()()(2
1);,ˆ();,(*2)ˆ;(
1
ˆˆ
* yDbbywylyylyD
n
i
yyii
)ˆ;( yD est appelée déviance du modèle ; c’est une fonction des observations uniquement.
)ˆ;(* yD est la fonction Scaled Deviance du modèle.
La déviance est une mesure additive pour des modèles imbriqués si les estimateurs du
maximum de vraisemblance sont utilisés.
Statistique du Χ2 de Pearson
)ˆ(
ˆ1
2
2
V
yn
i
Résidus
Les résidus de Pearson sont définis par )(
ˆ
V
yrP
Ils vérifient 2
1
2
n
i
iPr
Les résidus de déviance sont définis par
)()()(2)ˆ()ˆ( ˆˆ bbywysigndysignr yyiiiD
Ils vérifient Drn
i
iD 1
2
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
52
Techniques de vérification de modèle GLM
Pour identifier des écarts au modèle, au niveau de la loi, de la fonction lien, de la fonction
prédicteur linéaire en les variables, on observe les graphes de résidus de Pearson en fonction
de valeurs prédites (espérance estimée).
Le lecteur pourra se reporter à l’Annexe 8.1 pour des détails sur l’algorithme d’estimation des
coefficients. Des précisions sur le codage des variables qualitatives sont disponibles dans
l’Annexe 8.2.
5.1.2. Première sélection de variables en effets simples
La sélection se fait comme mentionnée plus haut, par algorithme forward suivant le critère
AIC, mesurant l’ajustement aux données par la vraisemblance et intégrant une pénalité
suivant le nombre de paramètres estimés.
Nous choisissons par ailleurs de retirer des variables qu’il nous semblerait peu intuitif
d’intégrer pour un type de sinistre donné. Au-delà de l’argument statistique, nous devons
prendre en compte la dimension pratique : nous devons pouvoir justifier, auprès des services
de Souscription, l’intégration des variables. La sélection des variables résulte ainsi d’un
compromis entre analyse statistique et réalisme commercial.
Par ailleurs, pour argumenter en faveur de l’intégration des nouvelles variables
comportementales, nous comparons les valeurs de statistiques mesurant la qualité de
l’ajustement aux données, des modèles sans ces variables, à celles des modèles les incluant.
5.1.3. Choix de la loi
Certains contrats sont non sinistrés ; en théorie, la loi devant être appliquée devrait être une loi
autorisant les valeurs nulles. Cependant, une loi Gamma sera utilisée pour la modélisation, car
il s’agit d’une loi aisée à transporter vers d’autres logiciels et qu’il est plus simple de
communiquer. Pour prendre en compte les charges nulles dans la modélisation, l’outil utilisé
prend, pour valeur initiale de prime pure, non pas zéro pour les contrats non sinistrés, mais la
moyenne des primes pures.
Nous montrerons à titre indicatif la mise en œuvre sur la garantie Responsabilité Civile de la
loi Gamma et du modèle Tweedie autorisant les zéros, et verrons que nous pouvons
convenablement choisir la loi Gamma. Le lecteur pourra se reporter à l’Annexe 8.9 pour plus
de détails sur le modèle Tweedie.
5.1.4. Recherche d’interaction
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
53
La recherche des interactions se fait de la façon suivante. On effectue une sélection Forward
sur l’ensemble des interactions, sur critère BIC, qui est plus pénalisant suivant le nombre de
paramètres estimées que le critère AIC : qLLAIC 22
qnLLBIC )log(2 Où n est le nombre d’observations et q le nombre de paramètres estimés.
On regarde ensuite graphiquement si les courbes de primes pures moyennes pour une variable
présentent des progressions différentes d’une modalité d’une deuxième variable à une autre.
Si cela est le cas, on pourrait intégrer l’interaction de ces deux variables au modèle. On
regarde de plus les valeurs de déviance divisée par le nombre de degré de liberté et les valeurs
des critères AIC et BIC. Le choix d’intégrer une interaction repose donc sur l’observation
graphique et les critères mentionnés.
Le lecteur pourra se reporter à l’Annexe 8.3 pour des précisions sur les critères AIC et BIC.
5.1.5. Graphiques des résidus et des écarts aux marges
Graphique des résidus
Afin de valider les hypothèses en fonction lien et en loi, nous représenterons les valeurs des
résidus de Pearson en fonction de la valeur prédite. Notre point de vue est de considérer
qu’une structure proche de l’axe des abscisses et sans tendance est convenable et valide les
hypothèses.
Ecarts aux marges
Pour apprécier la qualité de l’ajustement aux données, en plus des statistiques de déviance,
des critères AIC et BIC, nous proposons de représenter simultanément les graphiques des
primes pures estimées moyennes et ceux des primes pures observées moyennes en fonction
des modalités des variables. Nous représentons également, au niveau de référence, la prime
pure moyenne estimée et les bornes entourant les primes estimées d’un écart de deux fois
l’écart-type du paramètre correspondant.
5.2. Application à la prime pure globale mutualisée
On modélise la prime pure tous types de sinistres confondus, hors catastrophes naturelles,
dommages électriques, options et climatiques.
Il faudra ensuite ajouter :
2,10 euros par contrat dus à la répartition de la surcrête à 100 000 euros des
sinistres supérieurs à 1 000 000 d’euros
Un chargement climatiques
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
54
Pour la façon de prendre en compte les catastrophes naturelles dans la prime pure, la méthode
légale est de :
Prendre la prime globale, désigner un pourcentage de cette prime
correspondant à la prime RC et DR, faire :
nouvelle prime pure globale = (1+12/100) ( prime pure globale – {partie de
prime pure RC+DR} ) + {partie RC+DR}
Les variables sélectionnées par algorithme Forward suivant le critère AIC sont les suivantes :
Nombre de pièces
Zonier
Age
Segment de risque
Segment client
Région
Type de propriété
Situation familiale
Surplus d’objets de valeur
Type de logement
CSP
Le graphique suivant montre le pourcentage de réduction du critère AIC à chaque ajout des
variables.
Figure. Pourcentage de diminution de l’AIC dans la méthode Forward pour le modèle global
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
55
En outre, nous décidons d’intégrer la variable Enfant et d’ajouter les variables résidence
secondaire/principale et dépendance qui différencient les niveaux de primes pures moyennes
d’après les tris à plat.
Au final, les variables retenues au titre de la sélection Forward et de notre volonté à
différencier suivant le fait d’avoir un enfant ou pas – volonté légitimée par les tris à plat -,
sont Nombre de pièces
Age
Segment de risque
Segment client
Situation familiale
Résidence secondaire/principale
Dépendance
Enfant
On donne ci-dessous à titre d’exemple les déviances et statistiques AIC et BIC dans la
comparaison des modèles avec zonier et sans zonier, puis avec et sans variables
comportementales.
Impact du zonier
Tableau 7. Ecarts en déviance, AIC et BIC pour la mesure de l’impact du zonier au global
La diminution de 0.92% du critère déviance semble convenable, car elle représente environ
45% de la diminution en pourcentage du critère de déviance lors de l’intégration de la
variable nombre de pièces. Cependant, la construction d’un nouveau zonier sur les résidus de
cette modélisation faisant l’objet d’une étude à part, nous n’intégrerons pas cette variable dans
la modélisation de la prime pure présentée ici.
Impact des variables comportementales
Tableau 8. Ecarts en déviance, AIC et BIC pour la mesure de l’impact des variables comportementales au
global
Variation : écart
relatif en % entre :
avec zonier – sans
zonier
Déviance/nombre de
degrés de liberté
AIC BIC
-0.92 -0.48 -0.48
Variation : écart
relatif en % entre :
avec variables
comportementales –
sans variables
comportementales
Déviance/nombre
de degrés de
liberté
AIC BIC
-0.96 -0.49 -0.49
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
56
Les statistiques du tableau ci-dessus orientent le choix vers l’intégration des variables
comportementales ensemble, qui semblent améliorer l’ajustement aux données. La diminution
de 0.96% du critère déviance semble convenable, car elle représente environ 46% de la
diminution en pourcentage du critère de déviance lors de l’intégration de la variable nombre
de pièces.
Aspect des résidus de Pearson
On montre ci-dessous une représentation des résidus Pearson, en loi Gamma. Une part de
résidus pourrait s’expliquer par un nouveau zonier.
La partie des résidus se détachant du nuage situé contre l’axe des abscisses correspond aux
charges de montants situés autour du seuil d’écrêtement de 100 000 euros. On décide de
garder ces montants dans l’estimation des paramètres.
Largest 1 000 Pearson Residuals
0
500
1000
1500
2000
2500
3000
3500
4000
4500
40 60 80 100 120 140 160 180 200 220
F it ted Value
Figure 12. Résidus de Pearson issus du modèle global.
Le nuage en position supérieure est due aux charges situées autour du seuil d’écrêtement. Le reste des
résidus est convenable car concentré autour de l’axe des abscisses.
Interactions éventuelles
Notons que la recherche des interactions par méthode forward suivant le critère BIC
conduirait à sélectionner les interactions nombre de pièces avec segment de risque ; nombre
de pièces avec résidence et âge avec segment client.
Nous montrons ci-dessous l’aspect des résidus de Pearson dans plusieurs modèles incluant des
interactions.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
57
Largest 1 000 Pearson Residuals,
interactions résidence secondaire/principale avec segment de risque, nombre de pièces avec segment de risque
0
1000
2000
3000
4000
5000
6000
20 70 120 170 220
F it ted Value
Largest 1 000 Pearson Residuals
Interactions Segment client avec Age, Segment Client avec segment de risque
0
500
1000
1500
2000
2500
3000
3500
4000
4500
40 60 80 100 120 140 160 180 200
F it ted Value Figure 13. Interactions résidence avec segment de risque et nombre de pièces avec segment de risque
L’aspect des résidus semble meilleur dans le cas des interactions incluses dans le modèle car
l’ensemble des points est davantage concentré vers l’axe des abscisses. Cependant, la
déviance divisée par le nombre de paramètre est plus faible de 1,3% dans le modèle sans
interaction pièces avec segment de risque et incluant les variables en effets simples. Ceci peut
être considéré comme une diminution significative au vu de la baisse de 2,1% de la déviance
divisée par le nombre de paramètre apportée par l’ajout de la variable Pièces. On choisit in
fine de ne pas les inclure dans le modèle.
Ecarts aux marges sur le modèle retenu
L’écart-type du paramètre estimé (standard error) est calculé par racine du coefficient
diagonal de la matrice X’K-1
X, où X désigne la matrice des variables qualitatives codées en 0-
1 et K est une matrice d’expression précisée dans l’Annexe « Algorithme d’estimation dans le
modèle linéaire généralisé ».
On présente ci-dessous un graphique présentant les primes pures moyennes estimées et
observées par modalité dans l’ordre croissant de prime pure observée. Ceci permet de
visualiser l’ajustement de l’estimé aux données. Nous visualisons également ces primes pures
moyennes au niveau de référence et pour chaque modalité, les bornes entourant les primes
estimées d’un écart de deux fois l’écart-type du paramètre correspondant.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
58
Ecarts aux marges pour la prime pure globale en modèle unique
0
20
40
60
80
100
120
140
160
âge
6VE
resid
S
âge
1
segm
cli 6
segm
cli 3 C
E
enfa
nt 0
âge
2
segm
cli E
âge
5
depen
d NO
N
resid
P SECO
segm
cli 4
depen
d O
UI
enfa
nt 1
âge
4
âge
UN
âge
3
enfa
nt U
sitfam
IN
segm
cli 5
segm
cli I
NC
segm
cli 2
Modalités
Pri
me p
ure
mo
yen
ne e
n e
uro
s
0
10
20
30
40
50
60
70
80
90
100
%
% années police Observed Average
Fitted Average Model Prediction at Base levels
Model Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors
Figure 14. Primes pures moyennes estimées et observées par modalité dans l’ordre croissant de prime observée
Nous estimons à l’aide de ce graphique que l’adéquation moyenne par modalité est
convenable.
Nous retenons au final les variables inhabitation, dépendance, segment de risque, enfant,
situation familiale, âge, nombre de pièces et segment client.
5.3. Application aux primes pures par type de sinistre
Dans un modèle de prime pure segmenté par type de sinistre, on ajoutera les primes pures
des :
Bris de Glace
Dégâts des Eaux
Incendies
Responsabilité Civile
Vol
Il faudra ensuite ajouter :
2.10 euros par contrat dus à la répartition de la surcrête à 100 000 euros des
sinistres supérieurs à 1 000 000 d’euros
Un chargement climatiques
Un chargement attentats : +1.7% sur la prime pure hors catastrophes naturelles
Un chargement légal pour les catastrophes naturelles :
nouvelle prime pure globale = (1+12/100) ( prime pure globale – { prime pure
RC+DR} ) + {prime pure RC+DR}
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
59
On présente à titre indicatif l’application aux Bris de Glace et aux sinistres de type
Responsabilité Civile, pour lesquels on souhaiterait ajouter des variables comportementales.
Les résultats sur les autres garanties sont disponibles dans les Annexes 8.6 et 8.8 pour les
interactions et écarts aux marges, et le lecteur pourra se reporter à l’Annexe 8.7 pour un
récapitulatif de l’effet des variables comportementales sur chacune des garanties.
5.3.1. Bris de Glace
La méthode Forward sur critère AIC conduit à l’évolution suivante de la diminution du
critère :
Figure 15. Evolution du critère AIC dans l’algorithme Forward sur critère AIC en Bris de Glace
Nous notons la diminution très marquée du critère AIC due à l’intégration de la variable
segment de risque. Cette évolution du critère AIC lors de la mise en œuvre de l’algorithme
Forward est un exemple montrant que cet algorithme n’est pas une méthode optimale de
sélection de variables, car l’information apportée par une variable dépend des variables déjà
présentes dans le modèle. La sélection par cette méthode dépend ainsi de l’ordre dans lequel
les variables sont introduites. Nous considérons cependant que l’algorithme fournit quand
même une bonne euristique.
L’algorithme sélectionne dans l’ordre les variables suivantes : nombre de pièces, franchise,
région, résidence, zonier, type de logement, segment client, type de propriété, segment de
risque, surplus de capital et valeur client.
Les variables retenues suite aux études descriptives et la méthode Forward sont :
-le segment de risque
-la région
-le nombre de pièces
-le fait d’avoir un enfant
-la franchise
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
60
-résidence secondaire ou principale
En Bris de Glace, on estime en effet que la sinistralité est liée au fait d’avoir un enfant enclin,
par exemple, à briser une vitre par ses jeux. Même si l’algorithme n’a pas sélectionné cette
variable, nous décidons de l’inclure.
Recherche d’interactions
La recherche d’interaction nous conduit à tester l’interaction inhabitation avec segment de
risque. Nous mesurons son effet en observant les critères AIC et BIC qui pénalisent suivant le
nombre de paramètres estimés.
Tableau 9. Statistiques déviance, AIC et BIC dans les modèles avec interaction et sans interaction
Nous choisissons de garder l’interaction segment de risque avec inhabitation au vu du critère
AIC.
La diminution de l’AIC n’est que de -0.24% ; cependant, nous décidons de l’intégrer quand
même car le graphique suivant montre que les primes pures moyennes estimées sont bien
différenciées avec ce croisement :
Rescaled Predicted Values - CDRESID
0
0,2
0,4
0,6
0,8
1
P S
0
20
40
60
80
100
120
140
160
180
200
% années police
SEGMRISK (LA)
SEGMRISK (LM)
SEGMRISK (PA)
SEGMRISK (PM)
Figure 16. Interaction inhabitation avec segment de risque.
Primes pures plus faibles pour les propriétaires et locataires de maison en résidence secondaire que les
propriétaires et locataires d’appartement en résidence secondaire.
Nous décidons au final de regrouper les locataires et propriétaires de maison ensemble et les
locataires et propriétaires d’appartement ensemble dans l’interaction.
Interaction segment de risque
avec inoccupation
Sans interaction mais effets
simples
Déviance 8 362 478,0 8 362 185,0
Déviance/degrés de liberté 6,065291 6,065083
AIC 1 814 887,0 1 819 337,0
BIC 1 815 033,0 1 819 495,0
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
61
Effet de l’inclusion de la Variable Enfant
On note une diminution des critères AIC et BIC pour le modèle intégrant la variable Enfant de
1%. L’impact est donc bien plus faible que celui donné par l’ajout des autres variables
incluses, mais nous considérons que cela n’est pas négligeable.
Sur l’observation du graphique suivant on constate une concentration convenable des résidus
sur l’axe des abscisses, pour le modèle intégrant la variable Enfant, l’interaction inhabitation
avec segment de risque. La variable Région n’est pas incluse car elle sera prise en compte
dans la construction du nouveau zonier.
Largest 1 000 Pearson Residuals
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
0 2 4 6 8 10 12
F it ted Value
Ecarts aux marges pour la prime pure Bris de Glace
0
1
2
3
4
5
6
7
8
9
pièc
es 1
pièc
es 2
pièc
es 3
franc
hise
1
enfa
nt 0
enfa
nt U
enfa
nt 1
pièc
es 4
franc
hise
0
pièc
es 5
modalité
Pri
me p
ure
mo
yen
ne B
ris d
e G
lace,
eu
ros
0
10
20
30
40
50
60
70
%
% années police Observed Average
Fitted Average Model Prediction at Base levels
Model Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors
Figure 17. Résidus de Pearson issus du modèle Bris de Glace.
Nous observons une concentration convenable des résidus, avec en amont un ensemble se détachant et de
tendance décroissante, correspondant aux charges de sinistre proches du seuil d’écrêtement de 16 000 euros.
Ecarts aux marges en Bris de Glace.
Au final, nous retenons en Bris de Glace les variables et l’interaction suivante :
- segment de risque avec la résidence
-le nombre de pièces
-le fait d’avoir un enfant
-la franchise
5.3.2. Insert en incendie
La variable insert n’est bien renseignée qu’à partir des remplacements et affaires nouvelles à
compter du 20 septembre 2010.
Pour étudier son impact sur le risque, nous raisonnons donc sur ce périmètre.
En nombre de contrats
83,39% N
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
62
16,61% O
En années police
80.69% N
19.31% O
On décide de calculer la différence en euros de prime pure moyenne incendie entre ceux qui
ont un insert et ceux qui n’en ont pas. Ce montant en euros est ajouté à la prime pure incendie
de ceux qui ont un insert.
Ainsi, un montant de 28, 19 euros est ajouté à la prime pure incendie pour un assuré
ayant un insert.
Prime pure moyenne incendie vs global, base 1=pas d'insert, sur contrats
dtman et dtmrp >= 20 septembre 2010
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
N Oinser001
pri
me p
ure
mo
yen
ne e
n b
ase 1
0
10
20
30
40
50
60
70
80
90%
% d'années police prime pure incendie en base 1 prime pure globale en base 1
Figure 18. Analyse de la prime pure moyenne en Incendie, en fonction de la présence d’insert, sur périmètre
restreint.
La croissance de la prime pure en présence d’insert est plus marquée en Incendie qu’en global. Nous jugeons
donc significatif l’impact de la variable Insert en garantie Incendie, dans une modélisation par garantie.
5.3.3. Responsabilité Civile
L’expérience montre que les sinistres graves de type Responsabilité Civile sont fortement
influencés par le fait d’avoir un enfant. Nous souhaitons donc étudier plus généralement
l’intégration de variables comportementales dans la modélisation de la prime pure en
Responsabilité Civile.
Sélection des variables
Comment l’estimation en loi Gamma prend en compte les primes pures nulles :
On remplace les primes nulles par la moyenne des primes pures, soit 10 euros.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
63
L’évolution du critère AIC lors des ajouts successifs des variables par méthode Forward sur
critère AIC est la suivante :
Pourcentage de diminution de l'AIC en Responsabilité Civile
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
CLA
SS_A
GE
CLA
SS_N
BPIE
CS
CDRES
ID
IDEN
FCLI
cdr
egion
l
ZONM
RH
CDSU
RFD
EP
SEGM
CLI
SIT
FACREV
CSP
GRO
UP
VAL_
CLI
SEGM
RIS
K
Variable ajoutée
%diminution de l'AIC en %
Figure 19. Evolution de l’AIC lors de l’application de la méthode Forward en Responsabilité Civile.
Notons l’intégration en première place de la nouvelle variable Age.
L’âge et le nombre de pièces améliorent nettement l’ajustement aux données d’après le critère
AIC. Nous observons qu’une fois ces variables intégrées, la diminution du critère est moins
marquée lors des inclusions de l’information Enfant et segment client, ce qui ne signifie pas
pour autant que ces dernières variables améliorent faiblement l’ajustement du modèle aux
données. En effet, ces variables étant corrélées à la variable âge et l’amélioration de
l’ajustement étant captée par les premières inclusions de variables, le pourcentage de
diminution de l’AIC du à leur intégration est plus faible.
La modélisation pour les variables retenues sur le constat des études descriptives et de la
méthode Forward conduit à retenir les variables et l’interaction suivantes :
Le nombre de pièces
La région
Le segment client
L’interaction Enfant avec Âge
Le graphique suivant nous permet de justifier l’intégration de l’interaction. En effet, nous
observons que la progression de la prime pure moyenne en fonction du critère Enfant dépend
de l’âge de l’assuré. Les personnes les plus âgées ayant un enfant ont une prime pure
moyenne plus faible que les personnes moins âgées ayant un enfant.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
64
Rescaled Predicted Values - Fait d'avoir au moins un enfant à charge
-0,2
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
0 1 U
prim
e p
ure
moyenne e
stim
ée e
n b
ase 1
= p
as d
'enfa
nt,
cla
sse d
'âge 4
= 4
6 à
61 a
ns
0
20
40
60
80
100
120
% d
'années p
olice
CLASS_AGE (01) CLASS_AGE (02) CLASS_AGE (03)
CLASS_AGE (04) CLASS_AGE (05) CLASS_AGE (06) CLASS_AGE (UN)
Figure 20. Interaction âge avec Enfant en Responsabilité Civile : primes pures moyennes et années police.
Nous observons une différence de progressions suivant l’âge de l’assuré. Nous ne souhaitons pas pénaliser les
personnes ayant au moins un enfant à charge lorsqu’elles sont d’âge avancé.
Nous décidons de regrouper la modalité âge inconnu avec la classe d’âge 6 car leur
progression de la prime pure est similaire suivant le fait d’avoir un enfant ou pas, et la
modalité inconnue de la variable Enfant est regroupée avec la modalité Avoir un enfant, qui
est vu comme étant le profil le plus risqué.
Effet des variables comportementales
Il est intéressant d’observer l’impact de l’intégration des variables comportementales en
Responsabilité Civile sur l’ajustement du modèle aux données. Nous pensons en effet
intuitivement que ces variables sont susceptibles d’influencer la prime pure, et ceci est
confirmé par les tris à plat.
Ajouter les variables et interactions comportementales Segment client, Enfant croisée à Âge,
diminue les statistiques AIC et BIC d’un écart relatif de -9.15%. L’intégration de la variable
Nombre de pièces fait diminuer de 6.04% ces critères. Ainsi, nous considérons que l’impact
des variables comportementales prises ensemble est significatif.
Variation : écart
relatif en % entre :
avec variables
comportementales –
sans variables
comportementales
Déviance/nombre de
degrés de liberté
AIC BIC
0.15 -9.15 -9.15
Tableau 10. Ecarts en déviance, AIC et BIC dans la mesure d’impact des nouvelles variables
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
65
La figure ci-dessous montre des résidus du modèle sans variables comportementales plus
diffus que ceux du modèle avec variables comportementales:
(a) (b) Largest 1 000 Pearson Residuals, Loi Gamma
0
5000
10000
15000
20000
0 5 10 15 20 25 30 35 40
F it ted Value
Largest 1 000 Pearson Residuals, Loi Gamma, Sans variables comportementales
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
2 4 6 8 10 12 14 16 18 20 22
F it ted Value
Figure 21. Résidus de Pearson (a) résidus du modèle intégrant les variables comportementales .(b) résidus du
modèle sans variables comportementales
Loi Gamma et modèle Tweedie : écarts aux marges et résidus
La comparaison des primes pures moyennes estimées et observées est représentée ci-dessous
dans les cas de la loi Gamma et du modèle Tweedie. Nous présentons également l’aspect des
résidus de Pearson dans les deux cas.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
66
(a) (b) Ecarts aux marges en RC, loi Gamma
0
5
10
15
20
25
pièc
es 1
segm
cli 6
pièc
es 2
segm
cli 3 64
pièc
es 3 68
segm
cli E
segm
cli 2 66 65 67
pièc
es 4
segm
cli INC
segm
cli 5
pièc
es 5
segm
cli 4
Modalités
pri
me
pu
re m
oy
en
ne
en
eu
ros
0
10
20
30
40
50
60
%
% années police Observed average Fitted Average
model prediction at base levels model prediction + 2standard errors model prediction -2standard errors
Ecarts aux marges en RC, modèle Tweedie
0
5
10
15
20
25
nbpiece
s 1
segm
cli 6
nbpiece
s 2
segm
cli 3 64
nbpiece
s 3 68
segm
cli E
segm
cli 2 66 65 67
nbpiece
s 4
segm
cli INC
segm
cli 5
nbpiece
s 5
segm
cli 4
Modalités
Pri
me
pu
re m
oy
en
ne
en
eu
ros
0
10
20
30
40
50
60
%
% d'années police Observed Average
Fitted Average Model Prediction at Base levels
Model Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors
(c) (d) Largest 1 000 Pearson Residuals, Loi Gamma
0
5000
10000
15000
20000
0 5 10 15 20 25 30 35 40
F it ted Value
Largest 1 000 Pearson Residuals, modèle Tweedie
0
5000
10000
15000
20000
25000
30000
0 5 10 15 20 25 30 35 40
F it ted Value
Figure 22. (a)Ecarts aux marges en Responsabilité Civile en loi Gamma (b) Ecarts aux marges en
Responsabilité Civile en modèle Tweedie (c) Résidus en loi Gamma (d)Résidus en modèle Tweedie
Dans les deux situations, les résidus sont concentrés sur l’axe des abscisses et les points plus
isolés correspondent aux charges de sinistres se situant autour du seuil d’écrêtement de
100 000 euros. En outre, les graphiques par marge montrent que les primes estimées
moyennes par modalité suivent la progression des primes observées moyennes, dans les deux
cas.
Nous estimons que l’hypothèse de la loi Gamma est convenable d’après les observations
précédentes sur l’aspect des résidus et des écarts aux marges. En effet, nous ne notons pas de
différence marquée dans l’aspect des résidus entre les deux hypothèses de loi.
On choisit d’utiliser la loi Gamma car c’est une loi plus aisément transportable dans
d’autres logiciels que nous pourrions utiliser pour des applications futures, et c’est une
loi sur laquelle il est plus facile de communiquer. De plus, le graphe par marge et les
résidus nous paraissent convenables et les coefficients issus du modèle en loi Gamma sont
très proches de ceux du modèle Tweedie.
Au final, nous retenons pour la Responsabilité Civile les variables et interactions suivantes : le
nombre de pièces, le segment client et l’interaction Enfant avec Âge.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
67
5.4. Surplus de capitaux et d’objets de valeur
On décide de calculer les différences en euros de prime pure moyenne globale entre les
niveaux de surplus de capitaux et d’objets de valeur. Ces montants en euros sont ajoutés à la
prime pure globale.
CDSURPVAL
80
90
100
110
120
130
140
0 1 2
C D SUR P VA L
0
20
40
60
80
100
120
140
160
180
200
Weight Prime pure globale en fonction du surplus d'objets de valeur
CDSURPCAP
65
75
85
95
105
115
125
0 1 2
C D SUR P C A P
0
20
40
60
80
100
120
140
160
180
Weight Prime pure globale en fonction du surplus de capital
Figure 23. Différences de primes pures moyennes en fonction du Surplus d’objets de valeur et du surplus de
capital.
5.5. Comparaison de la distribution des résidus bruts issue du modèle
unique à la distribution des résidus bruts issue des modèles par
type de sinistre
Les distributions des résidus sont quasi-similaires. Nous ne pouvons pas en déduire quel est le
meilleur modèle, au sens où les résidus sont plus faibles. Nous en tirons cependant le constat
que les distributions ne sont pas complètement éloignées l’une de l’autre. Nous pouvons ainsi
penser qu’il n’est pas déraisonnable de choisir le modèle par garantie. En effet, nous jugeons
préférable d’utiliser un modèle segmenté par garantie car cela permet de sélectionner les
variables adaptées à chaque risque.
Résidus bruts sur tous les assurés du périmètre d'étude
-250
-200
-150
-100
-50
0
50
100
résid
us b
ruts
modèles par type de sinistre modèle unique
Figure 24. Distribution des résidus issus des modèles unique et par garantie
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
68
Notons que les résidus extrêmes autour de 100 euros sont dus aux observations situées près du
seuil d’écrêtement de 100 000 euros.
Bilan et transition
Nous avons présenté des outils usuels de sélection de variables par méthode forward et
observation des critères AIC, BIC et des résidus.
Nous avons conclu selon ces critères qu’il était raisonnable d’intégrer des variables
comportementales pour certains types de sinistres, notamment pour les sinistres en
Responsabilité Civile. Si l’ajout de ces variables améliore la précision, au sens où
l’ajustement aux données est meilleur, nous souhaitons apporter un outil de définition et de
mesure de la robustesse d’un modèle.
Dans la partie suivante, nous proposons un critère de sélection de modèle, combinant une
composante de mesure de précision, une composante de mesure de robustesse et une
composante de pénalité fonction du nombre de paramètres estimés du modèle.
Nous testerons la robustesse de ce critère de sélection par une étude simulatoire et étudierons
des pistes visant à l’améliorer. Nous montrerons ensuite l’application des méthodes aux
sinistres de type Responsabilité Civile, aux Bris de Glace et à la prime pure globale, dans le
but de valider les variables sélectionnées. En particulier, nous souhaiterions justifier, en Bris
de Glace, l’intégration de la variable Enfant qui ne ressortait pas avec les critères usuels.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
69
6. Sélection d’un modèle robuste sur critère estimé par Bootstrap
La sélection des variables est un point majeur dans les problèmes de modélisation d’une
variable réponse régressée sur un ensemble de variables. En particulier, dans notre cas d’étude
qu’est la refonte de la prime pure, nous souhaitons valider l’intégration des variables
comportementales. Si la précision de l’estimation de la prime pure est meilleure en
sélectionnant ces nouvelles variables, puisque nous contraignons davantage sa valeur en
l’ajustant avec ces variables, est posée la question de la robustesse dans un sens à définir.
Le modèle intégrant les variables souhaitées est robuste si la comparaison des valeurs prédites
sur un échantillon construites sur l’estimation issue d’un autre échantillon, aux valeurs
observées, donne un meilleur résultat que celle obtenue sur un autre modèle.
Dans cette partie, nous examinons d'abord les critères de sélection de modèle de la forme
simple «perte + pénalité ", puis proposons un critère ayant une composante de mesure de
précision, une composante de pénalité suivant le nombre de paramètres estimés et une
composante mesurant la robustesse, estimée par bootstrap.
6.1. Revue des critères existants
Dans ce rapport, nous considérons les méthodes de sélection de modèles qui choisissent les
modèles en minimisant une expression pouvant être écrite sous la forme "Perte + pénalité".
Dans cette section, nous discutons quelques-uns des nombreux choix possibles pour ces deux
termes. Bien sûr, il existe d'autres méthodes telles que celles basées sur le R2
ajusté qui ne
sont pas de cette forme et que nous ne considérons pas ici.
La fonction de «perte»
Le choix classique pour la «perte» est moins deux fois la log-vraisemblance, notée -2LL.
Dans le cas de la loi Normale, cela conduit à
n
Sn n )(
log
, où
n
i
iin yyS1
2))(ˆ()( est
la somme résiduelle des carrés et yXXXXy tt
1)()(ˆ sont les valeurs ajustées du
modèle α.
Les autres fonctions de «perte» qui peuvent être utilisés sont les moindres carrés, l’écart
absolu et d’autres fonctions optimisées évaluées en les paramètres estimés. Des versions
robustes de ces fonctions sont d'un intérêt particulier: voir par exemple, Ronchetti & Staudte
(1994), Konishi & Kitagawa (1996), Müller & Welsh (2005, 2009).
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
70
La fonction de "pénalité"
Le terme «pénalité» peut sanctionner différents aspects des modèles. La forme la plus simple
de pénalité est de la forme )( pfnn , où le multiplicateur de pénalité n est une suite connue,
non stochastique et la fonction de pénalité nf est une suite de fonctions du nombre de termes
dans le modèle p , connue, non stochastique. Pour le choix le plus simple ppfn )( , on
peut choisir le multiplicateur de pénalité du Critère d’information d'Akaike (AIC) 2n
(Akaike, 1973; Mallows, 1973), celui du test de pas à pas 4n ou, plus généralement,
n (Shibata, 1984).
Définissant un modèle fixe, généralement celui ayant le plus grand nombre de paramètres
fp et qui contient toutes les colonnes p de X, matrice des variables explicatives, le
multiplicateur de pénalité peut, en outre, dépendre de f
p , comme dans le Critère d'inflation
du risque (CIR) où le multiplicateur de pénalité est )log(2f
pn de Foster & George,
(1994).
Le multiplicateur peut aussi dépendre de la taille de l'échantillon. Le choix le plus courant
pour ces derniers sont ))log(log( ncn (Hannan et Quinn, 1979), 0 n
n
n
et
n
n
n))log(log(
(Bai et al, 1986; Rao et Wu, 1989) et le multiplicateur du critère bien
connu Bayesian Information (BIC) )log(nn (Schwarz, 1978) etc. Il ya un grand nombre
d'autres choix pour )( pfn : peut-être le plus connu de ces derniers est 2
1)(
pn
ppf n
utilisé avec 2n par Sugiura (1978) et Hurvich & Tsai (1989).
Optimalité
Les fonctions de pénalité abordées au-dessus sont issues de travaux d'optimisation différents:
ainsi, la pénalité p2 du critère AIC minimise la distance de Kullback-Leibler entre le
modèle et la densité vraie (Akaike, 1973) et est minimax optimale pour l'estimation de la
régression fonction (Yang, 2005) ; la pénalité du BIC pn)log( optimise la probabilité a
posteriori du modèle. L'expérience empirique montre que les fonctions de pénalité avec
constante λn = c (comme la fonction de pénalité de l'AIC) produisent des méthodes qui ont
tendance à choisir des modèles plus grands et les fonctions de pénalité avec λn → ∞ de
manière appropriée (comme la fonction de pénalité de BIC) ont tendance à choisir des
modèles plus petits, au moins une fois que n est suffisamment large pour assurer λn> c. En ce
sens, le choix optimal de la fonction de pénalité dépend du véritable modèle.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
71
Autres fonctions de pénalité
D'autres formes de pénalité peuvent aussi être considérées ; ainsi, nous pouvons pénaliser les
paramètres eux-mêmes en utilisant une fonction fn (βα). Les plus connues de ces dernières
incluent la pénalité dite de ridge, soit crête :
p
j
jnf1
2)( , la pénalité de Lasso
p
j
jnf1
)( . D'autres fonctions de pénalité incluent la pénalité du critère d'information de
Takeuchi (TIC) (Takeuchi, 1976), la pénalité du GIC (Konishi & Kitagawa, 1996), la pénalité
du Cp robuste (Ronchetti & Staudte, 1994), la pénalité de SIC (Sugiyama & Ogawa, 2001),
etc. Ces pénalités sont généralement liées au choix de la «perte» et tendent ainsi à être
utilisées dans des critères assez précis.
6.2. Méthode proposée
6.2.1. Définition du critère
S. Müller et A.H. Welsh proposent un critère pour la sélection d’un modèle parmi plusieurs
modèles dans leur article Robust model selection in generalized linear models (2007).
On s’inspire de ce critère dans notre étude pour apporter une aide à la décision quant au choix
du modèle de prime pure.
On en résume ci-dessous le cadre et les étapes.
L’objectif est de sélectionner un modèle parmi plusieurs modèles pré-sélectionnés.
L’ensemble des modèles pré-sélectionnés est déterminé par les études de tris à plat, des
erreurs sur les estimateurs, des graphiques des résidus et par les arguments commerciaux.
Notations et étapes
Soit X la matrice contenant la totalité des p variables tarifaires observées et Y la variable
prime pure pour le type de sinistre étudié, observée sur un échantillon de taille n.
Nous notons Q l’ensemble des sous-ensembles sélectionnés de variables tarifaires.
Pour chaque modèle dans l’ensemble Q, nous calculons un critère, à l’aide de la méthode
Bootstrap des résidus, pour une méthode d’estimation fixée.
La méthode d’estimation utilisée est le maximum de vraisemblance.
Le point de vue que nous adaptons dans la sélection de modèle est qu’un modèle satisfaisant
doit :
-décrire avec parcimonie la relation entre l’échantillon de données y et les variables
représentées par la matrice X
-être capable de prédire de nouvelles observations
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
72
Le critère de sélection à minimiser proposé est le suivant, pour un modèle caractérisé par
l’ensemble de variables eq, q paramètres à estimer, de prédicteur linéaire estimé par i .
n
i i
iin
i i
ii
en XYv
hYE
nqn
nv
hyE
nC
q
1
2
1
2
, ,)ˆ(
)ˆ(1)(
1
)ˆ(
)ˆ(1
Où h est telle que )()( ihYE et )ˆ( iv est la variance estimée de la ième
observation.
En s’inspirant du critère BIC, S. Müller et A. H. Welsh proposent )log()( nn
Les deux premiers termes du critère permettent de pénaliser en fonction des résidus observés
et du nombre de variables du modèle. Le critère est d’autant plus apte à prendre une valeur
faible lorsque la taille de la base de données n est grande.
Le terme de droite (noté D) sert à pénaliser en fonction du résidu espéré dans la prévision. Il
mesure une erreur de prédiction ou la robustesse, tandis que le premier terme mesure
une précision.
C’est le terme de droite D qu’on estime par bootstrap.
6.2.2. L’estimation de la composante de mesure de robustesse par bootstrap
Méthode de Bootstrap des résidus
Pour le calcul de la composante de mesure de robustesse d’un modèle fixé, les étapes de mise
en œuvre du bootstrap des résidus initiaux sont :
-Estimer le modèle sur la base de données initiale
-cela fournit les estimateurs des prédicteurs linéaires et les résidus pour chaque observation
-répartir aléatoirement les résidus centrés aux observations
-en déduire les nouvelles observations ybobs,i
-on obtient ainsi le nouvel échantillon avec associé à l’observation i, la nouvelle valeur ybobs,i
résultant du résidu centré qui lui a été affecté.
-Estimer le modèle sur le nouvel échantillon
-cela fournit les estimateurs des prédicteurs linéaires et les résidus pour chaque observation
que l’on utilisera pour l’estimation du terme D du critère.
-revenir à l’étape de génération de résidus
Nous estimons le critère de sélection par la somme des trois éléments :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
73
bicBO
B
j
n
i i
jiin
i i
ii
CCC
nqnyV
yy
nByV
yy
n
)log(1
)(
)ˆ(11
)(
)ˆ(1
1 1
2
1
2
Où, pour i de 1 à n,
iyest la i
ème observation de l’échantillon initial
iyest l’estimation sur l’échantillon initial
jiyest l’estimation sur l’échantillon bootstrap j, pour j de 1 à B.
V(yi ) est la variance estimée avec l’échantillon initial.
CO est la composante de mesure de précision, CB la composante de mesure de robustesse ou
erreur de prédiction, Cbic est la composante pénalisante selon le nombre de paramètres.
Méthode de Bootstrap par paires
La méthode de bootstrap présentée au-dessus est la méthode dite « Bootstrapping residuals »
décrite par Efron en 1979.
Une autre méthode de bootstrap dans la littérature permet de créer de nouveaux échantillons à
chaque itération ; il s’agit du « bootstrapping pairs » décrite par Efron en 1982.
Il s’agit de tirer aléatoirement n paires {variables, primes pures} à chaque itération pour
former le nouvel échantillon.
Nous choisissons le « Bootstrapping residuals » afin de s’assurer de la représentativité des
différentes modalités dans les échantillons issus des itérations.
6.2.3. Robustesse de la procédure de sélection
Notant eq* le modèle optimal au sens «modèle minimisant le critère sur l’ensemble Q pour n
suffisament grand » soit
1min ,, *
nenQe
en qq
qCC
Sélectionner un modèle consiste à trouver une estimation de eq* notée êq*.
On dira que la procédure de sélection du modèle optimal est robuste si :
1** nqq eê
Nous présentons dans les sections suivantes les résultats d’une étude simulatoire permettant
d’estimer la robustesse de la méthode proposée, et une application aux données de sinistralité
en Responsabilité Civile, en Bris de Glace et au global.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
74
6.3. Etude de la méthode par simulation
Le principe de l’étude est le suivant. Nous comparons les probabilités empiriques estimées sur
les simulations, de l’évènement « sélection du bon modèle supposé connu » par les méthodes :
qLLAIC 2*2
(n)LLBIC logq2
Critère de sélection
Où, pour un modèle donné, LL est la log-vraisemblance, q le nombre de paramètres estimés
et n le nombre d’observations.
On génère des échantillons suivant des modèles de régression Gamma
iiiii xxx 4433221)log(
de vrais vecteurs de paramètres (1,0,0,0), (-1,2,0,0) et (-1,1,1,0). La variable réponse est
distribuée suivant une loi Gamma d’espérance μi et d’écart-type 1.
Les variables explicatives xj,i, pour j de 1 à 4 et i de 1 à n observations, sont générées en tirant
des nombres suivant la loi normale centrée réduite.
Pour chacune des cent simulations, nous avons généré mille observations. Les estimateurs
bootstrap sont calculés sur dix-huit itérations bootstrap car il y a convergence des valeurs
rapidement.
6.3.1. Mesure d’erreur quadratique
Nous proposons tout d’abord d’estimer le critère en utilisant des écarts quadratiques comme
mesures d’erreur, soit les écarts 2)ˆ( ii yy pour l’estimation sur l’échantillon initial et
2)ˆ( jii yy pour l’estimation sur l’échantillon Bootstrap j. C’est ce que nous avons introduit
dans la section 6. 2. 2.
Les résultats de la simulation sont présentés dans la table suivante. Ainsi, pour le vrai vecteur
de paramètres )0,1,1,1(),,,( 4321 , les probabilités de sélection du vrai modèle sont
0,65 pour le critère de sélection, 0,85 pour l’AIC et 0,9 pour le BIC.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
75
vrai modèle modèle testé
critère de sélection
AIC BIC
(-1,1,1,0) 1111 0,34 0,15 0,1
1110 0,65 0,85 0,9
1011 0 0 0
1101 0,01 0 0
1100 0 0 0
1010 0 0 0
1001 0 0 0
1000 0 0 0
(-1,2,0,0) 1111 0 0,04 0,02
1110 0,12 0,18 0,16
1011 0 0 0,17
1101 0,1 0,12 0
1100 0,78 0,66 0,65
1010 0 0 0
1001 0 0 0
1000 0 0 0
(1,0,0,0) 1111 0 0 0
1110 0 0,01 0
1011 0 0,01 0
1101 0 0,07 0,05
1100 0,24 0,08 0,08
1010 0,05 0,12 0,12
1001 0,08 0,11 0
1000 0,63 0,6 0,75
Tableau 11. Probabilités de sélection estimées, basées sur l’estimateur de maximum de vraisemblance
et la mesure d’erreur quadratique.
Les résultats reposent sur 100 simulations et le Bootstrap sur dix-huit itérations.
Dans cette simulation la performance globale du critère est moins bonne que les critères AIC
et BIC.
6.3.2. Mesure adaptée à la loi Gamma
Afin d’améliorer la performance de la méthode décrite, nous proposons de tester une mesure
adaptée à la loi Gamma. Pour cela, on remplace l’écart sur les n observations
n
i i
ii
yV
y
1
2
)(
)ˆ( par
n
i i
ii
i
i yy
1 ˆ
ˆ
ˆlog2
qui est la déviance de la loi Gamma,
Où )(YVi est la variance de l’ième observation,
i est l’estimation de l’espérance E(Yi).
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
76
Avec cette mesure, la probabilité estimée empirique de sélection du premier bon modèle pour
est de 0,75 par la méthode décrite.
vrai modèle modèle testé
critère de sélection
(-1,1,1,0) 1111 0,25
1110 0,75
1011 0
1101 0
1100 0
1010 0
1001 0
1000 0
(-1,2,0,0) 1111 0
1110 0
1011 0
1101 0,19
1100 0,81
1010 0
1001 0
1000 0
(1,0,0,0) 1111 0
1110 0
1011 0
1101 0
1100 0,18
1010 0
1001 0,08
1000 0,74
Tableau 12. Probabilités de sélection estimées, basées sur l’estimateur de maximum de
vraisemblance et la mesure adaptée à la loi Gamma.
Les résultats reposent sur 100 simulations et le Bootstrap sur dix-huit itérations.
Nous estimons qu’il est plus satisfaisant d’utiliser la mesure en déviance que la mesure
quadratique.
Le graphique ci-dessous représente à titre illustratif les valeurs de la composante de mesure de
robustesse sur les huit modèles testés, relevées sur une simulation sélectionnant le vrai modèle
2. Nous y constatons un décrochement à partir du modèle 3 testé, tandis que la différence de
valeur entre les modèles 1 et 2 est peu visible.
Nous observons par ailleurs sur le reste des simulations que les simulations sélectionnant le
mauvais modèle 1 présentent des différences faibles de valeurs de critère entre modèle 1 et
vrai modèle. Nous jugeons donc convenable l’efficacité de la procédure de sélection
proposée.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
77
Composante de mesure de robustesse
Vrai modèle: liste 2
0
0,5
1
1,5
2
2,5
3
3,5
4
bcritere
1
bcritere
2
bcritere
3
bcritere
4
bcritere
5
bcritere
6
bcritere
7
bcritere
8
Listes de variables
um
0
0,5
1
1,5
2
2,5
3
base
1
composante de mesure de robustesse composante de robustesse en base 1
Figure 25. Evolution de la composante de mesure de robustesse selon le modèle.
Notons le décrochement de valeur à partir du modèle 3.
Point d’attention
La méthode de comparaison des critères utilisée ici est la méthode basée sur des simulations.
Les résultats obtenus sur des simulations donnent des conclusions très différentes suivant la
taille de l’échantillon et la complexité du vrai modèle. Les modèles simulés ici sont très
simples. BIC sélectionne alors le vrai modèle, et AIC le vrai modèle ou un modèle plus grand.
Pour autant, ceci ne doit pas nous amener à conclure que le critère BIC est plus performant
pour le choix du vrai modèle. En effet, lorsque le modèle est plus complexe, la littérature
constate que BIC devient moins performant qu’AIC car même pour de grandes tailles
d’échantillon, BIC sélectionne des modèles sous-ajustés.
Nous ne concluons pas d’une étude simulatoire qu’un critère est le meilleur. Nous constatons
seulement que la performance sur cette étude de notre critère de sélection est convenable. Le
choix d’un critère de sélection de modèles doit être conditionné par l’objectif de l’analyse. Ici,
nous souhaitons valider l’intégration de nouvelles variables en vérifiant que la robustesse ne
s’écroule pas, et utilisons ainsi le critère de sélection proposé car il permet à la fois une
estimation de l’ajustement aux données et celle de la robustesse d’un modèle.
Dans la section suivante, nous présentons un exemple de mise en œuvre sur les charges de
type Responsabilité Civile. Les primes pures étaient observées sur plus d’un million de
contrats mais nous estimons le critère de sélection sur deux cent mille observations pour plus
de rapidité de calcul.
6.4. Application en Responsabilité Civile et analyse du critère
L’apport de la méthodologie est d’orienter la décision d’intégrer des variables
comportementales dans les modèles par type de sinistre.
On relève la valeur du critère de sélection pour les modèles :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
78
sans variables comportementales
avec toutes variables comportementales souhaitées sur la base des observations
graphiques et des critères usuels
avec l’ajout une à une ou deux à deux de variables comportementales.
On relève également la variation de l’erreur de prédiction en ajoutant une variable considérée
fondamentale du point de vue variation de l’AIC.
Comparaison sans variables comportementales / avec variables comportementales en
mesure quadratique
Avec les variables comportementales, en Responsabilité Civile, sur 200 000 observations,
et dans les conditions suivantes :
Sans prendre en compte les résidus associés aux primes pures nulles dans le calcul
de la partie du critère mesurant l’ajustement à l’observé, soit calcul de cette
composante sur 4 366 contrats,
En affectant des résidus centrés comme nouveaux résidus aux observations,
suivant la loi de fonction de répartition la fonction de répartition empirique
associée aux résidus initiaux,
avec la mesure d’erreur quadratique
le critère de sélection vaut C=7,56, ventilé en les trois composantes comme suit :
Composante de mesure de robustesse : CB= 1,032
Composante de mesure d’ajustement aux données : CO= 6,53
Composante de pénalité suivant le nombre de paramètres : Cbic= 0,0016
Notons qu’en intégrant les résidus des primes pures nulles dans la partie du critère mesurant
l’ajustement à l’observé, nous augmenterions la valeur de cette composante dans le critère de
sélection qui serait alors 107 fois plus grande que la partie estimée par Bootstrap. C’est
pourquoi nous avons choisi de retirer les résidus des primes pures nulles dans l’estimation de
CO.
Sans les variables comportementales, en RC, sur 200 000 données, dans les mêmes
conditions que précédemment, nous obtenons les valeurs estimées suivantes :
C=8,38, ventilé comme suit :
CB=1,035
CO=7,35
Cbic=5,5.10 -4
Stabilité de l’estimation de la composante de mesure de robustesse sur les échantillons
bootstrappés
Pour juger de la stabilité de l’estimation de la mesure de robustesse, nous avons observé la
distribution des résidus initiaux et celle des résidus centrés, pour les deux modèles testés.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
79
Nous avons observé de plus pour ces deux modèles, sur quelques échantillons bootstrapés, la
distribution des erreurs de prédiction, celle des valeurs simulées et celle des valeurs estimées.
Le constat est que la distribution des résidus est la même pour les différentes itérations.
En outre, nous observons sur le graphe suivant la convergence de la valeur de l’erreur de
prédiction avec les itérations, et ceci rapidement :
Erreurs de prédiction moyennes
Avec variables comportementales
Cas 2 iter18
Convergence au-delà de 10 itérations bootstrap
1,0305
1,031
1,0315
1,032
1,0325
1,033
1,0335
1,034
1,0345
1,035
itération-échantillon
mo
yen
ne d
es e
rreu
rs d
e p
réd
icti
on
.
Un
éch
an
tillo
n c
orr
esp
on
d à
un
e
itéra
tio
n
99,8
99,85
99,9
99,95
100
100,05
100,1
100,15
moyenne des erreurs de prédiction
moyenne des erreurs de prédiction base
100=moyenne
Figure 26. Convergence de l’estimation de l’erreur de prédiction
Comparaison en mesure de déviance adaptée à la loi Gamma
Avec la mesure d’erreur en déviance, nous obtenons les valeurs suivantes :
Liste testée CB CO Cbic C = CB+CO+Cbic bic aic
liste 1 : avec variables comportementales
1,254 1,248 0,002 2,504 61 750,161 61 474,597
liste 2 : sans variables comportementales
1,286 1,286 0,000549 2,573 61 683,337 61 591,482
Tableau 13. Comparaison des critères de sélection sur les deux modèles.
Le critère de sélection invite à sélectionner le modèle comportant les variables comportementales. Le critère bic
ne le sélectionne pas et nous pouvons penser que cela est du au fait qu’il pénalise fortement en fonction du
nombre de paramètres estimés.
Soit, pour un critère fixé, en prenant pour base 1 la valeur moyenne du critère sur les deux
listes testées :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
80
Liste testée, base 1=moyenne du critère
CB CO Cbic C = CB+CO+Cbic bic aic
liste 1 : avec variables comportementales
0,987 0,985 1,500 0,986 1,000 0,999
liste 2 : sans variables comportementales
1,012 1,015 0,500 1,013 0,999 1,000
Tableau 14. Comparaison des critères de sélection sur les deux modèles en base1.
Le critère de sélection invite à sélectionner le modèle comportant les variables comportementales.
Le critère BIC pénalise le nombre de paramètres estimés de façon plus importante que le
critère Aic. Appliqué ici, il invite à sélectionner le modèle le plus parcimonieux qu’est le
modèle sans variables comportementales.
Le critère de sélection et le critère AIC valide le choix du modèle intégrant les variables
comportementales.
La différence vis-à-vis de la moyenne du critère est plus remarquable dans le cas du critère de
sélection. Ainsi, il semblerait plus aisé de sélectionner un modèle à l’aide de ce critère qui
différencie plus nettement les modèles testés que les critères AIC et BIC.
Evolution du critère de sélection sur huit modèles
Nous présentons ci-dessous l’évolution des composantes du critère de sélection et des critères
AIC et BIC pour huit modèles testés afin de mesurer la sensibilité des critères étudiés aux
changements de modèles.
Le tableau ci-dessous résume les huit modèles testés. Ainsi, le modèle 1 inclut toutes les
variables comportementales et les variables ordinaires, le modèle 2 ne comporte que les
variables caractéristiques du logement. Modèle Variables du modèle Nombre de paramètres estimés q
1
interaction âge avec enfant segment client
nombre de pièces région
26
2 nombre de pièces
région 8
3 segment client
nombre de pièces région
14
4 région 4
5 nombre de pièces 4
6 interaction âge avec enfant
nombre de pièces région
20
7 segment client 6
8 interaction âge avec enfant 12
Tableau 15. Modèles testés
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
81
Les valeurs du critère de sélection et de chacune de ses composantes, ainsi que les valeurs des
log-vraisemblances et des critères AIC et BIC sont relevées sur les huit modèles testés, dans
la table ci-dessous.
Nous représentons ensuite sur le graphique qui suit les listes sélectionnées dans l’ordre par le
critère de sélection. Les modèles 1 et 6 sont les deux premiers sélectionnés par ce critère ; ce
sont aussi les deux premiers modèles retenus par le critère AIC.
Au contraire, le critère BIC est très pénalisant vis-à-vis du nombre de paramètres estimés,
comparativement au critère de sélection proposé, et sélectionne un modèle plus parcimonieux
qu’est le modèle 2.
CB CO Cbic=log(n)/nq
C =
CB+CO+
Cbic
ll bic aic
Liste 1 1,254 1,248 0,00164 2,504 -30710,298 61750,161 61474,597
Liste 2 1,286 1,286 0,00054 2,573 -30786,741 61683,336 61591,482
Liste 3 1,270 1,267 0,00097 2,538 -30749,618 61694,534 61531,237
Liste 4 1,306 1,306 0,00024 2,612 -30825,548 61699,921 61659,097
Liste 5 1,304 1,304 0,00030 2,609 -30822,092 61705,215 61654,184
Liste 6 1,263 1,258 0,00128 2,522 -30730,063 61716,454 61502,126
Liste 7 1,310 1,310 0,00036 2,621 -30834,247 61741,730 61680,494
Liste 8 1,307 1,305 0,00073 2,614 -30825,031 61796,536 61674,063
Tableau 16. Valeurs des critères sur huit modèles testés.
En gras, figurent les valeurs minimales des critères.
Observation des critères en base 1 =moyenne pour chaque critère,
dans l'ordre croissant du critère de sélection
0,94
0,95
0,96
0,97
0,98
0,99
1
1,01
1,02
1,03
liste 1 liste 6 liste 3 liste 2 liste 5 liste 4 liste 8 liste 7
liste
critè
res h
ors
bic
like, en b
ase 1
=m
oyenne
pour
chaque c
ritè
re
0
0,5
1
1,5
2
2,5
Cbic
en b
ase 1
=m
oyenne d
e C
bic
Cb Co C=Cb+Co+Cbic ll bic aic Cbic
Figure 27. Evolution des critères en base 1 suivant le modèle testé.
Le premier modèle sélectionné par le critère de sélection est, comme le critère AIC, le modèle intégrant les
variables comportementales. Les critères BIC et AIC évoluent avec des variations moins visibles que le critère
de sélection.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
82
Nous réalisons ci-dessous un zoom sur l’évolution des critères AIC et BIC dans l’ordre
croissant des valeurs du critère de sélection. Le critère AIC suit la croissance du critère de
sélection mais de façon beaucoup moins marquée, tandis que le critère BIC ne suit pas cette
tendance.
Bic et Aic pour des listes de variables, dans l'ordre croissant du critère de
sélection.
Bic pénalise fortement suivant le nombre de paramètres estimés
0,996
0,997
0,998
0,999
1
1,001
1,002
liste 1 liste 6 liste 3 liste 2 liste 5 liste 4 liste 8 liste 7
liste
base 1
=m
oyenne d
u c
ritè
re
bic
aic
Figure 28. Zoom sur les critères AIC et BIC pour les listes testées.
Le critère AIC suit le même ordre de sélection que le critère de sélection, alors que le critère BIC n’autorise pas
les modèles peu parcimonieux.
La mise en œuvre sur les primes pures en Responsabilité Civile montre donc que les
variations du critère de sélection d’un modèle à un autre sont plus notables que celle des
critères AIC et BIC.
6.5. Application au modèle unique Global
Dans cette section, nous mettons en œuvre le critère de sélection pour comparer le modèle
unique global sans variables comportementales et avec variables comportementales. Nous
comparons l’effet des variables Age et Enfant par rapport à l’effet de la variable traditionnelle
Nombre de pièces.
L’introduction de l’Age permet de diminuer de 2,07% le critère de sélection, celle de la
variable Enfant de 0,8%, tandis que celle de la variable Nombre de pièces permet une
diminution de 0,9%. Nous pouvons donc penser qu’il est raisonnable d’intégrer la variable
Enfant qui fait décroître le critère de sélection d’un pourcentage proche de la variable usuelle
Nombre de pièces.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
83
Le critère de sélection permet donc d’estimer l’impact des nouvelles variables par rapport à
une variable usuelle et de justifier ainsi leur intégration.
6.6. Application en Bris de Glace
Nous avions vu qu’en Bris de Glace, l’introduction de la variable Enfant était justifiée par
notre volonté intuitive. Nous mettons donc en œuvre le critère de sélection pour voir l’effet de
l’ajout de la variable Enfant sur le modèle, par rapport à l’effet du à l’ajout de la variable
Nombre de pièces qui était une variable jugée essentielle statistiquement.
Nous constatons que l’ajout de la variable enfant permet une diminution du critère de
sélection de 4,8%, alors que l’intégration de la variable Nombre de pièces permet une
décroissance de 0,75%. Nous estimons donc raisonnable d’intégrer la variable Enfant en Bris
de Glace.
Bilan et transition
Avec le nombre d’observations utilisé dans cette application du critère de sélection, nous nous
autorisons ainsi à ne pas trop pénaliser en fonction du nombre de paramètres estimés. En effet,
le poids mis au nombre de paramètres est décroissant avec le nombre d’observations. Dans ce
critère de sélection, la mesure de robustesse ainsi que la mesure d’ajustement aux données
permettent toutes deux de sélectionner le modèle comportant toutes les variables
comportementales que nous souhaitions inclure.
Inclure les nouvelles variables testées améliore ainsi la précision sans dégrader la robustesse
du modèle, dans le sens de notre critère.
Dans la section suivante, nous proposons d’étudier comment évolue le critère de sélection et
la sélection de modèles en résultant, lorsque nous modifions le poids mis au nombre de
paramètres estimés. Ceci permet d’estimer la sensibilité du critère au nombre d’observations,
à la pondération choisie et ainsi la stabilité du critère de sélection.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
84
7. La courbe de sélection de modèles: un outil graphique pour la
sélection de modèles
7.1. Cadre et définition
Stabilité du modèle sélectionné
De nombreuses méthodes de sélection du modèle impliquent la minimisation d'une fonction
pénalisée des données, telles que la log-vraisemblance maximisée ou la somme résiduelle des
carrés sur un ensemble de modèles. La pénalité dans la fonction critère est contrôlée par un
coefficient multiplicateur λ qui détermine le poids donné à la pénalité et les propriétés de la
procédure. Dans le cas de notre critère de sélection proposé dans la section précédente, le
critère à minimiser s’écrit, pour un modèle caractérisé par l’ensemble de variables eq, q
paramètres à estimer, de prédicteur linéaire estimé par i :
)log(1
,
qCC
nqn
CCC
BO
BOen q
La pénalité est le nombre de paramètres q et le poids de la pénalité est log
n
(n)
Dans cette partie, nous proposons d'étudier le critère de sélection de modèle comme une
fonction du multiplicateur de pénalité λ. Le critère de sélection est vu comme une fonction
linéaire du nombre de paramètres estimés, de pente λ et d’ordonnée à l’origine BO CC .
Cette approche peut être interprétée comme l'exploration de la stabilité des critères de
sélection du modèle grâce à ce qu’appellent Welsh et Müller les courbes de sélection du
modèle. Elle conduit à de nouvelles visions sur la sélection de modèles et de nouvelles
propositions sur la manière de sélectionner les modèles.
D’un point de vue pratique, il est important pour une procédure de sélection de variables
d’être stable ou au moins, pour un utilisateur, d’être conscient quand la procédure est instable.
Il y a plusieurs manières de définir la stabilité mais l’idée centrale est que de petits
changements doivent produire seulement de petits effets. Formellement, nous dirons qu’une
procédure de sélection de modèle est instable quand nous sélectionnons un modèle )(ˆn de
dimension )(ˆ np mais, pour un faible δ>0, nous sélectionnons )(ˆ n de dimension plus
petite )(ˆ)(ˆ nnpp . Nous dirons que la procédure est stable dans le cas contraire. Pour
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
85
nous informer sur la stabilité, nous étudions ce qui arrive au critère de sélection de modèle
dans un voisinage de λn en utilisant les courbes de sélection de modèle.
L’approche que nous étudions ici peut être appliquée au critère général de la forme « perte +
pénalité » mais nous fixons notre attention sur le critère de sélection présenté en section 6.
Nous présentons ci-dessous des résultats de calcul de critère de sélection de modèles en RC
sur un échantillon de 200 000 lignes, dix-huit itérations bootstrap, mesure d'erreur de type
déviance, résidus affectés=résidus initiaux centrés, valeurs de primes pures observées et
simulées nulles non prises en compte pour le calcul du critère, que ce soit en composante
précision ou composante robustesse.
Dans l’état initial, le poids de pénalité vaut log(n)/n, où n est le nombre d’observations.
Notre étude vise à:
-montrer qu'il faut se méfier du choix du poids mis devant la fonction pénalisante, car pour
des poids inférieurs à un certain seuil on s'autorise à accepter un modèle avec beaucoup de
paramètre, alors que pour des poids plus grands on ne se permet plus facilement que les
modèles parcimonieux.
-permettre l’exploration de la stabilité du critère de sélection et ainsi du choix du modèle : il
suffit de bouger le poids de la pénalité pour aboutir à la sélection d’un autre modèle
-proposer des méthodes graphiques de sélection de modèles.
Sur le graphique suivant sont tracées, pour les huit modèles testés, les courbes du critère de
sélection en fonction de λ, qui est le poids devant la pénalité. Pour chaque modèle, la courbe
est une droite d’ordonnée à l’origine BO CC
et de pente λ.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
86
Critère de sélection en fonction de lambda=poids devant le nombre de
paramètres
2,45
2,5
2,55
2,6
2,65
2,7
2,75
2,8
0 0,002 0,004 0,006 0,008 0,01 0,012Lambda
Critè
re d
e sé
lect
ion
l1 l2 l3 l4 l5 l6 l7 l8
Figure 29. Courbes des critères de sélection.
Le modèle sélectionné dépend de λ.
Nous observons que pour de faibles valeurs de λ, le critère permet de sélectionner le modèle
liste 1, contenant le plus de paramètres à estimer, au nombre de 26. Dans l’intervalle
intermédiaire de lambda, le critère permet de sélectionner la liste de 14 paramètres estimés.
Pou les plus grandes valeurs, on peut être amené à sélectionner la liste de 4 paramètres
estimés.
Ainsi, suivant le poids mis devant la pénalité, nous sommes amenés à sélectionner des
modèles différents.
Le critère AIC permet de sélectionner le modèle à 26 paramètres contenant les variables
comportementales ; le critère BIC est fortement pénalisant et sélectionne le modèle liste 2 à 8
paramètres.
Nous définissons la courbe de sélection de modèle comme la courbe formée par les
segments joignant les valeurs de critères de sélection minimaux pour chaque λ. Il s’agit des
points correspondants au modèle sélectionné pour chaque λ. Sur le graphique ci-dessous, la
courbe de sélection de modèle figure en trait noir épais. Sur cet intervalle de λ, les modèles
successivement sélectionnés sont les modèles 1 (issu de la courbe rouge), 3 (issu de la courbe
en vert) puis 2 (issu de la courbe en violet).
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
87
Figure 30. Courbes des critères de sélection en couleur et courbe de sélection de modèles (model selection
curve) en trait épais noir.
7.2. Utilisation
A partir de là, nous pouvons introduire une autre procédure de sélection de modèle. Se fixant
une valeur de λ maximale, nous pouvons définir la fenêtre de λ sur laquelle le critère reste le
plus longtemps minimal. La liste de variables sélectionnée est alors celle réalisant le critère
minimal sur cette fenêtre maximale.
Il y a deux moyens de définir la fenêtre sur laquelle le critère reste le plus longtemps minimal.
Tout d’abord, nous pouvons sélectionner le modèle qui correspond au plus grand cathetus
dans le polygone tronqué formé par la courbe de sélection de modèles sur l’intervalle de λ
fixé. Un cathetus est un côté adjacent à l’angle droit d’un triangle rectangle : ici, le cathetus
approprié est le côté horizontal du triangle rectangle dont l’hypoténuse est un segment du
polygone de courbe de sélection de modèles. Dans le cadre de notre application en
Responsabilité Civile, les trois catheti sont montrés sur la figure ci-dessous. Il s’agit des
flèches horizontales. Ce critère de sélection de modèle est dit « LC criterion », pour « longest
cathetus ».
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
88
Figure 31. Courbe de sélection, définition des trois catheti.
Ensuite, la deuxième façon de sélectionner un modèle est de choisir le modèle correspondant
au côté le plus long du polygone tronqué, c’est-à-dire la longueur de l’hypoténuse dans les
triangles rectangles à partir desquels sont extraits les catheti. Ce critère est appelé le « LE
criterion », pour « Longest edge ».
Le critère LE correspond à une philosophie qui tend à sélectionner les modèles plus larges que
les modèles sélectionnés par le critère LC. Le critère LC est plus parcimonieux que le critère
LE.
Bilan
Les courbes de sélection de modèles sont utiles dans l’étude de la sensibilité du choix du
modèle par rapport au poids de pénalité. Quand nous sélectionnons un point particulier d’une
courbe de sélection de modèle, comme lorsque nous utilisons les critères AIC et BIC, nous
obtenons une solution attachée à un point de vue particulier qui est l’opposition performance
prédictive contre performance descriptive. Utiliser la courbe entière est moins attachée à un
point de vue spécifique.
En outre, les courbes fournissent de nouveaux outils graphiques de sélection de modèles.
L’utilisateur peut choisir la forme du critère graphique selon qu’il le souhaite parcimonieux
ou qu’il s’autorise des modèles larges : il peut choisir le critère LC dans le premier cas et le
critère LE dans le deuxième.
De plus, notons que l’approche développée ici dans le cadre de notre critère de sélection à
trois composantes, dont une estimée par bootstrap, peut être mise en œuvre au critère plus
général « Perte+Pénalité ».
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
89
Conclusion et extension possible
Cette étude a permis d’apporter une aide à la décision dans la sélection de variables, en
introduisant un critère de sélection de modèles pour chaque garantie. Ce critère a permis de
nous conforter dans notre choix de modèles incluant des variables non utilisées à l’ordinaire.
Nous avons construit un modèle de prime pure segmenté par garantie et incluant des variables
relatives au client, tels que l’âge et le fait d’avoir un enfant. La modélisation s’est faite sur des
données de sinistralité retraitée de façon segmentée, dans l’écrêtement des charges actualisées
et dans la mutualisation des surcrêtes. Les méthodes usuelles de sélection de variables et
d’interaction par les critères AIC et BIC ont été utilisées pour proposer les modèles des
garanties, puis une procédure nouvelle de sélection de modèle a été mise en œuvre pour
valider nos choix. Cette dernière méthode s’appuie sur les travaux de recherche de Welsh et
Müller et permet de compléter la vision des critères AIC et BIC, en incorporant au critère une
composante de mesure de la robustesse estimée par bootstrap. Elle présente l’avantage de
mesurer la robustesse pour une erreur adaptée à la loi Gamma, ce qui est plus raisonnable
dans le cadre de notre hypothèse de loi et dans la pratique peut fournir une sélection plus juste
des modèles. En outre, nous avons présenté une méthode graphique d’évaluation de la
stabilité de la nouvelle procédure ; celle-ci est stable si le modèle sélectionné est le même
quand le poids de la pénalité du critère varie d’un écart choisi par l’utilisateur. Par ailleurs,
nous avons inclut le critère de sélection dans le cadre plus général d’une courbe de sélection
de modèles, ce qu’appellent Welsh et Müller « model selection curve ». L’approche a consisté
à analyser la courbe entière du critère de sélection en fonction du poids de la pénalité, plutôt
que des points individuels sur la courbe comme le font les critères AIC et BIC.
L’amélioration qui pourrait être apportée est la mise en œuvre de la construction de plusieurs
courbes de sélection de modèle sur des échantillons obtenus par bootstrap, ce qui conduirait,
pour chaque modèle candidat, au calcul de sa probabilité de sélection pour un poids de
pénalité fixé. Le meilleur modèle pourrait être alors celui dont la probabilité de sélection est la
plus grande, pour un poids de pénalité donné. En outre, notons que le critère de sélection mis
en œuvre dans cette étude a permis de valider des modèles choisis suivant les conclusions
apportées par les critères AIC, BIC, les tris à plat et les résidus. Nous l’avons utilisé pour
comparer quelques modèles entre eux, notamment pour confronter modèle avec nouvelles
variables au modèle sans ces variables. Des travaux pourraient être faits pour construire une
méthode type backward ou forward utilisant le critère de sélection.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
90
8. Annexes
8.1. Algorithme d’estimation dans le modèle linéaire généralisé
Nous rappelons d’abord les notations du modèle linéaire généralisé.
Notant a, b et c des fonctions,
),()(
)(exp);;(
yc
a
byyfY
),()(
)()),;(log();,(
yc
a
byyfyl YY
)(
)('
a
byl
)(
)(''2
2
a
bl
Des égalités :
0)(
lE
0)()( 2
2
2
lE
lE
Il en découle :
)(')( bYE
)(
)(
)(
)(''0
2
a
YVar
a
b
D’où
)()('')( abYVar
La variance de Y est considérée comme le produit de deux fonctions ; l’une, b’’(θ) ne dépend
que du paramètre θ et ainsi de la moyenne, et est appelée Fonction Variance ; l’autre est
indépendante de θ et dépend seulement de . La fonction variance considérée comme
fonction de μ sera notée V(μ).
La fonction )(a est usuellement de la forme w
a
)( avec appelé paramètre de
dispersion, aussi noté 2 , et w un poids mis a priori et connu qui varie d’une observation à
une autre.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
91
La fonction lien g, monotone et deux fois différentiable, relie la moyenne μ au prédicteur
linéaire
q
j
jjx1
ixg ')(
Où β est le vecteur des paramètres inconnus, x’i est un vecteur ligne de taille (q+1) contenant
les variables de régression, incluant la constante.
La log-vraisemblance du modèle pour les n observations s’écrit :
n
i
iiYY ylyL1
);,())(;,(
n
i
i
iii
Y yca
byyL
1
),()(
)())(;,(
Dans le cas spécial de la fonction lien naturelle pour laquelle iixg ')(
n
i
i
iii
Y yca
xbxyyL
1
),()(
)'('))(;,(
Mettant à zéro l’expression, nous obtenons :
)()'(01
axhyxn
i
iiij
avec h=g-1
.
Puis :
n
i i
ii
ii
n
i
i
i
i
i
i
i
YY
YV
yhx
lL
11 )()('
L’approche de Newton-Raphson utilise le développement de Taylor de
YL en fonction de la
variable β. La méthode du scoring permet une simplification en remplaçant la matrice de
taille (q+1, q+1) : '
2
YLpar
n
i
iiiiYYY YVhxx
LLE
LE
1
22
)(/)(''''
Il en découle que la méthode du scoring suit le schéma itératif :
1
ˆ
1
11ˆˆˆ
t
Yttt
L
*ˆ'ˆ'
ˆˆˆ'ˆˆ
111
1
11
11
1
11
1
ttt
t
n
i i
i
iiiittt
yKXXKX
ekxXKX
où :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
92
i
i
iii
iii
ey
ye
ˆ
ˆˆ
* sont évalués en 1
ˆt ,
Et )()('ˆ 21
ii YVhdiagK
Mc Cullagh et Nelder (1983) montrent le résultat asymptotique : ))'(,(ˆ 11 XKXNloi
.
8.2. Codage des variables qualitatives dans le modèle linéaire généralisé
Il existe plusieurs façons de coder les variables qualitatives en une matrice X de valeurs
numériques 0 et 1 ou 0, 1 et -1. C’est la matrice X qui intervient dans les calculs.
La méthode utilisée dans notre étude est la suivante. Soit une variable à q modalités. On se
fixe une modalité de référence. Alors q-1 colonnes de variables dites « dummies variables»
sont créées dans X pour cette variable. Chaque colonne représente une modalité, excepté la
modalité de référence. Les « dummies variables » valent 1 lorsque la modalité associée est
observée, 0 sinon. Lorsque la modalité de référence est observée, les « dummies variables »
valent toutes 0.
8.3. Origine des critères BIC et AIC
Le critère BIC
Nous présentons ci-dessous l’origine du critère BIC en nous appuyant sur le rapport de
recherche d’Emilie Lebarbier et Tristan Mary-Huard, publié en 2004, reprenant l’auteur
Raftery (1994).
Soit un échantillon de taille n : X=(X1,X2,…,Xn) de variables indépendantes de densité
inconnue f. L’objectif est d’estimer f.
Soit un ensemble fini de modèles {M1…Mm}. A un modèle Mi, est associée une densité gMi de
paramètre θi appartenant à un espace θi de dimension Ki.
Nous utilisons le contexte bayésien, soit θi et Mi vus comme des variables aléatoires de loi
dite a priori. La probabilité a priori sur Mi est notée P(Mi). Pour un modèle Mi donné, la
distribution a priori du paramètre θi est notée P(θi | Mi). L’avantage de cette approche est de
pouvoir tenir compte des informations que peut détenir l’utilisateur, en donnant un poids plus
important à certains modèles. Cependant, la distribution a priori posée sur les modèles Mi est
souvent uniforme et les considérations asymptotiques montrent que la distribution a priori des
θi n’intervient pas dans la forme du critère BIC.
Le critère BIC sélectionne le modèle MBIC tel que :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
93
)(maxarg XMPM iM
BIC
i
L’idée derrière est que le BIC cherche à sélectionner le modèle le plus vraisemblable, ayant
observé les données.
D’après la formule de Bayes, )( XMP i s’écrit
)(
)()()(
XP
MPMXPXMP
ii
i
Supposons que la loi a priori des modèles Mi est non informative, c’est-à-dire qu’aucun
modèle n’est privilégié:
)(...)()( 21 mMPMPMP
La recherche du modèle selon le critère ne nécessite qu’alors la distribution )( iMXP . Nous
obtenons cette dernière par intégration de la distribution jointe du vecteur θi et des données X
sachant Mi, sur les valeurs de θi :
iiiiMiiii dMPXgdMXPMXPi
ii
)(),(),()(
Où ),( iM Xgi
est la vraisemblance correspondant au modèle Mi de paramètres θi :
),(),( iiiM MXPXgi
Ecrivons cette intégrale sous la forme :
i
i
i
g
i deMXP )()(
Où )(),(log)( iiiMi MPXggi
La probabilité )( iMXP est dite vraisemblance intégrée pour le modèle Mi.
Nous l’approchons par l’approximation de Laplace.
Proposition. Approximation de Laplace Soit une fonction dL : deux fois
différentiable sur d et atteignant un unique maximum sur d en u*. Alors
)()(''2 12
1
*2
)()( *
nOuL
nedue
d
unLunL
d
Nous appliquons cette approximation à la fonction :
n
MPXg
nn
gL
iin
k
ikM
i
in i
)(log),(log
1)()(
1
Nous notons )(maxarg*
ini Lii
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
94
*i
A
l’opposé de la matrice hessienne de la fonction Ln du paramètre vecteur θi, évaluée au
point θi*.
Nous obtenons
)(2
)( 12/1
2/
)(*
*
nOA
neMXP
i
i
i
K
gi
Raftery montre qu’on peut remplacer asymptotiquement, en introduisant un terme en O(n-1/2
) ,
θi* par i et *
i
A
par i
I
où :
),(1
maxargˆiM
Θθi Xg
n i
ii
est l’estimateur du maximum de vraisemblance
ii
lj
li
ji
iM XgEI i
i
ˆ
)),(log(
,
2
ˆ est la matrice d’information de Fisher pour une
information.
Raftery montre qu’alors, en négligeant les termes O(1) et O(n-1/2
) :
)log(2
))ˆ,(log())(log( nK
XgMXP iiMi i
C’est de cette approximation que le critère BIC est issu.
Comparaison AIC/BIC
L’objectif du critère AIC introduit par Akaike en 1973 est de choisir le modèle vérifiant :
dxxf
xg
xgEMfdM
iM
iM
iKLM
AIC
i
i
i
)()ˆ,(
),(log),(minarg
Avec :
dxxfxg
xfgfdKL )(
)(
)(log),(
désignant la distance de Kullback-Leibler entre deux
densités f et g ;
i vérifiant
Le premier terme mesure la distance de f au modèle Mi (biais) et le deuxième la difficulté
d’estimer ),( iM xgi
(variance).
En pratique, les résultats obtenus sur des simulations donnent des conclusions très différentes
suivant la taille de l’échantillon et la complexité du vrai modèle. Généralement les modèles
simulés sont simples. Le critère BIC sélectionne alors le vrai modèle, et AIC le vrai modèle
))(.,,(inf),( iMKLiKL ii
gfdMfd
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
95
ou un modèle plus grand. Lorsque le modèle est plus complexe, par exemple composé d’une
multitude d’effets, le critère BIC peut devenir moins performant que le critère AIC car même
pour de grandes tailles d’échantillon, le critère BIC sélectionne des modèles sous-ajustés.
8.4. Calibrage d’une loi Pareto aux incendies et attentats
Dans le cadre de l’étude sur l’écrêtement des charges de sinistres en Incendie et Attentat, une
loi de Pareto a été calibrée sur ces charges.
Le tableau ci-dessous présente les valeurs des paramètres α et θ de la loi Pareto calibrée sur
les charges de sinistres actualisées Incendie et Attentat, ainsi que le seuil d’écrêtement obtenu
par résolution de l’inéquation imposant au coefficient de variation d’être inférieur à une
valeur fixée par l’utilisateur, ici 2,34.
alpha 0,88
theta 1908,89
seuil à déterminer 100027,74
formule<=0 -0,001
coefficient de variation fixé par
l'utilisateur 2,34
8.5. Répartition des années police
Nous indiquons ci-dessous, à titre indicatif, la répartition des variables réseau de distribution,
segment de risque et catégorie socioprofessionnelle.
Variable réseau de distribution
La variable Réseau de distribution peut prendre les modalités Agent, Salarié, Courtier.
modalités Répartition des années police suivant le réseau de ditribution
90,20%
5,80%4,00%
Agents généraux Courtiers Salariés
AGT Agents
généraux
CUT Courtiers
SAL Salariés
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
96
Variable Segment de risque
modalités Répartition des années police suivant le segment de risque
35,71%
13,10%9,15%
42,04%
LA LM PA PM
LA Locataire
d’appartement
LM Locataire de
maison
PA Propriétaire
d’appartement
PM Propriétaire de maison
Regroupements de CSP
Les groupes retenus de catégories socioprofessionnelles sont les suivants :
modalités Répartition des années police suivant la catégorie socio-professionnelle
7,70%
5,60%
5,20%
54,20%
7,10%
20,10%
Agriculteurs, artisans, professions libéralesCadres supérieurs, chefs en entrepriseChômeurs , étudiantsEmployés, ouvriers, professions intermédiairesInconnusRetraités
ARTI
Agriculteurs,
artisans,
professions libérales
CADRE S
Cadres supérieurs,
chefs en
entreprise
CHOMETU Chômeurs,
étudiants
EMPLOYE
Employés,
ouvriers,
professions
intermédiaires
INCONNU Inconnus
RETRAIT Retraités
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
97
8.6. Graphiques des interactions estimées
Dégâts des Eaux, Bris de Glace et Responsabilité Civile
En Dégâts des Eaux, nous avons introduit l’interaction segment client avec une variable ayant
deux modalités : Propriétaire d’appartement et Autres.
Nous distinguons en effet une différence de tendance dans les courbes.
(a) (b) Rescaled Predicted Values
0,8
0,9
1
1,1
1,2
1,3
1,4
Autres PA
N ew SEGM R ISK
prim
e p
ure m
oyenne e
stim
ée e
n b
ase 1
, base 1
=segm
ent client
4 o
u A
utr
es
0
50
100
150
200
250
300
350
400
450
500
% a
nnées p
olice
SEGMCLI (2) SEGMCLI (3) SEGMCLI (4) SEGMCLI (5) SEGMCLI (6) SEGMCLI (E) SEGMCLI (INC)
Rescaled Predicted Values
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
P S
C D R ESID
0
50
100
150
200
250
300
350
400
450
500
New SEGMRISK (Locataires) New SEGMRISK (Proprietaires)
(c)
Rescaled Predicted Values
0,5
0,7
0,9
1,1
1,3
1,5
1,7
sans enfant au moins un enfant
N ew ID EN F C LI
prim
e p
ure
moyenne e
stim
ée e
n b
ase 1
, base 1
=pas
d'e
nfa
nt ou c
lasse d
'âge 4
0
50
100
150
200
250
300
350%
New CLASS_AGE (1) New CLASS_AGE (2) New CLASS_AGE (3) New CLASS_AGE (4) New CLASS_AGE (5) New CLASS_AGE (6)
(a) Dégâts des Eaux. Interaction Segment Client avec profil Propriétaire d’appartement/Autres. Les barres
représentent la répartition des années police dans les case. (b)Bris de Glace. Interaction Résidence avec
locataires/propriétaires. (c)Responsabilité Civile. Interaction Enfant avec Age. Nous avons regroupé les
modalités Inconnues pour ces deux variables avec la classe d’âge 6 et le fait d’avoir au moins un enfant.
8.7. Effet des variables comportementales
Le tableau ci-dessous résume, pour chaque garantie et au global, les pourcentages de variation
des critères usuels dus à l’introduction simultanée des variables comportementales souhaitées.
La notation m0 désigne le modèle sans ces variables et m1 désigne le modèle contenant ces
variables.
La référence de diminution de l’AIC est calculée par variation de l’AIC due à l’introduction
d’une variable sélectionnée en premier par l’algorithme Forward sur AIC.
Ainsi, en Dégâts des Eaux, le segment client permet une diminution de 0,26% tandis que le
zonier actuel permet une diminution de 4%.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
98
Pourcentage de
variation (m1-
m0)/m0*100
BG DDE INC RC VOL GLOBAL
variables comportementales
introduites
enfant segment
client csp
interaction Enfant
avec Age
Age
Age Segment
client
Situation familiale
Enfant
déviance/ddl 0,008 0,001 -0,340 0,150 0,006 -0,950
AIC -1,13 -0,26 -0,19 -9,34 -3,14 -0,55
BIC -1,13 -0,26 -0,19 -9,34 -3,14 -0,55
référence variation de
l'AIC -nbpièces pour bg, rc,
global
-segment de risque pour INC
-zonier pour dde et vol
-8% -4%
-1,18% -5% -11,5% -0,66%
8.8. Ecarts aux marges
Global, Bris de Glace
Les primes pures estimées et observées sont régulièrement croissantes, nous n’observons pas
de bond notable. Nous constatons une prime pure moyenne minimale sur les 1 pièces et une
prime pure moyenne maximale sur les plus de sept pièces.
Ecarts aux marges Global
0
20
40
60
80
100
120
140
160
180
200
pièc
es 1
âge
6
résid
S
segm
cli 6
segm
cli 3 LA
enfa
nt 0
segm
cli E
dépe
ndan
ce N
ON S
ECO
dépe
ndan
ce O
UI
enfa
nt 1
âge
UN P
M IN
segm
cli INC
pièc
es 5
modalités
pri
mes p
ure
s
mo
yen
nes e
n e
uro
s
0102030405060708090100
%
% Années police Observed Average
Fitted Average Model Prediction at Base levels
Model Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors
Ecarts aux marges Bris de Glace
0
1
2
3
4
5
6
7
8
9
pièc
es 1
pièc
es 2
pièc
es 3 LA PA
enfa
nt 0 LM
enfa
nt U
enfa
nt 1
pièc
es 4 PM
pièc
es 5
modalité
pri
me p
ure
mo
yen
ne e
n
eu
ros
0
10
20
30
40
50
60
%
% années police Observed Average
Fitted Average Model Prediction at Base levels
Model Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors
Ecarts aux marges Global, Ecarts aux marges Bris de Glace. Propriétaires de Maison et plus de sept pièces sont
les modalités de primes moyennes maximales.
Dégâts des Eaux
Nous notons, en Dégâts des Eaux, un saut de niveaux de primes pures moyennes observées et
estimées pour les plus de sept pièces et pour les propriétaires d’appartement.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
99
Ecarts aux marges en Dégâts des Eaux
0
20
40
60
80
100
120
LM
pièc
es 1
dépe
ndan
ce O
UI
PM
pièc
es 2
pièc
es 3
pièc
es 4
réside
nce
P
réside
nce
S
dépe
ndan
ce N
ON
LA
pièc
es 5 PA
Modalités
Pri
me p
ure
mo
yen
ne e
n e
uro
s
0
10
20
30
40
50
60
70
80
90
100
%
% années police Observed AverageFitted Average Model Prediction at Base levelsModel Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors
Ecarts aux marges en Dégâts des Eaux. Un bond est noté pour les profils propriétaire d’appartement et plus de
sept pièces.
Incendie, Vol
Les profils de primes pures plus élevées sont les propriétaires de maison, les plus de sept
pièces et les assurés ayant une dépendance. Ecarts aux marges Incendie
0
10
20
30
40
50
60
70
PA
pièc
es 2
pièc
es 1 LA
réside
nce
S
pièc
es 3 LM
dépe
ndan
ce N
ON
autre
s
réside
nce
P
inco
nnu
chom
arti
pièc
es 4 PM
dépe
ndan
ce O
UI
pièc
es 5
modalités
prim
e p
ure
moyenne e
n e
uro
s
0
10
20
30
40
50
60
70
80
90
100
% années police Observed Average
Fitted Average M odel Prediction at Base levels
M odel Prediction + 2 Standard Errors M odel Prediction - 2 Standard Errors
Ecarts aux marges en Vol
0
5
10
15
20
25
30
35
pièc
es 1
âge
6
pièc
es 2
pièc
es 3 LA LM
âge
5
réside
nce
S
réside
nce
PPA
âge
2
âge
1
âge
4
pièc
es 4 PM
âge
3
âge
UN
pièc
es 5
modalités
pri
me p
ure
mo
yen
ne e
n e
uro
s
0
10
20
30
40
50
60
70
80
90
100
%
% années police Observed Average
Fitted Average Model Prediction at Base levels
Model Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors
Ecarts aux marges en Incendie et en Vol
8.9. Modèle Tweedie
Contrairement à la loi Gamma, la distribution de Tweedie met une masse en zéro.
Les modèles Tweedie peuvent être vus comme des modèles Poisson composés. Nous
supposons que
N
k
kZY0
où les Zk sont indépendantes et identiquement distribuées. Nous
pourrons supposer que ces variables suivent une loi Gamma G(α,β) indépendamment de N
suivant une loi de Poisson P(λ).
Alors
)()()( kZENEYE
2
2
2
22)()()()()(
kk ZENVZENEYV
Supposons qu’il existe 2,1p et ψ >0 tels que :
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
100
)2(,
)1(
1,
1
2 2
1 ppp
p p
p
Alors on peut montrer que la loi de Y appartient à la famille exponentielle avec pYVYE )(,)( avec ψ un paramètre de dispersion ; la fonction variance est alors
V(μ)=μp.
8.10. Garanties Multirisques Habitation
Nous montrons ci-dessous, à titre indicatif, un descriptif des principales garanties du contrat
multirisques habitation, issu du Guide technique habitation.
L’incendie
Définition
L’article L 122-1 du Code Général des Assurances définit l’incendie de la manière suivante :
« l’assureur contre l’incendie répond de tous dommages causés par conflagration,
embrasement ou simple combustion. Toutefois, il ne répond pas, sauf convention contraire, de
ceux occasionnés par la seule action de la chaleur ou par le contact direct et immédiat du feu
ou d’une substance incandescente s’il n’y a eu ni incendie, ni commencement d’incendie
susceptible de dégénérer en incendie véritable ».
Ce texte n’est pas d’ordre public, le contrat d’assurance peut donc y déroger.
La profession définit l’incendie comme « une combustion avec flammes en dehors d’un foyer
normal » et l’explosion comme « l’action subite et violente de la pression ou de la dépression
de gaz ou vapeur ».
Incendie, explosion, implosion
Les dommages d’incendie ou d’explosion causés aux biens assurés sont garantis quel que soit
le lieu où l’évènement a pris naissance et quelles que soient les origines et causes de cet
incendie ou explosion.
Exceptions :
• l’incendie causé aux matériels électriques et électroniques d’origine interne qui relève de la
garantie Dommages aux appareils électriques, l’incendie résultant d’un tremblement de terre,
d’une éruption volcanique ou d’un raz-de-marée ne donnant pas lieu à constatation de l’état
de catastrophe naturelle,
• l’incendie causé par une source de rayonnement ionisant. Les dommages dus aux fumées et
au rayonnement d’un incendie sont des dommages d’incendie, ceux causés par l’onde de choc
accompagnant le passage d’un avion en vol supersonique des dommages d’explosion.
L’implosion est une explosion particulière. De même, le « coup d’eau » est assimilé à une
explosion.
Les inserts sont la cause principale des sinistres incendies en MRH.
C’est la raison pour laquelle une majoration tarifaire est appliquée aux habitations munies
d’un insert ou d’un moyen de chauffage au bois du même type, qui présentent un risque
aggravé.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
101
Les évènements climatiques
La tempête
Il n’y a pas de définition légale de la tempête. Il s’agit d’une violente perturbation produisant
des vents caractérisés par des vitesses très élevées.
Pour être qualifié de tempête, le phénomène doit avoir une intensité telle qu’il détruit ou
endommage plusieurs bâtiments de bonne construction dans la commune de l’habitation
assurée ou dans les communes avoisinantes.
La grêle
Les dommages de grêle sont garantis sur l’ensemble du bâtiment.
Le poids de la neige
Le gel
La garantie Inondation
La garantie Inondation joue en l’absence de tout arrêté de catastrophe naturelle, ainsi qu’en
l’absence de demande de classement en catastrophe naturelle.
Le dégât des eaux L’assurance Dégâts des eaux ne couvre pas la réfection des conduites ou des installations
d’eau à l’origine du dommage mais uniquement les conséquences des dommages causés par
l’eau.
L’assurance Dégâts des eaux couvre les conséquences des dommages causés par l’eau
résultant :
• De la fuite, de la rupture ou du débordement des conduites d’eau non enterrées
Notion de conduites enterrées : il s’agit des conduites dont l’accès nécessite des travaux de
terrassement.
Les conduites encastrées sont garanties. Il s’agit des conduites situées à l’intérieur des murs et
des planchers même si elles se trouvent au-dessous du niveau du sol ou si elles passent dans
un vide sanitaire.
• De la fuite, de la rupture ou du débordement des appareils à effet d’eau
Il s’agit des appareils auxquels il est ajouté un élément quelconque qui a pour but de
permettre certaines opérations telles que l’arrivée de l’eau, son évacuation, son chauffage, son
épuration, son aération, créant alors un certain mouvement d’eau, même s’il n’est pas continu.
Exemples : machines à laver le linge et la vaisselle, baignoires, lavabos, éviers…
Il est nécessaire que l’équipement soit relié en permanence au dispositif d’alimentation,
d’évacuation d’épuration ou de filtration.
Il faut distinguer l’appareil à effet d’eau du récipient qui est un simple réceptacle contenant de
l’eau. C’est le cas notamment des vases, des piscines gonflables pour enfant…
• Des infiltrations d’eau ou de neige au travers des toitures, ciels vitrés, terrasses et balcons
formant toiture
• Des infiltrations d’eau et de neige au travers des façades et murs extérieurs
• De la rupture accidentelle ou du débordement exceptionnel d’égout, non dus à un évènement
climatique
Cette garantie concerne les égouts des voies publiques ou privées lorsqu’il y a une rupture
accidentelle ou un débordement exceptionnel d’égout non dus à un évènement climatique.
• Des infiltrations par les joints d’étanchéité aux pourtours des installations sanitaires et au
travers des carrelages
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
102
L’expression « par les joints d’étanchéité aux pourtours des installations sanitaires » est
d’interprétation stricte : elle suppose l’existence d’un joint et ne vise que les joints
horizontaux situés entre l’installation sanitaire et le mur.
L’expression « au travers des carrelages » signifie au travers des carreaux proprement dits,
mais également au niveau des jointures entre les carreaux que celles-ci soient poreuses ou
cassées. Cela s’applique pour les carrelages fixés aux murs et au sol, mais ne vise pas les
infiltrations au travers des parquets, linoléum, dalles, carreaux plastiques ou moquette.
• des dégâts des eaux subis dus à la faute d’un tiers
• Les frais engagés pour la recherche de fuites qui sont à l’origine d’un sinistre garanti à
l’intérieur des biens assurés, ainsi que des frais de remise en état des biens dégradés par ces
travaux de réfection
Le bris des glaces
Les biens garantis
Il s’agit :
• Des vitres des fenêtres, portes-fenêtres, baies vitrées, vasistas, fenêtres de toit, ciels vitrés,
marquises, cloisons de verre, garde-corps et séparations de balcon, portes intérieures ou
extérieures faisant partie des locaux assurés
• Des vitres d’inserts
Sont également garanties les vitres de poêle (à bois, charbon).
• Des miroirs scellés
Il s’agit des miroirs pouvant être assimilés à des biens immobiliers par destination, c’est-à-
dire qui ne peuvent être détachés de leur support sans l’endommager.
Un miroir fixé par un clou n’est pas un bien immobilier par destination et n’est pas garanti en
bris des glaces.
• Des vitraux
• Des panneaux solaires, des panneaux photovoltaïques
• Des aquariums
• Des vérandas déclarées au contrat
Les bow windows sont assimilés à une véranda.
Les matériaux garantis
• Le verre ordinaire.
• Les verres de sécurité (armés, trempés, feuilletés…).
• Les vitrages isolants thermiques.
• Les vitrages filtrants.
• Les verres soufflés.
• Les matières plastiques (polycarbonates, acryliques, polyesters, polychlorure de vinyle ou
PVC…).
Modalités d’applications de la garantie
S’il y a eu des dommages autres que le bris de vitre ou glace, et que ces dommages ont été
occasionnés par un évènement garanti par ailleurs (une tempête par exemple), la totalité du
sinistre doit être réglée au titre de cet évènement.
Sont également garanties les parties vitrées des portes de placards (en vitre ou en miroir) ainsi
que les cabines de douche fixées.
Les biens à l’extérieur ne sont pas garantis.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
103
Le vol
Définitions
Le vol est la soustraction frauduleuse du bien d’autrui (article 311-1 du Nouveau
Code Pénal).
Le voleur s’arroge la détention matérielle d’une chose sans la volonté de son propriétaire. Le
vol est consommé même si les objets soustraits sont ensuite abandonnés ou détruits.
La tentative de vol se définit comme tout acte accompli en vue de commettre un vol qui a reçu
un commencement d’exécution mais qui a été suspendu ou manqué pour une cause
quelconque.
Conditions d’application de la garantie
Sont garantis le vol et la tentative de vol commis à l’intérieur des locaux privatifs clos et
couverts de l’assuré, dès lors que ce dernier peut en établir les circonstances détaillées.
Le vol peut avoir été commis notamment par:
• effraction,
• escalade : l’escalade est l’introduction par une ouverture située en étage. Il peut s’agir d’une
fenêtre, d’un balcon. Il n’y aura pas effraction si l’ouverture n’était pas fermée,
• fausse clé : sont considérées, à titre d’exemple, comme des fausses clés, les crochets, passe
partout, clés imitées, contrefaites.
• maintien clandestin dans les lieux,
• menaces, violences ou intimidation de l’assuré, son entourage ou toute personne à son
service : sont visés tous les coups et blessures, quel qu’en soit le résultat.
Les garanties Responsabilités civiles habitation
La responsabilité vis-à-vis des voisins et des tiers
La garantie porte sur les dommages corporels, matériels et immatériels causés aux voisins et
aux tiers par les bâtiments assurés, les aménagements et équipements à caractère immobilier
situés sur le terrain de l’assuré (clôtures, plantations…) et par le terrain lui-même.
La responsabilité vis-à-vis des bâtiments assurés
Il s’agit de garantir les dommages qui pourraient être causés à un tiers par les bâtiments
assurés.
Exemples :
• une tuile se détache du toit de l’habitation assurée et endommage une voiture stationnée
dans la rue,
• le mur de clôture de notre assuré s’écroule et endommage les plantations de son voisin.
Les Garanties Défense et Recours
Garantie défense amiable ou judiciaire
Cette garantie permet à l’assuré d’être défendu devant les tribunaux lorsqu’une responsabilité
assurée par le contrat est mise en cause.
En application de l’article L 121-2 du Code des Assurances, « l’assureur est garant des pertes
et des dommages causés par les personnes dont l’assuré est civilement responsable, en vertu
de l’article 1384 du Code Civil, quelles que soient la nature et la gravité des fautes de ces
personnes ».
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
104
Pour les enfants mineurs des assurés, il y a obligation légale de garantir les dommages qu’ils
causent même si ces derniers ont été causés intentionnellement.
Garantie recours amiable ou judiciaire
Cette garantie permet à l’assuré d’exercer un recours en vue d’obtenir la réparation financière,
amiable ou judiciaire :
• des dommages corporels qu’il subit,
• des dommages matériels qui sont causés aux biens assurés.
Le périmètre d’intervention de la garantie Recours est vaste.
Exemples de cas où la garantie recours peut être actionnée :
• un tiers, en visite chez l’assuré, endommage un bien mobilier (meuble, animal domestique,
objet de décoration…),
• alors qu’il fait du vélo, l’assuré est renversé par le chien d’un promeneur,
• le fils de l’assuré, piéton, est renversé par un véhicule,
• l’assuré est victime d’une agression corporelle,
• le fils de l’assuré fait une chute en se rendant à l’école, un camarade lui ayant fait un croche-
pied,
• l’assuré glisse sur le sol humide du supermarché dans lequel il s’est rendu pour faire ses
courses, et se blesse,
• dans la salle d’attente de son médecin, l’assuré se prend les pieds dans le tapis, chute et se
blesse.
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
105
9. Bibliographie
Livre et articles de recherche
Sur les modèles linéaires généralisés
-Generalized Linear Models, 2nd
Edition, P. McCullagh and J.A. Nelder
Réf. 72 MCC 89a
-Ill-conditioned Information Matrices, Generalized Linear Models and estimation if the
effects of acid rain, E. Smith, B. Marx, 1990
- Role of categorical variables in the multicollinearity in the linear regression model,
University of Munchen, 2007
- Revue Modulad, J. Confais. (indices de Belsley).
Sur le critère de sélection et méthodes de sélection de variables
-Bootstrap model selection, J. Shao, Journal of the American Statistical Association, Vol. 91,
No. 434, 1996
-Robust model selection in Generalized Linear Models, S. Müller, A. H. Welsh, 2008
-Complément: Model selection: a boostrap approach, A. M. Zoubir, 1999
-On model selection curves, International Statistical Review, S. Müller, A. H. Welsh, 2010
- Le critère BIC : fondements théoriques et interprétation, E. Lebarbier et T. Mary-Huard,
2004
-Zero-inflated truncated generalized pareto distribution for the analysis of radio audience data,
D. - L. Couturier, M. - P. Victoria – Feser
Mémoire utilisé pour le calcul du seuil d’écrêtement en Incendie et Attentat
-Surveillance du portefeuille des flottes automobiles d’AXA, V. Marpillat, Mémoire ISUP
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
106
Mémoires utilisés pour les méthodes de tarification
-Etude d’opportunité d’une tarification spécifique aux syndics en assurance immeuble, L.
Gendrey, Mémoire ISUP
-Tarification en assurance automobile, G. Lucas, Mémoire IMA
Aides des logiciels pour le modèle linéaire généralisé et la tarification
-Aide et documentation SAS
-Aide et documentation d’Emblem, logiciel de tarification du Cabinet Towers Watson
Documentation sur le produit Multirisques Habitation
-Guide Technique Habitation AXA
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
107
10. Table des figures et des tableaux
Figure 1. Triangle pour la mise en œuvre de la méthode Chain Ladder ................................. 13 Figure 2. Coûts moyens d’un sinistre pour différentes garanties. ........................................... 14 Figure 3. Fonction de répartition empirique de la charge d’un sinistre et charge cumulée,
hors incendie, attentat, catastrophes naturelles ....................................................................... 16
Figure 4. Prime pure moyenne suivant le segment de risque, sur les sinistres dépassant le
seuil d’écrêtement en Dégâts des Eaux. ................................................................................... 17
Figure 5. Fonction de répartition empirique de la charge d’un sinistre en Responsabilité
Civile et charge cumulée .......................................................................................................... 19 Figure 6. Prime pure moyenne suivant le fait d’avoir un enfant ou pas, sur les sinistres
dépassant le seuil d’écrêtement en Responsabilité Civile. ....................................................... 19 Figure 7. Graphiques des quantiles estimés en fonction des quantiles empiriques. ................ 21
Figure 8. Répartition des sinistres Incendies et attentats ......................................................... 23
Figure 10. Variables Enfant et nombre de pièces : Prime pure moyenne observée et
répartition des années police. .................................................................................................. 38 Figure 11. Variable Segment de risque en Dégâts des Eaux. Primes pures moyennes observées
en Dégâts des Eaux (courbe rouge) et au global (courbe bleue). ............................................ 39 Figure 12. Variable Enfant en Responsabilité Civile (RC). Primes pures moyennes observées
en RC (courbe rouge) et au global (courbe bleue). ................................................................. 40 Figure 13. Résidus de Pearson issus du modèle global. .......................................................... 56
Figure 14. Interactions résidence avec segment de risque et nombre de pièces avec segment
de risque ................................................................................................................................... 57 Figure 15. Primes pures moyennes estimées et observées par modalité dans l’ordre croissant
de prime observée ..................................................................................................................... 58 Figure 16. Evolution du critère AIC dans l’algorithme Forward sur critère AIC en Bris de
Glace ........................................................................................................................................ 59 Figure 17. Interaction inhabitation avec segment de risque. ................................................... 60 Figure 18. Résidus de Pearson issus du modèle Bris de Glace. ............................................... 61 Figure 19. Analyse de la prime pure moyenne en Incendie, en fonction de la présence d’insert,
sur périmètre restreint. ............................................................................................................. 62 Figure 20. Evolution de l’AIC lors de l’application de la méthode Forward en Responsabilité
Civile. ....................................................................................................................................... 63 Figure 21. Interaction âge avec Enfant en Responsabilité Civile : primes pures moyennes et
années police. ........................................................................................................................... 64 Figure 22. Résidus de Pearson (a) résidus du modèle intégrant les variables
comportementales .(b) résidus du modèle sans variables comportementales ......................... 65
Figure 23. (a)Ecarts aux marges en Responsabilité Civile en loi Gamma (b) Ecarts aux
marges en Responsabilité Civile en modèle Tweedie (c) Résidus en loi Gamma (d)Résidus
en modèle Tweedie ................................................................................................................... 66 Figure 24. Différences de primes pures moyennes en fonction du Surplus d’objets de valeur et
du surplus de capital. ............................................................................................................... 67
Figure 25. Distribution des résidus issus des modèles unique et par garantie ........................ 67
Mémoire d’Actuariat - Doan-Trang Nguyen Tuan
Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables
108
Figure 26. Evolution de la composante de mesure de robustesse selon le modèle. ................. 77 Figure 27. Convergence de l’estimation de l’erreur de prédiction .......................................... 79 Figure 28. Evolution des critères en base 1 suivant le modèle testé. ....................................... 81 Figure 29. Zoom sur les critères AIC et BIC pour les listes testées. ........................................ 82
Figure 30. Courbes des critères de sélection. .......................................................................... 86 Figure 31. Courbes des critères de sélection en couleur et courbe de sélection de modèles
(model selection curve) en trait épais noir. .............................................................................. 87 Figure 32. Courbe de sélection, définition des trois catheti. .................................................... 88
Tableau 1. Coefficients de mutualisation de la méthode sur-crête sur sous-crête, pour chaque
couple {garantie, segment de risque} ....................................................................................... 18
Tableau 2. Part de surcrête Incendie et attentat ...................................................................... 26
Tableau 3. Chronologie des franchises .................................................................................... 28 Tableau 4. Variables d'étude .................................................................................................... 30 Tableau 5. V de Cramer entre fait d'avoir de la sinistralité et variables ................................. 43 Tableau 6. V de Cramer entre variables comportementales .................................................... 45
Tableau 7. Ecarts en déviance, AIC et BIC pour la mesure de l’impact du zonier au global . 55 Tableau 8. Ecarts en déviance, AIC et BIC pour la mesure de l’impact des variables
comportementales au global .................................................................................................... 55 Tableau 9. Statistiques déviance, AIC et BIC dans les modèles avec interaction et sans
interaction ................................................................................................................................ 60
Tableau 10. Ecarts en déviance, AIC et BIC dans la mesure d’impact des nouvelles variables
.................................................................................................................................................. 64
Tableau 11. Probabilités de sélection estimées, basées sur l’estimateur de maximum de
vraisemblance et la mesure d’erreur quadratique. .................................................................. 75
Tableau 12. Probabilités de sélection estimées, basées sur l’estimateur de maximum de
vraisemblance et la mesure adaptée à la loi Gamma. ............................................................. 76
Tableau 13. Comparaison des critères de sélection sur les deux modèles. ............................. 79 Tableau 14. Comparaison des critères de sélection sur les deux modèles en base1. .............. 80
Tableau 15. Modèles testés ....................................................................................................... 80 Tableau 16. Valeurs des critères sur huit modèles testés. ........................................................ 81