mémoire présenté devant l’institut de statistique de l ... · mémoire d’actuariat -...

Mémoire d’Actuariat - Doan-Trang Nguyen Tuan

Refonte du tarif Multi-Risques-Habitation : aide à la décision dans la sélection de variables

1

Mémoire présenté devant l’Institut de Statistique de

l’Université Pierre et Marie Curie

Pour l’obtention du diplôme de Statisticien Mention Actuariat et

l’admission à l’Institut des Actuaires

Par : Doan NGUYEN TUAN

Titre : Refonte du modèle de prime pure en Multirisques Habitation, aide à la décision dans la

sélection de modèles

Confidentialité : NON OUI (Durée : 1 an 2 ans)

Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus.

Membres présents du jury de l’Institut des

Actuaires :

Arnaud COHEN

Jean-Marie NESSI

Gérard CROSET

Brigitte DUBUS-THIRKELL

Entreprise : AXA France

Membres présents du jury de l’ISUP :

Olivier LOPEZ

Directeur de mémoire en entreprise :

Laura GENDREY, Véronique MARPILLAT

Autorisation de publication et de mise en

ligne sur un site de diffusion de documents

actuariels (après expiration de l’éventuel

délai de confidentialité)

Signature du responsable entreprise

Signature du candidat



2

Refonte de la prime pure en Multirisques-Habitation : aide à la décision dans la sélection de modèles

Remerciements ......................................................................................................................... 4

Résumé ...................................................................................................................................... 5

Abstract ..................................................................................................................................... 6

1. Cadre et objectif de l’étude ............................................................................................. 7

2. Construction de la base de données par contrat : écrêtement et mutualisation

segmentés ................................................................................................................................. 11

2.1. Périmètre pour la modélisation de la prime pure ..................................................... 11

2.2. Les variables de la base initiale ................................................................................ 11

2.3. Calcul des charges ultimes ....................................................................................... 12

2.4. Ecrêtement et mutualisation segmentés des charges ultimes ................................... 14

2.5. Franchise .................................................................................................................. 27

2.6. Base finalisée ............................................................................................................ 28

3. Etude descriptive de la prime pure et des variables: graphiques et corrélations .... 30

3.1. Etude descriptive de la prime pure globale hors catnat, options, dommages

électriques, climatiques ........................................................................................................ 36

3.2. Etude descriptive de la prime pure par type de sinistre ............................................ 37

3.3. Corrélation prime pure et variables .......................................................................... 42

4. Corrélation entre variables ........................................................................................... 45

5. Modélisation des primes pures : sélection des variables sur critère d’ajustement aux

données .................................................................................................................................... 47

5.1. Méthode .................................................................................................................... 48

5.2. Application à la prime pure globale mutualisée ....................................................... 53

5.3. Application aux primes pures par type de sinistre ................................................... 58

5.4. Surplus de capitaux et d’objets de valeur ................................................................. 67

5.5. Comparaison de la distribution des résidus bruts issue du modèle unique à la

distribution des résidus bruts issue des modèles par type de sinistre ................................... 67



3

6. Sélection d’un modèle robuste sur critère estimé par Bootstrap ............................... 69

6.1. Revue des critères existants ...................................................................................... 69

6.2. Méthode proposée .................................................................................................... 71

6.3. Etude de la méthode par simulation ......................................................................... 74

6.4. Application en Responsabilité Civile et analyse du critère ...................................... 77

6.5. Application au modèle unique Global ...................................................................... 82

6.6. Application en Bris de Glace ................................................................................... 83

7. La courbe de sélection de modèles: un outil graphique pour la sélection de modèles

84

7.1. Cadre et définition .................................................................................................... 84

7.2. Utilisation ................................................................................................................. 87

Conclusion et extension possible ........................................................................................... 89

8. Annexes ........................................................................................................................... 90

8.1. Algorithme d’estimation dans le modèle linéaire généralisé ................................... 90

8.2. Codage des variables qualitatives dans le modèle linéaire généralisé ..................... 92

8.3. Origine des critères BIC et AIC ............................................................................... 92

8.4. Calibrage d’une loi Pareto aux incendies et attentats ............................................... 95

8.5. Répartition des années police ................................................................................... 95

8.6. Graphiques des interactions estimées ....................................................................... 97

8.7. Effet des variables comportementales ...................................................................... 97

8.8. Ecarts aux marges ..................................................................................................... 98

8.9. Modèle Tweedie ....................................................................................................... 99

8.10. Garanties Multirisques Habitation ..................................................................... 100

9. Bibliographie ................................................................................................................. 105

10. Table des figures et des tableaux ................................................................................ 107



4

Remerciements

Je tiens à adresser mes remerciements à Monsieur Arnaud Cohen, responsable de la Filière

Actuariat de l’ISUP, pour ses précieux conseils, son soutien et son suivi de la réalisation de ce

mémoire.

J’adresse mes remerciements à Mademoiselle Laura Gendrey et Madame Véronique

Marpillat, du service Actuariat Multirisques Habitation, pour m’avoir suivie pendant toute la

réalisation de ce stage et m’avoir donné la possibilité de le réaliser dans les meilleures

conditions possibles, ainsi que pour la confiance qu’elles m’accordent.

Je tiens également à remercier Monsieur Julien Callard, responsable du service non-Auto,

pour ses conseils, sa disponibilité et les riches échanges au sujet de méthodes statistiques

utilisées dans ce mémoire.

J’adresse aussi ma reconnaissance à l’équipe Multirisques-Habitation et en particulier

Madame Corinne Castanet, Monsieur Olivier Meneux et Monsieur Dadhy Barmou Batouré

pour leur gentillesse et leur soutien.

Je tiens enfin à remercier le service Auto, pour les échanges concernant des méthodes

statistiques en tarification et leurs conseils ayant accompagné mes travaux.



5

Résumé

Dans cette étude, nous proposons des méthodes visant à apporter une aide à la décision dans

la sélection des variables dans un modèle linéaire généralisé et dans le choix d’une

modélisation de prime pure par type de sinistre ou d’une modélisation unique globale.

L’objectif est d’orienter le choix de l’assureur quant à la sélection de variables tarifaires et

quant à la segmentation en Multirisques-Habitation.

Nous souhaitons ainsi répondre à la question : est-il robuste, au sens d’un critère à définir,

d’intégrer les variables comportementales choisies et de segmenter la modélisation de la

prime pure?

Cette étude s’inscrit dans les travaux de construction d’un nouveau modèle de prime pure en

Multirisques-Habitation:

-Ventilé par type de sinistre

-Intégrant des variables tarifaires non utilisées usuellement dans cette branche, dans l’objectif

de mieux segmenter le tarif

-Satisfaisant des critères de robustesse : minimisation de critères basés sur l’erreur de

prédiction.

Les deux axes d’étude principaux sont l’écrêtement et la mutualisation segmentés et la

proposition de méthodes de sélection de modèles dans le cadre des modèles linéaires

généralisés. Pour ce dernier point, nous définissons d’abord un critère mesurant à la fois la

précision et la robustesse d’un modèle ; puis nous présentons une méthode d’estimation de la

composante de mesure de robustesse, avant d’étudier le critère à travers une étude simulatoire

et dans la mise en œuvre de notre cadre Multirisques-Habitation. L’utilisation de ce critère

s’ajoute au recours aux critères plus usuels mesurant l’ajustement aux données. Nous

constatons que le critère montre des variations plus visibles que les critères usuels AIC et BIC

suivant le modèle. De plus, contrairement au critère BIC, le coefficient mis devant la pénalité

du nombre de paramètres autorise la sélection de modèles peu parcimonieux. Ensuite, nous

englobons le critère dans un ensemble de valeurs en le considérant comme une fonction du

poids de la pénalité dans le critère. Cette approche permet d’évaluer la sensibilité de la

sélection au poids de pénalité et de fournir une nouvelle procédure graphique de sélection de

modèle.



6

Abstract

In this study, we propose methods to provide decision support in the selection of variables in a

generalized linear model and the choice of a model of pure premium by type of disaster or a

single global model.

The aim is to guide the insurer in the selection of variables in the tariff and in segmentation in

housing insurance.

We want to answer the question: is it robust, in the sense of a criterion to define, to integrate

new behavioral variables in the modeling of the pure premium?

This study answers the need to build a new model of pure premium in housing insurance:

-Broken down by type of disaster

-Integrating rating factors usually not used by the company in this line of business, in order to

better segment the price

-Meeting a robustness criterion: minimizing a criterion based on the prediction error.

The two main focus points are: segmented capping and sharing of over claims, and the

proposed methods for model selection in generalized linear models. For the latter, we first

define a criterion measuring the accuracy and robustness of a model and study it through

some simulations and implementation in our housing insurance framework. We use this

criterion in addition to the use of commonly used criteria measuring the goodness-of-fit to the

data. We note that the test shows more visible changes than the usual criteria AIC and BIC

from one model to another one. Moreover, unlike the BIC, the weight penalty put to the

number of parameters allows the selection of model somewhat parsimonious. Next, we

include the criterion in a set of values by considering it as a function of the weight of the

penalty in the criterion. This approach allows us to evaluate the sensitivity of the selection

procedure with the weight penalty and to provide a new graphical model selection procedure.



7

1. Cadre et objectif de l’étude

L’étude a été réalisée au sein de la Direction des Marchés IARD d’AXA France, au sein de la

branche AXA Particuliers/Professionnels.

La refonte tarifaire du produit Multirisques-Habitation d’AXA France est nécessaire car la

structure actuelle n’a pas été revue depuis 2001. Les constats réalisés par le Service sont les

suivants. L’évolution des indicateurs classiques montre qu’il est devenu indispensable de

revalider le positionnement tarifaire et de trouver des leviers pour améliorer l’adéquation tarif

/ risque par segment.

Les travaux sur les affaires nouvelles, réalisés début 2009, ont fait apparaître la disparité de

résultat sur les trois populations analysées : propriétaires de maison très déficitaires,

propriétaires d’appartement très rentables et locataires tangents.

La revue du portefeuille, fin 2009, a confirmé l’existence de ces décalages sur l’ensemble du

portefeuille.

La dégradation des résultats Multirisques-Habitation, due à des événements majeurs mais

aussi à l’accroissement de la sinistralité, en particulier grave, augmente l’urgence du

rééquilibrage

Le recul des affaires nouvelles, lié pour une part au contexte économique général, et le climat

concurrentiel tendu accroissent l’importance de réinjecter de la compétitivité là où les

résultats techniques le permettent.

La dernière grande révision du tarif Multirisques-Habitation date de 2003, elle a été réalisée à

l’occasion de la réorganisation en cinq régions au lieu de douze. Si, à ce moment, les niveaux

tarifaires avaient été revus, la structure demeurait la même qu’en 2001 (mise en place du

« produit harmonisé » entre AXA Assurances, AXA Courtage et AXA Conseil), à

l’introduction de la notion de réseau près.

La structure de 2001 était elle-même assez proche de celle de 1998 (produit commun Agents

AXA et ex-UAP) les évolutions majeures correspondant : à la création d’un coefficient

croisant département du distributeur et zone qui permettait d’amortir l’impact du changement

de zonage pour AXA Courtage et AXA Conseil ; à la redistribution entre central et région du

pilotage des variables.

Cette stabilité dans le temps s’explique par l’accès aux informations : la taille de notre

portefeuille permet de disposer d’une masse d’informations très importante pour les variables

tarifaires que nous pratiquons, l’introduction d’une nouvelle variable étant en revanche

nécessairement empirique.

Depuis 2003, compte-tenu de la bonne position des résultats Multirisques-Habitation et de la

volonté de développer l’apport net, les efforts en termes d’études tarifaires ont été concentrés

sur le développement de formules commerciales (Logement Neuf et Récent en 2004,

Propriétaire d’appartement en 2005, Locataire en 2006, Confort Etendu et packs en 2007,

Résidences secondaires en 2009) et la refonte complète de tarifs « parallèles » (Etudiant en

2007, Propriétaire Non Occupant et Référence en 2008).



8

Sur le tarif du produit central - celui de la formule « Confort », seuls les aménagements

suivants ont été apportés :

- modification de la franchise en 2009,

- augmentation des propriétaires de maison en 2010 de + 2 points

- introduction du critère « chauffage au bois » associé à un impact tarifaire fin septembre 2010

Présence d’un insert, foyer fermé, poêle ou cuisinière à bois : + 9 %

Maison sans insert, foyer fermé, poêle ou cuisinière à bois : - 3 %

Appartement ou Rez-de-chaussée sans insert, foyer fermé, poêle ou cuisinière à bois :

sans modification

L’étude présentée ici concerne la refonte de la prime pure de la formule Confort. La prime

pure est l’espérance de la sinistralité annuelle d’un assuré.

Tout d’abord, le Service souhaite segmenter davantage la tarification au sein du portefeuille

d’assurés, afin de ne pas pénaliser les assurés de la même manière et proposer le tarif le plus

juste pour un profil de risque donné. Ainsi, on considère que puisque les climatiques

impactent davantage les maisons que les appartements, les occupants de ces derniers méritent

de payer moins cher que les occupants de maisons.

En outre, une segmentation suivant le type de sinistre serait souhaitable. Actuellement, la

structure tarifaire est issue d’une modélisation de la prime pure tous types de sinistre

confondus. Or, les risques couverts par la Multirisques Habitation engendrent des charges

hétérogènes, c’est notamment le cas si on prend l’exemple des bris de glace, de charges

associées faibles vis-à-vis d’un sinistre en Responsabilité Civile ; de plus, ces risques peuvent

être expliqués par des facteurs différents. Ainsi, un sinistre type Vol pourra être du à un

niveau de richesse alors qu’un sinistre en Responsabilité Civile pourra être associé plutôt au

comportement de l’assuré et de sa famille.

Dans le but de modéliser par type de sinistre, il faut au préalable réfléchir à la façon d’allouer

les sinistres, en déterminant un seuil définissant les graves et des méthodes de réallocation des

surcrêtes au sein d’un type de sinistre et d’une classe de risque à définir.

Notons qu’au-delà de la dimension statistique, la dimension politique d’Axa est prise en

compte. Dans la visée de la segmentation, on décide d’allouer des charges de sinistres à des

profils d’assurés dont on considère qu’ils sont plus sinistrés que d’autres. Les profils de risque

pénalisés proviennent ainsi, en partie, de l’expérience et des constats passés du Service.

L’étude présentée ici propose une aide à la décision dans l’intégration de nouvelles variables

et dans la segmentation par type de sinistre, par la mesure de robustesse et de stabilité d’un

modèle.

Nous commencerons par présenter la façon dont la base de données est constituée. Cette

explication est nécessaire pour connaître le conditionnement réalisé en amont de la

modélisation. En particulier, nous retraitons la répartition des charges de sinistres du



9

portefeuille servant à la modélisation, en nous intéressant à la prise en compte des charges de

sinistres importantes, sur la base des constats passés sur la sinistralité et la rentabilité. Des

profils de risque dégradant la rentabilité de la branche peuvent voir leur sinistralité revue à la

hausse, d’autres moins impactés par la sinistralité peuvent connaître une hausse moindre.

L’ajustement des charges se fait via l’écrêtement des sinistres et la mutualisation des

surcrêtes, avec une allocation de charge segmentée. Ces calculs sont réalisés sur des charges

individuelles de sinistres projetées à l’ultime par la méthode Chain Ladder. Dans cette partie,

nous soulignons notamment la segmentation utilisée dans l’écrêtement et la mutualisation, en

accord avec la visée du Service.

Nous étudierons ensuite des tris à plat de la prime pure selon les critères tarifaires à tester et

les corrélations ; ces études doivent donner :

une idée des variables qu’on souhaite tester dans la modélisation de la prime pure

une idée des variables à croiser pour conserver un maximum d’information pour la

modélisation

Puis, se plaçant dans le cadre des modèles linéaires généralisés, la sélection des variables et

des interactions par algorithme forward sera présentée. Sur l’idée que l’on remet à plat le

modèle de prime pure, nous partons d’un modèle de base sans variable, et nous intégrons une

à une les variables suivant un critère d’ajustement aux données

L’estimation de modèles linéaires généralisés, un pour chaque garantie, conduit à

l’observation des résidus et écarts aux marges, et au suivi des statistiques de mesure

d’ajustement.

Ces analyses fournissent des premiers outils d’aide à la décision pour la sélection de variables.

Nous proposerons et étudierons ensuite, en plus de ces outils traditionnels de sélection de

variables, un critère mesurant la robustesse d’un modèle. Le principe est de minimiser un

critère dont une des composantes représentant l’erreur de prédiction est calculée par bootstrap.

Une étude simulatoire permet d’estimer la robustesse de la procédure de sélection de variables

et d’en proposer une variante, avant d’en présenter une application à la sélection de variables

comportementales. Nous étudions en particulier graphiquement la sensibilité du critère à un

paramètre déterminant le poids du nombre de paramètres estimés et sa stabilité, ce qui permet

de proposer une extension vers une autre méthode de sélection de variables.

En résumé, l’étude menée apporte une aide à la décision nouvelle sur les problématiques de :

-la segmentation par garantie

dans l’écrêtement et la mutualisation

dans le calcul de prime pure

- l’introduction de variables comportementales

-la sélection d’un modèle robuste via le calcul d’un critère par Bootstrap.



10

Le schéma ci-dessous résume les étapes de l’étude :

Préparation des données :

écrêtement et mutualisation segmentés des charges

Modélisation :

Sélection des variables par algorithme forward sur critère AIC et argument stratégique ou

commercial

Sélection des interactions

Sélection d’un modèle: méthode comparative par déviance et critères AIC, BIC

Nouvelle aide à la décision :

Proposition d’un critère de robustesse pour la sélection d’un modèle

Etude simulatoire pour comparer la méthode avec les critères usuels

Application au portefeuille de contrat du périmètre d’étude



11

2. Construction de la base de données par contrat : écrêtement et

mutualisation segmentés

2.1. Périmètre pour la modélisation de la prime pure

Périmètre de l’ensemble des contrats

On s’intéresse à modéliser la prime pure sur des contrats Multirisques-Habitation relatifs à la

Formule Confort, hors options et clauses à sinistralité non identifiable. Ainsi, nous

sélectionnons les contrats dont la sinistralité peut être avec exactitude rattachée aux garanties

de base du contrat Confort. Nous conservons uniquement les contrats contenant au moins une

année police entre le 1er

janvier 2008 et le 31 décembre 2010. Nous travaillons sur les contrats

gérés par les Agents Généraux et courtiers classiques.

Périmètre de la sinistralité

Pour les études descriptives et les calibrages des modèles de primes pures, on utilise un

historique de survenance d’une profondeur de trois années allant du 1er janvier 2008 au 31

décembre 2010. Les charges de sinistres sont observées jusqu’au 28 février 2011.

Garanties

Les garanties auxquelles nous nous intéressons sont les suivantes : Bris de Glace (BG),

Dégâts des Eaux (DDE), Dommages électriques (DELEC), Incendie (INC), Responsabilité

Civile (RC) et Vol (VOL).

Notons que l’analyse des résultats et les prises de décisions dans la sélection des variables ne

peuvent être correctement menées sans la connaissance du produit Multirisques Habitation,

notamment des évènements garantis. Ainsi, un descriptif des principales garanties du produit

est disponible dans l’Annexe 8.10.

2.2. Les variables de la base initiale

Dans le but de modéliser une prime pure par garantie, on construit une base contenant pour

chaque couple (contrat, garantie) :

1. des variables traditionnelles de tarification caractérisant le logement ;

2. des variables relatives au mode de vie de l’assuré et susceptibles de traduire son

comportement ;



12

3. des variables géocodées relatives à la commune et susceptibles de décrire l’environnement

du logement assuré;

4. la charge de sinistres sur les trois années de survenance ;

5. le montant des primes acquises relatifs aux trois derniers exercices ; le montant des primes

annualisées

Dans la base de données à disposition, les charges sont arrêtées à fin février 2011. Pour la

modélisation des primes pures, on souhaite raisonner sur des charges ultimes.

L’expert estime en effet le sinistre à des charges dites Charges Dossier/Dossier, à chaque date

d’observation, lors des réouvertures du dossier, jusqu’à ce que le sinistre soit clos à une

certaine charge finale. Pour calculer une charge finale prévisible, qui est une estimation d’une

charge finale, nous utiliserons la méthode de Chain Ladder.

La section suivante expose la méthode d’actualisation des charges utilisée.

2.3. Calcul des charges ultimes

La méthodologie utilisée consiste à distinguer trois groupes de sinistres et de leur affecter des

modes de calcul de charges ultimes propres.

Sinistres climatiques et sinistres graves au sens de l’Actuariat central, soit supérieurs à

150 000 euros

L’Actuariat central nous fournit les charges finales prévisibles iCFP par année de survenance

i et les dernières charges connues ci pour cette survenance. Pour un sinistre de notre base

survenu l’année i, de dernière charge connue c, la charge ultime est donnée par :

i

i

c

CFPcc U

On n’inclut pas dans le groupe de sinistres venant d’être décrit la tempête Klaus survenue en

2009) et la tempête Xynthia, survenue en 2010.

Sinistres Klaus, Félix et Xynthia

Pour ces sinistres, on utilise également la donnée des charges finales prévisibles fournie par

L’Actuariat central.

Les autres sinistres

Pour les autres sinistres, la méthode est la suivante. Pour chacune des garanties BG, DDE,

DELEC, VOL, INC et RC, on calcule la liste des coefficients Link Ratios issus de la méthode

Chain Ladder sur un déroulé de six années. On projette ensuite les sinistres à l’ultime selon

leurs garanties et leurs délais d’observation.



13

Le modèle Chain Ladder s’applique au triangle des charges cumulées et fournit, en partant de

lui, les charges ultimes.

Les hypothèses du modèle Chain Ladder sont les suivantes :

L’horizon de développement est de n+1 années, ce qui signifie que tous les paiements de

sinistres ou de primes sont ou seront réglés avec un délai inférieur ou égal à n+1 années. Les

indices i et j ici varient de 0 à n.

Pour tout i de 0 à n et pour tout j de 0 à n-1,

jjiji fCC ,1,

où jf est appelé Link Ratio ou facteur de développement.

On connaît les jiC , pour nji . Ce sont les valeurs du triangle suivant :

Figure 1. Triangle pour la mise en œuvre de la méthode Chain Ladder

On estime les coefficients jf par l’expression

1

0

,

1

0

1,

jn

i

ji

jn

i

ji

j

C

C

f

La valeur qui nous intéresse est la valeur à l’ultime niC , , pour un indice de survenance donné

i dans {1, 2,…, n}:

11,, ... ninininini fffCC

...

…

n n

-1 …

i

…

0

0 … j … n-1 n

…..

.....



14

Nous disposons maintenant des charges actualisées pour chaque sinistre. Nous procédons à

présent à la révision du seuil d’écrêtement des sinistres.

2.4. Ecrêtement et mutualisation segmentés des charges ultimes

Notons d’abord que les charges négatives dues aux recours représentent 0,04% de la charge

totale et 2% des sinistres ; nous considérons cette représentation négligeable. Nous

n’inclurons donc pas dans la base les sinistres de charges négatives. Ceci a pour conséquence

la suppression automatique des contrats affectés uniquement par un sinistre de charge

négative. On garde au final 98 % des contrats du portefeuille d’étude en procédant ainsi.

A l’origine, un seuil d’écrêtement de 150 000 euros unique pour tous les types de sinistres est

utilisé. Or, nous constatons une différence de coût moyen par sinistre suivant le type de

garantie ; ainsi, les sinistres Incendie se distinguent des autres, comme on peut le voir sur le

graphe suivant :

Figure 2. Coûts moyens d’un sinistre pour différentes garanties.

L’Incendie se démarque des autres garanties.

Nous proposons donc de calculer deux seuils distincts, un pour les incendies et attentats, et un

autre pour les autres sinistres.

Afin de prendre en compte, dans l’estimation de la prime pure, la charge de sinistre écartée, il

faut ensuite répartir le montant de charge dépassant le seuil sur un ensemble de contrats, c’est

ce qu’on appelle la mutualisation. La mutualisation proposée est une mutualisation

segmentée. En effet, nous distinguons les surcrêtes des sinistres de contrats rattachés à des

segments de risque distincts, puis nous distribuons ces surcrêtes sur les segments de risque

correspondants.

Coût moyen de sinistre en base 100.

La base 100 correpond au coût moyen toutes UPs confondues

0

100

200

300

400

500

600

700

BGCLIM

DDE

INC

RCVO

L

DELEC

bas

e=10

0

Coût moyen d'un sinistre en base 100



15

Nous exposons ci-dessous les méthodes utilisées pour la détermination des seuils

d’écrêtement et la mutualisation des surcrêtes des :

-sinistres hors incendies et attentats puis,

-des sinistres incendies et attentats.

Une méthode usuelle pour déterminer le seuil d’écrêtement d’un sinistre est d’utiliser d’une

part les quantiles de la distribution des charges de sinistres individuelles, d’autre part la

répartition en charge de ces sinistres. Ceci permet d’avoir une estimation du montant de

charge individuelle à partir de laquelle un sinistre présenterait une charge exceptionnellement

élevée, qu’il faut répartir sur d’autres contrats afin de ne pas déformer une répartition qui

semblerait plus probable d’observer. C’est la méthode que nous utilisons pour déterminer le

seuil d’écrêtement des sinistres attritionnels : Bris de Glace, Dégâts des Eaux, Responsabilité

Civile et Vol.

Nous proposons une autre méthode pour la détermination du seuil d’écrêtement des incendies

et attentats, qui consiste à diminuer le coefficient de variation de la distribution de ces

sinistres, supposée suivre une loi continue à calibrer. Nous avons en effet peu de connaissance

sur ces sinistres et nous souhaitons utiliser une méthode plus fine que celle des quantiles.

La répartition des sur-crêtes par profil de risque se fait suivant plusieurs méthodes. L’une

adaptée pour l’affectation des surcharges à des contrats sinistrés est la mutualisation sur la

sous-crête ; une autre méthode est proposée pour mutualiser sur des contrats même non

sinistrés ; c’est le cas lorsque nous souhaitons répartir les sur-crêtes sur l’ensemble du

portefeuille d’étude.

2.4.1. Toutes garanties hors incendies et attentats

Ecrêtement

Les résultats pour les sinistres de charges strictement positives hors incendie et attentats, hors

catastrophes naturelles, sont les suivants.

a) On constate que seul 1% des sinistres survenus entre 2008 et fin 2010 pour ces garanties

sont de coûts supérieurs à 10 293,10 euros ; ces sinistres, au nombre de 2 932, forment

une charge totale de 73 190 512,83 euros, soit 19,4 % de la charge totale des sinistres

attritionnels.

b) On constate aussi que 0,5% des sinistres survenus entre 2008 et fin 2010 pour ces

garanties sont de coûts supérieurs à 16 093,72 euros. Ces sinistres, au nombre de 1 465,

forment une charge totale de 54 708 403,42 euros, soit 14,5% de la charge totale des

sinistres attritionnels.



16

Répartition des charges de sinistres hors incendie, attentat, catnat, en

pourcentage de charge cumulée et en fréquence

0

10

20

30

40

50

60

70

80

90

100

118,02

164,11

254,81

364,02

511,24

700,05

953,87

1120,76

1519,82

2482,87

3615,66

10293,12

16093,72

2174260,74

Charge individuelle de sinistre en euros

%

Fdr de la charge individuelle Pourcentage de charge cumulée

Figure 3. Fonction de répartition empirique de la charge d’un sinistre et charge cumulée, hors incendie,

attentat, catastrophes naturelles

Le seuil d’écrêtement retenu est de 16 000 euros sur les charges individuelles actualisées

en se basant sur le quantile à 0,5% de la distribution des charges individuelles

actualisées.

Mutualisation

Avant notre étude, la méthode utilisée consistait à répartir la surcrête sur la souscrête de tous

les sinistres, en considérant que la charge pour un sinistre donné est :

Où :

L’idée maintenant est de tester une méthode consistant à mutualiser la surcrête d’un segment

de risque d’une garantie, sur la sous-crête de ce segment de risque sur cette garantie. Ceci

signifie que pour un sinistre relatif à une garantie i et à un contrat appartenant à une classe de

risque j, sa charge mutualisée est donnée par :

)

s

S1(c c

ij

ij

eme

)s

S1(c c eme

totalecrête-souss

totalecrête-surS

écrêtée charge c

mutualisée charge c

e

me



17

Où :

Les segments de risque choisis sont basés sur les croisements des modalités des variables

Type de logement (maison ou appartement) et Type de propriété (propriétaire ou locataire).

Le graphe présenté ci-dessous justifie à titre d’exemple l’intérêt d’une mutualisation

segmentée :

DDE sinistres > 16 000 euros

La base 100 de l'axe de droite correspond au niveau de prime pure tous

segments confondus.

0

5

10

15

20

25

30

35

40

45

50

LA LM PA PM

%

0

20

40

60

80

100

120

Prim

e p

ure

en b

ase 1

00

% de contrats sinistrés % de contrats du portefeuille prime pure en base 100

Figure 4. Prime pure moyenne suivant le segment de risque, sur les sinistres dépassant le seuil d’écrêtement en

Dégâts des Eaux.

Nous représentons aussi la répartition des sinistrés par ces charges, à comparer avec la répartition sur

l’ensemble des contrats. Ainsi, les propriétaires de maison constituent une part significative des assurés touchés

par des sinistres dépassant le seuil.

En effet, nous constatons une différence de prime pure selon le segment de risque. Une

mutualisation segmentée permettrait d’éviter de pénaliser les segments moins sinistrés sur

cette garantie (comme les locataires de maison).

Nous résumons ci-dessous la méthode de mutualisation.

-Pour les sinistres climatiques et les dommages électriques, on répartit la surcrête totale

sur la sous-crête des Propriétaires de maison. En effet, ces derniers représentent la majorité

des contrats sinistrés par des climatiques supérieurs au seuil d’écrêtement ; ils vont porter

l’ensemble de la surcrête.

j risque desegment du i garantie la de totalecrête-souss

j risque desegment du i garantie la de totalecrête-surS

écrêtée charge c

mutualisée charge c

ij

ij

e

me



18

La charge pour un sinistre de type i affectant un contrat de segment j est :

-Pour les autres garanties, soient Dégâts des Eaux, Responsabilité Civile et Vol, on

répartit la surcrête du croisement {garantie, segment de risque} sur la sous-crête de ce

croisement.

La charge pour un sinistre de type i affectant un contrat de segment j est :

Notons que cette méthode repose sur l’a priori des classes de risque fondées sur le type de

logement et le type de propriété. Au cours des études menées précédemment sur le

portefeuille Multirisques-Habitation par le Service, il a été montré que ces quatre segments

ont des comportements et des résultats différents.

Les résultats de la mutualisation figurent dans le tableau ci-dessous :

Coefficients

de

mutualisation

LA LM PA PM

DDE 1,7% 1,8% 1,5% 4,3%

VOL 4,2% 4,3% 10,5% 4,9%

CLIM 9,5%

DELEC 0,06%

RC 34% 38,4% 53% 50,4%

Tableau 1. Coefficients de mutualisation de la méthode sur-crête sur sous-crête, pour chaque couple {garantie,

segment de risque}

Pour exemple, en Dégâts des Eaux, les Propriétaires de maison voient leur charge par sinistre

augmenter de 4,3%.

Revue du seuil d’écrêtement des sinistres RC et de la méthode de mutualisation en RC

)s

S1(c c

ij

i

eme

)s

S1(c c

ij

ij

eme



19

La part de surcrête importante en RC montre que le seuil de 16 000 euros retenu n’est pas

adapté à cette garantie. Il a été décidé que les sinistres RC seraient écrêtés à 100 000 euros,

qui est le seuil retenu pour les incendies comme nous l’exposerons ensuite. En effet, la part de

charge supérieure au seuil de 16 000 euros est de 60%. On remonte donc le seuil à 100 000

euros ce qui permet d’avoir 20% de charge en surcrête.

Répartition de la charge individuelle de sinistre en RC

0

10

20

30

40

50

60

70

80

90

100

92,37

124,51

167,98

242,51

341,09

484,62

643,35

809,46

904,98

1529,7

7

2614,6

1

9377,3

4

16000,0

0

18456,4

3

2174260,74

Charge individuelle de sinistre en euros

Pou

rcen

tage

s

Fdr empirique de la charge individuelle de sinistre RC % cumulé de charge RC

Figure 5. Fonction de répartition empirique de la charge d’un sinistre en Responsabilité Civile et charge

cumulée

Il y a deux façons de mutualiser la surcrête des sinistres RC sur la RC :

-soit de manière uniforme sur la sous-crête des RC

-soit en distinguant des classes établies sur la base de la variable « Enfant à charge ».

L’étude des sinistres responsables de la surcrête à 100 000 euros montre que les assurés ayant

au moins un enfant à charge sont les plus concernés par ces sinistres graves.

RC sinistres > 100 000 euros, <1 000 000 euros

VARIABLE ENFANT A CHARGE 0/1

La base 100 de l'axe de droite correspond au niveau de prime pure tous

segments confondus.

0

10

20

30

40

50

60

70

80

0 1

%

0

20

40

60

80

100

120

Prim

e pu

re e

n ba

se 1

00

% de contrats sinistrés % de contrats du portefeuille prime pure en base 100

Figure 6. Prime pure moyenne suivant le fait d’avoir un enfant ou pas, sur les sinistres dépassant le seuil

d’écrêtement en Responsabilité Civile.

Nous représentons aussi la répartition des sinistrés par ces charges, à comparer avec la répartition sur

l’ensemble des contrats. Ainsi, les assurés ayant au moins un enfant à charge constituent une part significative

des assurés touchés par des sinistres dépassant le seuil.



20

Appelant classe 1, la classe des contrats touchés par un sinistre RC et d’assuré ayant au moins

un enfant à charge, et classe 2, la classe des contrats touchés par un sinistre RC et d’assuré

n’ayant pas d’enfant à charge, on décide de mutualiser la surcrête de la classe i sur la sous-

crête de la classe i.

2.4.2. Sinistres Incendie et Attentats

Constat sur l’ancien seuil de 150 000 euros

1,7% des sinistres ont une charge individuelle inférieure à 150 000 euros. Ces sinistres

représentent une charge totale de 44,8% de la charge Incendie. Nous testons une méthode

permettant de réviser ce seuil.

Méthode pour la détermination du seuil d’écrêtement

Nous proposons la méthode suivante :

-Calibrer une loi pour la variable aléatoire Coût de sinistre individuel

-Réduire le coefficient de variation de la variable aléatoire Charge écrêtée d’un contrat par

rapport à celui de la Charge non écrêtée.

Notre choix de loi pour la variable aléatoire se définit grâce à la comparaison des quantiles

empiriques et théoriques.

L’idée de cette analyse graphique est la suivante.

Soit 0F la fonction de répartition de la loi calibrée et F la fonction de répartition réelle. On

veut tester 0H : 0FF contre 1H : 0FF .

On appelle quantile d’ordre p, pxFxpF )(:inf)( .

Idée : Comme la fonction de répartition empirique nF est un bon estimateur de F , on peut

supposer que nF est un bon estimateur de F : 0sup

psn FF , où, notant )(iX la

statistique d’ordre i,

n

iFiX n)( pour i de 1 à n.

Si on voit un alignement des points

)(;0 iXn

iF pour i de 1 à n, sur la droite xy (ce

qui implique 0FFn ), on peut accepter 0H .

Nous choisissons la loi de Pareto, loi à queue épaisse. L’estimation des paramètres de la loi se

fait par maximum de vraisemblance.

Les estimateurs du maximum de vraisemblance sont calculés par la méthode de Newton

Raphson par le Solver d’Excel. Un point nécessitant l’attention est la stabilité du Solver. Il est

important d’examiner l’initialisation des paramètres et de tester les solutions obtenues pour



21

différentes initialisations. Retrouver plusieurs fois des solutions proches les unes des autres

peut garantir la stabilité de la solution. L’initialisation est un point clé de l’optimisation et ce

test doit être effectué car il se peut que le vecteur de paramètres initial ne soit pas un

minimum local mais au bord du domaine de définition des paramètres, auquel cas il y a

saturation.

Les résultats du calibrage sont disponibles dans l’Annexe 8.4.

A titre illustratif, les graphiques suivants permettent de comparer les ajustements à une loi

Pareton, une loide Weibull et une loi Exponentielle. Nous considérons que l’ajustement à une

loi Pareto est meilleur que ceux à d’autres lois, suivant le principe des QQ-plots.

Figure 7. Graphiques des quantiles estimés en fonction des quantiles empiriques.

Les quantiles sont ceux de la variable Charge divisée par la moyenne, paramètre de normalisation pour éviter la

divergence des fonctions de répartition. L’ajustement le meilleur est celui de l’ajustement à la loi Pareto.



22

Sous l’hypothèse de modèle collectif pour représenter la charge d’un contrat sur trois années,

notant iX le coût du sinistre i, N le nombre de sinistres et S le seuil d’écrêtement, l’équation

en S, pour une valeur de α fixée, s’écrit :

N

i

N

i

SXiESXiVar11

));min((.));min((

Si N et les iX sont indépendants et les iX sont identiquement distribués :

N

i

SXiESXiENVarSXiVarNE1

));min((.));²(min().());(min().(

Si N suit une loi de Poisson on a alors :

N

i

SXiESXiENE1

));min((.));²((min).(

soit ));(min()(.));²((min).( SXiENESXiENE

Cela fournit une équation d’inconnue le seuil d’écrêtement S, pour une valeur de coefficient

de variation α fixée.

Les résultats sont les suivants sous l’hypothèse de la loi de Pareto calibrée et d’un modèle

collectif pour représenter la charge pour un contrat.

Un seuil d’écrêtement de 100 000 euros permet une réduction de 46% du coefficient de

variation par rapport au coefficient de variation de la charge non écrêtée et une réduction de

10,6% par rapport à la charge écrêtée au seuil de 150 000 euros.

Les sinistres supérieurs à 100 000 euros en incendie et attentat représentent 0,14% de

l’ensemble de sinistres tous types de sinistres confondus, en nombre.

Nous retenons un seuil d’écrêtement de 100 000 euros pour les sinistres Incendie et

Attentat.

Nous montrons à titre indicatif le graphique ci-dessous, soulignant le fait qu’une grosse partie

de la charge incendie et attentat est expliquée par la surcrête.



23

Figure 8. Répartition des sinistres Incendies et attentats

Nous nous intéressons ci-dessous à la façon dont on répartit la surcrête des Incendies et

Attentats.

Mutualisation des sinistres Incendie et Attentat

Nous distinguons la façon de mutualiser la surcrête à 100 000 euros de celle de traiter le

surplus de charge à 16 000 euros.

Sinistres de charges supérieures à 100 000 euros

Les sinistres incendies et attentats de charges supérieures à 100 000 euros sont écrêtés à ce

seuil, puis la surcrête résultante est répartie sur tous les contrats du portefeuille par classe :

Propriétaires de maison (PM), sans dépendance, Résidence Principale

Propriétaires de maison, avec dépendance, Résidence Principale

Propriétaires de maison, sans dépendance, Résidence Secondaire

Locataires de maison (LM)

Locataires d’appartement (LA)

Autres,

La majeure partie de la charge incendie et attentat est expliquée par les

graves de la surcrête:

0

0,2

0,4

0,6

0,8

1

1,2

0,10

144,

40

208,

43

271,

31

338,

28

443,

14

571,

66

739,

84

958,

06

1253

,42

1663

,72

2308

,79

2665

,25

2853

,06

2934

,60

4117

,03

6267

,91

1192

5,08

3275

5,54

1888

56,4

9

charge individuelle en euros

u. m

.

fdr empirique part cumulée de charge



24

Nous estimons en effet que ces sinistres graves et exceptionnels doivent être financés par

l’ensemble du portefeuille, avec un poids différent selon les segments (le sinistre grave d’un

locataire d’appartement n’a pas le même poids que le propriétaire de maison).

Chaque contrat reçoit une part en euros fixe de la surcrête.

On ajoute ainsi un sinistre fictif en garantie Incendie pour les contrats non sinistrés.

La partition précédente des contrats tire son origine d’une classification des contrats touchés

par un incendie ou un attentat supérieur à 100 000 euros, sur les variables qualitatives :

croisement Type de logement, Type de propriété,

fait d’avoir une dépendance,

résidence principale ou secondaire,

zone de risque issue du zonier.

Cette partition a été réalisée afin d’obtenir des classes homogènes en terme de risque incendie.

Méthode de classification

On utilise la méthode du saut minimum pour classifier (single linkage en anglais), et la

distance sous-jacente ayant servi à transformer l’ensemble des observations caractérisées par

des variables qualitatives en matrice de distances est la distance de Jaccard, qui est un indice

de dissimilarité.

Ce coefficient de Jaccard est égal, pour un couple d’observations caractérisées par des

variables qualitatives codées en 0-1, au nombre de variables valant 1 pour les deux

observations, divisé par le nombre de variables valant 1 pour l’une des deux ou les deux.

L’indice de dissimilarité entre deux contrats i et j vaut : cba

a

, avec

a = nombre de caractéristiques communes ;

b = nombre de caractéristiques possédées par i et pas par j ;

c = nombre de caractéristiques possédées par j et pas par i.

La méthode de classification de la matrice des distances consiste à :

- munir l’espace des observations d’un critère de regroupement, ici le saut minimum

- considérer chaque observation comme une classe, puis à regrouper les deux amas les plus

proches pour former une nouvelle classe remplaçant celles ayant servi à sa formation. La

fusion des deux classes les plus proches est répétée jusqu’à ce qu’aucune classe ne reste.

- on obtient un arbre résumant les classes formées à chaque itération.

Il faut ensuite choisir un nombre de classes pour déterminer le niveau de coupure de l’arbre;

on obtient ainsi à partir de l’arbre et ce nombre de classes choisi, des observations réparties

dans les classes.

Nous pouvons ainsi affecter les contrats sinistrés par un incendie ou un attentat à l’une des

cinq classes de risques construites. On donne les caractéristiques prédominantes en nombre de

contrats sinistrés par les incendies-attentats supérieurs à 100 000 euros.



25

Classe 1 : PM, présence d’une dépendance, résidence principale, zones A-B-C-D

Classe 2 : PM, pas de dépendance, résidence principale, zones C-D-E

Classe 3 : PM, pas de dépendance, résidence secondaire, zones B-C

Classe 4 : LA, pas de dépendance, résidence principale, zones I-Q

Classe 5 : LM, pas de dépendance, résidence principale, zones B-D-E-F

Mutualisation par classe

Intéressons-nous à la méthode de mutualisation par classe de la surcrête sur l’ensemble des

contrats.

Notant :

X l’évènement « avoir un incendie ou un attentat de charge supérieure à 100 000

euros » et P(X) la probabilité associée

ni le nombre de sinistres dans la classe i, y compris les fictifs

P(X|i) la probabilité d’avoir un incendie ou un attentat de charge supérieure à 100 000

euros sachant que le contrat est dans la classe i

P(i) la probabilité d’être dans la classe i,

a le nombre total d’années police du portefeuille

Nous appliquons la formule suivante pour le calcul de la charge mutualisée d’un sinistre d’un

contrat de la classe i :

En estimant les probabilités par les fréquences de sinistres annuelles,

Avec cette formule, la surcrête globale est répartie par classe de risque, ce qui a pour effet de

ne pas pénaliser tous les contrats de la même façon.

Les résultats suivants montrent en unités mathématiques la part de la surcrête Incendie et

Attentat à 100 000 euros que prend chacune des six classes :

)(

),(

)(

)()( c iiime,

j

j

ij

j

i

SnX

iXsS

nX

iiXs

c

c

iime,

iime,

j

j

iX

iX

j

j

i

X

iX

Snn

ns

S

na

n

a

n

s



26

Classe 1 0,39

Classe 2 0,18

Classe 3 0,04

Classe 4 0,23

Classe 5 0,11

Classe 6 0,05

Tableau 2. Part de surcrête Incendie et attentat

Remarquons que le fait d’avoir une dépendance, connu pour être un facteur favorable au

déclenchement d’incendie, n’est pas forcément favorable au déclenchement d’un incendie

grave au sens supérieur à 100 000 euros.

De plus, il faut noter que même les contrats non sinistrés se retrouvent avec une charge en

incendie.

Il existe une autre méthode permettant de mutualiser la surcrête sur les contrats même non

sinistrés. Il s’agit de mutualiser sur la prime acquise, soit, notant Pi la prime du contrat i et P

la somme des primes sur les contrats, de prendre :

Pour un contrat sinistré :

iPP

SC C eme

Pour un contrat non sinistré :

iPP

S C me

L’inconvénient de cette méthode est l’existence des rabais et des générations. La prime payée

par le client actuellement n’est pas forcément représentative du risque du contrat par rapport

aux autres clients. Ainsi, nous pénaliserions un assuré ayant une prime sans rabais par rapport

à un assuré ayant un risque plus important mais payant une prime plus faible par application

de 50% de rabais. Pour cette raison, nous avons choisi de d’appliquer la méthode qui a été

décrite au-dessus.

Sinistres de charges comprises entre 16 000 et 100 000 euros

Les charges de sinistres comprises entre 16 000 et 100 000 euros sont réparties sur l’incendie

et attentat par classe de risque, classe construite sur la classification des incendies et attentats

décrite dans la section précédente. Une analyse discriminante sur les contrats touchés par un

sinistre incendie ou attentat permet d’affecter chaque contrat à sa classe de risque.

La méthode de mutualisation utilisée consiste à répartir la surcrête d’une classe sur la sous-

crête d’une classe.



27

2.4.3. Sinistres de charges supérieures à 1 000 000 d’euros

Les charges supérieures à un million d’euros par sinistre sont considérées comme des

montants exceptionnels que tous les contrats, même non sinistrés, doivent se partager. Les

sinistres de ce type relevés sur notre base concernaient les garanties Incendie et

Responsabilité Civile.

La surcrête à 100 000 euros des charges des sinistres supérieurs à 1 000 000 d’euros est

répartie sur l’ensemble des contrats en augmentant la charge par contrat de :

euros Sg

caa

Où Sg est la surcrête des sinistres supérieurs à 1 000 000 d’euros, a le nombre d’années police

du portefeuille d’étude, ac le nombre d’années police du contrat.

Au final, tous les contrats prennent chacun une charge de 2,10 euros par année police au titre

du partage des exceptionnels.

Cette charge ajoutée par contrat est ventilée de la façon suivante pour la modélisation par

garantie : 1,05 euros par année police du contrat pour la garantie Incendie et 1,05 euros par

année police du contrat pour la garantie Responsabilité Civile.

Ainsi, 2,10 euros de chargement pour sinistres exceptionnels seront ajoutés à la prime pure de

chaque contrat après modélisation.

2.5. Franchise

La base construite jusqu’ici contient les charges franchises déduites. Pour la modélisation, il

faut ajouter à ces montants par sinistre les franchises.

Pour les Dommages électriques, la franchise est ajoutée à la charge par sinistre qu’il y ait

franchise pour le contrat ou non et vaut :

indice FFB au trimestre de la survenance du sinistre * 0.23 jusqu’à avril 2009

indice FFB au trimestre de la survenance du sinistre * 0.17 après avril 2009.

Pour les autres garanties hors catastrophes naturelles et hors climatiques, la franchise est

ajoutée à la charge par sinistre s’il y a une franchise pour le contrat et vaut :

indice FFB au trimestre de la survenance du sinistre * 0.23 jusqu’à avril 2009

indice FFB au trimestre de la survenance du sinistre * 0.17 après avril 2009.



28

T1

2008

T2

2008

T3

2008

T4

2008

T1

2009

T2

2009

T3

2009

T4

2009

T1

2010

T2

2010

T3

2010

T4

2010

indice FFB 774,6 773,5 791,2 810,4 829,1 802,9 799,4 804,4 811,8 817,9 841,7 851,2 franchise calculée

178 178 182 186 191 136 136 137 138 139 143 145

Tableau 3. Chronologie des franchises

2.6. Base finalisée

La base finalisée comporte les contrats du portefeuille d’étude avec :

- lorsqu’ils sont réellement sinistrés, leur charge mutualisée par garantie, franchise non

déduite

-lorsqu’ils n’ont pas été sinistrés, une charge affectée à la garantie Incendie due à la

répartition des Incendies et attentats supérieurs à 100 000 euros

-leurs primes pures par garantie.

Bilan et transition

Ayant présenté la façon dont la sinistralité a été réajustée sur l’ensemble du portefeuille

d’étude, nous nous intéressons dans les parties suivantes à des outils permettant d’orienter le

choix dans la sélection de variables.

Nous commencerons dans la section suivante par des constats sur les variations de la prime

pure en fonction des variables. Les études descriptives servent à donner une idée des variables

influentes pour chaque type de sinistre. Nous étudierons d’une part la prime pure globale et

d’autre part les primes pures par type de sinistre.

Nous poursuivrons par des résultats sur la corrélation des variables à la prime pure et les

corrélations entre variables qualitatives.

Ces chiffres et graphiques sont des premiers outils permettant de réaliser une première

sélection de variables qu’il serait convenable d’introduire dans les modèles.

Une sélection de variables prises seules par méthode Forward utilisant le critère AIC,

mesurant l’ajustement aux données, est réalisée afin d’introduire des effets principaux dans le

modèle. On recherche ensuite des interactions par méthode Forward sur critère BIC. Nous

choisissons ce critère pénalisant davantage le nombre de paramètres à estimer que le critère

AIC, car nous ne souhaitons pas inclure des interactions donnant lieu à un trop grand nombre

de paramètres à estimer. La parcimonie est recherchée.

Une analyse des statistiques et résidus issus de la modélisation par des modèles linéaires

généralisés permet de comparer les modèles incluant les variables comportementales et ceux

ne les incluant pas. Ceci vise à voir si l’ajustement à l’observé est bien meilleur en présence

de ces variables pour un type de sinistre donné, et donc à justifier leur introduction dans la



29

modélisation d’une garantie donnée. Il est important de valider ainsi l’inclusion de ces

nouvelles variables dans certains modèles pour justifier, auprès des Agents et Services de

souscription, la nécessité de poser des questions relatives au Client pour un risque

Multirisques Habitation.

Nous proposerons ensuite une méthode de sélection de variables reposant sur un nouveau

critère, mesurant la précision et la robustesse des modèles testés, et des extensions possibles.



30

3. Etude descriptive de la prime pure et des variables: graphiques et

corrélations

Les variables que nous songeons à tester sont divisibles en trois groupes principaux,

-les variables caractéristiques du logement, dites variables contrat – ce sont les variables

traditionnellement utilisées en Multirisques-Habitation - ;

-les variables dites comportementales ou clients – il s’agit de variables susceptibles de

traduire le comportement de l’assuré et d’influencer sa sinistralité - ; ces variables sont

récupérées du Service Marketing fournissant des données sur les Clients ;

-les variables géocodées et la variable Zonier – il s’agit de variables caractérisant une

commune dans laquelle se situe le risque assuré. Nous présenterons les constats sur les deux

premiers groupes de variables ; en effet, une étude du Zonier et des variables géocodées font

l’objet d’un travail parallèle sortant du cadre de ce rapport.

Le tableau suivant contient la liste des variables dont nous disposons et que nous pourrions

utiliser. Nous présenterons ensuite la mise en classe et apporterons des précisions sur les

modalités.

Variable contrat Variable Clients Autres

Nombre de pièces

Capital

Montant des objets de valeur

Ancienneté du logement

Franchise

Type de logement (maison, appartement, rez-de-

chaussée)

Type de propriété (locataire, propriétaire, colocataire)

Résidence

(secondaire ou principale)

Dépendance (oui, non)

Segment de risque

(Locataire d’appartement=LA, Locataire de maison=LM,

Propriétaire d’appartement=PA, Propriétaire de maison =PM)

Insert

Réseau de distribution

Age

Enfant (oui/non/inconnu)

Situation familiale

Segment client

Catégorie Socioprofessionnelle

Valeur Client

Région AXA

(64 Ile de France, 65

Nord-Est, 66 Ouest, 67

Sud-Est, 68 Sud-Ouest, 13 DOM TOM, 83 AXA

Partenaires)

Zonier

Tableau 4. Variables d'étude



31

Dans le groupe des variables Clients, la valeur client est un indice allant de 1 à 5 et a été

construit pour refléter la rentabilité du client au vu de sa mono ou multi-détention de contrats

chez AXA. La valeur 5 correspond à la valeur sensée représenter un client rentable.

Le segment client représente la catégorie socioprofessionnelle.

Nous commençons par préciser les classes utilisées pour les variables quantitatives. Ces

classes ont été construites à partir des quantiles et de manière à ce qu’elles soient

suffisamment représentées. Nous avons procédé à un examen des variables en vue de voir si

leur renseignement est correct et retraité les modalités pour aboutir à un ensemble de

modalités compréhensibles.

Notons que tous les contrats étudiés sont relatifs à des assurés Occupants.

Pour les variables présentées ci-dessous, nous indiquons les classes et la répartition des

années police suivant les modalités.

Variable Age

modalités

Répartition des années police suivant l'âge

2,40%

14,20%

18,40%16,90%

16,70%

2,00%

29,40%

<= 25 ans 25< <=35 ans 35<<=45 ans 45< <=61 ans 61< <=74 ans >74 ans inconnue

1 <= 25 ans

2 25< <=35 ans

3 35<<=45 ans

4 45< <=61 ans

5 61< <=74 ans

6 >74 ans

un inconnue

Variable Montant du capital assuré

Cette variable est renseignée sur tous les contrats.



32

modalités Répartition des années police suivant le montant du capital assuré

5,50%

14,40%

27,60%

24,70%

16,30%

11,50%

<= 8 000 euros 8 000< <=10 520 euros 10 520<<=20 000 euros

2 0000< <=30 000 euros 30 000< <=43 000 euros 43 000< <=620 000 euros

01 <= 8 000 euros

02 8 000< <=10 520 euros

03 10 520<<=20 000 euros

04 2 0000< <=30 000 euros

05 30 000< <=43 000 euros

06 43 000< <=620 000 euros

Variable Nombre de pièces

modalités Répartition des années police suivant le nombre de pièces

6,60%

14,70%

23,80%

47,90%

7,10%

Une pièce Deux pièces Trois pièces Quatre à six pièces Plus de sept pièces

1 Une pièce

2 Deux pièces

3 Trois pièces

4 Quatre à six pièces

5 Plus de sept pièces

Variable ancienneté du logement

Nous retenons deux types de logement :

Classe 1 : strictement inférieure à 10 ans (logements neufs ou récents)

Classe 2 : supérieure à 10 ans (anciens logements)

modalités % années police

1 <10 ans 4,2%

2 >=10 ans 95,8%



33

Segments Clients

Le retraitement de la variable Segment Client fournie par le Service Marketing aboutit aux

classes suivantes :

modalités Répartition des années police suivant le segment client

5,60%

11,60%

29,00%

7,90%

28,40%

14,10%

3,30%

Cadres supérieurs Employés personnes seulesEmployés avec famille Agriculteurs, artisans, professions libéralesretraités entreprisesinconnue

2 Cadres

supérieurs

3 Employés

personnes seules

4 Employés avec

famille

5

Agriculteurs, artisans,

professions libérales

6 retraités

E entreprises

INC inconnue

Variable Situation Familiale

Les modalités et leurs significations sont les suivantes : modalités Répartition des années police suivant la situation familiale

21,88%

57,71%

3,79%

7,61%

9,00%

Célibataire Conjoint Inconnue

Séparé Veuf

CE Célibataire

CO Avec

conjoint

IN Inconnue

SE Séparé

VE Veuf



34

Variable Montant des Objets de Valeur

D’après l’étude de la distribution de la variable Montant des objets de valeurs, les classes

proposées sont les suivantes :

modalités Répartition des années police suivant le montant des objets de valeur

33,40%

2,60%

42,10%

15,60%

6,30%

0 euros 0 <<= 1 000 euros

1 000 < <= 5 000 euros 5 000 < <= 10 000 euros

> 10 000 euros

1 0

euros

2 0 <<= 1 000

euros

3

1 000

< <=

5 000

euros

4

5 000

< <= 10 000

euros

5 >

10 000

euros

Le lecteur pourra se reporter à l’Annexe 8.5 pour la répartition des années police suivant

d’autres variables.

Capitaux

En pratique, les variables montant de capital assuré et montant des objets de valeur sont

parfois mal déclarées par les assurés. En effet, il s’agit de variables déclaratives souvent mal

évaluées par les assurés. La répartition du capital déclaré en fonction du nombre de pièces fait

apparaître des capitaux étonnamment bas. Le capital ayant un poids important dans le tarif

actuel, il semble que le capital déclaré soit parfois utilisé plus comme variable d’ajustement

tarifaire que comme grandeur objective.

Cela a pour conséquence une sous-déclaration moyenne des capitaux et des résultats dégradés

sur les contrats à faibles capitaux déclarés. Le constat sur le capital objet de valeur est

semblable, certainement du fait du lien de proportionnalité entre ces deux variables : le

montant des objets de valeur déclaré est en pourcentage du capital contenu.

Il nous paraît donc intéressant de revoir les coefficients tarifaires associés à cette variable en

lui donnant moins de poids qu’au nombre de pièces qui est une variable objective déclarée

correctement sous peine de RP.

Pour cette raison, nous choisissons au final de tarifer non pas en fonction de ces variables,

mais en fonction des surplus de capitaux vis-à-vis du nombre de pièces. Nous définissons les

surplus de la manière suivante.



35

Surplus de capital et surplus d’objets de valeurs

On appelle surplus, la différence entre le capital ou le montant d’objets de valeurs déclaré par

l’assuré et une valeur de référence, cette dernière valant:

Pour le capital : 10 000 euros par pièce

Pour le capital des objets de valeur :

5 000 euros par pièce, entre 1 et 4 pièces

10 000 euros par pièce, entre 5 et 10 pièces

15 000 euros par pièce strictement au-delà de 10 pièces

Nous retenons le codage suivant :

Surplus de capital : 0=surplus négatif ou nul, 1=surplus strictement positif, strictement

inférieur à 10 000 euros, 2=surplus supérieur à 10 000 euros.

Surplus de capital objets de valeur : 0=surplus négatif ou nul, 1=surplus strictement positif,

strictement inférieur à 3 000 euros, 2=surplus supérieur à 3 000 euros.

Par souci de simplicité dans la mise en œuvre au niveau du service Informatique du nouveau

processus de tarification, et pour une communication aisée, nous faisons les choix suivants.

Pour toutes les garanties et au global, les variables:

surplus de capital

surplus d'objets de valeur

Interviennent dans la prime pure par ajustement additif sur la prime pure globale issue des

modélisations

Pour la garantie Incendie, la variable insert sera tarifée après calcul de la prime pure

incendie, par ajustement additif sur la prime pure incendie.

En effet, la variable insert n’est renseignée que pour les affaires nouvelles et remplacements

émis après le 20 septembre 2010.

De plus, nous choisissons de tarifer par la prime pure et pas par un modèle en fréquence-coût

moyen, en raison du nombre de paramètres à estimer dans ce dernier cas qui serait plus

important qu’en modèle de prime pure. La modélisation par type de sinistre impose déjà un

nombre élevé de paramètres à estimer.

Nous présentons dans les deux sections suivantes les constats issus de l’observation des

graphiques de primes pures tous types de sinistres confondus, hors catastrophes naturelles,



36

climatiques et dommages électriques, et des graphiques de primes pures par type de sinistre,

en fonction des variables testées.

3.1. Etude descriptive de la prime pure globale hors catnat, options,

dommages électriques, climatiques

L’étude partant de l’idée de la remise à plat de la structure tarifaire, nous proposons dans cette

section des premières sélections de variables basées sur les graphiques seuls.

L’observation des graphiques nous invite à sélectionner les variables suivantes semblant

différencier le niveau de primes pures toutes charges confondues.

-montant du capital assuré : on observe une croissance marquée du niveau de prime pure

moyenne

-nombre de pièces

-région (Ouest majoritaire, Ile de France ; prime pure la plus élevée si on ne considère pas la

région AXA Partenaires moins exposée). On peut faire le classement par ordre de prime pure

croissante : groupe {Ouest, Sud-ouest}, Sud-est, Ile de France.

-réseau de distribution (prime pure plus élevée avec un écart relatif de 21% pour les courtiers

vis-à-vis des agents)

-inhabitation (résidence secondaire/principale) : la prime pure pour les résidences secondaires

est en moyenne plus faible avec un écart relatif de 14,4%. Elle est plus élevée pour les

résidences secondaires que les résidences principales en Dégâts des Eaux.

-présence d’insert : on observe un écart relatif de 73% pour les assurés ayant un insert

-présence d’une dépendance : un écart relatif de 27,5% est relevé pour les assurés ayant une

dépendance.

-zonier : on observe une croissance marquée à partir de la zone H

-segment de risque : on observe peu de différence entre Locataires d’Appartement et

Locataires de Maison, et une croissance nette de prime pure dans la comparaison des

Propriétaires d’Appartement aux Propriétaires de Maison et aux Locataires.

-type d’habitation : les maisons enregistrent une prime pure plus élevée

-type de propriété : les propriétaires ont une prime pure plus élevée

-montant des objets de valeurs : la prime pure est croissante avec le montant des objets de

valeur

Nous avons également testé des variables relatives au client, obtenues du Service Marketing.

Concernant les variables comportementales, les suivantes pourraient éventuellement être

sélectionnées :

-fait d’avoir au moins un enfant : on note un écart relatif de 28%.

-situation familiale : les personnes ayant un conjoint enregistrent un écart relatif de 32,3% vis-

à-vis des célibataires.



37

-âge : on observe une différence du groupe des personnes d’âge compris entre 35 et 61 ans,

par rapport aux jeunes et aux personnes plus âgées.

-segment client : on note deux groupes de niveau : le plus bas concerne les personnes

retraitées et les employés vivant seuls, l’autre groupe concerne essentiellement les cadres

supérieurs, les professions libérales, artisans.

-catégorie socioprofessionnelle : cadres et artisans ont une prime pure plus élevée que les

employés et chômeurs

-valeur client: la prime pure est croissante avec la valeur client

Certaines variables semblent ne pas différencier énormément le niveau de prime pure suivant

leurs modalités ou ne sont renseignées que sur une partie mineure du portefeuille d’étude. Ces

variables qu’on peut songer à ne pas utiliser pour le modèle sont :

- l’ancienneté du logement : différence peu visible ; la prime pure est plus légèrement plus

élevée pour les logements neufs.

-la franchise : différence de prime pure moyenne peu visible. Contrairement au plan

global où la différence relative de prime pure entre ceux ayant une franchise et ceux

n’en ayant pas n’est que de 0,48%, celle pour les Bris de Glace est de 64%.

Nous présentons dans la section suivante les constats par type de sinistre.

3.2. Etude descriptive de la prime pure par type de sinistre

Bris de Glace

Sur cette garantie, une différence relative de prime pure de 70% entre maison et

appartement est observée, contre 34% au global.

Nous notons une différence relative de prime pure de 36 % pour la variable « dépendance ou

pas » en bris de glace, contre 27% en prime pure globale.

Un écart relatif de 34% entre Locataires d’Appartement et Locataires de Maison est constaté,

alors qu’au global cet écart ne ressort pas.

Nous observons également une différence de 38% sur le fait d’avoir au moins un enfant à

charge, contre 28% au global.

Contrairement au niveau global où la différence relative de prime pure entre ceux ayant une

franchise et ceux n’en ayant pas n’est que de 0,48%, celle pour les Bris de Glace est de 64%.

Pour le nombre de pièces, nous notons pour des écarts relatifs de prime pure :

Classe 1 vs classe 2 : 39,5%, contre 20% au global,

Classe 3 vs classe 2 : 19,8% contre 18,3% au global.



38

Entre la valeur client 1 et la valeur client 5 on note un écart relatif de 49% alors qu’au global

on note un écart de 32,5%.

On distingue, concernant la région Axa, deux niveaux généraux de primes pures : un pour

l’Ile de France, le Nord-est, l’Ouest et Axa Partenaires, un autre pour le Sud-est et le Sud-

ouest.

On peut noter une opposition célibataire-conjoint (écart relatif 62% contre 31% au global)

peut-être due aux enfants et une opposition célibataire-veuf (écart relatif 28% contre 5% au

global) peut être due à la différence d’âge.

Nous présentons ci-dessous, à titre illustratif, les primes pures moyennes observées par

modalité pour les variables Enfant et Nombre de pièces, en base 1. Pour chaque variable, la

base 1 est la modalité la plus exposée. Nous superposons les primes pures au global et en Bris

de Glace. Ainsi, la différence de prime pure entre les deux modalités « Pas d’enfant » et « Au

moins un enfant » est plus nette sur les Bris de Glace qu’au global, ce qui nous invite à

vouloir introduire cette variable pour cette garantie.

Variable Enfant, base 1=pas d'enfant à charge

0,9

0,95

1

1,05

1,1

1,15

1,2

1,25

1,3

1,35

1,4

0 1 U

IDENFCLI

Prim

e p

ure

en b

ase 1

0

0,2

0,4

0,6

0,8

1

Répartitio

n d

es a

nnées p

olic

e (u

m)

Répartition des années police pp globale avec charge fictive BG

Nombre de pièces, base 1=classe 4

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

1 2 3 4 5

1, 2, 3: 1 à 3 pièces; 4: 4 à 6 pièces; 3: plus de 7 pièces

Prim

e p

ure

base 1

00

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Répartitio

n d

es a

nnées p

olic

e e

n

base 1

00

Répartition des années police pp globale avec charge fictive BG

Figure 9. Variables Enfant et nombre de pièces : Prime pure moyenne observée et répartition des années police.

En bleu, prime pure moyenne toutes garanties confondues. En rouge, prime pure moyenne en Bris de Glace.

Variables sans impact remarquable

Les logements récents ont une prime pure plus élevée d’un écart relatif de 6% en Bris de

Glace. On pourrait penser à l’enlever des variables à intégrer au modèle.

On observe également peu de différence de prime pure selon le canal de distribution.

On remet en question la pertinence du zonier pour la garantie Bris de Glace. En effet, on

n’observe pas de croissance, ni de décroissance marquée.

Dégâts des Eaux

On remarque une croissance marquée de la prime pure avec les zones du zonier.

On note également une prime pure élevée pour les copropriétaires et les appartements.



39

Les régions Ile de France, Sud-est et Axa Partenaires se démarquent des autres régions par

leurs primes pures plus importantes et les courtiers enregistrent le niveau le plus élevé. Les

courtiers ont une prime pure moyenne de 80% plus élevée que les agents.

Les personnes ayant un conjoint et les personnes séparées ont des primes pures plus élevées.

Ce sont les cadres supérieurs qui voient leurs primes pures au-dessus des autres catégories.

Alors qu’au global l’ancienneté du logement ne joue pratiquement pas, en Dégâts des Eaux,

les logements considérés comme récents ont une prime pure moyenne de 30% plus faible que

les logements plus anciens. Cependant, ce constat est à prendre avec précaution en raison de

la faible exposition des logements récents.

La croissance de la prime pure moyenne avec le capital assuré n’est marquée que lors du

passage des montants strictement supérieurs à 43 000 euros. Sa croissance avec le nombre de

pièces n’est marquée qu’en passant aux plus de sept pièces.

Au global, le fait d’avoir une dépendance augmente la prime pure moyenne de 30%, tandis

qu’en Dégâts des Eaux, cette caractéristique la diminue de 30%.

On pourrait éventuellement enlever du modèle de prime pure en Dégâts des Eaux les

variables :

-franchise

-résidence secondaire/principale

-enfant (augmentation de 20% du fait d’avoir un enfant, alors qu’on constate une

augmentation de 30% au global)

-insert.

A titre illustratif, nous montrons ci-dessous les graphiques des variables Segment de risque et

Enfant. En Dégâts des Eaux, la différenciation suivant la première variable citée est plus forte

qu’au global, alors que pour la deuxième, elle est moins nette qu’au global. Nous pourrions

penser ne pas intégrer la variable Enfant dans cette garantie.

SEGMRISK, base 1=PM

0,55

0,75

0,95

1,15

1,35

1,55

1,75

1,95

2,15

2,35

LA LM PA PM

SEGMRISK

Pri

me

pu

re e

n b

ase

1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Ré

pa

rtition

de

s a

nn

ée

s p

olic

e

Répartition des années police pp globale avec charge fictive DDE

Variable Enfant, base 1=pas d'enfant à charge

0,9

0,95

1

1,05

1,1

1,15

1,2

1,25

1,3

1,35

1,4

0 1 U

IDENFCLI

Pri

me

pu

re e

n b

ase

1

0

0,2

0,4

0,6

0,8

1 Ré

pa

rtition

de

s a

nn

ée

s p

olic

e (u

m)

Répartition des années police pp globale avec charge fictive DDE

Figure 10. Variable Segment de risque en Dégâts des Eaux. Primes pures moyennes observées en Dégâts des

Eaux (courbe rouge) et au global (courbe bleue).

La variable Enfant a moins d’impact qu’au global.



40

Incendie

On remarque que la présence d’une dépendance impacte en croissance la prime pure de façon

plus marquée qu’au global.

Ce sont les maisons qui sont touchés par des primes pures plus élevées.

La présence d’insert impacte en forte hausse la prime pure ; cependant, la part d’exposition

relevée des personnes ayant un insert n’est que de 0.67%.

Il y a une différence de 30% dans le niveau de prime pure si on compare les résidences

principales aux résidences secondaires, contre moins de 15% au global.

Au niveau des régions, seule la région DOM-TOM se démarque des autres régions AXA par

son faible niveau relatif de prime pure moyenne.

Il y a peu de distinction de niveau de prime pure suivant le réseau de distribution, le fait

d’avoir une franchise et l’ancienneté du logement. La différence de prime pure suivant la

région est également peu marquée. L’impact de la CSP et, de façon similaire, du segment

client, sont peu visibles.

Contrairement au plan global où les cadres supérieurs ont une prime pure plus élevée de 30%

vis-à-vis des employés, on constate que pour les incendies, les cadres supérieurs ne se

démarquent quasiment pas des employés.

Le niveau de prime pure décroît avec les zones.

Responsabilité Civile

La différence de prime pure en Responsabilité Civile (notée RC) est bien marquée entre ceux

ayant au moins un enfant à charge et ceux n’en ayant pas, comme le montre la figure ci-

dessous.

Variable enfant, base 1=pas d'enfant à charge

0,9

1,1

1,3

1,5

1,7

1,9

2,1

0 1 U

IDENFCLI

Prime pure en base 1

0

0,2

0,4

0,6

0,8

1

Répartition des années

police (um)

Répartition des années police pp globale avec charge fictive RC

Figure 11. Variable Enfant en Responsabilité Civile (RC). Primes pures moyennes observées en RC (courbe

rouge) et au global (courbe bleue).

La variable Enfant a plus d’impact qu’au global.



41

Par ailleurs, on note une augmentation de 49% du niveau de prime pure moyenne pour les

employés avec famille par rapport aux employés vivant seuls.

Les retraités ont une prime pure moyenne se démarquant à la baisse de celle des actifs.

Lorsqu’il n’y a pas de franchise, la prime pure RC est de 10% plus élevée que lorsqu’il n’y en

a pas.

On constate une augmentation de 16% pour les logements anciens par rapport aux logements

récents; cependant, cette remarque est à utiliser avec précaution car seul 4,2% du portefeuille

d’étude se trouve dans la catégorie des logements anciens.

On peut intégrer le critère résidence secondaire /résidence principale pour ne pas pénaliser

ceux souscrivant pour leur résidence secondaire en RC.

On remet en cause la validité du zonier pour la RC.

On constate peu de différence de niveau de prime pure entre les canaux de distribution

Agents-Courtiers-Salariés. On note également peu de différence suivant la région AXA.

Le capital assuré et le capital objet de valeur jouent moins sur le niveau de prime pure

moyenne de la RC qu’au niveau global.

Vol

On valide la pertinence du zonier sur les sinistres Vols.

On note une croissance marquée de la prime pure moyenne suivant les classes du montant

des objets de valeurs, croissance plus forte qu’au plan global.

Les régions Ile de France, Sud-est et Axa Partenaires enregistrent des niveaux de primes

pures moyennes fortement démarquées de la région Ouest par leurs augmentations de plus de

100% par rapport à cette dernière.

On observe que les logements récents ont une prime pure moyenne de 50% plus élevée que

les logements plus anciens ; cependant, ce constat est à prendre avec précaution en raison de

la faible exposition au risque des logements récents.

Ce sont les cadres supérieurs qui ont une prime pure moyenne bien plus élevée que les

autres CSP avec une forte opposition.

Les courtiers présentent une prime pure moyenne de 60% plus élevée que les agents.

L’augmentation de la prime pure moyenne avec la valeur client est plus nette pour le Vol que

celle observée au plan global.

La progression de la prime pure moyenne suivant le nombre de pièces, le type de logement, le

type de propriété, suit la même que celle observée au plan global.

On pourrait ne pas retenir les variables :

-fait d’avoir au moins un enfant à charge,

-insert



42

L’aide à la décision quant au choix des variables peut également être orientée par les mesures

de corrélations entre prime pure et variables, ce que nous abordons ci-dessous.

3.3. Corrélation prime pure et variables

Le V de Cramer est un indice compris entre -1 et 1 qui vaut 1 ou -1 à la parfaite association et

1 à l’indépendance. Sa loi n’est pas connue, on ne peut donc pas l’utiliser pour un test

d’indépendance. On l’utilise pour mesurer l’association entre deux variables nominales.

Nous utilisons la mesure de Cramer comme indicateur de corrélation entre nos variables

tarifaires potentielles et une variable qualitative définie comme suit :

-pour la prime pure par type de sinistre, variable binaire suivant que le contrat ait une prime

pure observée nulle ou non

-pour la prime pure globale, variable différenciant quatre niveaux de prime pure.

Présentons à titre illustratif le tableau ci-dessous concernant la prime pure globale, classant les

variables dans l’ordre de mesures de Cramer décroissantes.



43

Variable

V de Cramer entre

variable et prime

pure

type de propriété 0,428

segment de risque LA-PM 0,381

Type de logement 0,367

nombre de pièces 0,218

Inhabitation (résidence secondaire/principale) 0,211

présence/absence de dépendance 0,17

zonier 0,158

segment client 0,118

situation familiale 0,113

valeur client 0,112

franchise (oui/non) 0,097

âge 0,088

région Axa 0,084

enfant (oui/non) 0,081

CSP 0,074

réseau de distribution 0,047

surplus d'objets de valeur 0,044

insert 0,041

surplus de capital 0,034

ancienneté du logement 0,023

Tableau 5. V de Cramer entre fait d'avoir de la sinistralité et variables

La prime pure globale est notamment liée aux variables segment de risque, nombre de pièces,

inhabitation et dépendance. Les variables comportementales interviennent dans une moindre

mesure.

Pour les Bris de Glace, nous constatons par les mesures de Cramer que la sinistralité est

particulièrement liée au fait d’avoir une franchise, au nombre de pièces, au segment de risque,

et au fait d’avoir un enfant à charge. On observe ainsi la composante comportementale par

cette dernière variable.

En Dégâts des Eaux, le zonier, le segment de risque et la région sont les variables ayant les

mesures de Cramer les plus élevées. Les variables comportementales ne ressortent pas par

rapport à ces variables.

La sinistralité en Incendie est notamment liée au segment de risque, à la catégorie

socioprofessionnelle et au nombre de pièces. La corrélation à la catégorie

socioprofessionnelle pourrait s’expliquer par le fait que les incendies sont concentrés vers des

profils sociaux particuliers, tels que les chômeurs.

La sinistralité en Responsabilité Civile est particulièrement liée aux variables

comportementales : l’âge, le segment client, le fait d’avoir un enfant à charge, la catégorie



44

socio-professionnelle, la situation familiale, et aux variables nombres de pièces et segment de

risque qui peuvent être représentatives du fait d’avoir des enfants à charge.

Concernant les variables surplus de capital et surplus d’objets de valeur, on constate par la

mesure de Cramer qu’elles sont liées au fait d’avoir de la sinistralité essentiellement en

Dégâts des Eaux et en Vol, et au global. Pour la simplicité de la mise en œuvre pratique, ces

variables de surplus ne sont pas retenues comme variables pour la modélisation, mais on

appliquera un pourcentage d’augmentation de prime pure globale après modélisation, suivant

l’existence de surplus.

Nous avons présenté des éléments donnant une idée de quelles variables seraient susceptibles

de différencier les niveaux de prime pures. Nous présentons dans la rubrique suivante des

mesures de corrélations entre variables. Celles-ci sont utilisées pour éventuellement retirer

une variable corrélée à d’autres, ou la remplacer par son croisement avec ces dernières.



45

4. Corrélation entre variables

Par la mesure de Cramer, on constate que les variables présentant les corrélations les plus

élevées sont :

-les variables comportementales : fait d’avoir au moins un enfant à charge, situation familiale,

catégorie socioprofessionnelle ; ces variables peuvent, en effet, apporter la même information

sur le profil social de l’assuré.

On donne ci-dessous à titre indicatif les valeurs du V de Cramer dans l’ordre décroissant.

Croisement V de

Cramer

Situation familiale

avec Enfant 0,734

CSP avec Segment

Client 0,656

Age avec Enfant 0,525

Segment client avec

Enfant 0,512

Segment client avec

Situation Familiale 0,494

CSP avec Enfant 0,479

Age avec Situation

Familiale 0,443

Segment client avec

Age 0,414

CSP avec Situation

Familiale 0,404

CSP avec Age 0,392

Tableau 6. V de Cramer entre variables comportementales

-les variables type de propriété et type de logement : le V de Cramer est à 0,484 ;

-les variables réseaux de distribution et régions : le V de Cramer est à 0,46.



46

On pourra ainsi remplacer les variables type de propriété et type de logement prises

séparément par leur croisement, et remplacer la variable situation familiale par l’âge, car cette

dernière information est plus simple à obtenir de l’assuré que la situation familiale.



47

5. Modélisation des primes pures : sélection des variables sur critère

d’ajustement aux données

La structure actuelle de la prime de base de la formule Confort utilise les variables : type

d’habitation, qualité, inhabitation, nombre de pièces, franchise, capital, zone, réseau et

département de l’intermédiaire. La prime s’obtient par multiplication d’une constante par les

coefficients associés à chaque modalité. Ces coefficients peuvent être régionaux ou nationaux.

Dans cette étude, les démarches de calcul de prime pure globale sont les suivantes. Nous

proposons d’abord un modèle unique de prime pure calibré sur l’ensemble des charges, tous

types de sinistre confondus. Dans un deuxième temps, nous tentons de segmenter la structure

suivant le type de sinistre ; une modélisation par type de sinistre est menée, puis la prime pure

globale par contrat est calculée par somme des primes pures des différents types de sinistre.

Ces deux méthodes permettent d’obtenir une prime de base multirisque hors taxes,

chargements et catastrophes naturelles.

Cette prime est ensuite majorée des clauses et/ou options dont le tarif est multiplicatif.

La prime Catastrophes Naturelles est alors calculée et ajoutée.

Sont ensuite prises en compte les primes des clauses et/ou options dont le tarif est additif.

Les taxes ainsi que les différents chargements sont enfin ajoutés.

Dans la modélisation par type de sinistre, l’avantage est que l’on peut affiner le calcul de

prime pure en introduisant les variables adaptées à chaque type de sinistre.

Nous présenterons dans cette partie la méthode utilisée pour les modélisations des primes

pures ainsi que ses résultats, avant de s’interroger dans la partie suivante sur la sélection de

variables. Certes la précision qu’apporte l’ajout des variables est un atout ; il semble aussi

intéressant de mener une réflexion sur la façon de mesurer la robustesse d’un modèle de prime

pure. Nous allons pour cela étendre l’étude à la constitution d’un critère de sélection de

variables combinant la mesure de l’ajustement à l’observé, à celle de la robustesse. Une

pénalité fonction du nombre de paramètres estimés pourra être testée. Dans le cadre de

l’application à la prime pure, la méthode de sélection de variables pourra être utilisée pour

justifier de l’intégration des variables non traditionnellement utilisées, que sont les variables

type Client, ajoutées en plus des variables plus usuelles, que sont les variables caractéristiques

du logement telles que le nombre de pièces.



48

5.1. Méthode

Nous nous intéressons à modéliser la prime pure. Rappelons que la prime pure observée est le

rapport de la charge de sinistralité d’un contrat, à sa durée d’exposition au risque en année.

La démarche de modélisation de la prime pure par les modèles linéaires généralisés pour

chaque type de sinistre et au globale est la suivante :

-Partir d’une hypothèse de loi usuelle Gamma

-Sélection des variables : mettre en œuvre une méthode Forward par AIC pour sélectionner a

priori des variables: à chaque étape la variable satisfaisant le mieux le critère AIC est ajoutée,

jusqu’à ce que plus aucun candidat ne reste.

Le critère AIC est défini par:

qLLAIC 22

Où LL est la log-vraisemblance du modèle et q est le nombre de paramètres estimés.

On prendra garde au fait que pour des variables corrélées entre elles, l’une d’entre elles étant

incluse à une étape donnée, elle mange une partie de la minimisation de déviance,

minimisation due également à la variable corrélée. A l’étape suivante, la minimisation de

déviance observée sur l’ajout de la variable corrélée sera faible car la baisse de déviance aura

été captée par la variable incluse dans l’étape d’avant.

-Vérifier la cohérence des variables sélectionnées avec les constats de la rubrique « Tris à

plat »

-Eventuellement retirer une variable corrélée à d’autres variables

-Suivant l’analyse des résidus et des déviances des modèles, proposer l’ajout de variables et

l’ajout d’interactions. Nous décrirons plus loin la méthode d’introduction des interactions

éventuelles.

Ainsi, pour une aide à la décision quant à la sélection des variables :

nous testons toutes les variables et certaines interactions et nous observons :

o les déviances et critères AIC des modèles

o les graphes de résidus

nous proposerons ensuite un critère de sélection de modèle pour orienter la décision

d’intégrer des variables comportementales.

Rappelons de plus les choix suivants :



49

Pour toutes les garanties et au global, les variables surplus de capital et surplus

d'objets de valeur interviennent dans la prime pure par ajustement additif sur la prime

pure globale issue des modélisations

Pour la garantie Incendie, la variable insert sera tarifée après calcul de la prime pure

incendie, par ajustement additif sur la prime pure incendie.

En effet, la variable insert n’est renseignée que pour les affaires nouvelles et remplacements

émis après le 20 septembre 2010.

On définit le niveau de référence comme le profil de risque suivant :

Résidence principale

Pas de dépendance

Zone D

Pas d’enfant

Classe d’âge 4 (46 à 61 ans)

Classe de nombre de pièces : 4 (4, 5, 6 pièces)

Segment client 4 (employés avec famille)

Valeur client 1

Franchise : oui

Réseau de distribution Agents

Locataire d’appartement

Région 66

La prime pure s’obtient en multipliant la constante correspondant au niveau de référence, par

les coefficients des autres modalités.

5.1.1. Cadre et notation du Modèle Linéaire Généralisé

Soit Y la variable réponse observée sur une base de taille n, qu’on cherche à expliquer par p

variables représentant q modalités.

La définition du modèle linéaire généralisé impose à Y de suivre une loi de la famille

exponentielle ; à son espérance d’être liée à une combinaison linéaire des variables dont les

poids βj, pour j=1 à q, sont les inconnues à déterminer.

Fonctions de vraisemblance

Notant a, b et c des fonctions, θ et des réels, la densité de Y est de la forme suivante :



50

),()(

)(exp);;(

yc

a

byyfY

La log-vraisemblance est donnée par :

),()(

)()),;(log();,(

yc

a

byyfyl YY

Ses dérivées première et seconde par rapport à θ sont données par :

)(

)('

a

byl

)(

)(''2

2

a

bl

Des égalités :

0)(

lE

0)()( 2

2

2

lE

lE

Il en découle :

)(')( bYE

)(

)(

)(

)(''0

2

a

YVar

a

b

D’où

)()('')( abYVar

La variance de Y est considérée comme le produit de deux fonctions ; l’une, b’’(θ) ne dépend

que du paramètre θ et ainsi de la moyenne, et est appelée Fonction Variance ; l’autre est

indépendante de θ et dépend seulement de . La fonction variance considérée comme

fonction de μ sera notée V(μ).

La fonction )(a est usuellement de la forme w

a

)( avec appelé paramètre de

dispersion, aussi noté 2 , et w un poids mis a priori et connu qui varie d’une observation à

une autre.

Fonction Lien

Elle relie la moyenne μ au prédicteur linéaire

q

j

jjx1



51

Estimation des paramètres β

Nous estimons les paramètres βj, j=1 à q, par maximums de vraisemblance estimés par

méthode itérative. Des détails sont apportés dans l’Annexe « Algorithme d’estimation dans le

modèle linéaire généralisé ».

Mesure du Goodness-of-Fit : discrépance d’un modèle

Déviance d’un modèle

Soit ); ,ˆ( yl la log-vraisemblance maximisée par un β pour une valeur fixée de .

La discrépance d’un ajustement est proportionnelle à :

)ˆ;()()()(2

1);,ˆ();,(*2)ˆ;(

1

ˆˆ

* yDbbywylyylyD

n

i

yyii

)ˆ;( yD est appelée déviance du modèle ; c’est une fonction des observations uniquement.

)ˆ;(* yD est la fonction Scaled Deviance du modèle.

La déviance est une mesure additive pour des modèles imbriqués si les estimateurs du

maximum de vraisemblance sont utilisés.

Statistique du Χ2 de Pearson

)ˆ(

ˆ1

2

2

V

yn

i

Résidus

Les résidus de Pearson sont définis par )(

ˆ

V

yrP

Ils vérifient 2

1

2

n

i

iPr

Les résidus de déviance sont définis par

)()()(2)ˆ()ˆ( ˆˆ bbywysigndysignr yyiiiD

Ils vérifient Drn

i

iD 1

2



52

Techniques de vérification de modèle GLM

Pour identifier des écarts au modèle, au niveau de la loi, de la fonction lien, de la fonction

prédicteur linéaire en les variables, on observe les graphes de résidus de Pearson en fonction

de valeurs prédites (espérance estimée).

Le lecteur pourra se reporter à l’Annexe 8.1 pour des détails sur l’algorithme d’estimation des

coefficients. Des précisions sur le codage des variables qualitatives sont disponibles dans

l’Annexe 8.2.

5.1.2. Première sélection de variables en effets simples

La sélection se fait comme mentionnée plus haut, par algorithme forward suivant le critère

AIC, mesurant l’ajustement aux données par la vraisemblance et intégrant une pénalité

suivant le nombre de paramètres estimés.

Nous choisissons par ailleurs de retirer des variables qu’il nous semblerait peu intuitif

d’intégrer pour un type de sinistre donné. Au-delà de l’argument statistique, nous devons

prendre en compte la dimension pratique : nous devons pouvoir justifier, auprès des services

de Souscription, l’intégration des variables. La sélection des variables résulte ainsi d’un

compromis entre analyse statistique et réalisme commercial.

Par ailleurs, pour argumenter en faveur de l’intégration des nouvelles variables

comportementales, nous comparons les valeurs de statistiques mesurant la qualité de

l’ajustement aux données, des modèles sans ces variables, à celles des modèles les incluant.

5.1.3. Choix de la loi

Certains contrats sont non sinistrés ; en théorie, la loi devant être appliquée devrait être une loi

autorisant les valeurs nulles. Cependant, une loi Gamma sera utilisée pour la modélisation, car

il s’agit d’une loi aisée à transporter vers d’autres logiciels et qu’il est plus simple de

communiquer. Pour prendre en compte les charges nulles dans la modélisation, l’outil utilisé

prend, pour valeur initiale de prime pure, non pas zéro pour les contrats non sinistrés, mais la

moyenne des primes pures.

Nous montrerons à titre indicatif la mise en œuvre sur la garantie Responsabilité Civile de la

loi Gamma et du modèle Tweedie autorisant les zéros, et verrons que nous pouvons

convenablement choisir la loi Gamma. Le lecteur pourra se reporter à l’Annexe 8.9 pour plus

de détails sur le modèle Tweedie.

5.1.4. Recherche d’interaction



53

La recherche des interactions se fait de la façon suivante. On effectue une sélection Forward

sur l’ensemble des interactions, sur critère BIC, qui est plus pénalisant suivant le nombre de

paramètres estimées que le critère AIC : qLLAIC 22

qnLLBIC )log(2 Où n est le nombre d’observations et q le nombre de paramètres estimés.

On regarde ensuite graphiquement si les courbes de primes pures moyennes pour une variable

présentent des progressions différentes d’une modalité d’une deuxième variable à une autre.

Si cela est le cas, on pourrait intégrer l’interaction de ces deux variables au modèle. On

regarde de plus les valeurs de déviance divisée par le nombre de degré de liberté et les valeurs

des critères AIC et BIC. Le choix d’intégrer une interaction repose donc sur l’observation

graphique et les critères mentionnés.

Le lecteur pourra se reporter à l’Annexe 8.3 pour des précisions sur les critères AIC et BIC.

5.1.5. Graphiques des résidus et des écarts aux marges

Graphique des résidus

Afin de valider les hypothèses en fonction lien et en loi, nous représenterons les valeurs des

résidus de Pearson en fonction de la valeur prédite. Notre point de vue est de considérer

qu’une structure proche de l’axe des abscisses et sans tendance est convenable et valide les

hypothèses.

Ecarts aux marges

Pour apprécier la qualité de l’ajustement aux données, en plus des statistiques de déviance,

des critères AIC et BIC, nous proposons de représenter simultanément les graphiques des

primes pures estimées moyennes et ceux des primes pures observées moyennes en fonction

des modalités des variables. Nous représentons également, au niveau de référence, la prime

pure moyenne estimée et les bornes entourant les primes estimées d’un écart de deux fois

l’écart-type du paramètre correspondant.

5.2. Application à la prime pure globale mutualisée

On modélise la prime pure tous types de sinistres confondus, hors catastrophes naturelles,

dommages électriques, options et climatiques.

Il faudra ensuite ajouter :

2,10 euros par contrat dus à la répartition de la surcrête à 100 000 euros des

sinistres supérieurs à 1 000 000 d’euros

Un chargement climatiques



54

Pour la façon de prendre en compte les catastrophes naturelles dans la prime pure, la méthode

légale est de :

Prendre la prime globale, désigner un pourcentage de cette prime

correspondant à la prime RC et DR, faire :

nouvelle prime pure globale = (1+12/100) ( prime pure globale – {partie de

prime pure RC+DR} ) + {partie RC+DR}

Les variables sélectionnées par algorithme Forward suivant le critère AIC sont les suivantes :

Nombre de pièces

Zonier

Age

Segment de risque

Segment client

Région

Type de propriété

Situation familiale

Surplus d’objets de valeur

Type de logement

CSP

Le graphique suivant montre le pourcentage de réduction du critère AIC à chaque ajout des

variables.

Figure. Pourcentage de diminution de l’AIC dans la méthode Forward pour le modèle global



55

En outre, nous décidons d’intégrer la variable Enfant et d’ajouter les variables résidence

secondaire/principale et dépendance qui différencient les niveaux de primes pures moyennes

d’après les tris à plat.

Au final, les variables retenues au titre de la sélection Forward et de notre volonté à

différencier suivant le fait d’avoir un enfant ou pas – volonté légitimée par les tris à plat -,

sont Nombre de pièces

Age

Segment de risque

Segment client

Situation familiale

Résidence secondaire/principale

Dépendance

Enfant

On donne ci-dessous à titre d’exemple les déviances et statistiques AIC et BIC dans la

comparaison des modèles avec zonier et sans zonier, puis avec et sans variables

comportementales.

Impact du zonier

Tableau 7. Ecarts en déviance, AIC et BIC pour la mesure de l’impact du zonier au global

La diminution de 0.92% du critère déviance semble convenable, car elle représente environ

45% de la diminution en pourcentage du critère de déviance lors de l’intégration de la

variable nombre de pièces. Cependant, la construction d’un nouveau zonier sur les résidus de

cette modélisation faisant l’objet d’une étude à part, nous n’intégrerons pas cette variable dans

la modélisation de la prime pure présentée ici.

Impact des variables comportementales

Tableau 8. Ecarts en déviance, AIC et BIC pour la mesure de l’impact des variables comportementales au

global

Variation : écart

relatif en % entre :

avec zonier – sans

zonier

Déviance/nombre de

degrés de liberté

AIC BIC

-0.92 -0.48 -0.48

Variation : écart


avec variables

comportementales –

sans variables

comportementales

Déviance/nombre

de degrés de

liberté

AIC BIC

-0.96 -0.49 -0.49



56

Les statistiques du tableau ci-dessus orientent le choix vers l’intégration des variables

comportementales ensemble, qui semblent améliorer l’ajustement aux données. La diminution

de 0.96% du critère déviance semble convenable, car elle représente environ 46% de la

diminution en pourcentage du critère de déviance lors de l’intégration de la variable nombre

de pièces.

Aspect des résidus de Pearson

On montre ci-dessous une représentation des résidus Pearson, en loi Gamma. Une part de

résidus pourrait s’expliquer par un nouveau zonier.

La partie des résidus se détachant du nuage situé contre l’axe des abscisses correspond aux

charges de montants situés autour du seuil d’écrêtement de 100 000 euros. On décide de

garder ces montants dans l’estimation des paramètres.

Largest 1 000 Pearson Residuals

0

500

1000

1500

2000

2500

3000

3500

4000

4500

40 60 80 100 120 140 160 180 200 220

F it ted Value

Figure 12. Résidus de Pearson issus du modèle global.

Le nuage en position supérieure est due aux charges situées autour du seuil d’écrêtement. Le reste des

résidus est convenable car concentré autour de l’axe des abscisses.

Interactions éventuelles

Notons que la recherche des interactions par méthode forward suivant le critère BIC

conduirait à sélectionner les interactions nombre de pièces avec segment de risque ; nombre

de pièces avec résidence et âge avec segment client.

Nous montrons ci-dessous l’aspect des résidus de Pearson dans plusieurs modèles incluant des

interactions.



57

Largest 1 000 Pearson Residuals,

interactions résidence secondaire/principale avec segment de risque, nombre de pièces avec segment de risque

0

1000

2000

3000

4000

5000

6000

20 70 120 170 220

F it ted Value


Interactions Segment client avec Age, Segment Client avec segment de risque

0

500

1000

1500

2000

2500

3000

3500

4000

4500

40 60 80 100 120 140 160 180 200

F it ted Value Figure 13. Interactions résidence avec segment de risque et nombre de pièces avec segment de risque

L’aspect des résidus semble meilleur dans le cas des interactions incluses dans le modèle car

l’ensemble des points est davantage concentré vers l’axe des abscisses. Cependant, la

déviance divisée par le nombre de paramètre est plus faible de 1,3% dans le modèle sans

interaction pièces avec segment de risque et incluant les variables en effets simples. Ceci peut

être considéré comme une diminution significative au vu de la baisse de 2,1% de la déviance

divisée par le nombre de paramètre apportée par l’ajout de la variable Pièces. On choisit in

fine de ne pas les inclure dans le modèle.

Ecarts aux marges sur le modèle retenu

L’écart-type du paramètre estimé (standard error) est calculé par racine du coefficient

diagonal de la matrice X’K-1

X, où X désigne la matrice des variables qualitatives codées en 0-

1 et K est une matrice d’expression précisée dans l’Annexe « Algorithme d’estimation dans le

modèle linéaire généralisé ».

On présente ci-dessous un graphique présentant les primes pures moyennes estimées et

observées par modalité dans l’ordre croissant de prime pure observée. Ceci permet de

visualiser l’ajustement de l’estimé aux données. Nous visualisons également ces primes pures

moyennes au niveau de référence et pour chaque modalité, les bornes entourant les primes

estimées d’un écart de deux fois l’écart-type du paramètre correspondant.



58

Ecarts aux marges pour la prime pure globale en modèle unique

0

20

40

60

80

100

120

140

160

âge

6VE

resid

S

âge

1

segm

cli 6

segm

cli 3 C

E

enfa

nt 0

âge

2

segm

cli E

âge

5

depen

d NO

N

resid

P SECO

segm

cli 4

depen

d O

UI

enfa

nt 1

âge

4

âge

UN

âge

3

enfa

nt U

sitfam

IN

segm

cli 5

segm

cli I

NC

segm

cli 2

Modalités

Pri

me p

ure

mo

yen

ne e

n e

uro

s

0

10

20

30

40

50

60

70

80

90

100

%

% années police Observed Average

Fitted Average Model Prediction at Base levels

Model Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors

Figure 14. Primes pures moyennes estimées et observées par modalité dans l’ordre croissant de prime observée

Nous estimons à l’aide de ce graphique que l’adéquation moyenne par modalité est

convenable.

Nous retenons au final les variables inhabitation, dépendance, segment de risque, enfant,

situation familiale, âge, nombre de pièces et segment client.

5.3. Application aux primes pures par type de sinistre

Dans un modèle de prime pure segmenté par type de sinistre, on ajoutera les primes pures

des :

Bris de Glace

Dégâts des Eaux

Incendies

Responsabilité Civile

Vol

Il faudra ensuite ajouter :

2.10 euros par contrat dus à la répartition de la surcrête à 100 000 euros des

sinistres supérieurs à 1 000 000 d’euros

Un chargement climatiques

Un chargement attentats : +1.7% sur la prime pure hors catastrophes naturelles

Un chargement légal pour les catastrophes naturelles :

nouvelle prime pure globale = (1+12/100) ( prime pure globale – { prime pure

RC+DR} ) + {prime pure RC+DR}



59

On présente à titre indicatif l’application aux Bris de Glace et aux sinistres de type

Responsabilité Civile, pour lesquels on souhaiterait ajouter des variables comportementales.

Les résultats sur les autres garanties sont disponibles dans les Annexes 8.6 et 8.8 pour les

interactions et écarts aux marges, et le lecteur pourra se reporter à l’Annexe 8.7 pour un

récapitulatif de l’effet des variables comportementales sur chacune des garanties.

5.3.1. Bris de Glace

La méthode Forward sur critère AIC conduit à l’évolution suivante de la diminution du

critère :

Figure 15. Evolution du critère AIC dans l’algorithme Forward sur critère AIC en Bris de Glace

Nous notons la diminution très marquée du critère AIC due à l’intégration de la variable

segment de risque. Cette évolution du critère AIC lors de la mise en œuvre de l’algorithme

Forward est un exemple montrant que cet algorithme n’est pas une méthode optimale de

sélection de variables, car l’information apportée par une variable dépend des variables déjà

présentes dans le modèle. La sélection par cette méthode dépend ainsi de l’ordre dans lequel

les variables sont introduites. Nous considérons cependant que l’algorithme fournit quand

même une bonne euristique.

L’algorithme sélectionne dans l’ordre les variables suivantes : nombre de pièces, franchise,

région, résidence, zonier, type de logement, segment client, type de propriété, segment de

risque, surplus de capital et valeur client.

Les variables retenues suite aux études descriptives et la méthode Forward sont :

-le segment de risque

-la région

-le nombre de pièces

-le fait d’avoir un enfant

-la franchise



60

-résidence secondaire ou principale

En Bris de Glace, on estime en effet que la sinistralité est liée au fait d’avoir un enfant enclin,

par exemple, à briser une vitre par ses jeux. Même si l’algorithme n’a pas sélectionné cette

variable, nous décidons de l’inclure.

Recherche d’interactions

La recherche d’interaction nous conduit à tester l’interaction inhabitation avec segment de

risque. Nous mesurons son effet en observant les critères AIC et BIC qui pénalisent suivant le

nombre de paramètres estimés.

Tableau 9. Statistiques déviance, AIC et BIC dans les modèles avec interaction et sans interaction

Nous choisissons de garder l’interaction segment de risque avec inhabitation au vu du critère

AIC.

La diminution de l’AIC n’est que de -0.24% ; cependant, nous décidons de l’intégrer quand

même car le graphique suivant montre que les primes pures moyennes estimées sont bien

différenciées avec ce croisement :

Rescaled Predicted Values - CDRESID

0

0,2

0,4

0,6

0,8

1

P S

0

20

40

60

80

100

120

140

160

180

200

% années police

SEGMRISK (LA)

SEGMRISK (LM)

SEGMRISK (PA)

SEGMRISK (PM)

Figure 16. Interaction inhabitation avec segment de risque.

Primes pures plus faibles pour les propriétaires et locataires de maison en résidence secondaire que les

propriétaires et locataires d’appartement en résidence secondaire.

Nous décidons au final de regrouper les locataires et propriétaires de maison ensemble et les

locataires et propriétaires d’appartement ensemble dans l’interaction.

Interaction segment de risque

avec inoccupation

Sans interaction mais effets

simples

Déviance 8 362 478,0 8 362 185,0

Déviance/degrés de liberté 6,065291 6,065083

AIC 1 814 887,0 1 819 337,0

BIC 1 815 033,0 1 819 495,0



61

Effet de l’inclusion de la Variable Enfant

On note une diminution des critères AIC et BIC pour le modèle intégrant la variable Enfant de

1%. L’impact est donc bien plus faible que celui donné par l’ajout des autres variables

incluses, mais nous considérons que cela n’est pas négligeable.

Sur l’observation du graphique suivant on constate une concentration convenable des résidus

sur l’axe des abscisses, pour le modèle intégrant la variable Enfant, l’interaction inhabitation

avec segment de risque. La variable Région n’est pas incluse car elle sera prise en compte

dans la construction du nouveau zonier.


0

1000

2000

3000

4000

5000

6000

7000

8000

9000

0 2 4 6 8 10 12

F it ted Value

Ecarts aux marges pour la prime pure Bris de Glace

0

1

2

3

4

5

6

7

8

9

pièc

es 1

pièc

es 2

pièc

es 3

franc

hise

1

enfa

nt 0

enfa

nt U

enfa

nt 1

pièc

es 4

franc

hise

0

pièc

es 5

modalité

Pri

me p

ure

mo

yen

ne B

ris d

e G

lace,

eu

ros

0

10

20

30

40

50

60

70

%




Figure 17. Résidus de Pearson issus du modèle Bris de Glace.

Nous observons une concentration convenable des résidus, avec en amont un ensemble se détachant et de

tendance décroissante, correspondant aux charges de sinistre proches du seuil d’écrêtement de 16 000 euros.

Ecarts aux marges en Bris de Glace.

Au final, nous retenons en Bris de Glace les variables et l’interaction suivante :

- segment de risque avec la résidence

-le nombre de pièces

-le fait d’avoir un enfant

-la franchise

5.3.2. Insert en incendie

La variable insert n’est bien renseignée qu’à partir des remplacements et affaires nouvelles à

compter du 20 septembre 2010.

Pour étudier son impact sur le risque, nous raisonnons donc sur ce périmètre.

En nombre de contrats

83,39% N



62

16,61% O

En années police

80.69% N

19.31% O

On décide de calculer la différence en euros de prime pure moyenne incendie entre ceux qui

ont un insert et ceux qui n’en ont pas. Ce montant en euros est ajouté à la prime pure incendie

de ceux qui ont un insert.

Ainsi, un montant de 28, 19 euros est ajouté à la prime pure incendie pour un assuré

ayant un insert.

Prime pure moyenne incendie vs global, base 1=pas d'insert, sur contrats

dtman et dtmrp >= 20 septembre 2010

0,8

0,9

1

1,1

1,2

1,3

1,4

1,5

N Oinser001

pri

me p

ure

mo

yen

ne e

n b

ase 1

0

10

20

30

40

50

60

70

80

90%

% d'années police prime pure incendie en base 1 prime pure globale en base 1

Figure 18. Analyse de la prime pure moyenne en Incendie, en fonction de la présence d’insert, sur périmètre

restreint.

La croissance de la prime pure en présence d’insert est plus marquée en Incendie qu’en global. Nous jugeons

donc significatif l’impact de la variable Insert en garantie Incendie, dans une modélisation par garantie.

5.3.3. Responsabilité Civile

L’expérience montre que les sinistres graves de type Responsabilité Civile sont fortement

influencés par le fait d’avoir un enfant. Nous souhaitons donc étudier plus généralement

l’intégration de variables comportementales dans la modélisation de la prime pure en

Responsabilité Civile.

Sélection des variables

Comment l’estimation en loi Gamma prend en compte les primes pures nulles :

On remplace les primes nulles par la moyenne des primes pures, soit 10 euros.



63

L’évolution du critère AIC lors des ajouts successifs des variables par méthode Forward sur

critère AIC est la suivante :

Pourcentage de diminution de l'AIC en Responsabilité Civile

-10

-9

-8

-7

-6

-5

-4

-3

-2

-1

0

CLA

SS_A

GE

CLA

SS_N

BPIE

CS

CDRES

ID

IDEN

FCLI

cdr

egion

l

ZONM

RH

CDSU

RFD

EP

SEGM

CLI

SIT

FACREV

CSP

GRO

UP

VAL_

CLI

SEGM

RIS

K

Variable ajoutée

%diminution de l'AIC en %

Figure 19. Evolution de l’AIC lors de l’application de la méthode Forward en Responsabilité Civile.

Notons l’intégration en première place de la nouvelle variable Age.

L’âge et le nombre de pièces améliorent nettement l’ajustement aux données d’après le critère

AIC. Nous observons qu’une fois ces variables intégrées, la diminution du critère est moins

marquée lors des inclusions de l’information Enfant et segment client, ce qui ne signifie pas

pour autant que ces dernières variables améliorent faiblement l’ajustement du modèle aux

données. En effet, ces variables étant corrélées à la variable âge et l’amélioration de

l’ajustement étant captée par les premières inclusions de variables, le pourcentage de

diminution de l’AIC du à leur intégration est plus faible.

La modélisation pour les variables retenues sur le constat des études descriptives et de la

méthode Forward conduit à retenir les variables et l’interaction suivantes :

Le nombre de pièces

La région

Le segment client

L’interaction Enfant avec Âge

Le graphique suivant nous permet de justifier l’intégration de l’interaction. En effet, nous

observons que la progression de la prime pure moyenne en fonction du critère Enfant dépend

de l’âge de l’assuré. Les personnes les plus âgées ayant un enfant ont une prime pure

moyenne plus faible que les personnes moins âgées ayant un enfant.



64

Rescaled Predicted Values - Fait d'avoir au moins un enfant à charge

-0,2

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

0 1 U

prim

e p

ure

moyenne e

stim

ée e

n b

ase 1

= p

as d

'enfa

nt,

cla

sse d

'âge 4

= 4

6 à

61 a

ns

0

20

40

60

80

100

120

% d

'années p

olice

CLASS_AGE (01) CLASS_AGE (02) CLASS_AGE (03)

CLASS_AGE (04) CLASS_AGE (05) CLASS_AGE (06) CLASS_AGE (UN)

Figure 20. Interaction âge avec Enfant en Responsabilité Civile : primes pures moyennes et années police.

Nous observons une différence de progressions suivant l’âge de l’assuré. Nous ne souhaitons pas pénaliser les

personnes ayant au moins un enfant à charge lorsqu’elles sont d’âge avancé.

Nous décidons de regrouper la modalité âge inconnu avec la classe d’âge 6 car leur

progression de la prime pure est similaire suivant le fait d’avoir un enfant ou pas, et la

modalité inconnue de la variable Enfant est regroupée avec la modalité Avoir un enfant, qui

est vu comme étant le profil le plus risqué.

Effet des variables comportementales

Il est intéressant d’observer l’impact de l’intégration des variables comportementales en

Responsabilité Civile sur l’ajustement du modèle aux données. Nous pensons en effet

intuitivement que ces variables sont susceptibles d’influencer la prime pure, et ceci est

confirmé par les tris à plat.

Ajouter les variables et interactions comportementales Segment client, Enfant croisée à Âge,

diminue les statistiques AIC et BIC d’un écart relatif de -9.15%. L’intégration de la variable

Nombre de pièces fait diminuer de 6.04% ces critères. Ainsi, nous considérons que l’impact

des variables comportementales prises ensemble est significatif.

Variation : écart


avec variables

comportementales –

sans variables

comportementales

Déviance/nombre de

degrés de liberté

AIC BIC

0.15 -9.15 -9.15

Tableau 10. Ecarts en déviance, AIC et BIC dans la mesure d’impact des nouvelles variables



65

La figure ci-dessous montre des résidus du modèle sans variables comportementales plus

diffus que ceux du modèle avec variables comportementales:

(a) (b) Largest 1 000 Pearson Residuals, Loi Gamma

0

5000

10000

15000

20000

0 5 10 15 20 25 30 35 40

F it ted Value

Largest 1 000 Pearson Residuals, Loi Gamma, Sans variables comportementales

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

2 4 6 8 10 12 14 16 18 20 22

F it ted Value

Figure 21. Résidus de Pearson (a) résidus du modèle intégrant les variables comportementales .(b) résidus du

modèle sans variables comportementales

Loi Gamma et modèle Tweedie : écarts aux marges et résidus

La comparaison des primes pures moyennes estimées et observées est représentée ci-dessous

dans les cas de la loi Gamma et du modèle Tweedie. Nous présentons également l’aspect des

résidus de Pearson dans les deux cas.



66

(a) (b) Ecarts aux marges en RC, loi Gamma

0

5

10

15

20

25

pièc

es 1

segm

cli 6

pièc

es 2

segm

cli 3 64

pièc

es 3 68

segm

cli E

segm

cli 2 66 65 67

pièc

es 4

segm

cli INC

segm

cli 5

pièc

es 5

segm

cli 4

Modalités

pri

me

pu

re m

oy

en

ne

en

eu

ros

0

10

20

30

40

50

60

%

% années police Observed average Fitted Average

model prediction at base levels model prediction + 2standard errors model prediction -2standard errors

Ecarts aux marges en RC, modèle Tweedie

0

5

10

15

20

25

nbpiece

s 1

segm

cli 6

nbpiece

s 2

segm

cli 3 64

nbpiece

s 3 68

segm

cli E

segm

cli 2 66 65 67

nbpiece

s 4

segm

cli INC

segm

cli 5

nbpiece

s 5

segm

cli 4

Modalités

Pri

me

pu

re m

oy

en

ne

en

eu

ros

0

10

20

30

40

50

60

%

% d'années police Observed Average



(c) (d) Largest 1 000 Pearson Residuals, Loi Gamma

0

5000

10000

15000

20000

0 5 10 15 20 25 30 35 40

F it ted Value

Largest 1 000 Pearson Residuals, modèle Tweedie

0

5000

10000

15000

20000

25000

30000

0 5 10 15 20 25 30 35 40

F it ted Value

Figure 22. (a)Ecarts aux marges en Responsabilité Civile en loi Gamma (b) Ecarts aux marges en

Responsabilité Civile en modèle Tweedie (c) Résidus en loi Gamma (d)Résidus en modèle Tweedie

Dans les deux situations, les résidus sont concentrés sur l’axe des abscisses et les points plus

isolés correspondent aux charges de sinistres se situant autour du seuil d’écrêtement de

100 000 euros. En outre, les graphiques par marge montrent que les primes estimées

moyennes par modalité suivent la progression des primes observées moyennes, dans les deux

cas.

Nous estimons que l’hypothèse de la loi Gamma est convenable d’après les observations

précédentes sur l’aspect des résidus et des écarts aux marges. En effet, nous ne notons pas de

différence marquée dans l’aspect des résidus entre les deux hypothèses de loi.

On choisit d’utiliser la loi Gamma car c’est une loi plus aisément transportable dans

d’autres logiciels que nous pourrions utiliser pour des applications futures, et c’est une

loi sur laquelle il est plus facile de communiquer. De plus, le graphe par marge et les

résidus nous paraissent convenables et les coefficients issus du modèle en loi Gamma sont

très proches de ceux du modèle Tweedie.

Au final, nous retenons pour la Responsabilité Civile les variables et interactions suivantes : le

nombre de pièces, le segment client et l’interaction Enfant avec Âge.



67

5.4. Surplus de capitaux et d’objets de valeur

On décide de calculer les différences en euros de prime pure moyenne globale entre les

niveaux de surplus de capitaux et d’objets de valeur. Ces montants en euros sont ajoutés à la

prime pure globale.

CDSURPVAL

80

90

100

110

120

130

140

0 1 2

C D SUR P VA L

0

20

40

60

80

100

120

140

160

180

200

Weight Prime pure globale en fonction du surplus d'objets de valeur

CDSURPCAP

65

75

85

95

105

115

125

0 1 2

C D SUR P C A P

0

20

40

60

80

100

120

140

160

180

Weight Prime pure globale en fonction du surplus de capital

Figure 23. Différences de primes pures moyennes en fonction du Surplus d’objets de valeur et du surplus de

capital.

5.5. Comparaison de la distribution des résidus bruts issue du modèle

unique à la distribution des résidus bruts issue des modèles par

type de sinistre

Les distributions des résidus sont quasi-similaires. Nous ne pouvons pas en déduire quel est le

meilleur modèle, au sens où les résidus sont plus faibles. Nous en tirons cependant le constat

que les distributions ne sont pas complètement éloignées l’une de l’autre. Nous pouvons ainsi

penser qu’il n’est pas déraisonnable de choisir le modèle par garantie. En effet, nous jugeons

préférable d’utiliser un modèle segmenté par garantie car cela permet de sélectionner les

variables adaptées à chaque risque.

Résidus bruts sur tous les assurés du périmètre d'étude

-250

-200

-150

-100

-50

0

50

100

résid

us b

ruts

modèles par type de sinistre modèle unique

Figure 24. Distribution des résidus issus des modèles unique et par garantie



68

Notons que les résidus extrêmes autour de 100 euros sont dus aux observations situées près du

seuil d’écrêtement de 100 000 euros.

Bilan et transition

Nous avons présenté des outils usuels de sélection de variables par méthode forward et

observation des critères AIC, BIC et des résidus.

Nous avons conclu selon ces critères qu’il était raisonnable d’intégrer des variables

comportementales pour certains types de sinistres, notamment pour les sinistres en

Responsabilité Civile. Si l’ajout de ces variables améliore la précision, au sens où

l’ajustement aux données est meilleur, nous souhaitons apporter un outil de définition et de

mesure de la robustesse d’un modèle.

Dans la partie suivante, nous proposons un critère de sélection de modèle, combinant une

composante de mesure de précision, une composante de mesure de robustesse et une

composante de pénalité fonction du nombre de paramètres estimés du modèle.

Nous testerons la robustesse de ce critère de sélection par une étude simulatoire et étudierons

des pistes visant à l’améliorer. Nous montrerons ensuite l’application des méthodes aux

sinistres de type Responsabilité Civile, aux Bris de Glace et à la prime pure globale, dans le

but de valider les variables sélectionnées. En particulier, nous souhaiterions justifier, en Bris

de Glace, l’intégration de la variable Enfant qui ne ressortait pas avec les critères usuels.



69

6. Sélection d’un modèle robuste sur critère estimé par Bootstrap

La sélection des variables est un point majeur dans les problèmes de modélisation d’une

variable réponse régressée sur un ensemble de variables. En particulier, dans notre cas d’étude

qu’est la refonte de la prime pure, nous souhaitons valider l’intégration des variables

comportementales. Si la précision de l’estimation de la prime pure est meilleure en

sélectionnant ces nouvelles variables, puisque nous contraignons davantage sa valeur en

l’ajustant avec ces variables, est posée la question de la robustesse dans un sens à définir.

Le modèle intégrant les variables souhaitées est robuste si la comparaison des valeurs prédites

sur un échantillon construites sur l’estimation issue d’un autre échantillon, aux valeurs

observées, donne un meilleur résultat que celle obtenue sur un autre modèle.

Dans cette partie, nous examinons d'abord les critères de sélection de modèle de la forme

simple «perte + pénalité ", puis proposons un critère ayant une composante de mesure de

précision, une composante de pénalité suivant le nombre de paramètres estimés et une

composante mesurant la robustesse, estimée par bootstrap.

6.1. Revue des critères existants

Dans ce rapport, nous considérons les méthodes de sélection de modèles qui choisissent les

modèles en minimisant une expression pouvant être écrite sous la forme "Perte + pénalité".

Dans cette section, nous discutons quelques-uns des nombreux choix possibles pour ces deux

termes. Bien sûr, il existe d'autres méthodes telles que celles basées sur le R2

ajusté qui ne

sont pas de cette forme et que nous ne considérons pas ici.

La fonction de «perte»

Le choix classique pour la «perte» est moins deux fois la log-vraisemblance, notée -2LL.

Dans le cas de la loi Normale, cela conduit à

n

Sn n )(

log

, où

n

i

iin yyS1

2))(ˆ()( est

la somme résiduelle des carrés et yXXXXy tt

1)()(ˆ sont les valeurs ajustées du

modèle α.

Les autres fonctions de «perte» qui peuvent être utilisés sont les moindres carrés, l’écart

absolu et d’autres fonctions optimisées évaluées en les paramètres estimés. Des versions

robustes de ces fonctions sont d'un intérêt particulier: voir par exemple, Ronchetti & Staudte

(1994), Konishi & Kitagawa (1996), Müller & Welsh (2005, 2009).



70

La fonction de "pénalité"

Le terme «pénalité» peut sanctionner différents aspects des modèles. La forme la plus simple

de pénalité est de la forme )( pfnn , où le multiplicateur de pénalité n est une suite connue,

non stochastique et la fonction de pénalité nf est une suite de fonctions du nombre de termes

dans le modèle p , connue, non stochastique. Pour le choix le plus simple ppfn )( , on

peut choisir le multiplicateur de pénalité du Critère d’information d'Akaike (AIC) 2n

(Akaike, 1973; Mallows, 1973), celui du test de pas à pas 4n ou, plus généralement,

n (Shibata, 1984).

Définissant un modèle fixe, généralement celui ayant le plus grand nombre de paramètres

fp et qui contient toutes les colonnes p de X, matrice des variables explicatives, le

multiplicateur de pénalité peut, en outre, dépendre de f

p , comme dans le Critère d'inflation

du risque (CIR) où le multiplicateur de pénalité est )log(2f

pn de Foster & George,

(1994).

Le multiplicateur peut aussi dépendre de la taille de l'échantillon. Le choix le plus courant

pour ces derniers sont ))log(log( ncn (Hannan et Quinn, 1979), 0 n

n

n

et

n

n

n))log(log(

(Bai et al, 1986; Rao et Wu, 1989) et le multiplicateur du critère bien

connu Bayesian Information (BIC) )log(nn (Schwarz, 1978) etc. Il ya un grand nombre

d'autres choix pour )( pfn : peut-être le plus connu de ces derniers est 2

1)(

pn

ppf n

utilisé avec 2n par Sugiura (1978) et Hurvich & Tsai (1989).

Optimalité

Les fonctions de pénalité abordées au-dessus sont issues de travaux d'optimisation différents:

ainsi, la pénalité p2 du critère AIC minimise la distance de Kullback-Leibler entre le

modèle et la densité vraie (Akaike, 1973) et est minimax optimale pour l'estimation de la

régression fonction (Yang, 2005) ; la pénalité du BIC pn)log( optimise la probabilité a

posteriori du modèle. L'expérience empirique montre que les fonctions de pénalité avec

constante λn = c (comme la fonction de pénalité de l'AIC) produisent des méthodes qui ont

tendance à choisir des modèles plus grands et les fonctions de pénalité avec λn → ∞ de

manière appropriée (comme la fonction de pénalité de BIC) ont tendance à choisir des

modèles plus petits, au moins une fois que n est suffisamment large pour assurer λn> c. En ce

sens, le choix optimal de la fonction de pénalité dépend du véritable modèle.



71

Autres fonctions de pénalité

D'autres formes de pénalité peuvent aussi être considérées ; ainsi, nous pouvons pénaliser les

paramètres eux-mêmes en utilisant une fonction fn (βα). Les plus connues de ces dernières

incluent la pénalité dite de ridge, soit crête :

p

j

jnf1

2)( , la pénalité de Lasso

p

j

jnf1

)( . D'autres fonctions de pénalité incluent la pénalité du critère d'information de

Takeuchi (TIC) (Takeuchi, 1976), la pénalité du GIC (Konishi & Kitagawa, 1996), la pénalité

du Cp robuste (Ronchetti & Staudte, 1994), la pénalité de SIC (Sugiyama & Ogawa, 2001),

etc. Ces pénalités sont généralement liées au choix de la «perte» et tendent ainsi à être

utilisées dans des critères assez précis.

6.2. Méthode proposée

6.2.1. Définition du critère

S. Müller et A.H. Welsh proposent un critère pour la sélection d’un modèle parmi plusieurs

modèles dans leur article Robust model selection in generalized linear models (2007).

On s’inspire de ce critère dans notre étude pour apporter une aide à la décision quant au choix

du modèle de prime pure.

On en résume ci-dessous le cadre et les étapes.

L’objectif est de sélectionner un modèle parmi plusieurs modèles pré-sélectionnés.

L’ensemble des modèles pré-sélectionnés est déterminé par les études de tris à plat, des

erreurs sur les estimateurs, des graphiques des résidus et par les arguments commerciaux.

Notations et étapes

Soit X la matrice contenant la totalité des p variables tarifaires observées et Y la variable

prime pure pour le type de sinistre étudié, observée sur un échantillon de taille n.

Nous notons Q l’ensemble des sous-ensembles sélectionnés de variables tarifaires.

Pour chaque modèle dans l’ensemble Q, nous calculons un critère, à l’aide de la méthode

Bootstrap des résidus, pour une méthode d’estimation fixée.

La méthode d’estimation utilisée est le maximum de vraisemblance.

Le point de vue que nous adaptons dans la sélection de modèle est qu’un modèle satisfaisant

doit :

-décrire avec parcimonie la relation entre l’échantillon de données y et les variables

représentées par la matrice X

-être capable de prédire de nouvelles observations

http://search.arxiv.org:8081/paper.jsp?r=0711.2349&qid=13032180636959a_nCnN_-1990439901&qs=variable+selection+GLM



72

Le critère de sélection à minimiser proposé est le suivant, pour un modèle caractérisé par

l’ensemble de variables eq, q paramètres à estimer, de prédicteur linéaire estimé par i .

n

i i

iin

i i

ii

en XYv

hYE

nqn

nv

hyE

nC

q

1

2

1

2

, ,)ˆ(

)ˆ(1)(

1

)ˆ(

)ˆ(1

Où h est telle que )()( ihYE et )ˆ( iv est la variance estimée de la ième

observation.

En s’inspirant du critère BIC, S. Müller et A. H. Welsh proposent )log()( nn

Les deux premiers termes du critère permettent de pénaliser en fonction des résidus observés

et du nombre de variables du modèle. Le critère est d’autant plus apte à prendre une valeur

faible lorsque la taille de la base de données n est grande.

Le terme de droite (noté D) sert à pénaliser en fonction du résidu espéré dans la prévision. Il

mesure une erreur de prédiction ou la robustesse, tandis que le premier terme mesure

une précision.

C’est le terme de droite D qu’on estime par bootstrap.

6.2.2. L’estimation de la composante de mesure de robustesse par bootstrap

Méthode de Bootstrap des résidus

Pour le calcul de la composante de mesure de robustesse d’un modèle fixé, les étapes de mise

en œuvre du bootstrap des résidus initiaux sont :

-Estimer le modèle sur la base de données initiale

-cela fournit les estimateurs des prédicteurs linéaires et les résidus pour chaque observation

-répartir aléatoirement les résidus centrés aux observations

-en déduire les nouvelles observations ybobs,i

-on obtient ainsi le nouvel échantillon avec associé à l’observation i, la nouvelle valeur ybobs,i

résultant du résidu centré qui lui a été affecté.

-Estimer le modèle sur le nouvel échantillon

-cela fournit les estimateurs des prédicteurs linéaires et les résidus pour chaque observation

que l’on utilisera pour l’estimation du terme D du critère.

-revenir à l’étape de génération de résidus

Nous estimons le critère de sélection par la somme des trois éléments :



73

bicBO

B

j

n

i i

jiin

i i

ii

CCC

nqnyV

yy

nByV

yy

n

)log(1

)(

)ˆ(11

)(

)ˆ(1

1 1

2

1

2

Où, pour i de 1 à n,

iyest la i

ème observation de l’échantillon initial

iyest l’estimation sur l’échantillon initial

jiyest l’estimation sur l’échantillon bootstrap j, pour j de 1 à B.

V(yi ) est la variance estimée avec l’échantillon initial.

CO est la composante de mesure de précision, CB la composante de mesure de robustesse ou

erreur de prédiction, Cbic est la composante pénalisante selon le nombre de paramètres.

Méthode de Bootstrap par paires

La méthode de bootstrap présentée au-dessus est la méthode dite « Bootstrapping residuals »

décrite par Efron en 1979.

Une autre méthode de bootstrap dans la littérature permet de créer de nouveaux échantillons à

chaque itération ; il s’agit du « bootstrapping pairs » décrite par Efron en 1982.

Il s’agit de tirer aléatoirement n paires {variables, primes pures} à chaque itération pour

former le nouvel échantillon.

Nous choisissons le « Bootstrapping residuals » afin de s’assurer de la représentativité des

différentes modalités dans les échantillons issus des itérations.

6.2.3. Robustesse de la procédure de sélection

Notant eq* le modèle optimal au sens «modèle minimisant le critère sur l’ensemble Q pour n

suffisament grand » soit

1min ,, *

nenQe

en qq

qCC

Sélectionner un modèle consiste à trouver une estimation de eq* notée êq*.

On dira que la procédure de sélection du modèle optimal est robuste si :

1** nqq eê

Nous présentons dans les sections suivantes les résultats d’une étude simulatoire permettant

d’estimer la robustesse de la méthode proposée, et une application aux données de sinistralité

en Responsabilité Civile, en Bris de Glace et au global.



74

6.3. Etude de la méthode par simulation

Le principe de l’étude est le suivant. Nous comparons les probabilités empiriques estimées sur

les simulations, de l’évènement « sélection du bon modèle supposé connu » par les méthodes :

qLLAIC 2*2

(n)LLBIC logq2

Critère de sélection

Où, pour un modèle donné, LL est la log-vraisemblance, q le nombre de paramètres estimés

et n le nombre d’observations.

On génère des échantillons suivant des modèles de régression Gamma

iiiii xxx 4433221)log(

de vrais vecteurs de paramètres (1,0,0,0), (-1,2,0,0) et (-1,1,1,0). La variable réponse est

distribuée suivant une loi Gamma d’espérance μi et d’écart-type 1.

Les variables explicatives xj,i, pour j de 1 à 4 et i de 1 à n observations, sont générées en tirant

des nombres suivant la loi normale centrée réduite.

Pour chacune des cent simulations, nous avons généré mille observations. Les estimateurs

bootstrap sont calculés sur dix-huit itérations bootstrap car il y a convergence des valeurs

rapidement.

6.3.1. Mesure d’erreur quadratique

Nous proposons tout d’abord d’estimer le critère en utilisant des écarts quadratiques comme

mesures d’erreur, soit les écarts 2)ˆ( ii yy pour l’estimation sur l’échantillon initial et

2)ˆ( jii yy pour l’estimation sur l’échantillon Bootstrap j. C’est ce que nous avons introduit

dans la section 6. 2. 2.

Les résultats de la simulation sont présentés dans la table suivante. Ainsi, pour le vrai vecteur

de paramètres )0,1,1,1(),,,( 4321 , les probabilités de sélection du vrai modèle sont

0,65 pour le critère de sélection, 0,85 pour l’AIC et 0,9 pour le BIC.



75

vrai modèle modèle testé

critère de sélection

AIC BIC

(-1,1,1,0) 1111 0,34 0,15 0,1

1110 0,65 0,85 0,9

1011 0 0 0

1101 0,01 0 0

1100 0 0 0

1010 0 0 0

1001 0 0 0

1000 0 0 0

(-1,2,0,0) 1111 0 0,04 0,02

1110 0,12 0,18 0,16

1011 0 0 0,17

1101 0,1 0,12 0

1100 0,78 0,66 0,65

1010 0 0 0

1001 0 0 0

1000 0 0 0

(1,0,0,0) 1111 0 0 0

1110 0 0,01 0

1011 0 0,01 0

1101 0 0,07 0,05

1100 0,24 0,08 0,08

1010 0,05 0,12 0,12

1001 0,08 0,11 0

1000 0,63 0,6 0,75

Tableau 11. Probabilités de sélection estimées, basées sur l’estimateur de maximum de vraisemblance

et la mesure d’erreur quadratique.

Les résultats reposent sur 100 simulations et le Bootstrap sur dix-huit itérations.

Dans cette simulation la performance globale du critère est moins bonne que les critères AIC

et BIC.

6.3.2. Mesure adaptée à la loi Gamma

Afin d’améliorer la performance de la méthode décrite, nous proposons de tester une mesure

adaptée à la loi Gamma. Pour cela, on remplace l’écart sur les n observations

n

i i

ii

yV

y

1

2

)(

)ˆ( par

n

i i

ii

i

i yy

1 ˆ

ˆ

ˆlog2

qui est la déviance de la loi Gamma,

Où )(YVi est la variance de l’ième observation,

i est l’estimation de l’espérance E(Yi).



76

Avec cette mesure, la probabilité estimée empirique de sélection du premier bon modèle pour

est de 0,75 par la méthode décrite.

vrai modèle modèle testé

critère de sélection

(-1,1,1,0) 1111 0,25

1110 0,75

1011 0

1101 0

1100 0

1010 0

1001 0

1000 0

(-1,2,0,0) 1111 0

1110 0

1011 0

1101 0,19

1100 0,81

1010 0

1001 0

1000 0

(1,0,0,0) 1111 0

1110 0

1011 0

1101 0

1100 0,18

1010 0

1001 0,08

1000 0,74

Tableau 12. Probabilités de sélection estimées, basées sur l’estimateur de maximum de

vraisemblance et la mesure adaptée à la loi Gamma.

Les résultats reposent sur 100 simulations et le Bootstrap sur dix-huit itérations.

Nous estimons qu’il est plus satisfaisant d’utiliser la mesure en déviance que la mesure

quadratique.

Le graphique ci-dessous représente à titre illustratif les valeurs de la composante de mesure de

robustesse sur les huit modèles testés, relevées sur une simulation sélectionnant le vrai modèle

2. Nous y constatons un décrochement à partir du modèle 3 testé, tandis que la différence de

valeur entre les modèles 1 et 2 est peu visible.

Nous observons par ailleurs sur le reste des simulations que les simulations sélectionnant le

mauvais modèle 1 présentent des différences faibles de valeurs de critère entre modèle 1 et

vrai modèle. Nous jugeons donc convenable l’efficacité de la procédure de sélection

proposée.



77

Composante de mesure de robustesse

Vrai modèle: liste 2

0

0,5

1

1,5

2

2,5

3

3,5

4

bcritere

1

bcritere

2

bcritere

3

bcritere

4

bcritere

5

bcritere

6

bcritere

7

bcritere

8

Listes de variables

um

0

0,5

1

1,5

2

2,5

3

base

1

composante de mesure de robustesse composante de robustesse en base 1

Figure 25. Evolution de la composante de mesure de robustesse selon le modèle.

Notons le décrochement de valeur à partir du modèle 3.

Point d’attention

La méthode de comparaison des critères utilisée ici est la méthode basée sur des simulations.

Les résultats obtenus sur des simulations donnent des conclusions très différentes suivant la

taille de l’échantillon et la complexité du vrai modèle. Les modèles simulés ici sont très

simples. BIC sélectionne alors le vrai modèle, et AIC le vrai modèle ou un modèle plus grand.

Pour autant, ceci ne doit pas nous amener à conclure que le critère BIC est plus performant

pour le choix du vrai modèle. En effet, lorsque le modèle est plus complexe, la littérature

constate que BIC devient moins performant qu’AIC car même pour de grandes tailles

d’échantillon, BIC sélectionne des modèles sous-ajustés.

Nous ne concluons pas d’une étude simulatoire qu’un critère est le meilleur. Nous constatons

seulement que la performance sur cette étude de notre critère de sélection est convenable. Le

choix d’un critère de sélection de modèles doit être conditionné par l’objectif de l’analyse. Ici,

nous souhaitons valider l’intégration de nouvelles variables en vérifiant que la robustesse ne

s’écroule pas, et utilisons ainsi le critère de sélection proposé car il permet à la fois une

estimation de l’ajustement aux données et celle de la robustesse d’un modèle.

Dans la section suivante, nous présentons un exemple de mise en œuvre sur les charges de

type Responsabilité Civile. Les primes pures étaient observées sur plus d’un million de

contrats mais nous estimons le critère de sélection sur deux cent mille observations pour plus

de rapidité de calcul.

6.4. Application en Responsabilité Civile et analyse du critère

L’apport de la méthodologie est d’orienter la décision d’intégrer des variables

comportementales dans les modèles par type de sinistre.

On relève la valeur du critère de sélection pour les modèles :



78

sans variables comportementales

avec toutes variables comportementales souhaitées sur la base des observations

graphiques et des critères usuels

avec l’ajout une à une ou deux à deux de variables comportementales.

On relève également la variation de l’erreur de prédiction en ajoutant une variable considérée

fondamentale du point de vue variation de l’AIC.

Comparaison sans variables comportementales / avec variables comportementales en

mesure quadratique

Avec les variables comportementales, en Responsabilité Civile, sur 200 000 observations,

et dans les conditions suivantes :

Sans prendre en compte les résidus associés aux primes pures nulles dans le calcul

de la partie du critère mesurant l’ajustement à l’observé, soit calcul de cette

composante sur 4 366 contrats,

En affectant des résidus centrés comme nouveaux résidus aux observations,

suivant la loi de fonction de répartition la fonction de répartition empirique

associée aux résidus initiaux,

avec la mesure d’erreur quadratique

le critère de sélection vaut C=7,56, ventilé en les trois composantes comme suit :

Composante de mesure de robustesse : CB= 1,032

Composante de mesure d’ajustement aux données : CO= 6,53

Composante de pénalité suivant le nombre de paramètres : Cbic= 0,0016

Notons qu’en intégrant les résidus des primes pures nulles dans la partie du critère mesurant

l’ajustement à l’observé, nous augmenterions la valeur de cette composante dans le critère de

sélection qui serait alors 107 fois plus grande que la partie estimée par Bootstrap. C’est

pourquoi nous avons choisi de retirer les résidus des primes pures nulles dans l’estimation de

CO.

Sans les variables comportementales, en RC, sur 200 000 données, dans les mêmes

conditions que précédemment, nous obtenons les valeurs estimées suivantes :

C=8,38, ventilé comme suit :

CB=1,035

CO=7,35

Cbic=5,5.10 -4

Stabilité de l’estimation de la composante de mesure de robustesse sur les échantillons

bootstrappés

Pour juger de la stabilité de l’estimation de la mesure de robustesse, nous avons observé la

distribution des résidus initiaux et celle des résidus centrés, pour les deux modèles testés.



79

Nous avons observé de plus pour ces deux modèles, sur quelques échantillons bootstrapés, la

distribution des erreurs de prédiction, celle des valeurs simulées et celle des valeurs estimées.

Le constat est que la distribution des résidus est la même pour les différentes itérations.

En outre, nous observons sur le graphe suivant la convergence de la valeur de l’erreur de

prédiction avec les itérations, et ceci rapidement :

Erreurs de prédiction moyennes

Avec variables comportementales

Cas 2 iter18

Convergence au-delà de 10 itérations bootstrap

1,0305

1,031

1,0315

1,032

1,0325

1,033

1,0335

1,034

1,0345

1,035

itération-échantillon

mo

yen

ne d

es e

rreu

rs d

e p

réd

icti

on

.

Un

éch

an

tillo

n c

orr

esp

on

d à

un

e

itéra

tio

n

99,8

99,85

99,9

99,95

100

100,05

100,1

100,15

moyenne des erreurs de prédiction

moyenne des erreurs de prédiction base

100=moyenne

Figure 26. Convergence de l’estimation de l’erreur de prédiction

Comparaison en mesure de déviance adaptée à la loi Gamma

Avec la mesure d’erreur en déviance, nous obtenons les valeurs suivantes :

Liste testée CB CO Cbic C = CB+CO+Cbic bic aic

liste 1 : avec variables comportementales

1,254 1,248 0,002 2,504 61 750,161 61 474,597

liste 2 : sans variables comportementales

1,286 1,286 0,000549 2,573 61 683,337 61 591,482

Tableau 13. Comparaison des critères de sélection sur les deux modèles.

Le critère de sélection invite à sélectionner le modèle comportant les variables comportementales. Le critère bic

ne le sélectionne pas et nous pouvons penser que cela est du au fait qu’il pénalise fortement en fonction du

nombre de paramètres estimés.

Soit, pour un critère fixé, en prenant pour base 1 la valeur moyenne du critère sur les deux

listes testées :



80

Liste testée, base 1=moyenne du critère

CB CO Cbic C = CB+CO+Cbic bic aic

liste 1 : avec variables comportementales

0,987 0,985 1,500 0,986 1,000 0,999

liste 2 : sans variables comportementales

1,012 1,015 0,500 1,013 0,999 1,000

Tableau 14. Comparaison des critères de sélection sur les deux modèles en base1.

Le critère de sélection invite à sélectionner le modèle comportant les variables comportementales.

Le critère BIC pénalise le nombre de paramètres estimés de façon plus importante que le

critère Aic. Appliqué ici, il invite à sélectionner le modèle le plus parcimonieux qu’est le

modèle sans variables comportementales.

Le critère de sélection et le critère AIC valide le choix du modèle intégrant les variables

comportementales.

La différence vis-à-vis de la moyenne du critère est plus remarquable dans le cas du critère de

sélection. Ainsi, il semblerait plus aisé de sélectionner un modèle à l’aide de ce critère qui

différencie plus nettement les modèles testés que les critères AIC et BIC.

Evolution du critère de sélection sur huit modèles

Nous présentons ci-dessous l’évolution des composantes du critère de sélection et des critères

AIC et BIC pour huit modèles testés afin de mesurer la sensibilité des critères étudiés aux

changements de modèles.

Le tableau ci-dessous résume les huit modèles testés. Ainsi, le modèle 1 inclut toutes les

variables comportementales et les variables ordinaires, le modèle 2 ne comporte que les

variables caractéristiques du logement. Modèle Variables du modèle Nombre de paramètres estimés q

1

interaction âge avec enfant segment client

nombre de pièces région

26

2 nombre de pièces

région 8

3 segment client


14

4 région 4

5 nombre de pièces 4

6 interaction âge avec enfant


20

7 segment client 6

8 interaction âge avec enfant 12

Tableau 15. Modèles testés



81

Les valeurs du critère de sélection et de chacune de ses composantes, ainsi que les valeurs des

log-vraisemblances et des critères AIC et BIC sont relevées sur les huit modèles testés, dans

la table ci-dessous.

Nous représentons ensuite sur le graphique qui suit les listes sélectionnées dans l’ordre par le

critère de sélection. Les modèles 1 et 6 sont les deux premiers sélectionnés par ce critère ; ce

sont aussi les deux premiers modèles retenus par le critère AIC.

Au contraire, le critère BIC est très pénalisant vis-à-vis du nombre de paramètres estimés,

comparativement au critère de sélection proposé, et sélectionne un modèle plus parcimonieux

qu’est le modèle 2.

CB CO Cbic=log(n)/nq

C =

CB+CO+

Cbic

ll bic aic

Liste 1 1,254 1,248 0,00164 2,504 -30710,298 61750,161 61474,597

Liste 2 1,286 1,286 0,00054 2,573 -30786,741 61683,336 61591,482

Liste 3 1,270 1,267 0,00097 2,538 -30749,618 61694,534 61531,237

Liste 4 1,306 1,306 0,00024 2,612 -30825,548 61699,921 61659,097

Liste 5 1,304 1,304 0,00030 2,609 -30822,092 61705,215 61654,184

Liste 6 1,263 1,258 0,00128 2,522 -30730,063 61716,454 61502,126

Liste 7 1,310 1,310 0,00036 2,621 -30834,247 61741,730 61680,494

Liste 8 1,307 1,305 0,00073 2,614 -30825,031 61796,536 61674,063

Tableau 16. Valeurs des critères sur huit modèles testés.

En gras, figurent les valeurs minimales des critères.

Observation des critères en base 1 =moyenne pour chaque critère,

dans l'ordre croissant du critère de sélection

0,94

0,95

0,96

0,97

0,98

0,99

1

1,01

1,02

1,03

liste 1 liste 6 liste 3 liste 2 liste 5 liste 4 liste 8 liste 7

liste

critè

res h

ors

bic

like, en b

ase 1

=m

oyenne

pour

chaque c

ritè

re

0

0,5

1

1,5

2

2,5

Cbic

en b

ase 1

=m

oyenne d

e C

bic

Cb Co C=Cb+Co+Cbic ll bic aic Cbic

Figure 27. Evolution des critères en base 1 suivant le modèle testé.

Le premier modèle sélectionné par le critère de sélection est, comme le critère AIC, le modèle intégrant les

variables comportementales. Les critères BIC et AIC évoluent avec des variations moins visibles que le critère

de sélection.



82

Nous réalisons ci-dessous un zoom sur l’évolution des critères AIC et BIC dans l’ordre

croissant des valeurs du critère de sélection. Le critère AIC suit la croissance du critère de

sélection mais de façon beaucoup moins marquée, tandis que le critère BIC ne suit pas cette

tendance.

Bic et Aic pour des listes de variables, dans l'ordre croissant du critère de

sélection.

Bic pénalise fortement suivant le nombre de paramètres estimés

0,996

0,997

0,998

0,999

1

1,001

1,002

liste 1 liste 6 liste 3 liste 2 liste 5 liste 4 liste 8 liste 7

liste

base 1

=m

oyenne d

u c

ritè

re

bic

aic

Figure 28. Zoom sur les critères AIC et BIC pour les listes testées.

Le critère AIC suit le même ordre de sélection que le critère de sélection, alors que le critère BIC n’autorise pas

les modèles peu parcimonieux.

La mise en œuvre sur les primes pures en Responsabilité Civile montre donc que les

variations du critère de sélection d’un modèle à un autre sont plus notables que celle des

critères AIC et BIC.

6.5. Application au modèle unique Global

Dans cette section, nous mettons en œuvre le critère de sélection pour comparer le modèle

unique global sans variables comportementales et avec variables comportementales. Nous

comparons l’effet des variables Age et Enfant par rapport à l’effet de la variable traditionnelle

Nombre de pièces.

L’introduction de l’Age permet de diminuer de 2,07% le critère de sélection, celle de la

variable Enfant de 0,8%, tandis que celle de la variable Nombre de pièces permet une

diminution de 0,9%. Nous pouvons donc penser qu’il est raisonnable d’intégrer la variable

Enfant qui fait décroître le critère de sélection d’un pourcentage proche de la variable usuelle

Nombre de pièces.



83

Le critère de sélection permet donc d’estimer l’impact des nouvelles variables par rapport à

une variable usuelle et de justifier ainsi leur intégration.

6.6. Application en Bris de Glace

Nous avions vu qu’en Bris de Glace, l’introduction de la variable Enfant était justifiée par

notre volonté intuitive. Nous mettons donc en œuvre le critère de sélection pour voir l’effet de

l’ajout de la variable Enfant sur le modèle, par rapport à l’effet du à l’ajout de la variable

Nombre de pièces qui était une variable jugée essentielle statistiquement.

Nous constatons que l’ajout de la variable enfant permet une diminution du critère de

sélection de 4,8%, alors que l’intégration de la variable Nombre de pièces permet une

décroissance de 0,75%. Nous estimons donc raisonnable d’intégrer la variable Enfant en Bris

de Glace.

Bilan et transition

Avec le nombre d’observations utilisé dans cette application du critère de sélection, nous nous

autorisons ainsi à ne pas trop pénaliser en fonction du nombre de paramètres estimés. En effet,

le poids mis au nombre de paramètres est décroissant avec le nombre d’observations. Dans ce

critère de sélection, la mesure de robustesse ainsi que la mesure d’ajustement aux données

permettent toutes deux de sélectionner le modèle comportant toutes les variables

comportementales que nous souhaitions inclure.

Inclure les nouvelles variables testées améliore ainsi la précision sans dégrader la robustesse

du modèle, dans le sens de notre critère.

Dans la section suivante, nous proposons d’étudier comment évolue le critère de sélection et

la sélection de modèles en résultant, lorsque nous modifions le poids mis au nombre de

paramètres estimés. Ceci permet d’estimer la sensibilité du critère au nombre d’observations,

à la pondération choisie et ainsi la stabilité du critère de sélection.



84

7. La courbe de sélection de modèles: un outil graphique pour la

sélection de modèles

7.1. Cadre et définition

Stabilité du modèle sélectionné

De nombreuses méthodes de sélection du modèle impliquent la minimisation d'une fonction

pénalisée des données, telles que la log-vraisemblance maximisée ou la somme résiduelle des

carrés sur un ensemble de modèles. La pénalité dans la fonction critère est contrôlée par un

coefficient multiplicateur λ qui détermine le poids donné à la pénalité et les propriétés de la

procédure. Dans le cas de notre critère de sélection proposé dans la section précédente, le

critère à minimiser s’écrit, pour un modèle caractérisé par l’ensemble de variables eq, q

paramètres à estimer, de prédicteur linéaire estimé par i :

)log(1

,

qCC

nqn

CCC

BO

BOen q

La pénalité est le nombre de paramètres q et le poids de la pénalité est log

n

(n)

Dans cette partie, nous proposons d'étudier le critère de sélection de modèle comme une

fonction du multiplicateur de pénalité λ. Le critère de sélection est vu comme une fonction

linéaire du nombre de paramètres estimés, de pente λ et d’ordonnée à l’origine BO CC .

Cette approche peut être interprétée comme l'exploration de la stabilité des critères de

sélection du modèle grâce à ce qu’appellent Welsh et Müller les courbes de sélection du

modèle. Elle conduit à de nouvelles visions sur la sélection de modèles et de nouvelles

propositions sur la manière de sélectionner les modèles.

D’un point de vue pratique, il est important pour une procédure de sélection de variables

d’être stable ou au moins, pour un utilisateur, d’être conscient quand la procédure est instable.

Il y a plusieurs manières de définir la stabilité mais l’idée centrale est que de petits

changements doivent produire seulement de petits effets. Formellement, nous dirons qu’une

procédure de sélection de modèle est instable quand nous sélectionnons un modèle )(ˆn de

dimension )(ˆ np mais, pour un faible δ>0, nous sélectionnons )(ˆ n de dimension plus

petite )(ˆ)(ˆ nnpp . Nous dirons que la procédure est stable dans le cas contraire. Pour



85

nous informer sur la stabilité, nous étudions ce qui arrive au critère de sélection de modèle

dans un voisinage de λn en utilisant les courbes de sélection de modèle.

L’approche que nous étudions ici peut être appliquée au critère général de la forme « perte +

pénalité » mais nous fixons notre attention sur le critère de sélection présenté en section 6.

Nous présentons ci-dessous des résultats de calcul de critère de sélection de modèles en RC

sur un échantillon de 200 000 lignes, dix-huit itérations bootstrap, mesure d'erreur de type

déviance, résidus affectés=résidus initiaux centrés, valeurs de primes pures observées et

simulées nulles non prises en compte pour le calcul du critère, que ce soit en composante

précision ou composante robustesse.

Dans l’état initial, le poids de pénalité vaut log(n)/n, où n est le nombre d’observations.

Notre étude vise à:

-montrer qu'il faut se méfier du choix du poids mis devant la fonction pénalisante, car pour

des poids inférieurs à un certain seuil on s'autorise à accepter un modèle avec beaucoup de

paramètre, alors que pour des poids plus grands on ne se permet plus facilement que les

modèles parcimonieux.

-permettre l’exploration de la stabilité du critère de sélection et ainsi du choix du modèle : il

suffit de bouger le poids de la pénalité pour aboutir à la sélection d’un autre modèle

-proposer des méthodes graphiques de sélection de modèles.

Sur le graphique suivant sont tracées, pour les huit modèles testés, les courbes du critère de

sélection en fonction de λ, qui est le poids devant la pénalité. Pour chaque modèle, la courbe

est une droite d’ordonnée à l’origine BO CC

et de pente λ.



86

Critère de sélection en fonction de lambda=poids devant le nombre de

paramètres

2,45

2,5

2,55

2,6

2,65

2,7

2,75

2,8

0 0,002 0,004 0,006 0,008 0,01 0,012Lambda

Critè

re d

e sé

lect

ion

l1 l2 l3 l4 l5 l6 l7 l8

Figure 29. Courbes des critères de sélection.

Le modèle sélectionné dépend de λ.

Nous observons que pour de faibles valeurs de λ, le critère permet de sélectionner le modèle

liste 1, contenant le plus de paramètres à estimer, au nombre de 26. Dans l’intervalle

intermédiaire de lambda, le critère permet de sélectionner la liste de 14 paramètres estimés.

Pou les plus grandes valeurs, on peut être amené à sélectionner la liste de 4 paramètres

estimés.

Ainsi, suivant le poids mis devant la pénalité, nous sommes amenés à sélectionner des

modèles différents.

Le critère AIC permet de sélectionner le modèle à 26 paramètres contenant les variables

comportementales ; le critère BIC est fortement pénalisant et sélectionne le modèle liste 2 à 8

paramètres.

Nous définissons la courbe de sélection de modèle comme la courbe formée par les

segments joignant les valeurs de critères de sélection minimaux pour chaque λ. Il s’agit des

points correspondants au modèle sélectionné pour chaque λ. Sur le graphique ci-dessous, la

courbe de sélection de modèle figure en trait noir épais. Sur cet intervalle de λ, les modèles

successivement sélectionnés sont les modèles 1 (issu de la courbe rouge), 3 (issu de la courbe

en vert) puis 2 (issu de la courbe en violet).



87

Figure 30. Courbes des critères de sélection en couleur et courbe de sélection de modèles (model selection

curve) en trait épais noir.

7.2. Utilisation

A partir de là, nous pouvons introduire une autre procédure de sélection de modèle. Se fixant

une valeur de λ maximale, nous pouvons définir la fenêtre de λ sur laquelle le critère reste le

plus longtemps minimal. La liste de variables sélectionnée est alors celle réalisant le critère

minimal sur cette fenêtre maximale.

Il y a deux moyens de définir la fenêtre sur laquelle le critère reste le plus longtemps minimal.

Tout d’abord, nous pouvons sélectionner le modèle qui correspond au plus grand cathetus

dans le polygone tronqué formé par la courbe de sélection de modèles sur l’intervalle de λ

fixé. Un cathetus est un côté adjacent à l’angle droit d’un triangle rectangle : ici, le cathetus

approprié est le côté horizontal du triangle rectangle dont l’hypoténuse est un segment du

polygone de courbe de sélection de modèles. Dans le cadre de notre application en

Responsabilité Civile, les trois catheti sont montrés sur la figure ci-dessous. Il s’agit des

flèches horizontales. Ce critère de sélection de modèle est dit « LC criterion », pour « longest

cathetus ».



88

Figure 31. Courbe de sélection, définition des trois catheti.

Ensuite, la deuxième façon de sélectionner un modèle est de choisir le modèle correspondant

au côté le plus long du polygone tronqué, c’est-à-dire la longueur de l’hypoténuse dans les

triangles rectangles à partir desquels sont extraits les catheti. Ce critère est appelé le « LE

criterion », pour « Longest edge ».

Le critère LE correspond à une philosophie qui tend à sélectionner les modèles plus larges que

les modèles sélectionnés par le critère LC. Le critère LC est plus parcimonieux que le critère

LE.

Bilan

Les courbes de sélection de modèles sont utiles dans l’étude de la sensibilité du choix du

modèle par rapport au poids de pénalité. Quand nous sélectionnons un point particulier d’une

courbe de sélection de modèle, comme lorsque nous utilisons les critères AIC et BIC, nous

obtenons une solution attachée à un point de vue particulier qui est l’opposition performance

prédictive contre performance descriptive. Utiliser la courbe entière est moins attachée à un

point de vue spécifique.

En outre, les courbes fournissent de nouveaux outils graphiques de sélection de modèles.

L’utilisateur peut choisir la forme du critère graphique selon qu’il le souhaite parcimonieux

ou qu’il s’autorise des modèles larges : il peut choisir le critère LC dans le premier cas et le

critère LE dans le deuxième.

De plus, notons que l’approche développée ici dans le cadre de notre critère de sélection à

trois composantes, dont une estimée par bootstrap, peut être mise en œuvre au critère plus

général « Perte+Pénalité ».



89

Conclusion et extension possible

Cette étude a permis d’apporter une aide à la décision dans la sélection de variables, en

introduisant un critère de sélection de modèles pour chaque garantie. Ce critère a permis de

nous conforter dans notre choix de modèles incluant des variables non utilisées à l’ordinaire.

Nous avons construit un modèle de prime pure segmenté par garantie et incluant des variables

relatives au client, tels que l’âge et le fait d’avoir un enfant. La modélisation s’est faite sur des

données de sinistralité retraitée de façon segmentée, dans l’écrêtement des charges actualisées

et dans la mutualisation des surcrêtes. Les méthodes usuelles de sélection de variables et

d’interaction par les critères AIC et BIC ont été utilisées pour proposer les modèles des

garanties, puis une procédure nouvelle de sélection de modèle a été mise en œuvre pour

valider nos choix. Cette dernière méthode s’appuie sur les travaux de recherche de Welsh et

Müller et permet de compléter la vision des critères AIC et BIC, en incorporant au critère une

composante de mesure de la robustesse estimée par bootstrap. Elle présente l’avantage de

mesurer la robustesse pour une erreur adaptée à la loi Gamma, ce qui est plus raisonnable

dans le cadre de notre hypothèse de loi et dans la pratique peut fournir une sélection plus juste

des modèles. En outre, nous avons présenté une méthode graphique d’évaluation de la

stabilité de la nouvelle procédure ; celle-ci est stable si le modèle sélectionné est le même

quand le poids de la pénalité du critère varie d’un écart choisi par l’utilisateur. Par ailleurs,

nous avons inclut le critère de sélection dans le cadre plus général d’une courbe de sélection

de modèles, ce qu’appellent Welsh et Müller « model selection curve ». L’approche a consisté

à analyser la courbe entière du critère de sélection en fonction du poids de la pénalité, plutôt

que des points individuels sur la courbe comme le font les critères AIC et BIC.

L’amélioration qui pourrait être apportée est la mise en œuvre de la construction de plusieurs

courbes de sélection de modèle sur des échantillons obtenus par bootstrap, ce qui conduirait,

pour chaque modèle candidat, au calcul de sa probabilité de sélection pour un poids de

pénalité fixé. Le meilleur modèle pourrait être alors celui dont la probabilité de sélection est la

plus grande, pour un poids de pénalité donné. En outre, notons que le critère de sélection mis

en œuvre dans cette étude a permis de valider des modèles choisis suivant les conclusions

apportées par les critères AIC, BIC, les tris à plat et les résidus. Nous l’avons utilisé pour

comparer quelques modèles entre eux, notamment pour confronter modèle avec nouvelles

variables au modèle sans ces variables. Des travaux pourraient être faits pour construire une

méthode type backward ou forward utilisant le critère de sélection.



90

8. Annexes

8.1. Algorithme d’estimation dans le modèle linéaire généralisé

Nous rappelons d’abord les notations du modèle linéaire généralisé.

Notant a, b et c des fonctions,

),()(

)(exp);;(

yc

a

byyfY

),()(

)()),;(log();,(

yc

a

byyfyl YY

)(

)('

a

byl

)(

)(''2

2

a

bl

Des égalités :

0)(

lE

0)()( 2

2

2

lE

lE

Il en découle :

)(')( bYE

)(

)(

)(

)(''0

2

a

YVar

a

b

D’où

)()('')( abYVar

La variance de Y est considérée comme le produit de deux fonctions ; l’une, b’’(θ) ne dépend

que du paramètre θ et ainsi de la moyenne, et est appelée Fonction Variance ; l’autre est

indépendante de θ et dépend seulement de . La fonction variance considérée comme

fonction de μ sera notée V(μ).

La fonction )(a est usuellement de la forme w

a

)( avec appelé paramètre de

dispersion, aussi noté 2 , et w un poids mis a priori et connu qui varie d’une observation à

une autre.



91

La fonction lien g, monotone et deux fois différentiable, relie la moyenne μ au prédicteur

linéaire

q

j

jjx1

ixg ')(

Où β est le vecteur des paramètres inconnus, x’i est un vecteur ligne de taille (q+1) contenant

les variables de régression, incluant la constante.

La log-vraisemblance du modèle pour les n observations s’écrit :

n

i

iiYY ylyL1

);,())(;,(

n

i

i

iii

Y yca

byyL

1

),()(

)())(;,(

Dans le cas spécial de la fonction lien naturelle pour laquelle iixg ')(

n

i

i

iii

Y yca

xbxyyL

1

),()(

)'('))(;,(

Mettant à zéro l’expression, nous obtenons :

)()'(01

axhyxn

i

iiij

avec h=g-1

.

Puis :

n

i i

ii

ii

n

i

i

i

i

i

i

i

YY

YV

yhx

lL

11 )()('

L’approche de Newton-Raphson utilise le développement de Taylor de

YL en fonction de la

variable β. La méthode du scoring permet une simplification en remplaçant la matrice de

taille (q+1, q+1) : '

2

YLpar

n

i

iiiiYYY YVhxx

LLE

LE

1

22

)(/)(''''

Il en découle que la méthode du scoring suit le schéma itératif :

1

ˆ

1

11ˆˆˆ

t

Yttt

L

*ˆ'ˆ'

ˆˆˆ'ˆˆ

111

1

11

11

1

11

1

ttt

t

n

i i

i

iiiittt

yKXXKX

ekxXKX

où :



92

i

i

iii

iii

ey

ye

ˆ

ˆˆ

* sont évalués en 1

ˆt ,

Et )()('ˆ 21

ii YVhdiagK

Mc Cullagh et Nelder (1983) montrent le résultat asymptotique : ))'(,(ˆ 11 XKXNloi

.

8.2. Codage des variables qualitatives dans le modèle linéaire généralisé

Il existe plusieurs façons de coder les variables qualitatives en une matrice X de valeurs

numériques 0 et 1 ou 0, 1 et -1. C’est la matrice X qui intervient dans les calculs.

La méthode utilisée dans notre étude est la suivante. Soit une variable à q modalités. On se

fixe une modalité de référence. Alors q-1 colonnes de variables dites « dummies variables»

sont créées dans X pour cette variable. Chaque colonne représente une modalité, excepté la

modalité de référence. Les « dummies variables » valent 1 lorsque la modalité associée est

observée, 0 sinon. Lorsque la modalité de référence est observée, les « dummies variables »

valent toutes 0.

8.3. Origine des critères BIC et AIC

Le critère BIC

Nous présentons ci-dessous l’origine du critère BIC en nous appuyant sur le rapport de

recherche d’Emilie Lebarbier et Tristan Mary-Huard, publié en 2004, reprenant l’auteur

Raftery (1994).

Soit un échantillon de taille n : X=(X1,X2,…,Xn) de variables indépendantes de densité

inconnue f. L’objectif est d’estimer f.

Soit un ensemble fini de modèles {M1…Mm}. A un modèle Mi, est associée une densité gMi de

paramètre θi appartenant à un espace θi de dimension Ki.

Nous utilisons le contexte bayésien, soit θi et Mi vus comme des variables aléatoires de loi

dite a priori. La probabilité a priori sur Mi est notée P(Mi). Pour un modèle Mi donné, la

distribution a priori du paramètre θi est notée P(θi | Mi). L’avantage de cette approche est de

pouvoir tenir compte des informations que peut détenir l’utilisateur, en donnant un poids plus

important à certains modèles. Cependant, la distribution a priori posée sur les modèles Mi est

souvent uniforme et les considérations asymptotiques montrent que la distribution a priori des

θi n’intervient pas dans la forme du critère BIC.

Le critère BIC sélectionne le modèle MBIC tel que :



93

)(maxarg XMPM iM

BIC

i

L’idée derrière est que le BIC cherche à sélectionner le modèle le plus vraisemblable, ayant

observé les données.

D’après la formule de Bayes, )( XMP i s’écrit

)(

)()()(

XP

MPMXPXMP

ii

i

Supposons que la loi a priori des modèles Mi est non informative, c’est-à-dire qu’aucun

modèle n’est privilégié:

)(...)()( 21 mMPMPMP

La recherche du modèle selon le critère ne nécessite qu’alors la distribution )( iMXP . Nous

obtenons cette dernière par intégration de la distribution jointe du vecteur θi et des données X

sachant Mi, sur les valeurs de θi :

iiiiMiiii dMPXgdMXPMXPi

ii

)(),(),()(

Où ),( iM Xgi

est la vraisemblance correspondant au modèle Mi de paramètres θi :

),(),( iiiM MXPXgi

Ecrivons cette intégrale sous la forme :

i

i

i

g

i deMXP )()(

Où )(),(log)( iiiMi MPXggi

La probabilité )( iMXP est dite vraisemblance intégrée pour le modèle Mi.

Nous l’approchons par l’approximation de Laplace.

Proposition. Approximation de Laplace Soit une fonction dL : deux fois

différentiable sur d et atteignant un unique maximum sur d en u*. Alors

)()(''2 12

1

*2

)()( *

nOuL

nedue

d

unLunL

d

Nous appliquons cette approximation à la fonction :

n

MPXg

nn

gL

iin

k

ikM

i

in i

)(log),(log

1)()(

1

Nous notons )(maxarg*

ini Lii



94

*i

A

l’opposé de la matrice hessienne de la fonction Ln du paramètre vecteur θi, évaluée au

point θi*.

Nous obtenons

)(2

)( 12/1

2/

)(*

*

nOA

neMXP

i

i

i

K

gi

Raftery montre qu’on peut remplacer asymptotiquement, en introduisant un terme en O(n-1/2

) ,

θi* par i et *

i

A

par i

I

où :

),(1

maxargˆiM

Θθi Xg

n i

ii

est l’estimateur du maximum de vraisemblance

ii

lj

li

ji

iM XgEI i

i

ˆ

)),(log(

,

2

ˆ est la matrice d’information de Fisher pour une

information.

Raftery montre qu’alors, en négligeant les termes O(1) et O(n-1/2

) :

)log(2

))ˆ,(log())(log( nK

XgMXP iiMi i

C’est de cette approximation que le critère BIC est issu.

Comparaison AIC/BIC

L’objectif du critère AIC introduit par Akaike en 1973 est de choisir le modèle vérifiant :

dxxf

xg

xgEMfdM

iM

iM

iKLM

AIC

i

i

i

)()ˆ,(

),(log),(minarg

Avec :

dxxfxg

xfgfdKL )(

)(

)(log),(

désignant la distance de Kullback-Leibler entre deux

densités f et g ;

i vérifiant

Le premier terme mesure la distance de f au modèle Mi (biais) et le deuxième la difficulté

d’estimer ),( iM xgi

(variance).

En pratique, les résultats obtenus sur des simulations donnent des conclusions très différentes

suivant la taille de l’échantillon et la complexité du vrai modèle. Généralement les modèles

simulés sont simples. Le critère BIC sélectionne alors le vrai modèle, et AIC le vrai modèle

))(.,,(inf),( iMKLiKL ii

gfdMfd



95

ou un modèle plus grand. Lorsque le modèle est plus complexe, par exemple composé d’une

multitude d’effets, le critère BIC peut devenir moins performant que le critère AIC car même

pour de grandes tailles d’échantillon, le critère BIC sélectionne des modèles sous-ajustés.

8.4. Calibrage d’une loi Pareto aux incendies et attentats

Dans le cadre de l’étude sur l’écrêtement des charges de sinistres en Incendie et Attentat, une

loi de Pareto a été calibrée sur ces charges.

Le tableau ci-dessous présente les valeurs des paramètres α et θ de la loi Pareto calibrée sur

les charges de sinistres actualisées Incendie et Attentat, ainsi que le seuil d’écrêtement obtenu

par résolution de l’inéquation imposant au coefficient de variation d’être inférieur à une

valeur fixée par l’utilisateur, ici 2,34.

alpha 0,88

theta 1908,89

seuil à déterminer 100027,74

formule<=0 -0,001

coefficient de variation fixé par

l'utilisateur 2,34

8.5. Répartition des années police

Nous indiquons ci-dessous, à titre indicatif, la répartition des variables réseau de distribution,

segment de risque et catégorie socioprofessionnelle.

Variable réseau de distribution

La variable Réseau de distribution peut prendre les modalités Agent, Salarié, Courtier.

modalités Répartition des années police suivant le réseau de ditribution

90,20%

5,80%4,00%

Agents généraux Courtiers Salariés

AGT Agents

généraux

CUT Courtiers

SAL Salariés



96

Variable Segment de risque

modalités Répartition des années police suivant le segment de risque

35,71%

13,10%9,15%

42,04%

LA LM PA PM

LA Locataire

d’appartement

LM Locataire de

maison

PA Propriétaire

d’appartement

PM Propriétaire de maison

Regroupements de CSP

Les groupes retenus de catégories socioprofessionnelles sont les suivants :

modalités Répartition des années police suivant la catégorie socio-professionnelle

7,70%

5,60%

5,20%

54,20%

7,10%

20,10%

Agriculteurs, artisans, professions libéralesCadres supérieurs, chefs en entrepriseChômeurs , étudiantsEmployés, ouvriers, professions intermédiairesInconnusRetraités

ARTI

Agriculteurs,

artisans,

professions libérales

CADRE S

Cadres supérieurs,

chefs en

entreprise

CHOMETU Chômeurs,

étudiants

EMPLOYE

Employés,

ouvriers,

professions

intermédiaires

INCONNU Inconnus

RETRAIT Retraités



97

8.6. Graphiques des interactions estimées

Dégâts des Eaux, Bris de Glace et Responsabilité Civile

En Dégâts des Eaux, nous avons introduit l’interaction segment client avec une variable ayant

deux modalités : Propriétaire d’appartement et Autres.

Nous distinguons en effet une différence de tendance dans les courbes.

(a) (b) Rescaled Predicted Values

0,8

0,9

1

1,1

1,2

1,3

1,4

Autres PA

N ew SEGM R ISK

prim

e p

ure m

oyenne e

stim

ée e

n b

ase 1

, base 1

=segm

ent client

4 o

u A

utr

es

0

50

100

150

200

250

300

350

400

450

500

% a

nnées p

olice

SEGMCLI (2) SEGMCLI (3) SEGMCLI (4) SEGMCLI (5) SEGMCLI (6) SEGMCLI (E) SEGMCLI (INC)

Rescaled Predicted Values

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

1,2

1,3

P S

C D R ESID

0

50

100

150

200

250

300

350

400

450

500

New SEGMRISK (Locataires) New SEGMRISK (Proprietaires)

(c)

Rescaled Predicted Values

0,5

0,7

0,9

1,1

1,3

1,5

1,7

sans enfant au moins un enfant

N ew ID EN F C LI

prim

e p

ure

moyenne e

stim

ée e

n b

ase 1

, base 1

=pas

d'e

nfa

nt ou c

lasse d

'âge 4

0

50

100

150

200

250

300

350%

New CLASS_AGE (1) New CLASS_AGE (2) New CLASS_AGE (3) New CLASS_AGE (4) New CLASS_AGE (5) New CLASS_AGE (6)

(a) Dégâts des Eaux. Interaction Segment Client avec profil Propriétaire d’appartement/Autres. Les barres

représentent la répartition des années police dans les case. (b)Bris de Glace. Interaction Résidence avec

locataires/propriétaires. (c)Responsabilité Civile. Interaction Enfant avec Age. Nous avons regroupé les

modalités Inconnues pour ces deux variables avec la classe d’âge 6 et le fait d’avoir au moins un enfant.

8.7. Effet des variables comportementales

Le tableau ci-dessous résume, pour chaque garantie et au global, les pourcentages de variation

des critères usuels dus à l’introduction simultanée des variables comportementales souhaitées.

La notation m0 désigne le modèle sans ces variables et m1 désigne le modèle contenant ces

variables.

La référence de diminution de l’AIC est calculée par variation de l’AIC due à l’introduction

d’une variable sélectionnée en premier par l’algorithme Forward sur AIC.

Ainsi, en Dégâts des Eaux, le segment client permet une diminution de 0,26% tandis que le

zonier actuel permet une diminution de 4%.



98

Pourcentage de

variation (m1-

m0)/m0*100

BG DDE INC RC VOL GLOBAL

variables comportementales

introduites

enfant segment

client csp

interaction Enfant

avec Age

Age

Age Segment

client

Situation familiale

Enfant

déviance/ddl 0,008 0,001 -0,340 0,150 0,006 -0,950

AIC -1,13 -0,26 -0,19 -9,34 -3,14 -0,55

BIC -1,13 -0,26 -0,19 -9,34 -3,14 -0,55

référence variation de

l'AIC -nbpièces pour bg, rc,

global

-segment de risque pour INC

-zonier pour dde et vol

-8% -4%

-1,18% -5% -11,5% -0,66%

8.8. Ecarts aux marges

Global, Bris de Glace

Les primes pures estimées et observées sont régulièrement croissantes, nous n’observons pas

de bond notable. Nous constatons une prime pure moyenne minimale sur les 1 pièces et une

prime pure moyenne maximale sur les plus de sept pièces.

Ecarts aux marges Global

0

20

40

60

80

100

120

140

160

180

200

pièc

es 1

âge

6

résid

S

segm

cli 6

segm

cli 3 LA

enfa

nt 0

segm

cli E

dépe

ndan

ce N

ON S

ECO

dépe

ndan

ce O

UI

enfa

nt 1

âge

UN P

M IN

segm

cli INC

pièc

es 5

modalités

pri

mes p

ure

s

mo

yen

nes e

n e

uro

s

0102030405060708090100

%

% Années police Observed Average



Ecarts aux marges Bris de Glace

0

1

2

3

4

5

6

7

8

9

pièc

es 1

pièc

es 2

pièc

es 3 LA PA

enfa

nt 0 LM

enfa

nt U

enfa

nt 1

pièc

es 4 PM

pièc

es 5

modalité

pri

me p

ure

mo

yen

ne e

n

eu

ros

0

10

20

30

40

50

60

%




Ecarts aux marges Global, Ecarts aux marges Bris de Glace. Propriétaires de Maison et plus de sept pièces sont

les modalités de primes moyennes maximales.

Dégâts des Eaux

Nous notons, en Dégâts des Eaux, un saut de niveaux de primes pures moyennes observées et

estimées pour les plus de sept pièces et pour les propriétaires d’appartement.



99

Ecarts aux marges en Dégâts des Eaux

0

20

40

60

80

100

120

LM

pièc

es 1

dépe

ndan

ce O

UI

PM

pièc

es 2

pièc

es 3

pièc

es 4

réside

nce

P

réside

nce

S

dépe

ndan

ce N

ON

LA

pièc

es 5 PA

Modalités

Pri

me p

ure

mo

yen

ne e

n e

uro

s

0

10

20

30

40

50

60

70

80

90

100

%

% années police Observed AverageFitted Average Model Prediction at Base levelsModel Prediction + 2 Standard Errors Model Prediction - 2 Standard Errors

Ecarts aux marges en Dégâts des Eaux. Un bond est noté pour les profils propriétaire d’appartement et plus de

sept pièces.

Incendie, Vol

Les profils de primes pures plus élevées sont les propriétaires de maison, les plus de sept

pièces et les assurés ayant une dépendance. Ecarts aux marges Incendie

0

10

20

30

40

50

60

70

PA

pièc

es 2

pièc

es 1 LA

réside

nce

S

pièc

es 3 LM

dépe

ndan

ce N

ON

autre

s

réside

nce

P

inco

nnu

chom

arti

pièc

es 4 PM

dépe

ndan

ce O

UI

pièc

es 5

modalités

prim

e p

ure

moyenne e

n e

uro

s

0

10

20

30

40

50

60

70

80

90

100


Fitted Average M odel Prediction at Base levels

M odel Prediction + 2 Standard Errors M odel Prediction - 2 Standard Errors

Ecarts aux marges en Vol

0

5

10

15

20

25

30

35

pièc

es 1

âge

6

pièc

es 2

pièc

es 3 LA LM

âge

5

réside

nce

S

réside

nce

PPA

âge

2

âge

1

âge

4

pièc

es 4 PM

âge

3

âge

UN

pièc

es 5

modalités

pri

me p

ure

mo

yen

ne e

n e

uro

s

0

10

20

30

40

50

60

70

80

90

100

%




Ecarts aux marges en Incendie et en Vol

8.9. Modèle Tweedie

Contrairement à la loi Gamma, la distribution de Tweedie met une masse en zéro.

Les modèles Tweedie peuvent être vus comme des modèles Poisson composés. Nous

supposons que

N

k

kZY0

où les Zk sont indépendantes et identiquement distribuées. Nous

pourrons supposer que ces variables suivent une loi Gamma G(α,β) indépendamment de N

suivant une loi de Poisson P(λ).

Alors

)()()( kZENEYE

2

2

2

22)()()()()(

kk ZENVZENEYV

Supposons qu’il existe 2,1p et ψ >0 tels que :



100

)2(,

)1(

1,

1

2 2

1 ppp

p p

p

Alors on peut montrer que la loi de Y appartient à la famille exponentielle avec pYVYE )(,)( avec ψ un paramètre de dispersion ; la fonction variance est alors

V(μ)=μp.

8.10. Garanties Multirisques Habitation

Nous montrons ci-dessous, à titre indicatif, un descriptif des principales garanties du contrat

multirisques habitation, issu du Guide technique habitation.

L’incendie

Définition

L’article L 122-1 du Code Général des Assurances définit l’incendie de la manière suivante :

« l’assureur contre l’incendie répond de tous dommages causés par conflagration,

embrasement ou simple combustion. Toutefois, il ne répond pas, sauf convention contraire, de

ceux occasionnés par la seule action de la chaleur ou par le contact direct et immédiat du feu

ou d’une substance incandescente s’il n’y a eu ni incendie, ni commencement d’incendie

susceptible de dégénérer en incendie véritable ».

Ce texte n’est pas d’ordre public, le contrat d’assurance peut donc y déroger.

La profession définit l’incendie comme « une combustion avec flammes en dehors d’un foyer

normal » et l’explosion comme « l’action subite et violente de la pression ou de la dépression

de gaz ou vapeur ».

Incendie, explosion, implosion

Les dommages d’incendie ou d’explosion causés aux biens assurés sont garantis quel que soit

le lieu où l’évènement a pris naissance et quelles que soient les origines et causes de cet

incendie ou explosion.

Exceptions :

• l’incendie causé aux matériels électriques et électroniques d’origine interne qui relève de la

garantie Dommages aux appareils électriques, l’incendie résultant d’un tremblement de terre,

d’une éruption volcanique ou d’un raz-de-marée ne donnant pas lieu à constatation de l’état

de catastrophe naturelle,

• l’incendie causé par une source de rayonnement ionisant. Les dommages dus aux fumées et

au rayonnement d’un incendie sont des dommages d’incendie, ceux causés par l’onde de choc

accompagnant le passage d’un avion en vol supersonique des dommages d’explosion.

L’implosion est une explosion particulière. De même, le « coup d’eau » est assimilé à une

explosion.

Les inserts sont la cause principale des sinistres incendies en MRH.

C’est la raison pour laquelle une majoration tarifaire est appliquée aux habitations munies

d’un insert ou d’un moyen de chauffage au bois du même type, qui présentent un risque

aggravé.



101

Les évènements climatiques

La tempête

Il n’y a pas de définition légale de la tempête. Il s’agit d’une violente perturbation produisant

des vents caractérisés par des vitesses très élevées.

Pour être qualifié de tempête, le phénomène doit avoir une intensité telle qu’il détruit ou

endommage plusieurs bâtiments de bonne construction dans la commune de l’habitation

assurée ou dans les communes avoisinantes.

La grêle

Les dommages de grêle sont garantis sur l’ensemble du bâtiment.

Le poids de la neige

Le gel

La garantie Inondation

La garantie Inondation joue en l’absence de tout arrêté de catastrophe naturelle, ainsi qu’en

l’absence de demande de classement en catastrophe naturelle.

Le dégât des eaux L’assurance Dégâts des eaux ne couvre pas la réfection des conduites ou des installations

d’eau à l’origine du dommage mais uniquement les conséquences des dommages causés par

l’eau.

L’assurance Dégâts des eaux couvre les conséquences des dommages causés par l’eau

résultant :

• De la fuite, de la rupture ou du débordement des conduites d’eau non enterrées

Notion de conduites enterrées : il s’agit des conduites dont l’accès nécessite des travaux de

terrassement.

Les conduites encastrées sont garanties. Il s’agit des conduites situées à l’intérieur des murs et

des planchers même si elles se trouvent au-dessous du niveau du sol ou si elles passent dans

un vide sanitaire.

• De la fuite, de la rupture ou du débordement des appareils à effet d’eau

Il s’agit des appareils auxquels il est ajouté un élément quelconque qui a pour but de

permettre certaines opérations telles que l’arrivée de l’eau, son évacuation, son chauffage, son

épuration, son aération, créant alors un certain mouvement d’eau, même s’il n’est pas continu.

Exemples : machines à laver le linge et la vaisselle, baignoires, lavabos, éviers…

Il est nécessaire que l’équipement soit relié en permanence au dispositif d’alimentation,

d’évacuation d’épuration ou de filtration.

Il faut distinguer l’appareil à effet d’eau du récipient qui est un simple réceptacle contenant de

l’eau. C’est le cas notamment des vases, des piscines gonflables pour enfant…

• Des infiltrations d’eau ou de neige au travers des toitures, ciels vitrés, terrasses et balcons

formant toiture

• Des infiltrations d’eau et de neige au travers des façades et murs extérieurs

• De la rupture accidentelle ou du débordement exceptionnel d’égout, non dus à un évènement

climatique

Cette garantie concerne les égouts des voies publiques ou privées lorsqu’il y a une rupture

accidentelle ou un débordement exceptionnel d’égout non dus à un évènement climatique.

• Des infiltrations par les joints d’étanchéité aux pourtours des installations sanitaires et au

travers des carrelages



102

L’expression « par les joints d’étanchéité aux pourtours des installations sanitaires » est

d’interprétation stricte : elle suppose l’existence d’un joint et ne vise que les joints

horizontaux situés entre l’installation sanitaire et le mur.

L’expression « au travers des carrelages » signifie au travers des carreaux proprement dits,

mais également au niveau des jointures entre les carreaux que celles-ci soient poreuses ou

cassées. Cela s’applique pour les carrelages fixés aux murs et au sol, mais ne vise pas les

infiltrations au travers des parquets, linoléum, dalles, carreaux plastiques ou moquette.

• des dégâts des eaux subis dus à la faute d’un tiers

• Les frais engagés pour la recherche de fuites qui sont à l’origine d’un sinistre garanti à

l’intérieur des biens assurés, ainsi que des frais de remise en état des biens dégradés par ces

travaux de réfection

Le bris des glaces

Les biens garantis

Il s’agit :

• Des vitres des fenêtres, portes-fenêtres, baies vitrées, vasistas, fenêtres de toit, ciels vitrés,

marquises, cloisons de verre, garde-corps et séparations de balcon, portes intérieures ou

extérieures faisant partie des locaux assurés

• Des vitres d’inserts

Sont également garanties les vitres de poêle (à bois, charbon).

• Des miroirs scellés

Il s’agit des miroirs pouvant être assimilés à des biens immobiliers par destination, c’est-à-

dire qui ne peuvent être détachés de leur support sans l’endommager.

Un miroir fixé par un clou n’est pas un bien immobilier par destination et n’est pas garanti en

bris des glaces.

• Des vitraux

• Des panneaux solaires, des panneaux photovoltaïques

• Des aquariums

• Des vérandas déclarées au contrat

Les bow windows sont assimilés à une véranda.

Les matériaux garantis

• Le verre ordinaire.

• Les verres de sécurité (armés, trempés, feuilletés…).

• Les vitrages isolants thermiques.

• Les vitrages filtrants.

• Les verres soufflés.

• Les matières plastiques (polycarbonates, acryliques, polyesters, polychlorure de vinyle ou

PVC…).

Modalités d’applications de la garantie

S’il y a eu des dommages autres que le bris de vitre ou glace, et que ces dommages ont été

occasionnés par un évènement garanti par ailleurs (une tempête par exemple), la totalité du

sinistre doit être réglée au titre de cet évènement.

Sont également garanties les parties vitrées des portes de placards (en vitre ou en miroir) ainsi

que les cabines de douche fixées.

Les biens à l’extérieur ne sont pas garantis.



103

Le vol

Définitions

Le vol est la soustraction frauduleuse du bien d’autrui (article 311-1 du Nouveau

Code Pénal).

Le voleur s’arroge la détention matérielle d’une chose sans la volonté de son propriétaire. Le

vol est consommé même si les objets soustraits sont ensuite abandonnés ou détruits.

La tentative de vol se définit comme tout acte accompli en vue de commettre un vol qui a reçu

un commencement d’exécution mais qui a été suspendu ou manqué pour une cause

quelconque.

Conditions d’application de la garantie

Sont garantis le vol et la tentative de vol commis à l’intérieur des locaux privatifs clos et

couverts de l’assuré, dès lors que ce dernier peut en établir les circonstances détaillées.

Le vol peut avoir été commis notamment par:

• effraction,

• escalade : l’escalade est l’introduction par une ouverture située en étage. Il peut s’agir d’une

fenêtre, d’un balcon. Il n’y aura pas effraction si l’ouverture n’était pas fermée,

• fausse clé : sont considérées, à titre d’exemple, comme des fausses clés, les crochets, passe

partout, clés imitées, contrefaites.

• maintien clandestin dans les lieux,

• menaces, violences ou intimidation de l’assuré, son entourage ou toute personne à son

service : sont visés tous les coups et blessures, quel qu’en soit le résultat.

Les garanties Responsabilités civiles habitation

La responsabilité vis-à-vis des voisins et des tiers

La garantie porte sur les dommages corporels, matériels et immatériels causés aux voisins et

aux tiers par les bâtiments assurés, les aménagements et équipements à caractère immobilier

situés sur le terrain de l’assuré (clôtures, plantations…) et par le terrain lui-même.

La responsabilité vis-à-vis des bâtiments assurés

Il s’agit de garantir les dommages qui pourraient être causés à un tiers par les bâtiments

assurés.

Exemples :

• une tuile se détache du toit de l’habitation assurée et endommage une voiture stationnée

dans la rue,

• le mur de clôture de notre assuré s’écroule et endommage les plantations de son voisin.

Les Garanties Défense et Recours

Garantie défense amiable ou judiciaire

Cette garantie permet à l’assuré d’être défendu devant les tribunaux lorsqu’une responsabilité

assurée par le contrat est mise en cause.

En application de l’article L 121-2 du Code des Assurances, « l’assureur est garant des pertes

et des dommages causés par les personnes dont l’assuré est civilement responsable, en vertu

de l’article 1384 du Code Civil, quelles que soient la nature et la gravité des fautes de ces

personnes ».



104

Pour les enfants mineurs des assurés, il y a obligation légale de garantir les dommages qu’ils

causent même si ces derniers ont été causés intentionnellement.

Garantie recours amiable ou judiciaire

Cette garantie permet à l’assuré d’exercer un recours en vue d’obtenir la réparation financière,

amiable ou judiciaire :

• des dommages corporels qu’il subit,

• des dommages matériels qui sont causés aux biens assurés.

Le périmètre d’intervention de la garantie Recours est vaste.

Exemples de cas où la garantie recours peut être actionnée :

• un tiers, en visite chez l’assuré, endommage un bien mobilier (meuble, animal domestique,

objet de décoration…),

• alors qu’il fait du vélo, l’assuré est renversé par le chien d’un promeneur,

• le fils de l’assuré, piéton, est renversé par un véhicule,

• l’assuré est victime d’une agression corporelle,

• le fils de l’assuré fait une chute en se rendant à l’école, un camarade lui ayant fait un croche-

pied,

• l’assuré glisse sur le sol humide du supermarché dans lequel il s’est rendu pour faire ses

courses, et se blesse,

• dans la salle d’attente de son médecin, l’assuré se prend les pieds dans le tapis, chute et se

blesse.



105

9. Bibliographie

Livre et articles de recherche

Sur les modèles linéaires généralisés

-Generalized Linear Models, 2nd

Edition, P. McCullagh and J.A. Nelder

Réf. 72 MCC 89a

-Ill-conditioned Information Matrices, Generalized Linear Models and estimation if the

effects of acid rain, E. Smith, B. Marx, 1990

- Role of categorical variables in the multicollinearity in the linear regression model,

University of Munchen, 2007

- Revue Modulad, J. Confais. (indices de Belsley).

Sur le critère de sélection et méthodes de sélection de variables

-Bootstrap model selection, J. Shao, Journal of the American Statistical Association, Vol. 91,

No. 434, 1996

-Robust model selection in Generalized Linear Models, S. Müller, A. H. Welsh, 2008

-Complément: Model selection: a boostrap approach, A. M. Zoubir, 1999

-On model selection curves, International Statistical Review, S. Müller, A. H. Welsh, 2010

- Le critère BIC : fondements théoriques et interprétation, E. Lebarbier et T. Mary-Huard,

2004

-Zero-inflated truncated generalized pareto distribution for the analysis of radio audience data,

D. - L. Couturier, M. - P. Victoria – Feser

Mémoire utilisé pour le calcul du seuil d’écrêtement en Incendie et Attentat

-Surveillance du portefeuille des flottes automobiles d’AXA, V. Marpillat, Mémoire ISUP



106

Mémoires utilisés pour les méthodes de tarification

-Etude d’opportunité d’une tarification spécifique aux syndics en assurance immeuble, L.

Gendrey, Mémoire ISUP

-Tarification en assurance automobile, G. Lucas, Mémoire IMA

Aides des logiciels pour le modèle linéaire généralisé et la tarification

-Aide et documentation SAS

-Aide et documentation d’Emblem, logiciel de tarification du Cabinet Towers Watson

Documentation sur le produit Multirisques Habitation

-Guide Technique Habitation AXA



107

10. Table des figures et des tableaux

Figure 1. Triangle pour la mise en œuvre de la méthode Chain Ladder ................................. 13 Figure 2. Coûts moyens d’un sinistre pour différentes garanties. ........................................... 14 Figure 3. Fonction de répartition empirique de la charge d’un sinistre et charge cumulée,

hors incendie, attentat, catastrophes naturelles ....................................................................... 16

Figure 4. Prime pure moyenne suivant le segment de risque, sur les sinistres dépassant le

seuil d’écrêtement en Dégâts des Eaux. ................................................................................... 17

Figure 5. Fonction de répartition empirique de la charge d’un sinistre en Responsabilité

Civile et charge cumulée .......................................................................................................... 19 Figure 6. Prime pure moyenne suivant le fait d’avoir un enfant ou pas, sur les sinistres

dépassant le seuil d’écrêtement en Responsabilité Civile. ....................................................... 19 Figure 7. Graphiques des quantiles estimés en fonction des quantiles empiriques. ................ 21

Figure 8. Répartition des sinistres Incendies et attentats ......................................................... 23

Figure 10. Variables Enfant et nombre de pièces : Prime pure moyenne observée et

répartition des années police. .................................................................................................. 38 Figure 11. Variable Segment de risque en Dégâts des Eaux. Primes pures moyennes observées

en Dégâts des Eaux (courbe rouge) et au global (courbe bleue). ............................................ 39 Figure 12. Variable Enfant en Responsabilité Civile (RC). Primes pures moyennes observées

en RC (courbe rouge) et au global (courbe bleue). ................................................................. 40 Figure 13. Résidus de Pearson issus du modèle global. .......................................................... 56

Figure 14. Interactions résidence avec segment de risque et nombre de pièces avec segment

de risque ................................................................................................................................... 57 Figure 15. Primes pures moyennes estimées et observées par modalité dans l’ordre croissant

de prime observée ..................................................................................................................... 58 Figure 16. Evolution du critère AIC dans l’algorithme Forward sur critère AIC en Bris de

Glace ........................................................................................................................................ 59 Figure 17. Interaction inhabitation avec segment de risque. ................................................... 60 Figure 18. Résidus de Pearson issus du modèle Bris de Glace. ............................................... 61 Figure 19. Analyse de la prime pure moyenne en Incendie, en fonction de la présence d’insert,

sur périmètre restreint. ............................................................................................................. 62 Figure 20. Evolution de l’AIC lors de l’application de la méthode Forward en Responsabilité

Civile. ....................................................................................................................................... 63 Figure 21. Interaction âge avec Enfant en Responsabilité Civile : primes pures moyennes et

années police. ........................................................................................................................... 64 Figure 22. Résidus de Pearson (a) résidus du modèle intégrant les variables

comportementales .(b) résidus du modèle sans variables comportementales ......................... 65

Figure 23. (a)Ecarts aux marges en Responsabilité Civile en loi Gamma (b) Ecarts aux

marges en Responsabilité Civile en modèle Tweedie (c) Résidus en loi Gamma (d)Résidus

en modèle Tweedie ................................................................................................................... 66 Figure 24. Différences de primes pures moyennes en fonction du Surplus d’objets de valeur et

du surplus de capital. ............................................................................................................... 67

Figure 25. Distribution des résidus issus des modèles unique et par garantie ........................ 67



108

Figure 26. Evolution de la composante de mesure de robustesse selon le modèle. ................. 77 Figure 27. Convergence de l’estimation de l’erreur de prédiction .......................................... 79 Figure 28. Evolution des critères en base 1 suivant le modèle testé. ....................................... 81 Figure 29. Zoom sur les critères AIC et BIC pour les listes testées. ........................................ 82

Figure 30. Courbes des critères de sélection. .......................................................................... 86 Figure 31. Courbes des critères de sélection en couleur et courbe de sélection de modèles

(model selection curve) en trait épais noir. .............................................................................. 87 Figure 32. Courbe de sélection, définition des trois catheti. .................................................... 88

Tableau 1. Coefficients de mutualisation de la méthode sur-crête sur sous-crête, pour chaque

couple {garantie, segment de risque} ....................................................................................... 18

Tableau 2. Part de surcrête Incendie et attentat ...................................................................... 26

Tableau 3. Chronologie des franchises .................................................................................... 28 Tableau 4. Variables d'étude .................................................................................................... 30 Tableau 5. V de Cramer entre fait d'avoir de la sinistralité et variables ................................. 43 Tableau 6. V de Cramer entre variables comportementales .................................................... 45

Tableau 7. Ecarts en déviance, AIC et BIC pour la mesure de l’impact du zonier au global . 55 Tableau 8. Ecarts en déviance, AIC et BIC pour la mesure de l’impact des variables

comportementales au global .................................................................................................... 55 Tableau 9. Statistiques déviance, AIC et BIC dans les modèles avec interaction et sans

interaction ................................................................................................................................ 60

Tableau 10. Ecarts en déviance, AIC et BIC dans la mesure d’impact des nouvelles variables

.................................................................................................................................................. 64


vraisemblance et la mesure d’erreur quadratique. .................................................................. 75


vraisemblance et la mesure adaptée à la loi Gamma. ............................................................. 76

Tableau 13. Comparaison des critères de sélection sur les deux modèles. ............................. 79 Tableau 14. Comparaison des critères de sélection sur les deux modèles en base1. .............. 80

Tableau 15. Modèles testés ....................................................................................................... 80 Tableau 16. Valeurs des critères sur huit modèles testés. ........................................................ 81

mémoire présenté devant l’institut de statistique de l ... · mémoire d’actuariat -...

Documents