mise en place d’un modèle de scoring : application au
TRANSCRIPT
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
1
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
2
Mise en place d’un modèle de scoring :
application au churn dans le cas de la téléphonie
mobile.
Auteurs :
AKA Tano Michel
et
COFFI-AMANY Yoboua Parfait
Kevin.
Ingénieurs Statisticiens
Economistes.
Juin 2013.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
3
SIGLES ET ABBREVIATIONS
ALN : Adaptive Logic Network
BHHH : Bernd Hall Hall Hausman
CELL2CELL : 6ème plus grande compagnie de téléphonie aux
Etats-Unis
CHURN : Change and Turn
CLDV : Categorials and Limited dependent Variable
ENSEA : Ecole Nationale Supérieure de Statistique et
d’Economie Appliquée
HL : Hosmer Lemeshow
ISE : Ingénieur Statisticien Economiste
ROC : Rreceiving Operating Curve
SVM : Machines à Vecteurs de Supports
TDNN : Time Delay Neural Network
TFP : Taux de Faux Positifs
TVP : Taux de vrais Positifs
VIF : Variance Inflation Factors
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
4
LISTE DES ILLUSTRATIONS
Liste des tableaux
Tableau 1 : Comportement des clients suivant le nombre d'appels récemment fait vers le
service rétention client ........................................................................................................... 33
Tableau 2 : Comportement des clients suivant le nombre d’offres récentes de rétention client
acceptées ................................................................................................................................ 34
Tableau 3 : Indicateurs de détection des observations suspectes et seuils de tolérances ....... 40
Tableau 4 : Les résultats de la première estimation ............................................................... 43
Tableau 5: présentation du modèle 2 ..................................................................................... 44
Tableau 6 : resultats du test VIF ............................................................................................ 45
Tableau 7 : Présentation du modèle retenu ............................................................................ 46
Tableau 8 : Résultats du test de Hosmer-Lemeshow ............................................................. 47
Tableau 9 : Présentation des taux de prédiction ..................................................................... 48
Tableau 10 : Taux de prédiction pour la procédure de vérification ....................................... 50
Tableau 11 : rappel des resultats de l'estimation .................................................................... 51
Liste des graphiques
Graphique 1 : la courbe ROC du modèle retenu .................................................................... 49
Graphique 2 : présentation de la sensitivité et spécificité en fonction du seuil choisi........... 49
Liste des figures
Figure 1 : Illustration des différentes types de notations. ...................................................... 27
Figure 2 : Répartition de l’ensemble des clients de l’échantillon d’apprentissage sur les
différents segments de notation crédit. .................................................................................. 28
Figure 3 : Répartition des clients suivant leurs statuts en termes de churn pour chaque type
de notation. ............................................................................................................................. 29
Figure 4 : Répartition des statuts des clients suivant la situation matrimoniale et répartition
des clients mariés et non mariés suivant leurs statuts en termes de churn. ............................ 31
Figure 5 : Répartition des statuts des clients suivant leurs réponses aux offres faites via mail
................................................................................................................................................ 32
Figure 6 : Répartition des clients suivant leurs nombres de rapports d'incident effectués. ... 35
Figure 7 : Perceptron simplifié à fonction d’activation de Heaviside ................................... 65
Figure 8 : Réseau ADALINE à fonction d'activation linéaire ............................................... 66
Figure 9: Time Delay Neural Network – modèle générique .................................................. 69
Liste des équations
Équation 1 : spécification du modèle retenu : ........................................................................ 52
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
5
RESUME
Ce papier traite de la prédiction du churn en entreprise qui est un phénomène traduisant
le départ des clients d’une entreprise. Pour cette étude, nous nous sommes intéressés
au secteur des télécommunications. Nous avons utilisé un modèle logit pour cette
estimation et les variables explicatives retenues pour la prédiction sont : l’ancienneté
dans l’entreprise, les âges des deux premiers responsables du ménage du client, l’accès
à internet et le nombre d’offres de rétention client souscrit par le client étudié. Les
résultats obtenus nous ont permis de faire des recommandations à Cell2Cell : la société
étudiée. Ces résultats stipulent tout d’abord que les clients les plus anciens sont ceux
les plus susceptibles de quitter l’entreprise. Aussi, nous avons découvert que les jeunes
chefs de famille avaient tendance à inciter les membres de leur famille au churn et
Enfin, une multiplication d’actions anti-churn non ciblées peuvent provoquer l’effet
non recherché c’est-à-dire le départ des clients.
ABSTRACT
This paper aims at predicting the departure of a telecommunication company’s clients.
We used a logit model for the estimation of the model and the explanatory variables
retained for this exercise are: the client’s seniority in the company, the ages of the two
first heads of the client’s household, access to the internet and the number of customer
retention offers the studied client subscribed to. Our results suggest that first of all,
long-time customers are more likely to leave the company as compared to newer ones.
We also discovered that younger heads of households are more likely to invite their
members towards changing service providers. Finally, the study finds that
multiplication of not targeted client retention actions like repeated short messages can
lead to more client departure.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
6
SOMMAIRE
AVANT PROPOS ............................................................... Erreur ! Signet non défini.
SIGLES ET ABBREVIATIONS ............................................................................... 3
LISTE DES ILLUSTRATIONS ................................................................................ 4
RESUME ..................................................................................................................... 5
ABSTRACT ................................................................................................................. 5
INTRODUCTION ...................................................................................................... 7
CHAPITRE 1 : CADRE CONCEPTUEL ET REVUE DE ............................... 11
LA LITTERATURE. .............................................................................................. 11
I- DEFINITION DE CONCEPTS .............................................................................................. 11
II- REVUE THEORIQUE : PRESENTATION DES METHODES DE SCORING .............. 12
III- REVUE EMPIRIQUE ........................................................................................................ 22
CHAPITRE 2 : ANALYSE DES CARACTERISTIQUES DE LA CLIENTELE
CELL2CELL: UNE ETUDE PAR SEGMENTATION CLIENTS. ................... 26
I- PRESENTATION DES DONNEES DE L’ETUDE .............................................................. 27
II- ANALYSE DESCRIPTIVE. .............................................................................................. 27
CHAPITRE III : MODELISATION ECONOMETRIQUE ET PREDICTION
DU CHURN. ............................................................................................................. 37
I- PRESENTATION DE LA DEMARCHE METHODOLOGIQUE ........................................ 38
II- MISE EN ŒUVRE DE LA METHODOLOGIE POUR LE .............................................. 42
CAS CELL2CELL .......................................................................................................................... 42
CONCLUSION ET RECOMMANDATIONS ....................................................... 55
BIBLIOGRAPHIE ................................................................................................... 57
ANNEXES ................................................................................................................. 59
TABLE DES MATIERES ........................................................................................ 72
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
7
INTRODUCTION
Contexte et justification
Toutes les entreprises, de nos jours, quelques soient leurs secteurs d’activité,
développent continuellement des stratégies avec pour but de gagner la plus grosse part
de la clientèle visée. Ce faisant, elles cherchent à agrandir leur cercle d’influence en
attirant de nouveaux clients qui viendront se greffer à la clientèle déjà existante.
Cependant, d’autres problèmes spécifiques à la perte de clients surviennent
éventuellement et auxquels les entreprises doivent prendre en compte dans leur
stratégie markéting. Ces problèmes sont parfois notamment dus à l’absence
d’innovation provoquant le départ de certains clients vers d’autres entreprises qui elles,
offrent des produits plus intéressants ou, tout simplement, que les clients préfèrent.
Aussi, il apparait moins couteux de maintenir les clients déjà acquis que de rechercher
de nouveaux clients. Cela se vérifie avec les travaux de Dawkins et Reichheld qui
montrent que, retenir un client coûterait jusqu'à cinq fois moins cher que d'en conquérir
de nouveaux. En l’occurrence, il ressort de leur étude qu’un programme de fidélisation
diminuerait le taux d'attribution de 8%.
Le défi majeur des organisations est donc de détecter les personnes ayant l’intention
de les quitter afin d’anticiper leur départ et de les retenir via des actions anti-attritions
adéquates.
En Côte d’ivoire, l’intérêt qu’il y a à s’intéresser au secteur de la téléphonie mobile
n’est plus à démontrer. En effet, depuis l’entrée sur le marché ivoirien de la première
entreprise offrant de tels services en 2002, une concurrence de plus en plus forte s’est
installée dans ce secteur. Ceci est dû au fait que les pays africains forment un fort
potentiel de clientèle pour les entreprises de ce secteur. Ainsi, de 2002 à 2012, six
nouvelles entreprises ont fait leur entrée sur ce marché. L’état de la concurrence assez
avancée est perceptible par l’effet des stratégies markéting de ces entreprises sur la
clientèle. Cette situation présente des avantages et des inconvénients puisque même si
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
8
elle contribue à rendre impossible les tarifications purement monopolistique au grand
bonheur des consommateurs, elle rend difficile d’accès les données détaillées sur le
secteur et nécessaires à la réalisation des études empiriques. Devant cette difficulté,
nous avons choisi de présenter le cas de la compagnie Cell2Cell qui est la 6ème
compagnie de téléphonie aux Etats Unis avec environ 10.000.000 de souscripteurs.
Problématique
Les agents économiques recherchent continuellement à accroitre leur satisfaction. De
ce fait, ils n’hésitent pas à changer d’attitude vis-à-vis d’un bien lorsqu’ils y trouvent
un quelconque intérêt. Un individu peut donc substituer un bien qu’il avait l’habitude
d’acheter à un autre ou tout simplement changer de fournisseur pour un même bien
toujours s’il y va de son intérêt. Cet état de fait est désavantageux pour certaines
entreprises puisqu’il induit des pertes de part de marché par ces dernières. De tout
temps, donc, les entreprises ont cherché à mener des actions pour détecter, gérer et
réduire leurs risques de pertes dues au départ délibéré des clients. Intrinsèquement, ces
actions présentent des enjeux très importants puisqu’il y va du résultat de l’entreprise.
En ce sens, il serait inadmissible de mener de telles politiques en se basant sur la seule
intuition ou du moins sur l’expérience acquise au fil des années. Ainsi, mettre en œuvre
une stratégie plus élaborée est d’autant plus important que des actions mal ciblées,
c’est-à-dire menées sur des personnes ne présentant pas des symptômes de départ,
puissent pousser ces dernières à quitter l’entreprise. Cet enjeu a été compris par les
managers et, de plus en plus, des méthodes objectives sont utilisées pour identifier le
risque d’attrition. En l’occurrence, les méthodes les plus utilisées reposent sur le
scoring. Dans le cadre de notre travail, nous nous demandons quel modèle scientifique
choisir afin de, non seulement, prédire le churn, mais aussi et surtout indiquer les
bonnes actions à mener face à un risque détecté.
Objectifs de l’étude
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
9
L’objectif général est de mettre en œuvre un modèle de scoring permettant d’affecter
un score à chacune des unités statistiques de la population et de les classer selon leur
propension à « churner ».
Plus spécifiquement, il s’agira :
Détecter, à partir d’une revue de la littérature, les variables généralement
utilisées et à même d’améliorer la prédiction du churn en téléphonie ;
de déterminer une fonction de scoring qui soit caractéristique du comportement
des clients de la société de téléphonie choisie ;
prévoir à partir de cette fonction, le risque de churn ;
proposer des stratégies de fidélisation de la clientèle pour l’entreprise Cell2Cell.
Annonce du plan
Dans le but de répondre à ces objectifs, ce rapport est organisé en trois (03) chapitres.
Le premier chapitre précise le cadre conceptuel, théorique et empirique. D’une part, il
présente les définitions de concepts relatifs au thème de l’étude et qui seront utilisés
tout au long de ce mémoire. D’autre part, il met en exergue les fondements
économiques théorique et empirique qui constituent la base de la problématique
évoquée. Dans le deuxième chapitre, un diagnostic succinct sera effectué ayant pour
but d’analyser le churn en se basant sur les caractéristiques de la population. Et enfin,
le troisième chapitre montre l’intérêt d’utiliser un modèle de scoring dans le cas de
notre étude et présente les différentes étapes de mise en œuvre du modèle retenu avant
d’entamer, après examen de l’ensemble des observations, l’analyse économétrique à
proprement dit.
Nous présentons ci-après l’illustration des différentes étapes de notre rapport :
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
10
Introduction
Chapitre 1 : CADRE NOTIONNEL ET REVUE DE LA LITTERATURE.
Chapitre 2 : ANALYSE DES CARACTERISTIQUES DE LA
CLIENTELE CELL2CELL: UNE ETUDE PAR SEGMENTATION- CLIENTS
Chapitre 3 : MODELISATION ECONOMETRIQUE ET PREDICTION
DU CHURN.
Conclusion
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
11
CHAPITRE 1 : CADRE CONCEPTUEL ET REVUE DE
LA LITTERATURE.
Ce chapitre a pour but de dresser un cadre définitionnel de concepts qui seront utilisés
de façon répétée tout au long de l’étude afin d’éviter toute ambiguïté. En outre, nous
ferons le point sur l’existant des théories économiques et des travaux empiriques
récents relatifs à la problématique.
I- DEFINITION DE CONCEPTS.
I-1 Le concept de Churn.
Le mot Churn est un mot contracté de l’expression « change and turn » qui exprime
le taux de déperdition ou le taux d’attrition de clients pour une entreprise.
Ainsi, selon Wei et Chiu (2002), le churn des clients en télécommunication mobile
(bien que pouvant concerner certaines fois d’autres industries) désigne le « mouvement
des souscripteurs d’un fournisseur à un autre ».
I-2 Le scoring.
Le scoring est un outil d'aide à la décision. Son utilisation fournit des réponses à des
questions comme : " Comment constituer un fichier client donnant le meilleur résultat
en termes de rentabilité (ou de chiffre d'affaires) pour une entreprise ? ", " Comment
fidéliser des clients déjà acquis et éviter de les perdre ? ", " Ce client présente-t-il un
risque en termes de remboursement ou de paiement ? ", etc.
Ainsi, à partir d’un système de notation, il permet de déterminer si X (le client) possède
des caractéristiques susceptibles de prédire s'il va rentrer dans un cas favorable, acheter
un produit, continuer à consommer des produits de l'entreprise, honorer régulièrement
ses échéances, etc. Trois éléments fondamentaux régissent le calcul de ces notes : il
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
12
s’agit des données, des variables et des méthodes. En effet, les données renferment les
informations sur le client ou prospect : nom, prénom, coordonnées, sexe, ainsi que les
informations recueillies au cours de sa relation avec l'entreprise (type de produits
achetés, fréquence et montant des achats dans le cadre d'une activité commerciale,
crédits en cours, salaire, comportements d'achat des produits...). En ce qui concerne
l’utilisation des variables en scoring, Elle consiste en la détermination des variables
fondamentales qui permettent d'expliquer un phénomène. La méthode, elles, aide en la
définition des meilleurs indicateurs à utiliser pour l’étude scoring. Cela suppose que
l’on dispose d'informations pertinentes, ce qui implique un travail en amont pour bien
définir les données qui vont permettre d'atteindre l’objectif visé, d'où la nécessité de
trouver les bonnes informations par l’analyse de la base de données clients, mais aussi
de savoir construire de façon méthodologique un modèle d'exploitation de ces données
et variables.
Nombreux sont les outils qui permettent d'effectuer ces calculs de scoring. Nous
passerons en revue certains de ces outils dans la partie suivante consacrée à la revue
théorique.
II- REVUE THEORIQUE : PRESENTATION DES METHODES DE
SCORING.
Cette revue sera axée sur la présentation des différentes méthodes de scoring qui ont
été développées au fil des années en précisant éventuellement leurs conditions de mise
en œuvre.
Dans ce papier, les modèles que nous choisissons de présenter sont, entre autres, la
régression logistique, les réseaux de neurones, les arbres de décision, le « random
forests » et les machines à vecteurs de supports.
Notons cependant que nous reviendrons ultérieurement, dans le troisième chapitre, sur
certain des modèles qui feront l’objet de notre approche méthodologique, en y
présentant plus ou moins en détaille les différentes étapes de mise en œuvre.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
13
II-1 Les techniques les plus utilisées pour la prévision du churn.
II-1-1 La régression logistique.
En général, les différentes étapes à suivre dans une démarche de modélisation sont :
1. Choisir la forme de la fonction.
2. Estimer les paramètres du modèle à partir d'un échantillon Ω.
3. Évaluer la précision des estimations.
4. Mesurer le pouvoir explicatif du modèle.
5. Vérifier s'il existe une liaison significative entre l'ensemble des variables
descriptives et la variable dépendante.
6. Identifier les variables descriptives pertinentes dans la prédiction de Y, et
abandonner celles qui ne sont pas et/ou celles qui sont corrélées à d’autres variables
déjà prises en compte.
7. Mesurer l'influence de chaque observation, au besoin détecter celles qui peuvent
avoir une influence exagérée au point de fausser les résultats (outliers, valeurs
extrêmes, valeurs aberrantes, etc.).
8. Pour un nouvel individu à classer, déterminer la valeur de la probabilité π de
réalisation de l’évènement étudié (ici le churn) à partir des valeurs prises par les X.
Les modèles logit polytomiques constituent une famille de modèles économétriques
adaptés au cas où la variable à expliquer est une variable qualitative. Il en est ainsi, par
exemple, de la catégorie socioprofessionnelle, du mode de transport, du statut
d’occupation du logement, du lieu de résidence, etc. Le vaste champ d’application de
ces modèles et surtout leur capacité à rendre compte des phénomènes étudiés,
justifie toute l’attention qui leur est accordée. Desjardins en 2005 définissait la
régression logistique comme un outil d’ajustement d’une surface de régression à des
données dans le cas où la variable dépendante est dichotomique. De fait, la régression
logistique binaire est un modèle de prédiction des valeurs d’une variable dépendante à
partir de variables explicatives de type continue et/ou booléen. De par son caractère
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
14
robuste, cette technique est appliquée dans plusieurs domaines notamment la
médecine, la banque assurance, le marketing, etc.
La méthode d'estimation de choix des « Categorials and Limited Dependent
Variables » (CLDV) est la Méthode du Maximum de Vraisemblance. Pour cette
estimation, il convient, tout d’abord, de bien identifier la fonction de répartition
de la variable expliquée ou sa fonction de densité. Cependant, compte tenu de la
nature qualitative des variables, recours est fait à des hypothèses sur la distribution
des erreurs en utilisant une approche par les variables latentes.
Les quatre algorithmes le plus souvent utilisés sont la méthode Steepest Ascent, la
méthode de Newton-Raphson, la méthode de Scoring et la méthode de Bernd-Hall-
Hall-Hausman (BHHH).
Régression Logistique Binaire - Principe et estimation.
Dans le cadre de la régression logistique binaire, la variable dépendante Y ne prend que
de deux modalités : o et 1. Nous cherchons à prédire correctement les valeurs de Y et,
pour chaque individu, à quantifier la probabilité à appartenir à l’une ou l’autre des
classes.
Hypothèses fondamentales.
Les hypothèses fondamentales inhérentes à la régression logistique constituent la base
du calcul des probabilités conditionnelles P(Y = yk/X), et concernent la frontière induite
pour distinguer les classes de l’espace de représentation.
Mathématiquement, nous avons :
( )* ( / )( / )
( )
k kk
P Y y P X Y yP Y y X
P X
Et d’après la formule de probabilité totale
( )* ( / )( / )
( )* ( / )
k kk
k k
k
P Y y P X Y yP Y y X
P Y y P X Y y
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
15
Ainsi, dans le cas de deux classes, la comparaison des probabilités d’appartenance à
ces classes est effectuée par le calcul du rapport :
( 1/ ) ( 1) ( / 1)*
( 0 / ) ( 0) ( / 0)
P Y X P Y P X Y
P Y X P Y P X Y
Le premier terme de ce produit est facile à estimer à partir du moment où l’hypothèse,
selon laquelle la population est échantillonnée par un tirage aléatoire indépendamment
des classes d'appartenance des individus, est faite. Cependant, c’est le second terme
qui fait l’objet d’attention, et c’est sur celui-ci que notre hypothèse fondamentale
portera.
Ainsi, la régression logistique suppose que
0 1 1 2 2
( / 1)ln( ) ' * * ... *
( / 0)J J
P X YX b b b X b X b X
P X Y
Cette hypothèse couvre une large palette de lois de distribution des données : la loi
normale (comme pour l'analyse discriminante); les lois exponentielles ; les lois
discrètes ; les lois Beta ; les lois Gamma et les lois de Poisson. De fait, la régression
logistique a théoriquement un plus large champ d’application.
Notons également que P(Y=1/X) et X’b permettent de scorer les individus, tout en les
classant selon les probabilités d’appartenance à leurs classes. La règle de décision est
formulée comme suit :
Si
( / 1)1
( / 0)
P X Y
P X Y
, alors Y=1.
En d’autres termes, si X’b>0, alors Y=1.
Estimation des paramètres b par le maximum de vraisemblance et tests de
significativité.
A ce niveau, les paramètres du modèle sont estimés par le maximum de vraisemblance.
Ce faisant, il est important de connaitre la loi de distribution de la probabilité P (Y/X).
Y étant binaire, suit ipso facto une loi de Bernoulli.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
16
Tests de significativité.
La significativité des coefficients, de même que celle d’un bloc ou de l’ensemble des
coefficients peuvent être testées à partir de deux approches : le test du rapport de
vraisemblance permettant de comparer les vraisemblances de deux modèles Mr et Ms
comportant respectivement r et s variables explicatives et où le modèle Mr est une
extension du modèle Ms (r>s), et celui de Wald s’appuyant sur la normalité
asymptotique des coefficients. Cependant, lorsque nous nous limitons dans le cas où
le nombre d’observations est considérable, alors les deux approches fournissent des
résultats cohérents. Ce qui n’est pas toujours le cas lorsque le nombre d’observations
est faible.
Les données à analyser ultérieurement dans la partie empirique se situant dans le
premier cas, nous présentons uniquement la théorie relative au test de Wald d’autant
plus que celui-ci, contrairement au test du rapport de vraisemblance, présente
l’avantage de fournir dans l’immédiat une gamme d’informations notamment sur les
variables explicatives après l’estimation du modèle complet.
Ainsi, les paramètres étant estimés par la méthode du maximum de vraisemblance, ils
sont asymptotiquement normaux. Les tests de significativité s’effectuent aisément par
la connaissance de la matrice de variance covariance des coefficients. Cette matrice est
l’inverse de la matrice hessienne qui est de la forme :
H=X’VX,
Où X est la matrice des données de dimension n × (J + 1), la première colonne
correspondant à la constante ; V est une matrice diagonale de taille n×n, composée des
valeurs de π(ω)×(1−π(ω)), les probabilités π(ω) étant obtenues après estimation des
paramètres.
Ainsi, nous pouvons former la matrice hessienne H de taille (J + 1) × (J +1),
Par suite, la matrice de variance covariance des coefficients s’écrit :
1H
A présent, nous pouvons présenter les différents tests de Wald relatifs aux coefficients.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
17
S’agissant du test de nullité d’un des coefficients (soit le jième coefficient), le test est
effectué à partir de la statistique de Wald Wj suivant, sous l’hypothèse nulle H0, une
loi du χ2 à 1 degré de liberté et se formulant comme suit :
2
2
j
j
j
b
bW
Où
2
jb
est la variance du coefficient jb
lue sur la diagonale principale de la
matrice de variance covariance de coefficients
.
Intrinsèquement, l'intervalle de confiance associé au niveau de confiance 1
− α est obtenu par les bornes :
1 / 2 *j b jb u
Où u1−α/2 est le fractile d'ordre 1 – α/ 2 de la loi normale centrée réduite.
S’agissant du test de la nullité simultanée de q coefficients, la statistique de Wald
utilisée1 est sous sa forme généralisée :
' 1
( ) ( )( )( ) * *q qqqW b b
Où ( )qb
est un vecteur des coefficients à tester (avec q<J) et
1
( )q
la sous matrice
de variance covariance associée à l’ensemble des coefficients.
Enfin, pour tester la significativité globale des coefficients, la statistique de Wald
utilisée, sous l’hypothèse nulle H0 : b1= b2=…= bJ=0, suit une loi du χ2 à J degrés de
liberté et s’écrit :
' 1
( ) ( )( )( ) * *J JJJW b b
En ce qui concerne l’évaluation d’un modèle logit, il est abordé en fin de document
dans l’annexe 4.
II-1-2 Les réseaux de neurones.
La méthode des réseaux de neurones est une tentative d’imitation du mécanisme
d’apprentissage qui se produit dans le cerveau humain. Dans la modélisation d’un
1 Cette statistique suit une loi du χ2 à q degrés de liberté.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
18
réseau de neurones, des données sont introduites en entrée dans le modèle pour être
ensuite combinées dans une fonction dite combinatoire telle la fonction somme. Cette
fonction est également utilisée en entrée d’une fonction d’activation qui produit une
réponse envoyée en entrée d’autres neurones. Cette méthode est en réalité conçue dans
le même esprit que la régression logistique en ayant toutefois un plus : elle peut
contenir plusieurs sorties intermédiaires dites couches cachées.
La mise en œuvre d’une telle méthode nécessite des conditions ou dispositions
préalables. Il s’agit du traitement des variables d’entrée. Si ces dernières sont
numériques, on applique une standardisation « Min-Max » pour avoir désormais en
entrée une nouvelle variable
𝑥 ′ =𝑥 − 𝑚𝑜𝑦(𝑋)
max(𝑋) − min(𝑋)
Avec𝑋 = (𝑥𝑖)𝑖=1,…,𝑛.
Si par contre elles sont catégorielles et ordonnées, on peut affecter à chaque catégorie
une valeur comprise entre 0 et 1. Sinon, si elles ne sont pas ordonnées, la méthode
précédente risque de conduire à des résultats erronés du fait de la création de voisinages
irréels. Chaque catégorie peut être alors traitée comme une variable booléenne.
Pour la prévision, le résultat sera dénormalisé et la valeur finale prédite sera
𝑥 = 𝑥′ ∗ (max(𝑋) − min(𝑋)) + min(𝑋).
Nous présenterons par la suite l’historique de la modélisation par réseaux de neurone
avant de présenter les différentes structures de réseaux de neurone les plus souvent
utilisés. Cette partie vise à exposer cette méthode parfois efficace sur certaines données
mais moins connue. Cette recherche sera sans doute utile en terme de revue pour des
études antérieures devant utiliser cette technique.
Historique des réseaux de neurones.
Pour l’histoire, il faut dire que les recherches menées dans le domaine du
connexionnisme ont démarré avec la présentation en 1943, par W. MCCulloch et W.
Pitts, d’un modèle simplifié de neurone biologique communément appelé neurone
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
19
formel. Ils montrèrent également théoriquement que des réseaux de neurones formels
simples peuvent réaliser des fonctions logiques, arithmétiques et symboliques
complexes.
En 1949, D. Hebb initie, dans son ouvrage "The Organization of Behavior", la notion
d'apprentissage. Deux neurones entrant en activité simultanément vont être associés
(c'est-à-dire que leurs contacts synaptiques vont être renforcés). On parle de loi de
Hebb et d'associationnisme.
En 1958, F. Rosenblatt développe le modèle du Perceptron. Qui est un réseau de
neurones inspiré du système visuel. Il possède deux couches de neurones : une couche
de perception (sert à recueillir les entrées) et une couche de décision. C’est le premier
modèle pour lequel un processus d’apprentissage a pu être défini.
S’inspirant du perceptron, Widrow et Hoff, développent, dans la même période, le
modèle de l'Adaline (Adaptive Linear Element). Ce dernier sera, par la suite, le modèle
de base des réseaux de neurones multi-couches.
En 1969, Les recherches sur les réseaux de neurones ont été pratiquement abandonnées
lorsque M. Minsky et S. Papert ont publié leur livre « Perceptrons » (1969) et démontré
les limites théoriques du perceptron, en particulier, l’impossibilité de traiter les
problèmes non linéaires par ce modèle.
En 1982, Hopfield développe un modèle qui utilise des réseaux totalement connectés
basés sur la règle de Hebb pour définir les notions d'attracteurs et de mémoire
associative. En 1984 c’est la découverte des cartes de Kohonen avec un algorithme non
supervisé basé sur l'auto-organisation et suivi une année plus tard par la machine de
Boltzman (1985).
Une révolution survient alors dans le domaine des réseaux de neurones artificiels : une
nouvelle génération de réseaux de neurones, capables de traiter avec succès des
phénomènes non-linéaires : le perceptron multicouche ne possède pas les défauts mis
en évidence par Minsky. Proposé pour la première fois par Werbos, le Perceptron
Multi-Couche apparaît en 1986 introduit par Rumelhart, et, simultanément, sous une
appellation voisine, chez Le Cun (1985). De nos jours, l’utilisation des réseaux de
neurones dans divers domaines ne cesse de croître. Les applications en sont multiples
et variées.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
20
Pour plus de détails, nous présentons les différents types de réseaux de neurones dans
l’annexe 3.
Pour terminer, il importe de souligner que les réseaux de neurones ont pour avantage
de permettre de modéliser de grandes variétés de comportements et d’être robuste aux
données bruitées. L’inconvénient est que sa mise en œuvre, qui passe par un
apprentissage à partir d’un échantillon d’individus, peut être longue. En plus, ses
résultats sont assez opaques et donc difficiles à interpréter, à la différence de la
méthode des arbres de décision.
II-1-3 Les arbres de décision.
Il s’agit d’une méthode intuitive et populaire dans laquelle la variable cible est
catégorielle. Les variables prédictives, elles, peuvent être catégorielles ou continues.
Un arbre de décision est constitué de nœuds de décision relié entre eux par des branches
orientées.
Chaque branche joint donc deux nœuds dont l’un est appelé parent et l’autre enfant.
En plus, chaque nœud est connecté à un et un seul nœud parent sauf le nœud racine
mais peut être connecté à un nombre allant de 0 à n nœuds enfants.
Comme toutes les méthodes supervisées, un arbre de décision travaille sur une variable
cible avec plusieurs variables prédictives.
• Chaque nœud non-feuille correspond à une variable prédictive.
• Chaque nœud feuille correspond à la variable cible.
• Chaque branche correspond à une valeur pour la variable prédictive du nœud parent
(ou un ensemble de valeurs).
La mise en œuvre de cette méthode passe le plus souvent par l’élaboration d’un
algorithme d’arbre de décision dont le but est de créer un ensemble de nœuds feuilles
qui soient les plus pures2 possibles. L’autre principal but d’un algorithme d’arbre de
décision est la constitution de branches qui soient autant que possible très courtes et en
2 Un nœud feuille est pur si les valeurs de la variable cible sont les mêmes pour tous les enregistrements
de ce nœud, autrement dit si le chemin (donc le n-uplet de valeurs pour le n-uplet de prédicteurs) détermine la
valeur de la variable cible.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
21
très petit nombre. Pour chaque nœud, on choisit la variable qui, par ses catégories,
sépare le mieux les individus en fonction des catégories de la variable cible. Le choix
du nœud est donc fonction du choix des branches du nœud. L’opération est réitérée
jusqu’à ce qu’elle ne soit plus possible ou plus souhaitable (selon des critères
dépendant du type d’arbre).
Les feuilles ainsi construites sont toutes majoritairement constitués d’individus d’une
seule classe. La branche allant de la racine à une feuille constitue une règle de
classement. L’ensemble des règles constitue le modèle. La classe allouée d’une feuille
est déterminée sur la base de la classification de l’ensemble d’apprentissage.
L’avantage des arbres de décision est qu’ils fournissent une procédure de classification
et de prédiction aisément interprétable par des non experts. Sa seule grande concurrente
est la régression logistique présentée précédemment, cette dernière étant préférée dans
la prédiction du risque en raison de sa robustesse.
II-2 Autres techniques utilisables.
II-2-1 les random forests.
Introduites par Leo Breiman en 2001, les forêts aléatoires sont une méthode statistique
non paramétrique qui s'avère être très performante dans de nombreuses applications,
aussi bien pour des problèmes de régression que de classification supervisée. Elles
présentent également un bon comportement sur des données de très grande dimension,
pour lesquelles le nombre de variables dépasse largement le nombre d'observations.
L'algorithme des forêts d'arbres décisionnels effectue un apprentissage sur de multiples
arbres de décision entraînés sur des sous-ensembles de données légèrement différents.
En pratique, il faut retenir que la décision communiquée par un modèle « random
forest » aux utilisateurs est une moyenne des différentes réponses données par les
arbres composant la forêt aléatoires.
Ce type de processus présente deux principaux inconvénients : premièrement, le
nombre d’arbres doit être fixé a priori et deuxièmement, l’interpretabilité et les
capacités d’analyse offertes par les classifieurs de type arbres de décisions sont perdues
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
22
car d'un point de vue théorique, les analyses des « random forests » sont difficiles, du
fait de la complexité de l'algorithme utilisée pour sa résolution.
Ces constatations soulèvent alors deux questions : ce type de forêts aléatoires contient-
elle des arbres de décision qui détériorent les performances de l’ensemble ? Si oui, ces
arbres présentent-ils des propriétés particulières qui pourraient expliquer cette perte de
performances ? A cet effet, Robin Genuer & Sylvain Arlot abordent en 2011 cette
problématique comme un problème de sélection de classifieurs, et montrent que de
meilleurs sous-ensembles d’arbres de décision peuvent être obtenus en utilisant des
méthodes sous-optimales de sélection de classifieurs. Les résultats prouvent
notamment qu’un algorithme d’induction de forêts aléatoires "classique" n’est pas la
meilleure approche pour produire des classifieurs de type forêts aléatoires qui soient
performants.
II-2-3 Les machines à vecteurs de supports (SVM).
L’approche SVM (Vapnik 1998) tente de séparer des clients à fort risque de fuite des
clients moins risqués dans l'ensemble des clients par l'hyperplan optimal qui garantit
que l’écart entre les deux classes soit maximal. Les nouveaux clients pour lesquels
nous devons détecter le churn, pourront ainsi ne pas être trop similaires à ceux
employés pour trouver l'hyperplan mais être tout de même situés franchement d'un côté
ou l'autre de la frontière. La force des SVM tient à leur simplicité de mise en œuvre
face à des problèmes difficiles et à des fondements mathématiques solides.
Passons par la suite à la revue d’une ensemble d’études sur le sujet traité afin de nous
faire une idée plus claire du processus que nous utiliserons pour l’élaboration de notre
modèle.
III- REVUE EMPIRIQUE.
Bon nombre de recherches explicatives et exploratoires ont été menées dans le but de
trouver les facteurs déterminants dans l’explication du churn. A cet effet, les travaux
de Rust & Zahorik (1993), de Li S. (1995), de Zeithaml, Leonard, & Parasuraman
(1996) et de Bhattacharya (1998) montrent que ces facteurs sont notamment les
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
23
attributs liés au service et les attributs démographiques. Ces recherches ont été
orientées dans différents domaines de l’industrie. Mais plus particulièrement pour ce
qui est du domaine de la téléphonie mobile, Kim et Yoon (2004) conclut que le
phénomène d’attrition dépend du niveau de satisfaction des clients par rapport aux
services fournis par l’entreprise, lesquels sont la qualité des appels, le niveau des prix,
la relation client, l’image de la marque, l’âge de souscription et le revenu du
souscripteur. Selon Kim et Yoon (2004), les entreprises de téléphonie auraient donc un
avantage à mener des actions pour booster le niveau de satisfaction des clients plutôt
que de mener des actions qui stimuleront la loyauté des clients. Par contre, selon
Gerpott, Ram, et Schindler (2001), la rétention, la loyauté et la satisfaction des clients
dans le domaine des télécoms sont inter-corrélées et que le prix, le bénéfice perçu et le
manque de quantité considérable de clients ont des effets significatifs sur la rétention.
Plus tard, Ahn, Han, et Lee (2006), à partir d’une étude exploratoire supposent quatre
hypothèses majeures susceptibles de provoquer le churn : il s’agit de l’insatisfaction
du client, de la variation des coûts, de l’usage des services et des caractéristiques du
client. L’effet de ces déterminants sur le churn est un effet indirect qu’ils appellent
effet de médiation nommé « customer status ». Ce dernier fournit le signal du churn
entre l’utilisation active des services et la suspension ou l’arrêt complet. Pour tester les
hypothèses, ils optent pour la mise en œuvre d’une régression logistique. Les résultats
montrent que l’insatisfaction du client telle que le nombre de plainte et la chute du taux
d’appel ont un impact significatif sur la probabilité de churn. Aussi, les programmes
de cartes de membre pour conserver la loyauté des clients ont un effet négatif
significatif sur la probabilité de churn. Plus surprenant, les grands utilisateurs des
services sont plus probables au churn, et les « customer status » ont un impact
significatif sur la probabilité de churn.
Seo, Ranganathan et Babad (2008) mettent plutôt l’accent sur les facteurs qui affectent
les variations des coûts et la satisfaction des clients, ainsi que les facteurs
démographiques comme l’âge et le genre. Ainsi pour expliquer, la rétention des clients,
ils utilisent un modèle de régression logistique binaire et un modèle hiérarchique
linéaire à deux niveaux. Ils aboutissent à deux résultats majeurs : le premier montre
que l’amélioration du plan de service, l’augmentation de la durée d’abonnement et
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
24
l’amélioration de la qualité de connexion sans fil sont positivement corrélées au
comportement de fidélisation du client. Aussi, les différentes catégories d’âge et de
genre affectent les comportements de rétention.
D’autres recherches sont allées plus loin en construisant des modèles de prévision du
churn sous la base de techniques statistiques.
Ainsi, Yan, Fassino et Baldasare (2005) vont essayer de mettre en œuvre un modèle
prédictif du churn de clients prépayés dans le domaine de la téléphonie mobile. Ils font
l’hypothèse fondamentale que si la plupart des clients appellent fréquemment d’autres
clients appartenant au même service et manifestant des signaux de départ, ils finiront
aussi éventuellement à présenter les mêmes signaux. Pour mener leur étude, ils
exploitent l’enregistrement détaillé des appels de Juillet à Août où ils définissent deux
catégories d’appels : les appels voisins directs (une personne appelant un client ou que
le client appelle) et les appels voisins indirects (une personne appelant au même
nombre que le client). Ils analysent donc les données en utilisant l’arbre de décision et
le réseau de neurones. Il en ressort pour le réseau de neurones que si le service client
contacte les 10% des clients avec les scores élevés dans le modèle, ils seront capables
d’identifier 20% de churners. Par un échantillon pris au hasard, la courbe de Lift est la
ligne diagonale. Aussi, le réseau de neurones l’emporte sur l’arbre de décision qui
exécute mal l’échantillon pour un taux de contacts élevés.
Autre modèle de prévision du churn dans le domaine des télécommunications a été
élaboré par Hung, Yen, et Wang (2006) à partir des techniques de datamining. En
utilisant la courbe de Lift comme critère d’évaluation de la performance du modèle, ils
ont comparé l’arbre de décision sans la segmentation, l’arbre de décision avec la
segmentation et le réseau de neurones dans leur prédiction du churn. Les prédictions
de la probabilité de churn s’appuyaient sur les six (6) derniers mois des transactions
des souscripteurs (Juillet-Juin). Les variables utilisées étaient celles liées aux
caractéristiques démographiques des clients (âge, genre, âge d’abonnement), les
payements et factures (honoraires mensuels, montant facturé, compte de payement en
retard), les enregistrements détaillés des appels (la durée des appels réseaux, le type
d’appels), et du service client (compte de changement de numéro de téléphone, compte
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
25
d’exclusion et de suspension). Les résultats montraient que l’arbre de décision sans la
segmentation était préféré à l’arbre de décision avec la segmentation, mais que le
réseau de neurones fournissait une meilleure performance que ces deux derniers. Cette
revue nous a permis d’avoir une idée plus ou moins précise sur les variables
généralement utilisées pour la modélisation du churn en télécommunication. Pour ce
qui est du choix du modèle à utiliser, il faut dire qu’il n’existe pas de méthode
absolument meilleure pour une telle étude mais le plus important c’est le respect des
différentes étapes de modélisation et l’assurance d’avoir de bonnes propriétés après sa
mise en œuvre. C’est ce qu’expliquent PHILIPPE Besse & BÉATRICE Laurent (2012)
dans leur article « Apprentissage Statistique : prévision et data mining » Nous avons à
priori implémenté deux méthodes la régression logistique et les réseaux de neurones.
Nous avons retenu pour finir la première puisqu’elle donne d’assez bons résultats et
est plus facile à interpréter et à présenter à un individu quelconque que les réseaux de
neurones. Ils fournissent une fonction de prédiction mais cette fonction n’est pas
traduisible, comme dans les arbres de décision, en un ensemble de règles intuitivement
compréhensibles3.
L’étude de la clientèle de l’entreprise étudiée nous a permis d’avoir certaines
appréhensions de certains phénomènes qui pourraient être caractéristiques de cette
population cible. A ce stade de l’analyse, nous préférons les énoncer en termes
d’hypothèses que nous infirmerons ou confirmerons par les résultats empiriques à la
fin de l’étude.
HYPOTHESES
Nous faisons les hypothèses suivantes dans le cadre de cette étude :
Hypothèse 1 : Un client avec une ancienneté importante au sein de l’entreprise est un
acquis, il faut donc axer les démarches marketing de rétention vers les nouveaux
clients.
3 LIAUDET Bertrand, cours de data mining, option ingénierie d’affaires et de projets – finance.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
26
Hypothèse 2 : L’accès à internet aux clients est un moyen important pour les fidéliser.
Hypothèse 3 : Répéter les actions de rétention envers les clients les encourage à rester
dans l’entreprise.
Dans le but de vérifier ces hypothèses, et de poursuivre l’atteinte des objectifs
préalablement fixés, nous débutons l’analyse du churn en scrutant les données à notre
disposition.
CHAPITRE 2 : ANALYSE DES CARACTERISTIQUES DE LA
CLIENTELE CELL2CELL: UNE ETUDE PAR SEGMENTATION
CLIENTS.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
27
Ce chapitre s’intéresse à l’analyse descriptive des clients ayant souscrit à un
abonnement dans la compagnie de téléphonie mobile et appartenant à l’échantillon
d’apprentissage.
I- PRESENTATION DES DONNEES DE L’ETUDE.
Les données utilisées pour cette étude proviennent d’une base de données de 78
variables4 issues du processus de recueil de données clients effectué par la société
Cell2Cell. Cell2Cell est la 6ème plus grande compagnie de téléphonie aux Etats-Unis
avec environ 10 millions de souscripteurs. Dans la base de données utilisée, les
montants moyens sont calculés sur la base d’observations faites sur une période de
mois sur les clients de Cell2Cell.
II- ANALYSE DESCRIPTIVE.
Le but de cette analyse est de comprendre les comportements des clients pris de
manière globale. A cet effet, l’analyse se fera par une approche de segmentation de
notre échantillon d’étude en fonction des comportements des clients.
II-1 Segmentation basée sur la notation crédit du client.
Partant du principe que tous les clients sont différents et que certains sont plus
profitables à l’entreprise que d’autres, il importe de déterminer les différents types de
clients. La segmentation basée sur la notation du client par rapport aux crédits
consommés est alors effectuée dans cette section, et constitue en quelques sortes une
étude préliminaire à la compréhension et à la détection du churn. Le but principal de
cette partie est de mettre en place un schéma de segmentation du client selon qu’il soit
churner ou pas, en s’appuyant sur la notation crédit du client. Les différents types de
notation sont présentés comme suit dans la Figure 1 par ordre d’importance:
Figure 1 : Illustration des différentes types de notations.
4 Voir annexe 1 pour la liste des variables
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
28
Source : base de données Cell2Cell.
Ces différents types de notes permettent d’apprécier la qualité des clients pris de
manière individuelle et de prévoir intuitivement si oui ou non le client présente des
signaux d’attrition.
La représentation ci-dessous (Figure 2) présente la répartition de l’ensemble des clients
constituant notre échantillon d’apprentissage sur les différents segments de notation
crédit.
Figure 2 : Répartition de l’ensemble des clients de l’échantillon d’apprentissage sur les différents
segments de notation crédit.
• credita : type de la notation crédit du client : A (plus forte note).
Credita
• creditaa : type de la notation crédit du client : AA (forte note).
Creditaa
• creditb: type de la notation crédit du client : B (bonne note).
Creditb
• creditc: type de la notation crédit du client : C (note moyenne).
Creditc
• Creditde : type de la notation crédit du client : DE (faible note)
Creditde
• Creditgy : type de la notation crédit du client : GY (très faible note)
Creditgy
• Creditz : type de la notation crédit du client : Z (plus faible note)
Creditz
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
29
Source : base de données Cell2Cell.
Cette figure montre en fait que sur un total de 40 000 clients dans l’échantillon
d’apprentissage, 17,15% ont une plus forte note (type A), 37,71% ont une forte note
(type AA), 16,79% ont une bonne note (type B), 10,17% ont une note moyenne (type
C), 11,81% ont une faible note (type DE), 2,22% ont une très faible note (type GY), et
enfin 4,14% ont une plus faible note (type Z). En résumé, nous déduisons de ce constat
que près de 81,82% des clients (pourcentage largement supérieur à 50%) appartenant
à notre échantillon ont une note supérieure à la moyenne. Cette première analyse
permet donc de prévoir un plus fort taux de rétention des clients par rapport au taux
d’attrition.
Pour voir ce qu’il en est en réalité, la Figure 3 suivante met en exergue, pour chaque
type de notation, la répartition des clients suivant leurs statuts en termes de churn.
Figure 3 : Répartition des clients suivant leurs statuts en termes de churn pour chaque type de notation.
17,155
37,7116,7875
10,17
11,815
2,22 4,1425
credita
creditaa
creditb
creditc
creditde
creditgy
creditz
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
30
Source : base de données Cell2Cell.
Ainsi, nous remarquons que la prévision faite précédemment n’est rien d’autre qu’une
illusion. En effet, dans le premier segment de crédit dénommé «credita», nous
observons que 47,53% des clients ayant eu la plus forte note ont prolongé leurs contrats
d’abonnement, et 52,46% l’ont suspendu. Cette structure de répartition des clients dans
ce premier segment est contre toute attente du fait de la nature de la notation, et se
répète de manière quasi identique dans les autres segments : nous observons
respectivement 48,78% de clients fidèles, c'est-à-dire qui désirent prolonger leurs
contrats d’abonnement, contre 51,21% de churners dans le deuxième segment
«creditaa», 47,68% de clients fidèles contre 52,31% de churners dans le troisième
segment «creditb», 53,17% de clients fidèles contre 46,82% de churners dans le
quatrième segment «creditc», 58,01% de clients fidèles contre 41,98% de churners
dans le cinquième segment «creditde», 50,56% de clients fidèles contre 49,43% de
churners dans le sixième segment «creditgy», et enfin 49,72% de clients fidèles contre
50,27% de churners dans le septième segment «creditz».
Plus spécifiquement, 79,92% de clients qui n’ont pas quitté l’entreprise ont une note
en deçà de la moyenne (type C) et 83,72% de churners ont une note supérieure à la
moyenne. Ce résultat est en adéquation avec certaines études faites par le passé. A titre
d’exemple et comme nous l’avons mentionné dans la revue de littérature, Ahn, Han et
0
10
20
30
40
50
60
70
credita creditaa creditb creditc creditde creditgy creditz
Churn 0
Churn 1
En pourcentage
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
31
Lee (2006) arrive à la conclusion selon laquelle les plus grands utilisateurs des services
offert par l’entreprise sont les plus probables au churn.
Ce résultat est confirmé par un test du khi-deux effectué dans la section 5 au premier
point.
II-2 Segmentation basée sur la situation matrimoniale.
La Figure 4 ci-dessous présente la répartition des statuts des clients suivant la situation
matrimoniale, et conjointement la répartition des clients mariés et non mariés suivant
leurs statuts en termes de churn.
Figure 4 : Répartition des statuts des clients suivant la situation matrimoniale et répartition des clients
mariés et non mariés suivant leurs statuts en termes de churn.
Source : base de données Cell2Cell.
L’analyse montre une distribution presqu’identique dans chaque groupe de clients
(clients fidèles et churners). En effet, parmi les clients fidèles (respectivement les
churners), il y a 63,08% (respectivement 63,85%) qui ne sont pas encore mariés et
36,92% (respectivement 36,53%) qui le sont. Ainsi, nous dénotons une différence
quasi-nulle dans la structure de la répartition des de ces deux groupes de clients.
0
10
20
30
40
50
60
70
0 1
Marrié
Churn 0
Churn 1
48,8
49
49,2
49,4
49,6
49,8
50
50,2
50,4
50,6
50,8
0 1
Churn
Marrié 0
Marrié 1
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
32
Par contre, en procédant par une approche inverse, l’analyse montre une différence
entre les hommes mariés et ceux non mariés dans leurs répartitions suivant leurs statuts
en termes de churn. De manière explicite, parmi les clients non mariés (respectivement
mariés), 49,7% (respectivement 50,3%) prolonge leur contrat d’abonnement et 50,5%
(respectivement 49,6%) sont churners. Ce résultat mitigé nous amène à émettre des
réserves sur la propension d’une telle variable à expliquer le churn. Pour ce qui est du
test de khi-deux de pearson (section 5-2), il révèle une indépendance entre le statut
matrimonial et le churn. Ainsi, seule la modélisation empirique nous permettra de
savoir exactement ce qu’il en est. Nous étudions par la suite le churn en fonction des
réponses aux offres par mail.
II-3 Analyse du churn en fonction des réponses aux offres par mail.
La Figure 5 ci-dessous illustre la répartition des statuts des clients suivant leurs
réponses aux offres faites via mail.
Figure 5 : Répartition des statuts des clients suivant leurs réponses aux offres faites via mail.
Source : base de données Cell2Cell.
A cet effet, la proportion de clients fidèles n’ayant pas répondu aux offres environne
61,4% tandis que celle des clients ayant répondu est estimée à 38,6%. En outre, la
0
10
20
30
40
50
60
70
0 1
Réponses aux offres faites via mails
Churn 0
Churn 1
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
33
proportion de churners n’ayant pas répondu aux offres est de 64,1% tandis que celle
des churners ayant répondu est de 35,9%. Ce résultat stipule en quelques sortes que le
fait pour le client d’accepter des offres de rétention lui-même implicitement à l’esprit
qu’il a la possibilité de churner. Mieux encore, cette dépendance est confirmée par le
test de khi-deux effectué à un degré de liberté (voir point 5-3 de la section) Les
entreprises en télécommunication le comprennent de plus en plus raison pour laquelle
elles essaient de prédire le churn afin de mieux cibler leurs interventions sur les clients
très probables churner et donc éviter d’influencer négativement les clients n’ayant pas
l’intention de churner par leurs offres.
II-4 Analyse du churn en fonction de la relation avec le service client.
Cette dernière partie de l’analyse descriptive, pour expliquer le churn, cherche à scruter
et à mettre en relief des informations à partie de la relation existante entre les individus
de l’échantillon d’étude et le service client.
Avant tout, Nous tenons à souligner qu’il est nécessaire de faire la différence entre
offres de rétention acceptées et offres par mail retenu car ces deux variables pourraient
porter à confusion.
Nous nous limiterons à l’analyse du nombre d’appels récemment effectués par les
clients en direction du service de rétention client, du nombre d’offres récentes du
service de rétention acceptées par les clients, et du nombre de rapports d’incidents
transmis par les clients.
Concernant le premier point, le Tableau 1 ci-dessous fait ressortir que, sur un total de
20 000 clients fidèles, environ 97,4% n’ont émis aucun appel vers le service de
rétention, soit un total de 19 485 clients fidèles. Ensuite, une part infime, soit 2,4% ont
eu à émettre un seule appel. Le pourcentage restant (0,4%) de clients montre que très
peu de clients ont émis plus de deux appels.
Tableau 1 : Comportement des clients suivant le nombre d'appels récemment fait vers le service
rétention client.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
34
Nombre d’appels récemment fait vers le service
rétention client
0 1 2 3 4 Total
Churn
0 19485 473 37 5 0 20000
1 18898 1020 70 9 3 20000
Total 38383 1493 107 14 3 40000
Source : base de données Cell2Cell.
Une analyse analogue relative aux churners montre que, sur un total de 20 000
churners, 94,5% n’ont émis aucun appel vers le service de rétention et 5,1% ont eu à
émettre un seule appel.
S’agissant du second point, le Tableau 2 ci-dessous montre que, sur un total de 20 000
clients fidèles, environ 98,6% n’ont accepté aucune offre récente provenant du service
de rétention, soit un total de 19 724 clients fidèles passifs aux offres. Ensuite, une part
infime, soit 1,3% ont eu à accepter une seule offre. La part restante (0,3%) de clients
montre que très peu de clients ont accepté plus de deux offres.
Tableau 2 : Comportement des clients suivant le nombre d’offres récentes de rétention client acceptées.
Nombre d’offres récentes de rétention client
acceptées
0 1 2 3 4 Total
Churn
0 19724 267 7 2 0 20000
1 19504 468 23 4 1 20000
Total 39228 735 30 6 1 40000
Source : base de données Cell2Cell.
Pour ce qui concerne les churners, sur un total de 20 000 churners, 97,5% n’ont accepté
aucune offre récente provenant du service de rétention et 2,3% ont eu à accepter une
seule offre ; la part restante des churners étant négligeable.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
35
Le dernier point, c'est-à-dire l’analyse du nombre de rapports d’incidents transmis par
les clients, est examiné en se référant à la Figure 6 suivante :
Figure 6 : Répartition des clients suivant leurs nombres de rapports d'incident effectués.
Source : base de données Cell2Cell.
Sur cette figure, nous pouvons voir que, la majorité des clients qu’ils soient des clients
fidèles ou des churners ont tendance à n’effectuer aucun rapport d’incidence pendant
leur période de souscription. En effet, nous observons que sur un total de 20 000 clients
fidèles (respectivement 20 000 churners), 95,4% (respectivement 95,8%) de clients
n’ont effectué aucun rapport d’incidence vers le service client. Aussi, comme le constat
précédent, seulement une faible part de clients pris dans l’échantillon d’apprentissage
(4,3% de clients fidèles sur l’ensemble des clients fidèles et 3,9% de churners sur
l’ensemble des churners) ont effectué un seul rapport d’incidence. La part restante pour
chaque groupe de clients étant négligeable : très peu de client (0,3% pour les clients
fidèles et 0,3% pour les churners) ont effectué plus de deux rapports d’incidence. Le
test du khi-deux pour l’étude de l’indépendance entre es deux variables révèle une
dépendance pour l’analyse à 4 degrés de liberté.
En somme, il résulte d’après les analyses effectuées ci-dessus que la comparaison des
caractéristiques des clients fidèles et celles des churners dénote une différence non
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 9 11
Nombre de rapports d’incident fait par le client
Churn 0
Churn 1
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
36
significative. En particulier, ce constat laisse transparaitre une complexité pour la suite
de l’étude, car de prime abord la séparation des deux groupes de clients à partir de leurs
caractéristiques se fait difficilement.
Face à cette apparente indépendance entre les variables retenues pour l’analyse de
segmentation clientèle et le churn, nous avons effectué des tests de khi-deux dans les
points précédents. Les tableaux pour ces tests sont en annexe (annexe 2), mais nous en
donnons les principaux résultats dans le point suivant.
II-5 Principaux résultats des tests de khi-deux.
II-5-1 Test entre le churn et la catégorie de crédit.
Pour ce test nous avons crée une variable catégorie de crédit codée de la manière
suivante : 1 pour la catégorie a, 2 pour « aa », 3 pour « b », 4 pour « c », 5 pour « de »,
6 pour « gy », 7 pour « z ». A l’issue du test du Khi-deux de Pearson nous avons une
statistique de 178,1299 à 6 degrés de liberté et une p-value nulle. Ceci montre qu’il
existe bien une dépendance entre la catégorie de crédit et le churn au seuil de 5%.
II-5-2 Test entre le churn et la situation matrimoniale.
Le test effectué est un test à un degré de liberté et il nous donne une statistique de
2.5240 avec une p-value de 0.112 ; ce qui révèle une indépendance entre les deux
variables au seuil de 5%.
II-5-3 Test entre le churn et la réponse ou non aux offres faites par mail.
Ici, nous effectuons toujours un test à un degré de liberté et la statistique de khi-deux
est de 32.004 avec une p-value nulle mettant ainsi en exergue une dépendance
statistique au seuil de 5% entre le churn et la réponse ou non aux offres par mail.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
37
II-5-4 Test entre le churn et le nombre d’appels au servie de rétention client
Ce test à 4 degrés de liberté révèle une dépendance statistique entre la variable churn
et la variable nombre d’appels au servie rétention client. La valeur de la statistique est
de 223.7055 et la p-value est nulle.
Dans la suite, nous chercherons à mettre en œuvre un modèle économétrique
permettant de prédire le churn avec un taux de classement acceptable : la prédiction se
fera en s’appuyant sur les caractéristiques des clients.
CHAPITRE III : MODELISATION ECONOMETRIQUE ET
PREDICTION DU CHURN.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
38
Avant l’application sur les données dont nous disposons, il importe d’expliquer la
démarche que nous envisageons d’utiliser dans la réalisation de cette étude qui nous le
rappelons, utilisera la régression logistique.
Pour cette modélisation, nous avons constitué à partir de la base de données deux
échantillons dont l’un a servi à la modélisation et l’autre à la validation du modèle.
En effet, cette subdivision est toujours souhaitable dès lors que nous voulons obtenir
une évaluation crédible des performances de notre modèle. Elle reste pour l’instant la
meilleure méthode et donc la plus usitée pour la prévision de phénomènes qualitatifs
même si en appliquant cette subdivision nous courons le risque de compromettre
l’apprentissage en lui soustrayant une partie des données porteuses d’informations.
Pour la modélisation, la démarche méthodologique adoptée contient cinq parties que
nous présenterons dans la section suivante.
I- PRESENTATION DE LA DEMARCHE METHODOLOGIQUE.
Comme nous l’avons mentionné précédemment, cette démarche sera articulée autour
des cinq étapes suivantes en ce qui concerne la détermination du modèle de prédiction
à utiliser pour détection du churn.
Etape 1 : Estimation à priori
A cette étape, nous estimons un modèle logit sur un ensemble de variables
sélectionnées à partir de la revue de littérature et d’un premier test de corrélation des
variables quantitatives de notre base de données. Nous passons ensuite à l’étape
suivante qui consiste en un diagnostic du modèle priori.
Etape 2 : Diagnostic du modèle
Lors de la modélisation précédente, certains outliers et autre observations influentes
ont été susceptibles d’affecter négativement la qualité de la régression. De ce fait, il
apparait important de les détecter et de les retirer à l’aide d’indicateurs objectifs qui
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
39
sont le résidu de Pearson (𝑟𝑖), le résidu de Pearson standardisé (𝑟𝑖𝑠𝑡𝑑). En plus des deux
indicateurs précedent, leverage noté (ℎ𝑖𝑖) permet d’identifier les observations avec une
valeur extrême sur une variable explicative (points avec puissance élevée). De manière
plus pratique, on utilise une distance appelée distance de Cook pour la détection des
outliers dans un modèle de régression logistique. Elle représente la différence entre les
coefficients estimés par le modèle et les valeurs qui auraient été obtenues si
l'observation i avait été exclue de l'analyse. Toutes les distances pour toutes les
observations doivent être du même ordre de grandeur ; si ce n'est pas le cas, il y a de
bonnes raisons de penser que la ou les observations respectives biaisent l'estimation
des coefficients de régression. Les formules de ces différents paramètres sont les
suivants :
𝑟𝑖 = (𝑦𝑖 − ��𝑖) √��𝑖(1 − ��𝑖)⁄ , avec ��𝑖 = 𝑃(𝑦𝑖|𝑥𝑖 , ��)
ℎ𝑖𝑖 = ��𝑖(1 − ��𝑖)𝑥𝑖𝑣𝑎𝑟(��)𝑥𝑖′
𝑟𝑖𝑠𝑡𝑑 =
𝑟𝑖
1−ℎ𝑖𝑖
𝐶𝑖 = 𝑟𝑖2ℎ𝑖𝑖 (1 − ℎ𝑖𝑖)
2⁄
Où :
𝑦 est la variable dépendante
𝑥 est le vecteur de variables explicatives
�� est le vecteur de coefficients estimés
Si |𝑟𝑖| > 2 ou si|𝑟𝑖𝑠𝑡𝑑| > 2, on conclut que l’individu i est outlier.
Si|ℎ𝑖𝑖| > 2𝑘/𝑛, on conclut que l’individu est un point avec puissance élevée.
Si|𝐶𝑖| > 4/𝑛, on conclut que l’individu i est un point influent, il peut avoir une
influence sur le coefficient��.
k représente le nombre de variables explicatives et n le nombre d’observations de la
base de données. Pour une meilleure compréhension de l’utilisation de cet outil de
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
40
détection, le tableau suivant donne une représentation plus synthétique du seuil
tolérable pour chacun des quatre indicateurs de détection précédemment présentés.
Tableau 3 : Indicateurs de détection des observations suspectes et seuils de tolérances.
Source : Cours d’économétrie des variables qualitatives, KANGA Désiré et KEHO Yaya, 2012.
Il importe, en outre, de savoir que la violation de l’un des seuils par une observation
n’entraine pas directement son retrait de la base d’estimation. Il faudrait, en effet, un
non-respect de deux ou plusieurs de ces critères de décision pour valoir à une
observation d’être retirée. Ce retrait se justifiée par le fait que les observations
concernées sont les plus à même de conduire à la non validité du modèle ou
d’influencer les coefficients estimés.
L’analyse du diagnostic du modèle et la régression sont deux étapes fortement
imbriquées puisque le modèle est ré-estimé après avoir retiré les points « suspects ».
Etape 3 : Qualité d’ajustement du modèle
L’une des conditions que doivent respecter les modèles type logit est l’absence de
multicolinéarité entre les variables du modèle. Nous effectuerons donc au niveau de
cette étape les tests de multicolinéarité afin de nous assurer du respect de cette
hypothèse de base. En sus, nous réaliserons le test d’adéquation de Hosmer Lemeshow
(HL) et nous terminerons cette étape par l’étude du pouvoir prédictif de notre modèle.
Pour l’analyse du problème de multicolinéarité, nous utilisons la statistique VIF
(Variance inflation factors) comme le conseillent Chatterjee et Hadi (2006). Cette
méthode est mise en œuvre en régressant chacune des variables explicatives sur les
autres. En effectuant le calcul (1 – R²) à partir de chacune des régressions opérées, il
Indicateurs Seuils
𝒓𝒊𝒔𝒕𝒅 2
𝒓𝒊 2
𝒉𝒊𝒊 2𝑘/𝑛
𝑪𝒊 4/𝑛
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
41
est alors possible de savoir quelle part de la variance d’une variable explicative est
indépendante des autres variables explicatives, le calcul (1/(1-R²)) permettant alors
d’obtenir une statistique « VIF » pour chaque variable. Sous STATA, les VIFs sont
obtenus en utilisant la commande post-régression « vif ».
Pour conclure à la présence d’une multicolinéarité entre les prédicteurs, il faut qu’un
VIF pour au moins une variable explicative présente une valeur supérieure ou égale à
10 (même si certains auteurs vont jusqu’à 30) et/ou que la moyenne des VIFs soit
supérieure ou égale à 2. Dans le cas contraire, toutes les variables peuvent être
conservées. En cas de diagnostic négatif, il existe des méthodes de traitement de la
multicolinéarité. Il s’agit, entre autres, de la régression stepwise qui retient le modèle
composé des variables les plus corrélées avec variable à expliquer et les moins
corrélées entre elles. Plus précisément, Cette procédure consiste à introduire les
régresseurs un par un dans l’équation de régression et à ne conserver que ceux qui sont
les plus significativement associés avec la variable à expliquer. Les autres variables
explicatives sont alors éliminées de la régression. Sous STATA, on utilise la
commande « stepwise » à laquelle on ajoute l’option « pr » avant l’équation à estimer.
L’option « pr » permet d’afficher la plus petite probabilité (pr) pour laquelle la variable
associée doit être retirée de la régression. « pr » est une fonction à argument (un seuil
de probabilité), son argument est 0,2 car à ce seuil, il n’y a pas colinéarité selon
Chatterjee, Hadi et Price.
Quant au test de Hosmer Lemeshow, il permet de vérifier l’adéquation entre les
probabilités calculées aux probabilités prédites. En réalité, c’est une distance entre les
deux groupes de probabilité. Lorsque cette distance est petite on considère que le
modèle est bien calibré. Formellement, si on considère comme𝑛𝑗1, le nombre des
individus qui presentent effectivement la valeur y=1 dans la classe j, pour chaque
classe j, on calcule la probabilité moyenne de y=1 : 𝑝�� = 1
𝑛𝑗 ∑ 𝑝𝑖��𝑖€𝑗 . Si les probabilités
sont correctement évaluées, la statistique de Hosmer Lemeshow est définie par :
HL = ∑ (𝑛𝑗−𝑛𝑗∗𝑝𝑗 )
2
𝑛𝑗∗𝑝𝑗 (1−𝑝𝑗 )
𝐽𝑗=1 ~ 𝑋2(𝐽 − 2)
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
42
On note que 𝑛𝑗 ∗ 𝑝�� est l’espérance calculée du nombre d’individus présentant la
modalité y=1 dans la classe j et que 𝑛𝑗 ∗ 𝑝��(1 − 𝑝��) est la variance calculée de 𝑛𝑗1.
En ce qui concerne l’étude du pouvoir prédictif du modèle, on peut utiliser les
indicateurs de prédiction correcte qui sont la spécificité (𝑃(�� = 0|𝑦 = 0)), la
sensibilité (𝑃(�� = 1|𝑦 = 1).) et la courbe ROC.
Une bonne estimation de la spécificité est le taux de prédiction correcte de l’évènement
y = 1 et celle de la sensibilité est le taux de prédiction correcte de l’évènement y = 0.
La courbe ROC (Receiving Operating Curve) représente la sensibilité en fonction de
la spécificité. Elle permet d’évaluer la capacité du modèle à discriminer entre y=1 et
y=0. L’indicateur utilisé est la surface de la courbe ROC. Un ROC égal à 0.5 exprime
une absence de discrimination, un ROC entre 0.7 et 0.8 exprime une discrimination
acceptable, un ROC entre 0.8 et 0.9 exprime une très bonne discrimination et enfin, un
ROC supérieure à 0.9 dénote d’une discrimination exceptionnelle. Après avoir évalué
la performance de notre modèle et suite à sa validation, nous passons à l’interprétation
des coefficients et des effets marginaux.
Pour l’interprétation des coefficients, il ne faut pas perdre de vue que le modèle dans
lequel il intervienne n’est directement liée qu’avec la variable latente qui au delà d’un
certain seuil d’un certain seuil prévoit la réalisation de l’évènement « y = 1 ».
Ainsi, un coefficient de signe positif indique que la variable associée influence à la
hausse la probabilité de l’évènement « y = 1 » et un coefficient négatif signifie, au
contraire, que la variable associée influence à la baisse la probabilité de l’évènement
« y = 1 » et donc conduit à une plus grande probabilité de « y=0 ».
Après ces différentes interprétations, nous passerons à la dernière étape qui est celle
des recommandations quant à l’objectif visé et aux résultats obtenus.
II- MISE EN ŒUVRE DE LA METHODOLOGIE POUR LE
CAS CELL2CELL.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
43
Etapes 1 et 2 : estimation du modèle et diagnostic
Les variables initialement retenues pour cette estimation sont l’ancienneté du client en
mois, le nombre de portables achetés auprès de la compagnie Cell2Cell, l’âge du chef
du ménage du client et celui du deuxième responsable du ménage, les variables binaires
« a un enfant ou non », « à la plus mauvaise note de crédit ou non », « vit en milieu
rural ou non », « a internet mobile ou non », « est marié ou non ». Il ya aussi le nombre
d’offres récentes de rétention client accepté) et la variable Nombre de rapport
d’incident fait par le client. Les résultats de cette première estimation sont consignés
dans le tableau suivant :
Tableau 4 : Les résultats de la première estimation.
Régression logistique
LR chi2(11) = 5575,77
Prob > CHI2 = 0,000
Pseudo R2 = 0,13
Ichurn_1 coeff écart
type
Z p>|z| intervalle de confiance à
95 %
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
44
Borne
inférieure
Borne
supérieure
N_mois 0,12 0,002 57,64 0,000 0,11 0,12
Port_ach -0,06 0,12 -5,46 0,000 -0,09 -0,04
Age1 -0,003 0,0008 -4,74 0,000 -0,0054 -0,0023
Age2 -
0,0000113
0,008 -0,01 0,99 -0,0016 0,0016
Enfant 0,06 0,033 1,89 0,06 -0,0022 0,13
Crédtiz 0,007 0,06 0,13 0,9 -0,11 0,13
Rur 0,03 0,05 0,49 0,62 -0,09 0,14
Acc_net -0,48 0,05 -10,14 0,000 -0,57 -0,39
Marrié -0,001 0,03 -0,03 0,98 -0,07 0,067
Retaccpt 0,69 0,09 7,1 0,000 0,5 0,875
Rapp_inc -0,07 0,05 -1,39 0,16 -0,17 0,03
Const -1,45 0,06 -23,08 0,000 -1,57 -1,33
Source : base de données Cell2Cell.
Le modèle est globalement significatif, mais les tests de significativités individuelles
montrent qu’un peu plus de la moitié des variables explicatives soit un taux d’environ
54% ne sont pas significatives. Avant de procéder au test de multicolinéarité, nous
avons détecté d’abord les observations suspectes susceptibles de modifier les
estimations. Les indicateurs de détermination des observations suspectes ont été
calculés à partir des formules données précédemment. Le modèle sans les points
suspects est ré-estimé à nouveau et nous le nommons modèle 2. Les résultats sont
consignés dans le tableau 5.
Tableau 5: Présentation du modèle 2.
Churn coeff écart
type
z p>|z| intervalle de
confiance à 95 %
Borne
inférieure
Borne
supérieure
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
45
N_mois 0,17 0,0033 52,24 0 0,16 0,18
Port_ach -0,023 0,02 -1,09 0,28 -0,06 -0,018
Age1 -0,003 0,002 -2,13 0,03 -0,006 -0,003
Age2 -0,0014 0,001 1,29 0,2 -0,001 0,004
Enfant 0,04 0,041 0,99 0,3 -0,04 0,12
Crédtiz -0,2 0,36 -0,56 0,6 -0,9 0,5
Rur 0,06 0,24 -0,24 0,8 -0,53 0,42
Acc_net -0,58 0,08 -7,69 0 -0,72 -0,43
Marié 1,68 0,04 -0,95 0,34 -0,12 0,044
Retaccpt 1,68 0,82 2,05 0,04 0,07 3,28
Rapp_inc -0,15 0,13 -1,18 0,24 -0,4 0,1
Const -2,31 0,12 -19,87 0 -2,5 -2,1
Source : base de données Cell2Cell.
Cette procédure a, certes, augmenté la significativité globale du modèle mais le taux
6/11 des variables non significatives souligné dans le premier modèle reste le même.
De plus, certaines variables voient leurs coefficients complètement modifié. C’est le
cas notamment de la variable « habite en milieu rural ou non » qui passe de 0,029 à -
0,05 voyant ainsi son signe modifié.
Nous passons ensuite au diagnostic de la qualité d’ajustement de notre modèle aux
données retenues pour l’étude.
Etape 3 : qualité d’ajustement du modèle
Test de multicolinéarité
Les résultats du test VIF sont les suivants :
Tableau 6 : Résultats du test VIF.
Variable VIF 1/VIF
age1 10,67 0,09
Acc_int 6,27 0,16
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
46
N_mois 4,93 0,2
age2 4,9 0,2
Port_ach 4,1 0,2
marié 2,79 0,35
enfant 1,69 0,59
Rapp_inc 1,03 0,97
retaccpt 1,02 0,98
rur 1,02 0,98
créditz 1,01 0,99
Moy VIF 3,58
Source: base de données Cell2Cell.
Le VIF est supérieur à 10 pour la variable age1 et la moyenne des VIFs est supérieure
à 1. Il ya donc multicolinéarité et nous traitons cette multicolinéarité à partir de la
régression « stepwise ».
Régression Stepwise
A l’issue de cette régression, les résultats obtenus ont été consignés dans le tableau ci-
après.
Tableau 7 : Présentation du modèle retenu.
Régression logistique
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
47
Churn Coeff écart
type
z p>|z| intervalle de confiance à
95 %
N_mois 0,17 0,0033 53,2 0,000 [0,17;0,18]
Retaccpt 1,61 0,8 2,01 0,045 [0,04;3,2]
Age1 -0,003 0,002 -2,01 0,045 [-0,007;-0,00008]
Age2 0,0014 0,001 1,35 0,2 [-0,0006;0,003]
Acc_net -0,6 0,07 -7,97 0,000 [-0,73;-0,44]
const -2,35 0,11 -20,77 0,000 [-2,57;-2,13]
Source : base de données Cell2Cell.
Les résultats montrent donc que la multicolinéarité vient d’au moins l’une des variables
suivantes : « le client vit en milieu rural ou non », « le client a-t-il la plus basse note de
crédit », « est-il marié ou non », « le client à t-il un enfant ou non », le nombre de
téléphones achetés par le client et le nombre de plaintes au service de rétention client.
Elles doivent donc être retirées du modèle. Après leur suppression, nous réglons le
problème de la multicolinéarité et nous obtenons un modèle constitué des variables les
plus à même d’expliquer le churn, puisque c’est l’objectif de la régression stepwise.
Le modèle retenu est celui proposé après la régression stepwise. Le modèle retenu est
celui qui est présenté dans le tableau précédent.
Test d’adéquation de Hosmer-Lemeshow
Les résultats contenus dans le tableau suivant montrent qu’il ya une net adéquation
entre probabilités calculées et probabilités théoriques. En effet, la p-value est inférieure
à 0.05.
Tableau 8 : Résultats du test de Hosmer-Lemeshow.
Nombre de groupes 10
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
48
Hosmer-Lemeshow
Chi2(8)
641,58
Prob > chi2 0
Source : base de données Cell2Cell.
Nous utilisons par la suite d’autres caractéristiques afin d’apprécier la qualité
d’ajustement du modèle.
Le taux de bonne prédiction
Les résultats sont consignés dans le tableau qui suit. Ils montrent une bonne capacité
de prédiction du churn par le modèle. Soit un taux de 71% de bonne prédiction du
churn, un taux de 69,43% de prédiction correcte du non-churn et un taux globale de
bonne prédiction de 70,31.
Tableau 9 : Présentation des taux de prédiction.
Prob (+|D) (sensitivité) 71,06%
Prob (-|~D) (Spécificité) 69,43%
Prob (D|+) 73,11%
Prob (~D|-) 67,23%
Prob (+|~D) 30,57%
Prob (-|D) 28,94%
Prob (~D|+) 26,89%
Prob (D|-) 32,77%
taux global de prédiction
correcte
70,31%
Source : base de données Cell2Cell.
+ : prédiction churn (1) ;
- : prédiction non churn (0) ;
D : individu ayant réellement churné ;
~ D : individu n’ayant pas réellement churné.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
49
La courbe ROC
Graphique 1 : La courbe ROC du modèle retenu.
Source : nos calculs.
L’aire en dessous de la courbe ROC est de 0,8077 supérieure à 80%. On peut alors
conclure que le modèle a un bon pouvoir de discrimination. Ce résultat vient confirmer
encore le bon ajustement du modèle.
Le seuil retenu est de 0.5 car il maximise je couple (sensitivité, spécificité). Nous
pouvons le percevoir à travers le graphique suivant qui présente dans un même plan,
la fonction de la courbe de sensitivité en fonction du seuil et celle de la spécificité.
Graphique 2 : Présentation de la sensitivité et spécificité en fonction du seuil choisi.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
50
Source : nos calculs.
Nous avons par la suite implémenté ce modèle sur l’échantillon de validation afin de
nous assurer de la qualité du modèle en termes de discrimination hors échantillon de
modélisation des individus. Nous ne reprendront pas cette modélisation puisqu’il s’agit
d’une vérification. Nous présenterons cependant les propriétés de cette extension faite
sur d’autres clients à partir de notre modèle de base.
Les résultats sont satisfaisants puisque le taux globale de prédiction correct est presque
de 100%. Les détails sur pouvoir prédictif du modèle hors échantillon sont donnés dans
le tableau suivant :
Tableau 10 : Taux de prédiction pour la procédure de vérification.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
51
Prob (+|D) 0%
Prob (-|~D) 100%
Prob (D|+) .%
Prob (~D|-) 99.58%
Prob (+|~D) 0%
Prob (-|D) 100%
Prob (~D|+) .%
Prob (D|-) 0.42%
taux global de prédiction
correcte
99.58%
Source : nos calculs.
+ : prédiction churn (1) ;
- : prédiction non churn (0) ;
D : individu ayant réellement churné ;
~ D : individu n’ayant pas réellement churné.
Cette estimation sur l’échantillon de validation montre un taux global de prédiction
correcte de 99.58%.
INTERPRETATION DES RESULTATS.
Nous rappelons les résultats obtenus à partir du tableau suivant :
Tableau 11 : Rappel des résultats de l'estimation.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
52
Régression logistique
Churn Coeff écart
type
z p>|z| intervalle de confiance à
95 %
N_mois 0,17 0,0033 53,2 0,000 [0,17;0,18]
Retaccpt 1,61 0,8 2,01 0,045 [0,04;3,2]
Age1 -0,003 0,002 -2,01 0,045 [-0,007;-0,00008]
Age2 0,0014 0,001 1,35 0,2 [-0,0006;0,003]
Acc_net -0,6 0,07 -7,97 0,000 [-0,73;-0,44]
Const -2,35 0,11 -
20,77
0,000 [-2,57;-2,13]
Source : nos calculs.
Le modèle s’écrira de la manière suivante :
SPECIFICATION DU MODELE DE PREDICTION DU CHURN :
Équation 1 : spécification du modèle retenu :
𝒄𝒉𝒖𝒓𝒏 = {𝟎𝒔𝒊𝒀 ≤ 𝟎. 𝟓𝟏𝒔𝒊𝒀 > 𝟎. 𝟓
Avec
𝒀 = 𝟎. 𝟏𝟕 ∗ 𝑵𝒎𝒐𝒊𝒔 + 𝟏, 𝟔𝟕 ∗ 𝒓𝒆𝒕𝒂𝒄𝒄𝒑𝒕 − 𝟎, 𝟎𝟎𝟑 ∗ 𝑨𝒈𝒆𝟏 + 𝟎, 𝟎𝟎𝟏𝟒 ∗ 𝑨𝒈𝒆𝟐 − 𝟎, 𝟔
∗ 𝑨𝒄𝒄𝒏𝒆𝒕 − 𝟐, 𝟑𝟓
Nous obtenons, à partir de notre modélisation certains résultats que nous présentons
dans les paragraphes ci-après.
D’abord, plus un client gagne en ancienneté dans l’entreprise, plus il est enclin
à churner. Ceci pourrait se justifier par le fait que l’entreprise étudiée base sa
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
53
stratégie marketing uniquement sur l’acquisition de nouveaux clients5. Ainsi,
l’absence d’un suivi régulier des « anciens » clients Cell2Cell expliquerait ce
résultat. A titre illustratif et selon le document référé en note de bas de page,
plus de la moitié des clients figurant dans le portefeuille de Cell2Cell en début
d’exercice ont tendance à la quitter avant la fin de l’année.
Aussi, les clients qui ont tendance à recevoir et accepter des offres de rétention
client faites par Cell2Cell sont les plus susceptibles de churner. En effet, La
plupart des clients à risque élevé cumulent une insatisfaction soit en raison de
la qualité du service ou encore à cause des prix pratiqués par l’entreprise. Le
contact actif avec de tels clients, peut le pousser à finalement quitter l’entreprise
alors qu’un tel évènement aurait sûrement eu lieu beaucoup plus tard ou peut-
être pas du tout, s’il n’y avait pas eu cette sollicitation inopportune. Aussi, la
plupart de ces clients voient les remises et réductions exceptionnelles comme
des indicateurs de mauvaise qualité des produits à eux proposés. C’est ce qui
survient, également, lors des opérations de renouvellement d’abonnement
lorsque les actions d’incitation à la souscription rappellent à certains clients
qu’ils ont la possibilité de mettre fin à leurs engagements. Ils peuvent, donc,
être tentés de churner, même s’ils étaient à priori satisfaits. Un tel résultat
montre l’importance des études de scoring en télécommunication en vue mener
des actions ciblées produisant les résultats escomptés.
Ensuite, nous avons découvert que les clients appartenant à des ménages dont
les responsables sont les plus âgés sont plus fidèles à l’entreprise. Ceci pourrait
traduire le fait que les jeunes chefs de famille ont tendance à rechercher de
meilleures offres et ceci se reflète sur le comportement des membres de la
famille en termes de churn. Ce phénomène par contre n’est pas observé chez
le/la second responsable puisqu’il/elle n’influence pas significativement le
churn des clients Cell2Cell de sa famille. Ce résultat va dans le sens de
l’hypothèse de l’influence exercée par le chef de famille sur les autres membres.
5 Voir le document Terada center for customer relationship management at duke university, cell2cell : the
churn game, Durham, Page 6
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
54
Enfin, l’accès à internet augmente la probabilité d’un client à churner. Ceci est
sans doute dû à ses facilités d’accès à l’information en général et à l’information
sur les offres téléphoniques en particulier.
Ces résultats en disent long sur les mesures à prendre par Cell2Cell en vue de réduire
le taux de churn de ses clients. Nous faisons, à cet effet, des propositions dans la section
suivante dans la partie recommandations.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
55
CONCLUSION ET RECOMMANDATIONS.
Au terme de cette étude, nous essaieront de confirmer ou non les hypothèses faites.
Nous remarquons que la première hypothèse a été vérifiée. En effet, avoir des clients
ayant une ancienneté importante au sein de l’entreprise n’est une garantie contre le
churn de ceux-ci. Ils sont ceux qui sont les plus tentés de rejoindre d’autres entreprises.
Il ne faut donc pas axer les démarches marketing de rétention uniquement vers les
nouveaux clients mais plus s’évertuer à maintenir la clientèle déjà dans le portefeuille
de l’entreprise. En ce qui concerne la seconde hypothèse, elle stipulait que l’accès à
internet aux clients est un moyen important pour les fidéliser. Elle est vérifiée à
condition que l’entreprise multiplie ses actions publicitaires sur le net pour faire de la
concurrence aux compagnies rivales incluant l’utilisation d’internet dans leurs
stratégies marketing. La troisième hypothèse par contre n’est pas vérifiée puisque notre
étude a montré que la multiplication des actions de rétention envers les clients les
encourage à churner puisque ces actions leur rappellent qu’il leur est possible de partir
et donc pourrait les inciter à mieux regarder les offres des entreprises concurrentes.
Nous faisons des recommandations par la suite à Cell2Cell dans l’optique de les inciter
à mener des actions envers les clients les plus à même de churner.
D’abord, en ce qui concerne le problème du churn chez les clients les plus « anciens »
nous préconisons un meilleur suivi de ces derniers. Ce constat de churn chez ce type
de clients est sans doute dû au fait que les responsable de l’entreprise considéraient
comme acquis les clients ayant fait un bon temps dans l’entreprise. Nous préconisons
donc à Cell2Cell de répertorier un certain pourcentage de clients rangés selon leur
ancienneté et de les suivre en leur faisant certaines largesse de temps à autre pour les
maintenir dans l’entreprise. On peut donc par exemple tenir la base des 10.000 clients
les plus anciens de l’entreprise et leur offrir des bonus pour les récompenser de leur
fidélité.
Ensuite, le second résultat stipulait que les offres de rétention en répétition ont tendance
à rappeler aux clients qu’il pouvait churner et donc que cet effet est à éviter. Pour ce
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
56
faire, nous préconisons que les actions de rétention soient menés uniquement vers les
clients les plus à même de churner c'est-à-dire ceux ayant les caractéristiques à risque
déterminés par le modèle.
Troisièmement, nous recommandons à l’entreprise de mieux suivre les clients chefs de
ménage les plus jeunes puisqu’il a été démontré dans cette étude qu’il exercent une
certaine influence sur le reste de leur ménage.
Enfin, et ce qui concerne le problème de l’internet, nous proposons à Cell2Cell de
multiplier sa publicité sur internet si possible au même titre que celle faite à la
télévision puisqu’il à été prouvé par cette étude qu’internet pourrait être un moyen
efficace pour mener sa stratégie concurrentielle.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
57
BIBLIOGRAPHIE
Ahn J., Han S. et Lee Y., (2006), “Customer churn analysis : churn determinants and
mediation effects of partial defection in the Korean mobile telecommunication service
industry”, Telecommunications policy; N°30 ,Pages 552-568
Besse PHILIPPE & Laurent BÉATRICE (2012), Apprentissage Statistique : prévision
et data mining, Toulouse, cedex 4, 136 pages
Bhattacharya C. (1998), “When customers are membres : custumer retention in paid
membership contexts”, Journal of the Academy of Marketing Science, N° 26, Pages
31-44
Désiré KANGA et Yaya KEHO (2012), Les modèles dichotomiques probit et logit.
Ensea, Abidjan, 21 Pages
Gerpott T., Ram W., and Schindler A. (2001), “Customer retention, loyalty, and
satisfaction in the Germen mobile cellular telecommunications market”
Telecommunications policy, N°25, Pages 249-269
Terrence J. SEJNOWSKI (1999), The book of Hebb: The Organization of Behavior,
Californie, 4 pages
Hopfield (1982), Neural networks and physical systems with emergent collective
computational abilities, Californie, Vol. 79, pp. 2554-2558
Hung S., Yen D., and Wang H. (2006), «Applying data mining to telecom churn
management», Expert system with applications, N°31, pages 515-524
Kim H. and Yoon C. (2004), “Determinants of subscriber churn and customer loyalty
in the Korean mobile telephony market”, Telecommunications policy, N°28, pages
751-765
Li, S. (1995), « Survival analysis », Marketing Research, pages 7, 17-23
Leo BREIMAN (2001), random forests, California, 33 pages
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
58
Frédéric Fürst (2005), Histoire de l’intelligence artificielle, 16 pages
Robin GENUER and Sylvain ARLOT (2011), Analyse du biais de forets purement
aléatoires, Bordeaux, 6 pages
Rosenblatt F. (1958), “The perceptron: a probabilistic model for information storage
and organization in the brain”, Psychological Review, pages 65; 386-408
Rust R., and Zahorik A., (1993), “Customer satisfaction, customer retention, and
market share”, Journal of Retailing, N° 69, pages 193-215
Seo D., Ranganathan C., and Babad Y., (2008), “Two-level model of customer
retention in the US mobile telecommunication service market”, Telecommunications
policy, N°32, pages 182-196
Wei C. and Chiu I. (2002), “Turning telecommunications call details to churn
prediction: a data mining approach”, Expert systems with applications, N°23, pages
103-112
Yan L., Fassino M. and Baldasare P. (2005), Predicting customer behavior via calling
Links; Proceedings of international joint conference on neural networks, Montreal,
pages 2555-2560
Zeithaml V., Leonard L., and Parasuraman A., (1996), “The behavioral consequences
of service quality”, Journal of Marketing, N°60, pages 31-46
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
59
ANNEXES.
Annexe 1 : Présentation de la base de données utilisées pour l’étude.
Pour cette étude nous avons considéré une base de données contenant 78 variables
provenant du processus de recueil de données clients effectué par la société Cell2Cell.
Cell2Cell est la 6ème plus grande compagnie de téléphonie aux Etats-Unis avec environ
10 millions de souscripteurs. Dans la base de données utilisée, les montants moyens
sont calculés sur la base d’observations faites sur une période de mois sur les clients
de Cell2Cell.
Les variables prises en compte sont les suivantes :
1. Revenu : le revenue moyen mensuel ;
2. Nms : le nombre de minutes souscrites en moyenne mensuellement ;
3. Frais : le montant total moyen des frais de pris au client ;
4. Napp_asT : nombre moyen d’appel assisté6 ;
5. Dela : nombre moyen de minutes utilisées au delà du contrat souscrit ;
6. Int : nombre moyen d’appels type international ;
7. Changem : variation moyenne des minutes ..souscrites ;
8. Changer : Variation moyenne du revenu ;
9. Tech : nombre moyen d’appel rompus pour des problèmes techniques ;
10. Interloc : nombre moyen d’appels interrompus par l’autre interlocuteur ;
11. srep : nombre moyen d’appels restés sans réponse ;
12. SC : nombre moyen d’appels au service client
13. Conf : nombre moyen d’appels type conférence
14. Rec : nombre moyen de minutes en termes de d’appels reçus
15. Intra : nombre moyen d’appels intra-réseau
16. Extra : nombre moyen d’appels vers d’autres réseaux
6 Type d’appel précis existant aux états unis et coutant une certaine somme
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
60
17. App_peak : nombre moyen d’appels (intra ou extra) durant les périodes de la
journée où les prix sont élevés
18. App_bas : nombre moyen d’appels (intra ou extra) durant les périodes de la
journée où les prix sont réduits7
19. Tech_interloc : nombre moyen d’appels rompus pour problèmes techniques ou
par l’interlocuteur
20. Transf : nombre moyen d’appels transférés à un autre numéro
21. Attente : Nombre d’appel où le client a mis l’interlocuteur en attente
22. Churn : churn entre 31 et 60 jours après la période d’observation
23. N_mois : ancienneté du client
24. Uniqsubs : nombre des « uniq subs »
25. Actvsubs : nombre des « Active subs »
26. Ac : aire de communication du client
27. Port_ach : nombre de portables achetés
28. Models : Nombre de modèles de portables parmi ceux achetés
29. Eqpsjours : ancienneté du portable détenu par le client
30. ID_client : identifiant du client
31. Age1 : âge du chef de ménage du client
32. Age2 : Age du second du ménage en termes d’autorité
33. Enfant : Présence ou non d’un enfant dans le ménage
34. Credita : notation crédit du client type A (plus forte note)
35. Creditaa : notation crédit du client type AA (forte note)
36. Creditb : notation crédit du client type B (bonne note)
37. Creditc : notation crédit du client type C (note moyenne)
38. Creditde : notation crédit du client type DE (faible note)
39. Creditgy : notation crédit du client type GY (très faible note)
40. Creditz : notation crédit du client type Z (plus faible note)
41. rur : milieu de vie du client type rural
42. urb : milieu de vie du client type urbain résidentiel (banlieue)
43. urb_gv : milieu de vie du client type grande ville
7 Chercher la période aux Etats-Unis
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
61
44. neuf : le téléphone est neuf
45. Acc_net: le téléphone a accès à internet
46. Pick-up : le souscripteur a une voiture type pick-up ou 4x4
47. Vl: le souscripteur a une voiture de luxe
48. Occprof : Le souscripteur est professionnel
49. Occ_bur : Le souscripteur est bureaucrate
50. Occ_art : Le souscripteur est artisan
51. Occ_etud : Le souscripteur est étudiant
52. Occ_men : La souscriptrice est ménagère
53. Occ_retr : Le souscripteur est retraité
54. Occ_pchef : Le souscripteur s’emploie lui-même
55. Maison_mq : la valeur de la variable propriétaire de maison ou non est
manquante
56. Matr_mq : la valeur de la variable statut matrimonial est inconnue
57. Marrié : Le souscripteur est marié
58. N_Marié : Le souscripteur est non marié
59. Mail_ach : Le souscripteur achète par mail
60. Mail_rep : Le souscripteur répond aux offres faites via mail
61. Ref_mailsol : Le souscripteur a choisi de ne pas être sollicité par mail
62. Voyage : Le souscripteur a travaillé dans un pays étranger
63. Pc : Le souscripteur a un ordinateur portable
64. Cartcred : Le souscripteur possède une carte de crédit
65. Retapp : Nombre d’appels récemment fait vers le service rétention client
66. Retaccpt : Nombre d’offres récentes de rétention client accepté
67. Nouv_port : Le souscripteur un nouvel utilisateur de portables
68. N_nouv_port : Le souscripteur n’est pas un nouvel utilisateur de portables
69. Rapp_inc : Nombre de rapport d’incident fait par le client
70. Salaire_mq : La valeur de la variable salaire est manquante
71. Revenu_mq : Revenu (en prenant 0 pour manquante)
72. Moto : Le souscripteur possède une motocyclette
73. Ajus_cred : Nombre d’ajustement de la note crédit du client effectué
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
62
74. P_phone_mq : Le prix du téléphone est manquant
75. Prix_phone : Prix du téléphone : (en prenant 0 pour manquante)
76. Ret_app : Le client a appelé le service client
77. Calibrag : Le client est dans l’échantillon de calibrage (1) ou non (0)
78. Churndep : churn (manquant dans l’échantillon de validation)
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
63
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
64
Annexe 2 : Présentation des résultats des tests de khi-deux effectués en analyse
descriptive.
Pearson chi2(4) = 223.7055 Pr = 0.000
Total 3 40,000 1 3 20,000 0 0 20,000 churn 4 Total retcalls
Total 107 14 40,000 1 70 9 20,000 0 37 5 20,000 churn 2 3 Total retcalls
Total 38,383 1,493 40,000 1 18,898 1,020 20,000 0 19,485 473 20,000 churn 0 1 Total retcalls
. tabulate churn retcalls, chi2
Pearson chi2(1) = 32.0044 Pr = 0.000
Total 25,103 14,897 40,000 1 12,825 7,175 20,000 0 12,278 7,722 20,000 churn 0 1 Total mailres
. tabulate churn mailres, chi2
Pearson chi2(1) = 2.5240 Pr = 0.112
Total 25,387 14,613 40,000 1 12,770 7,230 20,000 0 12,617 7,383 20,000 churn 0 1 Total marryyes
. tabulate churn marryyes, chi2
Pearson chi2(6) = 178.1299 Pr = 0.000
Total 6,862 15,084 6,715 4,068 4,726 888 1,657 40,000 1 3,600 7,726 3,513 1,905 1,984 439 833 20,000 0 3,262 7,358 3,202 2,163 2,742 449 824 20,000 churn 1 2 3 4 5 6 7 Total cred
. tabulate churn cred, chi2
Total 6,862 15,084 6,715 4,068 4,726 888 1,657 40,000 1 3,600 7,726 3,513 1,905 1,984 439 833 20,000 0 3,262 7,358 3,202 2,163 2,742 449 824 20,000 churn 1 2 3 4 5 6 7 Total cred
. tabulate churn cred
end of do-file.
(1657 real changes made). replace cred = 7 if creditz ==1
(888 real changes made). replace cred = 6 if creditgy ==1
(4726 real changes made). replace cred = 5 if creditde ==1
(4068 real changes made). replace cred = 4 if creditc ==1
(6715 real changes made). replace cred = 3 if creditb ==1
(15084 real changes made). replace cred = 2 if creditaa ==1
(33138 missing values generated). gen cred = 1 if credita==1
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
65
Annexe 3 : Présentation des différents types de réseaux de neurones.
D’abord, nous abordons la grande famille des réseaux à apprentissage supervisé sans
rétro propagation qui contient le perceptron, le réseau ADALINE ou encore Adaptive
Linear Neuron et l’Associative Reward-Penalty pour ne citer que ceux-ci.
Le perceptron est considéré comme étant le réseau de neurones le plus simple et est la
première application reconnue du principe des réseaux neuronaux introduits par Pitts
et McCulloch en 1943. Il existe plusieurs types de Perceptron, toutefois sous sa version
la plus simple, il est conçu à partir d’une seule couche constituée d’un unique neurone
connecté à n entrées :
Figure 7 : Perceptron simplifié à fonction d’activation de Heaviside.
Le Perceptron utilise la fonction de Heaviside comme fonction d’activation, il calcule
sa sortie de la façon suivante :
Quant à l’ADALINE, il est identique au Perceptron, il n’en diffère que par sa fonction
d’activation qui est une fonction linéaire en lieu et place de la fonction échelon utilisée
sur le Perceptron. Les réseaux de neurones de type ADALINE utilisent la méthode des
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
66
moindres carrés, ce qui permet de réduire considérablement les parasites reçus en
entrée.
Figure 8 : Réseau ADALINE à fonction d'activation linéaire.
Un réseau de type ADALINE réalise une somme pondérée des valeurs qu’il reçoit en
entrée, à laquelle il rajoute la valeur de seuil Ɵ, une fonction de transfert linéaire est
ensuite utilisée pour l’activation du neurone. Lors de l’apprentissage, les poids sont
modifiés en utilisant la loi de Widrow-Hoff.
Nous terminerons la présentation de la grande famille des réseaux de neurone à
apprentissage supervisé sans rétro propagation en abordant le réseau associative
reward-penalty ou réseau ARP, Proposé en 1985 et utilisant le principe de
fonctionnement de l’apprentissage par renforcement. Ceci signifie que le réseau reçoit
une récompense ou une pénalité selon la justesse de son information de sortie.
La deuxième grande famille de réseaux concerne ceux dits à apprentissage supervisé
avec rétro propagation. Avant tout propos il importe de dire que la technique de
rétropropagation (Backpropagation en anglais) est une méthode qui permet de calculer
le gradient de l'erreur pour chacun des neurones du réseau, de la dernière couche vers
la première. Ainsi, bien qu’on appelle souvent technique de rétropropagation du
gradient l'algorithme classique de correction des erreurs basé sur le calcul du gradient
grâce à la rétropropagation, cela n’est pas toujours le cas. La correction des erreurs
peut se faire selon d'autres méthodes, comme le calcul de la dérivée seconde ou
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
67
partielle que l’on emploie dans certains réseaux. Souvent, dans le cas des réseaux de
neurones, la méthode de correction d’erreur agit en corrigeant de manière significative
les coefficients synaptiques qui contribuent à engendrer une erreur importante tout en
pondérant également les neurones générant une erreur moins conséquente.
Ces méthodes de rétropropagation du gradient firent l'objet d’études dès 1975, puis en
1985 mais ce sont les travaux de Rumelhart, Hinton & Williams en 1986 qui suscitèrent
le véritable début de l'engouement pour cette méthode avec sa première application
dans le Perceptron multicouche. C’est grâce à la rétropropagation du gradient que les
réseaux de neurones ont de nouveau suscité l’intérêt de la communauté scientifique.
L’algorithme de rétropropagation est le suivant :
1. Présentation d’un motif d’entraînement au réseau.
2. Comparer la sortie du réseau avec la sortie ciblée, calculer l’erreur en sortie de
chaque neurone du réseau.
3. Pour chaque neurone, calculer ce que la sortie aurait due être ainsi qu’un facteur
d’échelle permettant de définir l’augmentation ou la diminution nécessaire pour
obtenir la sortie attendue.
Cette information devient l’erreur locale.
4. Ajuster les coefficients synaptiques à l’erreur locale la plus basse.
5. Attribuer un blâme pour l’erreur locale à tous les neurones en amont, assignant une
plus grande responsabilité aux neurones connectés avec un plus grand coefficient
synaptique.
6. Recommencer à partir de l’étape 3 sur les neurones en amont en utilisant le blâme
comme erreur.
Plusieurs réseaux utilisent que nous énoncerons brièvement utilisent le principe de la
retro propagation. Ce sont :
- Le Perceptron multicouche :
C’est réseau orienté de neurones artificiels organisés en couches et où l’information ne
circule que dans un seul sens : de la couche d’entrée vers la couche de sortie. La couche
d’entrée représente toujours une couche virtuelle associée aux entrées du système et ne
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
68
contient donc aucun neurone. Les couches suivantes, elles, sont constituées de
neurones. Les sorties des neurones de la dernière couche correspondent toujours aux
sorties du système. Un Perceptron multicouche peut posséder un nombre de couches
quelconque et chaque couche peut comporter un nombre de neurones (ou d’entrées, si
il s’agit de la couche d’entrée) également quelconque.
- L’Adaptive Logic Network :
Un « Réseau logique adaptatif » ou Adaptive Logic Network (ALN) est une forme
particulière de Perceptron multicouches. Il peut être décrit comme un arbre binaire, où
les neurones effectuent des opérations logiques. Les entrées d’un ALN sont des
variables binaires, et sont réparties en deux groupes : les entrées binaires et les entrées
complémentaires (qui sont également encodée sous forme binaire). Chaque neurone
d’entrée est connecté à deux variables binaires, provenant soit de l’ensemble dit «
binaire » soit de l’ensemble dit « complémentaire », soit une de chaque.
Time Delay Neural Network
Le « réseau de neurones par délais temporel » ou Time Delay Neural Network
(TDNN), et un réseau ont l’originalité se situer sur sa méthode de traitement des
informations reçues. Le TDNN utilise plusieurs séries d’informations pour n’obtenir
qu’une seule sortie. Si au premier abord cette méthode de traitement peut sembler
latente, elle est en fait particulièrement intéressante car elle permet de traiter une
information qui évolue dans le temps et ainsi, d’affiner sa réponse.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
69
Figure 9: Time Delay Neural Network – modèle générique.
Un TDNN se caractérise ainsi par :
- Son nombre de couches.
- Son nombre de neurones de chaque couche selon la direction temporelle (Temps t).
- Le nombre de neurones de chaque couche, ici, nous avons deux neurones par couche).
- La taille du champ temporel vue par chaque couche (sauf celle d'entrée), le nombre
de neurones de la couche i vu par un neurone de la couche i+1 (dans notre cas, quatre
neurones).
- Le délai temporel entre chaque champ.
La troisième et dernière classe de réseaux est celle des réseaux à apprentissage non-
supervisé avec rétro propagation.
Dans les réseaux à apprentissage non supervisé, les neurones sont en compétition pour
être actifs. Ils sont à sortie binaire et son généralement considérés actifs lorsque leur
sortie vaut 1. Alors que dans les autres règles plusieurs sorties de neurones peuvent
être actives simultanément, dans le cas de l'apprentissage compétitif, un seul neurone
est actif à un instant donné. Chaque neurone de sortie est ainsi spécialisé pour « détecter
» une suite de formes similaires et devient alors un détecteur de caractéristiques.
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
70
La fonction d’entrée est dans ce cash = φ − dist(w, x), où φ, w et x sont
respectivement le seuil, le poids synaptique et l’entrée.
Le neurone gagnant est celui pour lequel h est maximum. Ce qui signifie, dans le cas
où les seuils sont identiques, celui dont le poids est le plus proche de l’entrée. Le
neurone dont la sortie est maximale sera le vainqueur et sa sortie sera mise à 1 alors
que les perdants auront leur sortie mise à 0. Un neurone apprend en déplaçant ses poids
vers les valeurs des entrées qui l'activent pour augmenter ses chances de gagner. Si un
neurone ne répond pas à une entrée, aucun ajustement de poids n'intervient. Si un
neurone gagne, une portion des poids de toutes les entrées est redistribuée vers les
poids des entrées actives. On est ainsi amené à observer un déplacement des neurones
vers les valeurs d’entrées avec des surprenants résultats tant ils imitent la réalité.
Un réseau bien connu et appartenant à cette classe est le Kohonen Self Organizing Map
ou encore cartes auto adaptatrices. Il s’agit d’un réseau à apprentissage non supervisé,
développé par Teuvo Kohonen en 1984 et qui établissent une carte discrète, ordonnée
topologiquement, en fonction de patterns d'entrée. Le réseau forme ainsi une toile dont
chaque noeud est un neurone associé à un vecteur de poids. La correspondance entre
chaque vecteur de poids est calculée pour chaque entrée. Par la suite, le vecteur de
poids ayant la meilleure corrélation, ainsi que certains de ses voisins, vont être modifiés
afin d'augmenter encore cette corrélation. On retrouve dans cette procédure, le principe
de fonctionnement des réseaux Linear Vector Quantization, étudiés plus tôt et
également développés par Kohone.
Annexe 4 : Evaluation d’un modèle de régression logistique.
Plusieurs outils existent pour évaluer l’efficacité du modèle de régression logistique.
En général, elles se tiennent soit à confronter les valeurs observées de la variable Y(w)
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
71
avec les prédictionsY(w), soit à comparer les vraies valeurs π avec celles prédites par
le modèle�� . Nous présentons ici une liste de méthodes. Entre autres, nous avons :
La matrice de confusion
Cet outil confronte toujours les valeurs observées de la variable dépendante avec celles
prédites en comptabilisant les bonnes et les mauvaises prédictions. Son intérêt est
qu'elle permet à la fois d'appréhender la quantité de l'erreur (le taux d'erreur) et de
rendre compte de la structure de l'erreur (la manière de se tromper du modèle).
Les indicateurs utilisés sont la spécificité, la sensibilité, le taux d'erreur, le taux de
succès.
La spécificité est la capacité du modèle à prévoir avec exactitude un non churn et la
sensivité sa capacité à prévoir avec exactitude un churn. Le taux d’erreur est en
pratique le rapport entre le nombre de mauvaises prédictions et la taille de l’échantillon.
Le taux de succès quant à lui est le taux complementaire au taux d’erreur.
Diagramme de fiabilité
Quant à cet outil, il permet de confronter les probabilités estimées par le modèle avec
celles observées dans le fichier de données. Ici également, si nous en avons la
possibilité, nous avons tout intérêt à construire le diagramme à partir des données tests
n'ayant pas participé à l'élaboration du classifieur.
Test de Hosmer-Lemeshow
Il s’agir d’un test qui relève à peu près de la même logique que le diagramme de
fiabilité. Ce test est basé sur une statistique qui permet d’apprécier la qualité des
estimations de ( )w
: il s’agit de la statistique de Hosmer-Lemeshow. (Voir encadré
pour détaille).
Le test de Mann-Whitney
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
72
Ce test compare les distributions des scores conditionnellement aux classes
d'appartenance. Lorsque le modèle est de bonne qualité, les distributions
conditionnelles des scores sont bien différenciées; dans le cas contraire, elles sont
confondues.
La courbe de ROC
1. Elle propose un outil graphique qui permet d'évaluer et de comparer globalement le
comportement des classifieurs.
2. Elle est indépendante des coûts de mauvaise affectation. Elle permet par exemple de
déterminer si un classifieur surpasse un autre, quelle que soit la combinaison de coûts
utilisée.
3. Elle est opérationnelle même dans le cas des distributions très déséquilibrées. Mieux,
même si les proportions des classes ne sont pas représentatives des probabilités a priori
dans le fichier - c'est le cas lorsque l'on procède à un tirage rétrospectif c.-à-d. on fixe
le nombre de positifs et négatifs à obtenir, et on tire au hasard dans chaque sous-
population - la courbe ROC reste valable.
La courbe ROC met en relation le taux de vrais positifs TVP (la sensibilité, le rappel)
et le taux de faux positifs TFP (TFP = 1 - Spécificité) dans un graphique nuage de
points. Habituellement, nous comparons ^π(ω) à un seuil s = 0.5 pour effectuer une
prédiction ^y(ω). Nous pouvons ainsi construire la matrice de confusion et en extraire
les 2 indicateurs précités. La courbe ROC généralise cette idée en faisant varier s sur
tout le continuum des valeurs possibles entre 0 et 1. Pour chaque configuration, nous
construisons la matrice de confusion et nous calculons TVP et TFP.
TABLE DES MATIERES
AVANT PROPOS ............................................................... Erreur ! Signet non défini.
SIGLES ET ABBREVIATIONS ............................................................................... 3
LISTE DES ILLUSTRATIONS ................................................................................ 4
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
73
Liste des tableaux ............................................................................................................................. 4
Liste des graphiques ......................................................................................................................... 4
Liste des figures ................................................................................................................................ 4
Liste des équations ............................................................................................................................ 4
RESUME ..................................................................................................................... 5
ABSTRACT ................................................................................................................. 5
INTRODUCTION ...................................................................................................... 7
CHAPITRE 1 : CADRE CONCEPTUEL ET REVUE DE ............................... 11
LA LITTERATURE. .............................................................................................. 11
I- DEFINITION DE CONCEPTS .............................................................................................. 11
I-1 Le concept de Churn ............................................................................................................. 11
I-2 Le scoring .............................................................................................................................. 11
II- REVUE THEORIQUE : PRESENTATION DES METHODES DE SCORING .............. 12
II-1 Les techniques les plus utilisées pour la prévision du churn ............................................... 13
II-1-1 La régression logistique ................................................................................................ 13
II-1-2 Les réseaux de neurones ............................................................................................... 17
II-1-3 Les arbres de décision. ................................................................................................. 20
II-2 Autres techniques utilisables................................................................................................ 21
II-2-1 les random forests ......................................................................................................... 21
II-2-3 Les machines à vecteurs de supports (SVM). ............................................................... 22
III- REVUE EMPIRIQUE ........................................................................................................ 22
CHAPITRE 2 : ANALYSE DES CARACTERISTIQUES DE LA CLIENTELE
CELL2CELL: UNE ETUDE PAR SEGMENTATION CLIENTS. ................... 26
I- PRESENTATION DES DONNEES DE L’ETUDE .............................................................. 27
II- ANALYSE DESCRIPTIVE. .............................................................................................. 27
II-1 Segmentation basée sur la notation crédit du client ............................................................. 27
II-2 Segmentation basée sur la situation matrimoniale ............................................................... 31
II-3 Analyse du churn en fonction des réponses aux offres par mail .......................................... 32
II-4 Analyse du churn en fonction de la relation avec le service client. ..................................... 33
II-5 principaux résultats des tests de khi-deux ............................................................................ 36
II-5-1 test entre le churn et la catégorie de crédit ................................................................... 36
II-5-2 test entre le churn et la situation matrimoniale ............................................................. 36
Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.
74
II-5-3 test entre le churn et la réponse ou non aux offres faites par mail ................................ 36
II-5-4 test entre le churn et le nombre d’appels au servie de rétention client ......................... 37
CHAPITRE III : MODELISATION ECONOMETRIQUE ET PREDICTION
DU CHURN. ............................................................................................................. 37
I- PRESENTATION DE LA DEMARCHE METHODOLOGIQUE ........................................ 38
Etape 1 : Estimation à priori ........................................................................................................... 38
Etape 2 : Diagnostic du modèle ...................................................................................................... 38
Etape 3 : Qualité d’ajustement du modèle ...................................................................................... 40
II- MISE EN ŒUVRE DE LA METHODOLOGIE POUR LE .............................................. 42
CAS CELL2CELL .......................................................................................................................... 42
Etapes 1 et 2 : estimation du modèle et diagnostic ......................................................................... 43
Etape 3 : qualité d’ajustement du modèle ....................................................................................... 45
INTERPRETATION DES RESULTATS ...................................................................................... 51
CONCLUSION ET RECOMMANDATIONS ....................................................... 55
BIBLIOGRAPHIE ................................................................................................... 57
ANNEXES ................................................................................................................. 59
Annexe 1 : présentation de la base de données utilisées pour l’étude ............................................ 59
Annexe 2 : Présentation des résultats des tests de khi-deux effectués en analyse descriptive. ....... 64
Annexe 3 : Présentation des différents types de réseaux de neurones ............................................ 65
Annexe 4 : Evaluation d’un modèle de régression logistique ......................................................... 70
TABLE DES MATIERES ........................................................................................ 72