utiliser les big data: défis & opportunités utiliser les big data: défis & opportunités...
Post on 07-Nov-2018
227 Views
Preview:
TRANSCRIPT
Utiliser les Big Data: Défis & Opportunités
Françoise Soulié Fogelman
Université d’été des Actuaires Les nouveaux enjeux de l’assurance : Big Data, Eurocroissance, ANI, loi Hamon et dépendance Paris, 9 juillet 2014
2 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Mon parcours professionnel
Business & Decision
KXEN
Innova3on Université
KDD_US
Atos
3 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Agenda • Qu’est ce que le Big Data • Qu’est ce que le Data Mining • Impact sur le métier des actuaires
5 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Une définition classique Introduite par Gartner en 2001
Nombre de variables
Nombre d’événements /
seconde
Nombre d’observations x Nombre de variables
Largeur
Profondeur
6 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La valeur des Big Data
• À l’origine (Gartner, 2001) les Big Data sont considérées comme un risque de faire exploser les architectures
• Puis on se rend compte que les Big Data sont source de valeur – Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé
majeure de la source de valeur, en produisant de meilleurs modèles “Invariably, simple models and a lot of data trump more elaborate
models based on less data”
• MAIS il faut pour cela des techniques adaptées – Acceptant de grands volumes (!) – Avec des variables corrélées (souvent: variété) – Sans over-fitting
7 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Big Data pour la Finance & l’Assurance Facilité à capturer la valeur des Big Data & index de la valeur potentielle
Mc Kinsey, Big Data. 2011
Finance & Assurance
9 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Data Mining & Big Data • Neural Network,
Data Mining & Big Data – 1980 – 2008
– 2004 – 2014 http://www.google.com/trends
https://books.google.com/ngrams
10 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Qu’est ce que le Data Mining • Situation où
– On ne dispose pas de modèle mathématique • Comme en Sciences
– On a des données • Beaucoup
• On recherche – Une fonction solution
• Dans une classe F
– Pas une distribution • « Modèle »
– (F , algo. d’apprentissage)
11 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining • Expliquer / Prévoir
– Précision / Robustesse – Apprendre / Généraliser – Erreur en apprentissage / Erreur en généralisation
“It wasn’t too long ago that calling someone a data miner was a very bad thing. You could start a fistfight at a convention of statisticians with this kind of talk. It meant that you were finding the analytical equivalent of the bunnies in the clouds, poring over data until you found something. Everyone knew that if you did enough poring, you were bound to find that bunny sooner or later, but it was no more real than the one that blows over the horizon.”
David J. Leinweber, Stupid data miner tricks (2000)
12 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining Construire un modèle pour expliquer l’index S&P 500 • Avec 1 seule variable: l’année
– Période 1983-92 : modèle polynomial à 1 variable de degré 9 • .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9
– Période 1983-93 : modèle polynomial à 1 variable de degré 10 • .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10
– Les modèles obtenus sont absolument « parfaits » : 100%
Leinweber
83 92 83 93
13 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts importants en Data Mining • Construire un modèle
– L’ensemble d’apprentissage : le modèle apprend (précision) – L’ensemble de validation : le modèle généralise (robustesse)
14 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
La Théorie de l’apprentissage statistique de Vapnik Un résumé très court !!
: VC dimension de F
( )( )
nnl
hn
hnnl
hn ηε −
+=
21,
( ) ( ) ( )h,nRR empGen εθθ +≤
1971 1982 1995 1998
Over‐fiAng
15 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Concepts (moins) importants en Data Mining • Le choix de l’algorithme
– Régression – Arbres de décision – Forêts d’arbres – K-ppv – Naïve Bayes – Réseau de neurones – Support vector machine (SVM) – …
• Le plus important : les données “Invariably, simple models and a lot of data trump more elaborate models based on less data”
• Questions importantes – Scalabilité – Explicatif – Résistance au bruit / données
manquantes (sparsité) / données corrélées
– Temps de calcul • Apprentissage • Scoring (généralisation)
– Performance
16 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet • La vente en ligne augmente très rapidement
• La fraude aussi Difficultés • Taux de fraude très faible
– <<1% • Taux d’alerte très faible
– <<1% • Volumes très grands • La fraude change très vite
Banque de France. Rapport annuel OSCP, 2012
M€ %
17 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet • Modèle de base (uniquement les variables de transaction)
– Très insuffisant
Précision : 70% Rappel: 30 % ( ) F
VPsappelR =
( ) AVPsrecP =
Rappel Précision
Nb de Cartes en Alerte / Jour
18 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet • Méthode 1 : créer des variables additionnelles (Variété ↑)
– 37 997 ( ~1500 avec scores cartes & marchands+ Agrégats)
• Variables Sociales
Marchand Marchand Marchand Marchand
Carte Carte Carte Carte
Carte Marchand
19 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet • Méthode 2 : segmenter les cartes • Il y a beaucoup de types de fraude
– Faire une segmentation cartes, avec les agrégats cartes – Chaque segment est homogène pour un type de fraude
→ 19 segments – Différents types de
fraude • Big data set = ensemble
de smaller (big data sets)
20 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet • 19 segments (sur le score carte)
Segment 1 Segment 2
Segment 15 Segment 15
21 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple: la fraude à la carte bancaire sur Internet
• Résultats
• Importance des variables – Variables Initiales – Agrégats Marchand – Agrégats Carte – Variables Sociales
• Carte Marchand
Modèle Rappel Précision Baseline 1,40% 8,18% Baseline + Agrégats 9,13% 19,00% Baseline + Agr. + Social 9,09% 40,58% Seg 19 5,09% 28,21% Seg 19 + Agr. 7,38% 28,82% Seg 19 + Agr. + Social 16,46% 60,89%
22 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Exemple : Risque (Carte de Crédit) • Données granulaires
– Nombreuses sources (transaction, appels, …) – On peut créer de la valeur SI on agrège bien – Le nombre d’attributs augmente très vite (23 000 +)
• La question – Comment choisir les « bonnes » variables ?
• Approches 1. Utiliser toujours les mêmes variables 2. Demander aux experts de choisir 500 variables
• Il faut 10 jours de travail pour 10 variables 3. Utiliser toutes les variables & laisser les données « choisir »
les meilleures • Il faut construire un modèle
24 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Assurance • Fraude, Connaissance clients, Risque…
– Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en 2011 aux US)
• Comment procéder en approche Big Data – Collecter des données
“ Precise detection comes from bringing together multiple characteristics to create an overall picture of the probability of fraud ” (Verisk, 2013)
Facile Difficile – Générer des variables additionnelles
• Beaucoup – Les données ne sont pas produites pour les besoins de l’analyste
• Problèmes de représentativité
25 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Impacts L’approche Big Data donne un score individuel • Le score individuel est obtenu par application d’un
« modèle » – Ce modèle peut être rafraichi automatiquement aussi souvent que
nécessaire • On peut segmenter la population
– Obtenir un modèle par segment – Établir une politique de prix / segment
• Questions ouvertes – Comment intégrer les approches actuarielle orientée « modèle » et Big
Data orientée « données » ? – L’actuaire est l’expert des données
26 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Quels impacts sur le métier / la formation ?
• Les écoles du GENES ouvrent des formations – L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année
de son cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les compétences attendues pour les postes de Data Scientist et Chief Data Officer qui émergent avec le développement des Big Data.
– À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de Data Scientist.
• Les écoles du GENES sont partenaires de la plateforme Teralab pour le Big Data
27 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
ACCESS PORTAL Directories Provisioning requests Workspace management
INFRASTUCTURES Private Cloud Hybrid Cloud Teramemory Server
DATA Project waterproof Data Shared Data Public Data
ANALYTICS/ VISUALIZATION
DATA MANAGEMENT SQL (Postgre, mySQL ..) Hadoop IMDB( Quartet ..)
Opensource Commercial
Teralab
28 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
Compartiments TeraLab
TERALAB Platform sovereign and secure Compartiment sécurisé
Ultrasecure Compartment
CASD Technology i.e State Data, Health
Data…
Industrial R&I Secure
compartment Ie Anonymzed Personal Data
M2M Data ..
Industrial R&I secure compartment
Advanced Teramemory
Server « In Memory »
Elastic cloud
servers
hap://www.casd.eu/
haps://www.teralab‐datascience.fr/fr/accueil
HYBRID
PRIVATE
29 F. Soulié Fogelman. Utiliser les big data: défis & opportunités
“in memory Computing”
Teralab • Bullion
– 240 cœurs – Mémoire
4 – 24 Tera Octets
– 120 TO Stockage
• RAM is the new “disk”
top related