Édition spÉciale machine learning - porte de versailles · dataiku est fier de participer à la...

26
ÉDITION SPÉCIALE MACHINE LEARNING ÉDITION SPÉCIALE MACHINE LEARNING Powered by

Upload: others

Post on 12-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

ÉDITION SPÉCIALE MACHINE LEARNINGÉDITION SPÉCIALE MACHINE LEARNING

P o w e r e d b y

Page 2: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

2

Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage de la data science en Europe, où nous avons le plaisir de voir croître chaque année la qualité et l’expertise des audiences rencontrées.

Si, comme nous, vous êtes présents à Big Data Paris 18, c’est que vous avez probablement déjà pris la mesure de la révolution analytique qui est en train de se jouer dans tous les métiers de l’entreprise : marketing, finance, logistique, ressources humaines, supply chain ou encore ventes…

La “disruption” par la donnée a fait ses preuves, les projets data se multiplient maintenant dans toutes les entreprises. On estime que 53% des entreprises du monde entier se sont mises au Big Data, un chiffre en augmentation de 36% comparé à 2015(1).

Si vous n’avez pas entamé de projets data au sein de votre entreprise, il n’est pas trop tard! Quelle que soit la taille de votre équipe, il est encore temps de mettre en place les bases favorables à la réussite de votre initiative d’analytique avancée. Si vous avez déjà pu développer un ou des projets analytiques nouvelle génération, il est toujours possible d’en démultiplier l’impact grâce à quelques pratiques simples.

Fort de notre expérience, nous avons conçu ce guide pour vous apporter réponses, conseils et bonnes pratiques sur ces sujets. Dans ce guide, vous trouverez tout d’abord une revue des concepts capitaux de la data science et quelques clés pour évaluer l’efficacité de vos algorithmes. Vous découvrirez ensuite un panorama, non exhaustif, de toutes les applications concrètes du machine learning sur lesquelles nous avons eu le privilège de travailler avec quelques mises en perspectives des acteurs les plus influents de l’écosystème du Big Data en France.

Enfin, nous avons décidé de consacrer la fin de cet ouvrage aux facteurs de réussite d’un POC, ou Proof of Concept, étape critique dans les choix que vous ferez pour le futur.

Ce guide a vocation à enrichir votre connaissance et votre approche de l’univers du Machine Learning, mais il ne suffira malheureusement pas à la réussite de tous vos projets d’analytique avancée. N’hésitez donc pas à venir nous en parler, nos équipes et nos partenaires vous attendent sur le stand A21 durant Big Data Paris !

(1) Rapport 2017 Big Data Analytics Market Study, Dresney Avisory

2

Florian DOUETTEAUCEO,

DATAIKU

Page 3: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

À LA DÉCOUVERTE DU MACHINE LEARNING : INTRODUCTION AUX CONCEPTS CLÉS DE LA DATA SCIENCE

3

PARTIE 1PARTIE 1

Page 4: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

INTRODUCTIOINTRODUCTIO

Les algorithmes les plus connus et les plus communs utilisés en apprentissage automatique, par le passé comme à l’heure actuelle, sont de trois types : les modèles linéaires, les modèles en arbre de décision et les réseaux neuronaux.

Les termes que nous avons choisi de définir ici sont communément utilisés dans le domaine du machine learning. Que vous travailliez

à un projet comprenant un volet machine learning ou soyez simplement intéressé par le sujet de ce pan du monde des données, nous espérons que vous trouverez ces définitions claires et utiles.

4

En un mot, des algorithmes.

Défini simplement, le Machine Learning est une manière pour les ordinateurs d’apprendre de nouvelles choses sans avoir été programmés spécifiquement à cet effet grâce à la mise en place d’algorithmes.

Dans le domaine du Machine Learning, le but est soit la prédiction, soit l’apprentissage non supervisé (« clustering »).

La prédiction permet, à partir d’un ensemble de variables d’entrée, d’estimer la valeur d’une variable de sortie. Par exemple, en se basant sur l’ensemble des caractéristiques d’une maison, on peut prédire son prix de vente. Les problèmes de prédiction se divisent en deux catégories principales :

• Les problèmes de régression, pour lesquels la variable à prédire est numérique (par exemple, le prix d’une maison).

• Les problèmes de classification, pour lesquels la variable à prédire est un choix dans une catégorie, qui peuvent être aussi simples que « oui » ou « non » (par exemple, prédire si un équipement donné connaîtra une panne mécanique ou non).

QU’EST-CE QUE LE MACHINE LEARNING ?

LE MACHINE LEARNING POUR QUEL OBJECTIF ?

Page 5: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

10 CONCEPTS CLÉ DE

5

10 CONCEPTS CLÉ DE

ALGORITHMEUn ensemble de règles utilisées pour effectuer un calcul ou résoudre un problème.

RÉGRESSION Un type d’algorithme supervisé dont la cible est un nombre réel.

CIBLE Il s’agit de la variable que l’on souhaite prédire.

ENSEMBLE DE TEST Un jeu de données distinct de l’ensemble de formation, mais présentant la même structure, utilisé pour mesurer et étalonner la performance des différents modèles.

SUR-APPRENTISSAGE Une situation dans laquelle le modèle qui a été entraîné à prédire la cible est trop complexe pour les données disponibles. Cela conduit à un modèle trop spécialisé qui produit des prédictions qui ne reflètent pas la réalité de la relation sous-jacente entre les caractéristiques et la cible.

VARIABLE Aussi appelée variable indépendante, une variable est

une quantité observable enregistrée et utilisée par un modèle de prédiction. Il est possible

de développer des caractéristiques en les combinant ou en leur ajoutant de nouvelles informations.

(“feature”, en anglais)

JEU D’APPRENTISSAGE Un jeu de données utilisé afin d’identifier des relations

de prédiction potentielles, qui serviront à créer un modèle. Appelé “Train set” en anglais.

CLASSIFICATION Un type d’algorithme supervisé dont la cible

est une catégorie pré-définie, par exemple fraudeur/non-fraudeur.

APPRENTISSAGE L’apprentissage (« training ») est le processus

de création d’un modèle à partir de données d’entrainement. Les données viennent alimenter

l’algorithme d’apprentissage, qui apprend une représentation du problème et produit un modèle.

Aussi appelé « entrainement ».

MODÈLEUne représentation mathématique d’un processus du monde réel ; un modèle de prédiction prévoit une

situation à venir sur la base de comportements passés.

DATA SCIENCE & DU MACHINE LEARNINGDATA SCIENCE & DU MACHINE LEARNING

Page 6: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

6

QUELQUES ALGORITHMES

AVANTAGES ET INCONVÉNIENTS DE CERTAINS DES ALGORITHMES DE MACHINE LEARNING LES PLUS COURANTS

Penchons-nous maintenant sur quelques-uns des principaux algorithmes d’apprentissage automatique. Nous les regroupons sous trois catégories :

DE PRÉDICTIOQUELQUES ALGORITHMES DE PRÉDICTIO

NOM ET TYPE DESCRIPTION AVANTAGES INCONVÉNIENTS

LIN

ÉAIR

E

RÉGRESSION LINÉAIRE

La droite la mieux ajustée à tous les points de données. Les prédictions

sont numériques.

Facile à comprendre: on identifie

clairement quels sont les principaux

moteurs de ce modèle.

• Parfois trop simple pour appréhender les relations complexes entre les variables.

• Résultats médiocres pour les caractéristiques corrélées.

RÉGRESSIONLOGISTIQUE Adaptation de la régression linéaire

à des problèmes de classification (questions oui/non, groupes, etc.).

Facile à comprendre également.

• Parfois trop simple pour appréhender les relations complexes entre les variables.

• Résultats médiocres pour les caractéristiques corrélées.

EN A

RB

RE

DE

DÉC

ISIO

N

ARBRE DE DÉCISION Série de règles oui/non sur la base

des caractéristiques, qui forment un arbre et représentent tous les

résultats possibles d’une décision.Facile à comprendre.

• Rarement utilisé de manière isolée à des fins de prédiction car souvent trop simple et trop peu puissant pour des données complexes.

FORÊT ALÉATOIRE

Tire parti des nombreux arbresde décision, sur la base de règlesissues de sous-échantillons de

caractéristiques. En combinant ces différents arbres

on obtient de meilleures performances.

Sorte de « sagesse des foules ». Tend à

produire des modèles de très grande qualité.

Rapide à former.

• Les modèles peuvent devenir très imposants.

• Il est difficile d’interpréter les prédictions.

GRADIENT BOOSTING Utilise des arbres de décision

encore moins performants, qui se concentrent de plus en plus sur des

exemples « compliqués ».Très performants.

• Un changement minime dans l’ensemble de caractéris-tiques ou de formation peut entraîner des changements radicaux dans le modèle.

• Il est difficile d’interpréter les prédictions.

RÉS

EAU

XN

EUR

ON

AU

X RÉSEAUX NEURONAUX Algorithme dont l’unité de base est

des neurones interconnectés de différents types (dense, convolution...).

L’apprentissage profond utiliseplusieurs couches de réseauxneuronaux empilées les unes

sur les autres.

Peut effectuer des tâches extrêmement

complexes sur des données non-

structurées (images, texte, audio)

• Très lents à former, car leur architecture est souvent très complexe.

• Il est presque impossible de comprendre les prédictions.

Page 7: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

ÉVALUATION DES MODÈLE

7

ÉVALUATION DES MODÈLE

BRAVO, VOUS AVEZ DÉJÀ CRÉÉ VOTRE MODÈLE DE MACHINE LEARNING. COMMENT SAVOIR S’IL S’AGIT D’UN BON MODÈLE ?

Cela dépend du type de modèle construit.

INDICATEURS D’ÉVALUATION DES MODÈLESIl existe plusieurs types d’indicateurs d’évaluation des modèles de Machine Learning, selon que vous travaillez avec un modèle de régression ou un modèle de classification. Pour les modèles de régression, on peut par exemple se pencher sur l’erreur quadratique moyenne et le R2. L’erreur quadratique moyenne est définie en calculant le carré de toutes les erreurs et en en faisant la moyenne par rapport à toutes les occurrences. Plus le chiffre est faible, plus vos prédictions sont précises.Le R2 (prononcez R carré) est le pourcentage de variance observé par rapport à la moyenne qui est expliquée (c’est-à-dire, qui est prédite) par votre modèle. Le R2 est toujours compris entre 0 et 1 ; plus le chiffre est élevé, meilleur est votre résultat. Pour les modèles de classification, l’indicateur le plus simple pour évaluer un modèle est sa précision. Le terme précision est un mot commun mais il existe une manière très spécifique de la calculer. La précision équivaut au pourcentage d’observations qui ont été

correctement prédites par le modèle. La précision est simple à comprendre, mais doit être interprétée avec précaution, en particulier lorsque les différentes classes à prédire sont déséquilibrées.

Il se peut que vous rencontriez un autre indicateur, la ROC AUC, qui mesure la précision et la stabilité. AUC est l’acronyme anglais de « aire sous la courbe ». En général, plus votre ROC AUC est élevée, meilleur est votre modèle.

La perte logarithmique est un indicateur souvent utilisée lors des compétitions, comme celles organisées par Kaggle, qui s’applique lorsque votre modèle produit non pas des classifications strictes (comme par exemple vrai ou faux) mais plutôt des probabilités d’appartenances à une classe (par exemple, 10% de chances d’être vrai, 75% de chances d’être vrai, etc.). Cette « log loss » pénalise plus fortement les prédictions incorrectes formulées avec un haut degré de certitude par votre modèle.

INDICATEURS ET MÉTHODOLOGIES DE SÉLECTION DU MEILLEUR MODÈLE

Page 8: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

8

SURAPPRENTISSAGE ET RÉGULARISATION

Lorsque vous entraînez un modèle à l’aide du jeu d’entraînement, le modèle apprend les schémas (« patterns ») sous-jacents de ce jeu d’entraînement afin de faire des prédictions, mais il apprend aussi les particularités des données qui n’ont aucune valeur prédictive.

Lorsque celles-ci commencent à influencer la prédiction, le modèle expliquera si bien l’ensemble de formation que ses performances avec l’ensemble de test (et avec toutes nouvelles données, d’ailleurs) s’en ressentiront. On appelle ce phénomène le sur-apprentissage, qui peut être un des principaux défis lors de la construction d’un modèle de prédiction.

Une des solutions au sur-apprentissage s’appelle régularisation : elle consiste à simplifier le modèle ou à le rendre moins spécialisé. Pour la régression linéaire, un exemple de tel processus est de type régularisation L2 et L1. Les mathématiques de ces approches ne sont pas l’objet de ce guide, mais elles sont assez simples sur le plan conceptuel.

Imaginez que vous avez un modèle de régression, qui présente plusieurs variables et plusieurs coefficients, comme suit : y = C1a + C2b + C3c..., pour lequel les C sont les coefficients et a, b et c sont les variables. La fonction de la régularisation L2 est de réduire la grandeur des coefficients, afin que l’impact des différentes variables soit minimisé.

Imaginez maintenant que vous avez beaucoup de variables (des dizaines, des centaines, voire plus) avec des coefficients faibles mais non-nuls. La régularisation L1 élimine tout simplement un grand nombre de ces variables.

Pour les modèles en arbre de décision, la régularisation s’effectue en réglant la profondeur de l’arbre. Un arbre profond (qui présente un grand nombre d’embranchements de décision) sera complexe et, plus il est profond, plus il est complexe. En limitant la profondeur de l’arbre, en le rendant plus superficiel, on accepte de perdre en précision, mais le modèle sera plus général.

ÉVALUATION DES MODÈLEÉVALUATION DES MODÈLE

Page 9: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

APPRENTISSAGE NON SUPERVISÉ (CLUSTERING

9

APPRENTISSAGE NON SUPERVISÉ (CLUSTERING

QU’EST-CE QUE L’ON ENTEND PAR APPRENTISSAGE NON SUPERVISÉ ?

Le terme non-supervisé signifie que l’on ne cherche pas à prédire une variable, mais plutôt à découvrir des schémas

(« patterns ») cachés au sein de nos données afin d’identifier des groupes, ou clusters, dans les données.

Le clustering est souvent utilisé en marketing pour regrouper les consommateurs sur la base de plusieurs caractéristiques, comme la répartition géographique, les comportements d’achat, l’âge et le genre. Il peut aussi être utilisé à des fins de recherche scientifique, pour identifier des groupes de population dans des données ADN par exemple. L’algorithme de partitionnement le plus répandu est le clustering en k-moyennes.Dans k-moyennes, on prédéfinit le nombre de clusters que l’on souhaite créer : le nombre choisi est k, qui est toujours un entier positif. Pour utiliser le clustering en k-moyennes, l’on commence par placer de manière aléatoire k points de départ dans le jeu de données. Ces points sont appelés

centroïdes et sont les représentants de nos k clusters. Ces clusters initiaux sont créés en assignant chaque point du jeu de données au centroïde le plus proche. Une fois ces clusters initiaux définis, on calcule le barycentre de chacun d’entre eux et déplace chaque centroïde sur le barycentre de son cluster respectif. Une fois l’opération terminée, comme les centroïdes se sont déplacés, il est possible de réassigner chaque point de donnée à un centroïde, de créer un ensemble de clusters actualisés et de déterminer leurs nouveaux barycentres. L’opération est ensuite réitérée un nombre prédéterminé de fois (habituellement 300 fois). Une fois le processus terminé, les centroïdes ne devraient pas s’être déplacés beaucoup, voire pas du tout.

PRÉSENTATION D’ENSEMBLE DE L’EXEMPLE LE PLUS COURANT D’APPRENTISSAGE NON-SUPERVISÉ

Page 10: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

L’ALGORITHME DE CLUSTERING EN K-MOYENNES EN ACTIO

10

L’ALGORITHME DE CLUSTERING EN K-MOYENNES EN ACTIOALGORITHME DE CLUSTERING APPRÉCIÉ, LE CLUSTERING EN K-MOYENNES IDENTIFIE LES CLUSTERS PAR PROCESSUS ITÉRATIF. LE « K » DE K-MOYENNES DÉSIGNE LE NOMBRE DE CLUSTERS, ET IL EST CHOISI AVANT QUE L’ALGORITHME NE SOIT LANCÉ.

LES CENTROÏDESTout d’abord, on choisit le nombre de clusters souhaité (huit dans ce cas). Huit centroïdes sont ainsi choisis de manière aléatoire dans le jeu de données.

ASSIGNATION DES PREMIERS CLUSTERS Chaque point de donnée est assigné au centroïde le plus proche. Cela produit le premier ensemble de clusters, représentés par différentes couleurs.

CALCUL DU CENTRE DE GRAVITÉ ET RÉPÉTITION DE L’OPÉRATIONOn calcule le barycentre (aussi appelé centre de gravité) de chaque cluster et les centroïdes sont déplacés sur ces points. Les nouveaux clusters sont ensuite formés et l’opération répétée.

CLUSTERS FINAUX L’algorithme prend fin après un nombre prédéterminé d’opérations. Dans ce cas précis, nous avons effectué 300 opérations, ce qui est un réglage habituel. Voilà, comme résultat, les clusters finaux !

Page 11: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

11

PARTIE 2PARTIE 2LE BIG DATA, POURQUOI FAIRE ? QUELQUES APPLICATIONS CONCRÈTES

Page 12: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

CAS D’USAG "LA FIXATION DYNAMIQUE DES PRIX PAR ANALYSE PRÉDICTIVE POUR PRICEMOOV"

CAS D’USAG "LA FIXATION DYNAMIQUE DES PRIX PAR ANALYSE PRÉDICTIVE POUR PRICEMOOV"

Pour toute entreprise commercialisant des produits ou des services la fixation du prix optimal est absolument cruciale. C’est une tâche délicate que de trouver l’équilibre entre ce que le consommateur est prêt à payer et ce que les marges bénéficiaires de l’entreprise peuvent supporter. Les plus grandes entreprises n’ont cessé de montrer que l’optimisation des prix était une stratégie au cœur de leur succès : ainsi, le géant américain de la distribution Walmart fait évoluer ses prix plus de 50 000 fois par mois, et son taux de croissance semble témoigner de l’efficacité de cette pratique.La fixation dynamique des prix, qui est une approche hautement flexible de détermination du coût d’un produit ou d’un service, est une des manières de trouver cet équilibre optimal. Cependant, jusqu’à présent, la fixation dynamique des prix n’a en général été utilisée que par les poids-lourds du commerce en ligne et ne s’est malheureusement que peu diffusée au-delà de ce marché. Dans ce cas d’usage, vous allez découvrir une startup qui a su tirer profit de l’analytique avancé pour proposer une technique de fixation dynamique de prix à tout type d’entreprise.

LE DÉFI

PriceMoov est un service qui fait des recommandations de fixation du prix optimal à ses clients en pondérant la valeur intrinsèque du produit/service, son caractère saisonnier et les caractéristiques du consommateur lui-même grâce à une segmentation détaillée. Pour ce faire, PriceMoov collecte des jeux de données fournis par ses clients, qui sont mis à jour quotidiennement par partitionnement.

Le défi qui se présentait à PriceMoov était que les données issues de systèmes d’information anciens, Oracle ou MySql, étaient de mauvais qualité et nécessitaient le travail à plein temps d’un développeur pour effectuer de longues étapes de nettoyage ETL (extraction, transformation, chargement) en PHP. Une fois nettoyés, les jeux de données étaient laborieusement entrés dans un modèle sur mesure. Cette opération terminée, le processus de reproduction et de déploiement pour le client suivant pouvait prendre des semaines.

12

Une préparation longue et laborieuse des données entraînait des recommandations de prix dépassées

Page 13: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

PriceMoov a utilisé Dataiku Data Science Studio pour transformer ses activités en accélérant les processus de nettoyage des données et la possibilité de reproduire rapidement les workflows déjà créés. Aujourd’hui, l’équipe Data de PriceMoov utilise Dataiku pour :

• Reproduire les workflows existants afin de proposer rapidement des démonstrations de faisabilité aux clients potentiels.

• Accélérer de manière significative le nettoyage et l’exportation des données, en exploitant pleinement les possibilités de l’interface visuelle Dataiku qui permet aux profils débutants de s’atteler à cette tâche. Les data scientists avancés peuvent donc se concentrer sur la modélisation plutôt que sur la préparation des données.

• Les équipes Business peuvent renforcer leurs compétences et maximiser l’impact

de leurs efforts grâce à une interface visuelle intuitive et simple d’utilisation. À plus long terme, l’objectif est de les amener à exploiter de manière indépendante et efficace les comportements en ligne des utilisateurs.

• Mieux définir un prix spécifique par client, qui évolue au fil du temps en mêlant les données illustrant la demande et la propension à payer du client.

• Fournir des informations spécifiques aux filiales locales en appliquant rapidement un clustering géographique.

• Soumettre rapidement des options de fixation des prix aux filiales locales dans les points de vente physiques, qui peuvent choisir d’accepter ces options ou pas, et faire remonter de manière fluide l’information afin d’améliorer le modèle.

LA SOLUTIONMontée en puissance grâce à des flux de travail reproductibles

1313

Après avoir mis en œuvre Dataiku pour redimensionner leur système d’optimisation des prix et les processus connexes, PriceMoov a constaté :

• Un raccourcissement significatif des délais de production pour les modèles de fixation des prix et de prévisions.

• La création de 10 fois plus de scénarios.

• Une amélioration de la performance des équipes techniques, permettant aux nouveaux talents de se consacrer aux évolutions du produit et aux équipes de ventes de mieux distribuer le produit.

LES RÉSULTATSAugmentation significative du nombre de modèles livrés

CAS D’USAG "LA FIXATION DYNAMIQUE DES PRIX PAR ANALYSE PRÉDICTIVE POUR PRICEMOOV"

CAS D’USAG "LA FIXATION DYNAMIQUE DES PRIX PAR ANALYSE PRÉDICTIVE POUR PRICEMOOV"

En nous permettant de multiplier nos opérations, Dataiku a été déterminant dans l’accélération de notre croissance. Au vu du succès du projet initial, nous sommes impatients d’améliorer le travail déjà réalisé en passant au temps réel avec des requêtes API. Ce choix donnera à nos clients davantage d’options de fixation des prix.

Pierre HÉBRARD, CEO Pricemoov

Page 14: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

CAS D’USAG DÉTECTION DE LA FRAUDE À L’ASSURANCE CHEZ SANTÉCLAIR

CAS D’USAG DÉTECTION DE LA FRAUDE À L’ASSURANCE CHEZ SANTÉCLAIR

Qu’elles soient confrontées à des déclarations de faux sinistres, à des factures frauduleuses, de la rétention d’informations ou bien d’autres risques, toutes les compagnies d’assurance sont exposées au risque de fraude. Le secteur se doit donc d’être à la pointe de la technologie pour garder un temps d’avance sur les fraudeurs et minimiser ses pertes. Les ressources des services de lutte contre les fraudes étant limitées, chaque enquête sur un dossier finalement « sain » est une perte de temps.

Embaucher plus de personnel pour mener ces contrôles manuels est une option coûteuse et inefficace. La clé est plutôt d’optimiser le travail de cette équipe en exploitant le big data pour détecter avec précision les activités suspicieuses. Cette ambition nécessite de recourir à des données provenant de multiples sources et de les analyser afin que les équipes d’investigation ne se concentrent que sur les dossiers à haut risque pour détecter plus de cas de fraude.

LE DÉFIS’attaquer aux fraudeurs sophistiqués

Prenons l’exemple de Santéclair, un réseau de santé membre d’Allianz. Cette compagnie d’assurance a découvert que les demandes de remboursement frauduleuses émanaient aussi bien d’opticiens que de patients, mais l’entreprise n’avait pas de système à sa disposition lui permettant d’analyser de manière efficace les données pertinentes, tout en s’adaptant au degré de sophistication toujours plus élevé des fraudeurs. Jusqu’à là, les équipes utilisaient des règles opérationnelles de type « si-alors-sinon » pour identifier les cas de fraude probables, monopolisant le temps des équipes d’investigation sur des dossiers à faible risque. Avec l’augmentation du volume de remboursement (plus de 1,5 million demandes par an), Santéclair se devait d’améliorer son efficacité et sa productivité.

14

EXPLOITER LES DONNÉES POUR IDENTIFIER AVEC SUCCÈS LES DÉCLARATIONS DE SINISTRES FRAUDULEUSES

Page 15: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

15

LA SOLUTIONExploiter l’automatisation et l’apprentissage automatique avancé

Santéclair a découvert le Dataiku Data Science Studio lors d’une démonstration de faisabilité par la plateforme IMT TeraLab. Partenaire de Dataiku, Eulidia a développé un algorithme qui exploite DSS pour orienter les équipes de contrôles vers les dossiers les plus suspicieux.

À l’aide de Dataiku, ce gain de productivité a été possible grâce à des algorithmes avancés de Machine Learning continuellement ré-entraînés sur les dernières données pour identifier tout nouveau schéma de fraude.

Ces algorithmes combinent des centaines de variables issues de différents datasets, dont les dossiers médicaux des assurés, les archives des médecins prescripteurs, des graphiques d’interaction, des caractéristiques prescriptives et d’autres données contextuelles.

Dataiku gère l’intégralité du workflow, des données brutes à la mise en route du modèle de prédiction jusqu’aux applications opérationnelles.

Dans le même temps, les équipes de Santéclair ont pu développer leurs compétences en science des données grâce à l’interface collaborative et facile d’utilisation de Dataiku. Les équipes business ont ainsi pu gagner en indépendance et n’ont plus à solliciter les services techniques pour chacun de leurs besoins.

L’IMPACT

Grâce à la solution complète développée par Dataiku et Eulidia, Santéclair a pu :

• Permettre à ses équipes de détection des fraudes de cibler les cas de fraude effectifs 3 fois plus efficacement.

• Réaliser d’importantes économies pour leurs assurés en luttant contre les comportements

frauduleux au sein du réseau de santé et en excluant les fraudeurs.

• Gagner du temps grâce à un modèle mis à jour et contrôlé de manière automatique tout au long du processus pour éviter les dérives de performance, et ce avec une supervision humaine limitée.

Dégager des économies pour les assurés avec une détection de fraude 3 fois plus efficace

CAS D’USAG DÉTECTION DE LA FRAUDE À L’ASSURANCE CHEZ SANTÉCLAIR

CAS D’USAG DÉTECTION DE LA FRAUDE À L’ASSURANCE CHEZ SANTÉCLAIR

15

Page 16: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

16

PARTIE 3PARTIE 3PASSER AU CONCRET: 7 ÉTAPES POUR LE SUCCÈS DE VOTRE PROJET BIG DATA

Page 17: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

17

COMMENT COMMENT Si vous êtes encore en train de lire ce guide c’est que vous avez

maintenant envie de faire progresser votre entreprise dans un projet

d’analytique avancé. Tout bon projet d’analytique commence

par un POC (proof of concept) réussi. Le POC correspond au premier

test analytique que vous allez tenter, sur un délai raccourci pour

vous assurer de la faisabilité globale de votre projet.

Nous vous proposons dans cette dernière partie un résumé

des 7 étapes à suivre pour assurer le succès de votre POC.

CHOISISSEZ UN CAS D’UTILISATION RÉEL ET CONCRET

La première étape pour conduire une POC réussie, et probablement la plus importante, est de choisir un cas d’utilisation. Sans cas d’utilisation, votre POC ne peut pas prendre forme.

Le but d’un POC n’est pas de se pencher sur un seul problème spécifique mais plutôt de faire un premier pas vers la mise en place d’une entreprise orientée vers l’analytique avancée. Cependant, il est également nécessaire de choisir un cas d’usage concret sur lequel baser le POC. Sans cela, vous n’obtiendrez pas de produits livrables ou de résultats à évaluer. Comment affiner le cas d’utilisation pour votre POC ?

Les POC peuvent être de toutes les tailles et de toutes les formes : ils peuvent confirmer une solution entièrement nouvelle à un problème auquel vous ne vous étiez jamais attaqué ou permettre d’envisager une nouvelle solution à un problème existant. Pour commencer, dressez une liste des problématiques capitales de votre entreprise parmi lesquelles vous pourrez choisir, en sollicitant éventuellement auprès d’autres équipes des retours d’informations.

Page 18: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

COMMENT COMMENT EXAMINEZ LES DÉFIS DE VOTRE LISTE ET DÉTERMINEZ :

Où sont stockées les données et comment y accéder ?

Ces facteurs peuvent potentiellement influencer la prise de décision s’ils sont susceptibles d’accélérer ou de ralentir fortement le POC.

Êtes-vous prêts à travailler sur ce cas d’utilisation avec un partenaire externe ?

Étant donné que vous allez travailler sur ce POC avec un partenaire, assurez-vous que le cas d’usage sélectionné en est un pour lequel vous êtes prêt à impliquer une tierce partie.

Quel est le retour sur investissement ?

La solution proposée doit vous faire gagner de l’argent, vous aider à en économiser, ou vous apporter quelque chose de bénéfique que vous ne pouvez pas faire à l’heure actuelle. Si la réponse est « peut-être » ou « non », rayez-le de la liste. Le POC doit se concentrer sur des opportunités aux résultats réels et quantifiables qui dégagent un retour sur investissement, à court ou à long terme.

Quel est le processus actuel ?Par exemple, si une de vos problématiques d’entreprise est de baisser le taux de résiliation de vos clients, comment calculez-vous actuellement ce taux, qui en est chargé, quelles mesures de prévention sont actuellement en place pour lutter contre la perte de clientèle, etc ?

L’analytique avancée vous aiderait-elle à régler ce problème d’entreprise et, si oui, comment ?

Pour reprendre l’exemple de la perte de clientèle, la réponse pourrait être de produire des prédictions concernant les utilisateurs susceptibles de ne plus avoir recours à vos produits ou services, et que l’équipe marketing pourrait alors cibler spécifiquement.

Disposons-nous des données nécessaires à ce POC ?Lors du choix d’un cas d’usage, assurez-vous

de vous orienter vers un cas pour lequel vous disposez déjà de données. Si vous êtes obligés de collecter des données avant de pouvoir initier votre POC, cela prolongera de manière significative le processus.

18

Page 19: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

19

COMMENT COMMENT Sur cette base, nous vous conseillons d’utiliser les sections suivantes

pour réduire le nombre des candidats et trouver le cas d’usage

qui sera le plus pertinent. Les meilleurs cas d’usages seront exécutables

dans les délais fixés, engendreront des produits livrables clairs

et pourront être mis en production pour donner des résultats visibles.

TENEZ-VOUS EN À UN CALENDRIER RAISONNABLE

En général, 60 jours au maximum* sont suffisants pour un POC car ce délai vous permet de mener à bien l’évaluation sans solliciter trop longtemps vos collaborateurs, qui doivent gérer d’autres travaux et projets en cours.

Pour les petites et moyennes entreprisesIl est généralement possible de choisir un cas d’usage qui puisse être étoffé et finalisé (déploiement en production compris) au cours des deux ou trois premiers mois de ce calendrier. Cela peut impliquer de fixer des objectifs modestes, en sacrifiant les problèmes les plus complexes au profit de problèmes simples dont la résolution présente le plus grand impact potentiel.

Pour les grandes entreprisesCaractérisées par plus de frais généraux et de processus, cela ne sera peut-être pas possible. Cependant, au lieu de rallonger le calendrier du POC, ce qui mobilise de précieuses ressources plus longtemps que souhaitable, il est recommandé de séparer le projet et conduire des tests réduits et circonscrits en parallèle avec toutes les autres équipes impliquées. En d’autres mots, travaillez simultanément sur des aspects limités d’un problème plus vaste plutôt que de vous attaquer à l’ensemble du problème par un long POC.

Remarque : Sans compter l’investissement de temps initial pour le travail préliminaire (installations, configuration, etc.)

Page 20: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

20

COMMENT COMMENT

DÉFINISSEZ CLAIREMENT LES PRODUITS LIVRABLES

Évidemment, un des facteurs les plus importants pour pouvoir restreindre le POC à un calendrier raisonnable est la présence de résultats et de produits livrables. Sans ces derniers, le processus peut s’éterniser, car personne n’est complètement sûr de ce qui peut être considéré comme achevé et ou comme une réussite.

Dans l’idéal, le produit livrable final est le fait de mettre en production le projet data sur la base du cas d’usage sélectionné (voir point n°5). Selon la taille du projet cela n’est cependant pas toujours faisable. Aussi, prévoir des produits livrables intermédiaires pour les équipes impliquées afin d’évaluer le volet du projet dont elles ont la charge peut se révéler utile et permettre au POC d’évoluer.

Page 21: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

21

COMMENT COMMENT

IMPLIQUEZ LES BONNES PERSONNES

Pour conduire un POC réussi et efficace, il est nécessaire d’impliquer des collaborateurs issus de tous les services de votre entreprise. Les data scientists et analystes data seront, bien évidemment, ceux qui participeront de plus près au projet. Cependant, l’équipe IT devra aussi tester la capacité de la solution à être mise en production, et toute équipe business qui participe au projet ou sera affecté par les résultats de celui-ci doit être impliquée, tout comme les utilisateurs finaux de la solution. Pour reprendre l’exemple de la perte de clientèle, étant donné que le « client » final est l’équipe marketing, elle devra elle aussi être impliquée dans la POC en plus des data scientists et des analystes data.

Une des erreurs communes que commettent les équipes dans leur conduite d’un POC, en cherchant à limiter l’impact sur le travail des collaborateurs de l’entreprise, est de ne pas impliquer toutes les parties prenantes clés. Bien que cela parte d’une bonne intention, c’est une erreur. Tout d’abord, parce que cela empêche d’atteindre l’un des principaux objectifs d’un POC, c’est-à-dire faire le premier pas vers une entreprise intrinsèquement axée sur les données. Au lieu de cela, le travail d’analyse des données et des projets data se retrouve confiné à un nombre limité de collaborateurs. En deuxième lieu, il n’est pas possible d’évaluer correctement les résultats du POC si les services les plus affectés par le projet n’ont pas l’occasion d’apporter leur contribution. Une autre erreur est de tomber dans l’extrême en impliquant trop de collaborateurs, ce qui peut ralentir l’avancée du projet et grever son efficacité. Il n’est pas nécessaire que chaque personne qui utilisera le projet ou sera affecté par celui-ci participe à la conduite du POC : un nombre limité de représentants de chaque équipe ou service est suffisant.

Page 22: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

22

COMMENT COMMENT

PENSEZ À LA PRODUCTION

La data science ne peut pas avoir lieu en vase clos, et les POC non plus. Bien que mettre un modèle en production ne soit pas nécessairement toujours le but final d’un POC, il est tout de même crucial d’intégrer véritablement le POC dans les activités de votre entreprise afin de pleinement évaluer son impact potentiel et d’estimer s’il permettra d’atteindre les objectifs de retour sur investissement. Si votre entreprise ne procède pas déjà ainsi pour les autres projets data et analytiques (ou ne le fait pas assez bien), un POC est un bon point de départ. Tout part du « quoi » et du « pourquoi » : l’objectif d’un POC n’est pas de finaliser un simple projet mais plutôt de révéler les possibilités qu’offre le Big Data, afin que la plateforme puisse continuer à fournir des insights aux équipes même après que le POC soit achevé. Afin d’apporter cette valeur ajoutée, les projets doivent être mis en production de manière effective et non pas rester seulement à la phase de prototype ou de la sandbox.

Qu’est-ce que la mise en production signifie ?Il s’agit de la mise en œuvre de la solution dans un environnement réel. Dans le cas d’un moteur de recommandation pour du e-commerce, cela revient à installer le moteur de recommandation et à l’exécuter sur le site. Si l’on reprend l’exemple de la perte de clientèle, cela exigerait de mettre en place une solution automatisée de collecte des informations concernant les clients perdus et de les transmettre régulièrement à l’équipe pertinente (probablement l’équipe marketing). Une solution plus automatisée pourrait consister à automatiquement envoyer des offres de réduction aux clients susceptibles de quitter l’entreprise.

Au bout du compte, même si la mise en production du projet que vous avez identifié pour le POC n’est pas l’objectif principal, le fait d’inclure la production dans le champ d’application du POC vous permettra de dégager de la valeur ajoutée. Négliger la production à cette étape compromet le succès final de votre POC. En outre, la mise en production est souvent la partie la plus difficile d’un projet data : l’ignorer rendrait votre POC incomplet et empêcherait une évaluation concrète.

Page 23: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

COMMENT COMMENT

GARANTISSEZ L’AUTONOMIE

Bien souvent, un POC offre aux entreprises l’opportunité de collaborer avec des experts du Big Data, qui apporteront leur expérience du lancement et de la mise en production de projets data. Il est évidemment très bénéfique de travailler avec des entreprises expertes de l’analytique avancée car elles peuvent vous aider à éviter les erreurs élémentaires et vous guider vers les meilleurs résultats possibles. Cependant, collaborer avec des experts risque de mettre en danger votre autonomie une fois le POC achevée. Si vos équipes ne sont pas à l’aise avec tous les éléments du POC et du projet data, ils ne seront pas en mesure d’en dégager de manière autonome la même valeur ajoutée une fois le POC terminée. Ainsi, il est crucial de s’assurer que les employés de toutes les équipes impliquées dans le POC soient pleinement formés et autonomes face à tous ses éléments.

23

Page 24: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

COMMENT COMMENT

SOYEZ FLEXIBLES MAIS RESTEZ CONCENTRÉS

Un POC commence par un cas d’usage spécifique mais n’a pas de solution claire ou prédéfinie au problème business concerné : en effet, c’est précisément ce que vous allez rechercher lors du POC. Creuser dans vos données et itérer peut déboucher sur des résultats intéressants, notamment sous la conduite d’experts externes qui peuvent apporter une perspective nouvelle.

Lors des processus de POC, les équipes doivent faire preuve de flexibilité en étant prêtes à considérer des solutions non envisagées, mais doivent en même temps rester focalisées sur le problème d’origine. En fin de compte, bien que vous aurez à votre disposition des experts pour vous guider et serez probablement amenés à tester un produit que vous n’avez pas encore acquis, ce POC doit rester l’initiative de votre entreprise. Même si vous décidez finalement de ne pas utiliser la solution, vos équipes doivent retirer quelque chose de cette expérience : restez focalisé sur la valeur ajoutée à dégager, quelque soit le résultat final.

Négligez un seul de ces sept éléments et vous risquez, au mieux, de frustrer les parties prenantes du projet, au pire, de compromettre la validation du projet. En revanche, si vous suivez et respectez

ces 7 étapes, vous pourrez garantir l’efficacité de vos POCs et permettre à votre entreprise d’évaluer objectivement et simplement la réussite du POC, quelle que soit la solution retenue.

EN QUELQUES MOTS : L’ÉVALUATION DE VOTRE POC

24

Page 25: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

Dataiku, entreprise créée à Paris en 2013, développe une plateforme qui facilite et accélère l’analyse de données et le développement de services prédictifs en environnement Big Data. Convaincu que la croissance de toutes les entreprise repose désormais sur l’utilisation de leurs données, Dataiku vise à décupler leurs capacités d’analyse et à les propager, afin qu’elles puissent mettre en œuvre les innovations data de demain.

La plateforme analytique intégrée de Dataiku permet aux équipes de concevoir, modéliser, développer et lancer leurs projets data de manière plus efficace. Cette plateforme libre est conçue pour s’adapter à l’évolution des langages de programmation, des technologies de stockage et des techniques de Machine Learning. Elle est conçue pour répondre aux besoins et attentes des analystes débutants comme des data scientists avancés.

Caractéristiques de la plateforme de Dataiku :

IntégréeDe l’intégration des données à leur mise en production, Dataiku vous permet de gérer votre projet data de A à Z. Il se connecte directement aux sources de données pour proposer préparation visuelle, reproductibilité des données pour aboutir à un déploiement robuste en production.

CollaborativeGrâce à ses interfaces visuelles et possibilités de codage, tous les participants peuvent travailler sur les mêmes projets, quels que soient leurs outils favoris ou leurs compétences. Des outils de communication et documentation permettent de partager des informations sur tous vos projets.

Open SourceLes solutions open source sont aujourd’hui souvent à la pointe des technologies de data science. En associant toutes ces technologies au sein d’un outil intuitif, Dataiku propose un produit unique et toujours avancé.

Vers le déploiement en productionDataiku vous permet de regrouper l’ensemble de vos workflow, de les déployer et reproduire. Le déploiement de projets data peut donc être automatisé dans le cadre d’une stratégie de production, grâce à une API REST.

PRO

POS

DE DA

TAIK

UPR

OPOS

DE DA

TAIK

U

25

Page 26: ÉDITION SPÉCIALE MACHINE LEARNING - Porte de Versailles · Dataiku est fier de participer à la 7e édition de Big Data Paris. Ce rendez-vous est devenu un incontournable du paysage

26

J-3 avant le lancement officiel du sommet le plus attendu de la scène Big Data hexagonale : LE CONGRÈS BIG DATA PARIS !

Ce dernier réunira les acteurs les plus influents de la filière, vous offrant un accès inégalé aux plus grands porteurs

de projet de la scène internationale !

Le futur du Big Data s’écrit sur Big Data Paris, réservez sans plus attendre vos 12 & 13 mars 2018 pour libérer votre potentiel data driven sur www.bigdataparis.com