big data : concepts, cas d'usage et tendances
DESCRIPTION
Présentation générales du Big Data et zoom sur des cas d'usage dans l'industrie et les services. Présentation réalisée à l'occasion de l'événement Big data de Niort du 20 mars 2014TRANSCRIPT
Big Data Tendances, perspectives et cas d’usage
20/03/2014
Jean-Michel Franco Directeur de l’innovation et des solutions [email protected] Twitter : @jmichel_franco
© 2
Définition
03/2014 Big Data
Les challenges incluent la collecte, la curation, le stockage, l’enrichissement, le croisement, la partage, l’analyse et la visualisation.
Le « Big Data » vise à tirer un avantage
concurrentiel au travers de méthodes de
collecte, d’analyse et d’exploitation des données
qu’on ne pouvait utiliser jusqu’à présent du fait des contraintes économiques, fonctionnelles et
techniques liées aux volumétries, à la
vitesse de traitement et à la variété des
données à considérer.
Source “The 451 Group” & Gartner
Source Wikipedia
© 3
Le Big data : une cible mouvante… … mais qui désormais nous concerne tous
03/2014 Big Data
1950 1960 1970 1980 1990 2000 2010
100 Pétas
20 Pétas
Assurances
600 MB
Voyages
807 MB
Transports
80 GB
40 Pétas
60 Pétas
1 Péta = 1.000.000.000.000.000 octets (1015) = 1.000.000 Giga octets = 1000 téra octets
80 Pétas
Banque
450 GB
Retail
180 TB Medias
100 PB
Medias
25 PB
© 4
Pop
ula
rité
Information disponible
Notre enjeu : le principe de la longue traîne, appliqué à la gestion de l’information
La gestion de l’information telle qu’on la connait - capital informationnel constitué sur la base des SI internes de l’entreprise - information exploitée transversalement uniquement en temps différé - information modélisée à priori
La gestion de l’information telle qu’on la voudrait La gestion de l’information telle qu’on la connait + information générés par les humains
+ information gérée par les machines + information en « juste à temps » (vitesse) + information modélisable, assemblable, et extensible au fil de l’eau (élasticité)
03/2014 Big Data
© 5
Exemple d’innovation dans la distribution: Au plus près du terrain et de la demande client
La grande distribution a été pionnière dans la mise en œuvre de data warehouses d’entreprise, notamment pour l’analyse des données extraites des tickets de caisse.
Mais il devient nécessaire de tirer encore plus de valeur de ces données, d’approfondir les capacités d’analyse et de les rendre « actionnables » .
Gestion plus fine et dynamique des prix de vente
Personnalisation des offres pour les programmes de fidélité
Gestion proactive des fraudes
Ajustement de l’offre et de la demande, par zone géographique
Gestion du on line multi-canal (e-commerce, magasins, drive)
03/2014 Big Data
© 6
• Passer d’une économie de l’attention à une économie de l’intention
• Tester le bien fondé des offres, les remettre en cause en permanence
• Offrir le même niveau de service au travers des canaux d’interaction
• Mieux “maitriser” les recommandations associées aux hôtels du groupe et les interactions avec les promoteurs et détracteurs
Exemple d’innovation dans le secteur de l’hôtellerie: recommandations temps réel
Améliorer le taux de transformation (ROI en neuf mois)
Capacité à tester les nouvelles offres, et de les retirer si peu efficaces
Capacité d’écoute, de réactivité et d’ « influence » sur les promoteurs et détracteurs
Fédération de la connaissance client pour s’adapter aux changements d’organisation et intégrer les médias sociaux
Offre et communication personnalisée pour chaque client
03/2014 Big Data
© 7
Exemple d’innovation dans les utilities : Le « Smart Watering »
(*) Source : SIA conseil
En France , 25% de l’eau injectée sur le réseau est perdue en fuites et fraudes ; Le manque à gagner pour les citoyens s’élève à 2,4 milliards d’euros par an. (*)
Les canaux numériques et l’Internet des objets ouvrent de nouvelles opportunités pour collecter/exploiter les données, et les mettre à disposition de tous
Informations en temps réel sur les débits et la qualité de l’eau
Services à valeur ajoutée pour les consommateurs et les collectivités
Détection au plus tôt des problèmes sur le réseau et en bout de chaine
Engagement commun au principe de consommation responsable
Automatisation du processus de collecte
03/2014 Big Data
© 8
Exemple d’innovation dans le secteur des assurances : innover par de nouvelles offres
Une start-up dédiée à l’assurance des exploitations agricoles face aux aléas du climat.
La collecte d’un ensemble d’informations à un niveau très fin sur les températures, l’humidité, les précipitations…
Des offres personnalisées pour chaque agriculture en fonction des spécificités de son exploitation et de son environnement
Gestion des sinistres totalement dématérialisés : paiement automatisé en fonction des conditions
Un potentiel de déploiement sans limites géographiques, permettant d’atteindre des marchés encore peu exploités
03/2014 Big Data
© 9
Exemple d’innovation dans le secteur des assurances : gestion des fraudes
Appliquer les principes du Scoring Crédit pour analyser les déclarations de sinistre.
Exploitation des données non structurées pour mettre en exergue les incohérences dans les déclarations
L’aide à la décision poussée sur le terrain au plus près des clients
Taux de succès des investigations : de 50 à 85%
25% des dossiers sont réglés dès le première étape, contre 4% auparavant
Le scoring influence la suite du processus et améliore son efficacité (aide à la décision « actionnable »)
Le système est actif lors de la déclaration de sinistre, ce qui incite le client à renoncer à poursuivre s’il se sent suspecté
03/2014 Big Data
© 10
Exemple d’innovation dans le secteur des utilities -> un « datalab »
pour découvrir les données concurrence et les croiser avec les données internes
Lyonnaise des Eaux est leader sur la qualité de l’eau et cherche à conforter son
leadership en se dotant d’un outil de benchmark permettant l’analyse de ses
performances et la comparaison avec les autres délégataires et régies.
Récupérer des données publiques à partir de sources de données non structurées et externe au S.I (site web http://www.sante.gouv.fr)
Création d’un « datalab » sur le cloud permettant à un « data scientist » de qualifier la qualité de données et de les rapprocher avec les données internes de l’entreprise
03/2014 Big Data
© 11
Data Warehouse
Systèmes transactionnels
Systèmes décisionnels d’entreprise
Big Data
De la BI telle qu’on la connait au Big Data : à la recherche de la « longue traine »
Exploiter et fédérer les données « non structurées »
Documents, contenu numérique riche…
Données publiques du web et réseaux sociaux
Aller puiser la connaissance dans de nouvelles sources de données structurées
Capteurs, Internet des objets
Données externes
Etendre les principes fondateurs des concepts du Data Warehouse et l’Information Management :
Immédiateté Précision Agilité
03/2014 Big Data
© 12
Big Data : pour qui, pour quoi ?
Industrie
• Produit comme un service
• Qualité, innovation R&D
• Maintenance préventive
Assurance
• Fraudes et risques
• Recommandation client
• Tarification à l’usage, personnalisation
Secteur public
• Services informationnels
• Fraudes, abus
• Sécurité publique
• Personnalisation de la relation citoyen
Distribution
• Offres temps réel et service personnalisés
• Optimisation de l’expérience magasin
• Pricing dynamique
Santé
• Gestion des effets indésirables
• Traitements personnalisés.
• Amélioration des diagnostics
Telecom
• Parcours clients multi-canaux
• Partage de données de géo localisation
• Fraudes et analyse du comportement client
Banques
• Parcours clients multi-canaux
• Fraude, anti blanchiment
• Partage des données consommateurs pour personnalisation
Transports, loisirs • Planification et gestion des
evts liés à la logistique
• Service client temps réel
• Economie d’énergie
• Pricing dynamique
Produits gde conso.
• Analyse de sentiments et retour produits
• Relation personnalisée avec le consommateur
• Produit comme un service
03/2014 Big Data
Des arômes et ingrédients qui se déclinent dans tous les secteurs d’activité
© 13
Le Big Data, appliqué au rôle d’étudiant, ça donnerait quoi ?
http://www.knewton.com/platform/resources/
03/2014 Big Data
© 14
Le big data : avec quelles données ?
Tous secteurs confondus
Banque et services financiers
03/2014 Big Data
© 15
Le big data : Pour quoi faire ?
La relation client avant tout, puis l’efficacité des processus et l’innovation
0 10 20 30 40 50 60
Expérience client
Efficacité des processus
Innovation produit
Marketing ciblé
Réduction des coûts
Gestion des risques
Monétisation de l'information
Governance et réglementations
Sécurité
Autres
03/2014 Big Data
Sources : Gartner
© 16
Si l’information devient un actif, alors il faut s’organiser et se spécialiser en conséquence
03/2014 Big Data
Sources : R Casonato/Gartner : Addressing the Big Data Skills Crisis
© 17 03/2014 Big Data
“Institutions are becoming naked, and if you're going to be naked … fitness
is no longer optional. If you're going to be naked, you better get buff.”
Vers un monde de plus en plus transparent… pour le meilleur et pour le pire
Don Tapscott : four principles for the open world
• Ne pas utiliser la donnée au-
delà d’un périmètre bien
délimité
• Traitez les autres comme
vous accepteriez d’être
traités
• Solliciter le consentement,
partagez les résultats et les
bénéfices avec vos
partenaires
Source : F Buytendijk
Définir au plus tôt son
éthique vis-à-vis du big data
© 18
Quelles technologies pour le Big Data ?
Sources : Ray Wang
03/2014 Big Data
© 19
Appliances
Bases de données
analytiques
In memory analytics
In memory Extreme
processing
Moteurs de recherche
NoSQL
Zoom sur Les technologies de gestion des données (« stockage ») : la taille unique n’existe pas, la solution dépend des usages
03/2014 Big Data
réinventer les principes
fondateurs des bases de données
Le Hardware à la rescousse du
software
Spécialiser la base de
données à chaque cas
d’usage
Traiter l’information
comme elle vient au fil de l’eau
S’affranchir des contraintes mécaniques
Appliquer les principes du net à l’informatique
d’entreprise
© 20
Appliances
Bases de données
analytiques
In memory analytics
In memory Extreme
processing
Moteurs de recherche
No SQL Exalead Endeca (Oracle)
Data Explorer(IBM) Autonomy (HP)
Teradata Pure Data (IBM) Exadata (Oracle)
Vertica / Autonomy (HP)
Paraccel (Actian) Sybase IQ (SAP)
Infobright Bases Olap
Streams (IBM) Times Ten (Oracle) Aleri et Hana (SAP) Teracota (Software
AG) Streambase (Tibco)
SQLServer 2014 (MS)
Exalytics (Oracle) Hana (SAP) xVelocity
(Microsoft) DB2 BLU (IBM)
SAS LASR Analytic Server…
Hadoop (IBM, MS, Oracle, Intel,
Cloudera, Hortonworks),
Mongo DB, Cassandra Lotus Domino
Les technologies de gestion des données : exemple
03/2014 Big Data
© 21
Appliances
Bases de données
analytiques
In memory analytics
In memory Extreme
processing
Moteurs de recherche
NoSQL
Volume
Temps Réel
(Vitesse)
Variété
Les technologies de gestion des données (« stockage ») : la taille unique n’existe pas, tout dépend des usages
03/2014 Big Data
© 22
La technologie phare du Big Data
Hadoop
Distributed File
System (HDFS)
File Sharing & Data
Protection Across
Physical Servers
MapReduce
Distributed Computing
Across Physical Servers
Hadoop est un framework Java qui
permet de constituer une plateforme
Big Data complète
Adaptable sur des très gros
volumes
Tolérant aux pannes
Open source
Hardware « banalisé »
CORE HADOOP COMPONENTS
03/2014 Big Data
© 23
Pourquoi Hadoop ?
Source : P Russom – TDWI Best practices report ; Integrating Hadoop into BI & Data Warehousing
03/2014 Big Data
© 24
Hadoop : freins et axes d’amélioration
Source : P Russom – TDWI Best practices report ; Integrating Hadoop into BI & Data Warehousing
03/2014 Big Data
© 25
Quelles évolutions pour Hadoop ?
Intégrer le temps réel (Fast Data)
• Base Colonne (Hbase)
• Spark (in memory)
• Storm-Yarn :
• Calculs en temps réel sur les données
• Gestion des données au fil de l’eau (streams)
Faciliter les accès aux données structurées et l’interactivité avec SQL
• Impala (Cloudera)
• Drill (Mapr)
• Stinger (Hortonworks)
• Evolutions Hive, Hadapt
Ecosytème « on top » autour de Hadoop
• Intégration de données (Talend, Syncsort, Revelytix…)
• Accès aux données (Datameer, Karmasphere…)
• Data mining ( R, Weka )
03/2014 Big Data
© 26
Big Data Tendances, perspectives et cas d’usage
20/03/2014
Jean-Michel Franco
Directeur de l’innovation et des solutions
Twitter : @jmichel_franco
© 27
Table ronde Big Data et industrie, services et retail
20/03/2014
© 28
Table ronde : Big Data et industrie, services, retail
Avec
Denis Weiss
DSI
La poste Industrie
Michael Lanotte
Responsable R&D
Itron
Jérôme Cornillet
Business Solutions Manager
Sas
Jean-Pierre Lartige
Délégué Poitou Charentes
Orange
Baptiste Jouffroy
Sales Manager Europe
GE Intelligent Platforms
Jean-Michel Franco
Directeur Innovation
Business & Decision
03/2014 Table ronde : Big Data et industrie
© 29
Imagination at work.
Baptiste Jouffroy
20 mars 2014
Big Data GE Intelligent Platforms
03/2014 Table ronde : Big Data et industrie (General Electric)
© 30
Le Big Data pour l’Industrie De quoi s’agit-il?
Equipements et Processus
Temps réel
Haute fréquence
Température
Pression
Vitesse
Jusquà la milliseconde Des Millions d’échantillons
archivés plusieurs années
Modélisation, Analyse
Prédictive et
Diagnostic
Définition 1 Type de
données 2
Echantillonnage 3 Archivage et Analyse Prédictive 4
03/2014 Table ronde : Big Data et industrie (General Electric)
© 31
Objectifs : Analogie
Big Data
Amazon
Que vont acheter les adolescents en Europe ?
Mon compresseur opère-t-il dans de bonnes conditions ?
Big Data
Industriel Machines
Capteurs
Temps Réel
03/2014 Table ronde : Big Data et industrie (General Electric)
© 32
Le Big Data pour l’Industrie De quoi s’agit-il?
03/2014 Table ronde : Big Data et industrie (General Electric)
Réduire les arrêts non programmés
Améliorer la fiabilités des équipements
Réduire les pertes de production
Optimiser les coûts de maintenance
© 33
Michaël Lanotte / Responsable R&D Itron v1.1
BIG DATA & COMPTEURS INTELLIGENTS
03/2014 Table ronde : Big Data et industrie (Itron)
© 34
Vélocité
s, min, h, jour
Le contexte client Les compteurs communicants
* = Volume Variété
Alarmes & Logs
Profil de consommation
Qualimétrie réseau
Performance
Index de facturation
…
5 milliards / jour * Profil de consommation 10min
sur 35M de compteurs
03/2014 Table ronde : Big Data et industrie (Itron)
© 35
» Des centaines de produits sous test…
…des milliers de lignes de LOG à la seconde
» Une masse de données
à transformer en informations utiles
Analyser en temps réel Cas d’utilisation 1 – Indexer, rechercher & corréler des données non fonctionnelles (logs)
Notre centre d’essai de performance & d’endurance
Un outil d’analyse des logs
Indexer
Rechercher
Corréler
03/2014 Table ronde : Big Data et industrie (Itron)
© 36
» Expertise sur l’amélioration des performances de collecte terrain
» Analyse de l’indicateur horaire de qualité des communications CPL
• 1 site avec 280 compteurs sur 5 mois => 1.000.000 mesures
Projet pilote dans le comptage communicant
Mettre en valeur des données en masse Cas d’utilisation 2 – Qualité des communications CPL
Utilisation d’une représentation graphique pour faciliter l’analyse
» Suite à l’application de nouveaux paramètres optimisés
• Pics moins nombreux & moins prononcés, meilleure performance (+ vert)
Mai’12 Jan’12 Changement paramètres
le 20/03/12
03/2014 Table ronde : Big Data et industrie (Itron)
© 37
Flux Vision Une solution Orange Data & Analytics
Jean-Pierre Lartige - Orange 20 Mars 2014
© 38
Une exploitation des données des mobiles totalement anonymes !
Mesure des flux de population
Flux de véhicules sur les axes routiers
Mouvements de foules sur des évènements
Analyse des typologies de population
Une version complètement adaptée au tourisme
Au service du marketing et de la vente
03/2014 Table ronde : Big Data et industrie ( Orange)
© 39
Cas d’usage pour un distributeur
03/2014 Table ronde : Big Data et industrie (Orange)
© 40
Flux Vision : indicateurs statistiques permettant l'analyse de la mobilité d’une population
?
?
? ?
Zone : IRIS
Fréquentation (personnes différentes)
Fréquence
Durée de la présence
Tranche horaire
Lieu de résidence, lieu de travail
Origine / destination
Résidents / touristes
Profils socio-demo
Prédiction de trafic
Fréquentation indoor
Webservice France entière
03/2014 Table ronde : Big Data et industrie (Orange)
© 41
Visualisation des données
03/2014 Table ronde : Big Data et industrie (Orange)
© 42
Les + de Flux Vision
fiabilité des résultats (volumes, événements réseaux)
fraicheur des données (jursqu’au temps réel)
personnalisation des rapports
respect de la loi et de la vie privée des clients Orange
une offre compétitive et complémentaire
CNIL
1 2 3 4 5
03/2014 Table ronde : Big Data et industrie (Orange)