institut galilÉe sÉminaire business analytics, 18/01/2013 enjeux, rÉalitÉs et impacts dans les...
TRANSCRIPT
INSTITUT GALILÉE SÉMINAIRE
BUSINESS ANALYTICS, 18/01/2013
ENJEUX, RÉALITÉS ET IMPACTS DANS LES ORGANISATIONS
REDA GOMERY, DIRECTEUR BI, KEYRUS
2
© K
eyru
s -
All
right
s re
serv
ed
Enjeux : une prolifération constante des données
BIG DATA – PRÉSENTATION
…de données stockées en 2011
(*)1,8 Zo(*)1,8 Zo
…de données générées sur internet en 2010
800 Md Go 800 Md Go …de croissance des données prévueSur la seule année 2012
48%48%
…de croissance annuellesdes données non structurées
50 à 75%50 à 75%
* Estimations de différents analystes type IDC
3
© K
eyru
s -
All
right
s re
serv
ed
Enjeux : L’augmentation des capacités analytiques
BIG DATA – LES APPORTS BUSINESS
L’analyse des données brutes pour des analyses plus fines
L’accès aux données non-structurées permet d’enrichir les analyses quantitatives de la BI
traditionnelles avec des informations de contexte, de contenu, afin d’en comprendre le
sens et d’en extraire des séquences ou des phénomènes
Par exemple, on pourra, analyser les contacts clients avec le call center en explorant le
contenu des emails, des appels vocaux, et mixer ces informations avec la navigation sur
le site internet, l’étude des messages échangés sur les réseaux sociaux (facebook,
twitter, linkedin, …) pour comprendre les tendances : de quels produits parle-t-on le plus?
Est-ce en bien ou en mal? Quels seraient les nouveautés intéressantes?...
La détection de phénomènes et séquences (patterns)
En explorant une grande masse d’information, l’analyse big data a le potentiel de faire
émerger des phénomènes récurrents conduisant à des résultats souhaités
Par exemple, on pourra analyser la navigation d’un client sur internet qui le conduit à
effectuer un achat, ou encore, on pourra déterminer quels sont les influenceurs qu’il faut
cibler pour réduire des coûts de communication.5
4
© K
eyru
s -
All
right
s re
serv
ed
Enjeux : L’augmentation des capacités techniques
BIG DATA – LES APPORTS BUSINESS
Très hautes performances
Les systèmes big data en s’intégrant au SI offre des capacités à gérer de très gros
volumes de données et peuvent à ce titre être également utilisés pour la BI
traditionnelle et permettre d’excellent temps de réponse aux requêtes complexes
parcourant un important volume de données.
D’autre part, en effectuant des traitements d’analyses directement en base de
données, l’étape d’extraction des données de l’entrepôt vers un espace d’analyse est
supprimée, ce qui permet de réduire les délais de mise à disposition des données
d’analyse et d’augmenter la fréquence des itérations.
Temps réel : Des analyses supportant la mise en place d’alertes et de
recommandations sur combinaisons d’événements
Les analyses big data permettent alors d’implémenter dans les systèmes, des moteurs temps
réel de recommandations et d’alertes qui aident les opérationnels à prendre les bonnes
décisions
5
© K
eyru
s -
All
right
s re
serv
ed
Enjeux : Applications sectorielles
BIG DATA – LES APPORTS BUSINESS
Amazon.com est un des pionniers des recommandations produits basées sur le big data en analysant
l’historique des achats, les notes des produits, les webs logs et les commentaires laissés sur son site.
Quelques autres exemples de cas métier :
6
© K
eyru
s -
All
right
s re
serv
ed
Réalités : Concept BIG DATA et questions dans les entreprises
BIG DATA – PRÉSENTATION
« Big Data » est le terme communément appliqué aux
grands ensembles de données qu’il devient difficile en raison
de leur volume, velocité ou variété/complexité (données
non-structurées) de capturer, gérer et traiter efficacement
avec les outils logiciels classiques.
Velocité
Velocité VariétéVariété
VolumeVolume
Qui est concerné par le Big Data ?
Quelle est la valeur pour l’Entreprise ?
Comment identifier les usages ?Quels sont les coûts ?
Comment le décliner ? Quels sont les impacts?
Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses qu’il était impossible de faire jusqu’ici…
Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses qu’il était impossible de faire jusqu’ici…
7
© K
eyru
s -
All
right
s re
serv
ed
Réalités : D’un cercle vertueux à une chaine infernale
LA REMISE EN CAUSE DU MODÈLE CLASSIQUE
L’état de l’art
Des besoins métiers et des cas d’usage bien identifiés
Une catégorisation des besoins: reporting opérationnel, reporting décisionnel, reporting stratégique
Des spécifications et des développements pour répondre aux besoins exprimés
Un architecture en trois couches: ODS, DWH, DM
Un modèle dénormalisé et optimisé
Des outils rapides à mettre en œuvre et souples
Réactivité et maitrise de l’évolution des besoins
La vraie vie
Un manque de visibilité sur les cas d’usages et les besoins
Une méconnaissance des données existantes
Des applications en difficulté: traitements de rafraichissement trop long/des requêtes et rapport lents/Nombre importants de requête en simultané
Une modélisation décisionnelle qui atteint ses limites
Des données cloisonnées et des applications en silos
Des problèmes de cohérence et de qualité des données
Des projets en dérive, des utilisateurs mécontents
DW
8
© K
eyru
s -
All
right
s re
serv
ed
Réalités : De nouvelles donnes
LA REMISE EN CAUSE DU MODÈLE CLASSIQUE
Une augmentation constante voire l’explosion du patrimoine de données de l’entreprise
Une exploitation de nouvelles sources de données (réseaux sociaux) et de données non structurées
Une évolution des habitudes de consommation de l’information « Web 2.0 »
De nouveaux usages (BI mobile, BI temps réel…)
Un besoin de transversalité en forte progression
Des exigences accrues en terme de réactivité
Des transformations fonctionnelles et sectorielles profondes (ex: capteurs intelligents dans le secteur de l’énergie)
Le renforcement des rôles de « data analyst », « data scientist »
Le développement de l’acquisition de données externes et de providers de données
9
© K
eyru
s -
All
right
s re
serv
ed
DATA WAREHOUSE(BI traditionnelle)
Impacts : Les différences entre Data warehouse traditionnel et Analyses Big data
BIG DATA – PRÉSENTATION
Les environnements d’analyses Big data ne visent pas à remplacer la BI/data warehouse traditionnels
mais à les compléter, ils doivent être totalement intégrés en permettant de faire émerger des
phénomènes depuis des données brutes :
Sources traditionnelles Nouvelles sources
•Sources de données essentiellement internes, connues et structurées•Modèles de données stables•La majorité des données sont des données historiques•De nombreux rapports produits de manière récurrente
•Sources de données essentiellement internes, connues et structurées•Modèles de données stables•La majorité des données sont des données historiques•De nombreux rapports produits de manière récurrente
PLATEFORME BIG DATA
•Nombreuses sources externes•Importants volumes de données non-structurées•Besoin d’itérations rapides pour expérimenter des hypothèses•L’analyse est faite sur des données qui restent dans leur état brut
•Nombreuses sources externes•Importants volumes de données non-structurées•Besoin d’itérations rapides pour expérimenter des hypothèses•L’analyse est faite sur des données qui restent dans leur état brut
10
© K
eyru
s -
All
right
s re
serv
ed
Solutions : Le mot qui fait le Buzz
LE DÉVELOPPEMENT DU CONCEPT DE BIG DATA
Nos clients mettent en avant:
La nécessité croissante d’analyser les données cœur de métier ainsi que l’attente d’une plus grande vitesse de collecte,
de restitution voire de création de nouveaux modèles de la part des métiers.
Et la capacité à traiter de grands volumes de données.
La variété et la vélocité sont rarement un enjeux pour le décisionnel
Les directions informatiques perçoivent ce nouveau type de besoins d’analyse de la part des métiers:
Certains ont déjà implémenté une base de données en colonne spécialisée pour les environnements décisionnels
La plupart ont identifié les innovations tel que les appliances comme un levier pour la gestion de leur données
Ils perçoivent les bénéfices induits du Big Data pour l’IT
Efficacité du SI, meilleurs contrôle des données, une refonte technique mais aussi potentiellement méthodologique de la
BI
« Big Data » est le terme communément appliqué aux
grands ensembles de données qu’il devient difficile en
raison de leur volume, velocité ou variété/complexité
(données non-structurées) de capturer, gérer et traiter
efficacement avec les outils logiciels classiques.
11
© K
eyru
s -
All
right
s re
serv
ed
Solutions : Des bases de données standards aux appliances hautes performances
DES BASES DE DONNÉES STANDARDS AUX APPLIANCES HAUTES PERFORMANCES
Depuis les années 80, le marché des bases de données d’entreprises a peu évolué
Pourtant ce ne sont pas les innovations qui manquent:
NoSQL (Not Only SQL)
MPP (Massively Parallel Processing)
Stockage in memory
bases de données en colonnes, …
L’acquisition des éditeurs spécialisés par les grands éditeurs (IBM/Netezza, EMC/Greenplum, …) permet d’accélérer
l’évolution des bases de données et les outils d’analyses et l’essor des Appliances décisionnelles.
12
© K
eyru
s -
All
right
s re
serv
ed
Solutions : Acteurs du marché et solutions retenues
APPLIANCES: ETAT DU MARCHÉ
Solution MPP
In m emory
Solution MPP
In m emory
Offre initiale depuis 2011
13
© K
eyru
s -
All
right
s re
serv
ed
Solutions : Hadoop, MapReduce et extensions
BIG DATA – PANORAMA DES ÉDITEURS
MapReduce est un framework de développement inventé par Google pour effectuer des
calculs parallèles. MapReduce se décompose en 2 étapes : Dans l'étape Map le nœud à qui est soumis un problème, le découpe en sous-problèmes, et les délègue à d'autre nœuds
(qui peuvent en faire de même récursivement). Les sous-problèmes sont ensuite traités par les différents nœuds à l'aide de
la fonction Map qui à un couple (clé, valeur) associe un ensemble de nouveaux couples (clé, valeur).
Vient ensuite l'étape Reduce, où les nœuds les plus bas font remonter leurs résultats au nœud parent qui les avait
sollicités. Celui-ci calcule un résultat partiel à l'aide de la fonction Reduce (réduction) qui associe toutes les valeurs
correspondant à la même clé à une unique paire (clé, valeur). Puis il remonte l'information à son tour.
Hadoop est un framework Java open source destiné aux applications distribuées et à la
gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données sur du matériel banalisé.
L’écosystème Hadoop est composé de : Hadoop Common, HDFS, MapReduce, ZooKeeper, Avro, Chukwa, HBase, Hive,
Mahout, Flume, Pig…
Hadoop est utilisé par des entreprises comme eBay, Apple, Fox interactive Media, Disney, …
Informatica est un des leaders de l’intégration de données. HParser est un environnement de transformation de données (gestionnaire de données) optimisé pour Hadoop. Ce logiciel
d'analyse sans code et convivial permet le traitement de tout format de fichier dans Hadoop, avec adaptabilité et efficacité.
PowerExchange For SocialMedia permet l’extraction des données des principaux réseaux sociaux.
MapReduce
14
© K
eyru
s -
All
right
s re
serv
ed
Solutions
APPLIANCES – NOTRE VISION
Un paysage fractionné : Derrière le terme Appliance existe en fait un paysage où les offres sont non
alignées et ne permettent pas une comparaison simple : certaines Appliance sont des bundle
commerciaux, d’autres sont des softwares virtualisés, et même déployables en mode « Cloud »
Les cas d’usages du marché : Les retours d’expérience accessibles sont aujourd’hui ceux de mise en
œuvre de nouveaux cas d’usage, et non d’amélioration continue d’un SI Décisionnel. Pour tirer des
performances améliorées du déploiement d’une Appliance, les retours d’expérience montrent qu’il est
nécessaire de travailler sur les logiques de traitements (en imports ou internes)
De plus certaines limites de l’exercice suivante doivent être gardées à l’esprit : L’aspect coût reste au niveau « grande orientation »,
De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il n’est donc pas possible d’établir de base de comparaison stable De plus, la méthode d’appel d’offre et la mise en concurrence des offreurs est source d’une grande variabilité dans les prix obtenus (par rapport aux prix catalogues).
L’aspect performance subit le même sort : la performance dépend du serveur … et donc du prix.
En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours d’expérience sur de telles comparaisons. Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs
De plus certaines limites de l’exercice suivante doivent être gardées à l’esprit : L’aspect coût reste au niveau « grande orientation »,
De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il n’est donc pas possible d’établir de base de comparaison stable De plus, la méthode d’appel d’offre et la mise en concurrence des offreurs est source d’une grande variabilité dans les prix obtenus (par rapport aux prix catalogues).
L’aspect performance subit le même sort : la performance dépend du serveur … et donc du prix.
En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours d’expérience sur de telles comparaisons. Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs
15
© K
eyru
s -
All
right
s re
serv
ed
Points d’attention
LES PROJETS D’APPLIANCES BI
Marketing
Trop d’entreprises tentent de faire partie de cette
tendance
Les messages et bénéfices clés sont noyés dans ce
“bruit”
Présenté comme une solution à tous les problèmes BI
Ressources et compétences analytiques
Qui peut comprendre ce volume de données?
Qui a les compétences techniques ?
Qui valide les modèles et les conclusions des
analyses?
Mutation des profils technologiques
Nouveau processus de fabrication de la BI
Nouveautés technologiques montée en
compétence
Rationalisation (scalabillité)
Technologies
Beaucoup de nouvelles innovations plus ou
moins matures, peu de retours d’expérience
Coûts élevés (Hardware, Software,
compétences)
Trouver le bon indicateur de ROI pour justifier
l’investissement
Intégration au sein du SID
intégration de BD
Une adaptation des processus ETL existants
Impact sur les outils de requêtage
16
© K
eyru
s -
All
right
s re
serv
ed
BIG DATA – L’ OFFRE KEYRUS
Positionnement :Une offre complète pour vos projets Big Data
17
© K
eyru
s -
All
right
s re
serv
ed
Client DoubleVerify - Focus sur une réalisation 2012
BIG DATA – L’ OFFRE KEYRUS
Composant de l’architectureComposant de l’architecture
MPP- Based DWH that can process 1.5 – 2 billon records (~1.5 TB) a day close to real time.Providing the ability to analyze raw data and aggregated data at a high resolution, with good performance.Redesigning and developing DoubleVerify’s core business engine responsible for the verification process, combining a user-friendly reporting platform that provides both external and internal reporting requirements.Fail – safe, easy to maintain, scalable high – quality solution based on BI best practices.22 servers in production cluster (per server = 12 cores, 64GB RAM, 2.8TB diskspace on 8+2 drives).90% of all data is just 4 raw columns (and 50% is one).URLs compress 1:4, numbers+dates 1/20–1/200 (cardinality…). Scan a full day’s raw data – 1TB in 2 minutes.Raw / Daily ratios = 1/20 rows, 1/200 physical storage “Slim” / Daily ratios = 1/180 rows + physical storage, Load speed: up to 10B/day.
Performance & scalabilitéPerformance & scalabilité
Mise en place de l’architecture via la conduite du POCMise en place de l’architecture via la conduite du POC
DoubleVerify est un leader mondiale de la vérification des médias online. DoubleVerify permet aux entreprises d’avoir de la transparence sur leur campagne de communication online. Véritable interface entre les annonceurs web et les services Marketing d’entreprise, DoubleVerify permet d’assurer la qualité de l’ image de marque des sociétés sur Internet que ce soit dans les échanges des réseaux sociaux, les publicités, les emplacements et leurs fréquences d’apparition.
Le projetLe projet confié à Keyrus consiste à mettre en place l’ensemble de la solution d’analyse. La méthodologie de projet Agile était la plus adaptée pour ce projet.
Qu’est ce qu’une vérification ?Online advertising verification (def.) – Un système qui s'assure et vérifie que l'exposition des médias correspond bien aux spécifications en terme d'image, de fréquence d'apparition et de positionnement.
MPP DB - Vertica Stockage en colonne. Scalabilité.
ETL - Python scripting Framework spécifique : chargement par fichier,
templates ELT, intégrité référentiel, chargement incremental et plus.
Parallélisme, 0 dépendance. Maintenabilité : logging, error handling etc. Tests unitaires et d’intégrations automatisés.
Reporting tool - Cognos 10 Reporting Dashboard. Analyse Ad- hoc . Integration avec les outils utilisant le SDK.
Réalisation du projet Big Data de DoubleVerifyRéalisation du projet Big Data de DoubleVerify
18
© K
eyru
s -
All
right
s re
serv
ed
Objectifs ProjetL’objectif principal est l’amélioration de la performance au niveau de la persistance des données.L’objectif secondaire est que cette migration technique ne doit pas impacter les rapports déployés.
Apports fonctionnelsAucun apport fonctionnel n’est directement visé. Dans le cadre du projet, les reportings doivent rester stables.Cependant, l’augmentation de performance permettra de débloquer les demandes de nouveaux reportings (mis en suspens pour ne pas mettre en danger l’existant).
MéthodologieConduite d’un POC sur l’architecture vente-privee.com (Informatica, Microsoft) avec les Appliances de GreenPlum, Microsoft et Teradata.Déploiement de la solution finale en Production.
Spécialiste depuis plus de 20 ans du déstockage dans l'univers de la mode et de la maison, vente-privée.com s’est transformé en leader du commerce en ligne, en tant que pionnier sur un nouveau mode de consommation ; les ventes événementielles sur Internet de produits grandes marques (prêt-à-porter, accessoires de mode, équipement de la maison, jouets, high-tech, etc)Chiffres clés : 1,1 milliard d’Euro de CA en Europe. 41 millions de produits vendus, croissance annuelle de 15%.ContexteAprès 3 années de fonctionnement, pour faire face à l’augmentation de la volumétrie liée à la croissance de l’entreprise, Vente privée souhaite migrer son infrastructure décisionnelle afin de pouvoir répondre aux attentes des utilisateurs dans les années à venir :Croissance importante des volumes de stockage.Nouveaux besoins et usages de la BI par les utilisateurs finaux de plus en plus nombreux.Gestion de la qualité des données.
Client vente-privee.com - Focus sur une réalisation 2011
BIG DATA – L’ OFFRE KEYRUS
Déploiement de la solutionDéploiement de la solution
La technologie GreenPlum a permis d’atteindre les objectifs fixés en termes de performances et en termes d’innocuité sur les reporting existants.Ouverture aux mondes de la Big Data pour les services Marketing de vente-privée.com.
L’intégration des données des réseaux sociaux est actuellement à l’étude.
ConstatConstat
Mise en place de l’architecture et conduite du POCMise en place de l’architecture et conduite du POCMigration vers architecture BigData GreenPlumMigration vers architecture BigData GreenPlum
UtilisateursReporting & OLAP Platform
VP Data Centers
ELT Processes
Fram
ewo
rkF
ramew
ork
Ad
-H
oc
Ad
-H
oc
Dash
bo
ard
s
Dash
bo
ard
s
Rep
orts
Rep
orts
MPP Solution
19
© K
eyru
s -
All
right
s re
serv
ed
Contexte Le système décisionnel existant est peu fiable et ne répond pas à l’ensemble
des besoins : Pas de Modèle Conceptuel de Données. Faible sécurisation des données. Ne permet pas de combiner, croiser et construire l’ensemble des
indicateurs souhaités Manque d’évolutivité, aucune documentation. Temps de chargement long et performances de restitution inadaptée.
Le projetL’objectif est de refondre le système décisionnel existant à travers une
approche globale permettant de préparer le suivi de l’ensemble de l’activité de télécommunication:
Refonte du modèle de données Data warehouse. Mise en place de véritable Datamarts métiers permettant de construire les
indicateurs stratégiques : Client, Vente, Revenu, Communication, Crédit Management, Fidélisation, Recouvrement.
Premier opérateur alternatif de télécommunication des départements d'outremer, Outremer Telecom développe des solutions fiables, performantes et compétitives en matière de téléphonie fixe et mobile, de services Internet et Data, pour les particuliers et les entreprises.
Outremer Telecom propose ses activités en Guadeloupe, en Guyane, à la Martinique, à la Réunion et en Ile de France, et jouit d’une forte croissance, notamment dans le mobile.
Chiffres clés : 190 M€ de chiffre d’affaire. 450 000 abonnés mobile.
Client Outremertelecom - Focus sur une réalisation 2011
BIG DATA – L’ OFFRE KEYRUS
Déploiement de la solutionDéploiement de la solution
Apport majeur : capacité à tenir la charge sur des volumétries fortes à très fortes, avec des performances plus que satisfaisante Retour d’expérience : « un traitement de plusieurs heures avec SQL Server
réduit à 4 minutes et 35 secondes ». Maintien des performances suite à l’accroissement vertigineux des volumes
liés aux mobiles depuis 2007 (nombre de communications).
Scalabilité démontrée, après un projet mené en précurseur (2007).
En termes de conduite de projet, l’assurance des performances apportée par Netezza permet de se focaliser sur les besoins décisionnels métiers client : il n’est pas besoin de les limiter par d’immenses précautions lors des phases de recueil des besoins.
ConstatConstat
Mise en place de l’architecture et conduite du POCMise en place de l’architecture et conduite du POC2011 : Migration vers architecture BigData GreenPlum2011 : Migration vers architecture BigData GreenPlum
Mise en place d’une architecture de stockage Netezza adaptée en termes de performances: 3 To de données. Couverture fonctionnelle atteinte : chargement quotidien et le stockage
des tickets bruts de communication. Simplification des tâches d’administration par rapport au SI BI pré-
existant.
20
© K
eyru
s -
All
right
s re
serv
ed
Merci pour votre attention