institut galilÉe sÉminaire business analytics, 18/01/2013 enjeux, rÉalitÉs et impacts dans les...

INSTITUT GALILÉE SÉMINAIRE

BUSINESS ANALYTICS, 18/01/2013

ENJEUX, RÉALITÉS ET IMPACTS DANS LES ORGANISATIONS

REDA GOMERY, DIRECTEUR BI, KEYRUS

2

© K

eyru

s -

All

right

s re

serv

ed

Enjeux : une prolifération constante des données

BIG DATA – PRÉSENTATION

…de données stockées en 2011

(*)1,8 Zo(*)1,8 Zo

…de données générées sur internet en 2010

800 Md Go 800 Md Go …de croissance des données prévueSur la seule année 2012

48%48%

…de croissance annuellesdes données non structurées

50 à 75%50 à 75%

* Estimations de différents analystes type IDC

3

© K

eyru

s -

All

right

s re

serv

ed

Enjeux : L’augmentation des capacités analytiques

BIG DATA – LES APPORTS BUSINESS

L’analyse des données brutes pour des analyses plus fines

L’accès aux données non-structurées permet d’enrichir les analyses quantitatives de la BI

traditionnelles avec des informations de contexte, de contenu, afin d’en comprendre le

sens et d’en extraire des séquences ou des phénomènes

Par exemple, on pourra, analyser les contacts clients avec le call center en explorant le

contenu des emails, des appels vocaux, et mixer ces informations avec la navigation sur

le site internet, l’étude des messages échangés sur les réseaux sociaux (facebook,

twitter, linkedin, …) pour comprendre les tendances : de quels produits parle-t-on le plus?

Est-ce en bien ou en mal? Quels seraient les nouveautés intéressantes?...

La détection de phénomènes et séquences (patterns)

En explorant une grande masse d’information, l’analyse big data a le potentiel de faire

émerger des phénomènes récurrents conduisant à des résultats souhaités

Par exemple, on pourra analyser la navigation d’un client sur internet qui le conduit à

effectuer un achat, ou encore, on pourra déterminer quels sont les influenceurs qu’il faut

cibler pour réduire des coûts de communication.5

4

© K

eyru

s -

All

right

s re

serv

ed

Enjeux : L’augmentation des capacités techniques


Très hautes performances

Les systèmes big data en s’intégrant au SI offre des capacités à gérer de très gros

volumes de données et peuvent à ce titre être également utilisés pour la BI

traditionnelle et permettre d’excellent temps de réponse aux requêtes complexes

parcourant un important volume de données.

D’autre part, en effectuant des traitements d’analyses directement en base de

données, l’étape d’extraction des données de l’entrepôt vers un espace d’analyse est

supprimée, ce qui permet de réduire les délais de mise à disposition des données

d’analyse et d’augmenter la fréquence des itérations.

Temps réel : Des analyses supportant la mise en place d’alertes et de

recommandations sur combinaisons d’événements

Les analyses big data permettent alors d’implémenter dans les systèmes, des moteurs temps

réel de recommandations et d’alertes qui aident les opérationnels à prendre les bonnes

décisions

5

© K

eyru

s -

All

right

s re

serv

ed

Enjeux : Applications sectorielles


Amazon.com est un des pionniers des recommandations produits basées sur le big data en analysant

l’historique des achats, les notes des produits, les webs logs et les commentaires laissés sur son site.

Quelques autres exemples de cas métier :

6

© K

eyru

s -

All

right

s re

serv

ed

Réalités : Concept BIG DATA et questions dans les entreprises


« Big Data » est le terme communément appliqué aux

grands ensembles de données qu’il devient difficile en raison

de leur volume, velocité ou variété/complexité (données

non-structurées) de capturer, gérer et traiter efficacement

avec les outils logiciels classiques.

Velocité

Velocité VariétéVariété

VolumeVolume

Qui est concerné par le Big Data ?

Quelle est la valeur pour l’Entreprise ?

Comment identifier les usages ?Quels sont les coûts ?

Comment le décliner ? Quels sont les impacts?

Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses qu’il était impossible de faire jusqu’ici…

Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses qu’il était impossible de faire jusqu’ici…

7

© K

eyru

s -

All

right

s re

serv

ed

Réalités : D’un cercle vertueux à une chaine infernale

LA REMISE EN CAUSE DU MODÈLE CLASSIQUE

L’état de l’art

Des besoins métiers et des cas d’usage bien identifiés

Une catégorisation des besoins: reporting opérationnel, reporting décisionnel, reporting stratégique

Des spécifications et des développements pour répondre aux besoins exprimés

Un architecture en trois couches: ODS, DWH, DM

Un modèle dénormalisé et optimisé

Des outils rapides à mettre en œuvre et souples

Réactivité et maitrise de l’évolution des besoins

La vraie vie

Un manque de visibilité sur les cas d’usages et les besoins

Une méconnaissance des données existantes

Des applications en difficulté: traitements de rafraichissement trop long/des requêtes et rapport lents/Nombre importants de requête en simultané

Une modélisation décisionnelle qui atteint ses limites

Des données cloisonnées et des applications en silos

Des problèmes de cohérence et de qualité des données

Des projets en dérive, des utilisateurs mécontents

DW

8

© K

eyru

s -

All

right

s re

serv

ed

Réalités : De nouvelles donnes

LA REMISE EN CAUSE DU MODÈLE CLASSIQUE

Une augmentation constante voire l’explosion du patrimoine de données de l’entreprise

Une exploitation de nouvelles sources de données (réseaux sociaux) et de données non structurées

Une évolution des habitudes de consommation de l’information « Web 2.0 »

De nouveaux usages (BI mobile, BI temps réel…)

Un besoin de transversalité en forte progression

Des exigences accrues en terme de réactivité

Des transformations fonctionnelles et sectorielles profondes (ex: capteurs intelligents dans le secteur de l’énergie)

Le renforcement des rôles de « data analyst », « data scientist »

Le développement de l’acquisition de données externes et de providers de données

9

© K

eyru

s -

All

right

s re

serv

ed

DATA WAREHOUSE(BI traditionnelle)

Impacts : Les différences entre Data warehouse traditionnel et Analyses Big data


Les environnements d’analyses Big data ne visent pas à remplacer la BI/data warehouse traditionnels

mais à les compléter, ils doivent être totalement intégrés en permettant de faire émerger des

phénomènes depuis des données brutes :

Sources traditionnelles Nouvelles sources

•Sources de données essentiellement internes, connues et structurées•Modèles de données stables•La majorité des données sont des données historiques•De nombreux rapports produits de manière récurrente

•Sources de données essentiellement internes, connues et structurées•Modèles de données stables•La majorité des données sont des données historiques•De nombreux rapports produits de manière récurrente

PLATEFORME BIG DATA

•Nombreuses sources externes•Importants volumes de données non-structurées•Besoin d’itérations rapides pour expérimenter des hypothèses•L’analyse est faite sur des données qui restent dans leur état brut

•Nombreuses sources externes•Importants volumes de données non-structurées•Besoin d’itérations rapides pour expérimenter des hypothèses•L’analyse est faite sur des données qui restent dans leur état brut

10

© K

eyru

s -

All

right

s re

serv

ed

Solutions : Le mot qui fait le Buzz

LE DÉVELOPPEMENT DU CONCEPT DE BIG DATA

Nos clients mettent en avant:

La nécessité croissante d’analyser les données cœur de métier ainsi que l’attente d’une plus grande vitesse de collecte,

de restitution voire de création de nouveaux modèles de la part des métiers.

Et la capacité à traiter de grands volumes de données.

La variété et la vélocité sont rarement un enjeux pour le décisionnel

Les directions informatiques perçoivent ce nouveau type de besoins d’analyse de la part des métiers:

Certains ont déjà implémenté une base de données en colonne spécialisée pour les environnements décisionnels

La plupart ont identifié les innovations tel que les appliances comme un levier pour la gestion de leur données

Ils perçoivent les bénéfices induits du Big Data pour l’IT

Efficacité du SI, meilleurs contrôle des données, une refonte technique mais aussi potentiellement méthodologique de la

BI

« Big Data » est le terme communément appliqué aux

grands ensembles de données qu’il devient difficile en

raison de leur volume, velocité ou variété/complexité

(données non-structurées) de capturer, gérer et traiter

efficacement avec les outils logiciels classiques.

11

© K

eyru

s -

All

right

s re

serv

ed

Solutions : Des bases de données standards aux appliances hautes performances

DES BASES DE DONNÉES STANDARDS AUX APPLIANCES HAUTES PERFORMANCES

Depuis les années 80, le marché des bases de données d’entreprises a peu évolué

Pourtant ce ne sont pas les innovations qui manquent:

NoSQL (Not Only SQL)

MPP (Massively Parallel Processing)

Stockage in memory

bases de données en colonnes, …

L’acquisition des éditeurs spécialisés par les grands éditeurs (IBM/Netezza, EMC/Greenplum, …) permet d’accélérer

l’évolution des bases de données et les outils d’analyses et l’essor des Appliances décisionnelles.

12

© K

eyru

s -

All

right

s re

serv

ed

Solutions : Acteurs du marché et solutions retenues

APPLIANCES: ETAT DU MARCHÉ

Solution MPP

In m emory

Solution MPP

In m emory

Offre initiale depuis 2011

13

© K

eyru

s -

All

right

s re

serv

ed

Solutions : Hadoop, MapReduce et extensions

BIG DATA – PANORAMA DES ÉDITEURS

MapReduce est un framework de développement inventé par Google pour effectuer des

calculs parallèles. MapReduce se décompose en 2 étapes : Dans l'étape Map le nœud à qui est soumis un problème, le découpe en sous-problèmes, et les délègue à d'autre nœuds

(qui peuvent en faire de même récursivement). Les sous-problèmes sont ensuite traités par les différents nœuds à l'aide de

la fonction Map qui à un couple (clé, valeur) associe un ensemble de nouveaux couples (clé, valeur).

Vient ensuite l'étape Reduce, où les nœuds les plus bas font remonter leurs résultats au nœud parent qui les avait

sollicités. Celui-ci calcule un résultat partiel à l'aide de la fonction Reduce (réduction) qui associe toutes les valeurs

correspondant à la même clé à une unique paire (clé, valeur). Puis il remonte l'information à son tour.

Hadoop est un framework Java open source destiné aux applications distribuées et à la

gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données sur du matériel banalisé.

L’écosystème Hadoop est composé de : Hadoop Common, HDFS, MapReduce, ZooKeeper, Avro, Chukwa, HBase, Hive,

Mahout, Flume, Pig…

Hadoop est utilisé par des entreprises comme eBay, Apple, Fox interactive Media, Disney, …

Informatica est un des leaders de l’intégration de données. HParser est un environnement de transformation de données (gestionnaire de données) optimisé pour Hadoop. Ce logiciel

d'analyse sans code et convivial permet le traitement de tout format de fichier dans Hadoop, avec adaptabilité et efficacité.

PowerExchange For SocialMedia permet l’extraction des données des principaux réseaux sociaux.

MapReduce

14

© K

eyru

s -

All

right

s re

serv

ed

Solutions

APPLIANCES – NOTRE VISION

Un paysage fractionné : Derrière le terme Appliance existe en fait un paysage où les offres sont non

alignées et ne permettent pas une comparaison simple : certaines Appliance sont des bundle

commerciaux, d’autres sont des softwares virtualisés, et même déployables en mode « Cloud »

Les cas d’usages du marché : Les retours d’expérience accessibles sont aujourd’hui ceux de mise en

œuvre de nouveaux cas d’usage, et non d’amélioration continue d’un SI Décisionnel. Pour tirer des

performances améliorées du déploiement d’une Appliance, les retours d’expérience montrent qu’il est

nécessaire de travailler sur les logiques de traitements (en imports ou internes)

De plus certaines limites de l’exercice suivante doivent être gardées à l’esprit : L’aspect coût reste au niveau « grande orientation »,

De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il n’est donc pas possible d’établir de base de comparaison stable De plus, la méthode d’appel d’offre et la mise en concurrence des offreurs est source d’une grande variabilité dans les prix obtenus (par rapport aux prix catalogues).

L’aspect performance subit le même sort : la performance dépend du serveur … et donc du prix.

En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours d’expérience sur de telles comparaisons. Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs

De plus certaines limites de l’exercice suivante doivent être gardées à l’esprit : L’aspect coût reste au niveau « grande orientation »,

De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il n’est donc pas possible d’établir de base de comparaison stable De plus, la méthode d’appel d’offre et la mise en concurrence des offreurs est source d’une grande variabilité dans les prix obtenus (par rapport aux prix catalogues).

L’aspect performance subit le même sort : la performance dépend du serveur … et donc du prix.

En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours d’expérience sur de telles comparaisons. Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs

15

© K

eyru

s -

All

right

s re

serv

ed

Points d’attention

LES PROJETS D’APPLIANCES BI

Marketing

Trop d’entreprises tentent de faire partie de cette

tendance

Les messages et bénéfices clés sont noyés dans ce

“bruit”

Présenté comme une solution à tous les problèmes BI

Ressources et compétences analytiques

Qui peut comprendre ce volume de données?

Qui a les compétences techniques ?

Qui valide les modèles et les conclusions des

analyses?

Mutation des profils technologiques

Nouveau processus de fabrication de la BI

Nouveautés technologiques montée en

compétence

Rationalisation (scalabillité)

Technologies

Beaucoup de nouvelles innovations plus ou

moins matures, peu de retours d’expérience

Coûts élevés (Hardware, Software,

compétences)

Trouver le bon indicateur de ROI pour justifier

l’investissement

Intégration au sein du SID

intégration de BD

Une adaptation des processus ETL existants

Impact sur les outils de requêtage

16

© K

eyru

s -

All

right

s re

serv

ed

BIG DATA – L’ OFFRE KEYRUS

Positionnement :Une offre complète pour vos projets Big Data

17

© K

eyru

s -

All

right

s re

serv

ed

Client DoubleVerify - Focus sur une réalisation 2012


Composant de l’architectureComposant de l’architecture

MPP- Based DWH that can process 1.5 – 2 billon records (~1.5 TB) a day close to real time.Providing the ability to analyze raw data and aggregated data at a high resolution, with good performance.Redesigning and developing DoubleVerify’s core business engine responsible for the verification process, combining a user-friendly reporting platform that provides both external and internal reporting requirements.Fail – safe, easy to maintain, scalable high – quality solution based on BI best practices.22 servers in production cluster (per server = 12 cores, 64GB RAM, 2.8TB diskspace on 8+2 drives).90% of all data is just 4 raw columns (and 50% is one).URLs compress 1:4, numbers+dates 1/20–1/200 (cardinality…). Scan a full day’s raw data – 1TB in 2 minutes.Raw / Daily ratios = 1/20 rows, 1/200 physical storage “Slim” / Daily ratios = 1/180 rows + physical storage, Load speed: up to 10B/day.

Performance & scalabilitéPerformance & scalabilité

Mise en place de l’architecture via la conduite du POCMise en place de l’architecture via la conduite du POC

DoubleVerify est un leader mondiale de la vérification des médias online. DoubleVerify permet aux entreprises d’avoir de la transparence sur leur campagne de communication online. Véritable interface entre les annonceurs web et les services Marketing d’entreprise, DoubleVerify permet d’assurer la qualité de l’ image de marque des sociétés sur Internet que ce soit dans les échanges des réseaux sociaux, les publicités, les emplacements et leurs fréquences d’apparition.

Le projetLe projet confié à Keyrus consiste à mettre en place l’ensemble de la solution d’analyse. La méthodologie de projet Agile était la plus adaptée pour ce projet.

Qu’est ce qu’une vérification ?Online advertising verification (def.) – Un système qui s'assure et vérifie que l'exposition des médias correspond bien aux spécifications en terme d'image, de fréquence d'apparition et de positionnement.

MPP DB - Vertica Stockage en colonne. Scalabilité.

ETL - Python scripting Framework spécifique : chargement par fichier,

templates ELT, intégrité référentiel, chargement incremental et plus.

Parallélisme, 0 dépendance. Maintenabilité : logging, error handling etc. Tests unitaires et d’intégrations automatisés.

Reporting tool - Cognos 10 Reporting Dashboard. Analyse Ad- hoc . Integration avec les outils utilisant le SDK.

Réalisation du projet Big Data de DoubleVerifyRéalisation du projet Big Data de DoubleVerify

18

© K

eyru

s -

All

right

s re

serv

ed

Objectifs ProjetL’objectif principal est l’amélioration de la performance au niveau de la persistance des données.L’objectif secondaire est que cette migration technique ne doit pas impacter les rapports déployés.

Apports fonctionnelsAucun apport fonctionnel n’est directement visé. Dans le cadre du projet, les reportings doivent rester stables.Cependant, l’augmentation de performance permettra de débloquer les demandes de nouveaux reportings (mis en suspens pour ne pas mettre en danger l’existant).

MéthodologieConduite d’un POC sur l’architecture vente-privee.com (Informatica, Microsoft) avec les Appliances de GreenPlum, Microsoft et Teradata.Déploiement de la solution finale en Production.

Spécialiste depuis plus de 20 ans du déstockage dans l'univers de la mode et de la maison, vente-privée.com s’est transformé en leader du commerce en ligne, en tant que pionnier sur un nouveau mode de consommation ; les ventes événementielles sur Internet de produits grandes marques (prêt-à-porter, accessoires de mode, équipement de la maison, jouets, high-tech, etc)Chiffres clés : 1,1 milliard d’Euro de CA en Europe. 41 millions de produits vendus, croissance annuelle de 15%.ContexteAprès 3 années de fonctionnement, pour faire face à l’augmentation de la volumétrie liée à la croissance de l’entreprise, Vente privée souhaite migrer son infrastructure décisionnelle afin de pouvoir répondre aux attentes des utilisateurs dans les années à venir :Croissance importante des volumes de stockage.Nouveaux besoins et usages de la BI par les utilisateurs finaux de plus en plus nombreux.Gestion de la qualité des données.

Client vente-privee.com - Focus sur une réalisation 2011


Déploiement de la solutionDéploiement de la solution

La technologie GreenPlum a permis d’atteindre les objectifs fixés en termes de performances et en termes d’innocuité sur les reporting existants.Ouverture aux mondes de la Big Data pour les services Marketing de vente-privée.com.

L’intégration des données des réseaux sociaux est actuellement à l’étude.

ConstatConstat

Mise en place de l’architecture et conduite du POCMise en place de l’architecture et conduite du POCMigration vers architecture BigData GreenPlumMigration vers architecture BigData GreenPlum

UtilisateursReporting & OLAP Platform

VP Data Centers

ELT Processes

Fram

ewo

rkF

ramew

ork

Ad

-H

oc

Ad

-H

oc

Dash

bo

ard

s

Dash

bo

ard

s

Rep

orts

Rep

orts

MPP Solution

19

© K

eyru

s -

All

right

s re

serv

ed

Contexte Le système décisionnel existant est peu fiable et ne répond pas à l’ensemble

des besoins : Pas de Modèle Conceptuel de Données. Faible sécurisation des données. Ne permet pas de combiner, croiser et construire l’ensemble des

indicateurs souhaités Manque d’évolutivité, aucune documentation. Temps de chargement long et performances de restitution inadaptée.

Le projetL’objectif est de refondre le système décisionnel existant à travers une

approche globale permettant de préparer le suivi de l’ensemble de l’activité de télécommunication:

Refonte du modèle de données Data warehouse. Mise en place de véritable Datamarts métiers permettant de construire les

indicateurs stratégiques : Client, Vente, Revenu, Communication, Crédit Management, Fidélisation, Recouvrement.

Premier opérateur alternatif de télécommunication des départements d'outremer, Outremer Telecom développe des solutions fiables, performantes et compétitives en matière de téléphonie fixe et mobile, de services Internet et Data, pour les particuliers et les entreprises.

Outremer Telecom propose ses activités en Guadeloupe, en Guyane, à la Martinique, à la Réunion et en Ile de France, et jouit d’une forte croissance, notamment dans le mobile.

Chiffres clés : 190 M€ de chiffre d’affaire. 450 000 abonnés mobile.

Client Outremertelecom - Focus sur une réalisation 2011


Déploiement de la solutionDéploiement de la solution

Apport majeur : capacité à tenir la charge sur des volumétries fortes à très fortes, avec des performances plus que satisfaisante Retour d’expérience : « un traitement de plusieurs heures avec SQL Server

réduit à 4 minutes et 35 secondes ». Maintien des performances suite à l’accroissement vertigineux des volumes

liés aux mobiles depuis 2007 (nombre de communications).

Scalabilité démontrée, après un projet mené en précurseur (2007).

En termes de conduite de projet, l’assurance des performances apportée par Netezza permet de se focaliser sur les besoins décisionnels métiers client : il n’est pas besoin de les limiter par d’immenses précautions lors des phases de recueil des besoins.

ConstatConstat

Mise en place de l’architecture et conduite du POCMise en place de l’architecture et conduite du POC2011 : Migration vers architecture BigData GreenPlum2011 : Migration vers architecture BigData GreenPlum

Mise en place d’une architecture de stockage Netezza adaptée en termes de performances: 3 To de données. Couverture fonctionnelle atteinte : chargement quotidien et le stockage

des tickets bruts de communication. Simplification des tâches d’administration par rapport au SI BI pré-

existant.

institut galilÉe sÉminaire business analytics, 18/01/2013 enjeux, rÉalitÉs et impacts dans les...

Documents