fini la rÉcrÉ passons aux mÉgadonnÉes ajraou.pdf · rh mpg crm social network portail /...
Post on 12-Jan-2019
213 Views
Preview:
TRANSCRIPT
FINI LA RÉCRÉ
PASSONS AUX MÉGADONNÉES
V1 - 10/03/15
1
« Dans le concret, projets
de transformation vers le
BigData … »
ABED AJRAOU
LES MEGADONNEES RÉPONDENT À DE NOUVEAUX BESOINS
Big Data
Self-Service BI
BI institutionnelle
Données structurées d’entreprise
CRM SCM
Données locales
Système de fichiers textes
ERP Base de données
Données non structurées d’entreprise et externes
Image, Vidéo Gestion de contenu, Logs
Réseaux sociaux
DataWarehouse Datamart Cubes
Reporting
ETL Data Cleansing
Couche sémantique
Data Gathering
Business Discovery Data Visualisation
Approche Agile
Mining
Data Interact
Massive Processing Parallel
Flux des clics utilisateurs en
temps réel
Données GPS et spatiales
Sentiment Analysis
Social Interaction Open Data
Analyse du Web Mobile
Voix en Texte
Indexation
Texte Mining Gestion des Logs Analyse des RFID /
Capteurs
DMT
DWH
ODS
6
Données Structurées ou Semi-structurées d’entreprise
Logs fixe Base de donnée
Base de données Logs mobile
Base de données
BI Audience BI Mobile BI Commercial BI Données Quelques limitations de la
BI actuelle:
1. BI globalement en silo
=> ce qui ne constitue
pas de la vraie BI
2. Socle de données sur
Netezza avec risque de
saturation avérée
3. Aucune possibilité
d’incorporer des
données non
structurées (type blog,
réseaux sociaux …)
4. BI en mode batch
BI - ARCHITECTURE 2013 ET 2014
Parc applicatif BI en transformation
en 2014 et cible 2015 : activons le
Big Data !
7 Date • Titre de la présentation
Data Mart Fonctionnel
8
Open Data Group (Données brutes et Open Datamart)
Données Structurées ou Semi-structurées d’entreprise
Logs fixe Commerciale
Finance Logs mobile
Données non structurées
Image, Vidéo Portail / Intranet Social Network RH MPG CRM
Data Visualisation
VISION CIBLE ARCHITECTURE DE LA BI
11
OUR CONVICTION: OPENSOURCE WOULD SOLVE
MOST OF BI PAINS
The Enterprise Data Hub of Cloudera would be
the « Extended DataWarehouse »
The NoSql « Column Database » is the simple way to give access to the
end user and ensure good performance
The end of the Batch, and the welcome of the Streaming
and real time data
Performance ETL for the data transformation on top of
Hadoop
New Data Visualization / Data Story Telling, which is very
quick to install/deploy, and simple to use
LE PARTAGE DE CONNAISSANCES EST CLEF!
12
Le mangement de la donnée est essentiel dans toute
pratique Big Data et tout projet. Nous avons lancé dans le
cadre de l’association 3 groupes de travail:
• Big Data
• Data Science
• Data Gouvernance
D’autres ateliers suivront, des événements, de la littérature
… donc abonnez-vous et n’attendez plus!
http://www.dama-france.org/
LE NOSQL, POURQUOI?
14
1970
~2009
Système transactionnel:
Écritures concurrentes,
Performance accès concurrents
Standardisation …
Systèmes de fichiers Base de données - RDBMS
Base de données - RDBMS Big Data:
Volumétrie (téra/péta octet)
Performance
Données non structurées
NOSQL – NOT ONLY SQL DIFFÉRENTS TYPES:
• BASES ORIENTÉES CLÉ / VALEUR
• BASES ORIENTÉES COLONNES
• BASES ORIENTÉES GRAPHES
• BASES ORIENTÉES DOCUMENTS
15
Data Model Performance Scalability Flexibility Complexity Functionality
Key–Value Store high high high none variable (none)
Column-Oriented
Store high high moderate low minimal
Document-
Oriented Store high
variable
(high) high low variable (low)
Graph Database variable variable high high graph theory
Relational
Database variable variable low moderate
relational
algebra
Ben Scofield a évalué les différents types de NoSQL:
NOSQL – FOCUS SUR IMPALA ET
L’ORIENTÉE COLONNE
16
RowId Matricule Nom Prénom DateEntrée Fonction Salaire
1 53427 Dupont Eric 01/01/2000 Ingénieur 30000
2 89765 Martin Jean 15/03/2007 Contrôleur 65000
3 109755 LeMaitre Gaston 13/12/2003 Architecte 45000
4 76598 Dupont Gaston 01/01/2000 Contrôleur 50000
5 9090432 Prince Charles 01/01/2010 Ingénieur 55000
Nom
Dupont 1;4
Martin 2
LeMaitre 3
Prince 5
Prenom
Eric 1
Jean 2
Gaston 3;4
Charles 5
Sur Impala, le mode Parquet enregistre cela en binaire et de façon compressée, ce
qui accélère les analyses OLAP – agrégations, filtres …
CONSEIL: COMMENT ACTIVER LES PROJETS ET
COMMENT REMÉDIER À L’IMMOBILISME?
Avec votre bâton de pèlerin:
• expliquez
• démystifiez
• donnez du sens
• fédérez!
Trouvez le sponsor dans l’entreprise, qui vous
• soutiendra
• appuiera
• mettra en lumière
Lancez-vous! Nous avons toute la maturité
technologique pour enfin réaliser tous nos
désirs en termes de data! Épanouissez-
vous!
17
top related