gouvernance des informations big data. le cycle de vie de ... · hadoop teradata database data lake...
Post on 03-Jul-2018
214 Views
Preview:
TRANSCRIPT
© 2015 Teradata
Gouvernance des informations Big Data.
Le cycle de vie de la donnée
Denis Esperandieu
Plus de 2,800 clients dans 77 pays.
Présence dans 42 pays
Teradata : Qui sommes nous?
12.500 collaborateurs dont 3.000 Consultants
“Advanced Analytics »
Fondée en 1979 en
Californie
Revenu 2016 : 2,3 Milliards
USD
Gartner’s Magic Quadrant & Forrester Reports Leader
consécutif depuis plus de 10 ans
Fournisseur de solutions « Data Analytic » depuis plus de
35 ans
Partenaire de confiance de très grands groupes
mondiaux
© 2017 Teradata
REAL TIME
Acquisition Analytics Access
EMERGING
Data Engines
MULTI GENRE
Aster Analytics
R, Spark, Giraph
SAS, SPSS, KXEN
DATAWAREHOUSE
TeradataDatabase
IN MEMORY
Hana
HadoopTeradataDatabase
DATA LAKE
No SQL
MongoDB
COMPUTE CLUSTER
OPERATIONAL
Oracle
INGEST
Listener
Users
Operational
Systems
Customers
Partners
Engineers
Data
Scientists
Business
Analysts
Knowledge
Workers
Marketing
Executives
Platform Services DEVELOPMENTDATA OPERATIONS
PRIVATE HYBRIDCloud Deployment PUBLIC
Sources
ERP
SCM
CRM
Sensors
Audio
and Video
Machine
Logs
Text
Web and
Social
APP FRAMEWORK
AppCenter
QueryGrid
VIRTUAL QUERY
CONVENTIONAL
Business
Intelligence
Languages
Integrated
Development
Environment
© 2016 Teradata
Nos domaines d’action / Nos savoir faire
3
© 2017 Teradata
Nos Partenaires
4
Partnership is Key in an Ecosystem
Enterprise Solutions
Independent Software Vendors
Business Intelligence & Advanced Analytics
Hadoop/Big Data
Data Acquisition/Integration ToolsApplications
© 2017 Teradata
La Gouvernance des donnéesUne opportunité à saisir.
Pour gérer ces enjeux, un process structuré de Gouvernance des donnée est indispensable
L’irruption des Big Data qui démultiplie
les besoins
Volume, Variété et Vélocité
Bruit de fond
Démultiplication des référentiels internes
et externes
Données à Raffiner
Projet (nombreux) en mode speed
Outillage en devenir
Des pressions de plus en plus fortes
Pression pour préserver les revenus, et réduire
les coûts
Nouvelles opportunités Business
Concurrence accrue, nouveaux acteurs
Pression règlementaire croissante
• Ciblée Exemple : les risques bancaires
• Transverse Exemple : GDPR
5
© 2017 Teradata
La prolifération des données dans l’entreprise
66
Disposer de bons
critères de
risque et des
indicateurs de
pertes
pertinentsComptabilité
Marketing et distribution
Gestion des
Operations
Segmentation
Des Clients
Fraude
Indices de
satisfaction des
clients
Déclarations de
sinistres
Non-
renouvellemen
ts
Valeur client
Polices émises
RH
Réduire les
coûts, la fraude
et améliorer la
qualité de
service
Analyse
Actuarielle
Réseaux sociaux
Vision 360o
Évènements clients
Données clients
Taux de
conversion des
polices
Gestion des
sinistres et back
office
Résiliation
Catastrophes
naturelles
Pertes actuelles
/ estimées
Produits de la
concurrence
State Filings
Accroitre le revenu en
apportant plus de
valeur à nos clients les
plus rentables
Pricing
Produit
Primes
encaissées
Investissements
Trésorerie
Objectifs
commerciaux
des agents
PromotionsCommercial
Revenue
Prévisions
Canaux de
Distribution
Web & Apps
Clickstream
PrimesConcentration
des risques
Most useful data
Often useful data
Rarely useful data
KEY FOR:Pricing and Product intelligence
Performance
v/v
concurrence
Marketing et
expérience client
ArchitectureUrbanisation
Partage,
promotion et
feedback
Store one
Use manyProtection &
Juridiction
© 2017 Teradata
De nombreuses étapes de collecte
77
Données contrôlées
transformées, dérivées
Primes encaissées
Type police
Type véhicule
Valeur client
Couverture
Données sources
Client
typ
e
ass
ura
nc
e
Bien assuré
Assurance automobile
Reporting
Visualisation
Traçabilité & piste d’audit
Certification des Données
Modélisation &
Moteurs de calculMaîtriser le cycle
de vie
Modèle et
nommage
intègres
Cartographie et
data lineage
© 2017 Teradata
De nombreux axes
88
Dimension Description Exemple
JUSTESSEUne mesure de l’exactitude des données
Un solde de €10,000 est stocké comme un solde de €10,000 !
COHÉRENCEMesure des conflits avec des données redondantes
Un solde de €10,000 dans le système ABC est également enregistré comme solde de €10,000 dans le système XYZ.
INTÉGRALITÉA mesure de la quantité d’entités créées Un appel téléphonique est bien enregistré et conservé pour la facturation.
COMPLÉTUDE
Mesure de la couverture de l’information pour une entité spécifique
Nom, âge, et fonction renseignés pour tous les clients.
UNICITÉMesure des réplications non nécessaires des données
Les données clients ne sont stockées qu’une fois pour chaque client.
FRAICHEURMesure si l’enregistrement est bien à jour
L’ensemble des adresses du client sont à jour.
PROFONDEURMesure de l’historique conservé Un historique complet des contacts et de leur détail est conservé pour chaque
client.
INTÉGRITÉMesure de la validité relative à une autre donnée
Un détail d’appel contient l’indicatif (33) 0130999999.
LA QUALITE DES DONNEES ETAIT CONSIDEREE JUSQU’A PRESENT COMME NON PRIORITAIRE PAR
L’IT ET RELEGUEE EN PRIORITE BASSE. MANQUE D’INTERACTION IT & METIERS SUR CE SUJET.
Synthèse d’études réalisées entre 2011 et 2015 par :
Gartner, The Data Warehouse Institute, The Insurance Data Management Association
Audit
Mesure
systématique
Qualité mesurée
Qualité ressentie
Expression de la
charte de qualité
© 2017 Teradata
Gouvernance des données
99
• ORGANISATION
– Modèles de responsabilités
– Rôles et périmètre de responsabilités
– Décideurs et gestionnaires
• PROCESSUS
– Priorisation et financement
– Identification et résolution des problèmes
– Règles, principes, standards et métriques
– Mode de communication
– Revue, monitoring et mesure
• TECHNOLOGIE
– Outil de modélisation & Dictionnaire de données
– Scorecards de qualité des données
– Outil de data lineage
– Outils de profiling des données
– Outils analytique d’exploration
– Système de Master Data Management
– Qualité de service (SLAs)
– Contrôles (sécurité, accès, Cryptage, …)
GOUVERNANCE
STEWARDSHIP
Information sécurisée et
fiable
Integration
Modélisation Qualité
Master Data
Mgmt.
MetaDonnées
Sécurité
Personnes, Processus, et Technologie
FRAMEWORK DE GOUVERNANCE DES DONNÉES
Un programme à
part entière
Actions
pluridisciplinaires
Optimisation
Coûts / Bénéfices
Stratégie callée
sur le business et
ses évolutions
© 2017 Teradata
Une démarche qui s’inscrit dans le temps
1010
Des progrès réalisés
• Une fonction de Data Quality Manager (DQM) largement répandue
• Des dictionnaires de données développés
• Une meilleure responsabilisation des acteurs
• Une première vague d’outillage sur la documentation des flux de données
• Une amélioration dans la formalisation des contrôles
Synthèse de l’enquête Deloitte Qualité des données & Solvency 2 auprès de 11 assureurs majeurs Français
... et des efforts a accomplir
• Un déploiement de la fonction Data Quality a poursuivre
• Une couverture encore partielle du périmètre par les dictionnaires de données
• Un outillage toujours peu performant à améliorer sur plusieurs couches de la gouvernance des données
• Un système d’information a mieux urbaniser
• Une automatisation des traitements et contrôles a déployer
2014 2016
72% des sondés ont implémenté une fonction de Data Quality Manager
84% des sondés ont une architecture non conforme
avec les attentes
du régulateur
45% des sondés estiment ne pas avoir de démarche globale de qualité des
données
64% des sondés disposent de moins d’un quart de contrôles automatisés
90% des sondés utilisent excel comme outil de documentation et de
maintenance du dictionnaire de données
2014 20162016
© 2017 Teradata
Impact des Big data…. Une réelle opportunité pour les Directions Métiers
11
2014 2016201Déclarations de sinistre
frauduleuses
Cyber fraude
Customer journey
Fraude partenaire
© 2017 Teradata
Gouvernance de données et big data
1313
2014
Données Structurés / SGBDR Big Data / Hadoop
Outillage en devenir Data Quality & Data Lineage
Culture / Agilité / Projet Speed
Organisation et process transversesArchitecture et Urbanisation robuste
Maîtrise du cycle de vie des données
Maîtrise de la qualité des données
Sponsor, Organisation et Process transverses
Partage des informations & Feedback
Culture / Méthode / Process
Description struct. données Description struct. données
Une frontière
technologique
Une frontière
culturelle
Des processus
transverses
© 2017 Teradata
Gouvernance de données et big data
1414
2014
Données Structurés / SGBDR Big Data / Hadoop
Organisation et process transverses
Projet et développement industriels
Datalab, étude et actions véloces
(Analytic, Fouille de données, Prototypage, …)
© 2017 Teradata
Gouvernance des données : Comment commencer
1515
2014 2016201• Définir une feuille de route– Périmètre fonctionnel conciliant enjeux règlementaires, impact business et
budget disponible
– « Chic et pas cher » en se concentrant sur les containers de données importants
– Objectifs de qualité et de cohérence différenciés
• Mettre en œuvre une stratégie pragmatique et véloce– Gouvernance des données sur un périmètre ciblé
– « Quick wins »
– Vision long term
• Combiner outils / personnes et processus– S’appuyer sur les systèmes existants et identifier les gaps
– Mettre en œuvre des score cards pour piloter les évolutions
– S’appuyer sur les organisation / comités existants
– Identifier les relais dans les directions métier
– Se doter de compétences analytiques
• Associer l’entreprise & communiquer– Priorité haute sur les sujets à haute valeur métier => ROI
– Communiquer et devenir visible
– Un sponsor est indispensable
© 2017 Teradata
Exemple : Une grande banque européenne (1/2)
1616
2014• Roadmap :
– Planification du programme sur plusieurs années- Données / besoins fonctionnels
– Premier besoin = rentabilité pour créer de la valeur
• Stratégie– Standardisation
- Des indicateurs
- Des process
– Outils
Efficiency Range
-
+IT
co
sts
Error costs- +
Increasing quality level
Trade off IT costs / Quality level
achieved
© 2017 Teradata
Exemple : Une grande banque européenne (2/2)
1717
2014• Organisation– Equipe centralisée
– De 2 à 50 ETP
– Relais dans tous les pays
• Positionnement – Rattachement hiérarchique : Du CFO au CEO
– Couverture progressive de l’ensemble des métiers
– Interface entre les métiers & l’IT
– Développer la confiance dans les données
– Mise en place d’un label
Governance organization Governance processes
Technical Architecture
Branches and technology trends
System Architecture
Business Architecture
Business
Strategy
Project
portfolio
Architecture
comparison
Prioritization
and Funding
Projects Roadmap
Technical Architecture
Branches and technology trends
System Architecture
Business Architecture
Business
Strategy
Project
portfolio
Architecture
comparison
Prioritization
and Funding
Projects Roadmap
Data stewards
Division 3Division 1 Division 2 …
Business architects
BI governance board IT strategy & architecture board
Data governance
Data governance manager (DGM)
BI governance
BI governancemanager
Infra-structure
operations
Databaseadministrator
Cen
tral
Dec
entra
lized
Com
mitt
ees
DS coord.DS coord.
ALIGNMENT ALIGNMENT
Division 3Division 1 Division 2 …
Power users & report users
Techn. BI/EDW team
Techn. BI/EDW leadTechn. BI/EDW lead
Data modellerData modeller
ETL analystETL analyst
Division 1 Division 2 Division 3 …
OPV OPV OPVOPV
BI analystBI analyst
EDW admin. BI admin.
top related