Donnez votre avis !Depuis votre smartphone, sur : http://notes.mstechdays.fr
De nombreux lots à gagner toutes les heures !!!
Claviers, souris et jeux Microsoft…
Merci de nous aider à améliorer les TechDays
http://notes.mstechdays.fr
Big Data : SQL ? NoSQL ?
Pourquoi faire un choix ?Gilbert Breton – Bruno Lucas – Olivier
TolonArchitectes Avant-Ventes
Dell / Microsoft
Serveurs / Entreprise / Réseaux / IT
UN NOUVEAU MONDE DES DONNÉES
Serveurs / Entreprise / Réseaux / IT
Serveurs / Entreprise / Réseaux / IT
LE MONDE DES DONNÉES À CHANGÉ
D’ici 2015, les organisations intégrant des sources et types de données à haute-valeur, diverses, au sein d’une infrastrcture cohérente surpasseront financièrement leurs concurrents de plus de 20%..
– Gartner, Regina Casonato et al., “Information Management in the 21st Century
Consumerization of IT
10x tous les 5 ans
85% nouveaux types de données
Explosion des données
4.3 devices connectés par adulte
27%Utilisent des source media sociaux
Serveurs / Entreprise / Réseaux / IT
Social & web analytics
Flux de donées temps réel
Advanced analytics
Quel est la réputation de ma marque et de mes produits sur les réseaux sociaux ?
Comment optimiser ma flotte en fonction des profils de temps et de traffic ?
Comment mieux prédire ma future activité client ?
AUJOURD’HUI, LES QUESTIONS BUSINESS POSÉES ONT CHANGÉ
Serveurs / Entreprise / Réseaux / IT
Utilisation de l’existant
Achat appliance
complexe et spécifique
Achat solution dédiée “Big
Data”
Achat suite dédiée
Business Intelligence
LES LIMITATIONS DES OPTIONS “BIG DATA” ACTUELLES …
Scalabilité Limitée
Coûts élevés
Montée en compétence longue
Complexité de la solution
Serveurs / Entreprise / Réseaux / IT
Conçu pour Big Data
Performance et évolutivité nouvelle
génération
Générer de la valeur depuis TOUTES vos données, QUELLE que soit leur taille
Conçu pour une Valeur
Optimale
INTRODUCTION DE SQL SERVER 2012 PARALLEL DATA WAREHOUSE
CONCU POUR BIG DATA
Serveurs / Entreprise / Réseaux / IT
Serveurs / Entreprise / Réseaux / IT
DES CARACTERISTIQUES DIFFERENTES
Serveurs / Entreprise / Réseaux / IT
LIMITATIONS DE L’ANALYSE BIG DATA AUJOURD’HUI
Warehouse
Apprentissage MapReduce
Avant analyse, extraction technique de HDFS vers l’entrepôt de données
HDFS (Hadoop)HDFS
(Hadoop)
Prise en main complexe : Lent & Peu éfficace
ET/OU
Serveurs / Entreprise / Réseaux / IT
QU'EST-CE QUE HADOOP ?Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp.
Hadoop est un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Il est adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantité de données.
Hadoop est une plateforme de stockage de données consolidée (HDFS) et le traitement (MapReduce) qui est hautement évolutive, à tolérance de pannes, et Open Source.
Hadoop ne couvre pas tous les aspects de Big Data, mais adresse particulièrement les grandes volumétries et variés (processus par lots Hadoop et n’est pas adapté pour l’analyse en temps réel)
Confidential11
04/13/2023
Ce qui rend Hadoop unique?Consolide Tout - Toutes vos données en un seul endroit stockées dans HDFSExcelle dans l'analyse complexe – Analyse massivement parallèle sur plusieurs nœudsEconomique - Peut être installé sur des serveurs x86 standard
MapReduce
Traitement distribué sur plusieurs serveurs
Composants HADOOP
Hadoop Distributed File System (HDFS)
Le partage de fichiers et la protection des données sur
des serveurs physiques
Serveurs / Entreprise / Réseaux / IT Confidential12
04/13/2023
UN CAS D’UTILISATION
Serveurs / Entreprise / Réseaux / IT Confidential13
04/13/2023
QUELQUES DOMAINES D'UTILISATION POUR HADOOP…
Analyse de risquesBâle III Tests de liquiditésDétection de fraudes
Banque
• Données des mobiles• ETL complexe
Web
Vente de détail • Inventaire prédictif
Général
• Traitement des Log• Traitement des menaces
Sécurité
• Plate-forme commune de données
• BdD évolutivité• Stockage traditionnel• Maîtrise des coûts
Télécommunications
• Profil publicité• Réseaux sociaux
Valorisez vos données …
Serveurs / Entreprise / Réseaux / IT 14
04/13/2023
Distributed Storage(HDFS)
Query(Hive)
Hadoop Ecosystem.
Distributed Processing(Map Reduce)
Scripting
(Pig)
NoSQ
L Data
base
(HB
ase
)
Metadata(HCatalog)
Data
Inte
gra
tion
( OD
BC
/ SQ
OO
P/ R
EST)
Busin
ess In
tellig
ence
(E
xcel, Po
werV
iew
…)
Machine Learning(Mahout)
Graph(Pegasus)
Stats processin
g(RHadoop)
Pipelin
e /
workfl
ow
(Oozie
)
Log fi
le
aggre
gatio
n(Flu
me)
PDW
Matériels standards – Serveurs & Réseau
Serveurs / Entreprise / Réseaux / IT 15
04/13/2023
EXEMPLE D’UN CAS CLIENT
Besoins clientDéfinir une solution innovante pour stocker et analyser de grandes quantités d'images satellites
Solution Dell– Logiciel Apache Hadoop – Cloudera partnership
• 188 x Worker Node PE-C 6105 servers with 2 nodes including each
• 2 x AMD processors 8c 2.5Ghz / 24GB RAM• 4 x HDD 2TB SAS NL 7.2K RPM• 2 x Dual Port GbE
– 4 x Master Node PE-R715 servers including each• 2 x AMD processors 8c 2.6Ghz / 128GB RAM• 5 x HDD 1TB SAS NL 7.2K RPM• 2 x Dual Port 10GbE
– 2 x Dell Force 10 switch 44-port GbE on top of rack
– 2 Dell Force10 Z9000 32-port 40GbE pour la couche d’aggrégation
– Dell on-site Installation, + Dell ProSupport
Une architecture évolutive efficace pour l'analyse d'image
satellite
PE-C6105 Server PE-R715 Server
Serveurs / Entreprise / Réseaux / IT 16
04/13/2023
ARCHITECTURE DE RÉFÉRENCE
2 x EdgeNode• 2 CPU 6 core• 48GB RAM• 6 x HDD 600GB 15K (Raid1)• 2 x 10GbE Ports
3 to n DataNode• 2 CPU 6 core• 32GB RAM Mini• 12 x HDD 3TB 7.5K• 2 x 10GbE Ports
Network Switches
2 x NameNode/BackupNode• 2 CPU 6 core• 96GB RAM• 6 x HDD 600GB 15K (Raid1)• 2 x 10GbE Ports
1 x AdminNode• 2 CPU 6 core• 48GB RAM• 6 x HDD 600GB 15K (Raid1)• 2 x 10GbE Ports
Edge Nodes Control Nodes Worker Nodes
Serveurs / Entreprise / Réseaux / IT
Database
HDFS (Hadoop)
Avancée fondamentale dans le traitement des données
SQL Server 2012 PDW Powered by PolyBase
INTRODUCTION À POLYBASE
SQL Requête unique; Structuré & non-structuré
• Requêter et joindre des tables Hadoop avec des tables relationnelles
• Utilisation de language SQL Standard• Select, From Where
Compétences SQL
Existantes
Pas d’intervention
IT
Gain de coûts et de
temps
Analyze de tous types de
données
Serveurs / Entreprise / Réseaux / IT
External Tables and full SQL query access to data stored in HDFS
HDFS bridge for direct & fully parallelized access of data in HDFS
Joining ‘on-the-fly’ PDW data with data from HDFS Parallel import of data from HDFS in PDW tables for persistent storage
Parallel export of PDW data into HDFS including ‘round-tripping’ of data
Unstructured dataHDFS Data Nodes
Structured data
EnhancedPDW Query
Engine
Regular T-SQL
Results
PDW V2
External Table
HDFS bridge
INTEGRATION AVEC HADOOP
Serveurs / Entreprise / Réseaux / IT
PROJECT POLYBASE• Accès aux données en parallèles entre les PDW Compute Nodes et Hadoop
Data Nodes• Support de tous type de fichiers HDFS• “Structure” des données “non-structures”
PDWHadoop
Query
1
2
HDFS blocks
Results
3
HDFS DB
SQL in, results out
PDWHadoop
Query
1
2
HDFS blocksResults
HDFS DB
SQL in, results stored in HDFS
Serveurs / Entreprise / Réseaux / IT
PROJECT POLYBASETransfert des données en parallèles
Control Node Compute Node
Name NodeData Nod
e
PDW Appliance
Compute Node
Data Nod
e
Data Nod
e
Data Nod
e
Data Nod
e
Data Nod
e
Data Nod
e
Data Nod
e
Hadoop Cluster
Serveurs / Entreprise / Réseaux / IT
TABLE EXTERNE• Representation interne des données résidant dans Hadoop/HDFS• Nouvelle syntaxe T-SQL
CREATE EXTERNAL TABLE table_name ({<column_definition>} [,...n ]) {WITH (LOCATION =‘<URI>’,[FORMAT_OPTIONS = (<VALUES>)])}[;]
Indicates ‘External’ Table
1.Required location of
Hadoop cluster and file(support of delimited text
file only in PDW V2)
Optional Format Options associated with data import from HDFS
(e.g. arbitrary field delimiters & reject-related thresholds)
2. 3.
Serveurs / Entreprise / Réseaux / IT
PROJET POLYBASE – EVOLUTION• Cost-based decision on how much data needs to be pushed to PDW• SQL operations on HDFS data pushed into Hadoop as MapReduce jobs
HDFS
PDWHadoop
Results
7
2Map job
5
HDFS
blocks DB
3 4 6
SQL
1
MapReduce
PERFORMANCE ET ÉVOLUTIVITÉ NOUVELLE GÉNÉRATION
Serveurs / Entreprise / Réseaux / IT
Serveurs / Entreprise / Réseaux / IT
LIMITATIONS: PERFORMANCE ET ÉVOLUTIVITÉ
Scale UP
Tables actuelles (Partitions)
Stockage ligne
Evolutivité limitée pour architecture monolithique (SMP)
Performances non-optimales de certaines requêtes DW
Serveurs / Entreprise / Réseaux / IT
Scale OUT
…
MPP permet une évolutivité quasi linéaire
• Architecture MPP - Massively Parallel Processing
• Scale Out: Ajout incrémental de matériel pour une évolutivité quasi linéaire
• Shared Nothing Architecture
Jusque 100X + rapide que SMP DW
Tâches complexes
Evolutivité quasi linéaire
Easy to Scale (Pas d’upgrade
coûteux)
MOTEUR MPP - MASSIVELY PARALLEL PROCESSING
Serveurs / Entreprise / Réseaux / IT
Traitement de requêtes ultra rapide
Customer
Sales
Country
Supplier
XVELOCITY - PERFORMANCES NOUVELLE GÉNÉRATION
Products Columnstore fournit des performance hors-norme
• xVelocity columnstore stocke les données compressées et modifiables
• Stocke les données en format colonne
• Performances nouvelle génération optimisées in-Memory
• Updateable pour supporter l’import massif comme le chargement au fil de l’eau
Jusqu’à 50X + rapide
Compression jusqu’à
15x
Gain de coûts et de
temps
DW Temps réel
Serveurs / Entreprise / Réseaux / IT
OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount
20101107 106 01 1 6 30.00
20101107 103 04 2 1 17.00
20101107 109 04 2 2 20.00
20101107 103 03 2 1 17.00
20101107 106 05 3 4 20.00
20101108 106 02 1 5 25.00
20101108 102 02 1 1 14.00
20101108 106 03 2 5 25.00
20101108 109 01 1 1 10.00
20101109 106 04 2 4 20.00
20101109 106 04 2 5 25.00
20101109 103 01 1 1 17.00
ColumnStore Index Exemple
Serveurs / Entreprise / Réseaux / IT
OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount
20101107 106 01 1 6 30.00
20101107 103 04 2 1 17.00
20101107 109 04 2 2 20.00
20101107 103 03 2 1 17.00
20101107 106 05 3 4 20.00
20101108 106 02 1 5 25.00
OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount
20101108 102 02 1 1 14.00
20101108 106 03 2 5 25.00
20101108 109 01 1 1 10.00
20101109 106 04 2 4 20.00
20101109 106 04 2 5 25.00
20101109 103 01 1 1 17.00
1. Horizontally Partition (create Row Groups)
~1M rows
Serveurs / Entreprise / Réseaux / IT
OrderDateKey
20101107
20101107
20101107
20101107
20101107
20101108
ProductKey
106
103
109
103
106
106
StoreKey
01
04
04
03
05
02
RegionKey
1
2
2
2
3
1
Quantity
6
1
2
1
4
5
SalesAmount
30.00
17.00
20.00
17.00
20.00
25.00
OrderDateKey
20101108
20101108
20101108
20101109
20101109
20101109
ProductKey
102
106
109
106
106
103
StoreKey
02
03
01
04
04
01
RegionKey
1
2
1
2
2
1
Quantity
1
5
1
4
5
1
SalesAmount
14.00
25.00
10.00
20.00
25.00
17.00
2. Vertically Partition (create Segments)
Serveurs / Entreprise / Réseaux / IT
OrderDateKey
20101107
20101107
20101107
20101107
20101107
20101108
ProductKey
106
103
109
103
106
106
StoreKey
01
04
04
03
05
02
RegionKey
1
2
2
2
3
1
Quantity
6
1
2
1
4
5
SalesAmount
30.00
17.00
20.00
17.00
20.00
25.00
Some segments will compress more than others
OrderDateKey
20101108
20101108
20101108
20101109
20101109
20101109
ProductKey
102
106
109
106
106
103
StoreKey
02
03
01
04
04
01
RegionKey
1
2
1
2
2
1
Quantity
1
5
1
4
5
1
SalesAmount
14.00
25.00
10.00
20.00
25.00
17.00
*Encoding and reordering not shown
3. Compress Each Segment
Serveurs / Entreprise / Réseaux / IT
OrderDateKey
20101107
20101107
20101107
20101107
20101107
20101108
ProductKey
106
103
109
103
106
106
StoreKey
01
04
04
03
05
02
RegionKey
1
2
2
2
3
1
Quantity
6
1
2
1
4
5
SalesAmount
30.00
17.00
20.00
17.00
20.00
25.00OrderDateKey
20101108
20101108
20101108
20101109
20101109
20101109
ProductKey
102
106
109
106
106
103
StoreKey
02
03
01
04
04
01
RegionKey
1
2
1
2
2
1
Quantity
1
5
1
4
5
1
SalesAmount
14.00
25.00
10.00
20.00
25.00
17.00
4. Read The Data
SELECT ProductKey, SUM (SalesAmount) FROM SalesTable WHERE OrderDateKey < 20101108
Column Elimination
Segm
ent
Elim
inati
on
Serveurs / Entreprise / Réseaux / IT
Pourquoi est-ce important?Reduction de l’espace de stockageAdministration simplifié – pas d’index secondaires à positionnerTous les types de données supportés par PDW peuvent être utilisés
Clustered Columnstore est le stockage à priviliégié avec PDW 2012
CLUSTERED COLUMNSTORE INDEX
** Space Used = Table space + Index space
0.0
5.0
10.0
15.0
20.0
Space Used in GB (101 million row table)
91% savings
Serveurs / Entreprise / Réseaux / IT
Qu
ery
1
Qu
ery
2
Qu
ery
3
Qu
ery
3.5
Qu
ery
4
Qu
ery
4.5
Qu
ery
5
Qu
ery
8
Qu
ery
9
Qu
ery
10
Qu
ery
12
Qu
ery
13
Qu
ery
14
Qu
ery
15
Qu
ery
16
Qu
ery
17
1.00
10.00
100.00
1000.00
10000.00
-5.0
45.0
95.0
145.0
195.0
245.0
295.0
345.0
22.7 31.01.7 1.7 3.2 10.3 -1.0
302.4
223.9
1.3 7.5 1.5 1.6
92.1
3.9
Row Store Column Store Improvement
AMELIORATION DES PERFORMANCES AVEC CCI
CONÇU POUR UNE VALEUR OPTIMALE
Serveurs / Entreprise / Réseaux / IT
Serveurs / Entreprise / Réseaux / IT
Données Hadoop
Données Structurée
s
UTILISATION D’EXCEL POUR LE BIG DATA
Outils familiers pour l’analyse Big Data
• Intégration native Microsoft BI et PDW
• Données structurées et non structurée dans une même feuillle Excel
• Outils largement déployés et facilement utilisables
Pas d’intervention
IT
Analyze de tous types de
données
Excel largement
déployé
Serveurs / Entreprise / Réseaux / IT
Du + petit (0TB) au + grand (5PB)
• Démarrer petit avec un entrepôt de quelques Terabyte
• Ajout de capacité jusque 5 Petabytes
0TB 5 PB
Ajout decapacité
AddCapacity
Démarrer petit et croitre
VL DWPB
Pas d’indisponibilit
é
Démarrer petit et croitre avec les besoins
Ajout de Capacité de traitement
Serveurs / Entreprise / Réseaux / IT
POWER OF COMBINING THE WORLDS DATA
Personal Data
OrganizationalData
CommunityData
WorldData
Value
Serveurs / Entreprise / Réseaux / IT
MICROSOFT BIG DATA SOLUTION
Report(PowerView) Excel 2013 (PowerPivot) Custom ApplicationPredictive Analytics
OLAP(Data Mining algorithm)Reporting & Analysis
ERPDevices CrawlersSensors Bots MES LOB APPs
Hadoop on Windows (Unstructured Data)
Microsoft Parallel Data Warehouse (Structured Data)
Polybase
Custom Development Data Mining algorithm (R/C++)
SQLMap Reduce
Column Store Row base
Serveurs / Entreprise / Réseaux / IT
SQL SERVER PDW 2012 REPOUSSE LES LIMITES
Performance et scalabilité nouvelle génération
Conception Matérielle et Logicielle pour une apport
optimal au meilleur prix
Conçu pour le Big Data avec requêtage intégré basé sur
du SQL Standard
Integration native avec les outils BI familiés et largement adoptés
Parallel Data WarehouseHauteme
nt Evolutif
Coûts Reduits SQL Simplicité
de la solution
Formez-vous en ligne
Retrouvez nos évènements
Faites-vous accompagner gratuitement
Essayer gratuitement nos solutions IT
Retrouver nos experts Microsoft
Pros de l’ITDéveloppeurs
www.microsoftvirtualacademy.com
http://aka.ms/generation-app
http://aka.ms/evenements-developpeurs
http://aka.ms/itcamps-france
Les accélérateursWindows Azure, Windows Phone,
Windows 8
http://aka.ms/telechargements
La Dev’Team sur MSDNhttp://aka.ms/devteam
L’IT Team sur TechNethttp://aka.ms/itteam
Microsoft met à l’honneur vos plus belles réalisations avec SQL Server sur son site ! Pour candidater, rendez-vous sur le stand Server & Cloud
Un lien pour tout savoir sur SQL Server 2012 : www.microsoft.fr/SQL