plongée dans la plateforme hadoop
TRANSCRIPT
![Page 1: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/1.jpg)
Plateform
![Page 2: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/2.jpg)
AGENDA
2
HADOOP, qu’est-ce que c’est ?
Quelques cas d’usage
Industrialisation de la plateforme
![Page 3: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/3.jpg)
AGENDA
3
HADOOP, qu’est-ce que c’est ?
Quelques cas d’usage
Industrialisation de la plateforme
![Page 4: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/4.jpg)
HADOOP ?
4
scalability
![Page 5: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/5.jpg)
HADOOP ?
5
Ecosystème
Open source
Stocker et traiter de
larges jeux de données
Scalable
Sur des serveurs de
type “commodity hardware”
Tolérant aux pannes
![Page 6: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/6.jpg)
HISTORIQUE
6
2003
2004
2005 2006
2007
2008
2009
2012
2013
2014
2016
109 searches 106 web pages
1000 nodes @ Yahoo!
✔4000 nodes
✔Hadoop sorted 1 Po in 17h 109 searches 106 web pages
✔
![Page 7: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/7.jpg)
« Vanilla » IT Relational DB,
Application server, ETL, ESB,
BPM
Distributed Storage
Extreme Transaction Processing
Parallel Programming
Event Stream Processing
10 To online 3,000 TPS
10 threads/core 3,000 events/sec
Events intensive
Transaction intensive
Storage intensive
Computation intensive
LES LIMITES DES OUTILS TRADITIONNELS*
* Il ne s’agit pas de limites absolues, mais d’ordres de grandeur à partir desquels les coûts de mise en œuvre explosent (hardware spécialisé, expertise, etc.)
7
![Page 8: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/8.jpg)
LES LIMITES DES OUTILS TRADITIONNELS
Events intensive
Transaction intensive
Storage intensive
Computation intensive
NoSQL CEP, ESP
In-memory
Grid, GPU
8
![Page 9: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/9.jpg)
HADOOP : VOLUME, VÉLOCITÉ MAIS AUSSI VARIÉTÉ
9
V Volume
V Variety
V Velocity Structured Data
Unstructured Data
Semi-Structured Data
![Page 10: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/10.jpg)
HADOOP : DES DISTRIBUTIONS [1/2]
¤ Pourquoi une distribution ? > Une installation pour avoir la plupart des outils d’Hadoop > Combinaison de versions compatibles
10
![Page 11: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/11.jpg)
DIVERSITÉ DE L’ÉCOSYSTÈME
11
¤ Chaque composant est un projet indépendant (cycle de vie, équipe, etc.)
![Page 12: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/12.jpg)
MATURITÉ
12
¤ Hadoop est un écosystème en pleine évolution : > Les principaux composants sont matures > D’autres sont encore jeunes
![Page 13: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/13.jpg)
HADOOP : DES DISTRIBUTIONS [1/2]
¤ Pourquoi une distribution ? > Une installation pour avoir la plupart des outils d’Hadoop > Combinaison de versions compatibles > Upgrade > Support éditeur
¤ Trois distributeurs majeurs : > HortonWorks > Cloudera > MapR
¤ Les éditeurs traditionnels sont des suiveurs sur Hadoop > Teradata, Oracle, Microsoft, IBM, etc. > Certains s’appuient sur une des 3 distributions majeures
13
![Page 14: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/14.jpg)
HADOOP : DES DISTRIBUTIONS [2/2]
14
400 KLOC
200 KLOC
0
![Page 15: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/15.jpg)
AGENDA
15
HADOOP, qu'est-ce que c’est ?
Quelques cas d’usage
Industrialisation de la plateforme
![Page 16: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/16.jpg)
CARTOGRAPHIE
16
DATA MANAGEMENT
DATA ACCESS DATA WORKFLOW MANAGEMENT
![Page 17: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/17.jpg)
STOCKAGE
![Page 18: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/18.jpg)
18
ENJEUX
![Page 19: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/19.jpg)
ENJEUX
Extreme Transaction Processing
Parallel Programming
Event Stream Processing
Distributed Storage
YOU ARE
HERE
19
Events intensive
Transaction intensive
Storage intensive
Computation intensive
![Page 20: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/20.jpg)
LA RÉPONSE HADOOP - HDFS
20
DATA MANAGEMENT
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Hadoop repose sur HDFS, un système de fichiers distribués hautement disponible
![Page 21: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/21.jpg)
LA RÉPONSE HADOOP - HDFS
21
~ 3’000 CHF / To
2014
![Page 22: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/22.jpg)
APPEND ONLY - WRITE ONCE READ MANY
![Page 23: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/23.jpg)
UNIX “LIKE”
¤ HDFS supporte des commandes similaires aux systèmes de fichiers sur Linux : > Ajout, lecture et suppression de fichiers
> Créer, lister et supprimer des répertoires
> Gérer les permissions et propriétés des fichiers et des répertoires
23
![Page 24: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/24.jpg)
HDFS
A
Fichier
B C D E F G
Le fichier est découpé en blocs
NameNodes
DataNodes
Rogatus ad ultimum admissusque in consistorium ambage nulla praegressa inconsiderate et leviter proficiscere inquit ut praeceptum est, Caesar sciens quod si cessaveris, et tuas
epalatii tui auferri iubebo prope diem annonas. hocque solo contumaciter dicto subiratus abscessit nec in conspectum eius postea venit saepius arcessitus.
puis réparti sur les nœuds
24
![Page 25: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/25.jpg)
DISTRIBUTION DES DONNÉES ET FAILOVER
A B C
D E F
G A G
B C
D E F
Et répliqué (par default x3, ici x2)
DataNodes
25
![Page 26: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/26.jpg)
DISTRIBUTION DES DONNÉES ET FAILOVER
A B C
D E F
G
A G
B
C
D E
F
!A G
E
Les blocks A, E, G sont maintenant sous-répliqués
Il sont alors répliqués sur
d’autres nœuds DataNodes
26
![Page 27: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/27.jpg)
ALIMENTATION ?
27
![Page 28: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/28.jpg)
STOCKAGE Composants et flux
28
RDBMSLog Data,
Event Data, Social Media, etc.
Files
HDFS CLI
![Page 29: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/29.jpg)
CARTOGRAPHIE HADOOP
29
DATA MANAGEMENT
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop
DATA WORKFLOW MANAGEMENT
Oozie
![Page 30: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/30.jpg)
EXEMPLE DE MISE EN ŒUVRE
¤ Client bancaire ¤ Stockage de données de marché
30
¤ 50 To / an, redondance * 3(7200 trs/min) ¤ 2 NameNodes : 1 proc, 32Go RAM, 6 * 2 To en RAID (HA) ¤ 4 DataNodes : 1 proc, 32Go RAM, 12 * 4 To / serveurs
(7200 trs/min)
¤ Investissement : +/- 50’000 CHF (hardware) > Soit : +/- 1’000 CHF / To
![Page 31: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/31.jpg)
TRAITEMENTS LOURDS EN IO
![Page 32: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/32.jpg)
ENJEUX
Distributed Storage
Extreme Transaction Processing
Parallel Programming
Event Stream Processing
Exécuter un traitement sur des données volumineuses réparties sur un grand nombre de serveurs (HDFS)
YOU ARE
HERE
32
Events intensive
Transaction intensive
Storage intensive
Computation intensive
![Page 33: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/33.jpg)
LA RÉPONSE HADOOP
33
cluster
0100011101010101101 010001110101010
010001110 0100011
Architecture classique Architecture Hadoop
cluster Hadoop
Déplacer les traitements au plus près des données, plutôt que l’inverse
33
![Page 34: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/34.jpg)
FONCTIONNEMENT DE MAPREDUCE
Hive – MR
SELECT a.state
JOIN (a, c) SELECT c.price
SELECT b.id
JOIN(a, b) GROUP BY a.state
COUNT(*) AVERAGE(c.price)
M M M
R R
M M
R
M M
R
M M
R
HDFS
HDFS
HDFS
SELECT a.state, COUNT(*), AVERAGE(c.price) FROM a
JOIN b ON (a.id = b.id) JOIN c ON (a.itemId = c.itemId)
GROUP BY a.state
34
![Page 35: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/35.jpg)
DÉPASSER MAPREDUCE [1/4]
¤ MapReduce, le modèle de programmation à l’origine d’Hadoop, s’avère contraignant et sous-optimisé pour certains types de traitements
Map Reduce
Map Reduce
Map Reduce
Traitement unique 4 phases d’I/O
Traitement itératif N x 4 phases d’I/O
35
![Page 36: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/36.jpg)
DÉPASSER MAPREDUCE [2/4]
Danslecontexted’Hadoop1,MapReducejouelerôlede…
A:Algorithmedistribué
B:Frameworkdedév.
C:PlateformededistribuJon
D:LaréponseD
36
![Page 37: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/37.jpg)
DÉPASSER MAPREDUCE [2/4]
Danslecontexted’Hadoop1,MapReducejouelerôlede…
A:Algorithmedistribué
B:Frameworkdedév.
C:PlateformededistribuJon
D:LaréponseD
37
![Page 38: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/38.jpg)
DÉPASSER MAPREDUCE [3/4]
Hadoop 1.x
HDFS(redundant,reliablestorage)
MapReduce(clusterresourcemanagement
&dataprocessing)
Batch Apps
HDFS(redundant,reliablestorage)
YARN(clusterresourcemanagement)
MapReduce(dataprocessing)
Others(dataprocessing)
Hadoop 2.x
Tez(dataprocessing)
Batch, Interactive, Streaming, etc.
38
![Page 39: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/39.jpg)
DÉPASSER MAPREDUCE [4/4] Fonctionnement de TEZ
Hive – MR
SELECT a.state
JOIN (a, c) SELECT c.price
SELECT b.id
JOIN(a, b) GROUP BY a.state
COUNT(*) AVERAGE(c.price)
M M M
R R
M M
R
M M
R
M M
R
HDFS
HDFS
HDFS
SELECT a.state, COUNT(*), AVERAGE(c.price) FROM a
JOIN b ON (a.id = b.id) JOIN c ON (a.itemId = c.itemId)
GROUP BY a.state
M M M
R R
R
M M
R
R
SELECT a.state, c.itemId
JOIN (a, c)
JOIN(a, b) GROUP BY a.state
COUNT(*) AVERAGE(c.price)
SELECT b.id
Tez avoids unnecessary writing to
HDFS
Hive – Tez
39
![Page 40: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/40.jpg)
CARTOGRAPHIE HADOOP
40
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce Spark
Tez
DATA WORKFLOW MANAGEMENT
Oozie
MapReduce MapReduce
![Page 41: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/41.jpg)
41
EXEMPLE : NETTOYAGE ET PRÉPARATION DES DONNÉES
![Page 42: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/42.jpg)
LA RÉPONSE HADOOP
42
Files (Avro,…)
HBase HCatalog
ORC2
…
Pig
![Page 43: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/43.jpg)
PIG : LA PROBLÉMATIQUE
43
![Page 44: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/44.jpg)
CARTOGRAPHIE HADOOP
44
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce Spark Pig
Tez
DATA WORKFLOW MANAGEMENT
Oozie
MapReduce MapReduce
![Page 45: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/45.jpg)
RETOUR D’EXPÉRIENCE 1
¤ Publigroupe ¤ Nettoyage des données : filtrage jointure,
dédoublonnage et dénormalisation ¤ 1.9 milliards de print, 1.5 M clicks
45
¤ 4 machines, 1 master + 3 data nodes > 4 core / 8 threads, 32GoRAM > 4 * 2 To JBOD > 2 x 1Go réseau (1 patte interne, 1 patte externe)
¤ HDFS : 20 To
¤ Hébergeur : 420 CHF / mois
![Page 46: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/46.jpg)
RETOURS D’EXPÉRIENCE 2
¤ Client Bancaire ¤ Calcul batch intensif en I/O
46
¤ 10 machines virtuelles (2 + 8)
¤ Durée de calcul : > Avant : 23h (mainframe) > Après : 2h
![Page 47: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/47.jpg)
EXEMPLE : EXPLORATION MODELISATION
![Page 48: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/48.jpg)
PROBLÉMATIQUE ET RÉPONSE HADOOP
48
MLlib
Requêtage PredictionVisualisation / Modélisation Classification ….
Machine LearningExploration
Extraction
![Page 49: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/49.jpg)
CARTOGRAPHIE HADOOP
49
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce
Spark MLlib
GraphX Pig Hive
Tez Tez
DATA WORKFLOW MANAGEMENT
Oozie
MapReduce MapReduce
![Page 50: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/50.jpg)
RETOUR D’EXPÉRIENCE
¤ Publigroupe ¤ Génération d’arbre de décision
50
¤ Hive : avg, min, max, etc. ¤ R : Analyse de données, sortie PDF
¤ Création d’un arbre de décision pour optimiser les enchères sur les espaces publicitaires
![Page 51: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/51.jpg)
ANALYSE DES STRATEGIES D’UNE CAMPAGNE List of (strategies & exchange)
Low click-rate
High click-rate
Limited incertitude interval
Big incertitude interval
51
![Page 52: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/52.jpg)
LE PRIX A-T-IL UN INFLUENCE SUR LE TAUX DE CLIC ?
52
●
●
●●
● ●
●
● ●
●
●
●
● ●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●● ●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
● ●
● ● ● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
● ● ● ● ● ●
●
● ● ●
●
●
●
● ● ●
●
●
●
●
●
●● ●
●
●
● ●
●
● ●
●●
●●
● ●
●●
●●
●●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
● ● ●
●
0.0
0.2
0.4
0.6
0 10 20 30 40 50rank
clic
k_ra
te/a
vg_t
otal
_spe
nd *
1000
campaign_goal_type●
●
●
●
cpacpcreachspend
Click rate per $ − all campaign
![Page 53: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/53.jpg)
AUTRE CAS D’USAGE
¤ Banque d’investissement ¤ Contrôle de prises de positions hors normes ¤ ~ 100 millions de lignes à vérifier par jour
53
¤ Spark MLlib : > Calculs : régressions linéaire, statistiques > Classification : hors normes ou pas ?
¤ Réduire le nombre de contrôles non automatisés à 10 000 lignes par jours en première étape
![Page 54: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/54.jpg)
EVENT PROCESSING STREAMING
![Page 55: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/55.jpg)
ENJEUX
Distributed Storage
Extreme Transaction Processing
Parallel Programming
Event Stream
Processing
YOU ARE HERE
55
Events intensive
Transaction intensive
Storage intensive
Computation intensive
![Page 56: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/56.jpg)
ENJEUX
56
![Page 57: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/57.jpg)
2 MODÈLES
57
Event
Microbatch
Streaming
![Page 58: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/58.jpg)
CARTOGRAPHIE HADOOP
58
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce
Spark
Streaming Pig Hive Storm
Tez Slider Tez
DATA WORKFLOW MANAGEMENT
Oozie
MapReduce MapReduce Slider
![Page 59: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/59.jpg)
RETOUR D’EXPÉRIENCE
¤ Transporteur ¤ Evénements de suivi de colis ¤ 20 millions de messages par jour (180 Go / jour) ¤ 200 à 4000 événements par seconde
59
¤ Génération d’alertes ¤ Statistiques « fil de l’eau » ¤ Et bien d’autres (analyses, simulations, etc.)
¤ Spark Streaming (entre autre) : > Calcul de l’état du colis > Détection d’anomalies / alertes > Filtrage / routage / enrichissement > Génération d’événements manquants
![Page 60: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/60.jpg)
RETOUR D’EXPÉRIENCE
60
Evénements Lectures
API Traitements Synchrone
HTTP/2.0 SOA IoT
API Traitements Synchrones
Tampon API Traitements Synchrone Traitements Asynchrones
Ecritures
Messages d’écritures
Mobile HTML Service Web
His
toriq
ue
Streaming
Alertes
![Page 61: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/61.jpg)
ENJEUX
Distributed Storage
Extreme Transaction Processing
Parallel Programming
Event Stream
Processing
YOU ARE
HERE
61
Events intensive
Transaction intensive
Storage intensive
Computation intensive
![Page 62: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/62.jpg)
CARTOGRAPHIE HADOOP
62
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce Spark Pig Hive Storm
Tez Slider Tez
HBase
DATA WORKFLOW MANAGEMENT
Oozie
MapReduce Slider MapReduce
![Page 63: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/63.jpg)
AGENDA
63
HADOOP, qu'est-ce que c’est ?
Quelques cas d’usage
Industrialisation de la plateforme
![Page 64: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/64.jpg)
INDUSTRIALISATION ?
Stockage élastique distribué
☆☆☆☆☆☆
Support de plusieurs workloads
☆☆☆☆☆☆
Partage des ressources
☆☆☆☆☆☆
Gouvernance des données
☆☆☆☆☆☆
Interopérabilité logicielle
☆☆☆☆☆☆
Exploitabilité
☆☆☆☆☆☆
Accumulation de grandes profondeurs d’historique, données structurées, semi-structurées et non structurées
TP, batch, interactif, analytique/machine learning, temps réel (fast data)
Sécurité des données, gestion des ressources de stockage et de calcul, reporting analytique de l’usage
Catalogage des données, traçabilité de la production des datasets, gestion du cycle de vie
Support de SQL, connecteurs xDBC, support natif par les produits tiers (ETL, etc.)
Monitoring, outillage de la configuration et des déploiements, production de KPI, haute disponibilité, PRA
64
![Page 65: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/65.jpg)
LA MATURITÉ D’HADOOP (1/2)
Stockage élastique distribué
★★★★★★
Support de plusieurs workloads
★★★★★★
Partage des ressources
★★★★★★
Gouvernance des données
★★★★★★
Interopérabilité logicielle
★★★★★★
Exploitabilité
★★★★★★
Hadoop début 2013 …
65
![Page 66: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/66.jpg)
LA MATURITÉ D’HADOOP (2/2)
Stockage élastique distribué
★★★★★★
Support de plusieurs workloads
★★★★★★
Partage des ressources
★★★★★★
Gouvernance des données
★★★★★★
Interopérabilité logicielle
★★★★★★
Exploitabilité
★★★★★★
… et Hadoop en 2016 Améliorations sur tous les fronts !
66
![Page 67: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/67.jpg)
GOUVERNANCE : DES DONNÉES MIEUX MAÎTRISÉES
¤ Traçabilité de la production des datasets
¤ Gestion du cycle de vie des données
¤ Réplication de datasets sur site distant
67
![Page 68: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/68.jpg)
CONNECTIVITÉ ET OUTILLAGE
68
![Page 69: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/69.jpg)
SÉCURITÉ
Authentification forte des utilisateurs et services, Intégration annuaire d’entreprise
Habilitations étendues (ACL) sur HDFS, modèle de sécurité RBAC
Extension partielle des ACL aux couches SQL et NoSQL
Chiffrement des flux
69
Sécuriser une plateforme Hadoop nécessite une forte expertise
Partage des ressources
������
![Page 70: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/70.jpg)
EXPLOITATION
¤ La plupart des services sont aujourd’hui en haute disponibilité, et les rolling upgrades permettent de migrer des gros clusters sans interruption
¤ La nécessité de reposer sur des standards d’exploitation (API REST, socles de déploiement) a été bien comprise et la richesse des API augmente
¤ Les API de récupération de métriques, essentielles pour le reporting d’usage, la refacturation ou le capacity planning apparaissent
70
![Page 71: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/71.jpg)
EXPLOITATION
71
Collaboration
Déploiement Continu
Infrastructure As Code
![Page 72: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/72.jpg)
VISION 360 DE LA PLATEFORME AVEC AMBARI / CLOUDERA MANAGER
72
![Page 73: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/73.jpg)
CARTOGRAPHIE HADOOP
73
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce Spark Pig Hive Storm
Tez Slider Tez
HBase
DATA WORKFLOW MANAGEMENT
Oozie
MapReduce Slider MapReduce Ambari
Cloudera Manager
Falcon
Navigator
Sentry
Ranger
![Page 74: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/74.jpg)
TAKE AWAY
![Page 75: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/75.jpg)
ENJEUX
Distributed Storage
Extreme Transaction Processing
Parallel Programming
Event Stream
Processing Events
intensive
Transaction intensive
Storage intensive
Computation intensive
YOU ARE
HERE
75
![Page 76: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/76.jpg)
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce Spark Pig Hive Storm
Tez Slider Tez
HBase
DATA WORKFLOW MANAGEMENT
Oozie
Ambari
Cloudera Manager
Falcon
Navigator
Sentry
Ranger
MapReduce Slider MapReduce
UNE ARCHITECTURE ÉVOLUTIVE
76
Outils
Exécution
Stockage
API
API
![Page 77: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/77.jpg)
EN SYNTHÈSE…
77
L’écosystème Hadoop a rapidement évolué pour proposer aujourd’hui une solution mature
Hadoop propose une solution industrialisée : intégration au SI, sécurité, gouvernance, déploiement, etc.
Hadoop est prêt à répondre à vos besoins. C’est une composante inévitable de votre SI !
![Page 78: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/78.jpg)
Nov 8th 7 pm, Genève “Banknote Recognition System”
(Machine Learning)
Nov 10th 6 pm, Genève “Data Science & Machine Learning:Explorer, Comprendre Et Prédire”
Demo on OCTO stand
Free Download
bit.ly/1KJVsD1
![Page 79: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/79.jpg)
79
![Page 80: Plongée dans la plateforme hadoop](https://reader033.vdocuments.pub/reader033/viewer/2022042619/587134bf1a28abf0568b5661/html5/thumbnails/80.jpg)
CARTOGRAPHIE HADOOP
80
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Flume Sqoop Map
Reduce Spark Pig Hive Storm
Tez Slider Tez
HBase
DATA WORKFLOW MANAGEMENT
Oozie
Ambari
Cloudera Manager
Falcon
Navigator
Sentry
Ranger
MapReduce Slider MapReduce