hadoop prêt pour l'entreprise
DESCRIPTION
Présentation Conférence "Bigdata Niort" Hadoop, prêt pour l’entreprise Après une introduction à Hadoop, son historique et son écosystème, il s’agira de découvrir de quelle manière cette technologie est prête pour l’entreprise. Les utilisations d’Hadoop sont déjà très nombreuses et ce dans de nombreux secteurs ; cette technologie, qui pourrait effrayer, sait se fondre au système d’information des organisations de grâce à sa richesse, et aux types de traitements qui peuvent s’y exécuter. De même, la variété de solutions qui composent le monde Hadoop permet à chacun de démarrer à son rythme pour pouvoir progresser et tirer partie de toutes les données qui nous entourent, les transformant en information et enfin en connaissances. http://www.bigdata-niort.fr/charly-clairmont/TRANSCRIPT
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Hadoop prêt pour l'entreprise
Charly [email protected]@egwada
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Mon parcours
● Depuis 2004 - ALTIC ● Mes Technos
…...
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop User Group France
● Créé en 2012● Plus de 300 membres
● Plus de 100 membres par meetup
● Vimeo (23 vidéos)
● http://vimeo.com/user11241340
● SlideShare (Présentations (29)
● http://fr.slideshare.net/hugfrance
● Twitter● @hugFrance
● #HugFr
● Site● http://hugfrance.fr
Un groupe de plus en plus actif !(messages échangés sur l'année)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !
2011
Hortonworksfounded
2012 2013
Hadoop 1.0
Hadoop 2.0
HugFrance
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !le détail
● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds● 2006 Jan. - Doug Cutting rejoind Yahoo!● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce● 2006 Fev. - Yahoo! adopte Hadoop● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures.● 2006 Mai. - Yahoo! a un cluster de 300 nœuds● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines)● 2006 Oct. - Hadoop s'exécute sur 600 nœuds● 2006 Dec. - Benchmark Tri
● 20 nœuds : 1,8 heures● 100 nœuds : 3,3 heures● 500 nœuds : 5,2 heures ● 900 nœuds : 7,8 heures
● 2007 Jan. - Hadoop s'exécute sur 900 nœuds● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds● ...● ...● 2012 Jan. 4 - Hadoop 1.0● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN)● 2013 Oct. 16 - Hadoop 2.0
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et en 10 ans son adoption ne fait plus de doute !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop est robuste !
● Stable● Testé - Yahoo! (40 000 nœuds)
● Fiable● Tolérant à la panne
● Flexible● Schéma à la lecture !● Passage à l'échelle
● Économique● Prédictibilité des coûts
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, système d'exploitation de la donnée
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, le système de fichiers distribué
● Distribué
● Passage à l'échelle
● Auto-surveillance pour redistribuer la donnée
● Peu gourmand en bande passante
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, calcul parallèle en toute simplicité
Map Reduce
Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value
Entées
Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value
Intermédiaire
Key|Value,Key|Value,Key|Value,Key|Value
Résultat
= un type de collection
Key|Value,Key|Value,Key|Value
Key|Value,Key|Value
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, architecture basique
Input Format
Map Sort Reduce Output Format
Node Node
Partitioner
MapReduce
HDFS (Distributed File System)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS et MAP / REDUCE au cœur d'Hadoop
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, range donc les fichiers
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS sait où se situe chacun des blocs de données
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette distribution de fichiers (1)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette distribution de fichiers (2)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HBASE, du NoSQL sur Hadoop
● Distribuée
● Orientée colonnes● Multidimensionnelle
● Haute Disponibilité
● Haute Performance
● Système de stockage
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hive, la couche SQL d'Hadoop
HDFS
DDL QueriesBrowsing
MapReduce
MetaStore
Thrift API
SerDeThrift Jute JSON..
ExecutionDriver
Parser
Planner
DB
Web U
I
Optimizer
JDBC ODBCCLI
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
PIG, pas de Map / Reduce plutôt du script !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Importer / exporter
NFS● Naviguer dans HDFS
depuis votre explorateur de fichiers
Flume● Collecte de grands
volume de données (logs, événements...) vers Hadoop
WebHDFS● Service REST pour
HDSF
SQOOP● Importer et exporter
vos données rangées dans votre SGBDR
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Exploitation
Oozie● Planification de jobs
Ambari● Installation, gestion,
surveillance du cluster Hadoop
Falcon● Gestion cycle de vie
des données● Réplication
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Sécurité
Knox● Gestion étendue,
unifiée et globale de la sécurité dans Hadoop
● Supporte l'authentification et la gestion des jetons de sécurité.
KNOX
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop 2 ! Plus de types de traitements !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
YARN, transforme Hadoop en OS de la donnée
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Grâce à Yahoo! un standard est né
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, un vibrant écosystème
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et c'est bien l'open source qui mène la danse...
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Tellement reconnu... qu'il grignote des places... lentement mais sûrement...
Ralph KIMBALL, un des pères du Data Warehousing reconnaît vivement Hadoop comme
● Un excellent complément au data Warehouse
● Une zone de staging et un ETL de grande efficacité
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop pourra tout traiter
« Le transactionnel »
Déjà dans toutes les têtes
Surtout celle de Doug CUTTING, le père d'Hadoop !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Pas de bidouillage ! De vrais outils !
Exploitation ETL
Exploration Visualisations
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais acteurs !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Des solutions disruptives et structurantes
Couches logicielles Technologies
Traitements massivement parallèles
YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ...
Système de fichiers Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, LustreMapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ...
Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...)
Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal, WanDisco
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, lac de données
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais projets !
#HugFrance a eu de vrais retour d'expérience● Paris
– Crédit Mutuel Arkea● Consolidation données clients
– EDF● Nouveau Compteur électrique « Linky »
– Criteo● Annonces publicitaires en ligne
– 55● Optimisation publicité en ligne
● Lyon– Booking.com
● Réservation de nuitées d'hôtel
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Merci pour votre attention
Charly [email protected]@egwada