hadoop en 1461 leçons

22
Hadoop Hadoop en 1461 leçons en 1461 leçons David Morel David Morel 1 / 22

Upload: david-morel

Post on 21-Mar-2017

442 views

Category:

Software


0 download

TRANSCRIPT

Page 1: Hadoop en 1461 leçons

HadoopHadoop

en 1461 leçonsen 1461 leçons

David MorelDavid Morel

1 / 22

Page 2: Hadoop en 1461 leçons

Qui suis-je ?Qui suis-je ?

Dev chez Booking.com de 02/2007 à 11/2015

Frontend, Email marketing, Infra, Visitor personalization,puis Big Data (2011)

Il n'y a pas de problème, il n'y a que dessolutions

(beaucoup de solutions)

2 / 22

Page 3: Hadoop en 1461 leçons

© Gareth Bogdanoff/flickr

L'effet recherchéL'effet recherché

3 / 22

Page 4: Hadoop en 1461 leçons

© peasap/flickr

Le prix à payerLe prix à payer

4 / 22

Page 5: Hadoop en 1461 leçons

©kunkelstein/flickr

Des data devenues vraimentDes data devenues vraimenttoo bigtoo bigAssez de scaffolding code !

Requêtes MySQL prenantplusieurs heures, voire jours !

Enough is enough !

5 / 22

Page 6: Hadoop en 1461 leçons

Le prototypeLe prototypeVite fait, machines hétéroclites, jobs enHadoopStreaming. Mariage peu orthodoxe(Hadoop+Perl), mais des résultats encourageants, voiremagiques

6 / 22

Page 7: Hadoop en 1461 leçons

Le premier Le premier vraivrai cluster clusterImport de tables de BDD (Sqoop) pour quelquesanalystes : permettre enfin les requêtes cross-DB

Manque de docs à l'époque. Plus le cas aujourd'hui :nombreux livres très utiles, voire obligatoires

Tout est à (ré)apprendre

7 / 22

Page 8: Hadoop en 1461 leçons

Mise en productionMise en productionPassage rapide à deux clusters pour les tests deconfiguration, les upgrades et la redondance

Consultants Cloudera pour le bootstrap, utilisation deCM au début puis Puppet

8 / 22

Page 9: Hadoop en 1461 leçons

Le dédale des optionsLe dédale des optionsC'est un cauchemar !

Aucune config standard adaptée

Théorie : les gros utilisateurs (early adopters) n'ont pasde temps pour la doc

Différent aujourd'hui ?

9 / 22

Page 10: Hadoop en 1461 leçons

Nos premiers utilisateursNos premiers utilisateurs

Venant de MySQL, Hive était un choix évident

TRANSFORM est une killer feature10 / 22

Page 11: Hadoop en 1461 leçons

Ce qu'ils nous apprennentCe qu'ils nous apprennentUne vélocité jamais atteinte, très favorable auxprocessus de développement itératifs

Un effort de formation très important :

mapreduce demande un paradigm shiftles utilisateurs voient une chose qui just works etcassent tout très facilement

11 / 22

Page 12: Hadoop en 1461 leçons

La montée en chargeLa montée en chargeIngestion des events du site : millions, puis milliards deJSON par jour

Demande endémiquement sous-évaluée : croissance duvolume dans toutes les directions

Reprocess, big jointures : quelques indigestions

Prévisions d'espace disque et CPU : encore plusdifficiles sur un petit cluster

Les clusters sont de petits gros êtres fragiles

12 / 22

Page 13: Hadoop en 1461 leçons

La minute de la haineLa minute de la haineLe jour où on a effacé toutes les partitions

Le jour où le FairScheduler est devenu fou

Le jour où le HistoryServer a fait tomber le cluster

Et les 1458 autres jours

De grands moments de solitude (surtout la nuit)

Chasser les bugs est so fun

13 / 22

Page 14: Hadoop en 1461 leçons

Pourquoi tant de Pourquoi tant de hainehaine bugsbugsfun ?fun ?Parce que ce sont des systèmes jeunes !

Parce que ce sont des systèmes complexes (pas unsystème, mais un écosystème)

Parce que le développement est rapide, et laconcurrence féroce

Encore très loin de la stabilité et de la prévisibilité desSGBDR (même si c'est très différent)

14 / 22

Page 15: Hadoop en 1461 leçons

Le cloud, pourquoi pas ?Le cloud, pourquoi pas ?Obstacles culturels et confidentialité

Le faire si l'on peut, surtout pour le démarrage : seconcentrer sur la valeur, pas sur la plomberie

Virtualisation in-house ? Now you have 2 problems

15 / 22

Page 16: Hadoop en 1461 leçons

La division du tempsLa division du temps40 % troubleshoot infra, maintenance, évolution

40 % troubleshoot users, formation, assistance

40 % codage de scripts de monitoring, et facilitationd'accès pour les users

Demande un peu d'organisation :-)

16 / 22

Page 17: Hadoop en 1461 leçons

Des solutions ?Des solutions ?Briques de bases (automatisation, profiling, grossesconfig comme Kerberos) à implémenter toujours trèstôt ; les systèmes distribués ne rendent pas les chosesplus simples

Peut-être une 2ème équipe déchargée du supportutilisateurs ?

Favoriser la diffusion de la connaissance, utiliser desoutils adaptés, type StackOverflow. Former desutilisateurs experts qui forment les autres

Classique, non ? Presque...17 / 22

Page 18: Hadoop en 1461 leçons

La récompenseLa récompenseUn analyste: "Without you guys, I simply

couldn't do my job anymore"

Yeehaa! 18 / 22

Page 19: Hadoop en 1461 leçons

Recette : réussir ses lasagnesRecette : réussir ses lasagnesà la big dataà la big dataUn investissement humain et matériel important, unR.O.I incertain

Le data-centrisme et la transdiciplinarité en préalable

Pourquoi ai-je besoin d'Hadoop ? Quelles alternatives ?

Comme toujours, la clé est dans la qualité de l'exécution

Workhorses, not show ponies ; faire bien une chose,plutôt que dix mal

19 / 22

Page 20: Hadoop en 1461 leçons

Une promenade de santéUne promenade de santéAllez-y !

20 / 22

Page 21: Hadoop en 1461 leçons

Une promenadeUne promenade

de santéde santéAllez-y !

(doucement, quand même)

21 / 22

Page 22: Hadoop en 1461 leçons

[email protected]

http://www.amakuru.net/

22 / 22