bigdata for dummies

Upload: karim-armani

Post on 01-Mar-2016

31 views

Category:

Documents


0 download

DESCRIPTION

BigData for Dummies

TRANSCRIPT

  • par Will Garside et Brian Cox

    Le Stockage Big Data

    dition spciale EMC Isilon

    POUR

    LES NULSMD

  • Le Stockage Big Data pour les Nuls, dition spciale EMC Isilon

    Publi par : John Wiley & Sons, LtdThe AtriumSouthern GateChichesterWest SussexPO19 8SQAngleterrewww.wiley.com

    2013 John Wiley & Sons, Ltd, Chichester, West Sussex.

    Pour plus dinformations sur la manire de raliser un livre Pour les Nuls destin votre entreprise ou organisation, crivez ladresse [email protected]. Pour plus dinformations sur les licences relatives la marque Pour les Nuls pour les produits et services, crivez ladresse BrandedRights&[email protected].

    Visitez notre page Internet ladresse www.customdummies.com.

    Tous droits rservs. Aucune partie de cette publication ne peut tre reproduite, sauvegarde dans un systme de rcupration des donnes ou transmise sous quelque forme que ce soit et par nimporte quel moyen (lectronique, mcanique, photocopie, enregistrement ou autre) sans le consentement crit pralable des auteurs, lexception des cas prvus par la loi britannique de 1988 relative aux droits dauteur, aux conceptions et aux brevets.

    Les dsignations utilises par les entreprises pour identifier leurs produits sont souvent mentionnes comme des marques dposes. Tous les noms de marques et noms de produits utiliss dans ce livre sont des dnominations commerciales, des marques de service, des marques dposes ou enregistres appartenant leurs propritaires respectifs. Lditeur nest pas associ aux produits ou vendeurs mentionns dans ce livre.

    LIMITE DE RESPONSABILIT/EXONRATION DE GARANTIE : BIEN QUE LDITEUR ET LAUTEUR AIENT FAIT DE LEUR MIEUX LORS DE LA RALISATION DE CE LIVRE, ILS NE FONT AUCUNE DCLARATION ET NE FOURNISSENT AUCUNE GARANTIE QUANT LEXACTITUDE OU LEXHAUSTIVIT DU CONTENU DE CE LIVRE ET DCLINENT TOUTE GARANTIE IMPLICITE DE VALEUR MARCHANDE OU DADAPTATION UN USAGE QUELCONQUE. IL EST ENTENDU QUE LDITEUR NE SENGAGE AUCUNEMENT FOURNIR DES SERVICES PROFESSIONNELS ET QUE NI LDITEUR, NI LAUTEUR NE SERONT TENUS POUR RESPONSABLES DES DOMMAGES POUVANT DCOULER DES PRSENTES. SI DES CONSEILS PROFESSIONNELS OU UNE ASSISTANCE DEXPERT SONT REQUIS, IL CONVIENT DE FAIRE APPEL UN PROFESSIONNEL COMPTENT.

    Wiley publie galement ses livres dans divers formats lectroniques. Certains contenus imprims peuvent ne pas tre disponibles dans les livres lectroniques.

    ISBN: 978-1-118-71391-4 (pbk)

    Imprim en Grande-Bretagne par Page Bros

  • Introduction

    Nous avons lhonneur de vous prsenter Le Stockage Big Data pour les Nuls, un guide qui vous permettra de comprendre les concepts et les technologies ncessaires pour crer une architecture de stockage de donnes efficaces en vue de grer des projets sensibles.

    Les donnes sont un ensemble dinformations, telles que des valeurs ou des mesures. Les donnes peuvent tre des nombres, des mots, des observations ou encore des descriptions.

    Le stockage et la rcupration de grands volumes dinformations, ainsi que la recherche de renseignements au sein dune masse de donnes sont au cur du concept du Big Data, et cest la raison pour laquelle cette technologie est si importante pour la communaut informatique et la socit dans son ensemble.

    propos de ce livreConcis, ce livre regorge de conseils utiles sur la manire de concevoir, de mettre en uvre et de grer des donnes et des plateformes de stockage.

    Partis prisEn crivant ce livre, nous avons fait quelques suppositions votre sujet. Nous supposons que :

    Vous faites partie dune organisation qui prvoit de mettre en uvre un projet de Big Data.

    Vous tes responsable dune quipe ou chef de projet mais pas forcment un expert technique.

    Vous devez tre mme de participer un projet de Big Data et dy jouer un rle essentiel. Pour cela, il vous est utile de comprendre les concepts cls du Big Data.

  • Le Stockage Big Data pour les Nuls 2

    Structure du livreLe Stockage Big Data pour les Nuls est divis en sept chapitres concis et riches en informations :

    Chapitre 1 : Explorer le monde des donnes. Ce chapitre vous explique les diffrents types de donnes et de structures.

    Chapitre 2 : Comment le Big Data peut-il aider votre organisation. Ce chapitre vous aide comprendre de quelle manire le Big Data peut aider votre organisation rsoudre des problmes et obtenir de meilleurs rsultats.

    Chapitre 3 : Crer une infrastructure efficace pour le Big Data. Dcouvrez comment des lments pris individuellement peuvent vous aider btir vos fondamentaux.

    Chapitre 4 : Amliorer un projet de Big Data laide du stockage scale-out. Comment une technologie de stockage innovante peut concrtiser vos projets.

    Chapitre 5 : Bonnes pratiques du stockage scale-out dans le monde du Big Data. Ces conseils vous permettront de garder votre cap.

    Chapitre 6 : Autres lments prendre en compte pour le stockage de Big Data. Nous abordons dautres points complmentaires pour garantir le succs de votre projet de Big Data.

    Chapitre 7 : Dix astuces permettant de garantir le succs dun projet de Big Data. Rendez-vous ici pour la clbre Partie des Dix des livres Pour les Nuls : dix conseils garder en tte, lorsque vous vous lancez dans un projet de Big Data.

  • Introduction 3Vous pouvez vous contenter de lire quelques chapitres de ce livre ou le lire du dbut la fin, cela ne devrait pas vous prendre trop de temps !

    Symboles utiliss dans ce livrePour faciliter la lecture et attirer votre attention sur les informations les plus utiles, ces symboles mettent en exergue les parties cls du texte :

    La cible attire votre attention sur un conseil avis.

    Ce symbole met en vidence des informations importantes garder en tte.

    Consultez ces exemples de projets de Big Data pour y trouver conseils et inspiration.

    Et maintenant ?Vous pouvez lire ce livre dun trait ou passer des sections, utiliser les titres des chapitres comme guide pour relever les informations dont vous avez besoin. Peu importe votre choix, vous ne pouvez pas vous tromper. Les deux possibilits mnent au mme rsultat : les connaissances dont vous avez besoin pour crer une solution de stockage volutive, facile grer et protge en vue de raliser un projet de Big Data.

  • Le Stockage Big Data pour les Nuls 4

  • Chapitre 1

    Explorer le monde des donnes

    Dans ce chapitre Dfinir les donnes Comprendre les donnes structures et non structures Savoir comment exploiter les donnes Stocker et rechercher des donnes Connatre le potentiel et les risques

    Le monde volue au fil de la production dinformations lectroniques. Chaque seconde, chaque jour, des ordinateurs et dautres systmes lectroniques crent, traitent, transmettent et reoivent dnormes volumes dinformations. Nous crons environ 2200 ptaoctets de donnes chaque jour. Cet norme volume reprsente 2 millions de recherches traites par Google chaque minute, 4000 heures de vidos tlcharges sur YouTube chaque heure et 144 milliards de-mails envoys partout dans le monde chaque jour. Cela quivaut la totalit du contenu de la Bibliothque du Congrs amricain traversant la toile toutes les 10 secondes !

    Dans ce chapitre, nous abordons diffrents types de donnes et ce dont nous avons besoin pour les stocker et les rechercher.

  • Le Stockage Big Data pour les Nuls 6

    Plonger dans lunivers des donnes

    Les donnes peuvent prendre de nombreuses formes, telles que des sons, des images, des vidos, des codes-barres, des transactions financires, entre autres, et elles sont rparties en de multiples catgories : donnes structures ou non structures, qualitatives ou quantitatives, discrtes ou continues.

    Comprendre les donnes structures et non structuresIndpendamment de leurs sources, les donnes sont gnralement divises en deux types, savoir les donnes structures ou non structures :

    Les donnes non structures sont des informations qui ne prsentent souvent pas de modle de donne prdfini ou qui peuvent difficilement tre intgres dans des tableaux ordonns ou des tableurs. Dans le monde des affaires, les informations non structures sont souvent lourdes en texte et peuvent contenir des donnes telles que des dates, des chiffres et des faits. Les fichiers image, vido et audio sont souvent qualifis de non structurs, mme sils prsentent souvent une certaine organisation ; le manque de structure rend la compilation fastidieuse pour faire de lanalyse.

    Les donnes structures font rfrence aux informations organises comme les donnes commerciales au sein dune base de donnes relationnelle. Les ordinateurs peuvent facilement effectuer des recherches et les organiser sur la base de divers critres. Les informations reprises sur un code-barres peuvent sembler mconnaissables pour lil humain, mais elles sont hautement structures et facilement lisibles par les ordinateurs.

  • Chapitre 1: Explorer le monde des donnes 7

    Donnes semi-structuresSi les donnes non structures sont facilement comprhensibles pour les tres humains et les donnes structures destines aux machines, un grand nombre de donnes se trouve au milieu de ces deux catgories !

    Les e-mails dun directeur des ventes peuvent tre tris par date, heure ou taille, mais sils sont totalement structurs, ils peuvent aussi tre tris par opportunit de vente ou projet client. Cela reste toutefois difficile, car souvent, les gens ncrivent pas sur un sujet prcisment, mme dans un e-mail cibl. Cependant, le mme directeur des ventes peut disposer dun tableur reprenant les donnes de ventes actuelles, organis par client, produit, heure ou date, ou une combinaison de ces points de rfrence.

    Les donnes peuvent donc prsenter diverses caractristiques :

    Les donnes qualitatives sont gnralement des informations descriptives et sont souvent subjectives. Par exemple, Bernard Dupont est un homme portant un jean et un T-shirt marron.

    Les donnes quantitatives sont des informations numriques et peuvent tre soit discrtes, soit continues.

    Les donnes discrtes relatives Bernard Dupont sont quil a deux bras et est le fils de Gilbert Dupont.

    Les donnes continues sont que Bernard Dupont pse 70 kilos et mesure 1 m 72.

    En bref, les donnes discrtes sont comptes et les donnes continues sont mesures.

    Si vous voyiez une photo de Bernard Dupont, vous verriez les donnes structures sous la forme dune image, mais cest votre capacit estimer son ge, la nature des habits et la perception des couleurs, qui vous permet de raliser une valuation qualitative. Toutefois, la taille et le poids de Bernard ne peuvent tre correctement quantifis que par le biais dune prise de mesures et ces deux facteurs varieront tout au long de sa vie.

  • Le Stockage Big Data pour les Nuls 8

    Donnes audio et vidoUn fichier audio ou vido prsente une structure, mais son contenu comporte galement des informations qualitatives, quantitatives et discrtes.

    Prenons le fichier de la chanson Poker Face de Lady Gaga:

    Les donnes quantitatives sont que le morceau est une chanson de musique pop chante par une chanteuse.

    Les donnes quantitatives continues sont que le morceau dure 3 minutes et 43 secondes et que la chanson est en anglais.

    Les donnes quantitatives discrtes sont que la chanson a t vendue en 13,46 millions dexemplaires depuis le 1er janvier 2009. Cependant, ces donnes ne sont dcouvertes que via des analyses des donnes de vente compiles partir de sources extrieures et pourraient augmenter avec le temps.

    Donnes brutesDans le cas de Bernard Dupont ou de la chanson Poker Face, divers lments de donnes ont t traits partir dun fichier image ou audio. Toutefois, bon nombre de donnes sont brutes ou non traites et consistent surtout en une srie de chiffres ou de caractres.

    Un mtorologiste peut recueillir des donnes relatives la temprature, lhumidit, la direction du vent et aux prcipitations, mais ce nest quune fois ces donnes brutes traites et replaces dans leur contexte quelles peuvent tre transformes en informations, telles que les probabilits quil pleuve ou quil neige.

    Crer, exploiter et stocker des donnes

    Les informations gnres par les systmes informatiques sont gnralement cres la suite de la ralisation

  • Chapitre 1: Explorer le monde des donnes 9dune tche. La cration de donnes requiert souvent des intrants, un traitement, puis un extrant. Par exemple, dans votre supermarch local, le caissier, qui scanne les codes-barres de chaque article, collecte des donnes sur ces codes-barres, qui sont lues par le scanner laser plac sur la caisse enregistreuse. Ce processus est reli un systme informatique distance rcuprant les prix et les descriptions, qui sont renvoys vers la caisse enregistreuse pour impression sur le ticket de caisse. Enfin, le total est calcul et dautres donnes, comme celles relatives aux cartes de fidlit, peuvent leur tour tre traites par la caisse enregistreuse pour calculer les rductions ventuelles. Cet ensemble de tches est commun dans les systmes informatiques suivant une mthodologie dintrant, de traitement et dextrant.

    Tirer parti des donnesCe supermarch dispose peut-tre de 10 caisses enregistreuses et la socit compte peut-tre 10 magasins dans la mme ville et des centaines dautres ailleurs dans le pays. Toutes les donnes issues de chaque caisse et magasin sont envoyes au sige social, o dautres systmes informatiques traitent ces donnes de ventes pour calculer les stocks et effectuer les commandes.

    Les informations financires manant de tous ces magasins peuvent tre envoyes dautres systmes pour calculer les bnfices et les pertes ou pour aider le dpartement des achats dterminer quels articles se vendent bien et ceux peu populaires. Le flux de donnes peut ensuite tre transmis soit aux dpartements marketing, qui prvoient des offres spciales pour les produits rencontrant peu de succs, soit aux fabricants qui peuvent alors dcider de modifier le produit.

    Dans lexemple de la chaine de supermarchs, les donnes requirent quatre activits principales :

    La collecte

    La transmission

    Le stockage

    Lanalyse

  • Le Stockage Big Data pour les Nuls 10

    Le stockage des donnesSeule la moiti des 7 milliards dhabitants de la plante surfe sur Internet, donc le volume dj colossal de donnes numriques augmentera rapidement lavenir. Les informations traditionnelles stockes sur des mdias physiques, comme les pellicules de film, les livres et les radiographies peuvent tre rapidement transformes en un quivalent totalement numrique pouvant tre utilis par les appareils informatiques via les rseaux de communication.

    Des donnes sont cres, traites et stockes sans arrt :

    Passer un coup de tlphone, utiliser un distributeur de billets et mme faire le plein dune voiture la station service sont des activits qui gnrent des kilo-octets dinformations.

    Regarder un film sur Internet demande 1000 mgaoctets de donnes.

    Facebook ingre plus de 500 traoctets de nouvelles donnes chaque jour.

    Des volumes massifs de donnes doivent tre stocks pour des recherches ultrieures. Il peut sagir de rseaux de tlvision souhaitant diffuser un film en particulier, dagences de presse souhaitant retrouver danciens articles sur un penseur franais ou encore dinstitutions de recherches scientifiques ayant besoin dexaminer danciennes cartes ariennes de fort pour mesurer le taux de dforestation. Dautres organisations peuvent avoir besoin de conserver des dossiers de patients ou des dossiers financiers conformment aux rglementations gouvernementales. Ces donnes ne requirent souvent pas doutils analytiques ou dautres instruments spcifiques pour dcouvrir la valeur de linformation. La valeur dun film, dune photographie ou dune carte arienne se voit tout de suite.

    Dautres supports demandent une analyse plus approfondie, afin de dterminer leur valeur: Des ptaoctets dinformations critiques telles que des tudes gologiques, des images satellites et des rsultats dessais cliniques dferlent sur les rseaux. Ces grands ensembles de donnes contiennent des informations qui peuvent aider les entreprises trouver de

  • Chapitre 1: Explorer le monde des donnes 11nouvelles rserves de ressources naturelles, prdire des temptes et mettre au point des traitements de pointe contre le cancer.

    Il sagit du Big Data et la frnsie qui lentoure porte la fois sur le stockage et le traitement des ensembles de donnes brutes ncessaires pour en tirer des avantages tangibles, mais nous couvrirons ce sujet plus en dtail au chapitre 4.

    Connatre le potentiel et les risquesLa croissance massive de la quantit de donnes lectroniques ouvre un grand champ des possibles, comme notamment des avances majeures dans le domaine scientifique, lenvironnement, lindustrie et mme de nouveaux modles commerciaux.

    Les donnes sont prcieuses lorsquelles sont en de bonnes mains, mais elles intressent galement les criminels, les concurrents industriels, les terroristes ou les tats. Que ces donnes consistent en des appels tlphoniques passant par des rseaux de communication internationaux, en des informations de profil ou des mots de passe sur les mdias sociaux, sites de vente en ligne ou mme des informations sensibles relatives des dcouvertes scientifiques, les donnes font constamment lobjet dattaques. Des citoyens, des organisations et mme des pays entiers dfinissent des rglementations et de bonnes pratiques sur la manire de protger les donnes et ainsi la vie prive et la confidentialit. Presque tous les grands secteurs disposent de plusieurs rglementations pour grer la scurit et la confidentialit des donnes. Ces lois couvrent gnralement:

    La collecte

    Le traitement

    La transmission

    Le stockage

    Le partage

    La destruction

  • Le Stockage Big Data pour les Nuls 12

    Scurit et conformit des donnesLune des lois sur la scurit des donnes les plus souvent rencontres concerne les donnes des cartes de crdit. Ces lois sont dfinies selon les dispositions du Payment Card Industry (PCI) utilises par les principaux metteurs de cartes de crdit pour protger les informations personnelles de leurs clients et assurer la scurit des transactions traites lors de lutilisation de cartes de paiement. La majorit des institutions financires mondiales doivent se conformer ces normes si elles souhaitent traiter des paiements par carte de crdit. Sinon elles

    risquent des amendes et de perdre leur autorisation.

    Les principes du PCI ont pour objet de :

    Maintenir une politique de scurit de linformation

    Protger les donnes sensibles par le biais du cryptage

    Mettre en uvre des mesures strictes de contrle de laccs

    Contrler et tester de manire rgulire les rseaux et les systmes

  • Chapitre 2

    Comment le Big Data peut-il aider votre

    organisationDans ce chapitre Respecter les 3 V: volume, vlocit et varit Surmonter divers problmes lis au Big Data Lanalyse Big Data Diviser de grands projets en tches plus restreintes laide de

    Hadoop

    Le monde est submerg de donnes numriques et une fois transformes en informations, elles peuvent nous aider dans presque toutes les facettes de notre vie quotidienne. Pour faire simple, on parle de Big Data lorsque les machines et les logiciels informatiques traditionnels ne sont plus mme de contenir, grer la croissance rapide des donnes et de protger de grands volumes, ou lorsquils ne sont plus capables de fournir les renseignements voulus dans des dlais raisonnables.

    Dans ce chapitre, nous abordons laspect analytique. Il sagit dune mthode dextraction de nouveaux renseignements et dinformations partir de la masse de donnes disponibles. Comme lorsque lon recherche une aiguille dans une botte de foin, les projets danalyses du Big Data peuvent consister dans un premier temps trouver la bonne botte de foin!

    Nous parlerons galement de Hadoop, un cadre de programmation qui divise les grands projets en tches plus restreintes.

  • Le Stockage Big Data pour les Nuls 14

    Identifier les besoins en matire de Big Data

    Le terme Big Data est utilis depuis le dbut du millnaire et a t propos pour la premire fois par des analystes de Technology Research Gartner avec trois dimensions. Ces paramtres du Big Data sont:

    Le volume: Quantit de donnes trs grande ou en augmentation permanente.

    La vlocit : La vitesse dentre et de sortie des donnes.

    La varit: Lventail des types et des sources de donnes.

    Ces 3 V (volume, vlocit et varit) caractrisent le Big Data, mais il faut avant tout dterminer si ces donnes peuvent tre traites pour fournir des renseignements prcis et permettre de prendre des dcisions avises dans des dlais raisonnables.

    Exemples vidents de problmes lis au Big Data :

    Un studio de cinma produit et stocke un large ventail de productions et ralisations cinmatographiques, partir de squences brutes non traites, dans divers formats post-traitement destins par exemple aux cinmas standard, IMAX, 3 D, la tlvision haute dfinition, aux Smartphones et aux systmes de divertissement des compagnies ariennes. Les formats doivent tre localiss dans des dizaines de langues, sont de longueurs diffrentes et doivent tre conformes aux normes de censure de chaque pays.

    Une organisation de soins de sant inclut dans le dossier dun patient chaque remarque du mdecin, les rsultats sanguins, les radiographies, les IRM, les chographies et autres captures dimages mdicales tout au long de la vie de ce patient, sachant que des centaines, des milliers, voire des millions de patients sont grs par cette organisation.

    Un cabinet davocats travaillant sur un important recours collectif doit non seulement rcolter

  • Chapitre 2: Comment le Big Data peut-il aider votre organisation 15dnormes quantits de documents lectroniques (e-mails, calendriers lectroniques et formulaires), mais galement les classer en fonction des lments du dossier. La capacit trouver rapidement des modles, des chanes de communication et des liens est vitale pour prouver les responsabilits des parties.

    Pour une entreprise dingnierie arospatiale, tester les performances, le rendement nergtique et la tolrance dun nouveau moteur raction est un projet de Big Data ambitieux. La construction de prototypes est onreuse, donc la possibilit de crer une simulation informatique et dentrer des donnes pour chaque dcollage imaginable, chaque modle de vol et chaque atterrissage dans des conditions mtorologiques diffrentes permet de raliser dimportantes conomies.

    Un service de scurit nationale utilise un logiciel de reconnaissance faciale pour analyser rapidement les images de plusieurs heures de vidosurveillance, afin de trouver un fugitif. Il sagit dun autre exemple de problme concret pouvant tre abord dans le cadre du Big Data. Assigner cette tche des personnes est trop coteux et lautomatisation exige de rsoudre de nombreux problmes relatifs au Big Data.

    Pas vraiment du Big Data ?Donc, quest-ce qui ne relve pas du Big Data ? Un directeur des ventes rgional tentant de dterminer combien de robes en taille44 ont t achetes dans un magasin particulier le jour du rveillon de Nol est-il confront un problme relevant du Big Data ? Non: cette information est enregistre par les systmes de contrle des stocks du magasin, dans la mesure o chaque article est scann et pay la caisse. Bien que la base de donnes comprenant tous les achats puisse tre volumineuse, les informations sont relativement faciles trouver partir de la bonne base de donnes.

    Mais . . .Si lentreprise souhaite dterminer quel style de robes est le plus populaire auprs des femmes de plus de 30 ans, ou si certaines robes ont fait grimper les ventes daccessoires, ces

  • Le Stockage Big Data pour les Nuls 16informations peuvent requrir des donnes supplmentaires en provenance de multiples magasins, de cartes de fidlit ou de sondages, ce qui demande des calculs pousss pour dterminer les bonnes corrlations. Si ces informations doivent tre obtenues en urgence pour la campagne de marketing mode de la saison printemps, le problme peut relever du Big Data.

    Vous ntes pas confront un problme de Big Data si:

    Les informations dont vous avez besoin sont dj rassembles au sein dun seul tableur.

    Vous pouvez trouver la rponse une requte au sein dune seule base de donnes et cela vous prend quelques minutes et non plusieurs jours.

    Le stockage et le traitement des informations sont grs laide doutils informatiques traditionnels pour un volume modr de donnes.

    Lanalyse de donnes

    Lanalyse de donnes consiste examiner des donnes pour y trouver une information ou des renseignements utiles. Le but premier est daider les entreprises prendre de meilleures dcisions en permettant des spcialistes et dautres utilisateurs danalyser dnormes volumes de donnes de transaction, ainsi que dautres sources de donnes auxquelles des programmes intelligents nont pas accs.

    Ces autres sources de donnes peuvent comprendre des journaux de serveur Web et des donnes de navigation, des rapports dactivit sur les mdias sociaux, des enregistrements dappels passs partir de tlphones portables et des informations issues de capteurs. Tout comme les donnes non structures du mme type, les grands systmes de traitement des transactions et dautres donnes hautement structures sont des types de Big Data pouvant faire lobjet danalyse de donnes.

    Dans de nombreux cas, le principal critre nest pas le caractre structur ou non des donnes, mais bien de savoir si le problme peut tre rsolu rapidement et de manire rentable!

  • Chapitre 2: Comment le Big Data peut-il aider votre organisation 17Le problme est gnralement li la capacit de grer les 3 V (volume, vlocit et varit) des donnes suffisamment rapidement pour en tirer un avantage. Analysons prsent quelques problmes analytiques plus en dtail.

    Un petit problme de Big Data

    Le grant dune cantine scolaire doit accrotre ses recettes de 10%, tout en continuant doffrir un repas sain aux 1000 tudiants qui prennent leur djeuner la caftria chaque jour. Les tudiants payent un certain montant pour leur djeuner, ce montant changeant chaque jour.. Le grant pourrait tout simplement accrotre le cot des plats de 10%, mais une telle mesure pourrait pousser les tudiants apporter leur propre casse-crote. Le grant dcide dutiliser le broyage de donnes pour trouver une solution.

    La premire tape est la cration dun tableau reprenant le nombre de portions de chaque plat qui ont t prpares, quels plats ont t achets chaque jour et le cot total de chacun de ces plats.

    La deuxime tape est une analyse portant sur lanne prcdente, o le grant dcouvre que les tudiants prfrent les sandwiches, les paninis et les croque-monsieurs mais quils ne sont pas friands de hotdogs et de lasagnes. En ralit, 30% des hotdogs taient jets la poubelle!

    Les rsultats de cette analyse suggrent quen remplaant simplement les hotdogs par des sandwiches, la cantine pourrait enregistrer une hausse de revenus de 10%.

    Un problme moyen de Big Data

    Un site de vente en ligne de matriel de bricolage ne sait plus comment faire pour accrotre le montant et la frquence des commandes, surtout depuis que la concurrence sest faite plus intense dans le secteur. Le directeur des ventes dcide quune analyse des donnes est un bon point de dpart.

  • Le Stockage Big Data pour les Nuls 18 La premire tape consiste crer une base de donnes

    reprenant les produits, les clients et les commandes de lanne prcdente. 200000 produits ont t commands lentreprise par environ 20000 clients. Elle envoie par ailleurs un e-mail publicitaire cibl chaque mois avec des offres spciales et dispose dun programme de fidlisation qui prvoit des ristournes sur la base dun systme de points.

    La deuxime tape est de parvenir mieux cerner la clientle en ajoutant les profils que les clients ont complts lors de la procdure dinscription au programme de fidlit. Lge, le sexe, le statut marital, le nombre denfants et la profession sont les renseignements demands lors de cette procdure. Le directeur des ventes peut prsent analyser la manire dont certaines donnes dmographiques influencent les ventes laide de rfrences croises.

    La troisime tape consiste utiliser un logiciel danalyse de tendance qui dtermine que 10% des clients achtent plus volontiers du papier lorsquils achtent de la peinture. En outre, les dtenteurs de cartes de fidlit qui ont des enfants achtent souvent plus darticles en vrac au dbut de lanne scolaire.

    Les rsultats obtenus en effectuant des renvois entre de multiples bases de donnes et en les comparant lefficacit des diverses campagnes permettent au directeur des ventes de crer des rappels articles proposs sur son site Internet. De plus, les campagnes marketing ciblant les parents peuvent tre plus efficaces.

    Un gros problme de Big Data

    En tant que directrice de la dtection des fraudes pour une entreprise de carte de crdit, Sarah tente de reprer dventuelles transactions frauduleuses parmi des millions dactivits financires ralises chaque jour. Sa marge de manuvre est limite par plusieurs facteurs, dont la ncessit de discrtion vis--vis des clients, la capacit du commerant vendre rapidement ses produits et des restrictions lgales relatives laccs aux donnes personnelles. La situation se complique encore avec des reglementations spcifiques, les diffrences culturelles et la distance gographique.

  • Chapitre 2: Comment le Big Data peut-il aider votre organisation 19La dtection des fraudes la carte de crdit est un problme de Big Data qui correspond au critre des 3 V: un important volume de donnes varies qui circulent avec une grande vlocit. Les donnes parviennent dans le systme de dtection des fraudes partir dun trs grand nombre de sources et elles doivent ensuite tre analyses en lespace de microsecondes pour viter les tentatives de fraude, pour ensuite tre de nouveau analyses dans le but de mettre au jour des tendances plus gnralises ou des crimes organiss.

    Hadoop : Passer au traitement parallle des donnes

    Mme les ordinateurs les plus volus peinent rsoudre des problmes complexes prsentant de nombreuses variables et de grands ensembles de donnes. Imaginez quune personne doive trier 26000 botes avec de grandes botes contenant chacune 1000 autres botes marques dune lettre de lalphabet: cette tche prendrait des jours entiers. Mais si vous sparez le contenu des 1000 botes en 10 botes gales plus petites et demandez 10 personnes deffectuer ces tches plus simples, le travail sera ralis 10 fois plus vite. La notion du traitement parallle est lune des pierres angulaires de nombreux projets de Big Data.

    Apache Hadoop (daprs le nom du jouet en forme dlphant du fils du crateur, Doug Cutting) est un cadre de programmation gratuit qui permet de traiter de grands ensembles de donnes dans un environnement informatique rparti. Hadoop fait partie du projet Apache sponsoris par la Apache Software Foundation et sil utilisait Java lorigine, tout langage de programmation peut tre utilis pour grer les diverses parties du systme.

    Hadoop sinspire du MapReduce de Google, un modle darchitecture logicielle, o une application est divise en de nombreuses parties plus petites. Chacune de ces parties (galement appeles fragments ou lments) peut tre traite sur tout ordinateur connect un groupe organis appel grappe (ou cluster). Hadoop permet de lancer des applications sur des milliers dordinateurs individuels avec des milliers de traoctets de donnes. Son systme de fichier rparti facilite des taux de transfert de donnes rapides entre

  • Le Stockage Big Data pour les Nuls 20les nuds et permet au systme de continuer de fonctionner sans interruption en cas de dfaillance du nud. Cette approche rduit les risques de dfaillance systme, mme si un nombre significatif dordinateurs cesse dtre oprationnel.

    Premiers secours : le Big Data, une aubaine pour les hpitaux

    Le Boston Childrens Hospital a t confront des problmes de stockage avec son rseau de stockage (SAN) traditionnel lorsque les nouvelles technologies ont fait crotre rapidement et de manire imprvisible les informations dont dpendaient les chercheurs.

    Les chercheurs travaillent sur de nouveaux traitements pour les enfants gravement malades et ils ont besoin de donnes disponibles immdiatement, tout moment et en tout endroit.

    Pour rsoudre les problmes lis la croissance rapide des donnes traites dans ses oprations de sauvegarde informatique globale, le Boston Childrens Hospital a adopt le logiciel SyncIQ de rplication asynchrone des donnes dIsilon pour reproduire ses informations de recherches entre deux clusters EMC Isilon.

    Cette dmarche lui a permis de gagner du temps et de largent, de renforcer la fiabilit des donnes en gnral et dliminer totalement limpact des donnes de recherches sur les oprations de sauvegarde informatique globale. Le pool partag unique de stockage permet aux chercheurs daccder immdiatement et tout moment au volume massif darchives de donnes et requiert nettement moins de personnel quivalent temps plein pour le support informatique.

    Grce EMC Isilon, les chercheurs du Boston Childrens Hospital disposent toujours des donnes dont ils ont besoin, quand ils en ont besoin, ce qui leur permet de faire avancer leur travail sur les maladies infantiles sans interruption.

  • Chapitre 3

    Crer une infrastructure efficace pour le Big Data

    Dans ce chapitre Comprendre le stockage scale-up et scale-out de donnes Comprendre le cycle de vie des donnes peut impacter le stockage Utiliser des donnes actives et inactives

    Que les donnes numriques soient structures, non structures, quantitatives ou qualitatives (voir le chapitre 1 pour un rappel de la signification de ces termes si ncessaire), elles doivent toutes tre stockes quelque part. Ce stockage peut durer une milliseconde ou toute une vie, en fonction de la valeur des donnes, de leur utilit, de leur pertinence ou de vos exigences personnelles.

    Dans ce chapitre, nous abordons la question du stockage dans le cadre du Big Data. Le stockage du Big Data est compos darchitectures modernes qui ont volu avec Facebook, les compteurs intelligents et Google Maps. Ces architectures ont t conues ds le dpart pour passer facilement de quantits modres massives de donnes, et ce de manire modulaire.

    Les bases du stockage de donnes

    Gardez les points suivants lesprit lorsque vous envisagez le stockage de Big Data.

  • Le Stockage Big Data pour les Nuls 22 Les donnes sont cres par des actions ou via des

    procds. Gnralement, les donnes proviennent dune source ou dune action. Ensuite, elles circulent entre des magasins de donnes et des clients consommateurs de donnes. Un magasin de donnes peut tre une grande base de donnes ou des archives de documents et les clients peuvent tre des outils de productivit, des environnements et des cadres de dveloppement, des outils de planification de ressources des entreprises (PRE), des outils de gestion de relation clientle (CRM) et des systmes de gestion des contenus web (CMS).

    Les donnes sont stockes sous divers formats. Les bases de donnes relationnelles font partie des formats les plus souvent rencontrs et sont disponibles dans de nombreuses configurations diffrentes. Les fichiers texte et numriques, les fichiers XML, les tableurs et les divers types de stockage ferm constituent dautres types de donnes, prsentant tous leurs propres mthodes dindexation et daccs aux donnes.

    Les donnes circulent autour et entre les organisations. Les donnes ne se limitent pas une seule organisation et sont partages ou regroupes partir de sources qui se trouvent en dehors du contrle direct de lutilisateur. Par exemple :

    Une compagnie dassurances automobiles qui calcule une prime dassurance doit consulter la base de donnes de la prfecture qui gre les permis de conduire, pour sassurer que la personne souhaitant une couverture est habilite conduire.

    Ce mme assureur effectue une vrification de solvabilit auprs dautres entits.

    Les donnes manant de ces recherches sont cruciales, mais dans certains cas, lassureur na pas le droit de dtenir cette information plus de quelques secondes, afin quil ait juste le temps de crer sa police dassurance. En fait, la rtention prolonge de ces donnes peut constituer une infraction aux rglementations en vigueur.

    Les flux de donnes sont uniques. La manire dont circulent les donnes travers une organisation dpend de lenvironnement, des procdures de fonctionnement,

  • Chapter 3: Crer une infrastructure efficace pour le Big Data 23du secteur et mme des rglementations en vigueur. Toutefois, quelle que soit lorganisation concerne, la structure de la technologie sous-jacente, des systmes de stockage, des lments de traitement et des rseaux qui caractrisent ces flux est souvent trs similaire.

    Scale-up ou Scale-out ? Examen des options pour le stockage des donnes

    Le stockage dimportants volumes de donnes numriques est un problme majeur pour les organisations de toutes tailles et de toutes sortes. Lvolution technologique qui sest opre depuis les balbutiements du stockage de donnes sur les premiers disques magntiques au dbut des annes 1960 est phnomnale. Lunit de disque demeure la technologie de stockage la plus rpandue, mais la manire de lutiliser a radicalement chang pour rpondre de nouvelles exigences. Les deux principales tendances sont le scale-up, qui consiste acheter un plus grand systme de stockage, et le scale-out, qui revient acheter des systmes multiples pour ensuite les regrouper.

    Imaginez que vous lancez lentreprise Rapido Orange dont le travail est de livrer des palettes doranges :

    Scale-up : Vous achetez un grand entrept pour rceptionner et stocker les oranges livres par lagriculteur, ainsi quun grand camion. Mais votre entreprise continue de crotre. Vos clients existants et nouveaux exigent des temps de livraison plus courts ou un plus grand volume doranges livres chaque jour. Loption du scale-up consiste acheter un plus grand entrept et un plus grand camion, afin de pouvoir grer plus de livraisons.

    Cette option peut tre rentable dans un premier temps, lorsque lentreprise ne dispose que de quelques grands clients locaux. Toutefois, cette dmarche prsente plusieurs dangers, comme lventualit dun incendie dans lentrept ou dune panne du camion. Dans ces cas-l, personne ne reoit doranges. En outre, une fois

  • Le Stockage Big Data pour les Nuls 24que lentrept et le camion ont de nouveau atteint leur capacit maximale, les livraisons effectuer chez ne fut-ce que quelques clients supplmentaires requirent un investissement majeur.

    Scale-out: Vous achetez quatre petits dpts rgionaux pour rceptionner et stocker les oranges de lagriculteur. Vous achetez galement quatre camionnettes plus rapides capables de transporter de nombreuses petites palettes chez chaque client. Mais votre entreprise continue de crotre. Loption du scale-out consiste acheter plusieurs dpts rgionaux supplmentaires plus proches des clients, ainsi que de nouvelles camionnettes.

    Grce au scale-out, si lun des dpts prend feu ou si lune des camionnettes tombe en panne, les autres pans de lactivit sont sauvs et le commerant peut continuer livrer ses oranges, tout en ayant peut-tre mme la possibilit dabsorber les pertes sans changer ses volumes de livraison et sans mettre ses clients dans lembarras. Au fil des nouvelles opportunits commerciales, lentreprise peut continuer sur cette voie en augmentant le nombre de dpts et de camionnettes de manire flexible avec moins de dpenses.

    Avec ces deux options, lentreprise Rapido Orange peut accrotre ses capacits et la performance de ses oprations. Il nexiste pas de rgle absolue sur la manire de choisir lune ou lautre option, dans la mesure o tout dpend de la situation.

    Les architectures de type scale-up pour les donnes numriques peuvent mieux convenir des applications trs structures, volumineuses et prvisibles, telles que des bases de donnes, tandis que les systmes de type scale-out peuvent mieux convenir aux flux en pleine croissance, moins prvisibles et non structurs, comme les journaux de requtes sur Internet ou de grandes quantits de fichiers image. Consultez le tableau 3-1 pour dterminer lequel de ces systmes vous conviendrait le mieux.

    De nombreuses organisations utilisent les deux mthodes pour rpondre des exigences diffrentes. En bref, pour lentreprise Rapido Orange, ladoption dune double approche pourrait tre de disposer dun grand entrept central qui alimente les petits dpts laide de grands camions, tandis que le rseau de dpts rgionaux continue de crotre avec de

  • Chapter 3: Crer une infrastructure efficace pour le Big Data 25nouvelles petites installations et de nouvelles camionnettes pour les livraisons.

    Tableau 3-1 Scale-out ou Scale-up ?Scale-out Scale-upLa quantit de donnes que nous devons stocker des fins de traitement crot de plus de 20% par an

    Nos donnes naugmentent pas de manire significative

    Le systme de stockage doit prendre en charge un grand nombre dappareils qui accdent simultanment au systme

    La plupart de nos donnes sont stockes au sein dune grande base de donnes qui est hautement optimise pour notre charge de travail

    Les donnes peuvent tre rparties dans de nombreuses machines et regroupes lorsquune recherche est ncessaire.

    Toutes les donnes sont synchronises vers un rpertoire central

    Nous prfrerions un accs plus lent que pas daccs du tout en cas de problme mineur

    Les exigences daccs nos magasins de donnes sont trs prvisibles

    Nos donnes sont principalement non structures, prsentes en grands volumes avec des taux daccs trs imprvisibles

    Les ensembles de donnes sont trs structurs et relativement petits

    Comprendre le cycle de vie des donnes pour aboutir un meilleur stockage

    Peu importe do proviennent les donnes, o elles sont traites et o elles sont stockes, elles prsentent toujours une dure de vie utile. Une vido numrique du mariage dun proche doit tre conserve pour toujours. Toutefois, le code trois chiffres indiqu larrire dune carte de crdit utilis des fins de vrification ne doit jamais tre stock dans les registres de ventes dun commerant aprs le traitement.

  • Le Stockage Big Data pour les Nuls 26

    Les donnes en temps rel doivent tre disponibles rapidement Certaines donnes sont essentielles pour des analyses en temps rel et doivent donc tre presque instantanment rendues disponibles pour dautres systmes ou utilisateurs. Par exemple, un officier de police sur le point de donner une contravention doit savoir rapidement si la plaque dimmatriculation de la voiture intercepte est connecte une ventuelle infraction.

    Laccessibilit et le stockage long terme de donnes sont trs importants en termes de cots. En gnral, les donnes qui sont consultes frquemment ou de manire continue dans le cadre du fonctionnement dune entreprise ou dautres oprations requirent un matriel plus performant et des spcifications plus pousses que le stockage de donnes inactives consultes moins souvent.

    Voir lencadr Stockage de donnes en temps rel : Jaguar Land Rover pour un exemple de stockage de donnes en temps rel.

    Grer des donnes utilises moins frquemmentLarchivage des donnes consiste dplacer des donnes qui ne sont plus activement utilises dans un dispositif de stockage spar pour une conservation long terme. Les archives de donnes sont composes de donnes plus anciennes qui restent toujours importantes et ncessaires pour lavenir, ainsi que des donnes qui doivent tre conserves des fins rglementaires. Les archives de donnes sont indexes, dotes de capacits de recherches, afin que les fichiers et les lments de fichiers puissent tre facilement localiss et retrouvs. Voir lencadr Stockage de donnes darchive : HathiTrust pour un exemple darchivage de donnes.

  • Chapter 3: Crer une infrastructure efficace pour le Big Data 27

    Stockage de donnes en temps rel : Jaguar Land Rover

    Jaguar Land Rover conoit, cre et produit certains des vhicules les plus priss au monde et son succs dpend de sa politique dinnovation.

    Dans le cadre de ses activits de conception et de production, les ingnieurs de Jaguar Land Rover utilisent des procds dingnierie assiste par ordinateur (IAO) notamment des fins de simulation. Mais la ralisation de modles cote de largent et prend du temps. Jaguar Land Rover souhaitait disposer dun procd innovant qui lui permettrait de renforcer son efficacit, sa flexibilit et sa rentabilit, tout en rduisant les dlais de mise sur le march.

    Pour relever ce dfi, lentreprise devait repenser son infrastructure informatique l aide dun environnement informatique haute performance (HPC) qui grerait les simulations virtuelles pour tous ses ingnieurs.

    Les simulations virtuelles de Jaguar Land Rover gnrent plus de 10 To de donnes par jour et lentreprise utilise les capacits de stockage scale-out dEMC Isilon X-Series pour augmenter la capacit de sa configuration de stockage originale de 500 To. En six mois, grce EMC Isilon, lenvironnement HPC

    a augment de plus de 250 %. La capacit de stockage a cr de plus de 500% et larchitecture de gestion du rseau a t multiplie par dix.

    Les programmes de simulation virtuelle, grs par les technologies dEMC Isilon, permettent aux quipes dexaminer les problmes plus en dtail, daisment tester de nouvelles ides et de raliser des changements bien plus rapidement que jamais auparavant. Les ingnieurs peuvent prsent crer des images en 3D et relever les dfis survenant avant la ralisation des prototypes, ce qui permet de rduire les cots de manire significative.

    Dans la mesure o les quipes ont rapidement accs des centaines de TB ditrations de conception sur le systme dEMC Isilon, ils peuvent revoir de nouvelles ides en quelques jours et envisager de nouveaux modles avant la ralisation des prototypes. prsent, Jaguar Land Rover ralise des simulations ds les premires phases de son travail, avant mme que les donnes gomtriques et de conception aient t cres. Lquipe peut consulter les informations en temps rel pour comprendre le processus de la simulation et dcider dapporter des modifications si ncessaire.

  • Le Stockage Big Data pour les Nuls 28

    Les donnes actives et darchive sont tout aussi importantes De nombreux projets de Big Data utilisent la fois des donnes actives et darchive pour fournir des renseignements. Par exemple, les donnes actives ou en temps rel manant de la bourse peuvent aider un trader acheter ou vendre des titres, tandis que les donnes darchive relatives la stratgie long terme dune entreprise, la croissance du march et ses produits sont utiles pour mieux grer un portefeuille de manire globale. Les informations en temps rel relatives aux indices boursiers doivent tre disponibles ds que possible, mais les rapports plus anciens ou les tendances de march peuvent tre rcuprs dans un fichier darchive et tre analyss par la suite.

    Stockage de donnes darchive : HathiTrust

    En 2008, luniversit du Michigan (U-M) en collaboration avec le Committee on Institutional Cooperation (CIC) sest lance dans un grand projet visant collecter et conserver un rpertoire numrique partag de connaissances intitul HathiTrust.

    Lobjet premier de ce partenariat tait de prserver et de donner accs au contenu des collections de la bibliothque des partenaires, composes de livres numriques et de revues. Le principal dfi consistait crer une infrastructure de stockage des donnes suffisamment

    solide pour prendre en charge plus de 10 millions dlments numriques et de grer lvolution rapide de ce projet ambitieux.

    Le systme NAS scale-out dEMC Isilon constitue le principal rpertoire de la bibliothque numrique HathiTrust. En partenariat avec Google, entre autres, HathiTrust est parvenu numriser plus de 10,5 millions douvrages 3,6 milliards de pages partir des bibliothques du partenariat, en vue de crer un immense rpertoire numrique de matriel reprsentant plus de 470 traoctets.

  • Chapter 3: Crer une infrastructure efficace pour le Big Data 29

    Un accs plus rapide aux donnes cote gnralement plus cher

    Pour faire simple, les donnes en temps rel, actives ou continues qui permettent des prises de dcision rapides sont gnralement conserves sur les supports de stockage les plus rapides. Souvent, plus le support est rapide, plus il est cher en comparaison avec la capacit disponible. Cest ce que lon appelle le Cot par gigaoctet (Go) ou traoctet (To). Ces diffrents types de performance de stockage et cots sont souvent considrs comme des classes de stockage distinctes, comme le montre lencadr 3-1.

    Encadr 3-1: Plus de rapidit quivaut des cots plus levs par Go ou To.

  • Le Stockage Big Data pour les Nuls 30

  • Chapitre 4

    Amliorer un projet de Big Data laide du stockage

    scale-outDans ce chapitre Comprendre le concept des nuds de stockage Construire un cluster de stockage viter les problmes lis linfrastructure de stockage du Big Data

    Les donnes existent sous diverses formes et prsentent des exigences diffrentes en matire de volume, de vlocit et de varit. Les projets de Big Data peuvent ncessiter des lments de donnes structures, dstructures, en temps rel et darchive pour aboutir des rsultats, et toutes ces donnes doivent tre stockes dans un endroit accessible pour les applications danalyse.

    Notre exemple de lentreprise Rapido Orange au chapitre3 explique les deux philosophies de base pour la construction dune architecture de stockage, le scale-up et le scale-out, et vous pouvez utiliser lune dentre elles ou les deux ensemble pour parvenir au rsultat voulu. Toutefois, les exigences des projets de Big Data qui grent la fois des ensembles de donnes structures et non structures allis une vlocit, un volume et une varit de donnes importants demandent souvent des technologies de stockage de type scale-out.

  • Le Stockage Big Data pour les Nuls 32

    Explorer larchitecture commune de type scale-out

    De nombreuses technologies de stockage scale-out suivent un modle architectural similaire prouv comme lapproche adopter. La plupart des systmes reposent sur une structure simple qui les rend reconnaissables comme penchant vers le scale-out ou une approche mixte scale-out/scale-up.

    Le nud de stockage ou le premier lment constituant

    Lun des aspects fondamentaux de larchitecture scale-out est, comme son nom lindique, sa capacit agrandir lchelle (scale en anglais) du stockage. Pour atteindre cet objectif, les spcialistes utilisent le principe du nud. Un nud est un dispositif de stockage autonome qui fonctionne avec dautres nuds pour stocker et vhiculer des donnes entre les producteurs et les utilisateurs des donnes.

    Voici une comparaison simple pour vous aider. Un nud est comme un seau et leau quil contient reprsente les donnes. Si vous souhaitez stocker plus deau, vous avez besoin de plus de seaux. prsent, vous avez plus deau et plus de personnes mme de puiser simultanment de leau dans les seaux. Toutefois, si un seau se vide, les personnes doivent patienter dans une file dattente jusqu ce quun autre seau rempli deau soit disponible.

    Pour rsoudre ce problme, chaque seau dispose de tuyaux qui le relient aux autres, afin que plusieurs personnes puissent accder la source deau commune en mme temps, partir de diffrents seaux. Si vous ajoutez plus deau dans un seau, elle coule via les tuyaux de connexion et est distribue de manire quitable tous les seaux connects, comme le montre limage 4-1. Si un seau comporte une fuite, vous pouvez tout simplement le dconnecter des autres seaux et dplacer son tuyau vers un autre seau pendant que vous le rparez.

    De nombreuses architectures scale-out dcoupent les fichiers et rpartissent les lments travers les nuds, ce qui leur permet de circuler comme de leau.

  • Chapter 4: Amliorer un projet de Big Data laide du stockage scale-out 33

    Image 4-1: Les seaux (nuds) distribuent leau (donnes).

    Attention : au sein des architectures scale-up tentant dagir comme de rels systmes scale-out, les fichiers sur chaque nud ne sont pas diviss en divers lments et rpartis, donc, contrairement leau, les donnes demeurent souvent dans le nud avec parfois une copie envoye un autre client.

    Fouiller lintrieur du nudUn nud de stockage scale-out est une sorte de serveur hautement optimis avec une application logicielle spcialement conue pour grer le stockage et les flux de donnes entre sa propre structure et les autres nuds du groupe. Chaque nud peut galement communiquer avec les clients externes via le rseau pour stocker ou envoyer des donnes, comme le montre limage 4-2.

    Image 4-2: Architecture scale-out.

  • Le Stockage Big Data pour les Nuls 34Au sein dune relle architecture scale-out, chaque nud contient une ou plusieurs units centrales de traitement (UC), un certain volume de mmoire accs alatoire (RAM) et un nombre dtermin de lecteurs de disque dur. Lunit dispose en outre dune connexion au rseau et souvent dune mthode dinterconnexion des nuds.

    Connecter les nuds pour former un cluster Chaque nud de stockage scale-out est gnralement connect de deux manires. Il prsente dabord une connexion qui le relie aux autres nuds par le biais dune carte rseau pour former une grappe de stockage (cluster), comme le montre limage 4-3.

    Image 4-3: Les nuds sont relis pour former un cluster.

    Cette interconnexion permet au cluster de partager des donnes entre les nuds, ce qui offre une certaine rsilience aux donnes et permet daccrotre les performances, car chaque nud peut fournir les donnes stockes dans les autres nuds du cluster. Ces interconnexions utilisent gnralement une interface de rseau rapide de type Ethernet 1Go (giga-octet) ou 10Go, voire de type Infiniband avec 40Go.

  • Chapter 4: Amliorer un projet de Big Data laide du stockage scale-out 35

    Connecter le cluster au rseau dans son ensembleLe cluster scale-out est galement connect lensemble du rseau pour permettre aux applications et aux utilisateurs dy accder, tant localement qu partir du rseau plus large. La plupart des clusters scale-out (surtout dans le cas des projets de Big Data) disposent souvent de liens les plus rapides vers les applications danalyse fonctionnant sur les serveurs dapplications. Il sagit gnralement de connexions Ethernet 1Go et 10Go.

    Communiquer en toute confianceLe cluster scale-out peut communiquer avec les applications de diverses manires. Ces protocoles de communication permettent daccder aux diffrentes normes de communication adoptes par les diffrents fournisseurs de systmes dexploitation. Par exemple :

    Common Internet File System (CIFS), galement connu sous le nom de Server Message Block (SMB) est communment utilis par les applications Windows.

    Network File System (NFS) est un systme de fichiers rparti souvent utilis avec les applications libres dUNIX et Linux.

    File Transfer Protocol (FTP) est un protocole de rseau plus ancien souvent utilis pour un transfert basique de fichiers.

    Hypertext Transfer Protocol (HTTP) est un protocole dapplication surtout utilis pour les applications web.

    Le cluster de stockage scale-out peut souvent utiliser plusieurs systmes de fichiers et protocoles de communication, mais certains offrent une meilleure compatibilit entre les applications, tandis que dautres prsentent un net avantage en termes de performance. Il faut trouver le juste quilibre entre la compatibilit et les performances et il est donc crucial, lors de la conception de larchitecture de stockage pour les projets de Big Data, de bien comprendre la manire dont les applications devront communiquer avec les clients, le stockage et les utilisateurs.

  • Le Stockage Big Data pour les Nuls 36

    Comprendre les avantages et les limites potentiels

    En gnral, les projets de Big Data prsentent la fois un grand volume, une vlocit importante et une grande varit de donnes. Un systme de dtection des fraudes peut prsenter ces trois lments, tandis quun systme de simulation de moteur raction dans une soufflerie peut nen prsenter que deux. Les deux projets reprsentent un dfi pour le systme de stockage qui doit rassembler des donnes ou alimenter les systmes danalyse avec ces donnes.

    Grce aux architectures de stockage scale-out, il est relativement facile daccrotre les capacits et les performances laide dune architecture nuds basique. Chaque nud comporte une capacit de stockage, une connectivit rseau et des units de traitement puissantes (UC) lui permettant de recevoir, stocker et transmettre des donnes. Chaque nud permet daccrotre la capacit globale du cluster.

    Avantages : Plus de nuds signifie plus de capacit. Par exemple, un seul nud dispose de 100 traoctets de capacit de stockage, 2Go de bande passante rseau et 256Go de RAM pour la mise en cache des donnes, afin damliorer les taux de transfert. En ajoutant un autre nud, ces divers lments sont multiplis par deux. Si vous utilisez quatre nuds, vous disposez de quatre fois plus de capacit de stockage, de bande passante et de cache.

    Limites : Le fait dajouter des nuds supplmentaires ne constitue pas toujours un vecteur daccroissement. Comme lorsque lon installe un moteur plus rapide dans une voiture, un moment donn, dautres facteurs limitent la vitesse maximale, comme la rsistance du vent, les pneus ou la dure du parcours.

    Dans le cas dun cluster scale-out, la connectivit du rseau constitue souvent une limite lorsquil sagit daugmenter les performances. En outre, les disques durs de chaque nud disposent dun taux de transfert thorique maximum. Mme en utilisant des disques circuits intgrs plus rapides, vous pouvez tre confront des limites.

  • Chapter 4: Amliorer un projet de Big Data laide du stockage scale-out 37 La taille physique peut galement constituer un frein.

    Bien que chaque nud soit relativement petit, construire un cluster scale-out pouvant stocker toutes les photos de Facebook demanderait lespace dun terrain de football et suffisamment dlectricit pour faire fonctionner une petite ville.

    Anticiper les problmesMalheureusement, tout systme mcanique finit par rencontrer des problmes. Mme les machines les plus simples finissent par senrayer, tomber en panne ou suser. La technologie numrique a remplac la plupart des lments mcaniques tels que les valves ou les relais par des circuits intgrs et des puces en silicone qui accroissent de manire significative la fiabilit du systme. Toutefois, mme cette amlioration ne permet pas un ordinateur ou un nud scale-out de durer pour toujours.

    Une panne surviendra, cest certainCertains lments tomberont en panne coup sr et vous pouvez prdire cette probabilit en fonction de lutilisation du systme. Par exemple, la technologie des disques durs utilise pour stocker la plus grande partie des informations numriques repose sur des plaques tournantes qui prsentent des zones codes magntises. Ces plateaux susent de manire naturelle, mesure que le dispositif de lecture flotte quelques nanomtres au-dessus des plaques tournantes. terme, cette magntisation constante de la surface entrane une usure naturelle qui a pour effet de dgrader soit linscription, soit la lecture des donnes. Au pire des cas, le moteur constamment en action qui fait tourner ces plateaux finit par lcher.

    Pour viter cette usure naturelle, les ingnieurs ont mis au point divers systmes visant protger les donnes numriques. La mthode la plus communment utilise est de simplement faire une copie de toutes les donnes ou dune partie de celles-ci dun disque un autre. Cest ce quon

  • Le Stockage Big Data pour les Nuls 38appelle le Redundant Array of Independent Disks (ou RAID). Le RAID prsente toutefois trois problmes majeurs :

    Le RAID nest pas trs pratique. Au vu du nombre de donnes produites chaque jour dans le monde, conserver une copie complte, ou mme partielle, de ces donnes nest pas toujours faisable.

    Rcuprer les donnes partir de la copie pour les envoyer sur une nouvelle source prend du temps et a un impact sur lefficacit globale de la plateforme de stockage.

    mesure que le volume des donnes originales et des copies augmente, les deux ensembles de donnes peuvent subir des pertes critiques simultanment.

    Cest pour ces raisons que le RAID ne convient gnralement pas aux projets de Big Data.

    Au lieu de cela, de nombreuses architectures scale-out divisent les donnes et les rpartissent sur de multiples disques et nuds. Nombre de ces petits ensembles de donnes sont galement copis et les systmes crent des sommes de contrle pour permettre de rcuprer les donnes qui seraient perdues. Un peu comme avec un Sudoku, si vous disposez de suffisamment de cases et tes dou en mathmatiques, vous pouvez reconstituer lensemble des donnes.

    La rpartition des donnes peut galement voluer avec le nombre de nuds et de disques pour diminuer la probabilit que des pannes simultanes neffacent des ensembles cls de donnes.

    Mme si un disque et un nud entier sont perdus, les donnes restent disponibles, ce qui constitue un autre avantage. Ce type de protection, grce laquelle les donnes sont rparties divers endroits ou envoys sur de multiples canaux, est connue sous le nom de rpartition des donnes ou de correction derreurs sans circuit de retour.

  • Chapitre 5

    Bonnes pratiques du stockage scale-out dans le

    monde du Big DataDans ce chapitre Comprendre les niveaux de donnes, les quotas et lallocation

    granulaire Utiliser un disque circuits intgrs Problmes lis la scurit et au respect des lois

    Nous avons abord les principes fondamentaux du stockage des donnes et les lments dont vous avez besoin pour crer une architecture de stockage adapte un projet de Big Data. Toutefois, un certain nombre de technologies, de procds de gestion et de bonnes pratiques peuvent vous faire gagner du temps, conomiser de largent et vous permettre de rendre votre systme plus sr. Ce chapitre a pour objet daborder ces points.

    Niveaux de donnes : Examiner de plus prs larchitecture scale-out

    Bien que chaque organisation prsente des exigences et une approche lgrement diffrentes, des lments communs interagissent avec les architectures de stockage scale-out au sein dune entreprise classique, comme le montre limage5.1.

  • Le Stockage Big Data pour les Nuls 40

    Image 5-1: Des lments communs interagissent avec les architectures de stockage scale-out.

    Comprendre les niveaux des donnes et leur impact financier Les projets de Big Data ont souvent pour objectif dextraire des informations utiles partir de donnes brutes. Les donnes brutes et les informations obtenues prsentent une valeur intrinsque. Cette valeur indique la manire dont les donnes sont stockes, qui y a accs et o elles se trouvent sur les dispositifs de stockage physiques. Les donnes doivent aussi tre disposes de manire tre accessibles pour les moteurs danalyse ou correspondre des exigences particulires de performance ou de capacit.

    Effectuons une comparaison pour expliquer le concept : les lments importants dune voiture (le volant, les pdales, le botier de vitesses et le sige) sont disposs au sein de lhabitacle selon des critres daccessibilit et de scurit. Les lments moins importants, comme linterrupteur du toit

  • Chapter 5: Bonnes pratiques du stockage scale-out dans le monde du Big Data 41ouvrant ou celui du lecteur de CD sont loigns des lments critiques comme lacclrateur, dans la mesure o ils sont utiliss moins souvent.

    Les niveaux de donnes indiquent de manire logique les caractristiques de grands ensembles de donnes. Ces niveaux peuvent la fois dcrire le type dinformations et leurs exigences en matire daccs. Cest particulirement le cas pour les projets de Big Data, pour lesquels lanalyse effectue peut porter sur des donnes plus anciennes ou de moindre valeur pouvant tre situes un niveau de stockage plus lent. La manire la plus simple daborder les diffrents niveaux est de les envisager comme une hirarchie :

    Niveau 1 Donnes cruciales et rcemment utilises

    Requiert le degr de performance, de fiabilit et daccessibilit le plus lev

    Niveau 2 Donnes rarement utilises, comme les informations sur les ventes de lanne prcdente

    Requiert des performances moindres

    Niveau 3 Donnes darchive qui peuvent tre conserves pour des raisons de conformit avec la lgislation

    Requiert de faibles performances, mais beaucoup de capacit

    Amliorer lefficacit laide de la rpartition par niveau De nombreuses plateformes de stockage scale-out disposent dun logiciel qui permet de grer cette approche par niveaux. Le logiciel utilise un ensemble de rgles paramtrables pour automatiser le processus de dplacement des donnes au sein du cluster et vers des dispositifs de stockage externes disponibles. Par exemple, les rgles peuvent tre configures pour dplacer des donnes qui nont pas t consultes au cours de lanne vers un disque performances infrieures ou, linverse, dplacer un lment souvent demand, comme une vido populaire, vers une zone plus performante.

  • Le Stockage Big Data pour les Nuls 42

    Grer les exigences croissantes des utilisateurs laide de quotas

    Les projets informatiques ont tendance occuper tout lespace disponible sils ne sont pas contrls. partir dune simple bote de rception de-mail en passant par des zones de transition pour des projets, et mme des fichiers archivs sans date de suppression, les donnes continuent de saccumuler. Pour les administrateurs aux ressources limites, les quotas permettent de dfinir lespace dont dispose chaque utilisateur ou projet, et de dterminer une politique ou de confier la responsabilit de la gestion de cette capacit une agence responsable de ces donnes.

    Les quotas deviennent des outils de plus en plus flexibles et peuvent tre relis des niveaux pour crer des zones utilises des fins spcifiques. Ces quotas peuvent galement se voir associer un cot montaire pour permettre une facturation interne ou une refacturation.

    Lorsque les quipes techniques se voient allouer des ressources limites en matire de gestion, elles sattachent davantage nettoyer elles-mmes les donnes inutiles !

    Rduire la perte despace laide de lallocation granulaire

    Les technologies traditionnelles de gestion du stockage produisent beaucoup de dchets. Les fournisseurs parlent de capacit brute (la taille de chaque disque multiplie par le nombre de disques) et non de la capacit utile et ces chiffres peuvent beaucoup varier. Cet cart dcoule de plusieurs facteurs, dont :

    Le diffrentiel entre la capacit brute et utile

    Mthode de protection des donnes

  • Chapter 5: Bonnes pratiques du stockage scale-out dans le monde du Big Data 43 Mtadonnes utilises pour garder une trace des fichiers

    Capacits inutilises dans de nombreux conteneurs de stockage

    Un grand nombre de donnes est reproduite, ce qui occupe galement une capacit de stockage prcieuse. Toutefois, les principales coupables sont les technologies dallocation inefficaces en raison desquelles la capacit de la plateforme de stockage peut tre alloue, sans tre pour autant utilise.

    Le stockage scale-out combin la technologie de lallocation granulaire constitue une approche qui contribue la rsolution de ce problme, sans assigner de capacit des groupes par avance. Ce systme alloue des capacits de stockage uniquement sur demande. Cette mthode rpond aux applications, qui vrifient lespace de stockage disponible avant linscription de donnes, en informant le systme quil y a suffisamment de capacit pour que lopration puisse tre effectue. Dans certains cas, le systme prvu au sein du moteur dallocation granulaire peut travailler en tandem avec un stockage par niveau automatis. Ceci permet le dplacement des donnes prsentes dans les zones de stockage principales et coteuses, mais qui ne sont jamais utilises, vers un autre niveau de stockage (voir limage 5-1) qui cote moins cher ou plus adapt un archivage long terme.

    Boostez votre projet Big Data vitesse grand V laide dun disque circuits intgrs

    Votre projet danalyse du Big Data est prsent lanc. Les donnes circulent, les applications vous fournissent de nouvelles informations, mais vous avez besoin de performances encore plus importantes. Que faire ?

    Une solution simple consiste acclrer la performance des donnes alors quelles circulent travers le cluster de stockage. Les disques physiques rotatifs prsentent un dbit de donnes maximum. Ce dbit est limit par la vitesse laquelle le disque peut tourner et laquelle les donnes

  • Le Stockage Big Data pour les Nuls 44peuvent tre lues partir de ceux-ci sous la forme dun signal magntique. Lutilisation dun support sans disque, comme les puces de mmoire accs alatoire peut constituer une mthode plus rapide. Un disque circuits intgrs (SSD) consiste, comme son nom lindique, en un disque utilisant des puces de mmoire au lieu de disques rotatifs. Cette technologie se prsente sous deux axes :

    Les SSD Flash conviennent aux applications en lecture seule et aux applications de mobilit.

    Les SSD DRAM prsentent de bien meilleures performances dcriture et de lecture avec un meilleur rendement par unit de performance que la version Flash, mais ils cotent plus cher au dbut par Go de stockage.

    Toutefois, le simple fait de changer tous les disques au sein dune plateforme de stockage scale-out pour passer de disques rotatifs un systme SSD cote extrmement cher. Par ailleurs, les SSD nont pas une dure de vie infinie, tout comme les disques. En outre, au fil de laugmentation de la taille des mmoires Flash, la fiabilit est remise en question en comparaison avec les anciens disques rotatifs.

    Les architectures scale-out utilisent souvent les SSD de diverses manires. Lune des faons de le faire est dutiliser un SSD pour acclrer la recherche des informations demandes par le client. Donc, avec un cluster dot de 20 nuds et de plusieurs milliers dlments de donnes, le processus de recherche de donnes spcifiques au sein du cluster peut prendre une seconde. Dplacer cette carte (parfois appele mtadonne) o se trouve physiquement chaque lment de donnes sur un SSD (et non sur des disques rotatifs plus lents) peut rduire ce dlai. Utilis intelligemment, le SSD augmente les performances globales du systme sans devoir remplacer chaque disque physique par un quivalent SSD.

    Garantir la scuritLes donnes numriques ont de la valeur. Un projet de Big Data qui vise gnrer de nouvelles informations ou donner lieu des dcouvertes scientifiques est comme une pierre prcieuse pour un voleur, qui peut tenter den voler les

  • Chapter 5: Bonnes pratiques du stockage scale-out dans le monde du Big Data 45rsultats voire le matriel source. La scurit des informations fait lobjet dinquitudes constantes, donc ne prenez pas cela la lgre lorsque vous travaillez sur un projet. Un projet de Big Data peut requrir une protection renforce, au vu des dgts potentiels pouvant rsulter de lenregistrement de tant dinformations sensibles en un seul endroit.

    Les nombreuses proccupations entourant la scurit du stockage sont les suivantes :

    Sassurer que le rseau est facilement accessible pour les personnes, les entreprises et les agences autorises y accder.

    Il doit tre extrmement difficile pour un pirate informatique potentiel de compromettre le systme.

    Le rseau doit tre fiable et stable dans un large ventail de conditions et peu importe les volumes traits.

    Fournir une protection contre les menaces en ligne, comme les virus.

    Segmenter les accs selon chaque dpartement.

    Assigner certaines actions ou privilges un individu en fonction de ses responsabilits.

    Crypter les donnes sensibles.

    Dsactiver les services inutiles, afin de minimiser les failles de scurit.

    Installer rgulirement les mises jour du systme dexploitation et des appareils.

    Informer tous les utilisateurs des principes et politiques adopts pour grer lutilisation du rseau.

    Cest gnial, mais est-ce lgal ?Parfois, un projet de Big Data peut pousser une organisation collecter et stocker des types dinformations qui ntaient prcdemment pas conserves. Dans certains cas, lentreprise peut avoir besoin de donnes provenant dune source extrieure pour les comparer avec ses propres donnes et, ce faisant, lentreprise entre dans un nouveau domaine du droit. Par exemple, si une compagnie dassurances allemande

  • Le Stockage Big Data pour les Nuls 46souhaite analyser les rsultats cliniques de diffrentes procdures chirurgicales par rapport aux types de politiques utilises et aux rendements, le projet peut requrir dnormes volumes de donnes issues du monde entier.

    Si les donnes proviennent des tats-Unis, leur stockage devra se conformer au Healthcare Insurance Portability and Accountability Act (HIPAA).

    Lorsque les donnes ncessaires lalimentation des projets de Big Data traversent les frontires, il faut souvent prendre en compte les rglementations locales. Par exemple, la directive relative la protection des donnes de lUnion europenne stipule que les organisations qui ne parviennent pas scuriser les donnes ou qui prsentent des failles risquent des amendes et, dans certains cas plus graves, leurs directeurs risquent lemprisonnement.

    Les principaux cadres de conformit prendre en compte aux tats-Unis sont :

    Le Healthcare Insurance Portability and Accountability Act (HIPAA), qui vise protger le caractre priv des informations relatives la sant.

    Le Sarbanes Oxley Act, qui vise le secteur de la comptabilit.

    Le Gramm-Leach-Bliley Act (GLB), qui oblige les institutions financires garantir la scurit et la confidentialit des informations de leurs clients.

    Le Bank Secrecy Act, utilis par le gouvernement amricain pour poursuivre les fraudeurs.

  • Chapitre 6

    Autres lments prendre en compte pour le stockage

    de Big DataDans ce chapitre Optimiser le centre de donnes Planification plus long terme pour rduire les cots Envisager la virtualisation et le cloud computing

    Dans ce chapitre, nous abordons les autres aspects qui peuvent tre concerns par les projets de Big Data. Nous envisageons galement plusieurs objectifs et stratgies long terme, qui peuvent fournir une alternative la gestion des projets de Big Data en interne.

    Noubliez pas le datacenter !Diverses estimations montrent que le stockage reprsente 35% de lnergie utilise dans les centres de donnes (ou datacenters). Le fardeau sur les centrales lectriques devrait salourdir mesure que les internautes gnrent et consomment des contenus numriques. Alors que les cots de lnergie grimpent en flche et que lon craint des surcharges lectriques, la consommation dnergie devient une proccupation majeure. Lorsque vos projets de Big Data se dveloppent, et avec eux, de nouveaux espaces de stockage et des centres de serveur, suivez ces conseils :

  • Le Stockage Big Data pour les Nuls 48 Rduisez les points chauds des datacenters pour

    rduire les cots du refroidissement. Lorsque les datacenters grandissent sans que les exigences en matire dalimentation et de refroidissement aient t prises en compte, un point chaud peut poser des problmes dans le fonctionnement de lquipement informatique. Les dispositifs de stockage prennent beaucoup de place, et une fois installs sur le sol, il est difficile de les dplacer sans causer dinterruption du fonctionnement des applications. Choisissez plutt de rpartir les units de manire stratgique sur le site.

    Configurer lespace allou lquipement avec des couloirs chauds et froids. La plupart des appareils informatiques rejettent de lair chaud de leur face arrire. Si la range arrire reoit lair chaud provenant de la range juste devant, le flux dair froid est interrompu, ce qui oblige les dispositifs dair conditionn gnrer de lair froid plus coteux. Assurez-vous que lquipement est install avec des dispositifs dchappement pour expulser lair chaud vers des zones non utilises ou vers lextrieur.

    Dplacez les charges de travail pour conomiser de lnergie. Un logiciel de virtualisation et de gestion du stockage peut aider les datacenters rorganiser les tches informatiques et de stockage ralises physiquement au sein du centre. Ces logiciels peuvent permettre de rpartir de manire gale (du moins en thorie) ou de dplacer les charges de travail vers des serveurs moins utiliss et dteindre les nuds de stockage vides ou les serveurs inutiliss sans avoir dplacer le matriel.

    Une plus grande densit peut accrotre lespace au sol. Envisagez daccrotre la densit des disques durs utiliss pour le stockage des donnes. Bien quun disque de 4To jouisse de quatre fois plus de capacit quun disque de 1To, il nutilise pas quatre fois la mme quantit dnergie. Dans certaines architectures de stockage scale-out, il est relativement facile de changer de disque sans interruption du systme. Si ces augmentations de densit sont ralises sur un seul nud la fois, un cluster de 100To peut passer 400To en prenant la mme place quavant pour seulement quelques points de pourcentage de consommation en plus.

  • Chapter 6: Autres lments prendre en compte pour le stockage de Big Data 49

    Planification plus long terme pour rduire les cots

    Que votre projet de Big Data soit petit, moyen ou grand, votre infrastructure informatique devient probablement plus importante. Mme avec larrive de la virtualisation, qui permet aux ordinateurs de fonctionner plus efficacement, limportance critique des systmes informatiques entrane une dpendance vis--vis de systmes plus grands et plus complexes.

    Le stockage est aujourdhui plus puissant et prend moins de place physiquement. Le cot par giga-octet de capacit de stockage a chut, alors que la densit, la vitesse et les performances de stockage ont augment massivement.

    Les technologies fondes sur les disques pour le stockage des donnes sont les solutions les plus souvent utilises pour passer au niveau suprieur. Alors que les disques standard dpasseront les 4To de capacit pour atteindre parfois 16To par unit au cours des cinq prochaines annes, laptitude des organisations accrotre leur capacit in situ au sein du mme pool de stockage prsente un avantage majeur.

    Une autre stratgie plus long terme consiste dplacer automatiquement les disques durs dots de la technologie Serial Attached SCSI (SAS) haute performance et les SSD vers un dispositif de stockage plus lent et moins cher, tel que des disques Serial AT Attachment (SATA). Les doubles entres de donnes sont supprimes et les informations statistiquement moins importantes sont retires. Ces projets de gestion du cycle de vie de linformation (ILM) peuvent contribuer augmenter la viabilit de larchitecture de stockage.

    Satteler la virtualisationLa virtualisation est lune des tendances technologiques les plus significatives de la dernire dcennie. Il sagit toutefois dun terme qui regroupe de nombreux concepts :

  • Le Stockage Big Data pour les Nuls 50 Virtualisation de serveurs : Elle permet un serveur

    de faire fonctionner plusieurs systmes dexploitation en mme temps, ce qui diminue le nombre de serveurs physiques ncessaires au fonctionnement de multiples applications serveur. Un serveur virtualis peut ne pas offrir un lment visuel lutilisateur et peut simplement fonctionner via un processus non interactif comme un proxy serveur ou une tche de traitement des donnes.

    Virtualisation du poste de travail : Souvent connu sous le nom dinfrastructure de bureau virtuel (Virtual Desktop Infrastructure ou VDI), le concept de la virtualisation du poste de travail permet aux prfrences de chaque ordinateur, au systme dexploitation, aux applications et aux fichiers dtre hbergs sur un serveur distance. Les utilisateurs peuvent alors utiliser un client daccs, comme un PC, ou un client lger pour visualiser et interagir avec ce poste de travail distance sur un rseau. La virtualisation du poste de travail prsente plusieurs avantages, tant pour les utilisateurs finaux que la DSI, dans la mesure o un appareil faible consommation, tel quune tablette, peut faire fonctionner des applications complexes et o la gestion des donnes est simplifie, tant donn quelle ne quitte jamais le serveur central.

    Virtualisation du stockage : Il sagit de la consolidation du stockage physique partir de dispositifs multiples de stockage, au sein de ce qui apparat comme un dispositif de stockage unique gr partir dun endroit central. La virtualisation du stockage est le concept fondamental du stockage scale-out : un ensemble de nuds de stockage peut tre ajout sur demande pour accrotre la capacit et les performances dun seul pool de stockage, sans interruption pour les utilisateurs ou les applications. Cet outil prsente de nombreux avantages en termes de gestion rduite, de besoins despace physique limits et de capacit rduire la redondance des donnes. La virtualisation du stockage simplifie et rduit souvent le nombre de dispositifs de stockage physiques ncessaires pour tout volume de donnes grce des gains defficacit.

  • Chapter 6: Autres lments prendre en compte pour le stockage de Big Data 51

    La technologie du cloud computing pour les projets de Big Data

    Au vu des exigences rigoureuses des projets de Big Data en matire de rseaux, de stockage et de serveurs, il nest pas surprenant que certains clients externalisent les tracasseries et les cots auprs dune autre entit. Il sagit dun domaine dans lequel le cloud computing peut tre utile.

    Le cloud computing public ou priv consiste fournir des ressources matrielles et logicielles en tant que service sur un rseau, notamment Internet.

    Les nuages (cloud en anglais) peuvent avoir plusieurs finalits (comme le montre limage 6-1) et comprennent :

    Infrastructure en tant que service (IaaS) : Un ou plusieurs ordinateurs avec un stockage et une connectivit rseau auxquels vous pouvez accder via une connexion rseau.

    Logiciel en tant que service (SaaS) : Accs une application logicielle spcifique dote de vos propres donnes par le biais dune connexion rseau.

    Plateforme en tant que service (PaaS) : Fournit les lments fondamentaux, tels que les outils de dveloppement logiciel, ncessaires pour mettre au point votre propre environnement informatique distance, auquel les utilisateurs peuvent accder, notamment via des postes de travail virtuels ou via un rseau.

    Stockage en tant que service (STaaS) : Une plateforme de stockage distance qui prsente un cot spcifique par Go pour le stockage et le transfert des donnes.

    Certains projets de Big Data peuvent tre adapts une utilisation dans le cloud public, dans la mesure o sa flexibilit lui permet de crotre rapidement. En outre, de nombreux clouds publics permettent de louer des ressources court terme en vitant les cots initiaux souvent trs levs.

  • Le Stockage Big Data pour les Nuls 52

    Image 6-1 : Diffrents aspects du cloud computing.

    Toutefois, la scurit, la fiabilit, les performances et le transfert de donnes laide des technologies lies au cloud public font lobjet de certaines proccupations :

    Pour les projets qui ncessitent de dplacer de grandes quantits de donnes sur Internet, les limites et le cot de la bande passante rseau peuvent en ralit rendre cette solution plus coteuse pour un projet de Big Data quun quivalent sur site ou via un cloud priv.

    Pour les organisations qui disposent dinformations assorties de droits de la proprit intellectuelle ou dinformations personnelles trs sensibles, comme des dossiers mdicaux ou des dossiers dtudiants, conserver des donnes dans un endroit inconnu gr par des inconnus peut poser problme. En ralit, de nombreuses entits publiques disposent de lois relatives la rsidence ou la souverainet des donnes, imposant la localisation des donnes dans leur juridiction de cration, et interdisant leur stockage ltranger. En outre, les politiques de protection de donnes et les procdures dinformation au sein du cloud public ne peuvent que difficilement tre contrles.

    La performance des donnes inscrites et lues partir dun cloud public peut tre lente et coteuse selon la distance et le type de rseau utilis, et les tarifs que le fournisseur de cloud publics impose pour lcriture et la rcupration de ces donnes.

  • Chapter 6: Autres lments prendre en compte pour le stockage de Big Data 53 Une fois que de grands volumes de donnes sont stocks

    au sein dun cloud public, il peut savrer difficile et coteux de dplacer ces donnes vers un autre fournisseur. Le changement dun fournisseur de cloud public peut vous coter cher !

    De nombreuses organisations adoptent une stratgie prvoyant le recours un cloud priv, dans le cadre de laquelle la libert daccs au cloud est permise via Internet, mais le contrle de laccs reste aux mains de lorganisation.

    En outre, la scurit physique, la sauvegarde, la rparation en cas de problme et les performances des donnes sont contrles par lorganisation.

  • Le Stockage Big Data pour les Nuls 54

  • Chapitre 7

    Dix astuces permettant de garantir le succs dun

    projet de Big DataDans ce chapitre Identifier les types et les flux de donnes Se prparer laccroissement des donnes viter les erreurs relevant de la gestion des donnes sensibles Se prparer aux pires scnarios

    Si vous lisez ce chapitre en premier, nous supposons que cest parce que vous souhaitez viter de commettre des erreurs qui pourraient faire chouer votre projet de Big Data. Voici quelques points prendre en compte.

    Commencez tout projet de Big Data avec un examen des donnes et un processus de classification. Dterminer si les donnes sont structures, non structures, qualitatives ou quantitatives peut tre utile pour concevoir les architectures de stockage (voir le chapitre1 pour un petit rappel). Il est galement judicieux destimer la croissance des donnes en fonction des tendances passes et des stratgies futures.

    Crez un aperu simple de la manire dont les donnes circulent au sein de votre organisation. Disposer dun diagramme simple montrant o les donnes sont cres, stockes et circulent est utile lorsque vous travaillez avec un groupe de travail. Mettre tout le monde sur la mme longueur donde peut vous permettre dviter des malentendus qui cotent cher.

  • Le Stockage Big Data pour les Nuls 56 Envisagez vos futures exigences en matire de stockage

    de donnes sur la base du succs du projet de Big Data. Les projets de Big Data peuvent faire apparatre de nouvelles informations ou vous obliger modifier les processus oprationnels. Les informations manant du projet peuvent leur tour ncessiter des capacits de stockage supplmentaire, ce qui entrane une croissance exponentielle des besoins de capacit. Pensez toujours plus long terme.

    Soyez flexible. De nombreux projets reposent la fois sur les technologies de stockage scale-up et scale-out (voir le chapitre3). Chaque organisation et chaque projet sont uniques. Le choix dune technologie de stockage doit tre ax sur lobjectif atteindre et non sur une architecture technique particulire. De nombreux fournisseurs proposent des produits scale-up et scale-out qui peuvent fonctionner ensemble.

    Les exigences en matire de stockage de donnes peuvent augmenter, mais envisagez de dplacer automatiquement les donnes peu consultes vers un dispositif de stockage moins coteux et plus lent. La suppression est galement une option viable plus long terme. Peu importe do proviennent les donnes, o elles sont traites et o elles sont stockes, elles prsentent toujours une dure de vie utile. Dcider de supprimer des donnes est une tche complexe, mais cela peut vous permettre de raliser dnormes conomies plus long terme. Dplacer automatiquement des donnes vers un dispositif de stockage plus lent est une option plus facile qui comporte toujours de grands avantages.

    Demandez aux fournisseurs ce quil se passera lorsque vous aurez atteint les limites de capacit ou de performances thoriques. Mme si vous commencez par un petit projet de Big Data, celui-ci prendra srement plus dampleur avec le temps. Comprendre de quelle manire la technologie choisie peut voluer, vous permettra dviter les mauvaises surprises dans les annes venir.

    Prparez-vous au pire. Mme les machines les plus simples finissent par tomber en panne ou suser. Demandez votre fournisseur ce quil se passerait si divers lments de la plateforme de stockage venaient tomber. Un systme bien conu ne devrait jamais prsenter de point de dfaillance.

  • Chapitre 7: Dix astuces permettant de garantir le succs dun projet de Big Data 57 Crez un systme de quota ds le dbut d