hadoop - riptutorial.com · hadoop common : les utilitaires communs qui prennent en charge les...

48
hadoop #hadoop

Upload: others

Post on 30-Aug-2019

32 views

Category:

Documents


1 download

TRANSCRIPT

hadoop

#hadoop

Table des matières

À propos 1

Chapitre 1: Démarrer avec hadoop 2

Remarques 2

Qu'est-ce qu'Apache Hadoop? 2

Apache Hadoop comprend ces modules: 2

Référence: 2

Versions 2

Examples 3

Installation ou configuration sous Linux 3

Installation de Hadoop sur Ubuntu 5

Création d'un utilisateur Hadoop: 5

Ajouter un utilisateur: 5

Configuration de SSH: 6

Ajouter l'utilisateur hadoop à la liste de sudoer: 8

Désactiver IPv6: 8

Installation de Hadoop: 8

Vue d'ensemble de Hadoop et HDFS 9

Chapitre 2: Commandes Hadoop 12

Syntaxe 12

Examples 12

Commandes Hadoop v1 12

1. Imprimez la version Hadoop 12

2. Lister le contenu du répertoire racine dans HDFS 12

h11 12

3. Indiquez la quantité d'espace utilisée et 12

disponible sur le système de fichiers actuellement monté 12

h12 12

4. Comptez le nombre de répertoires, fichiers et octets sous 12

les chemins correspondant au motif de fichier spécifié 12

h13 13

5. Exécutez un utilitaire de vérification du système de fichiers DFS 13

h14 13

6. Exécutez un utilitaire d'équilibrage de cluster 13

h15 13

7. Créez un nouveau répertoire nommé “hadoop” en dessous du 13

/ user / répertoire de formation dans HDFS. Puisque tu es 13

actuellement connecté avec l'ID utilisateur «training», 13

/ user / training est votre répertoire personnel dans HDFS. 13

h16 13

8. Ajoutez un exemple de fichier texte à partir du répertoire local 14

nommé «données» dans le nouveau répertoire que vous avez créé dans HDFS 14

lors de l'étape précédente. 14

h17 14

9. Répertorie le contenu de ce nouveau répertoire dans HDFS. 14

h18 14

10. Ajoutez l’ensemble du répertoire local appelé “retail” au 14

/ user / répertoire de formation dans HDFS. 14

h19 14

11. Puisque / user / training est votre répertoire personnel dans HDFS, 14

toute commande qui n'a pas de chemin absolu est 14

interprété comme relatif à ce répertoire. Le suivant 15

commande listera donc votre répertoire personnel, et 15

devrait montrer les éléments que vous venez d'ajouter là-bas. 15

h110 15

12. Voir combien d'espace ce répertoire occupe dans HDFS. 15

h111 15

13. Supprimez un fichier "clients" du répertoire "retail". 15

h112 15

14. Assurez-vous que ce fichier n'est plus dans HDFS. 15

h113 15

15. Supprimez tous les fichiers du répertoire «retail» en utilisant un caractère générique 16

h114 16

16. Vider la poubelle 16

h115 16

17. Enfin, supprimez tout le répertoire de vente au détail et tous les 16

de son contenu dans HDFS. 16

h116 16

18. Répertorie le répertoire de hadoop à nouveau 16

h117 16

19. Ajoutez le fichier achats.txt à partir du répertoire local 16

nommé "/ home / training /" dans le répertoire hadoop que vous avez créé dans HDFS 16

h118 17

20. Pour afficher le contenu de votre fichier texte payments.txt 17

qui est présent dans votre répertoire hadoop. 17

h119 17

21. Ajoutez le fichier achats.txt du répertoire «hadoop» présent dans le répertoire HDFS 17

dans le répertoire "data" présent dans votre répertoire local 17

h120 17

22. cp est utilisé pour copier des fichiers entre les répertoires présents dans HDFS 17

h121 17

23. La commande '-get' peut être utilisée alternativement pour la commande '-copyToLocal' 17

h122 18

24. Affiche le dernier kilo-octet du fichier «achats.txt» à la sortie standard. 18

h123 18

25. Les autorisations de fichier par défaut sont 666 dans HDFS 18

Utilisez la commande '-chmod' pour modifier les autorisations d'un fichier 18

h124 18

26. Les noms par défaut du propriétaire et du groupe sont la formation, la formation 18

Utilisez '-chown' pour changer le nom du propriétaire et le nom du groupe simultanément 18

h125 18

27. Le nom par défaut du groupe est l'entraînement 18

Utilisez la commande '-chgrp' pour changer le nom du groupe 19

h126 19

28. Déplacer un répertoire d'un endroit à un autre 19

h127 19

29. Le facteur de réplication par défaut dans un fichier est 3. 19

Utilisez la commande '-setrep' pour modifier le facteur de réplication d'un fichier 19

h128 19

30. Copiez un répertoire d'un nœud du cluster vers un autre 19

Utilisez la commande '-distcp' pour copier, 19

Option -overwrite pour remplacer les fichiers existants 19

-update commande pour synchroniser les deux répertoires 20

h129 20

31. Commande pour que le nœud de nom quitte le mode sécurisé 20

h130 20

32. Liste toutes les commandes du shell du système de fichiers hadoop 20

h131 20

33. Obtenez les valeurs de quota hdfs et le nombre actuel de noms et d'octets utilisés. 20

h132 20

34. Last but not least, demandez toujours de l'aide! 20

h133 20

Commandes Hadoop v2 21

Chapitre 3: Débogage du code Java Hadoop MR dans un environnement de développement

eclipse 25

Introduction 25

Remarques 25

Examples 25

Étapes de configuration 25

Chapitre 4: Données de chargement Hadoop 27

Examples 27

Charger des données dans hadoop hdfs 27

hadoop fs -mkdir: 27

Usage: 27

Exemple: 27

hadoop fs -put: 27

Usage: 27

Exemple: 27

hadoop fs -copyFromLocal: 27

Usage: 28

Exemple: 28

hadoop fs -moveFromLocal: 28

Usage: 28

Exemple: 28

Usage: 28

Exemple: 28

Chapitre 5: Introduction à MapReduce 30

Syntaxe 30

Remarques 30

Examples 30

Programme de comptage de mots (en Java et Python) 30

Chapitre 6: Qu'est-ce que HDFS? 34

Remarques 34

Examples 34

HDFS - Système de fichiers distribué Hadoop 34

Recherche de fichiers dans HDFS 34

Bloque et divise HDFS 35

Chapitre 7: teinte 37

Introduction 37

Examples 37

Processus de configuration 37

Dépendances d'instalation 37

Installation de teinte dans Ubuntu 38

Crédits 41

À propos

You can share this PDF with anyone you feel could benefit from it, downloaded the latest version from: hadoop

It is an unofficial and free hadoop ebook created for educational purposes. All the content is extracted from Stack Overflow Documentation, which is written by many hardworking individuals at Stack Overflow. It is neither affiliated with Stack Overflow nor official hadoop.

The content is released under Creative Commons BY-SA, and the list of contributors to each chapter are provided in the credits section at the end of this book. Images may be copyright of their respective owners unless otherwise specified. All trademarks and registered trademarks are the property of their respective company owners.

Use the content presented in this book at your own risk; it is not guaranteed to be correct nor accurate, please send your feedback and corrections to [email protected]

https://riptutorial.com/fr/home 1

Chapitre 1: Démarrer avec hadoop

Remarques

Qu'est-ce qu'Apache Hadoop?

La bibliothèque de logiciels Apache Hadoop est une infrastructure permettant le traitement distribué de grands ensembles de données sur des grappes d’ordinateurs à l’aide de modèles de programmation simples. Il est conçu pour passer de serveurs uniques à des milliers de machines, chacune offrant des fonctions de calcul et de stockage locales. Plutôt que de dépendre du matériel pour fournir une haute disponibilité, la bibliothèque elle-même est conçue pour détecter et gérer les défaillances au niveau de la couche application, offrant ainsi un service hautement disponible au-dessus d'un cluster

Apache Hadoop comprend ces modules:

Hadoop Common : les utilitaires communs qui prennent en charge les autres modules Hadoop.

Système de fichiers distribué Hadoop (HDFS) : système de fichiers distribué qui fournit un accès à haut débit aux données des applications.

Hadoop YARN : un cadre pour la planification des tâches et la gestion des ressources de cluster.

Hadoop MapReduce : Un système basé sur YARN pour le traitement parallèle de grands ensembles de données.

Référence:

Apache Hadoop

Versions

Version Notes de version Date de sortie

3.0.0-alpha1 2016-08-30

2.7.3 Cliquez ici - 2.7.3 2016-01-25

2.6.4 Cliquez ici - 2.6.4 2016-02-11

2.7.2 Cliquez ici - 2.7.2 2016-01-25

2.6.3 Cliquez ici - 2.6.3 2015-12-17

2.6.2 Cliquez ici - 2.6.2 2015-10-28

https://riptutorial.com/fr/home 2

Version Notes de version Date de sortie

2.7.1 Cliquez ici - 2.7.1 2015-07-06

Examples

Installation ou configuration sous Linux

Procédure de configuration d'un cluster pseudo-distribué

Conditions préalables

Installez JDK1.7 et définissez la variable d'environnement JAVA_HOME.•

Créez un nouvel utilisateur en tant que "hadoop".

useradd hadoop

Configurer la connexion SSH sans mot de passe sur son propre compte

su - hadoop ssh-keygen << Press ENTER for all prompts >> cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

Vérifier en effectuant ssh localhost•

Désactivez IPV6 en éditant /etc/sysctl.conf avec les éléments suivants:

net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1

Vérifiez que vous utilisez cat /proc/sys/net/ipv6/conf/all/disable_ipv6

(devrait retourner 1)

Installation et configuration:

Téléchargez la version requise de Hadoop à partir des archives Apache en utilisant la commande wget .

cd /opt/hadoop/ wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gz tar -xvf hadoop-2.x.x.gz mv hadoop-2.x.x.gz hadoop (or) ln -s hadoop-2.x.x.gz hadoop chown -R hadoop:hadoop hadoop

https://riptutorial.com/fr/home 3

Mettre à jour .bashrc / .kshrc fonction de votre shell avec les variables d'environnement ci-dessous

export HADOOP_PREFIX=/opt/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export JAVA_HOME=/java/home/path export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin

Dans le $HADOOP_HOME/etc/hadoop , éditez ci-dessous les fichiers

core-site.xml

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020</value> </property> </configuration>

mapred-site.xml

Créer mapred-site.xml partir de son modèle

cp mapred-site.xml.template mapred-site.xml

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>

yarn-site.xml

<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>

hdfs-site.xml

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name>

https://riptutorial.com/fr/home 4

<value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>

Créez le dossier parent pour stocker les données hadoop

mkdir -p /home/hadoop/hdfs

Format NameNode (nettoie le répertoire et crée les fichiers méta nécessaires)

hdfs namenode -format

Démarrer tous les services:

start-dfs.sh && start-yarn.sh mr-jobhistory-server.sh start historyserver

Au lieu de cela, utilisez start-all.sh (obsolète).

Vérifiez tous les processus Java en cours d'exécution

jps

Interface Web Namenode: http: // localhost: 50070 /•

Interface Web du gestionnaire de ressources: http: // localhost: 8088 /•

Pour arrêter les démons (services):

stop-dfs.sh && stop-yarn.sh mr-jobhistory-daemon.sh stop historyserver

Utilisez plutôt stop-all.sh (obsolète).

Installation de Hadoop sur Ubuntu

Création d'un utilisateur Hadoop:

sudo addgroup hadoop

Ajouter un utilisateur:

https://riptutorial.com/fr/home 5

sudo adduser --ingroup hadoop hduser001

Configuration de SSH:

su -hduser001 ssh-keygen -t rsa -P "" cat .ssh/id rsa.pub >> .ssh/authorized_keys

Remarque : Si vous obtenez des erreurs [ bash: .ssh / authorized_keys: pas de fichier ou répertoire de ce type ] lors de l'écriture de la clé autorisée. Vérifiez ici .

https://riptutorial.com/fr/home 6

Ajouter l'utilisateur hadoop à la liste de sudoer:

sudo adduser hduser001 sudo

Désactiver IPv6:

https://riptutorial.com/fr/home 8

Installation de Hadoop:

sudo add-apt-repository ppa:hadoop-ubuntu/stable sudo apt-get install hadoop

Vue d'ensemble de Hadoop et HDFS

https://riptutorial.com/fr/home 9

Hadoop est une infrastructure logicielle à code source libre pour le stockage et le traitement à grande échelle d'ensembles de données dans un environnement informatique distribué. Il est sponsorisé par Apache Software Foundation. Il est conçu pour passer de serveurs uniques à des milliers de machines, chacune offrant des fonctions de calcul et de stockage locales.

Histoire

Hadoop a été créé par Doug Cutting et Mike Cafarella en 2005.•Cutting, qui travaillait chez Yahoo! à l'époque, l'a nommé après l'éléphant de jouet de son fils.

Il a été initialement développé pour prendre en charge la distribution du projet de moteur de recherche.

Principaux modules de hadoop

Système de fichiers distribué Hadoop (HDFS): système de fichiers distribué qui fournit un accès à haut débit aux données des applications. Hadoop MapReduce: cadre logiciel pour le traitement distribué de grands ensembles de données sur des grappes de calcul.

Fonctionnalités de base du système de fichiers Hadoop

Très tolérant aux pannes. Haut débit. Convient aux applications avec de grands ensembles de données. Peut être construit à partir de matériel de base.

Namenode et Datanodes

Architecture maître / esclave. Le cluster HDFS se compose d'un seul Namenode, un serveur maître qui gère l'espace de noms du système de fichiers et régule l'accès aux fichiers par les clients. Les nœuds de données gèrent le stockage attaché aux nœuds sur lesquels ils s'exécutent. HDFS expose un espace de noms de système de fichiers et permet de stocker les données utilisateur dans des fichiers. Un fichier est divisé en un ou plusieurs blocs et un ensemble de blocs est stocké dans DataNodes. DataNodes: sert à lire, à écrire des requêtes, à créer, à supprimer et à répliquer des blocs sur instruction de Namenode.

https://riptutorial.com/fr/home 10

HDFS est conçu pour stocker des fichiers très volumineux sur plusieurs ordinateurs d'un grand cluster. Chaque fichier est une séquence de blocs. Tous les blocs du fichier, sauf le dernier, ont la même taille. Les blocs sont répliqués pour la tolérance aux pannes. Le Namenode reçoit un Heartbeat et un BlockReport de chaque DataNode du cluster. BlockReport contient tous les blocs d'un Datanode.

Commandes Hadoop Shell

Commandes communes utilisées: -ls Usage: hadoop fs –ls Chemin (répertoire / chemin du fichier à lister). Utilisation du chat : hadoop fs -cat PathOfFileToView

Lien pour les commandes du shell hadoop: - https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html

Lire Démarrer avec hadoop en ligne: https://riptutorial.com/fr/hadoop/topic/926/demarrer-avec-hadoop

https://riptutorial.com/fr/home 11

Chapitre 2: Commandes Hadoop

Syntaxe

Commandes Hadoop v1: hadoop fs -<command>•

Commandes Hadoop v2: hdfs dfs -<command>•

Examples

Commandes Hadoop v1

1. Imprimez la version Hadoop

hadoop version

2. Lister le contenu du répertoire racine dans HDFS

hadoop fs -ls /

3. Indiquez la quantité d'espace utilisée et

disponible sur le système de fichiers actuellement monté

hadoop fs -df hdfs:/

4. Comptez le nombre de répertoires, fichiers et octets sous

https://riptutorial.com/fr/home 12

les chemins correspondant au motif de fichier spécifié

hadoop fs -count hdfs:/

5. Exécutez un utilitaire de vérification du système de fichiers DFS

hadoop fsck – /

6. Exécutez un utilitaire d'équilibrage de cluster

hadoop balancer

7. Créez un nouveau répertoire nommé “hadoop” en dessous du

/ user / répertoire de formation dans HDFS. Puisque tu es

actuellement connecté avec l'ID utilisateur «training»,

/ user / training est votre répertoire personnel dans HDFS.

https://riptutorial.com/fr/home 13

hadoop fs -mkdir /user/training/hadoop

8. Ajoutez un exemple de fichier texte à partir du répertoire local

nommé «données» dans le nouveau répertoire que vous avez créé dans HDFS

lors de l'étape précédente.

hadoop fs -put data/sample.txt /user/training/hadoop

9. Répertorie le contenu de ce nouveau répertoire dans HDFS.

hadoop fs -ls /user/training/hadoop

10. Ajoutez l’ensemble du répertoire local appelé “retail” au

/ user / répertoire de formation dans HDFS.

hadoop fs -put data/retail /user/training/hadoop

11. Puisque / user / training est votre répertoire personnel dans HDFS,

https://riptutorial.com/fr/home 14

toute commande qui n'a pas de chemin absolu est

interprété comme relatif à ce répertoire. Le suivant

commande listera donc votre répertoire personnel, et

devrait montrer les éléments que vous venez d'ajouter là-bas.

hadoop fs -ls

12. Voir combien d'espace ce répertoire occupe dans HDFS.

hadoop fs -du -s -h hadoop/retail

13. Supprimez un fichier "clients" du répertoire "retail".

hadoop fs -rm hadoop/retail/customers

14. Assurez-vous que ce fichier n'est plus dans HDFS.

https://riptutorial.com/fr/home 15

hadoop fs -ls hadoop/retail/customers

15. Supprimez tous les fichiers du répertoire «retail» en utilisant un caractère générique.

hadoop fs -rm hadoop/retail/*

16. Vider la poubelle

hadoop fs -expunge

17. Enfin, supprimez tout le répertoire de vente au détail et tous les

de son contenu dans HDFS.

hadoop fs -rm -r hadoop/retail

18. Répertorie le répertoire de hadoop à nouveau

hadoop fs -ls hadoop

19. Ajoutez le fichier achats.txt à partir du répertoire local

nommé "/ home / training /" dans le répertoire

https://riptutorial.com/fr/home 16

hadoop que vous avez créé dans HDFS

hadoop fs -copyFromLocal /home/training/purchases.txt hadoop/

20. Pour afficher le contenu de votre fichier texte payments.txt

qui est présent dans votre répertoire hadoop.

hadoop fs -cat hadoop/purchases.txt

21. Ajoutez le fichier achats.txt du répertoire «hadoop» présent dans le répertoire HDFS

dans le répertoire "data" présent dans votre répertoire local

hadoop fs -copyToLocal hadoop/purchases.txt /home/training/data

22. cp est utilisé pour copier des fichiers entre les répertoires présents dans HDFS

hadoop fs -cp /user/training/*.txt /user/training/hadoop

23. La commande '-get' peut être utilisée alternativement pour la commande '-

https://riptutorial.com/fr/home 17

copyToLocal'

hadoop fs -get hadoop/sample.txt /home/training/

24. Affiche le dernier kilo-octet du fichier «achats.txt» à la sortie standard.

hadoop fs -tail hadoop/purchases.txt

25. Les autorisations de fichier par défaut sont 666 dans HDFS

Utilisez la commande '-chmod' pour modifier les autorisations d'un fichier

hadoop fs -ls hadoop/purchases.txt sudo -u hdfs hadoop fs -chmod 600 hadoop/purchases.txt

26. Les noms par défaut du propriétaire et du groupe sont la formation, la formation

Utilisez '-chown' pour changer le nom du propriétaire et le nom du groupe simultanément

hadoop fs -ls hadoop/purchases.txt sudo -u hdfs hadoop fs -chown root:root hadoop/purchases.txt

https://riptutorial.com/fr/home 18

27. Le nom par défaut du groupe est l'entraînement

Utilisez la commande '-chgrp' pour changer le nom du groupe

hadoop fs -ls hadoop/purchases.txt sudo -u hdfs hadoop fs -chgrp training hadoop/purchases.txt

28. Déplacer un répertoire d'un endroit à un autre

hadoop fs -mv hadoop apache_hadoop

29. Le facteur de réplication par défaut dans un fichier est 3.

Utilisez la commande '-setrep' pour modifier le facteur de réplication d'un fichier

hadoop fs -setrep -w 2 apache_hadoop/sample.txt

30. Copiez un répertoire d'un nœud du cluster vers un autre

Utilisez la commande '-distcp' pour copier,

https://riptutorial.com/fr/home 19

Option -overwrite pour remplacer les fichiers existants

-update commande pour synchroniser les deux répertoires

hadoop fs -distcp hdfs://namenodeA/apache_hadoop hdfs://namenodeB/hadoop

31. Commande pour que le nœud de nom quitte le mode sécurisé

hadoop fs -expunge sudo -u hdfs hdfs dfsadmin -safemode leave

32. Liste toutes les commandes du shell du système de fichiers hadoop

hadoop fs

33. Obtenez les valeurs de quota hdfs et le nombre actuel de noms et d'octets utilisés.

hadoop fs -count -q [-h] [-v] <directory>...<directory>

34. Last but not least, demandez toujours de l'aide!

https://riptutorial.com/fr/home 20

hadoop fs -help

Commandes Hadoop v2

appendToFile: Ajoute un seul src ou plusieurs srcs du système de fichiers local au système de fichiers de destination. Lit également l'entrée de stdin et ajoute au système de fichiers de destination. Gardez le comme -

hdfs dfs -appendToFile [localfile1 localfile2 ..] [/HDFS/FILE/PATH..]

cat: copie les chemins source vers la sortie standard.

hdfs dfs -cat URI [URI …]

chgrp: modifie l'association de groupe de fichiers. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires. L'utilisateur doit être le propriétaire du fichier ou le superutilisateur.

hdfs dfs -chgrp [-R] GROUP URI [URI …]

chmod: modifie les permissions des fichiers. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires. L'utilisateur doit être le propriétaire du fichier ou le superutilisateur

hdfs dfs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI …]

chown: modifie le propriétaire des fichiers. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires. L'utilisateur doit être le superutilisateur.

hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

copyFromLocal: Fonctionne de manière similaire à la commande put, sauf que la source est limitée à une référence de fichier local.

hdfs dfs -copyFromLocal <localsrc> URI

copyToLocal: Fonctionne de manière similaire à la commande get, sauf que la destination est limitée à une référence de fichier local.

hdfs dfs -copyToLocal [-ignorecrc] [-crc] URI <localdst>

count: Compte le nombre de répertoires, de fichiers et d'octets sous les chemins correspondant au modèle de fichier spécifié.

hdfs dfs -count [-q] [-h] <paths>

https://riptutorial.com/fr/home 21

cp: copie un ou plusieurs fichiers d'une source spécifiée vers une destination spécifiée. Si vous spécifiez plusieurs sources, la destination spécifiée doit être un répertoire.

hdfs dfs -cp URI [URI …] <dest>

du: Affiche la taille du fichier spécifié ou la taille des fichiers et des répertoires contenus dans le répertoire spécifié. Si vous spécifiez l'option -s, affiche un résumé agrégé des tailles de fichiers plutôt que des tailles de fichiers individuelles. Si vous spécifiez l'option -h, formatez les tailles de fichier de manière "lisible par l'homme".

hdfs dfs -du [-s] [-h] URI [URI …]

dus: affiche un résumé des tailles de fichiers; équivalent à hdfs dfs -du –s.

hdfs dfs -dus <args>

expulsion: vide la corbeille. Lorsque vous supprimez un fichier, il n'est pas supprimé immédiatement de HDFS, mais est renommé en un fichier dans le répertoire / trash. Tant que le fichier y reste, vous pouvez le supprimer si vous changez d'avis, même si seule la dernière copie du fichier supprimé peut être restaurée.

hdfs dfs –expunge

get: copie les fichiers sur le système de fichiers local. Les fichiers qui échouent à un contrôle de redondance cyclique (CRC) peuvent toujours être copiés si vous spécifiez l'option -ignorecrc. Le CRC est une technique courante pour détecter les erreurs de transmission de données. Les fichiers de somme de contrôle CRC ont l'extension .crc et sont utilisés pour vérifier l'intégrité des données d'un autre fichier. Ces fichiers sont copiés si vous spécifiez l'option -crc.

hdfs dfs -get [-ignorecrc] [-crc] <src> <localdst>

getmerge: Concatène les fichiers dans src et écrit le résultat dans le fichier de destination local spécifié. Pour ajouter un caractère de nouvelle ligne à la fin de chaque fichier, spécifiez l’option addnl.

hdfs dfs -getmerge <src> <localdst> [addnl]

ls: renvoie des statistiques pour les fichiers ou répertoires spécifiés.

hdfs dfs -ls <args>

lsr: Sert de version récursive de ls; similaire à la commande Unix ls -R.

hdfs dfs -lsr <args>

mkdir: Crée des répertoires sur un ou plusieurs chemins spécifiés. Son comportement est

https://riptutorial.com/fr/home 22

similaire à la commande Unix mkdir -p, qui crée tous les répertoires qui mènent au répertoire spécifié s'ils n'existent pas déjà.

hdfs dfs -mkdir <paths>

moveFromLocal: Fonctionne de la même manière que la commande put, sauf que la source est supprimée après sa copie.

hdfs dfs -moveFromLocal <localsrc> <dest>

mv: déplace un ou plusieurs fichiers d'une source spécifiée vers une destination spécifiée. Si vous spécifiez plusieurs sources, la destination spécifiée doit être un répertoire. Le déplacement de fichiers entre systèmes de fichiers n'est pas autorisé.

hdfs dfs -mv URI [URI …] <dest>

put: copie les fichiers du système de fichiers local vers le système de fichiers de destination. Cette commande peut également lire les entrées de stdin et écrire dans le système de fichiers de destination.

hdfs dfs -put <localsrc> ... <dest>

rm: Supprime un ou plusieurs fichiers spécifiés. Cette commande ne supprime pas les répertoires ou fichiers vides. Pour contourner la corbeille (si elle est activée) et supprimer immédiatement les fichiers spécifiés, spécifiez l'option -skipTrash.

hdfs dfs -rm [-skipTrash] URI [URI …]

rm r: Sert de version récursive de –rm.

hdfs dfs -rm -r [-skipTrash] URI [URI …]

setrep: modifie le facteur de réplication pour un fichier ou un répertoire spécifié. Avec -R, effectue la modification de manière récursive au moyen de la structure de répertoires.

hdfs dfs -setrep <rep> [-R] <path>

stat: affiche des informations sur le chemin spécifié.

hdfs dfs -stat URI [URI …]

tail: Affiche le dernier kilo-octet d'un fichier spécifié à stdout. La syntaxe prend en charge l'option Unix -f, qui permet de surveiller le fichier spécifié. Lorsque de nouvelles lignes sont ajoutées au fichier par un autre processus, tail met à jour l'affichage.

hdfs dfs -tail [-f] URI

https://riptutorial.com/fr/home 23

test: renvoie les attributs du fichier ou du répertoire spécifié. Spécifie -e pour déterminer si le fichier ou le répertoire existe; -z pour déterminer si le fichier ou le répertoire est vide; et -d pour déterminer si l'URI est un répertoire.

hdfs dfs -test -[ezd] URI

text: génère un fichier source spécifié au format texte. Les formats de fichier d'entrée valides sont zip et TextRecordInputStream.

hdfs dfs -text <src>

touchz: Crée un nouveau fichier vide de taille 0 dans le chemin spécifié.

hdfs dfs -touchz <path>

Lire Commandes Hadoop en ligne: https://riptutorial.com/fr/hadoop/topic/3870/commandes-hadoop

https://riptutorial.com/fr/home 24

Chapitre 3: Débogage du code Java Hadoop MR dans un environnement de développement eclipse local.

Introduction

La chose fondamentale à retenir ici est que le débogage d'un travail Hadoop MR sera similaire à toute application à déboguer à distance dans Eclipse.

Un outil de débogage ou de débogage est un programme informatique utilisé pour tester et déboguer d'autres programmes (le programme «cible»). Il est particulièrement utile pour un environnement Hadoop dans lequel il y a peu de place à l'erreur et une petite erreur peut entraîner une perte considérable.

Remarques

C'est tout ce que vous devez faire.

Examples

Étapes de configuration

Comme vous le savez, Hadoop peut être exécuté dans l'environnement local selon 3 modes différents:

Mode local1. Mode pseudo-distribué2. Mode entièrement distribué (cluster)3.

En général, vous exécuterez votre configuration de hadoop local en mode pseudo-distribué pour exploiter HDFS et Map Reduce (MR). Cependant, vous ne pouvez pas déboguer les programmes MR dans ce mode, car chaque tâche Map / Reduce s'exécute dans un processus JVM distinct. Vous devez donc revenir au mode Local où vous pouvez exécuter vos programmes MR dans un processus JVM unique.

Voici les étapes simples et rapides pour le déboguer dans votre environnement local:

Exécutez hadoop en mode local pour le débogage afin que les tâches du mappeur et du réducteur s'exécutent dans une seule machine virtuelle Java au lieu de machines virtuelles distinctes. Les étapes ci-dessous vous aident à le faire.

1.

Configurez HADOOP_OPTS pour activer le débogage. Ainsi, lorsque vous exécuterez votre travail Hadoop, il attendra que le débogueur se connecte. Vous trouverez ci-dessous la

2.

https://riptutorial.com/fr/home 25

commande pour déboguer le même sur le port 8080.

(export HADOOP_OPTS = ”- agentlib: jdwp = transport = dt_socket, serveur = y, suspendre = y, adresse = 8008“)

Configurez la valeur fs.default.name dans le fichier core-site.xml pour le fichier: /// à partir de hdfs: //. Vous n'utiliserez pas hdfs en mode local.

3.

Configurez la valeur de mapred.job.tracker dans mapred-site.xml sur local. Cela indiquera à Hadoop d'exécuter les tâches MR dans une seule JVM.

4.

Créez une configuration de débogage pour Eclipse et définissez le port sur 8008. Pour cela, accédez aux configurations du débogueur et créez un nouveau type de configuration d'application Java distante et définissez le port comme 8080 dans les paramètres.

5.

Exécutez votre travail de hadoop (il attendra que le débogueur se connecte), puis lancez Eclipse en mode débogage avec la configuration ci-dessus. Assurez-vous de mettre un point de rupture en premier.

6.

Lire Débogage du code Java Hadoop MR dans un environnement de développement eclipse local. en ligne: https://riptutorial.com/fr/hadoop/topic/10063/debogage-du-code-java-hadoop-mr-dans-un-environnement-de-developpement-eclipse-local-

https://riptutorial.com/fr/home 26

Chapitre 4: Données de chargement Hadoop

Examples

Charger des données dans hadoop hdfs

ÉTAPE 1: CRÉER UN ANNUAIRE DANS HDFS, TÉLÉCHARGER UN FICHIER ET LISTE DE CONTENUS

Apprenons en écrivant la syntaxe. Vous pourrez copier et coller les exemples de commandes suivants dans votre terminal:

hadoop fs -mkdir:

Prend l'URI du chemin comme argument et crée un répertoire ou plusieurs répertoires.

Usage:

# hadoop fs -mkdir <paths>

Exemple:

hadoop fs -mkdir /user/hadoop hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2 /user/hadoop/dir3

hadoop fs -put:

Copie un seul fichier src ou plusieurs fichiers src du système de fichiers local vers le système de fichiers distribué Hadoop.

Usage:

# hadoop fs -put <local-src> ... <HDFS_dest_path>

Exemple:

hadoop fs -put popularNames.txt /user/hadoop/dir1/popularNames.txt

https://riptutorial.com/fr/home 27

hadoop fs -copyFromLocal:

Copie un seul fichier src ou plusieurs fichiers src du système de fichiers local vers le système de fichiers distribué Hadoop.

Usage:

# hadoop fs -copyFromLocal <local-src> ... <HDFS_dest_path>

Exemple:

hadoop fs -copyFromLocal popularNames.txt /user/hadoop/dir1/popularNames.txt

hadoop fs -moveFromLocal:

Semblable à la commande put, sauf que la source locale est supprimée après sa copie.

Usage:

# hadoop fs -moveFromLocal <local-src> ... <HDFS_dest_path>

Exemple:

hadoop fs -moveFromLocal popularNames.txt /user/hadoop/dir1/popularNames.txt

OUTIL DE TRANSFERT DE DONNÉES SQOOP:

Nous pouvons également charger des données dans HDFS directement à partir de bases de données relationnelles à l'aide de Sqoop (un outil de ligne de commande pour le transfert de données du SGBDR vers HDFS et inversement).

Usage:

$ sqoop import --connect CONNECTION_STRING --username USER_NAME --table TABLE_NAME

https://riptutorial.com/fr/home 28

Exemple:

$ sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST

Lire Données de chargement Hadoop en ligne: https://riptutorial.com/fr/hadoop/topic/3846/donnees-de-chargement-hadoop

https://riptutorial.com/fr/home 29

Chapitre 5: Introduction à MapReduce

Syntaxe

Pour exécuter l'exemple, la syntaxe de la commande est la suivante:

bin/hadoop jar hadoop-*-examples.jar wordcount [-m <#maps>] [-r <#reducers>] <in-dir> <out-dir>

Pour copier des données dans HDFS (à partir du local):

bin/hadoop dfs -mkdir <hdfs-dir> //not required in hadoop 0.17.2 and later bin/hadoop dfs -copyFromLocal <local-dir> <hdfs-dir>

Remarques

Programme Word Count utilisant MapReduce dans Hadoop.

Examples

Programme de comptage de mots (en Java et Python)

Le programme de comptage de mots est similaire au programme "Hello World" dans MapReduce.

Hadoop MapReduce est une infrastructure logicielle permettant d'écrire facilement des applications qui traitent de grandes quantités de données (ensembles de données de plusieurs téraoctets) en parallèle sur de grands clusters (des milliers de nœuds) de matériel de base de manière fiable et tolérante aux pannes.

Un travail MapReduce divise généralement le jeu de données d'entrée en blocs indépendants qui sont traités par les tâches de carte de manière totalement parallèle. Le framework trie les sorties des cartes, qui sont ensuite entrées dans les tâches de réduction. Généralement, l'entrée et la sortie du travail sont stockées dans un système de fichiers. La structure prend en charge la planification des tâches, leur surveillance et la ré-exécution des tâches ayant échoué.

Exemple de compte de mots:

WordCount exemple lit des fichiers texte et compte combien de fois les mots se produisent. L'entrée est constituée de fichiers texte et la sortie est constituée de fichiers texte, dont chaque ligne contient un mot et le nombre de fois où elle s'est produite, séparés par un onglet.

Chaque mappeur prend une ligne en entrée et la divise en mots. Il émet alors une paire clé / valeur du mot et chaque réducteur additionne les comptes pour chaque mot et émet une seule clé / valeur avec le mot et la somme.

https://riptutorial.com/fr/home 30

En tant qu'optimisation, le réducteur est également utilisé comme combineur sur les sorties de la carte. Cela réduit la quantité de données envoyées sur le réseau en combinant chaque mot en un seul enregistrement.

Code de nombre de mots:

package org.myorg; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.*; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; public class WordCount { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } } } public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "wordcount"); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class);

https://riptutorial.com/fr/home 31

job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.waitForCompletion(true); } }

Pour exécuter l'exemple, la syntaxe de la commande est la suivante:

bin/hadoop jar hadoop-*-examples.jar wordcount [-m <#maps>] [-r <#reducers>] <in-dir> <out-dir>

Tous les fichiers du répertoire d'entrée (appelés in-dir dans la ligne de commande ci-dessus) sont lus et les comptes de mots dans l'entrée sont écrits dans le répertoire de sortie (appelé out-dir ci-dessus). Il est supposé que les entrées et les sorties sont stockées dans HDFS. Si votre entrée n'est pas déjà dans HDFS, mais plutôt dans un système de fichiers local, vous devez copier les données dans HDFS en utilisant une commande comme celle-ci:

bin/hadoop dfs -mkdir <hdfs-dir> //not required in hadoop 0.17.2 and later bin/hadoop dfs -copyFromLocal <local-dir> <hdfs-dir>

Word Count exemple en Python:

mapper.py

import sys for line in sys.stdin: # remove leading and trailing whitespace line = line.strip() # split the line into words words = line.split() # increase counters for word in words: print '%s\t%s' % (word, 1)

réducteur.py

import sys current_word = None current_count = 0 word = None for line in sys.stdin: # remove leading and trailing whitespaces line = line.strip() # parse the input we got from mapper.py word, count = line.split('\t', 1) # convert count (currently a string) to int try: count = int(count) except ValueError:

https://riptutorial.com/fr/home 32

# count was not a number, so silently # ignore/discard this line continue if current_word == word: current_count += count else: if current_word: print '%s\t%s' % (current_word, current_count) current_count = count current_word = word if current_word == word: print '%s\t%s' % (current_word, current_count)

Le programme ci-dessus peut être exécuté en utilisant cat filename.txt | python mapper.py | sort -k1,1 | python reducer.py

Lire Introduction à MapReduce en ligne: https://riptutorial.com/fr/hadoop/topic/3879/introduction-a-mapreduce

https://riptutorial.com/fr/home 33

Chapitre 6: Qu'est-ce que HDFS?

Remarques

Une bonne explication de HDFS et de son fonctionnement.

La syntaxe devrait contenir les commandes pouvant être utilisées dans HDFS.

Examples

HDFS - Système de fichiers distribué Hadoop

Le système de fichiers distribué Hadoop (HDFS) est un système de fichiers basé sur Java qui fournit un stockage de données évolutif et fiable conçu pour couvrir de grands groupes de serveurs de base. HDFS, MapReduce et YARN constituent le cœur d'Apache ™ Hadoop®.

HDFS est conçu pour être hautement tolérant aux pannes, ce qui est possible en enregistrant plusieurs copies (3 par défaut) d'un bloc de données donné sur plusieurs nœuds.

Recherche de fichiers dans HDFS

Pour rechercher un fichier dans le système de fichiers Hadoop Distributed:

hdfs dfs -ls -R / | grep [search_term]

Dans la commande ci-dessus,

-ls sert à lister les fichiers

-R est pour récursif (itérer dans les sous-répertoires)

/ signifie depuis le répertoire racine

| pour diriger la sortie de la première commande vers la seconde

Commande grep pour extraire les chaînes correspondantes

[search_term] nom du fichier à rechercher dans la liste de tous les fichiers du système de fichiers hadoop.

Vous pouvez également utiliser la commande ci-dessous pour rechercher et appliquer également certaines expressions:

hadoop fs -find / -name test -print

Trouve tous les fichiers qui correspondent à l'expression spécifiée et leur applique les actions sélectionnées. Si aucun chemin n'est spécifié, le répertoire de travail actuel est utilisé par défaut.

https://riptutorial.com/fr/home 34

Si aucune expression n'est spécifiée, la valeur par défaut est -print.

Les expressions principales suivantes sont reconnues:

name pattern•iname pattern•

Evalue comme true si le nom de base du fichier correspond au modèle utilisant la globalisation du système de fichiers standard. Si -iname est utilisé, la correspondance est insensible à la casse.

print•print0Always•

Évalue à vrai. Fait en sorte que le chemin d'accès actuel soit écrit sur la sortie standard. Si l'expression -print0 est utilisée, un caractère ASCII NULL est ajouté.

Les opérateurs suivants sont reconnus:

expression -a expression expression -and expression expression expression

Bloque et divise HDFS

Taille de bloc et blocs dans HDFS : HDFS a pour principe de stocker des données dans des blocs à chaque fois qu'un fichier est chargé. Les blocs sont les partitions physiques des données dans HDFS (ou dans tout autre système de fichiers, d'ailleurs).

Chaque fois qu'un fichier est chargé sur le HDFS, il est divisé physiquement (oui, le fichier est divisé) en différentes parties appelées blocs. Le nombre de blocs dépend de la valeur de dfs.block.size dans hdfs-site.xml

Idéalement, la taille du bloc est définie sur une valeur élevée telle que 64/128/256 Mo (contre 4 Ko dans le FS normal). La valeur de taille de bloc par défaut sur la plupart des distributions de Hadoop 2.x est de 128 Mo. La raison d’une taille de bloc plus élevée est due au fait que Hadoop est conçu pour traiter PetaBytes de données avec chaque fichier allant de quelques centaines de méga-octets à l’ordre de TeraBytes.

Disons par exemple que vous avez un fichier de taille 1024 Mo. Si votre taille de bloc est de 128 Mo, vous obtiendrez 8 blocs de 128 Mo chacun. Cela signifie que votre namenode devra stocker les métadonnées de 8 x 3 = 24 fichiers (3 étant le facteur de réplication).

Considérons le même scénario avec une taille de bloc de 4 Ko. Il en résultera 1GB / 4KB = 250000 blocs, ce qui nécessitera la namenode pour enregistrer les métadonnées pour 750000 blocs pour seulement un fichier de 1 Go. Étant donné que toutes ces informations relatives aux métadonnées sont stockées en mémoire, il est préférable d'utiliser une taille de bloc supérieure pour économiser ce bit de charge supplémentaire sur le NameNode.

Encore une fois, la taille du bloc n'est pas extrêmement élevée, comme 1 Go, etc., car, idéalement, 1 mappeur est lancé pour chaque bloc de données. Ainsi, si vous définissez la

1.

https://riptutorial.com/fr/home 35

taille du bloc sur 1 Go, vous risquez de perdre le parallélisme, ce qui peut ralentir le débit global.

2.) Fractionner la taille dans HDFS : les fractionnements dans le traitement Hadoop sont les blocs de données logiques. Lorsque les fichiers sont divisés en blocs, hadoop ne respecte aucun fichier binaire. Il divise simplement les données en fonction de la taille du bloc. Disons que si vous avez un fichier de 400 Mo, avec 4 lignes et que chaque ligne contient 100 Mo de données, vous obtiendrez 3 blocs de 128 MB x 3 et 16 MB x 1 . Mais lorsque les fractionnements d'entrée sont calculés alors que la saisie des données, les limites des fichiers / enregistrements sont gardées à l'esprit et dans ce cas nous aurons 4 fractionnements d'entrée de 100 Mo chacun, si vous utilisez, par exemple, NLineInputFormat .

La taille de fractionnement peut également être définie par travail en utilisant la propriété mapreduce.input.fileinputformat.split.maxsize

Une très bonne explication de Blocks vs Splits peut être trouvée dans cette réponse SO /

Lire Qu'est-ce que HDFS? en ligne: https://riptutorial.com/fr/hadoop/topic/3845/qu-est-ce-que-hdfs-

https://riptutorial.com/fr/home 36

Chapitre 7: teinte

Introduction

Hue est une interface utilisateur permettant de se connecter et de travailler avec la plupart des technologies Bigdata couramment utilisées, telles que HDFS, Hive, Spark, Hbase, Sqoop, Impala, Pig, Oozie, etc.

Hue, une application Web de Django, a été principalement conçue comme un plan de travail pour exécuter des requêtes Hive. Plus tard, la fonctionnalité de Hue a été améliorée pour prendre en charge différents composants de Hadoop Ecosystem. Il est disponible en tant que logiciel open source sous licence Apache.

Examples

Processus de configuration

Dépendances d'instalation

Les détails du processus d'installation de Hue ne sont pas disponibles pour la plupart des systèmes d'exploitation. En fonction du système d'exploitation, les dépendances à installer peuvent être différentes avant l'exécution du script d'installation fourni dans le package d'installation :

CentOS

sudo yum install ant sudo yum install python-devel.x86_64 sudo yum install krb5-devel.x86_64 sudo yum install krb5-libs.x86_64 sudo yum install libxml2.x86_64 sudo yum install python-lxml.x86_64 sudo yum install libxslt-devel.x86_64 sudo yum install mysql-devel.x86_64 sudo yum install openssl-devel.x86_64 sudo yum install libgsasl-devel.x86_64 sudo yum install sqlite-devel.x86_64 sudo yum install openldap-devel.x86_64 sudo yum install -y libffi libffi-devel sudo yum install mysql-devel gcc gcc-devel python-devel sudo yum install rsync sudo yum install maven wget https://bootstrap.pypa.io/ez_setup.py -O - | sudo python

GMP1.

CentOS> 7.x sudo yum install libgmp3-dev

https://riptutorial.com/fr/home 37

CentOS <6.x sudo yum install gmp gmp-devel gmp-status

Installation de teinte dans Ubuntu

Cette installation suppose que hadoop soit pré-installé sous utilisateur hadoop .

Conditions préalables:

Hue dépend de ces paquets suivants

gcc1. g ++2. libxml2-dev3. libxlst-dev4. libsasl2-dev5. libsasl2-modules-gssapi-mit6. libmysqlclient-dev7. python-dev8. python-setuptools9. libsqlite3-dev10. fourmi11. libkrb5-dev12. libtidy-0.99-013. libldap2-dev14. libssl-dev15. libgmp3-dev16.

Installer tous les paquets

sudo apt-get update sudo apt-get install gcc g++ libxml2-dev libxslt-dev libsasl2-dev libsasl2-modules-gssapi-mit libmysqlclient-dev python-dev python-setuptools libsqlite3-dev ant libkrb5-dev libtidy-0.99-0 libldap2-dev libssl-dev libgmp3-dev

Installation et configuration

Effectuer l'installation en tant qu'utilisateur hadoop .

su - hadoop

Téléchargez Hue sur gethue.com (ce lien est un exemple obtenu sur le site Web de Hue)

wget https://dl.dropboxusercontent.com/u/730827/hue/releases/3.9.0/hue-3.9.0.tgz

1.

Extraire l'archive tar téléchargée

tar -xvf hue-3.9.0.tgz

2.

Exécuter la commande d'installation3.

https://riptutorial.com/fr/home 38

cd hue-3.9.0 PREFIX=/home/hadoop/ make install

Une fois le processus ci-dessus terminé,

Mettre à jour le fichier ~/.bashrc ,

export HUE_HOME=/home/hadoop/hue export PATH=$PATH:$HUE_HOME/build/env/bin

source après l'ajout des entrées, source ~ / .bashrc

4.

Configurer Hue (3 fichiers à éditer)5.

cd $HUE_HOME/desktop/conf

hue.ini

[desktop] server_user=hadoop server_group=hadoop default_user=hadoop default_hdfs_superuser=hadoop

cd $HADOOP_CONF_DIR

core-site.xml

<property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hadoop.groups</name> <value>*</value> </property>

hdfs-site.xml

<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property>

Démarrer Hue (Démarrer les démons Hadoop si ce n'est déjà fait)

nohup supervisor &

6.

Connectez-vous à l'interface Web de Hue: http: // localhost: 8888

nom d'utilisateur: hadoop

mot de passe : user_choice

7.

https://riptutorial.com/fr/home 39

Lire teinte en ligne: https://riptutorial.com/fr/hadoop/topic/6133/teinte

https://riptutorial.com/fr/home 40

Crédits

S. No

Chapitres Contributeurs

1Démarrer avec hadoop

Ani Menon, Community, franklinsijo, Harinder, ItayB, Sandeep Chatterjee, Shailesh Kumar Dayananda, sunkuet02, Udeet Solanki, Venkata Karthik

2 Commandes Hadoop Ambrish, Ani Menon, jedijs, philantrovert

3

Débogage du code Java Hadoop MR dans un environnement de développement eclipse local.

Manish Verma

4Données de chargement Hadoop

Ani Menon, Backtrack, BruceWayne, NeoWelkin, Tejus Prasad

5Introduction à MapReduce

Ani Menon, Arduino_Sentinel, Tejus Prasad, Udeet Solanki, user3335966

6Qu'est-ce que HDFS?

Ani Menon, NeoWelkin, neuromouse, philantrovert, Suraj Kumar Yadav, Tejus Prasad

7 teinte andriosr, franklinsijo

https://riptutorial.com/fr/home 41