Comment configurer Hadoop sur Ubuntu 18.04 et 16.04 LTS

Comment configurer Hadoop sur Ubuntu 18.04 et 16.04 LTS

Apache Hadoop 3.1 ont des améliorations perceptibles de nombreuses corrections de bugs sur l'écurie précédente 3.0 versions. Cette version a de nombreuses améliorations de HDFS et MapReduce. Ce tutoriel vous aidera à installer et à configurer Hadoop 3.1.2 Cluster à nœud sur Ubuntu 18.04, 16.04 systèmes LTS et Linuxmint. Cet article a été testé avec Ubuntu 18.04 LTS.

Étape 1 - Préreqités

Java est la principale exigence pour exécuter Hadoop sur n'importe quel système, alors assurez-vous que Java soit installé sur votre système en utilisant la commande suivante. Si vous n'avez pas installé Java sur votre système, utilisez l'un des liens suivants pour l'installer d'abord.

  • Installez Oracle Java 11 sur Ubuntu 18.04 LTS (bionic)
  • Installez Oracle Java 11 sur Ubuntu 16.04 LTS (Xenial)

Étape 2 - Créer un utilisateur pour Haddop

Nous vous recommandons de créer un compte normal (ni de racine) pour le travail Hadoop. Pour créer un compte en utilisant la commande suivante.

AddUser Hadoop 

Après avoir créé le compte, il devait également configurer SSH basé sur des clés sur son propre compte. Pour ce faire, utilisez des commandes suivantes.

su - hadoop ssh-keygen -t rsa -p "-f ~ /.ssh / id_rsa chat ~ /.ssh / id_rsa.pub >> ~ /.ssh / autorisé_keys chmod 0600 ~ /.SSH / AUTORISED_KEYS 

Maintenant, SSH à LocalHost avec l'utilisateur de Hadoop. Cela ne devrait pas demander le mot de passe, mais la première fois, il incitera à ajouter RSA à la liste des hôtes connus.

SSH LocalHost Exit 

Étape 3 - Téléchargez l'archive Hadoop Source

Dans cette étape, téléchargez Hadoop 3.1 fichier d'archive source à l'aide de la commande ci-dessous. Vous pouvez également sélectionner un autre miroir de téléchargement pour l'augmentation de la vitesse de téléchargement.

cd ~ wget http: // www-eu.apache.org / dist / hadoop / commun / hadoop-3.1.2 / Hadoop-3.1.2.le goudron.gz tar xzf hadoop-3.1.2.le goudron.gz mv hadoop-3.1.2 Hadoop 

Étape 4 - Configuration du mode pseudo-distribué Hadoop

4.1. Configuration des variables d'environnement Hadoop

Configurer les variables environnementales utilisées par le Hadoop. Modifier ~ /.bashrc fichier et ajouter les valeurs suivantes à la fin du fichier.

export hadoop_home = / home / hadoop / hadoop export hadoop_install = $ hadoop_home export hadoop_mapred_home = $ hadoop_home export hadoop_common_home = $ hadoop_home export_hoop_hdfs_home = $ hadoop_common " Hadoop_home / sbin: $ hadoop_home / bin 

Ensuite, appliquez les modifications de l'environnement de course actuel

source ~ /.bashrc 

Modifiez maintenant $ Hadoop_home / etc / hadoop / hadoop-env.shot fichier et régler Java_home variable d'environnement. Modifiez le chemin Java selon l'installation de votre système. Ce chemin peut varier selon la version et la source d'installation du système d'exploitation. Alors assurez-vous que vous utilisez le bon chemin.

vim $ hadoop_home / etc / hadoop / hadoop-env.shot 

Mise à jour en dessous de l'entrée:

exporter java_home = / usr / lib / jvm / java-11-oracle 

4.2. Configuration des fichiers de configuration Hadoop

Hadoop a de nombreux fichiers de configuration, qui doivent configurer selon les exigences de votre infrastructure Hadoop. Commençons par la configuration avec la configuration de Basic Hadoop Node Cluster. Tout d'abord, accédez à l'emplacement ci-dessous

cd $ hadoop_home / etc / hadoop 

Modifier le site core.xml

  FS.défaut.nom hdfs: // localhost: 9000   

Modifier le site HDFS.xml

  DFS.réplication 1 DFS.nom.DIR FILE: /// home / hadoop / hadoopdata / hdfs / namenode dfs.données.DIR FILE: /// home / hadoop / hadoopdata / hdfs / datanode   

Modifier le site Mapred.xml

  mapreduce.cadre.Nommez le fil   

Modifier le site du fil.xml

  fil.nodemanager.Aux-Services MapReduce_Shuffle   

4.3. Format namenode

Maintenant, formatez le namenode à l'aide de la commande suivante, assurez-vous que le répertoire de stockage est

hdfs namenode -format 

Exemple de sortie:

AVERTISSEMENT: / Home / Hadoop / Hadoop / Logs n'existe pas. Création. 2018-05-02 17: 52: 09 678 Info namenode.Namenode: startup_msg: / ********************************************* *************** startup_msg: Démarrage de NameNode startup_msg: host = tecadmin / 127.0.1.1 startup_msg: args = [-format] startup_msg: version = 3.1.2… 2018-05-02 17: 52: 13,717 Info Commun.Stockage: Directoire de stockage / Home / Hadoop / HadoopData / HDFS / NameNode a été formaté avec succès. 2018-05-02 17: 52: 13 806 Info namenode.FsimageFormatProtobuf: Enregistrement du fichier image / home / hadoop / hadoopdata / hdfs / namenode / current / fsimage.CKPT_0000000000000000000 Utilisation de non-compression 2018-05-02 17: 52: 14,161 Info namenode.FsimageFormatProtobuf: fichier image / home / hadoop / hadoopdata / hdfs / namenode / current / fsimage.CKPT_0000000000000000000 de taille 391 octets enregistrés en 0 seconde . 2018-05-02 17: 52: 14 224 info namenode.NnstorageRetentionManager: aller conserver 1 images avec txid> = 0 2018-05-02 17: 52: 14,282 info namenode.Namenode: shutdown_msg: / ********************************************* *************** shutdown_msg: Arrêt Namenode à Tecadmin / 127.0.1.1 ************************************************* *********** / 

Étape 5 - Démarrer le cluster Hadoop

Commençons votre cluster Hadoop en utilisant les scripts fourni par Hadoop. Accédez simplement à votre répertoire $ hadoop_home / sbin et exécutez des scripts un par un.

cd $ hadoop_home / sbin / 

Exécuter maintenant start-dfs.shot scénario.

./ start-dfs.shot 

Puis exécuter démarrage.shot scénario.

./ start-yarn.shot 

Étape 6 - Accès aux services Hadoop dans le navigateur

Hadoop namenode a commencé sur le port par défaut 9870. Accédez à votre serveur sur le port 9870 dans votre navigateur Web préféré.

http: // svr1.técadmin.net: 9870 / 

Maintenant, accédez au port 8042 pour obtenir les informations sur le cluster et toutes les applications

http: // svr1.técadmin.net: 8042 / 

Port d'accès 9864 pour obtenir des détails sur votre nœud Hadoop.

http: // svr1.técadmin.net: 9864 / 

Étape 7 - Testez la configuration du nœud unique Hadoop

7.1. Faire les répertoires HDFS requis en utilisant les commandes suivantes.

bin / hdfs dfs -mkdir / utilisateur bin / hdfs dfs -mkdir / user / hadoop 

7.2. Copiez tous les fichiers du système de fichiers local / var / log / httpd au système de fichiers distribué hadoop à l'aide de la commande ci-dessous

bin / hdfs dfs -put / var / log / apache2 journaux 

7.3. Parcourir le système de fichiers distribué Hadoop en ouvrant sous URL dans le navigateur. Vous verrez un dossier Apache2 dans la liste. Cliquez sur le nom du dossier à ouvrir et vous y trouverez tous les fichiers de journal.

 http: // svr1.técadmin.Net: 9870 / Explorer.html # / user / hadoop / logs / 

7.4 - Copiez maintenant le répertoire des journaux pour le système de fichiers distribué Hadoop au système de fichiers local.

bin / hdfs dfs -get logs / tmp / logs ls -l / tmp / logs / 

Vous pouvez également vérifier ce tutoriel pour exécuter un exemple de travail WordCount MapReduce en utilisant la ligne de commande.