Page d'accueil
Ubuntu 18.04
Comment installer Hadoop sur Ubuntu 18.04 Bionic Beaver Linux

Ubuntu 18.04

Comment installer Hadoop sur Ubuntu 18.04 Bionic Beaver Linux

3230
100
Noa Faure

Apache Hadoop est un cadre open source utilisé pour le stockage distribué ainsi que le traitement distribué des mégadonnées sur des clusters d'ordinateurs qui s'exécutent sur des marchandises de marchandises. Hadoop stocke les données dans le système de fichiers distribué Hadoop (HDFS) et le traitement de ces données est effectué à l'aide de MapReduce. YARN fournit une API pour demander et allouer des ressources dans le cluster Hadoop.

Le cadre Apache Hadoop est composé des modules suivants:

Hadoop commun
Système de fichiers distribué Hadoop (HDFS)
FIL
Mapreduce

Cet article explique comment installer Hadoop Version 2 sur Ubuntu 18.04. Nous installerons HDFS (Namenode et Datanode), le fil, MapReduce sur le cluster de nœuds unique en mode pseudo distribué qui est distribué de simulation sur une seule machine. Chaque démon Hadoop tel que HDFS, fil, MapReduce, etc. fonctionnera comme un processus Java séparé / individuel.

Dans ce tutoriel, vous apprendrez:

Comment ajouter des utilisateurs pour un environnement Hadoop
Comment installer et configurer l'Oracle JDK
Comment configurer SSH sans mot de passe
Comment installer Hadoop et configurer les fichiers XML liés nécessaires
Comment démarrer le cluster Hadoop
Comment accéder à Namenode et à ResourceManager Web UI

Interface utilisateur Web Nameode.

Exigences et conventions logicielles utilisées

Exigences logicielles et conventions de ligne de commande Linux

Catégorie	Exigences, conventions ou version logicielle utilisée
Système	Ubuntu 18.04
Logiciel	Hadoop 2.8.5, Oracle JDK 1.8
Autre	Accès privilégié à votre système Linux en tant que racine ou via le `Sudo` commande.
Conventions	# - Exige que les commandes Linux soient exécutées avec des privilèges racine soit directement en tant qu'utilisateur racine, soit par l'utilisation de `Sudo` commande $ - Exige que les commandes Linux soient exécutées en tant qu'utilisateur non privilégié régulier

Autres versions de ce tutoriel

Ubuntu 20.04 (Focal Fossa)

Ajouter des utilisateurs pour l'environnement Hadoop

Créez le nouvel utilisateur et le nouvel groupe à l'aide de la commande:

# Ajouter l'utilisateur

Ajouter un nouvel utilisateur pour Hadoop.

Installer et configurer l'Oracle JDK

Télécharger et extraire les archives Java sous le /opter annuaire.

# CD / OPT # TAR -XZVF JDK-8U192-LINUX-X64.le goudron.gz

$ TAR -XZVF JDK-8U192-LINUX-X64.le goudron.gz -c / opt

Pour définir le JDK 1.8 MISE À JOUR 192 En tant que JVM par défaut, nous utiliserons les commandes suivantes:

# Mise à jour-alternatifs - install / usr / bin / java java / opt / jdk1.8.0_192 / bin / java 100 # mise à jour-alternatifs - install / usr / bin / javac javac / opt / jdk1.8.0_192 / bin / javac 100

Après l'installation pour vérifier que le java a été configuré avec succès, exécutez les commandes suivantes:

# Update-Alteratives - Display Java # Update-Alteratives - Display Javac

Installation et configuration d'OracleJDK.

Configurer SSH sans mot de passe

Installez le serveur SSH ouvert et ouvrez le client SSH avec la commande:

# sudo apt-get install openssh-server openssh-client

Générer des paires de clés publiques et privées avec la commande suivante. Le terminal incitera à saisir le nom du fichier. Presse ENTRER et procéder. Après cette copie, le formulaire de clés publics id_rsa.pub pour autorisé_keys.

$ ssh-keygen -t rsa $ cat ~ /.ssh / id_rsa.pub >> ~ /.SSH / AUTORISED_KEYS

Configuration SSH sans mot de passe.

Vérifiez la configuration SSH sans mot de passe avec la commande:

$ ssh localhost

Vérification SSH sans mot de passe.

Installez Hadoop et configurez les fichiers XML connexes

Télécharger et extraire Hadoop 2.8.5 du site officiel Apache.

# TAR -XZVF HADOOP-2.8.5.le goudron.gz

Configuration des variables d'environnement

Modifier le bashrc Pour l'utilisateur Hadoop via la configuration des variables d'environnement Hadoop suivantes:

exporter hadoop_home = / home / hadoop / hadoop-2.8.5 export hadoop_install = $ hadoop_home export hadoop_mapred_home = $ hadoop_home export hadoop_common_home = $ hadoop_home export hadoop_hdfs_home = $ hadoop_home export yarn_home = $ hadoop_home export hadoop_common_lib_native exporter hadoop_opts = "- djava.bibliothèque.path = $ hadoop_home / lib / natif "

Copie

Source le .bashrc Dans la session de connexion actuelle.

$ source ~ /.bashrc

Modifier le Hadoop-env.shot fichier qui est dans / etc / hadoop À l'intérieur du répertoire d'installation de Hadoop et effectuez les modifications suivantes et vérifiez si vous souhaitez modifier d'autres configurations.

exporter java_home = / opt / jdk1.8.0_192 export hadoop_conf_dir = $ hadoop_conf_dir: - "/ home / hadoop / hadoop-2.8.5 / etc / hadoop "

Copie

Changements dans Hadoop-env.fichier SH.

Modifications de configuration dans le site core.fichier xml

Modifier le site de base.xml avec VIM ou vous pouvez utiliser l'un des éditeurs. Le fichier est sous / etc / hadoop à l'intérieur hadoop Répertoire d'accueil et ajouter les entrées suivantes.

  FS.defaultfs hdfs: // localhost: 9000   hadoop.TMP.diron / home / hadoop / hadooptmpdata

Copie

De plus, créez le répertoire sous hadoop dossier à domicile.

$ mkdir hadooptmpdata

Configuration du site core.fichier xml.

Modifications de configuration dans le site HDFS.fichier xml

Modifier le site HDFS.xml qui est présent sous le même endroit que je.e / etc / hadoop à l'intérieur hadoop Répertoire d'installation et créez le Namenode / Datanode répertoires sous hadoop répertoire de la maison utilisateur.

$ mkdir -p hdfs / namenode $ mkdir -p hdfs / datanode

  DFS.réplication 1 DFS.nom.diron fichier: /// home / hadoop / hdfs / namenode DFS.données.diron fichier: /// home / hadoop / hdfs / datanode

Copie

Configuration pour le site HDFS.fichier xml.

Modifications de configuration dans le site mapred.fichier xml

Copier le site mapred.xml depuis site mapred.xml.modèle en utilisant CP commande puis modifier le site mapred.xml placé dans / etc / hadoop sous hadoop Répertoire d'instillation avec les modifications suivantes.

$ cp mapred site.xml.modèle de site mapred.xml

Création du nouveau site Mapred.fichier xml.

  mapreduce.cadre.nom fil

Copie

Configuration du site mapred.fichier xml.

Modifications de configuration dans le site de fil.fichier xml

Modifier Site de fil.xml avec les entrées suivantes.

  mapreduceyarn.nodemanager.services aux auxiliaires MapReduce_Shuffle

Copie

Configuration pour le site de fil.fichier xml.

Démarrer le cluster Hadoop

Formatez le namenode avant de l'utiliser pour la première fois. Au fur et à mesure que l'utilisateur HDFS exécute la commande ci-dessous pour formater le namenode.

$ hdfs namenode -format

Formater le namenode.

Une fois le namenode formaté, démarrez les HDF en utilisant le start-dfs.shot scénario.

Démarrage du script de démarrage DFS pour démarrer HDFS.

Pour démarrer les services de fil, vous avez besoin pour exécuter le script de démarrage du fil I.e. démarrage.shot

Démarrage du script de démarrage du fil pour démarrer le fil.

Pour vérifier que tous les services / daémons Hadoop sont lancés avec succès, vous pouvez utiliser le JPS commande.

/ opt / jdk1.8.0_192 / bin / JPS 20035 SecondaryNameNode 19782 Datanode 21671 JPS 20343 Nodemanager 19625 NameNode 20187 ResourceManager

Copie

Hadoop Daemons Sortie de la commande JPS.

Maintenant, nous pouvons vérifier la version Hadoop actuelle que vous pouvez utiliser ci-dessous la commande:

$ Hadoop Version

Version HDFS $

Vérifiez la version Hadoop.

Interface de ligne de commande HDFS

Pour accéder au HDFS et créer des répertoires en haut de DFS, vous pouvez utiliser HDFS CLI.

$ hdfs dfs -mkdir / test $ hdfs dfs -mkdir / hadooponubuntu $ hdfs dfs -ls /

Création du répertoire HDFS utilisant HDFS CLI.

Accéder au Namenode et au fil du navigateur

Vous pouvez accéder à la fois sur l'interface utilisateur Web pour Namenode et le gestionnaire de ressources de Yarn via l'un des navigateurs comme Google Chrome / Mozilla Firefox.

Namenode Web UI - http: //: 50070

Interface utilisateur Web Nameode.

Détails HDFS de l'interface utilisateur Web Nameode.

Répertoire HDFS naviguant via l'interface utilisateur Web Nameode.

L'interface Web de gestion des ressources de Yarn (RM) affichera tous les travaux en cours d'exécution sur le cluster Hadoop actuel.

Interface utilisateur du gestionnaire de ressources - http: //: 8088

Interface utilisateur Web du gestionnaire de ressources.

Conclusion

Le monde change la façon dont il fonctionne actuellement et les grosses données jouent un rôle majeur dans cette phase. Hadoop est un cadre qui facilite notre LIF tout en travaillant sur de grands ensembles de données. Il y a des améliorations sur tous les fronts. L'avenir est excitant.

Tutoriels Linux connexes:

Ubuntu 20.04 Hadoop
Choses à installer sur Ubuntu 20.04
Comment créer un cluster Kubernetes
Comment installer Kubernetes sur Ubuntu 20.04 Focal Fossa Linux
Choses à faire après l'installation d'Ubuntu 20.04 Focal Fossa Linux
Comment installer Kubernetes sur Ubuntu 22.04 Jammy Jellyfish…
Choses à installer sur Ubuntu 22.04
Comment travailler avec l'API WooCommerce REST avec Python
Comment gérer les grappes de Kubernetes avec Kubectl
Une introduction à l'automatisation Linux, des outils et des techniques

Comment installer Hadoop sur Ubuntu 18.04 Bionic Beaver Linux

Exigences et conventions logicielles utilisées

Autres versions de ce tutoriel

Ajouter des utilisateurs pour l'environnement Hadoop

Installer et configurer l'Oracle JDK

Configurer SSH sans mot de passe

Installez Hadoop et configurez les fichiers XML connexes

Configuration des variables d'environnement

Modifications de configuration dans le site core.fichier xml

Modifications de configuration dans le site HDFS.fichier xml

Modifications de configuration dans le site mapred.fichier xml

Modifications de configuration dans le site de fil.fichier xml

Démarrer le cluster Hadoop

Interface de ligne de commande HDFS

Accéder au Namenode et au fil du navigateur

Conclusion

Tutoriels Linux connexes:

Meilleurs articles

Comment exécuter des applications angulaires en utilisant Angular CLI et PM2

Nous allons vous montrer comment exécuter des applications angulaires en utilisant le nœud Angular C...

Meilleur lecteur de radio Internet open source pour Linux

Si vous êtes un chef de radio qui utilise Linux, les options sont les meilleurs candidats qui satisf...