Comment configurer le cluster Hadoop Multi-Node sur CentOS 7/6

Comment configurer le cluster Hadoop Multi-Node sur CentOS 7/6

La bibliothèque logicielle Apache Hadoop est un cadre qui permet le traitement distribué de grands ensembles de données sur des grappes d'ordinateurs à l'aide de modèles de programmation simples.

Notre article précédent sur Hadoop était décrit à la configuration de la configuration du cluster de nœuds uniques. Cet article vous aidera pour l'installation étape par étape et la configuration du cluster Multi-Node Hadoop sur Centos / Rhel 6.

Détails de la configuration:

Hadoop Master: 192.168.1.15 (Hadoop-Master)
Slave Hadoop: 192.168.1.16 (Hadoop-Slave-1)
Slave Hadoop: 192.168.1.17 (Hadoop-Slave-2)

Étape 1. Installer Java

Avant d'installer Hadoop, assurez-vous que Java soit installé sur tous les nœuds de systèmes de cluster Hadoop.

# Java -Version Java Version "1.7.0_75 "Java (TM) SE Environnement d'exécution (Build 1.7.0_75-b13) Java Hotspot (TM) VM du serveur 64 bits (build 24.75-b04, mode mixte) 

Si vous n'avez pas installé Java, utilisez l'article suivant pour installer Java.

Étapes pour installer Java 7 sur Centos / Rhel 7/6/5

Étape 2. Créer un compte d'utilisateur

Créer un compte d'utilisateur système sur les systèmes maître et esclaves à utiliser pour l'installation de Hadoop

# useradd hadoop # passwd hadoop 
Modification du mot de passe pour l'utilisateur Hadoop. Nouveau mot de passe: Retyper le nouveau mot de passe: PASSWD: Tous les jetons d'authentification mis à jour avec succès. 

Étape 3: Ajouter un mappage FQDN

Modifier / etc / hôtes fichier sur tous les serveurs maître et esclaves et ajouter les entrées suivantes.

# vim / etc / hôtes 
192.168.1.15 Hadoop-Master 192.168.1.16 Hadoop-Slave-1 192.168.1.17 Hadoop-Slave-2 

Étape 4. Configuration de la connexion basée sur la clé

Il est nécessaire de configurer l'utilisateur de Hadoop pour SSH lui-même sans mot de passe. Utilisez les commandes suivantes pour configurer la connexion automatique entre tous les serveurs de cluster Hadoop…

# su - hadoop $ ssh-keygen -t rsa $ ssh-copy-id -i ~ /.ssh / id_rsa.Pub [Protégé par e-mail] $ ssh-copy-id -i ~ /.ssh / id_rsa.Pub [Protégé par e-mail] $ ssh-copy-id -i ~ /.ssh / id_rsa.Pub [Protégé par e-mail] $ Chmod 0600 ~ /.ssh / autorisé_keys $ exit 

Étape 5. Télécharger et extraire la source Hadoop

Téléchargez la dernière version disponible de Hadoop sur son site officiel de Hadoop-Master Server uniquement.

# mkdir / opt / hadoop # cd / opt / hadoop / # wget http: // apache.Mesi.com.AR / Hadoop / Common / Hadoop-1.2.0 / Hadoop-1.2.0.le goudron.GZ # TAR -XZF HADOOP-1.2.0.le goudron.gz # mv hadoop-1.2.0 Hadoop # chown -r hadoop / opt / hadoop # cd / opt / hadoop / hadoop / 

Étape 6: Configurer Hadoop

Modifiez d'abord les fichiers de configuration Hadoop et apportez les modifications suivantes.
6.1 Modifier le site core.xml

# vim conf / noyau-site.xml 
#Add ce qui suit à l'intérieur de la balise de configuration FS.défaut.Nom HDFS: // Hadoop-Master: 9000 / DFS.Permissions fausses  

6.2 Modifier le site HDFS.xml

# vim conf / hdfs-site.xml 
# Ajouter ce qui suit à l'intérieur de la balise de configuration DFS.données.dir / opt / hadoop / hadoop / dfs / name / data true dfs.nom.dir / opt / hadoop / hadoop / dfs / nom true dfs.réplication 1  

6.3 Modifier le site Mapred.xml

# vim conf / mapred site.xml 
# Ajouter ce qui suit à l'intérieur de la balise de configuration Mapred.emploi.Tracker Hadoop-Master: 9001  

6.4 Modifier Hadoop-env.shot

# vim conf / hadoop-env.shot 
exporter java_home = / opt / jdk1.7.0_75 Export Hadoop_opts = -djava.filet.PreferIPv4Stack = True Export Hadoop_Conf_Dir = / Opt / Hadoop / Hadoop / Conf 

Définissez le chemin Java_Home selon la configuration de votre système pour Java.

Étape 7: Copiez la source de Hadoop aux serveurs esclaves

Après la mise à jour de la configuration ci-dessus, nous devons copier les fichiers source dans tous les serveurs esclaves.

# su - hadoop $ cd / opt / hadoop $ scp -r hadoop hadoop-slave-1: / opt / hadoop $ scp -r hadoop hadoop-slave-2: / opt / hadoop 

Étape 8: Configurez Hadoop sur Master Server uniquement

Allez dans le dossier Hadoop Source sur Hadoop-Master et faites des paramètres suivants.

# Su - Hadoop $ CD / Opt / Hadoop / Hadoop 
$ vim conf / Masters hadoop-macher 
$ vim conf / esclaves Hadoop-Slave-1 Hadoop-Slave-2 

Nœud de nom de format sur Hadoop Master uniquement

# Su - Hadoop $ CD / Opt / Hadoop / Hadoop $ bin / hadoop namenode -format 
13/07/13 10:58:07 Info Namenode.Namenode: startup_msg: / ********************************************* *************** startup_msg: Démarrage de NameNode startup_msg: host = hadoop-master / 192.168.1.15 startup_msg: args = [-format] startup_msg: version = 1.2.0 startup_msg: build = https: // svn.apache.org / repos / asf / hadoop / commun / branches / branche-1.2 -R 1479473; Compilé par 'Hortonfo' le lun le 6 mai 06:59:37 UTC 2013 startup_msg: java = 1.7.0_25 *************************************************** *********** / 13/07/13 10:58:08 Info Util.GSET: Capacité informatique pour les blocs de carte 13/07/13 10:58:08 Info Util.GSET: Type de machine virtuelle = 32 bits 13/07/13 10:58:08 Info Util.GSET: 2.0% max mémoire = 1013645312 13/07/13 10:58:08 Info util.GSET: Capacité = 2 ^ 22 = 4194304 Entrées 13/07/13 10:58:08 Info Util.GSET: Recommandé = 4194304, réel = 4194304 13/07/13 10:58:08 Info namenode.FsNamesystem: fsowner = hadoop 13/07/13 10:58:08 info namenode.FsNamesystem: SuperGroup = SuperGroup 13/07/13 10:58:08 Info namenode.FsNamesystem: IspermisessionAableable = True 13/07/13 10:58:08 Info namenode.FsNamesystem: DFS.bloc.invalider.Limite = 100 13/07/13 10:58:08 Info namenode.FsNamesystem: iSaccessTokenNabled = false accessKeyUpDateInterval = 0 min (s), AccessTokenLifEtime = 0 min (s) 13/07/13 10:58:08 Info nameNode.Fseditlog: DFS.namenode.modification.tolérance.Longueur = 0 13/07/13 10:58:08 Info namenode.NameNode: noms de fichiers de mise en cache provenant de plus de 10 fois 13/07/13 10:58:08 Info Commun.Stockage: fichier image de taille 112 enregistré en 0 seconde. 13/07/13 10:58:08 Info namenode.FSEDITLOG: Clôture du journal d'édition: position = 4, editlog = / opt / hadoop / hadoop / dfs / name / current / edits 13/07/13 10:58:08 info nameNode.Fseditlog: Certes étroite: tronquée à 4, editlog = / opt / hadoop / hadoop / dfs / nom / actuel / edits 13/07/13 10:58:08 Info Common.Stockage: le répertoire de stockage / OPT / HADOOP / HADOOP / DFS / NAME a été formaté avec succès. 13/07/13 10:58:08 Info namenode.Namenode: shutdown_msg: / ********************************************* *************** shutdown_msg: Arrêt Namenode à Hadoop-Master / 192.168.1.15 *************************************************** *********** / 

Étape 9: Démarrez les services Hadoop

Utilisez la commande suivante pour démarrer tous les services Hadoop sur Hadoop-Master

$ bin / start-all.shot