Comment installer le cluster de nœuds unique Hadoop (pseudonode) sur Centos 7

Comment installer le cluster de nœuds unique Hadoop (pseudonode) sur Centos 7

Hadoop est un cadre open source qui est largement utilisé pour gérer Big Data. La plupart Bigdata / Data Analytics Des projets sont construits sur le dessus du Hadoop Eco-System. Il se compose de deux couches, l'une est pour Stocker des données Et un autre est pour Données en cours.

Stockage sera pris en charge par son propre système de fichiers appelé HDFS (Système de fichiers distribué Hadoop) et Traitement sera pris en charge par FIL (Encore un autre négociateur de ressources). Mapreduce est le moteur de traitement par défaut du Hadoop Eco-System.

Cet article décrit le processus pour installer le Pseudonode installation de Hadoop, où tous les démons (Jvms) fonctionnera Nœud unique Se regrouper Centos 7.

C'est principalement pour les débutants d'apprendre Hadoop. En temps réel, Hadoop sera installé en tant que cluster multinode où les données seront distribuées entre les serveurs sous forme de blocs et le travail sera exécuté de manière parallèle.

Conditions préalables

  • Une installation minimale du serveur CentOS 7.
  • Java v1.8 libération.
  • Hadoop 2.x version stable.

Sur cette page

  • Comment installer Java sur Centos 7
  • Configurer la connexion sans mot de passe sur Centos 7
  • Comment installer un nœud unique Hadoop dans Centos 7
  • Comment configurer Hadoop dans Centos 7
  • Formatage du système de fichiers HDFS via le namenode

Installation de Java sur Centos 7

1. Hadoop est un écosystème qui est composé de Java. Nous avons besoin Java installé dans notre système obligatoirement pour installer Hadoop.

# yum install java-1.8.0-openjdk 

2. Ensuite, vérifiez la version installée de Java sur le système.

# Java -Version 
Vérifiez votre version de Java

Configurer la connexion sans mot de passe sur Centos 7

Nous devons avoir configuré SSH dans notre machine, Hadoop Gérera les nœuds avec l'utilisation de Ssh. Utilisation du nœud maître Ssh Connexion pour connecter ses nœuds esclaves et effectuer un fonctionnement comme Start and Stop.

Nous devons configurer SSH sans mot de passe afin que le maître puisse communiquer avec des esclaves à l'aide de SSH sans mot de passe. Sinon pour chaque établissement de connexion, il faut saisir le mot de passe.

Dans ce nœud unique, Maître prestations de service (Namenode, Namenode secondaire & Gestionnaire de ressources) et Esclave prestations de service (Code de données & Nodemanager) fonctionnera comme séparé Jvms. Même s'il s'agit du nœud Singe, nous devons avoir un SSH sans mot de passe pour faire Maître communiquer Esclave sans authentification.

3. Configurez une connexion SSH sans mot de passe en utilisant les commandes suivantes sur le serveur.

# ssh-keygen # ssh-copy-id -i localhost 
Créer SSH Keygen dans Centos 7 Copier la clé SSH à Centos 7

4. Après avoir configuré la connexion SSH sans mot de passe, essayez de vous connecter à nouveau, vous serez connecté sans mot de passe.

# ssh localhost 
Connexion sans mot de passe SSH à Centos 7

Installation de Hadoop dans Centos 7

5. Allez sur le site Web d'Apache Hadoop et téléchargez la version stable de Hadoop en utilisant la commande wget suivante.

# wget https: // archive.apache.org / dist / hadoop / core / hadoop-2.dix.1 / Hadoop-2.dix.1.le goudron.GZ # TAR XVPZF HADOOP-2.dix.1.le goudron.gz 

6. Ensuite, ajoutez le Hadoop Variables d'environnement dans ~ /.bashrc fichier comme indiqué.

Hadoop_prefix = / root / hadoop-2.dix.1 chemin = $ chemin: $ hadoop_prefix / bin Export Path java_home hadoop_prefix 

7. Après avoir ajouté des variables d'environnement à ~ /.bashrc le fichier, achetez le fichier et vérifiez le hadoop en exécutant les commandes suivantes.

# source ~ /.bashrc # cd $ hadoop_prefix # bin / hadoop version 
Vérifiez la version Hadoop dans Centos 7

Configuration de Hadoop dans Centos 7

Nous devons configurer les fichiers de configuration Hadoop ci-dessous afin de s'intégrer dans votre machine. Dans Hadoop, Chaque service a son propre numéro de port et son propre répertoire pour stocker les données.

  • Fichiers de configuration de Hadoop - Site core.XML, site HDFS.XML, site mapred.XML et site en fil.xml

8. Tout d'abord, nous devons mettre à jour Java_home et Hadoop chemin dans le Hadoop-env.shot fichier comme indiqué.

# cd $ hadoop_prefix / etc / hadoop # vi hadoop-env.shot 

Entrez la ligne suivante au début du fichier.

exporter java_home = / usr / lib / jvm / java-1.8.0 / jre export hadoop_prefix = / root / hadoop-2.dix.1 

9. Ensuite, modifiez le site de base.xml déposer.

# cd $ hadoop_prefix / etc / hadoop # vi-site de base.xml 

Coller le suivi entre Tags comme indiqué.

  FS.defaultfs hdfs: // localhost: 9000   

dix. Créer les répertoires ci-dessous sous Tecmint Répertoire de la maison utilisateur, qui sera utilisé pour Nn et DN stockage.

# mkdir -p / home / tecmint / hdata / # mkdir -p / home / tecmint / hdata / data # mkdir -p / home / tecmint / hdata / nom 

dix. Ensuite, modifiez le site HDFS.xml déposer.

# cd $ hadoop_prefix / etc / hadoop # vi HDFS-site.xml 

Coller le suivi entre Tags comme indiqué.

  DFS.réplication 1 DFS.namenode.nom.dir / home / tecmint / hdata / nom dfs .code de données.données.dir home / tecmint / hdata / data   

11. Encore une fois, modifiez le site mapred.xml déposer.

# cd $ hadoop_prefix / etc / hadoop # cp mapred site.xml.modèle de site mapred.XML # VI Mapred-site.xml 

Coller le suivi entre Tags comme indiqué.

  mapreduce.cadre.Nommez le fil   

12. Enfin, modifiez le Site de fil.xml déposer.

# cd $ hadoop_prefix / etc / hadoop # vi-site yarn.xml 

Coller le suivi entre Tags comme indiqué.

  fil.nodemanager.Aux-Services MapReduce_Shuffle   

Formatage du système de fichiers HDFS via le namenode

13. Avant de commencer le Grappe, Nous devons formater le Hadoop nn dans notre système local où il a été installé. Habituellement, cela se fera au stade initial avant de démarrer le cluster la première fois.

Formatage le Nn provoquera une perte de données dans NN Metastore, nous devons donc être plus prudents, nous ne devons pas formater Nn Pendant que le cluster s'exécute à moins qu'il ne soit requis intentionnellement.

# cd $ hadoop_prefix # bin / hadoop namenode -format 
Format Système de fichiers HDFS

14. Commencer Namenode démon et Code de données démon: (port 50070).

# cd $ hadoop_prefix # sbin / start-dfs.shot 
Démarrer le démon NameNode et Datanode

15. Commencer Gestionnaire de ressources démon et Nodemanager démon: (port 8088).

# sbin / start-yarn.shot 
Démarrer ResourceManager et Nodemanager Daemon

16. Pour arrêter tous les services.

# sbin / stop-dfs.sh # sbin / stop-dfs.shot 
Résumé

Résumé
Dans cet article, nous avons suivi le processus étape par étape pour configurer Pseudonode hadoop (Nœud unique) Grappe. Si vous avez des connaissances de base de Linux et suivez ces étapes, le cluster sera en place dans 40 minutes.

Cela peut être très utile pour que le débutant commence à apprendre et à pratiquer Hadoop ou cette version vanille de Hadoop peut être utilisé à des fins de développement. Si nous voulons avoir un cluster en temps réel, soit nous avons besoin d'au moins 3 serveurs physiques en main, soit de provisionner le cloud pour avoir plusieurs serveurs.