Création du répertoire dans HDFS et Copy Files (Hadoop)

Création du répertoire dans HDFS et Copy Files (Hadoop)

HDFS est le Système de fichiers distribué Hadoop. Il s'agit d'un système de stockage distribué pour de grands ensembles de données qui prend en charge la tolérance aux défauts, le débit élevé et l'évolutivité. Il fonctionne en divisant les données en blocs reproduits sur plusieurs machines dans un cluster. Les blocs peuvent être écrits ou lus en parallèle, facilitant le débit élevé et la tolérance aux défauts. HDFS fournit une redondance de type RAID avec un basculement automatique. HDFS prend également en charge la compression, la réplication et le cryptage.

Le cas d'utilisation le plus courant pour HDFS est le stockage de grandes collections de données telles que des fichiers d'image et vidéo, des journaux, des données de capteur, etc.

Création d'une structure d'annuaire avec HDFS

L'utilitaire de ligne de commande «HDFS» est disponible sous $ Hadoop_home / bin annuaire. En supposant que le répertoire de bac Hadoop est déjà inclus dans CHEMIN variable d'environnement. Maintenant, connectez-vous en tant qu'utilisateur de Hadoop et suivez les instructions.

  1. Créer un /données Répertoire dans le système de fichiers HDFS. Je suis prêt à utiliser ce répertoire pour contenir toutes les données des applications.
    HDFS DFS -MKDIR / DATA  
  2. Créer un autre répertoire / var / log, qui contient tous les fichiers journaux. Comme le répertoire / var n'existe pas non plus, utilisez -p Pour créer également un répertoire parent.
    hdfs dfs -mkdir -p / var / log  
  3. Vous pouvez également utiliser des variables pendant la création du répertoire. Par exemple, créer un répertoire avec le même nom que l'utilisateur actuellement enregistré. Ce répertoire peut être utilisé pour contenir les données de l'utilisateur.
    HDFS DFS -MKDIR -P / Utilisateurs / $  

Modification des autorisations de fichiers avec HDFS

Vous pouvez également modifier la propriété des fichiers ainsi que l'autorisation du système de fichiers HDFS.

  • Pour modifier le propriétaire du fichier et le propriétaire du groupe, utilisez le -chown Option de ligne de commande:
    HDFS DFS -CHOWN -R $ HADOOP_USER: $ HADOOP_USER / USERS / HADOOP  
  • Pour modifier l'autorisation du fichier Utilisez le -chod Options de ligne de commande.
    HDFS DFS -CHMOD -R 775 / utilisateurs / Hadoop 

Copie de fichiers sur HDFS

Le HDFS la commande fournit -obtenir et -mettre Paramètres pour copier des fichiers vers / depuis le système de fichiers HDFS.

  • Par exemple, pour copier un seul fichier du système de fichiers local à HDFS:
    HDFS DFS -PUT ~ / TestFile.txt / var / log /  
  • Copiez plusieurs fichiers comme le répertoire à l'aide des caractères génériques.
    hdfs dfs -put ~ / log / * / var / log /  

Listing des fichiers dans HDFS

En travaillant avec le cluster Hadoop, vous pouvez afficher des fichiers sous le système de fichiers HDFS via la ligne de commande ainsi que GUI.

  • Utilisez le -LS Option avec HDFS pour répertorier les fichiers dans le système de fichiers HDFS. Par exemple pour répertorier tous les fichiers du répertoire racine à utiliser:
    hdfs dfs -ls /  
  • La même commande peut également être utilisée pour répertorier les fichiers à partir de sous-répertoires.
    HDFS DFS -LS / utilisateurs / Hadoop  

    Vous devriez obtenir la sortie suivante:

    Liste des fichiers dans HDFS

  • Plutôt que la ligne de commande, Hadoop fournit également un explorateur graphique pour afficher, télécharger et télécharger facilement des fichiers. Parcourez le système de fichiers HDFS sur le port Namenode à l'URL suivante:

    http: // localhost: 9870 / explorateur.html

    Parcourir les fichiers dans HDFS

Conclusion

HDFS prend également en charge une gamme d'autres applications telles que les travaux MapReduce qui traitent de grands volumes de données ainsi que les mécanismes d'authentification et de contrôle des utilisateurs. Les HDF peuvent également être combinés avec d'autres systèmes de fichiers distribués comme S3 et Swift pour créer des solutions cloud hybrides qui combinent la haute disponibilité et la faible latence avec un stockage à faible coût.

Dans cet article, vous avez appris la création d'une structure de répertoire dans le système de fichiers HDFS, la modification des autorisations et la copie et la liste des fichiers avec HDFS.