Introduction à Hadoop

Lancer Hadoop

RemarquePré-requis

Vous devez avoir installé Hadoop pour pouvoir réaliser cette partie et les suivantes. Suivez la documentation d'installation si vous ne l'avez pas déjà fait (première partie de ce cours).

Architecture des dossiers

Avant de commencer à utiliser Hadoop, regardons rapidement l'architecture de dossiers que nous venons de télécharger :

Trois dossiers nous intéressent tout particulièrement ici :

  • bin contient le "client" Hadoop : une fois notre cluster lancé (soit à distance soit en local), nous utiliserons les exécutables de ce dossier pour interagir avec le cluster

  • sbin contient le "serveur" Hadoop : c'est cette partie que nous allons utiliser pour mettre en place un serveur local Hadoop

  • etc contient la configuration à la fois du client et du serveur et sera l'endroit que vous modifierez pour adapter Hadoop à vos besoins

Les autres dossiers sont liés à l'architecture interne d'Hadoop, aux logs ou au librairies partagées. Ils sont nécessaires mais en tant qu'utilisateur, vous ne le modifierez probablement pas.

Vérifier votre installation Hadoop

Pour interagir avec Hadoop, nous allons utiliser le client : bin/hadoop. Allez dans le dossier Hadoop que vous avez téléchargé et lancez la commande suivante pour vérifier qu'il fonctionne correctement (vous devriez obtenir une aide comme celle-ci) :

1
$ cd /dossier/vers/votre/hadoop
2
$ ./bin/hadoop
3
4
Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
5
  CLASSNAME            run the class named CLASSNAME
6
 or
7
  where COMMAND is one of:
8
  fs                   run a generic filesystem user client
9
  version              print the version
10
  jar <jar>            run a jar file
11
                       note: please use "yarn jar" to launch
12
                             YARN applications, not this command.
13
  checknative [-a|-h]  check native hadoop and compression libraries availability
14
  distcp <srcurl> <desturl> copy file or directories recursively
15
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
16
  classpath            prints the class path needed to get the
17
  credential           interact with credential providers
18
                       Hadoop jar and the required libraries
19
  daemonlog            get/set the log level for each daemon
20
  trace                view and modify Hadoop tracing settings
21
22
Most commands print help when invoked w/o parameters.

Les deux commandes importantes qui nous intéressent dans ce cours seront :

  • bin/hadoop fs qui va nous permettre d'interagir avec HDFS

  • bin/hadoop jar qui va nous permettre de lancer des programmes MapReduce

Les modes de fonctionnement Hadoop

Hadoop peut être lancé de trois façons différentes selon l'endroit et le contexte d'exécution :

  • en mode Standalone, c'est-à-dire dans un seul processus Java

  • en mode Pseudo-ditribué, c'est-à-dire dans plusieurs processus Java différents mais sur une seule machine

  • en mode Distribué, c'est-à-dire sur un vrai cluster de machines

Les deux premiers modes sont généralement utilisés pour le développement là où le troisième est dédié à la production.

Lancer Hadoop en mode standalone

Dans le cas du mode Standalone, le client Hadoop créé de lui-même le contexte simulant un serveur en utilisant les ressources du système de fichier local et du processeur de la machine. Cela permet donc de très rapidement tester des fonctionnalités.

Par exemple, pour lister le contenu du dossier actuel, nous pouvons utiliser la commande bin/hadoop fs -ls :

1
$ cd /dossier/vers/votre/hadoop
2
$ ./bin/hadoop fs -ls
3
Found 12 items
4
-rw-r--r--   1 tgalopin tgalopin      84854 2016-08-18 03:49 LICENSE.txt
5
-rw-r--r--   1 tgalopin tgalopin      14978 2016-08-18 03:49 NOTICE.txt
6
-rw-r--r--   1 tgalopin tgalopin       1366 2016-08-18 03:49 README.txt
7
-rw-r--r--   1 tgalopin tgalopin       1366 2017-01-10 23:27 README_HDFS.txt
8
drwxr-xr-x   - tgalopin tgalopin       4096 2016-08-18 03:49 bin
9
drwxr-xr-x   - tgalopin tgalopin       4096 2016-08-18 03:49 etc
10
drwxr-xr-x   - tgalopin tgalopin       4096 2016-08-18 03:49 include
11
drwxr-xr-x   - tgalopin tgalopin       4096 2016-08-18 03:49 lib
12
drwxr-xr-x   - tgalopin tgalopin       4096 2016-08-18 03:49 libexec
13
drwxrwxr-x   - tgalopin tgalopin       4096 2017-01-14 17:53 logs
14
drwxr-xr-x   - tgalopin tgalopin       4096 2016-08-18 03:49 sbin
15
drwxr-xr-x   - tgalopin tgalopin       4096 2016-08-18 03:49 share

Lancer Hadoop en mode pseudo-distribué/distribué

Le mode distribué sera abordé dans la deuxième présentation sur Hadoop, je ne vais donc pas beaucoup en parler ici.

  1. Titouan Galopin

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer Titouan Galopin, Bruno Da Silva, Stéphane Karagulmez, 2013-2017 (Contributions : Stéphane Crozat, les étudiants de l'UTC) Paternité - Partage des Conditions Initiales à l'IdentiqueRéalisé avec Scenari (nouvelle fenêtre)