Configuration d'un cluster
Fondamental :
La configuration de HDFS entre les différents clusters s'effectue via différents fichiers de configuration présents dans le répertoire etc d'Hadoop :
Le fichier core-site.xml qui va permettre d'indiquer l'host et le port du système de fichier HDFS.
1
2
3
<configuration>
4
<property>
5
<name>fs.default.name</name>
6
<value>hdfs://master.local:9000</value>
7
<description>The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation.</description>
8
</property>
9
</configuration>
10
Le fichier hdfs-site.xml qui configure où le NameNode va stocker l'historique des transactions et où les DataNode vont stocker leurs blocks. C'est également ici où le coefficient de réplication est configuré.
1
2
3
<configuration>
4
<property>
5
<name>dfs.replication</name>
6
<value>3</value>
7
<description>The actual number of replications can be specified when the file is created.</description>
8
</property>
9
<property>
10
<name>dfs.data.dir</name>
11
<value>/srv/hadoop/datanode</value>
12
</property>
13
<property>
14
<name>dfs.name.dir</name>
15
<value>/srv/hadoop/namenode</value>
16
</property>
17
</configuration>
18
Une fois cette configuration répartie sur les différents noeuds, ces derniers seront en mesure de communiquer ensemble.