Dans quel but utiliser HDFS ?
Définition :
HDFS est le système de fichiers distribué utilisé par le framework Hadoop. Celui-ci est :
Performant sur un matériel peu coûteux.
Permets des accès rapides, y compris sur de larges collections de données.
Conçu pour fonctionner sur une à plusieurs centaines de machines.
Fondamental :
HDFS est basé sur une architecture de type master/slave. Un cluster HDFS est constitué de :
Un unique NameNode qui va servir de serveur maître et manager les accès fichiers des clients. Il exécute des opérations comme l'ouverture, la fermeture et le renommage de fichiers ou de répertoires.
Un ou plusieurs DataNodes qui vont se charger d'héberger les fichiers. Ce sont eux qui vont permettre ou non, en fonction des instructions du NameNode, l'écriture ou la lecture des fichiers par les clients.
Source : http://hadoop.apache.org/