Introduction à Hadoop

Hadoop, qu'est-ce que c'est ?

Hadoop est donc une plateforme permettant d'établir un dialogue entre plusieurs machines d'un cluster. Ses objectifs sont de résoudre les deux principales problèmes de la manipulation de grandes quantités de données :

  • stocker ces données (limitation de la taille des disques dur)

  • rechercher rapidement dans ces données (limitation des puissances de calcul)

Pour résoudre ces deux problèmes, Hadoop se structure en deux principales couches :

  • HDFS : Hadoop Filesystem, un système de fichiers virtuel aggrégant le stockage de plusieurs machines d'un cluster

  • Hadoop MapReduce : un framework logiciel en Java permettant de développer des programmes exécutables de manière distribués grâce à l'utilisation de l'algorithme MapReduce développé par Google

https://www.supinfo.com/articles/single/2090-hadoop

Remarque

Comme vous l'aurez compris, utiliser Hadoop en dehors d'un cluster (sur une machine seule) n'a donc qu'un intérêt pédagogique. Nous allons faire ainsi aujourd'hui pour tester et expérimenter facilement, mais en réalité, vous utiliserez souvent plusieurs machines. Cependant, lorsque vous développerez des programmes pour Hadoop, vous utiliserez très probablement une version locale à un seul nœud (votre machine locale) pour travailler.

ComplémentHistorique

Hadoop a été créé en 2004 par Doug Cutting pour les besoins du projet Apache Nutch, un moteur de recherche open source. Hadoop se base alors sur les travaux de Google au niveau du GFS (Google's distributed filesystem) et de MapReduce pour l'analyse des données d'un système GFS. En 2006, Hadoop devient un sous-projet d'Apache Lucene et en 2008 un projet indépendant de la fondation Apache.

  1. https://www.supinfo.com/articles/single/2090-hadoop

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer Titouan Galopin, Bruno Da Silva, Stéphane Karagulmez, 2013-2017 (Contributions : Stéphane Crozat, les étudiants de l'UTC) Paternité - Partage des Conditions Initiales à l'IdentiqueRéalisé avec Scenari (nouvelle fenêtre)