Hadoop, Mapreduce principe en résumé (rien à voir avec Hadopi)
Rubriques: Bee-rain, Blog collaboratif
Hadoop est un ensemble de sous projets open source coordonnés par l’Apache Software Foundation.
Hadoop permet d’améliorer très nettement la rapidité des traitements en batch sur des volumes de données importants (on parle en Giga/Tera/Peta…) ; le principe étant d’implémenter un environnement d’exécution distribué.Pour mieux comprendre Hadoop, il faut expliquer le fonctionnement de MapReduce qui est le principal projet Hadoop. (MapReduce est un sous projet de Hadoop Common depuis juillet 2009).
Pour simplifier, MapReduce consiste à découper le traitement en 2 phases :
- la première phase (Map) est une étape d’ingestion et de transformation des données sous la forme de paires clé/valeur
- la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final
Prenons un exemple concret : Calculons le nombre d’occurences de chaque mots d’un fichier contenant le texte « Vita Corradini, mors Caroli, vita Caroli, mors Corradini ».
Chaque sous-processus (étape 2 et 3) calculent donc les occurences de manière autonome, et c’est la dernière étape « Reduce » qui va consolider les morceaux, obtenant ainsi les occurences globales.
Sources : http://hadoop.apache.org, Hadoop, une introduction – 1/3 : Inovia Blog, MapReduce et Hadoop (Smile)

Accueil
Projets
Blog collaboratif
Évenements
À propos
Contact
Nous suivre sur
Nous suivre sur

Un Commentaire, Commentaire ou Rétrolien
Mathieu Lory
En complément, le projet Bee-rain utilise déjà le MapReduce pour traiter les occurences et en générer des statistiques. http://www.internetcollaboratif.info/index.php/categories/projets/bee-rain/
http://bee-rain.internetcollaboratif.info/
25 oct, 2009
Répondre à “Hadoop, Mapreduce principe en résumé (rien à voir avec Hadopi)”