Outils collaboratifs, open-source et logiciels libres sur internet

Hadoop, Mapreduce principe en résumé (rien à voir avec Hadopi)

dimanche 25 octobre 2009, 12:51 par
Hadoop, Mapreduce principe en résumé (rien à voir avec Hadopi)Hadoop est un ensemble de sous projets open source coordonnés par l'Apache Software Foundation. Hadoop permet d'améliorer très nettement la rapidité des traitements en batch sur des volumes de données importants (on parle en Giga/Tera/Peta...) ; le principe étant d'implémenter un environnement d'exécution distribué.

Pour mieux comprendre Hadoop, il faut expliquer le fonctionnement de MapReduce qui est le principal projet Hadoop. (MapReduce est un sous projet de Hadoop Common depuis juillet 2009). Pour simplifier, MapReduce consiste à découper le traitement en 2 phases :

  • la première phase (Map) est une étape d'ingestion et de transformation des données sous la forme de paires clé/valeur
  • la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final

Prenons un exemple concret : Calculons le nombre d'occurences de chaque mots d'un fichier contenant le texte "Vita Corradini, mors Caroli, vita Caroli, mors Corradini". [caption id="attachment_436" align="aligncenter" width="660" caption="Processus de Map-Reduce"]map-reduce[/caption] Chaque sous-processus (étape 2 et 3) calculent donc les occurences de manière autonome, et c'est la dernière étape "Reduce" qui va consolider les morceaux, obtenant ainsi les occurences globales. Sources : http://hadoop.apache.org, Hadoop, une introduction - 1/3 : Inovia Blog, MapReduce et Hadoop (Smile)

Rétroliens Url rétroliens

Commentaires Rss des commentaires

Aucun commentaire.




(optionnel)

Dernière modification : lundi 21 février 2011, 23:07

Page activée par phpSqliteCms 2.0.2