map-reduce入门 最近在改写mahout源码,感觉自己map-reduce功力不够深厚,因此打算系统学习一下。map-reduce其实是一种编程范式,从统计词频(wordCount)程序来讲解map-reduce的思想最容易理解。 给定一个文件,里面的内容如下,要求统计每个单词的词频。Hello AngelaI love you AngelaHow are you Angela map(每个单词处理为一行,key,value形式)Hello,1Angela,1I,1love,1you,1Angela,1How,1are,1you,1Angela,1 reduce(key相同的行汇在一起)Hello,<1>Angela,<1,1,1>I, <1>love, <1>you, <1,1>How, <1>are, <1> reducer处理后输出Hello,1Angela,3I, 1love, 1you, 2How, 1are, 1 从上可以看到,map阶段和reduce阶段的输入输出数据都是key,value形式的。key的存在是为了标志哪些数据需要汇在一起处理。显然,对于上面统计词频的例子,我们的目的就是让同一个单词的数据落在一起,然后统计该单词出现了多少次。 了解了map-reduce的思想之后,下面来看看分布式的map-reduce是怎样子的。 Hadoop有两类节点,
...
继续阅读
(69)