Hadoop里的Partitioner

全栈程序员-站长 • 2022年1月19日下午6:00 • 未分类 • 阅读 201

大家好，又见面了，我是全栈君。

人们对于Mapreduce程序刚開始时都觉得仅仅须要一个reduce就够了。

毕竟，在你处理数据之前一个reducer已经把数据都分好类了，有谁不喜欢分好类的数据呢。

可是这样我们就忽略了并行计算的优势。

假设仅仅有一个reducer。我们的云计算就退化成了一个小雨点。

在多个reducer的情况下，我们须要某种机制来控制mapper的结果的分配问题。这是就Partitioner的工作了。

在默认情况下。hadoop通过比較key的hash值来分配，默认使用HashPartitioner。有时默认的功能不能满足我们的要求，比方我们曾经自己定义的Edge类（http://blog.csdn.net/on_way_/article/details/8589187）。当我们想要知道每一个机场乘客起飞的数量时。我们有例如以下数据

(北京。上海) 张三

(北京。青岛) 李四。

。。。。。

。

假设我们用HashPartitioner来分配，那么这两行就会被送往不同的reducer上，机场起飞的数量就会被算两次，并且每次都是错误的。

我们须要为我们的应用程序定制一个partitioner。

[java] view plaincopyprint?

    
 import org.apache.hadoop.io.Writable;  
 import org.apache.hadoop.mapred.JobConf;  
 import org.apache.hadoop.mapred.Partitioner;  
   
   
 public class EdgePartitioner implements Partitioner<Edge, Writable>{  
   
     @Override  
     public void configure(JobConf job) {  
         // TODO Auto-generated method stub  
           
     }  
   
     @Override  
     public int getPartition(Edge key, Writable value, int numPartitions) {  
         // TODO Auto-generated method stub  
         return key.getDepartureNode().hashCode() % numPartitions;  
     }  
   
 }  

以下的这张图给出了Partitioner的详细解释

Hadoop里的Partitioner

在map和reduce两个阶段之间。一个MapReduce程序必须把mapper的输出分配到多个reducer上。这个过程叫做shuffling。由于一个mapper的输出结果有可能被分配到集群中的多个节点中去。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/116562.html原文链接：https://javaforall.net

Hadoop里的Partitioner

关于作者

全栈程序员-站长

发表回复

Hadoop里的Partitioner

关于作者

全栈程序员-站长

相关推荐

网格搜索随机搜索相同点_网格搜索原理

线性规划

彻底搞懂golang的GOROOT和GOPATH

Hadoop面试题总结「建议收藏」

Java锁——自旋锁和互斥锁的区别

struts2的拦截器AbstractInterceptor「建议收藏」

发表回复