Hadoop mapreduce过程key 和value分别存什么值

Hadoop mapreduce过程key 和value分别存什么值Hadoop mapreduce过程key 和value分别存什么值

大家好,又见面了,我是你们的朋友全栈君。

转自:https://www.cnblogs.com/gaopeng527/p/5436820.html

这里以wordCount为例,直接看图就懂了:

(1)inputFormat将hdfs上要处理的文件一行一行的读入,将文件拆分成splits,由于测试用的文件较小,所以每个文件为一个split,并将文件按行分割形成<key,value>对,如图4-1所示。这一步由MapReduce框架自动完成,其中偏移量(即key值)包括了回车所占的字符数(Windows和Linux环境会不同)。

这里是把每个文件按行处理,下图有两个文件,每个文件有两行,每一行的开头字符所在位置的偏移量 ,第一行的开头偏移量自然是0,hello world共10个偏移量,加上中间的空格11个偏移量,回车再算一个,第二行的开头偏移量是12.

 

 image

图4-1 分割过程

 

  2)将分割好的<key,value>对交给用户定义的map方法进行处理,生成新的<key,value>对,如图4-2所示。

 这里是用户自定义的map处理程序,每一行的字符按“ ” 分割,分割的每一个元素都记为1,也就是map节点的所有value都是1

 image

图4-2 执行map方法

 

  3)得到map方法输出的<key,value>对后,Mapper会将它们按照key值进行排序,并执行Combine过程,将key至相同value值累加,得到Mapper的最终输出结果。如图4-3所示。

 

 image

图4-3 Map端排序及Combine过程

 

  4)Reducer先对从Mapper接收的数据进行排序,再交由用户自定义的reduce方法进行处理,得到新的<key,value>对,并作为WordCount的输出结果,如图4-4所示。

 

 image

图4-4 Reduce端排序及输出结果

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106122.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Verilog——基于FPGA的贪吃蛇游戏(VGA显示)

    最近在做Verilog程序课设,做了一个有关贪吃蛇的小游戏,写一篇博客来记录一下自己的创作过程。大部分的内容直接采用了设计报告的原话,有不足之处还望大家多多指教。对于重点:蛇身控制算法,我开始的想法是将每个格子的坐标输入到存储器中,但由于过于繁琐和笨拙,我改为:保留头部的完整数据(位置、方向),其他部分只保留方向数据,并在VGA模块里面直接对蛇身进行控制,但是这个方案有一个弊端:它按照蛇身顺序…

    2022年4月15日
    47
  • JDK常用监控指令和监控工具介绍及案例分析使用教程,非常实用!

    点击上方“全栈程序员社区”,星标公众号 重磅干货,第一时间送达 作者:双子孤狼 blog.csdn.net/zwx900102/article/details/108227591 …

    2021年6月27日
    113
  • pfx证书获取私钥「建议收藏」

    pfx证书获取私钥「建议收藏」publicclassKeyUtil{publicKeyUtil(){}publicstaticPrivateKeygetPrivateKeyFromPFX(InputStreaminputStream,StringpfxFilePwd)throwsPKIException{PKCS12pkcs12=newP…

    2022年5月12日
    47
  • 手机资费相关问题的解答方法_昆虫记的问题及答案

    手机资费相关问题的解答方法_昆虫记的问题及答案1、太原移动现在GPRS包月怎样收费?   答:现在有6档GPRS套餐。1、标准资费,0元月租,无赠送GPRS流量,按0.03元/KB收费。2、5元套餐,月租5元,赠送GPRS流量10MB,超出赠送部分的GPRS费用是0.01元/KB。3、10元套餐,月租10元,赠送GPRS流量20MB,超出赠送部分的GPRS费用是0.01元/KB。4、20元套餐,月租20元,赠送GPRS流量50MB,超出…

    2022年10月7日
    2
  • 接口测试用例怎么写?一文1600字教你写一个优秀的接口测试的测试用例

    接口测试用例怎么写?一文1600字教你写一个优秀的接口测试的测试用例一 用例设计 11 接口测试概念接口测试 测试系统间接口的一种测试 测试的对象主要是接口 主要是测试外部系统与所测系统之间以及内部系统之间的交互点 2 接口测试方法 a 可以通过开发脚本代码进行测试 b 可以通过开源免费的接口调用调试工具测试 如 Postman 等 c 可以通过 App 手动测试 结合抓包工具分析 如 Fillder Charles 等 3 接口测试范围接口范围包括 一 被测项目中同层之间的接口 如 DAO 层 Service 层 一个接口调用了其他的接口 二 外部系统与系统之间

    2025年6月21日
    2
  • html导航栏纵向代码,html横向导航栏怎么做?横向导航条代码实例

    html导航栏纵向代码,html横向导航栏怎么做?横向导航条代码实例有不少小伙伴在刚学习html的时候都会遇到这样一个问题:html横向导航栏怎么做?今天W3Cschool小编就为大家分享一下简单的横向导航条代码,相信会对大家有所帮助。html横向导航栏一般用两种方法来制作:第一种,我们使用块状结构结合行内结构来制作。第二种,我们使用​float​属性来制作。由于第一种比较常用,一下就以第一种方式来介绍。首先大家要明确一下块状元素与行内结构的不同之处:(1…

    2022年5月28日
    45

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号