Hadoop mapreduce过程key 和value分别存什么值

全栈程序员-站长 • 2022年4月23日下午7:00 • 未分类 • 阅读 55

Hadoop mapreduce过程key 和value分别存什么值Hadoop mapreduce过程key 和value分别存什么值

大家好，又见面了，我是你们的朋友全栈君。

转自：https://www.cnblogs.com/gaopeng527/p/5436820.html

这里以wordCount为例，直接看图就懂了：

（1）inputFormat将hdfs上要处理的文件一行一行的读入，将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成<key,value>对，如图4-1所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数（Windows和Linux环境会不同）。

这里是把每个文件按行处理，下图有两个文件，每个文件有两行，每一行的开头字符所在位置的偏移量，第一行的开头偏移量自然是0,hello world共10个偏移量，加上中间的空格11个偏移量，回车再算一个，第二行的开头偏移量是12.

图4-1 分割过程

　　2）将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，如图4-2所示。

这里是用户自定义的map处理程序，每一行的字符按“ ” 分割，分割的每一个元素都记为1，也就是map节点的所有value都是1

图4-2 执行map方法

　　3）得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。如图4-3所示。

图4-3 Map端排序及Combine过程

　　4）Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果，如图4-4所示。

图4-4 Reduce端排序及输出结果

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/106122.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

hdfs常用操作命令

上一篇 2022年4月23日下午7:00

hadoop集群老的资源管理Mrv1与Yarn资源管理器的工作流程和对比

下一篇 2022年4月23日下午7:00

Mybatis分页之RowBounds

Mybatis分页之RowBoundsMybatis 可以使用 RowBounds 进行分页 dao 层 sql 的 xml 文件因为是 java 层面的分页所以 sql 不需要分页单元测试因为参数是第几个开始这样很不友好我们一般情况分页是第几页开始页大小是多少所以这就需要我们自己封装一层分页对象 packagecom lingaolu utils importorg apache ibatis session RowBounds author 林高禄 create

全栈程序员-站长
2026年3月17日
2
FEC相关知识「建议收藏」

FEC相关知识「建议收藏」1概念和原理前向纠错前向纠错也叫前向纠错码(ForwardErrorCorrection，简称FEC)，是增加数据通讯可信度的方法。在单向通讯信道中，一旦错误被发现，其接收器将无权再请求传输。FEC是利用数据进行传输冗余信息的方法，当传输中出现错误，将允许接收器再建数据。常用的前向纠错码(1)电视传输专用的前向纠错码电视节目广播前向纠错采用2/3码率格形码、卷积交织

全栈程序员-站长
2022年8月11日
8
Java递归详解_java难不难学

Java递归详解_java难不难学学习目标：提示：这里可以添加学习目标例如：一周掌握Java入门知识学习内容：提示：这里可以添加要学的内容例如：1、搭建Java开发环境2、掌握Java基本语法3、掌握条件语句4、掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：1、周一至周五晚上7点—晚上9点2、周六上午9点-上午11点3、周日下午3点-下午6点学习产出：提示：这里统计学习计划的总量例如：1、技术笔记2遍2、CSDN技术博客3篇

全栈程序员-站长
2026年1月20日
6
数字信封工作原理

数字信封工作原理数字信封是指发送方使用接收方的公钥来加密对称密钥后所得的数据其目的是用来确保对称密钥传输的安全性采用数字信封时接收方需要使用自己的私钥才能打开数字信封得到对称密钥 nbsp nbsp nbsp 数字信封的加解密过程如图 1 19 所示甲也要事先获得乙的公钥具体说明如下对应图中的数字序号图 1 19 nbsp 数字信封的加解密过程示意图 1 甲使用对称密钥对明文进行加密生成密文信息 2

全栈程序员-站长
2026年3月19日
3
科大讯飞

讯飞举办“星火快答”生态沙龙，共探交互智能体赋能数字孪生新路径

讯飞举办“星火快答”生态沙龙，共探交互智能体赋能数字孪生新路径

Ai探索者
2026年3月14日
3
sqlHelper的增删改查

sqlHelper的增删改查

全栈程序员-站长
2022年1月21日
51

发表回复

关注全栈程序员社区公众号