Hadoop mapreduce过程key 和value分别存什么值

Hadoop mapreduce过程key 和value分别存什么值Hadoop mapreduce过程key 和value分别存什么值

大家好,又见面了,我是你们的朋友全栈君。

转自:https://www.cnblogs.com/gaopeng527/p/5436820.html

这里以wordCount为例,直接看图就懂了:

(1)inputFormat将hdfs上要处理的文件一行一行的读入,将文件拆分成splits,由于测试用的文件较小,所以每个文件为一个split,并将文件按行分割形成<key,value>对,如图4-1所示。这一步由MapReduce框架自动完成,其中偏移量(即key值)包括了回车所占的字符数(Windows和Linux环境会不同)。

这里是把每个文件按行处理,下图有两个文件,每个文件有两行,每一行的开头字符所在位置的偏移量 ,第一行的开头偏移量自然是0,hello world共10个偏移量,加上中间的空格11个偏移量,回车再算一个,第二行的开头偏移量是12.

 

 image

图4-1 分割过程

 

  2)将分割好的<key,value>对交给用户定义的map方法进行处理,生成新的<key,value>对,如图4-2所示。

 这里是用户自定义的map处理程序,每一行的字符按“ ” 分割,分割的每一个元素都记为1,也就是map节点的所有value都是1

 image

图4-2 执行map方法

 

  3)得到map方法输出的<key,value>对后,Mapper会将它们按照key值进行排序,并执行Combine过程,将key至相同value值累加,得到Mapper的最终输出结果。如图4-3所示。

 

 image

图4-3 Map端排序及Combine过程

 

  4)Reducer先对从Mapper接收的数据进行排序,再交由用户自定义的reduce方法进行处理,得到新的<key,value>对,并作为WordCount的输出结果,如图4-4所示。

 

 image

图4-4 Reduce端排序及输出结果

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106122.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月23日 下午7:00
下一篇 2022年4月23日 下午7:00


相关推荐

  • Mybatis分页之RowBounds

    Mybatis分页之RowBoundsMybatis 可以使用 RowBounds 进行分页 dao 层 sql 的 xml 文件 因为是 java 层面的分页 所以 sql 不需要分页单元测试因为参数是第几个开始 这样很不友好 我们一般情况分页是第几页开始 页大小是多少 所以这就需要我们自己封装一层分页对象 packagecom lingaolu utils importorg apache ibatis session RowBounds author 林高禄 create

    2026年3月17日
    2
  • FEC相关知识「建议收藏」

    FEC相关知识「建议收藏」1概念和原理前向纠错前向纠错也叫前向纠错码(ForwardErrorCorrection,简称FEC),是增加数据通讯可信度的方法。在单向通讯信道中,一旦错误被发现,其接收器将无权再请求传输。FEC是利用数据进行传输冗余信息的方法,当传输中出现错误,将允许接收器再建数据。常用的前向纠错码(1)电视传输专用的前向纠错码电视节目广播前向纠错采用2/3码率格形码、卷积交织

    2022年8月11日
    8
  • Java递归详解_java难不难学

    Java递归详解_java难不难学学习目标:提示:这里可以添加学习目标例如:一周掌握Java入门知识学习内容:提示:这里可以添加要学的内容例如:1、搭建Java开发环境2、掌握Java基本语法3、掌握条件语句4、掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、周一至周五晚上7点—晚上9点2、周六上午9点-上午11点3、周日下午3点-下午6点学习产出:提示:这里统计学习计划的总量例如:1、技术笔记2遍2、CSDN技术博客3篇

    2026年1月20日
    6
  • 数字信封工作原理

    数字信封工作原理数字信封是指发送方使用接收方的公钥来加密对称密钥后所得的数据 其目的是用来确保对称密钥传输的安全性 采用数字信封时 接收方需要使用自己的私钥才能打开数字信封得到对称密钥 nbsp nbsp nbsp 数字信封的加 解密过程如图 1 19 所示 甲也要事先获得乙的公钥 具体说明如下 对应图中的数字序号 图 1 19 nbsp 数字信封的加解密过程示意图 1 甲使用对称密钥对明文进行加密 生成密文信息 2

    2026年3月19日
    3
  • 讯飞举办“星火快答”生态沙龙,共探交互智能体赋能数字孪生新路径

    讯飞举办“星火快答”生态沙龙,共探交互智能体赋能数字孪生新路径

    2026年3月14日
    3
  • sqlHelper的增删改查

    sqlHelper的增删改查

    2022年1月21日
    51

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号