mapreduce过程

mapreduce过程

程序会根据inputformat将文件分割成splits分片,每个分片会分配一个map task任务,每个map task任务会有一个内存缓冲区,任务处理后的结果会写入到内存缓冲区,并决定数据写入到哪个patitioner,当写入的数据达到内存缓冲区的阈值(默认80%)时,会启动一个线程将内存中的数据溢写到磁中,同时不影响前面的处理结果继续写入到内存缓冲区,.在接下来的溢写过程中,mapreduce框架会对key进行排序,如果map task处理的结果很大会形成多个溢写文件,最后缓冲区的内容会全部溢写到磁盘中,如果有多个文件则合并为一个文件.

当所有的map task任务完成后,每个map task任务会形成一个最终文件,并且该文件的按区划分.reduce任务启动之前,一个map task完成后,会启动线程来拉取map结果数据到相应的reduce task,不断的合并数据,为reduce的数据输入做准备,当所有的map task完成后,数据也就拉取合并完毕,reduce task启动 ,最终将输出结果存入到hdfs.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106367.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Awvs详细使用教程「建议收藏」

    Awvs详细使用教程「建议收藏」Awvs的是一款非常好用的web漏洞扫描工具,他的扫描速度比较快,可以自己选择扫描速度,比较灵活。Awvs分为老的版本和新版本,下面我介绍的是新版本的功能和用法。功能介绍如下:仪表盘(监视器)功能,添加目标功能,漏洞排序功能,扫描功能,发现功能,用户功能,扫描配置功能,网络扫描功能,追踪器功能,防火墙设置,邮件设置,引擎,时间排除功能,代理功能,常规设置主要使用的功能是前面的6个,后面的根据个人的需要进行配置详细介绍如下:Dashboard功能:翻译意思仪表盘(监视器),可以对扫描对扫描

    2025年8月24日
    4
  • 直读光谱仪分析谱线_频谱分析仪主要有哪几种

    直读光谱仪分析谱线_频谱分析仪主要有哪几种为什么使用频谱仪?01认识频谱电磁频谱,是指按电磁波波长(或频率)连续排列的电磁波族,是一种看不见摸不着但时刻伴随我们的东西。当我们使用电磁波将一串信息发送出去时,在时域上他是一段强度不同,疏密变化的时间信号,在其中的任意时刻,你所能获取的只有他的强度;当我们换个角度,站在频域上来看时,在信号的每一个时刻,你都能看到他从时域的一个点延展成了频域的一个面,你所能获取到的信息量将成倍增加,这有助于我们从中解析出更丰富的内容。因此,电磁频谱的观测,或者说使用频谱仪,我们实际上是换一…

    2022年8月11日
    6
  • eclipse汉化小教程

    eclipse汉化小教程点aboutEclipsexxx然后会显示版本http://www.eclipse.org/babel/downloads.php进入该网址一般都选择Mars(最后一个)复制网址http://download.eclipse.org/technology/babel/update-site/R0.15.1/mars加载出pending包后选择ChineseTraditional安装一路n…

    2022年5月3日
    66
  • 【Windows】Win10家庭版启用组策略gpedit.msc

    【前言】大家都认为,Windows10家庭版中并不包含组策略,其实不然,它是有相关文件的,只是不让你使用而已。那么我们让系统允许你使用就好了。【操作步骤】1、首先你需要在桌面上新建一个txt文本文档。然后将以下代码复制到这个新建的txt文本文档中,修改其后缀.txt变成.cmd以管理员身份运行即可使用组策略gpedit.msc了

    2022年4月6日
    198
  • nat模式「建议收藏」

    nat模式「建议收藏」原文链接:https://www.linuxidc.com/Linux/2016-09/135521p2.htm(复制过来只是为了学习方便,如有不妥会立即删除)二、NAT(地址转换模式)刚刚我们说到,如果你的网络ip资源紧缺,但是你又希望你的虚拟机能够联网,这时候NAT模式是最好的选择。NAT模式借助虚拟NAT设备和虚拟DHCP服务器,使得虚拟机可以联网。其网络结构如下图所示:在NAT模式中,主机…

    2022年6月29日
    22
  • SHELLEXECUTEINFO「建议收藏」

    SHELLEXECUTEINFO「建议收藏」SHELLEXECUTEINFO是WindowsAPIShellExecuteEx的参数,这个是一个结构体类型,里面可以添加参数,当IpVerb成员为"runas"的时候可

    2022年7月3日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号