图文详解 MapReduce 工作流程

全栈程序员-站长 • 2026年3月18日下午7:02 • 未分类 • 阅读 2

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

在这里插入图片描述

MapReduce 编程模型

MapReduce 编程模型开发简单且功能强大，专门为并行处理大规模数据量而设计，接下来，通过一张图来描述 MapReduce 的工作过程，如图所示。

在这里插入图片描述

关于 MapReduce 编程模型的更多细节请参考我的这篇博客——MapReduce 编程模型到底是怎样的？

整体流程

分片、格式化数据源

输入 Map 阶段的数据源，必须经过分片和格式化操作。

分片操作：指的是将源文件划分为大小相等的小数据块( Hadoop 2.x 中默认 128MB )，也就是分片( split )，
Hadoop 会为每一个分片构建一个 Map 任务，并由该任务运行自定义的 map() 函数，从而处理分片里的每一条记录;
格式化操作：将划分好的分片( split )格式化为键值对

形式的数据，其中， key 代表偏移量， value 代表每一行内容。

执行 MapTask

执行 Shuffle 过程

执行 ReduceTask

输入 ReduceTask 的数据流是

形式，用户可以自定义 reduce()方法进行逻辑处理，最终以

的形式输出。

写入文件

MapReduce 框架会自动把 ReduceTask 生成的

传入 OutputFormat 的 write 方法，实现文件的写入操作。

MapTask

在这里插入图片描述

Read 阶段： MapTask 通过用户编写的 RecordReader ，从输入的 InputSplit 中解析出一个个 key / value 。
Map 阶段：将解析出的 key / value 交给用户编写的 Map ()函数处理，并产生一系列新的 key / value 。
Collect 阶段：在用户编写的 map() 函数中，数据处理完成后，一般会调用 outputCollector.collect() 输出结果，在该函数内部，它会将生成的 key / value 分片(通过调用 partitioner )，并写入一个环形内存缓冲区中(该缓冲区默认大小是 100MB )。
Spill 阶段：即“溢写”，当缓冲区快要溢出时(默认达到缓冲区大小的 80 %)，会在本地文件系统创建一个溢出文件，将该缓冲区的数据写入这个文件。

Combine 阶段：当所有数据处理完成以后， MapTask 会对所有临时文件进行一次合并，以确保最终只会生成一个数据文件

ReduceTask

在这里插入图片描述

Copy 阶段： Reduce 会从各个 MapTask 上远程复制一片数据（每个 MapTask 传来的数据都是有序的），并针对某一片数据，如果其大小超过一定國值，则写到磁盘上，否则直接放到内存中
Merge 阶段：在远程复制数据的同时， ReduceTask 会启动两个后台线程，分别对内存和磁盘上的文件进行合并，以防止内存使用过多或者磁盘文件过多。
Sort 阶段：用户编写 reduce() 方法输入数据是按 key 进行聚集的一组数据。

Reduce 阶段：对排序后的键值对调用 reduce() 方法，键相等的键值对调用一次 reduce()方法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到 HDFS 中
Write 阶段： reduce() 函数将计算结果写到 HDFS 上。

合并的过程中会产生许多的中间文件(写入磁盘了)，但 MapReduce 会让写入磁盘的数据尽可能地少，并且最后一次合并的结果并没有写入磁盘，而是直接输入到 Reduce 函数。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/212883.html原文链接：https://javaforall.net

图文详解 MapReduce 工作流程

前言

正文

MapReduce 编程模型

整体流程

分片、格式化数据源

执行 MapTask

执行 Shuffle 过程

执行 ReduceTask

写入文件

MapTask

ReduceTask

关于作者

全栈程序员-站长

发表回复

图文详解 MapReduce 工作流程

前言

正文

MapReduce 编程模型

整体流程

分片、格式化数据源

执行 MapTask

执行 Shuffle 过程

执行 ReduceTask

写入文件

MapTask

ReduceTask

关于作者

全栈程序员-站长

相关推荐

es面试题及答案_elk面试题

JAVA：定时器的三种方法（详细注解）

mysql更改表名语句命令

OpenCv中 width 和 widthStep的区别「建议收藏」

JQuery安装与下载教程（efficiency）

SpringBoot图片验证码

发表回复