TEZ深入理解

全栈程序员-站长 • 2026年3月19日上午7:11 • 未分类 • 阅读 2

简介

在这里插入图片描述

Tez的实现

2）Output：对输出数据源的抽象，它将用户程序产生的Key/value写入文件系统

3）Paritioner：对数据进行分片，类似于MR中的Partitioner

4）Processor：对计算的抽象，它从一个Input中获取数据，经处理后，通过Output输出

5）Task：对任务的抽象，每个Task由一个Input、Ouput和Processor组成

6）Maser：管理各个Task的依赖关系，并按顺依赖关系执行他们

2）Output实现：InMemorySortedOutput（内存排序后输出），LocalOnFileSorterOutput（本地磁盘排序后输出），OnFileSortedOutput（磁盘排序后输出）

3）Task实现：RunTimeTask（非常简单的Task，基本没做什么事）

4）Sort实现：DefaultSorter（本地数据排序），InMemoryShuffleSorter（远程拷贝数据并排序）

为了展示Tez的使用方法和验证Tez框架的可用性，Apache在YARN MRAppMaster基础上使用Tez编程接口重新设计了MapReduce框架，使之可运行在YARN中。为此，Tez提供了以下几个组件：

1）Input：SimpleInput（直接使用MR InputFormat获取数据）

2）Output：SimpleOutput（直接使用MR OutputFormat获取数据）

3）Partition：MRPartitioner（直接使用MR Partitioner获取数据）

4）Processor：MapProcessor（执行Map Task），ReduceProcessor（执行Reduce Task）

5）Task：FinalTask，InitialTask，initialTaskWithInMemSort，InitialTaskWithLocalSort ，IntermediateTask，LocalFinalTask，MapOnlyTask。

对于MapReduce作业而言，如果只有Map Task，则使用MapOnlyTask，否则，Map Task使用InitialTaskWithInMemSort而Reduce Task用FinalTask。当然，如果你想编写其他类型的作业，可使用以上任何几种Task进行组合，比如”InitialTaskWithInMemSort –> FinalTask”是MapReduce作业。

为了减少Tez开发工作量，并让Tez能够运行在YARN之上，Tez重用了大部分YARN 中MRAppMater的代码，包括客户端、资源申请、任务推测执行、任务启动等。

Tez+Hive与Impala区别

Tez+Hive与Impala均可用于解决Hive/Pig延迟大、性能低效的问题，Impala的出发点是抛弃MapReduce计算框架，不再将SQL或者PIG语句翻译成MR程序，而是采用传统数据数据库的方式，直接从DataNode上存取数据，而Tez+Hive则不同，Tez+Hive仍采用MapReduce计算框架，但对DAG的作业依赖关系进行了裁剪，并将多个小作业合并成一个大作业，这样，不仅计算量减少，而且写HDFS次数也会大大减少。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/210649.html原文链接：https://javaforall.net

TEZ深入理解

简介

Tez的实现

Tez+Hive与Impala区别

关于作者

全栈程序员-站长

发表回复

TEZ深入理解

简介

Tez的实现

Tez+Hive与Impala区别

关于作者

全栈程序员-站长

相关推荐

MCP保姆级教程：扣子空间实操，小白入门必备！

html中的xmlns是什么意思？

VS Code插件

ubuntu搭建php运行环境

3D点云实例分割_3d点云标注软件

我的RTOS 之六 — Touch移植(s5pv210+threadx+ucgui+touch)「建议收藏」

发表回复