hadoop调优方法(和也篇)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文RM的内存资源配置,配置的是资源调度相关ID配置说明RM1yarn.scheduler.minimum-allocation-mb分配给AM单个容器可申请的最小内存RM2yarn.scheduler.maximum-allocation-mb分配给AM单个容器可申请

大家好,又见面了,我是你们的朋友全栈君。

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

姊妹篇

Hadoop 调优之 Linux 操作系统调优篇
Hadoop 调优之 HDFS 调优篇
Hadoop 调优之 MapReduce 调优篇
Hive 如何进行企业级调优?

正文

RM的内存资源配置, 配置的是资源调度相关

ID 配置 说明
RM1 yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存
RM2 yarn.scheduler.maximum-allocation-mb 分配给AM单个容器可申请的最大内存

最小值可以计算一个节点最大Container数量;一旦设置,不可动态改变

NM的内存资源配置,配置的是硬件资源相关

ID 配置 说明
NM1 yarn.nodemanager.resource.memory-mb 节点最大可用内存
NM2 yarn.nodemanager.vmem-pmem-ratio 虚拟内存率,默认2.1

RM1、RM2的值均不能大于NM1的值
NM1可以计算节点最大最大Container数量,max(Container)=NM1/RM1
一旦设置,不可动态改变

AM内存配置相关参数,配置的是任务相关

ID 配置 说明
AM1 mapreduce.map.memory.mb 分配给map Container的内存大小
AM2 mapreduce.reduce.memory.mb 分配给reduce Container的内存大小

这两个值应该在RM1和RM2这两个值之间
AM2的值最好为AM1的两倍
这两个值可以在启动时改变

ID 配置 说明
AM3 mapreduce.map.java.opts 运行map任务的jvm参数,如-Xmx,-Xms等选项
AM4 mapreduce.reduce.java.opts 运行reduce任务的jvm参数,如-Xmx,-Xms等选项

这两个值应该在AM1和AM2之间

关于Container

  1. Container是YARN中资源的抽象,它封装了某个节点上一定量的资源(CPU和内存两类资源)。
    它跟Linux Container没有任何关系,仅仅是YARN提出的一个概念(从实现上看,可看做一个可序列化/反序列化的Java类)。
  2. Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中的资源调度器异步分配给ApplicationMaster;
  3. Container的运行是由ApplicationMaster向资源所在的NodeManager发起的,Container运行时需提供内部执行的任务命令(可以使任何命令,比如java、Python、C++进程启动命令均可)以及该命令执行所需的环境变量和外部资源(比如词典文件、可执行文件、jar包等)。
    另外,一个应用程序所需的Container分为两大类,如下:
  • 运行ApplicationMaster的Container:这是由ResourceManager(向内部的资源调度器)申请和启动的,用户提交应用程序时,可指定唯一的ApplicationMaster所需的资源;
  • 运行各类任务的Container:这是由ApplicationMaster向ResourceManager申请的,并由ApplicationMaster与NodeManager通信以启动之。

以上两类Container可能在任意节点上,它们的位置通常而言是随机的,即ApplicationMaster可能与它管理的任务运行在一个节点上。

Container是YARN中最重要的概念之一,懂得该概念对于理解YARN的资源模型至关重要。

注意:如下图,map/reduce task是运行在Container之中的,所以上面提到的mapreduce.map(reduce).memory.mb大小都大于mapreduce.map(reduce).java.opts值的大小。

在这里插入图片描述

实践

在这里插入图片描述

如上图所示,先看最下面褐色部分,

AM参数 mapreduce.map.memory.mb=1536MB,表示AM要为map Container申请1536MB资源,但RM实际分配的内存却是2048MB,
因为yarn.scheduler.mininum-allocation-mb=1024MB,这定义了RM最小要分配1024MB,1536MB超过了这个值,所以实际分配给AM的值为2048MB(这涉及到了规整化因子)。

AM参数 mapreduce.map.java.opts=-Xmx 1024m,表示运行map任务的jvm内存为1024MB,因为map任务要运行在Container里面,
所以这个参数的值略微小于mapreduce.map.memory.mb=1536MB这个值。

NM参数 yarn.nodemanager.vmem-pmem-radio=2.1,这表示NodeManager可以分配给map/reduce Container 2.1倍的虚拟内存,
安照上面的配置,实际分配给map Container容器的虚拟内存大小为2048*2.1=3225.6MB,若实际用到的内存超过这个值,NM就会kill掉这个map Container,任务执行过程就会出现异常。

AM参数 mapreduce.reduce.memory.mb=3072MB,表示分配给reduce Container的容器大小为3072MB,
而map Container的大小分配的是1536MB,从这也看出,reduce Container容器的大小最好是map Container大小的两倍。

NM参数 yarn.nodemanager.resource.mem.mb=24576MB,这个值表示节点分配给NodeManager的可用内存,
也就是节点用来执行yarn任务的内存大小。这个值要根据实际服务器内存大小来配置,比如我们hadoop集群机器内存是128GB,我们可以分配其中的80%给yarn,也就是102GB。
上图中RM的两个参数分别1024MB和8192MB,分别表示分配给AM map/reduce Container的最大值和最小值。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/128871.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月12日 下午10:20
下一篇 2022年4月12日 下午10:20


相关推荐

  • LC5软件激活成功教程用户口令[通俗易懂]

    LC5软件激活成功教程用户口令[通俗易懂]一、背景知识口令认证口令认证是身份认证的一种手段,计算机通过用户输入的用户名进行身份标识,通过访问·输入的口令对其是否拥有该用户对应的真实身份进行鉴别。口令攻击口令攻击可以通过强力攻击进行激活成功教程,也可以采用字典激活成功教程和字典混合激活成功教程的方法,根据是否掌握口令加密算法和口令数据的情况,采用在线激活成功教程和离线激活成功教程的方式。LC5LC5是一款口令激活成功教程工具,也可以被网络管理员用于检测Windows、Linux系统用户是否使用了不安全的密码,被普遍认为是当前最好、最快的Windows/Linux系统管理员账

    2022年7月24日
    12
  • mbus主站电路设计_proteus子电路模块

    mbus主站电路设计_proteus子电路模块1Mbus接收发送机制对于主从式通信系统,因从机之间不能直接交换信息,只能通过主机来转发,此时采用MBus可以实现对从机的相关数据进行采集,并传递至集中器,然后再传递至总站。它由主机从机和两线制总线组成。MBus总线是一种半双工通信总线,其可以通过集中器实现给终端仪表远程供电。1.1发送由集中器向终端仪表传输的信号采用电压值的变化来表示,即集中器向终端仪表发送的数据码流是一种电压脉冲序列,用+36V表示逻辑“1”,用+24V表示逻辑“0”。在稳态时,线路将保持“1”状态。

    2022年10月15日
    4
  • JDK1.8中HashMap如何应对hash冲突?

    JDK1.8中HashMap如何应对hash冲突?1 什么是 hash 冲突我们知道 HashMap 底层是由数组 链表 红黑树构成的 当我们通过 put key value 向 hashmap 中添加元素时 需要通过散列函数确定元素究竟应该放置在数组中的哪个位置 当不同的元素被放置在了数据的同一个位置时 后放入的元素会以链表的形式 插在前一个元素的尾部 这个时候我们称发生了 hash 冲突 2 如何解决 hash 冲突事实上 想让 hash 冲突完全不发生 是

    2026年3月26日
    2
  • oracle优化器统计信息相关

    优化器使用统计信息来生成每个sql语句最优的执行计划。准确的统计信息对于数据库的效率至关重要。dba和程序开发人员都应该了解一些统计信息相关知识,这可以使你更好的理解为什么会生成一个你看到的执行计划,知其然且知其所以然。

    2022年4月8日
    39
  • VS2008安装失败原因!「建议收藏」

    VS2008安装失败原因!「建议收藏」从RTM到现在,我已安装十多回VS2008,发现总会安装OfficeTools的时候,会失败。百思不知其解。后在网上看到,是因为我们使用UltraISO制作激活成功教程的VS2008的时候带出来的问题,主要是Unicode的问题。于是我这个怎么解决呢?我尝试先用deamon打开原版的vs2008,再用untraISO将虚拟盘的所以文件加入新的ISO中,再将激活成功教程的setup.那个文件,加入。重新生成iso

    2025年9月25日
    7
  • openclaw 配置本地安装的大模型qwen2.5:7b,0成本竟是如此简单

    openclaw 配置本地安装的大模型qwen2.5:7b,0成本竟是如此简单

    2026年3月12日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号