hadoop默认对3个副本的存储策略和执行策略:「建议收藏」

hadoop默认对3个副本的存储策略和执行策略:「建议收藏」hadoop默认对3个副本的存储策略和执行策略:

大家好,又见面了,我是你们的朋友全栈君。

1,首先要先了解下什么是rack(机架)集群,一个集群有多个机架,一个机架有多个机器,一个机器一个datanode或namenode节点。通常一个机架内的机器之间的网络速度会高于跨机架机器之间的网络速度。
2,但是要同时保持副本存储策略的容错性和高效性,第一副本:放置在上传文件的DN上(就是执行‘hadoop fs -put 文件名’上传文件命令的机器上,本地文件上传到同一台机器自然要快一点),如果是集群外提交,则随机挑选一台;第二副本:放置在第一副本不同机架的不同节点上;第三副本,放置在第二副本相同机架的不同节点上;其他更多副本:随机放置在节点中。
3,在高效性方面,一个大文件被分成多个分片,也就是多个map任务分别在多个datanode节点上处理,这里就牵扯到任务粒度。如果有m个map任务,不一定会在m个datanode 节点上并行运行。因为可能存在一个datanode上有多个分片\数据块\map任务,所以应该准确的说m个map任务在n个datanode节点上并行运行(注意是并行运行,这样同时处理才会快)。
4,本地计算,在2中也存在野种思想,就是把在哪天DN上传的文件就把次DN作为第一副本;再者就是数据存储在那台机器就由哪台机器负责进行这部分数据的计算,这样可以减少数据在网络上的传输,数据在哪里我就在哪里计算,做到不移动数据,在业界把这形容为“移动计算比移动数据更经济”。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106041.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • php 数组动态添加实现代码(最土团购系统的价格排序)

    最近在实现最土团购系统的价格排序功能,需要对$oc数组进行扩展,经过测试用下面的方法即可。核心代码如下:因为是多条件查询所以需要先判断是否为空,然后再添加到数组里面。推荐:http://www.

    2021年12月27日
    36
  • 导师终于定下来了。

    导师终于定下来了。

    2021年7月26日
    66
  • android开发揭秘!全靠这份Android知识点PDF大全,附答案[通俗易懂]

    android开发揭秘!全靠这份Android知识点PDF大全,附答案[通俗易懂]Glide缓存简介Glide的缓存设计可以说是非常先进的,考虑的场景也很周全。在缓存这一功能上,Glide又将它分成了两个模块,一个是内存缓存,一个是硬盘缓存。这两个缓存模块的作用各不相同,内存缓存的主要作用是防止应用重复将图片数据读取到内存当中,而硬盘缓存的主要作用是防止应用重复从网络或其他地方重复下载和读取数据。内存缓存和硬盘缓存的相互结合才构成了Glide极佳的图片缓存效果,那么接下来我们就分别来分析一下这两种缓存的使用方法以及它们的实现原理。我认识很多优秀的Android工程师,他们丝毫

    2022年5月3日
    60
  • dstat使用[通俗易懂]

    dstat使用[通俗易懂]1、安装方法一:yum#yuminstall-ydstat方法二:rpm官网下载地址:http://dag.wieers.com/rpm/packages/dstat #wget http://dag.wieers.com/rpm/packages/dstat/dstat-0.6.7-1.rh7.rf.noarch.rpm#rp

    2022年6月15日
    44
  • SpringCloud从入门到精通教程/SpringCloud Alibaba从入门到精通教程[通俗易懂]

    对于SpringCloud,很多小伙伴问到了我的研究学习资料来源,除官方文档外,特例完整整理一下自己的平时参考学习其他资料,以及分享实战项目源码和代码资源,供大家参考学习主要教程:SpringCloud教程SpringCloudGreenwich,基于SpringBoot2.1.7,Github源码仓库案例下载一、我的教程(2019.11更新)SpringCloud…

    2022年4月7日
    50
  • IDEA 2021.7.21 激活码【中文破解版】

    (IDEA 2021.7.21 激活码)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年3月22日
    53

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号