hadoop默认对3个副本的存储策略和执行策略:「建议收藏」

hadoop默认对3个副本的存储策略和执行策略:「建议收藏」hadoop默认对3个副本的存储策略和执行策略:

大家好,又见面了,我是你们的朋友全栈君。

1,首先要先了解下什么是rack(机架)集群,一个集群有多个机架,一个机架有多个机器,一个机器一个datanode或namenode节点。通常一个机架内的机器之间的网络速度会高于跨机架机器之间的网络速度。
2,但是要同时保持副本存储策略的容错性和高效性,第一副本:放置在上传文件的DN上(就是执行‘hadoop fs -put 文件名’上传文件命令的机器上,本地文件上传到同一台机器自然要快一点),如果是集群外提交,则随机挑选一台;第二副本:放置在第一副本不同机架的不同节点上;第三副本,放置在第二副本相同机架的不同节点上;其他更多副本:随机放置在节点中。
3,在高效性方面,一个大文件被分成多个分片,也就是多个map任务分别在多个datanode节点上处理,这里就牵扯到任务粒度。如果有m个map任务,不一定会在m个datanode 节点上并行运行。因为可能存在一个datanode上有多个分片\数据块\map任务,所以应该准确的说m个map任务在n个datanode节点上并行运行(注意是并行运行,这样同时处理才会快)。
4,本地计算,在2中也存在野种思想,就是把在哪天DN上传的文件就把次DN作为第一副本;再者就是数据存储在那台机器就由哪台机器负责进行这部分数据的计算,这样可以减少数据在网络上的传输,数据在哪里我就在哪里计算,做到不移动数据,在业界把这形容为“移动计算比移动数据更经济”。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106041.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • SpringDataJpa

    SpringDataJpaSpringDataJpa

    2022年4月22日
    137
  • 深挖P2P传输技术,升级与创新并举

    深挖P2P传输技术,升级与创新并举你用过P2P传输吗?现在的P2P传输可以说是继局域网、ftp、http之后最广泛使用的文件分享和传播途径,被众多企业运用在工作中。P2P传输,全称“点对点传输”,是一种文件即时传输方式,目标是让所有客户端都能提供资源,包括带宽、存储空间、计算能力。P2P传输技术有很多应用,包括共享各种格式音频、视频、数据等。**P2P传输技术是如何实现即时传输?为什么P2P传输可以被众多企业接受?**本文,我们将带着这两个问题出发,深挖P2P传输技术。一、一张图看懂P2P传输技术传统的http传输是服务器上直接复制

    2022年7月16日
    16
  • 任务显示与隐藏,任务管理器中应用程序显示与隐藏,悬浮窗任务栏显示 效果

    任务显示与隐藏,任务管理器中应用程序显示与隐藏,悬浮窗任务栏显示 效果

    2021年12月5日
    53
  • NoSQL数据库的五种分类

    NoSQL数据库的五种分类NoSQL 数据库分为五种 键值数据库 文档数据库 列式数据库 图数据库 全文搜索引擎数据库

    2025年9月12日
    2
  • 基于51单片机的八路抢答器设计_单片机八路抢答器课程设计

    基于51单片机的八路抢答器设计_单片机八路抢答器课程设计写一下寒假做的51小项目,本次是基于AT89C51的八路抢答器,课设水平难度。具体说明:硬件分为两部分,主持人主控部分和选手使用部分。可以实现:按动开始可以开启程序或者开启答题倒计时,按动复位可以实现归零;八个选手各有一个按键,按下即可抢答,与此同时,蜂鸣器响一秒钟,选手的LED点亮。在答题时间还剩十秒钟时,发出提示音,时间耗尽时,所有LED点亮,蜂鸣器鸣响。当抢答倒计时结束仍没有选手抢答,所有…

    2022年10月20日
    2
  • 优惠券设计及流程_优惠券怎么设计

    优惠券设计及流程_优惠券怎么设计在整个APP开发产品发展的整个周期中,运营活动必不可少,而发放优惠券已成为运营活动的一种基本形式,而关于优惠券设计的整体流程尤为重要。接下来,分享一下自己的经验,希望对大家有帮助,感谢支持!整体架构

    2022年8月1日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号