hdfs读写文件过程

hdfs读写文件过程hdfs读写文件过程

大家好,又见面了,我是你们的朋友全栈君。

文件参考:https://www.cnblogs.com/tgzhu/p/5788634.html

以写入100M文件为例:

hdfs读写文件过程

  1. Client将FileA按64M分块。分成两块,block1和Block2;
  2. Client向nameNode发送写数据请求,如图蓝色虚线①——>
  3. NameNode节点,记录block信息。并返回可用的DataNode (NameNode按什么规则返回DataNode? 参见第三单 hadoop机架感知),如粉色虚线②———>
    • Block1: host2,host1,host3
    • Block2: host7,host8,host4
  4. client向DataNode发送block1;发送过程是以流式写入,流式写入过程如下:
    1. 将64M的block1按64k的packet划分
    2. 然后将第一个packet发送给host2
    3. host2接收完后,将第一个packet发送给host1,同时client想host2发送第二个packet
    4. host1接收完第一个packet后,发送给host3,同时接收host2发来的第二个packet
    5. 以此类推,如图红线实线所示,直到将block1发送完毕
    6. host2,host1,host3向NameNode,host2向Client发送通知,说“消息发送完了”。如图粉红颜色实线所示
    7. client收到host2发来的消息后,向namenode发送消息,说我写完了。这样就真完成了。如图黄色粗实线
    8. 发送完block1后,再向host7,host8,host4发送block2,如图蓝色实线所示
  •  说明:
    1. 当客户端向 HDFS 文件写入数据的时候,一开始是写到本地临时文件中。假设该文件的副 本系数设置为 3 ,当本地临时文件累积到一个数据块的大小时,客户端会从 Namenode 获取一个 Datanode 列表用于存放副本。然后客户端开始向第一个 Datanode 传输数据,第一个 Datanode 一小部分一小部分 (4 KB) 地接收数据,将每一部分写入本地仓库,并同时传输该部分到列表中 第二个 Datanode 节点。第二个 Datanode 也是这样,一小部分一小部分地接收数据,写入本地 仓库,并同时传给第三个 Datanode 。最后,第三个 Datanode 接收数据并存储在本地。因此, Datanode 能流水线式地从前一个节点接收数据,并在同时转发给下一个节点,数据以流水线的 方式从前一个 Datanode 复制到下一个
    2. 时序图如下:

hdfs读写文件过程

  •  小结:
    1. 写入的过程,按hdsf默认设置,1T文件,我们需要3T的存储3T的网络流量
    2. 在执行读或写的过程中,NameNode和DataNode通过HeartBeat进行保存通信,确定DataNode活着。如果发现DataNode死掉了,就将死掉的DataNode上的数据,放到其他节点去。读取时,要读其他节点去
    3. 挂掉一个节点,没关系,还有其他节点可以备份;甚至,挂掉某一个机架,也没关系;其他机架上,也有备份

hdfs读文件: 


  •  读到文件示意图如下:
  • hdfs读写文件过程
  • 客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说,这个对象时分布文件系统的一个实例;
  • DistributedFileSystem通过使用RPC来调用NameNode以确定文件起始块的位置,同一Block按照重复数会返回多个位置,这些位置按照Hadoop集群拓扑结构排序,距离客户端近的排在前面 (详见第三章
  • 前两步会返回一个FSDataInputStream对象,该对象会被封装成DFSInputStream对象,DFSInputStream可以方便的管理datanode和namenode数据流,客户端对这个输入流调用read()方法
  • 存储着文件起始块的DataNode地址的DFSInputStream随即连接距离最近的DataNode,通过对数据流反复调用read()方法,将数据从DataNode传输到客户端
  • 到达块的末端时,DFSInputStream会关闭与该DataNode的连接,然后寻找下一个块的最佳DataNode,这些操作对客户端来说是透明的,客户端的角度看来只是读一个持续不断的流
  • 一旦客户端完成读取,就对FSDataInputStream调用close()方法关闭文件读取

通俗说就是,客户端发送请求到namenode,并传去想要读取的文件,namenode确定文件在datanode的起始块位置,并返回给客户端,客户端通过对数据流反复调用read方法,将数据从datanode传输到客户端,当到达块末端时,会关闭与该datanode的连接,然后寻找下一个快的最佳Datanode,做同样的操作,一旦客户端完成读取,就调用close()犯法关闭文件读取。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106118.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月23日 下午7:20
下一篇 2022年4月23日 下午7:20


相关推荐

  • HDMI接口定义图

    HDMI接口定义图nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp TheHDMIPlugA nbsp below anHDMIconnec whichinclude TMDSdatachan 6pins thesecarryth

    2026年3月19日
    1
  • 超简单看明白如何求最长递增子序列-动态规划

    超简单看明白如何求最长递增子序列-动态规划最长递增子序列:给定一个长度为N的数组,找出一个最长的单调递增子序列,子序列不一定连续,但初始顺序不能乱。例如:给定一个长度为6的数组A{4,5,7,1,3,9},则其最长的单调递增子序列为{4,5,7,9},长度为4。动态规划思路:记d[i]为以任意一个A[i]为末尾元素组成的最长递增子序列的长度,找出所有位于i之前且比A[i]小的元素A[j],此时可出现两种情况:…

    2022年6月12日
    31
  • oracle_loader类型外部表

    oracle_loader类型外部表1、创建目录(createanydirectory):   SQL>createuseroracleidentifiedbyoracle;用户已创建。SQL>grantdbatooracle;授权成功。SQL>grantcreateanydirectorytooracle;授权成功。SQL>connoracle/oracle

    2022年10月11日
    4
  • 大数据架构详解

    大数据架构详解

    2026年3月16日
    2
  • JS中的prototype[通俗易懂]

    JS中的prototype[通俗易懂]JS中的phototype是JS中比较难理解的一个部分本文基于下面几个知识点:1原型法设计模式在.Net中可以使用clone()来实现原型法原型法的主要思想是,现在有1个类A,我想要创建一个类B,这

    2022年7月1日
    27
  • python贪吃蛇代码-Python编写简单的贪吃蛇核心代码[通俗易懂]

    python贪吃蛇代码-Python编写简单的贪吃蛇核心代码[通俗易懂]时间:2018-11-14概述:贪吃蛇Python贪吃蛇完整代码,代码注释比较多,可学习一下Python编写游戏的一些基本技巧,代码分享如下:#coding=utf-8importcursesimportthreadingimportrandom#importmsvcrt#fromcursesimporttextpad#!!!addch(y,x,ch)stdscr=curses….

    2022年8月10日
    20

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号