hdfs的八大安全和可靠策略总结和设计基础与目标[通俗易懂]

hdfs的八大安全和可靠策略总结和设计基础与目标[通俗易懂]hdfs的八大安全和可靠策略总结和设计基础与目标

大家好,又见面了,我是你们的朋友全栈君。

hdfs 全称:Hadoop Distributed File System Hadoop分布式文件系统

设计基础与目标:

a: 硬件错误是常态。因此需要冗余

 冗余对hadoop来说不是额外功能,而是本身就需要的一个功能,这个很好理解,就是因为各个节点容易断掉,为了数据的安全性和可维护性,故需要冗余。

b:内存的不稳定,cpu过热,硬盘损坏等等,节点duan掉。 
c:流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析,而不是事务处理

hadoop很少处理oltp(偶尔随机性的读写一些数据)

d:大规模数据集 
e:简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即文件时一经写入,关闭,就再也不能修改了

如果要修改,只能把原来的数据删除了,再插入。

f: 程序采用数据就近原则分配节点执行

对于一个系统,安全可靠是企业的首选,那么hadoop给我们提供了那些安全策略呢?

(1):冗余副本策略

 可以在hdfs-site.xml中设置复制因子指定副本数量
    所有数据库都有副本
    Datanode启动时,遍历本地文件系统,产生一份hdsf数据库和本地文件的对应关系列表(blockreport)汇报给namednode,namenode会将列表和自己的元数据记录的数据是否相符做出措施
   (冗余的数量过小,难保证数据安全,备份过多,会导致空间的利用率过低,影响速度,降低性能)

(2)机架策略

机架一般放在不同的机架上,机架间带宽要比机架内带宽要小.
HDFS的"机架感知",交换机之间的通讯问题。
节点间传递信息包,以感知是否存在同一个机架上。
一般在本地机架上存放一个副本,在其它机架上再存放别的副本,这样可以防止机架失效时丢失数据,也可以提高带宽利用率(冗余策略)。
这样的话防止整个机架失败的时候,数据找不到冗余了隐患。

(3)心跳机制

 Namenode周期性的从datanode接收心跳信号和块报告。
    数据节点会周期性的向Namenode发送blockreport,向它在本地文件系统中数据块和文件的对应关系。
    Namenode会根据接收到的心跳信号和快报告验证元数据有没失效,如果不一致,则进行相应的修正和冗余的策略。
    Namenode根据块报告验证元数据。
    没有按时发送心跳的datanode会被标记为宕机,不会再给它任何的I/O请求。
    如果datanode失效造成的副本数量下降,并且低于预先设计的阀值(在那个地方设置的阈值),Namenode会检测出这些数据块,并在合适的时机进行重新复制。
    引发重新复制的原因还包括数据副本本身损坏,磁盘错误,复制因子被增大等。

(4)安全模式

Namenode启动时会先经过一个"安全模式"阶段。
    安全模式阶段不会产生数据写。
    在此阶段Namenode接受各个datanode的报告(blockreport),当数据块达到最小副本以上时,也就是Datanode的副本数,会被认为是"安全"的。
    在一定比例(可设置)的数据块被确定为"安全"后,再过若干时间,安全模式结束。
    当检测到副本数不足数据块,该快会被直接复制到达最小副本数。

(5)校验和

在文件创立时,每个数据块产生校验和。
    校验和会作为单独的一个隐藏文件保存在命名空间下。
    客户端获取数据时可以检查校验是否相同,从而发现数据块是否损坏。
    如果正在读取的数据块损坏,则可以继续读取其它的副本如果发现错误,则在快报告中向namenode汇报,并做出相应的措施

(6)回收站

 删除文件时,其实是放入了回收站/trash。
    回收站里的文件可以快速恢复。
    可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值,就会被彻底的删除,并且释放占用的数据块。

(7)元数据保护

映像文件和事务日志是namenode的核心数据,可以配置为拥有多个副本。hadoop 2.x之后就是secondaryNamenode
    副本会降低Namenode的处理速度,但增加安全性。
    如果Namenode依然是单点,如果发生故障要手工切换。使用zookeeper热备就会自动切换处于standby的namenode

(8)快照机制

可能随着数据越来越大,现有的节点已经不能满足当前需求,需要新增加节点以扩充加快的速度,那么怎么增加新的点呢,只能去停掉整个集群然后操作吗?那其实也可以的,只要你的费用支持的起。 

一般来说只要重新加数台机器,做以下步骤:

a:在新节点上安装好hadoop
b:把namenode的有关配置文件复制到该节点
c:修改master和slaves文件,增加节点(每一个节点都要改,采用脚本技术)
d:设置ssh免密码登陆该节点
e:单独启动该节点上的datanode和tasktracker(hadoop-daemon.sh start datanode/tasktracker)
f:运行start-balancer.sh进行数据负载均衡

这样就能岁数据量的增加而不断加机器了。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106125.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • top命令查看内存信息_ubuntu查看cpu信息

    top命令查看内存信息_ubuntu查看cpu信息top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。top显示系统当前的进程和其他状况,是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最“敏感”的任务列表.该命令可以按CPU使…

    2022年9月24日
    0
  • pycharm远程调试python_pycharm怎么运行一个项目文件

    pycharm远程调试python_pycharm怎么运行一个项目文件pycharm远程开发项目的实现步骤你是不是在学习python的时候在使用虚拟机系统进行开发,来回切换很是不方便,那么今天给大家推荐一个pycharm强大的功能。接下来我们利用这个django项目创建一个子app,测验一下是否真的能如此操作python@ubuntu:~/Desktop/Remote_Django$pythonmanage.pystartappusers很完美!,接下来告诉…

    2022年8月26日
    2
  • 深度相机(TOF)的工作原理

    深度相机(TOF)的工作原理文章目录深度相机(TOF)的工作原理TOF由什么组成?一、TOF相机采用主动光探测,通常包括以下几个部分:二、TOF是如何测距的呢?三、TOF会受什么影响?四、那TOF相机最后输出的是什么呢?深度相机(TOF)的工作原理TOF(Timeofflight)直译为“飞行时间”。其测距原理是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到目标物距离。这种技术跟3D激光传感器原理基本类似,只不过3D激光传感器是逐点扫描,而TOF相机则是同时得到整幅图像的深度(

    2022年5月25日
    46
  • 贴片电阻快速识别表与识别方法_电阻的识别方法

    贴片电阻快速识别表与识别方法_电阻的识别方法有时候认为自己已经理解的知识,其实并没有理解,比如看贴片电阻阻值。

    2022年8月21日
    4
  • 3D编程软件(3d动画需要编程吗)

    本篇文章中,我们学习了UnityShader的基本写法框架,以及学习了Shader中Properties(属性)的详细写法,光照、材质与颜色的具体写法。写了6个Shader作为本文Shader讲解的实战内容,最后创建了一个逼真的暴风雪场景进行了Shader的测试。依旧是国际惯例先上本文配套程序的截图。先是一张远眺图:

    2022年4月11日
    35
  • ExpandableListView实例(一)_数据库增删改查处理和listitem点击长按处理

    ExpandableListView实例(一)_数据库增删改查处理和listitem点击长按处理本例说明:1.实例中表现层与数据处理层分开,代码可复用性强,如果能看懂代码对算法会有提高.2.组和子条目上”点击”事件处理,能够区分操作的是组还是子条目,并且得到组和子条目的内容.3.组和子条目上”长按”事件处理,能够区分组和子条目,并且得到组和子条目的内容.4.自定义条目样式,灵活与数据库中字段绑定.5.实现对DB的增删改查,并且操作后自动刷新.6.使用数据库处理框架AH

    2022年6月23日
    27

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号