分布式(集群)文件系统的设计

分布式(集群)文件系统的设计

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。



本文讲的分布式文件系统,是通过集群来实现的,因此也是集群文件系统。本文介绍下分布式文件系统中的常见问题及GFS中给出的解决方法。


设计要点:
性能
提高性能的方法就是并行,讲一个任务分解成多个任务,同一时候运行。

GFS中的思路是将文件分块,每一个块是一个chunk,每一个chunk单独保存,保存chunk的节点叫chunkserver。对文件的读写,能够转成对chunk的读写,不同的chunk能够并行运行,提高效率。每一个chunk有唯一的一个chunk handle表示,chunk的大小(chunk size)须要依据应用特点决定。chunk size过大,影响并行度;过小,占用很多其它的metadata空间,很多其它的chunk解析时间。


高可用性(availability)和可靠性(reliability)
可用性指系统平均宕机时间占总使用时间的比例,越小越好。
可控性指系统的平均无故障执行时间,越长越好。

高可用性能够通过硬件冗余(redundency)实现,当一个硬件不能工作的时候,迅速切换到备份系统。缩小切换时间能够添加�系统的可用性。
提高容错性(fault tolerance)能够提高系统的可靠性,一个component失效,不会影响总体的功能。

GFS中採用的就是硬件冗余的方法来实现高可用和高可靠。master和chunkserver都有备份,对于chunkserver,有3个节点互为备份,备份以chunk为单位进行。
master採用主备(master/slave)方式备份。master主节点(primary master)会将自己的状态信息(operation log和checkpoint)同步到备份节点上,当主节点不可用时,备份节点能够新的主节点使用。


chunkserver採用负载均衡(load balance)方式备份。每一个chunk会被保存在3台chunkserver上,每一个chunkserver都会參与处理请求。对于读请求,会选择距离client较近的chunkserver;对于写请求,master会选择一个primary replica,由primary replica负责将client的数据同步到其它的备份节点上。


可扩展性
集群的规模能够依据须要动态扩展,主要指存储能力的扩展性,即添加�chunkserver的能力。为了支持动态扩展,须要做到chunk保存位置的透明性(Location transparency),用户不须要知道每一个chunk保存在哪些机器上,而是由系统动态维护。这样系统中chunkserver的添加�和降低就不会影响client的使用。

GFS中的思路,採用一个master节点来保存全部的元数据(metadata),实现chunk的位置透明性。
master的主要工作:
文件的namespace管理
  类似于传统文件系统中的文件夹结构,维护系统中已有的文件。
将文件映射成chunks
  每一个文件由若干个chunk组成。从client看来,chunk由0開始编号直到N。master须要将chunk的逻辑编号(0,1,…N)映射为内部的chunk     handle(chunk的唯一全局标示符)。
chunk位置管理
  记录每一个chunk所属的chunkserver的位置,每一个chunk会保存在多个chunkserver上。依据这个信息,能够实现chunk的位置无关性。master会和每一个chunkserver通信,已得到每一个chunkserver上保存的chunk信息。创建新的chunk时,master也会依据一定的算法来选择chunkserver(默认选择3台,存放3个备份)来保存chunk。
容错处理
  系统执行中,可能出现chunkserver损坏的情况。master须要将这台机器上所保存的chunk进行又一次部署(re-replicatoin)。还有随着机器的添加�,还要对chunk存放进行又一次的平衡(rebalancing,chunk migration between chunk servers)。

元数据保存和备份、恢复

上述功能的实现都依赖于metadata,metadata主要保存在内存中。系统中对文件的更改操作(mutation)都会记录操作日志中(operation log,这个日志类似于关系数据库系统中的日志)。内存中的metadata也会以checkpoint的形式存放在磁盘上。依据一个checkpoint和在其上进行的operation log,就能够恢复系统的状态(在checkpoint基础上重放运行过的全部操作就可以)。master就是将checkpoint和operation log备份到其它机器上,来实现备份恢复。



一致性模型(consistency model)

一致性指当一个client更改了文件的内容时,其它的clients是否能看到这些内容,何时看到。

GFS中採用的是强一致性(strong consistency model)模型,这个模型中,当一个client改动完毕后,其它的全部clients都会立马看到改动(无论client是从哪个备份读)。这个和普通的单机文件系统是一致的。GFS中没有提供的文件读写的并发控制,当多个client同一时候进行更改操作时,文件内容是不确定的(undefined)

并发控制(concurrency control)

当有多个client同一时候运行某个操作时,要保证系统的正确性。

GFS中对文件namespace的操作时原子操作,及多个client同一时候使用不会产生问题,内部有一定的并发控制策略(通过锁lock机制实现)。但对文件内容的读写没有提供并发控制。

GFS还提供了还有一种原子操作,附加记录(Atomic Record Appends)。

总结:
这些问题在每一个分布式文件系统中都会出现,不同的系统可能有不同的解决方法。在学习的时候,能够先关注这些点。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/118611.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Django流程_菜鸟裹裹收费标准

    Django流程_菜鸟裹裹收费标准Django教程一、Django安装1、Django版本对应的Python版本:2、Django下载地址:3、安装(无需下载)4、验证安装cmd进入python获取版本信息一、Django安装1、Django版本对应的Python版本:2、Django下载地址:https://www.djangoproject.com/download/3、安装(无需下载)打开cm…

    2022年9月8日
    0
  • windows server搭建邮件服务器(开源邮件服务器系统)

    使用WinmailServer轻松架设邮件服务器准备工作  WinmailServer是一款安全易用全功能的邮件服务器软件,不仅支持SMTP/POP3/IMAP/Webmail/LDAP(公共地址簿)/多域/发信认证/反垃圾邮件/邮件过滤/邮件组/公共邮件夹等标准邮件功能,还有提供邮件签核/邮件杀毒/邮件监控/支持IIS,Apache和PWS/短信提醒/邮件备份/TLS(

    2022年4月17日
    1.3K
  • 扫清盲点,如何正确的从HttpClient 3.x系统升级到HttpClient 4.x

    扫清盲点,如何正确的从HttpClient 3.x系统升级到HttpClient 4.x如果周期比较长的项目,或者这个项目开发人员换过了好几拨人,很有可能出现一些奇怪的问题,比如一个项目中出现了多种Spring注入bean的方式,不同版本的jar冲突等等爬虫项目有的时候更是过犹不及,拿模拟登陆来说,开发人员的迭代,每个人的风格和技术各不相同,模拟登陆的方式也是五花八门,早在之前看到过一个项目的源码,其中使用HttpClient也是各种风格,虽然官方已经强烈建议使用HttpClie…

    2022年7月22日
    11
  • java编写定时程序_java编辑器

    java编写定时程序_java编辑器Java定时器代码的编写在某些时候,我们需要实现这样的`功能,某一程序隔一段时间执行一次,而这一事情由系统本身来完成,并不是人为的触发,我们一般可称此为定时器任务.其实到Java中,实现起来是非常简单的,下面我们以每隔5秒钟打引一句”Helloworld”为例:importjava.util.TimerTask;publicclassTimeTastextendsTimerTask…

    2022年9月17日
    0
  • 华为裁员34岁以上程序员?90后的中年危机,即将到来!

    华为裁员34岁以上程序员?90后的中年危机,即将到来!原创: 小七 AI商学院 前天新的职场潜规则!去年,一条职场潜规则走红网络:不要大声责骂年轻人,他们会立刻辞职的,但是你可以往死里骂那些中年人,尤其是有车有房有娃的那

    2022年7月1日
    32
  • 命令解压war包_tomcat war包不解压

    命令解压war包_tomcat war包不解压把java程序打成war包。起先用zip命令打包,起先可以用,后来却无法使用。今天找到一个更好的办法。用jar命令,前提是要安装jdk。操作:1、把当前目录下的所有文件打包成game.warjar-cvfM0game.war./-c创建war包-v显示过程信息-f-M-0这个是阿拉伯数字,只打包不压缩的意思解压game.warjar-xvfgame.war解压到当前目录…

    2022年10月24日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号