莫忽视数据中心的可靠性

莫忽视数据中心的可靠性

大家好,又见面了,我是全栈君。

历史教训告诉我们,不能忽视数据中心的可靠性,一旦出了严重的故障,对于数据中心可能就是致命的,一次故障可能就会使得数据中心“一夜就回到解放前”。根据数据中心自身的实际情况,部署切合实际的冗余备份设计方案,将使数据中心终身获益。

 数据中心

保持业务全年无中断运行是最能体现数据中心能力的一方面。现在的数据中心系统组成复杂,要确保没有故障出现,几乎不可能。每年都会有很多著名的大型互联网公司被爆出其数据中心出现故障,有的业务甚至要数个小时才能恢复,这给数据中心的业务带来了严重的损失。所以,重视数据中心运行的高可靠性显得至关重要。

曾经的马来西亚航空公司也是受人尊敬的航空公司之一,然而最近两年出了两次的重大坠机事故后,竟然面临着关门的境地。对于数据中心也是一样,以前没有出过故障,并不代表以后都不会出,一旦出现一次严重的业务中断,对数据中心业务的影响就是多方面的,不仅仅是金钱上的损失,还有数据中心承载业务的声誉。一旦人们认为这个业务是不稳定的,有风险的,人们宁愿弃之不用,在科技如此发达的今天,没有什么业务是不可替代的,或者找不到替代品,数据中心能否提供持续稳定的业务运行至关重要。最近,显然发生了不少数据中心故障,影响面都比较广,真可以称得上是“黑色五月”了。5月11日,网易因骨干网络遭受攻击,导致了网易旗下部分服务暂时无法正常使用,当时还传言是网易广州大楼发生爆炸,导致其旗下多款游戏无法登陆,不过后来证实的确是谣传。紧接着5月27日,支付宝因为杭州市萧山光纤被挖断,也出现了用户无法正常使用的问题。这起事故,导致全国许多地方的用户都无法使用支付宝,直到两个小时后才恢复正常。然后是5月28日,携程网因为部分服务器受到不明攻击,导致官方网站及APP暂时无法正常使用,携程网主页里的二级页面无法打开,这造成了携程网业务损失一百多万。这类数据中心故障在不断地上演着,虽然故障已经恢复,但是却留给了我们深深的思考。

数据中心这几年发展非常火爆,各地都是新建或扩建数据中心,在数据中心设计上应该更加考虑运行的可靠性、冗余性的设计。如果数据中心三天两头地故障,拥有再多的服务器,拥有再好的网络也是白费,没有人愿意使用一个总也不稳定的业务系统。如果动不动网页就无法访问,动不动自己的保密信息就出现了丢失,这些故障对于数据中心都是致命性的。我们通常用五个九,即99.999%,来衡量一个数据中心的可靠性,如表1定义了数据中心的可靠性级别,数字9越多代表数据中心的可靠性越高:

莫忽视数据中心的可靠性

数据中心属于哪个级别的,主要是基于过去数据中心运行的数据得到的,所以不能代表以后。也许一个数据中心以前从来没有出过长时间的业务中断事故,可靠性达到了99.999%,但只要出现一次长时间故障,就可能一下子变成了99%,这对数据中心业务的打击是非常大的。为了提升数据中心的可靠性,数据中心必须要引入一些冗余备份机制。其实我们也相信支付宝的数据中心也肯定有冗余备份,断掉一根光纤都能让业务中断二小时,说明支付宝的数据中心本身设计上是有问题的,至少备份没有起到应有的作用。通过备份确保出现故障时,业务流量依然可以有别的通道可走,保持业务的连续性。当支付宝的链路光纤断掉后,应该有其它的备份链路转发流量,这种通过链路聚合或者等价路由这种成熟的技术就可以完成备份。显然支付宝故障不是光纤中断那么简单,也许是光纤中断引发了其它方面的问题,造成了整个系统的瘫痪。数据中心是一个复杂的信息系统,冗余设计也不是通过几个备份链路、等价路由就可以完成的,需要的是全面的规划设计,确保任何一个环节都有备份机制。

当然,要实现所有地方都有备份,将大大增加系统的复杂性,反而会大大降低数据中心的处理性能。过于复杂的冗余设计就可能是画蛇添足,起到反作用。而且引入过多的冗余机制,将消耗大量的资金和设备,给数据中心运行带来沉重负担,所以也不是什么地方都要备份。在业务故障可容忍的范围内,部署高效的冗余设计,才能使得数据中心高效地运行。提升数据中心业务不间断的处理能力,是数据中心的一项持久性工作,贯穿于数据中心的整个生命周期中。数据中心运维人员应该具有如履薄冰的心态,在日常的工作中,勇于发现系统的缺陷,及时完善,做好各种故障模拟的补救措施。在数据中心的运维工作中,也要经常进行故障模拟演练,考验数据中心系统的冗余设计是否有不完善的地方,不断进行优化和改善。很多的冗余备份设计可能并不符合实际,在一些异端情况下甚至起不到备份的效果,这就需要主动做一些故障演练,检验冗余备份设计是否满足设计要求。以便一旦真的出现了故障,数据中心可以从容应对。对于一个拥有数万台设备的数据中心,软硬件故障可能天天都在上演,在这种情况下,要保持业务的稳定运行,需要做大量的冗余设计工作。对可能出现的异常状态,提前进行模拟规避,提升数据中心的可靠性。历史教训告诉我们,不能忽视数据中心的可靠性,一旦出了严重的故障,对于数据中心可能就是致命的,一次故障可能就会使得数据中心“一夜就回到解放前”。切记,莫忽视数据中心的可靠性,根据数据中心自身的实际情况,部署切合实际的冗余备份设计方案,将使数据中心终身获益。


作者:何妍 

来源:51CTO

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/108195.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • dede 你所上传的软件类型不在许可列表,请更改系统对扩展名限定的配置

    dede 你所上传的软件类型不在许可列表,请更改系统对扩展名限定的配置

    2021年9月25日
    55
  • c++入门教程–-18指针

    c++入门教程–-18指针

    2021年3月12日
    138
  • 深入浅出MFC-读书笔记

    深入浅出MFC-读书笔记不想去成为一个伟大的程序员,只想成为一个具有良好习惯的优秀程序员。第一章:Win32基本程序观念我也赞同书中所讲,应用MFC框架开发Windows程序需要深入到底层,如果只停留在表面应用知其然而不知其所以然,这样会限制你更好的应用MFC框架。Win32程序开发流程下图说明一个32位WindowsSDK程序的开发流程:Windows程序分为…

    2022年6月16日
    33
  • 从单一到融合,扫地机器人导航技术的“最优解”?

    从单一到融合,扫地机器人导航技术的“最优解”?人工智能浪潮下,智能家居产品层出不穷,但纵观行业发展能真正走入家庭中的产品屈指可数,而扫地机器人却是其中的“网红产品”。根据中怡康数据显示,2013年,我国扫地机器人市场规模仅为8.4亿元,而到了2020年,市场规模已达到94亿元。快速增长的市场同时也在倒逼扫地机器人的性能不断提升“下限”,尤其智能化已成为扫地机器人的高附加值特征。循次渐进,扫地机器人正逐步“完善”在经历2019年的市场寒潮后,2020年扫地机市场快速回暖,除了受疫情影响之外,最关键的原因仍是扫地机器人技术的创新和进步。尤其是各

    2022年5月30日
    33
  • idea用激活码过几天就不行了_通用破解码

    idea用激活码过几天就不行了_通用破解码,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月15日
    67
  • 多项式分布的理解概率公式的理解「建议收藏」

    多项式分布的理解概率公式的理解「建议收藏」多项式分布是二项分布的推广。二项分布(也叫伯努利分布)的典型例子是扔硬币,硬币正面朝上概率为p,重复扔n次硬币,k次为正面的概率即为一个二项分布概率。而多项分布就像扔骰子,有6个面对应6个不同的点数。二项分布时事件X只有2种取值,而多项分布的X有多种取值,多项分布的概率公式为  这个公式看上去像是莫名其妙地冒出来的,想要了解它首先必须要知道组合数学中的多项式定理。多项式定理:当n是一个正整数时…

    2022年10月12日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号