从天津塘沽爆炸事故思考数据中心的灾备设计

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享

 

在云计算,大数据的今天,数据中心的灾备非常重要,例如,专业设计上的“两地三中心”的数据中心设计–同城两个数据中心实时备份;异地数据中心的异步灾备。天津是北京数据中心重要的异地灾备的选择地. 在这次爆炸事件中, 数据中心的情况如何?

据不完全的统计,天津有国家超级计算天津中心,腾讯天津数据中心

,世纪互联,万国数据,华胜天成等等。其中, 腾讯的有20万台服务器。世纪互联方面,是国内最大的IDC,在天津有4个数据中心,其中有一个数据中心就是在滨海新区。 2012年,Pacnet的中国合资公司太平洋电信与天津市武清商务区签署了一项正式协议,在天津市武清商务区内共同打造一个全新的数据中心。这是一个可以提供2000个机柜的数据中心。 另外,中国电信天津武清IDC机房占地1800平方米,是中国电信北方区首个四星级电信级数据中心。

 

目前来看,万幸还没有报道上述数据中心出现宕机的报道。

 

伴随着互联网+,云计算,大数据的发展, 数据中心,灾备系统、灾备中心的建设成了非常重要的基础建设。社会对数据安全、应用安全有了强烈的需求。 在“两地三中心”的建设中,同城和异地的数据中心的选址都需要非常谨慎的考虑。并请专业公司设计。

 

亚马孙(Amazon)是世界上提供云计算的最好的公司之一。在过去的这些年里,数据中心也经常发生宕机现象。

 

下面是弯曲科技对AWS 2006-2014年数据中心事故的一些调查统计数据。从数据我们可以看见,电源和雷电引发的事故依然是数据中心宕机的最大原因,其次是存储系统。



 

从上述分析可见, 数据中心对自然灾难的抗打击能力是很脆弱的。对金融系统,政府和敏感单位数据,灾备数据中心的建设都需要非常谨慎。

(没有打分)

包云岗 。《数据中心与黑客帝国》(下)

 

包云岗:中科院计算所副研究员,主要从事高效数据中心(ResourceDfficient Datacenter)体系结构与系统性能评测分析方面的工作。个人主页: http://asg.ict.ac.cn/baoyg/ ,新浪微博: @包云岗。

大概在2012年夏天,那时我还在普林斯顿大学,思考过如何从计算机底层的体系结构入手支持资源管理,消除计算机硬件层次上的“无管理的共享”。当时普林斯顿计算机系有好几位教授正在开展软件定义网络SDN方面的研究,也邀请很多大牛来做报告,比如SDN主要发起人之一、UC Berkeley的Scott Shenker教授等。平时和朋友也经常会聊起一些SDN的技术问题。网络早就面临着多业务共享与服务质量的问题,因此QoS技术(如区分服务)也相对比较成熟。而SDN则可以通过标识网络包、增加控制平面、增加可编程机制使网络管理变得更灵活方便。

当时就有一个想法——“其实计算机内部也是一个小型网络,那是不是可以将SDN技术借用到计算机内部呢?”于是写了一个5页的备忘录,题目叫《Software Defined Architecture:The Case for Hardware-EnabledVirtualization》,就搁起来了。2012年10月份回到计算所后组建了一个小团队。所里很开放,让我自己选择研究方向和内容,于是我把在普林斯顿的想法拾了起来。但那只是一个很粗略的想法,我们经过大半年的调研与摸索,不断调整目标与技术路线,在2013年中有了比较清晰的思路。我们将这个思路凝练为一种新的计算机体系结构,叫“资源按需管理可编程体系结构PARD(Programmable Architecture for Resourcing on-Demand)”。

仍然用城市交通作为例子,PARD体系结构的核心设计理念其实很直观且易于理解:(1)将车辆根据不同的用途进行涂装并安装鸣笛,救护车是白色加红十字涂装,消防车涂装等(对计算机内部流动的数据包贴上标签);(2)在一些关键路口设置红绿灯,在加油站、维修站等服务点设置管理装置(在计算机内部关键位置增加控制平面);(3)制定交通规则,红绿灯对救护车、消防车等关键车辆可以随时放行,而其他车辆则需要等待绿灯放行,而那些服务点也是优先服务那些关键车辆(根据不同标签来区分处理数据包);(4)交通规则可由管理部门根据需要进行调整,比如道路上新出现一批武警巡逻车,就为它们设立一些管理规则(管理员可以调整处理规则)。

事实上,我们日常的交通管理正是采用了这些理念。只要执行严格到位,这样的交通管理系统能在保障救护车等关键车辆顺利通行的前提下提高道路利用率。而PARD体系结构也正是希望通过相同的设计理念实现计算机内部高效灵活的资源共享与性能隔离,从而在多种应用混合的数据中心环境下,能在保障关键应用的服务质量前提下提高资源利用率。

假设PARD技术被验证是可行的(也很可能是不可行的,因为还有太多不确定的未知因素,所以还需要更深入的研究),那么将会有很多新的应用场景。比如对于云计算,可以做到做到更有效的分级服务管理,类似于航空公司的VIP服务,有的愿意多交钱,享受更稳定的服务质量,甚至是一下特殊服务,比如硬件提供的加密或压缩服务。

目前PARD第一阶段软件模拟器验证已经初步完成,还在进行第二阶段FPGA原型系统验证,有了进一步进展后希望能跟大家汇报交流。

最后,简单聊几句另一个Matrix,即《黑客帝国》。我想《黑客帝国》设想了一种场景从技术框架上是可行的,今天的云计算模式其实正是朝着这个方向发展。数据中心就像是“母体”。在《黑客帝国》中,所有人都会接入到母体中,在虚拟世界中工作生活。而如今,我们也是通过各种移动设备接入到数据中心,越来越多的时间是在数据中心上度过的。就如我们刚过去的一个多小时,就是在腾讯的数据中心上度过的。等到哪一天,我们的脑机接口有突破,人们不再需要手机这种“原始”的设备,而是可以直接通过大脑来接入数据中心,那么《黑客帝国》中的场景可能真的会成为现实。谢谢大家!

(1个打分, 平均:5.00 / 5)

2013 & 硬件重构和软件定义

(6个打分, 平均:5.00 / 5)

关于云计算可用性的定性与定量分析

(没有打分)

Mirantis OpenStack

(没有打分)

The Datacenter as a Computer电子版

(没有打分)

关于云计算可用性的定性与定量分析(九)

(没有打分)

关于云计算可用性的定性与定量研究(八)

(1个打分, 平均:5.00 / 5)

关于云计算可用性的定性与定量研究(七)

(没有打分)

H3C . 《网络之路》(15-19)

网络之路(15)-安全接入专题

网络之路(16)-NAT专题

网络之路(17)-新一代数据中心专题

网络之路(18)-iMac专题

网络之路(19)-HA高可靠性专题

 

 

(1个打分, 平均:4.00 / 5)