数据中心机房作为海量数据的关键载体,其安全性是整个计算机信息系统安全的前提,但它往往又很脆弱,总是牵一发而动全身,特别是机房火灾,一旦发生火灾总会造成不可挽回的损失。
数据中心失火,360万个网站被迫下线
欧洲云计算巨头OVH 位于法国斯特拉斯堡的机房近日发生严重火灾,该区域总共有4 个数据中心(Strasbourg Data Center),发生起火的SBG2 数据中心被完全烧毁,另有一个数据中心SBG1 的建筑物部分受损。出于安全起见,OVH位于斯特拉斯堡的全部数据中心暂时关闭了服务。这场大火彻底摧毁了五层高、占地 500 平方米的SBG2 数据中心,并导致相邻SBG1 服务器发生损坏。但消防人员及时赶到,保护SBG3 与 SBG4免遭冲击。OVH公司目前在欧洲运营有15 处数据中心,其中有4 处位于斯特拉斯堡园区。园区内另有1 处新数据中心在建。在消防员们成功平息火势之后,OVH立即介入并对斯特拉斯堡园区的数据中心设施进行盘点。该公司发现,SBG2的某一房间在当天 00:47发生大火,主体建筑在04:09被完全摧毁。位于莱茵河毗杜港莱茵工业区的SBG1 数据中心同样受到影响。当时,园区全部4 处数据中心均离线。
这场大火对欧洲范围内的众多网站造成严重影响。据Netcraft 称,目前跨464000 个域的多达360 万个网站皆已下线。Rust 旗下的游戏工作室Facepunch Studios证实,有一批服务器被烧毁后,所承载的数据已在这场大火中全部丢失。即使数据中心重新上线后,也无法恢复任何数据。
OVH机房失火。图源:互联网
热浪滚滚:危机四伏的夏季
数据中心设备多、能耗高。盘点一下这些年发生的数据中心事故,可以看到,每次事故总会造成难以预估的重大损失:
2022年7月
位于伦敦的谷歌云数据中心出现了故障。据谷歌公司发布的报告称,事故肇因是“多个冷却系统同时发生故障”,且适逢伦敦极端高温天气,外部温度异常高,机器无法维持安全的工作温度。这一宕机事件直到翌日早上才恢复。
2021年12月
位于雅加达南部库宁安的Cyber1 大楼发生火灾,导致许多 互联网服务和数据中心中断。该建筑是雅加达数据中心APJII-Cyber的 互联网交换站。
2021年5月
欧洲云计算巨头OVH位于法国斯特拉斯堡的机房发生严重火灾。据悉,火灾导致360万个网站瘫痪,部分客户数据完全丢失且无法恢复。
2021年5月
位于广东深圳的国内某数据中心头部运营商机房大楼管路发生火灾,导致许多托管服务器网络中断。
2018年11月
韩国三大电信运营商之一KT位于首尔市中心的大楼发生火灾。由于通信设备受损,此次事故导致韩国的警察、医院、金融等社会基础设施被迫停转。
2018年8月,东京某建筑发生火灾,该建筑为建设中的亚马逊AWS东京数据中心。大火燃烧了8个小时,导致5人死亡,50人受伤。
2017年4月
北京邮电大学网络数据中心突发火灾,起火原因系UPS蓄电池组故障。众多北京高校校园网纷纷崩溃。
2015年10月
微软Azure上海数据中心由于机房着火断电发生故障,导致Azure无法提供正常服务,影响了包括金融、互联网、房地产在内的行业用户。
2014年7月
重庆农商行数据中心发生火灾,整个机房全部烧毁。据传,直接损失达一亿以上。
在数据中心发生的各类事故中,火灾事故占比极大。常见的起火原因包括:
01UPS电池起火
02负载过大导致的局部热点起火
03空调设备或电气设备故障短路起火
04其他建造区的火焰蔓延引起的二次火灾
05高温、雷击等自然天气起火
数据中心里,大量计算机集中运行,本身就会产生巨大的热量,为了让服务器及时散热,冷却系统必不可少。加之近年来,夏天越来越热,酷暑高温天越来越多,外界温度的变化对数据中心的冷却压力也随之增大。今年7月,英国出现了两天创纪录的极端高温。结果也正如我们所见,谷歌位于伦敦的数据中心冷却系统因此“中招”。业内人士表示,通常来说,数据中心在设计时就会考虑能否耐高温和火灾预警这一系列问题,但现在的极端自然天气已远远超出许多数据中心运营者的预判。
应对极端时间,数据中心灾备新思路
相对于陆地其他商业建筑设施而言,专业的数据中心一般都具备成熟的消防系统和抗灾设计。尽管如此,极端天气、自然灾害以及人类活动导致的数据中心中断事故依旧时有发生。
难道对于数据中心来说,火灾威胁就真的如此让人防不胜防吗?
面对这个问题,我们不妨使用近年流行的“第一性原理”扒一扒引起火灾的本质因素。众所周知,燃烧发生是有条件的,可燃物、助燃物、点火源是燃烧的三要素,三者结合是燃烧发生的必要条件。布满电线和隔热管道的机房没法避免可燃物的使用,全天候运行的电子设备和现场运维的人员活动随时都有可能产生意外的点火源,那么让服务器脱离助燃剂似乎成了解决机房火灾的有效方向。
地球上火灾中最常见的助燃剂就是氧气,那么是否存在一个无氧的数据中心方案呢?
近两年,在业界最具创新性的数据中心方案无疑就是海底数据中心(UDC)了。海底数据中心(UDC)依靠海水作为天然屏障,将数据中心关键设施和IT设备部署在一个充满氮气的压力容器中,给IT设备创造了一个密闭、无氧、无人的稳定环境,这样的环境是从燃烧根源上消除了火灾隐患,UDC可以算是具备极致的防火灾属性了。
另外,根据美国空军统计(如下图所示,来源US Air ForceAvionics IntegrityProgram)在导致电子设备失效的因素中,温度占55%、振动占20%、湿度占19%、灰尘占6%。海底数据中心(UDC)给IT设备提供的是一个温度和湿度更加稳定的无氧的密闭环境,且消除了人类活动带来的粉尘和抖动对电子设备的消极影响,理论上UDC方案可以极大地提升IT设备的可靠性。事实上,于2020年8月份完成2年试运行的微软Natick二期也证实了这一理论: “服务器在海底、密闭惰性气体环境中工作,故障率只有陆地机房的八分之一”。
数据中心的重要性和特殊性无需赘言,但近年来,我们看到数据中心发生爆炸、失火、断电等事故的新闻越来越多。尤其是随着极端高温天气的频频出现,骄阳似火的夏天对数据中心来说逐渐变成一个“劫”。面对陆地上超乎人类预测的极端天气和自然灾害,以及防不胜防的人为意外,海底数据中心将是一种创新且有效的灾备数据中心形态,给关键业务提供了更深层次的“ 保险”方案。