从断电到恶劣天气再到网络犯罪,灾难事故随时都可能发生。然而,不管危机有多大,数据中心都必须一直保持高速运转,为客户提供稳定安全的数据中心服务。为确保在紧急情况下的正常运行时间,对于企业快速恢复生产力,一个深思熟虑的备灾计划是十分重要的。
虽然停电一直是数据中心一直关注的核心问题,但这个问题已经变得越来越普遍。根据最近 Uptime Institute的一份报告称,这一趋势归因于混合IT的复杂性,这种复杂性正导致许多企业陷入困境。该调查还显示,虽然一个普通的数据中心正在很好地利用其能源,但它更有可能遭遇断电。与去年相比,断电造成的后果也更大。
由于数据中心发现自己更容易受到停机威胁,因此有必要后退一步,评估当前的灾难恢复程序。
要求备份
在大多数的数据中心环境里,防止停机的第一步是使用可靠的不间断电源系统(UPS),这通常与备用发电机一起使用。这些系统能够有效帮助企业避免数据丢失和硬件损坏,在断电事件发生时维持网络和其他应用程序正常运行。由于这些系统对业务的连续性是非常重要的,因此在评估部署所带来的特性和功能时一定要小心。
组织使用UPSs时要考虑的主要因素之一是“弹性”。例如,在紧急情况下,需要多少电池备用时间来关闭系统或切换到备用发电机?冗余是另一个因素。维护UPSs有助于确保备份电源始终可用,如果单个模块出现故障或需要离线服务的,冗余UPS系统仍能提供足够的电力。
评估备灾准备时,考虑如何将电力输送到关键设备也很重要。在某些情况下,数据中心可以直接将负载插入UPS。在其他情况下,可以部署具有多个输出的功率分配单元(PDU)来分配电力,这在机架环境或位于数据中心内的网络设备中特别有用。
正确的监控方式
操作一个没有电源管理软件的UPS就像是开车没有仪表盘。UPS解决方案与监控和管理软件相结合,是数据中心管理人员获得加强可见性的完美补充。当今领先的电源管理软件解决方案所提供的最大好处之一是能够与通用虚拟化平台集成。这些系统提供了在物理或虚拟环境中监视和管理电力设备所需的工具,允许用户远程监视、管理和控制组织网络上的UPSs和其他设备,从而帮助确保正常运行时间和数据完整性。UPS可以与系统管理程序一起工作,在设备断电或恶劣天气事件期间自动启动数据迁移到灾难恢复站点。从回顾事件历史和提供警报到提供实时状态和自动化问题解决,这些工具可以用来帮助关键设备运行。
一些解决方案还利用了预测性分析服务的进步,这可以帮助组织将电力监控策略从被动转向主动。通过从连接的电力基础设施设备收集和分析数据,这些解决方案允许工作人员在关键电力组件发生故障之前预测它们。维修或更新可以安排在方便的时间,避免紧急服务呼叫,并利用方便的维修窗口。而且,随着这些系统越来越先进,它们将使组织的整个电力基础设施(包括UPSs、PDU和跨多个供应商和平台的其他集成电力系统)得到更集中、更高效的管理。
检查
一般来说,为了避免意外故障,我们的车辆需要定期进行预防性维护,包括定期换油和调优。这与确保UPSs和其他电源管理系统的持续最佳性能是一样的
最近的一项研究发现,每年进行两次预防性维护的客户,其负载损失事件导致意外停机的可能性要低四倍。
常规服务检查可以帮助我们在各种疾病变得严重和昂贵之前发现它们。一名受过培训的技术人员可以带领数据中心在电话中通过检查、评估UPSs、测试电池以及检查其他关键部件(如风扇、电容器和内部连接)。如果数据中心有发电机,定期对其进行测试也很重要,以确保在出现长期停机时,能持续地提供应急电源。
展望未来
在一天结束的时候,数据中心的电子系统会有很多问题。计划外的停电会对运营造成毁灭性的影响,并耗费大量的资金。为优化电力系统并避免停机的危险,企业和他们的IT团队都需要做好充分且良好的防御准备。