为了最大限度地延长数据中心的正常运行时间,许多组织尝试通过采用多种方法来管理其数据中心运营以降低风险。其基本要求可能很好地表明可以保证一定程度的可靠性或鲁棒性。组织要求将最新的技术创新融入数据中心的设计和建设中,这的确可以为数据中心持续提供服务做出贡献,但在这里需要强调的是“可能”一词。数据中心的运营专业化和更重要的运营表现的关键不是理论上能做到什么,而是在现实中是否可以付诸实践。
不要过度复杂化
多年来的经验证明,过度复杂的设计和规格实际上会增加数据中心停机时间的可能性,因为不必要的复杂系统在发生故障时可能难以维护和修复。调查表明,数据中心的停机时间的75%都是由于人为错误造成的,那么最明智的做法是暂时不要采用尚未成熟的新技术,避免复杂的设计,并简单地实施更容易操作和维护的系统。
而那些利用以往在设计、调试和运营数据中心时学到的知识的工程师能够更好地避免失败的情况,并实现安全运营。而以运营和经验主导的数据中心运营商能够将这些知识重新投入到数据中心的设计和施工中。
事实表明,最有效的方法可以管理任何类型的风险,例如,在任何可能的情况下避免单一的故障点。其目的是遏制一些相对较小的问题,防止它们在数据中心设施内升级成为主要问题,但不幸的是,并非所有的单一故障点都是显而易见的。
例如,如果工作人员使用建筑管理系统(BMS)远程启用/禁用关键设备,则简单的软件故障可能会关闭正常运行的设备,从而导致租户无法使用服务。因此,良好的实践表明,最好保持简单性,并在客户使用服务之前测试每种故障的可能性。当然,解决方案越简单,在满负载集成系统测试(IST)期间就越有可能测试每种可能发生的情况。
要现实一些
数据中心运营商最终会根据其实现情况进行判断,未能达到服务等级协议(SLA)只会导致未达到运营目标并引发惩罚条款。确保服务等级协议(SLA)实用、可行和可实现的最佳方法是采用以工程为主导的方法来管理运营。换句话说,服务等级协议(SLA)看作是工程的数字功能,而不是合同的谈判要素。客户完全了解数据中心停机时间或故障间隔时间(MTBT)是非常重要的。必须采取设计和调试决策对服务等级协议(SLA)和运营效率的影响。
例如,减少安装数据中心冷却管道的成本和时间可能被认为是实现提前完工日期的最佳方式,但采用塑料材质的管道可能具有成本效益,但它们也更容易开裂,最终可能会破坏冷却系统的正常运行。经验表明,采用塑料管道不值得冒这个风险,因为数据中心运营商可以解释为什么在大多数情况下需要花费额外的时间和成本来安装部署价格昂贵的钢管的原因。
利用经验
显然,数据中心运营商需要更加透明地了解不同系统、方法和认证的优缺点。他们需要倾听客户的要求,然后解释并证明他们的建议,即使这意味着采取建议将会实施其他行动方案,如果这符合客户的最佳利益,也可以考虑执行。如果服务等级协议(SLA)不具备技术上或运营上的可行性,它们应将服务等级协议(SLA)视为交付,并准备重新协商服务等级协议(SLA)的承诺。
毕竟,减少任何潜在的基础设施薄弱或可能阻碍灾难恢复能力或效率的操作复杂性的唯一途径是数据中心运营商利用其设计、调试和管理经验,并最终以专业人士的建议为准。