运维不得不知道的事 数据中心断电如何做?

数据中心最不愿意见到的事情莫过于断电,这将会给运维人员带来很多的麻烦,所以很多数据机房都很乐意接受UPS电源,尤其是在线式UPS电源。 2017-09-22 09:10:41 运维数据中心断电 如何创建更好的灾难恢复计划 经典的一条是“你不需要备份策略,你需要一个恢复策略”。如果你有备份,但你尚未测试恢复它们,那么你没有真正的备份。测试不仅仅意味着知道你可以获得数据,还意味着知道如何把它放回数据库,如何处理增量更改,甚至如果你需要的话,如何重新安装整个系统。 2017-09-20 18:45:42 系统运维备份 Chromebook用户将很快能够实时监控处理器和内存使用情况 Chromium 用户 FrançoisBeaufort 今天透露,Google 的 Chrome 操作系统工程师已经设法实施了一项新功能,可让 Chromebook 用户实时监控 CPU,内存和 zRam 统计信息。

数据中心最不愿意见到的事情莫过于断电,这将会给运维人员带来很多的麻烦,所以很多数据机房都很乐意接受UPS电源,尤其是在线式UPS电源。

数据中心最不愿意见到的事情莫过于断电,这将会给运维人员带来很多的麻烦,所以很多数据机房都很乐意接受UPS电源,尤其是在线式UPS电源。近来,不少公司因为数据中心的电力中断而备受困扰,比如美国达美航空公司数据中心的电力中断,造成高达1.5亿美元的经济损失。又比如美国“超级碗”赛场断电,耽误赛事日程。

在运维过程中,数据中心面临着诸多的挑战,比如数据中心的运营费用,这就要求建立数据中心之前,进行预算和规划,又比如能源成本上升采用云主机托管,能源成本上涨可以通过使用新技术缓解,例如虚拟化和云主机托管,可以大大降低能源成本。再比如维护和冷却要求,数据中心设施和组件需要在适合的温度下全天不间断的工作,这就需要完善的冷却系统,以保持所需的温度。

[[204520]]

其实,数据中心还面临着沟通融合、基础设施要求、缺乏资源、服务器效率、数据中心安全、网络阻塞等挑战,在这其中,数据中心挑战也占据着重要的位置,那么是什么原因导致断电,操作员的误操作、停电,也有可能是服务器负载过重,导致系统崩溃。虽然数据中心断电是非常严重的问题,但是我们还是希望有相关的解决方案。

运维不得不知道的事 数据中心断电如何做?

在这里,我们需要确定几个问题。

跟随数据中心的变化,电力系统进行升级

可以说数据中心的不同阶段,对电力需求也在不停的变化,比如增加服务器或者交换机都有可能对电力产生巨大的需求,所以及时掌握数据中心在这一时间段对电力的需求,变得十分重要。此外,还需要对数据中心的供电进行合理的评估,以免数据中心超载,供电不足造成停电的状况。

[[204521]]

知道所有互连设备和系统的一切情况

对于数据中心运营至关重要的是,需要电力链记录在一起,从进入建筑物的电力,再通过UPS、PDU/提供给所有的机架设备。这意味着数据中心运营需要知道哪些与电力相关的设备,以及设备各自的相互依赖关系。这可以让数据中心运营了解某些设备故障或脱机维护时的潜在影响。此外,还应该了解每个电源链设备的状态。

可以通过采用数据中心基础架构管理(DCIM)实现对电源管理。DCIM使数据中心运营能够以最高的效率运行数据中心,同时允许所有相关人员改进整体运营情况,并识别漏洞,从而保持电源链的安全。部署的DCIM还可以让数据中心运营全面了解自己的产品,通过共享实时数据和易于理解的图表,消除IT和设施之间的通信孤岛。

确保电源系统没有受到攻击或威胁

数据中心是通过网络进行连接,当然除了基架中包含的终端和访问点之外,很多渠道可能会成为破坏数据中心的途径,所以保护这些渠道免受破坏,成为数据中心建设需要考虑的问题。

在这里,网络攻击成为一种可能性,很多黑客可能不直接破坏供电系统,而是通过网络进入到数据中心,以达到破坏数据中心供电的目的。此外,我们不应该只防止通过网络手段对数据中心进行破坏的黑客,还应该防止内部人员的破坏,有些工作人员因为自身经验不足,一个小小的错误,有可能导致数据中心供电的中断。

[[204522]]

所以,为了防止通过以上手段进行破坏的行为,建立运维文档和流程控制变得十分重要。在这里,采用更多的硬件不是防止灾难性停电的最佳选择,不妨采用软件层面的管理,来的更加稳妥一些。

不妨多模拟故障安全测试,做好完整的灾难恢复计划

数据中心在运营过程中,难免会出一些故障,所谓有备而无患,在真正出bug的状况下,之前遇到过或者曾经模拟了出错的场景,才更有经验去应对故障。在这里,我们建议在不影响业务环境的情况下对数据中心进行断电测试,使用虚拟的开关设备,将允许数据中心运营商可以应对最坏的情况,并对其进行恢复。

数据中心工作人员总是假设他们的电源供应链和电源备份系统是万无一失的,但是如果没有故障安全测试,会认为面临什么样的结果?电源故障模拟使数据中心运营商可能找到缺乏冗余的设施,并发现单点故障。但是,这需要文档进行记录。因此,数据中心运营商在灾难性的电源故障之前,建立断电测试机制并记录其恢复过程。

数据中心建设应该实时监控操作

对数据中心进行实时监控操作,是以防万一的做法,所以数据中心运营商必须知道设备都被放在哪里,以及使用了多少电能。虽然对于不断增加基础架构的数据中心来说,这很困难,也有可能对电池容量和电源分配产生巨大的影响,但是注意所有移动部件的唯一方法就是单一视图,这种整体视图具有实时监控和警报的功能,使数据中心运营商能够减轻风险,并进行更改以避免灾难发生。

写在最后,数据中心一旦断电,造成的经济损失不可估量,倒不如从笔者上述的方法做起,对数据中心每个环节进行防护,这样才能更好地对数据中心进行运维。

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月6日 19:37
下一篇 2023年5月6日 19:37

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信