服务器故障应急预案

秦风学

服务器故障应急预案

  首先分清导致服务器出故障的因素:

  1、外部攻击

  2、内部攻击

  3、运维误操作

  服务器宕机怎么办?服务器故障应急预案

  不管是外部攻击还是内部故障,备份好以及冗余措施,可以使宕机时间缩短到最低。

  备份问题尽管听起来不可思议,但在实践中,不少企业并未建立起一套检验过的备份系统。备份的意义在于危急时刻可以快速恢复或重建生产系统。在企业网络中,经常出现的问题实际上是:

  备份步骤的瑕疵导致并未完成正确的备份过程

  由于有限的存储空间导致一定时间后因存储空间耗尽导致的随后备份失败

  备份介质受损导致无法成功恢复

  传统上,磁带因其低造价以及高存储密度使其成为了理想的备份介质。然而,这种传统备份介质的几个致命缺点经常使其内含的数据变得不可存取:

  丢失的磁带索引卡片

  磁带介质在存储过程中容易受到外界磁场影响

  介质本身损坏

  介质读取过程中被读取设备损坏

  此外,磁带备份介质本身存储在磁带仓库中,从仓库检索所需的备份磁带、转移至数据中心并重新加载数据的时间消耗通常也是客观的。

  即使有一套备份系统仍然是不能抵挡所有的意外事故的。2014 年, Samsung 数据中心的'一场大火使其云服务暂停服务。如果没有异地备份,这场大火将使其本地备份的恢复变得极为困难。

  冗余对于突发性事件来说,尽快恢复,或者是持续的提供服务是非常重要的。本月,某知名支付公司因数据中心网络连接性故障导致了一段时间的服务中断。如果有更好的冗余方案,此种事故的影响面将会得以降低,甚至会化解为用户不可感知的内部事故。

  大部分服务器都有两部独立的 PSU,任意一部 PSU失效并不会影响其正常服务;一般来说,服务器的两部 PSU 将连接到两路不同的电路或不间断电源上以避免市电失效;数据中心电源多数同时配备 UPS 和柴油发电机来避免发电公司未通知的停止供电服务导致的服务中断。网络亦然;同时接入多路 ISP 线路,并对其进行独立布线,同时在多条线路上宣告地址,便可使得网络服务的鲁棒性更高。

  在系统的视角上,只有同时配置好的备份以及冗余方案,才能提高可用性,避免非可控因素导致的长时间服务中断。

  服务器宕机怎么办?服务器故障应急预案就为大家介绍到这里