对于企业而言, 制定灾难恢复计划并非只是一个选择项, 而是必须采取的至关重要的举措. 事实上, 频发的自然灾害促进了许多组织考虑制定和实施其业务连续性计划.
像哈维, 艾玛, 玛丽亚等飓风事件, 美国中西部和南部的龙卷风, 加利福尼亚州的火灾和洪水, 以及席卷美国各地的风暴影响了成千上万的企业运营, 导致部分企业在几天, 几周甚至几个月内没有电力和互联网连接.
根据美国国家海洋和大气管理局 (NOAA) 的数据, 2017 年是美国有史以来损失最为惨重的一年, 其中大多是自然灾害. 美国经历了 16 次不同的自然灾害事件, 每次造成超过 10 亿美元的损失, 总损失成本高达 3062 亿美元.
影响企业的不仅仅是自然灾害, 大量的人为事件导致企业业绩下滑或停工. 勒索软件, 内部骚乱, 恐怖主义以及更多突发事件可能会导致企业的数据中心出现故障组件, 意外删除文件, 错误配置硬件, 错误地切断电源线, 并可能导致业务宕机.
为了对这些不可避免的情况做好准备, 专家建议企业应该制定灾难恢复 / 业务连续性 (DR/BC) 计划. 而且, 由于当今的业务大多是以数字方式进行的, 这意味着要制定一个计划, 以便在停电之后让 IT 系统重新联机.
什么是灾难恢复?
有些人错误地认为如果他们有备份就足够了. 但是真正的灾难恢复不仅仅是从备份中恢复文件.
在发生自然灾害的情况下, 企业需要一种在停电或互联网中断期间保持关键应用程序和服务在线运营的方式. 如果电话线路, 小区服务和网络出现故障, 则需要一种让员工进行沟通的方法. 如果办公室遭到灾难的破坏或损坏, 需要一种方法让技术工作人员继续工作. 尽管所有这些情况都有可能发生, 而企业需要确保其继续履行安全和合规义务.
此外, 根据企业所在的行业可能有其他特殊需求. 例如, 医疗机构需要一些方法和措施保障病人安全. 教育机构需要为教师提供一种与学生互动的方式. 制造商可能需要采用替代的工厂或仓库, 零售商可能需要使用不同的方法将商品送到他们的商店, 等等. 完整的灾难恢复计划将考虑所有这些需求.
灾难恢复最佳实践
制定书面计划. 企业在灾难恢复方面犯的最大错误是没有计划. 如果企业没有书面计划, 还必须在紧急情况中把所有事情都弄清楚. 这实际会犯一些错误, 损失更多的成本, 并且离线中断的正常运行时间超过企业的估计.
遵循 3-2-1 规则. 专家通常建议遵循 3-2-1 规则进行备份: 拥有三份数据副本, 使用两种不同类型的存储设备, 并将至少一份副本存储在数据中心之外的场合. 例如, 企业可以通过创建一个本地备份和一个基于云计算的备份来遵循此规则. 这为他们提供了三份数据副本 (主要备份, 本地备份和云备份), 两种不同类型的存储(本地部署和云计算) 以及一份存储在公共云平台的副本.
测试制定的计划. 灾难恢复计划在写入文件后如果没有测试或实施, 则几乎没有用处. 为了确保计划可行, 企业需要在实际情况下对其进行测试. 这意味着在电力和互联网中断后尝试使系统联机时创造条件. 显然, 企业不想中断自己的生产应用程序, 但应该尽可能地模拟这样的环境.
定期更新自己的计划. 企业的 IT 环境一直在变化. 也许正在添加新应用程序, 新硬件和新员工. 这意味着企业的灾难恢复计划也需要发展. 定期按月, 季度或年度定期进行灾难恢复测试是一个不错的主意, 并通过企业在测试期间学到的知识和经验更新灾难恢复计划.
灾难恢复解决方案的类型
为了从灾难中恢复, 企业还将需要一个故障切换站点, 在这里企业可以存储备份数据, 并在主要的数据中心脱机时运行生产工作负载. 在选择灾难恢复站点时, 组织有几个不同的选择, 每个组织都有自己的优势和弱点. 一般来说, 企业需要在成本和组织对流程的控制量之间找到平衡点. 其正确的选择取决于公司的规模, 内部的技能, 环境的复杂性, 安全性和合规性需求以及其他各种因素.
内部操作. 企业自己的灾难恢复数据中心通常是成本最昂贵的故障切换站点选项, 但在某些情况下, 对于拥有众多熟练员工的大型组织来说是有意义的. 例如, 在合并, 收购或数据中心整合项目之后, 有时全球企业会发现自己拥有额外的数据中心空间. 在某些情况下, 将某个数据中心用作灾难恢复站点可能是最具成本效益的.
这种方法的最大好处是企业可以完全控制备份和恢复过程. 但最大的弱点也是在于企业完全控制了备份和恢复过程. 其内部员工可能没有灾难恢复供应商拥有的专业技能, 这可能是灾难恢复专家认为内部灾难恢复在发生实际紧急情况时最有可能失败的原因之一.
企业可以采用托管成本较低的选项来管理自己的灾难恢复站点. 通过传统托管服务, 企业可以共享其数据中心设施中的空间, 电源, 散热和网络连接. 托管服务供应商将为企业提供物理安全性, 但是企业将购买, 部署和配置将在数据中心设施中运行的硬件和数据恢复软件.
此选项可能会减少一些成本, 并消除了管理企业的灾难恢复站点相关的一些负担, 节省了大量时间, 精力和技能. 但是, 它确实将大部分控制权留在了客户手中, 这对于一些有严格合规要求的组织来说可能是必要的.
主机托管也有时称为 "主机托管" 或 "托管宿主", 主机托管将更多灾难恢复的负载转移到托管服务提供商. 除物理数据中心空间和实用程序外, 托管的托管服务提供商还提供并部署 IT 基础设施, 以及监视和维护软件, 以便客户远程访问站点. 一些供应商也可能提供数据恢复软件, 测试或灾难恢复服务.
这种方法给供应商的备灾带来了更多的负担, 但它也需要获得客户的一些控制权. 其价格和可用服务可能差别很大, 因此组织需要执行总拥有成本 (TCO) 或投资回报 (ROI) 分析, 以确定这是否是最具成本效益的选项.
灾难恢复即服务 (DRaaS). 近年来, 一些托管服务提供商(MSP) 和云计算供应商已经开始提供 DRaaS 解决方案. 这些解决方案通常涉及备份和故障转移到云计算环境. 该选项将几乎所有的处理备份和灾难恢复的控制权交给供应商. 对于没有大量 IT 人员的小型组织而言, DRaaS 可能是灾难恢复的唯一可行且经济实惠的选择.
但是, DRaaS 可能无法满足某些行业大型组织面临的所有合规要求. 他们通常也不会提供与其他灾难恢复站点选项一样多的定制范围.
选择灾难恢复解决方案的关键注意事项
无论企业是自行设置灾难恢复解决方案还是使用托管主机或 DRaaS 供应商的服务, 都需要确保其满足自己的需求, 并符合自己的预算. 以下问题可以帮助企业根据自己的情况指导正确的灾难恢复解决方案:
什么是恢复点目标 (RPO), 企业的恢复时间目标(RTO) 是什么? 企业的恢复点目标 (RPO) 决定其数据需要备份的频率. 例如, 如果企业的恢复点目标 (RPO) 是 24 小时, 只需要每 24 小时备份一次数据. 如果企业的 RPO 为 10 分钟, 这意味着企业的业务不会丢失超过 10 分钟的数据.
企业的恢复点目标 (RPO) 需要多长时间才能恢复已恢复的数据和应用程序的运行. 例如, 5 分钟的恢复时间目标 (RTO) 意味着如果发生紧急情况, 企业可以将故障转移到灾难恢复系统, 并让所有人在 5 分钟内重新开始工作.
许多组织针对不同的应用程序有不同的恢复点目标 (RPO) 和恢复时间目标 (RTO). 例如, 企业的电子邮件系统可能有 6 个小时的恢复点目标(RPO), 但企业的交易处理系统的恢复时间目标(RTO) 时间为 10 秒.
企业的合规要求是什么? 根据企业所在行业和开展业务的地理位置, 法规可能会要求企业制定灾难恢复 / 业务连续性计划, 在一段时间后备份数据或使用符合特定条件的故障转移站点. 企业的灾难恢复计划可能还需要满足某些隐私和安全标准, 以满足其合规需求.
企业的故障转移站点需要什么级别的可用性? 从本质上讲, 企业需要确定备份系统可用的备份等级. Uptime Institute 根据其冗余等级将数据中心分为不同的等级. 宣传 Tier 4 等级的数据中心的托管和云计算供应商满足最高要求(并且价格最高), 而提供最低可用性的托管商和云计算供应商仅满足 Tier 1 标准.
企业的灾难恢复站点应距离主要站点有多远? 在附近设置故障转移站点意味着更少的延迟, 因此恢复情况下的性能更快. 但是, 如果企业设置故障转移站点离主要的站点太靠近, 则可能会出现灾难恢复站点受主要站点所遭遇的同一灾难的影响. 要回答这个问题, 企业需要考虑所在的地理位置, 自然或人为灾难的风险, 以及自己的需求.
企业的灾难恢复站点是否已做好充分的准备来应对重大灾难? 如果灾难恢复站点位于可能受到飓风, 龙卷风, 火灾, 洪水或其他事件影响的区域, 则需要确保供应商采取足够的措施来处理这些情况.
灾难恢复解决方案具有哪些测试功能? 如前所述, 定期测试灾难恢复计划非常重要. 确保企业使用的任何供应商都支持其测试需求, 并且企业可以将它们包含在其 SLA 中.
灾难恢复解决方案是否提供适当的安全性? 无论企业使用哪种灾难恢复站点, 都需要确保故障切换站点具有良好的物理安全性, 包括受控的入口和出口以及监控系统. 企业还需要确保其故障转移站点与其他网络具有相同类型的 IT 安全, 其中包括防火墙, 加密, 身份和访问管理, 入侵防护等.
灾难恢复解决方案能够处理日益增长的数据量吗? 由于企业的系统正在存储越来越多的数据, 因此企业需要确保其灾难恢复解决方案也可以扩展, 而不会浪费自己的预算.
灾难恢复解决方案的成本是多少? 不同的供应商以不同的方式收取软件和灾难恢复服务费用, 因此企业需要进行总拥有成本 (TCO) 和投资回报率 (ROI) 评估以确保企业公平地比较不同的选项.
灾难恢复服务
提供灾难恢复解决方案的公司名单非常长. 以下内容仅仅是一些较为知名的灾难恢复提供商的示例, 以及各自提供的产品和服务类型的简要概述:
Acronis - DR 软件和 DRaaS
- Arcserve(以前称 Zetta)- DRaaS
- Axcient - DRaaS
- Bluelock - DRaaS
- Carbonite - DRaaS
CloudEndure - DR 软件
- Carbonite - DRaaS
- Cordero - DRaaS
C&W 业务 - 托管和 DRaaS
CloudHPT - 托管和 DRaaS
- Carbonite - DRaaS
- Cordero - DRaaS
- Datto - DRaaS
EvolveIP - 托管和 DRaaS
Expediant - 主机托管和 DRaaS
Flexential(以前的 Peak 10) - 托管, 托管托管和 DRaaS
Geminare-DR 软件和 DRaaS
BM - DR 软件和 DRaaS
Iland - 托管和 DRaaS
Infrascale - DRaaS
Iron Mountain - DRaaS
- Microsoft - DRaaS
- Managecast - DRaaS
OwnBackup - DR 软件
Quorum-DR 设备和 DRaaS
Quorum-DR 设备和 DRaaS
Recovery Point - 托管和 DRaaS
StorageCraft - DR 软件和 DRaaS
Sungard Availability Services - 托管和 DRaaS
Syncsort Vision Solutions - DRaaS
TierPoint - 托管和 DRaaS
UltraBac - DR 软件, 设备和 DRaaS
Unitrends - DR 软件, 设备和 DRaaS
Verizon - 托管和 DRaaS
Veeam - DR 软件和 DRaaS
Vembu - DR 软件和 DRaaS
VMware - DR 软件
WANDisco - DR 软件
Zerto - DR 软件
来源: http://stor.51cto.com/art/201804/571837.htm