[服务器数据恢复故障分析]
在数据恢复行业中经常会遇到因为意外断电导致 raid 模块硬件损坏或者 riad 管理信息丢失等 raid 模块损坏导致数据丢失的情况. 正常情况下服务器的 raid 阵列一旦创建完成后就不再对管理模块中的信息进行更改, 不过 raid 管理模块的信息其实是可修改信息, 一次或多次的意外断电是可能造成这部分信息被篡改或丢失的, 断电次数过多时甚至可能导致 raid 卡上的元器损坏. 间接导致主机失去对多块物理硬盘进行 RAID 管理的中间层模块. 今天这个服务器就属于这种情况.
[服务器数据恢复故障描述]
客户服务器属于 HP 品牌 EVA4400 系列存储, 服务器底层共有 6 块硬盘组成 raid5 阵列, 单块硬盘为 1TB,SAS 硬盘. 操作系统是 WINDOWS 2003 SERVER.
服务器主要作用为公司内部文件服务器, 在正常工作状态下由于机房电压问题连续遭遇了两次意外断电. 管理员将服务器进行重启, 但 raid 阵列提示 "无法找到存储设备", 尝试进入 raid 管理模块进行查看, 但进入 raid 管理模块时服务器死机, 多次尝试后故障依旧存在, 管理员只好联系数据恢复公司进行服务器数据恢复.
[服务器数据恢复方案]
1. 首先将服务器中的所有硬盘进行物理检测确定有无物理故障, 硬盘读取状态正常.
2. 对服务器所有硬盘进行镜像备份, 注: 为保证数据安全, 镜像目标存储需选择带有冗余功能的阵列.
3. 对原服务器进行备份完成后由服务器数据恢复工程师对备份文件进行数据分析, 通过文件系统存储规则确定该服务器中 6 块硬盘的数据块大小, 条带信息, 盘序, 校验方式等信息, 并在虚拟环境中重建虚拟 raid 组.
4. 对所构建 RAID 中的数据进行逻辑校验, 确保重构 RAID 所应用的各参数正确无误后, 针对用户最为关注的数据进行完全验证;
5. 用户确认数据恢复结果已完全达到预期 (数据恢复至故障前状态) 后, 将所有用户业务数据迁移至用户存储, 至此数据恢复完成
[服务器存储安全建议]
1. 尽量保证机房电源供应稳定, 以减少电源异常对主机及存储的冲击;
2. 最好为重要的服务器及存储配置 UPS, 可在机房意外断电的情况下保证核心业务系统能继续维持一定时间的正常工作, 从而为企业寻求应急解决方案赢得宝贵的时间;
3. 对于服务年限已久的服务器应定期进行安全状况检查, 并对其整体运行状态进行评估以决定是否进行硬件及系统的全面升级, 同时提前制定突发数据灾难的紧急处理方案, 以降低数据灾难带来的业务损失.
来源: http://blog.51cto.com/sun510/2132487