一, 服务器数据恢复背景
北京某政府部门的一台 EMC 5400 服务器由于 raid 阵列损坏导致服务器崩溃, 急需进行服务器数据恢复, 由于用户服务器数据涉密, 需要上门恢复.
二, 服务器数据恢复检测
服务器数据恢复工程师携带相关设备到客户现场进行数据检测, 发现服务器瘫痪的原因是由于 raid 阵列中某些硬盘掉线导致的, 对所有磁盘进行物理检测后没有发现物理故障, 也没有坏道. 随后工程师借助数据恢复软件将故障服务器 (EMC 5400) 中的所有磁盘镜像到我公司数据恢复服务平台上, 以备后期数据恢复使用.
三, EMC 5400 服务器数据恢复
1, 分析服务器 RAID 组的结构
EMC 5400 服务器的 LUN 全部基于 RAID 阵列组, 所以要恢复服务器数据首先需要分析服务器底层 RAID 信息, 然后根据分析的信息重构原始的 RAID 组. 服务器数据恢复工程师对 raid 阵列进行分析后发现服务器中有两块硬盘离线, 由于 6 号盘和 10 号盘都属于 Hot Spare, 但在服务器发生故障时 6 号 Hot Spare 替换了掉线的 5 号硬盘, 10 号盘因为未知原因未启用. 所以服务器虽然成功激活了 6 号盘的 Hot Spare, 但由于在 RAID5 磁盘阵列中仍然缺失一块硬盘, 数据没有同步到 6 号硬盘中. 服务器数据恢复工程师继续分析所有其他硬盘, 得出数据在硬盘中分布的规律, RAID 条带的大小, 以及每块磁盘的顺序.
2, 重组 raid 分析掉线盘顺序
根据分析出来的 raid 信息使用自主开发的 RAID 虚拟程序虚拟重组故障服务器中原始 raid. 然后分析服务器中两块掉线硬盘的掉线顺序. 通过对服务器中所有硬盘的仔细排查发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样, 因此初步判断此硬盘可能是最先掉线的, 通过自主开发的 RAID 校验程序对这个条带做校验, 发现除掉刚才分析的那块硬盘得出的数据是最好的, 因此可以明确最先掉线的硬盘了.
3, 分析 RAID 组中的 LUN 信息
现已知 raid 信息, 掉盘先后顺序, 接下来根据分析结果重组 raid. 分析 LUN 在 RAID 组中的分配信息, 以及 LUN 分配的数据块 MAP. 然后根据这些信息使用 raid 数据恢复程序, 解释 LUN 的数据 MAP 并导出 LUN 的所有数据.
四, 解释 ZFS 文件系统并修复
使用北亚自主开发的 ZFS 文件系统解释程序对生成的 LUN 做文件系统解释, 解析所有文件节点及目录结构.
部分文件目录截图如下:
五, EMC 5400 服务器数据恢复结果
由用户方管理员对数据进行验证, 一切数据正常, 完整, 本次数据恢复成功
部分文件验证如下:
来源: http://blog.51cto.com/sun510/2149069