上午接到长治一电商公司的求助电话, 一台 DELL-R430,3 盘 1TB, 安装 CentOS, 在意外断电后系统无法启动, 该机装有公司的 OA, 以及营销数据. 环境为 LNMP--Linux 系统下 Nginx+MySQL+PHP 网站服务器架构, 并要求上门现场服务
电话中给出恢复方案以及价格, 对方跟领导请示后还是决定带机器到我司恢复. 其实到我司恢复第一可以节省掉不少的上门费用, 其次在数据恢复的过程中如果有其他意外情况出现都是有很好的解决方案的, 比如设备, 资源等, 除非数据涉密!
客户到达我司已经是下午 5 点了, 按照标准流程:
对每一块物理盘做镜像. 其目的是为了确保数据安全, 以及保证故障后的最原始状态, 并且在后续的系统上线工作中也是要用到原始镜像的.
镜像原盘后又分为 2 步同时操作, 这个也是我们的优势:
软件工程师来分析镜像文件, 判断该 RAID 组的排列方法, 块的大小, 走向等.
硬件工程师用原盘上机判断硬盘损坏状态, 结合软件技术给出的 RAID 信息来剔除脏盘, 做出最后一次系统正常启动时的正确配置.
如系统正常启动则数据恢复工作完成, 如不能启动则先验证软件工程师组出的数据是否正确.
镜像工作完成后, 我们将硬盘上机启动, 首先进入 RAID 配置程序, 显示一个 raid5 卷, 并且已经降级报黄, 其中有一个 MISS 状态, 正常情况下 RAID5 里面有一个盘 miss 是可以正常启动的, 那么我们就重启进系统看看什么问题
看到有正常的系统启动界面, 那么说明该 RAID 还是继续生效中, 但是他的系统是报错了.
分析报错信息, 发现 home 是单独挂载的一个 lv, 那么我们用一条命令来尝试性解决它
Fsck -y
输入该命令后经过一堆跳码后我们 reboot 重启.
这个画面是不是有点熟悉呢? 对, 我们把系统修复了. 配置网络环境后, 联机查看完美
我以上所写的这些文字用了 10 分钟, 实则我们整个工作完成后已经是第二天早上 5 点了, 整 12 小时, 正所谓 "台上十分钟, 台下十年功".
来源: http://blog.51cto.com/xyhdd/2429022