高可用的系统需要解决的是在不同故障情况下都保持较高的系统可用性, 但是不同故障类型带来的问题复杂性不同, 不可能使用一种解决方案处理所有情况, 所以需要针对各种故障提供具体解决方案. 那么, 对于一个分布式存储系统而言, 影响系统整体可用性的故障有哪些呢? 本文将重点描述分布式存储系统的故障分类.
分布式存储系统的故障分为三大类, 如下图所示:
故障分类
瞬时故障: 引起这类故障的主要原因是网络通讯瞬间中断, 服务器内存垃圾回收或后台线程繁忙停止数据访问操作响应. 其特点是故障时间短, 在秒级甚至毫秒级系统即可自行恢复正常响应.
临时故障: 引起这类故障的主要原因是交换机宕机, 网卡松动等导致的网络通讯中断; 系统升级, 停机维护等一般运维活动引起的服务关闭; 内存损坏, CPU 过热等硬件原因导致的服务器宕机; 这类故障的主要特点是需要人工干预 (更换硬件, 重启机器等) 才能恢复正常. 通常持续时间需要几十分钟甚至几小时. 故障时间可分为两个阶段: 临时故障期间, 临时故障恢复期间.
永久故障: 引起这类故障的主要原因只有一个: 硬盘损坏, 数据丢失. 虽然损坏硬盘和损坏内存一样, 可以通过更换硬盘来重新启动机器, 但是丢失的数据却永远找不回来了, 因此其处理策略也和前面两种故障完全不同, 恢复系统到正常状态也需要更长的时间. 故障时间可分为两个阶段: 永久故障期间和永久故障恢复期间.
来源: http://www.jianshu.com/p/78ef805d8e7a