随着网络的普及, 服务器作为互联网的重要支撑, 在各行各业得到广泛应用. 虽然服务器得到普遍应用, 但是很多企业对其并不了解. 那么如果我们从事和互联网相关的行业, 面临服务器方面的故障时, 要如何解决呢? 一起来学习下关于服务器故障的排查及维修方法.
一, 机房环境
1. 温度与湿度: 最佳工作温度: 20-25 摄氏度 极限工作温度: 10-40 摄氏度 湿度: 8-80%(在 23 摄氏度条件下).
2. 同时机房要保证服务器清洁. 机房应保持服务器清洁, 若空气灰尘过多, 很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损. 定时使用皮老虎, 刷子清除服务器灰尘.
二, 电源
电压: 要求电压稳定, 尖峰电压会损坏设备
电压范围: 220V +/- 10%, 即 200-240V, 50-60Hz
电源功率: 视机器类型和系统配置而定
电源线: 标准的零, 地, 火三相电, 其中零, 地电压不得超过 3.0V.
电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳, 保证计算机系统的可靠工作应使用稳压电源和 UPS, 对于冗于电源的接入, 采用两路单独输入.
三, 硬件检查
检查服务器, 磁阵的安装, 电源线主机接线符合要求.
服务器状态检查:
1. 当服务器处于启动和正常工作状态时, 其前面板上的液晶显示屏上应无信息显示.
2. 当液晶显示器上出现带数字和字母的信息时, 说明有硬件告警. 可以通过查询相关机型的面板报警数字信息查到相应告警原因, 情况严重的, 则要立即通知服务器厂商进行问题排查.
3. 当服务器的状态灯出现橙黄色时, 说明有硬件告警, 此时要检查磁柜的电源, 接线, 硬盘等. 如果有硬件故障则立即进行更换和更正, 如果查不出具体问题, 则需要联系相关厂商进一步诊断.
4. 当硬盘工作正常时, 与各硬盘对应的硬盘灯会呈绿色, 如无读写, 则绿灯一直亮, 如该硬盘有读写操作, 则绿灯会不规则闪烁, 当硬盘损坏时或 RAID 出现问题时, 则硬盘状态灯将熄灭, 或者呈闪烁状态: 以 1~3 秒的频率有规律地, 不停地闪烁.
根据实际运行的系统中碰到问题, 总结出了以下几种常见故障及其定位方式和解决方法.
1. 硬件故障
硬件故障有很多种, 对系统产生的影响也不一样, 这里按其故障对系统的影响程度分: 致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:
其损坏对系统产生致命影响 (将使机器宕机或无法启动) 的硬件包括:
主板, CPU,RAID 卡, 电源模块, 风扇, 本地硬盘, 内存损坏等等这些设备的损坏等将使系统无法完成自检, 引导和启动, 液晶显示屏上都将有错误信息, 可根据液晶显示屏上的错误码对照错误原因, 如果是工作状态下出现这些硬件损坏, 则系统将被挂起或宕机.
其损坏对仅对系统产生功能影响 (机器不会宕机并能正常启动) 的硬件包括:
网卡, 本地硬盘有坏块, 显卡, 和其他外围设备 这些设备的损坏只影响特定功能, 如网络功能, 显示功能, 访问磁阵的功能等, 对于本地硬盘有坏块的情况, 则要看坏块中是否包含了重要的系统文件, 如果不是重要系统文件, 则系统功能不受影响, 但也建议立即更换该硬盘.
故障定位和排除: 液晶屏上的错误码
根据错误码确定是什么硬件出了故障, 对系统来讲, 原则上必须业务切换使得损坏服务器离线不影响用户使用的情况下, 然后修复故障机器, 恢复系统.
2. 磁阵故障
磁阵引起的故障是目前碰到的最频繁, 危害最大的故障, 据不完全统计, 其故障覆盖到总故障的 70% 以上, 具体来讲, 可能引起磁阵故障的环节包括:
磁阵硬盘, 主机上的 RAID 卡, 与主机相连的 SAS 线, 硬盘的位置和接线方式, 以及盘柜使用的电压及周围磁场, 磁阵 / 硬盘 / RAID 卡等都可能造成异常.
磁阵的问题是最复杂的, 一般有物理损坏的原因也有环境原因, 这是主因, 如接线, 插盘位置不符合要求, 未及时查看系统告警等造成系统中断等辅因. 按照经验, 不管是什么硬件故障导致故障, 系统都会产生告警, 如果能及时发现问题并采取措施, 如果存在硬件故障时, 可从状态灯上观察到:
当单块硬盘出现故障或未被使用时, 其面板上的硬盘状态灯会不亮 阵列的状态灯黄灯会亮 服务器的磁阵所配置的 RAID 卡一般都带有一块充电电池, 该电池用于在突然停电的情况下.
来源: http://server.51cto.com/sOS-587862.htm