一、设备硬件信息
1.1、服务器详情
厂商 |
配置情况 |
型号 |
IBM |
IntelXeon E5-2670v2*2 sas/6GB/300GB*4 1600GHz/ddr3/16GB*4 550W-power*2 |
X3650M4 |
1.2、备件主板设备详情
型号 |
内部编号 |
X3650M4 |
01016QQ00 |
二、故障描述
收到用户反馈服务器型号为IBMx3650M4服务器,无法启动系统,BOARD告警灯常亮,显示器无输出。
到达现场后,首先检查服务器硬件情况,分别查看磁盘、散热风扇、内存、CPU、电源,连接线情况,未见异常。断电后重启测试故障依旧,现象为服务器接通电源后,主机自检无法通过,主机后板故障灯橙色闪烁,前面板BOARD告警灯橙色常亮,(见图1)初步判断为主板供电存在异常。
图1:
三、排查过程
3.1、初步判断主板存在异常后,进入服务器的后台IMM管理模块分析具体原因,服务器上电后,使用笔记本接入服务器的IMM2管理口并为笔记本配置IP地址192.168.70.100/24。
3.2、笔记本配置完IP地址ping通默认管理IP:192.168.70.125后通过Web方式登录IMM管理模块:http://192.168.70.125,用户名/密码:USERID/PASSW0RD
3.3、进入IMM管理模块后详细检查设备各部件运行状态,发现设备主板无法识别到硬盘与内存(见图2),同时排查服务器启动日志发现主板传感器存在严重故障(见图3)
图2
图3
3.4、通过分析IMM管理模块设备运行状态与日志,确定主板硬件故障导致。需要更换主板解决此次故障。
四、处理过程
4.1、工程师携带备件主板到达现场对前置服务器做主板替换。
4.2、服务器断电,打开主机盖板,核对替换主板与故障主板型号是否匹配经检查型号与规格匹配确认可替换安装(见图4)。
图4
4.3、原有服务器主板连接情况标记拍照后,分别拔出供电模块、CPU、内存、raid卡、散热风扇与主板连接线缆。
4.4、拆除服务器故障主板,安装备件主板进入服务器内,根据标记点位与拍照图片对比,将CPU,内存等插回还原。
4.5、替换主板完成后,服务器接通电源,待服务器自检通过后,自启动服务器成功。
4.6、服务器启动成功后分别检查磁盘、内存、网络运行情况正常后,启动业务测试正常(见图5)至此主板更换完成,前置服务器恢复正常运行。
图5
五、故障原因分析
5.1、通过分析IMM管理模块设备运行状态与采集的日志发现无法识别硬盘,与内存,(见图6)同时发现主板设备存在严重的硬件异常告警,报错代码:0x800702020701ffff(见图7)。
图6
图7
5.2、通过查询官方服务器手册中的故障代码解释为:传感器SysBrd Vol故障已从不太严重的状态转变为紧急状态,因此设备无法完成检测并启动,是造成故障的主要原因,建议对其维修替换处理。(见图8)
图8
5.3、至此确定故障原因主板传感器故障导致。
六、总结
此次故障是由硬件故障导致,通过查询日志发现故障前期多次电源中断重启且设备运行十年之久,随着时间的推移,系统硬件的可靠性逐步减弱,风险增大。设备硬件的不稳定性很容易造成内置操作系统及业务网络中断等异常高风险;此次故障的损坏的程度主要以主板部件损坏为主,其造成硬件故障率较高。且运行年限较长,风险逐步加大。
评论前必须登录!
注册