操作系统侧看门狗软件缺陷导致iBMC&iMana重启或者升级后看门狗喂狗异常问题预警公告
问题描述
触发场景:
- 条件1:操作系统侧安装看门狗软件并使能看门狗进程。
- 条件2:操作系统侧看门狗Watchdog Timer Actions为Hard reset, Power Cycle,Power Down中的一种。
- 条件3:重启或者升级iBMC/iMana。
问题现象:
同时满足以上三个条件时,重启或升级iBMC/iMana可能会触发操作系统侧看门狗软件缺陷,导致操作系统侧看门狗软件终止喂狗,触发硬件看门狗喂狗超时操作(Watchdog Timer Actions为Hard Reset, Power Cycle,Power Down中的一种,该配置为操作系统侧软件看门狗下发),服务器可能异常重启/下电。
判断方法
查看硬件看门狗状态的方法有如下2种:
- 通过IPMItool在操作系统侧查看硬件看门狗配置,查询命令如下。
- 通过IPMItool命令远程查看硬件看门狗看门配置,查询命令如下。
IPMItool -I lanplus -H 172.33.28.86 -U root -P Huawei12#$ mc watchdog get
其中-H后面的172.33.28.86为iBMC/iMana的ip,-U后面的root为iBMC/iMana的用户名,-P后面的Huawei12#$为iBMC/iMana的密码,需根据实际情况进行修改。
查看硬件看门狗运行状态(Watchdog Timer Is)和超时动作(Watchdog Timer Actions),如下图所示。
其中Watchdog Timer Is、Watchdog Timer Actions说明如下:
参数
状态
说明
Watchdog Timer Is
Started/Running
表示看门狗正在运行。
Stopped
表示看门狗已停止。
Watchdog Timer Actions
No Action
表示看门狗喂狗超时后不执行任何动作。
Hard Reset
表示看门狗喂狗超时后服务器重启。
Power Down
表示看门狗喂狗超时后将服务器下电。
Power Cycle
表示看门狗喂狗超时后将服务器先下电再上电。
问题原因
该问题为操作系统侧看门狗软件缺陷导致。客户操作系统侧看门狗在iBMC/iMana重启或升级后可能会终止喂狗,导致操作系统侧看门狗喂狗超时,触发硬件看门狗喂狗超时操作,服务器可能异常重启/下电。
影响和风险
当操作系统侧看门狗软件喂狗超时后,触发Watchdog Timer Actions,如果Watchdog Timer Actions值为Hard reset, Power Cycle,Power Down中的一种,则会导致服务器异常掉电或重启。
措施和解决方案
规避方案
建议关闭硬件看门狗进程或将硬件看门狗超时操作设置为No Action。
- 方案1:将硬件看门狗超时操作设置为No Action。
- 通过IPMItool查询硬件看门狗当前配置,查询命令如下。
IPMItool -I lanplus -H 172.33.28.86 -U root -P Huawei12#$ raw 0x06 0x25
如上图所示,返回结果中的前6字节44 01 00 00 b8 0b为当前硬件看门狗的配置,其中第二字节01中的末尾数字表示硬件看门狗超时后的动作,该数值的定义如下:
0表示 No Action
1表示Hard Reset
2表示Power Down
3表示Power Cycle
如果该字节值为0,超时动作为No Action,则无需进行下一步操作。
- 通过IPMItool设置硬件看门狗超时动作为No Action,设置命令如下。
IPMItool -I lanplus -H 172.33.28.86 -U root -P Huawei12#$ raw 0x06 0x24 0x44 0x00 0x00 0x00 0xb8 0x0b,其中0x44 0x00 0x00 0x00 0xb8 0x0b为1中获取到的前6字节,仅将第二字节0x01改为0x00。
说明:该命令临时生效,系统或看门狗软件重启后恢复修改前的配置。
- iBMC/iMana重启或升级完成后,,执行如下命令恢复配置。
IPMItool -I lanplus -H 172.33.28.86 -U root -P Huawei12#$ raw 0x06 0x24 0x44 0x01 0x00 0x00 0xb8 0x0b,其中0x44 0x01 0x00 0x00 0xb8 0x0b为1中获取到的前6字节。
- 方案2:关闭硬件看门狗。
- 通过IPMItool在操作系统侧关闭硬件开门狗,命令如下。
- 通过IPMItool命令远程关闭硬件看门狗,命令如下。
IPMItool -I lanplus -H 172.33.28.86 -U root -P Huawei12#$ mc watchdog off
其中-H后面的172.33.28.86为iBMC/iMana的ip,-U后面的root为iBMC/iMana的用户名,-P后面的Huawei12#$为iBMC/iMana的密码,需根据实际情况进行修改。
- 关闭硬件看门狗的方法有如下2种:
- iBMC/iMana重启或升级完成后,客户可通过系统侧命令行进行看门狗进程开启操作或重启操作系统恢复修改前配置。
FusionServer Pro E9000 服务器 V100R001 HMM 告警处理 30
Slot:看门狗溢出循环上下电(严重、Watchdog2)
告警解释
告警描述:
Watchdog overflow, power cycle
或
The OS is forcibly powered off and then on due to the watchdog (arg1) timeout.
通过业务软件启动看门狗,在系统某阶段(timer user字段标示:BIOS POST,OS Load或SMS/OS阶段,告警中此字段依具体情况而定),看门狗超时溢出时,如果超时动作设为“power cycle”时,则产生此告警。
产生此告警的传感器为:
Watchdog2
告警属性
告警ID | 告警级别 | 可自动清除 |
---|---|---|
2303FFFF | 严重 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
arg1 | 系统启动的阶段,例如,“BIOS FRB 2”、“BIOS/POST”、“OS Load”、“SMS/OS”、“OEM”。 |
对系统的影响
看门狗超时后,系统被强制硬复位,业务将中断,未保存数据将丢失。
可能原因
- 告警产生在BIOS/POST阶段,为硬件异常,或BIOS启动异常。
- 告警产生在OS Load阶段,为业务系统启动异常。
- 告警产生在SMS/OS阶段,为业务软件异常。
处理步骤
- 关闭看门狗,重新启动计算节点。
- 通过KVM查看系统启动过程,根据告警产生的不同阶段,做不同的处理。
- 若告警发生在BIOS/POST阶段,进入iBMC或iMana 200命令行,执行ipmcget -d port80命令,查询80口信息。
- 若告警发生在OS Load阶段,业务系统引导错误,可通过KVM查看业务系统错误打印,进行定位处理。
- 若告警在SMS/OS阶段,则说明在业务系统中有软件进行了看门狗设置;进入业务系统,检查系统设置看门狗的软件是否异常或停止响应。
- 保存查询到的信息,联系华为技术支持工程师获取帮助。
未经允许不得转载:测试博客 » 操作系统侧看门狗软件缺陷导致iBMC&iMana重启或者升级后看门狗喂狗异常问题预警公告