1.问题出现
如上图,笔者在一年多前买到了一台DDN公司的存储服务器控制器,配置十分的豪华(3647CPU,支持第一代与第二代可拓展志强的正式版,qs与es,1U的空间,六通道内存,支持dcpmm,两条半高的Picex16riser,两个M2与一个ocp2.0x16的插槽,bmc支持h5 kvm),于是便把这台机器当做边缘服务器以及测试平台。然而,在上个月把Tesla T4插上这台机器后,机器的IPMI web页面就开始抽风了(如下图)
输入正确的账号密码进入web页面后,bmc就开始显示5条sever error encounter, 然后浏览器就会显示session expired, 然后就被重新定向到登陆界面。
在硬件方面尝试解决多次无果后,便想在软件上下功夫了。
2.ipmitool安装与开启
Ipmitool是一款功能强大的linux内置ipmi管理工具,提供了多种基于本地回环网络管理本机bmc的方法。本次仅展示如何在ubuntu20.04 desktop环境下的安装与调试。
首先安装ipmitool
sudo apt-gte install ipmitool
有选项时直接选择y即可
如果直接启动ipmitool,则会出现以下报错,这是由于部分ipmitool的服务与进城未被开启
需要首先进入root用户,然后依次开启进程
modprobe ipmi_si
modprobe ipmi_devintf
modprobe ipmi_poweroff
modprobe ipmi_watchdog
modprobe ipmi_msghandler
这时输入
lsmod | grep ipmi
则可得到如下结果,说明服务已经完全启动
然后需要输入
systemctl status ipmi
出现以下提示则说明启动成功
3.问题解决
由于先前已经尝试过重刷bios以及拔掉主板电池,于是我推测该问题应该是与bmc内部的日志缓存有关,于是首先重置bmc设置
ipmitool mc reset warm
然后进行清空bmc的缓存,
可以看到利用raw可以向主板bmc发送特殊指令
然后输入
ipmitool raw 0x32 0x66
输入过后,一段时间内bmc无法使用稍等片刻后,可以看到已经恢复正常了
然后再进行SEL的擦除,输入
ipmitool sel clear
在一段时间的等待过后,可以看到bmc已经恢复正常状态