【银河麒麟高级服务器操作系统】服务器卡死后恢复系统日志丢失-分析及处理全过程

了解更多银河麒麟操作系统全新产品,请点击访问

麒麟软件产品专区:https://product.kylinos.cn

开发者专区:https://developer.kylinos.cn

文档中心:https://document.kylinos.cn


服务器环境以及配置

【机型】

处理器:

海光

内存:

512G

【内核版本】

 4.19.90-25.40.v2101.ky10.x86_64

【OS镜像版本】

银河麒麟高级服务器操作系统 Kylin-Server-10-SP2-Release-Build09-20210524-x86_64

【第三方软件】

K8S

现象描述

服务器卡死后恢复,系统有日志丢失。

现象分析

① 日志分析

  messages日志在1点48分-2点04分发生日志断层,在2点02分以后,打印hungtask进程调用栈,其中systemd-journal进程也出现hungtask,因此未记录日志(图 1)。

图 1

     梳理sar日志,11.3号凌晨内存使用率一直都较低(图 2),CPU波动不大,但是负载在1点40分时猛增,2点04分以后逐渐恢复(图 3),磁盘使用率有一定波动,结合前场反馈,问题复现时都是在启动业务之后,推断1点40分时客户启动业务导致CPU负载增加,但是问题机器上有128个CPU,因此负载在可承受范围之内。

图 2

图 3

② 内核调用栈分析

在问题复现后,在dmesg中可发现有很多hungtask被超过120秒,但是由于没有配置panic因此没有宕机而是在系统自愈后打印hungtask日志。且大部分调用栈中都有cgroup的处理流程。在2点04分打印oom的调用栈(图 4),但是结合sar日志此时系统内存使用率应该不高,不过通过调用栈可发现也有cgroup的处理流程。

图 4

分析结果

综上所述,日志断层是由于进程出现hungtask导致,出现hungtask以及oom的原因可能是与cgroup相关,需要进一步确认具体原因。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值