利用大模型反馈故障的解决方案

本文介绍了如何通过二次开发观测云的错误巡检脚本,利用OpenAI提供个性化的错误堆栈分析和解决方案,实现实时自动化故障反馈,提升事件报告的实用性和完整性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

观测云有两个错误巡检脚本,RUM 错误巡检和 APM 错误巡检,代码均开源。
错误巡检的主要目的是发现新出现的错误消息(error stack),原有的巡检在上报了相应的事件报告后,只是定位了问题,并没有给出合适的解决方案。OpenAI 的出现,给了解决个性化 error stack 的一些洞察和解决方案。
本次最佳实践通过二次开发原有巡检,针对智能巡检的告警报告,实现自动化故障反馈,为用户提出合适的改进意见,一并在事件报告中体现,作为更加完备的巡检解决方案。

实现流程

1.安装观测云集成(ChatGpt 监控)[ID: guance_chatgpt_monitor] 脚本。完整流程可参考最佳实践文档《一行代码实现 OpenAI 可观测》

2.安装观测云 APM 新增错误或 RUM 新增错误巡检脚本。

本最佳实践以RUM 新增错误巡检为例。

3.对新增错误获取到的 error-stack 进行提取,与大模型进行问答。

在构建事件报告的 RUMEventStruct 类下新增一个大模型故障反馈模块,示例代码如下:

 

ini

复制代码

# 大模型故障反馈 def build_chatgpt_solution(self, js_new_error_messages, start_time, end_time): chatgpt_solution_section = event_detail.Section(name='大模型故障反馈', name_en='Solution Details', index=3) OPENAI_API_KEY = DFF.ENV('OPENAI_API_KEY') # 发送请求并获取回复 url = 'https://us1-private-func.guance.com/api/v1/al/auln-...../simplified' headers = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {OPENAI_API_KEY}' } for js_new_error in js_new_error_messages: js_new_error_message = js_new_error[0] error_stack = js_new_error_message['error_stack'] print(f'error_stack:\n{error_stack}') datas = { "model": "gpt-3.5-turbo", "messages": [{'role':'user', 'content':f'如果错误:{error_stack},请问原因是什么?怎么解决?'}], "temperature": 0.5, "presence_penalty": 0, "stream": False, } response = requests.post(url=url, headers=headers, json=datas) md = event_detail.Markdown("") text_list = [ f'**解决方案**:`{response.text}`'] text_list_en = [ f'**Solution**:`{response.text}`', ] md.set_text(*text_list) md.set_text(*text_list_en, lang='en') chatgpt_solution_section.add(md) return chatgpt_solution_section

4.url 处填写第一步中授权链接的 POST 简化形式(JSON)

5.巡检一小时跑一次,如果所连接应用触发了巡检逻辑,即可在观测云控制台 **监控 -> 智能巡检 模块看到生成的事件报告。**如下图所示:

总结

在原有的智能巡检事件报告中,给出的建议相对固定,不能全面地将所有可能涉及到的错误建议给出。结合利用大模型,可以针对性地对触发的告警错误给出建议,提高事件报告的可读性。

出处。

### 大模型故障诊断中的应用 大模型技术近年来被广泛应用于设备故障诊断领域,其核心优势在于能够结合大量历史数据和专业知识,快速生成精准的诊断结果以及对应的解决方案。以下是几种主要的大模型故障诊断方法及其特点: #### 1. 知识图谱与大模型融合 知识图谱与大模型的深度融合为设备故障诊断提供了全新的思路。在接受维修工单时,系统可以通过自然语言处理技术和语义分析功能,自动生成详细的故障诊断结果[^2]。这些结果不仅包括具体的故障描述和根因分析,还涵盖了多种可能的解决方案,并通过图形化界面直观展示其他潜在的故障原因。这种方法显著提高了诊断效率和用户体验。 #### 2. KAN 故障诊断模型的应用 KAN 模型是一种基于知识表达和推理能力的强大工具,在不确定性较高的场景下表现尤为突出。该模型通过结构化的知识表示方式,有效解决了传统方法中知识碎片化的问题[^3]。此外,KAN 模型具备优秀的可扩展性,允许动态更新和新增知识单元,从而适应不同类型的设备升级需求。更重要的是,它能提供清晰的诊断过程解释,增强了工程师对诊断结果的信任感。 #### 3. 改进的深度学习框架 为了应对实际工业环境中常见的数据不平衡问题,一种基于多信号融合和改进的深度卷积生成对抗网络(DCGAN)的方法应运而生[^4]。此方法首先利用小波变换提取传感器信号的关键特征,再经过池化和拼接操作完成数据压缩与融合。接着,借助优化后的 GAN 架构生成高质量的人造样本用于扩充训练集规模。最终,通过集成卷积块注意力机制进一步提升分类器的表现水平。实验证明,这种策略能够在复杂条件下保持较高精度的同时兼顾泛化性能。 #### 4. 利用大模型反馈具体解决方案 某些特定应用场景下,仅依靠传统的监控手段无法满足日益增长的服务质量要求。例如,在云计算平台运维过程中遇到的各种异常状况往往缺乏即时有效的修复指南支持。为此,有研究尝试将 OpenAI 类似的技术融入现有工作流当中,旨在打造智能化程度更高的巡检体系[^5]。通过对原始日志信息进行深入挖掘并与外部资源库建立关联映射关系,成功实现了从单纯报警提示向全面指导转变的目标。 ```python import openai def generate_solution(error_stack): prompt = f"Error Stack:\n{error_stack}\n\nSolution:" response = openai.Completion.create( engine="text-davinci-003", prompt=prompt, max_tokens=150, n=1, stop=None, temperature=0.7, ) solution = response.choices[0].text.strip() return solution ``` 上述代码片段展示了如何调用 OpenAI API 来获取针对指定错误堆栈的最佳实践建议。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值