
Grafana
文章平均质量分 85
Dennis-Chen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
常见的 DCGM 设备级别指标及其含义
在大规模 GPU 集群运维与性能调优中,精准、全面地了解每块显卡的运行状态和健康状况至关重要。NVIDIA 数据中心 GPU 管理 (DCGM) 提供了一系列关键指标,用于监控显存错误、硬件利用率、温度、能耗以及互联带宽等多维度信息。及时发现与定位ECC 内存错误与硬件故障,保障系统稳定性;量化计算与传输负载,优化任务调度与资源分配;监控温度与能耗,平衡性能与功耗,延长设备寿命;洞察互联带宽与链路质量,提升多 GPU 协同效率;跟踪虚拟化授权与驱动错误,确保虚拟化环境与驱动可靠性。原创 2025-05-11 17:23:51 · 627 阅读 · 0 评论 -
自动化部署 DCGM + dcgm-exporter + Prometheus + Grafana 环境
NVIDIA 提供的工具,可以帮助用户监控 GPU 状态,包括温度、负载、内存使用率等。:一个用于导出 GPU 指标的 Prometheus Exporter,能够将 DCGM 数据转为 Prometheus 可采集的格式。Prometheus:一款开源监控系统,专为时序数据设计,支持通过多种 Exporter 获取系统和应用的监控数据。Grafana:一个开源的可视化工具,能够接收 Prometheus 等数据源的监控数据,并生成漂亮的仪表盘进行展示。原创 2025-05-11 00:25:44 · 1075 阅读 · 0 评论