服务基本估算&性能监控告警

最新推荐文章于 2024-01-23 13:04:36 发布

原创最新推荐文章于 2024-01-23 13:04:36 发布 · 473 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

服务器同时被 2 个专栏收录

1 篇文章

订阅专栏

1 篇文章

订阅专栏

本文介绍了服务资源的基本估算，包括CPU、内存和磁盘的计算方法，以及服务性能的常用指标，如Latency和数据量。同时，讨论了CPU使用率过高时的应对策略，并提到了打点组件和告警系统的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要内容

服务资源基本估算

服务性能常用指标

打点组件介绍和使用

告警系统配置说明

服务资源基本估算

基本资源

4种基本资源：

cpu：时间~程序耗时 * 服务负载
内存：在线运行空间~程序数据结构使用
磁盘：离线空间~文件存储
网络：外部资源~网络延迟和可达性

CPU

时间 ~ 程序耗时 * 服务负载
基本度量公式：1 CPU = 1 sec（秒）= 1000ms（毫秒）
假设服务A处理一次服务请求需要耗费稳定的50ms的CPU时间，则1个CPU在1sec秒时间内最多处理1000/50 = 20个请求。同理，假如当前服务的QPS为8，则该服务对1个CPU使用率为40%。
该计算不区分CPU密集型和IO密集型任务的区别，作为基本计算公式使用：
- 单核CPU使用率 = (单次服务耗时ms * 服务负载QPS) / 1000ms
- 多核CPU使用率 = (单次服务耗时ms * 服务负载QPS) / (1000ms * CPU逻辑核心数)
cpu不够用了会怎样：
- 一般服务模式都是基于队列，任务被迫排队等待处理，表现为延迟指数级增加；
- cpu利用率合理区间应该稳定在50%，超过50%的服务延迟会有线性增长。
cpu不够用了怎么办：
- 降低单次服务耗时（优化算法）；
- 获取更多的CPU资源（加docker实例、加机器、多线程并行化）；
- 让等待IO的任务让出CPU时间片给其他任务（框架支持）。

内存

内存使用的场景：
- 加载大型模型、词典等数据结构；
- 处理服务请求时临时生成的局部数据结构；
- 动态编程产生的方法和元数据结构。
  所有程序常驻内存和动态内存之和 < 物理内存
k8s的docker实例内存是不能共享的，会影响单台物理机能够容纳的部署实例数上限，进而影响其他资源的利用率。
比如，intent内存16G + 1CPU，线上物理机内存为256G，32CPU。则1台物理机最多部署12~14个intent实例，CPU利用率不足50%。

磁盘

常用查看命令：df和du
务必在/data目录存储大文件和日志，/tmp目录不建议使用
冷数据（1~3个月不会使用）转储到hdfs，定时清理物理机器的数据目录

服务性能常用指标

QPS = Requests / Sec = 请求数 / 秒；
Latency服务延迟；
单次请求的接收和发送数据量。

Latency服务延迟

服务延迟是个分布，不是一个确定值。

服务延迟的平均值不具有参考性，一般分为50-per，75-per，90-per，95-per，99-per各个分位。
对外承诺延迟不高于100ms，隐含的意思是99-per不高于100ms，而不是平均值或者中位数。

单次请求的接受和发送数据量

数据服务，如hbase/redis等。需要通过单次请求的接受和发送数据量衡量数据分片和带宽使用。
如果我们的服务有数据密集型，如大量的embedding查询和rank打分服务传递上万个feature的情况，需要考虑服务带宽使用。
千兆网卡的理论读写上限是1000Mbit/s，即125MB/s。

打点组件的介绍和使用&告警系统配置说明

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。