服务基本估算&性能监控告警

本文介绍了服务资源的基本估算,包括CPU、内存和磁盘的计算方法,以及服务性能的常用指标,如Latency和数据量。同时,讨论了CPU使用率过高时的应对策略,并提到了打点组件和告警系统的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要内容

服务资源基本估算
服务性能常用指标
打点组件介绍和使用
告警系统配置说明

服务资源基本估算

基本资源

4种基本资源:

  • cpu:时间~程序耗时 * 服务负载
  • 内存:在线运行空间~程序数据结构使用
  • 磁盘:离线空间~文件存储
  • 网络:外部资源~网络延迟和可达性
CPU
  • 时间 ~ 程序耗时 * 服务负载
  • 基本度量公式:1 CPU = 1 sec(秒)= 1000ms(毫秒)
  • 假设服务A处理一次服务请求需要耗费稳定的50ms的CPU时间,则1个CPU在1sec秒时间内最多处理1000/50 = 20个请求。同理,假如当前服务的QPS为8,则该服务对1个CPU使用率为40%。
  • 该计算不区分CPU密集型和IO密集型任务的区别,作为基本计算公式使用:
    • 单核CPU使用率 = (单次服务耗时ms * 服务负载QPS) / 1000ms
    • 多核CPU使用率 = (单次服务耗时ms * 服务负载QPS) / (1000ms * CPU逻辑核心数)
  • cpu不够用了会怎样:
    • 一般服务模式都是基于队列,任务被迫排队等待处理,表现为延迟指数级增加;
    • cpu利用率合理区间应该稳定在50%,超过50%的服务延迟会有线性增长。
  • cpu不够用了怎么办:
    • 降低单次服务耗时(优化算法);
    • 获取更多的CPU资源(加docker实例、加机器、多线程并行化);
    • 让等待IO的任务让出CPU时间片给其他任务(框架支持)。
内存
  • 内存使用的场景:
    • 加载大型模型、词典等数据结构;
    • 处理服务请求时临时生成的局部数据结构;
    • 动态编程产生的方法和元数据结构。
      所有程序常驻内存和动态内存之和 < 物理内存
  • k8s的docker实例内存是不能共享的,会影响单台物理机能够容纳的部署实例数上限,进而影响其他资源的利用率。
  • 比如,intent内存16G + 1CPU,线上物理机内存为256G,32CPU。则1台物理机最多部署12~14个intent实例,CPU利用率不足50%。
磁盘
  • 常用查看命令:df和du
  • 务必在/data目录存储大文件和日志,/tmp目录不建议使用
  • 冷数据(1~3个月不会使用)转储到hdfs,定时清理物理机器的数据目录

服务性能常用指标

  • QPS = Requests / Sec = 请求数 / 秒;
  • Latency服务延迟;
  • 单次请求的接收和发送数据量。
Latency服务延迟

服务延迟是个分布,不是一个确定值。

  • 服务延迟的平均值不具有参考性,一般分为50-per,75-per,90-per,95-per,99-per各个分位。
  • 对外承诺延迟不高于100ms,隐含的意思是99-per不高于100ms,而不是平均值或者中位数。
单次请求的接受和发送数据量
  • 数据服务,如hbase/redis等。需要通过单次请求的接受和发送数据量衡量数据分片和带宽使用。
  • 如果我们的服务有数据密集型,如大量的embedding查询和rank打分服务传递上万个feature的情况,需要考虑服务带宽使用。
  • 千兆网卡的理论读写上限是1000Mbit/s,即125MB/s。
打点组件的介绍和使用&告警系统配置说明
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值