服务监控与质量保障:关键指标、管理框架及探测系统解析
立即解锁
发布时间: 2025-08-27 00:11:15 阅读量: 6 订阅数: 19 


企业云服务转型与实践
# 服务监控与质量保障:关键指标、管理框架及探测系统解析
## 1. 企业服务关键质量指标(KQIs)
在企业服务中,有一系列关键质量指标(KQIs)用于衡量服务的质量和性能。这些指标包括:
- **可用性**:避免服务拒绝(DOS)或系统故障,确保服务的正常运行。
- **完整性**:防止信息丢失或更改,保证数据的准确性和一致性。
- **不可抵赖性**:确保数据来自数据中所示的有效、授权源。
- **磁盘空间**:衡量在服务请求期间是否有足够的空间来处理请求。
- **帮助台**:评估是否有帮助台可处理信息请求,如服务信息、支持等。
- **培训**:判断培训是否足以支持用户执行所需任务,包括服务使用、用户和提供商的职责等。
- **互操作性**:测量服务或产品与所有所需系统和服务的协同工作程度。
- **响应时间**:测量人类对请求的响应时间,通常通过语音或视频电话。
- **解决时间**:测量满足用户需求关闭支持或信息请求所需的时间。
- **等待时间**:测量支持或信息请求在队列中未处理的时间。
- **连接时间**:测量服务启动所需的时间。
- **优雅降级**:衡量系统或服务在过载时以受控和渐进方式降级的程度。
- **撤销或终止**:测量撤销使用服务或产品授权的速度。
企业的特定 KQIs 在一定程度上取决于企业的目标和业务规则,并且只应考虑与业务服务相关的 KQIs。例如,在远程办公中,只考虑那些在访问企业系统方面代表积极客户体验(CE)的 KQIs。
## 2. 质量方程与测量
为了从性能相关数据中提供质量测量,已经开发了许多标准方程。这些方程可用于在网络部署前进行建模、为服务级别协议(SLA)合同赋值,以及分析数据以预测服务变化(如添加路由控制器或从窄带连接转向宽带连接)导致的性能提升或下降。它们还可用于确定 SLA 监控和报告的公钥基础设施(PKI)参数的阈值和敏感性分析。
### 2.1 Open Group 应用资源测量(ARM)模型
ARM 模型允许对应用程序进行检测,以评估单系统和分布式应用程序的性能和可用性。它建立了应用程序中有意义的事务,如用户发起的事务和与服务器的事务。当事务开始或停止时,客户端或服务器机器上的应用程序会调用 ARM,代理与管理应用程序通信,管理应用程序提供数据的分析和报告。管理代理收集状态和响应时间,以及可选的与事务相关的其他测量值。业务应用程序与代理一起还可以提供信息来关联父子事务。
### 2.2 语音通话质量测量
用户对语音通话质量的感知通常使用平均意见得分(MOS)来衡量,但 MOS 是主观的且不易测量。因此,国际电信联盟(ITU)开发了 E - 模型标准(在 ITU G.107 和 G.108 标准中指定),用于客观测量通话质量。E - 模型的输出是 R 值,范围在 0 到 100 之间,它可以可靠地映射到估计的 MOS。
E - 模型的传输评级因子 R 计算公式为:
\[R = R_o - I_s - I_d - I_e + A\]
其中:
- \(R_o\) 代表信噪比,包括电路噪声和房间噪声等噪声源。
- \(I_s\) 是与语音信号同时发生的损害组合,包括响度、侧音、模数转换的量化失真以及数据包丢失造成的损害。
- \(I_d\) 代表由延迟引起的损害,包括说话者和听众回声以及端到端延迟。
- \(I_e\) 代表由低比特率编解码器(CODEC)引起的损害,包括数据包抖动和丢失的影响。
- \(A\) 代表优势因子,用于在有其他优势(如移动性)时补偿损害因子。
为确保高语音质量,可测量以下关键性能指标(KPIs):延迟(即端到端数据包传递延迟)、抖动(即数据包传递时间的变化)、数据包丢失(即传输期间丢弃的数据包百分比)和编解码器选择。对于基于数据包的技术,可以通过测量这些 KPIs 从 E - 模型确定 R 值。
### 2.3 互联网协议(IP)的传输评级因子
对于 IP,也开发了响应模型来预测和测量性能。IP 的传输评级因子 R 可以写成:
\[R = 2(D + L + C) + (D + C/2)((T - 2)/M) + D \cdot \ln((T - 2)/M + 1) + \max(8 \cdot P \cdot (1 + OHD)/B, D \cdot P/W)/(1 - \sqrt{L})\]
其中:
- \(B\) 是路径中的最小线路速度,单位为比特每秒。
- \(C = C_C + C_S\),\(C_C\) 是客户端处理时间(以秒为单位),\(C_S\) 是服务器处理时间(以秒为单位)。
- \(D\) 是往返延迟(以秒为单位)。
- \(L\) 是测量为分数的数据包丢失。
- \(M\) 是复用因子。
- \(OHD\) 是开销分数。
- \(P\) 是有效负载大小(以字节为单位)。
- \(R\) 是响应时间(以秒为单位)。
- \(T\) 是应用程序回合数。
- \(W\) 是有效窗口大小(以字节为单位)。
IP 的传输评级因子取决于多个因素,包括应用程序设计、客户端和服务器处理时间、有效负载、有效窗口大小、数据包丢失、往返延迟和线路速度等。这意味着应用程序的响应时间需要结合网络服务、服务器和客户端的 KPIs,而 ARM 可用于测量客户端和服务器的响应时间。
## 3. 服务质量管理
数字媒体服务行业通过合作伙伴和服务提供商(SP)的价值链或生态系统提供服务。在复杂的价值链上提供高质量的客户体验需要合作伙伴测量客户满意度、监督 SLA、确定价值链或生态系统中的问题,并在保持安全的同时分配付款。因此,服务质量管理(SQM)框架需要定义一个全面的框架,包括:
- 测量和有效管理服务质量。
- 确定服务交付网络各点的关键服务质量指标。
- 处理服务质量问题以及必要的会计和回扣信息、使用信息和问题解决信息。
- 支持服务交付网络各步骤的管理能力。
- 提供适当的接口和应用程序编程接口(API),以便在服务价值链中的各个提供商之间以电子方式交换此类信息。
### 3.1 价值链 SQM
从价值链的角度来看,SQM 支持一组 API 和指标,允许合作伙伴(如企业及其云提供商伙伴)收集、处理和交换信息
0
0
复制全文
相关推荐










