FLink全链路时延---测量方式

LS_ice

于 2019-11-28 16:23:45 发布

阅读量3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LS_ice/article/details/103295774

本文详细介绍了Flink全链路时延的测量方式，从背景、源码分析、腾讯Oceanus的监控指标到LatencyMarker的实现思路和源码。Flink通过LatencyMarker以可配置的间隔在source端发送，经过Task转发，最终在Sink端计算延迟。文章还讨论了时延粒度、准确性以及在实际监控中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FLink全链路时延—测量方式

文章目录

FLink全链路时延---测量方式

一、背景

FLink Job端到端延迟是一个重要的指标，用来衡量FLink任务的整体性能和响应延迟（大部分流式应用，要求低延迟特性）。

通过流处理引擎竞品对比，我们发现大部分流计算引擎产品，都在告警监控页面，集成了全链路时延指标展示（直方图）

一些低延时的处理场景，例如用于登陆、用户下单规则检测，实时预测场景，需要一个可度量的Metric指标，来实时观测、监控集群全链路时延情况。

二、源码分析来源

1、本文的源码分析基于FLink社区issue FLINK-3660，以及issue对应的pr源码pull-2386，另外，个人也新增了实现源码的说明。

2、其pr源码中只涉及到了部分全链路时延实现代码，因此，我在文章中总结了：

Source到Sink处理Latency Marker源码
LatencyMarksEmitter 提交时延标记类
LatencyStats（时延直方图Metric实现）源码
时延测量–整体架构图

三、腾讯Oceanus监控指标参考

如下图，红色框线对应的数据延时，即我们描述的指标

在这里插入图片描述

在这里插入图片描述

四、Flink LatencyMarker实现思路

1、实现方案变迁

在webinterface中，加入流式job的端到端延迟是一个重要特性。因此，FLink社区最初的想法是在每个记录的source上附加一个摄取时间( ingestion -time)时间戳。

然而，这为不使用monitor feature（监控功能）的用户，带来了额外开销(每个元素+每个元素上的System.currentTimeMilis()需要8个字节)。

因此，FLink社区最后决定，通过定期发送特殊事件来实现此功能，类似于通过拓扑发送水印watermark。

2、实现原理

这些特殊事件（Late

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。