Flink笔记12：Flink之Watermark

最新推荐文章于 2024-03-16 16:27:52 发布

Cape_sir

最新推荐文章于 2024-03-16 16:27:52 发布

阅读量359

点赞数

CC 4.0 BY-SA版权

分类专栏： Flink 文章标签： flink scala 大数据

本文链接：https://blog.csdn.net/weixin_42652596/article/details/111921830

Flink 专栏收录该内容

18 篇文章

订阅专栏

1、基本概念

我们知道，流处理从事件产生，到流经source，再到operator，中间是有一个过程和时间的，虽然大部分情况下，流到operator 的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络、分布式等原因，导致乱序的产生，所谓乱序，就是指Flink 接收到的事件的先后顺序不是严格按照事件的Event Time 顺序排列的。
在这里插入图片描述
那么此时出现一个问题，一旦出现乱序，如果只根据eventTime 决定window 的运行，我们不能明确数据是否全部到位，但又不能无限期的等下去，此时必须要有个机制来保证一个特定的时间后，必须触发window 去进行计算了，这个特别的机制，就是Watermark。

Watermark 是一种衡量Event Time 进展的机制。
Watermark 是用于处理乱序事件的，而正确的处理乱序事件，通常用Watermark 机制结合window 来实现。
数据流中的Watermark 用于表示timestamp 小于Watermark 的数据，都已经到达了，因此，window
的执行也是由Watermark 触发的。
Watermark 可以理解成一个延迟触发机制，我们可以设置Watermark的延时时长t，每次系统会校验已经到达的数据中最大的maxEventTime，然后认定eventTime小于maxEventTime - t的所有数据都已经到达，如果有窗口的停止时间等于maxEventTime – t，那么这个窗口被触发执行。

当Flink 接收到数据时，会按照一定的规则去生成Watermark，这条Watermark就等于当前所有到达数据中的maxEventTime - 延迟时长，也就是说，Watermark 是基于数据携带的时间戳生成的，一旦Watermark 比当前未触发的窗口的停止时间要晚，那么就会触发相应窗口的执行。由于event time 是由数据携带的，因此，如果运行过程中无法获取新的数据，那么没有被触发的窗口将永远都不被触发。

上图中，我们设置的允许最大延迟到达时间为2s，所以时间戳为7s 的事件对应的Watermark 是5s，时间戳为12s 的事件的Watermark 是10s，如果我们的窗口1是1s-5s，窗口2是6s-10s，那么时间戳为7s 的事件到达时的Watermarker 恰好触发窗口1，时间戳为12s 的事件到达时的Watermark 恰好触发窗口2。

Watermark 就是触发前一窗口的“关窗时间”，一旦触发关门那么以当前时刻为准在窗口范围内的所有所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。

2、Watermark 的引入

watermark 的引入很简单，对于乱序数据，最常见的引用方式如下：

dataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.seconds(3)) {
      override def extractTimestamp(element: SensorReading): Long = element.timestamp * 1000L
    })

Event Time 的使用一定要指定数据源中的时间戳。否则程序无法知道事件的事件时间是什么(数据源里的数据没有时间戳的话，就只能使用Processing Time 了)。我们看到上面的例子中创建了一个看起来有点复杂的类，这个类实现的其实就是分配时间戳的接口。Flink 暴露了TimestampAssigner 接口供我们实现，使我们可以自定义如何从事件数据中抽取时间戳。

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给env 创建的每一个stream 追加时间特性
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
val readings: DataStream[SensorReading] = env
.addSource(new SensorSource)
.assignTimestampsAndWatermarks(new MyAssigner())

MyAssigner 有两种类型

AssignerWithPeriodicWatermarks
AssignerWithPunctuatedWatermarks

以上两个接口都继承自TimestampAssigner。

1）Assigner with periodic watermarks

周期性的生成watermark：系统会周期性的将watermark 插入到流中(水位线也是一种特殊的事件!)。默认周期是200 毫秒。可以使用ExecutionConfig.setAutoWatermarkInterval()方法进行设置。

val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
// 每隔5 秒产生一个watermark
env.getConfig.setAutoWatermarkInterval(5000)

产生watermark 的逻辑：每隔5 秒钟，Flink 会调用AssignerWithPeriodicWatermarks 的getCurrentWatermark()方法。如果方法返回一个时间戳大于之前水位的时间戳，新的watermark 会被插入到流中。这个检查保证了水位线是单调递增的。如果方法返回的时间戳小于等于之前水位的时间戳，则不会产生新的watermark。
例子，自定义一个周期性的时间戳抽取：

class PeriodicAssigner extends
    AssignerWithPeriodicWatermarks[SensorReading] {
        val bound: Long = 60 * 1000 // 延时为1 分钟
        var maxTs: Long = Long.MinValue // 观察到的最大时间戳
        override def getCurrentWatermark: Watermark = {
            new Watermark(maxTs - bound)
        }
        override def extractTimestamp(r: SensorReading, previousTS: Long) = {
            maxTs = maxTs.max(r.timestamp)
            r.timestamp
        }
}

一种简单的特殊情况是，如果我们事先得知数据流的时间戳是单调递增的，也就是说没有乱序，那我们可以使用assignAscendingTimestamps，这个方法会直接使用数据的时间戳生成watermark。

val stream: DataStream[SensorReading] = ...
val withTimestampsAndWatermarks = stream
.assignAscendingTimestamps(e => e.timestamp)

>> result: E(1), W(1), E(2), W(2), ...

而对于乱序数据流，如果我们能大致估算出数据流中的事件的最大延迟时间，
就可以使用如下代码：

val stream: DataStream[SensorReading] = ...
val withTimestampsAndWatermarks = stream.assignTimestampsAndWatermarks(new SensorTimeAssigner)

class SensorTimeAssigner extends BoundedOutOfOrdernessTimestampExtractor[SensorReading(Time.seconds(5)) {
	// 抽取时间戳
	override def extractTimestamp(r: SensorReading): Long = r.timestamp
}

>> relust: E(10), W(0), E(8), E(7), E(11), W(1), ...

2）Assigner with punctuated watermarks

间断式地生成watermark。和周期性生成的方式不同，这种方式不是固定时间的，而是可以根据需要对每条数据进行筛选和处理。直接上代码来举个例子，我们只给sensor_1 的传感器的数据流插watermark：

class PunctuatedAssigner extends AssignerWithPunctuatedWatermarks[SensorReading] {
	val bound: Long = 60 * 1000
	override def checkAndGetNextWatermark(r: SensorReading, extractedTS:Long): Watermark = {
		if (r.id == "sensor_1") {
			new Watermark(extractedTS - bound)
		} else {
			null
		}
	}
	override def extractTimestamp(r: SensorReading, previousTS: Long): Long= {
		r.timestamp
	}
}