Flink笔记12:Flink之Watermark

1、基本概念

我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator 的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指Flink 接收到的事件的先后顺序不是严格按照事件的Event Time 顺序排列的。
在这里插入图片描述
那么此时出现一个问题,一旦出现乱序,如果只根据eventTime 决定window 的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window 去进行计算了,这个特别的机制,就是Watermark。

  • Watermark 是一种衡量Event Time 进展的机制。
  • Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark 机制结合window 来实现。
  • 数据流中的Watermark 用于表示timestamp 小于Watermark 的数据,都已经到达了,因此,window
    的执行也是由Watermark 触发的。
  • Watermark 可以理解成一个延迟触发机制,我们可以设置Watermark的延时时长t,每次系统会校验已经到达的数据中最大的maxEventTime,然后认定eventTime小于maxEventTime - t的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime – t,那么这个窗口被触发执行。
    在这里插入图片描述

当Flink 接收到数据时,会按照一定的规则去生成Watermark,这条Watermark就等于当前所有到达数据中的maxEventTime - 延迟时长,也就是说,Watermark 是基于数据携带的时间戳生成的,一旦Watermark 比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于event time 是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。

上图中,我们设置的允许最大延迟到达时间为2s,所以时间戳为7s 的事件对应的Watermark 是5s,时间戳为12s 的事件的Watermark 是10s,如果我们的窗口1是1s-5s,窗口2是6s-10s,那么时间戳为7s 的事件到达时的Watermarker 恰好触发窗口1,时间戳为12s 的事件到达时的Watermark 恰好触发窗口2。

Watermark 就是触发前一窗口的“关窗时间”,一旦触发关门那么以当前时刻为准在窗口范围内的所有所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。

2、Watermark 的引入

watermark 的引入很简单,对于乱序数据,最常见的引用方式如下:

dataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.seconds(3)) {
      override def extractTimestamp(element: SensorReading): Long = element.timestamp * 1000L
    })

Event Time 的使用一定要指定数据源中的时间戳。否则程序无法知道事件的事件时间是什么(数据源里的数据没有时间戳的话,就只能使用Processing Time 了)。我们看到上面的例子中创建了一个看起来有点复杂的类,这个类实现的其实就是分配时间戳的接口。Flink 暴露了TimestampAssigner 接口供我们实现,使我们可以自定义如何从事件数据中抽取时间戳。

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给env 创建的每一个stream 追加时间特性
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
val readings: DataStream[SensorReading] = env
.addSource(new SensorSource)
.assignTimestampsAndWatermarks(new MyAssigner())

MyAssigner 有两种类型

  • AssignerWithPeriodicWatermarks
  • AssignerWithPunctuatedWatermarks

以上两个接口都继承自TimestampAssigner。

1)Assigner with periodic watermarks

周期性的生成watermark:系统会周期性的将watermark 插入到流中(水位线也是一种特殊的事件!)。默认周期是200 毫秒。可以使用ExecutionConfig.setAutoWatermarkInterval()方法进行设置。

val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
// 每隔5 秒产生一个watermark
env.getConfig.setAutoWatermarkInterval(5000)

产生watermark 的逻辑:每隔5 秒钟,Flink 会调用AssignerWithPeriodicWatermarks 的getCurrentWatermark()方法。如果方法返回一个时间戳大于之前水位的时间戳,新的watermark 会被插入到流中。这个检查保证了水位线是单调递增的。如果方法返回的时间戳小于等于之前水位的时间戳,则不会产生新的watermark。
例子,自定义一个周期性的时间戳抽取:

class PeriodicAssigner extends
    AssignerWithPeriodicWatermarks[SensorReading] {
        val bound: Long = 60 * 1000 // 延时为1 分钟
        var maxTs: Long = Long.MinValue // 观察到的最大时间戳
        override def getCurrentWatermark: Watermark = {
            new Watermark(maxTs - bound)
        }
        override def extractTimestamp(r: SensorReading, previousTS: Long) = {
            maxTs = maxTs.max(r.timestamp)
            r.timestamp
        }
}

一种简单的特殊情况是,如果我们事先得知数据流的时间戳是单调递增的,也就是说没有乱序,那我们可以使用assignAscendingTimestamps,这个方法会直接使用数据的时间戳生成watermark。

val stream: DataStream[SensorReading] = ...
val withTimestampsAndWatermarks = stream
.assignAscendingTimestamps(e => e.timestamp)

>> result: E(1), W(1), E(2), W(2), ...

而对于乱序数据流,如果我们能大致估算出数据流中的事件的最大延迟时间,
就可以使用如下代码:

val stream: DataStream[SensorReading] = ...
val withTimestampsAndWatermarks = stream.assignTimestampsAndWatermarks(new SensorTimeAssigner)

class SensorTimeAssigner extends BoundedOutOfOrdernessTimestampExtractor[SensorReading(Time.seconds(5)) {
	// 抽取时间戳
	override def extractTimestamp(r: SensorReading): Long = r.timestamp
}

>> relust: E(10), W(0), E(8), E(7), E(11), W(1), ...

2)Assigner with punctuated watermarks

间断式地生成watermark。和周期性生成的方式不同,这种方式不是固定时间的,而是可以根据需要对每条数据进行筛选和处理。直接上代码来举个例子,我们只给sensor_1 的传感器的数据流插watermark:

class PunctuatedAssigner extends AssignerWithPunctuatedWatermarks[SensorReading] {
	val bound: Long = 60 * 1000
	override def checkAndGetNextWatermark(r: SensorReading, extractedTS:Long): Watermark = {
		if (r.id == "sensor_1") {
			new Watermark(extractedTS - bound)
		} else {
			null
		}
	}
	override def extractTimestamp(r: SensorReading, previousTS: Long): Long= {
		r.timestamp
	}
}
### 定时监控小红书用户发布笔记的方法 为了实现基于用户ID每分钟监控小红书用户发布的笔记,可以采用如下方案: #### 使用消息队列与流处理框架相结合的方式 通过引入Apache Flink这样的流处理引擎来实现实时数据处理[^3]。具体来说,每当有新的笔记被创建时,该事件会被发送到Kafka主题中作为一个消息记录。随后,Flink作业会订阅这些Kafka主题并持续读取消息。 ```python from pyflink.datastream import StreamExecutionEnvironment from pyflink.table import StreamTableEnvironment, EnvironmentSettings env = StreamExecutionEnvironment.get_execution_environment() settings = EnvironmentSettings.new_instance().in_streaming_mode().use_blink_planner().build() t_env = StreamTableEnvironment.create(env, environment_settings=settings) # 注册Kafka连接器用于消费来自特定topic的消息 t_env.execute_sql(""" CREATE TABLE notes ( user_id STRING, note_content STRING, created_at TIMESTAMP(3), WATERMARK FOR created_at AS created_at - INTERVAL '5' SECOND ) WITH ( 'connector' = 'kafka', 'topic' = 'notes_topic', 'properties.bootstrap.servers' = 'localhost:9092', 'format' = 'json' ) """) # 对于每一个用户的笔记进行窗口聚合操作 result_table = t_env.sql_query(""" SELECT user_id, COUNT(*) as num_of_notes, TUMBLE_START(created_at, INTERVAL '1' MINUTE) as window_start_time FROM notes GROUP BY user_id, TUMBLE(created_at, INTERVAL '1' MINUTE) """) ``` 此代码片段展示了如何配置Flink环境以及定义一个SQL查询语句来进行按时间窗口(这里设置为一分钟)统计每个用户在此时间段内所发表的笔记数量。 #### 设置报警机制 当检测到某些异常情况时,比如某个用户在一分钟内的发帖量超过了预设阈值,则触发警报通知相关人员进一步调查可能存在的刷屏行为或其他违规现象。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值