全面剖析Flink CheckPoint机制与Exactly Once和At Least Once语义

原创已于 2024-08-09 17:40:18 修改 · 5k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2020-03-10 18:43:02 首次发布

20 篇文章

订阅专栏

3 篇文章

订阅专栏

看完本文，你能掌握以下知识：

Flink 是一个流式处理框架，支持有状态的计算。状态数据是指在处理每个元素或事件时，系统存储的数据，这些数据可以修改、查询，并根据业务需求保存历史数据或中间结果。

例子：

无状态计算的例子：

有状态计算的例子：

CheckPoint 的作用
CheckPoint 是为了在任务故障后恢复任务状态，保证任务的高可用。它通过快照保存任务状态，当任务挂掉后，从最近一次的完整快照恢复。
快照是什么？
快照（Snapshot）是将程序在某一时刻的状态保存下来，便于后续恢复。以 PV 统计为例，我们从 Kafka 读取日志，将统计结果保存到内存中并定期做快照。
CheckPoint 保存的信息
- Kafka 消费的 offset，如 (0, 1000)。
- PV 统计数据，如 (app1, 50000) 和 (app2, 10000)。
- 状态后端保存的状态信息，例如 chk-100，记录了 offset 和 PV 数据。
任务恢复
- 如果任务挂掉，Flink 从最近一次成功的 CheckPoint 恢复任务，重新消费数据并恢复状态。例如，从 chk-100 恢复，offset 为 (0, 1000) 和 PV 为 (app1, 50000) 和 (app2, 10000)。
如何保证快照的准确性
- CheckPoint 使用 barrier 机制，所有任务在接收到 barrier 后，暂停数据处理，进行快照保存。

什么是 barrier 对齐？

一旦 Operator 接收到 CheckPoint barrier n，它必须等到所有输入流的 barrier n 都到达后，才能继续处理数据记录。这避免了混合快照 n 和快照 n+1 的数据记录。

什么是 barrier 不对齐？

为什么 barrier 对齐是 Exactly Once？

对齐的 barrier 确保所有数据在快照时被处理，不会出现重复消费。举例：在 checkpoint 中，barrier 对齐的情况不会有重复消费，而不对齐的情况可能出现重复消费。

总结

多并行度、多 Operator 情况下的 CheckPoint 过程

分布式状态容错问题
- 确保状态的精确一次容错。
- 在分布式场景下产生全域一致的快照。
- 不中断运算地产生快照。
全域一致的快照
- 所有 Operator 在接收到 barrier 后，执行快照操作，保存到状态后端。
状态恢复
- 根据保存的快照状态，恢复各个 Operator 的状态。
CheckPoint 执行过程
- JobManager 向 SourceTask 发送 CheckPointTrigger，SourceTask 插入 barrier 并开始快照操作。
- 当所有任务完成快照后，CheckPointCoordinator 汇总状态信息，写入持久化存储。