Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

自Flink 1.4.0版本起,通过TwoPhaseCommitSinkFunction实现了与外部系统交互的Exactly-Once语义,确保每个输入事件只影响结果一次,即使在故障后也无重复或丢失数据。此功能基于checkpoint机制,利用两阶段提交协议与数据源和输出端交互,支持如Kafka等事务性系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. Apache Flink 应用程序中的 Exactly-Once 语义
  2. Flink 应用程序端到端的 Exactly-Once 语义
  3. 示例 Flink 应用程序启动预提交阶段
  4. 在 Flink 中实现两阶段提交 Operator
  5. 总结

Apache Flink 自2017年12月发布的1.4.0版本开始,为流计算引入了一个重要的里程碑特性:TwoPhaseCommitSinkFunction(相关的Jira)。它提取了两阶段提交协议的通用逻辑,使得通过Flink来构建端到端的Exactly-Once程序成为可能。同时支持一些数据源(source)和输出端(sink),包括Apache Kafka 0.11及更高版本。它提供了一个抽象层,用户只需要实现少数方法就能实现端到端的Exactly-Once语义。

有关TwoPhaseCommitSinkFunction的使用详见文档: TwoPhaseCommitSinkFunction。或者可以直接阅读Kafka 0.11 sink的文档: kafka。

接下来会详细分析这个新功能以及Flink的实现逻辑,分为如下几点。

  • 描述Flink checkpoint机制是如何保证Flink程序结果的Exactly-Once的
  • 显示Flink如何通过两阶段提交协议与数据源和数据输出端交互,以提供端到端的Exactly-Once保证
  • 通过一个简单的示例,了解如何使用TwoPhaseCommitSinkFunction实现Exactly-Once的文件输出

一、Apache Flink应用程序中的Exactly-Once语义

当我们说『Exactly-Once』时,指的是每个输入的事件只影响最终结果一次。即使机器或软件出现故障,既没有重复数据,也不会丢数据。

Flink很久之前就提供了Exactly-Once语义。在过去几年中,我们对Flink的checkpoint机制有过深入的描述,这是Flink有能力提供Exactly-Once语义的核心。Flink文档还提供了该功能的全面概述。

在继续之前,先看下对checkpoint机制的简要介绍,这对理解后面的主题至关重要。

  • 次checkpoint是以下内容的一致性快照:
  • 应用程序的当前状态
  • 输入流的位置

Flink可以配置一个固定的时间点,定期产生checkpoint,将checkpoint的数据写入持久存储系统,例如S3或HDFS。将checkpoint数据写入持久存储是异步发生的,这意味着Flink应用程序在checkpoint过程中可以继续处理数据。

如果发生机器或软件故障,重新启动后,Flink应用程序将从最新的checkpoint点恢复处理; Flink会恢复应用程序状态,将输入流回滚到上次checkpoint保存的位置,然后重新开始运行。这意味着Flink可以像从未发生过故障一样计算结果。

在Flink 1.4.0之前,Exactly-Once语义仅限于Flink应用程序内部,并没有扩展到Flink数据处理完后发送的大多数外部系统。Flink应用程序与各种数据输出端进行交互,开发人员需要有能力自己维护组件的上下文来保证Exactly-Once语义。

为了提供端到端的Exactly-Once语义 – 也就是说,除了Flink应用程序内部,Flink写入的外部系统也需要能满足Exactly-Once语义 – 这些外部系统必须提供提交或回滚的方法,然后通过Flink的checkpoint机制来协调。

分布式系统中,协调提交和回滚的常用方法是两阶段提交协议。在下一节中,我们将讨论Flink的TwoPhaseCommitSinkFunction是如何利用两阶段提交协议来提供端到端的Exactly-Once语义。

二、Flink应用程序端到端的Exactly-Once语义

我们将介绍两阶段提交协议,以及它如何在一个读写Kafka的Flink程序中实现端到端的Exactly-Once语义。Kafka是一个流行的消息中间件,经常与Flink一起使用。Kafka在最近的0.11版本中添加了对事务的支持。这意味着现在通过Flink读写Kafaka,并提供端到端的Exactly-Once语义有了必要的支持。

Flink对端到端的Exactly-Once语义的支持不仅局限于Kafka,您可以将它与任何一个提供了必要的协调机制的源/输出端一起使用。例如Pravega,来自DELL/EMC的开源流媒体存储系统,通过Flink的TwoPhaseCommitSinkFunction也能支持端到端的Exactly-Once语义。

在今天讨论的这个示例程序中,我们有:

  • 从Kafka读取的数据源(Flink内置的KafkaConsumer)
  • 窗口聚合
  • 将数据写回Kafka的数据输出端(Flink内置的KafkaProducer)

要使数据输出端提供Exactly-Once保证,它必须将所有数据通过一个事务提交给Kafka。提交捆绑了两个checkpoint之间的所有要写入的数据。这可确保在发生故障时能回滚写入的数据。但是在分布式系统中,通常会有多个并发运行的写入任务的,简单的提交或回滚是不够的,因为所有组件必须在提交或回滚时“一致”才能确保一致的结果。Flink使用两阶段提交协议及预提交阶段来解决这个问题。

checkpoint开始的时候,即两阶段提交协议的“预提交”阶段。当checkpoint开始时,Flink的JobManager会将checkpoint barrier(将数据流中的记录分为进入当前checkpoint与进入下一个checkpoint)注入数据流。

brarrier在operator之间传递。对于每一个operator,它触发operator的状态快照写入到state backend。

数据源保存了消费Kafka的偏移量(offset),之后将checkpoint barrier传递给下一个operator。

这种方式仅适用于operator具有『内部』状态。所谓内部状态,是指Flink state backend保存和管理的 -例如,第二个operator中window聚合算出来的sum值。当一个进程有它的内部状态的时候,除了在checkpoint之前需要将数据变更写入到state backend,不需要在预提交阶段执行任何其他操作。Flink负责在checkpoint成功的情况下正确提交这些写入,或者在出现故障时中止这些写入。

三、示例Flink应用程序启动预提交阶段

但是,当进程具有『外部』状态时,需要作些额外的处理。外部状态通常以写入外部系统(如Kafka)的形式出现。在这种情况下,为了提供Exactly-Once保证,外部系统必须支持事务,这样才能和两阶段提交协议集成。

在本文示例中的数据需要写入Kafka,因此数据输出端(Data Sink)有外部状态。在这种情况下,在预提交阶段,除了将其状态写入state backend之外,数据输出端还必须预先提交其外部事务。

当checkpoint barrier在所有operator都传递了一遍,并且触发的checkpoint回调成功完成时,预提交阶段就结束了。所有触发的状态快照都被视为该checkpoint的一部分。checkpoint是整个应用程序状态的快照,包括预先提交的外部状态。如果发生故障,我们可以回滚到上次成功完成快照的时间点。

下一步是通知所有operator,checkpoint已经成功了。这是两阶段提交协议的提交阶段,JobManager为应用程序中的每个operator发出checkpoint已完成的回调。

数据源和 widnow operator没有外部状态,因此在提交阶段,这些operator不必执行任何操作。但是,数据输出端(Data Sink)拥有外部状态,此时应该提交外部事务。

我们对上述知识点总结下:

  • 旦所有operator完成预提交,就提交一个commit。
  • 如果至少有一个预提交失败,则所有其他提交都将中止,我们将回滚到上一个成功完成的checkpoint。
  • 在预提交成功之后,提交的commit需要保证最终成功 – operator和外部系统都需要保障这点。如果commit失败(例如,由于间歇性网络问题),整个Flink应用程序将失败,应用程序将根据用户的重启策略重新启动,还会尝试再提交。这个过程至关重要,因为如果commit最终没有成功,将会导致数据丢失。

因此,我们可以确定所有operator都同意checkpoint的最终结果:所有operator都同意数据已提交,或提交被中止并回滚。

四、在Flink中实现两阶段提交Operator

完整的实现两阶段提交协议可能有点复杂,这就是为什么Flink将它的通用逻辑提取到抽象类TwoPhaseCommitSinkFunction中的原因。

接下来基于输出到文件的简单示例,说明如何使用TwoPhaseCommitSinkFunction。用户只需要实现四个函数,就能为数据输出端实现Exactly-Once语义:

  • beginTransaction – 在事务开始前,我们在目标文件系统的临时目录中创建一个临时文件。随后,我们可以在处理数据时将数据写入此文件。
  • preCommit – 在预提交阶段,我们刷新文件到存储,关闭文件,不再重新写入。我们还将为属于下一个checkpoint的任何后续文件写入启动一个新的事务。
  • commit – 在提交阶段,我们将预提交阶段的文件原子地移动到真正的目标目录。需要注意的是,这会增加输出数据可见性的延迟。
  • abort – 在中止阶段,我们删除临时文件。

我们知道,如果发生任何故障,Flink会将应用程序的状态恢复到最新的一次checkpoint点。一种极端的情况是,预提交成功了,但在这次commit的通知到达operator之前发生了故障。在这种情况下,Flink会将operator的状态恢复到已经预提交,但尚未真正提交的状态。

我们需要在预提交阶段保存足够多的信息到checkpoint状态中,以便在重启后能正确的中止或提交事务。在这个例子中,这些信息是临时文件和目标目录的路径。

TwoPhaseCommitSinkFunction已经把这种情况考虑在内了,并且在从checkpoint点恢复状态时,会优先发出一个commit。我们需要以幂等方式实现提交,一般来说,这并不难。在这个示例中,我们可以识别出这样的情况:临时文件不在临时目录中,但已经移动到目标目录了。

在TwoPhaseCommitSinkFunction中,还有一些其他边界情况也会考虑在内,请参考Flink文档了解更多信息。

总结

总结下本文涉及的一些要点:

  • Flink的checkpoint机制是支持两阶段提交协议并提供端到端的Exactly-Once语义的基础。
  • 这个方案的优点是: Flink不像其他一些系统那样,通过网络传输存储数据 – 不需要像大多数批处理程序那样将计算的每个阶段写入磁盘。
  • Flink的TwoPhaseCommitSinkFunction提取了两阶段提交协议的通用逻辑,基于此将Flink和支持事务的外部系统结合,构建端到端的Exactly-Once成为可能。
  • 从Flink 1.4.0开始,Pravega和Kafka 0.11 producer都提供了Exactly-Once语义;Kafka在0.11版本首次引入了事务,为在Flink程序中使用Kafka producer提供Exactly-Once语义提供了可能性。
  • Kafaka 0.11 producer的事务是在TwoPhaseCommitSinkFunction基础上实现的,和at-least-once producer相比只增加了非常低的开销。

这是个令人兴奋的功能,期待Flink TwoPhaseCommitSinkFunction在未来支持更多的数据接收端。

via: https://www.ververica.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka

作者:Piotr Nowojski

翻译| 周凯波

周凯波,阿里巴巴技术专家,四川大学硕士,2010年毕业后加入阿里搜索事业部,从事搜索离线平台的研发工作,参与将搜索后台数据处理架构从MapReduce到Flink的重构。目前在阿里计算平台事业部,专注于基于Flink的一站式计算平台的建设。

 

<think>嗯,用户深入询问了KafkaFlink在数据中台架构中实现Exactly-Once的原理。从对话历史看,用户对数据中台的技术实现有相当专业的了解,之前已经讨论过Kafka在数据中台中的核心作用,现在聚焦在事务一致性这个高阶话题上。用户提供的引用资料很有价值,主要说明了三点:1Kafka0.11+的事务支持是实现EE的基础[^1][^2];2Flink实现EE需要sink端配合[^3];3)消费端也需要事务支持[^4]。这说明用户已经做了功课,需要的是系统化的原理剖析。这个问题可以拆解为三个层面来讲:首先是Flink内部检查点机制如何保障状态一致性,这是基石;其次要说明Kafka作为消息系统如何参与分布式事务;最后需要解释数据中台场景下这种机制如何落地。用户特别强调"架构"视角,所以应该突出组件间的协作关系。注意到用户上次询问过"端到端一致性",这次EE实现其实是延续话题。在数据中台语境下,需要强调SchemaRegistry的作用——它保存的数据格式定义也是事务一致性的组成部分,虽然引用里没提这点,但根据之前的讨论应该补充。用户提供的引用[^3]中那个支持列表特别重要,要重点解释为什么有些sink只能做到at-least-once。不过技术细节容易枯燥,可以用那个Kafka生产者的配置案例来具象化,这样用户能立即联想到实际配置场景。最后那个自动偏移提交的对比很关键,用户引用[^2]提到了checkpoint禁用时的行为差异,这个对比能帮助理解EE和ALO的本质区别。可以用一个简单表格归纳,避免技术叙述过于密集。</think> 在数据中台架构中,KafkaFlink协同实现端到端Exactly-Once语义需通过**分布式事务机制**完成,核心原理分为以下三部分: --- ### **一、Flink检查点机制(Checkpoint)** Flink通过**分布式快照**保障内部状态一致性: 1. **屏障传播** JobManager周期性广播**Barrier**信号,当算子接收到所有输入的Barrier后,将自身状态快照入**持久化存储(如HDFS)**[^2] $$ \text{Checkpoint}_n = \bigoplus_{i=1}^{k} S_i \quad (S_i\text{为算子状态}) $$ 2. **异步快照** 状态备份与数据处理并行执行,避免阻塞 3. **精准一次恢复** 故障时从最近完整Checkpoint恢复,重放未确认数据 > ✅ **作用范围**:Flink计算拓扑内部状态一致性 --- ### **二、Kafka事务生产与消费** #### 1. **生产者端(入Sink)** - Kafka ≥0.11支持事务API - Flink Kafka Sink通过事务ID管理入批次: ```java // KafkaSink配置事务参数 KafkaSink.<String>builder() .setProperty("transactional.id", "flink-job-001") // 唯一ID .setProperty("enable.idempotence", "true") // 启用幂等 .build(); ``` - **两阶段提交逻辑**: - **预提交**:数据Kafka但标记为`未提交` - **Checkpoint完成**:FlinkKafka发送`commitTransaction()`[^1] #### 2. **消费者端(Source)** - Flink Kafka Consumer绑定到Checkpoint: ```java env.addSource(new FlinkKafkaConsumer<>( "input_topic", new JSONKeyValueDeserializationSchema(), props).setCommitOffsetsOnCheckpoints(true) // 偏移量随Checkpoint提交 ); ``` - 偏移量提交由Flink控制,替代Kafka自动提交[^2] > ✅ **协作机制**:Offset提交与Checkpoint绑定,实现读取位置一致性 --- ### **三、端到端事务链路(数据中台场景)** ```mermaid flowchart TD A[业务数据源] --> B(Kafka Topic A) B --> C{Flink Job} C -->|1. 消费Topic A| D[计算状态] D -->|2. 入结果| E(Kafka Topic B) subgraph 事务控制点 C -- Checkpoint触发--> F[持久化状态/Offset] F -- 提交信号--> E end ``` 1. **原子性保障** - 当Checkpoint完成时: - Topic A偏移量提交 - Topic B事务提交 - 状态快照持久化 **三者原子执行**,否则整体回滚 2. **故障恢复流程** - 重启后加载最近Checkpoint $C_n$ - 重置Topic A消费偏移量至 $C_n$ 记录位置 - 回滚Topic B中$C_n$后入的数据 3. **数据中台关键配置** ```properties # Flink检查点配置 execution.checkpointing.interval: 5000 # 5秒触发Checkpoint execution.checkpointing.mode: EXACTLY_ONCE # Kafka生产者 isolation.level: read_committed # 只读已提交数据 ``` > 🔐 **完整性与效率平衡**:事务周期与Checkpoint间隔需权衡,过短增加开销,过长扩大故障恢复范围 --- ### **与传统机制的对比** | **机制** | 偏移量提交方式 | 数据重复风险 | 故障恢复粒度 | |------------------|------------------------|--------------|--------------------| | 无Checkpoint | Kafka自动提交 | 高(至少一次)| 偏移量区间 | | Checkpoint+ALO | Flink同步提交 | 中(至少一次)| 单条数据 | | **Checkpoint+EE**| 事务绑定提交 | **零** | **原子事务批次** | --- ### **典型问题解决方案** > **Q:事务ID冲突导致数据丢失?** > A:为每个Flink Job配置唯一`transactional.id`,Kafka根据ID保留未完成事务数据[^1] > **Q:Checkpoint超时影响吞吐?** > A:调整`state.backend`为RocksDB,增量快照可提升效率: > ```python > env.set_state_backend(RocksDBStateBackend()) > ``` > **Q:下游非事务系统如何保障一致性?** > A:通过**两阶段提交抽象**实现: > - 实现`TwoPhaseCommitSinkFunction`接口 > - 示例代码参考:[Flink官方文档](https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/dev/datastream/fault-tolerance/exactly_once/) ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值