Flink实现Exactly Once

最新推荐文章于 2025-07-19 00:10:48 发布

原创

最新推荐文章于 2025-07-19 00:10:48 发布 · 2.9k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据

本文详细介绍了Apache Flink的状态快照（checkpoint）机制，用于实现容错处理。Flink通过定期保存状态快照到持久化存储，并在故障时恢复，保证数据处理的准确性。此外，文章还探讨了Flink如何通过端到端的 ExactlyOnce 语义确保数据一致性，包括源、状态管理和接收器的事务性要求。同时，讲解了Kafka与Flink集成时确保数据不丢失的策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

Flink通过状态快照实现容错处理：

Flink 定期获取所有状态的快照，并将这些快照复制到持久化的位置，例如分布式文件系统。

如果发生故障，Flink 可以恢复应用程序的完整状态并继续处理，就如同没有出现过异常。

Flink 管理的状态存储在 state backend 中。

checkpoint 代码

/**
     * 创建flink环境
     */
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    /**
     * 使用flink 的 checkpoint将结果保存到hdfs上去
     *
     * 若任务中途失败或者重新运行，只需指定保存的hdfs路径，就可在上次执行的结果上继续执行
     * 不用让数据重新开始
     *
     * flink中的有状态计算才可以checkpoint，若自己创建的hashmap则无法保存
     */

    // 每 1000ms 开始一次 checkpoint
    env.enableCheckpointing(1000)

    // 高级选项：

    // 设置模式为精确一次 (这是默认值)
    env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)

    // 确认 checkpoints 之间的时间会进行 500 ms
    env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)

    // Checkpoint 必须在一分钟内完成，否则就会被抛弃
    env.getCh