Flink实现Exactly Once

本文详细介绍了Apache Flink的状态快照(checkpoint)机制,用于实现容错处理。Flink通过定期保存状态快照到持久化存储,并在故障时恢复,保证数据处理的准确性。此外,文章还探讨了Flink如何通过端到端的 ExactlyOnce 语义确保数据一致性,包括源、状态管理和接收器的事务性要求。同时,讲解了Kafka与Flink集成时确保数据不丢失的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

Flink通过状态快照实现容错处理:

Flink 定期获取所有状态的快照,并将这些快照复制到持久化的位置,例如分布式文件系统。

如果发生故障,Flink 可以恢复应用程序的完整状态并继续处理,就如同没有出现过异常。

Flink 管理的状态存储在 state backend 中。

checkpoint 代码

/**
     * 创建flink环境
     */
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    /**
     * 使用flink 的 checkpoint将结果保存到hdfs上去
     *
     * 若任务中途失败或者重新运行,只需指定保存的hdfs路径,就可在上次执行的结果上继续执行
     * 不用让数据重新开始
     *
     * flink中的有状态计算才可以checkpoint,若自己创建的hashmap则无法保存
     */

    // 每 1000ms 开始一次 checkpoint
    env.enableCheckpointing(1000)

    // 高级选项:

    // 设置模式为精确一次 (这是默认值)
    env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)

    // 确认 checkpoints 之间的时间会进行 500 ms
    env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)

    // Checkpoint 必须在一分钟内完成,否则就会被抛弃
    env.getCh
对于Flink的Kafka消费者,可以使用以下代码实现exactly-once语义: 1. 在Flink环境中创建Kafka消费者时,需要使用 KafkaFlinkKryoSerializer 序列化器。 2. 设置ProducerRecordSemantic.EXACTLY_ONCE语义,这样Flink就会使用Kafka事务来确保数据仅被处理一次。 下面是示例代码: ``` import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.CheckpointingMode; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer; import org.apache.flink.streaming.util.serialization.KafkaTuple2KryoSerializer; import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache.kafka.clients.producer.ProducerConfig; import org.apache.kafka.common.serialization.StringSerializer; import java.util.Properties; public class FlinkKafkaExactlyOnce { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.enableCheckpointing(1000, CheckpointingMode.EXACTLY_ONCE); Properties kafkaProps = new Properties(); kafkaProps.setProperty("bootstrap.servers", "localhost:9092"); kafkaProps.setProperty("group.id", "flink-group"); kafkaProps.setProperty("enable.auto.commit", "false"); kafkaProps.setProperty("auto.offset.reset", "earliest"); kafkaProps.setProperty(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer"); kafkaProps.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer"); kafkaProps.setProperty(ConsumerConfig.ISOLATION_LEVEL_CONFIG, "read_committed"); Properties producerProps = new Properties(); producerProps.setProperty("bootstrap.servers", "localhost:9092"); producerProps.setProperty(ProducerConfig.RETRIES_CONFIG, "3"); producerProps.setProperty(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName()); producerProps.setProperty(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName()); producerProps.setProperty(FlinkKafkaProducer.TRANSACTION_TIMEOUT_TIMER_INTERVAL_MS, "600000"); FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>("input_topic", new SimpleStringSchema(), kafkaProps); consumer.setStartFromEarliest(); consumer.setCommitOffsetsOnCheckpoints(true); FlinkKafkaProducer<String> producer = new FlinkKafkaProducer<>("output_topic", new SimpleStringSchema(), producerProps, FlinkKafkaProducer.Semantic.EXACTLY_ONCE); env .addSource(consumer) .map(String::toLowerCase) .addSink(producer); env.execute(); } } ``` 在此代码中,我们使用 KafkaTuple2KryoSerializer 序列化器和 ProducerRecordSemantic.EXACTLY_ONCE语义来确保消费数据和生产数据仅处理一次。同时,我们还使用 FlinkKafkaProducer.TRANSACTION_TIMEOUT_TIMER_INTERVAL_MS 属性来延长事务生命周期,以便可以增加提交事务的成功率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值