在Apache Kafka中，生产者（Producer）负责插入消息到主题（Topic）

最新推荐文章于 2025-04-28 00:00:00 发布

Bol5261

最新推荐文章于 2025-04-28 00:00:00 发布

阅读量833

点赞数 11

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/blog_programb/article/details/141162815

Job(a good job programmer) 同时被 3 个专栏收录

2362 篇文章

订阅专栏

Apache(Apache HTTP Server )

328 篇文章

订阅专栏

Kafka(Scala Java ecosystem)

62 篇文章

订阅专栏

在Apache Kafka中，生产者（Producer）负责插入消息到主题（Topic）。这里有两个主要的Java客户端库可以用来实现插入操作：kafka-clients（默认）和kafka-producer-perf-test-app（性能测试工具）。

使用Java官方客户端（kafka-clients）:

首先，创建一个ProducerRecord，它包含了主题名、分区和消息内容。示例代码如下：

Properties props = new Properties();
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class);

Producer<String, String> producer = new KafkaProducer<>(props);
ProducerRecord<String, String> record = new ProducerRecord<>("my-topic", "key", "value");
producer.send(record); // 发送消息
producer.close(); // 关闭连接

使用kafka-producer-perf-test-app进行性能测试:
这个工具提供了更高级的功能，如多线程发送和定制化的发送速率控制。例如，发送大量记录的命令可以这样写：

bin/kafka-producer-perf-test.sh --topic my-topic --throughput 1000 --record-size 100 --num-records 100000

这会以1000条/秒的速度发送大小为100字节的消息，共计100,000条。

要配置Apache Flink的Kafka消费者来消费来自"My-Topic"的消息，您可以按照以下步骤操作：

开启动态分区发现:
如果您希望动态地发现Kafka主题的分区，您需要允许Flink Consumer动态查找新的分区。为此，在FlinkSessionBuilder中设置flink.partition-discovery.interval-millis属性。例如：
```
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.getConfig().setInteger(FlinkKafkaConsumerBase.PARTITION_DISCOVERY_INTERVAL_MILLIS, yourIntervalInMilliseconds);
```

创建消费者配置:
使用Flink的FlinkKafkaConsumer<YourType>构造函数，其中YourType是您期望的消息类型。指定主题"My-Topic"和可能的正则表达式模式（如果适用）：

Properties props = new Properties();
props.setProperty("bootstrap.servers", "your-kafka-bootstrap-server");
props.setProperty("group.id", "your-consumer-group-id"); // 设置消费者组名
props.setProperty("topic", "My-Topic"); // 指定主题

// 如果需要正则表达式匹配多个主题
props.setProperty(FlinkKafkaConsumer.BOOTSTRAP_SERVERS_CONFIG, "your-bootstrap-server:your-port");
props.setProperty(KafkaConsumer.AUTO_OFFSET_RESET_CONFIG, "earliest"); // 或者"latest"

FlinkKafkaConsumer<YourType> kafkaConsumer = new FlinkKafkaConsumer<>("My-Topic", new YourTypeDeserializationSchema(), props);

将消费者添加到流图:
将创建的消费者实例连接到您的数据流中：

DataStream stream = env.addSource(kafkaConsumer);


确保替换上述示例中的`yourIntervalInMilliseconds`、`your-kafka-bootstrap-server`、`your-consumer-group-id`以及`YourTypeDeserializationSchema`为实际的值。

在Apache Flink中，处理Kafka的offset自动提交涉及到以下几个步骤:

1. **配置offset commit策略**:
Flink通过`KafkaConsumer`的`enableAutoCommit()`方法启用自动提交。默认情况下，Flink会定期（如每个批处理周期结束）自动提交offset到Kafka。你可以通过`KafkaProperties`中的`auto.commit.interval.ms`属性设置提交间隔。

```java
Properties props = new Properties();
props.setProperty(KafkaProperties.AUTO_COMMIT_INTERVAL_MS, "5000"); // 设置每隔5秒提交一次offset
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

确保Exactly Once语义:
Flink的Exactly Once语义需要配合Flink的Checkpoint机制来实现。Checkpoint周期内，Flink会保存并重放状态，包括消费的offset。如果在两次连续的Checkpoint之间发生了失败，Flink可以回滚到上一个成功的Checkpoint状态，重新从上次消费的位置开始。

虽然Flink本身不依赖Zookeeper来保证 Exactly Once，但它可以通过配置exactlyOnceMode和keyedStateBackend来启用这种模式，特别是在Keyed State的情况下。
```
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(5000); // 设置检查点间隔
env.setStateBackend(new FsStateBackend()); // 使用文件系统作为状态后端
```
监控与外部应用协调:
Flink的offset信息通常不会直接用于内部错误恢复，而是供外部应用程序如监控工具查询。如果要查看消费进度，可以在应用程序中订阅Kafka的offset存储主题，或者使用Flink提供的FlinkKafkaConsumer的getWatermarkOffsets()方法获取。

总之，Flink通过自动提交offset结合其Checkpoint机制，以及可能的Exactly Once配置，来管理和保证Kafka消费的可靠性和一致性。外部应用程序可以根据需要调整这些设置以满足具体业务需求。

为了避免因网络分区导致的数据丢失，特别是在Flink版本小于1.10的情况下，可以考虑更改Kafka sink的分区配置。Flink的官方文档指出，在早期版本中，如果使用默认的分区策略，每个sink实例可能会写入单个分区，这可能导致网络负载不均衡。推荐的做法是使用自定义的分区器，如fixed分区器。

fixed分区器会确保同一个Flink分区内的消息总是写入同一台Kafka服务器上的固定分区，这样可以减少网络连接的数量，降低数据丢失的风险。配置方式如下：

# Flink配置
keyed.streams.sink.partition_strategy=fixed

# 或者在具体的sink中设置
<your-sink>
  ...
  properties {
    sink.partitioner.class = "org.apache.flink.streaming.connectors.kafka.FlinkFixedPartitioner"
  }
</your-sink>

这会限制每个Flink任务实例只写入一个特定的Kafka分区，提高数据的一致性和可靠性。当然，具体实现可能需要根据实际情况调整参数，比如集群规模、数据流量等因素来决定合适的分区数量。
在这里插入图片描述