kafka 通过 flink 将数据落到 doris 的原理

原创

已于 2024-08-20 15:44:53 修改 · 2.1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-08-20 15:43:08 首次发布

将数据从 Kafka 通过 Flink 处理并最终落到 Doris 的流程可以概括为以下几个步骤：

在 Flink 中，Kafka 消费者（Kafka Source）会将数据流输入 Flink 的数据流引擎。Flink 可以对数据进行各种处理，如过滤、转换、聚合、窗口计算等。
Flink 作业（Job）会定义如何处理这些数据流。例如，将原始数据解析为结构化的格式，对字段进行转换，或者应用复杂的计算逻辑。

Doris Sink: Flink 提供了将处理后的数据写入 Doris 的功能，这通常通过 Flink 的 Sink 机制实现。
Batch vs. Streaming: 根据需要，Flink 可以选择以批处理或流式处理的方式将数据写入 Doris。通常，流式处理用于实时写入，而批处理适合定时批量写入。
Data Mapping: Flink 作业会根据 Doris 表的 schema 将数据转换成 Doris 能够接受的格式。Doris 支持各种数据导入方式，如 INSERT 语句、流式导入（Stream Load）、Broker Load 等。Flink 会调用相应的 API 或 SQL 语句将数据写入 Doris。