
Kafka
文章平均质量分 81
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据
@SmartSi
Stay Hungry, Stay Foolish
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kafka 高分笔记
原创 2025-08-19 22:51:26 · 367 阅读 · 0 评论 -
kafka 3.9.1 Error: VM option ‘UseG1GC‘ is experimental and must be enabled via -XX:+UnlockExperiment
摘要: Kafka集群启动时因JVM参数冲突报错,提示UseG1GC是实验性功能需通过UnlockExperimentalVMOptions解锁。该问题源于Kafka新版默认配置与低版本JDK8的兼容性问题。解决方案包括:1)升级Java版本(推荐);2)临时修改Kafka启动脚本,在kafka-run-class.sh中添加-XX:+UnlockExperimentalVMOptions参数解锁G1GC功能。(149字)原创 2025-08-20 23:05:22 · 402 阅读 · 0 评论 -
Spark Streaming Kafka 偏移量 Offset 管理
Spark Streaming 与 Kafka 的集成允许用户从 Kafka 单个 Topic 甚至多个 Topic 中读取消息。Kafka Topic 通过存储消息的分布式分区来接收消息。每个分区按顺序维护接收到的消息,并用偏移量 Offset 来标识。开发人员可以在 Spark Streaming 作业中通过偏移量 Offset 来控制数据读取的位置,但是这需要好的偏移量 Offset 管理机制。管理偏移量 Offset 对于保证流式应用程序在整个生命周期中数据的连贯性是非常有益的。原创 2022-10-12 22:42:41 · 1200 阅读 · 0 评论 -
Flink DataStream Kafka 序列化 JSONKeyValueDeserializationSchema
在我们在使用 Flink Streaming Kafka Connector 从 Kafka 中读取时,一般会采用 SimpleStringSchema 来反序列化 Kafka 中的数据。如果是 Kafka 中的数据是 JSON 格式,然后采用 Gson 或者 FastJson 来解析数据。除了使用这种方式之外,Flink 为我们内置实现了一个 KafkaSerializationSchema 来帮我们解析 Kafka 中的 JSON 格式数据,即 JSONKeyValueDeserializa原创 2023-04-16 16:14:10 · 457 阅读 · 0 评论 -
Kafka Connect 如何构建实时数据管道
Kafka Connect 旨在通过将数据移入和移出 Kafka 进行标准化,以更轻松地构建大规模的实时数据管道。我们可以使用 Kafka Connector 读取或写入外部系统、管理数据流以及扩展系统,所有这些都无需开发新代码。Kafka Connect 管理与其他系统连接时的所有常见问题(Schema 管理、容错、并行性、延迟、投递语义等),每个 Connector 只关注如何在目标系统和 Kafka 之间复制数据。如果有对 Kafka Connect 不了解的,可以参考Kafka Connect原创 2021-12-31 11:49:49 · 442 阅读 · 0 评论 -
Kafka CMAK only recognizes class file versions up to 52.0
经分析发现是我们的 JDK 版本不对,服务器上只有安装 JDK8,而 CMAK 需要 JDK11 +。原创 2022-08-24 08:00:23 · 585 阅读 · 0 评论 -
Flink DataStream Kafka 序列化 KafkaSerializationSchema 与 KafkaDeserializationSchema
序列化 Schema 描述了如何将 Flink 处理的数据类型(Java/Scala对象)转换为 Kafka 可以接受的数据类型。反序列化 Schema 描述了如何将 Kafka 中的数据转换为 Flink 可以处理的数据类型(Java/Scala对象)。原创 2023-04-16 13:48:39 · 327 阅读 · 0 评论 -
Flink Kafka Connector 实现机制简析
说完了 preCommit 和 commit,在两次 Checkpoint 发生的间隔当中,会持续的执行 invoke 方法将数据的写到 Kafka,直到 snapshotState 方法被调用,旧的数据被进行预提交,同时生成新的事务,数据继续写入,直到所有任务Checkpoint完成,收到通知,对完成的checkpointId把事务进行正式的提交。通常,二阶段提交也被称为是一种协议(Protocol))。在分布式系统中,每个节点虽然可以知晓自己的操作时成功或者失败,却无法知道其他节点的操作的成功或失败。转载 2023-06-19 08:17:46 · 922 阅读 · 0 评论 -
Kafka 监控工具之 CMAK
1. 概述CMAK(Cluster Manager for Apache Kafka) 是由 Yahoo 开源的 Kafka 集群管理平台。我们可能听到更多的是 kafka-manager。主要是因为误用了 Apache 的商标,所以才从 kafka-manager 改名为 CMAK。在 3.0.0.2 版本之前,kafka-manager 是不提供现成的编译包的,需要我们自己编译打包,老版本的安装可以参阅博文 Kafka 监控工具之Kafka Manager。在 3.0.0.2 版本之后我们可以直接下原创 2022-05-10 09:41:29 · 648 阅读 · 0 评论 -
Spark Streaming 2.2.0 与 Kafka 0.8 整合
在这篇文章我们主要讲解一下如何配置 Spark Streaming 来接收 Kafka 的数据,一共有两种方法:一种是使用 Receivers 和 Kafka 高级API的旧方法。另一种是不使用 Receivers 的新方法(在 Spark 1.3 中引入)翻译 2023-09-05 08:10:58 · 139 阅读 · 0 评论 -
Kafka Connect 构建大规模低延迟的数据管道
很长一段时间以来,公司所做的大部分数据处理都是作为批作业运行,例如,从数据库中转储的 CSV 文件、在一天结束时收集的日志文件等。但企业是实时一直运营的,与其只在一天结束时处理数据,还不如在数据到达时就对其做出反应?这是流处理的新兴世界。但是只有当数据捕获以流的方式完成时,流处理才成为可能;毕竟,我们无法将每天批量处理的 CSV 转储作为流处理。这种向流处理的转变推动了 Apache Kafka 的流行。但是,即使使用 Kafka,构建这种类型的实时数据管道也需要付出一些努力。Apache Kafka 0原创 2021-12-29 22:08:02 · 610 阅读 · 0 评论 -
Kafka Connect JDBC Source MySQL 全量同步
从数据库获取数据到 Apache Kafka 无疑是 Kafka Connect 最流行的用例。Kafka Connect 提供了将数据导入和导出 Kafka 的可扩展且可靠的方式。由于只用到了 Connector 的特定 Plugin 以及一些配置(无需编写代码),因此这是一个比较简单的数据集成方案。下面我们会介绍如何使用 Kafka Connect 将 MySQL 中的数据流式导入到 Kafka Topic。如果想了解 Kafka Connect 是什么以及做什么的,可以阅读 Kafka Conne原创 2021-12-31 22:19:23 · 641 阅读 · 0 评论 -
Apache Kafka 删除 Apache ZooKeeper 的依赖
目前,Apache Kafka 使用 Apache ZooKeeper 来存储元数据,分区位置和主题配置之类的数据存储在 Kafka 之外一个单独的 ZooKeeper 集群中。2019 年,为了打破这种依赖关系并将元数据管理交由 Kafka,为此引入这个KIP-500 计划[1]。那么 ZooKeeper 有什么问题吗?其实,问题不在于 ZooKeeper,而在于外部元数据管理的理念。拥有两个系统会导致大量的重复。毕竟,Kafka 是一个分布式日志系统,在此之上提供了发布-订阅 API。ZooKeep翻译 2022-01-07 22:34:59 · 354 阅读 · 0 评论 -
Kafka 安装与启动
1. 下载代码下载 2.3.0 版本并解压缩:tar -zxvf kafka_2.12-2.3.0.tgz -C .创建软连接便于升级:ln -s kafka_2.12-2.3.0/ kafka配置环境变量:# Kafkaexport KAFKA_HOME=/opt/kafkaexport PATH=${KAFKA_HOME}/bin:$PATH2. 安装ZooKeeperKafka 依赖 ZooKeeper,如果你还没有 ZooKeeper 服务器,你需要先启动一个 ZooKee原创 2022-05-10 09:30:02 · 672 阅读 · 0 评论 -
Kafka Connect 如何安装 Connect 插件
1. 简介Kafka Connect 设计为可扩展的,因此开发人员可以创建自定义 Connector、Transform 或者 Converter。Kafka Connect Plugin 是一组 Jar 文件,其中包含一个或多个 Connector、Transform 或者 Converter 的实现。Connect 将每个 Plugin 相互隔离,以便一个 Plugin 中的库不受任何其他 Plugin 中的库的影响。这在使用来自多个提供商的 Connector 时非常重要。在 Connect 部原创 2021-12-31 22:16:32 · 1328 阅读 · 0 评论 -
Kafka 监控工具之 Kafka Manager
1. 安装Kafka如果你还没有安装 Kafka 可以参考博文Kafka 安装与启动进行安装。2. Kafka Manager简介Kafka Manager 是一个用于管理 Apache Kafka 的工具。其提供了如下功能:管理多个集群。轻松检查群集状态(Topic,消费者,偏移量,Broker,副本分发,分区分发)。运行首选副本选举。使用选项生成分区分配以选择要使用的 Broker。分区重新分配。使用可选 Topic 配置创建主题(0.8.1.1版本与0.8.2+版本配置不同)。删原创 2022-05-10 09:33:52 · 1986 阅读 · 0 评论 -
Spark Streaming 基于 Direct API 优化与 Kafka 集成
Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此,在 Apache Spark 1.3 中,我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。在本文中,我们将更详细地讨论这些改进。翻译 2022-10-10 16:37:18 · 254 阅读 · 0 评论 -
Flink 如何管理 Kafka 的消费偏移量
在这篇文章中我们将结合例子逐步讲解 Flink 是如何与 Kafka 配合来确保 Kafka Topic 中的消息以 Exactly-Once 语义处理。检查点(Checkpoint)是一种能使 Flink 从故障恢复的内部机制。检查点是 Flink 应用程序状态的一致性副本,包括了输入的读取位点。如果发生故障,Flink 通过检查点加载应用程序状态来恢复应用程序,并从恢复的读取位点继续处理,就好像什么事情都没发生一样。你可以把检查点理解为电脑游戏的存档。翻译 2022-08-22 22:58:04 · 634 阅读 · 0 评论 -
Flink DataStream 1.11 Kafka Connector 实现读写 Kafka
本文主要介绍 Flink 1.11 版本中如何使用 DataStream 方式利用 Kafka Connector 从 Kafka 中读取数据并写到 Kafka 中,主要讲述了 Kafka Connector 的功能原创 2023-04-13 22:22:44 · 301 阅读 · 0 评论 -
深入理解 Kafka Connect Converter 和序列化
Kafka Connect 是 Apache Kafka 的一部分,提供了数据存储和 Kafka 之间的流式集成。对于数据开发工程师来说,只需要配置 JSON 文件就可以使用。Kafka 为一些常见数据存储的提供了 Connector,比如,JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说,Kafka Connect 提供了丰富的 API,还可以开发其他的 Connector。除此之外,还提供了用于配置和管理 Connector 的 REST API。原创 2021-12-26 17:38:45 · 1125 阅读 · 0 评论 -
Kafka Connect JDBC Source MySQL 增量同步
Kafka 版本:2.4.0上一篇文章 Kafka Connect JDBC Source MySQL 全量同步 中,我们只是将整个表数据导入 Kafka。这对于获取数据快照很有用,但并不是所有场景都需要批量全部同步,有时候我们可能想要获取自上次之后发生的变更以实现增量同步。JDBC Connector 提供了这样的能力,将表中自上次轮询以来发生更改的行流式传输到 Kafka 中。可以基于递增的列(例如,递增的主键)或者时间戳列(例如,上次更新的时间戳)来进行操作。Kafka Connect JDBC.原创 2022-01-01 12:06:58 · 1625 阅读 · 0 评论 -
Kafka CMAK KeeperErrorCode = Unimplemented
打开 CMAK Web UI,添加 Kafka 集群时 KeeperErrorCode = Unimplemented 错误原创 2022-08-24 08:05:48 · 929 阅读 · 0 评论 -
Kafka bootstrap.server is not a recognized option
在执行 kafka-console-consumer.sh 命令时抛出 bootstrap.server is not a recognized option 异常原创 2022-08-24 08:09:21 · 2705 阅读 · 0 评论