Kafka 一个特点就是吞吐量大,而且是大数据场景的首选消息队列。根据真实生产环境数据,Kafka 单机能达到同时生产和消费百万级量级的数据量。
这到底是怎样的一个概念呢?我们结合生产环境中对生产端发送消息的某个测试来说明下。
- 生产环境配置:8 核 CPU,32G 内存,3 台机器分别安装 3 个 Broker,内网带宽很高,网络带宽瓶颈忽略不计。
- 测试方法:每个消息大小设计为 100B,然后分别测试 1、2、3 生产者生产消息,同时 1、2、3 消费者消费消息,最后得出生产和消费成功的消息数和消息字节数。
生产者发送消息的吞吐量
当 3 个 Producer 往 3 个 Broker 发送消息的时候,生产者每秒平均向每台 Broker 生产 100 万条消息。
下面是测试结果:
消费者消费消息的吞吐量
下面是测试结果:
当 3 个 Consumer 向 3 个 Broker 拉取消息的时候,消费者每秒平均向每台 Broker 拉取 200 万条以上的消息。这个效果是不是很赞?
那么,Kafka 到底是如何做到这么高的吞吐量的呢?