为什么选择kafka:因为它支持每秒百万级的消息处理能力,非常适合高并发场景。
-
顺序写入磁盘:Kafka采用顺序写入磁盘的方式,相比随机写入内存,顺序写入磁盘的速度更快。这是因为顺序写入可以利用磁盘的预读特性,提前将数据加载到缓存中,减少了磁盘I/O操作的次数。
-
利用Page Cache:Kafka充分利用了操作系统的Page Cache机制。当数据写入Kafka时,首先被写入Page Cache中,而不是直接写入磁盘。这样可以减少对磁盘的访问次数,提高写入性能。同时,读取数据时也可以直接从Page Cache中获取,避免了磁盘I/O操作的延迟。
-
零拷贝技术:操作系统的设计就是每个应用程序都有自己的用户内存,想要实现数据传输,就需要不断从各个缓冲区中拷贝,而Kafka使用了零拷贝技术,减少了不必要的内存拷贝操作。在数据发送过程中,Kafka可以直接将数据从Page Cache中发送到网卡缓冲区,无需先将数据拷贝到应用程序缓冲区,再从应用程序缓冲区拷贝到socket缓冲区,从而减少了CPU和内存的开销。
kafka消息堆积问题:Producer 将消息发送到 Broker,Broker 负责将收到的消息存储到磁盘中,而 Consumer 负责从 Broker 订阅并消费消息。所以消息堆积指的是 Kafka 中的消费者未能及时消费 Broker 上的消息,导致这些消息在 Broker 的日志中不断累积。
原因:
-
消费者处理能力不足:消费者的并发处理能力不足,无法及时处理所有消息。
-
网络延迟或不稳定:网络带宽不足或网络抖动,导致消费者与 Broker 之间的通信延迟,影响消息的拉取速度。
-
生产者发送速率过