Druid 1.2 源码导读

Chief395

已于 2025-02-21 08:52:44 修改

阅读量528

点赞数 4

CC 4.0 BY-SA版权

分类专栏：源码导读文章标签： druid

于 2024-11-15 18:44:18 首次发布

本文链接：https://blog.csdn.net/lpw_cn/article/details/143805631

源码导读专栏收录该内容

10 篇文章

订阅专栏

Apache Druid 1.2 是一个高性能、分布式的实时分析数据库，专为 OLAP（在线分析处理）场景设计，广泛应用于实时数据分析和监控。Druid 1.2 在性能、稳定性和功能上都有显著提升。以下是 Druid 1.2 源码的导读，帮助你快速理解其架构和核心实现。

1. 源码结构

Druid 1.2 的源码结构清晰，主要分为以下模块：

server: Druid 的核心服务模块，包括 Coordinator、Overlord、Broker、Historical 等。
common: 公共模块，包含工具类和通用接口。
core: 核心模块，包含数据存储、查询处理等核心功能。
extensions: 扩展模块，支持自定义扩展。
indexing-service: 索引服务模块，负责数据的摄入和索引。
processing: 数据处理模块，支持查询的执行和优化。
sql: SQL 模块，支持 SQL 查询。
test: 测试模块，包括单元测试和集成测试。

2. 核心模块

2.1 Server 模块（server/src/main/java/org/apache/druid/server）

Server 模块是 Druid 的核心服务模块，包含 Coordinator、Overlord、Broker、Historical 等。

Coordinator: 负责集群的元数据管理和数据分片的分配。
Overlord: 负责索引任务的调度和管理。
Broker: 负责查询的接收和分发。
Historical: 负责历史数据的存储和查询。

2.2 Common 模块（common/src/main/java/org/apache/druid/common）

Common 模块包含工具类和通用接口。

GuiceUtils: Guice 工具类，用于依赖注入。
JacksonUtils: Jackson 工具类，用于 JSON 的序列化和反序列化。
Config: 配置类，用于读取和管理配置。

2.3 Core 模块（core/src/main/java/org/apache/druid/core）

Core 模块包含数据存储、查询处理等核心功能。

Segment: 数据段类，表示 Druid 中的基本数据单元。
Query: 查询类，表示 Druid 中的查询请求。
StorageAdapter: 存储适配器类，负责数据的存储和读取。

2.4 Extensions 模块（extensions/src/main/java/org/apache/druid/extensions）

Extensions 模块支持自定义扩展。

DruidModule: Druid 模块接口，用于定义自定义扩展。
ExtensionLoader: 扩展加载器，负责加载和管理扩展。

2.5 Indexing Service 模块（indexing-service/src/main/java/org/apache/druid/indexing）

Indexing Service 模块负责数据的摄入和索引。

IndexTask: 索引任务类，表示一个索引任务。
TaskStorage: 任务存储类，负责索引任务的存储和管理。
TaskRunner: 任务运行器类，负责索引任务的执行。

2.6 Processing 模块（processing/src/main/java/org/apache/druid/processing）

Processing 模块支持查询的执行和优化。

QueryRunner: 查询运行器类，负责查询的执行。
QueryEngine: 查询引擎类，负责查询的优化和执行。

2.7 SQL 模块（sql/src/main/java/org/apache/druid/sql）

SQL 模块支持 SQL 查询。

SqlQuery: SQL 查询类，表示一个 SQL 查询请求。
SqlParser: SQL 解析器类，负责 SQL 查询的解析。
SqlEngine: SQL 引擎类，负责 SQL 查询的执行。

2.8 Test 模块（test/src/main/java/org/apache/druid/testing）

Test 模块包括单元测试和集成测试。

IntegrationTest: 集成测试类，用于测试 Druid 的集成功能。
UnitTest: 单元测试类，用于测试 Druid 的单元功能。

3. 启动流程

Druid 的启动流程可以分为以下几个步骤：

启动 ZooKeeper: Druid 依赖 ZooKeeper 进行集群管理，首先启动 ZooKeeper。
启动 Metadata Store: 启动元数据存储，如 MySQL 或 PostgreSQL。
启动 Coordinator: 启动 Coordinator，负责集群的元数据管理和数据分片的分配。
启动 Overlord: 启动 Overlord，负责索引任务的调度和管理。
启动 Broker: 启动 Broker，负责查询的接收和分发。
启动 Historical: 启动 Historical，负责历史数据的存储和查询。

4. 数据处理流程

Druid 的数据处理流程如下：

数据摄入: 数据通过索引任务摄入到 Druid 中，存储在 Segment 中。
数据查询: 查询请求通过 Broker 接收，分发到 Historical 或 MiddleManager 进行处理。
查询执行: Historical 或 MiddleManager 执行查询，返回结果给 Broker。
结果返回: Broker 将查询结果返回给客户端。

5. 新特性与改进

Druid 1.2 引入了以下新特性和改进：

性能优化: 提升了数据摄入和查询的性能。
稳定性提升: 修复了多个已知问题，提升了系统的稳定性。
功能增强: 支持更多的数据源和查询功能。
监控改进: 提供了更强大的监控工具，便于运维管理。

6. 调试与测试

Druid 提供了丰富的测试工具，帮助开发者进行调试和测试。

单元测试: 使用 JUnit 编写的单元测试，位于 test 模块。
集成测试: 使用 Druid 自带的测试框架进行集成测试。

7. 编译与运行

Druid 使用 Maven 进行构建，编译命令如下：

mvn clean install -DskipTests

编译完成后，可以通过以下命令启动 Druid 服务：

# 启动 ZooKeeper
bin/run-zookeeper

# 启动 Metadata Store
bin/run-metadata-store

# 启动 Coordinator
bin/run-coordinator

# 启动 Overlord
bin/run-overlord

# 启动 Broker
bin/run-broker

# 启动 Historical
bin/run-historical

8. 源码阅读建议

从 Coordinator 和 Overlord 开始: 这两个类是 Druid 的核心服务，从这里可以了解 Druid 的启动流程和任务调度。
深入 Segment 和 Query: 这两个类是 Druid 的核心数据结构和查询接口，理解其工作原理对理解 Druid 的整体架构非常重要。
关注 IndexTask 和 QueryRunner: 索引任务和查询运行器是 Druid 的核心功能，理解其实现有助于理解 Druid 的数据处理和查询机制。
阅读测试代码: 测试代码可以帮助你理解每个模块的功能和边界条件。