LSM树和超级表结构

最新推荐文章于 2025-08-25 09:26:33 发布

源代码分析

最新推荐文章于 2025-08-25 09:26:33 发布

阅读量462

点赞数 3

CC 4.0 BY-SA版权

分类专栏：面试文章标签：数据库

42 篇文章

订阅专栏

LSM树（Log-Structured Merge-Tree）和超级表（Super Table）是两种在数据库和存储系统中广泛应用的核心概念，分别针对高写入场景和数据组织优化。以下是它们的详细解析：

LSM树是一种面向写优化的数据结构，通过顺序写入和异步合并来提升高并发写入场景的性能，适用于日志存储、时序数据库（如InfluxDB、Cassandra）和键值存储（如RocksDB、LevelDB）等场景。

MemTable：
- 内存中的有序结构（如跳表或红黑树），用于缓存最新写入的数据。
- 写入操作首先写入MemTable，达到阈值后冻结为Immutable MemTable。
SSTable（Sorted String Table）：
- 磁盘上的持久化文件，数据按键有序存储。
- Immutable MemTable以顺序写方式刷入磁盘，生成SSTable。
层级结构（Leveled Compaction）：
- SSTable按层级组织（如L0到Ln），越深层级的数据越旧。
- 低层级（如L0）的SSTable可能存在重叠键，高层级（如L1+）的SSTable按键范围严格不重叠。
合并（Compaction）：
- 后台进程将多个小SSTable合并为更大的文件，并清理过期或删除的数据（通过墓碑标记）。
- 合并策略包括Size-Tiered（按大小分层合并）和Leveled（层级严格不重叠）。

超级表是一种数据建模抽象，常见于时序数据库（如TDengine），用于管理具有相同模式的设备或实体数据。它通过元数据继承和标签关联实现高效查询和存储优化。

模式定义：
- 超级表定义公共模式，包括时序数据字段（如时间戳、温度）和标签字段（如设备ID、地理位置）。
- 子表（如具体设备表）继承超级表的字段，并填充标签的具体值。
数据分片与查询优化：
- 数据按子表存储，但通过超级表可进行跨子表的聚合查询（如统计所有设备的平均温度）。
- 标签字段用于快速过滤（如筛选特定地区的设备）。
存储效率：
- 标签字段仅存储一次，子表通过引用共享标签，减少冗余存储。
- 数据按时间分区，支持高效的范围查询和过期策略。