paimon实战 -- 数据写入和更新底层数据流转解读

Paimon的数据结构 

                 在Paimon中一张表的所有数据文件都存在一个层级的目录中。其中第一层包含3个文件夹,分别是snapshot、manifest、schema和data。snapshot文件夹主要用于存储这个表的快照,内容包括为上一次提交产生的 manifest,加上本次提交产生的 manifest 作为增量。schema文件夹主要用于存储这个表的元信息。manifest文件夹主要用于存储这个一系列manifest文件,manifest记录了每次经 checkpoint 触发而提交的数据文件变更,包含新增和删除的数据文件。Data文件夹按桶进行划分。每个桶文件夹包含一个LSM树和changelog文件。

图片

图2 Apache Paimon文件层级图

其文件的更新机制如下:在Apache Paimon中,会在Sink端维护一个Memory Table,用作数据合并,数据会写入到File Store和 Log Store当中,File Store中保存的就是经过桶分区的LSM树存储结构,Log Store则是保存了LSM中的 Write Ahead Log 信息。对于批读,只需要去读取File Store;而对于流读,则需要混合的读取,先读取File Store 中的全量数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿华田512

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值