Hudi 表的类型和查询方式

本文介绍了Hudi的两种表类型——CopyOnWrite(COW)和MergeOnRead(MOR),以及对应的查询类型。COW适合快照查询,写入成本高;MOR支持快照、增量和读优化查询,数据延迟低。MOR的读优化查询虽然延迟高,但提供最新数据。理解这些权衡对于优化Hudi表的使用至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hudi 的表类型和查询方式

表类型支持的查询类型
Copy On Write (写时复制,简称 cow)支持快照查询和增量查询
Merge On Read (写时复制,简称 mor)支持快照查询、增量查询、读优化查询
1. 表类型
  • Copy On Write (写时复制,简称 cow) : 以 列式(e.g parquet) 格式存储数据,数据写入的时候同步合并历史数据。
  • Merge On Read (读时合并,简称 mor): 结合列存(e.g parquet)和行存(e.g avro)方式来存储数据。增量的数据先以行存的方式存储数据,然后以同步或者异步的方式合并数据生成性的列存文件。
权衡CopyOnWriteMergeOnRead
数据延迟
查询延迟
更新成本高 ,需要重写整个 parquet 文件低,append 方式写 增量文件
写放大小,取决于合并策略
2. 查询类型
  • Snapshot Queries (快照查询):可以查询到最近一次成功提交或者合并的快照数据。
  • Incremental Queries (增量查询):可查询指定提交或者合并后新写入表的数据。
  • Read Optimized Queries (读优化查询):仅限于 MergeOnRead 表,可以查询到列存文件的数据。

对于 MergeOnRead 表选择查询类型需做以下权衡:

权衡Snapshot QueriesRead Optimized Queries
数据延迟
查询延迟
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

修破立生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值