
iceberg
文章平均质量分 72
houzhizhen
专注大数据处理和分布式计算。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Iceberg Catalog 的实现和迁移
因为在任意时刻,所有的读和写操作看到表的表的状态是相同的。两个并发的写入操作,第 2 个写入操作提交的时候不能覆写第 1 个写入操作对数据的修改,导致数据丢失。Iceberg Catalog 的接口定义了各种 Catalog 需要实现的方法,主要包括列出存在的表,创建表,删除表,检查表是否存在,给表改名。并且都支持迁移表的整个历史。register 迁移后,不删除旧的 catalog 中表定义,可以用来预迁移的验证。使用 register,不能使用不同的 catalog 写入数据,这样会导致数据丢失。原创 2024-10-09 11:46:55 · 1442 阅读 · 0 评论 -
优化 Iceberg 表的性能
每组文件合并之后,就生成一个新的快照,这样新的查询就可以利用合并的快照。| Merge-on-Read(equality deletes) | 慢 | 最快 | 使用更频繁的合并减少读开销 |如果表的字段非常多,可能照成 meta 文件特别大,可以关闭某些字段的收集或者限制收集的内容。如果快照的数量少于第3个参数设置的数量,则不清除。没有包含在 manifest 中的文件,如失败的作业建立的文件。特别是实时计算,每次插入特别少的记录,导致生成大量的文件。更改分区字段,新的写入立即生效。原创 2024-09-26 16:57:20 · 842 阅读 · 0 评论 -
Iceberg 表不能用 Show Partitions 显示分区信息
【代码】Iceberg 表不能用 Show Partitions 显示分区信息。原创 2024-09-23 11:30:42 · 473 阅读 · 0 评论 -
Apache Iceberg 读写查询
metadata 下有4个文件,去掉创建时生成的 00000-831f9491-0ebf-45e6-9ead-902bc62ba658.metadata.json,现在解释以下 3 个文件。这时表目录下仅有一个 metadata 目录,metadata 目录下有一个 metadata.json 文件。第1列是数据生成的 timestamp,第2列是快照 ID。可以看到 metadata 文件增加了 3 个文件。插入记录后,表目录下有data 目录。或者 --package 参数。iceberg 是库名。原创 2024-09-20 16:03:25 · 896 阅读 · 0 评论