
一起学习数据湖iceberg
文章平均质量分 94
随着大数据处理的需求增长,越来越多的企业开始采用数据湖架构来存储和处理大规模的原始数据。然而,传统的数据仓库解决方案(如 Hive)在数据湖环境中暴露出了一些局限性,如事务支持不足、缺乏数据版本控制、性能问题、无法模式演变等,因此学习和使用iceberg成为大数据开发中非常重要的任务。
SunnyRivers
在通信、游戏、互联网、新能源等不同行业从事过多年大数据开发相关工作,想通过博客和大家一起分享大数据技术带来的经验和乐趣。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Iceberg与SparkSQL查询操作整合
spark操作iceberg之前先要配置spark catalogs,详情参考Iceberg与Spark整合环境配置。Iceberg使用Apache Spark的DataSourceV2 API来实现数据源和catalog。原创 2024-09-10 16:20:27 · 699 阅读 · 0 评论 -
Iceberg与SparkSQL写操作整合
spark操作iceberg之前先要配置spark catalogs,详情参考Iceberg与Spark整合环境配置。有些操作需要在spark3中开启iceberg sql扩展。Iceberg使用Apache Spark的DataSourceV2 API来实现数据源和catalog。原创 2024-09-09 17:52:36 · 647 阅读 · 0 评论 -
Iceberg与SparkSQL整合DDL操作
使用SparkSql操作Iceberg表之前我们得先配置好catalog,配置方式参考[这篇博客]。原创 2024-09-06 17:20:46 · 1175 阅读 · 0 评论 -
Iceberg与Spark整合环境配置
这部分内容中我们我们主要了解iceberg和spark整合时的各种参数配置。这里总结几个最常用的catalog相关参数:其实这个配置有两个对应值这个是最常用的,包含hive和hadoop两种catalog类型,而我们为了能继续使用历史hive表的数据,因此这里大部分都选择hive catalog。这种用的较少,将iceberg catalog添加到spark内置的catalog中。原创 2024-09-06 14:09:08 · 1066 阅读 · 0 评论 -
iceberg存储结构详解
下图是Iceberg中表格式,s0、s1代表的是表Snapshot信息,每个表示当前操作的一个快照,每次commit都会生成一个快照Snapshot,每个Snapshot快照对应一个manifest list 元数据文件,每个manifest list 中包含多个Manifest元数据文件,manifest中记录了当前操作生成数据所对应的文件地址,也就是data file的地址。基于snapshot的管理方式,Iceberg能够获取表历史版本数据、对表增量读取操作,data files存储支持不同的文件格式原创 2024-09-05 18:15:00 · 717 阅读 · 0 评论 -
iceberg简介
为了解决数据存储和计算引擎之间的适配的问题,Netflix 开发了 Iceberg,2018 年 11月 16 日进入 Apache 孵化器,2020 年 5 月 19 日从孵化器毕业,成为 Apache 的顶级项目。Iceberg 是一个面向海量数据分析场景的开放表格式(Table Format)。表格式(TableFormat)可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark…)之下,数据文件之上。高性能格式(High-Performance Format)原创 2024-08-29 10:26:07 · 671 阅读 · 0 评论