
数据湖
文章平均质量分 93
数据湖相关的知识记录
Edingbrugh.南空
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入解析Hudi并发控制:如何协调写入、读取与表服务的访问
Hudi通过多层并发控制机制解决数据湖多角色访问难题:快照隔离确保读写一致视图,乐观并发控制(OCC)协调写入器冲突,多版本并发控制(MVCC)实现表服务与写入解耦,非阻塞并发控制(NBCC)解决活锁问题。这种分层设计在保证数据一致性的同时,显著提升了高并发场景下的系统性能,为数据湖提供了可靠的并发管理方案。原创 2025-08-19 09:49:01 · 1011 阅读 · 0 评论 -
Hive集成Paimon
Hive与Paimon集成技术解析 摘要:本文介绍了Apache Hive与Paimon湖仓存储引擎的集成方案。通过两者的结合,可实现批处理和流处理的统一管理,提高数据存储效率和分析能力。文章详细说明了集成环境的准备步骤,包括软件版本要求、依赖配置等核心内容,并提供了完整的配置示例。在实践部分,展示了如何创建Paimon表、进行数据读写操作以及通过Flink实时写入数据的代码示例。该集成方案适用于电商用户行为分析和金融风控等多种场景,能充分发挥两种技术的协同优势。原创 2025-06-15 18:33:34 · 1228 阅读 · 0 评论 -
Hudi 与 Hive 集成
Hudi 集成 Hive 的核心在于元数据的同步与数据格式的适配。Hudi 表的数据存储在 HDFS 等分布式文件系统中,通过特定的配置和工具,将 Hudi 表的元数据同步到 Hive Metastore 中,使得 Hive 能够识别和查询 Hudi 表。同时,Hudi 提供了适配 Hive 的输入格式,确保 Hive 在查询 Hudi 表时,能够正确解析数据。。原创 2025-06-15 17:51:19 · 1061 阅读 · 0 评论 -
Iceberg与Hive集成深度
本系列博文从ACID事务、元数据管理、性能优化、迁移方案到生产案例,全面覆盖Iceberg与Hive集成的核心场景。通过Iceberg,Hive获得了原本缺失的高级数据管理能力,同时保持了生态兼容性。对于企业而言,合理运用这些技术可显著提升大数据平台的效率与可靠性,为数据驱动决策提供更强支撑。建议技术团队根据业务特点选择性落地,并持续关注Apache Iceberg的社区演进,获取最新功能与优化。原创 2025-06-15 16:58:46 · 886 阅读 · 0 评论 -
Apache Iceberg与Hive集成:非分区表篇
Apache Iceberg是一种专为海量分析设计的开放表格式,它处于计算引擎(如Spark、Flink、Hive等)与底层数据存储(如HDFS、S3等)之间,提供了统一的表语义和高效的元数据管理。Iceberg的设计目标是解决大数据场景下数据格式对不同引擎适配的难题,它允许不同的计算引擎以一种通用的方式读写数据,同时保证ACID事务、模式演化、时间旅行查询等高级特性。原创 2025-06-15 16:54:22 · 1139 阅读 · 0 评论 -
Apache Iceberg与Hive集成:分区表篇
Iceberg与Hive的分区表集成重新定义了大数据分区管理范式:通过逻辑分区与物理存储解耦,既保留Hive生态的兼容性,又引入更灵活的分区转换能力。智能分区优化:基于机器学习自动调整分区策略跨引擎分区一致性:确保Spark/Flink/Hive对分区表的统一视图流式分区处理:支持实时数据的动态分区映射数据规模超过10TB的分析场景需要频繁进行分区级更新/删除的业务跨引擎(Hive/Spark/Flink)协同分析场景。原创 2025-06-15 16:53:02 · 1430 阅读 · 0 评论