Delta Lake (一) 简介

DeltaLake作为开源存储层,为数据湖提供ACID事务、可伸缩的元数据处理及统一的流和批数据处理。它支持数据版本控制、更新、插入和删除操作,与ApacheSparkAPI完全兼容,确保数据类型正确并防止数据损坏。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Delta Lake 


一、简介

Delta Lake是一个开源存储层,为数据湖带来了可靠性。Delta Lake提供了ACID事务、可伸缩的元数据处理以及统一的流和批数据处理。Delta Lake运行在现有数据湖之上,与Apache Spark api完全兼容。

二、特性

  1. Spark上的ACID事务:可序列化的隔离级别确保读者永远不会看到不一致的数据。
  2. 可伸缩的元数据处理:利用Spark的分布式处理能力,轻松处理PB级表的所有元数据和数十亿个文件。
  3. 批流统一:Delta Lake既可以批处理也可以流式处理,流数据摄取,批量历史回填,交互式查询都是开箱即用的。
  4. Schema Enforcement:Delta Lake提供了指定和实施模式的能力。这有助于确保数据类型是正确的,并且出现了所需的列,从而防止坏数据导致数据损坏。
  5. Schema Evolution:大数据在不断变化。Delta Lake使您能够对可自动应用的表模式进行更改,而不需要繁琐的DDL。
  6. 审计历史:Delta Lake事务日志详细记录了对数据所做的每个更改,提供了对这些更改的完整审计跟踪。
  7. 版本控制: 数据版本控制支持回滚、完整的历史审计跟踪和可重复的机器学习实验。
  8. 更新插入和删除:支持合并、更新和删除操作,以支持复杂的用例,如更改数据捕获、缓慢更改维度(SCD)操作、流更新等等。
  9. 完全兼容Spark API:开发人员可以将Delta Lake与他们现有的数据管道一起使用,只需要做很少的更改,因为它与常用的大数据处理引擎Spark完全兼容。

三、项目连接

官网链接:Delta官网

源码链接:Delta源码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值