在大数据领域,数据量呈指数级增长,企业不仅要应对海量数据的存储难题,还要保障数据查询的高效性。Doris 作为一款备受青睐的高性能分布式分析型数据库,其冷热分层技术为企业提供了兼具高效性与成本效益的解决方案。本文将从原理、优势、实现方式,以及实际案例等多个维度,对 Doris 冷热分层技术进行深入剖析。
1.什么是 Doris 冷热分层
Doris 冷热分层,本质上是依据数据的访问频率和时效性,对数据进行分类存储的技术。访问频繁、时效性强的热数据,被存储在诸如固态硬盘(SSD)这类高性能存储介质中,以确保快速响应查询;而访问频率低的历史数据,即冷数据,则被转移至机械硬盘(HDD)或对象存储等低成本介质,从而优化存储成本。
2.为什么需要冷热分层
2.1 降低存储成本
企业的冷数据占据了大量存储空间,但它们的访问频率相对较低。通过将冷数据迁移至低成本存储介质,企业可以显著降低存储成本,避免在高性能存储设备上浪费资源。
2.2 提高查询性能
将热数据存储在高性能介质中,能极大地缩短查询响应时间。此外,减少热存储中的数据量,能让系统更快速地定位和检索所需数据,进一步提升查询效率。
2.3 优化资源利用
冷热分层技术能够让存储资源和计算资源依据数据特性进行合理分配,确保各类资源都能得到充分利用,避免资源浪费。
3.Doris 冷热分层的原理
Doris 借助存储策略实现冷热分层管理。用户可根据业务需求,自定义存储策略,这些策略不仅涵盖多种存储介质,还包含数据在不同介质间的迁移规则。例如,企业可以设定一条策略,规定新数据在前 30 天存储于 SSD,30 天后自动迁移至 HDD。 当数据写入 Doris 时,系统会根据表或分区预设的存储策略,将数据写入相应的存储介质。一旦数据满足迁移规则,Doris 便会自动执行迁移操作,将数据从热存储转移至冷存储。
3.1 优势有哪些
3.1.1 成本效益显著
冷热分层技术通过将冷数据转移至低成本介质,大幅降低了存储成本。此外,减少对高性能存储设备的依赖,也降低了硬件采购和维护的费用。
3.1.2 性能大幅提升
热数据存储在高性能介质中,确保了查询的快速响应,提升了系统整体性能。对于实时性要求较高的业务场景,如在线报表和实时分析,冷热分层技术能显著提升用户体验。
3.1.3 高度灵活定制
Doris 提供了灵活的存储策略配置,用户可根据业务需求和数据特点,量身定制冷热分层方案。无论是数据量较小的初创企业,还是数据量巨大的大型企业,都能找到适配的解决方案。
3.1.4 管理便捷高效
Doris 能够自动管理数据在不同存储介质间的迁移,无需人工干预,降低了运维成本。此外,用户可通过简单的 SQL 语句,对存储策略进行查看和管理,操作简便。
3.2 实现方式
3.2.1 本地冷热分层
在存算一体模式下,Doris 支持将冷数据从 SSD 迁移至 HDD。这种方式充分利用了本地存储的层级特性,降低了高性能存储的使用成本。用户只需配置存储策略,就能指定数据在 SSD 和 HDD 之间的迁移规则。
3.2.2 远程冷热分层
同样在存算一体模式下,Doris 还支持将冷数据以单副本形式保存到对象存储或 HDFS 中,热数据则继续使用本地存储。这种方式进一步降低了存储成本,尤其适用于对成本敏感的场景。
3.3 实操案例
京东广告围绕 Apache Doris 搭建了广告数据存储服务,系统数据总量接近 1PB,数据行数达 18 万亿行,日查询请求量高达 8000 万次。通过分析发现,99% 的日常查询集中在近一年的数据上,数据冷热特性明显。 京东广告采用 Doris 冷热数据分层方案,通过设置数据的 TTL 时间,让 Doris 自动判断冷热数据,并将冷数据迁移至低成本存储介质。该方案上线后,存储成本降低了约 87%。与 Doris 1.2 的冷数据入湖方案相比,Doris 2.0 的冷数据分层方案在并发查询能力上提升了超过 10 倍,查询延迟显著缩短。
4.总结
Doris 的冷热分层技术,为企业提供了一套高效、灵活且经济的大数据存储和管理方案。通过合理利用不同存储介质的特性,该技术实现了存储成本和查询性能的优化平衡。随着数据量的持续增长,冷热分层技术将在 Doris 的应用中发挥愈发重要的作用,助力企业应对大数据时代的各种挑战。
为什么选择涤生大数据?
-
1.跟随行业专家学习:我们的导师不是传统的讲师,而是实际的行业专家。他们都是来自国内一线大厂的资深开发,大数据技术专家等。
-
2.跟企业在职开发一起学习:涤生的社招学员目前60%+是企业在职进阶学员,基本各大厂的都有,他们的薪资从10k,15k,20k,25k,30k,35k,40k。所以你会跟很多企业在职人员一起交流学习。
-
3.定制化课程设计:结合每位学员的进行定制化教学,学习规划,让你的学习更有重点;结合每个学员的时间规划学习进度,督促考核,让学习变得更加灵活。
-
4.专业教学和平台:术业有专攻,企业怎么用,面试怎么面,我们就怎么学,涤生让大数据学习不迷惘。目前涤生采购7台服务器,自研提供一站式大数据平台供学习使用,拒绝虚拟机。
-
5.专业的简历面试辅导:涤生内部所有同学简历面试辅导都包含在内,从学习到入职试用期全流程提供保障服务。2024年截止当前涤生到简历面试7级群的学员就业率98%+,2024年上岸200+同学,60+入职一线中大厂。当然也有不少培训找不到工作的同学,以及裁员的同学,空窗期太久,最终跟着我们搞顺利上岸。
-
6.不错的口碑:在涤生这,只要你不摆烂,我们不抛弃不放弃,校招上岸率几乎100%。目前涤生的学员大概有25%是老学员推荐和转化。
-
7.专业化校招团队辅导和丰富的校招题库:涤生大数据校招25秋招学员是第5届校招学员,有丰富的校招专项辅导经验和知识题沉淀,目前题库包含了主流一线中大厂。其次校招辅导除社招老师之外,还有四个专项校招辅导老师,他们来自字节,美团快手等公司985/211硕士;
上岸同学分享