数据仓库的概念、特点与组合
数据仓库的组成
数据仓库数据库(核心,数据信息存放的地方);
数据抽取工具;
元数据:技术元数据(开发和管理)与业务元数据(单位业务);
访问工具;
数据集市(Data Marts)(特定的应用目的);
数据仓库管理; 信息发布系统
数据抽取工具把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库中。对各种不同的数据存储方式的访问能力是数据抽取工具的关键,数据转换通常包括:
删除对决策分析没有意义的数据;转换成统一的数据名称和定义 ;计算统计和衍生数据 ;填补缺失数据 ;统一不同的数据定义方式
数据集市(Data Mart) ,也叫数据市场。
数据集市是企业级数据仓库的一个子集 ,是为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。在分析、内容、表现,以及易用性方面迎合专业用户群体的特殊需求。
在数据仓库的实施过程中,通常可以从一个部分的数据集市着手,再逐渐用几个数据集市组成一个完整的数据仓库(自底向上)。
数据仓库架构
传统的:
传统数仓中常见的技术架构,将单机数据库节点组成集群,提升整体处理性能节点间为非共享架构(Share Nothing),每个节点都有独立的磁盘存储系统和内存系统;每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供服务;设计上优先考虑C(一致性),其次考虑 A(可用性),尽量做好P(分区容错性)
CAP理论参考:https://www.cnblogs.com/mingorun/p/11025538.html
分布式架构
大数据中常见的技术架构,也称为Hadoop架构/批处理架构。各节点实现场地自治(可以单独运行局部应用),数据在集群中全局透明共享;每台节点通过局域网或广域网相连,节点间的通信开销较大,在运算时致力减少数据移动;优先考虑的是P(分区容错性),然后是A(可用性),最后再考虑C(一致性)
ETL – Extract-Transform-Load
将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程
构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先 定义好的数据仓库模型,将数据加载到数据仓库中去.
ETL 规则的设计和实施约占整个数据仓库搭建工作量的 60%~80%
数据抽取(Extraction)
抽取的数据源可以分为结构化数据、非结构化数据、半结构化数据
结构化数据一般采用JDBC、数据库日志方式,非|半结构化数据会监听文件变动
抽取方式
数据抽取方式有全量同步、增量同步两种方式
全量同步会将全部数据进行抽取,一般用于初始化数据装载
增量同步方式会检测数据的变动,抽取发生变动的数据,一般用于数据更新
数据转换(Transformation)
数据转换要经历数据清洗和转换两个阶段
-数据清洗主要是对出现的重复、二义性、不完整、违反业务或逻辑规则等问题的数据进行统一的处理
-数据转换主要是对数据进行标准化处理,进行字段、数据类型、数据定义的转换
结构化数据在转换过程中的逻辑较为简单,非 | 半结构化数据的转换会较为复杂
数据加载( Loading )
将最后处理完的数据导入到对应的目标源里
ETL工具
结构化数据ETL工具
Sqoop
Kettle
Datastage
Informatica
Kafka
非|半结构化数据ETL工具
Flume
Logstash
操作数据层(ODS)
数据与原业务数据保持一致,可以增加字段用来进行数据管理
存储的历史数据是只读的,提供业务系统查询使用
业务系统对历史数据完成修改后,将update_type字段更新为UPDATE,追加回ODS中
数据明细层(DWD)
数据明细层对ODS层的数据进行清洗、标准化、维度退化(时间、分类、地域)
数据仍然满足3NF模型,为分析运算做准备
数据汇总层(DWS)
数据汇总层的数据对数据明细层的数据,按照分析主题进行计算汇总,存放便于分析的宽表
存储模型并非3NF,而是注重数据聚合,复杂查询、处理性能更优的数仓模型,如维度模型
数据应用层(ADS)
数据应用层也被称为数据集市
存储数据分析结果,为不同业务场景提供接口,减轻数据仓库的负担
-数据仓库擅长数据分析,直接开放业务查询接口,会加重其负担
下一篇:数据仓库与数据挖掘 3
文献参考
[0] 陈志泊 主编. 数据仓库与数据挖掘(第二版). 清华大学出版社,2019
[1] 陈立伟著,数据仓库与数据挖掘教程,清华大学出版社,2006
[2] 林宇编著. 数据仓库原理与实践,人民邮电出版社,2003。
[3] 彭木根著 数据仓库技术与实现,电子工业出版社,2002.6。
[4] [加]韩家炜、[加]坎伯,范明等译,数据挖掘概念与技术,机械工业出版社,2005。
[5] 张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2003。