PB级企业电商离线数仓项目实战【上】- 笔记
第一部分 数据仓库理论
数据仓库四大特征
面向主题的: 抽象的,逻辑的
集成的:为分析服务
稳定的: 很少更新,只需定期加载
反映历史变化的: 按照时间顺序追加
与数据库区别
OLTP(On-Line Transaction Processing 联机事务处理),也称面向交易的处理系统。主要针对具体业务在数据库系统的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。数据库
OLAP(On-Line Analytical Processing 联机分析处理),一般针对某些主题的历史数据进行分析,支持管理决策。数据仓库
数据仓库在设计是有意引入数据冗余(目的是为了提高查询的效率),采用反范式的方式来设计;数据库设计是尽量避免冗余(第三范式),一般采用符合范式的规则来设计
数据集市
数据仓库(DW)是一种反映主题的全局性数据组织。但全局性数据仓库往往太大,在实际应用中将它们按部门或业务分别建立反映各个子主题的局部性数据组织,即数据集市(Data Mart),有时也称它为部门数据仓库。数据集市:是按照主题域组织的数据集合,用于支持部门级的数据分析与决策。
数据仓库建模方法
ER模型
在范式理论上符合3NF,它是站在企业角度面向主题的抽象, 对建模人员要求较高。
维度模型
从分析决策的需求出发构建模型
- 选择需要进行分析决策的业务过程。
- 选择数据的粒度(关心的层面)。在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度
- 识别维表(地域,时间)。选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选
- 选择事实。确定分析需要衡量的指标
数据仓库分层
数据仓库模型
事实表,维度表
保存度量值的详细值或事实的表称为事实表。事实表根据数据的粒度可以分为:事务事实表、周期快照事实表、累计快照事实表。特点:表多,数据量大。关注内容
维度表(维表)可以看作是用来分析数据的角度,纬度表中包含事实数据表中事实记录的特性。有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息。管擦好的角度
星型模型,雪花模型
星型模是一种多维的数据关系,它由一个事实表和一组维表组成;事实表在中心,周围围绕地连接着维表;
事实表中包含了大量数据,没有数据冗余;
维表是逆规范化的,包含一定的数据冗余;比如省市,季度,月
雪花模式是星型模型的变种,维表是规范化的,模型类似雪花的形状;
特点:雪花型结构去除了数据冗余。
数据仓库由多个主题构成,包含多个事实表,而维表是公共的,可以共享,这种模式可以看做星型模式的汇集,因而称作星系模式或者事实星座模式。
特点:公用维表
元数据
元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库