一、数据仓库工具箱
1、主要内容
结合业务场景,阐述
1、维度建模以及事实表的基本及相关概念。
2、根据业务主题的总线矩阵图,梳理业务流程、指标以及对应的维度。
3、关于事实表的阐述。
4、企业层面的BI应用的框架以及组件,和实现所需的内容。
2、进阶内容
1、如何建立缓慢变化维表。
2、如何处理桥接表。
3、总结常用主题应用的维度建模知识。
4、kimball DW/BI设计以及实现方式。
5、总结在数仓建设中需要避免的常见错误。
3、重点内容介绍
3.1 维度模型设计的4个步骤
1、选择业务过程
2、声明粒度
3、确定维度
4、确定事实
通过以上4个步骤,就可以画出总线矩阵图。
纵列标记过程、粒度以及事实。横排标记维度。
举个订单管理过程的总线矩阵行图的例子。
日期 | 客户 | 产品 | 代理销售 | 交易 | 仓库 | 运货商 | |
---|---|---|---|---|---|---|---|
报价 | × | × | × | × | × | ||
下订单 | × | × | × | × | × | ||
运输至客户 | × | × | × | × | × | × | × |
开具货运发票 | × | × | × | × | × | × | × |
接收付款 | × | × | × | ||||
客户退货 | × | × | × | × | × | × | × |
3.2 关于事实表的内容以及比较
3.2.1 关于事实表的具体内容介绍包括:
可加事实、半可加事实、不可加事实。
可加事实,就是指标正常求和之后,就是符合事实的总数。
半可加事实,就是表达事实当前状态的一个值。如温度、当前存款数量、当前库存水平等。
不可加事实,就是分母不同的百分比等。
3.2.2 关于记录事实的表:
事务事实表、周期快照事实表、累计快照事实表、无事务的事实表。
事务事实表又可以被分为单事务事实表和多事务事实表。多事务事实表一般是多个事情,维度一致。
周期快照事实表,就是每个一段时间或者一个时间,记录一次当前事务的状态。
累计快照事实表,就是一行数据记录一个事务的各个关键事务节点的时间以及对应的指标。一般记录流水线事件以及表中会存在多个时间点。
无事实的事实表,不记录指标。会记录某个状态所有可能发生的事件。然后事件发生了记为1,不发生记为0,于是就将不发生的事实记录了下来。