数据仓库与决策支持及数据挖掘概述
立即解锁
发布时间: 2025-08-23 00:25:40 阅读量: 4 订阅数: 11 

### 数据仓库与决策支持及数据挖掘概述
#### 1. 分布式环境下增量视图维护示例
在分布式环境中,视图维护会面临一些复杂情况。以下是一个示例:
- 向 `Suppliers` 表插入行 `s2, 5`,源系统通知数据仓库。
- 为决定是否将 `s2` 添加到视图中,数据仓库需要知道产品 `pid = 5` 的类别,于是向源系统询问。
- 源系统处理数据仓库的第一个查询,找到产品 5 的两个供应商,并将信息返回给数据仓库。
- 数据仓库得到第一个问题的答案(供应商 `s1` 和 `s2`),将它们添加到视图中,每个计数为 1。
- 源系统处理数据仓库的第二个查询,回复产品 5 是玩具。
- 数据仓库得到第二个问题的答案,相应地增加视图中供应商 `s2` 的计数。
- 产品 `pid = 5` 被删除,源系统通知数据仓库。
- 由于删除的产品是玩具,数据仓库减少匹配视图元组的计数,`s1` 计数为 0 被移除,`s2` 计数为 1 被保留。但实际上,产品 5 删除后,`s2` 不应留在视图中。这个例子说明了分布式环境下增量视图维护的复杂性,这也是当前正在研究的主题。
#### 2. 视图同步策略
视图维护策略决定了视图何时刷新,与刷新是否为增量无关。主要有以下几种策略:
| 策略 | 说明 | 优缺点 |
| ---- | ---- | ---- |
| 即时视图维护 | 在更新基础表的同一事务中刷新视图。 | 优点:视图始终与基础表保持一致;缺点:更新事务会因刷新步骤变慢,且依赖更新表的物化视图数量越多,刷新影响越大。 |
| 延迟视图维护 | 更新记录在日志中,随后应用到物化视图。 | |
| - 懒加载 | 当使用物化视图 `V` 进行查询时,如果 `V` 与基础表不一致,则刷新视图。 | 优点:不影响更新速度;缺点:会减慢查询速度。 |
| - 定期刷新 | 定期刷新物化视图,如每天一次。 | 优点:更新和查询速度较快;缺点:查询可能看到与基础表当前状态不一致的视图实例。 |
| - 强制刷新 | 在基础表进行一定数量的更改后刷新物化视图。 | 优点:更新和查询速度较快;缺点:查询可能看到与基础表当前状态不一致的视图实例。 |
#### 3. 决策支持相关概念及技术
- **多维数据模型**:包含度量和维度,以及事实表和维度表。星型模式是一种常见的多维数据模型结构。
- **OLAP 操作**:常见的 OLAP 操作有上卷、下钻、旋转、切片和切块。
- **SQL:1999 特性**:支持 `ROLLUP`、`CUBE` 和 `WINDOW` 特性,用于处理复杂查询。
- **索引结构**:适用于 OLAP 系统的索引结构包括位图索引和连接索引。
- **数据仓库**:用于存储来自操作数据库的数据,涉及数据提取、清洗、转换和加载等过程,同时面临数据刷新和清理的挑战。
- **视图**:在决策支持环境中很重要,与数据仓库和 OLAP 相关,但查询修改技术在决策支持环境中可能不够充分。
#### 4. 练习题涉及的知识点
练习题涵盖了多个方面的知识点,包括:
- 数据仓库、OLAP 和数据挖掘的互补关系。
- 数据仓库与数据复制的关系,以及同步和异步复制在数据仓库中的适用性。
- 元数据存储库在数据仓库中的作用。
- 数据仓库的设计考虑因素。
- 数据仓库的更新和维护方法。
- 多维数据模型中的维度和度量。
- 事实表的重要性。
- MOLAP 和 ROLAP 系统的区别。
- 星型模式及其范式情况。
- 数据挖掘与 OLAP 的区别。
以下是部分练习题的操作步骤示例:
- **练习题 25.2**:
1. 对 `Sales` 关系在 `pid` 和 `timeid` 上进行旋转操作,得到旋转结果。
2. 编写 SQL 查询以获得相同结果。
3. 对 `Sales` 关系在 `pid` 和 `locid` 上进行旋转操作,得到旋转结果。
- **练习题 25.4**:
1. 比较 `WINDOW` 子句和 `GROUP BY` 子句的区别。
2. 给出一个没有 `WINDOW` 子句无法用 SQL 表达,但有该子句可以表达的查询示例。
3. 解释 SQL:1999 中窗口的框架概念。
4. 使用 SQL:1999 的 `WINDOW` 子句重写简单的 `GROUP BY` 查询。
```mermaid
graph LR
A[插入行到 Suppliers 表] --> B[数据仓库询问产品类别]
B --> C[源系统处理查询并返回信息]
C --> D[数据仓库更新视图]
D --> E[产品删除]
E --> F[数据仓库调整视图]
```
#### 5. 数据挖掘概述
数据挖掘是在大型数据集中发现有趣趋势或模式,以指导未来活动决策的过程。主要涉及以下关键概念:
- **市场篮子分析**:分析商品的共现情况。
- **先验属性**:在关联规则挖掘中很重要。
- **贝叶斯网络**:用于建模概率关系。
- **分类规则和回归规则**:用于数据分类和预测。
- **决策树**:通过构建树结构进行分类和预测。
- **聚类**:将数据分组为相似的类别。
- **序列相似性搜索**:在序列数据中查找相似的序列。
- **增量模型维护**:随
0
0
复制全文
相关推荐










