数据仓库与决策支持及数据挖掘概述

### 数据仓库与决策支持及数据挖掘概述 #### 1. 分布式环境下增量视图维护示例在分布式环境中，视图维护会面临一些复杂情况。以下是一个示例： - 向 `Suppliers` 表插入行 `s2, 5`，源系统通知数据仓库。 - 为决定是否将 `s2` 添加到视图中，数据仓库需要知道产品 `pid = 5` 的类别，于是向源系统询问。 - 源系统处理数据仓库的第一个查询，找到产品 5 的两个供应商，并将信息返回给数据仓库。 - 数据仓库得到第一个问题的答案（供应商 `s1` 和 `s2`），将它们添加到视图中，每个计数为 1。 - 源系统处理数据仓库的第二个查询，回复产品 5 是玩具。 - 数据仓库得到第二个问题的答案，相应地增加视图中供应商 `s2` 的计数。 - 产品 `pid = 5` 被删除，源系统通知数据仓库。 - 由于删除的产品是玩具，数据仓库减少匹配视图元组的计数，`s1` 计数为 0 被移除，`s2` 计数为 1 被保留。但实际上，产品 5 删除后，`s2` 不应留在视图中。这个例子说明了分布式环境下增量视图维护的复杂性，这也是当前正在研究的主题。 #### 2. 视图同步策略视图维护策略决定了视图何时刷新，与刷新是否为增量无关。主要有以下几种策略： | 策略 | 说明 | 优缺点 | | ---- | ---- | ---- | | 即时视图维护 | 在更新基础表的同一事务中刷新视图。 | 优点：视图始终与基础表保持一致；缺点：更新事务会因刷新步骤变慢，且依赖更新表的物化视图数量越多，刷新影响越大。 | | 延迟视图维护 | 更新记录在日志中，随后应用到物化视图。 | | | - 懒加载 | 当使用物化视图 `V` 进行查询时，如果 `V` 与基础表不一致，则刷新视图。 | 优点：不影响更新速度；缺点：会减慢查询速度。 | | - 定期刷新 | 定期刷新物化视图，如每天一次。 | 优点：更新和查询速度较快；缺点：查询可能看到与基础表当前状态不一致的视图实例。 | | - 强制刷新 | 在基础表进行一定数量的更改后刷新物化视图。 | 优点：更新和查询速度较快；缺点：查询可能看到与基础表当前状态不一致的视图实例。 | #### 3. 决策支持相关概念及技术 - **多维数据模型**：包含度量和维度，以及事实表和维度表。星型模式是一种常见的多维数据模型结构。 - **OLAP 操作**：常见的 OLAP 操作有上卷、下钻、旋转、切片和切块。 - **SQL:1999 特性**：支持 `ROLLUP`、`CUBE` 和 `WINDOW` 特性，用于处理复杂查询。 - **索引结构**：适用于 OLAP 系统的索引结构包括位图索引和连接索引。 - **数据仓库**：用于存储来自操作数据库的数据，涉及数据提取、清洗、转换和加载等过程，同时面临数据刷新和清理的挑战。 - **视图**：在决策支持环境中很重要，与数据仓库和 OLAP 相关，但查询修改技术在决策支持环境中可能不够充分。 #### 4. 练习题涉及的知识点练习题涵盖了多个方面的知识点，包括： - 数据仓库、OLAP 和数据挖掘的互补关系。 - 数据仓库与数据复制的关系，以及同步和异步复制在数据仓库中的适用性。 - 元数据存储库在数据仓库中的作用。 - 数据仓库的设计考虑因素。 - 数据仓库的更新和维护方法。 - 多维数据模型中的维度和度量。 - 事实表的重要性。 - MOLAP 和 ROLAP 系统的区别。 - 星型模式及其范式情况。 - 数据挖掘与 OLAP 的区别。以下是部分练习题的操作步骤示例： - **练习题 25.2**： 1. 对 `Sales` 关系在 `pid` 和 `timeid` 上进行旋转操作，得到旋转结果。 2. 编写 SQL 查询以获得相同结果。 3. 对 `Sales` 关系在 `pid` 和 `locid` 上进行旋转操作，得到旋转结果。 - **练习题 25.4**： 1. 比较 `WINDOW` 子句和 `GROUP BY` 子句的区别。 2. 给出一个没有 `WINDOW` 子句无法用 SQL 表达，但有该子句可以表达的查询示例。 3. 解释 SQL:1999 中窗口的框架概念。 4. 使用 SQL:1999 的 `WINDOW` 子句重写简单的 `GROUP BY` 查询。 ```mermaid graph LR A[插入行到 Suppliers 表] --> B[数据仓库询问产品类别] B --> C[源系统处理查询并返回信息] C --> D[数据仓库更新视图] D --> E[产品删除] E --> F[数据仓库调整视图] ``` #### 5. 数据挖掘概述数据挖掘是在大型数据集中发现有趣趋势或模式，以指导未来活动决策的过程。主要涉及以下关键概念： - **市场篮子分析**：分析商品的共现情况。 - **先验属性**：在关联规则挖掘中很重要。 - **贝叶斯网络**：用于建模概率关系。 - **分类规则和回归规则**：用于数据分类和预测。 - **决策树**：通过构建树结构进行分类和预测。 - **聚类**：将数据分组为相似的类别。 - **序列相似性搜索**：在序列数据中查找相似的序列。 - **增量模型维护**：随

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据仓库与决策支持及数据挖掘概述

相关推荐

专栏目录

数据仓库与决策支持及数据挖掘概述

相关推荐

数据仓库与数据挖掘实验报告-.docx

数据仓库与数据挖掘 阶段考试复习题.docx

数据仓库与数据挖掘概述.ppt

数据仓库与数据挖掘概述

数据仓库与挖掘第五章数据挖掘概述.ppt

数据仓库与数据挖掘概述.pptx

数据仓库与挖掘第五章数据挖掘概述[1].ppt

人工智能-数据挖掘-数据仓库与数据挖掘技术在图书馆决策支持系统中的研究与应用.pdf

基于数据仓库的决策支持系统研究与建设

数据仓库和数据挖掘概述.pptx

Stable Diffusion 微调LoRA基础使用

PLC车库门设计.doc

专栏目录

最新推荐

网络性能评估必修课：站点调查后的测试与验证方法

【编程语言选择】：选择最适合项目的语言

【统一认证平台集成测试与持续部署】：自动化流程与最佳实践

RTC5振镜卡固件升级全攻略：步骤详解与风险控制技巧

案例研究：揭秘某大型项目如何缩短交付周期

【打印机响应时间缩短绝招】：LQ-675KT打印机性能优化秘籍

【飞行模拟器的虚拟现实整合】：将F-16配平模拟融入VR，开启飞行新纪元！

【Flash存储器的数据安全】：STM32中的加密与防篡改技术，安全至上

OPCUA-TEST与机器学习：智能化测试流程的未来方向！

【震动与机械设计】：STM32F103C8T6+ATT7022E+HT7036硬件震动防护策略

数据仓库与数据挖掘阶段考试复习题.docx