
数据挖掘原语、语言和系
统结构

为什么要数据挖掘原语和语言?
没有精确的指令和规则,数据挖掘系统就没法使用。
一个完全自动(不需要人为干预或指导)的数据挖掘
机器:
会产生大量模式(重新把知识淹没)
会涵盖所有数据,使得挖掘效率低下
大部分有价值的模式集可能被忽略
挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性
——令人不感兴趣。
用数据挖掘原语和语言来指导数据挖掘。

数据挖掘原语的组成部分
数据挖掘原语应该包括以下部分:
说明数据库的部分或用户感兴趣的数据集
要挖掘的知识类型
用于指导挖掘的背景知识
模式评估、兴趣度量
如何显示发现的知识
数据挖掘原语用于用户和数据挖掘系统通信,让用户
能从不同的角度和深度审查和发现结果,并指导挖掘
过程。

说明数据挖掘任务的原语
任务相关的数据
数据库(仓库)名、数据立方体、选择条件、相关属性、分
组条件
挖掘的知识类型
特征化、区分、关联、分类 / 预测、聚类
背景知识
概念分层,关联的确信度
模式兴趣度度量
简单性、确定性、实用性、新颖性
发现模式的可视化
规则、表、图表、图、判定树…

任务相关的数据
用户感兴趣的只是数据库或数据仓库的一个子集。
相关的操作: DB -选择、投影、连接、聚集等; DW -切
片、切块
初始数据关系
数据子集选择过程产生的新的数据关系
可挖掘的视图
用于数据挖掘相关任务的数据集