注: 两整天的成果,谬误之处勿喷
1 聚类概述
样本
- 没有训练的样本
- 没有标注的样本
1.1 相似度度量
1.1.1 距离相似度度量
- 距离度量 d i s t ( o i , o j ) dist(o_{i},o_{j}) dist(oi,oj)
- 欧式距离
- 距离相似度度量
s i m ( o i , o j ) = 1 1 + d i s t ( o i , o j ) sim(o_{i},o_{j})= \frac{1}{1+dist(o_{i},o_{j})} sim(oi,oj)=1+dist(oi,oj)1
1.1.2 密度相似性
- 体现的内涵:
- (1)数据结构特性
- (2)数据结构特性相似
- 密度: 单位空间内对象的个数
- 密度相似度定义: 设 c i , c j 点 的 密 度 为 d i , d j c_{i},c_{j}点的密度为d_{i},d_{j} ci,cj点的密度为di,dj
d e n s i t y ( c i , c j ) = ∣ d i − d j ∣ density(c_{i},c_{j})=|d_{i}-d_{j}| density(ci,cj)=∣di−dj∣
1.1.3 连通相似性
- 定义:
- 数据集用图表示, 节点是对象,边线是关系
- 簇定义为图的连接分支
1.1.4 概念相似性独立
- 语义的相似性
1.2 质量评价指标
- 内部质量评价标准
- CH指标
- 簇间距离和簇内距离的比值
- CH指标值越大 效果越高
- CH指标