聚类研究背景:
在机器学习中,一个重要的任务就是需要定量化描述数据中的集聚现象。聚类分析也是模式识别和数据挖掘领域一个极富有挑战性的研究方向。
聚类分析就是在无监督学习下数据对象的探索合适的簇的过程,在探索过程中,簇与簇之间的数据对象差异越来越明显,簇内的数据对象之间差异越来越小。
聚类分析是模式识别,机器学习领域中的一个重要的研究课题,而聚类作为数据分析的常用工具,其重要性也在很多领域得到广泛的认同。从聚类问题的提出到现在,已经有很多聚类方法:
-
基于划分的聚类方法,如K-means
-
基于层次的聚类方法,如CURE
-
基于网格的聚类方法,如STING
-
基于密度的聚类方法,如DBSCAN
-
基于神经网络的聚类方法,如SOM
-
基于图的聚类方法,如Normalized cut
上述的聚类方法各自有各自的优缺点,大家要意识到每个聚类方法都是都是基于不同理论背景并使用不同的学科方法来进行聚类分析的,但面对错综复杂的实际问题,并没有哪一种具体的聚类方法可以完美胜任所有数据的聚类分析的,具体问题需要具体分析。
聚类算法的相似度量
聚类的最终目标就是在已知无标签的数据集上找到合适的簇,将这些无标签的数据合理的划分到合适的簇中。其中簇内的样本的相似度很高,不同簇的样本间相似度很低。所以聚类过程是需要计算数据间的相似性的。这里就需要有一个计算数据间相似性的标准。
一般地,每个数据点都可以用一个向量表示,因此可以