介绍
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。这种基于相似度度量的聚类方法也是实际中更常用的方法,其中,根据算法设计的不同又可分为动态聚类法和分级聚类法等。
动态聚类方法是一种普遍采用的方法,它具有以下 3 个要点:
① 选定某种距离度量作为样本间的相似度度量。
② 确定某个评价聚类结果质量的准则函数。
③ 给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好聚类结果。
1.2 K 均值算法(K-means)
(1)算法原理
K均值(K-means)算法是一种很常用的聚类算法,其基本思想是,通过迭代寻找k个聚