
Kmeans 聚类算法
动态聚类算法
任务:是将数据集划分成一定数量的子集,例如将一个数据集划分成 3、4 个子集等。 因
此要划分成多少个子集往往要预先确定,或大致确定,当然这个子集数目在理想情况能体现
数据集比较合理的划分。
要解决的问题是: 1、怎样才能知道该数据集应该划分的子集数目?
2、如果划分数目已定,则又如何找到最佳划分?
因为数据集可以有许多种不同的划分方法,需要对不同的划分作出评价,并找到优化的
划分结果。由于优化过程是从不甚合理的划分到“最佳”划分,是一个动态的迭代过程,故
这种方法称为动态聚类方法。
动态聚类方法的要点
1. 选定某种距离度量作为样本间的相似性度量;
2. 确定样本合理的初始分类,包括代表点的选择,初始分类方法的选择等;
3. 确定某种评价聚类结果质量的准则函数,以调整初始分类直至达到该准则函数的极值。
以上三点是动态聚类方法的三个要素,其中初始划分只是为了使划分能从某个初始点开
始,而相似度量计算方法对解决实际问题很重要,先从最简单的度量——数据之间的欧氏距
离开始,然后再涉及其它相似性度量方法。第三个要素,即使用准则函数作为优化的评价是
动态聚类方法的核心。
K- Means 聚类算法
K- Means 是迭代动态聚类算法中的一种,其中 K 表示类别数,Means 表示均值。
顾名思义 K-Means 是一种通过均值对数据点进行聚类的算法。K-Means 算法通过预先设
定的 K 值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获
得最优的聚类结果。
评论0