MATLAB聚类自适应从类别数目的选择到聚类

最新推荐文章于 2023-06-18 00:46:48 发布

原创最新推荐文章于 2023-06-18 00:46:48 发布 · 7.7k 阅读

33 ·

CC 4.0 BY-SA版权

matlab 同时被 3 个专栏收录

24 篇文章

订阅专栏

传统方法

10 篇文章

订阅专栏

数学

7 篇文章

订阅专栏

本文介绍了如何通过不同聚类算法（如k-means、层次聚类和高斯混合聚类）结合多种评估标准（包括Calinski-Harabasz、Davies-Bouldin等）来确定最佳聚类中心数目。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类是很快的，所以不需要自适应，只需要[1.....N]个类中心，遍历一遍，得到N个评估值，[1.....N]选一个最好的类中心数目即可。

类中心个数的评估：

eva = evalclusters(mat,'kmeans','CalinskiHarabasz',...
    'klist',[1:6])
eva = evalclusters(mat,'linkage','CalinskiHarabasz',...
    'klist',[1:6])
eva = evalclusters(mat,'gmdistribution','CalinskiHarabasz',...
    'klist',[1:6])

mat------你自己的要聚类的数据，(n*d)每行是一个样本。

'kmeans'-----这里是聚类算法，kmeans大家都知道。linkage是针对有层次数据的聚类算法，而gmd是高斯混合聚类。

'CalinskiHarabasz'-------是聚类的评价标准，还有另外三个选项：

'DaviesBouldin''gap''silhouette'

那么，假如你已经用这个算法得到了结果，关键问题就变成了怎么挑选最佳聚类中心数目。

klist-----聚类中心的范围。

挑选聚类中心

同样的数据，不同的评价标准，都是kmeans聚类方式。

‘CalinskiHarabasz（CH）'挑选拐点，所以这张图的聚类中心是20.，为了看不同的同学，我给出代码：

plot(eva.CriterionValues)

'DaviesBouldin'最大值点，拐点，所以可以选择20-40之间。

`聚类标准含义`

'DaviesBouldin'（DB）标准以及CH标准

`聚类代码`

[IDX,C,SUMD,D]=kmeans(mat(label==class,:),C_amount);
[IDX,C,SUMD,D]=kmeans(mat,C_amount);

mat就是你要聚类的数据，n*d，返回值：

[IDX, C] = kmeans(X, K) returns the K cluster centroid locations in
the K-by-P matrix C.

[IDX, C, SUMD] = kmeans(X, K) returns the within-cluster sums of
point-to-centroid distances in the K-by-1 vector sumD.

[IDX, C, SUMD, D] = kmeans(X, K) returns distances from each point
to every centroid in the N-by-K matrix D.