模糊K均值聚类算法

最新推荐文章于 2022-07-07 20:42:16 发布

原创最新推荐文章于 2022-07-07 20:42:16 发布 · 3.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #k均值 #模糊K均值 #人工智能

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了模糊K均值聚类算法，与传统K-means算法相比，它允许样本属于多个簇，增强了聚类的灵活性。文章深入探讨了算法的思想，包括如何计算向量与各簇之间的相关性，并讨论了模糊参数m对聚类效果的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

与K-means的不同之处在于：允许存在样本属于多个簇，也就是我们说的可重叠的聚类算法。
思想：
模糊K均值聚类并不是将对象分给最近的簇，而是计算向量和各个簇之间的相关性。假设有一个向量V，有K个簇，V和这K个簇的中心的距离是 $d_1,d_2,....,d_k$ ,则V到第一个簇的相关性为：
$U1=1d1d12m−1+d1d22m−1+...+d1dk2m−1U_1=\frac{1}{\frac {d_1}{d_1}^\frac {2}{m-1}+\frac {d_1}{d_2}^\frac {2}{m-1}+...+\frac {d_1}{d_k}^\frac {2}{m-1}}$

$\in (1,2)$ ,m越大，模糊性就越大，m是模糊参数。

心得：
1.当V和第一个簇的相关性很高时，与其他簇的相关性很低时， $d_1$ 很小， $d_i(i=,2,3,4,...K)$ 很大时， $U_1$ 的值很大，表示该向量V可以分给第一个簇。
2.由（1）可知，相关性大小有个阈值，通过这个阈值判断出相关性为多少的向量可分到簇上，这个阈值大小决定了一个向量能够分到几个簇上。
3.当阈值大小很高时，可理解为K-means,当阈值大小=0时，向量飞到所有簇上，
4.当m值越接近1时， $2m−1\frac{2}{m-1}$ 就越大，其计算出的相关性就越大，每个向量的相关性差别也较大，更容易分开向量到不同簇上，其模糊性就越小；
当m值接近2时， $2m−1\frac{2}{m-1}$ 就越小，其计算出的相关性就越小，不同向量的相关性差异也较小，则同一个簇上可能会分到很多向量，所以其模糊性就越小；