模糊K均值聚类算法

本文详细介绍了模糊K均值聚类算法,与传统K-means算法相比,它允许样本属于多个簇,增强了聚类的灵活性。文章深入探讨了算法的思想,包括如何计算向量与各簇之间的相关性,并讨论了模糊参数m对聚类效果的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

与K-means的不同之处在于:允许存在样本属于多个簇,也就是我们说的可重叠的聚类算法。
思想:
模糊K均值聚类并不是将对象分给最近的簇,而是计算向量和各个簇之间的相关性。假设有一个向量V,有K个簇,V和这K个簇的中心的距离是d1,d2,....,dkd_1,d_2,....,d_kd1,d2,....,dk,则V到第一个簇的相关性为:
U1=1d1d12m−1+d1d22m−1+...+d1dk2m−1U_1=\frac{1}{\frac {d_1}{d_1}^\frac {2}{m-1}+\frac {d_1}{d_2}^\frac {2}{m-1}+...+\frac {d_1}{d_k}^\frac {2}{m-1}}U1=d1d1m12+d2d1m12+...+dkd1m121

m∈(1,2)m \in (1,2)m(1,2),m越大,模糊性就越大,m是模糊参数。

心得:
1.当V和第一个簇的相关性很高时,与其他簇的相关性很低时,d1d_1d1很小,di(i=,2,3,4,...K)d_i(i=,2,3,4,...K)di(i=,2,3,4,...K)很大时,U1U_1U1的值很大,表示该向量V可以分给第一个簇。
2.由(1)可知,相关性大小有个阈值,通过这个阈值判断出相关性为多少的向量可分到簇上,这个阈值大小决定了一个向量能够分到几个簇上。
3.当阈值大小很高时,可理解为K-means,当阈值大小=0时,向量飞到所有簇上,
4.当m值越接近1时,2m−1\frac{2}{m-1}m12就越大,其计算出的相关性就越大,每个向量的相关性差别也较大,更容易分开向量到不同簇上,其模糊性就越小;
当m值接近2时,2m−1\frac{2}{m-1}m12就越小,其计算出的相关性就越小,不同向量的相关性差异也较小,则同一个簇上可能会分到很多向量,所以其模糊性就越小;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值