聚类分析(二)——二分K均值

本文介绍了一种改进的聚类算法——二分K均值,通过每次将数据集一分为二的方式,逐步细化聚类,直至达到指定的类别数k,此方法旨在克服传统K均值算法容易陷入局部最优的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一般的K均值,所分成的簇往往是局部最优,而不是全局最优,比如下图,簇也不会再更新了,但显然没达到我们的要求。
在这里插入图片描述
算法思想:

顾名思义,二分k均值就是每次将数据集一分为二,即k均值算法中的k值为2,第一次是在整个数据集上划分,这里没什么异议,从第二次开始,每次划分的时候就要选取使整个数据集误差平方和最小的一个类进行一分为二了,以此进行下去直到分成我们想要的k类。

二分k均值的伪代码如下:

将所有点看成一个类别
当类别数小于k时
对每一个类
计算总的误差平方和
在当前类内进行k均值聚类,k的值为2
计算将该类一分为二后总的误差平方和
选择使得总的误差平方和最小的划分类进行划分

参考:https://blog.csdn.net/ReXueLaoNanHai/article/details/80908522

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值