K均值聚类——python实现

大数据专业的小沉

已于 2024-12-31 11:45:09 修改

阅读量1.3k

点赞数 20

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：均值算法聚类 python 机器学习

于 2024-12-27 15:13:16 首次发布

本文所用数据集来自西瓜书P202西瓜数据集4.0，文章末尾会附上源码和数据集。

K均值算法（K-Means Algorithm）是一种常用的聚类分析方法，用于将数据集划分为预定数量的簇（clusters）。其基本思想是通过迭代的方式，最小化簇内样本之间的距离，以实现相似数据的归类。

初始化：选择 K个初始聚类中心（centroids），通常是在数据集中随机选择 K 个数据点。

分配步骤：对每个数据点，计算它到每个聚类中心的距离（通常使用欧几里得距离），然后将该数据点分配到最近的聚类中心所在的簇。

更新步骤：计算每个簇的新聚类中心，方法是对簇中所有数据点的坐标求平均。

重复：重复进行“分配步骤”和“更新步骤”，直到聚类中心不再变化（或者变化非常小），或者达到预设的迭代次数。

选择K值：确定要分成的簇的数量K。这个选择可能依赖于先验知识或通过评估不同K值下的聚类效果来确定，本次实验选择k =2、3、4。初始化中心点：随机选择K个数据点作为初始中心，本次实验选择三组不同的初始点来观察模型性能。

np.random.seed(seed)  # 输入随机数种子，以便观察不同初始化中心带来的差距
    centres

200万优质内容无限畅学