《数据分析实战》总结二之聚类算法：K-Means，EM

最新推荐文章于 2023-12-04 17:00:00 发布

木棉上的光

最新推荐文章于 2023-12-04 17:00:00 发布

阅读量501

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/qq_41594698/article/details/102768754

本文总结了数据分析实战中两种聚类算法——K-Means和EM。K-Means是一种非监督学习的聚类算法，涉及如何确定中心点、划分点到类别及与KNN的区别。EM算法，即最大期望算法，用于参数估计，其工作流程包括初始化、观察预期和重新估计。通过最大似然估计，EM算法解决了聚类问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 K-Means

K-Means 是一种非监督学习，解决的是聚类问题。
K 代表的是 K 类，Means 代表的是中心，本质是确定 K 类的中心点，当找到了这些中心点，也就完成了聚类。

需要解决三个问题：

1 如何确定 K 类的中心点？

其中包括了初始的设置，以及中间迭代过程中中心点的计算。
在初始设置中，会进行 n_init 次的选择，然后选择初始中心点效果最好的为初始值。
在每次分类更新后都需要重新确认每一类的中心点，一般采用均值的方式进行确认。

2 如何将其他点划分到 K 类中？

可以采用欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离等。
对于点的划分，就看它离哪个类的中心点的距离最近，就属于哪一类。

3 如何区分 K-Means 与 KNN？

第一，这两个算法解决数据挖掘的两类问题：K-Means 是聚类算法，KNN 是分类算法。

第二，这两个算法分别是两种不同的学习方式：K-Means 是非监督学习，也就是不需要事先给出分类标签，而 KNN 是有监督学习，需要给出训练数据的分类标识。

第三，K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

例子：Kmeans是选老大，风水轮流转，直到选出最佳中心老大；Knn则是小弟加队伍，离那个班相对近，就是那个班的