《数据分析实战》总结二之聚类算法:K-Means,EM

本文总结了数据分析实战中两种聚类算法——K-Means和EM。K-Means是一种非监督学习的聚类算法,涉及如何确定中心点、划分点到类别及与KNN的区别。EM算法,即最大期望算法,用于参数估计,其工作流程包括初始化、观察预期和重新估计。通过最大似然估计,EM算法解决了聚类问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 K-Means

K-Means 是一种非监督学习,解决的是聚类问题。
K 代表的是 K 类,Means 代表的是中心,本质是确定 K 类的中心点,当找到了这些中心点,也就完成了聚类。

需要解决三个问题:

1 如何确定 K 类的中心点?

其中包括了初始的设置,以及中间迭代过程中中心点的计算。
在初始设置中,会进行 n_init 次的选择,然后选择初始中心点效果最好的为初始值。
在每次分类更新后都需要重新确认每一类的中心点,一般采用均值的方式进行确认。

2 如何将其他点划分到 K 类中?

可以采用欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离等。
对于点的划分,就看它离哪个类的中心点的距离最近,就属于哪一类。

3 如何区分 K-Means 与 KNN?

第一,这两个算法解决数据挖掘的两类问题:K-Means 是聚类算法,KNN 是分类算法。

第二,这两个算法分别是两种不同的学习方式:K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要给出训练数据的分类标识。

第三,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

例子:Kmeans是选老大,风水轮流转,直到选出最佳中心老大;Knn则是小弟加队伍,离那个班相对近,就是那个班的

工作原理:

1 选取 K 个点作为初始的类中心点,这些点一般都是从数据集中随机抽取的;

2 将每个点分配到最近的类中心点,这样就形成了 K 个类,然后重新计算每个类的中心
点;

3 重复第二步,直到类不发生变化,或者你也可以设置最大迭代次数,这样即使类中心点
发生变化,但是只要达到最大迭代次数就会结束。

2 EM聚类</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值