【机器学习】k-means算法对数据进行聚类

原创已于 2023-11-18 20:22:28 修改 · 328 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #kmeans #聚类

于 2023-11-18 20:16:15 首次发布

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文介绍了K-means聚类算法的基本原理，包括随机选择初始中心点、迭代优化过程以及如何在Python中使用sklearn库实现。通过实例展示了如何对二维数据进行聚类，并展示了不同参数的选择对结果的影响。

算法原理

为了处理学习数据，数据挖掘中的 K-means 算法首先随机选取第一组中心点，作为每个聚类的起始点，然后进行迭代（重复）计算（计算的是每个点到簇点的欧几里得距离），以优化中心点的位置。

当出现以下两种情况之一时，它将停止创建和优化群集：

中心点已经稳定--由于聚类成功，其值没有变化。
已达到规定的迭代次数。

代码实现

随机数据

import numpy as np
import pandas as pd
from sklearn import metrics
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# 创建一组随机数据 维度为二维

X= -2 * np.random.rand(100,2)
X1 = 1 + 2 * np.random.rand(50,2)
X[50:100, :] = X1
plt.scatter(X[ : , 0], X[ :, 1], s = 50, c = 'brown',marker="p")
plt.show()

随机数据

# 模型构建

model = KMeans(n_clusters=2, init="k-means++", n_init=10, max_iter=300)

"""
参数解释：

n_clusters=2 聚类个数(簇)
init="k-means++" 初始化聚类中心的方法
n_init=10 初始化次数
max_iter=300最大迭代次数

"""

model.fit(X)

result = model.predict(X) # result equals model.labels_
centers = model.cluster_centers_ # 簇的点位

# 画图

plt.figure(figsize=(15,5))
plt.subplot(121)
plt.scatter(X[ : , 0], X[ :, 1], s = 80, c = result, marker="+",cmap="rainbow")
plt.subplot(122)
plt.scatter(X[ : , 0], X[ :, 1], s = 80, c = result, marker="p")
plt.scatter(centers[:,0], centers[:,1], s = 80, c = "green", marker="o")
# 中心点用绿色圆表示出来
plt.show()

更换数据

数据引用：百度网盘请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固，支持教育网加速，支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/s/1en3DIGZtb8-B8iQeOmVnRQ?pwd=1111

# 不再赘述 直接上完整代码

data = pd.read_excel("K_Means.xlsx")
X, y = data["X"], data["Y"]


model = KMeans(n_clusters=4, init="k-means++", max_iter=300, n_init=10)
model.fit(data)

prediction = model.predict(data)
center_clusters = model.cluster_centers_

plt.figure(figsize=(15,5))
plt.subplot(121)
plt.scatter(X,y,c=prediction,marker="p",s=80)

plt.subplot(122)
plt.scatter(X,y,c=prediction,marker="p",s=80)
plt.scatter(center_clusters[:,0],center_clusters[:,1],color='red',s=100)

plt.show()