一、无监督学习概述
无监督学习(Unsupervised Learning)是机器学习的重要分支之一,与有监督学习不同,它不需要预先标记的训练数据。在无监督学习中,计算机仅根据样本的特征或样本间的相关性,从数据中自动发现隐藏的模式或结构。
核心特点:
-
仅使用特征矩阵X,不需要标签y
-
目标是发现数据中的内在结构和规律
-
适用于探索性数据分析
典型应用场景:
-
客户细分
-
异常检测
-
特征提取
-
数据降维
二、聚类算法基础
聚类算法是无监督学习中最具代表性的算法之一。其核心思想是将数据集中的样本划分为若干个组(称为"簇"),使得:
-
同一簇内的样本相似度高(簇内差异小)
-
不同簇间的样本相似度低(簇外差异大)
与分类算法的区别:
特性 | 聚类算法 | 分类算法 |
---|---|---|
学习类型 | 无监督 | 有监督 |
输入数据 | 只有特征,无标签 | 有特征和标签 |
目标 | 发现数据的自然分组 | 学习从特征到标签的映射 |
典型应用 | 客户细分、文档聚类 | 垃圾邮件检测、图像识别 |
三、K-means算法详解
3.1 算法核心概念
-
代次数)
3.3 算法特点
簇(Cluster):由相似数据点组成的集合,K-means将N个样本划分为K个互不相交的簇。
质心(Centroid):每个簇的中心点,计算为该簇中所有数据点的均值。在二维空间中,质心的坐标就是该簇所有点x坐标和y坐标的平均值。
3.2 算法流程
K-means算法通过迭代优化来最小化簇内平方和(即每个点到其所属簇质心的距离平方和),具体步骤如下:
-
初始化:随机选择K个数据点作为初始质心
-
分配步骤:将每个数据点分配到最近的质心所在的簇
-
更新步骤:重新计算每个簇的质心(取簇内所有点的平均值)
-
迭代:重复分配和更新步骤,直到满足停止条件(通常为质心不再显著变化或达到最大迭代次数)
3.3 算法特点
优点:
-
原理简单,实现容易
-
计算效率高,适合大规模数据集
-
对于球形簇结构的数据效果很好
局限性:
-
需要预先指定K值
-
对初始质心选择敏感
-
对噪声和离群点敏感
-
只能发现球形簇,对复杂形状的簇效果不佳
四、Scikit-learn中的K-means实现
Scikit-learn提供了高效且易用的KMeans类,下面详细介绍其API和使用方法。
4.1 KMeans类主要参数
class sklearn.cluster.KMeans(
n_clusters=8, # 要形成的簇数,即K值
init='k-means++', # 初始化方法:'k-means++'(智能初始化)或'random'
n_init=10, # 使用不同质心种子运行算法的次数
max_iter=300, # 单次运行的最大迭代次数
tol=1e-4, # 收敛阈值
random_state=None # 随机数生成器种子
)
4.2 重要属性
cluster_centers_ : array, [n_clusters, n_features]
# 聚类中心的坐标
labels_ : array, [n_samples,]
# 每个样本所属的簇标签
inertia_ : float
# 样本到最近聚类中心的平方和总和
n_iter_ : int
# 实际运行的迭代次数
4.3 完整示例代码
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np
# 1. 生成模拟数据
# 生成1000个二维样本,分为4个簇
X, _ = make_blobs(n_samples=1000, centers=4, random_state=42)
# 2. 可视化原始数据
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], X[:, 1], s=10)
plt.title("Original Data")
# 3. 创建KMeans模型并拟合数据
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)
# 4. 获取聚类结果
centroids = kmeans.cluster_centers_
labels = kmeans.labels_
# 5. 可视化聚类结果
plt.subplot(1, 2, 2)
# 用不同颜色绘制各个簇
for i in range(4):
cluster_points = X[labels == i]
plt.scatter(cluster_points[:, 0], cluster_points[:, 1], s=10, label=f'Cluster {i}')
# 绘制质心
plt.scatter(centroids[:, 0], centroids[:, 1], s=100, marker='*', c='black', label='Centroids')
plt.title("Clustered Data")
plt.legend()
plt.tight_layout()
plt.show()
# 6. 输出聚类信息
print(f"Cluster centers:\n{centroids}")
print(f"Inertia (sum of squared distances): {kmeans.inertia_:.2f}")
4.4 代码解析
-
数据生成:使用
make_blobs
生成1000个二维样本点,分为4个自然簇。这个函数非常适合创建聚类算法的测试数据。 -
模型初始化:创建KMeans对象,设置n_clusters=4表示我们希望将数据分为4个簇。
-
模型训练:调用fit方法训练模型,算法会自动找到最优的簇划分。
-
结果可视化:使用不同颜色展示各个簇,并用星号标记出每个簇的质心位置。
-
结果分析:打印出簇中心坐标和inertia值(簇内平方和),这个值越小表示聚类效果越好
五、总结
K-means作为最经典的聚类算法之一,因其简单高效而被广泛应用于各个领域。通过本文的介绍,我们了解了:
-
无监督学习与聚类算法的基本概念
-
K-means算法的原理和实现细节
-
Scikit-learn中KMeans类的使用方法
-
实际应用中的技巧和注意事项
虽然K-means有诸多优点,但也存在一些局限性。在实际应用中,我们可能需要尝试其他聚类算法(如DBSCAN、层次聚类等)或对K-means进行改进(如K-means++初始化)以获得更好的效果。