深入理解无监督学习与K-means聚类算法：原理与实践-CSDN博客

一、无监督学习概述

无监督学习(Unsupervised Learning)是机器学习的重要分支之一，与有监督学习不同，它不需要预先标记的训练数据。在无监督学习中，计算机仅根据样本的特征或样本间的相关性，从数据中自动发现隐藏的模式或结构。

核心特点：

仅使用特征矩阵X，不需要标签y
目标是发现数据中的内在结构和规律
适用于探索性数据分析

典型应用场景：

客户细分
异常检测
特征提取
数据降维

二、聚类算法基础

聚类算法是无监督学习中最具代表性的算法之一。其核心思想是将数据集中的样本划分为若干个组（称为"簇"），使得：

同一簇内的样本相似度高（簇内差异小）
不同簇间的样本相似度低（簇外差异大）

与分类算法的区别：

特性	聚类算法	分类算法
学习类型	无监督	有监督
输入数据	只有特征，无标签	有特征和标签
目标	发现数据的自然分组	学习从特征到标签的映射
典型应用	客户细分、文档聚类	垃圾邮件检测、图像识别

聚类与分类的区别

三、K-means算法详解

3.1 算法核心概念

代次数）

3.3 算法特点

簇(Cluster)：由相似数据点组成的集合，K-means将N个样本划分为K个互不相交的簇。

质心(Centroid)：每个簇的中心点，计算为该簇中所有数据点的均值。在二维空间中，质心的坐标就是该簇所有点x坐标和y坐标的平均值。

3.2 算法流程

K-means算法通过迭代优化来最小化簇内平方和（即每个点到其所属簇质心的距离平方和），具体步骤如下：

初始化：随机选择K个数据点作为初始质心
分配步骤：将每个数据点分配到最近的质心所在的簇
更新步骤：重新计算每个簇的质心（取簇内所有点的平均值）
迭代：重复分配和更新步骤，直到满足停止条件（通常为质心不再显著变化或达到最大迭代次数）

3.3 算法特点

优点：

原理简单，实现容易
计算效率高，适合大规模数据集
对于球形簇结构的数据效果很好

局限性：

需要预先指定K值
对初始质心选择敏感
对噪声和离群点敏感
只能发现球形簇，对复杂形状的簇效果不佳

四、Scikit-learn中的K-means实现

Scikit-learn提供了高效且易用的KMeans类，下面详细介绍其API和使用方法。

4.1 KMeans类主要参数

class sklearn.cluster.KMeans(
    n_clusters=8,          # 要形成的簇数，即K值
    init='k-means++',      # 初始化方法：'k-means++'（智能初始化）或'random'
    n_init=10,             # 使用不同质心种子运行算法的次数
    max_iter=300,          # 单次运行的最大迭代次数
    tol=1e-4,              # 收敛阈值
    random_state=None      # 随机数生成器种子
)

4.2 重要属性

cluster_centers_ : array, [n_clusters, n_features]
    # 聚类中心的坐标
    
labels_ : array, [n_samples,]
    # 每个样本所属的簇标签
    
inertia_ : float
    # 样本到最近聚类中心的平方和总和
    
n_iter_ : int
    # 实际运行的迭代次数

4.3 完整示例代码

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np

# 1. 生成模拟数据
# 生成1000个二维样本，分为4个簇
X, _ = make_blobs(n_samples=1000, centers=4, random_state=42)

# 2. 可视化原始数据
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], X[:, 1], s=10)
plt.title("Original Data")

# 3. 创建KMeans模型并拟合数据
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)

# 4. 获取聚类结果
centroids = kmeans.cluster_centers_
labels = kmeans.labels_

# 5. 可视化聚类结果
plt.subplot(1, 2, 2)
# 用不同颜色绘制各个簇
for i in range(4):
    cluster_points = X[labels == i]
    plt.scatter(cluster_points[:, 0], cluster_points[:, 1], s=10, label=f'Cluster {i}')
# 绘制质心
plt.scatter(centroids[:, 0], centroids[:, 1], s=100, marker='*', c='black', label='Centroids')
plt.title("Clustered Data")
plt.legend()

plt.tight_layout()
plt.show()

# 6. 输出聚类信息
print(f"Cluster centers:\n{centroids}")
print(f"Inertia (sum of squared distances): {kmeans.inertia_:.2f}")