聚类（Clustering）基础知识1_csdn聚类touge-CSDN博客

本文链接：https://blog.csdn.net/qq_51701007/article/details/146709076

文章目录

一、监督学习 vs. 非监督学习
- 1、监督学习
- 2、非监督学习
二、为什么要非监督学习？
三、聚类
- 1、聚类的定义
- 2、划分的原则
四、簇的概念并不明确
五、聚类的类型
- 1、基于划分的聚类（无嵌套）
- 2、层次聚类（嵌套）
六、簇集合的其他区别
- 1、独占（Exclusive）vs. 非独占的（Non-exclusive）
- 2、模糊（Fuzzy）vs. 非模糊的（Non-fuzzy）
- 3、部分（Partial）vs. 完备（Complete）
- 4、异质（Heterogeneous）vs. 同质（Homogeneous）
七、簇的类型
八、基于中心的簇
- 1、定义
九、基于连续性和基于密度的簇
- 1、基于连续性的簇
- 2、基于密度的簇
十、基于概念的簇
- 1、定义
- 2、检测难度
十一、聚类的应用场景
- 1、图像分割
- 2、人类的种族分析
- 3、其他应用
十二、聚类分析的“三要素”
- 1、要素一：如何定义样本点之间的“远近”
- 2、要素二：如何获得聚类的簇
- 3、要素三：如何评价聚类出来的簇的质量

一、监督学习 vs. 非监督学习

1、监督学习

监督学习是一种机器学习方法，其中模型从标记的训练数据中学习输入 $x$ 与输出 $y$ 之间的关系，即 $y = f (x)$ 。它可以分为以下几种类型：

分类： $y$ 是类别标签。
回归： $y$ 是连续值。
排序： $y$ 是有序的数值。

2、非监督学习

非监督学习是一种机器学习方法，其中模型从未标记的数据中寻找数据的内在结构，即 $z = f (x)$ 。它包括以下几种类型：

概率密度估计： $z$ 是 $x$ 附近的概率密度。
聚类： $z$ 是 $x$ 对应的簇的标号。
降维/可视化： $z$ 是 $x$ 的低维表示。

二、为什么要非监督学习？

非监督学习在许多情况下非常有用，原因如下：

原始数据容易获得，但标注数据昂贵。我们缺的不是数据，而是带标签的数据。

降低存储/计算需求。

对高维数据进行降维处理。

对数据进行探索性分析。

数据可视化学习通常可作为监督学习的预处理步骤。

非监督学习步骤。

“Unsupervised learning will bring about the next AI revolution.” —— Yann LeCun

三、聚类

1、聚类的定义

聚类是一种数据分析方法，旨在发现数据中分组聚集的结构。根据数据中样本与样本之间的距离或相似度，将样本划分为若干组/类/簇（cluster）。

2、划分的原则

聚类的原则是：簇内样本相似，簇间样本不相似。

Intra-cluster distances are minimized：簇内距离最小化。
Inter-cluster distances are maximized：簇间距离最大化。

在这里插入图片描述

四、簇的概念并不明确

在实际应用中，簇的数量和定义可能并不明确。例如：
在这里插入图片描述

左上图：多少个簇？
右上图：6个簇。
左下图：2个簇。
右下图：4个簇。

五、聚类的类型

聚类的结果可以产生一个簇的集合。聚类可以分为以下几种类型：

1、基于划分的聚类（无嵌套）

将所有样本划分到若干不重叠的子集（簇），每个样本仅属于一个子集。

2、层次聚类（嵌套）

树形聚类结构，在不同层次对数据集进行划分，簇之间存在嵌套。

六、簇集合的其他区别

1、独占（Exclusive）vs. 非独占的（Non-exclusive）

在非独占的类簇中，样本点可以属于多个簇。

2、模糊（Fuzzy）vs. 非模糊的（Non-fuzzy）

在模糊聚类中，一个样本点以一定权重属于各个聚类簇。
权重和为1。
概率聚类有类似的特性。

3、部分（Partial）vs. 完备（Complete）

在一些场景，我们只聚类部分数据。

4、异质（Heterogeneous）vs. 同质（Homogeneous）

簇的大小、形状和密度是否有很大的差别。

七、簇的类型

基于中心的簇：以簇中心为基准进行聚类。
基于邻接的簇：基于样本之间的邻近关系进行聚类。
基于密度的簇：根据样本的密度进行聚类。
基于概念的簇：基于样本的语义或概念进行聚类。

八、基于中心的簇

1、定义

簇内的点与其“中心”较为相近（或相似），和其他簇的“中心”较远，这样的一组样本形成的簇。
簇的中心常用质心（centroid）表示，即簇内所有点的平均，或用中心点（medioid）表示，即簇内最有代表性的点。

九、基于连续性和基于密度的簇

1、基于连续性的簇

相比其他任何簇的点，每个点都至少和所属簇的某一个点更近。

2、基于密度的簇

簇是由高密度的区域形成的，簇之间是一些低密度的区域。

十、基于概念的簇

1、定义

基于概念的簇：同一个簇共享某种性质，这个性质是从整个结合推导出来的。

2、检测难度

基于概念的簇难检测，它通常不是：
- 基于中心
- 基于邻接
- 基于密度

十一、聚类的应用场景

1、图像分割

在这里插入图片描述

参考链接：CS/vision/grouping/resources.html

2、人类的种族分析

在这里插入图片描述

参考文章：Eran Elhaik et al. Nature https://www.nature.com/articles/ncomms4513

3、其他应用

用户画像：基于顾客消费历史对顾客聚类
商品分析：基于购买的用户对商品的聚类
文本分析：基于相似的词对文档聚类
计算生物学：基于编辑距离对DNA序列聚类

十二、聚类分析的“三要素”

1、要素一：如何定义样本点之间的“远近”

使用相似性/距离函数

2、要素二：如何获得聚类的簇

如何表示簇，如何设计划分和优化算法，算法何时停止

3、要素三：如何评价聚类出来的簇的质量

利用评价函数去评估聚类结果

聚类（Clustering）基础知识1

文章目录

一、监督学习 vs. 非监督学习

1、监督学习

2、非监督学习

二、 为什么要非监督学习？

三、聚类

1、聚类的定义

2、划分的原则

四、簇的概念并不明确

五、聚类的类型

1、基于划分的聚类（无嵌套）

2、层次聚类（嵌套）

六、簇集合的其他区别

1、独占（Exclusive）vs. 非独占的（Non-exclusive）

2、模糊（Fuzzy）vs. 非模糊的（Non-fuzzy）

3、部分（Partial）vs. 完备（Complete）

4、异质（Heterogeneous）vs. 同质（Homogeneous）

七、簇的类型

八、基于中心的簇

1、定义

九、基于连续性和基于密度的簇

1、基于连续性的簇

2、基于密度的簇

十、基于概念的簇

1、定义

2、检测难度

十一、聚类的应用场景

1、图像分割

2、人类的种族分析

3、其他应用

十二、聚类分析的“三要素”

1、要素一：如何定义样本点之间的“远近”

2、要素二：如何获得聚类的簇

3、要素三：如何评价聚类出来的簇的质量

二、为什么要非监督学习？