文章目录
一、监督学习 vs. 非监督学习
1、监督学习
监督学习是一种机器学习方法,其中模型从标记的训练数据中学习输入 x x x与输出 y y y之间的关系,即 y = f ( x ) y = f(x) y=f(x)。它可以分为以下几种类型:
- 分类: y y y是类别标签。
- 回归: y y y是连续值。
- 排序: y y y是有序的数值。
2、非监督学习
非监督学习是一种机器学习方法,其中模型从未标记的数据中寻找数据的内在结构,即 z = f ( x ) z = f(x) z=f(x)。它包括以下几种类型:
- 概率密度估计: z z z是 x x x附近的概率密度。
- 聚类: z z z是 x x x对应的簇的标号。
- 降维/可视化: z z z是 x x x的低维表示。
二、 为什么要非监督学习?
非监督学习在许多情况下非常有用,原因如下:
原始数据容易获得,但标注数据昂贵。我们缺的不是数据,而是带标签的数据。
降低存储/计算需求。
对高维数据进行降维处理。
对数据进行探索性分析。
数据可视化学习通常可作为监督学习的预处理步骤。
非监督学习步骤。
“Unsupervised learning will bring about the next AI revolution.” —— Yann LeCun
三、聚类
1、聚类的定义
聚类是一种数据分析方法,旨在发现数据中分组聚集的结构。根据数据中样本与样本之间的距离或相似度,将样本划分为若干组/类/簇(cluster)。
2、划分的原则
聚类的原则是:簇内样本相似,簇间样本不相似。
- Intra-cluster distances are minimized:簇内距离最小化。
- Inter-cluster distances are maximized:簇间距离最大化。
四、簇的概念并不明确
在实际应用中,簇的数量和定义可能并不明确。例如:
- 左上图:多少个簇?
- 右上图:6个簇。
- 左下图:2个簇。
- 右下图:4个簇。
五、聚类的类型
聚类的结果可以产生一个簇的集合。聚类可以分为以下几种类型:
1、基于划分的聚类(无嵌套)
- 将所有样本划分到若干不重叠的子集(簇),每个样本仅属于一个子集。
2、层次聚类(嵌套)
- 树形聚类结构,在不同层次对数据集进行划分,簇之间存在嵌套。
六、簇集合的其他区别
1、独占(Exclusive)vs. 非独占的(Non-exclusive)
- 在非独占的类簇中,样本点可以属于多个簇。
2、模糊(Fuzzy)vs. 非模糊的(Non-fuzzy)
- 在模糊聚类中,一个样本点以一定权重属于各个聚类簇。
- 权重和为1。
- 概率聚类有类似的特性。
3、部分(Partial)vs. 完备(Complete)
- 在一些场景,我们只聚类部分数据。
4、异质(Heterogeneous)vs. 同质(Homogeneous)
- 簇的大小、形状和密度是否有很大的差别。
七、簇的类型
- 基于中心的簇:以簇中心为基准进行聚类。
- 基于邻接的簇:基于样本之间的邻近关系进行聚类。
- 基于密度的簇:根据样本的密度进行聚类。
- 基于概念的簇:基于样本的语义或概念进行聚类。
八、基于中心的簇
1、定义
- 簇内的点与其“中心”较为相近(或相似),和其他簇的“中心”较远,这样的一组样本形成的簇。
- 簇的中心常用质心(centroid)表示,即簇内所有点的平均,或用中心点(medioid)表示,即簇内最有代表性的点。
九、基于连续性和基于密度的簇
1、基于连续性的簇
- 相比其他任何簇的点,每个点都至少和所属簇的某一个点更近。
2、基于密度的簇
- 簇是由高密度的区域形成的,簇之间是一些低密度的区域。
十、基于概念的簇
1、定义
- 基于概念的簇:同一个簇共享某种性质,这个性质是从整个结合推导出来的。
2、检测难度
- 基于概念的簇难检测,它通常不是:
- 基于中心
- 基于邻接
- 基于密度
十一、聚类的应用场景
1、图像分割
参考链接:CS/vision/grouping/resources.html
2、人类的种族分析
参考文章:Eran Elhaik et al. Nature https://www.nature.com/articles/ncomms4513
3、其他应用
- 用户画像:基于顾客消费历史对顾客聚类
- 商品分析:基于购买的用户对商品的聚类
- 文本分析:基于相似的词对文档聚类
- 计算生物学:基于编辑距离对DNA序列聚类
十二、聚类分析的“三要素”
1、要素一:如何定义样本点之间的“远近”
- 使用相似性/距离函数
2、要素二:如何获得聚类的簇
- 如何表示簇,如何设计划分和优化算法,算法何时停止
3、要素三:如何评价聚类出来的簇的质量
- 利用评价函数去评估聚类结果