聚类(Clustering)基础知识1

一、监督学习 vs. 非监督学习

1、监督学习

监督学习是一种机器学习方法,其中模型从标记的训练数据中学习输入 x x x与输出 y y y之间的关系,即 y = f ( x ) y = f(x) y=f(x)。它可以分为以下几种类型:

  • 分类 y y y是类别标签。
  • 回归 y y y是连续值。
  • 排序 y y y是有序的数值。

2、非监督学习

非监督学习是一种机器学习方法,其中模型从未标记的数据中寻找数据的内在结构,即 z = f ( x ) z = f(x) z=f(x)。它包括以下几种类型:

  • 概率密度估计 z z z x x x附近的概率密度。
  • 聚类 z z z x x x对应的簇的标号。
  • 降维/可视化 z z z x x x的低维表示。

二、 为什么要非监督学习?

非监督学习在许多情况下非常有用,原因如下:

  原始数据容易获得,但标注数据昂贵。我们缺的不是数据,而是带标签的数据。

  降低存储/计算需求。

  对高维数据进行降维处理。

  对数据进行探索性分析。

  数据可视化学习通常可作为监督学习的预处理步骤。

  非监督学习步骤。

“Unsupervised learning will bring about the next AI revolution.” —— Yann LeCun


三、聚类

1、聚类的定义

聚类是一种数据分析方法,旨在发现数据中分组聚集的结构。根据数据中样本与样本之间的距离相似度,将样本划分为若干组/类/簇(cluster)。

2、划分的原则

聚类的原则是:簇内样本相似,簇间样本不相似。

  • Intra-cluster distances are minimized:簇内距离最小化。
  • Inter-cluster distances are maximized:簇间距离最大化。

在这里插入图片描述


四、簇的概念并不明确

在实际应用中,簇的数量和定义可能并不明确。例如:
在这里插入图片描述

  • 左上图:多少个簇?
  • 右上图:6个簇。
  • 左下图:2个簇。
  • 右下图:4个簇。

五、聚类的类型

聚类的结果可以产生一个簇的集合。聚类可以分为以下几种类型:

1、基于划分的聚类(无嵌套)

  • 将所有样本划分到若干不重叠的子集(簇),每个样本仅属于一个子集。
    在这里插入图片描述

2、层次聚类(嵌套)

  • 树形聚类结构,在不同层次对数据集进行划分,簇之间存在嵌套。
    在这里插入图片描述

六、簇集合的其他区别

1、独占(Exclusive)vs. 非独占的(Non-exclusive)

  • 在非独占的类簇中,样本点可以属于多个簇。

2、模糊(Fuzzy)vs. 非模糊的(Non-fuzzy)

  • 在模糊聚类中,一个样本点以一定权重属于各个聚类簇。
  • 权重和为1。
  • 概率聚类有类似的特性。

3、部分(Partial)vs. 完备(Complete)

  • 在一些场景,我们只聚类部分数据。

4、异质(Heterogeneous)vs. 同质(Homogeneous)

  • 簇的大小、形状和密度是否有很大的差别。

七、簇的类型

  • 基于中心的簇:以簇中心为基准进行聚类。
  • 基于邻接的簇:基于样本之间的邻近关系进行聚类。
  • 基于密度的簇:根据样本的密度进行聚类。
  • 基于概念的簇:基于样本的语义或概念进行聚类。

八、基于中心的簇

1、定义

  • 簇内的点与其“中心”较为相近(或相似),和其他簇的“中心”较远,这样的一组样本形成的簇。
  • 簇的中心常用质心(centroid)表示,即簇内所有点的平均,或用中心点(medioid)表示,即簇内最有代表性的点。
    在这里插入图片描述

九、基于连续性和基于密度的簇

1、基于连续性的簇

  • 相比其他任何簇的点,每个点都至少和所属簇的某一个点更近。
    在这里插入图片描述

2、基于密度的簇

  • 簇是由高密度的区域形成的,簇之间是一些低密度的区域。
    在这里插入图片描述

十、基于概念的簇

1、定义

  • 基于概念的簇:同一个簇共享某种性质,这个性质是从整个结合推导出来的。
    在这里插入图片描述

2、检测难度

  • 基于概念的簇难检测,它通常不是:
    • 基于中心
    • 基于邻接
    • 基于密度

十一、聚类的应用场景

1、图像分割

在这里插入图片描述

参考链接:CS/vision/grouping/resources.html

2、人类的种族分析

在这里插入图片描述
在这里插入图片描述

参考文章:Eran Elhaik et al. Nature https://www.nature.com/articles/ncomms4513

3、其他应用

  • 用户画像:基于顾客消费历史对顾客聚类
  • 商品分析:基于购买的用户对商品的聚类
  • 文本分析:基于相似的词对文档聚类
  • 计算生物学:基于编辑距离对DNA序列聚类
    在这里插入图片描述

十二、聚类分析的“三要素”

1、要素一:如何定义样本点之间的“远近”

  • 使用相似性/距离函数

2、要素二:如何获得聚类的簇

  • 如何表示簇,如何设计划分和优化算法,算法何时停止

3、要素三:如何评价聚类出来的簇的质量

  • 利用评价函数去评估聚类结果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码骑士

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值