Kmeans聚类算法详解与实现资源-CSDN下载

共12个文件

ini：4个

m：3个

py：2个

kmeans

需积分: 46 6 浏览量 2017-07-09 19:20:06 上传评论 10 收藏 392KB RAR 举报

资源详情

资源评论

资源推荐

收起资源包目录

Kmeans聚类算法详解与实现.rar （12个子文件）

Kmeans算法聚类详解与实现

Kmeans聚类算法.pdf 428KB

kmeans（python）

.spyproject

codestyle.ini 62B

encoding.ini 64B

vcs.ini 92B

workspace.ini 207B

test.py 557B

__pycache__

kmeans.cpython-36.pyc 2KB

data.txt 80B

kmeans.py 3KB

kmeans（matlab）

main.m 1KB

k_means.m 2KB

kmeans_test.m 2KB

Kmeans 聚类算法

动态聚类算法

任务：是将数据集划分成一定数量的子集，例如将一个数据集划分成 3、4 个子集等。因

此要划分成多少个子集往往要预先确定，或大致确定，当然这个子集数目在理想情况能体现

数据集比较合理的划分。

要解决的问题是: 1、怎样才能知道该数据集应该划分的子集数目?

2、如果划分数目已定，则又如何找到最佳划分?

因为数据集可以有许多种不同的划分方法，需要对不同的划分作出评价，并找到优化的

划分结果。由于优化过程是从不甚合理的划分到“最佳”划分，是一个动态的迭代过程，故

这种方法称为动态聚类方法。

动态聚类方法的要点

1. 选定某种距离度量作为样本间的相似性度量；

2. 确定样本合理的初始分类，包括代表点的选择，初始分类方法的选择等；

3. 确定某种评价聚类结果质量的准则函数，以调整初始分类直至达到该准则函数的极值。

以上三点是动态聚类方法的三个要素，其中初始划分只是为了使划分能从某个初始点开

始，而相似度量计算方法对解决实际问题很重要，先从最简单的度量——数据之间的欧氏距

离开始，然后再涉及其它相似性度量方法。第三个要素，即使用准则函数作为优化的评价是

动态聚类方法的核心。

K- Means 聚类算法

K- Means 是迭代动态聚类算法中的一种，其中 K 表示类别数，Means 表示均值。

顾名思义 K-Means 是一种通过均值对数据点进行聚类的算法。K-Means 算法通过预先设

定的 K 值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获

得最优的聚类结果。

K- Means 算法的关键问题

K 值的选择

K 值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K 值决定

了初始质心的数量。K 值为几，就要有几个质心。

选择最优 K 值没有固定的公式或方法，需要人工来指定，建议根据实际的业务需求，或

通过层次聚类(Hierarchical Clustering)的方法获得数据的类别数量作为选择 K 值的参考。这里

需要注意的是选择较大的 K 值可以降低数据的误差，但会增加过拟合的风险。

初始质心(代表点)的选择方法

1. 凭经验选择代表点。根据问题的性质，用经验的办法确定类别数，从数据中找出从

直观上看来是较合适的代表点。

2. 将全部数据随机地分为 C 类，计算各类重心，将这些重心作为每类的代表点。

3. “密度”法选择代表点。这里的“密度”是具有统计性质的样本密度。一种求法是

对每个样本确定大小相等的邻域(如同样半径的超球体)，统计落在其邻域的样本数，称为该

点“密度”。在得到样本“密度”后，选“密度”为最大的样本点作为第一个代表点，然后

人为规定距该代表点距离外的区域内找次高“密度”的样本点作为第二个代表点，依次选择

其它代表点，使用这种方法的目的是避免代表点过分集中在一起。

4. 从(c-1)聚类划分问题的解中产生 C 聚类划分问题的代表点。其具体做法是先从一类

聚类的解找两聚类划分的代表点，再依次增加一个聚类代表点。对样本集首先看作一个聚类，

计算其总均值，然后找与该均值相距最远的点，由该点及原均值点构成两聚类的代表点。依

同样方法，对已有(c-1)个聚类代表点(由(c-1)个类均值点组成)找一样本点，使该样本点距所

有这些均值点的最小距离为最大，这样就得到了第 c 个代表点。

确定初始划分的方法

1. 对选定的代表点按距离最近的原则将样本划属各代表点代表的类别。

2. 在选择样本的点集后，将样本按顺序划归距离最近的代表点所属类，并立即修改代

表点参数，用样本归入后的重心代替原代表点，因此代表点在初始划分过程中作了修改。

3. 一种既选择了代表点又同时确定了初始划分的方法。规定一个正整数ε，选择

 

wy

，计算样本 y2 与 y1 之间的距离

 

,yy



，如果小于ε，则将 y2 归入 w1，否则

建立新类

 

wy

。当某一轮轮到 yl 归入时，假设当时已形成 k 个类，

 

, , ,

w w w

，

而每个类第一个归入的样本记作

 

1 1 1

, , ,

y y y

。若

 

, , 1,2, ,

y y i k





，则将 yl

建立为新的第 k+1 类，即

 

1kl





，否则将 yl 归入与

 

1 1 1

, , ,

y y y

距离最近的一类。

4. 先将数据标准化，yij 表示标准化后的第 i 个样本的第 j 个坐标。令：

 

SUM i y





 

max

MA SUM i

 

min

MI SUM i

若欲将样本划分为 c 类，则对每个样本 i 计算：

   

 

c SUM i MI

MA MI











假设与这个计算值最接近的整数位 k，则将 yi 归入第 k 类。

准则函数—误差平方和准则

这个准则函数是以计算各类均值 mi，与计算各类样本到其所属类均值点误差平方和为

准则，若各类均值表示成：







其中第 i 类集合为 ci，其样本数目为 Ni。

此时误差平方和准则可表示成：

i y ci

J y m







其含义是各类样本与其所属样本均值间误差平方之总和。对于样本集的不同分类，导致

不同的样本子集 ci 及其均值从而得到不同的 Je 值而最佳的聚类是使 Je 为最小的分类。

评论收藏

内容反馈

知行流浪

粉丝: 2561

Kmeans聚类算法详解与实现

评论0

最新资源

Kmeans聚类算法详解与实现

评论0

K-Means聚类算法及实现代码

k-means算法详解

详解Java实现的k-means聚类算法

K-means聚类算法

k—means聚类算法

K-means聚类算法的实现 源码+详细步骤

k-means聚类算法的matlab实现

Python实现K-means聚类算法

k-means算法实例

python中实现k-means聚类算法详解

k-means聚类分析

多维k-means聚类算法java实现，导入直接运行

k-means 聚类

K-means聚类算法介绍与利用python实现的代码示例

kmeans聚类案例

java实现k-means算法

KMEANS 聚类算法

奇偶排序算法的并行实现

java实现的KMeans聚类算法

K-means聚类算法java实现（有界面）

sklearn中kmeans聚类算法解析及应用

kmeans聚类算法概念及举例分析

Python实现的KMeans聚类算法实例分析

K-means聚类算法源代码

K-Means聚类算法 Matlab代码

k-means聚类matlab代码

Kmeans.zip(K聚类算法源代码)

面向对象的思考

启动vue 浏览器页面一直亮vue图标不加载

最新资源

K-means聚类算法的实现源码+详细步骤