模糊C均值问题的新型初始化算法
立即解锁
发布时间: 2025-08-22 01:01:20 阅读量: 1 订阅数: 6 


计算模型理论与应用进展
# 模糊C均值问题的新型初始化算法
## 1. 引言
数据聚类是一个经典问题,在机器学习、模式识别、设施选址等众多领域都有应用。在不同的聚类模型中,k - 均值问题是应用最广泛的模型之一。给定整数 k 和一组 n 个数据点,k - 均值问题的目标是选择 k 个中心,以使每个点与其最近中心之间的平方距离之和最小。数据样本随后可根据它们到中心的距离分配到 k 个聚类中。该问题已被证明是 NP 难问题。
Lloyd 方法是解决 k - 均值问题的一种启发式算法,因其易于实现和速度快而被广泛使用。它从数据点中随机选择 k 个中心开始,将每个点分配到最近的中心,然后将每个中心重新计算为分配给它的所有点的质心,重复这两个步骤直到过程稳定。为了提高 Lloyd 方法的准确性,提出了 k - 均值++算法,该算法被证明与最优聚类具有 O(log k)的竞争力。
然而,在许多实际应用中,不同类别之间没有严格的界限,一个对象可能在不同程度上属于多个聚类。在这种情况下,软聚类策略比硬聚类更自然。例如,在一个地区规划 k 个超市的位置时,如果假设人们只去最近的超市,那么超市的位置可以建模为 k - 均值问题;但实际上,人们的选择会受到多种因素影响,这就导致了模糊 C 均值模型。
模糊 C 均值问题为每个对象定义了与每个代表之间的隶属度(介于 0 和 1 之间),以描述它们之间的接近程度。它可以看作是 k - 均值问题的推广,在 k - 均值问题中,隶属度要么是 0 要么是 1。当 k 固定时,有研究者提出了模糊 C 均值问题的多项式时间近似方案(PTAS)。
2015 年,提出了模糊 C 均值++算法(FCM++)来解决模糊 C 均值问题,它利用了 k - 均值++的播种策略来提高经典算法的有效性和速度。数值实验表明,该算法显著改善了计算时间和最终成本函数值,但对 FCM++的理论分析尚未解决。
## 2. 模糊 C 均值问题基础
### 2.1 问题定义
给定集合 \(X = \{x_1, x_2, \ldots, x_n\}\) 和 \(C = \{c_1, c_2, \ldots, c_k\}\) 在 \(R^d\) 中,\(\mu_{ij} \in [0, 1]\)(\(i = 1, 2, \ldots, n\);\(j = 1, 2, \ldots, k\))且 \(\sum_{j = 1}^{k} \mu_{ij} = 1\) 对于 \(i = 1, 2, \ldots, n\),以及 \(m \geq 2\),可以定义 \(X\) 相对于 \(C\) 的损失函数或势函数为:
\(\varphi(X, C, m) = \sum_{i = 1}^{n} \sum_{j = 1}^{k} \mu_{ij}^{m} \|x_i - c_j\|^2\)
通常,称 \(m\) 为模糊化参数,\(\mu = (\mu_{ij})_{n \times k}\) 为隶属度。模糊 C 均值问题就是找到一个聚类 \(C\) 和隶属度 \(\mu\),使损失函数 \(\varphi(X, C, m)\) 最小化。用 \((C^*(m), \mu^*(m))\) 表示最优解,\(\varphi^*(m)\) 表示相应的目标值。当 \(m = 1\) 时,模糊 C 均值问题简化为 k - 均值问题。
### 2.2 示例
考虑集合 \(X = \{0.0153, 0.7353, 0.4143, 0.2110\} \subseteq R\) 和 \(k = 2\)。该问题的 k - 均值最优解是 \(\{0.5748, 0.1132\}\),而对于模糊 C 均值问题,\(\{0.5748, 0.1132\}\) 的目标值是 0.0624,存在更好的中心集 \(\{0.1414, 0.6533\}\),其势函数值为 0.058955。这表明在相同数据集下,k - 均值和模糊 C 均值问题的最优中心可能不同。
### 2.3 后续假设
在后续讨论中,假设 \(m = 2\),损失函数定义为:
\(\varphi(X, C) = \varphi(X, C, 2) = \sum_{i = 1}^{n} \sum_{j = 1}^{k} \mu_{ij}^{2} \|x_i - c_j\|^2\)
用 \((C^*, \mu^*)\) 表示最优解,\(\varphi^*\) 表示相应的目标值。给定集合 \(A \subseteq X\),定义:
\(\varphi(A, C) = \sum_{x_i \in A} \sum_{j = 1}^{k} \mu_{ij}^{2} \|x_i - c_j\|^2\)
\(\varphi^*(A) = \sum_{x_i \in A} \sum_{c_j \in C^*} \mu_{ij}^{*2} \|x_i - c_j^*\|^2\)
特别地,当 \(A = \{a\}\) 时,用 \(\varphi(a, C)\) 表示 \(A\) 相对于 \(C\) 的损失函数。
### 2.4 最优隶属度和中心计算
给定任何集合 \(C = \{c_1, c_2, \ldots, c_k\}\),可以得到最优隶属度为:
\(\mu_{ij} = \frac{1}{\sum_{l = 1}^{k} (\frac{\|x_i - c_j\|}{\|x_i - c_l\|})^2}, i = 1, 2, \ldots, n; j = 1, 2, \ldots, k\)
任何点 \(x_i \in X\) 不考虑隶属度的损失函数为:
\(\varphi(x_i, C) = \sum_{j = 1}^{k} \mu_{ij}^{2} \|x_i - c_j\|^2 = \frac{1}{\sum_{l = 1}^{k} \frac{1}{\|x_i - c_l\|^2}}\)
反之,给定任何 \(\mu\) 且 \(\sum_{j = 1}^{k} \mu_{ij} = 1\),\(i = 1, 2, \ldots, n\),可以得到对应于 \(\mu\) 的最优中心点为:
\(c_j = \frac{\sum_{i = 1}^{n} \mu_{ij}^{2} x_i}{\sum_{i = 1}^{n} \mu_{ij}^{2}}, j = 1, 2, \ldots, k\)
## 3. 播种算法及主要结果
### 3.1 算法介绍
这里主要介绍基于 FCM 算法的模糊 C 均值问题的播种算法。FCM 算法在每次迭代中更新聚类中心和隶属度,直到聚类或隶属度不再变化。
#### 3.1.1 FCM 算法
```plaintext
算法 1. FCM 模糊 C 均值算法
输入: 一组 n 个数据点 \(X = \{x_i\}_{i = 1}^{n}\),聚类数 k
```
0
0
复制全文
相关推荐









