基于LLA方法的对象或类别比较及相似性指标分析
立即解锁
发布时间: 2025-08-23 02:06:30 阅读量: 2 订阅数: 11 


组合与统计数据分析及聚类的基础与方法
### 基于LLA方法的对象或类别比较及相似性指标分析
在数据分析和分类问题中,比较对象或类别以及计算它们之间的相似性是非常重要的任务。本文将介绍基于LLA方法的对象或类别比较,以及几种不同类型的相似性指标。
#### 1. 二元属性下的相关计算
引入 $\varphi = 2f_1f_2$ 后,有如下公式:
$M_1 = \varphi p + (1 - \varphi)q$
$M_2 = \varphi p^2 + (1 - \varphi)q^2$
此时,方差等于 $\varphi(1 - \varphi)(q - p)^2$。对于 $p$ 和 $q$ 值的归一化贡献分别为:
- $-\sqrt{\frac{1 - \varphi}{\varphi}}$
- $\sqrt{\frac{\varphi}{1 - \varphi}}$
值得注意的是,这些归一化贡献不依赖于 $p$ 和 $q$ 的值,这是一个自然且合适的性质,因为由二元属性描述的对象之间的相似性不应依赖于为该二分法的两个值分配的数值估值。
$\varphi$ 的取值范围是区间 $[0, 0.5]$,当 $f_1 = f_2 = 0.5$ 时达到值 $0.5$。上述第一个(分别对应第二个)项中 $\varphi$ 的函数,当 $\varphi$ 从 $0$ 变化到 $0.5$ 时,会增加(分别对应减少)。当 $\varphi = 0.5$ 时,可获得最大对立,此时相应的值分别等于 $-1$ 和 $+1$。
以二元属性为例,若专家认为一个给定类别与其自身的相似性对于两个类别并不相同,比如认为类别 2 与其自身的相似性强于类别 1 与其自身的相似性,那么预序关系可建立为:$(1, 2) < (1, 1) < (2, 2)$。
#### 2. 分类共识问题的解决:基于分类属性的对象相似性指标
分类属性被解释和表示为一种预序分类属性,其值集由分类法的叶集 $T$ 定义。这种预序在 $T$ 上的建立方式具有超度量性,每个内部节点 $\nu$ 对应一个叶簇。
分类法的每个节点(包括根节点和叶节点)都被分配一个整数级别索引,根索引为 1,给定节点的索引是 1 加上从根到该节点的后代分支数。分类法的深度是从根到叶的最大后代分支数,若用 $k - 1$ 表示该值,那么 $k$ 就是该分类法中叶的最大索引。
分类属性可以用有序的分区序列 $P = (P_0, P_1, \cdots, P_{h - 1}, P_h, \cdots, P_{k - 1})$ 来表示。$P_0$ 是最细的分区,其类是单例,每个类恰好包含类别集中的一个元素;$P_{k - 1}$ 是最粗的分区,恰好包含一个将整个类别集分组的类。
对于有序类别对集合 $K_2 = \{(g, h)|1 \leq g \leq h \leq K\}$ 的总预序类序列 $L = (L_1, L_2, \cdots, L_q, \cdots, L_r)$ 的构建方式如下:
- 如果 $C_{k - 2}$ 和 $D_{k - 2}$ 是分区 $P_{k - 2}$ 的两个类,它们在只有一个类的分区 $P_{k - 1}$ 中合并,那么每个满足 $g \leq h$ 的有序对 $(g, h)$(其中 $g \in C_{k - 2}$ 且 $h \in D_{k - 2}$ 或 $g \in D_{k - 2}$ 且 $h \in C_{k - 2}$)被分配到第一个预序类 $L_1$。
- 类似地,如果 $C_{k - 3}$ 和 $D_{k - 3}$ 是分区 $P_{k - 3}$ 的两个类,它们在分区 $P_{k - 2}$ 的一个类中合并,那么每个满足 $g \leq h$ 的有序对 $(g, h)$(其中 $g \in C_{k - 3}$ 且 $h \in D_{k - 3}$ 或 $g \in D_{k - 3}$ 且 $h \in C_{k - 3}$)被分配到第二个预序类 $L_2$。
- 更一般地,$L_h$ 是由分区 $P_{k - h - 1}$ 到 $P_{k - h}$ 之间合并的类产生的,$1 \leq h \leq k - 1$。最后一个预序类 $L_r$(这里 $r = k$)由形式为 $(g, g)$ 的有序对组成,$1 \leq g \leq K$。
与分类属性相关的类别集上的超度量预序通过平均排名函数进行编码。比较由分类属性描述的对象,就相当于比较由预序属性描述的对象。
设 $o_i$ 和 $o_{i'}$ 是要根据分类属性 $\tau$ 进行比较的两个对象,原始相似性索引可以写成 $s(o_i, o_{i'}) = r(\tau(o_i), \tau(o_{i'}))$。设 $e$ 和 $g$ 分别是 $o_i$ 和 $o_{i'}$ 所拥有的类别,且 $e \leq g$。如果 $(e, g)$ 属于 $L_h$,$1 \leq h \leq k - 1$,则有:
$r(e, g) = \sum_{1 \leq j < h} l_j + \frac{l_h + 1}{2}$
对于 $l_h = card(L_h)$,$1 \leq h \leq k - 1$,可以通过将分区类型的概念推广到有序分区序列的类型来得到其数学公式。
基于分类属性的LLA层次聚类为分类共识问题提供了一个简单而有效的解决方案。给定有限对象集 $O$ 上的有限个层次分类树 $H_1, H_2, \cdots, H_j, \cdots, H_p$,问题在于将它们总结为一个单一的层次分类树 $H$,该树需要相对于不同的初始树进行定位。
在我们提出的解决方案中,将每个分类树 $H_j$ 解释为一个特定的分类分类属性,从而将对象之间的LLA相似性索引的构建归结为之前的处理方法。唯一的区别是,树的叶子与单例类别相关联,每个类别包含一个唯一的对象。
当在不同日期 $t_1, t_2, \cdots, t_j, \cdots, t_p$ 对给定对象集 $O$ 观察给定属性集 $A$ 时,会出现实际问题。对于每个日期 $t_j$,会构建一个由 $O \times A(j)$ 索引的数据表,通过固定的层次聚类方法得到一个层次分类树 $H_j$。如果序列 $(H_1, H_2, \cdots, H_j, \cdots, H_p)$ 对应一个稳定的演化期,那么将该序列的不同分类树总结为一个唯一的树是有意义的,这个唯一的树定义了不同 $H_j$ 之间的共识。
另一种解决该问题的替代方法是建立一个全局数据表,它是通过将不同的数据表水平并列得到的。新的数据表由 $O \times \bigcup_{1 \leq j \leq p} A(j)$ 索引。在这种情况下,可以根据上述一般原则构建 $O$ 上的相似性索引,即全局数据表列索引的不同描述属性的归一化贡献之和。总共有 $p \times card(A)$ 个属性,如果 $a$ 是 $A$ 的一个给定属性,“在日期 $t_j$ 的 $a$
0
0
复制全文
相关推荐










