基于LLA方法的对象或类别比较及相似性指标分析

立即解锁

发布时间: 2025-08-23 02:06:30 阅读量: 2 订阅数: 11

组合与统计数据分析及聚类的基础与方法

### 基于LLA方法的对象或类别比较及相似性指标分析在数据分析和分类问题中，比较对象或类别以及计算它们之间的相似性是非常重要的任务。本文将介绍基于LLA方法的对象或类别比较，以及几种不同类型的相似性指标。 #### 1. 二元属性下的相关计算引入 $\varphi = 2f_1f_2$ 后，有如下公式： $M_1 = \varphi p + (1 - \varphi)q$ $M_2 = \varphi p^2 + (1 - \varphi)q^2$ 此时，方差等于 $\varphi(1 - \varphi)(q - p)^2$。对于 $p$ 和 $q$ 值的归一化贡献分别为： - $-\sqrt{\frac{1 - \varphi}{\varphi}}$ - $\sqrt{\frac{\varphi}{1 - \varphi}}$ 值得注意的是，这些归一化贡献不依赖于 $p$ 和 $q$ 的值，这是一个自然且合适的性质，因为由二元属性描述的对象之间的相似性不应依赖于为该二分法的两个值分配的数值估值。 $\varphi$ 的取值范围是区间 $[0, 0.5]$，当 $f_1 = f_2 = 0.5$ 时达到值 $0.5$。上述第一个（分别对应第二个）项中 $\varphi$ 的函数，当 $\varphi$ 从 $0$ 变化到 $0.5$ 时，会增加（分别对应减少）。当 $\varphi = 0.5$ 时，可获得最大对立，此时相应的值分别等于 $-1$ 和 $+1$。以二元属性为例，若专家认为一个给定类别与其自身的相似性对于两个类别并不相同，比如认为类别 2 与其自身的相似性强于类别 1 与其自身的相似性，那么预序关系可建立为：$(1, 2) < (1, 1) < (2, 2)$。 #### 2. 分类共识问题的解决：基于分类属性的对象相似性指标分类属性被解释和表示为一种预序分类属性，其值集由分类法的叶集 $T$ 定义。这种预序在 $T$ 上的建立方式具有超度量性，每个内部节点 $\nu$ 对应一个叶簇。分类法的每个节点（包括根节点和叶节点）都被分配一个整数级别索引，根索引为 1，给定节点的索引是 1 加上从根到该节点的后代分支数。分类法的深度是从根到叶的最大后代分支数，若用 $k - 1$ 表示该值，那么 $k$ 就是该分类法中叶的最大索引。分类属性可以用有序的分区序列 $P = (P_0, P_1, \cdots, P_{h - 1}, P_h, \cdots, P_{k - 1})$ 来表示。$P_0$ 是最细的分区，其类是单例，每个类恰好包含类别集中的一个元素；$P_{k - 1}$ 是最粗的分区，恰好包含一个将整个类别集分组的类。对于有序类别对集合 $K_2 = \{(g, h)|1 \leq g \leq h \leq K\}$ 的总预序类序列 $L = (L_1, L_2, \cdots, L_q, \cdots, L_r)$ 的构建方式如下： - 如果 $C_{k - 2}$ 和 $D_{k - 2}$ 是分区 $P_{k - 2}$ 的两个类，它们在只有一个类的分区 $P_{k - 1}$ 中合并，那么每个满足 $g \leq h$ 的有序对 $(g, h)$（其中 $g \in C_{k - 2}$ 且 $h \in D_{k - 2}$ 或 $g \in D_{k - 2}$ 且 $h \in C_{k - 2}$）被分配到第一个预序类 $L_1$。 - 类似地，如果 $C_{k - 3}$ 和 $D_{k - 3}$ 是分区 $P_{k - 3}$ 的两个类，它们在分区 $P_{k - 2}$ 的一个类中合并，那么每个满足 $g \leq h$ 的有序对 $(g, h)$（其中 $g \in C_{k - 3}$ 且 $h \in D_{k - 3}$ 或 $g \in D_{k - 3}$ 且 $h \in C_{k - 3}$）被分配到第二个预序类 $L_2$。 - 更一般地，$L_h$ 是由分区 $P_{k - h - 1}$ 到 $P_{k - h}$ 之间合并的类产生的，$1 \leq h \leq k - 1$。最后一个预序类 $L_r$（这里 $r = k$）由形式为 $(g, g)$ 的有序对组成，$1 \leq g \leq K$。与分类属性相关的类别集上的超度量预序通过平均排名函数进行编码。比较由分类属性描述的对象，就相当于比较由预序属性描述的对象。设 $o_i$ 和 $o_{i'}$ 是要根据分类属性 $\tau$ 进行比较的两个对象，原始相似性索引可以写成 $s(o_i, o_{i'}) = r(\tau(o_i), \tau(o_{i'}))$。设 $e$ 和 $g$ 分别是 $o_i$ 和 $o_{i'}$ 所拥有的类别，且 $e \leq g$。如果 $(e, g)$ 属于 $L_h$，$1 \leq h \leq k - 1$，则有： $r(e, g) = \sum_{1 \leq j < h} l_j + \frac{l_h + 1}{2}$ 对于 $l_h = card(L_h)$，$1 \leq h \leq k - 1$，可以通过将分区类型的概念推广到有序分区序列的类型来得到其数学公式。基于分类属性的LLA层次聚类为分类共识问题提供了一个简单而有效的解决方案。给定有限对象集 $O$ 上的有限个层次分类树 $H_1, H_2, \cdots, H_j, \cdots, H_p$，问题在于将它们总结为一个单一的层次分类树 $H$，该树需要相对于不同的初始树进行定位。在我们提出的解决方案中，将每个分类树 $H_j$ 解释为一个特定的分类分类属性，从而将对象之间的LLA相似性索引的构建归结为之前的处理方法。唯一的区别是，树的叶子与单例类别相关联，每个类别包含一个唯一的对象。当在不同日期 $t_1, t_2, \cdots, t_j, \cdots, t_p$ 对给定对象集 $O$ 观察给定属性集 $A$ 时，会出现实际问题。对于每个日期 $t_j$，会构建一个由 $O \times A(j)$ 索引的数据表，通过固定的层次聚类方法得到一个层次分类树 $H_j$。如果序列 $(H_1, H_2, \cdots, H_j, \cdots, H_p)$ 对应一个稳定的演化期，那么将该序列的不同分类树总结为一个唯一的树是有意义的，这个唯一的树定义了不同 $H_j$ 之间的共识。另一种解决该问题的替代方法是建立一个全局数据表，它是通过将不同的数据表水平并列得到的。新的数据表由 $O \times \bigcup_{1 \leq j \leq p} A(j)$ 索引。在这种情况下，可以根据上述一般原则构建 $O$ 上的相似性索引，即全局数据表列索引的不同描述属性的归一化贡献之和。总共有 $p \times card(A)$ 个属性，如果 $a$ 是 $A$ 的一个给定属性，“在日期 $t_j$ 的 $a$

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于LLA方法的对象或类别比较及相似性指标分析

相关推荐

专栏目录

基于LLA方法的对象或类别比较及相似性指标分析

相关推荐

【无人机光电侦察】基于坐标系转换与误差分析的运动目标速度测量方法研究：无人机平台运动目标测速系统设计与精度优化（论文复现含详细代码及解释）

ECEF2LLA坐标转换

基于LLA方法的对象或类别比较

基于LLA方法的真实数据聚类分析与CHAVL软件应用

基于属性描述的对象或类别比较方法解析

蛋白质序列比较中的Dayhoff、Henikoffs和LLA矩阵

基于概率和统计关联的属性比较方法

组合与统计数据分析：聚类方法的全面解析

类别集合描述中的属性表示

数据分类中的相似度指标与自然类概念解析

C++数据结构算法

基于LabVIEW的双通道波形发生器：多波形生成与同步显示技术及其应用

专栏目录

最新推荐

从近似程度推导近似秩下界

区块链集成供应链与医疗数据管理系统的优化研究

量子物理相关资源与概念解析

使用GameKit创建多人游戏

黎曼zeta函数与高斯乘性混沌

元宇宙与AR/VR在特殊教育中的应用及安全隐私问题

利用GeoGebra增强现实技术学习抛物面知识

探索人体与科技融合的前沿：从可穿戴设备到脑机接口

由于提供的内容仅为“以下”，没有具体的英文内容可供翻译和缩写创作博客，请你提供第38章的英文具体内容，以便我按照要求完成博客创作。

人工智能与混合现实技术在灾害预防中的应用与挑战