非对称邻近性的图形分析与聚类:以2021年欧洲歌唱大赛数据为例
立即解锁
发布时间: 2025-08-23 01:52:49 阅读量: 4 订阅数: 9 


行为度量学:定量方法研究人类行为
### 非对称邻近性的图形分析与聚类:以2021年欧洲歌唱大赛数据为例
在数据处理和分析中,非对称邻近性数据的处理是一个具有挑战性但又十分重要的领域。本文将介绍一种针对非对称邻近性数据的分析方法,包括对称和斜对称成分的分离图形表示、聚类模型,以及通过2021年欧洲歌唱大赛数据的实际应用来展示这些方法的有效性。
#### 1. 对称与斜对称的分离图形表示
对于任何方阵 $\Omega$,可以将其分解为对称成分 $M$ 和斜对称成分 $N$,即 $\Omega = M + N$。其中,$M = [m_{ij}]$,$m_{ij} = (\omega_{ij} + \omega_{ji})/2$;$N = (n_{ij})$,$n_{ij} = (\omega_{ij} - \omega_{ji})/2$。且 $M = M'$($m_{ij} = m_{ji}$),$N = -N'$($n_{ij} = -n_{ji}$)。
##### 1.1 对称成分的表示
对称成分 $M$ 可以使用多维尺度分析(Multidimensional Scaling,MDS)通过距离模型来表示。当邻近性在 $r$ 维中近似时,常用的距离模型为:
\[
f(m_{ij}) = \hat{d}_{ij} = d_{ij}(x_i, x_j) + e_{ij} = \sqrt{\sum_{s=1}^{r}(x_{is} - x_{js})^2} + e_{ij}
\]
其中,$f$ 是一个单调变换,将邻近性 $\omega_{ij}$ 映射到一组变换值 $\tilde{d}_{ij} = f(m_{ij})$,称为差异或伪距离;$x_{is}$ 和 $x_{js}$ 分别是行(列)$i$ 和行(列)$j$ 在维度 $s$ 上的坐标,且满足对称性质($d_{ij} = d_{ji}$)。该模型可以使用标准统计软件中用于对称多维尺度分析的例程轻松估计。
##### 1.2 斜对称成分的表示
斜对称矩阵 $N$ 中的每个元素 $n_{ij}$ 包含两个类型的信息:斜对称的大小(或幅度)和符号(或方向性),可以表示为 $n_{ij} = sign(n_{ij})|n_{ij}|$。这里提出一种易于实现的两步方法来表示斜对称成分:
- **步骤1**:斜对称的大小 $|n_{ij}|$ 是对称的,因此矩阵 $T = [t_{ij}] = (|n_{ij}|)$ 可以被视为一个标准的相异矩阵,可以在低维(通常是二维)欧几里得空间中通过上述距离模型(将 $m_{ij}$ 替换为 $t_{ij}$)进行近似。得到的地图中,斜对称的大小 $t_{ij}$ 由距离 $d_{ij}$ 近似(距离越大,大小越大)。
- **步骤2**:斜对称的符号 $sign(n_{ij})$ 收集到矩阵 $K_{sign} = [k_{sign}^{ij}] = (sign(n_{ij}))$ 中,可以通过漂移向量方法表示。在步骤1得到的配置中,从任何点 $i$ 向任何其他点 $j$ 绘制箭头,其长度和方向对应于斜对称矩阵 $K_{sign}$ 中第 $i$ 行的值。当邻近矩阵的行数较大时,可以只绘制每个点的箭头束的平均向量(漂移向量)。
#### 2. 对称与斜对称的聚类模型
对于非对称数据的聚类,主要目标是识别不仅在平均数量上相似,而且在观察到的交换方向上也相似的实体组,从而发现“起源”和“目的地”组。这里介绍一种非层次方法,通过将两个聚类结构分别拟合到观察数据的对称成分 $M$ 和斜对称成分 $N$ 来建模未知实体组之间的交换。
具体来说,寻找 $n$ 个实体在 $k$ 个组中的两个划分来近似 $M$ 和 $N$:
\[
M = UC(1_{nk} - U)' + (1_{nk} - U)CU' + E_M
\]
\[
N = VD(1_{nk} - V)' - (1_{nk} - V)DV' + E_N
\]
其中,$1_{nk}$ 表示 $(n \times k)$ 的全1矩阵,$C$ 和 $D$ 是大小为 $k$ 的对角权重矩阵,$U$ 和 $V$ 是两个 $(n \times k)$ 的成员矩阵,分别标识两个划分。成员矩阵 $U$ 是二进制的,表示 $n$ 个实体到 $k$ 个组的标准完整划分;而二进制成员矩阵 $V$ 允许部分行为零向量,表示相应的实体未分配到任何组(不完整划分)。
当将上述两个方程组合在一起时,观察到的非对称数据的聚类模型为:
\[
\Omega = M + N = [UC(1_{nk} - U)' + (1_{nk} - U)CU'] + [VD(1_{nk} - V)' - (1_{nk} - V)DV'] + b(1_{nn} - I_n) + E
\]
约束条件为:
- $u_{ij} \in \{0, 1\}$,$\sum_{j=1}^{k}u_{ij} = 1$,$(i = 1, \ldots, n)$
- $v_{ij} \in \{0, 1\}$,$\sum_{j=1}^{k}v_{ij} \leq 1$,$(i = 1, \ldots, n)$
- $1'_nVD1_k = 0$
该模型在最小二乘框架下进行拟合,使用ALS算法。从估计中可以得到以下信息:
- 常数 $b$ 表示无论任何聚类的基线平均交换量。
- 对角矩阵 $C$ 中的权重 $c_j$ 衡量组 $U_j$ 与任何其他组之间的平均交换量;对角矩阵 $D$ 中的权重 $d_j$ 是组 $V_j$ 中所有实体指向不同组中所有其他实体的加权平均不平衡。根据权重的符号,可以将任何组定性为“起源”或“目的地”组。
- 未在 $V$ 中分配的实体对应于观察到的 $\Omega$ 中具有(几乎)对称值的实体。
#### 3. 欧洲歌唱大赛数据应用
为了说明上述方法的有效性,对2021年欧洲歌唱大赛的数据进行了分析。最初有39个国家参加比赛,经过两轮半决赛后,20个国家(歌曲)进入决赛,加上六个创始国家,共有26个国家参加决赛,所有39个参赛国家都有资格投票(专业评审团和电视投票)。这里仅考虑决赛的详细电视投票结果进行分析。
##### 3.1 数据预处理
原始相似度矩阵包含国家 $j$ 对参赛者 $i$ 的电视投票得分 $\omega_{ij}$。由于人们不能为自己的国家投票(对角元素无意义),且未进入决赛的国家的电视投票得分未被考虑,因此相似度矩阵 $\Omega$ 是一个 $(26 \times 26)$ 的方阵。为了将观察到的相似度转换为相异度,使用以下变换:
\[
\omega_{ij}^* = \left[1 + \frac{\omega_{ij}}{\sum_{ij}\omega_{ij}} \frac{\sum_{i}\omega_{ij}\sum_{j}\omega_{ij}}{\sum_{ij}\omega_{ij}}\right]^{-1}, (i, j = 1, \ldots, 26)
\]
该变换使得当参赛者和投票国家之间统计独立时,相异度测量值为0.5;当参赛者 $i$ 未从国家 $j$ 获得任何分数时,相异度最大值为1。小于(大于)0.5的值对应于高于(低于)随机预期的电视投票得分。
##### 3.2 对称成分的图形表示
对变换后的邻近矩阵的对称成分应用序数多维尺度分析(使用R包中SMACOF程序的mds例程)。二维解得到的图显示了国家之间的平均相异度(变换后的电视投票得分),得分越高,距离越小。例如,获得极低电视投票得分的国家(如DE、GB、BE、ES、NL、AL和SM)位于图的中心较远且与其他国家距离较远;而获得高电视投票得分的国家(如IT、UA、FR、FI和CH,排名前五)位于图的中心,似乎形成了一个单独的国家集群。
##### 3.3 斜对称成分的图形表示
对变换后的邻近数据的斜对称成分应用上述两步方法。对斜对称成分的绝对值应用区间多维尺度分析(使用SMACOF程序的mds例程),同时使用R包中的特设例程计算漂移向量。二维解得到的图显示了国家之间电视投票交换的不平衡。例如,SM和AZ、BG和ES、IL和MT之间的大距离表示这些国家对之间电视投票得分的大不平衡;而GB和ES、BE和NL、IT和LT之间的小距离表示零或小不平衡。漂移向量的趋势可以检测到不对称的一般方向,大多数漂移向量指向图的右侧,那里是获得高电视投票得分的国家(如IT、UA、FR、FI、IL、CH和LT)所在的位置。
##### 3.4 聚类分析
为了综合考虑数据的对称性和斜对称性对国家进行分组,将上述聚类模型应用于欧洲歌唱大赛数据。算法应用于相同的变换数据,设置聚类数从1到7,并在100次不同随机起始划分的运行中保留最佳解,以防止陷入局部最优。
从国家之间平均投票交换的对称矩阵中,得到以下四个国家组(最优完整划分 $\tilde{U}$):
- $U_1 = (CY, AL, IL, RU, CS, GR, MD, BG, AZ, SM)$
- $U_2 = (CH, FI, UA, FR, IT)$
- $U_3 = (PT, ES, DE, NL)$
- $U_4 = (BE, MT, GB, IS, LT, NO, SE)$
相应的斜对称成分的组(不完整划分 $\tilde{V}$ 嵌套在 $\tilde{U}$ 中)在几个国家上有所不同:
- $V_1 = (AL, IL, BG, SM)$
- $V_2 = (CH, FI, UA, FR, IT)$
- $V_3 = (ES, DE, NL)$
- $V_4 = (BE, GB)$
未在斜对称成分组中分配的国家对应于在表达电视投票偏好时不平衡最小(最不对称)的国家。基线平均水平 $\tilde{b} = 0.6573$,这意味着无论任何聚类,电视投票得分的平均量与独立情况(0.5)不同。对称成分的最优权重 $\tilde{c} = (0.1413, -0.1303, 0.1388, 0.1125)$ 提供了国家之间平均投票交换量的组排名 $\{U_1, U_3, U_4, U_2\}$;从组间不平衡的估计权重 $\tilde{d} = (0.0430, -0.1237, 0.0954, 0.0801)$ 得到不同的排名 $\{V_3, V_4, V_1, V_2\}$,这表明了电视投票的方向,第二组确定了最受欢迎的歌曲(“目的地”国家)。
通过上述分析,我们可以清晰地看到这些方法在处理非对称邻近性数据时的有效性,能够帮助我们发现数据中的潜在结构和模式。
以下是一个简单的mermaid流程图,展示整个分析流程:
```mermaid
graph LR
A[数据收集] --> B[数据预处理]
B --> C[对称与斜对称分解]
C --> D[对称成分图形表示]
C --> E[斜对称成分图形表示]
C --> F[聚类分析]
D --> G[结果分析]
E --> G
F --> G
```
| 步骤 | 操作内容 |
| ---- | ---- |
| 数据收集 | 收集2021年欧洲歌唱大赛的电视投票数据 |
| 数据预处理 | 将相似度转换为相异度 |
| 对称与斜对称分解 | 将方阵分解为对称成分和斜对称成分 |
| 对称成分图形表示 | 使用多维尺度分析表示对称成分 |
| 斜对称成分图形表示 | 使用两步方法表示斜对称成分 |
| 聚类分析 | 应用聚类模型对国家进行分组 |
| 结果分析 | 分析图形和聚类结果 |
### 非对称邻近性的图形分析与聚类:以2021年欧洲歌唱大赛数据为例
#### 4. 结果深入解读
通过前面的分析,我们得到了关于欧洲歌唱大赛数据的图形表示和聚类结果,下面对这些结果进行更深入的解读。
##### 4.1 对称成分聚类结果解读
从对称成分聚类得到的四个国家组 $\{U_1, U_2, U_3, U_4\}$ 来看,不同组的国家在电视投票得分的平均交换量上存在明显差异。
- **$U_2$ 组**:该组包含了CH、FI、UA、FR、IT这些国家,它们在电视投票中获得了较高的得分,处于决赛排名的前列。这表明这些国家的歌曲更受观众喜爱,可能是因为歌曲风格、表演形式或者文化影响力等因素。从权重 $c_j$ 的值来看,$U_2$ 组的权重相对较低,这可能意味着该组国家与其他组国家之间的投票交换量相对较少,具有一定的独立性。
- **$U_1$ 组**:包含CY、AL、IL、RU、CS、GR、MD、BG、AZ、SM等国家,权重为正且相对较高,说明该组国家与其他组国家之间有较为频繁的投票交换。这些国家可能在文化、地理位置或者音乐偏好上有一定的相似性,导致它们之间的投票互动较多。
- **$U_3$ 组**:PT、ES、DE、NL组成的这一组,权重也为正,表明与其他组有一定的投票交换。这可能与这些国家的音乐市场活跃度、观众参与度等因素有关。
- **$U_4$ 组**:BE、MT、GB、IS、LT、NO、SE等国家组成的 $U_4$ 组,权重同样为正,反映出该组国家在投票交换方面也有一定的表现。
##### 4.2 斜对称成分聚类结果解读
斜对称成分聚类得到的组 $\{V_1, V_2, V_3, V_4\}$ 则反映了投票的方向性。
- **$V_2$ 组**:与对称成分聚类中的 $U_2$ 组大部分相同,该组被确定为 “目的地” 国家,意味着大多数观众更倾向于为这些国家的歌曲投票。这进一步证实了这些国家歌曲的受欢迎程度,可能是因为它们的音乐风格更符合大众口味,或者在宣传推广方面做得更好。
- **$V_3$ 和 $V_4$ 组**:这两组国家的观众更倾向于为不属于同一组的国家投票,说明这些国家的观众具有更广泛的音乐欣赏范围,不局限于本国或者同组国家的歌曲。
- **未分配国家**:那些在 $V$ 中未分配的国家,具有较小的投票不平衡,表明这些国家在投票过程中表现出较高的互惠性,投票行为相对公平。
#### 5. 方法优势与局限性
##### 5.1 方法优势
- **分离分析**:将方阵分解为对称和斜对称成分进行分离分析,使得我们可以分别研究数据的不同特征。对称成分反映了平均投票交换量,而斜对称成分反映了投票的方向性。这种分离分析可以采用不同的模型和变换,更灵活地处理数据。
- **图形表示**:通过多维尺度分析对对称和斜对称成分进行图形表示,直观地展示了国家之间的关系。图形可以帮助我们快速发现数据中的聚类结构和趋势,如哪些国家之间相似度较高,哪些国家之间存在较大的不平衡。
- **聚类模型**:聚类模型考虑了数据的对称性和斜对称性,能够识别出不仅在平均数量上相似,而且在投票方向上也相似的国家组。这有助于发现 “起源” 和 “目的地” 组,深入理解投票行为。
##### 5.2 方法局限性
- **数据依赖**:分析结果高度依赖于所收集的数据。如果数据存在偏差,例如某些国家的样本量不足或者投票过程存在不公正现象,可能会影响分析结果的准确性。
- **模型假设**:聚类模型基于一定的假设,如 $M$ 和 $N$ 的独立性。在实际应用中,这些假设可能并不完全成立,从而影响模型的拟合效果。
- **解释复杂性**:图形表示和聚类结果的解释需要一定的专业知识和经验。对于非专业人士来说,理解其中的含义可能存在困难。
#### 6. 实际应用建议
基于以上分析,对于未来的欧洲歌唱大赛或者类似的投票活动,可以提出以下实际应用建议。
##### 6.1 对于组织者
- **优化比赛规则**:考虑到不同国家之间投票的不平衡性,组织者可以优化比赛规则,确保投票的公平性。例如,可以设置一些平衡机制,减少某些国家对比赛结果的过度影响。
- **加强宣传推广**:根据不同国家组的特点,有针对性地进行宣传推广。对于受欢迎的国家组,可以进一步提升其影响力;对于相对较冷门的国家组,可以加大宣传力度,提高其歌曲的曝光度。
##### 6.2 对于参赛国家
- **了解投票趋势**:参赛国家可以通过分析历史数据,了解不同国家组的投票偏好和趋势,从而调整歌曲的风格和表演形式,提高在比赛中的得分。
- **加强文化交流**:与其他国家进行文化交流,增进相互之间的了解和友谊,可能会提高其他国家观众对本国歌曲的认可度。
以下是另一个mermaid流程图,展示实际应用建议的流程:
```mermaid
graph LR
A[分析结果] --> B[组织者决策]
A --> C[参赛国家决策]
B --> B1[优化比赛规则]
B --> B2[加强宣传推广]
C --> C1[了解投票趋势]
C --> C2[加强文化交流]
```
| 角色 | 建议内容 |
| ---- | ---- |
| 组织者 | 优化比赛规则,加强宣传推广 |
| 参赛国家 | 了解投票趋势,加强文化交流 |
通过对2021年欧洲歌唱大赛数据的分析,我们展示了非对称邻近性数据的图形分析和聚类方法的有效性。这些方法不仅可以帮助我们理解数据中的潜在结构和模式,还可以为实际应用提供有价值的建议。在未来的研究中,可以进一步探索这些方法在其他领域的应用,以及如何改进和优化这些方法以提高分析的准确性和可靠性。
0
0
复制全文
相关推荐









