论文114：Dynamic graph representation with knowledge-aware attention for WSI (CVPR‘24)

因吉

已于 2025-05-21 19:32:30 修改

阅读量1.2k

点赞数 24

CC 4.0 BY-SA版权

分类专栏： # 多示例学习文章标签： MIL WSI

于 2024-04-23 09:50:52 首次发布

本文链接：https://blog.csdn.net/weixin_44575152/article/details/137845035

多示例学习专栏收录该内容

82 篇文章

订阅专栏

文章目录

1 要点
2 方法
- 2.1 动态图构建
- 2.2 知识感知注意力机制

1 要点

题目：用于WSI分类的知识感知动态图表征 (WiKG)

代码：https://github.com/WonderLandxD/WiKG

背景：

已有方法重点关注重要的实例，但难以捕捉实例之间的交互性；
传统的图表征方法利用显式的空间位置构建拓扑结构，但限制了任意位置的实例之间的灵活交互能力，尤其是空间距离远时；

方法：利用动态图构建来量化WSI中区块 (实例) 之间的位置关系：

动态构建邻居和有向边缘嵌入：
a) 使用Otsu阈值函数区分前景组织区域，并将其划分为非重叠的实例；
b) 使用特征编码器获取实例嵌入，并使用两个单独的线性层对其嵌入，分别获得头部和尾部；
c) 使用点积和softmax函数计算头部和尾部的相似度；
d) 选择具有最高相似度得分的前 $k$ 个实例作为每个实例的邻居；
e) 使用头部和尾部嵌入分配有向边嵌入；
设计了一种知识感知注意力机制：
a) 计算邻居的尾部嵌入的线性组合，以描述一阶连续结构；
b) 使用softmax函数对这些组合归一化；
生成图级嵌入及分类：
a) 将聚合的邻居信息与原始头部融合，以获得新的头部表征；
b) softmax函数获得WSI的概率分数；
交叉熵损失引导训练；

数据集：

TCGA：包括食管癌、肾癌，以及肺癌；

图1：表征方法示意：(a) 实例包表征；(b) 传统图表征；(c) 所提出的图表征WiKG

2 方法

本节主要介绍动态图构建和用于节点更新的知识感知注意力机制，如图2。

图2： WiKG架构，包括实例特征提取、基于头和尾的动态边构建、图表征学习，以及WSI的预测

2.1 动态图构建

与传统方法利用空间关系构建图表征，WiKG基于可学习的潜在特征来评估实例之间的位置关系：

对于给定的一个WSI，利用Otsu阈值方法来区分前景组织区域，并将其划分为不交叠的实例 $X=\{x_1,x_2,\dots,x_n\}$ ，这也同时表示图节点；
利用特征编码器，例如在ImageNet上训练的Vision Transformer来获取实例嵌入；
使用两个独立的线性层来来分别将实例嵌入为头部 $h_i$ 和尾部 $t_i$ ，其中头部用于探索其它实例与其本身的相关性，尾部用于探索当前实例对其它实例的贡献：
$\tag{1} h_i=W_hf(X),\quad t_i=W_tf(X),$
计算头部和尾部的点乘，并通过softmax来获取最终的相似性：
$\tag{2} \omega_{i,j}=\frac{h_i^Tt_j}{\sum_{j=1}^N(h_i^Tt_j)},$ 其中 $\omega_{i,j}$ 表示第 $i$ 个头部和第 $j$ 个尾部之间的相似性。对于每个实例，其相似性最高的 $k$ 个实例被选择作为其邻居实例：
$\tag{3} \mathcal{N}(i)=\{ j\in V:\omega_{i,j}\in \text{Topk}\{w_i,j\}_{j=1}^N \},$ 其中 $V$ 表示实例集、 $∣ V ∣ = N$ ，以及 $|\mathcal{N}(i)|=k$ ；
依据拓扑结构将嵌入分配给有向边：
$\tag{4} r_{i,j}=\omega_{i,j}t_j+(1-\omega_{i,j})h_i,\quad\text{for every }j\in\mathcal{N}(i),$ 其中 $r_{i,j}$ 表示实例 $j$ 到实例 $i$ 的边嵌入；
通过以上步骤，每个WSI可以被描述为一个动态图表征 $G=(V,\mathcal{E,F,R})$ ，其中 $V$ 表示节点的集合、 $\mathcal{E}$ 表示边的集合、 $\mathcal{F}$ 表示头部和尾部嵌入的集合，以及 $\mathcal{R}$ 表示有向边嵌入的集合。具体地， $\mathcal{E}=\{(h,r,t):(h,t)\in\mathcal{F},r\in\mathcal{R}\}$ 是头部、尾部，以及在每个有向边上的高位相似性的集合。
算法1提供了动态图构建的Pytorch风格的伪代码。

2.2 知识感知注意力机制

为了充分利用图结构中图节点的关联性，设计用于节点之间信息传递和汇聚的知识感知注意力机制：

对于每个实例 $i$ ，计算头部嵌入和其邻居 $\mathcal{N}_i$ 之间的线性组合，以刻画其一阶连接结构：
$\tag{5} h_{\mathcal{N}(i)}=\sum_{j\in\mathcal{N}(i)}\pi(h_i,r_{i,j},t_j)t_j,$ 其中 $\pi(h,r,t)$ 是引导尾部信息汇聚至头部的权重因子，这里使用三元组的非线性组合来计算：
$\tag{6} u(h_i,r_{i,j},t_j)=t_j^T\text{tanh}(h_i+r_{i,j}).$ 这种组合方式
利用softmax标准化：
$\tag{7} \pi(h_i,r_{i,j},t_j)=\frac{\exp\{ u(h_i,r_{i,j},t_j) \}}{\sum_{j\in\mathcal{N}(i)}\exp\{ u(h_i,r_{i,j},t_j) \}}.$
通过建模三元组的关系，并将它们描述为关于边的知识信息，头节点可以高效地度量来自尾部节点的信号。图3展示了所提出的知识感知注意力机制的实现。
使用一个双重互动机制来促进节点之间的信息交换：
$\tag{8} h_i=\sigma_1(W_1(h_i+h_{\mathcal{N}_{(i)}}))+\sigma_2(W_2(h_2\odot h_{N_{(i)}})),$ 其中 $\sigma$ 是激活函数，类似于LeakyReLU；
使用Readout函数生成图级别嵌入并用softmax获得最终的WSI预测概率：
$\tag{9} \hat{Y}=\text{Softmax}(\text{Readout}(G)),$ 其中Readout是一个全局池化函数，类似于均值和最大池化；
在训练期间，选用交叉熵作为损失函数：
$\tag{10} \mathcal{L}_{ce}=1\frac{1}{M}\sum_{m=1}^M\sum_{c=1}^CY_{m,c}\ln(\hat{Y}_{m,c}),$ 其中 $C$ 是类别数、 $M$ 是训练样本数，以及 $Y$ 是one-hot标签。