论文阅读 (102)：Multiple instance learning via iterative self-paced supervised contrastive learning-CSDN博客

本文链接：https://blog.csdn.net/weixin_44575152/article/details/133066363

文章探讨了CSSL在多示例学习(MIL)中的局限性，尤其是在类别不平衡数据集上。提出了一种名为ItS2CLR的方法，通过迭代自步学习和伪标签策略，改善了表示学习的辨别性。实验在Camelyon16等数据集上验证了该方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 概述

1.1 要点

题目：迭代自步有监督对比多示例学习 (Multiple instance learning via iterative self-paced supervised contrastive learning)

背景：在多示例学习 (MIL) 中，由于仅有包标签，学习表示的学习极具挑战。近期的工作展示了对比自监督学习 (CSSL) 的惊人成果，其在学习过程中将分开对应于两个不同的随机选择实例的表示。

问题：在实际应用中，例如医学图像分类，其数据集通常类别不平衡，导致随机选择严重偏向大多数类。这一特性，将致使CSSL难以学习类间差异。

策略：提出了用于MIL表示学习的自步有监督对比学习 (ItS2CLR)：

通过包标签导出实例伪标签，以提高习得表征的质量；
使用自步采样策略，以确保伪标签的准确性；
算法总体思想如下图：

1.2 代码

https://github.com/Kangningthu/ItS2CLR

1.3 引用

@inproceedings{Liu:2023:33553365,
author		=	{Liu, Kang Ning and Zhu, Wei Cheng and Shen, Yi Qiu and Liu, Sheng and Razavian, Narges and Geras, Krzysztof J and Fernandez-Granda, Carlos},
title		=	{Multiple instance learning via iterative self-paced supervised contrastive learning},
booktitle	=	{Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year		=	{2023}
pages		=	{3355--3365},
}

2 CSSL在MIL中可能不能习得辨别性表示

本节将说明在实际MIL设置下CSSL (例如SimCLR和MoCo) 的局限性，其可能无法习得辨别性特征。CSSL的目的是习得一个表示空间，使得同类别的距离近，异类别的距离远。这可以通过最小化InfoNCE损失实现：
$\tag{1} \mathcal{L}_\text{CSSL}=\mathbb{E}_{ \begin{array}{l} x,x^\text{aug}\\ \{x_i^\text{diff}\}_{i=1}^n \end{array} } \left[ -\log\frac{sim(x,x^\text{aug})}{sim(x,x^\text{aug})+\sum_{i=1}^nsim(x,x_i^\text{diff})} \right].$ 相似性得分 $sim(\cdot,\cdot):\mathbb{R}^m\times\mathbb{R}^m\to\mathbb{R}$ 对于任意的 $x,x'\in\mathbb{R}^m$ ，被定义为 $\sim(x,x')=\exp(f_\psi(x)\cdot f_\psi(x')/\tau)$ ，其中 $f_\psi=\psi\circ f$ ：

$f:\mathbb{R}^m\to\mathbb{R}^d$ 是将输入数据映射为表示的特征提取器；
$\psi:\mathbb{R}^d\to\mathbb{R}^{d'}$ 是一个带有前馈网络和 $\ell_2$ 范数约束的投影头， $\tau$ 是超参数；

期望基于从训练集中的采样样本 $x\in\mathbb{R}^m$ 计算。最小化损失将是的实例 $x$ 的表示趋近于其随机增强的表示 $x^\text{aug}$ ，并使得它们与其它实例的距离尽可能远。

CSSL的一个关键假设是 $x$ 与大多数随机采样的样本 $x_1^\text{diff},\dots,x_n^\text{diff}$ 的类别不同。ImageNet是满足这一性质的数据集，但是MIL任务中的医疗诊断数据集却没有这样的性质，其中大部分的实例都是负的，例如Camelyon16数据集的负实例占比 $95\%$ 。因此，公式1中求和项中的大部分实例都属于负类。综上，最小化损失可能拉远负实例之间的距离，一个示意如图2上，其是类冲突的一种体现，也是CSSL中的常见问题，将影响后续任务的性能。

图2：所提出方法与CSSL的对比

类冲突使得CSSL学习表示不能有效辨别类。为研究这一现象，在表1中展示了Camelyon16数据集上CSSL方法与所提出方法的类间距离和类内距离。显然，所提出方法ItS2CLR所习得的特征更有辨别性。

表1 Camelyon16数据集上习得的实例级特征的定量分析结果。

注意，使用包级别标签并不能解决类冲突。当 $x$ 为负时，即使从正包中选择 $\{ x_i^\text{diff} \}_{i=1}^n$ ，大多数实例依然也是负的。类冲突问题的克服需要明确检测正实例，这也是本文的动机之一。

3 迭代自步监督对比MIL

所提出的用于MIL表示学习的迭代自步监督对比学习ItS2CLR用于解决CSSL中的一些局限问题。ItS2CLR依赖于用于指示每个实例正负与否的潜在变量，称之为实例级伪标签。为了评估伪标签，使用DSMIL网络获得的实例概率 (其它MIL聚合器均可)，然后使用阈值 $\eta\in(0,1)$ 来二元化实例概率。

ItS2CLR使用伪标签来微调特征提取器 (CSSL用于初始化)。受迭代自训练技术的启发，我们迭代地微调特征提取器、重计算伪标签，以及训练聚合器，如算法1所示。

一个关键的挑战在于，伪标签并不能完全计算准确率，尤其是在训练的起始阶段。为了处理不正确伪标签的影响，我们应用对比损失来微调特征提取器，其中对比对通过自步学习策略选择。

3.1 基于伪标签的监督自步学习

本节说明如何利用结合伪标签的监督对比学习来处理类冲突问题。对于每个选择的锚点实例 $x$ ，我们收集最可能和其标签一致的实例构成集合 $\mathcal{S}_x$ ，以及最不同标签的实例构成集合 $\mathcal{D}_x$ 。相应的监督对比损失为：
$\tag{2} \mathcal{L}_\text{sup}(x)=\frac{1}{|\mathcal{S}_x|}\sum_{x_s\in\mathcal{S}_x}-\log\frac{sim(x,x_s)}{\sum_{x_s\in\mathcal{S}_x}sim(x,x_s)+\sum_{x_d\in\mathcal{D}_x}sim(x,x_d)}.$

3.2 自步学习采样

ItS2CLR的关键挑战是在没有真实实例标签的基础上提升实例级伪标签的准确性。这一过程通过在一个精心选择的实例子集上微调特征提取器实现。本文选择锚点实例 $x$ 和相应的 $\mathcal{S}_x$ 和 $\mathcal{D}_x$ 的先验知识如下：

负包仅包含负实例；
有更高预测概率的实例有更准确的伪标签；

令 $X^-_\text{neg}$ 表示所有负包中的实例。令 $X^+_\text{pos}$ 和 $X^-_\text{pos}$ 分别表示正包中有正负伪标签的实例的集合。在训练的初始阶段，即 $T_\text{warm-up}$ 内，我们从 $\mathcal{X}^-_\text{neg}$ 中采样锚点实例 $x$ ，以确保它们均为负。对于这样的实例， $S_x$ 通过采样 $X^-_\text{neg}$ 构建， $D_x$ 则采样自 $X^+_\text{pos}$ 。

在初始阶段之后，将从 $\mathcal{X}^+_\text{pos}$ 和 $\mathcal{X}^-_\text{pos}$ 中采样。为了确保这些实例有准确的伪标签，我们仅考虑 $\mathcal{X}^+_\text{pos}$ 和 $\mathcal{X}^-_\text{pos}$ 中具有最高概率和最低概率的 $r\%$ 的实例，并将其分别记为 $\mathcal{X}^+_\text{pos}(r)$ 和 $\mathcal{X}^-_\text{pos}(r)$ 。正负锚点的比例通过超参数 $p^+$ 固定。对于每一个锚点 $x$ ，如果其标签为正，则从 $\mathcal{X}^+_\text{pos}(r)$ 采样得到 $\mathcal{S}_x$ ；反之则从 $\mathcal{X}^-_\text{neg}\cup\mathcal{X}^-_\text{pos}$ 采样。 $\mathcal{D}_x$ 的采样则恰好相反。

为了在训练期间进一步提升实例标签，我们将逐渐增加 $r$ ，以包含来自正包中的更多的实例，这被称为由简入繁的自步学习策略。令 $t$ 和 $T$ 分别表示当前轮次和最大轮次，当 $T_\text{warm-up}<t\leq T$ 时，设置：
$\tag{3} r:=r_0+\alpha_r(t-T_\text{warm-up}),$ 其中 $\alpha_r=(r_T-r_0)/(T-T_\text{warm-up})$ ， $r_0$ 和 $r_T$ 是超参数。