深度架构中的可解释性模型及方法剖析
立即解锁
发布时间: 2025-09-02 00:05:30 阅读量: 6 订阅数: 13 AIGC 


深度学习可解释性解析
# 深度架构中的可解释性模型及方法剖析
## 1. 特定深度架构中的解释方法
### 1.1 基于案例推理网络
基于案例推理网络由 Kolodner 在 1992 年引入,该网络允许我们在更通用的潜在空间中评估原型和观测值之间的距离。潜在空间的高效性源于其适应性。在网络中,观测值根据其与数据集中原型观测值的相似性被分配到不同类别。例如,在手写数字识别中,一个特定的观测值被标记为“3”,是因为网络判断它与训练集中的原型“3”相似。同样,如果要求网络对“9”的图像进行分类,它可能会识别出“4”和“9”类别的原型,因为这两类数字通常较难区分。在相关矩阵中,每个原型节点由一行表示,MNIST 数据中的每个数字类别由一列表示,权重最不利的类别用深灰色显示。
### 1.2 ProtoNets
由 Snell 等人在 2017 年提出,ProtoNets 通过对许多嵌入的“支持”样本求平均值,为每个类别生成一个原型。零样本学习的原型是特征空间中的点,使用 Li 和 Wang 在 2017 年提出的生成概率模型来创建。每个类别只允许有一个原型,并且在这两种情况下,原型都不需要具有可解释性,因此它们的表示通常不像自然图像。
### 1.3 概念白化(Concept Whitening)
概念白化(CW)是一种使图像分类器具有可解释性的方法。要实现 CW,需要将归一化层(如批量归一化层)替换为 CW 层。这使得 CW 成为希望在不牺牲模型性能的前提下,使预训练图像分类器更具可解释性的用户的强大工具。CW 大量借鉴了白化变换的工作,因此对 CW 感兴趣的人最好熟悉白化变换的数学原理。在 CW 中,自动编码器(AE)生成一个潜在的低维空间,并在此计算到原型的距离。为了在像素空间中找到比 L2 更合适的不相似度度量,我们可以使用潜在空间进行距离计算。
### 1.4 自解释神经网络(Self-Explaining Neural Network)
自解释神经网络(SENNs)由 Alvarez-Melis 等人在 2018 年开发,其目的是提供一个简单且局部可解释的模型。这通过采用正则化方法来实现,具体包括:
- 通过稀疏正则化来增强多样性。
- 通过原型提供概念解释。
- 确保模型在局部表现为线性模型。
SENNs 由三个部分组成:
1. **输入依赖的参数化器**:提供相关性分数。
2. **概念编码器**:将输入转换为有限的可解释基本特征集合。
3. **聚合函数**:聚合分数。
通过对参数 x 施加鲁棒性损失,整个模型在 h(x) 上局部表现为线性函数,从而为任何给定的预测提供更易于解释的(线性关系)解释。参数化器、概念化器和聚合器构成了 SENN 模型的骨架。参数化器 θ 由人工神经网络(ANN)实现,概念化器 h 由自动编码器(AE)实现。这些网络的实际实现可能会有所不同,例如,表格数据使用全连接网络表示,图像数据使用卷积神经网络(CNNs)。
SENN 模型的公式如下:
假设线性模型 \(f(x) = \sum_{i=1}^{n} \theta_i x_i + \theta_0\) 对于给定的输入特征 \(x_1, x_2, ..., x_n \in R\) 是可解释的。然后,将线性模型的范围扩展为更复杂的形式,同时保留线性模型可解释特征的特点。可以设计一个能够自我解释的神经网络 \(f\):
\[f(x) = g(\theta(x)_1 h(x)_1, ..., \theta(x)_k h(x)_k)\]
其中,\(\theta\) 是一个将输入特征转换为相关性分数(或参数)的神经网络。具体来说,如果 \(x\) 是输入,那么 \(X \to R\) 将计算 \(x\) 的 \(k\) 个可解释特征表示。\(g\) 是一个单调递增、完全可加分离的聚合函数,这些特征表示被称为基础概念。
为了使参数化器 \(\theta\) 作为基础概念 \(h(x)\) 中线性模型的系数,建议 \(\theta\) 由概念化器 \(h\) 局部差分有界。通过最小化鲁棒性损失来确保局部差分有界性,鲁棒性损失公式如下:
\[L_{\theta} = ||\nabla_x f(x) - \theta(x)^T J_h^x(x)||\]
其中,\(J_h^x\) 表示 \(h\) 相对于 \(x\) 的雅可比矩阵。在训练过程中,通过最小化以下损失函数:
\[L = L_y(f(
0
0
复制全文
相关推荐









