神经网络架构:从RBF到RNN及LSTM的深入解析
立即解锁
发布时间: 2025-09-02 00:05:26 阅读量: 6 订阅数: 18 AIGC 


深度学习可解释性解析
### 神经网络架构:从 RBF 到 RNN 及 LSTM 的深入解析
#### 1. RBF 网络与多层架构
RBF(径向基函数)网络即便其输出层为最终输出,也可与其他神经网络进行层叠组合。例如,可将其输出层替换为多层感知机,并进行端到端的网络训练。依据 Cover 定理,为了能任意逼近决策区域,隐藏层的单元数量需多于输入层。同时,隐藏节点或神经元的总数必须等于或少于训练样本的总数。输出层可采用线性激活函数,甚至在某些情况下可视为不存在激活单元。
在隐藏单元的计算中,其结果由从训练样本得出的原型向量与输入向量之间的相似度决定。神经元原型向量的带宽和 μi 可通过无监督学习的方式获得,比如采用聚类技术。
#### 2. 循环神经网络(RNN)概述
经典的前馈网络在处理序列学习任务时效果不佳。序列学习主要研究随时间分批到达的输入信息的学习过程,而概念漂移则是指目标概念随时间不断变化的现象。在深度学习领域,许多实际应用的数据都具有序列顺序,像机器翻译、自然语言建模、语音识别、心电图监测、情感分析、销售预测、股票市场分析和流媒体服务等。这些应用都需要一种方法来存储过去的数据并预测未来的值,而 RNN 就能满足这一需求。
RNN 是一种引入了数据依赖关系的前馈神经网络。与前馈网络不同的是,RNN 的隐藏层存在循环约束(计算循环有向图),这使得信息能够在网络中循环流动,从而影响模型的状态,让 RNN 可以捕捉有序数据集中的序列信息。
RNN 学习的目的是预测与目标序列相对应的序列。在网络中设置时间滞后 τ,可使 RNN 在预测输出序列的部分内容之前获取输入的上下文信息,得到有意义的信息。在某些情况下,可将第一个相关输出与第一个目标输出之间的时间滞后设为 0。而且,RNN 在每个时间戳都会使用相同的函数和参数。
#### 3. RNN 的特征
- **记忆功能**:与人工神经网络(ANNs)不同,RNN 拥有一个用于存储先前计算的序列信息的记忆模块,这使得网络能够展现出动态的时间行为。
- **处理任意长度序列**:RNN 可以处理任意长度的时间序列,这意味着输入和输出向量的大小会因不同的输入 - 输出序列对而有所变化,而 ANNs 的输入和输出大小是固定的。
- **时间反向传播(BPTT)**:RNN 中的 BPTT 是前馈网络反向传播技术的一种变体。
- **参数共享**:RNN 通过在时间戳之间共享参数,减少了训练参数的数量,降低了计算成本。
- **矩阵截断**:为了便于计算和保证数值稳定性,以及处理梯度消失和梯度爆炸问题,需要定期或随机截断高次幂矩阵。
#### 4. RNN 的学习过程
RNN 在时间步 t 的学习过程可以用以下简单的公式来描述:
\[
\begin{cases}
O_t(x) = \sigma_o(h_t; w) = F(W_o * h_t(x) + b_o) \\
h_t(x) = \sigma_h(h_{t - 1}; w; x_t) = f(W_i * x_t + W_h * h_{t - 1}(x) + b_h)
\end{cases}
\]
其中,F 表示输出变量的非线性激活函数,$O_t$ 表示每个时间戳 t 的输出变量,f 表示隐藏状态的非线性激活函数,$h_t$ 表示隐藏变量。对于批量大小为 n 的小批量样本,输入为 $x(t) \in R^{n \times d}$,隐藏变量 $h_t \in R^{n \times j}$(j 表示隐藏单元的数量),输出变量 $O \in R^{j \times k}$。与 ANNs 不同的是,RNN 会保留上一步的隐藏变量 $h_{t - 1}$,并引入新变量 $W_h$ 以在当前时间戳使用上一时间戳的变量。通过相邻步骤隐藏变量 $h_t$ 和 $h_{t - 1}$ 之间的关系,网络能够捕捉和保留先前的知识,用于当前阶段的计算。输出、隐藏变量和输入的权重参数分别为 $W_o \in R^{k \times j}$、$W_h \in R^{j \times j}$ 和 $W_i \in R^{j \times d}$,输出层和隐藏层的偏置项分别为 $b_o \in R^{1 \times k}$ 和 $b_h \in R^{1 \times j}$。
#### 5. RNN 的前向传播与反向传播
##### 5.1 前向传播
- **输入到隐藏单元**:前向传播过程与具有单个隐藏层的 ANN 类似,但不同之处在于,激活值 $z_t^j$ 既来自当前的外部输入,也来自上一时间步的隐藏层激活值。具体计算公式如下:
\[
z_t^j = \sum_{i = 1}^{d} w_{ji} x_t^i + \sum_{h' = 1}^{J} w_{h'j} h_{t - 1}^{h'}, \
0
0
复制全文
相关推荐










