RNN循环神经网络

原创于 2025-08-26 01:45:10 发布 · 924 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#rnn #人工智能 #算法 #深度学习 #python #神经网络

深度学习专栏收录该内容

1 篇文章

订阅专栏

MLP

考虑一个只有一个隐藏层的MLP（多层感知机）。如下：

给定数据样本 $X∈Rn×d\boldsymbol{X} \in \mathbb{R}^{n \times d}$ ，其中 $n$ 为样本数量， $d$ 为特征向量的维度。 $ϕ\phi$ 为隐藏层的激活函数，隐藏层的输出为 $H∈Rn×h\boldsymbol{H} \in \mathbb{R}^{n \times h}$ ，其中 $h$ 为隐藏层神经元个数， $H\boldsymbol{H}$ 的计算公式为：
$\boldsymbol{H} = \phi(\boldsymbol{X} \boldsymbol{W}_{xh} + \boldsymbol{b}_h)$

其中隐藏层权重参数 $Wxh∈Rd×h\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$ ，隐藏层偏差参数 $bh∈R1×h\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$ 。若输出层为Linear层，输出个数为 $q$ ，则隐藏层的 $H\boldsymbol{H}$ 作为输出层的输入，输出层的输出为
$\boldsymbol{O} = \boldsymbol{H} \boldsymbol{W}_{hq} + \boldsymbol{b}_q$

其中输出变量 $O∈Rn×q\boldsymbol{O} \in \mathbb{R}^{n \times q}$ , 输出层权重参数 $Whq∈Rh×q\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}$ , 输出层偏差参数 $bq∈R1×q\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}$ 。

RNN

将上面的网络结果简化为如下：

在该网络加上一个时间维度，如下所示：

此时，给定数据样本 $Xt∈Rn×d\boldsymbol{X_t} \in \mathbb{R}^{n \times d}$ 是时间步 $t$ 的输入。隐藏层的输出为 $Ht∈Rn×h\boldsymbol{H_t} \in \mathbb{R}^{n \times h}$ ，此时， $Ht\boldsymbol{H_t}$ 的计算需要使用到上一个时间步的 $Ht−1\boldsymbol{H_{t-1}}$ ， $Ht\boldsymbol{H_t}$ 的计算公式为：

$\boldsymbol{H_t} = \phi(\boldsymbol{X_t} \boldsymbol{W}_{xh} + \boldsymbol{H_{t-1} W_{hh}} + \boldsymbol{b}_h)$

与多层感知机相比，这里新增了 $Ht−1Whh\boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ 这一项。由上式中相邻时间步的隐藏变量 $Ht\boldsymbol{H}_t$ 和 $Ht−1\boldsymbol{H}_{t-1}$ 之间的关系可知，这里的隐藏变量能够捕捉截至当前时间步的序列的历史信息，就像是神经网络当前时间步的状态或记忆一样。
$\boldsymbol{O_t} = \boldsymbol{H_t} \boldsymbol{W}_{hq} + \boldsymbol{b}_q$

输出与多层感知机类似。