gru公式及原理简记

最新推荐文章于 2025-07-20 16:38:11 发布

今天也要笑笑鸭

最新推荐文章于 2025-07-20 16:38:11 发布

阅读量1w

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/silent_crown/article/details/84729258

机器学习同时被 2 个专栏收录

23 篇文章

订阅专栏

深度学习

11 篇文章

订阅专栏

https://blog.csdn.net/zhangxb35/article/details/70060295

GRU一共有2个门。

z：更新门，取sigmoid表示以前的信息是否需要更新。
r：重置门，取sigmoid类似于LSTM的忘记门，代表以前的信息是否需要重置。

h‘：输入+忘记该忘记的（ht-1 * r）

新的h：更新需要更新的，不需要更新的维持。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

今天也要笑笑鸭

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

LSTM，GRU最权威的公式

Love-Coding

01-23

992

摘自pytorch官方文档 LSTM代码细节： import torch.nn as nn from torch.autograd import * import torch batch_size = 3 num_layer = 2 hidden_size = 20 feature_size = 10 rnn = nn.LSTM(feature_size, hidden_size, num

第20节GRU原理以及实例

AI拉呱，专注于人工智与网络安全方面的研究，关注一起学习。

03-08

1214

1. 什么是GRU 在循环神经⽹络中的梯度计算⽅法中，我们发现，当时间步数较⼤或者时间步较小时，**循环神经⽹络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸，但⽆法解决梯度衰减的问题。**通常由于这个原因，循环神经⽹络在实际中较难捕捉时间序列中时间步距离较⼤的依赖关系。 **门控循环神经⽹络（gated recurrent neural network）的提出，正是为了更好地捕捉时间序列中时间步距离较⼤的依赖关系。**它通过可以学习的⻔来控制信息的流动。其中，门控循环单元（gatedrecurr

1 条评论您还未登录，请先登录后发表或查看评论

GRU（Gated Recurrent）神经网络介绍及公式推导

07-08

GRU（Gated Recurrent Unit）神经网络是LSTM 的一个变体，GRU 在保持了LSTM 的效果同时又使结构更加简单，是一种非常流行RNN 神经网络，它只有两个门了，分别为更新门t z 和重置门tr 。更新门控制前一时刻的状态信息被带入到当前状态中的程度，值越大前一时刻的状态信息带入越多。重置门控制忽略前一时刻的状态信息的程度，值越小说明忽略得越多。

GRU算法详解

最新发布

EnHengNa的博客

07-20

905

GRU是一种高效的门控循环单元，以简洁的结构平衡了性能与计算成本，在序列数据处理中应用广泛。其核心是通过更新门和重置门控制信息流动，缓解梯度问题；训练时需注意初始化、梯度裁剪等技巧；在复杂任务中可结合注意力机制等改进进一步提升性能。

【深度学习】GRU的结构图及公式

Alexbyy的博客

01-29

1万+

GRU与LSTM的区别前面说到过LSTM的出现是为了解决传统RNN无法解决的长距离依赖问题而出现的，而GRU也具有该功能，但是结构相对于LSTM来说相对简单，可以将GRU看作是LSTM的一种优化或变体。 GRU的结构图前向传播公式其中“*”代表矩阵乘法，“⋅”代表点乘（相应位置的元素乘相应位置的元素） rt=sigmoid(Wr∗[ht−1,xt]+br) r_t = sigmoid(W_...

深度学习——循环神经网络GRU公式推导

hei653779919的博客

02-06

5583

深度学习——循环神经网络GRU公式推导 0、注意在整篇的文章中，无论是输入的X向量，还是隐藏层得到的S向量，这些都是列向量 1、从RNN到GRU 在之前的文章中，我们具体推导了循环神经网络RNN的前向和反向传播过程，具体细节可以参考深度学习——循环神经网络RNN公式推导这篇文章。下面，我们开始介绍RNN的一个变形结构GRU神经网络。我们首先简单的回顾一下RNN神经网络的结构，以及一个RNN隐藏...

补充：关于GRU的详细运作原理以及特殊的优化思路

weixin_65502565的博客

08-05

1195

在GRU中引入一个内部的循环机制，这个机制可以进一步处理候选隐藏状态，以便更好地控制信息流。这种内部循环可以用来模拟更复杂的逻辑处理过程，类似于大脑中的多层次处理。

LSTM和GRU结构及原理介绍

赤道6号转向发动机的博客

04-22

1567

参考博文: 直觉理解LSTM和GRU 第一部分: LSTM LSTM的结构 LSTM的原理 LSTM单元之间传递两个信息, c和h Ct−1C_{t-1}Ct−1 到 CtC_tCt, 先遗忘一部分信息, 然后再加上新学到的一部分信息 ftf_tft控制哪些需要忘掉, C~t\tilde{C}_tC~t用于生成新信息, iti_tit控制哪些新信息需要保留, CtC_tCt就完...

对gru的理解

woai110120130的专栏

02-11

651

它是**LSTM（Long Short-Term Memory）**的简化版，旨在缓解标准RNN的梯度消失问题，同时减少计算开销。所以这体现了更新门的作用：决定当前时间步的隐藏状态有多少信息需要保留、多少信息来自新输入。(重置门) 越接近0的时候，结果受到过去状态的影响越小。这就是重置门的作用。用于控制遗忘过去的信息。GRU（Gated Recurrent Unit，门控循环单元）是一种。(重置门) 越接近1则结果受到过去状态的影响越大，（当前输入）影响大，当。越接近0时，结果受到。

【模型】GRU模型详解

zkw54334的博客

02-21

3318

GRU 模型包含两个主要的门控机制：更新门（Update Gate）和重置门（Reset Gate）。决定当前隐藏状态与之前隐藏状态的相关程度。它通过一个 Sigmoid 函数输出一个范围在。根据更新门的值和上一时刻的隐藏状态与当前时刻的候选隐藏状态，最终计算出当前的隐藏状态。计算当前时刻的候选隐藏状态，候选状态结合了当前输入和重置门的影响。控制当前时间步的隐藏状态更新的程度。之间的值，决定当前时刻的信息有多少来自于之前的状态。之间的值，表示当前时间步要忘记多少之前的信息。

GRU

云计算、数据库、大数据、容器、微服务、深度学习、NLP、Python

04-14

2240

GRU模型 GRU（Gated Recurrent Unit）循环门单元 GRU内部结构及计算公式：更新门(zt) 计算过程：将t时间步的xt与t-1时间步的信息拼进行线性变换(乘以Wt的权重矩阵) 再经过sigmoid输出固定范围0到1之间的数值重置门(rt) 重置门主要决定了到底有多少过去的信息需要遗忘，重置门计算过程与更新门一样，只不过线性变换的参数和用处不一样而已 ...

Gated Recurrent Unit (GRU)公式简介

dengtiaolu0407的博客

04-14

360

update gate $z_t$:defines how much of the previous memory to keep around.　　 \[z_t = \sigma ( W^z x_t+ U^zh_{t-1} )\] reset gate $r_t$: determines how to combine the new input with the p...

NLP基础知识点：GRU模型结构与公式的梳理

梆子井欢喜坨的博客

04-25

3025

深度学习模型：门控循环单元（GRU）详解

池央的博客

11-29

5283

随后，门控循环单元（GRU）作为 LSTM 的一种简化变体，在保持良好性能的同时，具有结构简单、训练速度快等优点，因此在许多序列数据处理任务中得到了广泛应用。相比之下，GRU 将输入门和遗忘门合并为更新门，并且没有单独的记忆单元，直接在隐藏单元中进行信息的更新和传递，因此结构更加简单。GRU 的输入和普通 RNN 一样，在每个时间步，它接受当前的输入向量以及上一个时间步的隐藏状态，然后输出当前时间步的隐藏状态，并将其传递到下一个时间步作为输入之一。在上述代码中，我们首先定义了一个。

【机器学习】详解 GRU

闻韶

07-18

2万+

【机器学习】详解 GRU

gru

weixin_42612033的博客

01-02

4403

gru 在 GRU 中，如下图所示，只有两个门：重置门（reset gate）和更新门（update gate） RNN的一个特点是所有的隐层共享参数(U,V,W)，整个网络只用这一套参数。gru也是如此 “ * ”代表点乘其中， rt表示重置门，zt表示更新门。 1重置门rt决定是否将之前的状态忘记。(作用相当于合并了 LSTM 中的遗忘门和传入门） 2将先前隐藏状态ht-1和遗忘门输出的向...

循环神经网络(RNN)及其变体GRU和LSTM的基础知识详解(公式)

chenzhiwen1998的博客

02-15

2317

RNN计算公式 RNN结构图结构图中变量名介绍 a：上一个时间步的激活值（activate value） x ：第x个输入（一句话中第x个字） y：第y个输出（预测值） Waa：与激活值进行计算的参数。其中第一个a是指当前参数是计算a（激活值）的，第二个a是指当前参数与激活值进行乘运算 Wax：与输入进行计算的参数。其中第一个a是指当前参数是计算a（激活值）的，第二个x是指与输入值x进行运算 Wya：与激活值运算的参数，得到的记过为y。其中第一个y是指当前参数是计算输入值y的，第二个a是指与激活值a进

【深度学习笔记】GRU

PleaseBeStrong的博客

10-12

1313

不同于LSTM的三个门控单元，GRU中只有两个（将输入门和输出门合并为一个更新门），简化了计算。但是对于大数据集的情况下，LSTM比GRU性能更好，而总体而言差不多在GRU中重置门有助于捕获序列中的短期依赖关系更新门有助于捕获序列中的长期依赖关系。

详解一下GRU的公式以及原理

03-13

<think>好的，我现在要详细解释GRU的公式和原理。首先，我需要回忆GRU的基本概念。GRU是门控循环单元，属于RNN的一种改进，用来解决长依赖问题。和LSTM相比，GRU结构更简单，参数更少，但效果相近。用户已经要求详解公式和原理，所以我需要分步骤解释每个公式的含义，以及它们如何组合在一起工作。首先，我应该回顾GRU的结构，包括更新门、重置门、候选隐藏状态和最终隐藏状态。先从更新门开始。更新门的公式是z_t = σ(W_z · [h_{t-1}, x_t] + b_z)。这里的σ是sigmoid函数，将结果压缩到0到1之间。这个门的作用是控制有多少过去的信息需要保留，有多少新信息需要加入。可能需要注意这里的拼接操作[h_{t-1}, x_t]，也就是将前一时刻的隐藏状态和当前输入连接起来，然后乘以权重矩阵W_z加上偏置b_z。接下来是重置门r_t = σ(W_r · [h_{t-1}, x_t] + b_r)。重置门决定丢弃多少过去的信息。如果重置门的值接近0，那么候选隐藏状态的计算就会忽略之前的隐藏状态，相当于重置。这在需要忘记无关信息时很有用。然后是候选隐藏状态h̃_t = tanh(W · [r_t ⊙ h_{t-1}, x_t] + b)。这里使用tanh激活函数，生成一个新的候选状态。关键点是重置门r_t与h_{t-1}的逐元素乘积。如果r_t接近0，那么候选状态就主要依赖于当前输入x_t，而忽略之前的隐藏状态。这允许模型在必要时丢弃无关的历史信息。最后，隐藏状态的更新公式是h_t = (1 - z_t) ⊙ h_{t-1} + z_t ⊙ h̃_t。这里，更新门z_t控制新旧状态的比例。如果z_t接近1，那么新状态主要采用候选状态h̃_t；如果z_t接近0，则保留大部分旧状态h_{t-1}。这样，模型可以灵活地决定每个时间步保留多少旧信息，加入多少新信息。需要解释这些门如何协作。比如，当处理序列时，模型通过重置门决定哪些历史信息需要被忽略，然后生成候选状态。接着，更新门决定将多少候选状态合并到当前隐藏状态中。这整个过程帮助模型有效地捕捉长期依赖，同时避免梯度消失或爆炸的问题。可能需要比较GRU和LSTM的区别，指出GRU如何用更少的门（更新门和重置门）来实现类似的功能，而LSTM有三个门（输入门、遗忘门、输出门）和一个细胞状态。这样的简化让GRU参数更少，计算效率更高，但可能在处理非常长的序列时稍逊于LSTM。在原理部分，需要强调门控机制的作用，如何调节信息流，以及如何通过这些机制缓解传统RNN的问题。比如，传统RNN在反向传播时，梯度可能会指数级衰减或爆炸，导致难以训练。而GRU的门控结构允许梯度更稳定地传播，因为隐藏状态的更新是加法操作，梯度可以通过多个时间步保持。可能还需要提到GRU的实际应用场景，如自然语言处理中的序列建模、时间序列预测等，说明其适用性和优势。在解释公式时，要注意每个符号的含义，比如W_z、W_r是权重矩阵，b_z、b_r是偏置项，σ和tanh是激活函数，⊙表示逐元素相乘等。需要确保用户理解每个步骤的数学表达和物理意义。最后，可能需要通过一个简单的例子或图示来辅助说明信息流动的过程，比如在某个时间步，输入x_t和前一隐藏状态h_{t-1}如何通过两个门生成新的隐藏状态h_t。这样的图示有助于直观理解GRU的工作机制。检查是否有遗漏的细节，比如参数数量较LSTM少的原因（GRU没有输出门和细胞状态），或者训练时的注意事项，比如梯度裁剪的使用等。这些细节可以增强回答的全面性。总结来说，需要分步骤详细解释每个公式的组成部分，以及它们在GRU整体结构中的作用，结合原理说明为何这样的设计能够有效解决传统RNN的问题，并对比LSTM等模型突出GRU的特点和优势。</think>--- ### GRU 公式详解与原理分析 GRU（门控循环单元）通过**门控机制**动态调节信息流动，解决了传统RNN的长期依赖问题。以下是其核心公式的逐项解析及工作原理： --- #### **一、核心公式分解** 1. **更新门（Update Gate）** 控制**历史信息保留比例**与**新信息吸收程度**。 $$z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)$$ - **符号说明**： - $[h_{t-1}, x_t]$：前一时刻隐藏状态与当前输入的**拼接** - $W_z$：更新门权重矩阵，$b_z$：偏置项 - $\sigma$：sigmoid函数，输出值在$[0,1]$之间 - **物理意义**： - $z_t \approx 1$：优先保留旧状态$h_{t-1}$ - $z_t \approx 0$：优先采用新候选状态$\tilde{h}_t$ 2. **重置门（Reset Gate）** 决定**丢弃多少历史信息**。 $$r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)$$ - **关键作用**： - 若$r_t \approx 0$，候选状态$\tilde{h}_t$将忽略$h_{t-1}$，仅依赖当前输入$x_t$ - 若$r_t \approx 1$，保留完整历史信息用于生成$\tilde{h}_t$ 3. **候选隐藏状态（Candidate State）** 生成**潜在的新状态**，结合重置门过滤后的历史信息。 $$\tilde{h}_t = \tanh(W \cdot [r_t \odot h_{t-1}, x_t] + b)$$ - **操作细节**： - $r_t \odot h_{t-1}$：重置门对历史信息的**选择性过滤** - $\tanh$：将输出压缩到$[-1,1]$，增强非线性表达能力 4. **最终隐藏状态（Final Hidden State）** 混合旧状态与候选状态，完成信息更新。 $$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$$ - **动态平衡**： - $z_t$决定了新旧状态的**加权平均比例** - 若$z_t=0.2$，则保留80%旧状态，添加20%新候选状态 --- #### **二、工作原理图解** ``` 输入序列: [x₁, x₂, ..., xₜ] 隐藏状态流: h₀ → h₁ → ... → hₜ ↑ ↑ ↑ 门控调节: z/r z/r z/r ``` 1. **时间步计算流程**： - 接收输入$x_t$与前状态$h_{t-1}$ - 通过重置门$r_t$决定过滤多少历史信息 - 生成候选状态$\tilde{h}_t$（部分依赖$x_t$和过滤后的$h_{t-1}$） - 通过更新门$z_t$合并旧状态与候选状态，输出$h_t$ 2. **梯度传播优势**： - 最终状态$h_t$的计算为**加法操作**（$h_{t-1}$与$\tilde{h}_t$的加权和） - 反向传播时梯度可通过$h_{t-1}$路径稳定传递，缓解梯度消失 --- #### **三、与LSTM的对比分析** | **特性** | GRU | LSTM | |----------------|--------------------------------|--------------------------------| | **门数量** | 2门（更新、重置） | 3门（输入、遗忘、输出）+ 细胞状态 | | **参数复杂度** | 低（无输出门和独立记忆单元） | 高（多一组门参数） | | **计算速度** | 快（单时间步计算量减少约30%） | 较慢 | | **适用场景** | 中等长度序列（50-300步） | 极长序列（如文档级文本） | --- #### **四、数学原理深层解读** 1. **门控机制的本质** - 通过**sigmoid门**（输出0~1）实现**软选择**，而非硬性开关 - 允许模型在不同时间步自适应调整信息流，例如： - 遇到关键信息时，$z_t \to 0$（保留旧状态） - 需重置上下文时，$r_t \to 0$（忽略历史） 2. **梯度流优化** - 传统RNN：$h_t = f(h_{t-1}, x_t)$，梯度需连续通过多个非线性函数 - GRU：$h_t = (1-z_t)h_{t-1} + z_t\tilde{h}_t$ - 梯度通过**线性路径**（$h_{t-1}$项）直接传播，避免连续非线性衰减 3. **参数效率的来源** - 合并LSTM的**输入门**和**遗忘门**为单一更新门（$z_t$） - 去除独立的**细胞状态**（LSTM的$C_t$），直接操作隐藏状态$h_t$ --- #### **五、实例说明** **场景**：句子建模 "The cat, which ate..., ___." - **重置门作用**：当处理到"which"时，$r_t$可能降低，暂时忽略主句主语（"The cat"），专注于从句内容 - **更新门作用**：在从句结束时，$z_t$可能增大，将从句信息整合回主句状态 --- #### **六、PyTorch实现核心代码** ```python import torch import torch.nn as nn class GRUCell(nn.Module): def __init__(self, input_size, hidden_size): super().__init__() # 更新门参数 self.W_z = nn.Linear(input_size + hidden_size, hidden_size) # 重置门参数 self.W_r = nn.Linear(input_size + hidden_size, hidden_size) # 候选状态参数 self.W = nn.Linear(input_size + hidden_size, hidden_size) def forward(self, x, h_prev): combined = torch.cat([h_prev, x], dim=1) # 计算门控 z = torch.sigmoid(self.W_z(combined)) r = torch.sigmoid(self.W_r(combined)) # 候选状态 combined_reset = torch.cat([r * h_prev, x], dim=1) h_tilde = torch.tanh(self.W(combined_reset)) # 最终状态 h_new = (1 - z) * h_prev + z * h_tilde return h_new ``` --- #### **七、实践建议** 1. **初始化策略**： - 使用`Xavier`初始化门控权重，避免初始阶段门控饱和（sigmoid输出接近0或1） 2. **正则化方法**： - 对隐藏状态施加**Dropout**（需在时间步间共享mask） 3. **超参数调节**： - 优先调整**隐藏层维度**和**学习率**，观察梯度范数（建议保持在1-5之间） --- GRU通过精简的门控设计，在保持序列建模能力的同时显著提升了计算效率，成为处理中等长度序列任务的优选架构。理解其公式细节有助于在实际任务中灵活调整模型结构。