动手学深度学习（Pytorch版）代码实践 -循环神经网络-57长短期记忆网络（LSTM）

本文链接：https://blog.csdn.net/weixin_46560570/article/details/140332085

57长短期记忆网络（`LSTM`）

1.`LSTM`原理

LSTM是专为解决标准RNN的长时依赖问题而设计的。标准RNN在训练过程中，随着时间步的增加，梯度可能会消失或爆炸，导致模型难以学习和记忆长时间间隔的信息。LSTM通过引入一组称为门的机制来解决这个问题：

输入门（Input Gate）：控制有多少新的信息可以传递到记忆单元中。
遗忘门（Forget Gate）：控制当前记忆单元中有多少信息会被保留。
输出门（Output Gate）：控制记忆单元的输出有多少被传递到下一步。

LSTM还引入了一个称为记忆单元（Cell State）的概念，用于携带长期信息。这些门的组合使得LSTM能够选择性地记住或遗忘信息，从而解决了长时依赖问题。
在这里插入图片描述

2.优点

解决梯度消失问题：通过门控机制，LSTM能够有效地传递梯度，避免了梯度消失和爆炸的问题。
捕捉长时依赖：LSTM能够记住和利用长时间间隔的信息，这是标准RNN难以做到的。
灵活性：LSTM适用于各种序列数据处理任务，如时间序列预测、语言建模和序列到序列的翻译等。

3.`LSTM`与`GRU`的区别

GRU（门控循环单元）是另一种解决长时依赖问题的RNN变体。GRU和LSTM都引入了门控机制，但它们的具体实现有所不同。

结构简化：GRU的结构比LSTM更简单，参数更少，计算效率更高。
性能对比：在一些任务上，GRU和LSTM的性能相当，但在某些情况下，GRU可能表现更好，特别是在较小的数据集或较短的序列上。
门的数量：LSTM有三个门（输入门、遗忘门和输出门），而GRU只有两个门（更新门和重置门）。

4.`LSTM`代码实践

import torch
from torch import nn
from d2l import torch as d2l
import matplotlib.pyplot as plt

# 设置批量大小和序列步数
batch_size, num_steps = 32, 35
# 加载时间机器数据集
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

# 初始化LSTM模型参数
def get_lstm_params(vocab_size, num_hiddens, device):
    # 输入输出的维度大小
    num_inputs = num_outputs = vocab_size

    # 正态分布初始化权重
    def normal(shape):
        return torch.randn(size