循环神经网络在文本处理与翻译中的应用
立即解锁
发布时间: 2025-08-30 00:48:20 阅读量: 3 订阅数: 18 AIGC 

### 循环神经网络在文本处理与翻译中的应用
#### 1. 长短期记忆网络(LSTM)概述
长短期记忆网络(LSTM)是一种长期记忆网络。不同的循环神经网络(RNN)模型在宾夕法尼亚树库语料库上的困惑度表现不同,具体如下表所示:
| 作者 | 模型 | 参数数量 | 层数 | 困惑度 |
| --- | --- | --- | --- | --- |
| Pascanu 等(2013) | RNN | 610 万 | - | 107.5 |
| Melis 等(2017) | LSTM | 1000 万 | 4 | 60.1 |
| Melis 等(2017) | LSTM | 2400 万 | 4 | 58.3 |
| - | AWD - LSTM(LSTM) | 2400 万 | 3 | 57.3 |
由表可知,LSTM 模型在困惑度上表现相对较好,困惑度值越小,模型性能越好。
使用莎士比亚戏剧字母训练的三层 LSTM 网络生成的文本,能较好地捕捉莎士比亚的语言风格,且只有少量拼写错误。但和维基百科模型一样,在生成一定数量的单词后,内容上下文会丢失,模型会跳到其他主题。
基本的 LSTM 结构是根据启发式考虑构建的,其是否为最优结构并不明确。Melis 等人(2017)研究了多种循环神经网络架构并比较了它们的性能。所有模型的可训练参数数量相同,超参数也经过了广泛优化。总体而言,LSTM 网络比其他网络架构略有优势,并且适当的 dropout 正则化非常重要。
#### 2. 双向 LSTM 网络用于单词属性预测
RNN 的一个应用是预测序列元素的特征,命名实体识别(NER)就是这样一个信息提取任务。每天新闻和互联网上都会出现新的人名、产品名、组织名、地名等。由于地理名称数据库中地理名称众多,且常见单词常作为地名出现,因此不能通过列表匹配来识别名称,而必须利用上下文信息识别名称的属性。
CoNLL 2003 数据集是该任务的基准数据集,它包含路透社的英文新闻报道,共 1700 万个单词,每个单词都被手动标注为 PER(人)、ORG(组织)、LOC(地点)、MISC(其他名称)和 O(其他单词)类别之一。
双向 LSTM(BiLSTM)模型用于此任务,其工作流程如下:
1. 输入:使用单词嵌入,在训练过程中进行估计。
2. 前向 LSTM:从句子开头到结尾更新隐藏向量,将先前单词的信息存储在隐藏向量 $\overrightarrow{h_t}$ 中。
3. 后向 LSTM:从句子结尾到开头传播隐藏向量,将后续单词的信息存储在隐藏向量 $\overleftarrow{h_{t + 1}}$ 中。
4. 预测:将两个 LSTM 的隐藏向量 $[\overrightarrow{h_t}, \overleftarrow{h_{t + 1}}]$ 连接起来,作为逻辑回归模型的输入,进行 NER 类别的预测。
```mermaid
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([输入单词]):::startend --> B(单词嵌入):::process
B --> C(前向 LSTM):::process
B --> D(后向 LSTM):::process
C --> E(拼接隐藏向量):::process
D --> E
E --> F(逻辑回归模型):::process
F --> G([输出 NER 标签]):::startend
```
Lample 等人(2016)使用预计算的长度为 100 的嵌入,这些嵌入是在非常大的文档集合上训练得到的,采用了考虑邻域中单词顺序的 Word2vec 变体来计算嵌入。该模型在英文 CoNLL 数据上的 F 值达到 90.2%,在德文 CoNLL 数据上达到 73.1%。F 值是精确率和召回率的调和平均值,这表明英文模型平均能正确识别十分之九的名称,而德文模型只能正确识别约四分之三。
#### 3. RNN 在时间序列预测中的应用
RNN 还可用于预测时间序列的下一个值,时间序列是按时间顺序排列的一个或多个测量值序列,如某些时间点上几家公司的股票价格。在时间序列预测中,使用时间 t 的时间序列值向量 $x_t$ 作为 RNN 的输入,输出是目标值向量,如时间 t + 1 的时间序列值向量 $y_{t + 1}$。Mushtaq 等人(2019)对这类方法进行了概述,LSTM 模型在其中发挥着重要作用,可用于经济预测、气象学甚至监测工程过程。
#### 4. 循环神经网络的可视化
LSTM 具有广泛的记忆向量和隐藏向量,能够捕捉单词和短语之间的复杂关系。Str
0
0
复制全文
相关推荐







