实践：动手搭建神经机器翻译模型

Alice熹爱学习

于 2020-09-22 11:57:06 发布

阅读量755

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理面试基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/108728566

本文介绍了如何动手搭建神经机器翻译模型，包括数据预处理、建立模型、定义损失函数和优化器。使用ManyThings.org的英语-法语数据集，通过Encoder-Decoder LSTM结构，解释了序列表示、词嵌入、训练与推断过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们现在几乎每天都会用到翻译软件，无论是看论文看源码看新闻，总是会遇见一些不熟悉不认识的单词，关于机器翻译背后的原理我们在前一篇文章中已经讲到了，今天就来动手实践一下。

在这个例子中我们会用一个很小的数据集来理解一遍流程，接下来主要会有两大步骤，一个是 NMT 的训练，一个是 NMT 的推断预测。

NMT 的训练步骤：

序列的表示：主要是将文本转化为序列数据。
词嵌入：用一个低维向量浓缩表达每个单词，使用嵌入层来实现。
训练 Encoder：输入数据进入编码器，学习出隐藏状态。
连接 Encoder 和 Decoder：Encoder 的最终隐藏状态作为 Decoder 的初始状态。
训练 Decoder：Decoder 的作用是给出目标序列的一个词，可以预测出下一个词。

不过训练好的 NMT 不能直接用来翻译新的数据，因为这时并不知道目标句子是什么，所以翻译的流程和训练的流程有些不同。

NMT 的推断预测：

序列的表示：主要是将文本转化为序列数据。
词嵌入：用一个低维向量浓缩表达每个单词，使用嵌入层来实现。
Encoder：将预处理好的数据输入进编码器学习隐藏状态。
连接 Encoder 和 Decoder：Encoder 的最终隐藏状态作为 Decoder 的初始状态。
Decoder 预测：解码器的初始输入除了上面的状态向量，还有一个开始标记 <start>，然后可

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。