一、摘要
主要的序列转换模型基于复杂的循环或卷积神经网络,包括编码器和解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构Transformer,它完全基于注意力机制,完全摒弃了递归和卷积。对两个机器翻译任务的实验表明,这些模型在质量上更优越,同时更可并行化,并且需要的训练时间显着减少。我们的模型在WMT2014英德翻译任务上实现了28.4 BLEU分数,比现有的最佳结果(包括集成)提高了2 BLEU分数以上。在WMT 2014英法翻译任务上,我们的模型在8个GPU上训练3.5天后,建立了一个新的单模型state-of-the-art BLEU得分41.8,这只是最好的训练成本的一小部分。文献中的模型。我们表明,Transformer通过成功地将其应用于具有大量和有限训练数据的英语选区解析,可以很好地推广到其他任务。
关于BLEU分数的介绍,可以查看下面的链接。