认识Transformer架构

一.前言

前面我们介绍了RNN相关系列的模型,在当今大模型时代大家认识一下就好了,而本章节我们是要来介绍一下重中之重的Transformer模型,本章节就来介绍一下他的架构,了解Transformer模型的作⽤以及了解Transformer总体架构图中各个组成部分的名称。

二.Transformer模型的作用

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, ⽂本⽣成等. 同时⼜可以构建预训练语⾔模型,⽤于不同任务的迁移学习.

在接下来的架构分析中, 我们将假设使⽤Transformer模型架构处理从⼀种语⾔⽂本到另⼀种语⾔⽂本 的翻译⼯作, 因此很多命名⽅式遵循NLP中的规则. ⽐如: Embeddding层将称作⽂本嵌⼊层, Embedding层产⽣的张量称为词嵌⼊张量, 它的最后⼀维将称作词向量等

三.Transformer总体架构图

3.1 Transformer总体架构 

输⼊部分

输出部分

编码器部分

解码器部分 

3.2 输⼊部分包含 

源⽂本嵌⼊层及其位置编码器

⽬标⽂本嵌⼊层及其位置编码器 

 

3.3 输出部分包含 

线性层

softmax层 

 

3.4 编码器部分 

由N个编码器层堆叠⽽成

每个编码器层由两个⼦层连接结构组成

第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接

第⼆个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接 

 

3.5 解码器部分 

由N个解码器层堆叠⽽成

每个解码器层由三个⼦层连接结构组成

第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接

第⼆个⼦层连接结构包括⼀个多头注意⼒⼦层和规范化层以及⼀个残差连接

第三个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接 

 

四.总结 

本章节主要是介绍了一下Transformer的架构,后续还会继续更新相关知识,期待大家的点赞关注加收藏

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值