Encoder 任务:给一排向量,输出另一排向量 一个block的内部结构: Decoder Decoder和Encoder长得很像其实! Encoder-Decoder 原始论文中,decoder的每一层都是和encoder的最后一层输出进行交叉注意力,但是其实并不一定这样就最好。 Training 训练的时候,模型看到的是完全正确的信息,而在测试的时候,模型看到的可能是错误的信息。