一级目录
二级目录
三级目录
引用:
https://www.bilibili.com/video/BV1h4411g7Pz/?spm_id_from=333.788.videocard.18
我们如何将输出的b1能够看到a1,a2,a3,a4,…所有的sequence呢?self-attention layer可以做到这一点。
首先通过q,k计算出a1与所有aj的相似度权重α1,j ,这样在训练的过程中,b1与谁相似、或者说想与谁的关系增强一点,就可以通过反向传播更新W矩阵,继而调整α1,j的大小。
比如b1只想要与a1有关系,那就把α1,1— α1,4权重调整成 1-0-0-0(softmax),这样就可以了!
我们可以看出,在求解b1的过程中可以并行,也可以并行的求解b1,b2,b3,b4! 这就大大提高了计算效率!
b1内部计算并行:
bi之间计算并行:
可能不同的Head学习到的关系不一样,所以用多个Head一起学习一下!
经过上面的变换我们发现,“天涯若比邻”这种现象,也就是说sequence之间的顺序信息丢掉了,所以为了添加位置信息,我们需要人为的加上位置编码!