Q,K,V
V类似于构建特征的基向量的概念,以上公式使用了残差连接,Pc作为V保证了残差相加的特征在一个特征空间上。
重点解释注意力公式attention:
如果Q,K相同,相乘得到的是一个对称矩阵,对称性适合捕捉双向关联,且计算效率高,缺点是无法建模方向性关系{如A导致B和B导致A无法作区分}。此时注意力机制退化成一种自相似性探测器。
当Q=K时,每一行时某个位置的主动“提问”,决定它关注哪些位置;每一列是某个位置的被动“应答”,决定它被哪些位置关注。
例如
行(查询者)\列(被检索者) |
A |
B |
C |
A |
0.8 |
0.2 |
0.1 |
B |
0.2 |
0.6 |
0.3 |
C |
0.1 |
0.3 |
0.7 |
行分析:
第一行,A作为查询者,A最关注自己,少关注B,C
列分析:
第一列。A作为被检索者,A最被自己关注,少量被B,C关注