《前后端面试题
》专栏集合了前后端各个知识模块的面试题,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs,nodejs,mangoDB,SQL,Linux… 。
文章目录
- 一、本文面试题目录
-
-
- 11. 自注意力机制的计算公式是什么?请解释其中每个参数的含义。
- 12. 什么是“查询(Query)”、“键(Key)”、“值(Value)”?它们在自注意力中分别起什么作用?
- 13. 自注意力计算中,为什么要对注意力分数进行缩放(Scaling)?缩放因子的取值依据是什么?
- 14. 请描述掩码自注意力(Masked Self-Attention)的作用,它在Encoder和Decoder中是否都有使用?
- 15. 多头注意力(Multi-Head Attention)的原理是什么?与单头注意力相比有何优势?
- 16. 多头注意力中,不同“头”的关注点是否相同?为什么?
- 17. 多头注意力的输出是如何通过多个头的结果合并得到的?
- 18. 自注意力机制的时间复杂度是多少?为什么?
- 19. 如何优化自注意力机制的计算效率(如处理长序列时)?
- 20. 请举例说明自注意力机制在实际任务中如何捕捉序列中的依赖关系(如句子中的主谓关系)。
-
- 二、120道Transformer面试题目录列表
一、本文面试题目录
11. 自注意力机制的计算公式是什么?请解释其中每个参数的含义。
答案:
自注意力机制的计算公式为:(\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V)。
其中,(Q)为查询向量(Query),(K)为键向量(Key),(V)为值向量(Value),它们通常是由输入向量通过不同的权重矩阵线性映射得到。(d_k)是键向量(K)的维度。(QKT)计算的是查询向量和键向量的点积,得到注意