【2025年AI大模型学习攻略】最全路线图+270道高频面试题，一篇在手，求职无忧！

AI大模型-大飞

于 2025-09-01 13:38:00 发布

阅读量829

点赞数 33

CC 4.0 BY-SA版权

文章标签： LangGraph 人工智能开源数据库 AI 大模型 Transformer

本文链接：https://blog.csdn.net/m0_63171455/article/details/151066263

一、Attention

1、讲讲对Attention的理解？

Attention机制是一种在处理时序相关问题的时候常用的技术，主要用于处理序列数据。
核心思想：
在处理序列数据时，网络应该更关注输入中的重要部分，而忽略不重要的部分，它通过学习不同部分的权重，将输入的序列中的重要部分显式地加权，从而使得模型可以更好地关注与输出有关的信息。
在序列建模任务中，比如机器翻译、文本摘要、语言理解等，输入序列的不同部分可能具有不同的重要性。传统的循环神经网络（RNN）或卷积神经网络（CNN）在处理整个序列时，难以捕捉到序列中不同位置的重要程度，可能导致信息传递不够高效，特别是在处理长序列时表现更明显。
Attention机制的关键是引入一种机制来动态地计算输入序列中各个位置的权重，从而在每个时间步上，对输入序列的不同部分进行加权求和，得到当前时间步的输出。这样就实现了模型对输入中不同部分的关注度的自适应调整。

2、`Attention`的计算步骤是什么？

具体的计算步骤如下：

计算查询（Query）：查询是当前时间步的输入，用于和序列中其他位置的信息进行比较。
计算键（Key）和值（Value）：键表示序列中其他位置的信息，值是对应位置的表示。键和值用来和查询进行比较。
计算注意力权重：通过将查询和键进行累积运算，然后应用softmax函数，得到注意力权重。这些权重表示了在当前时间步，模型应该关注序列中其他位置的重要程度。
加权求和：根据注意力权重将值进行加权求和，得到当前时间步的输出。

在Transformer中，Self-Attention 被称为"Scaled Dot-Product Attention"
其计算过程如下：

对于输入序列中的每个位置，通过计算其与所有其他位置之间的相似度得分（通常通过点积计算）。
对得分进行缩放处理，以防止梯度爆炸。
将得分用softmax函数转换为注意力权重，以便计算每个位置的加权和。
使用注意力权重对输入序列中的所有位置进行加权求和，得到每个位置的自注意输出。

$$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$$

3、`Attention`机制和传统的`Seq2Seq`模型有什么区别？

Seq2Seq模型
是一种基于编码器-解码器结构的模型，主要用于处理序列到序列的任务，例如机器翻译、语音识别等。
传统的Seq2Seq模型
只使用编码器来捕捉输入序列的信息，而解码器只从编码器的最后状态中获取信息，并将其用于生成输出序列。

而Attention机制则允许解码器在生成每个输出时，根据输入序列的不同部分给予不同的注意力，从而使得模型更好地关注到输入序列中的重要信息。
self-attention 和target-attention的区别？

self-attention
是指在序列数据中，将当前位置与其他位置之间的关系建模。

它通过计算每个位置与其他所有位置之间的相关性得分，从而为每个位置分配一个权重。这使得模型能够根据输入序列的不同部分的重要性，自适应地选择要关注的信息。

target-attention
则是指将注意力机制应用于目标（或查询）和一组相关对象之间的关系。

它用于将目标与其他相关对象进行比较，并将注意力分配给与目标最相关的对象。这种类型的注意力通常用于任务如机器翻译中的编码-解码模型，其中需要将源语言的信息对齐到目标语言。
因此，自注意力主要关注序列内部的关系，而目标注意力则关注目标与其他对象之间的关系。这两种注意力机制在不同的上下文中起着重要的作用，帮助模型有效地处理序列数据和相关任务。

4、在常规`attention`中，一般有k=v，那self-attention 可以吗?

self-attention实际只是attention中的一种特殊情况，因此k=v是没有问题的，也即K，V参数矩阵相同。实际上，在Transformer模型中，Self-Attention的典型实现就是k等于v的情况。Transformer中的Self-Attention被称为"Scaled Dot-Product Attention"，其中通过将词向量进行线性变换来得到Q、K、V，并且这三者是相等的。

5、目前主流的`attention`方法有哪些？

讲自己熟悉的就可：

Scaled Dot-Product Attention: 这是Transformer模型中最常用的Attention机制，用于计算查询向量（Q）与键向量（K）之间的相似度得分，然后使用注意力权重对值向量（V）进行加权求和。
Multi-Head Attention: 这是Transformer中的一个改进，通过同时使用多组独立的注意力头（多个QKV三元组），并在输出时将它们拼接在一起。这样的做法允许模型在不同的表示空间上学习不同类型的注意力模式。
Relative Positional Encoding: 传统的Self-Attention机制在处理序列时并未直接考虑位置信息，而相对位置编码引入了位置信息，使得模型能够更好地处理序列中不同位置之间的关系。
Transformer-XL: 一种改进的Transformer模型，通过使用循环机制来扩展Self-Attention的上下文窗口，从而处理更长的序列依赖性。

6、`self-attention` 在计算的过程中，如何对padding位做mask？

在 Attention 机制中，同样需要忽略 padding 部分的影响，这里以transformer encoder中的self-attention为例：self-attention中，Q和K在点积之后，需要先经过mask再进行softmax，因此，对于要屏蔽的部分，mask之后的输出需要为负无穷，这样softmax之后输出才为0。

7、深度学习中attention与全连接层的区别何在？

这是个非常有意思的问题，要回答这个问题，我们必须重新定义一下Attention。
Transformer Paper里重新用QKV定义了Attention。所谓的QKV就是Query，Key，Value。
如果我们用这个机制来研究传统的RNN attention，就会发现这个过程其实是这样的：RNN最后一步的output是Q，这个Q query了每一个中间步骤的K。Q和K共同产生了Attention Score，最后Attention Score乘以V加权求和得到context。那如果我们不用Attention，单纯用全连接层呢？
很简单，全链接层可没有什么Query和Key的概念，只有一个Value，也就是说给每个V加一个权重再加到一起（如果是Self Attention，加权这个过程都免了，因为V就直接是从raw input加权得到的。）
可见Attention和全连接最大的区别就是Query和Key，而这两者也恰好产生了Attention Score这个Attention中最核心的机制。而在Query和Key中，我认为Query又相对更重要，因为Query是一个锚点，Attention Score便是通过计算与这个锚点的距离算出来的。任何Attention based algorithm里都会有Query这个概念，但全连接显然没有。
最后来一个比较形象的比喻吧。如果一个神经网络的任务是从一堆白色小球中找到一个略微发灰的，那么全连接就是在里面随便乱抓然后凭记忆和感觉找，而attention则是左手拿一个白色小球，右手从袋子里一个一个抓出来，两两对比颜色，你左手抓的那个白色小球就是Query。

二、Transformer面试问题汇总

1、Transformer Encoder 有什么子层？

Transformer 编码器（Encoder）由六个相同层构成，，每层的主要子层包括两个部分：
多头自注意力机制（Multi-Head Self-Attention Mechanism）：这一层允许编码器查看输入序列中的其他位置来更好地编码一个单词。它由多个头组成，每个头独立地学习输入数据的不同方面。
前馈神经网络（Feed-Forward Neural Network）（Linear+relu+dropout+Linear）：这是一个简单的全连接神经网络，它对每个位置的注意力向量进行处理，但是对不同位置是独立的。
除了这些主要子层，还有一些重要的组件：
层归一化（Layer Normalization）：在多头自注意力机制和前馈神经网络之后，通常会有层归一化步骤，以稳定网络的学习过程。
残差连接（Residual Connections）：在每个子层之后，都会加上一个残差连接，然后进行层归一化。残差连接有助于避免在网络中出现梯度消失的问题。这种结构的组合使得Transformer编码器非常有效且灵活，适用于处理各种顺序数据任务。

2、Transformer self-attention的公式是什么？

3、Transformer的优缺点有哪些？

具有并行处理能力：与基于循环的模型（如LSTM和GRU）相比，Transformer可以并行处理整个序列，大大提高了训练效率。
长距离依赖：借助多头自注意力机制，Transformer能够有效捕捉序列中长距离的依赖关系，这对于理解文本等复杂序列数据至关重要。
灵活性和泛化能力：Transformer模型在多种任务上都表现出色，包括机器翻译、文本生成、语音识别等。可扩展性：Transformer模型可以通过增加层数来提高其复杂性和学习能力，使其适用于大规模数据集和复杂任务。
更好的性能：在许多NLP任务中，Transformer模型超越了以往的技术，设立了新的性能标准。缺点计算资源密集：尽管Transformer允许并行化，但其自注意力机制涉及大量的计算，对计算资源（尤其是内存）的需求很高。
可解释性不足：与某些传统模型相比，Transformer的决策过程更难解释和理解。过拟合风险：Transformer模型因其大量的参数而容易过拟合，尤其是在数据较少的情况下。
训练需要精心调优：由于模型的复杂性，找到最佳的训练参数（如学习率、层数、头数等）可能需要大量的实验和调整。
长序列挑战：尽管Transformer在处理长距离依赖方面表现出色，但处理非常长的序列时，性能可能会下降，因为自注意力机制的计算成本随序列长度的增加而显著增加。

总的来说

尽管Transformer有一些局限性，但其在处理复杂序列任务方面的优势使其成为当前最流行和最有效的深度学习架构之一。
局部信息的获取不如RNN和CNN强：Transformer关注的全局关系，而RNN在计算过程中更关注局部，对距离更加敏感。

4、Encoder端和Decoder端是如何进行交互的？

在 Transformer 模型中，编码器（Encoder）和解码器（Decoder）通过一个特殊的注意力机制进行交互，这个机制通常被称为 "编码器-解码器注意力" 或 "交叉注意力"（Cross-Attention）
以下是这种交互的详细步骤：

编码器处理输入序列：编码器首先处理输入序列，通过自注意力和前馈网络生成一系列上下文表示。这些表示包含了输入序列中每个元素的信息，以及它们之间的相对关系。
解码器自注意力层：在解码器端，每个解码器层首先通过自注意力机制处理先前生成的输出（例如，在序列生成任务中的先前生成的单词）。这个过程与编码器中的自注意力相似，但有一个关键差异：为了保证自回归属性（即只能使用当前位置之前的信息），解码器在自注意力计算中应用了掩码（masking）
交叉注意力层：这是编码器和解码器交互的关键部分。在这一层，解码器的每个元素（或步骤）会对编码器的所有输出进行注意力计算。简而言之，解码器在生成每个元素时都会考虑整个输入序列的上下文信息。

查询（Query）：来自解码器的表示。
键（Key）和值（Value）：来自编码器的表示。

5、Transformer中为什么需要线性变换？

K、Q、V分别是输入向量经过不同的线性变换矩阵$W_k$、$Q_k$、$V_k$计算得到。在$QK^T$部分，线性变换矩阵将KQ投影到了不同的空间，增加了表达能力（这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题），这样计算得到的注意力矩阵的泛化能力更高。

6、Transformer attention的注意力矩阵的计算为什么用乘法而不是加法？

Transformer attention的注意力矩阵的计算用乘法是为了计算速度更快。在计算复杂度上，乘法和加法理论上的复杂度相似，但是在实践中，乘法可以利用高度优化的矩阵乘法代码（有成熟的加速实现）使得点乘速度更快，空间利用率更高。

7、transformer中的attention为什么scaled?

因为虽然矩阵加法的计算更简单，但是 Add形式套着tanh和V，相当于一个完整的隐层。在整体计算复杂度上两者接近，但是矩阵乘法已经有了非常成熟的加速实现。在（即 attention-dim）较小的时候，两者的效果接近。但是随着增大，Add 开始显著超越 Mul。
极大的点积值将整个 softmax 推向梯度平缓区，使得收敛困难。也就是出现了高赞答案里解释的“梯度消失”。
这才有了 scaled。所以，Add 是天然地不需要 scaled，Mul 在较大的时候必须要做 scaled。个人认为，Add 中的矩阵乘法，和 Mul 中的矩阵乘法不同。前者中只有随机变量 X 和参数矩阵 W 相乘，但是后者中包含随机变量 X 和随机变量 X 之间的乘法。

8、Transformer attention计算注意力矩阵的时候如何对padding做mask操作的？

padding位置置为-1000，再对注意力矩阵进行相加。

9、介绍一下Transformer的残差结构及意义

Transformer 模型中的残差连接（Residual Connection）是一种重要的网络结构设计，它直接将某一层的输入添加到后面层的输出上。以下是残差结构的介绍及其意义：

残差结构的介绍

在 Transformer 中，每个编码器和解码器层都包含残差连接。具体来说，对于一个给定的层（比如自注意力层或前馈神经网络层），其处理过程可以总结为：

层内处理：输入首先通过层内的主要操作（如自注意力或前馈神经网络）。
加上残差：将这个操作的原始输入直接加到操作的输出上。
层归一化：在大多数情况下，加法操作之后会接一个层归一化（Layer Normalization）步骤。

这种结构可以表示为：$Output =Normalize(Layer(x) + x)$，其中Layer(x)表示层的操作， x 是输入。

残差结构的意义

缓解梯度消失问题：深度神经网络中常见的问题之一是梯度消失，这会使得训练过程变得困难。残差连接允许梯度直接流过网络，有助于保持梯度的稳定性，从而缓解梯度消失问题。
加速收敛：由于残差连接的帮助，网络可以更快地学习，加速收敛过程。这是因为它允许网络在训练早期阶段更有效地传播信息和梯度。
促进深层网络训练：残差连接使得构建更深层的网络变得可行，因为它们减少了训练过程中的复杂性和困难。
保留信息：残差连接确保了即使经过多个层的处理，输入信息也不会被完全替代或丢失。这在处理长序列时尤其重要，因为信息需要在整个网络中有效传递。
支持特征重用：残差连接通过将较低层的特征直接传递到后面的层，支持了特征的重用。这意味着网络可以学习使用并重用早期层的特征，而不是每次都重新学习。

Transformer 中的残差连接是提高模型性能、稳定性和训练效率的关键设计之一。

它们使得深层网络的训练成为可能，同时也确保了信息在网络中的有效传递。

篇幅限制，就只展示部分题目了。小编已经把所有题目答案都整理好了。有需要查漏补缺扫下方二维码即可免费获取到