【AIGC】多头注意力机制（MHA）的NumPy实现

原创

已于 2024-08-25 16:31:25 修改 · 837 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#numpy #人工智能

于 2024-07-25 02:21:01 首次发布

在AI领域，Transformer模型及其核心组件——多头注意力机制（MHA）——已经成为一种强大的工具，本文将使用Python的NumPy库来实现这一机制。

什么是多头注意力机制？

MHA是Transformer架构中的关键组成部分，它允许模型在多个位置并行地捕捉输入序列的不同方面。与传统的注意力机制相比，MHA通过将输入数据分割成多个头，每个头学习不同的表示，从而增强了模型的表达能力。

MHA的关键优势

表示多样性：每个头可以学习输入的不同特征，增加了模型的表示能力。
并行处理：多头可以同时工作，提高了模型的计算效率。
灵活性和适应性：头的数量和大小可以根据不同的任务进行调整。

MHA的简化实现

1. 定义Softmax函数

首先，我们需要一个Softmax函数来计算注意力权重：

import numpy as np

def softmax(x, axis=-1):
    exps = np.exp(x - np.max(x, axis=axis, keepdims=True))
    return exps / exps.sum(axis=axis, keepdims=True)

2. 实现缩放点积注意力

接着，我们实现计算缩放点积注意力的函数：

def scaled_dot_product_attention(q, k,

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SimpleLearing

关注关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

MHA多头注意力机制

强化学习曾小健

10-19

141

注意力机制的主要目的是从众多信息中选择出对当前任务目标更关键的信息.传统的单头注意力机制难以提取到更丰富的情景语义信息,进而对评论文本的情感分类的效果也产生了影响,为了从多个子空间上学习更加丰富的情感信息,本文采用了多头注意力 代替传统的单头注意力,如图 2. 首先将 LSTM 层产生的隐层向量表示拆分为多个头,线性变换后然后送入加性注意力层,重复计算 head_num 次,其中 head_num 为多头的个数,最后拼接所有的 attention 值作为下一模块的输入....

AI文本理解突破：注意力机制改进的TensorFlow实战

AIGC应用创新大全的博客

06-07

997

本文旨在为读者提供关于注意力机制在文本理解中应用的全面指南，从理论到实践，特别关注如何改进标准注意力机制以获得更好的性能。我们将覆盖从基础概念到TensorFlow实现的全过程。核心概念与联系：解释注意力机制的基本原理核心算法原理：深入解析自注意力机制数学模型和公式：注意力机制背后的数学项目实战：TensorFlow实现改进的注意力机制应用场景与未来趋势注意力机制：一种让模型能够动态关注输入数据中最相关部分的机制自注意力：一种特殊的注意力机制，用于计算序列中各个元素之间的相关性。

参与评论您还未登录，请先登录后发表或查看评论

多头注意力（MultiHeadAttention）python实现

消极的人永远是对的，积极的人选择勇往直前

03-14

1420

【代码】手撕多头注意力（MultiHeadAttention）python 笔记。

【万字长文】大模型是怎么“看东西”的？扒一扒那些注意力机制，感觉比想象中复杂多了！

热门推荐

weixin_50752408的博客

03-16

2万+

对于一个给定的查询向量，MHA 会对键向量进行加权求和，权重由查询向量和键向量之间的相似度计算得到，然后将得到的加权和乘以值向量进行输出。在多头机制下，输入的序列数据会被分成多个头，每个头进行独立的计算，得到不同的输出。其中 Q, K, V 分别表示查询向量、键向量和值向量，ℎ 表示头的数量，headi 表示第 i 个头的输出，WO 是输出变换矩阵。其中 dk 是键向量的维度，softmax相似度进行归一化，将每个键向量的权重计算出来，然后将权重乘以值向量，最后进行加权求和得到注意力输出。

多头注意力机制（Multi-Head Attention）

帆的博客

06-23

2317

多头注意力机制的引入是为了增强模型的能力，使其能够从不同的角度关注输入序列的不同部分，从而捕捉更多层次的信息。其中 (i) 表示第 (i) 个头，(\mathbf{W}_i^Q, \mathbf{W}_i^K, \mathbf{W}_i^V) 是线性变换矩阵。如果有 (h) 个头，每个头的输出维度是 (d_k)，则连接后的维度为 (h \times d_k = d_{model})。假设输入的维度是 (d_{model})，头的数量是 (h)，每个头的维度是 (d_k = d_{model} / h)。

AIGC革命背后的Transformer架构：深入浅出解析其工作原理

AI天才研究院

04-22

648

随着ChatGPT、MidJourney、Stable Diffusion等AIGC工具的爆发式增长，Transformer架构已成为现代人工智能的核心基础设施。本文旨在从技术原理层面对Transformer进行系统性解析，涵盖其架构设计、核心算法、数学模型及工程实现，帮助技术从业者和AI爱好者理解这一改变行业的底层技术。本文采用从基础到进阶的分层结构：先建立核心概念框架，再深入算法原理与数学模型，通过实战案例验证理论，最后探讨应用场景与未来趋势。

深入浅出：AIGC中Transformer架构的核心技术与实现

AI 原生应用开发的博客

04-24

868

随着AIGC技术爆发式发展，Transformer架构已成为文本生成（GPT）、图像生成（DALL-E）、语音处理（Whisper）等领域的核心底层架构。拆解Transformer核心组件（自注意力、位置编码、多头机制）的数学原理提供从基础模块到完整架构的Python实现方案结合AIGC典型场景分析工程优化策略对比主流变体（ViT、T5、Longformer）的技术演进路径基础理论：注意力机制数学推导、编码器-解码器架构设计工程实现：PyTorch框架下的模块化开发。

AIGC开发者必备：Transformer架构从入门到精通

AI 原生应用开发的博客

05-22

847

本文旨在为AIGC(AI Generated Content)开发者提供Transformer架构的全面技术指南，从基础概念到高级应用，覆盖理论原理和工程实践两个维度。Transformer核心组件解析自注意力机制的数学原理典型变体架构分析实际项目中的优化技巧前沿发展方向前4章聚焦理论原理和数学基础第5章提供完整的代码实现案例后4章探讨实际应用和进阶主题：基于自注意力机制的神经网络架构，2017年由Vaswani等人提出自注意力(Self-Attention)

多头注意力机制

qq_51691366的博客

10-08

1万+

从多头注意力的结构图中，貌似这个所谓的多个头就是指多组线性变换，但是并不是，只使用了一组线性变换层，即三个变换张量对 Q、K、V 分别进行线性变换，这些变化不会改变原有张量的尺寸，因此每个变换矩阵都是方阵，得到输出结果后，多头的作用才开始显现，每一个头开始从词义层面分割输出的张量，也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算，但是句子中的每个词的表示只获得一部分，也就是只分割了最后一维的词嵌入向量，这就是所谓的多头，将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

多头注意力（Multi-Head Attention, MHA）

彬彬侠的博客

02-12

1903

多头注意力（Multi-Head Attention,MHA）是Transformer模型（如BERT和GPT）中的核心机制，它扩展了缩放点积注意力（Scaled Dot-Product Attention），使模型可以从多个不同的角度关注输入序列的不同部分。这种机制提高了模型的表达能力，使其能够同时捕获不同的语义信息。计算过程：线性变换得到多个查询（Q）、键（K）、值（V）。计算多个缩放点积注意力。拼接所有注意力头的输出，并通过一个线性变换映射回原始维度。nn.MultiheadAttention

MHA多头注意力机制原理详解-“头”的本质

weixin_42072959的博客

10-17

914

多头注意力机制允许模型在不同表示子空间中并行地计算注意力，从而捕捉输入的不同方面。这使得模型能够在处理序列数据时，同时关注多个不同的信息粒度和上下文。多头注意力机制通过并行计算多个注意力头，在不同的表示子空间中捕捉输入数据的不同特征。这种机制增强了模型的能力，使得它能够在处理序列数据时，同时关注多个不同的信息粒度和上下文。

Transformer 中的多头注意力机制：一次多视角的“聚焦力”

Wei_sx的博客

06-17

974

特性说明Q/K/V 子空间将原始特征投射到多个子空间，学习多样关注模式并行头多头并行计算，效率高、表达丰富残差整合最终拼接 + 映射，将多路信息融合输出多头注意力机制是 Transformer 成为主流 AI 架构的关键，它赋予模型多角度理解数据的能力，同时兼顾并行效率。本文从原理、代码、案例、应用层面深入剖析，帮助你掌握这颗 AI 大脑中的“聚焦引擎”。

多头注意力机制：从原理到应用的全面解析

qq_56683019的博客

11-29

2866

多头注意力机制是Transformer架构的核心组件之一，它是对单一注意力机制的扩展。其核心思想是：通过多个不同的“头”并行地学习数据的不同子空间的相关性，从而提高模型的表达能力。多头注意力机制是现代深度学习的重要基石，其通过并行化的方式增强了注意力机制的表达能力和效率。在Transformer模型中的成功应用，使其成为众多前沿任务中的标配。无论是理论研究还是实际开发，多头注意力机制都值得深入理解和探索。d_k。

python手撕代码——多头注意力机制

zhangzhao147的博客

08-06

4730

多头注意力机制代码手撕

自然语言处理（十八）：Transformer多头自注意力机制

GeniusAng的博客

01-22

2290

自然语言处理（十八）：Transformer多头自注意力机制

深度学习代码|Multi-Headed Attention (MHA)多头注意力机制的代码实现

weixin_47748259的博客

02-09

5620

定义多头自注意力机制中的线性变换操作（在自注意力机制中，需要将输入的特征向量通过线性变换映射到不同的空间中，以便进行多头注意力的计算。将向量拆分为给定数量的头部，以获得多头注意。'''d_model：模型输入的特征维度；heads：注意力机制中的头数；d_k：每个头部中以向量表示的维度数；bias：是否使用偏置项'''#线性变换的线性层，输入为d_model，输出为heads*d_k'''

多头注意力机制 MHA

09-07

多头注意力机制（Multi-Head Attention，MHA）是一种在自注意力机制（Self-Attention）的基础上进行改进的技术。在自然语言处理任务中，MHA被广泛应用于机器翻译、文本生成等任务中。 MHA通过将输入序列分别映射到...