- 博客(252)
- 收藏
- 关注
转载 【数据集】全面了解 GLUE 数据集:自然语言理解的试金石
特性内容本质多任务自然语言理解评估平台数量共 9 个任务,涵盖分类、推理、匹配等目标测试模型的通用语言理解能力工具与 HuggingFace 集成,加载简便意义促进了 NLP 领域的统一评估和快速发展。
2025-07-21 09:05:57
转载 【迁移学习】迁移学习理论:让AI举一反三
把在一个任务中学到的知识迁移到另一个相关但不同的任务中,从而提升新任务的学习效率和效果。举个例子:你学会了骑自行车,再学骑摩托车就容易多了,因为你已经掌握了平衡和转向的技能。这就是人类的“迁移能力”。机器学习中也一样:如果我们已经在数百万篇新闻上训练了语言模型(如 fastText、BERT),那么面对一个小型医疗文本分类问题,就可以迁移预训练的模型来加速学习、提升效果。将已有的知识有效迁移,减少新任务学习的难度与数据依赖,提升性能。
2025-07-18 08:48:03
5
转载 【fastText】fastText 词向量的迁移学习
fastText 的词向量本质上是Word2Vec + 子词分片,它支持在大规模语料上快速预训练,并能无缝迁移到下游小样本任务,尤其在 OOV 场景下表现出色。
2025-07-18 08:34:56
3
转载 【fastText】fastText 训练词向量
fastText 可以看作是Word2Vec + 子词分片的组合,同时保持超快的速度和小巧的文件体积。它是一个非常务实、工程化的词向量方案,尤其在海量文本和多语言环境下表现优秀。
2025-07-17 08:45:06
4
转载 【fastText】fastText 文本分类
fastText是一种高效的文本分类工具,其核心原理是将词向量与线性分类器结合,通过监督学习训练。它采用简洁的文本格式(标签以__label__开头),支持快速训练和预测,适用于情感分析、新闻分类等场景。fastText优势在于训练速度快、模型体积小,支持多语言和进阶技巧如2-gram优化。工业中常用于评论分析、商品分类等低延迟需求场景。该工具通过简单接口实现高效文本分类,是处理大规模语料的理想选择。
2025-07-16 09:17:07
5
转载 【fastText】fastText 工具介绍
fastText = Word2Vec + 子词建模 + 简单高效的文本分类如果你需要一个快速的、工业可用的词向量或分类器,它依然是一个非常棒的选择。
2025-07-15 09:38:51
6
转载 【Transformer】Transformer 模型构建
PyTorch 内置模块极大地减少你自己写 attention、残差、layernorm 的工作。后续只需定义训练循环就能跑一个小型 Transformer 模型。可扩展到任意数据集(翻译、摘要都行)
2025-07-15 09:00:45
3
转载 【Transformer】Transformer 的输出部分:从向量到词的最后一跳
步骤解释线性变换将隐藏向量映射到词表空间softmax变成概率分布采样/argmax决定下一个 token共享权重减少参数冗余提升生成质量一句话记住:Transformer 的输出部分是把深度语义向量「翻译」回人类词的最后一环,它并不复杂,但非常关键。
2025-07-10 09:00:32
10
转载 【Transformer】Transformer 中的解码器:文本生成的魔术师
模块作用防止看到未来 token对齐编码器的信息FFN增强每个 token 表达能力LayerNorm + 残差稳定训练,防止梯度消失堆叠结构逐层提升生成能力可以说,Transformer 的解码器层,就是大语言模型得以顺畅“说话”的秘密所在。如果没有它,我们今天就不会有 ChatGPT、Gemini 甚至是多模态 Sora 的流畅自然输出。
2025-07-10 08:42:33
10
转载 【Transformer】Transformer 中的编码器:文本理解的引擎核心
Transformer 的编码器由多个 编码器层(Encoder Layer)堆叠而成。每一个编码器层都遵循一个固定的结构模式,用于对输入序列进行层层抽象、提取上下文信息。输入:一个 token 序列(经过词向量和位置编码处理)输出:一个相同长度的序列,但每个 token 的表示都蕴含了其上下文语义模块作用多头注意力捕捉 token 之间的全局上下文依赖FFN对每个 token 做非线性处理,增强表达力Add & Norm稳定训练,保持信息流堆叠结构逐层深化对文本语义的理解。
2025-07-09 09:13:49
8
转载 【Transformer】理解 Transformer 中的子层连接结构:残差与规范化的协奏
残差连接(Residual Connection)规范化层(Layer Normalization)子层函数(如注意力、FFN)本体这个结构被称为 “Add & Norm”,是 Transformer 层的标准构成部分。项目说明子层连接定义残差连接 + 规范化(LayerNorm)使用位置每个注意力层和前馈层的外围结构设计目的提升训练稳定性、加快收敛、防止梯度消失变体形式模块化实现PyTorch 中可独立封装 sublayer block。
2025-07-09 08:44:31
6
转载 【Transformer】Transformer 中的规范化层解析:稳定背后的关键力量
规范化(Normalization)是深度学习中的一种“标准化”技术,它通过缩放和偏移数据,使得数据在进入下一层网络之前具备更好的数值特性。在 Transformer 中,使用的是(层归一化),不同于传统 CNN 中常用的。它的特点是:对每一个样本的每一个时间步的特征维度做规范化,而不是对 batch 维度。为什么不用 BatchNorm?序列长度不固定,批次之间差异大多头注意力结构中,每个 token 独立处理推理(inference)阶段不方便使用 BN 的统计量。
2025-07-08 17:53:06
19
转载 【Transformer】Transformer前馈全连接层
特征说明本质两层 MLP,用于 token 向量的非线性变换应用每层 Encoder/每个 Decoder Block 中深度可扩展为多层,或变成 MoE加速对每个 token 独立并行操作,适合 GPU相互不存在 token 间关系,是展示加工Transformer 当中的 FFN 是一个很常被忽视的模块,但是正是它提供了 Transformer 处理高维 token 的核心能力。选择合适的 FFN 结构,对模型性能有显著提升。
2025-07-08 08:54:03
10
转载 【Transformer】Transformer 中的多头注意力机制:一次多视角的“聚焦力”
特性说明Q/K/V 子空间将原始特征投射到多个子空间,学习多样关注模式并行头多头并行计算,效率高、表达丰富残差整合最终拼接 + 映射,将多路信息融合输出多头注意力机制是 Transformer 成为主流 AI 架构的关键,它赋予模型多角度理解数据的能力,同时兼顾并行效率。本文从原理、代码、案例、应用层面深入剖析,帮助你掌握这颗 AI 大脑中的“聚焦引擎”。
2025-07-07 09:03:24
9
转载 【Transformer】Transformer 中的注意力机制:AI大脑的聚焦之眼
给定一个查询(Query),在一堆键(Key)和值(Value)之间,通过计算相似度决定关注哪些值。这三者(Query、Key、Value)有点像是图书馆里的“检索系统”:Query(查询):你现在要查的信息。Key(关键字):所有可选信息的标签。Value(值):真正包含的内容。注意力机制的核心数学公式如下:QKTQK^TQKT:查询和键的点积,表示相似度。除以dkdkdkdk:防止数值爆炸。softmax:归一化为概率。
2025-07-02 09:36:19
11
转载 【Transformer】掩码(mask)张量
掩码张量是一个布尔或数值类型的张量,形状通常与注意力的输入(如查询和键)相匹配。其元素值决定了对应位置的注意力是否被激活(允许关注)或被屏蔽(忽略)。
2025-07-02 09:02:48
10
转载 【Transformer】位置编码(Positional Encoding)
位置编码是Transformer的关键设计之一,为模型提供了序列中元素的位置信息,弥补自注意力机制本身缺乏顺序感的缺陷。它采用基于正弦和余弦函数构造的周期性编码,简单高效,不需额外学习。
2025-06-30 09:00:57
15
转载 【Transform】Transformer模型概述
Transformer通过自注意力机制实现高效的序列建模,推动了NLP的发展,成为现代自然语言处理的核心架构之一。
2025-06-30 08:41:29
12
转载 【NLP】RNN模型构建⼈名分类器
模型训练的损失降低快慢代表模型收敛程度, 由图可知, 传统RNN的模型收敛情况最 好, 然后是GRU, 最后是LSTM, 这是因为: 我们当前处理的⽂本数据是⼈名, 他们的⻓ 度有限, 且⻓距离字⺟间基本⽆特定关联, 因此⽆法发挥改进模型LSTM和GRU的⻓距 离捕捉语义关联的优势. 所以在以后的模型选⽤时, 要通过对任务的分析以及实验对 ⽐, 选择最适合的模型.LSTM. 构建GRU模型的类class GRU.构建传统的RNN模型的类class RNN.构建传统RNN训练函数trainRNN.
2025-06-09 12:53:05
33
转载 【NLP】seq2seq模型架构实现英译法
调⽤训练函数并打印⽇志和制图 损失曲线分析: ⼀直下降的损失曲线, 说明模型正在收敛, 能够从数据中找到⼀些规律 应⽤于数据。过滤出符合我们要求的语⾔对 对以上数据准备函数进⾏整合, 并使⽤类Lang对语⾔对进⾏数值映射。第五步: 构建模型评估函数, 并进⾏测试以及Attention效果分析.第⼆步: 对持久化⽂件中数据进⾏处理, 以满⾜模型训练要求.第三步: 构建基于GRU的编码器和解码器.第四步: 构建模型训练函数, 并进⾏训练.构建基于GRU和Attention的解码器。构建基于GRU的解码器。
2025-06-06 12:38:14
30
转载 【NLP】Seq2Seq
Seq2Seq 模型为处理变长序列提供了一种有效的方式,它通过编码器和解码器的架构,结合注意力机制,进一步提升了多种任务的性能。这种模型在机器翻译和其他序列生成任务中得到了广泛应用。
2025-06-05 12:42:05
40
转载 【NLP】Teacher Forcing
教师强迫是一种有效的训练策略,可以加速 Seq2Seq 模型的收敛,同时减少模型在生成过程中因错误产生的连锁反应。然而,在使用教师强迫时,开发者需要平衡其优缺点,以便确保模型在实际应用中的有效性。理解如何在模型中实现和调整教师强迫是提升生成模型性能的重要一步。
2025-06-04 15:05:53
44
转载 【神经网络】感知机
随机梯度下降法的速度快,相比于批量梯度下降法,随机梯度下降是随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度就会大大加快,并且更有利于避免局部最优解,找到全局最优解的可能性大大增加。三维中,存在许多点(数据集中的正负实例点一一对应),存在一个平面能将这些点分开,并且一边是正的,一边是负的。通过训练数据集(实例的特征向量及类别),求得感知机模型,这里求出的是参数w和b,然后再输入一个新的实例,通过感知机预测从而给出相应的输出类别。其他的什么都不管,吃什么,累了咋办,天气咋样,不管,通通不管。
2025-06-03 09:15:29
18
原创 【Ollama】windows部署ollama并运行模型
官网:https://ollama.com/
2025-05-31 10:47:46
264
原创 【大模型微调】Qwen2.5-7B 微调行业模型
Qwen2.5-7B-Instruct 可以通过HuggingFace 下载,也可使用hf-mirror ,官网链接:https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct执行如下指令进行模型下载:cd /root/下载完成后查看文件rm -rf .git 清除掉.git目录,避免数据盘空间不足。
2025-05-21 09:01:23
501
原创 【大模型】部署
(base) inspur@root:~/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B$
2025-03-27 16:47:24
193
原创 【windows】字体安装手册
百度搜索XXX字体ttf文件进行下载附:宋体gb2312下载地址: https://www.downza.cn/soft/7780.html。
2024-06-21 18:34:24
531
转载 【大模型】Sora关键技术逆向工程图解 | 万字长文
Sora 生成的视频效果好吗?确实好。Sora 算得上 AGI 发展历程上的里程碑吗?我个人觉得算。我们知道它效果好就行了,有必要知道 Sora 到底是怎么做的吗?我觉得最好是每个人能有知情的选择权,任何想知道的人都能够知道,这种状态比较好。那我们知道 Sora 到底是怎么做出来的吗?不知道。马斯克讽刺 OpenAI 是 CloseAI,为示道不同,转头就把 Grok 开源了。且不论 Grok 效果是否足够好,马斯克此举是否有表演成分,能开源出来这行为就值得称赞。OpenAI 树大招风,目前被树立成技术
2024-04-16 12:55:24
432
转载 【大模型】图文详解Transformer为什么如此强大
比如,在句子 “The black cat drank the milk” 中,单词 “milk” 与 “drank” 非常相关,与 “cat” 稍微不那么相关,而与 “black” 无关。我们希望 “milk” 和 “drank” 之间产生高分数,“milk” 和 “cat” 之间产生略低的分数,而 “milk” 和 “black” 之间的分数则接近于零。换句话说,它会以这样的方式学习这些嵌入和权重:如果句子中的两个单词彼此相关,那么它们的向量就会对齐,从而产生较高的注意力分数。
2024-04-16 12:52:06
1130
原创 【Python】conda安装及使用
访问Anaconda的下载页面(https://www.anaconda.com/products/distribution),选择适合Windows的版本(64位或32位),然后下载。5.可以选择将Anaconda添加到系统的环境变量中,以便可以直接在命令行中使用conda命令。安装完成后,可以选择立即启动Anaconda Navigator或者稍后手动启动。可以选择安装时安装Microsoft VSCode编辑器,也可以稍后单独安装。4.按照安装向导的指示进行操作。3.打开下载的安装文件。
2024-04-04 17:49:52
456
原创 【Spring】Spring状态机
先来解释什么是“状态”( State )。现实事物是有不同状态的,例如一个自动门,就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机,也就是被描述的事物的状态的数量是有限个,例如自动门的状态就是两个 open 和 closed。状态机,也就是 State Machine ,不是指一台实际机器,而是指一个数学模型。说白了,一般就是指一张状态转换图。例如,根据自动门的运行规则,我们可以抽象出下面这么一个图。
2024-03-08 08:19:59
1290
原创 【大模型】大模型基础知识
GPT是[Generative Pre-trained Transformer]的缩写,意为生成式预训练变换器.G 代表 Generative (生成式): 这是一种机器学习模型,其目标是学习数据的分布,并能生成与训练数据相似的新数据。在自然语言处理 (NLP)领域,生成式模型可以生成类似于人类所写的文本。GPT模型作为一个生成式模型,能够根据给定的上下文生成连贯的文本。
2024-02-19 20:16:55
1595
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人