汀沿河-CSDN博客

原创 9 强化学习- RLHF/PPO/DPO/GRPO

其中，SFT让模型通过学习训练数据数据分布的方式来提高模型在特定任务或指令上的表现，与其不同的是，RLHF使用人类反馈来定义奖励函数，然后通过强化学习算法优化模型。让模型能生成符合人类喜好的回复。

2025-07-17 15:57:40 629

原创 8.7 文档解析工具使用踩坑

版本问题，注意docling==2.41.0, 有坑，加载不到模型。但是，我相信你跟我一样，网速不行。因此你的模型下载失败，所以你需要独立下载！假设你网速很快，运行下面的命令在终端进行安装。

2025-07-15 11:33:00 338

向量数据库是一种特殊的数据库，它以多维向量的形式保存信息。根据数据的复杂性和细节，每个向量的维数变化很大，从几个到几千个不等。这些数据可能包括文本、图像、音频和视频，使用各种过程(如机器学习模型、词嵌入或特征提取技术)将其转换为向量。矢量数据库的主要优点是它能够根据数据的矢量接近度或相似性快速准确地定位和检索数据。这允许基于语义或上下文相关性的搜索，而不是像传统数据库那样仅仅依赖于精确匹配或设置标准。

2025-07-14 14:28:57 609

原创 8.2 文档预处理模块（二）

在构建更复杂的 RAG 架构之前，我们先从最基础的版本入手。整个流程可以分为以下几个关键步骤：1.数据导入：加载并预处理原始文本数据，为后续处理做好准备。2.文本分块：将长文本分割成较小的段落或句子，以提高检索效率和相关性。3.创建 Embedding：使用嵌入模型将文本块转换为向量表示，便于进行语义层面的比较与匹配。4.语义搜索：根据用户输入的查询内容，在已有向量库中检索出最相关的文本块。5.响应生成：基于检索到的相关内容，结合语言模型生成最终的回答输出。

2025-07-09 19:15:17 928

原创 8.4 RAG-排序部分

当检索器从索引集合中检索多个上下文时，这些上下文与用户的查询的相关性可能不同，一些上下文可能非常相关（在图1中用红框突出显示），而另一些上下文可能只有轻微的相关甚至不相关（在图1中用绿框和蓝框高亮显示）。重新排序的任务是评估这些上下文的相关性，并优先考虑最有可能提供准确和相关答案的上下文，让LLM在生成答案时优先考虑这些排名靠前的上下文，从而提高响应的准确性和质量。图1：在RAG中重新排序，重新排序的任务是评估这些上下文的相关性，并优先考虑最有可能提供准确和相关答案的上下文（红框）另外还有开源模型，如。

2025-07-09 17:41:52 718

原创 8.3 RAG-召回

推荐直接看原视频（外网）这里不妨借鉴前人经验，参考。过去几个月RAG的论文也像是把传统搜索的方案，使用LLM轮番做了一遍范式更新。本章我们先围绕唠上两句。直接使用用户Query进行向量检索，召回率往往不高，原因有以下几个以上问题其实覆盖了两个点：Query本身包含信息的多样性，搜索索引的多样性。下面我们结合新老论文，以及langchain新增的一些功能，来分别介绍~

2025-07-09 17:38:45 615

原创 8.5 RAG-总结

1. RAG1.0 的痛点和解决方向2. 如何有效 Chunking3. 如何准确召回4. 高级 RAG 和预处理5. RAG 未来如何发展6. Q&A分享嘉宾｜张颖峰英飞流（上海）信息科技有限公司创始人。

2025-07-09 17:33:55 812

原创 8.2 RAG-文档预先处理

最近在给智能客服项目选择 RAG 知识库的数据处理工具，就重新看了一遍目前主流的文档处理项目，包括这6个工具，并且对它们进行了简单对比。

2025-07-09 17:26:25 679

原创 8.1 RAG评估指标

大型语言模型（LLMs）作为一种生成式AI技术，在近两年内获得了显著的关注和应用。但是在实际部署中，LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成（Retrieval Augmented Generation，RAG）通过为LLM提供额外的外部知识和上下文，有效地解决了这些问题。截至2024年RAG已经成为应用生成式AI领域中最具影响力的技术之一。事实上，几乎所有基于LLM的应用都在某种程度上采用了RAG技术。RAG通过引入非参数记忆访问来增强LLM的参数记忆能力为了充分发挥RAG的

2025-07-09 17:20:49 979

原创 8 RAG基础知识

RAG 是一种很有前途的提高 LLM 准确性和可靠性的方法，具有事实依据、减少偏见和降低维护成本等优点。虽然未知识别和检索优化等领域仍然存在挑战，但正在进行的研究正在突破 RAG 功能的界限，并为更值得信赖和信息丰富的LLM应用铺平道路。

2025-07-09 17:10:03 625

原创 7 大模型的位置编码

特性绝对位置编码学习型位置编码相对位置编码旋转位置编码 (RoPE)位置信息类型绝对位置绝对位置相对位置相对位置实现难度简单中等较复杂较复杂计算效率高中中高适应序列长度固定长度，泛化较差固定长度，泛化较差动态长度，泛化较好动态长度，泛化较好应用场景短文本，中短文本短文本，中短文本长文本，复杂任务长文本，复杂任务RoPE和相对位置编码在处理长文本上表现出色，而学习型位置编码更适合较固定长度的序列。

2025-07-08 17:34:02 618

原创 6 微调方法选择

1. 核心方法对比2. 应用场景推荐

2025-07-07 17:49:23 404

原创 5 Adapter Tuning

然后使用AdapterFusion组合N个适配器中的知识，将预训练参数Θ和全部的Adapter参数Φ固定，引入新的参数Ψ，使用N个下游任务的数据集训练，让AdapterFusion学习如何组合N个适配器解决特定任务。与全模型微调方法相比，虽然降低了训练成本，但是在模型中新添加了参数，会导致模型在推理过程中效率的降低，在实际中应用中这个缺点会被放大。Adapter方法在模型中添加少量参数，在训练时将模型主体冻结，使Adapter块学习下游任务的知识，减少了训练时的参数量并达到了全模型微调的效果。

2025-07-07 17:36:20 966

原创微调前戏-模型显存计算

随着（LLM）的规模从数十亿扩展到万亿参数，显存需求成为开发者面临的核心挑战。本文分析大模型在不同阶段（训练、推理）的显存占用计算公式，以便对显存资源进行预估。

2025-07-05 15:40:17 1024

原创 4 大模型高效微调--P-TuningV2

在（NLP）领域，（如BERT、GPT-3）通过大规模无监督学习获得了强大的语义理解能力。然而，将这些模型适配到具体下游任务时，传统的‌‌需要更新数十亿参数，计算成本高昂。‌‌技术应运而生，其核心思想是通过调整输入文本的提示（Prompt），而非修改模型参数，来激活模型的特定能力。早期的‌‌通过引入可训练的连续型Prompt向量，显著提升了模型在文本理解（NLU）任务上的效果。然而，它在‌‌、‌‌和‌‌等方面存在不足。‌‌的提出，正是为了系统性解决这些问题。

2025-07-05 14:59:58 785

原创 3 大模型训练P-Tuning

近年来，随着（如GPT）的规模不断扩大，。传统的（Full Fine-Tuning）虽然有效，但其高昂的计算成本和对大规模标注数据的依赖，让许多实际场景望而却步。而基于人工设计提示词（Prompt）的方法虽然轻量，但依赖专家经验且效果不稳定。‌正是在这样的背景下诞生。它通过一种名为“”（Continuous Prompts）的技术，巧妙地平衡了效率与性能，是大模型适配下游任务基础性微调技术之一。

2025-07-05 14:46:55 667

原创 2 大模型高效参数微调；prompt tunning

传统的Fine-tuning通过在预训练模型的基础上添加任务相关层（如分类器）并更新所有参数来适应具体任务。参数低效：每个下游任务需独立保存完整模型副本。灾难性遗忘：微调可能覆盖预训练模型中的通用知识。相比之下，Prompt Tuning的核心思想是通过在输入中插入可学习提示（Prompt），以极小的参数调整来适配下游任务。这种方法仅需优化提示相关的参数（通常占总参数的0.1%~1%），而冻结原始模型参数。如Figure1所示，Prompt Tuning所需要训练的参数最小。

2025-07-05 14:44:35 734

原创 1 大模型高效微调 Prefix Tuning

（前缀调优）是一种针对预训练（如GPT、T5）的高效微调技术，通过在输入序列前添加，引导模型适应特定任务。与传统微调（更新全部参数）相比，它仅训练少量参数（通常为0.1%~1%），即可达到媲美的效果，同时减少计算开销。是一组连续的向量，插入到模型的输入或隐层中，作为“任务指引信号”调整模型的。训练时，预训练模型的大部分参数固定，仅优化Prefix参数，使模型在保留通用知识的前提下，适配下游任务。如Figure1所示，。。如Figure2所示，针对，只在transformer每一层输入x之前添加前缀。

2025-07-05 14:40:55 718

原创 0 LORA

self.original_layer = original_layer # 原始预训练层（如nn.Linear）self.original_layer.requires_grad_(False) # 冻结原参数self.lora_A = nn.Parameter(torch.randn(d, rank)) # 低秩矩阵Aself.lora_B = nn.Parameter(torch.zeros(rank, k)) # 低秩矩阵B。

2025-07-05 14:35:43 540

原创面试资料-目录

0。

2025-07-05 13:38:32 127

原创 8.1 prefix Tunning与Prompt Tunning模型微调方法

Prefix-Tuning 会初始化一个可训练的参数矩阵（Pθ），其维度为。在输入阶段，该前缀矩阵会与原始输入的嵌入向量，形成的结构。5×768。

2025-07-05 12:52:37 340

原创 5 BERT预训练模型

所以我又想着对Robert使用训练集进行预训练，然后再尝试进行预测吧！最近科大讯飞比赛又开始了。目前我参加了基于文本的违禁词分类挑战赛，这是一个文本分类比赛。目前的分数在0.67左右，但是后续使用好几个策略都没提高分数！

2025-06-28 15:33:11 225

原创大模型成长过程-预训练tokenizer

大模型（如GPT、BERT、PaLM等）的成长历程可以看作是一个技术栈的持续进化，涉及预训练、微调、强化学习、对齐（Alignment）等关键阶段。每个阶段解决不同问题，推动模型从“通用语言模型”发展为“有用、安全、可控的AI助手”。首先预训练是一个基础过程，好比一个刚入武术道的初学者，把扎实的基本功打牢固然后才能为后续的难题发功发力。我们这里主要讨论生成式大语言模型。目标就是一个预测下一个token是什么的语言模型。核心目标：构建高质量、多样化的训练语料库关键技术决策：数据来源：通用文本：Common

2025-06-14 19:03:17 842

原创 mac：大模型系列测试

可以看到，经过mac可以满足微调以及推理测试，后面我会继续使用unsloth测试mac的能力。内容包含：获取文本数据、拉取大模型、使用不同的策略进行微调、对齐等过程！

2025-06-08 18:00:40 540

原创 3 大模型推理速度

首先我们要知道什么是大模型推理。其实，就是大模型如何输出，怎么输出，输出什么的过程。目前大模型的架构一般decoder-only架构的大模型通常采用自回归的方式生成输出语句，自回归的方式是逐token的进行输出。在每一次生成步中，大模型将过去的全部token序列作为输入，包括输入token以及刚刚生成的token，并生成下一个token。随着序列长度的增加，生过文本这一过程的时间成本也显著增加。

2025-02-10 15:57:50 956

原创 2 Text2SQL 智能报表方案介绍

因此Text-to-SQL也可以被简写为NL2SQL。·输入：自然语言问题，比如“查询表t_user的相关信息，结果按id降序排序，只保留前10个数据”·输出：SQL，比如“SELECT*FROMt_userORDERBYidDESCLIMIT10”

2025-01-20 16:15:04 4359

原创 1 基于Swarm的大模型应用：一个天气助手

本次实践主要是基于open Ai 的swarm与deepSeek模型，定制一个大模型智能体，帮助我们认识swam（多智能体写作文）以及如何使用；

2025-01-03 19:21:28 688

原创 0 大模型本地部署

首先是Agent（智能体）：大模型应用中的Agent是指基于大型预训练模型开发的智能体，它们能够执行各种复杂的任务，如自然语言处理（NLP）、图像识别、语音处理等。这些Agent通常是通过深度学习框架和大量的数据进行训练，以获得对特定领域问题的理解能力和解决能力。之前对大模型介绍以及微调写了很多，但是没有一个成熟的应用案例以及体系，从现在我们一起开始基于大模型应用学习，如何落地这些大模型。这里简单介绍，后续直接上代码；

2025-01-03 18:32:00 224

原创 8 时间序列相关工具介绍

NeuralForecast

2024-09-26 15:02:29 1261 2

原创 00 目前大模型介绍

具体来说，可以将输入文本分割成多个片段，并从中随机选取若干片段进行掩码，然后将这些掩码片段的位置打乱，形成 Part A 和 Part B 的输入。4、为了区分part A和part B的token的位置信息，GLM采用了二维位置编码，也就是每个token用两个位置id来表示，这样一来就可以将token embedding和其对应的两个position embedding相加了。我的理解是：因为被mask的片段间实际上attention是单向的，打散可以完整的捕捉到不同片段之间的依赖关系】

2024-09-11 10:05:20 1830

原创 16 训练自己语言模型

在很多场景下下，可能微调模型并不能带来一个较好的效果。因为特定领域场景下，通用话模型过于通用，出现多而不精。样样通样样松；本章主要介绍如何在特定的数据上对模型进行预训练；训练自己的语言模型（从头开始训练）与微调（fine-tuning）预训练模型之间的选择取决于多个因素，包括但不限于数据特性、任务需求、计算资源和时间成本。

2024-09-09 17:51:59 1339

原创 5 典型环境空气质量预测

20240905：今天比较搞笑的是，使用大模型的选手由于环境问题一直难以部署模型。在于官方battle，很是激烈。官方提供python3.8. 但是目前版本很难在这个环境部署比较新颖的东西，官方可能嫌麻烦不愿意更换环境。我是觉得可惜了，xgboost 对比大模型条件下，如果是我，我反正是会开一个环境给选手，给创新一点空间吧！这个比赛也是着实有趣，国内的比赛真的没法说，没啥好货，想学习东西还是去kaggle吧；值得注意的是选手当中有一个使用了大模型，我也很好奇怎么做的！使用初赛的模型，直接对新的数据推导。

2024-09-05 11:15:42 521

有关自然语言理解情感分类任务相关的数据集合

数据： 2023“SEED”第四届江苏大数据开发与应用大赛-新能源赛道的数据

linux-jdk-1.7+hadoop-eclipse-plugin2.6.0.zip

空空如也