小裴（碎碎念版）-CSDN博客

原创 LLM notes

预训练包含三个阶段：视觉预训练: 仅训练 ViT，使用图像标题、视觉知识和 OCR 数据。多模态预训练: 解冻所有模型参数，使用交错数据、VQA、视频、智能体等多种数据。长上下文预训练: 引入视频、智能体数据，并增加序列长度。

2025-07-14 19:59:39 137

努力学习🀄️Critic模型：用于价值函数估计Reward模型：用于奖励信号计算RewardBySimilarity模型：基于相似度的奖励模型代码里Critic模型继承ChatGLM-6B模型，确保与Action模型（生成模型）使用相同的词表；大幅减少层数（从原来的28层减少到1层）来降低模型大小；添加线性层输出价值分数：self.output_linear = nn.Linear(self.model.hidden_size, 1)使用tanh激活函数将分数限制在[-1,1]之间。

2025-07-14 16:28:53 132

原创 LLM合成数据notes

使用guard_model_path=“meta-llama/Meta-Llama-Guard-2-8B”，reward_model_path=“sfairXC/FsfairX-LLaMA3-RM-v0.1"等调用api对生成数据进行安全性、奖励、质量、难度等打分，再筛选符合要求的数据。ps：看任务，我自己用reward-model-deberta-v3-large-v2测的分数感觉不行，做不了筛选。，再进行微调，微调后对LLM结果进行筛选低分，再补充表现不佳的数据进行SFT。使用RougeL分数去重。

2025-07-14 11:49:46 140

原创文本相似度notes

使用SentenceTransformer。

2025-07-14 11:00:24 99

原创【notes】注意力和KV Cache

使用 KV cache，就是在每步推理时，把之前步骤里计算好的 Key 和 Value 缓存起来，避免重复前向传播，从而高效地完成下一个 token 的生成。你可以把 Q、K、V 想象成图书馆的检索系统：Key 是书的目录标签，Value 是书的内容，Query 是你的查询关键词。进一步减少内存：KV Cache量化、局部注意力限制窗口步长、流式LLM：保留序列中的首几个token（因为发现它们通常对生成有全局影响）和最近的几个token，丢弃中间的不太重要的token。增大而变得过大，通过除以。

2025-07-12 17:19:45 753

原创激活函数notes

解决ReLU的死亡问题，引入微小负斜率（如0.01）。输出范围在 (0, 1)，适合二分类问题。输出范围在 (-1, 1)，零中心化。梯度消失问题仍存在，但优于Sigmoid。常用于Transformer模型。缺点：神经元可能“死亡”（输出恒为0）。缺点：易导致梯度消失，输出非零中心化。负值区域平滑，缓解死亡问题。谷歌提出的自门控激活函数。多分类任务中输出概率分布。计算高效，缓解梯度消失。是标准正态分布的累积分布函数。将Leaky ReLU的斜率。激活函数的作用：提供非线性。

2025-07-12 13:08:25 833

原创 NLP分词notes

vocab_size 是词表大小的上限，但并不保证最后一定会有 vocab_size 那么多的子词单元。分词器会尽量把词表填满到这个上限，但如果语料规模很小、可合并的模式有限，最终学到的词表可能会小于设定的 vocab_size。A：因为 vocab_size 越大，分词器词表能收录更多子词单元，包括更长的子词或整个单词。WordPiece目标是在固定大小的词表预算下，选择一组子词单元，使整个训练语料在当前词表下的分词似然最大化。，选择能够使语言模型对数似然增益最大的字符对进行合并，并更新词表。

2025-07-12 12:45:46 576

原创反向传播notes

首先理解链式法则，假设有两个可微的函数fx和gxhxfgx))，记ugxfuhx，则∂x∂hx∂u∂fu∂x∂gxz1W1xb1a1σz1z2W2a1b2a2σz2最终输出ypreda2，定义损失函数为MSE，L21ypred−y2y是label，有∂ypred∂Lypred−y。

2025-07-10 22:07:13 618

原创 Windows使用虚拟环境执行sh脚本

在代码文件夹git bash here。

2025-05-11 20:51:35 443

原创数据分析可视化常用操作

【代码】数据分析可视化常用操作。

2025-05-11 15:26:33 142

原创【学习笔记】李沐斯坦福21秋季：实用机器学习中文版

自学习，假设我们有一些已经标注好的数据，一在小数据里训练一下模型，二再对没标好的进行预测，称为伪标号，三将两种数据合并，再进行预测，多次循环。判断标号的确信程度选择留下来的标号数据，再进行循环预测，让样本置信程度更高。做法1:半监督学习基于有标签的小部分数据进行训练在无标签上测试得到标签（原始数据+生成标签数据再次训练模型，更新标签）做法3:弱监督学习根据数据结果人工设置筛选条件去获得一些标签如包含“xx”关键词的就为黑样本。半监督学习：没标注数据和有标注数据共同使用。分类数据怎么看数据分布。

2025-04-07 21:41:44 216

原创 vscode代码git到gitee版本控制

最近改代码改的有点乱改好的还被我不小心删了欲哭无泪呜呜呜呜呜。

2024-10-17 08:43:31 239

原创 Transformer、BERT以及GPT系列联系

在GPT中，每个单词的表示都是通过自回归模型计算得到的，这个模型会考虑前面所有的单词，以及它们对应的位置，来预测下一个单词。BERT模型的输入是两个序列，一个序列作为模型的输入，另一个序列作为模型的输出，模型需要判断这两个序列是否相互关联。这个过程被称为下一句预测任务。GPT大模型（全称是Generative Pre-training Transformer）技术是一种使用自回归模型进行语言建模的预训练模型，和Bert一样它也采用了Transformer架构，并使用了大量未标记的文本进行预训练。

2024-10-11 10:37:06 507

原创 YOLO系列模型

首次提出实时目标检测的概念，通过一个神经网络来在一张图像上实现目标定位和分类的任务。将输入图像分割成SXS网格（论文中S=7），每个网格负责检测该区域内中心点落在此网格内的物体。每个网格需要预测出B个bbox、对应的置信度、属于各个类别的概率（一共是C个类别），论文中B=2，此处的置信度是「有object的概率*预测框和真实框的IOU」，如果此处没有object，这个置信度应该为0，并且类别的概率只针对有object的网格进行预测，没有object则不进行预测，主要体现在loss上。

2024-10-07 21:02:09 1137 1

原创 huggingface相关问题

路径：/anaconda/envs/mmt/lib/python3.8/site-packages/huggingface_hub/constants.py。test.2018.fr bpe处理后的文本没找到。huggingface连不上。

2024-07-06 15:27:34 274

原创 fairseq框架使用记录

sh命令。

2024-06-05 16:32:45 399

原创训练过程可视化tensorboard和wandb及np.array和tensor互相转换

在这里插入代码片。

2024-03-28 14:00:10 512

原创 VScode不同级别文件夹导入函数的问题

每次下载新模型跑的时候总是会报错，记得添加相关路径。

2024-03-19 12:29:38 666

原创离线强化学习学习记录

on-policy、off-policy和offline的区别。

2024-03-11 21:48:46 953

原创 latex问题记录

老师要求用这个模板写论文，很久没用latex了，好多都不记得了，写个博客记录一下我遇到的奇奇怪怪的问题。

2023-12-01 16:53:59 1084

原创前端学习记录

锚点链接：同个网页不同地方

2023-05-26 12:00:17 149

原创 ps学习记录

使用油漆桶选择前景色按shift+单击可以替换颜色。快速选择工具大小调节:Alt+鼠标右键，左右拖拽。增加图像选区：按住Shift+划选区。相交选区：Shift+Alt+划选区。填充为背景色：Ctrl+delete。填充为前景色：Alt+delete。删除选区:选中选区Delete。放大缩小图片:Alt+鼠标滚轮。窗口->工作区->复位基本功能。抓手移动图片:空格+鼠标左键。减少选区：按住Atl+划选区。恢复到上一步：Ctrl+Z。复制图层：Ctrl+j。取消选择：Ctrl+D。

2023-04-12 22:07:40 503

原创【黑马】微信小程序开发学习记录

text selectable支持长按选中效果。rich-text渲染html标签。

2023-04-08 21:54:32 431

原创代码实现过程中环境的问题

配置环境过程中的一些坑。。。以及记忆不好的我

2022-11-04 15:56:56 834

原创【pytorch环境配置】

pytorch环境配置

2022-10-17 11:30:35 463

原创【python】刷题记录

力扣python刷题

2022-08-27 11:14:39 859

原创【PAT】python 1007 Maximum Subsequence Sum

【PAT】1007 Maximum Subsequence Sum

2022-08-20 21:01:37 277

原创 PAT (Advanced Level) Practice 【python】

PTA算法记录

2022-07-04 21:31:16 326

原创蓝桥杯python总结

蓝桥python

2022-06-17 23:09:57 349

原创【天梯】总结

!!!一定要养成良好的代码习惯！！变量值不能混用！！代码不能找不到

2022-04-23 09:26:39 304

原创【天梯】python L2-023 图着色问题 (25 point(s))

from collections import defaultdictv,e,k=map(int,input().split())s=defaultdict(set)for i in range(e): a,b=map(int,input().split()) s[a].add(b) s[b].add(a)n=int(input())c=defaultdict(set)for i in range(n): flag=0 color=list(map(in.

2022-04-23 08:49:12 772

原创【天梯】python L2-010 排座位 (25 point(s))

from collections import defaultdictn,m,k=map(int,input().split())friend=defaultdict(set)dui=defaultdict(set)for i in range(m): a,b,c=map(int,input().split()) if c==1: friend[a].add(b) friend[b].add(a) else: dui[a].a.

2022-04-22 14:37:35 1246

原创【天梯】python L2-006 树的遍历 (25 point(s))

树class TreeNode: def __init__(self, val=0, left=None, right=None): self.val = val self.left = left self.right = rightn=int(input())host=list(map(int,input().split()))inorder=list(map(int,input().split()))def buildTree(in

2022-04-21 00:33:52 918

原创【天梯】python L2-022 重排链表 (25 point(s))

代码先放着有时间再改测试点1和4过不了a,b=map(str,input().split())node={}n=int(b)for i in range(n): c,d,e=map(str,input().split()) node[c]=(d,e)lis=[]n=0while(a!='-1'): lis.append(a) a=node[a][1] n+=1res=[]if n==2: print('%s %s %s'%(lis[1],

2022-04-21 00:22:29 545

原创【天梯】python L2-021 点赞狂魔 (25 point(s))

这道题看题目看了很久，没太读懂“如果有并列，则输出标签出现次数平均值最小的那个”这句话的意思。代例子想了想发现就是标签出现次数平均值最小就是总次数除以不同的标签个数TT代码如下：n=int(input())nam={}for i in range(n): s=list(map(str,input().split())) nam[s[0]]=(len(set(s[2:])),int(s[1])/len(set(s[2:])))lis=sorted(nam.items(),key=l

2022-04-20 23:38:01 564

原创【天梯】python L1-025 正整数A+B (15 point(s)) 简洁

看题！看题！看题！最开始测试点5和测试点6过不去仔细看了一遍题发现就算是正整数但超出范围了依然不算加了限制条件后过了a,b=map(str,input().split(' ',1))if a.isdigit() and b.isdigit() and int(a)>=1 and int(b)>=1 and int(a)<=1000 and int(b)<=1000: print("%s + %s = %d"%(a,b,int(a)+int(b)))elif a.

2022-04-20 09:42:49 302

原创【天梯】python L1-020 帅到没朋友 (20 point(s))

注意：朋友圈只有一个人的算没朋友朋友圈出现其他人的都算有朋友n=int(input())res=[]s={}for i in range(n): lis=list(map(str,input().split())) m=int(lis[0]) if m==1: continue for i in range(m): s[lis[i+1]]=s.get(lis[i+1],0)+1mb=int(input())li=list(map

2022-04-20 09:10:05 542

原创【天梯】python L2-003 月饼 (25 point(s))

改了好久还是第三个测试点过不去没想明白有大佬知道了可以告诉我嘛我太菜了n,d=map(float,input().split())n=int(n)store=list(map(float,input().split()))sell=list(map(float,input().split()))s={}i=0for k in range(n): if store[i]==0: m=store.pop(i) n=sell.pop(i) .

2022-04-16 10:42:30 757 1

原创【天梯】python L2-026 小字辈 (25 point(s))

有没有1、2、6的测试数据呀TTfrom collections import defaultdicts= defaultdict(list)n=int(input())x=list(map(int,input().split()))for i,j in enumerate(x): s[str(j)].append(i+1)cn=[0 for i in range(1+n)]k='-1'def bfs(k): if k not in s: return.

2022-04-15 09:20:37 485

原创【天梯】python L2-031 深入虎穴 (25 point(s))

划重点007 发现不存在两条路通向同一扇门。最后一个超时了暂时没想到该如何优化如果有uu会了欢迎指教参考博文n=int(input())pre=[0 for i in range(n+1)]res=[]for i in range(1,1+n): tep=list(map(int,input().split())) if tep[0]==0: res.append(i) continue else: for j i.

2022-04-14 11:11:00 1067 5

空空如也

空空如也