自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿正的梦工坊

时间的朋友

  • 博客(2198)
  • 资源 (6)
  • 收藏
  • 关注

原创 解决 Ollama 服务启动失败的权限问题:自定义存储路径

踩坑

2025-07-29 00:29:02 1069

原创 通俗讲解 FlashAttention v1 的分块策略与 Online Softmax 应用

原理

2025-07-28 00:48:04 823

原创 通俗易懂讲解 Online Softmax 算法与 Flash Attention简介

原理和代码实现

2025-07-27 23:36:40 910 1

原创 Adam优化器:从直觉到深刻理解

Adam 为什么如此强大?它的一阶矩和二阶矩到底在做什么?为什么需要两者?它又是如何“自适应”地调节学习率的?本文将以通俗的语言,结合直观的比喻,带你深入理解 Adam 优化器的原理和设计初衷。

2025-07-25 23:44:17 790

原创 单例模式(Singleton Pattern)解析与在Python中的应用

查看void源代码中发现(cursor的开源平替)

2025-07-24 21:59:44 793

原创 如何使用 Git Submodule 管理 GitHub 项目:Github带箭头的文件夹是什么?

Git Submodule 是 Git 提供的一种功能,允许你在一个 Git 仓库中嵌入另一个 Git 仓库。子模块在你的项目中表现为一个带有“箭头”标志的文件夹(在 Git 客户端或 GitHub 界面中可见),它指向外部仓库的特定提交。

2025-07-24 01:20:37 942

原创 htop 使用详解:排查高 CPU 占用、分析内存使用

无论是排查高 CPU 占用、分析内存使用,还是终止进程,htop都能提供高效的支持。

2025-07-23 16:55:36 993

原创 解决 Flash-Attention 安装问题:基于 PyTorch 2.7.0 的环境配置

flash-attn==2.7.4.post1适配torch 2.7.0

2025-07-22 23:14:28 879

原创 解决TRL与vLLM集成的Pydantic验证错误

Bug解决

2025-07-20 19:06:57 987

原创 在Ray框架中查找和同步Wandb离线日志

在Ray框架中使用Wandb离线模式时,日志文件存储在Ray的临时目录结构中,而不是工作目录下的wandb文件夹中。通过本文介绍的方法,可以有效地找到并同步这些离线日志,确保训练过程的可视化和分析不会因为网络问题而中断。

2025-07-19 18:04:18 612

原创 SWP(交换空间)84.8%占用解析:原理、用途与高占用场景分析

交换空间(Swap Space)是操作系统中用于扩展内存的一种机制。它通常是硬盘或固态硬盘(SSD)上的一块预留区域,用作虚拟内存的补充。当系统的物理内存(RAM)不足以容纳所有运行中的进程和数据时,操作系统会将部分暂时不活跃的数据从RAM移动到交换空间,从而释放RAM以供其他进程使用。

2025-07-11 23:17:38 615

原创 利用T检验挖掘文化差异特征:从统计方法到实际应用

独立样本T检验是一种用于比较两个独立群体均值是否存在显著差异的统计方法。

2025-06-15 18:21:37 1193

原创 Conda 与 Python venv 虚拟环境的区别与使用方法

Conda 适合复杂项目、数据科学和多语言环境,提供强大的依赖管理和 Python 版本控制。Python venv 适合轻量级项目,简单易用,内置于 Python,无需额外安装。

2025-06-12 15:46:56 1275

原创 深入解析 SAE 训练输出文件:结构与意义

在利用SAELens框架进行稀疏自编码器(Sparse Autoencoder, SAE)训练时,训练完成后会生成一组关键文件,这些文件记录了模型的权重、状态以及相关信息。

2025-06-11 16:14:26 763

原创 多语言电车难题中的大语言模型道德对齐研究

2025年于ICLR会议发表的论文《Language Model Alignment in Multilingual Trolley Problems》(多语言电车难题中的语言模型对齐)深入探讨了19种不同大语言模型在跨语言、跨文化的道德决策场景中的表现。

2025-06-08 13:49:19 1202

原创 wandb offline 模式下训练日志在哪?如何上传到网页端?

训练指标都在 run-*.wandb 这个二进制文件里。

2025-06-06 18:30:19 1073

原创 基于稀疏自编码器研究语言模型中的知识感知与幻觉-解读ICLR 2025论文《Do I Know This Entity?》

ICLR 2025发表的一篇论文《Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models》由Javier Ferrando等人撰写,深入探讨了语言模型中幻觉的机制,揭示了模型如何通过内部表示判断自身是否“认识”某个实体,并展示了如何通过干预这些表示来控制模型的行为。

2025-06-06 15:52:55 905

原创 Qwen3 Embedding 系列:基于大型语言模型的文本嵌入与重排序技术突破

阿里云通义实验室(Tongyi Lab, Alibaba Group)发布了《Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models》技术报告,详细介绍了基于 Qwen3 大型语言模型(LLM)的 Qwen3 Embedding 系列模型。

2025-06-06 14:39:07 2022

原创 大规模多语言文本嵌入基准MMTEB: Massive Multilingual Text Embedding Benchmark

大规模多语言文本嵌入基准(MMTEB),涵盖了超过500个高质量控制的评估任务,涉及250多种语言,旨在为嵌入模型提供迄今为止最全面的多语言评估框架。

2025-06-06 13:45:30 1092

原创 使用稀疏自编码器缓解大型视觉-语言模型幻觉

《Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation》

2025-06-05 15:38:35 1006

原创 PrivacyScalpel:利用稀疏自编码器提升大语言模型隐私保护

《PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders》

2025-06-05 13:00:25 757

原创 关于大型语言模型在无共识任务中的挑战:LLMs in No-Consensus Tasks

《Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks》

2025-06-04 20:42:12 1063

原创 使用稀疏自编码器理解语言模型的拒绝行为

Understanding Refusal in Language Models with Sparse Autoencoders

2025-06-04 16:41:22 962

原创 解读语言模型中的拒绝行为:Refusal in Language Models Is Mediated by a Single Direction

论文的主要贡献在于揭示了语言模型的拒绝行为由激活空间中的一个一维子空间(即“拒绝方向”)所介导。

2025-06-04 14:14:35 887

原创 语言特定知识:Language Specific Knowledge: Do Models Know Better in X than in English?

LSKEXTRACTOR 是一个两阶段的框架,旨在通过识别语言模型在不同语言中的“专家语言”(expert language)来提升推理性能。所谓专家语言,是指在特定知识领域或主题上,模型在该语言中表现最佳,能够提供更准确、更符合文化背景的回答。

2025-06-04 12:39:47 746

原创 大型语言模型如何在多种语言中共享语法概念表示

《Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages》

2025-06-02 16:40:25 996

原创 通过激活引导(Activation Steering)提升语言模型的指令遵循能力:一篇 ICLR 2025 论文解读

《Improving Instruction-Following in Language Models through Activation Steering》

2025-05-28 16:39:16 1010

原创 解读Sparse Autoencoder-Denoised Concept Vector

论文《Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering》提出了一种新颖的方法——稀疏自编码器去噪概念向量(Sparse Autoencoder-Denoised Concept Vector, SDCV),通过稀疏自编码器(SAE)从语言模型的隐藏表示中滤除噪声,增强概念向量的转向性能。

2025-05-27 19:49:49 935

原创 JumpReLU稀疏自编码器

这篇由Google DeepMind团队于2024年8月2日发表的论文《Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders》提出了一种新颖的SAE变体——JumpReLU SAE,它在保持稀疏性的同时显著提升了重构保真度。

2025-05-27 19:07:07 911

原创 《Scaling and evaluating sparse autoencoders》论文解读

OpenAI 的《Scaling and evaluating sparse autoencoders》通过引入 TopK 激活函数、优化死特征预防策略、系统研究缩放定律以及提出新的评估指标,为 SAE 的训练和评估提供了全新的视角。

2025-05-27 18:40:10 892

原创 对比激活添加(Contrastive Activation Addition, CAA):Steering Llama 2 via Contrastive Activation Addition

《通过对比激活添加引导Llama 2》提出了一种创新的激活工程方法——对比激活添加(CAA),通过生成和应用引导向量,实现对大型语言模型行为的精确控制。

2025-05-25 19:52:56 973

原创 揭示大型语言模型中的潜在思维链向量:Latent Chain of Thought Vectors

《Uncovering Latent Chain of Thought Vectors in Large Language Models》提出了一种创新的方法,通过操作语言模型的激活空间诱导CoT推理,展示了激活空间干预的强大潜力。

2025-05-25 19:12:10 883

原创 情境向量(In-context Vectors,ICV)如何提升大型语言模型的上下文学习能力

《In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering》

2025-05-25 17:58:23 1151

原创 从预训练语言模型中提取潜在引导向量(steering vectors):可控文本生成方法

《Extracting Latent Steering Vectors from Pretrained Language Models》

2025-05-25 15:10:48 852

原创 Plug and Play Language Models: 一种简单高效的受控文本生成方法

《Plug and Play Language Models: A Simple Approach to Controlled Text Generation》(PPLM)

2025-05-24 21:08:34 744

原创 探索多语言大型语言模型中的跨语言事实知识一致性Cross-Lingual Consistency of Factual Knowledge

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models

2025-05-23 20:50:25 952

原创 Source-Contrastive and Language-Contrastive Decoding解决翻译中的幻觉和目标语言错误

《Mitigating Hallucinations and Off-target Machine Translation with Source-Contrastive and Language-Contrastive Decoding》提出了一种创新的对比解码方法,旨在通过修改解码目标来缓解这些问题,而无需重新训练模型或依赖外部模型。

2025-05-23 19:23:03 623

原创 介绍 SeaEval:多语言基础模型的全面评估基准

《SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning》

2025-05-23 18:17:49 853

原创 用控制任务设计和解释探针:《Designing and Interpreting Probes with Control Tasks》

将单词或句子转化为高维向量,捕获它们的语义和语法信息。然而,一个关键问题困扰着研究者:这些表示到底学到了什么?它们是否真正编码了语言的结构,比如词性(part-of-speech)或句法关系?

2025-05-23 16:04:09 857

原创 探讨大型语言模型在字符组成理解上的局限性——解读《Large Language Models Lack Understanding of Character Composition of Words》

中稿ICML 2024 Workshop on Large Language Models and Cognition

2025-05-22 20:55:33 832

李永乐线代强化笔记2020年.rar

李老师对出题形式、考试重点了如指掌,解题思路极其灵活,辅导针对性极强,效果优良,成绩显著,受到广大学员的交口称赞!这是笔者自己的笔记,整理成pdf版,方便大家复习使用。

2020-10-27

李永乐线代基础班笔记.zip

李永乐线性代数基础班笔记2020年。用过了都说好!好在思路与题型的延伸方面。举一反三(举一反N也不夸张)

2020-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除