- 博客(2059)
- 资源 (385)
- 问答 (103)
- 收藏
- 关注
原创 VeRL框架跑通gsm8k数据集
指定数据集所用的reward function。预处理gsm8k数据集,从本地读。安装verl,再在执行训练脚本。的时候看缺哪个再安装哪个。
2025-07-31 16:41:15
87
原创 Python 用 str.removeprefix,不要用str.lstrip,用lstrip会有很多误删
【代码】Python 用 str.removeprefix,不要用str.lstrip,用lstrip会有很多误删。
2025-06-30 11:37:54
102
原创 llama-factory报错 ValueError: Please use `FORCE_TORCHRUN=1` to launch DeepSpeed training
【代码】llama-factory报错 ValueError: Please use `FORCE_TORCHRUN=1` to launch DeepSpeed training。
2025-06-23 16:35:34
158
原创 提示词工程造数据,爬取GPT4数据构造问答对
把长doc让大模型切块,基于切好的doc生成question-answer-pair,同时又希望answer出现在doc原文中。
2025-06-20 15:11:27
149
原创 llama-factory报错 No package metadata was found for deepspeed
【代码】llama-factory报错 No package metadata was found for deepspeed。
2025-06-16 11:08:17
113
原创 通用embedding模型和通用reranker模型,观测调研
Embedding模型,query-question的匹配分数 普遍高于 query-answer的匹配分数。比如对于10个query,检索结果里,9个排第一的结果是question。Reranker模型,query-answer的匹配分数 普遍高于 query-question的匹配分数。比如对于10个query,检索结果里,9个排第一的结果是answer。现在有一个的问答库,包括150个QA-pair,用10个query去同时检索问答库的300个query+answer。
2025-06-15 15:46:50
68
原创 torch 生成式模型推理加速 之torch_dtype=torch.float16,
【代码】torch 生成式模型推理加速 之torch_dtype=torch.float16,
2025-06-09 09:42:17
64
原创 torch 生成式模型推理加速 之early_stopping=True
就是比如生成128长度,发现生成到40,后面就都是。了,就不继续decode了。
2025-05-28 09:45:11
51
原创 huggingface padding=True 训练阶段报错:expected sequence of length 24 at dim 1 (got 20)
是seq2seq任务报错的,的tokenize还是。
2025-05-27 16:38:28
68
原创 T5 预训练模型
如果只有30-40w数据,训练出来有很多语句不通的case,从零训练一个T5-Base需要200-300W+数据,可以用预训练模型解决语句不通的问题。
2025-05-22 15:03:26
78
原创 huggingface transformers 加载预训练好的模型时,只加载部分层数
【代码】huggingface transformers 加载预训练好的模型时,只加载部分层数。
2025-05-22 11:59:22
49
原创 python报错,A module that was compiled using NumPy 1.x cannot be run in NumPy 2.x as it may crash
解决方法,安装1.x版本的numpy。
2025-05-11 14:23:21
625
原创 python报错,ValueError: numpy.dtype size changed, may indicate binary incompatibility.
【代码】python报错,ValueError: numpy.dtype size changed, may indicate binary incompatibility.
2025-05-11 12:15:01
315
原创 deepspeed的PPO算法实现和代码阅读
actor_loss计算代码,可见是新logits和旧的logits的距离计算之后,乘以advantage得到最终的loss。reward计算代码,可见通过计算ref-model的输出和actor-model的输出的距离得到reward。advantage计算代码,可见advantage是next-value减去value得到的。critic_loss计算代码,可见critic的逻辑是判断新value和旧value的距离。
2025-04-23 16:00:04
259
原创 【文生图,图问答】《Janus: Decoupling Visual Encoding》阅读笔记
对于图像理解和图像生成,之前的工作,用单一的一个visual encoder,然而对于图像理解和图像生成,所需要不同粒度的visual encoder,本文提出把visual encoder分路的方法。
2025-04-21 10:48:33
82
flash-attn-2.7.4.post1+cu12torch2.4cxx11abiFALSE-cp39-cp39-linux-x86-64.whl
2025-03-23
torch-2.4.1+cu124-cp39-cp39-linux-x86-64.whl
2025-03-23
Chinese-DeepSeek-R1-Distill-data-110k
2025-03-13
Qwen2.5-0.5B
2025-03-13
torch-2.4.1+cu118-cp39-cp39-linux-x86-64.whl
2025-03-15
flash-attn-2.7.3+cu11torch2.4cxx11abiFALSE-cp39-cp39-linux-x86-64.whl
2025-03-15
torch-1.13.1+cu117-cp38-cp38-linux-x86-64.whl
2024-12-20
torch-2.0.0+cu118-cp38-cp38-linux-x86-64.whl的zip-1/2
2024-12-19
torch-2.0.0+cu118-cp38-cp38-linux-x86-64.whl的zip-2/2
2024-12-19
金庸群侠传MOD大侠梦 开源代码
2024-11-29
曹操传MOD禾下霸业 开源代码
2024-11-29
depth-anything/Depth-Anything-V2-Base-hf
2024-11-08
torchvision-0.19.1+cu118-cp38-cp38-linux-x86-64.whl
2024-10-29
torch-2.4.1+cu118-cp38-cp38-linux-x86-64.whl
2024-10-28
torch-2.3.1+cu118-cp38-cp38-linux-x86-64.whl
2024-10-28
deepseek-llm-7b-chat 压缩包00
2025-03-25
deepseek-llm-7b-base 压缩包00
2025-03-24
deepseek-llm-7b-chat 压缩包04
2025-03-25
deepseek-llm-7b-chat 压缩包05
2025-03-25
deepseek-llm-7b-chat 压缩包02
2025-03-25
deepseek-llm-7b-chat 压缩包03
2025-03-25
deepseek-llm-7b-chat 压缩包01
2025-03-25
deepseek-llm-7b-base 压缩包01
2025-03-24
deepseek-llm-7b-base 压缩包02
2025-03-24
deepseek-llm-7b-base 压缩包04
2025-03-24
deepseek-llm-7b-base 压缩包03
2025-03-24
deepseek-llm-7b-base 压缩包05
2025-03-24
flash-attn-2.7.0.post2+cu11torch2.4cxx11abiFALSE-cp38-cp38-linux-x86-64.whl
2025-03-24
人工智能的因果学习(Causal Learning)到底想解决什么问题?
2021-12-17
强化学习是不是无人驾驶的未来?
2022-02-01
学好数学对于编程的真实增益到底是多少?
2021-11-03
总被主管说文档写的不好怎么办?
2021-11-18
GAN生成图像,弄一个discriminator ,和无D直接生成,区别是?
2022-02-01
哪些互联网公司的管理职级和专业职级是分开的?
2022-01-22
CTR模型的AUC如果比较高,是否其实只是 因为复购行为带来的AUC虚高?
2022-01-17
CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配?
2022-01-08
BYOL里stop-gradient的作用是什么?
2021-12-01
马上2022年了,pointer-network现在看来的作用是什么?
2021-11-26
马上2022年了,强化学习+NLP 有了哪些突破?
2021-11-26
每个物理公式是否都是在【描述】一个事情?
2021-10-12
NER任务只有一个类的情况下,BME或者Yes-No的数据预处理方式对结果有影响吗?
2021-11-08
学好数学对于编程的真实增益的性价比到底如何?
2021-11-03
如果说每一个数学公式都在描述一件事情,那么数学公式的推导,是在做什么?
2021-10-26
求通俗讲讲数学或理论物理进行研究的细节,复杂公式是不是也都是由基础公式而来?
2021-09-14
自动驾驶,如何得到方向盘转动的ground truth?
2024-03-18
AlphaGo能超越人类,因为训练时 对于模型的每个输入,都有一个100%正确的答案?
2024-01-16
其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远?
2024-01-16
技术上,ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力?
2024-01-11
数学 是且仅是 一种语言和一种工具,不是科学的全部?
2023-12-14
哪些时候用CUDA编程更好?
2023-12-14
用RL做NLP,和 根据那条数据的reward重新标注那条数据 有什么区别?
2022-05-07
2022年了,USB式GPU有哪些进展?
2022-04-28
没有物理机器人载体,如何在模拟环境里的进行学习和研究机器人?
2022-04-28
2022年了,有哪些稳压deepfm的CTR模型?
2022-04-01
CTR模型,如果上线了没效果,这时可以进行哪些分析工作?以及有无必要投入大量时间分析?
2022-03-24
算法工程师如何应对做算法策略的不确定性;比如没效果,这时绩效怎么保证?
2022-03-01
CTR模型必须要有一个测试数据集吗? 训练数据集和测试数据集是同一个,可以吗?
2022-02-25
因果推断技术靠谱吗,感觉里面的影响因素太多了,所以能实际解决落地问题吗?
2022-02-08
为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具?
2022-02-16
XGB/GBDT/决策树,得出特征重要性的原理是什么?
2022-02-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人