
机器学习
文章平均质量分 81
记录机器学习步骤
扫地僧009
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型在网络安全领域的七大应用
大模型在网络安全领域的应用已从理论探索迈向初步落地,尤其在威胁检测、漏洞挖掘等场景成效显著。未来,随着多模态大模型与边缘计算的发展,网络安全防护将向“预测-防御-自治”闭环演进,进一步缩小攻防信息差。:恶意代码呈现模块化、跨平台传播特征,需结合大模型动态更新检测规则。:安全编排自动化(SOAR)成为主流,但需持续优化剧本覆盖场景。:动态策略管理成熟度达L2级,已集成到防火墙、IPS等设备。:攻击溯源应用处于L1级,依赖情报库支持。:需解决长上下文失焦和模型幻觉问题。:需平衡计算效率与检测精度。原创 2025-04-10 13:44:36 · 988 阅读 · 0 评论 -
LoRA(Low-Rank Adaptation)微调参数详解与步骤指南
LoRA微调通过低秩矩阵分解实现了参数高效优化,其核心在于秩的选择、学习率动态调整、硬件资源适配的三者协同。建议遵循“显存试探→任务适配→参数调优”的流程,结合前沿技术(如QLoRA、LoRA+)实现高效训练。实际应用中需通过AB测试验证参数组合,尤其关注梯度范数和验证集损失的动态变化。原创 2025-04-07 16:16:41 · 4211 阅读 · 0 评论 -
大模型微调参数说明(2025版)
Batch Size(批量大小)全局批量大小:所有设备单次处理的样本总数(如分布式训练中多GPU总和)。局部批量大小:单个设备处理的样本数(如梯度累积步数:通过多步前向传播累积梯度,等效扩大全局批量大小(如步数=4时等效批量=局部批量×4)。学习率(Learning Rate, LR)初始学习率:训练起始阶段的学习率,常需搭配warmup策略。峰值学习率:warmup后的最大学习率,通常为1e-5至1e-4。调度策略:余弦衰减(Cosine Decay)、线性衰减等,用于后期稳定收敛。原创 2025-04-07 16:15:31 · 1047 阅读 · 0 评论 -
大模型微调参数说明(2025版)
Batch Size(批量大小)全局批量大小:所有设备单次处理的样本总数(如分布式训练中多GPU总和)。局部批量大小:单个设备处理的样本数(如梯度累积步数:通过多步前向传播累积梯度,等效扩大全局批量大小(如步数=4时等效批量=局部批量×4)。学习率(Learning Rate, LR)初始学习率:训练起始阶段的学习率,常需搭配warmup策略。峰值学习率:warmup后的最大学习率,通常为1e-5至1e-4。调度策略:余弦衰减(Cosine Decay)、线性衰减等,用于后期稳定收敛。原创 2025-04-07 15:31:18 · 1717 阅读 · 0 评论 -
使用Unsloth训练后保存模型的完整方法与技术细节
通过灵活组合上述方法,可最大化Unsloth在模型保存阶段的效率优势。适用于CPU推理或llama.cpp、Ollama等框架。将LoRA适配器与基础模型合并为完整模型,便于独立部署。适用于需要继续微调或存储空间受限的场景。:无损FP16(最大精度,但文件较大)。:4位量化(最小文件,适合低端设备)。支持将合并后的模型直接上传至社区平台。:保留FP16精度,适合GPU推理。:量化保存,显存占用减少50%以上。:8位量化(推荐通用场景)。原创 2025-04-02 11:45:31 · 1813 阅读 · 0 评论 -
deepseek如何进行预训练,具体代码实现步骤
通过上述方法,DeepSeek在性能与效率间取得了平衡,为大规模语言模型的训练提供了可复用的技术范式。原创 2025-03-31 11:20:09 · 1263 阅读 · 0 评论 -
DeepSeek模型的核心模板规范及使用注意事项
格式,需严格使用预设的标识符分隔不同对话回合。DeepSeek模型的对话模板通常遵循。需根据实际文件调整数据格式。需根据具体模型文档调整。原创 2025-03-06 17:52:49 · 2214 阅读 · 0 评论 -
基于Transformer架构对Deepseek进行微调详细操作步骤
Trainer不仅简化了训练流程,还允许我们自定义训练参数,包括但不限于学习率、批次大小、训练轮次等。在训练前,我们需要将数据进行预处理,将数据集的内容进行数据映射,得到input_ids、attention_mask、labels三个映射目标,同时对数据填充到最大长度,并且转换成张量格式。这里可能会根据每个模型的不同做修改,如果不按照每个模型对应的格式训练,而是按照自己编写的格式进行训练,结果可能会出现由于max_length比较大使得回答停不下来,一直生成句子。PyTorch适配性。原创 2025-03-06 17:38:54 · 1042 阅读 · 0 评论 -
解决 version ‘GLIBCXX_3.4.32‘ not found 错误的完整指南
在支持GLIBCXX≤3.4.19的环境中重新编译依赖库。若仍遇到问题,建议结合具体环境日志进一步排查。:无法升级GCC(如受系统稳定性限制)。:Conda自带的旧版库覆盖系统库。:操作前备份原文件,避免系统崩溃。该错误表明系统中缺少程序所需的。:程序或第三方库需兼容旧系统。:无root权限或临时修复。通过上述方法,可系统性解决。,则需升级或替换库文件。若未找到,可从其他机器或。:生产环境需隔离依赖。原创 2025-03-06 11:52:36 · 5694 阅读 · 1 评论 -
使用PyTorch对DeepSeek模型进行微调的具体方法及操作步骤
PyTorch支持GPU(CUDA)与CPU训练,但CPU模式仅适合小规模模型(如DeepSeek 1B以下)或调试场景。DeepSeek模型基于Transformer架构(如Llama变体),PyTorch通过。库原生支持其加载、训练与推理。原创 2025-03-06 11:25:29 · 1503 阅读 · 0 评论 -
浅谈DeepSeek对于数据分析师的赋能
DeepSeek是一款基于大型语言模型的AI助手,专为解决复杂分析问题而设计。与传统的分析工具不同,DeepSeek能够:✅理解自然语言指令:无需学习复杂的查询语言,直接用日常语言描述问题✅生成高质量代码:自动生成Python、SQL等语言的代码,减少手动编程时间✅提供业务洞察:不仅执行分析,还能解释结果并提供业务建议✅适应多种分析场景:从数据清洗到复杂建模,均可胜任对于数据分析师而言,DeepSeek就像一位经验丰富的同事,随时准备协助解决各种分析挑战。原创 2025-03-04 09:18:51 · 1270 阅读 · 0 评论 -
机器学习-监督学习
定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。简单理解:可以把监督学习理解为我们教机器如何做事情。原创 2025-02-13 16:31:17 · 681 阅读 · 0 评论 -
推荐系统与数据挖掘方向学习建议
基础阶段:数学 + 机器学习理论 → 推荐系统分类与算法 → Python/Hadoop工具链。实践阶段:协同过滤/内容推荐实战 → 参与完整项目(数据收集→模型部署)。进阶阶段:深度学习模型 → 工业级优化(冷启动、实时性) → 学术前沿跟踪(如神经推荐模型)。通过以上步骤,可逐步从大数据领域过渡到推荐系统与数据挖掘,结合已有经验快速提升竞争力。原创 2025-02-13 15:35:01 · 1256 阅读 · 0 评论 -
机器学习所需数学知识详细版02【】
无论是深度学习还是机器学习,背后都是有一些数学原理和公式推导的,所以掌握必备的数学知识必不可少,下面会给大家简单科普下常用的数学知识有哪些~数据科学需要一定的数学基础,但仅仅做应用的话,如果时间不多,不用学太深,了解基本公式即可,遇到问题再查吧。原创 2025-02-13 15:22:47 · 571 阅读 · 0 评论 -
机器学习所需要的数学知识【01】
机器学习所需数学知识课程笔记截图版原创 2025-02-13 15:16:03 · 305 阅读 · 0 评论