- 博客(76)
- 收藏
- 关注

原创 YOLOv8教程系列:一、使用自定义数据集训练YOLOv8模型(详细版教程,你只看一篇->调参攻略),包含环境搭建/数据准备/模型训练/预测/验证/导出等
YOLOv8教程系列:一、使用自定义数据集训练YOLOv8模型(详细版教程,你只看一篇->调参攻略),包含环境搭建/数据准备/模型训练/预测/验证/导出等
2023-01-13 15:30:31
239715
318
原创 【LLaMA-Factory 实战系列】四、API 篇 - 部署推理服务与批量调用实战
模型训练好了如何使用?本篇将教您如何将微调后的模型一键部署为兼容 OpenAI 格式的高性能 API 服务。我们将对比 huggingface、vllm 等不同推理后端的优劣,并提供一个完整的 Python 脚本,演示如何批量调用 API 处理文件夹中的全部图片。学完本篇,您将掌握将模型转化为生产力工具、融入实际应用的核心技能。
2025-06-25 16:27:20
1090
原创 【LLaMA-Factory 实战系列】三、命令行篇 - YAML 配置、高效微调与评估 Qwen2.5-VL
告别手动点击,拥抱专业高效!本篇将带您从 WebUI 迈向更强大、可复现的命令行工作流。我们将学习如何使用 .yaml 配置文件精确控制训练、评估与预测的全过程,实现实验的自动化与版本化管理。这是在服务器上进行高效开发、严谨复现研究成果,并迈向专业化模型工程的关键一环。
2025-06-24 11:04:21
893
原创 【LLaMA-Factory 实战系列】二、WebUI 篇 - Qwen2.5-VL 多模态模型 LoRA 微调保姆级教程
想微调大模型却被复杂的代码劝退?本篇是您的“保姆级”入门教程!我们将借助 LLaMA-Factory 直观的 WebUI 图形化界面,以经典的宝可梦图文数据集为例,一步步引导您完成强大的 Qwen2.5-VL 多模态模型的 LoRA 微调。您将无需编写一行代码,轻松迈出模型定制的第一步,并直观理解学习率、批处理大小等核心参数的意义。
2025-06-23 16:02:25
1764
原创 【LLaMA-Factory 实战系列】一、数据准备篇 - 从文本到多模态的完整流程
万丈高楼平地起,优质数据是模型成功的基石。本篇将作为系列开端,手把手教您如何为 LLaMA-Factory 准备高质量的训练数据。我们将覆盖从简单的文本对话到复杂的图文混合数据集的完整制作流程,详细解析 ShareGPT 格式与 dataset_info.json 配置文件的每一个细节,为后续的模型微调打下最坚实的基础。
2025-06-20 10:04:35
916
原创 【读书笔记】Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning
【读书笔记】Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning
2025-06-18 08:35:12
604
原创 【读书笔记】Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
【读书笔记】Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
2025-06-17 12:41:29
814
原创 【读书笔记】More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
【读书笔记】More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
2025-06-17 08:17:03
838
原创 【Janus-Pro报告解读】Unified Multimodal Understanding and Generation with Data and Model Scaling
【Janus-Pro报告解读】Unified Multimodal Understanding and Generation with Data and Model Scaling
2025-02-06 16:22:03
909
原创 【DeepSeek-VL2报告解读】Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
【DeepSeek-VL2报告解读】Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
2025-02-06 13:52:22
1833
原创 【图像分类实用脚本】数据可视化以及高数量类别截断
图像分类时,如果某个类别或者某些类别的数量远大于其他类别的话,模型在计算的时候,更倾向于拟合数量更多的类别;因此,观察类别数量以及对数据量多的类别进行截断是很有必要的。
2024-12-19 13:56:22
624
原创 【解决paddlemix报错】ModuleNotFoundError: No module named ‘paddlemix.models.audioldm2‘
【解决paddlemix报错】ModuleNotFoundError: No module named 'paddlemix.models.audioldm2'
2024-12-05 21:17:24
339
原创 【多模态论文分享】Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge
文章提出了一种新的视觉提示方法,旨在将细粒度的外部知识(来自实例分割和OCR模型的信息)直接嵌入到多模态大型语言模型(MLLMs)中,以增强其对图像中细粒度或局部化视觉元素的理解能力。
2024-12-02 13:47:18
854
原创 【实战解析】YOLOv9全流程训练至优化终极指南
YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN)等开创性技术,标志着实时目标检测领域的重大进步。该模型在效率、准确性和适应性方面都有显著提高,在 MS COCO 数据集上树立了新的标杆。
2024-04-08 10:36:27
8276
11
原创 【最佳实践】高效调优目标检测模型
在深入繁复的计算机视觉领域,目标检测无疑是一项挑战且结果至关重要的任务。它在无人驾驶、智能监控行业中扮演着核心角色,直接影响到系统的性能和可靠性。而在这个过程中,调整参数是实现高效、精准目标检测的关键步骤。
2024-04-02 17:51:35
2502
原创 【探索多模态视觉问答】数据集概览及特点分析
在计算机视觉和自然语言处理领域,视觉问答(VQA)是一个重要的任务,旨在让计算机理解图像内容并回答关于图像的问题。为了促进和评估多模态模型在视觉问答任务上的表现,研究人员构建了多个丰富的数据集。本文将介绍几个主要的视觉问答数据集,包括VQA v2.0、VizWiz-VQA、GQA、POPE、MM-VET、MME、MMBench和SEED-Bench。我们将分析这些数据集的特点、构建方式以及在评估多模态模型方面的作用,旨在为研究人员提供对多模态视觉问答数据集的全面认识。
2024-03-25 14:55:21
4545
1
原创 解决mmpretrain中的配置类别问题The number of subfolders doesn‘t match the number of specified classes
解决mmpretrain中的配置类别问题The number of subfolders doesn't match the number of specified classes
2023-09-20 17:21:55
1325
原创 YOLOv8教程系列:四、使用yolov8仓库训练自己的图像分类数据集(含推理预测)
YOLOv8教程系列:四、使用yolov8仓库训练自己的图像分类数据集(含推理预测)
2023-08-23 13:55:54
14852
21
原创 YOLOv8教程系列:三、K折交叉验证——让你的每一份标注数据都物尽其用(yolov8目标检测+k折交叉验证法)
YOLOv8教程系列:三、K折交叉验证——让你的每一份标注数据都物尽其用(yolov8目标检测+k折交叉验证法)
2023-08-22 16:55:29
7319
20
原创 YOLOv8教程系列:三、使用YOLOv8模型进行自定义数据集半自动标注
YOLOv8教程系列:三、使用YOLOv8模型进行自定义数据集半自动标注
2023-07-31 20:15:24
2810
原创 【深度学习炼丹大杀器——mlrunner初体验(以mmdetection为例)】
【深度学习炼丹大杀器——mlrunner初体验(以mmdetection为例)】自动化炼丹,告别手动运行的烦恼~
2023-06-11 14:37:06
1680
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人