自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(962)
  • 收藏
  • 关注

原创 MiniCPM-V 4.5实战,实现图片、视频、多图的推理

MiniCPM-V 4.5 是 MiniCPM-V 系列中最新且功能最强大的模型。该模型基于 Qwen3-8B 和 SigLIP2-400M 构建,总参数量为 80 亿。与之前的 MiniCPM-V 和 MiniCPM-o 模型相比,它在性能上有了显著提升,并引入了新的实用功能。MiniCPM-V 4.5 的主要特点包括:🔥 最先进的视觉-语言能力。MiniCPM-V 4.5 在 OpenCompass 上的平均得分为 77.0,这是一个涵盖 8 个流行基准的综合评估。

2025-09-01 18:42:38 318

原创 Transformer中的QKV揭秘:从入门到实践(含流程图)

Transformer模型彻底改变了自然语言处理领域,而其中的核心——注意力机制(Attention)的QKV三要素,是理解Transformer的关键。很多初学者看到Q(Query)、K(Key)、V(Value)就一头雾水:它们到底是什么?从哪里来?为什么需要它们?本文将用最直观的方式,带你彻底理解QKV的原理,配有详细流程图和可运行代码,保证小白也能轻松掌握!概念说明关键点Q(Query)“提问者”,表示当前关注点决定"我想知道什么"K(Key)“标签”,表示内容特征。

2025-08-30 08:05:35 934

原创 【面试问题】QLoRA与LoRA的深度对比:从原理到实践(小白友好版)

LoRA是"给大模型打补丁"的技术,只训练少量参数;QLoRA4-bit压缩大模型LoRA补丁,让普通电脑也能微调大模型。

2025-08-29 10:01:51 531

原创 YoloV12改进策略:Block改进-DCAFE,并行双坐标注意力机制,增强长程依赖与抗噪性-即插即用

本文研究将Flora-NET中提出的双坐标注意力特征提取(DCAFE)模块集成到YOLOv12架构中,通过增强空间特征表达能力,显著提目标检测性能。与原始研究不同,本文不仅提供理论分析,更通过系统实验验证了改进效果,并提供了完整的训练策略。YOLOv11采用CSP瓶颈模块和ABlock作为核心构建单元,通过通道压缩-特征提取-通道扩展的流程平衡计算效率与特征表达能力。其标准Bottleneck模块可表示为:ABlock模块流程图:是否是否激活函数Conv1: dim → dim*mlp_ratioConv

2025-08-29 06:17:46 291

原创 【数据集总结】红外目标检测数据集全解析:构建全天候感知系统的基石

红外目标检测数据集为构建全天候、全场景的感知系统提供了不可或缺的资源。随着自动驾驶技术的发展,热红外传感器与可见光、Lidar、雷达的多模态融合将成为行业标准。选择合适的数据集进行算法开发和验证,对于提升系统在各种挑战性条件下的性能至关重要。通过本文介绍的这些高质量数据集,研究人员和工程师可以更有效地开发和验证红外目标检测算法,推动自动驾驶和智能监控技术的发展,最终实现更安全、更可靠的智能系统。提示。

2025-08-25 12:51:04 98

原创 【无人机巡检】基于YOLO的桥梁缺陷检测数据集与模型训练实践

本数据集是一套专为桥梁缺陷检测设计的高质量数据集,主要聚焦于混凝土桥梁结构,包含6308张经过专业标注的真实桥梁缺陷图像。该数据集旨在支持桥梁检测、结构健康监测以及缺陷自动识别的相关研究与应用,为计算机视觉技术在基础设施维护领域的应用提供了坚实基础。腐蚀:桥梁表面钢筋或钢结构的锈蚀现象,是影响结构安全的主要隐患之一裂缝:混凝土表面出现的各类裂缝,包括细小裂缝和大面积裂缝,反映结构受力状态退化混凝土:由于环境因素或时间推移,混凝土表面发生老化、退化的现象混凝土空洞。

2025-08-25 06:41:58 354

原创 【模型实战】MiMo-VL-7B讲解与实战

维度成绩MMMU70.6(图像理解最难测试之一)VideoMME70.8(视频理解标杆)59.4(超越78B参数模型)56.1(超过专用GUI模型)Elo评分开源VLM排名第一(7B~72B)社区热度过去一个月下载超1,600次(RL+SFT)📌一句话概括MiMo-VL 是目前性能最强、推理最稳、体验最佳、生态最全的7B级开源视觉语言模型。

2025-08-24 08:03:17 363

原创 MiMo-VL 技术报告

我们开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个强大的视觉语言模型,它们在通用视觉理解和多模态推理方面均展现出最先进的性能。MiMo-VL-7B-RL 在 40 项评估任务中的 35 项上优于 Qwen2.5-VL-7B,并在 OlympiadBench 上获得 59.4 分,超越了参数量高达 780 亿的模型。对于 GUI 定位应用,它在 OSWorld-G 上达到了 56.1 分,树立了新的标准,甚至超越了 Ui-TARS 等专业模型。

2025-08-24 07:30:16 31

原创 YoloV11改进策略:Block改进-DCAFE,并行双坐标注意力机制,增强长程依赖与抗噪性-即插即用

本文研究将Flora-NET中提出的双坐标注意力特征提取(DCAFE)模块集成到YOLOv11架构中,通过增强空间特征表达能力,显著提目标检测性能。与原始研究不同,本文不仅提供理论分析,更通过系统实验验证了改进效果,并提供了完整的训练策略。

2025-08-22 21:37:06 351

原创 YoloV10改进策略:Block改进-DCAFE,并行双坐标注意力机制,增强长程依赖与抗噪性-即插即用

本文研究将Flora-NET中提出的双坐标注意力特征提取(DCAFE)模块集成到YOLOv10架构中,通过增强空间特征表达能力,显著提目标检测性能。与原始研究不同,本文不仅提供理论分析,更通过系统实验验证了改进效果,并提供了完整的训练策略。

2025-08-21 07:30:47 275

原创 【面试题集】SFT后为什么还需要用RLHF

SFT让模型「知道答案」,RLHF让模型「知道怎么答才让人想继续聊」——就像学霸和班主任的区别,前者会解题,后者懂人心。

2025-08-18 11:26:44 655

原创 YoloV9改进策略:Block改进-DCAFE,并行双坐标注意力机制,增强长程依赖与抗噪性-即插即用

本文研究将Flora-NET中提出的双坐标注意力特征提取(DCAFE)模块集成到YOLOv9架构中,通过增强空间特征表达能力,显著提目标检测性能。与原始研究不同,本文不仅提供理论分析,更通过系统实验验证了改进效果,并提供了完整的训练策略。

2025-08-17 20:03:15 543

原创 YoloV8改进策略:Block改进|DCAFE,并行双坐标注意力机制,增强长程依赖与抗噪性|即插即用

本文研究将Flora-NET中提出的双坐标注意力特征提取(DCAFE)模块集成到YOLOv8架构中,通过增强空间特征表达能力,显著提目标检测性能。与原始研究不同,本文不仅提供理论分析,更通过系统实验验证了改进效果,并提供了完整的训练策略。

2025-08-17 09:58:38 483

原创 【提问技巧】与AI高效对话的秘密武器:四象限框架实战指南

在这个AI快速进化的时代,我们真正需要修炼的不是信息量,而是提炼信息和连接信息的能力。正如爱因斯坦所言:"重要的从来就不是知识,而是想象力。"而在AI时代,我们应补充一句:重要的不仅是想象力,更是引导AI发挥想象力的方式。我们现在处于哪个象限?我需要调整提问策略吗?如何让这次对话更有价值?别再当一个不会聊天的AI指令人,而要成为能与AI共创未来的合伙人。当你掌握了四象限框架,每一次与AI的对话都将不再是简单的问答,而是一场富有成效的知识共创之旅。AI的进化不是终点,人类的提问才是起点。

2025-08-16 20:57:31 40

原创 【提问技巧】让AI自己当“质检员“:8+6个提升回答质量的自检技巧

AI不是万能的,但学会引导它自我反思,你就能最大化利用它的能力。这些技巧特别适用于重要决策和专业问题,能让你事半功倍。下次提问时,不妨在问题后加上一句自检指令,你会发现AI的回答质量立竿见影地提升!记住:与AI对话不是单向索取,而是双向协作。当你教会AI如何自我完善,它将成为你最可靠的"思考伙伴"。实践出真知:选择1-2个技巧立即尝试,并记录效果。一周后,你会惊讶于自己与AI协作能力的提升!

2025-08-16 15:58:57 65

原创 【模型架构】从GPT-2到gpt-oss:大语言模型架构的十年演进

简单而有效的改进胜过颠覆性创新:大多数进步来自对现有组件的优化,而非全新架构实用主义驱动设计:gpt-oss的MXFP4量化等创新解决了实际部署问题灵活性成为新标准:可配置推理级别代表了LLM架构的新范式正如原文所言:“这些实验室之间存在显著的员工流动。我们仍未找到比Transformer架构更好的替代方案。大多数收益可能来自数据和算法调整,而非主要架构变更。gpt-oss不仅是技术进步的产物,更是架构演进哲学的体现——在保持核心稳定的同时,持续优化细节以适应实际需求。

2025-08-13 06:24:20 239

原创 【模型讲解】理解与编码LLM中的自注意力、多头注意力、因果注意力和交叉注意力

自注意力机制不仅是技术细节,更代表了AI理解世界的一种新范式——通过分析元素间的关系来获取意义。当我们与大模型对话时,背后是无数"注意力头"在默默工作,分析词语间的千丝万缕,试图捕捉人类语言的精髓。下一次,当你惊叹于AI的"聪明"时,不妨想想这个精妙的机制——它让机器第一次真正"理解"了我们的语言,尽管这种理解仍与人类的意识相去甚远。正如一位研究者所言:“自注意力不是魔法,但它是通往智能的重要一步。思考题:如果AI能通过自注意力理解语言关系,它是否也能理解人与人之间的情感联系?

2025-08-09 09:43:01 61

原创 【模型架构】从DeepSeek-V3到Kimi K2,八种大型语言模型架构对比

本文系统性梳理了2025年主流开源LLM的架构创新,涵盖从DeepSeek-V3到Kimi K2的代表性设计。稀疏化与专家系统混合专家系统(MoE):DeepSeek-V3(671B)、Llama 4 Maverick(400B)、Qwen3(235B)均采用MoE架构,通过激活部分专家(如DeepSeek的9专家/2048隐藏层,Llama 4的2专家/8192隐藏层)平衡计算效率与模型容量。动态路由。

2025-08-09 06:22:09 323

原创 【Qwen2.5-VL实战】Qwen2.5-VL识别万物,以及物体的相关属性、大小、形状等,并对识别结果做可视化

我用Qwen2.5-VL多模态模型做了一个识别万物的认为,并将结果解析,画在图片上。

2025-07-23 07:27:30 266

原创 【Qwen2.5-VL环境搭建】Qwen2.5-VL环境搭建中的坑

Qwen刚出来的时候,没有发现环境搭建有坑,随着各个模型的更新,发现官方给的安装教程出现了问题。

2025-07-23 06:37:43 250

原创 【Kimi K2技术报告翻译】KIMI K2:开放式的智能体(Agentic)人工智能

我们推出Kimi K2,这是一款包含320亿激活参数和总计1万亿参数的专家混合(Mixture-of-Experts,MoE)大型语言模型。我们提出了MuonClip优化器,该优化器在Muon的基础上采用了一种新颖的QKQKQK-clip技术,以解决训练不稳定问题,同时保持Muon先进的令牌效率。基于MuonClip,K2在15.5万亿个令牌上进行了预训练,且未出现任何损失峰值。

2025-07-23 06:08:34 158

原创 【行人计数实战】使用CLIP-EBC实现行人计数|密度估计

【代码】【行人计数实战】使用CLIP-EBC实现行人计数|密度估计。

2025-07-06 15:37:46 209

原创 YoloV8改进策略:Loss改进|GWD Loss|旋转目标改进|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测

论文精辟地总结了旋转目标检测面临的三大挑战:📏 指标与损失不一致性🌀 边界不连续性⬜ 类矩形问题https://arxiv.org/pdf/2101.11952边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱

2025-06-29 21:10:15 125

原创 YoloV11改进策略:Loss改进|GWD Loss|旋转目标改进|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测

边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱导损失。即使两个旋转边界框之间没有重叠(这在小目标检测中很常见),GWD 仍能为学习提供有效信息。

2025-06-29 12:55:37 278

原创 YoloV12改进策略:Loss改进|GWD Loss|旋转目标改进|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测

论文精辟地总结了旋转目标检测面临的三大挑战:📏 指标与损失不一致性🌀 边界不连续性⬜ 类矩形问题https://arxiv.org/pdf/2101.11952边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱

2025-06-29 11:47:34 341

原创 YoloV12改进策略:Loss改进|GWD Loss|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测

边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱导损失。即使两个旋转边界框之间没有重叠(这在小目标检测中很常见),GWD 仍能为学习提供有效信息。

2025-06-29 09:24:22 93

原创 【大模型实战】微调Qwen2.5 VL模型,增强目标检测任务。

图像处理:将图像调整为固定尺寸坐标转换:同步调整边界框坐标格式转换:生成Qwen2.5-VL兼容的JSONL格式错误处理:记录处理失败的文件。

2025-06-25 13:28:49 953

原创 【大模型问题】ms-swift微调时,显存持续增长原因分析与解决方案

-dtype。

2025-06-24 13:21:31 175

原创 【大模型实战】基于Qwen2.5-VL模型的出租车自动标注解决方案

本文将介绍一种利用Qwen2.5-VL多模态大模型实现出租车自动标注的创新方法。该方案通过自然语言指令引导模型识别图像中的出租车,并生成标准化的Labelme格式标注文件。

2025-06-24 13:19:28 256

原创 YoloV11改进策略:Loss改进|GWD Loss|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测

边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱导损失。即使两个旋转边界框之间没有重叠(这在小目标检测中很常见),GWD 仍能为学习提供有效信息。

2025-06-22 05:51:52 197 3

原创 YoloV8改进策略:Loss改进|GWD Loss|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测

论文精辟地总结了旋转目标检测面临的三大挑战:📏 指标与损失不一致性🌀 边界不连续性⬜ 类矩形问题https://arxiv.org/pdf/2101.11952边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱

2025-06-21 17:58:23 571

原创 YoloV12改进策略:卷积篇|风车卷积|即插即用

近年来,基于卷积神经网络(CNN)的红外小目标检测方法取得了卓越的性能。然而,这些方法通常采用标准卷积,忽略了红外小目标像素分布的空间特性。因此,我们提出了一种新型的风车形卷积(PConv)来替代骨干网络下层的标准卷积。PConv 更好地契合了微弱小目标像素的高斯空间分布,增强了特征提取能力,显著增大了感受野,并且参数增加量极少。此外,虽然最近的损失函数结合了尺度损失和位置损失,但它们没有充分考虑这些损失在不同目标尺度下的敏感性差异,这限制了在微弱小目标上的检测性能。

2025-06-18 17:43:50 165

原创 YoloV12改进策略:Block改进|EBlock,快速傅里叶变换(FFT)增强输入图像的幅度|即插即用|CVPR2025

标题: DarkIR: Robust Low-Light Image Restoration作者: Daniel Feijoo, Juan C. Benito, Alvaro Garcia, Marcos Conde论文链接:https://arxiv.org/pdf/2412.13443GitHub链接:https://github.com/cidautai/DarkIR。

2025-06-16 09:38:23 678

原创 YoloV11改进策略:Block改进|EBlock,快速傅里叶变换(FFT)增强输入图像的幅度|即插即用|CVPR2025

标题: DarkIR: Robust Low-Light Image Restoration作者: Daniel Feijoo, Juan C. Benito, Alvaro Garcia, Marcos Conde论文链接:https://arxiv.org/pdf/2412.13443GitHub链接:https://github.com/cidautai/DarkIR。

2025-06-16 09:37:53 569

原创 YoloV8改进策略:Block改进|EBlock,快速傅里叶变换(FFT)增强输入图像的幅度|即插即用|CVPR2025

标题: DarkIR: Robust Low-Light Image Restoration作者: Daniel Feijoo, Juan C. Benito, Alvaro Garcia, Marcos Conde论文链接:https://arxiv.org/pdf/2412.13443GitHub链接:https://github.com/cidautai/DarkIR。

2025-06-16 09:37:14 996

原创 YoloV12改进策略:激活函数改进:B-SiLU,最新激活函数|即插即用|涨点神器|独家复现

B-SiLUxxα⋅σx−α2α1.67B-SiLUxxα⋅σx−2α​α1.67其中 (\sigma(x)) 为 Sigmoid 函数。B-SiLU 的核心价值作为 SUGAR 框架的最优替代梯度函数,平衡了梯度平滑性与激活有界性。在保留 ReLU 稀疏前向的同时,彻底解决了梯度消失与神经元死亡问题。SUGAR 的普适性在 VGG/ResNet 等传统模型中显著提升性能(最高 +15.74%

2025-06-15 17:31:37 397

原创 Yolo11改进策略:激活函数改进:B-SiLU,最新激活函数|即插即用|涨点神器|独家复现

B-SiLUxxα⋅σx−α2α1.67B-SiLUxxα⋅σx−2α​α1.67其中 (\sigma(x)) 为 Sigmoid 函数。B-SiLU 的核心价值作为 SUGAR 框架的最优替代梯度函数,平衡了梯度平滑性与激活有界性。在保留 ReLU 稀疏前向的同时,彻底解决了梯度消失与神经元死亡问题。SUGAR 的普适性在 VGG/ResNet 等传统模型中显著提升性能(最高 +15.74%

2025-06-15 17:31:06 397

原创 YoloV8改进策略:激活函数改进|B-SiLU,最新激活函数|即插即用|涨点神器|独家复现

B-SiLUxxα⋅σx−α2α1.67B-SiLUxxα⋅σx−2α​α1.67其中 (\sigma(x)) 为 Sigmoid 函数。B-SiLU 的核心价值作为 SUGAR 框架的最优替代梯度函数,平衡了梯度平滑性与激活有界性。在保留 ReLU 稀疏前向的同时,彻底解决了梯度消失与神经元死亡问题。SUGAR 的普适性在 VGG/ResNet 等传统模型中显著提升性能(最高 +15.74%

2025-06-15 17:30:44 327

原创 YoloV12改进策略:Block改进|MKP,多尺度卷积核级联结构,增强感受野适应性|即插即用|AAAI 2025

FBRT-YOLO通过特征互补映射模块(FCM)与多内核感知单元(MKP)的创新设计,解决了航拍图像检测中小目标信息丢失和多尺度适应性不足的核心问题。理论层面:提出空间-语义信息互补映射机制,缓解深层网络位置信息衰减问题;工程层面:轻量化设计(参数量最高降74%)满足嵌入式设备实时需求;应用层面:在Visdrone等数据集上AP提升1.1-2.3%,为无人机安防、灾害监测提供高效解决方案。

2025-06-15 15:48:14 516

原创 Yolo11改进策略:Block改进|MKP,多尺度卷积核级联结构,增强感受野适应性|即插即用|AAAI 2025

FBRT-YOLO通过特征互补映射模块(FCM)与多内核感知单元(MKP)的创新设计,解决了航拍图像检测中小目标信息丢失和多尺度适应性不足的核心问题。理论层面:提出空间-语义信息互补映射机制,缓解深层网络位置信息衰减问题;工程层面:轻量化设计(参数量最高降74%)满足嵌入式设备实时需求;应用层面:在Visdrone等数据集上AP提升1.1-2.3%,为无人机安防、灾害监测提供高效解决方案。

2025-06-15 07:15:33 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除