
DL1:深度学习
文章平均质量分 89
分享学习,炼丹记录
mozun2020
玄铁时代
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习二阶偏导限制学习2025.7.19
在百万级以上参数的高维场景中,二阶信息的计算/存储成本呈“平方级爆炸”,而其带来的收敛增益(在非凸、高噪声损失函数中)被严重削弱;反观一阶方法,通过工程优化已能满足效率需求,且成本可控。未来若要让二阶方法实用化,可能需要依赖两个突破:一是硬件算力的指数级提升(如量子计算),二是更高效的“结构化二阶近似”(如利用模型稀疏性、低秩性压缩Hessian)——但目前来看,一阶方法仍是深度学习优化的主流选择。原创 2025-07-19 12:30:17 · 953 阅读 · 0 评论 -
Focal Loss解析2025.6.10
Focal Loss 是一种针对类别不平衡问题设计的损失函数,最初由何恺明等人于 2017 年在论文《Focal Loss for Dense Object Detection》中提出,主要用于目标检测任务(如 RetinaNet 模型),但也被广泛应用于分类任务中。其核心思想是通过降低易分类样本的权重,使模型更专注于难分类样本的学习。原创 2025-06-10 09:50:35 · 810 阅读 · 0 评论 -
YOLOv1 到 YOLOv12汇总信息2025.6.4
本文系统梳理了YOLO系列目标检测算法从v1到v12(2015-2025年)的技术演进。核心改进包括:骨干网络从DarkNet升级为CSPDarkNet/GELAN;特征融合方式从FPN发展到动态注意力机制;激活函数从LeakyReLU优化为SiLU/Mish;参数量减少49%的同时,检测速度从45FPS提升至160FPS。其中YOLOv9采用PGI特征融合,YOLOv10实现无NMS训练,最新YOLOv12引入区域注意力模块。该系列算法持续平衡精度与效率,支持从边缘设备到云平台的全场景部署。原创 2025-06-04 12:26:18 · 950 阅读 · 0 评论 -
YOLOv12注意力与R-ELAN结合的解析2025.6.4
YOLOv12通过融合R-ELAN和注意力增强模块(AA)优化主干网络,R-ELAN改进梯度流和特征聚合能力,AA模块动态校准特征重要性。在浅层网络密集部署轻量化R-ELAN,中深层逐步引入通道和空间注意力机制,深层侧重全局建模。这种分层设计平衡了计算效率和特征提取能力,通过交替使用两类模块实现细节保留与语义增强的协同优化,最终提升检测性能。具体分布遵循由局部到全局的原则,同时兼顾实时性需求。原创 2025-06-04 11:03:31 · 999 阅读 · 0 评论 -
YOLOv12中,C2f模块和R-ELAN模块解析2025.6.2
YOLOv12中的C2f模块和R-ELAN模块是其核心组件,分别用于特征提取与优化。C2f模块分布在主干网络各层,通过多尺度特征融合增强目标检测能力;R-ELAN模块则位于网络深层,采用区域注意力机制和位置感知卷积强化特征精细处理。C2f强调特征多样性,R-ELAN注重特征精度优化,二者协同工作提升检测性能。这一设计使YOLOv12具备高效的特征提取和处理能力,支持实时目标检测任务。原创 2025-06-02 23:54:05 · 842 阅读 · 0 评论 -
YOLOv7 辅助检测头与重参数化解析2025.6.1
YOLOv7通过辅助检测头和重参数化两项核心技术实现高效目标检测。辅助检测头在训练阶段提供中间层监督信号,优化浅层特征学习,推理时移除以保持速度;重参数化则在训练时使用多分支结构增强性能,推理时合并为单分支提升效率。二者协同工作,使YOLOv7在精度和速度上达到最佳平衡,成为目标检测领域的先进模型。原创 2025-06-01 12:11:08 · 1164 阅读 · 0 评论 -
YOLO系列中的C3模块解析2025.5.31
摘要: C3模块是YOLOv5的核心组件,融合了CSPNet和残差结构,通过轻量化设计提升模型效率。其结构分为主分支(含Bottleneck堆叠)和旁路分支,最终拼接融合多尺度特征。核心优势包括:1)计算成本低(CSP拆分减少参数量);2)特征融合能力强(结合深浅层特征);3)可选残差连接增强鲁棒性。变体如C3TR(加入Transformer)和C3Ghost(轻量化)适配不同场景。实验表明,C3在精度([email protected]达0.856)与速度(120 FPS)间取得平衡,是高效目标检测的关键设计。原创 2025-05-31 10:57:49 · 920 阅读 · 0 评论 -
YOLOv10速度提升与参数缩减解析2025.5.31
YOLOv10在参数缩减与速度优化方面存在不平衡现象。通过轻量级分类头、解耦下采样等技术,模型参数量减少20%,但实际速度提升仅10%-15%。原因包括:复杂模块(大核卷积、自注意力)带来的隐性开销、端到端设计的双重成本以及硬件适配瓶颈。尽管在精度上有1.4%的提升,但硬件限制和动态形状支持不足影响了效率表现。未来需结合硬件感知架构搜索和动态计算分配等技术进一步优化,实现参数压缩与实际速度的平衡。原创 2025-05-31 10:47:49 · 883 阅读 · 0 评论 -
YOLOX 的动态标签分类(如 SimOTA)与 Anchor-free 机制解析2025.5.30
YOLOX的核心改进包括Anchor-free机制和SimOTA动态标签分类。Anchor-free摒弃预定义锚框,通过特征点直接预测边界框,简化模型并减少计算量。SimOTA则动态优化正样本分配,提升训练效率和检测精度。两者协同作用:Anchor-free减少冗余框,SimOTA优化样本选择,共同提升模型性能,使YOLOX在速度和精度上达到SOTA水平。原创 2025-05-30 09:34:18 · 677 阅读 · 0 评论 -
YOLOX 的动态标签分类(如 SimOTA)与 Anchor-free 机制解析2025.5.29
摘要: YOLOX通过Anchor-free机制和**动态标签分类(SimOTA)**实现目标检测优化。Anchor-free摒弃预定义锚框,直接回归边界框,降低计算冗余;SimOTA则动态分配最优正样本,提升训练效率与精度。两者协同作用:Anchor-free简化结构,SimOTA优化样本分配,使YOLOX在COCO数据集上AP提升至47.3%,兼顾速度与性能。核心差异在于,Anchor-free改进框生成方式,而SimOTA优化训练策略,共同推动模型达到SOTA水平。原创 2025-05-29 08:35:17 · 1011 阅读 · 0 评论 -
YOLOv3 网络层数解析2025.5.29
摘要: YOLOv3采用Darknet-53作为主干网络,包含53个卷积层,通过残差模块(共23个残差块)解决梯度消失问题,并引入多尺度预测(13×13、26×26、52×52)提升小目标检测能力。网络结构分为基础卷积组、5个残差模块组(含1×1降维和3×3卷积)及4次下采样,最终输出三尺度检测头。相比YOLOv2,其参数量增加但mAP提升9.3%,支持9个锚框。关键技术包括FPN特征融合、跨阶段连接及Mish激活函数优化。原创 2025-05-29 08:21:29 · 1102 阅读 · 0 评论 -
YOLOv2网络层数解析2025.5.28
YOLOv2采用Darknet-19网络架构,包含19个卷积层和5个池化层,通过全卷积设计实现高效目标检测。网络使用3×3卷积核、批量归一化和LeakyReLU激活,采用最大池化进行5次下采样。创新性引入Passthrough层融合高低维特征,提升小目标检测能力。相比YOLOv1,Darknet-19参数更少(约50M),在Titan X上达207FPS,VOC 2007数据集mAP提升至78.6%。该架构平衡速度与精度,为后续YOLOv3奠定基础。原创 2025-05-28 09:36:24 · 1147 阅读 · 0 评论 -
yolov2先验框聚类解析2025.5.28
YOLOv2提出的先验框聚类方法是目标检测领域的重要创新。该方法采用K-means算法分析训练数据中目标框的尺寸分布,自动生成匹配度更高的先验框,取代传统手动设计方式。其创新点在于使用IOU作为距离度量,解决了欧氏距离对大尺寸框敏感的问题。实验表明,仅需5个聚类生成先验框即可达到比Faster R-CNN使用9个手工先验框更好的效果,平均IOU提升至61%,mAP提高了4.8%。这一数据驱动方法显著提升了检测精度和训练效率,为后续YOLO系列的发展奠定了基础。原创 2025-05-28 09:34:02 · 1160 阅读 · 0 评论 -
yolo中颜色扰动解析2025.5.27
YOLO目标检测框架通过颜色扰动(Color Jittering)增强模型鲁棒性,主要包括HSV空间变换(色相、饱和度、亮度)、对比度调整和噪声注入。实现通过在0.5-1.5范围内随机扰动参数,组合多种增强策略,并遵循亮度±20%、色相±5%等设计原则。该技术可有效模拟真实场景的光照变化,提升检测性能,但需根据具体场景调整参数以避免信息失真。工程应用中建议结合可视化监控和消融实验验证效果。原创 2025-05-27 09:55:03 · 720 阅读 · 0 评论 -
yolov1非极大值抑制NMS解析2025.5.27
YOLOv1使用非极大值抑制(NMS)作为后处理关键步骤,通过计算边界框的IoU来消除冗余检测。处理流程包括:按置信度排序边界框,迭代选取最高分框,抑制IoU超过阈值的重叠框,保留IoU低于阈值的框作为独立检测。设定IoU阈值(通常0.5)需平衡召回率与精度,阈值越低保留框越多但可能误检。YOLOv1的NMS是全局处理,不区分类别,而后续版本改进为类别感知NMS。该机制能在保证速度的同时有效过滤冗余预测,提升检测准确性。原创 2025-05-27 09:51:12 · 378 阅读 · 0 评论 -
YOLOv1到YOLOv8各版本参数量2025.5.26
YOLOv系列模型从v1到v8经历了显著演进,参数量从亿级降至百万级。v1采用全连接检测头导致参数量高达6亿;v2引入Darknet-19和Anchor机制降至5千万;v3/v4通过Darknet-53和CSP结构优化多尺度检测;v5/v6采用CSP和RepBi-PAN结构实现轻量化;v7/v8引入GhostNet和EfficientNet,参数量最低仅1.37百万。优化趋势表现为:主干网络占比40-70%,颈部网络30-40%,检测头10-20%,关键技术包括轻量化主干、高效特征融合和解耦检测头设计。原创 2025-05-26 09:32:50 · 1263 阅读 · 0 评论 -
COCO 数据集介绍2025.5.26
COCO数据集是微软2014年发布的计算机视觉基准数据集,包含33万张图像和150万个标注实例,覆盖91类常见物体。其特点在于:1)标注丰富,包含目标检测框、分割掩码、关键点和图像字幕;2)场景复杂,目标尺度变化大;3)支持多任务学习。广泛应用于目标检测(如Faster R-CNN)、图像分割、姿态估计和图像描述生成等领域。相比Pascal VOC等数据集,COCO规模更大、任务更全面,已成为评估计算机视觉算法性能的重要基准。原创 2025-05-26 09:29:53 · 888 阅读 · 0 评论 -
YOLOv1到YOLOv12各版本发展2025.5.25
本文系统总结了YOLOv1到v12的发展历程,展示了目标检测技术的演进趋势。早期版本(v1-v3)通过改进骨干网络和特征融合提升基础性能;中期(v4-v7)引入CSP结构、Mish激活函数等创新优化效率;近期(v8-v12)则聚焦多任务支持、注意力机制和边缘计算适配。核心创新体现在:1)骨干网络从Darknet到CSPNet再到NAS优化;2)特征融合从FPN到无NMS训练;3)训练策略融合数据增强与损失函数改进。硬件部署从GPU扩展到边缘设备,最新版本(v12)在英特尔Ultra芯片上达到610FPS。原创 2025-05-25 10:14:28 · 1445 阅读 · 0 评论 -
弱小目标检测任务中的YOLO、LSTM和Transformer三种模型对比2025.5.24
本文对比分析了YOLO、LSTM和Transformer三种模型在弱小目标检测中的性能表现。YOLO在实时性和多尺度检测方面表现突出,但存在小目标漏检问题;LSTM擅长时序建模但局部特征捕捉不足;Transformer通过全局依赖建模获得高精度,但计算开销大。在复杂度方面,YOLO适合边缘设备部署,LSTM计算效率较低,Transformer则需要高性能硬件支持。综合来看,实时性场景推荐优化版YOLO,高精度需求可选择Transformer,低功耗环境可考虑LSTM结合SNN的方案。原创 2025-05-24 09:18:28 · 1378 阅读 · 0 评论 -
YOLOv12 目标检测算法深度解析
YOLOv12 目标检测算法在技术上实现了重大突破,首次在YOLO系列中完全采用纯注意力机制,摒弃了传统的CNN架构。其核心创新包括区域注意力机制(A2)、残差高效层聚合网络(R-ELAN)和FlashAttention优化,这些技术显著降低了计算复杂度,提升了模型训练稳定性和推理速度。YOLOv12 通过计算资源重分配、轻量化位置编码和动态感受野调整等策略,实现了速度与精度的再平衡。原创 2025-05-23 14:06:16 · 1756 阅读 · 1 评论 -
YOLOv1解析输出张量2025.5.22
YOLOv1的输出张量维度为7×7×30,每个网格单元预测两个边界框和20个类别概率。类别概率与网格单元绑定,而非单个边界框,假设每个网格单元最多检测一个物体。这种设计简化了计算,减少了参数量,适用于稀疏物体场景,但无法处理密集物体,且类别与定位任务耦合。后续版本如YOLOv2/v3引入Anchor Boxes,YOLOv5/v8采用解耦检测头,逐步改进这些问题。YOLOv1的设计体现了速度与精度之间的权衡,为后续版本的发展奠定了基础。原创 2025-05-22 11:21:44 · 668 阅读 · 0 评论 -
Pascal VOC 数据集介绍2025.5.21
Pascal VOC 数据集是计算机视觉领域的经典数据集,由欧盟资助的 PASCAL 项目创建,旨在推动目标检测、分类和分割等技术的发展。该数据集从 2005 年到 2012 年每年发布新版本,其中 VOC2007 和 VOC2012 最为常用。数据集包含约 2 万张图像,涵盖 20 个目标类别,如人物、动物、交通工具和室内用品等。每张图像都配有详细的 XML 标注文件,包括目标类别、边界框坐标等信息。Pascal VOC 数据集以其类别多样性、标注精确性和任务丰富性著称,广泛应用于目标检测、图像分类原创 2025-05-21 09:56:00 · 799 阅读 · 0 评论 -
YOLOv11 目标检测算法深度解析
YOLOv11 通过算法-硬件协同创新,在实时目标检测领域树立了新的性能标杆。其设计理念为后续研究提供了以下启示:效率优化需从计算图级优化转向算子级重构精度提升应聚焦于任务特定的模块化设计部署友好性需成为算法设计的核心考量因素多任务统一框架将成为移动端部署的重要方向原创 2025-05-21 09:52:15 · 2921 阅读 · 0 评论 -
PointNet 原理与架构深度解析2025.5.20
PointNet 是首个直接处理原始3D点云的深度学习框架,其核心设计包括通过对称函数解决点云排列无序问题、引入几何变换网络(T-Net)实现数据规范化,以及采用多层感知机(MLP)架构提取逐点特征。PointNet 通过三级特征抽象实现从低级几何到高级语义的跃迁,支持分类和分割等任务。其优势在于架构简洁、实时性能高和数据效率好,但也存在局部特征缺失、密度敏感性和计算冗余等局限。未来发展方向包括增强局部特征、多模态融合和轻量化设计,以推动3D视觉技术在自动驾驶和机器人等领域的应用。原创 2025-05-20 09:53:36 · 1196 阅读 · 0 评论 -
YOLOv10 目标检测算法深度解析
YOLOv10延续了YOLO系列标志性的一阶段检测框架,通过单次前向传播直接输出目标位置与类别信息。相较于传统二阶段算法(如Faster R-CNN),其核心优势在于:架构简化:摒弃区域提议网络(RPN),将特征提取、候选框生成与分类整合为统一网络速度突破:在T4 GPU上实现实时推理,YOLOv10-N版本达到1200+ FPS(640×640输入)精度提升:COCO test-dev数据集上取得54.2% AP(YOLOv10-X),较YOLOv9提升2.3%原创 2025-05-19 11:04:22 · 1416 阅读 · 0 评论 -
COCO数据集神经网络性能现状2025.5.18
截至2025年5月,COCO数据集上性能最佳的神经网络模型及其关键参数如下:D-FINE以59.3%的平均精度(AP)和78 FPS的速度成为实时目标检测领域的标杆,其技术亮点包括细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)。AODGCN在MS-COCO 2017测试集上达到51.8% mAP,主要技术亮点为动态图卷积网络(D-GCN)和内容感知注意力模块(CAAM)。原创 2025-05-18 15:08:09 · 1150 阅读 · 0 评论 -
YOLOv8 目标检测算法深度解析
YOLOv8是Ultralytics公司于2023年发布的最新一代目标检测框架,作为YOLO系列的技术集大成者,其设计理念突破传统版本迭代模式,采用模块化架构实现算法框架的扩展性。与前代YOLOv5相比,v8版本在保持单阶段检测优势的同时,通过三大核心创新实现性能跃升原创 2025-05-17 11:36:58 · 2518 阅读 · 0 评论 -
YOLOv9 目标检测算法深度解析
YOLOv9作为目标检测领域的最新突破,其设计理念围绕**信息完整性保持**与**梯度流优化**展开。通过可逆函数理论分析,团队发现深度网络存在**信息瓶颈效应**——输入数据在前向传播中存在不可逆的信息损失,导致梯度更新方向偏离最优路径。原创 2025-05-16 09:20:39 · 1000 阅读 · 0 评论 -
YOLOv7 目标检测算法深度解析
YOLOv7 延续了YOLO系列单阶段目标检测范式,通过端到端网络直接预测目标边界框与类别。其核心创新点集中于网络架构优化、动态标签分配及模型缩放策略,实现了速度与精度的双重突破。原创 2025-05-15 09:36:11 · 1258 阅读 · 0 评论 -
YOLOv6 目标检测算法深度解析
YOLOv6(You Only Look Once version 6)作为YOLO系列的第六代算法,通过重构网络架构与训练策略,在实时性与精度之间实现了新的平衡。其设计目标是在保持轻量化优势的同时,显著提升对小目标、密集场景的检测精度,并优化模型的工程化部署能力。原创 2025-05-15 09:31:14 · 970 阅读 · 0 评论 -
YOLOv5 目标检测算法深度解析
YOLOv5(You Only Look Once version 5)作为YOLO系列的第五代算法,通过轻量化设计与工程化优化,在保持实时检测能力的同时,显著提升了模型的易用性和部署灵活性。其设计目标是在速度与精度之间取得平衡,尤其针对移动端和边缘设备优化。原创 2025-05-14 11:03:31 · 2242 阅读 · 0 评论 -
YOLOv4 目标检测算法深度解析
YOLOv4(You Only Look Once version 4)作为YOLO系列的第四代算法,通过整合多项前沿技术,在目标检测的速度与精度之间实现了新的平衡。其设计目标是在保持实时检测能力的同时,显著提升对小目标、密集场景的检测精度,并优化模型的泛化能力。原创 2025-05-13 09:55:57 · 1245 阅读 · 0 评论 -
YOLOv3 目标检测算法深度解析
YOLOv3(You Only Look Once version 3)作为YOLO系列的第三代算法,延续了单阶段检测范式,通过端到端的回归策略实现实时目标检测。其核心设计目标是在保持检测速度优势的同时,显著提升多尺度目标检测能力,尤其针对小目标检测和复杂场景优化。原创 2025-05-13 09:53:26 · 1308 阅读 · 0 评论 -
YOLOv2 目标检测算法深度解析
YOLOv2(You Only Look Once version 2)作为YOLO系列的里程碑式改进,延续了v1版本的单阶段检测范式,通过端到端的回归策略实现实时目标检测。其核心设计目标是在保持检测速度优势的同时,显著提升定位精度和召回率,尤其针对小目标检测和密集场景优化。原创 2025-05-12 11:19:14 · 1163 阅读 · 0 评论 -
YOLOv1 目标检测算法深度解析
YOLOv1是一种革命性的目标检测算法,通过将检测任务转化为单一回归问题,实现了端到端的优化。其核心创新包括空间网格划分机制和联合预测编码策略,将输入图像划分为7×7网格,每个网格预测两个边界框和20类概率。网络架构由24个卷积层和2个全连接层组成,输入图像尺寸为448×448×3,最终输出7×7×30的张量。损失函数采用加权MSE损失,包含坐标损失、置信度损失和分类损失。YOLOv1在速度上具有显著优势,但存在小目标检测召回率低和定位精度不足的局限性。原创 2025-05-12 11:15:58 · 1201 阅读 · 0 评论 -
观察产业:openAI 2025.4.21
与传统的增加模型规模和投入更多数据的方法不同,o3系统采用了一种全新的架构,使其能够在有限的计算资源下实现高性能。这种架构的具体细节尚未公开,但OpenAI透露,o3系统的训练过程中使用了公共训练集的75%,这可能是其性能提升的关键因素之一。以ChatGPT为例,通过这些技术的优化,ChatGPT展现出了惊人的语言生成能力和对话理解能力,能够进行自然流畅的对话,甚至在某些复杂任务上表现出超越人类的水平。这种能力的提升使模型在数学、科学等领域的表现有了质的飞跃,进一步缩小了人工智能与人类智能之间的差距。原创 2025-04-21 10:44:14 · 1001 阅读 · 0 评论 -
YOLOv1到YOLOv12发展概述2025.3.17
一.YOLO系列算法发展一.YOLO系列算法发展YOLOv1作为开创性的单阶段目标检测算法,将目标检测转化为回归问题,实现了快速高效的目标检测。其核心思想是将输入图像划分为S×S个网格,每个网格负责预测B个边界框及其置信度和C个类别概率。YOLOv2在YOLOv1基础上引入了Batch Normalization和anchor boxes等技术,显著提升了检测精度。YOLOv3进一步优化了网络结构,采用Darknet-53作为特征提取器,并引入了多尺度预测机制,有效提高了对小目标的检测能力。原创 2025-03-17 22:26:55 · 1974 阅读 · 0 评论 -
YOLO(一):YOLOv3在Windows7(无GPU)下的配置+opencv3.1.0+VS2015
提醒本文为Windows下CPU版本,GPU版本及YOLO-V3的训练问题后期更新参考链接:CSDN博主「凌空的桨」:https://blog.csdn.net/baidu_36669549/article/details/79798587查了不少资料,上面这位同学的参考最为舒适,一试就成功了。所有的都是参照官网上的说明做的。AlexeyAB/darknet这是链接。0.准备工作就是你得事...原创 2020-03-17 09:23:38 · 2474 阅读 · 4 评论 -
YOLO(二):YOLOv4在Windows7(GTX960)下的配置+opencv3.1.0+VS2015
提醒:本文为64位Windows7操作系统下GTX960的配置,YOLOv4的数据训练问题还是先挖个坑,后期再更新。主要参考:windows7+VS2017+GPU+OpenCV3.4 编译YOLO_v4自己上一篇的YOLOv3在windows7仅CPU模式下配置好之后,刚发出去没多久,其实YOLOv4就出来了,性能相比v3提升了不少,前段时间也趁着有空,试了一下,这里友情提醒一下,v4最好使用显卡,自己的显卡正好是刚从叔叔家网咖淘汰下来的GTX960,所以也就凑合着用吧。前面说过对于初学者,YOLO原创 2020-06-10 17:56:20 · 3613 阅读 · 9 评论 -
YOLO(三):YOLOv4在Windows7(仅CPU)下的配置+opencv3.1.0+VS2015
提醒:本文为64位Windows7操作系统下仅CPU(木有用到显卡)的配置,这是填上一篇YOLOv4的坑(上一篇中有使用到显卡,对于没有显卡但也想跑一下试试的同学可以过来坐坐),构建自己的数据集训练问题还得往后延一下,后期再更新。主要参考: YOLO V4 :win10+cpu环境的体验上一篇的YOLOv4在windows7搭载的GTX960显卡配置好之后,无意中看到上面那篇文章,因为自己在之前查找教程的时候,有几个使用cmake生成的例程,但自己一直没跑通,后面就换了一位同学的方法实现。这次看到这个不原创 2020-07-08 00:53:58 · 3773 阅读 · 4 评论