自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI浩

分享人工智能知识,包括:计算机视觉、NLP以及机器学习等领域。注重基础与实践,尽最大的努力让每个初学者看懂学会。

  • 博客(1566)
  • 资源 (166)
  • 收藏
  • 关注

原创 大模型变身复读机?揭秘原因与实用解药

在特定条件下(数据模式、注意力聚焦、自我强化效应),选择重复已生成的内容,在模型的“世界观”里,可能恰恰是当前最“合理”(概率最高)的选择。我们通过各种策略(数据、训练、解码参数、提示、后处理),本质上都是在引导或“修正”模型的这种概率选择倾向,使其输出更符合人类的期望——流畅、多样、富有创造力。),并灵活运用调整生成参数(温度、Top-p、重复惩罚)、优化提示词、选择更优模型等策略,我们可以显著缓解这一问题,让大模型真正发挥其作为强大信息处理和创意助手的潜力。通过理解其背后的原因(尤其是强大的。

2025-07-14 23:00:00 787

原创 AI开源伦理临大考,如何判定抄袭

华为至今未回应内部爆料,而GitHub原文已悄然消失。这场罗生门没有赢家:若指控属实,中国大模型的“国产化”叙事将遭遇信任坍塌;若纯属误判,则凸显AI时代判定原创的技术与伦理标准仍处混沌。当全球AI竞赛进入白热化,华为盘古事件如同一面镜子,映照出所有参赛者的共同困境——如何在巨人的肩膀站稳时,不踩碎脚下的基石。

2025-07-08 07:11:58 1048

原创 【跟踪实战】手把手教你SFSORT跟踪实战

bbox, x。

2025-07-07 13:25:26 426

原创 SFSORT:基于场景特征的简易在线实时跟踪器

本文介绍了SFSORT——经MOT挑战数据集实验验证的全球最快多目标跟踪系统。为实现高精度且计算高效的跟踪器,本文采用基于在线实时跟踪的检测跟踪方法(该方法是先前文献中已确立的)。通过引入一种名为边界框相似度指数(BoundingBoxSimilarityIndex)的新型代价函数,本研究摒弃了卡尔曼滤波器,从而降低了计算需求。此外,本文还展示了场景特征对增强目标-轨迹关联及改进轨迹后处理的影响。

2025-07-03 17:36:16 1168

原创 OmniGen2: Exploration to Advanced Multimodal Generation

https://arxiv.org/pdf/2506.18871v2In this work, we introduce OmniGen2,a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlik

2025-07-03 09:02:09 968

原创 Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation

我们提出了一种名为Hyper-YOLO的新型目标检测方法,该方法通过整合超图计算来捕捉视觉特征间复杂的高阶关联性。传统YOLO模型虽然功能强大,但其颈部设计存在局限性,限制了跨层级特征的融合以及对高阶特征间相互关系的利用。为应对这些挑战,我们提出了基于超图计算的语义聚合与分散框架(Hypergraph Computation Empowered Semantic Collecting and Scattering,HGC-SCS),该框架将视觉特征图转换到语义空间,并构建超图以实现高阶消息传播。

2025-07-02 07:17:01 869

原创 DEIM: DETR with Improved Matching for Fast Convergence

我们引入了DEIM,这是一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛速度。为缓解DETR模型中一对一(O2O)匹配所固有的稀疏监督问题,DEIM采用了密集一对一(Dense O2O)匹配策略。该方法通过运用标准数据增强技术,在每张图像中纳入更多目标以增加正样本数量。尽管Dense O2O匹配加速了收敛,但也引入了大量低质量匹配,可能影响性能。

2025-07-02 06:12:18 1028

原创 D-FiNE:在DETR模型中重新定义回归任务为精细粒度分布细化

我们提出了D-FINE,这是一款强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了出色的定位精度。D-FINE包含两个关键组件:精细粒度分布细化(Fine-grained Distribution Refinement,FDR)和全局最优定位自蒸馏(Global Optimal Localization Self-Distillation,GO-LSD)。FDR将回归过程从预测固定坐标转变为迭代细化概率分布,提供了精细粒度的中间表示,显著提高了定位精度。

2025-06-29 20:54:47 1063 1

原创 SportsMOT:多体育场景大规模多目标跟踪数据集

框架通过融合运动预测与Transformer外观建模,在SportsMOT与MOT17均达SOTA。该数据集有望推动体育分析与多目标跟踪算法的协同发展。在SportsMOT上提升显著:ByteTrack + MixSort使HOTA↑1.6,IDF1↑2.7(表3)。在MOT17上刷新SOTA:HOTA达64.0(表5),证明泛化能力。填补了体育场景MOT数据集的空白,其。特性挑战现有跟踪范式。

2025-06-26 20:30:00 944 2

原创 CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking

近年来,在线多目标跟踪领域主要由基于检测的跟踪(Tracking-by-Detection,简称TbD)方法主导,这些方法的最新进展依赖于日益复杂的启发式规则来实现轨迹片段(tracklet)表示、特征融合以及多阶段匹配。TbD方法的关键优势在于其模块化设计,这使得它能够集成专门化的现成模型,如运动预测器和行人重识别(re-identification)模型。然而,大量使用人工设计的规则来进行时间关联,使得这些方法在捕捉各种跟踪线索之间复杂相互作用的能力上存在固有局限。

2025-06-26 07:04:45 915

原创 视频中的开放世界目标计数

我们引入了一项新的视频开放世界目标计数任务:给定一个文本描述或一个图像示例来指定目标物体,任务目标是在视频中枚举出所有目标物体的唯一实例。在存在遮挡和相似物体的拥挤场景中,这项任务尤其具有挑战性,因为避免重复计数和识别重新出现的物体至关重要。为此,我们做出了以下贡献:我们为该任务引入了模型COUNTVID。它利用了一个基于图像的计数模型和一个可提示的视频分割与跟踪模型,以实现视频帧间的自动化开放世界目标计数。

2025-06-25 21:02:53 1315

原创 DiffMOT:一种基于扩散的实时多目标跟踪器,具备非线性预测能力

在多目标跟踪(Multiple Object Tracking, MOT)中,目标物体常常表现出加速和减速的非线性运动,且方向变化不规则。基于检测的跟踪(Tracking-by-detection, TBD)方法结合卡尔曼滤波器(Kalman Filter, KF)运动预测在行人主导的场景中表现良好,但在多个目标同时进行非线性和多样化运动的复杂情况下则表现不佳。为了应对复杂的非线性运动,我们提出了一种基于扩散的实时多目标跟踪方法,名为DiffMOT。

2025-06-25 17:10:16 963

原创 Cross-DINO:融合深度多层感知机(MLP)与Transformer以实现小目标检测

小目标检测(SOD)由于信息有限和模型类别预测分数较低而面临重大挑战。尽管基于Transformer的检测器已展现出良好的性能,但它们在SOD方面的潜力在很大程度上仍未得到探索。在典型的类似DETR的框架中,专门用于聚合局部信息的CNN主干网络难以捕获SOD所需的上下文信息。Transformer编码器中的多个注意力层难以有效关注小目标,还可能导致特征模糊。此外,与大目标相比,模型对小目标的类别预测分数较低,进一步增加了SOD的难度。为了应对这些挑战,我们提出了一种名为Cross-DINO的新方法。

2025-06-24 06:23:46 1021

原创 百度文心快码发布Comate AI IDE:首创设计稿一键转代码,打造多模态、多智能体协同开发环境

文心快码推出的Comate AI IDE,围绕“智能”、“拓展”、“协同”、“灵感”四大维度实现全方位突破,具备多项核心能力,已成为AI时代工程师的得力“工作台”。从核心技术突破到开发生态构建,从职业场景赋能到全民普惠应用,百度文心快码正以中国自主创新的力量,重新定义智能编程的未来图景,践行着“让每一个有梦想的人,都能构建属于自己的世界”的愿景。门槛的降低,恰恰是软件普及和行业繁荣的基石。因此,我们的学习重心需要随之转变:从过度聚焦于底层代码的“怎么写”,转向更高维度的“做什么”和“为什么做”。

2025-06-24 05:40:06 1695

原创 管理综合知识点

某溶液由A、B两种液体混合,A液浓度60%,B液浓度30%。梯形ABCD中,AD∥BC,AC与BD交于O点,△AOD与△BOC面积比为1:4,求AD:BC。某商品2023年销量比2022年增长20%,2024年比2023年下降15%,求两年总增长率。甲、乙速度比5:4,从两地相向而行,相遇时甲比乙多走10公里,求总路程。用30%和60%的盐水配成45%的盐水200克,需两种盐水各多少克?商品成本100元,按50%利润率定价,后打8折出售,求实际利润率。相遇时路程比 = 速度比 = 5:4。

2025-06-22 21:35:59 660

原创 MiniMax-M1: Scaling Test-TimeCompute Efficiently with I Lightning Attention

我们推出了MiniMax-M1,这是全球首个开源权重、大规模混合注意力推理模型。MiniMax-M1采用了混合专家系统(Mixture-of-Experts,简称MoE)架构,并结合了闪电注意力机制。该模型是在我们之前的MiniMax-Text-01模型(MiniMax等人,2025年)基础上开发而来的,该模型总共有4560亿个参数,每个标记激活459亿个参数。M1模型原生支持高达100万个标记的上下文长度,是DeepSeek R1上下文大小的8倍。

2025-06-21 17:14:48 910

原创 基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测

图2给出了基于角度参数化旋转边界框的两种流行定义:由DocD_{o c}Doc​表示的OpenCV协议和由DlϵDlϵ​表示的长边定义。注意,前者的θ∈−90∘0∘θ∈−90∘0∘表示边界框的wocw_{o c}woc​与x轴之间的锐角或直角。相比之下,后者的θ∈−90∘90∘θ∈−90∘90∘是边界框长边wlew_{l e}wle​与x轴之间的角度。Dlewlehleθ。

2025-06-21 08:39:51 735

原创 RAG进化论:从“字典”到“超级大脑”的跃迁之路**

RAG的演进本质是。

2025-06-20 21:23:34 931

原创 【Block总结】FCB,傅里叶卷积|即插即用

核心贡献FCB模块首次在MRI重建中实现全局感受野与低计算复杂度的统一,突破传统CNN的局部性限制,性能超越ViT与大核CNN。应用价值即插即用设计兼容主流CNN架构(如UNet),代码已开源(GitHub链接),推动临床MRI快速重建。声明:作者使用ChatGPT辅助语言润色,内容责任由作者承担。资助:国家自然科学基金、北京市科技计划等支持。此工作为MRI重建提供了一种高效全局特征提取新范式,平衡了性能与计算成本,具有重要临床意义。

2025-06-20 00:45:00 976

原创 MASF-YOLO:一种改进的用于无人机视角下小目标检测的YOLOv11网络

随着无人机(Unmanned Aerial Vehicle,UAV)和计算机视觉技术的快速发展,从无人机视角进行目标检测已成为一个突出的研究领域。然而,无人机图像中目标像素占比极小、物体尺度变化显著以及背景信息复杂等因素给检测带来的挑战,极大地限制了无人机的实际应用。

2025-06-20 00:30:00 1081

原创 DINO-R1:激励推理能力的视觉基础模型

近期,人们对大型语言模型(如DeepSeek-R1)推理能力的关注呈爆炸式增长,通过基于强化学习的微调框架(如组相对策略优化(Group Relative Policy Optimization,GRPO)方法)取得了显著成功。然而,在视觉基础模型(包括像DINO系列这样的表征模型)中,这种推理能力仍鲜有探索且明显缺失。在本工作中,我们提出了DINO-R1,这是首次尝试使用强化学习来激励视觉基础模型的视觉上下文推理能力。

2025-06-19 21:34:55 1176

原创 自动化工具:将PDF论文转换为Markdown格式|附代码

高质量PDF转图像:将PDF每页转换为高分辨率图像OCR文本识别与结构分析:识别图像中的文本内容和文档结构Markdown生成与合并:创建结构化文档并合并为完整文件。

2025-06-19 12:46:25 653

原创 RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络

在本研究中,我们选择YOLOv8作为基准网络进行改进,因为其结构简单且检测精度稳定。主干网络(Backbone):主干网络是获取输入图像特征的关键元素。YOLOv8的主干网络主要由CBS(Conv-BN-SiLU)和C2f模块构成,其中CBS用于下采样,而C2f模块用于特征提取。颈部(Neck):YOLOv8的颈部组件采用了路径聚合网络-特征金字塔网络(PAN-FPN)结构,在FPN的基础上引入了自底向上的路径。该路径允许低层特征与高层特征再次融合,有助于捕获不同尺寸的目标并提高目标检测的准确性。

2025-06-19 06:30:00 1325

原创 Could not locate zlibwapi.dll. Please make sure it is in your library path!

这个错误表明您的系统中缺少文件,这是 PyMuPDF (fitz) 库所需的依赖项。

2025-06-18 23:15:00 516

原创 TradingAgents:基于多智能体的大型语言模型(LLM)金融交易框架

基于大型语言模型(LLMs)驱动的智能体社群在自动化问题求解领域取得了显著进展。在金融领域,现有研究主要聚焦于单智能体系统处理特定任务或多智能体框架独立收集数据。然而,多智能体系统模拟真实世界交易公司协作动态的潜力尚未得到充分探索。本文提出的框架受交易公司启发,设计了一种新型股票交易框架,其中包含由LLMs驱动的、担任不同角色的智能体,如基本面分析师、情绪分析师、技术分析师以及具有不同风险偏好的交易员。该框架包括看涨(Bull)和看跌(Bear)研究员智能体,负责评估市场条件;风险管理团队监控风险敞口;

2025-06-18 20:21:04 1524 1

原创 RuntimeError: Directory ‘static/‘ does not exis

【代码】RuntimeError: Directory ‘static/‘ does not exis。

2025-06-18 07:16:11 233

原创 轻松搭建Linux开发环境:使用`build-essential`安装GCC编译器**

在Linux系统上进行软件开发,尤其是C或C++项目,一个强大的编译器是必不可少的基石。这个看似简单的命令背后,为你一次性安装了构建C/C++软件所需的核心工具链:GCC编译器、G++编译器、Make构建工具、C标准库开发文件以及其他必要的依赖项。现在,你已经拥有了强大的GCC编译器,可以尽情探索Linux开发的广阔天地了!在安装任何新软件之前,最好先更新本地软件包仓库的索引信息,确保获取的是最新版本和依赖关系。输入你的用户密码(输入时不会显示星号,这是正常的)并按回车。等及其依赖),并询问你是否继续。

2025-06-17 23:15:00 1302

原创 Python 脚本,用于将 PDF 文件高质量地转换为 PNG 图像

103dstrstr。

2025-06-16 23:00:00 929

原创 LLM 为什么需要 RLHF

RLHF 通过。

2025-06-16 21:45:00 713

原创 用于快速且稳定深度学习的TELU激活函数

摘要我们提出了双曲正切指数线性单元(TeLU),这是一种神经网络隐藏激活函数,定义为TeLU(x)=x⋅tanh(ex)TeLU(x)= x\cdot tanh(e^{x})TeLU(x)=x⋅tanh(ex)。TeLU的设计基于关键激活函数的核心原则,通过在其活跃区域紧密逼近恒等函数来实现强收敛,同时有效缓解其饱和区域中的梯度消失问题。其简单的公式提高了计算效率,从而改善了可扩展性和收敛速度。与许多现代激活函数不同,TeLU无缝结合了ReLU的简单性和有效性与深度神经网络中学习稳定性所必需的平滑性和解析

2025-06-16 07:15:14 1318

原创 【Block总结】NeLU(负斜率线性单元)函数|最新激活函数|独家复现|即插即用

梯度重塑:数学设计:适用场景:通过乘法技巧注入梯度(公式6),确保梯度流经“死亡”神经元。损失曲面更平滑(图5),优化过程更稳定。性能对比:关键优势:核心贡献:应用价值:局限与未来:

2025-06-15 07:03:37 703

原创 【Block总结】B-SiLU,最新激活函数|即插即用|涨点神器|独家复现

B-SiLUxxα⋅σx−2α​α1.67其中 (\sigma(x)) 为 Sigmoid 函数。dxd​B-SiLUxσxxασx1−σx))(图示:B-SiLU 激活值连续平滑,导数在负区域非零且收敛于零)my​x⋅sgg​x))m−sgmsgReLUx))​。

2025-06-15 06:24:32 763

原创 新的激活函数B-SiLU和NeLU:ReLU函数的复兴

在深度学习架构中建模复杂的激活函数已成为一个独特的研究方向。诸如GELU、SELU和SiLU等函数提供了平滑的梯度和改进的收敛特性,使其成为最先进模型中的热门选择。尽管存在这一趋势,但经典的ReLU函数仍因其简洁性、内在稀疏性以及其他有利的拓扑特性而备受青睐。然而,ReLU单元容易出现不可逆的失活现象——即所谓的“ReLU死亡问题”——这限制了其整体有效性。

2025-06-14 16:22:56 632

原创 list,通过queue,将里面的值做分组

这个实现保证了每个消费者线程只会处理特定数字,同时通过队列系统实现了生产-消费的解耦,符合多线程编程的最佳实践。:创建与原始列表长度相同的队列组,每个队列对应一个数字(索引0对应数字1,索引1对应数字2,依此类推)

2025-06-13 18:45:00 371

原创 OG-HFYOLO:面向变形表格单元格的方向梯度引导(Orientation Gradient Guidance)与异构特征融合(Heterogeneous Feature Fusion)

表格结构识别是文档分析中的一项关键任务。然而,变形表格中的几何变形削弱了内容与结构信息之间的关联性,进而阻碍了下游任务准确提取内容的能力。为应对这一挑战,我们提出了用于细粒度单元格坐标定位的OG-HFYOLO模型。该模型整合了梯度方向感知提取器(Gradient-Orientation-Aware Extractor)以增强边缘检测,并引入异构核交叉融合(Heterogeneous Kernel Cross Fusion)模块来促进多尺度特征学习,从而提高特征表达的准确性。

2025-06-13 07:20:46 433

原创 Labelm格式数据集操作——将png的图片转为jpg的图片

strstr。

2025-06-12 00:45:00 337

原创 解决RAG痛点:注重高质量的数据

在RAG系统中,当前开发者常被等问题困扰,其根源往往不在模型本身,而在知识库处理环节的缺失。

2025-06-12 00:30:00 648

原创 【Block总结】Inv-FR,串行自适应卷积核操作,优化空间特征表示|即插即用

动态核生成:使模型能自适应不同图像区域的特征通道优化设计:通过双级结构实现通道信息的提炼高效实现:利用unfold操作避免显式滑动窗口。

2025-06-11 01:00:00 598

原创 【Block总结】DiffAttention,差分注意力融入CLIP架构,抑制噪声,增强对相关特征的关注|即插即用

DiffCLIP通过微小的结构改动实现了显著的性能提升,为多模态模型的轻量化与高效化提供了新范式。

2025-06-11 00:45:00 1234 1

原创 【Block总结】CAFMAttention,双模块协同设计|即插即用|暴力涨点|ICASSP 2025

CAF-YOLO通过。

2025-06-10 03:00:00 1197

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

Vim实战:使用Vim实现图像分类任务

Vim作为一种高效的视觉模型,具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。 本文使用Vim模型实现图像分类任务,模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token(这个方法的名字比较长。。。。。),在植物幼苗分类任务ACC达到了93%+。 文章链接: https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法,通过引入视觉状态空间模型(SSM)以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体,结合选择性扫描和有效跳跃采样,同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果,并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用,并指出现有轻量级模型在保持全局表示能力方面的挑战。 本文使用EcientVMamba模型实现图像分类任务,模型选择最小的EcientVMamba_T,在植物幼苗分类任务ACC达到了93%+,达到了ViM的水平。。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

TransNext-Demo.zip

2024-03-16

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战:使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。具体来说,MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率,分别使用了5.2M和181M参数,优于ParC-Net-S和ConvNeXt-L,同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。 文章链接:https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用,利用构建通道或空间位置之间的依赖关系的能力,有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制,并提出了一种新的计算注意力权重的方法——三元组注意力,通过一个三分支结构捕捉跨维度交互。对于输入张量,三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系,并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效,可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中,如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测,证明了该方法的有效性。此外,通过可视化检查GradCAM和GradCAM++结果,提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

FlashInternImage实战:使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进,无需其他修改。DCNv4在速度和效率上的优势,结合其在各种视觉任务中的稳健性能,使其成为未来视觉模型的潜在基础构建块。 文章链接: https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战:使用UniRepLKNet实现图像分类任务

大核卷积神经网络(ConvNets)近年来受到广泛关注,但仍存在两个关键问题需要进一步研究。首先,目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则,而大核ConvNets的架构设计仍未得到充分解决。其次,尽管Transformer已在多种模态中占据主导地位,但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战:使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中,TransXNet-T相比Swin-T在top-1准确率上提高了0.3%,同时计算成本更低。此外,TransXNet-S和TransXNet-B展示了出色的模型扩展性,分别实现了83.8%和84.6%的top-1准确率,且计算成本合理。此外,我们的网络架构在各种密集预测任务中展现出了强大的泛化能力,优于其他先进的网络结构,且计算成本更低。总之,D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构,为计算机视觉领域提供了新的解决方案。 这篇文章使用TransXNet完成植物分类任务,模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战:使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。 这些组件虽然带来了有效的准确性和吸引人的FLOP计数,但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。 通过使用强大的视觉预训练任务(MAE)进行预训练,可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西,同时不会丢失准确性。 在此过程中,作者创建了Hiera,这是一种极其简单的层次视觉变换器,它比以前的模型更准确,同时在推理和训练过程中都明显更快。 在各种任务上评估了Hiera对于图像和视频识别的表现。 代码和模型可以在https://github.com/facebookresearch/hiera上获得。 这篇文章使用Hiera完成植物分类任务,模型采用hiera_tiny_224向大家展示如何使用Hiera。 原文链接:https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战:使用RevCol实现图像分类任务

可逆柱状结构(RevCol)是一种网络结构,它受到GLOM(Global Columnar Memory)的启发。RevCol由N个子网络(或称为列)组成,每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题,通过在前面的列中添加额外的监督,以保持特征和输入图像之间的互信息。此外,RevCol可以逐渐解耦语义和低级信息,从而提取和利用任务相关信息来进一步提高性能。在实现上,对于中间监督,采用了加权求和的方式将两个损失合并,对于所有变体的RevCol,通过实验确定将监督头添加到特定的列中。 这篇文章使用RevCol完成植物分类任务,模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC,

2023-11-25

Sgformer实战:使用Sgformer实现图像分类任务

Sgformer实战:使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用:探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用:探索schedule的无尽可能性

2023-08-30

FastVIT实战:使用FastVIT实现图像分类

第一步 执行makedata.py 创建训练集和验证集 第二步 执行train.py训练 第三步 执行export_model.py 导出模型 第四步 执行test.py 测试 非常简单,适合初学者

2023-08-21

DERT:论文详细翻译

DERT:论文详细翻译

2023-08-15

VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型

在BN层网络中加入稀疏因子,训练使得BN层稀疏化,对稀疏训练的后的模型中所有BN层权重进行统计排序,获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重,制作各层mask(权重>thres值为1,权重<thres值为0)。剪枝操作,根据各层的mask构建新模型结构(各层保留的通道数),获取BN层权重mask非零值的索引,非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型,进行fine-tune。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战:使用EMO实现图像分类任务

EMO实战:使用EMO实现图像分类任务

2023-07-31

OverLoCK实战:使用OverLoCK实现图像分类任务

OverLoCK是一种全新的卷积神经网络(ConvNet)架构,旨在模仿人类视觉系统中的“纵观全局-聚焦细节”(Overview-first-Look-Closely-next)双阶段认知机制。该架构通过引入自上而下的注意机制,结合动态卷积技术,显著提升了模型在图像分类、目标检测和语义分割等视觉任务中的性能。其核心设计包括深层分解策略(Deep-stage Decomposition Strategy, DDS)和上下文混合动态卷积(Context-Mixing Dynamic Convolution, ContMix),以有效建模长距离依赖关系,同时保留局部归纳偏差。实验表明,OverLoCK在多个基准任务中超越了现有的ConvNet和Transformer架构,同时显著降低了计算成本[3][4][9]。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/147011934

2025-05-19

SparX实战:使用SparX实现图像分类任务

SparX是一种新提出的稀疏跨层连接机制,旨在提升视觉Mamba和Transformer网络的性能。该论文由香港大学的俞益洲教授及其研究团队撰写,并将在AAAI 2025会议上发表。论文的主要目标是解决现有视觉模型在跨层特征聚合方面的不足,尤其是在计算复杂度较高的Mamba模型中[5][6][7]。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145376426

2025-01-29

DFFormer实战:使用DFFormer实现图像分类

## 论文信息 **标题**: FFT-based Dynamic Token Mixer for Vision **论文链接**: https://arxiv.org/pdf/2303.03932 ## 创新点 本论文提出了一种新的令牌混合器,称为**动态滤波器(Dynamic Filter)**,旨在解决多头自注意力(MHSA)模型在处理高分辨率图像时的计算复杂度问题。传统的MHSA模型在输入特征图的像素数量增加时,其计算复杂度呈二次增长,导致处理速度缓慢。通过引入基于快速傅里叶变换(FFT)的动态滤波器,论文展示了在保持全局操作能力的同时,显著降低计算复杂度的可能性。 链接:https://wanghao.blog.csdn.net/article/details/145368717?spm=1001.2014.3001.5502

2025-01-27

CrossFormer实战:使用CrossFormer实现图像分类任务

CrossFormer是一种新型的视觉Transformer架构,旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互,解决了现有视觉Transformer在处理多尺度特征时的不足。 链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145055796?spm=1001.2014.3001.5501

2025-01-12

DilateFormer实战:使用DilateFormer实现图像分类任务

## 创新点 - **多尺度扩张注意力(MSDA)**:通过分析ViTs中全局注意力的斑块交互,发现注意力矩阵在浅层具有局部性和稀疏性。基于此,提出了MSDA,通过在周围稀疏选择的斑块中进行自注意力计算,同时捕获多尺度语义依赖。 - **滑动窗口扩张注意力(SWDA)**:作为MSDA的一部分,SWDA在局部邻域内执行自注意力,进一步利用感受野内的信息。 - **金字塔架构**:采用金字塔架构来发展DilateFormer模型,在浅层阶段堆叠MSDA以捕获低层信息,在深层阶段使用全局多头自注意力以建模高层信息。 本文使用DilateFormer模型实现图像分类任务,模型选择dilateformer_tiny,在植物幼苗分类任务ACC达到了89%+。

2024-12-26

Yolo11s的Objects365预训练权重

Yolo11s的Objects365预训练权重,训练了10个epoch,可以用来做预训练模型。

2024-12-06

VOLO实战:使用VOLO实现图像分类任务

本文介绍了一种新颖的视觉前景器(VOLO)主干网络,通过提出前景注意力机制和构建两个阶段的架构,实现了在ImageNet分类任务上的卓越性能。同时,VOLO在语义分割任务上也表现出了出色的性能。VOLO的提出为视觉识别领域带来了新的突破和进展。 本文使用VOLO模型实现图像分类任务,模型选择volo_d1,在植物幼苗分类任务ACC达到了85%+。

2024-11-25

DeBiFormer实战:使用DeBiFormer实现图像分类任务

本文介绍的DeBiFormer是一种专为图像分类和密集预测任务设计的新型分层视觉Transformer。通过提出可变形双级路由注意力(DBRA),优化了查询-键-值交互,自适应选择语义相关区域,实现了更高效和有意义的注意力。实验结果表明,DeBiFormer在多个计算机视觉任务上均表现出色,为设计灵活且语义感知的注意力机制提供了见解。 本文使用DeBiFormer模型实现图像分类任务,模型选择debi_tiny,在植物幼苗分类任务ACC达到了82%+。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142706712

2024-11-07

NextVit-Demo.zip

NextVit-Demo.zip

2024-10-04

EfficientFormer实战:使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势,通过一系列高效的设计改进和搜索方法,实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战:使用GCViT实现图像分类任务

GC ViT(全局上下文视觉转换器)是一种创新的深度学习架构,旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合,有效地建模长程和短程空间交互,同时避免了传统方法中的昂贵操作,如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer(ViT)中归纳偏差缺失的问题,并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务(如图像分类、目标检测和语义分割)中,GC ViT均取得了最先进的结果。 原文链接:https://blog.csdn.net/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战:使用CAS-ViT实现图像分类任务

CAS-ViT(Convolutional Additive Self-attention Vision Transformer)通过一系列创新,成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器(Convolutional Additive Token Mixer, CATM),这一设计显著降低了计算开销。 原文链接:https://blog.csdn.net/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战:使用GroupMamba实现图像分类任务

状态空间模型(SSM)的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战,特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面,相比现有方法取得了更优的性能。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战:使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制(EfficientMod)”的新型设计,旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制,该机制通过卷积上下文建模和特征投影层处理输入,并通过逐元素乘法和多层感知机(MLP)块融合特征。为了进一步提升效率,作者设计了EfficientMod块,作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力,同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比,EfficientMod的计算复杂度与图像大小呈线性关系,而不是与标记数量呈立方关系,这使得它在处理大规模图像时更加高效。此外,与现有的高效卷积网络如FocalNet和VAN相比,EfficientMod块更为简单,但保留了它们的主要优点,如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战:使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。该模型的主要特点和改进点: ### 1. 强调并优化连接操作(Concatenation) 论文首先强调了DenseNet中连接操作(Concatenation)的重要性,并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接(Additive Shortcut)。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构,增加自研的注意力机制,取得了不错的得分。如果大家想发顶会,或者比较好的期刊,可以优先考虑! 包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码,包含代码和数据集!打开就可以使用! 搜集了多个数据集。

2024-06-24

StarNet实战:使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。 星操作在自然语言处理(NLP)和计算机视觉(CV)等多个领域中都得到了成功应用。例如,在自然语言处理中,Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作;在计算机视觉中,FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务

Vision-LSTM(ViL)架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比,xLSTM引入了指数门控机制,使得模型能够更好地处理长序列数据。同时,xLSTM采用可并行化的矩阵内存结构,提高了模型的计算效率。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战:使用MobileNetV4实现图像分类任务

MobileNetV4,作为新一代移动设备神经网络架构,凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块,实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法,创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性,而Mobile MQA块相较于传统多头注意力,在移动加速器上实现了显著的推理加速。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除