自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hasakie的博客

专注于人工智能算法分享

  • 博客(312)
  • 收藏
  • 关注

原创 [2025CVPR]DenoiseCP-Net:恶劣天气下基于LiDAR的高效集体感知模型

《恶劣天气下自动驾驶集体感知的去噪协同网络研究》摘要:本文提出DenoiseCP-Net创新架构,通过多任务网络同步处理感知数据去噪与目标检测。采用物理级天气模拟引擎(涵盖雨雪雾模型)和动态带宽优化机制,在OPV2V扩展数据集上验证显示:浓雾场景保持96%噪声识别率,检测精度损失<3%,极端天气带宽降低最高达62.3%。核心突破包括共享主干网络减少60%计算负载、散射操作实现异构特征融合,以及兼容现有V2X标准的部署方案。研究成果为车路协同系统在恶劣天气下的可靠感知提供了有效解决方案。

2025-07-13 23:28:15 30

原创 [2025CVPR]GNN-ViTCap:用于病理图像分类与描述模型

本文提出GNN-ViTCap框架,通过三大创新点改进病理图像分析:1)注意力增强的深度嵌入聚类消除30%冗余图像;2)图神经网络聚合解决显微镜图像无坐标难题;3)视觉-语言联合建模融合专业LLMs。实验表明,该方法在BreakHis和PatchGastric数据集上取得突破性提升,分类AUC达0.963,描述生成BLEU-4达0.811,显著优于现有技术。研究为智能病理诊断、医学教育和药物研发提供了新思路,未来将优化算法以适应临床落地需求。

2025-07-13 23:22:38 133

原创 [2025CVPR最佳论文提名]Navigation World Model(NWM):用扩散Transformer构建视觉导航的“数字孪生”

本文提出导航世界模型(NWM),通过条件扩散Transformer(CDiT)解决传统视觉导航的行为固化和资源分配问题。CDiT采用多模态嵌入和跨帧注意力机制,将计算复杂度降低75%,支持动态约束注入和轨迹规划。实验表明,NWM在16秒长视频预测中PSNR提升2.1dB,导航任务绝对轨迹误差降低42%,未知环境探索成功率提高12%。应用场景包括灾难救援、自动驾驶仿真和VR导览,其中约束规划达标率达98%。该模型实现了物理世界建模的新范式,代码已开源。

2025-07-11 17:08:18 167

原创 [2025CVPR]STAtten:脉冲时空注意力Transformer

本文提出脉冲时空注意力Transformer(STAtten),解决脉冲神经网络中时空注意力计算效率低的问题。通过分块计算机制(降低1.6倍内存)和无Softmax设计,在CIFAR100-DVS上达到83.9%准确率(提升1.0%)。分析表明时空融合使注意力熵值降低19%,特征表征更高效。实验证明该方法在无人机视觉(延迟<8ms)和脑机接口(误报率降32%)中具有应用潜力,且不增加额外能耗(21.46mJ)。代码和预训练模型已开源。

2025-07-11 16:33:01 103

原创 [2025CVPR]CCFS:高IPC数据集蒸馏的课程式粗细筛选技术解析

【摘要】本研究针对数据集蒸馏在高IPC场景的性能衰减问题,提出课程式粗细筛选(CCFS)方法。创新点在于:1)动态课程框架渐进整合真实数据,解决传统固定选择导致的兼容性问题;2)两阶段筛选机制(先粗筛未掌握样本,再细选简单样本)提升特征补充效率。实验表明,在Tiny-ImageNet上实现20%压缩比仅损失0.3%精度,比现有方法提升3.4%。该方法在边缘设备部署、联邦学习等场景展现出显著优势,代码与模型已开源。局限包括难度分数依赖预计算等,未来将探索自适应课程机制。

2025-07-10 23:27:19 311

原创 [2025CVPR最佳学生论文提名]DVHGNN:多尺度扩张超图神经网络

摘要:本文提出扩张视觉超图神经网络(DVHGNN),以解决传统视觉模型在复杂物体关系建模中的局限性。通过多尺度扩张超图构建(DHGC)和动态超图卷积(DHConv),DVHGNN有效捕捉高阶关联,同时降低计算复杂度。实验表明,该模型在ImageNet-1K达到83.1%准确率(比ViG-S提升1.4%),FLOPs减少18%,并在目标检测和医学图像分析中展现出优越性能,为工业质检和自动驾驶等场景提供高效解决方案。

2025-07-10 00:02:15 302

原创 [2025CVPR]Mr. DETR:检测Transformer的多路由指导训练解析

本文提出了一种创新的多路由训练框架Mr.DETR,用于解决DETR系列模型训练收敛慢的问题。该方法包含主路由(一对一)和两个辅助路由(一对多),通过指导性自注意力机制引入可学习指令token来引导查询。实验表明,该方法在12轮训练内即可达到SOTA性能,COCO数据集上mAP提升2.5%,同时保持推理效率(辅助路由仅训练时使用)。该框架可扩展到实例分割等任务,在无人机跟踪、工业质检等场景展现出应用价值。核心优势在于显著加速训练收敛(提升2倍)且不增加推理开销,代码已开源供复现使用。

2025-07-09 23:55:30 57

原创 [2025CVPR]SGC-Net:开放词汇人机交互检测的分层粒度比较网络解析

本文提出首个分层粒度比较网络SGC-Net,用于开放词汇人机交互检测。针对CLIP特征粒度缺失和语义混淆问题,创新设计粒度感知对齐模块(GSA)进行多粒度特征融合,以及LLM驱动的层次化分组比较模块(HGC)优化语义边界。在SWIG-HOI和HICO-DET数据集上,Unseen类别检测性能提升39.3%,推理速度达32FPS。该方法可应用于智能监控、人机协作等场景,为开放世界交互理解提供新范式。论文代码已开源,包含400动作/1000物体的SWIG-HOI数据集。

2025-07-08 23:36:03 812

原创 [2025CVPR最佳学生论文]Neural Inverse Rendering from Propagating Light

本文提出首个多视角传播光的神经逆渲染系统,通过时间分辨辐射缓存、可微渲染方程和物理约束优化三大创新技术,解决了传统LiDAR忽略间接光的缺陷。系统采用哈希编码存储场景辐射分布,分离计算直接光和神经预测间接光,建模光脉冲传播过程。实验验证在仿真和真实数据中均优于现有方法(PSNR 30.99,法向误差8.45°)。应用包括瞬态重光照、材质分解和非视域成像,其中非视域重建精度达89%。该方法使强间接光场景的几何误差降低72%,计算效率提升23倍,但存在硬件依赖SPAD传感器和计算耗时(>24小时/A100

2025-07-08 23:29:27 1104

原创 [2025CVPR]LS-BiorUwU:双正交可调小波单元,提升CNN性能的革新架构

摘要:本文提出基于提升方案的双正交可调小波单元(LS-BiorUwU),突破传统小波的正交性与滤波器长度限制,有效解决CNN池化层的高频细节丢失问题。通过2阶提升步构建的双正交滤波器在CIFAR-10和DTD数据集分类任务中分别取得2.12%和9.73%的准确率提升,在MVTecAD异常检测任务中SegAUROC达97.21%。该单元兼容ResNet架构,计算复杂度与标准池化相当,为高频敏感任务提供了新的特征提取范式。

2025-07-06 17:48:12 871

原创 [2025CVPR]MobileIE:一种移动端实时图像增强的极致轻量化模型

摘要:MobileIE提出了一种创新的轻量化图像增强模型,通过多分支重参数化卷积(MBRConv)、特征自变换(FST)和分层双路径注意力(HDPA)三大核心模块,在仅4K参数量的条件下实现了1120FPS的推理速度。该模型采用训练-推理解耦设计,训练时保留多分支结构增强特征多样性,推理时自动融合为单卷积;结合增量权重优化和局部方差加权损失等技术,在低光增强(LOLv1)和水下增强(UIEB)任务上均达到SOTA性能。MobileIE的硬件友好设计支持INT8量化,内存占用减少30%,为移动端实时图像处理提

2025-07-06 17:36:16 971 1

原创 [2025CVPR]基于双向域自适应(BiDA)的跨域高光谱图像分类模型

本文提出一种双向领域自适应(BiDA)框架,用于解决高光谱图像跨域分类中的光谱偏移问题。核心创新包括:1)三支路Transformer架构(源分支、目标分支和耦合分支),通过双向交叉注意力实现特征对齐;2)语义分词器生成紧凑语义令牌;3)双向蒸馏损失和自适应强化策略提升模型鲁棒性。实验表明,BiDA在跨时序/场景数据集上比现有方法提升3%-5%分类准确率。该框架为高光谱图像跨域分类提供了有效解决方案。

2025-07-06 17:16:21 591

原创 [2025CVPR]一种新颖的视觉与记忆双适配器(Visual and Memory Dual Adapter, VMDA)

本文提出了一种创新的视觉与记忆双适配器(VMDA)多模态目标跟踪方法,通过频率引导的多模态融合模块和多级记忆适配器,显著提升了跟踪性能。VMDA框架包含ViT骨干网络、视觉适配器、记忆适配器和预测头四个组件,其中视觉适配器首次联合建模频域、空间和通道特征,而记忆适配器借鉴人类记忆机制实现全局时间线索传播。在RGB-T、RGB-D和RGB-E三个主流数据集上的实验表明,该方法在精度和成功率等指标上均优于现有技术,验证了其有效性。

2025-07-06 17:11:26 603

原创 [2025CVPR]ESC-Net:一种开放词汇语义分割模型

摘要: ESC-Net提出了一种高效的开放词汇语义分割方法,通过结合CLIP的全局特征和SAM的局部建模能力,解决了传统两阶段方法效率低、域偏移等问题。其核心包括伪提示生成器(PPG)和视觉语言融合(VLF)模块,利用CLIP提取特征并生成类特定提示,通过SAM块进行空间聚合,实现精准分割。实验表明,ESC-Net在多个数据集上性能显著提升(如ADE20K mIoU达59.0),且能生成更密集的掩码。未来可优化提示生成策略或动态调整SAM块数量以进一步提升效果。

2025-07-05 11:00:00 883

原创 一种基于多注意力机制的一维卷积神经网络(MA1DCNN)轴承故障模型

本文提出了一种基于多注意力机制的1DCNN(MA1DCNN)模型用于滚动轴承故障诊断。该模型通过通道注意力模块(CAM)和激励注意力模块(EAM)分别优化特征通道和时序特征,并通过联合注意力模块(JAM)综合两者的优势。实验表明,在强噪声条件下,MA1DCNN比传统1DCNN准确率提升12.75%,优于8种先进网络。该模型能自适应增强判别性特征,抑制无关干扰,显著提高了复杂工况下的故障诊断性能。

2025-07-05 10:30:00 992

原创 一种结合双阶段注意力循环神经网络(DA-RNN)和卷积块注意力模块(CBAM)的滚动轴承故障诊断方法

摘要:本文针对不平衡数据条件下的滚动轴承故障诊断问题,提出了一种结合双阶段注意力循环神经网络(DA-RNN)和卷积块注意力模块(CBAM)的创新方法。通过DA-RNN扩展少数类样本,将振动信号转换为RGB图像,并构建CBAM-CNN模型进行故障分类。实验采用CWRU和SpectraQuest两个公开数据集,在多种不平衡比例(100:50至100:10)下测试,结果显示该方法在准确率(最高97.69%)等指标上显著优于传统方法。该方法有效解决了不平衡数据诊断难题,具有重要的工程应用价值。

2025-07-05 10:30:00 609

原创 【2025CVPR】SEC-Prompt:少样本增量学习中的语义互补提示模型详解

SEC-Prompt:一种用于少样本增量学习的语义互补提示框架 本文提出SEC-Prompt框架解决少样本增量学习中的两大挑战:灾难性遗忘和过拟合风险。该框架通过模仿人类选择性注意机制,将任务知识分解为判别性特征与非判别性特征进行协同学习。核心创新包括:1)自适应层次化查询机制动态适应特征抽象层次;2)双提示分支结构(D-Prompt增强判别特征,ND-Prompt保留非判别特征);3)噪声鲁棒训练策略。实验表明,SEC-Prompt在CIFAR100等基准数据集上显著优于现有方法,遗忘率降低42.3%,H

2025-07-04 11:00:00 1009

原创 [2025CVPR]COCA-Net:一种层次化紧凑聚类注意力机制

COCA-Net提出了一种创新的无监督目标学习方法,通过层次化聚类架构和物理启发的紧凑性度量解决了传统方法的三大困境:动态槽位分配突破了预设槽位限制,层次化特征融合优化了路由问题,质量归一化公式增强了背景处理能力。实验表明其在CelebA数据集上ARI指标提升14%,mSC提升28%,显著优于GEN-v2等现有方法。该模型实现了从固定槽位到动态聚类、从单层处理到多尺度融合的突破,为无监督视觉理解提供了新范式,未来可扩展至多模态和实时应用场景。

2025-07-04 11:00:00 1329

原创 [2025CVPR]SEEN-DA:基于语义熵引导的领域感知注意力机制

本文提出SEEN-DA模型,通过语义熵引导的领域感知注意力机制改进领域自适应目标检测。该方法利用语义熵量化视觉特征中的领域相关语义信息,构建跨领域和领域内两个注意力分支,分别提取领域不变特征和补充领域特定信息。在Cityscapes→Foggy Cityscapes等四个跨域场景的实验中,SEEN-DA均取得最优性能(最高mAP 57.5%),较现有方法提升1.6%-5.7%。消融实验验证了双分支结构和视觉-文本投影层的有效性,为领域自适应提供了新的语义信息利用思路。

2025-07-03 22:43:39 619

原创 [2025CVPR]BWFormer:基于Transformer的机载LiDAR点云建筑线框重建技术详解引言

​2.5D特性​:俯视视角(BEV)无屋顶遮挡,适合平面重建​数据稀疏性​:点密度不均(典型密度约500点/m²)​噪声干扰​:植被穿透、传感器噪声导致异常点​细节丢失​:烟囱等细小结构易被淹没传统方法采用直接回归边或顶点的策略,但在稀疏点云中表现不佳。PBWR[9]虽然通过后处理提升效果,但缺乏端到端设计。BWFormer通过创新的2D-3D检测范式和边注意力机制,在稀疏LiDAR点云重建任务中取得了显著突破。首次实现端到端的建筑线框重建提出可解释的角点搜索空间缩减策略。

2025-07-03 10:30:00 17

原创 [2025CVPR]TSAM:基于多模态提示的时序增强分割模型(Ref-AVS任务深度解析)

)"""时空融合块"""# 跨模态注意力# 时序自注意力# 适配器融合return xTSAM通过时序建模和多模态提示机制,在Ref-AVS任务上实现了SOTA性能。首次将SAM扩展到动态多模态分割任务提出语言引导的音频查询选择策略在未见物体上实现5.04% Jaccard提升​跨模态对比学习​:增强语义对齐​轻量化适配​:部署到边缘设备​视频分辨率扩展​:支持4K/8K视频处理通过TSAM,我们看到了多模态大模型在复杂场景分割中的巨大潜力。

2025-07-02 11:30:00 27

原创 [2025CVPR]PCM(Picard Consistency Model):一种创新的加速扩散模型

PCM通过Picard迭代的并行化训练和一致性损失设计,首次在扩散模型中实现了“少步数、高质量、高速度”的统一。其核心思想是通过并行预测所有中间步骤,避免顺序采样的计算冗余,同时通过多步一致性损失保证生成质量。实验表明,PCM在CelebA和Stable Diffusion数据集上仅需6-8步即可生成FID低于30的高质量图像,推理速度较传统方法提升2-3倍。这一突破为扩散模型在实时生成、边缘计算等场景的落地提供了关键技术支撑,未来有望推动AI生成内容(AIGC)从“实验室”走向“日常生活”。

2025-07-02 10:00:00 16

原创 [2025CVPR]DE-GANs:一种高效的生成对抗网络

本文提出质量感知动态判别器拒绝采样(QADDRS)方法,解决了数据高效GAN训练中的判别器过拟合问题。通过动态调整样本质量阈值,QADDRS在训练阶段实现样本质量控制,包含振动特征提取器、特征图处理器等轻量化模块。实验表明,该方法在低样本场景下显著提升StyleGAN2等模型的性能,FID指标最高改善33.3%,且不影响原有GAN架构。尽管存在超参数敏感等局限,QADDRS为数据高效GAN训练提供了新思路。

2025-07-01 22:29:40 374

原创 SAFNet:一种基于CNN的轻量化故障诊断模型

本文提出的SAFNet通过轻量化设计和自适应输入矩阵,在保证高准确率的同时显著提升了实时性,为工业电弧故障检测提供了高效解决方案。未来工作将优化设备体积与成本,并探索多模态融合(如电流+振动信号)以进一步提升性能。

2025-07-01 21:50:49 1341 1

原创 LEFE-Net:一种轴承故障诊断的轻量化高效特征提取网络

LEFE-Net通过轻量化设计空间注意力机制和领域适应技术,在轴承故障诊断任务中实现了高精度、低延迟和高鲁棒性。​部署友好​:参数量仅0.056M,适合边缘设备实时推理。​抗干扰强​:在强噪声下仍保持高准确率。​适应性强​:跨负载场景性能稳定。

2025-07-01 21:42:00 1003

原创 【2025CVPR】基于脉冲神经网络的能效目标检测模型:Multi-scale Spiking Detector(MSD)深度解析

本文提出了一种创新的多尺度脉冲神经网络目标检测器(MSD),通过生物启发的ONNB模块和MSDF框架实现了高效准确的目标检测。该模型采用端到端直接训练策略,在COCO数据集上达到62.0%mAP的精度,同时仅需7.8M参数和6.43mJ能耗,较传统方法提升2.8%精度并降低82.9%能耗。实验验证了其在小目标检测和事件数据处理的优越性,为边缘计算应用提供了新范式。

2025-06-23 23:50:13 575

原创 [2025CVPR]DeepLA-Net:深度局部聚合网络解析

3D点云分析是自动驾驶、机器人等领域核心技术,但点云的无序性、稀疏性给模型设计带来巨大挑战。传统局部聚合网络(LANet)通过复杂局部表示已逼近性能天花板(如S3DIS数据集性能停滞在73% mIoU)。如上图所示,DeepLA-120首次突破75% mIoU大关,且参数量远低于Point Transformer v3。其核心启示在于:在局部表示趋近饱和时,网络深度的提升能带来性能的质变。深色区域表示类别区分度高,DeepLA-120展现出最清晰的类间边界。,就像2D图像领域通过加深CNN取得突破一样。

2025-06-23 23:14:41 925

原创 [2025CVPR]Neural Motion Simulator(MoSim):强化学习中运动动力学世界模型的突破

MoSim通过物理可解释的神经架构和创新训练策略,首次实现了运动动力学的精准长时程预测。提出首个可直接用于零样本学习的物理世界模型建立预测精度与强化学习性能的强关联为具身智能提供了统一的动力学建模框架未来随着模型泛化能力的提升,MoSim有望成为机器人自主进化(Self-Evolving Robotics)的核心基础设施。

2025-06-19 11:00:00 864

原创 2025CVPR最佳论文:VGGT:视觉几何接地Transformer——端到端3D重建的革命性突破

传统方法(如VGGSfM)需要多阶段处理(特征匹配→BA优化→稠密重建),而VGGT通过单一Transformer网络直接输出所有3D属性。方法时间45.225.3~15s​​​85.3​​88.2​​~0.2s​VGGT通过端到端Transformer架构和多任务联合学习,重新定义了3D重建的范式。​速度​:单次前馈推理即可完成所有预测​精度​:在多项任务中超越传统优化方法​通用性​:无需特定3D先验,适用于多种下游任务更高效的注意力机制(如稀疏注意力)长视频序列的时序建模。

2025-06-19 10:00:00 2564

原创 [2025CVPR]AdcSR:一种高效实世界图像超分辨率的对抗扩散压缩方法

AdcSR是一种基于对抗扩散压缩(ADC)框架的新型Real-ISR方法。其核心思想是通过结构化压缩(模块移除和剪枝)和对抗蒸馏(知识蒸馏与对抗损失)来简化基于一步扩散网络的Real-ISR模型,从而在保持生成能力的同时显著提高效率。

2025-06-18 21:22:06 1052

原创 [2025CVPR]Active Multimodal Distillation for Few-shot Action Recognition:基于主动推理的多模态知识蒸馏框架

本文提出的AMFIR框架通过主动模态选择双向知识蒸馏和自适应推理融合,在少样本动作识别任务中取得了显著性能提升。

2025-06-18 11:00:00 1510

原创 【2025CVPR】M4V:基于多模态Mamba的高效文本到视频生成模型详解

M4V通过结构感知的差异化量化策略,在ImageNet-1K上实现了80.3%的Top-1精度(MobileViTv2_175),同时在Jetson Nano上达到1.13ms的实时推理速度。未来工作将扩展至动态量化与稀疏量化结合,并探索多模态模型的量化方案。

2025-06-18 10:45:00 24

原创 【2025CVPR】基于CNN-Transformer的高效量化EfficientQuant模型

EfficientQuant通过结构感知的差异化量化策略,在ImageNet-1K上实现了80.3%的Top-1精度(MobileViTv2_175),同时在Jetson Nano上达到1.13ms的实时推理速度。未来工作将扩展至动态量化与稀疏量化结合,并探索多模态模型的量化方案。

2025-06-17 08:50:49 284

原创 ESRGAN-Faster R-CNN自适应目标检测模型详解

本文提出的ESRGAN-Faster R-CNN联合框架,通过先验知识增强与深度学习的结合,显著提升了低分辨率目标检测性能。​轻量化改进​:优化ESRGAN结构以适配移动端部署​多模态融合​:结合红外/雷达等多源数据提升鲁棒性​动态场景适配​:引入时序信息处理视频流检测任务该研究为低质图像场景下的目标检测提供了新的技术路径,具有广阔的应用前景。

2025-06-17 08:41:15 38

原创 YOLO优化之双池化下采样融合块、注意力引导逆残差块

YOLO-FireAD通过创新的注意力引导逆残差结构和双池化融合机制,在火灾检测任务中实现了精度与效率的双重突破。实验表明,该模型在复杂场景下展现出更强的适应性,为实时火灾监控系统提供了高效解决方案。未来工作将着重于跨模态融合与动态场景建模,推动火灾检测技术迈向实用化新阶段。

2025-06-15 12:00:00 28

原创 TopNet:基于Transformer的高效点云几何压缩网络模型详解

TopNet通过创新的CNN-Transformer协作架构,在点云几何压缩领域实现了性能与效率的双重突破。实验表明,该方法在复杂真实场景中显著优于现有方法,为大规模点云应用提供了高效解决方案。未来工作将重点探索跨模态压缩与边缘端部署优化。

2025-06-15 12:00:00 47

原创 YOLOV8模型优化-选择性视角类别整合模块(SPCI):遥感目标检测的注意力增强模型详解

YOLO-SPCI通过创新的三维注意力机制,解决了遥感目标检测中的尺度剧变、密集分布和语义混淆难题。实验表明,该框架在多个基准数据集上达到SOTA性能,为高分辨率影像分析提供了高效解决方案。未来工作将着重于跨模态融合与时序建模,推动遥感智能迈向实用化。

2025-06-14 20:48:27 464

原创 MambaNeXt-YOLO:当CNN遇见状态空间模型,实时检测模型详解

MambaNeXt-YOLO通过创新的混合架构设计,在实时检测精度与效率之间取得了突破性平衡。​理论层面​:开辟了CNN与SSM深度融合的新路径​工程层面​:为边缘计算提供了实用化的检测解决方案​应用层面​:可快速适配智能制造、智慧城市等场景需求随着模型压缩技术的进步,相信这类混合架构将在未来的AIoT时代发挥更大作用。

2025-06-14 10:00:00 268

原创 YOLOV11改进之多尺度扩张残差模块(MS-DRM)

MS-YOLO通过多尺度特征增强动态特征融合和轻量下采样三大创新,在保证实时性的前提下实现了血细胞检测的突破性进展。其在CBC数据集上97.4%的[email protected]指标,标志着AI技术在临床病理诊断中迈出了重要一步。未来随着更大规模多中心数据集的出现,此类模型有望成为标准化血液检测的核心工具。

2025-06-13 21:52:26 231

原创 YOLO算法优化之CBAM--STN-TPS

本文提出的CBAM-STN-TPS-YOLO模型,通过三大核心技术革新,实现了精准农业检测的新突破。"该模型在西瓜花检测任务中,将小目标漏检率从37%降至12%,显著提升授粉机器人工作效率。在智慧农业的浪潮中,无人机巡检、自动化采摘等场景对目标检测提出了严苛要求。这项研究标志着农业AI进入"空间智能"新纪元,为机器视觉在复杂农业场景的落地提供了普适性解决方案。其中Tθ​为仿射变换矩阵,U为原始特征图,V为变换后特征图。通过逐通道与逐空间加权,抑制背景噪声,强化目标特征。平衡变形平滑性与贴合度。

2025-06-13 21:28:53 139

提供了一个详细的Kali 2023安装教程,并附带了镜像资源

kali linux安装教程

2025-03-06

基于深度学习的故障检测,包含CNN\RNN\LSTM等神经网络

基于深度学习的故障检测,包含CNN\RNN\LSTM等神经网络

2025-03-06

智慧病房系统(呼叫系统)

智慧病房系统

2025-03-06

行人跌倒检测,安全监控系统,老年人安全监控

专注于行人跌倒检测,可作为毕业设计,包含一整套源码。

2025-03-06

基于Python的图书馆大数据可视化分析系统(含源码和论文)

基于Python的图书馆大数据可视化分析系统(含源码和论文)

2025-01-15

基于Hive的大数据分析与智能分类推荐系统-多媒体作品集管理解决方案

内容概要:该研究针对多媒体作品内容管理和个性化推荐的问题,结合Hive大数据技术和深度学习模型设计了一个多功能、智能的管理系统。系统包括作品上传与分类、OCR识别以及个性化推荐三大模块。首先,解决了多格式文件的兼容性和上传处理,保证不同类型作品的质量不受损失;然后,通过对上传的作品使用卷积神经网络和OCR技术,实现了高效的分类和信息提取;最后,在推荐引擎上采用了基于用户的协同过滤和内容匹配方法,提高用户的参与度和互动体验。研究还涉及到了MYSQL与HDFS之间的稳定数据同步,确保跨数据库间的数据流通性。 适合人群:适用于高校计算机专业学生特别是那些关注大数据技术发展及其实际应用的人群;同时也吸引希望从事多媒体作品集管理和展示工作的设计专业人士。 使用场景及目标:该项目旨在建立一套面向设计师的作品管理系统,使他们可以方便地上传作品,同时也能让访问者更容易找到自己感兴趣的素材;长远目标是为了推动多媒体领域的技术创新和服务质量提升。 其他说明:文中详细阐述了从系统框架构建到具体实施过程中面临的问题及解决方案,同时提出了未来发展方向。整个方案强调技术创新、用户体验和经济效益三个方面的平衡,并引用了大量的文献作为理论支持和实证依据。

2025-01-15

ToDESK安装包,用于远程写作的高效软件

ToDESK安装包,用于远程写作的高效软件

2025-01-15

python爬虫实战:猫眼数据

python爬虫实战:猫眼数据

2025-01-06

基于JAVA的智能货物追踪系统源码

基于JAVA的智能货物追踪系统源码

2025-01-06

基于Unet的树种分别识别模型

基于Unet的树种分别识别模型

2025-01-06

基于ZigBee+Wifi的婴儿床智能监控系统报告

基于ZigBee+Wifi的婴儿床智能监控系统报告

2025-01-06

婴儿床只能监控系统软件

婴儿床只能监控系统软件,涵盖了整个系统的全流程,包含了硬件组成和软件组成,以及系统相关需求。

2024-12-14

神经网络源码-GoogLeNet源码

GoogLeNet 是 Google 团队在 2014 年提出的卷积神经网络,荣获 ILSVRC 2014 图像分类竞赛的冠军。该网络通过引入 Inception 模块 提高了计算效率和分类性能。

2024-11-22

神经网络源码+AlexNet模型源码+人工智能

AlexNet 网络简介 AlexNet 是深度学习发展史上的一个里程碑,由 Alex Krizhevsky 等人在 2012 年提出,并在 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了压倒性的胜利。该网络引入了一系列关键技术,大幅提高了深度学习模型的性能。

2024-11-22

人工智能KAN神经网络+python代码

KAN: Kolmogorov-Arnold神经网络,通过引入可学习的激活函数和无线性权重的设计,克服了传统神经网络在处理复杂数据时的局限性。其在准确性、参数效率和可解释性等方面的优势,使其成为对多层感知器(MLP)的有力替代方案,为深度学习模型的进一步发展提供了新的方向和机会。KAN 网络不仅在机器学习领域具有广泛的应用潜力,还能够为科学研究提供重要的支持,促进数学和物理等领域的发现与创新。适用于科研工作者,学生,论文创新点研究,数据拟合,分类领域研究。

2024-11-22

基于PyTorch的故障检测CNN模型训练与应用

内容概要:文章展示了一个用于故障检测的深度学习项目,采用PyTorch构建了一个一维卷积神经网络(CNN),针对工业故障诊断问题。文中详细地解释了从数据加载、预处理、模型搭建、训练到性能评估的全过程。通过归一化原始数据集,设计多层一维卷积与全局最大池化的网络架构,并应用交叉熵作为损失函数,利用Adam算法进行梯度下降最优化,最终实现了高精度的分类任务。 适用人群:对于机器学习尤其是深度学习领域感兴趣的科研人员或者工程师,特别是那些想要深入了解或实操如何使用深度学习技术解决实际问题如工业设备状态监测的研究者和技术开发者。 使用场景及目标:本项目的目的是为了提高机械设备运行状态监控系统的效率与准确性,可以应用于制造业、电力等行业,帮助实时监控设备健康状况,及时发现潜在故障点,从而减少非计划停机时间和维修成本。 其他说明:除了提供了一套完整的解决方案之外,本文还展示了如何计算模型的参数量,以便于控制模型复杂度。此外,文中也包含了模型训练过程中每轮迭代的耗时记录,这对于大规模数据集下优化算法选择具有重要参考价值。

2024-11-22

基于一维CNN和LSTM的融合网络用于时间序列数据的预测分类

它们各自具有独特的优势,并在不同的应用场景中发挥着重要作用。 一维卷积神经网络(1D CNN)的优势: 局部连接和参数共享:CNN通过局部连接和参数共享的方式减少了模型参数,这不仅降低了模型的复杂度,还减少了过拟合的风险 。 特征提取能力:CNN擅长自动学习输入数据的特征,尤其在图像处理领域,能够捕捉到图像中的局部特征,如边缘、纹理等,并用于分类和识别 。 空间信息保留:与全连接网络相比,CNN在处理图像时不会丢失空间信息,这对于图像识别等任务至关重要 。 降维和避免过拟合:通过池化层(Pooling),CNN可以有效地降低数据维度,减少计算量,同时避免过拟合 。 多维数据处理:CNN不仅可以处理二维图像数据,还可以通过一维卷积处理序列数据,如音频信号,使其能够捕捉序列数据中的局部模式和特征。 长短期记忆网络(LSTM)的优势: 解决梯度消失问题:LSTM通过引入门控机制(遗忘门、输入门、输出门)有效地解决了传统RNN在处理长序列时的梯度消失问题,能够捕获并利用长期依赖关系 。 记忆能力:LSTM的细胞状态(Cell State)允许信息在链上稳定传递,减少了梯度消失的问题,使其能够

2024-10-19

机器学习基于鸢尾花数据集的决策树与随机森林分类模型对比:特征工程、模型训练及性能评估

内容概要:本文介绍了鸢尾花数据集及其分类任务,详细描述了数据预处理、特征工程、模型建立与评估的完整流程。首先对鸢尾花数据集进行了简要介绍,该数据集包含150个样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),并分为三个类别(山鸢尾、变色鸢尾、维吉尼亚鸢尾)。接着进行了数据标准化和划分(70%训练集,30%测试集)。随后建立了决策树和随机森林两种分类模型,并对模型进行了训练和预测。最后通过混淆矩阵、准确率曲线、损失函数曲线以及精确率、召回率、F1-Score等指标对两个模型进行了全面的对比分析,结果显示随机森林模型性能优于决策树模型,特别是在迭代过程中表现更加稳定。 适合人群:对机器学习感兴趣的研究人员或学生,尤其是希望深入了解分类算法及其应用的人群。 使用场景及目标:①理解鸢尾花数据集的基本结构和特点;②掌握数据预处理方法如标准化、数据集划分;③学习如何构建和训练决策树与随机森林模型;④通过多种可视化手段对比分析模型性能,选择最优模型。 其他说明:本文不仅提供了完整的代码实现,还详细解释了每一步骤的目的和意义,有助于读者更好地理解和实践机器学习分类任务。建议读者在学习过程中亲自运行代码,观察模型训练过程和结果变化,从而加深对模型的理解。

2025-04-28

医学领域基于CatBoost与贝叶斯优化的高原脑水肿风险预测模型研究:多模态数据挖掘与性能评估

内容概要:本文研究了高原脑水肿(HACE)风险预测模型,基于CatBoost与贝叶斯优化算法,提出了CatBoost_BayesOpt模型。该模型利用5000条多模态特征数据(MRI指标、生理监测参数及环境因素),经过缺失值填补与标准化预处理,采用高斯过程代理模型和Expected Improvement采集函数,迭代搜索超参数。实验结果表明,CatBoost_BayesOpt模型在AUC、Accuracy、F1等多项指标上优于随机森林、XGBoost、LightGBM等模型,能够准确挖掘出胼胝体水肿、血氧波动幅度、微出血灶数量等关键预测因子,为早期干预提供依据。 适合人群:医学研究人员、数据科学家、从事高原健康监测的从业人员。 使用场景及目标:①适用于高原地区的健康监测系统,提前预测个体发生高原脑水肿的风险;②帮助医生在临床诊断中提前识别高风险患者,制定个性化预防和治疗方案。 其他说明:本文展示了机器学习在高原脑水肿预测中的应用潜力,未来可以结合更多临床影像、时序数据和多任务学习,进一步提升模型的泛化能力和预测精度。

2025-04-28

【软件工程、计算机专业】基于Java SSM的图书管理系统开发与实现:需求分析、架构设计及性能优化摘要

内容概要:本文探讨了基于Java SSM框架的图书管理系统的开发与实现,旨在解决传统人工图书管理方式繁琐、易混淆、记录困难的问题。文中详细介绍了Java SSM框架的概述、特点及其应用领域,为系统设计和开发提供了基础。系统需求分析包括用户需求、功能需求和非功能需求,涵盖了用户和管理员的各类操作。系统架构采用三层架构(表现层、业务逻辑层、数据访问层),并使用RESTful风格接口设计。数据库设计部分详细描述了实体关系、表结构、索引和约束的设置。开发过程中实现了用户管理、图书管理、借阅管理、归还管理和数据统计分析等模块。最后,通过单元测试、集成测试、系统测试和性能测试确保系统的稳定性和可靠性,并提出了优化策略,如数据库优化、代码优化和系统资源优化。研究结果表明,该系统具有较高的可行性和实用性。 适合人群:具备一定编程基础,尤其是对Java SSM框架有一定了解的研发人员、计算机专业学生和图书馆管理人员。 使用场景及目标:①适用于学校图书馆等需要高效管理图书的机构;②帮助管理员轻松进行图书的增删改查、借阅管理、归还管理等操作;③为用户提供便捷的借阅、查询和个性化服务;④通过性能评估与优化,提升系统的响应速度和稳定性。 其他说明:本文不仅详细描述了系统的开发过程和技术实现,还对未来的研究方向进行了展望,如引入图书推荐机制、优化系统性能、提升安全性和可靠性,以及开展用户行为研究等。建议读者在学习过程中结合实际操作,深入理解各模块的功能和实现原理,并关注系统的优化策略。

2025-04-28

基于机器学习的高原脑水肿识别模型代码

基于机器学习的高原脑水肿识别模型代码

2025-04-28

【无人机识别技术】基于射频信号与改进视觉Transformer的无人机检测与识别系统设计

内容概要:本文档为中国大学生计算机设计大赛人工智能挑战赛的作品报告,聚焦于基于射频传感器与改进视觉Transformer的无人机检测与识别方案。文档首先阐述了无人机广泛应用带来的公共安全和国防安全挑战,强调了无人机识别技术的重要性。随后介绍了现有无人机识别技术的分类及其局限性,包括光学、声学、雷达和射频检测技术。本文提出的方案通过IQ数据解析、时频分析、频谱图生成与保存和无人机识别四个核心环节实现精准识别。创新点包括采用改进的视觉Transformer模型、频段定位技术和FPGA加速,实现了96.2%的识别准确率、低附带损伤和低于50ms的推理延迟。 适用人群:对无人机识别技术感兴趣的科研人员、高校学生及从事无人机防御技术研发的专业人士。 使用场景及目标:①研究和开发无人机识别系统,提升无人机检测的准确性、鲁棒性和实时性;②应用于公共安全和国防安全领域,保障空域安全;③为后续的反制措施提供技术支持,实现精准反制。 其他说明:文档详细描述了技术方案的各个环节,包括信号处理和深度学习目标检测两大部分。信号处理部分涵盖IQ解析、降噪与时频转换,深度学习部分则介绍了局部感知模块和多任务学习框架。文档还展示了系统实现的具体步骤,如STFT原理与应用、模型架构、训练样本及实时性优化。最后,文档总结了作品的特色与创新点,展望了未来发展方向,如多模态融合、飞行状态监测和分布式计算技术的应用。

2025-04-27

基于Python的手势识别

基于Python的手势识别

2025-03-31

大模型使用指南、DEEPSEEK实战指南

大模型使用指南、DEEPSEEK实战指南

2025-03-28

基于zigbee和STM32的环境监测监控系统

基于zigbee和STM32的环境监测监控系统

2025-03-28

毕设论文模板(LaTeX版本)

毕设论文模板(LaTeX版本)

2025-03-28

物联网工程、实验报告,智能家居

物联网工程、实验报告,智能家居

2025-03-28

基于python的网络舆情分析系统

基于python的网络舆情分析系统

2025-03-28

基于Nodemcu智能蔬菜滴灌系统

基于Nodemcu智能蔬菜滴灌系统

2025-03-28

《Java 面试进阶指北 》 质量很高,专为面试打造

《Java 面试进阶指北 》 质量很高,专为面试打造

2025-03-28

机器学习、数据结构与算法、计算机基础、前端开发

机器学习、数据结构与算法、计算机基础、前端开发

2025-03-28

毕设源码+论文,计算机、软件工程、智慧物业系统

毕设源码+论文,计算机、软件工程、智慧物业系统

2025-03-28

毕设源码+论文,计算机、软件工程专业

毕设源码+论文,计算机、软件工程专业

2025-03-28

毕业设计源码+计算机、软件工程专业毕设(机票订购系统)

毕业设计源码+计算机、软件工程专业毕设(机票订购系统)

2025-03-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除