- 博客(134)
- 收藏
- 关注
原创 CVPR 2025图像/视频/3D生成论文汇总(附论文呢/代码)
多模态大语言模型(Multi-Modal Large Language Model)图像生成(Image Generation/Image Synthesis)视频生成(Video Generation/Image Synthesis)3D生成(3D Generation/3D Synthesis)2025年CVPR可复现论文合集,含代码。图像编辑(Image Editing)视频编辑(Video Editing)3D编辑(3D Editing)其他多任务(Others)
2025-06-11 15:44:12
709
原创 CVPR2025 | 遥感深度学习方向论文列表合集!
主页:https://likyoo.github.io/SegEarth-OV/论文:https://arxiv.org/abs/2503.00467。论文:https://arxiv.org/abs/2411.15497。论文:https://arxiv.org/abs/2411.16733。论文:https://arxiv.org/abs/2503.03115。论文:http://arxiv.org/abs/2410.01768。
2025-06-11 15:33:59
1407
原创 CVPR 2025 最佳论文候选出炉!AIGC、SLAM、3D 视觉齐飞!论文大合集整理,含代码!
CV方向的硕博士一定要看啊,作为计算机视觉领域的顶级盛会,CVPR堪称论文界的“奥斯卡”,每一篇被录用的论文都代表着行业前沿的方向,CVPR 2025收到了创新高的13008份论文,比CVPR 2024增加了12.8%,共录用了2878篇论文,接收率为22.1%。目前 CVPR 2025 录用的全部论文已正式公开,研究者和爱好者们可以提前一睹为快,这些论文涵盖了从图像识别、目标检测、三维重建,到视觉语言模型、生成模型等前沿方向,内容丰富、干货满满。2025年CVPR可复现论文合集,含代码。
2025-06-11 15:23:08
1983
原创 顶刊SCS | 基于视觉语言大模型推理分割的建筑足迹尺度功能分类, 样本数据和代码已开源!
题目:Visual-language reasoning segmentation (LARSE) of function-level building footprint across Yangtze River Economic Belt of China期刊:Sustainable cities and society(中科院一区TOP,IF=10.5)论文:https://doi.org/10.1016/j.scs.2025.106439。
2025-05-30 19:39:33
1275
原创 水下检测+扩散模型:或成明年CVPR最大惊喜!
提出了一种基于条件去噪扩散概率模型(DDPM)的UIE方法(DiffWater),该方法利用了DDPM的优点,训练了一个稳定且收敛良好的能够生成高质量和多样化样本的模型。考虑到真实水下环境的多样性和复杂性,以及在DDPM中直接使用简单先验导致的图像质量差和颜色偏差的问题,提出了一种优化的扩散水方法。在所提出的扩散水方法中,利用优化的条件机制,通过去噪过程从条件图像中提取更多的信息。扩散模型通过其去噪和逐层细化的过程,可以增强水下图像的清晰度,去除水下环境中存在的噪声和模糊效果,从而提升水下检测的准确性。
2025-05-30 14:33:34
381
原创 入门必看:图像分割知识点总结
原始图像,(b)语义分割,(c)实例分割和(d)全景分割。尽管FCN意义重大,在当时来讲效果也相当惊人,但是FCN本身仍然有许多局限。比如:1)没有考虑全局信息;2)无法解决实例分割问题;3)速度远不能达到实时;4)不能够应对诸如3D点云等不定型数据基于此。下图给出了部分研究成果与FCN的关系。
2025-05-30 14:29:27
953
原创 用于图像分割的自监督学习(Self-Supervised Learning)方法综述
魔方重排(Rubik’s Cube):Zhuang 等(Selfsupervised feature learning for 3d medical images by playing a rubik's cube,MICCAI 2019)将3D医学体数据视为「魔方」,对体素网格块进行重排,并训练网络恢复原始体块顺序。此任务可扩展2D拼图思想,尤其适合医学体数据。后来版本(Rubik’s Cube++)通过同时预训练上采样和下采样模块改进效果。损失一般为预测每块正确位置的分类损失。
2025-05-30 14:16:41
579
原创 科研小白扫盲:kaggle平台使用指导指南!一文说清楚!
kaggle是世界上最大的数据科学社区,是一个为数据科学和机器学习提供竞赛、数据集和工具的在线平台。该网站通过向用户提供不同领域的实际问题和数据集,吸引了全球数据科学家和机器学习从业者的关注。kaggle还为用户提供机器学习模型的开发、部署和管理工具,以及数据可视化和其他特定于数据科学领域的工具。通过kaggle,用户可以学习和交流最新的数据科学技术,同时也有机会参加实际的竞赛并赢得丰厚的奖金,提高自己的数据科学技能和经验。
2025-05-30 14:05:25
1271
原创 机器人顶刊TRO最新接收的触觉传感器前沿技术汇总赏析
触觉传感器技术是一种用于感知物理接触信息的先进技术,旨在模拟和扩展人类触觉功能。它通过敏感元件和信号处理系统,将接触表面或物体的压力、振动、温度、形状、湿度等物理量转换为可处理的电信号,从而实现对外界环境的准确感知。这项技术的核心依赖于材料科学、传感原理和数据处理算法的创新,涉及多个学科领域的交叉。【视频教程,戳蓝字即可学习】:通过检测两个电极之间的电容变化来感知压力或形变,优点是灵敏度高,适合大面积触觉检测。:利用压电材料在受到外力作用时产生的电荷变化来感知压力或振动,广泛应用于动态力检测。
2025-05-29 20:04:35
830
原创 ICLR 2025 端到端自动驾驶佳作汇总赏析(全部开源)
端到端自动驾驶(E2EAD)方法通常依赖监督式感知任务来提取显式场景信息(如物体、地图)。这种依赖性不仅需要昂贵的标注成本,还制约了实时应用中的部署与数据扩展能力。本文提出SSR框架,仅用16个导航引导的稀疏场景表征令牌,即可高效提取E2EAD所需的关键场景信息。该方法摒弃了人工设计的监督式子任务,使计算资源集中处理与导航意图直接相关的核心要素。我们进一步引入时序增强模块,通过自监督机制对齐预测的未来场景与实际场景。
2025-05-29 19:50:59
1072
原创 一文总结:强化学习算法——强化学习中的 Transformer
该图展示了训练强化学习代理的高级流程。代理从环境中获取状态和奖励,并据此决定采取哪些行动。强化学习与机器学习和深度学习的区别在于训练结构。广义上讲,强化学习是指训练一个代理(或模型)在特定环境中执行特定任务。与监督学习等更常见的深度学习和机器学习方法不同,强化学习使用奖励而非损失。奖励可以有效地理解为代理在整个训练过程中学习最大化的值。如何分配奖励可以有无数种形式,并且是许多领域的一个活跃研究领域。一个简单的例子就是接球游戏。
2025-05-29 19:44:47
985
原创 CVPR2025重磅突破:AnomalyAny框架实现单样本生成逼真异常数据,破解视觉检测瓶颈!
本文介绍了一种名为AnomalyAny的创新框架,该方法利用Stable Diffusion的强大生成能力,仅需单个正常样本和文本描述,即可生成逼真且多样化的异常样本,有效解决了视觉异常检测中异常样本稀缺的难题,为工业质检、医疗影像等领域提供了新的解决方案。在工业质检、医疗影像等领域,视觉异常检测(Visual Anomaly Detection, AD)是保障质量与安全的关键技术。然而,
2025-05-29 11:48:22
862
原创 强烈推荐18 个最佳计算机视觉图像标注工具(2025版)
Encord 的评分为 4.8/5(基于 60 条评论)。用户更青睐 Encord 强大的本体功能,该功能能够为各种规模的数据定义丰富的分类法。此外,该平台的协作功能和精细的注释工具有助于用户提升注释质量。Amazon SageMaker Ground Truth 的评分为 4.1/5(基于 19 条评论)。用户喜欢它的易用性和高级注释功能。然而,他们认为它价格昂贵,而且追踪标记性能具有挑战性。Scale Rapid 的评分为 4.4/5(基于 11 条评论)。用户表示它易于学习,无需复杂的安装程序。
2025-05-29 11:33:45
981
原创 2025年强化学习科研创新大杀器!登上《Nature》正刊!
9年前AlphaGo杀穿围棋界,如今的Deepseek-R1引爆AI圈,强化学习的长久影响力有目共睹。作为当今AI领域最热门的词汇之一,2025年强化学习依然会是重点研究方向。在最近的RL研究成果中,《Nature》正刊上的Dreamer算法值得关注,它涉及到了未来不可忽视的方向:“通用强化学习”。如果是想要发RL相关论文的同学,强烈推荐研读。另外还有一些RL研究方向,比如当下正热门的RLHF、样本效率提升、多智能体强化学习等,创新多容易出成果。
2025-05-29 11:10:57
856
原创 【图像识别利器OpenCV】7个计算机视觉技巧,识别准确率提升60%!
搞计算机视觉的小伙伴们肯定听说过OpenCV这个神器。它是个开源的计算机视觉库,用Python玩起来超级方便。今天我就给大家分享几个用OpenCV做图像识别的小技巧,保证让你的识别准确率蹭蹭往上涨!
2025-05-28 17:03:25
309
原创 计算机视觉工程师必须熟悉的10个Python库
计算机视觉正在快速发展,保持领先地位意味着掌握正确的工具。到 2025 年,这些 Python 库将在计算机视觉领域占据主导地位,为实时应用程序、深度学习和生产级管道提供支持。无论您是初学者还是高级工程师,本指南都涵盖了您今天应该使用的基本库。【计算机视觉入门到进阶教程】
2025-05-28 16:49:02
1297
原创 建议收藏起来:一文看懂目前端到端自动驾驶算法实现原理
端到端自动驾驶基本流程:(1)子任务模型被更大规模的神经网络模型取代,最终即为端到端神经网络模型;(2)由数据驱动的方式来解决长尾问题,取代rule-based的结构。优点:(1)直接输出控车指令,避免信息损失;(2)具备零样本学习能力,更好解决OOD问题;(3)数据驱动方式解决自动驾驶长尾问题;(4)避免上下游模块误差的过度传导;(5)模型集成统一,提升计算效率。● 开环指标○ L2误差○ 碰撞率● 闭环仿真○ 路线完成率(RC)路线完成的百分比。
2025-05-28 16:39:33
1697
原创 视觉Transformer(ViT )超越CNN,原来是因为这些创新!
视觉Transformer(ViT)作为计算机视觉领域的重要突破,成功将Transformer架构引入图像任务,通过自注意力机制建模全局依赖,为图像生成、视频理解等任务带来全新思路。然而,早期ViT在语义分割、实例分割等密集预测任务中表现受限,主要因其局部细节建模和多尺度特征能力不足。为此,研究者提出多种改进方案:构建CNN与Transformer的混合架构,结合CNN的局部感受野与ViT的全局建模优势;引入多尺度融合与双向交互机制,提升小目标识别与复杂结构解析能力;
2025-05-28 16:23:37
638
原创 真不是吹!研0靠时空预测模型,实现顶刊发文自由!
在时间序列预测领域,时空预测是一种广泛应用的方法,旨在对特定时间和空间位置上的变量进行未来趋势的推断。由于待预测数据同时具备时间维度和空间维度,该任务也被称为时空数据分析或时空建模。时空预测已广泛应用于交通流量预测、气候变化模拟、人类行为移动分析以及疾病传播追踪等多个领域。常见的时空预测方法主要包括基于统计模型的传统方法,以及近年来发展迅速的机器学习和深度学习方法。这些技术不断推动着时空建模在精度与实用性方面的提升。
2025-05-28 16:17:40
781
原创 2025年了,小样本学习还可以继续做吗?可以参考这些登上Nature的小样本学习模型
1:2023 - 2025 年间小样本学习取得了不少突破。如 2024 年发表在《Nature》上的 SBeA 框架,无需标签即可达到 90% 以上准确率,克服了小样本学习中的数据集限制。此外,开放世界小样本学习方法如 DyCE 和 OpTA 处理动态、不完整数据的能力有所提升,扩展了小样本学习的应用范围。:在医疗诊断领域,医疗影像分析和稀有疾病诊断等场景中数据标注成本高且样本稀缺,小样本学习可以利用少量标注数据进行模型训练,有助于疾病的早期检测和诊断1。
2025-05-28 16:08:38
985
原创 高效特征提取之道!“注意力+多尺度卷积”这组模型搭配你必须掌握!助你抢发Nature
在计算机视觉领域,如何从图像中精准提取多层次特征始终是研究重点。当前,多尺度卷积+注意力机制成为主流前沿方案。该方法通过多种卷积核(如1×1、3×3、5×5)并行捕获不同粒度的特征,覆盖从纹理到语义的丰富信息;再结合注意力机制动态调整特征权重,抑制干扰、突出关键区域,显著提升识别精度与模型可解释性。这一组合已在图像分类、目标检测、医学影像等任务中广泛应用,尤其在小样本与复杂背景场景下表现突出。研究方向也日益多元:轻量化设计、多分支结构优化、与Transformer融合、跨模态迁移等均展现出广阔前景。
2025-05-28 16:01:26
885
原创 时序预测中的深度学习算法解析与应用
深度学习为时序预测提供了从 “特征工程” 到 “端到端建模” 的范式变革,不同模型在计算效率、预测精度、可解释性上各有侧重。实际应用中,需结合数据特性(如长度、周期性、变量维度)与业务目标,通过实验对比选择最优方案,并借助自动化调优工具(如 Hyperopt)与分布式训练框架(如 Horovod)提升开发效率。未来,随着注意力机制的持续创新与多模态技术的融合,深度学习在时序预测领域将展现更广阔的应用前景。
2025-05-27 15:43:44
664
原创 我的机器学习入门清单及路线!
1、线性代数基础,如果没的话,还是先学了这门课在研究吧,不然会哭的。2、学会python就行了。R也可以用用。3、英语。起码能基本的听和读吧,感觉中文的资料还不够多,很难避免要看很多英文资料。建议学习某些教程时看英文版的tutorial,YouTube可以开字幕。做了个流程图,来展示下我的学习路线。除了入门课程外,其他四项其实不完全是按照流程的(但总体上是),有时实战时需要学新模型。有时学了某些模型再选方向也未迟。但是入门课程,尤其是Coursera那个,一定要看完了才开始后面的学习。
2025-05-27 11:41:12
915
原创 适合初学者的机器学习教程2025
这就是关于2024初学者机器学习的教程的全部内容,后续我们会聊聊基础算法,学习更多回归、分类、聚类算法(如决策树、随机森林、支持向量机、K-均值聚类等)。探索深度学习基础,如神经网络、卷积神经网络(CNN)、递归神经网络(RNN)等。参与实际项目,应用所学知识解决真实问题。保持进步吧!
2025-05-27 11:12:28
818
原创 ACM MM 2024 | 基于逐步伪装学习的文本提示伪装实例分割
在本研究中,我们提出了TPNet,这是首个基于文本提示的伪装实例分割框架,旨在利用图像和文本流中的视觉和语义信息进行伪装实例的掩码分割。在伪掩码生成和自训练阶段,我们分别引入了语义空间迭代融合(SSIF)和渐进式伪装学习(GCL)模块。SSIF将空间信息与语义洞察相结合,在掩码评估器的指导下迭代地优化伪掩码。此外,我们引入了GCL,这是一种自训练策略,使用不同伪装级别的图像来建立一个受伪装级别影响的梯度,以克服伪装图像导致的精度问题。实验结果表明,我们提出的网络在两个常见的基准测试中取得了优异的性能。
2025-05-24 13:48:01
547
原创 TIP 2025!北大清华等提出多目标跟踪新方法和数据集
表1:对比MOT数据集统计特性复杂的运动模式:BEE24数据集的运动模式更加复杂,物体在同一帧内的运动差异较大(MMSAO),且单个物体的运动随时间变化大(MMSO)。这与许多现有数据集中的线性或低速运动形成鲜明对比,如图2和4。小物体跟踪:BEE24中的蜜蜂是最小的目标之一,平均物体面积远小于GMOT-40等数据集中的物体,这增加了跟踪算法在小物体检测和跟踪方面的挑战。大规模标注。
2025-05-24 11:20:52
598
原创 CVPR 2025 | Mamba和局部自注意力的首次碰撞:一种性能强大的混合视觉架构,代码已开源!
如图2和表1所示,SegMAN Encoder 在不同尺寸的模型上都具有更高的准确率。LASS模块突破传统Transformer的二次方复杂度限制,通过Natten的局部窗口约束与SS2D的状态空间压缩策略,在保持线性计算复杂度的同时,实现多尺度特征的协同优化。,并且通过像素重组技术将原始特征()、 降采样特征()和 降采样特征()沿通道维度拼接提取多分辨率区域的语义信息,随后利用SS2D的单次空间扫描机制实现跨尺度的全局语义传播,然后将多尺度特征注入编码器各阶段输出(),最终经双层MLP生成像素级预测。
2025-05-24 10:57:29
595
原创 ContinuousSR:从离散低分图像中重建连续高分辨高质量信号
ContinuousSR的核心思想是将图像从像素空间转换到高斯空间。具体来说,论文提出通过2D高斯核来显式表示图像的连续信号。每个高斯核具有位置、颜色、协方差矩阵等参数。通过优化这些参数,ContinuousSR能够高效地构建一个连续的高分辨率表示。相比传统方法中繁琐的上采样和解码过程,使用高斯建模后可以直接采样生成任意比例的HR图像,大大提升了效率。图2 深度高斯先验(Deep Gaussian Prior, DGP)
2025-05-24 10:52:27
724
原创 CVPR 2025|腾讯优图实验室22篇论文入选,含深度伪造检测、自回归视觉生成、多模态大语言模型等研究方向
近日, CVPR 2025(IEEE/CVF Conferenceon on Computer Vision and Pattern Recognition)论文录用结果揭晓,本次大会共2878篇被录用,录用率为22.1%。CVPR是计算机视觉领域的顶级国际会议,CCF A类会议,每年举办一次。CVPR 2025将于6月11日-15日,在美国田纳西州纳什维尔音乐城市中心召开。今年,
2025-05-24 10:43:56
836
原创 用于图像分割的自监督学习(Self-Supervised Learning)方法综述
本篇分享论文,自监督学习在图像分割中的全面综述。论文地址:https://arxiv.org/pdf/2505.13584【视频教程,戳蓝字即可跳转到学习页面】
2025-05-24 10:28:07
840
原创 Medical Image Analysis:医学图像分割最新进展综述
用于数据增强、风格迁移、无监督/自监督学习。已在多个任务中与监督方法性能相当,但仍需标准化评测以全面比较不同方法效果。使用支持集(含k张已标注图像)指导模型对查询图像进行新类别分割。采用任务驱动训练(episodic training),训练与测试类别互不重叠。随着生成式AI、少样本学习、基础模型与通用模型等方向的不断演进,医学图像分割正逐步向着高精度、低依赖、高泛化的目标迈进。未来,需要在标准化评估、跨域适应、模型交互与临床落地等维度持续发力,推动图像分割技术从实验室走向真实医疗场景。发论文别太老实。
2025-05-24 10:13:50
960
原创 【一文看懂】什么是强化学习(RL)?
环境的反馈通常是由预设的规则或系统状态变化决定的,反馈信号可能是延迟的、稀疏的,且依赖于环境的设置。在强化学习中,如何合理地在这两者之间切换,是智能体成功学习的关键。强化学习的关键在于,棋手并不是单纯依赖单个动作的即时反馈,而是要通过一连串的动作,最终累计所有奖励,判断哪些策略(即哪些行动序列)能够在长期内获得更多的胜利(累积奖励)。为什么像 ChatGPT 这样的人工智能,不仅拥有海量的知识,还能和你进行流畅自然的对话,甚至理解你的潜在意图,给出富有创造性的回复,或者在面对不恰当请求时进行得体的拒绝?
2025-05-23 16:33:45
1066
原创 YOLO-SLD:基于注意力机制改进的YOLO车牌检测算法
车辆车牌检测在智能交通系统中起着关键作用。对汽车、卡车和货车等车牌进行检测,在执法、监控和收费站运营等场景中具有重要应用价值。如何快速准确地检测车牌,是车牌识别技术的关键所在。然而,在实际复杂的拍摄场景中,待检测车牌面临光照条件不均匀、拍摄角度倾斜等问题,这些因素的剧烈变化使得检测难度显著增加。同时,车牌检测对距离、光照、角度等条件要求较高,严重影响了检测性能。视频教程,戳蓝字即可学习。
2025-05-23 16:26:30
804
原创 肝了三个月的Kaggle比赛学习路径,他来了。
自学数据科学?自学Kaggle,肝了两个月的制作的思维导图Kaggle学习路线一条龙!这张图是保姆级的学习流程包含了从0到1参赛的知识点➕实战案例,有了它自学Kaggle也很简单!2025年Kaggle挑战赛再度汇聚全球顶尖数据人才,一场场极具挑战性与创新性的特色赛事正如火如荼展开!从探索通用人工智能的边界,到攻克RNA结构预测的生物学难题……每一场比赛都是对智慧的考验,每一个挑战都蕴藏着改变世界的可能。接下来,就让我们一同深入了解这些精彩纷呈的赛事,探寻数据背后的无限潜力与机遇!
2025-05-23 16:14:24
903
原创 缺创新方向看过来!贝叶斯优化+CNN+LSTM=小论文创新点
2周速成小论文可能吗?有点悬,但有可能。今天我就给论文er推荐一个高潜力、易创新、适合速发的小论文选题:贝叶斯优化+CNN+LSTM!这种“三结合”的优势在于技术成熟度高(经典CNN和LSTM)、创新点灵活性强:如果不改模型结构,可以做新场景应用、超参数优化对比、轻量级创新...再加上实验可模块化,目前已成为机器学习领域热门投稿方向!另外我也多提一嘴,对于论文er来说,小论文要的不是0到1,而是0.5到0.8,有合适的参考才能更快找到idea!
2025-05-23 11:16:55
752
原创 全网唯一!2W字,100张图,100个例子吃透机器学习100个核心概念 !
分类是根据已有的标签进行分类,是一项有监督学习任务。聚类是根据数据本身的特征进行分组,是一项无监督学习任务。
2025-05-23 09:58:48
592
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人