- 博客(109)
- 收藏
- 关注
原创 多目标跟踪(MOT)简单整理
多目标跟踪(MOT)技术综述:从基础到交叉路口应用 本文系统介绍了多目标跟踪技术的基本概念、研究难点和主流方法。重点分析了基于检测的跟踪(SORT/DeepSORT)、联合检测跟踪(FairMOT)和注意力机制方法(TransTrack)等技术特点。针对交叉路口场景的特殊挑战,文章提出了多模态融合、BEV视角转换等技术路线,并推荐了适用于智慧交通的ByteTrack、BoT-SORT等方法。同时介绍了常用数据集(MOT17、VisDrone)和评估指标(MOTA、IDF1)。在交叉路口应用中,该技术可支持智
2025-07-15 14:19:21
842
原创 代码理解:WildGS-SLAM
这篇文章详细解析了WildGS-SLAM系统,这是一个基于单目稀疏高斯点云的动态环境SLAM解决方案。它通过前端跟踪、后端优化、动态点过滤和地图构建等模块协同工作,实现了在野外动态场景中的精准定位与建图。文章重点剖析了系统的代码结构、核心算法流程和关键模块实现,包括运动滤波器、局部BA优化、地图构建等。特别值得注意的是,该系统融合了Gaussian Splatting技术和运动剔除机制,有效提升了在动态环境下的鲁棒性。文章还提供了代码阅读顺序建议和潜在改进方向,为研究者深入理解和优化该系统提供了系统性的指导
2025-07-15 00:15:00
1633
原创 论文阅读:WildGS-SLAM:Monocular Gaussian Splatting SLAM in Dynamic Environments
WildGS-SLAM是一种创新的单目视觉SLAM系统,专为动态环境设计。该系统通过3D高斯散点技术实现相机轨迹跟踪和静态场景重建,同时有效消除动态干扰。其创新点在于融合DINOv2特征和MLP预测的像素级不确定性来区分动静态区域,采用改进的DROID-SLAM框架进行加权优化。实验表明,WildGS-SLAM在动态环境中表现优异,支持高质量3D重建和视图合成。该系统无需深度或语义先验,仅需单目RGB输入,为机器人导航和增强现实等应用提供了新解决方案。
2025-07-14 16:16:07
957
原创 VScode设计平台demo&前端开发中的常见问题
摘要: 使用VSCode开发社交平台前端项目,推荐配置ESLint、Prettier等插件,采用React/Vue框架+Vite构建工具,搭配TailwindCSS/AntDesign等UI库。项目包含用户认证、帖子系统、社交关系、实时聊天等核心功能模块,建议采用组件化分层架构(如公共组件、页面组件、状态管理等)。开发后可通过Jest/Cypress测试,部署推荐Netlify/Vercel等平台。适合衍生校园社交、企业社区等场景,初学者可用Vite+React+TailwindCSS快速搭建基础框架。
2025-07-14 10:45:52
1112
原创 论文阅读:HybridTrack: A Hybrid Approach for Robust Multi-Object Tracking
本文提出HybridTrack,一种融合强弱线索的实时多目标跟踪方法。针对遮挡和聚类场景中传统强线索(空间和外观信息)失效的问题,引入速度方向、置信状态和高度状态等弱线索进行补偿。通过Tracklet Confidence Modeling和Height Modulated IoU等轻量模块,在不增加计算负担的情况下显著提升跟踪鲁棒性。该方法保留了SORT框架的简单性和实时性(112FPS),在DanceTrack等基准测试中表现优异,HOTA达66.8,比DeepSORT提升7.5个百分点。创新性地将残差
2025-07-12 19:29:46
793
原创 论文阅读:MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving
摘要:本文提出MCTrack,一种统一高效的3D多目标跟踪框架,解决了现有算法泛化性差的问题。通过设计BaseVersion统一多数据集格式,采用双阶段BEV+RV匹配策略和新型Ro_GDIoU代价函数,在KITTI、nuScenes和Waymo数据集上均达到SOTA性能。创新性地引入MotionMetrics评估运动信息质量,为下游任务提供支持。系统轻量高效,单核CPU处理速度达0.01秒/帧,显著提升了跟踪算法的实用性和部署效率。
2025-07-12 19:14:53
714
原创 PDF转图片不够高清?简单代码实现
本文介绍了使用PyMuPDF库将PDF转换为PNG图像的方法。主要步骤包括:1)安装所需Python环境(pdf2image、frontend、pymupdf);2)了解关键技术点:PDF渲染(fitz.open、get_pixmap)、分辨率控制(Matrix)、文件操作;3)提供核心代码实现,通过zoom参数控制输出质量;4)给出使用建议,如大文件需降低zoom值以避免内存问题。该方法适用于文档图像化、OCR预处理等场景,支持跨平台运行和中文处理。
2025-05-21 17:22:46
753
1
原创 (七)QT——消息事件机制&绘图&文件
消息事件机制:通过事件循环和事件处理函数来响应用户输入。绘图:使用QPainterQPixmap和等类绘制图形、文本和图像。文件操作:通过QFile和QDir类来处理文件和目录的读写及选择。这些功能为你在 QT 中开发丰富的 GUI 应用程序提供了强大的支持。
2025-02-07 18:15:47
978
原创 (六)QT——布局&常用控件——基本的用户输入界面
Qt的布局管理器和控件是开发图形界面的基础,理解每个控件的作用及其如何配合布局管理器工作,可以帮助你快速构建出功能丰富且响应灵敏的GUI应用。通过合理使用控件和布局,您可以轻松地设计出不同风格和功能的用户界面。
2025-02-07 16:51:09
1621
原创 (五)QT——QDialog 对话框
基本功能显示对话框QDialog可以创建一个模态或非模态的对话框,模态对话框会阻塞用户与主界面的交互,而非模态对话框不会。返回值QDialog可以通过exec()方法显示并执行对话框,返回一个状态值(如Accepted或Rejected),指示用户操作的结果。窗口控件:可以在对话框中添加按钮、文本框、标签等控件,方便与用户进行交互。
2025-02-06 19:49:35
1713
原创 (四)QT——QMainWindow——界面菜单设计
QMainWindow 是 Qt 框架提供的主窗口类,通常用于构建带有菜单栏、工具栏、状态栏、停靠部件的应用程序。菜单栏 (menuBar) 是 QMainWindow 结构中的重要组成部分,允许用户执行各种操作,如打开文件、保存、退出等。
2025-02-06 19:12:39
1753
原创 (三)QT——信号与槽机制——计数器程序
Qt 的信号和槽机制为开发者提供了一种优雅、灵活且类型安全的方式来处理对象间的通信。通过理解和利用这一机制,可以显著提高应用程序的模块化、可维护性和可扩展性。松耦合:信号和槽使对象之间的通信更加松散,无需对象彼此了解。类型安全:编译时检查信号和槽的签名是否匹配,避免了运行时错误。灵活性:可以动态连接和断开信号和槽,支持多种连接模式(例如,一个信号连接多个槽,或多个信号连接一个槽)。
2025-01-31 18:54:55
1316
原创 (二)QT——按钮小程序
Qt 提供 QPushButton 组件用于创建按钮,并通过 信号(Signal)与槽(Slot) 机制实现事件响应。常见的按钮事件是 clicked(),用于检测用户点击按钮的操作。
2025-01-31 18:02:48
2070
原创 (一)QT的简介与环境配置WIN11
Qt(官方发音[kju:t],音同cute)是跨平台的开发库,主要是开发图形用户界面(Graphical User Interface,GUI)应用程序,当然也可以开发非图形的命令行(Command User Interface,CUI)应用程序。 Qt支持众多的操作系统平台,如通用操作系统 Windows、Linux、Unix,智能手机系统 Android、iOS、WinPhone, 嵌入式系统 QNX、VxWorks 等等,应用广泛。当然 Qt 库本身包含的功能模块也日益丰富, 一直有新模块和第三方模块
2025-01-25 18:38:41
1264
原创 文本区域提取和分析——Python版本
图像预处理:通过灰度化、二值化和去噪声等手段,清晰地显示文本区域。文本区域提取:使用连通区域分析或轮廓检测方法提取文本区域。文本行分割:利用投影分析将图像划分为不同的文本行。区域属性分析:提取文本区域的边界框、面积、质心等属性,以便后续的OCR或文本识别。这些技术广泛应用于光学字符识别(OCR)、文档分析、车牌识别等多个领域。
2025-01-03 11:23:14
1388
原创 特征点检测与匹配——MATLAB R2022b
特征点检测:用于从图像中提取出具有代表性的关键点。特征描述符:用于为每个特征点生成唯一且有区分度的描述符。特征点匹配:将不同图像中的特征点进行配对,常使用暴力匹配、FLANN 或 KNN 等方法。优化:比率测试和几何约束可以有效提高匹配的准确性。特征点检测特征点检测旨在从图像中提取出有代表性的点,这些点具有较强的可辨识性和稳定性,即使在光照变化、旋转、尺度变化等情况下也能有效匹配。
2025-01-03 11:01:57
1429
原创 论文阅读:LetsGo: Large-Scale Garage Modeling and Rendering via LiDAR-Assisted Gaussian Primitives
LetsGo采用了一种新的激光雷达辅助 3D 高斯溅射 (3DGS)方法,专门应对车库这种复杂环境。1. Polar 设备Polar 设备是一个手持式扫描仪,集成了IMU(惯性测量单元)、LiDAR和鱼眼相机,用于收集车库场景的RGB图像和点云数据。IMU提供运动估计,LiDAR提供几何数据,鱼眼相机则捕捉宽视场的RGB图像。2. GarageWorld 数据集通过使用 Polar 设备,作者收集了一个名为的数据集,包含了五个车库场景,具有不同的几何结构和布局(如螺旋通道、平面和倾斜的地面等)。
2024-12-31 16:29:16
1681
3
原创 激光雷达点云语义分割——Polarseg环境配置
本文提出了一个新的方法——PolarNet,旨在解决单扫描激光雷达(LiDAR)数据在自动驾驶中的语义分割问题。PolarNet通过引入极坐标网格表示法和环形卷积,成功地解决了LiDAR点云数据中的三个主要挑战:硬件延迟:在有限的硬件资源下实现近实时的语义分割。空间分布不均:LiDAR点云分布往往呈现长尾,且数据在空间上的分布不均匀。细粒度语义类:随着技术发展,语义分割的目标类别越来越细化,传统方法面临挑战。通过采用极坐标系而非传统的笛卡尔坐标系,PolarNet更好地平衡了点云数据的分布。
2024-12-31 16:04:41
1099
3
原创 论文阅读:DynamicDet: A Unified Dynamic Architecture for Object Detection
通过设计一个动态的检测器架构和自适应路由器,DynamicDet 可在单一检测器中实现精度与速度的广泛权衡,提升了推理速度和准确度。目标检测是计算机视觉中的核心任务,但现有的检测方法需要在精度和速度之间做出妥协。为了解决这一问题,本文提出了一种动态推理框架,DynamicDet,可以通过一个动态检测器在不同任务间灵活调节,从而实现精度和速度的最佳平衡。DynamicDet通过提出一个通用的动态架构,并结合自适应路由器、基于损失的优化策略以及变速推理策略,成功地解决了目标检测任务中精度与速度之间的矛盾。
2024-11-06 09:40:24
1226
1
原创 论文阅读:基于语义分割的非结构化田间道路场景识别
论文地址:DOI: 10.11975/j.issn.1002-6819.2021.22.017环境信息感知是智能农业装备系统自主导航作业的关键技术之一。农业田间道路复杂多变,快速准确地识别可通行区域,辨析障碍物类别,可为农业装备系统高效安全地进行路径规划和决策控制提供依据。本文提出了一种基于深度学习的田间非结构化道路场景语义分割模型,旨在通过图像识别技术对农业田间道路进行高效、准确的语义分割。通过对不同环境条件下采集的田间道路图像进行处理,模型能够识别动态和静态物体,支持自动化农业导航系统的路径规划和动态避
2024-11-06 09:11:21
1469
2
原创 论文阅读:3D Gaussian Splatting for Real-Time Radiance Field Rendering
本工作首先基于SFM的点云设计了能快速精确表达场景的3D高斯函数,并以此开发了可由CUDA加速的渲染算法,实现了辐射场的实时渲染。本论文的核心在于3D高斯函数的场景表达方式以及快速渲染的方法。该方法整体如下图所示:首先从SFM得到的稀疏点云构建三维高斯函数,在训练过程中通过可微的快速渲染器对3D高斯函数的属性进行优化,并交替进行自适应密度控制。提出一个实时且能够高质量渲染场景的方法,通过结合离散和连续表示方法的优势,不仅克服了传统方法在噪声和渲染质量方面的限制,而且极大地提高了渲染速度。
2024-09-11 16:24:48
1666
1
原创 论文阅读:RGBD GS-ICP SLAM
文章提出了RGBD GS-ICP-SLAM,这是一种利用三维高斯表示进行高保真度空间表示的密集表示SLAM系统。作者证明了利用单一三维高斯地图进行跟踪和建图的G-ICP和3DGS的融合可以产生相互的好处。跟踪和建图过程之间的高斯交换与尺度对齐最小化了冗余计算并构建了一个高效的系统。此外,动态关键帧选择方法提高了跟踪和建图性能。通过广泛的实验,所提出的方法在空间表示、相机位姿估计和总系统速度方面呈现出最先进的性能。
2024-09-11 16:05:48
1764
1
原创 win11+ISAT-SAM:配置安装+使用记录
ISAT-SAM是一款基于的交互式半自动图像分割标注工具info:始终为 ‘ISAT’folder:存储图像的目录name:图像文件的名称widthheightdepth: 图片的尺寸和深度;RGB图为3通道深度note:注释, 与图像相关的任何附加说明的可选字段objectscategory: 标注的种类group: 分组, 从1开始计算: 分割的坐标点 [[x1, y1], [x2, y2], …, [xn, yn]]area:对象覆盖的像素区域layer: 图层, 从1.0开始,每层 + 1。
2024-08-29 10:45:07
2240
6
原创 PyTorch升级之旅——主要组成模块
第三章:PyTorch的主要组成模块 — 深入浅出PyTorch (datawhalechina.github.io)不含模型参数的层通常用于执行简单的操作,例如数据变换。# 测试自定义层在这个例子中,MyLayer类继承了nn.Module,并在forward方法中定义了将输入减去均值的操作。实例化后,调用该层时,它会对输入数据执行定义的操作。含模型参数的层通常用于学习和更新参数。我们可以使用和来定义这些参数。return x# 测试自定义层print(net)在这个例子中,类包含了一个。
2024-08-24 16:17:44
894
原创 PyTorch升级之旅——安装与基本知识
它的基本思想是将数据集划分为多个子集,并将每个子集分配给不同的计算设备(如多个 GPU),然后在每个设备上执行相同的模型,并行计算这些子集的结果,最后汇总这些结果。模型的不同部分可以放在不同的 GPU 或其他设备上运行,这样能够减小单个设备的内存负担,并充分利用多设备的计算能力。并行计算在 PyTorch 中应用广泛,从数据并行、模型并行到分布式训练,不同的并行策略可以有效利用计算资源,提升模型训练和推理的效率。PyTorch 提供了。在这个例子中,模型的不同层被分布在不同的 GPU 上进行计算。
2024-08-20 18:57:59
1150
原创 Pytorch升级之旅——基础概念
学习链接:深入浅出PyTorch — 深入浅出PyTorch (datawhalechina.github.io)①1956-1966 人工智能元年 达特茅斯会议②20世纪80年代 统计学思想引入 提出BP神经网络③1993年以后 2006年深度学习 2016年AIphaGO围棋深度学习(DL)、机器学习(ML)和人工智能(AI)之间的关系可以用层级结构来理解:人工智能(AI):AI是一个广泛的领域,旨在开发能够模拟人类智能的计算机系统。它包括许多子领域,如机器学习、计算机视觉、自然语言处理等。AI的目标
2024-08-20 17:11:23
1361
原创 C++ primer 初学(九)C 风格字符串
string字符串转换为c风格的字符数组需要利用string类成员函数c_str()。而c风格字符数组转换为string字符串则可以直接利用运算符=。strupr(str),str为字符数组的首地址,其实也就是字符数组名。可以将该字符数组中的所有字符变为大写字母,数字是不会有变化的。strcmp(str1,str2),str1更大,则返回1;str2更大,则返回-1;strcpy(str2,str1)就是把str1复制到str2中。strcat(str1,str2),把str2接在str1的后面。
2024-08-16 17:38:08
1229
原创 专业名词理解(一):鲁棒性和泛化能力
鲁棒性强调的是模型在面对数据噪声、异常或扰动时保持稳定的能力。泛化能力则强调的是模型在未见过的新数据上保持性能的能力。
2024-08-16 14:16:25
3348
原创 论文阅读:Deep_Generic_Dynamic_Object_Detection_Based_on_Dynamic_Grid_Maps
相机参考图像显示在顶部,基于深度学习的旋转边界框目标检测结果覆盖在中间的动态网格上,经典的DBSCAN目标检测在最后一行。该文章提出了一种基于动态网格图(Dynamic Grid Maps)的深度通用动态物体检测方法,旨在提高复杂环境中动态物体检测的准确性和效率。本文提出的方法旨在解决这些挑战,提供一种更鲁棒和高效的动态物体检测技术,适用于自动驾驶、机器人导航等领域。本文提出的基于动态网格图的深度学习动态物体检测方法,在多种复杂环境下均表现出色,有效提高了动态物体检测的准确性和鲁棒性。
2024-07-25 15:11:29
1123
原创 论文阅读:面向自动驾驶场景的多目标点云检测算法
论文地址:面向自动驾驶场景的多目标点云检测算法点云在自动驾驶系统中的三维目标检测是关键技术之一。目前主流的基于体素的无锚框检测算法通常采用复杂的二阶段修正模块,虽然在算法性能上有所提升,但往往伴随着较大的延迟。单阶段无锚框点云检测算法简化了检测流程,但其性能难以满足自动驾驶场景的高要求。本文基于无锚框检测算法CenterPoint,提出了一种适用于自动驾驶场景的单阶段无锚框点云目标检测算法。技术创新自动驾驶系统中,基于点云的三维目标检测是至关重要的技术之一。组成部分:优化和改进:扩展功能:这些优化和改进措施
2024-07-25 14:45:56
995
原创 Win11+Anaconda+VScode:mmpose环境配置与基本使用
欢迎来到 MMPose 中文文档!— MMPose 1.3.2 文档MMPose 是一款基于 Pytorch 的姿态估计开源工具箱,是 OpenMMLab 项目的成员之一,包含了丰富的 2D 多人姿态估计、2D 手部姿态估计、2D 人脸关键点检测、133关键点全身人体姿态估计、动物关键点检测、服饰关键点检测等算法以及相关的组件和模块。提供了一种简单迅捷的方式,将新的算法、功能和应用添加到 MMPose 中更灵活的代码结构和风格,更少的限制,更简短的代码审核流程。
2024-07-23 16:28:07
1381
1
原创 常用的python程序汇总——入门级
Python 是一种高级编程语言,因其简洁易读、功能强大和广泛的应用而受到许多开发者的喜爱。以上就是今天要讲的内容,本文仅仅简单介绍了一些常用 Python 程序的示例代码,涵盖数据分析、数据可视化、文件管理等。
2024-07-23 16:05:07
1365
原创 CloudCompare安装与使用记录——点云标注
CloudCompare是一个三维点云(和三角网格)编辑和处理软件。 最初,它被设计用于在稠密的3D点云之间进行直接比较。它依赖于一个特定的八叉树结构,在执行此类任务时能够获得出色的性能。此外,作为大多数点云CloudCompare是通过地面激光扫描仪获取的,它的目的是在一个标准笔记本电脑——通常超过1000万点(2005年)不久后,点云和三角形云之间的比较网格已支持(见下文)。随后,许多其他点云处理算法相继出现注册,重采样,颜色/法向量/标量域管理,统计计算,传感器管理,交互或自动分割等)
2024-07-16 15:44:12
11187
原创 ubuntu20.04:ROS驱动usb相机和livox雷达——Noetic版本
ROS,全称Robot Operating System(机器人操作系统),是一个开源操作系统框架,专为开发和集成复杂的机器人系统而设计。它提供了一套工具、库和协议,使机器人软件开发变得更加模块化、可重用和易于构建。ROS的核心理念是通过消息传递机制连接各个组件,允许不同进程之间进行通信。在ROS中,节点是运行在单独进程中并执行特定任务的基本单位。它们通过发布和订阅主题来与其他节点交换数据。主题是ROS中的消息通道,每个主题都有一个特定的数据类型,例如传感器数据或控制命令。
2024-07-08 18:37:17
2100
原创 python的使用技巧整理
Python 是一门功能强大且易于学习的编程语言,广泛应用于数据科学、Web开发、自动化脚本等领域。以下是一些使用 Python 的技巧和最佳实践,帮助你更高效地编写代码。希望这些技巧和最佳实践能帮助你更好地使用Python。
2024-06-25 11:17:49
729
原创 论文阅读:Neural Scene Flow Prior
在迭代0时,给定神经先验的随机初始化,场景流是随机的。本文展示了基于多层感知器(MLP)架构的场景流先验可以达到竞争性的结果,并且能够估计点云序列中的稠密长期对应关系。使用我们的神经先验进行积累,很好地产生了更密集的点云,同时照顾到场景中的所有动态对象。本文提出了一种基于神经网络的场景流先验方法,通过使用神经网络结构本身作为隐式正则化器,实现了在没有离线数据集的情况下对场景流的正则化。该方法在实际应用中表现出色,具有较少的参数和较低的计算复杂度,同时在点云序列中实现了更好的场景流插值。
2024-06-05 11:46:19
1115
1
原创 论文阅读:Fast Neural Scene Flow
还对两个数据集进行了预处理,对于Argoverse数据集,使用了官方提供的扩展版本进行了预处理,对于Waymo Open数据集,发现该数据集中的点云有一部分是无效的,会影响后续的计算和可视化,因此作者对该数据集进行了清洗,去除了无效的点云。相反,它利用神经网络的结构来隐式正则化流估计,并采用可以轻松扩展到大规模分布外(OOD)场景的运行时优化,这对于当前的基于学习的方法是一个挑战。即使假设网格/体素的每个轴是可分离的,并且每轴的距离是预计算的,内存消耗仍然非常大,无法在单个 GPU 上处理。
2024-06-05 11:11:56
1444
1
原创 现代信号处理复习笔记(一)简答题
在一些情况下,卡尔曼滤波的状态更新方程和协方差更新方程与维纳滤波的滤波方程是一致的,因此可以将卡尔曼滤波看作是维纳滤波的实际应用。对平稳随机信号,如果它的所有样本函数在某一固定时刻的一阶和二阶统计特性( 集合平均)和单一样本函数在长时间内的统计特 性(时间平均)一致,则称其为各态遍历信号。一致性:当线性系统的统计特性已知,并且噪声为高斯白噪声时,最小二乘估计和维纳滤波是一致的,即它们给出相同的估计结果。特点:小波变换能够以一致的方式对不同频率成分的信号进行分析,而不会因为频率的变化而改变其分析特性。
2024-06-04 16:22:12
1278
原创 论文阅读:Correcting Motion Distortion for LIDAR HD-Map Localization
现在考虑三 种情况,一种情况是传感器在扫描期间保持静止(以 标记为 a 的姿势开始和结束),第二种情况其中传感器进行纯平移(从 a 开始并在 b 结束), 第三种情况是传感器同时进行平移和旋转(从 a 开 始并在 c 结束)。通过在现实世界数据上进行实验,本文证明了VICET比传统的NDT和ICP提高了精度,降低了地图匹配的平移偏差(从6.9cm降低到0.27cm,降低了一个数量级),同时减少了一个sigma变化(从5.4cm到2.6cm)。然后,利用扩展的NDT算法,同时优化刚性变换和运动失真参数。
2024-05-29 16:52:03
1264
1
原创 香橙派AIpro快速上线——纯小白体验版本!!!
香橙派AIpro+ubuntu系统+32G sd卡香橙派AIpro开发板采用昇腾AI技术路线,接口丰富且具有强大的可扩展性,提供8/20TOPS澎湃算力,可广泛使用于AI边缘计算、深度视觉学习及视频流AI分析、视频图像分析、自然语言处理等AI领域。通过昇腾CANN软件栈的AI编程接口,可满足大多数AI算法原型验证、推理应用开发的需求。
2024-05-29 16:24:11
1238
想把 PDF 秒变高清图片?只需几行命令!
2025-05-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人