苦瓜汤补钙-CSDN博客

原创多目标跟踪（MOT）简单整理

多目标跟踪（MOT）技术综述：从基础到交叉路口应用本文系统介绍了多目标跟踪技术的基本概念、研究难点和主流方法。重点分析了基于检测的跟踪（SORT/DeepSORT）、联合检测跟踪（FairMOT）和注意力机制方法（TransTrack）等技术特点。针对交叉路口场景的特殊挑战，文章提出了多模态融合、BEV视角转换等技术路线，并推荐了适用于智慧交通的ByteTrack、BoT-SORT等方法。同时介绍了常用数据集（MOT17、VisDrone）和评估指标（MOTA、IDF1）。在交叉路口应用中，该技术可支持智

2025-07-15 14:19:21 842

原创代码理解：WildGS-SLAM

这篇文章详细解析了WildGS-SLAM系统，这是一个基于单目稀疏高斯点云的动态环境SLAM解决方案。它通过前端跟踪、后端优化、动态点过滤和地图构建等模块协同工作，实现了在野外动态场景中的精准定位与建图。文章重点剖析了系统的代码结构、核心算法流程和关键模块实现，包括运动滤波器、局部BA优化、地图构建等。特别值得注意的是，该系统融合了Gaussian Splatting技术和运动剔除机制，有效提升了在动态环境下的鲁棒性。文章还提供了代码阅读顺序建议和潜在改进方向，为研究者深入理解和优化该系统提供了系统性的指导

2025-07-15 00:15:00 1633

原创论文阅读：WildGS-SLAM：Monocular Gaussian Splatting SLAM in Dynamic Environments

WildGS-SLAM是一种创新的单目视觉SLAM系统，专为动态环境设计。该系统通过3D高斯散点技术实现相机轨迹跟踪和静态场景重建，同时有效消除动态干扰。其创新点在于融合DINOv2特征和MLP预测的像素级不确定性来区分动静态区域，采用改进的DROID-SLAM框架进行加权优化。实验表明，WildGS-SLAM在动态环境中表现优异，支持高质量3D重建和视图合成。该系统无需深度或语义先验，仅需单目RGB输入，为机器人导航和增强现实等应用提供了新解决方案。

2025-07-14 16:16:07 957

原创 VScode设计平台demo＆前端开发中的常见问题

摘要：使用VSCode开发社交平台前端项目，推荐配置ESLint、Prettier等插件，采用React/Vue框架+Vite构建工具，搭配TailwindCSS/AntDesign等UI库。项目包含用户认证、帖子系统、社交关系、实时聊天等核心功能模块，建议采用组件化分层架构（如公共组件、页面组件、状态管理等）。开发后可通过Jest/Cypress测试，部署推荐Netlify/Vercel等平台。适合衍生校园社交、企业社区等场景，初学者可用Vite+React+TailwindCSS快速搭建基础框架。

2025-07-14 10:45:52 1112

原创论文阅读：HybridTrack: A Hybrid Approach for Robust Multi-Object Tracking

本文提出HybridTrack，一种融合强弱线索的实时多目标跟踪方法。针对遮挡和聚类场景中传统强线索（空间和外观信息）失效的问题，引入速度方向、置信状态和高度状态等弱线索进行补偿。通过Tracklet Confidence Modeling和Height Modulated IoU等轻量模块，在不增加计算负担的情况下显著提升跟踪鲁棒性。该方法保留了SORT框架的简单性和实时性（112FPS），在DanceTrack等基准测试中表现优异，HOTA达66.8，比DeepSORT提升7.5个百分点。创新性地将残差

2025-07-12 19:29:46 793

原创论文阅读：MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving

摘要：本文提出MCTrack，一种统一高效的3D多目标跟踪框架，解决了现有算法泛化性差的问题。通过设计BaseVersion统一多数据集格式，采用双阶段BEV+RV匹配策略和新型Ro_GDIoU代价函数，在KITTI、nuScenes和Waymo数据集上均达到SOTA性能。创新性地引入MotionMetrics评估运动信息质量，为下游任务提供支持。系统轻量高效，单核CPU处理速度达0.01秒/帧，显著提升了跟踪算法的实用性和部署效率。

2025-07-12 19:14:53 714

原创 PDF转图片不够高清？简单代码实现

本文介绍了使用PyMuPDF库将PDF转换为PNG图像的方法。主要步骤包括：1)安装所需Python环境(pdf2image、frontend、pymupdf)；2)了解关键技术点：PDF渲染(fitz.open、get_pixmap)、分辨率控制(Matrix)、文件操作；3)提供核心代码实现，通过zoom参数控制输出质量；4)给出使用建议，如大文件需降低zoom值以避免内存问题。该方法适用于文档图像化、OCR预处理等场景，支持跨平台运行和中文处理。

2025-05-21 17:22:46 753 1

原创（七）QT——消息事件机制＆绘图＆文件

消息事件机制：通过事件循环和事件处理函数来响应用户输入。绘图：使用QPainterQPixmap和等类绘制图形、文本和图像。文件操作：通过QFile和QDir类来处理文件和目录的读写及选择。这些功能为你在 QT 中开发丰富的 GUI 应用程序提供了强大的支持。

2025-02-07 18:15:47 978

原创（六）QT——布局＆常用控件——基本的用户输入界面

Qt的布局管理器和控件是开发图形界面的基础，理解每个控件的作用及其如何配合布局管理器工作，可以帮助你快速构建出功能丰富且响应灵敏的GUI应用。通过合理使用控件和布局，您可以轻松地设计出不同风格和功能的用户界面。

2025-02-07 16:51:09 1621

原创（五）QT——QDialog 对话框

基本功能显示对话框QDialog可以创建一个模态或非模态的对话框，模态对话框会阻塞用户与主界面的交互，而非模态对话框不会。返回值QDialog可以通过exec()方法显示并执行对话框，返回一个状态值（如Accepted或Rejected），指示用户操作的结果。窗口控件：可以在对话框中添加按钮、文本框、标签等控件，方便与用户进行交互。

2025-02-06 19:49:35 1713

原创（四）QT——QMainWindow——界面菜单设计

QMainWindow 是 Qt 框架提供的主窗口类，通常用于构建带有菜单栏、工具栏、状态栏、停靠部件的应用程序。菜单栏 (menuBar) 是 QMainWindow 结构中的重要组成部分，允许用户执行各种操作，如打开文件、保存、退出等。

2025-02-06 19:12:39 1753

原创（三）QT——信号与槽机制——计数器程序

Qt 的信号和槽机制为开发者提供了一种优雅、灵活且类型安全的方式来处理对象间的通信。通过理解和利用这一机制，可以显著提高应用程序的模块化、可维护性和可扩展性。松耦合：信号和槽使对象之间的通信更加松散，无需对象彼此了解。类型安全：编译时检查信号和槽的签名是否匹配，避免了运行时错误。灵活性：可以动态连接和断开信号和槽，支持多种连接模式（例如，一个信号连接多个槽，或多个信号连接一个槽）。

2025-01-31 18:54:55 1316

原创（二）QT——按钮小程序

Qt 提供 QPushButton 组件用于创建按钮，并通过信号（Signal）与槽（Slot）机制实现事件响应。常见的按钮事件是 clicked()，用于检测用户点击按钮的操作。

2025-01-31 18:02:48 2070

原创（一）QT的简介与环境配置WIN11

Qt（官方发音[kju:t]，音同cute）是跨平台的开发库，主要是开发图形用户界面（Graphical User Interface，GUI）应用程序，当然也可以开发非图形的命令行（Command User Interface，CUI）应用程序。 Qt支持众多的操作系统平台，如通用操作系统 Windows、Linux、Unix，智能手机系统 Android、iOS、WinPhone，嵌入式系统 QNX、VxWorks 等等，应用广泛。当然 Qt 库本身包含的功能模块也日益丰富，一直有新模块和第三方模块

2025-01-25 18:38:41 1264

原创文本区域提取和分析——Python版本

图像预处理：通过灰度化、二值化和去噪声等手段，清晰地显示文本区域。文本区域提取：使用连通区域分析或轮廓检测方法提取文本区域。文本行分割：利用投影分析将图像划分为不同的文本行。区域属性分析：提取文本区域的边界框、面积、质心等属性，以便后续的OCR或文本识别。这些技术广泛应用于光学字符识别（OCR）、文档分析、车牌识别等多个领域。

2025-01-03 11:23:14 1388

原创特征点检测与匹配——MATLAB R2022b

特征点检测：用于从图像中提取出具有代表性的关键点。特征描述符：用于为每个特征点生成唯一且有区分度的描述符。特征点匹配：将不同图像中的特征点进行配对，常使用暴力匹配、FLANN 或 KNN 等方法。优化：比率测试和几何约束可以有效提高匹配的准确性。特征点检测特征点检测旨在从图像中提取出有代表性的点，这些点具有较强的可辨识性和稳定性，即使在光照变化、旋转、尺度变化等情况下也能有效匹配。

2025-01-03 11:01:57 1429

原创论文阅读：LetsGo: Large-Scale Garage Modeling and Rendering via LiDAR-Assisted Gaussian Primitives

LetsGo采用了一种新的激光雷达辅助 3D 高斯溅射 (3DGS)方法，专门应对车库这种复杂环境。1. Polar 设备Polar 设备是一个手持式扫描仪，集成了IMU（惯性测量单元）、LiDAR和鱼眼相机，用于收集车库场景的RGB图像和点云数据。IMU提供运动估计，LiDAR提供几何数据，鱼眼相机则捕捉宽视场的RGB图像。2. GarageWorld 数据集通过使用 Polar 设备，作者收集了一个名为的数据集，包含了五个车库场景，具有不同的几何结构和布局（如螺旋通道、平面和倾斜的地面等）。

2024-12-31 16:29:16 1681 3

原创激光雷达点云语义分割——Polarseg环境配置

本文提出了一个新的方法——PolarNet，旨在解决单扫描激光雷达（LiDAR）数据在自动驾驶中的语义分割问题。PolarNet通过引入极坐标网格表示法和环形卷积，成功地解决了LiDAR点云数据中的三个主要挑战：硬件延迟：在有限的硬件资源下实现近实时的语义分割。空间分布不均：LiDAR点云分布往往呈现长尾，且数据在空间上的分布不均匀。细粒度语义类：随着技术发展，语义分割的目标类别越来越细化，传统方法面临挑战。通过采用极坐标系而非传统的笛卡尔坐标系，PolarNet更好地平衡了点云数据的分布。

2024-12-31 16:04:41 1099 3

原创论文阅读：DynamicDet: A Unified Dynamic Architecture for Object Detection

通过设计一个动态的检测器架构和自适应路由器，DynamicDet 可在单一检测器中实现精度与速度的广泛权衡，提升了推理速度和准确度。目标检测是计算机视觉中的核心任务，但现有的检测方法需要在精度和速度之间做出妥协。为了解决这一问题，本文提出了一种动态推理框架，DynamicDet，可以通过一个动态检测器在不同任务间灵活调节，从而实现精度和速度的最佳平衡。DynamicDet通过提出一个通用的动态架构，并结合自适应路由器、基于损失的优化策略以及变速推理策略，成功地解决了目标检测任务中精度与速度之间的矛盾。

2024-11-06 09:40:24 1226 1

原创论文阅读：基于语义分割的非结构化田间道路场景识别

论文地址：DOI: 10.11975/j.issn.1002-6819.2021.22.017环境信息感知是智能农业装备系统自主导航作业的关键技术之一。农业田间道路复杂多变，快速准确地识别可通行区域，辨析障碍物类别，可为农业装备系统高效安全地进行路径规划和决策控制提供依据。本文提出了一种基于深度学习的田间非结构化道路场景语义分割模型，旨在通过图像识别技术对农业田间道路进行高效、准确的语义分割。通过对不同环境条件下采集的田间道路图像进行处理，模型能够识别动态和静态物体，支持自动化农业导航系统的路径规划和动态避

2024-11-06 09:11:21 1469 2

原创论文阅读：3D Gaussian Splatting for Real-Time Radiance Field Rendering

本工作首先基于SFM的点云设计了能快速精确表达场景的3D高斯函数，并以此开发了可由CUDA加速的渲染算法，实现了辐射场的实时渲染。本论文的核心在于3D高斯函数的场景表达方式以及快速渲染的方法。该方法整体如下图所示：首先从SFM得到的稀疏点云构建三维高斯函数，在训练过程中通过可微的快速渲染器对3D高斯函数的属性进行优化，并交替进行自适应密度控制。提出一个实时且能够高质量渲染场景的方法，通过结合离散和连续表示方法的优势，不仅克服了传统方法在噪声和渲染质量方面的限制，而且极大地提高了渲染速度。

2024-09-11 16:24:48 1666 1

原创论文阅读：RGBD GS-ICP SLAM

文章提出了RGBD GS-ICP-SLAM，这是一种利用三维高斯表示进行高保真度空间表示的密集表示SLAM系统。作者证明了利用单一三维高斯地图进行跟踪和建图的G-ICP和3DGS的融合可以产生相互的好处。跟踪和建图过程之间的高斯交换与尺度对齐最小化了冗余计算并构建了一个高效的系统。此外，动态关键帧选择方法提高了跟踪和建图性能。通过广泛的实验，所提出的方法在空间表示、相机位姿估计和总系统速度方面呈现出最先进的性能。

2024-09-11 16:05:48 1764 1

原创 win11+ISAT-SAM：配置安装+使用记录

ISAT-SAM是一款基于的交互式半自动图像分割标注工具info：始终为 ‘ISAT’folder：存储图像的目录name：图像文件的名称widthheightdepth: 图片的尺寸和深度;RGB图为3通道深度note：注释, 与图像相关的任何附加说明的可选字段objectscategory: 标注的种类group: 分组，从1开始计算: 分割的坐标点 [[x1, y1], [x2, y2], …, [xn, yn]]area：对象覆盖的像素区域layer: 图层，从1.0开始，每层 + 1。

2024-08-29 10:45:07 2240 6

原创 PyTorch升级之旅——主要组成模块

第三章：PyTorch的主要组成模块 — 深入浅出PyTorch (datawhalechina.github.io)不含模型参数的层通常用于执行简单的操作，例如数据变换。# 测试自定义层在这个例子中，MyLayer类继承了nn.Module，并在forward方法中定义了将输入减去均值的操作。实例化后，调用该层时，它会对输入数据执行定义的操作。含模型参数的层通常用于学习和更新参数。我们可以使用和来定义这些参数。return x# 测试自定义层print(net)在这个例子中，类包含了一个。

2024-08-24 16:17:44 894

原创 PyTorch升级之旅——安装与基本知识

它的基本思想是将数据集划分为多个子集，并将每个子集分配给不同的计算设备（如多个 GPU），然后在每个设备上执行相同的模型，并行计算这些子集的结果，最后汇总这些结果。模型的不同部分可以放在不同的 GPU 或其他设备上运行，这样能够减小单个设备的内存负担，并充分利用多设备的计算能力。并行计算在 PyTorch 中应用广泛，从数据并行、模型并行到分布式训练，不同的并行策略可以有效利用计算资源，提升模型训练和推理的效率。PyTorch 提供了。在这个例子中，模型的不同层被分布在不同的 GPU 上进行计算。

2024-08-20 18:57:59 1150

原创 Pytorch升级之旅——基础概念

学习链接：深入浅出PyTorch — 深入浅出PyTorch (datawhalechina.github.io)①1956-1966 人工智能元年达特茅斯会议②20世纪80年代统计学思想引入提出BP神经网络③1993年以后 2006年深度学习 2016年AIphaGO围棋深度学习（DL）、机器学习（ML）和人工智能（AI）之间的关系可以用层级结构来理解：人工智能（AI）：AI是一个广泛的领域，旨在开发能够模拟人类智能的计算机系统。它包括许多子领域，如机器学习、计算机视觉、自然语言处理等。AI的目标

2024-08-20 17:11:23 1361

原创 C++ primer 初学（九）C 风格字符串

string字符串转换为c风格的字符数组需要利用string类成员函数c_str()。而c风格字符数组转换为string字符串则可以直接利用运算符=。strupr(str)，str为字符数组的首地址，其实也就是字符数组名。可以将该字符数组中的所有字符变为大写字母，数字是不会有变化的。strcmp(str1,str2)，str1更大，则返回1；str2更大，则返回-1；strcpy(str2,str1)就是把str1复制到str2中。strcat(str1,str2)，把str2接在str1的后面。

2024-08-16 17:38:08 1229

原创专业名词理解（一）：鲁棒性和泛化能力

鲁棒性强调的是模型在面对数据噪声、异常或扰动时保持稳定的能力。泛化能力则强调的是模型在未见过的新数据上保持性能的能力。

2024-08-16 14:16:25 3348

原创论文阅读：Deep_Generic_Dynamic_Object_Detection_Based_on_Dynamic_Grid_Maps

相机参考图像显示在顶部，基于深度学习的旋转边界框目标检测结果覆盖在中间的动态网格上，经典的DBSCAN目标检测在最后一行。该文章提出了一种基于动态网格图（Dynamic Grid Maps）的深度通用动态物体检测方法，旨在提高复杂环境中动态物体检测的准确性和效率。本文提出的方法旨在解决这些挑战，提供一种更鲁棒和高效的动态物体检测技术，适用于自动驾驶、机器人导航等领域。本文提出的基于动态网格图的深度学习动态物体检测方法，在多种复杂环境下均表现出色，有效提高了动态物体检测的准确性和鲁棒性。

2024-07-25 15:11:29 1123

原创论文阅读：面向自动驾驶场景的多目标点云检测算法

论文地址：面向自动驾驶场景的多目标点云检测算法点云在自动驾驶系统中的三维目标检测是关键技术之一。目前主流的基于体素的无锚框检测算法通常采用复杂的二阶段修正模块，虽然在算法性能上有所提升，但往往伴随着较大的延迟。单阶段无锚框点云检测算法简化了检测流程，但其性能难以满足自动驾驶场景的高要求。本文基于无锚框检测算法CenterPoint，提出了一种适用于自动驾驶场景的单阶段无锚框点云目标检测算法。技术创新自动驾驶系统中，基于点云的三维目标检测是至关重要的技术之一。组成部分：优化和改进：扩展功能：这些优化和改进措施

2024-07-25 14:45:56 995

想把 PDF 秒变高清图片？只需几行命令！

特征点检测与匹配-MATLAB R2022b资料及代码

bag2IMAGE.py

string类型的比较

空空如也