- 博客(109)
- 收藏
- 关注
原创 【论文阅读】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation
BEVFusion提出了一种统一鸟瞰图(BEV)表示的多传感器融合框架,有效保留图像和点云的稠密语义特征。通过改进LSS方法(预计算和GPU并行化加速)实现高效的2D到3D转换,结合全卷积融合与深度监督提升性能。实验表明,该方法在检测和分割任务上表现优异,尤其LSS加速设计对自动驾驶方案具有重要参考价值。
2025-07-18 13:47:27
64
原创 【论文阅读】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework
作者觉得当前使用点云特征去查询图像特征的模式会在点云失效的情况下整体失败,导致错误发生。于是作者在想把点云特征和图像特征单独处理,行成了BEVFusion,并建立了这种融合模式的检测架构。作者对比了3种HEAD: anchor-based, anchor-free-based, and transform-based。就是常规的图像特征提取->2D to 3D->编码;这里重点在于2D to 3D,作者采用的是LSS的方法。厉害吧,我们的自驾是用的改进版本的。融合就很简单了,如下图所示。
2025-07-18 12:49:06
158
原创 自动驾驶激光3D点云处理系统性阐述及Open3D库函数应用
自动驾驶激光3D点云处理面临数据规模、动态环境适应性和多传感器融合等挑战。Open3D库提供了完整的点云处理流程,包括去噪滤波、地面分割、障碍物聚类和点云配准等核心功能。通过统计滤波去除异常点,RANSAC算法实现地面分割,DBSCAN进行障碍物聚类,ICP算法完成点云配准,为自动驾驶环境感知提供可靠支持。建议根据实时性要求选择体素滤波压缩数据,结合硬件加速提升处理效率。该技术已成功应用于Waymo、KITTI等数据集处理及高精地图构建。
2025-07-16 15:26:55
423
原创 【论文阅读】MapTRv2: An End-to-End Framework for Online Vectorized HD Map Construction
具体而言,GT重复了K次,并padding空集,构成长度为T的新的gt;作者觉得自己上一篇不够骚,缺少一些重要元素,比如车道中心线,并且maptr用的分层querry用于self-attention的序列消耗非常大的计算量,限制了更丰富的特征表达,于是来一篇更吊的maptrv2。V2分别在inter-ins里做了self-attn,再在intra-ins里做了self-attn,不像V1里全部query展开,一起做self-attn。在原来2类的基础上,加了一类有向的排列,车道中心线;
2025-07-04 11:42:48
133
1
原创 【论文阅读】MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION
题目:MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION作者:Bencheng Liao Shaoyu Chen Xinggang Wang Tianheng Cheng Qian Zhang Wenyu Liu Chang Huang传统高精地图HDmap,又贵,又不能实时建图和更新。作者想来个便宜的在线的且能在实车跑起来的方案:maptr.
2025-07-03 17:04:52
700
1
原创 匈牙利匹配COST you should know
本文介绍了三种目标检测损失计算方法:1) FocalLossCost通过正负样本概率的对数加权处理类别不平衡问题;2) BBoxL1Cost使用曼哈顿距离计算边界框坐标误差,包含格式转换和归一化处理;3) IoUCost基于边界框重叠度计算损失,将IOU指标转换为损失值。三种方法均包含权重系数调整损失重要性,适用于不同检测任务需求。这些损失计算方法在目标检测模型中用于优化预测结果与真实标注之间的差异。
2025-07-02 11:12:51
190
原创 交叉熵与均方差损失函数的选择
在深度学习损失函数的选择过程中会遇到这两种方法,因此作一个简单的比较讨论了使用sigmoid作为激活函数的情况,若线性激活函数则可以不参考。MSE均方差:、(不想输公式,网上找的公式图)CE交叉熵:当此二者作为网络反向传播时的损失函数,若使用sigmoid()函数作为激活函数时,MSE就容易存在梯度消失的情况。MSE,反向梯度求解:其中,z表示神经元的输入,δ\deltaδ表示激...
2025-06-16 13:36:40
533
原创 【应用】小车运动卡尔曼滤波实例
通过上述实例,展示了卡尔曼滤波在一维匀速直线运动中的应用。公式推导清晰,Python 代码实现了完整的滤波过程,结果验证了卡尔曼滤波的有效性。
2025-06-16 13:32:31
698
原创 【小车运动卡尔曼滤波实例:位置与速度估计】
通过上述实例,展示了卡尔曼滤波在一维匀速直线运动中的应用。公式推导清晰,Python 代码实现了完整的滤波过程,结果验证了卡尔曼滤波的有效性。
2025-04-10 15:15:19
1048
原创 【论文阅读】BoT-SORT: Robust Associations Multi-Pedestrian Tracking
作者来得很直接,就说他们用相机运动模型和优化卡尔曼做了个可以解决具有挑战的跟踪问题的算法:BOT-SORT;说他们在MOT17&20上表现是最好的。题目:BoT-SORT: Robust Associations Multi-Pedestrian Tracking。这部分相机运动补偿的工作StrongSORT也有做过,使用的是ECC方法;作者:Nir Aharon* Roy Orfaig Ben-Zion Bobrovsky。2)相机运动补偿方式改进bounding box的预测;
2024-08-13 16:49:17
592
1
原创 【论文阅读】YOLOv10: Real-Time End-to-End Object Detection
*NMS-free:**作者设计了2个lables assignments, one-to-one & one-to-many 两个标签分配策略。作者在训练的时候同事监督训练两个策略,在推理的时候用one-to-one,实现nms-free。来实现训练的时候one-to-one & one-to-many 的分配和计算,使one-to-one获得one-to-many最佳的效果。作者觉得YOLO系列的NMS和某些结构非常的耗时,提出NMS-free和一些列高效和低算力消耗的yolov-10.
2024-08-13 11:09:00
411
1
原创 why DW-Conv still slow?
MobileNet、ShuffleNet 在理论上速度很快,工程上并没有特别大的提升.为什么GPU上表现乏力的GPU,到CPU上反而一骑绝尘了呢?深度可分离卷积的总计算量变小了,但深度可分离卷积的层数变多了。若GPU的显存足够大,因为每层的计算都可以并行一次处理,则此时总运算时间的主导因素是网络的层数。...
2022-06-30 16:24:46
457
原创 【tricks: rep-parameters】
组合:3x3卷积核+BN,组合2:1x1卷积核+BN,组合3:BN。这三种组合在推理计算上都可以等效转化成“3x3卷积核+偏置”的形式。我们都知道卷积也是一种线性运算如乘法一样,咱们把三组同规格的卷积核合并成一组卷积核的操作是很简单的。.........
2022-06-30 15:32:22
211
原创 【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution
题目:Swin Transformer V2: Scaling Up Capacity and Resolutionmotivation:作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。method:首先,对大型视觉模型的实验揭示了训练中的不稳定性问题。作者发现,在大型模型中,各层之间的激活幅度差异显著增大。仔细观察结构可以发现,这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积,
2022-03-08 15:06:28
4313
1
原创 【论文阅读】ATSS:Adaptive Training Sample Selection
题目:Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selectionmotivation:作者想找到anchor base 和anchor free 的区别,并设计一种anchor选取的方法。method :分析下RetinaNet和FCOS在算法上的差异,主要有以下3点:RetinaNet在特征图上每个点铺设多个anchor,而FCOS在特征图上每个点
2022-02-28 15:09:39
254
1
原创 浮点数在计算机中的存储
F=S E M8.25 用二进制表示为:1000.011000.01 转换为科学计数法:1.0001 * 2^3任何一个数的科学计数法表示都为1. xxx * 2^n ,尾数部分就可以表示为xxxx,由于第一位都是1嘛,所以将小数点前面的1省略。E=127+e参考:https://www.cnblogs.com/wuyuan2011woaini/p/4105765.html...
2022-02-22 14:51:09
139
原创 c t c you should know
CTC 原理看了那么多的原理,觉得简单易懂的就这个:LOSS:如上图,对于最简单的时序为2的(t0t1)的字符识别,可能的字符为“a”,“b”和“-”,颜色越深代表概率越高。对于真实字符为空即“”的概率为0.60.6=0.36而真实字符为“a”的概率不只是”aa” 即0.40.4 , 实时上,“aa”, “a-“和“-a”都是代表“a”,所以,“a”的概率为:0.40.4 + 0.4 * 0.6 + 0.60.4 = 0.16+0.24+0.24 = 0.64所以“a”的概率比空“”的概率高
2021-12-13 17:17:02
1346
原创 【论文阅读】DBNet:Real-time Scene Text Detection with Differentiable Binarization
题目:Real-time Scene Text Detection with Differentiable Binarizationmotivation:文字检测算法可以大致分为两类:基于回归的方法和基于分割的方法。基于分割的方法先通过网络输出图片的文本分割结果,使用预设的阈值将分割结果图转换为二值图。使用阈值来判定前景和背景的操作,这个操作是不可微的,所以无法使用网络将该部分流程放入到网络中训练,本文通过学习threshmap和使用可微的操作来将阈值转换放入到网络中训练。作者想让二值化更牛逼。met
2021-12-02 17:04:29
3255
原创 AUC you should know
AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积.一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的 FPR 和 TPR ,将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。ROC曲线横坐标为假正率(FPR),纵坐标为真正率(TPR)。e.g...
2021-10-21 16:27:08
143
原创 【论文阅读】YOLO-X:Exceeding YOLO Series in 2021
题目:YOLOX: Exceeding YOLO Series in 2021
2021-08-05 11:52:15
7820
原创 【论文阅读】DETR (ECCV2020)|End-to-End Object Detection with Transformers
题目:End-to-End Object Detection with Transformers作者:Facebook AI – Nicolas Carion , Francisco Massa , Gabriel Synnaeve, Nicolas Usunier,Alexander Kirillov, and Sergey Zagoruykomotivation:作者想直接预测无序集合method:亮点我觉得有2:1)采用了transformer的模型架构;2)采用匈牙利算法的无序预
2021-07-28 17:51:04
577
1
原创 卡尔曼滤波
例如,n个人干n项工作的指派问题,如何让总的开销最小。首先知道其代价矩阵:from scipy.optimize import linear_sum_assignment cost =np.array([[4,1,3],[2,0,5],[3,2,2]])row_ind,col_ind=linear_sum_assignment(cost)print(row_ind)#开销矩阵对应的行索引print(col_ind)#对应行索引的最优指派的列索引print(cost[row_ind,col_
2021-07-28 16:06:40
162
原创 Aplicaction of DPL
行业应用计算机视觉的行业应用,已成熟产业化的主要有如下六个领域:(1). 安防监控领域,包括人脸识别、行为识别、运动跟踪、人群分析等等,利用卡口精准位置布控视频监测,实现了监控区域内异常的自动识别,例如动态视频中的人脸与黑名单库实时比对检测,多视点视频协同分析运行轨迹,视频数据结构化后对关键目标的检索等等;(2). 互联网娱乐场景,包括拍照优化、视频优化、实时人像美颜、AR特效、自定义背景等等,丰富了直播、短视频等互联网娱乐应用;(3). 金融身份认证场景,包括各种刷脸的金融应用,如远程开户、支付取
2021-07-12 17:37:07
248
原创 [论文阅读]YOLOF:You Only Look One-level Feature
题目:作者:motivation:YOLOF虽然和YOLO没啥关系,针对FPN做的一个工作,理论创新性还是蛮大的methods:experiments:
2021-06-21 10:37:10
289
1
原创 Docker you should know
build:使用当前目录的 Dockerfile 创建镜像,标签为 runoob/ubuntu:v1。docker build -t runoob/ubuntu:v1 .
2021-05-10 15:02:01
107
原创 [tricks] C o o r d C o n v
class AddCoords(nn.Module): def __init__(self, with_r=False): super().__init__() self.with_r = with_r def forward(self, input_tensor): """ Args: input_tensor: shape(batch, channel, x_dim, y_dim)
2021-04-16 11:14:21
282
1
原创 [tricks] G-r-i-d S-e-n-s-itive
Grid Sensitive:#Grid Sensitiveself.scale_x_y=1.05pxy = torch.sigmoid(ps[..., :2])pxy = self.scale_x_y * pxy - 0.5 * (self.scale_x_y -1.0)
2021-04-15 13:51:52
380
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人