7种视觉MLP整理(上)

如果视觉Transformer中去掉MSA部分,性能是否能达到相同的水平?或者说仅使用MLP来实现视觉任务是否可行?由此考虑到视觉MLP。

一、EANet(External Attention)

原文链接:https://arxiv.org/pdf/2105.02358.pdf

\begin{aligned} A&=\textup{Norm}(FM_k^T)\\ F_{out}&=AM_v \end{aligned}

其中M_kM_v为可学习的参数,不依赖于输入。Norm为double normalization(分别对行和列):

(\tilde{\alpha})_{i,j}=FM^T_k,\hat{\alpha}_{i,j}=\frac{\exp(\tilde{\alpha}_{i,j})}{\sum_k \exp(\tilde{\alpha}_{k,j})},\alpha_{i,j}=\frac{\hat{\alpha}_{i,j}}{\sum_k \hat{\alpha}_{i,k}}

二、MLP-Mixer

原文链接:https://arxiv.org/pdf/2105.01601.pdf

Mixer Layer

其中MLP为双层,层间有GELU激活函数。

网络结构

        将图像分成不重叠的patch,然后将维度投影为C,得到X输入到Mixer中。Mixer包含2个MLP,第一个作用于列(所有列共享参数),第二个作用于行(所有行共享参数)。

Mixer公式(S为patch数量)

\begin{aligned} U_{\ast ,i}&=X_{\ast,i}+W_2\sigma(W_1\textup{LayerNorm(X)}_{\ast,i}),i=1,\cdots,C\\ Y_{j,\ast}&=U_{j,\ast}+W_4\sigma(W_3\textup{LayerNorm(U)}_{j,\ast}),j=1,\cdots,S \end{aligned}

        Mixer未使用position embedding,因为token-mixing MLP对输入token的顺序敏感,有可能学习到位置信息。

三、CycleMLP

原文链接:https://arxiv.org/pdf/2107.10224.pdf

实际为上述MLP-Mixer的改进。

传统MLP主要问题:(1)空间维度的MLP不能适应不同的输入大小;(2)channel维度的MLP不能捕捉空间交互。

模型结构

Patch Embedding

        使用大小为7的窗口(步长4)将图片分为有重叠的patch。然后将patch通过线性层得到高维特征。

        不同stage之间有transition部分,减少token数量,增加channel维度。

CycleMLP块

        Channel MLP为2个线性层(channel FC)+GELU。Channel FC和输入图像大小无关,但感受野只有1个像素。

        和传统MLP相比,Cycle MLP使用了Cycle FC层,使MLP类模型能够处理不同大小的输入图片。Cycle FC使用了3个并行的Cycle FC operator。

Cycle FC输出(S_P为感受野大小):

Y_{i,j}=\sum_{c=0}^{C_i-1}F^T_{j,c}\cdot X_{i+c\%S_p,c}

伪核

        将采样点投影到空间平面得到的区域。

四、gMLP

原文链接:https://arxiv.org/pdf/2105.08050.pdf

gMLP(g表示gating)包含L个相同的块,每个块如下:

\begin{aligned} Z&=\sigma(XU)\\ \tilde{Z}&=s(Z)\\ Y&=\tilde{Z}V \end{aligned}

其中\sigma为激活函数,s(\cdot )捕捉空间交互(当s(Z)=Z时为普通的双层MLP),\odot为按元素乘法。模型不需要position embedding,因其可由s捕捉。

        捕捉空间交互最简单的选择是线性层:

f_{W,b}(Z)=WZ+b,s(Z)=Z\odot f_{W,b}(Z)

这里s(\cdot )被称为SGU(spatial gating unit)。有点类似于SE(见5种2D Attention整理中的第三个),只是把池化变成线性层。

        同样有效的方法是,将Z沿channel分为两部分Z_1Z_2,然后

s(Z)=Z_1\odot f_{W,b}(Z_2)

此外可以在SGU中加入一个微型注意力机制,对应的模型称为aMLP。

<think>嗯,用户想了解视觉和毫米波雷达融合的框架或解决方案。首先,我需要结合提供的引用内容来整理现有的方法。根据引用[1]和[2],毫米波雷达和视觉融合属于多模态信息融合,各有优势。引用[2]提到了CenterFusion,这是一个基于中心点检测的框架,使用截头体方法关联雷达检测和目标中心,补充图像特征。这可能是一个具体的解决方案。 然后,用户可能想知道不同的融合层次,比如数据级、特征级和决策级。引用[1]提到原始雷达数据和视觉图像的融合能提供更丰富的信息,但挑战在于处理不同模态的噪声和相关性。因此,在数据级融合方面,需要同步传感器数据,并进行空间对齐,比如外参标定和时间同步。 特征级融合方面,CenterFusion的例子是生成雷达特征图并与图像特征结合,这属于中间层次的融合。引用[2]指出,这种方法能提升速度估计,但可能丢弃仅由雷达检测的目标,这是需要注意的缺点。 决策级融合则是各自处理后再综合结果,比如目标检测后融合,但可能存在信息损失。需要权衡实时性和精度。 另外,用户可能关心挑战和未来方向。引用[1]提到多模态融合的挑战,包括噪声处理和信息挖掘。而引用[2]中的问题,如依赖图像BEV中心预测的可靠性,可能需要更优的BEV表示方法,比如使用Transformer或雷达辅助深度估计。 还要考虑实际应用中的数据集问题,引用[1]指出现有数据集提供后处理的雷达数据,可能丢失信息。因此,使用原始雷达数据可能更有优势,但处理起来更复杂。 最后,需要确保回答结构清晰,分层次说明框架,并结合具体例子,如CenterFusion,同时提到挑战和解决方案。可能还需要推荐相关数据集或学习资源,但根据引用[4],课程信息可能过时,暂时不提及。总结出几种主流框架,并指出各自的优缺点,帮助用户理解选择。</think>### 视觉与毫米波雷达融合框架的解决方案 #### 1. **融合层次分类** 视觉与毫米波雷达的融合框架可分为以下三种模式: - **数据级融合**:将原始点云数据(毫米波雷达)与图像像素(视觉)直接对齐融合,例如通过空间投影或时间同步,需要解决传感器外参标定问题[^1]。例如: $$ z_{\text{fused}} = \alpha \cdot z_{\text{radar}} + (1-\alpha) \cdot z_{\text{visual}} $$ - **特征级融合**:分别提取视觉的语义特征(如CNN特征图)和雷达的物理特征(如速度、反射强度),再通过注意力机制或跨模态Transformer进行关联[^2]。 - **决策级融合**:各自独立完成目标检测/跟踪后,通过贝叶斯滤波或匈牙利算法融合结果,但可能丢失底层关联信息[^1]。 #### 2. **典型框架案例** - **CenterFusion框架**(引用[2]): 1. 基于视觉检测目标的中心点生成截头体(截锥形区域); 2. 将雷达点云投影到图像坐标系,筛选位于截头体内的雷达点; 3. 构建雷达特征图并与视觉特征图融合,回归目标深度、速度等属性。 ```python # 伪代码:雷达-视觉特征融合 radar_feats = project_radar_to_image(radar_points, calib_params) visual_feats = backbone_cnn(camera_image) fused_feats = concatenate(radar_feats, visual_feats) pred_3dbox = detection_head(fused_feats) ``` 该框架显著提升速度估计精度,但对纯雷达检测目标存在漏检风险。 - **BEV融合框架**: 1. 将视觉图像通过IPM变换或MLP生成BEV(鸟瞰图)表示; 2. 将毫米波雷达点云栅格化为BEV网格; 3. 使用3D卷积或Transformer融合双模态BEV特征,输出联合感知结果。 #### 3. **关键技术挑战** - **时空对齐**:需精确标定雷达与相机的外参,并通过硬件同步(如PTP协议)解决时间戳差异[^1]; - **噪声抑制**:雷达多径反射和视觉光照变化需设计鲁棒的特征选择机制; - **信息互补性挖掘**:利用雷达穿透性(如雨雾环境)与视觉高分辨率特性,例如通过门控网络动态分配权重。 #### 4. **工业界应用方向** - **自动驾驶障碍物检测**:融合视觉语义分割与雷达距离/速度测量,提升AEB(自动紧急制动)可靠性; - **SLAM建图**:毫米波雷达提供运动估计,视觉提供回环检测,适用于隧道等GPS失效场景[^3]; - **低成本ADAS**:用4D毫米波雷达替代部分激光雷达功能,与视觉联合实现L2+级自动驾驶。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值