原文链接:https://arxiv.org/abs/2405.04662
1. 引言
目前的场景重建方法多依赖RGB或激光雷达数据。神经渲染方法主要依赖RGB图像,但其性能不会超过输入数据的质量(在极端天气或光照条件下会失效),而雷达对天气和光照具有鲁棒性。但是,使用稀疏且分辨率较低、俯仰角信息有限的雷达重建3D场景具有挑战。
本文在频域进行建模,以绕过计算复杂的体渲染和有限的分辨率。使用原始雷达波形数据作为监督,恢复检测功率、场景几何、距离和场景反射率的关系。
本文引入FMCW信号形成模型,可微地将特定距离的接收雷达功率分解为与占用和反射率有关的分量,可通过神经网络学习和预测。将场景几何与视角和与材料相关的反射率解耦,本文的方法可以重建密集场景几何并合成雷达波形,可直接预测特定距离的接收功率。
3. 雷达场(Radar Fields)
3.1 雷达信号形成模型
FMCW雷达发射的信号频率
f
τ
f_\tau
fτ随时间
t
t
t变化,通常是锯齿形调制的chirp:
f
τ
(
t
)
=
ω
+
θ
(
t
)
,
θ
(
t
)
=
2
Δ
f
⋅
mod
(
t
T
s
,
1
)
f_\tau(t)=\omega+\theta(t),\theta(t)=2\Delta f\cdot\text{mod}(\frac t{T_s},1)
fτ(t)=ω+θ(t),θ(t)=2Δf⋅mod(Tst,1)
其中 ω \omega ω为恒定载波频率, θ ( t ) \theta(t) θ(t)为周期性锯齿函数,周期为 T s T_s Ts,半幅值 Δ f \Delta f Δf。
chirp反射会传感器时,距离伪
R
R
R的物体引入的时延
t
d
t_d
td会导致相移,从而接收波形
f
r
f_r
fr与发射波形
f
τ
f_\tau
fτ之间存在频率差:
f
r
(
t
)
=
ω
+
θ
(
t
−
t
d
)
,
t
d
=
2
R
c
f_r(t)=\omega+\theta(t-t_d),t_d=\frac{2R}c
fr(t)=ω+θ(t−td),td=c2R
此处为单个物体的情况,且假设物体静止,没有多普勒频移。
混频器和低通滤波器会处理两个信号,计算其瞬时频率和相位的差异,得到中频(IF)波形:
f
I
F
(
t
)
=
f
τ
(
t
)
−
f
r
(
t
)
=
θ
(
t
)
−
θ
(
t
−
t
d
)
f_{IF}(t)=f_\tau(t)-f_r(t)=\theta(t)-\theta(t-t_d)
fIF(t)=fτ(t)−fr(t)=θ(t)−θ(t−td)
单目标情况下,IF为频率为
f
I
F
f_{IF}
fIF的正弦信号,但存在多个物体时,IF信号为多个不同频率的正弦信号之和。使用快速傅里叶变换(FFT)得到任意距离下的目标:
P
r
(
b
)
=
∑
n
=
0
N
b
−
1
I
F
(
n
)
⋅
e
−
i
2
π
b
n
N
b
,
b
=
f
I
F
b
P_r(b)=\sum_{n=0}^{N_b-1}IF(n)\cdot e^{-\frac{i2\pi bn}{N_b}},b=f_{IF_b}
Pr(b)=n=0∑Nb−1IF(n)⋅e−Nbi2πbn,b=fIFb
其中
N
b
N_b
Nb为频率区间(bin)的数量,每个区间
b
b
b对应一个距离值
R
b
R_b
Rb:
R
b
=
f
I
F
b
c
T
s
4
Δ
f
R_b=f_{IF_b}\frac{cT_s}{4\Delta f}
Rb=fIFb4ΔfcTs
本文的目的是拟合原始雷达FFT信号,故需要预测区间
b
b
b的检测功率
P
r
(
b
)
P_r(b)
Pr(b),从而建立频域空间的波形。
P
r
(
b
)
P_r(b)
Pr(b)可建模为距离
R
b
R_b
Rb处的返回功率,即
P
r
(
b
)
=
P
t
⋅
G
2
⋅
σ
(
4
π
)
3
R
b
2
P_r(b)=\frac{P_t\cdot G^2\cdot \sigma}{(4\pi)^3R_b^2}
Pr(b)=(4π)3Rb2Pt⋅G2⋅σ
其中 P t P_t Pt为发射功率, G G G为天线增益, σ \sigma σ为分布式目标的总RCS值(与形状、材料和反射率相关)。
上式中的参数,除 σ \sigma σ外均已知,但直接估计 σ \sigma σ不足以进行几何重建。本文将 σ \sigma σ中几何相关的部分与反射率和材料分量解耦: σ = α ⋅ ρ ⋅ γ \sigma=\alpha\cdot\rho\cdot\gamma σ=α⋅ρ⋅γ,其中 α \alpha α为雷达波束截面上的物体大小(仅与物体几何相关), ρ \rho ρ为反射率, γ \gamma γ为物体的方向性。
3.2 隐式神经场表达
本文学习隐式神经模型,渲染二维雷达测量 P r ∈ R N ϕ × N b P_r\in\mathbb R^{N_\phi\times N_b} Pr∈RNϕ×Nb,其中 N b N_b Nb为距离区间数, N ϕ N_\phi Nϕ为水平角区间数。为每个网格预测RCS值(分解为截面积 α \alpha α,和反射率与方向性的乘积 ρ γ \rho\gamma ργ)。模型的输入为原始雷达序列,和来自GNSS的姿态。
本文使用两个神经场
f
α
f_\alpha
fα和
f
ρ
γ
f_{\rho\gamma}
fργ重建真实FFT数据,分别表示场景占用和反射系数。场
f
X
f_X
fX的条件为嵌入
X
∈
R
d
X\in\mathbb R^d
X∈Rd。给定点
x
∈
R
3
x\in\mathbb R^3
x∈R3和视线方向
d
∈
R
3
d\in\mathbb R^3
d∈R3,场景分解可表达如下:
f
X
:
{
H
(
x
)
}
→
{
X
}
特征嵌入
f
α
:
{
X
}
→
{
α
}
占用
f
ρ
γ
:
{
S
(
d
)
,
X
}
→
{
ρ
γ
}
反射系数
f_X:\{H(x)\}\rightarrow\{X\}特征嵌入\\ f_\alpha:\{X\}\rightarrow\{\alpha\}占用\\ f_{\rho\gamma}:\{S(d),X\}\rightarrow\{\rho\gamma\}反射系数
fX:{H(x)}→{X}特征嵌入fα:{X}→{α}占用fργ:{S(d),X}→{ργ}反射系数
其中 H , S H,S H,S分别为多分辨率哈希编码和球面谐波位置编码。
嵌入场 f X : { H ( x ) } → { X } f_X:\{H(x)\}\rightarrow\{X\} fX:{H(x)}→{X}从哈希网格编码的位置中预测几何和材料特征 X X X;场 f ρ γ : { S ( d ) , X } → { ρ γ } f_{\rho\gamma}:\{S(d),X\}\rightarrow\{\rho\gamma\} fργ:{S(d),X}→{ργ}则将视线方向 d d d通过球面谐波编码,预测反射率与方向性的乘积。
α \alpha α可以直接重建场景几何,也可和 ρ γ \rho\gamma ργ相乘合成返回波形。注意本文模型无需体渲染,因为射线样本本身就是预测结果。
3.3 基于物理的重要性采样
由于雷达波束会随距离不断发散,因此无俯仰角分辨率的FMCW雷达也能通过整合波束内的信号捕捉3D信息。本文通过在雷达光束的椭圆锥内(由发散角定义)超采样射线,从而在3D内建模真实距离-水平角测量。
FMCW雷达不使用各向同性辐射天线,这导致波束会偏向特定方向,且增益在波束中心处最大,随波束发散而急剧降低。可将增益建模为角度偏移量的函数,使其影响返回功率。将水平角偏移量 a a a和俯仰角偏移量 e e e分开,建立两个函数 A ( a ) , E ( e ) A(a),E(e) A(a),E(e)。
训练时采样
N
N
N个波束中心,在每个波束中心处均匀超采样
S
−
1
S-1
S−1个射线,建立集合
S
=
{
s
1
,
⋯
,
s
S
}
S=\{s_1,\cdots,s_S\}
S={s1,⋯,sS},每个射线
s
i
s_i
si有角度偏移量
a
i
,
e
i
a_i,e_i
ai,ei,其中
a
i
∼
U
(
−
A
,
A
)
,
e
i
∼
U
(
−
E
,
E
)
a_i\sim U(-A,A),e_i\sim U(-E,E)
ai∼U(−A,A),ei∼U(−E,E),其中水平角范围和俯仰角范围分别为
2
A
2A
2A和
2
E
2E
2E。为每个射线分别预测RCS值
σ
^
i
=
α
^
i
⋅
ρ
γ
^
i
\hat\sigma_i=\hat\alpha_i\cdot\hat{\rho\gamma}_i
σ^i=α^i⋅ργ^i,并根据函数
A
(
a
)
,
E
(
e
)
A(a),E(e)
A(a),E(e)取均值:
σ
^
=
∑
i
=
1
S
σ
i
⋅
A
(
a
i
)
⋅
E
(
e
i
)
∑
i
=
1
S
⋅
A
(
a
i
)
⋅
E
(
e
i
)
\hat\sigma=\frac{\sum_{i=1}^S\sigma_i\cdot A(a_i)\cdot E(e_i)}{\sum_{i=1}^S\cdot A(a_i)\cdot E(e_i)}
σ^=∑i=1S⋅A(ai)⋅E(ei)∑i=1Sσi⋅A(ai)⋅E(ei)
可使用 σ ^ \hat\sigma σ^进一步计算返回功率。
3.4 训练
原始雷达波形为唯一监督。此外,对预测的占用进行正则化以保证其几何解释。
总损失
L
L
L包括重建FFT损失
L
W
L_W
LW,以及占用正则化项
L
R
L_R
LR和
L
P
L_P
LP:
L
=
η
W
L
W
+
η
R
L
R
+
η
P
L
P
L
W
=
1
N
ϕ
N
b
∑
ϕ
,
b
∥
P
t
⋅
G
2
⋅
(
α
^
ϕ
,
b
⋅
ρ
γ
^
ϕ
,
b
)
(
4
π
)
3
R
b
4
−
P
r
ϕ
,
b
∥
L
R
=
1
B
a
t
c
h
S
i
z
e
∑
ϕ
,
b
O
(
P
r
)
ϕ
,
b
(
log
(
O
(
P
r
)
ϕ
,
b
)
−
log
(
α
^
ϕ
,
b
)
)
L
P
=
s
t
d
(
α
^
∣
O
(
P
r
)
>
0.5
)
+
s
t
d
(
α
^
∣
O
(
P
r
)
<
0.5
)
L=\eta_WL_W+\eta_RL_R+\eta_PL_P\\ L_W=\frac1{N_\phi N_b}\sum_{\phi,b}\|\frac{P_t\cdot G^2\cdot(\hat\alpha_{\phi,b}\cdot\hat{\rho\gamma}_{\phi,b})}{(4\pi)^3R_b^4}-P_{r_{\phi,b}}\|\\ L_R=\frac1{BatchSize}\sum_{\phi,b}O(P_r)_{\phi,b}(\log(O(P_r)_{\phi,b})-\log(\hat\alpha_{\phi,b}))\\ L_P=std(\hat\alpha|_{O(P_r)>0.5})+std(\hat\alpha|_{O(P_r)<0.5})
L=ηWLW+ηRLR+ηPLPLW=NϕNb1ϕ,b∑∥(4π)3Rb4Pt⋅G2⋅(α^ϕ,b⋅ργ^ϕ,b)−Prϕ,b∥LR=BatchSize1ϕ,b∑O(Pr)ϕ,b(log(O(Pr)ϕ,b)−log(α^ϕ,b))LP=std(α^∣O(Pr)>0.5)+std(α^∣O(Pr)<0.5)
其中 L R L_R LR保证学到的场景几何与原始信号推导的场景几何对齐。可使用基于贝叶斯更新规则和遮挡模型的占用预测算法 O ( P r ) ∈ R N ϕ × N b O(P_r)\in\mathbb R^{N_\phi\times N_b} O(Pr)∈RNϕ×Nb从2D原始雷达信号预测占用似然。 L P L_P LP迫使占用双峰分布,从而保证空空间被正确建模,并移除漂浮物伪影。
为避免过拟合或陷入局部极小,本文使用由粗到细的优化过程。多分辨率哈希网格编码
H
(
x
)
H(x)
H(x)添加掩膜如下:
H
(
x
)
=
{
H
(
x
)
若
i
∣
γ
∣
<
0.4
+
0.6
(
sin
(
epoch
max.epoch
)
)
0
否则
H(x)=\begin{cases}H(x)&若\frac i{|\gamma|}<0.4+0.6(\sin(\frac{\text{epoch}}{\text{max.epoch}}))\\0&否则\end{cases}
H(x)={H(x)0若∣γ∣i<0.4+0.6(sin(max.epochepoch))否则
这样可逐步为模型提高网格分辨率,从而避免训练早期的高频特征中积累重建噪声。
本文在自制数据集上,从BEV占用重建、2D新视图合成以及3D几何重建方面进行评估。BEV占用重建方面还使用预测点云和真实点云之间的倒角距离(CD)和相对倒角距离(RCD)。3D几何重建的真值来自积累的激光雷达点云与高置信度的雷达预测。
(1)多帧积累的点云过于稀疏,无法生成可靠的占用网格图,只能保留传感器附近的大型结构;此外,无法从2D点云中获取3D线索。
(2)本文方法使用FFT数据使得重建场景成为可能,且重要性采样可以从无俯仰角分辨率的数据提取3D信息。