1. 引言
LiDPM提出了一种基于全局扩散模型的激光雷达场景补全方法,突破了现有局部扩散模型的局限性,统一了点云扩散模型在物体级和场景级应用的框架。其核心贡献如下:
1.1. 理论创新
-
挑战局部扩散的假设:现有方法(如LiDiff)认为,标准DDPM无法直接处理大规模激光雷达场景,需通过局部扩散(仅对点偏移量进行扩散)来简化问题。但LiDPM证明,这一假设并不成立,标准DDPM可直接应用于场景级点云生成,无需引入局部扩散的近似。
-
消除冗余近似:LiDiff等方法需依赖稀疏点云的噪声估计(如用稀疏点云的复制近似稠密场景),导致生成能力受限。LiDPM通过全局扩散直接建模点云分布,避免了此类近似。
1.2. 方法统一性
-
将物体级扩散模型(如PVD)与场景级模型统一,证明标准DDPM框架只需适当调整初始条件(如从中间噪声步骤开始扩散),即可扩展到大规模场景,无需定制化设计。
1.3. 性能提升
-
在SemanticKITTI数据集上,LiDPM在场景补全任务中显著优于LiDiff等方法,尤其在细节生成(如远处结构)和稳定性(无需额外正则化)方面表现突出。
-
支持无条件生成:LiDPM可脱离条件输入(如稀疏点云),直接生成全新场景,拓展了扩散模型的应用范围。
论文链接:https://arxiv.org/abs/2504.17791
2. 方法详解
2.1. 标准DDPM框架
LiDPM基于去噪扩散概率模型(DDPM),其核心过程包括:
-
前向扩散:逐步向稠密点云添加高斯噪声,生成噪声点云。
-
反向去噪:通过神经网络预测噪声 (
),逐步从噪声中恢复稠密点云。
2.2. 关键改进
2.2.1. 全局扩散与初始点选择
-
问题:直接从纯噪声开始扩散会导致细节丢失(如远处结构模糊)。
-
解决方案:从中间时间步(如300步)开始扩散,初始点云由稀疏点云的复制倍叠加噪声生成,平衡了结构保真度与生成能力。
2.2.2. 条件扩散与分类器自由指导
-
通过分类器自由指导(Classifier-Free Guidance)融合稀疏点云条件,增强生成点云与输入的一致性:
-
超参数 控制条件强度,实验表明其显著提升补全精度。
2.2.3. 网络架构与稳定性优化
-
采用LiDiff的MinkUNet骨干网络,但将批归一化(BatchNorm)替换为实例归一化(InstanceNorm),避免条件输入或全零)导致的统计偏移问题。
-
无需额外正则化(如LiDiff的噪声均值/方差约束),简化了训练流程。
2.3. 生成与补全流程
2.3.1. 训练阶段
-
输入:有序列表(稠密点云真值)和稀疏点云。
-
目标:最小化预测噪声与真实噪声的差异(MSE损失)。
2.3.2. 推理阶段
-
初始化:从开始,生成初始噪声点云。
-
反向扩散:通过DPM-Solver快速采样(20步),逐步去噪生成稠密点云。
3. 实验结果
3.1. 数据集与指标
-
数据集:SemanticKITTI,包含大规模户外激光雷达场景,训练集为序列00-10,验证集为序列08。
-
评价指标:
-
**Chamfer Distance (CD)**:衡量生成点云与真值的几何差异。
-
**Jensen-Shannon Divergence (JSD)**:评估点云分布的相似性(3D和BEV视角)。
-
Voxel IoU:不同体素分辨率(0.5m、0.2m、0.1m)下的交并比。
-
3.2. 主要结果
3.2.1. 与现有方法对比
-
扩散模型对比:
-
完整方法对比:
LiDPM在IoU 0.2m(44.4 vs. 40.7)、IoU 0.1m(27.6 vs. 24.8)等指标上优于LiDiff,且生成点云的结构更清晰(图4)。
3.2.2. 消融实验
-
初始时间步 (
):(
=300) 为最佳选择,平衡了结构保真度与生成能力(CD=0.437,IoU 0.2m=42.3)。
-
采样步数:DPM-Solver仅需20步即可达到与50步相近的性能(CD=0.428 vs. 0.437),加速生成过程。
3.2.3. 定性结果
-
LiDPM生成的点云在远处区域(如道路边缘、建筑物)细节更丰富,且无LiDiff的虚假结构(图4)。
-
无条件生成:通过调整初始形状(如直线、转弯),LiDPM可生成多样化的合成场景(图5)。
3.3. 稳定性分析
-
归一化策略:实例归一化有效避免了批归一化导致的远距离点云生成异常(图3)。
-
噪声预测:LiDPM的噪声预测均值接近0,标准差稍低(0.6 vs. 1),但无需正则化即可收敛。
4. 结论与展望
LiDPM通过重新思考点扩散模型的设计,证明了标准DDPM框架在场景级激光雷达补全任务中的有效性。其核心优势包括:
-
简化流程:无需局部扩散的复杂近似,降低模型设计复杂度。
-
性能提升:在SemanticKITTI上取得SOTA结果,尤其在细节生成和稳定性方面。
-
扩展性:支持无条件生成,为数据增强和仿真场景构建提供新工具。
未来方向:
-
探索更高效的采样策略(如更少步数)。
-
结合语义信息,实现语义-几何联合补全。
-
扩展至动态场景(如移动物体补全)。