目录
BEV 引导的扩散模型(BEV-Controlled Diffusion Model)
题目:Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis
会议:International Conference on Computer Vision 2025
论文:https://arxiv.org/abs/2408.01812
项目:https://opendatalab.github.io/skydiffusion/
年份:2025
单位:中山大学、上海人工智能实验室
CCV 2025 遥感方向合集:ICCV 2025
背景
本研究聚焦于地面到空中的图像合成任务,即利用街景图像生成对应的鸟瞰或卫星图像,这在城市规划、灾害响应、历史影像补全等领域具有重要价值。
然而,由于街景与卫星图存在巨大视角差异(如建筑侧面与屋顶)、场景遮挡(如高楼林立)、数据分布差异等问题,使得生成具有真实感且内容一致的空中图像极具挑战。因此,亟需一种能够有效对齐视角、整合多源信息,并提升图像质量的跨视角图像生成方法。
创新点
-
SkyDiffusion 框架:首次将 Bird’s-Eye View (BEV) 与 扩散模型结合,用于从地面街景图像生成真实、结构一致的卫星图。
-
Curved-BEV 转换方法:相比传统 BEV 更好地保持了视角一致性,引入了非平面假设,能处理高层建筑和远处目标。
-
Multi-to-One BEV 映射策略:解决城市密集区中由于遮挡造成视野受限的问题,融合多个地面视图生成更完整的空中图像。
-
Ground2Aerial-3(G2A-3)数据集:新建跨视角图像生成数据集,包含三个任务场景:灾后场景、低空无人机视图、历史高分辨率卫星图生成。
数据
-
CVUSA、CVACT:郊区,单视角地面图与卫星图匹配,视角一致。
-
VIGOR-Chicago:城市场景,多地面图对应一张卫星图。
-
Ground2Aerial-3(G2A-3,本文提出):
-
灾难响应子集:使用 CVIAN(飓风后图像),包括2700对图像。
-
低空无人机子集:基于 UE 引擎渲染地面图与低空 UAV 图像。
-
历史高分卫星图子集:街景(2007–2014)+ 高分辨率卫星图(MassGIS)。
-
方法
SkyDiffusion
SkyDiffusion 是一种从地面街景图像生成对应空中图像的跨视角图像合成框架。
Curved-BEV 转换(曲面鸟瞰图转换)
该模块旨在将地面视角的街景图像转换为鸟瞰图(BEV)视角,以缩小地面与卫星图之间的视角差异(即“视域域差”),并提升语义一致性。
-
突破传统 BEV 假设:传统 BEV 方法通常假设所有场景都在地平面上(即建筑物、树木等都在一个平面上),这在复杂城市环境中容易导致上层结构(如建筑顶部、远处道路)丢失。
-
提出 Curved-BEV:SkyDiffusion 改进这一方法,将 BEV 视角看作一个向上弯曲的虚拟平面,使得视场中心之外的区域能更自然地投影至上方视角。这种非线性空间映射能更完整地保留远处和高处的信息,例如楼顶、树冠等。
-
不依赖相机参数或深度估计:该转换基于图像本身的几何推理实现,无需预先获取相机的内参或估算深度图,从而降低了实际应用门槛。
Multi-to-One BEV 映射(多图融合)
城市环境中常因建筑物、树木等造成遮挡,使得单张街景图覆盖范围有限。SkyDiffusion 设计了一个多图融合策略来扩展视野。
-
融合多个街景图:利用多个邻近位置拍摄的街景图像,分别进行 BEV 映射后,依据各自的地理位置统一整合到一个共享的 BEV 空间中。
-
位置对齐:融合过程中以街景图像拍摄位置与目标空中图位置的相对距离为基础,选择最优图像用于叠加,保证最大程度的区域覆盖和视角一致性。
-
适应城市密集区:该方法尤其适用于遮挡严重的城市街道,在同一位置的不同视角信息可互补,从而重建更完整的空中视图。
BEV 引导的扩散模型(BEV-Controlled Diffusion Model)
完成 BEV 转换后,SkyDiffusion 使用一个改进的扩散模型来生成卫星图像,该模型以 BEV 图为条件输入,实现更强的内容一致性。
-
借鉴 ControlNet 思路:在 Stable Diffusion 的基础上,设计了类似于 ControlNet 的架构,通过额外的网络模块对 BEV 图像进行编码,并将其嵌入主扩散模型的中间层,用于引导图像的生成过程。
-
空间注意力机制:由于 BEV 图可能存在信息扭曲,模型在提取特征时引入了空间注意力机制,以突出街道方向、建筑分布等关键区域,抑制干扰区域的特征。
-
训练过程:训练时通过加入噪声-还原的过程学习生成真实、语义一致的空中图像;只使用图像条件,不依赖文字提示或语义分割图,增强了实际应用的普适性。
实验与分析
SkyDiffusion 在多个跨视角数据集上表现优越,生成的空中图像在结构一致性和视觉真实感方面均优于现有方法。尤其在城市密集区和实际应用场景中,该方法显著提升了图像合成的内容准确性和整体质量。