【论文精读】Language Conditioned Traffic Generation基于语言条件的交通生成
论文简介
链接: Language Conditioned Traffic Generation
LCTGen(Language Conditioned Traffic Generation) 是一个可以理解交通场景文本描述的 Transformer 语言模型,可以生成自然、逼真的车辆、行人以及其他交通参与者的行为,还可以根据已知的文本描述,预测交通参与者可能的位置以及它们在场景中的运动。
模拟器是现代自动驾驶发展的支柱。模拟器有助于开发、测试和改进驾驶系统,而不会使人类、车辆或其环境面临风险。
然而,模拟器面临着一个重大挑战:它们依赖于逼真、可扩展但有趣的内容。虽然渲染和场景重建的最新进展在创建静态场景资产方面取得了长足的进步,但对其布局、动态和行为进行建模仍然具有挑战性。
在这项工作中,我们转向语言作为动态交通场景生成的监督来源。
我们的模型LCTGen将大型语言模型与基于转换器的解码器架构相结合,该架构从地图数据集中选择可能的地图位置,并生成初始交通分布以及每辆车的动态。
在真实感和保真度方面,LCTGen在无条件和有条件交通场景生成方面都优于先前的工作。
概述Overview
本文提出了一个语言条件下的流量生成模型LCTGen。我们的模型以交通场景的自然语言描述作为输入,并在兼容的地图上输出交通参与者的初始状态和运动。
LCTGen有两个主要模块:解释器和生成器。对于任何用户指定的自然语言查询,LLM驱动的解释器都会将查询转换为紧凑的结构化表示。解释器还从真实世界的地图库中检索与所描述