simmediumnavigationmetric · varies

LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers

Description

While multimodal large language models (MLLMs) provide advanced reasoning for autonomous driving, translating their discrete semantic knowledge into continuous trajectories remains a fundamental challenge. Existing methods often rely on unimodal planning heads that inherently limit their ability to represent multimodal driving behavior. Furthermore, most generative approaches frequently condition on one-hot encoded actions, discarding the nuanced navigational uncertainty critical for complex sce

Source

http://arxiv.org/abs/2603.02035v1