simmediumimitationmetric · varies

DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

Description

End-to-end autonomous driving has substantially progressed by directly predicting future trajectories from raw perception inputs, which bypasses traditional modular pipelines. However, mainstream methods trained via imitation learning suffer from critical safety limitations, as they fail to distinguish between trajectories that appear human-like but are potentially unsafe. Some recent approaches attempt to address this by regressing multiple rule-driven scores but decoupling supervision from pol

Source

http://arxiv.org/abs/2509.17940v1