simmediummanipulationmetric · varies

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

Description

Reliable benchmarking is critical for advancing Vision-Language-Action (VLA) models, as it reveals their generalization, robustness, and alignment of perception with language-driven manipulation tasks. However, existing benchmarks often provide limited or misleading assessments due to insufficient evaluation protocols that inadequately capture real-world distribution shifts. This work systematically rethinks VLA benchmarking from both evaluation and data perspectives, introducing LIBERO-X, a ben

Source

http://arxiv.org/abs/2602.06556v1