simmediummanipulationmetric · varies

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

Description

Reinforcement learning (RL) promises to unlock capabilities beyond imitation learning for Vision-Language-Action (VLA) models, but its requirement for massive real-world interaction prevents direct deployment on physical robots. Recent work attempts to use learned world models as simulators for policy optimization, yet closed-loop imagined rollouts inevitably suffer from hallucination and long-horizon error accumulation. Such errors do not merely degrade visual fidelity; they corrupt the optimiz

Source

http://arxiv.org/abs/2602.13977v1