simmediumpolicy-learningmetric · varies

VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action Models

Description

Video action models are an appealing foundation for Vision--Language--Action systems because they can learn visual dynamics from large-scale video data and transfer this knowledge to downstream robot control. Yet current diffusion-based video predictors are trained with likelihood-surrogate objectives, which encourage globally plausible predictions without explicitly optimizing the precision-critical visual dynamics needed for manipulation. This objective mismatch often leads to subtle errors in

Source

http://arxiv.org/abs/2603.19370v1