simmediumsim-to-realmetric · varies

Flow Policy Gradients for Robot Control

Description

Likelihood-based policy gradient methods are the dominant approach for training robot control policies from rewards. These methods rely on differentiable action likelihoods, which constrain policy outputs to simple distributions like Gaussians. In this work, we show how flow matching policy gradients -- a recent framework that bypasses likelihood computation -- can be made effective for training and fine-tuning more expressive policies in challenging robot control settings. We introduce an impro

Source

http://arxiv.org/abs/2602.02481v1