simmediumoffline-rlmetric · varies

DiWA: Diffusion Policy Adaptation with World Models

Description

Fine-tuning diffusion policies with reinforcement learning (RL) presents significant challenges. The long denoising sequence for each action prediction impedes effective reward propagation. Moreover, standard RL methods require millions of real-world interactions, posing a major bottleneck for practical fine-tuning. Although prior work frames the denoising process in diffusion policies as a Markov Decision Process to enable RL-based updates, its strong dependence on environment interaction remai

Source

http://arxiv.org/abs/2508.03645v1