simmediumoffline-rlmetric · varies

Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach

Description

Offline reinforcement learning (RL) learns policies from fixed datasets without online interactions, but suffers from distribution shift, causing inaccurate evaluation and overestimation of out-of-distribution (OOD) actions. Existing methods counter this by conservatively discouraging all OOD actions, which limits generalization. We propose Advantage-based Diffusion Actor-Critic (ADAC), which evaluates OOD actions via an advantage-like function and uses it to modulate the Q-function update discr

Source

http://arxiv.org/abs/2505.05126v4