simmediumoffline-rlmetric · varies

Imagination-Limited Q-Learning for Offline Reinforcement Learning

Description

Offline reinforcement learning seeks to derive improved policies entirely from historical data but often struggles with over-optimistic value estimates for out-of-distribution (OOD) actions. This issue is typically mitigated via policy constraint or conservative value regularization methods. However, these approaches may impose overly constraints or biased value estimates, potentially limiting performance improvements. To balance exploitation and restriction, we propose an Imagination-Limited Q-

Source

http://arxiv.org/abs/2505.12211v1