simmediumoffline-rlmetric · varies

STO-RL: Offline RL under Sparse Rewards via LLM-Guided Subgoal Temporal Order

Description

Offline reinforcement learning (RL) enables policy learning from pre-collected datasets, avoiding costly and risky online interactions, but it often struggles with long-horizon tasks involving sparse rewards. Existing goal-conditioned and hierarchical offline RL methods decompose such tasks and generate intermediate rewards to mitigate limitations of traditional offline RL, but usually overlook temporal dependencies among subgoals and rely on imprecise reward shaping, leading to suboptimal polic

Source

http://arxiv.org/abs/2601.08107v1