simmediumrlmetric · varies

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

Description

We introduce Reward-Zero, a general-purpose implicit reward mechanism that transforms natural-language task descriptions into dense, semantically grounded progress signals for reinforcement learning (RL). Reward-Zero serves as a simple yet sophisticated universal reward function that leverages language embeddings for efficient RL training. By comparing the embedding of a task specification with embeddings derived from an agent's interaction experience, Reward-Zero produces a continuous, semantic

Source

http://arxiv.org/abs/2603.09331v1