simmediumatarimetric · varies

PPO-BR: Dual-Signal Entropy-Reward Adaptation for Trust Region Policy Optimization

Description

Despite Proximal Policy Optimization (PPO) dominating policy gradient methods -- from robotic control to game AI -- its static trust region forces a brittle trade-off: aggressive clipping stifles early exploration, while late-stage updates destabilize convergence. PPO-BR establishes a new paradigm in adaptive RL by fusing exploration and convergence signals into a single bounded trust region -- a theoretically grounded innovation that outperforms five SOTA baselines with less than 2% overhead. T

Source

http://arxiv.org/abs/2505.17714v1