simmediumrlmetric · varies

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Description

Large Language Models employing Chain-of-Thought reasoning achieve strong performance but suffer from excessive token consumption that inflates inference costs. Existing efficiency methods such as explicit length penalties, difficulty estimators, or multi-stage curricula either degrade reasoning quality or require complex training pipelines. We introduce Batched Contextual Reinforcement, a minimalist, single-stage training paradigm that unlocks efficient reasoning through a simple structural mod

Source

http://arxiv.org/abs/2604.02322v1