simmediumrlmetric · varies

Efficient RLVR Training via Weighted Mutual Information Data Selection

Description

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data

Source

http://arxiv.org/abs/2603.01907v1