simmediumoffline-rlmetric · varies

BinaryPPO: Efficient Policy Optimization for Binary Classification

Description

Supervised fine-tuning (SFT) is the standard approach for binary classification tasks such as toxicity detection, factuality verification, and causal inference. However, SFT often performs poorly in real-world settings with label noise, class imbalance, or sparse supervision. We introduce BinaryPPO, an offline reinforcement learning large language model (LLM) framework that reformulates binary classification as a reward maximization problem. Our method leverages a variant of Proximal Policy Opti

Source

http://arxiv.org/abs/2602.02708v1