simmediumoffline-rlmetric · varies

Density-Ratio Weighted Behavioral Cloning: Learning Control Policies from Corrupted Datasets

Description

Offline reinforcement learning (RL) enables policy optimization from fixed datasets, making it suitable for safety-critical applications where online exploration is infeasible. However, these datasets are often contaminated by adversarial poisoning, system errors, or low-quality samples, leading to degraded policy performance in standard behavioral cloning (BC) and offline RL methods. This paper introduces Density-Ratio Weighted Behavioral Cloning (Weighted BC), a robust imitation learning appro

Source

http://arxiv.org/abs/2510.01479v1