policy

reward-hacking-detector

mohammed840 · PyTorch

or hover any field below to flag it

Overview

Name

Author

mohammed840

Framework

PyTorch

License

MIT

Skill type

other

Evidence level

untested

Task description

Reward-Hacking Detection via RL-Post-Training of LLMs - Detecting reward hacking in RL agents using language models as trajectory auditors

Action space

other · 0-dim · 0Hz

Observation space

HuggingFace repo

null

Paper (arXiv)

null

0+20 mentioned but not in catalog yet

No robots list reward-hacking-detector as compatible yet. Know of one? Flag it above.

No environments list reward-hacking-detector yet.

No datasets reference reward-hacking-detector yet.