policy

prolog_gpro

TrebuchetNetwork · PyTorch

or hover any field below to flag it

Overview

Name

prolog_gpro

Author

TrebuchetNetwork

Framework

PyTorch

License

unknown

Skill type

other

Evidence level

untested

Task description

Custom prolog inspired GRPO RL fine-tuning reward function based on unsloths work and Qwen4 base model

Action space

other · 0-dim · 0Hz

Observation space

HuggingFace repo

null

Paper (arXiv)

null

No environments list prolog_gpro yet.

No datasets reference prolog_gpro yet.