policy

ppo_model_qwen3-4b_aita_h200_yta_nta_balanced

ianyang02 · PyTorch

or hover any field below to flag it

Overview

Name

Author

ianyang02

Framework

PyTorch

License

unknown

Skill type

other

Evidence level

reported

Task description

Policy model from ianyang02. Tags: peft, safetensors, base_model:adapter:Qwen/Qwen3-4B-Instruct-2507, lora, transformers.

Action space

other · 0-dim · 0Hz

Observation space

HuggingFace repo

Paper (arXiv)

No environments list ppo_model_qwen3-4b_aita_h200_yta_nta_balanced yet.

No datasets reference ppo_model_qwen3-4b_aita_h200_yta_nta_balanced yet.