policy

alphazero_llm_trainer

HyperKuvid-Labs · PyTorch

or hover any field below to flag it

Overview

Name

alphazero_llm_trainer

Author

HyperKuvid-Labs

Framework

PyTorch

License

Apache-2.0

Skill type

navigation

Evidence level

untested

Task description

AlphaZero-style RL training for LLMs using MCTS on mathematical reasoning tasks (GSM8K). Student model explores reasoning paths guided by teacher ensembles and reward signals.

Spaces

Action space

other · 0-dim · 0Hz

Observation space

type: other

Links

HuggingFace repo

null

Paper (arXiv)

null

Compatible robots

20

clearpath-robotics-ladybug-5-ddmnot in seed clearpath-robotics-sick-lms111not in seed clearpath-robotics-husky-robotic-platformnot in seed clearpath-robotics-jackal-ugv-platformnot in seed clearpath-robotics-all-accessoriesnot in seed clearpath-robotics-industrialnot in seed clearpath-robotics-clearpath-careersnot in seed clearpath-robotics-husky-a300-amp-thumbnailnot in seed clearpath-robotics-observer-shadow-194not in seed clearpath-robotics-turtlebot-personal-robotnot in seed clearpath-robotics-autonomy-research-kit-imagenot in seed clearpath-robotics-new-corporate-our-storynot in seed clearpath-robotics-clearpath-roboticsnot in seed clearpath-robotics-otto-heavy-load-material-transporternot in seed clearpath-robotics-boxerugv-menunot in seed flybodynot in seed clearpath-robotics-warthog-menunot in seed clearpath-robotics-3d-lidar-dropdownnot in seed clearpath-robotics-ddm-imunot in seed clearpath-robotics-huskya300-menu-imagenot in seed

Compatible environments

0

No environments list alphazero_llm_trainer yet.

Datasets that reference this policy

0

No datasets reference alphazero_llm_trainer yet.