policy

TDM-R1

Luo-Yihong · PyTorch

or hover any field below to flag it

Overview

Name

TDM-R1

Author

Luo-Yihong

Framework

PyTorch

License

unknown

Skill type

other

Evidence level

community

Task description

[Ultra Powerful Few-Step Diffusion RL] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Action space

other · 0-dim · 0Hz

Observation space

HuggingFace repo

null

Paper (arXiv)

null

No environments list TDM-R1 yet.

No datasets reference TDM-R1 yet.