simmediumoffline-rlmetric · varies

OM2P: Offline Multi-Agent Mean-Flow Policy

Description

Generative models, especially diffusion and flow-based models, have been promising in offline multi-agent reinforcement learning. However, integrating powerful generative models into this framework poses unique challenges. In particular, diffusion and flow-based policies suffer from low sampling efficiency due to their iterative generation processes, making them impractical in time-sensitive or resource-constrained settings. To tackle these difficulties, we propose OM2P (Offline Multi-Agent Mean

Source

http://arxiv.org/abs/2508.06269v2