simmediumrlmetric · varies

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Description

This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cr

Source

http://arxiv.org/abs/2603.11327v2