Agent 强化学习进阶教程(非常详细),智能体迭代进化从入门到精通,收藏这一篇就够了!

张开发
2026/4/13 10:51:04 15 分钟阅读

分享文章

Agent 强化学习进阶教程(非常详细),智能体迭代进化从入门到精通,收藏这一篇就够了!
一句话总结这篇论文提出MR-Search把 agentic search 从“每次独立重来的一次性轨迹优化”改成“跨 episode 累积经验、不断自我反思并修正搜索策略”的 meta-RL 过程再配合 turn-level 的 RLOO advantage 做细粒度 credit assignment使搜索 agent 在多轮反思下显著优于单轮 outcome-reward 基线。它要解决什么问题搜索型 agent 的 RL 训练主流方法大多有两个老毛病奖励太稀疏只在最终答案处给 outcome rewardepisode 彼此独立一次采样答错下一次几乎相当于重新开始。这会带来两个直接后果模型很难知道是哪一步 search/query/reflection 出了问题即便 test-time 多采样多条轨迹也常常只是“重复犯同样的错”。论文的核心判断是对 agentic search 来说真正限制模型的往往不是单条轨迹的推理容量而是它不会利用过去失败 episode 中已经暴露出来的信息去改进下一轮探索。所以 MR-Search 把“跨轮自我反思”变成训练目标本身。核心直觉不是多采样而是让后续 episode 吃到前面 episode 的经验传统 RL 搜索 agent 更像这样问题来一次走一条完整 ReAct 轨迹得到最终答案这条 episode 结束。MR-Search 则改成第 1 个 episode 先搜一轮把轨迹与答案作为上下文喂给模型模型生成显式 self-reflection第 2 个 episode 在前面经验的基础上继续搜重复N次形成一个 meta-episode。RL 搜索 vs Meta-RL 搜索图 1普通 RL 把 episode 看成彼此独立的样本MR-Search 则让 episode 串成一个序列。前面试错不再白费而是转化成后面 episode 的上下文资产。这个视角非常像人类做 research第一次检索未必答对但能知道哪些方向不靠谱、哪些实体值得追、哪段证据需要二次确认。方法总览一次问题多个 episode逐轮反思修正MR-Search 的流程可以概括成给定问题模型先完成第 1 条完整 search trajectory系统触发 reflection prompt总结当前答案的问题并建议下一轮搜索方向把历史 episode 与 reflection 一并追加进上下文模型继续生成下一条 episode对每一条 episode 的答案分别打分再把这些 reward 反向传播到前面的决策。MR-Search 总体框架图 2MR-Search 的关键不是“再采样几条轨迹”而是让每一轮新轨迹都建立在先前 episode 和显式 reflection 之上从而形成真正的跨回合探索—利用闭环。这套设计把 test-time behavior 和 train-time objective 对齐了训练时就让模型学会多轮修正推理时自然就能随着反思轮数增加持续涨点。形式化meta-episode 目标而不是单轨迹目标论文把单次搜索轨迹写成 episodea_n多个 episode 组成 meta-episodemeta-level 目标是最大化跨轮累计回报这里o_n是第n个 episode 的答案\gamma是 discount factor默认\gamma 1也就是后续 episode 的收益完整回传给前面 episode。这点很重要如果前面某一轮虽然答错但帮后续轮搜到了关键证据它依然应该被“记功”。训练算法turn-level RLOO advantage 解决 credit assignmentMR-Search 在优化时没有走 value model而是用 grouped sampling RLOOLeave-One-Out做 advantage estimation。同一问题采样一组 meta-episodes 后第i条在第n个 episode 上的相对奖励写成再把未来 episode 的收益折回当前轮这相当于告诉模型当前 episode 好不好不只看这一轮是否答对还看它有没有为后续轮提供更好的上下文与搜索线索。我觉得这是论文最强的一点因为它把“反思为什么有用”真正落实成了 credit assignment 机制而不是只在 prompt 里喊一句“请再想想”。主结果8 个 benchmark 全面压过基线论文在 7 个 QA benchmark 1 个 ASearcher synthetic benchmark 上做评测覆盖Single-hopNQ, TriviaQA, PopQAMulti-hopHotpotQA, 2Wiki, Musique, Bamboogle长程搜索ASearcherQwen2.5-3BMR-Search 平均准确率达到41.4相比 Search-R1 的34.7提升明显。关键结果NQ47.7TriviaQA63.5PopQA46.0HotpotQA41.92Wiki40.1Musique16.5Bamboogle34.4相对 Search-R1平均相对提升达到19.3%。Qwen2.5-7BMR-Search 平均准确率达到46.0高于Search-R142.1StepResearch43.4PPRM39.3关键结果NQ50.2TriviaQA66.6PopQA47.2HotpotQA46.82Wiki43.6Musique22.1Bamboogle45.2相对 Search-R1平均相对提升9.2%。这很说明问题MR-Search 不只是超过 outcome-reward 基线还压过了一些依赖外部 process reward / 外部评委模型的方法。ASearcher长程多轮搜索场景下优势更明显ASearcher 这个 benchmark 更偏长程、多步、多轮工具交互。论文报告MR-Search EM0.413Search-R1 EM0.369第 3 项指标MR-Search0.565vs Search-R10.513ASearcher 表现与训练动态图 3在更长程的 ASearcher 上MR-Search 不仅最终指标更高而且训练曲线更稳定、search calls 明显更多说明它学到的是更积极、更持续的检索策略而不是早早收缩到短路径局部最优。图里最有意思的一点是 tool callsMR-Search 持续调用更多搜索步骤而 Search-R1 很快收缩到较低搜索频率。这和论文的核心主张完全一致——单轮 outcome reward 很容易把模型训成“保守收手”而不是“逐轮修正”。Test-time scaling多给反思轮数MR-Search 会持续涨论文专门研究了 test-time 多轮扩展。比较对象有三类MR-SearchSearch-R1-SSearch-R1 sequential reflection inferenceSearch-R1-PSearch-R1 parallel sampling结果是Search-R1 即便在推理阶段强行加 reflection收益很有限MR-Search 随着 reflection turns 增加性能曲线明显更陡、持续更好。测试时增加 reflection turns 的效果图 4MR-Search 真正具备“越反思越有收获”的 test-time scaling 特性因为它在训练阶段就被优化成了一个多轮修正策略而不是单轮策略外加推理期补丁。这是我最认可的论文结论之一不是所有带 reflection prompt 的方法都能 test-time scaling只有训练目标本身对齐了多轮修正额外轮数才真的有用。为什么它有效从“独立采样”变成“序列决策”MR-Search 的收益我理解主要来自三点1. 前面的错误不再白费传统 search agent 前一轮答错下一轮没有记忆MR-Search 则把错误变成了后续 episode 的 context。2. 反思变成显式中间变量很多方法把 reflection 当 prompt engineering。MR-Search 让 reflection 直接参与状态转移与训练回报因此模型被迫学会写“有帮助的反思”。3. credit assignment 更符合长程搜索结构有些中间步骤并不直接提高当前答案正确率但会提高后面轮次命中关键证据的概率。折扣累计 advantage 正好能覆盖这类延迟收益。关键消融去掉未来 credit propagation 会退化论文做了多个 ablationγ 0去掉未来 credit assignmentPPO换掉作者的 multi-turn objectiveMT-GRPO另一种多轮 RL 方式结果显示γ 0明显退化PPO / MT-GRPO 都不如 MR-Search 默认目标说明“把未来轮收益回传给当前轮”确实是有效核心而不是可有可无的小细节。这意味着 MR-Search 成功不只是因为“多了几个 episode”而是因为优化目标真的在奖励有长远价值的中间行为。扩展方向step-level meta-RL 和 exploration/exploitation 分工论文还做了几个很有意思的扩展Exploration/Exploitation把前两轮当探索、后两轮当利用Step-Level Meta-RL把每一步 tool interaction 当作更细的微 episodeShort Context只保留最近一个 episode减少上下文膨胀。结果表明这些变体整体都仍然优于 Search-R1在 ASearcher 这种更复杂任务上鼓励 exploration 的变体甚至能进一步提升到43.2。说明 MR-Search 不只是一个单一 recipe而更像是一个可继续扩展的 meta-RL 框架。超参数与实现细节训练配置也比较清楚基座Qwen2.5-3B-Base / 7B-Base优化器AdamW学习率1e-6rollouttop-p 1,temperature 1总训练步数300每次检索返回文档数3advantage group size5NQ/HotpotQA context8KASearcher context16K每 episode 最大 tool calls3NQ/HotpotQA/5ASearcher硬件8 × H100 80GB做 RL额外2 × H100 80GB服务 retriever这个配置说明 MR-Search 的主要创新还是在训练目标和状态设计而非额外堆复杂基础设施。和相关工作的关系可以把它和几类方法放在一起看Search-R1 / ReSearch以 outcome reward 为主episode 独立PPRM / StepResearch引入 process reward但通常依赖外部模型或额外标注MR-Search不靠外部 judge把 process supervision 内生化成跨 episode 反思与 turn-level return。它最有价值的地方在于把 process reward 问题从“额外训一个评审模型”转化成“让未来轮的结果来评价前面轮的价值”。这个想法很漂亮也更可扩展。我认为最值得记住的 5 点episode 独立是假设过强对搜索 agent 来说过去尝试本来就应该影响后续尝试self-reflection 只有进入训练目标才真正有用turn-level RLOO advantage是论文的 credit assignment 核心test-time scaling 依赖 train-time 对齐不是靠推理期补 prompt 就能补出来长程搜索任务越复杂MR-Search 的优势越明显。总结如果你在做 deep research agent、web search agent、多轮工具 RLMR-Search 非常值得读。它告诉我们搜索 agent 的提升不一定来自更强的 verifier也不一定来自更贵的 process reward model更可能来自把“反思—修正—再搜索”这个行为模式直接写进训练对象里。从这个意义上说MR-Search 代表的是一种更贴近真实研究行为的 agent RL 方向不是一次答对而是学会在连续尝试里越答越对。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章