收藏!小白程序员必看:Agent框架如何让AI Agent真正“活”起来?

张开发
2026/4/13 12:13:55 15 分钟阅读

分享文章

收藏!小白程序员必看:Agent框架如何让AI Agent真正“活”起来?
本文深入剖析了Anthropic、OpenAI等实际构建的Agent框架涵盖编排循环、工具、记忆、上下文管理等关键组件揭示框架如何将无状态的LLM转变为有能力的Agent。文章指出生产级Agent框架的优劣直接影响AI Agent的性能并通过12个组件详细解析了框架的运作机制强调了框架设计的重要性以及随着模型改进框架应向更薄的方向演进的趋势。Agent 框架解剖到底是什么让 AI Agent 真正能用深入剖析 Anthropic、OpenAI、Perplexity 和 LangChain 实际上在构建什么。涵盖编排循环、工具、记忆、上下文管理以及所有将一个无状态的 LLM 变成有能力的 Agent 的关键组件。你搭了一个聊天机器人。也许还接了一个 ReAct 循环挂了几个工具。Demo 挺好使的。然后你试着把它做到生产级别——结果翻车了模型忘了三步前做了什么工具调用静默失败上下文窗口塞满了垃圾。问题不在你的模型。而在模型周围的一切。LangChain 证明了这一点——他们只改了包裹 LLM 的基础设施同样的模型、同样的权重就在 TerminalBench 2.0 上从前 30 名之外跳到了第 5 名。另一个研究项目让 LLM 自己优化基础设施达到了 76.4% 的通过率超越了人工设计的系统。这套基础设施现在有了一个名字Agent HarnessAgent 框架。Agent Harness 是什么这个词在 2026 年初被正式定义但概念早就存在了。框架是包裹 LLM 的完整软件基础设施编排循环、工具、记忆、上下文管理、状态持久化、错误处理和安全护栏。Anthropic 的 Claude Code 文档说得很直白SDK 就是驱动 Claude Code 的 Agent 框架。OpenAI 的 Codex 团队用了同样的说法明确把Agent和框架画上等号指的都是让 LLM 真正有用的非模型基础设施。我很喜欢 LangChain 的 Vivek Trivedy 说的一句经典公式如果你不是模型那你就是框架。这里有个容易搞混的地方。“Agent是涌现出来的行为目标导向的、会使用工具的、能自我纠错的、用户与之交互的那个实体。而框架是产生这种行为的机器。当有人说我搭了一个 Agent”他的意思是搭了一个框架然后把它指向了一个模型。Beren Millidge 在他 2023 年的文章《Scaffolded LLMs as Natural Language Computers》中把这个类比说得很精确一个原始的 LLM 就像一块没有内存、没有硬盘、没有 I/O 的 CPU。上下文窗口充当内存快但有限外部数据库充当硬盘大但慢工具集成充当设备驱动而框架就是操作系统。正如 Millidge 所写我们重新发明了冯·诺依曼架构——因为这是任何计算系统的自然抽象。三个工程层级模型周围有三个同心圆式的工程层级提示词工程crafting 模型接收到的指令上下文工程管理模型能看到什么、什么时候看到框架工程涵盖前两者再加上整个应用基础设施工具编排、状态持久化、错误恢复、验证循环、安全执行和生命周期管理框架不是提示词的一层包装。它是让自主 Agent 行为成为可能的完整系统。生产级框架的 12 个组件综合 Anthropic、OpenAI、LangChain 和更广泛的实践社区的经验一个生产级 Agent 框架有 12 个不同的组件。让我们逐一拆解。1. 编排循环Orchestration Loop这是心脏。它实现了思考-行动-观察Thought-Action-ObservationTAO循环也叫 ReAct 循环。循环的流程是组装提示 → 调用 LLM → 解析输出 → 执行工具调用 → 把结果喂回去 → 重复直到完成。从机制上讲它通常就是一个 while 循环。复杂度不在于循环本身而在于循环所管理的一切。Anthropic 把他们的运行时描述为一个笨循环——所有智能都在模型里框架只管轮次管理。2. 工具Tools工具是 Agent 的手。它们被定义为 schema名称、描述、参数类型注入到 LLM 的上下文中让模型知道有哪些工具可用。工具层负责注册、schema 校验、参数提取、沙箱执行、结果捕获以及把结果格式化为 LLM 可读的观察结果。Claude Code 提供了六大类工具文件操作、搜索、执行、网络访问、代码智能和子 Agent 生成。OpenAI 的 Agents SDK 支持函数工具通过 function_tool、托管工具WebSearch、CodeInterpreter、FileSearch和 MCP 服务器工具。3. 记忆Memory记忆在多个时间尺度上运作。短期记忆是单个会话内的对话历史。长期记忆跨会话持久化Anthropic 使用 CLAUDE.md 项目文件和自动生成的 MEMORY.md 文件LangGraph 使用按命名空间组织的 JSON StoreOpenAI 支持 Session底层可以是 SQLite 或 Redis。Claude Code 实现了一个三级层次结构轻量索引每条约 150 字符始终加载、按需拉取的详细主题文件、仅通过搜索访问的原始记录。一个关键的设计原则Agent 把自己的记忆当作提示hint在行动前会对照实际状态进行验证。4. 上下文管理Context Management这是很多 Agent 静默失败的地方。核心问题是上下文腐烂当关键内容落在上下文窗口的中间位置时模型性能会下降 30% 以上Chroma 研究Stanford 的 Lost in the Middle 发现也佐证了这一点。即使是百万 token 的窗口随着上下文增长指令遵循能力也会退化。生产环境的策略包括压缩Compaction在接近上限时摘要对话历史Claude Code 保留架构决策和未解决的 bug丢弃冗余的工具输出观察结果遮蔽Observation maskingJetBrains 的 Junie 隐藏旧的工具输出但保留工具调用记录即时检索Just-in-time retrieval维护轻量标识符按需加载数据Claude Code 用 grep、glob、head、tail 而不是加载完整文件子 Agent 委托每个子 Agent 广泛探索但只返回 1000-2000 token 的浓缩摘要Anthropic 的上下文工程指南这样陈述目标找到尽可能最小的高信号 token 集合以最大化获得预期结果的概率。5. 提示词构建Prompt Construction这是组装模型在每一步实际看到的内容。它是分层的系统提示、工具定义、记忆文件、对话历史和当前用户消息。OpenAI 的 Codex 使用严格的优先级栈服务端控制的系统消息最高优先级、工具定义、开发者指令、用户指令级联的 AGENTS.md 文件32 KiB 限制然后是对话历史。6. 输出解析Output Parsing现代框架依赖原生工具调用——模型返回结构化的 tool_calls 对象而不是需要解析的自由文本。框架的逻辑是有工具调用执行并循环。没有工具调用那就是最终答案。对于结构化输出OpenAI 和 LangChain 都支持通过 Pydantic 模型进行 schema 约束的响应。像 RetryWithErrorOutputParser 这样的遗留方案把原始提示、失败的补全和解析错误一起喂回给模型仍然可用于边缘情况。7. 状态管理State ManagementLangGraph 把状态建模为在图节点间流动的类型化字典通过 reducer 合并更新。检查点在超步边界进行支持中断后恢复和时间旅行调试。OpenAI 提供四种互斥的策略应用内存、SDK Session、服务端 Conversations API或轻量的 previous_response_id 链式传递。Claude Code 用了一种不同的方法git commit 作为检查点进度文件作为结构化的草稿本。8. 错误处理Error Handling为什么这很重要一个 10 步的过程每步 99% 的成功率整体成功率只有约 90.4%。错误会快速累积。LangGraph 区分四种错误类型瞬时错误退避重试、LLM 可恢复错误把错误作为 ToolMessage 返回让模型自行调整、用户可修复错误中断等待人工输入和意外错误上抛用于调试。Anthropic 在工具处理器内捕获失败作为错误结果返回以保持循环运行。Stripe 的生产框架把重试次数上限设为两次。9. 安全护栏Guardrails and SafetyOpenAI 的 SDK 实现了三个层级输入护栏在第一个 Agent 上运行、输出护栏在最终输出上运行和工具护栏在每次工具调用上运行。还有一个绊线tripwire机制触发时立即停止 Agent。Anthropic 在架构上把权限执行和模型推理分离开来。模型决定尝试做什么工具系统决定什么被允许。Claude Code 对大约 40 个独立的工具能力进行独立门控分三个阶段项目加载时建立信任、每次工具调用前检查权限、高风险操作需要用户明确确认。10. 验证循环Verification Loops这是玩具 Demo 和生产 Agent 的分水岭。Anthropic 推荐三种方式基于规则的反馈测试、linter、类型检查器、视觉反馈通过 Playwright 截图用于 UI 任务和 LLM 作为评判者一个独立的子 Agent 评估输出。Claude Code 的创建者 Boris Cherny 指出给模型一种验证自己工作的方式可以将质量提升 2-3 倍。11. 子 Agent 编排Subagent OrchestrationClaude Code 支持三种执行模型Fork父上下文的字节级完全拷贝、Teammate独立的终端面板通过基于文件的邮箱通信和 Worktree自己的 git worktree每个 Agent 一个隔离分支。OpenAI 的 SDK 支持 Agent-as-tool专家处理有界的子任务和 Handoff专家接管完全控制。LangGraph 把子 Agent 实现为嵌套的状态图。循环实战一步步走通整个流程现在你了解了所有组件让我们追踪它们如何在一次循环中协同工作。第 1 步提示词组装框架构建完整输入系统提示 工具 schema 记忆文件 对话历史 当前用户消息。重要上下文被放在提示词的开头和结尾Lost in the Middle 发现。第 2 步LLM 推理组装好的提示词发送到模型 API。模型生成输出 token文本、工具调用请求或两者都有。第 3 步输出分类如果模型产生了没有工具调用的文本循环结束。如果请求了工具调用进入执行。如果请求了移交handoff更新当前 Agent 并重新开始。第 4 步工具执行对于每个工具调用框架验证参数、检查权限、在沙箱环境中执行并捕获结果。只读操作可以并发执行修改操作串行执行。第 5 步结果打包工具结果被格式化为 LLM 可读的消息。错误被捕获并作为错误结果返回让模型可以自我纠正。第 6 步上下文更新结果追加到对话历史。如果接近上下文窗口限制框架触发压缩。第 7 步循环回到第 1 步。重复直到终止。终止条件是分层的模型产生了没有工具调用的响应、超过最大轮次限制、token 预算耗尽、安全护栏绊线触发、用户中断或返回安全拒绝。一个简单问题可能只需要 1-2 轮。一个复杂的重构任务可能跨越许多轮次链接几十个工具调用。对于跨越多个上下文窗口的长期任务Anthropic 开发了一种两阶段的 Ralph 循环模式初始化 Agent 先搭建环境初始化脚本、进度文件、功能列表、初始 git commit然后每次后续会话中的编码 Agent 读取 git 日志和进度文件来定位自己挑选最高优先级的未完成功能开展工作提交并写摘要。文件系统提供了跨上下文窗口的连续性。各家框架的实现方式Anthropic 的 Claude Agent SDK通过一个 query() 函数暴露框架创建 Agent 循环并返回流式消息的异步迭代器。运行时是一个笨循环。所有智能都在模型里。Claude Code 使用 Gather-Act-Verify 循环收集上下文搜索文件、读代码→ 采取行动编辑文件、运行命令→ 验证结果运行测试、检查输出→ 重复。OpenAI 的 Agents SDK通过 Runner 类实现框架提供三种模式async、sync 和 streamed。SDK 是代码优先的工作流逻辑用原生 Python 表达而不是图 DSL。Codex 框架在此基础上扩展出三层架构Codex CoreAgent 代码 运行时、App Server双向 JSON-RPC API和客户端界面CLI、VS Code、Web 应用。所有界面共享同一个框架——这就是为什么 Codex 模型在 Codex 界面上比在通用聊天窗口里感觉更好用。LangGraph把框架建模为显式的状态图。两个节点llm_call 和 tool_node通过条件边连接如果有工具调用路由到 tool_node如果没有路由到 END。LangGraph 从 LangChain 的 AgentExecutor 演化而来——后者在 v0.2 中被废弃因为它难以扩展且缺乏多 Agent 支持。LangChain 的 Deep Agents 明确使用了 Agent 框架这个术语内置工具、规划write_todos 工具、用于上下文管理的文件系统、子 Agent 生成和持久记忆。CrewAI实现了基于角色的多 Agent 架构AgentLLM 周围的框架由角色、目标、背景故事和工具定义、Task工作单元和 CrewAgent 的集合。CrewAI 的 Flows 层添加了一个在关键位置注入智能的确定性骨架管理路由和验证而 Crew 处理自主协作。AutoGen正在演变为 Microsoft Agent Framework首创了对话驱动的编排。它的三层架构Core、AgentChat、Extensions支持五种编排模式顺序、并发扇出/扇入、群聊、移交和磁力模式一个管理 Agent 维护动态任务账本协调专家。脚手架隐喻脚手架隐喻不是装饰性的。它是精确的。建筑脚手架是让工人能够建造他们够不着的结构的临时基础设施。脚手架本身不参与建造。但没有它工人上不了高层。关键洞察建筑完工后脚手架会被拆除。随着模型的改进框架的复杂度应该降低。Manus 在六个月内重写了五次每次重写都在删减复杂度。复杂的工具定义变成了通用的 shell 执行。管理 Agent 变成了简单的结构化移交。这指向了协同进化原则模型现在是在特定框架的参与下进行后训练的。Claude Code 的模型学会了使用它训练时使用的特定框架。更改工具实现可能会降低性能——因为这种紧密耦合。框架设计的未来验证测试如果性能随着更强的模型而提升而不需要增加框架复杂度那么这个设计就是合理的。定义每个框架的七个决定每个框架架构师都要面对七个选择单 Agent vs 多 Agent。Anthropic 和 OpenAI 都说先最大化单个 Agent。多 Agent 系统会增加开销路由需要额外的 LLM 调用移交时会丢失上下文。只有当工具过载超过约 10 个重叠工具或者存在明显不同的任务领域时才考虑拆分。ReAct vs 规划-执行。ReAct 在每一步交替进行推理和行动灵活但每步成本更高。规划-执行把规划和执行分开。LLMCompiler 报告了比顺序 ReAct 快 3.6 倍的速度。上下文窗口管理策略。五种生产方案基于时间的清理、对话摘要、观察结果遮蔽、结构化笔记和子 Agent 委托。ACON 研究表明通过优先保留推理轨迹而非原始工具输出实现了 26%-54% 的 token 减少同时保持 95% 以上的准确率。验证循环设计。计算验证测试、linter提供确定性的真值基准。推理验证LLM 作为评判者能捕获语义问题但会增加延迟。Martin Fowler 的 Thoughtworks 团队把这框架化为引导器前馈在行动前引导vs 传感器反馈在行动后观察。权限和安全架构。宽松模式快但有风险自动批准大部分操作vs 严格模式安全但慢每个操作都需要批准。选择取决于部署场景。工具范围策略。更多工具往往意味着更差的性能。Vercel 从 v0 中移除了 80% 的工具结果反而更好。Claude Code 通过懒加载实现了 95% 的上下文减少。原则是暴露当前步骤所需的最小工具集。框架厚度。多少逻辑放在框架里多少留给模型。Anthropic 赌薄框架和模型改进。基于图的框架赌显式控制。Anthropic 会随着新模型版本内化了某些能力定期从 Claude Code 的框架中删除对应的规划步骤。框架即产品两个使用相同模型的产品仅仅因为框架设计不同性能可能天差地别。TerminalBench 的证据很明确只改框架排名就提升了 20 多个位次。框架不是一个已解决的问题也不是一个商品化层。它是硬核工程所在的地方把上下文作为稀缺资源来管理、设计在错误累积之前就能捕获的验证循环、构建提供连续性而不产生幻觉的记忆系统以及在搭多少脚手架和留给模型多少之间做架构决策。随着模型的改进这个领域正在向更薄的框架方向演进。但框架本身不会消失。即使是最强大的模型也需要有东西来管理它的上下文窗口、执行它的工具调用、持久化它的状态、验证它的工作。下次你的 Agent 翻车了别怪模型。看看框架。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

更多文章