【大模型应用开发】Agent 扫盲:一文看懂通用型智能体

张开发
2026/4/10 21:56:40 15 分钟阅读

分享文章

【大模型应用开发】Agent 扫盲:一文看懂通用型智能体
文章目录核心观点先读这一段就够了工作方式通用闭环五个核心模块1. 感知Perception理解 找资料2. 规划Planning把目标变成步骤3. 执行Action真正“把事做了”4. 记忆Memory跨轮与跨会话的连续性5. 反馈/评估Evaluation从“能用”到“可运营”三种常见架构快速上手清单可直接落地关键指标运营视角常见陷阱与规避何时用 Agent何时不用这是一篇面向产品、工程与运营同学的 Agent 入门文。目标是用尽可能通俗的方式回答三个问题Agent 是什么、和“聊天机器人”有什么不同搭一个通用型 Agent 需要哪些模块、如何协同怎样以最低风险把它跑起来并可持续演进一句话公式Agent 感知理解任务与获取证据 规划拆解步骤与决策 执行工具/代码 记忆上下文与长期 反馈/评估可复现与可回归。核心观点先读这一段就够了Agent 不是“更聪明的聊天机器人”而是一套可闭环运行的任务系统能理解目标、查证据、做决策、调用外部能力并自我纠偏。Agent 的关键不在于“写得像”而在于“做得对”证据优先、工具可控、结果可验证。Agent 要从“能演示”走到“可运营”必须有反馈/评估闭环可观测、可复现、可回归才能在变更中稳定迭代。工作方式通用闭环一个通用型 Agent 往往按下面的闭环运行。注意它不是一次性输出而是“做一步、拿结果、再决定下一步”感知把自然语言意图变成“任务卡片”并检索需要的证据规划决定要不要调用工具、如何分步、失败怎么降级执行按 schema 调用工具或在沙箱里跑代码拿到确定性结果记忆保留关键上下文必要时写入长期偏好或状态反馈/评估自检与裁判评分记录依赖更新回归集与指标看板五个核心模块1. 感知Perception理解 找资料任务理解提炼目标、约束、成功标准、输出格式形成“任务卡片”。把日期、权限、可用工具等依赖显式写明便于复现。检索增强RAG对企业文档/FAQ/数据库/网页做索引按需检索相关片段拼入上下文。关键在“检索质量模型臆想”。可信生成只在证据范围内回答、不确定就拒答答案与引用绑定便于审计。经验法则感知阶段越扎实后续幻觉与返工越少。2. 规划Planning把目标变成步骤分步推理CoT显式列出中间步骤减少跳步与漏条件。搜索式规划ToT为开放式问题生成多个候选、评分剪枝避免局部最优。状态机表达用 JSON/DSL 表示每步的输入/输出/失败分支/停止条件确保“计划可执行、可观测、可回滚”。经验法则计划不是一次写死的每步执行后都要基于结果更新。3. 执行Action真正“把事做了”工具调用给每个工具定义名称、参数 schema、返回结构与错误语义参数必须校验失败要有重试/降级/追问。代码执行在受限沙箱里运行模型生成的代码适合计算/转换/校验等确定性任务记录输入/代码/输出三件套。输出装配抽取结构化数据后由程序渲染成最终格式MD/HTML/JSON避免“模型直接排版”带来的不稳定。经验法则执行层是风险集中地务必做到权限最小化、可审计、可超时退出。4. 记忆Memory跨轮与跨会话的连续性短期记忆管理会话窗口把关键事实做摘要化减少上下文挤爆。长期记忆保存用户偏好与任务状态按需检索注入上下文注意权限、加密、生命周期与“可删除”。经验法则记忆写入要谨慎先评估再固化避免把错误“长期保存”。5. 反馈/评估Evaluation从“能用”到“可运营”自动化评测裁判模型 评分标准标准谁来定评正确性/完整性/引用质量/格式/拒答策略并用于候选重排与离线对比。自我修正生成后按清单自检再改写设置最大轮数与停止条件平衡成本与质量。可复现记录日期/配置/证据/工具返回等依赖保证问题可重放与定位。退化测试维护回归集任何变更模型/提示/索引/工具都要过门槛把延迟与成本纳入质量标准。经验法则没有评估闭环的 Agent很难稳定上线更难长期迭代。三种常见架构把“五个模块”装配成系统时通常会落在三种架构形态。它们的差别不在于能力强弱而在于复杂度、成本与可控性单体闭环感知→规划→执行→评估适合简单流程与 MVP。Planner–Executor由 Planner 负责分解与决策Executor 专注工具/代码与汇总清晰可控。多 Agent 协作Planner/Researcher/Writer/Reviewer/Executor 分工适合长流程需防“回音室效应”和成本爆炸。这里的“回音室效应”指的是多个 Agent 看似在互相复核但实际上都在重复同一套假设或错误结论彼此引用对方的话当证据导致错误被放大而不是被纠正。常见表现是 Reviewer 只做语言润色不做事实核验或者 Researcher 在检索不到证据时仍然给出“看起来合理”的材料。规避方式是强制引入外部证据与确定性校验要求关键结论必须绑定引用/数据来源必要时用工具计算、规则校验或独立裁判模型做判定。快速上手清单可直接落地如果你是第一次做 Agent不必追求一步到位。更稳妥的方式是从“最小可用闭环”开始把核心链路跑通后再逐步加能力提示与输入定义“任务卡片”JSON Schema系统提示明确边界与拒答条件检索先做小规模索引高命中数据RAG 模板 Top-K 控制在窗口内规划CoT 模板 简易状态机含失败分支与停止条件执行1–2 个高价值工具schema 严格、参数校验、超时重试降级代码执行沙箱化记忆只做短期摘要长期记忆先观望等明确收益再引入评估5–10 条离线回归样本 LLM 裁判 关键指标正确率、引用质量、拒答率、延迟、成本关键指标运营视角Agent 一旦进入真实用户流量就需要同时看质量、效率、成本与安全稳定性避免“看起来不错但不可运营”质量正确率、引用覆盖率/一致性、用户满意度、拒答得当率效率平均延迟、P95 延迟、步骤数、工具调用次数成本每请求 token、工具成本、检索成本稳定性与安全错误率、超时率、越权拦截率、可复现率常见陷阱与规避幻觉缺少证据与引用绑定 → 加强检索质量与可信生成不可复现隐式依赖太多 → 全量记录依赖与证据包格式不稳自由文本输出 → 语法/Schema 约束 程序拼装工具不稳无校验无降级 → 参数校验 超时/重试/追问成本飙升一味上大模型、多轮循环 → 小模型分层 停止条件何时用 Agent何时不用适合需要多步决策、查多源资料、调用外部系统、持续优化的任务不适合规则明确、流程固定、确定性强的任务直接写程序更稳更便宜

更多文章