【大模型应用开发】Agent 扫盲：一文看懂通用型智能体

张开发

• 2026/4/10 21:56:40 • 15 分钟阅读

分享文章

文章目录核心观点先读这一段就够了工作方式通用闭环五个核心模块1. 感知Perception理解找资料2. 规划Planning把目标变成步骤3. 执行Action真正“把事做了”4. 记忆Memory跨轮与跨会话的连续性5. 反馈/评估Evaluation从“能用”到“可运营”三种常见架构快速上手清单可直接落地关键指标运营视角常见陷阱与规避何时用 Agent何时不用这是一篇面向产品、工程与运营同学的 Agent 入门文。目标是用尽可能通俗的方式回答三个问题Agent 是什么、和“聊天机器人”有什么不同搭一个通用型 Agent 需要哪些模块、如何协同怎样以最低风险把它跑起来并可持续演进一句话公式Agent 感知理解任务与获取证据规划拆解步骤与决策执行工具/代码记忆上下文与长期反馈/评估可复现与可回归。核心观点先读这一段就够了Agent 不是“更聪明的聊天机器人”而是一套可闭环运行的任务系统能理解目标、查证据、做决策、调用外部能力并自我纠偏。Agent 的关键不在于“写得像”而在于“做得对”证据优先、工具可控、结果可验证。Agent 要从“能演示”走到“可运营”必须有反馈/评估闭环可观测、可复现、可回归才能在变更中稳定迭代。工作方式通用闭环一个通用型 Agent 往往按下面的闭环运行。注意它不是一次性输出而是“做一步、拿结果、再决定下一步”感知把自然语言意图变成“任务卡片”并检索需要的证据规划决定要不要调用工具、如何分步、失败怎么降级执行按 schema 调用工具或在沙箱里跑代码拿到确定性结果记忆保留关键上下文必要时写入长期偏好或状态反馈/评估自检与裁判评分记录依赖更新回归集与指标看板五个核心模块1. 感知Perception理解找资料任务理解提炼目标、约束、成功标准、输出格式形成“任务卡片”。把日期、权限、可用工具等依赖显式写明便于复现。检索增强RAG对企业文档/FAQ/数据库/网页做索引按需检索相关片段拼入上下文。关键在“检索质量模型臆想”。可信生成只在证据范围内回答、不确定就拒答答案与引用绑定便于审计。经验法则感知阶段越扎实后续幻觉与返工越少。2. 规划Planning把目标变成步骤分步推理CoT显式列出中间步骤减少跳步与漏条件。搜索式规划ToT为开放式问题生成多个候选、评分剪枝避免局部最优。状态机表达用 JSON/DSL 表示每步的输入/输出/失败分支/停止条件确保“计划可执行、可观测、可回滚”。经验法则计划不是一次写死的每步执行后都要基于结果更新。3. 执行Action真正“把事做了”工具调用给每个工具定义名称、参数 schema、返回结构与错误语义参数必须校验失败要有重试/降级/追问。代码执行在受限沙箱里运行模型生成的代码适合计算/转换/校验等确定性任务记录输入/代码/输出三件套。输出装配抽取结构化数据后由程序渲染成最终格式MD/HTML/JSON避免“模型直接排版”带来的不稳定。经验法则执行层是风险集中地务必做到权限最小化、可审计、可超时退出。4. 记忆Memory跨轮与跨会话的连续性短期记忆管理会话窗口把关键事实做摘要化减少上下文挤爆。长期记忆保存用户偏好与任务状态按需检索注入上下文注意权限、加密、生命周期与“可删除”。经验法则记忆写入要谨慎先评估再固化避免把错误“长期保存”。5. 反馈/评估Evaluation从“能用”到“可运营”自动化评测裁判模型评分标准标准谁来定评正确性/完整性/引用质量/格式/拒答策略并用于候选重排与离线对比。自我修正生成后按清单自检再改写设置最大轮数与停止条件平衡成本与质量。可复现记录日期/配置/证据/工具返回等依赖保证问题可重放与定位。退化测试维护回归集任何变更模型/提示/索引/工具都要过门槛把延迟与成本纳入质量标准。经验法则没有评估闭环的 Agent很难稳定上线更难长期迭代。三种常见架构把“五个模块”装配成系统时通常会落在三种架构形态。它们的差别不在于能力强弱而在于复杂度、成本与可控性单体闭环感知→规划→执行→评估适合简单流程与 MVP。Planner–Executor由 Planner 负责分解与决策Executor 专注工具/代码与汇总清晰可控。多 Agent 协作Planner/Researcher/Writer/Reviewer/Executor 分工适合长流程需防“回音室效应”和成本爆炸。这里的“回音室效应”指的是多个 Agent 看似在互相复核但实际上都在重复同一套假设或错误结论彼此引用对方的话当证据导致错误被放大而不是被纠正。常见表现是 Reviewer 只做语言润色不做事实核验或者 Researcher 在检索不到证据时仍然给出“看起来合理”的材料。规避方式是强制引入外部证据与确定性校验要求关键结论必须绑定引用/数据来源必要时用工具计算、规则校验或独立裁判模型做判定。快速上手清单可直接落地如果你是第一次做 Agent不必追求一步到位。更稳妥的方式是从“最小可用闭环”开始把核心链路跑通后再逐步加能力提示与输入定义“任务卡片”JSON Schema系统提示明确边界与拒答条件检索先做小规模索引高命中数据RAG 模板 Top-K 控制在窗口内规划CoT 模板简易状态机含失败分支与停止条件执行1–2 个高价值工具schema 严格、参数校验、超时重试降级代码执行沙箱化记忆只做短期摘要长期记忆先观望等明确收益再引入评估5–10 条离线回归样本 LLM 裁判关键指标正确率、引用质量、拒答率、延迟、成本关键指标运营视角Agent 一旦进入真实用户流量就需要同时看质量、效率、成本与安全稳定性避免“看起来不错但不可运营”质量正确率、引用覆盖率/一致性、用户满意度、拒答得当率效率平均延迟、P95 延迟、步骤数、工具调用次数成本每请求 token、工具成本、检索成本稳定性与安全错误率、超时率、越权拦截率、可复现率常见陷阱与规避幻觉缺少证据与引用绑定 → 加强检索质量与可信生成不可复现隐式依赖太多 → 全量记录依赖与证据包格式不稳自由文本输出 → 语法/Schema 约束程序拼装工具不稳无校验无降级 → 参数校验超时/重试/追问成本飙升一味上大模型、多轮循环 → 小模型分层停止条件何时用 Agent何时不用适合需要多步决策、查多源资料、调用外部系统、持续优化的任务不适合规则明确、流程固定、确定性强的任务直接写程序更稳更便宜

【大模型应用开发】Agent 扫盲：一文看懂通用型智能体

最新文章

BehdadFont终极指南：免费获取完美波斯语字体的完整教程

如何修改 Git 账号，以便拉取和上传别人权限下的项目

在超大数据集下 DuckDB 与 MySQL 查询速度对比嵌

ChatterUI：突破移动端AI聊天限制，重构本地与云端智能对话体验

# 发散创新：基于Python实现轻量级物理引擎的核心算法与实战优化在游戏开发、虚拟仿真和机

分层强化学习（HRL）在游戏AI中的应用：以《星际争霸》为例

推荐文章

CSS Scroll Snap：打造丝滑滚动体验

【2026年最新600套毕设项目分享】springboot高校学习讲座预约系统（14328）

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32异步Web服务器：零拷贝HTTP/WS工业网关实战

Linux命令-nc（用于设置路由器，是网络工具中的瑞士军刀）

【电池损耗+需求响应】考虑电池储能寿命与需求响应模型的发电计划优化程序Matlab代码

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

为什么说AnyBURL是知识图谱界的‘轻量级拳王‘？5个性能对比实验告诉你答案

如何彻底告别网盘限速：八大平台直链下载助手终极指南

MySQL锁机制：从全局锁到行级锁的深度解读亿

【SRE级可靠性保障】：如何让AI生成的架构决策文档通过ISO 27001审计？——附自动化合规性检查清单v3.2

如何快速掌握JPEXS Free Flash Decompiler：面向初学者的完整教程

RePKG：解锁Wallpaper Engine资源的终极指南，5分钟掌握PKG提取与TEX转换

轻松打造个性化动态桌面：视频壁纸设置全攻略

查看Ubuntu的版本

RK3568项目实战：为智能家居网关添加RTL8723蓝牙功能（驱动适配与集成记录）

Omni-Vision Sanctuary：人工智能（AI）项目从原型到部署的完整路径

实战指南：如何用XCVU13P-2FHGB2104I FPGA搭建高性能AI推理加速平台（含Vivado配置技巧）

MIP算法在医学影像处理中的实战应用指南