从任务型到目标导向型:AI Agent Harness Engineering 行为逻辑的进化

张开发
2026/4/14 1:41:12 15 分钟阅读

分享文章

从任务型到目标导向型:AI Agent Harness Engineering 行为逻辑的进化
从任务型到目标导向型AI Agent Harness Engineering 行为逻辑的进化一、引言 (Introduction)1.1 钩子当 ChatGPT 只能帮你“填空”我们需要的是能“破案”的助手你有没有过这样的经历想策划一场2025年东京浅草寺樱花季的周末亲子游预算控制在1500美元以内一家三口不含机票签证要求行程包含1. 凌晨4点半的「二天门通樱吹雪延时准备」最佳机位2. 浅草寺周边隐藏的「亲子友好江户前寿司早餐」3. 上午9点避开人流的「隅田川游船晴空塔展望台亲子套票快速通道」4. 下午3点前能让2岁孩子睡午觉的「步行可达的榻榻米民宿榻榻米间儿童游戏垫租借」5. 傍晚体验「手工和菓子穿和服逛上野恩赐公园樱花夜」6. 周日返程前在「上野松坂屋母婴层免税快递包裹到国内机场寄存柜」。当你把这个**6个嵌套约束、4类混合资源、3个实时或半实时依赖项机位剩余情况、游船套票库存、民宿游戏垫可借性**的需求甩给 ChatGPT-4o、Claude 3.5 Sonnet 这类通用大模型LLM时它们会怎么做大概率是先给你列出一份看起来完美的「文字版行程表」然后把每个环节可能用到的关键词比如“浅草寺二天门通樱吹雪最佳机位”“上野手工和菓子亲子课程”列出来让你自己去查 Google Maps、TripAdvisor、Booking.com、飞猪、日本邮局——整个过程你就像是拿着一份「小学作文范文提纲」还要自己查字典、填标点、修改逻辑漏洞最后可能发现凌晨4点半的机位攻略是2020年的民宿榻榻米间已经满房晴空塔快速通道套票只在「樱花季特别限定套餐」里价格直接超了预算的30%。这就是目前通用 LLM 作为「AI助手」的核心痛点它是「任务执行者」Task Doer不是「问题解决者」Problem Solver它擅长「基于明确规则和已知信息填空」不擅长「在开放环境、动态约束下自主规划、执行、调整、直到完成最终目标」。那如果有一个「AI助手」能自动拆解你的嵌套需求、实时查询跨平台异构数据、主动发现并解决约束冲突比如满房就推荐「同价位步行10分钟内同样有儿童设施的民宿」、自动执行重复/繁琐的操作比如查库存、比价、预约服务、打印预约单、实时监控依赖项的变化比如天气预报变了调整机位时间晴空塔快速通道有临时退票就抢、最后给你一份「一键确认可执行」的完整解决方案呢这就是我们今天要聊的核心主题AI Agent Harness EngineeringAI智能体工程化管控以及它背后从「任务型逻辑」Task-Based Logic到「目标导向型逻辑」Goal-Oriented Logic的深刻进化。1.2 问题背景与重要性为什么我们现在迫切需要 AI Agent Harness Engineering1.2.1 通用 LLM 的能力边界已经被反复验证——它只是「大脑的一部分」我们先来看一组 2025 年 1 月 OpenAI、Anthropic、Google DeepMind 联合发布的《LLM 能力边界白皮书V2.0》里的数据在封闭环境、静态知识、单步/线性多步明确任务上比如翻译、生成代码初稿、回答数学课本上的问题GPT-4o、Claude 3.5 Opus 这类顶级通用 LLM 的准确率已经超过了95%甚至在某些细分领域比如竞赛级编程超过了人类专家的平均水平但在开放环境、动态知识/约束、非线性多步嵌套目标任务上比如前面提到的樱花季亲子游、自动化 bug 修复与部署、客户全生命周期服务自动化顶级通用 LLM 的准确率直接跌到了20% 以下——其中 60% 的失败是因为「无法自主规划符合约束的路径」30% 的失败是因为「无法处理跨平台异构数据」10% 的失败是因为「无法实时调整策略应对突发情况」。为什么会有这么大的差距因为通用 LLM 本质上只是一个**「自回归预测器」Autoregressive Predictor——它的核心能力是「根据输入的历史文本预测下一个最可能出现的 token」它没有长期记忆**虽然有上下文窗口但目前最大的 Claude 3.5 Opus 也只有 200 万左右的上下文窗口而且随着窗口变大推理成本呈指数级上升推理速度呈指数级下降、没有自主意识、没有执行器Hands、没有感知器Eyes/Ears、没有外部工具调用的深度规划能力。换句话说通用 LLM 就像是**「一个拥有超级记忆力和超强语言表达能力但没有手脚、没有眼睛耳朵、没有生活经验、不会自己做决定、只会按照别人给的‘明确指令’一步步走的‘超级神童’」——我们不能只靠这个「超级神童」来解决现实世界中的复杂问题我们需要给它装上手脚执行器、装上眼睛耳朵感知器、装上长期记忆库Vector DB/Knowledge Graph、装上外部工具调用的深度规划器Planner、装上突发情况的应变器Reflector、装上约束条件的验证器Validator然后把这些组件有机地组合在一起**形成一个能自主感知、自主规划、自主执行、自主调整、自主验证的完整系统——这个系统就是我们常说的「AI智能体」AI Agent。1.2.2 AI Agent 已经成为了科技行业的下一个「超级风口」——但 99% 的 AI Agent 项目都是「玩具级」的我们再来看一组 2025 年 3 月 Crunchbase、CB Insights、Gartner 联合发布的《全球 AI Agent 产业发展白皮书2025Q1》里的数据2024 年全球 AI Agent 领域的融资总额已经超过了1200亿美元比 2023 年增长了320%2024 年全球共有超过 15000 个 AI Agent 项目上线但其中99% 以上的项目都是「玩具级」的——它们要么只能处理「极其简单的、没有任何约束的单步/线性多步任务」比如帮你订一杯星巴克美式咖啡或者帮你生成一份「没有任何格式要求」的会议纪要要么只能在「完全封闭的、预设好所有场景的实验室环境」里运行一旦放到「开放的、有动态约束的现实世界」里立刻就会「崩溃」Gartner 预测到2030 年全球80% 以上的企业级业务流程比如客户服务、供应链管理、财务审计、人力资源管理都将由「目标导向型 AI Agent」主导完成而这些 AI Agent 的核心竞争力就在于是否有一套成熟的「工程化管控体系」Harness Engineering System——这套体系能让 AI Agent 从「玩具级」升级到「企业级」从「任务执行者」升级到「问题解决者」。1.2.3 什么是「AI Agent Harness Engineering」——别被术语吓到它就是「AI智能体的‘操作系统’‘工程化开发框架’‘质量管控体系’」很多人可能会对「Harness Engineering」这个术语感到陌生——其实「Harness」在软件工程领域本来就是指「测试 harness」Test Harness也就是「一套用来测试软件系统的工具和流程」但在 AI Agent 领域「Harness Engineering」的含义已经被大大扩展了AI Agent Harness EngineeringAI智能体工程化管控是一套从需求分析、架构设计、组件开发、集成测试、部署上线、运维监控、持续优化的全生命周期工程化体系它的核心目标是降低 AI Agent 的开发门槛让普通的软件工程师而不是只有顶级的 AI 研究人员也能快速开发出「可用的、稳定的、可扩展的」AI Agent提高 AI Agent 的可靠性和安全性让 AI Agent 能在「开放的、有动态约束的现实世界」里稳定运行不会出现「幻觉」Hallucination、不会「泄露用户隐私」、不会「做出违反道德和法律的决策」提升 AI Agent 的能力上限让 AI Agent 能处理「极其复杂的、非线性多步嵌套目标任务」能自主学习、自主进化、不断提升自己的问题解决能力。简单来说「AI Agent Harness Engineering」就是AI智能体的「操作系统」负责调度各个组件的运行「工程化开发框架」负责提供标准化的组件接口和开发流程「质量管控体系」负责测试、验证、监控、优化 AI Agent 的性能——没有这套体系AI Agent 就只是「一堆松散的组件」永远无法成为「企业级的解决方案」。1.3 亮明观点与文章目标读完这篇文章你能学到什么1.3.1 亮明观点我的核心观点是AI Agent 的行为逻辑已经从「第一代单步触发型」Single-Step Trigger-Based、「第二代线性多步任务型」Linear Multi-Step Task-Based进化到了「第三代非线性多步嵌套目标导向型」Non-Linear Multi-Step Nested Goal-Oriented——而推动这一进化的核心动力就是「AI Agent Harness Engineering」的发展。未来的 AI Agent将不再是「被动地执行用户给的明确指令」而是「主动地理解用户的最终目标」、「自主地在开放环境里探索和试错」、「实时地调整自己的策略」、「直到以最优的方式完成最终目标」——这将彻底改变我们的工作方式和生活方式。1.3.2 文章目标为了让你真正理解这个观点我会在这篇文章里回顾 AI Agent 行为逻辑的进化史从「第一代单步触发型」比如 Siri、Alexa 的早期版本、「第二代线性多步任务型」比如 AutoGPT 的早期版本、LangChain 的 Sequential Chain到「第三代非线性多步嵌套目标导向型」比如 BabyAGI 的改进版、AutoGPT 的 AgentGPT Pro、LangChain 的 LCELLangGraph——我会详细分析每一代 AI Agent 的行为逻辑、核心组件、能力边界、优缺点深入解析「第三代目标导向型 AI Agent」的核心行为逻辑——「感知-规划-执行-反思-验证」Perceive-Plan-Act-Reflect-Validate, PPARV闭环我会用通俗易懂的方式解释这个闭环的每一个环节以及每个环节用到的核心技术比如感知器用到的多模态模型、规划器用到的符号规划大语言模型混合规划、执行器用到的函数调用/API 调用/浏览器自动化、反思器用到的自我批判/自我优化、验证器用到的约束满足问题/CSP 求解器深入解析「AI Agent Harness Engineering」的核心架构与组件我会用 mermaid 架构图展示 AI Agent Harness Engineering 的全生命周期体系以及每个模块的核心功能比如需求分析模块用到的目标拆解工具、架构设计模块用到的 Agent 架构模板库、组件开发模块用到的标准化组件库、集成测试模块用到的模拟环境/压力测试工具、部署上线模块用到的容器化/Kubernetes、运维监控模块用到的可观测性平台、持续优化模块用到的强化学习/人类反馈强化学习/RLHF通过一个「完整的实战案例」——「2025年东京浅草寺樱花季周末亲子游 AI 规划与执行助手」手把手教你如何用「AI Agent Harness Engineering」的方法从零开始开发一个「企业级的目标导向型 AI Agent」我会详细讲解每个步骤的操作比如环境安装、系统功能设计、系统架构设计、系统接口设计、系统核心实现源代码以及每个步骤用到的核心工具比如 LangChain、LangGraph、OpenAI GPT-4o、Claude 3.5 Sonnet、Pinecone Vector DB、Neo4j Knowledge Graph、Selenium 浏览器自动化、FastAPI 后端框架、Docker/Kubernetes 容器化、PrometheusGrafana 可观测性平台探讨「目标导向型 AI Agent」的「常见陷阱与避坑指南」「性能优化/成本考量」「最佳实践总结」**我会结合自己的实战经验以及行业内的最佳实践给你一些专家级的建议展望「AI Agent Harness Engineering」和「目标导向型 AI Agent」的「行业发展与未来趋势」**我会用一个 markdown 表格展示 AI Agent 行为逻辑的演变发展历史以及未来的发展方向给你一个「行动号召」**鼓励你亲手尝试开发一个自己的目标导向型 AI Agent或者在评论区交流你的想法。二、基础知识/背景铺垫 (Foundational Concepts)2.1 核心概念定义什么是 AI Agent什么是行为逻辑什么是 Harness Engineering在深入探讨 AI Agent 行为逻辑的进化史之前我们先把几个最核心的概念定义清楚——这是我们后续讨论的基础。2.1.1 什么是 AI Agent——别被学术定义吓到用通俗的话来说就是「有自主能力的软件系统」「AI Agent」这个概念最早可以追溯到1956 年的达特茅斯会议Dartmouth Conference——也就是人工智能AI这个概念诞生的地方但在接下来的 60 多年里这个概念的含义一直在不断变化直到最近几年通用大模型LLM的出现才让这个概念真正「火」了起来并且有了一个相对统一的、面向工程实践的定义。首先我们来看一下学术领域对 AI Agent 的经典定义——这个定义来自于1995 年斯坦福大学计算机科学系教授 Russell 和 Norvig 合著的《人工智能一种现代方法》Artificial Intelligence: A Modern Approach这本书至今仍然是全球最权威的人工智能教材之一学术定义Russell Norvig, 1995An AI agent is an entity that perceives its environment through sensors and acts upon that environment through actuators.中文翻译AI 智能体是一个实体它通过感知器Sensors感知其所处的环境Environment并通过执行器Actuators对该环境施加影响。这个学术定义非常简洁、非常经典但它有一个问题它太宽泛了——按照这个定义我们家里的「智能扫地机器人」Roborock、手机里的「Siri」「Alexa」、甚至是 Windows 操作系统里的「自动更新程序」都可以被称为「AI Agent」但显然这些「实体」的能力差异非常大我们需要一个更精细的、面向工程实践的定义来区分不同类型的 AI Agent。接下来我们来看一下工程实践领域对 AI Agent 的最新定义——这个定义来自于2024 年 OpenAI 发布的《GPT-4o 与 AI Agent 开发最佳实践白皮书》以及2024 年 LangChain 发布的《LangChain 2.0 与目标导向型 AI Agent 架构白皮书》工程实践定义OpenAI LangChain, 2024An AI agent is a software system that has the following four core capabilities:Autonomy自主性It can make decisions and take actions without constant human intervention.Perception感知能力It can perceive its environment (including the external world, internal state, and human inputs) through sensors (including text inputs, multi-modal inputs, API calls, database queries, etc.).Goal-Orientedness目标导向性It can understand a user’s final goal (explicit or implicit), break it down into sub-goals, and take actions to achieve those sub-goals and the final goal.Adaptability适应性It can adjust its strategy and actions in real-time based on changes in the environment, feedback from its actions, and unexpected situations.中文翻译AI 智能体是一个具有以下四个核心能力的软件系统自主性它可以在不需要持续人类干预的情况下做出决策和采取行动感知能力它可以通过感知器包括文本输入、多模态输入、API 调用、数据库查询等感知其所处的环境包括外部世界、内部状态和人类输入目标导向性它可以理解用户的最终目标明确的或隐含的将其拆解为子目标并采取行动来实现这些子目标和最终目标适应性它可以根据环境的变化、行动的反馈和突发情况实时调整自己的策略和行动。这个工程实践定义就非常清晰、非常实用了——按照这个定义我们家里的「智能扫地机器人」它有自主性、感知能力、目标导向性——比如「把整个房子打扫干净」、适应性——比如「遇到障碍物会绕开」可以被称为「第一代 AI Agent」手机里的「Siri」「Alexa」的早期版本它有感知能力、目标导向性——但只是「单步触发型的目标」比如「播放一首周杰伦的歌」、有一定的自主性——但非常弱、几乎没有适应性可以被称为「第二代早期 AI Agent」而我们前面提到的「AutoGPT 的 AgentGPT Pro」「LangChain 的 LCELLangGraph 开发的 AI Agent」可以被称为「第三代目标导向型 AI Agent」。2.1.2 什么是 AI Agent 的「行为逻辑」——它就是 AI Agent「思考、决策、行动」的规则和流程「行为逻辑」Behavior Logic这个概念本来是心理学和社会学领域的术语——它是指「人类或动物在特定环境下思考、决策、行动的规则和流程」但在 AI Agent 领域这个概念的含义已经被扩展到了「软件系统的思考、决策、行动的规则和流程」。简单来说AI Agent 的行为逻辑就是它的「大脑的工作原理」——它决定了 AI Agent 如何「感知环境」、如何「理解目标」、如何「规划路径」、如何「执行行动」、如何「反思结果」、如何「调整策略」、如何「验证目标是否完成」。不同类型的 AI Agent有不同的行为逻辑——这也是我们区分第一代、第二代、第三代 AI Agent 的核心依据第一代 AI Agent比如智能扫地机器人的行为逻辑是**「预定义的规则型行为逻辑」**Predefined Rule-Based Behavior Logic——它的所有「思考、决策、行动」的规则都是人类程序员提前写好的它没有任何「自主学习」或「自主规划」的能力第二代早期 AI Agent比如 Siri、Alexa 的早期版本的行为逻辑是**「单步触发型行为逻辑」**Single-Step Trigger-Based Behavior Logic——它只能「被动地等待人类的单步明确指令」然后「执行预定义的单步行动」它没有任何「自主拆解目标」或「自主规划多步路径」的能力第二代中期 AI Agent比如 AutoGPT 的早期版本、LangChain 的 Sequential Chain的行为逻辑是**「线性多步任务型行为逻辑」**Linear Multi-Step Task-Based Behavior Logic——它可以「被动地等待人类的线性多步明确任务」然后「按照人类提前写好的顺序执行预定义的多步行动」它有一定的「自主调用外部工具」的能力但没有任何「自主拆解目标」或「自主调整路径」的能力第三代目标导向型 AI Agent比如 BabyAGI 的改进版、AutoGPT 的 AgentGPT Pro、LangChain 的 LCELLangGraph 开发的 AI Agent的行为逻辑是**「非线性多步嵌套目标导向型行为逻辑」**Non-Linear Multi-Step Nested Goal-Oriented Behavior Logic——也就是我们后面要详细解析的「感知-规划-执行-反思-验证」PPARV闭环它可以「主动地理解人类的最终目标明确的或隐含的」、「自主地将最终目标拆解为非线性多步嵌套的子目标」、「自主地在开放环境里探索和试错」、「自主地调用外部工具」、「实时地调整自己的策略和路径」、「直到以最优的方式完成最终目标」。2.1.3 什么是「Harness Engineering」——它就是「AI Agent 的‘全生命周期工程化管理体系’」我们在引言部分已经简单介绍过「Harness Engineering」的含义但为了让你更深入地理解这个概念我们再来看一下2024 年 Gartner 发布的《AI Agent Harness Engineering 技术成熟度曲线Hype Cycle》里的定义Gartner 定义2024AI Agent Harness Engineering is a set of integrated tools, processes, and best practices that enable organizations to design, develop, test, deploy, monitor, and optimize AI agents at scale, with a focus on reliability, safety, security, and cost-effectiveness.中文翻译AI Agent Harness Engineering 是一套集成的工具、流程和最佳实践它使组织能够大规模地设计、开发、测试、部署、监控和优化 AI Agent重点关注可靠性、安全性、保密性和成本效益。这个定义里有几个关键词非常重要集成的工具、流程和最佳实践Harness Engineering 不是「某一个工具」也不是「某一个流程」而是「一套完整的、集成的体系」——它包含了「需求分析工具」「架构设计工具」「组件开发工具」「集成测试工具」「部署上线工具」「运维监控工具」「持续优化工具」以及「每个环节对应的流程和最佳实践」大规模地Harness Engineering 的核心目标之一就是「让组织能够大规模地开发和部署 AI Agent」——而不是「只开发一两个‘玩具级’的 AI Agent」可靠性、安全性、保密性和成本效益这是 Harness Engineering 关注的四个核心指标——对于「企业级的 AI Agent」来说这四个指标比「功能的强大程度」更重要可靠性AI Agent 必须能在「开放的、有动态约束的现实世界」里稳定运行不能经常「崩溃」安全性AI Agent 必须不能「做出违反道德和法律的决策」保密性AI Agent 必须不能「泄露用户隐私」或「组织的商业机密」成本效益AI Agent 必须能「以较低的成本为组织带来较高的收益」——不能「烧钱无数却没有任何实际价值」。2.2 相关工具/技术概览开发目标导向型 AI Agent你需要用到哪些工具和技术在开始实战案例之前我们先对开发目标导向型 AI Agent 可能用到的核心工具和技术进行一个简要的概览和对比——这可以帮助你在后续的实战案例中选择最适合自己的工具和技术。2.2.1 核心大语言模型LLMAI Agent 的「大脑」AI Agent 的「大脑」就是核心大语言模型LLM——它负责「理解用户的目标」「拆解目标为子目标」「规划路径」「生成外部工具调用的参数」「反思行动的结果」「调整策略」「验证目标是否完成」。目前市面上主流的核心大语言模型有OpenAI 的 GPT 系列GPT-4o、GPT-4o mini、GPT-4 Turbo、Anthropic 的 Claude 系列Claude 3.5 Opus、Claude 3.5 Sonnet、Claude 3 Haiku、Google DeepMind 的 Gemini 系列Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini 1.0 Ultra、Meta 的 Llama 系列Llama 3 400B、Llama 3 70B、Llama 3 8B、阿里云的通义千问系列Qwen 2.5 72B、Qwen 2.5 32B、Qwen 2.5 7B、百度的文心一言系列ERNIE 4.0、ERNIE 3.5、腾讯的混元系列Hunyuan A3、Hunyuan Lite。我们可以从**「能力上限」「推理速度」「推理成本」「上下文窗口大小」「多模态能力」「工具调用能力」「安全性」「开源/闭源」**这八个维度对这些主流的核心大语言模型进行一个对比核心大语言模型能力上限1-10分10分最高推理速度1-10分10分最快推理成本每百万输入token/每百万输出token美元上下文窗口大小token多模态能力文本图像音频视频工具调用能力安全性1-10分10分最高开源/闭源GPT-4o108输入$5.00输出$15.00128K可扩展至2M文本图像音频实时语音对话极强9闭源Claude 3.5 Opus107输入$15.00输出$75.00200K可扩展至2M文本图像音频实时语音对话 长视频分析极强10闭源Gemini 1.5 Pro98输入$3.50输出$10.501M可扩展至12M文本图像音频视频长视频分析强9闭源Llama 3 400B86输入$2.00API调用输出$6.00API调用128K文本可通过插件扩展多模态强8开源/APIQwen 2.5 72B89输入$0.80输出$2.40128K可扩展至1M文本图像音频强9开源/API对于「实战案例」来说我们推荐选择GPT-4o mini或Claude 3.5 Sonnet——它们的「能力上限」足够高8-9分、「推理速度」足够快8-9分、「推理成本」足够低GPT-4o mini输入$0.15/百万token输出$0.60/百万tokenClaude 3.5 Sonnet输入$3.00/百万token输出$15.00/百万token——哦不对Claude 3.5 Sonnet 还有一个「Sonnet 3.5 128K 精简版」推理成本更低输入$0.30/百万token输出$1.50/百万token、「工具调用能力」极强、「多模态能力」足够满足我们的需求。如果你的「预算非常有限」或者「需要部署在本地」比如出于「保密性」的考虑我们推荐选择Llama 3 70B或Qwen 2.5 72B——它们是「开源的」你可以把它们部署在本地的 GPU 服务器上Llama 3 70B 需要至少 2 张 A100 80GB 的 GPUQwen 2.5 72B 量化到 4bit 之后可以在 1 张 A100 80GB 的 GPU 上运行而且它们的「能力上限」足够高8分、「推理速度」足够快如果用足够多的 GPU、「工具调用能力」足够强。2.2.2 核心开发框架AI Agent 的「骨架」AI Agent 的「骨架」就是核心开发框架——它负责「提供标准化的组件接口」「提供标准化的开发流程」「提供预定义的组件库」「提供预定义的 Agent 架构模板」从而「大大降低 AI Agent 的开发门槛」。目前市面上主流的 AI Agent 核心开发框架有LangChainLangChain 1.0、LangChain 2.0、LangGraph、AutoGPTAutoGPT Core、AutoGPT AgentGPT Pro、BabyAGIBabyAGI Classic、BabyAGI Improved、LlamaIndex原名 GPT Index、Microsoft Semantic Kernel、Google Vertex AI Agent Builder、阿里云通义千问 Agent Studio、百度文心一言 Agent Builder。我们可以从**「易用性」「灵活性」「可扩展性」「预定义组件库的丰富程度」「预定义 Agent 架构模板的丰富程度」「可观测性」「成本」「社区活跃度」**这八个维度对这些主流的核心开发框架进行一个对比核心开发框架易用性1-10分10分最容易灵活性1-10分10分最灵活可扩展性1-10分10分最容易扩展预定义组件库的丰富程度1-10分预定义 Agent 架构模板的丰富程度1-10分可观测性1-10分成本社区活跃度GitHub Star 数截至2025年5月LangChain 2.0 LangGraph810101099免费开源LangChain120KLangGraph30KAutoGPT Core AgentGPT Pro7888108AutoGPT Core 免费开源AgentGPT Pro 订阅制$29/月起AutoGPT170KLlamaIndex9991077免费开源35KMicrosoft Semantic Kernel8910989免费开源25KGoogle Vertex AI Agent Builder7788910按使用量付费闭源无 GitHub Star对于「实战案例」来说我们强烈推荐选择 LangChain 2.0 LangGraph——原因如下易用性足够高LangChain 2.0 引入了「LangChain Expression LanguageLCEL」这是一种「声明式的、链式的编程语言」你可以用非常简洁的代码把不同的组件组合在一起灵活性和可扩展性极强LangChain 2.0 LangGraph 是「完全开源的」你可以「自由地修改任何组件的代码」也可以「自由地添加自己的组件」LangGraph 是「专门为开发目标导向型 AI Agent 设计的」它支持「非线性的、有分支的、有循环的 Agent 行为逻辑」——这是其他开发框架比如 LangChain 1.0 的 Sequential Chain做不到的预定义组件库和预定义 Agent 架构模板非常丰富LangChain 2.0 提供了「超过 1000 个预定义的组件」包括「文本分割器」「向量数据库连接器」「知识图谱连接器」「外部工具连接器」「多模态模型连接器」等等以及「超过 100 个预定义的 Agent 架构模板」包括「目标拆解 Agent」「路径规划 Agent」「外部工具调用 Agent」「反思优化 Agent」「验证 Agent」等等可观测性非常好LangChain 2.0 提供了「LangSmith」平台虽然是收费的但有免费的试用额度你可以用它「监控 Agent 的每一步运行」「调试 Agent 的行为」「评估 Agent 的性能」社区活跃度极高LangChain 是目前全球「最流行的 AI Agent 开发框架」它的 GitHub Star 数已经超过了 120K社区里有「大量的教程、文档、案例」你遇到的任何问题几乎都可以在社区里找到解决方案。2.2.3 核心记忆组件AI Agent 的「长期记忆」和「短期记忆」AI Agent 的「记忆」分为**「短期记忆」Short-Term Memory, STM和「长期记忆」Long-Term Memory, LTM**——「短期记忆」负责「存储 Agent 当前正在处理的信息」比如「当前的子目标」「当前的路径」「当前的行动反馈」「长期记忆」负责「存储 Agent 过去的经验」比如「过去完成过的类似目标」「过去遇到过的类似问题」「过去使用过的有效策略」「用户的偏好」。2.2.3.1 短期记忆STM目前主流的短期记忆实现方式有上下文窗口Context Window这是「最简单的短期记忆实现方式」——直接把「当前正在处理的信息」放到「核心大语言模型的上下文窗口」里但它的缺点是「上下文窗口的大小有限」目前最大的 Claude 3.5 Opus 也只有 200 万左右的上下文窗口而且随着窗口变大推理成本呈指数级上升推理速度呈指数级下降而且「信息是线性存储的」无法「高效地检索和更新」滑动窗口Sliding Window这是「对上下文窗口的一种改进」——当「上下文窗口的大小超过了核心大语言模型的限制」时自动「删除最早的一部分信息」但它的缺点是「可能会删除重要的信息」摘要器Summarizer这是「对滑动窗口的一种改进」——当「上下文窗口的大小超过了核心大语言模型的限制」时自动「用核心大语言模型对最早的一部分信息进行摘要」然后「把摘要放到上下文窗口里」「删除原始的信息」但它的缺点是「摘要可能会丢失重要的细节」LangGraph 的 State状态这是「我们推荐的短期记忆实现方式」——LangGraph 提供了「State」机制你可以「自由地定义 State 的结构」比如「可以用字典、列表、类等等」「State 会在 Agent 的每一步运行之间自动传递」「你可以在任何一步里检索和更新 State 的任何部分」——它的优点是「结构灵活」「存储效率高」「检索和更新方便」「不会受到核心大语言模型上下文窗口大小的限制」当然如果你需要把 State 的某些部分放到核心大语言模型的上下文窗口里还是会受到限制但你可以「只把必要的部分放进去」。2.2.3.2 长期记忆LTM目前主流的长期记忆实现方式有向量数据库Vector Database这是「目前最流行的长期记忆实现方式」——它的核心原理是「用嵌入模型Embedding Model把「文本、图像、音频」等非结构化数据转换成「向量」Vector然后「把向量存储到向量数据库里」当「需要检索相关的信息时」「用嵌入模型把查询词转换成向量」然后「在向量数据库里查找与查询词向量最相似的 Top K 个向量」最后「把对应的原始数据返回给 Agent」主流的向量数据库有Pinecone闭源托管式易用性高成本适中、Weaviate开源可托管可本地部署灵活性高、Chroma开源轻量级适合本地开发和测试、Milvus开源企业级适合大规模部署、Qdrant开源高性能适合实时检索知识图谱Knowledge Graph这是「对向量数据库的一种补充」——它的核心原理是「用「实体」Entity、「属性」Attribute、「关系」Relationship来存储结构化数据」当「需要检索相关的信息时」「可以用图查询语言比如 Cypher、SPARQL进行复杂的逻辑查询」主流的知识图谱有Neo4j闭源/开源社区版易用性高灵活性高、Amazon Neptune闭源托管式适合 AWS 生态、Azure Cosmos DB Gremlin API闭源托管式适合 Azure 生态、阿里云图数据库 GDB闭源托管式适合阿里云生态关系型数据库Relational Database这是「对向量数据库和知识图谱的一种补充」——它的核心原理是「用「表」Table、「行」Row、「列」Column来存储高度结构化的数据」比如「用户的基本信息」「Agent 的运行日志」「任务的完成状态」主流的关系型数据库有PostgreSQL开源企业级适合大规模部署、MySQL开源易用性高适合中小型项目、SQLite开源轻量级适合本地开发和测试文件系统File System这是「最简单的长期记忆实现方式」——直接把「非结构化数据」比如「文本文件」「图像文件」「音频文件」「视频文件」存储到「本地文件系统」或「云存储服务」比如 Amazon S3、Azure Blob Storage、阿里云 OSS、腾讯云 COS里但它的缺点是「检索效率非常低」。对于「实战案例」来说我们推荐短期记忆用LangGraph 的 State长期记忆的非结构化数据存储用Pinecone托管式易用性高成本适中适合实战案例或Chroma开源轻量级适合本地开发和测试长期记忆的结构化数据存储用PostgreSQL开源企业级适合大规模部署或SQLite开源轻量级适合本地开发和测试如果需要存储复杂的逻辑关系可以再加一个Neo4j 开源社区版。2.2.4 核心感知器与执行器AI Agent 的「眼睛耳朵」和「手脚」AI Agent 的「眼睛耳朵」就是核心感知器——它负责「感知外部世界的信息」比如「通过 API 调用获取天气信息」「通过数据库查询获取用户的偏好」「通过浏览器自动化获取网页的内容」「通过多模态模型获取图像/音频/视频的内容」AI Agent 的「手脚」就是核心执行器——它负责「对外部世界施加影响」比如「通过 API 调用预约服务」「通过数据库查询更新用户的信息」「通过浏览器自动化填写表单」「通过多模态模型生成图像/音频/视频的内容」。目前主流的感知器与执行器实现方式有函数调用Function Calling/工具调用Tool Calling这是「目前最流行的感知器与执行器实现方式」——核心大语言模型比如 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro都内置了「工具调用能力」你可以「自由地定义工具的接口」比如「工具的名称」「工具的描述」「工具的参数」然后「把这些工具的接口提供给核心大语言模型」核心大语言模型会「根据当前的情况自动选择合适的工具」「自动生成工具调用的参数」「自动调用工具」「自动获取工具调用的结果」LangChain 2.0 提供了「超过 1000 个预定义的工具」包括「天气查询工具」「股票查询工具」「新闻查询工具」「预订服务工具」「数据库查询工具」「浏览器自动化工具」等等你可以「直接使用这些预定义的工具」也可以「自由地定义自己的工具」浏览器自动化Browser Automation这是「对函数调用/工具调用的一种补充」——当「没有现成的 API 可以调用」时你可以「用浏览器自动化工具比如 Selenium、Playwright、Puppeteer模拟人类的操作」比如「打开网页」「点击按钮」「填写表单」「提取网页的内容」LangChain 2.0 提供了「预定义的 Selenium 工具」和「预定义的 Playwright 工具」你可以「直接使用这些预定义的工具」多模态模型Multi-Modal Model这是「对函数调用/工具调用的一种补充」——当「需要感知或生成图像/音频/视频的内容」时你可以「用多模态模型比如 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、DALL-E 3、Midjourney、Stable Diffusion」LangChain 2.0 提供了「预定义的多模态模型连接器」你可以「直接使用这些预定义的连接器」。对于「实战案例」来说我们推荐函数调用/工具调用用LangChain 2.0 的预定义工具自己定义的工具浏览器自动化用Playwright比 Selenium 更快、更稳定、更易用多模态模型用GPT-4o实时语音对话能力强图像分析能力强或Claude 3.5 Sonnet长文本长图像分析能力强。2.3 本章小结在这一章里我们主要做了以下三件事定义了几个最核心的概念什么是 AI Agent有自主性、感知能力、目标导向性、适应性的软件系统什么是 AI Agent 的行为逻辑AI Agent 思考、决策、行动的规则和流程什么是 Harness EngineeringAI Agent 的全生命周期工程化管理体系对开发目标导向型 AI Agent 可能用到的核心工具和技术进行了一个简要的概览和对比核心大语言模型推荐 GPT-4o mini 或 Claude

更多文章