小白程序员必看:收藏这份 Agent Skills 学习指南,轻松玩转大模型!

张开发
2026/4/9 20:30:33 15 分钟阅读

分享文章

小白程序员必看:收藏这份 Agent Skills 学习指南,轻松玩转大模型!
本文从历史角度梳理了 Agent-ReAct-Skills-MCP-Tool 的演进关系重点介绍了 Agent Skills 的概念、功能和落地方法。Agent Skills 是一种面向场景的 SOP通过指令、工具链和工作流的复合体帮助 Agent 更高效地完成复杂任务。文章还探讨了 Skills 与 MCP 的区别与配合方式以及 Skills 在企业建设智能体平台中的应用。对于想要学习大模型和自动化技术的程序员来说本文提供了宝贵的参考和指导。发展历史当概念太多理不清的时候我们可以从历史的角度去分析会发现技术演进是有迹可循的每个技术的出现都有它的时代背景2022-10-06(学术突破)姚顺雨在论文 Synergizing Reasoning and Acting in Language Models 中系统性地提出了ReAct将 Reasoning 与 Acting 结合的范式通过Reason Act的循环让模型学会了想一步做一步看一眼反馈再想下一步从而解决了CoT缺乏外部反馈以及传统决策模型缺乏更高层规划的问题。2022-11-30技术突破OpenAPI 的GPT-3.5诞生提供了强大的底座证明了模型具备理解复杂指令并进行逻辑推理的基础能力。2023-02 (学术突破)Meta 发布Toolformer论文 Toolformer: Language Models Can Teach Themselves to Use Tools。它证明了模型可以通过自监督学习学会在什么时候调用什么 API如计算器、日历来增强自身能力。2023-03-23 (产品落地)OpenAI 发布ChatGPT Plugins。帮助 ChatGPT 访问最新信息、运行计算或使用第三方服务比如网页浏览器和代码解释器。2023-06-13 (技术标准化)OpenAI 推出 Function Calling。它不再纯依赖模糊的 Prompt 完成任务而是让模型原生支持输出结构化的 JSON从而让模型能连接到外部工具和系统。2023.07 - 2024.10爆发期LangChain, AutoGPT, AutoGen 等框架蓬勃发展工具定义碎片化Agent 框架生态处于烟囱式增长。2024-11-05技术标准化Anthropic 发布 MCP 开放标准统一 Tool 发现和调用方式将工具Tools和数据Resources从特定的 Agent 框架中解耦2025-12-16(技术标准化)cli 工具 claude code 为了解决Token-Efficency问题和任务执行的成功率提出了 Agent Skills 开放标准让 ReAct 等思维框架能更有效的执行 SOP从这个历程看Agent 的执行能力的标准化Function Calling/MCP/Skills是在工程化落地过程中会自然发生的。基础概念逻辑概念Function CallingLLM 原生的结构化能力通过训练使模型能理解JSON Schema并在指令下生成规范的工具调用请求。Tool CallingAgent 层执行工具并获取反馈的过程是 Function Calling 在应用逻辑中的具体执行链路。AgentAgent 具备规划Planning、记忆Memory和工具使用Tool use能力能够根据模糊的目标自主决定调用哪些 Skill 和 Tool 来达成目标。ReActAgent 的一种思维方式ReAct loop(Reason Act)。模型在每一步都会交替进行推理Reason和行动Act。它不仅在脑子里想还会通过动态执行循环并根据外部工具的反馈来修正下一步的思考。技术名词Tool执行任务的具体实现通常是具体的 API 接口负责解决原子的问题使用工程化封装确定性的解决现实问题。MCP模型与工具连接方式通过统一工具描述和调用标准实现一次开发多框架通用的生态兼容。Skills面向场景的SkillsSOP/最佳实践。它是指令Prompt、工具链Tools与工作流Workflow的复合体。Skill 通过预设的逻辑框架Instruction解决了 Agent 在复杂任务中先做什么、后做什么、如何评估好坏的确定性问题。它是 Agent 实现从单一接口调用到复杂业务流程自动化转换的关键模块。概念角色描述Agent自治实体决策主体负责接收指令、感知环境、并驱动整个决策闭环的独立计算实体。ReAct认知架构编排引擎系统的运行逻辑。动态解决问题的机制规划 - 执行 - 修正Skills领域策略逻辑封装层针对特定垂直场景预定义好的处理流程SOPTools原子能力执行单元改变环境或获取信息的具体手段如 API 调用MCP互联标准连接协议解耦模型与数据源建立 AI 与数据/工具之间标准化的连接通道。Skill 执行示例以一个后端代码审查的 Agent 为例介绍 CodeReview Skills 和 ReactMCP 的交互过程渐进式披露渐进式披露Progressive disclosure是 Skills 标准中最关键的设计。它确保简单理解而不是预先加载所有内容从而保持效率三阶段加载机制Agent 在需要时准确获取所需内容约 100 个 token: 提供 Skills 的描述信息快速判断相关性如类似书籍的目录元数据优先加载 5k tokens详细的工作流程指导最佳实践和业务规则如类似书籍的章节内容完整指令加载代码脚本配置文件示例数据如类似书籍的附录Progressive disclosure 设计的优点按需加载资源不浪费上下文窗口Token 效率只加载需要的内容性能优化支持大量 Skills 同时存在Skills 和 MCP 的关系Skills 和 MCP定位不同MCP 解决能力接入问题如何让 AI 调用外部工具/数据源Skills 解决Token-Efficency问题顺带优化了能力选择问题能更好更省的组合能力完成特定领域任务。Skills 和 MCP 都是arthropic提出并开放的行业标准。MCP 的传输层有stdio和streamable http2 种具体的通信协议有工程化规范tools/list,tools/call,notifycation而 Skills 比较轻量它只在提示词定义标准和加载标准有要求其他的 ReAct 的具体实现 agent 根据实际情况而定。在实现中可先在上下文声明可用的 MCP 工具然后在 Skills 的 instruction 中指定这些 MCP 工具的使用场景和调用时机。Skills 和 MCP 如何工程化配合MCP 广场配置 MCPServerurl、header加载 Tool 列表Skills 广场配置 Skills 的Skills.md(Metadata、Instruction)Instruction 中可引用 MCP-tools可选资源referenceassets文件引用配置为 OSS 地址。智能体配置配置 system prompt选择 MCP-tools选择 Skills。智能体执行通过 ReAct获取 oss 资源执行的 MCP多轮执行并获取最终结果Skills 的局限性开源的 Skills 中的脚本不具备通用的运行环境比如 python 脚本很多脚本的 requirements 对运行环境是有要求的有的甚至还要本地编译很可能本地运行不起来。也就是说 Skills 这方面对用户是有要求的如果用户不懂编程最后只能使用纯提示词的Skills。而 MCP 可以解决这个环境问题屏蔽所有的技术环境相关的细节复杂度对用户是透明的开箱即用。比如高得地图的 MCP填写一个 keyMCP 地址就能使用让大模型基于 MCP 进行路线规划。不过这个局限性在不确定性的任务场景中却是 Skills 的优势script 在本地对 AI 是白盒Agent 可以按需修改 script 完成任务 (coding)而 MCP 是已有的工具不具备这个灵活性。对于需要执行 script 的 Skills有 3 种处理策略本地系统配置好环境直接执行配置特定的 docker 镜像执行将 script 封装为 MCP 服务在 instruction 中引用个人使用的话我倾向于1-本地执行企业工程化我倾向于3-MCP封装这样能最大化复用已有的 MCP 基础设施企业 Skills 库的建设Skills 在企业建设智能体平台过程中会分 2 类通用 Skills通用的工具使用流程比如 git 操作office 文档处理代码安全扫描比如写文档的 obsidian Skills编程用的 superpowers私有 Skills企业内部 SOP 和合规规则比如公司报销流程、考勤规则、客户分级标准通用的 Skills 通常从开源社区获取私有 Skills 则需要企业自驱去做知识的积累沉淀。注意Skills 是能够抽象的高维知识规则/方法论和具备大量文档和分块的 RAG 知识库有所差别企业里面混乱的 confluence 知识库是没法直接派上用场的需要成结构化程度高的简洁明了能实操的最佳实践才有价值。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章