上下文工程的演进:从提示词技巧到认知架构

张开发
2026/4/9 21:47:23 15 分钟阅读

分享文章

上下文工程的演进:从提示词技巧到认知架构
为什么如今上下文比模型本身更有价值现在是12月23日你正焦急地向AI助手询问给妻子准备的最后一刻圣诞礼物建议。三周前你花了20分钟仔细说明她痴迷可持续时尚刚开始攀岩讨厌任何浪费的东西。AI认真倾听还问了些有深度的问题。你当时心想“终于有懂我的技术了。”今天你问“我该给妻子买什么圣诞礼物”AI回答“要不考虑一款精美的真皮手提包和一套豪华SPA套餐”你在逗我吗既不环保也和攀岩无关完全是通用模板。这个AI跟1990年代那种刻板印象生成器没两样随便推荐鲜花和巧克力。让人愤怒的地方在于这个模型拥有128,000个token的记忆容量。你三周前的对话才2,000个token。它的空间足足是所需的64倍。这个作为有史以来最先进AI系统之一的大语言模型完全有能力记住。那它为什么记不住因为没人把记忆系统架构好。模型很聪明但上下文工程还停留在业余水平。还有一件没人告诉你的事**到2025年模型已经不再重要了。**GPT‑4、Claude、Gemini——它们都足够好用。真正关键的是有没有人做出一个真正能用的记忆系统而不是随便拼凑一个聊完就忘的聊天机器人。大多数AI助手都属于第二类。它们是**对话失忆症患者**前30秒表现惊艳一旦需要连续性就彻底没用。这篇文章会解释为什么会出现这种情况更重要的是顶尖AI系统是如何解决这个问题的。五年时间AI记忆构建方式发生了五次巨大转变。我们从把指令塞进狭小提示词一路走到打造媲美人类认知的记忆系统。如今有些AI助手能记住你去年圣诞节的礼物偏好另一些却连上周二说过什么都想不起来。区别不在模型而在**上下文工程。**你即将明白为什么它在生产级AI中比一切都重要。我们开始。上下文工程在五年间历经了五个截然不同的阶段**第一阶段2020–2022提示词工程Prompt Engineering**一切都塞进2,000–4,000 token的提示词里。我们手写指令、示例和规则。在演示中效果不错但在生产环境中一旦上下文窗口溢出、模型在调用间隙遗忘所有信息就会直接崩溃。**第二阶段2022–2023检索增强生成RAG**通过向量搜索接入外部知识。RAG通过动态检索相关文档解决了“模型不知道”的问题但也带来了新问题无关上下文过多、无对话记忆、多跳推理脆弱。第三阶段2023–2024结构化上下文工程上下文变成架构。我们将指令、记忆、数据和工具拆分为独立层级。上下文不再是文本而是带有智能筛选、排序和组装的编译流水线。Token成本下降75%–90%。第四阶段2024–2025智能体记忆系统通过工具调用实现自我编辑记忆。模型开始管理自己的上下文决定记住什么、检索什么、何时压缩、何时遗忘。上下文从被动输入转变为主动状态管理。第五阶段2025→作为认知架构的上下文模型可替换上下文系统才是产品。记忆架构、上下文生命周期管理、多智能体协同如今比选择哪种模型更能定义系统能力。第一阶段提示词工程2020–20222020年GPT‑3问世时它就像魔法一样。你问它问题它就能回答你给它看几个例子它就能学会模式。整个AI社区花了数月时间发现用恰当的词语、按正确的顺序就能从1750亿参数的语言模型中诱导出极其复杂的行为。这就是**提示词工程时代**通过精心设计输入文本获得理想输出的艺术。你想让模型知道、理解或遵守的一切都必须塞进这个输入里。指令、示例、上下文、约束——所有内容都被塞进如今看来小得可笑的上下文窗口。GPT‑3只给了你 **2048个token**大约1500个单词差不多一页单倍行距文本。想加入示例每个要200 token。需要保留对话历史每一轮交互都在消耗额度。等你写完系统指令、加完几个示例留给真实用户输入和上下文的token可能只剩500。提示词工程师成了手艺人。我们总结出有效的模式少样本学习先给模型看三个例子再让它做类似任务思维链提示用“让我们仔细一步步思考”这类表述鼓励分步推理指令调优用“你是一名擅长……的专业助手”设定角色。社区像分享食谱一样共享提示词模板每一个都经过反复调试。简单提示词流程作者绘制这种方法在简单、独立的任务中效果惊人但**每次交互都是全新开始。**模型在调用之间不会保留任何信息。如果用户提出追问你必须手动把整段对话历史拼接到下一个提示词里。如果需要更新信息你必须在每次请求中复制粘贴。模型的知识冻结在训练截止日期不重新训练整个模型就无法注入新事实——这要花费数百万美元和数周算力。生产环境中的缺陷很快暴露。多轮对话只需十几轮就会耗尽上下文窗口。重复指令带来成本线性上升——每次你告诉模型“你是法律分析专家”都要再为这些token付费。行为非常脆弱提示词中改一个词就可能大幅改变回答。更关键的是**没有机制处理训练中从未见过的知识**你公司的内部文档、昨天的新闻、训练语料中不存在的领域信息。我们学会了跟语言模型对话但还没学会给它们记忆、外部知识以及管理超出固定窗口的上下文的能力。模型很惊艳但本质上受限它只能用塞进2000 token盒子里的东西工作。这种限制推动了下一次演进。如果模型无法知道一切我们想也许它们不需要知道一切。它们只需要知道去哪里找。GPT‑3 的局限第二阶段RAG——检索增强生成2022–2023现在回头看这个解决方案显而易见如果语言模型无法知道一切就给它们接入外部知识库。让它们按需搜索、检索、引用信息而不是在训练时记住一切。“检索增强生成”一词出现在2020年的一篇论文中但这套方法在2022–2023年大规模落地生产系统。时机恰到好处向量数据库成熟嵌入模型提升纯提示词工程的局限在做真实应用的人眼中已经痛到极致。RAG的突破在于简洁优雅 把你的知识库——文档、论文、客服工单、任何领域重要知识——切分成块 用嵌入模型把每块转成数值向量 把这些向量存在专为相似度搜索优化的专用数据库里 当用户提问时把问题转成向量找到最相似的文本块把这些块和原始查询一起塞进模型提示词。结果是颠覆性的。 2022年DeepMind的RETRO系统证明一个75亿参数的模型通过从海量语料中检索相关文本性能可以匹敌1750亿参数的GPT‑3。效率提升惊人只需给小模型外部知识就能用1/25的参数达到同等效果。Meta的Atlas系统显示只需64个训练样本检索就能在复杂问答任务上达到42.4%准确率——超过没有检索、大50倍的模型。对生产系统而言RAG解决了关键问题模型可以访问训练截止后发布的信息无需昂贵微调就能使用公司内部文档模型可以引用来源给用户透明度和信任感更新知识库只需往向量库加新文档不需要数百万美元的训练。简单 RAG 架构作者绘制但RAG很快也暴露了自己的问题。**第一个问题检索质量决定一切。**如果相似度搜索返回无关块模型就只能基于垃圾信息生成。相似度≠相关性。两段文本语义相似但其中一个未必能回答问题。早期RAG系统会一次性检索10或20个块全部丢进上下文指望里面有用的信息。这既浪费token又常让模型被矛盾或无关信息搞晕。**第二个问题RAG仍然是无状态的。**每次查询都触发全新检索。系统不记得之前检索过什么不理解对话流。如果用户追问“那另一种方法呢”RAG系统记不住三轮前讨论的是哪种方法。你仍然要手动管理对话历史而现在历史还要和检索块争夺宝贵的上下文空间。**第三个问题朴素RAG难以处理复杂推理。**多跳问题——“找到文档X的作者再找他们的其他发表再总结共同主题”——需要链式多次检索。但标准RAG没有这种机制只检索一次生成一次答案就结束。到2023年末局限已经非常清晰RAG证明了外部知识必不可少但架构本质上是被动、无结构的。模型仍然没有自主权决定检索什么、何时检索、如何组织检索信息。工程师开始问更难的问题不只是“如何给模型知识入口”而是**“如何架构围绕模型的整个上下文”**RAG 架构局限作者绘制答案需要把上下文看作比文本在流水线中流动更高级的东西。 它需要架构。第三阶段上下文工程2023–20242024年发生了一次转变。工程团队的讨论从“如何写出更好的提示词”变成“如何架构上下文系统”行业观察者注意到了这一点。Gartner在2024年7月宣称“上下文工程已成主流提示词工程已过时。”Andrej Karpathy将其描述为“为下一步行动在上下文窗口里填入刚刚好信息的精细艺术与科学”。这次转变反映了一个根本认知上下文不是文本。上下文是架构。在此之前我们把上下文窗口当成文本编辑器——用来粘贴指令、示例、对话历史、检索文档。更关键的问题一直被忽略如果我们像设计软件系统一样设计上下文呢用分层、模块化、接口和显式数据流上下文工程作为一门正式学科形成了清晰原则。1. 关注点分离上下文不是一大块文本而是由不同类型信息组成各有目的、需要不同管理策略指令定义行为 系统提示、行为准则、任务说明很少变动应像代码一样版本化。记忆捕获状态 智能体对用户、历史交互、进行中任务的了解持续进化必须被更新而非重写。知识代表外部信息 检索文档、数据库结果、API响应按需动态拉取不预加载。工具定义能力 模型可调用的函数与API需要清晰接口和使用示例。元数据提供结构 时间戳、来源、置信度、优先级。把这些拆分成独立层就可以分别优化指令层可以精细版本管理和A/B测试记忆层可以实现复杂更新与冲突解决知识层可以混用多种检索策略——向量搜索做语义查询、关键词搜索做精确匹配、图遍历做关系查询工具层可以独立处理认证、限流、错误。上下文工程框架2. 智能筛选问题从“我们能塞下什么”变成“我们应该包含什么”。不是所有上下文都同等重要。有些信息对当前任务至关重要有些只是辅助有些是历史噪音反而会降低性能。这需要超越简单相似度的排序机制相关性上下文与当前查询的匹配程度重要性信息本身的权重用户核心偏好远重于数月前随口一句时效性新信息通常优于旧信息但并非绝对。上下文工程系统会实现融合这些因素的打分函数。 一段关于用户偏好的记忆可能重要性、相关性很高但时效性低刚检索的文档时效性、相关性高但重要性低。系统可以对所有可用上下文排序选出在token预算内的前N项。3. 动态组装发给模型的提示词不再手写而是由组件编译而成。想象一条上下文流水线用户查询进入系统流水线先从长期存储检索相关记忆根据所需能力获取合适的工具定义选择相关对话历史优先近期和建立重要背景的内容从向量库或数据库拉取外部知识每个组件被排序、过滤、格式化最后拼装成结构化提示词清晰划分系统指令、检索知识、对话历史、可用工具。这种编译方式意义深远可以A/B测试不同组装策略不用改底层数据可以上下文缓存跨请求复用昂贵生成部分可以逐段调试看清选了什么、为什么选最重要的是可以埋点监控衡量哪些上下文带来哪些结果持续优化。4. 渐进式披露不是所有上下文都要立刻加载可以按访问层级分级核心上下文始终加载——系统指令、当前任务、关键事实约500–2000 token条件上下文按需加载——相关RAG文档、对话历史、工具定义约20,000–50,000 token按需上下文仅显式需要时拉取——深度归档记忆、完整文档、海量搜索结果可达百万token但通过搜索接口选择性访问不批量加载。上下文架构分层但仍有一个关键局限上下文工程系统本身是被动的。压缩、检索、遗忘仍然由人决定。模型只是上下文的消费者不是管理者。工程师配置流水线、设定打分函数、确定筛选策略模型只接收流水线给的东西。下一次演进会彻底翻转这种关系 如果模型可以自己管理上下文呢 如果它能决定记住什么、检索什么、何时压缩、何时遗忘呢第四阶段智能体记忆与自我编辑上下文2024–2025大语言模型本质是无状态的。它们处理输入、生成输出然后忘记一切。除非你明确把之前对话放进下一个提示词否则模型对之前内容毫无记忆。这个架构现实一直是我们绕开的约束——直到研究者提出一个不同问题如果我们给模型管理自己记忆的工具呢这个洞见来自一个意想不到的类比**操作系统。**传统OS用两层架构管理内存虚拟内存所有可用存储理论无限物理内存CPU实际可用的RAM有限且宝贵。操作系统不断在两层之间移动数据把需要的载入RAM不需要的换出。CPU不直接管理OS透明处理。如果我们用同样方式对待LLM虚拟上下文智能体可能需要的一切——完整对话、归档文档、学到的事实、历史任务结果物理上下文真实上下文窗口GPT‑4是128kClaude是200k必然有限。LLM可以充当**内存管理器**决定把什么载入有限窗口、什么存在外部存储。这需要一次根本转变 智能体不再被动接收工程师整理好的上下文而是**通过工具调用主动管理上下文。**模型会拥有memory_write存储、memory_read检索、memory_update修改、memory_delete遗忘等函数。智能体自己决定什么值得记住。最终架构把记忆分成不同层级各有目的与约束。记忆增强 LLM 层级结构核心记忆永远加载在上下文窗口中是智能体的**即时意识**系统指令、当前任务、必须记住的关键事实。体积很小500–2000 token因为每次调用都占用宝贵窗口。核心记忆的修改是显式、慎重的通常通过函数调用让智能体判定某事重要到值得留在即时感知中。工作记忆存放当前对话缓冲区和中间推理近期消息、工具调用结果、计算草稿、当前任务所需内容。约5000–20000 token随新信息到来自然循环。工作记忆自动管理缓冲区满时最旧内容要么压缩进情景记忆要么丢弃。情景记忆存储具体过去事件历史对话、任务结果、用户交互。与工作记忆不同情景记忆结构化、可索引。每个事件带元数据——时间戳、参与者、结果、提到的关键实体。存在外部存储相关时通过搜索拉回。例如智能体可以检索“最近三次讨论用户项目截止日期的记录”。语义记忆捕获长期知识关于用户的事实、习得模式、偏好、领域知识。是陈述性信息“用户更喜欢Python而非JS”“项目评审每周二”“测试环境需要VPN”。通常存在知识图谱、键值库或专用向量库为不同查询模式优化。归档记忆用作完整历史的深度存储完整对话日志、整篇文档、完整代码库。这一层是**按需搜索**绝不批量加载。当智能体需要归档内容时会构造搜索查询只拉取需要的特定片段。自我编辑记忆的执行循环非常清晰用户消息到达智能体读取核心记忆与工作记忆窗口内即时可用内容推理我已有全部信息还是需要检索如需检索调用memory_read相关记忆载入工作记忆处理信息生成回答再次推理这次交互有值得长期记住的内容吗如果有调用memory_write存储关键事实然后更新自身状态。模型通过**对未来有用性的学习判断**而不是硬编码规则来决定记住与遗忘。多样实现路径Letta原名MemGPT直接受OS内存管理启发。智能体通过函数调用主动决定上下文保留内容在衡量长对话理解的LoCoMo基准上达到74%准确率。核心创新智能体显式管理记忆层级知道何时把信息从归档提升到工作记忆何时放回存储。Mem0采用两阶段流水线提取 整合。提取阶段LLM分析每轮新对话识别值得存储的事实整合阶段系统去重、解决冲突、更新已有知识。它使用混合存储向量库做语义搜索图数据库做关系查询键值库做快速事实读取。相比OpenAI内存实现准确率高26%比全上下文方案快91%通过只加载相关记忆而非整段对话节省90% token成本。LangMemLangChain团队推出将记忆明确分为三类语义记忆事实与概念过程记忆操作知识与工作流情景记忆具体过去经历。框架聚焦记忆随时间的演化如何更新、置信度如何衰减、矛盾如何解决。核心难题自我编辑记忆的技术挑战决定记住什么需要判断力。不是每句话都值得存储。智能体必须从对话中提取关键事实过滤客套、跑题、无关细节。当前系统用LLM自身做提取本质是在问“从这段对话中我该存哪些事实供未来参考”提取质量决定整个记忆系统质量。决定遗忘什么同样关键。记忆预算有限——无论用token、存储成本还是检索延迟衡量。旧信息可能过时用户会改变偏好事实会被推翻。系统采用多种遗忘策略重要性随时间衰减、基于置信度修剪、用户显式修正使旧记忆失效。2025年的研究系统MemAgent通过强化学习训练压缩策略能处理350万token在把上下文压缩数个数量级的同时性能下降不到5%。处理记忆冲突非常棘手。如果用户1月说“我住在巴黎”3月说“我住在伦敦”智能体该记住什么策略各异基于时间戳保留最新基于置信度保留语气更肯定的显式冲突追踪两条都记带时间戳关键时让智能体询问澄清。选错就会输出自信却错误的信息。不同应用中的记忆模式基于反思的记忆如MemOrb存储结构化反思而非原始对话。完成任务后智能体生成反思我学到了什么对下次有用这些反思比转录更紧凑、更可执行尤其适合在经验中提升的智能体。基于图的记忆如Mem0的图版本用实体与关系表示信息支持多跳推理——“Alice的老板最喜欢哪家餐厅”纯向量搜索难以高效处理图记忆擅长时序与关系查询但构建和维护更复杂。基于文件系统的记忆效果意外地好。Letta把记忆当成文件智能体迭代搜索。不依赖完美检索而是可以查询、看结果、 refine、再搜索——模仿人类查文档的方式。这个简单模式达到74%准确率超过更复杂图系统的68.5%说明智能体在搜索中的自主权比存储复杂度更重要。**自我编辑记忆系统带来的突破是质变而非量变。上下文不再是工程师拼装的静态输入而是智能体自己管理的动态状态。**智能体不再是被动接收外部系统投喂的上下文而是主动决定什么信息重要、什么该保留、什么可遗忘。自我编辑记忆执行循环这次转变解锁了全新能力智能体可以在跨天、跨周的会话中保持一致身份可以通过存储错误反思在类似场景中吸取教训可以逐步积累用户信息实现个性化不需要显式配置可以处理跨会话任务在中断后保持状态无需人工手动重建上下文。自我编辑记忆转变解锁新能力但架构仍有一个根本局限内存管理仍然是任务无关的。同一套记忆系统服务所有场景智能体用通用工具和策略管理上下文。下一阶段会意识到上下文不只是被管理而是被设计成定义智能体认知架构的系统。第五阶段作为认知架构的上下文2025→到2025年讨论已经彻底转变。搭建生产级AI的团队不再把“该用哪个模型”当作首要问题。GPT‑5、Claude、Gemini在常规任务上都表现强劲。模型已经变成**商品**通过标准化API可互换。真正重要的问题变成“我们该如何架构上下文系统”这次转变来自生产部署中血的教训模型失败已经相对少见现代LLM很好地遵循指令、生成连贯文本、可靠推理但**上下文失败依然泛滥**忘记关键信息、检索文档互相矛盾、记忆系统给出无关事实、漏掉关键内容、工作记忆溢出导致丢失重要状态。正如一位工程负责人所说如今大多数智能体失败不是模型失败而是上下文失败。上下文工程已经从战术问题升级为需要与关键软件架构同等严谨的系统工程学科。上下文不再是递给模型的文本——它是通过显式转换流水线构建的编译产物。工程问题从“我的提示词该写什么”变成“我的上下文编译流水线是什么” 就像软件工程师不手写机器码AI工程师也越来越不手写提示词而是设计从结构化组件生成提示词的系统。转换通过流水线中命名、有序的处理器完成一个注入对话历史一个做检索一个做相关性过滤一个压缩冗长内容。每个处理器按定义方式改造上下文你可以在阶段之间检查精确知道模型会收到什么。这是**系统工程**不是提示词技巧。上下文窗口容量有限管理这种约束需要像在资源受限系统中管理内存一样谨慎。GPT‑4o是128k tokenClaude 3.5 Sonnet是200kGemini 2.0 Flash到100万。这些数字听起来很大但一上生产就不够用30轮详细对话消耗20k检索文档加30k完整工具定义10k语义记忆检索15k。200k窗口在模型开始推理前就用掉75k。实际限制比理论最大值更紧成本随token线性上升延迟随上下文增大上升最关键注意力稀释会降低性能——相关信息埋在大上下文里模型表现明显不如只含相关信息的小上下文。**上下文预算管理成为核心工程问题**给定X token容量什么信息能最大化任务性能策略类似操作系统内存管理压缩总结冗长内容、提取关键事实、去冗余优先级融合相关性、重要性、时效性排序确保关键上下文优先加载懒加载按需拉取不预加载仅在智能体显式请求时拉归档记忆作用域给子智能体最小化上下文避免上下文污染。Anthropic的多智能体研究实证证明**多个专用子智能体 隔离聚焦上下文 单个超大上下文全能智能体。**更小的上下文让每个智能体专注窄领域任务不受干扰。上下文有生命周期每一步都需要显式管理获取从用户输入、工具结果、检索文档、环境观察进入处理提取关键事实、校验过滤幻觉、冲突解决、补充元数据存储决定存去哪里——短期放窗口长期放外部库归档放冷存储检索按查询类型选择策略——语义搜索、时序搜索、实体搜索衰减实现遗忘——不是所有信息永久保留置信度随时间衰减过期矛盾信息被修剪。上下文生命周期这个生命周期类似传统系统的数据管理需要同等工程严谨阶段间清晰接口、显式错误处理、转换点可观测、效果度量指标。**多智能体系统通过共享状态管理带来额外复杂度。**上下文必须在智能体间精心编排注意隔离与共享每个智能体维护自己的工作记忆避免上下文污染但需要访问公共语义记忆共享事实和全局状态任务状态、目标、约束智能体间交接需要显式上下文摘要A完成子任务后传给B压缩摘要而不是让B处理A的全部历史。多智能体上下文协同研究界已经发现上下文工程的若干前沿问题ACE智能体上下文工程在2025年10月论文中提出把上下文当作不断演化的行动手册而非静态提示词。系统通过生成、反思、整理的模块化流程积累、精炼、组织策略。结构化增量更新避免上下文坍塌——反复重写逐渐侵蚀重要细节。ACE在智能体基准上提升10.6%领域任务提升8.6%且无需标注监督只用自然执行反馈。上下文压缩研究从简单摘要升级到**学习型压缩。**2025年的MemAgent通过强化学习训练压缩策略学会在长文档每一段保留什么、丢弃什么本质是学会高效记笔记。这套方法从8000 token训练扩展到处理350万token文档性能下降不到5%——通过智能压缩把有效上下文扩大400倍。上下文对齐研究确保上下文匹配任务目标。Provence作为训练型上下文修剪器学会过滤误导模型的信息。不使用“删除最旧文本”这类启发式规则而是学会哪些具体上下文对特定查询类型有帮助或伤害。2025年一项分析1300篇论文的调研指出现代LLM的关键不对称性 它们理解复杂上下文的能力极强但生成同等复杂长文本输出的能力很弱。模型可以处理百万级token输入并高精度提取信息但让它生成一篇连贯的10000 token文档质量会明显下降。这种不对称性塑造系统设计用LLM做理解与决策用结构化模板与多阶段生成做长文本输出把推理与格式化分离。五年演进带来最关键的洞见非常直白模型可替换上下文不可替换。想想是什么让生产级AI系统有价值模型本身GPT‑4、Claude、Gemini从厂商授权改个API就能换模型在你控制外持续升级模型已经彻底商品化强大、可用、可互换。但你搭建的上下文系统是独一无二的它编码你的领域知识——业务相关的特定事实、流程、模式它捕捉通过数千次交互积累的用户偏好它反映跨项目、决策、经验的组织记忆它包含工作流智能——任务如何拆解、何时用什么工具、不同场景什么信息重要。投资趋势反映了这一现实2022年投入提示词工程——找对文字2023年投入RAG基础设施——向量库、嵌入模型、检索流水线2024年转向上下文架构——记忆系统、压缩策略、组装流水线2025年严肃团队投入**上下文生命周期管理**获取、处理、存储、检索、衰减作为集成系统。**管理上下文的系统才是护城河而非驱动它的模型。**两家用完全相同LLM的公司会因为上下文架构产生天差地别的结果一家能在数月交互中保持连贯记忆另一个每周失忆一家检索文档准确率90%另一个全是无关噪音一家高效压缩对话另一个十几轮就耗尽窗口。这一原则也延伸到个人用户。AI助手的差异化不在底层模型而在它们维护的上下文。一个记住你的沟通风格、理解 recurring 任务、从修正中学习的助手会变得不可替代。模型版本远不如积累的记忆重要。展望未来几条轨迹清晰可见短期到2026年标准化Model Context Protocol 等协议定义上下文集成通用接口压缩技术通过智能摘要与学习型修剪实现1000万token有效窗口多模态上下文把图片、音频、视频像文本一样自然纳入记忆联邦记忆安全跨机构上下文共享不泄露隐私。中期2027年及以后持续学习智能体从上下文学习而非仅使用上下文基于积累经验更新行为元学习智能体学会如何管理上下文通过试错形成记忆策略而非手动配置个性化架构上下文系统为单个用户定制上下文市场领域特定记忆成为可交易资产——购买医疗诊断、法律分析预训练上下文。长期愿景上下文成为主要接口。智能体由记忆与上下文管理定义而非模型架构。你可以下载某人的上下文以获得他们的专业知识让知识转移从抽象变具体。上下文可移植让你跨平台携带积累记忆避免锁定。模型退化成基础设施上下文成为产品。五年间我们走了很远从手动把指令塞进2000 token提示词到搭建管理百万级token的自我管理记忆系统从失忆无状态模型到跨周保持一致身份的智能体从基于文本的提示词工程到架构化系统工程。下一个前沿不是更好的模型。模型已经足够强。 下一个前沿是更好的上下文系统——能够以匹配模型能力的复杂度去获取、处理、存储、检索、遗忘信息的架构。上下文工程已经从战术性提示词写作升级为生产级AI系统的核心技术挑战。模型可替换。上下文才是产品。回顾这场变革五年五次范式转移。我们从提示词工程开始——手工作坊式技艺用精准文字从2000 token记忆的模型中诱导行为。每条指令重复每次对话从零开始。上下文只是你粘贴进盒子里的文本。当我们承认模型无法知道一切时RAG出现。外部知识检索解决了知识陈旧问题但带来了相关性问题。我们学会给模型信息入口但还没学会智能管理入口。当我们意识到上下文不是文本而是架构时上下文工程正式成型。关注点分离、智能筛选、动态组装、渐进式披露。上下文变成带显式转换的编译流水线。工程从文字游戏变成系统设计。智能体记忆翻转了关系。模型开始通过自我编辑工具管理自己的上下文。记忆层级出现核心、工作、情景、语义、归档。智能体从被动消费者变成主动管理者。上下文从静态输入变成活的状态。今天**上下文就是认知架构。**模型是基础设施——强大、商品化、可替换。你搭建的上下文系统定义智能体的能力。记忆管理、上下文生命周期、预算优化、多智能体协同——这些比模型选择更决定上限。这场变革比技术更深层2022年AI工程 写提示词2025年AI工程 系统架构。核心技能从寻找巧妙提示转向设计记忆系统从编写指令转向搭建上下文流水线从管理token转向架构认知状态。AI 上下文工程五年演进生产团队在痛苦中学会 智能体失败更多源于上下文问题而非模型限制。关键信息被遗忘无关噪音淹没有效信号记忆冲突未解决上下文预算溢出。模型愿意且有能力——上下文系统才是瓶颈。改变一切的洞见**模型可替换上下文不可替换。**改一行API就能把GPT‑4换成Claude、Gemini。但你搭建的上下文系统——编码领域知识、捕捉用户偏好、维持对话连续性、管理工具权限——是独特、有价值、不可替代的。这就是投资趋势转变的原因 从提示词工程 → RAG基础设施 → 上下文架构 → 记忆生命周期管理。每个阶段都代表一层更深的理解模型是处理器上下文是程序。-------------------------------------------------------------微信公众号算子之心

更多文章