为什么大多数LLM记忆系统在20轮对话后就崩了?一种时间层级记忆方案

张开发
2026/4/21 21:10:41 15 分钟阅读

分享文章

为什么大多数LLM记忆系统在20轮对话后就崩了?一种时间层级记忆方案
为什么大多数LLM记忆系统在20轮对话后就崩了用过 ChatGPT、Claude 或者任何基于大模型的对话应用你可能都有过这种体验前几轮对话 AI 很聪明但聊到第20轮、第50轮的时候它开始忘事了。之前说过的偏好、做过的决定AI 好像完全不记得。这不是错觉而是整个行业面临的真实技术瓶颈。一、AI 为什么会「失忆」大模型有「上下文窗口」限制能同时处理的信息量有上限。对话超出窗口后早期信息被截断或丢失。目前主流方案是「记忆检索」——把历史对话存起来需要时用向量搜索找回来塞进上下文。但实际有三个致命问题1. 没有时间概念三个月前用户说「我最近在学Python」和昨天说的权重一样。但实际重要性完全不同。2. 所有记忆都是「平的」随口一句话和长期行为习惯被同等对待分不清该记住什么、该遗忘什么。3. 记忆越多上下文越乱存储的记忆条目增加后检索回来的内容越来越杂反而影响回答质量。二、时间层级记忆TiMEM 的思路我们做了一个开源项目 TiMEM核心思路是把记忆按时间维度分成5层像人脑一样逐层抽象和压缩层级名称示例L1碎片记忆「用户问了 Python 装饰器的用法」L2会话摘要「用户在学习 Python 高级特性」L3日模式「用户这周每天都在学 Python」L4周趋势「用户习惯工作日晚上学习重心从基础转向 Web 框架」L5稳定画像「中级 Python 开发者偏好实战案例」关键思想不是所有记忆都值得保留同样的细节。随口提一句的信息停留在 L1 然后自然衰减反复出现的行为提升到 L3/L4稳定特征到达 L5 长期保存。三、Benchmark 结果在两个学术界认可的评测集上LoCoMo长对话记忆75.30%测试时最高分LongMemEval-S单会话长记忆76.88%测试时最高分记忆 token 消耗减少 52.2%——检索压缩后的周趋势摘要比检索50条原始片段高效得多四、快速上手pipinstalltimem-aifromtimemimportTiMEM memoryTiMEM(api_keyyour-key)# 存储对话memory.add(user_iduser_123,content我最近在学 Rust之前一直写 Python)# 检索记忆resultsmemory.search(user_iduser_123,query这个用户会什么编程语言) 支持 OpenAI、Claude、智谱、Qwen 以及本地模型。## 五、还没解决的问题跨会话一致性我们还在迭代——同一用户在不同应用里产生的记忆如何合并目前没有特别优雅的方案。欢迎交流。## 相关链接-GitHub[github.com/TiMEM-AI/timem](https://github.com/TiMEM-AI/timem)--论文[arXiv2601.02845](https://arxiv.org/abs/2601.02845)--官网[timem.ai](https://timem.ai)

更多文章