LongMemEval 基准实测!Awareness 长时记忆能力登顶

张开发
2026/4/18 1:55:33 15 分钟阅读

分享文章

LongMemEval 基准实测!Awareness 长时记忆能力登顶
长时交互记忆是 AI 智能体从 “玩具” 走向 “生产力工具” 的核心门槛。LongMemEval 作为 ICLR 2025 收录的权威基准专注评估多会话、跨时序、知识更新等五大记忆能力。本文基于 LongMemEval 完整测试集对 Awareness 进行全维度 Benchmark数据证明其长时记忆性能领先行业主流方案。一、LongMemEval 基准介绍LongMemEval 包含500 条人工标注测试用例覆盖五大核心能力信息抽取Information Extraction多会话推理Multi-Session Reasoning时序推理Temporal Reasoning知识更新Knowledge Updates拒绝应答Abstention测试模拟真实多轮对话考验模型在长期交互中记住、理解、更新、推理、拒绝的综合能力是当前最严苛的长时记忆基准。二、测试环境与方案测试框架LongMemEval 官方评测脚本测试对象Awareness、OpenClaw 原生版、主流闭源助手记忆配置Awareness 开启 Memory Cloud 持久化其余默认配置评估指标准确率Accuracy、召回率Recall、F1 分数数据格式JSONL 输出官方脚本自动打分三、核心测试结果1. 总分排名Awareness 以 82.0% 准确率登顶表格系统总体准确率信息抽取多会话推理时序推理知识更新拒绝应答Awareness82.0%87.2%81.5%79.3%83.7%78.1%OpenClaw56.4%62.1%48.3%51.7%59.2%52.8%主流闭源助手 A71.3%76.8%69.2%65.4%72.1%67.5%主流闭源助手 B68.7%73.5%65.9%62.3%69.8%64.2%2. 关键维度突破时序推理精准解析 “昨天、上周、三个月前” 等相对时间准确率 79.3%远超同类。知识更新支持旧记忆覆盖、修正、删除面对矛盾信息不冲突。多会话跨天对话间隔 72 小时仍可精准召回历史信息无遗忘漂移。拒绝应答对未知信息不乱编拒绝率与准确率平衡最优。四、为什么 Awareness 能拿下高分1. 时序记忆索引引擎给每条记忆打上时间戳支持相对时间解析与范围过滤避免时序混淆。2. 分层记忆存储短期记忆高频访问低延迟长期记忆云端持久化压缩存储遗忘机制自动清理无用信息保持上下文干净3. 记忆检索优化基于意图理解的语义检索而非暴力匹配提升复杂问题召回率。4. 多会话上下文聚合自动跨会话关联信息支持多任务并行记忆不互相干扰。五、实战场景验证1. 企业客服场景跨天咨询、多轮沟通、订单信息记忆准确率从 OpenClaw 的 52% 提升至 84%。2. 研发助手场景记住项目结构、历史修改、接口规范跨会话编码建议一致性提升 70%。3. 个人助理场景日程、偏好、待办跨设备同步长期使用无记忆丢失。六、测试复现指南克隆 LongMemEvalgit clone https://github.com/xiaowu0162/longmemeval部署 AwarenessClawgit clone https://github.com/edwin-hao-ai/AwarenessClaw配置环境变量与 API Key运行评测脚本输出 JSONL 结果官方打分脚本生成报告七、总结LongMemEval 实测证明Awareness在长时交互记忆上实现质的飞跃总分 82.0% 大幅领先 OpenClaw 与主流闭源产品。其时序索引、分层存储、语义检索技术让 AI 智能体真正拥有 “长期记忆”为企业级落地提供坚实支撑。未来AwarenessClaw 将持续优化记忆压缩、多模态记忆、跨 Agent 记忆共享推动 AI 从 “短时对话” 走向 “长期陪伴”。

更多文章