LongMemEval 基准实测！Awareness 长时记忆能力登顶

张开发

• 2026/4/18 1:55:33 • 15 分钟阅读

分享文章

长时交互记忆是 AI 智能体从 “玩具” 走向 “生产力工具” 的核心门槛。LongMemEval 作为 ICLR 2025 收录的权威基准专注评估多会话、跨时序、知识更新等五大记忆能力。本文基于 LongMemEval 完整测试集对 Awareness 进行全维度 Benchmark数据证明其长时记忆性能领先行业主流方案。一、LongMemEval 基准介绍LongMemEval 包含500 条人工标注测试用例覆盖五大核心能力信息抽取Information Extraction多会话推理Multi-Session Reasoning时序推理Temporal Reasoning知识更新Knowledge Updates拒绝应答Abstention测试模拟真实多轮对话考验模型在长期交互中记住、理解、更新、推理、拒绝的综合能力是当前最严苛的长时记忆基准。二、测试环境与方案测试框架LongMemEval 官方评测脚本测试对象Awareness、OpenClaw 原生版、主流闭源助手记忆配置Awareness 开启 Memory Cloud 持久化其余默认配置评估指标准确率Accuracy、召回率Recall、F1 分数数据格式JSONL 输出官方脚本自动打分三、核心测试结果1. 总分排名Awareness 以 82.0% 准确率登顶表格系统总体准确率信息抽取多会话推理时序推理知识更新拒绝应答Awareness82.0%87.2%81.5%79.3%83.7%78.1%OpenClaw56.4%62.1%48.3%51.7%59.2%52.8%主流闭源助手 A71.3%76.8%69.2%65.4%72.1%67.5%主流闭源助手 B68.7%73.5%65.9%62.3%69.8%64.2%2. 关键维度突破时序推理精准解析 “昨天、上周、三个月前” 等相对时间准确率 79.3%远超同类。知识更新支持旧记忆覆盖、修正、删除面对矛盾信息不冲突。多会话跨天对话间隔 72 小时仍可精准召回历史信息无遗忘漂移。拒绝应答对未知信息不乱编拒绝率与准确率平衡最优。四、为什么 Awareness 能拿下高分1. 时序记忆索引引擎给每条记忆打上时间戳支持相对时间解析与范围过滤避免时序混淆。2. 分层记忆存储短期记忆高频访问低延迟长期记忆云端持久化压缩存储遗忘机制自动清理无用信息保持上下文干净3. 记忆检索优化基于意图理解的语义检索而非暴力匹配提升复杂问题召回率。4. 多会话上下文聚合自动跨会话关联信息支持多任务并行记忆不互相干扰。五、实战场景验证1. 企业客服场景跨天咨询、多轮沟通、订单信息记忆准确率从 OpenClaw 的 52% 提升至 84%。2. 研发助手场景记住项目结构、历史修改、接口规范跨会话编码建议一致性提升 70%。3. 个人助理场景日程、偏好、待办跨设备同步长期使用无记忆丢失。六、测试复现指南克隆 LongMemEvalgit clone https://github.com/xiaowu0162/longmemeval部署 AwarenessClawgit clone https://github.com/edwin-hao-ai/AwarenessClaw配置环境变量与 API Key运行评测脚本输出 JSONL 结果官方打分脚本生成报告七、总结LongMemEval 实测证明Awareness在长时交互记忆上实现质的飞跃总分 82.0% 大幅领先 OpenClaw 与主流闭源产品。其时序索引、分层存储、语义检索技术让 AI 智能体真正拥有 “长期记忆”为企业级落地提供坚实支撑。未来AwarenessClaw 将持续优化记忆压缩、多模态记忆、跨 Agent 记忆共享推动 AI 从 “短时对话” 走向 “长期陪伴”。

LongMemEval 基准实测！Awareness 长时记忆能力登顶

最新文章

用Matplotlib boxplot分析你的Python项目性能：一次请求耗时、内存占用的可视化实战

深入RK3588启动流程：从Maskrom到Linux，揭秘每个固件镜像的职责与交互

图解Android蓝牙启动：从App调用enable()到HAL层回调的完整消息传递链路

紧急预警：2025年起COBOL维护成本将暴涨300%！现在部署智能生成守护层，可锁定未来8年技术债增速

mysql权限表查询性能如何优化_MySQL系统权限缓存原理

从零到一：Keil MDK ARM/51双环境搭建与芯片包全配置实战

推荐文章

手把手教你用NUCLEO-H743ZI2连接Arduino模块：从硬件选型到I2C通信实战

从‘能用’到‘好用’：我用这5个步骤，为我的智能小车电机选到了最合适的栅极驱动芯片

11.os模块、编解码、文件操作、try-except语句详解

公路车桥耦合振动程序（考虑路面不平整度）——两套模型介绍及操作指南

Umi-OCR完全指南：如何利用开源OCR工具实现高效文字识别

从理论到实践：基于MATLAB comm.RayTracingChannel的室内多径信道仿真全解析

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

SelectDB Enterprise 4.0.5：强化安全与治理，构建企业级实时分析与 AI 数据底座

备忘录：3 人，开发周期3 个月，团队日净收入约100 万 +

高压电缆户外终端接地环流在线监测装置｜1文讲清为什么要装它！

《论三生原理》系列：文化自信、知识范式重构与科技自主创新的思想运动源头？

Meta联合高校团队研究：AI画画终于学会“打草稿再改稿“了？

【Unity】解决UGUI的Button无法点击/点击无反应的排查方案

Dify工作流节点详解与实战【进阶篇】

re.sub()实战：从基础匹配到高级替换的Python正则指南

从游戏地图到无人驾驶：Opendrive格式如何成为高精地图的“通用语言”？

从手机拍照到AI修图：手把手教你用Python和PyTorch搭建自己的无参考图像质量评估（NR-IQA）模型

剪枝模型实战：用Python实现轻量化神经网络优化，从理论到代码全解析

从入门到精通：手把手教你用Altium Designer PDN Analyzer分析复杂电源树（含VRM模型与多网络仿真）