2021-07 · ACL 2022 · Meta AI
MSC — Multi-Session Chat
"Beyond Goldfish Memory"
动机:现有对话模型只在单轮/短会话上训练,完全无法处理跨 session 的长期人际关系记忆——就像金鱼只有7秒记忆。
做法:收集人工标注的多会话人-人对话数据集(5个 session),对话者逐渐相互了解;提供 persona 摘要作为记忆载体,评估模型能否利用历史摘要生成一致性回复。
规模:约5K段对话,多轮跨 session
2024-02 · Snap Research
LoCoMo
Long-term Conversational Memory — 最常用对话记忆基准
动机:现有长对话数据集不超过5个 session,远不够反映真实的长期人际关系演变和时序动态。
做法:用 LLM-agent 架构 + 时间事件图谱生成高质量超长对话(300轮,9K token,最多35 session),人工验证一致性;评估任务含 QA、事件摘要、多模态对话生成三类,含时序推理。
规模:50段对话,每段均值9K token,300轮/35 session
2024-02 · 清华 · COLM 2024
∞Bench(InfBench)
首个平均长度超 100K token 的 LLM 评估基准
动机:现有基准最长约 10K token,根本无法评测"真正长上下文"中的记忆和推理能力。
做法:设计合成+真实任务覆盖多域(英中),平均 100K+ token;任务要求理解长程依赖,不能靠简单片段检索通过;评估书籍理解、代码调试、长对话等场景。
发现:现有长上下文 LLM 在 100K+ 场景中仍大幅落后,急需改进
2024-04 · NVIDIA · COLM 2024
RULER
揭示 NIAH 测试的虚假繁荣
动机:几乎所有 LLM 在 NIAH(针-草垛)测试上接近满分,但这是假象——NIAH 太简单,无法反映真实长上下文能力。
做法:在 NIAH 基础上扩展出多类针、多跳追踪、聚合任务等 13 种任务,支持灵活的序列长度和复杂度配置,评估 17 个 LLM。
发现:声称支持 32K+ 的模型只有一半能在 32K 下保持合格性能
2024-06 · NeurIPS 2024 Datasets & Benchmarks
StreamBench
评估 LLM Agent 从流式反馈中持续自我提升的能力
动机:现有 LLM Benchmark 只测先验能力,没有测 "部署后能否从错误反馈中学习并改进",而这是真实应用中最关键的能力。
做法:构建流式在线学习环境,LLM 接收连续任务流和反馈,迭代提升;评估学习速度、记忆利用率和泛化性;提出 ReMem(action-think-memory 循环)基线。
2024-06 · NAACL 2025
Hello Again! / LD-Agent
长期个性化对话 Agent 框架 + 评估
动机:现有对话系统聚焦短期单 session,缺乏跨时间的事件感知和个性化人格建模,用户体验割裂。
做法:提出 LD-Agent(Long-term Dialogue Agent),含三个独立可调模块:事件感知(长/短期记忆库 + 主题检索)、persona 提取、回复生成;在 MSC、LoCoMo 等多个 benchmark 上验证。
2024-10 · ICLR 2025 · 普林斯顿陈丹琦组
HELMET
How to Evaluate Long-context Models Effectively and Thoroughly
动机:现有长上下文评估方法各自为政——用 NIAH 或随机任务子集,覆盖不全、信噪比低、不适配 base 模型,导致排名不稳定。
做法:7类应用导向任务(RAG、摘要、多跳推理、ICL、代码等),最长 128K,基于 LLM-judge 可靠评估,few-shot 支持 base 模型;评估 59 个主流 LLM。
发现:NIAH 满分≠下游性能;开源模型与闭源差距随长度增大
2024-10 · ICLR 2025
LongMemEval ⭐
对话助手长期记忆综合评测,最广泛引用
动机:集成了记忆组件的商业 AI 助手(如 ChatGPT Memory)在长期交互中的记忆能力从未被系统评估过——用户在几周后提到的细节,AI 能记住吗?
做法:500道精心设计问题嵌入可扩展的用户-助手聊天历史中,覆盖5大能力:信息提取、跨会话推理、时间推理、知识更新、弃权拒答;提出 session 分解 + 事实增强索引 + 时间感知查询扩展三大优化。
发现:商业助手和长上下文 LLM 准确率下降 30%+
2024-10
PersoBench
Persona-aware 对话生成个性化能力自动化评测
动机:LLM 在对话流畅度上表现出色,但能否真正"用上" persona 信息生成个性化回复尚不清楚,缺乏自动化评测流水线。
做法:构建自动化评测管道:speaker 标注 → 结构化 prompt 构建 → 多维度评估(流畅度、个性化、多样性、连贯性);在4开源+4闭源 LLM 上评估,零样本设定。
2025-01 · ICLR 2025 · 华为 + 认知科学
Episodic Memory Benchmark(Tulving)
受认知科学启发的时空情节记忆评测
动机:情节记忆(记住"在哪里、什么时候、发生了什么")是人类认知的核心,但 LLM 缺乏稳健的情节记忆机制,相关评测完全空白。
做法:基于认知科学框架,对情节事件建模(时间+空间+实体+描述);合成11个无污染数据集(不同规模和多样性);评估多种召回和情节推理任务,含时空关系复杂度分析。
发现:GPT-4、Claude、o1-mini 在多事件时空推理上均失败,即便上下文仅 10k-100k
2025-06 · ACL 2025 Findings
MemBench
双层次记忆 × 多维度评估(有效性 + 效率 + 容量)
动机:现有记忆评测局限于单一记忆层次(通常只测事实记忆)和单一交互场景,无法全面反映 Agent 在动态环境中的记忆综合能力。
做法:提出事实记忆(Factual)+ 反思记忆(Reflective)双层次,以及参与式(Participation)+ 观察式(Observation)两种场景;从有效性、效率、容量三维度评估 Agent 记忆质量。
2025-07 · ICLR 2026 accepted
MemoryAgentBench ⭐
首个专为 Memory Agent 设计的增量多轮交互基准
动机:现有 LLM 评估聚焦推理/规划/执行,对记忆机制(Agent 如何记忆、更新、检索长期信息)严重欠评估,且没有 benchmark 覆盖所有4项核心记忆能力。
做法:基于认知科学定义4大核心能力:精准召回(Accurate Retrieval)、测试时学习(Test-time Learning)、长程理解(Long-range Understanding)、选择性遗忘(Selective Forgetting);将已有长上下文数据集转化为多轮增量交互格式,模拟真实 memory agent 的信息积累过程;评估从简单 RAG 到带外部记忆模块的 agent 谱系。
发现:现有方法无法同时掌握全部4项能力
2025-08 · 慕尼黑 + 爱丁堡等
Memory-R1
用 RL 训练 LLM 主动管理外部记忆(在 LoCoMo/MSC/LongMemEval 上验证)
动机:现有 LLM 记忆管理是静态启发式的,缺乏"决定什么值得存储/更新/删除"的学习机制,导致记忆质量和利用率低下。
做法:提出双 Agent RL 框架:Memory Manager(学习 ADD/UPDATE/DELETE/NOOP 操作,PPO 训练)+ Answer Agent(从记忆中提炼关键信息,GRPO 训练);仅用 152 训练 QA 对,在 LoCoMo、MSC、LongMemEval 三基准验证;3B–14B 模型规模泛化。
2025-10
BEAM(Beyond a Million Tokens)
100K–10M token 对话,2000题,配套 LIGHT 认知记忆框架
动机:现有 benchmark 叙事不连贯、域覆盖窄、只测简单召回,无法评测百万 token 级对话场景下的真实记忆能力。
做法:自动生成框架创建最长 10M token 的连贯多域对话,含 100 段对话 + 2000 个验证问题;配套 LIGHT 框架(长期情节记忆 + 短期工作记忆 + 事实摘要板),在各主流 LLM 上实现 3.5–12.69% 性能提升。
2025-10
MemoryBench(Continual Learning)
用户反馈驱动的 LLM 持续学习能力评测
动机:现有 LLM 记忆 benchmark 聚焦于长形输入的阅读理解,不测"服务中从用户反馈中学习并持续优化",而后者才是实际产品最需要的。
做法:构建用户反馈模拟框架,覆盖多域(通用+专业)、多语言、多任务类型;评估 LLM 在累积反馈下的持续学习有效性和效率;现有方法均大幅不达预期。
2025-12 · UPenn / MIT / UW 等
PersonaMem-v2 ⭐
隐式偏好推断 × 128K 上下文 × RL 微调
动机:真实世界中用户偏好多为隐式表达(从言行中推断),现有个性化 benchmark 大多测显式偏好,与实际场景严重脱节。
做法:模拟 1000 个现实用户-聊天机器人交互场景,300+ 场景类别,20000+ 用户偏好,128K 上下文窗口;偏好多为隐式;用 RL 微调(强化学习)让 Qwen3-4B 学会长上下文隐式个性化推理,超过 GPT-5(53% vs 37-48%);Agentic Memory 框架用 2K token 记忆替代 32K 历史,达 55% 最优。
发现:前沿 LLM 隐式个性化仅 37-48%,推理是瓶颈而非上下文长度
2026-03 · 最新 · Cambridge + 剑桥
ATM-Bench(According to Me)🆕
首个多模态多源长期个人记忆 QA Benchmark
动机:现有长期记忆 benchmark 局限于对话历史,无法捕捉真实的个人记忆——图像、视频、邮件等多源信息交织,且充满个人指称("我上次去的那家餐厅")。
做法:基于约4年真实个人生活记录(隐私保护处理),含图像/视频/邮件等多源,人工标注 QA 对并附真实记忆证据;设计 Hard 子集(需多证据推理、冲突消解、个人指称解析);提出 Schema-Guided Memory(SGM)结构化记忆表示。
发现:5个 SOTA 记忆系统在 Hard 集上准确率 <20%,SGM 优于描述式记忆