🧠 大模型长文本 Memory Benchmark 综述

Text Memory Evaluation for Large Language Models · 2021–2026

📄 14+ Benchmarks 🗓️ 2021–2026 🔍 对话记忆 · Agent记忆 · 个性化 · 情节记忆 ✍️ 2026-04-28 整理
📌

为什么需要 Memory Benchmark?

LLM 的上下文窗口再大也是有限的——真实用户与 AI 的交互往往跨越数周乃至数年,产生数百轮对话。
如何让 LLM 记住用户偏好、历史事件、关系演变、知识更新,并在数千轮之后精准召回, 是实现真正个性化 AI 助手的核心挑战。传统的 NIAH(针-草垛)测试只考察能否检索到, 而 Memory Benchmark 关注的是更难的问题:跨时间的推理、偏好更新、选择性遗忘、冲突消解

2021 · Meta AI (ACL 2022)
MSC(Multi-Session Chat)
首个多会话长期对话数据集,奠定跨 session 记忆研究基础
2024-02 · Snap Research
LoCoMo
300轮 / 35 session 超长对话,含事件图谱与多模态,奠定行业基准
2024-10 · ICLR 2025
LongMemEval
500题,覆盖时间推理、知识更新、弃权,现已成为最常引用的对话记忆基准
2024-10 · ICLR 2025
HELMET
7类任务、59个LLM、128K长度,全面评估长上下文能力(含记忆相关任务)
2024-10
PersoBench
评估 persona-aware 对话生成中的个性化能力
2025-01 · ICLR 2025
Episodic Memory Benchmark(Tulving)
受认知科学启发,评估时空情节记忆的召回与推理
2025-06 · ACL 2025 Findings
MemBench
事实记忆 + 反思记忆双层次,兼顾有效性、效率和容量
2025-07 · ICLR 2026 accepted
MemoryAgentBench
四大能力:精准召回、测试时学习、长程理解、选择性遗忘
2025-10
BEAM(Beyond a Million Tokens)
10M token 对话,多领域,配套 LIGHT 认知记忆框架
2025-10
MemoryBench(Continual Learning)
用户反馈驱动的持续学习评估,多域多语言
2025-12 · 最新版本
PersonaMem-v2
1000场景 / 128K 上下文,隐式偏好推断,GPT-5仅37-48%准确率
2026-03 · 最新
ATM-Bench(According to Me)
首个多模态多源个人记忆QA,~4年真实生活记录,RAG 系统 <20% 准确率
🗂️

Memory Benchmark 分类体系

按评估目标和设定场景,现有 Memory Benchmark 可归为以下六大类型:

💬 对话记忆(Conversational)

评估 LLM 在长期多轮对话中记住用户信息、历史事件的能力。

  • MSC(2021)— 多会话人类对话
  • LoCoMo(2024)— 300轮/35session
  • LongMemEval(2024)— 500题,信息提取+推理
  • Hello Again / LD-Agent(2024)

🤖 Agent 记忆(Agentic)

评估记忆 Agent 的存储、更新、检索、遗忘能力,强调增量多轮交互。

  • MemoryAgentBench(2025)— 4核能力
  • StreamBench(2024)— 流式自我进化
  • Memory-R1(2025)— RL驱动记忆管理

👤 个性化记忆(Personalization)

评估从对话历史中提取并利用用户偏好、兴趣、人格特征的能力。

  • PersonaMem-v2(2025)— 隐式偏好推断
  • PersoBench(2024)— Persona-aware生成
  • ATM-Bench(2026)— 多模态个人记忆

📜 情节记忆(Episodic)

评估 LLM 对特定时间地点事件的记忆,参照认知科学 Tulving 框架。

  • Episodic Memory Benchmark(2025)— 时空情节
  • LoCoMo 的事件图谱部分

📏 长上下文理解(Long Context)

评估 LLM 在超长上下文中的综合能力,包括检索、推理、摘要等,与记忆强相关。

  • HELMET(2024)— 7类任务,128K
  • ∞Bench(2024)— 100K+ 首个此类
  • BEAM(2025)— 10M token,2000题
  • RULER(2024)— 合成长上下文测试

🔄 持续学习(Continual Learning)

评估 LLM 从用户反馈中动态更新自身知识和行为的能力,区别于静态长上下文。

  • MemoryBench(2025)— 用户反馈驱动
  • MemBench(2025)— 事实+反思,效率维度
📊

Benchmark 详细解析(14篇)

每条包含:一句话动机 + 一句话做法 + 关键数据与发现。

2021-07 · ACL 2022 · Meta AI
MSC — Multi-Session Chat
"Beyond Goldfish Memory"
动机:现有对话模型只在单轮/短会话上训练,完全无法处理跨 session 的长期人际关系记忆——就像金鱼只有7秒记忆。
做法:收集人工标注的多会话人-人对话数据集(5个 session),对话者逐渐相互了解;提供 persona 摘要作为记忆载体,评估模型能否利用历史摘要生成一致性回复。
规模:约5K段对话,多轮跨 session
2024-02 · 清华 · COLM 2024
∞Bench(InfBench)
首个平均长度超 100K token 的 LLM 评估基准
动机:现有基准最长约 10K token,根本无法评测"真正长上下文"中的记忆和推理能力。
做法:设计合成+真实任务覆盖多域(英中),平均 100K+ token;任务要求理解长程依赖,不能靠简单片段检索通过;评估书籍理解、代码调试、长对话等场景。
发现:现有长上下文 LLM 在 100K+ 场景中仍大幅落后,急需改进
2024-04 · NVIDIA · COLM 2024
RULER
揭示 NIAH 测试的虚假繁荣
动机:几乎所有 LLM 在 NIAH(针-草垛)测试上接近满分,但这是假象——NIAH 太简单,无法反映真实长上下文能力。
做法:在 NIAH 基础上扩展出多类针、多跳追踪、聚合任务等 13 种任务,支持灵活的序列长度和复杂度配置,评估 17 个 LLM。
发现:声称支持 32K+ 的模型只有一半能在 32K 下保持合格性能
2024-06 · NeurIPS 2024 Datasets & Benchmarks
StreamBench
评估 LLM Agent 从流式反馈中持续自我提升的能力
动机:现有 LLM Benchmark 只测先验能力,没有测 "部署后能否从错误反馈中学习并改进",而这是真实应用中最关键的能力。
做法:构建流式在线学习环境,LLM 接收连续任务流和反馈,迭代提升;评估学习速度、记忆利用率和泛化性;提出 ReMem(action-think-memory 循环)基线。
2024-06 · NAACL 2025
Hello Again! / LD-Agent
长期个性化对话 Agent 框架 + 评估
动机:现有对话系统聚焦短期单 session,缺乏跨时间的事件感知和个性化人格建模,用户体验割裂。
做法:提出 LD-Agent(Long-term Dialogue Agent),含三个独立可调模块:事件感知(长/短期记忆库 + 主题检索)、persona 提取、回复生成;在 MSC、LoCoMo 等多个 benchmark 上验证。
2024-10
PersoBench
Persona-aware 对话生成个性化能力自动化评测
动机:LLM 在对话流畅度上表现出色,但能否真正"用上" persona 信息生成个性化回复尚不清楚,缺乏自动化评测流水线。
做法:构建自动化评测管道:speaker 标注 → 结构化 prompt 构建 → 多维度评估(流畅度、个性化、多样性、连贯性);在4开源+4闭源 LLM 上评估,零样本设定。
2025-01 · ICLR 2025 · 华为 + 认知科学
Episodic Memory Benchmark(Tulving)
受认知科学启发的时空情节记忆评测
动机:情节记忆(记住"在哪里、什么时候、发生了什么")是人类认知的核心,但 LLM 缺乏稳健的情节记忆机制,相关评测完全空白。
做法:基于认知科学框架,对情节事件建模(时间+空间+实体+描述);合成11个无污染数据集(不同规模和多样性);评估多种召回和情节推理任务,含时空关系复杂度分析。
发现:GPT-4、Claude、o1-mini 在多事件时空推理上均失败,即便上下文仅 10k-100k
2025-06 · ACL 2025 Findings
MemBench
双层次记忆 × 多维度评估(有效性 + 效率 + 容量)
动机:现有记忆评测局限于单一记忆层次(通常只测事实记忆)和单一交互场景,无法全面反映 Agent 在动态环境中的记忆综合能力。
做法:提出事实记忆(Factual)+ 反思记忆(Reflective)双层次,以及参与式(Participation)+ 观察式(Observation)两种场景;从有效性、效率、容量三维度评估 Agent 记忆质量。
2025-08 · 慕尼黑 + 爱丁堡等
Memory-R1
用 RL 训练 LLM 主动管理外部记忆(在 LoCoMo/MSC/LongMemEval 上验证)
动机:现有 LLM 记忆管理是静态启发式的,缺乏"决定什么值得存储/更新/删除"的学习机制,导致记忆质量和利用率低下。
做法:提出双 Agent RL 框架:Memory Manager(学习 ADD/UPDATE/DELETE/NOOP 操作,PPO 训练)+ Answer Agent(从记忆中提炼关键信息,GRPO 训练);仅用 152 训练 QA 对,在 LoCoMo、MSC、LongMemEval 三基准验证;3B–14B 模型规模泛化。
2025-10
BEAM(Beyond a Million Tokens)
100K–10M token 对话,2000题,配套 LIGHT 认知记忆框架
动机:现有 benchmark 叙事不连贯、域覆盖窄、只测简单召回,无法评测百万 token 级对话场景下的真实记忆能力。
做法:自动生成框架创建最长 10M token 的连贯多域对话,含 100 段对话 + 2000 个验证问题;配套 LIGHT 框架(长期情节记忆 + 短期工作记忆 + 事实摘要板),在各主流 LLM 上实现 3.5–12.69% 性能提升。
2025-10
MemoryBench(Continual Learning)
用户反馈驱动的 LLM 持续学习能力评测
动机:现有 LLM 记忆 benchmark 聚焦于长形输入的阅读理解,不测"服务中从用户反馈中学习并持续优化",而后者才是实际产品最需要的。
做法:构建用户反馈模拟框架,覆盖多域(通用+专业)、多语言、多任务类型;评估 LLM 在累积反馈下的持续学习有效性和效率;现有方法均大幅不达预期。
2026-03 · 最新 · Cambridge + 剑桥
ATM-Bench(According to Me)🆕
首个多模态多源长期个人记忆 QA Benchmark
动机:现有长期记忆 benchmark 局限于对话历史,无法捕捉真实的个人记忆——图像、视频、邮件等多源信息交织,且充满个人指称("我上次去的那家餐厅")。
做法:基于约4年真实个人生活记录(隐私保护处理),含图像/视频/邮件等多源,人工标注 QA 对并附真实记忆证据;设计 Hard 子集(需多证据推理、冲突消解、个人指称解析);提出 Schema-Guided Memory(SGM)结构化记忆表示。
发现:5个 SOTA 记忆系统在 Hard 集上准确率 <20%,SGM 优于描述式记忆
⚖️

横向对比总览

Benchmark 年份 场景 最大长度 多轮增量 时序推理 个性化 知识更新 多模态 发表
MSC 2021 多 session 对话 ~5K ACL 2022
LoCoMo 2024 超长对话 9K avg / 35 session arXiv
∞Bench 2024 长文档/代码/对话 100K+ avg COLM 2024
RULER 2024 合成长上下文 128K+ COLM 2024
HELMET 2024 7类长上下文任务 128K ICLR 2025
LongMemEval 2024 对话助手记忆 可扩展 ICLR 2025
StreamBench 2024 流式在线学习 流式 NeurIPS 2024
Episodic Bench 2025 情节记忆 10K–100K ICLR 2025
MemBench 2025 Agent 记忆 多轮 ACL 2025 Findings
MemoryAgentBench 2025 Memory Agent 增量多轮 ICLR 2026
BEAM 2025 超长对话 10M token arXiv
PersonaMem-v2 2025 隐式个性化 128K arXiv
ATM-Bench 2026 多模态个人记忆 ~4年数据 arXiv 2026

✓ 支持  △ 部分支持  – 不支持/不涉及

💡

核心洞察与趋势

⚠️ NIAH 不等于真实记忆能力

RULER、HELMET 均证明:在 NIAH 上接近满分的 LLM,在真实长程推理任务上仍大幅落后。"能找到针" ≠ "能理解干草垛"。

⚠️ 隐式个性化是当前最大短板

PersonaMem-v2 显示前沿 LLM 在隐式偏好推断上仅 37–48%,远低于显式个性化场景。用户从不直说"我喜欢 X",AI 需要从行为中推断。

⚠️ 多模态多源记忆几乎未被解决

ATM-Bench 的 Hard 集:5个 SOTA 记忆系统准确率 <20%。图像+邮件+对话交织的个人记忆对现有 RAG 系统来说几乎不可解。

✅ RL 训练是解锁记忆管理的关键

Memory-R1 和 PersonaMem-v2 均证明:RL 微调(PPO/GRPO)能让小模型(3B–7B)在记忆操作和隐式推理上超越更大的基础模型,数据效率极高(152 QA 对)。

✅ 外部记忆比超长上下文更高效

PersonaMem-v2:2K token 外部记忆替代 32K 原始历史,达到更高精度(55% vs 48%),同时节省 16× 输入 token。上下文长度是必要非充分条件。

📈 趋势:从"检索"到"认知"

早期 benchmark 测"能否找到信息"(检索层),最新工作(MemoryAgentBench、ATM-Bench、Episodic Bench)开始评测"选择性遗忘、冲突消解、时空情节推理"——向人类认知靠拢。

📈 趋势:增量多轮 > 静态长上下文

MemoryAgentBench 明确指出:书级 QA(如 NarrativeQA)不能评估 Memory Agent,因为现实中信息是逐步增量到来的,而非一次性全量输入。

📈 趋势:个性化记忆成为独立子方向

从 PersonaMem-v2 到 ATM-Bench,"了解这个具体用户"正成为独立研究方向,区别于通用长上下文理解,要求模型维护随时间演变的用户画像。