大模型长文本 Memory Benchmark 综述 (2021

📌

为什么需要 Memory Benchmark？

LLM 的上下文窗口再大也是有限的——真实用户与 AI 的交互往往跨越数周乃至数年，产生数百轮对话。
如何让 LLM 记住用户偏好、历史事件、关系演变、知识更新，并在数千轮之后精准召回，是实现真正个性化 AI 助手的核心挑战。传统的 NIAH（针-草垛）测试只考察能否检索到，而 Memory Benchmark 关注的是更难的问题：跨时间的推理、偏好更新、选择性遗忘、冲突消解。

2021 · Meta AI (ACL 2022)

MSC（Multi-Session Chat）

首个多会话长期对话数据集，奠定跨 session 记忆研究基础

2024-02 · Snap Research

LoCoMo

300轮 / 35 session 超长对话，含事件图谱与多模态，奠定行业基准

2024-10 · ICLR 2025

LongMemEval

500题，覆盖时间推理、知识更新、弃权，现已成为最常引用的对话记忆基准

2024-10 · ICLR 2025

HELMET

7类任务、59个LLM、128K长度，全面评估长上下文能力（含记忆相关任务）

2024-10

PersoBench

评估 persona-aware 对话生成中的个性化能力

2025-01 · ICLR 2025

Episodic Memory Benchmark（Tulving）

受认知科学启发，评估时空情节记忆的召回与推理

2025-06 · ACL 2025 Findings

MemBench

事实记忆 + 反思记忆双层次，兼顾有效性、效率和容量

2025-07 · ICLR 2026 accepted

MemoryAgentBench

四大能力：精准召回、测试时学习、长程理解、选择性遗忘

2025-10

BEAM（Beyond a Million Tokens）

10M token 对话，多领域，配套 LIGHT 认知记忆框架

2025-10

MemoryBench（Continual Learning）

用户反馈驱动的持续学习评估，多域多语言

2025-12 · 最新版本

PersonaMem-v2

1000场景 / 128K 上下文，隐式偏好推断，GPT-5仅37-48%准确率

2026-03 · 最新

ATM-Bench（According to Me）

首个多模态多源个人记忆QA，~4年真实生活记录，RAG 系统 <20% 准确率

🗂️

Memory Benchmark 分类体系

按评估目标和设定场景，现有 Memory Benchmark 可归为以下六大类型：

💬 对话记忆（Conversational）

评估 LLM 在长期多轮对话中记住用户信息、历史事件的能力。

MSC（2021）— 多会话人类对话
LoCoMo（2024）— 300轮/35session
LongMemEval（2024）— 500题，信息提取+推理
Hello Again / LD-Agent（2024）

🤖 Agent 记忆（Agentic）

评估记忆 Agent 的存储、更新、检索、遗忘能力，强调增量多轮交互。

MemoryAgentBench（2025）— 4核能力
StreamBench（2024）— 流式自我进化
Memory-R1（2025）— RL驱动记忆管理

👤 个性化记忆（Personalization）

评估从对话历史中提取并利用用户偏好、兴趣、人格特征的能力。

PersonaMem-v2（2025）— 隐式偏好推断
PersoBench（2024）— Persona-aware生成
ATM-Bench（2026）— 多模态个人记忆

📜 情节记忆（Episodic）

评估 LLM 对特定时间地点事件的记忆，参照认知科学 Tulving 框架。

Episodic Memory Benchmark（2025）— 时空情节
LoCoMo 的事件图谱部分

📏 长上下文理解（Long Context）

评估 LLM 在超长上下文中的综合能力，包括检索、推理、摘要等，与记忆强相关。

HELMET（2024）— 7类任务，128K
∞Bench（2024）— 100K+ 首个此类
BEAM（2025）— 10M token，2000题
RULER（2024）— 合成长上下文测试

🔄 持续学习（Continual Learning）

评估 LLM 从用户反馈中动态更新自身知识和行为的能力，区别于静态长上下文。

MemoryBench（2025）— 用户反馈驱动
MemBench（2025）— 事实+反思，效率维度

📊

Benchmark 详细解析（14篇）

每条包含：一句话动机 + 一句话做法 + 关键数据与发现。

2021-07 · ACL 2022 · Meta AI

MSC — Multi-Session Chat

"Beyond Goldfish Memory"

动机：现有对话模型只在单轮/短会话上训练，完全无法处理跨 session 的长期人际关系记忆——就像金鱼只有7秒记忆。

做法：收集人工标注的多会话人-人对话数据集（5个 session），对话者逐渐相互了解；提供 persona 摘要作为记忆载体，评估模型能否利用历史摘要生成一致性回复。
规模：约5K段对话，多轮跨 session

2024-02 · Snap Research

LoCoMo

Long-term Conversational Memory — 最常用对话记忆基准

动机：现有长对话数据集不超过5个 session，远不够反映真实的长期人际关系演变和时序动态。

做法：用 LLM-agent 架构 + 时间事件图谱生成高质量超长对话（300轮，9K token，最多35 session），人工验证一致性；评估任务含 QA、事件摘要、多模态对话生成三类，含时序推理。
规模：50段对话，每段均值9K token，300轮/35 session

2024-02 · 清华 · COLM 2024

∞Bench（InfBench）

首个平均长度超 100K token 的 LLM 评估基准

动机：现有基准最长约 10K token，根本无法评测"真正长上下文"中的记忆和推理能力。

做法：设计合成+真实任务覆盖多域（英中），平均 100K+ token；任务要求理解长程依赖，不能靠简单片段检索通过；评估书籍理解、代码调试、长对话等场景。
发现：现有长上下文 LLM 在 100K+ 场景中仍大幅落后，急需改进

2024-04 · NVIDIA · COLM 2024

RULER

揭示 NIAH 测试的虚假繁荣

动机：几乎所有 LLM 在 NIAH（针-草垛）测试上接近满分，但这是假象——NIAH 太简单，无法反映真实长上下文能力。

做法：在 NIAH 基础上扩展出多类针、多跳追踪、聚合任务等 13 种任务，支持灵活的序列长度和复杂度配置，评估 17 个 LLM。
发现：声称支持 32K+ 的模型只有一半能在 32K 下保持合格性能

2024-06 · NeurIPS 2024 Datasets & Benchmarks

StreamBench

评估 LLM Agent 从流式反馈中持续自我提升的能力

动机：现有 LLM Benchmark 只测先验能力，没有测 "部署后能否从错误反馈中学习并改进"，而这是真实应用中最关键的能力。

做法：构建流式在线学习环境，LLM 接收连续任务流和反馈，迭代提升；评估学习速度、记忆利用率和泛化性；提出 ReMem（action-think-memory 循环）基线。

2024-06 · NAACL 2025

Hello Again! / LD-Agent

长期个性化对话 Agent 框架 + 评估

动机：现有对话系统聚焦短期单 session，缺乏跨时间的事件感知和个性化人格建模，用户体验割裂。

做法：提出 LD-Agent（Long-term Dialogue Agent），含三个独立可调模块：事件感知（长/短期记忆库 + 主题检索）、persona 提取、回复生成；在 MSC、LoCoMo 等多个 benchmark 上验证。

2024-10 · ICLR 2025 · 普林斯顿陈丹琦组

HELMET

How to Evaluate Long-context Models Effectively and Thoroughly

动机：现有长上下文评估方法各自为政——用 NIAH 或随机任务子集，覆盖不全、信噪比低、不适配 base 模型，导致排名不稳定。

做法：7类应用导向任务（RAG、摘要、多跳推理、ICL、代码等），最长 128K，基于 LLM-judge 可靠评估，few-shot 支持 base 模型；评估 59 个主流 LLM。
发现：NIAH 满分≠下游性能；开源模型与闭源差距随长度增大

2024-10 · ICLR 2025

LongMemEval ⭐

对话助手长期记忆综合评测，最广泛引用

动机：集成了记忆组件的商业 AI 助手（如 ChatGPT Memory）在长期交互中的记忆能力从未被系统评估过——用户在几周后提到的细节，AI 能记住吗？

做法：500道精心设计问题嵌入可扩展的用户-助手聊天历史中，覆盖5大能力：信息提取、跨会话推理、时间推理、知识更新、弃权拒答；提出 session 分解 + 事实增强索引 + 时间感知查询扩展三大优化。
发现：商业助手和长上下文 LLM 准确率下降 30%+

2024-10

PersoBench

Persona-aware 对话生成个性化能力自动化评测

动机：LLM 在对话流畅度上表现出色，但能否真正"用上" persona 信息生成个性化回复尚不清楚，缺乏自动化评测流水线。

做法：构建自动化评测管道：speaker 标注 → 结构化 prompt 构建 → 多维度评估（流畅度、个性化、多样性、连贯性）；在4开源+4闭源 LLM 上评估，零样本设定。

2025-01 · ICLR 2025 · 华为 + 认知科学

Episodic Memory Benchmark（Tulving）

受认知科学启发的时空情节记忆评测

动机：情节记忆（记住"在哪里、什么时候、发生了什么"）是人类认知的核心，但 LLM 缺乏稳健的情节记忆机制，相关评测完全空白。

做法：基于认知科学框架，对情节事件建模（时间+空间+实体+描述）；合成11个无污染数据集（不同规模和多样性）；评估多种召回和情节推理任务，含时空关系复杂度分析。
发现：GPT-4、Claude、o1-mini 在多事件时空推理上均失败，即便上下文仅 10k-100k

2025-06 · ACL 2025 Findings

MemBench

双层次记忆 × 多维度评估（有效性 + 效率 + 容量）

动机：现有记忆评测局限于单一记忆层次（通常只测事实记忆）和单一交互场景，无法全面反映 Agent 在动态环境中的记忆综合能力。

做法：提出事实记忆（Factual）+ 反思记忆（Reflective）双层次，以及参与式（Participation）+ 观察式（Observation）两种场景；从有效性、效率、容量三维度评估 Agent 记忆质量。

2025-07 · ICLR 2026 accepted

MemoryAgentBench ⭐

首个专为 Memory Agent 设计的增量多轮交互基准

动机：现有 LLM 评估聚焦推理/规划/执行，对记忆机制（Agent 如何记忆、更新、检索长期信息）严重欠评估，且没有 benchmark 覆盖所有4项核心记忆能力。

做法：基于认知科学定义4大核心能力：精准召回（Accurate Retrieval）、测试时学习（Test-time Learning）、长程理解（Long-range Understanding）、选择性遗忘（Selective Forgetting）；将已有长上下文数据集转化为多轮增量交互格式，模拟真实 memory agent 的信息积累过程；评估从简单 RAG 到带外部记忆模块的 agent 谱系。
发现：现有方法无法同时掌握全部4项能力

2025-08 · 慕尼黑 + 爱丁堡等

Memory-R1

用 RL 训练 LLM 主动管理外部记忆（在 LoCoMo/MSC/LongMemEval 上验证）

动机：现有 LLM 记忆管理是静态启发式的，缺乏"决定什么值得存储/更新/删除"的学习机制，导致记忆质量和利用率低下。

做法：提出双 Agent RL 框架：Memory Manager（学习 ADD/UPDATE/DELETE/NOOP 操作，PPO 训练）+ Answer Agent（从记忆中提炼关键信息，GRPO 训练）；仅用 152 训练 QA 对，在 LoCoMo、MSC、LongMemEval 三基准验证；3B–14B 模型规模泛化。

2025-10

BEAM（Beyond a Million Tokens）

100K–10M token 对话，2000题，配套 LIGHT 认知记忆框架

动机：现有 benchmark 叙事不连贯、域覆盖窄、只测简单召回，无法评测百万 token 级对话场景下的真实记忆能力。

做法：自动生成框架创建最长 10M token 的连贯多域对话，含 100 段对话 + 2000 个验证问题；配套 LIGHT 框架（长期情节记忆 + 短期工作记忆 + 事实摘要板），在各主流 LLM 上实现 3.5–12.69% 性能提升。

2025-10

MemoryBench（Continual Learning）

用户反馈驱动的 LLM 持续学习能力评测

动机：现有 LLM 记忆 benchmark 聚焦于长形输入的阅读理解，不测"服务中从用户反馈中学习并持续优化"，而后者才是实际产品最需要的。

做法：构建用户反馈模拟框架，覆盖多域（通用+专业）、多语言、多任务类型；评估 LLM 在累积反馈下的持续学习有效性和效率；现有方法均大幅不达预期。

2025-12 · UPenn / MIT / UW 等

PersonaMem-v2 ⭐

隐式偏好推断 × 128K 上下文 × RL 微调

动机：真实世界中用户偏好多为隐式表达（从言行中推断），现有个性化 benchmark 大多测显式偏好，与实际场景严重脱节。

做法：模拟 1000 个现实用户-聊天机器人交互场景，300+ 场景类别，20000+ 用户偏好，128K 上下文窗口；偏好多为隐式；用 RL 微调（强化学习）让 Qwen3-4B 学会长上下文隐式个性化推理，超过 GPT-5（53% vs 37-48%）；Agentic Memory 框架用 2K token 记忆替代 32K 历史，达 55% 最优。
发现：前沿 LLM 隐式个性化仅 37-48%，推理是瓶颈而非上下文长度

2026-03 · 最新 · Cambridge + 剑桥

ATM-Bench（According to Me）🆕

首个多模态多源长期个人记忆 QA Benchmark

动机：现有长期记忆 benchmark 局限于对话历史，无法捕捉真实的个人记忆——图像、视频、邮件等多源信息交织，且充满个人指称（"我上次去的那家餐厅"）。

做法：基于约4年真实个人生活记录（隐私保护处理），含图像/视频/邮件等多源，人工标注 QA 对并附真实记忆证据；设计 Hard 子集（需多证据推理、冲突消解、个人指称解析）；提出 Schema-Guided Memory（SGM）结构化记忆表示。
发现：5个 SOTA 记忆系统在 Hard 集上准确率 <20%，SGM 优于描述式记忆

⚖️

横向对比总览

Benchmark	年份	场景	最大长度	多轮增量	时序推理	个性化	知识更新	多模态	发表
MSC	2021	多 session 对话	~5K	✓	–	✓	–	–	ACL 2022
LoCoMo	2024	超长对话	9K avg / 35 session	✓	✓	✓	△	✓	arXiv
∞Bench	2024	长文档/代码/对话	100K+ avg	–	△	–	–	–	COLM 2024
RULER	2024	合成长上下文	128K+	–	△	–	–	–	COLM 2024
HELMET	2024	7类长上下文任务	128K	–	△	–	–	–	ICLR 2025
LongMemEval	2024	对话助手记忆	可扩展	✓	✓	△	✓	–	ICLR 2025
StreamBench	2024	流式在线学习	流式	✓	–	–	✓	–	NeurIPS 2024
Episodic Bench	2025	情节记忆	10K–100K	–	✓	–	–	–	ICLR 2025
MemBench	2025	Agent 记忆	多轮	✓	–	✓	–	–	ACL 2025 Findings
MemoryAgentBench	2025	Memory Agent	增量多轮	✓	✓	✓	✓	–	ICLR 2026
BEAM	2025	超长对话	10M token	✓	△	–	–	–	arXiv
PersonaMem-v2	2025	隐式个性化	128K	✓	–	✓	✓	–	arXiv
ATM-Bench	2026	多模态个人记忆	~4年数据	✓	✓	✓	✓	✓	arXiv 2026

✓ 支持 △ 部分支持 – 不支持/不涉及

💡

核心洞察与趋势

⚠️ NIAH 不等于真实记忆能力

RULER、HELMET 均证明：在 NIAH 上接近满分的 LLM，在真实长程推理任务上仍大幅落后。"能找到针" ≠ "能理解干草垛"。

⚠️ 隐式个性化是当前最大短板

PersonaMem-v2 显示前沿 LLM 在隐式偏好推断上仅 37–48%，远低于显式个性化场景。用户从不直说"我喜欢 X"，AI 需要从行为中推断。

⚠️ 多模态多源记忆几乎未被解决

ATM-Bench 的 Hard 集：5个 SOTA 记忆系统准确率 <20%。图像+邮件+对话交织的个人记忆对现有 RAG 系统来说几乎不可解。

✅ RL 训练是解锁记忆管理的关键

Memory-R1 和 PersonaMem-v2 均证明：RL 微调（PPO/GRPO）能让小模型（3B–7B）在记忆操作和隐式推理上超越更大的基础模型，数据效率极高（152 QA 对）。

✅ 外部记忆比超长上下文更高效

PersonaMem-v2：2K token 外部记忆替代 32K 原始历史，达到更高精度（55% vs 48%），同时节省 16× 输入 token。上下文长度是必要非充分条件。

📈 趋势：从"检索"到"认知"

早期 benchmark 测"能否找到信息"（检索层），最新工作（MemoryAgentBench、ATM-Bench、Episodic Bench）开始评测"选择性遗忘、冲突消解、时空情节推理"——向人类认知靠拢。

📈 趋势：增量多轮 > 静态长上下文

MemoryAgentBench 明确指出：书级 QA（如 NarrativeQA）不能评估 Memory Agent，因为现实中信息是逐步增量到来的，而非一次性全量输入。

📈 趋势：个性化记忆成为独立子方向

从 PersonaMem-v2 到 ATM-Bench，"了解这个具体用户"正成为独立研究方向，区别于通用长上下文理解，要求模型维护随时间演变的用户画像。