Research Survey · 2025–2026

视觉上下文压缩
Visual Context Compression

将长文本"渲染成图像",用极少量视觉 token 编码海量文字——绕开 LLM 二次方复杂度,换一种维度打开无限上下文的可能。

🗂 8 篇核心论文 📅 2024–2026 🏷 NeurIPS / EMNLP / ACL ⚡ 3×–20× 压缩比

核心动机:LLM 处理长文本时注意力的二次方开销是根本瓶颈。 一张包含 1000 个单词的文档图像,只需要 64–256 个视觉 token 便可表达—— 远少于等价文本序列的文字 token 数。 做法:把文本"渲染"成图像或通过视觉编码器低维表示, 再让解码器从这些压缩的视觉 token 中"还原"或直接推理。 本质是借视觉模态天然的二维空间密度来实现 文本的光学/视觉压缩

📌

为什么要"用图像压缩文本"?

🔢

二次方注意力开销

Transformer 注意力与序列长度成二次方增长。百万 token 上下文在推理时消耗极大计算与内存资源。

🖼

图像天然是密度媒介

人类一眼扫过满页文字只需数百毫秒。图像可以在固定像素内"存储"大量信息,视觉 token 密度远高于文本 token。

⚙️

VLM 基础设施已成熟

现代 VLM 已具备解析图片中文字的能力(OCR/Doc Understanding),可直接复用,不需额外基础设施投入。

🔁

压缩-解压是自然映射

OCR 任务本身就是"视觉→文本"的解压缩,天然是研究压缩比边界的理想测试床。

🧠

模拟人类遗忘机制

近期历史高分辨率(精确),远期历史低分辨率(模糊)——为"无限上下文"提供一条类脑的可行路径。

💨

推理加速

更少的 prefill token 意味着更快的首 token 时延(TTFT)和更小的 KV Cache,显著降低推理成本。

🗓

研究时间线

按论文发布时间排列
24
Feb 2024
CEPE
(ACL'24)
25
Feb 2025
VIST
(NeurIPS'25)
25
Oct 2025
DeepSeek-OCR
25
Oct 2025
Glyph
(THU)
25
Oct 2025
Text or Pixels
(EMNLP'25)
25
Nov 2025
C3
(纯文本对照)
26
Jan 2026
LongCodeOCR
🔬

核心论文精读

8 篇

DeepSeek-OCR: Contexts Optical Compression

Oct 2025
DeepSeek Team
一句话:用图像作为文本的"光学压缩媒介"——将文档渲染为图,以 64–400 个视觉 token 编码千余文字 token,并以 OCR 为测试床量化压缩-解压精度边界(10× 压缩下精度 97%+)。
✦ 10× 压缩精度 97%+ 20× → ~60% 3300万页/天
核心先驱 DeepEncoder MoE Decoder OCR 2.0
📄 arXiv:2510.18234 ↗

Glyph: Scaling Context Windows via Visual-Text Compression

Oct 2025
Jiale Cheng et al. · 清华大学
一句话:将长文本渲染为图像,用 VLM 处理,LLM 驱动的遗传搜索自动找最优排版配置(字体/行距/列数);128K VLM 可扩展至处理 1M token 级任务,同时带来 3–4× token 压缩和 ~4× prefill 加速。
3–4× 压缩 ~4× prefill 加速 1M token 扩展
重要工作 遗传搜索 排版优化 开源
📄 arXiv:2510.17800 ↗

VIST: Vision-Centric Token Compression in LLM

Feb 2025
NeurIPS 2025 Spotlight · 南京理工大学等
一句话:快慢双路径架构——远距历史 token 渲染为图,轻量视觉编码器快速扫描(fast path);近端窗口送入 LLM 精细推理(slow path);模拟人类"略读远忆",11个 ICL benchmark 上比 CEPE 高 7.6%,token 减少 2.3×。
2.3× token 压缩 FLOPs ↓16% 内存 ↓50%
NeurIPS Spotlight 快慢路径 PVE训练目标
📄 arXiv:2502.00791 ↗

Text or Pixels? It Takes Half: On Token Efficiency of Visual Text Inputs

Oct 2025
Yanhong Li et al. · EMNLP 2025 Findings
一句话:系统性实验证明:将长文本渲染为单张图像后直接喂给多模态 LLM,decoder token 数量减少约 50%,RULER(长上下文检索)和 CNN/DailyMail(摘要)性能不降。
~50% token 节省 EMNLP 2025 无需微调
实证研究 RULER Benchmark 开源代码
📄 arXiv:2510.18279 ↗

C3: Context Cascade Compression — Exploring Upper Limits of Text Compression

Nov 2025
Fanfan Liu et al.
一句话:纯文本对照实验——小 LLM 先将长文本压缩为 32/64 个 latent token,大 LLM 再解码;20× 压缩精度 98%(超越 DeepSeek-OCR 的 ~60%),40× 仍达 93%,说明纯文本压缩是视觉压缩的上界参考
20× → 98% 精度 40× → 93% 对照基线
纯文本对照 上界分析 开源
📄 arXiv:2511.15244 ↗

LongCodeOCR: Visual Compression for Long-Context Code

Jan 2026
Guochang Li et al.
一句话:将长代码渲染为 2D 图像序列输入 VLM,避免文本过滤导致的依赖断裂;在 1M token 级代码任务上比 LongCodeZip 精度更高,压缩预处理时间从 ~4.3 小时降至 ~1 分钟。
CompScore +36.85 4× 更高压缩 代码领域
代码理解 2D 图像序列 全局依赖保留
📄 arXiv:2602.00746 ↗

CEPE: Context Expansion with Parallel Encoding

Feb 2024
Oluwaseun Eisape et al. · 陈丹琦团队 · ACL 2024
一句话:用小型编码器并行处理远端历史 chunk,将 cross-attention 注入主 LLM,Llama-2 上下文窗口扩展至 128K,推理吞吐量提升 10×;是视觉压缩路线的强力文本基线
128K 上下文 10× 吞吐 ACL 2024
基线方法 文本编码器 cross-attention
📄 arXiv:2402.16617 ↗

Efficient Large Multi-modal Models via Visual Context Compression (VCC)

2024
NeurIPS 2024
一句话:研究多模态 LLM 中视觉 token 的压缩——用跨层注意力聚合将视觉 token 压缩为更少的"视觉上下文"表示,减少视觉 token 对 LLM 推理的计算开销,与语言侧上下文压缩互补。
视觉 token 大幅减少 NeurIPS 2024 多模态LLM
视觉token压缩 多模态LLM 跨层注意力
📄 NeurIPS 2024 ↗
📊

方法对比一览

方法 压缩媒介 压缩比 精度 推理加速 适用任务 代表优势
DeepSeek-OCR 视觉(图像 token) 9–20× 97%@10× / 60%@20× 高(少量 vision token) 文档/OCR/图表 实用部署验证、DeepEncoder 架构
Glyph 视觉(渲染图像) 3–4× 与全 token 相当 ~4× prefill 通用长上下文任务 遗传排版搜索、1M token 扩展
VIST 视觉(快路径图像) 2.3× 超 CEPE +7.6% FLOPs↓16%、Mem↓50% ICL / Open-domain QA 快慢双路径、NeurIPS Spotlight
Text or Pixels 视觉(单张渲染图) ~2× 不降性能 中等 检索/摘要 无需微调的零样本方案
C3(对照) 纯文本 latent token 20–40× 98%@20× / 93%@40× 中等 文本压缩上界研究 揭示视觉压缩的天花板
LongCodeOCR 视觉(2D 代码图像) ~1.7–4× CompScore+36.85 压缩预处理 ↓260× 长代码理解 保留全局依赖、秒级预处理
CEPE(基线) 文本编码器 10× 良好 10× 吞吐 通用 LLM 上下文 并行编码、无需视觉模态
💡

关键洞察

🎯
10× 是视觉压缩的质量分水岭。 DeepSeek-OCR 实验显示,文本 token 数 ≤ 10× 视觉 token 数时,OCR 解码精度维持在 97% 以上。超过 10× 后性能开始明显下降。 而 C3(纯文本方法)可以在 20× 时维持 98%,说明视觉模态的信息损耗(布局噪声、分辨率限制)是当前瓶颈,并非压缩本身的物理极限。
🧠
遗忘曲线类比:近清晰、远模糊。 Glyph 和 DeepSeek-OCR 均提及将此范式用于"模拟记忆遗忘":最近 K 轮对话高分辨率精确保留,更早的轮次渐进缩图(高压缩),从理论上实现无限上下文,同时 token 总量受控。
视觉压缩 vs. 文本压缩:各有优势。 文本压缩(C3)在精度上限上更高(40× 仍 93%),但无法保留布局/表格/图表结构。 视觉压缩天然保留 2D 空间信息,对文档、代码等高结构化内容全局覆盖优势显著, 代价是引入视觉编码器开销和渲染噪声。
🔄
快慢路径是工程优化的优雅设计。 VIST 的双路径架构(远端图像快扫 + 近端文本精读)直接对应人类的略读与精读认知模式, 在不损失近端推理质量的前提下,将整体 FLOPs 降低 16%、内存降低 50%, 是将视觉压缩做成实用系统的关键工程设计。
⚠️

当前挑战

⚠️ 技术瓶颈

  • 小分辨率(512/640px)下长文本字符模糊,导致高压缩比精度急剧下降
  • 渲染引入额外延迟(文本→图像的 CPU 渲染步骤),虽 LongCodeOCR 已降至秒级
  • 视觉编码器本身消耗额外显存和计算,与纯文本路线相比引入额外基础设施
  • 对精确符号(公式、代码变量名)的保真度不如文本过滤方法
  • 最优排版(字体、行距、列数)需搜索,Glyph 用遗传算法自动化,但仍有开销

⚠️ 评估与理论缺口

  • 现有 benchmark 多为检索/OCR,缺乏对深度推理任务(如多跳 QA、代码调试)的系统评估
  • 压缩比与精度的理论分析(信息论视角)仍不完善
  • 视觉压缩对下游任务的鲁棒性(非英语、手写、低对比度文档)研究不足
  • 与 RAG / 稀疏注意力 / KV Cache 压缩等正交技术的协同效果未充分探索
  • 超大规模(7B+)VLM 上的视觉压缩收益尚未得到广泛验证
🚀

未来方向

🚀 近期可行方向

  • 联合训练 VLM + LLM 解码器,使视觉编码和文本解码端到端对齐,提升高压缩比精度
  • 渐进分辨率压缩:按时间衰减对历史轮次降采样,实现高效无限上下文
  • 与 KV Cache 稀疏化结合,视觉 token 少→ KV Cache 小→进一步减少内存
  • 面向代码/数学/表格的专用渲染方案,保留符号精度同时保持结构完整性

🔭 中长期大方向

  • 视觉-文本混合上下文压缩:自动分配视觉 vs. 文本表示的最优比例
  • 视觉记忆机制:Agent 对话历史以"记忆图像流"形式存储,模拟生物记忆遗忘曲线
  • 压缩-解压 LLM 协同预训练:让 LLM 原生理解视觉压缩表示,去掉 OCR 辅助任务假设
  • 多模态世界模型的上下文管理:VLA/世界模型中视频/状态历史的视觉压缩表达

总结:视觉上下文压缩是一个 2025 年爆发的新兴方向,核心命题是 "图像是文本的天然低维表示"。 当前最强工作(Glyph、VIST)已在通用 benchmark 上实现 2–4× 有损压缩且几乎不降精度。 视觉压缩不是纯文本压缩(C3)的竞争者,而是互补—— 视觉路线擅长保留结构性全局信息,文本路线擅长高保真符号级压缩。 二者的融合,加上遗忘机制类比,有望为 LLM 提供一条通向真正无限上下文的可行工程路径。