视觉上下文压缩 (Visual Context Compression)

📌

为什么要"用图像压缩文本"？

🔢

二次方注意力开销

Transformer 注意力与序列长度成二次方增长。百万 token 上下文在推理时消耗极大计算与内存资源。

🖼

图像天然是密度媒介

人类一眼扫过满页文字只需数百毫秒。图像可以在固定像素内"存储"大量信息，视觉 token 密度远高于文本 token。

⚙️

VLM 基础设施已成熟

现代 VLM 已具备解析图片中文字的能力（OCR/Doc Understanding），可直接复用，不需额外基础设施投入。

🔁

压缩-解压是自然映射

OCR 任务本身就是"视觉→文本"的解压缩，天然是研究压缩比边界的理想测试床。

🧠

模拟人类遗忘机制

近期历史高分辨率（精确），远期历史低分辨率（模糊）——为"无限上下文"提供一条类脑的可行路径。

💨

推理加速

更少的 prefill token 意味着更快的首 token 时延（TTFT）和更小的 KV Cache，显著降低推理成本。

🗓

研究时间线

按论文发布时间排列

Feb 2024

CEPE
(ACL'24)

Feb 2025

VIST
(NeurIPS'25)

Oct 2025

DeepSeek-OCR

Oct 2025

Glyph
(THU)

Oct 2025

Text or Pixels
(EMNLP'25)

Nov 2025

C3
(纯文本对照)

Jan 2026

LongCodeOCR

🔬

核心论文精读

8 篇

DeepSeek-OCR: Contexts Optical Compression

Oct 2025

DeepSeek Team

一句话：用图像作为文本的"光学压缩媒介"——将文档渲染为图，以 64–400 个视觉 token 编码千余文字 token，并以 OCR 为测试床量化压缩-解压精度边界（10× 压缩下精度 97%+）。

✦ 10× 压缩精度 97%+ 20× → ~60% 3300万页/天

核心先驱 DeepEncoder MoE Decoder OCR 2.0

📄 arXiv:2510.18234 ↗

Glyph: Scaling Context Windows via Visual-Text Compression

Oct 2025

Jiale Cheng et al. · 清华大学

一句话：将长文本渲染为图像，用 VLM 处理，LLM 驱动的遗传搜索自动找最优排版配置（字体/行距/列数）；128K VLM 可扩展至处理 1M token 级任务，同时带来 3–4× token 压缩和 ~4× prefill 加速。

3–4× 压缩 ~4× prefill 加速 1M token 扩展

重要工作遗传搜索排版优化开源

📄 arXiv:2510.17800 ↗

VIST: Vision-Centric Token Compression in LLM

Feb 2025

NeurIPS 2025 Spotlight · 南京理工大学等

一句话：快慢双路径架构——远距历史 token 渲染为图，轻量视觉编码器快速扫描（fast path）；近端窗口送入 LLM 精细推理（slow path）；模拟人类"略读远忆"，11个 ICL benchmark 上比 CEPE 高 7.6%，token 减少 2.3×。

2.3× token 压缩 FLOPs ↓16% 内存 ↓50%

NeurIPS Spotlight 快慢路径 PVE训练目标

📄 arXiv:2502.00791 ↗

Text or Pixels? It Takes Half: On Token Efficiency of Visual Text Inputs

Oct 2025

Yanhong Li et al. · EMNLP 2025 Findings

一句话：系统性实验证明：将长文本渲染为单张图像后直接喂给多模态 LLM，decoder token 数量减少约 50%，RULER（长上下文检索）和 CNN/DailyMail（摘要）性能不降。

~50% token 节省 EMNLP 2025 无需微调

实证研究 RULER Benchmark 开源代码

📄 arXiv:2510.18279 ↗

C3: Context Cascade Compression — Exploring Upper Limits of Text Compression

Nov 2025

Fanfan Liu et al.

一句话：纯文本对照实验——小 LLM 先将长文本压缩为 32/64 个 latent token，大 LLM 再解码；20× 压缩精度 98%（超越 DeepSeek-OCR 的 ~60%），40× 仍达 93%，说明纯文本压缩是视觉压缩的上界参考。

20× → 98% 精度 40× → 93% 对照基线

纯文本对照上界分析开源

📄 arXiv:2511.15244 ↗

LongCodeOCR: Visual Compression for Long-Context Code

Jan 2026

Guochang Li et al.

一句话：将长代码渲染为 2D 图像序列输入 VLM，避免文本过滤导致的依赖断裂；在 1M token 级代码任务上比 LongCodeZip 精度更高，压缩预处理时间从 ~4.3 小时降至 ~1 分钟。

CompScore +36.85 4× 更高压缩代码领域

代码理解 2D 图像序列全局依赖保留

📄 arXiv:2602.00746 ↗

CEPE: Context Expansion with Parallel Encoding

Feb 2024

Oluwaseun Eisape et al. · 陈丹琦团队 · ACL 2024

一句话：用小型编码器并行处理远端历史 chunk，将 cross-attention 注入主 LLM，Llama-2 上下文窗口扩展至 128K，推理吞吐量提升 10×；是视觉压缩路线的强力文本基线。

128K 上下文 10× 吞吐 ACL 2024

基线方法文本编码器 cross-attention

📄 arXiv:2402.16617 ↗

Efficient Large Multi-modal Models via Visual Context Compression (VCC)

2024

NeurIPS 2024

一句话：研究多模态 LLM 中视觉 token 的压缩——用跨层注意力聚合将视觉 token 压缩为更少的"视觉上下文"表示，减少视觉 token 对 LLM 推理的计算开销，与语言侧上下文压缩互补。

视觉 token 大幅减少 NeurIPS 2024 多模态LLM

视觉token压缩多模态LLM 跨层注意力

📄 NeurIPS 2024 ↗

📊

方法对比一览

方法	压缩媒介	压缩比	精度	推理加速	适用任务	代表优势
DeepSeek-OCR	视觉（图像 token）	9–20×	97%@10× / 60%@20×	高（少量 vision token）	文档/OCR/图表	实用部署验证、DeepEncoder 架构
Glyph	视觉（渲染图像）	3–4×	与全 token 相当	~4× prefill	通用长上下文任务	遗传排版搜索、1M token 扩展
VIST	视觉（快路径图像）	2.3×	超 CEPE +7.6%	FLOPs↓16%、Mem↓50%	ICL / Open-domain QA	快慢双路径、NeurIPS Spotlight
Text or Pixels	视觉（单张渲染图）	~2×	不降性能	中等	检索/摘要	无需微调的零样本方案
C3（对照）	纯文本 latent token	20–40×	98%@20× / 93%@40×	中等	文本压缩上界研究	揭示视觉压缩的天花板
LongCodeOCR	视觉（2D 代码图像）	~1.7–4×	CompScore+36.85	压缩预处理 ↓260×	长代码理解	保留全局依赖、秒级预处理
CEPE（基线）	文本编码器	10×	良好	10× 吞吐	通用 LLM 上下文	并行编码、无需视觉模态

💡

关键洞察

🎯

10× 是视觉压缩的质量分水岭。 DeepSeek-OCR 实验显示，文本 token 数 ≤ 10× 视觉 token 数时，OCR 解码精度维持在 97% 以上。超过 10× 后性能开始明显下降。而 C3（纯文本方法）可以在 20× 时维持 98%，说明视觉模态的信息损耗（布局噪声、分辨率限制）是当前瓶颈，并非压缩本身的物理极限。

🧠

遗忘曲线类比：近清晰、远模糊。 Glyph 和 DeepSeek-OCR 均提及将此范式用于"模拟记忆遗忘"：最近 K 轮对话高分辨率精确保留，更早的轮次渐进缩图（高压缩），从理论上实现无限上下文，同时 token 总量受控。

⚡

视觉压缩 vs. 文本压缩：各有优势。 文本压缩（C3）在精度上限上更高（40× 仍 93%），但无法保留布局/表格/图表结构。视觉压缩天然保留 2D 空间信息，对文档、代码等高结构化内容全局覆盖优势显著，代价是引入视觉编码器开销和渲染噪声。

🔄

快慢路径是工程优化的优雅设计。 VIST 的双路径架构（远端图像快扫 + 近端文本精读）直接对应人类的略读与精读认知模式，在不损失近端推理质量的前提下，将整体 FLOPs 降低 16%、内存降低 50%，是将视觉压缩做成实用系统的关键工程设计。

⚠️

当前挑战

⚠️ 技术瓶颈

▶ 小分辨率（512/640px）下长文本字符模糊，导致高压缩比精度急剧下降
▶ 渲染引入额外延迟（文本→图像的 CPU 渲染步骤），虽 LongCodeOCR 已降至秒级
▶ 视觉编码器本身消耗额外显存和计算，与纯文本路线相比引入额外基础设施
▶ 对精确符号（公式、代码变量名）的保真度不如文本过滤方法
▶ 最优排版（字体、行距、列数）需搜索，Glyph 用遗传算法自动化，但仍有开销

⚠️ 评估与理论缺口

▶ 现有 benchmark 多为检索/OCR，缺乏对深度推理任务（如多跳 QA、代码调试）的系统评估
▶ 压缩比与精度的理论分析（信息论视角）仍不完善
▶ 视觉压缩对下游任务的鲁棒性（非英语、手写、低对比度文档）研究不足
▶ 与 RAG / 稀疏注意力 / KV Cache 压缩等正交技术的协同效果未充分探索
▶ 超大规模（7B+）VLM 上的视觉压缩收益尚未得到广泛验证

🚀

未来方向

🚀 近期可行方向

→ 联合训练 VLM + LLM 解码器，使视觉编码和文本解码端到端对齐，提升高压缩比精度
→ 渐进分辨率压缩：按时间衰减对历史轮次降采样，实现高效无限上下文
→ 与 KV Cache 稀疏化结合，视觉 token 少→ KV Cache 小→进一步减少内存
→ 面向代码/数学/表格的专用渲染方案，保留符号精度同时保持结构完整性

🔭 中长期大方向

→ 视觉-文本混合上下文压缩：自动分配视觉 vs. 文本表示的最优比例
→ 视觉记忆机制：Agent 对话历史以"记忆图像流"形式存储，模拟生物记忆遗忘曲线
→ 压缩-解压 LLM 协同预训练：让 LLM 原生理解视觉压缩表示，去掉 OCR 辅助任务假设
→ 多模态世界模型的上下文管理：VLA/世界模型中视频/状态历史的视觉压缩表达

总结：视觉上下文压缩是一个 2025 年爆发的新兴方向，核心命题是 "图像是文本的天然低维表示"。当前最强工作（Glyph、VIST）已在通用 benchmark 上实现 2–4× 有损压缩且几乎不降精度。视觉压缩不是纯文本压缩（C3）的竞争者，而是互补—— 视觉路线擅长保留结构性全局信息，文本路线擅长高保真符号级压缩。二者的融合，加上遗忘机制类比，有望为 LLM 提供一条通向真正无限上下文的可行工程路径。

视觉上下文压缩Visual Context Compression

为什么要"用图像压缩文本"？

二次方注意力开销

图像天然是密度媒介

VLM 基础设施已成熟

压缩-解压是自然映射

模拟人类遗忘机制

推理加速

研究时间线

核心论文精读

DeepSeek-OCR: Contexts Optical Compression

Glyph: Scaling Context Windows via Visual-Text Compression

VIST: Vision-Centric Token Compression in LLM

Text or Pixels? It Takes Half: On Token Efficiency of Visual Text Inputs

C3: Context Cascade Compression — Exploring Upper Limits of Text Compression

LongCodeOCR: Visual Compression for Long-Context Code

CEPE: Context Expansion with Parallel Encoding

Efficient Large Multi-modal Models via Visual Context Compression (VCC)

方法对比一览

关键洞察

当前挑战

⚠️ 技术瓶颈

⚠️ 评估与理论缺口

未来方向

🚀 近期可行方向

🔭 中长期大方向

视觉上下文压缩
Visual Context Compression