将长文本"渲染成图像",用极少量视觉 token 编码海量文字——绕开 LLM 二次方复杂度,换一种维度打开无限上下文的可能。
核心动机:LLM 处理长文本时注意力的二次方开销是根本瓶颈。 一张包含 1000 个单词的文档图像,只需要 64–256 个视觉 token 便可表达—— 远少于等价文本序列的文字 token 数。 做法:把文本"渲染"成图像或通过视觉编码器低维表示, 再让解码器从这些压缩的视觉 token 中"还原"或直接推理。 本质是借视觉模态天然的二维空间密度来实现 文本的光学/视觉压缩。
Transformer 注意力与序列长度成二次方增长。百万 token 上下文在推理时消耗极大计算与内存资源。
人类一眼扫过满页文字只需数百毫秒。图像可以在固定像素内"存储"大量信息,视觉 token 密度远高于文本 token。
现代 VLM 已具备解析图片中文字的能力(OCR/Doc Understanding),可直接复用,不需额外基础设施投入。
OCR 任务本身就是"视觉→文本"的解压缩,天然是研究压缩比边界的理想测试床。
近期历史高分辨率(精确),远期历史低分辨率(模糊)——为"无限上下文"提供一条类脑的可行路径。
更少的 prefill token 意味着更快的首 token 时延(TTFT)和更小的 KV Cache,显著降低推理成本。
| 方法 | 压缩媒介 | 压缩比 | 精度 | 推理加速 | 适用任务 | 代表优势 |
|---|---|---|---|---|---|---|
| DeepSeek-OCR | 视觉(图像 token) | 9–20× | 97%@10× / 60%@20× | 高(少量 vision token) | 文档/OCR/图表 | 实用部署验证、DeepEncoder 架构 |
| Glyph | 视觉(渲染图像) | 3–4× | 与全 token 相当 | ~4× prefill | 通用长上下文任务 | 遗传排版搜索、1M token 扩展 |
| VIST | 视觉(快路径图像) | 2.3× | 超 CEPE +7.6% | FLOPs↓16%、Mem↓50% | ICL / Open-domain QA | 快慢双路径、NeurIPS Spotlight |
| Text or Pixels | 视觉(单张渲染图) | ~2× | 不降性能 | 中等 | 检索/摘要 | 无需微调的零样本方案 |
| C3(对照) | 纯文本 latent token | 20–40× | 98%@20× / 93%@40× | 中等 | 文本压缩上界研究 | 揭示视觉压缩的天花板 |
| LongCodeOCR | 视觉(2D 代码图像) | ~1.7–4× | CompScore+36.85 | 压缩预处理 ↓260× | 长代码理解 | 保留全局依赖、秒级预处理 |
| CEPE(基线) | 文本编码器 | 10× | 良好 | 10× 吞吐 | 通用 LLM 上下文 | 并行编码、无需视觉模态 |
总结:视觉上下文压缩是一个 2025 年爆发的新兴方向,核心命题是 "图像是文本的天然低维表示"。 当前最强工作(Glyph、VIST)已在通用 benchmark 上实现 2–4× 有损压缩且几乎不降精度。 视觉压缩不是纯文本压缩(C3)的竞争者,而是互补—— 视觉路线擅长保留结构性全局信息,文本路线擅长高保真符号级压缩。 二者的融合,加上遗忘机制类比,有望为 LLM 提供一条通向真正无限上下文的可行工程路径。