World Model & VLA 论文综述 (2024

🌐

领域概述

🤖 VLA 主线

以预训练语言/视觉大模型为骨干，直接从多模态观测预测机器人动作。强调零样本泛化、语言指令跟随与多任务通用性。代表作：OpenVLA、UniVLA。

🌍 World Model 主线

建模环境状态转移动态，为规划、强化学习和数据增强提供"内部仿真器"。可大幅减少真实机器人交互成本。代表作：DreamerV3、PlayWorld。

🔗 深度融合趋势

2025-2026年的核心趋势：World Model 作为 RL 训练环境为 VLA 后训练，潜在空间 CoT 替代文本 CoT，VLA 策略与 WM 迭代协同改进。

🤖

VLA 方向重要论文

基础 / 奠基性工作

2024-06

OpenVLA: An Open-Source Vision-Language-Action Model

开源 7B 参数 VLA，基于 BridgeData V2 + OXE 数据集预训练，成为后续研究标准基线。Stanford / UC Berkeley。

2025-05-09

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

任务中心潜在动作表示，无需大量动作标注数据，通用跨环境机器人控制。

2025-09-29

Emergent World Representations in OpenVLA

分析基于 RL 训练的 VLA 是否隐式学到世界内部表征，揭示 VLA 的涌现能力。

高效推理 / 架构创新

2026-03-11

DepthCache: Depth-Guided Training-Free Visual Token Merging

利用深度引导的 Token 合并降低 VLA 推理延迟，无需重新训练，即插即用。

2026-03-10

AR-VLA: True Autoregressive Action Expert for VLA

独立自回归 Action Expert，以连续 causal 序列生成动作，条件化于可刷新的视觉-语言前缀。

2026-03-09

SaiVLA-0: Cerebrum–Pons–Cerebellum Tripartite Architecture

神经科学启发三部件：大脑（VLM冻结提供语义先验）+ 桥脑（适配实时本体感觉）+ 小脑（精确动作执行）。

2026-03-10

Cross-Hand Latent Representation for VLA

跨手型潜在表征，提升灵巧操作中的视觉-动作对齐，支持多指手协调。

视觉感知增强

2026-03-12

SaPaVe: Active Perception and Manipulation in VLA

统一语义驱动的主动感知与视点不变执行，端到端框架解决遮挡和视点变化问题。

2026-03-11

FutureVLA: Joint Visuomotor Prediction for VLA

联合视动预测，显式建模未来视觉-运动的紧密关联，提升长程操作准确性。

2026-03-10

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware VLA

将 2D patch token 提升为带几何结构的 3D Gaussian 空间 token，弥补平面感知的几何缺失。

2026-03-11

Overcoming Visual Clutter via Concept-Gated Visual Distillation

概念门控视觉蒸馏解决复杂背景导致的"精度-推理差距"，背景特征稀释问题。

持续学习 / 后训练

2026-03-12

Simple Recipe Works: VLA as Natural Continual Learners with RL

展示 VLA 天然适合持续强化学习，无需特殊持续学习算法设计，简单 RL 微调即可。

2026-03-10

DexHiL: Human-in-the-Loop Framework for VLA Post-Training

人在回路的 VLA 后训练框架，高效适配灵巧操作复杂下游任务。

2026-03-10

See, Plan, Rewind: Progress-Aware VLA Models

显式任务进度建模，感知可量化的里程碑，实现错误检测与可恢复的鲁棒操作。

自动驾驶 VLA

2026-03-11

DynVLA: Learning World Dynamics for Action Reasoning in AD

提出 Dynamics CoT：先预测紧凑世界动态 token，再生成驾驶动作，物理接地决策。

2026-03-10

StyleVLA: Driving Style-Aware Vision Language Action Model

驾驶风格感知的 VLA，支持保守/激进等个性化驾驶行为适配。

2026-03-10

EvoDriveVLA: Evolving Autonomous Driving VLA

协同感知-规划蒸馏框架，解决视觉编码器解冻后性能退化与长程规划不稳定问题。

2026-03-09

SAMoE-VLA: Scene Adaptive MoE for Autonomous Driving

场景自适应混合专家 VLA，不同驾驶场景路由不同专家子网络。

2026-03-10

NS-VLA: Towards Neuro-Symbolic VLA

神经符号融合，学习可复用的操作原语，提升对新任务的组合泛化能力。

2026-03-09

ΔVLA: Prior-Guided VLA via World Knowledge Variation

利用世界知识变化量（Δ）作为先验引导预测范式，建模未来视觉状态或世界模型变化。

🌍

World Model 方向重要论文

机器人操作 World Model

2026-03-09

PlayWorld: Learning Robot World Models from Autonomous Play

从机器人自主探索数据（无需任务标注）学习通用仿真世界模型，大规模数据利用。

2026-03-11

ResWM: Residual-Action World Model for Visual RL

残差动作世界模型，基于原始视觉观测进行强化学习，提升连续控制中的样本效率。

2026-03-09

MetaWorld-X: Hierarchical World Modeling for Humanoid Loco-Manipulation

VLM 协调多专家的层级世界模型，用于人形机器人同步运动与操作任务。

2026-03-12

SPIRAL: Self-Improving Action World Models via Reflective Planning

自我改进的闭环动作世界模型框架，结合反思规划实现长程可控视频生成。

2026-02-11

H-WM: Robotic Task and Motion Planning via Hierarchical World Model

层级世界模型引导任务规划与运动规划，超越纯视频生成或语言预测的现有方法。

2026-03-12

ARROW: Augmented Replay for Robust World Models

持续强化学习场景下，通过增强回放机制保持世界模型在新旧任务上的鲁棒性。

自动驾驶 World Model

2026-03-10

Latent World Models for AD: Unified Taxonomy & Evaluation ⭐综述

自动驾驶潜在世界模型统一分类体系与评估框架，覆盖 VLA 系统，梳理开放挑战。

2026-03-07

Kinematics-Aware Latent World Models for Data-Efficient AD

运动学感知的潜在世界模型，将车辆运动学约束融入状态预测，提升数据效率。

2026-03-06

WorldCache: Accelerating World Models via Heterogeneous Token Caching

异构 Token 缓存策略加速扩散世界模型，实现交互式使用与长程滚动预测。

2026-03-05

Planning in 8 Tokens: Compact Discrete Tokenizer for Latent World Model

超紧凑离散 token 化方案，将规划状态压缩至 8 个 token，大幅降低世界模型规划计算开销。

导航 World Model

2026-03-10

RAE-NWM: Navigation World Model in Dense Visual Representation

密集视觉表征空间中的导航世界模型，动作条件化状态转移用于目标导航规划。

2026-03-08

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

移动端动作条件化一致性世界模型，在移动导航中提供时序连贯的未来预测。

🔗

WM + VLA 深度融合（2026年最热方向）

核心范式：用真实数据训练世界模型 → 在世界模型中进行 RL 后训练 VLA → 无需大量真实机器人交互

2026-03-11

World2Act: Latent Action Post-Training via Skill-Compositional World Models

技能组合世界模型用于 VLA 后训练，自适应处理分布外环境变化，提升策略鲁棒性。

2026-03-09

AtomVLA: Scalable Post-Training via Predictive Latent World Models

预测性潜在世界模型可扩展地提升 VLA 多步行为的鲁棒性与指令跟随能力。

2026-03-03

Chain of World: World Model Thinking in Latent Motion

将 CoT 从语言 token 迁移到潜在运动空间，引入时序因果结构，VLA 先"想"再"做"。

2026-03-02

LaST-VLA: Thinking in Latent Spatio-Temporal Space

用潜在时空表征替代文本 CoT，消除语义-感知鸿沟，用于自动驾驶 VLA。

2026-02-15

WoVR: World Models as Reliable Simulators for Post-Training VLA with RL

世界模型替代真实环境，为 VLA 提供 RL 训练沙箱，大幅降低真实机器人交互需求。

2026-02-12

VLAW: Iterative Co-Improvement of VLA Policy and World Model

VLA 策略与世界模型双向迭代协同改进，线上交互数据循环提升两者质量。

2026-02-11

RISE: Self-Improving Robot Policy with Compositional World Model

组合式世界模型驱动机器人策略自我改进，解决接触丰富动态操作任务的 VLA 脆弱性。

2026-02-11

Scaling World Model for Hierarchical Manipulation Policies

层级操作策略的世界模型扩展，解决 OOD 场景下 VLA 脆弱性，仅需少量真实数据。

2026-02-10

VLA-JEPA: Enhancing VLA with Latent World Model

JEPA 风格潜在世界模型预训练，超越像素级变化的动作-感知对齐目标。

2026-02-25

World Guidance: World Modeling in Condition Space for Action Generation

在条件空间中建模未来观测，将世界模型预测作为 VLA 动作生成的引导信号。

2026-02-12

GigaBrain-0.5M: VLA Learns From World Model-Based RL

基于世界模型 RL 的 VLA 训练，解决单步 chunk 动作预测的场景理解局限。

📈

趋势分析

🔥 WM 成为 VLA 后训练标配

WoVR、VLAW、RISE、AtomVLA 等在2026年初密集爆发，核心范式：用真实数据训世界模型 → WM 中 RL 后训练 VLA → 无需大量真实机器人交互。

代表：WoVR / VLAW / RISE / AtomVLA / World2Act

💭 潜在空间 CoT 替代文本 CoT

将 Chain-of-Thought 从语言 token 迁移到潜在动态/时空表征，减少语义-感知鸿沟，更直接地建模物理因果。

代表：Chain of World / LaST-VLA / DynVLA

📐 3D / 空间感知注入

VLA 的 2D patch token 缺乏几何结构，GST-VLA 等工作将深度/高斯空间结构显式引入 token，弥补几何缺失。

代表：GST-VLA / FutureVLA

🚗 自动驾驶 VLA 热潮

2026年3月出现多篇 AD-VLA，将机器人 VLA 范式迁移到自动驾驶。个性化、场景自适应、WM 结合成为子方向热点。

代表：DynVLA / StyleVLA / EvoDriveVLA / SAMoE-VLA

⚡ 推理效率优化

VLA/WM 的 token 冗余问题引起关注，DepthCache、WorldCache 等工作专注免训练加速，Planning in 8 Tokens 探索极致压缩。

代表：DepthCache / WorldCache / Planning in 8 Tokens

🧠 神经科学 / 符号融合

SaiVLA 的大脑-桥脑-小脑三层架构、NS-VLA 的神经符号设计，体现将结构先验显式引入 VLA 的趋势。

代表：SaiVLA-0 / NS-VLA

关键方法对比

方法类型	代表工作	核心思路	主要优势
端到端 VLA	OpenVLA, UniVLA	预训练 VLM + 动作预测头	强泛化、语言指令跟随
WM for RL	WoVR, VLAW, GigaBrain	世界模型仿真 → RL 训练 VLA	无需大量真实机器人交互
潜在动态 CoT	Chain of World, DynVLA	预测潜在动态 → 条件化动作	减少语义-感知鸿沟
空间增强 VLA	GST-VLA, FutureVLA	几何/深度结构注入 token	提升 3D 操作精度
持续学习 VLA	Simple Recipe, DexHiL	RL 微调 / 人机协同后训练	适应新任务无灾难遗忘
层级规划 WM	MetaWorld-X, H-WM	高层语义规划 + 低层运动执行	长程任务分解与执行

🔥

近期热点 TOP 8（2026-03）

World2Act

技能组合 WM 用于 VLA 后训练新框架

↗ 2603.10422

AtomVLA

预测潜在世界模型提升多步任务鲁棒性

↗ 2603.08519

FutureVLA

联合视动预测，未来感知与动作深度绑定

↗ 2603.10712

DynVLA

自动驾驶 Dynamics CoT，先预测动态再决策

↗ 2603.11041

SaPaVe

主动感知 + VLA，统一感知-执行端到端框架

↗ 2603.12193

PlayWorld

从自主探索数据学习世界模型，无需任务标注

↗ 2603.09030

Chain of World

潜在运动空间的世界模型推理 CoT

↗ 2603.03195

ResWM

残差动作世界模型，视觉 RL 新基线

↗ 2603.11110