World Model & Vision-Language-Action

具身智能领域论文综述 · 2024年1月 — 2026年3月

📅 整理日期:2026-03-14 📄 收录论文:40+ 🔍 来源:ArXiv · HuggingFace
🌐

领域概述

🤖 VLA 主线

以预训练语言/视觉大模型为骨干,直接从多模态观测预测机器人动作。强调零样本泛化、语言指令跟随与多任务通用性。代表作:OpenVLA、UniVLA。

🌍 World Model 主线

建模环境状态转移动态,为规划、强化学习和数据增强提供"内部仿真器"。可大幅减少真实机器人交互成本。代表作:DreamerV3、PlayWorld。

🔗 深度融合趋势

2025-2026年的核心趋势:World Model 作为 RL 训练环境为 VLA 后训练,潜在空间 CoT 替代文本 CoT,VLA 策略与 WM 迭代协同改进。

🤖

VLA 方向重要论文

基础 / 奠基性工作
2024-06

OpenVLA: An Open-Source Vision-Language-Action Model

开源 7B 参数 VLA,基于 BridgeData V2 + OXE 数据集预训练,成为后续研究标准基线。Stanford / UC Berkeley。

2025-05-09

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

任务中心潜在动作表示,无需大量动作标注数据,通用跨环境机器人控制。

2025-09-29

Emergent World Representations in OpenVLA

分析基于 RL 训练的 VLA 是否隐式学到世界内部表征,揭示 VLA 的涌现能力。

高效推理 / 架构创新
2026-03-11

DepthCache: Depth-Guided Training-Free Visual Token Merging

利用深度引导的 Token 合并降低 VLA 推理延迟,无需重新训练,即插即用。

2026-03-10

AR-VLA: True Autoregressive Action Expert for VLA

独立自回归 Action Expert,以连续 causal 序列生成动作,条件化于可刷新的视觉-语言前缀。

2026-03-09

SaiVLA-0: Cerebrum–Pons–Cerebellum Tripartite Architecture

神经科学启发三部件:大脑(VLM冻结提供语义先验)+ 桥脑(适配实时本体感觉)+ 小脑(精确动作执行)。

2026-03-10

Cross-Hand Latent Representation for VLA

跨手型潜在表征,提升灵巧操作中的视觉-动作对齐,支持多指手协调。

视觉感知增强
2026-03-12

SaPaVe: Active Perception and Manipulation in VLA

统一语义驱动的主动感知与视点不变执行,端到端框架解决遮挡和视点变化问题。

2026-03-11

FutureVLA: Joint Visuomotor Prediction for VLA

联合视动预测,显式建模未来视觉-运动的紧密关联,提升长程操作准确性。

2026-03-10

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware VLA

将 2D patch token 提升为带几何结构的 3D Gaussian 空间 token,弥补平面感知的几何缺失。

2026-03-11

Overcoming Visual Clutter via Concept-Gated Visual Distillation

概念门控视觉蒸馏解决复杂背景导致的"精度-推理差距",背景特征稀释问题。

持续学习 / 后训练
2026-03-12

Simple Recipe Works: VLA as Natural Continual Learners with RL

展示 VLA 天然适合持续强化学习,无需特殊持续学习算法设计,简单 RL 微调即可。

2026-03-10

DexHiL: Human-in-the-Loop Framework for VLA Post-Training

人在回路的 VLA 后训练框架,高效适配灵巧操作复杂下游任务。

2026-03-10

See, Plan, Rewind: Progress-Aware VLA Models

显式任务进度建模,感知可量化的里程碑,实现错误检测与可恢复的鲁棒操作。

自动驾驶 VLA
2026-03-11

DynVLA: Learning World Dynamics for Action Reasoning in AD

提出 Dynamics CoT:先预测紧凑世界动态 token,再生成驾驶动作,物理接地决策。

2026-03-10

StyleVLA: Driving Style-Aware Vision Language Action Model

驾驶风格感知的 VLA,支持保守/激进等个性化驾驶行为适配。

2026-03-10

EvoDriveVLA: Evolving Autonomous Driving VLA

协同感知-规划蒸馏框架,解决视觉编码器解冻后性能退化与长程规划不稳定问题。

2026-03-09

SAMoE-VLA: Scene Adaptive MoE for Autonomous Driving

场景自适应混合专家 VLA,不同驾驶场景路由不同专家子网络。

2026-03-10

NS-VLA: Towards Neuro-Symbolic VLA

神经符号融合,学习可复用的操作原语,提升对新任务的组合泛化能力。

2026-03-09

ΔVLA: Prior-Guided VLA via World Knowledge Variation

利用世界知识变化量(Δ)作为先验引导预测范式,建模未来视觉状态或世界模型变化。

🌍

World Model 方向重要论文

机器人操作 World Model
2026-03-09

PlayWorld: Learning Robot World Models from Autonomous Play

从机器人自主探索数据(无需任务标注)学习通用仿真世界模型,大规模数据利用。

2026-03-11

ResWM: Residual-Action World Model for Visual RL

残差动作世界模型,基于原始视觉观测进行强化学习,提升连续控制中的样本效率。

2026-03-09

MetaWorld-X: Hierarchical World Modeling for Humanoid Loco-Manipulation

VLM 协调多专家的层级世界模型,用于人形机器人同步运动与操作任务。

2026-03-12

SPIRAL: Self-Improving Action World Models via Reflective Planning

自我改进的闭环动作世界模型框架,结合反思规划实现长程可控视频生成。

2026-02-11

H-WM: Robotic Task and Motion Planning via Hierarchical World Model

层级世界模型引导任务规划与运动规划,超越纯视频生成或语言预测的现有方法。

2026-03-12

ARROW: Augmented Replay for Robust World Models

持续强化学习场景下,通过增强回放机制保持世界模型在新旧任务上的鲁棒性。

自动驾驶 World Model
2026-03-10

Latent World Models for AD: Unified Taxonomy & Evaluation ⭐综述

自动驾驶潜在世界模型统一分类体系与评估框架,覆盖 VLA 系统,梳理开放挑战。

2026-03-07

Kinematics-Aware Latent World Models for Data-Efficient AD

运动学感知的潜在世界模型,将车辆运动学约束融入状态预测,提升数据效率。

2026-03-06

WorldCache: Accelerating World Models via Heterogeneous Token Caching

异构 Token 缓存策略加速扩散世界模型,实现交互式使用与长程滚动预测。

2026-03-05

Planning in 8 Tokens: Compact Discrete Tokenizer for Latent World Model

超紧凑离散 token 化方案,将规划状态压缩至 8 个 token,大幅降低世界模型规划计算开销。

导航 World Model
2026-03-10

RAE-NWM: Navigation World Model in Dense Visual Representation

密集视觉表征空间中的导航世界模型,动作条件化状态转移用于目标导航规划。

2026-03-08

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

移动端动作条件化一致性世界模型,在移动导航中提供时序连贯的未来预测。

🔗

WM + VLA 深度融合(2026年最热方向)

核心范式:用真实数据训练世界模型 → 在世界模型中进行 RL 后训练 VLA → 无需大量真实机器人交互

2026-03-11

World2Act: Latent Action Post-Training via Skill-Compositional World Models

技能组合世界模型用于 VLA 后训练,自适应处理分布外环境变化,提升策略鲁棒性。

2026-03-09

AtomVLA: Scalable Post-Training via Predictive Latent World Models

预测性潜在世界模型可扩展地提升 VLA 多步行为的鲁棒性与指令跟随能力。

2026-03-03

Chain of World: World Model Thinking in Latent Motion

将 CoT 从语言 token 迁移到潜在运动空间,引入时序因果结构,VLA 先"想"再"做"。

2026-03-02

LaST-VLA: Thinking in Latent Spatio-Temporal Space

用潜在时空表征替代文本 CoT,消除语义-感知鸿沟,用于自动驾驶 VLA。

2026-02-15

WoVR: World Models as Reliable Simulators for Post-Training VLA with RL

世界模型替代真实环境,为 VLA 提供 RL 训练沙箱,大幅降低真实机器人交互需求。

2026-02-12

VLAW: Iterative Co-Improvement of VLA Policy and World Model

VLA 策略与世界模型双向迭代协同改进,线上交互数据循环提升两者质量。

2026-02-11

RISE: Self-Improving Robot Policy with Compositional World Model

组合式世界模型驱动机器人策略自我改进,解决接触丰富动态操作任务的 VLA 脆弱性。

2026-02-11

Scaling World Model for Hierarchical Manipulation Policies

层级操作策略的世界模型扩展,解决 OOD 场景下 VLA 脆弱性,仅需少量真实数据。

2026-02-10

VLA-JEPA: Enhancing VLA with Latent World Model

JEPA 风格潜在世界模型预训练,超越像素级变化的动作-感知对齐目标。

2026-02-25

World Guidance: World Modeling in Condition Space for Action Generation

在条件空间中建模未来观测,将世界模型预测作为 VLA 动作生成的引导信号。

2026-02-12

GigaBrain-0.5M: VLA Learns From World Model-Based RL

基于世界模型 RL 的 VLA 训练,解决单步 chunk 动作预测的场景理解局限。

🔥

近期热点 TOP 8(2026-03)

1
World2Act

技能组合 WM 用于 VLA 后训练新框架

↗ 2603.10422
2
AtomVLA

预测潜在世界模型提升多步任务鲁棒性

↗ 2603.08519
3
FutureVLA

联合视动预测,未来感知与动作深度绑定

↗ 2603.10712
4
DynVLA

自动驾驶 Dynamics CoT,先预测动态再决策

↗ 2603.11041
5
SaPaVe

主动感知 + VLA,统一感知-执行端到端框架

↗ 2603.12193
6
PlayWorld

从自主探索数据学习世界模型,无需任务标注

↗ 2603.09030
7
Chain of World

潜在运动空间的世界模型推理 CoT

↗ 2603.03195
8
ResWM

残差动作世界模型,视觉 RL 新基线

↗ 2603.11110