World Action Model 论文调研

从 VLA 到 WAM:让机器人策略同时预测“未来世界会怎样”和“我该如何行动”
2025–2026Robotics / Embodied AIWorld Model × VLA × Video Policy更新:2026-05
🧠

1. 什么是 World Action Model?

World Action Model(WAM,世界动作模型)不是传统意义上的“只预测未来视频”的 world model,也不是“当前观测 → 动作”的 VLA policy。它的关键是把 world predictionaction prediction 合并为一个闭环学习目标。

工作定义:给定历史观测、语言目标和机器人状态,WAM 联合预测未来世界状态与动作序列。未来视觉状态不是附属可视化,而是动作策略学习物理因果、接触动态和跨具身迁移的密集监督信号。

p(ot+1:t+H, at:t+H | o≤t, language, robot_state)

VLA:直接策略

典型范式是 vision + language + proprioception → action。优点是推理快、任务指令强;缺点是物理泛化和新运动组合往往依赖大量示教。

World Model:预测世界

学习 action-conditioned 或 prompt-conditioned 的未来视觉/状态转移,可用于规划、评估、数据生成,但本身不一定输出可执行动作。

WAM:动作即世界预测的一部分

同时输出未来视频/视觉特征与动作。视频提供 dense physical dynamics,动作提供可执行闭环控制,两者互相正则化。

🧭

2. Taxonomy:四类 World Action Model

类别核心问题代表论文/系统动作如何进入模型输出
A. Joint Video-Action Policy能否用视频生成模型直接做机器人策略?DreamZero / WAM, Video Policy, MV-VDP动作 token 与视频 latent 联合预测;或用 future heatmap/RGB video 表示动作未来视频 + 动作 chunk
B. Autoregressive Action World Model能否把 VLA 与 world model 放进一个 AR 序列模型?WorldVLA, GigaWorld/Gigabrain-0图像 token、语言 token、动作 token 共用自回归序列;future image 作为辅助监督动作 token + future image
C. Action-Conditioned Simulator能否生成可控、可交互、可反事实的未来世界?GAIA-2, UniSim, Genie 系列, LOME, SAW语言、轨迹、控制信号、affordance mask、ego-action 作为条件可控未来视频/多视角场景
D. World-Model-Augmented Agent/Planner能否用 world model 评估动作后果、降低真实试错?World-Model-Augmented Web Agents, DriveDreamer/Driving WMs, Dreamer 系列动作作为 rollout 条件;策略在 imagined future 中规划/评估风险评估、轨迹评分、规划动作
📚

3. 核心论文与系统

2026-02

DreamZero: World Action Models are Zero-shot Policies

提出 WAM 概念。基于 14B 预训练视频扩散骨干,联合预测未来视频和机器人动作;真实机器人中对新任务/环境泛化超过 SOTA VLA 2×,并以 7Hz 实时闭环控制运行。

WAMVideo DiffusionZero-shot Policy
2025-06

WorldVLA: Towards Autoregressive Action World Model

将 VLA 与 world model 统一到单一自回归框架:world model 预测未来图像以学习环境物理,action model 基于观测生成后续动作;提出 attention mask 缓解动作自回归误差传播。

Action World ModelARVLA
2026-04

MV-VDP: Multi-View Video Diffusion Policy

把机器人 3D 状态投影成多视角 RGB/heatmap 视频,使用视频扩散 policy 联合建模未来环境演化与动作。仅 10 条示教即可完成复杂真机任务。

Video Action ModelDiffusion Policy3D Multi-view
2025-08

Video Generators are Robot Policies / Video Policy

用视频生成作为机器人 policy 学习代理:先预测目标未来视频或视觉计划,再将其转化为控制动作。代表了“future video as policy”路线。

Video PolicyVideo Generator
2026-03

SAW: Toward a Surgical Action World Model

手术场景 WAM:以语言、参考帧、组织 affordance mask、工具尖端轨迹为轻量条件,扩散生成可控手术动作视频;可增强稀有动作识别和手术模拟。

Surgical WAMVideo Diffusion
2026-03

LOME: Action-Conditioned Egocentric World Model

面向人-物操作的第一视角世界模型,给定输入图像、文本提示和逐帧动作/空间控制,生成接触丰富的人物交互视频,为从人类视频学习操作提供桥梁。

Egocentric WMAction-conditioned
2025-03

GAIA-2: Controllable Multi-View Generative World Model

Wayve 的驾驶世界模型,面向自动驾驶多视角可控视频生成;通过高质量 latent diffusion 支持常见与长尾驾驶场景仿真。

Driving WMLatent Diffusion
2026-01

1X World Model / From Video to Action

1X 将视频预训练世界模型接入 NEO 机器人策略,强调从视频学习物理先验与动作策略,体现工业界“world model as policy”的落地路径。

Robot PolicyIndustrial
2023–2026

UniSim / Genie 系列 / Interactive World Models

更偏交互式模拟器:从视频或互联网交互数据中学习可操控世界。它们不一定直接输出机器人动作,但为 WAM 提供可交互 world prior。

SimulatorInteractive WM
⚖️

4. WAM vs VLA:根本差异

维度VLA / π0 类World Action Model
核心目标从当前观测和语言指令直接生成动作联合生成未来视觉状态与动作,让动作被物理预测约束
监督信号密度动作标签稀疏,依赖人工/机器人示教视频帧提供 dense dynamics supervision,可利用大量无动作视频
泛化瓶颈语义泛化强,但未见物理运动/接触泛化弱通过视频动态先验学习“how”,更适合跨场景、跨任务、跨具身
推理成本较低,适合高频控制视频扩散/世界 rollout 成本高,需要蒸馏、缓存、短 horizon、系统优化
失败模式动作看似合理但物理后果不可见生成视频可能美化失败、hallucinate 可行动性;需要因果一致和可执行性评测
一句话:VLA 学的是 “what action token should I output now”;WAM 学的是 “if I act this way, what will happen, and which action sequence makes that future likely”。
🧩

5. 技术路线拆解

路线 1:视频扩散骨干 → 动作头

  • 代表:DreamZero、MV-VDP、SAW、LOME
  • 优势:物理细节、接触动态、跨 embodiment 视频迁移
  • 挑战:闭环延迟、长 horizon 漂移、视频真实性 ≠ 可执行性

路线 2:AR Token 统一建模

  • 代表:WorldVLA、Chameleon/Emu3 风格扩展
  • 优势:图像/语言/动作 token 接口统一,容易 scaling
  • 挑战:动作 chunk 自回归误差传播,连续控制精度不足

路线 3:交互式世界模拟器

  • 代表:UniSim、Genie、GAIA-2、DriveDreamer
  • 优势:可反事实、可规划、可生成稀有场景
  • 挑战:从“看起来对”走向“动力学因果对”仍困难

路线 4:World Model 辅助 VLA 训练

  • 代表:DreamVLA、future-image auxiliary loss、model-based data augmentation
  • 优势:保留 VLA 低延迟,同时注入物理先验
  • 挑战:辅助损失权重、负迁移、生成模型偏差
📏

6. 评测与 Benchmark 关注点

评测维度为什么重要推荐指标/实验
真实机器人成功率WAM 最终必须闭环控制,不只是视频质量Seen / unseen task success、OOD scene、跨物体泛化
动作-未来一致性未来视频必须反映动作后果action-conditioned FVD、contact consistency、trajectory alignment
跨具身迁移WAM 最大卖点之一是从人类/其他机器人视频迁移video-only demo adaptation、few-shot embodiment adaptation
长时程稳定性世界 rollout 容易漂移、幻觉、物体消失multi-step rollout error、object permanence、constraint violation
控制频率与延迟扩散世界模型必须满足闭环实时性Hz、latency、GPU budget、horizon length
关键风险:视频生成指标(FVD/CLIP-score)不能替代 policy 指标。真实控制中最危险的是 world model “美化失败样本”:视频看起来合理,但预测的物理后果与真实动作效果相反。