World Action Model 论文调研 (2025

🧠

1. 什么是 World Action Model？

World Action Model（WAM，世界动作模型）不是传统意义上的“只预测未来视频”的 world model，也不是“当前观测 → 动作”的 VLA policy。它的关键是把 world prediction 与 action prediction 合并为一个闭环学习目标。

工作定义：给定历史观测、语言目标和机器人状态，WAM 联合预测未来世界状态与动作序列。未来视觉状态不是附属可视化，而是动作策略学习物理因果、接触动态和跨具身迁移的密集监督信号。

p(o_t+1:t+H, a_t:t+H | o_≤t, language, robot_state)

VLA：直接策略

典型范式是 vision + language + proprioception → action。优点是推理快、任务指令强；缺点是物理泛化和新运动组合往往依赖大量示教。

World Model：预测世界

学习 action-conditioned 或 prompt-conditioned 的未来视觉/状态转移，可用于规划、评估、数据生成，但本身不一定输出可执行动作。

WAM：动作即世界预测的一部分

同时输出未来视频/视觉特征与动作。视频提供 dense physical dynamics，动作提供可执行闭环控制，两者互相正则化。

🧭

2. Taxonomy：四类 World Action Model

类别	核心问题	代表论文/系统	动作如何进入模型	输出
A. Joint Video-Action Policy	能否用视频生成模型直接做机器人策略？	DreamZero / WAM, Video Policy, MV-VDP	动作 token 与视频 latent 联合预测；或用 future heatmap/RGB video 表示动作	未来视频 + 动作 chunk
B. Autoregressive Action World Model	能否把 VLA 与 world model 放进一个 AR 序列模型？	WorldVLA, GigaWorld/Gigabrain-0	图像 token、语言 token、动作 token 共用自回归序列；future image 作为辅助监督	动作 token + future image
C. Action-Conditioned Simulator	能否生成可控、可交互、可反事实的未来世界？	GAIA-2, UniSim, Genie 系列, LOME, SAW	语言、轨迹、控制信号、affordance mask、ego-action 作为条件	可控未来视频/多视角场景
D. World-Model-Augmented Agent/Planner	能否用 world model 评估动作后果、降低真实试错？	World-Model-Augmented Web Agents, DriveDreamer/Driving WMs, Dreamer 系列	动作作为 rollout 条件；策略在 imagined future 中规划/评估	风险评估、轨迹评分、规划动作

📚

3. 核心论文与系统

2026-02

DreamZero: World Action Models are Zero-shot Policies

提出 WAM 概念。基于 14B 预训练视频扩散骨干，联合预测未来视频和机器人动作；真实机器人中对新任务/环境泛化超过 SOTA VLA 2×，并以 7Hz 实时闭环控制运行。

WAMVideo DiffusionZero-shot Policy

arXiv Project

2025-06

WorldVLA: Towards Autoregressive Action World Model

将 VLA 与 world model 统一到单一自回归框架：world model 预测未来图像以学习环境物理，action model 基于观测生成后续动作；提出 attention mask 缓解动作自回归误差传播。

Action World ModelARVLA

arXiv Code

2026-04

MV-VDP: Multi-View Video Diffusion Policy

把机器人 3D 状态投影成多视角 RGB/heatmap 视频，使用视频扩散 policy 联合建模未来环境演化与动作。仅 10 条示教即可完成复杂真机任务。

Video Action ModelDiffusion Policy3D Multi-view

arXiv Project

2025-08

Video Generators are Robot Policies / Video Policy

用视频生成作为机器人 policy 学习代理：先预测目标未来视频或视觉计划，再将其转化为控制动作。代表了“future video as policy”路线。

Video PolicyVideo Generator

PDF

2026-03

SAW: Toward a Surgical Action World Model

手术场景 WAM：以语言、参考帧、组织 affordance mask、工具尖端轨迹为轻量条件，扩散生成可控手术动作视频；可增强稀有动作识别和手术模拟。

Surgical WAMVideo Diffusion

arXiv

2026-03

LOME: Action-Conditioned Egocentric World Model

面向人-物操作的第一视角世界模型，给定输入图像、文本提示和逐帧动作/空间控制，生成接触丰富的人物交互视频，为从人类视频学习操作提供桥梁。

Egocentric WMAction-conditioned

arXiv

2025-03

GAIA-2: Controllable Multi-View Generative World Model

Wayve 的驾驶世界模型，面向自动驾驶多视角可控视频生成；通过高质量 latent diffusion 支持常见与长尾驾驶场景仿真。

Driving WMLatent Diffusion

arXiv HTML

2026-01

1X World Model / From Video to Action

1X 将视频预训练世界模型接入 NEO 机器人策略，强调从视频学习物理先验与动作策略，体现工业界“world model as policy”的落地路径。

Robot PolicyIndustrial

Blog

2023–2026

UniSim / Genie 系列 / Interactive World Models

更偏交互式模拟器：从视频或互联网交互数据中学习可操控世界。它们不一定直接输出机器人动作，但为 WAM 提供可交互 world prior。

SimulatorInteractive WM

⚖️

4. WAM vs VLA：根本差异

维度	VLA / π0 类	World Action Model
核心目标	从当前观测和语言指令直接生成动作	联合生成未来视觉状态与动作，让动作被物理预测约束
监督信号密度	动作标签稀疏，依赖人工/机器人示教	视频帧提供 dense dynamics supervision，可利用大量无动作视频
泛化瓶颈	语义泛化强，但未见物理运动/接触泛化弱	通过视频动态先验学习“how”，更适合跨场景、跨任务、跨具身
推理成本	较低，适合高频控制	视频扩散/世界 rollout 成本高，需要蒸馏、缓存、短 horizon、系统优化
失败模式	动作看似合理但物理后果不可见	生成视频可能美化失败、hallucinate 可行动性；需要因果一致和可执行性评测

一句话：VLA 学的是 “what action token should I output now”；WAM 学的是 “if I act this way, what will happen, and which action sequence makes that future likely”。

🧩

5. 技术路线拆解

路线 1：视频扩散骨干 → 动作头

代表：DreamZero、MV-VDP、SAW、LOME
优势：物理细节、接触动态、跨 embodiment 视频迁移
挑战：闭环延迟、长 horizon 漂移、视频真实性 ≠ 可执行性

路线 2：AR Token 统一建模

代表：WorldVLA、Chameleon/Emu3 风格扩展
优势：图像/语言/动作 token 接口统一，容易 scaling
挑战：动作 chunk 自回归误差传播，连续控制精度不足

路线 3：交互式世界模拟器

代表：UniSim、Genie、GAIA-2、DriveDreamer
优势：可反事实、可规划、可生成稀有场景
挑战：从“看起来对”走向“动力学因果对”仍困难

路线 4：World Model 辅助 VLA 训练

代表：DreamVLA、future-image auxiliary loss、model-based data augmentation
优势：保留 VLA 低延迟，同时注入物理先验
挑战：辅助损失权重、负迁移、生成模型偏差

📏

6. 评测与 Benchmark 关注点

评测维度	为什么重要	推荐指标/实验
真实机器人成功率	WAM 最终必须闭环控制，不只是视频质量	Seen / unseen task success、OOD scene、跨物体泛化
动作-未来一致性	未来视频必须反映动作后果	action-conditioned FVD、contact consistency、trajectory alignment
跨具身迁移	WAM 最大卖点之一是从人类/其他机器人视频迁移	video-only demo adaptation、few-shot embodiment adaptation
长时程稳定性	世界 rollout 容易漂移、幻觉、物体消失	multi-step rollout error、object permanence、constraint violation
控制频率与延迟	扩散世界模型必须满足闭环实时性	Hz、latency、GPU budget、horizon length

关键风险：视频生成指标（FVD/CLIP-score）不能替代 policy 指标。真实控制中最危险的是 world model “美化失败样本”：视频看起来合理，但预测的物理后果与真实动作效果相反。

🚀

7. 趋势判断与研究机会

阶段 1：VLA 主导（2023–2024）

RT-2、OpenVLA、π0 等证明 vision-language-action 能规模化，但核心仍是“观测到动作”的直接映射。

阶段 2：World Model 进入机器人（2024–2025）

DriveDreamer、GAIA、UniSim、Genie 等让视频生成模型开始承担可控模拟器角色。

阶段 3：WAM 融合（2025–2026）

WorldVLA、DreamZero、MV-VDP 将动作生成和世界预测合并，形成“视频是策略中间语言”的新范式。

机会 1：动作-视频联合 tokenization

如何设计同时适合视觉生成和低延迟控制的 token/latent，是 WAM scaling 的底层问题。

机会 2：可执行性约束的 world model

仅生成逼真视频不够，需要把接触、力、几何、机器人运动学约束注入模型或解码器。

机会 3：VLA + WAM 双系统

短 horizon 由 VLA 快速控制，长 horizon 由 WAM 规划/校验，可能比纯 WAM 更现实。

机会 4：从人类视频到机器人动作

DreamZero 展示 video-only demos 的迁移潜力，下一步是更系统的 morphology alignment 与 inverse dynamics。