World Action Model(WAM,世界动作模型)不是传统意义上的“只预测未来视频”的 world model,也不是“当前观测 → 动作”的 VLA policy。它的关键是把 world prediction 与 action prediction 合并为一个闭环学习目标。
工作定义:给定历史观测、语言目标和机器人状态,WAM 联合预测未来世界状态与动作序列。未来视觉状态不是附属可视化,而是动作策略学习物理因果、接触动态和跨具身迁移的密集监督信号。
典型范式是 vision + language + proprioception → action。优点是推理快、任务指令强;缺点是物理泛化和新运动组合往往依赖大量示教。
学习 action-conditioned 或 prompt-conditioned 的未来视觉/状态转移,可用于规划、评估、数据生成,但本身不一定输出可执行动作。
同时输出未来视频/视觉特征与动作。视频提供 dense physical dynamics,动作提供可执行闭环控制,两者互相正则化。
| 类别 | 核心问题 | 代表论文/系统 | 动作如何进入模型 | 输出 |
|---|---|---|---|---|
| A. Joint Video-Action Policy | 能否用视频生成模型直接做机器人策略? | DreamZero / WAM, Video Policy, MV-VDP | 动作 token 与视频 latent 联合预测;或用 future heatmap/RGB video 表示动作 | 未来视频 + 动作 chunk |
| B. Autoregressive Action World Model | 能否把 VLA 与 world model 放进一个 AR 序列模型? | WorldVLA, GigaWorld/Gigabrain-0 | 图像 token、语言 token、动作 token 共用自回归序列;future image 作为辅助监督 | 动作 token + future image |
| C. Action-Conditioned Simulator | 能否生成可控、可交互、可反事实的未来世界? | GAIA-2, UniSim, Genie 系列, LOME, SAW | 语言、轨迹、控制信号、affordance mask、ego-action 作为条件 | 可控未来视频/多视角场景 |
| D. World-Model-Augmented Agent/Planner | 能否用 world model 评估动作后果、降低真实试错? | World-Model-Augmented Web Agents, DriveDreamer/Driving WMs, Dreamer 系列 | 动作作为 rollout 条件;策略在 imagined future 中规划/评估 | 风险评估、轨迹评分、规划动作 |
提出 WAM 概念。基于 14B 预训练视频扩散骨干,联合预测未来视频和机器人动作;真实机器人中对新任务/环境泛化超过 SOTA VLA 2×,并以 7Hz 实时闭环控制运行。
WAMVideo DiffusionZero-shot Policy将 VLA 与 world model 统一到单一自回归框架:world model 预测未来图像以学习环境物理,action model 基于观测生成后续动作;提出 attention mask 缓解动作自回归误差传播。
Action World ModelARVLA把机器人 3D 状态投影成多视角 RGB/heatmap 视频,使用视频扩散 policy 联合建模未来环境演化与动作。仅 10 条示教即可完成复杂真机任务。
Video Action ModelDiffusion Policy3D Multi-view用视频生成作为机器人 policy 学习代理:先预测目标未来视频或视觉计划,再将其转化为控制动作。代表了“future video as policy”路线。
Video PolicyVideo Generator手术场景 WAM:以语言、参考帧、组织 affordance mask、工具尖端轨迹为轻量条件,扩散生成可控手术动作视频;可增强稀有动作识别和手术模拟。
Surgical WAMVideo Diffusion面向人-物操作的第一视角世界模型,给定输入图像、文本提示和逐帧动作/空间控制,生成接触丰富的人物交互视频,为从人类视频学习操作提供桥梁。
Egocentric WMAction-conditionedWayve 的驾驶世界模型,面向自动驾驶多视角可控视频生成;通过高质量 latent diffusion 支持常见与长尾驾驶场景仿真。
Driving WMLatent Diffusion1X 将视频预训练世界模型接入 NEO 机器人策略,强调从视频学习物理先验与动作策略,体现工业界“world model as policy”的落地路径。
Robot PolicyIndustrial更偏交互式模拟器:从视频或互联网交互数据中学习可操控世界。它们不一定直接输出机器人动作,但为 WAM 提供可交互 world prior。
SimulatorInteractive WM| 维度 | VLA / π0 类 | World Action Model |
|---|---|---|
| 核心目标 | 从当前观测和语言指令直接生成动作 | 联合生成未来视觉状态与动作,让动作被物理预测约束 |
| 监督信号密度 | 动作标签稀疏,依赖人工/机器人示教 | 视频帧提供 dense dynamics supervision,可利用大量无动作视频 |
| 泛化瓶颈 | 语义泛化强,但未见物理运动/接触泛化弱 | 通过视频动态先验学习“how”,更适合跨场景、跨任务、跨具身 |
| 推理成本 | 较低,适合高频控制 | 视频扩散/世界 rollout 成本高,需要蒸馏、缓存、短 horizon、系统优化 |
| 失败模式 | 动作看似合理但物理后果不可见 | 生成视频可能美化失败、hallucinate 可行动性;需要因果一致和可执行性评测 |
| 评测维度 | 为什么重要 | 推荐指标/实验 |
|---|---|---|
| 真实机器人成功率 | WAM 最终必须闭环控制,不只是视频质量 | Seen / unseen task success、OOD scene、跨物体泛化 |
| 动作-未来一致性 | 未来视频必须反映动作后果 | action-conditioned FVD、contact consistency、trajectory alignment |
| 跨具身迁移 | WAM 最大卖点之一是从人类/其他机器人视频迁移 | video-only demo adaptation、few-shot embodiment adaptation |
| 长时程稳定性 | 世界 rollout 容易漂移、幻觉、物体消失 | multi-step rollout error、object permanence、constraint violation |
| 控制频率与延迟 | 扩散世界模型必须满足闭环实时性 | Hz、latency、GPU budget、horizon length |
RT-2、OpenVLA、π0 等证明 vision-language-action 能规模化,但核心仍是“观测到动作”的直接映射。
DriveDreamer、GAIA、UniSim、Genie 等让视频生成模型开始承担可控模拟器角色。
WorldVLA、DreamZero、MV-VDP 将动作生成和世界预测合并,形成“视频是策略中间语言”的新范式。
如何设计同时适合视觉生成和低延迟控制的 token/latent,是 WAM scaling 的底层问题。
仅生成逼真视频不够,需要把接触、力、几何、机器人运动学约束注入模型或解码器。
短 horizon 由 VLA 快速控制,长 horizon 由 WAM 规划/校验,可能比纯 WAM 更现实。
DreamZero 展示 video-only demos 的迁移潜力,下一步是更系统的 morphology alignment 与 inverse dynamics。