具身智能领域论文综述 · 2024年1月 — 2026年3月
以预训练语言/视觉大模型为骨干,直接从多模态观测预测机器人动作。强调零样本泛化、语言指令跟随与多任务通用性。代表作:OpenVLA、UniVLA。
建模环境状态转移动态,为规划、强化学习和数据增强提供"内部仿真器"。可大幅减少真实机器人交互成本。代表作:DreamerV3、PlayWorld。
2025-2026年的核心趋势:World Model 作为 RL 训练环境为 VLA 后训练,潜在空间 CoT 替代文本 CoT,VLA 策略与 WM 迭代协同改进。
开源 7B 参数 VLA,基于 BridgeData V2 + OXE 数据集预训练,成为后续研究标准基线。Stanford / UC Berkeley。
任务中心潜在动作表示,无需大量动作标注数据,通用跨环境机器人控制。
分析基于 RL 训练的 VLA 是否隐式学到世界内部表征,揭示 VLA 的涌现能力。
利用深度引导的 Token 合并降低 VLA 推理延迟,无需重新训练,即插即用。
独立自回归 Action Expert,以连续 causal 序列生成动作,条件化于可刷新的视觉-语言前缀。
神经科学启发三部件:大脑(VLM冻结提供语义先验)+ 桥脑(适配实时本体感觉)+ 小脑(精确动作执行)。
跨手型潜在表征,提升灵巧操作中的视觉-动作对齐,支持多指手协调。
统一语义驱动的主动感知与视点不变执行,端到端框架解决遮挡和视点变化问题。
联合视动预测,显式建模未来视觉-运动的紧密关联,提升长程操作准确性。
将 2D patch token 提升为带几何结构的 3D Gaussian 空间 token,弥补平面感知的几何缺失。
概念门控视觉蒸馏解决复杂背景导致的"精度-推理差距",背景特征稀释问题。
展示 VLA 天然适合持续强化学习,无需特殊持续学习算法设计,简单 RL 微调即可。
人在回路的 VLA 后训练框架,高效适配灵巧操作复杂下游任务。
显式任务进度建模,感知可量化的里程碑,实现错误检测与可恢复的鲁棒操作。
提出 Dynamics CoT:先预测紧凑世界动态 token,再生成驾驶动作,物理接地决策。
驾驶风格感知的 VLA,支持保守/激进等个性化驾驶行为适配。
协同感知-规划蒸馏框架,解决视觉编码器解冻后性能退化与长程规划不稳定问题。
场景自适应混合专家 VLA,不同驾驶场景路由不同专家子网络。
神经符号融合,学习可复用的操作原语,提升对新任务的组合泛化能力。
利用世界知识变化量(Δ)作为先验引导预测范式,建模未来视觉状态或世界模型变化。
从机器人自主探索数据(无需任务标注)学习通用仿真世界模型,大规模数据利用。
残差动作世界模型,基于原始视觉观测进行强化学习,提升连续控制中的样本效率。
VLM 协调多专家的层级世界模型,用于人形机器人同步运动与操作任务。
自我改进的闭环动作世界模型框架,结合反思规划实现长程可控视频生成。
层级世界模型引导任务规划与运动规划,超越纯视频生成或语言预测的现有方法。
持续强化学习场景下,通过增强回放机制保持世界模型在新旧任务上的鲁棒性。
自动驾驶潜在世界模型统一分类体系与评估框架,覆盖 VLA 系统,梳理开放挑战。
运动学感知的潜在世界模型,将车辆运动学约束融入状态预测,提升数据效率。
异构 Token 缓存策略加速扩散世界模型,实现交互式使用与长程滚动预测。
超紧凑离散 token 化方案,将规划状态压缩至 8 个 token,大幅降低世界模型规划计算开销。
密集视觉表征空间中的导航世界模型,动作条件化状态转移用于目标导航规划。
移动端动作条件化一致性世界模型,在移动导航中提供时序连贯的未来预测。
核心范式:用真实数据训练世界模型 → 在世界模型中进行 RL 后训练 VLA → 无需大量真实机器人交互
技能组合世界模型用于 VLA 后训练,自适应处理分布外环境变化,提升策略鲁棒性。
预测性潜在世界模型可扩展地提升 VLA 多步行为的鲁棒性与指令跟随能力。
将 CoT 从语言 token 迁移到潜在运动空间,引入时序因果结构,VLA 先"想"再"做"。
用潜在时空表征替代文本 CoT,消除语义-感知鸿沟,用于自动驾驶 VLA。
世界模型替代真实环境,为 VLA 提供 RL 训练沙箱,大幅降低真实机器人交互需求。
VLA 策略与世界模型双向迭代协同改进,线上交互数据循环提升两者质量。
组合式世界模型驱动机器人策略自我改进,解决接触丰富动态操作任务的 VLA 脆弱性。
层级操作策略的世界模型扩展,解决 OOD 场景下 VLA 脆弱性,仅需少量真实数据。
JEPA 风格潜在世界模型预训练,超越像素级变化的动作-感知对齐目标。
在条件空间中建模未来观测,将世界模型预测作为 VLA 动作生成的引导信号。
基于世界模型 RL 的 VLA 训练,解决单步 chunk 动作预测的场景理解局限。
WoVR、VLAW、RISE、AtomVLA 等在2026年初密集爆发,核心范式:用真实数据训世界模型 → WM 中 RL 后训练 VLA → 无需大量真实机器人交互。
代表:WoVR / VLAW / RISE / AtomVLA / World2Act
将 Chain-of-Thought 从语言 token 迁移到潜在动态/时空表征,减少语义-感知鸿沟,更直接地建模物理因果。
代表:Chain of World / LaST-VLA / DynVLA
VLA 的 2D patch token 缺乏几何结构,GST-VLA 等工作将深度/高斯空间结构显式引入 token,弥补几何缺失。
代表:GST-VLA / FutureVLA
2026年3月出现多篇 AD-VLA,将机器人 VLA 范式迁移到自动驾驶。个性化、场景自适应、WM 结合成为子方向热点。
代表:DynVLA / StyleVLA / EvoDriveVLA / SAMoE-VLA
VLA/WM 的 token 冗余问题引起关注,DepthCache、WorldCache 等工作专注免训练加速,Planning in 8 Tokens 探索极致压缩。
代表:DepthCache / WorldCache / Planning in 8 Tokens
SaiVLA 的大脑-桥脑-小脑三层架构、NS-VLA 的神经符号设计,体现将结构先验显式引入 VLA 的趋势。
代表:SaiVLA-0 / NS-VLA
| 方法类型 | 代表工作 | 核心思路 | 主要优势 |
|---|---|---|---|
| 端到端 VLA | OpenVLA, UniVLA | 预训练 VLM + 动作预测头 | 强泛化、语言指令跟随 |
| WM for RL | WoVR, VLAW, GigaBrain | 世界模型仿真 → RL 训练 VLA | 无需大量真实机器人交互 |
| 潜在动态 CoT | Chain of World, DynVLA | 预测潜在动态 → 条件化动作 | 减少语义-感知鸿沟 |
| 空间增强 VLA | GST-VLA, FutureVLA | 几何/深度结构注入 token | 提升 3D 操作精度 |
| 持续学习 VLA | Simple Recipe, DexHiL | RL 微调 / 人机协同后训练 | 适应新任务无灾难遗忘 |
| 层级规划 WM | MetaWorld-X, H-WM | 高层语义规划 + 低层运动执行 | 长程任务分解与执行 |