GR00T 1.5前戏:DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models

张开发
2026/4/13 11:44:26 15 分钟阅读

分享文章

GR00T 1.5前戏:DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models
通过视频世界模型解锁机器人学习的泛化解决数据缺乏问题。DREAMGEN4 阶段pipline用于训练机器人策略通过神经轨迹从视频世界模型生成的合成机器人数据泛化行为和环境。 接着使用潜在动作模型或/逆动态模型IDM来恢复伪动作序列。step1 在遥操机器人轨迹上微调视频世界模型。为了减少忘记先前的互联网视频知识使用LoRA[21]来进行视频生成模型微调。在微调这些模型时会查看两个指标指令遵循和物理遵循以确定视频世界模型是否已最佳适应目标机器人领域第 4 节中提供的详细信息。大部分场景采用 WAN2.1 [9] 作为视频生成模型。如果训练数据集中有多个视点将视点连接成 2×2 网格其中一个网格带有黑色像素并微调视频世界模型。step2 给定初始帧和语言指令真机采集的数据该模型会生成描述预期行为的视频展示。step3 由于这些视频缺乏动作注释本文使用潜在动作模型/逆动力学模型来推断伪动作形成本文所说的神经轨迹。对于逆动态模型 (IDM) 架构使用带有 SigLIP-2 视觉编码器的扩散变换器并使用流匹配目标进行训练。 IDM 以两个图像帧为条件并经过训练以预测图像帧之间的动作块图 3。没有使用任何语言或本体感觉作为输入因为希望 IDM 模型仅捕获机器人的动态。训练后采用滑动窗口方法进行伪标记IDM 预测 H 个动作从 aˆt 到 aˆtH 。接下来它滑动一个窗口并预测另一个 H 个动作从 a^t1 到 a^t1H 依此类推。在 DreamGen 里IDM 是先在真实 teleoperation 数据上用真值 action 监督训练出来的然后它再被拿去给生成视频打伪标签得到 pseudo-action而对于Latent Actions与GR00T N1一样用的是LAPA在以人或机器人为中心的数据上训练了能获取潜在动作。step4 最后在这些神经轨迹上训练视觉运动机器人策略。利用伪动作或潜在动作生成的图像来训练VLA。在实验方面利用AI来进行任务指令跟随打分利用VideoCon-Physics [26]进行物理对齐性打分接着利用人工进行相同过程的打分计算Pearson相关性验证AI判断的和人判断的具有高度的相似性来验证本文的合理性。其他的化就是在VLA上进行测试能否增强VLA的效果。

更多文章