GR00T 1.5前戏：DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models

张开发

• 2026/4/13 11:44:26 • 15 分钟阅读

分享文章

GR00T 1.5前戏：DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models

通过视频世界模型解锁机器人学习的泛化解决数据缺乏问题。DREAMGEN4 阶段pipline用于训练机器人策略通过神经轨迹从视频世界模型生成的合成机器人数据泛化行为和环境。接着使用潜在动作模型或/逆动态模型IDM来恢复伪动作序列。step1 在遥操机器人轨迹上微调视频世界模型。为了减少忘记先前的互联网视频知识使用LoRA[21]来进行视频生成模型微调。在微调这些模型时会查看两个指标指令遵循和物理遵循以确定视频世界模型是否已最佳适应目标机器人领域第 4 节中提供的详细信息。大部分场景采用 WAN2.1 [9] 作为视频生成模型。如果训练数据集中有多个视点将视点连接成 2×2 网格其中一个网格带有黑色像素并微调视频世界模型。step2 给定初始帧和语言指令真机采集的数据该模型会生成描述预期行为的视频展示。step3 由于这些视频缺乏动作注释本文使用潜在动作模型/逆动力学模型来推断伪动作形成本文所说的神经轨迹。对于逆动态模型 (IDM) 架构使用带有 SigLIP-2 视觉编码器的扩散变换器并使用流匹配目标进行训练。 IDM 以两个图像帧为条件并经过训练以预测图像帧之间的动作块图 3。没有使用任何语言或本体感觉作为输入因为希望 IDM 模型仅捕获机器人的动态。训练后采用滑动窗口方法进行伪标记IDM 预测 H 个动作从 aˆt 到 aˆtH 。接下来它滑动一个窗口并预测另一个 H 个动作从 a^t1 到 a^t1H 依此类推。在 DreamGen 里IDM 是先在真实 teleoperation 数据上用真值 action 监督训练出来的然后它再被拿去给生成视频打伪标签得到 pseudo-action而对于Latent Actions与GR00T N1一样用的是LAPA在以人或机器人为中心的数据上训练了能获取潜在动作。step4 最后在这些神经轨迹上训练视觉运动机器人策略。利用伪动作或潜在动作生成的图像来训练VLA。在实验方面利用AI来进行任务指令跟随打分利用VideoCon-Physics [26]进行物理对齐性打分接着利用人工进行相同过程的打分计算Pearson相关性验证AI判断的和人判断的具有高度的相似性来验证本文的合理性。其他的化就是在VLA上进行测试能否增强VLA的效果。

GR00T 1.5前戏：DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models

最新文章

Phoenix-Trello核心功能详解：看板、列表与卡片的高效协作之道

串口屏选型指南：从工业控制到智能家居，如何挑选最适合你的型号？

CATIA二次开发—参数操作全攻略：从创建到修改

实战演练：利用Kali Linux与Hydra/Medusa构建SSH密码强度测试框架

2026.4.11实测-南昌山姆停车费首2小时免费，第3h从6元涨价到了7元了——山姆东西感觉越来越国产化，值得买吗

win11的的小更新很多，有必要天天更新吗-今天y9000p出现了播放视频音乐卡顿5秒的情况，后恢复正常，这个是什么原因？

推荐文章

手把手教你用NUCLEO-H743ZI2连接Arduino模块：从硬件选型到I2C通信实战

从‘能用’到‘好用’：我用这5个步骤，为我的智能小车电机选到了最合适的栅极驱动芯片

11.os模块、编解码、文件操作、try-except语句详解

公路车桥耦合振动程序（考虑路面不平整度）——两套模型介绍及操作指南

Umi-OCR完全指南：如何利用开源OCR工具实现高效文字识别

从理论到实践：基于MATLAB comm.RayTracingChannel的室内多径信道仿真全解析

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

为什么你的C# 13主构造函数反而变慢了？揭秘字段初始化顺序、属性注入与依赖解析的致命时序冲突

VS Code开发STM32：高效嵌入式开发环境搭建指南

智能农业四情监测系统

告别黑屏！Android TV HDMI信号源检测与播放避坑指南（附完整Demo代码）

律所主任如何高效监控所里几百个案子的进度

Zotero7插件市场深度体验：这些科研神器让你的文献管理效率翻倍

OpenClaw多模型对比：Phi-3-vision-128k-instruct与纯文本模型任务效率实测

多旋翼飞行器设计与控制——实战学习应用

营销自动化数据驱动 - 多源数据 OLAP 架构演进嘉

体系结构论文（九十七）：Spec2RTL-Agent: Automated Hardware Code Generation from Complex Specifications Using LLM

基于匹配控制的构网型变流器建模与稳定性分析

双目视觉实战：如何用OpenCV和Python实现简易3D建模（附完整代码）