李弘扬团队世界引擎:Post-Training开启Physical AGI新纪元

张开发
2026/4/21 17:52:30 15 分钟阅读

分享文章

李弘扬团队世界引擎:Post-Training开启Physical AGI新纪元
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | 机器之心编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球一年前DeepSeek R1 横空出世人们才意识到真正让模型产生推理能力质变的不必是更大的预训练规模 —— 后训练用强化学习、过程奖励、闭环反馈以极低的代价解锁了原本需要数倍算力才能触达的能力边界。这场范式革命正在物理世界重演。自动驾驶系统已经在海量驾驶数据上完成了预训练但距离真正的 Physical AGI仍有一道鸿沟模型知道 该怎么开却不知道「为什么这样开更好」。真正的进化需要闭环、需要反馈、需要在与世界的交互中不断修正。香港大学李弘扬团队联合华为、上海创智学院给出了他们的答案 —— 世界引擎以后训练为核心范式以闭环仿真为训练环境驱动自动驾驶系统在海量真实与合成场景的交互中涌现出真正的决策能力。代码地址https://github.com/OpenDriveLab/WorldEngine主页https://opendrivelab.com/WorldEngine/作为自动驾驶领域的重要学术力量2022 年底OpenDriveLab 推出 UniAD—— 第一个将感知、预测、规划统一在单一框架下的端到端系统以「规划为中心」重新定义了自动驾驶的建模范式成为学术界公认的里程碑。但 UniAD 之后一个更深的问题浮出水面端到端系统在学术 benchmark 上表现优异真实世界却是另一回事。雨夜里逆行的电动车施工路段突然倒下的锥桶大客车后方的鬼探头 —— 这些长尾场景在训练数据里几乎不存在。靠更大的数据集、更深的网络无法根本性地解决。OpenDriveLab 开始从两个方向同时推进。一方面MTGS 通过多次遍历的 3D 高斯泼溅技术构建出高保真的可渲染驾驶场景 —— 这是闭环仿真的物理基础。另一方面Nexus、Omega 等世界模型工作聚焦于反事实难例高动态交互模拟突破真实数据对长尾场景覆盖的天然局限。至此一个核心问题自然浮现有了高保真仿真环境有了能生成难例的世界模型如何让端到端系统真正在其中安全进化答案就是后训练。2025 年 4 月华为发布 ADS 4.0正式披露了全新技术架构 WEWA。其中云端核心 World Engine正是华为与 OpenDriveLab 联合开发的成果。https://auto.huawei.com/cn/ads华为将这套架构的目标定义为面向自动驾驶从类人到超人。World Engine由此登场。World Engine迈向物理 AI 的后训练时代如果说预训练让自动驾驶系统学会了「模仿」那后训练要解决的是如何让系统学会「判断」。World Engine 的设计哲学正是围绕这一目标展开。它不是一个单一模型而是一套完整的后训练 pipeline由三个核心能力构成3DGS 仿真环境 —— 基于 3DGS 构建的高保真视觉输入为后训练提供了真正意义上的闭环反馈。系统的每一个决策都能在环境中得到即时响应而不是停留在数据回放。难例挖掘 扩散生成 —— 真实世界的长尾场景稀缺且难以复现。World Engine 首先从海量真实驾驶数据中主动挖掘难例再以世界模型为工具对这些难例进行扩散生成后依托仿真环境进行渲染放大长尾场景的密度与多样性让系统在训练中「见过」它在路上可能遇到的一切。基于强化学习的后训练 ——World Engine 在仿真生成的大规模难例场景上以强化学习驱动系统优化将安全价值规范内化为奖励信号让系统不只是「开得快」更是「开得对」。三者协同构成了一个完整的飞轮仿真生成难例难例驱动后训练后训练强化决策能力。图 1 World Engine 架构总览从暴露弱点到超越弱点三个模块一套飞轮。难例挖掘与扩散生成World Engine 首先让模型「自己暴露弱点」。将预训练好的端到端模型在训练集上做开环推理以 PDMS 作为评判标准自动筛选出模型表现差的场景 —— 碰撞、偏离道路、自车停滞不前。这些场景就是模型的能力边界所在。挖掘出难例之后World Engine 并不止步于此。行为世界模型Behaviour World Model 以解耦扩散的方式对这些难例场景进行变体生成 —— 在保持真实地图拓扑与场景布局的前提下引入对抗性交通行为批量合成高密度的安全关键场景。真实数据的长尾由此被系统性地放大。图 2 难例扩散生成典型 case高保真闭环仿真难例场景需要一个足够真实的舞台。World Engine 内置了基于 3DGS 的场景重建 pipeline—— 融合同一路段的多次真实驾驶记录构建出扎根于真实世界的高保真三维场景。这不是凭空生成的虚拟沙盒而是闭环训练的真实物理基础。图 3 高保真闭环仿真效果图基于强化学习的后训练有了大规模难例数据World Engine 以离线强化学习驱动端到端模型持续优化。奖励信号将舒适性、避障、道路合规等安全价值直接内化为训练目标。模型不再只是模仿人类驾驶员而是在与难例的反复博弈中学会真正的安全决策。图 4 navsim 测试难例集对比World Engine 发现了什么数据量上做加法不如在训练范式上做乘法图 5 验证 Data Scaling: 将预训练数据集场景数量从 12k 增广至 103k 进行对比自动驾驶行业有一个长期信仰数据越多模型越安全。World Engine 给出了一个更复杂的答案。将预训练数据从 1.3 万个场景一路扩大到 10.3 万个在日常驾驶场景上scaling law 如期生效 —— 数据越多表现越好。但在安全关键的长尾场景上曲线很快躺平。原因并不意外真实路测中危险场景本就极度稀缺堆再多常规数据模型在关键时刻依然束手无策。数据 scaling在长尾场景这件事上撞上了天花板。World Engine 的后训练给出了另一条路径在仿真环境中以强化学习反复博弈难例场景将避障、合规、舒适性直接编码为优化目标同时确保系统不丢失预训练阶段习得的基础驾驶能力。从同一个基础模型出发后训练直接跨越了 scaling 曲线实现了等效于将预训练数据扩大约 14 倍的闭环性能增益。一块都不能少后训练有效但增益从何而来World Engine 对自身的三个核心模块做逐一拆解。图 6 navsim 数据集上不同训练后范式对比光喂数据没用。 拿到稀有场景数据模仿学习几乎不改善闭环表现。模型学会了「照做」没学会「判断」。强化学习才是那个开关。练什么比怎么练更重要。 同样是强化学习在普通场景上练闭环成功率反而下降 —— 就像一个学生只刷简单题考试遇到难题反而更慌。只有聚焦难例能力才真正提升。仿真不是有就行得「活」起来。 当仿真里的其他车辆只是录像回放收益有限当它们开始对自车行为做出反应、甚至主动制造对抗闭环成功率从 76% 一路拉到 89% 。World Engine 的行为世界模型补上的正是这最后一环。从仿真到路测World Engine 的工业级答卷学术 benchmark 之外World Engine 接受了一次更严苛的考验 —— 华为 ADS 系统的工业级验证。基础模型在超过 8 万小时真实驾驶数据上完成预训练覆盖全国 100 余座城市、逾千万条驾驶片段。这已经是一个极强的起点。World Engine 后训练在此基础上继续发力。工业闭环仿真图 7 ADS 工业级闭环仿真结果对比团队利用华为 ADS 的工业级闭环仿真平台对后训练模型进行了全面评估 —— 超过 1 万个测试场景累计模拟驾驶里程逾 3000 公里全部为高密度交互的事件性场景而非平淡的常规巡航。结果横跨六项安全指标全面改善其中切入碰撞更是下降 45.5%。实车路测仿真之后World Engine 走上了上海真实路面。测试路线涵盖城市快速路与城区道路总计约 200 公里重复测试三次完成。图 8 上海市内高架测试路线图 9 上海市城区测试路线测试覆盖的场景是城市驾驶中真正让人惊出冷汗的时刻夜间施工区的临时改道、行人从视觉盲区横穿、无保护左转后的施工区。 这些场景的共同特征是 —— 即便是经验丰富的人类驾驶员也需要高度集中注意力稍有迟疑就可能出事。典型实车场景 1典型实车场景 2典型实车场景 3而 World Engine 后训练模型全程无需人工介入。Post Training不止于自动驾驶World Engine 的故事从自动驾驶出发。但它真正想回答的问题远不止于此。回到最核心的洞见当真实世界无法为你提供足够的关键失败场景时就主动去创造它们。 在这些失败中反复博弈在这些边界上持续进化。这个逻辑和驾驶无关 —— 它是所有 Physical AI 系统共同面临的根本困境。Physical AI 与数字 AI 最本质的区别在于不可逆性。语言模型说错一句话刷新重来推荐系统给错一个结果下一次纠正。但物理世界里机器人打碎了一个杯子手术机器人划错了一刀自动驾驶追尾了一辆车 —— 错误已经发生无法撤销。这意味着Physical AI 必须在真正上线之前就已经 见过 那些最危险的时刻。但现实是这些最危险的时刻恰恰是最难收集的数据。这些领域和自动驾驶面对的是同一个结构性困境最需要学习的场景天然地缺席于训练数据。World Engine 提供的范式正是针对这一困境的系统性回答。具体的技术实现会因领域而异3DGS 渲染可以换成物理引擎或视频世界模型行为世界模型可以换成机械臂动力学仿真或人体运动生成 —— 但核心逻辑不变不被动等待数据主动生成经验不只模仿人类在与世界的博弈中涌现能力。OpenDriveLab 正在将这条路延伸到更广阔的具身智能领域。从端到端自动驾驶出发走向能在物理世界中感知、推理、行动、进化的通用智能体 —— 这是具身智能研究的终极命题也是 Physical AGI 真正的意涵所在。自动驾驶是这场旅程的第一个战场。而 Post-Training将是 Physical AGI 时代最重要的基础设施之一。项目作者简介World Engine 由香港大学助理教授、上海创智学院全时导师李弘扬博士与华为苏鹏博士共同担任项目负责人李天羽上海创智学院、陈立香港大学、王曹俊上海创智学院、刘浩晨南洋理工大学为项目核心贡献者共同主导新范式的研究与实现苏鹏博士团队从产业视角出发推动技术的量产落地与应用部署。自动驾驶之心求点赞求分享求喜欢

更多文章