游戏居然能让 VLM 的通用推理变厉害

张开发

• 2026/4/17 18:17:21 • 15 分钟阅读

分享文章

来源PaperWeekly 本文约2000字建议阅读5分钟本文介绍了复旦团队提出的 Game-RL 及其提升 VLM 通用推理的效果。视觉语言模型VLM的强化学习RL目前往往局限于几何题、图表分析等场景。这种领域上的局限制约了 VLM 的探索和学习。如何拓展 VLM 的 RL 训练领域——复旦大学 NLP 实验室的研究团队提出了 Game-RL。通过合成多模态游戏数据用于 RL成功激发了 VLM 的通用推理能力泛化到多个域外通用测试基准。此外游戏数据训练效果可匹敌几何数据且扩展训练游戏数和数据量还能带来持续提升。以上结论表明在游戏环境 scale 强化学习可作为提升模型通用推理能力的重要方向。论文标题Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs General Reasoning论文链接https://arxiv.org/abs/2505.13886项目网站https://iclr26-game-rl.github.io代码仓库https://github.com/tongjingqi/Game-RL数据和模型https://huggingface.co/collections/OpenMOSS-Team/game-rl1、Game-RLVLM 的 RL 训练领域重要拓展电子游戏具有视觉元素丰富、规则明确而可验证的特点是理想的多模态推理数据源。研究团队由此提出了 Game-RL —— 构造多模态可验证的游戏任务来强化训练 VLM。合成的游戏数据示例如图 14 个代表性游戏的任务。〓图1GameQA 数据集中各游戏类别的代表性游戏3D 重建、七巧板变体、数独和推箱子。各游戏展示两个视觉问答示例包含当前游戏状态图片相应的问题以及逐步推理过程和答案。2、从游戏代码到训练数据Code2Logic 方法的巧思为获得训练数据团队提出了新颖的 Code2Logic 方法通过游戏代码系统化地大规模合成可验证游戏任务数据如图 1。如图 2利用强 LLM 生成游戏代码、设计任务及其模板、构建数据引擎代码最后只要执行代码便能自动生成数据还能灵活控制样本难度和生成数据量。〓图2Code2Logic 方法借助 LLM 通过三个核心步骤将游戏代码转换为推理数据。第一步游戏代码构建第二步游戏任务及其 QA 模板设计第三步数据引擎构建基于前两步构建自动化程序然后只要执行代码就能自动批量生成数据。3、GameQA丰富的游戏任务数据集利用 Code2Logic 方法构建的 GameQA 数据集不仅能评测 VLM 的推理能力更可作为多模态可验证游戏任务数据强化训练 VLM。GameQA 有4 大认知能力类别、30 个游戏如图 3、158 个推理任务、14 万个问答对。难度分级任务按难度分三级样本按视觉输入复杂度分三级。〓图3GameQA 的 30 个游戏分为 4 个认知能力类别涵盖 3D 空间推理、模式识别与匹配、多步推理、策略规划。20 个域内游戏用于训练和测试而 10 个域外游戏不参与训练用于测试模型在未见游戏场景下的泛化能力。4、核心发现 IGame-RL 带来了可泛化的通用推理在 GameQA 上使用 GRPO 训练3 个开源 VLM 在 7 个完全域外的通用视觉语言推理基准上均取得提升Qwen2.5-VL-7B 平均提升 2.65%展现出跨领域泛化如表 1。〓表1通用视觉语言推理基准上的评测结果5、核心发现 II游戏数据训练效果竟匹敌几何数据研究团队用 GameQA 和几何与图表推理数据集进行对比训练发现 GameQA 可与之匹敌。如表 2尽管训练数据量更少且领域不匹配但 GameQA 训的模型在通用基准上总体表现很有竞争力而且在 MathVista 与 MathVerse 这两个和几何与函数推理有关的基准上Game-RL 训练竟超过了比较“对口”的训练数据。这表明游戏中的认知多样性和推理复杂性具有通用性和迁移能力。〓表2对比训练5K GameQA 样本 vs. 8K MAVIS几何与函数视觉推理vs. 8K Multimodal-Open-R1以几何推理为主vs. 8K MultiMath综合的数学领域多模态推理GameQA 训练的模型总体很有竞争力实验也显示混合训练MultiMath 中加入 GameQA 数据能助力模型提得更多。6、核心发现 III训练数据量和游戏个数的 Scaling Effect数据量的 Scaling Effect加大训练的 GameQA 数据量至 20K实验显示模型在通用推理基准上的表现总体呈持续提升如图 4。〓图4训练数据量的 Scaling Effect游戏个数的 Scaling Effect随着训练的游戏种类变多域外泛化效果增强如图 5。〓图5使用 20 种游戏的任务训练模型在域外通用基准上的提升优于使用4种游戏的配置。7、深度剖析Game-RL 后模型能力提升在哪为更好理解 Game-RL 对 VLM 推理能力的提升研究团队随机采样了案例进行了细致的人工分析。结果显示Game-RL 后模型在视觉感知和文本推理两个方面都有提升如图 6。〓图6人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上视觉感知和文本推理能力的变化情况下方是视觉感知能力提升的一个案例。8、结论研究提出了 Game-RL 以及可验证游戏数据合成方法 Code2Logic构建了 GameQA 数据集将 VLM 强化训练领域拓展到游戏场景。通过实验研究团队证明了 Game-RL 能提升 VLM 的可泛化的通用推理。此外游戏数据训练效果可匹敌几何数据且扩展训练游戏数和数据量还能带来持续提升。以上结论表明在游戏环境 scale 强化学习可作为提升模型通用推理能力的重要方向。编辑于腾凯校对林亦霖关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

游戏居然能让 VLM 的通用推理变厉害

最新文章

从混乱到秩序：配线架与理线架在数据中心布线中的核心价值

PX4飞控MAVLink数据流优化：如何永久设置IMU输出频率为100Hz（附SD卡配置详解）

SITS2026基准测试全解析，深度对比GitHub Copilot X、Tabnine Pro、CodeWhisperer及3款国产新锐（含LLM推理延迟与私有化部署实测数据）

FPGA实战：手把手教你用Vivado例化4个Aurora 8B/10B IP核（共享时钟与复位避坑指南）

如何一键开启画中画模式：Chrome扩展终极指南

收藏备用｜ReAct Agent核心解析+Function Calling/MCP/Skills实战，小白程序员必看大模型学习指南

推荐文章

手把手教你用NUCLEO-H743ZI2连接Arduino模块：从硬件选型到I2C通信实战

从‘能用’到‘好用’：我用这5个步骤，为我的智能小车电机选到了最合适的栅极驱动芯片

11.os模块、编解码、文件操作、try-except语句详解

公路车桥耦合振动程序（考虑路面不平整度）——两套模型介绍及操作指南

Umi-OCR完全指南：如何利用开源OCR工具实现高效文字识别

从理论到实践：基于MATLAB comm.RayTracingChannel的室内多径信道仿真全解析

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

告别裸机！在STM32F429上为TouchGFX界面添加FreeRTOS任务，实现IO控制与UI响应分离

CSS瀑布流布局实战：column-count属性实现图片墙（附完整代码）

无线通信入门：用Python手把手实现LS、MMSE、LMMSE信道估计（附代码对比）

从YOLOv5到GraspNet：手把手教你用Python实现机械臂的‘眼睛’和‘大脑’（附避坑指南）

跨厂商GPU集群IB网卡命名标准化实战指南

《QGIS快速入门与应用基础》253：元素锁定（防止误操作）

消息队列 BrokerServer 核心逻辑：processConnection 与请求处理全解析

深度解析DeepMIMO：毫米波大规模MIMO信道建模的5个架构设计决策

如何彻底解决Windows 10 PL-2303串口驱动兼容性问题

手把手教你用Python实现2024新算法IBKA：从BKA到精英反向+黄金正弦变异的完整代码解析

保姆级教程：用DolphinDB给100万条驾驶数据打标签（速度/风格/熟练度）

Unity游戏开发：Physics.SphereCast实战技巧与常见问题解决