游戏居然能让 VLM 的通用推理变厉害

张开发
2026/4/15 11:07:59 15 分钟阅读

分享文章

游戏居然能让 VLM 的通用推理变厉害
来源PaperWeekly 本文约2000字建议阅读5分钟 本文介绍了复旦团队提出的 Game-RL 及其提升 VLM 通用推理的效果。视觉语言模型VLM的强化学习RL目前往往局限于几何题、图表分析等场景。这种领域上的局限制约了 VLM 的探索和学习。如何拓展 VLM 的 RL 训练领域——复旦大学 NLP 实验室的研究团队提出了 Game-RL。通过合成多模态游戏数据用于 RL成功激发了 VLM 的通用推理能力泛化到多个域外通用测试基准。此外游戏数据训练效果可匹敌几何数据且扩展训练游戏数和数据量还能带来持续提升。以上结论表明在游戏环境 scale 强化学习可作为提升模型通用推理能力的重要方向。论文标题Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs General Reasoning论文链接https://arxiv.org/abs/2505.13886项目网站https://iclr26-game-rl.github.io代码仓库https://github.com/tongjingqi/Game-RL数据和模型https://huggingface.co/collections/OpenMOSS-Team/game-rl1、Game-RLVLM 的 RL 训练领域重要拓展电子游戏具有视觉元素丰富、规则明确而可验证的特点是理想的多模态推理数据源。研究团队由此提出了 Game-RL —— 构造多模态可验证的游戏任务来强化训练 VLM。合成的游戏数据示例如图 14 个代表性游戏的任务。〓图1GameQA 数据集中各游戏类别的代表性游戏3D 重建、七巧板变体、数独和推箱子。各游戏展示两个视觉问答示例包含当前游戏状态图片相应的问题以及逐步推理过程和答案。2、从游戏代码到训练数据Code2Logic 方法的巧思为获得训练数据团队提出了新颖的 Code2Logic 方法通过游戏代码系统化地大规模合成可验证游戏任务数据如图 1。如图 2利用强 LLM 生成游戏代码、设计任务及其模板、构建数据引擎代码最后只要执行代码便能自动生成数据还能灵活控制样本难度和生成数据量。〓图2Code2Logic 方法借助 LLM 通过三个核心步骤将游戏代码转换为推理数据。第一步游戏代码构建第二步游戏任务及其 QA 模板设计第三步数据引擎构建基于前两步构建自动化程序然后只要执行代码就能自动批量生成数据。3、GameQA丰富的游戏任务数据集利用 Code2Logic 方法构建的 GameQA 数据集不仅能评测 VLM 的推理能力更可作为多模态可验证游戏任务数据强化训练 VLM。GameQA 有4 大认知能力类别、30 个游戏如图 3、158 个推理任务、14 万个问答对。难度分级任务按难度分三级样本按视觉输入复杂度分三级。〓图3GameQA 的 30 个游戏分为 4 个认知能力类别涵盖 3D 空间推理、模式识别与匹配、多步推理、策略规划。20 个域内游戏用于训练和测试而 10 个域外游戏不参与训练用于测试模型在未见游戏场景下的泛化能力。4、核心发现 IGame-RL 带来了可泛化的通用推理在 GameQA 上使用 GRPO 训练3 个开源 VLM 在 7 个完全域外的通用视觉语言推理基准上均取得提升Qwen2.5-VL-7B 平均提升 2.65%展现出跨领域泛化如表 1。〓表1通用视觉语言推理基准上的评测结果5、核心发现 II游戏数据训练效果竟匹敌几何数据研究团队用 GameQA 和几何与图表推理数据集进行对比训练发现 GameQA 可与之匹敌。如表 2尽管训练数据量更少且领域不匹配但 GameQA 训的模型在通用基准上总体表现很有竞争力而且在 MathVista 与 MathVerse 这两个和几何与函数推理有关的基准上Game-RL 训练竟超过了比较“对口”的训练数据。这表明游戏中的认知多样性和推理复杂性具有通用性和迁移能力。〓表2对比训练5K GameQA 样本 vs. 8K MAVIS几何与函数视觉推理vs. 8K Multimodal-Open-R1以几何推理为主vs. 8K MultiMath综合的数学领域多模态推理GameQA 训练的模型总体很有竞争力实验也显示混合训练MultiMath 中加入 GameQA 数据能助力模型提得更多。6、核心发现 III训练数据量和游戏个数的 Scaling Effect数据量的 Scaling Effect加大训练的 GameQA 数据量至 20K实验显示模型在通用推理基准上的表现总体呈持续提升如图 4。〓图4训练数据量的 Scaling Effect游戏个数的 Scaling Effect随着训练的游戏种类变多域外泛化效果增强如图 5。〓图5使用 20 种游戏的任务训练模型在域外通用基准上的提升优于使用4种游戏的配置。7、深度剖析Game-RL 后模型能力提升在哪为更好理解 Game-RL 对 VLM 推理能力的提升研究团队随机采样了案例进行了细致的人工分析。结果显示Game-RL 后模型在视觉感知和文本推理两个方面都有提升如图 6。〓图6人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上视觉感知和文本推理能力的变化情况下方是视觉感知能力提升的一个案例。8、结论研究提出了 Game-RL 以及可验证游戏数据合成方法 Code2Logic构建了 GameQA 数据集将 VLM 强化训练领域拓展到游戏场景。通过实验研究团队证明了 Game-RL 能提升 VLM 的可泛化的通用推理。此外游戏数据训练效果可匹敌几何数据且扩展训练游戏数和数据量还能带来持续提升。以上结论表明在游戏环境 scale 强化学习可作为提升模型通用推理能力的重要方向。编辑于腾凯校对林亦霖关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

更多文章