4万小时“偷看”人类打游戏后,AI正在成为全网最强云玩家

各位早啊,我是强尼,欢迎收看最新一期威客日报!点赞充电收藏是我更新的最大动力!

引言:我们已经见识过AI下围棋、打星际争霸、写小说,但AI什么时候能自己学打游戏?

最近一篇由英伟达联合斯坦福大学、加州理工学院等机构研究人员发布的论文,把这个设想往前推了一大步。

NVIDIA已经不满足于只是卖游戏佬卡了,更是想要让AI自己学会打游戏,前不久推出了一个名为 NitroGen 的通用游戏智能体

——注意!它不是只会玩某一个游戏,而是几乎所有游戏在简单学习后都能够快速上手。

一、为什么通用的游戏智能那么难?

过去几年,游戏 AI 的发展一直面临一个困境:太专一,不通用

比如 AlphaGo 只会下围棋,OpenAI Five 只会打 Dota 2,它们都是为单一游戏设计的。

训练这样一个 AI 需要大量时间和专门的模拟器,成本很高。

另一个方向是让 AI 通过看人玩游戏来学习,这叫行为克隆

但问题在于:训练数据很难获取——你需要记录玩家每一刻的手柄操作,并和游戏画面一一对应。人工标注这样的数据几乎不可能大规模进行。

图片来源:CSDN

于是研究陷入了一个僵局:要么训练一个只会玩一个游戏的专家,要么因为数据不够而难以训练通才。

二、NitroGen的解法:从直播和视频里偷师

NitroGen的训练方法有点粗暴,但,很有效。

它通过观看互联网上4万小时的游戏视频学会了玩1000多种不同的游戏。

图片来源:原文图1

NitroGe团队发现,互联网上其实早就存在大量带操作显示的游戏视频。

很多游戏主播或玩家在录制视频时,会用一种叫“输入覆盖层”的软件,在画面角落显示自己实时的按键和摇杆操作。比如你常看到直播画面一角有个半透明的手柄图,哪个键按下、摇杆往哪推,一目了然。

原文图2:输入覆盖层示例。玩家按下按键时,屏幕一角的手柄图示会高亮显示,相当于给 AI 提供了操作字幕。

NitroGen的第一个突破,就是自动从这些视频里提取玩家的操作

他们收集了 7.1 万小时带手柄覆盖层的游戏视频,然后用计算机视觉技术定位、裁剪出手柄区域,再用一个训练好的分割模型识别摇杆位置和按键状态。最终,他们构建了一个包含4万小时视频、覆盖 1000 多款游戏的数据集。

原文图3:每场游戏的时长覆盖范围广泛,有 846 款游戏的时长数据超过 1 小时,91 款游戏超过 100 小时,15 款游戏每款的时长都超过 1000 小时。

这是目前规模最大、最多元的开源游戏操作数据集。

三、NitroGen都玩哪些游戏?

这些游戏类型分布很广:

  • 动作角色扮演游戏(比如《黑暗之魂》《艾尔登法环》)占 34.9%

  • 平台跳跃游戏(比如《空洞骑士》《蔚蓝》)占 18.4%

  • 动作冒险游戏(比如《塞尔达传说》)占 9.2%

  • 其余包括射击、体育、 Roguelike 等类型

原文图3:NitroGen 数据集中游戏类型的分布。动作RPG 占比最高,2D平台游戏次之。类型分布显示,动作角色扮演游戏占总时长的34.9%,平台游戏(18.4%)和动作冒险游戏(9.2%),其余则分布在七个类型中。

四、NitroGen的原理?

NitroGen 的模型结构并不复杂,它主要做一件事:

根据当前画面,预测接下来的一系列手柄操作

它使用了一个基于 Transformer 的视觉-动作模型,输入是一张 256×256 的游戏截图,输出是未来 16 个时刻的手柄动作(包括按键和摇杆方向)。

这个模型不依赖语言指令,也不依赖游戏内部状态——它只看画面,然后模仿人类在类似画面下的操作。

五、它真的能玩吗?

研究人员在一个包含10款游戏、30个任务的测试集上评估了 NitroGen。

这些任务涵盖战斗、导航、解谜等多种类型。

例如在某个 3D 动作游戏中,任务可能是击败这个 Boss;在 2D 平台游戏中,任务可能是跳跃到达某个平台。

原文图4:In-game rollouts。NitroGen在各种2D和3D环境中执行任务的情况。这些任务的执行时间从几秒钟到几分钟不等。其中一些任务涉及记忆,而另一些则在程序生成的世界中进行,需要模型具备适应能力。

结果是:NitroGen 在不进行额外训练的情况下,就能在多个游戏中完成非平凡任务

更令人印象深刻的是它的泛化能力

如果在一个新游戏上对 NitroGen 进行少量微调(比如 30 小时数据),它的任务成功率相比“从零开始训练”的模型,平均能提升 10% ~ 52%

原文图7:在新游戏上微调 NitroGen 能显著提升任务成功率,尤其是在战斗和导航任务上。(a)当改变数据量时,任务完成率会随着数据集大小而变化,微调平均能使任务完成率相对提高 10%。(b)在低数据量情况下(30 小时)改变任务类型时,微调能使任务完成率相对提高高达 52%。

尤其是在3D动作RPG游戏中,战斗任务的提升幅度最大,达到 52%。这说明它从其他游戏中学到的“战斗直觉”可以迁移到新游戏中。

当然,NitroGen 目前还有很多局限:

  • 它只是一个快速反应系统,不会长期规划,也不能理解语言指令。

  • 它主要依赖手柄操作,对键盘鼠标游戏的支持有限。

  • 数据集中动作游戏占比高策略类、模拟经营类游戏较少,因此在这些类型上泛化能力可能较弱。

七、省流时间

让AI打游戏只是娱乐,但这背后其实是一个更大的愿景:

训练能在未知环境中行动的通用具身智能体

游戏是一个相对安全、可控、且复杂度极高的数字世界。如果AI能在游戏中学会适应各种场景、解决各种任务,那么未来它在现实世界(比如机器人控制、自动驾驶)中也可能具备类似的能力。

值得一提,NitroGen 团队已经开源了他们的数据集、模型和测试环境,大伙都能下载下来并安装到自己电脑上体验一下。

码字不易,求点赞!求收藏!求盒电!

关注我,一起学些没用的...

————————————————————

本期参考文献:

《NitroGen | A Foundation Model for Generalist Gaming Agents》https://nitrogen.minedojo.org/

————————————————————

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com