利用DeepMind的这项技术 AI也会玩《愤怒的小鸟》了

Source
《愤怒的小鸟》,一款主流且经典的游戏,自 2009 年以来已经被下载了 40 亿次;大约是地球上总人口的半数。除此之外,它催生了众多相关图画小说和书籍,两部电影和四个系列动画剧,更不用说在智能手机及其他平台上衍生出的无数游戏,甚至是 AR 版本的游戏。


上图为 AR 版《愤怒的小鸟》之《猪岛》

现如今,这款风靡全球的游戏也受到了来自 AI 的挑战——AI 已经达到了该游戏顶级玩家的同等水平。

本周,Arixiv.org 上发表了一篇论文,布拉格查尔斯大学的研究人员详细介绍了一个叫作 DQ-Birds 的 AI 系统;该系统通过由 Deepmind 率先提出的 Deep Q-learning 算法训练,从而在之前随机取样的环境下完成指定的任务。

通常,研究人员在利用 Deep Q-learning 算法训练 AI 系统时,还会采取 Double Q-learning 的算法;这种算法至关重要,因为它不是用来控制机器的下一步动作,而是用来评估决策。

研究人员在论文中写道:

对于人工智能智能体来说,《愤怒的小鸟》这款游戏十分棘手,因为它需要考虑顺序和游戏环境等随机因素,还需要区分多种类别的小鸟,以及它们相应的能力和最佳点击时间。如果想要成功地完成任务,人工智能智能体就要具备提前预测或模拟自己行动的后果。

为此,AI 系统会捕捉游戏截图(为了让游戏物理效果稳定下来,系统在拍照前会等待 5 秒钟),然后对其进行裁剪,并隐藏“菜单”和“再玩一次”等 UI 元素。截图经过裁剪后,系统会调整图片的大小,让它们呈相对统一的规范状态,然后再传送给 Deep Q-learning 机器学习算法。

为了更加深入地了解自己的模型,该团队还从《愤怒的小鸟》中经典的 Poached Eggs 关卡里收集了 21 个难度级别的数据集,其中包括超过 11.5 万个截图。研究人员报告说,他们的 AI 系统已经能够在某些级别上超过一个由四名人类专业玩家组成的小组的分数,但在 21 个难度级别的分数总和上还是略逊一筹,尤其是在过 18 级难度的关卡时。

除此之外,在 IJCAI(International Joint Conference on Artificial Intelligence,国际人工智能联合会议)大会举行期间,这个研究团队还携其 AI 模型参加了愤怒的小鸟 AI 竞赛;这场竞赛中,有几个参赛选手的 AI 模型成功在三个回合中通过了 8 个此前从未接触过的关卡,然而,DQ-Birds 系统并没有获胜,但它成功通过了其中 3 个关卡,这已经比 2017 年的半决赛水平还要高了。

研究人员在报告中说道:

我们在这项工作中有一个目标没有达成,那就是 DQ-Birds 系统没有完全超越人类;这有很大一部分原因在于该系统还缺乏足够多样的训练数据集。但好消息时,DQ-Birds 在某些关卡已经能一次性过关。