DeepMind 打赢人类靠作弊?星海争霸胜利的真相:滑鼠按

2020-06-06
224 评论
355 人参与

DeepMind 打赢人类靠作弊?星海争霸胜利的真相:滑鼠按

作者:乾明、铜灵

几天前,DeepMind 开发的 AlphaStar 以 10:1 的战绩打败星海争霸 II 职业高手,引发了极大的关注。

AlphaStar 能够打赢人类玩家,关键在手速

DeepMind 表示,自己能够赢,全靠策略。

但这个说法,遭到了大量的质疑,无论是的 Reddit 和 Twitter 上,还是知乎和微博上,大多人都持有的观点是:

比赛中的一些时间段, AlphaStar 的 APM(actions per minute)能够达到 1000+ ,而最顶级的人类选手不过 500+ 。更何况, AlphaStar 的有效操作也几乎是炸裂的。

虽然这种情况没有持续多久,但 手速快慢以及精确度,对于星海争霸 II 太重要了。

在这些质疑中,有一篇文章引发了很多人的关注, Medium 上的鼓掌(类似 FB 的按讚)超过了 1.3K, Reddit 上的 Vote 也已经逼近 700 。

这篇文章的作者是一名来自芬兰的小哥,名为 Aleksi Pietikäinen ,目前在芬兰最大的金融公司 OP Financial Group 工作,自称是星海争霸 II  粉丝,对开发 AI 也有研究。

他在文章中以充分的论据指出,在比赛中, AlphaStar 在操作速度和精準度上远远超过了人类,这在很大程度上影响了战局。 DeepMind 声称已经限制 AI 执行超越人类能力的行为,但他们没有成功做到这一点。

AlphaStar 的手速远胜人类玩家

通常情况下, APM 是反映玩家水平的一个重要标準。

目前,星海争霸 II 中公认的顶尖人类高手是芬兰的职业选手 Serral ,在 2018 年 WCS 上, 9 场重要比赛赢得了 7 场,一举夺冠,创造了历史记录。

他的手速很快。很多人都认为他应该是世界上最快的。有多快呢?看下面的动图:

DeepMind 打赢人类靠作弊?星海争霸胜利的真相:滑鼠按

但即便如此, Serral 也不能够长时间将 APM 维持在 500 以上。虽然有个 800+ 的爆发,但也只是持续了几分之一秒,也很可能是垃圾操作。

AlphaStar 呢?爆发后 APM 能够达到 1500+ ,有时候能够在 APM 达到 1000+ 的时候维持 5 秒钟,而且大部分是有效操作。

一分钟 1500 个操作,就相当于一秒钟 25 个操作。这对于人类来说,是不可能做到的。

而且, 5 秒钟的时间在星海争霸 II 中,也是一段非常长的时间。尤其是在重要的场景中, 5 秒的高效快速操作,将会为后期赢得胜利奠定关键的基础。

下面的动图,是第三场比赛中, AlphaStar 对 Mana 的一场交战场景, AlphaStar 的 APM 达到了 1000+ ,并维持了 5 秒。

DeepMind 打赢人类靠作弊?星海争霸胜利的真相:滑鼠按

在第四场比赛中, APM 达到了 1500+:

DeepMind 打赢人类靠作弊?星海争霸胜利的真相:滑鼠按

虽然不乏有人说, AlphaStar 的平均 APM 只有 277 ,仍然是可以接受的。但无论如何, 它持续的爆发,是人类远远做不到的。

AlphaStar 的有效操作数远胜人类玩家

如果把有效操作和垃圾操作考虑在内,AlphaStar 就更逆天了。

人类玩家的 APM 中,有很多都是无效操作,这些操作并不会游戏产生有效影响。

考虑了这些因素之后,衡量一个玩家手速与精确度时,就有了一个新指标: EPM(effective actions per minute)。

剔除掉无效操作之后, Serral 的 EPM 能够达到 344 ,每秒钟有 5 ~ 6 次有效操作。这几乎是闻所未闻的,以至于很多人都不敢相信这是真的。

如果, AlphaStar 能在没有垃圾操作的情况下进行游戏的,这就意味着它的峰值 APM 就等于它的 EPM 了。速度能达到最顶尖的人类选手的 4 倍!

虽然 AlphaStar 团队表示,这些 APM 并不全是有效操作。但无论如何,人类都是没办法複製 AlphaStar 这些操作的。

DeepMind 打赢人类靠作弊?星海争霸胜利的真相:滑鼠按

在败给 AlphaStar 之后, MaNa 谈到了比赛的感受。他说, AI 最好的一面是单位控制,在我们情况差不多的时候, AlphaStar 能轻鬆获胜。

但最糟糕的一面也是如此, AI 非常确信自己能够通过单位控制获胜,以至于没有做其他任何事情,导致最后一场失利,比赛中没有多少关键的时刻,它能赢在于机制。

这也不是 DeepMind 想要看到的情形。

AlphaStar 团队也致力于开发不超越人类操作能力的智能体。联合负责人 David Silver 反覆表示, AlphaStar 不会超过人类选手的表现。

首席设计师也说,让系统能够「像人一样」训练是可取的,如果只是通过很高的 APM 来将游戏推向极限,听起来可能很酷,但这并不能用来评估智能体的真实能力。

AlphaStar 拿自由 APM 做实验,提升操作精确度

如上所述, AlphaStar 的研发团队对 AI 系统的 APM 进行了限制的。 Aleksi Pietikäinen 推测,可能会限制以下方面:

1、整个游戏中的平均 APM。

2、短时间内的爆发 APM。将 APM 限制在每秒 4 ~ 6 次是一个合理值。 Serral 有效操作每秒钟还不到 6 次。但与 Mana 对战的 AlphaStar 最高每秒操作 25 次左右,这比人类选手最快情况还要高,因此 Aleksi Pietikäinen 认为出现这种情况是不合理的。

3、点击间隔。即使 AI 的点击速度被限制了,它仍然可以在瞬间执行完动作,不用去考虑人类面临的滑鼠点击间隔问题。

三个原则确定后,接下来需要去训练模型了。 DeepMind 的方法是,下载了上万条人类高级玩家打游戏的影片,开始模仿学习。

在这个阶段, AI 会试图模仿人类在游戏中所做的一切,包括无效操作。因为在输入给模型的视频中,人类确实进行了很多无效操作, AI 也会学到。

AlphaStar 的最大爆发 APM ,最初与人类在同一起跑线。 上面也说到过,因为此时 AlphaStar 执行的大多数操作都是无效的,因此在对战中没有有效的 APM 支撑,并不占优势。

但无效操作太多会一直拖慢训练进度, 为了加速开发, DeepMind 团队改变了对 APM 的限制,允许出现高爆发 , Oriol Vinyals 在 Reddit 的 AMA 中也提到了这一点:

5 秒的时间段内 APM 最大为 600 , 15 秒内 APM 为 400 , 30 秒时间内为 320 , 60 秒内为 300 。如果 AI 在此期间内执行了更多操作,系统会选择删除/忽略操作。

乍一看 DeepMind 对星海争霸 II 的 AI 的设置合情合理,但如果细想前面讨论过的人类的爆发速度及操作精确度与点击间隔时间,又不是那幺回事。

举个人类无效操作的最典型例子:想指挥单位移动、攻击,就要用滑鼠点击地图上某个位置,这时候,人类的点击速度会儘可能最快,这些点击中也就有很多是无效的。

AI 也会跟着学到这些无效操作。

而 人类的点击速度是有限的 ,所以 AI 一开始学到的操作速度也会受到同样的限制。而 它后来表现出的超人手速和人类速度相比,之间差了很多额外的「自由」APM 。 AI 可以在这些自由 APM 上随意实验。

这对人类来说,似乎是非常不公平的事情。

既然 AI 学会了更有效的操作,为什幺 DeepMind 没有重新启用推出 SC2LE 环境时的 180 APM 严格限制呢?

这可能是因为, AI 偶尔还是会有无效操作出现,这会明显吃掉它的 APM 资源,在交战时伤害到它的表现。

在 DeepMind 给出的官方资料中还有一些疑点。

DeepMind 打赢人类靠作弊?星海争霸胜利的真相:滑鼠按

可以看到, TLO 的 APM 甚至到了 2000 ,这个数值高得似乎有些离谱,这种情况可能是通过加速键盘实现的,这也会带来无效操作。

但 DeepMind 并没有解释 TLO 的 APM 是怎幺来的,但这样会让人误以为 AlphaStar 的操作是合理的。

最后需要说明的一点是,这篇文章只是 Aleksi Pietikäinen 的观点。

也有一些人认为,就算 AlphaStar 的 APM 爆发突破了人类範畴,但它带来的突破性进展及其背后的意义,也是毋庸置疑的。

对此,你怎幺看?

更多 DeepMind AI 消息

人类连「星海争霸 II」都守不住了!DeepMind AI 新作 Alphastar 10:1 血洗职业玩家
DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸 II》!
DeepMind 之父自曝:每天工作至凌晨 4 点,带领 400 位博士巩固 AlphaGo 霸主地位

上一篇: 下一篇:

精彩推荐

申博菲利宾桌面安装版|关注时政热点|专门提供本地生活|网站地图 申博官网备用网址_亚洲版体育在线投注 申博官网备用网址_澳博集团官方网站