在DOTA2中获胜的AI真的比AlphaGo厉害吗?_36氪

在DOTA2中获胜的AI真的比AlphaGo厉害吗?_36氪 发表时间:2017-08-13 13:41

点上方绿标即可收听朗读音频

双击文章内容从指定位置处朗读

大数据文摘作品

编译 | 姜范波 Aileen

这个周末的科技圈再次被“AI恐惧”刷屏这次打败人类的AI来自Elon Musk的OpenAI昨天凌晨的DOTA2人机大战中顶级人类玩家Danylo "Dendi" Ishutin被AI完败

到底这次人机大战意义何在?这次在一对一DOTA2中打败Dendi到底比AlphaGo更难还是更容易?众说纷纭中我们认为前谷歌大脑和斯坦福研究员Denny Britz的这篇评论文章相对中肯和理性也得到了不少学者的力挺"这个问题实际上比击败人类围棋冠军容易得多我们并没有在AI中突然进步。"

DOTA界的大神们在昨天受到了暴击在堪称“DOTA圈世界杯“的T17邀请赛中顶级人类选手被OpenAI训练了两周的AI打败各类如"攻陷DOTA2","完虐人类“的字眼纷纷出现不免让人想起之前AlphaGo大战柯洁的盛况

Elon Musk本人也在推特上强推了这次人机大战他认为DOTA2比围棋复杂很多所以这次获胜的机器人也比AlphaGo要厉害当然马斯克也没忘记再次提起AI和所有事物一样需要被监管重提几个星期前和众多技术大佬吵得沸沸扬扬的旧梗让不少人怀疑这是为了媒体炒作吸引眼球

前谷歌大脑和斯坦福研究员Denny Britz就这件事发表了自己的看法

“这是一个令人赞叹的成就但也不是媒体想让你相信的AI大突破。” 

“过度炒作AI进展真的是危险的Elon Musk的推特会误导大家。”

Denny Britz相对客观的罗列了这件事的成就和浮夸之处以下是全文的编译

当我看到今天OpenAI的DOTA2机器人在国际(The International)电竞大赛上击败人类玩家的消息时我兴奋得跳起来

该锦标赛的奖金池超过了二千四百万美元作为一名电竞运动迷我虽然从来没有玩过DOTA 2但是我经常在线上观看其他电竞比赛高中时还是半专业选手但更重要的是像DOTA这样的多人在线战术竞技游戏(MOBA)以及“星际争霸2”这样的实时战略(RTS)游戏被视为超越了当前人工智能技术的能力这些游戏需要长期的战略决策多人合作并且相比AI技术在过去几十年中“解决”了的国际象棋围棋或扑克类游戏具有明显更复杂的状态和动作空间 DeepMind已经在星际争霸2上工作了一段时间几天前发布了他们的研究环境到目前为止研究人员还没有取得重大突破据认为我们仍需要至少1 - 2年才能在星际争霸2上打败人类

这就是为什么OpenAI今天这条消息如此令人震惊 怎么会这样呢? 难道我错过了最近AI发展的重大突破? 当我开始更多地了解DOTA 2机器人正在做什么它是如何训练的以及它的游戏环境后我得出的结论是这是一个令人赞叹的成就但也不是媒体想让你相信的AI大突破

本文的目的是 对于哪些才是真正的新东西我愿意提供一个理性清醒的解释过度炒作AI进展真的是危险的比如Elon Musk昨天误导人的推特(参见文章开头的截屏)

首先我要说明炒作或不正确的假设并非OpenAI研究人员的错误 OpenAI传统上一向对其研究贡献的局限性非常直观明了我相信在他们今天也一如既往 OpenAI还没有公布他们方案的技术细节所以对于外行而言很容易就得出错误的结论

我们先来看看DOTA 2机器人解决的问题实际上有多困难跟AlphaGo相比怎么样?

  • 1对1与5对5是没有可比性的在DOTA 2的一个基本游戏中一队5名选手对阵另外5人这些游戏需要高级战略制定团队沟通和合作通常需要45分钟左右的时间而1对1的游戏受到更多限制两名选手基本上沿着单线行驶并试图杀死对方通常在数分钟内结束在1对1中击败对手需要机械技能和短期战术但没有任何对当前的AI技术来说具有挑战性的需求如长期规划或团队协调事实上你需要采取的有效操作数量少于围棋游戏有效的状态空间(玩家对游戏中当前局面的掌控)如果以比较聪明的方式表示应该比围棋还要小

  • 机器人可以访问更多信息OpenAI机器人(很可能)构建在游戏机器人API之上可以访问人类无法访问的各种信息即使OpenAI研究人员限制其访问某些类型的信息机器人仍然可以访问比人类更准确的信息例如某项技能只能在一定范围内击中对手而人类玩家必须观看屏幕并且估计当前与对手的距离这需要练习机器人知道确切的距离并可立即决定是否使用技能获得各种精确的数字信息是一个很大的优势事实上在游戏过程中可以看到机器人数次在最大距离上使用技能

  • 反应时间机器人可以立即反应人类却不能再加上上述的信息优势这是另一大优势例如一旦对手超出特定技能范围机器人可以立即取消某项技能的使用

  • 学习使用一个特定的角色游戏中有100个不同的角色具有不同的天赋能力和优势机器人学习玩的唯一的角色是Shadow Fiend通常会立即进行攻击(而不是在一段时间内持续的更复杂的技能)作为机器人得益于信息优势和快速的反应时间

鉴于1对1主要是机械技能的游戏AI击败人类玩家并不奇怪对OpenAI而言由于环境受到严格限制(很大可能)可用的操作也受到限制而且很少或者完全没有进行长期规划或协调的需要我得出的结论是这个问题实际上比击败人类围棋冠军容易得多我们并没有在AI中突然进步它的成功是因为我们的研究人员用正确的方式聪明地设置了需解决的问题把当前技术用到极致据说机器人的训练时间大概是2周左右也说明真相确实如此 AlphaGo需要在Google的GPU集群上进行数月高强度的大规模培训从那以后我们取得了一些研究进展但并没有将计算要求降低一个数量级

现在批评够多啦新闻炒作可能有点过度但不妨碍这次人机大战的胜利依然很酷的事实显然大量具有挑战性的工程和合作建设才实现这一切下面这次DOTA机器人很厉害的地方

  • 完全通过自我训练这个机器人不需要任何训练数据它也不会从人类的演示中学习它完全随机开始并且不断地跟自己对练虽然这种技术并不是什么新鲜事物但令人惊讶的是(至少对我来说)机器人自己就学习到了人们使用的技术如Reddit和Ycombinator上评论中所提出的我不太了解DOTA 2所以无法判断这一点但是我觉得非常酷机器人可能还有其他人类不知道的技术这与我们在AlphaGo中看到的类似人类玩家开始从其非常规的动作中学习并调整了自己的游戏方式(有兴趣的读者可以阅读这两个论坛的讨论: https://news.ycombinator.com/item?id=14996448https://www.reddit.com/r/MachineLearning/comments/6t58ks/n_openai_bot_beat_best_dota_2_players_in_1v1_at/dli3zpp/

  • AI +电竞需要迈出的一大步在具有挑战性的环境(如DOTA 2和Starcraft 2)上来测试新的AI技术非常重要如果我们可以说服电子竞技社区和游戏发行商我们可以通过将AI技术应用于游戏来提供价值我们可以期待得到大力支持这会加速AI进展

  • 部分可观察的环境虽然OpenAI研究人员如何用API处理这个问题的细节尚不清楚但是人类玩家只会看到屏幕上的内容并且可能在视角上会有一些限制比如上坡下坡的树林阴影 这意味着与围棋或象棋或Atari(更像扑克)这样的游戏不同我们处于部分可观察的环境中——我们无法访问有关当前游戏状态的完整信息 这些问题通常难以解决是急需更多进展的研究领域 话虽如此目前还不清楚1v1 DOTA2比赛的部分可观察性是多么重要——这里也没有太多可以策划的

所有这些中最重要的是我非常期待可以看到OpenAI的技术报告看看他们到底是怎么搭建这个系统的

参考文章http://www.wildml.com/2017/08/hype-or-not-some-perspective-on-openais-dota-2-bot/

亲,眼睛太累了,关注exread(睿读吧)微信号,用耳朵“阅读”微信。

您可以将文章的链接或收藏的微信发送到睿读吧微信号中,我们会帮您转换成音频来听读,让您的眼睛休息一下吧!
查看来源 违规举报