Dota2冠军OG是如何被AI碾压的？ OpenAI积累三年的完整论文终于发布

发布时间：2024-10-17浏览：86

大家好，感谢邀请，今天来为大家分享一下Dota2冠军OG是如何被AI碾压的？ OpenAI积累三年的完整论文终于发布的问题，以及和的一些困惑，大家要是还不太明白的话，也没有关系，因为接下来将为大家分享，希望可以帮助到大家，解决大家的问题，下面就开始吧！

在人工智能OpenAI 5面前，OG不堪一击。五个人组成的队伍毫无悬念地被0:2击败。两局加起来，OG只推掉了两座外塔。

然而，这还不是人工智能的顶峰。

现在OpenAI 训练了一个全新的AI，名为Rerun。面对碾压OG的OpenAI Five，Rerun的胜率达到了……呃……98%。

得知这一消息后，一位推特用户贴出了一张明志的照片。

主要靠自学，就能在Dota 2这样复杂的游戏中称霸，人工智能是怎么做到的？今天，这个问题的答案揭晓了。

没错，OpenAI不仅发布了Rerun，还通过论文正式公布了其对Dota2项目三年多的研究。

在本文中，OpenAI对整个系统的原理、架构、计算量、参数等诸多方面进行了阐述。 OpenAI指出，通过增加批量大小和总训练时间，扩大了计算规模，从而表明当今的强化学习技术可以在复杂的电子竞技游戏中达到超越人类的水平。

这些研究可以进一步应用于两个对手之间的各种连续零和博弈。

（可能是读完之后）OG 团队发推文：“哇！这篇论文看起来棒极了！”

这时，有网友深情地感叹：哇！ OG团队夸一篇论文好看？再见.

这篇论文到底说了什么？

我们总结了几个要点。

要点一：Dota2比下围棋更复杂

与棋类游戏相比，电子竞技游戏更为复杂。

解决这个问题的关键是将现有的强化学习系统扩展到前所未有的水平，这需要数千个GPU 和数月的时间。 OpenAI 为此构建了一个分布式训练系统。

培训的一大挑战是环境和代码不断变化。为了避免每次更改后都从头开始，OpenAI 开发了一套可以在不损失性能的情况下恢复训练的工具。这套工具叫做：手术。

每场Dota 2 游戏持续约45 分钟，每秒生成30 帧游戏画面。 OpenAI Five 每4 帧执行一次动作。国际象棋大约有80 步，围棋大约有150 步。相比之下，玩一场Dota2 游戏，AI 需要“下”大约20,000 步棋。

而且由于战争迷雾的原因，Dota 2中的战斗双方只能看到比赛整体的一部分，其他部分的信息都被隐藏了。

与下围棋的AlphaGo相比，下Dota2的AI系统的batch size大50-150倍，模型大20倍，训练时间长25倍。

要点二：AI如何学会打Dota2

人类玩Dota2，通过键盘和鼠标做出实时决策。刚才提到，OpenAI Five每4帧做一次动作，称为时间步。在每个时间步长中，OpenAI 将接收血量和位置等数据。

人类和OpenAI Five 以完全不同的方式接收相同的信息。

当人工智能系统发出动作指令时，大概可以这样想。

AI的背后是一组神经网络。策略（）定义为从观察数据到动作概率分布的函数，是一个拥有1.59 亿个参数的RNN 神经网络。该网络主要由单层、4096 个单元的LSTM 组成。

结构如下图所示：

LSTM贡献了这个模型中84%的参数。

玩家使用扩展版本的近端策略优化（PPO）方法进行训练，这也是OpenAI 当前默认的强化学习训练方法。这些代理的目标是最大化未来奖励的指数衰减总和。

在训练策略的过程中，OpenAI Five没有使用人类对弈数据，而是采用了自我对弈。类似的训练方法也适用于围棋和国际象棋等问题。

其中，战斗中80%的对手是使用最新参数的分身，而20%的对手是使用旧参数的分身。每10 次迭代后，新训练的化身将被标记为旧计时器。如果当前正在训练的AI击败了新秀或老将，系统会根据学习率更新参数。

根据OpenAI CTO此前的说法，OpenAI五人在击败OG之前已经练习了相当于Dota 45,000年的时间。 AI每天的训练量相当于人类180年的游戏时间。

要点三：计算量和超参数

训练如此复杂的AI系统肯定会消耗大量资源。

OpenAI 估算用于优化的GPU 消耗。最终的结论是，OpenAI Five的GPU计算消耗约为77050~82050 PFlops/s·days，而今天新提到的更强的Rerun在随后两个月的训练中，GPU计算消耗约为15050 PFlops/s·days。 5 PFlops/s·天。

再次强调，OpenAI公布的只是用于优化的计算量，这只是训练中所有开销的一小部分，约占30%。

此前，OpenAI还透露，OpenAI Five的日常训练需要256个P100 GPU和128,000个CPU核心。

至于整个神经网络的超参数，OpenAI在论文中表示，在训练Rerun时，根据经验进一步简化了超参数。最终，他们只改变了四个关键的超参数：

• 学习率• 熵罚系数• 团队精神• GAE 时间范围

当然，OpenAI也表示这些超参数还有进一步优化的空间。

要点四：并不全是自学

最后，还有一点需要强调。

OpenAI在论文中明确指出，在学习Dota2的过程中，AI系统并不完全依靠强化学习进行自我学习，还会使用一些人类知识。这与后来的AlphaGo Zero不同。

有些游戏机制是脚本程序。比如英雄购买装备和学习技能的顺序、信使的控制等。OpenAI在论文中表示，使用这些脚本有一些历史原因，以及成本和时间方面的考虑。不过论文也指出，这些最终都可以通过自学来完成。

论文全文

在这篇名为Dota 2 with Large Scale Deep Reinforcement Learning 的论文中，OpenAI 发布了更多细节。如果您有兴趣，请访问以下门户：

https://cdn.openai.com/dota-2.pdf

对战回顾

最后我们来回顾一下OpenAI五连胜OG的整场比赛。

第一局

AI（半径）：火枪、飞机、冰女、死亡先知、斯文

人类（夜魇）：特立独行者、巫医、毒龙、隐刺、暗影恶魔

选择阵容后，OpenAI Five认为其胜率达到67.6%。

比赛一开始，OpenAI五人就取得了第一滴血，人类大军迅速击杀了AI冰女。此后，双方前期在人数上旗鼓相当。 AI一直保持着整体经济领先，但最富有的英雄却一直是人类大哥影魔。

这也能看出双方策略上的明显区别：OG是3核心+2辅助的传统人类打法，而AI的五英雄经济分配则比较均匀，更多的是“大锅饭” 。

经过几次激烈的推进和团战，比赛进行到了19分钟左右，AI对自身胜率的预测超过了90%。自信的AI一举征服了人类的制高点。

随后OG选择分道推进。一些评论人士猜测，这是为了尽可能分散AI，阻止它们一起前进。然而，这并没有持续多久。

然而坚持到了38分钟，人类这边的小牛才刚刚买了命，AI的最后一波总攻已经推开了人类的基地。

OpenAI Five 赢得了第一场比赛。现场也响起了掌声。

在这款游戏中，AI表现出了一个奇怪的想法：外出时选择两种大药，后续的装备更倾向于购买物资而不是提升自身属性。

另外，我们前面提到的“大锅”政策以及游戏前期频繁购买作品，与人类职业玩家的习惯有很大不同。

第二局

AI（半径）：冰女、飞机、斯文、巫医、毒龙

人类（夜魇）：火枪手、特立独行者、死亡先知、小鱼人、瑞安

选择英雄后，AI对自身胜率的预测为60.8%，略低于上一场比赛的阵容。

比赛前两分钟，双方在平和的气氛中领先。然而出乎意料的是，人类中单托普森很快就送出了一血。

随后，人类代表以惊人的速度被击败。

5分钟时，AI信心大幅提升，预测胜率80%； 7分钟，AI已经推掉了上路一塔； 10分钟，AI已经领先人类4000金币，又推掉了两座塔，而且……他给自己预估了95%的胜率。

11分钟，AI已经到达OG的高地。

仅仅21分钟，OG的基地就被推开，OpenAI五人轻松拿下第二局。直到比赛结束，OG的击杀数依然是个位数，被AI打到了46:6。

虽然这一局获胜极其轻松，但在比赛过程中还是可以明显看出AI在细节上存在一些不足。例如，面对在复杂树林中徘徊的人类，人工智能就无能为力。在今天的比赛中，Ceb绕过树林救了自己的命。

最后祝大家周末愉快。

- 超过-

量子比特QbitAI·今日头条签约

用户评论

开心的笨小孩

没想到AI发展的这么快啊，竟然能打败OG！以前觉得游戏和人工智能离得还挺远的，现在看来未来说不定真的要被AI统治了。

有12位网友表示赞同！

安好如初

这篇文章说得很有道理，Dota2虽然看似复杂，其实很多决策模式都可以被数据化模拟。OpenAI投入三年的时间研磨技术，最终的结果就出来了，这也证明了一个道理：持续的努力才能战胜一切困难

有18位网友表示赞同！

青袂婉约

OG这么厉害战队都被AI碾压了是不是意味着未来职业选手们都得转型？有点让人唏嘘呢！当然，这也说明游戏发展越来越智能化，能带来更佳的游戏体验吧。

有14位网友表示赞同！

南初

我比较好奇论文里具体是如何把Dota2的复杂策略和决策变成数据模型的，这种方法论很有学习价值。另外，我还想看到AI如何在面对更高难度对手时应对，现在这种碾压状态会不会仅仅是实力差距？

有10位网友表示赞同！

敬情

作为一个DOTA2爱好者，说实话有点失望。看OG被AI秒杀的感觉真的很微妙，一方面欣赏AI的强大，另一方面也担心游戏失去人性的魅力。希望未来发展的方向能兼顾科技进步和玩家体验。

有9位网友表示赞同！

陌上蔷薇

这篇文章让我深思了！以前认为AI就在影视电影里出现，没想到现实中已经如此发达！我们应该关注人工智能的发展趋势，积极拥抱变革，做好迎接未来的准备。

有17位网友表示赞同！

坏小子不坏

三年的研究时间确实能做出改变世界的成果。OpenAI的论文值得细心地阅读，从里面我们可以看到人工智能技术的巨大潜力以及未来发展方向.

有16位网友表示赞同！

剑已封鞘

这篇文章写的客观详细，分析得很有深度。让我想起来去年某个比赛OG被黑赛的事情... 现在看来或许是科技进步让人们的意识和观点都开始更新迭代了吗...

有20位网友表示赞同！

一点一点把你清空

说实话，我还是更喜欢人类玩家打DOTA2的感觉！AI虽然厉害，但缺少了人性的情感波动和策略变化，玩起來总感觉少了点乐趣。

有18位网友表示赞同！

此刻不是了i

我一直觉得游戏的本质在于人类之间的互动和对抗，现在看来AI的出现可能会改变这个传统。不过，人工智能也可以成为游戏的新工具，让我们体验到更丰富多彩的游戏世界！

有14位网友表示赞同！

孤岛晴空

OG虽然输了这场比赛，但他们依然是伟大的Dota2战队。他们的传奇故事值得我们铭记，而这场比赛也成为了历史记录，见证了人工智能技术的进步。

有7位网友表示赞同！

巷雨优美回忆

这篇文章让我对AI的研究越来越感兴趣。以后有机会的话我也想去了解一下论文里面的具体内容，学习一些相关的知识！

有13位网友表示赞同！

你tm的滚

我有点担心，如果AI发展得过于强大，会不会有一天威胁到人类的主导地位？应该有人监管和约束人工智能的发展，避免它成为危险的工具。

有20位网友表示赞同！

病房

这篇文章让我对未来的Dota2有了全新的认识。也许未来我们会看到更智能、更具挑战性的游戏体验！

有12位网友表示赞同！

浅笑√倾城

希望AI技术能应用到更多领域，帮助人类解决实际问题。当然，也要注意规范其发展，避免负面影响。

有12位网友表示赞同！

ゞ香草可樂ゞ草莓布丁

我期待OpenAI发布更多的研究成果，也希望更多人关注人工智能的发展趋势！

有10位网友表示赞同！

夏以乔木

人工智能的技术进步确实令人惊叹，但最重要的是要确保它被用于造福人类，而不是去取代人类!

有18位网友表示赞同！

热点资讯