1. 866卡盟平台首页
  2. 游戏新闻
  3. 王者荣耀新闻

王者荣耀:绝悟AI的原理浅析

本文作者:NGA-43097891

王者荣耀:绝悟AI的原理浅析

你们这些年都听过一定程度的深度学习的概念。节宇AI是深度学习的产物,更确切地说,节宇AI的核心是深度强化学习。本人粗略阅读了腾讯AI lab yedehang博士的论文mastering Complex control in moba Games with deep reinforcement Learning[1](链接到文末参考文献)。本文发表的人工智能峰会是2020 AAAI,下面本人将论文和部分资料相结合,详细阐述了绝对意识到的内部原则的细节。

第一个是背景。你可能听说过围棋AI-AlphaGo。以前的阿尔法狗一战成名,为加强学习赢得了很大的名声。之后有多种游戏AI,如DeepMind的Starkart AI和OpenAI的Dota2的Ai,因为这两个是2 ~ 3年前的事情。在那之前取得了好成绩。因为本人是刀塔选手,所以当时在TI比赛期间见过AI 5v5明星挑战赛。下面,我们来比较一下浙江和go。

王者荣耀:绝悟AI的原理浅析

以“Action space(直译动作空间)”为例,王者荣耀每一帧的操作可以分为100个单独的动作(例如位移、点击技术、点击攻击按钮等)。在这里,9000帧每场游戏都要考虑人类的反应时间。所以我们可以看到游戏AI的复杂性非常高。

下面需要提出两个概念:代理和游戏单元(game unit)。代理可以简单理解为英雄。游戏单位包括士兵、野怪、防御塔等。因为1v1很难获得有效的数据(例如博士说1v1练习英雄很多),所以采用没有监督的学习方式(即训练自己的方式)。下面正式进入节雨的细节。第一个是系统体系结构方面,也就是说,节宇AI的整体到底是什么样的东东。(坦普林)。

王者荣耀:绝悟AI的原理浅析

首先,上面的每个模块都是独立的,下面逐一说明。

1)AI server with Game Env部分:这是AI击中AI并与游戏环境交互的地方。这个部分被设计成游戏的核心部分。

2)Dispatch部分:这一部分主要是收集游戏数据并传输到下一部分

3)内存池部分:存储上一部分传输的数据,并处理数据,以便于喂饱学习者。

4)RL learner部分:顾名思义,可以训练学习强化模型,并将输出的数据传输到我们的第一部分(这里输出的简单理解应该是我们英雄执行的各种动作),与AI进行游戏。(腾讯果然财大气粗,这里光显卡使用1000,应该是英伟达专业神经网络显卡。)

阅读上述说明后,您会发现RL learner是AI的核心。好的,我会详细说明RL learner部分。

王者荣耀:绝悟AI的原理浅析

我不明白,没关系。这东西确实不专业,所以真的很难理解。我会尽量用简单明了的语言解释。(威廉莎士比亚,泰姆派斯特,写作)由于内部机制太复杂,我会尽量用浅显的语言来描述。下面从左到右分析。

1)Encoded observations部分:此部分包含三个输入。首先,有Unit输入部分。其中包括我方英雄、地方英雄、英雄的移动、防御塔等。第二,Image部分,我个人理解应该是对自己英雄周围一个领域的形象。最后,Game state Info部分,包括经济、头部、血量等数据。图像通过卷积网络获得矢量(都可以简单理解为图像识别),Unit的数据和Game state Info的数据通过FC(完全连接网络)获得不同的矢量,然后将这三个部分返回的数字相结合,形成更大的数字字符串。这就是我们从当前环境中提取的信息。(约翰肯尼迪)。

2)第二部分是核心部分。(这部分我不想看,可以跳过。)此部分包含长时间内存网络(LSTM)和注意机制。在此LSTM网络中输入旧的输出字符串,并在FC转换后获得初步输出。Attention部分使用了RL勘探的修剪(y1s1,我不是在强化学习,这里也不太清楚)。反正在我面前是妖怪,士兵,敌人的英雄,我要做的就是以这个决定结束。(威廉莎士比亚,温斯顿,战争)()具体细节有能力,有兴趣的丹友可以去看论文。

3)第三部分模型的输出部分,当然这部分还要进一步调整和变化。细心的朋友已经发现了,上面的几个输出不是独立的,具体是什么意思?

王者荣耀:绝悟AI的原理浅析

下面是最简单的移动按钮(移动轮子)的示例。第一个是button按钮,第二个是我应该如何拖动这个按钮(即我的技能、方向和距离)。大家都很清楚。你会以秒为单位知道我的意思。最后是Target部分,目标,我该针对谁?士兵、塔、敌人的英雄等。技能按钮等。

(正如论文所述,这些出口是依赖的,但可以通过一些手段独立。就是这几点不重要。这里这个句子比较新颖的地方,叫做Dual-Clip PPO,反正这些东西不影响我们对AI的理解。)

以上是通过持续训练优化该模型的系统框架的内容。(其中包括网络教育问题,非常复杂,取决于工程师的“退休金团”能力。),AI英雄越来越强大。是的,越来越强了。为什么(深入学习是可以解释的。是个大问题),事实就在眼前。上面的内容是不是有点复杂,确实我也这么认为。如果你都懂,说明你有“精团”的天赋。

为了测试AI的性能,AI队邀请了几名职业选手进行1v1对决,下面是论文截图,说明AI可以达到职业水平(是的,就是这么牛X)。(阿尔伯特爱因斯坦、Northern Exposure(美国电视剧)、Northern Exposure(美国电视剧))。

王者荣耀:绝悟AI的原理浅析

这里还有另一个细节。AI的反应时间为133毫秒。论文中133毫秒是最高级业余选手的反应时间,所以挨打很正常。(大卫亚设,Northern Exposure(美国电视剧),)下面是职业是如何挨打的数字。请看一下。

王者荣耀:绝悟AI的原理浅析

然后AI去找路人玩家PK。数据如下

王者荣耀:绝悟AI的原理浅析

大部分情况下,从节节胜利、输几场比赛和正式说明来看,可能韩信(两次横扫)、孙武康(吉吉王)和HouYi(真正的射手)更依赖暴行。因为轰炸是不确定性的。

另一个泥潭之前的日常话题Ello:

王者荣耀:绝悟AI的原理浅析

这是论文中敌舰训练的效果图。官方内部给出的玩家水平评价指标就是ELO。模型训练大约7个小时可以干掉游戏中包含的AI。12个小时达到了城隍水平,30个小时达到了王者水平,60个小时达到了荣耀王者水平,70个小时已经接近职业水平。(为了防止酒吧更正,不说明职业和荣耀如何相似。这是论文提出的资料。) (阿尔伯特爱因斯坦,北方执行(Northern Exposure),)。

最后,在一篇论文中提出了另一个有趣的地方,可能是整篇文章对我们最有帮助的部分。

王者荣耀:绝悟AI的原理浅析

这是AI的补偿机制,从上到下依次是英雄生命、top生命(必须是敌人的top)、钱、蓝量、死亡次数、击球数、经验、宝剑。旁边的数字表示这些行为的权重。也就是说,权重越高,AI就越关注这些事情(Twitter游戏名称不是假的,游戏AI教你游戏系列)。

原创文章,作者:866,如若转载,请注明出处:https://www.866km.com/gamexw/wzryxw/5499.html

发表评论

邮箱地址不会被公开。 必填项已用*标注