升级版MuZero:无需告知规则,观察学习时即可掌握游戏

升级版MuZero:无需告知规则,观察学习时即可掌握游戏

DeepMind的使命是证明AI不仅可以精通游戏,甚至可以在不知道规则的情况下做到这一点,最新的MuZero就实现了这一目标。
在象棋和围棋比赛中,都是为AI提供了一组不变的、已知的游戏规则,但MuZero完全不需要提供规则手册,通过自己试验,就学会了象棋围棋游戏和各种Atari游戏,其通过考虑游戏环境的各个方面来评估是否重要,并可通过复盘游戏在自身错误中学习。
2016年,DeepMind推出了第一个人工智能程序AlphaGo,在围棋游戏中击败人类。两年后,它的继任者AlphaZero从零开始学习围棋、国际象棋和将棋。
现在,在《自然》杂志的一篇论文中,DeepMind又带来了MuZero,这是在寻求通用人工智能算法方面迈出的重要一步。
由于它能够在未知环境中计划胜利的策略,MuZero掌握围棋、国际象棋、shogi和Atari,而不需要被告知游戏规则。
多年来,研究人员一直在寻找方法,既可以学习一个模型,解释他们的环境,然后可以使用该模型来规划最佳的行动方案。到目前为止,大多数方法都难以有效地在不同domain之间规划,比如Atari,其中的规则或动态通常是未知的和复杂的。
MuZero最初在2019年的一篇初步论文中被首次提出,通过学习一个只关注规划environment最重要方面的模型来解决这个问题。通过将这个模型与AlphaZero强大的lookaheadtreesearch相结合,MuZero在Ataribenchmark上达到了SOTA,同时在围棋、国际象棋和将棋的经典规划挑战中与AlphaZero的表现相匹敌。通过这样做,MuZero展示了强化学习算法能力上的一个重大飞跃。
做计划的能力是人类智力的重要组成部分,它使我们能够解决问题并对未来做出决定。例如,如果我们看到乌云正在形成,我们可能会预测会下雨,并决定在出门之前带上一把雨伞。人类学习这种能力很快,可以泛化到新的场景当中,这是DeepMind一直希望算法拥有的特征。
研究人员试图通过两种主要方法来解决人工智能中的这一主要挑战:lookaheadsearch和model-basedplanning。
使用lookaheadsearch的系统,如AlphaZero,在跳棋、国际象棋和扑克等经典游戏中取得了显著的成功,但问题在于需要依赖对环境动态的了解,如游戏规则或精确的模拟器。这使得它们很难应用于混乱的现实世界问题,而这些问题通常是复杂的,难以提炼成简单的规则。
基于模型的系统旨在通过学习环境动态的精确模型来解决这个问题,然后使用它来进行规划。然而,建模环境的每一个方面的复杂性之高,使得这类算法无法使用在一些视觉丰富的领域,如Atari。到目前为止,Atari上最好的结果来自无模型(model-free)系统,如DQN、R2D2和Agent57。顾名思义,无模型算法不使用已知模型,而是估计下一步采取的最佳行动。
MuZero使用一种不同的方法来克服以前方法的局限性。MuZero没有尝试为整个环境建模,而是只建模对Agent的决策过程重要的方面。毕竟,知道一把雨伞能让你保持干爽比模拟空气中雨滴的形状更有用。
具体来说,MuZero模拟了对规划至关重要的三个环境要素:
Value:目前的位置的好坏程度
Policy:能采取的最佳程度
Reward:上一个动作的好坏程度
这些都是通过深层神经网络学习的,这些都是MuZero所需要的,以便了解当它采取某种行动时会发生什么,并据此制定计划。
上图展示了蒙特卡罗树搜索如何用MUZERO神经网络进行规划。从游戏中的当前位置(顶部的示意图)开始,MUZERO使用表示函数(H)将观察映射到神经网络(S0)使用的嵌入。使用动态函数(G)和预测函数(F),MUZERO可以考虑未来可能的动作序列(A),并选择最佳动作。
MUZERO使用它在与环境互动时收集的经验来训练它的神经网络。这种经验包括来自环境的观察和奖励,以及在决定最佳行动时所进行的搜索的结果。
在训练过程中,该模型与收集到的经验一起展开,在每个步骤中预测先前保存的信息:价值函数V预测和观测的奖励之和(U),策略估计(P)预测先前的搜索结果(),奖励估计(R)预测最后的观测奖励(U)。
这种方法还有另一个主要的好处:MuZero可以重复使用它学到的模型来改进它的计划,而不是从环境中收集新的数据。例如,在Atari套件的测试中,这个变体被称为MuZeroReanalyze,它90%的时间使用模型来重新计划在过去的经验中应该做什么。
DeepMind选择了四个不同的Domain来测试MuZeros的能力。围棋、国际象棋和将棋被用来评估它在具有挑战性的规划问题上的表现,而我们使用Atari套件作为更复杂的视觉问题的基准。在所有的情况下,MuZero的强化学习的算法达到了新的SOTA,在Atari套件上的表现优于所有之前的算法,并且匹配了围棋、国际象棋和将棋的AlphaZero的超人表现。
DeepMind的研究人员还更详细地测试了MuZero如何使用它学到的模型进行规划。
从围棋中经典的精确规划的挑战开始,其中一步棋就能决定输赢。为了证实规划更多应该导致更好的结果的直觉,测量给予更多的时间来计划每一步行动时,一个完全训练过的MuZero版本能变得多么强大(见下面的左图)。结果显示,当把每次移动的时间从0.1秒增加到50秒时,游戏力量增加了1000多Elo(一个玩家的相对技能的度量)。这类似于业余选手和职业选手之间的区别。
为了测试计划是否在整个训练过程中也带来好处,研究人员在Atari游戏MsPac-Man(上面的右图)上进行了一系列实验,使用了单独的训练过的MuZero实例。每次行动都允许考虑不同数量的规划模拟,范围从5到50。结果证实,增加每个动作的计划量可以让MuZero更快地学习并获得更好的最终性能。
有趣的是,当MuZero被允许每次只考虑六到七次模拟时,无法涵盖Pac-Man中的所有可用动作,但它仍然取得了良好的性能。这表明,MuZero能够在行动和情况之间进行概括,而不需要为了有效地学习而竭尽全力地寻找所有可能性。
MuZero既能够学习环境模型,又能够成功地使用它来进行计划,这证明了在强化学习算法和通用人工智能算法方面的重大进步。
它的前身AlphaZero已经应用于化学、量子物理等领域的一系列复杂问题。而MuZero强大的学习和规划算法背后的理念,可能为应对机器人技术、工业系统以及其它游戏规则尚不为人知的混乱现实环境中的新挑战铺平了道路。
参考链接:
https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

主题测试文章,只做测试使用。发布者:最新稳定辅助网,转转请注明出处:https://www.744broad.com/51585.html

(0)
上一篇 2023年5月20日 上午6:48
下一篇 2023年5月20日 上午6:51

相关推荐

  • 收图啦!治愈系消防壁纸,萌到心暖!

    收图啦!治愈系消防壁纸,萌到心暖! 今天小编来送一!波!壁!纸!画中的蜀黍一改往日的硬汉形象走了一次萌系风(对,就是看一眼萌一天的那种)萌态可掬萌酷个性卡哇伊的外表下不失坚毅风采他们紧握银枪时刻守护我们的安全守护你我的幸福他们第一时间到达灾情现场给被困群众带来生命希望重重的水枪压在肩上咬牙、蹬脚、呐喊扛起水枪前往危险的方向日复一日的早起永不言弃的拼搏精益求精…

  • 广大新闻工作者深入基层——践行“四力”感受时代脉动(新春走基层)

    广大新闻工作者深入基层——践行“四力”感受时代脉动(新春走基层) 来源:人民日报虎跃山河壮,神州日月新。在坚韧不拔、欣欣向荣的中国,有可亲可敬的人民、日新月异的发展、赓续传承的事业,更有踔厉奋发、笃行不怠的奋斗故事。作为迎接党的二十大主题宣传的重要开篇,广大新闻工作者不断增强脚力、眼力、脑力、笔力,如约踏上“新春走基层”的征程,深入生产生活一线,感受时代的脉…

  • 三刷绝命毒师(剧透)

    三刷绝命毒师(剧透) 如果说哪部国产剧给我的印象最深,我可能需要思量一会儿,甚至于答不上来,但要是问我哪部美剧让我印象深刻,我的脑海会立马不自觉的跳出《绝命毒师》这部旷世之作来。当初无聊找美剧打发时间的时候,咋一看《breakingbad》剧集名字很不起眼,甚至第一季的前两集让我看的十分无聊。一个怀才不遇的高中老师沃尔特-怀特(简称老白),发现自己身患癌症,…

  • 解放军叔叔为什么把1234567890,读作幺两三四五六拐怕勾洞?

    解放军叔叔为什么把”1234567890″,读作”幺两三四五六拐怕勾洞”? 大家在看战争片的时候肯定听到过通讯兵把数字读成各种的“土味发音”比如“我是詹姆斯邦德007”通讯兵就会说“我是詹姆斯邦德,洞洞拐”为什么好好的数字不说会有这么土味的发音呢?今天我们就来一探究竟!当过兵的都知道在部队里“123456789…

  • 残酷现实:以前瞧不起阿Q,却没想到最后你我都活成了他的模样

    残酷现实:以前瞧不起阿Q,却没想到最后你我都活成了他的模样 每天耕耘最有趣、最实用的心理学阿Q是谁?熟读过鲁迅先生小说《阿Q正传》的读者都知道,他是故事的主人公。通过精妙塑造,鲁迅先生以阿Q这一人物,讽刺和反映了当时中国社会中,一些心灵丑陋的旧中国人。同时,也借此严厉地批判了当时政府的腐败,揭露了当时国人的无知。时隔多年,历史上中国老百姓的性格特点,依然穿越…

  • 《使命召唤14》发售日泄漏 将有新高能合作模式

    《使命召唤14》发售日泄漏 将有新高能合作模式 在动视官方正式公布了《使命召唤14:二战》后,今天又有一张新的海报被国外玩家——Reddit用户Jadeos泄漏了出来,继而曝光了本作大量新细节,包括发售日,内部BETA,单人战役合作模式等。如上图,海报上确定《使命召唤14:二战》将于2017年11月3日发售,和之前的传闻一致。预购的玩家将可以获得参加内部测试…

  • 开发《穿越火线》的那家韩国公司,要让WCG起死回生了

    开发《穿越火线》的那家韩国公司,要让WCG起死回生了 WCG即便回来,又有多大可能复当年之勇?虽然电竞赛事已经在厂商的带领下进入了新的时代,但从2000年初一路关注过来的玩家,一定不会忘记那曾经连续举办了14年,曾一度有最大的影响力,被称为电竞奥运会的WCG。这个第三方老牌电竞赛事,于2013年举办了最后一届,随后便正式停办。就在上周,WCG官方宣布,将在2…

  • MGEX强袭自由封绘图更新,这波你会冲吗?

    MGEX强袭自由封绘图更新,这波你会冲吗? MGEX强袭自由将于11月19日正式发售,万代也是更新了官图以及封绘,那么废话少说,我们一起来看看新官图吧!官图鉴赏这次MGEX强袭自由的封绘就是这样我个人觉得还不错,不知道你觉得咋样?而万代官方也公开了产品的实物图可以看到这款强袭自由的外观造型是在原设基础上进行了一些魔改的外甲部分有用到透明零件而它最大的卖点当然…

  • codm国际服空投必出三级防弹衣,见到就是续命,分分钟逆袭反击

    codm国际服空投必出三级防弹衣,见到就是续命,分分钟逆袭反击 说到FPS游戏中的各种装备和道具,相信大家第一个想到的都是各种枪械和投掷物,“防弹衣”这种物品就会被大多数玩家所忽略。在《使命召唤手游》国际服的“生存模式”中,除了各种各样的武器和不同的战略之外,“防弹衣”的存在也十分重要。特别是在游戏中空投中必出的“三级甲”,更是给玩家们提供了额外保护。玩家们…

  • 如果把车标打上马赛克,你觉得这部车能和雷克萨斯ES比吗?

    如果把车标打上马赛克,你觉得这部车能和雷克萨斯ES比吗? 这部车前两天刚刚露出图片,我们先一睹为快,喜欢它的设计吗?我先把车标盖住,你可以发挥想象,猜猜它可能是哪个品牌?可以告诉你的信息是,车长约4.9米,轴距约2.9米,通常来说,一部新车的设计会传承品牌设计语言,局部有家族设计元素,凭借线条、比例或者细节元素,都可以识别出这部车的归属。从这部车的外观设计来…

关注微信