DeepMind的超人人工智能正在改写我们下棋的方式-王其杉博客|程序员|科技新闻
爱德华多·穆诺兹·阿尔瓦雷斯/法新社/盖蒂图片社
自从1997年,当IBM的深蓝击败了世界冠军和国际象棋传奇人物加里·卡斯帕罗夫(Garry Kasparov)的六局比赛后,国际象棋玩家就接受了机器在国际象棋中的强大。我们从教这些机器怎么玩的事实中得到了一些安慰。但奇怪的是,尽管传统的国际象棋引擎是由人类编程的,但它并不像人类那样玩。
尽管有手工设计的启发式方法,但引擎优势的根本在于计算:筛选大量的移动以找到解决位置的具体方法。当时,国际象棋大师们被雇佣来评估一系列典型的位置,并描述导致评估的考虑因素,然后程序员将这些考虑因素转化为更加复杂的启发式方法。一个象棋程序或类似于stockfish的“引擎”每秒搜索大约6000万个位置。但引擎解决方案在人类看来可能很难看,即使这无疑是一个成功的举措。
广告
输入DeepMind。谷歌拥有的人工智能公司的阿尔法泽罗是一个悖论。阿尔法泽罗自学国际象棋(以及围棋和shogi),除了基本规则外,他对游戏一无所知。它发展了自己的国际象棋战略,与自己进行了数百万场比赛,并从中发现了有希望的探索途径。它在游戏中搜索的位置也远少于鱼类。结果是一个具有超人力量的象棋手,风格像人。
在2018年11月在伦敦举行的世界象棋锦标赛上,魏与阿尔法泽罗密切合作。当挪威的马格努斯·卡尔森和美国的法比亚诺·卡鲁纳在整个棋盘上进行对抗时,阿尔法泽罗正在评估他们的行动,并提出其他的想法。
阅读下一页
如何劈开你的脸以躲避面部识别技术的兴起
如何劈开你的脸以躲避面部识别技术的兴起

伊莉丝·托马斯
阿尔法泽罗的强化学习给了它一种独特的、可立即识别的风格,它以一种直接、有效的方式实现了它的思想,而没有过分考虑物质平衡。它有人类般的动力去取得进步,永远不会静止不动。有趣的是,阿尔法泽罗的许多思想都符合人类数百年来的国际象棋规则。然而,阿尔法泽罗的扭曲(通过其深层神经网络架构实现)是将我们认为次要或偶然的因素(如对手国王的限制)结合到一个完整的游戏策略中。例如,采取不寻常的早期行动,在对手国王的位置上制造弱点,然后将这个弱点作为整个游戏的主题。
阿尔法泽罗就在我们身边,感觉就像是有一个象棋天才随时待命,他从不感到疲倦,也从不要求喝咖啡。“阿尔法泽罗给我们找条路!“在世界锦标赛上成为我们的标准口号,它总是以一种创造性的方式来优化自己的位置。与传统发动机相比,它的优势不一定是在计算重位置,而是在复杂位置,需要计算、位置洞察和长期规划的混合。我们特别注意到阿尔法泽罗对无前景被动着陆的危险有多警觉,以及避免这种情况的驱动力有多大。
广告
在我们的书《改变游戏规则:阿尔法泽罗开创性的国际象棋策略和人工智能的承诺》中,我们与DeepMind技术团队合作,解释阿尔法泽罗的构造和训练如何导致其创造性和直观的风格。这有许多意想不到的方面。例如,阿尔法泽罗通过在一个非常浅的搜索深度上进行大量的闪电游戏(每次移动40毫秒)来训练自己。
这就是谷歌的DeepMind如何在星际争霸中粉碎弱小的人类。
人工智能
这就是谷歌的DeepMind如何在星际争霸中粉碎弱小的人类。
这里有一个权衡:人们可能认为阿尔法泽罗可以通过玩慢一些的高质量的游戏来学习更多的东西。然而,游戏玩得越快,阿尔法泽罗看到的游戏越多,它接触到的情况就越不同,而且它能学到的越多。更快的游戏也更有可能变得不平衡,产生决定性的结果,然后阿尔法泽罗可以利用它来调整(加强或削弱)政策网络中的联系,从而在游戏中做出决定。
阅读下一页
这就是谷歌的DeepMind如何在星际争霸中粉碎弱小的人类。
这就是谷歌的DeepMind如何在星际争霸中粉碎弱小的人类。

詹姆斯·坦普顿
与40年前相比,现代象棋大师们的训练方式有着有趣的相似之处。40年前,“闪电棋”是一种速度极快的游戏,每局只有一到三分钟的时间,人们不认为这是浪费时间和破坏你的棋艺。然而,目前所有的顶级国际象棋选手——最重要的是世界冠军麦格纳斯·卡尔森——都是最高级的闪电战选手,经常参加在线闪电战比赛。
广告
另一个有趣的方面是阿尔法泽罗如何评价国际象棋的位置。传统的引擎通过基于材料(棋子和棋子的一般国际象棋术语)的尺度来评估给定的位置。例如,+1.5分表示一个半卒的优势。(国际象棋中普遍公认的棋子是棋子值一分,骑士和主教值三分,车值五分,皇后值九分。)
阿尔法泽罗根据其感知到的获胜或抽签的机会来概率地评估位置(事实上,我们甚至不知道它是否为棋子和棋子分配任何值!)这可以解释为什么阿尔法泽罗不害怕牺牲它的小卒和碎片来实现它的目标:如果你期望的分数增加,一个小卒或两个小卒有什么关系?
对传统发动机的评估也只反映了它在该位置发现的单一最佳变化。阿尔法泽罗的评估是它考虑到的所有变化的加权平均数,而不仅仅是单一的最佳变化。这似乎允许阿尔法泽罗“凭直觉”将游戏引导到充满希望的情况下,在这种情况下,危险和犯错的可能性永远存在于对手身上,而无需计算每一个细节——就像强大的人类玩家一样。
阿尔法泽罗的力量和独创性真的让我们吃惊。国际象棋充满了超人的专家系统,然而阿尔法泽罗发现了一个未知的空间,在这个空间里,它自学的见解既令人吃惊又有价值。这个未知的空间是如此重要,以至于阿尔法泽罗能够令人信服地击败测试时最强的专家系统。考虑到这一点,你不得不积极地将阿尔法泽罗式的技术应用于比国际象棋研究得更少的环境中。也许很快,科学家们就会在世界锦标赛上回应我们的呼声:“阿尔法泽罗,给我们找到一条路!他说:“这是一个很好的选择。”
阅读下一页
假视频很快就足以愚弄所有人了
假视频很快就足以愚弄所有人了

亚斯明绿
马修·萨德勒和娜塔莎·雷根是国际象棋新作《改变游戏规则》的作者。
更多来自有线电视的精彩故事
–为什么你的办公桌不能解决坐着的问题?