大金湖足球比分网

当前位置: 主页 > 围棋 >

超越蒙特卡洛树搜索 北大新算法评估围棋模型

时间:2017-06-15 13:55来源:未知 作者:admin 点击:
(来源:机器之心) 在五月底与柯洁等人的系列对局之后,人工智能围棋大师 AlphaGo 已经功成名就,金盆洗手了,参阅《现场报道 | AlphaGo 被授职业九段,DeepMind 将公开其所有版本细节》;但这并不意味着计算机围棋研究已经走到了尽头。近日,北京大学的一

  (来源:机器之心)

  在五月底与柯洁等人的系列对局之后,人工智能围棋大师 AlphaGo 已经功成名就,金盆洗手了,参阅《现场报道 | AlphaGo 被授职业九段,DeepMind 将公开其所有版本细节》;但这并不意味着计算机围棋研究已经走到了尽头。近日,北京大学的一组研究团队宣称在计算机围棋研究上取得了另一个方向的研究成果。

  和 AlphaGo 等目前领先的围棋程序不同,北京大学 Wang Jinzhuo、王文敏、王荣刚、高文等人提出的新方法没有使用蒙特卡洛树搜索,而是使用了由深度交替网络(DANN)和长期评估(LTE)组成的系统。而且研究者还通过实验表明该系统的棋力也强于目前大多数基于蒙特卡洛树搜索的方法。

  并不完美的蒙特卡洛树搜索

  围棋是一种古老的智力游戏,规则简单,但变化复杂。由于棋局变化的可能性是海量的,在大多数情况下,我们很难对棋盘上的落子位置构建价值函数。此前,大多数计算机围棋程序都着重于模拟未来棋局可能的变化,从而选择最佳落子位置。在这种思路下,蒙特卡洛树搜索(MCTS)(Gelly & Silver 2011)是最为流行的方法,它构建了一个广泛而深入的搜索树来模拟和评估每个落子位置的价值。利用这种方法构建的围棋程序已经获得了很大成功。

  AlphaGo 结合了监督学习与强化学习的优势。通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对有所可行的落子位置形成一个概率分布。然后,训练一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到 1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。AlphaGo 将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。

  然而,蒙特卡洛树搜索的方法并不是完美的,性能不平衡是这种方法的主要限制。人们发现,利用蒙特卡洛树方法构建的围棋程序在对杀、劫争和关子时时常会出现错误的选择。人们将这些缺陷归于两种原因:1。 剪枝搜索是基于先验知识的动作,距离完美的计算还相去甚远;2。 由于围棋的棋盘是广阔的,对于大部分可能性的计算是无用的。此外,蒙特卡洛树的叶子输出难以得到精确评估。

  而最重要的是,MCTS 的方法和人类棋手并不相同,因为人类并不会对每一个可能的点位进行粗暴的模拟。相反,人类在落子时会首先通过特征分析选择几个可能的点位,并通过评估这些点位从中选择一个最优的下法。

  随着近年来深度学习在图像识别等领域的兴起,研究人员开始引入深度学习的方法来构建新一代围棋程序。与视觉信号相比(如 224x224 像素的图片),围棋棋盘的尺寸更小(19x19),而各点的相对位置十分重要,这与围棋牵一发而动全身的理念相类似。另一方面,现有的 DCNN 通常通过堆叠更多的卷积层以利用低级特征的高阶编码来进行推理,层数的增加不仅使参数负担增加,也无法嵌入局部特征及其演化。

  基于上述讨论,北京大学的研究者们提出了由两个主要部分构成的新型计算机围棋系统。

  论文:超越蒙特卡洛树搜索:使用深度交替网络和长期评估下围棋(Beyond Monte Carlo Tree Search: Playing Go with Deep Alternative Neural Network and Long-Term Evaluation)

(责任编辑:大金湖)
------分隔线----------------------------