围棋人机大战背后与人工智能发展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 柯杰:“就算AlphaGo战胜了李世石,但它赢 不了我”
为什么是围棋?
• 最复杂(注:状态复杂度与博弈复杂度)的智力游 戏:看似简单,实为复杂,具有10的170次方状态 复杂空间。 • 涉及逻辑推理,形象思维,优化选择等多种人类智 能(注:国际象棋只有逻辑推理,没有形象思维) • 公认是人工智能领域长期以来的重大挑战
• 李世石完败
• 李世石赢的一盘也是因为AlphaGo在大幅领 先局势下的失误
• AlphaGo在展现强大力量的同时,也暴露潜 在的问题和弱点
柯杰,与围棋人机大战的看点
• 不是普通意义上的挑战比赛,更是公司内部的 系统测试
• AlphaGo展现了独特的围棋风格
• 优秀的大局观和强大的总体把握能力 • 简明直接的局部定型,,虽非最优,但瑕不掩瑜 • 算法仍然存在弱点,还有很大改进空间
深度神经网络:棋感直觉
• 棋感直觉,是高水平围棋对弈的要素
• 反应了职业棋手长期学习、训练、对弈的 经验积累 • AlphaGo通过深度神经网络机器学习,获得 围棋棋感直觉,并且训练强度远超出任何 棋手的个人能力(注:有的围棋对弈软件如:
Zen,没有棋感直觉,每走一步软件是硬写上去的, 这个是规则,不是棋感直觉。规则的覆盖面非常 小,围棋的变化太多)(训练两个网络,policy network走子网络和value network估值网络)
刘知青教授的总结3
• 计算机在这次人机大战中使用了与职业棋 手相似的方式,通过棋感(落子棋感、形 势判断棋感)再加上逻辑判断进行落子。
• 计算机没有其它因素的干扰,不受情绪影 响。这是它在这次人机大战的优势
• 蒙特卡洛树搜索也是AlphaGo的一个基本技 术点
刘知青教授的总结2
• 在此之上又使用了新的技术,就是基于机 器学习的神经网络 • 这个神经网络有很大的作用: • 1、通过学习高水平棋手的棋谱,获得如何 在盘面落子的棋感 • 2、提高机器的增强型学习,获得形势判断 的棋感
• 这两个棋感提供给蒙特卡洛树搜索技术进 行验证,从而达到目前的技术突破
• 国际学术界曾经普遍认为解决围棋问题需要15-20年 时间
AlphaGo的核心方法
• 由于天文数字的状态空间和搜索空间,蛮力计 算无法解决围棋问题(注:解决国际象棋的 IBM深蓝是用蛮力方法,就是靠计算,这种方 法在围棋这么大的计算与搜索空间是无法进行 的) • 围棋职业棋手的解决方法:棋感直觉+搜索验 证 • AlphaGo的核心方法完全类似于完全职业棋手 的解决方法 • AlphaGo的优势:完全以胜率为目标,不受任 何其它因素影响
蒙特卡洛树搜索:搜索验证
• 没有棋感直觉不行,完全依赖棋感直觉也 不行 • 直觉需要通过严格的数学模型和计算方法, 对棋感直觉进行验证
• AlphaGo使用蒙特卡洛树搜索,对落子棋感 和胜负感进行计算验证。
Βιβλιοθήκη Baidu
蒙特卡洛树搜索
蒙特卡洛模拟采样:胜负棋感验证
• 基于数学期望的胜负评估模型(胜率)
• 基于蒙特卡洛模拟进行胜负结果采样(模拟采 样比直觉更可靠) • 根据模拟采样结果验证盘面胜负的数学期望 • 可靠程度与采样规模相关(采样越大,离真理 会更近些)
人工智能的核心方法:直觉获取
• 直觉:不经过思考过程,很快就能出现的 直接想法、感觉、信念或者偏好(这个非 常重要,其强大的力量。如:落子的直觉, 胜负的直觉、棋盘的直觉、棋形的直觉)
• 英文Intuition来自于拉丁语:intueri,意思 是“往里看”、“默观” • 通过深度神经网络和大数据的训练而获得
人工智能的核心方法:搜索验证
• 验证:为直觉建立真实性、准确性和可靠 性的检验过程 • 验证是核实直觉不存在偏差的一个充分条 件
• 由于廉价并行计算和大数据的支持,直觉 可以通过搜索计算来验证
人工智能的核心方法:优化选择
• 人类生活面临一系列的抉择问题(注:有 了直觉和验证就可以找一个最好的)
• A.手里的股票是持有还是抛售 • B.驾驶员到交通灯前是左拐还是右拐
围棋人机大战的背后与人工智 能发展趋势
刘知青 北京邮电大学教授、计算机 围棋研究所所长
(注:本文由刘教授于2016年4月在围棋TV上的发言整理而成)
报告提纲
• 什么是本次围棋人机大战的看点?
• 为什么是围棋问题? • AlphaGo是如何解决围棋问题的? • 如何展望围棋人机大战之后的人工智能?
搜索结果:双方最佳的落子序列-28步搜索
围棋人机大战之后的人工智能展望
• 人工智能的技术基础
• 人工智能的核心方法:直觉获取、搜索验 证、优化选择
• 人工智能的应用展望
人工智能的三大技术基础
• 1、大数据
• 2、廉价的并行计算 • 3、深度神经网络(其直觉的东西就是通过 深度神经网络利用大数据进行训练)
策略网络:落子棋感
• 深度神经网络的有监督学习
• 学习职业棋手和业余高段棋 手的棋谱(数十万份棋谱, 上亿数量级的落子方式) • 获得在围棋盘面下的落子棋感
价值网络:胜负棋感
• 深度神经网络的增强型学习(DeepMind独创)
• 通过自我博弈,学习不同盘面下的胜负情况 (三千万盘自我对局) • 获取在围棋盘面的胜负棋感(注:对每一个落 子点给一个当时的快速的胜负感(估算),这 个胜负估算并不是根据分析计算出来的,而是 直觉)(通过AlphaGo几千万盘的训练学习得 来的)
搜索结果:双方最佳的落子序列
• 落子过程的最终搜索结果是双方最佳的落子序 列,反映了对棋局进程的展望(不太靠谱的可 能搜索5-6步就停下来,最有可能的就搜索深 一些,学习上限自动做的) • 在一般情况下,28步落子序列展望远远超出围 棋职业选手的搜索深度 • 在特殊情况下(一本道),28步的搜索深度仍 显不足(例如打劫,由于步数较多搜索深度可 能不足,如果机器被引入一个比较复杂的局面, 这个局面有可能会超出它的思维搜索深度) • 注:AlphaGo的底层技术还是蒙特卡洛树搜索, 它用了神经网络的棋感直觉进行有效剪枝(树 可以分枝不要那么宽,到了某个程度就不需要 往下搜索没有意义,是过去技术的升级)
胜负棋感验证(采用b图)
最大信心上限搜索:落子棋感验证
• 最大信心上限搜索是在线机器学习的重要 方法(不同的选点通过树搜索) • 平衡机器学习过程中探索与利用之间的矛 盾 • 搜索最优的落子点,同时也是搜索次数最 多的、信心最大的、胜率最高的落子点 (在最优的落子点做大量的搜索)
落子棋感验证(采用e图)
• 直觉获取和搜索验证的结合使用,可以提 供优化选择
人工智能的应用展望:优化决策
• 国防:战略决策与战术决策
• 医疗:诊断决策与治疗决策 • 金融:投资决策与市场决策 • 交通:资源决策与物流决策
刘知青教授的总结1
• 过去10年计算机围棋一直使用新的技术: 蒙特卡洛树搜索 • 蒙特卡洛树搜索底层有一个坚实的数学基 础:上层使用并行计算,通过计算进行模 拟、采样一系列的数学方法使计算机围棋 有明显提高
樊麾,与围棋人机大战的赛前预测
• • • • • AlphaGo开发过程: 1)项目正式开始于2014年 2)2015年7月已完全超越现有AI 3)2015年10月已5:0战胜了樊麾 4)2016年1月完全超越了普通职业棋手
• 樊麾的提示:说我棋臭的,我承认,确实 棋臭
李世石,与围棋人机大战的结果
相关文档
最新文档