AlphaGo技术原理分析及人工智能军事应用展望_陶九阳
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2卷第2期指挥与控制学报V ol.2,No.2 2016年6月JOURNAL OF COMMAND AND CONTROL June,2016
AlphaGo技术原理分析及人工智能军事应用展望
陶九阳1,2吴琳1胡晓峰1
摘要以“深蓝”的技术原理为比对,研究了AlphaGo有监督学习策略网络、快速走子模型、增强学习策略网络和价值网络等核心模块,较为详细地分析了策略网络、价值网络引导的蒙特卡洛树搜索算法的实现;以AlphaGo的技术突破为起点,展望了人工智能在物理域、信息域、认知域和社会域上的可能应用,分析了美国国防部高级研究计划局资助的人工智能军事应用项目;以OODA循环理论为基础,研究了人工智能应用于军事领域可能会带来的颠覆性效果.
关键词AlphaGo,深度学习,增强学习,态势感知,OODA循环
引用格式陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,2(2):114−120 DOI10.3969/j.issn.2096-0204.2016.02.0114
Principle Analysis on AlphaGo and Perspective in Milltary Application of Artificial Intelligence
TAO Jiu-Yang1,2WU Lin1HU Xiao-Feng1
Abstract Compared with chess-playing program”Deep Blue”,supervised learning of policy networks,rollout policy,reinforcement learning of policy networks and reinforcement learning of policy networks of AlphaGo are studied.A Monte Carlo tree search(MCTS) algorithm guiding by the policy and value networks is analyzed.Based on AlphaGo’s technological breakthroughs,potential applications of artificial intelligence(AI)in physics domain,information domain,cognition domain and social domain of war space are forecasted, and AI programs funded by Defense Advanced Research Projects Agency(DARPA)are analyzed.Finally,the revolutionary impacts of AI on military domain are studied based on the Observation,Orientation,Decision,Action(OODA)loop theory.
Key words AlphaGo;deep learning;reinforcement learning;situation awareness;OODA
Citation TAO Jiu-Yang,WU Lin,HU Xiao-Feng.Principle analysis on AlphaGo and perspective in milltary application of artificial intelligence[J].Journal of Command and Control,2016,2(2):114−120
围棋被誉为人类最后的智慧高地,一直是检验人工智能发展水平的重要标志之一.围棋复杂的盘面局势评估和巨大的状态搜索空间,成为学者们面临的巨大障碍.仅仅依赖常规的知识推理和启发式搜索[1]策略,会有极高的计算复杂度.2016年AlphaGo[2]围棋人工智能的突破,反映出最近兴起的深度学习等人工智能技术解决围棋这类完美信息博弈问题的优异性能.以深度学习为代表的人工智能技术的快速发展,使得人工智能逐渐具备了分层抽象及知识表达的自动化,极大降低了搜索的复杂度,为人工智能解决围棋问题提供了关键技术基础.
AlphaGo是谷歌公司旗下DeepMind公司研发的围棋人工智能程序.其分布式版本构建于1920个CPU和280个GPU之上,它综合运用了深度学习和
收稿日期2016-05-25
Manuscript received May25,2016
军民共用重大研究计划联合基金(U1435218),国家自然科学基金(61174156,61273189,61174035,61374179,61403400,61403401)资助Supported by Shared Army Major Research Plan Joint Fund(U1435218),Na-tional Natural Science Foundation of China(61174156,61273189,61174035, 61374179,61403400,61403401)
1.国防大学信息作战与指挥训练教研部北京100091
2.解放军理工大学指挥信息系统学院江苏南京210007
1.Department of Information Operation&Command Training,National Defense University,Beijing100091,China
2.College of Command Infor-mation Systems,PLA University of Science&Technology,Nanjing Jiangsu 210007,China 蒙特卡洛树搜索算法,2015年以5:0完胜欧洲围棋冠军、职业二段选手樊麾[2],2016年又以4:1战胜世界围棋冠军李世石.从技术上看,AlphaGo与1997年轰动一时的国际象棋“深蓝”具有本质的不同.“深蓝”依赖计算能力对所有状态空间进行穷尽式暴力搜索,是用确定性算法求解复杂问题,体现的是一种“机器思维”.而AlphaGo依靠深度学习的方法,建模了人类的“直觉”棋感和大局观,通过增强学习的方法,拥有了自主学习、自我进化的能力.它运用蒙特卡洛树搜索随机算法将深度神经网络进行融合,最终具备了在“直觉”基础上的“深思熟虑”,而这正是一种典型的“人类思维”处理复杂问题的方式.这为解决复杂决策智能的问题提供了一种工程技术框架[3].
以AlphaGo为代表和标志的技术突破,预示着一种具有直觉、认知和自我进化能力的新的人工智能时代的到来,也预示着智能化战争时代可能即将到来.这不仅给工业界带来巨大的震动,也为人工智能的军事应用打开了进入快车道的大门.对AlphaGo 技术原理进行深入剖析,研究其智能化方法框架,预见人工智能技术的军事应用,可以为解决复杂战争问题,储备必要的理论与技术基础并指明方向.