我国可计算社会科学研究的现状与未来
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
@二十四个重大问题研究
IMPORTANT ISSUES
我国可计算社会科学研究的现状与未来
复旦大学经济学院教授袁堂军
【摘要】人工智能和大数据分析技术的发展为社会科学研究提供了新的技术方法和理念,同时也
带来了新的挑战。
本文从人工智能技术在我国社会科学研究中的运用现状出发,分析了未来人工
智能技术背景下社会科学研究范式的多元化发展和文理融合发展的趋势。
强调推动我国可计算社
会科学研究发展需要避免的几个误区,比如偏重相关关系的研究而忽略对因果关系的探索,受样
本数据偏差的影响而陷入“统计的胡说”现象,以及过度依赖于算法而导致结果偏差放大的现象
等。
随着文理融合时代的到来,统计学和数据处理相关的计算机网络技术的跨学科普及至关重要,
需要尽早开展相关的交又学科的设置,积极提供网络教育等相关知识普及的公共品。
【关键词】人工智能大数据社会科学统计计算机语言
【中图分类号】C3 【文献标识码】A
【DO I 】10.16619/ki.rmltxsqy.2019.20.005
随着人类社会的进步和科技的发展,科学研究的方法也在不断演进,从早期以亚里士多德的天 动学说为代表的自然哲学研究手法,逐步演变到以牛顿为代表的对自然哲学的数学原理的探索,进 一步发展到如今基于数值计算和模拟仿真的计算科学时代。
而进入21世纪,人工智能技术(Artificial Imelligence)的发展,揭开了被称为第4代科学——数据集约型(大数据)科学发展的序幕。
传统的科学研究方法主要是基于研究人员通过观察和实验提出假说,然后通过反复试错验证来实现 对理论的探索,是先提出理论然后进行验证的过程。
而人工智能背景下研究的特征则体现在利用相对有
—即深度学习,最终 限的小规模的观察数据,然后通过不同场景假设和模拟仿真技术来获取更多数据—
完成新理论的发现,可以称之为模拟仿真驱动型科学研究,是一个从数据中去发现规律的过程。
人工智能的发展的基础是计算机科学和认知科学的发展,然而应用人工智能的研究领域却不仅仅局 限于计算机科学,而是跨界于各个自然科学和社会科学的领域。
在我国,人工智能在科学研究中的应用 也越来越普遍,主要集中于计算机科学、工程和自动控制系统领域。
《中国人工智能发展报告2018》中已经显示中国目前是人工智能论文产出和人工智能专利布局最多的国家。
在过去的20年里,中国人 工智能领域的论文产出全球占比从4.26%上升到了27.68%,按照国际经济学对比较优势的定义,121中国 人工智能领域的论文产出全球占比已经大于中国GDP的全球占比了,因此中国在人工智能的研究领域袁堂军,复旦大学经济学院教授、博导,复旦大学亚洲经济研究中心主任,全球投资与贸易研究 中心主任,日本研究中心常务理事,曰本一桥大学经济研究所客座教授。
研究方向为世界经济、发展 经济学和数量经济史。
主要著作有《中国的经济发展与资源配置》《亚洲的智慧:多元文明的统一与 发展》等。
40丨学术前沿丨2019.丨0下
已经属于具有比较优势的国家了。
这一定程度上 是得益于现今人工智能算法的进化很大程度上以 大数据为基础,而中国庞大的人口规模是世界上 最好的天然的大数据试验场。
与此同时,随着微观数据的可获得性的增 加,社会科学研究领域在最近的20年来越来越 趋向于量化研究,其中包括实证研究和反事实分 析。
以经济学为例,在经济学领域备受关注的约 翰•贝茨•克拉克奖,该奖项60%的获奖者都获得 了诺贝尔经济学奖。
在1995年之前,仅有20%的获奖者的的成果是建立在数据基础上的实证研究 (80%是理论研究成果),而在过去的15年内,实证研究的获奖比例上升到了70%。
因此,可以 预见人工智能中的大数据和大数据技术在社会科 学研究领域中的运用将会越来越普遍,而成为社 会科学研究领域的一个重要趋势。
人工智能的技术为社会科学领域的研究者 们带来了前所未有的大数据的同时,也为社会科 学研究提供了新的技术和方法,甚至是新的研究 理念。
这些对社会科学领域的研究而言无疑是巨 大的机遇。
但需要注意的是,人工智能技术虽然 使得社会科学与自然科学研究在方法上形成了一 定的共通性,但是这两类研究之间仍然具有几点 本质的不同,如何合理而有效地利用人工智能技 术,对社会科学研究者们提出了一些特殊的挑战 性问题。
首先,社会科学的主要研究对象是人和 人类的行为,存在伦理限制的技术手段无法在人 类活动中实现完全实验环境,因此人工智能所带 来的大数据在社会科学领域很难真正实现理想中 的总体而非样本的情境。
其次,人工智能可以协 助研究者们从更为微观的层面对社会科学问题进 行分析,在获得微观个体的精确行为的同时,也 对研究者进行宏观规律总结带来了挑战。
人类微 观活动之间的交互作用是非常复杂的,因此宏观 加总的难度也随着数据的细化而成几何级数式的 增加。
最后,我们对社会科学的研究成果的应用 一般不是具体的产品或者服务,而是一些战略性的政策,比如说企业的营销策略,激励机制,政
府的政策方针,等等,因此,社会科学的研究成
果的影响面会比较大,在分析过程中的稍许偏差
很可能会带来巨大的社会影响。
基于上述背景,本文尝试从社会科学领域利
用人工智能的现状出发,阐述人工智能为社会科
学研究带来研究范式的多元化以及研究技术和方
法革新,并进一步深入探讨人工智能给社会科学
研究所带来的挑战以及如何应对的策略和建议。
社会科学领域利用人工智能研究的现状
相比自然科学,人工智能在社会科学领域
中的应用尚处在比较基础的阶段。
罗晨和沈浩 (2018)根据美国科学情报研究所(Institute for Scientific Information,ISI)编制的Web of Science(WoS)引文数据库,选取了以人工智
能为主题的社会科学领域的发表论文和会议论 文,发现社会科学涉及到人工智能的研究最早可
以追溯到1975年。
然而在最开始的10年,人工
智能相关的社会科学领域每年的论文数量仅在个
位数徘徊,直到最近的10年,这一数字出现了飞
速地增长,每年都有超过百篇的相关论文,其中 2017年和2018年,分别超过了200篇。
虽然中国
在工程和自然科学类的人工智能方面的研究数量
领先于世界各国,但是在社会科学领域,我们对
人工智能方面的应用还是与发达国家(尤其是美 国)有一定的差距,截止于2018年,社会科学领
域人工智能相关的文献中国的数量还不到美国的
四分之一。
社会科学是研究人类社会种种现象的各学科
的总体或者其中任一学科,它包括商业与经济、
政治学、法学、伦理学、历史学、社会学、心理 学、教育与教育研究、运筹学与管理科学等。
社
会科学的不同子科学涉及人工智能的研究深度和
广度都各不相同。
截至2018年,我国人工智能
在社会科学子学科中应用最多的是商业与经济方
OCT 2019I FRONTIERS I 41
©二十四个重大问题研究IMPORTANT ISSUES
向,共有515篇相关论文;而论及人工智能的应 用广度,即在人工智能研究领域的某社会科学子 学科与其他学科的关联度,心理学的度数中心度 则是最高的。
其他涉及人工智能较多的社会科学 子科学分别是运筹学与管理科学、教育与教育研 究,以及其他社会科学子学科(跨学科、伦理学 和社会科学史)。
表1表示了应用人工智能最多 (深度)的五个社会科学子学科,以及他们相应 的广度指标(社会网络分析的度数中心度|30。
从表1中我们可以看到,社会科学领域中涉 及到人工智能较多的这些子学科,也是近年来 研究数量化趋势比较明显的社会科学子学科。
人工智能的跨学科特征在社会科学研究中的体 现是十分明显的,毫无疑间未来将会是文理融 合的时代。
人工智能与社会科学研究范式的多元化
如前言所述,人工智能在社会科学研究中的 引入使得社会科学的研究方法更为多元化。
根据 米加宁等(2018)的研究,可以把社会科学的研 究范式归纳分为四种。
一是定性分析,即通过类比和推理归纳概括研究对象之间的关系,而现代的社会科学的定性 分析就是通过理论建模,解释研究对象之间的复 杂逻辑关系,对应于自然哲学研究方法。
二是定量分析,通过“假设-检验”,利用人 工采集的数据论证研究对象之间的关系。
在社会 科学中因果关系的确认是研究者们极为关注的,但长期以来由于数据的局限性,同时社会科学的 研究对象的构成要素复杂多变,因此在社会科学 研究中大量的定量分析常常存在由于样本的选择 而带来的偏差问题,对应于数学原理探索方法。
三是计算实验的仿真研究,其中最具代表 性的就是经济学领域中使用的可计算一般均衡分 析。
它是在通过复杂的数学推导的定性分析基础 上,利用有限的真实数据对模型进行校准,当复 杂模型被证实有一定程度的有效性之后,通过模 似现实不存在的模拟数据,对研究对象进行反事 实分析来完成的。
最近10年,计算实验的仿真研 究方法在社会科学研究领域越来越到受影响力大的 专业学术期刊的关注,其原因归结于这类研究方法 能够较好地克服定性分析和定量分析的局限性。
四是基于人工智能的数据集约型研究。
现在 的大数据研究从数据获取、建模到分析预测几乎 都可以由计算机来完成。
其数据上的优势是毋庸
表1人工智能在社会科学子学科中的深度和广度
社会科学子学科 (深度前五)
深度
(文献数量)
社会科学子学科
(广度前五)
广度
(度数中心度)
商业与经济515心理学29心理学358商业与经济学24
运筹学与管理科学322
其他社会科学子学科
(跨学科,伦理学和社会
科学史)
23
其他社会科学子学科
(跨学科,伦理学和社
会科学史)
165社会学23教育与教育研究135教育与教育研究16数据来源:罗晨和沈浩(2〇18>
42丨学术前沿丨2013.10下
置疑的,研究的效率也要远胜于其他研究方法;然而这类研究方法的重点却应该锁定在理论建模 分析中。
如果忽略甚至放弃了理论建模,那么就 可能造成对研究对象之间的因果关系以及其他复 杂逻辑都不能准确判定,研究结果也难以给与合 理解释,因此,必须反复强调的是,一旦大数据 的样本存在偏差或者算法出现偏误,研究结果也 将会存在很大的误差。
人工智能的发展为社会科学的研究带来了过 去无法想象的大数据、新算法,和超强的计算能 力,因此在未来社会科学研究的范式必然向多元 性发展。
首先,在研究问题的提出方面,大数据的研 究范式可以驱动研究者们提出新的研究问题和研 究关注点。
到目前为止大多数人工智能所提供的 大数据是被动收集的,受研究热点或传统研究方 向的主观影响较小,因此,这些大数据无论是深 度还是广度都可以给研究者们带来新的研究问题 的启发,可以帮助研究者跳出必须基于对先行文 献综述的传统的框架,而对学科重要问题展开拓 展研究的空间变大。
其次,无论是数据的获得、整合和分析,人工智能的运用都会大幅度提高效率,大数据分 析,可以让研究者能够更加顺利地观察和捕捉到 研究对象之间的逻辑关系。
再次,由于“因果关系是人类理性行为与活 动的基本依据,人类理性本身不可能否定因果关 系”(王天思,2016)。
社会科学传统的理论建 模定性分析可以获得研究对象之间的理论因果关 系,在此基础上,如能充分利用人工智能的先进 算法,毫无疑问可以使得理论建模的假设大幅度 减少,模型的复杂程度可以得到大幅度提高,仿 真程度也会变得更高和更好。
最后,研究者们可以根据理论模型的定性 分析,利用人工智能进行进一步的大数据收集和 整合,实现对理论研究结果进行准实验性的定量 分析。
在社会科学领域的实证分析中,变量的内生性间题,遗漏变量问题以及样本选择性偏差间
题是困扰研究者能否作出准确因果判定的关键原 因。
人工智能所带来的多维度的大数据一般能很
好的解决遗漏变量问题,降低样本迭择性偏差的
概率,同时如果辅以在大数据采集和挖掘前的准
实验设计来解决变量内生性问题,那么社会科学
的定量研究的说明力将会更强。
如上所述,研究范式的多元化的目标和趋 势,是需要既能克服传统研究范式的数据劣势,
又能克服完全给予数据科学的大数据研究范式的
理论解释力度不足的问题。
可计算社会科学研究的发展
人工智能的运用对社会科学的研究技术和方
法带来巨大的影响,推动了被称为可计算社会科
学研究领域的发展。
主要体现在突破大数据技术
突破数据瓶颈,提高分析效率以及能够实现宏观
研究的微观支持等方面。
大数据技术(数据采集挖掘,数据储存整
合和数据分析)。
人工智能为社会科学研究提
供了诸多新的分析技术,其中最具代表性的就是
大数据技术,这一技术彻底改变了社会科学研究
中数据难获得的重大问题,由于数据量的激增,
传统的社会科学研究中的数据整合和简单数据分
析的方法也随之发生巨大的变化。
正如E inav和 Hendry(2013)所指出,大数据具有四个主要
的特征,即数据体量大,生成速度快,种类多 样,以及价值密度低。
大数据的运用与传统的数
据的处理方法将发生巨大的变化。
第一是数据的实时可得性。
传统的数据通常
是人工采集的,并且是为了社会科学研究某个特
定“假设-检验”为目的而收集的,通常具有较严
重的滞后性。
数据的实时可得性为社会科学研究
中的预测提供了良好的基础。
尽管数据的时效性
稍差对揭示基于历史过程的社会科学领域的一般
规律不会产生较大的影响,但是对于利用这个一
O C T2013I FRONTIERS I 43
»二十四个重大问題研究IMPORTANT ISSUES
般规律来对未来进行预测的时候,数据的实时性 对预测结果的准确度而言就是至关重要的了。
第二是数据量的巨大。
伴随数据量的巨大化 所带来的多维度数据一方面在为研究者提供更多信 息的同时,也让研究者在使用数据整合和分析的统 计学工具方面也会随之发生质变。
处理海量数据将 会更加依赖高效的计算机算法和云计算。
第三是数据的结构多元性。
传统的数据结构 一般不是数值就是文本,而大数据的数据来源更 加多样化,可能是传统的数值或文本,也可能是 图片、音频,甚至是视频。
比如在经济学中常用 的用来估算当地经济发展的卫星灯光数据的原始 格式就是图片格式。
这意味着传统的数据分析方 法就不再适用,数据整合的第一步是如何把不同 数据格式的数据进行量化处理,转化成社会科学 研究可以直接利用的数据形式,这也是需要新的 算法和计算机的运算能力。
第四是数据挖掘、储存和分析的技术的更新 速度会大幅度增加。
当数据的规模越来越大,数 据库、并行计算、云计算、机器学习等技术都会 成为社会科学研究的中间步骤。
计算模型+数据校准分析的算法和数据辅 助。
在社会科学领域,研究者们所探究的研究对 象的因果关系不会完全被大数据中的相关关系完 全取代。
在某些规范(normative)研究中,人工 智能所带来的高效可靠的相关关系确实已经足够 进行一些预测分析,并且可以为政策制定者提供 很好的借鉴和支持。
然而实证(positive)研究是 不可能止步于相关关系的,因果关系才能是社会 科学研究者们追寻人类和社会发展规律的本源。
人工智能以及人工智能所带来的大数据不应该 成为因果关系的阻碍,理想的结果是“大数据会 成为因果分析的强大手段”(刘涛雄、尹德才,2017)。
人工智能的算法能够大大提高社会科学研究 的分析效率,研究者们在建立理论模型的时候,不需要由于传统的计算能力问题而对模型进行各种假设限制,这使得模型能更好地对真实世界进 行模似。
其实在人工智能涉足社会科学研究领域 之前,经济学就已经使用了计算一般均衡模型取 代传统的理论模型来探讨能源和环境等问题。
计算模型在自然科学领域早已被广泛应用,比如物理学,几乎所有的理论物理研究都是建立 在计算模型的基础上。
然而计算模型在社会科学 领域虽然被应用的时间不短,但是始终没有实现 质的飞跃,其根本原因就是计算模型在校准时所 需要的数据在社会科学领域比较难以获得。
人工 智能的介入恰恰能解决社会科学研究数据难的问 题。
大数据的数据规模和维度可以用来对计算模 型进行高精度的校准,同时数据的实时性也可以 为计算模型对社会问题的预测提高准确度。
微观分析和宏观分析的结合。
现在社会科 学研究在做微观个体分析与其在做宏观政策分析 时相对比较割裂。
141比如说宏观经济学的研究方 法和微观经济学的研究方法就有很大的差异,哪 怕两者研究的是同一个问题,相互之间都很难统 一。
这是由于社会科学研究的主体是人和人类的 行为,人类行为之间的交互作用极为复杂,往往 存在“加总的谬误”现象,即微观研究很难进行宏 观加总,同样的,宏观的分析也很难进行微观的 拆分。
人工智能为社会科学研究带来的大数据使得 社会科学研究必然能从更微观的层面进行,同时 人工智能也能带来新的计算机算法,能够对微观 研究的结果进行宏观的复杂加总和综合,使得社 会科学的宏观分析和微观分析有更好的统一性。
如此一来,我们既可以实现对微观个体行为的深 入研究,也能够破析出各个微观个体相互之间的 网络结构,从而进一步得出每个微观个体对不同 宏观因素的作用。
可计算社会科学研究所面临的挑战
尽管人工智能技术的运用揭开了可计算社会
44I学术前沿I2019.10下
科学研究发展的序幕,然而要真正达到创造具有 实践意义的研究成果,尚需完善一些基础条件。
人工智能的核心技术是深度学习,尽管它具有处 理大量各类数据的超强能力,但尚不能应对一些 异常项的干扰,因此对于复杂现象以及个别特殊 现象的推定和解释,离不开具有理论知识的专家 系统的支持。
如果不考虑这些问题,往往容易陷 入一些误区。
同时,对于作为专家支持系统的研 究人员首先要不忘社会科学研究的初心,探索规 律和理论,不能被数据绑架而导致结果偏离。
因此不仅需要具有理解各种数据特征和使用数据的 能力,也需要具备数据科学的基本素养和一定的 编程能力。
可计算社会科学研究中的误区。
人工智能为 社会科学领域带来了新的研究范式和新的研究技 术和方法,这些无疑对于现在越来越依赖于定量 分析的社会科学研究而言是极大的机遇。
然而,我们必须也要意识到人工智能在带来研究效率提 升的同时,很可能也会使得社会科学研究者们陷 入研究的误区。
第一个误区是过度注重相关关系而忽略研究 对象之间的因果关系。
大量的文献已经关注到了 这点,王天思(2016)从哲学的角度阐述了大数 据中的因果关系,刘林平等(2016)也探讨了规 律和因果在大数据应用到社会学领域的重要性,马费成(2018)在论述人文社会科学与自然科学 应当相互学习借鉴时也提出可以在相关关系的基 础上分析因果关系。
如前所述人工智能的运用要 摆脱对数值计算的偏重而应将其作为社会科学因 果关系的研究的辅助。
第二个误区是陷入“统计的胡说”现象。
这里 需要关注的是大数据究竟带来的仅仅是样本的增 加,还是可以成为总体。
在大多数情况下人工智 能技术所带来的大数据只是统计样本的増加,也 就是从传统分析的小样本到大数据下的大样本。
美国机场电子护照的通行经常无法识别深肤色的 人种,其主要原因就是在设计人脸识别的人工智能算法校准的时候采用了不具有代表性的大数据
样本。
在社会科学的研究中也是如此,通过分析
有偏的样本,即使它是大数据的样本,得出的研
究结论也必定是有偏差的。
第三个误区是过度依赖算法而导致偏差的
扩大。
现在的人工智能算法只能处理一个特定的
任务,也就是狭义的人工智能,151由于狭义人工
智能的算法是为了某个特定目标而施行的,其算
法会在有偏的基本数据样本上带来更大的偏差。
B arocas和Selbst(2016)讨论大数据分析可能
会带来意想不到估计偏差,文中提到美国波士顿
政府曾利用人工智能的算法根据智能手机对道
路坑洼的识别来决策道路维护资源的投入,由于
智能手机识别道路坑洼这一大数据样本本身就是
有偏的,而人工智能自动迭代更新的算法会带来
道路维护资源的进一步错配。
相对经济发展较为
落后的地区而言,波士顿富人区的智能手机持有
数量较多,人工智能的算法是通过智能手机是否
感受到行车路上是否有坑洼来分配政府的修路资 源,带来的结果只能是富人区的道路情况被过度
维护。
原先的数据样本偏差仅仅是富人区的道路
坑洼会更多地被汇报,而人工智能来分配道路维
护资源的算法会产生进一步的资源不公平分配的
结果。
即使算法是无偏的,人工智能的单一目标也
可能会带来公平性的间题。
《彭博商业周刊》在 2016年的一篇文章中深入讨论了亚马逊公司通过
人工智能算法来最大化包裹投递效率和服务最多
的客户的目标却导致公司在自动迭择服务区域时
完美避过大多数的黑人区。
作为美国最大的网络
零售商,利润最大化无疑是其目标,因此亚马逊
公司所设计的人工智能算法并不会把种族考虑在 内,这种看似“无偏”的算法实际上却带来了类似
于“种族歧视”的服务设定范围,造成社会公平的
损失。
需要强调的是,在社会科学研究的过程中,
人工智能可能会带来样本和算法有偏的两个误区
OCT2019 I FRONTIERS! 45。