数据驱动的社会科学研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据驱动的社会科学研究
万相昱
何为“数据驱动的社会科学研究”?首先这并不是我们标新立异而抛出的新概念,当然也不是我们试图构建的某种研究范式或工具。当前社会科学研究普遍采用基于数据资料的实证研究或规范研究范式,但尚未达到所谓“数据驱动”的程度,然而我们相信,可预见的未来,数据驱动的社会科学研究将会是一种客观存在。
深入探讨之前,首先必须再次明确“社会科学”的概念,这是界定问题核心和跟踪目标的基准。“社会科学”,通常指关于社会事物本质及其规律的科学,是应用科学方法研究人类社会现象的学科。科学化是其基础内涵,从本质上要求社会科学必须具有基本的科学特征:客观性、可检验性和系统性,否则难免会陷入社会学和社会科学的界别争论。马克思曾指出:“科学,只有从自然科学出发,才是现实的科学。历史本身是自然史的,即自然界成为人这一过程的现实部分。自然科学往后将包括关于人的科学,正像人的科学包括自然科学一样:这将是一门统一的科学”(《马克思恩格斯全集》第42卷第128页)。近百年以来,社会科学的自然科学化趋势日益显著,一系列自然科学的研究方法,诸如数理科学、统计学、计量学、系统论、运筹学甚至实验工具等,都被成功地应用到社会科学研究领域。这就为社会科学客观化、定量化和精准化进程提供了技术支撑,进而从根本上改变了社会科学研究体系,极大地推进了社会科学发展。但是,当前社会学科发展仍与马克思所预言的“学科统一”相去甚远。现有社会科学研究一般建立在强假设、过度简化、禀赋依赖、有偏或非一致数据基础上,研究体系中的随机性、模糊性和主观性难以有效消除,研究结果无法实现精确校准和检验,从而形成社会科学发展进程中难以逾越的鸿沟。
问题本质来源于社会科学的复杂适应性特征,即:属性异质、行为异质、交互网络,以及动态适应导致的社会复杂性。第一,属性异质性问题:传统社会科学研究方法通常基于个体分析或总量分析模式,无法表现实质存在的微观个体属性异质,研究的精确性,甚至有效性不能得到保障。第二,行为异质性问题:人类行为模式是自身属性、经济环境和历史因素的复杂映射,忽视其异质性将无法刻画不同群体应对变化和适应环境的决策机制和决策结果。第三,交互网络问题:社会系统需要建立在微观和宏观一致性框架基础上,但传统研究往往忽略社会团体中的微观个体的交互反馈,或将宏观主体与微观个体割裂,从而不能满足系统量化需求。第四,动态适应性问题:人类改造环境和适应环境的行为促使社会群体形
成行为和决策的适应性特征。只有基于动态演化的社会科学研究方法,才可能为面对各种不确定性外生冲击提供一条解决动态自适应性研究的简易路径。
社会科学复杂性意味着系统无解或难解,而社会科学适应性意味着系统实时变迁和动态演化。社会科学复杂适应性特征表明:社会现象几乎不存在闭合解、确定性映射关系、可计算函数形式、明确不变的影响因素以及无偏有效的数据资料。如果不能从根本上改变社会科学的方法论基础,则几乎不可能实现真正意义上的搭建社会科学和自然科学相互融合的桥梁。遗憾的是,目前学界罕有在这一领域的探究工作。
钱学森先生的“综合集成研究方法论”是该领域最富有建树的理论,他主张把专家体系、信息与知识体系以及计算机体系有机结合起来,构成一个高度智能化的人•机结合与融合体系,把人的思维、思维成果,人的经验、知识、智慧以及各种情报、资料和信息全部集成起来,将多方面的定性认识和必要的定量认识充分、有机地结合起来。上世纪80至90年代,以马宾、戴汝为、于景元、顾基发等为代表的学者,探索性地开展的综合集成研究,受到时任中央领导的高度评价,但当时该类研究受限于模型技术和数据资料条件限制,并未取得革命性进展。2008年,中国社会科学院再次启动社会科学综合集成研究,成为该领域最后一次大规模系统化学术探索工作,研究提出“利用互联网海量数据并基于分布式计算系统,对社会科学问题进行大规模计算机微观模拟实验”,期冀用数据和计算技术解决社会科学复杂适应性难题。然而这一概念的提出在当时的社会科学界过于前沿,甚至也未引起自然科学界的共鸣,直到2012年大数据概念在国内业界的广泛兴起。
在维克托•迈尔•舍恩伯格的《大数据时代》一书中,大数据技术被描述为:不再基于传统随机分析法,而采用所有数据进行分析的处理模式,海量性、实时性、多样性和有效性成为大数据的典型特征。不到五年时间,大数据技术已经在精准营销、信息安全、智能制造、语义识别、文本分析等众多领域取得了丰硕成果,国务院适时发布的《促进大数据发展行动纲要》更是将“大数据发展”确立为国家战略。但是社会科学界却至今没有推出重要的实用性研究成果,社会科学的大数据应用仅停留在概念和模式复制阶段。
如果要实现大数据的特征功能及支撑技术,与社会科学研究的逻辑体系和未来发展相匹配,从而为社会科学自然科学化进程提供一种可行方案,则需要特别关注大数据带来的能够应对复杂适应系统的革命性进展。这些进展包括:第一,对社会科学现象进行系统性扫描的可能,解决传统研究中的资料收集、信息传递、技术障碍等问题;第二,对社会问题动态跟踪的可能性,解决研究中的动态演化问题;第三,对事件产生发展的本质动因和多元影响因素系统性解析的可能性,解决传统研究中的结果偏差问题;第四,趋近总体数据的可
能性,解决传统研究中的系统性偏差和抽样误差、资料效度等难题。总体而言,大数据为社会科学发展提供了结构性变革的可能性。
未来必须重点解决以下问题,才可能使得大数据技术真正纳入社会科学的系统性研究体系。这些问题包括:第一,建立数据科学评估体系:以社会问题为导向,综合建立数据评价理论和方法,构建全域、多元、实时、非结构数据的有效性判定标准;第二,打通微观大数据到宏观社会现象的必由之路:科学系统的汇总微观、非结构性数据,形成各层次的总量信息;第三,形成数据驱动解决方案:以多元数据为基础,结合智能计算和专家智慧,对于社会现象进行科学量化解析,提出量化治理机制和解决途径;第四,着重注意逻辑因果机制和机理发现:利用多元化实时性数据的关联优势,对社会现象的本质动因进行发掘。
综上所述,大数据时代的到来正在给社会科学发展提供一个重要契机:社会科学研究将开始突破传统社会调查方法的局限,同时摒弃数理模型、推论统计和计量建模等传统量化技术的限制,真正用全域、实时和交互的视角去逼近社会科学复杂适应性的本质特征,从而带来社会科学实证研究基础的变革,进而缓解融合定性定量的矛盾,促进社会科学与自然科学的学科统一。基于社会理论与社会现实问题,主动性地挖掘多元数据基础,搭建社会主体间的联系网络,充分利用人机结合的综合集成模式,由此溯源社会现象的本源和逻辑传导机制,对社会科学研究对象进行精准量化的结构解析和预测推演,这是社会科学未来发展的必由途径,也是开篇所提出的“数据驱动的社会科学研究”模式。