人文社科大数据研究现状综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人文社科大数据研究现状综述
前言
数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。
大数据就是囊括了包括各方面信息的一个庞大的数据总和,其最核心的价值在于对海量数据进行存储和分析,并实现预测某一事物发展的趋向。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最低的。大数据最重要的是如何使用,最大的挑战在于哪些领域能更好地使用数据及大数据的应用情况如何。人文社科包含人文科学和社会科学,是一个非常广泛的领域,大数据逐渐成为其研究热点,尤其是在农业、医疗、金融、社会管理等方面得到了很好的应用,为社会的发展提供了很大的帮助。
工业革命以后,以文字为载体的信息量大约每十年翻一番;1970 年以后,信息量大约每三年就翻一番。到如今,全球信息总量每两年就可以翻一番。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”大数据无时无刻都在影响着我们的日常生活、国民经济、社会发展,受到社会各界的关注,如何利用这些海量数据去解决社会生活中的问题,已经成为当前研究的热点。人文社科领域重在研究并阐述各种社会现象及其发展规律,随着现实社会中数据量的剧增,比如社会化媒体,包括微信、微博、网站等,已经渗透到人们生活的各个领域,开放的群体通信和群体互动已经成社会生活的重要组成部分。人文社科领域原有的研究方法已经无法有效地处理这些数据。在过去,人文社科领域的研究常常采取抽样问卷调查、座谈、访谈等方法采集数据。然而,再好、再合理的抽样方法,反映的总是对局部和部分人群、阶层的研究结果,随机偶然性较大,准确性欠佳。如今,大数据处理技术为其提供了新的思想和方法。通过各个平台或网站的并联进行进一步分析,开展思想动态研究、行为方式分析、生活方式探索,发展趋势预测,乃至可以替代传统意义上的问卷调查而进行大规模的数据分析。通过大数据的这些相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,解决了人文社科领域传统方法无法有效处理的问题。随着大数据研究的发展,大数据在人文社科领域已经有了很多较为典型的应用,特别是在农业、医疗、金融、社会管理等行业。
大数据是知识经济时代的战略高地,是国家和全球的新型战略资源。作为思维的革命性创新,大数据为科学研究带来了新的方法论。习近平总书记在谈到如何繁荣发展中国特色哲学社会科学时,要求我们善于“运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,这为信息化时代的人文社会科学研究的方式变革与理论创新指出了正确的方向。大数据正在成为当前中国社会快速信息化的最重要表征之一。我们应当深刻认识大数据及其对人文社会科学研究所
提供的机会与挑战,自觉促进人文社会科学研究的变革与创新。
一、大数据的特性及其热点研究
大数据的基本特征(沈浩、黄晓兰)
1.多带来不同,大数据具有的最显著特征之一就是多带来不同。
2.社交网络数据源,大数据真正的兴奋点来自于社交网络,特别是国外的Facebook 和Twitter,国内近年来兴起的微博,特别是新浪微博这个具有媒介属性的社会化媒体,每天每秒都在产生亿级的文本话语。
3.开放性公开易获得,大数据的开放性和公开易获得是大数据兴奋的另一重要特点,大数据的产生并非是为了分析去存储,而是商业过程自动化会产生并存储下来。
4.重预测爱,社会预测是大数据的重要特征。
5.重发现非实证,传统的实证研究,强调在理论的前提下建立假设,收集数据,证伪理论的适用性,采用随机抽样的定量调查问卷获取数据,验证假设,你不问的问题被访者也不会回答。
6.重关系非因果,大数据重关系而不关心因果,问什么而不问为什么是另一个重要特征。
7.重全体轻抽样,大数据是商业自动化存储的数据,在软硬件满足的条件下可以分析海量数据。8.非结构化数据,数据挖掘是要发现那些先前未知、实用、有效的信息和知识,往往更多来自非结构化数据,这是大数据时代的更为显著的特征。
大数据的特点(崔晓晖、王志波、杨威)
1.重发现非实证。
2.重关系非因果。
3.重预测而应用偏重于社会。
由于大数据所具有的特征,大数据研究并非易事,其难点主要体现在以下三个方面。首先,传统的存储结构需要升级为扩展性的存储架构,否则无法适应现有的大数据存储,同时,对于分布式的文件系统,需要进行实时的流处理,而“传统的数据分析更多的是结构化,数据量是有限的,集中式处理、批量处理,也无法满足需要”。其次,没有速度,再有价值的大数据也只能是一堆无法流通的钞票。凭藉传统的数据分析能力,无法处理这么大量的数据。最后,由于分析手段的限制,取样时的样本数不够大,不能充分利用所有的数据,无形中破坏了信息的完整性;由于受限于分析能力而无法获取复杂问题的答案;由于受限于时间而不得不采用某项简单的建模技术,同样,也是由于没有足够的时间来执行多次迭代,不得不对模型净度进行妥协。可见,大数据在人文社科领域的研究还在发展阶段,还需要继续研究新的处理方法和思想,为该学科的发展提供新的动力,并应用到现实以推动社会的发展。
人文社会科学大数据研究的基本特征(孙建军)
综合已有的研究,人文社会科学的大数据研究具有如下基本特征:
1.所涉及资料均大大超过一般的阅读、分析和理解所能处理的范畴,是以往“不可研究”或“难以研究”的,大数据分析方法的出现提供了人文社会科学研究新的研究空间,提供了新的研究可能。
2.一般引入计算分析方法,其结论并非观察、思索、领悟等传统方法获得,而是通过大量数据的汇集而“自动涌现”,其理论的获得不同于传统人文社会科学研究。
3.均构建了可持续完善和丰富的数据集和分析工具,其可用性、共享性、重用性、协作性大大增强,提供了人文社会科学学者大规模协作的可能。
4.均具有跨学科特征。数字人文研究需要汇集专业领域技能、数据管理技能、数据分析技能和项目协作技能,因而这类项目往往由跨度较大的不同学科的专业学者共同完成。
5.决定研究质量的主要是数据集的质量、数量和利用方式,而研究假设相对容易。在某种程度上,数据科学家将成为人文社会科学大数据研究中的主角。
大数据研究热点解析(赵蓉英、魏绪秋)