基于文献计量的大数据研究综述_李贺

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期：2013-12-10 基金项目：国家科技支撑计划（课题编号：2013BAH21B05）作者简介：李贺（1964-），女，吉林长春人，教授、博士生导师，主要从事知识管理、竞争情报分析、信息系统开发与设计
研究.
- 148 -
·综述·
情报科学
第 32 卷第 6 期 2014 年 6 月
·综述·
情报科学
第 32 卷第 6 期 2014 年 6 月
基于文献计量的大数据研究综述
李贺，袁翠敏，李亚峰
（吉林大学管理学院，吉林长春 130022）摘要：本文通过检索 Web of Science 中有关大数据的论文，采用文献计量分析法、可视化分析法和内容分析法等对文献进行梳理，分析了该领域的研究现状和发展趋势，并从大数据基本理论、大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点，对未来研究进行展望。关键词：大数据；Web of Science；文献计量；综述中图分类号：G250.2 文献标识码：A 文章编号：1007-7634（2014）06-148-08
2.2ห้องสมุดไป่ตู้研究方法
本文研究主要采用文献计量分析方法和内容分析法，并结合陈超美博士开发的可视化分析软件 Citespace 对检索得到的有关大数据的论文进行深入的分析研究。文献计量分析法是利用研究性论文发表的规律，以数理统计等定量研究方法为基础，客观评价不同国家、地区、科研机构或著者对某一领域的研究现状与发展历程。可视化分析法则能更为直观地说明不同研究范畴间的内在联系，从而科学有效地预测科学研究的发展动向与趋势。
3 数据分析
3.1 年代分布
利用文献计量学方法分析某一研究领域发展历程时，根据科技文献的增长及老化规律，对相关论文发文量进行年度统计分析能够揭示当前该领域的发展状况，预测其研究前景与发展趋势。在某一领域的研究初期，由于相关理论与基础较为缺乏，相关论文发文量较低，随着研究深入，进入该领域进行研究的学者、机构等增加，发文量增长较快，研究成熟后，发文量趋于稳定。通过对 Web of Sci⁃ ence 中检索得到的 849 篇有关大数据研究的文献进行年代分布分析，统计得到表 1 所示结果。
- 149 -
·Summarization·
INFORMATION SCIENCE Vol.32,No.6 June,2014
学术界对大数据的重视，与各国政府对大数据的投入与重点发展也有关系，如 2012 年 3 月美国政府宣布“大数据的研究和发展计划”和我国设立大数据专项等。
图 1 Web of Science 中大数据相关论文的年代分布曲线
1 大数据概述
1.1 大数据定义
从学术角度来讲，大数据一词最贴切的概念最早出现在 2008 年《Nature》杂志所设立的“Big Data” 专刊中，该专刊所发表的文章分别从互联网、数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战【1】。自此以后，大数据研究在各国兴起。2011 年 5 月，大数据的概念由信息存储资讯科技公司 EMC（易安信）在“云计算相遇大数据”大会
表 1 Web of Science 中大数据相关论文的年代分布表
发表年份 2008 年以前 2008 2009 2010 2011 2012 2013 总计数
论文篇数 33
16 16 13 28 249 494 849
前面提到大数据最贴切的概念是 2008 年提出，在下表中 2008 年之前相关论文发表仅为 33 篇。经过分析，这些论文中所提到的主要是“大数据集” “大数据组”“大的数据结构”等，主要体现在数据量大，但其数据量大小程度以及数据结构复杂程度远不及现在学术界所认同的大数据的概念。由图 1 可以看出 2008 年以后，尤其是 2012 年以来大数据研究越来越受重视，论文发表增长较快，成为当前研究热点。其中 2012 年 Web of Science 收录的论文中包含会议论文 162 篇，占到总论文数的 65%以上，到 2013 年会议论文数约为 170 篇，说明大数据概念在学术会议和论坛中被广泛讨论与研究，且取得较多研究成果。2013 年期刊论文数则约占当年论文总数的一半，说明大数据研究进入专业化、独立性的学科研究，成果较为丰硕。这种变化，不仅体现了
综合上述分析，大数据是当前的研究热点，未来两年将有更多研究成果，大数据有关的应用的研究也将更为深入。
3.2 地域分布
研究论文的地域分布，能帮助研究人员认清当
前在某一研究领域较为进步的国家和地区，从而帮
助研究人员认识本国该领域在国际上所处的位置，
找到标杆国家，从而进行更有效的学习研究。本文
直接利用 Web of Science 中的检索结果分析工具进
图 2 Web of Science 中大数据相关论文的地域分布图
结果显示当前在大数据研究领域中，美国发文量为 363 篇，约占总数的 43%，处于世界顶尖水平，
- 150 -
是大数据研究的核心国家，这与美国本身的科研实力是分不开的。中国在这一领域中论文发表量居于第二位，但发文量不足美国的 1/3，与美国差距还很大。英国和德国水平相当，但在当前大数据成为研究热点的条件下，各国发文量都将有很大提升。在以后的研究中，我国可以学习和借鉴美国在该领域中的研究方法和科研成果，提升自身大数据分析、处理与应用能力。同时，我国也应当充分了解学习英国、德国、加拿大等国在大数据研究中的经验，集各家所长，从而综合提升自身大数据研究水平。
表 3 大数据相关论文的研究方向分布
研究方向
记录数占 849 的百分比
COMPUTER SCIENCE
2 数据来源与研究方法
2.1 数据来源
本文研究所选取的数据源为 Web of Science 数据库，该数据库是国际上权威的大型综合性核心期刊引文索引数据库，具有很高的查全率和权威性。本文分析研究的数据库选择了 Web of Science 数据库中的 Science Citation Index Expanded (SCI-EX⁃ PANDED), Social Sciences Citation Index (SSCI), Con⁃ ference Proceedings Citation Index - Science (CPCI-S) 和 Conference Proceedings Citation Index - Social Sci⁃ ence & Humanities (CPCI-SSH)几个子库。所采用的检索式为：主题=("big data")；时间跨度=所有年份；数据库 =SCI-EXPANDED, SSCI, CPCI-S, CP⁃ CI-SSH；检索日期：2014 年 1 月 2 日。以此检索式进行检索得到 849 篇文献。
A Review of Big Data Research Based on Bibliometrics
LI He, YUAN Cui-min, LI Ya-feng
(School of Management,Jilin University,Changchun 130022,China)
Abstract: The paper analyzes related literatures in the field ofbig data retrieved from Web of Scienceus⁃ ing methods of bibliometric analysis, visualization analysisand content analysis, and analyzes the research status and development trends. The paper shows the current research focus of big data from three angles: basic theory, technology of big data storage, analysis and processing, as well as big data applied research, and gives prospects of the future research. Key words: big data; Web of Science; bibliometrics; review
行地域分布分析，整理汇总后得到表 2 和图 2 所示
的结果。
表 2 Web of Science 中大数据相关论文的地域分布表
国家/地区 USA PEOPLES R CHINA ENGLAND GERMANY CANADA AUSTRALIA NETHERLANDS JAPAN ITALY SPAIN SOUTH KOREA SWITZERLAND FRANCE INDIA POLAND SINGAPORE TAIWAN ROMANIA 其他
式存在，数据产生模式和环境处于不断变化之中，数据处理与数据环境密切相关，数据处理工具也多种多样。
1.2 大数据的基本特征
Gartner 在 2001 年发表的一份研究报告中，从 “Volume”、“Velocity”和“Variety”三个维度分析了数
据增长带来的机遇与挑战【4】。随后 Gartner 以及大多数其他产业沿用这一模型，将大数据的基本特征描述为“3V”，即数据量大（volume）、数据类型繁多（variety）、流动速度快（velocity）【5】。随着大数据研究的不断深入，一些组织在大数据基本特征描述中加入了价值密度低（value）和真实性（veracity）两个词。Gartner 的“3V”特征描述是目前最被认可的，而 “5V”特征是对大数据特征最为全面的描述。
记录数 363 103 52 41 27 26 26 25 22 22 21 17 16 13 12 11 11 10 31
占 849 的百分比 0.43% 0.12% 0.06% 0.05% 0.03% 0.03% 0.03% 0.03% 0.03% 0.03% 0.02% 0.02% 0.02% 0.02% 0.01% 0.01% 0.01% 0.01% 0.04%
正式提出。同年 6 月，IBM 及麦肯锡等著名研究机构也相继发布大数据研究报告，掀起了大数据研究的浪潮。然而，各界对大数据的定义尚未统一。 Gartner 结合其特征将大数据定义为数据量大、高运转速率和多样性的信息集合，它需要新的处理形式以加强决策支持、深入发现和优化处理【2】。我国学者孟小峰【3】通过将大数据与数据库的概念进行对比，并将两者分别比喻为“ 大海捕鱼 ”和“ 池塘捕鱼”，从数据规模、数据类型、模式和数据的关系、处理对象以及处理工具几个方面分析了大数据这一概念，较为准确、形象。总体上讲，大数据不仅指数据量巨大，且数据主要是以半结构化和非结构化形
3.3 学科领域分布
对文献进行学科领域分布分析，能有效把握研
究内容的侧重点，发现核心研究内容。在对大数据
相关论文进行学科分布研究时，本文结合 Web of
Science 中检索结果分析工具的研究方向和 Web of
Science 类别这两项进行分析。文章选取了这两项
中排名前十的结果，如表 3、表 4 所示。
陈超美博士等于 2003 年所开发的可视化分析软件 Citespace 基于 Java 平台，属于多元、分时、动态的第二代信息可视化技术，该软件所绘制的科学知识图谱能显示一个学科或知识领域在一定时期发展的趋势，有效把握研究前沿的演进历程【6】。内容分析法是一种有效结合定性分析和定量分析的研究方法，主要以研究对象的内容为切入点，结合统计数据最终得出定性结论。将以上三种方法结合在一起，对有关大数据的文献进行分析，能客观科学地得到大数据研究现状及发展趋势等信息。