基于文献计量的大数据研究综述_李贺

基于文献计量的大数据研究综述_李贺
基于文献计量的大数据研究综述_李贺

收稿日期:2013-12-10

基金项目:国家科技支撑计划(课题编号:2013BAH21B05)作者简介:李

贺(1964-),女,吉林长春人,教授、博士生导师,主要从事知识管理、竞争情报分析、信息系统开发与设计

研究.

基于文献计量的大数据研究综述

贺,袁翠敏,李亚峰

(吉林大学管理学院,吉林长春130022)

要:本文通过检索Web of Science 中有关大数据的论文,采用文献计量分析法、可视化分析法

和内容分析法等对文献进行梳理,分析了该领域的研究现状和发展趋势,并从大数据基本理论、大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,对未来研究进行展望。关键词:大数据;Web of Science ;文献计量;综述中图分类号:G250.2

文献标识码:A

文章编号:1007-7634(2014)06-148-08

A Review of Big Data Research Based on Bibliometrics

LI He,YUAN Cui-min,LI Ya-feng

(School of Management,Jilin University,Changchun 130022,China)

Abstract:The paper analyzes related literatures in the field ofbig data retrieved from Web of Scienceus ?ing methods of bibliometric analysis,visualization analysisand content analysis,and analyzes the research status and development trends.The paper shows the current research focus of big data from three angles:

basic theory,technology of big data storage,analysis and processing,as well as big data applied research,and gives prospects of the future research.

Key words:big data;Web of Science;bibliometrics;review

1大数据概述

1.1大数据定义

从学术角度来讲,大数据一词最贴切的概念最早出现在2008年《Nature 》杂志所设立的“Big Data ”专刊中,该专刊所发表的文章分别从互联网、数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战【1】。自此以后,大数据研究在各国兴起。2011年5月,大数据的概念由信息存储资讯科技公司EMC (易安信)在“云计算相遇大数据”大会

正式提出。同年6月,IBM 及麦肯锡等著名研究机构也相继发布大数据研究报告,掀起了大数据研究的浪潮。然而,各界对大数据的定义尚未统一。Gartner 结合其特征将大数据定义为数据量大、高运转速率和多样性的信息集合,它需要新的处理形式以加强决策支持、深入发现和优化处理【2】。我国学者孟小峰【3】通过将大数据与数据库的概念进行对比,并将两者分别比喻为“大海捕鱼”和“池塘捕鱼”,从数据规模、数据类型、模式和数据的关系、处理对象以及处理工具几个方面分析了大数据这一概念,较为准确、形象。总体上讲,大数据不仅指数据量巨大,且数据主要是以半结构化和非结构化形

-

-148

式存在,数据产生模式和环境处于不断变化之中,数据处理与数据环境密切相关,数据处理工具也多种多样。

1.2大数据的基本特征

Gartner在2001年发表的一份研究报告中,从“Volume”、“Velocity”和“Variety”三个维度分析了数据增长带来的机遇与挑战【4】。随后Gartner以及大多数其他产业沿用这一模型,将大数据的基本特征描述为“3V”,即数据量大(volume)、数据类型繁多(variety)、流动速度快(velocity)【5】。随着大数据研究的不断深入,一些组织在大数据基本特征描述中加入了价值密度低(value)和真实性(veracity)两个词。Gartner的“3V”特征描述是目前最被认可的,而“5V”特征是对大数据特征最为全面的描述。

2数据来源与研究方法

2.1数据来源

本文研究所选取的数据源为Web of Science数据库,该数据库是国际上权威的大型综合性核心期刊引文索引数据库,具有很高的查全率和权威性。本文分析研究的数据库选择了Web of Science数据库中的Science Citation Index Expanded(SCI-EX?PANDED),Social Sciences Citation Index(SSCI),Con?ference Proceedings Citation Index-Science(CPCI-S)和Conference Proceedings Citation Index-Social Sci?ence&Humanities(CPCI-SSH)几个子库。所采用的检索式为:主题=("big data");时间跨度=所有年份;数据库=SCI-EXPANDED,SSCI,CPCI-S,CP?CI-SSH;检索日期:2014年1月2日。以此检索式进行检索得到849篇文献。

2.2研究方法

本文研究主要采用文献计量分析方法和内容分析法,并结合陈超美博士开发的可视化分析软件Citespace对检索得到的有关大数据的论文进行深入的分析研究。文献计量分析法是利用研究性论文发表的规律,以数理统计等定量研究方法为基础,客观评价不同国家、地区、科研机构或著者对某一领域的研究现状与发展历程。可视化分析法则能更为直观地说明不同研究范畴间的内在联系,从而科学有效地预测科学研究的发展动向与趋势。

陈超美博士等于2003年所开发的可视化分析软件Citespace基于Java平台,属于多元、分时、动态的第二代信息可视化技术,该软件所绘制的科学知识图谱能显示一个学科或知识领域在一定时期发展的趋势,有效把握研究前沿的演进历程【6】。内容分析法是一种有效结合定性分析和定量分析的研究方法,主要以研究对象的内容为切入点,结合统计数据最终得出定性结论。将以上三种方法结合在一起,对有关大数据的文献进行分析,能客观科学地得到大数据研究现状及发展趋势等信息。

3数据分析

3.1年代分布

利用文献计量学方法分析某一研究领域发展历程时,根据科技文献的增长及老化规律,对相关论文发文量进行年度统计分析能够揭示当前该领域的发展状况,预测其研究前景与发展趋势。在某一领域的研究初期,由于相关理论与基础较为缺乏,相关论文发文量较低,随着研究深入,进入该领域进行研究的学者、机构等增加,发文量增长较快,研究成熟后,发文量趋于稳定。通过对Web of Sci?ence中检索得到的849篇有关大数据研究的文献进行年代分布分析,统计得到表1所示结果。

表1Web of Science中大数据相关论文的年代分布表

发表年份

论文篇数

2008年以前

33

2008

16

2009

16

2010

13

2011

28

2012

249

2013

494

总计数

849前面提到大数据最贴切的概念是2008年提出,在下表中2008年之前相关论文发表仅为33篇。经过分析,这些论文中所提到的主要是“大数据集”“大数据组”“大的数据结构”等,主要体现在数据量大,但其数据量大小程度以及数据结构复杂程度远不及现在学术界所认同的大数据的概念。由图1可以看出2008年以后,尤其是2012年以来大数据研究越来越受重视,论文发表增长较快,成为当前研究热点。其中2012年Web of Science收录的论文中包含会议论文162篇,占到总论文数的65%以上,到2013年会议论文数约为170篇,说明大数据概念在学术会议和论坛中被广泛讨论与研究,且取得较多研究成果。2013年期刊论文数则约占当年论文总数的一半,说明大数据研究进入专业化、独立性的学科研究,成果较为丰硕。这种变化,不仅体现了

-

-149

学术界对大数据的重视,与各国政府对大数据的投入与重点发展也有关系,如2012年3月美国政府宣布“大数据的研究和发展计划”和我国设立大数据专项等。

图1Web of Science 中大数据相关论文的年代分布曲线

综合上述分析,大数据是当前的研究热点,未来两年将有更多研究成果,大数据有关的应用的研究也将更为深入。

3.2地域分布

研究论文的地域分布,能帮助研究人员认清当前在某一研究领域较为进步的国家和地区,从而帮助研究人员认识本国该领域在国际上所处的位置,找到标杆国家,从而进行更有效的学习研究。本文直接利用Web of Science 中的检索结果分析工具进行地域分布分析,整理汇总后得到表2和图2所示的结果。

表2Web of Science 中大数据相关论文的地域分布表

国家/地区

USA

PEOPLES R CHINA ENGLAND GERMANY CANADA AUSTRALIA NETHERLANDS JAPAN ITALY SPAIN

SOUTH KOREA SWITZERLAND FRANCE INDIA POLAND SINGAPORE TAIWAN ROMANIA 其他

记录数3631035241272626252222211716131211111031

占849的百分比

0.43%0.12%0.06%0.05%0.03%0.03%0.03%0.03%0.03%0.03%0.02%0.02%0.02%0.02%0.01%0.01%0.01%0.01%0.04%

图2Web of Science 中大数据相关论文的地域分布图

结果显示当前在大数据研究领域中,美国发文量为363篇,约占总数的43%,处于世界顶尖水平,是大数据研究的核心国家,这与美国本身的科研实力是分不开的。中国在这一领域中论文发表量居于第二位,但发文量不足美国的1/3,与美国差距还很大。英国和德国水平相当,但在当前大数据成为研究热点的条件下,各国发文量都将有很大提升。在以后的研究中,我国可以学习和借鉴美国在该领域中的研究方法和科研成果,提升自身大数据分析、处理与应用能力。同时,我国也应当充分了解

学习英国、德国、加拿大等国在大数据研究中的经验,集各家所长,从而综合提升自身大数据研究水平。

3.3学科领域分布

对文献进行学科领域分布分析,能有效把握研究内容的侧重点,发现核心研究内容。在对大数据相关论文进行学科分布研究时,本文结合Web of Science 中检索结果分析工具的研究方向和Web of

Science 类别这两项进行分析。文章选取了这两项中排名前十的结果,如表3、表4所示。

表3大数据相关论文的研究方向分布

研究方向COMPUTER SCIENCE ENGINEERING TELECOMMUNICATIONS SCIENCE TECHNOLOGY OTHER TOPICS BUSINESS ECONOMICS OPTICS INFORMATION SCIENCE LIBRARY SCI ?

ENCE PHYSICS BIOTECHNOLOGY APPLIED MICROBIOL ?

OGY

BIOCHEMISTRY MOLECULAR BIOLOGY 记录数4352306851473835252319占849的百分比

51.24%27.09%8.01%6.01%5.54%4.48%4.12%

2.95%2.71%

2.24%

表4大数据相关论文的Web of Science 类别分布

Web of Science 类别

ENGINEERING ELECTRICAL ELECTRONIC COMPUTER SCIENCE THEORY METHODS COMPUTER SCIENCE INFORMATION SYS ?TEMS

COMPUTER SCIENCE HARDWARE ARCHI ?TECTURE

COMPUTER SCIENCE SOFTWARE ENGI ?NEERING

COMPUTER SCIENCE ARTIFICIAL INTELLI ?GENCE

TELECOMMUNICATIONS

MULTIDISCIPLINARY SCIENCES OPTICS

COMPUTER SCIENCE INTERDISCIPLINARY APPLICATIONS

INFORMATION SCIENCE LIBRARY SCIENCE

记录数20819716612395806848383535

占849的百分比24.50%23.20%19.55%14.49%11.19%9.42%8.01%5.65%4.48%4.12%4.12%

通过对下表进行分析不难看出,大数据相关论

文的研究方向与论文所属Web of Science 类别基本吻合,主要集中在计算机科学、通信工程、

物理学光

·Summarization ·

INFORMATION SCIENCE

Vol.32,No.6June,2014

-

-150

学、情报学图书馆学、微生物应用技术等方面。结果表明,当前大数据在这些学科领域发展较快。研究的核心主要是计算机科学、情报学图书馆学,主要应用于通信、物理及生物等学科。大数据研究表现出显著的多学科性和学科融合特征。

3.4关键词词频统计和共现分析

关键词是论文研究内容的高度提炼。通过对论文的关键词词频进行统计和共现分析,能有效得出当前该领域的研究热点。大数据作为新兴概念,把握大数据研究热点和发展前沿,对进行相关研究有着重要的指导意义。本文选用陈超美博士开发的可视化软件Citespace 构建关键词聚类知识图谱。时间跨度选择2008年到2013年。如图3所示,按中心度排序前十的关键词及其中心度值与出现频次如下:big data (0.37,194)、future (0.35,7)、sys ?tems (0.27,18)、education (0.2,7)、cloud computing (0.19,43)、information society (0.18,3)、simulator (0.17,3)、water (0.16,3)、collaboration (0.14,4)、de ?sign (0.14,13)、framework (0.14,9)。这些中心度值

排名靠前的词与表5中所列的按词频排序的关键词并非完全相同,但这基本反映了大数据研究的热点内容。作为研究主题,“big data ”不论是中心度值排序还是关键词词频排序中都居首位。结合两种排序方法分析,“云计算”、“系统”、“协同”、“MapRe ?duce 模型”、“Hadoop 框架”和“模型”这几个关键词说明对大数据的研究主要以技术为主,还涉及到大数据的结构设计、绩效评估、可视化等。

图3关键词聚类知识图谱表5关键词词频统计

关键词big data mapreduce

cloud computing hadoop

performance systems visualization design networks model

词频

194474329201815131312

Citespace 通过文献之间的引证关系,发现研究

领域的发展与演进轨迹。由图4的研究前沿

Time-Zone 时区图可以看到大数据一词贯穿始终,在近几年中先后在“模型”与“云计算”、“绩效”、“系统”和“MapReduce ”与“Hadoop ”等方面分别有所侧

重。

图4研究前沿Time-Zone 时区图

3.5引文分析

文献之间的引用关系反应了文献在内容或主题上的相通之处,在很大程度上,能说明被引用文献的学术价值及其对其他学术研究的影响。因而,进行引文分析对确定权威文献具有重要意义。大数据作为一个较新概念,与上文研究相同,本文仍选择2008年作为起始点进行研究,以准确确定在大数据领域的核心和权威文献。在分析时,本文利用Web of Science 对检索结果创建的引文报告进行说明。图5反应了2008-2013年各年份的引文数,体现出大数据研究热度逐年上升的特点,与实际相符。表6则列举出大数据相关文献中被引频次前十位的文献。这十篇文献中有3篇是《Nature 》杂志2008年在“Big Data ”专刊中所发表的文章。被引频

次最高的文献《Big data:The future of biocuration 》

【7】

发表在《Nature 》中,文章提出大数据环境下生物文献数据结构化这一概念,旨在结合数据结构化实现生物学信息规范化,以便更好获取和利用这些数据及信息。被引频次排在第二位的文章是《A Critical Review

of the First 10Years of Candidate

Gene-by-Environment Interaction Research in Psychi ?

atry 》【8】,以精神病学的文献研究得出结论,指出在

“大数据小影响”时代,对开创性研究重新进行审视是必要的,这将有效指导相关后续研究。《Computa ?tional solutions to large-scale data management and

analysis 》【9】指出基因组学中的数据量以低成本快速

实时增长,大规模的多位数据需要采用先进的信息技术进行处理,该文章讨论了在不同的计算环境下,如云计算和异构计算等,如何成功解决大数据

的问题。引文分析只是从一个侧面反映文献的重要程度,而对新发表的有重要研究价值的文献不能及时有效地发掘出来,想要更细致地进行研究,

·综述·

情报科学

第32卷第6期2014年6月

-

-151

结合其他方法进行综合分析。

图52008-2013年各年份引文数

3.6主题分析

结合上文的分析结果,笔者又对大数据相关论文的内容进行了主题分析,主要从以下三个方面对大数据研究进行梳理:大数据基本理论研究、大数据存储与分析处理技术研究和大数据应用研究。

3.6.1大数据基本理论研究

国内外学者对大数据基本理论的研究主要集中在大数据的起源与发展、大数据基本概念、大数据的特征以及大数据的基本架构和现实意义及影响等。Demchenko Y,Grosso P,de Laat C等描述了大数据的本质、定义及其“5V”特征,并说明了不同科研团体对大数据管理、获取控制和安全的需求情况,重点描述了科学数据生命周期管理模型、科学数据结构如何被自然应用、使用基于非结构化的服务网络框架的现代云,并对涉及大数据主要的非结构化因素的问题提出建议【10】。Boyd D和Crawford K 从文化、技术、学术现象、数据分析等方面说明大数据这一概念出现所带来的影响和意义【11】。Zhang D 主要描述了大数据中知识内容的粒度和大数据分析应用的不一致性两个问题【12】。Tien J M将大数据描述为“不受束缚”的信息,概述了大数据时代的数据采集、数据存取、数据分析和数据应用的基本理论及其改进方法【13】。

3.6.2大数据存储与分析处理技术研究

作为新的研究热点,大数据的技术研究是建立在已有技术基础之上的,包括云计算、网格计算、

Hadoop、Mapreduce、数据挖掘聚类技术、社会化网络、分布式计算等。有关大数据存储与分析处理技术的研究性论文也是最多的,主要是对技术和算法的改进与创新等。Liu Ling对大数据处理的计算架构进行了综述,着眼于有关大数据的文档构建、存储和网络化带来的挑战,简要介绍了计算框架的出现和改善数据并行机制、任务并行机制以及提升纵向横向计算并行机制的技术【14】。本文则从以下技术层面对当前大数据的相关研究进行梳理。

(1)云计算。上文提及的技术中,与大数据联系最为紧密的技术就是云计算,这在前文的关键词分析中也有所体现。Ji C,Li Y,Qiu W等首先从云数据管理和大数据处理机制的视角,说明了大数据处理的关键问题,包括云计算平台、云构建、云数据库和数据存储机制,介绍了MapReduce并行处理架构,优化策略及应用,最后讨论了开放问题和挑战,深刻探究了在云计算环境下大数据处理的研究方向【15】。Zhang X,Liu C,Nepal S等提出基于云的大数据隐私保护的大规模低成本框架,利用基于云的MapReduce来操纵匿名数据并管理匿名数据集,从而改善数据加密和匿名两种方法在大数据时代不再完全适用的窘境【16】。Cui W,Liu N,Dong Y等提出基于云环境下大数据的聚类分析和数据分隔的创新型时序算法【17】。云计算技术是大数据技术的基础,将云计算与大数据有效结合,对大数据研究至关重要。

(2)Hadoop和MapReduce算法及其改进。Ha?doop是大数据处理常用的分布式系统基础架构,它

序号1

2 3 4 5 6 7 8 9 10

标题

Big data:The future of biocuration

A Critical Review of the First10Years of Candidate Gene-by-Environ?

ment Interaction Research in Psychiatry

Computational solutions to large-scale data management and analysis

Big data:How do your data grow?

Big data:Wikiomics

Electronics and telecommunications in Poland,issues and perspectives

Part III:Innovativeness,Applications,Economy,Development Scenarios,

Politics

The Pathologies of Big Data

From social data mining to forecasting socio-economic crises

Classification and Virtual Screening of Androgen Receptor Antagonists

Large-scale electrophysiology:Acquisition,compression,encryption,and

storage of big data

来源出版物

NATURE

AMERICAN JOURNAL OF PSYCHIA?

TRY NATURE REVIEWS GENETICS

NATURE

NATURE

Proceedings of SPIE

COMMUNICATIONS OF THE ACM

EUROPEAN PHYSICAL JOUR?

NAL-SPECIAL TOPICS

JOURNAL OF CHEMICAL INFORMA?

TION AND MODELING

JOURNAL OF NEUROSCIENCE

METHODS

发表时间

2008.09

2011.10

2010.09

2008.09

2008.09

2010.05

2009.08

2011.05

2010.05

2009.05

被引频次

110

104

82

33

31

17

17

16

15

15

表6

大数据相关文献中被引频次前十的文献

·Summarization·INFORMATION SCIENCE

Vol.32,No.6June,2014 -

-152

可靠且高效。MapReduce作为一种编程模型,主要用于大规模数据集并行运算。在大数据环境下,对

MapReduce和Hadoop进行改进较为常见,能有效提高数据处理效率的方法之一,通常与云计算紧密结合。Zhao H,Yang S,Chen Z等在MapReduce系统中提出一种公平调度算法,基于节点的单层多任务序列和数据局部性提出一种灵活任务调度策略【18】。Lee J W和Kim S K建立新的Hadoop模型以进行效能改善和并行处理【19】。He Y等在MapReduce系统中提出名为RCFile(记录圆柱形文件)的大数据分布结构,并将此系统应用到Facebook和Yahoo!的数据分析中【20】。研究结果表明,MapReduce和Ha?doop的使用及其改进能显著提高大数据环境下的数据处理的效率和效能,取得了良好的效果。

(3)数据挖掘聚类技术。在对大数据进行存储和分析时,时间消耗和系统开销是巨大的挑战,对大数据进行聚类将有效解决这一问题。Cui W,Liu N,Dong Y等基于云环境引进聚类以改进算法,根据不同节点间的传输成本将云节点划分为聚类,然后选择一个聚类进行大数据分析服务,实验结果证明了该时序算法的有效性【21】。Yan W等尝试通过使用并行PIC扩展PIC的数据规模,进行大数据并行能力迭代聚类,结果证明提出的p-PIC算法提升了数据和计算资源的规模【22】。Havens T C等提出扩展模糊C-均值聚类在大数据中的技术应用【23】。

(4)其他技术。除上述数据存储和分析处理技术外,还有将网格计算技术【24】、分类算法【25】等进行应用的方法;文献【26】汲取了R的机器学习和统计分析能力和Pig的并行数据处理能力,文献【27】构建了一个高效能和高可用性存档流系统,采用集成方法来进行数据库聚类和快速恢复数据流存档;文献【28】对新型分布式R编程语言进行扩展从而实现大规模共同存档统计。大数据技术的应用与改进不是单一的,而是对各种技术和方法的集成。通过技术融合,使各种大数据技术在数据存储、分析处理与应用的不同阶段协同发挥作用,最终实现大数据环境下的信息服务。

3.6.3大数据应用研究

大数据时代,数据和信息来源于生活的方方面面,从互联网、物联网到地理信息系统、遥感和数字城市等,大数据的应用也十分广泛。大数据应用于生物医药领域,例如对基因测序【29】、基因测试【30】进行研究,大数据环境下的医药案例研究【31】,肾脏学、肾脏疾病研究【32】,以及社会医疗保健【33】等;应用于社会网络方面进行智能手机日志挖掘【34】;采用GridFTP解决方案解决光谱学问题【35】;将大数据大科学的概念应用到生态科学领域【36】等。随着各国逐步将大数据提高到国家发展的战略高度,大数据的发展与应用将会有更广阔的空间。

4研究结论与展望

本文采用文献计量分析法、可视化分析法和内容分析法,对Web of Science中与大数据相关的论文进行分析得出以下结论:大数据作为当前研究的热点,已取得了丰硕的研究成果,且文献数量呈递增趋势,研究热度越来越高;美国在大数据研究上处于顶尖水平,是该领域的核心研究国家,中国、英国和德国等研究处于较高水平,但与美国差距较大;研究的核心主要是计算机科学、情报学图书馆、生物医药、通信及物理等学科,有较为明显的学科交融性;大数据获取与分析处理技术的研究不断深入,大数据与云计算、数据挖掘、社会网络等技术密不可分,对MapReduce框架和Hadoop模型的改进研究居多,显著提高了数据处理效率;大数据应用十分广泛,包括社会网络、生物医药、疾病研究及许多其他相关领域,随着技术的不断进步,大数据应用将涉及更多的领域。

然而,大数据研究还面临许多的问题和挑战,未来研究应主要围绕这些问题和挑战进一步展开。首先,海量数据的成倍增长给数据存储能力和存储结构带来巨大的考验。当前数据存储能力不能满足数据增长对存储的潜在需求,数据存储速度不及数据产生速度,海量半结构化和非结构化数据实时产生。为了应对这些问题,应设计专门的数据库和合理的分层存储架构,提升数据存储能力,优化存储结构。其次,数据流动速率加快,如何充分利用大数据的相关技术,将云计算、MapReduce、Ha?doop和数据挖掘等进行技术融合和优化集成,不断提升大数据时代的数据处理效率,实时跟踪处理数据,把握数据的时效性,有效利用数据价值是今后的研究重点。再次,大数据时代,数据量的迅猛增长和数据源的复杂多样等原因造成数据的价值密度降低、数据的真实性难以分辨,但从整体上讲,有价值的数据总量增加,对数据挖掘和利用是一个契机,甄选数据源,对数据的真实性、有效性和可用性进行合理判别,并不断优化算法是研究重点之一。最后,大数据时代,信息安全和隐私更是不容忽视,

·综述·情报科学

第32卷第6期2014年6月

-

-153

加强监管的同时,优化现有的数据加密措施,开发新的信息安全和保密技术刻不容缓。总之,大数据研究应在现有基础上,不断深入,迎接更多更大的挑战。

参考文献

1Nature.Big Data[EB/OL].https://www.360docs.net/doc/b814953407.html,/ news/specials/bigdata/index.html,2014-01-02.

2Beyer M A,Laney D.The Importance of‘Big Data’:A Definition[EB/OL].https://https://www.360docs.net/doc/b814953407.html,/doc/2057 415/importance-big-data-definition,2014-01-02. 3孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,(1):146-169.

4Laney D.3D data management:Controlling data vol?ume,velocity and variety[EB/OL].http://blogs.gartner. com/doug-laney/files/2012/01/ad949-3D-Data-Man?agement-Controlling-Data-Volume-Velocity-and-Variety.pdf,2014-01-02.

5Beyer M.Gartner says solving‘big data’challenge in?volves more than just managing volumes of data[EB/ OL].https://www.360docs.net/doc/b814953407.html,/newsroom/id/1731916,2014-01-02.

6陈超美,陈悦,侯剑华,等.CiteSpace II:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,28(3): 401-421.

7Howe D,Costanzo M,Fey P,et al.Big data:The future of biocuration[J].Nature,2008,455(7209):47-50. 8Duncan L E,Keller M C.A critical review of the first 10years of candidate gene-by-environment interac?tion research in psychiatry[J].American Journal of Psychiatry,2011,168(10):1041-1049.

9Schadt E E,Linderman M D,Sorenson J,et https://www.360docs.net/doc/b814953407.html,pu?tational solutions to large-scale data management and analysis[J].Nature Reviews Genetics,2010,11(9): 647-657.

10Demchenko Y,Grosso P,de Laat C,et al.Addressing big da?ta issues in Scientific Data Infrastructure[C]//Collaboration Technologies and Systems(CTS),2013International Confer?ence on,UK:IEEE,2013:48-55.

11Boyd D,Crawford K.Critical questions for big data:Provoca?tions for a cultural,technological,and scholarly phenomenon [J].Information,Communication&Society,2012,15(5): 662-679.

12Zhang D.Granularities and inconsistencies in big data analysis [J].International Journal of Software Engineering and Knowledge Engineering,2013,23(6):887-893.

13Tien J M.Big data:Unleashing information[J].Journal of Sys?tems Science and Systems Engineering,2013,22(2):127-151.14Liu https://www.360docs.net/doc/b814953407.html,puting infrastructure for big data processing [J].Frontiers of Computer Science,2013,7(2):165-170. 15Ji C,Li Y,Qiu W,et al.Big data processing in cloud comput?ing environments[C]//Pervasive Systems,Algorithms and Networks(ISPAN),201212th International Symposium on. IEEE,2012:17-23.

16Zhang X,Liu C,Nepal S,et al.SaC‐FRAPP:a scalable and cost‐effective framework for privacy preservation over big data on cloud[J].Concurrency and Computation:Practice and Experience,2013,25(18):2561-2576.

17Cui W,Liu N,Dong Y,et al.A Novel Scheduling Algorithm based on Clustering Analysis and Data Partitioning For Big Data[C]//International Conference on Computer,Networks and Communication Engineering(ICCNCE2013),Paris:At?lantis Press,2013.

18Zhao H,Yang S,Chen Z,et al.K%-Fair scheduling:A flexi?ble task scheduling strategy for balancing fairness and effi?ciency in MapReduce systems[C]//Computer Science and Network Technology(ICCSNT),20122nd International Con?ference on,UK:IEEE,2012:629-633.

19Lee J W,Kim S K.Study for performance improvement of parallel process according to analysis of Hadoop[C]//Informa?tion Science and Service Science and Data Mining(ISSDM), 20126th International Conference on New Trends in.IEEE, 2012:325-329.

20He Y,Lee R,Huai Y,et al.RCFile:A fast and space-effi?cient data placement structure in MapReduce-based ware?house systems[C]//Data Engineering(ICDE),2011IEEE27th International Conference on,USA:IEEE,2011:1199-1208. 21Cui W,Liu N,Dong Y,et al.A Novel Scheduling Algorithm based on Clustering Analysis and Data Partitioning For Big Data[C]//International Conference on Computer,Networks and Communication Engineering(ICCNCE2013),Paris:At?lantis Press,2013.

22Yan W,Brahmakshatriya U,Xue Y,et al.p-PIC:Parallel power iteration clustering for big data[J].Journal of Parallel and Distributed Computing,2013,73(3):352-359.

23Havens T C,Bezdek J C,Leckie C,et al.Fuzzy c-means al?gorithms for very large data[J].Fuzzy Systems,IEEE Trans?actions on,2012,20(6):1130-1146.

24Garlasu D,Sandulescu V,Halcu I,et al.A big data imple?mentation based on Grid computing[C]//Roedunet Interna?tional Conference(RoEduNet),201311th,UK:IEEE,2013: 1-4.

25Kwon O,Sim J M.Effects of data set features on the perfor?mances of classification algorithms[J].Expert Systems with Applications,2013,40(5):1847-1857.

26Wang M X,Handurukande S B,Nassar M.RPig:A scalable framework for machine learning and advanced statistical

·Summarization·INFORMATION SCIENCE

Vol.32,No.6June,2014 -

-154

functionalities[C]//Cloud Computing Technology and Sci?ence(CloudCom),2012IEEE4th International Conference on,USA:IEEE,2012:293-300.

27Miao J J,Chen G Y,Du K,et al.High Performance and High Availability Archived Stream System for Big Data[J].Ap?plied Mechanics and Materials,2013,(263):2792-2795. 28Schmidt D,Ostrouchov G,Chen W C,et al.Tight Coupling of R and Distributed Linear Algebra for High-Level Pro?gramming with Big Data[C]//High Performance Computing, Networking,Storage and Analysis(SCC),2012SC Compan?ion,US:IEEE,2012:811-815.

29Veltman J A,Cuppen E,Vrijenhoek T.Challenges for imple?menting next-generation sequencing-based genome diagnos?tics:it's also the people,not just the machines[J].Personal?ized Medicine,2013,10(5):473-484.

30Fan J,Liu H.Statistical analysis of big data on pharmacoge?nomics[J].Advanced drug delivery reviews,2013,65(7): 987-1000.

31Simpson S E,Madigan D,Zorych I,et al.Multiple Self‐Con?

trolled Case Series for Large‐Scale Longitudinal Observa?tional Databases[J].Biometrics,2013,69(4):893-902. 32Ketchersid T.Big Data in Nephrology:Friend or Foe[J]. Blood Purification,2013,36(3-4):160-164.

33Flores M,Glusman G,Brogaard K,et al.P4medicine:how systems medicine will transform the healthcare sector and so?ciety[J].Personalized Medicine,2013,10(6):565-576. 34Slingsby A,Beecham R,Wood J.Visual analysis of social networks in space and time using smartphone logs[J].Perva?sive and Mobile Computing,2013,9(6):848-864.

35Narayanan S,Madden T J,Sandy A R,et al.GridFTP based real-time data movement architecture for x-ray photon cor?relation spectroscopy at the Advanced Photon Source[C]// E-Science(e-Science),2012IEEE8th International Confer?ence on,US:IEEE,2012:1-8.

36Hampton S E,Strasser C A,Tewksbury J J,et al.Big data and the future of ecology[J].Frontiers in Ecology and the En?vironment,2013,11(3):156-162.

(上接第142页)

https://www.360docs.net/doc/b814953407.html,/documents/dcmi-terms/,2014-04-21.

5Bojars U,Breslin J.SIOC Core Ontology Specification [EB/OL].https://www.360docs.net/doc/b814953407.html,/sioc/spec/,2014-04-20.

6Bricklev D,Miller L.FOAF Vocabulary Specification [EB/OL].https://www.360docs.net/doc/b814953407.html,/foaf/spec/,2014-04-22. 7Bojars U,Passant A,Cyganiak R,et al.Weaving SIOC into the Web of Linked Data[C]//In:Proceedings of the2008WWW Linked Data on the Web Workshop, 2008-04-22.

8Hepp M.Goodrelations:An ontology for describing products and services offers on the web[M].Berlin: Springer,2008:329-346.

9Kobilarov G,Scott T,Raimond Y,et al.Media meets se?mantic web–how the bbc uses dbpedia and linked da?ta to make connections[M].Berlin:Springer,2009: 723-737.

10Bollacker K,Evans C,Paritosh P,et al.Freebase:a collabor?atively created graph database for structuring human knowl?

edge[C]//In:Proceedings of the2008ACM SIGMOD interna?tional conference on Management of data,2008:1247-1250. 11Hassanzadeh O,Consens M.Linked Movie Data Base[C]//In: Proceedings of the2009WWW Linked Data on the Web Workshop,2009.

12Auer S,Lehmann J,Hellmann S.Linkedgeodata:Adding a spatial dimension to the web of data[M].Berlin:Springer, 2009:731-746.

13Bizer C,Schultz A.The R2R framework:Publishing and dis?covering mappings on the Web[C]//In:Proceedings of the First International Workshop on Consuming Linked Data (COLD2010),2010.

14James Clark,Steve DeRose.XML Path Language[EB/OL]. https://www.360docs.net/doc/b814953407.html,/TR/xpath/,2014-04-22.

15Bizer C,Schultz A.The R2R Framework[EB/OL].http://www4. wiwiss.fu-berlin.de/bizer/r2r/spec/,2014-04-20.

16Tom Heath,Christian Bizer.Linked Data:Evolving the Web into a Global Data Space[EB/OL].https://www.360docs.net/doc/b814953407.html,/ book,2014-04-21.

(责任编辑:赵红颖)

(责任编辑:赵红颖)

·综述·情报科学

第32卷第6期2014年6月

-

-155

文献综述参考范文

论《飘》中的现实主义 文献综述 引言 在20世纪的英美文学中,最具轰动效应的,莫过于美国女作家玛格丽特·米切尔(Margaret Mitchell,1900—1949)的长篇小说《飘》。该书自1936年问世以来,历经半个多世纪的考验,依然盛销不衰。小说以美国南北内战为背景,以战争的发展为线索,主要描写了女主人公斯嘉丽与维希礼和巴特勒之间的纠葛和恩怨。小说整体上是以女主人公斯嘉丽的爱情史为中心,虚写战争,实写战争对人类心灵的影响。此外,小说里还表现了对十九世纪中期美国南北文化的差异和矛盾,既是对当时南北战争中美国人的生活的生动刻画,也表现了当时战争中美国人勇敢和执着的精神。它是一部浪漫主义与现实主义创作手法相结合的优秀作品。尽管美国文坛一直有意贬低《飘》的文学价值,但它虽然未能进入文学经典的殿堂,却走进了千百万读者的心中。 一、国内对《飘》的相关评论 相对于西方而言,我国在《飘》的研究方面起步较晚,长期存在着接受与研究的严重脱节。即使是近年来这部小说获得越来越多的肯定评价,并正式进入文学史(以毛信德的《美国小说史纲》和王长荣的《现代美国小说》为代表),但对《飘》的研究也还是流于表面和简单。仅以中译本的序言水平就可见一斑:1990 年中国刮起了重译《飘》的旋风,一时出现沪本、京本、浙本三个版本的热闹场面,却没有一个本子的序言水平超过几十年前傅东华的译序。 《飘》作为一部富有争议的小说,吸引了许多文学工作者的目光。目前已有不少人从不同角度对《飘》进行了分析和欣赏。 张玉霞在《美国通俗小说经典〈飘〉研究综论》一文中认为,要对《飘》的持久魅力作出合理阐释,在整体的历史、文化的广阔视野关照下,必须回到细致的文本研究中去。张玉霞介绍了两个路径:1、把《飘》置于通俗文学发展进程中考察。从文类所属来看,它是历史小说与浪漫言情故事两个类型的交叉。偏重于形式要素的分析,得出的结论在于——优秀通俗小说的特征是“模式与模式突破”,即在内容和形式层面都具有承继、超越的双重性。而通俗小说的创作及接受两方面都受之影响。可以运用小说叙事学的研究方法进行具体的文本分析,并结合通俗小说类型研究来深入剖析《飘》的叙事结构特点。2、从创作流派及本土背景考察作为南方文学的《飘》,在解构与重建南方文化方面所具有的深刻内涵。 张淑英在《〈飘〉的流行与寂寞》一文中提到美国小说《飘》之所以能广泛流传的原因:一是艺术上的极高造诣,二是电影的推波助澜。然而,与小说的畅销和电影的火爆形成鲜明对照的是,一些文学史或文学手册中有关它的评论极少。很多人认为它是一部政治上反动的作品,这主要表现在小说对奴隶主和奴隶的阶级地位的描写,以及对南北战争有仇视情绪。 在王长荣的《现代美国小说史》中提到,《飘》是一部浪漫主义与现实主义创作手法相结合的优秀作品。他认为在人物塑造上,《飘》运用了浪漫主义的创作手法,女主人公斯嘉丽实际上成了表现南方神话的理想人物。从客观上讲,米切尔美化了正在崩溃的南方庄园经济,表现出对农奴主的同情。另一方面,在处理时代背景和人物对话时,米切尔却运用了现实主义的手法,使人读起《飘》来感到真切动人。

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

毕业论文文献综述范例

宁波大学本科毕业设计(论文) 文献综述 题目论“法律关系本座说”对国际私法的影响指导教师尹力 学院法学院专业法学班级法学072班 学生姓名徐元媛学号074050428 开题日期2010年12月10日要求:一、说明材料来源情况;二、对课题的研究历史、研究现状等进行准确的分析与归纳并作出简要评述;三、表达自己的观点与主张,阐述该课题的发展动向和趋势;四、字数要求不少于3000字,可另附纸。 文献综述正文: 见附页 指导教师签字 年月日

附页: 关于“法律关系本座说”对国际私法的影响的文献综述论文题目:论“法律关系本座说”对国际私法的影响 法学072班 074050428 徐元媛 作为国际私法经典学说之一的“法律关系本座说”,一直备受研究者的关注而形成了诸多研究成果,它们或以学术专著为载体,或以学术论文的面目示人,主要围绕以下一些方面的问题展开讨论。 一、关于“法律关系本座说”的成因 萨维尼从根本上颠覆了冲突法主题的关注方式,而被公认为是冲突法世界的“哥白尼”。在实体法与超越实体法之间,萨维尼的独特身份、优雅节制的精神操守、先人的历史储备以及法律关系的格致工夫,这一切的风云际合为萨维尼奠定了重估一切价值所必不可少的历史机缘。因了这份缘分,冲突法革命在萨维尼的身上灿烂生发。①萨维尼对法律冲突问题进行了重估一切价值的尝试,因而最终产生了“法律关系本座说”这一据说是他“其他著作都比不上的最高影响”的理论成果。②关于“法律关系本座说”的成因,现有文献主要是从社会背景和哲学渊源两个方面进行了分析。 (一)社会背景 在18世纪末期,德意志仍然处于资本主义手工业的初级阶段,资本主义关系的发展非常微弱和缓慢。整个德意志处于封建农奴制和封建分裂割据局面。在德意志各邦国中,对历史发展具有重大影响的是普鲁士王国,也就是萨维尼的祖国。在普鲁士王国的发展过程中,“容克”始终是中坚力量,是这个国家的统治阶级。市民阶级在普鲁士的力量非常微弱。因此,从王权集中这个意义上讲,普鲁士君主专制要比西欧强得多。这里始终也没有出现像“三级议会”、“国会”这种王权与资产阶级联盟的机构。因此,普鲁士资本主义因素相当薄弱。在政治上,普鲁士王国是几次反法联盟的中坚力量。由此,招致拿破仑沉重的军事打击和异族的政治统治。法国大革命和拿破仑战争,是德意志民族觉醒的警钟,法国大革命提供了民族团结的范例,宣告了各民族的自由、平等,拿破仑在德意志以“革命者”的身份出现,同时又充当了贪得无厌的掠夺者。这就从正反两方面启动了德意志的民族意识和民族主义运动。从1800年起,德意志掀起了猛烈的民族运动。尽管这个时期民族主义是保守主义和自由主义的结合,但目标是一致的:要求民族团结,反对民族压迫,恢复德意志的独立性。 正是在这样的时代背景下,出现了一位法学宗师萨维尼,也产生了这位法学家伟大的法学思想。③(二)哲学渊源 ①张春良:《重估一切价值的尝试:萨维尼冲突法革命发生学之究竟》,《贵州大学学报(社会科学版)》2009第6期。 ②杜涛:《德国国际私法:理论、方法和立法的变迁》,法律出版社2006年版,第183页。

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

文献综述 英文

文献综述 大学生时间管理研究——以郑州大学西亚斯国际学院为例 姓名:代永寒学号:20091211205 专业:工商管理班级:工本2班 史蒂芬?柯维的《要事第一》 “要事第一”,顾名思义是指重要的主要的事情要放在第一时间去完成。而在实际工作中我们往往是将认为急迫的紧要的事情放在第一时间完成; 本书通过四个象限来告诉我们如何区分事情的紧急性与重要性,从而告诉我们在平常的工作中应怎样去区分事情属轻属重,以及造成事情紧急性的原因,在平常工作中要注意哪些方面以避免出现紧急事件的情况。 第一象限包括四点:A危机 B 急迫的问题C最后期限迫近的项目 D 会议准备工作等。第一象限显得紧迫与重要,但我们要知道形成第一象限的紧迫与重要主要是因被延误及没有进行计划与预测及计划所致。第二象限包含准备工作、预防、价值、筹划、建立关系、真正的再创造与赋予能力。第二象限属于质量象限,属于重要但不紧迫的事情,但我们必须要去做,因只有这样才能避免出现第一象限包含的情况。第三象限包含干扰、电话;邮件、报告;某些会议;很多临近、急迫的事情及很多流行的活动。第三象限包括“紧急但不重要的事情”,而事实上它易给人造成假象,从而形成第一象限情况。第四象限包含琐事、打发时间的工作、某些电话,解闷,“逃避”行为、无关紧要的邮件及过多地看电视;第四象限属于既不紧急也不重要的事情,它是浪费象限,第四象限中的行为是堕落行为。这四个象限告诉我们如果在办事过程中不是以重要性而是以紧要性为出发点,就会出现第一第三甚至第四象限的情况,在平常的工作中,我们要加以区分,日常工作生活中往往事情越是紧迫,反而说明事情越不重要!像最近存货系统因急着想能早日上线,在运作过程中被卡住,故一心想着去解决软件中存在的问题,而忽略了与其他人员的沟通协调,存货上软件固然重要,但与公司整体运作相比就稍显其次,没合理分配其他人员手头事项,这样会导致其他问题的增多,从而会出现第一第三象限甚至于第四象限的浪费情况。 “要事第一”,告诉我们在日常的工作与生活中要从以下方面着手加以区分、

毕业论文文献综述的写法(教科院)

关于毕业论文(设计)文献综述的写作要求 为了进一步强化学生搜集文献资料的能力,熟悉专业文献资料查找和资料积累方法,提高对文献资料的归纳、分析、综合运用能力,提高独立工作能力和科研能力,并为科研活动奠定扎实的基础,学生毕业论文(设计)教学中实施文献综述写作制度。为了进一步规范文献综述的写作,现将文献综述写作要求明确如下: 一、撰写文献综述的基本要求 文献综述是针对某一研究领域或专题搜集大量文献资料的基础上,就国内外在该领域或专题的主要研究成果、最新进展、研究动态、前沿问题等进行综合分析而写成的、能比较全面的反映相关领域或专题历史背景、前人工作、争论焦点、研究现状和发展前景等内容的综述性文章。“综”是要求对文献资料进行综合分析、归纳整理,使材料更精练明确、更有逻辑层次;“述”就是要求对综合整理后的文献进行比较专门的、全面的、深入的、系统的评述。 二、文献综述的格式 文献综述主要用以介绍与主题有关的详细资料、动态、进展、展望以及对以上方面的评述。一般都包含以下四部分:即前言、主题、总结和参考文献。撰写文献综述时可按这四部分拟写提纲,再根据提纲进行撰写工作。 前言部分,主要是说明写作的目的,介绍有关的概念及定义以及综述的范围,扼要说明有关主题的现状或争论焦点,使读者对全文要叙述的问题有一个初步的轮廓。 主题部分,是综述的主体,其写法多样,没有固定的格式。可按年代顺序综述,也可按不同的问题进行综述,还可按不同的观点进行比较综述,不管用那一种格式综述,都要将所搜集到的文献资料归纳、整理及分析比较,阐明有关主题的历史背景、现状和发展方向,以及对这些问题的评述,主题部分应特别注意代表性强、具有科学性和创造性的文献引用和评述。 总结部分,将全文主题进行扼要总结,提出自己的见解并对进一步的发展方向做出预测。 参考文献,因为它不仅表示对被引用文献作者的尊重及引用文献的依据,而且也为评审者审查提供查找线索。参考文献的编排应条目清楚,查找方便,内容准确无误。关于参考文献的使用方法,录著项目及格式与毕业论文相同,不再重复。

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

大数据外文翻译参考文献综述

大数据外文翻译参考文献综述 (文档含中英文对照即英文原文和中文翻译) 原文: Data Mining and Data Publishing Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party

running the algorithm. In contrast, privacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is immunized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy. Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive information of individuals cannot be identified easily. Anonymity Models, k-anonymization techniques have been the focus of intense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information

如何写论文的文献综述

如何写论文的文献综述 一、综述的定义和特点 综述是查阅了某一专题在一段时期内的相当数量的文献资料,经过分析研究,选取有关情报信息,进行归纳整理,作出综合性描述的文章。 综述的特点: ①综合性:综述要"纵横交错",既要以某一专题的发展为纵线,反映当前课题的进展;又要从本单位、省内、国内到国外,进行横的比较。只有如此,文章才会占有大量素材,经过综合分析、归纳整理、消化鉴别,使材料更精练、更明确、更有层次和更有逻辑,进而把握本专题发展规律和预测发展趋势。 ②评述性:是指比较专门地、全面地、深入地、系统地论述某一方面的问题,对所综述的内容进行综合、分析、评价,反映作者的观点和见解,并与综述的内容构成整体。一般来说,综述应有作者的观点,否则就不成为综述,而是手册或讲座了。 ③先进性:综述不是写学科发展的历史,而是要搜集最新资料,获取最新内容,将最新的信息和科研动向及时传递给读者。 综述不应是材料的罗列,而是对亲自阅读和收集的材料,加以归纳、总结,做出评论和估价。并由提供的文献资料引出重要结论。一篇好的综述,应当是既有观点,又有事实,有骨又有肉的好文章。由于综述是三次文献,不同于原始论文(一次文献),所以在引用材料方面,也可包括作者自己的实验结果、未发表或待发表的新成果。 综述的内容和形式灵活多样,无严格的规定,篇幅大小不一,大的可以是几十万字甚至上百万字的专著,参考文献可数百篇乃至数千篇;小的可仅有千余字,参考文献数篇。一般医学期刊登载的多为3000~4000字,引文15~20篇,一般不超过20篇,外文参考文献不应少于1/3。 二、综述的内容要求 选题要新:即所综述的选题必须是近期该刊未曾刊载过的。一片综述文章,若与已发表的综述文章"撞车",即选题与内容基本一致,同一种期刊是不可能刊用的。 说理要明:说理必须占有充分的资料,处处以事实为依据,决不能异想天开地臆造数据和诊断,

大数据云计算文献综述

大数据云计算文献综述 一个大数据的调查 摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。 关键字大数据云计算物联网数据中心Hadoop 智能电网大数据分析 1、背景 1.1大数据时代的曙光 在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。 目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下: 图一、持续增长的数据 信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。 云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。

毕业论文文献综述的格式

毕业论文文献综述的格式 关于《毕业论文文献综述的格式》,是我们特意为大家整理的,希望对大家有所帮助。 一、文献综述概述 文献综述是研究者在其提前阅读过某一主题的文献后,经过理解、整理、融会贯通,综合分析和评价而组成的一种不同于研究论文的文体。综述的目的是反映某一课题的新水平、新动态、新技术和新发现。从其历史到现状,存在问题以及发展趋势等,都要进行全面的介绍和评论。在此基础上提出自己的见解,预测技术的发展趋势,为选题和开题奠定良好的基础。 好的文献综述,不但可以为下一步的学位论文写作奠定一个

坚实的理论基础和提供某种延伸的契机,而且能表明写作者对既有研究文献的归纳分析和梳理整合的综合能力,从而有助于提高对学位论文水平的总体评价。 二、文献综述的格式 文献综述的格式与一般研究性论文的格式有所不同。这是因为研究性的论文注重研究的方法和结果,而文献综述介绍与主题有关的详细资料、动态、进展、展望以及对以上方面的评述。因此文献综述的格式相对多样,但总的来说,一般都包含以下四部分:即前言、主题、总结和参考文献。撰写文献综述时可按这四部分拟写提纲,再根据提纲进行撰写工作。 前言部分,主要是说明写作的目的,介绍有关的概念及定义以及综述的范围,扼要说明有关主题的现状或争论焦点,使读者对全文要叙述的问题有一个初步的轮廓。 主题部分,是综述的主体,其写法多样,没有固定的格式。

可按年代顺序综述,也可按不同的问题进行综述,还可按不同的观点进行比较综述,不管用那一种格式综述,都要将所搜集到的文献资料归纳、整理及分析比较,阐明有关主题的历史背景、现状和发展方向,以及对这些问题的评述,主题部分应特别注意代表性强、具有科学性和创造性的文献引用和评述。 总结部分,与研究性论文的小结有些类似,将全文主题进行扼要总结,提出自己的见解并对进一步的发展方向做出预测。 参考文献,因为它不仅表示对被引用文献作者的尊重及引用文献的依据,而且也为评审者审查提供查找线索。参考文献的编排应条目清楚,查找方便,内容准确无误。关于参考文献的使用方法,录著项目及格式与研究论文相同,不再重复。 三、文献综述规定 1. 为了使选题报告有较充分的依据,要求硕士研究生在论文开题之前作文献综述。

毕业论文文献综述《论当下网络小说创作》

毕业论文文献综述 题目: 论当下网络小说创作 专业:汉语言文学 一、前言部分(说明写作的目的,介绍有关概念, 扼要说明有关主题争论焦点) (正文:字体:楷体,小三号字,行距1.5倍) 网络文学作为近几年兴起的新生事物,引起了一股新的风潮,越来越多的人,开始关注着一领域。各大原创文学网站如雨后春笋般纷纷出现,大量的网络写手涌入这一领域,以及读者群随之出现并逐渐庞大起来。笔者想要通过对这些年来网络文学发展,简单分析当前网络文学创作的现状,以及网络小说在网络文学中的地位及创作概况,并结合具体的网络小说范例重点分析其主题、人物形象及小说情节的设计,以及语言的特征。同时,研究网络小说盛行的原因。 网络文学的研究首先围绕着“网络文学”概念内涵的界定。有人将网络文学视作文学的一个新种类,也有人将它当做一种文学现象。【1】所谓网络文学,就是以网络为载体而发表的文学作品。但是一般认为,网络文学包括印刷类文学的网络化(广义的网络文学);二:是网络原创文学(狭义的网络文学)。而网络原创文学中,又包括在网络上的文学创作,以及充分运用超文本链接及交互等网络技术进行的多媒体写作。【2】但是事实上,到

现在网络文学本身并没有一个明确的界限。 由于网络文学是新生事物,因而存在着不少的问题。就像网络文学与传统文学的碰撞,由于双方媒介载体不同;文本形式不同;创作主体不同;创作模式不同;传播方式不同;价值功能不同等,引来了多方面的争论。它们主要表现为, 文学从“载道经国”走向“孤独的狂欢”,文学从“反映生活”走向“闲适自足”,价值取向上由艺术真实走向虚拟现实变迁。【3】 更多的人认为目前的网民在文学素质上有所欠缺,这就决定了网上文学是“快餐文化的一部分,不能久存。”作家莫言将网络文学的无序与低俗的状态比作“乱写大字报”,作者言所欲言,风格内容上肆无忌惮,毁掉读者的胃口。桑地说,网络文学其实就是“聊天文学”,网虫对现实生活的厌倦,依恋于那种虛拟世界,其作品比“垮掉的一代”还要让人沉沦,实在看不出这些网络文学究竟好在哪里。【4】汤小俊称“网络文学史芦苇文学”,它“头重”——自我标榜太过分了:“脚轻”——没有一个明确定义和范畴,“就像一只筐,每个人都按自己的理解往里面扔东西。”【5】 然而,也有一部分作家对网络文学持肯定态度。资深作家陈村用“前途无量”四个字来描述网络文学的前景,同时陈村也为网络空间的文学生态进行了辩护:“文学的全部的意义并不仅仅在于它有高峰。许许多多的人在文学中积极参与并有所获得,难道不是又一层十分伟大的意义吗?”著名网络文学的评论家吴过

大数据时代 文献综述

智慧时代下大数据技术在教育 领域的应用研究综述 姓名:李欢欢学号:2012221111120004 一、前言 大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。 二、大数据技术在教育领域的应用现状分析 1 大数据定义与特征 大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。 大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即V olume(大容量),海量数据,规模庞大,已跃升到PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。 2 国内研究现状 对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。 大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早

文学类2015毕业论文设计文献综述模版

浙江财经大学东方学院 毕业论文(或毕业设计) 文献综述 近年余华、莫言小说“残酷叙述”研究文献综述(黑体,小二,居中,不设副标题) 学生姓名XXX (宋体四号)指导教师陆芸 分院人文与艺术分院专业名称汉语言文学 班级10文学1 学号1020900121

2014年12月20日(黑体四号居中)

近年余华、莫言小说“残酷叙述”研究综述(黑体三号居中同。 必须与封面题目完全一致。) 摘要:同为自20世纪80年代开始广受关注的作家,余华和莫言的小说创作有着不尽相同的“残酷叙述”特征。对这类特征的研究,2000年以来渐成评论界关注的重点。对余华“残酷叙述”的研究可分为三类:叙述的表象和特点、叙述的形成原因,以及叙述的内涵意蕴;对莫言作品“残酷叙述”的研究,则主要从具体作品的叙述研究,和叙述的意义两方面入手;而将二者的“残酷叙述”加以比较的研究,目前尚且少见,但也已呈现出由表及里的深入发展趋势。 关键词:余华;莫言;残酷叙述;比较;综述 一、引言(一级标题,黑体三号居中,下同) “残酷叙述”是指一种以暴力、血腥、死亡为主要载体,表达作家对现实人生独特思考的叙述方式。这一概念本身尚未得到明确界定,但在当代中国文坛已然得到许多作家的实践。余华和莫言的部分中、长篇小说可称为其中的杰出代表。对于这种另类的创作方式,评论界给予了一定的重视,特别是余华在80年代中后期的创作,早已成为研究的热点。相对而言,对莫言作品的研究在这方面还有待深入。而将二者加以对照的分析探讨,无疑还需要更多的努力。(正文文字,

宋体小四,1.5倍行间距) 二、余华小说“残酷叙述”相关研究 (一)叙述的表征(二级标题,黑体四号居左缩进二格,下同) 从1986年的《十八岁出门远行》开始,余华这一时期的小说创作像是在有意进行“残酷”的展览:《现实一种》、《河边的错误》、《死亡叙述》、《古典爱情》等等,无不充斥着大量的暴力、血腥和死亡,挑战人们的阅读习惯,也驱使评论者们纷纷进行探讨、分析。 姚温丽《另类的血腥、暴力和死亡——读余华80年代中后期作品有感》从三方面解读了余华作品的艺术手法:极度冷静的客观描写,荒诞而引人深思的“表演手法”,以及“身体叙事”的写法。认为余华“让笔下的人物走向死亡,实际上是走向生命,是向死而生。”①分析较为客观、全面,但并未深入。 抓住余华小说中的“死亡意象”,叶淑媛《论余华先锋小说的死亡意象——兼及先锋小说的意象化及影响》进行了更细致的分析:死亡意象的确立在于反复描写暴力、血腥和死;其意蕴丰富,是“自然人向社会人转化的入会礼”②、“死亡本能的外化”,是一种象征存在虚无的终极指归。 也有论者将余华早期小说中的“暴力”进行细分。如千利江《论余华早期“暴力”小说的两种向度》在作品细读中得出结论:《现实一种》属于“单纯的暴力堆砌”,是出于“骨子里的喜欢”而没有真实可信的基础;《一九八六年》的情节①姚温丽:“另类的血腥、暴力和死亡——读余华80年代中后期作品有感”,《青年文学家》,2009年第16 期。 ②叶淑媛:“论余华先锋小说的死亡意象——兼及先锋小说的意象化及影响”,《玉林师范学院院报》,2010 年第31卷第4期。

大数据的经济学研究文献综述

大数据的经济学研究文献综述 摘要: 本文从大数据背景下的经济学研究出发,分析了大数据背景下对传统经济学所带来的冲击和挑战,以及大数据在经济学中的应用。大数据的应用给传统经济学带来了全新的方法,更重要的是,大数据给传统经济学带了全新的视角。 【关键词】大数据;大数据经济学;传统经济学;挑战 Abstract This article analyzed the big data which bring a big impact and challenges on the traditional economics under the background of big data, as well as the big data applications in economics. Big data’s applications has brought a new approach to traditional economics, more importantly, big data has brought a new perspective of traditional economics. 【Key words】big data; big data economics; traditional economics; challenges 1国外关于大数据经济学问题的探讨现状 对于大数据的概念,企业和学术界目前尚未形成公认的准确定义。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。Dumbill ( 2012)采用IBM 公司的观点,认为大数据具有“3V”特点,即规模性( Volume ) 、多样( Variety ) 、实时性( Velocity) 。以IDC 为代表的业界认为大数据具备“4V”特点,即在3V 的基础上增加价值性( Value) 。权威IT 研究与顾问咨询公司Gartner将大数据定义为“在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题。美国国家科学基金会( NSF) 则将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。 维克托(2013)赞同许多物理学家的看法,认为世界的本质就是数据。因此,大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。

论文:文献综述

摘要 《生死场》是民国作家萧红的代表作品,描写了九一八事变前后,哈尔滨近郊的一个偏僻村庄发生的恩怨以及村民抗日的故事,表现了底层人物的悲惨生活和反抗日本侵略的心声。作品中对于女性悲剧的细致观察和描写十分突出,与几千年来的传统文化、当时的社会背景有着紧密的联系,同时也渗透着她本人的情感经历。作者的亲身经历以及所见所闻所感都表现在此书中。本论文主要探究其中对于女性悲剧的描写的段落,展现那个时代的悲剧画面。 关键词:卑微的爱情;低贱的地位;传统文化的遗毒;残酷的现实

Abstract " Life and Death "is the Republican representative works writer Xiao Hong, before describing the Mukden Incident, scores a remote village outskirts of Harbin occurred and villagers against the Japanese story, the performance of the underlying character of the tragic life and resist the voices of Japanese aggression. Works for Women tragic careful observation and description is very prominent, with thousands of years of traditional culture, social background are closely linked, but also permeated with her own emotional experience. Personal experience as well as a sense of the author's seen and heard have shown in this book. This paper is to explore where the women paragraphs describe the tragedy, showing pictures of that era tragedy. Keywords: Humble love; Lowly position; The legacy of traditional culture; The harsh reality

相关文档
最新文档