大数据研究现状

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

选题理由：移动互联网和云计算都是我们可以触及到的东西，而大数据是一个抽象的概念，现在媒体总在说大数据时代的到来，那大数据到底是什么，为什么它如此受关注，为何它对人们的生活和生产具有如此深刻的影响，借这个机会我也想深入地了解了一下，并在此与大家分享有关大数据的知识。

最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。

麦肯锡在研究报告中指出，数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素。

而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

何为大数据
大数据是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。

所涉及的数据量规模巨大到无法通过人工在合理时间内完成信息的采集、处理、管理，并将其整理成为人类所能解读的信息。

当今世界经济中，企业为了发现新的盈利长机会，更加依赖来自消费者的喜好和见解。

在发现和挖掘这些喜好和见解的过程中，产生数量巨大、结构复杂、类型众多的数据，这些数据通过集成共享，交叉复用，成为有价值的经济信息资源，形成一种智力资源和知识服务能力。

大数据有多大how big is big data
大，即海量，巨型。

领域内的大多数专业人士认为TB（太字节，百万兆）或PB级是目前大数据的基准。

但也有业内人士认为无法为大数据定义一个具体的数量级，因为当今科技迅猛发展，今天的“大”可能是明天的“正常”数量。

也就是说大数据是附着在人力和技术基础设施无法跟上公司的数据需求步伐的情况下的主观标签。

各大公司的数据情况
Google 公司通过大规模集群和MapReduce软件，每个月处理的数据量超过400PB。

百度的数据量：数百PB，每天大约要处理几十PB数据，大多要实时处理，如微博、团购、秒杀。

Facebook：注册用户超过8.5亿，每月上传10亿照片，每天生成300TB日志数据
淘宝网：有3.7亿会员，在线商品8.8亿，每天交易数千万，产生约20TB数据。

Yahoo!的数据量：Hadoop云计算平台有34个集群，超过3万台机器，总存储容量超过100PB。

工业革命以后，以文字为载体的信息量大约每十年翻一番；1970年以后，信息量大约每三年就翻一番；如今，全球信息总量每两年就可以翻一番。

2011年全球被创建和被复制的数据总量为1.8ZB（1ZB=1021Byte）其中75%来自于个人。

互联网数据中心（IDC）认为，到下一个十年（2020年），全球所有IT部门拥有服务器的总量将会比现在多出10倍，所管理的数据将会比现在多出50倍。

根据麦肯锡全球研究院（MGI）预测，到2020年，全球数据使用量预计将暴增44倍，达到35ZB
数据如此膨胀，大数据的处理及应用成为企业经营及价值创造上非常重要的课题。

大数据特点：3V
Volume:数据量大：目前一般认为PB级以上数据看成是大数据；
Variety:种类多：包括文档、视频、图片、音频、数据库数据等；
Velocity:速度快：数据生产速度很快，要求数据处理和I/O 速度很快；
Veracity:真实性:数据是完整的和可信任，并能自信地用它来做出关键的决定的能力的组织。

大数据处理流程
数据采集：数据抽取（ETL）工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集合中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NoSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。

处理自然语言的关键是要让计算机"理解"自然语言，所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding)，也称为计算语言学(Computational Linguistics。

一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析等。

数据挖掘：分类、估计、预测、相关性分组或关联规则、聚类（Clustering）、描述和可视化、复杂数据类型挖掘
模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

大数据涉及的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。

大数据的分析方法
1. 可视化分析。

大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。

2. 数据挖掘算法。

大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点
3. 预测性分析。

大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。

4. 语义引擎。

非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。

语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

5.数据质量和数据管理。

大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。

当前发展情况：
研究现状：2012 年3 月29 日，美国政府启动“Big Data Research and Development Initiative”计划，6个部门拨款2亿美元，争取增加100倍的分析能力从各种语言的文本中抽取信息。

美国能源部(DOE) 项目举例：
从庞大的科学数据集中提取信息，发现其主要特征，并理解其间的关系。

研究领域包括机器学习，数据流的实时分析，非线性随机的数据缩减技术和可扩展的统计分析技术。

生物和环境研究计划，大气辐射测量气候研究设施
系统生物学知识库对微生物，植物和环境条件下的生物群落功能的数据驱动的预测
美国国家科学基金会(NSF) 项目举例：
推进大数据科学与工程的核心技术，旨在促进从大量、多样、分散、异构的数据集中提取有用信息的核心技术。

开放科学网格(OSG)，使得全世界超过8000名的科学家合作进行发现，包括寻找希格斯玻色子（“上帝粒子”，宇宙中所有物质的质量之源）。

腾云天下数据挖掘总监张夏天表示，大数据时代来临首先由数据丰富度决定的。

社交网络兴起，大量的UGC(互联网术语，全称为User Generated Content，即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。

另外，物联网的数据量更大，加上移动互联网能更准确、更快地收集用户信息，比如位置、生活信息等数据。

从数据量来说，目前已进入大数据时代，但现在的硬件明显已跟不上数据发展的脚步。

虽然大数据目前在国内还处于初级阶段，但是商业价值已经显现出来。

首先，手中握有数据的公司基于数据交易即可产生很好的效益；其次，基于数据挖掘会有很多商业模式诞生，定位角度不同，或侧重数据分析。

比如帮企业做内部数据挖掘，或侧重优化，帮企业更精准找到用户，降低营销成本，提高企业销售率，增加利润。

行业应用：
1.医疗行业
[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。

该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。

[2] 在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。

通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。

2.能源行业
[1] 智能电网现在欧洲已经做到了终端，也就是所谓的智能电表。

在德国，为了鼓励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你的太阳能有多余电的时候还可以买回来。

通过电网收集每隔五分钟或十分钟收集一次数据，收集来的这些数据可以用来预测客户的用电习惯等，从而推断出在未来2~3个月时间里，整个电网大概需要多少电。

有了这个预测后，就可以向发电或者供电企业购买一定数量的电。

因为电有点像期货一样，如果提前买就会比较便宜，买现货就比较贵。

通过这个预测后，可以降低采购成本。

[2] 维斯塔斯风力系统，依靠的是BigInsights软件和IBM超级计算机，然后对气象数据进行分析，找出安装风力涡轮机和整个风电场最佳的地点。

利用大数据，以往需要数周的分析工作，现在仅需要不足1小时便可完成。

3.：通信行业
[1] XO Communications通过使用IBM SPSS预测分析软件，减少了将近一半的客户流失率。

XO现在可以预测客户的行为，发现行为趋势，并找出存在缺陷的环节，从而帮助公司及时采取措施，保留客户。

[2] 中国移动通过大数据分析，对企业运营的全业务进行针对性的监控、预警、跟踪。

系统在第一时间自动捕捉市场变化，再以最快捷的方式推送给指定负责人，使他在最短时间内获
知市场行情。

大数据的重大意义：
大数据从2009年开始成为信息产业的热词，原因是大量用户生成内容（UGC:user generated context）和消费者使用行为资料的大量产生，远远超过原先企业内数据库管理工具所能处理的能力。

另外，数据所衍生的相关资料存储，查询，共享，分析，可视化等问题，都需要大数据来解决。

另一方面，这些大量、多类型的数据需要经过数据挖掘和适当处理分析后，如何转化为知识并应用于经营策略及商业应用上，更是目前大数据收到全世界关注的原因。

美国在2012年就开始着手大数据，奥巴马更在同年投入2亿美金在大数据的开发中，更强调大数据会是以后的未来石油。

美国社会思想家托夫勒在《第三次浪潮》中提出，“如果说IBM的主机拉开了信息化革命的大幕，那么大数据才是第三次浪潮的华彩乐章。

”
数据已成为与自然资源、人力资源一样重要的战略资源，隐含巨大的价值，已引起科技界和和企业界的高度重视。

如果我们能够有效地组织和使用大数据，人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用，孕育着前所未有的机遇。

大数据的重大意义具体体现如下
第一，对大数据的处理分析正成为新一代信息技术融合应用的结点。

移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。

云计算为这些海量、多样化的大数据提供存储和运算平台。

通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值。

第二，大数据是信息产业持续高速增长的新引擎。

面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。

在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。

在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

第三，大数据利用将成为提高核心竞争力的关键因素。

各行各业的决策正在从“业务驱动” 转变“数据驱动”。

对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对；可以为商家制定更加精准有效的营销策略提供决策支持；可以帮助企业为消费者提供更加及时和个性化的服务；在医疗领域，可提高诊断准确性和药物有效性；在公共事业领域，大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

第四，大数据时代科学研究的方法手段将发生重大改变。

例如，抽样调查是社会科学的基本研究方法。

在大数据时代，可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据，进行挖掘分析，揭示出规律性的东西，提出研究结论和对策。

面临问题
大数据术语广泛地出现也使得人们渐渐明白了它的重要性。

大数据渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。

与此同时，大数据也向参与的各方提出了巨大的挑战
技术层面
如何利用信息技术等手段处理非结构化和半结构化数据
大数据中，结构化数据只占15% 左右，其余的85% 都是非结构化的数据，它们大量存在于社交网络、互联网和电子商务等领域。

非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰，这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。

给定一
种半结构化或非结构化数据，比如图像，如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型。

数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响
由于大数据本身的复杂性，这一问题无疑是一个重要的科研课题，对传统的数据挖掘理论和技术提出了新的挑战。

在大数据环境下，管理决策面临着两个“异构性”问题：“数据异构性”和“决策异构性”。

传统的管理决定模式取决于对业务知识的学习和日益积累的实践经验，而管理决策又是以数据分析为基础的。

大数据已经改变了传统的管理决策结构的模式。

研究大数据对管理决策结构的影响会成为一个公开的科研问题。

除此之外，决策结构的变化要求人们去探讨如何为支持更高层次的决策而去做“二次挖掘”。

无论大数据带来了哪种数据异构性，大数据中的“粗糙知识”仍可被看作“一次挖掘”的范畴。

通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性之间的桥梁是十分必要的。

探索大数据环境下决策结构是如何被改变的，相当于研究如何将决策者的主观知识参与到决策的过程中。

大数据是一种具有隐藏法则的人造自然，寻找大数据的科学模式将带来对研究大数据之美的一般性方法的探究，尽管这样的探索十分困难，但是如果我们找到了将非结构化、半结构化数据转化成结构化数据的方法，已知的数据挖掘方法将成为大数据挖掘的工具。

高扩展性的数据分析技术
传统的关系数据库无法胜任大数据分析的任务，因为并行关系数据库系统的出发点是追求高度的数据一致性和容错性。

根据CAP理论(Consistency, Availability, tolerance to network Partitions)，在分布式系统中,一致性、可用性、分区容错性三者不可兼得, 因而并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。

系统的高扩展性是大数据分析最重要的需求，必须寻找高扩展性的数据分析技术。

以MapReduce和Hadoop为代表的非关系数据分析技术，以其适合大规模并行处理、简单易用等突出优势，在互联网信息搜索和其他大数据分析领域取得重大进展，已成为目前大数据分析的主流技术。

目前MapReduce和Hadoop 在一些应用的性能上还比不过关系数据库，还需要研究开发更有效、更实用的大数据分析和管理技术。

新的数据表示方法
目前表示数据的方法，不一定能直观地展现出数据本身的意义。

要想有效利用数据并挖掘其中的知识，必须找到最合适的数据表示方法。

我们在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联时，可能已落入固有的偏见之中。

数据表示方法和最初的数据填写者有着密切关系。

如果原始数据有必要的标识，就会大大减轻事后数据识别和分类的困难。

但为标识数据给用户增添麻烦往往得不到用户认可。

研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一。

数据融合
大数据的挑战之一是对数据的整合，如果不整合则发挥不出大数据的大价值。

网上数据尤其是流媒体数据的泛滥与数据格式太多有关。

每个大企业都有自己不同数据格式，用户为了摆脱大企业的“绑定”，需要不断地做格式转换。

格式繁多也给海量数据分析增加了许多工作量。

大数据面临的一个重要问题是个人、企业和跨部门的政府机构的各种数据和信息能否方便的融合。

如同人类有许多种自然语言一样，作为Cyberspace中唯一客观存在的数据难免有多种格式。

但为了扫清网络大数据处理的障碍，应研究推广不与平台绑定的数据格式。

图像语音、文字都有不同的数据格式，在大数据存储和处理中这三者的融合已成为一种趋势，有必要研究囊括各种数据的统一格式，简化大数据处理。

大数据已成为联系人类社会、物理世界
和赛博空间（Cyberspace) 的纽带，需要构建融合人、机、物三元世界的统一的信息系统。

安全问题
某些特殊行业的应用，比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。

虽然对于IT管理者来说这些并没有什么不同，而且都是必须遵从的，但是，大数据分析往往需要多类数据相互参考，而在过去并不会有这种数据混合访问的情况，因此大数据应用也催生出一些新的、需要考虑的安全性问题。

社会层面：
全社会开放与共享数据还很难，这让数据质量大打折扣。

数据增值的关键在于整合，但自由整合的前提是数据的开放。

在大数据的时代，开放数据的意义，不仅仅是满足公民的知情权，更在于让大数据时代最重要的生产资料、生活数据自由地流动起来，准确全面应用起来，以推动知识经济和网络经济的发展，促进中国的经济增长由粗放型向精细型转型升级。

然而战略观念上的缺失、政府机构协调困难、企业对数据共享的认识不足及投入不够、科学家对大数据的渴望无法满足等都是大数据在当前我国发展应用中不得不面对的困难。

开放与隐私如何平衡，亦是一大难题。

任何技术都是双刃剑，大数据也不例外。

如何在推动数据全面开放、应用和共享的同时有效地保护公民、企业隐私，逐步加强隐私立法，将是大数据时代的一个重大挑战。

未来发展前景：
实验发现、理论预测和计算机模拟是目前广泛采用三大科研范式。

现在，数据密集型研究已成为科研的第四范式。

不论是基因组学、蛋白组学研究，天体物理研究还是脑科学研究都是以数据为中心的研究。

用电子显微镜重建大脑中所有的突触网络，1mm3大脑的图像数据就超过1PB。

取之不尽的实验数据是科学新发现的源泉。

大数据分析技术不仅是促进基础科学发展的强大杠杆，也是许多行业技术进步和企业发展的推动力。

大数据的真正意义并不在于大带宽和大存储，而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。

采用大数据处理方法，生物制药、新材料研制生产的流程会
发生革命性的变化，可以通过数据处理能力极高的计算机并行处理，同时进行大批量的仿真比较和筛选，大大提高科研和生产效率。

数据已成为矿物和化学元素一样的原始材料，未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。

大数据是大量、高速、及/或多变的信息资产，它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。

2012年，美国知名信息技术研究咨询公司高德纳Gartner提到：
大数据是大量、高速、及/或多变的信息资产，它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。

Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.
大数据技术有可能从以下几个方面突破
1 研究革命性的算法和处理平台结构
大数据研究不是简单地建一个数据中心，也不是使用传统方法在超级计算机上处理生物信息、脑科学、天文物理、遥感、气象等领域的海量数据，即使找到线性复杂性的算法也对付不了Peta级以上的数据。

必须研究革命性的大数据处理系统结构和革命性的算法和软件，以应对数据指数级增长的挑战。

2研究大数据的测量与感知理论，
大数据不是采集得越多越好，要在不明显增加采集成本的条件下尽可能提高数据的质量。

要研究如何科学合理地抽样采集数据，减少不必要的数据采集。

当前数据跨领域跨行业的拉通和共享仍存在大量壁垒，海量数据的收集，特别是关联领域的同时收集和处理存在很大
挑战。

只有跨领域的数据分析才更有可能形成真正的知识和智能，从而产生更大的价值。

3研究数据的去冗余和高效率低成本的数据存储
大数据中有大量的冗余，消除冗余是降低开销的重要途径。

大数据的存储方式不仅影响效率也影响成本，需要研究高效率低成本的数据存储方式。

需要研究多源多模态数据高质量获取与整合的理论技术、错误自动检测与修复的理论技术和低质量数据上的近似计算的理
论和算法。

4研究大幅度降低数据处理、存储和通信能耗的新技术
大数据的处理、存储和通信都将消耗大量的能源，研究创新的节能技术是重要的基础研究方向。

5大力开展交叉科学研究
大数据研究是跨学科的研究，可以发展为一门新型交叉学科。

这项研究不仅与自然科学有关，还涉及心理学、经济学、社会学等社会科学。

探讨网络数据的产生、扩散的基本机制，就需要从社会、经济和技术层面探讨网络数据涌现的规律与价值度量方法。

应积极鼓励开展交叉科学研究
谁率先具备从各种各样类型的数据中快速获得有价值信息的能力与机会，谁就是赢家！。