大数据及其在各领域的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据及其在各领域的应用
引言:
随着互联网的飞速发展,特别是近年来社交网络、物联网和云计算的飞速发展和大量应用,人们所接触和关注的数据量出现爆炸式增长,使得数据的极大丰富和复杂成为当今社会的重要特征。对大数据分析和处理的技术也随之建立完善并丰富起来。主要介绍大数据的概念和特点,分析了实现大数据处理的关键技术和大数据的应用领域,列举了几种大数据在现实生活中的典型应用。
首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC的监测统计,即使在遭遇金融危机的2009年,全球信息量也比2008年增长了62%,达到80万PB(1PB等于10GB),到2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB),并且以每两年翻一番的速度飞速增长,预计到2020年全球数据量总量将达到40ZB,10年间增长20倍以上,到2020年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总
量的75%。
如此增长迅速、庞大繁杂的数据资源,给传统的数据
分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科
学和大数据应用等迅速成为信息科学领域的热点问题,得
到了一些国家政府部门、经济领域以及科学领域有关专家
的广泛关注。虽然大数据日益升温,但与大多数信息学领
域的问题一样,大数据的基本概念及特点,大数据要解决
核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议,大数据概念有
过度炒作的嫌疑。欧洲的一些企业甚至认为大数据就是海
量数据存储,仅将大数据视作是可以获取更多信息的平台。本文分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核
心问题,在此基础上,最后讨论大数据可能要面临的多种
挑战。
大数据的概念和特点
大数据是个较为抽象的概念,正如信息学领域但是面对以视频、图片、文字等非结构化数据为主大多数新兴概念样,大数据至今尚无确切、统的定义。来自维基百科的定义为:大
数据指数量巨大、类型复杂的数据集合,现有的数据库管理工具或传统的数据处理应用难以对其进行处理。这些挑战包括如捕获、手机、存储、搜索、共享、传递、分析与可视化等。IDC在对大数据作出的定义为:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据处理技术
一、大数据技术为何能提高数据的处理速度
大数据的并行处理利器——MapReduce
大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。
MapReduce将传统的查询、分解及数据分析进行分布式处理,
将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce 还降低了开发并行应用的门槛。MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。
二、大数据在数据采集方面采用了那些新技术
系统日志采集方法
很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook 的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
网络数据采集方法:对非结构化数据的采集
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。
其他数据采集方法
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
大数据在一些领域的应用
一、医疗大数据看病更高效
除了较早前就开始利用大数据的互联网公司,医疗行业是让大数据分析最先发扬光大的传统行业之一。医疗行业拥有大量的病例,病理报告,治愈方案,药物报告等等。如果这些数据可以被整理和应用将会极大地帮助医生和病人。我们面对的数目及种类众多的病菌、病毒,以及肿瘤细胞,其都处于不断的进化的过程中。在发现诊断疾病时,疾病的确诊和治疗方案的确定是最困难的。在未来,借助于大数据平台我们可以收集不同病例和治疗方案,以及病人的基本特征,可以建立针对疾病特点的数据库。如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制定出适合病人的治疗方案,帮助