大数据处理与云计算
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据处理与云计算
胡经国
一、大数据处理流程
相关文献就“大数据处理流程”进行了论述。现将其介绍于下,供读者参考。本文在篇章结构、内容和文字上对原文献作了一些修改,并且添加了一些小标题,特此说明。
大数据处理涉及数据时代理念的三大转变,即:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
大数据处理方法确实很多。但是,专家根据长时间实践,总结出了一个普遍适用的大数据处理流程。并且,这个处理流程能够帮助大家理顺大数据的处理过程。整个大数据处理流程可以概括为以下四个步骤,分别是:数据采集、数据导入/预处理、数据统计/分析和数据挖掘。
1、数据采集
数据采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据;并且用户可以通过这些数据库来进行简单的数据查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据。除此之外,像Redis和MongoDB这样的NoSQL(非关系型)数据库,也常用于数据采集。
数据采集过程的主要特点和挑战是并发数高。因为,有可能同时会有成千上万的用户来进行数据访问和操作。比如,火车票售票网站和淘宝,它们并发的访问量在峰值时可达到上百万。所以,需要在数据采集端部署大量数据库才能支撑。并且,如何在这些数据库之间进行负载均衡和分片,也的确是需要深入思考和精心设计的。
2、数据导入/预处理
虽然数据采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库中,或者分布式存储集群中。并且,可以在数据导入的基础上做一些简单的数据清洗和预处理工作。也有一些用户会在数据导入时,使用来自Twitter的Storm来对数据进行流式计算,以满足部分业务的实时计算需求。
数据导入/预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3、数据统计/分析
数据统计/分析主要利用分布式数据库或者分布式计算集群,来对存储于其中的海量数据进行普通的分析和分类汇总等,以满足大多数常见的数据分析需
求。在这一方面,对于一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata以及基于MySQL的列式存储Infobright等;而对于一些批处理或者基于半结构化数据的需求可以使用Hadoop。
数据统计/分析的主要特点和挑战是分析涉及的数据量大。它会极大地占用系统资源,特别是I/O(input/output,输入/输出端口)资源。
4、数据挖掘
与统计/分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,发挥预测(Predict)的效果,从而实现一些高级别的数据分析需求。比较典型的算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes;使用的主要工具有Hadoop的Mahout等。
数据挖掘过程的特点和挑战主要是用于挖掘的算法很复杂;并且计算涉及的数据量和计算量都很大。常用的数据挖掘算法,都以单线程为主。
总之,整个大数据处理的普遍流程至少应该包括以上这四个步骤。只有这样,才能算得上是一个比较完整的大数据处理流程。
二、大数据处理需要云计算技术配合
相关文献就“大数据处理需要云计算技术配合”进行了论述。现将其介绍于下,供读者参考。本文在内容和文字上对原文献作了一些修改,特此说明。
人们研究大数据或是利用大数据技术,其战略意义并不在于谁掌握了多么庞大的大数据信息,而在于谁能否将已经捕捉到的那些含有一定意义的数据通过专业化处理,将其变成一种数据信息资产。这也是大数据分析所需要达到的真正目的。
大数据既是一种科技,也是一种资产。既然大数据是一种资产,那么如何利用大数据这种资产最终实现盈利,才是利用大数据的关键。可是,将大数据加工成有增值的数据,并不是一件轻而易举的事情。
1、研究大数据绝对离不开云计算技术
从某种观点上看,没有云计算技术就不会有大数据分析和利用。大数据技术与云计算技术的关系,就像是一只手的手心和手背,是绝对密不可分的。因为,大数据分析和处理是无法用某一台计算机来完成的。它必须采用计算机分布式架构。大数据处理的特色就在于对海量数据进行分布式数据挖掘。但是,这种分布式数据挖掘还必须依托计算机分布式处理。因为,只有计算机分布式数据库或是云存储以及计算机虚拟化技术,才能赋予大数据相关技术处理的能力。
2、云计算技术将大数据处理变为现实
大数据内部具有资产性质的有价值数据,通过云计算技术得到了实实在在的验证。由此得到的效果就是让人们对大数据都有了更多的关注和重视。比如专家认为,可以用大数据来形容某家公司所创造的大量非结构化数据和半结构
化数据,但是不能将这些数据下载到关系型数据库中进行处理。因为,这样会在数据分析中浪费较多的时间和金钱。他们主张,大数据分析必须要与云计算技术紧密连接在一起。只有这样,才能将大数据的价值变成资产性质的价值,从而将大数据处理真正变成一种现实。
2016年6月5日编写于重庆
2019年11月6日修改于重庆