大数据在制造领域的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据在制造系统中的应用
20世纪中叶计算机的诞生标志着电子时代正式开始,从此人类社会开始生产并存储各类型的数据。经过数次计算机技术革命,单位面积所能存储的数据量大大提高。近年来由于WEB2.0应用的全面爆发,网络参与者同时也成了网络信息的制造者,由WEB2.0带来的大规模非结构化数据开始呈现出非几何级数的增长。因此,称这种密集型数据爆炸的现象为“大数据”时代的到来。
1大数据的概念
大数据的概念不是凭空出现的,它的前身是海量数据。但两者之间有所区别,海量数据强调数据量的规模之大,并没有对其特性进行定义。而大数据的概念包含了大数据的体积、传播速率、特征等内容。虽然截至目前还没有对大数据有统一的定义,但被广泛接受的定义为:大数据是无法在一定的时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。
大数据的特点一般归纳为四点:一是数据总量大,目前大数据最小单位一般被认为是10-20TB的量级;二是数据类型多,包括了结构化、非结构化和半结构化数据;三是数据的价值密度(单位重量物品的价值)很低;四是数据产生和处理的速度非常快。这四个特点又被称为大数据的4V理念,即:
Volume,Variety,Value,Velocity。
2大数据面临的挑战
大数据的数据集大小以难以想象的速度增长, 给数据处理带来了极大的挑战。首先, 信息技术的发展使得数据的生成和消费变得更容易。例如, 每分钟有 72 小时长度的视频被上传到 Youtube 服务器,大数据的这种大容量特性使得数据难以可伸缩地从分布式的地点收集并集成;第二, 数据采集后, 如何以最小的硬件和软件代价存储和管理这些海量异构数据是非常具有挑战性的问题;第三, 由于大数据的异构性、规模性、实时性、复杂性和隐私性等特点, 大数据分析必须在不同层次 (建模、可视化、预测和优化) 高效地挖掘数据以提高决策效率;这些挑战迫切地需要对整个数据管理系统的各个层次 (从体系架构到具体机制) 进行变革。但是如果能有效地管理大数据, 就能够给许多领域, 如科学和
环境建模、健康医护和能源保护带来巨大的变革。这些挑战迫切地需要对整个数据管理系统的各个层次 (从体系架构到具体机制) 进行变革。
3大数据的技术
依据大数据生命周期的不同阶段,可以将与大数据处理相关的技术分为相应的三个方面:
3.1大数据存储
从海量数据时代开始,大规模数据的长期保存、数据迁移一直都是研究的重点。从20世纪90年代末至今,数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。其中主要有:DAS(Direct Attached Storage),直接外挂存储;NAS(Network Attached Storage),网络附加存储;SAN(Storage Area Network),存储域网络和SAN IP等存储方式。这几种存储方式虽然是不同时代的产物,但各自的优缺点都十分鲜明。数据中心往往是根据自身服务器数量和要处理的数据对象进行选择。
此外,这两年数据存储的虚拟化从研究走向现实。所谓虚拟化,就是将原有的服务器进行软件虚拟化,将其划分为若干个独立的服务空间,如此可以在一台服务器上提供多种存储服务,大大提高了存储效率,节约存储成本,是异构数据平台的最佳选择。从技术角度讲,虚拟化可以分为存储虚拟化和网络虚拟化,网络虚拟化是存储虚拟化的辅助,能够大幅度提升数据中心的网络利用率和传输速率。可以预见虚拟化会成为未来大数据存储的一个主流技术。
3.2大数据挖掘
在大数据的处理技术中,超大规模的数据挖掘一直是难点,也是重点。面对上百TB,甚至PB级别的异构数据,常规的处理工具往往难以担当重任。需要考虑的是大数据是个不断生长的有机体,因此在挖掘过程中还需要考虑到未来数据继续增长所带来的影响。
因此,大数据的挖掘需要采用分布式挖掘和云计算技术。Google公司一直是分布式挖掘技术的领导者,它研发了MapReduce分布式挖掘工具,英特尔公司在此基础上开发了Hadoop分布式挖掘工具。这两个工具都具有高效、高扩展、高可靠性和高容储率的特点,并提供免费版本,适用于各种类型的大数据挖掘。
3.2.1 MapReduce模型
MapReduce模型是一种云计算中的并行计算模型的主要研究对象。它通过基于云平台中的大数据进行挖掘,从而获取网页相关数据对其研究得出结果。
MapReduce模型有两个函数:Map函数和Reduce函数。MapReduce模型首先获取用户需处理的数据进行splite,然后分别传送到Map worker进行处理。Map worker从输入中获取
MapReduce模型的不足说到底就是MapReduce模型的性能问题,Map/Reduce 的程序效率问题。Google公司的Hadoop系统采用了Combiner来提高Map/Reduce 程序效率。Combiner主要削减了Map阶段的输出以减少中间结果数据,进而为网络带宽和Reduce阶段减负。
3.2.2 Hadoop模型
Hadoop是一个开源的分布式存储和计算框架,用户可以轻松地基于Hadhoop 开发和运行处理海量数据的应用程序。Hadoop的主要特点如下:
(1)可靠性:HDFS作为Hadoop的文件系统,能够自动维护数据的多份副本。MapReduce可以在任务失败后根据其他副本来自动重新部署计算任务。
(2)可扩展性:Hadoop可以在不停止集群运动过程中进行集群横向扩展,并能方便地扩展到数以千计节点的超大集群规模。通过balance机制Hadoop能够将数据平均分布到各节点中。通过集群的扩展,可以存储更多的数据文件,处理更大的数据集。
(3)高效性:由于Hadoop MapReduce采用移动计算的方式而不是移动数据的方式进行分布式计算,其在面对海量数据时也能高效处理。另外Hadoop MapReduce的数据本地化(date locality)特性,使计算节点就近处理数据,加快了任务的执行。数据在节点之间动态的移动,保证各个节点的动态平衡,因此处理速度非常快。
(4)低成本:Hadoop集群的高效处理能力不在于使用造价昂贵的机器。Hadoop可以在一般的商用软件上搭建运行,且Hadoop是Apache开源项目之一,