大数据环境下高性能计算模型及关键技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据环境下高性能计算模型及关键技术研究
隨着大数据时代的来临,大数据正在以快速有效处理海量数据的技术影响着各行各业,其中大数据的环境下高性能计算模型及关键技术的研究能够有效地提高海量大数据的索引和处理速度,因此,文章主要针对大数据环境下高性能计算模型及关键技术进行了详细探究和讨论。
标签:大数据环境:高性能计算模型:关键技术
大数据时代已经来临,大数据(big data)是指无法在一定时间范围内用常规软件捕捉和处理的数据集合,需要新型处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率以及多样化的信息资产。大数据具有5V的特点,分别是V olume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)以及Veracity(真实性)。
1 大数据环境下高性能计算模型
1.1 数据活化理论
数据活化理论方面的研究实际上最早起始于上个世纪初叶,现如今,随着全球信息科学和计算机科学的持续高速发展,数据活化理论已经成为了大数据环境下高性能计算模型中被广泛应用并投入使用的理论。尤其在随着全球现代化的高速发展的趋势,数据活化理论在大数据环境下高性能计算模型中日益显示出其重要的地位,虽然现如今,在全球经济高速发展的背景下,各种各样的基于大数据环境下的高性能计算模型理论层出不穷,例如:走鹃——RoadRuner存储系统理论、蓝色基因Blue Gene/L存储系统、元数据管理理论、分布式多级缓存管理理论、分布式数据布局理论等,但数据活化理论的地位却依旧无法撼动[1]。
1.2 数据多态组织索引
在大数据环境下高性能计算模型中,数据多态组织索引是目前最常用的一种索引技术,数据多态组织索引实际上就是基于一种离散目标的索引方式,主要针对的是目标区域内的某一个特定的点集进行搜索,也正是由于数据多态组织索引覆盖的搜索区域和范围非常的广,所以在数据多态组织索引就具有了网络能耗大且关注点不突出的缺点。但在大数据环境下高性能计算模型中数据多态组织索引由于可以针对一定区域内的移动的目标进行索引,因而具有了其他索引技术所不具备的优势,在一定范围内目标被搜索到的概率就会有相对的提高。同时,由于数据多态组织索引对于大数据环境中的数据质量、网络的连通性、能量的有效性、网络的容错性、算法的复杂度、算法的精确度、动态性和兼容性、网络的可扩展性、执行的复杂程度等各个方面的要求都较低,因而也就成为了大数据环境下高性能计算模型中最实用和方便的一种方式[2]。
1.3 数据处理
针对大数据环境下高性能计算模型的特点,想要保证数据处理的及时性、完整性以及可靠性,就必须加强大数据环境下高性能计算模型中的数据处理技术,通过对大数据环境下高性能计算模型中的所有数据的状态进行全面的监视。依照不同数据的信息来源的不同,根据不同的实际情况,从而通过数据采集模块为大数据环境下高性能计算模型的系统提供原始数据,数据源可以是数据的固定信息或者变动信息,也可以是网络上的数据的信息变化等。当数据提取模块获得数据源之后,通过对数据源进行简单的过滤、数据格式的标准化等处理,并且将处理后的数据存入数据库当中,这个时候大数据环境下高性能计算模型中的分析模块就会对数据库中的数据进行深入分析和分类,从而根据不同的协议建立数据仓库,通过对数据的挖掘从而发现基本的时间变化规则,最终提交给大数据环境下高性能计算模型中的数据处理系统生成模块,对大数据环境下高性能计算模型中可能出现的一切数据进行全面的监测,一旦监测到索引的数据,就会进行提示,并重复以上步骤。大数据环境下高性能计算模型中的数据处理技术在很大程度上,填补了过去传统动态解决计算模型中数据处理问题上的不足,为大数据环境下高性能计算模型数据处理的构建提供了有力的方法和手段。
2 大数据环境下高性能计算模型关键技术研究
2.1 基于分布式内存计算的并行二路空间连接算法
基于分布式内存计算的并行二路空间连接算法使大数据环境下高性能计算模型中一项较为常用的算法,最早是由J. Kennedy和R. C. Eberhart等开发的。基于分布式内存计算的并行二路空间连接算法具有自组织性强以及并行二路空间连接速度快等特点。但由于基于分布式内存计算的并行二路空间连接算法,主要是通过随机解出以迭代的方式寻找出目标的方式,虽然收敛速度、参数选取、收敛性等许多方面都具有一定的优势,但是由于基于分布式内存计算的并行二路空间连接算法的缺点是,比较容易陷入局部的搜寻最优解,而基于分布式内存计算的并行二路空间连接算法的全面搜索的能力实际上比较的差。因而,基于分布式内存计算的并行二路空间连接算法经常是通过分为三种状态,分别是活跃、预休眠以及休眠状态,对三种状态之间的相互切换,可以很好的实现调度策略,可在很大程度上实现对监测范围内进行有效地索引,从而最大限度的延长大数据环境下高性能计算模型生存周期的目的。基于分布式内存计算的并行二路空间连接算法能够在很大程度上有效的保证数据通过索引模块对数据的索引,从而为大数据环境下高性能计算模型提供更高的可靠性,非常有效的避免了大数据环境下高性能计算模型中可能出现的盲区或者是索引数据冗余等情况的出现。而基于分布式内存计算的并行二路空间连接算法实际上是对于数据索引和处理模式进行并行的索引和处理方式,索引通过模式索引后的数据,必须要与索引之前的原模式等价,虽然这会在很大程度上有效的避免过多数据搜索冗余的情况,并且能够通过减少索引目标的能量消耗,非常有效和全面的提高索引的利用率。但基于分布式内存计算的并行二路空间连接算法实际上将每个不同的数据,都看作是在一定维度搜索范围中的一个数据,并在搜索范围内以一定的并行速度进行搜索,这就必然使得在数据处理某些优化的问题时,往往会出现过早收敛的情况,所以基于分布式内存计算的并行二路空间连接算法在一定程度上还需要进一步的优化
[3]。2.2 基于分布式内存计算的并行多路空间连接算法
基于分布式内存计算的并行多路空间连接算法由于通过采用并行多路的空间连接方式,因此在面对海量的大数据的情况下,能够比基于分布式内存计算的并行二路空间连接算法有更大的优化,但毫无疑问,基于分布式内存计算的并行多路空间连接算法比基于分布式内存计算的并行二路空间连接算法在能源消耗的问题上更加严重,如何能够通过降低能源的消耗,从而实现延长大数据环境下高性能计算模型的寿命,这已经成为了当前基于分布式内存计算的并行多路空间连接算法需要考虑的重要课题。一般来说,基于分布式内存计算的并行多路空间连接算法多是通过充分考虑到了所有数据范围内可能出现的能量消耗的均衡性,以数据的位置信息为依据的层次进行的一种拓扑控制算法,从而根据目标数据的感知半径,将目标范围分别划分为等大小的多个网格,并通过让数据索引模块尽量处于休眠的状态,保证每个网格中只有簇头数据保持活跃。当进入索引状态时候,基于分布式内存计算的并行多路空间连接算法就会通过一个数据代替另一个数据进行替换的方式,从而可以得知某一个数据点,以及其他数据点的精确位置,从而实现两个相邻的网格内的数据,或者所有网格内的数据索引和处理的方式,在这种情况下,所有的数据在网格当中都相当于是等价的存在,通过等价数据的确定,可以提高单簇的索引面积和单跳的索引面积,在很大程度上,有效的避免了个别簇头数据因其过多参与到数据的替换过程中而消耗能量的方式。可以说这是目前,基于分布式内存计算的并行多路空间连接算法能够减少能源消耗,延长大数据环境下高性能计算模型唯一方法[4]。
3 结束语
大数据的环境下高性能计算模型及关键技术的研究因其能够不断提升对海量数据的采集、处理、传输、存储的方式和方法,在索引和处理的过程中有效的保證数据的完整性和及时性,避免大数据环境下数据索引、采集、处理等过程中可能出现的各种数据丢失或数据溢出等情况的发生,因此,关于大数据环境下,高性能计算模型及关键技术的研究具有非常重要的积极意义。
参考文献:
[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考机[J].中国科学院院刊,
2015,27(6):647-657.
[2]陈国良,毛,蔡哗.高性能计算及其相关新兴技术[J].深圳大学学报(理工版),2014(11):124-125.
[3]陈国良,孙广中,徐玄,等.并行计算的一体化研究现状与发展趋势[J].科学通报,2016(3):1143-1147.
[4]沈盛或,刘哲,张平仓,等.一种适用于云计算可扩展高分辨率遥感影像