大数据处理平台性能优化研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于大数据信息复杂多样、规模庞大,现有大数据处理 平台不足以完全满足用户发展需求,即便是主流处理平台和 系统,也有不断改善和研究的技术难题,比如设计高效的并 行化算法、操作便捷的大数据分析工具等。因此,人们需以 创新更高效的大数据处理平台为目标,优化大数据信息平台 的性能,提高处理复杂信息的能力。
2 大数据处理平台性能评估
数 据 库 系 统 HBASE、PNUTS、Cassandra 的 事 务 处 理 系 统 良资源调度。为优化 Spark 的缓存策略性能,开发了全新的
性能,可利用 YCSB。此外,已有几十个基准测试程序检测 弹性分布式数据集缓存策略。另外,设计了能够自动选择、
BigBench、HiBench、CloudSuite 等大数据处理系统的运行 能力 [2]。
2019 年第 15 期
信息与电脑 China Computer & Communication
大数据处理平台性能优化研究
Biblioteka Baidu
数据库技术
杨 浩 (榆林职业技术学院,陕西 榆林 719000)
摘 要:信息数据已渗透人们的生活,运用大数据平台完成数据处理,提升加快了通信行业的效率,提高了信息材 料的利用率。大数据平台可有效分析这些数据,对相关产品的维护、研发发挥促进作用,不断提升产品质量与工作效率, 为公司增创收入。基于此,概述了大数据处理平台发展现状,阐述了大数据处理平台性能评估方法和存在的问题,介绍 了大数据处理平台性能优化的具体措施。
Yang Hao
(Yulin Vocational and Technical College, Yulin Shaanxi 719000, China)
Abstract: Information data has penetrated into people's lives. The use of large data platform to complete data processing has accelerated the efficiency of the communications industry and improved the utilization rate of information materials. Big data platform can effectively analyze these data, promote the maintenance and research of related products, constantly improve product quality and work efficiency, and generate revenue for the company. Based on this, this paper summarizes the development status of large data processing platform, expounds the performance evaluation methods and problems of large data processing platform, and introduces the specific measures of performance optimization of large data processing platform.
1 大数据处理平台发展现状
当今社会,随着信息技术的发展,大数据在世界范围内 掀起发展热潮,已渗透到各行各业。目前,人们的生产、生活、 资本和信息皆以数据流动的方式展现。数据资源是政府和企 业不可或缺的战略资源,生产力提高、创新都离不开大数 据的支持。人们对大数据的应用需求激发了大数据技术的发
展,大数据处理平台应运而生。以 Apache Hadoop 和 Apache spark 为代表的大数据处理平台,在众多大数据处理系统中脱 颖而出 [1]。这些主流的大数据处理平台,为大数据处理和分 析提供了基础性技术。
关键词:大数据处理平台;Hadoop;Spark;性能优化 中图分类号:TP311.13 文献标识码:A 文章编号:1003-9767(2019)15-151-02
Research on Performance Optimization of Large Data Processing Platform
Key words: big data processing platform; Hadoop; Spark; performance optimization
0 引言
随着信息时代的飞速发展,行业数据呈几何式增长。当 今时代已成为“大数据”时代,各行各业的发展都离不开大数 据的支持,大数据行业发展是业界、学术界、政府部门关注的 要点。目前,越来越多的人运用大数据平台挖掘海量信息中的 有效数据,但各个大数据处理平台的性能差异较大,为满足更 多用户的更高需求,必须优化大数据处理平台的性能。
第二,负载测评。以不同测评负载度量平台性能。利用
优化大数据处理平台性能前,需对各数据处理平台进行 性能评估。大数据处理平台性能评估方面,研究者做了大量
基金项目:2016 年校级科研重点课题“基于 Hadoop 与 MongoDB 的云计算平台性能改进研究”(项目编号:K201605); 陕西省教育厅 2018 年度专项科学研究计划“云计算中 Hadoop 与 MongoDB 数据交换技术的性能改进研究”(项目编号: 18JK1218)。 作者简介:杨浩 (1977—),男,山西兴县人,硕士研究生,副教授,网络规划设计师。研究方向:智能教学。
— 151 —
数据库技术
信息与电脑 China Computer & Communication
2019 年第 15 期
工作,建立了多基准全方位的评估标准。
决 Map-Reduce 在迭代计算中的问题。科研人员基于 Spark
第一,大数据处理平台的运行能力评估。比较分布式 的负载模式进行建模,达到预测任务执行时间的目的,并改
2 大数据处理平台性能评估
数 据 库 系 统 HBASE、PNUTS、Cassandra 的 事 务 处 理 系 统 良资源调度。为优化 Spark 的缓存策略性能,开发了全新的
性能,可利用 YCSB。此外,已有几十个基准测试程序检测 弹性分布式数据集缓存策略。另外,设计了能够自动选择、
BigBench、HiBench、CloudSuite 等大数据处理系统的运行 能力 [2]。
2019 年第 15 期
信息与电脑 China Computer & Communication
大数据处理平台性能优化研究
Biblioteka Baidu
数据库技术
杨 浩 (榆林职业技术学院,陕西 榆林 719000)
摘 要:信息数据已渗透人们的生活,运用大数据平台完成数据处理,提升加快了通信行业的效率,提高了信息材 料的利用率。大数据平台可有效分析这些数据,对相关产品的维护、研发发挥促进作用,不断提升产品质量与工作效率, 为公司增创收入。基于此,概述了大数据处理平台发展现状,阐述了大数据处理平台性能评估方法和存在的问题,介绍 了大数据处理平台性能优化的具体措施。
Yang Hao
(Yulin Vocational and Technical College, Yulin Shaanxi 719000, China)
Abstract: Information data has penetrated into people's lives. The use of large data platform to complete data processing has accelerated the efficiency of the communications industry and improved the utilization rate of information materials. Big data platform can effectively analyze these data, promote the maintenance and research of related products, constantly improve product quality and work efficiency, and generate revenue for the company. Based on this, this paper summarizes the development status of large data processing platform, expounds the performance evaluation methods and problems of large data processing platform, and introduces the specific measures of performance optimization of large data processing platform.
1 大数据处理平台发展现状
当今社会,随着信息技术的发展,大数据在世界范围内 掀起发展热潮,已渗透到各行各业。目前,人们的生产、生活、 资本和信息皆以数据流动的方式展现。数据资源是政府和企 业不可或缺的战略资源,生产力提高、创新都离不开大数 据的支持。人们对大数据的应用需求激发了大数据技术的发
展,大数据处理平台应运而生。以 Apache Hadoop 和 Apache spark 为代表的大数据处理平台,在众多大数据处理系统中脱 颖而出 [1]。这些主流的大数据处理平台,为大数据处理和分 析提供了基础性技术。
关键词:大数据处理平台;Hadoop;Spark;性能优化 中图分类号:TP311.13 文献标识码:A 文章编号:1003-9767(2019)15-151-02
Research on Performance Optimization of Large Data Processing Platform
Key words: big data processing platform; Hadoop; Spark; performance optimization
0 引言
随着信息时代的飞速发展,行业数据呈几何式增长。当 今时代已成为“大数据”时代,各行各业的发展都离不开大数 据的支持,大数据行业发展是业界、学术界、政府部门关注的 要点。目前,越来越多的人运用大数据平台挖掘海量信息中的 有效数据,但各个大数据处理平台的性能差异较大,为满足更 多用户的更高需求,必须优化大数据处理平台的性能。
第二,负载测评。以不同测评负载度量平台性能。利用
优化大数据处理平台性能前,需对各数据处理平台进行 性能评估。大数据处理平台性能评估方面,研究者做了大量
基金项目:2016 年校级科研重点课题“基于 Hadoop 与 MongoDB 的云计算平台性能改进研究”(项目编号:K201605); 陕西省教育厅 2018 年度专项科学研究计划“云计算中 Hadoop 与 MongoDB 数据交换技术的性能改进研究”(项目编号: 18JK1218)。 作者简介:杨浩 (1977—),男,山西兴县人,硕士研究生,副教授,网络规划设计师。研究方向:智能教学。
— 151 —
数据库技术
信息与电脑 China Computer & Communication
2019 年第 15 期
工作,建立了多基准全方位的评估标准。
决 Map-Reduce 在迭代计算中的问题。科研人员基于 Spark
第一,大数据处理平台的运行能力评估。比较分布式 的负载模式进行建模,达到预测任务执行时间的目的,并改