【转】Spark性能测试报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【转】Spark性能测试报告
RDD可以很好地适⽤于⽀持数据并⾏的批量分析应⽤,包括数据挖掘,机器学习,图算法等,因为这些程序通常都会在很多记录上执⾏相同的操作。

RDD不太适合那些异步更新共享状态的应⽤,例如并⾏web爬⾏器。

因此,我们的⽬标是为⼤多数分析型应⽤提供有效的编程模型,⽽其他类型的应⽤交给专门的系统。

关于RDD详见:
硬件环境:
开发机器是 3台Intel(R)Xeon(R)****************双核 2.8G 4G内存
操作系统:
Red Hat Enterprise Linux Server release 5.7 (Tikanga)
Spark配置:
三节点,每个节点2G内存,14 个维度,100个类别,10次迭代,使⽤不同⼤⼩样例⽂件分析。

结论1:定义0.8(数据量/2048/3)作为三节点的阈值,当运⾏数据在阈值内时性能成单调递增,当超过该阈值时,性能急剧下降,当超过阈值2%时性能下降53.11937%,当超过34.01326%,性能下降70.80896%
以下是测试数据:
序号数据⽂件⼤⼩(M)记录条数耗时数据⽂件/耗时数据/内存数据/内存/节点数
033.33147,10610 3.3333440.0162740.005425
1100441,319137.6923170.0488280.016276
2166.67735,5331511.111180.0813820.027127
3233.331,029,7462011.666520.1139310.037977
4341.331,506,3712314.84060.1666650.055555
55122,259,5573017.066660.250.083333
6682.673,012,7434216.254020.3333350.111112
7853.333,765,9294518.962910.4166650.138888
81,024.004,519,1155717.964940.50.166667
91,194.675,272,3016518.379530.5833350.194445
101,365.336,025,4877318.703160.6666650.222222
111,536.006,778,6738019.200010.750.25
121,706.677,531,8599517.964910.8333350.277778
131,877.338,285,04414712.770970.9166650.305555
142,048.009,038,23010419.692310.333333
152,218.669,791,41611319.63417 1.083330.36111
162,389.3310,544,60212419.26881 1.1666650.388888
172,560.0111,297,78817514.62861 1.2500050.416668
182,730.6612,050,97418414.84056 1.333330.444443
192,901.3412,804,16016417.69109 1.416670.472223
203,072.0013,557,34615519.81934 1.50.5
213,242.6714,310,53216220.01647 1.5833350.527778
223,413.3415,063,71816620.56231 1.666670.555557
233,754.6816,570,08917920.97585 1.833340.611113
244,266.6818,829,64618922.57501 2.083340.694447
254,500.0119,859,39220921.53114 2.1972710.732424
264,666.6820,594,92520223.10235 2.2786520.759551
274,766.6821,036,24420223.5974 2.327480.775827
284,866.6821,477,56322621.53396 2.3763090.792103
294,966.6821,918,88222022.5758 2.4251370.808379
305,066.6822,360,20145811.06261 2.4739650.824655
315,120.0122,595,57746311.05834 2.5000050.833335
326,656.0129,374,2501010 6.59011 3.250005 1.083335
性能趋势图:
Spark配置:
⼀节点, 2G内存,14 个维度,100个类别,10次迭代。

结论2:定义0.9(数据量/2048)作为三节点的阈值,当运⾏数据在阈值内时性能成单调递增,当超过该阈值时,性能急剧下降,当超过阈值8.3334961%时性能下降57.61797318%,当超过18.18167291%,性能下降66.4701143%
当超过36.36441116%,性能下降94.14757913%
序号数据⽂件⼤⼩(M)记录条数耗时数据⽂件/耗时数据/内存
033.33147,10610 3.3333440.016274
1100.00441,31920 5.0000060.048828
2166.67735,53327 6.172880.081382
3233.331,029,74634 6.8626570.113931
4341.331,506,371457.5851970.166665
5512.002,259,557647.9999970.25
6682.673,012,743858.0314010.333335
7853.333,765,9291028.3659890.416665
81,024.004,519,1151188.677980.5
91,194.675,272,3011378.7202160.583335
101,365.336,025,4871538.9237290.666665
111,536.006,778,6731768.7272790.75
121,706.677,531,8591938.842830.833335
131,877.338,285,0442238.418530.916665
142,048.009,038,230574 3.5679441
152,218.669,791,416786 2.822724 1.08333
162,389.3310,544,6021134 2.106995 1.166665
172,560.0111,297,78851960.492688 1.250005
性能趋势图:
总论:在执⾏Spark程序的时候需预估所需的内存,当超过⼀定阈值后,性能将急剧下降。

如有不对或不⾜的地⽅请指正。

版权声明:原创作品,转载请保持⽂章完整性,转载时请务必以超链接形式标明⽂章原始出版、作者信息和本声明。

否则将追究法律责任。

Posted in .Tagged , .。

相关文档
最新文档