大数据处理平台Spark基础实践研究

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｉｍｐｏｒｔｓｃａｌａ．ｍａｔｈ．ｒａｎｄｏｍ
ｖａｌｓｌｉｃｅｓ＝２ｖａｌｎ＝１０００００ｓｌｉｃｅｓ
容之间以Ｔａｂ建间隔：
ｉｄｌＩｎｔｅｒｎｅｔＦｉｎａｎｃｉａｌＰｌａｔｆｏｒｍｉＳｔｈｅｌａｒｇｅｓｔｉｎｆｏｒｍａｔｉｏｎ
理解Ｓｐａｒｋ大数据处理，一个关键概念便是ＲＤＤ。由于响，并假设所有的单词之间以空格间隔。
ＲＤＤ进行数据的存储。ＲＤＤ模型很适合粗粒度的全局数据ｍａｐ（ｗｏｒｄ＝＞（ｗｏｒｄ，１．并行计算，但不适合细粒度的、需要异步更新的计算。ＲＤＤｅｄｕｃｅＢｙＫｅｙ（＋＿）．ｃｏｌｌｅｃｔ（）．ｆｏｒｅａｃｈ（ｐｒｉｎｔｌｎ）是Ｓｐａｒｋ的基本计算单元，一组ＲＤＤ可形成执行的有向无环３倒排索引图ＲＤＤＧｒａｐｈ。倒排索引（ｉｎｖｅｒｔｅｄｉｎｄｅｘ）源于实际应用中需要根据属Ｓｐａｒｋ的整体工作流程为：客户端提交应用，主节点性的值来查找记录。在索引表中，每一项均包含一个属性值找到一个工作节点启动Ｄｒｉｖｅｒ，Ｄｒｉｖｅｒ向主节点或者资源和一个具有该属性值的各记录的地址。由于记录的位置由属管理器申请资源，之后将应用转化为ＲＤＤＧｒａｐｈ，再由性值确定，而不是由记录确定，因而称为倒排索引。ＤＡＧＳｃｈｅｄｕｌｅｒ将ＲＤＤＧｒａｐｈ转化为Ｓｔａｇｅ的有向无环图提搜索引擎的关键步骤便是建立倒排索引。相当于为海量交给ＴａｓｋＳｃｈｅｄｕｌｅｒ，由ＴａｓｋＳｃｈｅｄｕｌｅｒ提交任务给Ｅｘｅｃｕｔｏｒ的网页做了一个索引，用户想看与哪一个主题相关的内容，直执行。接根据索引即可找到相关的页面。１计算圆周率假设存在６篇文章，每篇文章的ＩＤ己知，文章ＩＤ与文章内
摘要：ｓｐａｒｋ是主流的大数据并行计算框架。文章将通过几段ｓｃａｌａ脚本，演示在ｓｐａｒｋ环境下通过Ｍａｐ — Ｒｅｄｕｃｅ框架处理
大数据。
关键词：大数据；Ｓｐａｒｋ；Ｍａｐ．Ｒｅｄｕｃｅ框架
ｖａｌｔｅｘｔＲＤＤ＝ＳＣ．ｔｅｘｔＦｉｌｅ（ ’ ＇／ｄａｔａ／ｗｏｒｄｃｏｕｎｔ ” 、ｖａｌｒｅｓｕｌｔ＝ｔｅｘｔＲＤＤ．ｆｌａｔＭａｐ（１ｉｎｅ＝＞ｌｉｎｅ．ｓｐｌｉｔ（ ” ” ））．
Ｓｐａｒｋ基于内存计算，提高了在大数据环境下数据处理的实时性。与很多分布式软件系统相同，用户可以将Ｓｐａｒｋ部署在大量廉价的Ｌｉｎｕｘ硬件之上，形成性价比很高的计算集群。Ｓｐａｒｋ提供了一个更快、更通用的数据处理平台。和Ｈａｄｏｏｐ￣（［１比，Ｓｐａｒｋ可以让程序在内存中运行时速度提
十分之一的内在，但运行速度提升了３倍。Ｓｐａｒｋ也Fra Baidu bibliotek经成为片”交给大规模集群的问题，任务得以并行计算，最后汇总针对ＰＢ级别数据排序的最快的开源引擎。Ｍａｐ．ＲｅｄｕｃｅＳｃｈｅｍａｏｎＲｅａｄ处理方式会引起较大的处理开销。Ｓｐａｒｋ抽象出分布式内存存储结构弹性分布式数据集结果。这里为简化起见，不考虑标点符号对计算结果的影
为两个函数：（１）ｍａｐｉ￣数：接受一个键值对，值是一行数据，键是根据值计算获得的哈希。ｍａｐｉ￣数产生一组中间键值对，Ｍａｐ．Ｒｅｄｕｃｅ框架会将ｍａｐ函数产生的中间键值对当中的键相同的值传递给ｒｅｄｕｃｅ函数。（２）ｒｅｄｕｃｅ函数：接受
ｓｙｓｔｅｍｃｏｎｓｔｒｕｃｔｉｏｎ ‘ ‘ 。 ‘ ‘ ｉｄ２ＵｓｉｎｇＩｎｔｅｒｎｅｔｔｏｔｒａｎｓｆｏｒｍｔｈｅｏｆｆ一１ｉｎｅｐｒｏｄｕｃｔｓ； ‘ ・・・・。
第１期２０１７年１月
无线互联科技
ＷｉｒｅｌｅｓｓＩｎｔｅｒｎｅｔＴｅｃｈｎｏｌｏｇＹ
Ｎ０．１
Ｊａｎｕａｒｙ，２０１７
大数据处理平台Ｓｐａｒｋ基础实践研究
邱丽娟
（厦门南洋职业学院，福建厦门３６１１０２）
一
个中间键值对，键是唯一的，值是一个数组。ｒｅｄｕｃｅ对值
升１００倍，或者在磁盘上运行时速度提升１０倍。在１００ＴＢ进行归并。正是借助Ｍａｐ．Ｒｅｄｕｃｅ框架，才解决了把计算任务 “ 切ＤａｙｔｏｎａＧｒａｙＳｏｒｔＬＬ赛中，Ｓｐａｒｋ战胜ＴＨａｄｏｏｐ，它只使用了