大数据处理平台Spark基础实践研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i mpo r t s c a l a. ma t h. r a n d o m
v a l s l i c e s= 2 v a l n = 1 00 0 0 0 s l i c e s
容 之 间以T a b 建 间 隔:
i dl I n t e r n e t F i n a n c i a l Pl a t f o r m i S t h e l a r g e s t i n f o r ma t i o n
理解S p a r k 大数据处理, 一个关键概念便 是RD D。 由于 响, 并假设所有 的单词之间以空格间隔。
R DD 进行数据的存储 。 R D D模型很适合粗粒度 的全局数据 ma p ( wo r d = > ( wo r d , 1 . 并行计算 , 但不适合细粒度的、 需要异步更新的计算 。 R D D e d u c e B y K e y ( +_ ) . c o l l e c t ( ) . f o r e a c h ( p r i n t l n ) 是S p a r k 的基本计算单元 , 一组R D D可形成执行的有向无环 3 倒排索引 图RDD Gr a p h 。 倒排索引 ( i n v e r t e d i n d e x ) 源于实际应用中需要根据属 S p a r k 的整 体 工作流 程 为 : 客 户端提 交 应 用 , 主节点 性 的值来查找记录。 在索 引表 中, 每一项均包含一个属性值 找 到一 个工作节点启动Dr i v e r , Dr i v e r 向主节点或 者资源 和一个具有该属性值的各记录的地址。 由于记录的位置 由属 管理 器 申请 资源 , 之后将 应 用转化 为RDD Gr a p h , 再由 性值确定, 而不是由记录确定, 因而称为倒排索引。 D A GS c h e d u l e r 将R DD G r a p h 转化为S t a g e 的有向无环 图提 搜 索引擎的关键步骤便是建立倒排索引。 相当于为海量 交给T a s k S c h e d u l e r , 由T a s k S c h e d u l e r 提 交任 务 给 E x e c u t o r 的网页做了一个 索引, 用户想看与哪一个主题相关 的内容, 直 执 行。 接根据索引即可找到相关的页面。 1 计算圆周率 假设存在6 篇文章, 每篇文章的I D己知, 文章I D 与文章内
摘 要: s p a r k 是主流的大数据 并行 计算框 架。 文章将通过 几段s c a l a 脚本 , 演示在s p a r k 环境下通 过Ma p — R e d u c e 框 架处理
大数 据 。
关键词: 大数据 ; S p a r k ; Ma p . R e d u c e 框 架
v a l t e x t R D D= S C . t e x t F i l e ( ’ ' / d a t a / w o r d c o u n t ” 、 v a l r e s u l t = t e x t R DD. f l a t Ma p ( 1 i n e = > l i n e . s p l i t ( ” ” ) ) .
S p a r k 基于内存计算, 提高 了在大数据 环境下数据处 理 的实 时性 。 与很多分布式 软件系统相 同, 用户可 以将S p a r k 部 署在大量 廉价 的L i n u x 硬件之 上, 形成 性价 比很高 的计 算集 群。 S p a r k 提供 了 一个更快、 更 通用的数据处理平 台。 和H a d o o p  ̄ ( [ 1 比, S p a r k 可以让程 序在 内存 中运行时速度 提
十分之一的内在, 但运行速度提 升了3 倍。 S p a r k 也Fra Baidu bibliotek经成 为 片”交给大规模集群 的问题 , 任务得 以并行计算 , 最后汇总 针对P B 级别数据排序 的最快 的开源 引擎 。 Ma p . R e d u c e S c h e ma o n R e a d 处理方 式会引起较大 的处理 开 销。 S p a r k 抽 象出分布式内存存储结构弹性分布 式数据集 结果 。 这 里为 简化 起见 , 不考虑 标点符 号对计 算结果 的影
为两个 函数 :( 1 ) ma p i  ̄数 : 接受一个 键值对, 值 是一行数 据, 键是根据值计算获得 的哈希。 ma p i  ̄数产生一组中间键 值对, Ma p . R e d u c e 框架会将ma p 函数产生 的中间键值对 当 中的键相 同的值传递给r e d u c e 函数。( 2 ) r e d u c e 函数 : 接受
s y s t e m c o n s t r u c t i o n ‘ ‘ 。 ‘ ‘ i d 2 U s i ng I nt e r ne t t o t r an s f or m t he of f 一 1 i ne p r o d uc t s ; ‘ ・ ・ ・ ・ 。
第1 期 2 0 1 7 年1 月
无 线 互 联 科 技
Wireless Internet Technol ogY
N0. 1
J an u ar y ,2 01 7
大数据处理平台S p a r k 基础实践研究
邱 丽 娟
( 厦门南洋职业学院, 福建 厦门 3 6 1 1 0 2 )
一
个 中 间键 值 对 , 键 是唯一的, 值是一个数组。 r e d u c e 对 值
升1 0 0 倍, 或者在磁盘 上运行 时速度 提升 1 0 倍。 在1 0 0 T B 进行 归 并。 正是借助Ma p . R e d u c e 框架, 才解 决了把计算任务 “ 切 Da y t o n a Gr a y S o r t L L 赛中, S p a r k 战胜THa d o o p , 它只使用了
v a l s l i c e s= 2 v a l n = 1 00 0 0 0 s l i c e s
容 之 间以T a b 建 间 隔:
i dl I n t e r n e t F i n a n c i a l Pl a t f o r m i S t h e l a r g e s t i n f o r ma t i o n
理解S p a r k 大数据处理, 一个关键概念便 是RD D。 由于 响, 并假设所有 的单词之间以空格间隔。
R DD 进行数据的存储 。 R D D模型很适合粗粒度 的全局数据 ma p ( wo r d = > ( wo r d , 1 . 并行计算 , 但不适合细粒度的、 需要异步更新的计算 。 R D D e d u c e B y K e y ( +_ ) . c o l l e c t ( ) . f o r e a c h ( p r i n t l n ) 是S p a r k 的基本计算单元 , 一组R D D可形成执行的有向无环 3 倒排索引 图RDD Gr a p h 。 倒排索引 ( i n v e r t e d i n d e x ) 源于实际应用中需要根据属 S p a r k 的整 体 工作流 程 为 : 客 户端提 交 应 用 , 主节点 性 的值来查找记录。 在索 引表 中, 每一项均包含一个属性值 找 到一 个工作节点启动Dr i v e r , Dr i v e r 向主节点或 者资源 和一个具有该属性值的各记录的地址。 由于记录的位置 由属 管理 器 申请 资源 , 之后将 应 用转化 为RDD Gr a p h , 再由 性值确定, 而不是由记录确定, 因而称为倒排索引。 D A GS c h e d u l e r 将R DD G r a p h 转化为S t a g e 的有向无环 图提 搜 索引擎的关键步骤便是建立倒排索引。 相当于为海量 交给T a s k S c h e d u l e r , 由T a s k S c h e d u l e r 提 交任 务 给 E x e c u t o r 的网页做了一个 索引, 用户想看与哪一个主题相关 的内容, 直 执 行。 接根据索引即可找到相关的页面。 1 计算圆周率 假设存在6 篇文章, 每篇文章的I D己知, 文章I D 与文章内
摘 要: s p a r k 是主流的大数据 并行 计算框 架。 文章将通过 几段s c a l a 脚本 , 演示在s p a r k 环境下通 过Ma p — R e d u c e 框 架处理
大数 据 。
关键词: 大数据 ; S p a r k ; Ma p . R e d u c e 框 架
v a l t e x t R D D= S C . t e x t F i l e ( ’ ' / d a t a / w o r d c o u n t ” 、 v a l r e s u l t = t e x t R DD. f l a t Ma p ( 1 i n e = > l i n e . s p l i t ( ” ” ) ) .
S p a r k 基于内存计算, 提高 了在大数据 环境下数据处 理 的实 时性 。 与很多分布式 软件系统相 同, 用户可 以将S p a r k 部 署在大量 廉价 的L i n u x 硬件之 上, 形成 性价 比很高 的计 算集 群。 S p a r k 提供 了 一个更快、 更 通用的数据处理平 台。 和H a d o o p  ̄ ( [ 1 比, S p a r k 可以让程 序在 内存 中运行时速度 提
十分之一的内在, 但运行速度提 升了3 倍。 S p a r k 也Fra Baidu bibliotek经成 为 片”交给大规模集群 的问题 , 任务得 以并行计算 , 最后汇总 针对P B 级别数据排序 的最快 的开源 引擎 。 Ma p . R e d u c e S c h e ma o n R e a d 处理方 式会引起较大 的处理 开 销。 S p a r k 抽 象出分布式内存存储结构弹性分布 式数据集 结果 。 这 里为 简化 起见 , 不考虑 标点符 号对计 算结果 的影
为两个 函数 :( 1 ) ma p i  ̄数 : 接受一个 键值对, 值 是一行数 据, 键是根据值计算获得 的哈希。 ma p i  ̄数产生一组中间键 值对, Ma p . R e d u c e 框架会将ma p 函数产生 的中间键值对 当 中的键相 同的值传递给r e d u c e 函数。( 2 ) r e d u c e 函数 : 接受
s y s t e m c o n s t r u c t i o n ‘ ‘ 。 ‘ ‘ i d 2 U s i ng I nt e r ne t t o t r an s f or m t he of f 一 1 i ne p r o d uc t s ; ‘ ・ ・ ・ ・ 。
第1 期 2 0 1 7 年1 月
无 线 互 联 科 技
Wireless Internet Technol ogY
N0. 1
J an u ar y ,2 01 7
大数据处理平台S p a r k 基础实践研究
邱 丽 娟
( 厦门南洋职业学院, 福建 厦门 3 6 1 1 0 2 )
一
个 中 间键 值 对 , 键 是唯一的, 值是一个数组。 r e d u c e 对 值
升1 0 0 倍, 或者在磁盘 上运行 时速度 提升 1 0 倍。 在1 0 0 T B 进行 归 并。 正是借助Ma p . R e d u c e 框架, 才解 决了把计算任务 “ 切 Da y t o n a Gr a y S o r t L L 赛中, S p a r k 战胜THa d o o p , 它只使用了