大数据存储与处理 第二讲【精选】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立并行 – 两个数据操作间没有数据依
赖关系
– 可以采用独立并行的方式分 配给不同的处理器执行
– 例:两个独立数据集的Scan 操作
流水线并行 – 多个操作间存在依赖关系,且
后一个操作必须等待前一个操 作处理完后方可执行 – 将多个操作分配给不同处理器, 但处理器间以流水线方式执行
– 例:Scan → Sort → Group
RAID单节点数据冗余存储
– RAID0:并行磁盘 – RAID1:镜像冗余 – RAID10:RAID1+RAID0 – RAID5:校验冗余
集群多节点数据冗余存储
Source: http://www.fujitsu.com/
计算任务容错
计算任务容错的关键问题:
– 故障监测 – 计算数据定位与获取 – 任务迁移
三大关键问题
存储 计算 容错
多核技术
Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每 隔18个月便会增加一倍,性能也将提升一倍。
采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。
指令数
主频
多处理器技术
多处理器技术的核心:
IPS
MF
IPC
第二讲 大数据的关键技术
大数据的三个关键问题 Google的大数据技术
Google的业务:PageRank 三大法宝
1
三大关键问题
3V
数据分析 数据计算
}
平
台 管
数据存储
理
}
文件存储
wenku.baidu.com
数据集成
现代数据处理 能力组件
Database Web Log … 数据源 现代数据处理框架
计算
} 容错
Google的大数据技术
Google是如何解决其大数据处理的三个关键性问题 的?
我们需要先了解Google的业务特点。
14
Google最重要的业务? 搜索
AdWords
Google发展史
当佩奇遇见 命名
布林
首名专用 厨师入职
图片搜索 开始收购
+30亿网 +Google
提升吞吐量
RAID:Redundant Array of Inexpensive Disks,冗余磁盘阵列
– 把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性 能和高可靠性
– RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升 吞吐量
Source: http://www.fujitsu.com/
存储
三大关键问题
存储 计算 容错
存储问题
解决大数据存储效率的两方面:
– 容量 – 吞吐量
容量
– 单硬盘容量提升:MB → GB → TB → ┈ – 系统整体容量提升:DAS、NAS、SAN
吞吐量 = 传输数据量 / 传输时间
– 单硬盘吞吐量提升:转速、接口、缓存等 – 节点吞吐量提升:RAID、专用数据库机
索引型搜索:AltaVista
– 收集:自动爬取(Scooter) – 索引:自动标记 – 使用:输入关键词搜索 – 优点:覆盖率高 – 缺点:准确率低
覆盖率 VS. 准确率:鱼与熊掌不可兼得?
Google的自我揭秘!
核心算法 – Lawrence Page, Sergey Brin, et. al., The PageRank Citation Ranking: Bringing Order to the Web. Technical Report, Stanford InfoLab, 1999. (6881)
三大法宝 – Sanjay Ghemawat, Howard Gobioff, et. al., The Google file system, Proceedings of the Nineteenth ACM Symposium on Operating Systems Principles, 2003. (3911) – Jeffrey Dean, Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters , Sixth Symposium on Operating System Design and Implementation, 2004. (9569) – Fay Chang, Jeffrey Dean, et. al., Bigtable: A Distributed Storage System for Structured Data, Seventh Symposium on Operating System Design and Implementation, 2006. (2558)
无共享(Shared Nothing,SN) – 每个处理器拥有独立的内存和若干磁盘,
通过高速网络相连 – 处理器独立处理所管理的数据 – 数据传输量小,效率高 – 可扩展性强 – 节点间交换数据开销较大 – 适合处理器数量较大的大规模并行系统 – 后期发展的主流
三大关键问题
存储 计算 容错
数据容错
Google 公司成立
建立10亿 商品+新 80亿网址 YouTube Health+
网址的索 闻+API 索引+上市 +Google iPhone
引
+学术搜索 Apps
应用
手机+投 平板电脑 资能源+ +Google 应用商店 眼镜
Google之前的搜索
目录型搜索:Yahoo!
– 收集:人工分类 – 索引:主题 – 使用:目录结构 – 优点:准确率高 – 缺点:覆盖率低
分割并行 – 数据操作的输入数据可以分解为多个
子集,且子集之间相互独立 – 分割为若干独立的子操作,每个子操
作只处理对应的部分数据,并将这些 子操作配到不同的处理器上执行
– 例: Scan → Merge
并行系统架构
共享内存(Shared Memory,SM) – 多个处理器,多个磁盘,一个共享
内存,通过数据总线相连 – 处理器间共享全部磁盘和内存
址索引
图书
地图
Gmail+ 社交网络
+Talk+
街景 搜索+实时 地图导航+
分析 +Android 搜索 收购Moto
1996
1998
2000
2002
2004
2006
2008
2010
2012
1995
1997
1999
2001
2003
2005
2007
2009
2011
...
合作开发
BackRub 搜索引擎
F
1
1 F/
N
按处理器之间的关系可以分为两类:
非对称多处理器架构(ASMP)
– 不同类型计算任务或进程由不同处理器执行 – 简单,操作系统修改小 – 低效 – 早期过渡性架构
对称多处理器架构(SMP)
– 所有处理器完全对等 – 计算任务按需分配 – 高效 – 普遍采用
并行模式
– 结构简单,负载均衡 – 数据总线成为瓶颈,可扩展性较差,
共享内存单点故障 – 适合处理器较少(≤8)的小规模并
行数据库
共享磁盘(Shared Disk,SD) – 多个处理器,每个处理器拥有独立
内存,多个磁盘,处理器与磁盘通 过数据总线相连 – 处理器间共享全部磁盘 – 容错性提高 – 共享磁盘成为性能瓶颈,需要额外 维护内存与磁盘间的数据一致性