大数据的关键技术(PPT 51张)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Health+ iPhone 应用
手机+投 平板电脑 资能源+ +Google 应用商店 眼镜
Google之前的搜索
目录型搜索:Yahoo!
– 收集:人工分类 – 索引:主题 – 使用:目录结构 – 优点:准确率高 – 缺点:覆盖率低
索引型搜索:AltaVista
– 收集:自动爬取(Scooter)
现代数据处理框架
三大关键问题
存储
计算 容错
存储问题
解决大数据存储效率的两方面:
– 容量 – 吞吐量
容量
– 单硬盘容量提升:MB → GB → TB → ┈
– 系统整体容量提升:DAS、NAS、SAN
吞吐量 = 传输数据量 / 传输时间
– 单硬盘吞吐量提升:转速、接口、缓存等 – 节点吞吐量提升:RAID、专用数据库机
数据传输量小,效率高
可扩展性强 节点间交换数据开销较大 适合处理器数量较大的大规模并行系统 后期发展的主流


三大关键问题
存储
计算 容错
数据容错
RAID单节点数据冗余存储
– RAID0:并行磁盘 – RAID1:镜像冗余 – RAID10:RAID1+RAID0 – RAID5:校验冗余
集群多节点数据冗余存储

多个操作间存在依赖关系,且 后一个操作必须等待前一个操 作处理完后方可执行 将多个操作分配给不同处理器, 但处理器间以流水线方式执行 例:Scan → Sort → Group
数据操作的输入数据可以分解为多个 子集,且子集之间相互独立 分割为若干独立的子操作,每个子操 作只处理对应的部分数据,并将这些 子操作配到不同的处理器上执行 例: Scan → Merge





并行系统架构
共享内存(Shared Memory,SM)

共享磁盘(Shared Disk,SD)

无共享(Shared Nothing,SN)

多个处理器,多个磁盘,一个共享 内存,通过数据总线相连 处理器间共享全部磁盘和内存
– – –
多个处理器,每个处理器拥有独立 内存,多个磁盘,处理器与磁盘通 过数据总线相连
Source: http://www.fujitsu.com/
计算任务容错
计算任务容错的关键问题:
– 故障监测 – 计算数据定位与获取 – 任务迁移
Google的大数据技术
Google是如何解决其大数据处理的三个关键性问题 的? 我们需要先了解Google的业务特点。
14
Google
每个处理器拥有独立的内存和若干磁盘, 通过高速网络相连 处理器独立处理所管理的数据
– – – – – –
结构简单,负载均衡
数据总线成为瓶颈,可扩展性较差, 共享内存单点故障 适合处理器较少(≤8)的小规模并 行数据库
– –
处理器间共享全部磁盘
容错性提高 共享磁盘成为性能瓶颈,需要额外 维护内存与磁盘间的数据一致性
Google最重要的业务?
搜索 AdWords
Google发展史
当佩奇遇见 布林
1996 1995 1997
命名 Google
首名专用 厨师入职
图片搜索 +30亿网 址索引
开始收购 +Google 图书
地图 +Talk+ 分析
Gmail+ 社交网络 街景 搜索+实时 地图导航+ 搜索 收购Moto +Android
按处理器之间的关系可以分为两类:
非对称多处理器架构(ASMP)
– –
对称多处理器架构(SMP)
– –
不同类型计算任务或进程由不同处理器执行
简单,操作系统修改小 低效 早期过渡性架构
所有处理器完全对等
计算任务按需分配 高效 普遍采用




并行模式
独立并行

流水线并行

分割并行

两个数据操作间没有数据依 赖关系 可以采用独立并行的方式分 配给不同的处理器执行 例:两个独立数据集的Scan 操作
提升吞吐量
RAID:Redundant Array of Inexpensive Disks,冗余磁盘阵列
– 把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性 能和高可靠性
– RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升 吞吐量
Source: http://www.fujitsu.com/
三大法宝
– Sanjay Ghemawat, Howard Gobioff, et. al., The Google file system, Proceedings of the Nineteenth ACM Symposium on Operating Systems Principles, 2003. (3911) – Jeffrey Dean, Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters , Sixth Symposium on Operating System Design and Implementation, 2004. (9569) – Fay Chang, Jeffrey Dean, et. al., Bigtable: A Distributed Storage System for Structured Data, Seventh Symposium on Operating System Design and Implementation, 2006. (2558)
– 索引:自动标记 – 使用:输入关键词搜索
– 优点:覆盖率高 – 缺点:准确率低
覆盖率 VS. 准确率:鱼与熊掌不可兼得?
Google
Google的自我揭秘!
核心算法
– Lawrence Page, Sergey Brin, et. al., The PageRank Citation Ranking: Bringing Order to the Web. Technical Report, Stanford InfoLab, 1999. (6881)
三大关键问题
存储
计算 容错
多核技术
Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每 隔18个月便会增加一倍,性能也将提升一倍。 采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。
指令数
主频
多处理器技术
多处理器技术的核心: IPS MF IPCF 1 F/ N 1
讲大数据的关键技术
大数据的三个关键问题 Google的大数据技术 Google的业务:PageRank 1 1
三大关键问题
3V
数据分析
数据计算 平 台 管 理
} }
现代数据处理 能力组件

计算 存储
数据存储

容错
文件存储
数据集成
Database Web Log
数据源
2008 2007 2009 2010 2011 2012 ...
1998 1999
2000 2001
2002 2003
2004 2005
2006
合作开发 BackRub 搜索引擎
Google 公司成立
建立10亿 网址的索 引
商品+新 闻+API
80亿网址 索引+上市 +学术搜索
Hale Waihona Puke Baidu
YouTube +Google Apps
相关文档
最新文档