《云计算(第三版)》配套PPT之五:第2章 Google云计算原理与应用(四)

合集下载

最新2019-云计算第二章2-4教学ppt-PPT课件

最新2019-云计算第二章2-4教学ppt-PPT课件
数据库——分布式存储数据库 Data Store
Google账户 ——开发应用程序必须拥有一个Google账户
App Engine服务——Google App Engine提供了一些服务
开发流程 ——Google App Engine开发应用程序必须遵守一定的开发
流程
配额和限制 ——Google账户提供的免费空间和流量有一定的配额和
自01己的其接ta应他口S用计上to程r算通e数机过序据;HT只T库P能或来在H存0TT标储2P准S应
用程序运行期间持续存在
03
(几秒之内完成)
同时,请求处理的
来的进数行据
序不能在自己的响
发送后产生子进程
执行代码
Google App Engine SDK
➢使用SDK时,可以在本地计算机上模拟包括所有Google App Engine服务的网络服务器应用程序,该SDK包括Google App Engine中的所有API和库。该网络服务器还可以模拟沙盒环境
沙盒给用o网应p行用gp开户l址用写程eE发应抓程n入序Ag人pi代用取序操pn码程无作eA员的EP序法,n上I提文和g只对只i的供n件电能能eG文沙了提o系子通读o件一供g统邮盒l,过取e进件的个对并应GAo虚用拟户的进环行境如,下这限个制环境使应用 应网程用络序程请与序求其只时他有才在运响行
开发者服且开务该发A应P使I用来程用访序的问必程互须序联使相网用中隔Da离,从而保证每个使用者可以且安响全应地时开间发必须极
➢使用Python实现,这个开发套件可以在装有Python 2.5的任 何平台上面运行,包括Windows、Mac OS X和Linux等,开发人 员可以在Python网站上获得适合自己系统的Python

4. 云计算 之四:第2章 Google云计算原理与应用(三)

4. 云计算 之四:第2章 Google云计算原理与应用(三)

Dinner, Paris …
101,502
12:15:22
Betty, Paris

102
Mary
Bigtable的列名实际上是表名和属性名结合在一起得到,不同表中实体可 存储在同一个Bigtable行中
11 of 58
《云计算》第三版配套PPT课件
2.5 分布式存储系统Megastore
2.5.1 设计目标及方案选择 2.5.2 Megastore数据模型 2.5.3 Megastore中的事务及并发控制 2.5.4 Megastore基本架构 2.5.5 核心技术——复制 2.5.6 产品性能及控制措施
属性是命名的且具有类型,这些类型包括字符 型(strings)、数字类型(numbers)或者 Google的Protocol Buffers。
8 of 58
Hale Waihona Puke 2.5 分布式存储系统Megastore 照片共享服务数据模型实例
《云计算》第三版配套PPT课件
表Photo就是一个子表,因为它声明了 一个外键
《云计算》第三版配套PPT课件
主要 两类
局部 索引
定义在单个实体组中,作用域仅限于单个实 体组( 如PhotosByTime )
全局 索引
可以横跨多个实体组集进行数据读取操作 ( 如PhotosByTag )
额外 索引
STORING子句
(STORING Clause)
可重复的索引
(Repeated Indexes)
User则是一个根表
一个Megastore实例中可以有若干个不 同的根表,表示不同类型的实体组集
三种不同属性设置,既有必须的(如 user_id),也有可选的(如 thumbnail_url)

《云计算》教材配套课件5-Goo gle云计算应用场景分析

《云计算》教材配套课件5-Goo gle云计算应用场景分析


BigTable的存储与服务请求的响应
◦ 划分为子表存储,每个子表对应一个子表文件,子表文件存储 于GFS之上 ◦ BigTable通过元数据组织子表
Tablet 1: <startRowKey1, Tablet 2: <startRowKey2, Tablet 3: <startRowKey3, Tablet 4: <startRowKey4, endRowKey1>, endRowKey2>, endRowKey3>, endRowKey4>, root\bigtable\tablet1,…… root\bigtable\tablet2,…… root\bigtable\tablet3,…… root\bigtable\中查询行 ◦ 获取对应列的数据,解析,得到并展示最终结果
<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>

数据处理是定期的,非实时响应查询

Google搜索的总体业务流程
◦ 数据采集: Spider ◦ 数据整理
<com.xxx, <aaa.asp,0.9027> <bbb.asp,0.0088><ccc.asp,0.0885>>
<com.yyy, <bbb.asp,0.0435> <ccc.asp,0.4348><ddd.asp,0.5217>> <com.zzz, <aaa.asp,0.0769> <bbb.asp,0.0769><ddd.asp,0.0769> <ccc.asp,0.7692>>

云计算ppt课件

云计算ppt课件

概念:大数据是指数据量巨大、复杂度高、处 理速度快的数据集合。
01
数据量大:数据量级从TB到PB甚至EB级 别。
03
02
特点
04
多样性:数据类型多样,包括结构化数据 、半结构化数据和非结构化数据。
实时性:数据处理速度要求快,实时反映 结果。
05
06
价值密度低:大量数据中蕴含少量有价值 的信息。
大数据在云计算中的应用
云计算与大数据的关系
大数据需要云计算
大数据的处理需要大规模的计 算资源和存储空间,云计算提 供了弹性的计算和存储资源, 能够满足大数据处理的需求。
云计算促进大数据发展
云计算的普及和发展为大数据 提供了更好的应用环境和解决 方案,推动了大数据的发展和 应用。
相互促进
云计算和大数据相互促进,共 同发展,形成了紧密的关系。
05
云计算的挑战与对策
数据隐私与安全
数据隐私
确保在云计算环境中的数据隐私,包括数据 的加密、访问控制和合规性。
数据安全
采取必要的安全措施,如数据备份、恢复和 加密,以防止数据丢失或未经授权的访问。
标准与互操作性
标准
采用统一的云计算标准和规范,以确 保不同系统之间的互操作性和兼容性 。
互操作性
确保不同的云计算平台、服务和解决 方案之间的互操作性和集成能力。
云存储技术
总结词
云存储是一种将数据存储在云端,并通过网络进行访问和管 理的方法,以实现数据的高可用性、可扩展性和安全性。
详细描述
云存储技术通过将数据存储在云端,可以确保数据的安全性 和高可用性。同时,由于数据是分布式的,因此还可以实现 数据的容灾和备份。常见的云存储技术包括Amazon S3和 Google Cloud Storage等。

云计算导论PPT完整

云计算导论PPT完整

第2节 云计算的基本概念
云计算的组成可以分为六个部分,它们由下至上分别是: 基础设施(Infrastructure) 存储(Storage) 平台(Platform) 应用(Application) 服务(Services) 客户端(Clients)
第3节 云计算的关键技术
1、分布式海量数据存储
SaaS应用包括Citrix公司的GoToMeeting、Cisco公司的WebEx等 等。
2、平台即服务(PaaS)
PaaS(Platform as a Service):是将服务器平台或者开发环境 作为服务进行提供。开发简单、部署简单、维护简单。 有好的开发环境 丰富的服务 自动的资源调度 精细的管理和监控
PaaS应用包括Google App Engine、Microsoft Azure、、 Heroku、Engine Yard等等。
3、基础设施即服务(IaaS)
IaaS (Infrastructure as a Service):服务提供商将多台服务器组成 的“云端”服务(包括内存、I/O设备、存储和计算能力等等)作为 计量服务提供给用户。 资源抽象 负载管理 数据管理 资源管理 安全管理 计费管理
云计算导论
目录
第1章 云计算概论 第2章 云计算基础 第3章 云计算机制 第4章 虚拟化 第5章 分布式文件系统 第6章 分布式存储系统 第7章 数据处理与并行编程 第8章 云安全 第9章 云计算的应用 第10章 综合实践:Docker与云计算
第1章 云计算概论
第1节 什么是云计算?
云计算(cloud computing)是基于互联网的相关服务的增加、 使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是 虚拟化的资源。

云计算介绍ppt课件

云计算介绍ppt课件

绿色节能技术的重要性
降低数据中心能耗、减少运营成本、提高企业社会责任感。
02
绿色节能技术在云计算中的应用
采用高效能硬件设备、优化软件算法、利用可再生能源等。
03
未来展望
随着技术的不断进步和创新,绿色节能技术将在云计算中发挥越来越重
要的作用。
THANKS
感谢观看
边缘计算与雾计算结合
实现更高效、更灵活的数据处理和分析,推动智能化应用的发展。
AI与机器学习在云计算中应用
AI助力云计算
通过智能算法优化资源调度、提高运维自动化水平等。
机器学习在云计算中的应用
利用大数据和机器学习技术,实现预测分析、智能推荐等功能。
AI与云计算的融合
构建智能云平台,提供智能化的云服务,满足企业不断增长的业务 需求。
02
03
计算虚拟化
通过虚拟化技术将物理服 务器划分为多个虚拟服务 器,提高资源利用率。
存储虚拟化
将多个物理存储设备整合 为一个逻辑存储资源池, 提供统一的存储服务。
网络虚拟化
构建虚拟网络,实现网络 资源的动态分配和灵活配 置。
分布式计算技术
MapReduce编程模型
01
适用于大规模数据处理的编程模型,实现数据的分布式并行计
公共服务
为公众提供便捷的在线服务,如在线办事、 查询等。
数据安全与监管
确保政府数据安全,并提供数据监管功能。
智慧城市
通过云计算技术推动智慧城市建设,提升城 市管理水平。
教育与科研领域
在线教育
支持在线教育资源的共享和分发,提高教育资源的利用效率。
科研协作
为科研人员提供在线协作平台,方便跨地域、跨学科的科研合作。

3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)

3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)

4 of 56
2.3 分布式锁服务Chubby 系统的约束条件
《云计算》第三版配套PPT课件
p1:每个acceptor只接受它得到的第一个决议。
p2:一旦某个决议得到通过,之后通过的决议必须和该决议保持一致。
p2a:一旦某个决议v得到通过,之后任何acceptor再批准的决议必须是v。 p2b:一旦某个决议v得到通过,之后任何proposer再提出的决议必须是v。 p2c:如果一个编号为n的提案具有值v,那么存在一个“多数派”,要么它们中没有谁批 准过编号小于n的任何提案,要么它们进行的最近一次批准具有值v。
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
为了保证决议的唯一性,acceptors也要满足一个约束条件:当且仅当 acceptors 没有收到编号大于n的请求时,acceptors 才批准编号为n的提案。
5 of 56
2.3 分布式锁服务Chubby 一个决议分为两个阶段
《云计算》第三版配套PPT课件
1
准备阶段
proposers选择一个提案并将它的编号设为n 将它发送给acceptors中的一个“多数派”
远程过程调用
客户端
Chubby
应用程序 程序率
客户端进程
主服务器
客户端
在客户这一端每个客户应用程序都有 一个Chubby程序库(Chubby Library),客户端的所有应用都是通 过调用这个库中的相关函数来完成的。

云计算(第三版)

云计算(第三版)

2.3.5 通信协 议
2 Google云计算原理与应用
2.3 分布式锁服务Chubby
2.3.3 Chubby中 的Paxos
2.3.6 正确性 与性能
2 Google云计算原理与应用
06
2.4.6 性能 优化
05
2.4.5 子表
服务器
04
2.4.4 主服
务器
03
2.4.3 系统
架构
02
2.4.2 数据
2 Google 云计算原 理与应用
2.2 分布式数据处理 MapReduce
https:///
2.2.2 编程模 型
2.2.4 案例分 析
1
2
3
4
2.2.1 产生背 景
2.2.3 实现机 制
2.3.1 Paxos 算法
2.3.2 Chubby 系统设计
2.3.4 Chubby 文件系统
0 3 . 41. 1 非 关 系 型 数据库
与传统关系数据库的比 较
0 3
3.4.3 DynamoDB
0 2
3.4.2 SimpleDB
0 4
3.4.4 SimpleDB和 DynamoDB的比较
3.4 非关系型数据库服务 SimpleDB和DynamoDB
3 Amazon 云计算 AWS
3.5 关系数据库服务RDS
2.9 Google应用程序引擎
06
3 Amazon云计算AWS
3 Amazon云计算AWS
A
C
3.2 弹性计算云 EC2
3.4 非关系型数据 库服务SimpleDB
和DynamoDB
E
3.6 简单队列服 务SQS

精选-《云计算(第三版)》配套PPT之四:第2章-Google云计算原理与应用(三)

精选-《云计算(第三版)》配套PPT之四:第2章-Google云计算原理与应用(三)
25
Megastore在Google中已经部 署和使用了若干年,有超过100 个产品使用Megastore作为其 存储系统
从图中可以看出,绝大多数产 品具有极高的可用性 (>99.999%)。这表明 Megastore系统的设计是非常 成功的,基本达到了预期目标
2.5 分布式存储系统Megastore
可扩展性
Google的服务增长速度是惊人的,设计出的系统至少在 未来几年里要能够满足Google服务和集群的需求。
31
2.6 大规模分布式系统的监控 基础架构Dapper
2.6.1 基本设计目标 2.6.2 Dapper监控系统简介 2.6.3 关键性技术 2.6.4 常用Dapper工具 2.6.5 Dapper使用经验
Dinner, Paris …
101,502
12:15:22
Betty, Paris

102
Mary
Bigtable的列名实际上是表名和属性名结合在一起得到,不同表中实体可 存储在同一个Bigtable行中
11
2.5 分布式存储系统Megastore
2.5.1 设计目标及方案选择 2.5.2 Megastore数据模型 2.5.3 Megastore中的事务及并发控制 2.5.4 Megastore基本架构 2.5.5 核心技术——复制 2.5.6 产品性能及控制措施
每个模式都由一系列的表(tables)构成,表 又包含有一系列的实体(entities),每实体 中包含一系列属性(properties)
属性是命名的且具有类型,这些类型包括字符 型(strings)、数字类型(numbers)或者 Google的Protocol Buffers。
8

《云计算(第二版)》—第二章 Google云计算原理与应用(2)

《云计算(第二版)》—第二章 Google云计算原理与应用(2)
如果元数据表未分配,则首先需要将根子表(Root Tablet)加入未分配的子表中。 由于根子表保存了其他所有元数据子表的信息,确保了扫描能够发现所有未分配 (4)扫描元数据表,发现未分配的子表并将其分配到合适子表服务 的子表 器
分布式结构化数据表Bigtable
设计动机与目标 数据模型 系统架构
当一个新子表产生时,主服务器通过一个加载命令将其分配给一个空 间足够的子表服务器。创建新表、表合并以及较大子表的分裂都会产 生一个或多个新子表。对于前面两种,主服务器会自动检测到,而较 大子表的分裂是由子服务发起并完成的,所以主服务器并不能自动检 测到,因此在分割完成之后子服务器需要向主服务发出一个通知
主服务器
主服务器会定期向其询问独占锁的状态。如果子表服务器的锁丢失或 没有回应,则此时可能有两种情况 要么是Chubby出现了问题(虽然这种概率很小,但的确存在, Google自己也做过相关测试) 要么是子表服务器自身出现了问题。对此主服务器首先自己尝试获 取这个独占锁,如果失败说明Chubby服务出现问题,需等待恢复; 如果成功则说明Chubby服务良好而子表服务器本身出现了问题
用户表 1 … 其他元数据子表 根子表 (元数据表中第一条记录) C hubby 文 件 … …
· · ·

· · ·

用户表 N …

· · ·

为了减少访问开销,提高客户访问效率,Bigtable使用了缓存
(Cache)和预取(Prefetch)技术
子表的地址信息被缓存在客户端,客户在寻址时直接根据缓存信息进行查
子表实际组成
日志
Bigtable中的日志文件是一种共享日志,每 S S Tab le S S Tab le 个子表服务器上仅保存一个日志文件,某个子 64K B 64K B 64K B 64K B ... ... ... 块 块 块 块 表日志只是这个共享日志的一个片段。这样会 索引 索引 节省大量的空间,但在恢复时却有一定的难度 Google为了避免这种情况出现,对日志做了 一些改进。Bigtable规定将日志的内容按照键 每个子表都是由多个SSTable以 值进行排序,这样不同的子表服务器都可以连 续读取日志文件了 及日志(Log)文件构成

《云计算通俗讲义 第3版 》读书笔记思维导图PPT模板下载

《云计算通俗讲义 第3版 》读书笔记思维导图PPT模板下载

05 第5章 “云”技术
07 第7章 “云”应用
06 第6章 “云”安全 08 第8章 “云”实验
本书力求简明扼要地阐述云计算的基本概念,让非IT专业人士也能轻松看懂这一现在人人都能接触(以后程 度会更深)的事物――云计算。本书遵循一条由感性到理性、由浅入深的主线展开:首先采用情景描述,让外行 的人对云计算也能产生感性认识;其次从计算机的基本知识开始逐步引出云计算的概念,使人产生理性认识;接 着列举一系列生活中的典型云应用例子,让人们明白云计算给生活带来的确切好处;最后采用OpenStack搭建单 节点和三节点方案让人们感受组建云计算中心的过程,以达到抛砖引玉之功效。本书可作为高等院校学生教材。
最新版读书笔记,下载可以直接修改
《云计算通俗讲义 第3 版》
思维导图PPT模板
本书关键字分析思维导图
网络
云计算
中间件
技术
设备
概念
数据
软件
计算机
应用 服务
目的

服务提供 商
节点
信息
模式
中心
第章云
目录
01 第1章 “云”畅想
03 第3章 “云”架构
02 第2章 “云”概念 04来自第4章 “云”组件目录
第1章 “云”畅想
第2章 “云”概念
2.1 软件的概念 2.2 计算机系统
2.3 计算机网络 2.4 IT系统组成
2.5 云计算概念 2.6 3种服务模式
2.7 4种部署模型
2.8 云计算的优 劣分析
第3章 “云”架构
01
3.1 云 架构的参 考模型
02
3.2 云 服务消费 者
03
3.3 云 服务提供 商
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

MapReduce
优点:便携 缺点:效率低
Google的团队结合其自身的实际需求,借鉴搜 索引擎和并行数据库的一些技术,开发出了实 时的交互式查询系统Dremel。
5 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
Dremel支持的典型应用
《云计算》第三版配套PPT课件
云 计 算 (第三版)
CLOUD COMPUTING Third Edition
第2章
Google云计算原理与应用(四)
主编:刘鹏 教授
of 64
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
符合该模式的两条记录
11 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 数据结构的无损表示
15 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
数据重组
当前FSM
DocId(开始) Links.Backward Links.Forward Links.Forward Links.Forward nguage.Code nguage.Country nguage.Code nguage.Country
20 of 64
嵌套子查询 记录内聚合 top-k joins 自定义函数 ……
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
查询语言与执行
Dremel利用多层级服务树(multi-level service tree)的概念来执行查询操作
Web文档的分析 Android市场的应用安装数据的跟踪 Google产品的错误报告 Google图书的光学字符识别 欺诈信息的分析 Google地图的调试 Bigtable实例上的tablet迁移 Google分布式构建系统的测试结果分析 磁盘I/O信息的统计 Google数据中心上运行任务的资源监控 Google代码库的符号和依赖关系分析
6 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 两方面的技术支撑
dom | A1 : ? , , An : ?
原子类型(Atomic Type) 原子类型允许的取值类型包括整型、浮点型、字符串等 记录类型(Record Type) 记录类型则可以包含多个域 记录型数据包括三种类型:必须的(Required)、可重复的(Repeated)以及 可选的(Optional)
25 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 小结
of 64
数据本身不会产生价值 只有经过分析才有可能产生价值
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 产生背景
10 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
嵌套结构的模式和实例
文档的模式(Schema)定义 利用该数据模型,可以使用 Java语言,也可以使用C++ 语言来处理数据,甚至可以 用Java编写的MapReduce程 序直接处理C++语言产生的 数据集。这种跨平台的优良 特性正是Google所需要的。
由于Dremel并不开源,我们只能通过Google论文中的分析大致了解其性 能。Google的实验数据集规模如下图:
表名
T1 T2 T3 T4 T5
记录数 (亿)
850 240 40 >10000 >10000
规模 (未压缩,TB)
87 13 70 105 20
域数目
270 530 1200 50 50
带有重复深度和定义深度的r1与r2的列存储
13 of 64
重复深度主要关注的是 可重复类型,而定义深 度同时关注可重复类型 和可选类型(optional)
每一列最终会被存储为 块(Block)的集合, 每个块包含重复深度和 定义深度且包含字段值。
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
跳转至Name.Url 跳转至nguage.Code 跳转至nguage.Country
跳转至Name.Url 跳转至nguage.Code 跳转至nguage.Country
跳转至Name.Url 结束
16 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 数据重组
27 of 64
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
两方面的 技术支撑
一方面:统一的存储平台
实现高效的数据存储,Dremel使用的底层数据存 储平台是GFS
另一方面:统一的数据存储格式
存储的数据才可以被不同的平台所使用
8 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 面向记录和面向列的存储
核心的思想如下: 设置t为当前字段读取器的当前值f所返回的 下一个重复深度。 在模式树中,找到它在深度 t 的祖先,然后 选择该祖先节点的第一个叶子字段 n。 由此得到一个FSM状态变化(f,t)->n。
18 of 64
有限状态机的构造算法
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
1 Dremel和MapReduce并不是互相替代,而是相互补充的技术。在不 同的应用场景下各有其用武之地。
2 Drill的设计目标就是复制一个开源的Dremel,但是从目前来看,该项 目无论是进展还是影响力都达不到Hadoop的高度。
3 希望未来能出现一个真正有影响力的开源系统实现Dremel的主要功 能并被广泛采用。
Name.Url nguage.Code nguage.Country
Name.Url nguage.Code nguage.Country
Name.Url
写入值
下一个重复深度值
10
0
NULL
0
20
1
40
1
60
0
s
2
us
2
en
1
NULL
22 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 性能分析
计算重复和定义深度的基础算法
14 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 数据重组
Dremel数据重组方法的核心思想是为每个字段创建一个有限状态机(FSM), 读取字段值和重复深度,然后顺序地将值添加到输出结果上。
1
http://A
1
NULL
1
NULL
1
http://B
1
en-gb
0
gb
0
NULL
相关文档
最新文档