Google与云计算精品PPT课件
合集下载
《云计算(第三版)》配套PPT之五:第2章 Google云计算原理与应用(四)
MapReduce
优点:便携 缺点:效率低
Google的团队结合其自身的实际需求,借鉴搜 索引擎和并行数据库的一些技术,开发出了实 时的交互式查询系统Dremel。
5 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
Dremel支持的典型应用
《云计算》第三版配套PPT课件
云 计 算 (第三版)
CLOUD COMPUTING Third Edition
第2章
Google云计算原理与应用(四)
主编:刘鹏 教授
of 64
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
符合该模式的两条记录
11 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 数据结构的无损表示
15 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
google云计算系列课程第一讲:介绍PPT课件
What is the key attribute that all these examples have in common?
8
Parallel vs. Distributed
Parallel computing can mean:
Vector processing of data Multiple CPUs in a single computer
3
Computer Speedup
Moonsistors on a chip doubles every 18 months, for the same cost” (1965)
Image: Tom’s Hardware and not subject to the Creative 4 Commons license applicable to the rest of this work.
applicable to the rest of this work.
10
A Brief History… 1985-95
“Massively parallel architectures” start rising in prominence
Distributed computing is multiple CPUs across many computers over the network
9
A Brief History… 1975-85
Parallel computing was favored in the early years
1
Course Overview
5 lectures
1 Introduction 2 Technical Side: MapReduce & GFS 2 Theoretical: Algorithms for distributed
8
Parallel vs. Distributed
Parallel computing can mean:
Vector processing of data Multiple CPUs in a single computer
3
Computer Speedup
Moonsistors on a chip doubles every 18 months, for the same cost” (1965)
Image: Tom’s Hardware and not subject to the Creative 4 Commons license applicable to the rest of this work.
applicable to the rest of this work.
10
A Brief History… 1985-95
“Massively parallel architectures” start rising in prominence
Distributed computing is multiple CPUs across many computers over the network
9
A Brief History… 1975-85
Parallel computing was favored in the early years
1
Course Overview
5 lectures
1 Introduction 2 Technical Side: MapReduce & GFS 2 Theoretical: Algorithms for distributed
[PPT]《云计算(第二版)》教材配套课件9—第六章 Hadoop:Google云计算的开源实现
物理模型
物理模型实际上就是把概念模型中的一个行进行分割,并按照 列族存储
查询时间戳为t7的“contents:”将返回空值,查询时间戳为t8, “anchor:”值为“look.ca”的项也返回空值 (空的单元格不存储 ) 查询“contents:”而不指明时间戳,将返回t5时刻的数据;查询 “anchor:”的“look.ca”而不指明时间戳,将返回t7时刻的数据 (未指 明时间戳,则返回指定列的最新数据值 )
"CNN"
""
行关键字
"n.www"
时 间 戳
t6
列 "mime:"
"text/html"
子表服务器
客户端进行更新操作时,首先连接相关的子表服务器,之后向 子表提交变更。提交的数据被添加到子表的HMemcache和子表服务 器的HLog 提供服务时,子表首先查询缓存HMemcache。若没有,再查找磁 盘上的HStore HRegion.flushcache()定期被调用,把HMemcache中的内容写到 磁盘上HStore文件里
访问接口
Hadoop API (1)org.apache.hadoop.conf (2)org.apache.hadoop.dfs (3)org.apache.hadoop.fs (4)org.apache.hadoop.io (5)org.apache.hadoop.ipc (6)org.apache.hadoop.mapred (7)org.apache.hadoop.metrics (8)org.apache.hadoop.record (9)org.apache.hadoop.tools (10)org.apache.hadoop.util 浏览器接口 典型HDFS安装会配置一个Web服务器开放自己的命名空间,其TCP 端口可配;默认配置下http://namenode-name:50070这个页面列 出了集群里的所有DataNode和集群的基本状态
google云计算原理1精品PPT课件
如何实现物流配送 ◦ 订单是关键!
星辰急便董事长 陈平
马云
17
Google云计算原理
Google云计算的背景
18
Google与Microsoft的战争
19
冲突之源
Google和微软之间日益激烈的对立将是一场史诗般 的企业战争,将对两家公司的成功和发展产生重要 影响,并规定着消费者和企业如何工作、购物、通 讯,以及“他们过的数字生活”
29
Google云计算应用场景
Google Wave
◦ 信息分享、协作、发布平台
30
Google云计算应用场景
隶属于PaaS的Google云计算
◦ 属于部署在云端的应用执行环境 ◦ 支持Python和Java两种语言 ◦ 通过SDK提供Google的各种服务,如图形、MAIL和数据存
储等 ◦ 用户可快速、廉价(可免费使用限定的流量和存储)地部
Microsoft CEO 史蒂夫.鲍尔默
◦ 高速宽带连接会象Google断言的那样普及和可 靠吗?
◦ 企业、大学、消费者会让Google保存他们的资 料吗?
22
Google的秘密武器
应用规模对于系统架构设计的重要性 Google应用的特性
◦ 海量用户+海量数据 ◦ 需要具备较强的可伸缩性 ◦ 如何又快又好地提供服务?
中小企业、大学、消费者会相对迅速地转 向基于Web的“云计算”技术
新的赢利模式
◦ 低廉的云计算给Google带来更多的流量,进而带 来更多的广告收入
承认“云计算”不会在一夜之间普及
◦ 大公司通常会慢慢地改变自己的习惯 ◦ 其它问题,例如“飞机问题”,以及在不能上网
时用户如何工作。
Google CEO 埃立克.施米特
星辰急便董事长 陈平
马云
17
Google云计算原理
Google云计算的背景
18
Google与Microsoft的战争
19
冲突之源
Google和微软之间日益激烈的对立将是一场史诗般 的企业战争,将对两家公司的成功和发展产生重要 影响,并规定着消费者和企业如何工作、购物、通 讯,以及“他们过的数字生活”
29
Google云计算应用场景
Google Wave
◦ 信息分享、协作、发布平台
30
Google云计算应用场景
隶属于PaaS的Google云计算
◦ 属于部署在云端的应用执行环境 ◦ 支持Python和Java两种语言 ◦ 通过SDK提供Google的各种服务,如图形、MAIL和数据存
储等 ◦ 用户可快速、廉价(可免费使用限定的流量和存储)地部
Microsoft CEO 史蒂夫.鲍尔默
◦ 高速宽带连接会象Google断言的那样普及和可 靠吗?
◦ 企业、大学、消费者会让Google保存他们的资 料吗?
22
Google的秘密武器
应用规模对于系统架构设计的重要性 Google应用的特性
◦ 海量用户+海量数据 ◦ 需要具备较强的可伸缩性 ◦ 如何又快又好地提供服务?
中小企业、大学、消费者会相对迅速地转 向基于Web的“云计算”技术
新的赢利模式
◦ 低廉的云计算给Google带来更多的流量,进而带 来更多的广告收入
承认“云计算”不会在一夜之间普及
◦ 大公司通常会慢慢地改变自己的习惯 ◦ 其它问题,例如“飞机问题”,以及在不能上网
时用户如何工作。
Google CEO 埃立克.施米特
Google--云计算平台--解析PPT课件
3. Google的云应用
特点:
基于其自身的云计算基础设施 应用了Web2.0技术 具有强大的多用户交互能力
17
3. Google的云应用
例子:Google Docs
基于Web的编辑工具 与Microsoft Office相近的编辑界面 易用的文档权限管理以及多用户操作记录 适用于多人协作编辑、项目进度监控等多
13
2. 产品介绍
分布式大规模数据库管理系统 BigTable:介绍
是基于分布式平台的数据库系统 由于一般的关系数据库的强一致性要求,
很难将其扩展到很大的规模 为了处理Google内部大量的格式化以及半
格式化数据, BigTable 是一种具有弱一 致性要求的大规模数据库系统
14
2. 产品介绍
8
2. 产品介绍
Google File System 文件系统:结构
下图表示了单个GFS的结构。
9
2. 产品介绍
Google File System 文件系统:架构
下图表示Google File System的系统架构。
一个GFS集群包含一个主服务器和多个块服务器,被多个客 户端访问。文件被分割成固定尺寸的块。在每个块创建的时 候,服务器分配给它一个不变的、全球惟一的64位块句柄对 它进行标识。块服务器把块作为linux文件保存在本地硬盘上, 并根据指定的块句柄和字节范围来读写块数据。为了保证可 靠性,每个块都会复制到多个块服务器上,缺省保存三个备 份。
6
2. 产品介绍
Google File System 文件系统:特性 Google文件系统中的文件读写模式和 传统的文件系统不同。
在Google应用(如搜索)中对
3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)
4 of 56
2.3 分布式锁服务Chubby 系统的约束条件
《云计算》第三版配套PPT课件
p1:每个acceptor只接受它得到的第一个决议。
p2:一旦某个决议得到通过,之后通过的决议必须和该决议保持一致。
p2a:一旦某个决议v得到通过,之后任何acceptor再批准的决议必须是v。 p2b:一旦某个决议v得到通过,之后任何proposer再提出的决议必须是v。 p2c:如果一个编号为n的提案具有值v,那么存在一个“多数派”,要么它们中没有谁批 准过编号小于n的任何提案,要么它们进行的最近一次批准具有值v。
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
为了保证决议的唯一性,acceptors也要满足一个约束条件:当且仅当 acceptors 没有收到编号大于n的请求时,acceptors 才批准编号为n的提案。
5 of 56
2.3 分布式锁服务Chubby 一个决议分为两个阶段
《云计算》第三版配套PPT课件
1
准备阶段
proposers选择一个提案并将它的编号设为n 将它发送给acceptors中的一个“多数派”
远程过程调用
客户端
Chubby
应用程序 程序率
客户端进程
主服务器
客户端
在客户这一端每个客户应用程序都有 一个Chubby程序库(Chubby Library),客户端的所有应用都是通 过调用这个库中的相关函数来完成的。
精选-《云计算(第三版)》配套PPT之四:第2章-Google云计算原理与应用(三)
25
Megastore在Google中已经部 署和使用了若干年,有超过100 个产品使用Megastore作为其 存储系统
从图中可以看出,绝大多数产 品具有极高的可用性 (>99.999%)。这表明 Megastore系统的设计是非常 成功的,基本达到了预期目标
2.5 分布式存储系统Megastore
可扩展性
Google的服务增长速度是惊人的,设计出的系统至少在 未来几年里要能够满足Google服务和集群的需求。
31
2.6 大规模分布式系统的监控 基础架构Dapper
2.6.1 基本设计目标 2.6.2 Dapper监控系统简介 2.6.3 关键性技术 2.6.4 常用Dapper工具 2.6.5 Dapper使用经验
Dinner, Paris …
101,502
12:15:22
Betty, Paris
…
102
Mary
Bigtable的列名实际上是表名和属性名结合在一起得到,不同表中实体可 存储在同一个Bigtable行中
11
2.5 分布式存储系统Megastore
2.5.1 设计目标及方案选择 2.5.2 Megastore数据模型 2.5.3 Megastore中的事务及并发控制 2.5.4 Megastore基本架构 2.5.5 核心技术——复制 2.5.6 产品性能及控制措施
每个模式都由一系列的表(tables)构成,表 又包含有一系列的实体(entities),每实体 中包含一系列属性(properties)
属性是命名的且具有类型,这些类型包括字符 型(strings)、数字类型(numbers)或者 Google的Protocol Buffers。
8
Megastore在Google中已经部 署和使用了若干年,有超过100 个产品使用Megastore作为其 存储系统
从图中可以看出,绝大多数产 品具有极高的可用性 (>99.999%)。这表明 Megastore系统的设计是非常 成功的,基本达到了预期目标
2.5 分布式存储系统Megastore
可扩展性
Google的服务增长速度是惊人的,设计出的系统至少在 未来几年里要能够满足Google服务和集群的需求。
31
2.6 大规模分布式系统的监控 基础架构Dapper
2.6.1 基本设计目标 2.6.2 Dapper监控系统简介 2.6.3 关键性技术 2.6.4 常用Dapper工具 2.6.5 Dapper使用经验
Dinner, Paris …
101,502
12:15:22
Betty, Paris
…
102
Mary
Bigtable的列名实际上是表名和属性名结合在一起得到,不同表中实体可 存储在同一个Bigtable行中
11
2.5 分布式存储系统Megastore
2.5.1 设计目标及方案选择 2.5.2 Megastore数据模型 2.5.3 Megastore中的事务及并发控制 2.5.4 Megastore基本架构 2.5.5 核心技术——复制 2.5.6 产品性能及控制措施
每个模式都由一系列的表(tables)构成,表 又包含有一系列的实体(entities),每实体 中包含一系列属性(properties)
属性是命名的且具有类型,这些类型包括字符 型(strings)、数字类型(numbers)或者 Google的Protocol Buffers。
8
最新Google云计算应用场景分析.PPT课件
MapReduce
BigTable
Chubby
GFS
应用场景分析1 ——Google网站流量分析
• Google Analytics
– 免费的企业级网络分析解决方案 – 帮助企业了解网站流量和营销效果 – 能以灵活的方式(各类报表)查看并分析流量数据
应用场景分析1 ——Google网站流量分析
应用场景分析1 ——Google网站流量分析
如超过阈值则存储 为子表文件
子表合并、压缩
GFS:存储子表文 件
应用场景分析1 ——Google网站流量分析
• 数据处理
– 例如,统计网站(如)过去一周网页访问比例 – 数据处理流程
数据查询
MapReduce操作
数据存储
点击数据表
统计数据表 GFS
应用场景分析1 ——Google网站流量分析
<com.zzz, <aaa.asp,0.0769> <bbb.asp,0.0769><ddd.asp,0.0769> <ccc.asp,0.7692>>
应用场景分析1 ——Google网站流量分析
• 数据处理
– 写入数据
• 应用程序将分析结果写入统计数据表
<com.xxx, <aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>>
– 为第三方应用提供大尺寸文件存储功能
– 文件读操作流程
• API与Master通信,获取文件元信息
• 根据指定的读取位置和读取长度,API发起并发操作,分别从 若干ChunkServer上读取数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Shareability
– Make sharing as easy as creating and saving
• Freedom
– Users don’t want their data held hostage
• Simplicity
– Easy-to-learn, easy-to-use
• Essentially infinite amount of disk • Essentially infinite amount of computation • (Assuming they can be parallelized)
Google and Cloud Computing
Google与云e Internet: From Hardware to Community • The Innovation: A Computing Cloud • Breakthroughs for Cloud Computing • Google Apps for Cloud Computing • Google Infrastructure for Cloud Computing
• Data stored on the cloud • Software & services on the cloud - Access via web browser • Based on standards and protocols - Linux, AJAX, LAMP, etc. • Accessible from any device
1 User-Centric 2 Task-Centric 3 Powerful 4 Intelligent
5 Affordable 6 Programmable
User Centric
Data stored in the “Cloud” Data follows you & your devices Data accessible anywhere Data can be shared with others
messages
preferences
contacts
news
calendar
investments
maps
mailing lists e-mails
photo
phone numbers music
Example : GMail
San Francisco, Monday
Home, Wednesday Beijing, on travel
Use Google Docs to Solve a Task
Task = “Teachers creating a departmental curriculum”
Changes instantly appear to other collaborators
Access your docs from anywhere
The Internet
From Hardware to Community
The Internet: From Hardware to Community
MySpace Facebook
开心网 校内网 ……
What Do Today’s Users Want?
• Accessibility
– Access from anywhere and from multiple devices
spreadsheet
You can also easily organize all your common tasks
Cloud Computing is Powerful: It can do what no PC can do Example: Google Search
Is Google Search faster than search in Windows/Outlook/Word?
• Security
– Trust that data will not be lost or seen by unwanted parties
The Innovation
A Computing Cloud
Cloud Computing
Attributes of Cloud Computing
Chat with others in real time
Communication Task – Email, Chat, Contacts, Chat History
Task: Collaborate on Spreadsheet – Communicate
Chat with others editing the spreadsheet
Personal PC
Client Server
Cloud Computing
Hardware Centric
Software Centric
Service Centric
Breakthroughs for Cloud Computing
Breakthroughs for Cloud Computing
Task: Collaborate on Spreadsheet – Collaborate
Invite others to collaborate on the spreadsheet
Task: Collaborate on Spreadsheet – Publish
Invite others to view the
– Just a web browser and your account with password! – Once you login, the device is “yours”. – Data stored on remote servers in the “cloud” (with large capacity)
• And Google Search must be much harder….
How much storage does it take to store all of the web pages?
• 100B pages * 10K per page = 1000T disk!
Cloud computing has at its disposal
– Make sharing as easy as creating and saving
• Freedom
– Users don’t want their data held hostage
• Simplicity
– Easy-to-learn, easy-to-use
• Essentially infinite amount of disk • Essentially infinite amount of computation • (Assuming they can be parallelized)
Google and Cloud Computing
Google与云e Internet: From Hardware to Community • The Innovation: A Computing Cloud • Breakthroughs for Cloud Computing • Google Apps for Cloud Computing • Google Infrastructure for Cloud Computing
• Data stored on the cloud • Software & services on the cloud - Access via web browser • Based on standards and protocols - Linux, AJAX, LAMP, etc. • Accessible from any device
1 User-Centric 2 Task-Centric 3 Powerful 4 Intelligent
5 Affordable 6 Programmable
User Centric
Data stored in the “Cloud” Data follows you & your devices Data accessible anywhere Data can be shared with others
messages
preferences
contacts
news
calendar
investments
maps
mailing lists e-mails
photo
phone numbers music
Example : GMail
San Francisco, Monday
Home, Wednesday Beijing, on travel
Use Google Docs to Solve a Task
Task = “Teachers creating a departmental curriculum”
Changes instantly appear to other collaborators
Access your docs from anywhere
The Internet
From Hardware to Community
The Internet: From Hardware to Community
MySpace Facebook
开心网 校内网 ……
What Do Today’s Users Want?
• Accessibility
– Access from anywhere and from multiple devices
spreadsheet
You can also easily organize all your common tasks
Cloud Computing is Powerful: It can do what no PC can do Example: Google Search
Is Google Search faster than search in Windows/Outlook/Word?
• Security
– Trust that data will not be lost or seen by unwanted parties
The Innovation
A Computing Cloud
Cloud Computing
Attributes of Cloud Computing
Chat with others in real time
Communication Task – Email, Chat, Contacts, Chat History
Task: Collaborate on Spreadsheet – Communicate
Chat with others editing the spreadsheet
Personal PC
Client Server
Cloud Computing
Hardware Centric
Software Centric
Service Centric
Breakthroughs for Cloud Computing
Breakthroughs for Cloud Computing
Task: Collaborate on Spreadsheet – Collaborate
Invite others to collaborate on the spreadsheet
Task: Collaborate on Spreadsheet – Publish
Invite others to view the
– Just a web browser and your account with password! – Once you login, the device is “yours”. – Data stored on remote servers in the “cloud” (with large capacity)
• And Google Search must be much harder….
How much storage does it take to store all of the web pages?
• 100B pages * 10K per page = 1000T disk!
Cloud computing has at its disposal