[PPT]《云计算》教材配套课件5-Google云计算应用场景分析

合集下载

《云计算(第三版)》配套PPT之五:第2章 Google云计算原理与应用(四)

《云计算(第三版)》配套PPT之五:第2章 Google云计算原理与应用(四)

MapReduce
优点:便携 缺点:效率低
Google的团队结合其自身的实际需求,借鉴搜 索引擎和并行数据库的一些技术,开发出了实 时的交互式查询系统Dremel。
5 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
Dremel支持的典型应用
《云计算》第三版配套PPT课件
云 计 算 (第三版)
CLOUD COMPUTING Third Edition
第2章
Google云计算原理与应用(四)
主编:刘鹏 教授
of 64
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
符合该模式的两条记录
11 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 数据结构的无损表示
15 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件

《云计算技术及应用》课件

《云计算技术及应用》课件

05
云计算未来发展趋势
边缘计算
边缘计算是指在靠近物或数据源头的一侧,采用网络、计算 等能力,提供近端服务的新型计算模式。随着物联网、5G等 技术的普及,越来越多的数据需要在网络边缘进行处理,因 此边缘计算将成为未来云计算的重要发展方向。
边缘计算能够降低网络延迟、减轻数据传输负担,提高数据 处理效率,同时还能降低云计算中心的压力,使得数据处理 更加高效和灵活。
物联网
总结词
云计算是物联网数据处理和分析的重 要支撑,能够实现海量设备的接入和 管理。
详细描述
通过云计算技术,可以对物联网设备 产生的海量数据进行存储、分析和处 理,提供智能化的决策和服务。
游戏与娱乐
总结词
云计算在游戏和娱乐领域的应用,可以实现高清晰度视频流媒体传输、实时互动等效果 。
详细描述
云计算技术为游戏开发提供了高效、灵活的资源管理方式,提高了游戏体验和运营效率 。
THANKS
感谢观看
快速发展期
2008年起,随着全球经济的衰 退,企业开始寻求降低成本的 方法,云计算成为了一个重要 的选择。
成熟期
2015年以后,云计算市场逐渐 成熟,各大云服务提供商开始 推出更加完善和个性化的服务

云计算分类
公有云
由第三方云服务提供商提供服务,用户通过互联网可以随时随地 访问和使用云服务。
私有云
详细描述
通过云计算技术,企业可以实现 数据的集中存储和处理,提高工 作效率和协作能力,降低IT成本 和风险。
人工智能与机器学习
总结词
云计算为人工智能和机器学习提供了 强大的计算和存储资源,加速了算法 模型的训练和应用。
详细描述
云服务商提供的人工智能平台,使得 企业和开发者可以利用云计算资源快 速搭建和部署人工智能应用。

《云计算》教材配套课件5-Goo gle云计算应用场景分析

《云计算》教材配套课件5-Goo gle云计算应用场景分析


BigTable的存储与服务请求的响应
◦ 划分为子表存储,每个子表对应一个子表文件,子表文件存储 于GFS之上 ◦ BigTable通过元数据组织子表
Tablet 1: <startRowKey1, Tablet 2: <startRowKey2, Tablet 3: <startRowKey3, Tablet 4: <startRowKey4, endRowKey1>, endRowKey2>, endRowKey3>, endRowKey4>, root\bigtable\tablet1,…… root\bigtable\tablet2,…… root\bigtable\tablet3,…… root\bigtable\中查询行 ◦ 获取对应列的数据,解析,得到并展示最终结果
<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>

数据处理是定期的,非实时响应查询

Google搜索的总体业务流程
◦ 数据采集: Spider ◦ 数据整理
<com.xxx, <aaa.asp,0.9027> <bbb.asp,0.0088><ccc.asp,0.0885>>
<com.yyy, <bbb.asp,0.0435> <ccc.asp,0.4348><ddd.asp,0.5217>> <com.zzz, <aaa.asp,0.0769> <bbb.asp,0.0769><ddd.asp,0.0769> <ccc.asp,0.7692>>

Google--云计算平台--解析PPT课件

Google--云计算平台--解析PPT课件

3. Google的云应用
特点:
基于其自身的云计算基础设施 应用了Web2.0技术 具有强大的多用户交互能力
17
3. Google的云应用
例子:Google Docs
基于Web的编辑工具 与Microsoft Office相近的编辑界面 易用的文档权限管理以及多用户操作记录 适用于多人协作编辑、项目进度监控等多
13
2. 产品介绍
分布式大规模数据库管理系统 BigTable:介绍
是基于分布式平台的数据库系统 由于一般的关系数据库的强一致性要求,
很难将其扩展到很大的规模 为了处理Google内部大量的格式化以及半
格式化数据, BigTable 是一种具有弱一 致性要求的大规模数据库系统
14
2. 产品介绍
8
2. 产品介绍
Google File System 文件系统:结构
下图表示了单个GFS的结构。
9
2. 产品介绍
Google File System 文件系统:架构
下图表示Google File System的系统架构。
一个GFS集群包含一个主服务器和多个块服务器,被多个客 户端访问。文件被分割成固定尺寸的块。在每个块创建的时 候,服务器分配给它一个不变的、全球惟一的64位块句柄对 它进行标识。块服务器把块作为linux文件保存在本地硬盘上, 并根据指定的块句柄和字节范围来读写块数据。为了保证可 靠性,每个块都会复制到多个块服务器上,缺省保存三个备 份。
6
2. 产品介绍
Google File System 文件系统:特性 Google文件系统中的文件读写模式和 传统的文件系统不同。
在Google应用(如搜索)中对

云计算培训材料.ppt

云计算培训材料.ppt

云计算培训材料.ppt幻灯片 1:云计算简介什么是云计算云计算是一种基于互联网的计算方式,通过这种方式,共享的软件资源、硬件资源和信息可以按需提供给计算机和其他设备。

它就像是一个巨大的虚拟资源库,用户可以根据自己的需求随时获取和使用其中的计算能力、存储空间、应用程序等服务。

幻灯片 2:云计算的特点超大规模云计算平台拥有庞大的服务器集群,能够提供强大的计算和存储能力。

虚拟化资源被虚拟化为多个逻辑实体,用户无需关心物理设备的细节。

高可靠性数据多副本容错、计算节点同构可互换等措施确保了服务的高可靠性。

通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用。

高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

按需服务用户可以根据自己的实际需求,灵活地获取和使用云计算资源。

幻灯片 3:云计算的服务模式IaaS(基础设施即服务)提供服务器、存储和网络等基础设施服务。

例如:_____云提供的云服务器。

PaaS(平台即服务)提供平台环境,让开发者能够快速部署和管理应用。

像_____的云开发平台。

SaaS(软件即服务)用户通过网络直接使用应用程序,无需安装和维护。

常见的如_____办公软件。

幻灯片 4:云计算的部署模式公有云由云服务提供商提供,面向广大公众和企业。

优点是成本低、规模大、灵活。

缺点是数据安全性和隐私性可能存在一定风险。

私有云为一个企业或组织单独构建,仅供内部使用。

具有较高的安全性和定制性,但建设和维护成本高。

混合云结合了公有云和私有云的特点,部分业务使用公有云,部分业务使用私有云。

实现了灵活性和安全性的平衡。

社区云由多个组织或社区共同使用和管理的云服务。

幻灯片 5:云计算的优势降低成本无需购买昂贵的硬件设备,按需使用资源,降低了初期投资和运营成本。

提高灵活性能够快速响应业务需求的变化,灵活调整资源配置。

增强可扩展性轻松应对业务增长带来的计算和存储需求的增加。

提高数据安全性专业的云服务提供商通常具备更强大的安全防护能力。

Google与云计算精品PPT课件

Google与云计算精品PPT课件
• Shareability
– Make sharing as easy as creating and saving
• Freedom
– Users don’t want their data held hostage
• Simplicity
– Easy-to-learn, easy-to-use
• Essentially infinite amount of disk • Essentially infinite amount of computation • (Assuming they can be parallelized)
Google and Cloud Computing
Google与云e Internet: From Hardware to Community • The Innovation: A Computing Cloud • Breakthroughs for Cloud Computing • Google Apps for Cloud Computing • Google Infrastructure for Cloud Computing
• Data stored on the cloud • Software & services on the cloud - Access via web browser • Based on standards and protocols - Linux, AJAX, LAMP, etc. • Accessible from any device
1 User-Centric 2 Task-Centric 3 Powerful 4 Intelligent
5 Affordable 6 Programmable

3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)

3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)

4 of 56
2.3 分布式锁服务Chubby 系统的约束条件
《云计算》第三版配套PPT课件
p1:每个acceptor只接受它得到的第一个决议。
p2:一旦某个决议得到通过,之后通过的决议必须和该决议保持一致。
p2a:一旦某个决议v得到通过,之后任何acceptor再批准的决议必须是v。 p2b:一旦某个决议v得到通过,之后任何proposer再提出的决议必须是v。 p2c:如果一个编号为n的提案具有值v,那么存在一个“多数派”,要么它们中没有谁批 准过编号小于n的任何提案,要么它们进行的最近一次批准具有值v。
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
为了保证决议的唯一性,acceptors也要满足一个约束条件:当且仅当 acceptors 没有收到编号大于n的请求时,acceptors 才批准编号为n的提案。
5 of 56
2.3 分布式锁服务Chubby 一个决议分为两个阶段
《云计算》第三版配套PPT课件
1
准备阶段
proposers选择一个提案并将它的编号设为n 将它发送给acceptors中的一个“多数派”
远程过程调用
客户端
Chubby
应用程序 程序率
客户端进程
主服务器
客户端
在客户这一端每个客户应用程序都有 一个Chubby程序库(Chubby Library),客户端的所有应用都是通 过调用这个库中的相关函数来完成的。

云计算基本概念介绍ppt课件

云计算基本概念介绍ppt课件

企业级应用
企业资源规划(ERP)
通过云计算平台,实现对企业资源的 统一规划和管理,提高资源利用效率 。
客户关系管理(CRM)
办公自动化(OA)
通过云计算平台,实现办公流程的自 动化和协同工作,提高工作效率。
利用云计算技术,整合客户数据,提 供个性化的服务和营销方案。
互联网应用
网页浏览
云计算可以提供快速、稳定的网 页浏览服务,改善用户体验。
与Google其他服务的集成
Google Cloud与Google的其他服务(如Gmail、Google Drive、YouTube等)紧密集 成,方便用户在不同平台之间共享数据和资源。
Microsoft Azure微软云服务
1 2 3
全面的云服务
Microsoft Azure提供了全面的云服务,包括计 算、存储、数据库、分析和人工智能等,可满足 不同规模和类型的企业需求。
和行动。
05 云计算优势与挑 战
优势分析
资源池化
弹性扩展
云计算通过虚拟化技术将物理资源抽象成 逻辑资源,实现资源的动态分配和按需使 用,提高资源利用率。
云计算平台可以根据业务需求自动扩展或 缩减资源,保证业务连续性,同时降低成 本。
按需付费
高可用性和容灾性
用户只需为使用的资源付费,避免了传统IT 建设中的浪费现象。
03
云计算
云计算将计算资源集中起来,并通过专门软件实现自动管理,无需人为
参与。用户可以动态申请部分资源,支持各种应用程序的运转,对于计
算资源有一定的独占性和排他性。
云计算架构及组成
• 云计算架构可分为三层:SaaS(软件即服务),PaaS(平台即服务)和IaaS(基础设施即服务)。 • SaaS:用户通过标准的Web浏览器就可以使用Internet上的软件。从用户角度看来,这意味着他们前期无需在

Google云计算平台PPT课件

Google云计算平台PPT课件
中小企业、大学、消费者会相对迅速地转 向基于Web的“云计算”技术
新的赢利模式
◦ 低廉的云计算给Google带来更多的流量,进而 带来更多的广告收入
承认“云计算”不会在一夜之间普及
◦ 大公司通常会慢慢地改变自己的习惯 ◦ 其它问题,例如“飞机问题”,以及在不能上网
时用户如何工作。
Google CEO 埃立克.施米特
计算机性能受磁盘利用率的影响大于受CPU利用率的影响, 当CPU利用率一定时,计算机性能随磁盘利用率的增高而线 性降低
计算机能源消耗受CPU利用率的影响大于受磁盘利用率的影 响,同时能源的消耗在磁盘利用率为50%,CPU利用率为 70%的时候取得最小值
2020/2/25
15
技术应用
2020/2/25
2020/2/25
13
安全管理
◦ 云安全设计原则(Siani Pearson)
最大限度的实现用户控制
信任的关键是建立信心和确保大众市场采用新技术,但如果缺乏 控制将导致用户的不信任
在云计算环境中,让用户完全控制自己的个人信息是比较困难 允许用户控制最为关键最为重要的个人信息 委托信任的第三方去管理个人信息
2020/2/25
6
在计算机上安装的传统软件是微软的根本
比尔·盖茨(Bill Gates)接受媒体采访时曾 提出:“我们致力于推动PC成为一切的 中心”
微软将自身的战略称为“软件加服务”
微软将Google的乐观称作是一厢情愿。 Microsoft CEO
◦ 利用Web软件收发电子邮件、处理文档和电子 史蒂夫.鲍尔默 表格、进行协作很方便吗?
◦ 属于部署在云端的应用执行环境 ◦ 支持Python和Java两种语言 ◦ 通过SDK提供Google的各种服务,如图形、MAIL和数据

云计算ppt课件

云计算ppt课件
- 34 -
云计算的应用—市场上主要的PaaS服务
Google Apps Python only BigTable
Heroku Ruby on Rails hosted on EC2
Force Apex Bungee Connect
Bungee Logic (a C-family language similar to C#) Microsoft!

作 消
I虚nfVo拟irrtum信aliaz息etdion

底层结构虚拟
虚拟存储 虚拟进程
- 22 -
云计算在中小企业的应用
服务/资源管理 信息管&理安&全安全
集成 & 开发 /
商业流程
用户界面 & 接口
虚拟应用
协 作
In虚fVVoi拟irrrttuum信aliaz息etddion


底层机构虚拟
Payments and Billing On-demand workforce (Mechanical Turk) Search (Alexa) Fulfilment web service Rackspace Mosso JungleDisk SliceHost
- 29 -
云计算的应用--PaaS 实现模式
DB2
Provisioning Manager v.5.1
WebSphere Application Server
资源管理栈
虚拟机
Apache
虚拟机
虚拟机
Tivoli 监控工具 Linux with Xen
虚拟机
云计算基础设施,可提供 托管或现场解决方案。
- 14 -

云计算PPT模板

云计算PPT模板
边缘计算支持
云计算结合边缘计算技术,为人工 智能应用提供低延迟、高可靠性的 计算与比较
Azure
微软推出的云平台,与 Windows系统深度集成,提 供丰富的开发工具和资源。
阿里云
国内领先的云平台,提供全面 的云计算服务,包括IaaS、 PaaS、SaaS等。
云计算安全与风险管
06

数据安全与隐私保护策略
数据加密
采用先进的加密算法和技术,确保数据在传输和存储过程中的安 全性。
数据脱敏
对敏感数据进行脱敏处理,降低数据泄露风险。
隐私保护
遵循隐私保护原则,最小化数据收集和使用,确保用户隐私不被 侵犯。
访问控制和身份认证机制设计
访问控制
建立完善的访问控制机制,根据用户角色和权限 分配访问资源,防止未经授权的访问。
安全审计和监控
建立安全审计和监控机制,实时监测和分析安全事件,及时发现并 应对潜在的安全问题。
THANKS.
分布式文件系统 如Hadoop的HDFS,提供高可靠性、高扩展性 的数据存储服务,支持海量数据的存储和访问。
3
分布式数据库
如HBase、Cassandra等,支持海量数据的存储 和高效访问,满足云计算环境下对数据一致性和 可用性的要求。
容器化技术
Docker容器技术
01
通过轻量级的虚拟化技术,将应用程序及其依赖项打包成一个
搭建私有云环境步骤及注意事项
安全性
确保私有云环境的安全性,采取必要的安全措施,如防火墙、入侵检测等。
可扩展性
考虑私有云环境的可扩展性,以便未来根据需求进行扩展和升级。
搭建私有云环境步骤及注意事项
高可用性
确保私有云环境的高可用性,采取冗 余设计、备份恢复等措施。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用场景分析1 ——Google网站流量分析
• 数据查询
– 从数据统计表中查询行 – 获取对应列的数据,解析,得到并展示最终结果
<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>
• 数据处理是定期的,非实时响应查询
应用场景分析2 ——Google搜索
• Google搜索的总体业务流程
– 数据采集: Spider – 数据整理
• 生成各类子表,如音乐表、生活搜索表、学术搜索表等 • 压缩数据表,清洗失效数据
– 数据检索
应用场景分析2 ——Google搜索
• 数据采集
– 通过若干Spider在网络上搜集数据 – 使用BigTable存储数据
• 行键:倒排的URL • 列键:网站名称、语言、HTML描述、图片、链接…… • 时间戳:记录不同时刻的网页快照
应用场景分析1 ——Google网站流量分析
• 数据采集
– 数据来源
• 页面内嵌脚本 • 点击行为脚本
– 应用服务器获取到数据后,存入BigTable
应用场景分析1 ——Google网站流量分析
• 数据采集
– 数据存储流程
向BigTable中写 入点击信息 寻找子表服务器 向内存临时子表写 入信息(含排序)
应用场景分析1 ——Google网站流量分析
• 数据处理
– 写入数据
• 应用程序将分析结果写入统计数据表
<com.xxx, <aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>> <com.yyy, <bbb.asp,0.0435><ccc.asp,0.4348><ddd.asp,0.5217>> <com.zzz, <aaa.asp,0.0769><bbb.asp,0.0769><ddd.asp,0.0769><ccc.asp,0.7692>>
<com.xxx, <aaa.asp,2><bbb.asp,1>> <com.yyy, <bbb.asp,1>> <com.zzz, <aaa.asp,1><bbb.asp,1>>
应用场景分析1 ——Google网站流量分析
• 数据处理:MapReduce
– 自动排序
• 对M个中间结果进行排序
<com.xxx, <aaa.asp,2><bbb.asp,1>> <com.yyy, <bbb.asp,1>> <com.zzz, <aaa.asp,1><bbb.asp,1>> <com.yyy, <ccc.asp,10><ddd.asp, 12>> <com.xxx, <aaa.asp,100><ccc.asp,10>> <com.zzz, <ddd.asp,1><ccc.asp, 10>> <com.xxx, <aaa.asp,2><bbb.asp,1>> <com.xxx, <aaa.asp,100><ccc.asp,10>> <com.yyy, <bbb.asp,1>> <com.yyy, <ccc.asp,10><ddd.asp, 12>> <com.zzz, <aaa.asp,1><bbb.asp,1>> <com.zzz, <ddd.asp,1><ccc.asp, 10>>
– 每个子表都被分配给一个子表服务器 – 一个子表服务器可同时分配多个子表 – 子表服务器负责对外提供服务,响应查询请求
Google云计算的技术架构
• MapReduce的作用
– 对BigTable中的数据进行并行计算处理(如统计、归 类等) – 使用BigTable或GFS存储计算结果
Google云计算应用 Google云计算应用 MapReduce BigTable GFS Chubby
Google云计算应用 Google云计算应用
MapReduce GFS BigTable Chubby
Google云计算的技术架构
• 组件调用关系分析
Google云计算应用 Google云计算应用 MapReduce BigTable GFS Chubby
Google云计算的技术架构
• Chubby的作用
应用场景分析2 ——Google搜索
• 数据采集
– Spider可能的数据处理流程
Spider获取到网页 数据 从Chubby的元数据中 找到该URL所处的子表 对应行 应 行 该行 的行 数据 数据 数 处 数据 取网页 数据 从子表服务器中寻找 对应的行 存 在 对
应用场景分析2 ——Google搜索
如超过阈值则存储 为子表文件
子表合并、压缩
GFS:存储子表文 件
应用场景分析1 ——Google网站流量分析
• 数据处理
– 例如,统计网站(如)过去一周网页访问比例 – 数据处理流程
MapReduce操作
数据查询
数据存储
点击数据表
统计数据表
GFS
应用场景分析1 ——Google网站流量分析
• 数据整理
– Google搜索包括多个子类
• 生活搜索:租房、车票、酒店等 • 资讯搜索:热门新闻、分类新闻等 • 学术搜索:学术论文
具有统一的数据来源
使用不同的表存储数据
可能使用MapReduce定期刷新数据
– 定期计算网站评价数据
• 例如PageRank的计算
应用场景分析2 ——Google搜索
MapReduce BigTable GFS Chubby
Google云计算的技术架构
• GFS的作用
– 存储BigTable的子表文件 – 为第三方应用提供大尺寸文件存储功能 – 文件读操作流程
• API与Master通信,获取文件元信息 • 根据指定的读取位置和读取长度,API发起并发操作,分别从 若干ChunkServer上读取数据 Google云计算应用 Google云计算应用 • API组装所得数据,返回结果
Google云计算应用 Google云计算应用 MapReduce BigTable GFS Chubby
Google云计算的技术架构
• BigTable的存储与服务请求的响应
– 划分为子表存储,每个子表对应一个子表文件,子表 文件存储于GFS之上 – BigTable通过元数据组织子表
Tablet 1: <startRowKey1, Tablet 2: <startRowKey2, Tablet 3: <startRowKey3, Tablet 4: <startRowKey4, endRowKey1>, endRowKey2>, endRowKey3>, endRowKey4>, root\bigtable\tablet1,…… root\bigtable\tablet2,…… root\bigtable\tablet3,…… root\bigtable\tablet4,……
应用场景分析1 ——Google网站流量分析
• Google Analytics
– 免费的企业级网络分析解决方案 – 帮助企业了解网站流量和营销效果 – 能以灵活的方式(各类报表)查看并分析流量数据
应用场景分析1 ——Google网站流量分析
应用场景分析1 ——Google网站流量分析
• 基本功能
• 数据整理(Google学术搜索)
应用场景分析2 ——Google搜索
• 数据整理(Google学术搜索)
– 数据抽取
• BigTable中的表设计
– 统计数据表
• 行键:网站URL(倒排) • 列键:点击次数(如记录最近一个月每日的访问次数等)、页 面关注度(如记录网站页面的访问比率)、来源网站(如记录 TOP10)、目标网站(如记录TOP10)… • 每个列中记录的内容是字符串,Analytics在查询后需要解析 字符串获得统计结果 • 可根据统计内容的增多增加新的列 • 目前尺寸约20TB
• 数据处理:MapReduce
– Map操作
• 假设过去一周查询结果文件在GFS中包含M个Chunk,那么 Master寻找M个空闲的Worker,分别处理这M个Chunk,得到每 个网站中页面的访问次数
<com.xxx, aaa.asp> <com.yyy, bbb.asp> <com.zzz, aaa.asp> <com.xxx, bbb.asp> <com.xxx, aaa.asp> <com.zzz, bbb.asp>
应用场景分析1 ——Google网站流量分析
• 数据处理:MapReduce
– Reduce操作
• 假设得到该网站含N个网站,那么可以分配N台Worker分别处理 单个网站的数据
<com.xxx, <aaa.asp,2><bbb.asp,1>> <com.xxx, <aaa.asp,100><ccc.asp,10>> <com.yyy, <bbb.asp,1>> <com.yyy, <ccc.asp,10><ddd.asp, 12>> <com.zzz, <aaa.asp,1><bbb.asp,1>> <com.zzz, <ddd.asp,1><ccc.asp, 10>> <com.xxx, <aaa.asp,0.9027> <bbb.asp,0.0088><ccc.asp,0.0885>> <com.yyy, <bbb.asp,0.0435> <ccc.asp,0.4348><ddd.asp,0.5217>> <com.zzz, <aaa.asp,0.0769> <bbb.asp,0.0769><ddd.asp,0.0769> <ccc.asp,0.7692>>
相关文档
最新文档