数据科学与大数据技术导论-第3章-大数据与云计算
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.2.4 云平台技术
谷歌云平台
谷歌云平台主要由网络系统、硬件系统、软件 系统和应用服务组成。
网络系统:包括了内部网络与外部网络。 硬件系统:包括服务器、整合服务器的服务器 机架和连接服务器机架的数据中心。 软件系统:包括每个服务器的单机操作系统和 底层软件系统,底层软件系统有文件系统等。 应用服务:主要包括内部使用的软件开发工具、 PAAS平台服务和SAAS服务。
· 扩展安全性能 · 控制成本 · 引入新技术
3.1.4 云计算的分类
差异点
合同形式 标准化程度 建设模式 盈利模式
周期 云服务商成本
运营模式 用户关注点 客户群体
公有云
租用制(产品化程度不明显) 高,自服务,定制化少
投入成本设计建设机房,提供客户租用 后续收取租用费用(单个订单收费较低)
5-10年后规模效应盈利 高昂(需建设机房) 规模化服务、长期运营回收成本 价格敏感,使用便捷 中小型传统企业、互联网企业及个人
03
单用户单处理机模式
多个用户可通过分 时技术共享单处理机的 资源,这种计算方式也 被称为集中式计算。
03
分布式计算模式
3.1.1 云计算的概念
云计算的定义
狭义的云计算:服务提供商通过分布式 计算和虚拟化技术建立数据中心或超级计算 机,为用户提供数据存储、科学计算等服务。
广义的云计算:服务提供商通过建立网 络服务器集群,向不同类型的客户提供在线 软件使用、数据存储、硬件借租等服务。
3.1.1 云计算的概念
云计算的优势
云计算大大消 减了企业信息化的 成本投入,按需付 费降低了信息化投 资,使企业重心转 向业务,提高工作 效率和企业的利润。
对企业
对个人
对于偶尔需要 云服务或使用云服 务频率低的用户来 说,成本的节约也 就更加明显,性价 比也就更高。
3.1.2 云计算的特点
超大规模 云计算中心的
08
自动化管理 云计算平台通过自动 化管理,例如软硬件的管 理、资源服务的部署等。
运维机制完善
10
有专业团队帮 助用户管理信息,
有强大的数据中心
帮用户存储数据等。
资源利用率高 云计算将许多分散在
低效率服务器上的工作整 合到云中,利用高效率和 高计算能力的计算机计算 处理。
3.1.3 云计算的体系架构
3.2.2 分布式技术
去中心化体系架构不存在中心节点,每 个节点的功能作用几乎都是相等的,相较于 中心化体系架构均衡了负载。
通常来说系统中的一个节点一般只与自 己的邻居交互,而不知道系统中的所有节点 信息,需要思考的是如何将这些节点组织到 一个网络中,以提高各节点的信息处理能力。
3.2.2 分布式技术
01
云计算概述
PART ONE
3.1.1 云计算的概念
一台计算机只能为 一个用户服务,且用户 在该系统上执行应用程 序时不能访问其他计算 机。
多用户单处理机模式
02
多台计算机通过网 络互联并行计算,每台 计算机有自己的处理器 和资源,用户可通过工 作站实现对资源的请求 和对数据的计算处理等。
01
用户访问接口层 用户通过访问接口获 得所需的服务,用户接口 包括Web服务、Web门户、 命令行等。
3.1.4 云计算的分类
所属关系
公有云 私有云 混合云
云计算 的分类
服务模式
基础设施 即服务
平台即服务 软件即服务
数据即服务
3.1.4 云计算的分类
公有云
概念
公有云指由云提供商为用 户提供的云服务,能够提供资 源的网络在企业的防火墙之外。
· 使用门槛低 · 可扩展性强 · 管理方便 · 使用灵活 · 技术虚拟化
3.1.4 云计算的分类
平台即服务——PaaS
概念 特点
PaaS指将软件开发平台作 为服务,用户可根据自己实际 的需要开发应用程序,这种服 务模式支持了不同行业、不同 企业、不同业务的多种需求。
· 提供的平台较为基础 · 提供技术支持 · 提供有价值的资源平台
云计算能够高速响应用户的需求,提供用户所需的服务,其体系架 构可分为三层,即核心服务层、服务管理层和用户访问接口层。
3.1.3 云计算的体系架构
01
02
03
核心服务层 云计算服务通过对大量 用网络连接的计算资源进行 统一管理调度,构建成一个 计算资源池向用户按需服务。
服务管理层 服务管理层主要负责 对云计算的资源、任务、 用户、安全等管理,对众 多任务进行合理调度,提 高资源的利用率。
3.2.3 虚拟化技术
软件虚拟化
概念 特点
软件虚拟化技术通过虚拟软件包 放置应用程序和数据,不需要传统的 安装流程,软件包只运行在自己的虚 拟环境中,可以瞬间被激活、瞬间失 效和恢复默认设置。
· 减小了应用程序冲突 · 减少了应用程序的导入时间 · 可运行同一应用程序的多个版本
3.2.3 虚拟化技术
3.1.4 云计算的分类
软件即服务——SaaS
概念
SaaS是指服务商将在线 服务软件提供给用户,包括应 用程序和实用工具等。
特点
· 部署简单 · 成本低 · 免费试用
3.1.4 云计算的分类
数据即服务——DaaS
概念
DaaS是指服务提供商能 够提供公共数据的访问服务, 还可以提供数据中潜在的价值。
数据科学与大数据技术导论
第3章 大数据与云计算
主编:王道平
本章教学要点
本章主要介绍云计算的相关理论概念。其中 需掌握云计算的概念和核心技术,核心技术包括 编程模型、分布式技术、虚拟化技术和云平台技 术;熟悉云计算的特点和分类;了解云计算的体 系架构和云计算与大数据的联系。
目录
3.1 云计算概述 3.2 云计算的核心技术 3.3 云计算与大数据的联系
逻辑接口,用户通过这些逻辑 接口实现资源的访问、存取。
文件虚拟化 把物理上分散存储的文件整
合成统一的逻辑接口,用户可对 存储在不同设备、不同区域上的 文件进行访问和管理。
3.2.3 虚拟化技术
系统虚拟化
系统虚拟化技术可将物理计算机与操作系统分离,实现了一台物理计算机可以运行多个虚拟 的操作系统。系统虚拟化的技术和虚拟机的运行环境可以不相同,但所有的虚拟运行环境都需要 为虚拟机提供一套虚拟的硬件环境,包括了虚拟的处理器、内存、设备与I/O、网络接口等。
分布式存储的体系架构的两种形式各有各的特点。中心化体系架构管理方便,可对节点直接 进行查询,但对中心节点的频繁访问加重了中心节点的负担,且中心节点的故障可能会影响整个 系统;去中心化体系架构均衡了每个节点的负载,但管理存在一定的难度,不能对节点进行直接 查询,系统高度依赖节点之间的通信,通信设备发生故障会对系统有一定的影响。
05
面向个人,解决软件
使用过程中的诸多问题。
06
SVS
主要用于企业软件的分
发,但无法同时运行同一个
软件的不同版本。
3.2.4 云平台技术
AMAZON云平台
Amazon公司的云计算服务平台称为Amazon Web Services,简称AWS,它为用户提供计算、存 储、数据库、应用程序等服务。
AWS云平台的整体架构采用去中心化的分布式 架构,存储采用了Dynamo架构,以键值对的方式、 位(bit)的形式存储数据,不对数据的具体内容进 行解析,不支持复杂的查询。购物车、推荐列表等 服务数据的存储需求只是简单的存取和写入,键值 对形式的存储正好满足其存储需求,用传统的关系 型数据库存储反而降低了存储的效率。
软件虚拟化 虚拟软件包。
3.2.3 虚拟化技术
基础设施虚拟化
硬件虚拟化 用软件虚拟出一台计算机 的硬件配置,硬件设备包括了 CPU、内存、硬盘等,即虚拟 裸机。
网络虚拟化 将网络硬软件资源相整合, 为用户提供网络连接的虚拟化技 术,网络实现方式是透明的。
01 03 02 04
存储虚拟化 为物理存储设备提供统一
MapReduce是一种简化的分布式编程模型,由 谷歌开发,支持Python、Java、C++语言,能实现 高效的任务调度,MapReduce将要解决的问题分解 成Map(映射)和Reduce(化简)的方式,先通过 Map程序将输入的数据集切分成许多独立不相关的 数据块,分配调度给大量的计算机进行并行运算、 处理,再由Reduce程序汇总输出结果。
软件虚拟化
Java虚拟机 能够实现“一次编译,处处执行”。
01
Sandbox IE
又称沙盘,用于软件测试和
04
安全领域,可将软件安装其中。
APP-V
主要用于企业内部软件分发。 02
VMware Thin Appa
03
应用于企业软件的分发,
不需要第三方平台,能够直
接将软件打包成单文件。
主要应用 产品
Softcloud
3.2.2 分布式技术
模块结构化 分布式计算的资源单位
通常相对独立,利于系统调 01
用,不会影响系统的整体性。
资源分散
计算机资源实际的地理 02
位置较分散,但通过互联网 可以将分散的资源进行整合。
分布式 计算特点
05
任务并行
当计算机同时处理多个任务
03
时,不同地理位置的计算机间可
以相互协作,共同完成任务。
性能 可扩展性 可维护性 执行效率 动态一致性 节点查询效率
两种体系架构的性能比较 中心化 低 高 高 低 高
去中心化 高 低 低 高 低
3.2.3 虚拟化技术
虚拟化技术的分类
基础设施虚拟化 硬件虚拟化、网络虚拟 化存储虚拟化、文件虚拟化。
01 02
03
系统虚拟化 虚拟的处理器、内存、
设备与I/O、网络接口等。
特点
· 快速获取IT资源 · 弹性伸缩 · 安全可靠
3.1.4 云计算的分类
私有云
概念 特点
云建立在企业自有设施的 基础之上,能够提供资源的网 络部署在防火墙之内,其核心 属性是专有资源。
· 安全可控 · 服务质量得到保证 · 兼容性良好
3.1.4 云计算的分类
混合云
概念 特点
混合云融合了公有云和私 有云,资源网络等基础设施一 般由企业创建,管理由企业和 公有云提供商共同负责。
特点
· 敏捷高效 · 数据来源广 · 数据资源利用率高
02
云计算的核心技术
PART TWO
3.2.1 编程模型
分布式技术
编程模型
01
02
云平台技术
03
云计算核心技术
3.2.1 编程模型
MapReduce
云计算以互联网服务和应用为中心,需要编程 模型来对数据进行快速地分析和处理。目前较为通 用的编程模型是MapReduce。
云计算的规模可以
进行动态伸缩调整。
通用性 可以为业界大多数的
应用提供服务,服务类型 多样,面对的对象也是多 样的。
3.1.2 云计算的特点
按需服务
云计算根据用
户的使用量进行收
06
云计算
费,用户无需进行
前期软硬件设备投
入,即可满足使用
计算机资源的需求。
07
09
低成本 云计算成本开销低, 可为服务提供商和用户 节省巨大的资金。
规模一般都很大, 01
可达上百万,较强 的计算和存储能力 能满足多用户的需
求。
虚拟化 用户请求的资源 和资源的运算都来自于 “云”,而不是固定的 有形实体。
云计算
02
04
03
高可靠性 云计算中心在软硬件层、 设施层面等采取了许多措施 来保障服务的高可靠性。
高可扩展性
05
可根据用户需 求合理安排资源,
私有云
项目制(产品化程度高) 低,定制化服务
利用客户资金或客户自建 项目制收取一次型费用+后续管理费用
(单笔订单收费高) 一项一结,盈利周期短
低廉 定制化服务,无法形成规模效益
可控性强,安全性好 政企大客户
3.1.4 云计算的分类
基础设施即服务——IaaS
概念 特点
ห้องสมุดไป่ตู้
服务提供商将完善的计算 机基础设施资源作为服务提供 给用户,用户可通过互联网获 得服务,例如服务器、数据库 等。
3.2.2 分布式技术
分布式计算
分布式计算是指将分布在不同地理位置的计算 机资源,通过互联网组成共享资源的集群,能够提 供高效快速计算、管理等服务。使稀有资源可以共 享,各计算机的计算负载能力得到平衡。
分布式计算的思想是把大的任务分割成若干较 小的任务单元,通过互联网分配给不同的计算机计 算处理,并将计算结果返回,最终汇总计算结果。
整体强健
04
对于系统资源的操
作是高度自治的,系统
的局部性破坏不影响整
体。
实时性强 通过资源的高度共享和任务的细化再整 合,提高了计算速度,用户需求可快速响应。
3.2.2 分布式技术
分布式存储
分布式存储的体系架构有两种形式:中心化体 系架构和去中心化体系架构。
中心化体系架构是以系统中的一个节点作为中 心节点,其余节点直接与中心节点相连接所构成的 网络。所有的分布式请求以及处理结果的返回都要 经过中心节点,中心节点的负载较重,一般都会设 置副中心节点,当中心节点出现故障无法正常工作 时,副中心节点将会接替中心节点的工作。