大数据与云计算PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。
. 2021/1/22
16 16
弹性化和可扩展性
• 弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计 算能力随着用户需求变化而增加或减少。
• 水平扩展
• 向外扩展 Scale out—增加资源 • 向内收缩 Scale in—减少资源
Windows Azure Google App Engine MapReduce
计算服务
存储服务
Computing Service
Storage Service
虚拟化
物理资源
. 2021/1/22
20 20
云服务应用的部署模型
• 公有云 Public cloud • 私有云 Private cloud • 社区云 Community cloud • 混合云 Hybrid cloud
• 垂直扩展
• 向上扩展 Scale up—提升CPU和内存 • 向下收缩 Scale down –降低CPU和内存
. 2021/1/22
云服务器
17 17
面向服务 Service Orientation
• 云计算的独特特征是服务导向或面向服务,就是将 计算和存储资源作为服务供用户使用
• 服务的收费方式是谁使用谁付钱,例如: • 付使用存储服务的费用 • 付使用CPU的费用 • 付使用数据库软件的费用 • 用户不拥有这些资源,因此不需维护它们
. 2021/1/22
21 21
大纲
大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例
.
22
22
挑战性的技术问题
病人健康 1. Patient 医疗数据 Information
没有有效的数据集 成就不能进行有效 的综合数据分析
Hospital events ....admission, surgery, recovery, discharge
•Map 和 Reduce 两 个基本操作 •大规模分布计算 •可扩展性
运行时系统
程序运行
•负载平衡 •任务调度 •容错
虚拟文件系统
数据划分
•GFS (Google) •HDFS (Hadoop)
.
2021/1/22
29
29
文件 文件 文件 文件 文件
文件划 分
MapReduce编程模型
用户编程
程序写成Map和Reduce两步运算
2TB • 电讯:广东中国移动每天产生
通话记录数据
• 零售:Wal-Mart每天产生2.6亿个交易记录,其数据中心存储4PB
的交易数据
42TB • 互联网: Amazon有5900万活跃客户,超过
的客户数据
.
2021/1/22
28
28
云计算海量数据处理的核心技术
MapReduce 编程模型
算法编程
1. Map统计单个文本词频 2. Reduce综合所有文本的词频
主节点
(Map)
(Reduce)
节点
节点
节点 节点
输出 输出
节点
Map 运算
Reduce 运算 结果输出
.
30
30
MapReduce 管道式运算
K-均值聚类
输入
2021/1/22
MR MR MR
MR
MR MR MR
MR
MR MR MR
Personal genomics
Analysis lab notes
23 23
挑战性的科学问题
f1 f2 f3 f4 f5 … 1 2
n-4 n-3 n-2 n-1 n
成千上万个属性
超高维问题
1. 混合数据类型 2. 缺省值/噪声 3. 相关性问题 4. Unbalance 5. Subspace property 6. Uninformativeness
• 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理 和活动数据 及时提供需要的医疗服务
.
7
7
大数据的价值 (Value)
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门 管理
每年2500亿欧元 每年生产率增长约0.7%
8 8
大数据的产生
社会媒体网络 (每个人都在产生数据)
科学仪器 (采集不同类型的数据)
移动终端 (个人地理信息数据)
传感器网络 (测量不同类型的数据)
• 数据的发展和创新将不再是如何生成和采集数据
• 具备对采集的数据进行管理、分析、总结、可视化展示和知识 发现的能力已经成为新的挑战
.
9
9
大数据的技术挑战
Velocity 数据变化数据快
Value
价值
.
Variety 数据属性复杂
4 4
• 数据的量呈现指数增长
• 2009年至2020年将增加44倍 • 数据的体量从0.8 zettabytes增
加到35ZB
生成和采集的数 据将按指数增长
根据麦肯锡预计美国超过1000雇员
的公司,平均每个公司存有200TB的
组变量相当于在高空看 数据,大轮廓清晰
属性变量相当于在低空
看数据,细节清晰
.
25
25
SRF:基于MapReduce大数据随机森林算法
Layer
宽度优先、大规模分层建树策略
.
26 26
大数据随机森林算法研究成果
属性加权抽样随机森林模型
属性加权抽样随机森林算法,用于超高维 数据分类,平均精度提高20%。
数据融合
Acc(feussstiooDniv) erse H数ete据rog集en成eous (inDitsetrgibruatetdioDanta)
挑战
X-rays, MRI, mamograms, etc
Clinical Record
.
Expression Arrays
(various tissues)
的数据
为了提取知识 尽可能多elocity
• 数据的采集速度的加快导致处理时间都需要有相应的提高 • 在线数据分析 (Online Data Analytics) • 决策的延误 商机的消失 • 实例
• 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测用 户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺
• 通过网络和资源 虚拟技术,实现计算及存储资源集中管理, 面向用户提供服务
• 云计算可以解决目前计算机使用的诸多问题,是计 算技术发展的一个新的里程碑
传统计算机的问题
云计算的优点
•使用成本高 •资源分散 •资源不足 •资源浪费 •高能耗 •环境污染
•成本低 •易于普及 •可扩展能力高 •节能 •环保
游戏、时间、动作、结果等,TB级数据 • 分析需求:
• 用户行分类与预测,用户行为客户群划分 • 用户挽留、用户奖励和级别提升
• 某电信公司
• 深度包检测(DPI)大数据分析,研究客户互联网行为模 型,流量分析,数据套餐设计
• 百万人口城市,每天数据量TB级
.
11
11
云计算
• 云计算是一种新的大规模分布式计算模式
.
2021/1/22
12
12
云计算的五个基本特征
1. 按需自助服务 (On-demand self-service) 2. 广泛的网络接入 (Broad network access) 3. 资源池 (Resource pooling) 4. 快速弹性化 (Rapid elasticity ) 5. 可度量的服务 (Measured Service)
大数据与云计算: --信息技术发展的新纪元
.
1
1
大纲
大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例
.
2
2
什么是大数据
对数据的使用者来讲,如果数据集超出了使用者所拥有的信 息处理和分析的能力,就给使用者带来了大数据问题
.
3
3
大数据V特征
Volume 数据规模大
大数据的特点并不只是 数据规模大
MR
?
?
?
?
?
Map
Reduce
输出
对象分簇
重新计算 簇中心点
.
收敛?
31 31
基于云计算的大数据分析平台
以区域性智能数据中心及 高速互联网为基础设施
以互联网服务体系为架构 以大数据存储、处理、挖
掘和交互式可视化分析等 关键技术为支撑 通过多样化移动智能终端 及移动互联网为用户提供 数据存储、管理及分析服 务。
. 2021/1/22
13 13
云环境 (A Cloud)
• 云指的是一个遥远的计算环境,这个环境是用来为计算环境外的 用户提供可扩展和可度量的计算资源。
• 用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可 能在内蒙古。
. 2021/1/22
14 14
云环境的计算资源
• 物理服务器—CPU, 内存, 外存(磁盘、磁带) • 虚拟服务器—CPU, 内存, 外存 • 软件 • 服务 (应用)
区域智能数据中心
支持多种终端访问
.
区域智能数据中心
32 32
支撑海量数据处理、 挖掘与分析运算
云计算引擎
Open API 提供数据挖掘平台 与第三方应用系统
的扩展接口
关键技术
数据处理分析流程图形化 设计数据处理分析流程 自动执行资源调度及优化
工作流引擎
大数据分析平台
.
提供海量复杂数据 处理、分析与挖掘
. 2021/1/22
19 19
云计算架构 Cloud Architecture
Software as a Service (SaaS)
CRM
ERP
DBMS
CAD/CAM POS
Platform as a Service (PaaS)
Infrastructure as a Service (IaaS)
百万以上 甚至超亿 个记录
大数据集的挑战 (Big Data Matrix)
.
24 24
超高维数据聚类算法研究
1. 对属性变量做分组归 并,产生组变量
组变量
2. 对组变量和属性变量 分层加权重
3. 扩展软子空间聚类算 法EWKM,在聚类过 程中自动计算组变量 权重值和属性变量权 重值
属性变量
4. 最后得到以组变量为 主的子空间聚类结果
• 存储 – 分布式、低成本 • 传输 – 能力、成本 • 处理 – 集成、融合、处理 • 分析 – 能力、效率 • 挖掘 – 方法、能力、技术、平台 • 应用 • 能耗
.
10
10
互联网与电讯行业需求
• 某互联网公司
• 100多在线游戏,4亿在线游戏用户 • 在线系统记录每个游戏用户在线玩游戏的详细数据,包括
全球个人定位 数据
1000亿+的服务供应商收入 为终端用户带来高达7000
亿美的价值
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研发、 组装成本
最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美元来进行衡量,
大数据将会给信息技术领. 域带来一个新的增长点。
.
27 27
云计算与大数据分析
• 数据挖掘是从数据中发现知识的方法和过程,是解 决各种科学和应用问题的重要手段
• 由于数据的快速增长,传统的数据挖掘技术和软件
云 为正••计大面银金行融临算数::极人南的据方民大银基的优挖行金征公瓶点掘司信颈系有是提近统收10处供录0了0自理了万然客人海新户6资.量4的料亿需数计人要分的据算析信贷的平记录能台力,
高可扩展算法 高性能海量数据挖
随机森林模型并行化实现
分布式高可扩展随机森林分类算法,实现 了对千万个客户记录、千个变量、100GB 规模数据的建模能力。
研究成果国际化应用
与澳大利亚联邦税务总局数据挖掘首席 科学家Graham Williams合作,将随机 森林算法用于ATO缴税分类建模。
研究成果国际化推广
将分布式随机森林算法发布到国际著名 的统计分析平台 R 系统上,扩大国际影 响力。
数据,很多行业的公司,如银行、电
讯、互联网、政府部门等,平均存储
的数据超过1个PB。
.
5
5
大数据的多样性Variety
• 不同的数据格式,数据类型和数据结 构
• 文本、数字、图像、音频、视频、时 间序列、社会媒体数据、高维矩阵数 据等
• 静态数据 vs. 流数据 • 同一个应用可以生成和采集不同类型
物理服务器
2021/1/22
虚拟服务器
.
软件
服务
15 15
虚拟化是云计算的核心技术
• 虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用, 多个用户共享物理服务器的资源,但用户对虚拟服务器的体验 是独立的计算机。用户不需要了解物理服务器
• 虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户 不需要维护。
. 2021/1/22
18 18
云计算的三种基本服务模式
• 云设施服务 Cloud Infrastructure as a Service (IaaS) • 云平台服务 Cloud Platform as a Service (PaaS) • 软件作为服务 Cloud Software as a Service (SaaS)
. 2021/1/22
16 16
弹性化和可扩展性
• 弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计 算能力随着用户需求变化而增加或减少。
• 水平扩展
• 向外扩展 Scale out—增加资源 • 向内收缩 Scale in—减少资源
Windows Azure Google App Engine MapReduce
计算服务
存储服务
Computing Service
Storage Service
虚拟化
物理资源
. 2021/1/22
20 20
云服务应用的部署模型
• 公有云 Public cloud • 私有云 Private cloud • 社区云 Community cloud • 混合云 Hybrid cloud
• 垂直扩展
• 向上扩展 Scale up—提升CPU和内存 • 向下收缩 Scale down –降低CPU和内存
. 2021/1/22
云服务器
17 17
面向服务 Service Orientation
• 云计算的独特特征是服务导向或面向服务,就是将 计算和存储资源作为服务供用户使用
• 服务的收费方式是谁使用谁付钱,例如: • 付使用存储服务的费用 • 付使用CPU的费用 • 付使用数据库软件的费用 • 用户不拥有这些资源,因此不需维护它们
. 2021/1/22
21 21
大纲
大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例
.
22
22
挑战性的技术问题
病人健康 1. Patient 医疗数据 Information
没有有效的数据集 成就不能进行有效 的综合数据分析
Hospital events ....admission, surgery, recovery, discharge
•Map 和 Reduce 两 个基本操作 •大规模分布计算 •可扩展性
运行时系统
程序运行
•负载平衡 •任务调度 •容错
虚拟文件系统
数据划分
•GFS (Google) •HDFS (Hadoop)
.
2021/1/22
29
29
文件 文件 文件 文件 文件
文件划 分
MapReduce编程模型
用户编程
程序写成Map和Reduce两步运算
2TB • 电讯:广东中国移动每天产生
通话记录数据
• 零售:Wal-Mart每天产生2.6亿个交易记录,其数据中心存储4PB
的交易数据
42TB • 互联网: Amazon有5900万活跃客户,超过
的客户数据
.
2021/1/22
28
28
云计算海量数据处理的核心技术
MapReduce 编程模型
算法编程
1. Map统计单个文本词频 2. Reduce综合所有文本的词频
主节点
(Map)
(Reduce)
节点
节点
节点 节点
输出 输出
节点
Map 运算
Reduce 运算 结果输出
.
30
30
MapReduce 管道式运算
K-均值聚类
输入
2021/1/22
MR MR MR
MR
MR MR MR
MR
MR MR MR
Personal genomics
Analysis lab notes
23 23
挑战性的科学问题
f1 f2 f3 f4 f5 … 1 2
n-4 n-3 n-2 n-1 n
成千上万个属性
超高维问题
1. 混合数据类型 2. 缺省值/噪声 3. 相关性问题 4. Unbalance 5. Subspace property 6. Uninformativeness
• 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理 和活动数据 及时提供需要的医疗服务
.
7
7
大数据的价值 (Value)
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门 管理
每年2500亿欧元 每年生产率增长约0.7%
8 8
大数据的产生
社会媒体网络 (每个人都在产生数据)
科学仪器 (采集不同类型的数据)
移动终端 (个人地理信息数据)
传感器网络 (测量不同类型的数据)
• 数据的发展和创新将不再是如何生成和采集数据
• 具备对采集的数据进行管理、分析、总结、可视化展示和知识 发现的能力已经成为新的挑战
.
9
9
大数据的技术挑战
Velocity 数据变化数据快
Value
价值
.
Variety 数据属性复杂
4 4
• 数据的量呈现指数增长
• 2009年至2020年将增加44倍 • 数据的体量从0.8 zettabytes增
加到35ZB
生成和采集的数 据将按指数增长
根据麦肯锡预计美国超过1000雇员
的公司,平均每个公司存有200TB的
组变量相当于在高空看 数据,大轮廓清晰
属性变量相当于在低空
看数据,细节清晰
.
25
25
SRF:基于MapReduce大数据随机森林算法
Layer
宽度优先、大规模分层建树策略
.
26 26
大数据随机森林算法研究成果
属性加权抽样随机森林模型
属性加权抽样随机森林算法,用于超高维 数据分类,平均精度提高20%。
数据融合
Acc(feussstiooDniv) erse H数ete据rog集en成eous (inDitsetrgibruatetdioDanta)
挑战
X-rays, MRI, mamograms, etc
Clinical Record
.
Expression Arrays
(various tissues)
的数据
为了提取知识 尽可能多elocity
• 数据的采集速度的加快导致处理时间都需要有相应的提高 • 在线数据分析 (Online Data Analytics) • 决策的延误 商机的消失 • 实例
• 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测用 户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺
• 通过网络和资源 虚拟技术,实现计算及存储资源集中管理, 面向用户提供服务
• 云计算可以解决目前计算机使用的诸多问题,是计 算技术发展的一个新的里程碑
传统计算机的问题
云计算的优点
•使用成本高 •资源分散 •资源不足 •资源浪费 •高能耗 •环境污染
•成本低 •易于普及 •可扩展能力高 •节能 •环保
游戏、时间、动作、结果等,TB级数据 • 分析需求:
• 用户行分类与预测,用户行为客户群划分 • 用户挽留、用户奖励和级别提升
• 某电信公司
• 深度包检测(DPI)大数据分析,研究客户互联网行为模 型,流量分析,数据套餐设计
• 百万人口城市,每天数据量TB级
.
11
11
云计算
• 云计算是一种新的大规模分布式计算模式
.
2021/1/22
12
12
云计算的五个基本特征
1. 按需自助服务 (On-demand self-service) 2. 广泛的网络接入 (Broad network access) 3. 资源池 (Resource pooling) 4. 快速弹性化 (Rapid elasticity ) 5. 可度量的服务 (Measured Service)
大数据与云计算: --信息技术发展的新纪元
.
1
1
大纲
大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例
.
2
2
什么是大数据
对数据的使用者来讲,如果数据集超出了使用者所拥有的信 息处理和分析的能力,就给使用者带来了大数据问题
.
3
3
大数据V特征
Volume 数据规模大
大数据的特点并不只是 数据规模大
MR
?
?
?
?
?
Map
Reduce
输出
对象分簇
重新计算 簇中心点
.
收敛?
31 31
基于云计算的大数据分析平台
以区域性智能数据中心及 高速互联网为基础设施
以互联网服务体系为架构 以大数据存储、处理、挖
掘和交互式可视化分析等 关键技术为支撑 通过多样化移动智能终端 及移动互联网为用户提供 数据存储、管理及分析服 务。
. 2021/1/22
13 13
云环境 (A Cloud)
• 云指的是一个遥远的计算环境,这个环境是用来为计算环境外的 用户提供可扩展和可度量的计算资源。
• 用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可 能在内蒙古。
. 2021/1/22
14 14
云环境的计算资源
• 物理服务器—CPU, 内存, 外存(磁盘、磁带) • 虚拟服务器—CPU, 内存, 外存 • 软件 • 服务 (应用)
区域智能数据中心
支持多种终端访问
.
区域智能数据中心
32 32
支撑海量数据处理、 挖掘与分析运算
云计算引擎
Open API 提供数据挖掘平台 与第三方应用系统
的扩展接口
关键技术
数据处理分析流程图形化 设计数据处理分析流程 自动执行资源调度及优化
工作流引擎
大数据分析平台
.
提供海量复杂数据 处理、分析与挖掘
. 2021/1/22
19 19
云计算架构 Cloud Architecture
Software as a Service (SaaS)
CRM
ERP
DBMS
CAD/CAM POS
Platform as a Service (PaaS)
Infrastructure as a Service (IaaS)
百万以上 甚至超亿 个记录
大数据集的挑战 (Big Data Matrix)
.
24 24
超高维数据聚类算法研究
1. 对属性变量做分组归 并,产生组变量
组变量
2. 对组变量和属性变量 分层加权重
3. 扩展软子空间聚类算 法EWKM,在聚类过 程中自动计算组变量 权重值和属性变量权 重值
属性变量
4. 最后得到以组变量为 主的子空间聚类结果
• 存储 – 分布式、低成本 • 传输 – 能力、成本 • 处理 – 集成、融合、处理 • 分析 – 能力、效率 • 挖掘 – 方法、能力、技术、平台 • 应用 • 能耗
.
10
10
互联网与电讯行业需求
• 某互联网公司
• 100多在线游戏,4亿在线游戏用户 • 在线系统记录每个游戏用户在线玩游戏的详细数据,包括
全球个人定位 数据
1000亿+的服务供应商收入 为终端用户带来高达7000
亿美的价值
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研发、 组装成本
最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美元来进行衡量,
大数据将会给信息技术领. 域带来一个新的增长点。
.
27 27
云计算与大数据分析
• 数据挖掘是从数据中发现知识的方法和过程,是解 决各种科学和应用问题的重要手段
• 由于数据的快速增长,传统的数据挖掘技术和软件
云 为正••计大面银金行融临算数::极人南的据方民大银基的优挖行金征公瓶点掘司信颈系有是提近统收10处供录0了0自理了万然客人海新户6资.量4的料亿需数计人要分的据算析信贷的平记录能台力,
高可扩展算法 高性能海量数据挖
随机森林模型并行化实现
分布式高可扩展随机森林分类算法,实现 了对千万个客户记录、千个变量、100GB 规模数据的建模能力。
研究成果国际化应用
与澳大利亚联邦税务总局数据挖掘首席 科学家Graham Williams合作,将随机 森林算法用于ATO缴税分类建模。
研究成果国际化推广
将分布式随机森林算法发布到国际著名 的统计分析平台 R 系统上,扩大国际影 响力。
数据,很多行业的公司,如银行、电
讯、互联网、政府部门等,平均存储
的数据超过1个PB。
.
5
5
大数据的多样性Variety
• 不同的数据格式,数据类型和数据结 构
• 文本、数字、图像、音频、视频、时 间序列、社会媒体数据、高维矩阵数 据等
• 静态数据 vs. 流数据 • 同一个应用可以生成和采集不同类型
物理服务器
2021/1/22
虚拟服务器
.
软件
服务
15 15
虚拟化是云计算的核心技术
• 虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用, 多个用户共享物理服务器的资源,但用户对虚拟服务器的体验 是独立的计算机。用户不需要了解物理服务器
• 虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户 不需要维护。
. 2021/1/22
18 18
云计算的三种基本服务模式
• 云设施服务 Cloud Infrastructure as a Service (IaaS) • 云平台服务 Cloud Platform as a Service (PaaS) • 软件作为服务 Cloud Software as a Service (SaaS)