大数据与云计算
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据
1000亿+的服务供应商收入 为终端用户带来高达7000
亿美的价值
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研发、 组装成本
最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美元来进行衡量, 大数据将会给信息技术领域带来一个新的增长点。
游戏、时间、动作、结果等,TB级数据 • 分析需求:
• 用户行分类与预测,用户行为客户群划分 • 用户挽留、用户奖励和级别提升
• 某电信公司
• 深度包检测(DPI)大数据分析,研究客户互联网行为模 型,流量分析,数据套餐设计
• 百万人口城市,每天数据量TB级
11
云计算
• 云计算是一种新的大规模分布式计算模式
• 数据的采集速度的加快导致处理时间都需要有相应的提高 • 在线数据分析 (Online Data Analytics) • 决策的延误 商机的消失 • 实例
• 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测用 户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺
5
大数据的多样性Variety
• 不同的数据格式,数据类型和数据结 构
• 文本、数字、图像、音频、视频、时 间序列、社会媒体数据、高维矩阵数 据等
• 静态数据 vs. 流数据 • 同一个应用可以生成和采集不同类型
的数据
为了提取知识 尽可能多地综合 不同类型的相关数据
6
大数据的速度Velocity
2020/10/19
12
12
云计算的五个基本特征
1. 按需自助服务 (On-demand self-service) 2. 广泛的网络接入 (Broad network access) 3. 资源池 (Resource pooling) 4. 快速弹性化 (Rapid elasticity ) 5. 可度量的服务 (Measured Service)
• 存储 – 分布式、低成本 • 传输 – 能力、成本 • 处理 – 集成、融合、处理 • 分析 – 能力、效率 • 挖掘 – 方法、能力、技术、平台 • 应用 • 能耗
10
互联网与电讯行业需求
• 某互联网公司
• 100多在线游戏,4亿在线游戏用户 • 在线系统记录每个游戏用户在线玩游戏的详细数据,包括
8
大数据的产生
社会媒体网络 (每个人都在产生数据)
科学仪器 (采集不同类型的数据)
移动终端 (个人地理信息数据)
传感器网络 (ห้องสมุดไป่ตู้量不同类型的数据)
• 数据的发展和创新将不再是如何生成和采集数据
• 具备对采集的数据进行管理、分析、总结、可视化展示和知识 发现的能力已经成为新的挑战
9
大数据的技术挑战
物理服务器
虚拟服务器
2020/10/19
软件
服务
15 15
虚拟化是云计算的核心技术
• 虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用, 多个用户共享物理服务器的资源,但用户对虚拟服务器的体验 是独立的计算机。用户不需要了解物理服务器
• 虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户 不需要维护。
• 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理 和活动数据 及时提供需要的医疗服务
7
大数据的价值 (Value)
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门
管理
每年2500亿欧元 每年生产率增长约0.7%
全球个人定位
• 通过网络和资源 虚拟技术,实现计算及存储资源集中管理, 面向用户提供服务
• 云计算可以解决目前计算机使用的诸多问题,是计 算技术发展的一个新的里程碑
传统计算机的问题
•使用成本高 •资源分散 •资源不足 •资源浪费 •高能耗 •环境污染
云计算的优点
•成本低 •易于普及 •可扩展能力高 •节能 •环保
2020/10/19
13 13
云环境 (A Cloud)
• 云指的是一个遥远的计算环境,这个环境是用来为计算环境外的 用户提供可扩展和可度量的计算资源。
• 用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可 能在内蒙古。
2020/10/19
14 14
云环境的计算资源
• 物理服务器—CPU, 内存, 外存(磁盘、磁带) • 虚拟服务器—CPU, 内存, 外存 • 软件 • 服务 (应用)
• 当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。
2020/10/19
16 16
弹性化和可扩展性
• 弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计 算能力随着用户需求变化而增加或减少。
• 水平扩展
• 向外扩展 Scale out—增加资源 • 向内收缩 Scale in—减少资源
大数据与云计算: --信息技术发展的新纪元
1
大纲
大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例
2
什么是大数据
对数据的使用者来讲,如果数据集超出了使用者所拥有的信 息处理和分析的能力,就给使用者带来了大数据问题
3
大数据V特征
Volume 数据规模大
大数据的特点并不只是 数据规模大
Value
价值
Velocity 数据变化数据快
Variety 数据属性复杂
4
• 数据的量呈现指数增长
• 2009年至2020年将增加44倍 • 数据的体量从0.8 zettabytes
增加到35ZB
生成和采集的数 据将按指数增长
根据麦肯锡预计美国超过1000雇员 的公司,平均每个公司存有200TB的 数据,很多行业的公司,如银行、电 讯、互联网、政府部门等,平均存储 的数据超过1个PB。
• 垂直扩展
• 向上扩展 Scale up—提升CPU和内存 • 向下收缩 Scale down –降低CPU和内存
云服务器
2020/10/19
17 17
面向服务 Service Orientation
• 云计算的独特特征是服务导向或面向服务,就是将 计算和存储资源作为服务供用户使用
• 服务的收费方式是谁使用谁付钱,例如: • 付使用存储服务的费用 • 付使用CPU的费用 • 付使用数据库软件的费用 • 用户不拥有这些资源,因此不需维护它们
2020/10/19
18 18
云计算的三种基本服务模式
1000亿+的服务供应商收入 为终端用户带来高达7000
亿美的价值
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研发、 组装成本
最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美元来进行衡量, 大数据将会给信息技术领域带来一个新的增长点。
游戏、时间、动作、结果等,TB级数据 • 分析需求:
• 用户行分类与预测,用户行为客户群划分 • 用户挽留、用户奖励和级别提升
• 某电信公司
• 深度包检测(DPI)大数据分析,研究客户互联网行为模 型,流量分析,数据套餐设计
• 百万人口城市,每天数据量TB级
11
云计算
• 云计算是一种新的大规模分布式计算模式
• 数据的采集速度的加快导致处理时间都需要有相应的提高 • 在线数据分析 (Online Data Analytics) • 决策的延误 商机的消失 • 实例
• 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测用 户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺
5
大数据的多样性Variety
• 不同的数据格式,数据类型和数据结 构
• 文本、数字、图像、音频、视频、时 间序列、社会媒体数据、高维矩阵数 据等
• 静态数据 vs. 流数据 • 同一个应用可以生成和采集不同类型
的数据
为了提取知识 尽可能多地综合 不同类型的相关数据
6
大数据的速度Velocity
2020/10/19
12
12
云计算的五个基本特征
1. 按需自助服务 (On-demand self-service) 2. 广泛的网络接入 (Broad network access) 3. 资源池 (Resource pooling) 4. 快速弹性化 (Rapid elasticity ) 5. 可度量的服务 (Measured Service)
• 存储 – 分布式、低成本 • 传输 – 能力、成本 • 处理 – 集成、融合、处理 • 分析 – 能力、效率 • 挖掘 – 方法、能力、技术、平台 • 应用 • 能耗
10
互联网与电讯行业需求
• 某互联网公司
• 100多在线游戏,4亿在线游戏用户 • 在线系统记录每个游戏用户在线玩游戏的详细数据,包括
8
大数据的产生
社会媒体网络 (每个人都在产生数据)
科学仪器 (采集不同类型的数据)
移动终端 (个人地理信息数据)
传感器网络 (ห้องสมุดไป่ตู้量不同类型的数据)
• 数据的发展和创新将不再是如何生成和采集数据
• 具备对采集的数据进行管理、分析、总结、可视化展示和知识 发现的能力已经成为新的挑战
9
大数据的技术挑战
物理服务器
虚拟服务器
2020/10/19
软件
服务
15 15
虚拟化是云计算的核心技术
• 虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用, 多个用户共享物理服务器的资源,但用户对虚拟服务器的体验 是独立的计算机。用户不需要了解物理服务器
• 虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户 不需要维护。
• 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理 和活动数据 及时提供需要的医疗服务
7
大数据的价值 (Value)
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门
管理
每年2500亿欧元 每年生产率增长约0.7%
全球个人定位
• 通过网络和资源 虚拟技术,实现计算及存储资源集中管理, 面向用户提供服务
• 云计算可以解决目前计算机使用的诸多问题,是计 算技术发展的一个新的里程碑
传统计算机的问题
•使用成本高 •资源分散 •资源不足 •资源浪费 •高能耗 •环境污染
云计算的优点
•成本低 •易于普及 •可扩展能力高 •节能 •环保
2020/10/19
13 13
云环境 (A Cloud)
• 云指的是一个遥远的计算环境,这个环境是用来为计算环境外的 用户提供可扩展和可度量的计算资源。
• 用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可 能在内蒙古。
2020/10/19
14 14
云环境的计算资源
• 物理服务器—CPU, 内存, 外存(磁盘、磁带) • 虚拟服务器—CPU, 内存, 外存 • 软件 • 服务 (应用)
• 当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。
2020/10/19
16 16
弹性化和可扩展性
• 弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计 算能力随着用户需求变化而增加或减少。
• 水平扩展
• 向外扩展 Scale out—增加资源 • 向内收缩 Scale in—减少资源
大数据与云计算: --信息技术发展的新纪元
1
大纲
大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例
2
什么是大数据
对数据的使用者来讲,如果数据集超出了使用者所拥有的信 息处理和分析的能力,就给使用者带来了大数据问题
3
大数据V特征
Volume 数据规模大
大数据的特点并不只是 数据规模大
Value
价值
Velocity 数据变化数据快
Variety 数据属性复杂
4
• 数据的量呈现指数增长
• 2009年至2020年将增加44倍 • 数据的体量从0.8 zettabytes
增加到35ZB
生成和采集的数 据将按指数增长
根据麦肯锡预计美国超过1000雇员 的公司,平均每个公司存有200TB的 数据,很多行业的公司,如银行、电 讯、互联网、政府部门等,平均存储 的数据超过1个PB。
• 垂直扩展
• 向上扩展 Scale up—提升CPU和内存 • 向下收缩 Scale down –降低CPU和内存
云服务器
2020/10/19
17 17
面向服务 Service Orientation
• 云计算的独特特征是服务导向或面向服务,就是将 计算和存储资源作为服务供用户使用
• 服务的收费方式是谁使用谁付钱,例如: • 付使用存储服务的费用 • 付使用CPU的费用 • 付使用数据库软件的费用 • 用户不拥有这些资源,因此不需维护它们
2020/10/19
18 18
云计算的三种基本服务模式