医疗大数据及相关技术ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10GE SAS IB
分布式数据库 非关系型数据库
大数据的基本技术
MapReduce
HBase
HDFS
Streaming
– 分布式文件系统HDFS(hadoop Distributed File System) – 并行数据处理MapReduce – 非结构化数据表HBase – 流式数据处理Streaming
GB
1024MB 一部电影:1GB
TB
1024GB
美国国会图书馆所有登记印刷版书本的消息:15TB 2011年底,其网络备份的数据量为280太字节
PB
1024TB
美国邮政局一年处理的信件大约为5拍 谷歌每小时处理的数据为1拍
EB
1024EB 相当与13亿中国人人手一本500页的书加起来
ZB
1024ZB 截止2010年,人类拥有的信息总量大概是1.2ZB
分析的数据越全面,分析的结果就越接 近于真实
能够从这些数据中获取新的洞察力,并 将其与已知业务的各个环节相融合
大数据带来哪些技术变革-技术驱动
计算
单机
存储
块单存机储 文件存储
网络
设备间连接 设备内连接
数据库
关系型数据库
集群
横向扩展 块级虚拟化 横向扩展 分布式文件系统
10GE FC IB
YB
1024YB 超出想象
传统数据 vs. 大数据
传统数据处理技术面临的挑战
——传统的IOE模式已经不能满足PB级海量数据的存储、分析和应用需求
小型机+DWH+SAN成本高企、扩容昂贵
无法满足海量数据的离线分析和实时分析
无法满足对非结构化数据的快速处理要求
Scale-Up已到极限,必须支持Scale-Out
EB
Variety 多样的数据类型
巨大的数据价值
Volume 海量的数据规模
目录
大数据简介 大数据相关技术 大数据挖掘 大数据平台
大数据与云计算、物联网、互联网之间的关系
来源:《互联网进化论》
大数据是对海量数据的高效处理。
云计算是硬件资源的虚拟化,是大 数据分析的支撑平台。
云计算 处理分析
产生海量数据
Rows
Columns
“contents:”
“anchor: baidu” “anchor:google”
www.bitren.com
…… www.google.com
“<html></html >”
“<html></html >” “<html></html>”
t3
t2
timestamps
t1
google.com
Column Family
Tablelet
Streaming:流式数据处理---Storm
VS
物联网
移动互联 传统互联
网
网
数据处理技术的变化:满足数据的多样化
需求 海量非结构化、 结构化数据存储
技术
Hadoop Map Reduce
结构化数据处理
Data Warehouse
实时数据处理 非结构数据分析 各类信息来自百度文库合
Streaming Data
Text Analytics Engine Visual Data Modeling
散热问题(发热太大,且难以驱散) 功耗太高
并发计算发展成熟
大数据时代正在来临…
1000+PB
24亿网民1天产生的数据
63% GAGR
非结构化数据增长率
30+TB
交易量3000+万笔/天
1PB/S
CERN:核爆产生数据的速度
数据摩尔定律:Y=C×2X
X代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量
数据扩 展性需 求和硬 件性能 之间存 在差距
传统框架:小型机+磁阵+商用数据仓库
海量数据的高存储成本 数据批量处理性能不足 流式数据处理缺失 有限的扩展能力 单一数据源 数据资产对外增值
大数据处于成长阶段,即将广泛商用
大数据是对数据更大的掌控和应用能力
大数据是淘炼黄金而不是制造更多的石头
医疗大数据及相关技术介绍
目录
大数据简介 大数据相关技术 大数据挖掘 大数据平台
摩尔定律,正在走向终结
摩尔定律:集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升一倍
单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高
数据量的表达单位
当前典型 大数据的 处理量
单位 位 字节 千字节 兆字节 吉字节
太字节
拍字节
艾字节 泽字节 尧字节
英语标识 大小
例子
Bit Byte
1或0 8Bit
一个二进制数位:0或1 一个英文字母:8Bit
KB
1024Byte 一页纸上的文字:5KB
MB
1024KB 一首普通MP3的歌曲:4MB
MapReduce 分布式数据处理架构
DATA
输入
计算 (IOE架构)
输出
结果 传统方式
分组 X86 服务器
聚合 X86 服务器
HDFS 分布式文件系统架构
Hadoop 集群
HBase NoSQL数据库
HBase的数据模型
分布式的多维映射,以(row, column, timestamp)索引
“Big Data is nothing without Big Analysis”
大数据要解决的问题
Streams Real time Near time
Batch
Velocity 快速的数据流转
Value
Structured
Unstructured
TB
Semi-structured
PB
All the above
“大数据”是数据存储、管理、处理和分析的技术和解决方案
“大数据”带来数据分析能力的质变性增强,不仅是传统BI领域 , 也为新商业机会和新商业模式提供了更大的创新空间;
“大数据”是“以数据为中心”,这不仅是技术需要,也是管理 需要;存储、计算、分析合一的系统成为必然的需求、趋势
“大数据”的本质不在于更多(更快)的数据,而在于对数据中 蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中 所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生 产业务的开展过程
ETL, Data Quality
描述 分布式文件系统 数据仓库 流计算引擎 文本内容分词与分析 信息整合、元数据
大数据技术
成本可承受(economically)的情况下
通过非常快速(velocity)的采集、发现 和分析; 在大量化(volumes)、 多类别 (variety)的数据中提取价值(value)
分布式数据库 非关系型数据库
大数据的基本技术
MapReduce
HBase
HDFS
Streaming
– 分布式文件系统HDFS(hadoop Distributed File System) – 并行数据处理MapReduce – 非结构化数据表HBase – 流式数据处理Streaming
GB
1024MB 一部电影:1GB
TB
1024GB
美国国会图书馆所有登记印刷版书本的消息:15TB 2011年底,其网络备份的数据量为280太字节
PB
1024TB
美国邮政局一年处理的信件大约为5拍 谷歌每小时处理的数据为1拍
EB
1024EB 相当与13亿中国人人手一本500页的书加起来
ZB
1024ZB 截止2010年,人类拥有的信息总量大概是1.2ZB
分析的数据越全面,分析的结果就越接 近于真实
能够从这些数据中获取新的洞察力,并 将其与已知业务的各个环节相融合
大数据带来哪些技术变革-技术驱动
计算
单机
存储
块单存机储 文件存储
网络
设备间连接 设备内连接
数据库
关系型数据库
集群
横向扩展 块级虚拟化 横向扩展 分布式文件系统
10GE FC IB
YB
1024YB 超出想象
传统数据 vs. 大数据
传统数据处理技术面临的挑战
——传统的IOE模式已经不能满足PB级海量数据的存储、分析和应用需求
小型机+DWH+SAN成本高企、扩容昂贵
无法满足海量数据的离线分析和实时分析
无法满足对非结构化数据的快速处理要求
Scale-Up已到极限,必须支持Scale-Out
EB
Variety 多样的数据类型
巨大的数据价值
Volume 海量的数据规模
目录
大数据简介 大数据相关技术 大数据挖掘 大数据平台
大数据与云计算、物联网、互联网之间的关系
来源:《互联网进化论》
大数据是对海量数据的高效处理。
云计算是硬件资源的虚拟化,是大 数据分析的支撑平台。
云计算 处理分析
产生海量数据
Rows
Columns
“contents:”
“anchor: baidu” “anchor:google”
www.bitren.com
…… www.google.com
“<html></html >”
“<html></html >” “<html></html>”
t3
t2
timestamps
t1
google.com
Column Family
Tablelet
Streaming:流式数据处理---Storm
VS
物联网
移动互联 传统互联
网
网
数据处理技术的变化:满足数据的多样化
需求 海量非结构化、 结构化数据存储
技术
Hadoop Map Reduce
结构化数据处理
Data Warehouse
实时数据处理 非结构数据分析 各类信息来自百度文库合
Streaming Data
Text Analytics Engine Visual Data Modeling
散热问题(发热太大,且难以驱散) 功耗太高
并发计算发展成熟
大数据时代正在来临…
1000+PB
24亿网民1天产生的数据
63% GAGR
非结构化数据增长率
30+TB
交易量3000+万笔/天
1PB/S
CERN:核爆产生数据的速度
数据摩尔定律:Y=C×2X
X代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量
数据扩 展性需 求和硬 件性能 之间存 在差距
传统框架:小型机+磁阵+商用数据仓库
海量数据的高存储成本 数据批量处理性能不足 流式数据处理缺失 有限的扩展能力 单一数据源 数据资产对外增值
大数据处于成长阶段,即将广泛商用
大数据是对数据更大的掌控和应用能力
大数据是淘炼黄金而不是制造更多的石头
医疗大数据及相关技术介绍
目录
大数据简介 大数据相关技术 大数据挖掘 大数据平台
摩尔定律,正在走向终结
摩尔定律:集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升一倍
单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高
数据量的表达单位
当前典型 大数据的 处理量
单位 位 字节 千字节 兆字节 吉字节
太字节
拍字节
艾字节 泽字节 尧字节
英语标识 大小
例子
Bit Byte
1或0 8Bit
一个二进制数位:0或1 一个英文字母:8Bit
KB
1024Byte 一页纸上的文字:5KB
MB
1024KB 一首普通MP3的歌曲:4MB
MapReduce 分布式数据处理架构
DATA
输入
计算 (IOE架构)
输出
结果 传统方式
分组 X86 服务器
聚合 X86 服务器
HDFS 分布式文件系统架构
Hadoop 集群
HBase NoSQL数据库
HBase的数据模型
分布式的多维映射,以(row, column, timestamp)索引
“Big Data is nothing without Big Analysis”
大数据要解决的问题
Streams Real time Near time
Batch
Velocity 快速的数据流转
Value
Structured
Unstructured
TB
Semi-structured
PB
All the above
“大数据”是数据存储、管理、处理和分析的技术和解决方案
“大数据”带来数据分析能力的质变性增强,不仅是传统BI领域 , 也为新商业机会和新商业模式提供了更大的创新空间;
“大数据”是“以数据为中心”,这不仅是技术需要,也是管理 需要;存储、计算、分析合一的系统成为必然的需求、趋势
“大数据”的本质不在于更多(更快)的数据,而在于对数据中 蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中 所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生 产业务的开展过程
ETL, Data Quality
描述 分布式文件系统 数据仓库 流计算引擎 文本内容分词与分析 信息整合、元数据
大数据技术
成本可承受(economically)的情况下
通过非常快速(velocity)的采集、发现 和分析; 在大量化(volumes)、 多类别 (variety)的数据中提取价值(value)