医疗大数据及相关技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Page 28
数据挖掘流程及方法模型
Page 29
百度文库
数据挖掘的技术
技术分类
预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律
数据挖掘技术
关联分析 序列模式 分类(预言) 聚集 异常检测
Page 30
关联
关联规则挖掘:
聚合
X86 服务器
计算 (IOE架构)
输出
X86 服务器
结果 传统方式
Page 18
HDFS 分布式文件系统架构
Hadoop 集群
Page 19
HBase NoSQL数据库
HBase的数据模型
分布式的多维映射,以(row, column, timestamp)索引
Columns
“contents:” “anchor: baidu” “anchor:google”
摩尔定律:集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升一倍 单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高 散热问题(发热太大,且难以驱散) 功耗太高
Page 3
并发计算发展成熟
数据处理技术的变化:满足数据的多样化
需求 海量非结构化、 结构化数据存储 结构化数据处理 技术
Hadoop
描述 分布式文件系统
Map Reduce
Data Warehouse
数据仓库
流计算引擎
实时数据处理
非结构数据分析 各类信息整合
Page 14
Streaming Data
Text Analytics Engine Visual Data Modeling
Page 4
大数据时代正在来临…
1000+PB
24亿网民1天产生的数据
63%
GAGR
非结构化数据增长率
30+TB
交易量3000+万笔/天
1PB/S
CERN:核爆产生数据的速度
数据摩尔定律:Y=C×2X
X代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量
Page 5
数据量的表达单位
单位 位 字节 千字节 兆字节 吉字节 当前典型 大数据的 处理量 太字节 拍字节 艾字节 泽字节 尧字节
Page 26
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 27
数据挖掘(DM) 与 知识发现(KDD)
• 顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息 • 数据挖掘技术投入商用的三种基础技术已发展成熟 › (1)海量数据搜集 › (2)强大的分布式并行处理技术 › (3)数据挖掘算法 • 知识发现(KDD):从源数据中发掘模式或联系的方法 • KDD被用来描述整个数据发掘的过程, 包括最开始的制定业务目标到最终的结果分析,而用 数据挖掘(DM, Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。 • 数据挖掘所发现的知识有以下四类: › 广义知识: 指类别特征的概括性描述知识 › 关联知识:反应一个事件和其他时间之间依赖或关联的知识 › 分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识 › 预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。
VS
Storm 广泛应用于实时分析,在线机器学习,持续计算等领域。
Page 21
大数据 的 预处理技术
大数据预处理技术主要完成对已接收数据的辨析、抽 取、清洗等操作 目的是将数据按统一的格式提取出来,然后再转化, 集成,载入数据仓库的工具 (ETL) 抽取:因获取的数据可能具有多种结构和类型, 数据抽取过程可以帮助我们将这些复杂的数据 转化为单一的或者便于处理的构型,以达到快 速分析处理的目的。 清洗:对于大数据,并不全是有价值的,有些 数据并不是我们所关心的内容,而另一些数据 则是完全错误的干扰项。 因此要对数据通过过滤“去噪”从而提取出有效数据
联机分析 联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析; “维”是
联机分析的核心概念,指的是人们观察事物、计算数据的特定角度;可以从任意的维度交叉和细分问 题,用户能根据自己的需要,随时创建“万维”动态报表
数据挖掘 通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间的关系,模式和趋
Page 15
大数据带来哪些技术变革-技术驱动
计算 单机 集群 横向扩展 块级虚拟化 横向扩展 分布式文件系统
单机 块存储 存储 文件存储 设备间连接 网络 设备内连接
10GE FC IB
10GE SAS IB 分布式数据库 非关系型数据库
数据库
Page 16
关系型数据库
大数据的基本技术
MapReduce
Rows
“<html></html >” “<html></html >” “<html></html>” t3 t2 t1
www.bitren.com
timestamps
google.com
…… www.google.com
Column Family
Page 20
Tablelet
Streaming:流式数据处理---Storm
非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储
Page 23
存储与分析融合,提升处理效率
数据生产
数据共享
数据分析
数据生产
数据共享
数据分析
导入存储
拷贝
共享存储
拷贝
分析存储
存储资源池
一份数据3次存储,浪费空间67% 一份数据2次拷贝,浪费时间2倍
1024Byte 一页纸上的文字:5KB
传统数据 vs. 大数据
Page 7
传统数据处理技术面临的挑战
——传统的IOE模式已经不能满足PB级海量数据的存储、分析和应用需求
小型机+DWH+SAN成本高企、扩容昂贵 无法满足对非结构化数据的快速处理要求 无法满足海量数据的离线分析和实时分析 Scale-Up已到极限,必须支持Scale-Out
数据扩 展性需 求和硬 件性能 之间存 在差距
海量数据的高存储成本 数据批量处理性能不足 流式数据处理缺失 有限的扩展能力 单一数据源 数据资产对外增值
传统框架:小型机+磁阵+商用数据仓库
Page 8
大数据处于成长阶段,即将广泛商用
Page 9
大数据是对数据更大的掌控和应用能力
“大数据”是数据存储、管理、处理和分析的技术和解决方案 “大数据”带来数据分析能力的质变性增强,不仅是传统BI领域 , 也为新商业机会和新商业模式提供了更大的创新空间; “大数据”是“以数据为中心”,这不仅是技术需要,也是管理
需要;存储、计算、分析合一的系统成为必然的需求、趋势
“大数据”的本质不在于更多(更快)的数据,而在于对数据中 蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中 所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生 产业务的开展过程
大数据是淘炼黄金而不是制造更多的石头
“Big Data is nothing without Big Analysis”
在交易数据、关系数据或其他信息载体中, 查找存在于项目集合或对象集合之间的频繁 模式、关联、相关性、或因果结构。
二者都买 的客户 买尿布的客 户
应用:
购物篮分析、交叉销售、产品目录设计、
loss-leader analysis、聚集、分类等。
买啤酒的客户
Page 31
序列
序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排 列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找 出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 工业控制
一份数据1次存储,节省空间67% 一份数据0次拷贝,提升效率2倍
Page 24
大数据 的 其他技术
数据仓库 数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致
的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人 力资源系统,甚至是企业外部系统。数据仓库的出现以后,一系列的产业链也逐步形成
文本内容分词与分析
信息整合、元数据
ETL, Data Quality
大数据技术
成本可承受(economically)的情况下
通过非常快速(velocity)的采集、发现 和分析; 在大量化(volumes)、 多类别 (variety)的数据中提取价值(value) 分析的数据越全面,分析的结果就越接 近于真实 能够从这些数据中获取新的洞察力,并 将其与已知业务的各个环节相融合
•
重点技术
可视化分析。数据可视化可以让数据自己说话,让用户直观的感受到结果。 数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的 量,同时还具有很高的处理速度。 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
数据 污染
滥用缩写词 数据输入错误 数据中的内嵌控制信息 不同的惯用语 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码 含有各种噪声 格式标准化 异常数据清除 错误纠正 重复数据的清除
数据 处理
Page 22
大数据 的 存储技术
结构化数据: 传统的关系数据模式 海量数据的查询、统计、更新等操作效率低
HBase Streaming HDFS
– 分布式文件系统HDFS(hadoop Distributed File System) – 并行数据处理MapReduce – 非结构化数据表HBase – 流式数据处理Streaming
Page 17
MapReduce 分布式数据处理架构
DATA
输入
分组
Page 6
英语标识 大小 Bit Byte KB MB GB TB PB EB ZB YB 1或0 8Bit 1024KB 1024MB 1024GB 1024TB 1024EB 1024ZB 1024YB
例子 一个二进制数位:0或1 一个英文字母:8Bit 一首普通MP3的歌曲:4MB 一部电影:1GB 美国国会图书馆所有登记印刷版书本的消息:15TB 2011年底,其网络备份的数据量为280太字节 美国邮政局一年处理的信件大约为5拍 谷歌每小时处理的数据为1拍 相当与13亿中国人人手一本500页的书加起来 截止2010年,人类拥有的信息总量大概是1.2ZB 超出想象
Page 10
大数据要解决的问题
Streams Real time Near time Batch
Velocity 快速的数据流转
Value
Structured Unstructured Semi-structured All the above
TB PB EB
Variety 多样的数据类型
Volume 海量的数据规模
医疗大数据及相关技术介绍
翟运开
博士/副教授
河南省数字医疗工程技术研究中心 副主任 数字化远程医疗服务河南省工程实验室 副主任 郑州大学第一附属医院 河南省远程医学中心 中国卫生信息学会远程医疗信息化专业委员会 主任 常委/秘书长
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 2
摩尔定律,正在走向终结
巨大的数据价值
Page 11
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 12
大数据与云计算、物联网、互联网之间的关系
大数据是对海量数据的高效处理。 云计算是硬件资源的虚拟化,是大 数据分析的支撑平台。
云计算
处理分析
产生海量数据
物联网
来源:《互联网进化论》
移动互联 网
传统互联 网
Page 13
势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采, 发现数据之下的历史规律,对未来进行预测。
Page 25
大数据的分析挖掘技术
• 技术方法分类
根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型 发现、异常和趋势发现等等 根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异 质数据库、遗产数据库以及环球网Web 根据挖掘方法:可分为:机器学习方法、统计方法、神经网络方法和数据库方法。
数据挖掘流程及方法模型
Page 29
百度文库
数据挖掘的技术
技术分类
预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律
数据挖掘技术
关联分析 序列模式 分类(预言) 聚集 异常检测
Page 30
关联
关联规则挖掘:
聚合
X86 服务器
计算 (IOE架构)
输出
X86 服务器
结果 传统方式
Page 18
HDFS 分布式文件系统架构
Hadoop 集群
Page 19
HBase NoSQL数据库
HBase的数据模型
分布式的多维映射,以(row, column, timestamp)索引
Columns
“contents:” “anchor: baidu” “anchor:google”
摩尔定律:集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升一倍 单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高 散热问题(发热太大,且难以驱散) 功耗太高
Page 3
并发计算发展成熟
数据处理技术的变化:满足数据的多样化
需求 海量非结构化、 结构化数据存储 结构化数据处理 技术
Hadoop
描述 分布式文件系统
Map Reduce
Data Warehouse
数据仓库
流计算引擎
实时数据处理
非结构数据分析 各类信息整合
Page 14
Streaming Data
Text Analytics Engine Visual Data Modeling
Page 4
大数据时代正在来临…
1000+PB
24亿网民1天产生的数据
63%
GAGR
非结构化数据增长率
30+TB
交易量3000+万笔/天
1PB/S
CERN:核爆产生数据的速度
数据摩尔定律:Y=C×2X
X代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量
Page 5
数据量的表达单位
单位 位 字节 千字节 兆字节 吉字节 当前典型 大数据的 处理量 太字节 拍字节 艾字节 泽字节 尧字节
Page 26
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 27
数据挖掘(DM) 与 知识发现(KDD)
• 顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息 • 数据挖掘技术投入商用的三种基础技术已发展成熟 › (1)海量数据搜集 › (2)强大的分布式并行处理技术 › (3)数据挖掘算法 • 知识发现(KDD):从源数据中发掘模式或联系的方法 • KDD被用来描述整个数据发掘的过程, 包括最开始的制定业务目标到最终的结果分析,而用 数据挖掘(DM, Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。 • 数据挖掘所发现的知识有以下四类: › 广义知识: 指类别特征的概括性描述知识 › 关联知识:反应一个事件和其他时间之间依赖或关联的知识 › 分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识 › 预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。
VS
Storm 广泛应用于实时分析,在线机器学习,持续计算等领域。
Page 21
大数据 的 预处理技术
大数据预处理技术主要完成对已接收数据的辨析、抽 取、清洗等操作 目的是将数据按统一的格式提取出来,然后再转化, 集成,载入数据仓库的工具 (ETL) 抽取:因获取的数据可能具有多种结构和类型, 数据抽取过程可以帮助我们将这些复杂的数据 转化为单一的或者便于处理的构型,以达到快 速分析处理的目的。 清洗:对于大数据,并不全是有价值的,有些 数据并不是我们所关心的内容,而另一些数据 则是完全错误的干扰项。 因此要对数据通过过滤“去噪”从而提取出有效数据
联机分析 联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析; “维”是
联机分析的核心概念,指的是人们观察事物、计算数据的特定角度;可以从任意的维度交叉和细分问 题,用户能根据自己的需要,随时创建“万维”动态报表
数据挖掘 通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间的关系,模式和趋
Page 15
大数据带来哪些技术变革-技术驱动
计算 单机 集群 横向扩展 块级虚拟化 横向扩展 分布式文件系统
单机 块存储 存储 文件存储 设备间连接 网络 设备内连接
10GE FC IB
10GE SAS IB 分布式数据库 非关系型数据库
数据库
Page 16
关系型数据库
大数据的基本技术
MapReduce
Rows
“<html></html >” “<html></html >” “<html></html>” t3 t2 t1
www.bitren.com
timestamps
google.com
…… www.google.com
Column Family
Page 20
Tablelet
Streaming:流式数据处理---Storm
非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储
Page 23
存储与分析融合,提升处理效率
数据生产
数据共享
数据分析
数据生产
数据共享
数据分析
导入存储
拷贝
共享存储
拷贝
分析存储
存储资源池
一份数据3次存储,浪费空间67% 一份数据2次拷贝,浪费时间2倍
1024Byte 一页纸上的文字:5KB
传统数据 vs. 大数据
Page 7
传统数据处理技术面临的挑战
——传统的IOE模式已经不能满足PB级海量数据的存储、分析和应用需求
小型机+DWH+SAN成本高企、扩容昂贵 无法满足对非结构化数据的快速处理要求 无法满足海量数据的离线分析和实时分析 Scale-Up已到极限,必须支持Scale-Out
数据扩 展性需 求和硬 件性能 之间存 在差距
海量数据的高存储成本 数据批量处理性能不足 流式数据处理缺失 有限的扩展能力 单一数据源 数据资产对外增值
传统框架:小型机+磁阵+商用数据仓库
Page 8
大数据处于成长阶段,即将广泛商用
Page 9
大数据是对数据更大的掌控和应用能力
“大数据”是数据存储、管理、处理和分析的技术和解决方案 “大数据”带来数据分析能力的质变性增强,不仅是传统BI领域 , 也为新商业机会和新商业模式提供了更大的创新空间; “大数据”是“以数据为中心”,这不仅是技术需要,也是管理
需要;存储、计算、分析合一的系统成为必然的需求、趋势
“大数据”的本质不在于更多(更快)的数据,而在于对数据中 蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中 所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生 产业务的开展过程
大数据是淘炼黄金而不是制造更多的石头
“Big Data is nothing without Big Analysis”
在交易数据、关系数据或其他信息载体中, 查找存在于项目集合或对象集合之间的频繁 模式、关联、相关性、或因果结构。
二者都买 的客户 买尿布的客 户
应用:
购物篮分析、交叉销售、产品目录设计、
loss-leader analysis、聚集、分类等。
买啤酒的客户
Page 31
序列
序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排 列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找 出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 工业控制
一份数据1次存储,节省空间67% 一份数据0次拷贝,提升效率2倍
Page 24
大数据 的 其他技术
数据仓库 数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致
的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人 力资源系统,甚至是企业外部系统。数据仓库的出现以后,一系列的产业链也逐步形成
文本内容分词与分析
信息整合、元数据
ETL, Data Quality
大数据技术
成本可承受(economically)的情况下
通过非常快速(velocity)的采集、发现 和分析; 在大量化(volumes)、 多类别 (variety)的数据中提取价值(value) 分析的数据越全面,分析的结果就越接 近于真实 能够从这些数据中获取新的洞察力,并 将其与已知业务的各个环节相融合
•
重点技术
可视化分析。数据可视化可以让数据自己说话,让用户直观的感受到结果。 数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的 量,同时还具有很高的处理速度。 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
数据 污染
滥用缩写词 数据输入错误 数据中的内嵌控制信息 不同的惯用语 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码 含有各种噪声 格式标准化 异常数据清除 错误纠正 重复数据的清除
数据 处理
Page 22
大数据 的 存储技术
结构化数据: 传统的关系数据模式 海量数据的查询、统计、更新等操作效率低
HBase Streaming HDFS
– 分布式文件系统HDFS(hadoop Distributed File System) – 并行数据处理MapReduce – 非结构化数据表HBase – 流式数据处理Streaming
Page 17
MapReduce 分布式数据处理架构
DATA
输入
分组
Page 6
英语标识 大小 Bit Byte KB MB GB TB PB EB ZB YB 1或0 8Bit 1024KB 1024MB 1024GB 1024TB 1024EB 1024ZB 1024YB
例子 一个二进制数位:0或1 一个英文字母:8Bit 一首普通MP3的歌曲:4MB 一部电影:1GB 美国国会图书馆所有登记印刷版书本的消息:15TB 2011年底,其网络备份的数据量为280太字节 美国邮政局一年处理的信件大约为5拍 谷歌每小时处理的数据为1拍 相当与13亿中国人人手一本500页的书加起来 截止2010年,人类拥有的信息总量大概是1.2ZB 超出想象
Page 10
大数据要解决的问题
Streams Real time Near time Batch
Velocity 快速的数据流转
Value
Structured Unstructured Semi-structured All the above
TB PB EB
Variety 多样的数据类型
Volume 海量的数据规模
医疗大数据及相关技术介绍
翟运开
博士/副教授
河南省数字医疗工程技术研究中心 副主任 数字化远程医疗服务河南省工程实验室 副主任 郑州大学第一附属医院 河南省远程医学中心 中国卫生信息学会远程医疗信息化专业委员会 主任 常委/秘书长
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 2
摩尔定律,正在走向终结
巨大的数据价值
Page 11
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 12
大数据与云计算、物联网、互联网之间的关系
大数据是对海量数据的高效处理。 云计算是硬件资源的虚拟化,是大 数据分析的支撑平台。
云计算
处理分析
产生海量数据
物联网
来源:《互联网进化论》
移动互联 网
传统互联 网
Page 13
势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采, 发现数据之下的历史规律,对未来进行预测。
Page 25
大数据的分析挖掘技术
• 技术方法分类
根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型 发现、异常和趋势发现等等 根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异 质数据库、遗产数据库以及环球网Web 根据挖掘方法:可分为:机器学习方法、统计方法、神经网络方法和数据库方法。