医学数据挖掘与大数据处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二 、什么是医疗大数据 三 、大数据面临的挑战 四、 如何管理和利用大数据 五、 案例分析 六、 总结与展望
压在百姓健康3座大山
• 第一座健康大山——跑步进入老龄化社会
第二座大山-癌症年轻化
第三座大山-新生儿“先天缺陷”
趋势分析: 我们正处在医疗行业的一个重要转折点
医疗费用在不断上升 GDP的占比非常高
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
大数据主流架构: Hadoop+MapReduce
Hdoop+MapReduce架构
HDFS:分布式文件系统。运行在廉价的计算机 组成的大规模集群之上。采用元数据集中管理和 数据块分散存储相结合的模式。
这些数据当中大量有用的知识被淹没其中。
2022/3/23
8
解决方法-数据仓库和数据挖掘
数据仓库(Data Warehouse)和在线 分析处理(OLAP)
在大量的数据中挖掘感兴趣的知识(规则、 规律、模式、约束)
支持数据挖掘技术的基础
- - 海量数据搜集 - - 强大的多处理器计算机 - - 数据挖掘算法
数据仓库是集成的。
数据仓库的数据有来自于分散的操作型数据,将 所需数据从原来的数据中抽取出来,进行加工与 集成,转换统一与综合之后才能进入数据仓库;
数据仓库特点
数据仓库是随时间而变化的。
不断跟踪事务处理系统中,数据仓库会把业务系统 数据库中变化数据追加进去。传统的关系数据库系 统比较适合处理格式化的数据,能够较好的满足商 业商务处理的需求。稳定的数据以只读格式保存, 且不随时间改变。
2022/3/23
9
数据仓库
数据仓库是一个 面向主题的,集 成的,相对稳定 的,反映历史变 化的数据集合, 用于支持管理中 的决策支持。
数据仓库体系结构
数据仓库体系结构
数据源:通常包括企业内部信息和外部信息。内
部信息包括存放于RDBMS中的各种业务处理数据和 各类文档数据。外部信息包括各类法律法规、市场 信息和竞争对手的信息等等。
维基百科
奥巴马竞选连任-大数据应用
Dan Wagner, 奥巴马2012年竞选团队首席分析师,长的有点像比尔 盖茨
大数据在医疗行业的应用
基因组学测序分析
大数据在医疗行业的应用
疫情和健康趋势分析
GOOGLE官网全球登革热趋势。 /denguetrends/
数据仓库是稳定的(非易失性的)。
其数据以物理分离的方式存储,决策人员只进行数 据查询,而不进行数据修改。数据仓库只需要两类 操作:数据的初始化装入和数据访问
数据挖掘与知识发现基本概念
数据挖掘(从数据中发现知识)
数据挖掘(DM):从大量的数据中正规地发现有效 的、新颖的、潜在有用的,最终可被读懂的模式 的过程,简单的说就是从大量数据中提取或“挖 掘”知识。
第七章 医学数据挖掘与大数据处理
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
阅读书目
崔雷.医学数据挖掘. 高等教育出版社 涂子佩. 大数据. 广西师范大学出版社 赵刚.大数据技术与应用实践指南. 电子工
业出版社 李雄飞等. 数据挖掘与知识发现(第2版).
Hive:Facebook提供的数据仓库工具,分析结构 化数据的中间件。Hive类SQL查询语音可以查 询分析存储在Hadoop中的大规模数据。
Pig:基于Hadoop的并行计算高级语言,类似 SQL
Sqoop:开源工具,Hadoop与传统的数据库间进 行数据传递。
Flume:Cloudera提供的日志收集系统。 ZooKeeper:分布式应用程序集中配置管理器。
2022/3/23
26
数据挖掘:数据库中的知识挖掘(KDD)
数据挖掘——知识发 现过程的核心
模式评估 数据挖掘 模式
任务相关数据
数据仓库
选择
数据清理与集成 数据集
2022/3/23
27
知识发现和数据挖掘的算法
数据挖掘算法由3部分组成:模型表达、模型评 价和检索方法。
关联规则。两个或多个变量之间存在某种规律性, 称为关联。如超市中顾客买可乐和玉米片的相关 性。
Hadoop优势
Hadoop:分布式文件系统和并行执行环境。能够存 储管理PB级的数据。
1. 易于扩充的分布式架构。数据处理采用大量计算 节点横向扩充实现。
2. 善于处理非结构化数据。 3. 自动化的并行处理机制。数据分布在并行节点上,
每个节点只处理一部分数据,所有节点同时并行 处理。 4. 高可靠性、容错强。自动保存数据多个副本。 5. 计算靠近存储。计算与存储一体。 6. 低成本计算和存储。
大数据分析或可助抗击埃博拉。
健康地图”通过搜集社交媒体、地方媒体信 息,比WHO早9天确定埃博拉出血热在几内 亚境内的传播情况。
大数据的作者-涂子沛
我们已经不仅仅处在信息时代 新信息时代?后信息时代?智能时代? 越来与依赖机器,越来与依赖网络,人机
共生的时代,机器是数据启动的 软件定义这个世界,数据驱动这时代
数据库
目标 数据
已处理 数据
已转换 数据
模式 趋势
知识
选择 处理
转换
2022/3/23
数据 挖掘
解释 评价
25
数据挖掘和知识发现的基本步骤
选择:根据某种标准选择数据
处理:包括清除和充实
转换:删除丢失重要内容的记录,将数据 分类、格式变换等
数据挖掘:运用工具或算法,在数据中发 现模式和规律
解释评价:将发现的模式解释为可用于决 策的知识
MapReduce框架
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用???
提纲
一、 医疗与大数据的趋势 二 、什么是医疗大数据 三 、大数据面临的挑战
四、 如何管理和利用大数据 五、 案例分析 六、 总结与展望
一、 医疗与大数据的趋势
分类或者特征提取。如检查特定记录并描述第一 类记录的特点。如信用分析。
序列模式。注重在一定时间段内发生的购买事件。 如买电视和摄像机序列。
聚类分析。将数据库中的记录分成子类。可用统
计学方法和神经网络等非监督性符号归纳方法实
2022/3/23 现数据聚类。
33
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
对分析需要的数据进行有效集成,按多维模型予以 组织,以便进行多角度、多层次的分析,并发现趋 势。 ROLAP(关系型在线分析处理),基本数据和聚合 数据均存放在RDBMS之中; MOLAP(多维在线分析处理)和HOLAP(混合型线上 分析处理),基本数据和聚合数据均存放于多维数 据库中; HOLAP基本数据存放于RDBMS之中,聚合数据存放于 多维数据库中。
% of population over age 60
30+ % 25-29% 20-24%
10-19% 0-9%
2050
WW Average Age 60+: 21%
Source: United Nations “Population Aging 2002”
全球老龄化 平均年龄60 + : 目前的1长到35 Zetabytes, 相当于2009年数据量的44倍 增长
Source: McKinsey Global Institute Analysis ESG Research Report 2011 – North American Health Care Provider Market Size and Forecast
趋势分析:我们正处在医疗行业的一个重要转折点
存储的增长
15000 10000
5000 0
医疗服务产生的数据总量(PB)
2010 2011 2012 2013 2014 2015
Admin Imaging EMR Email File Non Clin Img Research
医疗影像归档
一个医疗系统案例的数据
大数据的特征 (四个V)
数据量巨大(Volume):PB级以上 数据类型多(Variety):日志、音频、视频 数据流动快(Velocity):实时分析获取信
息 数据潜在价值大(Value):
数据的量级
数据大小的量级
1Byte (B) 1Kilobyte(KB)=1024b 1Megabyte(MB)=1024KB 1Gigabyte(GB)=1024MB 1Terabyte(1TB)=1024GB 1Petabyte(1PB)=1024TB 1Exabyte(EB)=1024PB 1Zettabyte(ZB)=1024EB 1Yottabyet(YB)=1024ZB
数据挖掘的发展动力
---需要是发明之母
数据爆炸但知识贫乏
全球每秒290万份电子邮件、每秒亚马逊产生 72.9笔订单,每分钟20个小时视屏上传到 YouTube,Google每天处理24PB数据;淘宝有6亿注 册会员,在线商品超过9亿,每天交易超过数千亿。
自动数据收集工具和成熟的数据库技术使得大量 的数据被收集,存储在数据库、数据仓库或其他 信息库中以待分析。
医学数据挖掘:是针对医学方面的数据仓库进行 挖掘
知识发现:知识发现(KDD)包括数据清理、数据 集成、数据选择、数据变换、数据挖掘、模式评 估、知识表示等步骤
• 有人把数据挖掘视为数据中的知识发现或KDD同义词,另 一些人将其视为知识发现的一个基本步骤。
2022/3/23
23
数据挖掘和知识发现的基本步骤
高等教育出版社
纽约警察-杰克.梅普尔的传奇
数据驱动管理 除了上帝,任何人都要用数据说话。-爱德华.戴明
图灵奖、诺经济学奖、 美心理学会终身成就奖
人类理性是有限的, 所有决策都是基于有 限理性的结果,如果 能利用存储在计算机 里的信息来辅助决策, 人类理性的范围将扩 大,决策的质量就能 提高。 决策支持—商务智能
数据的存储与管理:决定采用什么产品和技术
来建立数据仓库的核心,则需要从数据仓库的技术 特点着手分析。针对现有各业务系统的数据,进行 抽取、清理,并有效集成,按照主题进行组织。数 据仓库按照数据的覆盖范围可以分为企业级数据仓 库和部门级数据仓库(通常称为数据集市)。
数据仓库体系结构
OLAP(On Line Analysis Processing)
2050年将达到20%
以美国为例: 医疗大数据的价值
3千亿美元/年, 相当于每年生成总 值增长0.7%
Source: McKinsey Global Institute Analysis ESG Research Report 2011 – North American Health Care Provider Market Size and Forecast
Hbase:基于列存储的开源非关系型数据库。提供 非常大数据集的实时读取和写入的随机存取。
MapReduce:分布式并行计算框架,Map 任务分 解,Reduce综合结果。是一个JAVA 函数。
Mahout: 分布式机器学习和数据挖掘库。 R语言:用于统计分析、绘图的语言和操作环境
Hdoop+MapReduce架构
数据仓库体系结构
前端工具
各种报表工具、查询工具、数据分析工具、数 据挖掘工具以及各种基于数据仓库或数据集市 的应用开发工具。
数据分析工具主要针对OLAP服务器 报表工具、数据挖掘工具主要针对数据
仓库。
数据仓库四大特点
数据仓库是面向主题的。
数据库的数据组织面向事务处理任务,而数据仓 库中的数据是按照一定的主题域进行组织。主题 是指用户使用数据仓库进行决策时所关心的重点 方面,一个主题通常与多个操作型信息系统相关。
常用的数据挖掘方法
关联规则与关联分析 聚类分析 决策树 人工神经网络 遗传算法 粗糙集理论
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
大数据概念和特征
大数据概念
无法在一定时间内用传统的数据库软件工具
对其内容进行抓取、管理和处理的数据集合。--
一、 医疗与大数据的趋势
二 、什么是医疗大数据
三 、大数据面临的挑战 四、 如何管理和利用大数据 五、 案例分析 六、 总结与展望
大数据
相关文档
最新文档