医学数据挖掘及大数据处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 有人把数据挖掘视为数据中的知识发现或KDD同义词,另 一些人将其视为知识发现的一个基本步骤。
23
数据挖掘和知识发现的基本步骤
数据库
目标 数据
已处理 数据
已转换 数据
模式 趋势
知识
选择 处理
转换
数据 挖掘
解释 评价
25
数据挖掘和知识发现的基本步骤
选择:根据某种标准选择数据 处理:包括清除和充实 转换:删除丢失重要内容的记录,将数据
高等教育出版社
纽约警察-杰克.梅普尔的传奇
数据驱动管理 除了上帝,任何人都要用数据说话。-爱德华.戴明
图灵奖、诺经济学奖、 美心理学会终身成就奖
人类理性是有限的, 所有决策都是基于有 限理性的结果,如果 能利用存储在计算机 里的信息来辅助决策 ,人类理性的范围将 扩大,决策的质量就 能提高。 决策支持—商务智能
数据仓库体系结构
前端工具
各种报表工具、查询工具、数据分析工具、数 据挖掘工具以及各种基于数据仓库或数据集市 的应用开发工具。
数据分析工具主要针对OLAP服务器 报表工具、数据挖掘工具主要针对数据 仓库。
数据仓库四大特点
数据仓库是面向主题的。
数据库的数据组织面向事务处理任务,而数据仓 库中的数据是按照一定的主题域进行组织。主题 是指用户使用数据仓库进行决策时所关心的重点 方面,一个主题通常与多个操作型信息系统相关。
8wk.baidu.com
解决方法-数据仓库和数据挖掘
数据仓库(Data Warehouse)和在线 分析处理(OLAP)
在大量的数据中挖掘感兴趣的知识(规则、 规律、模式、约束)
支持数据挖掘技术的基础
- - 海量数据搜集 - - 强大的多处理器计算机 - - 数据挖掘算法
9
数据仓库
数据仓库是一个 面向主题的,集 成的,相对稳定 的,反映历史变 化的数据集合, 用于支持管理中 的决策支持。
计学方法和神经网络等非监督性符号归纳方法实
现数据聚类。
33
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
常用的数据挖掘方法
关联规则与关联分析 聚类分析 决策树 人工神经网络 遗传算法 粗糙集理论
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
分类、格式变换等 数据挖掘:运用工具或算法,在数据中发
现模式和规律 解释评价:将发现的模式解释为可用于决
策的知识
26
数据挖掘:数据库中的知识挖掘(KDD)
Knowledge
数据挖掘——知识发 现过程的核心
模式评估 数据挖掘 模式
任务相关数据
数据仓库
数据清理与集成 数据集
选择
27
知识发现和数据挖掘的算法
医学数据挖掘及大数据处理
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
阅读书目
崔雷.医学数据挖掘. 高等教育出版社 涂子佩. 大数据. 广西师范大学出版社 赵刚.大数据技术与应用实践指南. 电子工
业出版社 李雄飞等. 数据挖掘与知识发现(第2版).
数据挖掘的发展动力
---需要是发明之母
数据爆炸但知识贫乏 全球每秒290万份电子邮件、每秒亚马逊产生 72.9笔订单,每分钟20个小时视屏上传到 YouTube,Google每天处理24PB数据;淘宝有6亿注 册会员,在线商品超过9亿,每天交易超过数千亿。 自动数据收集工具和成熟的数据库技术使得大量 的数据被收集,存储在数据库、数据仓库或其他 信息库中以待分析。 这些数据当中大量有用的知识被淹没其中。
数据仓库是稳定的(非易失性的)。
其数据以物理分离的方式存储,决策人员只进行数 据查询,而不进行数据修改。数据仓库只需要两类 操作:数据的初始化装入和数据访问
数据挖掘与知识发现基本概念
数据挖掘(从数据中发现知识) 数据挖掘(DM):从大量的数据中正规地发现有效 的、新颖的、潜在有用的,最终可被读懂的模式 的过程,简单的说就是从大量数据中提取或“挖 掘”知识。 医学数据挖掘:是针对医学方面的数据仓库进行 挖掘 知识发现:知识发现(KDD)包括数据清理、数据 集成、数据选择、数据变换、数据挖掘、模式评 估、知识表示等步骤
数据仓库是集成的。
数据仓库的数据有来自于分散的操作型数据,将 所需数据从原来的数据中抽取出来,进行加工与 集成,转换统一与综合之后才能进入数据仓库;
数据仓库特点
数据仓库是随时间而变化的。
不断跟踪事务处理系统中,数据仓库会把业务系统 数据库中变化数据追加进去。传统的关系数据库系 统比较适合处理格式化的数据,能够较好的满足商 业商务处理的需求。稳定的数据以只读格式保存, 且不随时间改变。
数据仓库体系结构
OLAP(On Line Analysis Processing)
对分析需要的数据进行有效集成,按多维模型予以 组织,以便进行多角度、多层次的分析,并发现趋 势。 ROLAP(关系型在线分析处理),基本数据和聚合数 据均存放在RDBMS之中; MOLAP(多维在线分析处理)和HOLAP(混合型线上 分析处理),基本数据和聚合数据均存放于多维数 据库中; HOLAP基本数据存放于RDBMS之中,聚合数据存放于 多维数据库中。
数据仓库体系结构
数据仓库体系结构
数据源:通常包括企业内部信息和外部信息。内
部信息包括存放于RDBMS中的各种业务处理数据和 各类文档数据。外部信息包括各类法律法规、市场 信息和竞争对手的信息等等。
数据的存储与管理:决定采用什么产品和技术
来建立数据仓库的核心,则需要从数据仓库的技术 特点着手分析。针对现有各业务系统的数据,进行 抽取、清理,并有效集成,按照主题进行组织。数 据仓库按照数据的覆盖范围可以分为企业级数据仓 库和部门级数据仓库(通常称为数据集市)。
数据挖掘算法由3部分组成:模型表达、模型评 价和检索方法。
关联规则。两个或多个变量之间存在某种规律性, 称为关联。如超市中顾客买可乐和玉米片的相关 性。
分类或者特征提取。如检查特定记录并描述第一 类记录的特点。如信用分析。
序列模式。注重在一定时间段内发生的购买事件。 如买电视和摄像机序列。
聚类分析。将数据库中的记录分成子类。可用统
23
数据挖掘和知识发现的基本步骤
数据库
目标 数据
已处理 数据
已转换 数据
模式 趋势
知识
选择 处理
转换
数据 挖掘
解释 评价
25
数据挖掘和知识发现的基本步骤
选择:根据某种标准选择数据 处理:包括清除和充实 转换:删除丢失重要内容的记录,将数据
高等教育出版社
纽约警察-杰克.梅普尔的传奇
数据驱动管理 除了上帝,任何人都要用数据说话。-爱德华.戴明
图灵奖、诺经济学奖、 美心理学会终身成就奖
人类理性是有限的, 所有决策都是基于有 限理性的结果,如果 能利用存储在计算机 里的信息来辅助决策 ,人类理性的范围将 扩大,决策的质量就 能提高。 决策支持—商务智能
数据仓库体系结构
前端工具
各种报表工具、查询工具、数据分析工具、数 据挖掘工具以及各种基于数据仓库或数据集市 的应用开发工具。
数据分析工具主要针对OLAP服务器 报表工具、数据挖掘工具主要针对数据 仓库。
数据仓库四大特点
数据仓库是面向主题的。
数据库的数据组织面向事务处理任务,而数据仓 库中的数据是按照一定的主题域进行组织。主题 是指用户使用数据仓库进行决策时所关心的重点 方面,一个主题通常与多个操作型信息系统相关。
8wk.baidu.com
解决方法-数据仓库和数据挖掘
数据仓库(Data Warehouse)和在线 分析处理(OLAP)
在大量的数据中挖掘感兴趣的知识(规则、 规律、模式、约束)
支持数据挖掘技术的基础
- - 海量数据搜集 - - 强大的多处理器计算机 - - 数据挖掘算法
9
数据仓库
数据仓库是一个 面向主题的,集 成的,相对稳定 的,反映历史变 化的数据集合, 用于支持管理中 的决策支持。
计学方法和神经网络等非监督性符号归纳方法实
现数据聚类。
33
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
常用的数据挖掘方法
关联规则与关联分析 聚类分析 决策树 人工神经网络 遗传算法 粗糙集理论
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
分类、格式变换等 数据挖掘:运用工具或算法,在数据中发
现模式和规律 解释评价:将发现的模式解释为可用于决
策的知识
26
数据挖掘:数据库中的知识挖掘(KDD)
Knowledge
数据挖掘——知识发 现过程的核心
模式评估 数据挖掘 模式
任务相关数据
数据仓库
数据清理与集成 数据集
选择
27
知识发现和数据挖掘的算法
医学数据挖掘及大数据处理
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
阅读书目
崔雷.医学数据挖掘. 高等教育出版社 涂子佩. 大数据. 广西师范大学出版社 赵刚.大数据技术与应用实践指南. 电子工
业出版社 李雄飞等. 数据挖掘与知识发现(第2版).
数据挖掘的发展动力
---需要是发明之母
数据爆炸但知识贫乏 全球每秒290万份电子邮件、每秒亚马逊产生 72.9笔订单,每分钟20个小时视屏上传到 YouTube,Google每天处理24PB数据;淘宝有6亿注 册会员,在线商品超过9亿,每天交易超过数千亿。 自动数据收集工具和成熟的数据库技术使得大量 的数据被收集,存储在数据库、数据仓库或其他 信息库中以待分析。 这些数据当中大量有用的知识被淹没其中。
数据仓库是稳定的(非易失性的)。
其数据以物理分离的方式存储,决策人员只进行数 据查询,而不进行数据修改。数据仓库只需要两类 操作:数据的初始化装入和数据访问
数据挖掘与知识发现基本概念
数据挖掘(从数据中发现知识) 数据挖掘(DM):从大量的数据中正规地发现有效 的、新颖的、潜在有用的,最终可被读懂的模式 的过程,简单的说就是从大量数据中提取或“挖 掘”知识。 医学数据挖掘:是针对医学方面的数据仓库进行 挖掘 知识发现:知识发现(KDD)包括数据清理、数据 集成、数据选择、数据变换、数据挖掘、模式评 估、知识表示等步骤
数据仓库是集成的。
数据仓库的数据有来自于分散的操作型数据,将 所需数据从原来的数据中抽取出来,进行加工与 集成,转换统一与综合之后才能进入数据仓库;
数据仓库特点
数据仓库是随时间而变化的。
不断跟踪事务处理系统中,数据仓库会把业务系统 数据库中变化数据追加进去。传统的关系数据库系 统比较适合处理格式化的数据,能够较好的满足商 业商务处理的需求。稳定的数据以只读格式保存, 且不随时间改变。
数据仓库体系结构
OLAP(On Line Analysis Processing)
对分析需要的数据进行有效集成,按多维模型予以 组织,以便进行多角度、多层次的分析,并发现趋 势。 ROLAP(关系型在线分析处理),基本数据和聚合数 据均存放在RDBMS之中; MOLAP(多维在线分析处理)和HOLAP(混合型线上 分析处理),基本数据和聚合数据均存放于多维数 据库中; HOLAP基本数据存放于RDBMS之中,聚合数据存放于 多维数据库中。
数据仓库体系结构
数据仓库体系结构
数据源:通常包括企业内部信息和外部信息。内
部信息包括存放于RDBMS中的各种业务处理数据和 各类文档数据。外部信息包括各类法律法规、市场 信息和竞争对手的信息等等。
数据的存储与管理:决定采用什么产品和技术
来建立数据仓库的核心,则需要从数据仓库的技术 特点着手分析。针对现有各业务系统的数据,进行 抽取、清理,并有效集成,按照主题进行组织。数 据仓库按照数据的覆盖范围可以分为企业级数据仓 库和部门级数据仓库(通常称为数据集市)。
数据挖掘算法由3部分组成:模型表达、模型评 价和检索方法。
关联规则。两个或多个变量之间存在某种规律性, 称为关联。如超市中顾客买可乐和玉米片的相关 性。
分类或者特征提取。如检查特定记录并描述第一 类记录的特点。如信用分析。
序列模式。注重在一定时间段内发生的购买事件。 如买电视和摄像机序列。
聚类分析。将数据库中的记录分成子类。可用统