医学数据挖掘与大数据处理

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据库
目标 数据
已处理 数据
已转换 数据
模式 趋势
知识
选择 处理
转换
2021/1/15
数据 挖掘
解释 评价
25
数据挖掘和知识发现的基本步 骤
选择:根据某种标准选择数据 处理:包括清除和充实 转换:删除丢失重要内容的记录,将数据
分类、格式变换等 数据挖掘:运用工具或算法,在数据中发
现模式和规律 解释评价:将发现的模式解释为可用于决
分类或者特征提取。如检查特定记录并描述第一 类记录的特点。如信用分析。
序列模式。注重在一定时间段内发生的购买事件。 如买电视和摄像机序列。
聚类分析。将数据库中的记录分成子类。可用统
计学方法和神经网络等非监督性符号归纳方法实
2021/1/15 现数据聚类。
33
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
医学数据挖掘:是针对医学方面的数据仓库进行 挖掘
知识发现:知识发现(KDD)包括数据清理、数据 集成、数据选择、数据变换、数据挖掘、模式评 估、知识表示等步骤
• 有人把数据挖掘视为数据中的知识发现或KDD同义词,另 一些人将其视为知识发现的一个基本步骤。
2021/1/15
23
数据挖掘和知识发现的基本步 骤
策的知识
2021/1/15
26
数据挖掘:数据库中的知识挖掘(KDD)
数据挖掘——知识发 现过程的核心
模式评估 数据挖掘 模式
任务相关数据
数据仓库
选择
数据清理与集成 数据集
2021/1/15
27
知识发现和数据挖掘的算法
数据挖掘算法由3部分组成:模型表达、模型评 价和检索方法。
关联规则。两个或多个变量之间存在某种规律性, 称为关联。如超市中顾客买可乐和玉米片的相关 性。
数据仓库是集成的。
数据仓库的数据有来自于分散的操作型数据,将所 需数据从原来的数据中抽取出来,进行加工与集成, 转换统一与综合之后才能进入数据仓库;
数据仓库特点
数据仓库是随时间而变化的。
不断跟踪事务处理系统中,数据仓库会把业务系统数 据库中变化数据追加进去。传统的关系数据库系统比 较适合处理格式化的数据,能够较好的满足商业商务 处理的需求。稳定的数据以只读格式保存,且不随时 间改变。
常用的数据挖掘方法
关联规则与关联分析 聚类分析 决策树 人工神经网络 遗传算法 粗糙集理论
数据仓库体系结构
前端工具
各种报表工具、查询工具、数据分析工具、数据 挖掘工具以及各种基于数据仓库或数据集市的应 用开发工具。
数据分析工具主要针对OLAP服务器 报表工具、数据挖掘工具主要针对数据
仓库。
数据仓库四大特点
数据仓库是面向主题的。
数据库的数据组织面向事务处理任务,而数据仓库 中的数据是按照一定的主题域进行组织。主题是指 用户使用数据仓库进行决策时所关心的重点方面, 一个主题通常与多个操作型信息系统相关。
2021/1/15
9
数据仓库
数据仓库是一个 面向主题的,集 成的,相对稳定 的,反映历史变 化的数据集合, 用于支持管理中 的决策支持。
数据仓库体系结构
数据仓库体系结构
数据源:通常包括企业内部信息和外部信息。内部
信息包括存放于RDBMS中的各种业务处理数据和各类 文档数据。外部信息包括各类法律法规、市场信息和 竞争对手的信息等等。
对分析需要的数据进行有效集成,按多维模型予以 组织,以便进行多角度、多层次的分析,并发现趋 势。 ROLAP(关系型在线分析处理),基本数据和聚合 数据均存放在RDBMS之中; MOLAP(多维在线分析处理)和HOLAP(混合型线上 分析处理),基本数据和聚合数据均存放于多维数 据库中; HOLAP基本数据存放于RDBMS之中,聚合数据存放于 多维数据库中。
数据仓库是稳定的(非易失性的)。
其数据以物理分离的方式存储,决策人员只进行数据 查询,而不进行数据修改。数据仓库只需要两类操作: 数据的初始化装入和数据访问
数据挖掘与知识发现基本概念
数据挖掘(从数据中发现知识)
数据挖掘(DM):从大量的数据中正规地发现有效 的、新颖的、潜在有用的,最终可被读懂的模式 的过程,简单的说就是从大量数据中提取或“挖 掘”知识。
高等教育出版社
纽约警察-杰克.梅普尔的传奇
数据驱动管理 除了上帝,任何人都要用数据说话。-爱德华.戴明
图灵奖、诺经济学奖、 美心理学会终身成就奖
人类理性是有限的, 所有决策都是基于有 限理性的结果,如果 能利用存储在计算机 里的信息来辅助决策 ,人类理性的范围将 扩大,决策的质量就 能提高。 决策支持—商务智能
这些数据当中大量有用的知识被淹没其中。
2021/1/15
8
解决方法-数据仓库和数据挖掘
数据仓库(Data Warehouse)和在线分 析处理(OLAP)
在大量的数据中挖掘感兴趣的知识(规则、 规律、模式、约束)
支持数据挖掘技术的基础
- - 海量数据搜集 - - 强大的多处理器计算机 - - 数据挖掘算法
数据的存储与管理:决定采用什么产品和技术来
建立数据仓库的核心,则需要从数据仓库的技术特点 着手分析。针对现有各业务系统的数据,进行抽取、 清理,并有效集成,按照主题进行组织。数据仓库按 照数据的覆盖范围可以分为企业级数据仓库和部门级 数据仓库(通常称为数据集市)。
数据仓库体系结构
OLAP(On Line Analysis Processing)
数据挖掘的发展动力
---需要是发明之母
数据爆炸但知识贫乏 全球每秒290万份电子邮件、每秒亚马逊产生 72.9笔订单,每分钟20个小时视屏上传到 YouTube,Google每天处理24PB数据;淘宝有6亿注 册会员,在线商品超过9亿,每天交易超过数千亿。
ห้องสมุดไป่ตู้自动数据收集工具和成熟的数据库技术使得大量 的数据被收集,存储在数据库、数据仓库或其他 信息库中以待分析。
第七章 医学数据挖掘与大数据处理
本章主要内容
数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用
阅读书目
崔雷.医学数据挖掘. 高等教育出版社 涂子佩. 大数据. 广西师范大学出版社 赵刚.大数据技术与应用实践指南. 电子工业
出版社 李雄飞等. 数据挖掘与知识发现(第2版).
相关文档
最新文档