数据仓库考试必看
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库复习
1.信息的特征,医学信息与医学知识,医学决策支持系统;
数据仓库的基本特征,数据组织基本特征,数据组织方式,数据集市,数据仓库系统的逻辑层次,数据装载,元数据;
信息的特征
语法特征:信息的语法特征包括信息的语法、存储和传递的描述对应的即“数据”
语义特征:信息的语义特征表述的是信息的具体含义
语用特征:信息的语用特征是针对信息的目的性而言,为一定的目的的服务,以减少不确定性
1.数据仓库模型选取,数据仓库开发模式(课件里的数据仓库
设计过程,概要,逻辑,物理好好看);
2.OLAP的分类,OLAP与OLTP的联系与区别;MDX语言(与SQL
的区别,自身的语法要素弄清楚);
3.医学数据的组织(特点看看),医学数据仓库的设计(临床数
据的新特点看看),医学数据仓库的管理(里面的各小点看看)PS:这些全是标题,至于哪句话是考到的,大家多看看!问答题也在里面!综合题在最近给PPT(最新的那一份)里!
医学信息:是医学科学领域的信息,涉及医学、药物学、卫生学和医学管理等专门知识。依
据信息的语义特征和语用特征,医学信息可以解释为:一、医学信息是医学、医疗卫生、药物学和医学管理学为信息内容的;二,医学信息的处理依赖于以计算机技术为核心的信息技术。
医学知识:数据是信息的载体,是信息的语法表述。经过解释的数据演化为信息,而对信息进行加工,集成为知识。反过来,知识又指导数据解释。医学知识有两种类型:一种是来自于医学文献,称为科学知识;另一种来自于临床专家,称为经验知识。
决策支持模型
医学决策支持系统:医学知识应用到某一患者特定问题,提出具有最佳费用/效果比的解决方案的计算机系统。
医疗卫生中的决策模型主要有定量决策支持模型和定性决策支持模型两类
定量模型的数据源主要取自于病人资料
定性模型采用的特征一般有专家提出
决策支持系统的类型:
决策模型
定量模型定性模型
指导性模型贝叶斯法真值法决策树推理模型
自动模型模糊集合布尔逻辑非参数划分专家系统
神经网络数理逻辑评论式系统
数据仓库的基本特征
数据仓库的数据是面向主题的
数据仓库的数据是集成的
数据仓库的数据是非易失的
数据仓库的数据是随时间不断变化的。
数据组织基本特征
数据组织的基本特征:采用分级方式进行组织。
数据组织方式
粒度大综合度高细节详细情况低
粒度:数据仓库中记录数据或对数据进行综合时使用的时间段参数。越细节的数据粒度级越低,越综合的数据粒度级越高
数据集市
建立数据集市的原因
数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。
数据集市的特性:
1、规模是小的
2、特定的应用
3、面向部门
4、由业务部门定义,设计和开发
5、由业务部门管理和维护
6、快速实现
7、购买较便宜
8、投资快速回收
9、更详细的、预先存在的数据仓库的摘要子集
10、可升级到完整的数据仓库
数据仓库与数据集市的不同
1.范围不同:数据仓库是基于整个企业的数据模型,数据集市是按照某一特定部分的数据模型建立的
2.粒度不同:数据仓库存储这整个企业的详细数据数据粒度比较小,数据集市的详细程度低,数据粒度大
3.数据组织形式不同:数据集市的数据组织一般采用星型模型;而数据仓库的数据组织一般根据规模大小采用不同的方式
数据集市的分类独立的数据集市和从属的数据集市
数据仓库系统的逻辑层次
源数据/管理层
数据存储层
数据分析/应用层(简答题分成OLAP服务器前端工具)
数据装载
数据装载方式:
1.初始化装载:按照装载的目标表,将转换过的数据输入到目标表中去(第一次装载使用)。
2.追加:如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。
3.破坏性合并:用新输入数据更新目标记录数据。
4.建设性合并:保留已有的记录,增加输入的记录,并标记为旧记录的替代。
数据装载的类型:最初装载,增量装载,完全刷新
元数据是关于数据的数据,是数据仓库环境中一个重要方面。元数据在数据仓库的上层,并且记录数据仓库中对象的位置。
元数据的作用:
1.确定数据来源:说明数据源的出处,对数据源和目标数据之间的对应关系作出详细说明;
2.保证数据仓库内容的质量:数据的一致性、完整性、正确性等;
3.属性到属性的映射:在多个数据源的多个相似字段,建立映射才可以在数据仓库中加载到同一目标字段中;
4.属性转换:源字段与目标字段的属性定义肯能不同,需转换,如:变量类型的变化。
元数据的分类:
1.描述型元数据:描述信息资源的主题和内容特征;
2.结构性元数据:描述数字信息化资源的内部结构,如:书籍的目录、章节、段落;
3.存取控制性元数据:描述数字信息化资源能够被利用的基本条件和期限,以及这些资源的知识产权特征和使用权限;
4.管理性元数据:描述和管理数据在信息评价体系中的位置。
数据仓库模型选取
数据模型:给定环境下的数据的抽象或表示。数据模型由实体、属性和联系组成(关系模型)模型选取参考取向:
1、以企业为中心构建数据仓库,其中包含的数据支持所有部门的分析处理。
2、面对特定部门或特定范围构建数据仓库,即数据集市,以利于高效分析处理。
3、支持多种分析技术,可扩展性强。
尽可能快而有效地装载新数据。
数据仓库开发模式
数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成:
数据仓库规划分析阶段
数据仓库设计实施阶段
数据仓库的使用维护阶段
数据仓库的构建采用“迭代式”开发。在同一数据模型上多次迭代得出最终的数据仓库
数据仓库设计过程,概要,逻辑,物理
数据仓库的概念模型
概念模型:对真实世界中问题域内的事物的描述,不是对软件设计的描述。
要建立起完整、正确的概念模型,首先必须建立起完整、准确的企业模型。
企业模型不是构建数据仓库的一种数据模型,而是对企业整体数据需求的一种抽象描述。构建企业模型:对传统的E-R图改进的方法进行建立,原因如下:
模糊性:无法表述数据仓库中分析数据、描述数据和细节数据之间的关系;