《医学数据仓库与数据挖掘》温习期末模拟题

合集下载

【免费下载】数据仓库与数据挖掘复习题

【免费下载】数据仓库与数据挖掘复习题

A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型:(D)A 标称B 序数C 区间D相异15. 在上题中,属于定量的属性类型是:(C)A 标称B 序数C区间 D 相异16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法:(D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造19. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法?(A)A 傅立叶变换B特征加权 C 渐进抽样D维归约21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:(B)A 1比特B 2.6比特C 3.2比特D 3.8比特22. 假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。

参考答案:错误2.决策树中不包含以下哪种节点。

参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。

数据源可能涉及多个数据库、数据立方体或一般文件。

参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。

参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。

参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。

要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。

参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。

参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。

参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。

现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。

参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。

参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。

如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。

描述你要选取的结构。

该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。

1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。

使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。

1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。

《医学数据仓库与数据挖掘》温习期末模拟题word精品文档11页

《医学数据仓库与数据挖掘》温习期末模拟题word精品文档11页

《医学数据仓库与数据挖掘》温习期末模拟题【含答案】《医学数据仓库与数据挖掘》温习期末模拟题!考试提纲资料2019-01-21 15:44:03阅读0评论0字号:大中小订阅一、选择题1、数据仓库是随时间变化的,下面的描述不正确的是:A、数据仓库随时间变化不断增加新的数据内容。

B、捕捉到的新数据会覆盖原来的快照。

C、数据仓库随时间变化不断删往旧的数据内容。

D、数据仓库中包含大量的综合数据,这些综taobaowang合数据会随着时间的变化不断地进行重新综合。

答案:B 2、关于基本数据的元数据是指:A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。

B、基本元数据包括与企业相关的治理方面的数据和信息。

C、基本元数据包括日志文件和建立执行处理的时序调度信息。

D、基本元数据包括关于装载和更新处理、分析处理以及治理方面的信息。

答案:A 3、下面有关数据粒度的描述不正确的是:A、粒度是指数据仓库小数据单元的具体程度和级别。

B、数据越具体,粒度就越小,级别也就越高。

C、数据综合度越高,粒度就越大,级别也就越高。

D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。

答案:B 4、有关数据仓库的开发特点,不正确的描述是:A、数据仓库开发要从数据出发。

B、数据仓库使用的需求在开发出往就要明确。

C、数据仓库的开发是一个不断循环的过程,是启发式的开发。

D、在数据仓库环境中,并不存在操纵型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。

答案:B 5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断进步的要求。

实在,实现原理是将数据写进多张磁盘中,假如-张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。

有关RAID不同级别的描述不正确的是:A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典单选1、下列选项哪个描述的是“训练样本”(B)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断2、下列选项哪个描述的是“分类”(C)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断3、列哪个选项描述的不是“聚类”(C)A、搜索引擎返回的文档中,将相似的文档聚合成一类B、电子商务网站数据中,购物历史相似的用户自动聚合成一组C、电子商务网站数据中,分析出用户常常一起购买的商品,组合到一起促销D、在电子病历数据中,将体检指标相似的样本自动聚合成一组4、在MATLAB语言中,以下说法中错误的是A、MATLAB中默认的数据类型是doubleB、3<5的运算结果是logical类型C、变量Abc和abc是代表两个相同的变量D、灰度图的图像矩阵中的数据是uint8类型5、数据对象的别名不包括(D)A、记录B、样本C、向量D、特征6、属性的别名不包括(B)A、特征B、样本C、字段D、维7、下列说法不正确的是(C)A、测量标度是将数值或符号与对象的属性相关联的规则B、属性的性质不必与用来度量它的值的性质完全相同C、即使在不同的应用问题中,同一个物理量也必然使用同一种类型的属性来描述D、属性类型可以划分为:标称、序数、区间、比率这四种8、某办公自动化系统中,采用出生年份表示雇员的年龄,这是什么类型属性(C)A、标称B、序数C、区间D、比率9、某学籍管理系统中,采用百分制表示学生分数,这是什么类型属性(D)A、标称B、序数C、区间D、比率10、描述一个数据集的属性主要不包括(A)A、置信度B、维度C、分辨率D、稀疏性11、下列说法中错误的是(D)A、噪声是测量误差的随机部分B、数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。

数据仓库与数据挖掘 阶段考试复习题

数据仓库与数据挖掘 阶段考试复习题

第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。

在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。

数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。

一个数据仓库是通过集成多个异种数据源来构造的。

由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。

数据立方体必须是3维的。

在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。

方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。

雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。

在事实星座模型中,有且仅能有一个事实表。

在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。

二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。

数据仓库与数据挖掘考试试题(作业试题)

数据仓库与数据挖掘考试试题(作业试题)

一、 填空题(15分)1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。

3.OLAP 技术多维分析过程中,多维分析操作包括 切片 、 切块 、 钻取 、 旋转 等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。

5.ODS 实际上是一个集成的、 面向主题的 、 可更新的 、 当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。

二、 多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD ) A 分类 B 关联 C 估值 D 预言7.数据仓库的数据ETL 过程中,ETL 软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值 9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表 三、 计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min =40%,conf min =40%,使用Apriori 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。

(15分)事务 项目事务 项目T1 T2 T3面包、果冻、花生酱 面包、花生酱面包、牛奶、花生酱T4 T5啤酒、面包 啤酒、牛奶解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:项集C1 支持度项集L1支持度{面包}{花生酱}{牛奶} {啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度{面包、花生酱} 3/5 {面包、花生酱} 3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

数据仓库与数据挖掘期末考试题库

数据仓库与数据挖掘期末考试题库

复习内容填空题(每空1分)第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。

4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。

8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。

第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年1.假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:()参考答案:0.7162.数据的可视化是将数据以各种图表的形式展现在用户的面前,使用户能观察数据,并在较高的层次上找出数据间可能的关系。

参考答案:正确3.数据挖掘和可视化都是知识提取的方式。

参考答案:正确4.面向应用场景的可视化交互式数据挖掘方法是以数据挖掘算法和模型为主,并不针对具体应用场景或数据类型参考答案:错误5.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?()参考答案:数据预处理6.数据仓库的数据ETL过程中,ETL软件的主要功能包括()参考答案:数据抽取_数据加载_数据转换7.数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、预测数据的任务。

参考答案:正确8.传统数据仓库包括数据仓库数据库、数据抽取/转换/加载、元数据、访问工具、数据集市、和信息发布系统七个部分组成。

参考答案:数据仓库管理9.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

参考答案:错误10.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。

在下一次训练时,应该采取下列什么措施?()参考答案:增加特征11.下面哪一项关于CART的说法是错误的()参考答案:CART输出变量只能是离散型。

12.以下哪种方法不是常用的数据约减方法()参考答案:关联规则挖掘13.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92,204, 215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内? ()参考答案:第二个14.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。

数据仓库与数据挖掘考试习题汇总(优.选)

数据仓库与数据挖掘考试习题汇总(优.选)

第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。

数据挖掘考试题库——2024年整理

数据挖掘考试题库——2024年整理

1.何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。

相关的名称有知识发现、数据分析、数据融合、决策支持等。

数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。

2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。

按粒度组织数据的方式主要有:1简单堆积结构2轮转综合结构3简单直接结构4连续结构3.简述数据仓库设计的三级模型及其基本内容。

概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。

逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。

物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。

在物理数据模型设计时主要考虑的因素有:I/O存取时间、空间利用率和维护代价等。

提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。

4.在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。

为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。

5.简述数据预处理方法和内容。

1数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。

2数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。

医学信息学模拟试题(含参考答案)

医学信息学模拟试题(含参考答案)

医学信息学模拟试题(含参考答案)一、单选题(共34题,每题1分,共34分)1.描述数据之间关系的方式称为()A、数据模型B、数据类型C、数据结构D、概念模型正确答案:C2.中国医药信息学会的英文缩写为()A、CMIAB、AMIAC、CHIMAD、IMIA正确答案:A3.人体基因组计划的核心内容是测定人类()个染色体的DNA碱基序列。

A、22B、23C、24D、25正确答案:B4.标准化的本质就是()A、协调B、简化C、统一D、优化正确答案:B5.传染病网络直报工作模式,实现了疾病监测部门从()、数据管理利用到数据发布全过程的管理A、数据共享B、数据存储C、数据采集D、数据传输正确答案:C6.在采集临床数据方面,其数据特点是以定性的()为主A、逻辑数据B、模糊数据C、精确数据D、统计数据正确答案:B7.互联网最大的特点是()A、配置容易B、不定性C、连接范围窄D、固定性正确答案:B8.Interest-1设定三个与临床发现相关的参数不包括()A、激发强度B、频度权值C、重要参数D、关联程度正确答案:D9.生物信息学是正在概念化的基于()的生物学。

A、分子B、蛋白质C、细胞D、原子正确答案:A10.在1950-1975年,医学信息学的发展主要聚焦在以()为中心的操作上。

A、数据B、信息C、知识D、目标正确答案:A11.医疗保险中心与定点医疗机构之间信息系统的接口是典型的()模式A、多对一B、多对多C、一对多D、一对一12.现代护理学的一个重要内容是()整体护理,而它的基础框架是护理程序。

A、完整化B、标准化C、系统化D、规范化正确答案:C13.国际标准化组织的英文缩写为()A、ISOB、IMIAC、CMIAD、IFIP正确答案:A14.系统工程中,人的因素非常重要,必须注重参与系统各方的讨论和沟通,()与描述性和规范性相互交织A、共享性B、传递性C、目的性D、对话性正确答案:D15.将区域内彼此分割的各个医疗卫生机构及各种卫生信息系统有机地联通为一个()卫生信息网,是各个机构和系统可以相互交换和共享对方的数据,实现区域内卫生信息服务的整体变革。

数据挖掘期末考试复习题(精).doc

数据挖掘期末考试复习题(精).doc

1数据挖掘来源于机器学习2数据仓库是面向主题的集成的稳定的不同时间的数据集合,用于支持经营管理中决策制定过程;3元素据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心,4Codd将数据分析模型分为四类绝对模型解释模型思考模型或公式化;5数据立方体是在所以可能组合的维上进行分组聚集运算的总和;6 (数据质量)是(|数据仓库|)的成败关键; 7概括分析是探索者分析过程的第一步。

8.数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。

9.自组织网络以ART模型,Kohonen模型为代表,用于聚集类。

10.预测是利用历史数据找出变化规律,建立模型。

并用此模型来预测未来数据的种类,特征等;11调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

12 S Q L Server ssas提供了所以业务数据的同意整合试图,可以作为传统报表和数据挖掘,在线分析处理,关键性能指示器记分卡的基础13数据仓库的概念模型定义通常采用信息包括图法来进行设计;14关联规则的经典算法包括()()15分类关联规则16分类器设计阶段包含划分数据集,分类器构造,分类器测试;16雪花模型是对星型模型式维表的进一步层次化和规范化来消除冗余的数据;17数据处理通常分为两大类,联机事务处理,联机分析处理。

18数据抽取的两个常见类型是静态抽取和增量抽取;19维度表一般由主键,分类层次和描述属性组成。

20 ROLAp是基于关系数据库的OLAP实现,而MO L AP是基于多维数据机构组织的OLAP实现。

21数据仓库按照其开发过程,其关键环节包括数据抽取,数据存储,数据管理,数据表现。

2 2 KD D是从数据集中识别出有效的新颖的潜在有用的以及最终可理解的模式的高级处理过程。

2 3 遗传算法的基本要素问题编码:初始群体的设定:适应值函数的设计:遗传操作设计;控制参数设定:24数据集市数据集市是指具有特定应用的数据仓库,主要针对某个具有应用战与意义的应用或者具体部门级的应用,支持用户利用自己有的数据获得重要竞争的优势。

数据仓库与数据挖掘试题

数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。

(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。

(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。

(v)4.数据进入数据仓库之前,必须经过加工与集成。

(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。

(V)6.对数据仓库操作不明确,操作数据量少。

(X)7.数据集市实现难度超过数据仓库。

(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。

(X)9.数据集市可升级到完整的数据仓库。

(V)10.数据库中存放的数据基本上是保存当前综合数据。

(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。

(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。

(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。

(V)14.数据仓库的用户有两类:信息使用者和探索者。

(V)15.对数据库的操作比较明确,操作数据量大。

(X)16.数据库用于事务处理,数据仓库用于决策分析。

(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。

(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。

(V)19.OLTP每次操作的数据量不大且多为当前的数据。

(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。

(V)21.随着业务的变化,数据仓库中的数据会随时更新。

(X)22.数据集市的规模比数据仓库更大。

(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。

(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。

(V)25.OLAP使用细节性数据,OLTP使用综合性数据。

(X)26.数据集市由企业管理和维护。

数据仓库与数据挖掘期末考试题库

数据仓库与数据挖掘期末考试题库

复习内容填空题(每空1分)第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。

4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。

8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。

第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

数据仓库与数据挖掘期末试题

数据仓库与数据挖掘期末试题

广西财经学院2007——2008学年第一学期《数据仓库与数据挖掘》课程期末考试试卷(A)适用班级:电商本0541、0542考试时间:120分钟(开卷机试)考查课程命题老师签名:郑华教研室主任签名:课程开课系:计信系注意:本次考试是开卷上机考,请大家独立分析完成。

如果发现有相同的答卷,则二人都为0分,请大家自觉!请大家在2007年12月25日之前把做好的答卷发送到老师的邮箱:gxhuazheng@,过期不候.一、名词解释(每题4分,共20分)1、数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

2、数据挖掘数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery inDatabase, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。

通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

4、OLAPOLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

5、决策树决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。

这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。

数据仓库与数据挖掘期末复习【精选文档】

数据仓库与数据挖掘期末复习【精选文档】

1。

数据仓库的概念和特点p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。

特性:面向主题的、集成的、非易失的、随时间不断变化的。

1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用.2、集成的(最重要):数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。

一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。

3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。

即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松.4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。

操作型环境一般60-90天,数据仓库5—10年。

⑵操作型环境中的数据库含有数据的“当前值”,其准确性访问是有效的,其当前值能被更新,数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。

⑶操作型环境中的数据键码结构可能含有也可能不含有;数据仓库的键码结构总是包含某时间元素。

2.数据仓库中的关键概念14外部数据源:就是从系统外部获取的同分析主题相关的数据.数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。

数据清洗:所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。

数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。

数据加载:是指把清洗后的数据装入数据仓库的过程.数据加载策略包括数据加载周期和数据追加策略。

数据加载周期要综合考虑经营分析需求和系统加载代价,对不同业务的数据采用不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《医学数据仓库与数据挖掘》温习期末模拟题【含答案】《医学数据仓库与数据挖掘》温习期末模拟题!考试提纲资料2011-01-21 15:44:03阅读0评论0字号:大中小订阅一、选择题1、数据仓库是随时间变化的,下面的描述不正确的是:A、数据仓库随时间变化不断增加新的数据内容。

B、捕捉到的新数据会覆盖原来的快照。

C、数据仓库随时间变化不断删往旧的数据内容。

D、数据仓库中包含大量的综合数据,这些综taobaowang合数据会随着时间的变化不断地进行重新综合。

答案:B 2、关于基本数据的元数据是指:A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。

B、基本元数据包括与企业相关的治理方面的数据和信息。

C、基本元数据包括日志文件和建立执行处理的时序调度信息。

D、基本元数据包括关于装载和更新处理、分析处理以及治理方面的信息。

答案:A 3、下面有关数据粒度的描述不正确的是:A、粒度是指数据仓库小数据单元的具体程度和级别。

B、数据越具体,粒度就越小,级别也就越高。

C、数据综合度越高,粒度就越大,级别也就越高。

D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。

答案:B 4、有关数据仓库的开发特点,不正确的描述是:A、数据仓库开发要从数据出发。

B、数据仓库使用的需求在开发出往就要明确。

C、数据仓库的开发是一个不断循环的过程,是启发式的开发。

D、在数据仓库环境中,并不存在操纵型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。

答案:B 5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断进步的要求。

实在,实现原理是将数据写进多张磁盘中,假如-张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。

有关RAID不同级别的描述不正确的是:A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。

B、RAID 1称为镜像。

在这一级别上,数据被冗余地写进成对的驱动器中,可以独立地从每个驱动器提取该数据。

这种方法没有什么缺点,是备份时候经常用到的技术。

C、RAID 3数据记录在成组驱动器上,位交错,只有一个驱动器仍有奇偶校验信息。

D、RAID 5假如采用这一水平的技术,则数据记录在成组的驱动器上扇区交错地存放着,所有驱动器都有奇偶校验信息。

答案:B 6、有关数据仓库测试,下列说法不正确的是:A、在完成数据仓库的实施阶段中,需要对数据仓库进行各种测试。

测试工作中要包括单元测试和系统集成测试。

B、当数据仓库的每个单独组件完成后,就需要对它们进行单元测试。

C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回回测试。

D、在测试之前没必要制定具体的测试计划。

答案:D 7、OLAP技术的核心是:A、在线性B、对用户的快速响应C、互操纵性D、*分析平价美白产品答案:D 8、关于OLAP的特性,下面正确的是:①快速性②可分析性③*性④信息性⑤共享性A、①、②、③B、②、③、④C、①、②、③、④D、①、②、③、④、⑤答案:D 9、关于OLAP和OLTP的区别的描述,不正确的是:A、OLAP主要是关于如何理解聚集的大量不同的数据。

它与OLAP应用程序不同。

B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高。

D、OLAP是以数据仓库为基础的,其终极数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的。

答案:D 10、OLAM技术一般简称为"数据联机分析挖掘",下面说法正确的是:A、OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性。

B、由于OLAM的立方体和用于OLAP的立方体有本质的区别。

C、基于Web的OLAM是Web技术与OLAM技术的结合。

D、OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对超级立方体作一定的操纵。

答案:D 11、数据仓库的数据具有四个基本特征,下列不正确的是:A、面向主题的。

B、集成的。

C、不可更新的。

D、不随时间变化的。

答案:D 12、下列是关于OLAP的描述,不正确的是:A、一个*数组可以表示为:(维1,维2,…,维n)B、维的一个取值称为该维的一个维成员C、OLAP是联机分析处理D、OLAP是以数据仓库进行分析决策的基础答案:A 13、关于OLAP和OLTP的说法,下列不正确的是:A、OLTP事务量大,但事务内容比较简单且重复率高B、OLAP的终极数据来源与OLTP不一样C、OLTP面对的是决策职员和高层治理职员D、OLTP以应用为核心,是应用驱动的答案:B 14、关于数据仓库元数据的描述,下列不正确的是:A、元数据描述了数据的结构、内容、码、索引等项内容。

B、元数据内容在设计数据仓库时确定后,就不应该再改变。

C、元数据包含对数据转换的描述。

D、元数据是有效治理数据仓库的重要条件。

答案:B 15、下列描述不正确的是:A、模型辅助决策系同一般可以使用若干个模型来解决同一题目。

B、人机交互系统是决策支持系统的一个组成部分。

C、决策支持系统包含模型库和模型库治理系统。

D、智能决策支持系统包含知识库系统。

答案:A 16、决策支持系统可以用不同的方法进行构造,下列的说法不正确的是A、可以用生命周期法和原型法构造决策支持系统。

B、原型法是一个迭代过程。

C、原型法中不存在对用户的反馈。

D、SDLC即是系统开发的生命周期法答案:C 17、数据清洗是数据转移的一种基本类型,它不能通过下列的那种方法来完成:A、范围检验B、枚举清单C、相关检验D、删除分歧格的数据答案:D 18、下列不是数据转移的基本类型的是:A、简单转移B、清洗C、集成D、继续答案:D 19、开展数据挖掘的基本目的是:A、建立数据仓库。

B、帮助用户作决策。

C、从大量数据中提取有用信息。

D、对数据进行统计和分析。

答案:C 20、产生数据挖掘的根本原因是:A、数据统计分析。

B、技术的发展。

C、贸易推动。

D、数据仓库的产生。

答案:A 21、()是通过数据库中的一些属性来猜测另一个属性,它在验证用户提出的假设的过程中提取信息。

A、文本数据挖掘B、发现驱动的数据挖掘C、验证驱动的数据挖掘D、Web数据挖掘答案:C 22、对于在数据仓库中设计、使用OLAP的用户来说,下面不属于OLAP的衡量标准的是:A、解释性批处理提取。

B、弹性报告和一致性能报告。

C、对物理层的自动调整。

D、体系结构。

答案:D 23、对MOLAP和ROLAP的比较,不正确的说法是:A、MOLAP的查询能力一般较好,而在ROLAP中进行查询,往往很难预料查询结果。

B、MOLAP所需要的数据加载时间比较长,而ROLAP的加载时间要比MOLAP 短。

C、ROLAP比MOLAP的查询速度都要快很多。

D、MOLAP在分析过程中的精度较高,具有分析的上风。

答案:C 24、关于OLAP服务器及其工具,说法正确的是:A、只有Oracle提供了OLAP功能。

B、评价OLAP服务器的标准不包括全局结构视图。

C、OLAP的服务引擎都应满足分析模型及应用在功能、规模和技术特征上的要求。

D、对OLAP服务器的治理能力没有特别的要求。

答案:C 25、数据挖掘工具按照使用方式分类,可以分为:A、分为基于神经网络的工具,基于规则和决策树的工具,基于模糊逻辑的工具和综合性数据挖掘工具等。

B、分成决策方案天生工具,贸易分析工具和研究分析工具三类。

C、分成专用型数据挖掘工具和通用型数据挖掘工具两大。

D、分成基于神经网络的工具和研究分析工具。

答案:B二、填空题1、数据仓库(简答题必考)是_、_、_、_有组织的数据集合,支持治理的决策过程。

答案:面向主题、集成的、时变的、非易失的2、一般来说,可将数据仓库的开发和应用过程细分为_、_、_、_。

答案:设想阶段、规划和长大阶段、控制阶段和稳定阶段3、_是对现实世界进行抽象的工具,需要将现实世界的事物及其有关特征转换为信息世界的数据,才能对信息进行处理与治理,这就需要依靠_作为这种转换的桥梁。

这种转换经历了从现实到_,从_到_,最后从_到物理模型的转换。

答案:数据模型、数据模型、概念模型、概念模型、逻辑模型、逻辑模型4、元数据(简答题必考)是关于数据、_和应用程序的结构和意义的描述信息,其主要目标是_。

其范围可以是某个特别的数据库治理系统中从现实世界的概念上的一般概括,到_。

答案:操纵数据的进程、提供数据资源的全面指南、具体的物理说明5、按对象级别对元数据进行分类,可以从三个抽象级别上来熟悉:_、逻辑级和_。

答案:概念级、物理级6、数据库系统的特点主要体现在下面几个方面:_、数据的共享性、_和_。

答案:数据的结构化、数据的独立性、数据同一由DBMS治理和控制。

7、依据数据仓库数据量大但是操纵单一的特点,可以采取一些技术来进行数据仓库的物理数据模型设计,如:合并表、_、引进冗余、_、建立广义索引等等。

答案:建立数据序列、表的物理分割、天生导出数据8、数据仓库的接*术包含多技术接*术、_和数据的高效率加载技术。

答案:语言接*术9、数据仓库中数据的组织方式与数据库不同,通常采用_分级的方式进行组织。

-般包括早期细节数据、_、轻度综合数据、_以及_五部分。

答案:当前细节数据、高度综合数据、元数据10、数据仓库的需求分析根据不同领域可以划分为_、设计的需求、_和终极用户的需求等方面。

答案:业主(投资者)的需求、开发者的需求11、数据仓库固然是从数据库发展而来的,但两者存在大的差异,从数据存储内容看,数据库只存放_,而数据仓库则存放_,数据库中的数据的目标是面向_,而数据仓库则面向_。

答案:当前值、历史值、业务操纵职员、高层治理职员12、数据库内的数据是_的,只要有业务发生,数据就会更新,而数据仓库则是_的历史数据,只能定期添加、刷新。

答案:动态变化、静态13、数据仓库主要是供决策分析用的,所涉及的数据操纵主要是_,一般情况并不进行_答案:数据查询、修改操纵14、数据仓库创建后,首先从_中抽取所需要的数据到数据预备区,在数据预备区中经过_的净化处理,再加载到数据仓库数据库中,最后根据用户的需求将数据发布到_。

答案:数据源、数据、数据集市/知识挖掘库中15、"主题"在数据仓库中由一系列_实现的。

一个主题之下表的划分可按_、数据所属时间段进行划分。

主题在数据仓库中可用_方式进行存储,假如主题存量大为进步处理效率可采用_方式进行存储。

答案:列表、数据的综合、*数据库、关系数据库三、简答题1、什么是数据挖掘(Data Mining)?(简答题必考)答案:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜伏有用的信息和知识的过程。

相关文档
最新文档