数据仓库与数据挖掘复习提纲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库与数据挖掘复习提

-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据库应用技术(数据仓库与数据挖掘复习提纲)

说明:

考试形式:闭卷

考试题型:填空、选择、判断、名词解释、简答题、综合题。(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。

一:名词解释

数据仓库、数据挖掘、OLAP、ODS(操作数据存储)

二.简答题

1.试述数据仓库系统与数据库系统的区别与相似之处。

2.试述数据仓库设计的步骤以及每一步所完成的工作。

3.OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗为什么4.在数据挖掘前,为什么要对数据进行预处理,数据预处理的有哪些主要的处理方法?

5.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

6.什么是数据仓库中的元数据,元数据包含哪些内容其重要性体现在哪些方面

7.试述ODS在“DB-ODS-DW”体系结构中的作用。

8.请解释OLAP中维、维层次与维成员的概念,并举例说明。

9. 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式

10.数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣

11.数据仓库的设计包括哪些内容?

12.在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?

13.为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗

14.OLAP提供哪些基本操作?

15.OLAP服务器有哪些实现方法它们的优劣是什么

16.为什么不能依靠传统的业务处理系统进行决策分析

17.自然演化体系结构中存在的问题?

18.试述建立多维数据库的过程。

19.数据挖掘的主要方法。

20.数据挖掘中的数据分类是个两步的过程,简述每步过程。

21.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。

22. 一般来说,数据仓库采用什么样的数据模型与OLTP的数据库模型相比,这些模型有什么特点

三.综合题

第一类:给定一个表的结构及数据,计算每个决策属性的信息增益(请同学们掌握该方法,不同的试题中给定的表结构及数据是不同的)

例一:假设有如下的“雇员基本信息”表的结构及数据,其中属性“工资”为类别标识属性,属性“部门”、“职位”、“年龄”作为决策属性集。

第一种出题形式:请计算每个决策属性“部门”、“职位”、“年龄”的信息增益。第二种出题形式:建立决策树,并产生IF-THEN规则。

第二类:利用Apriori算法寻找事务集中的频繁项集,并由找到的频繁项集产生强关联规则。(请同学们掌握该方法,不同的试题中给定的事务集是不同的)

例一:假设现有如下表所示的一个事务数据库,数据库中有10个事务,即

|D|=10。假定最小支持度minsup=20%,最小置信度minsup=65%,利用Apriori 算法寻找D中的频繁项集,并由找到的频繁项集产生强关联规则。(另外请同

第三类:利用简单贝叶斯分类对数据进行分类(请同学们掌握该方法,不同的试题中给定的表结构及数据是不同的)

例一:假设有如下的“雇员基本信息”表的结构及数据,其中属性“工资”为类别标识属性,类别标识有3个取值(C1、C2、C3),属性“部门”、“职位”、“年龄”作为决策属性集,请利用贝叶斯简单分类方法对未知数据:

X=(部门=‘系统部’,职位=‘高级’年龄=‘21…30’)进行分类。(另外请

相关文档
最新文档