09数据仓库与数据挖掘试题(最后)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库与数据挖掘试题

一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据

库系统有什么区别

二、关系模型和多维模型在数据仓库设计中各有什么优缺点

三、数据仓库上的代数操作有哪些如何定义的，举例说明。

四、什么是知识发现，知识发现的过程包括那几个步骤

五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出

关联规则

六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法

有哪些

1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，它用于支持企业或组织的决策分析处理。数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别

数据库是面向事务的设计，数据仓库是面向主题设计的。

数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。

2、关系模型先建立企业级数据仓库，再在其上开发具体的应用。企业级数据仓库固然是我们所追求的目标，但在缺乏足够的技术力量和数据仓库建设经验的情况下，按照这种模型设计的系统建设过程长，周期长，难度大，风险大，容易失败。这种模型的优点是信息全面、系统灵活。由于采用了第三范式，数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等，但同时会存在大量的数据表，表之间的联系比较多，也比较复杂，跨表操作多，查询效率较低，对数据仓库系统的硬件性能要求高等问题。另一方面，数据模式复杂，不容易理解，对于一般计算机用户来说，增加了理解数据表的困难。

多维模型降低了范式化，以分析主题为基本框架来组织数据。以维模型开发分析主题，这样能够快速实施，迅速获得投资回报，在取得实际效果的基础上，再逐渐增加应用主题，循序渐进，积累经验，逐步建成企业级数据仓库。这也可以说是采用总线型结构先建立数据集市，使所有的数据集市具有统一的维定义和一致的业务事实，这种方法融合了自下而上和自上而下两种设计方法的思想。这种模型的优点是查询速度快，做报表也快;缺点是由于存在大量的预处理，其建模过程相对来说就比较慢。当业务问题发生变化，原来的维不能满足要求时，需要增加新的维。由于事实表的主码由所有维表的主码组成，所以这种维的变动将是非常复杂、非常耗时的。而且信息不够全面、系统欠灵活、数据冗余多。

3、切片(Slice)、切块(Dice)、聚集(aggregation)、幂聚集(Cube)、上卷(roll-up)、下钻(drill-down)、集合操作、类似于关系代数的操作等。

切片(Slice)

给定一个多维数据集合MDS(D1, D2, … , Dn; M1, M2, …, Mk)，在MDS的第i维上的切片是一个条件为Di=c选择操作，c是常量。切片的结果是一个n-1维的数据集合

切块(Dice)

给定一个多维数据集合MDS(D1,D2,…,Dn; M1,M2,…,Mk)，在MDS的第i维上的切块是一个条件为c1Dic2选择操作，c1和c2是常值。切块的结果是一个n维的数据集合

聚集(Aggregation)

给定一个多维数据集合MDS(D1,D2,…,Dn; M1,M2,…,Mk)及一个维属性Di(1in)，MDS在Di上的聚集操作表示为Agg(MDS,Di,F)，其中F={f1,f2,…,fk}, fj是Mj上聚集函数，如求最大值、最小值、均值、和、计数等。

幂聚集(Cube)

给定一个多维数据集合MDS(D1,D2,…,Dn;M1,M2,…, Mk)及一个维属性集合S{Di|1in}，MDS在S上的幂聚集操作表示为Cube(MDS,S,F)，其中F={f1,f2,…, fk}, fj是Mj上聚集函数，如求最大值、最小值、均值、和、计数等。

上卷（roll-up）

给定一个多维数据集合MDS(D1,D2,…,Dn;M1, M2,…,Mk)，MDS上的上卷操作的功能是从MDS开始沿着计算

下钻（drill-down）

下钻是上卷的逆操作，从宏观数据到微观数据。

旋转

数据旋转是改变维度的位置关系，使最终用户可以从其他视角来观察多维数据

5、数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。

4、知识发现是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。知识发现将信息变为知识，从数据矿山中找到蕴藏的知识金块，将为知识创新和知识经济的发展作出贡献。

数据准备包括3个子步骤：数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理，解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合，缩小处理范围，提高数据采掘的质量。预处理是为了克服目前数据采掘工具的局限性。

数据挖掘

要先决定如何产生假设，是让数据挖掘系统为用户产生假设，还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘，后一种称为验证型的数据挖掘。

选择合适的工具。

挖掘知识的操作。

证实发现的知识。

结果表达和解释根据最终用户的决策目的对提取的信息进行分析，把最有价值的信息区分出来，并且通过决策支持工具提交给决策者，因此这一步骤任务不仅是把结果表达出来，还要对信息进行过滤处理，如果不能令决策者满意，需要重复以上数据挖掘过程

6、分类(classification )是找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。聚类(clustering)是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。区别是，分类是事先定义好类别，类别数不变。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。聚类则没有事先预定的类别，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合，比如按照国图分类法分类图书；聚类则适合不存在分类体系、类别数不确定的场合，一般作为某些应用的前端，比如多文档文摘、搜索引擎结果后聚类(元搜索)等。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。