09数据仓库与数据挖掘试题(最后)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据挖掘试题
一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据
库系统有什么区别
二、关系模型和多维模型在数据仓库设计中各有什么优缺点
三、数据仓库上的代数操作有哪些如何定义的,举例说明。
四、什么是知识发现,知识发现的过程包括那几个步骤
五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出
关联规则
六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法
有哪些
1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别
数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
2、关系模型先建立企业级数据仓库,再在其上开发具体的应用。企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。这种模型的优点是信息全面、系统灵活。由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。
多维模型降低了范式化,以分析主题为基本框架来组织数据。以维模型开发分析主题,这样能够快速实施,迅速获得投资回报,在取得实际效果的基础上,再逐渐增加应用主题,循序渐进,积累经验,逐步建成企业级数据仓库。这也可以说是采用总线型结构先建立数据集市,使所有的数据集市具有统一的维定义和一致的业务事实,这种方法融合了自下而上和自上而下两种设计方法的思想。这种模型的优点是查询速度快,做报表也快;缺点是由于存在大量的预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主码由所有维表的主码组成,所以这种维的变动将是非常复杂、非常耗时的。而且信息不够全面、系统欠灵活、数据冗余多。
3、切片(Slice)、切块(Dice)、聚集(aggregation)、幂聚集(Cube)、上卷(roll-up)、下钻(drill-down)、集合操作、类似于关系代数的操作等。
切片(Slice)
给定一个多维数据集合MDS(D1, D2, … , Dn; M1, M2, …, Mk),在MDS的第i维上的切片是一个条件为Di=c选择操作,c是常量。切片的结果是一个n-1维的数据集合
切块(Dice)
给定一个多维数据集合MDS(D1,D2,…,Dn; M1,M2,…,Mk),在MDS的第i维上的切块是一个条件为c1Dic2选择操作,c1和c2是常值。切块的结果是一个n维的数据集合
聚集(Aggregation)
给定一个多维数据集合MDS(D1,D2,…,Dn; M1,M2,…,Mk)及一个维属性Di(1in),MDS在Di上的聚集操作表示为Agg(MDS,Di,F),其中F={f1,f2,…,fk}, fj是Mj上聚集函数,如求最大值、最小值、均值、和、计数等。
幂聚集(Cube)
给定一个多维数据集合MDS(D1,D2,…,Dn;M1,M2,…, Mk)及一个维属性集合S{Di|1in},MDS在S上的幂聚集操作表示为Cube(MDS,S,F),其中F={f1,f2,…, fk}, fj是Mj上聚集函数,如求最大值、最小值、均值、和、计数等。
上卷(roll-up)
给定一个多维数据集合MDS(D1,D2,…,Dn;M1, M2,…,Mk),MDS上的上卷操作的功能是从MDS开始沿着计算
下钻(drill-down)
下钻是上卷的逆操作,从宏观数据到微观数据。
旋转
数据旋转是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据
5、数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
4、知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。
数据准备包括3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。预处理是为了克服目前数据采掘工具的局限性。
数据挖掘
要先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘,后一种称为验证型的数据挖掘。
选择合适的工具。
挖掘知识的操作。
证实发现的知识。
结果表达和解释根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者,因此这一步骤任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复以上数据挖掘过程
6、分类(classification )是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。