《数据挖掘》课程作业答案教学文稿
数据挖掘第三版第二章课后习题答案
1.1什么是数据挖掘?(a)它是一种广告宣传吗?(d)它是一种从数据库、统计学、机器学和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出一种观点,说数据挖掘是数据库进化的结果,你认为数据挖掘也是机器学习研究进化的结果吗?你能结合该学科的发展历史提出这一观点吗?针对统计学和模式知识领域做相同的事(d)当把数据挖掘看做知识点发现过程时,描述数据挖掘所涉及的步骤答:数据挖掘比较简单的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。
数据挖掘不是一种广告宣传,而是由于大量数据的可用性以及把这些数据变为有用的信息的迫切需要,使得数据挖掘变得更加有必要。
因此,数据挖掘可以被看作是信息技术的自然演变的结果。
数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换,而是来自多学科,例如数据库技术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成。
数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。
提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。
因此,出于这种必要性,数据挖掘开始了其发展。
当把数据挖掘看作知识发现过程时,涉及步骤如下:数据清理,一个删除或消除噪声和不一致的数据的过程;数据集成,多种数据源可以组合在一起;数据选择,从数据库中提取与分析任务相关的数据;数据变换,数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘,基本步骤,使用智能方法提取数据模式;模式评估,根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识1.3定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。
数据挖掘第三版第三章课后习题答案
2.1再给三个用于数据散布的常用特征度量(即未在本章讨论的),并讨论如何在大型数据库中有效的计算它们答:异众比率:又称离异比率或变差比。
是非众数组的频数占总频数的比率应用:用于衡量众数的代表性。
主要用于测度定类数据的离散程度,定序数据及数值型数据也可以计算。
还可以对不同总体或样本的离散程度进行比较计算:标准分数:标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。
用公式表示为:z=(x-μ)/σ。
其中x为某一具体分数,μ为平均数,σ为标准差。
Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。
在原始分数低于平均值时Z则为负数,反之则为正数。
计算:Z=(x-μ)/σ其中μ= E( X) 为平均值、σ² = Var( X) X的概率分布之方差若随机变量无法确定时,则为算术平均数离散系数:离散系数,又称“变异系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。
计算:CV=σ/μ极差(全距)系数:Vr=R/X’;平均差系数:Va,d=A.D/X’;方差系数:V方差=方差/X’;标准差系数:V标准差=标准差/X’;其中,X’表示X的平均数。
平均差:平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。
平均差是一种平均离差。
离差是总体各单位的标志值与算术平均数之差。
因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。
平均差是反应各标志值与算术平均数之间的平均差异。
平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
计算:平均差=(∑|x-x'|)÷n,其中∑为总计的符号,x为变量,x'为算术平均数,n为变量值的个数。
数据挖掘试题参考答案
大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。
(完整版)数据挖掘概念课后习题答案
�数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可 能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和 基于相似性的数据分析
1.9列举并描述说明数据挖掘任务的五种原语。
五种原语是:
�任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据 库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的 条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
�关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中,X是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
�分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型 或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效 的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的 数字型数据的值。
数据挖掘概念与技术原书第3版课后练习题含答案
数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。
本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。
答案第1章绪论习题1.1数据挖掘的基本步骤包括:1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括:1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤:1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括:1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括:1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括:1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步,直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括:1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。
对于过拟合的处理方法包括:1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。
如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。
大工20春《数据挖掘》课程大作业满分答案
大工20春《数据挖掘》课程大作业满分答案网络教育学院《数据挖掘》课程大作业题目:KNN算法原理及Python实现姓名:研究中心:第一大题:数据挖掘》是一门实用性非常强的课程,数据挖掘是大数据这门前沿技术的基础,拥有广阔的前景,在信息化时代具有非常重要的意义。
数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工智能、机器研究、知识获取、统计学、空间数据库和数据可视化等领域。
在研究过程中,我也遇到了不少困难,例如基础差,对于Python基础不牢,尤其是在进行这次课程作业时,显得力不从心;个别算法也研究的不够透彻。
在接下来的研究中,我仍然要加强理论知识的研究,并且在研究的同时联系实际,在日常工作中注意运用《数据挖掘》所学到的知识,不断加深巩固,不断发现问题,解决问题。
另外,对于自己掌握不牢的知识要勤复,多练,使自己早日成为一名合格的计算机毕业生。
第二大题:KNN算法介绍KNN算法,又叫K最邻近分类算法,是数据挖掘分类技术中最简单的方法之一。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
KNN算法的基本思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
KNN算法流程1.计算测试数据与各个训练数据之间的距离;2.按照距离的递增关系进行排序;3.选取距离最小的K个点;4.确定前K个点所在类别的出现频率;5.返回前K个点中出现频率最高的类别作为测试数据的预测分类。
Python实现算法及预测在Python中,我们可以使用sklearn库来实现KNN算法。
具体实现代码如下:pythonfrom sklearn.neighbors import KNeighborsClassifierknn = KNeighborsClassifier(n_neighbors=k)knn.fit(X_train。
(完整word版)数据挖掘课后答案
第一章1.6(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。
(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较.由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是.(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则.例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=〉拥有(X,”个人电脑“)[support= 12%,confidence = 98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。
12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定. (6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。
(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)
1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合。
1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
完整word版数据挖掘课后答案
第一章6.1 数据特征化是目标类数据的一般特性或特征的汇总。
(1)岁、有工5040—元以上的顾客特征的汇总描述是:年龄在例如,在某商店花费1000 作和很好的信誉等级。
数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比)(2 较。
由可与低平均分数的学生的一般特点进行比较。
例如,高平均分数的学生的一般特点,%的学生是大四的计算机科学专业75此产生的可能是一个相当普遍的描述,如平均分高达的学生则不是。
的学生,而平均分低于65% )关联和相关分析是指在给定的频繁项集中寻找相关联的规则。
(3”X,)=>拥有(X 例如,一个数据挖掘系统可能会发现这样的规则:专业(,“计算机科学”是一个变量,代表一个学生,该规,其中Xconfidence = 98%]%,个人电脑“)[support= 12的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人则表明,98%显示属于计算机科学专的支持度意味着所研究的所有事务的12%98%。
12%电脑的可能性是业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。
习题及参考答案电子教案
习题参考答案第1章绪论1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。
数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。
实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。
该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。
随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。
但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。
而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。
1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。
数据挖掘参考答案
数据挖掘参考答案数据挖掘参考答案随着信息时代的到来,大数据成为了各个领域的热门话题。
数据的爆炸式增长给人们带来了巨大的挑战,同时也带来了无限的机遇。
在这个背景下,数据挖掘作为一种重要的数据分析方法,被广泛应用于商业、科学、医疗等领域。
本文将从数据挖掘的定义、应用领域和技术方法等方面进行探讨。
首先,我们来了解一下数据挖掘的定义。
数据挖掘是一种通过从大量数据中发现隐藏模式和知识的过程。
它涉及到多个学科领域,包括统计学、机器学习、人工智能等。
数据挖掘的目标是通过分析数据,找出其中的规律和趋势,以便做出预测和决策。
数据挖掘的应用领域非常广泛。
在商业领域,数据挖掘可以用于市场营销、客户关系管理、风险管理等方面。
例如,通过分析用户的购买记录和行为模式,企业可以预测用户的需求,优化产品推荐,提高销售额。
在科学研究中,数据挖掘可以用于发现新的科学规律和模型。
例如,通过分析天文观测数据,科学家可以发现新的星系和行星。
在医疗领域,数据挖掘可以用于疾病诊断、药物研发等方面。
例如,通过分析大量的医疗数据,医生可以预测患者的疾病风险,制定个性化的治疗方案。
数据挖掘的技术方法也非常多样。
其中最常用的方法包括聚类分析、分类分析、关联规则挖掘和预测分析等。
聚类分析是将数据分成若干个类别,使得同一类别内的数据相似度较高,不同类别之间的数据相似度较低。
分类分析是根据已有的数据集,建立一个分类模型,用于对新的数据进行分类。
关联规则挖掘是发现数据中的相关性和关联关系。
预测分析是通过分析历史数据,预测未来的趋势和结果。
除了上述常用的技术方法,还有一些新兴的数据挖掘技术值得关注。
例如,深度学习是一种基于神经网络的机器学习方法,可以用于处理大规模的非结构化数据。
自然语言处理是一种将自然语言转化为计算机可处理形式的技术,可以用于处理文本数据。
图挖掘是一种挖掘图数据中的模式和知识的方法,可以用于社交网络分析、网络安全等领域。
然而,数据挖掘也面临着一些挑战和问题。
数据挖掘 第三章 课后习题答案
1、分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。
客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。
机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。
又如:信用卡核准过程,信用卡公司根据信誉程度,将一组持卡人记录为良好、一般和较差三类,且把类别标记赋给每个记录,如:“信誉良好的客户是那些收入在5万元以上,年龄在40-50岁之间的人士”。
2、决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。
其中最上面的一个节点叫根节点。
构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。
构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。
这种具有预测功能的系统叫决策树分类器。
构造出的决策树有二叉树和多叉树,二叉树的内部节点一般表示为一个逻辑判断,如形式为(ai = vi )的逻辑判断,其中ai 是属性,vi 是该属性的某个属性值;树的边是逻辑判断的分支结果。
多叉树(如ID3)的内部节点是属性,边是该属性的所有取值,有几个属性值,就有几条边。
树的叶子节点都是类别标记。
构造一个决策树分类器通常分为两步:树的生成和剪枝。
其中树的生成是采用自上而下的递归方法。
以多叉树为例,它的构造思路是,如果训练例子集合中的所有例子是同类的,则将之作为叶子节点,节点内容即是该类别标记。
否则,根据某种策略选择一个属性,按照属性的各个取值,把例子集合划分为若干子集合,使得每个子集上的所有例子在该属性上具有同样的属性值。
(完整word版)数据挖掘_概念与技术(第三版)部分习题答案
1。
4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合.1。
3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computing science”) ⇒owns(X,“personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值.它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值.聚类分析的数据对象不考虑已知的类标号。
数据挖掘第三版第八章课后习题答案
6.2(a)能确定项集A是否频繁,并且能确定项集A的支持度6.3(b)因为s包含s’,则项集s的频数小于或者等于s’的频数,所以项集s的任意非空子集s’的支持度至少与s的支持度一样大。
设任务相关的数据D是数据库事务的集合,|D|是 D 的事务量,由定义得:| |) (_sup)(supDs countportsport=.设s’是s的非空子集,由定义得:||)'(_sup)'(supDscountportsport=.由频繁项集的所有非空子集一定也是频繁的可知:support(s’) support(s)(d)因为d中的频繁项集都是来自d的所有分区之内的,所以在d中频繁的项集至少在d的一个分区中是频繁的。
6.6(a)Apriori算法最小支持度计数=3C1 C2 C3 C4 C5项集支持度计数项集支持度计数项集支持度计数项集支持度计数项集支持度{M} 3 {M} 3 {M,O} 1 {M,K} 3 {O,K,E} 3 {O} 4 {O} 4 {M,E} 2 {O,K} 3{N} 2 {K} 5 {M,K} 3 {O,E} 3{K} 5 {E} 4 {M,Y} 2 {K,E} 4{E} 4 {Y} 3 {O,E} 3 {K,Y} 3{Y} 3 {O,K} 3{D} 1 {O,Y} 2{A} 1 {K,E} 4{U} 1 {K,Y} 3{C} 2 {E,Y} 2{I} 1FP-growth树算法K 5E 4O 3M 3Y 3Null{}K:5E:4 M:1O:3 OM:1 OY:1M:1 OY:1Y:1项条件模式基条件FD模式产生的频繁模式Y {K,E,O,D:1}{K,E,O:1<K:3> {K,Y:3}}{K,M:1}<K:3> {K,M:3}M {K,E,,O:1}{K,E:1}{K:1}O {K,E:3} <K:3,E:3> {K,O:3}{E,O:3}{K,E,O:3}E {K:4} <K:4> {K,E:4}6.146.14(a)支持度=2000/5000*100%=40%>25%,置信度=2000/3000*100%=66.7%>50%则该关联规则是强规则(b)P(AUB)=40%P(A)p(B)=2500/5000*3000/5000*100%=30%P(AUB)> P(A)p(B)所以不是独立的,两者之间是正相关的。
数据挖掘导论课后习题答案
数据挖掘导论课后习题答案数据挖掘导论课后习题答案数据挖掘是一门涉及统计学、机器学习和数据库技术的跨学科领域,旨在从大量的数据中发现有价值的信息和模式。
在这门课程中,学生将学习数据挖掘的基本概念、方法和技术,并通过习题的解答来加深对这些概念的理解和应用。
下面是一些常见的数据挖掘导论课后习题及其答案,供学生参考。
1. 什么是数据挖掘?数据挖掘的目标是什么?答:数据挖掘是从大量的数据中提取出有用的信息和模式的过程。
其目标是发现隐藏在数据背后的知识和规律,以便支持决策和预测。
2. 数据挖掘的主要任务有哪些?答:数据挖掘的主要任务包括分类、聚类、关联规则挖掘、异常检测和预测等。
分类是将数据分为不同的类别;聚类是将数据分为相似的群组;关联规则挖掘是发现数据中的关联关系;异常检测是识别与其他数据不同的异常数据;预测是根据已有的数据来预测未来的趋势。
3. 数据挖掘的过程包括哪些步骤?答:数据挖掘的过程一般包括问题定义、数据收集、数据预处理、特征选择、模型建立、模型评估和结果解释等步骤。
问题定义是明确挖掘的目标和需求;数据收集是获取相关数据;数据预处理是对数据进行清洗、集成、转换和规约;特征选择是选择对挖掘任务有用的特征;模型建立是选择合适的模型并进行训练;模型评估是评估模型的性能;结果解释是对挖掘结果进行解释和应用。
4. 什么是分类算法?常见的分类算法有哪些?答:分类算法是将数据分为不同类别的算法。
常见的分类算法包括决策树、朴素贝叶斯、支持向量机和神经网络等。
决策树通过构建树状结构来进行分类;朴素贝叶斯基于贝叶斯定理进行分类;支持向量机通过寻找最优超平面进行分类;神经网络模拟人脑神经元的工作原理进行分类。
5. 什么是聚类算法?常见的聚类算法有哪些?答:聚类算法是将数据分为相似群组的算法。
常见的聚类算法包括K均值聚类、层次聚类和DBSCAN等。
K均值聚类通过将数据分为K个簇来进行聚类;层次聚类通过构建树状结构来进行聚类;DBSCAN基于密度的聚类算法,将高密度区域看作簇。
数据挖掘习题参考答案
数据挖掘习题参考答案数据挖掘习题参考答案数据挖掘作为一门热门的学科,已经在各个领域得到广泛应用。
它的目标是从大量的数据中发现有用的信息,并且用这些信息来解决实际问题。
为了帮助读者更好地理解数据挖掘的概念和技术,本文将提供一些数据挖掘习题的参考答案,希望能够对读者有所帮助。
习题一:什么是数据挖掘?它有哪些应用领域?答案:数据挖掘是指从大量的数据中发现有用的信息,并且用这些信息来解决实际问题的过程。
它可以帮助我们发现数据中的模式、规律和趋势,从而提供决策支持和预测能力。
数据挖掘的应用领域非常广泛,包括但不限于市场营销、金融风险管理、医疗诊断、社交网络分析等。
习题二:数据挖掘的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测。
分类是指根据已有的数据样本来预测新的数据样本所属的类别。
聚类是指将数据样本分成几个不同的组,使得同一组内的数据样本相似度较高,而不同组之间的相似度较低。
关联规则挖掘是指发现数据中的关联关系,例如购物篮分析中的“如果购买了商品A,则更有可能购买商品B”。
异常检测是指发现与其他样本不同的数据点,可能是潜在的异常或异常行为。
习题三:数据挖掘的过程有哪些步骤?答案:数据挖掘的过程通常包括问题定义、数据收集、数据预处理、特征选择和转换、模型选择和建立、模型评估和模型应用等步骤。
首先,我们需要明确问题的定义,确定我们需要从数据中挖掘出什么样的信息。
然后,我们收集相关的数据,并对数据进行预处理,包括数据清洗、数据集成、数据变换和数据规约等。
接下来,我们选择合适的特征,并进行特征转换,以便于模型的建立和分析。
在模型选择和建立阶段,我们选择合适的数据挖掘算法,并进行模型的训练和优化。
最后,我们评估模型的性能,并将模型应用于实际问题中。
习题四:数据挖掘中常用的算法有哪些?答案:数据挖掘中常用的算法包括决策树、朴素贝叶斯、支持向量机、神经网络、聚类算法(如K-means算法和DBSCAN算法)、关联规则挖掘算法(如Apriori算法)等。
数据挖掘概念与技术(第三版)课后答案——第一章
数据挖掘概念与技术(第三版)课后答案——第⼀章1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a)它是⼜⼀种⼴告宣传吗?(b)它是⼀种从数据库、统计学、机器学习和模式识别发展⽽来的技术的简单转换或应⽤吗?(c)我们提出了⼀种观点,说数据挖掘是数据库技术进化的结果。
你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这⼀观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
答:数据挖掘不是⼀种⼴告宣传,它是⼀个应⽤驱动的领域,数据挖掘吸纳了诸如统计学习、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、⾼性能计算和许多应⽤领域的⼤量技术。
它是从⼤量数据中挖掘有趣模式和知识的过程。
数据源:包括数据库、数据仓库、Web、其他信息存储库或动态的流⼊系统的数据等。
当其被看作知识发现过程时,其基本步骤主要有:1. 数据清理:清楚噪声和删除不⼀致数据;2. 数据集成:多种数据源可以组合在⼀起;3. 数据选择:从数据库中提取与分析任务相关的数据;4. 数据变换:通过汇总或者聚集操作,把数据变换和统⼀成适合挖掘的形式;5. 数据挖掘:使⽤智能⽅法或者数据挖掘算法提取数据模式;6. 模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式。
7. 知识表⽰:使⽤可视化和知识表⽰技术,向⽤户提供挖掘的知识。
1.2 数据仓库与数据库有什么不同?它们有哪些相似之处?答:不同:数据仓库是多个异构数据源在单个站点以统⼀的模式组织的存储,以⽀持管理决策。
数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。
数据库系统也称数据库管理系统,由⼀组内部相关的数据(称作数据库)和⼀组管理和存取数据的软件程序组成,是⾯向操作型的数据库,是组成数据仓库的源数据。
它⽤表组织数据,采⽤ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合。
数据挖掘概念与技术课后答案第二版
数据挖掘概念与技术课后答案第二版第一章:数据挖掘概论1.什么是数据挖掘?数据挖掘是一种通过从大量数据中发现隐藏模式、关系和知识的方法。
它将统计学、机器学习和数据库技术结合起来,用于分析海量的数据,并从中提取出有用的信息。
2.数据挖掘的主要任务有哪些?数据挖掘的主要任务包括分类、回归、聚类、关联规则挖掘和异常检测等。
3.数据挖掘的流程有哪些步骤?数据挖掘的典型流程包括问题定义、数据收集、数据预处理、特征选择、模型构建、模型评估和模型应用等步骤。
4.数据挖掘的应用领域有哪些?数据挖掘的应用领域非常广泛,包括市场营销、金融分析、生物医学、社交网络分析等。
5.数据挖掘的风险和挑战有哪些?数据挖掘的风险和挑战包括隐私保护、数据质量、误差纠正、过拟合和模型解释等。
第二章:数据预处理1.数据预处理的主要任务有哪些?数据预处理的主要任务包括数据清洗、数据集成、数据转换和数据规约等。
2.数据清洗的方法有哪些?数据清洗的方法包括缺失值填补、噪声数据过滤、异常值检测和重复数据处理等。
3.数据集成的方法有哪些?数据集成的方法包括实体识别、属性冲突解决和数据转换等。
4.数据转换的方法有哪些?数据转换的方法包括属性构造、属性选择、规范化和离散化等。
5.数据规约的方法有哪些?数据规约的方法包括维度规约和数值规约等。
第三章:特征选择与数据降维1.什么是特征选择?特征选择是从原始特征集中选择出最具有代表性和区分性的特征子集的过程。
2.特征选择的方法有哪些?特征选择的方法包括过滤式特征选择、包裹式特征选择和嵌入式特征选择等。
3.什么是数据降维?数据降维是将高维数据映射到低维空间的过程,同时保留原始数据的主要信息。
4.数据降维的方法有哪些?数据降维的方法包括主成分分析、线性判别分析和非负矩阵分解等。
5.特征选择和数据降维的目的是什么?特征选择和数据降维的目的是减少数据维度、提高模型训练效果、降低计算复杂度和防止过拟合等。
第四章:分类与预测1.什么是分类?分类是通过训练数据集建立一个分类模型,并将未知数据对象分配到其中的某个类别的过程。
数据挖掘作业答案
数据挖掘作业答案数据挖掘作业题⽬+答案华理计算机专业选修课第⼆章:假定⽤于分析的数据包含属性age。
数据元组中age值如下(按递增序):13 ,15 ,16 ,16 ,19 ,20 ,20,21 ,22 ,22,25 ,25 ,25 ,25 ,30 ,33 ,33 ,35 ,35 ,35,35,36,40,45,46,52,70.分别⽤按箱平均值和边界值平滑对以上数据进⾏平滑,箱的深度为3.使⽤最⼩-最⼤规范化,将age值35转换到[0.0,1.0]区间使⽤z-Score规范化转换age值35 ,其中age的标准差为12.94年。
使⽤⼩数定标规范化转换age值35。
画⼀个宽度为10的等宽直斱图。
该数据的均值是什么?中位数是什么?该数据的众数是什么?讨论数据的峰(即双峰,三峰等)数据的中列数是什么?(粗略地)找出数据的第⼀个四分位数(Q1 )和第三个四分位数(Q3 )给出数据的五数概括画出数据的盒图第三章假定数据仓库包含三个维:time doctor和patient ;两个度量:count和charge;其中charge是医⽣对病⼈⼀次诊治的收费。
画出该数据仓库的星型模式图。
由基本⽅体[day, doctor, patient]开始,为列出2004年每位医⽣的收费总数,应当执⾏哪些OLAP操作。
如果每维有4层(包括all ),该⽴⽅体包含多少⽅体(包括基本⽅体和顶点⽅体)?第五章数据库有4个事务。
设min_sup=60%,min_conf=80%TID Itmes_boughtT100 {K,A,D,B}T200 {D,A,C,E,B}T300 {C,A,B,E}T400 {B,A,D}分别使⽤Apriori和FP-增长算法找出频繁项集。
列出所有的强关联规则(带⽀持度s和置信度c ),它们不下⾯的元规则匹配,其中,X是代表顼客的变量,itmei是表⽰项的变量(例如:A、B等)下⾯的相依表会中了超级市场的事务数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浙江大学远程教育学院《数据挖掘》课程作业答案第一章引言一、填空题(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示(2)算法的效率、可扩展性和并行处理(3)统计学、数据库技术和机器学习(4)一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面(3)Web挖掘一般包括以下步骤:数据清理: (这个可能要占全过程60%的工作量)数据集成将数据存入数据仓库建立数据立方体选择用来进行数据挖掘的数据数据挖掘(选择适当的算法来找到感兴趣的模式)展现挖掘结果将模式或者知识应用或者存入知识库(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。
其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
第二章认识数据一、填空题(1)5/13(2)极差、分位数、四分位数、百分位数、四分位数极差和标准差(3)出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值二、单选题(1)C;(2)C;三、简答题(1)什么是基于像素的可视化技术?它有什么缺点?答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。
记录的m个维值映射到这些窗口对应位置上的m个像素。
像素的颜色反映对应的值。
基于像素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。
(2)对称的和不对称的二元属性有什么区别?答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。
对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard 系数评估它们的相异度。
第三章数据预处理一、填空题(1)数据清理、数据集成、数据变换、数据规约(2)沿概念分层向上概化(3)有损压缩,无损压缩(4)线性回归方法,多元回归,对数线性模型二、简答题(1)常用的数值属性概念分层的方法有哪些?答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
(2)主成份分析步骤为:a、规范化输入的数据:所有属性落在相同的区间内;b、计算k个标准正交向量,即主成分;c、每个输入数据的向量都是这k个主成分向量的线性组合;d、主成分按照重要程度降序排序。
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
答:处理空缺值的方法有:(1)忽略元组。
当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
(2)人工填写空缺值。
这种方法工作量大,可行性低(3)使用一个全局变量填充空缺值:比如使用unknown或-∞(4)使用属性的平均值填充空缺值(5)使用与给定元组属同一类的所有样本的平均值(6)使用最可能的值填充空缺值。
如使用像Bayesian公式或判定树这样的基于推断的方法(4)常见的数据归约策略包括哪些?答:数据归约策略包括:(1)数据立方体聚集(2)维归约(3)数据压缩(4)数值归约(5)离散化和概念分层产生第六—七章挖掘频繁模式、关联和相关一、填空题(1)支持度和置信度(2)连接和剪枝(3)包含项集的事务数(4)找出所有频繁项集、由频繁项集产生强关联规则(5)布尔关联规则、量化关联规则(6)频繁项集的所有非空子集也必须是频繁的(7)频繁谓词集二、简答题(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。
缺点:最小支持度值设置困难:太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。
(2)如何提高Apriori算法的有效性?有哪些常见方法?可以使用以下几个思路提升Apriori算法有效性:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。
常见方法包括:a、基于hash表的项集计数;b、事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动态项集计数。
第八章分类一、填空题(1)分类规则、决策树、数学公式(2)类条件独立二、简答题(1)在判定树归纳中,为什么树剪枝是有用的?答:决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。
(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。
答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。
朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。
他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用中缺乏准确性,因为变量之间经常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。
(3)分类方法的常用评估度量都有哪些?精度(Precision):标记为正类的元组实际为正类所占的百分比召回率:正元组标记为正的百分比F 度量:精度和召回率的调和评估指标准确率(accuracy),识别率:测试数据中被正确分类的元组所占的百分比;(2)数据分布的情况(3)高类内相似度、低类间相似度(4)数据矩阵和相似度矩阵(5)处理数度快二、简答题(1)简述基于划分的聚类方法。
划分的准则是什么?答:基于划分的聚类方法:给定一个n个对象或元组的数据库,一个划分方法构建数据的k 个划分,每个划分表示一个簇,并且k<=n。
划分方法要求每个组至少包含一个对象并且每个对象属于且仅属于一个组。
聚类目标可以是最优化某种度量,比如最小化数据点与类中心的距离平方和等。
划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同。
(2)列举离群点挖掘的常见应用。
答:离群点检测的应用很多,列举一些如下:a、欺诈检测;b、网络入侵;c、故障诊断;d、可疑金融交易监控。
第四章数据仓库与OLAP技术一、填空题(1)星形模式、雪花模式和事实星座模式(2)不物化、部分物化和全物化(3)面向主题、数据集成、随时间而变化和数据不易丢失(4)事务操作,只读查询(5)分布的、代数的和整体的(6)自顶向下视图、数据源视图、数据仓库视图、商务查询视图(7)关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)(8)分布的(9)海量数据,有限的内存和时间二、简答题(1)为什么在进行联机分析处(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:(1)提高两个系统的性能操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。
(2)两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。
(3)两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
(2)为什么说数据仓库具有随时间而变化的特征?答:(1)数据仓库的时间范围比操作数据库系统要长的多。
操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10 年)。
(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。
(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。
而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。
此外,数据仓库存储并集成历史信息,支持复杂的多维查询。
(4)请简述几种典型的多维数据的OLAP操作答:典型的OLAP操作包括以下几种上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;切片:在给定的数据立方体的一个维上进行选择,导致一个子方;切块:通过对两个或多个维执行选择,定义子方;转轴:转动数据的视角,提供数据的替代表示;钻过:执行涉及多个事实表的查询;钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。
(2)数据仓库不需要事务处理,恢复,和并发控制等机制。
(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。
(6)在数据仓库中,元数据的主要用途包括哪些?答:在数据仓库中,元数据的主要用途包括:(1)用作目录,帮助决策支持系统分析者对数据仓库的内容定义(2)作为数据仓库和操作性数据库之间进行数据转换时的映射标准(3)用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。
(7)数据仓库后端工具和程序包括哪些?答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:(1)数据提取:从多个外部的异构数据源收集数据(2)数据清理:检测数据种的错误并作可能的订正(3)数据变换:将数据由历史或主机的格式转化为数据仓库的格式(4)装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区(5)刷新:将数据源的更新传播到数据仓库中。