数据挖掘作业讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据挖掘》作业
第一章引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、
数据选择、数据变换、数据挖掘、模式评估和知识表示
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘
(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据
二、单选题
(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:(B )
A、所涉及的算法的复杂性;
B、所涉及的数据量;
C、计算结果的表现形式;
D、是否使用了人工智能技术
(2)孤立点挖掘适用于下列哪种场合?(D )
A、目标市场分析
B、购物篮分析
C、模式识别
D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析
A. 关联分析
B.分类和预测
C.聚类分析
D. 演变分析
(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能
A、选择任务相关的数据
B、选择要挖掘的知识类型
C、模式的兴趣度度量
D、模式的可视化表示
(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析
A、关联分析
B、分类和预测
C、聚类分析
D、演变分析
(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )
A.关联分析
B.分类和预测
C. 演变分析
D. 概念描述
(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )
A.关联分析
B.分类和预测
C.聚类分析
D. 孤立点分析
E. 演变分析
(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )
A.关联分析
B.分类和预测
C. 孤立点分析
D. 演变分析
E. 概念描述
三、简答题
(1)什么是数据挖掘?
答:数据挖掘是指从大量数据中提取或“挖掘”知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:典型的数据挖掘系统具有:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;数据挖掘引擎;模式评估;用户界面。

(3)请简述不同历史时代数据库技术的演化。

答:1960年代和以前:研究文件系统;
1970年代:出现层次数据库和网状数据库
1980年代早期:关系数据模型,关系数据库管理系统(RDBMS)的实现
1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)1990年代:研究的重点转移到数据挖掘、数据仓库、多媒体数据库和网络数据库
2000年代:人们专注于研究数据管理和挖掘,基于各种应用的数据挖掘、XML数据库和整合的信息系统。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

(5)什么是模式兴趣度的客观度量和主观度量?
答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?
答:一个模式是有趣的,如果(1) 它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。

(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。

第二章数据仓库和数据挖掘的OLAP技术
一、填空题
(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式和事实星座模式
(2)给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化
(3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间而变化和数据不易丢失
(4)在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和整体的
(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图
(7)OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)
(8)求和函数sum()是一个分布的的函数。

(9)方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。

二、单选题
(1)下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作(B )
A、上卷(roll-up)
B、选择(select)
C、切片(slice)
D、转轴(pivot)
(2)以下哪个范围是数据仓库的数据库规模的一个合理范围(D )
A、1-100M
B、100M-10G
C、10-1000G
D、100GB-数TB
(3)存放最低层汇总的方体称为:(C )
A、顶点方体
B、方体的格
C、基本方体
D、维
(4)哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?( A )
A、上卷
B、下钻
C、切块
D、转轴
(5)平均值函数avg()属于哪种类型的度量?( B )
A、分布的
B、代数的
C、整体的
D、混合的
三、多选题
(1)OLAP系统和OLTP系统的主要区别包括( ABD )。

A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;
B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;
C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;
D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。

(2)从结构的角度看,数据仓库模型包括以下几类:( ABC )
A、企业仓库
B、数据集市
C、虚拟仓库
D、信息仓库
(3)数据仓库的三层架构主要包括以下哪三部分?( BCD )
A、数据源
B、数据仓库服务器
C、OLAP服务器
D、前端工具
(4)以下哪些是数据仓库的主要应用?( ACD )
A、信息处理
B、互联网搜索
C、分析处理
D、数据挖掘
四、简答题
1、为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:
(1)提高两个系统的性能
操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。

(2)两者有着不同的功能
操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。

(3)两者有着不同的数据
数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

2、为什么说数据仓库具有随时间而变化的特征?
答:(1)数据仓库的时间范围比操作数据库系统要长的多。

操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10 年)。

(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。

3、试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?
答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。

而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。

此外,数据仓库存储并集成历史信息,支持复杂的多维查询。

4、请简述几种典型的多维数据的OLAP操作
答:典型的OLAP操作包括以下几种
上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;
下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;
切片:在给定的数据立方体的一个维上进行选择,导致一个子方;
切块:通过对两个或多个维执行选择,定义子方;
转轴:转动数据的视角,提供数据的替代表示;
钻过:执行涉及多个事实表的查询;
钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表
5、为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?
答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。

(2)数据仓库不需要事务处理,恢复,和并发控制等机制。

(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。

6、假定Big_University 的数据仓库包含如下4个维:student, course, semester 和instructor ;2个度量:count 和avg_grade 。

在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade 存放学生的实际成绩。

在较高的概念层,avg_grade 存放给定组合的平均成绩。

(1)为数据仓库画出雪花模式图。

department course_name
course_id
year semester
semester_id
av g_grade count instructor_id
semester_id
course_id
Student_id
university Status Major Area_id Student_name Student_id country Prov ince City Area_id rank dept
instructor_id
course 维表
semester 维表
Unviv fact table
Student 维表area 维表
instructor 维表
(2)由基本方体[student, course, semester, instructor]开始,为列出Big_University 每个学生的CS 课程的平均成绩,应当使用哪些OLAP 操作(如,由学期上卷到学年)。

答:特殊的OLAP 操作如下所示:
a) 在课程维表中,从course_id 到department 进行上卷操作;
b) 在学生维表中,从student_id 到university 进行上卷操作;
c) 根据以下标准进行切片和切块操作:department=”CS ”and university=”Big
University ”;
d) 在学生维表中,从university 到student_id 进行下钻操作。

(3)如果每维有5层(包括all ),如student < major < status < university < all , 该数据方包含多少方体(包含基本方体和顶点方体)?
答:这个立方体将包含54=625个长方体。

7、在数据仓库中,元数据的主要用途包括哪些?
答:在数据仓库中,元数据的主要用途包括:
(1) 用作目录,帮助决策支持系统分析者对数据仓库的内容定义
(2) 作为数据仓库和操作性数据库之间进行数据转换时的映射标准
(3) 用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和
高度综合的数据之间的汇总算法。

8、数据仓库后端工具和程序包括哪些?
答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:
(1)数据提取:从多个外部的异构数据源收集数据
(2)数据清理:检测数据种的错误并作可能的订正
(3)数据变换:将数据由历史或主机的格式转化为数据仓库的格式
(4)装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区
(5)刷新:将数据源的更新传播到数据仓库中
五、计算题
1、假定基本立方体有三个维A ,B ,C ,其单元数如下:|A|=100,000,|B|=10,000,|C|=1,000,假定分块将每维分成10部分
a. 请指出方体中内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序; 答:a. 内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示:
ABC
BC AC AB A
B
C all 内存空间需求最小的块计算次序ABC BC
AC
AB
A B
C
all
内存空间需求最大的块计算次序
2、分别求这两个次序下计算二维平面所需要的内存空间的大小。

答:这两个次序下计算二维平面所需要的内存空间的大小:
内存空间需求最小的次序:10,000×1,000(用于整个BC 平面)+(100,000/10)×1,000(用于AC 平面的一行)+(100,000/10)×(10,000/10)(用于AB 平面的一格)=30,000,000
内存空间需求量最大的块计算次序:
100,000×10,000(用于整个AB 平面)+100,000×(1,000/10)(用于AC 平面的一行)+(10,000/10)×(1,000/10)=1,010,100,000
第三章数据预处理
一、填空题
(1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、数据变换和数据规约
(2)处理噪声数据的方法主要包括:分箱、聚类、计算机和人工检查结合和回归(3)模式集成的主要问题包括:整合不同数据源中的元数据和实体识别问题
(4)数据概化是指:沿概念分层向上概化
(5)数据压缩可分为:有损压缩和无损压缩两种类型。

(6)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归和对数线性模型(7)数据离散度的最常用度量是五数概括、中间四分位数区间和标准差
二、单选题
(1)数据归约的目的是(C )
A、填补数据种的空缺值
B、集成多个数据源的数据
C、得到数据集的压缩表示
D、规范化数据
(2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A
A.数据清理
B.数据集成
C.数据变换
D.数据归约
(3)进行数据规范化的目的是( D )
A.去掉数据中的噪声
B.对数据进行汇总和聚集
C.使用概念分层,用高层次概念替换低层次“原始”数据
D.将属性按比例缩放,使之落入一个小的特定区间
(4)数据的噪声是指( C )
A、孤立点
B、空缺值
C、测量变量中的随即错误或偏差
D、数据变换引起的错误
(5)那种数据变换的方法将数据沿概念分层向上汇总( C )
A、平滑
B、聚集
C、数据概化
D、规范化
(6)( B )通过将属性域划分为区间,从而减少给定连续值的个数。

A.概念分层
B.离散化
C.分箱
D. 直方图
三、多选题
(1)下面哪些问题是我们进行数据预处理的原因?( ABC )
A.数据中的空缺值
B.噪声数据
C.数据中的不一致性
D.数据中的概念分层
(2)下面的度量中,哪些是数据离散度的度量?( BD )
A.中位数
B.标准差
C.模
D.中间四分位数区间
(3)数据清理的目的是处理数据中的(ABC )
A、空缺值
B、噪声数据
C、不一致数据
D、敏感数据
(4)下列哪些是数据变换可能涉及的内容?( BD )
A、数据压缩
B、数据概化
C、维归约
D、规范化
(5)以下哪些原因可能引起空缺值( ACD )
A、设备异常
B、命名规则的不一致
C、与其他已有数据不一致而被删除
D、在输入时,有些数据因为得不到重视而没有被输入
四、简答题
1、常用的数值属性概念分层的方法有哪些?
答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。

2、典型的生成分类数据的概念分层的方法有哪些?
答:典型的生成分类数据的概念分层的方法包括:
(1)由用户或专家在模式级显示的说明属性的部分序;
(2)通过显示数据分组说明分层结构的一部分。

(3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。

(4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。

3、在现实世界的数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法。

答:处理空缺值的方法有:
(1)忽略元组。

当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。

(2)人工填写空缺值。

这种方法工作量大,可行性低
(3)使用一个全局变量填充空缺值:比如使用unknown或-∞
(4) 使用属性的平均值填充空缺值
(5) 使用与给定元组属同一类的所有样本的平均值
(6)使用最可能的值填充空缺值。

如使用像Bayesian公式或判定树这样的基于推断的方法
4、常见的数据归约策略包括哪些?
答:数据归约策略包括:
(1)数据立方体聚集
(2)维归约
(3)数据压缩
(4)数值归约
(5)离散化和概念分层产生
第四章数据挖掘原语、语言和系统结构
一、填空题
(1)概念分层有四种类型,分别是:模式分层、集合分组分层、操作导出的分层和基于规则的分层
(2)常用的四种兴趣度的客观度量是:简单性、确定性、实用性和新颖性(3)同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。

二、单选题
(1)以下DMQL片断:( C )
mine associations as buyingHabits
matching P(X : customer, W) ∧ Q(X, Y) => buys (X, Z)所指定的挖掘知识类型是:
A、特征化
B、区分
C、关联
D、分类
(2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?( D )
A、不耦合
B、松散耦合
C、半紧密耦合
D、紧密耦合
三、多选题
(1)以下哪些OLAP操作是和概念分层紧密相关的?( AC )
A、上卷
B、切片
C、下钻
D、切块
四、简答题
1、定义数据挖掘任务的原语,主要应该包括哪些部分?
答:一个定义数据挖掘任务的原语主要应该包括以下部分的说明:
说明数据库的部分或用户感兴趣的数据集;
要挖掘的知识类型;
用于指导挖掘的背景知识;
模式评估、兴趣度量;
如何显示发现的知识。

2、为什么需要数据挖掘原语和语言来指导数据挖掘?
答:如果不使用数据挖掘原语和语言来指导数据挖掘
(1)会产生大量模式(重新把知识淹没)
(2)会涵盖所有数据,使得挖掘效率低下
(3)大部分有价值的模式集可能被忽略
(4)挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。

3、描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。

答:不耦合:DM系统不利用DB/DW系统的任何功能。

这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。

松散耦合:DM系统将使用DB/DW系统的某些功能。

这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。

半紧密耦合:除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通
过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。

如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。

紧密耦合:DM系统平滑的集成到DB/DW系统中。

数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。

这种结构提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。

4、数据挖掘的GUI可能包含哪些部分?
答:数据挖掘的GUI可能包含以下部分:
(1)数据收集和数据查询编辑
(2)发现模式的表示
(3)分层结构说明和操纵
(4)数据挖掘原语的操作
(5)交互的多层挖掘
(6)其他各种信息
第五章概念描述:特征化与比较
一、填空题
(1)概念描述由特征化和区分组成。

(2)一般来说,进行类比较的过程应该包括以下几个步骤:数据收集、维相关分析、同步概化和导出比较的表示
(3)从数据分析的角度看,数据挖掘可以分为两类:描述性挖掘和预测性挖掘
(4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。

可采用的度量包括:信息增益、Gini索引、不确定性和相关系数
(5)数据离散度的最常用度量包括:五数概括、中间四分位数区间和标准差
二、单选题
(1)类比较的过程中,我们在哪个步骤得到主目标类关系/方体和主对比类关系/方体?( C )
A、数据收集
B、维相关分析
C、同步概化
D、导出比较的表示
(2)哪种图形显示方法常用于描述两个变量间的依赖模式?( D )
A、直方图
B、分位数图
C、散布图
D、LOESS曲线
(3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?( C)
A、直方图
B、分位数图
C、散布图
D、LOESS曲线
(4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?( B)
A、直方图
B、分位数图
C、散布图
D、LOESS曲线
(5)中心趋势度量模(mode)是指( B )
A、算术平均值
B、数据集中出现频率最高的值
C、最大值
D、最小值
三、多选题
(1)下面哪些是常用的数据概化方法?( BD )
A、离散化
B、数据立方体(OLAP技术)
C、判定归纳树
D、面向属性的归纳
(2)使用数据立方体方法进行数据概化的优点包括:( ABD )
A、数据概化的一种有效实现
B、可以计算各种不同的度量值
C、受数据类型和度量类型的约束比较少
D、概化和特征分析通过一系列的数据立方体操作完成,简单高效
(3)以下哪些是属于中心趋势的度量( AD )
A、平均值
B、标准差
C、五数概括
D、中位数
四、简答题
1、简述类比较的过程。

答:类比较的过程一般包括以下四个步骤:
(1)数据收集
通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类;
(2)维相关分析
使用属性相关分析方法,使我们的任务中仅包含强相关的维;
(3)同步概化
同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/方体;
(4)导出比较的表示
用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较。

2、简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。

答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。

聚集通过合并相等的广义元组,并累计他们相应的技术值进行。

这压缩了概化后的数据集合。

结果广义关系可以映射到不同形式,如图表或规则,提供用户。

使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;
使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。

3、简述概念描述的属性相关分析的基本步骤。

答:(1)数据收集:通过查询处理,收集目标类和对比类的数据;
(2)使用保守的AOI进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于他们;
(3)使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性;
(4)使用AOI产生概念描述:使用一组不太保守的属性概化临界值进行AOI。

4、简要叙述概念描述和OLAP之间的主要区别。

答:两者的主要区别有:
(1)概念描述可以处理复杂数据类型的属性及其聚集,而实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型。

(2)OLAP是一个由用户控制的过程,而概念描述是一个更加自动化的过程。

5、为什么进行属性相关分析?
答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预。

用户必须告诉系统哪些维或属性应当包含在类分析中。

如果选择的属性太少,则造成挖掘的描述结果不正确;属性太多,浪费计算、淹没知识。

通过属性相关分析,可以更容易地发现属性之间的相关性,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。

6、简述进行概念描述时,面向数据库的方法和机器学习的主要区别。

答:面向数据库的方法指的是面向大型数据库的概念描述的概化方法,使用基于数据立方体的方法或面向属性的归纳的方法。

机器学习使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定。

7、什么是概念描述的增量挖掘?
答:增量挖掘根据数据库中新增的数据△DB来修正挖掘的结果,而不是重新从修正过的数据库中进行挖掘而得到结果。

相关文档
最新文档