数据挖掘作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数据挖掘》作业
第一章引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:、、、、、和
(2)数据挖掘的性能问题主要包括:、和
(3)当前的数据挖掘研究中,最主要的三个研究方向是:、和
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:
(5)孤立点是指:
二、单选题
(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:
A、所涉及的算法的复杂性;
B、所涉及的数据量;
C、计算结果的表现形式;
D、是否使用了人工智能技术
(2)孤立点挖掘适用于下列哪种场合?
A、目标市场分析
B、购物篮分析
C、模式识别
D、信用卡欺诈检测(3)下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析
A. 关联分析
B.分类和预测
C.聚类分析
D. 演变分析
(4)下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能
A、选择任务相关的数据
B、选择要挖掘的知识类型
C、模式的兴趣度度量
D、模式的可视化表示
(5)下列几种数据挖掘功能中,()被广泛的用于购物篮分析
A、关联分析
B、分类和预测
C、聚类分析
D、演变分析
(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()
A.关联分析
B.分类和预测
C. 演变分析
D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()
A.关联分析
B.分类和预测
C.聚类分析
D. 孤立点分析
E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()
A.关联分析
B.分类和预测
C. 孤立点分析
D. 演变分析
E. 概念描述
三、简答题
(1)什么是数据挖掘?
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
(3)请简述不同历史时代数据库技术的演化。
(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)(5)什么是模式兴趣度的客观度量和主观度量?
(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?
(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
第2章数据预处理
一、填空题
(1)进行数据预处理时所使用的主要方法包括:、、和
(2)处理噪声数据的方法主要包括:、、
和
(3)模式集成的主要问题包括:和
(4)数据概化是指:
(5)数据压缩可分为:和两种类型。
(6)进行数值归约时,三种常用的有参方法是:、
和
(7)数据离散度的最常用度量是、和
二、单选题
(1)数据归约的目的是()
A、填补数据种的空缺值
B、集成多个数据源的数据
C、得到数据集的压缩表示
D、规范化数据
(2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?
A.数据清理
B.数据集成
C.数据变换
D.数据归约
(3)进行数据规范化的目的是()
A.去掉数据中的噪声
B.对数据进行汇总和聚集
C.使用概念分层,用高层次概念替换低层次“原始”数据
D.将属性按比例缩放,使之落入一个小的特定区间
(4)数据的噪声是指()
A、孤立点
B、空缺值
C、测量变量中的随即错误或偏差
D、数据变换引起的错误(5)那种数据变换的方法将数据沿概念分层向上汇总
A、平滑
B、聚集
C、数据概化
D、规范化
(6)()通过将属性域划分为区间,从而减少给定连续值的个数。
A.概念分层
B.离散化
C.分箱
D. 直方图
三、多选题
(1)下面哪些问题是我们进行数据预处理的原因?
A.数据中的空缺值
B.噪声数据
C.数据中的不一致性
D.数据中的概念分层
(2)下面的度量中,哪些是数据离散度的度量?
A.中位数
B.标准差
C.模
D.中间四分位数区间(3)数据清理的目的是处理数据中的()
A、空缺值
B、噪声数据
C、不一致数据
D、敏感数据(4)下列哪些是数据变换可能涉及的内容?
A、数据压缩
B、数据概化
C、维归约
D、规范化(5)以下哪些原因可能引起空缺值
A、设备异常
B、命名规则的不一致
C、与其他已有数据不一致而被删除
D、在输入时,有些数据因为得不到重视而没有被输入
四、简答题
(1)常用的数值属性概念分层的方法有哪些?
(2)典型的生成分类数据的概念分层的方法有哪些?
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
(4)常见的数据归约策略包括哪些?
第四章数据挖掘原语、语言和系统结构
一、填空题
(1)概念分层有四种类型,分别是:、、和(2)常用的四种兴趣度的客观度量是:、、和(3)同时满足和的关联规则称为强关联规则。
二、单选题
(1)以下DMQL片断:
mine associations as buyingHabits
matching P(X : customer, W) ∧ Q(X, Y) => buys (X, Z)
所指定的挖掘知识类型是:
A、特征化
B、区分
C、关联
D、分类
(2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?
A、不耦合
B、松散耦合
C、半紧密耦合
D、紧密耦合
三、多选题
(1)以下哪些OLAP操作是和概念分层紧密相关的?
A、上卷
B、切片
C、下钻
D、切块
四、简答题
(1)定义数据挖掘任务的原语,主要应该包括哪些部分?
(2)为什么需要数据挖掘原语和语言来指导数据挖掘?
(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。
(4)数据挖掘的GUI可能包含哪些部分?
第五章概念描述:特征化与比较
一、填空题
(1)概念描述由和组成。
(2)一般来说,进行类比较的过程应该包括以下几个步骤:、、和
(3)从数据分析的角度看,数据挖掘可以分为两类:和