数据挖掘复习大纲答案新新
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘复习提纲
分值分布
一、选择题(单选10道20分多选5道20分)
二、填空题(10道20分)
三、名词解释(5道20分)
四、解答题(4道20分)
五、应用题(Apriori算法20分)
1.什么是数据挖掘?
1答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。
具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2. 什么是数据清理?
2答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性
3. 什么是数据仓库?
3答:是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门决策的过程。
(最显著特征:数据不易丢失2分选择题)
4. 什么是数据集成?
4.数据集成:集成多个数据库、数据立方体或文件
5. 什么是数据变换?
5答:将数据转换或统一成适合于挖掘的形式。
6. 什么是数据归约?
6答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
7. 什么是数据集市?
7答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。
其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的) 8.在数据挖掘过程中,耗时最长的步骤是什么?
8.答:数据清理
9.数据挖掘系统可以根据什么标准进行分类?
9答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
10. 多维数据模型上的OLAP 操作包括哪些?
10.答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作
11. OLAP 服务器类型有哪几种?
11.答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器(HOLAP)、特殊的 SQL 服务器
12. 数据预处理技术包括哪些?(选择)
12.答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。
13. 形成“脏数据”的原因有哪些?
13. 答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码
14. 与数据挖掘类似的术语有哪些?
14答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。
15.常用的四种兴趣度的客观度量是什么?
15答:简单性、确定性、实用性、新颖性
16.数据立方体的物化可以有哪三种选择?
16
❑全物化
❑不物化
❑部分物化
17. 从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
17 答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。
18. 在数据挖掘系统中,为什么数据清理十分重要?
18答:脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
19.脏数据形成的原因有哪些?如何理解现实世界的数据是“肮脏的”?
19答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码
不完整的、含噪声的、不一致的、重复的
20. 数据清理时,对空缺值有哪些处理方法?
20.答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值21. 什么是数据变换?包括哪些内容?
21. 答:将数据转换或统一成适合于挖掘的形式。
包括:光滑、聚集、数据泛化、规范化、属性构造
22. 数据归约的策略包括哪些?
22.答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生
23. .提高数据挖掘算法效率有哪几种思路?
23.答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法
24. 假定属性income的最小值与最大值分别为12000和98000到区间[0.0,1.0],根据min-max 规范化,income的值73600将变为__0.716_____。
25. 假定属性income的平均值和标准差分别为54000和16000,使用Z-score 规范化,值73600被转换为_1.225_。
26. 假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
27. 从结构角度来看,有哪三种数据仓库模型。
27. 答:企业仓库、数据集市、虚拟仓库
28. 什么是聚类分析?
28.答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
30. 可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。
A 上卷
B 下钻
C 切片
D 切块
31. 可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。
A 上卷
B 下钻
C 切片
D 切块
32. 通过不太详细的数据得到更详细的数据,称为____B____。
A 上卷
B 下钻
C 细化
D 维规约
33. 三层数据仓库结构中,从底层到尾层分别是仓库数据服务器、OLAP服务器、前端客户层_。
34.已知事务数据库D,假定最小支持度为2,求所有的频繁项集
35.给出数据仓库的某种概念模式图,会用DMQL语句描述该概念模式,包括事实与维。
见ppt
⏹DMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是
立方体定义,一种是维定义
❑立方体定义 (事实表)
define cube <cube_name> [<dimension_list>]: <measure_list>
❑维定义 (维表)
define dimension <dimension_name> as (<attribute_or_subdimension_list>) ❑特殊案例 (共享维表的定义)
⏹第一次作为维表定义“cube definition”
⏹然后:define dimension <dimension_name> as
<dimension_name_first_time> in cube <cube_name_first_time>
实例:使用DMQL定义星型模式
❑define cube sales_star [time, item, branch, location]:
❑dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)
❑define dimension time as (time_key, day, day_of_week, month, quarter, year) ❑define dimension item as (item_key, item_name, brand, type, supplier_type) ❑define dimension branch as (branch_key, branch_name, branch_type)
❑define dimension location as (location_key, street, city, province_or_state, country)
实例:使用DMQL定义雪花模式
define cube sales_snowflake [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year)
define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type))
define dimension branch as (branch_key, branch_name, branch_type)
define dimension location as (location_key, street, city(city_key, province_or_state, country))
使用DMQL定义事实星座模式
define cube sales [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year)
define dimension item as (item_key, item_name, brand, type, supplier_type)
define dimension branch as (branch_key, branch_name, branch_type)
define dimension location as (location_key, street, city, province_or_state, country)
define cube shipping [time, item, shipper, from_location, to_location]:
dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)
define dimension time as time in cube sales
define dimension item as item in cube sales
define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)
define dimension from_location as location in cube sales
define dimension to_location as location in cube sales 36.四种常用的概念分层类型是什么?
36. 答:模式分层、集合分组分层、操作导出的分层、基于规则的分层
37. 各种DMQL子句的表述?(支持度、置信度)
37.见ppt eg:with support threshold = 15%
38.数据挖掘任务的五种原语是什么?
38.答:说明数据库的部分或用户感兴趣的数据集——任务相关数据
要挖掘的知识类型
用于指导挖掘的背景知识
模式评估、兴趣度度量
如何显示发现的知识——发现模式的可视化
39.在进行数据预处理时,对于离群点的处理方法是:视需要而定,有时需要删除,有时需要保留。
40. 多维数据仓库有哪几种概念模型?
40.答:星形模式、雪花形模式或事实星座形模式。
41.Apriori算法的性质是什么?
41答:频繁项集的所有非空子集也必须是频繁的。
A∪B模式不可能比A更频繁地出现
Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。
Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率
42.应用Apriori算法进行寻找频繁项集时,两个关键的步骤是什么?
42答:Apriori算法两个关键的步骤是连接和剪枝。
43.数据挖掘技术的发展动力来自于什么?
43.答:数据爆炸问题
44.“数据挖掘”英文缩写是DM,它源于英文Data Mining
45.“数据挖掘”亦称为KDD,其中文含义是什么?
45.答:数据库中的知识发现
46.max()函数属于分布函数,avg()函数属于代数函数,median()函数属于整体函数
47.数据仓库的特征是什么?
47.答:数据仓库关键特征1——面向主题
面向主题,是数据仓库显著区别于关系数据库系统的一个特征
数据仓库关键特征2——数据集成
数据仓库关键特征3——随时间而变化
数据仓库关键特征4——数据不易丢失
48.数据仓库的概念模式有哪几种?
48.答:最流行的数据仓库概念模型是多维数据模型。
这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。
49.一个数据立方体有3个维,则它的2-D,3-D方体有几个?
49.3个 1个
50.强关联规则指的是什么?
50.答:支持度置信度大于等于阈值
51.在面向属性的归纳中,对于有大量不同值的属性,如果在其上不存在概化操作符,则应如何处理?如果在其上存在概化操作符呢?
51. 答:删除、概化
52.为定义量化区分规则,人们引入什么作为兴趣度度量?为定义量化特征规则呢?
52答:d_weight t_weight
53.度量数据的中心趋势时,经常使用哪几个度量值?度量离散度呢?
53.答:度量数据的中心趋势时,经常使用:均值、中位值、中列数
度量离散度:最常用度量:五数概括
min、 m、 max 、Q1、、 Q3。