数据挖掘与数据库技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、填空题
1.OLAP服务器可以使用关系OLAP、或混合OLAP。
2.多维数据模型通常以三种形式存在,他们是星形模式、和事实星座形模式。3.聚类中每个训练元组的类标号是未知的,属于学习。
4.层次聚类方法可进一步分为:和分裂层次聚类。
5.数据挖掘的聚类方法中,典型的基于划分方法的聚类算法有和k中心点方法。6.关联规则的挖掘可以看作两步的过程:首先找出所有,然后生成强关联规则。7.多维数据模型通常以三种形式存在,他们是星形模式、雪花形模式和。
8.层次聚类方法可进一步分为:凝聚层次聚类和。
9.数据挖掘的聚类方法中,典型的基于划分方法的聚类算法有k均值方法和。10.强关联规则满足最小支持度和。
11.数据仓库是面向主题的、、时变的和非易失的有组织的数据集合,支持管理决策。12.OLAP服务器可以使用关系OLAP、多维OLAP或。
二、简答题:
1.什么是数据挖掘,简述数据挖掘功能。
2.数据预处理的主要任务有哪些?
3.为什么不直接对操作数据库进行联机分析,而建立分离的数据仓库。
4.简述有哪些Apriori算法的变形方法可提高Apriori算法的效率?
5.简述数据仓库的定义,并论述其关键特征。
6.为什么需要预处理数据。
7.操作数据库系统与数据仓库的区别?
8.简述决策树分类方法的关键步骤。
三、计算题
1. 给定两个对象,分别用元组(26,10,23,8),(22,7,25,7)表示。
a)计算两个对象之间的欧几里德距离;
b)计算两个对象之间的曼哈顿距离;
2.假设15个销售价格记录已经排列如下:
4,6,12,15,18,30,35,37,40,48,92,95,145,156,157
a) 使用等频(等深)划分方法将它们划分为三个箱;
b) 分别用箱均值、箱边界光滑。
3. 给定两个对象,分别用元组(33,8,38,6),(28,6,35,8)表示。
c)计算两个对象之间的欧几里德距离;
d)计算两个对象之间的曼哈顿距离;
4.假设15个销售价格记录已经排列如下:
3,10,14,15,18,40,45,47,50,58,102,104,135,146,148
a) 使用等频(等深)划分方法将它们划分为三个箱;
b) 分别用箱均值、箱边界光滑。
四、问答题
数据挖掘具有广泛的应用,选取某个应用领域,给出几种数据挖掘在此领域的典型应用。