最新数据挖掘复习题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘复习题 1

选择题

1 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的__A__问题。

A 关联规则发现

B 聚类

C 分类

D 自然语言处理

2将原始数据进行集成、变换、维度规约、数值规约是在______C_____阶段完成的。

A 频繁模式挖掘

B 分类和预测

C 数据预处理

D 数据流挖掘

3 Clementine 不能读取的数据文件是__D____。

A SPSS文件

B SAS文件

C 文本文件

D PDF文件

4 在将“学生成绩.sav”数据文件通过Clementine的数据源(Source)选项卡加载到流中后,浏览此上载数据可用__A___节点。

A 表(Table)

B 类型(Types)

C 过滤(Filter)

D 导出(Derive)

5 在利用多元线性回归进行预测过程中,如果解释变量的数目被控制在十个以内,至少需要__C___个样本才能满足模型估计的基本要求。

A 10

B 20

C 30

D 40

填空题

1 某单位有100个人,他们的平均身高是170cm,标准差为5cm, 根据切比雪夫定理,该单位至少有__75__%的人身高在160cm—180cm这个区间里,如果预先知道该单位人的身高服从正态分布,在上述条件不变的情况下,可得出该单位大约有__95__%人的身高在160cm—180cm这个区间里的结论。

2 Clementine 可视化界面的四个区域分别是___流区域___,___面板区______,__模型管理区____,__项目管理区___。

3 Clementine 超节点的建立操作是:首先选中若干个节点,然后右击鼠标,选择弹出菜单中的___创建超节点___选项,要查看超节点中的具体内容,选择超节点弹出菜单中的___放大___选项,如果要取消超节点,选择弹出菜单中的__展开__选项。

4 Clementine数据质量的探索主要包括___数据缺失问题___、__数据离群点和极端值两大方面。

5 Clementine 输出选项卡中的数据审核节点默认变量值在以均值为中心的3个标准差以外为离群点,5个标准差以外为极端值,默认变量值与上四分位数或下四分位数的绝对差大于1.5倍的四分位差为离群点,大于3倍四分位差为极端值。

简答题

1 数据流的操作主要包括哪几个步骤?

(1) 选择和管理节点

(2) 节点连接和连接调整

(3) 设置节点参数

(4)执行数据流

2 预测与分类的区别是什么?

分类是预测数据对象的离散类别,预测是用于数据对象的连续取值

3 数据分类由哪几步过程组成?

第一步,建立一个模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。

4 ID3算法的核心是什么?

在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个叶节点进行测试时能获得关于被测试记录最大的类别信息。

5不完整数据的产生原因有哪些?

(1) 有些属性的内容有时没有

(2) 有些数据当时被认为是不必要的

(3) 由于误解或检测设备失灵导致相关数据没有记录下来

(4) 与其他记录内容不一致而被删除

(5)历史记录或对数据的修改被忽略了。

6. 噪声数据的产生原因有哪些?

(1) 数据采集设备有问题

(2) 在数据录入过程中发生了人为或计算机错误

(3) 数据传输过程中发生错误

(4) 由于命名规则或数据代码不同而引起的不一致。

7. 对遗漏数据有哪些处理方法?

忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。

8. Clementine中有哪些对离群点或极端值的修正方法?

(1) 用距离离群点或极端值最近的正常数据代替。

(2) 剔除离群点或极端值。

(3) 用系统缺失值null替代离群点或极端值。

(4) 按照(1)修正离群点,剔除极端值。

(5) 按照(1)修正离群点,用系统缺失值null替代极端值。

9. Clementine中有哪些对数据缺失值的替补方法?

(1) 用具体值替补,包括均值、中间值、或一个指定常数。

(2) 用正态分布或均匀分布中的一个随机数替补。

(3) 用一个指定的算术表达式结果替补。

(4) 用分类回归树的预测值替补。

10. 说明多元线性回归模型假设检验的步骤?

查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步

查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。

但是,一次只能将最不显著(相应概率最大)的删除。每次删除一个,直至全部显著。

计算题

杨昭军等利用中国统计年鉴提供的1977~ 1985 年耐用消费品社会拥有量数据如下:

采用迭代算法, 建立了缝纫机平均百人拥有量增长Logistic 曲线回归方程如下:t

t e N 185.018.7186.24-+=, (1) 试求缝纫机平均百人拥有量的渐增期、快增期和缓增期,

(2) 通过该曲线对1977~ 1985 年缝纫机平均百人拥有量进行预测,

(3)

(4) 利用公式∑-=i i i i E E O x 2

2

)(在置信水平050。=α情况下对回归方程进行拟合优度检验,其中i O 是第i 年的实际值,i E 是第i 年的预测值,

缝纫机平均百人拥有量的实际值及预测值

平均百人拥有量的Log ist ic 曲线回归方程拟合得好, 可以用于预测。

相关文档
最新文档