第9章 大数据处理-习题答案[4页]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第9章大数据处理习题
9.1 选择题
1、在数据预处理阶段,数据合并到一致的存储介质中,使得数据挖掘更有效、挖掘模式更易理解,这一过程是( B )。
A. 数据清洗
B. 数据集成
C. 数据归约D.数据转换
2、以下( B )不是数据归约策略。
A. 属性子集的选择
B. 属性构造
C. 实例规约
D. 属性值的规约
3、数据转换包括以下的( A )策略。
A.合计处理B.平滑处理C.规格化处理D.以上全是
4、目前机器学习的首要步骤一般是( C )。
A. 模型训练
B. 交叉验证
C. 特征提取
D. 数据可视化
5、下面哪一项不是监督学习算法( B )。
A.K最近邻算法B.DBSCAN算法C.决策树算法D.逻辑回归算法
6、下列属于数据处理任务的是( D )。
A.分类B.聚类C.关联分析D.以上全是
7、支持向量机SVM常常用来进行( C )。
A.处理数据B.聚类C.分类D.关联分析
8、以下( A )在神经网络中引入了非线性。
A.修正线性单元(ReLU)B.随机梯度下降C.卷积函数D.以上都不是
9、神经网络中过拟合问题的处理方法包括以下的( A )。
A.正则化B.随机失活C.池化函数D.A和B
10、集成学习方法不包括以下的( C )。
A.Boosting B.Stacking C.Dropout D.Bagging
11、批归一化层的目的是( C )。
A.它将权重的归一化平均值和标准差
B.减少神经元的输出
C.让每一层的输入的范围都大致固定
D.使得反向传播(BP)有效
12、下面( B )不是数据清洗方法。
A.缺失值处理B.泛化处理C.离群点检测D.冗余数据处理
13、聚类过程的要求包括( D )。
A.可扩展性
B.可进行基于约束的聚类
C.对输入数据不敏感
D.以上全是
14、对分布式处理架构的描述不正确的是( D )。
A.多个节点并行工作
B.数据处理效率高
C.每个节点负责一部分任务
D.存在唯一的中心节点
15、对激活函数Sigmoid的描述不正确的是( D )。
A.可用于二分类问题
B.容易造成梯度消失
C.可以减少网络计算量
D.是一条非线性曲线
9.2 填空题
1、Apriori算法的核心步骤是(连接步)和(剪枝步)。
2、机器学习的特征选择方法包括(过滤器方法)、(包装器方法)和(嵌入式方法)等。
3、目前大数据处理架构一般分为(集中式处理架构)和(分布式处理架构)两种。
4、人工神经网络中,当数量众多的神经元全部连接起来后,可呈现网络状,如果各个神经元之间无环,则被称为(多层前馈)神经网络。
5、神经网络中的池化方法包括(最大池化)和(平均池化)。
9.3 简答题
1、请简述数据预处理的目的及典型的几种类型。
答:
数据预处理目的是为数据挖掘模块提供准确、有效、具有针对性的数据,提高数据挖掘与知识发现的效率。
数据预处理方法包括:数据清洗,删除重复数据、纠正数据中存在的错误,并使数据保持一致性;数据集成,将存储在不同存储介质中的数据合并到一致的存储介质中;数据转换,将数据从一种表示形式转换为另一种表现形式;数据归约,在尽可能保持数据原貌的前提下,最大限度地精简数据量。
2、分别简述数据挖掘算法中的监督学习和无监督学习的含义,并列举各自包含的几种典型
方法。
答:
监督学习:通过已有的训练样本训练得到一个最优模型,通过模型对未知数据进行分类。主要包括K最近邻算法、决策树、线性回归、逻辑回归等方法。
无监督学习:没有任何训练样本,直接对数据进行建模。主要包括K-Means算法、DBSCAN算法、Apriori算法、FP-growth算法等。
3、请描述卷积神经网络中卷积层和池化层的作用。
答:
卷积层:由数量不定的卷积核加上偏置项(Bias)组成。本质上是个权值矩阵,矩阵中的值是稀疏的。它主要进行局部特征提取,通过卷积核与上一层输出的特征完成点积和累加操作,得到特征矩阵,也称为特征图(Feature Map)。卷积层的所有卷积核在进行特征提取的过程中,其参数值,也就是权值矩阵的值是固定且共享的。
池化层:在构建一个完整的卷积神经网络时的作用仅次于卷积层,具有缩小特征图的作用,由于其不含参数,因此比卷积层中进行的采样更高效。
4、简述机器学习中进行特征选择的原因和目标。
答:
特征选择指选择出适合模型算法的最优特征子集来提升模型的性能。机器学习中进行特征选择的原因是:当数据维度达到一定水平时,将所有特征放入算法中将会带来维度灾难。
特征选择的目标是:1)提高模型的泛化能力,避免过拟合并,降低误差。2)减少特征数量,提高计算效率,提供更快的、具有成本效益的模型。3)筛选出不相关特征,降低模型的学习难度,前提是对特征本身有更深入的了解。
5、请简述分布式大数据处理架构及其优点,并列举出几个著名的分布式大数据开源平台。答:
分布式处理架构是先将一组节点连接起来形成系统,然后将需要处理的大批量数据分布在多个节点上,由多个节点去执行,通过分布式并行处理提高处理效率,最后合并计算得出最终结果。优点主要有:1)可以平衡负载和共享资源。2)降低大数据处理的成本。3)支持大数据在更多场景下的应用。
目前基于服务器集群的分布式大数据平台:Hadoop、Spark、Storm、Samza、Flink等。
9.4 解答题
1、数据挖掘任务中分类一般分为几个步骤?请描述每个步骤的作用,并列举用于分类的典型数据挖掘算法,并回答交叉验证的方式是如何评价分类模型的。
答:
1)分类一般分为3个步骤,分别是构建模型、测试模型和使用模型。
构建模型主要是对每个样本进行类别标记,通过数据的训练集构成分类模型。测试模型主要是通过对比测试样本的识别类别与实际类别来评价模型正确性。使用模型主要是要利用模型来完成数据分类任务,输出最终的分类结果。
用于分类的数据挖掘算法:K最近邻算法、决策树算法。
2)以交叉验证的方式评价分类模型:①数组分组,将原始数组分成训练集和验证集;
②模型训练,先用训练集对分类器进行训练,再利用验证集测试训练得到的模型作为评价分