大数据分析实用教程——基于Python实现试卷16网工大数据B附答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
衡阳师范学院 2018-2019学年 第一学期 计算机科学与技术学院 网络工程专业 2016级 《云计算与大数据处理原理》期末考试试题B 卷
一、单选题(每小题2分,共20分)
1. 云计算是对
技术的发展与运用
( )
A 、并行计算
B 、分布式计算
C 、网格计算
D 、以上都是
2. 从研究现状上看,下面不属于云计算特点的是
( )
A. 超大规模
B. 虚拟化
C. 私有化
D. 高可靠性 3. 以下哪项不.
是大数据的特点
( ) A 、数据量大 B 、数据类型多样
C 、价值密度高
D 、处理速度快 4. 与SaaS 不同的,这种“云”计算形式把开发环境或者运行平台也作为一种服务给用户提供。
( ) A. PaaS B .DaaS
C. IaaS
D. CaaS 5. HDfS 中的block 默认保存几份?
(
)
A 、4
B 、3
C 、2
D 、1
6. 下列哪项通常是集群的最主要的性能瓶颈
(
)
A .CPU
B .网络
C.磁盘D.内存
7.在HDFS文件系统中,若块的大小是128M,有三个文件的大小分别是
150M、190M和180M,则共需要分几个块存储( )
A、4
B、5
C、6
D、7
8.下列哪种数据库不是NoSQL数据库( )
A.Mongodb B.Redis C.MySQL D.HBase
9.下列哪项不是聚类算法。
( )
A、KNN
B、K-中心点
C、K-means
D、DBScan
10.关于Secondary NameNode,哪项是正确的?( )
A、它是NameNode的热备
B、它对内存没有要求
C、它的目的是帮助NameNode合并编辑日志,减少NameNode 启动时间
D、Secondary NameNode应与NameNode部署到一个节点
二、填空题(每空 2 分,共 20 分)
1. 按技术路线来看,VMware属于云计算(填资源整合型或资源切分型)。
2. 大数据的两大核心技术是分布式存储和。
3. MapReduce负责任务分配和调度的节点称为,负责任务执行的节点称为。
4.聚类算法可分为层次聚类法、、和基于模型的方法等。
5.决策树是用样本的作为结点,用作为分支的树
结构。
6、给定贝叶斯公式P(c j|x) =(P(x|c j)P(c j))/P(x),公式中P( c j|x)称为
(填先验概率、后验概率或全概率)。
朴素贝叶斯分类分类的依据是要求上式中的值最大。
三、简答题(每小题5分,共30分)
1. 简述MapReduce中JobTracker、TaskTracker之间的关系。
2. Secondary NameNode是否应与NameNode部署到同一个节点上,为什么?
3. 简述MapReduce的Shuffle过程。
4. 人工神经网络输入层的节点数目和输出层的节点数目如何确定?
5. 对于用户ABCD和物品abcd,设N(A)={a,b,d},N(B)={a,c},N(C)={b,e},N(D)={c,d,e},各用户对各物品的感兴趣程度均为1,推荐阈值为0.5。
试用基于物品的协同过滤推荐算法给用户A推荐物品。
6. 解释如下关联规则表达式的含义:
major(a, “CS”) ^ takes(a, “DB”) → grade(a, “A”) [2%, 75%]。
四、应用题(每小题15分,共30分)
1.给定事务数据如下表。
假定数据包含频繁项集L={A,B,D}。
问可以由L产生哪些关联规则,并分别列出其可信度(Confidence)? 若最小可信度定
义为75%,则产生的关联规则中哪些是强关关联规则。
2. 设有5个对象之间的距离如下表所示,试用层次聚类法将这些对象聚成两类,并画出聚类树状图。
衡阳师范学院 2018-2019学年第一学期计算机科学与技术学院网络工程专业 2016年级
《云计算与大数据处理原理》期末考试试题B卷
答案及评分标准
一、单选题(每小题2分,共20分)
DCCAB CBCAC
二、填空题(每空 2 分,共 20 分)
1. 资源切分型
2.分布式计算
3 JobTracker TaskTracker
4基于密度的聚类基于划分的聚类
5属性属性值
6 后验概率P(x|c j)P(c j)
三、简答题(每小题5分,共30分)
1. 简述MapReduce中JobTracker、TaskTracker之间的关系
答:1.JobTracker:负责分配和调度任务。
2.TaskTracker:负责执行任务。
JobTracker应部署在一台单独的服务器上,TaskTracker应部署在DataNode节点上。
2. Secondary NameNode是否应与NameNode部署到同一个节点上,为什么?
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个。
SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。
3. 简述MapReduce的Shuffle过程
在Map端的shuffle过程是对Map的结果进行分区、排序、分割,然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分区有序的文件,分区有序的含义是map输出的键值对按分区进行排列,具有相同partition值的键值对存储在一起,每个分区里面的键值对又按key值进行升序排列(默认)
4. 人工神经网络输入层的节点数目和输出层的节点数目如何确定?
人工神经网络输入层节点的个数等于训练数据集中条件属性的个数。
(2分)
输出层节点个数的确定:如果类别属性中值的个数为2,则输出层节点数为1,如果类别属性中值的个数为n,则输出层节点数为n(3分)
5.
6. 解释如下关联规则表达式的含义:
major(x, “CS”) ^ takes(x, “DB”) → grade(x, “A”) [2%, 75%]。
(1)专业为“CS计算机专业”并且选修了“DB数据库原理”的所有同学中,其中得分为“A”等的比例是2%。
(3分)
(2)计算机专业的学生选修“数据库原理”,成绩得“A”的可能性是75%.(2分)
四、应用题(每小题10分,共30分)
1.解:L有非空真子集{A,B},{A,D},{B,D},{A},{B},{D}(3分)
可产生的关联规则及可信度如下:
A∧B→D(66.6%)
A∧D→B(100%)
D∧B→A(100%) (3分)
A→D∧B(75%)
B→A∧D(75%)
D→A∧B(100%)(3分)
三个强关联规则A∧D→B,D∧B→A, D→A∧B(1分)
2. 解:第一步合并对象3,4 (1分)
1 2 {3,4} 5
(3分)
1 2 3 4 5
(
1.
假设蔬菜信息表如图所示,“蔬菜”是决策属性,其余属性是条件属性,根据ID3
算法建立决策树,并根据决策树写出分类规则(已知信息增益:G(蔬菜,颜色)=IF 颜色=“红”^ 形状=圆 THEN 蔬菜=“番茄” IF 颜色=“红”^ 形状=长 THEN 蔬菜=“辣椒” IF 颜色=“绿” THEN 蔬菜=“黄瓜” IF 颜色=“紫” THEN 蔬菜=“茄子”。