智慧树知到大数据工具应用章节测试答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章
1、2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和()能力的数据集。
A:计算
B:访问
C:应用
D:分析
答案: 分析
2、用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和()。
A:Variety
B:Vainly
C:Vagary
D:Valley
答案: Variety
3、大数据分析四个方面的工作主要是:数据分类、()、关联规则挖掘和时间序列预测。
A:数据统计
B:数据计算
C:数据聚类
D:数据清洗
答案: 数据聚类
4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
A:对
B:错
答案: 错
5、目前的大数据处理技术只能处理结构化数据。
A:对
B:错
答案: 错
第二章
1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是()。A:mdf
B:mdb
C:dbf
D:xls
: mdb 答案
、大多数日志文件的后缀名是(。)2
A:txt
B:csv
C:xml
D:log
: log 答案
。 weka3、本课程重点介绍的软件的专有文件格式是()
A:MongoDB
B:ARFF
C:value
D:key map
4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。
A:专业性
B:排他性
C:一致性
D:共享性
答案: 一致性
5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。A:电话号码
B:关键词
C:网页地址
D:用户名
答案: 网页地址
6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。A:otd
B:jpg
C:png
D:gif
答案: otd
可以通过“数据有效性”按钮操作来规范数据输入的范围。Excel、7.
A:对
B:错
8、Excel不能导入txt或csv格式的文件。
A:对
B:错
答案: 错
9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
A:对
B:错
答案: 错
10、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
A:对
B:错
答案: 对
第三章
1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2,minPoints参数设置为5,忽略class属性,那么将形成()个簇。
A: 1
B: 2
C: 3
D: 4
答案: 3
2、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()是错误的。
A: 模型的最大似然估计值是-7.18
B: 这组数据用算法迭代15次
C: 第四个簇的先验概率是0.14
D: 第四个簇的实例数为4
答案: 第四个簇的实例数为4
3、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。
A: 这组数据用算法迭代四次
B: 产生了三个中心点
C: 聚合为3个簇,分别有7,3,4个实例
D: 平方和误差为8.928
答案: 这组数据用算法迭代四次
4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知()。
A: LinearRegression的标准误差比M5P的标准误差小
B: LinearRegression的平均绝对误差比M5P的平均绝对误差小
C: LinearRegression的相对误差比M5P的相对误差小
D: LinearRegression的平均方根误差比M5P的平均方根误差大
答案: LinearRegression的平均方根误差比M5P的平均方根误差大
分类器构建方案,在结果中,到达M5P属性后,使用CACH数据文件中的cpu.arff、删去5.LM2的实例数有()个。
A: 165
B: 21
C: 23
D: 30
答案: 21
6、根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity =high;windy=TRUE时,分类的结果是()。
A: Yes
B: No
C: 没有结果
D: 无法分类
答案: No
7、根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是()。
A: Iris-setosa
B: Iris-versicolor
C: Iris-virginica
D: 无法分类
答案: Iris-setosa
8、关于Weka离散化说明正确的是()。
A: 离散化是将数值属性转换为字符串型属性
B: 有监督离散化有两种等宽和等频方法
C: 等宽离散化是使实例分布均匀的
D: 离散化包括无监督离散化和有监督离散化
答案: 离散化包括无监督离散化和有监督离散化