南开《大数据导论》20春期末考核答案

合集下载

[南开]-《大数据导论》20春期末考核-辅导资料答案

[南开]-《大数据导论》20春期末考核-辅导资料答案

南开大学《大数据导论》20春期末考核注:请认真核对以下题目,确定是您需要的科目在下载!!!
一、单选题 (共 10 道试题,共 20 分)
1.大数据的特点不包含
/A/.数据体量大
/B/.价值密度高
/C/.处理速度快
/D/.数据不统一
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:D
2.PaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:B
3.IaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:C
4.购物篮问题是##的典型案例
/A/.数据变换
/B/.关联规则挖掘
/C/.数据分类
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:B
5.基础设施即服务的英文简称是
/A/.IaaS
/B/.PaaS
/C/.SaaS
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:A。

南开《大数据开发技术(一)》20春期末考核答案

南开《大数据开发技术(一)》20春期末考核答案

《大数据开发技术(一)》20春期末考核-00001试卷总分:100 得分:70一、单选题(共15 道试题,共30 分)1.使用Amazon云环境部署Hadoop的说法中错误的是()。

A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务答案:D2.Xtimeline是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C3.Amazon Redshift属于()A.关系数据库B.键值数据库C.NoSQL数据库D.数据仓库答案:D4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流A.Client LayerB.Services LayerC.Platform LayerD.Infrastructure Layer答案:A5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:C6.Hbase采用()作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统答案:A7.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的答案:C8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。

A.Time TunnelB.SparkC.Super MarioD.Storm答案:C9.关于Hadoop集群,以下说法错误的是()。

A.SecondaryNameNode可以和NameNode共用一台机器B.JobTracker指派的任务由TaskTracker执行C.SecondaryNameNode可以和DataNode共用一台机器Node可以和JobTracker共用一台机器答案:C10.关于Strom中Bolt说法错误的是()。

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业ACD

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业ACD

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业ACD20春学期( 1709、 1803、 1809、 1903、 1909、2003)《大数据导论》在线作业 --------------------------- 单选题 1.第一个提出大数据概念的公司是 ()。

A.麦肯锡公司B.谷歌公司C.微软公司D.脸谱公司正确答案 :A 2.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段 ()。

A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案 :C 3.下面哪一项不是中国发展大数据产业的基础 ()。

A.信息化积累了丰富的数据资源B.大数据技术创新取得明显突破 C.大数据应用推动势头良好 D.大数据产业支撑薄弱正确答案 :D 4.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段 ()。

A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案 :B 5.以下哪项不是数据可视化工具的特性 () A.实时性 B.简单操作 C.更丰富的展现D.仅需一种数据支持方式即可正确答案 :D 6.以下不是数据仓库基本特征的是 () A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的正确答案 :B 7.哪个选项不属于大数据 4V特点 ? A.Volume B.Valid C.Variety D.Value 正确答案 :B 8.SAN是一种 () A.存储设备 B.专为数据存储而设计构建的网络 C.光纤交换机D.HBA 正确答案 :B 9.下列不属于商业大数据类型的是A.传统企业数据 B.机器和传感器数据 C.社交数据 D.电子商务数据正确答案 :B 10.数据仓库是随着时间变化的 ,下列不正确的是 () A.数据仓库随时间变化不断增加新内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容 D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合正确答案 :C 11.IaaS 是 ()的简称 A.软件即服务 B.平台即服务 C.基础设施即服务D.硬件即服务正确答案 :C 12.PaaS是 ()的简称 A.软件即服务 B.平台即服务 C.基础设施即服务 D.硬件即服务正确答案 :B 13.医疗健康数据的基本情况不包括以下哪项 ? A.诊疗数据 B.个人健康管理数据 C.公共安全数据 D.健康档案数据正确答案 :C 14.大数据的特点不包含 A.数据体量大 B.价值密度高 C.处理速度快 D.数据不统一正确答案 :D 15.下列哪个工具常用来开发移动友好地交互地图 () A.LeafletB.Visual.lyC.BPizzaPieChartsD.Gephi 正确答案 :A --------------------------- 多选题 1.医疗大数据的来源主要包括 () A.制药企业 /生命科学 B.临床医疗 /实验室数据 C.费用报销 /利用率 D.健康管理 /社交网络正确答案 :A 2.常见的分类方法有A.决策树 B.贝叶斯网络 C.遗传算法 D.FP算法正确答案 :A 3.离群点检测的应用包括 ()等。

南开大学20春学期《大数据导论》在线作业

南开大学20春学期《大数据导论》在线作业

南开大学20春学期《大数据导论》在线作业
试卷总分:100 得分:100
一、单选题(共15 道试题,共30 分)
1.大数据的特点不包含
A.数据体量大
B.数据不统一
C.处理速度快
D.价值密度高
答案:B
2.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
3.下面哪一项不是中国发展大数据产业的基础()。

A.大数据技术创新取得明显突破
B.大数据应用推动势头良好
C.大数据产业支撑薄弱
D.信息化积累了丰富的数据资源
答案:C
4.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
答案:A
5.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
答案:C
6.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
答案:A
7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。

大数据技术导论-202009国家开放大学2020年春季学期期末统一考试试题及答案

大数据技术导论-202009国家开放大学2020年春季学期期末统一考试试题及答案

是指同一类型的数据模型、不同型号的数据库系统。(
)
12. 数据规范化可将原来的度量值转换为无量纲的值,通过将属性数据按比例缩放,将一个函
数给定属性的整个值域映射到一个新的值域中,即每个旧的值都被一个新的值替代。( )
13. 数据挖掘主要注重解决分类、聚类、关联和定量定性预测等问题,其重点不是寻找未
知的模式与规律。(
)。
A. 事务处理应用
B. 日志数据存储
C. 数据分析应用
D. 互联网应用
8. 去重是指在不同的时间维度内,重复一个行为产生的数据只计人一次。按(
去重主要分为按小时去重、按日去重、按周去重、按月去重或按自选时间段去重。
A. 高维
B. 低维
c. 时间
D. 空间
9. 数据平滑法主要分为(
入指数平滑法和分箱平滑法。
是说,只有数据,无结构,例如图形、图像、音频和视频等 (3 分)。
22. 一个银行有上亿个储户,如果银行希望找到最高的存储金额是多少,结合下图,说明
基千 MapReduce 模型的寻找最大值的过程。
答:首先将数字分布存储在不同块中,以某几个块为一个 Map, 找出各个 Map 中最大的值
(3 分),例如最左列为 1000, 最右列为 985, 然后将每个 Map 中的最大值做 Reduce 操作,即找
抽取出新的 URL 放入待撩取 URL 队列心 图 网络爬虫工作原理
已棵取 URL 队列心
1293
28. 假设有 9 、 24 、 15 、 41 、礼 10 、 18 、 67 、 25 共 9 个数,分为 3 箱,各箱的数据分配如下:
箱 1:9 、 24 、 15 箱 2:41 、 7 、 10 箱 3:18 、 67 、 25 (1) 按箱平均值法,求箱 1 的平滑数据值。 (2) 按箱中值法,求箱 2 的平滑数据值。 (3) 按箱边界值法,求箱 3 的平滑数据值。

[南开]-《大数据导论》20春期末考核-辅导资料答案

[南开]-《大数据导论》20春期末考核-辅导资料答案

南开大学《大数据导论》20春期末考核注:请认真核对以下题目,确定是您需要的科目在下载!!!一、单选题 (共 10 道试题,共 20 分)1.大数据的特点不包含/A/.数据体量大/B/.价值密度高/C/.处理速度快/D/.数据不统一[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:D2.PaaS是()的简称/A/.软件即服务/B/.平台即服务/C/.基础设施即服务/D/.硬件即服务[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:B3.IaaS是()的简称/A/.软件即服务/B/.平台即服务/C/.基础设施即服务/D/.硬件即服务[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:C4.购物篮问题是##的典型案例/A/.数据变换/B/.关联规则挖掘/C/.数据分类[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:B5.基础设施即服务的英文简称是/A/.IaaS/B/.PaaS/C/.SaaS[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:A6.数据清洗的方法不包括/A/.缺失值处理/B/.噪声数据清除/C/.一致性检查/D/.重复数据记录处理[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:D7.以下哪项不是数据可视化工具的特性()/A/.实时性/B/.简单操作/C/.更丰富的展现/D/.仅需一种数据支持方式即可[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:D8.下列哪个工具常用来开发移动友好地交互地图() /A/.Leaflet/B/.Visual.ly/C/.BPizza Pie Charts/D/.Gephi[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:A9.SAN是一种()/A/.存储设备/B/.专为数据存储而设计构建的网络/C/.光纤交换机/D/.HBA[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:B10.GFS中的文件切分成()的块进行存储/A/.32MB/B/.64MB/C/.128MB/D/.1G[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:B二、多选题 (共 10 道试题,共 20 分)11.数据预处理的过程主要是/A/.数据清洗/B/.数据集成/C/.数据变换/D/.数据规约[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:ABCD12.大数据时代预测人类移动行为的数据特点是/A/.多样化/B/.数据量大/C/.维数高/D/.变化快[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:BCD13.下列属于传统统计学展示方法的是()/A/.柱状图/B/.饼状图/C/.曲线图/D/.网络图[解析]本题为必答题,请参考课本资料,分析作答【参考答案是】:ABC14.百度大数据引擎主要包含三大组件()/A/.开放云/B/.数据工厂/C/.百度大脑。

奥鹏远程南开大学(本部)20春学期《大数据导论》在线作业参考答案

奥鹏远程南开大学(本部)20春学期《大数据导论》在线作业参考答案
D健康档案数据
【答案】:C
14.大数据的特点不包含
【选项】:
A数据体量大
B价值密度高
C处理速度快
D数据不统一
【答案】:D
15.下列哪个工具常用来开发移动友好地交互地图()
【选项】:
A Leaflet
B Visual.ly
C BPizza Pie Charts
D Gephi
【答案】:A
16.医疗大数据的来源主要包括()
D巨量级数据分析
【答案】:
22.大数据在医疗中的应用有()
【选项】:
A流行性疾病预防
B慢性病健康管理
C临床决策支持
D医疗器械研发
【答案】:A.B.C.D
23.互连网上出现的海量信息可以划分为三种,分别为( )
【选项】:
A结构化信息
B非结构化信息
C半结构化信息
D特殊化信息
【答案】:
24. ##和##,它们把原数据变换或投影到较小的空间。
【选项】:
A小波变换
B中心化变换
C主成分分析
D对数变换
【答案】:
25.社会信号数据的特点有()
【选项】:
A规模大
B空间覆盖率广
C监测时间长
D实时性
【答案】:A.B.C.D
26.大数据存储的特点与挑战有()
【选项】:
A容量问题
B延迟问题
C安全问题
D成本问题
【答案】:A.B.C.D
27.数据预处理的过程主要是
【选项】:
T对
F错
【答案】:A
39. NAS代表的意思是网络附加存储
【选项】:
T对
F错
【答案】:A

南开《数据科学导论》20春期末考核-00001参考答案

南开《数据科学导论》20春期末考核-00001参考答案
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
答案:C
15.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案:A
二、多选题(共5道试题,共10分)
16.系统日志收集的基本特征有()
A.高可用性
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
答案:C
13.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案:C
14.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
C.子集搜索
D.子集验证
答案:C
10.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:D
11.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:A
12.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
B.无监督学习
C.强化学习
D.半监督学习
答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

【南开】20春学期《大数据导论》在线作业【资料答案】

【南开】20春学期《大数据导论》在线作业【资料答案】

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业试卷总分:100 得分:92
一、单选题 (共 15 道试题,共 30 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
答案:
2.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
答案:A
3.下面哪一项不是中国发展大数据产业的基础()。

A.信息化积累了丰富的数据资源
B.大数据技术创新取得明显突破
C.大数据应用推动势头良好
D.大数据产业支撑薄弱
答案:D
4.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
答案:D
5.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
答案:B
6.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
答案:
7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。

南开大学《计算机科学导论》20春期末考核答卷

南开大学《计算机科学导论》20春期末考核答卷

南开⼤学《计算机科学导论》20春期末考核答卷南开⼤学《计算机科学导论》20春期末考核注:请认真核对以下题⽬,确定是您需要的科⽬在下载⼀、单选题 (共 15 道试题,共 30 分)1.E中的任⼀实体可以通过R与F中的⾄多⼀个实体联系则R叫做E到F的()A.⼀对⼀联系B.多对⼀联系C.多对多联系D.⾮法联系解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:B2.数据库中的元祖是指A.关系中除含有属性名所在⾏以外的其他⾏B.关系中包含属性名所在⾏在内的所有⾏C.关系中的任意⼀列D.关系中的所有列解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:A3.打印机属于哪⼀种计算机硬件设备A.输⼊设备B.输出设备C.存储设备D.系统接⼝解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:B4.哪种关系操作不要求参与运算的两个关系具有相同的属性集合A.并B.交C.差D.笛卡尔积解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D5.法国⼈Blaise Pascal建造了()A.齿轮驱动机械B.四则运算器C.织布机6.3度布尔函数共有多少个A.3B.8C.27D.256解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D7.下列哪种语⾔是⾯向对象的编程语⾔A.PascalB.BASICC.CD.C++解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D8.以下哪个选项⽤于实现SQL语⾔的查询功能A.seleceB.insertC.deleteD.update解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:A9.以下哪项不属于冯诺依曼体系结构的核⼼部件A.运算器B.存储器C.输⼊输出设备D.控制器解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:C10.RGB表⽰法中某种颜⾊的份额通常在以下哪对数字之间A.0-255B.0-256C.128-25511.下列哪种存储器的读取速度最快?A.主存储器B.CPU寄存器。

南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答案

南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答案
18.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
A.最小-最大规范化
B.零-均值规范化
C.小数定标规范化
D.中位数规范化
答案:D
3.实体识别属于以下哪个过程()
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
答案:B
4.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
答案:A
答案:D
8.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
答案:A
9.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
答案:C
10.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
C.组合方法
D.比较方法
答案:AB
25.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
答案:AB
26.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答案:ABCD
27.k近邻法的基本要素包括()。

大数据导论期末试题及答案

大数据导论期末试题及答案

大数据导论期末试题及答案一、选择题1. 大数据技术主要用于处理哪方面的数据?A. 小规模结构化数据B. 中等规模半结构化数据C. 大规模非结构化数据D. 所有规模的数据答案:D2. 大数据的四个关键特征分别是什么?A. 数据量大、多样性、高速度、价值高B. 数据量大、多样性、冗余性、处理速度快C. 数据量大、结构化、半结构化、非结构化D. 数据量大、多样性、快速计算、可扩展性答案:A3. Hadoop是一个开源框架,用于分布式处理大规模数据。

它的核心组件包括:A. HDFS和MapReduceB. MySQL和MongoDBC. Tomcat和NginxD. Spark和Storm答案:A4. 哪个技术经常与大数据技术一同使用,可以实现流数据的实时处理?A. 机器学习B. 数据挖掘C. 数据仓库D. 流处理答案:D5. 大数据分析可以为企业带来哪些优势?A. 提供更好的决策支持B. 降低成本和风险C. 发现新的商业机会D. 所有选项都是正确的答案:D二、填空题1. 大数据的主要特征之一是_______。

答案:数据量大2. _______是一个用于处理大规模结构化和半结构化数据的开源框架。

答案:Hadoop3. 大数据技术的应用通常需要具备_______的能力。

答案:高速计算4. _______是一种用于实时处理流数据的技术。

答案:流处理5. 大数据分析能够带来企业的多个优势,包括提供更好的_______、降低成本和风险,以及发现新的商业机会。

答案:决策支持三、简答题1. 请简要介绍大数据的定义及其特征。

答:大数据是指规模超过传统数据库处理能力范围的数据集合。

它具有四个关键特征:数据量大、多样性、高速度和价值高。

数据量大指的是数据量远远超过传统数据库的处理能力,往往需要分布式系统来处理。

多样性表示数据可以是结构化、半结构化或非结构化的。

高速度指的是大数据的产生速度很快,需要进行实时或近实时的处理和分析。

南开《大数据开发技术(一)》20春期末考核答案

南开《大数据开发技术(一)》20春期末考核答案

《大数据开发技术(一)》20春期末考核-00001试卷总分:100 得分:70一、单选题(共15 道试题,共30 分)1.使用Amazon云环境部署Hadoop的说法中错误的是()。

A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务答案:D2.Xtimeline是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C3.Amazon Redshift属于()A.关系数据库B.键值数据库C.NoSQL数据库D.数据仓库答案:D4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流A.Client LayerB.Services LayerC.Platform LayerD.Infrastructure Layer答案:A5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:C6.Hbase采用()作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统答案:A7.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的答案:C8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。

A.Time TunnelB.SparkC.Super MarioD.Storm答案:C9.关于Hadoop集群,以下说法错误的是()。

A.SecondaryNameNode可以和NameNode共用一台机器B.JobTracker指派的任务由TaskTracker执行C.SecondaryNameNode可以和DataNode共用一台机器Node可以和JobTracker共用一台机器答案:C10.关于Strom中Bolt说法错误的是()。

南开20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业参考答案3

南开20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业参考答案3

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业
试卷总分:100 得分:98
一、单选题(共15 道试题,共30 分)
1.大数据的特点不包含
A.数据体量大
B.数据不统一
C.处理速度快
D.价值密度高
答案:B
2.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
3.下面哪一项不是中国发展大数据产业的基础()。

A.大数据技术创新取得明显突破
B.大数据应用推动势头良好
C.大数据产业支撑薄弱
D.信息化积累了丰富的数据资源
答案:C
4.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
答案:A
5.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的。

奥鹏南开《数据科学导论》20春期末考核.doc

奥鹏南开《数据科学导论》20春期末考核.doc

1.下面不是分类的常用方法的有()A.K近邻法B.朴素贝叶斯C.决策树D.条件随机场【参考答案】: D2.BFR聚类用于在()欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维【参考答案】: A3.聚类是一种()。

A.有监督学习B.无监督学习C.强化学习D.半监督学习【参考答案】: B4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.异常值B.缺失值C.不一致的值D.重复值【参考答案】: C5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元 C.产量每增加一台,单位成本平均减少1.2元 D.产量每增加一台,单位平均增加100元【参考答案】: C6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小,减小B.减小,增大C.增大,减小D.增大,增大【参考答案】: B7.在回归分析中,自变量为(),因变量为()。

A.离散型变量,离散型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.连续型变量,连续型变量【参考答案】: D8.手肘法的核心指标是()。

A.SESB.SSEC.RMSED.MSE【参考答案】: B9.特征选择的四个步骤中不包括()A.子集产生B.子集评估C.子集搜索D.子集验证【参考答案】: C10.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差B.方差C.测差D.残差【参考答案】: D11.K-means聚类适用的数据类型是()。

A.数值型数据B.字符型数据C.语音数据D.所有数据【参考答案】: A12.以下哪些不是缺失值的影响()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出【参考答案】: C13.下列两个变量之间的关系中,哪个是函数关系()。

南开大学20春《大数据导论》期末考核答卷附标准答案

南开大学20春《大数据导论》期末考核答卷附标准答案
南开大学20春《大数据导论》期末考核附标准答案
试卷总分:100 得分:100
一、单选题 (共 10 道试题,共 20 分)
1.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
答案:C
答案:正确
22.每个簇的质心(centroid)是该簇中所有数据对象的均值。
答案:正确
23.数据存储要表现出静态数据的特征,反映的是系统中静止的数据。
答案:正确
24.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态( )
答案:正确
25.Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
答案:D
9.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
10.下列哪个工具常用来开发移动友好地交互地图()
A.Visual.ly
B.Leaflet
C.Gephi
D.BPizza Pie Charts
答案:B
二、多选题 (共 10 道试题,共 20 分)
答案:ABCD
16.数据预处理的过程主要是
A.数据集成
B.数据规约
C.数据清洗
D.数据变换
答案:ABCD
17.交通数据处理包括以下几个步骤()
A.数据聚类
B.数据组织
C.数据清洗

奥鹏南开《大数据开发技术(二)》20春期末考核.doc

奥鹏南开《大数据开发技术(二)》20春期末考核.doc

1.GraphX中。

方法可以查询顶点信息A. numVerticesB. numEdgesC. verticesD. edges【参考答案】:C2. MLlib中可以调用mllib. tree. DecisionTree类中的静态方法()训练回归树A. trainClassifierB. trainRegressorC. LogisticRegressionModelbeledPoint【参考答案】:B3.以下哪个函数可以对RDD进行去重OA. sortByB.filterC. distinctD. intersection【参考答案】:c4,图是一种数据元素间为。

关系的数据结构A.多对多B.一对一C.一对多D.多对一【参考答案】:A5.GraphX中。

方法可以查询度数A.degreesB. degreeC.verticesD. edges【参考答案】:A6. Scala中。

方法返回一个列表,包含除了第一个元素之外的其他元素A. headB. initC. tailD. last【参考答案】:C1. GraphX 中 graph. triplets 可以得到 OA.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图【参考答案】:C8. spark-submit配置项中。

表示启动的executor数量A. 一一num-executors NUMB. 一一executor-memoryMEM C. 一一total-executor-cores NUM D. 一一executor-coures NUM【参考答案】:A9.。

是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上A. SparkRB.BlinkDBC. GraphXD. Ml lib【参考答案】:A10.Spark GraphX 中类 Graph 的collectNeighborIds(edgeDirection: EdgeDirection)方法可以。

《大数据导论》期末试卷一(含答案)

《大数据导论》期末试卷一(含答案)

《大数据导论》考试试卷一《大数据导论》试卷一答案及评分标准一、单项选择题(每题2分,共20分)1、B2、C3、D4、B5、B6、A7、A8、B9、C 10、D二、判断题(每题1分,共8分)1、×2、√3、×4、×5、×6、√7、×8、√三、名词解释(每题3分,共12分)1、大数据——是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2、云计算——是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。

3、可视化——是一种使复杂信息能够容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法。

4、网络信息安全——主要是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。

四、简答题(第1、2题各7分,第3、4题各8分,共30分)1、答案:(1)大容量及高可扩展性;(1分)(2)高可用性;(1分)(3)高性能;(1分)(4)安全性;(1分)(5)自管理和自修复;(1分)(6)注重成本;(1分)(7)访问接口的多样化。

(1分)2、答案:(1)1D线性数据;(1分)(2)2D地图数据;(1分)(3)3D世界数据;(1分)(4)多维数据;(1分)(5)时态数据;(1分)(6)树型数据;(1分)(7)网络数据。

(1分)3、答案:Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。

用户可以轻松地在Hadoop 上开发和运行处理海量数据的应用程序。

(2分)它主要有以下几个优点:(1)高可靠性。

Hadoop按位存储和处理数据的能力值得人们信赖。

(1分)(2)高扩展性。

Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《大数据导论》20春期末考核-00001
试卷总分:100得分:70
一、单选题(共10道试题,共20分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
答案:D
2.PaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
答案:B
3.IaaS是()的简称
答案:D
7.以下哪项不是数据可视化工具的特性()
A.实时性
B.简单操作
C.更丰富的展现
D.仅需一种数据支持方式即可
答案:D
8.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
答案:A
9ห้องสมุดไป่ตู้SAN是一种()
A.存储设备
答案:正确
35.用一个函数拟合数据来光滑数据称为回归。
答案:正确
四、简答题(共2道试题,共12分)
36.简述云计算的体系架构分层及每层的含义。
答案:云计算可以按需提供弹性资源,它的表现形式是一系列服务的集合。<br>结合当前云计算的应用与研究,其体系架构可分为核心服务、服务管理、用户访问接口三层。<br>1)核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、可用性高、规模可伸缩等特点,满足多样化的应用需求。<br>2)服务管理层为核心服务提供支持,进一步确保核心服务的可靠性、可用性与安全性。<br>3)用户访问接口层实现端到云的访问。<br><br>
A.多样化
B.数据量大
C.维数高
D.变化快
答案:BCD
13.下列属于传统统计学展示方法的是()
A.柱状图
B.饼状图
C.曲线图
D.去除噪声使得数据光滑的技术主要有:
A.分箱
B.回归
C.离群点分析
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
答案:C
4.购物篮问题是##的典型案例
A.数据变换
B.关联规则挖掘
C.数据分类
答案:B
5.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
答案:A
6.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
答案:正确
22.关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程。
答案:正确
23.数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进攻成本,增加了“收益率“。
答案:正确
24.数据隐私和安全是大数据发展面临的挑战
答案:正确
答案:正确
27.频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。
答案:正确
28.Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度的海量公共数据集——用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关于所有主题事项的想法。
答案:正确
29.Spark的亮点是充分利用内存承载工作集,而且能保证容错。
25.用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣的案例。分析人员可以交互式地逐步优化设置以改进结果。
答案:正确
26.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
B.专为数据存储而设计构建的网络
C.光纤交换机
D.HBA
答案:B
10.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
答案:B
二、多选题(共10道试题,共20分)
11.数据预处理的过程主要是
A.数据清洗
B.数据集成
C.数据变换
D.数据规约
答案:ABCD
12.大数据时代预测人类移动行为的数据特点是
答案:正确
30.Apriori算法扫描数据库的次数等于最大频繁项集的项数。
答案:正确
31.高质量的数据是能够满足应用需求的数据。
答案:正确
32.离群点检测的任务是识别特征显著不同于其他数据的观测值
答案:正确
33.数据分析是大数据发展面全程、动态、即时直观地展现中国春节前后人口大迁徙的轨迹与特征。
答案:ABC
16.大数据存储的特点与挑战有()
A.容量问题
B.延迟问题
C.安全问题
D.成本问题
答案:ABCD
17.大数据在医疗中的应用有()
A.流行性疾病预防
B.慢性病健康管理
C.临床决策支持
D.医疗器械研发
答案:ABCD
18.医疗大数据的来源主要包括()
A.制药企业/生命科学
B.临床医疗/实验室数据
37.简述数据可视化的流程和步骤。
答案:数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤。<br>1)数据获取<br>数据获取的形式多种多样,大致可以分为主动式和被动式两种。主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等。<br>2)数据处理<br>数据处理是指对原始的数据进行分析、预处理和计算等步骤。数据处理的目标是保证数据的准确性、可用性等。<br>3)可视化模式<br>可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等。可视化模式的选取决定了可视化方案的雏形。<br>4)可视化应用<br>可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果。<br><br>
C.费用报销/利用率
D.健康管理/社交网络
答案:ABCD
19.数据分析的类型根据数据分析深度可以分为()
A.描述性分析
B.预测性分析s
C.规则性分析
答案:ABC
20.数据处理的两种方法是##,##
A.批处理
B.流处理
C.单个处理
D.交叉处理
答案:AB
三、判断题(共15道试题,共30分)
21.所有关系型数据中的数据全部为结构化数据。半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
相关文档
最新文档