南开《大数据导论》20春期末考核答案

合集下载

南开《大数据开发技术(一)》20春期末考核答案

南开《大数据开发技术(一)》20春期末考核答案

《大数据开发技术(一)》20春期末考核-00001试卷总分:100 得分:70一、单选题(共15 道试题,共30 分)1.使用Amazon云环境部署Hadoop的说法中错误的是()。

A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务答案:D2.Xtimeline是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C3.Amazon Redshift属于()A.关系数据库B.键值数据库C.NoSQL数据库D.数据仓库答案:D4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流A.Client LayerB.Services LayerC.Platform LayerD.Infrastructure Layer答案:A5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:C6.Hbase采用()作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统答案:A7.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的答案:C8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。

A.Time TunnelB.SparkC.Super MarioD.Storm答案:C9.关于Hadoop集群,以下说法错误的是()。

A.SecondaryNameNode可以和NameNode共用一台机器B.JobTracker指派的任务由TaskTracker执行C.SecondaryNameNode可以和DataNode共用一台机器Node可以和JobTracker共用一台机器答案:C10.关于Strom中Bolt说法错误的是()。

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业ACD

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业ACD

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业ACD20春学期( 1709、 1803、 1809、 1903、 1909、2003)《大数据导论》在线作业 --------------------------- 单选题 1.第一个提出大数据概念的公司是 ()。

A.麦肯锡公司B.谷歌公司C.微软公司D.脸谱公司正确答案 :A 2.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段 ()。

A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案 :C 3.下面哪一项不是中国发展大数据产业的基础 ()。

A.信息化积累了丰富的数据资源B.大数据技术创新取得明显突破 C.大数据应用推动势头良好 D.大数据产业支撑薄弱正确答案 :D 4.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段 ()。

A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案 :B 5.以下哪项不是数据可视化工具的特性 () A.实时性 B.简单操作 C.更丰富的展现D.仅需一种数据支持方式即可正确答案 :D 6.以下不是数据仓库基本特征的是 () A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的正确答案 :B 7.哪个选项不属于大数据 4V特点 ? A.Volume B.Valid C.Variety D.Value 正确答案 :B 8.SAN是一种 () A.存储设备 B.专为数据存储而设计构建的网络 C.光纤交换机D.HBA 正确答案 :B 9.下列不属于商业大数据类型的是A.传统企业数据 B.机器和传感器数据 C.社交数据 D.电子商务数据正确答案 :B 10.数据仓库是随着时间变化的 ,下列不正确的是 () A.数据仓库随时间变化不断增加新内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容 D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合正确答案 :C 11.IaaS 是 ()的简称 A.软件即服务 B.平台即服务 C.基础设施即服务D.硬件即服务正确答案 :C 12.PaaS是 ()的简称 A.软件即服务 B.平台即服务 C.基础设施即服务 D.硬件即服务正确答案 :B 13.医疗健康数据的基本情况不包括以下哪项 ? A.诊疗数据 B.个人健康管理数据 C.公共安全数据 D.健康档案数据正确答案 :C 14.大数据的特点不包含 A.数据体量大 B.价值密度高 C.处理速度快 D.数据不统一正确答案 :D 15.下列哪个工具常用来开发移动友好地交互地图 () A.LeafletB.Visual.lyC.BPizzaPieChartsD.Gephi 正确答案 :A --------------------------- 多选题 1.医疗大数据的来源主要包括 () A.制药企业 /生命科学 B.临床医疗 /实验室数据 C.费用报销 /利用率 D.健康管理 /社交网络正确答案 :A 2.常见的分类方法有A.决策树 B.贝叶斯网络 C.遗传算法 D.FP算法正确答案 :A 3.离群点检测的应用包括 ()等。

奥鹏南开大学《计算机科学导论》20春期末考核课程复习资料答案

奥鹏南开大学《计算机科学导论》20春期末考核课程复习资料答案

南开大学《计算机科学导论》20春期末考核注:请认真核对以下题目,确定是您需要的科目在下载!!!一、单选题 (共 15 道试题,共 30 分)1.E中的任一实体可以通过R与F中的至多一个实体联系则R叫做E到F的() [选项]一对一联系[选项]多对一联系[选项]多对多联系[选项]非法联系提示:认真阅读本道试题,并完成作答正确答案是:B2.数据库中的元祖是指[选项]关系中除含有属性名所在行以外的其他行[选项]关系中包含属性名所在行在内的所有行[选项]关系中的任意一列[选项]关系中的所有列提示:认真阅读本道试题,并完成作答正确答案是:A3.打印机属于哪一种计算机硬件设备[选项]输入设备[选项]输出设备[选项]存储设备[选项]系统接口提示:认真阅读本道试题,并完成作答正确答案是:B4.哪种关系操作不要求参与运算的两个关系具有相同的属性集合[选项]并[选项]交[选项]差[选项]笛卡尔积提示:认真阅读本道试题,并完成作答正确答案是:D5.法国人Blaise Pascal建造了()[选项]齿轮驱动机械[选项]四则运算器[选项]织布机[选项]计算机提示:认真阅读本道试题,并完成作答正确答案是:A6.3度布尔函数共有多少个[选项]3[选项]8[选项]27[选项]256提示:认真阅读本道试题,并完成作答正确答案是:D7.下列哪种语言是面向对象的编程语言[选项]Pascal[选项]BASIC[选项]C[选项]C++提示:认真阅读本道试题,并完成作答正确答案是:D8.以下哪个选项用于实现SQL语言的查询功能[选项]selece[选项]insert[选项]delete[选项]update提示:认真阅读本道试题,并完成作答正确答案是:A9.以下哪项不属于冯诺依曼体系结构的核心部件[选项]运算器[选项]存储器[选项]输入输出设备[选项]控制器提示:认真阅读本道试题,并完成作答正确答案是:C10.RGB表示法中某种颜色的份额通常在以下哪对数字之间[选项]0-255[选项]0-256[选项]128-255[选项]128-1024提示:认真阅读本道试题,并完成作答正确答案是:A11.下列哪种存储器的读取速度最快?。

南开大学20春学期《大数据导论》在线作业

南开大学20春学期《大数据导论》在线作业

南开大学20春学期《大数据导论》在线作业
试卷总分:100 得分:100
一、单选题(共15 道试题,共30 分)
1.大数据的特点不包含
A.数据体量大
B.数据不统一
C.处理速度快
D.价值密度高
答案:B
2.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
3.下面哪一项不是中国发展大数据产业的基础()。

A.大数据技术创新取得明显突破
B.大数据应用推动势头良好
C.大数据产业支撑薄弱
D.信息化积累了丰富的数据资源
答案:C
4.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
答案:A
5.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
答案:C
6.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
答案:A
7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。

《大数据概论》期末试卷含答案精选全文完整版

《大数据概论》期末试卷含答案精选全文完整版

可编辑修改精选全文完整版《大数据概论》期末试卷含答案1. 当前社会中,最为突出的大数据环境是 [单选题] *A. 互联网(正确答案)B. 物联网C. 综合国力D. 自然资源2. 以下哪个不是大数据的特征() [单选题] *A. 价值密度低B. 数据类型繁多C. 访问时间短(正确答案)D. 处理速度快3. 大数据的起源是()。

[单选题] *A. 金融B. 电信C. 互联网(正确答案)D. 公共管理4. 第三次信息化浪潮发生在哪一年前后()。

[单选题] *A. 1980C. 2010(正确答案)D. 20195. 以下说法错误的是?() [单选题] *A.大数据对传统行业有帮助B.大数据是一种思维方式C.大数据会带来机器智能D.大数据仅仅是讲数据的体量大(正确答案)6. 下列单位不是数据单位的是() [单选题] *A.bitB.NB(正确答案)C.GBD.TB7. ()是长期储存在计算机内、有组织的、可共享的数据集合。

[单选题] *A.数据库系统B.数据库(正确答案)C.数据库管理系统D.数据结构8. 数据库中存储的是() [单选题] *A.数据B.数据模型C.数据及数据间的联系(正确答案)9. 以下哪一项属于非结构化数据。

() [单选题] *A. 企业ERP数据B. 财务系统数据C. 视频监控数据(正确答案)D. 日志数据10. HBase是分布式列式存储系统,记录按什么集中存放。

() [单选题] *A. 列族(正确答案)B. 列C. 行D. 不确定11. 哪一种数据采集方法被看作是“软件传感器”。

() [单选题] *A. 传感器B. 系统日志(正确答案)C. 网络爬虫D. 众包12. 在关系数据库系统中,一个关系相当于()。

[单选题] *A.一张二维表(正确答案)B.一条记录C.一个关系数据库D.一个关系代数13. 大数据时代,数据使用的关键是 [单选题] *A. 数据收集B. 数据存储C. 数据分析D. 数据再利用(正确答案)14.以下哪一种数据采集方法是网站应用(如搜索引擎)主要的数据采集方式。

南开《数据科学导论》20春期末考核-00001参考答案

南开《数据科学导论》20春期末考核-00001参考答案
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
答案:C
15.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案:A
二、多选题(共5道试题,共10分)
16.系统日志收集的基本特征有()
A.高可用性
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
答案:C
13.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案:C
14.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
C.子集搜索
D.子集验证
答案:C
10.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:D
11.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:A
12.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
B.无监督学习
C.强化学习
D.半监督学习
答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

【南开】20春学期《大数据导论》在线作业【资料答案】

【南开】20春学期《大数据导论》在线作业【资料答案】

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业试卷总分:100 得分:92
一、单选题 (共 15 道试题,共 30 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
答案:
2.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
答案:A
3.下面哪一项不是中国发展大数据产业的基础()。

A.信息化积累了丰富的数据资源
B.大数据技术创新取得明显突破
C.大数据应用推动势头良好
D.大数据产业支撑薄弱
答案:D
4.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
答案:D
5.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
答案:B
6.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
答案:
7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。

南开大学2020年春季(1709、1803、1809、1903、1909)《大数据导论》在线作业答卷2附标准答案

南开大学2020年春季(1709、1803、1809、1903、1909)《大数据导论》在线作业答卷2附标准答案
D.传感适配体系
答案:ABCD
17.层次方法可以分为()
A.分裂法
B.凝聚法
C.K均值算法
D.K中心点算法
答案:AB
18.以下可以用于数据可视化的是()。
A.Weka
B.R语言
C.RapidMiner
D.Excel
答案:ABCD
19.社会信号数据的特点有()
A.规模大
南开大学2020年春季(1709、1803、1809、1903、1909)《大数据导论》在线作业2附标准答案
试卷总分:100 得分:100
一医疗健康数据的基本情况不包括以下哪项?
A.诊疗数据
B.公共安全数据
C.健康档案数据
D.个人健康管理数据
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
答案:C
13.()是Microsoft Office的核心组件
A.WORD
B.SQL
C.PPT
D.EXCEL
答案:D
14.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
答案:B
2.数据仓库是随着时间变化的,下列不正确的是()
A.数据仓库随时间变化不断增加新内容
B.数据仓库随事件变化不断删去旧的数据内容
C.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
D.捕捉到的新数据会覆盖原来的快照
答案:B
更多加微信boge30619
3.大数据的特点不包含
答案:AC
22.数据变换的常用方法有##,##,##,##

南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答案

南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答案
18.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
A.最小-最大规范化
B.零-均值规范化
C.小数定标规范化
D.中位数规范化
答案:D
3.实体识别属于以下哪个过程()
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
答案:B
4.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
答案:A
答案:D
8.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
答案:A
9.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
答案:C
10.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
C.组合方法
D.比较方法
答案:AB
25.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
答案:AB
26.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答案:ABCD
27.k近邻法的基本要素包括()。

大数据导论期末试题及答案

大数据导论期末试题及答案

大数据导论期末试题及答案一、选择题1. 大数据技术主要用于处理哪方面的数据?A. 小规模结构化数据B. 中等规模半结构化数据C. 大规模非结构化数据D. 所有规模的数据答案:D2. 大数据的四个关键特征分别是什么?A. 数据量大、多样性、高速度、价值高B. 数据量大、多样性、冗余性、处理速度快C. 数据量大、结构化、半结构化、非结构化D. 数据量大、多样性、快速计算、可扩展性答案:A3. Hadoop是一个开源框架,用于分布式处理大规模数据。

它的核心组件包括:A. HDFS和MapReduceB. MySQL和MongoDBC. Tomcat和NginxD. Spark和Storm答案:A4. 哪个技术经常与大数据技术一同使用,可以实现流数据的实时处理?A. 机器学习B. 数据挖掘C. 数据仓库D. 流处理答案:D5. 大数据分析可以为企业带来哪些优势?A. 提供更好的决策支持B. 降低成本和风险C. 发现新的商业机会D. 所有选项都是正确的答案:D二、填空题1. 大数据的主要特征之一是_______。

答案:数据量大2. _______是一个用于处理大规模结构化和半结构化数据的开源框架。

答案:Hadoop3. 大数据技术的应用通常需要具备_______的能力。

答案:高速计算4. _______是一种用于实时处理流数据的技术。

答案:流处理5. 大数据分析能够带来企业的多个优势,包括提供更好的_______、降低成本和风险,以及发现新的商业机会。

答案:决策支持三、简答题1. 请简要介绍大数据的定义及其特征。

答:大数据是指规模超过传统数据库处理能力范围的数据集合。

它具有四个关键特征:数据量大、多样性、高速度和价值高。

数据量大指的是数据量远远超过传统数据库的处理能力,往往需要分布式系统来处理。

多样性表示数据可以是结构化、半结构化或非结构化的。

高速度指的是大数据的产生速度很快,需要进行实时或近实时的处理和分析。

南开《大数据开发技术(一)》20春期末考核答案

南开《大数据开发技术(一)》20春期末考核答案

《大数据开发技术(一)》20春期末考核-00001试卷总分:100 得分:70一、单选题(共15 道试题,共30 分)1.使用Amazon云环境部署Hadoop的说法中错误的是()。

A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务答案:D2.Xtimeline是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C3.Amazon Redshift属于()A.关系数据库B.键值数据库C.NoSQL数据库D.数据仓库答案:D4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流A.Client LayerB.Services LayerC.Platform LayerD.Infrastructure Layer答案:A5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:C6.Hbase采用()作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统答案:A7.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的答案:C8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。

A.Time TunnelB.SparkC.Super MarioD.Storm答案:C9.关于Hadoop集群,以下说法错误的是()。

A.SecondaryNameNode可以和NameNode共用一台机器B.JobTracker指派的任务由TaskTracker执行C.SecondaryNameNode可以和DataNode共用一台机器Node可以和JobTracker共用一台机器答案:C10.关于Strom中Bolt说法错误的是()。

南开20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业参考答案3

南开20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业参考答案3

20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业
试卷总分:100 得分:98
一、单选题(共15 道试题,共30 分)
1.大数据的特点不包含
A.数据体量大
B.数据不统一
C.处理速度快
D.价值密度高
答案:B
2.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
3.下面哪一项不是中国发展大数据产业的基础()。

A.大数据技术创新取得明显突破
B.大数据应用推动势头良好
C.大数据产业支撑薄弱
D.信息化积累了丰富的数据资源
答案:C
4.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
答案:A
5.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的。

奥鹏南开《数据科学导论》20春期末考核.doc

奥鹏南开《数据科学导论》20春期末考核.doc

1.下面不是分类的常用方法的有()A.K近邻法B.朴素贝叶斯C.决策树D.条件随机场【参考答案】: D2.BFR聚类用于在()欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维【参考答案】: A3.聚类是一种()。

A.有监督学习B.无监督学习C.强化学习D.半监督学习【参考答案】: B4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.异常值B.缺失值C.不一致的值D.重复值【参考答案】: C5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元 C.产量每增加一台,单位成本平均减少1.2元 D.产量每增加一台,单位平均增加100元【参考答案】: C6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小,减小B.减小,增大C.增大,减小D.增大,增大【参考答案】: B7.在回归分析中,自变量为(),因变量为()。

A.离散型变量,离散型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.连续型变量,连续型变量【参考答案】: D8.手肘法的核心指标是()。

A.SESB.SSEC.RMSED.MSE【参考答案】: B9.特征选择的四个步骤中不包括()A.子集产生B.子集评估C.子集搜索D.子集验证【参考答案】: C10.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差B.方差C.测差D.残差【参考答案】: D11.K-means聚类适用的数据类型是()。

A.数值型数据B.字符型数据C.语音数据D.所有数据【参考答案】: A12.以下哪些不是缺失值的影响()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出【参考答案】: C13.下列两个变量之间的关系中,哪个是函数关系()。

南开大学20春《大数据导论》期末考核答卷附标准答案

南开大学20春《大数据导论》期末考核答卷附标准答案
南开大学20春《大数据导论》期末考核附标准答案
试卷总分:100 得分:100
一、单选题 (共 10 道试题,共 20 分)
1.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
答案:C
答案:正确
22.每个簇的质心(centroid)是该簇中所有数据对象的均值。
答案:正确
23.数据存储要表现出静态数据的特征,反映的是系统中静止的数据。
答案:正确
24.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态( )
答案:正确
25.Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
答案:D
9.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
10.下列哪个工具常用来开发移动友好地交互地图()
A.Visual.ly
B.Leaflet
C.Gephi
D.BPizza Pie Charts
答案:B
二、多选题 (共 10 道试题,共 20 分)
答案:ABCD
16.数据预处理的过程主要是
A.数据集成
B.数据规约
C.数据清洗
D.数据变换
答案:ABCD
17.交通数据处理包括以下几个步骤()
A.数据聚类
B.数据组织
C.数据清洗

奥鹏南开《大数据开发技术(二)》20春期末考核.doc

奥鹏南开《大数据开发技术(二)》20春期末考核.doc

1.GraphX中。

方法可以查询顶点信息A. numVerticesB. numEdgesC. verticesD. edges【参考答案】:C2. MLlib中可以调用mllib. tree. DecisionTree类中的静态方法()训练回归树A. trainClassifierB. trainRegressorC. LogisticRegressionModelbeledPoint【参考答案】:B3.以下哪个函数可以对RDD进行去重OA. sortByB.filterC. distinctD. intersection【参考答案】:c4,图是一种数据元素间为。

关系的数据结构A.多对多B.一对一C.一对多D.多对一【参考答案】:A5.GraphX中。

方法可以查询度数A.degreesB. degreeC.verticesD. edges【参考答案】:A6. Scala中。

方法返回一个列表,包含除了第一个元素之外的其他元素A. headB. initC. tailD. last【参考答案】:C1. GraphX 中 graph. triplets 可以得到 OA.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图【参考答案】:C8. spark-submit配置项中。

表示启动的executor数量A. 一一num-executors NUMB. 一一executor-memoryMEM C. 一一total-executor-cores NUM D. 一一executor-coures NUM【参考答案】:A9.。

是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上A. SparkRB.BlinkDBC. GraphXD. Ml lib【参考答案】:A10.Spark GraphX 中类 Graph 的collectNeighborIds(edgeDirection: EdgeDirection)方法可以。

《大数据导论》期末试卷一(含答案)

《大数据导论》期末试卷一(含答案)

《大数据导论》考试试卷一《大数据导论》试卷一答案及评分标准一、单项选择题(每题2分,共20分)1、B2、C3、D4、B5、B6、A7、A8、B9、C 10、D二、判断题(每题1分,共8分)1、×2、√3、×4、×5、×6、√7、×8、√三、名词解释(每题3分,共12分)1、大数据——是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2、云计算——是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。

3、可视化——是一种使复杂信息能够容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法。

4、网络信息安全——主要是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。

四、简答题(第1、2题各7分,第3、4题各8分,共30分)1、答案:(1)大容量及高可扩展性;(1分)(2)高可用性;(1分)(3)高性能;(1分)(4)安全性;(1分)(5)自管理和自修复;(1分)(6)注重成本;(1分)(7)访问接口的多样化。

(1分)2、答案:(1)1D线性数据;(1分)(2)2D地图数据;(1分)(3)3D世界数据;(1分)(4)多维数据;(1分)(5)时态数据;(1分)(6)树型数据;(1分)(7)网络数据。

(1分)3、答案:Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。

用户可以轻松地在Hadoop 上开发和运行处理海量数据的应用程序。

(2分)它主要有以下几个优点:(1)高可靠性。

Hadoop按位存储和处理数据的能力值得人们信赖。

(1分)(2)高扩展性。

Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

南开大学2020春《大数据导论》期末考核答卷附标准答案

南开大学2020春《大数据导论》期末考核答卷附标准答案
答案:正确
22.关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程。
答案:正确
23.数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进攻成本,增加了“收益率“。
答案:正确
24.数据隐私和安全是大数据发展面临的挑战
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
答案:A
9.SAN是一种()
A.存储设备
B.专为数据存储而设计构建的网络
C.光纤交换机
D.HBA
答案:B
10.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
29.Spark的亮点是充分利用内存承载工作集,而且能保证容错。
答案:正确
30.Apriori算法扫描数据库的次数等于最大频繁项集的项数。
答案:正确
31.高质量的数据是能够满足应用需求的数据。
答案:正确
32.离群点检测的任务是识别特征显著不同于其他数据的观测值
答案:正确
33.数据分析是大数据发展面临的挑战
C.SaaS 答案:Biblioteka 6.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
答案:D
7.以下哪项不是数据可视化工具的特性()
A.实时性
B.简单操作
C.更丰富的展现
D.仅需一种数据支持方式即可
答案:D
8.下列哪个工具常用来开发移动友好地交互地图()
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《大数据导论》20春期末考核-00001
试卷总分:100 得分:70
一、单选题(共10 道试题,共20 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
答案:D
2.PaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
答案:B
3.IaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
答案:C
4.购物篮问题是##的典型案例
A.数据变换
B.关联规则挖掘
C.数据分类
答案:B
5.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
答案:A
6.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
答案:D
7.以下哪项不是数据可视化工具的特性()
A.实时性
B.简单操作
C.更丰富的展现
D.仅需一种数据支持方式即可
答案:D
8.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
答案:A
9.SAN是一种()
A.存储设备
B.专为数据存储而设计构建的网络
C.光纤交换机
D.HBA
答案:B
10.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
答案:B
二、多选题(共10 道试题,共20 分)
11.数据预处理的过程主要是
A.数据清洗
B.数据集成
C.数据变换
D.数据规约
答案:ABCD
12.大数据时代预测人类移动行为的数据特点是
A.多样化
B.数据量大
C.维数高
D.变化快
答案:BCD
13.下列属于传统统计学展示方法的是()
A.柱状图。

相关文档
最新文档