大数据理论题目多选题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据理论题目多选题
日期: [填空题] *
1. 审计工作流平台包括() *
A.Microsoft Office 系列软件(正确答案)
B.专业审计软件(正确答案)
C.数据库软件(正确答案)
D.数据统计分析软件(正确答案)
1. 用户对数据库表的操作权限有哪些() *
A. SELECT:对表或试图执行查询语句的权限(正确答案)
B. INSERT:对表或试图执行插入语句的权限(正确答案)
C. UPDATE:对表或试图执行更新语句的权限(正确答案)
D. DELETE:对表或试图执行删除语句的权限(正确答案)
1.在数据库系统中,有哪几种数据模型()。

*
A.实体联系模型
B.关系模型(正确答案)
C.网状模型(正确答案)
D.层次模型(正确答案)
2.关系型数据库的事务和现实世界中的交易很类似,它有如下()原则,简称ACID原则。

*
A.原子性(正确答案)
B.一致性(正确答案)
C.隔离性(正确答案)
D.持久性(正确答案)
2.数据标准化包括() *
A.最小最大标准化(正确答案)
B.绝对值最小最大标准化(正确答案)
C.零均值标准化(正确答案)
D.Log函数标准化(正确答案)
3.专业审计软件有() *
A.ACL(正确答案)
B.IDEA(正确答案)
C.Microsoft Office
D.Qlik View
4.属于数值函数的函数为() *
A.Arrayput
B.Constant(正确答案)
C.Pi(正确答案)
D.Random(正确答案)
4. 常见的数据源类工作流节点有哪些() *
A. 关系数据库(正确答案)
B. MongoDB(正确答案)
C. 转换
D.系统Hive(正确答案)
5. 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。

对于缺失值的处理方法包括()。

*
A. 复制元
B.删除元组(正确答案)
C.缺值补齐(正确答案)
D.不处理(正确答案)
6. 数据分析及展示软件() *
A.Tableau(正确答案)
B.Qlik View(正确答案)
C.ACL
D.IDE
7.事务是特性包括()。

*
A.独立性(正确答案)
B.原子性(正确答案)
C.一致性(正确答案)
D.持久性(正确答案)
7. 缺失值从缺失的分布来讲可以分为()。

*
A.完全随机缺失(正确答案)
B.完全非随机缺失(正确答案)
C.任意缺失
D.随机缺失(正确答案)
7. 缺失值从缺失的分布来讲可以分为()。

*
A.完全随机缺失(正确答案)
B.完全非随机缺失(正确答案)
C.任意缺失
D.随机缺失(正确答案)
8、数据清洗工作的目的主要是解决数据的() *
A.完整性(正确答案)
B.唯一性(正确答案)
C.合法性(正确答案)
D.一致性(正确答案)
8.重复数据产生的原因有()。

*
A.人为多次提交(正确答案)
B.数据集成时造成重复(正确答案)
C.系统自身问题导致重复写入(正确答案)
D.数据加工过程中产生数据重复(正确答案)
8.对于缺失值的处理,从总体上来说分为() *
A.删除元组(正确答案)
B.直接复制上一行结果
C.缺值补齐(正确答案)
D.不处理(正确答案)
8. XBRL在经济活动中的应用空间有() *
A.企业管理领域(正确答案)
B.审计领域(正确答案)
C.企业信用等级评估领域(正确答案)
D.证券市场领域(正确答案)
9.数据缺失产生的原因包括()。

*
A.有些对象的某个或某些属性不可用(正确答案)
B.有些信息暂时无法获取(正确答案)
C.有些信息(被认为)是不重要的(正确答案)
D.有些信息是被遗漏的(正确答案)
9. XBRL主要由()组成 *
A.技术规格(正确答案)
B.分类标准(正确答案)
C.实例文档(正确答案)
D.样式单(正确答案)
9.数据缺失产生的原因包括()。

*
A.有些对象的某个或某些属性不可用(正确答案)
B.有些信息暂时无法获取(正确答案)
C.有些信息(被认为)是不重要的(正确答案)
D.有些信息是被遗漏的(正确答案)
10、属于算法类的数据转换器的包括() *
A.Char
B.Tokenization(正确答案)
C.Predict(正确答案)
D.InverseQuanitify(正确答案)
10.以下数据加工函数中属于对字符串类型数据进行加工的是()。

*
A.trim(正确答案)
B.replace(正确答案)
C.calculate
D.mod
11. 可视化评测的方法有() *
A.可用性测试(正确答案)
B.专家评估(正确答案)
C.现场测试(正确答案)
D.案例研究(正确答案)
11. 合并操作与连接相似,因为他们都是将两个表合并起来形成另一个表的方法。

但它们的合并方法有本质上的不同。

以下选项中说法正确的有() *
A. 在合并中,两个表源列的数量与数据类型可以不相同
B.在合并中,两个表源列的数量与数据类型必须相同(正确答案)
C.在联接中,行的最大数量是两个表行的“和”
D.在联接中,行的最大数量是它们的“乘积”(正确答案)
12、在可视化的图表类型中,柱状图包括() *
A.分区柱状图(正确答案)
B.堆积柱状图(正确答案)
C.多系列柱状图(正确答案)
D.对比柱状图(正确答案)
12.下列关于地图缺点的说法中,正确的有() *
A.数据信息必须带有地理信息,否则无法使用地图;(正确答案)
B.地理面积大小与数据信息大小不匹配,可能会出现地理面积很小的地区但实际数据却很大的情况;(正确答案)
C.无法通过地图颜色使结果更具辨识度;
D.气泡地图中,无法通过设置气泡大小体现数据的大小;
12:对数据表进行连接操作,有哪些连接方法?() *
A. 内部连接(正确答案)
B. 外部连接(正确答案)
C. 合并连接
D. 交叉连接(正确答案)
13.下列关于标签的说法,正确的有()。

*
A.对同一个用户,可以打上很多个标签(正确答案)
B. 每个标签都指向用户的一类属性或行为(正确答案)
C. 标签在在精准营销方面能够发挥了独特的效用(正确答案)
D. 标签可以更好的显示和突出搜索的关键词条(正确答案)
13、以下工作流节点中属于“算法”的有() *
A.逻辑回归(正确答案)
B.线性回归(正确答案)
C.量化(正确答案)
D.行转列
14、关于离散化说法错误的有()。

*
A.离散化是将数值属性转换为字符串型属性(正确答案)
B.有监督离散化有两种等宽和等频方法(正确答案)
C.等宽离散化是使实例分布均匀的(正确答案)
D.离散化包括无监督离散化和有监督离散化
14. 在数列云平台抽取数据时,以下哪些选项需要连接到课程数据库() *
A targetmail(用户信息表)(正确答案)
B student_info(学生信息表)
C grade_score.csv(学生成绩表)
D student.csv(学生信息表)(正确答案)
14. 聚类常用的距离有() *
A.最短距离(正确答案)
B.最长距离(正确答案)
C.中间距离(正确答案)
D.类平均(正确答案)
15. 层次聚类的优点() *
A.距离和规则的相似度容易定义,限制少(正确答案)
B.不需要预先制定聚类数(正确答案)
C.可以发现类的层次关系(正确答案)
D.可以聚类成其它形状(正确答案)
17.某集团公司财务总监在进行年度汇报时,须向公司总经理汇报本年净利润及最近五年净利润的趋势A产品净利润在公司总体净利润的占比,他可以选择的图表类型是:() *
A.词云图;
B.线形图;(正确答案)
C.饼图;(正确答案)
D.雷达图
18.某集团公司营销总监在公司年度汇报时,需向总经理汇报不同省份本年销售额贡献值(需体现地理标识)、本年度营销部重点工作事项、本年度营销部管培生学历、年龄、毕业院校、性别等详细信息,他可以选择的图表类型是() *
A.地图;(正确答案)
B.词云图;(正确答案)
C.交叉表;
D.明细表;(正确答案)
19.某集团公司总经理在向全体员工总结公司本年度业绩、来年工作展望时,希望以一个图表清晰地展示出公司本年度五个业绩指标的结果,这五个业绩指标是:市场占有率、净利润增长率、营业额增长率、产品不良率、人才流失率,他可以选择的图表有() *
A.柱形图;(正确答案)
B.地图;
C.仪表图;
D.雷达图;(正确答案)
20.某集团公司总部内部审计部在执行差旅费审计时,意外发现一项员工虚报差旅费的舞弊事项,因此发文要求各分公司对最近一年差旅费进行全面地自查整改,并提交最终差旅费自查报告,报告内容至少需包括以下事项:差旅费行程冲突记录在全部差旅记录中的占比、差旅费行程冲突明细、各公司各部门差旅费报销总额,并要求各成员公司在一个月内完成差旅费内部整改,总部将不定期进行飞行检查。

若你是某一分公司出纳,你在该报告中拟利用的表是:() *
A.饼图;(正确答案)
B.明细表;(正确答案)
C.矩阵块图;(正确答案)
D.柱形图;(正确答案)
21.数据关联包含哪几种?() *
A.简单关联(正确答案)
B.时序关联(正确答案)
C.因果关联(正确答案)
D.无限关联
24.如果请你在DEEP平台中,根据既有数据进行未来天气的预测,将会采用线性回归模型,将会用到哪几个数据转换器?() *
A.NumericCast
B.NumAssemble(正确答案)
C.Choice
D.Predict(正确答案)
22.时间序列主要组成因素包括:() *
A.时间要素(正确答案)
B.逻辑要素
C.数据要素(正确答案)
D.非变量
23.时间序列的作用包含:() *
A.为预测和决策提供可靠的数量信息(正确答案)
B.深入揭示现象变化的数据特征(正确答案)
C.反映现象发展变化的趋势和规律(正确答案)
D.揭示现象变化的内在原因(正确答案)
25.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的不属于哪类问题?() *
A.聚类(正确答案)
B.关联规则
C.分类(正确答案)
D.自然语言处理(正确答案)
26.哪些数据特性是对聚类分析具有很强影响?() *
A.高维性(正确答案)
B.规模(正确答案)
C.稀疏性(正确答案)
D.噪声和离群点(正确答案)
27.以下哪些是数据仓库的基本特征?() *
A.数据仓库的数据是集成的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的(正确答案)
D.数据仓库的数据是反映历史变化的(正确答案)
28.以下哪些学科和数据挖掘有密切联系?() *
A.统计(正确答案)
B.计算机组成原理
C.人工智能(正确答案)
D.矿产挖掘
29.以下说法正确的是:() *
A.聚类分析是一组将研究对象分为相对同质的群组的统计分析技术(正确答案)
B.移动平均法适用于即期预测。

(正确答案)
C.支持向量机不属于分类算法
D.在DEEP平台中,如果需要进行模型训练,需要先进行数值组装(正确答案)
30.在DEEP平台应用线性回归模型,进行步长值设置需要哪几步?() *
A.数据转换-长度
B.选中线性回归模型-属性(正确答案)
C.参数设置(正确答案)
D.步长值设置(正确答案)
31.大数据技术的基础包括() *
A.分布式文件系统(正确答案)
B.分布式并行计算(正确答案)
C.关系型数据库
D.分布式数据库(正确答案)
32.低耗能存储及高效率计算的要求,需要以下多种技术协同合作() *
A.分布式云存储技术(正确答案)
B.高性能并行计算技术(正确答案)
C.多源数据清洗及数据整合技术(正确答案)
D.分布式文件系统及分布式并行数据库(正确答案)
E.可视化高维度展示技术
33.IBM公司用3个V来描述大数据的三个基本特征,这3V是() *
A.体量(正确答案)
B.规模
C.速度(正确答案)
D.多样性(正确答案)
E.复杂性
35.在网络爬虫的爬行策略中,应用最为基础的是()。

*
A.深度优先遍历策略(正确答案)
B.广度优先遍历策略(正确答案)
C.高度优先遍历策略
D.反向链接策略
E.大站优先策略
36.下列关于数据生命周期管理的核心认识中,正确的是()。

*
A.数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段(正确答案)
B.在不同的数据存在阶段,数据的价值是不同的(正确答案)
C.根据数据价值的不同应该对数据采取不同的管理策略(正确答案)
D.数据生命周期管理旨在产生效益的同时,降低生产成本
E.数据生命周期管理最终关注的是社会效益
37.下列关于脏数据的说法中,正确的是()。

*
A.格式不规范(正确答案)
B.编码不统一(正确答案)
C.意义不明确(正确答案)
D.与实际业务关系不大(正确答案)
E.数据不完整(正确答案)
39.按照涉及自变量的多少,可以将回归分析分为()。

*
A.线性回归分析
B.非线性回归分析
C.一元回归分析(正确答案)
D.多元回归分析(正确答案)
E.综合回归分析
40.传统数据密集型行业积极探索和布局大数据应用的表现是()。

*
A.投资入股互联网电商行业
B.打通多源跨域数据(正确答案)
C.提高分析挖掘能力(正确答案)
D.自行开发数据产品
E.实现科学决策与运营(正确答案)
41.大数据人才整体上需要具备()等核心知识。

*
A.数学与统计知识(正确答案)
B.计算机相关知识(正确答案)
C.马克思主义哲学知识
D.市场运营管理知识
42.下列关于大数据的说法中,错误的是()。

*
A.大数据具有体量大、结构单一、时效性强的特征(正确答案)
B.处理大数据需采用新型计算架构和智能算法等新技术
C.大数据的应用注重相关分析而不是因果分析
D.大数据的应用注重因果分析而不是相关分析(正确答案)
E.大数据的目的在于发现新的知识与洞察并进行科学决策
44.大数据处理流程可以概括为以下哪几步?() *
A.挖掘(正确答案)
B.采集(正确答案)
C.统计和分析(正确答案)
D.导入和预处理(正确答案)
45.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是()。

*
A.从被动反应走向主动预见型管理(正确答案)
B.从粗放化管理走向精细化管理(正确答案)
C.从单兵作战走向联合共享型管理(正确答案)
D.从柜台式管理走向全天候管理(正确答案)
11. 可视化评测的方法有() *
A.可用性测试(正确答案)
B.专家评估(正确答案)
C.现场测试(正确答案)
D.案例研究(正确答案)
6. 联接可将水平方向上合并两个数据集合,并产生一个新的结果集合。

联接可分为()。

*
A.内部联接(正确答案)
B.外部联接(正确答案)
C.顺序联接
D.交叉联接(正确答案)
7.造成数据缺失的原因是多方面的,主要可能有() *
A.有些信息暂时无法获取(正确答案)
B.有些信息是被遗漏的(正确答案)
C.有些对象的某个或某些属性是不可用的(正确答案)
D.获取这些信息的代价太大(正确答案)
4.常见的数据源类工作流节点有哪些() *
A. 关系数据库(正确答案)
B. MongoDB(正确答案)
C. 转换
D.系统Hive(正确答案)
7.单位内部控制的方法的是() *
A.自我调整(正确答案)
B.约束(正确答案)
C.规划(正确答案)
D.评价(正确答案)
3.题目6:下列数据类型中,不属于浮点型的是()。

*
A.double
B.text(正确答案)
C.float
D.char(正确答案)
7.题目8:大数据分析四个方面的主要工作是:数据分类、___、关联规则挖掘、___() *
A.数据聚类(正确答案)
B.数据计算
C.时间序列预测(正确答案)
D.数据清洗
2. 题目10:主流的关系型数据库有(): *
A. Oracle(正确答案)
B. DB2(正确答案)
C. Microsoft SQL Server(正确答案)
D. My SQL(正确答案)
4、题目11:数据可视化的作用() *
A.数据分析(正确答案)
B.数据过滤
C.信息记录(正确答案)
D.传播交流
16.题目14:下列图表中,使用到折线的有() *
A.分区折线图;(正确答案)
B.多系列折线图;(正确答案)
C.折现雷达图;(正确答案)
D.组合图;(正确答案)
题目15:34.下列关于云计算和数据库的说法中,错误的是() *
A.获取样本的代价很高(正确答案)
B.获取足够大的样本数据乃至全体数据非常容易
C.比抽样调查数据更全面
D.比抽样调查更能反映整个群体的特征与规律
E.可以为发现新的商业机会提供决策支持(正确答案)
题目8:请问以下哪些是导致数据重复的原因() *
A.数据重复写入(正确答案)
B.数据集成(正确答案)
C.数据加工过程中的关联(正确答案)
D.数据压缩
13.题目11:下列关于柱形图优缺点的说法中,正确的有() *
A.可以通过柱子的长短明显看出各组别之间数据的差异;(正确答案)
B.若柱形图的横轴为时间,则可以清晰地看出数据结果随时间的变化趋势;(正确答案)
C.若数据集分类较多,则横轴将出现大量柱形,降低了柱形图的直观度;(正确答案)
D.可以为柱形图添加标签使其清晰地展示出不同柱子对应的纵轴数据;(正确答案)题目12:5. 数据统计分析软件() *
A.MATLAB(正确答案)
B.SAS(正确答案)
C.R(正确答案)
D.IDEA
2.题目13:下列属于工作流节点的有() *
A.线性回归(正确答案)
B.抽样(正确答案)
C.标准化(正确答案)
D.转换(正确答案)
题目14:使用下面哪种图表类型能更好地表示随时间(年、月和日)或类别变化的趋势?() *
A. 饼图
B. 折线图(正确答案)
C. 面积图
D. 柱形图(正确答案)
15.对文本类型的数据进行转换加工,以下选项中哪些文本函数处理的对象是一个文本字符串,处理完的输出结果也是一个文本字符串()。

*
A. Concatenat
B. Left(正确答案)
C. Upper(正确答案)
D. Replace(正确答案)
14.下列关于文本图的说法中,正确的有() *
A.文本图通常适用于需要展示关键词、突出重点的业务场景;(正确答案)
B.可以通过为文本图中的文本添加颜色、设置大小等方式达到强调的作用;(正确答案)
C.文本图以其独有的“高级感”,近年来在实务中越来越多地被使用到;(正确答案)
D.文本图可以代替热力点图使用;
12. 定量变量就是通常所说的连续量,它们是由测量或计数、统计所得到的量,这些变量具有数值特征,以下属于定量变量的有()。

*
A.性别
B.长度(正确答案)
C.产量(正确答案)
D.职业
下面哪两个函数可以实现文本数据类型和数值数据类型的相互转换() *
A. BinaryToString
B. NumericToString(正确答案)
C. StringToNumeric(正确答案)
D. CsnToString
4、数据可视化的作用() *
A.数据分析(正确答案)
B.数据过滤
C.信息记录(正确答案)
D.传播交流
3. 脏指数据可能存在以下哪些问题?() *
A. 数据缺失(正确答案)
B. 数据噪声(正确答案)
C. 数据不一致(正确答案)
D. 数据重复(正确答案)
6、选择对应的数据属性类型:销售商品的品名、衣服尺码(S, M, L, XL等等)、人的体重分别是()数据 *
A.数值型(正确答案)
B.序数型(正确答案)
C.类别型(正确答案)
D.随机型
5.下列哪些类型是数值型的数据()。

*
A.set
B.double(正确答案)
C.mediumint(正确答案)
D.float(正确答案)
3.下列数据类型中,不属于浮点型的是()。

*
A.double
B.text(正确答案)
C.float
D.char(正确答案)
2.关于主键,下列说法正确的是()。

*
A.可以是表中的一个字段(正确答案)
B.是确定数据库中的表的记录的唯一标识字段(正确答案)
C.在一个表中,主键所在字段不可为空也不可重复(正确答案)
D.可以是表中的多个字段组成(正确答案)
4. 常用的抽样方法有两大类,以下属于概率抽样的有() *
A方便抽样
B分层抽样(正确答案)
C判断抽样
D简单随机抽样(正确答案)
关联就是根据特定的连接条件将不同的表连接起来,然后获取所需要的数据。

一般的关联方式包括哪些?() *
A. 清洗
B. 连接(正确答案)
C. 统计
D. 合并(正确答案)
交互延时指从用户操作的发生到系统返回结果所经过的时间,是决定交互有效性最重要的因素之一。

延时的长短在很大程度上决定了一个可视化系统的可用性及用户体验。

交互延时可以细分为多种形式,包括() *
A. 操作延时(正确答案)
B. 接收用户输入(正确答案)
C. 反馈延时(正确答案)
D. 系统更新延时(正确答案)
15.作填充地图时需要先将()相关字段转化为地理角色,并将生成的经纬度分别绑定到“横轴”和“纵轴”区域中。

*
A.国家(正确答案)
B.省份(正确答案)
C.城市(正确答案)
D.销售额
7、题目8:大数据分析四个方面的主要工作是:数据分类、___、关联规则挖掘、___() *
A.数据聚类(正确答案)
B.数据计算
C.时间序列预测(正确答案)
D.数据清洗
3、题目9:下列属于统计分析的算法是() *
A.标准差(正确答案)
B.百分位(正确答案)
C.相关系数(正确答案)
D.聚类
12.题目1:数据库中常用的数据类型有() *
A.文本型(正确答案)
B.数值型(正确答案)
C.日期型(正确答案)
D.货币型(正确答案)
题目2:请问以下哪些是导致数据重复的原因() *
A. 数据重复写入(正确答案)
B. 数据集成(正确答案)
C. 数据加工过程中的关联(正确答案)
D. 数据压缩
题目3:11. 可视化评测的方法有() *
A.可用性测试(正确答案)
B.专家评估(正确答案)
C.现场测试(正确答案)
D.案例研究(正确答案)
题目5:10.以下数据加工函数中属于对字符串类型数据进行加工的是()。

*
A.trim(正确答案)
B.replace(正确答案)
C.calculate(正确答案)
D.mod(正确答案)
题目6:28.以下哪些学科和数据挖掘有密切联系?() *
A.统计(正确答案)
B.计算机组成原理
C.人工智能(正确答案)
D.矿产挖掘
题目7:22.会计数据是指会计事项处理中,以“单、____、____、____、”等形式表现的未曾加工的数字() *
A.证(正确答案)
B.账(正确答案)
C.字
D.表(正确答案)
题目9:43.关于大数据的内涵,以下理解正确的是()。

*
A.大数据还是一种思维方式和新的管理、治理路径(正确答案)
B.大数据里面蕴藏着大知识、大智慧、大价值和大发展(正确答案)
C.大数据在不同领域,又有不同的状况(正确答案)
D.大数据就是很大的数据(正确答案)
题目10:13.下列关于柱形图优缺点的说法中,正确的有() *
A.可以通过柱子的长短明显看出各组别之间数据的差异;(正确答案)
B.若柱形图的横轴为时间,则可以清晰地看出数据结果随时间的变化趋势;(正确答案)
C.若数据集分类较多,则横轴将出现大量柱形,降低了柱形图的直观度;(正确答案)
D.可以为柱形图添加标签使其清晰地展示出不同柱子对应的纵轴数据;(正确答案)题目11:4.下列是MySQL比较运算符的是()。

*
A.!=(正确答案)
B.<>(正确答案)
C.>=(正确答案)
D.==。

相关文档
最新文档