2021项目数据分析师理论考试真题模拟及答案(4)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2021项目数据分析师理论考试真题模拟及
答案(4)
共501道题
1、在聚类分析当中，（）等技术可以处理任意形状的簇。

（多选题）
A. MIN（单链）
B. MAX（全链）
C. 组平均
D. Chameleon
试题答案：A,D
2、以下是个人直接受其影响的相关群体（）。

（多选题）
A. 朋友
B. 邻居
C. 家庭
D. 工会
试题答案：A,B,C
3、描述一组对称（或正态）分布数据的离散程度时，最适宜选择的指标是（）（单选题）
A. 极差
B. 标准差
C. 均值
D. 变异系数
试题答案：B
4、关于产销量的盈亏平衡点正确的公式是（）（单选题）
A. 年总变动成本/（产品销售单价×（1－销售税率）－单位固定成本）
B. 年总固定成本/（产品销售单价＋单位变动成本＋单位产品销售税额）
C. 年总固定成本/（产品销售单价×（1－销售税率）＋单位变动成本）
D. 年总固定成本/（产品销售单价－单位变动成本－单位产品销售税额）
试题答案：D
5、当价格弹性等于1时，价格下降一定百分比会引起同样比例需求量的（）（单选题）
A. 下降
B. 不变
C. 上升
D. 不一定
试题答案：C
6、概率分析中，应计算出（）表明该风险因素的风险程度。

（多选题）
A. 变异系数
B. 期望值
C. 方差
D. 标准差
试题答案：A,B,C,D
7、相关系数越接近±1，表明变量之间的线性相关程度（）。

（单选题）
A. 越低
B. 一般
C. 越高
D. 不一定
试题答案：C
8、当价格弹性等于1时，价格下降一定百分比会引起同样比例需求量的（）（单选题）
A. 下降
B. 不变
C. 上升
D. 不一定
试题答案：C
9、（）都属于分裂的层次聚类算法。

（多选题）
A. 二分K均值
B. MST
C. Chameleon
D. 组平均
试题答案：A,B
10、将复杂的地址简化成北、中、南、东四区，是在进行？（）（单选题）
A. 数据正规化
B. 数据一般化
C. 数据离散化
D. 数据整合
试题答案：B
11、在建设期内发生的现金注入和流出量是（）（单选题）
A. 终结现金流量
B. 期初现金流量
C. 经营现金流量
D. 净现金流量
试题答案：B
12、一个对象的离群点得分是该对象周围密度的逆。

这是基于（）的离群点定义。

（单选题）
A. 概率
B. 邻近度
C. 密度
D. 聚类
试题答案：C
13、某次英语考试的标准差为 5.1分，考虑到这次考试的题目太难，评分时给每位应试者都加了10分，加分后成绩的标准差是（）（单选题）
A. 10
B. 15.1
C. 5.1
D. 信息不足，无法计算
试题答案：C
14、以下属于机器学习的是（）（多选题）
A. 监督式学习
B. 非监督式学习
C. 半监督式学习
D. 强化学习
试题答案：A,B,C,D
15、以下哪种方法不属于于监督学习模型（）（单选题）
A. 决策树
B. 线性回归
C. 关联分析
D. 判别分析
试题答案：C
16、在多元回归模型的检验中，目的是检验每一个自变量与因变量在指定显著性水平上是否存在线性相关关系的检验是（）（单选题）
A. r检验
B. t检验
C. f检验
D. DW检验
试题答案：B
17、于大数据的来源，以下理解正确的是（）（多选题）
A. 大数据是数据量变积累达到质变的结果
B. 数据的产生需要经历很长时间
C. 我们每个人都是数据的制造者
D. 当今的世界，基本上一切都可以用数字表达，所以叫数字化的世界
试题答案：A,C,D
18、按购买行为细分的消费者市场要考虑消费者（）等因素。

（多选题）
A. 消费者生活方式
B. 对商品的忠诚程度
C. 进入市场的程度
D. 对商品的购买数量
试题答案：B,C,D
19、统计预测方法中，以数学模型为主的方法属于（）（单选题）
A. 回归预测法
B. 定量预测法
C. 定性预测法
D. 时间序列预测法
试题答案：B
20、在假设检验中，当我们做出拒绝原假设而接受备择假设的结论时，表示（）（多选题）
A. 有充足的理由否定原假设
B. 原假设必定是错误的
C. 犯错误的概率不大于a
D. 犯错误的概率不大于b
E. 在H。

成立的情况下发生了小概率事件
试题答案：A,C,E
21、在时间序列分析中，一般用循环变动指数（C%）来测定循环波动，（）是计算C%的常用方法。

（单选题）
A. 移动平均法
B. 移动平均剔除法
C. 指数平滑法
D. 剩余法
试题答案：D
22、若检验统计量F近似等于1，说明（）（多选题）
A. 组间方差中不包含系统因素的影响
B. 组内方差中不包含系统因素的影响
C. 组间方差中包含系统因素的影响
D. 方差分析中不应拒绝原假设
试题答案：A,D
23、在现实世界的数据中，元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法有（）（多选题）
A. 忽略元组
B. 使用属性的平均值填充空缺值
C. 使用一个全局常量填充空缺值
D. 使用与给定元组属同一类的所有样本的平均值
E. 使用最可能的值填充空缺值
试题答案：A,B,C,D,E
24、下列关系中，属于正相关关系的有（）（单选题）
A. 合理限度内，施肥量和平均单位产量之间的关系
B. 产品产量与单位产品成本之间的关系
C. 商品的流通费用与销售利润之间的关系
D. 流通费用率与商品销售量之间的关系
试题答案：A
25、如果对属性值的任一组合，R中都存在一条规则加以覆盖，则称规则集R中的规则为（）（单选题）
A. 无序规则
B. 穷举规则
C. 互斥规则
D. 有序规则
试题答案：B
26、开始将N个样品各自作为一类，将规定样品之间的距离和类与类之间的距离，然后将距离最近的两类合并成一个新类，计算新类与其他类的距离，重复进行两个最近类的合并，每次减少一类，直至所有的样品合并为一类，此种聚类方法是（）（单选题）
A. K－means
B. SOM聚类
C. 系统聚类
D. 有序聚类
试题答案：C
27、简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（）（单选题）
A. 层次聚类
B. 划分聚类
C. 非互斥聚类
D. 模糊聚类
试题答案：B
28、利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。

在以下的购物篮中产生支持度不小于3的候选3-项集，在候选2-项集中需要剪枝的是（）ID 项集1 面包、牛奶2 面包、尿布、啤酒、鸡蛋3 牛奶、尿布、啤酒、可乐4 面包、牛奶、尿布、啤酒5 面包、牛奶、尿布、可乐（多选题）
A. 啤酒、尿布
B. 啤酒、面包
C. 面包、尿布
D. 啤酒、牛奶
试题答案：B,D
29、假设{BCE}为一频繁项目集（Frequent Itemset），则根据Apriori Principle以下何者不是子频繁项目？（）（单选题）
A. BC
B. CE
C. C
D. CD
试题答案：D
30、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（）（单选题）
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据流挖掘
试题答案：C
31、以下情况中适合采用单纯随机抽样法的是（）。

（多选题）
A. 市场调查对象明确，容易划分组类
B. 市场调查对象难以划分组类
C. 市场调查对象不明
D. 总体内单位间差异小
试题答案：B,C,D
32、变量的量纲比如以厘米或者米为单位对下面哪种方法会有影响（）（单选题）
A. 方差分析
B. 回归分析
C. 聚类分析
D. 主成分分析
试题答案：C
33、在有指导的数据挖掘中，有关测试集的说法错误的是（）（单选题）
A. 测试集和训练集是相互联系的
B. 测试集是用以测试模型的数据集
C. 通常测试集大约占总样本的三分之一
D. K-次交叉验证中，测试集只有
试题答案：A
34、决策必须至少要有（）以上备选方案（单选题）
A. 一个
B. 两个
C. 三个
D. 四个
试题答案：B
35、以下算法中对缺失值敏感的有（）（多选题）
A. ogistic回归
B. SVM算法
C. CART决策树
D. 朴素贝叶斯
试题答案：A,B
36、消费者购买行为的特点主要有（）。

（单选题）
A. 需求多样性
B. 需求弹性小
C. 感情动机
D. 理性决策
试题答案：A
37、回归变差（或回归平方和）是指（）（多选题）
A. 被解释变量的实际值与平均值的离差平方和
B. 被解释变量的回归值与平均值的离差平方和
C. 被解释变量的总变差与剩余变差之差
D. 解释变量变动所引起的被解释变量的变差
试题答案：B,C,D
38、如下哪些不是基于规则的分类器的特点（）（多选题）
A. 规则集的表达能力远不如决策树好
B. 基于规则的分类器都对属性空间进行直线划分，并将类指派到每个划分
C. 无法被用来产生更易于解释的描述性模型
D. 非常适合处理类分布不平衡的数据集
试题答案：A,C
39、当折现率与内部报酬率相等时（）（多选题）
A. 净现值等于0
B. 现值指数等于0
C. 净现值等于1
D. 现值指数等于1
试题答案：A,D
40、东北人养了一只鸡和一头猪。

一天鸡问猪：＂主人呢？＂猪说：＂出去买蘑菇了。

＂鸡听了撒丫子就跑。

猪说：＂你跑什么？＂鸡叫道：“有本事主人买粉条的时候你小子别跑！＂以上对话体现了数据分析方法中的（）（单选题）
A. 关联
B. 聚类
C. 分类
D. 自然语言处理
试题答案：A
41、关于回归分析，下列说法中错误的是（）（单选题）
A. 作回归分析的变量之间要有实际意义，不能把毫无关联的两种现象随意进行回归分析，要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。

B. 在进行线性回归分析进行的数据准备的时候，要求因变量y和自变量x都是符合总体正态的随机变量。

C. 回归直线不要随意外延
D. 所有非线性回归都可以转化为线性回归
试题答案：D
42、如果自变量有连续型变量，则适用的分类预测方法有（）（多选题）
A. 逻辑回归
B. 神经网络
C. SVM算法
D. C4.5算法
试题答案：A,B,C
43、无限期支付的年金是（）（单选题）
A. 永续年金
B. 普通年金
C. 预付年金
D. 递延年金
试题答案：A
44、下列关于统计量的表述中，正确的有（）（多选题）
A. 估计同一个总体参数可以用多个不同的统计量
B. 统计量是样本的函数
C. 统计量不含有总体的参数
D. 统计量是随机变量
试题答案：A,B,D
45、邮寄调查具有下列哪些优点（）。

（多选题）
A. 成本低
B. 不受空间限制
C. 应用广泛
D. 回收率高
试题答案：A,B,C
46、以下哪种方法不属于特征选择的标准方法：（）（单选题）
A. 嵌入
B. 过滤
C. 包装
D. 抽样
试题答案：D
47、如果自变量有连续型变量，则适用的分类预测方法有（）（多选题）
A. 逻辑回归
B. 神经网络
C. SVM算法
D. C4.5算法
试题答案：A,B,C
48、以下哪些算法是基于规则的分类器（）（单选题）
A. C4.5
B. KNN
C. Na？ve Bayes
D. ANN
试题答案：A
49、随机对比实验的调查方法的优点是（）（多选题）
A. 能够测算实验误差
B. 可以提高实验结果的可靠性
C. 可以节省分析过程和时间
D. 费用开支小
试题答案：A,B
50、为了确保受访者能够听清或理解提出的问题，调查人员应该（）（单选题）
A. 严格按照问卷内容重复提问
B. 用通俗语言进行解释
C. 用举例的方法进行说明
D. 用专业术语进行说明
试题答案：A
51、频繁项集、频繁闭项集、最大频繁项集之间的关系是（）（单选题）
A. 频繁项集频繁闭项集=最大频繁项集
B. 频繁项集=频繁闭项集最大频繁项集
C. 频繁项集频繁闭项集最大频繁项集
D. 频繁项集=频繁闭项集=最大频繁项集
试题答案：C
52、企业订价一般有以下几种导向（）。

（多选题）
A. 成本导向
B. 供给导向
C. 需求导向
D. 竞争导向
试题答案：A,C,D
53、以下属于分类器评价或比较尺度的有（）（多选题）
A. 预测准确度
B. 召回率
C. 模型描述的简洁度
D. F1-Score
试题答案：A,B,D
54、下面有关HAVING子句的说法中正确的是（）（多选题）
A. HAVING子句必须与GROUP BY子句同时使用，不能单独使用
B. 使用HAVING子句的同时不能使用WHERE子句
C. 使用HAVING子句的同时可以使用WHERE子句
D. 使用HAVING子句的作用是限定分组的条件
试题答案：A,C,D
55、项目的经济效益评价指标中，贴现指标包括（）（多选题）
A. 内部收益率
B. 获利指数
C. 净现值
D. 会计收益率
试题答案：A,B,C
56、使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（）（单选题）
A. 探索性数据分析
B. 建模描述
C. 预测建模
D. 寻找模式和规则
试题答案：A
57、某种产品的生产总费用2003年为50万元，比2002年多2万元，而单位产品成本2003年比2002年降低5%，则（）（多选题）
A. 生产费用总指数为104.17%
B. 生产费用指数为108.56%
C. 单位成本指数为95%
D. 产量指数为109.65%
E. 由于成本降低而节约的生产费用为2.63万元
试题答案：A,C,D,E
58、方差分析是一个（）问题。

（单选题）
A. 假设检验
B. 参数估计
C. 随机试验
D. 参数检验
试题答案：A
59、SQL查询语句中HAVING子句的作用是（）（单选题）
A. 指出分组查询的范围
B. 指出分组查询的值
C. 指出分组查询的条件
D. 指出分组查询的内容
试题答案：C
60、决策树法分析问题的主要步骤包括（）。

（多选题）
A. 结构化问题
B. 设计可能结果发生的概率
C. 设计结果的得益
D. 分析问题
试题答案：A,B,C,D
61、敏感性分析的计算指标有（）（多选题）
A. 盈亏平衡点
B. 敏感度系数
C. 临界点
D. 净现值
试题答案：B,C,D
62、给出下列结论：（1）在回归分析中，可用指数系数R方的值判断模型的拟合效果，R方越大，模型的拟合效果越好；（2）在回归分析中，可用残差平方和判断模型的拟合效果，残差平方和越大，模型的拟合效果越好；（3）在回归分析中，可用相关系数r的值判断模型的拟合效果，r越小，模型的拟合效果越好；（4）在回归分析中，可用残差图判断模型的拟合效果，残差点比较均匀地落在水平的带状区域中，说明这样的模型比较合适．带状区域的宽度越宽，说明模型的拟合精度越高。

以上结论中，正确的有（）个（单选题）
A. 1
B. 2
C. 3
D. 4
试题答案：A
63、下列不属于关联分析的关键要素的是（）（单选题）
A. 支持度
B. 置信度
C. 满意度
D. 提升度
试题答案：C
64、KANO模型定义的顾客需求层次有（）（多选题）
A. 兴奋型需求
B. 喜爱型需求
C. 基本型需求
D. 期望型需求
试题答案：A,C,D
65、BIRCH是一种（）。

（单选题）
A. 分类器
B. 聚类算法
C. 关联分析算法
D. 特征选择算法
试题答案：B
66、在项目决策分析与评价中，流动负债主要考虑的是（）（多选题）
A. 现金
B. 应付账款
C. 预收账款
D. 应收账款
试题答案：B,C
67、当时间序列数据点的一阶差分近似为一常数，可配合以下哪种预测模型（）（单选题）
A. 直线
B. 二次抛物线
C. 三次抛物线
D. 指数曲线
68、下列对ID3算法的描述，正确的是（）（多选题）
A. 每个节点的分支度都不相同
B. 使用Information Gain作为节点分割的依据
C. 可以处理数值型态的字段
D. 无法处理空值的字段
试题答案：A,B,D
69、交互式定价是通过（）来实现的。

（单选题）
A. 预消费
B. 谈判
C. 市场调节
D. 其他商家
试题答案：B
70、在评价不平衡类问题分类的度量方法有如下几种（）（多选题）
A. F1度量
B. 召回率（recall）
C. 精度（precision）
D. 真正率（turepositive rate，TPR）
试题答案：A,B,C,D
71、当所有观测值都落在回归直线上，则这两个变量之间的相关系数为（）（单选题）
A. 1
B. -1
C. +1或-1
D. 0
72、两变量X与Y间线性相关关系达到最高时，相关系数可能等于（）。

（多选题）
A. 1
B. 0.9
C. 0
D. -1
试题答案：A,D
73、（）都属于簇有效性的监督度量。

（多选题）
A. 轮廓系数
B. 共性分类相关系数
C. 熵
D. F度量
试题答案：C,D
74、层次聚类的聚类方式有（）（多选题）
A. 凝聚方式聚类
B. 分解方式聚类
C. Q型聚类
D. R型聚类
试题答案：A,B
75、邮寄调查具有下列哪些优点（）。

（多选题）
A. 成本低
B. 不受空间限制
C. 应用广泛
D. 回收率高
试题答案：A,B,C
76、以下哪些学科和数据挖掘有密切联系？（）（多选题）
A. 统计
B. 计算机组成原理
C. 矿产挖掘
D. 人工智能
试题答案：A,D
77、下面不属于创建新属性的相关方法的是（）（单选题）
A. 特征提取
B. 特征修改
C. 映射数据到新的空间
D. 特征构造
试题答案：B
78、以下哪项关于决策树的说法是错误的（）（单选题）
A. 冗余属性不会对决策树的准确率造成不利的影响
B. 子树可能在决策树中重复多次
C. 决策树算法对于噪声的干扰非常敏感
D. 寻找最佳决策树是NP完全问题
试题答案：C
79、考虑下面的频繁3-项集的集合：{1，2，3}，{1，2，4}，{1，3，4}，{1，3，5}，{2，3，4}，{2，3，5}，{3，4，5}假定数据集中只有5个项，若采用合并策略，则由候选产生过程得到4-项集不包含（）（单选题）
A. 1，2，3，4
B. 1，2，3，5
C. 1，2，4，5
D. 1，3，4，5
试题答案：C
80、ROC曲线凸向哪个角，代表模型越理想？（）（单选题）
A. 左上角
B. 右上角
C. 左下角
D. 右下角
试题答案：A
81、完全竞争性的市场具有（）等特点。

（多选题）
A. 任一企业无法操纵市场
B. 少数企业可以影响交易数量
C. 多个竞争企业同时存在
D. 企业必须采取随行就市定价法
试题答案：A,C,D
82、计算Ic＝7％，n=5时的一元年金终值系数。

（）（单选题）
A. 5.75
B. 4.10
C. 4.44
D. 5.98
试题答案：A
83、随机抽样方法有（）（多选题）
A. 等距随机抽样
B. 综合随机抽样
C. 简单随机抽样
D. 分群随机抽样
试题答案：A,C,D
84、概率密度曲线（）（多选题）
A. 位于X轴的上方
B. 在X轴上下摆动
C. 与X轴之间的面积为1
D. 与X轴之间的面积为0
试题答案：A,C
85、关于项目盈亏平衡分析不正确的是（）（多选题）
A. 盈亏平衡分析要按计算期内各年的平均数据计算
B. 盈亏平衡点只能用生产能力利用率和产量表示
C. 项目数据分析中只能用线性盈亏平衡分析
D. 用生产能力利用率和常量表示的盈亏平衡点低，表明项目对市场变化的适应能力大
试题答案：A,B,C
86、当年利率为10％时，如想要在5年后获得本息共5000元，现在应存入（）元。

（单选题）
A. 3583.6
B. 4652.5
C. 3104.6
D. 7315
试题答案：C
87、市场研究首先要解决的问题是（）（单选题）
A. 确定研究方法
B. 选定研究对象
C. 明确研究目的
D. 解决研究费用
试题答案：C
88、决策必须至少要有（）以上备选方案（单选题）
A. 一个
B. 两个
C. 三个
D. 四个
试题答案：B
89、预付年金的特点有（）（多选题）
A. 其终值计算与普通年金相同
B. 预付年金比普通年金多付一期利息
C. 收付款项发生在每期的期初
D. 其现值计算与普通年金相同
试题答案：B,C
90、下列（）属于固定资产的加速折旧法。

（多选题）
A. 平均年限法
B. 年数总和法
C. 双倍余额递减法
D. 工作量法
试题答案：B,C
91、已知事件A的概率P（A）＝0.6，U为必然事件，则P（A+U）＝1，P（AU）＝（）（单选题）
A. 0.4
B. 0.6
C. 0
D. 1
试题答案：B
92、无限期支付的年金是（）（单选题）
A. 永续年金
B. 普通年金
C. 预付年金
D. 递延年金
试题答案：A
93、已知某企业某种产品市场占有率为5%，该产品市场占有份额最大者的市场占有率为25%，则本企业该产品相对市场占有率为（）。

（单选题）
A. 0.25
B. 0.05
C. 0.2
D. 0.15
试题答案：C
94、根据关联分析中所涉及的数据维，可以将关联规则分类为（）（多选题）
A. 布尔关联规则
B. 单维关联规则
C. 多维关联规则
D. 多层关联规则
试题答案：B,C
95、以下各项均是针对数据仓库的不同说法，你认为正确的有（）。

（多选题）
A. 数据仓库就是数据库
B. 数据仓库是一切商业智能系统的基础
C. 数据仓库是面向业务的，支持联机事务处理（OLTP）
D. 数据仓库支持决策而非事务处理
E. 数据仓库的主要目标就是帮助分析，做长期性的战略制定
试题答案：B,C,D,E
96、在有关数据仓库测试，下列说法不正确的是（）（单选题）
A. 在完成数据仓库的实施过程中，需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试
B. 当数据仓库的每个单独组件完成后，就需要对他们进行单元测试
C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试
D. 在测试之前没必要制定详细的测试计划
试题答案：D
97、以下属于聚类算法的是（）（多选题）
A. K均值
B. DBSCAN
C. Apriori
D. Jarvis-Patrick（JP）
试题答案：A,B,D
98、Apriori算法的计算复杂度受（）影响。

（多选题）
A. 支持度阀值
B. 项数（维度）
C. 事务数
D. 事务平均宽度
试题答案：A,B,C,D
99、已知事件A的概率P（A）＝0.6，U为必然事件，则P（A+U）＝1，P（AU）＝（）（单选题）
A. 0.4
B. 0.6
C. 0
D. 1
试题答案：B
100、永续年金的特点有（）。

（多选题）
A. 永续年金没有终值
B. 永续年金最初若干期没有收付款项
C. 永续年金是无限期支付的年金
D. 永续年金终值计算与普通年金相同
试题答案：A,C
101、利润与现金流量的差异主要表现在（）（多选题）
A. 购置固定资产付出大量现金时不计入成本
B. 将固定资产的原值以折旧的形式记入成本时，不需要付出现金
C. 现金流量一般来说大于利润
D. 计算利润时不考虑垫支的流动资产的数量和回收的时间
试题答案：A,B,D
102、在全面调查和抽样调查中都存在的误差是（）（多选题）
A. 系统误差
B. 登记性误差
C. 责任心误差
D. 技术性误差
试题答案：B,C,D
103、用简单随机重复抽样方法抽取样本的单位，如果要使抽样平均误差降低50%，则样本容量需要扩大到原来的（）（单选题）
A. 2倍
B. 3倍
C. 4倍
D. 5倍
试题答案：C
104、概念分层图是（）图。

（单选题）
A. 无向无环
B. 有向无环
C. 有向有环
D. 无向有环
试题答案：B
105、下列项目中，其变动可以改变盈亏平衡点位置的因素有（）（多选题）
A. 单价
B. 单位变动成本
C. 销量
D. 固定成本
试题答案：A,B,C,D
106、以下哪个分布是右偏分布（）（多选题）
A. 均匀分布
B. 卡方分布
C. F分布
D. 对数正态分布
试题答案：B,C,D
107、理夫斯UP评估模型是一种大抽样评估模式，把样本分为两类，分别为（）（多选题）
A. 受广告影响者
B. 未受广告影响者
C. 受成本影响者
D. 未受成本影响者
试题答案：A,B
108、假设属性income的最大最小值分别是12000元和98000元。

利用最大-最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为（）（单选题）
A. 0.751
B. 0.163
C. 0.457
D. 0.716
试题答案：D
109、在类神经网络中计算误差值的目的是（）（单选题）
A. 调整隐藏层个数
B. 调整输入值
C. 调整权重（Weight）
D. 调整真实值
试题答案：C
110、以下说法正确的有哪些？（）（多选题）
A. 大数据仅仅是讲数据的体量大
B. 大数据对传统行业有帮助
C. 大数据会带来机器智能
D. 大数据是一种思维方式
试题答案：B,C,D
111、面关于季度模型的叙述，不正确的是（）（多选题）
A. 季度模型以季度数据为样本
B. 季度模型主要用于季度预测
C. 季度模型注重长期行为的描述
D. 季度模型一般规模较大
试题答案：A,B
112、频繁项集、频繁闭项集、最大频繁项集之间的关系是（）（单选题）
A. 频繁项集频繁闭项集=最大频繁项集
B. 频繁项集=频繁闭项集最大频繁项集
C. 频繁项集频繁闭项集最大频繁项集
D. 频繁项集=频繁闭项集=最大频繁项集
试题答案：C
113、某市有各类书店500家，其中大型50家，中型150家，小型300家。

为了调查该市图书销售情况，拟抽取30家书店进行调查。

如果采用分层等比例抽样法，下列在大型、中型、小型书店中样本的正确分配量为（）（单选题）
A. 5、15、10
B. 7、10、13
C. 10、10、10
D. 3、9、18
试题答案：D
114、用Excel可创建的图表有（）（多选题）
A. 二维图表
B. 三维图表
C. 饼图
D. 雷达图
试题答案：A,B,C,D
115、在项目决策分析与评价中，流动负债主要考虑的是（）（多选题）
A. 现金
B. 应付账款
C. 预收账款
D. 应收账款
试题答案：B,C
116、下列费用不是现金流出（）（单选题）
A. 原材料
B. 折旧
C. 工资
D. 管理费用
试题答案：B
117、下列属于不同的有序数据的有（）（多选题）
A. 时序数据
B. 序列数据
C. 时间序列数据
D. 事务数据
E. 空间数据
试题答案：A,B,C,E
118、分箱方法有哪些？（）（多选题）
A. 等深分箱
B. 等宽分箱
C. 数据标准化
D. 自定义区间法
试题答案：A,B,D
119、考虑两队之间的足球比赛：队0和队1。

假设65%的比赛队0胜出，剩余的比赛队1获胜。

队0获胜的比赛中只有30%是在队1的主场，而队1取胜的比赛中75%是主场获胜。

如果下一场比赛在队1的主场进行队1获胜的概率为（）（单选题）
A. 0.75
B. 0.35
C. 0.4678
D. 0.5738
试题答案：C
120、目前的项目数据分析报告不存在的问题是（）。

（单选题）
A. 缺少报告说明或说明内容不全
B. 基础数据采集缺乏科学依据
C. 论证过程缺乏逻辑性
D. 定量研究多定性研究少
试题答案：D
121、如何利用「体重」以简单贝式分类（Naive Bayes）预测「性别」？（）（单选题）
A. 选取另一条件属性
B. 将体重正规化为到0~1之间
C. 将体重离散化
D. 无法预测
试题答案：C
122、数据挖掘算法的组件包括（）（多选题）
A. 模型或模型结构
B. 评分函数
C. 优化和搜索方法
D. 数据管理策略
试题答案：A,B,C,D
123、关于OLAP的特性，下面正确的是（）（1）快速性（2）可分析性（3）多维性（4）信息性（5）共享性（单选题）
A. （1）（2）（3）
B. （2）（3）（4）
C. （1）（2）（3）（4）
D. （1）（2）（3）（4）（5）
试题答案：D
124、假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录，为了说明全班同学考试成绩的水平高低，其集中趋势的测度（）（单选题）
A. 可采用算术平均数
B. 可以采用众数或中位数
C. 只能采用众数
D. 只能采用四分位数
试题答案：C
125、下列对C4.5算法的说法中不正确的是（）（单选题）
A. 每个节点的分支度只能为2。