cpda数据分析师考试真题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
cpda数据分析师考试真题
单选题
1.“大数据”是指规模超过1000TB的数据集。
正确答案:X
2.概率为0的事件是不可能事件,概率为1的事件是必然事件。
正确答案:X
3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:V
4.统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:V
5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:X
6.Datahoop1.2版中K-means聚类分析要求输入的数据必须是数值型数据。
正确答案:V
7.如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。
正确答案:X
8.SQL中删除表的命令是“DELETETABL”
正确答案:X
9.聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:V
10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:V
二、单选题
1.检查异常值常用的统计图形是()
A、柱状图
B箱线图
C帕累托图
D气泡图
正确答案:B
2.什么是KDD?()
A、数据挖掘与知识发现
B领域知识发现
C文档知识发现
D动态知识发现
正确答案:A
3.东北人养了一只鸡和一头猪。
一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。
"鸡听了撒丫子就跑。
猪说:"你跑什么?"鸡叫道:有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的()
A、关联
B聚类
C分类
D自然语言处理
正确答案:A
4.假设检验中显著性水平•是()
A、推断时犯取伪错误的概率
B推断时取伪弃真的概率
C正确推断的概率
D是推断的可信度
正确答案:B
5.矩估计的基本原理是()
A、用样本矩估计总体矩
B使得似然函数达到最大
C使得似然函数达到最小
D小概率事件在一次试验中是不可能发生的
正确答案:A
6.SQL查询语句中HAVING子句的作用是()
A、指出分组查询的范围
B指出分组查询的值
C指出分组查询的条件
D指出分组查询的内容
正确答案:C
7.以下哪项关于决策树的说法是错误的()
A、冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次
C决策树算法对于噪声的干扰非常敏感
D寻找最佳决策树是NP完全问题
正确答案:C
8.以下哪种方法不属于于监督学习模型()
A、决策树
B线性回归
C关联分析
D判别分析
正确答案:C
9考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,
4},{2,3,5},{3,4,5}假定数据集中只有5个项,若采用合并策略,则由候选产生过程
得到4-项集不包含()
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
正确答案:C
10.下列不属于原始数据来源的是()
A、行政记录
B统计调查
C统计年鉴
D实验
正确答案:C
三、多选题
1.以下关于皮尔森相关分析叙述正确的是()
A、两变量独立,两者的皮尔森相关系数必然等于0
B两变量皮尔森相关系数不等于0,两者必然不独立
C皮尔森相关系数是否等于零,不能指明两变量是否独立
D两变量不独立,两者的皮尔森相关系数必然不等于0
正确答案:AB
2.在实际数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法有:()
A、直接删除
B使用属性的平均值填充空缺值
C使用一个全局常量填充空缺值
D使用与给定元组属同一类的所有样本的平均值
正确答案:ABCD
3.描述变量离期望值大小的指标是()
A、方差
B变异系数
C标准差
D期望
正确答案:ABC
4.以下属于分类器评价或比较尺度的有()
A、预测准确度
B召回率
C模型描述的简洁度
D、F1-Score
正确答案:ABD
5.以下关于逻辑回归的说法正确的是()
A、应用逻辑回归时,异常值会对模型造成很大的干扰。
B逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。
C逻辑回归对模型中自变量的多重共线性较为敏感。
D逻辑回归属于分类算法。
6.下列项目中,其变动可以改变盈亏平衡点位置的因素有()
A、单价
B单位变动成本
C销量
D固定成本
正确答案:ABCD
7.关于基准收益率的表述,正确的是()
A、基准收益率越高越好
B基准收益率越低越好,但不能低于银行贷款利率
C可以采用项目加权平均资金成本为基础确定基准收益率
D可以采用国家有关部门或行业统一发布的行业基准收益率
正确答案:CD
8.数据离散化是指为了数据分析的需要,将连续数据转换为离散型数据的过程。
数据离散化的方法有()
A、随机取值
B等距离散法
C数值规约
D等频离散法
正确答案:BD
9.根据分析内容和侧重面不同,风险分析的方法有()
A、敏感性分析
B概率分析
C经济效益分析
D盈亏平衡分析
正确答案:ABD
10.以下说法正确的有()
A、评价预测精度是通过测量与分析预测误差进行的
B绝对误差是实际观测值与预测值的离差
C相对误差反映实际观测值与预测值之间差异的相对程度D平均误差反映实际观测值与预测值之间的平均差异
正确答案:ABCD。