CPDA数据分析师原题考试题理论题带答案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8、下面那个( )不是实施个性化服务所必须的条件:
A、拥有完善的基本服务 B、良好的品牌形象 C、良好的企业盈利率 D、完善的数据库系统
9、空调的销售量一般在夏季前后最多,其主要原因是空调的供求( ),可以通过计算( )来测定夏季期间空调的销售量高出平时的幅度。
A、受气候变化的影响;循环指数 B、受经济政策调整的影响;循环指数 C、受自然界季节变化的影响;季节指数 D、受消费心理的影响;季节指数
A、MODIFY TABLE B、MODIFY STRUCTURE C、ALTER TABLE D、ALTER STRUCTURE
21、可以通过什么方法解决样本不均衡问题( )
A、欠采样 B、过采样 C、阈值移动 D、以上三种方法都可以
22、市场细分的依据是( )
A、产品类别的差异 B、消费者需求与购买行为的差异性 C、市场规模的差异性 D、竞争者营销能力的差异性
A、select top3 cDiscription from Tvtype order by iprice asc B、select cDiscription from Tvtype where max(iprice)>3 C、select top3 cDiscription from Tvtype order by iprice desc D、select cDiscription max(iprice) from Tvtype order by iprice
13、分类任务中,类别不均衡现象是指( )
A、不同类别的测试样本数目差别很大 B、不同类别的训练样本数目差别很大 C、不同类别的预测样本数目差别很大 D、以上三种情况都是
14、分类器欠拟合时( )
A、训练误差较大 B、泛化误差较大 C、训练误差大,但泛化误差较小 D、训练误差小,但泛化误差很大
15、根据经验在时间序列波动不大的情况下,平滑系数α 的取值应为( )。
55、决策树中的Information Gain的计算是用来?
正确答案: B
A、剪枝 B、使树成长 C、处理缺失值和异常值 D、砍树
56、回归分析的第一步是( )
正确答案: A
A、确定解释量和被解释变量 B、确定回归模型 C、建立回归方程 D、进行检验
57、在VMI库存控制策略下,允许( )的库存策略、订货策略进行计划和管理。
32、下列哪种统计图纵坐标必须从0开始( )
A、所有统计图的纵坐标都必须从零点开始 C、条形图、散点图的纵坐标必须从零开始
B、条形图、折线图、直方图的纵坐标必须从零 D、条形图、直方图的纵坐标必须从零开始
33、北京为某商城的开业准备新建一个行人地下通道,需要初始投资50万元,建设期为1年。因方便了行人出入,估计每年可给商城增加8万元的收益,但每年用于通道照明和看护的 费用将为1万元,如果资金的机会成本是10%,通道项目的计算期设为20年,项目的净现值为( )。
27、某次英语考试的标准差为 5.1 分,考虑到这次考试的题目太难,评分时给每位应试者都加了 10 分,加分后成绩的标准差是( )
A、10 B、15.1 C、5.1 D、信息不足,无法计算
28、下面哪个不是SQL Server数据库的系统数据类型( )
A、int、smallint B、char、varchar C、string、char D、datetime、int
43、在客户满意度公式:C=b/a中,b代表的含义是
正确答案: B
A、客户满意度 B、客户对产品或服务所感知的实际体验 C、客户忠诚度 D、客户对产品或服务的期望值
44、( )越高,表明本品牌对渠道的控制能力越强。
正确答案: D
A、覆盖网点分销能力 B、覆盖网点分销能力利用率 C、覆盖网点分销效率 D、覆盖网点直销效率
10、频繁项集、频繁闭项集、最大频繁项集之间的关系是( )
A、频繁项集≠频繁闭项集=最大频繁项集 B、频繁项集=频繁闭项集≠最大频繁项集 C、频繁项集≠频繁闭项集≠最大频繁项集 D、频繁项集=频繁闭项集=最大频繁项集 11、零售商将自己的物流中心或仓库的管理权由制造商代为实施,但所有权仍为零售商,这样零售商可大大缩短商品的订货、进货、检验等业务流程的时间,这种库存管理的方法是 A、自动库存补给法 B、共同库存管理法 C、供应商管理库存法 D、制造商管理库存法 12、指数平滑预测法是一种特殊的加权平均法,加权的特点是对离预测期较近的历史数据给予较( )的权数,对离预测期较远的历史数据给予较( )的权数。 A、大,大 B、小, 小 C、小,大 D、大,小
45、对快速聚类(K-Means)说法错误的是( )
正确答案: B
A、占内存少、计算量小、处理速度快 B、可以对样本聚类,也可以对变量聚类 C、适合大样本 D、需要事先确定多少个类别
46、Winter指数平滑模型至少需要( )年以上的数据
正确答案: C
A、2 B、3 C、4 D、5
47、时间序列中的发展水平()
25、条形图与柱形图的区别在于( )
A、条形图是平面的,柱形图是立体的 C、条形图数据各类别放在横轴,柱形图数据各类别放在纵轴
26、以下叙述正确的是( )
B、条形图是二维的,柱形图是三维的 D、条形图数据各类别放在纵轴,柱形图数据各类别放在横轴
A、极差较少受异常值的影响 B、四分位差较少受异常值的影响 C、方差较少受异常值的影响 D、标准差较少受异常值的影响
A、0.1-0.3 B、0.4-0.6 C、0.5-0.7 D、0.7-0.9
16、数据清洗的方法不包括()
A、缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
17、对于多元线性回归,其他检验都满足的情况下,估计标准误差越小,方程的拟合效果就会( )
A、不变 B、越好 C、越差 D、不能确定
题目 1、智慧城市的构建,不包括() A、数字城市 B、物联网 C、联网监控 D、云计算 2、盈亏平衡分析中,产量盈亏平衡点是指( ) A、销售收入等于总成本费用 B、销售收入大于总成本费用 C、销售收入小于总成本费用 D、销售收入略大于总成本费用 3、铁路公司和航空公司在提供客运服务方面,二者的竞争关系属于( ) A、愿望竞争者 B、平行竞争者 C、产品竞争者 D、品牌竞争者
A、神经网络和逻辑回归算法类似,可解释性较强 C、神经网络是最好的现成的分类器
B、神经网络算法的激活函数对结果没有太大影响,可以任意选择 D、神经网络需要大量的参数
50、9个家庭的平均收入如下:1500, 750, 780, 1080,850,960,2000,1250,1630,那么这9个家庭的平均收入为 ()
正确答案: D 正确答案: D
A、1080 B、1250 C、1000 D、1200
51、在SQL中,建立表用的命令是( )
正确答案: B
A、CREATE SCHEMA B、CREATE TABLE C、CREATE VIEW D、CREATE DATABASE
52、东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别 跑!" 以上对话体现了数据分析方法中的( )
答案 正确答案: C
正确答案: A
正确答案: B
4、某项目第0年至第5年的净现金流量为:-2500万元,1000万元,1200万元,1300万元,1000万元,1120万元。如折现率为20%,该项目获利指数为( )
正确答案: D
A、1.31 B、1.44 C、1.41 D、1.34
5、关于K-Means聚类过程正确的是( )
题目 A、43591 B、43499 C、83/100 D、均不对
答案
30、轮廓系数是对聚类结果有效性的解释和验证,轮廓系数为( )时可认为聚类结果有效。
正确答案: D
A、0.4以上 B、0.5以上 C、0.6以上 D、没有标准,具体情况具体分析。
31、一个电视经销商在表Tvtype 中维护库存的Tvs信息,下述哪条语句能显示价格最昂贵的三种电视机的信息?( )
A、分类 B、关联 C、回归 D、聚类
正确答案: B
53、不属于发展战略的是()
正确答案: D
A、集中战略 B、一体化战略 C、多样化战略 D、收获战略
54、因子分析中,各变量间的相关矩阵中的大部分相关系数( ),则不适合作ቤተ መጻሕፍቲ ባይዱ子分析
正确答案: B
A、大于0.3 B、小于0.3 C、大于0.7 D、小于0.7
18、Winter指数平滑模型包含( )个平滑参数,( )个方程
A、2,2 B、2,3 C、3,3 D、3,4
19、一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为( )
A、8,9 B、8,8 C、8.5,8 D、8.5,9
20、SQL语句中修改表结构的命令是( )
A、对变量进行聚类 B、对异常值不敏感 C、使用的是迭代的方法 D、以上均不正确
6、下列关于舍恩伯格对大数据特点的说法中,错误的是()
A、数据规模大 B、数据类型多 C、数据处理速度快 D、数据价值密度高
7、在客户关系管理里,以下哪种情况不是客户的忠诚的表现 ( )
A、对企业的品牌产生情感和依赖 B、重复购买 C、即便遇到对企业产品的不满意,也不会向企业投诉 D、有向身边的朋友推荐企业的产品的意愿
29、在所有两位数(10-99)中任取一两位数,则此数能被2或3整除的概率为
正确答案: C 正确答案: D 正确答案: C
正确答案: C 正确答案: C 正确答案: C 正确答案: D 正确答案: D 正确答案: B 正确答案: A 正确答案: A 正确答案: D 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: D 正确答案: B 正确答案: A 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: C 正确答案: B
正确答案: D
A、只能是绝对数 B、只能是相对数 C、只能是平均数 D、以上三种指标都可以
48、在时间序列分析中,一般用循环变动指数(C%)来测定循环波动,( )是计算C%的常用方法。
正确答案: D
A、移动平均法 B、移动平均剔除法 C、指数平滑法 D、剩余法
49、以下关于神经网络的说法中正确的是( )
38、Apriori算法的加速过程依赖于以下哪个策略( )
正确答案: B
A、抽样 B、剪枝 C、缓冲 D、并行
39、下面的哪个图形适合于描述一组数据分布的图形是( )。
正确答案: C
A、环形图 B、饼图 C、直方图 D、折线图
40、度量回归直线的拟合优度最常用的指标是( )
正确答案: D
A、回归系数 B、均方误差 C、相对误差 D、判定系数
35、大数据时代,数据使用的关键是()
正确答案: D
A、数据收集 B、数据储存 C、数据分析 D、数据再利用
36、大数据时代,数据使用的关键是()
正确答案: D
A、数据收集 B、数据储存 C、数据分析 D、数据再利用
37、被称为特殊有形资源的是()
正确答案: D
A、财务资源 B、组织资源 C、实物资源 D、人力资源
23、下面关于聚类分析说法错误的是( )
A、一定存在一个最优的分类 B、聚类分析是无监督学习 C、聚类分析可以用于判断异常值 D、聚类分析类似于物以类聚,人以群分
24、关于逻辑回归分析(logistic regrssion modle)说法正确的是( )
A、逻辑斯回归的因变量为数值变量 B、逻辑斯回归的因变量为定性变量 C、逻辑斯回归的因变量只能有两种取值 D、逻辑斯回归自变量只能是一个
41、下列论据中,能够支撑“大数据无所不能”的观点的是()
正确答案: A
A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧
42、指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度( )
正确答案: A
A、平滑常数 B、指数平滑数初始值 C、跨越期 D、季节指数
正确答案: C 正确答案: C 正确答案: D
A、83400 B、95949 C、98020 D、32313
34、类似于线性回归的R-squared,判断逻辑回归表现的一个方法是AIC,则对于AIC说法正确的是( )
正确答案: B
A、越大越好 B、越小越好 C、越接近1越好 D、绝对值越接近于1越好
A、拥有完善的基本服务 B、良好的品牌形象 C、良好的企业盈利率 D、完善的数据库系统
9、空调的销售量一般在夏季前后最多,其主要原因是空调的供求( ),可以通过计算( )来测定夏季期间空调的销售量高出平时的幅度。
A、受气候变化的影响;循环指数 B、受经济政策调整的影响;循环指数 C、受自然界季节变化的影响;季节指数 D、受消费心理的影响;季节指数
A、MODIFY TABLE B、MODIFY STRUCTURE C、ALTER TABLE D、ALTER STRUCTURE
21、可以通过什么方法解决样本不均衡问题( )
A、欠采样 B、过采样 C、阈值移动 D、以上三种方法都可以
22、市场细分的依据是( )
A、产品类别的差异 B、消费者需求与购买行为的差异性 C、市场规模的差异性 D、竞争者营销能力的差异性
A、select top3 cDiscription from Tvtype order by iprice asc B、select cDiscription from Tvtype where max(iprice)>3 C、select top3 cDiscription from Tvtype order by iprice desc D、select cDiscription max(iprice) from Tvtype order by iprice
13、分类任务中,类别不均衡现象是指( )
A、不同类别的测试样本数目差别很大 B、不同类别的训练样本数目差别很大 C、不同类别的预测样本数目差别很大 D、以上三种情况都是
14、分类器欠拟合时( )
A、训练误差较大 B、泛化误差较大 C、训练误差大,但泛化误差较小 D、训练误差小,但泛化误差很大
15、根据经验在时间序列波动不大的情况下,平滑系数α 的取值应为( )。
55、决策树中的Information Gain的计算是用来?
正确答案: B
A、剪枝 B、使树成长 C、处理缺失值和异常值 D、砍树
56、回归分析的第一步是( )
正确答案: A
A、确定解释量和被解释变量 B、确定回归模型 C、建立回归方程 D、进行检验
57、在VMI库存控制策略下,允许( )的库存策略、订货策略进行计划和管理。
32、下列哪种统计图纵坐标必须从0开始( )
A、所有统计图的纵坐标都必须从零点开始 C、条形图、散点图的纵坐标必须从零开始
B、条形图、折线图、直方图的纵坐标必须从零 D、条形图、直方图的纵坐标必须从零开始
33、北京为某商城的开业准备新建一个行人地下通道,需要初始投资50万元,建设期为1年。因方便了行人出入,估计每年可给商城增加8万元的收益,但每年用于通道照明和看护的 费用将为1万元,如果资金的机会成本是10%,通道项目的计算期设为20年,项目的净现值为( )。
27、某次英语考试的标准差为 5.1 分,考虑到这次考试的题目太难,评分时给每位应试者都加了 10 分,加分后成绩的标准差是( )
A、10 B、15.1 C、5.1 D、信息不足,无法计算
28、下面哪个不是SQL Server数据库的系统数据类型( )
A、int、smallint B、char、varchar C、string、char D、datetime、int
43、在客户满意度公式:C=b/a中,b代表的含义是
正确答案: B
A、客户满意度 B、客户对产品或服务所感知的实际体验 C、客户忠诚度 D、客户对产品或服务的期望值
44、( )越高,表明本品牌对渠道的控制能力越强。
正确答案: D
A、覆盖网点分销能力 B、覆盖网点分销能力利用率 C、覆盖网点分销效率 D、覆盖网点直销效率
10、频繁项集、频繁闭项集、最大频繁项集之间的关系是( )
A、频繁项集≠频繁闭项集=最大频繁项集 B、频繁项集=频繁闭项集≠最大频繁项集 C、频繁项集≠频繁闭项集≠最大频繁项集 D、频繁项集=频繁闭项集=最大频繁项集 11、零售商将自己的物流中心或仓库的管理权由制造商代为实施,但所有权仍为零售商,这样零售商可大大缩短商品的订货、进货、检验等业务流程的时间,这种库存管理的方法是 A、自动库存补给法 B、共同库存管理法 C、供应商管理库存法 D、制造商管理库存法 12、指数平滑预测法是一种特殊的加权平均法,加权的特点是对离预测期较近的历史数据给予较( )的权数,对离预测期较远的历史数据给予较( )的权数。 A、大,大 B、小, 小 C、小,大 D、大,小
45、对快速聚类(K-Means)说法错误的是( )
正确答案: B
A、占内存少、计算量小、处理速度快 B、可以对样本聚类,也可以对变量聚类 C、适合大样本 D、需要事先确定多少个类别
46、Winter指数平滑模型至少需要( )年以上的数据
正确答案: C
A、2 B、3 C、4 D、5
47、时间序列中的发展水平()
25、条形图与柱形图的区别在于( )
A、条形图是平面的,柱形图是立体的 C、条形图数据各类别放在横轴,柱形图数据各类别放在纵轴
26、以下叙述正确的是( )
B、条形图是二维的,柱形图是三维的 D、条形图数据各类别放在纵轴,柱形图数据各类别放在横轴
A、极差较少受异常值的影响 B、四分位差较少受异常值的影响 C、方差较少受异常值的影响 D、标准差较少受异常值的影响
A、0.1-0.3 B、0.4-0.6 C、0.5-0.7 D、0.7-0.9
16、数据清洗的方法不包括()
A、缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
17、对于多元线性回归,其他检验都满足的情况下,估计标准误差越小,方程的拟合效果就会( )
A、不变 B、越好 C、越差 D、不能确定
题目 1、智慧城市的构建,不包括() A、数字城市 B、物联网 C、联网监控 D、云计算 2、盈亏平衡分析中,产量盈亏平衡点是指( ) A、销售收入等于总成本费用 B、销售收入大于总成本费用 C、销售收入小于总成本费用 D、销售收入略大于总成本费用 3、铁路公司和航空公司在提供客运服务方面,二者的竞争关系属于( ) A、愿望竞争者 B、平行竞争者 C、产品竞争者 D、品牌竞争者
A、神经网络和逻辑回归算法类似,可解释性较强 C、神经网络是最好的现成的分类器
B、神经网络算法的激活函数对结果没有太大影响,可以任意选择 D、神经网络需要大量的参数
50、9个家庭的平均收入如下:1500, 750, 780, 1080,850,960,2000,1250,1630,那么这9个家庭的平均收入为 ()
正确答案: D 正确答案: D
A、1080 B、1250 C、1000 D、1200
51、在SQL中,建立表用的命令是( )
正确答案: B
A、CREATE SCHEMA B、CREATE TABLE C、CREATE VIEW D、CREATE DATABASE
52、东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别 跑!" 以上对话体现了数据分析方法中的( )
答案 正确答案: C
正确答案: A
正确答案: B
4、某项目第0年至第5年的净现金流量为:-2500万元,1000万元,1200万元,1300万元,1000万元,1120万元。如折现率为20%,该项目获利指数为( )
正确答案: D
A、1.31 B、1.44 C、1.41 D、1.34
5、关于K-Means聚类过程正确的是( )
题目 A、43591 B、43499 C、83/100 D、均不对
答案
30、轮廓系数是对聚类结果有效性的解释和验证,轮廓系数为( )时可认为聚类结果有效。
正确答案: D
A、0.4以上 B、0.5以上 C、0.6以上 D、没有标准,具体情况具体分析。
31、一个电视经销商在表Tvtype 中维护库存的Tvs信息,下述哪条语句能显示价格最昂贵的三种电视机的信息?( )
A、分类 B、关联 C、回归 D、聚类
正确答案: B
53、不属于发展战略的是()
正确答案: D
A、集中战略 B、一体化战略 C、多样化战略 D、收获战略
54、因子分析中,各变量间的相关矩阵中的大部分相关系数( ),则不适合作ቤተ መጻሕፍቲ ባይዱ子分析
正确答案: B
A、大于0.3 B、小于0.3 C、大于0.7 D、小于0.7
18、Winter指数平滑模型包含( )个平滑参数,( )个方程
A、2,2 B、2,3 C、3,3 D、3,4
19、一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为( )
A、8,9 B、8,8 C、8.5,8 D、8.5,9
20、SQL语句中修改表结构的命令是( )
A、对变量进行聚类 B、对异常值不敏感 C、使用的是迭代的方法 D、以上均不正确
6、下列关于舍恩伯格对大数据特点的说法中,错误的是()
A、数据规模大 B、数据类型多 C、数据处理速度快 D、数据价值密度高
7、在客户关系管理里,以下哪种情况不是客户的忠诚的表现 ( )
A、对企业的品牌产生情感和依赖 B、重复购买 C、即便遇到对企业产品的不满意,也不会向企业投诉 D、有向身边的朋友推荐企业的产品的意愿
29、在所有两位数(10-99)中任取一两位数,则此数能被2或3整除的概率为
正确答案: C 正确答案: D 正确答案: C
正确答案: C 正确答案: C 正确答案: C 正确答案: D 正确答案: D 正确答案: B 正确答案: A 正确答案: A 正确答案: D 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: D 正确答案: B 正确答案: A 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: C 正确答案: B
正确答案: D
A、只能是绝对数 B、只能是相对数 C、只能是平均数 D、以上三种指标都可以
48、在时间序列分析中,一般用循环变动指数(C%)来测定循环波动,( )是计算C%的常用方法。
正确答案: D
A、移动平均法 B、移动平均剔除法 C、指数平滑法 D、剩余法
49、以下关于神经网络的说法中正确的是( )
38、Apriori算法的加速过程依赖于以下哪个策略( )
正确答案: B
A、抽样 B、剪枝 C、缓冲 D、并行
39、下面的哪个图形适合于描述一组数据分布的图形是( )。
正确答案: C
A、环形图 B、饼图 C、直方图 D、折线图
40、度量回归直线的拟合优度最常用的指标是( )
正确答案: D
A、回归系数 B、均方误差 C、相对误差 D、判定系数
35、大数据时代,数据使用的关键是()
正确答案: D
A、数据收集 B、数据储存 C、数据分析 D、数据再利用
36、大数据时代,数据使用的关键是()
正确答案: D
A、数据收集 B、数据储存 C、数据分析 D、数据再利用
37、被称为特殊有形资源的是()
正确答案: D
A、财务资源 B、组织资源 C、实物资源 D、人力资源
23、下面关于聚类分析说法错误的是( )
A、一定存在一个最优的分类 B、聚类分析是无监督学习 C、聚类分析可以用于判断异常值 D、聚类分析类似于物以类聚,人以群分
24、关于逻辑回归分析(logistic regrssion modle)说法正确的是( )
A、逻辑斯回归的因变量为数值变量 B、逻辑斯回归的因变量为定性变量 C、逻辑斯回归的因变量只能有两种取值 D、逻辑斯回归自变量只能是一个
41、下列论据中,能够支撑“大数据无所不能”的观点的是()
正确答案: A
A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧
42、指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度( )
正确答案: A
A、平滑常数 B、指数平滑数初始值 C、跨越期 D、季节指数
正确答案: C 正确答案: C 正确答案: D
A、83400 B、95949 C、98020 D、32313
34、类似于线性回归的R-squared,判断逻辑回归表现的一个方法是AIC,则对于AIC说法正确的是( )
正确答案: B
A、越大越好 B、越小越好 C、越接近1越好 D、绝对值越接近于1越好