CPDA题库

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 “大数据”是指规模超过1000TB的数据集。×

2 概率为0的事件是不可能事件,概率为1的事件是必然事件。×

3 将总体中的各单位按某一标志排列再依固定间隔抽选调查单位的抽样方式为等距抽样√

4 统计图中的散点图主要用来观察变量之间的相关关系。√

5 抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。×

6 Datahoop1.2版中 K-means聚类分析要求输入的数据必须是数值型数据。√

7 如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。×

8 SQL中删除表的命令是“DELETE TABLE”。×

9 聚类分析中,各变量的取值在数量级上不能有过大的差异。√

10 如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。×

11 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。×

12 使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。√

13 线性回归模型的拟合优度可采用可决系数进行评判。可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。×

14 一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。×

15 决策树中包含根结点、叶结点、内部结点和外部结点。×

1 检查异常值常用的统计图形是(B)

A、柱状图

B、箱线图

C、帕累托图

D、气泡图

2 什么是KDD?(A )

A、数据挖掘与知识发现

B、领域知识发现

C、文档知识发现

D、动态知识发现

3 东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑!"

以上对话体现了数据分析方法中的(A )

A、关联

B、聚类

C、分类

D、自然语言处理

4 假设检验中显著性水平是(B)

A、推断时犯取伪错误的概率

B、推断时取伪弃真的概率

C、正确推断的概率

D、是推断的可信度

5 矩估计的基本原理是(A)

A、用样本矩估计总体矩

B、使得似然函数达到最大

C、使得似然函数达到最小

D、小概率事件在一次试验中是不可能发生的

6 SQL查询语句中HAVING子句的作用是(C )

A、指出分组查询的范围

B、指出分组查询的值

C、指出分组查询的条件

D、指出分组查询的内容

7 以下哪项关于决策树的说法是错误的(C )

A、冗余属性不会对决策树的准确率造成不利的影响

B、子树可能在决策树中重复多次

C、决策树算法对于噪声的干扰非常敏感

D、寻找最佳决策树是NP完全问题

8 以下哪种方法不属于于监督学习模型(C)

A、决策树

B、线性回归

C、关联分析

D、判别分析

9 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,

4},{2,3,5},{3,4,5}假定数据集中只有5个项,若采用合并策略,则由候选产生过程得到4-项集不包含(C)

A、 1,2,3,4

B、 1,2,3,5

C、 1,2,4,5

D、 1,3,4,5

10 下列不属于原始数据来源的是(C )

A、行政记录

B、统计调查

C、统计年鉴

D、实验

11 下列不属于分类算法的是(D)

A、 C4.5算法

B、逻辑回归

C、 KNN算法

D、TF-TDF算法

12 相关分析与回归分析的一个重要区别是(A)

A、前者研究变量之间关系的密切程度,后者研究变量间的变动关系,并用方程式表示

B、前者研究变量之间的变动关系,后者研究变量间关系的密切程度

C、两者都研究变量间的变动关系

D、两者都不研究变量间的变动关系

13 数据仓库是随着时间变化的,下面的描述不正确的是(C)

A、数据仓库随时间的变化不断增加新的数据内容

B、捕捉到的新数据会覆盖原来的快照

C、数据仓库随时间变化不断删去旧的数据内容

D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合

14 资金的时间价值是(B)

A、同一资金在同一时点上价值量的差额

B、同一资金在不同时点上价值量的差额

C、不同资金在同一时点上价值量的差额

D、不同资金在不同时点上价值量的差额

15 描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是(B)

A、极差

B、标准差

C、均值

D、变异系数

16 下列有关Apriori算法的说法中不正确的是(C)

A、 Apriori算法是关联分析中最常用的算法之一。

B、应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值。

C、应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据。

D、 Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量。

17 当置信水平一定时,置信区间的宽度(A)

A、随着样本量的增大而减小

B、随着样本量的增大而增大

C、与样本量的大小无关

D、先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。

18 一种商品价格变动与由此引起另外一种商品需求量相对变动的比率称为(C)

A、需求价格弹性

B、供给价格弹性

C、需求交叉弹性

D、供给交叉弹性

19 分类器效果检验中的准确率是指(C)

A、预测正确的数据在总数据中的比例

B、预测为正的数据在总数据中的比例

C、预测为正的数据中实际为正的数据所占比例

D、实际为正的数据中被预测为正的数据所占比例

20 给出下列结论:

(1)在回归分析中,可用指数系数R方的值判断模型的拟合效果,R方越大,模型的拟合效果越好;

(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟

相关文档
最新文档