CPDA考试真题含答案.docx
CPDA数据分析师原题考试题理论题带答案
正确答案: D 正确答案: D
A、1080 B、1250 C、1000 D、1200
51、在SQL中,建立表用的命令是( )
正确答案: B
A、CREATE SCHEMA B、CREATE TABLE C、CREATE VIEW D、CREATE DATABASE
52、东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别 跑!" 以上对话体现了数据分析方法中的( )
45、对快速聚类(K-Means)说法错误的是( )
正确答案: B
A、占内存少、计算量小、处理速度快 B、可以对样本聚类,也可以对变量聚类 C、适合大样本 D、需要事先确定多少个类别
46、Winter指数平滑模型至少需要( )年以上的数据
正确答案: C
A、2 B、3 C、4 D、5
47、时间序列中的发展水平()
29、在所有两位数(10-99)中任取一两位数,则此数能被2或3整除的概率为
正确答案: C 正确答案: D 正确答案: C
正确答案: C 正确答案: C 正确答案: C 正确答案: D 正确答案: D 正确答案: B 正确答案: A 正确答案: A 正确答案: D 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: D 正确答案: B 正确答案: A 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: C 正确答案: B
正确答案: D
A、只能是绝对数 B、只能是相对数 C、只能是平均数 D、以上三种指标都可以
48、在时间序列分析中,一般用循环变动指数(C%)来测定循环波动,( )是计算C%的常用方法。
CPDA考试真题与答案
一、判断题(题数:15,共15.0 分)1.定量属性可以是整数值或者是连续值。
()正确答案:√2. 分类模型的误差大致分为两种:训练误差( training error )和泛化误差( generalizationerror )。
()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
()正确答案:×4. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
()正确答案:×5. 聚类分析可以看作是一种非监督的分类。
()正确答案:√6. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
()正确答案:√7. 允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。
()正确答案:√8. 召回率反映的是预测为正中的样本中正例的概率。
()正确答案:×9. 支持度表示前项与后项在一个数据集中同时出现的频率。
()正确答案:√10. 最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。
()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。
()(1.0 分) 1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。
()正确答案:×13.数据可视化可以便于人们对数据的理解。
()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。
()正确答案:√15.资金本身具有时间价值。
()正确答案:×二、单选题(题数:30,共 45.0分)1. 某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案:B2. 以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。
CPDA考试真题与答案4
------------------------------------ (HT ------------------------------------一、判断题1.数据可分为结构化数据和非结构化数据等。
正确答案:v2.大数据与传统数据有着本质上的差别,因此之前处理数据的方法和软件都不再适用,大数据分析有专用的软件和方法。
正确答案:x3.数据分析的核心是数据,因此数据的获取和处理十分关键。
正确答案:x4.Apriori算法可用于分类预算。
正确答案:x5.一组数据的众数和中位数都是唯一的。
正确答案:x6.资金的时间价值体现在资金会随着时间而增值,如银行存款会增加利息。
正确答案:x7.茎叶图不仅能够反映数据的分布情况,还能显示数据的原始信息。
正确答案:v8.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。
正确答案:v9.在对不同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。
正确答案:x10.时间序列若无季节变动,则其各月(季)季节指数为0.正确答案:x11一个硬币掷10次,其中5次正面向上的概率是0.5。
正确答案:X12.DBSCAN算法对异常值敏感,因此要在聚类前进行异常值分析。
正确答案:X13在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。
正确答案:X14.召回率(recall)指预测为正的样本中实际为正的样本所占比例。
正确答案:X15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。
正确答案:X二、单选题1.Apriori算法用下列哪个做项目集(佗四$0。
的筛选?A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionlD)D、购买数量正确答案:B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg ;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着()A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小,南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案:D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于()A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案:C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7 环.则射中环数的中位数和众数分别为()A、8,9B、8,8C、8,5,8D、8.5, 9正确答案:B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是()A、负相关B、正相关C、零相关D、曲线相关正确答案:B6.下表为一交易数据库,请问A - C的信赖度(Confidence^()A、75%B、50%C、60%D、66.7%正确答案:D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」?A、选取另一条件属性B、将体重正规化为到0〜1之间C、将体重离散化D、无法预测正确答案:C8.以下哪个属于时间序列的问题?()A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案:B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,下列哪种填补法可得到较准确的结果?庆、填入一个通用的常数值,例如填入“未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题口填入该属性的整体平均值口、填入该属性的整体中位数正确答案:B10.某市有各类书店500家,其中大型50家,中型150家,小型300家。
CPDA考试真题与答案完美
一、单选题1.“大数据”是指规模超过1000TB的数据集。
正确答案:×2.概率为0的事件是不可能事件,概率为1的事件是必然事件。
正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:×6.Datahoop1.2版中 K-means聚类分析要求输入的数据必须是数值型数据。
正确答案:√7.如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。
正确答案:×8.SQL中删除表的命令是“DELETE TABLE”。
正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:×11.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。
正确答案:√13.线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。
正确答案:×二、单选题1. 检查异常值常用的统计图形是()A、柱状图B、箱线图C、帕累托图D、气泡图正确答案: B2. 什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。
CPDA考试真题与答案 5
一、判断题(题数:15,共15.0 分)1.定量属性可以是整数值或者是连续值。
()正确答案:√2.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。
()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
()正确答案:×4.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
()正确答案:×5.聚类分析可以看作是一种非监督的分类。
()正确答案:√6.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
()正确答案:√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。
()正确答案:√8.召回率反映的是预测为正中的样本中正例的概率。
()正确答案:×9.支持度表示前项与后项在一个数据集中同时出现的频率。
()正确答案:√10.最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。
()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。
()(1.0分)1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。
()正确答案:×13.数据可视化可以便于人们对数据的理解。
()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。
()正确答案:√15.资金本身具有时间价值。
()二、单选题(题数:30,共45.0 分)1.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案:B2.以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。
项目数据分析师(PADC)理论考试真题及答案(四)
项目数据分析师(CPDA)理论考试测试题及答案(四)填空题:题目1:某公司拟新建一车间用于生产受市场欢迎的甲产品,据预测甲产品投产后每年可创造100万元的收入;但公司原生产的A产品会因此受到影响,使其年收入由原来的200万元降低到180万元。
则与新建车间相关的现金流量为(80)万元。
(说明:答案取整数)题目2:项目的数据分析是以定量分析为主要分析目的,通过建立(数学模型)的方法进行分析的边缘科学。
题目3:某公司向银行贷款500万元,银行年利率为8%。
如分为5年偿还,每年应支付年金(125.23)万元。
(说明:答案保留两位小数)题解:偿债基金的计算:500/(P/A,8%,5)=500/3.99271=125.23题目4:(增量)现金流量是由于接受或放弃某个投资项目所引起的现金流量的改变量,即有该项目投资和没有该项目投资所造成的现金流量的差额。
题解:根据投资项目现金流量编制的增量原则(又称相关原则、边际原则或有无原则),增量现金流量是由于接受或放弃某个投资项目所引起的现金流量的改变量,即有该项目投资和没有该项目投资所造成的现金流量的差额。
在考虑增量原则时应注意机会成本和沉没成本。
题目5:(独立)项目只有接受和放弃两种选择,(互斥)项目采用其中之一就必须放弃其它项目方案。
题解:独立项目(方案)决策指在资源总量无限的情况下,项目(方案)之间不存在竞争,项目的选择不受同等风险条件下其他可选项目的影响,只取决于自身的经济合理性,方案之间不存在竞争比选关系。
互斥项目(方案)决策指在资源总量受限制的情况下,项目(方案)之间存在互相排斥关系,即选择某项目必须以放弃其他项目为条件。
判断题:题目1:内部收益率考虑了资金时间价值,受折现率高低的影响。
(错误)题目2:项目的数据分析是以定性分析为基础的。
(错误)题目3:投资并不局限于与基础建设相关的经济活动,还包括证券投资、信贷投资和信托投资。
(正确)题目4:投资项目风险的起因是经济活动的不确定性。
CPDA考试真题与答案2
一、判断题1.数据根据计量尺度不同可以分为分类数据和数值型数据。
正确答案:× 2.多次抛一枚硬币,正面朝上的频率是1/2。
正确答案:× 3.归纳法是一种从个别到一般的推理方法。
正确答案:√ 4.datahoop中输入的数据必须是数值型的。
正确答案:× 5.置信水平是假设检验中犯第一类错误的概率。
正确答案:× 6.当两种产品为互补品时,其交叉弹性小于零。
正确答案:√ 7.时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。
正确答案:× 8.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:× 9.盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。
正确答案:√ 10.决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。
正确答案:× 11.随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。
正确答案:× 12.当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。
正确答案:√ 13.维规约即事先规定所取模型的维数,可以认为是降维的一种。
正确答案:× 14.标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小。
正确答案:× 15.离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
正确答案:√ 二、单选题1.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、CLEARD、REMORE正确答案: A2.数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案: A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案: C4.以下哪个变量可以反映客户的忠诚度?()A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案: A5.以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况正确答案: D6.下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案: A7.某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。
CPDA考试真题与答案1
一、单选题1.“大数据”是指规模超过 1000TB 的数据集。
正确答案:×2. 概率为 0 的事件是不可能事件,概率为 1 的事件是必然事件。
正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:×6.Datahoop1.2 版中 K-means 聚类分析要求输入的数据必须是数值型数据。
正确答案:√7.如果事件 A,B 互斥,且 P(A)>0,P(B)>0, 则 A , B 独立。
正确答案:×8.SQL 中删除表的命令是“ DELETE TABLE”。
正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:×11. 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。
正确答案:√13. 线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。
正确答案:×二、单选题1. 检查异常值常用的统计图形是()A 、柱状图B、箱线图C、帕累托图D、气泡图正确答案:B2.什么是 KDD ?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案:A3.东北人养了一只鸡和一头猪。
CPDA考试真题与答案 4
一、判断题1.数据可分为结构化数据和非结构化数据等。
正确答案:√2.大数据与传统数据有着本质上的差别,因此之前处理数据的方法和软件都不再适用,大数据分析有专用的软件和方法。
正确答案:×3.数据分析的核心是数据,因此数据的获取和处理十分关键。
正确答案:×4.Apriori算法可用于分类预算。
正确答案:×5.一组数据的众数和中位数都是唯一的。
正确答案:×6.资金的时间价值体现在资金会随着时间而增值,如银行存款会增加利息。
正确答案:×7.茎叶图不仅能够反映数据的分布情况,还能显示数据的原始信息。
正确答案:√8.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。
正确答案:√9.在对不同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。
正确答案:×10.时间序列若无季节变动,则其各月(季)季节指数为0.正确答案:×11.一个硬币掷 10 次,其中 5 次正面向上的概率是0.5。
正确答案:×12.DBSCAN算法对异常值敏感,因此要在聚类前进行异常值分析。
正确答案:×13.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。
正确答案:×14.召回率(recall)指预测为正的样本中实际为正的样本所占比例。
正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。
正确答案:×二、单选题1.Apriori算法用下列哪个做项目集(Itemset)的筛选?A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购买数量正确答案: B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着()A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小,南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案: D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于()A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案: C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为()A、8,9B、8,8C、8.5,8D、8.5,9正确答案: B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是()A、负相关B、正相关C、零相关D、曲线相关正确答案: B6.下表为一交易数据库,请问A → C 的信赖度(Confidence)为()A、75%B、50%C、60%D、66.7%正确答案: D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」?A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案: C8.以下哪个属于时间序列的问题?()A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案: B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,下列哪种填补法可得到较准确的结果?A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案: B10.某市有各类书店500家,其中大型50家,中型150家,小型300家。
CPDA考试真题及答案
一、判断题1.数据可分为构造化数据和非构造化数据等。
正确答案:√2.大数据与传统数据有着本质上的差异,因此之前处理数据的方法和软件都不再适用,大数据分析有专用的软件和方法。
正确答案:×3.数据分析的核心是数据,因此数据的获取和处理十分关键。
正确答案:×4.Apriori算法可用于分类预算。
正确答案:×5.一组数据的众数和中位数都是唯一的。
正确答案:×6.资金的时间价值表达在资金会随着时间而增值,如银行存款会增加利息。
正确答案:×7.茎叶图不仅能够反映数据的分布情况,还能显示数据的原始信息。
正确答案:√8.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。
正确答案:√9.在对不同工程进展风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。
正确答案:×10.时间序列假设无季节变动,则其各月〔季〕季节指数为0.正确答案:×11.一个硬币掷10 次,其中5 次正面向上的概率是0.5。
正确答案:×12.DBSCAN算法对异常值敏感,因此要在聚类前进展异常值分析。
正确答案:×13.在假设检验中,当我们做出拒绝原假设而承受备择假设的结论时,表示原假设是错误的。
正确答案:×14.召回率〔recall〕指预测为正的样本中实际为正的样本所占比例。
正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。
正确答案:×二、单项选择题1.Apriori算法用以下哪个做工程集(Itemset)的筛选.A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购置数量正确答案:B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着〔〕A、南方和北方女婴出生体重的差异无统计学意义B、南方和北方女婴出生体重差异很大C、由于P值太小,南方和北方女婴出生体重差异无意义D、南方和北方女婴出生体重差异有统计学意义但无实际意义正确答案:D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于〔〕A、用于对模型的效果进展无偏的评估B、用于比拟不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案:C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为〔〕A、8,9B、8,8C、8.5,8D、8.5,9正确答案:B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是〔〕A、负相关B、正相关C、零相关D、曲线相关正确答案:B6.下表为一交易数据库,请问A →C 的信赖度(Confidence)为〔〕A、75%B、50%C、60%D、66.7%正确答案:D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」.A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案:C8.以下哪个属于时间序列的问题.〔〕A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案:B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,以下哪种填补法可得到较准确的结果.A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案:B10.*市有各类书店500家,其型50家,中型150家,小型300家。
项目数据分析师(PADC)理论考试真题及答案(一)
项目数据分析师(CPDA)理论考试测试题及答案(一)填空题:题目1:(期望值)是各种可能的结果的取值中心,(标准差)表示了未来可能的收益水平围绕最佳期望值变化的区间大小。
题目2:某项永久性奖学金,每年计划颁发50000元奖金。
若年复利率为8%,该奖学金的本金应为(625000)元。
(说明:答案取整数)题目3:NPV的标准差越大,说明项目的风险越(大)题目4:折现率是将未来收益还原或转换为(现值)的比率,通常按项目的(资本成本)确定。
题解:折现率是将未来收益转换为现值的比率,在项目投资的效益评价中,折现率通常以项目的资本成本作为确定依据。
题目5:盈亏平衡分析按照产品销售量和销售收入的关系可以分为(线性)盈亏平衡分析和(非线性)盈亏平衡分析。
题解:根据产销量、成本、利润三者间的关系,可将盈亏平衡分析分为线性盈亏平衡分析与非线性盈亏平衡分析。
线性盈亏平衡分析是建立在假设销售收入与产销量、总成本与产销量成线性函数关系基础上,非线性盈亏平衡分析是在产品成本与产量往往呈非线性变化的实际情况下发展起来的。
判断题:题目1:投资是指与基础建设相关的经济活动,包括基本建设投资和固定资产更新改造投资。
(错误)题目2:会计收益中由于采用的折旧方法不同,各期计提的折旧费用就不同,影响当期收益的计算结果也就不同,会导致折算出来的现值就不一致。
(正确)题目3:风险就是不确定性,不确定性就是风险。
(错误)题目4:项目的数据分析必须通过建立数学模型的方法进行分析。
(正确)题目5:流动资金从本质上来说应归为长期借款。
(错误)题目6:资金时间价值是资金在周转使用中产生的,是资金所有者让渡资金使用权而参与社会财富分配的一种形式。
(正确)题解:资金的时间价值也被称为货币的时间价值。
从资金所有者的角度来看,资金的所有者把资金的使用权转让给使用者时,要求获得一定的报酬;从使用者的角度来看,投资的目的就是获得资本的增值;从消费者的角度来看,未来存在通货膨胀以及其他的风险,牺牲现在的消费总是要求获得补偿的。
CPDA考试真题与答案1
一、单选题1.“大数据”是指规模超过1000TB的数据集。
正确答案:×2.概率为0的事件是不可能事件,概率为1的事件是必然事件。
正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:×6.Datahoop1.2版中K-means聚类分析要求输入的数据必须是数值型数据。
正确答案:√7.如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。
正确答案:×8. SQL中删除表的命令是“DELETE TABLE”。
正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:×11.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。
正确答案:√13.线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。
正确答案:×二、单选题1. 检查异常值常用的统计图形是()A、柱状图B、箱线图C、帕累托图D、气泡图正确答案: B2. 什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。
CPDA考试真题含答案
一、判断题1.样本容量是指从总体中抽取的个体。
正确答案:×2.品质数据既可以用整数值表示,也可以用连续值表示。
正确答案:√3.需求弹性大的产品价格与销售收入反向变化。
正确答案:√4.一般而言,定量预测方法在满足下列三个条件时才能使用:一是能够知道待测变量的过去值,二是信息可以量化,三是过去的变动形式将持续到未来是一个合理的假设。
正确答案:√5.在对不同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。
正确答案:×6.在一定时期和一定产销量范围内,固定成本与产品的产销量多少没有关系,只有可变成本才与产品产销量的增减变化发生关系。
正确答案:√7.如果两个变量不独立,那这两者的相关系数必然不等于0。
正确答案:×8.数据库类型是按照数据存取的方法来划分的。
正确答案:×9.SQL语言中,条件年龄BETWEEN 15 AND 35,表示年龄在15至35之间,且包括15岁但不包括35岁。
正确答案:×10.资本成本就是资金的时间价值。
正确答案:×11.一组数据排序后处于25%和75%位置上的值称为四分位数。
正确答案:√12.企业购并处于竞争地位的同类型企业形成企业集团称为集团多角化。
正确答案:×13.内部收益率考虑了资金时间价值,受折现率高低的影响。
正确答案:×14.边际收入是指每增加1单位销量所带来的总收入的增加额度。
正确答案:√15.分类预测时,准确率和召回率存在矛盾关系,不能同时增大,所以要考虑他们的综合影响,即F1-Score。
正确答案:×二、单选题1.当所有观测值都落在回归直线上,则这两个变量之间的相关系数为()A、1B、-1C、+1或-1D、0正确答案:C2.表示职称为副教授、性别为男的表达式为()A、职称='副教授' OR 性别='男'B、职称='副教授' AND 性别='男'C、BETWEEN '副教授' AND '男'D、IN ('副教授','男')正确答案:B3.对于下列实验数据:1 , 108 , 11 , 8 , 5 , 6 , 8 , 8 , 7 , 11 ,描述其集中趋势用()最为适宜,其值是()。
CPDA考试真题与答案 2
一、判断题1。
数据根据计量尺度不同可以分为分类数据和数值型数据。
正确答案: ×2。
多次抛一枚硬币,正面朝上的频率是1/2。
正确答案:×3.归纳法是一种从个别到一般的推理方法。
正确答案:√4.datahoop中输入的数据必须是数值型的。
正确答案:×5。
置信水平是假设检验中犯第一类错误的概率。
正确答案:×6.当两种产品为互补品时,其交叉弹性小于零。
正确答案:√7.时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的.正确答案:×8.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×9.盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。
正确答案:√10.决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。
正确答案:×11。
随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。
正确答案: ×12。
当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型.正确答案:√13.维规约即事先规定所取模型的维数,可以认为是降维的一种。
正确答案:×14.标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小.正确答案: ×15。
离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的.正确答案:√二、单选题1。
SQL语言中,删除一个表中所有数据,但保留表结构的命令是( )A、DELETEB、DROPC、CLEARD、REMORE正确答案:A2.数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案:A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案: C4。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
精品文档一、判断题1.样本容量是指从总体中抽取的个体。
正确答案:×2.品质数据既可以用整数值表示,也可以用连续值表示。
正确答案:√3.需求弹性大的产品价格与销售收入反向变化。
正确答案:√4.一般而言,定量预测方法在满足下列三个条件时才能使用:一是能够知道待测变量的过去值,二是信息可以量化,三是过去的变动形式将持续到未来是一个合理的假设。
正确答案:√5.在对不同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。
正确答案:×6.在一定时期和一定产销量范围内,固定成本与产品的产销量多少没有关系,只有可变成本才与产品产销量的增减变化发生关系。
正确答案:√7.如果两个变量不独立,那这两者的相关系数必然不等于0 。
正确答案:×8.数据库类型是按照数据存取的方法来划分的。
正确答案:×9.SQL 语言中,条件年龄 BETWEEN 15 AND 35,表示年龄在 15 至 35 之间,且包括 15 岁但不包括 35 岁。
正确答案:×10.资本成本就是资金的时间价值。
正确答案:×精品文档11.一组数据排序后处于25%和 75%位置上的值称为四分位数。
正确答案:√12.企业购并处于竞争地位的同类型企业形成企业集团称为集团多角化。
正确答案:×13.内部收益率考虑了资金时间价值,受折现率高低的影响。
正确答案:×14.边际收入是指每增加 1 单位销量所带来的总收入的增加额度。
正确答案:√15.分类预测时,准确率和召回率存在矛盾关系,不能同时增大,所以要考虑他们的综合影响,即 F1-Score 。
正确答案:×二、单选题1.当所有观测值都落在回归直线上,则这两个变量之间的相关系数为()A、1B、 -1C、 +1 或 -1D、0正确答案:C2.表示职称为副教授、性别为男的表达式为()A、职称 =' 副教授 ' OR 性别 =' 男 'B、职称 =' 副教授 ' AND性别='男'C、 BETWEEN '副教授 ' AND ' 男'D、IN (' 副教授 ','男 ')正确答案:B3.对于下列实验数据: 1 , 108 , 11 , 8 , 5 , 6 , 8 , 8 , 7 , 11,描述其集中趋势用()最为适宜,其值是()。
A、平均数, 14.4B、中位数, 8.5C、众数,8D、以上都可以正确答案:C4.()是进行项目投资效益评价的最终依据。
A、现金流量B、盈亏平衡点C、净现金流量D、现金流入量正确答案:C5.有一组数据其均值是20 ,对其中的每一个数据都加上10 ,那么得到的这组新数据的均值是()。
A、20B、 10C、 15D、30正确答案:D6.分类变量使用以下哪个统计量进行缺失值填补较合适A、均值B、最大值C、众数D、中位数正确答案:C7.假设 {BCE}为一频繁项目集 (Frequent Itemset) ,则根据 Apriori Principle 以下何者不是子频繁项目?A、BCB、 CEC、 CD、CD正确答案:D8.请问以下何者属于时间序列的问题?A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上均不是正确答案:B9.数据正规化 (Data Normalization) 是在知识发掘处理 (Knowledge Discovery Process)中的哪一个阶段进行?A、数据清洗B、数据选择C、数据编码D、数据扩充正确答案:C10.已知事件 A 的概率 P(A)= 0.6, U 为必然事件,则P(A+U) = 1,P(AU )= _______A、0.4B、 0.6C、 0D、1正确答案:B11.当时间序列数据点的一阶差分近似为一常数,可配合以下哪种预测模型()A、直线B、二次抛物线C、三次抛物线D、指数曲线正确答案:A12.变量的量纲比如以厘米或者米为单位对下面哪种方法会有影响()A、方差分析B、回归分析C、聚类分析D、主成分分析正确答案:C13.若数据量较大 ,下面哪种方式比较适合()A、系统聚类B、快速聚类(k-means )C、 A 和 B 都可以D、A 和 B 都不可以正确答案:B14.在建立线性回归 (Linear Regression) 之前我们可以利用何种方法挑选重要属性,以降低模型的复杂度?A、皮尔森相关系数B、卡方检定C、 T- 检定D、Z-Score正确答案:A15.ROC 曲线凸向哪个角,代表模型越理想?A、左上角B、右上角C、左下角D、右下角正确答案:A16.决策树中的Information Gain的计算是用来?A、剪枝B、使树成长C、处理缺失值和异常值D、砍树正确答案:B17.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A、分类B、聚类C、关联分析D、隐马尔可夫链正确答案:B18.开始将N个样品各自作为一类,将规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类,此种聚类方法是()A、K- meansB、 SOM 聚类C、系统聚类D、有序聚类正确答案:C19.关于回归分析,下列说法中错误的是()A、作回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析,要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。
B、在进行线性回归分析进行的数据准备的时候,要求因变量y 和自变量x 都是符合总体正态的随机变量。
C、回归直线不要随意外延D、所有非线性回归都可以转化为线性回归正确答案:D20.下列说明错误的是()A、性别 =“男” =>职业 =“司机”,是布尔型关联规则B、性别 =“女” => avg (收入)=2300 ,是一个数值型关联规则C、肝炎 => ALT (丙氨酸转氨酶)升高,是一个单层关联规则D、性别 =“女” =>职业 =“秘书”,是多维关联规则正确答案:C21.在 ID3 算法中信息增益是指()A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大正确答案:D22.如下哪个不是最近邻分类器的特点()A、它使用具体的训练实例进行预测,不必维护源自数据的模型B、分类一个测试样例开销很大C、最近邻分类器基于全局信息进行预测D、可以生产任意形状的决策边界正确答案:C23.关于混合模型聚类算法的优缺点,下面说法正确的是()A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。
B、混合模型比K 均值或模糊 C 均值更一般,因为它可以使用各种类型的分布。
C、混合模型很难发现不同大小和椭球形状的簇。
D、混合模型在有噪声和离群点时不会存在问题。
正确答案:B24.关于 K 均值和 DBSCAN 的比较,以下说法不正确的是()A、K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。
B、 K 均值使用簇的基于原型的概念,而DBSCAN 使用基于密度的概念。
C、 K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇。
D、K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇。
正确答案:A25.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测A、统计方法B、邻近度C、密度D、聚类技术正确答案:A26.倒传递神经网络( BP 神经网络)的训练顺序为何? ( A:调整权重 ; B:计算误差值 ; C:利用随机的权重产生输出的结果 )A、BCAB、 CABC、 BACD、CBA正确答案:D27.假设检验中,拒绝域的边界称为()A、临界值B、临界点C、置信水平D、边际值正确答案:A28.在有关数据仓库测试,下列说法不正确的是()A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试 .测试工作中要包括单元测试和系统测试B、当数据仓库的每个单独组件完成后,就需要对他们进行单元测试C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D、在测试之前没必要制定详细的测试计划正确答案:D29.某项目预计运行 5 年后的净现值为4500 万元,如折现率为16%,其终值应为()万元(说明:结果保留两位小数)A、8045.86B、 6996.21C、 9451.54D、7000.02正确答案:C30.迈克尔·波特的“五力模型”中,五种竞争力量中不包括( )A、新进入者B、供应商议价能力C、其他利益相关者力量D、行业中现有竞争者正确答案:C1.敏感性分析的计算指标有()A、盈亏平衡点B、敏感度系数C、临界点D、净现值正确答案:BCD2.在 Excel 中,要选定 A 到 E 列单元格,操作正确的是()A、用鼠标左键单击列号A,然后向右拖动鼠标至列号E,再释放鼠标左键B、左键单击列号A,再按下shift键不放并用鼠标左键单击列号E,最后释放shift 键C、单击列号A,然后先按下Ctrl 键不放,再用鼠标单击B,C,D,E 列号,最后释放Ctrl 键D、按 shift 键不放,用鼠标左键单击A, B, C, D, E 的每个列号正确答案:ABC3.季节变动主要是由()引起的。
A、自然灾害B、政治事件C、制度、法律、习俗D、自然界的季节变化正确答案:CD4.货币时间价值用相对值来表示时,在数量上应当理解为扣除()后的社会平均利润率。
A、时间因素B、通货膨胀因素C、纯粹利率D、风险因素正确答案:BD5.概率分析中,应计算出()表明该风险因素的风险程度。
A、变异系数B、期望值C、方差正确答案:ABCD6.定基发展速度与环比发展速度的关系有()。
A、各环比发展速度之和等于相应的定基发展速度B、各环比发展速度之积等于相应的定基发展速度C、两个环比发展速度之商等于相应的定基发展速度D、两个定基发展速度之商等于相应的环比发展速度正确答案:BD7.促销预算的方法主要有()。
A、量入为出法B、竞争对等法C、销售比例法D、目标任务法正确答案:ABCD8.行业分析数据采集方法有()。
A、一手资料B、实地考察法C、专家访谈法D、收集媒体信息正确答案:ABCD9.决策树法分析问题的主要步骤包括()。
A、结构化问题B、设计可能结果发生的概率C、设计结果的得益D、分析问题正确答案:ABCD10.能消除时间序列中的不规则变动和季节变动的方法是()A、移动平均法B、指数平滑法精品文档C、时间序列乘法模型D、季节指数正确答案:AD11.确定一个投资方案可行的必要条件是( )。