CPDA考试真题与答案完美
CPDA数据分析师原题考试题理论题带答案
正确答案: D 正确答案: D
A、1080 B、1250 C、1000 D、1200
51、在SQL中,建立表用的命令是( )
正确答案: B
A、CREATE SCHEMA B、CREATE TABLE C、CREATE VIEW D、CREATE DATABASE
52、东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别 跑!" 以上对话体现了数据分析方法中的( )
45、对快速聚类(K-Means)说法错误的是( )
正确答案: B
A、占内存少、计算量小、处理速度快 B、可以对样本聚类,也可以对变量聚类 C、适合大样本 D、需要事先确定多少个类别
46、Winter指数平滑模型至少需要( )年以上的数据
正确答案: C
A、2 B、3 C、4 D、5
47、时间序列中的发展水平()
29、在所有两位数(10-99)中任取一两位数,则此数能被2或3整除的概率为
正确答案: C 正确答案: D 正确答案: C
正确答案: C 正确答案: C 正确答案: C 正确答案: D 正确答案: D 正确答案: B 正确答案: A 正确答案: A 正确答案: D 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: D 正确答案: B 正确答案: A 正确答案: B 正确答案: D 正确答案: B 正确答案: C 正确答案: C 正确答案: B
正确答案: D
A、只能是绝对数 B、只能是相对数 C、只能是平均数 D、以上三种指标都可以
48、在时间序列分析中,一般用循环变动指数(C%)来测定循环波动,( )是计算C%的常用方法。
CPDA考试真题与答案
一、判断题(题数:15,共15.0 分)1.定量属性可以是整数值或者是连续值。
()正确答案:√2. 分类模型的误差大致分为两种:训练误差( training error )和泛化误差( generalizationerror )。
()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
()正确答案:×4. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
()正确答案:×5. 聚类分析可以看作是一种非监督的分类。
()正确答案:√6. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
()正确答案:√7. 允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。
()正确答案:√8. 召回率反映的是预测为正中的样本中正例的概率。
()正确答案:×9. 支持度表示前项与后项在一个数据集中同时出现的频率。
()正确答案:√10. 最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。
()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。
()(1.0 分) 1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。
()正确答案:×13.数据可视化可以便于人们对数据的理解。
()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。
()正确答案:√15.资金本身具有时间价值。
()正确答案:×二、单选题(题数:30,共 45.0分)1. 某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案:B2. 以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。
CPDA考试真题与答案-2.doc
一、判断题1•数据根据计量尺度不同可以分为分类数据和数值型数据。
正确答案:X2•多次抛一枚硬币,正面朝上的频率是1/2O正确答案:x3. 归纳法是一种从个别到一般的推理方法。
正确答案:V4. datahoop中输入的数据必须是数值型的。
正确答案:x5•置信水平是假设检验中犯第一类错误的概率。
6. 当两种产品为互补品时,其交叉弹性小于零。
正确答案:V7. 时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。
正确答案:x8•需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:x9. 盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。
正确答案:V10. 决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。
".随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。
正确答案:X12. 当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。
正确答案:V13. 维规约即事先规定所取模型的维数,可以认为是降维的一种。
正确答案:x14. 标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小。
正确答案:x15. 离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
二、单选题1.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、C LEARD、R EMORE正确答案:A2•数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案:A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案:C4•以下哪个变量可以反映客户的忠诚度?()A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案:A5. 以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况正确答案:D6. 下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案:A7. 某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。
项目数据分析师(PADC)理论考试真题及答案(四)
项目数据分析师(CPDA)理论考试测试题及答案(四)填空题:题目1:某公司拟新建一车间用于生产受市场欢迎的甲产品,据预测甲产品投产后每年可创造100万元的收入;但公司原生产的A产品会因此受到影响,使其年收入由原来的200万元降低到180万元。
则与新建车间相关的现金流量为(80)万元。
(说明:答案取整数)题目2:项目的数据分析是以定量分析为主要分析目的,通过建立(数学模型)的方法进行分析的边缘科学。
题目3:某公司向银行贷款500万元,银行年利率为8%。
如分为5年偿还,每年应支付年金(125.23)万元。
(说明:答案保留两位小数)题解:偿债基金的计算:500/(P/A,8%,5)=500/3.99271=125.23题目4:(增量)现金流量是由于接受或放弃某个投资项目所引起的现金流量的改变量,即有该项目投资和没有该项目投资所造成的现金流量的差额。
题解:根据投资项目现金流量编制的增量原则(又称相关原则、边际原则或有无原则),增量现金流量是由于接受或放弃某个投资项目所引起的现金流量的改变量,即有该项目投资和没有该项目投资所造成的现金流量的差额。
在考虑增量原则时应注意机会成本和沉没成本。
题目5:(独立)项目只有接受和放弃两种选择,(互斥)项目采用其中之一就必须放弃其它项目方案。
题解:独立项目(方案)决策指在资源总量无限的情况下,项目(方案)之间不存在竞争,项目的选择不受同等风险条件下其他可选项目的影响,只取决于自身的经济合理性,方案之间不存在竞争比选关系。
互斥项目(方案)决策指在资源总量受限制的情况下,项目(方案)之间存在互相排斥关系,即选择某项目必须以放弃其他项目为条件。
判断题:题目1:内部收益率考虑了资金时间价值,受折现率高低的影响。
(错误)题目2:项目的数据分析是以定性分析为基础的。
(错误)题目3:投资并不局限于与基础建设相关的经济活动,还包括证券投资、信贷投资和信托投资。
(正确)题目4:投资项目风险的起因是经济活动的不确定性。
CPDA考试真题与答案1
一、单选题1.“大数据”是指规模超过 1000TB 的数据集。
正确答案:×2. 概率为 0 的事件是不可能事件,概率为 1 的事件是必然事件。
正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:×6.Datahoop1.2 版中 K-means 聚类分析要求输入的数据必须是数值型数据。
正确答案:√7.如果事件 A,B 互斥,且 P(A)>0,P(B)>0, 则 A , B 独立。
正确答案:×8.SQL 中删除表的命令是“ DELETE TABLE”。
正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:×11. 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。
正确答案:√13. 线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。
正确答案:×二、单选题1. 检查异常值常用的统计图形是()A 、柱状图B、箱线图C、帕累托图D、气泡图正确答案:B2.什么是 KDD ?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案:A3.东北人养了一只鸡和一头猪。
CPDA考试真题与答案
一、判断题1.数据根据计量尺度不同可以分为分类数据和数值型数据。
正确答案:×2.多次抛一枚硬币,正面朝上的频率是1/2。
正确答案:×3.归纳法是一种从个别到一般的推理方法。
正确答案:√4.datahoop中输入的数据必须是数值型的。
正确答案:×5.置信水平是假设检验中犯第一类错误的概率。
正确答案:×6.当两种产品为互补品时,其交叉弹性小于零。
正确答案:√7.时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。
正确答案:×8.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×9.盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。
正确答案:√10.决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。
正确答案:×11.随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。
正确答案:×12.当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。
正确答案:√13.维规约即事先规定所取模型的维数,可以认为是降维的一种。
正确答案:×14.标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小。
正确答案:×15.离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
正确答案:√二、单选题1.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、CLEARD、REMORE正确答案: A2.数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案: A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案: C4.以下哪个变量可以反映客户的忠诚度?()A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案: A5.以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况正确答案: D6.下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案: A7.某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。
CPDA考试真题及答案
一、判断题1.数据可分为构造化数据和非构造化数据等。
正确答案:√2.大数据与传统数据有着本质上的差异,因此之前处理数据的方法和软件都不再适用,大数据分析有专用的软件和方法。
正确答案:×3.数据分析的核心是数据,因此数据的获取和处理十分关键。
正确答案:×4.Apriori算法可用于分类预算。
正确答案:×5.一组数据的众数和中位数都是唯一的。
正确答案:×6.资金的时间价值表达在资金会随着时间而增值,如银行存款会增加利息。
正确答案:×7.茎叶图不仅能够反映数据的分布情况,还能显示数据的原始信息。
正确答案:√8.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。
正确答案:√9.在对不同工程进展风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。
正确答案:×10.时间序列假设无季节变动,则其各月〔季〕季节指数为0.正确答案:×11.一个硬币掷10 次,其中5 次正面向上的概率是0.5。
正确答案:×12.DBSCAN算法对异常值敏感,因此要在聚类前进展异常值分析。
正确答案:×13.在假设检验中,当我们做出拒绝原假设而承受备择假设的结论时,表示原假设是错误的。
正确答案:×14.召回率〔recall〕指预测为正的样本中实际为正的样本所占比例。
正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。
正确答案:×二、单项选择题1.Apriori算法用以下哪个做工程集(Itemset)的筛选.A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购置数量正确答案:B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着〔〕A、南方和北方女婴出生体重的差异无统计学意义B、南方和北方女婴出生体重差异很大C、由于P值太小,南方和北方女婴出生体重差异无意义D、南方和北方女婴出生体重差异有统计学意义但无实际意义正确答案:D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于〔〕A、用于对模型的效果进展无偏的评估B、用于比拟不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案:C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为〔〕A、8,9B、8,8C、8.5,8D、8.5,9正确答案:B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是〔〕A、负相关B、正相关C、零相关D、曲线相关正确答案:B6.下表为一交易数据库,请问A →C 的信赖度(Confidence)为〔〕A、75%B、50%C、60%D、66.7%正确答案:D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」.A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案:C8.以下哪个属于时间序列的问题.〔〕A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案:B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,以下哪种填补法可得到较准确的结果.A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案:B10.*市有各类书店500家,其型50家,中型150家,小型300家。
项目数据分析师(PADC)理论考试真题及答案(一)
项目数据分析师(CPDA)理论考试测试题及答案(一)填空题:题目1:(期望值)是各种可能的结果的取值中心,(标准差)表示了未来可能的收益水平围绕最佳期望值变化的区间大小。
题目2:某项永久性奖学金,每年计划颁发50000元奖金。
若年复利率为8%,该奖学金的本金应为(625000)元。
(说明:答案取整数)题目3:NPV的标准差越大,说明项目的风险越(大)题目4:折现率是将未来收益还原或转换为(现值)的比率,通常按项目的(资本成本)确定。
题解:折现率是将未来收益转换为现值的比率,在项目投资的效益评价中,折现率通常以项目的资本成本作为确定依据。
题目5:盈亏平衡分析按照产品销售量和销售收入的关系可以分为(线性)盈亏平衡分析和(非线性)盈亏平衡分析。
题解:根据产销量、成本、利润三者间的关系,可将盈亏平衡分析分为线性盈亏平衡分析与非线性盈亏平衡分析。
线性盈亏平衡分析是建立在假设销售收入与产销量、总成本与产销量成线性函数关系基础上,非线性盈亏平衡分析是在产品成本与产量往往呈非线性变化的实际情况下发展起来的。
判断题:题目1:投资是指与基础建设相关的经济活动,包括基本建设投资和固定资产更新改造投资。
(错误)题目2:会计收益中由于采用的折旧方法不同,各期计提的折旧费用就不同,影响当期收益的计算结果也就不同,会导致折算出来的现值就不一致。
(正确)题目3:风险就是不确定性,不确定性就是风险。
(错误)题目4:项目的数据分析必须通过建立数学模型的方法进行分析。
(正确)题目5:流动资金从本质上来说应归为长期借款。
(错误)题目6:资金时间价值是资金在周转使用中产生的,是资金所有者让渡资金使用权而参与社会财富分配的一种形式。
(正确)题解:资金的时间价值也被称为货币的时间价值。
从资金所有者的角度来看,资金的所有者把资金的使用权转让给使用者时,要求获得一定的报酬;从使用者的角度来看,投资的目的就是获得资本的增值;从消费者的角度来看,未来存在通货膨胀以及其他的风险,牺牲现在的消费总是要求获得补偿的。
CPDA考试真题与答案5
一、判断题(题数:15 ,共15.0 分)1.定量属性可以是整数值或者是连续值。
()正确答案:√2.分类模型的误差大致分为两种:训练误差(training error )和泛化误差(generalizationerror )。
()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
()正确答案:×4.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
()正确答案:×5.聚类分析可以看作是一种非监督的分类。
()正确答案:√6.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
()正确答案:√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。
()正确答案:√8.召回率反映的是预测为正中的样本中正例的概率。
()正确答案:×9.支持度表示前项与后项在一个数据集中同时出现的频率。
()正确答案:√10. 最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。
()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。
()(1.0 分) 1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。
()正确答案:×13.数据可视化可以便于人们对数据的理解。
()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。
()正确答案:√15. 资金本身具有时间价值。
()正确答案:×二、单选题(题数:30 ,共45.0 分)1.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案: B2.以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。
CPDA考试真题与答案1
一、单选题1.“大数据”是指规模超过1000TB的数据集。
正确答案:×2.概率为0的事件是不可能事件,概率为1的事件是必然事件。
正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:×6.Datahoop1.2版中K-means聚类分析要求输入的数据必须是数值型数据。
正确答案:√7.如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。
正确答案:×8. SQL中删除表的命令是“DELETE TABLE”。
正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:×11.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。
正确答案:√13.线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。
正确答案:×二、单选题1. 检查异常值常用的统计图形是()A、柱状图B、箱线图C、帕累托图D、气泡图正确答案: B2. 什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。
CPDA考试真题与答案 5
一、判断题(题数:15,共分)1.定量属性可以是整数值或者是连续值。
()正确答案:√2.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。
()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
()正确答案:×4.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
()正确答案:×5.聚类分析可以看作是一种非监督的分类。
()正确答案:√6.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
()正确答案:√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。
()正确答案:√8.召回率反映的是预测为正中的样本中正例的概率。
()正确答案:×9.支持度表示前项与后项在一个数据集中同时出现的频率。
()正确答案:√10.最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。
()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。
()(分)分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。
()正确答案:×13.数据可视化可以便于人们对数据的理解。
()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。
()正确答案:√15.资金本身具有时间价值。
()正确答案:×二、单选题(题数:30,共分)1.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案: B2.以下两种描述分别对应哪两种对分类算法的评价标准()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。
CPDA考试真题与答案完美
单选题1. “大数据”是指规模超过 1000TB 的数据集。
正确答案:X2. 概率为 0 的事件是不可能事件,概率为 1 的事件是必然事件。
正确答案:X3. 将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:V4. 统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:V5. 抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:X6. Datahoop1.2 版中 K-means 聚类分析要求输入的数据必须是数值型数据。
正确答案:V7. 如果事件 A,B 互斥,且 P(A)>0,P(B)>0, 则 A, B 独立。
正确答案:X8. SQL中删除表的命令是“ DELETE TABL”正确答案:X9. 聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:V10. 如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:11. 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
12. 使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。
正确答案:V13. 线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
正确答案:X14. 一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
正确答案:X15. 决策树中包含根结点、叶结点、内部结点和外部结点。
正确答案:X二、单选题1. 检查异常值常用的统计图形是()A、柱状图B箱线图C帕累托图D气泡图正确答案: B2. 什么是 KDD?()A、数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。
一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。
"鸡听了撒丫子就跑。
CPDA考试真题含答案
精选文档一、判断题1.样本容量是指从整体中抽取的个体。
正确答案:×2.质量数据既能够用整数值表示,也能够用连续值表示。
正确答案:√3.需求弹性大的产品价钱与销售收入反向变化。
正确答案:√4.一般而言,定量展望方法在知足以下三个条件时才能使用:一是能够知道待测变量的过去值,二是信息能够量化,三是过去的改动形式将连续到将来是一个合理的假定。
正确答案:√5.在对不一样项目进行风险权衡时,能够用标准差作为标准,标准差越大,方案风险水平越高。
正确答案:×6.在一准时期和必定产销量范围内,固定成本与产品的产销量多少没有关系,只有可变为本才与产品产销量的增减变化发生关系。
正确答案:√7.假如两个变量不独立,那这二者的有关系数必定不等于0 。
正确答案:×8.数据库种类是依照数据存取的方法来区分的。
正确答案:×9.SQL 语言中,条件年纪 BETWEEN 15 AND 35,表示年纪在 15 至 35 之间,且包含 15 岁但不包含 35 岁。
正确答案:×10.资本成本就是资本的时间价值。
正确答案:×精选文档11.一组数据排序后处于25%和 75%地点上的值称为四分位数。
正确答案:√12.公司购并处于竞争地位的同种类公司形成公司公司称为公司多角化。
正确答案:×13.内部利润率考虑了资本时间价值,受折现率高低的影响。
正确答案:×14.边沿收入是指每增添 1 单位销量所带来的总收入的增添额度。
正确答案:√15.分类展望时,正确率和召回率存在矛盾关系,不可以同时增大,因此要考虑他们的综合影响,即 F1-Score 。
正确答案:×二、单项选择题1.当全部观察值都落在回归直线上,则这两个变量之间的有关系数为()A、1B、 -1C、+1 或-1D、0正确答案: C2.表示职称为副教授、性别为男的表达式为()A、职称 =' 副教授 ' OR 性别 =' 男 'B、职称 =' 副教授 ' AND性别='男'C、 BETWEEN '副教授 ' AND ' 男'D、IN (' 副教授 ','男 ')正确答案: B3.对于以下实验数据: 1 , 108 , 11 , 8 , 5 , 6 , 8 , 8 , 7 , 11,描绘其集中趋向用()最为适宜,其值是()。
CPDA考试真题与答案2
一、判断题1.数据根据计量尺度不同可以分为分类数据和数值型数据。
正确答案:× 2.多次抛一枚硬币,正面朝上的频率是1/2。
正确答案:× 3.归纳法是一种从个别到一般的推理方法。
正确答案:√ 4.datahoop中输入的数据必须是数值型的。
正确答案:× 5.置信水平是假设检验中犯第一类错误的概率。
正确答案:× 6.当两种产品为互补品时,其交叉弹性小于零。
正确答案:√ 7.时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。
正确答案:× 8.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:× 9.盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。
正确答案:√ 10.决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。
正确答案:× 11.随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。
正确答案:× 12.当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。
正确答案:√ 13.维规约即事先规定所取模型的维数,可以认为是降维的一种。
正确答案:× 14.标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小。
正确答案:× 15.离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
正确答案:√ 二、单选题1.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、CLEARD、REMORE正确答案: A2.数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案: A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案: C4.以下哪个变量可以反映客户的忠诚度?()A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案: A5.以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况正确答案: D6.下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案: A7.某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单选题1. “大数据”是指规模超过 1000TB 的数据集。
正确答案:X2. 概率为 0 的事件是不可能事件,概率为 1 的事件是必然事件。
正确答案:X3. 将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。
正确答案:V4. 统计图中的散点图主要用来观察变量之间的相关关系。
正确答案:V5. 抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
正确答案:X6. Datahoop1.2 版中 K-means 聚类分析要求输入的数据必须是数值型数据。
正确答案:V7. 如果事件 A,B 互斥,且 P(A)>0,P(B)>0, 则 A, B 独立。
正确答案:X8. SQL中删除表的命令是“ DELETE TABL”正确答案:X9. 聚类分析中,各变量的取值在数量级上不能有过大的差异。
正确答案:V10. 如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
正确答案:11. 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
12. 使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。
正确答案:V13. 线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
正确答案:X14. 一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
正确答案:X15. 决策树中包含根结点、叶结点、内部结点和外部结点。
正确答案:X二、单选题1. 检查异常值常用的统计图形是()A、柱状图B箱线图C帕累托图D气泡图正确答案: B2. 什么是 KDD?()A、数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。
一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。
"鸡听了撒丫子就跑。
猪说:"你跑什么?"鸡叫道:“ 有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的()A、关联B聚类C分类D自然语言处理4. 假设检验中显著性水平•是()A、推断时犯取伪错误的概率B推断时取伪弃真的概率C正确推断的概率D是推断的可信度正确答案:B5. 矩估计的基本原理是()A、用样本矩估计总体矩B使得似然函数达到最大C使得似然函数达到最小D小概率事件在一次试验中是不可能发生的正确答案:A6. SQL查询语句中 HAVING子句的作用是()A、指出分组查询的范围B指出分组查询的值C指出分组查询的条件D指出分组查询的内容正确答案:C7. 以下哪项关于决策树的说法是错误的()A、冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是 NP完全问题正确答案:C8. 以下哪种方法不属于于监督学习模型()A、决策树B线性回归C关联分析D判别分析正确答案:C9 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3, 4},{2,3,5},{3,4,5}假定数据集中只有 5个项,若采用合并策略,则由候选产生过程得到 4- 项集不包含()A、1,2,3,4C、1,2,4,5D、1,3,4,5正确答案: C10. 下列不属于原始数据来源的是(A、行政记录B统计调查C统计年鉴D实验正确答案: C11. 下列不属于分类算法的是()A、 C4.5 算法B逻辑回归C KNN算法D、 TF-TDF 算法正确答案: D12. 相关分析与回归分析的一个重要区别是()A、前者研究变量之间关系的密切程度,后者研究变量间的变动关系,并用方程式表示B前者研究变量之间的变动关系,后者研究变量间关系的密切程度C两者都研究变量间的变动关系D两者都不研究变量间的变动关系正确答案: A13. 数据仓库是随着时间变化的 , 下面的描述不正确的是()A、数据仓库随时间的变化不断增加新的数据内容B捕捉到的新数据会覆盖原来的快照C数据仓库随时间变化不断删去旧的数据内容D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合正确答案: C14. 资金的时间价值是()A、同一资金在同一时点上价值量的差额B同一资金在不同时点上价值量的差额C不同资金在同一时点上价值量的差额 D不同资金在不同时点上价值量的差额15. 描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是()A、极差B标准差C均值D变异系数正确答案: B16. 下列有关 Apriori 算法的说法中不正确的是()A、 Apriori 算法是关联分析中最常用的算法之一。
B应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值。
C应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据。
D、 Apriori 算法扫描数据库的次数依赖于最大频繁项集中项的数量。
正确答案: C17. 当置信水平一定时,置信区间的宽度()A、随着样本量的增大而减小B随着样本量的增大而增大C与样本量的大小无关D先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。
正确答案: A18. 一种商品价格变动与由此引起另外一种商品需求量相对变动的比率称为()A、需求价格弹性B供给价格弹性C需求交叉弹性D供给交叉弹性正确答案: C19. 分类器效果检验中的准确率是指()A、预测正确的数据在总数据中的比例B预测为正的数据在总数据中的比例C预测为正的数据中实际为正的数据所占比例D实际为正的数据中被预测为正的数据所占比例正确答案: C20. 给出下列结论:(1)在回归分析中,可用指数系数R 方的值判断模型的拟合效果, R 方越大,模型的拟合效果越好;(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r 的值判断模型的拟合效果, r 越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高.以上结论中,正确的有()个.A、1B、2C、3D、4正确答案: A21. 维度规约是在以下哪个步骤的任务?()A、频繁模式挖掘B降维C数据预处理D数据流挖掘正确答案: C22. 假设属性 income 的最大最小值分别是 12000 元和 98000 元。
利用最大 - 最小规范化的方法将属性的值映射到 0 至 1 的范围内。
对属性 income 的 73600 元将被转化为()A、0.751B、0.163C、0.457D、0.716正确答案: D23. 假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13, 15, 16,16,19,20, 20, 21 , 22, 22, 25, 25, 25, 30, 33, 33, 35, 35, 36, 40, 45, 46,52, 70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为()A、15.7B、18.3C、19.7D以上都不对正确答案: B24. EXCEL 中,求标准差的函数是()A、AVERAGEB、MEDIANC、MODED、STDEV25. 人们购买制冷用空调主要是为了在夏天获得凉爽空气,这属于空调产品整体概念中的()A、有形产品B直接产品C核心产品D主要产品正确答案: C)进行决策的一种方法。
26. 贝叶斯决策是根据(A、极大似然概率B先验概率C边际概率D后验概率正确答案: D27. 某人欲为子女筹措 250000 元的留学经费,预计在 8 年内的每年年初在银行存入一笔款项,如银行存款年利率为8%,每年应存入金额为()A、 23502.87B、 23505.20C、 12698.6D、 21762.67正确答案: D28. 指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度()A、平滑常数B指数平滑数初始值C跨越期D季节指数正确答案: A29. 某牙膏厂原来生产两面针药物牙膏,现在又增加牙刷生产,这属于()A、同心多元化B水平多元化C集团多元化D相关多元化正确答案: B30. 净现值、内部收益率、获利指数指标之间的数量关系是()A、当 NPV>0时,IRR>i,PI<1B 当 NPV>0时,IRR>i,PI>1C 当 NPV<0时,IRR>i,PI<1D 当 NPV<0时,IRR>i , Pl>1正确答案: B三、多选题1. 以下关于皮尔森相关分析叙述正确的是()A、两变量独立,两者的皮尔森相关系数必然等于0B两变量皮尔森相关系数不等于0,两者必然不独立C皮尔森相关系数是否等于零,不能指明两变量是否独立D两变量不独立,两者的皮尔森相关系数必然不等于0正确答案: AB2. 在实际数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法有:()A、直接删除B使用属性的平均值填充空缺值C使用一个全局常量填充空缺值D使用与给定元组属同一类的所有样本的平均值正确答案: ABCD3. 描述变量离期望值大小的指标是()A、方差B变异系数C标准差D期望正确答案: ABC4. 以下属于分类器评价或比较尺度的有()A、预测准确度B召回率C模型描述的简洁度D、F1-Score正确答案: ABD5. 以下关于逻辑回归的说法正确的是()A、应用逻辑回归时,异常值会对模型造成很大的干扰。
B逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。
C逻辑回归对模型中自变量的多重共线性较为敏感。
D逻辑回归属于分类算法。
6. 下列项目中,其变动可以改变盈亏平衡点位置的因素有(A、单价B单位变动成本C销量D固定成本正确答案: ABCD7. 关于基准收益率的表述,正确的是()A、基准收益率越高越好B基准收益率越低越好,但不能低于银行贷款利率C可以采用项目加权平均资金成本为基础确定基准收益率D可以采用国家有关部门或行业统一发布的行业基准收益率正确答案: CD8. 数据离散化是指为了数据分析的需要,将连续数据转换为离散型数据的过程。
数据离散化的方法有()A、随机取值B等距离散法C数值规约D等频离散法正确答案: BD9. 根据分析内容和侧重面不同,风险分析的方法有()A、敏感性分析B概率分析C经济效益分析D盈亏平衡分析正确答案: ABD10. 以下说法正确的有()A、评价预测精度是通过测量与分析预测误差进行的B绝对误差是实际观测值与预测值的离差C相对误差反映实际观测值与预测值之间差异的相对程度D平均误差反映实际观测值与预测值之间的平均差异正确答案: ABCD11. 下列公式正确的是()A、流动资金=流动资产-流动负债B流动资产=应收账款+存货C流动负债=应付账款+预收账款D流动资金本年增加额=本年流动资金-上年流动资金12. 如下哪些不是基于规则的分类器的特点()A、规则集的表达能力远不如决策树好B基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分C无法被用来产生更易于解释的描述性模型D非常适合处理类分布不平衡的数据集正确答案: AC13. 以下有关随机森林算法的说法正确的是()A、随机森林算法的分类精度不会随着决策树数量的增加而提高。