CPDA考试真题与答案

合集下载

CPDA考试真题与答案

CPDA考试真题与答案

一、判断题(题数:15,共15.0 分)1.定量属性可以是整数值或者是连续值。

()正确答案:√2. 分类模型的误差大致分为两种:训练误差( training error )和泛化误差( generalizationerror )。

()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

()正确答案:×4. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()正确答案:×5. 聚类分析可以看作是一种非监督的分类。

()正确答案:√6. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

()正确答案:√7. 允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。

()正确答案:√8. 召回率反映的是预测为正中的样本中正例的概率。

()正确答案:×9. 支持度表示前项与后项在一个数据集中同时出现的频率。

()正确答案:√10. 最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。

()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

()(1.0 分) 1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

()正确答案:×13.数据可视化可以便于人们对数据的理解。

()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

()正确答案:√15.资金本身具有时间价值。

()正确答案:×二、单选题(题数:30,共 45.0分)1. 某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案:B2. 以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。

CPDA考试真题与答案完美

CPDA考试真题与答案完美

一、单选题1.“大数据”是指规模超过1000TB的数据集。

正确答案:×2.概率为0的事件是不可能事件,概率为1的事件是必然事件。

正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。

正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。

正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。

正确答案:×6.Datahoop1.2版中 K-means聚类分析要求输入的数据必须是数值型数据。

正确答案:√7.如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。

正确答案:×8.SQL中删除表的命令是“DELETE TABLE”。

正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。

正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。

正确答案:×11.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。

正确答案:√13.线性回归模型的拟合优度可采用可决系数进行评判。

可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。

正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。

正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。

正确答案:×二、单选题1. 检查异常值常用的统计图形是()A、柱状图B、箱线图C、帕累托图D、气泡图正确答案: B2. 什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。

CPDA考试真题与答案 5

CPDA考试真题与答案 5

一、判断题(题数:15,共分)1.定量属性可以是整数值或者是连续值。

()正确答案:√2.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。

()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

()正确答案:×4.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()正确答案:×5.聚类分析可以看作是一种非监督的分类。

()正确答案:√6.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

()正确答案:√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。

()正确答案:√8.召回率反映的是预测为正中的样本中正例的概率。

()正确答案:×9.支持度表示前项与后项在一个数据集中同时出现的频率。

()正确答案:√10.最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。

()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

()(分)分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

()正确答案:×13.数据可视化可以便于人们对数据的理解。

()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

()正确答案:√15.资金本身具有时间价值。

()正确答案:×二、单选题(题数:30,共分)1.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案: B2.以下两种描述分别对应哪两种对分类算法的评价标准()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。

CPDA考试真题与答案-4

CPDA考试真题与答案-4

CPDA考试真题与答案-410.时间序列若无季节变动,则其各月(季)季节指数为0.正确答案:×11.一个硬币掷10 次,其中5 次正面向上的概率是0.5。

正确答案:×12.DBSCAN算法对异常值敏感,因此要在聚类前进行异常值分析。

正确答案:×13.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。

正确答案:×14.召回率(recall)指预测为正的样本中实际为正的样本所占比例。

正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。

正确答案:×二、单选题1.Apriori算法用下列哪个做项目集(Itemset)的筛选?A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购买数量正确答案:B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为 3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着()A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小,南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案:D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于()A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案:C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为()A、8,9B、8,8C、8.5,8D、8.5,9正确答案:B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是()A、负相关B、正相关C、零相关D、曲线相关正确答案:B6.下表为一交易数据库,请问A → C 的信赖度(Confidence)为()A、75%B、50%C、60%D、66.7%正确答案:D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」?A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案:C8.以下哪个属于时间序列的问题?()A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案:B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,下列哪种填补法可得到较准确的结果?A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案:B10.某市有各类书店500家,其中大型50家,中型150家,小型300家。

CPDA考试真题与答案 5

CPDA考试真题与答案 5

一、判断题(题数:15,共15.0 分)1.定量属性可以是整数值或者是连续值。

()正确答案:√2.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。

()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

()正确答案:×4.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()正确答案:×5.聚类分析可以看作是一种非监督的分类。

()正确答案:√6.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

()正确答案:√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。

()正确答案:√8.召回率反映的是预测为正中的样本中正例的概率。

()正确答案:×9.支持度表示前项与后项在一个数据集中同时出现的频率。

()正确答案:√10.最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。

()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

()(1.0分)1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

()正确答案:×13.数据可视化可以便于人们对数据的理解。

()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

()正确答案:√15.资金本身具有时间价值。

()二、单选题(题数:30,共45.0 分)1.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案:B2.以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。

CPDA考试真题与答案-2.doc

CPDA考试真题与答案-2.doc

一、判断题1•数据根据计量尺度不同可以分为分类数据和数值型数据。

正确答案:X2•多次抛一枚硬币,正面朝上的频率是1/2O正确答案:x3. 归纳法是一种从个别到一般的推理方法。

正确答案:V4. datahoop中输入的数据必须是数值型的。

正确答案:x5•置信水平是假设检验中犯第一类错误的概率。

6. 当两种产品为互补品时,其交叉弹性小于零。

正确答案:V7. 时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。

正确答案:x8•需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

正确答案:x9. 盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。

正确答案:V10. 决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。

".随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。

正确答案:X12. 当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。

正确答案:V13. 维规约即事先规定所取模型的维数,可以认为是降维的一种。

正确答案:x14. 标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小。

正确答案:x15. 离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

二、单选题1.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、C LEARD、R EMORE正确答案:A2•数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案:A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案:C4•以下哪个变量可以反映客户的忠诚度?()A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案:A5. 以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况正确答案:D6. 下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案:A7. 某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。

CPDA考试真题与答案2

CPDA考试真题与答案2

一、判断题1.数据根据计量尺度不同可以分为分类数据和数值型数据。

正确答案:× 2.多次抛一枚硬币,正面朝上的频率是1/2。

正确答案:× 3.归纳法是一种从个别到一般的推理方法。

正确答案:√ 4.datahoop中输入的数据必须是数值型的。

正确答案:× 5.置信水平是假设检验中犯第一类错误的概率。

正确答案:× 6.当两种产品为互补品时,其交叉弹性小于零。

正确答案:√ 7.时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。

正确答案:× 8.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

正确答案:× 9.盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。

正确答案:√ 10.决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。

正确答案:× 11.随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。

正确答案:× 12.当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。

正确答案:√ 13.维规约即事先规定所取模型的维数,可以认为是降维的一种。

正确答案:× 14.标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小。

正确答案:× 15.离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

正确答案:√ 二、单选题1.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、CLEARD、REMORE正确答案: A2.数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案: A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案: C4.以下哪个变量可以反映客户的忠诚度?()A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案: A5.以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况正确答案: D6.下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案: A7.某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。

CPDA考试真题与答案1

CPDA考试真题与答案1

一、单选题1.“大数据”是指规模超过 1000TB 的数据集。

正确答案:×2. 概率为 0 的事件是不可能事件,概率为 1 的事件是必然事件。

正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。

正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。

正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。

正确答案:×6.Datahoop1.2 版中 K-means 聚类分析要求输入的数据必须是数值型数据。

正确答案:√7.如果事件 A,B 互斥,且 P(A)>0,P(B)>0, 则 A , B 独立。

正确答案:×8.SQL 中删除表的命令是“ DELETE TABLE”。

正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。

正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。

正确答案:×11. 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。

正确答案:√13. 线性回归模型的拟合优度可采用可决系数进行评判。

可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。

正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。

正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。

正确答案:×二、单选题1. 检查异常值常用的统计图形是()A 、柱状图B、箱线图C、帕累托图D、气泡图正确答案:B2.什么是 KDD ?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案:A3.东北人养了一只鸡和一头猪。

CPDA考试真题及答案

CPDA考试真题及答案

一、判断题1.数据可分为构造化数据和非构造化数据等。

正确答案:√2.大数据与传统数据有着本质上的差异,因此之前处理数据的方法和软件都不再适用,大数据分析有专用的软件和方法。

正确答案:×3.数据分析的核心是数据,因此数据的获取和处理十分关键。

正确答案:×4.Apriori算法可用于分类预算。

正确答案:×5.一组数据的众数和中位数都是唯一的。

正确答案:×6.资金的时间价值表达在资金会随着时间而增值,如银行存款会增加利息。

正确答案:×7.茎叶图不仅能够反映数据的分布情况,还能显示数据的原始信息。

正确答案:√8.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。

正确答案:√9.在对不同工程进展风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。

正确答案:×10.时间序列假设无季节变动,则其各月〔季〕季节指数为0.正确答案:×11.一个硬币掷10 次,其中5 次正面向上的概率是0.5。

正确答案:×12.DBSCAN算法对异常值敏感,因此要在聚类前进展异常值分析。

正确答案:×13.在假设检验中,当我们做出拒绝原假设而承受备择假设的结论时,表示原假设是错误的。

正确答案:×14.召回率〔recall〕指预测为正的样本中实际为正的样本所占比例。

正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。

正确答案:×二、单项选择题1.Apriori算法用以下哪个做工程集(Itemset)的筛选.A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购置数量正确答案:B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着〔〕A、南方和北方女婴出生体重的差异无统计学意义B、南方和北方女婴出生体重差异很大C、由于P值太小,南方和北方女婴出生体重差异无意义D、南方和北方女婴出生体重差异有统计学意义但无实际意义正确答案:D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于〔〕A、用于对模型的效果进展无偏的评估B、用于比拟不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案:C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为〔〕A、8,9B、8,8C、8.5,8D、8.5,9正确答案:B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是〔〕A、负相关B、正相关C、零相关D、曲线相关正确答案:B6.下表为一交易数据库,请问A →C 的信赖度(Confidence)为〔〕A、75%B、50%C、60%D、66.7%正确答案:D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」.A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案:C8.以下哪个属于时间序列的问题.〔〕A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案:B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,以下哪种填补法可得到较准确的结果.A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案:B10.*市有各类书店500家,其型50家,中型150家,小型300家。

项目数据分析师(PADC)理论考试真题及答案(一)

项目数据分析师(PADC)理论考试真题及答案(一)

项目数据分析师(CPDA)理论考试测试题及答案(一)填空题:题目1:(期望值)是各种可能的结果的取值中心,(标准差)表示了未来可能的收益水平围绕最佳期望值变化的区间大小。

题目2:某项永久性奖学金,每年计划颁发50000元奖金。

若年复利率为8%,该奖学金的本金应为(625000)元。

(说明:答案取整数)题目3:NPV的标准差越大,说明项目的风险越(大)题目4:折现率是将未来收益还原或转换为(现值)的比率,通常按项目的(资本成本)确定。

题解:折现率是将未来收益转换为现值的比率,在项目投资的效益评价中,折现率通常以项目的资本成本作为确定依据。

题目5:盈亏平衡分析按照产品销售量和销售收入的关系可以分为(线性)盈亏平衡分析和(非线性)盈亏平衡分析。

题解:根据产销量、成本、利润三者间的关系,可将盈亏平衡分析分为线性盈亏平衡分析与非线性盈亏平衡分析。

线性盈亏平衡分析是建立在假设销售收入与产销量、总成本与产销量成线性函数关系基础上,非线性盈亏平衡分析是在产品成本与产量往往呈非线性变化的实际情况下发展起来的。

判断题:题目1:投资是指与基础建设相关的经济活动,包括基本建设投资和固定资产更新改造投资。

(错误)题目2:会计收益中由于采用的折旧方法不同,各期计提的折旧费用就不同,影响当期收益的计算结果也就不同,会导致折算出来的现值就不一致。

(正确)题目3:风险就是不确定性,不确定性就是风险。

(错误)题目4:项目的数据分析必须通过建立数学模型的方法进行分析。

(正确)题目5:流动资金从本质上来说应归为长期借款。

(错误)题目6:资金时间价值是资金在周转使用中产生的,是资金所有者让渡资金使用权而参与社会财富分配的一种形式。

(正确)题解:资金的时间价值也被称为货币的时间价值。

从资金所有者的角度来看,资金的所有者把资金的使用权转让给使用者时,要求获得一定的报酬;从使用者的角度来看,投资的目的就是获得资本的增值;从消费者的角度来看,未来存在通货膨胀以及其他的风险,牺牲现在的消费总是要求获得补偿的。

CPDA考试真题与答案5

CPDA考试真题与答案5

一、判断题(题数:15 ,共15.0 分)1.定量属性可以是整数值或者是连续值。

()正确答案:√2.分类模型的误差大致分为两种:训练误差(training error )和泛化误差(generalizationerror )。

()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

()正确答案:×4.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()正确答案:×5.聚类分析可以看作是一种非监督的分类。

()正确答案:√6.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

()正确答案:√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。

()正确答案:√8.召回率反映的是预测为正中的样本中正例的概率。

()正确答案:×9.支持度表示前项与后项在一个数据集中同时出现的频率。

()正确答案:√10. 最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。

()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

()(1.0 分) 1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

()正确答案:×13.数据可视化可以便于人们对数据的理解。

()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

()正确答案:√15. 资金本身具有时间价值。

()正确答案:×二、单选题(题数:30 ,共45.0 分)1.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案: B2.以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。

CPDA考试真题与答案1

CPDA考试真题与答案1

一、单选题1.“大数据”是指规模超过1000TB的数据集。

正确答案:×2.概率为0的事件是不可能事件,概率为1的事件是必然事件。

正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。

正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。

正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。

正确答案:×6.Datahoop1.2版中K-means聚类分析要求输入的数据必须是数值型数据。

正确答案:√7.如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。

正确答案:×8. SQL中删除表的命令是“DELETE TABLE”。

正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。

正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。

正确答案:×11.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。

正确答案:√13.线性回归模型的拟合优度可采用可决系数进行评判。

可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。

正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。

正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。

正确答案:×二、单选题1. 检查异常值常用的统计图形是()A、柱状图B、箱线图C、帕累托图D、气泡图正确答案: B2. 什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。

CPDA考试真题与答案 4

CPDA考试真题与答案 4

一、判断题1.数据可分为结构化数据和非结构化数据等。

正确答案:√2.大数据与传统数据有着本质上的差别,因此之前处理数据的方法和软件都不再适用,大数据分析有专用的软件和方法。

正确答案:×3.数据分析的核心是数据,因此数据的获取和处理十分关键。

正确答案:×4.Apriori算法可用于分类预算。

正确答案:×5.一组数据的众数和中位数都是唯一的。

正确答案:×6.资金的时间价值体现在资金会随着时间而增值,如银行存款会增加利息。

正确答案:×7.茎叶图不仅能够反映数据的分布情况,还能显示数据的原始信息。

正确答案:√8.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。

正确答案:√9.在对不同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。

正确答案:×10.时间序列若无季节变动,则其各月(季)季节指数为0.正确答案:×11.一个硬币掷 10 次,其中 5 次正面向上的概率是0.5。

正确答案:×12.DBSCAN算法对异常值敏感,因此要在聚类前进行异常值分析。

正确答案:×13.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。

正确答案:×14.召回率(recall)指预测为正的样本中实际为正的样本所占比例。

正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。

正确答案:×二、单选题1.Apriori算法用下列哪个做项目集(Itemset)的筛选?A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购买数量正确答案: B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着()A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小,南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案: D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于()A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案: C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为()A、8,9B、8,8C、8.5,8D、8.5,9正确答案: B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是()A、负相关B、正相关C、零相关D、曲线相关正确答案: B6.下表为一交易数据库,请问A → C 的信赖度(Confidence)为()A、75%B、50%C、60%D、66.7%正确答案: D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」?A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案: C8.以下哪个属于时间序列的问题?()A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案: B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,下列哪种填补法可得到较准确的结果?A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案: B10.某市有各类书店500家,其中大型50家,中型150家,小型300家。

CPDA考试真题含答案

CPDA考试真题含答案

精选文档一、判断题1.样本容量是指从整体中抽取的个体。

正确答案:×2.质量数据既能够用整数值表示,也能够用连续值表示。

正确答案:√3.需求弹性大的产品价钱与销售收入反向变化。

正确答案:√4.一般而言,定量展望方法在知足以下三个条件时才能使用:一是能够知道待测变量的过去值,二是信息能够量化,三是过去的改动形式将连续到将来是一个合理的假定。

正确答案:√5.在对不一样项目进行风险权衡时,能够用标准差作为标准,标准差越大,方案风险水平越高。

正确答案:×6.在一准时期和必定产销量范围内,固定成本与产品的产销量多少没有关系,只有可变为本才与产品产销量的增减变化发生关系。

正确答案:√7.假如两个变量不独立,那这二者的有关系数必定不等于0 。

正确答案:×8.数据库种类是依照数据存取的方法来区分的。

正确答案:×9.SQL 语言中,条件年纪 BETWEEN 15 AND 35,表示年纪在 15 至 35 之间,且包含 15 岁但不包含 35 岁。

正确答案:×10.资本成本就是资本的时间价值。

正确答案:×精选文档11.一组数据排序后处于25%和 75%地点上的值称为四分位数。

正确答案:√12.公司购并处于竞争地位的同种类公司形成公司公司称为公司多角化。

正确答案:×13.内部利润率考虑了资本时间价值,受折现率高低的影响。

正确答案:×14.边沿收入是指每增添 1 单位销量所带来的总收入的增添额度。

正确答案:√15.分类展望时,正确率和召回率存在矛盾关系,不可以同时增大,因此要考虑他们的综合影响,即 F1-Score 。

正确答案:×二、单项选择题1.当全部观察值都落在回归直线上,则这两个变量之间的有关系数为()A、1B、 -1C、+1 或-1D、0正确答案: C2.表示职称为副教授、性别为男的表达式为()A、职称 =' 副教授 ' OR 性别 =' 男 'B、职称 =' 副教授 ' AND性别='男'C、 BETWEEN '副教授 ' AND ' 男'D、IN (' 副教授 ','男 ')正确答案: B3.对于以下实验数据: 1 , 108 , 11 , 8 , 5 , 6 , 8 , 8 , 7 , 11,描绘其集中趋向用()最为适宜,其值是()。

CPDA考试真题与答案 2

CPDA考试真题与答案 2

一、判断题1。

数据根据计量尺度不同可以分为分类数据和数值型数据。

正确答案: ×2。

多次抛一枚硬币,正面朝上的频率是1/2。

正确答案:×3.归纳法是一种从个别到一般的推理方法。

正确答案:√4.datahoop中输入的数据必须是数值型的。

正确答案:×5。

置信水平是假设检验中犯第一类错误的概率。

正确答案:×6.当两种产品为互补品时,其交叉弹性小于零。

正确答案:√7.时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的.正确答案:×8.需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

正确答案:×9.盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。

正确答案:√10.决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。

正确答案:×11。

随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。

正确答案: ×12。

当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型.正确答案:√13.维规约即事先规定所取模型的维数,可以认为是降维的一种。

正确答案:×14.标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小.正确答案: ×15。

离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的.正确答案:√二、单选题1。

SQL语言中,删除一个表中所有数据,但保留表结构的命令是( )A、DELETEB、DROPC、CLEARD、REMORE正确答案:A2.数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案:A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案: C4。

CPDA考试真题与答案 4

CPDA考试真题与答案 4

一、判断题1.数据可分为结构化数据和非结构化数据等。

正确答案:√2.大数据与传统数据有着本质上的差别,因此之前处理数据的方法和软件都不再适用,大数据分析有专用的软件和方法。

正确答案:×3.数据分析的核心是数据,因此数据的获取和处理十分关键。

正确答案:×算法可用于分类预算。

正确答案:×5.一组数据的众数和中位数都是唯一的。

正确答案:×6.资金的时间价值体现在资金会随着时间而增值,如银行存款会增加利息。

正确答案:×7.茎叶图不仅能够反映数据的分布情况,还能显示数据的原始信息。

正确答案:√8.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。

正确答案:√9.在对不同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。

正确答案:×10.时间序列若无季节变动,则其各月(季)季节指数为0.正确答案:×11.一个硬币掷10 次,其中5 次正面向上的概率是。

正确答案:×算法对异常值敏感,因此要在聚类前进行异常值分析。

正确答案:×13.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。

正确答案:×14.召回率(recall)指预测为正的样本中实际为正的样本所占比例。

正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。

正确答案:×二、单选题算法用下列哪个做项目集(Itemset)的筛选A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购买数量正确答案: B2.为调查我国城市女婴出生体重:北方n1=5385,均数为,标准差为;南方n2=4896,均数为,标准差为,经统计学检验,p=<,这意味着()A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小,南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案: D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于()A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案: C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为()A、8,9B、8,8C、,8D、,9正确答案: B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是()A、负相关B、正相关C、零相关D、曲线相关正确答案: B6.下表为一交易数据库,请问A → C 的信赖度(Confidence)为()A、75%B、50%C、60%D、%正确答案: D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案: C8.以下哪个属于时间序列的问题()A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案: B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,下列哪种填补法可得到较准确的结果A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案: B10.某市有各类书店500家,其中大型50家,中型150家,小型300家。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判断题(题数: 15,共 15.0 分)1. 定量属性可以是整数值或者是连续值。

()正确答案:V2. 分类模型的误差大致分为两种:训练误差(training error )和泛化误差(generalization error )。

()正确答案:V3. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

()正确答案:x4. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()正确答案:x5. 聚类分析可以看作是一种非监督的分类。

()正确答案:V6. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

()正确答案:V7. 允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。

()正确答案:V8. 召回率反映的是预测为正中的样本中正例的概率。

()正确答案:x9. 支持度表示前项与后项在一个数据集中同时出现的频率。

()正确答案:V10. 最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。

()正确答案:V11. 波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

()(1.0 分)1.0 分正确答案:X12. 异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

()正确答案:X13. 数据可视化可以便于人们对数据的理解。

()正确答案:V14. 大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

()正确答案:V15. 资金本身具有时间价值。

()正确答案:X二、单选题(题数:30,共 45.0 分)1. 某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B关联规则C分类分析D自然语言处理正确答案: B2. 以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。

(b)描述有多少比例的杀人犯给警察抓了的标准。

A、Precision, RecallB、Recall, PrecisionC、Precision, ROCD、Recall, ROC正确答案: A3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、数据获取B分类和预测C数据预处理D数据可视化正确答案: C4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B聚类C关联分析D主成分分析正确答案: B5. 下面哪种不属于数据预处理的方法?()A、变量代换B离散化C聚集D估计遗漏值正确答案: D6. 假设 12个销售价格记录组已经排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用等宽划分(宽度为50)方法将它们划分成四个箱,求15 在哪个箱子里?()A、第一个B第二个C第三个D第四个正确答案: A7. 以下哪些算法是分类算法?()A、DBSCANB、C4.5D、K-medoids正确答案: B8. 以下哪些分类方法可以较好地避免样本的不平衡问题?()A、KNNB、SVMC、BayesD神经网络正确答案: A9. 关于K均值和DBSCA的比较,以下说法不正确的是()。

A K均值丢弃被它识别为噪声的对象,而DBSCA一般聚类所有对象B K均值使用簇的基于原型的概念,而DBSCA使用基于密度的概念C K均值很难处理非球形的簇和不同大小的簇,DBSCAI可以处理不同大小和不同形状的簇D K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAI会合并有重叠的簇正确答案: A10. 下列不属于关联分析的关键要素的是()A、支持度B置信度C满意度D提升度正确答案: C11. 因子分析的主要作用有()A、对变量进行降维B对变量进行判别C对变量进行聚类D以上都不对正确答案: A12. R0C曲线凸向哪个角,代表模型越理想?()B左下角C右上角D右下角正确答案: A13. SQL 语句中删除表的命令是()A、DROP TABLEB、DELETE TABLEC、ERASE TABLED、DELETE DBF正确答案: A14. 在多元回归模型的检验中,目的是检验每一个自变量与因变量在指定显著性水平上是否存在线性相关关系的检验是()A、r 检验B、t 检验C、f 检验D DW检验正确答案: B15. ()提供的支撑技术,有效解决了大数据分析、研发的问题,比如虚拟化技术、并行计算、海量存储和海量管理等。

A、点计算B线计算C云计算D面计算正确答案: C16. 智能健康手环的应用开发,体现了()的数据采集技术的应用。

A、统计报表B网络爬虫C、 API 接口D传感器正确答案: D17. 下列关于数据重组的说法中,错误的是(A、数据重组是数据的重新生产和重新采集B数据重组能够使数据焕发新的光芒C数据重组实现的关键在于多源数据融合和数据集成D数据重组有利于实现新颖的数据模式创新正确答案: A18. 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的()A、在数据基础上倾向于全体数据而不是抽样数据B在分析方法上更注重相关分析而不是因果分析C在分析效果上更追究效率而不是绝对精确D在数据规模上强调相对数据而不是绝对数据正确答案: B19. 当前国内社会中,最为突出的大数据环境是()A、互联网B物联网C综合国力D自然资源正确答案: A20. 下列关于聚类挖掘技术的说法中,错误的是()A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B要求同类数据的内容相似度尽可能小C要求不同类数据的内容相似度尽可能小D与分类挖掘技术相似的是,都是要对数据进行分类处理正确答案: B21. 下列关于大数据的分析理念的说法中,错误的是()A、在数据基础上倾向于全体数据而不是抽样数据B在分析方法上更注重相关分析而不是因果分析C在分析效果上更追究效率而不是绝对精确D在数据规模上强调相对数据而不是绝对数据正确答案: D22. 对于企业来说,数据使用的关键是()A、数据收集B数据存储C数据分析D数据再利用正确答案: D23. 数据仓库的最终目的是()A、收集业务需求B建立数据仓库逻辑模型C开发数据仓库的应用分析D为用户和业务部门提供决策支持正确答案: D24. 大数据背景下,数据支撑业务的目的是()A、建立数据科学B完成数据应用C配备数据硬件D吸纳数据人才正确答案: B25. 在SQL中,创建数据库用的命令是()A、CREATE SCHEMAB、CREATE TABLEC、CREATE VIEWD、CREATE DATABASE正确答案: D26. 下列四项中,不属于数据库特点的是()A、数据共享B数据完整性C数据冗余很高D数据独立性高正确答案: C27. 资金的时间价值是()A、同一资金在同一时点上价值量的差额B同一资金在不同时点上价值量的差额C不同资金在同一时点上价值量的差额D不同资金在不同时点上价值量的差额正确答案: B28. 下列选项中属于现金流入的项目是()A、所得税B建设投资C经营成本D营业收入正确答案: D29. 下列关于计算机存储容量单位的说法中,错误的是()A、 1KB<1MB<1GBB 基本单位是字节(Byte)C一个汉字需要一个字节的存储空间D—个字节能够容纳一个英文字符正确答案: C30. 按数据的结构程度来划分,分为()A、结构化数据半结构化数据非结构化数据B强结构化数据弱结构化数据C截面数据面板数据D —级数据二级数据三级数据正确答案: A三、多选题(题数: 20,共 40.0 分)1. 以下属于数据预处理的是(A、缺失值填充B噪声数据剔除C异常值识别D数据可视化正确答案: ABC2. 缺失值的处理方法有哪些?()A、用平均值填充B忽略缺失记录C以任意数据填充D用默认值填充正确答案: ABD3. 以下属于数据规约方法的是()A、数据离散化B数据标准化C噪声数据识别D数据压缩正确答案: AD4. 数据挖掘的预测建模任务主要包括哪几大类问题?()A、分类B回归C模式发现D模式匹配正确答案: AB5. 以下说法正确的有哪些 ?()A、大数据仅仅是讲数据的体量大B大数据对传统行业有帮助C大数据会带来机器智能D大数据是一种思维方式6. 关于大数据的来源,以下理解正确的是(A、大数据是数据量变积累达到质变的结果B数据的产生需要经历很长时间C我们每个人都是数据的制造者D当今的世界,基本上一切都可以用数字表达,所以叫数字化的世界正确答案: ACD7. 大数据在今天这个时间点上爆发的原因有哪些?()A、各种传感器无时无刻不在为我们提供大量的数据B各种监控设备无时无刻不在为我们提供大量的数据C各种智能设备无时无刻不在为我们提供大量的数据D互联网的收集和积累正确答案: ABCD8. ()这些数据特性都是对聚类分析具有很强影响的。

A、高维性B规模C稀疏性D噪声和离群点正确答案: ABCD9. 以下哪个分布是右偏分布?()A、均匀分布B卡方分布C、 F 分布D对数正态分布正确答案: BCD10. 以下哪些变量使用 RFM方法构造出来的?()A、最近3期境外消费金额B最近6期网银消费交易笔数C信用额度D距最近一次逾期的月数11. 如下表 student 中, 如何筛选 type 为包含数学或语文的记录 ?( )A 、select * from student where type=B 、select * from student where type=C 、select * from student where type in (D 、select * from student where type in (正确答案: BC12. 主成分分析计算选择相关系数计算法时,确定主成分个数的大致原则包括(A 、特征根值大于1B 特征根值大于 0.8C 累积特征根值加总占总特征根值的80%以上 D 累积特征根值加总占总特征根值的90%以上 正确答案: AC1 3.在客户关系管理中,客户的生命周期都包括()阶段。

A 、潜在客户B 响应客户C 即得客户D 流失客户正确答案: ABCD1 4.分箱方法有哪些?( )(2.0 分)0.0 分A 、等深分箱B 等宽分箱C 数据标准化D 自定义区间法正确答案: ABD15. 利用 Apriori 算法计算频繁项集可以有效降低计算频繁集的时间复杂度。

相关文档
最新文档