大数据CPDA考试模拟样题—数据分析算法与模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

考试模拟样题—数据分析算法与模型

一.计算题 (共4题,100.0分)

1.下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:

一元线性回归.xlsx

一元线性回归预测.xlsx

要求:(1)绘制散点图,并计算相关系数,说明二者之间的关系;

(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义;

(3)计算判定系数,并解释其意义;

(4)检验回归方程线性关系的显著性(a=0.05);

(5)如果某地区的人均GDP为5000元,预测其人均消费水平;

(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。(所有结果均保留三位小数)

正确答案:

(1)以人均GDP为x,人均消费水平为y绘制散点图,如下:

用相关系数矩阵分析可求得相关系数为0.9981。从图和相关系数都可以看出人均消费水平和人均国内生产总值(GDP)有比较强的正相关关系。

(2)以人均GDP作自变量,人均消费水平作因变量,做线性回归分析,得到回归方程如下:

y = 0.3087x + 734.6928

回归系数0.3087表示人均GDP每增加一个单位,人均消费水平大致增加0.3087个单位,人均GDP对人均消费水平的影响是正向的,人均GDP越高人均消费水平也越高。

(3)判定系数R方为0.9963,说明模型拟合效果很好。

(4)T检验和F检验的P值都小于0.05,线性关系显著。

(5)做预测分析可得,如果某地区的人均GDP为5000元,则其人均消费水平为2278.1066元。

(6)人均GDP为5000元时,由预测分析的结果可知,人均消费水平95%的置信区间为[1990.7491,2565.4640],预测区间为

[1580.4632,2975.7500]。

2.根据以下给出的数据进行分析,本次给出鸢尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的类型数据,请根据以下问题进行回答。(本

题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,一份预测数据)

鸢尾花训练数据.xlsx

鸢尾花测试数据.xlsx

鸢尾花预测数据.xlsx

(1)根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。

(2)根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以及准确率和召回率,Accuracy和F1的值(可根据测试数据结果计算表格得到测试数据集的相应的结果)。

(3)给出一组预测数据,根据训练模型结果预测,写出预测结果。

正确答案:

数据类型是数值型的不需要数值化,不存在缺失值,且训练数据类别均衡。逻辑回归要考虑异常值的影响,以及变量是否存在共线性,因此我们进行异常值分析和相关性分析。异常值分析发现异常值较多,猜测可能是分类的影响,因此不做处理。由相关矩阵可看出变量之间虽然也有相关,但不是很强,因此可以进行逻辑回归。

(1)得到逻辑回归方程ln(P(Xi)/(1-(Xi))=0.9922+1.4626x1+1.5556x2-

2.1949x3-2.2906x4

其中,x1代表萼片长、x2代表萼片宽、x3代表花瓣长、x4代表花瓣宽。

训练集拟合度的指标

为:

可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大。

(2)用训练数据和测试数据进行预测,对比测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得Accuracy、准确率召回率等如下:

因此模型的泛化误差不大,可以进行预测分析。

(3)接下来进行预测分析,预测结果如下:

3.下表为购物篮事物数据:

购物蓝数据集.xlsx

(1)设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支持度最大的二项频繁项目集。

(2)在第一问基础上设minconfidence=60%,找出所有的有效强关联规则。

正确答案:

首先将交易记录整理为datahoop平台可处理、分析的格式,具体如下:

(1)将数据导入DATEHOOP进行关联分析,根据题目要求,分析参数设置如下:最小支持度=0.4。得到所有频繁项目集:{a}、{d}、{b}、{c}、

{a,e}、{d,e}、{b,e}、{d,a}、{a,b}、{a,d,e}。其中支持度最大的二项频繁项目集为{a,e},其支持度为60%。

(2)设置最小支持度为0.4,最小置信度为0.6,得到提升度>1的有效强关联规则如下:

4.某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、定时、防干烧、不沾油、快速而准确地打火。

该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法。

并得到了公司的支持。假设你是小李

1.请你绘制KANO模型图来介绍对功能属性分类的思路

2.请你对燃气灶的防干烧功能属性设计调查问题

3.针对燃气灶的防干烧功能,受访者有多少种可能的回答组合,请写出每一种回

答组合所对应的属性类别符号(符号见最后一行题注)

4.假设基于对240名受访者的调研,得到下表,请算出这5种功能各自的worse 系数和better系数,并基于这两个系数判断这5中功能的属性类别

5.请对该燃气灶的这5项功能开发提出建议

注:魅力属性用符号A表示;必备属性用符号M表示;期望属性用符号O表示;可有可无属性用符号I表示;用户讨厌的属性用R表示;有问题的回答用Q表示

正确答案:

(1)

分为期望因素(O),表示具备某功能满意度会提升,反之则满意度下降;必备因素(M),表示不具备某功能满意度会明显下降,而具备某功能满意度不会大幅提升;无差异因素(I),表示具备或不具备某功能对满意度没影响;魅力因素(A)表示不具备某功能满意度不会明显下降,而具备某功能满

相关文档
最新文档