大数据CPDA考试模拟样题 数据分析算法与模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
考试模拟样题—数据分析算法与模型
一.计算题 (共4题,100.0分)
1.下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:
一元线性回归.xlsx
一元线性回归预测.xlsx
要求:(1)绘制散点图,并计算相关系数,说明二者之间的关系;
(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义;
(3)计算判定系数,并解释其意义;
(4)检验回归方程线性关系的显著性(a=0.05);
(5)如果某地区的人均GDP为5000元,预测其人均消费水平;
(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。(所有结果均保留三位小数)
正确答案:
(1)以人均GDP为x,人均消费水平为y绘制散点图,如下:
用相关系数矩阵分析可求得相关系数为0.9981。从图和相关系数都可以看出人均消费水平和人均国内生产总值(GDP)有比较强的正相关关系。
(2)以人均GDP作自变量,人均消费水平作因变量,做线性回归分析,得到回归方程如下:
y = 0.3087x + 734.6928
回归系数0.3087表示人均GDP每增加一个单位,人均消费水平大致增加0.3087个单位,人均GDP对人均消费水平的影响是正向的,人均GDP越高人均消费水平也越高。
(3)判定系数R方为0.9963,说明模型拟合效果很好。
(4)T检验和F检验的P值都小于0.05,线性关系显著。
(5)做预测分析可得,如果某地区的人均GDP为5000元,则其人均消费水平为2278.1066元。
(6)人均GDP为5000元时,由预测分析的结果可知,人均消费水平95%的置信区间为[1990.7491,2565.4640],预测区间为
[1580.4632,2975.7500]。
2.根据以下给出的数据进行分析,本次给出鸢尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的类型数据,请根据以下问题进行回答。(本
题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,一份预测数据)
鸢尾花训练数据.xlsx
鸢尾花测试数据.xlsx
鸢尾花预测数据.xlsx
(1)根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。
(2)根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以及准确率和召回率,Accuracy和F1的值(可根据测试数据结果计算表格得到测试数据集的相应的结果)。
(3)给出一组预测数据,根据训练模型结果预测,写出预测结果。
正确答案:
数据类型是数值型的不需要数值化,不存在缺失值,且训练数据类别均衡。逻辑回归要考虑异常值的影响,以及变量是否存在共线性,因此我们进行异常值分析和相关性分析。异常值分析发现异常值较多,猜测可能是分类的影响,因此不做处理。由相关矩阵可看出变量之间虽然也有相关,但不是很强,因此可以进行逻辑回归。
(1)得到逻辑回归方程ln(P(Xi)/(1-(Xi))=0.9922+1.4626x1+1.5556x2-
2.1949x3-2.2906x4
其中,x1代表萼片长、x2代表萼片宽、x3代表花瓣长、x4代表花瓣宽。
训练集拟合度的指标
为:
可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大。
(2)用训练数据和测试数据进行预测,对比测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得Accuracy、准确率召回率等如下:
因此模型的泛化误差不大,可以进行预测分析。
(3)接下来进行预测分析,预测结果如下:
3.下表为购物篮事物数据:
购物蓝数据集.xlsx
(1)设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支持度最大的二项频繁项目集。
(2)在第一问基础上设minconfidence=60%,找出所有的有效强关联规则。
正确答案:
首先将交易记录整理为datahoop平台可处理、分析的格式,具体如下:
(1)将数据导入DATEHOOP进行关联分析,根据题目要求,分析参数设置如下:最小支持度=0.4。得到所有频繁项目集:{a}、{d}、{b}、{c}、
{a,e}、{d,e}、{b,e}、{d,a}、{a,b}、{a,d,e}。其中支持度最大的二项频繁项目集为{a,e},其支持度为60%。
(2)设置最小支持度为0.4,最小置信度为0.6,得到提升度>1的有效强关联规则如下:
4.某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、定时、防干烧、不沾油、快速而准确地打火。
该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法。
并得到了公司的支持。假设你是小李
1.请你绘制KANO模型图来介绍对功能属性分类的思路
2.请你对燃气灶的防干烧功能属性设计调查问题
3.针对燃气灶的防干烧功能,受访者有多少种可能的回答组合,请写出每一种回
答组合所对应的属性类别符号(符号见最后一行题注)
4.假设基于对240名受访者的调研,得到下表,请算出这5种功能各自的worse 系数和better系数,并基于这两个系数判断这5中功能的属性类别
5.请对该燃气灶的这5项功能开发提出建议
注:魅力属性用符号A表示;必备属性用符号M表示;期望属性用符号O表示;可有可无属性用符号I表示;用户讨厌的属性用R表示;有问题的回答用Q表示
正确答案:
(1)
分为期望因素(O),表示具备某功能满意度会提升,反之则满意度下降;必备因素(M),表示不具备某功能满意度会明显下降,而具备某功能满意度不会大幅提升;无差异因素(I),表示具备或不具备某功能对满意度没影响;魅力因素(A)表示不具备某功能满意度不会明显下降,而具备某功能满