数据分析期末试题及答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据分析期末试题及答案
一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)的数据，试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。

(25分)
解：
1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系
上图是以人均GDP(x1)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。

尝试多种模型后采用曲线估计，得出
表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系
上图是以成人识字率(x2)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间基本呈正线性关系。

上图是以疫苗接种率(x3)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。

x）为横轴，地区平均寿命(y)为纵轴的散点图，上图是以疫苗接种率(x3)的三次方（3
3
由图可知，他们之间呈正线性关系
所以可以采用如下的线性回归方法分析。

2.线性回归
先用强行进入的方式建立如下线性方程
设Y=β0+β1*（Xi1）+β2*Xi2+β3*
X+εi i=1.2 (24)
3i
其中εi（i=1.2……22）相互独立，都服从正态分布N（0，σ^2）且假设其等于方差
R值为0.952，大于0.8，表示两变量间有较强的线性关系。

且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)一起表示出来。

建立总体性的假设检验
提出假设检验H0：β1=β2=β3=0，H1,：其中至少有一个非零
得如下方差分析表
上表是方差分析SAS输出结果。

由表知，采用的是F分布，F=58.190，对应的检验概率P值是0.000.，小于显著性水平0.05，拒绝原假设，表示总体性假设检验通过了，平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

做独立性的假设检验得出参数估计表
2=β3=0：H1:β1、β2、β3不全为零
由表知，
β1=33.014，β1=0.072，β2=0.169，β3=0.178，以β1=0.072为例，表示当成人
识字率(x2)，一岁儿童疫苗接种率(x3)不变时，，人均GDP(x1)每增加一个单位，平
均寿命(y)就增加0.072个单位。

基于以上结果得出年平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗
接种率(x3)之间有显著性的线性关系有回归方程
Y=33.014+0.072*X1+ 0.169*X2+ 0.178*X3
β1、β2、β3对应得p值分别为0.000，0.000,0.002，对应的概率p值都小于0.05,
表示它们的单独性的假设检验没通过,即该模型是最优的，所以不用采用逐步回
归的方式分析。

对原始数据进行残差分析
未标准化的残差RES_1
-7.53964
-3.57019
-3.42221
-2.89835
-2.30455
-2.17263
-2.05862
-1.37142
-1.17048
-.43890
-.17260
-.03190
.94655
1.42896
1.61252
1.61590
2.10139
3.01856
3.02571
3.49808
4.60737
5.29645
以X1为横轴，RES_1为纵轴画出如下散点图
由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。

同理可以得出RES_1与X2、X3的散点图，
由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。

由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。

误差项的正态性检验
数据（RES_1）标准化残差ZRES_1
由图可以看出，散点图近似的在一条直线附近，则可以认为数据来自正太分布总体
二、诊断发现运营不良的金融企业是审计核查的一项重要功能，审计核查的分类失败会导致灾难性的后果。

下表列出了66家公司的部分运营财务比率，其中33家在2年后破产Y=0，另外33家在同期保持偿付能力(Y=1)。

请用变量X1(未分配利润/总资产)，X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic 回归模型，并根据模型给出实际意义的分析，数据见财务比率.sav(25分)。

解：
整体性的假设检验提出假设性检验
H0：回归系数i β=0（i=1，2,3），H1:不都为0 建立logistic 模型：
)}
0{1}
0{ln(
=-=Y p Y p =3
213210X X X ββββ+++
分类表a,b
已观测已预测
Y
百分比校正
1
步骤 0
Y
0 0 33 .0 1
0 33
100.0
上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵，其中33家在2年后破产（y=0），但模型均预测为错误，正确率为0%，另外33家在同期保持偿付能力(Y=1)，正确率为100%，所以模型总的预测正确率为50%。

由上表得知，如果变量X1(未分配利润/总资产)，X2(税前利润/总资产)进入方程，概率p值都为0.000，小于显著性水平0.05，本应该是拒绝原假设，X1，X2是可以进入方程的。

而X3(销售额/总资产)进入方程，概率p值为0.094，大于显著性水平0.05，本应该是接受原假设，X3(销售额/总资产)是不能进入方程的，但这里的解释变量的筛选策略为enter，是强行进入方程的。

用强行全部进入
-2倍的对数似然函数值越小表示模型的拟合优度越高，这里的值是5.791，比较小，表示模型的拟合优度还可以，而且Nagelkerke R 方为0.969，与0相比还是比较大的，所以拟合度比较高
上表显示了logistic 分析的初始阶段方程中只有常数项时的错判矩阵，其中33家在2年后破产（y=0），但模型预测出了32家，正确率为97%，另外33家在同期保持偿付能力(Y=1)，模型预测出了32家，正确率为97%，所以模型总的预测正确率为97%，较之前的有很大的提高。

上表给出了方程中变量的系数。

由表得出
160
.5,180.0,336.0,334.10,3210===-=ββββ
以
1β为例，表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变，X1(未分
配利润/总资产)每增加一个单位，)}
0{1}
0{ln(
=-=Y p Y p 增加0.336分单位
模型方程：
)}
0{1}
0{ln(
=-=Y p Y p = 4.160X3X2180.00.336X1-10.334-++
Logistic 回归方程： P{Y=0}=
)4.160X3X2180.00.336X1--10.334ex p(1)4.160X3X2180.00.336X1--10.334ex p(+++++
由表得知，X1到X3对应的概率p 值都大于0.05，接受原假设，表示X1到X3对Y 都没有显著性影响。

所以用下述方法改进。

用向前步进（wald ）
-2倍的对数似然函数值越小表示模型的拟合优度越高，这里的值是9.472，比之前的5.791要大，表示拟合优度降低，表示用向前的方法并没有比进入的方法好
而且从上表知道总的预测百分比为97%，没有变化，所以这一步较之前的强行进入的方法没什么优化，也就是没什么必要用向前的方法做。

所以有最优的一个Logistic 回归模型为模型方程：
)}
0{1}
0{ln(
=-=Y p Y p = 4.160X3X2180.00.336X1-10.334-++
Logistic 回归方程： P{Y=0}=
)4.160X3X2180.00.336X1--10.334ex p(1)4.160X3X2180.00.336X1--10.334ex p(+++++
三、为了研究几个省市的科技创新力问题，现在取了2005年8个省得15个科技指标数据，试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。

数据见8个省市的科技指标数据.sav ，其中各个指标的解释如下：(25分)
X1：每百万人科技活动人员数(人/万人)
X2：从事科技活动人员中科学技术、工程师所占比重（%） X3 ：R&D 人员占科技胡哦哦的呢人员的比重（%） X4：大专以上学历人口数占总人口数的比例（%） X5 ：地方财政科技拨款占地方财政支出的比重（%） X6：R&D 经费占GDP 比重（%）
X7：R&D 经费中挤出研究所占比例（%） X8：人均ＧＤＰ（元／人）
X9：高科技产品出口额占商品出口额的比重（%） X10：规模以上产业增加值中高技术产业份额（%）
X11 ：万名科技人员被国际三大检索工具收录的论文数（篇/百万人） X12 ：每百万人口发明专利的授权量（件/百万人）
X13：发明专利申请授权量占专利申请授权量的比重（%）X14 ：万人技术市场成交合同金额（万元/万人）
X15 ：财政性教育经费支出占GDP比重（%）
解：
所占的比例相差很大,取值范围差异大，所以不大适合做协方差的矩阵分析。

所以应该采用相关矩阵的方法分析如下：
上表是15个变量间的相关系数矩阵，可以看出相关系数都比较高，比如X1（每百万人科技活动人员数(人/万人)）和X2（从事科技活动人员中科学技术、工程师所占比重（%））的相关系数0.859，接近1，呈较强的的线性相关性，所以能够从中提取公因子，适合做因子分析
由表可知，前两个因子的特征根值很高，累积方差贡献率为分别为85.608（>=80%即可），对解释原有变量的贡献很大，第3个以后的因子特征根值都很小，对解释原有变量的贡献很校，可以忽略，因此提取第一和第二个因子比较合适,基本
能表达所有信息。

有特征值1λ=11.136 2λ=1.706
上表是因子载荷矩阵A
以X1,X5,X10为例，有因子分析模型
1X =0.9731F -0.1582F +1ε；
5X =0.4821F +0.4972F +2ε；
10X =0.6111F +0.6372F +3ε；
因为5X ，和10X ，变量在1F ，2F 上都有较大的相差不大的载荷，几乎都受它们的共同影响，因子间的差异性没有表示出来，不方便进行因子命名，所以要进行正交旋转（拉大因子间的差异性）
对A 做方差最大的正交旋转，得到正交旋转矩阵]926
.0379
.0379.0926.0[
-=Γ
上表为旋转后的因子载荷矩阵
以X1,X5,X10为例，有因子分析模型
1X =0.9601F -0.2232F +1ε；
5X =0.2581F +0.6422F +2ε； 10X =0.3251F +0.8212F +3ε；
在第一公因子
1F 对应的列中，正载荷主要是
X1,X2,X3,X4,X6,X7,X11,X12,X13,X14,X15，其载荷分别是0.960……，所以1F 可视为高科技因子；
在第二公共因子2F 对应的列中，正载荷主要是，X5,X10其载荷是0.642，0.821，
所以2F可视为非该科技因子；
有公共因子1F，2F的得分矩阵如下：
F1的得分：
-0.90012
-0.79770
-0.47026
-0.45750
-0.00373
0.12888
0.25514
2.24528
得分越高表示科技越高
F2的得分
-1.31413
-1.28805
-0.53602
-0.02641
0.33279
0.39734
1.00045
1.43403
得分越低表示分高科技成分越高
四、湖南省某白酒厂开发了一种新的白酒，想在本省上市，考虑到公司的现状：生产能力小，营销实力不强，在全省范围内没有系统的营销网络。

公司收集了某年度湖南省各地区的经济发展和消费水平指标，并选取了与白酒消费相关的6个代表性指标，即x1：总人口(万人)，x2：人均国民生产总值，x3：职工年平均工资(元)，x4：平均每人每年现金收入(元)，x5：平均每人每年消费性支出(元)，x6：平均每人每年储蓄(元)。

具体数据见消费情况数据.sav，试通过聚类分析的方法，根据该厂的特点选择营销区域。

(25分)
解：采用谱系聚类
用组间连接的方法表示类间距
用平方euclidean距离表示类内距
4 5 9 1980793.584 3 0 8
5 4 10 2623309.85
6 0 0 6
6 4 13 3255590.170 5 0 8
7 2 6 3308180.240 0 0 10
8 4 5 3465565.259 6 4 9
9 4 7 4201756.054 8 0 11
10 2 3 7220817.310 7 0 11
11 2 4 11895008.673 10 9 12
12 2 14 18646365.736 11 0 13
13 1 2 36090072.422 0 12 0
上表是谱系聚类的聚类表，由表可知，第一步是是将5和8分为一小类，然后到3阶和11分为一类，这样将各变量分为一类，然后将最相似的聚为一类，再将已聚合的小类按其相似性再聚合，随着相似性的减弱，最后将一切子类聚合成一个大类，从而得到如下谱系图
x1：总人口(万人)，x2：人均国民生产总值，x3：职工年平均工资(元)，x4：平均每人每年现金收入(元)，x5：平均每人每年消费性支出(元)，x6：平均每人每年储蓄(元)。

由上面的树状图可知，
若分为3类，则有
第一类:长沙（特点，X1总人口最多，X2国民生产总值，X3工年平均工资(元)，x4：平均每人每年现金收入(元)，x5：平均每人每年消费性支出(元)等都是最高的，表示长沙的人们对白酒的购买力最强，所以可以在长沙加大销售量，将此地作为最主要的销售地）
第二类：湘西(特点：特点，X1总人口最少X2国民生产总值最低，X3工年平均工资很低，X4均每人每年现金收入低，x5：平均每人每年消费性支出很低表示湘西的人们对白酒的购买力最弱，表示在此地销售量最小）
第三类：其他（相对均匀，适量的进行销售）
若分为4类，则有
第一类:长沙（预计销售量最多）
第二类：株洲，湘潭，岳阳（预计销售量次之）
第三类：其他（预计销售量较少）
第四类：湘西（预计销售量很小）。