数据分析上机实验二 广西科技大学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据分析上机实验二
一:题目:在习题1.4表1.8中,列出了各地区居民消费水平,设对应于全体居民、农村居民、城镇居民的数据变量分别为x1,x2,x3。取公共因子数为1,对x1,x2,x3进行因子分析,并进行解释,对公共因子F1得分从小到大进行排序,并进行分析解释。
答:第一个表主要是共同度,并对此进行标准化,也就是原始数据标准化,以消除变量间在数量级和量纲上的不同。
由第二个表可知,所求得的特征值r1=2.945,r2=0.038,r3=0.016,各主成分的贡献率分别为98.175%,1.275%,0.55%,第一个主成分的贡献率已经达到98.175%,故在实际应用中只取第一个主成分,通过第三个图
Y1=0.994x1+0.989x2+0.989x3
Y1是全体居民(x1),农村居民(x2),城镇居民(x3)的加权和,一个地区的消费水平越高的时候,Y1较大,因此Y1放映的是一个地区消费水平高低的一个综合指标,也就是我们成为的“大小因子”。
对公共因子F1得分从小到大进行排序并分析解释
排序后的结果
答:由上面的Y1=0.994x1+0.989x2+0.989x3,反应的是各地区的消费水平的指标,由这些数据经过由小到大排序后可以看出,地区总得分比较高的是上海,北京,浙江,可认为就是该地区消费水平比较高,经济发展水平也高,而西藏,贵州等地总得分比较低,可认为就是该地区消费水平,发展也地。由上面的得分数据也可以看出,就是我们国家的地区发展水平,消费水平是不均衡的,沿海地区发展好,消费高,而一些西部地区消费水平地,发展也很滞后。
二:取公共因子数为2,采用方差最大正交旋转进行因子分析,对公共因子F1得得
分从小到大进行排序,在对公共因子F1,F2进行解释。
Total Variance Explained
图表数据分析:
答:-----(1)第一个表示共同度的情况,从几个数据的大小可以看出,他们经过初始化后还是挺相近的。
对第二个表进行总方差分析,由表可知,此表选择了连个因子进行分析,通过表可知r1=2.945,r2=0.038,r3=0.016,各主成分的贡献率分别为98.175%,1.275%,0.55%,第一个主成分的贡献率已经达到99.450%.其共同度矩阵的线性表示为
Y1=0.994x1+0.989x2+0.989x3
Y2=-0.009x1-0.133x2+0.143x3
---------(2)进过方差最大旋转之后发现其得线性表示为
Y3=0.715x1+0.798x2+0.604x3
Y4=0.692x1+0.600x2+0.796x3
通过最大方差旋转后发现,系数都变为正的了,而且就是系数之间相差都比较小,可认为就是解析比较好,可以很好地反应各地区的消费消费水平的高低。
由表四的变换矩阵,可得到一个线性表示
Y6=0.712X4-0.702X5
Y7=0.702X4+0.712X5
其中Y6表示的是进行方差最大旋转之前的得分综合评判指标
其中Y6表示的是进行方差最大旋转之后的得分综合评判指标
对比发现Y7模拟的较好。
答:通过方差最大旋转之前与方差最大旋转后之后,再由小到大进行各地区的得分情况进行排序相比可知。方差最大旋转之前,得分最高的是前三名是上海,北京、浙江,得分最小的后三位是西藏、贵州、甘肃;而方差最大旋转之后的得分最高的是上海、北京、江苏;最低的是贵州、广东、陕西。方差最大旋转之前的得分情况,主要反映的是总体得分情况,也即是地区的总体消费水平,而没有能够很好地反映城乡之间的消费的差别。而通过方差最大能够很好地解决这个问题,不仅反映了总体的消费水平,而且能够反映城乡之间的消费水平。如在方差最大旋转之前,广东的得分是很高的,但是方差最大旋转之后,广东的得分就变低了,也就是说,广东的总体消费水平是很高的,但是城乡之间的消费水平是存在很大的差异的,也就是城乡发展不平衡。