实验3 美国50个州七种犯罪比率的数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三美国50个州七种犯罪比率的数据分析
【实验目的】1. 通过使用SAS软件对实验数据进行主成分分析和因子分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】表3给出的是美国50个州每100000个人中七种犯罪的比率数据。这七种犯罪是:Murder(杀人罪),Rape(强奸罪),Robbery(抢劫罪),Assault (斗殴罪),Burglary(夜盗罪),Larceny(偷盗罪),Auto(汽车犯罪)。
表3 美国50个州七种犯罪的比率数据
1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?
2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。
3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序.
2、从样本相关矩阵出发,做因子分析。
【实验所使用的仪器设备与软件平台】
计算机、SAS 9.4(简体中文)
【实验方法或步骤】
1. 先将数据输入到Excel中,再通过SAS系统导入数据。
程序代码:
proc princomp data=work.crime covariance;
run;
proc princomp data=work.crime out=defen;
run;
proc sort data=defen;
by prin1;
run;
proc print data=defen;
run;
proc factor data=work.crime simple corr;
run;
proc factor data=work.crime priors=smc msa scree residual preplot rotate=promax reorder plot outstat=fact_all;
run;
【实验原理】
因子分析与主成分分析有区别:主成分分析只是简单的变量代换,而因子分析要构造因子模型;主成分分析时将一组具有相关关系的变量变换为一组互不相关的变量,而因子分析的目的是要用尽可能少的因子构造一个结构简单的因子模型,主成分分析是将主成分表示成原始变量的线性组合,而因子分析时将原始变量表示成公共因子和特殊因子的线性组合。
【实验结果】
1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?
○1样本协方差矩阵:
均值和标准差:
协方差矩阵和总方差:
协方差矩阵的特征值:特征值、差分、比例、累积:
可以得出主成分为Murder(杀人罪)。
特征向量:
Larceny(偷盗罪)与Murder(杀人罪)高度相关;Burglary(夜盗罪)与Rape (强奸罪)高度相关;Robbery(抢劫罪)与Auto(汽车犯罪)高度相关;Robbery(抢劫罪)
与Larceny(偷盗罪)高度相关;Murder(杀人罪)与Auto(汽车犯罪)高度相关。陡坡图和已解释方差:
○2样本相关矩阵:
均值和标准差:
相关矩阵:
相关矩阵的特征值:特征值、差分、比例、累积:
可以看出主成分为Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)。
特征向量:
由上图可知,各成分间没有很高的相关性,没有两个成分的相关度达到0.9以上。
Robbory(抢劫罪)与Larceny(偷盗罪)的相关系数为0.736050;Rape(强奸罪)与Auto(汽车犯罪)的相关系数为0.750208。
样本协方差矩阵和样本相关矩阵的差别:
1. 主成分发生了变化。用样本协方差矩阵求得主成分为Murder(杀人罪);用样本相关矩阵求得主成分为Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)。
2. 各成分间的相关系数不不相同。
所以由样本协方差矩阵,样本相关矩阵求得的主成分一般是不同的。
陡坡图和已解释方差:
2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。
○1用样本协方差矩阵求出的主成分Murder(杀人罪),它的贡献率为98.94%可以用它来代替其他六个变量,其信息损失量是很小的。
○2用样本相关矩阵求出的主成分为Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)。Murder(杀人罪)的贡献率为52.96%,Murder(杀人罪)和Rape(强奸罪)的累计贡献率为69.31%,Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)
三个的累计贡献率为83.89%。可以用这三个主成分来代替7个原始变量,而且也不至于损失原始变量中的太多信息。
3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序。
2、从样本相关矩阵出发,做因子分析。
50个观测的均值和标准差:
相关性:
相关矩阵的特征值:特征值、差分、比例、累积:
因子模式:
每个因子的已解释方差:
最终的公因子方差估计:
控制所有其他变量的偏相关和Kaiser抽样适当性测度:
先验公因子方差估计:
缩减相关矩阵的特征值:特征值、差分、比例、累积:
特征值的陡坡图:
因子模型:
每个因子已解释方差:
最终的公因子方差估计:
对角线上唯一的残差相关:
【结果分析与讨论】
通过此次的实验,得出以下结论:
1.一般由样本协方差矩阵和样本相关矩阵求得的主成分是不一样的。在实际应用中,当涉及的各变量的变化范围差异较大时,从样本相关矩阵出发求主成分比较合理。
2.原始数据的变化可以由三个或者更少的主成分反映而不至于损失原变量中的太多信息。