主成分分析实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析
地信0901班陈任翔010******* 【实验目的及要求】
掌握主成分分析与因子分析的思想和具体步骤。掌握SPSS实现主成分分析与因子分析的具体操作。
【实验原理】
1.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。
2.因子分析研究相关矩阵或协方差矩阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。
【实验步骤】
1.数据准备
●1)首先在Excel中打开“水样元素成分分析数据”,删除表名“水样元素成分分析数据”,
保存数据。
●3)数据格式转换。
2.数据描述分析操作
1)Descriptives过程
点击Analyze下的Descriptive Statistics选项,选择该选项下的Descriptives
●选中待处理的变量(左侧的As…..Hg等);
●点击使变量As…..Hg 移至Variable(s)中;
●选中Save standrdized values as variables;
●点击Options
2)数据标准化
标准化处理后的结果
2.主成分分析
1)点击Analyze下的Data Reduction选项,选择该选项下的Factor过程。选中待处理的变量,移至Variables
2)点击Descriptives判断是否有进行因子分析的必要
Coefficients(计算相关系数矩阵)
Significance levels(显著水平)
KMO and Bartlett’s test of sphericity (对相关系数矩阵进行统计学检验)
Inverse(倒数模式):求出相关矩阵的反矩阵;
Reproduced(重制的):显示重制相关矩阵,上三角形矩阵代表残差值,而主对角线及下三角形代表相关系数;
Determinant(行列式):求出前述相关矩阵的行列式值;
Anti-image(反映像):求出反映像的共同量及相关矩阵。
Univariate descriptive单变量描述统计量(输出被选中的各变量的均数与标准差)
Initial solution未转轴之统计量(显示因素分析未转轴前之共同性、特征值、变异数百分比及累积百分比)
3)点击Extraction :
●选择主成分分析方法
●输出未旋转的因子载荷矩阵
4)点击Rotation
5)点击Scores
●选中Save as variables (把因子得分作为新变量保存在数据文件中)
●选中Regression(回归因子得分)
●点击Continue
6)点击Options
●选中Exclude cases listwise(去除所有含缺失数据的样本、再进行分析)
●选中Sorted by size(载荷系数将按照数值大小排列,并构成矩阵)
●点击Continue
3.结果分析
●SPSS输出的第一个表格列出了标准化后数据的平均值(Mean)、标准差
(Std. Deviation)和分析用到的取值个数(N)
●系统输出的第2个表格是8个原始变量的相关矩阵与单尾显著性检验
(多个变量之间的相关系数较大,说明这些变量之间存在着较为显著的相关性,且其对应的Sig值普遍较小,根据分析,这些数据有进行因子分析的必要。)
●KMO检验法和巴特利特球形检验法(KMO and Bartlett Test of Sphericity)的检验
结果
(Bartlett球形检验统计量的Sig<0.01,认为各变量之间存在着显著的相关性。一般,KMO大于0.9时效果最佳,0.7以上可以接受,0.5以下不宜作因子分析。但是相关矩阵和Bartlett球形检验统计量的效果都比较好,认为是可以作因子分析)
●SPSS输出的第四个表格“成分矩阵”是初始的未经旋转的因子载荷矩阵
(已选出了3个主因子,以替代原有的8个变量所含的信息)
●SPSS输出的第七个表格“旋转成分矩阵”是经过旋转(转轴法使得因素负荷量
易于解释)后的因子载荷矩阵。
(旋转后每个公因子上的载荷分配地更清晰,因子变量代表的变量相对集中,比未旋转时更容易解释各因子的意义。载荷绝对值较大的因子与变量的关系更为密切,也更能代表这个变量
●第1公因子代表Cd、Zn、As、Pb这几个变量因素
●第2公因子代表Cr、P两个变量
●第3公因子代表Cu、Hg两个变量
●可以根据实际情况对第1公因子、第2公因子、第3公因子命名
●我们将第1公因子命名为镉类,第2公因子命名为铬类,第3公因子命名为铜类)
●SPSS输出的第八个表格“成分转换矩阵”是正交旋转后因素相关矩阵
●SPSS输出的第六个表格表示各因子变量的特征值与累积贡献率(表明m个主成
分综合原始变量的能力)
(由于前3个特征值累计贡献率达到91.798%,根据累计贡献率大于85%的原则,故选
取前三个特征值)
●SPSS输出的第五个表格表示变量的共同度(m个公共因子对第i个变量Xi的方
差贡献)
(As的共同度为0.974,可以理解为3个公共因子能够解释As的方差的97.4%;Pb的共同度为0.581,可以理解为3个公共因子能够解释As的方差的58.1%。)
●回到Data View窗口的当前数据集,会看到文件中增加了3列FAC1_1(第1因子
得分)、FAC2_1(第2因子得分)和FAC3_1(第3因子得分)
(可以通过第1因子得分来了解镉类元素的分布情况,第2公因子来了解铬类元素的分布情况,第3公因子来了解铜类元素的分布情况。样号为Z-W-2-02的样品Cd、Zn、As、Pb含量较高,样号为C-W-06-01的样品Cr、P含量较高,样号为C-W-01-02的样品重金属含量较高)