SAS学习系列34.-因子分析

合集下载

SAS统计之第十章-因子分析

SAS统计之第十章-因子分析

正交旋转
正交旋转是一种比较简单的方法, 它将因子矩阵进行正交变换,使 得每个因子只与一个原始变量的 相关性较高,与其他变量的相关 性较低。
斜交旋转
斜交旋转是一种更复杂的方法, 它可以使得一个因子与多个原始 变量的相关性较高,但与其他变 量的相关性较低。
因子的解释
因子的解释
因子的解释是根据实际背景和专业知 识,对每个因子的含义进行解释。解 释时需要综合考虑原始变量的含义和 因子的相关性。
03
解释性。
实例分析
01
为了更好地理解PROC Factor过程,我们将通过一个实例来演示其应 用。
02
假设我们有一个包含多个变量的数据集,并且我们想要提取两个公因 子来解释这些变量之间的相关性。
03
我们将使用PROC Factor过程进行因子分析,并选择适当的选项来提 取两个公因子。
04
分析结果将包括因子载荷表、因子图和轮廓图等输出,以帮助我们理 解公因子和变量之间的关系。
04 因子分析的注意事项
因子分析的前提假设
因子分析的前提假设是数据应具有相关 性。在进行因子分析之前,需要检查变 量之间的相关性,以确保分析的有效性。
因子分析的前提假设是变量应具有共同因子。 共同因子是指多个变量之间存在的共同因素, 这些因素反映了变量之间的共同变化趋势。
因子分析的前提假设是变量应具有 可解释性。在进行因子分析之前, 需要对变量进行解释性分析,以确 定变量之间的潜在关系和共同因素。
因子命名
根据解释结果,可以对每个因子进行 命名,使其更加符合实际背景和专业 知识。命名时需要简洁明了,能够准 确地反映因子的含义。
03 因子分析的SAS实现
Байду номын сангаас

SAS编程:主成分分析和因子分析

SAS编程:主成分分析和因子分析

SAS 统计分析与应用 从入门到精通 二、因子分析
语句说明:
4、FACTOR过程
(1)PROC语句用于规定运行FACTOR过程,并指定要分析的数据 集名。选项有: OUT=数据集名——规定一个输出数据集,其中包含原始数据以及 公共因子得分。在使用选项时,要指定公共因子的个数。 METHOD=选项——规定提取公共因子的方法。 N=n——规定被提取因子的最大数目,缺省值为变量的个数。 SCORE——规定打印因子得分系数。
SAS 统计分析与应用 从入门到精通 一、主成分分析
4、PRINCOMP过程
语句说明: (1)PROC语句用于规定运行PRINCOMP过程,并指定要分析的 数据集名。选项有: OUT=数据集名——规定一个输出数据集,其中包含原始数据以及 主成分得分。 N=n——规定要计算的主成分个数。 STANDARD——规定将OUT=的数据集中的主成分得分标准化为 单位方差。如果没有规定此选项,主成分得分的方差等于相应的特征值。 (2)VAR语句用来列出要分析的数值型变量的名字。如果不使用该 语句,则没有在其它语句规定的所有数值型变量都是要分析的变量。 (3)PARTIAl语句规定了偏出变量,使得PRINCOMP过程基于偏 相关阵或偏协方差阵进行主成分分析。
SAS 统计分析与应用 从入门到精通 二、因子分析
2、基本模型
SAS 统计分析与应用 从入门到精通 二、因子分析
2、基本模型
SAS 统计分析与应用 从入门到精通 二、因子分析
3、基本步骤
(1) 参数估计:为建立因子模型,首先要估计因子载荷和特殊因 子的方差,常用的方法有主成分法,主因子法和极大似然估计法等。
SAS 统计分析与应用 从入门到精通 二、因子分析
语句说明:

因子分析SPSS操作

因子分析SPSS操作

因子分析SPSS操作因子分析是一种多变量统计方法,旨在发现潜在的结构和相关性,以便简化数据集并解释变量之间的关系。

SPSS(统计软件包社会科学)是一种广泛使用的统计软件,可以帮助研究人员进行因子分析。

在SPSS中进行因子分析的步骤如下:1.数据准备:-确保数据集已经导入到SPSS中。

-检查和清洗数据,确保数据完整、准确,并且符合因子分析的前提条件。

2.因子分析模型:- 打开SPSS软件并选择“Analyze”菜单。

- 从下拉菜单中选择“Dimension Reduction”>“Factor Analysis”。

3.变量选择:- 从左侧的变量列表中选择要进行因子分析的变量,并将它们移动到右侧的“Variables”框中。

-这些变量应该是连续变量,而非分类变量。

4.因子提取:- 在“Factor Analysis”对话框的“Extraction”选项卡中选择因子提取方法。

- 确定要提取的因子数量。

可以使用Kaiser标准(主成分分析时为特征值大于1)或Scree Plot来指导因子数量的选择。

5.因子旋转:- 进入“Rotation”选项卡,选择适当的因子旋转方法。

- 常用的方法包括Varimax、Promax、Quartimax等。

-因子旋转的目标是最大化因子载荷的简单性和解释性。

6.结果解释:-在因子分析的结果中,可以查看各个变量的因子载荷矩阵,它描述了每个变量在每个因子上的影响程度。

-可以选择将因子载荷阈值设置为一定值,以便筛选出具有较高负载的变量。

-查看每个因子的解释方差,以了解它们对原始变量的解释程度。

7.结果可视化:-可以使用SPSS的图表功能来可视化因子分析结果。

-比如,可以绘制因子载荷矩阵的热图,用不同颜色表示不同的负载水平。

-还可以绘制因子解释方差的条形图,以比较每个因子的贡献程度。

需要注意的是,因子分析在使用时需要考虑以下几点:-样本量必须足够大,一般建议至少大于观测变量数的10倍。

因子分析ppt课件

因子分析ppt课件
因子分析
(1)计算相关系数矩阵
计算原有变量的简单相关系数矩阵。观察相关系数矩阵,如果相关系数 矩阵中的大部分相关系数值小于 0.3,则各个变量之间大多为弱相关,这就不 适合做因子分析。如果一个变量与其他变量间相关度很低,则在下一分析步骤 中可考虑剔除此变量。
因子分析
(2)进行统计检验
在因子分析过程中提供了几种检验方法来判断变量是否适合做因子分析。主要统 计方法有如下两种:
因子分析
—SPSS操作及其原理
因子分析
2008-4-23
在科学研究中,往往希望尽可能多地收集反映研究对象 的多个变量,以期能对问题有比较全面、完整的把握与认识。 多变量的大样本虽然能为科学研究提供大量的信息,但是在一 定程度上增加了数据采集的工作量,更重要的是在大多数情况 下,许多变量之间可能存在相关性,这意味着表面上看来彼此 不同的变量并不能从各个侧面反映事物的不同属性,而恰恰是 事物同一种属性的不同表现。
因子分析
统计学原理 因子分析的含义
因子分析,又叫因素分析,就是通过寻找众多变量的公共因 素来简化变量中存在复杂关系的一种统计方法,它将多个变量综合 为少数几个“因子”以再现原始变量与“因子”之间的相关关系。
因子分析
因子分析
寻找基本结构
在多元统计中,经常遇到诸多变量之间存在强相关的问题,它会 对分析带来许多困难。通过因子分析,可以找出几个较少的有实际意 义的因子,反映出原来数据的基本结构。例如:调查汽车配件的价格 中,通过因子分析从20个指标中概括出原材料供应商、配件厂商、新 进入者、后市场零部件厂商、整车厂和消费者6个基本指标。从而找 出对企业配件价格起决定性作用的几个指标。
因子分析
主成分分析的数学模型
因子分析

SAS实验_因子分析_聚类分析

SAS实验_因子分析_聚类分析

实验过程: 1.搜集数据
通过搜索相关数据库,得到 2008 年我国各地区农村人均生活消费支出的相关数据,共包括 我国 31 个省市自治区,设计 8 个方面的人均消费支出。
2.数据准备和预处理
首先建立数据集,我将数据存在 D:\mydata.txt 中。此处编写 SAS 程序来实现 INPUT 数据。
Step2:加入 cluster 节点,联结,设置相关属性。
Step3:运行 运行结果如下,这个结果本来我看起来十分诡异,31 个地区,分了 31 类,看起来没有起到 任何的聚类效果。 首先,Factor1 和 Factor2 的贡献值都为 0:
其次,画出来的散点图和最终的 stat 结果也如此显示:
注:右上角的制表时间是由于时间跳过程序修改造成的,后同。
3.描述性统计分析
①单变量分析: 首先要对数据的基本情况有一个初步的了解, 因此先进行单变量分析。 再次我们利用 means 过程计算一些描述性统计量,编写程序如下:
解释:proc 语句指定运行 means 过程,并指出分析的数据集为 expend,maxdec=2 表示计算 的描述统计量保留两位小数, 然后指定要计算的统计量为: 均值、 标准差、 最大值、 最小值、 极差、变异系数、偏度。之后指定要分析的变为量 x, x1-x8。运行结果如下:
解决思路:
为了研究上述问题, 我们应当以近年的各地区农村人均生活消费支出相关数据为数据源, 通 过描述性统计分析对整体数据进行初步了解; 并在因子分析的基础上进行聚类分析, 对各地 区依据消费水平的高低进行分类; 还可以参数检验判断不同地区的农民生活水平是否存在差 异;若引入时序数据,则可进一步进行关联分析,预测某些地区未来的消费结构变化。本人 会在数据分析的基础上,结合实际进行分析,解释数据结果的实际意义。由于精力有限,此 次实验本人计划主要进行三项数据分析: 1. 描述性分析 2. 基于主成分法的因子分析 3. 在因子分析的基础上,用 Cluster 和 Tree 过程进行聚类分析 注:部分内容为参考教材自学,理解可能不甚透彻,若有错误恳请老师指出。

因子分析的原理及步骤

因子分析的原理及步骤

因子分析的原理及步骤因子分析是一种多变量统计方法,用于探索观测数据背后的潜在结构,包括变量之间的关系和潜在因子的存在。

在因子分析中,我们希望将多个观测变量解释为较小数量的潜在因子,这有助于简化数据和理解数据背后的结构。

因子分析的基本原理是假设观测变量通过潜在因子来解释,这些潜在因子无法直接观测到,只能通过观测变量的共同方差来间接体现。

根据这个假设,因子分析通过对观测变量之间的协方差矩阵进行分解,得到潜在因子与观测变量之间的关系,以及每个观测变量对于每个潜在因子的贡献。

因子分析的步骤如下:1. 收集数据:首先,需要收集包含多个观测变量的数据集。

这些变量可以是定量的,如身高、体重等,也可以是分类变量,如性别、职业等。

数据集应该是相对完整和可靠的。

2. 确定分析目标:在进行因子分析之前,需要明确分析的目标。

例如,我们可能希望找到最能解释原始数据的因子数目,或者找到最能准确预测观测变量的因子。

3. 数据预处理:在进行因子分析之前,需要对数据进行预处理。

常见的预处理方法包括标准化、缺失值处理等。

标准化可以使得不同变量之间的量级一致,从而减少因子分析结果的偏差。

4. 估计因子载荷:因子载荷是指每个观测变量对于每个因子的贡献。

通过估计因子载荷,我们可以了解每个观测变量与每个因子之间的关系强度。

常用的估计方法包括主成分分析和最大似然估计。

5. 确定因子数目:在因子分析中,一个重要的问题是如何确定因子的数目。

常用的方法有Kaiser准则和屏蔽图。

Kaiser准则认为,仅保留特征值大于1的因子。

屏蔽图则通过观察各个因子的特征值曲线,选择特征值明显下降的截止点。

6. 解释因子:在确定了因子数目之后,我们可以解释每个因子所代表的含义。

这需要仔细研究每个因子的载荷矩阵和观测变量之间的关系。

通常,我们将大于0.4的载荷定义为显著载荷,表示该观测变量对该因子的贡献较大。

7. 旋转因子:旋转因子是为了更好地解释因子结构而进行的。

《SPSS数据分析教程》——因子分析课件

《SPSS数据分析教程》——因子分析课件

Gaelic English History Arithmetic Algebra Geometry
1.000
0.439 1.000
R
0.410
0.351 1.000
0.288 0.354 0.164 1.00
0.329 0.320 0.190 0.595 1.000
0.248 0.329 0.181 0.470 《0SP.4SS6数4 据分1析.0教0程》——因子分析
《SPSS数据分析教程》 ——因子分析
《SPSS数据分析教程》——因子分析
因子分析
《SPSS数据分析教程》——因子分析
目录
n 12.1 因子分析简介 n 12.2 因子分析法的统计理论
q 12.2.1 因子分析的模型 q 12.2.2 因子分析模型的求解方法 q 12.2.3 因子分析的应用前提 q 12.2.4 因子个数的确定 q 12.2.5 因子的解释 q 12.2.6 因子旋转 q 12.2.7 因子得分 n 12.3 因子分析案例 q 12.3.1 探索变量间的结构关系 q 12.3.2 因子分析在市场调查中的应用 n 12.4 因子分析结果的有效性 n 12.5 因子分析和主成分分析的比较
《SPSS数据分析教程》——因子分析
因子分析是一种数据降维方法
n 因子分析试图用最少个数的不可观测的互不相 关的公共因子(例如运算能力、表达能力等公 共因子)的线性组合,再加上特殊因子来描述 原来一组可观测的有相互关系的变量。其目的 是尽可能合理地解释存在于原始变量之间的相 关性,并且简化变量的维数和结构。
Bartlett 的球形度检验
近似卡方 Df Sig.
.855 2 888.038
300 .000

(完整版)SPSS因子分析法-例子解释

(完整版)SPSS因子分析法-例子解释

因子分析的基本概念和步骤一、因子分析的意义在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。

例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。

虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:计算量的问题由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。

虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。

变量间的相关性问题收集到的诸多变量之间通常都会存在或多或少的相关性。

例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。

而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。

例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。

类似的问题还有很多。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。

为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。

因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。

《因子分析SAS程序》课件

《因子分析SAS程序》课件
因子分析是一种多变量统计方法,用于探索变量之间的内在关系以及识别潜 在的因素。通过因子分析,我们可以降低数据的维度,发现潜在的共同因素, 并理解这些因素对变量的解释程度。
因子分析的步骤
1
收集数据
收集包含多个变量的数据集,确保数据的
数据预处理
2
质量和完整性。
对数据进行清洗、缺失值处理、标准化等
预处理步骤,以确保子提取
使用适当的因子提取方法,识别出潜在的
共同因素。
因子旋转
4
通过旋转因子,使得因子更易于解释和理
解。
5
因子解释
对因子进行解释和命名,理解每个因子的 含义和影响。
因子分析模型的选择方法
主成分分析
主成分分析是最常见和简单 的因子提取方法,适用于无 明显理论背景的研究。
最大似然估计
最大似然估计是一种基于潜 变量模型的因子提取方法, 在理论依据明确时效果较好。
常熟因子模型
常熟因子模型是一种广义的 因子分析模型,可以考虑因 子间相关性和变量间相关性 的影响。
数据准备与清洗
在进行因子分析之前,需要对数据进行准备和清洗。这包括处理缺失值、异常值和离群值,以及进行数据标准 化和变量选择等步骤,确保数据的质量和可靠性。
SAS软件在因子分析中的应用
SAS软件为因子分析提供了强大的工具和函数。可以使用SAS进行数据导入、预处理、因子提取、因子旋转和结 果解释等操作,方便快捷地完成因子分析的各个步骤。
结果分析及解读
完成因子分析后,我们需要对结果进行分析和解读。这包括解释每个因子对 各个变量的影响程度,探究因子之间的相关性,以及理解因子对整体数据集 的解释程度。
案例分析
通过一个实际案例的分析,我们将运用因子分析的知识和工具,识别和解释 潜在的因素,探索变量之间的内在关系,并得出对问题的有力解决方案。

SAS软件应用之因子分析

SAS软件应用之因子分析
第24页/共75页
因子分析的应用
• 如何选择适当的方法来解决实际问题,需要对问题进行综合考 虑。对一个问题可以综合运用多种统计方法进行分析。例如一 个预报模型的建立,可先根据有关生物学、生态学原理,确定 理论模型和试验设计;根据试验结果,收集试验资料;对资料 进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归 分析、主成分分析等)研究各个变量之间的相关性,选择最佳的 变量子集合;在此基础上构造预报模型,最后对模型进行诊断 和优化处理,并应用于生产实际。
• 综合得分

以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标
函数。

F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)

此处wi为旋转前或旋转后因子的方差贡献率。
第21页/共75页
因子分析的应用
• 在采用多元统计分析技术进行数据处理、建立宏观或微观系 统模型时,需要研究以下几个方面的问题:
method选择项用于确定聚类的方法选择的方法有singlecompletecentroidaveragemedianward其中single表示最短距离法complete表示最长距离法centroid表示重心距离平均法average表示平均距离平方法median表示中间距离平均法ward表示最小离均差平方和rsquare表述输出每一种聚类的复相关系数的平方和半偏复相关系数的平方每一种聚类的复相关系数的平方等于总体变异被聚类成分所解释的比例半偏复相关系数的平方等于由合并两个类引起的复相关系数平方的减少量
第3页/共75页
因子分析基本思想
• 其基本思想是从分析多变量数据的相关关系人手,找到支配这 种相关关系的少数几个相关独立的潜在因子,并通过建立起这 些潜在因子与原变量之间的数量关系来预测潜在因子的状态, 帮助发现隐藏在原变量之间的某种客观规律性。因子分析和主 成分分析都能够起到清理多个原始变量内在结构关系的作用, 但主成分分析重在综合原始变量的信息,而因子分析重在解释 原始变量间的关系,是比主成分分析更深入的一种多元统计方 法。

【2019年整理】因子分析SAS程序

【2019年整理】因子分析SAS程序
注意: Rotate项缺省时为none,不旋转
4.因子得分
Proc factor data= Score out=bb; var 变量; run; Proc print data=bb; var factor1 factor2 factor3 factor4; run;
总结
Proc factor data= simple corr msa; var 变量; run;
诊断符 合率 X8
97.51 97.94 98.48 99.41 99.71 99.03 99.69 99.48 99.48 99.76 99.10 100.00 99.77 100.00
抢救成 功率 X9
61.66 73.33 76.79 63.16 80.00 63.16 73.53 61.11 70.73 79.07 80.49 78.95 80.53 81.97
1.描述检验
(简单的描述统计量、相关阵、偏相关阵和 抽样适当的Kaiser度量)
Proc factor data= simple corr msa; var 变量; run;
2.构造因子
Proc factor data= method=prin(主成分 分析法)/ml(最大似然分析法)/ prinit (主因子分析法) N=/P=(确定因子个 数) Scree(特征值的碎石图); var 变量; run;
84
100
11
69
75
78
738997源自127271
78
68
75
96
13
64
63
75
76
73
92
14
66
77
84
55

因子分析SAS程序教学材料

因子分析SAS程序教学材料
注意: otate项缺省时为none,不旋转
4.因子得分
Proc factor data= Score out=bb; var 变量; run; Proc print data=bb; var factor1 factor2 factor3 factor4; run;
总结
Proc factor data= simple corr msa; var 变量; run;
因子分析SAS程序
严共旭
因子分析的步骤:
1.确认待分析的原变量是否 适合作因子分析 2.构造因子变量 3.利用旋转方法使因子变量 更具有可解释性 4.计算因子变量得分
1.描述检验 2.构造因子 3.因子旋转 4.因子得分
例题
某医院为了合理地评价该院各月的医疗工 作质量,收集了3年有关X1门诊人次、X2出 院人数、X3病床利用率、X4病床周转次数、 X5平均住院天数、X6治愈好转率、X7病死 率、X8诊断符合率、X9抢救成功率9个指标 数据。试采用因子法,探讨其综合评价指 标体系。
84
100
11
69
75
78
73
89
97
12
72
71
78
68
75
96
13
64
63
75
76
73
92
14
66
77
84
55
65
76
15
64
51
70
60
67
88
16
72
75
58
62
52
75
17
73
40
82
50
48
61
18

SAS学生智力因子分析

SAS学生智力因子分析

学生智力因子分析摘要:因子分析是指研究从变量群中提取共性因子的统计技术。

最早由英国心理学家C.E.斯皮尔曼提出。

他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。

因子分析可在许多变量中找出隐藏的具有代表性的因子。

将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

本文通过对40名学生的12项智力指标进行因子分析,找出潜在的因子。

关键词:因子分析,潜在因子,智力一、背景分析二、研究目标某研究收集了40名学生的12项智力指标。

这12项指标分别为常识(x1)、类同(x2)、计算(x3)、词汇(x4)、理解(x5)、数字广度(x6)、填图(x7)、图片排列(x8)、积木(x9)、拼图(x10)、译码(x11)和迷津(x12)。

将原始数据经过标准化处理后,计算其相关系数矩阵,结果列在下表中,试进行探索性因子分析,找出潜在因子,并找出其支配的指标。

三、数据描述1.sas程序data ex17_2 (type=corr);infile cards missover; input _name_ $3. x1-x12; _type_='Corr';if _n_=1 then _type_='N'; else _type_='Corr';cards;df 40 40 40 40 40 40 40 40 40 40 40 40x1 1.000 . . . . . . . . . . .X2 0.6904 1.000 . . . . . . . . . .X3 0.4115 0.4511 1.000 . . . . . . . . .X4 0.4580 0.7068 0.4018 1.000 . . . . . . . .X5 0.5535 0.6620 0.4122 0.7119 1.000 . . . . . . .X6 0.3923 0.6317 0.4520 0.4583 0.5299 1.000 . . . . . .X7 0.1415 0.3009 0.2025 0.2665 0.2480 0.1590 1.000 . . . . . X8 0.0077 0.0344 0.1855 0.1065 0.0003 0.1100 0.3595 1.000 . . ..X9 0.2385 0.3523 0.3646 0.3644 0.3388 0.3982 0.5004 0.3314 1.000 .. .x10 0.0333 0.1726 0.1311 0.1757 0.1998 0.0342 0.5758 0.1420 0.28081.000 . .x11 0.0898 0.3878 0.2041 0.3191 0.3186 0.2914 0.2537 0.2025 0.39710.1468 1.000 .x12 0.2215 0.2427 0.4124 0.2169 0.1459 0.0985 0.4222 0.2156 0.50160.2286 0.0776 1.000;run;proc factor data=ex17_2 rotate=varimax reorder;var x1-x12;run;2.输出结果这是用主成分分析法提取初始公因子的第一部分结果,相关矩阵特征值总和为12 (指标数),前4个特征值都大于1,下面将根据这4个较大的特征值提取4个相应的初始公因子.含有4个公因子的初始公因子模型为:X1=0.63945F1-0.39857F2-0.30050F3-0.14330F4…X12=0.47558F1+ 0.44754F2 -0.58084F3+ 0.00825F4第1~第4个公因子能解释的方差分别为4.5719767、1.8813496、1.0527141和1.0214560。

主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程

主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程

主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程上一系列文章介绍了主成分分析概述。

今天,我们将介绍使用PRINCOMP过程进行主成分分析。

在SAS中,某种统计方法可能可以通过多个过程步实现。

这时候有必要了解过程步之间的区别。

比如,主成分分析就可以通过PROC FACTOR或PROCPRINCOMP实现。

PRINCOMP过程使用PROC PRINCOMP进行主成分分析时,其输入可以是原始数据集、协方差矩阵或相关矩阵等,其输出数据集包含特征根、特征向量以及标准化或未标准化的主成分得分。

此外,使用者还可以通过ODS图像选项输出陡坡图(Scree Plot)、成分特征图(Component Pattern Plot)等图形,这些图形都是进行主成分分析的有用工具。

过程步PROC PRINCOMP的一般形式为:其中:•PROC PRINCOMP语句中常见的选项如表12.1所示。

•BY语句指定分组变量。

PROC PRINCOMP根据BY语句中的变量对原数据进行分组分析。

若BY语句中的变量多于一个,那么仅最后一个变量起作用。

该语句要求原始数据已按照BY语句中的变量排序。

•VAR 语句指定数据集中用来进行主成分分析的变量,这些指定变量类型必须为数值型。

表12.1 PROC PRINCOMP常见的选项及含义例12.1:数据集sashelp.cars包含不同型号的汽车的一些参数,共有15个变量以及428条观测,具体变量的含义如表12.2所示。

现在要根据数据集sashelp.cars中的变量MPG_City、MPG_Highway、Weight、Wheelbase以及 Length,对其进行主成分分析。

表12.2 数据集sashelp.cars中的变量具体信息示例代码如下:程序的输出结果中包含了数据集的一些简单统计量,具体如图12.3所示。

图12.3 数据集sashelp.cars的简单统计量紧接着是相关矩阵以及该矩阵对应的特征值,如图12.4所示。

第二十三章因子分析SAS程序设计

第二十三章因子分析SAS程序设计

第二十三章因子分析SAS程序设计一、因子分析定义1、因子分析(factor analysis)的概念:是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

P171因子分析:是要找出某个问题中可直接测量的,具有一定相关性的众多指标,如何受少数几个在专业上有意义,又不可测量的,且相对独立的因子支配的规律,从而可用众多指标的测定值来间接确定各因子的状态。

有一些可测量相关指标,受一些因子的影响,因子分析就是要找出这些因子。

因子分析的基本思想:通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个新随机变量去描述多个变量关系,这少数几个新随机变量是不可观察的,通常称为因子。

然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,受某个因子的影响,不同组之间的变量相关性较低,受另一些因子的影响。

因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。

如股票价格的影响因素经过因子分解以后得出两个主要因子,市场因子和行业因子。

如根据运动员的各项运动成绩,百米速度、跳高、跳远、投掷等十项全能成绩,归纳四个主要因子:耐力、短跑速度、爆发性臂力和腿力。

如考试成绩的影响因素:智力因子、记忆力因子等2、企业的经营状况可以用很多财务指标来表示,资产负债率、流动比率、每股收益、主营利润、净利润增长率、主营业务增长率等。

这些指标经过因子分析后归纳为几个重要因子。

偿债能力、盈利能力、增长能力等。

财务指标分类2、因子分析的意义●因子分析研究变量间的关系;●对数据压缩●3、因子分析与主成分分析的区别与联系(A)相同之处(1)、二者都是用线性模型。

(2)、都是从协方差矩阵中得到信息(3)、都可以对数据压缩(4)、因子分析中用主成分法求初始解(5)各主成分之间无关与各因子之间无关(6)应用于综合评价排序(B)区别之处因子分析与主成分分析的差异Γ是任一个m ×M 的正交阵。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SAS学习系列34.-因子分析
34.因子分析
(一)基本原理
一、概述
因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。

通常情况下,这些相关因素并不能直观观测。

因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。

因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

主成分分析是因子分析的特例。

主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。

因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。

二、原理
假设样品检测p 个指标(变量)X 1, …, X p ,得到观测矩阵X ,这p 个指标变量可能受m (m<p )个共同因素f 1,…f m 的影响,再加上其它影响因素。

表示为:
用矩阵表示为
111p p m m p X A f e ⨯⨯⨯⨯=+
其中,共同影响因素f 1,…f m 是均值为0方差为1的随机变量,称为公共因子;A p×m 称为因子载荷矩阵,a ji 是第j 变量在第i 公共因子上的负荷,即X j 在坐标轴f i 上的投影;e i 是变量X i 所特有的因子,均值为0方差为σi 2,称为特殊因子。

各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即COV(e i , e j )=0, COV(e, f )=0. 因子分析就是用f 1,…f m 代替X 1, …, X p , 达到降维的目的。

主成份分析中,残差通常是彼此相关的。

因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。

而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。

在开始提取公共因子时,已假定它们彼此不相关且具有单位方差。

故向量X 的协方差矩阵Σ可以表为
Σ=D(X)=D(Af+e)=AA T +D
其中,D=diag(σ12, …, σp 2). 若假定X 已标准化,即每个X i 都均值为0
方差为1. 则
1122221
1var()i i i im m p i ij i i X a f a f a f X a σ==+++⎧⎪⎨==+⎪⎩∑ 记2
21m
i
ij j h a ==∑称为变量共同度,则有221, 1,...,i i h i p σ=+=. h i 2反映了公共因子f 对X i 的影响(贡献),即X i 对共同因素f 的依赖程度;σi 2为剩余方差,若h i 2接近1,σi 2很小,则表明因子分析的效果好。

公共因子f j 对X i 的影响,可由A 中第j 列元素来描述,
221p
i ij i g a ==∑
称为公共因子f j 对X 的贡献,是衡量公共因子重要性的尺度。

a ij 为第i 个变量与第j 个公共因子的相关系数,反映了它们的相关程度:
三、求因子载荷矩阵
若X 的协方差矩阵∑和D 已知,则根据∑-D =AA T 求出A
1122(,,)m m A λξλξλξ=
其中,λ1≥λ2≥…λm >λm+1=…=λp =0为∑*=∑-D 的特征值,ξi 为相应的特征向量。

但在实际问题中,并不知道∑和D ,就需要从n 个样品,p
个指标的np 个样本数据,估计因子载荷a ij 和特殊因子方差σi 2. 常用的参
数估计法有:主成分法、主因子解法、极大似然法。

(1)主成分法
记样本数据的协方差矩阵为ˆ∑,其特征值λ1≥λ2≥…≥λp ≥0, 相
应的特征向量为ξi . 当最后p-m 个特征值较小时,对ˆ∑
做谱分解: 111222ˆ=T T T m m m D λξξλξξλξξ∑+++ 先取111a λξ=,看11
ˆT a a ∑-是否接近对角矩阵,若是,说明只取一个公共因子就行了,所有指标主要受到这一个公共因子的影响;若否,再取222a λξ=,看1122
ˆT T a a a a ∑--是否接近对角矩阵……象主成分分析一样,直接取前q 个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。

此时,特殊因子方差为
221ˆ, 1,...,q
i
ii ki k a i p σ==∑-=∑ (2)主因子解法
主因子解法是对主成分法的修正,记样品数据的相关矩阵为R ,设R= AA T + D ,则R* = R –D = AA T 称为约相关矩阵。

若已知特殊因
子方差的初始估计*2ˆ()i σ
,则*2*2ˆ()1()i i h σ=-,故
计算R *的特征值λ1*≥λ2*≥…≥λp *>0,相应的特征向量为u i *, 则有近似分解式:R* = AA T , 其中

则A和D为因子模型的一个解,称为主因子解。

在实际中特殊因子方差是未知的,以上得到的解是近似解。

为了得到近似程度更好的解,常常采用迭代主因子法。

即利用上面得到的
作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。

变量共同度h i2常用的初始估计有以下三种方法:
①取第i个变量与其他所有变量的多重相关系数的平方;
②取第i个变量与其他变量相关系数绝对值的最大值;
③取1(等价于主成分解)。

(3)极大似然法
假定公共因子f和特殊因子e服从正态分布,则可得到因子载荷阵和特殊因子方差的极大似然估计。

设p维观测向量X(1),...,X(n)为来自正态总体N p(μ,∑)的随机样品,则样品似然函数为μ,∑的函数L(μ,∑).
μ=,则似然函数为A,D的函数:φ(A,D),设∑= AA T +D,取X
求A,D使φ(A,D)达到最大。

为保证得到唯一解,可附加计算上方便的唯一性条件:A T D-1A = 对角阵,用迭代方法可求得极大似然估计A和D。

四、公共因子的解释
得到估计的因子模型后,还必须对得到的公因子进行解释。

即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。

该公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。

因子解释是一种主观的方法,有时侯通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。

1. 因子旋转
将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。

它并不影响变量X i的共同度h i2,却会改变因子的方差贡献g j2。

因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。

设p维可观测向量X满足因子模型:X = AF +e。

T为正交矩阵,则因子模型可写为
X = ATT T F + e = A*F* + e
其中A* = AT,F* = T T F. 易知,
∑= AA T + D = A*A*T + D
其中A* = AT. 这说明,若A,D是一个因子解,任给正交阵T,A* = AT,D也是因子解。

在这个意义下,因子解是不惟一的。

由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。

目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。

有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。

这些旋转方法的目标是一致的,只是策略不同。

如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。

倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。

在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。

因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。

2. 因子得分
计算因子得分,是用原有变量来描述因子,第j个因子在第i个样品上的值可表示为:
F ji = βj1x i1 + βj2x i2+…+ βjp x ip j = 1, …, k
其中,x i1, …, x ip分别是第1, …, p个原有变量在第i个样品上的取值,βj1, …, βjp分别是第j个因子和第1, …, k个原有变量间的因子值系数。

可见,它是原有变量线性组合的结果(与因子分析的数学模型正好相反),因子得分可看作各变量值的加权(βj1, …, βjp)总和,权数的大小表示了变量对因子的重要程度。

于是有
F j = βj1X1+βj2X2+…+βjp X p j = 1, …, k
称为因子得分函数。

由于因子个数k小于原有变量个数p,故式中方程的个数少于变量的个数。

因此,对因子值系数通常采用最小二乘意义下的回归法进行估计。

可将上式看作是因子变量F j对p个原有变量的线性回归方程(其中常数项为0)。

可以证明,式中回归系数的最。

相关文档
最新文档