第8章 因子分析、聚类分析与判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、Selection Variable选择变量栏,用于限制有特殊值 的样本子集的分析,当一个变量进入该栏时,激活右侧的 “Value”按钮。待“Value”按钮激活后,单击该键,打开 Set Value对话框,如图8-2 所示,可在该对话框键入标识 参与分析的观测量所具有的该变量值。
图8-2 Set Value 对话框
各特殊因子之间以及特殊因子与所有公共因子之间都是互 相独立的。 2、因子载荷 模型中各公共因子的系数 aij 称为因子载荷,反映了第 i j 个公共因子上的相对重要性, 个变量在第 , 的绝 aij 1 a ij F j 的相依程度越大。 对值越大,表明 x 与
i
3、变量共同度 因子载荷矩阵中第 i 行元素的平方和,称为变量 xi 的共 同度,即变量方差。此值越接近1,表明该变量的几乎全部 原始信息都被所选择的公共因子说明了。此值接近于0,说
(3)Display factor score coefficient matrix 复选项,选择此项将在输出窗中显示因子得分系数 矩阵,是标准化的得分系数。原始变量值进行标准 化后,可以根据该矩阵给出的系数计算各观测量的 因子得分,还显示协方差矩阵。
8、单击“Options”按钮,进入Options对话框,可以进 一步选择各种输出项。如图8-7 所示。
(二)因子提取和因子载荷矩阵的求解
因子分析的关键是根据样本数据求解因子载荷矩阵,
SPSS提供了7种提取因子的方法,其中占主要地位且使用 最为广泛的是主成分分析法。 因子提取通常有以下三种方法:(1)特征值准则,即取 特征值大于等于1的主成分作为初始因子,放弃特征值小于 1的主成分。(2)累积方差贡献率,因子累积解释的方差 比例也是确定因子个数时可以参考的指标,一般应达到 70%-85%或以上。(3)碎石检验准则,按照因子被提取
框,指定因子分析收敛的最大迭代次数。
6、单击“Rotation”按钮,展开Rotation对话框,如图 8-5所示,可以选择因子旋转方法。
图8-5 Rotation 对话框
(1)Method 框,选择旋转方法。其中,None 表
示不进行旋转,Varimax为方差最大旋转法,Direct
Oblilmin为直接斜交旋转法,Quartmax为四次最大 正交旋转法,Equamax为平均正交旋转法,Promax 为斜交旋转法。
A 写成矩阵形式为 X AF ,其中 X 为原始变量向量, 为公因子载荷矩阵, F 为公共因子, 为特殊因子。
(二)因子分析中的基本概念
1、因子的含义 因子分析法中提到两种因子:公共因子和特殊因子。
公共因子是每个原有变量的线性表达式中都共同出现的因 子,各公因子都是均值为0,方差为1的独立正态随机变量。 其协方差矩阵为单位矩阵。 特殊因子表示原有变量不能被公共因子解释的部分,其均 值为0。
当因子确定以后,便可以计算各因子在每个样本上的具 体数值,这些数值称为因子得分,形成的变量称为因子变量。
于是在以后的分析中就可以因子变量代替原有变量进行数据 建模,或者利用因子变量对样本进行分类或评价等研究,进 而实现降维和简化问题的目标。
由于因子得分函数中方程的个数小于变量的个数,因此 不能精确的计算出因子得分,只能对因子得分进行估计。估 计的方法很多,SPSS中列示了三种方法,常用的是 Regression回归法。
SPSS中有5种因子旋转的方式可供选择:Varimax选项, 方差最大旋转;Direct Oblimin 选项,直接斜交旋转; Quartimax 选项,四次最大正交旋转;Equamax 选项,平 均正交旋转;Promax 选项,斜交旋转方法。
(四)计算因子得分,然后将它们用于各种进一步的分析中
的顺序,画出因子的特征值随因子个数变化的散点图,图
形由陡变平,曲线开始变平的前一个点被认为是提取的最 大因子数。
(三)因子命名
在因子分析模型中,公共因子与因子载荷阵的解不是唯 一的。因子分析的目的不仅是找出主因子,更重要的是知道
每个主因子的意义,以利于对公共因子命名和解释结果,便 于进一步的分析。若每个公共因子的涵义不清,难以找到合 理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一 个公共因子上有较大的载荷,而在其他公共因子上的载荷较 小。
出最有影响的公共因子。
三、因子分析的步骤 (一)因子分析的适合性检验 1、相关矩阵和反映像相关矩阵 相关矩阵中大部分相关系数都小于0.3,那么原则上这些
数据不适合做因子分析。另外,如果反映像相关矩阵中除
对角元素外,其他大多数元素的绝对值均较小,对角线上 元素的值较接近1,则适合进行因子分析。
(一)因子分析的数学模型 因子分析的数学模型为:
x1 a11 f1 a12 f 2 a13 f 3 a1k f k 1 (8.1) x a f a f a f a f 2 21 1 22 2 23 3 2 k k 2 x3 a31 f1 a32 f 2 a33 f 3 a3k f k 3 x p a p1 f1 a p 2 f 2 a p 3 f 3 a pk f k p
在会计实证研究中,因子分析发挥着重要的
作用,如变量构造、变量筛选和综合评价等。
(二)因子分析的特点 1、因子变量的数量远少于原有指标变量的 数量。
2、因子变量并不是原有变量的简单取舍, 而是对原有变量的重新组构。
3、因子之间线性关系不显著。 4、因子变量具有命名解释性。
二、因子分析的数学模型和相关概念
用因子得分还可以计算因子总分,根据因子总分可对样
本(变量)进行排序或归类,作为评价的依据。
四、因子分析在SPSS中的实现 1、建立或打开数据文件后,进入Analyze→Data Reduction→Factor Analysis主对话框,如图8-1所示。
图8-1 因子分析主对话框
2、把参与分析的变量选到Variables框中。
图8-7 Options 对话框
(1)Missing Values 栏,选择处理缺失值方法。 ①Exclude cases listwise 选项,在分析过程中对那些 指定的分析变量中有缺失值的观测量一律剔除。 ②Exclude cases pairwise 选项,成对剔除带有缺失值 的观测量。。 ③Replace with mean 选项,用该变量的均值代替该变 量的所有缺失值。 (2)Coefficient Display Format 栏,决定载荷系数的 显示格式。 ①Sorted by size 复选项,选中此项载荷系数按其数值 的大小排列并构成矩阵。 ②Suppress absolute values less than 复选项,选中 此项,不显示那些绝对值小于指定值的载荷系数。
③Generalized least squares 选项,用变量 值的倒数加权。 ④Maximum Likelihoud 选项,最大似然法。
⑤Principal Axis factoring 选项,使用多元 相关的平方作为对公因子方差的初始估计。
⑥Alpha factoring 选项,因子提取法。 ⑦Image factoring 选项,映象因子提取法。
第八章
因子分析与聚类分析
本章内容
第一节 因子分析 第二节 聚类分析
第一节 因子分析
一、因子分析的概念和特点
(一)因子分析的概念
因子分析(factor analysis)是利用降维的思 想,由研究原始变量相关矩阵内部的依赖关系出 发,把一些具有错综复杂关系的变量归结为少数
几个综合因子的一种多变量统计分析方法。
明公共因子对 xi
的影响很小,主要由特殊因子来描述。
4、因子的方差贡献 因子 f j的方差贡献是因子载荷矩阵 A中第 j 列元素的平 方和,反映了因子 f j 对原有变量总方差的解释能力,是衡量 公共因子相对重要性的指标。此值越大,表明相应因子的重
要性越高。计算出所有的指标,按其大小排序,就可以提炼
(2)Display 框,选择有关输出的选项。其中:
Rotated solution 选项,显示旋转结果;Loading
plot(s)选项,显示因子载荷散点图。
(3)Maximum iterations for Convergence 参
数框,指定旋转收敛的最大迭代次数。
7、单击“Scores”按钮,进入Factor Scores对话框, 如图8-6所示,可以要求计算因子得分,选择显示或作为新 变量保存。
图8-6 Factor Scores 对话框
(1)Save as variables 复选项,将因子得分作 为新变量保存在数据文件中。 (2) Method 栏,指定计算因子得分的方法。 其中,Regression 选项为回归法,Bartlett 选项为 巴特利特法,Anderson-Rubin 选项是为了保证因 子的正交性而对Bartlett 因子得分的调整。
④Inverse 复选项,显示相关系数矩阵的逆矩阵。 ⑤Reproduced 选项,显示再生相关阵。
⑥Anti-image 复选项,选择此项给出反映象相关矩阵。
⑦ KMO and Bartlett’s test of Sphericity 复选项,要求 进行 KMO 检验和球形Bartlett 检验。
4、单击“Descriptivs”按钮,展开Descriptives对话框, 如图8-3所示,可以选择单变量的描述统计量和初始分析结 果。
图8-3 Descriptives 对话框
(1)Statistics 统计量框
①Univariate descriptive复选项,单变量描述统计量。
(2)Analyze 框,指定分析矩阵的选择项。
①Correlation Matrix 选项,指定以分析变量
的相关矩阵为提取因子的依据。
②Covariance matrix 选项,指定以分析变量 的协方差矩阵为提取因子的依据。 (3)Display 框,指定与因子提取有关的输出项。 ①Unrotated factor solution 复选项,要求显 示未经旋转的因子提取结果。 ②Scree plot 复选项,要求显示按特征值大小
②Initial solution复选项,初始分析结果。 (2)Correlation Matrix相关矩阵框
①Coefficients 复选项,显示相关系数。
②Significance levels 复选项,显示相关系数的显Biblioteka Baidu性 水平。
③Determinant 复选项,显示相关系数矩阵的行列式。
5、单击“Extraction”按钮,进入Extraction对话框, 如图8-4 所示,可以选择不同的提取公因子的方法和控制 提取结果的判据。
图8-4 Extraction 对话框
(1)Method框,因子提取方法选择项
①Principal components 选项,主成份法。
②Unweighted least Square 选项,不加权最 小平方法。
排列的因子序号,以特征值为两个坐标轴的碎石图。
(4)Extract 框,控制提取进程和提取结果的选择
项。
①Eigenvalues over 选项,指定提取的因子应
该具有的特征值范围,在此项后面的矩形框中给出。
②Number of factors 选项,指定提取公因子
的数目。
(5)Maximum iterations for Convergence 参数
2、 KMO 检验
KMO 检验统计量是用于比较变量间简单相关系数和偏
相关系数的指标,取值在0和1之间。值越接近于1,意味 着变量间的相关性越强,原有变量越适合做因子分析。
3、 巴特利特球度检验(Bartlett test of sphericity ) 巴特利特球度检验以原有变量的相关系数矩阵为 出发点,其零假设是:相关矩阵为单位阵,即相关 系数矩阵为对角矩阵。巴特利特球度检验的检验统 计量是根据相关系数矩阵的行列式计算得到,且近 似服从卡方分布。如果该统计量的观察值比较大且 相伴概率 值小于或等于给定的显著性水平,则应 拒绝原假设;反之,如果该统计量的观察值比较小 且相伴概率值大于给定的显著性水平,则不应拒绝 原假设。
图8-2 Set Value 对话框
各特殊因子之间以及特殊因子与所有公共因子之间都是互 相独立的。 2、因子载荷 模型中各公共因子的系数 aij 称为因子载荷,反映了第 i j 个公共因子上的相对重要性, 个变量在第 , 的绝 aij 1 a ij F j 的相依程度越大。 对值越大,表明 x 与
i
3、变量共同度 因子载荷矩阵中第 i 行元素的平方和,称为变量 xi 的共 同度,即变量方差。此值越接近1,表明该变量的几乎全部 原始信息都被所选择的公共因子说明了。此值接近于0,说
(3)Display factor score coefficient matrix 复选项,选择此项将在输出窗中显示因子得分系数 矩阵,是标准化的得分系数。原始变量值进行标准 化后,可以根据该矩阵给出的系数计算各观测量的 因子得分,还显示协方差矩阵。
8、单击“Options”按钮,进入Options对话框,可以进 一步选择各种输出项。如图8-7 所示。
(二)因子提取和因子载荷矩阵的求解
因子分析的关键是根据样本数据求解因子载荷矩阵,
SPSS提供了7种提取因子的方法,其中占主要地位且使用 最为广泛的是主成分分析法。 因子提取通常有以下三种方法:(1)特征值准则,即取 特征值大于等于1的主成分作为初始因子,放弃特征值小于 1的主成分。(2)累积方差贡献率,因子累积解释的方差 比例也是确定因子个数时可以参考的指标,一般应达到 70%-85%或以上。(3)碎石检验准则,按照因子被提取
框,指定因子分析收敛的最大迭代次数。
6、单击“Rotation”按钮,展开Rotation对话框,如图 8-5所示,可以选择因子旋转方法。
图8-5 Rotation 对话框
(1)Method 框,选择旋转方法。其中,None 表
示不进行旋转,Varimax为方差最大旋转法,Direct
Oblilmin为直接斜交旋转法,Quartmax为四次最大 正交旋转法,Equamax为平均正交旋转法,Promax 为斜交旋转法。
A 写成矩阵形式为 X AF ,其中 X 为原始变量向量, 为公因子载荷矩阵, F 为公共因子, 为特殊因子。
(二)因子分析中的基本概念
1、因子的含义 因子分析法中提到两种因子:公共因子和特殊因子。
公共因子是每个原有变量的线性表达式中都共同出现的因 子,各公因子都是均值为0,方差为1的独立正态随机变量。 其协方差矩阵为单位矩阵。 特殊因子表示原有变量不能被公共因子解释的部分,其均 值为0。
当因子确定以后,便可以计算各因子在每个样本上的具 体数值,这些数值称为因子得分,形成的变量称为因子变量。
于是在以后的分析中就可以因子变量代替原有变量进行数据 建模,或者利用因子变量对样本进行分类或评价等研究,进 而实现降维和简化问题的目标。
由于因子得分函数中方程的个数小于变量的个数,因此 不能精确的计算出因子得分,只能对因子得分进行估计。估 计的方法很多,SPSS中列示了三种方法,常用的是 Regression回归法。
SPSS中有5种因子旋转的方式可供选择:Varimax选项, 方差最大旋转;Direct Oblimin 选项,直接斜交旋转; Quartimax 选项,四次最大正交旋转;Equamax 选项,平 均正交旋转;Promax 选项,斜交旋转方法。
(四)计算因子得分,然后将它们用于各种进一步的分析中
的顺序,画出因子的特征值随因子个数变化的散点图,图
形由陡变平,曲线开始变平的前一个点被认为是提取的最 大因子数。
(三)因子命名
在因子分析模型中,公共因子与因子载荷阵的解不是唯 一的。因子分析的目的不仅是找出主因子,更重要的是知道
每个主因子的意义,以利于对公共因子命名和解释结果,便 于进一步的分析。若每个公共因子的涵义不清,难以找到合 理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一 个公共因子上有较大的载荷,而在其他公共因子上的载荷较 小。
出最有影响的公共因子。
三、因子分析的步骤 (一)因子分析的适合性检验 1、相关矩阵和反映像相关矩阵 相关矩阵中大部分相关系数都小于0.3,那么原则上这些
数据不适合做因子分析。另外,如果反映像相关矩阵中除
对角元素外,其他大多数元素的绝对值均较小,对角线上 元素的值较接近1,则适合进行因子分析。
(一)因子分析的数学模型 因子分析的数学模型为:
x1 a11 f1 a12 f 2 a13 f 3 a1k f k 1 (8.1) x a f a f a f a f 2 21 1 22 2 23 3 2 k k 2 x3 a31 f1 a32 f 2 a33 f 3 a3k f k 3 x p a p1 f1 a p 2 f 2 a p 3 f 3 a pk f k p
在会计实证研究中,因子分析发挥着重要的
作用,如变量构造、变量筛选和综合评价等。
(二)因子分析的特点 1、因子变量的数量远少于原有指标变量的 数量。
2、因子变量并不是原有变量的简单取舍, 而是对原有变量的重新组构。
3、因子之间线性关系不显著。 4、因子变量具有命名解释性。
二、因子分析的数学模型和相关概念
用因子得分还可以计算因子总分,根据因子总分可对样
本(变量)进行排序或归类,作为评价的依据。
四、因子分析在SPSS中的实现 1、建立或打开数据文件后,进入Analyze→Data Reduction→Factor Analysis主对话框,如图8-1所示。
图8-1 因子分析主对话框
2、把参与分析的变量选到Variables框中。
图8-7 Options 对话框
(1)Missing Values 栏,选择处理缺失值方法。 ①Exclude cases listwise 选项,在分析过程中对那些 指定的分析变量中有缺失值的观测量一律剔除。 ②Exclude cases pairwise 选项,成对剔除带有缺失值 的观测量。。 ③Replace with mean 选项,用该变量的均值代替该变 量的所有缺失值。 (2)Coefficient Display Format 栏,决定载荷系数的 显示格式。 ①Sorted by size 复选项,选中此项载荷系数按其数值 的大小排列并构成矩阵。 ②Suppress absolute values less than 复选项,选中 此项,不显示那些绝对值小于指定值的载荷系数。
③Generalized least squares 选项,用变量 值的倒数加权。 ④Maximum Likelihoud 选项,最大似然法。
⑤Principal Axis factoring 选项,使用多元 相关的平方作为对公因子方差的初始估计。
⑥Alpha factoring 选项,因子提取法。 ⑦Image factoring 选项,映象因子提取法。
第八章
因子分析与聚类分析
本章内容
第一节 因子分析 第二节 聚类分析
第一节 因子分析
一、因子分析的概念和特点
(一)因子分析的概念
因子分析(factor analysis)是利用降维的思 想,由研究原始变量相关矩阵内部的依赖关系出 发,把一些具有错综复杂关系的变量归结为少数
几个综合因子的一种多变量统计分析方法。
明公共因子对 xi
的影响很小,主要由特殊因子来描述。
4、因子的方差贡献 因子 f j的方差贡献是因子载荷矩阵 A中第 j 列元素的平 方和,反映了因子 f j 对原有变量总方差的解释能力,是衡量 公共因子相对重要性的指标。此值越大,表明相应因子的重
要性越高。计算出所有的指标,按其大小排序,就可以提炼
(2)Display 框,选择有关输出的选项。其中:
Rotated solution 选项,显示旋转结果;Loading
plot(s)选项,显示因子载荷散点图。
(3)Maximum iterations for Convergence 参
数框,指定旋转收敛的最大迭代次数。
7、单击“Scores”按钮,进入Factor Scores对话框, 如图8-6所示,可以要求计算因子得分,选择显示或作为新 变量保存。
图8-6 Factor Scores 对话框
(1)Save as variables 复选项,将因子得分作 为新变量保存在数据文件中。 (2) Method 栏,指定计算因子得分的方法。 其中,Regression 选项为回归法,Bartlett 选项为 巴特利特法,Anderson-Rubin 选项是为了保证因 子的正交性而对Bartlett 因子得分的调整。
④Inverse 复选项,显示相关系数矩阵的逆矩阵。 ⑤Reproduced 选项,显示再生相关阵。
⑥Anti-image 复选项,选择此项给出反映象相关矩阵。
⑦ KMO and Bartlett’s test of Sphericity 复选项,要求 进行 KMO 检验和球形Bartlett 检验。
4、单击“Descriptivs”按钮,展开Descriptives对话框, 如图8-3所示,可以选择单变量的描述统计量和初始分析结 果。
图8-3 Descriptives 对话框
(1)Statistics 统计量框
①Univariate descriptive复选项,单变量描述统计量。
(2)Analyze 框,指定分析矩阵的选择项。
①Correlation Matrix 选项,指定以分析变量
的相关矩阵为提取因子的依据。
②Covariance matrix 选项,指定以分析变量 的协方差矩阵为提取因子的依据。 (3)Display 框,指定与因子提取有关的输出项。 ①Unrotated factor solution 复选项,要求显 示未经旋转的因子提取结果。 ②Scree plot 复选项,要求显示按特征值大小
②Initial solution复选项,初始分析结果。 (2)Correlation Matrix相关矩阵框
①Coefficients 复选项,显示相关系数。
②Significance levels 复选项,显示相关系数的显Biblioteka Baidu性 水平。
③Determinant 复选项,显示相关系数矩阵的行列式。
5、单击“Extraction”按钮,进入Extraction对话框, 如图8-4 所示,可以选择不同的提取公因子的方法和控制 提取结果的判据。
图8-4 Extraction 对话框
(1)Method框,因子提取方法选择项
①Principal components 选项,主成份法。
②Unweighted least Square 选项,不加权最 小平方法。
排列的因子序号,以特征值为两个坐标轴的碎石图。
(4)Extract 框,控制提取进程和提取结果的选择
项。
①Eigenvalues over 选项,指定提取的因子应
该具有的特征值范围,在此项后面的矩形框中给出。
②Number of factors 选项,指定提取公因子
的数目。
(5)Maximum iterations for Convergence 参数
2、 KMO 检验
KMO 检验统计量是用于比较变量间简单相关系数和偏
相关系数的指标,取值在0和1之间。值越接近于1,意味 着变量间的相关性越强,原有变量越适合做因子分析。
3、 巴特利特球度检验(Bartlett test of sphericity ) 巴特利特球度检验以原有变量的相关系数矩阵为 出发点,其零假设是:相关矩阵为单位阵,即相关 系数矩阵为对角矩阵。巴特利特球度检验的检验统 计量是根据相关系数矩阵的行列式计算得到,且近 似服从卡方分布。如果该统计量的观察值比较大且 相伴概率 值小于或等于给定的显著性水平,则应 拒绝原假设;反之,如果该统计量的观察值比较小 且相伴概率值大于给定的显著性水平,则不应拒绝 原假设。