第五章 多元统计分析(提纲)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章多元统计分析
第一节多元描述统计
一、列表法
二、多元数据的图示法
1.轮廓图
作图步骤为:
(1)作平面坐标系,横坐标取A个点表示A个变量。
(2)对给定的一次观测值,在P个点上的纵坐标(即高度)和它对应的变量取值成正比。
(3)连接P个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。
n次观测值可画出M条折线.构成轮廓图。
2.雷达图(蛛网图)
作图步骤是:
(1)作一圆,并把圆周分为P等分。
(2)连接圆心和各分点,把这十条半径依次定义为各变量的坐标轴,并标以适当的刻度。
(3)对给定的—次观测值,把它的P个分量值分别点在相应的坐际轴上,然后连接成一个P 边形,这个P边形就是P元观测值的图示,n次观测值可画出M个多边形。
将上例数据用雷达图表示如下(值得注意的是,这里坐标轴只有正半袖,因而只能表示非负数据,若有负数据.只能通过合理变换使之非负才行):
3.脸谱图(切尔诺夫脸)
人们的反应表现在脸上。
切尔诺夫假定用二维平面的脸来表示多维观测结果,脸的特征(如脸的形状,嘴的弯曲率,鼻子的长度,服睛的大小,瞳孔的位置等等)是由P个变量的测量值所决定的。
按照最初的设计.切尔诺夫脸可处理多达18个变量。
脸部容貌对应的变量的分配是由实验者完成的,不同选择会产生不同的结果。
为了取得令人满意的表示常常需要一些重复步骤。
第二节综合评价方法
一、综合评价及其要素
1.综合评价根据多个指标,对评价对象进行客观、公正、合理的全面评价。
2.综合评价的要素
(1)被评价的对象
(2)评价指标
(3)权重系数
(4)综合评价模型
(5)评价者
二、综合评价的原则
1.评价目标:总结性、发展性(预测性)
2.评价对象采样:普遍、可比、可测性
3.评价指标选择原则:相关性、全面性、可操作、与评价方法相协调。
三、综合评价的步骤:
1.确定反映要研究的对象的主要方面及各方面的主要指标,建立评价指标体系。
2.评价指标的转换与综合的方法
3.确定各种评估方法所需要的参数
4.加权合成指标评价值,进行评估分析,得出评估结论
五、评价指标的正向化与无量纲化
1.正向指标、逆向指标与正向化
正向指标是指数值越大越好的指标,逆向指标是数值越小越好的指标。
指标的正向化是值将逆向指标变换为正向指标。
最简单的正向化方法是讲原指标取倒数。
2.指标的无量纲化
不同的指标有不同的量纲,因此不能直接加总综合。
要使得不同的指标可以加总,可以对指标进行无量纲化处理。
基本方法是,为每个指标选择一个标准数值,然后将各个指标除以该标准数值,就可将量纲去掉。
这一过程同时还把原指标值,变为相对评价标准的数值,从而反映该指标的相对优劣。
对于正向指标,当确定评价标准指标x0后,将被评价指标x除以x0,就得到一个无量纲的比值,该比值是越大越好的。
在一般情况下,被评价指标的数值小于标准指标的数值,因此,这个比值是一个大于0而小于1的数。
对于逆向指标,可以用标准值x0除以被评价指标x0,也得到一个无量纲的比值,同样是越大越好的(即同时完成了正向化和无量纲化)。
在一般情况下,逆向指标被评价指标的数值大于标准指标的数值,因此,这个比值是一个大于0而小于1的数。
对于适度指标(数值过过大过小都不好,适度最好的指标),可以首先根据被评价项目的特点,为每个适度指标,确定一个标准值,一个最小值和一个最大值,然后根据下面的公式计算每个指标的比值:比较分值指根据实际值与标准值的比较确定的分值,其计算方法是:当指标的实际值小于或等于指标的标准值时,比较分值按下式计算:比较分值=(指标的实际值—最小值)/(指标的标准值—最小值)
当指标的实际值大于该指标的标准值时,比较分值按下式计算:比较分值=(指标的最大值—指标的实际值)/(指标的设定最大值—最佳值)当指标的实际值低于我们所确定的最小值或高于最大值时,则可以取比较分值为0 。
用这种方法处理的适度指标的实际得分,以指标的实际值取最佳值时得分最高,取值过大或过小,得分都不高,所以,这样处理后的比值,也将是一个大于0而小于1 的数。
六、评价参数权重的确定
无量纲化处理后的评价指标,都表现为一个大于0而小于1的比值。
对这些比值以适当的方式进行加总时,还有一个为各项指标确定权重的问题。
权重实际上反映了各评价指标在评价系统中的相对重要性。
比较重要的评价指标,可以给予较大的权数,而不太重要的评价指标,给予较小的权数。
使得最后的评价结果比较符合实际。
权数的确定,对于评价结果影响很大。
确定权数的常用方法可以分为主观赋权法和客观赋权法。
1.主观赋权法
(1)特尔菲法
采用特尔菲法的基本作法是邀请一批对所要评价的事物有深入了解的专家,请他们各自独立对每个评价指标赋予权数。
而后将专家门的意见集中起来,研究对每个评价指标权数的集中趋势和离散程度。
集中趋势可以通过计算算术平均数或中位数来反映,离散程度可以用内四分位数或标准差来反映。
如果专家们的意见比较集中,则可以进行进一步的处理,如果大家的意见分散,那么可以将统计的结果反映给各位专家,请他们重新考虑后,给出新的权数,直到大家的意见分歧不很严重为止。
然后将大家的评定的全面加以平均以得到各项评价指标的权数。
特尔菲法简单使用,便于推广,因而得到了广泛的应用。
其是主观色彩较浓,其有效性和合理性,在很大的程度上,取决于专家的选择。
(2)层次分析法
采用美国学者在70年代提出的一种多目标决策分析方法,首先建立有序的递阶指标系统,然后主观地将指标两两比较构造判断矩阵,再根据判断矩阵进行数字处理及一致性检验,从而获得各指标的相对权数。
层次分析法,在确定权数时,比较注意对不同的评价指标进行量化的对比,因而比特尔菲法在操作上具有客观性的特点,但是,判断矩阵的构造仍然是主观的,因而有带有主观的色彩。
运用层次分析法构造系统模型时,大体可以分为以下四个步骤:
1. 建立层次结构模型
2. 构造判断(成对比较)矩阵
3. 层次单排序及其一致性检验
4. 层次总排序及其一致性检验
1.建立层次结构模型
将决策的目标、考虑的因素(决策准则)和决策对象按它们之间的相互关系分为最高层、中间层和最低层,绘出层次结构图。
最高层:决策的目的、要解决的问题。
最低层:决策时的备选方案。
中间层:考虑的因素、决策的准则。
对于相邻的两层,称高层为目标层,低层为因素层。
2.构造判断(成对比较)矩阵
在确定各层次各因素之间的权重时,如果只是定性的结果,则常常不容易被别人接受,因而Santy等人提出:一致矩阵法,即:
不把所有因素放在一起比较,而是两两相互比较
对此时采用相对尺度,以尽可能减少性质不同的诸因
素相互比较的困难,以提高准确度。
判断矩阵是表示本层所有因素针对上一层某一个因素的相对
重要性的比较。
判断矩阵的元素aij用Santy的1—9标度方法
给出。
心理学家认为成对比较的因素不宜超过9个,即每层不
要超过9个因素。
用EXCEL做矩阵乘法:
拉出区域(算完后拉也可以,不拉区域,则只出现1个数),插入MMULT,选择两个矩阵,F2, CTRL+SHIFT+ENTER
矩阵乘法函数:MMULT
逆矩阵函数:MINVERSE
2.客观赋权法
客观赋权法是直接根据各个评价指标的原始信息获得各评价指标的权数的方法。
其基本思想是,指标权数应当根据各指标间的相互关系或各指标提供的信息量的大小来确定。
提供信息量较大的指标给予较大的权数,而提供信息量较小的指标给予较小的权数。
客观赋权法中,典型而方便的方法是变异系数法。
变异系数法的基本思想是,评价指标的权数大小应当根据该项指标在各个被评价对象上的数值的差异程度来确定,如果一个评价指标在被评价对象上的数值差异较大,那么就表明被评价对象在项评价指标上的区分度较大,因而该项指标在这项评价上的分辨信息丰富,应给予较大的权数。
反之,则应当给予较小的权数。
从极端方面考虑,若某项评价指标在被评价对象上高度的一致,则说明该项指标没有区分度,则其权数应当为零,因而不适合作为评价指标。
在统计学上,指标的变异信息量是用方差或标准差来衡量的,若是要对不同的指标的变异程度进行对比,还需要在用标准差除以该项指标的平均值,得到标准差系数,作为衡量标准。
对标准差系数进行归一化处理(即用各项指标的标准差系数除以标准差系数之和,则这些比值的总和就为1),就可以得到各评价指标的权数。
(1)变异系数法
①求出各指标的标志变异系数(标准差系数)
对标准差系数进行归一化处理,即得各指标的权数。
(2)相关系数法。
求每一指标与其余指标的复相关系数,将多元相关系数求倒数并作归一化处理。
(3)主成分分析法
(4)因子分析法
七、指标评价值的综合方法
1.线性综合法
2.
3.
第三节 聚类分析
一、聚类分析的概念、种类与作用
1.概念
根据研究对象的特征对研究对象进行分类的多元分析技术的总称。
聚类是把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。
2.种类
(1)根据分类对象分
①对案例进行分类(Q 型)聚类
②对变量进行分类(R 型)聚类
(2)按照聚类方法分
①系统聚类法
②动态聚类法
③有序样品聚类法
④模糊聚类法
⑤图论聚类法
⑥聚类预报法
3.作用
(1)R 型
①了解变量与变量组合间的亲疏关系
②对变量进行分类,在此基础上可以对每类变量选一代表变量进行其他深入研究。
(2)Q 型
①通过多个信息对对象进行分类,比传统方法细致、全面合理; ②分类过程和结果可以反映各类之间的亲疏关系及其相互联系。
聚类分析可以用于探索性的研究,也可以用于实证性研究。
二、聚类分析的基本原理——相似性测度
相似性是聚类分析的基本概念。
相似性反映研究对象之间的亲疏程度,聚类分析是通过计算对象间的相似性的程度,来进行分类的。
相似性测度是反映对象之间相似程度的统计量。
具体有多种,如相关测度、距离测度、关联测度。
1.相关测度
通过定义相似系数来实现,相似系数满足以下准则: ∑==n i i i x w z 1
对于指标xi,xj,相似系数cij 满足:
①|cij|≤1,
②当xi =axj,时,a>0, cij =1, a<0, cij =—1,
③cij =cji ,对于一切i 、j 成立。
应用得比较多的是夹角的余弦和皮尔逊相关系数。
常用于R 型聚类分析。
夹角余弦:等于两个向量的点积除以他们各自的模的平方积的开方。
皮尔逊相关系数,即通常的线性相关系数。
2.距离测度
是应用得最多的相似性测度。
距离测度的基本原理是,将每个案例看作是m 维空间中的一个点,在m 维空间中定义点与点之间的距离。
距离越近,说明相似程度越高。
可以根据各个案例的距离远近进行分类。
(1)距离测度应当满足以下要求:
①dij ≥0非负性
②dij=0等价于两点的坐标相同
③dij=dji 对称性
④dij ≤dik+dkj 三角不等式
(2)常用的距离
①绝对值距离
②欧氏距离 ③明氏距离
q=1则为绝对距离,q=2则为欧氏距离,q=∞为切比雪夫距离
④马氏距离
三、聚类分析步骤
聚类分析一般可以分为以下几个步骤:
1.选择合适的聚类变量
原则:
(1)和聚类分析的目标密切相关;
(2)能够反映要分类对象的特征;
(3)在不同的研究对象上的值具有明显差异;
(4)变量之间不应当高度相关。
2.数据变换
相似测度,受变量的单位的影响。
为消除这种影响,在举行聚类分析前,应当对数据进行标准化。
通常把变量变成0均值,方差为1的标准化变量。
数据的标准化工作一般可以由统计软件自动完成。
①中心化变换:变量减均值
②标准化变换:变量减均值除以标准差
③极差标准化:变量减极小值除以极大极小值之差
)
()()(1'2j i j i ij X X X X M d -∑-=-
④对数变换:变量取对数
3.系统聚类
①计算n 个样品间两两的距离
②构造n个类,每类一个样品
③合并距离最近的两类为一个新类
④重新计算各类间的距离,并将距离最近的两类并为一类,直到所有的样本都归为一类。
⑤画聚类图
⑥决定类的个数和类
4.类与类之间的距离的计算
常用以下几种方法
①最短距离法:把两类之间的距离定义为一个类中的案例与另一类中的所有案例中之间的距离最小者。
缺点是容易把大部分案例聚为一类。
②最长距离法:把两类之间的距离定义为一个类中的案例与另一类中的所有案例中之间的距离最大者。
能够克服最短距离法的缺点,但仍有没有充分利用所有案例信息的缺陷。
③平均联接法:把两类之间的距离定义为两类中所有案例之间的距离的平均值。
有组内连接法与组间连接法两种。
④重心法:把两类之间的距离定义为两类的重心之间的距离。
⑤离差平方和法。
其原理是,同类案例之间的离差平方和应该较小。
具体做法是:首先每个案例自成一类,然后把每两类合并后的离差平方和,把离差平方和增加最小的并为一类。
直到把所有案例归为一类。
5.分类数的确定
层次分类的最终结果是一个分类树状图,迭代法分类需要事先指定分类数。
需要研究者从实际出发,确定适合的分类数。
戴米尔曼的分类准则(1972):
①任何类都必须在邻近各类中是突出的,即各类重心之间的距离必须大。
②各类所包含的元素都不要过分的多。
③分类的数目应该符合使用的目的。
④若采用几种不同的分类方法处理,分类结果大致相同。
6.聚类结果的解释和证实
对聚类结果进行解释是为了对各个类的特征进行准确的描述,给每一个类起一个合适的名称。
可以借助于各种描述性统计量进行分析,例如计算各个类在各聚类变量上的均值。
四、用SPSS进行聚类分析
例1.实例:T4.7.SA V
第四节主成份分析
一、主成份分析的基本思想
主成份分析是将多个指标转化为少数几个互不相关的综合指标的一种多元统计分析方法。
反映研究对象的指标(变量)往往有许多个,这些指标都反映对象某些方面的信息,但是,在许多情况下,这些指标包含的信息往往是重叠的,不利于对对象进行比较或评价。
因此需要设法将众多的指标转化为少数几个互不相关的指标,以便于比较或评价。
主成份分析的基本思想是通过坐标变换来达到这个目的。
其基本原理可以用二维变量的情况加以说明
:设总体的特征可以用两个变量X1,X2表述。
这两个变量在所研究的众多样本上的分
布情况可以用下图表示:
从图上可以看出,在坐标系X1,X2中,样本在X1,X2两个方向上均有较大的离散程度,表现为X1,X2的方差都比较大,不能简单地去掉X1或,X2,否则就会失去较多的信息。
如果进行一个坐标变换,(旋转),将坐标系X1X2,变换为Y1,Y2,那么在新坐标系中,样本点在Y1方向,表现出较大的离散程度,坐标(Y1)的方差比较大,成为第一主成份,而在Y2方向,样本点的离差较小,称为第二主成份。
即样本的差异主要体现在Y1上,Y2可以忽略而不至于丢失较多的信息。
即第二主成份Y2可以忽略,从而将二维降为一维。
二、主成份分析的基本模型
设有n个样本,p个变量X1、X2、……Xp的问题。
设这些样本的指标构成如下矩阵:
X11 X12 …………………X1p
X21 X22 …………………X2p
……………………………
Xn1 Xn2……………………Xnp
对原变量进行坐标变换,新变量Y1,Y2,………Yp可以由原变量线性表示如下:
Y1=u11X1+u12X2…………+u1pXp
Y2=u21X1+u22X2…………+u2pXp
……………………………………
Yp=up1X1+up2X2…………+uppXp
变换式的系数满足:(即各行的系数平方和等于1)
uk12+uk22…………+ukp2=1, k=1,2,……,p
并且根据以下原则来确定:
(1)Yi与Yj相互无关(i≠j)
(2) Y1 是X1,X2………Xp的一切线性组合中满足(A)式中的方差最大者,Y2是与Y1不相关的X1,X2………Xp的一切线性组合中的方差最大者;Yp是与Y1,Y2,………Yp-1都不相关的X1,X2………Xp的一切线性组合中的方差最大者。
变量Y1,Y2………Yp分
别称为原变量的第一、第二、………第p个主成份。
其方差在总方差中的比重,依次减低。
这样变换的结果是,X的方差总和与Y的方差总和保持不变,但Y是按方差大小排序的。
方差代表该变量蕴含的信息的大小,因此,但若干个主成分的方差,占了方差总和的大部分时(比如超过80%),就可以认为这几个主成分代表了原来变量的大部分信息。
其余变量所包含的信息可以忽略不计。
三、主成分分析的任务
(1)根据对主成分所包含的信息的要求,确定主成分的个数。
(2)确定各主成分的方差占总方差的比例。
(3)给出各主成分的系数,写出各主成分的表达式。
(4)计算原样本在各主成分上的数值,用于研究(如综合评价、回归分析等等)。
四、求主成分的方法
根据样本的数据求主成份实际上是一个求样本的相关矩阵R的特征值和特征向量的过程,其步骤为:
①将原始数据标准化
②计算样本相关矩阵R。
③求相关矩阵的特征值和特征向量。
解方程求得特征值、特征值贡献率、累积贡献率。
最大特征值就是第一主成分的方差,次大特征值就是第二主成分的方差,以此类推;每个特征值所对应的特征向量各分量,就是相应主成分的系数。
④选择m个主成份。
⑤对所选主成份做出经济解释。
例:30个学生的身高、体重、胸围、坐高资料:
1 148 41 7
2 78 2 139 34 71 76
3 160 49 77 86
4 149 36 67 79
5 159 45 80 8
6 6 142 31 66 76
7 153 43 76 83 8 150 43 77 79
9 151 42 77 80 10 139 31 68 74
11 140 29 64 74 12 161 47 78 84
13 158 49 78 83 14 140 33 67 77
15 137 31 66 73 16 152 35 73 79
17 149 47 82 79 18 145 35 70 77
19 160 47 74 87 20 156 44 78 85
21 151 42 73 82 22 147 38 73 78
23 157 39 68 80 24 147 30 65 75
25 157 48 80 88 26 151 36 74 80
27 144 36 68 76 28 141 30 67 76
29 139 32 68 73 30 148 38 70 78
SAS的输出结果如下:
Correlation Matrix
X1 X2 X3 X4
X1 1.0000 0.8632 0.7321 0.9205
X2 0.8632 1.0000 0.8965 0.8827
X3 0.7321 0.8965 1.0000 0.7829
X4 0.9205 0.8827 0.7829 1.0000
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative Z1 3.54110 3.22771 0.885274 0.88527 Z2 0.31338 0.23397 0.078346 0.96362 Z3 0.07941 0.01330 0.019852 0.98347 Z4 0.06611 . 0.016527 1.00000 Eigenvectors
Z1 Z2 Z3 Z4 X1 0.496966 -.543213 -.449627 0.505747 X2 0.514571 0.210246 -.462330 -.690844 X3 0.480901 0.724621 0.175177 0.461488 X4 0.506928 -.368294 0.743908 -.232343 取第一、第二主成分,其方差总和占总方差的96.362%。
表达式为:
Z1=0.496966X1+0.514571X2+0.480901X3+0.506928X4
Z2=-.543213X1+0.210246X2+0.724621X3-0.368294X4 第五节 因子分析
因子分析是用少数几个因子去研究多个原始指标之间关系的一种多元统计方法。
它的基本思想是找出决定原始指标的内在的主要的因素,以简化人们的认识,找出决定事物特性的主要原因,对比较复杂的事物进行比较研究。
1.因子模型
设有p 个指标,x1,x2………xp ,每个指标已经标准化,设每个指标可以表示为以下形式:
x1=a11F1+a12F2+………………+a1mFm+ε1 x2= a21F1+a22F2+………………+a2mFm+ε2 ……………………………………………
xp =aP1F1+aP2F2+………………+aPmFm+εP 式中的Fj (j=1,2,3,………m )称为公共因子,(每个变量都与它们有关)。
它们是不可观测的,其意义要根据具体问题来解释。
εi 称为特殊因子,它们与公共因子彼此独立。
aij 是第i 个指标在第j 个公共因子上的系数,称为因子荷载。
A=( aij)p ×m 称为荷载因子矩阵。
因子分析的主要任务之一就是根据一组原始数据,确定变量的荷载矩阵。
2.因子荷载矩阵A 的统计意义
(1)aij 是第i 个指标xi 与第j 个公共因子Fj 的相关系数。
corr(Fj,xi)=aij A 中第i 行的各个元素(因子荷载)说明了第i 个指标xi 依赖于各个公共因子的程度;第j 列元素说明第j 个公共因子Fj 与各个指标的联系程度。
因此常根据该列绝对值较大的因子荷载所对应的指标来解释这个公因子的意义。
即这个因子是决定哪个指标的。
(2)A 中第i 行元素的平方和
称为指标x 的共同度。
(意为可由共同因子表达的程度) 由于各特殊因子与所有的
∑
==m
j ij i a h 1
22
公共因子之间是独立的,而且各个指标和公共因子均已经标准化,所以有
即 :
该式说明,指标xi 的方差由两部分组成:第一部分为共同度hi2,它刻划全部公共因子对指标xi 的总方差的贡献,它越大,说明该指标的全部原始信息被m 个公共因子概括程度越高,m 个公共因子对该指标的描述就越有效。
第二部分是单个指标所特有的方差。
(3)A 中第j 列元素的平方和
表示第j 个公共因子Fj 对原始指标所提供的方差贡献之和。
它是衡量各个公共因子相对重要性的一个尺度。
由于各个原始指标都已经标准化,所以原始指标提供的总方差
称:
为第j 个公共因子的方差贡献率。
方差贡献率αj 越大,说明第j 个公共因子Fj 越重要。
若前m 个公共因子的方差贡献率占到总方差的相当大的比例(如80%以上),那末就可以认为这m 个公共因子较好的概括了原指标。
即原指标的信息可用这m 个因子的信息近似代替。
3.因子荷载矩阵A 的估计
给定p 个指标的n 组观察值X=(xij)n ×p
如何从X 出发,确定较少的m 个公共因子,估计出因子荷载,建立因子模型是因子分析首先要解决的问题。
估计因子荷载的方法常用的有主成份分析法,主因子方法和最大似然函数法。
根据主成份分析原理,根据p 个指标的n 组观察值可以通过转换变为p 个主成份:
∑
=+=m
j i j ij i F a x 1
2
)var()var()var(ε)
var(12i i h ε+=∑
==p
i ij j a g 1
2
∑
==p
i i p x 1
)
var(
则上式已经符合因子分析模型的形式,
即Y=(y1.y2,……ym)’可以看作是m个公共因子,但是yi没有标准化,其方差为λi,均值为0。
利用SPSS可以给出各个公共因子的方差贡献率和各个变量在各因子上的因子荷载。
确定公共因子的个数有两种方式:一是有前m个公共因子的累计方差贡献率不低于某一阈值(如85%)来确定,或只取特征根大于或等于1的公共因子。
例:30个地区的多孩率、节育率、初中以上人口比率、人均国民收入、城镇人口比率的数据
KMO统计量是取值在0和1之间。
当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。
Kaiser给出了常用的kmo度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。
巴特利特球形检验是以变量的相关系数矩阵为出发点的。
它的零假设相关系数矩阵式一个单位阵,即相关系数矩阵对角线上的所有元素都是1,所有非对角线上的元素都为零。
巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到的。
如果Bartlett球度统计量较大,其伴随概率<0.05,那么应该拒绝零假设,认为相关系数不可能是单位阵,即原始变量之间存在相关性,适合于作因子分析,。
相反不适合作因子分析。
4.因子旋转
符合因子模型要求的因子荷载矩阵A 不是唯一的,公共因子也不是唯一的。
事实上设Γ为任意一个正交矩阵(ΓΓ’=I )则 X=A ΓΓ’F=(A Γ)(Γ’F )
则A Γ也满足因子荷载矩阵的要求,Γ’F 的各个份量也可以作为公共因子。
利用这一特性,当公共因子和因子荷载矩阵不便于解决实际问题时(如难以解释各因子的意义时),可以设法找一个矩阵Γ,使得变换后的荷载矩阵A Γ与公共因子Γ’F 有比较鲜明的意义。
这种方法叫作因子旋转。
为了达到这个目的,一般要设法使得旋转变换后,因子荷载矩阵的元素的绝对值向两极分化(行向和列向)。
这样便于解释因子的意义。
常用的方法叫作“方差最大正交旋转”。
如果正交旋转后公共因子的意义仍不明显,可以作斜交旋转。
注意:旋转后因子变了,其特征值也变了。
这时再解释各因子的意义,就比较清楚。
解释各因子的意义时,一般关注大于0.5的荷载因子。
因子1可以称为经济发展水平因子,因子2可以称为计划生育因子。
5.因子得分
根据因子与原变量的关系,可以根据原变量的值计算各因子的值,称为因子得分。