主成分分析与因子分析的主要方法和思想
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.(10分)数据中心化和标准化在回归分析中的意义是什么?
在多元线性回归分析中,因为涉及多个自变量,自变量的单位往往不同,会给分析带来一定的困难,又由于涉及的数据量很大,就可能会以舍入误差而使得计算结果不理想.
1.中心化处理后可以减少一个未知参数,减少了计算的工作量,对手工计算尤为重要.
2.标准化处理后有利于消除量纲不同和数量级的差异所带来的影响,避免不必要的误差.
2.(10分)在实际问题中运用多元线性回归应注意哪些问题?
在实际问题中,人们用复相关系数R来表示回归方程对原有数据拟合程度的好坏,但是拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,R2等于0.7左右也给回归模型以肯定的态度.
在多元线性回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量y与自变量x i以及自变量x i与x j的相关性的数量.
用相关系数R2大小来衡量模型的拟合优度,不能仅由R2值很大来推断模型优劣.
在实际应用回归方程进行控制和预测时,给定的x0值不能偏离样本均值太大,如果太大,用回归方程无论是作因素分析还是经济预测,效果都不会理想.
得到实际问题的经验回归方程后,还不能马上用它去作分析和预测,还需运用统计方法对回归方程进行检验.
3.(15分)主成分分析与因子分析的主要方法和思想是什么?两者有何联系与区别?
求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。
一、主成分分析的基本思想
在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产
生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。
既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:
1.每一个主成分都是各原始变量的线性组合;
2.主成分的数目大大少于原始变量的数目
3.主成分保留了原始变量绝大多数信息
4.各主成分之间互不相关
通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。
因子分析方法:
求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。因子分析的基本思想
因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。
两者的联系
主成分分析和因子分析方法都属于多元统计分析中处理降维的统计方法。在数理统计的基本原理上,两者都是基于多变量的相关系数矩阵,在确保较少信息缺失的前提下(一般小于或等于15%),用少数几个不相关综合变量概括多个变量的信息(多个变量之间存在较强的相关性)。即用少数不相关的综合变量尽可能全面的反映多个原始变量的信息,消除了原始变量的相关性,可信度得到提高,统计结果可以有效地解释现实问题。需要注意的是,两种方法产生的新的变量(因子)不是原始变量筛选后的剩余变量,而是综合所有变量信息后的新变量。其中,在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。在因子分析过程中,新变量则是通过原始变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子则是原始变量所特有的部分。两种方法下得到的主成分变量与因子变量在数量上显著少于原始变量,起到了降维的作用,也提高了数据有效利用程度.
主成分分析与因子分析的区别
老师的版本
1、因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量(主成分)。
2、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。
3、主成分分析中不需要有假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子(specific factor)之间也不相关,公共因子和特殊因子之间也不相关。
4、抽取主因子的方法不仅仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法抽取。
5、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。
6、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
7、和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。
网上的版本