方差分析和回归分析的区别与联系
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、方差分析和回归分析的区别与联系以双变量为例
联系:
1、概念上的相似性
回归分析是为了分析变量间的因果关系,研究自变量X取不同值时,因变量平均值Y的变化;运用回归分析方法,可以从变量的总偏差平方和中分解出已被自变量解释掉的误差解释掉误差和未被解释掉的误差剩余误差;
方差分析是为了分析或检验总体间的均值是否有所不同;通过对样本中自变量X取不同值时所对应的因变量Y均值的比较,推论到总体变量间是否存在关系;运用方差分析,也可以从变量的总离差平方和中分解出已被自变量解释掉的误差和未被自变量解释掉的误差;因此两种分析在概念上所具有的相似性是显而易见的;
2、统计分析步骤的相似性
回归分析在确定自变量X是否为因变量Y的影响因素时,从分析步骤上先对X和Y进行相关分析,然后建立变量间的回归模型;最后再进行参数的统计显着性检验或对回归模型的统计显着性进行检验;
方差分析在确定X是否是Y的影响因素时,是先从样本所的数据的分析入手,然后考察数据模型,最后对样本均值是否相等进行显着性检验;二者在分析步骤上也具有相似性;
3、假设条件具有一定的相似性
回归分析有五个基本假定,分别是:自变量可以是随机变量也可以是非随机变量;X与Y 之间存在的非确定性的相关关系,要求Y的所有子总体,其方差都相等;子总体均值在一
是统计独立的,即Y1的数值不影响Y2的数值,各Y值之间都没有条直线上;随机变量Y
i
关系;Y值的每一个子总体都满足正态分布;
方差分析的基本假定有:等方差性总体中自变量的每一取值所对应因变量Y
的分布都具
i
的分布为正态分布;
有相同方差;Y
i
二者在假设条件上存在着相同;
4、在总离差平方和中的分解形式和逻辑上的相似性
回归分析中,TSS=RSS+RSSR,而在方差分析中,TSS=RSS+BSS;二者均是以已解释掉的误差与未被解释掉的误差之和为总离差平方和;
5、确定影响因素上的相似性
为简化分析起见,我们假设只有一个自变量X影响因变量Y;在回归分析中,要确定X是否
是Y的影响因素,就要看当X已知时,对Y的总偏差有无影响;如果X不是影响Y的因素,等同于只知变数Y的数据列一样,此时用Y去估计每个丫的值,所犯的错误即偏差为最小;如果因素X是影响Y的因素,那么当已知X值后
6、在统计显着性检验上具有相似性
回归分析的总显着性检验,是一种用R2测量回归的全部解释功效的检验;检验RSSRN-2/RSS,
方差分析的显着性检验是一种根据样本数据提取信息所进行的显着性检验;它也是通过F 检验进行的;
区别:
1、研究变量的分析点不同
回归分析法既研究变量Y又研究变量X并在此基础上集中研究变量Y与X的函数关系,得到的是在不独立的情况下自变量与因变量之间的更加精确的回归函数式,也即判断相关关系的类型,因此需建立模型并估计参数;方差分析法集中研究变量Y的值及其变差而变量X值仅用来把Y值划分为子群或组,得到的是自变量因素对总量Y是否具有显着影响的整体判断,因此不需要建立模型和估计参数;
2、变量层次不同
回归分析的数据则要求是连续的,总量也要求是连续的,所以回归分析对连续性变量非常有效,回归分析研究的是定量因素自变量X对因变量Y的影响,变量Y与X均用定距尺度去测量;当然,在回归分析中也不是绝对排斥定性因素对应变数Y的影响,因为对定性因素可采用虚拟变数的处理方法;方差分析中的因素与总量的数据可以是定性的,计数的,也可以是计量的,或者说是离散的或连续的;尤其方差分析对于因素是定性数据也非常有效;变量Y用定距尺度去测量,变数X用定类尺度之测量;
3、
回归分析只能分析出变量之间关系比较简单的回归函数式,对比较复杂的关系无能为力;方差分析若得到因素与总量Y之间有显着性关系,但到底是怎样的关系做不出具体的回答,只能用回归分析来得到它们之间的回归函数关系式;方差分析不管变量之间因素与总量Y的关系有多么复杂,总能得到因素对总量Y的影响是否显着的整体判断;
4、确定Y均值方法不同
回归分析由于使用的对应顺序数据,即X
i 只有一个Y
i
与之对应,因此Y无法由已知数据确
定,它是通过建立回归方程求的;而方差分析因素X
i
对应的Y是直接通过试验数据求得的;
5、所得结果提供的信息不同
回归分析可提供两种类型的信息:一是依据最小二乘法原则,建立X和Y的相关模型,并在X取不同值时影响对应的Y变量的数值,通过X取值可以对Y取值进行预估;二是因变量Y的总变差分解为相加的分量,用之进行F检定;而方差分析仅仅提供后一种;