第十二章 分层回归分析--Hierarchy Regression
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分层回归其实是对两个或多个回归模型进行比较。
我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。
一个模型解释了越多的变异,则它对数据的拟合就越好。
假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。
两个模型所解释的变异量之间的差异可以用统计显著性来估计和检验。
模型比较可以用来评估个体预测变量。
检验一个预测变量是否显著的方法是比较两个模型,其中第一个模型不包括这个预测变量,而第二个模型包括该变量。
假如该预测变量解释了显著的额外变异,那第二个模型就显著地解释了比第一个模型更多的变异。
这种观点简单而有力。
但是,要理解这种分析,你必须理解该预测变量所解释的独特变异和总体变异之间的差异。
一个预测变量所解释的总体变异是该预测变量和结果变量之间相关的平方。
它包括该预测变量和结果变量之间的所有关系。
预测变量的独特变异是指在控制了其他变量以后,预测变量对结果变量的影响。
这样,预测变量的独特变异依赖于其他预测变量。
在标准多重回归分析中,可以对独特变异进行检验,每个预测变量的回归系数大小依赖于模型中的其他预测变量。
在标准多重回归分析中,回归系数用来检验每个预测变量所解释的独特变异。
这个独特变异就是偏相关的平方(Squared semi-partial correlation)-sr2(偏确定系数)。
它表示了结果变量中由特定预测变量所单独解释的变异。
正如我们看到的,它依赖于模型中的其他变量。
假如预测变量之间存在重叠,那么它们共有的变异就会削弱独特变异。
预测变量的独特效应指的是去除重叠效应后该预测变量与结果变量的相关。
这样,某个预测变量的特定效应就依赖于模型中的其他预测变量。
标准多重回归的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量。
这就意味着模型中所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2)。
总决定系数包括偏决定系数之和与共同变异。
分层回归提供了一种可以将共同变异分配给特定预测变量的方法。
分层回归
标准多重回归可以测量模型所解释的变异量的大小,它由复相关系数的平方(R2,即决定系数)来表示,代表了预测变量所解释的因变量的变异量。
模型的显著性检验是将预测变量所解释的变异与误差变异进行比较(即F值)。
但是,也可以采用相同的方式来比较两个模型。
可以将两个模型所解释的变异之差作为F 值的分子。
假如与误差变异相比,两个模型所解释的变异差别足够大,那么就可以说这种差别达到了统计的显著性。
相应的方程式将在下面详细阐述。
分层回归就是采用的这种方式。
分层回归包括建立一系列模型,处于系列中某个位置的模型将会包括前一模型所没有的额外预测变量。
假如加入模型的额外解释变量对解释分数差异具有显著的额外贡献,那么它将会显著地提高决定系数。
这个模型与标准多重回归的差异在于它可以将共同变异分配到预测变量中。
而在标准多重回归中,共同变异不能分配到任何预测变量中,每个预测变量只能分配到它所解释的独特变异,共同变异则被抛弃了。
在分层回归中,将会把重叠(共同)变异分配给第一个模型中的预测变量。
因此,共同变异将会分配给优先进入模型的变量。
重叠的预测变量(相关的预测变量Predictor variables that overlap)
简单地看来,由一系列预测变量所解释的变异就像一块块蛋糕堆积在一起。
每个预测变量都有自己明确的一块。
它们到达桌子的时间是无关紧要的,因为总有同样大小的蛋糕在等着它们。
不同部分变异的简单相加就构成了某个模型所解释的总体变异。
但是,这种加法的观点只有在每个预测变量互相独立的情况下才是正确的。
对于多重回归来说,则往往不正确。
假如预测变量彼此相关,它们就会在解释变异时彼此竞争。
归因于某个预测变量的变异数量还取决于模型中所包含的其他变量。
这就使得我们对两个模型的比较进行解释时,情况变得更为复杂。
方差分析模型是建立在模型中的因素相互独立的基础上的。
在ANOVA中,因素对应于多重回归中的预测变量。
这些因素具有加法效应,变异(方差)可以被整齐地切开或分割。
这些因素之间是正交的。
但是,在多重回归中,变量进入模型的顺序会影响该变量所分配的变异量。
在这种情况下,预测变量就像一块块浸在咖啡杯中的海绵。
每一块都吸收了一些变异。
在分层多重回归中,第一块浸入咖啡杯的海绵首先吸收变异,它贪婪地吸收尽可能多的变异。
假如两个预测变量相关,那它们所解释的变异就存在重叠。
如果一个变量首先进入模型,那它就将重叠(共同)变异吸收据为己有,不再与另一个变量分享。
在标准多重回归中,所有预测变量同时进入模型,就像将所有海绵同时扔进咖啡杯一样,它们互相分享共同变异。
在这种情况下,偏相关的平方(sr2)与回归系数相等,它们检验了相同的东西:排除了任何共同变异后的独特变异。
这样,在多重回归中,对回归系数的T 检验就是sr2的统计显著性检验。
但是,在分层回归或逐步回归中,sr2不再与回归系数相等。
但T检验仍然是对回归系数的检验。
要估计sr2是否显著,必须对模型进行比较。
模型比较就是首先建立一个模型(模型a),使它包括除了要检验的变量以外的所有变量,然后再将想要检验的变量加入模型(模型b),看所解释的变异是否显著提高。
要检验模型b 是否要比模型a显著地解释了更多的变异,就要考察各个模型所解释的变异之差是否显著大于误差变异。
下面就是检验方程式(Tabachnik and Fidell, 1989)。
(R2b-R2a)/M
F = ————————
(1+ R2b) /dferror
(2为平方,a,b为下标。
不知道在blog里如何设置文字格式)
原文(DATA ANALYSIS FOR PSYCHOLOGY, George Dunbar)如此,但参考了其他书后,觉得这是误印,真正的公式应该是这样的:
(R2b-R2a)/M
F = ————————
(1- R2b) /dferror
注:
M是指模型b中添加的预测变量数量
R2b是指模型b(包含更多预测变量的模型)的复相关系数的平方(决定系数)。
R2a是指模型a(包含较少预测变量的模型)的复相关系数的平方(决定系数)。
dferror是指模型b误差变异的自由度。
分层回归与向前回归、向后回归和逐步回归的区别
后三者都是选择变量的方法。
向前回归:根据自变量对因变量的贡献率,首先选择一个贡献率最大的自变量进入,一次只加入一个进入模型。
然后,再选择另一个最好的加入模型,直至选择所有符合标准者全部进入回归。
向后回归:将自变量一次纳入回归,然后根据标准删除一个最不显著者,再做一次回归判断其余变量的取舍,直至保留者都达到要求。
逐步回归是向前回归法和向后回归法的结合。
首先按自变量对因变量的贡献率进行排序,按照从大到小的顺序选择进入模型的变量。
每将一个变量加入模型,就要对模型中的每个变量进行检验,剔除不显著的变量,然后再对留在模型中的变量进行检验。
直到没有变量可以纳入,也没有变量可以剔除为止。
向前回归、向后回归和逐步回归都要按照一定判断标准执行。
即在将自变量加入或删除模型时,要进行偏F检验,计算公式为:
(R2b-R2a)/M
F = ————————
(1- R2b) /dferror
SPSS回归所设定的默认标准是选择进入者时偏F检验值为3.84,选择删除者时的F检验值为2.71。
从上面可以看出,分层回归和各种选择自变量的方法,其实都涉及模型之间的比较问题,而且F检验的公式也相等,说明它们拥有相同的统计学基础。
但是,它们又是不同范畴的概念。
分层回归是对于模型比较而言的,而上面三种方法则是针对自变量而言的。
上面三种选择自变量的方法,都是由软件根据设定标准来自动选择进入模型的变量。
而分层回归则是由研究者根据经验和理论思考来将自变量分成不同的组(block),然后再安排每一组变量进入模型的顺序,进入的顺序不是根据贡献率,而是根据相应的理论假设。
而且,研究者还可以为不同组的自变量选用不同的纳入变量的方法。
分层回归在SPSS上的实现
在线性回归主对话框中,在定义完一组自变量后,在因变量不变的情况下,利用block前后的previous和next按钮,继续将其他变量组加入模型。
我所设计的回归模型中,有a自变量,b为调节变量,a与b的交互项,4个控制变量,1个因变量。
我打算用分层回归模型来做。
(我主要为验证自变量a以及b调节作用)第一步,在"Block of 1 " 中,我将4个控制引入到"Independent"中,"Method "选择"Enter",然后点击NEXT。
第二步,在“Block of 2"中,将a,b及交互项引入”Independent"中,“Mehod" 选择”stepwise”。
我想问各位大咔,我这样做对吗?
还有,分层回归和逐步回归有什么区别?我是否可以将第二步省略,直接把a,b,交互项放入Block of 1 中,Method变为sterwise?。