定量研究方法论--多变量回归建模
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11 量水平的影响。对这些不同的自变量之间的关系的分析是一个科研模型在数据收集
12 与测试之前的不可或缺的步骤。在这一章,我们将先介绍多重共线性
13 (multicollinearity),它描述了两个变量之间的因为有过多的信息重复而导致的问
14 题。然后我们介绍自变量之间的中继关系,即一个自变量通过另一个自变量对应变
24 2004)。z 是中介变量(mediator)。
25
中介作用表达了一组变量之间的间接因果关系。这样的关系往往就是一个理
26 论假设的重点。很多论文的主题就是为了测试几个变量之间的的间接关系。如果一
27 个中介作用成立,它至少有两个作用:一是给出一组因果关系的过程描述,从而给
28 模型一些在时间维度上的意义,虽然严格的过程测试需要使用追踪调查
15 量起作用。最后我们介绍两个自变量之间的调节作用,即一个自变量对应变量作用
16 的大小取决于另外一个自变量的水平。
17
18 多重共线性
19
我们先来回顾一下前一章的例子。我们假设消费者对网店的信任受到两个变
20 量的影响:网店的易用性与易学性。我们的方差分析结果表明虽然这两个变量在独
21 自作用时对应变量都有显著影响,当组合在一起时:
1
第八章 线性回归的建模
2 引言
3
我们以前对于单变量与多变量回归模型的介绍侧重于理解应、自变量之间的
4 最基本的数量关系,也即回归模型是如何表达应变量是如何被自变量解释的、应变
5 量中的信息可以如何被分解成不同的部分、这些不同的信息如何反映在回归系数、
6 (偏)决定系数、部分相关系数、残差、与方差分析上。我们在这一章所侧重的是
13 被批评,在行为研究中极少被应用。
14
15
16 中介作用(mediator effect)
c
x
y
b
x
z
y
a
z
y
c’
17
18
多重共线性也可能表明一个自变量对应变量的作用是由另外一个自变量所中
19 介。如果 x 和 z 对 y 的单独作用是显著的,但是,当我们把它们放在一起的时候,
20 我们可能发现 x 对 y 的影响(c’)为零(回归系数为 0 或不显著)或者回归系数相对
7 如何理解与测试自变量之间的关系。在社会学的研究中,一个线性回归模型并不只
8 是简单地把所有的预期有用的自变量放入到一个模型中,而是需要我们同时也要考
9 虑自变量之间的关系。比如,两个自变量之间也可能是因果相关的,或者它们是从
10 类似的角度来表达同一个现象,或者一个自变量对应变量的作用受到另外一个自变
16 性,就会产生很小的特征根。因为状况系数与一个主成份的信息量成反比,所以状
17 况系数越大,一个主成份越不重要。这里的经验法则是如果状况系数大于 30,多
18 重共线性的问题就可能很严重。这时我们会查看哪些自变量与很小的主成份相关。
19 如果两个自变量可以同时由这个很小的主成份解释,并表现为自变量的方差中大于
23
24 所以,根据额外平方和,易学性在易用性的基础上没有显著地增加对信任的解释。
源自文库
25 我们把这种结果归因于易学性和易用性之间的信息重复。这种模型的“危害”有哪
26 些呢?我们在以前已经提到过,这种模型:
27
28 *没有简洁性
29 *具有误导性。如果我们只看回归分析的结果,我们很可能得到一个错误的结论:
29 被叫做它(相对于其它自变量)的容限(tolerance)。一个自变量中的独特信息越
30 多,它的容限越小,即它越不容纳其它自变量中的信息。当一个变量中的信息全部
31 是独特是时候,它的容限是 0。注:Pedharzur and Schmelkin 1991 defined tolerance
32 in another way. This needs to be checked.]。 (1 − Rk2 ) 的倒数叫做方差膨胀系数
21 于 x 单独作用于 y 时显著地降低(c’),但仍大于零(图?)。如果 x 的回归系数变
22 为零,这种情况叫做完全中介,如果只是显著降低,则为部分中介(partial
23 mediation)。显然,部分中介的情况更为普遍(Baron & Kenny, 1986; Frazier et al.,
22
Sum of
Mean
Model
Squares df
Square F
Sig.
3 Regression 17.00
2
8.50 11.90
0.00
x1 15.23
1 15.23 21.32
0.00
x2|x1
1.77
1
1.77
2.48
0.12
Residual
73.58
103
0.71
Total
90.58
105
31
那么如果我们的模型中有多重共线性问题我们该怎么办呢?首先,我们要把
32 变量中心化。中心化有助于降低计算过程的舍入误差,舍入误差是另外一个多重共
33 线性的原因。一种办法是把有问题的自变量中的一个拿掉。这意味着修改原来的理
34 论模型。而基于数据的模型修改永远是危险的。我们所发现的多重共线性可能只是
20 90%是由这个很小的主成份贡献的,我们就知道这两个自变量之间有多重共线性
21 (常数项除外)。
22
在以上的例子中,从 SPSS 的输出我们得到:
23
Collinearity Diagnostics(a)
Condition
Model Dimension Eigenvalue Index
Variance Proportions
4 量,从根本上解决这个问题。
5
另一种方法是组合相关性很高的自变量(Stevens, 2002)。在这种情况下,多
6 个相关性很高的自变量其实被看作一个隐性变量(latent variable)的显性测度。常
7 用的办法是把这些相关自变量进行加总或平均,然后再放入回归模型。这种方法必
8 须首先保证相关自变量具有理论上的相关性。否则,这种组合是没有意义的。在实
33 (VIF,variance inflation factor)。可以证明(附一),在标准化后的回归模型
34 中,b1 的方差是残差的方差乘以这个方差膨胀系数。当一个自变量中全部是独特
35 信息时,方差膨胀系数=1。方差膨胀系数是一个多重共线性的重要指标。在社会
2
版权所有,徐云杰,博士,新加坡国立大学电脑学院信息系统系。xuyj@comp.nus.edu.sg。版本号:D1-0
26 性。
27
除了这两种方法以外,我们可以用其它相对比较不正式方法,比如观察两个
28 自变量相关系数的大小、不同模型复杂程度时回归系数的大小、方向、与方差等。
29 对于 VIF 与状况指数,一般来讲,只要任何一个表明有多重共线性,我们就应该
30 认为这个模型中有多重共线性问题(my opinion)。
12 倍。这与回归系数的不稳定性是一致的,标准差变大意味着回归系数的变化范围变
13 大。同时,它也意味着这两个变量都变得更不容易具有显著性,因为显著性与系数
14 的标准差成反比。
15
独立作用时
组合模型
Unstandardized
Unstandardized
Coefficients
t
Sig.
Coefficients
29 (longitudinal study);第二,以 y 为核心变量,这种方法给出一种区分外围与直
30 接原因的工具。这样,我们可以理清哪些变量是 y 的最直接原因,从而简化且深化
31 对 y 的理解。所以,这种测试计划首先必须是基于理论论证的。
3
版权所有,徐云杰,博士,新加坡国立大学电脑学院信息系统系。xuyj@comp.nus.edu.sg。版本号:D1-0
1 由于这个样本的特殊性。“后见之明”会增加我们拒绝一个不该拒绝的假设的风
2 险,从而降低这个模型的统计效用(statistical power)。所以,正确的方法是在设
3 计理论模型的过程中就充分考虑到多重共线性出现的可能性,避免相关性高的自变
1 科学中,经验法则是每一个自变量的方差膨胀系数应该小于 10(ref)(Kutner et
2 al., 1996)。显然,这个经验法则要求每一个变量的独特信息至少是 10%。但是,
3 方差膨胀系数小于 10 并不意味着没有多重共线性。在这个例子中,VIF(x1) = 1/(1-
4 0.912) = 5.82。但是显然,多重共线性已经产生严峻的副作用。
9 际研究中,研究者往往事先计划(而不是事后投机)使用多个高度相关的显性测度
10 来表示一个隐性变量,并用其均值进行回归。当然,理论模型要针对隐性变量而不
11 是显性测度。我们会在以后再详细介绍这种使用多个测度项的方法。
12 第三种方法是用(ridge regression)。使用这种方法不需去除自变量。但这种方法也
5
另外一个鉴定多重共线性的常用指标是状况系数(condition index)。它的
6 计算方法是(Velleman and Welsch, 1981):
7 8 *先把每一列的 x 值标准化为长度为 1, 9 *对于标准化的自变量,计算其 X’X, 10 *求出 X’X 的特征根(λi),
11 *计算每个自变量 xi 的状况系数= λmax 。 λi
23
如何鉴定多重共线性呢?对于一个经过标准化的两个自变量的回归模型,我
24 们在前一章提到过:
25
b1
=
x'1
y − r12x'2 1 − r122
y
=
(x'1 −r12x'2 1 − r122
)y
=(x1
的相对于
x2
的残差与
y
的积和/x1
中的独特
26 信息),
27 所以b1 是一个y的线性组合。这意味着当x1 中的独特信息很少,即 (1 − r122 ) 很小, 28 b1 的方差就会很大。[xk中在被其它所有的自变量联合解释后的独特信息 (1 − Rk2 ) 又
t
Sig.
B Std. Error
B
Std. Error
peou 0.39
0.09 4.58 0.00 peou 0.69
0.21 3.33 0.00
peol 0.26
0.08 3.40 0.00 peol -0.29
0.18 -1.58 0.12
16
17 这些问题,在线性回归中叫做多重共线性问题,因为线性关系不只出现在自、应变
(Constant) peou
peol
1
1
2.98
1.00
0.00
0.00
0.00
2
0.02
12.52
0.93
0.03
0.06
3
0.00
34.18
0.07
0.97
0.94
a
Dependent Variable: trust
24
25 可以看出,PEOU 和 PEOL 同时负载一个很小的主成份信息,所以具有多重共线
18 量之间,而且出现在自变量之间。这种出现在自变量之间的线性关系使得自变量对
19 应变量的作用难以直观解释,并使得线性回归的结果不具有可靠性。
20
那么多重共线性的最基本的形成原因是什么呢?从理论的角度看,这是因为
21 自变量之间的信息重叠。这种信息重叠会导致一系列的数学后果,最终使得回归系
22 数变得无法解释或者不可靠。
8 过高地表达了易用性对信任的作用(0.69),然后再用易学性进行反向调整(-
9 0.29)。显然,这不是我们建立回归模型的初衷(或者说,我们以前往往对回归分
10 析有一种误解,认为每一个回归系数表达了一个自变量对应变量的直接作用)。
11 我们还会发现回归系数的标准差变大了。对于这两个自变量,它们的标准差至少翻
12
状况系数的基本思想是先求出自变量中的主成份。我们会在以后更详细地介
13 绍主成份分析。主成份表明一组自变量中的信息可以重新表述为一组相互独立的主
14 成份。其中每个主成份是所有自变量的一个线性组合。这样得到的主成份对应于一
15 组特征根,特征根的大小表示一个主成份的信息量。如果两个变量具有很高的相关
3 任有负的作用。这是误导性的另外一个表现:回归系数的方向不正确。
4
如果我们查看组合模型的回归系数,我们还会发现易用性系数也受到了影
5 响。这个系数在单独作用时是 0.39,在组合模型中是 0.69,几乎翻倍。这是误导性
6 的另外一个表现:回归系数不稳定。这种不稳定性还表现在如果我们用不同的样
7 本,我们可能得到相当不同的回归系数。在这个例子中,组合模型可以理解为先是
30 易学性是不重要的。
31
1
版权所有,徐云杰,博士,新加坡国立大学电脑学院信息系统系。xuyj@comp.nus.edu.sg。版本号:D1-0
1
如果我们查看组合模型的回归系数,我们还会发现易学性的系数是负的(-
2 0.29),这几乎是这个变量单独作用是的相反数(0.26)。这“说明”易学性对信