理解回归假设

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

理解回归假设

一 引言

在任何回归分析被运用到社会科学研究的时候,研究者总会明确的提出无数的假设。社会科学的定量研究已经十分流行,以至于几乎所有的研究者都能自信地不费吹灰之力地说出一长串多元回归假设;但是他们很少能够深刻理解这些假设的实质含义。如果我们对这些假设的理解仅仅局限于死记硬背,就无法把这些假设运用到对具体问题的分析。

本文的目的是描述回归假设,并在某种程度上鼓励研究者从死记硬背中解脱出来,转而去理解如何让考察假设是否能够与一个具体的研究相适应。讨论仅限于回归方法,因为回归在社会科学方法论中占据主导地位。

本文以对标准多元回归假设的回顾作为开头,因为这些知识通常出现在计量经济学或者回归分析的课本中;然后考察每一个假设的实际意义,并强调研究者如何评估每一个假设是否符合实际研究的需要。

二 回归假设的正式描述

(一)回归分析概述

1211221(|,,)k

k k k i i

i E Y X X X X X X X αβββαβ==++++=+∑ (1)

此式表示在给定自变量的条件下,应变量的期望值为12(|,,)k E Y X X X 。以两个自变量为例:

一般情况下,自变量的系数β成为“偏斜系数”,指的是当自变量变化一个单位,因变量期望值随之变化的幅度①。如果我们仅仅让回归统计量包含那些理论中提到的、对因变量

实际上,社会科学研究不像自然科学那样可控。当一个自变量变化时,其他自变量也在改变,甚至朝着

有因果影响的自变量,β则可以被解释为各个自变量对因变量的影响强度的测量值。但是,我们应该记住:在正式的多元回归假设中不包括因果关系。因此,任何对于回归系数的“因果关系”的判断都必须基于回归分析以外的理论。因此,一个好的研究应该能够给出实证研究所涉及的个变量的理论基础。

在解释β的均值时,简单地说“当所有其他自变量都保持不变时”,而不明确的说哪些值保持不变,是说得通的。因为在式(1)中函数能说明这一点,所以自变量的作用是可以叠加的。在一个可叠加的模型中,对于每一个自变量,当其他所有自变量保持不变时,i X 每增加一个单位,Y 的期望值随之变化同样的幅度,不论其他i X 的取值是否恒定,也不论i X 取值所处的位置。简单的说,每个自变量对应变量的影响不会因为其他自变量的变化而变化,也不会应为自己的变化而变化。也即没有交互作用(我们可以把自变量的平方项看作自己与自己的交互项)。 (二)误差项的作用

在回归模型中,尽管因变量的条件均值被假定完全落在期望平面上,但是其真实值被认为是由所能观测到的自变量和由于某种原因无法得到的其他因素共同决定的。也即由期望值(一般认为自变量决定期望值)和误差项决定的。

1211221(|,,)k

k k k i i i Y E Y X X X X X X X εαβββεαβε

==+=+++++=++∑ (2)

还可以写为:12(|,,)k Y E Y X X X ε=- 。要理解回归假设的实质意义,理解误差项至关重要! 为了理解误差项的含义,我们首先要弄清真实模型的含义。在研究回归分析的文献中,一个真实模型通常被认为是一种可以解释总体中所有关于因变量的原因的模型。但是,具体到社会科学应用研究中,要想搞清真实模型实属不易。但是,我们假设这样模型的存在或许是合理的,尽管对于研究者而言,这是一个不可知的模型。一个给定的应变量总是可以用很多等价且有效的方式进行解释——依靠大量的、理论得出的、异常细致的自变量或者基于少量的理论而略显粗糙的自变量,以及那些能够比较直接地反应其影响的变量,或者那些不直接的发挥其作用的变量(Luskin ,1991)。

事实上,对于每个能想到的社会科学因变量,真实模型是否存在值得怀疑,即使真的存在,能否搞清也值得怀疑。因此,在研究之前思考这些真实模型是没有帮助的。毕竟,好的研究是由关键问题引导的,那是由理论和假设所激起的。与其担心回归模型是否符合“真实模型”,不如评判我们所设定的模型是否符合我们的理论,以及他们能否回答所要解决的问题。不过为了弄清误差项的意义,假设真实模型的存在是有意义的。

所以,假设总体中有一种真实模型能够解释因变量的所有变化,毫无疑问,这将会是一个超长的模型:

0112233p p Y E E E E βββββ=+++++

(3)

其中,123,,p E E E E 表示有限但非常大的解释变量的集合。

即使真实模型不是完全决定的,因为有一些“内在的”变量会约束人们的行为,以至于不能被其他变量完全解释,但是,绝大多数关于回归分析的教材仍然采用这种观点。这些内在的随机性有时是因为人类行为的“自由意愿”或者完全是由“不可预知的事件”造成的。一个悖论是:当所谓的人类行为的“内在随机性”作为因变量的一部分时,我们会对它更加准确的描述。从这种观点看,把随机成分引入真实模型意味着这个模型将不是真实模型。

我们不可知的方向改变。所以,我们在对回归系数进行解释时,不要误入歧途。总之,社会科学研究中,研究者是数据的无条件接受者,还无法进行大型的社会现象的控制实验。

0112233p p Y E E E E R βββββ=++++++ (4)

在实际研究中,永远不可能在经验分析中对真实模型进行研究。我们总可以排除式(4)中的一些(实际上是绝大部分)变量,进而得到一个有几个自变量和误差项构成的估计模型:

1122k k Y X X X αβββε=+++++ (5) 因此,我们把误差项解释为,所有影响因变量的但却没有被包括在回归因子中的变量的联合作用,同时加上一些用任何在因变量中体现的内生的随机成分来表示的“随机的变量”。

尽管很容易观察到,在任何具体的回归研究中,研究者总会排除一些实际上影响因变量的因素,但是了解清楚排除这些因素的具体原因是必要的。首先,这些被排除的因素对因变量的影响是微弱的。如果有微弱作用的自变量和方程中其他自变量有强烈影响的变量之间有高度相关性,那么包括这些作用“微弱的”变量将会提高这些作用“强烈的”变量的偏斜系数的估计效度。实际上,如果所有变量都包括在方程中,那么将会因样本量相对估计参数较小而导致完全的多重共线性。第二,即使作用“微弱的”变量被排除,仍然会有足够的、对因变量有强烈影响的变量以及这些变量之间足够高的相关性,导致估计量高度的不准确。这时,从理论来说明哪些变量应该进入或排除式必要的。第三,缺乏数据。毫无疑问,数据的可获得性是社会科学研究中一大瓶颈。最后,即使一个变量对因变量有足够强的影响,但是在理论推到下不能指出这个解释变量的重要性,这个变量自然会被淘汰。

(三)其他回归假设

A1.所有自变量123,,k X X X X 是数量化的或者二分的,同时因变量是数量化的、连续的以及无限的②。而且所有变量的测量都没有误差。

A2.所有自变量都有非零方差(即每个自变量的取值都有一些差异③)。

A3.不存在完全的多重共线性(即在两个或多个自变量之间没有完全的线性关系)。 A4.在每一组123,,k X X X X ,123(|,,)0k E X X X X ε= (即误差项的均值为零)。 A5.对任意一个自变量i X ,cov(,)0i X ε=(即每个自变量与误差项不相关)。

A6.在每一组123,,k X X X X ,2123(|,,)k VAR X X X X εσ= (即误差项的条件方差是固定,也即同方差)。

A7.对任意两个观测值,cov(,)0h j εε=(即不同观测值的误差项不相关,也即无序列相关性)。

A8. 在每一组123,,k X X X X 中,ε服从正态分布。

效率:帕累托改进;卡尔多—希克斯改进

一个二分的变量只能有两种可能取值的变量。量化的变量可以是连续的,也可以是离散的。连续变量时可以取任何值的变量。离散变量只能取特定、有限值。 ③

统计的性质之一——差异性。如果变量的取值是恒定不变的,统计便没有存在的必要。

相关文档
最新文档