山西大学商务学院管理学院科研简报
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
山西大学商务学院管理学院
科 研 简 报
(2013第9期)
写在前面:
2013年12月10日,管理学院邀请学院科研处王兴超老师对科研团队成员进行了“科研调查方法与数据分析”的指导,王兴超老师结合多篇高水平学术论文就调查问卷的获得、统计软件的选择和应用进行了深入分析,团队成员受益良多,之后,管理学院教师中展开了对科研调查方法和数据分析的进一步研究热潮,本期选择了管理学院李强老师推荐的一篇原载于《调研世界》(2013年10期)、由国家统计局统计科学研究所孙娜娜撰写的短文“回归分析方法你用对了吗”,既供大家借鉴、思考,也希望能对管理学院全体教师有所启发。同时,非常感谢李强老师对管理学院科研管理工作的支持与帮助!
2013年12月
回归分析方法你用对了吗
国家统计局统计科学研究所 孙娜娜
在一家调查公司工作的朋友曾经问过我一个问题,让我至今记忆犹新。他说,他们当时正在给一家公司做汽车销售满意度方面的调查,通过调查得到大概20多个变量的满意度得分,想通过建立统计模型确定各个满意度的权重。他们公司的做法是:根据这些数据建立多元线性回归模型,将各变量的回归系数作为权重。但是在建立模型过程中遇到如下问题:变量之间存在严重的多重共线性,导致许多变量系数,与实际不符,可是这些数据是公司花了几千万元获得的,又不能删除,能使用什么方法对模型进行调整,使其符合实际呢。面对这位朋友的疑问,我一言难尽。
谈及统计方法,大多数学过统计或经济的人首先想到的应该就是线性回归分析。回归分析,是用来研究一个变量(被解释变量)对另一个或多个变量(解释变量)的依赖关系,通过建立模型,寻找数据内部规律,可通过给定的解释变量预
测被解释变量,是目前应用最广泛也是最为基础的一种分析工具。这种方法操作简便,结果易于观察和分析,因此许多调查公司、许多统计学、经济学等都非常乐于使用线性回归方法。在不考虑变量个数、变量类型、变量关系、变量限制条件的情况下就直接使用该方法,只要有足够数据,统计软件仍然可以输出估计结果,甚至通过检验。如果没有通过检验通过一定方法消除,正如我的那位朋友试图做的。那么,假如通过一定方法使模型通过检验,得到的结论就可靠吗?答案是否定的。这里的原因是多方面的,但变量的选取、使用方法是否正确等都是非常重要的原因。这里主要针对线性回归方法进行说明。
统计方法并非万能的,任何统计方法都有一定的前提条件,线性回归方法也不例外。因此清楚其前提条件对使用者来说是非常重要的。主要包括:①解释变量是非随机或固定的(同一数据不会因为重复抽样而变化);②随机误差项(模型中解释变量以外的部分)相互独立,且服从期望值为零、固定标准差的正态分布;
③解释变量与随机误差项之间不相关;④解释变量之间互不相关;⑤回归模型的设定是正确的;⑥解释变量之间不存在严格的线性关系。利用各种统计软件对模型估计的结果,是通过严谨的数学计算得到的,然而在实际生活中,一些假设条件往往得不到满足,这时如果仍然用这些结果进行分析就会出现各种问题,估计结果也毫无价值。常见的情况主要有以下几种:
一是非因果关系。回归分析是用来处理一个变量与另一个或多个变量之间的关系,并不一定说明解释变量是原因,被解释变量是结果。如果把两个或者几个互不相关的变量做回归分析,也有可能通过检验,但毫无意义。因此,在针对相应问题选取影Ⅱ向因素时要以一定的实践经验和相关理论为基础。在分析方法上,可以借助格兰杰因果关系检验方法检验是否存在因果关系。
二是异方差和自相关。在许多应用线性回归方法的文章中,大部分都只是给出了参数估计结果、参数的显著性检验结果和拟合优度检验结果,并不会考察模型可能存在的异方差和自相关问题。但是在利用时间序列数据或截面数据进行回归时,很有可能存在异方差(随机误差项的标准差为非固定值)、自相关(随机误差项之间不相互独立),这可以说是最常见的回归分析的误用。
引起异方差的原因主要有:一方面遗漏重要变量造成,遗漏的变量包含在残差项中,当其与其他解释变量有相关关系时,就会引起异方差;另一方面采用截面数
据时,由于不同样本点上解释变量以外的其他因素差异性大造成。引起自相关的原因主要有:第一,数据固有的惯性和滞后效应造成,尤其是采用时间序列数据时,变量在时间上的惯性往往是造成自相关的主要原因;第二,遗漏重要变量造 成,遗漏变量在不同时间点上的相关造成残差项的自相关;第三,由生成数据造成,在实际问题中,一些数据是由已知数据生成的,新数据与原始数据之间就很有可能表现出序列相关性。因此,在建立模型之前,熟悉数据类型,抓住重点,对后面建立的模型有针对性的进行检验,保证模型的有效性。
三是大量解释变量。线性回归分析方法的应用中,一种非常普遍的现象就是:不管解释变量个数多少,先建立多元线性回归方程,直接进行估计,这就会造成严重的多重共线性(解释变量之间相关度非常高,违背解释变量之间互不相关的假设条件)。由于实际中各因素之间往往存在很强的共同趋势,会造成模型估计失效。当变量不是很多时,可以逐~删除不显著变量,反复试验,直到通过检验;但是当变量非常多时,逐一删除变量的方法可能会删除重要变量,或者变量不能删除时,就需要改用其他方法,比如主成分分析、因子分析等。理论上对多个解释变量进行回归分析是可行的,但对实际问题进行分析时,解释变量个数一般不要超过3个。
四是系数表示权重。在线性回归方程中,各变量的估计系数代表该解释变量变化一定程度引起的被解释变量的变化程度。在一元回归中,用估计系数表示二者之间的相关系数是可以的,但是多个变量时,由于模型本身就存在问题,以此为基础确定的权重会不准确。这正是我的那位朋友面临的问题:模型解释变量之间存在严重的多重共线性,又不能通过减少变量消除共线性。此时,如果采用主成分分析、因子分析、专家赋权、层次分析法(AHP)等方法,应该能够很容易解决问题。但是,面对如此多的变量,他不断试图运用各种方法对模型进行修正,我不得不表达对他这种钻研精神的敬佩。这位朋友的困境也警示我们选对正确分析方法是多么重要。
五是长期稳定趋势。建立经典回归模型时变量数据需要是平稳的数据序列,否则会出现虚假回归现象。但现实中许多变量又往往是非平稳的,如果对于非平稳数据直接建立模型,其结果就不可信。这就给经典回归分析方法造成很大的限制。如果利用差分法把非平稳数据序列变为平稳数据,会丢失一定的信息,影响