SPSS回归分析(精彩)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS回归分析回归分析简介探察变量之间的数量变化规律,并通过一定的数学表达
式来描述这种关系,进而确定一个或几个变量的变化对
另一个变量的影响程度回归分析是研究变量间统计关系的方法。侧重考察回归
分析的类型因变量与自变量都是定量变量的回归分析回归分析因变量是定量变量,自变量中有定性变量的回归分析含有哑变量的回归分析因变量是定性变量的回归分析Logistic回归分析Logistic回归分析一元线性回归分析一元线性回归(简单线性回归):研究两个变量间的统
计关系。应用例子某高档消费品的销量与城镇居民收入储蓄额与居民收入。工业产值与用电量。某只股票的收益率和大盘指数的收益率企业的利润率和资产商品的销量和广告投入一元线性回归分析一元线性回归模型通过一定数量的样本观测值,用最小二乘法求解出回归
方程但是只有当满足一定的假设条件下,样本数据的最小二乘估计才是总体参数的最佳无偏估计。一元线性回归分析回归模型的进一步说明又称偏回归系数partial regression coefficient
,简称回归系数。表示其它变量不变,x变化时所预测
y的平均变化率一元线性回归分析回归方程的假定条件正态性假定零均值假定等方差假定独立性假定以上假定条件全部满足时,回归方程才有意义一元线性回归分析正态性假设:要求总体误差项服从正态分布。如果违反这一假
设则最小二乘估计不再是最佳无偏估计,不能进行区间估计。
(如果不涉及假设检验和区间估计,则此假定可以忽略)零均值性:即在自变量取一定值的条件下,其总体各误差项的
条件平均值为零。如果违反这一假设则由最小二乘估计得到的
估计不再是无偏估计等方差性:即在自变量取一定值的条件下,其总体各误差项的
条件方差为一常数。如果违反这一假设则最小二乘估计不再是
有效估计,不能进行区间估计独立性假设:误差项之间相互独立(不相关),误差项与自变
量之间应相互独立如果违反这一假设则误差项之间可能出现序
列相关,最小二乘估计不再是有效估计。回归分析Analyze->Regression 可实现:线性回归:简单线性回归和多元线性回归,由Linear过程实现分类变量为因变量的回归二项Logistic回归多项Logistic回归Ordinal回归Probit回归非线性回归曲线估计非线性估计权重估计两阶最小二乘最优尺度回归分析分析步骤做出散点图观察变量间的趋势。多个变量则做出散点图矩阵、重叠散点图和
三维散点图考察数据
的分布,做必要的预处理
分析变量的正态性和方差齐等问题。进行直线回归分析残差分析,检查残差的独立性和正态性强影响点的诊断和多重共线性问题的判断回归分析常用指标偏回归系数:反映相应一个自变量上升一个单位时,应变量取值的变动
情况决定系数R2即相应的相关系数的平方,用R2表示。反映应变量y的全部变异中能够
通过回归关系被自变量解释的比例。R2越接近1越好。多元回归时,决定系数缺乏可靠性,此时可参考调整的决定系数R2回归分析回归直线意义的F检验统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因
变量的解释力度很差,拟合的回归直线没有意义,相反若概率值(SPSS
中以sig表示,越小越好)残差的独立性检验Durbin-Watson检验的参数D的取值范围是0
数据见“人均食品支出.sav”回归分析-SPSS实现Regression->LinearDependent:人均食品支出,Independent(s):人均收入设置Statistics ,Plot选项回归分析-SPSS实现部分输出结果常数项的检验结果是其影响不显著的,所以需要进一步改善
模型,考虑建立不含常数项的回归方程回归分析-SPSS实现不含常数项的回归模型的部分输出结果回归诊断诊断模型:残差分析残差分析用于判断你对模型的假定是否符合:线性关系;误差项等方差;误差项相互独立;误差项正态分布;还可以检测出异常值和有影响的点回归分析-SPSS实现残差分析结果回归分析-SPSS实现回归诊断-异常值探查SPSS中设定和检测异常值Regression->Linear->Statistics Residuals->Case diagnostics :设定超过几倍标准
差的观测作为异常值(Outliers outside n standard
deviations)残差散点图回归诊断-异常值探查以数据”人均食品支出.sav“,为例,进行异常点检Regression->Linear->StatisticsResiduals->case diagnostics ,并选中outlier
outside ….,填入2Plots: Scatter:ZRESID->Y, ZPRED->X ,做残差与
预测值的散点图回归分析-异常值探查输出结果因变量和自变量?事实上,只要系数之间是线性组合的,并可通过变
换可转换为线性方程的,都可尝试用线性模型进行
拟合一般线性模型潜在的一些假设回归方程具有特定的形式。例如,因变量表示为截距、自变量的线
性组合,及残差的和。不满足这一假设,可能原因忽略了重要的自变量包含了不相关的自变量非线性-因变量和自变量之间的关系是非线性
的变动的参数-数据收集期间,方程中参数不是常数非可加性-自变量中某个给定变量的影响是附随着其
它变量的残差为零均值。违反该假设,易导致截距的有偏估
计残差不是自相关的所有自变量都是非随机的观测数大于未知系数在解释变量之间不存在确切的线性关系练习数据:world95.sav目的:利用生育率(fertility)预测妇女的平均预期寿命
(lifeexpf)要求:探索性分析两个变量,探察两个变量中是否存在异常点?您
获得的对两个变量的哪些认识?做两个变量的散点图,建立两个变量的线性回归模型,是否合理呢?利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步检验关于线性回归的一些假定此数据满足吗?并进行回
归诊断,对模型的系数进行解释。从输出结果,您是否可以
得出如果妇女多要一个小孩对她的寿命有多大影响吗?练习数据:waste.sav要求:提出有意义的问题有时比解决问题更重要利用学过的统计方法,看看您能够进行哪些分析,从各种分
析中,您能够得出哪些有意义的结论多元线性回归分析多元回归分析研究多个变量间的关系,因变量如何受到多个自变量的影响,用多
个自变量预测因变量的值多元线性回归是研究多个变量间因果关系的常用方法之一多个变量中有一个是因变量。其它的变量都是自变量,个数在两个以上每个自变量和因变量之间的关系都是线性的
例:超市中商品的价格、摆放位置、促销手段如何影响销售量;如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状
况、是否有抵押等)进行信用预测;连锁旅店的利润主要受哪些因素影响;宏观经济指标预测多元线性回归分析多元线性回归的方程为偏回归系数表示在其它变量保持不变的情况下,自变量变动一
个单位所引起的因变量y的平均变动。回归方程的显著性检验(模型拟合效果的检验)自变量的筛选多重共线性问题影响点的探察β
ββ12p、、βi多元线性回归分析方程的检验认识总变差的分解:判定系数:多重相关系数R调整(修正)的判定系数:?
??=
??×221
1 1(1 )nnpAdjRR=2/
RSSRSST2R=+SSTSSRSSE多元线性回归分析方程的检验问题:因变量和所有自变量的集合之间的线性关系是否
显著?检验假设:利用F统计量,构造F统计量及拒绝域结论β
ββ====L012: 0pHα??==>??/
/(1)(, 1)SSRp
MSR
MSESSEnpFFpnp多元线性回归分析回归系数的检验目的:检验每个自变量对因变量的线性影响是
否显著检验假设:利用t检验,构造t统计量及拒绝
域结论β
β=≠01: 0 : 0iiHH多元线性回归分析自变量筛选自变量筛选的目的多元回归分析引入多个自变量。如果引入的自变量个数较少
,则不能很好的说明因变量的变化;并非自变量引入越多越好有些自变量可能对因变量的解释没有贡献,留在模型中的自变量
应该是对因变量的变化贡献较大的变量自变量间可能存在较强的线性关系,即:多重共线性,因而不能
全部引入回归方程多重共线性问题多元线性回归分析-自变量筛选自变量筛选方法全回归法-Enter向前删除法-Forward向后删除法-Backward 逐步回归法-Stepwise强迫剔除法-Remove多元线性回归分析-SPSS实现例:一汽车工业集团跟踪调查了其不同车型的销
售情况,该集团希望建立合理的模型,以期发现
不同类型的车型与销售额的关系,以探察影响销
售额的模型car_sales.savSPSS实现:Analyze->Regression->LinearLog-transformed sales
Dependent (这是一种经验做
法,因为对数销售额比销售额更接近正态分布)Vehicle type [type]
…Fuel efficiency (mpg)->
Independent(s)Statistics选项:Estimates, Model fit 以上设置,将建立Vehicle type [type]
…Fuel
efficiency (mpg)等10个变量为自变量,对数销售额为
因变量的多元回归模型多元线性回归分析-SPSS实现输出结果:见下面的方程分析表从模型的F检验的结果来看,方程是有意义的。从以上R2看出,模型解释了对数销售额近一半的变差多元线性回归分析-SPSS实现近一步分析,我们希望找出哪些自变量对销售额的影响
更大?可以通过标准化系数的绝对值大小,衡量哪个变量对因
变量的影响最大通过标准化系数估计值,可以看出Price in thousands对
数销售额的影响较Vehicle Type大多元线性回归分析-SPSS实现尽管从以上的输出结果,模型看似较好,但是从下表
我们发现……偏回归系数中有很多是非显著的,表明它们相应的自变量可能
对销售额并没有显著影响,因此模型中引入这些变量并没有什
么实际意义!多重共线性问题出现上述矛盾结果的原因是什么呢?以上的现象正是我们在多元回归中必须关注的问题在多元线性回归模型中,
是指自变量之间存在线性相关的关系多重共线性存在时会使得系数估计的标准误差增大,从而使得模型的预测精度会大大地降低。我们将无法确定任一自变
量对因变量的单独影响。单个系数的符号可能与实际不符多重共线性问题多重共线性的标志R平方较大但没有几个显著的t统计量,预示着多重共线性的
存在。实际上,有可能回归方程的F统计量高度显著,而每
个t统计量不显著一对或多对解释变量的简单相关系数相对比较高可能意味着
多重共线的存在例:从前面的多重回归分析的模型的输出结果,我们已经看到模型整体是显著的,但是对于模型系数的检验却表明,很
多变量对Sales的影响并非显著。表明前面所建立的模型很
可能存在共线性的问题识别多重共线性SPSS提供了多种共线性的诊断方法,包括:容限法、
方差膨胀因子法、特征值方法和方差比例法相关说明::即某一自变量不能被其它变量解释的
变差占其总变差的百分比。因此容限越小表明该变量
与其它变量的相关性越强(Variance Inflation Factors,简记作
): 刻画了相比多重共线性不存在时回归系数估计的方
差增大了多少。越大说明多重共线性问题越严重。其中是自变量关于模型中其余自变量线性回归模型的
。称为容限经验法则:VIF >10==
?211
1j
jjVIF
RTOL2
jRjx2RjTOL识别多重共线性特征值法当有的特征值接近于0时,表明变量间具有高度的相关性,
数据值的改变可能导致系数估计较大改变条件指数条件指数大于15说明可能存在共线性的问题,条件指数大
于30时,说明有严重的共线性问题方差比例法对于大的条件指数,如果同时存在两个以上变量的方差分量大于50%,则说明这些变量间存在共线性的问题多重共线性问题-SPSS实现续car_sales.sav分析Statistics->Part and partial correlations,Collinearity
diagnostics多重共线性问题-SPSS实现输出其中Zero-order correlation即Pearson correlation, 简单相关系数,
part and partial correlation 指部分相关和偏相关。可以看到:“Price
in thousand”的部分相关和偏相关系数相对一阶零相关系数,减少很多,
这表明“Price”对Sales的影响中,一部分是由于与Price有关的自变量产生的。多重共线性诊断-SPSS实现从容限(tolerance)可以看出,对于给定的自变量,其变化程度大
约有70%-90%是可以通过其它变量来解释的多重共线性问题-SPSS实现从方差膨胀因子(VIF)输出结果来看,最小值为3.293.通常方
差膨胀因子大于2就可能存在共线性的问题多重共线性问题-SPSS实现Linear Regression->Statisticscollinearitydiagnostics 进行共线性“诊断”大部分特征值接近于0,表明自变量之间是高度线性相关的,即便
是自变量的微小变动,都可能导致回归系数估计值的很大波动多重共线性问题-SPSS实现输出的条件数进一步印证了该模型的高度共线性性。注意到
,大多数自变量的条件数大于15多元线性回归分析-逐步回归分析如何来解决共线性的问题?共线性问题不仅增大模型复杂度,而且降低
了模型精度!如何建立恰当模型,使模型仅仅包含有用的变量?-可以克服共线性,因为此时模型将只
保留对因变量有一定影响的变量Linear RegressionMethod->stepwise(逐步)多元线性回归分析-逐步回归分析部分输出结果由上表可以看出:逐步回归方法最终选择price in thousands
(价格),Wheelbase, Engine size, horsepower建立模型回归系数均是显著的,即所选因变量都是对Sales有显著影响的多元线性回归分析-逐步回归分析只选入两个自变量建立模型,那么模型整体的精确性如何?可以看出最终确定的模型是有意义的10个预
测因子
2个预
测因子多元线性回归分析-逐步回归分析多重共线性性是否依然存在?从多重共线性的“诊断”结果可以看出,表明逐步回归的方法克服了
多重共线性的问题,但是似乎还存在一些问题?原因何在呢?多元线性回归分析-逐步回归分析关于方程系数的检验能否进一
步改进?多元线性回归分析-逐步回归分析去掉截距项后的部分输出结果多元线性回归分析-逐步回归分析通过了模型及其系数显著性检验和共线性性诊断,有必要理解模
型的意义!模型最终选择价格(price)和大小(指Wheelbase-z轴距大小),及类
型(Vehicle type)作为预测变量.可以看出价格对销量Sales的影响是
负面的,即价格升高销量将下降,而对于Wheelbase,这是越大越有利于
销售。应该注意Vehicle type的解释,它的系数表明在其它同等情况下
,卡车(truck)比汽车(automobile)的销量好结论:基于以上的模型,我们可以说车型大且便宜的卡车销量相对其它
型车销量好残差分析模型的残差中蕴含着丰富的信息,通过分析残差可以实现对
所建模型的相关诊断几种残差简介残差标准化残差删除残差标准化残差学生残差学生删除残差多元线性回归分析-回归诊断多元线性回归的回归诊断检验模型假定是否成立与一元线性回归一样,通过残差分析,检验有关假定是否成立,
如正态性、独立性、等方差性等异常值探查通过标准化残差来探察影响点探查所谓影响点,是指其非标准化残差并不大,但删去后回归直线
发生很大改变的点影响点的检测主要包括以下几种方法与杠杆率有关的检测逐步排除异常个案是否影响回归系数的方差多元线性回归分析-回归诊断影响点的检测方法与杠杆率有关的检测LEVER centered leverage,是各观测自变量的各取值在模型中
作用的度量。该值越大,表明影响力越大。一般认为超过
2×(p/N),则影响力过大COOK
’s距离,用于衡量第i个观测被删除后,
回归系数的改变。
是残差和中心化杠杆率的函数。Cook’s 值越大,影响力越强。
经验上,一般COOK’s距离大于1 ,通常认为是影响点Mahanobis距离:为杠杆值的n-1倍,是自变量上个案的值与所
有个案的平均值相异程度的度量。大的Mahalanobis距离表示
个案在一个或多个自变量上具有极值多元线性回归分析-回归诊断影响点的检测方法逐步排除异常个案回归系数的变化及其标准化DfBeta,从模型中删去一个特定观测后,比较回归系数的前后变化标准化DfBeta,通常该值大于2/sqrt(n)时,认为是影响点预测值变化及其标准化DfFit从模型中删除某个观测后引起的预测值的变化标准化DfFit,通常默认的标准是该值大于2/sqrt(p/n)时,为影响
点。其中p为包括常数项的参数个数多元线性回归分析-回归诊断影响点的检测方法是否影响回归系数的方差协方差比例,指的是个案对参数估计的“方差-协方差矩
阵”的影响度,等于删除后协方差矩阵行列式/全部个案的
协方差矩阵的行列式、接近于1时,表明影响不大。经验
上|协方差比例-1|>3×(P/N)的点可视为影响点多元线性回归分析-回归诊断以Car_sales.sav逐步回归模型为例Linear Regression Plots选项:Scatter: SDRESID->Y, ZPRED->X,选择HistogramSave选项:Predicted Values,Residuals均选择
Standarized,Distances:Cook’s,LeverageStatistics选项-Residuals:选择Casewisediagnostics,选中Outliers outside,并填入“2”(即把绝对值超过2倍标准差的
标准化残差作为“Outliers”)多元线性回归分析-回归诊断部分输出结果标准化残差的直方图显示出,除个别观测外,残差基本上服从
正态分布进一步探查这些
”个别观测”,看以下Casewisediagnostics的输
出结果多元线性回归分析-回归诊断Casewisediagnostics 输出结果”3000GT”与“Cultass”具有最大的负的残差,也就是说相对于其它型
号的汽车,这两种型号的汽车市场销量要差一些多元线性回归分析-回归诊断残差的进一步分析:残差对选入模型的各自变量的散点图残差对价格(Price in thousands)的散点图:注:若模型建立的充分,标准化残差分布应该与自变量无关,并且基本以0为中
心,在[-2,2]内上下波动多元线性回归分析-回归诊断标准化残差对Wheelbase及Vehicle type的散点图:“残差”中蕴藏着无穷奥妙,实际问题中要充分利用残差分析,
来建立尽可能优良的模型多元线性回归分析-回归诊断影响点的探查:SPSS实现继续对“car_sales.sav”的分析Linear RegressionSave->Distances: 选择Cook‘s, Leverage values(SPSS将保
存这些变量,可以进行影响点的分析)Graphs
-Scatter/DotCook
’s Distance ->Y Axis, centered leverage value->X
AxisModel->Label Cases by多元线性回归分析-回归诊断从输出结果可以看出,“3000GT”具
有最大的Cook’s距离(Cook’s
Distance),但是它的中心杠杆率
(Centered Leverage Value)较
小,因此该观测并不会模型参数的
估计有太大的影响再看右下角CL500
”等观测,尽管它
们具有较大的中心杠杆率,但是
Cook‘s 距离确较小,所以这些观测
可能并不会对模型参数的估计有过
度的影响但是观测
“SL-Class ”同时具有较大
的Cook’s距离和中心杠杆率,所以
可以认为SL-Class相应的观测为影
响点多元线性回归分析-回归诊断以上通过散点图的方法,探查影响点。另外,也可以通
过各观测对应的标准化DfBeta(s),DfFit的序列图(
sequence),来探查影响点Linear RegressionSave选项:选择算StardardizedDfBeta(s), Stardardized
DfFit,则SPSS将把这些变量保存到数据集Graph->sequence SDF_1->Variables,ok
以上设置将生成DFFIT的序列图Graph->sequence
SDB0_1,SDB1_1, …SDB10_1->variables, ok
该设置将生成DfBeta(s)序列图多元线性回归分析-回归诊断输出结果(注:按照默认标准,此时DfFit)从以上序列图中很明显地可以看出,Prowler相应的观测为强影响点多元线性回归分析-回归诊断练习数据:world95.sav要求:建立female life expectancy关于fertility,grossdemestic
product(GDP)/capita, density of population,percentof people
living in cities ,and female literacy的多元线性回归模型。具体问
题如下先利用探索性分析,了解这些预测因子(自变量)的分布情况,是否有些
国家在这些变量上的取值同时是异常的?利用散点图了解female life
expantancy与其余几个自变量之间的关系,存在明显的异常点吗?建立female life expectancy关于以上所列出的几个自变量的线性回归方
程。描述该回归模型。哪个变量是显著的预先因子呢?哪个变量是最好的
预测因子呢?线性回归的假定满足吗?是否存在可能影响结果的异常观测
呢?练习数据:world95.sav要求:首先利用逐步回归的方法,建立female life expectancy关于
fertility,grossdemesticproduct(GDP)/capita, density of
population,percentof people living in cities ,and female
literacy,population increase和the log of population to predict
female lift expectancy,最佳的拟合模型是什么?利用backward(向后)方法,同样利用以上的因变量和自变量建立回归方程
,两种方法拟合出的回归方程一致吗?练习数据:world95.sav要求:对于以上练习中,由backward(向后)方法建立的回归方程进行共
线性诊断。您需要完成以下练习对该方法所选出
的自变量进行相关性分析,是否存在明显的迹象表明潜
在的共线性的存在呢?建立female life expectancy关于backward方法所出来的预测因子之间
的线性回归方程,并进行共线性诊断。您有发现共线性现象存在?存在
的话,是什么呢?如果时间允许的话,试图找到其它解决共线性的办法移出变量female literacy,重新建立回归方程。是否共线性问题有所
减轻呢?如果仍存在共线性问题,现在是否可以忽略呢。移出变量female literac,重新建立female life expectancy关于backward方法所出来的预测因子之间的线性回归方程,并要求进行影响
点探察,包括标准化残差,Cook’s距离,以及其它的您偏好的指标练习利用Case Summarizes(个案汇总)过程来列出这些统计量的取值
。记得把变量country添加到变量列表中,以便识别个案。您有发
现异常值吗?根据汇总结果,您是否会建议在分析中移出一些国家
呢?为什么?重新以上建立回归方程,但不包括country变量为,Kuwait. Saudi
Arabia和United Arab Emirates的个案。这次您得出什么结果呢?
异常点的问题解决了吗?