SPSS统计分析第六章回归分析1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(5)残差图示法
在直角坐标系中,以预测值y^为横轴,以y与 y^之间的误差et为纵轴(或学生化残差与拟和 值或一个自变量),绘制残差的散点图。如 果散点呈现出明显的规律性则,认为存在自相 关性或者非线性或者非常数方差的问题。
(二)多元线性回归
多元线性回归:根据多个自变量的最优组合建立回归 方程来预测因变量的回归分析称为多元回归分析。多 元回归分析的模型为:y^=b0+b1x1+b2x2+ +bnxn 其中y^为根据所有自变量x计算出的估计值, b0为常 数项, b1、b2 bn称为y对应于x1、x2 xn的偏回归 系数。偏回归系数表示假设在其他所有自变量不变 的情况下,某一个自变量变化引起因变量变化的比 率。
部分相关(Part Correlation)表示:在排除了其他自 变量对 xi的影响后,当一个自变量进入回归方程模型 后,复相关系数的平均增加量。
偏相关系数(Partial Correlation )表示:在排除了 其他变量的影响后;自变量 Xi与因变量y之间的相关 程度。部分相关系数小于偏相关系数。偏相关系数也 可以用来作为筛选自变量的指标,即通过比较偏相关 系数的大小判别哪些变量对因变量具有较大的影响力。
例题
Data09-03美国某银行雇员情况调查,建立一 个使用初始工资(salbegin)、工作经验 (prevexp)、工作时间(jobtime)、工作 类型(jobcat)、受教育年限(educ)预测 当前工资(salary)的回归方程。
1.变量间线性关系的初步探索
在获得数据后,应将所得到的数据绘图,探索因变量 随自变量变化的趋势。以便确定数据是否适合线性模 型。如果数据之间大致呈线性关系,可以建立线性回 归方程。如果图中数据不呈线性分布,那么还可以根 据其他回归方程模型的观测量分布图形特点以及建立 各方程后所得的判定系数R2进行比较后确定一种最 佳模型。见曲线拟合及非线性回归。 通过散点图还可以发现奇异值,如图中画圈的观测值 要认真检查数据的合理性。
(2)偏回归系数与常数项的检验
在多元回归分析中,可能有的自变量对因变 量的影响很强,而有的影响很弱,甚至完全 没有作用,这样就有必要对自变量进行选择, 使回归方程中只包含对因变量有统计学意义 的自变量; 检验的假设是:各自变量回归系数为0,常数 项为0。它使用的统计量是t; t=偏回归系数/偏回归系数的标准误
表示所有的观测点全部落在回归直线上。当R2=0时,
表示自变量与因变量无线性关系。
为了尽可能准确的反应模型的拟合度,SPSS输出中 的Adjusted R Square是消除了自变量个数影响的R2 的修正值。
(3)方差分析
体现因变量观测值与均值之间的差异的偏差平方和 SSt是由两个部分组成: SSt=SSr+SSe SSr:回归平方和,反应了自变量X的重要程度; SSe :残差平方和,它反应了实验误差以及其他意外 因素对实验结果的影响。这两部分除以各自的自由度, 得到它们的均方。
2、一元线性回归方程的检验
检验的假设是总体回归系数为0。另外要检验回归方 程对因变量的预测效果如何。 (1)回归系数的显著性检验 对斜率的检验,假设是:总体回归系数为0。检验该 假设的t值计算公式是;t=b/SEb,其中SEb是回归系 数的标准误。 对截距的检验,假设是:总体回归方程截距a=0。检 验该假设的t值计算公式是: t=a/SEa,其中SEa是截 距的标准误。
容许度定义为Toli=l一Ri2 当容许度的值较小时,自变量Xi 与其他自变量X之间 存在共线性。
使用容许度作为共线性量度指标的条件是,观测量 应大致近似于正态分布,但在大多数情况下观测量的 正态分布的假设是不被接受的。而且,由于容许度中 相关系数对极端值极为敏感, 所以用它来作为共线性 的量度指标是不适合的。
2、选择自变量和因变量
3、选择回归分析方法
Enter选项,强行进入 法,即所选择的自变量 全部进人回归模型,该 选项是默认方式。 Remove选项,消去法, 建立的回归方程时,根 据设定的条件剔除部分 自变量。
Forward选项,向前选择 法,根据在option对话框中 所设定的判据,从无自变 量开始。在拟合过程中, 对被选择的自变量进行方 差分析,每次加入一个F值 最大的变量,直至所有符 合判据的变量都进入模型 为止。第一个引入归模型 的变量应该与因变量间相 关系数绝对值最大。
进行共线性论断常用的参数有
(l)容许度(Tolerance) 在只有两个自变量的情况下,自变量X1与X2之间共 线性体现在两变量间相关系数r12上。精确共线性时 对应r122=1,当它们之间不存在共线性时r122=0。 r122越接近于1,共线性越强。 多于两个自变量的情况, Xi与其他自变量X之间的复 相关系数的平方体现其共线性,称它为Ri2。它的值 越接近1,说明自变量之间的共线性程度越大。
3、多元线性回归分析的检验
建立了多元回归方程后,需要进行显著性检 验,以确认建立的数学模型是否很好的拟和 了原始数据,即该回归方程是否有效。利用 残差分析,确定回归方程是否违反了假设理 论。对各自变量进行检验。其假设是总体的 回归方程自变量系数或常数项为0。以便在回 归方程中保留对因变量y值预测更有效的自变 量。以便确定数学模型是否有效。
backward选项向后剔除法根据在option对话框中所设定的判据先建立全模型然后根据设置的判据每次剔除一个使方差分析中的f值最小的自变量直到回归方程中不再含有不符合判据的自变量为stepwise选项逐步进入法它是向前选择变量法与向后剔除变量方法的结合
第六章 回归分析
变量之间的联系
确定型的关系:指某一个或某几个现象的变动必然会 引起另一个现象确定的变动,他们之间的关系可以使 用数学函数式确切地表达出来,即y=f(x)。当知道x的 数值时,就可以计算出确切的y值来。如圆的周长与 半径的关系:周长=2πr。 非确定关系:例如,在发育阶段,随年龄的增长,人 的身高会增加。但不能根据年龄找到确定的身高,即 不能得出11岁儿童身高一定就是1.40米公分。年龄与 身高的关系不能用一般的函数关系来表达。研究变量 之间既存在又不确定的相互关系及其密切程度的分析 称为相关分析。
(2)方差膨胀因子(VIF)
方差膨胀因于(VIF)定义为 VIF=1/(l一Ri2 ),即它是 容许度的倒数。它的值越大,自变量之间存在共线性的 可能性越大。
(3)条件参数(Condition Index)
条件参数是在计算特征值时产生的一个统计量,其具体 含义尚不大清楚,但己经提出一些原则:其数值越大, 说明自变量之间的共线性的可能性越大;有些学者提议, 条件参数≥30时认为有共线性存在的可能性,但理论上 并没有得到证明。特征值(Eigenvalue)如果很小,就 应该怀疑共线性的存在。
统计量F=回归均方/残差均方。当 F值很大时,拒 绝接受b=0的假设。
(4)Durbin-Watson检验
在对回归模型的诊断中,有一个非常重要的 回归模型假设需要诊断,那就是回归模型中 的误差项的独立性。如果误差项不独立,那 么对回归模型的任何估计与假设所作出的结 论都是不可靠的。其参数称为DW或D。D的 取值范围是0<D<4,统计学意义如下: ①当残差与自变量互为独立时D≈2; ③当相邻两点的残差为正相关时,D<2; ③当相邻两点的残差为负相关时,D>2
1、一元线性回归方程的适用条件
线形趋势:自变量与因变量的关系是线形的,如果不 是,则不能采用线性回归来分析。 独立性:可表述为因变量y的取值相互独立,它们之 间没有联系。反映到模型中,实际上就是要求残差间 相互独立,不存在自相关。 正态性:自变量x的任何一个线形组合,因变量y均服 从正态分布,反映到模型中,实际上就是要求随机误 差项εi服从正态分布。 方差齐性:自变量的任何一个线形组合,因变量y的 方差均齐性,实质就是要求残差的方差齐。
多元线性回归模型也必须满足一元线性回归方程中所 述的假设理论。
2.多元线性回归分析中的参数
(l)复相关系数 R 复相关系数表示因变量 xi 与他的自变量y之间 线性相关密切程度的指标,复相关系数使用 字母R表示。 复相关系数的取值范围在0-1之间。其值越 接近1表示其线性关系越强,越接近0表示线 性关系越差。
回归分析
如果把其中的一些因素作为自变量,而另一 些随自变量的变化而变化的变量作为因变量, 研究他们之间的非确定因果关系,这种分析 就称为回归分析。 回归分析是研究一个自变量或多个自变量与 一个因变量之间是否存在某种线性关系或非 线性关系的一种统计学方法。
线性回归分析; 曲线回归分析; 二维Logistic回归分析; 多维Logistic回归分析; 概率单位回归分析; 非线性回归分析; 权重估计分析; 二阶段最小二乘分析; 最优编码回归。
一、线性回归
(一)一元线性回归方程
直线回归分析的任务就是根据若干个观测(xi,yi)i=1~n 找出描述两个变量x、y之间关系的直线回归方程y^=a+bx。 y^是变量y的估计值。求直线回归方程y^=a+bx,实际上是用 回归直线拟合散点图中的各观测点。常用的方法是最小二乘 法。也就是使该直线与各点的纵向垂直距离最小。即使实测 值y与回归直线y^之差的平方和Σ(y-y^)2达到最小。Σ(y-y^)2 也称为剩余(残差)平方和。因此求回归方程y^=a+bx的问 题,归根到底就是求Σ(y-y^)2取得最小值时a和b的问题。a称 为截距,b为回归直线的斜率,也称回归系数。
Square)。
Adju2 s1 t e (y (ˆdiy i y R y )2)2(n( n k1 )1)
K为自变量的个数,n为观 测量数目。自变量的个数 大于1时,其值小于判定系 数。自变量个数越多,与 判定系数的差值越大。
(3)零阶相关系数、部分相关与偏相关系数
零阶相关系数(Zero-Order)计算所有自变量与因 变量之间的简单相关系数。
பைடு நூலகம்
(l)方差分析
多元回归方程也采用方差分析方法对回归方程进行 检验,检验的H0假设是总体的回归系数均为0(无效 假设),H1假设是总体的回归系数不全为0(备选假 设)。它是对整个回归方程的显著性检验。使用统 计量F进行检验。原理与一元回归的方程分析原理相 同。
FM M残 回 SS差 归 =(y (yˆ)yˆi2(yn)2p1) i
共线性诊断
在回归方程中,虽然各自变量对因变量都是有意义的, 但某些自变量彼此相关,即存在共线性的问题。给 评价自变量的贡献率带来困难。因此,需要对回归方 程中的变量进行共线性诊断;并且确定它们对参数估 计的影响。 当一组自变量精确共线性时,必须删除引起共线性 的一个和多个自变量,否则不存在系数唯一的最小 二乘估计。因为删除的自变量并不包含任何多余的 信息,所以得出的回归方程并没有失去什么。当共 线性为近似时,一般是将引起共线性的自变量删除, 但需要掌握的原则是:务必使丢失的信息最少。
(3)方差齐性检验
方差齐性是指残差的分布是常数,与预测变 量或因变量无关。即残差应随机的分布在一 条穿过0点的水平直线的两侧。在实际应用中, 一般是绘制因变量预测值与学生残差的散点 图。在线性回归Plots对话框中的源变量表中, 选择SRESID(学生氏残差)做Y轴;选择 ZPRED(标准化预测值)做X轴就可以在执 行后的输出信息中显示检验方差齐性的散点 图。
Backward选项,向后 剔除法,根据在option 对话框中所设定的判据, 先建立全模型,然后根 据设置的判据,每次剔 除一个使方差分析中的 F值最小的自变量,直 到回归方程中不再含有 不符合判据的自变量为 止。
(2)R2判定系数与经调整的判定系数
与一元回归方程相同,在多元回归中也使用判定系数 R2来解释回归模型中自变量的变异在因变量变异中 所占比率。
但是,判定系数的值随着进入回归方程的自变量的
个数(或样本容量的大小n)的增加而增大。因此,
为了消除自变量的个数以及样本量的大小对判定系数
的影响,引进了经调整的判定系数(Adjusted R
(2) R2判定系数
在判定一个线性回归直线的拟合度的好坏时,R2系
数是一个重要的判定指标。
R2

( (
yˆi yi

y)2 y)2
R2判定系数等于回归平方和在总平方和
中所占的比率,即R2体现了回归模型所能解释的因
变量变异性的百分比。如果R2=0.775,则说明变量y
的变异中有77.5%是由变量X引起的。当R2=1时,
相关文档
最新文档