第七讲 线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归方程的拟合优度检验
在多元线性回归分析中用调整的判定系数 即调整的R2来反映回归方程的拟合优度


R2的数学特性决定了当多元回归方程中的解 释变量个数增多时,必然会导致R2增加 回归方程中引入了对被解释变量有重要贡献 的解释变量而使R2值增加
回归方程的显著性检验
回归方程的显著性检验是要检验被解释变量与 所有解释变量之间的线性关系是否显著,用线 性模型来描述它们之间的关系是否恰当 回归方程显著性检验统计量为F统计量,如果F 统计量对应的概率p值小于给定的显著性水平α ,则认为被解释变量y与解释变量x的线性关系 显著,可以用线性模型来描述和反映它们之间 的关系
从几何意义上讲,估计的多元线性回归方程是 p+1维空间上的一个超平面,即回归平面。 表 示当其他解释变量保持不变时,xi每变动一个 单位所引起的被解释变量y的平均变动值
回归参数的普通最小二乘估计
普通最小二乘估计(OLSE)的基本出发点 是:应使每个样本点(xi,yi)与回归线 上的对应点(xi,E(yi))在垂直方向上 的偏差距离的总和最小 普通最小二乘法将这个偏差距离定义为离 差的二次方,即(yi-E(yi))的二次方
•Enter 强行进入 •Stepwise 逐步筛选 •Remove 剔除所选 •Backward 向后筛选 •Forward 向前筛选
线性回归分析的应用举例
在回归分析中有不止一组 的待进入方程的解释变量 和相应的筛选策略,可以 按Next和Previous按钮设 置多组解释变量和变量筛 选策略,并放置在不同的 Block中
e
如果等级相关分析中检验统计量的概率p值 小于给定的显著性水平α,则认为解释变量 与残差间存在显著的相关关系,出现了异方 差现象
e
0
0
x
x
多元回归分析中的其他问题
解释变量的筛选问题 变量的多重共线性问题
解释变量的筛选
向前筛选

解释变量不断进入回归方程 解释变量不断踢出回归方程 在向前筛选策略的基础上,结合向后筛选策 略,在每个解释变量进入方程后再次判断是 否存在可以剔除的解释变量
被解释变量y的变化由两个部分解释


解释变量x的变化引起的y的线性变化(y=β 0+ β1x 随机因素ε引起的y的变化
一元线性回归分析需对β0和β1进行估计
一元线性回归方程
估计的一元线性回归方程如下

多元线性回归模型
y=β0+ β1x1+ β2x2+ …+βpxp+ ε
被解释变量y的变化由两个部分解释
x
残差的独立性分析
残差序列应满足:残差序列的前期和后期数值 之间不存在相关关系,即不存在自相关 残差序列自相关会带来许多问题

残差的独立性分析
残差的独立性分析可以通过三种方式实现,常 用的DW(Durbin-Watson)检验 DW检验是推断小样本序列是否存在自相关的 统计检验方法。其原假设是:总体的自相关 系数ρ与零无显著差异,采用的检验统计量 为DW统计量
参数的最小二乘估计不再是最小方差无偏估计,不 再是有效性估计 容易导致回归系数的显著性检验的t值偏高,进而容 易拒绝其原假设,使那些本不应保留在方程中的变 量被保留下来,并最终使模型的预测偏差较大
异方差分析
异方差分析可以通过绘制残差图来实现

异方差分析
异方差分析也可以通过等级相关分析实现

下方的残差图中,残差的方差随着解释变量 值的增加呈增加(或减少)的趋势,出现了 异方差现象
当解释变量x取某个特定的值x0时,对应的残差 必然有正有负,但总体上应服从以零为均值的 正态分布 可以通过绘制残差图进行分析,残差图也是一 种散点图,一般横坐标是解释变量,纵坐标为 残差 e
0
分析残差是否为服从均值为零的正态分布 分析残差是否为等方差的正态分布 分析残差序列是否独立 借助残差探测样本中的异常值 ……
方差膨胀因子VIFi是容忍度的倒数 方差膨胀因子VIFi的取值大于等于1,如果 VIF 大于等于10,说明解释变量xi与方程中其 余变量之间有严重的多重共线性,且可能过 度地影响方程的最小二乘估计
i
线性回归分析的应用举例
应用举例

线性回归分析的应用举例
被解释变量
高校科研研究.sav
解释变量的筛选策略
Ri2是解释变量x 与方程中其他解释变量间的复相关
i

系数的平方,表明解释变量之间的线性相关程度 容忍度的取值范围在0~1之间,越接近于0表示多重 共线性越强,越接近于1表示多重共线性越弱
变量的多重共线性
方差膨胀因子

多元线性回归的三大基本问题
多重共线性问题 异方差问题 自相关(序列相关)问题

线性回归分析的应用举例
Statistics选项
Estimates输出回归系数相 关的统计量 Model fit输出判定系数和 调整的判定系数 Collinearity diagnostics 多重共线性分析,输出容忍 度、方差膨胀因子等 Residuals框中的DurbinWatson表示输出DW检验值
统计分析与SPSS应用
丁婉玲 wld@szu.edu.cn
第七讲 线性回归分析
丁婉玲 wld@szu.edu.cn
回归分析
回归分析用于分析事物之间的统计关系, 侧重考查变量之间的数量变化规律,并通 过回归方程的形式描述和反映这种关系, 帮助人们把握变量受其他一个或多个变量 影响的程度

回归分析
回归线
从几何意义上讲,估计的一元线性回归方程是 二维平面上的一条直线,即回归直线。其中 是回归直线在纵轴上的截距, 为回归直线的 斜率,它表示解释变量x每变动一个单位所引起 的被解释变量y的平均变动值


由p个解释变量x的变化引起的y的线性变化(y= β0+ β1x1+ β x2+ …+β x ) 随机因素ε引起的y的变化

线性回归分析
观察被解释变量y和一个或多个解释变量 xi的散点图,当发现y与xi之间呈现出显著 的线性关系时,则应采用线性回归分析方 法,建立y与xi的线性回归模型

一元线性回归模型
一元线性回归的数学模型
y=β0+ β1x+ε
一元线性回归分析(一个解释变量) 多元线性回归分析(多个解释变量)
回归方程的显著性检验
回归方程的显著性检验和回归方程的拟合优度 检验存在对应的关系


回归方程的拟合优度越高,回归方程的显著性检验 也会越显著 回归方程的显著性检验越显著,回归方程的拟合优 度也会越高
回归系数的显著性检验
回归系数显著性检验的目的是研究回归方程中 的每个解释变量与被解释变量之间是否存在显 著的线性关系,也就是研究每个解释变量能否 有效地解释被解释变量的线性变化,它们能否 保留在线性回归方程中 回归系数显著性检验统计量为t统计量,如果t 统计量对应的概率p值小于给定的显著性水平α ,则认为被解释变量y与解释变量x的线性关系 显著,x应该保留在回归方程中
2 p p
多元线性回归分析需对β0,β1 ,β , ,β 进行估计
2 。 p
wk.baidu.com
。。
多元线性回归方程
估计的多元线性回归方程如下
回归参数的普通最小二乘估计
线性回归模型确定后的任务是利用已经收集到 的样本数据,根据一定的统计拟合准则,对模 型中的各个参数进行估计。普通最小二乘就是 一种最为常见的统计拟合准则,在该准则下得 到的回归参数的估计成为回归参数的普通最小 二乘估计

函数拟合
回归分析
利用样本数据获得回归线可采用两种方法

回归分析的一般步骤
确定回归方程中的解释变量(x)和被解 释变量(y) 确定回归模型 建立回归方程 对回归方程进行各种检验 利用回归方程进行预测
局部平均 函数拟合
通过散点图观察变量之间的统计关系,得到对回归线形状 的感性认知,并确定一个能够反映和拟合这种认知且最简 洁的数学函数,即回归模型 利用样本数据在一定的统计拟合准则下,估计出回归模型 中的各个参数,从而得到一个确定的回归方程 对回归方程进行检验,判断该方程是否真实地反映了事物 总体间的统计关系,能否用于预测,并最终得到由回归方 程确定的回归近似线

参数的普通最小二乘估计不再最优,不再是最小方 差无偏估计 容易导致回归系数的显著性检验的t值偏高,进而容 易拒绝其原假设,使那些本不应该保留在方程中的 变量被保留下来,并最终使模型的预测偏差较大
DW(Durbin-Watson)检验
DW取值在0~4之间

异方差分析
无论解释变量取怎样的值,对应残差的方差都 应相等,它不应随解释变量或被解释变量预测 值的变化而变化,否则认为出现了异方差现象 当存在异方差时
回归方程的统计检验
通过样本数据建立的回归方程一般不能立 即用于对实际问题的分析和预测,通常要 进行各种统计检验

回归方程的拟合优度检验 回归方程的显著性检验 回归系数的显著性检验 残差分析 ……
回归方程的拟合优度检验
回归方程的拟合优度检验是检验样本数据点聚 集在回归线周围的密集程度,从而评价回归方 程对样本数据的代表程度 当所有样本点都落在回归线上时,回归方程的 拟合优度最高 回归方程能够解释的变差所占比例较大,回归 方程的拟合优度较高 R2统计量反映回归方程的拟合优度,该统计量 成为判定系数或决定系数
向后筛选

逐步筛选

变量的多重共线性
多重共线性是指解释变量之间存在线性相 关,高度多重共线性会带来许多问题

变量的多重共线性
容忍度是测度解释变量间多重共线性的重 要统计量,解释变量xi的容忍度定义为


偏回归系数估计困难 偏回归系数的估计方差随解释变量相关性的增大而 增大 偏回归系数的置信区间增大 偏回归系数估计值的不稳定性增强 偏回归系数假设检验的结果不显著 ……



线性回归分析的应用举例
Plot选项

线性回归分析的应用举例
为研究高等院校人文社会科学研究中立项课题 数受哪些因素影响,收集某年31个省市自治区 部分高校有关社科研究方面的数据,并利用线 性回归分析方法进行分析

DEPENDENT表示被解释变量 ZPRED表示标准化预测值 ZRESID表示标准化残差 …… Standardized Residual Plots框中

线性回归分析的应用举例
检验结果
模型的拟合优度
最终回归模型的调整的判定系数为0.917
判定系数 调整的判 定系数
解释变量筛选策略采用向后筛选策略
一般经过多步完成回归方程建立,最终的回归模 型为最后一步确立的模型
英国统计学家F. Galton从大量的父亲身高 和其成年儿子身高数据的散点图中,发现了 一条贯穿其中的直线,将其称为“回归线” 。这条线能够描述父亲身高和其成年儿子身 高之间的关系,并可用于预测某身高父亲其 成年儿子的平均身高
回归分析

回归分析
利用样本数据获得回归线可采用两种方法
局部平均
当X=X0时Y的平均值,即父亲身高为X0的所有儿子 身高的平均值,如果这些数据点足够多,则可以 得到一条光滑的曲线,成为回归线的近似线
Normal probability plot表示绘制标 准化残差序列的正态分布累计概率图 ……
被解释变量为立项课题数 解释变量为:投入人年数、投入高级职称的人年数 、投入科研事业费、专著数、论文数、获奖数

线性回归分析的应用举例
…高等院校人文社会科学研究中立项课题 数受哪些因素影响…

当DW≈2时,残差序列不存在自相关 当DW=4时,残差序列存在完全的负自相关 当DW=0时,残差序列存在完全的正自相关 当DW=(2,4)时,残差序列存在负自相关 当DW=(0,2)时,残差序列存在正自相关

如果残差序列存在自相关,说明回归方程没能充分说明 被解释变量的变化规律,还留有一些规律性没有被解释 ,也就是认为方程中遗漏了一些较为重要的解释变量, 或者变量存在取值滞后性,或者回归模型选择不合适, 等等
残差分析
残差是指回归方程计算所得的预测值与实际样 本值之间的差距 由多个残差形成的序列成为残差序列 残差分析的出发点是:如果回归方程能够较好 地反映被解释变量的特征和变化规律,那么残 差序列中应不包含明显的规律性和趋势性
残差分析
残差分析的主要任务

残差均值为零的正态性分析
相关文档
最新文档