线性回归分析ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

n
( yˆi y )2
i 1
MSA
( yi yˆi )2 n 2 MSE
i 1
即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由
度的F分布。SPSS将会自动计算检验统计量的观测值以及
对应的概率p值,如果p值小于给定的显著性水平α,则应
拒绝零假设,认为线性关系显著。
16
u回归方程的统计检验 u残差分析——独立性分析
Ø 绘制残差序列的序列图 以样本期(或时间)为横坐标,残差为纵坐标,如果残差 随时间的推移呈规律性变化,则存在一定的正或负相关性。 Ø计算残差的自相关系数 ˆ 取值在-1到+1之间,接近于+1表明序列存在正自相关性。 Ø DW(Durbin—Watson)检验 DW取值在0至4之间,直观判断标准是DW=4,残差序列完全 负自相关;DW=2,完全无自相关;DW=0,完全正自相关。
i


p
e2 i
1
2
hii 1hii
2
库克距离是杠杆值与残差大小的综合效应,一般库克距离
大于1,则可认为观察点为强影响点。
标准化回归系数的变化和标准化预测值的变化
如果标准化回归系数变化的绝对值大于 2 n ,或标准化预
测值变化的绝对值大于 2 p n ,则可认为第i个样本可能是 强影响点。
3
回归分析一般步骤: •确定回归方程中的解释变量(自变量)和 被解释变量(因变量) •确定回归模型 •建立回归方程 •对回归方程进行各种检验 •利用回归方程进行预测
4
线性回归模型
一元线性回归模型是指只有一个解释变量的线性 回归模型,用于揭示被解释变量与另一个解释变 量之间的线性关系。
1
多元回归分析中的其他问题 u变量筛选问题 Ø向前筛选策略
解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高 线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑 选与解释变量偏相关系数最高并通过检验的变量进入回归方程。 Ø向后筛选策略
变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并 检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验 值最小的变量。 Ø逐步筛选策略
11
u回归方程的统计检验 u回归方程的显著性检验(F检验)
多元线性回归方程显著性检验的零假设是各个偏回归系数 同时为零,检验采用F统计量,其数学定义为:
n
F
n
( yˆi y )2 P
i 1
MSA
( yi yˆi )2 n P 1 MSE
i 1
即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自 由度的F分布。SPSS将会自动计算检验统计量的观测值以 及对应的概率p值,如果p值小于给定的显著性水平α,则 应拒绝零假设,认为y与x的全体的线性关系显著。
上述SRE、SDRE的直观判断标准同标准化残差ZRE。
20
回归方程的统计检验 残差分析——探测样本中的异常值和强影响点(对于x值) 杠杆值hii SPSS中计算的是中心化杠杆值chii,通常如果chii大于2或3 倍的chii的均值(p/n),则认为观察点为强影响点。 库克距离Di
D
合准则。
最小二乘法将偏差距离定义为离差平方和,即
n
Q( 0, 1, p) ( yi E( yi ))2
i 1
最小二乘估计就是寻找参数β0
、β1、…
βp的估计
值β̂0 、β ̂1、… β ̂p,使式(1)达到极小。通过
求极值原理(偏导为零)和解方程组,可求得估计值,
SPSS将自动完成。
25
n回归分析基本操作 (5)上述(3)、(4)中确定的自变量和筛选策略可放置 在不同的Block中,单击 “Next”和“Previous”按钮设 置多组自变量和变量筛选策略,并放在不同Block中,SPSS 将按照设置顺序依次进行分析。“Block”设置便于作各种 探索性的回归分析。
26
n回归分析基本操作
每个非标准化回归系数的95置信区间输出各解释变量间的相关系差以及各回归系数的方差第28页共210页输出判定系数调整的判定系数回归方程的标准误回归方程显著性检验的方差分析表每个解释变量进入方程后引起的判定系数的变化量偏f统计量输出个解释变量和被解释变量的均值标准差相关系数矩阵及单侧检验概率值输出方程中各解释变量与被解释变量之间的简单相关偏相关系数和部分相关n回归分析的其他操作选项第29页共210页多重共线性分输出各解释变量的容忍度方差膨胀因子特征值条件指标方差比例等dw值输出标准化残差绝对值大于等于3默认的样本数据的相关信n回归分析的其他操作选项第30页共210页选项?标准化预测值?标准化残差?剔除残差?调整的预测值?学生化残差?剔除学生化残差标准化残差序列直方图标准化残差序列正态分布累计概率图依次绘制被解释变量与各解释变量的散点n回归分析的其他操作第31页共210页save选项该窗口将回归分析的某些结果以spss变量的形式保存到数据编辑窗口中并可同时生成xml格式的文件便于分析结果的网络发布
28
n回归分析的其他操作 Ø选项
输出与回归系 数相关的统计 量,包括回归 系数、回归系 数标准误、标 准化回归系数、 回归系数显著 性检验的t统计 量和概率p值, 个解释变量的 容忍度。
每个非标准化 回归系数的95 %置信区间
输出各解 释变量间 的相关系 数、协方 差以及各 回归系数 的方差
29
n回归分析的其他操作 Ø选项
12
u回归方程的统计检验 u回归系数的显著性检验(t检验)
一元线性回归方程的回归系数显著性检验的零假设是β1= 0,检验采用t统计量,其数学定义为:
t
ˆ1 ˆ
n
(xi x )2
i 1
t统计量服从n-2个自由度的t分布。 SPSS将会自动计算 t统计量的观测值以及对应的概率p值,如果p值小于给 定的显著性水平α,则应拒绝零假设,认为x对y有显著 贡献,线性关系显著。
13
u回归方程的统计检验 u回归系数的显著性检验(t检验)
多元线性回归方程的回归系数显著性检验的零假设是βi= 0,检验采用t统计量,其数学定义为:
ti
ˆi ˆ
(i=1,2, … ,p)
n
(x ji xi )2
j 1
ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计 算ti统计量的观测值以及对应的概率p值,如果p值小于 给定的显著性水平α,则应拒绝零假设,认为xi对y有显 著贡献,应保留在线性方程中。
7
u回归方程的统计检验
u回归方程的拟合优度检验(相关系数检验)
一元线性回归的拟合优度检验采用R2统计量,称
为判定系数或决定系数,数学定义为
n
其中 ( yˆi y )2 i 1
n
( yˆi y)2
R2
i 1 n
( yi y)2
i 1
称为回归平方和(SSA)
n
( yi y)2 称为总离差平方和(SST)
17
u回归方程的统计检验 u残差分析——异方差分析 Ø 绘制残差图 如果残差的方差随着解释变量值的增加呈增加(或减少) 的趋势,说明出现了异方差现象。
18
u回归方程的统计检验 u残差分析——异方差分析 Ø 等级相关分析 得到残差序列后首先对其取绝对值,然后计算出残差和解 释变量的秩,最后计算Spearman等级相关系数,并进行等 级相关分析。具体过程见相关分析相关章节。
其中β0、β1、… βp都是未知参数,分别称 为回归常数和偏回归系数,ε称为随机误差, 是一个随机变量,且同样满足两个前提条件:
E(ε)=0 var(ε)=σ2
6
回归参数的普通最小二乘估计(OLSE)
线性回归方程确定后的任务是利用已经收集到的样本
数据,根据一定的统计拟合准则,对方程中的各参数
进行估计。普通最小二乘就是一种最为常见的统计拟
义为
SSE
2
R
1
n
p 1 SST
n 1
式中n-p-1、n-1分别是SSE和SST的自由度。其取值 范围和意义与一元回归方程中的R2是相同的。
10
u回归方程的统计检验
u回归方程的显著性检验(F检验)
一元线性回归方程显著性检验的零假设是β1=0,
检验采用F统计量,其数学定义为: n
F
19
u回归方程的统计检验 u残差分析——探测样本中的异常值和强影响点(对于y值) Ø标准化残差ZRE
由于残差是服从均值为0的正态分布,因此可以根据3σ准

ZRE ei
ˆ
进行判断,首先对残差进行标准化
,绝对
值大于3对应的观察值为异常值。
Ø学生化残差SRE
Ø剔除残差DRE(或剔除学生化残差SDRE)
回归分析 (Correlation & regression)
1
线性回归
事物关系
函数关系 (一一对应)
统计关系 (非一一对应)
线性相关 非线性相关
2
回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量关系 的一种统计分析方法。 *涉及的自变量的多少 a.一元回归分析 b.多元回归分析 *自变量和因变量之间的关系类型, a.线性回归分析 b.非线性回归分析
30
n回归分析的其他操作
Ø选项
DW值
输出标准化残差 绝对值大于等于 3(默认)的样 本数据的相关信 息
多重共线性分 析: 输出各解释变 量的容忍度、 方差膨胀因子、
特征值、条件 指标、方差 比例等
31
n回归分析的其他操作
Ø选项
•标准化预测值 •标准化残差 •剔除残差 •调整的预测值 •学生化残差 •剔除学生化残差
向前筛选与向后筛选策略的综合
22
多元回归分析中的其他问题
u变量多重共线性问题
Ø容忍度Tol
Tol
i

1

R2 i
容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求 不很严格,只是在容忍度值太小时给出相应警告信息。 Ø方差膨胀因子VIF 膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越 弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有 严重的多重共线性。 Ø特征根和方差比 这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其 他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。
其中β0和β1是未知参数,分别称为回归常数和回 归系数,ε称为随机误差,是一个随机变量,且 应该满足两个前提条件: E(ε)=0 var(ε)=σ2
5
线性回归模型
多元线性回归模型是指有多个解释变量的线 性回归模型,用于揭示被解释变量与其他多 个解释变量之间的线性关系。 多元线性回归数学模型:
y 0 1x1 2x2 pxp
Ø条件指数ki
ki
m i
10≤ ki ≤100时,认为多重共线性较强, ki ≥100时,认为多重共线
性很严重
23
n回归分析基本操作
(1)选择菜单Analyze—Regression—Linear,出现如下对
话框
因变量
自变量
条件变量 标志变量
筛选策略
24
n回归分析基本操作
(2)将因变量选入Dependent框 (3)将一个或多个自变量选入In dependengt(s)框 (4)在Method框中选择回归分析 中自变量的筛选策略。其中Enter 表示所选变量强行进入回归方程, 是SPSS默认策略,通常用在一元 线性回归分析中;Remove表示从 回归方程中剔除所选变量;Stepw ise表示逐步筛选策略;Backward、 Forward分别表示向后、向前筛选 策略。
14
u回归方程的统计检验 u残差分析
所谓残差是指由回归方程计算所得的预测值与实际样本值 之间的差距,即
ei

y i
yˆ i
它是回归模型中 i 的估计值。如果回归方程能较好地反
映被解释变量的特征和变化规律,那么残差序列中应不包含 明显的规律性和趋势性。
15
u回归方程的统计检验 u残差分析——均值为0的正态性分析 残差均值为0的正态性分析,可以通过绘制残差图进行分 析,如果残差均值为0,残差图中的点应在纵坐标为0的横 线上下随机散落着。正态性可以通过绘制标准化(或学生 化)残差的累计概率图来分析
每个解释变量进 入方程后引起的 判定系数的变化 量和F值的变化 量(偏F统计量)
输出个解释变量 和被解释变量的 均值、标准差、 相关系数矩阵及 单侧检验概率值
输出判定系数、 调整的判定系数、 回归方程的标准 误、回归方程显 著性检验的方差 分析表
输出方程中各解 释变量与被解释 变量之间的简单 相关、偏相关系 数和部分相关
i 1
8
u回归方程的统计检验 u回归方程的拟合优度检验(相关系数检验)
R2取值在0-1之间, R2越接近于1,说明回归 方程对样本数据点的拟合优度越高。
9
u回归方程的统计检验
u回归方程的拟合优度检验(相R2关系数检验)
多元线性回归的拟合优度检验采用 统计量,
称为调整的判定系数或调整的决定系数,数学定
(6)选择一个变 量作为条件变量到 Selection Variab le框中,并单击 “Rule”按钮给定 一个判断条件。只 有变量值满足给定 条件的样本数据才 参与线性回归分析。
27
n回归分析基本操作 (7)在Case Labels框中指定哪个变量作为数据样本点的 标志变量,该变量的值将标在回归分析的输出图形中。 (8)WLS Weight中选人权重变量,主要用于加权最小二乘 法。 至此便完成了线性回归分析的基本操作,SPSS将根据 指定自动进行回归分析,并将结果输出到输出窗口中。
相关文档
最新文档