残差分析(课堂PPT)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一元线性回归:
Q (yi yi )2 [ yi (a b xi )]2
多元线性回归:
Q (yi yi )2 [ yi (b0 b1 x1 b2 x2 bn xn )]2
9
一元线性回归时,计算比较简单:
b (x x) (y y) x y x y / n lxy
• 决定系数(determination coefficient)( R square)
^
R2
( y y)2
( y y)2
• 调整(校正)决定系数(adjusted R square)
R2
1
n 1
(1 R2 )
• 复相关系数R (multniplemcorrelation coefficient)
斜率) 回归系数的统计学意义是:自变量每变化一个单位,
应变量平均变化的单位数.
(3)ei是残差
3
因此直线回归方程的一般形式是:
^ห้องสมุดไป่ตู้
yi a bxi
•
其中
^
yi
是应变量y的预测值或称估计值。
4
4、多元线性回归 多元线性回归方程模型为: yi=b0+b1x1i+b2x2i+…+bnxni+ei
其中 (1) b有0是时常,数人项们,称是它各为自本变底量值都。等于0时,应变量的估计值。 (2) bco1,effbic2i,en…t ),,b其n是统偏计回学归意系义数是(在pe其rt它ial所re有gr自es变sio量n 不变
5
多元线性回归方程的一般形式是:
^
yi b0 b1x1i b2 x2i bn xni
其中的符号含义同前。
6
三、理论假设
• 自变量x与应变量y之间存在线性关系; • 正态性:随机误差(即残差)e服从均值为 0,
方差为2的正态分布; • 等方差:对于所有的自变量x,残差e的条件方
差为2 ,且为常数; • 独立性:在给定自变量x的条件下,残差e的条
性回归解释的部分
^_
(y y)2
11
剩余平方和(residual sum of squares):即残差平方 和,不能用线性回归解释的部分
^
( y y)2
以上三部分的自由度分别为n-1,m和n-m-1。其 中,n为样本数,m为自变量数。 方差分析的假设为
一元线性回归:H0: =0 多元线性回归:
H1: 0
H0: 1= 2=…= m=0 H1: 1, 2,…, m中至少有一个不等于零 因此方差分析的结论是线性回归方程是否显著, 是否有意义。
12
2、回归/偏回归系数的检验 检验回归系数是否为零,每一个偏回归系数是
否为零。用t检验方法。 统计量
t bi sbi
自由度
v nm1
结论:回归/偏回归系数是否有意义,是否为零; 对应的自变量是否有意义。
20
八、线性回归分析实例
21
九、线性回归分析的注意事项
• 应用条件 • 样本量 • 自变量的观察范围 • 分类/等级变量
22
谢谢!
23
六、自变量的选择
• 强迫引入法(Enter) • 强迫剔除法(Remove) • 前进法(Forward) • 后退法(Backward) • 逐步向前法(Forward stepwise) • 逐步向后法(Backward stepwise)
19
七、线性回归的应用
• 预测 • 控制 • 鉴别影响因素
17
(3)残差的方差齐性检验 以上都是对残差的分析,称为残差分析。
残差分析还可以1)检出奇异点 2)评判预测效果。
(4)共线性诊断 •共线性(collinearity) •共线性的危害 •共线性的鉴别 容差(tolerance) 方差膨胀因子(variance inflation factor)
18
16
5、线性回归适用性检验 (1)回归模型残差的正态性检验 •残差的直方图 •残差的累积概率图(P-P图)
(2)回归模型残差的独立性检验 用Durbin--Watson检验,其参数称为Dw或D。 D的取值范围是0<D<4。其统计学意义为: D≈2,残差与自变量相互独立; D<2,残差与自变量正相关; D>2,残差与自变量负相关。
(x x)2
x2 ( x)2 / n lxx
a ybx y bx
n
n
多元线性回归时,比较复杂,一般需要用计算机 处理。
10
五、线性回归的检验
1、回归方程的检验 方差分析法:
应变量的总变异
_
( y y)2
可分解为 回归平方和(regression sum of squares):可用线
13
3、常数项(截距)的检验
检验常数项(截距)是否为零。
用t检验方法。 一元线性回归:
H0: =0
H1: 0
a t
sa v n2
14
多元线性回归: H0: 0=0
H1: 00
t b0 sb0
v n m 1
15
4、模型的预测效果检验
亦称回归模型的拟合优度检验。检验回归模型 对样本数据的拟合程度。
线性回归分析
公共卫生学院
1
一. 前言
回归分析的目的:
设法找出变量间的依存(数量)关系, 用函数关系 式表达出来
2
二、基本概念
1、应变量(dependent variable) 2、自变量(independent variable)
3、一元线性回归 直线回归方程的模型是:yi=a+bxi+ei
其中 (1)a是截距 (2)b是回归系数(regression coefficient)(回归直线的
的情况下,某一自变量每变化一个单位,应变量平均 变化的单位数。 如就数果等,所于用有符0,参号b加b11,‘分,b析b2,2的’,…变…,量,b都nbn就是‘表变标示成准。了化标的准变化量偏,回这归时系b0 bi’= bi*sxi/sy 由量于的b相i’没对有作量用纲大,小因。此可以相互比较大小,反映自变 (3) ei是残差
件期望值为0(本假设又称零均值假设); • 无自相关性:各随机误差项e互不相关;
7
• 残差e与自变量x不相关:随机误差项e与相 应的自变量x不相关;
• 无共线性:自变量x之间相互独立.
8
四、回归方程的建立
• 散点图 • 奇异点(ouliers) • 最小二乘法(least square, LS) • 残差平方和(sum of squares for residuals)
Q (yi yi )2 [ yi (a b xi )]2
多元线性回归:
Q (yi yi )2 [ yi (b0 b1 x1 b2 x2 bn xn )]2
9
一元线性回归时,计算比较简单:
b (x x) (y y) x y x y / n lxy
• 决定系数(determination coefficient)( R square)
^
R2
( y y)2
( y y)2
• 调整(校正)决定系数(adjusted R square)
R2
1
n 1
(1 R2 )
• 复相关系数R (multniplemcorrelation coefficient)
斜率) 回归系数的统计学意义是:自变量每变化一个单位,
应变量平均变化的单位数.
(3)ei是残差
3
因此直线回归方程的一般形式是:
^ห้องสมุดไป่ตู้
yi a bxi
•
其中
^
yi
是应变量y的预测值或称估计值。
4
4、多元线性回归 多元线性回归方程模型为: yi=b0+b1x1i+b2x2i+…+bnxni+ei
其中 (1) b有0是时常,数人项们,称是它各为自本变底量值都。等于0时,应变量的估计值。 (2) bco1,effbic2i,en…t ),,b其n是统偏计回学归意系义数是(在pe其rt它ial所re有gr自es变sio量n 不变
5
多元线性回归方程的一般形式是:
^
yi b0 b1x1i b2 x2i bn xni
其中的符号含义同前。
6
三、理论假设
• 自变量x与应变量y之间存在线性关系; • 正态性:随机误差(即残差)e服从均值为 0,
方差为2的正态分布; • 等方差:对于所有的自变量x,残差e的条件方
差为2 ,且为常数; • 独立性:在给定自变量x的条件下,残差e的条
性回归解释的部分
^_
(y y)2
11
剩余平方和(residual sum of squares):即残差平方 和,不能用线性回归解释的部分
^
( y y)2
以上三部分的自由度分别为n-1,m和n-m-1。其 中,n为样本数,m为自变量数。 方差分析的假设为
一元线性回归:H0: =0 多元线性回归:
H1: 0
H0: 1= 2=…= m=0 H1: 1, 2,…, m中至少有一个不等于零 因此方差分析的结论是线性回归方程是否显著, 是否有意义。
12
2、回归/偏回归系数的检验 检验回归系数是否为零,每一个偏回归系数是
否为零。用t检验方法。 统计量
t bi sbi
自由度
v nm1
结论:回归/偏回归系数是否有意义,是否为零; 对应的自变量是否有意义。
20
八、线性回归分析实例
21
九、线性回归分析的注意事项
• 应用条件 • 样本量 • 自变量的观察范围 • 分类/等级变量
22
谢谢!
23
六、自变量的选择
• 强迫引入法(Enter) • 强迫剔除法(Remove) • 前进法(Forward) • 后退法(Backward) • 逐步向前法(Forward stepwise) • 逐步向后法(Backward stepwise)
19
七、线性回归的应用
• 预测 • 控制 • 鉴别影响因素
17
(3)残差的方差齐性检验 以上都是对残差的分析,称为残差分析。
残差分析还可以1)检出奇异点 2)评判预测效果。
(4)共线性诊断 •共线性(collinearity) •共线性的危害 •共线性的鉴别 容差(tolerance) 方差膨胀因子(variance inflation factor)
18
16
5、线性回归适用性检验 (1)回归模型残差的正态性检验 •残差的直方图 •残差的累积概率图(P-P图)
(2)回归模型残差的独立性检验 用Durbin--Watson检验,其参数称为Dw或D。 D的取值范围是0<D<4。其统计学意义为: D≈2,残差与自变量相互独立; D<2,残差与自变量正相关; D>2,残差与自变量负相关。
(x x)2
x2 ( x)2 / n lxx
a ybx y bx
n
n
多元线性回归时,比较复杂,一般需要用计算机 处理。
10
五、线性回归的检验
1、回归方程的检验 方差分析法:
应变量的总变异
_
( y y)2
可分解为 回归平方和(regression sum of squares):可用线
13
3、常数项(截距)的检验
检验常数项(截距)是否为零。
用t检验方法。 一元线性回归:
H0: =0
H1: 0
a t
sa v n2
14
多元线性回归: H0: 0=0
H1: 00
t b0 sb0
v n m 1
15
4、模型的预测效果检验
亦称回归模型的拟合优度检验。检验回归模型 对样本数据的拟合程度。
线性回归分析
公共卫生学院
1
一. 前言
回归分析的目的:
设法找出变量间的依存(数量)关系, 用函数关系 式表达出来
2
二、基本概念
1、应变量(dependent variable) 2、自变量(independent variable)
3、一元线性回归 直线回归方程的模型是:yi=a+bxi+ei
其中 (1)a是截距 (2)b是回归系数(regression coefficient)(回归直线的
的情况下,某一自变量每变化一个单位,应变量平均 变化的单位数。 如就数果等,所于用有符0,参号b加b11,‘分,b析b2,2的’,…变…,量,b都nbn就是‘表变标示成准。了化标的准变化量偏,回这归时系b0 bi’= bi*sxi/sy 由量于的b相i’没对有作量用纲大,小因。此可以相互比较大小,反映自变 (3) ei是残差
件期望值为0(本假设又称零均值假设); • 无自相关性:各随机误差项e互不相关;
7
• 残差e与自变量x不相关:随机误差项e与相 应的自变量x不相关;
• 无共线性:自变量x之间相互独立.
8
四、回归方程的建立
• 散点图 • 奇异点(ouliers) • 最小二乘法(least square, LS) • 残差平方和(sum of squares for residuals)