第一章 回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
给出临界值(多元线性回归显著性检验复相关系
数临界值表), R( p, n p 1)
当R R( p, n p 1),
多元线性回归显著,否则不显著
检验第j个自变量对Y影响是否显著
进行t检验:
bk
t
cjj ~ t(n p 1)
SSE n p 1
当t t (n p 1)时,
x
2
t
t
2
2
说明第j个自变量对Y影响显著,应保留,否则说明第
n
( 0 1 xi yi ) 2 i 1
请问:残差平方和表示什么?
求出常数项和回归系数
(2)确定系数,使残差达到最小(最小二乘法) 为什求怎么导么?数做并令?导数为零
Q
0
n
2 (0 1xi
i 1
yi ) 0
Q
1
n
2 (0
i 1
1xi
yi )( xi ) 0
解得:
0 y 1x
型。 ⅱ)纳新法(向前法forward) 与淘汰法相反,先选少量自变量进入模型,然后
一个一个地使用引进变量方法,把新变量引进到模型 中来,一直到不能引进为止。
ⅲ)逐步回归法(吐故纳新法)(有进有出法 stepwise)
在淘汰中,一旦变量被剔除模型,往后就没有机 会再进入模型;在纳新法中,一旦变量被选进模型, 往后就不会被淘汰出模型。然后,由于变量之间相关 的复杂性,当某个变量被淘汰后,早先被淘汰的变量 可能就会显得重要;或者当新的一个变量被引进后, 原先已在模型中的变量或许就不重要了。为了改善这 两种方法的各自缺点,逐步回归法把两个方法结合起 来,交替使用做到了“扬长避短”。逐步回归是目前 国内使用较多的一种方法。
❖ 样本相关系数的特点:
(1) |r|≤1 (2) r>0,则X与Y正相关;
r<0,X与Y负相关; (3 ) |r|=1时,X与Y典型线性关系 (4 ) r=0 , X与Y不相关(没线性关系) (5) |r| 越大,线性相关关系越显著。
样本相关系数特点
检验线性相关关系的步骤
(1) 计算r值; (2) 临界值 rα(n-2) (3)当|r| ≥rα(n-2)时,X与Y的线 性相关关系显著,否则,不显著。
0 1
k
1
2
n
则模型矩阵表示为
y X
1.2.2 参数估计
利用最小二乘法,得 的估计量b
b (X X )1 X y
例、设因变量y与其有关的自变量x1,x2得下表所示的数据:
样本号
因变量
回归变量
(年份)
y
x1
x2
1
8
0.5
6
2
9
0.5
8
3
12
0.7
10
4
11
0.5
12
5
13
0.8
样本决定系数法
❖样本决定系数:
r 2 SSR Lxy
SST
Lxx L yy
样本决定系数=(样本相关系数)2
3.T检验法
❖ t统计量:
t ˆ1 ˆ
Lxx
t (n 2)
2
t (n 2)
2
~ t(n 2)
其中ˆ
Q
n2
| t | t (n 2)时,拒绝假设H 0;
2
即认为回归关系显著
回归分析的显著性检验的例题
SST SSR SSE
构造检验统计量
U F fU
U 1
~ F(1, n 2)
QQ
fQ n 2
SSR
或:F
1 ~ F (1, n 2)
SSE
n2
当F F(1, n 2)时,
拒绝H 0
即回归关系显著
2.样本相关系数法
❖ 样本相关系数:
大小能反映 X与Y间的相
r
Lxy
关关系
Lxx L yy
试求树高y对胸径x的经验回归方程。
yˆ 解:设回归方程为: 0 1 x
经计算得:
n
xi 72.10
i 1
n
yi 78.00
i 1
n
xi yi 588.00
i 1
第一行数据之和 第二行数据之和
两行数据交叉 乘积之和
计算平方和得:
X的离差平方和 n
Lxx (xi x)2 28.11 i 1 n
2) i ~ N (0, 2 ) Yi ~ N ( 0 1 xi , 2 )
3) Cov( i , j ) 0
Cov(Yi , Yj ) 0
正态,独立,等方差
1.1.2 参数估计
1. 普通最小二乘法(OLSE)
求出常数项和回归系数
(1)构回造归残值差平方和:
实测值
n
Q ( yˆi yi ) 2 i 1
Lxy (xi x)(yi y) 25.62 i1
X和Y的协方差
所以:
ˆ1
Lxy Lxx
25.62 0.91 28.11
ˆ0 y ˆ1x 1.23
所求回归方程为:
yˆ 1.23 0.91x
1.1.3 一元线性回归的显著性检验
H 0 : 1 0; H1 : 1 0
3种方法
例:检验例9.2.1的线性关系是否显著 解:计算样本相关系数
r Lxy 25.62 25.62 0.92 Lxx Lyy 28.11 27.44 27.77
查表得临界值 r0.01(8)=0.7646 ∵ r> r0.01(8) ∴ 线性关系极显著
1.1.4 利用回归方程预测
当X x0时,预报量y0的估计
1.方差分析法(F检验) 2.样本相关系数法(r 检验) 3. T检验
❖ 1.方差分析法(F检验):
总的离差平方和:
n
SST Lyy ( yi y) 2
i 1
n
n
( yˆi y) 2 ( yˆi yi ) 2
i 1
i 1
回归平方和 U=SSR
Lyy U Q
残差平方 和Q=SSE
在逐步回归中,首先用纳新法引入一个变量, 而后对早先已进入模型中的变量使用淘汰法,淘汰 不显著变量,一直到不能淘汰,再用纳新法,引进 新变量纳新法每次只能引进一个变量,即转入淘汰 法程序,而淘汰法可连续多次使用。如此循环,一 直到既不能纳新也不能淘汰才终止运算程序,选出 最终模型。
12
6
17
1.2
12
(7)
?
(1.7)
(14)
如果y与x1,x2的线性模型是
y 0 1x1 2x2
(1)求回归方程y=b0+b1x1+b2x2 (2)预测当x1=1.7,x2=14时,y的估计值 (3)计算残差。
由公式 b ( X X )1 X y 即可算出 b
b0 1.02
b
j个自变量对Y影响不显著,可以剔除;
如果同时有几个预报因子经检验都不显著,则先剔除
|t|值最小的预报因子,每次只能剔除一个预报因子。
剔除和引进变量的方法 ⅰ)淘汰法(向后法backward)
这种程序基本思想是,根据给定问题的实际情况
考虑,把所有可供选择的自变量都放进模型中,尔后
逐个剔除,直到不能再剔除为止。最后即为所选的模
b1
8.67
b2 0.46
故所求回归方程为
其中
1 1
1 X 1
1 1
0.5 0.5 0.7 0.5 0.8 1.2
6
8
10
12
12 12
yˆ 1.02 8.67x1 0.46x2
当x1=1.7,x2=14时,y的预报值为
yˆ 1.021 8.671.7 0.4614 22.1
样本 因变
号
量
x1
回归变量
x2
x3
……
xk
1
y1
x11
x12
x13
……
x1k
2
y2
x21
x22
x23
……
ቤተ መጻሕፍቲ ባይዱ
x2k
┋
┋
┋
┋
┋
……
┋
n
yn
xn1
xn2
xn3
……
xnk
令
y1
1
y
y2
yn
X
1 1
x11 x21 xn1
x12 x22 xn 2
x13 x23 xn3
x1k
x2k xnk
i 1
i 1
i 1
n
比 记 忆
n
公
n
n
( xi ) 2 式
Lxx
(xi x)2
xi2
i 1
i 1
i 1
n
求回归方程的例题
例 设从某油松林地随机抽得10株油 松,测得胸径与树高如下表所示:
胸径x (cm)
4.2
5.1
5.9
6.5
7.3
8.1
8.6
9.0
9.7
树高y
(m)
5.7 4.6 6.4 7.8 7.5 8.4 9.2 9.5 9.6
临界值 显 著 性
Fα(fR, fE) ** * -
总 SST fT=n-1 和
(二)复相关系数法
回归平方和在总平方和中所占份额,即 R2 SSR SST 可用来评价模型的有效性,称R为复相关系数, R越大,反映回归变量与因变量之间线性关系密切。 一般0≤R≤1,但R要多大才认为线性关系存在呢?要
我们可以通过回归方程计算出每一样点上的残差 为:-0.1,0.0,0.3,0.1,-0.4,0.1
于是残差平方和 =0.27
x
1.2.3 方差分析与回归参数检验
x
回归的显著性检验
(一) 方差分析法
在讨论检验之前,先介绍几种平方和:
1. 残差平方和
n
SS E (yi yˆi ) 2
i1
1 Lxy Lxx
其中:
x
1 n
n i 1
xi
预报因子
平均值
y
1 n
n i 1
yi
预报量平
均值
几个平方和记为:
n
n
n
n
( xi )( yi) 注
Lxy (xi x)( yi y) xi yi i1
i1
i1
i1
n
意 对
n
n
n
( yi )2
Lyy
( yi y)2
yi2
第一章 回归分析
❖回归分析:
研究处于同一总体中两个或两个以上变量 之间的相关关系的数学工具。
❖ 相关关系
1. 确定关系(函数关系) 如:U=IR··· 2. 相关关系(不确定关系)
如:树高与胸径, 产量 与施肥量的关系。
相关关系与回归关系
相关关系——如给定X的任一具体取值,
对应的Y是一随机变量,服从一定的概率分布; 同时给定Y的任一个具体取值时,对应的X是 一随机变量,服从一定的概率分布.
步骤:
(i)估计值:
yˆ0 ˆ0 ˆ1x0
(ii) 误差限:( yˆ0 ) t (n 2) ˆ
1 1 (x0 x)2
n
Lxx
其中:ˆ Q ( yi yˆi )2
n2
n2
(iii )可靠性:1
(iv)预测区间: [ yˆ0 ( yˆ0 ),
yˆ0 ( yˆ0 ) ]
§1 .2 多元回归
1.2.1 多元回归概述
因变量(响应变量)为 y (一个), 自变量(回归变量)为xi(i=1,2,…,k)(多个), 多元线性回归模型:
Y 0 1x1 2 x2 k xk
其中β0称为截距 βi (i=1,2,…,k)叫做偏回归系数, ε叫做误差
如果对各自变量及相应的因变量观测了n次,得到 如下表所示的样本:
回归关系——相关关系中,如果X容易确
定或可控制,即为非随机变量,Y是随机变量, 则称Y对X存在回归关系。
X:预报因子
Y:预报量
§1 .1 一元回归
• 1.1.1 回归分析概述
❖ 回归函数( 回归方程) 自
变
因变量
量
yˆ E(Y X x) (x)
自变量:预报因子的取值 因变量:预报量的期望(均值)
回归函数是线性函数。
一元线性回归
自变量为一个(一元),回归函数是线性的。
设回归方程的形式为:常数项
回归系数
yˆ 0 1 x
一元线性回归方程模型
Y 0 1x
关键:求出常数项和一次项系数(回归系数) 办法:由样本观测值,估计出直线方程。
一元线性回归满足的前提
1) Yi 0 1 xi i
问题1:回归方程有何意义? 问题2:如何求得回归方程?
❖ 回归模型
Y (x)
❖ 回归函数 yˆ E(Y X x) (x)
实际中,回归函数不易得到,用如下办法确定: (1)先确定形式:用专业知识或散点图; (2)确定系数:用最小二乘法
散点图:把观测数据用散点
表示在平面直角坐标上
X与У之间具有线性回 归关系,散点图呈线性,
( y Xb )( y Xb )
2. 总平方和
SST yy T 2 n n ( yi y)2 i 1
n
T yi i1
3.回归平方和
SSR
SST
SSRe
yXb
T2 n
反映模型的贡献,称为SSR
回归平方和的自由度,记为 fR=k 残差平方和的自由度,记为fE=n-k-1 进行 F检验:
F MSR ~ F ( fR, fE) MSE
当F F( fR , f E )时,
我们就认为回归关系在α水平上是显著的; 换句话说,模型在一定程度上反映了y与 之间的相关关系。
方差分析表
变离 差差 来平 源方
和
自由度
回 SSR fR=k 归
残 SSE fE=n-k-1 差
均方 F值
MSR F= MSR/ MSE MSE
数临界值表), R( p, n p 1)
当R R( p, n p 1),
多元线性回归显著,否则不显著
检验第j个自变量对Y影响是否显著
进行t检验:
bk
t
cjj ~ t(n p 1)
SSE n p 1
当t t (n p 1)时,
x
2
t
t
2
2
说明第j个自变量对Y影响显著,应保留,否则说明第
n
( 0 1 xi yi ) 2 i 1
请问:残差平方和表示什么?
求出常数项和回归系数
(2)确定系数,使残差达到最小(最小二乘法) 为什求怎么导么?数做并令?导数为零
Q
0
n
2 (0 1xi
i 1
yi ) 0
Q
1
n
2 (0
i 1
1xi
yi )( xi ) 0
解得:
0 y 1x
型。 ⅱ)纳新法(向前法forward) 与淘汰法相反,先选少量自变量进入模型,然后
一个一个地使用引进变量方法,把新变量引进到模型 中来,一直到不能引进为止。
ⅲ)逐步回归法(吐故纳新法)(有进有出法 stepwise)
在淘汰中,一旦变量被剔除模型,往后就没有机 会再进入模型;在纳新法中,一旦变量被选进模型, 往后就不会被淘汰出模型。然后,由于变量之间相关 的复杂性,当某个变量被淘汰后,早先被淘汰的变量 可能就会显得重要;或者当新的一个变量被引进后, 原先已在模型中的变量或许就不重要了。为了改善这 两种方法的各自缺点,逐步回归法把两个方法结合起 来,交替使用做到了“扬长避短”。逐步回归是目前 国内使用较多的一种方法。
❖ 样本相关系数的特点:
(1) |r|≤1 (2) r>0,则X与Y正相关;
r<0,X与Y负相关; (3 ) |r|=1时,X与Y典型线性关系 (4 ) r=0 , X与Y不相关(没线性关系) (5) |r| 越大,线性相关关系越显著。
样本相关系数特点
检验线性相关关系的步骤
(1) 计算r值; (2) 临界值 rα(n-2) (3)当|r| ≥rα(n-2)时,X与Y的线 性相关关系显著,否则,不显著。
0 1
k
1
2
n
则模型矩阵表示为
y X
1.2.2 参数估计
利用最小二乘法,得 的估计量b
b (X X )1 X y
例、设因变量y与其有关的自变量x1,x2得下表所示的数据:
样本号
因变量
回归变量
(年份)
y
x1
x2
1
8
0.5
6
2
9
0.5
8
3
12
0.7
10
4
11
0.5
12
5
13
0.8
样本决定系数法
❖样本决定系数:
r 2 SSR Lxy
SST
Lxx L yy
样本决定系数=(样本相关系数)2
3.T检验法
❖ t统计量:
t ˆ1 ˆ
Lxx
t (n 2)
2
t (n 2)
2
~ t(n 2)
其中ˆ
Q
n2
| t | t (n 2)时,拒绝假设H 0;
2
即认为回归关系显著
回归分析的显著性检验的例题
SST SSR SSE
构造检验统计量
U F fU
U 1
~ F(1, n 2)
fQ n 2
SSR
或:F
1 ~ F (1, n 2)
SSE
n2
当F F(1, n 2)时,
拒绝H 0
即回归关系显著
2.样本相关系数法
❖ 样本相关系数:
大小能反映 X与Y间的相
r
Lxy
关关系
Lxx L yy
试求树高y对胸径x的经验回归方程。
yˆ 解:设回归方程为: 0 1 x
经计算得:
n
xi 72.10
i 1
n
yi 78.00
i 1
n
xi yi 588.00
i 1
第一行数据之和 第二行数据之和
两行数据交叉 乘积之和
计算平方和得:
X的离差平方和 n
Lxx (xi x)2 28.11 i 1 n
2) i ~ N (0, 2 ) Yi ~ N ( 0 1 xi , 2 )
3) Cov( i , j ) 0
Cov(Yi , Yj ) 0
正态,独立,等方差
1.1.2 参数估计
1. 普通最小二乘法(OLSE)
求出常数项和回归系数
(1)构回造归残值差平方和:
实测值
n
Q ( yˆi yi ) 2 i 1
Lxy (xi x)(yi y) 25.62 i1
X和Y的协方差
所以:
ˆ1
Lxy Lxx
25.62 0.91 28.11
ˆ0 y ˆ1x 1.23
所求回归方程为:
yˆ 1.23 0.91x
1.1.3 一元线性回归的显著性检验
H 0 : 1 0; H1 : 1 0
3种方法
例:检验例9.2.1的线性关系是否显著 解:计算样本相关系数
r Lxy 25.62 25.62 0.92 Lxx Lyy 28.11 27.44 27.77
查表得临界值 r0.01(8)=0.7646 ∵ r> r0.01(8) ∴ 线性关系极显著
1.1.4 利用回归方程预测
当X x0时,预报量y0的估计
1.方差分析法(F检验) 2.样本相关系数法(r 检验) 3. T检验
❖ 1.方差分析法(F检验):
总的离差平方和:
n
SST Lyy ( yi y) 2
i 1
n
n
( yˆi y) 2 ( yˆi yi ) 2
i 1
i 1
回归平方和 U=SSR
Lyy U Q
残差平方 和Q=SSE
在逐步回归中,首先用纳新法引入一个变量, 而后对早先已进入模型中的变量使用淘汰法,淘汰 不显著变量,一直到不能淘汰,再用纳新法,引进 新变量纳新法每次只能引进一个变量,即转入淘汰 法程序,而淘汰法可连续多次使用。如此循环,一 直到既不能纳新也不能淘汰才终止运算程序,选出 最终模型。
12
6
17
1.2
12
(7)
?
(1.7)
(14)
如果y与x1,x2的线性模型是
y 0 1x1 2x2
(1)求回归方程y=b0+b1x1+b2x2 (2)预测当x1=1.7,x2=14时,y的估计值 (3)计算残差。
由公式 b ( X X )1 X y 即可算出 b
b0 1.02
b
j个自变量对Y影响不显著,可以剔除;
如果同时有几个预报因子经检验都不显著,则先剔除
|t|值最小的预报因子,每次只能剔除一个预报因子。
剔除和引进变量的方法 ⅰ)淘汰法(向后法backward)
这种程序基本思想是,根据给定问题的实际情况
考虑,把所有可供选择的自变量都放进模型中,尔后
逐个剔除,直到不能再剔除为止。最后即为所选的模
b1
8.67
b2 0.46
故所求回归方程为
其中
1 1
1 X 1
1 1
0.5 0.5 0.7 0.5 0.8 1.2
6
8
10
12
12 12
yˆ 1.02 8.67x1 0.46x2
当x1=1.7,x2=14时,y的预报值为
yˆ 1.021 8.671.7 0.4614 22.1
样本 因变
号
量
x1
回归变量
x2
x3
……
xk
1
y1
x11
x12
x13
……
x1k
2
y2
x21
x22
x23
……
ቤተ መጻሕፍቲ ባይዱ
x2k
┋
┋
┋
┋
┋
……
┋
n
yn
xn1
xn2
xn3
……
xnk
令
y1
1
y
y2
yn
X
1 1
x11 x21 xn1
x12 x22 xn 2
x13 x23 xn3
x1k
x2k xnk
i 1
i 1
i 1
n
比 记 忆
n
公
n
n
( xi ) 2 式
Lxx
(xi x)2
xi2
i 1
i 1
i 1
n
求回归方程的例题
例 设从某油松林地随机抽得10株油 松,测得胸径与树高如下表所示:
胸径x (cm)
4.2
5.1
5.9
6.5
7.3
8.1
8.6
9.0
9.7
树高y
(m)
5.7 4.6 6.4 7.8 7.5 8.4 9.2 9.5 9.6
临界值 显 著 性
Fα(fR, fE) ** * -
总 SST fT=n-1 和
(二)复相关系数法
回归平方和在总平方和中所占份额,即 R2 SSR SST 可用来评价模型的有效性,称R为复相关系数, R越大,反映回归变量与因变量之间线性关系密切。 一般0≤R≤1,但R要多大才认为线性关系存在呢?要
我们可以通过回归方程计算出每一样点上的残差 为:-0.1,0.0,0.3,0.1,-0.4,0.1
于是残差平方和 =0.27
x
1.2.3 方差分析与回归参数检验
x
回归的显著性检验
(一) 方差分析法
在讨论检验之前,先介绍几种平方和:
1. 残差平方和
n
SS E (yi yˆi ) 2
i1
1 Lxy Lxx
其中:
x
1 n
n i 1
xi
预报因子
平均值
y
1 n
n i 1
yi
预报量平
均值
几个平方和记为:
n
n
n
n
( xi )( yi) 注
Lxy (xi x)( yi y) xi yi i1
i1
i1
i1
n
意 对
n
n
n
( yi )2
Lyy
( yi y)2
yi2
第一章 回归分析
❖回归分析:
研究处于同一总体中两个或两个以上变量 之间的相关关系的数学工具。
❖ 相关关系
1. 确定关系(函数关系) 如:U=IR··· 2. 相关关系(不确定关系)
如:树高与胸径, 产量 与施肥量的关系。
相关关系与回归关系
相关关系——如给定X的任一具体取值,
对应的Y是一随机变量,服从一定的概率分布; 同时给定Y的任一个具体取值时,对应的X是 一随机变量,服从一定的概率分布.
步骤:
(i)估计值:
yˆ0 ˆ0 ˆ1x0
(ii) 误差限:( yˆ0 ) t (n 2) ˆ
1 1 (x0 x)2
n
Lxx
其中:ˆ Q ( yi yˆi )2
n2
n2
(iii )可靠性:1
(iv)预测区间: [ yˆ0 ( yˆ0 ),
yˆ0 ( yˆ0 ) ]
§1 .2 多元回归
1.2.1 多元回归概述
因变量(响应变量)为 y (一个), 自变量(回归变量)为xi(i=1,2,…,k)(多个), 多元线性回归模型:
Y 0 1x1 2 x2 k xk
其中β0称为截距 βi (i=1,2,…,k)叫做偏回归系数, ε叫做误差
如果对各自变量及相应的因变量观测了n次,得到 如下表所示的样本:
回归关系——相关关系中,如果X容易确
定或可控制,即为非随机变量,Y是随机变量, 则称Y对X存在回归关系。
X:预报因子
Y:预报量
§1 .1 一元回归
• 1.1.1 回归分析概述
❖ 回归函数( 回归方程) 自
变
因变量
量
yˆ E(Y X x) (x)
自变量:预报因子的取值 因变量:预报量的期望(均值)
回归函数是线性函数。
一元线性回归
自变量为一个(一元),回归函数是线性的。
设回归方程的形式为:常数项
回归系数
yˆ 0 1 x
一元线性回归方程模型
Y 0 1x
关键:求出常数项和一次项系数(回归系数) 办法:由样本观测值,估计出直线方程。
一元线性回归满足的前提
1) Yi 0 1 xi i
问题1:回归方程有何意义? 问题2:如何求得回归方程?
❖ 回归模型
Y (x)
❖ 回归函数 yˆ E(Y X x) (x)
实际中,回归函数不易得到,用如下办法确定: (1)先确定形式:用专业知识或散点图; (2)确定系数:用最小二乘法
散点图:把观测数据用散点
表示在平面直角坐标上
X与У之间具有线性回 归关系,散点图呈线性,
( y Xb )( y Xb )
2. 总平方和
SST yy T 2 n n ( yi y)2 i 1
n
T yi i1
3.回归平方和
SSR
SST
SSRe
yXb
T2 n
反映模型的贡献,称为SSR
回归平方和的自由度,记为 fR=k 残差平方和的自由度,记为fE=n-k-1 进行 F检验:
F MSR ~ F ( fR, fE) MSE
当F F( fR , f E )时,
我们就认为回归关系在α水平上是显著的; 换句话说,模型在一定程度上反映了y与 之间的相关关系。
方差分析表
变离 差差 来平 源方
和
自由度
回 SSR fR=k 归
残 SSE fE=n-k-1 差
均方 F值
MSR F= MSR/ MSE MSE