一元线性回归方程 PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析
确定性关系或函数关系y =f (x)
变 量 间 的 关 系
非 确 定 性 关 系
人的身高和体重
x
家庭的收入和消费
商品的广告费和销售额
粮食的施肥量和产量
Y
相关关系
称这种非确定性关系为统计关系或相关(相依)关系.
第一章 一元线性回归模型
以下设 x 为自变量(普通变量) Y 为因变量(随机变 量) .现给定 x 的 n 个值 x1,…, xn, 观察 Y 得到相应的 n 个 值 y1,…,yn, (xi ,yi) i=1,2,…, n 称为样本点.
55 65
60 70
65 74
70ຫໍສະໝຸດ Baidu80
75 85
- 88
--
户数
56
总支出 325 462
120
79 84 90 94 98 - - 5
445
140
80 93 95 103 108 113 115 7
707
160
102 107 110 116 118 125
- 6
678
180
110 115 120 130 135 140
(1)Y0的预测区间
Y0 Yˆ0 的分布是:
Y0
Y0
~
N (0,
2 (1
1 n
(
X0 X )2 (Xi X )2
))
所以,Y0 的预测区间是:
Y0 t /2 (n 2)ˆ
1 1 n
(X0 X )2 (Xi X )2
(2)平均值E(Y0)的预测区间
Yˆ0 E(Y0 ) 的分布是:
四. 相关系数检验法
1. 提出原假设 2. 选择统计量
1 0
R lxy lxxl yy
3. 对给定的显著性水平α, 查临界值 rα (n-2),
得否定域为 |R | > rα (n-2);
§1.4 回归系数估计值的置信区间
由于:
P { ˆ1 1
sˆ1
t/2 (n-2) } = 1-
得:
= 1 kiE(ui ) = 1
类似可证
E(ˆ0) 0
3、有效性
0 ,1 的OLS估计量的方差比其他线性无偏估计量的方差都小。
Var(ˆ1) 2
ki2
2
Lxx
Var(ˆ0 )
(1 n
X2 Lxx
)
2
三、2 的估计
Var(Yi ) Var(0 1Xi i ) Var(i ) 2
N (0, 2 (1 ( X0 X )2 ))
n
(Xi X )2
所以,E(Y0) 的预测区间是:
Y0 t /2 (n 2)ˆ
1
n
(X0 X )2 (Xi X )2
3、控制问题
是预测的反问题
P(T1 Y T2 ) 1
如何控制X?
- 6
750
200
120 136 140 144 145
- - 5
685
220
135 137 140 152 157 160 162
7 104
3
240
137 145 155 165 175 189
- 6
966
260
150 152 175 178 180 185 191
5 121
1
描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y 的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。
Y
55
80 100 120140 160
X
二、随机误差项εi的假定条件
为了估计总体回归模型中的参数,需对随机误差项作出如下假定:
假定1:零期望假定:E(εi) = 0。 假定2:同方差性假定:Var(εi) = 2。 假定3:无序列相关假定:Cov(εi, εj) = 0, (i j )。 假定4: εi 服从正态分布,即εi N (0, 2 )。
三、OLSE回归直线的性质
统计性质
线性 无偏性 有效性
2 的估计
1、线性 这里指 ˆ0, ˆ1 都是Yi的线性函数。
证明: ˆ1 =
( Xi X )(Yi Y ) (Xi X )2
(Xi X )Yi Y (Xi X )
=
(Xi X )2
=
( Xi X )Yi (Xi X )2
SSE
H0: 1 0 H1: 1 0
F SSR /1 ~ F (1, n 2) SSE /(n 2)
拒绝域 F >Fα (1,n-2)
三、 用样本可决系数检验回归方程的拟合优度
R2
=
SSR SST
R2=0时 表明解释变量X与被解释变量Y之间不存在线性关系; R2=1时 表明样本回归线与样本值重合,这种情况极少发生; 一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。
Yi 0 1Xi i
(2)理论(真实的)回归直线:
E( Y | X i ) 0 1X i
(3)经验(估计的)回归模型:
Yi ˆ0 ˆ1Xi ei
(4)经验(估计的)回归直线:
Yˆi ˆ0 ˆ1Xi
对于参数的估计采用最小二乘估计法、最小二乘法的原则是以
“残差平方和最小” 确定直线位置(即估计参数)。(Q为残差平方
ˆ 令 ki
(Xi X) (Xi X )2
xi xi2
代入上式,得:
1
kiYi
同理可证:0也具有线性特性 。
2、无偏性
ki
(Xi - X) (Xi - X )2
xi xi2
证明: E(ˆ1) = E( kiYi ) = E [ki (0 1Xi i ] = 0E[ ki 1 ki Xi kii ] = 1E [ki (Xi X )] E (kiui )
和)
n
Q =
ei 2 =
i 1
n
(Yi Yˆi )2
i 1
=
n
( Yi ˆ 0 ˆ1X i )2
i 1
则通过Q最小确定这条直线,即确定 ˆ0, ˆ1 ,以 ˆ0, ˆ1 为变量,
把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求
导数得到。 求Q对 两个待估参数 的偏导数:
正规方程组
经验回归直线: Yˆi ˆ0 ˆ1Xi 其中: Yˆi 为Yi的估计值(拟合值); ˆ0, ˆ1 为 0 , 1 的估计值;
如果观测值到这条直线的纵向距离(真实值与估计值的偏差)用ei
表示(称为残差),则经验回归模型为:
Yi ˆ0 ˆ1Xi ei
(ei为εi的估计值)
注意:分清4个式子的关系 (1)理论(真实的)回归模型:
Xi ˆ1
X
2 i
ˆ1
(Xi X )(Yi Y ) (Xi X )2
ˆ0 Y ˆ1X
其中, X 和Y 分别为X、Y的均值
若记
则
n
Lxx ( Xi X )2 i 1 n
ˆ0 Y ˆ1X
Lyy (Yi Y )2
i 1
n
Lxy ( Xi X ) (Yi Y )
ˆ1
Lxy Lxx
理论回归模型:
Yi = 0 + 1 Xi + εi
其中: Yi——被解释变量; Xi——解释变量;
ε I ——随机误差项; 0,1—回归系数
随机变量ε i包含:
回归模型中省略的变量; 确定数学模型的误差; 测量误差
假设调查了某社区所有居民,他们的人均可支 配收入和消费支出数据如下:
X 80 100 Y
Q
ˆ 0
n
= 2 (Yi ˆ0 ˆ1X i )(1)
i 1
=0
即
Q
ˆ1
=
n
2 (Yi ˆ0 ˆ1X i )( X i ) = 0 i 1
ei 0 ei X i 0
根据以上两个偏导方程得以下正规方程 (Normal equation) :
Yi nˆ0 ˆ1 Xi
Yi Xi ˆ0
前三个条件称为G-M条件
§1.2 一元线性回归模型的参数估计
普通最小二乘法(Ordinary Least Squares) OLS回归直线的性质 OLSE的性质
一、普通最小二乘法
对于所研究的问题,通常真实的回归直线 E(Yi|Xi) = 0 + 1Xi 是观
测不到的。可以通过收集样本来对真实的回归直线做出估计。
以 (xi ,yi) 为坐标在平面直角坐标系中描点,所得到 的这张图便称之为散点图.
Y:人均食品支出
北京市城市居民家庭生活抽样调查图表
10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18
x:人均生活费收入
§1.1 模型的建立及其假定条件
一、一元线性回归模型
例如:研究某市可支配收入X对人均消费支出Y 的影响。建立如下
X2 Lxx
t /2(n
2), ˆ0
ˆ
1 n
X2 Lxx
t /2(n
2)
§1. 5 一元线性回归方程的预测和控制
点预测Yi 区间预测
(1)单个值Yi的区间预测 (2)均值E(Yi)的区间预测
控制
如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显 著不为0,则可以用回归方程进行预测和控制。
总体(随机误差项)真实方差2的无偏估计量:
ˆ 2 ˆi2 ei2
n2 n2
§1.3 回归方程的显著性检验
一、回归参数的显著性检验(t 检验)
首先,提出原假设和备择假设:
H0: 1 0
H1: 1 0
其次,确定并计算统计量:
t
ˆ1 1
S ˆ1
=
ˆ
ˆ1
Lxx
如果 如果
t t /2 (n 2) t t /2(n 2)
-t/2 (n-2) 0
P ˆ1 Sˆ1t /2(n 2) 1 ˆ1 Sˆ1t /2(n 2) 1
t/2 (n-2)
由大括号内不等式表示的1的1-α的置信区间为:
ˆ1
ˆ
Lxx
t /2 (n 2), ˆ1
ˆ
Lxx
t
/
2
(n
2)
同理,可,并求得 0 的置信区间为:
ˆ0
ˆ
1 n
i 1
二、OLS回归直线的性质
(1)估计的回归直线 Yˆi ˆ0 ˆ1Xi 过点 ( X ,Y ) .
(2)
ei 0 ei X i 0
(3) Yi 的拟合值的平均数等于其样本观测值的平均数 Yˆ Y .
Yˆ
1 n
n
Yˆi
i 1
=
1 n
n i 1
(ˆ0
ˆ1 X i
)
= ˆ0 ˆ1X = Y
不能拒绝H0: 1 0 ,认为X对Y没有显著影响。
拒绝H0 :1 0 ,认为X对Y有显著影响。
同理,可对 ˆ0 进行显著性检验。
二、回归方程的显著性检验(F检验)
(Y i Y )2 (Yˆi Y )2 (Y i Yˆi )2
总离差平方和 = 回归平方和 + 残差平方和
SST
=
SSR
+
1、点预测
假设X0为解释变量的一个已知点,则带入样本回归方程 Yˆt ˆ0 ˆ1Xi
即可得到Y0的估计值:
Yˆ0 ˆ0 ˆ1X0
2、区间预测
估计值 Yˆ0 是一个点预测值,它可以是(1)总体真值Y0的预测值; 也可以是(2)总体回归线E(Y 0 )的预测值。现在根据 Yˆ0 来对(1)
(2)进行区间预测。
确定性关系或函数关系y =f (x)
变 量 间 的 关 系
非 确 定 性 关 系
人的身高和体重
x
家庭的收入和消费
商品的广告费和销售额
粮食的施肥量和产量
Y
相关关系
称这种非确定性关系为统计关系或相关(相依)关系.
第一章 一元线性回归模型
以下设 x 为自变量(普通变量) Y 为因变量(随机变 量) .现给定 x 的 n 个值 x1,…, xn, 观察 Y 得到相应的 n 个 值 y1,…,yn, (xi ,yi) i=1,2,…, n 称为样本点.
55 65
60 70
65 74
70ຫໍສະໝຸດ Baidu80
75 85
- 88
--
户数
56
总支出 325 462
120
79 84 90 94 98 - - 5
445
140
80 93 95 103 108 113 115 7
707
160
102 107 110 116 118 125
- 6
678
180
110 115 120 130 135 140
(1)Y0的预测区间
Y0 Yˆ0 的分布是:
Y0
Y0
~
N (0,
2 (1
1 n
(
X0 X )2 (Xi X )2
))
所以,Y0 的预测区间是:
Y0 t /2 (n 2)ˆ
1 1 n
(X0 X )2 (Xi X )2
(2)平均值E(Y0)的预测区间
Yˆ0 E(Y0 ) 的分布是:
四. 相关系数检验法
1. 提出原假设 2. 选择统计量
1 0
R lxy lxxl yy
3. 对给定的显著性水平α, 查临界值 rα (n-2),
得否定域为 |R | > rα (n-2);
§1.4 回归系数估计值的置信区间
由于:
P { ˆ1 1
sˆ1
t/2 (n-2) } = 1-
得:
= 1 kiE(ui ) = 1
类似可证
E(ˆ0) 0
3、有效性
0 ,1 的OLS估计量的方差比其他线性无偏估计量的方差都小。
Var(ˆ1) 2
ki2
2
Lxx
Var(ˆ0 )
(1 n
X2 Lxx
)
2
三、2 的估计
Var(Yi ) Var(0 1Xi i ) Var(i ) 2
N (0, 2 (1 ( X0 X )2 ))
n
(Xi X )2
所以,E(Y0) 的预测区间是:
Y0 t /2 (n 2)ˆ
1
n
(X0 X )2 (Xi X )2
3、控制问题
是预测的反问题
P(T1 Y T2 ) 1
如何控制X?
- 6
750
200
120 136 140 144 145
- - 5
685
220
135 137 140 152 157 160 162
7 104
3
240
137 145 155 165 175 189
- 6
966
260
150 152 175 178 180 185 191
5 121
1
描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y 的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。
Y
55
80 100 120140 160
X
二、随机误差项εi的假定条件
为了估计总体回归模型中的参数,需对随机误差项作出如下假定:
假定1:零期望假定:E(εi) = 0。 假定2:同方差性假定:Var(εi) = 2。 假定3:无序列相关假定:Cov(εi, εj) = 0, (i j )。 假定4: εi 服从正态分布,即εi N (0, 2 )。
三、OLSE回归直线的性质
统计性质
线性 无偏性 有效性
2 的估计
1、线性 这里指 ˆ0, ˆ1 都是Yi的线性函数。
证明: ˆ1 =
( Xi X )(Yi Y ) (Xi X )2
(Xi X )Yi Y (Xi X )
=
(Xi X )2
=
( Xi X )Yi (Xi X )2
SSE
H0: 1 0 H1: 1 0
F SSR /1 ~ F (1, n 2) SSE /(n 2)
拒绝域 F >Fα (1,n-2)
三、 用样本可决系数检验回归方程的拟合优度
R2
=
SSR SST
R2=0时 表明解释变量X与被解释变量Y之间不存在线性关系; R2=1时 表明样本回归线与样本值重合,这种情况极少发生; 一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。
Yi 0 1Xi i
(2)理论(真实的)回归直线:
E( Y | X i ) 0 1X i
(3)经验(估计的)回归模型:
Yi ˆ0 ˆ1Xi ei
(4)经验(估计的)回归直线:
Yˆi ˆ0 ˆ1Xi
对于参数的估计采用最小二乘估计法、最小二乘法的原则是以
“残差平方和最小” 确定直线位置(即估计参数)。(Q为残差平方
ˆ 令 ki
(Xi X) (Xi X )2
xi xi2
代入上式,得:
1
kiYi
同理可证:0也具有线性特性 。
2、无偏性
ki
(Xi - X) (Xi - X )2
xi xi2
证明: E(ˆ1) = E( kiYi ) = E [ki (0 1Xi i ] = 0E[ ki 1 ki Xi kii ] = 1E [ki (Xi X )] E (kiui )
和)
n
Q =
ei 2 =
i 1
n
(Yi Yˆi )2
i 1
=
n
( Yi ˆ 0 ˆ1X i )2
i 1
则通过Q最小确定这条直线,即确定 ˆ0, ˆ1 ,以 ˆ0, ˆ1 为变量,
把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求
导数得到。 求Q对 两个待估参数 的偏导数:
正规方程组
经验回归直线: Yˆi ˆ0 ˆ1Xi 其中: Yˆi 为Yi的估计值(拟合值); ˆ0, ˆ1 为 0 , 1 的估计值;
如果观测值到这条直线的纵向距离(真实值与估计值的偏差)用ei
表示(称为残差),则经验回归模型为:
Yi ˆ0 ˆ1Xi ei
(ei为εi的估计值)
注意:分清4个式子的关系 (1)理论(真实的)回归模型:
Xi ˆ1
X
2 i
ˆ1
(Xi X )(Yi Y ) (Xi X )2
ˆ0 Y ˆ1X
其中, X 和Y 分别为X、Y的均值
若记
则
n
Lxx ( Xi X )2 i 1 n
ˆ0 Y ˆ1X
Lyy (Yi Y )2
i 1
n
Lxy ( Xi X ) (Yi Y )
ˆ1
Lxy Lxx
理论回归模型:
Yi = 0 + 1 Xi + εi
其中: Yi——被解释变量; Xi——解释变量;
ε I ——随机误差项; 0,1—回归系数
随机变量ε i包含:
回归模型中省略的变量; 确定数学模型的误差; 测量误差
假设调查了某社区所有居民,他们的人均可支 配收入和消费支出数据如下:
X 80 100 Y
Q
ˆ 0
n
= 2 (Yi ˆ0 ˆ1X i )(1)
i 1
=0
即
Q
ˆ1
=
n
2 (Yi ˆ0 ˆ1X i )( X i ) = 0 i 1
ei 0 ei X i 0
根据以上两个偏导方程得以下正规方程 (Normal equation) :
Yi nˆ0 ˆ1 Xi
Yi Xi ˆ0
前三个条件称为G-M条件
§1.2 一元线性回归模型的参数估计
普通最小二乘法(Ordinary Least Squares) OLS回归直线的性质 OLSE的性质
一、普通最小二乘法
对于所研究的问题,通常真实的回归直线 E(Yi|Xi) = 0 + 1Xi 是观
测不到的。可以通过收集样本来对真实的回归直线做出估计。
以 (xi ,yi) 为坐标在平面直角坐标系中描点,所得到 的这张图便称之为散点图.
Y:人均食品支出
北京市城市居民家庭生活抽样调查图表
10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18
x:人均生活费收入
§1.1 模型的建立及其假定条件
一、一元线性回归模型
例如:研究某市可支配收入X对人均消费支出Y 的影响。建立如下
X2 Lxx
t /2(n
2), ˆ0
ˆ
1 n
X2 Lxx
t /2(n
2)
§1. 5 一元线性回归方程的预测和控制
点预测Yi 区间预测
(1)单个值Yi的区间预测 (2)均值E(Yi)的区间预测
控制
如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显 著不为0,则可以用回归方程进行预测和控制。
总体(随机误差项)真实方差2的无偏估计量:
ˆ 2 ˆi2 ei2
n2 n2
§1.3 回归方程的显著性检验
一、回归参数的显著性检验(t 检验)
首先,提出原假设和备择假设:
H0: 1 0
H1: 1 0
其次,确定并计算统计量:
t
ˆ1 1
S ˆ1
=
ˆ
ˆ1
Lxx
如果 如果
t t /2 (n 2) t t /2(n 2)
-t/2 (n-2) 0
P ˆ1 Sˆ1t /2(n 2) 1 ˆ1 Sˆ1t /2(n 2) 1
t/2 (n-2)
由大括号内不等式表示的1的1-α的置信区间为:
ˆ1
ˆ
Lxx
t /2 (n 2), ˆ1
ˆ
Lxx
t
/
2
(n
2)
同理,可,并求得 0 的置信区间为:
ˆ0
ˆ
1 n
i 1
二、OLS回归直线的性质
(1)估计的回归直线 Yˆi ˆ0 ˆ1Xi 过点 ( X ,Y ) .
(2)
ei 0 ei X i 0
(3) Yi 的拟合值的平均数等于其样本观测值的平均数 Yˆ Y .
Yˆ
1 n
n
Yˆi
i 1
=
1 n
n i 1
(ˆ0
ˆ1 X i
)
= ˆ0 ˆ1X = Y
不能拒绝H0: 1 0 ,认为X对Y没有显著影响。
拒绝H0 :1 0 ,认为X对Y有显著影响。
同理,可对 ˆ0 进行显著性检验。
二、回归方程的显著性检验(F检验)
(Y i Y )2 (Yˆi Y )2 (Y i Yˆi )2
总离差平方和 = 回归平方和 + 残差平方和
SST
=
SSR
+
1、点预测
假设X0为解释变量的一个已知点,则带入样本回归方程 Yˆt ˆ0 ˆ1Xi
即可得到Y0的估计值:
Yˆ0 ˆ0 ˆ1X0
2、区间预测
估计值 Yˆ0 是一个点预测值,它可以是(1)总体真值Y0的预测值; 也可以是(2)总体回归线E(Y 0 )的预测值。现在根据 Yˆ0 来对(1)
(2)进行区间预测。