一元线性回归方程PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以下设 x 为自变量(普通变量 Y 为因变量(随机变 普通变量) 普通变量 随机变 量) .现给定 x 的 n 个值 x1,…, xn, 观察 Y 得到相应的 n 个 值 y1,…,yn, (xi ,yi) i=1,2,…, n 称为样本点 样本点. 样本点 以 (xi ,yi) 为坐标在平面直角坐标系中描点,所得到 的这张图便称之为散点图 散点图. 散点图
北京市城市居民家庭生活抽样调查图表 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18
x:人均生活费收入
Y:人均食品支出
§1.1 模型的建立及其假定条件
一、一元线性回归模型
例如:研究某市可支配收入X对人均消费支出 的影响。建立如下 例如:研究某市可支配收入 对人均消费支出Y 的影响。 对人均消费支出
∑Y
i
ˆ ˆ = nβ 0 + β1 ∑ X i
ˆ ˆ Yi X i = β 0 ∑ X i + β1 ∑ X i2 ∑
ˆ β1 = ∑ ( X i − X )(Yi − Y ) ( X i − X )2 ∑
ˆ ˆ β 0 = Y − β1 X
其中, X 和Y 分别为X 、Y的均值
若记

n i=1 n
Y
55 80 100 120140 160
X
二、随机误差项εi的假定条件 随机误差项
为了估计总体回归模型中的参数,需对随机误差项作出如下假定: 为了估计总体回归模型中的参数,需对随机误差项作出如下假定: 假定1: 假定 :零期望假定:E(εi) = 0。 。 假定2: 假定 :同方差性假定:Var(εi) = σ 2。 假定3: 假定 :无序列相关假定:Cov(εi, εj) = 0, (i ≠ j )。 。 假定4: 假定 : εi 服从正态分布,即εi ∼ N (0, σ 2 )。 。
首先,提出原假设和备择假设: 首先,提出原假设和备择假设: H0: β1 = 0 H1: β1 ≠ 0 其次,确定并计算统计量: 其次,确定并计算统计量:
t=
如果 如果
ˆ β1 − β1 S βˆ
1

ˆ β1 ˆ σ L xx
t < tα / 2 (n − 2) t > tα / 2 (n − 2)
不能拒绝H 认为X 没有显著影响。 不能拒绝 0: β1 = 0 ,认为X对Y没有显著影响。 拒绝H β 拒绝 0 : 1
= 0 ,认为X对Y有显著影响。 认为X 有显著影响。
ˆ 进行显著性检验。 同理, 同理,可对 β 0 进行显著性检验。
二、回归方程的显著性检验(F检验) 回归方程的显著性检验( 检验)
ˆ ˆ (Y i −Y )2 = ∑ (Yi − Y )2 + ∑ (Y i −Yi )2 ∑
总离差平方和 = 回归平方和 + 残差平方和
SST
=
SSR H1: β1 ≠ 0
+
SSE
H0: β1 = 0
SSR /1 F= ~ F(1 n − 2) , SSE /(n − 2)
拒绝域
F >Fα (1,n-2)
ˆ E ( β0 ) = β0
=
β1
3、有效性 、
估计量的方差比其他线性无偏估计量的方差都小。 β0 ,β1 的OLS估计量的方差比其他线性无偏估计量的方差都小。 估计量的方差比其他线性无偏估计量的方差都小
ˆ Var ( β1 ) = σ 2 ∑ ki2 =
σ2
Lxx
1 X2 2 ˆ Var ( β 0 ) = ( + )σ n Lxx
ˆ ˆ = β 0 + β 1X i
过点
( X ,Y )
.
∑ ei = 0 ∑ ei X i = 0
ˆ Y =Y
.
(3) Yi 的拟合值的平均数等于其样本观测值的平均数 )
1 n ˆ = 1 ˆ Y = ∑ Yi n n i =1
=
∑ (βˆ
i =1
n
0
ˆ + β1 X i )
=
ˆ ˆ β 0 + β1 X
经验回归直线: ˆ ˆ ˆ 经验回归直线: Yi = β 0 + β1 X i
的估计值; 其中: ˆ 的估计值(拟合值); ˆ ˆ 其中: Yi 为Yi的估计值(拟合值); β 0 , β1 为 β0 , β1 的估计值; 如果观测值到这条直线的纵向距离(真实值与估计值的偏差) 如果观测值到这条直线的纵向距离(真实值与估计值的偏差)用ei 表示(称为残差),则 表示(称为残差),则经验回归模型为: ),
三、 用样本可决系数检验回归方程的拟合优度
R2
SSR = SST
R2=0时 表明解释变量X与被解释变量Y之间不存在线性关系; 表明解释变量X与被解释变量Y之间不存在线性关系; R2=1时 表明样本回归线与样本值重合,这种情况极少发生; 表明样本回归线与样本值重合,这种情况极少发生; 的解释能力越强。 一般情况下, 越接近1表示拟合程度越好, 一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。
xi xi2 ∑ቤተ መጻሕፍቲ ባይዱ
ˆ E ( β1 ) = E (∑ kiYi )
= = = =
类似可证
E ∑[ki ( β0 + β1 X i + ε i ]
β0 E[∑ ki + β1 ∑ ki X i + ∑ kiε i ] β1 E ∑ [ki ( X i − X )] + E ∑ (ki ui )
β1 + ∑ ki E (ui )
∂Q ˆ ∂β
正规方程组
ˆ ˆ = 2∑ (Yi − β 0 − β1 X i )(−1) = 0
i =1
n
0
n ∂Q ˆ ˆ = 2∑ (Yi − β 0 − β1 X i )(− X i ) = 0 ˆ ∂β1 i =1

∑ ei = 0 ∑ ei X i = 0
根据以上两个偏导方程得以下正规方程 正规方程 (Normal equation) :
160 102 107 110 116 118 125 - 6 678
180 110 115 120 130 135 140 - 6 750
200 120 136 140 144 145 - - 5 685
220 135 137 140 152 157 160 162 7 104 3
240 137 145 155 165 175 189 - 6 966
ˆ ˆ Yi = β 0 + β1 X i + ei
的估计值) (ei为εi的估计值)
注意:分清 个式子的关系 注意:分清4个式子的关系 (1)理论(真实的)回归模型: )理论(真实的)回归模型:
Yi = β0 + β1 Xi + ε i
(2)理论(真实的)回归直线: )理论(真实的)回归直线:
E( Y | Xi ) = β0 + β1 Xi
假设调查了某社区所有居民, 假设调查了某社区所有居民,他们的人均可支 配收入和消费支出数据如下: 配收入和消费支出数据如下:
X Y
80 55 60 65 70 75 - -
100 65 70 74 80 85 88 - 6 462
120 79 84 90 94 98 - - 5 445
140 80 93 95 103 108 113 115 7 707
i i i 2 i
∑ ( X − X )Y ∑(X − X )
i i
i 2
(Xi − X ) = 2 ∑ (Xi − X )
xi xi2 ∑
代入上式, 代入上式,得:
ˆ β1 = ∑ kiYi
同理可证: 同理可证:β0也具有线性特性 。
2、无偏性 、
证明: 证明:
(Xi - X ) ki = = 2 ∑ (Xi - X )
理论回归模型:
Yi = β0 + β1 Xi + εi
其中: ——被解释变量 被解释变量; ——解释变量 解释变量; 其中: Yi——被解释变量; Xi——解释变量;
ε I ——随机误差项; 随机误差项; 随机误差项
包含: 随机变量ε i包含:
β0,β1—回归系数 回归系数
回归模型中省略的变量; 回归模型中省略的变量 确定数学模型的误差; 确定数学模型的误差; 测量误差
四. 相关系数检验法
1. 提出原假设 2. 选择统计量
β1 = 0
R=
lxy lxxl yy
3. 对给定的显著性水平α, 查临界值 rα (n-2), 得否定域为 |R | > rα (n-2);
§1.4 回归系数估计值的置信区间
由于: 由于:
P{ 得:
ˆ β1 − β1 sβ ˆ
1
≤ tα/2 (n-2) } = 1- α -tα/2 (n-2) 0 tα/2 (n-2)
ˆ ˆ P β1 − S βˆ t α / 2 (n − 2) ≤ β1 ≤ β1 + S βˆ t α / 2 (n − 2) = 1 − α
1 1
{
}
由大括号内不等式表示的β1的1-α的置信区间为: 的置信区间为:
Y
三、OLSE回归直线的性质 回归直线的性质 统计性质
线性 无偏性 有效性
σ2 的估计
1、线性
证明: 证明:
ˆ ˆ 都是Y 的线性函数。 这里指 β 0 , β1 都是 i的线性函数。
ˆ β
1
=
∑ ( X − X )(Y − Y ) ∑(X − X )
i i 2 i
= =
令 ki =
∑(X − X)Y −Y ∑(X − X) ∑(X − X)
回归分析
确定性关系或函数关系y =f (x) 变 量 间 的 关 系 非 确 定 性 关 系
人的身高和体重 家庭的收入和消费 商品的广告费和销售额 粮食的施肥量和产量
x
相关关系
Y
称这种非确定性关系为统计关系或相关(相依 关系. 称这种非确定性关系为统计关系或相关 相依)关系
第一章 一元线性回归模型
前三个条件称为G-M条件 条件 前三个条件称为
§1.2 一元线性回归模型的参数估计
普通最小二乘法( Squares) 普通最小二乘法(Ordinary Least Squares) OLS回归直线的性质 OLS回归直线的性质 OLSE的性质 OLSE的性质
一、普通最小二乘法
对于所研究的问题, 对于所研究的问题,通常真实的回归直线 E(Yi|Xi) = β0 + β1Xi 是观 测不到的。可以通过收集样本来对真实的回归直线做出估计。 测不到的。可以通过收集样本来对真实的回归直线做出估计。
260 150 152 175 178 180 185 191 5 121 1
户数 总支出
5 325
描出散点图发现:随着收入的增加,消费“平均地说”也在增加, 描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y 的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线 总体回归线。 的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。
Lxx = ∑( Xi − X )2
Lyy = ∑(Yi −Y )
i=1 n 2
Lxy = ∑( Xi − X ) (Yi −Y )
i=1
ˆ ˆ β0 = Y − β1X ˆ Lxy β1 = Lxx
二、OLS回归直线的性质 回归直线的性质
ˆ (1)估计的回归直线 Yi )
(2) )
n
n
∑ ei =
2 i =1
∑ (Yi − Yˆi ) 2
i =1
n
ˆ ˆ ( Yi − β 0 − β1 X i )2 ∑
i =1
ˆ ˆ ˆ ˆ 为变量, 则通过Q最小确定这条直线, 则通过 最小确定这条直线,即确定 β 0 , β1 ,以 β 0 , β1 为变量, 最小确定这条直线
把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求 把它们看作是 的函数,就变成了一个求极值的问题, 的函数 导数得到。 导数得到。 的偏导数: 求Q对 两个待估参数 的偏导数:
(3)经验(估计的)回归模型: )经验(估计的)回归模型:
ˆ ˆ Yi = β 0 + β1 X i + ei
(4)经验(估计的)回归直线: )经验(估计的)回归直线:
ˆ ˆ ˆ Yi = β 0 + β1 X i
对于参数的估计采用最小二乘估计法、 对于参数的估计采用最小二乘估计法、最小二乘法的原则是以 )。(Q为残差平方 残差平方和最小” 确定直线位置(即估计参数)。( “残差平方和最小” 确定直线位置(即估计参数)。( 为残差平方 和) = Q=
三、σ2 的估计
Var(Yi ) = Var(β0 + β1 X i + εi ) = Var(εi ) = σ 2
总体(随机误差项)真实方差σ 的无偏估计量: 总体(随机误差项)真实方差σ2的无偏估计量:
ˆ σ =
2
ˆi2 ∑ε n−2
∑e =
2 i
n−2
§1.3 回归方程的显著性检验
一、回归参数的显著性检验(t 检验) 回归参数的显著性检验( 检验)
相关文档
最新文档