应用统计学课件第四章回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

X ki
X 1i X
X
2 ki
ki
ˆ0 ˆ1
ˆ k
1 X 11
X k1
1 X 12
X k2
1 Y1 X 1n Y2 X kn Yn
(XX)βˆ XY
条件?
βˆ (XX)1 XY
点估计

OLS估计的矩阵表示
Q
n
ei2
ee (Y Xβˆ )(Y Xβˆ )
例:二元回归模型的参数估计
ˆ1 (
yi x1i )( x2i ) ( yi x2i )( x1i x2i ) ( x12i )( x22i ) ( x1i x2i )2
Var(ˆ1)
2
x12i (1 r122 )
1的OLS估计量的标准误为:Se(ˆ1) Var(ˆ1) 1的置信区间:
样本回归函数(SRF)
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki
Yi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki ei
ei称为残差或剩余项(residuals),可看成是总体
回归函数中随机扰动项i的近似替代。
• 样本回归函数的矩阵表达:
Yˆ Xβˆ
一个身高60的妇女体重平均111.5,最大偏差12
猜体重平均值,最大偏差:31
160
155
150 总变异 (wi w)2 4606.8
140
130
体重均值123.6
120
POUN
110
体 重 100
93
90
56
58
60
62
64
66
68
70
身高INCH
POUN
160身高相同的人体重 不一定相同
X ki ) ) X 1i ) X 2i
Yi Yi Yi
X 1i X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
ˆ j , j 0,1,2,, k
•正规方程组的矩阵形式
n
X 1i
X ki
X 1i
X
2 1i
X ki X 1i
56
58
(60wi
wˆ6i2)2
1207.5 64
66
68
70
回归线的解释程身度高R2INCH3399.3 *100% 73.8% 4606.8
通常,身高高的人体重大。同样身高的人体重不同,即在给定 身高下,体重有一个分布。大样本下为正态分布。
总体回归线反映了给定身高下,体重的平均水平:
E(weight/height)=b0+b1height ,b0,b1是未知的参数为什么
Y Xβˆ e
ˆ0
βˆ
ˆ1
ˆk
e1
e
e2
en
2.回归参数的普通最小二乘估计:残差平方和最小
(Yi , X ji ), i 1,2,, n, j 0,1,2,k
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X Ki
n
n
Q ei2 (Yi Yˆi ) 2
i 1
i 1
n
2
(Yi (ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ))
i 1
已知
假定
ˆ
0
Q
0
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
正规方程组
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1ˆiˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
找到导致被解释变量变化的主要因素作为解释变量, 构建多元回归模型:
设 函因数变:量Y是k个解释变量X1, … Xk和误差项的线性
总体回归
Yi 0 1X1i k X ki i
模型 其误中差:项0为常数项,1 ,… k为偏回归系数,i为随机
对容量为n的样本,这一模型实际上包含n个方程:
64
66
68
70
一个身高60的妇女体重平均111.5,最大偏差12
身高INCH
160
weightˆ 134 4.09hight
150
140
130
120
总变异 (w1i10 w)2 4606.8 体
身高解释的重变1异00 (wˆ w)2 3399.3
POUN
剩余变异(残差9平0 方和)
多元回归模型的经典假设
假设1: x1,x3, … xk是非随机的。
假设2:E(i)=0 i=1,2, …n 假设3:同方差Var(i)=2 (E(ii)= 2 ) 假设4:无序列相关, cov (ij)=E(ij)=0 假设5:x诸变量间无准确的线性关系,即:无多重共
线性。 不存在一组不全为零的数1、2、… k,使得:
总变异分解为自变量影 响(回归平方和)与随 机因素影响(残差平方 和)
模型总体显著性检验
F检验:回归平方和是否 显著大于残差平方和
估计效应量
二、经典回归模型及其参数估计
多元回归模型 多元回归模型的参数估计 经典假设及参数估计量的性质 样本容量问题 偏回归系数的含义
1.多元回归模型
总体回归函数:E(weight / height) b0 b1height
因变量观测值:weight b0 b1height
总体回归函数说明在给定的身高下,体重平均 水平。
但对某一个妇女,其体重可能与该平均水平有 偏差。
被解释变量观察值围绕其期望值的离差,是一 个不可观测的随机变量,称为随机误差项。
1 2
2 2
n2
1
n
2n
2 n
2 0 0
0
2
0
2In
0
0
2
假设5:矩阵x的秩等于回归参数的个数(或解释变量 个数加1),R(x)=k+1 , n>k
4.样本容量问题
1) 最小样本容量 所谓“最小样本容量”,即从最小二乘原理 出发,欲得到参数估计量,不管其质量如何,所 要求的样本容量的下限。
如何猜?准确性如何? 猜平均体重,最大偏差:31
如何猜得更准确? 影响体重的最直接因素是身高:一般身高高的人 体重大。 平均身高:62.85inch, 标准差:3.3
以平均身高分界:最大偏差21 E(weight/height)=b0+b1height,
weightˆ 134 4.09heighbtˆ0 134,bˆ1 4.09
理论的模糊性;
数据的欠缺;
height weight
节省原则;
样本回归函数
从被研究总体中随机抽取n个样本(本例 n=20),利用样本观测数据可得到样本回
归函数: weightˆ bˆ0 bˆ1height
样本回归函数是对总体回归函数的一个估计 对某一个妇女,其体重观测值不会恰好等于
实际体重: weight 0 1hight 2motheri i
回归分析vs方差分析
方差分析
因素不同水平(分类变 量)对响应变量的影响
总变异分解为组间变异 (因素影响)与组内变 异(随机因素影响)
模型检验:
F检验组间变异是否显著 大于组内变异
回归
自变量不同水平(连续 变量)对因变量的影响
150
140
130
120
110
体 重 100
90
56
58
60
62
身高INCH
平均来看,体重随身 高的增加而增加
64
66
68
70
以平均身高分界,高于平均身高猜134,低于平均 160 身高猜113.2:最大偏差21
150
140 能不能猜得更准?
130
134.0
POUN
120
113.2
110
体 重 100
正规方程组的另一种表达
XY XXβ ˆ
XXβˆ Xe XXβˆ
Xe 0
i
ei 0
Xijei 0 j 1, 2, , k
i
该正规方程 组成立的条 件是什么?
⃟随机误差项的方差的无偏估计
可以证明,随机误差项的方差的无偏估
计量为:
ˆ 2
e
2 i
e e
n k 1 n k 1
yi 0 1x1i 2i x2i i
第四章 多元线性回归模型
经典多元回归模型
回归分析的机理 经典回归模型及其参数估计 残差分析与假设检验 含有虚拟变量的回归 线性回归过程
一、回归分析的机理
例:20个妇女的体重资料如表,
平均体重:123.6pound,标准差:15.5 最低体重:93pound, 最大体重:155
任意抽出一个妇女,试猜测其体重
i 1
βˆ (Y Xβˆ )(Y Xβˆ ) 0
βˆ (YY βˆ XY YXβˆ βˆ XXβˆ ) 0
XY XXβˆ 0
XY XXβ ˆ
βˆ (XX)1 XY
βˆ (x'x)1x'y var(βˆ ) 2 (x'x)1
yˆ xβˆ x(x'x)1x'y Hy, H x(x'x)1x',e y yˆ (I H)y
90
56
58
60
62
64
66
68
70
身高INCH
平均身高62.85
160
weightˆ 134 4.09height
150
观140测值weighti
130
这条直线的含 义是什么?
weighti weig1h2t0ˆi ei残差
POUN
110
体 重 100
估计值weight
90
56
58
60
62
实际体重: weighti b0 b1heighti i 要有
体重
已知20个妇女的身高体重资
总体回归线
料以此为样本估计总体参数
weightˆ 134 4.09height
样本回归线
回归分析的任务:从样本 回归线估计总体回归线
身高
weightˆ bˆ0 bˆ1height weighti bˆ0 bˆ1heighti ei
• 模型的良好性质只有在大样本下才能得到理
height
weight i weighti E(weight / heighti )
weighti (b0 b1heighti )
为什么要设随机误差项?
在解释变量中被忽略的因素的影响; 变量观测值的观测误差的影响; 模型关系的设定误差的影响; 其它随机因素的影响。
产生并设计随机误差项的主要原因:
如果
,会不会破坏无多重共线假定?
x3i x22i
不会,因为这两个变量的关系是非线性的!!
经典假设的矩阵表示
假设2:
1 E(1) 0
E(μ )
E
2
E ( 2
)
0
0
n
E(n )
0
假设3和4:
E(
')
E
1
2
n
1
2
12
n
E
2 1 n 1
1x1i+ 2x2i+ …+ kxki=0
假设6:i N(0, 2)
关于多重共线性的进一步说明
如果存在一组不全为零的数1、2、… k,使得:
1x1i+ 2x2i+ …+ kxki=0
不妨设10,则上式可变为:
x1i=-(2x2i+ …+ kxki)/1
称解释变量之间存在完全共线性,此时,某个解 释变量可以写为其它解释变量的线性组合。
y1=0+1x11+kxk1+1 ……
yn=0+1x1n+kxkn+n
多元回归模型的矩阵表示
y n1 x β n(k 1) (k 1)1 μ n1
1
y1
1
x11
x12
xk1 0 1
xk 2
1
2
yn
1
x1n
xkn
k
n
注意:解释 变量个数为 k,参数个数 为k+1
ˆ1 t 2Se(ˆ1) 1 ˆ1 t 2Se(ˆ1)
3. 经典假设与参数估计量的性质
在满足基本假设的情况下,其结构参
数的普通最小二乘估计具有:
线性性、无偏性、有效性。
同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性。
Yi 0 1X1i k X ki i
样本最小容量必须不少于模型中解释变量 的数目(包括常数项),即
n ≥ k+1 因为,无多重共线性要求:秩(X)=k+1
2)、满足基本要求的样本容量
• 从统计检验的角度:
n30 时,Z检验才能应用;
n-k≥8时, t分布较为稳定 • 一般经验认为:
当n≥30或者至少n≥3(k+1)时,才能说满足模 型估计的基本要求。
估计值,而是会有残差
weighti bˆ0 bˆ1heighti ei
残差是对随机误差项的一个估计
回归分析的主要目的:根据样本回归函数SRF, 估计总体回归函数PRF。
Yi Yˆi ei ˆ0 ˆ1X i ei Yi E(Y | X i ) i 0 1X i i
一、回归分析的机理
例:20个妇女的体重资料 任意抽出一个妇女,试猜测其体重
影响体重的最直接因素是身高:利用身 高与体重的关系推测
实际体重: weight b0 b1hight
weightˆ 134 4.09height 回归线的解释程度R2 3399.3 *10回归线的解释程度R2)? 除了身高,还有哪些因素影响体重?
相关文档
最新文档