一元线性回归分析.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Xn Yn
最小二乘法: 通过使得残差平方和 (各样本点与拟合直 线的纵向距离的平方 和)为最小来估计回 归系数的一种方法。
ˆ ˆX ˆ Y t 0 1 t
残差平方和: ˆ ˆ X )2 ˆ )2 (Y Q et2 (Yt Y t 0 1 t t
F
SSR / 1 SSE / n 2
SSR / 1 所以 F ~ F (1, n 2) SSE / n 2
H 0 : 回归方程不显著, H1 : 回归方程显著
如果回归方程显著,意味着SSE应该比较小,所以F 值应该比较大,所以当F F (1, n 2)时,拒绝原假 设,认为回归方程显著(为显著性水平)。
2 ( n 2) S ˆ
0
2 ˆ
2 ( n 2)
0
S
2 ˆ
1
S2 (X
t 1 n t
X)
2
2 ( n 2) S ˆ
1
2 ˆ
2 ( n 2)
1
所以根据t分布的定义,有 ˆ ˆ 0 0 1 ~ t ( n 2), 1 ~ t ( n 2) Sˆ Sˆ
2 ˆ Y )2 (Y Y ˆ )2 ( Y Y ) ( Y t t t t 1 t 1 t 1 n n n
2 ( Y Y ) : 总离差平方和,记为SST ; t t 1 n
n
ˆ Y )2 : 回归平方和,记为SSR; ( Y t
t 1 n
t 1 t 1 t 1 n n n
Q 0 ˆ 0 Q 0 ˆ 1
n ˆ ˆ X )0 2 ( Y t 0 1 t t 1 n 2 X (Y ˆ ˆ X )0 t t 0 1 t t 1
Xt平方 16 36 36 64 361 121 144 144 676 441 121 256 196 81 81 25 2799
Yt平方 12100 14400 14400 26896 184900 36864 30625 55696 184041 101124 62001 78961 25600 21609 44100 14400 907717
0 1
的样本观测值不同而变动。 3、总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距 离,它是不可直接观测的。而样本回归函数中的et 是Yt与
样本回归线之间的纵向距离,当根据样本观测值拟合出样本
回归线之后,可以计算出et 的具体数值。
误差项的基本标准假定
(1) ut ~ N (0, 2 ), ( t 1,2,3, E ( ut ) 0, Var ( ut ) 2 . n)
2
0
ˆ
1
Sˆ
1
ˆ t ( n 2) S ) ( ˆ 1
2ห้องสมุดไป่ตู้
1
一元线性回归模型的检验
回归模型的检验包括:理论意义的检验、一级检验、二级检验。 (1)理论意义检验:主要检查参数估计值的符号和取值区间的合 理性,如果它们与实质性科学的理论以及人们的实践经验不相 符,则说明模型不能很好地解释现实的现象。
此检验是双侧检验,当然也可以做单侧检验,修改 一下拒绝域即可。
也可以用P值检验
检验统计量的值
ˆ 显著异于0. P值很小,拒绝原假设,认为 1
一元线性回归模型的预测
ˆ ˆX ˆ 回归预测的基本公式:Y f 0 1 f
预测误差:
ˆ ˆX ) ˆ ( X u ) ( e f Yf Y f 0 1 f f 0 1 f ˆ ) ( ˆ )X u (0 0 1 1 f f
(2)一级检验:又称为统计学检验,具体分为拟合程度评价和显
著性检验(回归方程的显著性检验和回归方程中参数的显著性 检验)。 (3)二级检验:对标准线性回归模型的假定条件能否满足进行检 验,主要包括:序列相关检验、异方差检验、多重共线性检验
等。
拟合程度评价
拟合程度是指样本观测值聚集在样本回归线周围的紧 密程度. ˆ Y ) (Y Y ˆ) (Yt Y ) (Y t t t
例
食品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 求和
脂肪Xt 4 6 6 8 19 11 12 12 26 21 11 16 14 9 9 5 189
热量Yt 110 120 120 164 430 192 175 236 429 318 249 281 160 147 210 120 3461
P值是由检验统计量的样本观察值得出的原假设可被 拒绝的最小显著性水平。 P值越小(P值小于显著性水平α),越拒绝原假设。
回归方程的显著性检验过程
(1) H 0 : 回归方程不显著, H1 : 回归方程显著
(2) 给定显著性水平 .
SSR / 1 (3) 检验统计量 F ~ F (1, n 2) SSE / n 2 (4) 拒绝域F F (1, n 2)
(1) ut ~ N (0, 2 ), ( t 1,2,3, E ( ut ) 0, Var ( ut ) 2 . (2) Cov ( ut us ) 0, ( t , s 1,2,3,
可以证明
n) , n; t s )
ˆ ~ N ( , 2 ), ˆ ~ N ( , 2 ) ˆ ˆ 0 0 1 1
0 1
ˆ ˆ 0 1 0 ~ N (0,1), 1 ~ N (0,1) ˆ ˆ
0 1
2 2 2 2 2 ˆ 和 ˆ 中 未知,所以想用S 代替 ,有
0 1
2 1 X 2 2 n S S ˆ 0 2 n ( X X ) t t 1
X t ×Y t 440 720 720 1312 8170 2112 2100 2832 11154 6678 2739 4496 2240 1323 1890 600 49526
ˆ 1
n X tYt X t Yt
t 1 t 1 t 1 n 2 t n 2
n
n
n
n X X t t 1 t 1 16 49562 189 3461 15.2584 2 16 2799 189
r r2 R2 S2 n
回归方程的显著性检验
一元线性回归分析的方差分析表
离差名称 平方和 自由度 均方差 SSR 1 SSR/1 回归平方和 SSE n-2 SSE/n-2 残差平方和 n-1 总离差平方和 SST
SSR SSE 2 2 可以证明: 2 ~ (1), ~ ( n 2) 2
(5) 判断是否拒绝原假设
也可以用P值检验
参数的显著性检验
(1) 提出假设: H 0 : 1 0, H1 : 1 0 (2) 给定显著性水平 . ˆ 0 (3) 检验统计量t = 1 ~ t ( n 2) Sˆ
1
(4) 拒绝域|t| t ( n 2)
2
(5) 判断是否拒绝原假设
0 1 0 1
2 ˆ Var ( 0 ) ˆ
0
2 1 X 2 n 2 n (X t X ) t 1
2 ˆ Var ( 1 ) ˆ
1
(X
t 1 n t
2
X)
2
参数0和1的区间估计
根据误差项的基本标准假定
n
n
n
n X X t t 1 t 1
n 2 t n
2
(X
t 1 n t 1
n
t
X )(Yt Y )
2 ( X X ) t
ˆ 0
Y
t 1
n
t
n
ˆ 1 Xt
t 1
n
n
ˆ X Y 1
ˆ , ˆ 是两个随机变量,当得到一组样本观察值时, 0 1 它们就是两个常数,样本的观察值不同,它们的取 值一般也不同。
(二)样本回归函数 ˆ ˆ X (t 1,2,3, , n) ˆ Y t 0 1 t ˆ 称为残差,与总体的误差项u 对应,n为样 e Y Y
t t t t
本的容量。
样本回归函数与总体回归函数区别
1、总体回归线是未知的,只有一条。样本回归线是根据样本数 据拟合的,每抽取一组样本,便可以拟合一条样本回归线。 2、总体回归函数中的β0和β1是未知的参数,表现为常数。而样 ˆ 和 ˆ 本回归函数中的 是随机变量,其具体数值随所抽取
数学模型与数学建模之
一元线性回归分析
于晶贤
E-mail: yujingxian@126.com
回归分析的几个任务
(1)从一组样本数据出发,确定变量之间的数学关系式; (2)对这些关系式的可信程度进行各种统计检验,并从影响 某一特定变量的诸多变量中找出哪些变量的影响显著,哪 些不显著;
(3)利用所求的关系式,根据一个或几个变量的取值来预测
n n ˆ ˆ n 1 X t Yt 0 t 1 t 1 n n n 2 ˆ ˆ X X 0 t 1 t X tYt t 1 t 1 t 1
ˆ 1
n X tYt X t Yt
t 1 t 1 t 1
0 1
进而得出了 0的置信水平为1-区间估计为
ˆ t ( n 2) S ) ( ˆ 0
2
0
1的置信水平为1-区间估计为
ˆ t ( n 2) S ) ( ˆ 1
2
1
回归分析的Excel实现
“工具”->“数据分析”->“回归”
ˆ 0
Sˆ
0
ˆ t ( n 2) S ) ( ˆ 0
2 ˆ ˆ ˆ )2 Y 2 e ( Y Y Y t t t t 0 t 1 X tYt t 1 t 1 t 1 t 1 t 1 n n n n n
最小二乘估计的性质
ˆ ) , E( ˆ ) , E( 0 0 1 1 ˆ 和 ˆ 分别为 和 的无偏估计 即
或控制另一个特定变量的取值,并给出这种预测或控制的 精确程度;
回归分析的分类
回归分析
一个自变量
两个及以上自变量
一元回归
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
一元线性回归模型
(一)总体回归函数 Yt= 0+ 1 X t+ut ut 是随机误差项,又称随机干扰项,它是一个特殊的 随机变量,反映未列入方程式的其他各种因素对Y的 影响。
(2) Cov( ut us ) 0, ( t , s 1,2,3,
, n; t s )
Y
由上知: E (Yt ) 0 1 X t
Yt
E(Yt )= 0+1 X t
。 ut
。 。 。
。 X
参数0和1的点估计
X1 Y1 X 2 …… Y2 …… Xt Yt
…… ……
ˆ )2 : 残差平法和,即 e 2 ,记为SSE ; ( Y Y t t t
t 1 t 1
n
SST SSR SSE
SSR SSE 决定系数 r 1 SST SST
2
SSE / ( n 2) 修正自由度的决定系数R 1 SST / ( n 1)
2
决定系数越大,模型拟合程度越好;决定系数越小, 模型拟合程度越差; 对于一元线性回归分析,决定系数就是两变量之间 相关系数的平方。
ˆ 0
Yt
t 1
n
n
ˆ 1 Xt
t 1
n
n
ˆ X 36.0725 Y 1
ˆ 36.0725 15.2584 X Y t t
总体方差σ2估计
S2
2 2 2
2 e t t 1 n
n2
2
E ( S ) . 即S 是 的无偏估计
ˆ 和 ˆ ,可以得到残差平方 利用最小二乘法计算出的 0 1 和的另一个计算公式: