SAS统计之第五章 线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五节 多元线性回归分析
一、多元线性回归分析概述
多元线性回归模型
y 0 1 x1 2 x2
式中β
0
m xm
β
1
β
2
… β
m
为(偏)回归系数
多元线性回归方程
ˆ b0 b1 x1 b2 x2 bm xm y
式中b0 b1 b2 … bm 为(偏)回归系数的估计值
第五节 多元线性回归分析
二、参数估计方法——最小二乘准则
根据最小二乘法原理,i (i 0,1,2,, m) 的估计值
应该使 b ( i i 0,1,2, , m)
ˆ i ) 2 [ yi (b0 b1 x1i b2 x2i bm xmi )]2 min Q ( yi y
第五章 线性回归分析
一、一元线性回归
二、一元线性回归方程
三、回归关系的显著性检验 四、置信区间 五、多元线性回归 六、回归诊断
第一节 一元线性回归
生产实践中,常常能找到一个变量与另外一 个变量之间的关系:小麦的施肥量与产量、 水稻的株高和穗长、冬天的温度与来年病虫 害的发生程度等等。 回归分析就是找出合适的回归方程,从而用 一个变量来预测另一个变量。 一元线性回归:最简单的回归关系,即一个 变量y在一个变量x上的回归关系,称x为自变 量,y为因变量(或称响应变量、依赖变量)
一级计算:
x 30700 y 4822 x 2 143670000 y 2780764 xy 19492000
2
n Βιβλιοθήκη Baidu10
实例:
计算公式: 二级计算:
SS x x x / n
2 2
14367000 30700 /10
用光照强度估测净光合强度是合理的。
实例:P161
2、t 检验
se sb SS x 0.005229
Q 10810 n2 10 2 SS x 49421000
b 0.094868 t 18.14 sb 0.005229
实例:t 检验
df e n 2 10 2 8, t0.05 2.306,t0.01 3.355 | t | 18.14 t0.01 3.355
整理得正规方程组:
a x b x 2 xy
na b x y
第二节 线性回归方程
解正规方程组:
(1)式除以 n 得: a b( x / n) y / n
2 x a x b( x) / n (3)式各项乘 : 2 2
a x b x xy
2 2
ˆ ) 2( y y ˆ )( y ˆ y) ( y ˆ y) ( y y) ( y y
2
对数据资料所有点的求和得:
证明:上式右边的中间项为0:
2 2 2 ˆ ˆ ˆ ˆ ( y y ) ( y y ) 2 ( y y )( y y ) ( y y )
2 ˆ y b( x x ), (y ˆ y) y b2 ( x x )2 ,
2 U b 2 ( x x ) 2 b 2 SS x bSPxy SPxy / SS x
误差平方和:
或
SSe SS y SSr
Q T U
第三节 回归关系的显著性检验
期望拟合的线性回归方程与试验资料的误差 最小,拟合的误差也称作离回归平方和或残 差 ,可以利用数学中求极值的方法解出 a 和 b 而使得误差平方和为最小。
误差平方和:
n n
ˆ i ( yi a bxi ) Q yi y
2 i 1 i 1
2
第二节 线性回归方程
ˆ t0.05 s y y
实例: 由x预测y的预测区间
第一步:计算当x=2500时, y 的点估计值:
ˆ 190.955 0.094868 2500 428.125 y
第二步:求y的标准误差:
1 2500 3070 s y 36.76 1 38.67 10 49421000
二、参数估计方法——最小二乘准则
采用矩阵形式: Y = XB+E
1 y1 1 y 2 Y X 1 yn 1 x11 x21 x31 xn1 x12 x22 x23 xn 2 x1m b0 0 b x2 m 1 1 x3m B b2 2 xnm bm n
b
b t sb
ˆ y y n2
2
Q n2 SS x
x x
2
实例:
研究光照强度与净光合强度的关系
光照 强度X
300 700 1000 1500 2200 3000 4000 5000 6000 7000
净光合 强度Y
140 260 300 380 410 492 580 690 740 830
2
49421000
实例:
计算公式: 二级计算:
x y SPxy xy n 3070 4822 19492000 10 4688460
实例:
回归系数 b :
b
SPxy SS x
4688460 0.094868 4943100
回归截距 a:
a y bx 482.2 0.094868 3070 190.955
第三节 回归关系的显著性检验
三个平方和的计算公式: 2 2 2 总平方和: T SS y (y y ) y ( y) / n 回归平方和: U SSr (y ˆ y )2
a y bx , ˆ a bx, y ˆ y bx bx, y
第一节 一元线性回归
如果两个变量x,y之间存在线性回归关系,
则有回归模型: 总体:yi =
+ xi + i 样本:yi = a + b xi + i ˆ =a+bx 回归方程: y
a 称为回归截距 b 称为回归系数 i 称为随机误差
第二节 线性回归方程
回归参数的计算——最小二乘法
2
实例: 由X预测Y的预测区间
第三步:求y的置信区间:
ˆ t0.05 s y 428.125 2.036 38.67 338.95 y ˆ t0.05 s y 428.125 2.036 38.67 517.30 y
第四步:结论 有95%的把握预测当树冠的光照强度为 2500时,净光合作用的强度在338.95到 517.30之间。
i 1 i 1 n n
由求极值的必要条件得:
n Q ˆi ) 0 b 2 ( yi y i 1 0 n Q ˆ i ) x ji 0 2 ( yi y a 1 b j
( j 1,2, , m)
第五节 多元线性回归分析
当自变量为 x ,对应的 因变量的实测值为 y , ˆ 因变量的预测值为 y y y ˆ。 ˆ y 于是 y 的离均差 y y y 可分解为两个部分:
ˆ) ( y ˆ y) y y ( y y
x
x
离均差 随机误差 回归引起的偏差
第三节 回归关系的显著性检验
对于任一个点有: ( y y ) ( y y ˆ) ( y ˆ y) 两边平方得:
第五节 多元线性回归分析
一、多元线性回归分析概述 上面讨论的只是两个变量的回归问题, 其中因变量只与一个自变量相关。但在大 多数的实际问题中,影响因变量的因素不 是一个而是多个,我们称这类多自变量的 回归问题为多元回归分析。 这里着重讨论简单而又最一般的线性 回归问题,这是因为许多非线性的情形可 以化为线性回归来做。多元线性回归分析 的原理与一元线性回归分析完全相同,但 在计算上却要复杂得多。
如果在模型 yi= + xi +i 中, = 0,这就意味
对此统计假设有两种检验方法:
F 检验法 和 t 检验法
注:df1=1,df2=n-2的一尾F值等于df=n-2的两尾t值的平方
第三节 回归关系的显著性检验
1.F检验法
利用下图说明F检验法的基本原理。
y
ˆ y y
y y
第三节 回归关系的显著性检验
对所有点求和得:
ˆ )( y ˆ y ) b[ SP (y y
xy
SPxy SS x
SS x ] 0
于是:y 的总平方和便分解为两个部分:
2 2 ˆ ˆ ( y y ) ( y y) (y y ) 2
y 的总平方和 误差平方和 回归平方和 T SS y U SSr Q SSe
结论:回归关系极显著,可得线性回归方程
ˆ 190.955 0.094868x y
用光照强度来预测净光合强度是合理的。
第四节 预测值的置信区间
由x预测y时,y有一定的误差,其标准误差为:
1 x x s y se 1 n SS x
2
因此由x预测y时,y 的95%置信区间为:
2 2 xy x
线性回归方程便已求出为: y ˆ a bx
第三节 回归关系的显著性检验
着不管 xi为什么值, yi 都不发生实质性变化;换言 之,x和 y 之间没有显著的回归关系。 检验线性回归关系是否存在,就是检验建立回归 模型的样本是否来自存在回归关系的总体,即 H0 : =0 vs HA: ≠0 只有在此检验结果为显著时,用 a 估计 ,用 b ˆ 估计 y 才是有意义的。 估计 ,用 y
实例:P161
1、F检验法
变异来源 自由度 平方和 回归 误差 总变异 1 8 9 均方 F值 329
F0.05
5.32
F0.01
11.26
444784 444784 10810 1351 455595
F检验结论:回归关系达极显著,可得线性回归方程
ˆ 190.955 0.094868 x y
ˆ a bx ( y bx ) bx y b( x x ) 即 ( y ˆ y ) b( x x ) y
ˆ y [( y bx ) bx] 即 ( y y ˆ ) ( y y ) b( x x ) y y
ˆ )( y ˆ y ) b( x x )[( y y ) b( x x )] (y y b[( x x )( y y ) b( x x ) 2 ]
利用方差分析表
变异来源 自由度 平方和 均方 F值
F0.05
2 e
回归
误差 总变异
1
n-2 n-1
U
Q T
s
2 U
2 e
s
2 U
s
s
检验结论:若F > F0.05,则存在显著的线性回归关系。
第三节 回归关系的显著性检验 2.t 检验法
H0: =0 vs HA:≠0 选择 t 统计量: 其中回归系数 其标准误: se sb SS x
2
na b x y (1)
(2)
(3) 于是: a y / n b( x / n) y bx (4)
x y / n (5) (2)-(5)式得: b[ x ( x) / n] xy x y / n 即: b ( x x ) ( x x )( y y ) 于是: b ( x x )( y y ) / ( x x ) SP / SS
2 ˆ Q yi yi ( yi a bxi ) 2 i 1 i 1 n n
分别求Q 对a 和b 的偏导数,令其等于 0:
Q 2 ( y a bx) 2( y na b x) 0 a Q 2 ( y a bx) x 2( xy a x b x 2 ) 0 b