回归分析与协方差分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

最常用的是最小二乘法,即求出
ˆ ˆ ˆ a , b及y i a bxi 使
ˆ i )2 Q ( yi y
[ y i (a bxi )]
i 1 i 1 n 2
n
的值最小,所求出的a称为经验截距,简称 为截距,b称为经验回归系数,简称为回归 系数,而
2 i
i
yi ;
( 2)计算l xx , l xy , l yy ;
(3)计算b和a,写出一元线性回归方程。
与上述a和b相对应的Q的数值又记作SSE, 称为剩余平方和。
ˆ ˆ 将a、b和SSE以及 Y 和 Y i 看作是统计量, 它们的表达式分别为 n
a Y bx , b
(x
i 1

可以导出
t
Z SSE 1 ( x0 x ) (1 ) n2 n l xx
2
~ t ( n 2).
因此,Y0的1-α预测区间为 a+bx0±Δ(x0),
SSE 1 ( x0 x ) ( x 0 ) t10.5 ( n 2) (1 ). n2 n l xx
当F≥F1-α(1,n-2)或|r|≥rα(n-2)时应该放 弃原假设H0,式中的 F1 (1, n 2) r (n 2) F1 (1, n 2) (n 2)
可由r检验用表中查出。
r
2
因此,r常常用来表示x与Y的线性关系在x 与Y的全部关系中所占的百分比,又称为x 与Y的观测值的决定系数。
2 2
2
i 1
SSE SST bl xy .
SSE SST bl xy 2 2 l xy l xy l yy l yy 1 l xx l yy l xx

现引进r
2
l
2 xy
l xx l yy
,r
l xy l xx l yy
.
l xx t b ~ T ( n 2), SSE ( n 2)
当|t|≥t1-0.5α(n-2)时应该放弃原假设H0。
根据x与Y的观测值的相关系数 (3)r检验法:
r
可以推出
l xy l xx l yy
r
2
,r
2
l
2 xy
l xx l yy
,
当H0为真时,
SSR . SST
2
r F ~ F (1, n 2), 2 (1 r ) ( n 2)
2
例1.1《吸附方程》某种物质在不同温度下可 以吸附另一种物质,如果温度x(单位:℃)与 吸附重量Y(单位:mg)的观测值如下表所示:
温度x1.5 1.8 2.4 3.0 3.5 3.9 4.4 4.8 5.0 重量y4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3 试求线性回归方程并用三种方法作显著性检 验,若x0=2,求Y0的0.95预测区间。
2

3. 线性回归方程的显著性检验 因此,必须对回归方程的拟合情况或效果 作显著性检验。 其理论基础就是总平方和的分解,即
( y
i 1
n
i
ˆ ˆ y) ( yi yi ) ( yi y) .
2 2 2 i 1 i 1
n
n
ˆ ˆ ( y i y ) [( y i y i ) ( y i y )]
Q 2 ˆ 是 的无偏估计。 n2
2
2. 总体中未知参数的估计 根据最小二乘法的要求由
2 [ y i (a bx i )] 0, i 1 n 2 [ y i (a bx i )] x i 0, i 1
n
Q Q 0, 0, 得 a b
i 1 n i i i i 1 n i i i 1 n
n
i
y)
[ y i ( y bx ) bx i ][b( x i x )] b( x i x )( y i y ) b ( x i x )
2 n 2 i 1 i 1
bl xy b l xx 0.
并求出
n
b
l xy l xx
, a y bx ,
n
l xx
1 n 2 2 2 ( x i x ) x i ( x i ) , n i 1 i 1 i 1
n i 1 n
l xy ( x i x )( y i y )
n 1 n x i y i ( x i )( y i ), n i 1 i 1 i 1
SSR , SST
4. 利用回归方程进行点预测和区间预测
若线性回归作显著性检验的结果是放弃H0, 也就是放弃回归系数β=0的假设,便可以 利用回归方程进行点预测和区间预测,这是 人们关注线性回归的主要原因之一。 用ˆ ⑴ 当x=x0时, y 0 a bx0预测Y0的观测值
y 0 称为点预测。 ˆ 由于E ( y 0 ) x 0 E (Y0 ),
由回归方程可以推出
Yi x i i , ( i 1,2,, n)
式中的 i 相互独立且都~ N (0, ).
2
根据样本及其观测值可以得到α、β及 2的估计量及估计值 , 和 2, ˆ ˆ ˆ σ 得到回归方程的估计式或经验回归方程
ˆ ˆ ˆ y x ,
2
( y
i 1
n
i
ˆ ˆ y) ( yi yi ) ( yi y) .
2 2 2 i 1 i 1
n
n
式中的l yy ( y i y )
i 1
n
2
表示n个y1、y2、…、yn与 y 之间的差异,当 各个yi已知时,它是一个定值,称为总平方 和,记作SST。
ˆ i ) 2是y i 与y i 之间的偏差 ˆ ( yi y
i 1
n
通过回归已经达到了最小值,称为剩余平 方和,记作SSE。
n i 1
ˆ i y ) 2 表示n个ˆ i 与y之间的差异, 而 ( y y
ˆ 是将x i 代入回归方程得到 i 所造成的, y 称为回归平方和,记作SSR。
⑴ F检验法:
当H0为真时,
SSE

2
2
~ 2 ( n 2),
2
SSR

~ ( 1 );
且SSR与SSE相互独立;因此,当H0为真时,
SSR F ~ F (1, n 2), SSE ( n 2)
当F≥F1-α(1,n-2)时应该放弃原假设H0。
(2)t检验法: 2 SSE 2 b ~ N ( , ), 2 ~ ( n 2), l xx 当H0为真时,
l yy
1 n 2 2 2 ( y i y ) y i ( y i ) . n i 1 i 1 i 1
n n n
n
n
建立一元线性回归方程的具体步骤:
(1)计算 x i, y i , x ,
y , x
i 1 2 i i 1
i 1 n
i 1 n
i 1
2 i 1 i 1
n
n
2
ˆ i )2 ( yi y)2 ˆ ( yi y
i 1 i 1
n
n
ˆ ˆ 2 ( y i y i )( y i y ),
i 1
n
ˆ ˆ ( y y )( y y ) ( y a bx )( a bx
Y0的观测源自文库y0的点预测是无偏的。
⑵ 当x=x0时,用适合不等式P{Y0∈(G,H)}≥ 1-α的统计量G和H所确定的随机区间(G,H) 预测Y0的取值范围称为区间预测,而(G,H)称 为Y0的1-α预测区间。 若Y0与样本中的各Yi相互独立,则根据 Z=Y0-(a+bx0)服从正态分布,E(Z)=0, ( x0 x )2 1 2 D( Z ) (1 ), n l xx SSE 2 及 2 ~ ( n 2), Z与SSE相互独立,
因此,SST=SSE+SSR。 如果SSR的数值较大,SSE的数值便比较 小,说明回归的效果好;如果SSR的数值 较小,SSE的数值便比较大,说明回归的 效果差。
ˆ SSR ( y i y ) 2 (a bx i y )
i n1 i 1 n i 1 n 2
n
( y bx bx i y ) 2 b ( x i x ) b l xx bl xy ,
i
x )Yi
l xx
,
SSE [Yi (a bxi )] ,
2 i 1
n
ˆ Y a bx Y b( x x ),
ˆ Yi Y b( x i x ).
这些统计量之间以及它们与总体参数之间 有以下的内在联系:
(1)Y , b与SSE相互独立; ( 2) E (b) , E (a ) , 2 2 1 x 2 D( b ) , D( a ) ( ) ; l xx n l xx

①为提高a的估计精度,最理想的选择是 使 x=0,其绝对值越小越好; ②为提高b的估计精度,应该使lxx 取较大 的数值,x1、x2、…、xn越分散越好; ③观测值的个数n不能太小。
(3) E ( SSE ) ( n 2) , SSE 2 2 ˆ 即 是 的无偏估计; n2 ˆ (4)b和a以及Y都服从正态分布, SSE 2 而 2 ~ ( n 2).
得到一元线性回归的正规方程组
n n
y i a b x i 0, i 1 i 1 i 1 n n n x i y i axi b x i2 0, i 1 i 1 i 1
n n n
na b x i y i , i 1 i 1 n n n a x i b x i2 x i y i , i 1 i 1 i 1
如果|r|较大,SSE的数值便比较小,说明 回归的效果好或者说x与Y的线性关系密切; 如果|r|较小,SSE的数值便比较大,说明回 归的效果差或者说x与Y的线性关系不密切; 因此称r为x与Y的观测值的相关系数。 又由r及回归系数的计算公式
b
l xy l xx
,
可以推出:r>0时b>0,x增加时Y的观测值 呈增加的趋势;r<0时b<0,x增加时Y的观测 值呈减少的趋势。因此r>0时称x与Y正相关, r<0时称x与Y负相关。 综上所述,如果设H0为β=0,也就是假设 x与Y不是线性关系,则可以用以下三种实质 相同的方法检验线性回归方程的显著性,且 当检验的结果显著时x与Y的线性关系显著, 回归方程可供应用;当检验的结果不显著时 x与Y的线性关系不显著,回归方程不可应用。
内容
§9.1
一元线性回归
学习目标
散点图, 回归系数, 正规方程, 经验 回归方程;回归平方和,剩余平方和, 相关系数, 显著性检验.
§9.1
一元线性回归
1. 一元线性回归的基本概念 不确定关系 人的身高 体重
农作物的单位面积产量 施肥量
线性模型
例 为了研究弹簧悬挂不同重量(单位:克力) x时长度(单位:厘米)y的关系。通过试验得到 一组数据。 重量xi 5 10 15 20 25 30 长度yj 7.25 8.12 8.95 9.90 10.90 11.80
把这些数据点(xi, yj )画在xoy坐标系中,图形 称为散点图。
* *
* * * *
L
散点图
记L为
y a bx
yi ( a bxi ) i
进行n次独立试验,测得数据如下:
X Y
x1 y1
x2 y2

xn yn
我们的问题是,如何根据这些观测值用“最 佳的”形式来表达变量Y与X之间的相关关系? 一般而言,在变量x取值以后,若Y所取 的值服从N (α+βx,σ2)分布,当α、β及σ2 未知时,根据样本(x1,Y1),(x2,Y2),…,(xn,Yn)的 观测值(x1,y1),(x2,y2),…,(xn,yn) 对未知参数α、 β及σ2所作的估计与检验称为一元线性回归 分析,而α称为截距,β称为回归系数, E(Y)=α+βx 称为回归方程。
相关文档
最新文档