直线相关与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第九章:直线回归
依变量y 的实际观测值总是带有随机误差,因而依变量y 的实际观测值yi 可用自变量x 的实际观测值xi 表示为:
i i i x y εβα++= (i=1,2, …, n)
x 为可以观测的一般变量(也可以是可以观测的随机变量); y 为可以观测的随机变量;
i 为相互独立,且都服从N (0,σ2)的随机变量。

在x 、y 直角坐标平面上可以作出无数 条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x 与y 的直线关系,这条直线称为回归直线。

设回归直线的方程为: bx a y +=ˆ ( 其中,a 是α的估计值,b 是β的估计值。


x
xy SS SP
x x y y x x n x x n y x xy b =---=--=
∑∑∑∑∑∑∑2
2
2
)
())((/)(/))((
x b y a -=
式中的分子是自变量x 的离均差与依变量y 的离均差的乘积和
))((∑--y y x x ,简称乘积和,记作xy
SP ,分母是自变量x 的离均差平方和
∑-2
)
(x x ,记作SS X,a 叫做样本回归截距,是回归直线与y 轴交点的纵坐标,当
x=0时,y ˆ=a ;b 叫做样本回归系数,表示x 改变一个单位,y 平均改变的数量;b 的符号反映了x 影响y 的性质,b 的绝对值大小反映了x 影响y 的程度; y
ˆ叫做回归估计值,是当x 在在其研究范围内取某一个值时,y 值平均数x βα+的估计值。

例题:在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g )与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。

表8-1 四川白鹅雏鹅重与70日龄重测定结果 (单位:g )
1、作散点图 以雏鹅重(x )为横坐标,70日龄重(y )为纵坐标作散点图,见图8-3。

2、计算回归截距a ,回归系数b ,建立直线回归方程,首先根据实际观测值计算出下列数据:
5.9812/1182/===∑n x x 8333.272012/32650/===∑n y y
()()00.168512/1182118112/2
2
2=-=∑-=∑n x x SS x
00.3658512
32650
11823252610)
)((=⨯-
=-
=∑∑∑n
y x xy SP xy
()()67.83149112/3265089666700/2
2
2=-=∑-=∑n y y SS y 进而计算出b 、a : 7122.2100
.168536585
==
=
x
xy SS SP b
1816
.5825.987122.218333.2720=⨯-=-=x b y a
得到四川白鹅的70日龄重y 对雏鹅重x 的直线回归方程为:
x y
7122.211816.582ˆ+= 二、直线回归的偏离度估计
偏差平方和2)ˆ(∑-y
y 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。

统计学已经证明:在直线回归分析中离回归平方
和的自由度为n-2。

于是可求得离回归均方为: )2/()ˆ(2--∑n y y 离回归均方是模型(8-1)中σ2的估计值。

离回归均方的平方根叫离回归标准误,记为yx S ,即∑--=
)2/()ˆ(2
n y
y S yx
离回归标准误S yx 的大小表示了回归直线与实测点偏差的程度,即回归估测
值y
ˆ与实际观测值y 偏差的程度,于是我们把离回归标准误S yx 用来表示回归方程的偏离度。

x xy y SS SP SS y
y /)ˆ(2
2
-=-∑
对于【例题】有
07.371521685/36585
83149167/)ˆ(2
22=-=-=-∑x xy y SS SP SS y y
所以)
(g n y
y S yx 9525.60)212/(07.37152)2/()ˆ(2
=-=--=
∑ 三、直线回归的显著性检验
若x 和y 变量间并不存在直线关系, 但由n 对观测值(xi ,yi )也可以根据上
面介绍的方法求得一个回归方程y
ˆ=a+bx 。

显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。

如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x 与y 间是否存在直线关系。

我们先探讨依变量y 的变异,然后再作出统计推断。

1、直线回归的变异来源
)ˆ()ˆ()(y y y y
y y -+-=- =
-∑2
)
(y y ∑∑-+-2
2
)ˆ()ˆ(y y y y
2
)
(∑-y y 反映了y 的总变异程度,称为y 的总平方和,记为SSy ;∑-2)ˆ(y y
反映了由于y 与x 间存在直线关系所引起的y 的变异程度,称为回归平方和,记为
SS R ;
2
)
(∑-y y 反映了除y 与x 存在直线关系以外的原因,包括随机误差所引起的y
的变异程度,称为离回归平方和或剩余平方和,记为SSr 。

所以:r R y SS SS SS +=
这表明y 的总平方和剖分为回归平方和与离回归平方和两部分。

与此相对应,y 的总自由度dfy 也划分为回归自由度dfr 与离回归自由度dfr 两部分,即
r R y df df df +=
在直线回归分析中,回归自由度等于自变量的个数,即1=R df ;y 的 总 自 由度1-=n df y ;离回归自由度2-=n df r 。

于是:离回归均方r r r df SS MS /=,回归 均方R R R df SS MS /=。

2、回归关系显著性检验—F 检验
x 与y 两个变量间是否存在直线关系,可用F 检验法进行检验。

无效假设HO :β=0,备择假设HA :β≠0。

在无效假设成立的条件下,回归均方与离回归均方的比值服从11=df 和22-=n df 的F 分布,所以可以用 )
2/(//-===
n SS SS df SS df SS MS MS F r R
r r R R r R df1=1,df2=n-2
来检验回归关系即回归方程的显著性。

回归平方和还可用下面的公式计算
得到: 22)]([)ˆ(∑∑-=-=x x b y y
SS R xy x bSP SS b x x b ==-=∑222)(
x
xy
xy x
xy SS SP SP SS SP 2
=
⋅=
可得到离回归平方和计算公式为: x
xy
y R y r SS SP SS SS SS SS 2
-
=-=
对于【例题】资料,有,67.831491=y SS ,00.36585=xy SP 00.1685=x SS
60.79433900
.168500.365852
2
===x xy
R SS SP SS
07.3715260.79433967.831491=-=-=R y r SS SS SS
而10212,1,111121=-===-=-=r R y df df n df 。

于是可以列出方差分析表进行回归关系显著性检验
因为01.0,04.1081.213)10,1(01.0<=>=P F F ,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系。

3、回归系数的显著性检验—t 检验
采用回归系数的显著性检验—t 检验也可检验x 与y 间是否存在直线关系。

回归系数显著性检验的无效假设和备择假设为 H O :β=0,H A :β≠0 t 检验的计算公式为: 2,-==
n df S b
t b
x
yx b SS S S =
其中,Sb 为回归系数标准误。

对于【例题】资料,已计算得 9525.60,00.1685==yx x S SS
4849.11685/9525.60/===x yx b SS S S
62.144849
.17122.21===
b S b t 当102122=-=-=n df ,查t 值表,得228.2)10(05.0=t ; 169.3)10(01.0=t
因)10(01.062.14t t >= 01.0<P
否定HO :β=0,接受HA :β≠0,即直线回归系数b=21.7122是极显著的,表明四川白鹅 70 日龄重 与雏鹅重间存在极显著的直线关系,可用所建立的直
线回归方程来进行 预测和控制。

F 检验的结果与t 检验的结果一致。

事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。

四、直线相关
我们把比值/)ˆ(2∑-y y
2
)
(∑-y y 叫 做x 对y 的决定系数(coefficient of
determination ),记为r 2
,即 ∑∑--=
2
22
)
()ˆ(y y y y
r
决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。

显然有0≤r 2≤1。

因为
xy yx y
xy
x xy y
x xy
b b SS SP SS SP SS SS SP y y y y
r
⋅=⋅=
=
--=
∑∑2
2
22
)()ˆ( y
x xy
SS SS SP r =
⎥⎥

⎤⎢⎢⎣⎡-⎥⎥⎦⎤⎢⎢⎣⎡--
=
∑∑∑∑∑∑∑n y y n x x n y x xy 2
2
22)()()
)(( 【例题2】 计算10只绵羊的胸围(cm )和体重(kg) 的相关系数。

表8-3 10只绵羊胸围和体重资料
根据表8-3所列数据先计算出:6410/)720(51904/)(222=-=∑-∑=n x x SS x
57810/)680(46818/)(222=-=∑-∑=n y y SS y
16310/)680)(720(49123/))((=-=∑∑-∑=n y x xy SP xy
8475.0578
64163
=⨯=
⋅=
y
x xy SS SS SP r
2、相关系数的显著性检验
根据实际观测值计算得来的相关系数r 是样本相关系数, 它是双变量正态总体中的总体相关系数ρ的估计值。

样本相关系数r 是否来自ρ≠0的总体,还须对样本相关系数r 进行显著性检验。

此 时 无 效 假 设、备 择 假 设 为HO:ρ=0,HA:ρ≠0。

与直线回归关系显著性检验一样,可采用t 检验法与F 检验法对相关系数r 的显著性进行检验。

t 检验的计算公式为 t=
r
S r
,df=n-2 其中,)2()1(2--=n r S r ,叫做相关系数标准误。

F 检验的计算公式为:
F=)
2()1(22
--n r r , df1=1,df2=n-2 统计学家已根据相关系数r 显著性t 检验法计算出了临界r 值并列出了表格。

所以可以直接采用查表法对相关系数r 进行显著性检验。

具体作法是:
先根据自由度n-2查临界r 值 (附表8),得)2(05.0-n r ,)2(01.0-n r 。

若|r|<)2(05.0-n r ,
P >0.05,则相关系数r 不显著,在r 的右上方标记“ns”;若 ≤|r|<)2(05.0-n r ,0.01<P≤0.05,则相关系数r 显著,在r 的右上方标记“*”;若|r|≥
)2(01.0-n r ,P ≤ 0.01,则相关系数r 极显著,在r 的右上方标记“**”。

对于【例
2】,因为 df =n-2=10-2=8,查附表8得:)8(05.0r =0.632,)8(01.0r =0.765,而r=0.8475>)8(01.0r ,P <0.01,表明绵羊胸围与体重的相关系数极显著。

相关文档
最新文档