统计学第十一章 多元回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

由方程组中的第一个方程可得
b0 y b1 x1 b2 x2 bm xm
现引入如下记号:
Sii ( xij xi ) 2
j 1 n
称为自变量xi的校正平方和 称为因变量y的校正平方和 称为自变量xi和xk的 校正交叉乘积和 称为自变量xi和因变 量y的校正交叉乘积和
S11 ( x1 x1 ) 2.257
2
S22 ( x2 x2 )2 103.730 ;
S1y ( x1 x1 )( y y) 7.885
S12 ( x1 x1 )(x2 x2 ) 6.827
S2 y ( x x2 )( y y) 93.753
S11b1 S12b2 S1mbm S1 y S 21b1 S 22b2 S 2 mbm S 2 y S m1b1 S m 2b2 S mm bm S my
解此正规方程组即可得偏回归系数b1, b2, …, bm的解。而
三、多元线性回归方程的显著性检验
多元线性方程求出后,往往需要做关于模拟参量的检
验。在多元线性回归模拟中,随机误差是服从正态分
布的随即变量。因此,Y亦为独立正态随机变量。在多 元线性回归中,关于回归显著性检验的假设是:
H 0 : 1 2 k 0 H A : 至少有一个 i 0
89.3788 23.1512 112.5300
自由度
2 12
均 方
44.6894 1.92927
F
23.16389**
F2,12,0.01=6.927,F>F0.01,拒绝H0:j=0。结论是Y与
Xj之间的回归极显著。
四、回归系数的显著性检验
在各自变量之间相关不显著时,一个简单直观的方 法是比较各回归系数的绝对值,绝对值愈大愈重 要。在各自变量的单位都一致时,可以做这样的 比较。在自变量的单位不一致时,不能直接地比 较。可以采用标准回归系数(standard regression coefficient)来消除这种影响。
j 1
根据微积分多元函数求极值方法,若使Q 达到最 小,则应有
n Q 2 ( y j b0 b1 x1 j b2 x2 j bm xmj ) 0 b0 j 1 n Q 2 xij ( y j b0 b1 x1 j b2 x2 j bm xmj ) 0 bi j 1
第十一章 多元线性回归分析

上一章里,我们介绍了一元线性回归分析。一元 线性回归研究的是一个因变量与一个自变量之间 的回归问题。 但是在生命科学研究的许多实际问题中,影响因 变量的自变量往往不止一个,而是多个。譬如, 绵羊的产毛量这一变量同时受到绵羊体重、胸围、 体长等多个变量的影响。


因此需要进行一个因变量与多个自变量间的回归 分析,即多元回归分析,而其中最为简单、常用 并且具有基础性质的是多元线性回归分析。

研究多元线性回归的思想、方法和原理与一元
线性回归基本相同,但是其中要涉及到一些新
的概念以及进行更细致的分析,特别是在计算
上要比一元线性回归分析复杂得多,当自变量
较多时,需要用电子计算机进行计算。
多元线性回归分析的基本任务包括:
(1)根据因变量与多个自变量的实际观测值建立因
变量对多个自变量的多元线性回归方程;
其中,b0 , b1 , b2 ,, bm为 0 , 1 , 2 ,, m的最小二乘估计值, 即b0 , b1 , b2 ,, bm应使实际观测值 与回归估计值ˆ的偏差 y y 平方和最小。
ˆ 偏差平方和 Q ( y j y j ) 2
j 1 n
n
( y j b0 b1 x1 j b2 x2 j bm xmj ) 2
单株产量y
7.8 2.8 3.2 10.7 5.3 9.1 6.3 8.6 4.1 6.8 6.8 3.7 1.6 2.2 2.4
主穗重x1
有效蘖数 x2
2.6
9
1.6
1
1.8
1
2.7
6
2.2
4
2.0
7
2.5
3
1.8
6
1.8
2
1.5
4
2.5
5
2.3
1
1.6
0
2.2
0
1.7
3
解:欲得到正规方程组,我们先求
S yy ( y j y ) 2
j 1
n
Sik ( xij xi )(xkj xk ) Ski
j 1
n
n
Siy ( xij xi )( y j y )
j 1
并将b0 y b1 x1 b2 x2 bm xm分别代入方程组中的 个方程, m 经整理可得到关于偏回 归系数b1 , b2 ,, bm的正规方程组 为:
ˆ Y 1.828 3.524X1
这时穗重每变化一个单位,单株重平均改变3.524个单 位,远远大于二元回归中的b1。若只考虑有效蘖数对 单株重的影响,回归方程为: ˆ Y 3.551 0.9038X 2 其回归系数亦不同于二元回归中的b2 。特别是当两个 自变量之间有密切相关时,差异就更大,甚至得出相 反的结论。
bj服从正态分布,可以用t检验对bj的显著性做检验。
t
bj MS e Sij
第二节 复相关分析
一、复相关系数(multiple correlation coefficient) 在一元回归中,回归的显著程度可用相关系数来表示。 同样在多元回归问题中,可以用复相关系数表示。对于 一个多元回归问题,Y与X1,X2,… ,Xk 的线性关系密 切程度,可以用多元回归平方和与总平方和的比来表示。 因此复相关系数由下式给出,
例1的RY· =为: 1,2
RY 1, 2
89.3788 0.8912 112.530
从附表(相关系数检验表)中查出,当独立自变量个

方程中的0.949和0.841都称为偏回归系数, 0.949表示在有效蘖数相同的情况下,主穗 重每改变一个单位,单株穗重平均改变 0.949个单位。同样,0.841表示在主穗重都 相同的情况下,有效孽数每改变一个单位,
就引起单株重平均改变的单位数。由此可见, 偏回归系数是指在其它自变量都固定时,其
RY 1,2,,k
SSe SS R 1 SYY SYY
复相关系数R等于实际观察值Y与回归估计 值之间的简单相关系数,
RY 1,2,,k ry p y p ˆ , p 1,2,, n
对复相关系数的显著性检验,相当于对整个回归的方差分 析。在做过方差分析之后,就不必再检验复相关系数的显 著性,也可以不做方差分析。
x1 x11 x12 … x1n
x2 x21 x22 … x2n
… … … … …
xm xm1 xm2
xmn
多元线性回归分析假定因变量y与自变量x1, x2, …, xn 之间存在线性关系,其数学模型为:
y j 0 1 x1 j 2 x2 j m xmj j , ( j 1,2,, n)
中一个自变量对因变量的影响。
在上述两个自变量同时影响一个因变量的情况下,只 有用二元回归分析,才能得到可靠的结果。若只考虑 其中的一个因素,用一元回归分析,另一个因素并不 固定,这时所得到的回归系数b,并不能真正表示该变 量对因变量贡献的大小。例如,上例中若只考虑主穗 重对单株产量的影响,回归方程为:
b0 y b1 x1 b2 x2 bm xm .
求出b0, b1, b2, …,bm后,我们就得到m元线性回 归方程
ˆ y b0 b1 x1 b2 x2 bm xm
其中b0为常数项;b1,b2,… ,b m分别称
为 Y 对 X1 , X2 , … , Xm 的 偏 回 归 系 数
其中, j ~ N (0, 2 )。
我们进行多元回归分析的一个主要任务就是根据 实际观测值计算出 β0, β1, β2,…, βm以及σ2的估计 值。
二、多元线性回归方程的建立
假设y对自变量x1, x2, …, xn 的m元线性回归方 程为:
ˆ y b0 b1 x1 b2 x2 bm xm .
拒绝H0意味着至少有一个自变量对因变量是有影响的。
检验的程序与一元的情况基本相同,即用方差分析的 方法。将总平方和分解为回归平方和与剩余平方和,
SST SSR SSe
回归平方和由下式计算,
k
SSR b j S jY
j 1
剩余平方和,
SSe SST SS R SYY b j S jY
标准回归系数bj‘与回归系数 bj 之间有如下关系:
bj b j Sij SYY
例1的标准回归系数分别为:
2.257 b1 0.949 0.1344 112.530 103.730 b2 0.841 0.8074 112.530
在这个例子中,两个自变量的单位是不一致的。所以,在
j 1
k
总的自由度为n-1,回归项的自由度等于自变量的个数 k,剩余项的自由度为本n-k-1。下面对例1的回归方
程做显著性检验。回归平方和与剩余平方和分别为:
SSR b j S jY
j 1
k
,
j 1,2
SSR b1 S1Y b2 S 2Y 0.949 2.257 0.841 103.730 89.3788 SSe S YY SSR 112.530 89.3788 23.1512
(i 1,2, , m)
经整理得
nb0 ( x1 )b1 ( x2 )b2 ( xm )bm y ( x1 )b0 ( x12 )b1 ( x1 x2 )b2 ( x1 xm )bm x1 y 2 ( x2 )b0 ( x2 x1 )b1 ( x2 )b2 ( x2 xm )bm x2 y 2 ( xm )b0 ( xm x1 )b1 ( xm x2 )b2 ( xm )bm xm y
标准回归系数之间的比较,与在回归系数之间的比较是不
一致的,即b1>b2及b2'>b1'。它的生物学意义是:小 麦单株产量是有效蘖数的贡献大于主穗重。所以在生产实 际中,增加有效蘖数是提高小麦单株产量的主要途径。 为了确定有效蘖数和主穗重分别对小麦单株产量的影响是
否显著,还必源自文库对回归系数做显著性检验。
所以正规方程组为
2.257b1 6.827b2 7.885 6.827b1 103.730b2 93.753
解此方程组得偏回归系数为b1=0.949,b2=0.841。
因此,b0 y b1 x1 b2 x2 0.541
所以,单株产量对主穗重及有效蘖数的二元线性 回归方程为 ˆ y 0.541 0.949x1 0.841x2
因此
SSR 89.3788 MS R 44.6894 2 2 SSe 23.1512 MS e 1.92927 15 2 1 12
检验统计量,
MS R 44.6894 F 23.16389 MS e 1.92927
列成方差分析表:
变差来源
回 归 剩 余 总 和
平方和
(partial regression coefficient)。它表示 当其它自变量都固定时,该自变量每变化 一个单位而使因变量平均改变的数值。
例1,小麦单株产量不仅与单穗重有关,而且与有效蘖有关。 下表中的数据是在作小麦性状调查时的一部分记录。主穗 重与有效蘖数为自变量,单株产量为因变量,求二元线性 回归方程。
(2)检验各个自变量对因变量影响的显著性,选择
仅对因变量有显著性影响的自变量,建立最优的多
元线性回归方程;
(3)评定各个自变量对因变量影响的相对重要性。
第一节 多元线性回归方程
一、数据结构及模型
设因变量y与自变量x1, x2, …, xm 共n组实际观测数据为
序号 1 2 … n
y y1 y2 … yn
相关文档
最新文档