第四章 多元线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b1 SS1 b2 SP 12 bm SP 1m SP 1y b1 SP 12 b2 SS2 bm SP 2 m SP 2y b1 SP 1m b2 SP 2 m bm SSm SP my
9
在上述正规方程组中,SSm表示自变数x的平方和, SP12、SP1m…表示两个x变数的乘积和。解上述方程组, 可得b1、b2、…bm的解。然后计算回归截距a:
对于样本:
y j a b1x1 j b2 x2 j bm xmj e j
6
表1
多元线性回归资料整理表 自变数 x 依变数 y
组数
x1
x2
… … …
xm
1
2
x11
x12
x21
x22
… … …
… … …
xm1
xm2
y1
y2
┇
n
┇
x1n
┇
x2n
┇
… … … xmn
┇
yn
( i=1,2, … m ;j=1,2, … n )
b1 0.001187 0.000040 0.000403 114.4530 0.1282 b 0.000040 0.001671 0.005410 76.2799 0.0617 2 0.000403 0.005410 0.089707 11.2966 0.5545 b3
C矩阵也是一个对称的m×m阶矩阵,其中Cij=Cji, 此矩阵须满足:A-1×A=I ,其中I阵叫m阶单位矩阵;例 如m=3,有:
12
C11C12C13 SS1 C C C SP 21 22 23 12 13 SP C31C32C33
求得各个偏回归系数bi。
19
将上述各偏回归系数带入回归截距公式可得:
a 14.8722 0.1282 25.7002 0.0617 94.4343 0.5545 3.4344
=7.6552,
因而得回归方程:
ˆ 7.6552 0.1282x1 0.0617x2 0.5545x3 y
21
三、离回归标准误 在简单线性回归分析中,我们知道用Sy/x可以用来 反映回归方程估测精确度,在多元线性回归分析中也同 样可用离回归标准误反映回归方程的估测精确度。
Sy/x
Q dfQ
2 ˆ ( y y )
n2
简单线性回归
S y /1, 2,m
第四章
多元线性回归分析
Multiple Linear Regression Analysis
本章主要讲授内容:多元线性回归分析
的意义;多元线性回归方程的建立及其显著
性测验;对各偏回归系数的显著性测验,最 优多元线性回归方程的建立;评价各个自变 数对依变数影响的相对重要性等。
1
第一节
多元线性回归分析的意义
得到其系数矩阵的逆矩阵为:
C11C12 C13 0.001187 0.000040 0.000403 0.000040 0.001671 0.005410 C C C C 21 22 23 0.000403 0.005410 0.089707 C 31C 32 C 33
多元线性回归方程
一、多元线性回归的数学模型 设有m个自变数,以变数为y,共有n组实际观测数据,则 可以整理为表1。假如y与x1、x2、…… xm之间存在线性关系, 则m元线性回归模型为:
y j y / x1 , x2 xm j
y j 1x1 j 2 x2 j m xmj j
7
在回归模型中:α为x1、x2、…xm皆取0时的y总体的
理论值;βi为在其它自变数x固定时xi对y的偏回归系数,
例如β1表示x2、x3、…xm皆保持一定时,x1每增加一个单
位对y总体的的平均效应,叫做x2、x3、…xm固定时,x1对y 的偏回归系数,其余同; y / x1 , x2 ,xm 为y依x1、x2、…xm 的条件总体平均数(简写作 y / 1, 2,m );εj为m元随机
对54头杂种猪的实测数据,经整理,得到以下相关数据,
请建立多元线性回归方程。 1. y 14.8722
x1 25.7002 x 2 94.4343
x 3 3.4344
2. SS1 846.2281 SS2 745.6041 SS3 13.8987 SSy 70.6617
由正规方程组可看出,方程组的系数矩阵是对称的。
解上述回归统计数bi的方法很多,但为了方便多元回
归分析中分析的统计程序、方便计算,一般采用先算得高 斯乘数(即系数矩阵的逆矩阵的各元素值)的方法:对于 上述方程组,若记:
SS1 SP 12 SP 1m SP SS SP 2m A 12 2 1m SP 2 m SSm SP
(i j )
Bij
Aij Bi. B. j Bii
(i j )
3. 由算阵B和K1列计算出C阵第一行各数值C11、C12、C13 , 同理,由B阵和K2、K3列分别算出C阵的第二、第三行。
16
表2
项目 算 阵 A 算 阵 B
1
解系数矩阵A的逆矩阵A-1(即C阵)
1 8 2 4 3 10 K1 1 0 0 0.125 -0.0625 -0.125 K2 0 1 0 0 0.125 -0.250 K3 0 0 1 0 0 0.20
20
一个m元线性回归方程,实际上就是在m个自变数 中,任何m-1个自变数固定,余下的1个自变数与y的关 系皆为线性。其回归截距会随着m-1个自变数的变化而 异,但是回归斜率不变。通常的多变数资料,只能在 一定区间内满足或近似满足这一条件,而不可能在任
何可能取得的区间内都符合这一条件,所以多元线性
回归方程一般不能用来外推y在各自变数取值区间之外 的反应量。
b1 b 2 b b m
SP 1y SP2 y B SPmy
11
则可用矩阵表示为:A×b=B
系数矩阵A的逆阵各元素即高斯乘数Cij(i、j=1,2,…m):
C11C12 C1m C C C 21 22 2m 1 A C C m1C m 2 C mm
2 误差 ,仍假定遵循 N (0, y 。 / 1, 2,m )
8
二、多元线性回归方程的建立
仍采用的是“最小平方法”,即离回归平方和最小。
Q ( y j y j ) 2 最小
j 1 n
Q (y - a - b1 x1 b 2 x 2 b m x m ) 2 最小
SP 12 SS2 SP 23
SP 1 0 0 13 0 1 0 SP 23 SS3 0 0 1
由上述关系可解得高斯乘数Cij,然后代入下式即可
bi Ci1SP 1 y Ci 2 SP 2 y Cim SP im
若用矩阵表达,即为:
我们知道,简单线性回归分析是依变数y在一个 自变数x上的回归。然而在许多实际问题中,影响依 变数的自变数往往不只是一个,而是多个。因此,在 研究工作初期,为了简化头绪,“逐个击破”,进行 一元回归分析是非常必要的,但在进一步研究时,必 须进行综合研究,即将多个和反应量(依变数y)有 关的自变数综合起来研究。
a y b1 x1 b2 x2 bm xm
于是可得回归方程:
ˆ a b1 x1 b2 x2 bm xm y
回归方程的另外一种表达式:
ˆ y b1 ( x1 x1 ) b2 ( x2 x2 ) bm ( xm xm ) y
10
C11C12 C1m SP 1y b1 C C C SP b 2y 2m 21 22 2 C m1C m 2 C mm my SP bm
13
关于求系数矩阵逆阵的方法有多种。现举一简单例示 之。有一方程组如下,试求b1、b2、b3。
2
3 1 2 3 1
4
10 8 4 10 0.234375 0.09375 -0.125
10
15 0.5 8 10 0.09375 0.4375 -0.250
15
30 1.25 1.25 5 -0.125 -0.250 0.200
A-1
2 3
17
例1:猪的瘦肉量是肉用型猪育种的重要指标。影响 猪瘦肉量的因素很多,如猪的眼肌面积、胴体长、膘厚等 性状。若设眼肌面积为x1(cm2)、胴体长为x2(cm)、 膘厚为x3(cm),瘦肉量为y(kg)。根据三江猪育种组
.4530 SP 3. SP 1 y 114 12 40.6832 SP 23 45.1511 SP 13 6.2594
SP 2 y 76.2799
SP 3 y 11.2966
18
846.2281 b1 40.6832 b2 6.2594 b3 114.4530 40.6832 b1 745.6041 b2 45.1511 b3 76.2799 6.2594 b1 45.1511 b2 13.8987 b3 11.2966
1
16 b1 4 b 2 25 b 3
15
1. 先将相关数据填入表2的算阵A;
2. 计算算阵B的各数值:计算方法分两种: (1)主对角线及其以下各Bij值:
Bij Aij Bi. B. j
(2)主对角线以上各Bij值
上述方程中的a值在此无生物学意义。B1表示在胴体长
和膘厚均固定时,眼肌面积每增加1cm2,瘦肉量平均增加
0.1282kg,例如若胴体长为100cm,膘厚为3cm,则 有
ˆ 12.1617 0.1282x1 y
;同理,b2表示在眼肌面积和膘厚固
定时,胴体长每增加1cm,瘦肉量平均增加0.0617kg, b3 表示在眼肌面积和胴体长固定时,膘厚每增加1cm,瘦肉 量平均减少0.5545kg。
8b1 4b2 10b3 16 4b1 10b2 15b3 4 10b1 15b2 30b3 25
解得该方程的b1=1,b2=-3,b3=2。得回归方程:
ˆ a x1 3x2 2 wenku.baidu.com3 ,具体步骤及方法为: y
14
8 4 10 4 10 15 10 15 30
3. 对上述自变数对依变数的单独效应和综合效应进行
显著性测验。
4
4. 测定回归方程的偏离度(即计算离回归标准误)。 5. 选择对依变数有显著效应的自变数,建立最优多 元线性回归方程。 6. 评定各个自变数对于依变数影响的相对重要性, 以利于抓住关键因素,达到调整和控制依变数反映 量的目的。
5
第二节
3
多元回归分析的基本任务有: 1. 确定各自变数对某一依变数的各自效应,即分别计
算出任一自变数(在其它自变数保持一定时)对依变数
的效应,此效应叫偏回归系数(partial regression coefficient)。 2. 建立由各个自变数描述和预测依变数的多元回归方 程,即确定各个自变数对某一依变数的综合效应。
依变数依两个或两个以上自变数的回归叫多元回
归或复回归(multiple regression)。
2
多元回归有多种类型(如多元线性回归、
多元非线性回归、正交多元回归等),而其中 最简单、常用、具有基础性质的是多元线性回 归分析。 多元线性回归分析的思想、方法和原理与 简单线性回归分析基本相同,但会涉及一些新 概念及更细致的分析,尤其是计算要繁杂些, 当自变数较多时可借助计算机进行计算。