第二章 回归分析与相关分析(2)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章 回归分析与相关分析

§3 多元线性回归分析

在现实地理系统中,任何事物的变化都是多种因素影响的结果,一因多果、一果多因的情况比比皆是。为了处理一果多因的因果关系问题,我们需要掌握多元线性回归知识。本节着重讲述二元线性回归分析。至于三元以上,基本原理可以依此类推。

1 基本模型

二元线性回归模型可以表为

2211x b x b a y ++=, (3-1)

式中a 、b 1、b 2为待定的偏回归参数(partial regression coefficient )。理论上的预测模型为

i i i x b x b a y

2211ˆ++=. (3-2) 原则上讲,式(3-2)中的参数a 、b 1、b 2与式(3-1)中的a 、b 1、b 2是有区别的:式(3-1)的是真实的系数值,式(3-2)的是计算的系数值。但为了方便起见,我们不作符号上的区分。实测数据的模型可以表作

d y

d x b x b a y i i i i i ±=±++=ˆ2211, (3-3) 从而

i i i i i i x b x b a y y

y d 2211ˆ---=-=. (3-4) 令

min )(1

222111

2

→---==∑∑==n

i i i i n i i x b x b a y d S . (3-5)

为求极值,分别对a 、b 1、b 2求偏导,并令其为零,可得

0)(22211=---=∂∂∑i

i i i x b x b a y a S

, (3-6) 0)(2122111=---=∂∂∑i i

i i i x x b x b a y b S

, (3-7)

0)(2222111=---=∂∂∑i i

i i i x x b x b a y b S

. (3-8) 上面三式可以化为正规方程形式

⎪⎪⎩⎪⎪⎨⎧=++=++=++∑∑∑∑∑∑∑∑∑∑∑i i i i i i

i i i i i i i i i y x x b x x b x a y x x x b x b x a y x b x b an 2222211212122

1112211. (3-9) 根据线性代数的有关原理,可令

∑∑∑∑∑∑∑∑∑=222122121121i

i

i

i

i

i

i

i

i

i

i i i x x x y x x

x x y x x

x y A , ∑∑∑∑∑∑∑∑=

2222211121i

i i

i

i

i

i

i

i i i x y x x

x x y x x x y n

B ,

∑∑∑∑∑∑∑∑=i

i

i

i

i

i i

i

i

i i y

x x x x y

x x x y

x n B 2212121112

, ∑∑∑∑∑∑∑∑=

222122121121i

i

i

i

i

i

i

i i i x

x x x

x x x x x x n

C .

借助Cramer 法则容易得到

C A

a =

,C B b 11=,C

B b 12=. (3-10) 2 回归结果的检验

检验的类型与一元线性回归相似,包括相关系数检验、标准误差检验、F 检验、t 检验

和DW 检验。但是,对于多元回归分析,相关系数不再等价于F 检验和t 检验。而且相关系数的检验也比一元的情况要复杂许多。 ⑴相关系数检验

对模型拟合优度的检验,包括以下几种相关系数: I. 复相关系数(multiple correlation coefficient )

又称多重相关系数,用于度量因变量的观测值与由自变量经回归方程算得的预测值之间的关系的强度。复相关系数包含了所有自变量与因变量的相关信息,其定义类似于一元线性回归中的相关系数, 计算公式为

∑∑∑∑---

=

--=

2

2

2

2)

()ˆ(1)

()ˆ(y y y

y y y

y y R i

i i

i

i , (3-11)

其值取正数,即有10≤≤R 。

可以看出,测定系数(R 2)可以反映回归变差在总变差中所占的比重——R 2值表明变量相关的密切程度。在多元回归分析中,为了避免由于自变量数目(k )增加而过高估计相关性的实际情况,有必要对R 2进行修正,修正后的公式为

1

)1)(1(1~22

-----=k n R n R . (3-12)

式中n 为样本数目,k 为变量数目——对于二元线性回归,显然k =2。

问题在于,在多元回归模型中,由于自变量鱼龙混杂,有些伪相关甚至不相关的变量滥竽充数,但复相关系数只反映总体相关效果,不显示个别变量的信息。为此,我们需要更多

的相关系数检验。 II 简单相关系数

简单相关系数分别反映各个自变量与因变量的相关关系,计算公式为

2

2

1

11

1)()())((1∑∑∑----=

y y x x y y x x R i

i

i i

yx , (3-13)

2

2

2

22

2)

()())((2∑∑∑----=

y y x x y y x x R i

i

i i

yx . (3-14)

上面二式只考虑x 1、x 2对y 的个别影响,不尽准确。既然x 1、x 2都与y 线性相关,则x 1与x 2之间也可能线性相关,相关系数的计算公式为

2

2

22

1

12

21

1)

()())((21∑∑∑----=

x

x x x x x x x R i

i

i

i

x x . (3-15)

III 偏相关系数(partial correlation coefficient ) 简单相关系数旨在反映变量之间两两线性关系,但实际上,每一个简单相关系数不可能不包括其他因素的相关信息。为了克服简单相关系数的虚假性,有人设计了另一种检验指标,称为偏相关系数。偏相关系数旨在排除其它因素的影响,单纯反映某个自变量与因变量之间的密切程度,计算方法如下

)

1)(1(222

12

21211x x yx x x yx yx y x R

R

R R R R ---=

(这里假定x 2i 固定不变) (3-16)

)

1)(1(222

11

21122x x yx x x yx yx y x R

R R R R R ---=

(这里假定x 1i 固定不变) (3-17)

式中1yx R 、2yx R 、21x x R 分别为x 1与y 、x 2都与y 及x 1与x 2之间的简单相关系数。 当自变量较多时,利用公式计算偏相关系数相当麻烦,比较便捷的方式是借助相关矩阵(即简单相关系数构成的矩阵)进行运算,计算公式为

yy

jj jy y x c c c R j -=

. (3-18)

这里y x j R 为第j 个自变量与因变量y 的偏相关系数,c 为相关系数矩阵的逆矩阵中对应的元素。以三个自变量为例,简单相关系数矩阵可以表作

⎥⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢

⎢⎣⎡=yy y y y y y R R R R R R R R R R R R R R R R C 3

2

1

323332

312232221

1131211. (3-19) 假定C 的逆矩阵为

相关文档
最新文档