第十章多元回归和相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、自变数的相对重要性
偏回归系数bi本身并不能反映自变数的相对重要性,
其原因有二:
①bi是带有具体单位的,单位不同则无从比较; ②即使单位相同,若Xi的变异度不同,也不能比较。 通径系数(path coefficient,记作pi):即对bi进行标
准化,在分子和分母分别除以Y 和Xi的标准差,从而 消除单位和变异度不同的影响,获得一个表示Xi 对Y
(10·12) (10·13)
三、最优多元线性回归方程的统计选择
剔除不显著自变数的过程称为自变数的统计选择, 所得的仅包含显著自变数的多元回归方程,叫做最 优的多元线性回归方程。
逐步回归(stepwise regression):为了获得最优方 程,回归计算就要一步一步做下去,直至所有不显 著的自变数皆被剔除为止。
一、 多元相关
多元相关或复相关(multiple correlation):在
M=m+1个变数中,m个变数的综合和1个变数的相
关。
偏相关(partial correlation):在其余M-2个变数皆
固定时,指定的两个变数间的相关。
(一) 多元相关系数
在m个自变数和1个依变数的多元相关中,多元相关
的偏相关系数;
若有M 个变数,则偏相关系数共有M(M-1)/2个。
偏相关系数的取值范围是[-1,1]。
偏相关系数解法是:由简单相关系数rij(i,j=1,
2,…,M )组成的相关矩阵:
r11 R(rij)MM rrM 211
r12 r22
rM2
r1M r2M
rMM
求得其逆矩阵:
c c1 23 3 s2 y/ c33
12(13 0·9)
s b i =sy/12…m c(i1)(i1)
(10·10)
t bi i
s bi
服从 n(的mt1)分布,可测验 bi 的显著性。
(10·11)
2. F 测验
U Pi
bi2 c(i1)(i1)
U Pi 就是y对xi的偏回归平方和, 1 。 FQy/12m/U[nPi(m1)]
一个m元线性回归方程可给定为:
y ˆ b 0 b 1 x 1 b 2 x 2 b m x m (10·3)
b0是x1、x2、…、xm 都为0时y 的点估计值;b1是 by1·23…m 的简写,它是在x2,x3,…,xm 皆保持一 定时,x1 每增加一个单位对y的效应,称为x2, x3,…,xm 不变(取常量)时x1 对y 的偏回归系数
具有= m;Qy/12…m与 x1、x2、…、xm的不同无关,
具有=n-(m+1),由之构成的F 值:
FQy/1U 2my//1[n2m /(m m1)]
(10·8)
(二) 偏回归关系的假设测验
偏回归系数的假设测验,就是测验各个偏回归系数
bi(i=1,2,…,m)来自 =i 0的总体的概率,所作的假
一个m元线性回归总体的线性模型为:
Y j 0 X 0 1 X 1 j 2 X 2 j m X m j j
(10·1)
其中,
j ~N( 0,
2
)。
一个m元线性回归的样本观察值组成为:
y j b 0 b 1 x 1 j b 2 x 2 j b m x m e j j(10·2)
(二) 偏相关系数 ij . 的假设测验
t rij· n M 1 rij2·
可测验H0: ij . = 0 对 HA: ij . ≠0。该测验的 t 具
有nM。
三、偏相关和简单相关的关系
当要排除其他变数干扰,研究两个变数间单独的关 系时采用偏相关与偏回归;
当考虑到变数间实际存在的关系而要研究某一个变 数为代表的综合效应间的相关与回归时则采用简单 相关和简单回归。
系数记作 Ry·12…m ,读作依变数y和m个自变数的多
元相关系数。
Ry·12…m=
Uy/1 2 m 1Qy/1 2 m (10·15)
SSy
SSy
多元相关系数为多元回归平方和与总变异平方和之 比的平方根。
Ry·12…m的存在区间为[0,1]。
(二) 多元相关系数的假设测验
令总体的多元相关系数为 ,则对多元相关系数的 假设测验为H0: 0对HA: ,0
F 测验 :
F
2 R2 1(1 R2
)
(10·16)
其中的
1
=m, 2
=n-(m+1),R2为
R
2 y·
12m
的简
写。
二、偏相关
(一) 偏相关系数
偏相关系数:表示在其它M-2个变数都保持一定时,
指定的两个变数间相关的密切程度。
偏相关系数以r 带右下标表示。如有X1、X2、X3 3个 变数,则r12·3表示X3变数保持一定时,X1和X2变数
c11 R1 (cij)MM c21
c12 c2 2
c1M c2M
cM1 cM2 cMM
令xi 和xj 的偏相关系数为rij·,解得 c后ij 即有
rij· c ij c ii c jj
(10·18)
矩阵以主对角线为轴而对称,即rij =rji。逆阵 R-1中
的元素也是以主对角线为轴而对称的 cij cji 。
(10·5)
(三) 多元回归方程的估计标准误
Qy/12…m 称为多元离回归平方和或多元回归剩余平 方和,它反映了回归估计值和实测值y之间的差异。
Q(yyˆ)2最小
自由度: = n-(m+1)
sy/12…m
Qy/12m n (m 1)
(10·6)
二、多元回归的假设测验
(一) 多元回归关系的假设测验
设为H0:
=i0对HA:
≠0,测验方法有两种。
i
1.t 测验
ˆb 20 V (b) ˆˆb b1 2b b0 0
ˆ b0b1
ˆ2 b1
ˆ b2b1
ˆˆˆb bb 1 0 2 b b 22 2 (X X )1s2 y/x c c c1 3 21 1 1
c12 c22 c32
(partial regression coefficient) 。
பைடு நூலகம்
(二) 多元回归统计数的计算
(10·2) 用矩阵表示为:
y1 1
y2
yn
11
x11 x12
x1n
xm1 xm2
xmn
b0 bbm 1
e1 e2
en
即
Y=Xb+e
(10·4)
其中
b(XX)1XY
测验 m 个自变数的综合对 Y 的效应是否显著。若令 回归方程中b1、b2、…、bm 的总体回归系数 为 、1 、2 … 、 ,m则这一测验所对应的假设为H0:
12 m 0 对HA: i 不全为0。
由于多元回归下 SSy 可分解为 Uy/12…m 和 Qy/12…m 两部分,Uy/12…m由 x1、x2、…、xm的不同所引起,
相对重要性的统计数。
pi bi 11//SSSSxyi//((nn11))bi
S Sxi SSy
(10·14)
通径系数 pi 统计意义是:若 Xi 增加一个标准差单 位,Y 将增加(pi>0)或减少(pi<0)pi 个标准差单位。
第二节 多元相关和偏相关
一、多元相关 二、偏相关 三、偏相关和简单相关的关系
第十章多元回归和相关
本章主要内容有:
①确定各个自变数对依变数的各自效应和综合效应, 即建立由各个自变数描述和预测依变数反应量的多 元回归方程;
②对上述综合效应和各自效应的显著性进行测验, 并在大量自变数中选择仅对依变数有显著效应的自 变数,建立最优多元回归方程;
③评定各个自变数对依变数的相对重要性,以便研 究者抓住关键,能动地调控依变数的响应量。
自变数统计选择的具体步骤为:
第一步:m个自变数的回归分析,一直进行到偏回
归的假设测验。
第二步:m-1个自变数的回归分析,也是一直进行到
偏回归的假设测验。
第三步:m-2个自变数的回归分析,又一直进行到偏
回归的假设测验。 ……如此重复进行,直至留下的所有自变数的偏回归
都显著,即得最优多元线性回归方程。