多重线性回归分析【VIP专享】
合集下载
多重线性回归分析
F
M
2 B
M
2 W
(6)
在零假說
H0
下,
M
2 B
應該不會特別大過於
M
2 W
,因
其估值均來自於同一個母體方差σ2,在p%的信心水
準下:
若 F ,則 f p,n1,N n H0 將不被接受
(7)
當滿足此條件時則我們可判定此網形仍殘留系統性誤 差。
11
二、變異數分析法 - 續
閉合差之常態分佈檢定
d ij d i 2
j
(3)
測lin線es與)測: 線間(di)之變異數(Mean squares between
M
2 B
1 n 1
i
K i d i d 2
(4)
dij N
其中d為平均值 i j
9
二、變異數分析法 - 續
由於
測段。
令 Dij為為第i測線中第j測段的閉合差(mm),則測 段之每公里閉合差為dij(= Dij /Sij),各測線中之 每公里閉合差其平均值為di(=Σdij /Ki),則可
將水準網中之各閉合差列如表1:
6
二、變異數分析法 - 續 表1 各測線及線段之每公里閉合差
7
二、變異數分析法 - 續
oi ei 2
i 1
npi
i 1
ei
(8)
應為一近似於自由度為k-1之χ2分佈。
13
三、時間序列分析法
假設測量水準網內各測段之閉合差屬於互相獨立不相關 之隨機序列,為了描述此隨機序列,必須假設此序列為 穩定隨機,即其平均值及變異數為一固定常數,則自我 相關係數可由下式算得:
卫生统计学:12多重线性回归分析
校正决定系数、Cp准则、AIC准则
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000
11-多重线性回归分析
1个
1个
统计方法
简单线性相关
simple linear correlation
简单线性回归
simple linear regression
多重相关
multiple correlation
多重回归
multiple regression
典则相关
cononical correlation
多元回归
multivariate regression
量x 取值均为0时,y的平均估计值。
➢bi:变量xi的偏回归系数(partial regression coefficient),
是总体参数βi 的估计值;指在方程中其它自变量固定 不变的情况下, xi 每增加或减少一个计量单位,反应 变量Y 平均变化 bi个单位。
Yˆ b0 b1X1 b2 X 2 ... bp X p
问题:对NO浓度的贡献,哪个因素作用的大一点, 哪个小一些?
回归系数的标准化:
1.自变量数据的标准化: 2.求标准化偏回归系数:
X
' i
Xi Xi Si
用标准化的数据进行回归模型的拟合,算出它的方程,
此时所获得的偏回归系数b’,叫~。
b’无单位,可用来比较各个自变量对反应变量的贡献大小
比较:
未标准化的回归系数(偏回归系数):用来构建回归 方程,即方程中各自变量的斜率。
计值 Yˆ 之间的残差(样
本点到直线的垂直距离) 平方和达到最小。 .
两个自变量时回归平面示意图
通过SPSS等统计软件,拟合X1、X2 、X3 、X4关于空 气中NO浓度的多重线性回归方程,得:
Y 0.142 0.116X1 0.004X 2 6.55106 X3 0.035X 4
第五章 多元线性回归分析
• 解 采用SAS统计软件进行回归分析
• 得三元线性回归方程为
ˆ y 26.065 1.055 x1 12.855 x2 2.523 x3
二、回归方程和偏回归系数的假设检验 (一)回归方程的假设检验
1、F检验法
(1)离差平方和
SST=SSR+SSe
SST l yy ( yi y )
tj
bj S bj
• 式中,Sbj为偏回归系数的标准误
S bj S y 12m C jj
S y12m SSe (n m 1)
当有两个自变量时
b1 t1 S b1
df1 n m 1
S b1 S y 12 l22 2 l11l22 l12
b2 t2 Sb 2
• 例4 试用F检验法对上例1的偏回归系 数进行检验。 • 列出各自变量的偏回归平方和如表3。
表3 各自变量的偏回归平方和
方程内自变量
方程外自 变量 回归平方 和SSR 偏回归平 误差平方 方和SSj 和SSe
x1,x2,x3
―
625.08
―
6.13
x2,x3 x1,x3
x1,x2
x1 x2
x3
• 例6 试对例1进行统计选择。
• 解:对于例1,自变量x1,x3的影响均 不显著,所得回归方程不是最优方程, 必须剔除不显著影响因素,重新进行 回归分析。 • 此例中,SS1<SS3,因而先剔除x1,采 用SAS统计软件进行计算
• 程序
• • • • • • • • • • • DATA zp2; INPUT x2 x3 y @@; CARDS; 1.5 2 51.5 0.6 1 39.0 2.1 3 63.0 1.2 2 47.0 0.3 1 35.5 1.8 3 61.0 0.9 3 49.0 ;
1 多元线性回归分析
1. 自变量筛选的标准与原则 2. 自变量筛选的常用方法
1、自变量筛选的标准与原则
① 残差平方和SSE缩小与确定系数增大 ② 残差均方缩小与调整确定系数增大 ③ Cp统计量
2、自变量筛选的常用方法
① 所有可能自变量子集选择 ② Forward:前进法(向前选择法) ③ Backward:后退法(向后剔除法) ④ Stepwise:逐步回归法
♦ 是选择变量的有效方法。
前进法、后退法、逐步回归法的侧重点不
同。
当自变量之间不存在简单线性相关关系时,三种方法计算结果 是一致的。 当自变量之间存在简单线性相关关系时,前进法侧重于向模型 中引入单独作用较强的变量,后退法侧重于引入联合作用较强 的变量,逐步回归法则介于两者之间。
注意:剔除变量的标准(0.1)应 大于或等于引入变量的标准 (0.05)。
ANOVA b
Model
Sum of Squares
1
Regression 133.711
Residual Total
88.841 222.552
df Mean Square
4
33.428
22
4.038
26
F 8.278
Sig. .000a
a.Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
总变异 23 0.08123
R2=0.06396/0.08123=0.7874
确定系数的取值范围为0≤R2≤1。直接反映了 回归方程中所有自变量解释了反应变量总变异 的百分比。其值越接近于1,表示回归模型的拟 合效果越好。
3、调整的确定系数
调整的R2:记为
R2 = R 2 k(1 R2 )
1、自变量筛选的标准与原则
① 残差平方和SSE缩小与确定系数增大 ② 残差均方缩小与调整确定系数增大 ③ Cp统计量
2、自变量筛选的常用方法
① 所有可能自变量子集选择 ② Forward:前进法(向前选择法) ③ Backward:后退法(向后剔除法) ④ Stepwise:逐步回归法
♦ 是选择变量的有效方法。
前进法、后退法、逐步回归法的侧重点不
同。
当自变量之间不存在简单线性相关关系时,三种方法计算结果 是一致的。 当自变量之间存在简单线性相关关系时,前进法侧重于向模型 中引入单独作用较强的变量,后退法侧重于引入联合作用较强 的变量,逐步回归法则介于两者之间。
注意:剔除变量的标准(0.1)应 大于或等于引入变量的标准 (0.05)。
ANOVA b
Model
Sum of Squares
1
Regression 133.711
Residual Total
88.841 222.552
df Mean Square
4
33.428
22
4.038
26
F 8.278
Sig. .000a
a.Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
总变异 23 0.08123
R2=0.06396/0.08123=0.7874
确定系数的取值范围为0≤R2≤1。直接反映了 回归方程中所有自变量解释了反应变量总变异 的百分比。其值越接近于1,表示回归模型的拟 合效果越好。
3、调整的确定系数
调整的R2:记为
R2 = R 2 k(1 R2 )
多重线性回归分析.
这些指标越接近于1,说明回归模型拟合越好。
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
n m 1 SSreg F m SSE
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验
t bi / se(bi )
当P<0.05,则认为此自变量对因变量有影响。
残差:实际测量值和预测值之间的差异
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列情况时,观测值不是相互独立的:时间序列、 重复测量(某种药物使用后1个月两个月三个月的疗效)等情况。
SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的(此指标仅作参考。是否可使用多元分析主要依 据实验设计)。
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数;
R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 (若要做预测分析的话,R值的要求
较高,应>0.75。0.6凑活,0.3.,0.4预测效果很差。若只是做影响因素分析的 话0.5之类都还好)
标准化偏回归系数:对自变量、因变量作标准化处理后计 算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后, 二者之间的相关系数。与简单相关系数(Pearson相关系数) 不同;例如:考察因变量Y与自变量X1 、X2的多元回归分 析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量 与自变量之间的相关系数。与偏相关系数不同,部分相关 系数中因变量未扣除其他自变量的影响。
多重线性回归分析
多重线性回归分析
例:由于改革开放政策,深圳特区中外来人口大幅度增加, 为了考察特区中外来人口对本地经济发展的贡献,深圳特 区统计局收集了所属的宝安县在1987年末18个镇的人口 与工农业总产值数据(见数据文件reg.sav)。此处把工 农业总产值当作因变量(W),而把外地及本地人口数当 作两个自变量(Z1,Z2)。 (有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)
练习1
以下实例摘自 Hosmer, David W . (2000). Applied logistic regression . John Wiley, New York. 研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于 2500g时,认为是低出生体重婴儿)。研究收集了189例妇女的数据,其中 59例分娩低出生体重婴儿,130例分娩正常体重婴儿(数据见文件 data1.sav)。
2.Logistic模型
g ( x) 0 1 x1 2 x2 .... i xi .... m xm
g(x)是对P的变换,称为logit变换:
P g ( x) ln 1 P
可以得到:
P exp[ g ( x)] 1 exp[ g ( x)]
Logistic回归分析
(一)Logistic回归分析的任务
影响因素分析 logistic回归常用于疾病的危险因素分析,logistic回归 分析可以提供一个重要的指标:OR。
(二)Logistic回归分析的基本原理
1.变量特点 因变量:二分类变量,若令因变量为y,则常用y=1表 示“发病”,y=0表示“不发病”(在病例对照研究中, 分别表示病例组和对照组)。 自变量:可以为分类变量,也可以为连续变量。
例:由于改革开放政策,深圳特区中外来人口大幅度增加, 为了考察特区中外来人口对本地经济发展的贡献,深圳特 区统计局收集了所属的宝安县在1987年末18个镇的人口 与工农业总产值数据(见数据文件reg.sav)。此处把工 农业总产值当作因变量(W),而把外地及本地人口数当 作两个自变量(Z1,Z2)。 (有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)
练习1
以下实例摘自 Hosmer, David W . (2000). Applied logistic regression . John Wiley, New York. 研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于 2500g时,认为是低出生体重婴儿)。研究收集了189例妇女的数据,其中 59例分娩低出生体重婴儿,130例分娩正常体重婴儿(数据见文件 data1.sav)。
2.Logistic模型
g ( x) 0 1 x1 2 x2 .... i xi .... m xm
g(x)是对P的变换,称为logit变换:
P g ( x) ln 1 P
可以得到:
P exp[ g ( x)] 1 exp[ g ( x)]
Logistic回归分析
(一)Logistic回归分析的任务
影响因素分析 logistic回归常用于疾病的危险因素分析,logistic回归 分析可以提供一个重要的指标:OR。
(二)Logistic回归分析的基本原理
1.变量特点 因变量:二分类变量,若令因变量为y,则常用y=1表 示“发病”,y=0表示“不发病”(在病例对照研究中, 分别表示病例组和对照组)。 自变量:可以为分类变量,也可以为连续变量。
多重回归分析
i 、…、 m 的估计值 b0 、 b1 、 b2 、…、 bi 、…、 bm ,从而得到 Y 的估计表达式:
ˆ b b X b X b X Y 0 1 1 i i m m
例13-1测量了30名中学生的身高X1(cm)、体重X2(kg)、胸 围X3(cm)、坐高X4(cm)与肺活量Y(L),数据见表13-2 。 试对Y与X1、X2、X3、X4做多重线性回归分析。
共线性(collinearity)诊断
共线性:各自变量X1、X2、…、Xi、…、Xm之间不是独立 的因素变量,即彼此间有强的相关关系存在,其中某个自变 量可以通过其它的自变量来表达,叫作存在共线性,它会增 加所拟合的回归方程的方差而造成结果的不稳定性,甚至有 时无法得出合理的结果。 诊断方法: 相关分析 (r>0.7) 方差膨胀因子VIF(Variance Inflation Factor, >10) 条件指数(Condition Index, >100)
H1:各 i (i=1、2、…、m)不全为 0
α =0.05
F
SS误差 / n m 1
表 13-3 多重线性回归方差分析表
SS回归 / m
变异来源 回 归 误 差 总变异
自由度 m n-m-1 n-1
SS SS 回 SS 误 SS 总
MS
F
P
SS 回/m MS 回/MS 误 SS 误/(n-m-1)
满足的条件
应变量Y与自变量X1、X2、…、Xi、…、Xm之
间具有线性关系; 残差 ~ N (0, 2 ) ,即要求对任意一组自变量X1、 X2、…、Xi、…、Xm值所对应的应变量Y应相 互独立、服从正态分布、方差相等。
第12章 多重线性回归分析
回归模型? 空腹
血糖 (X4) 6.0 6.7 7.2 6.2 11.1 9.7 7.3 9.7 7.3 7.3 9.1 8.1
2
给定X时,Y是正态分布、等方差示意图
y
x
3
2 回归模型的前提假设
线性(linear) 独立(independent) 正态(normal) 等方差(equal variance)
恰好为“LINE”。
4
(1)a 为回归直线在 Y 轴上的截 距。
a > 0,表示直线与纵轴的交点在
原点的上方;
a < 0,则交点在原点的下方; a = 0,则回归直线通过原点。
ˆ b b X b X b X Y 0 1 1 2 2 k m
b0为截距(intercept),表示各自变量均为0时y的的估计值。 bi称为偏回归系数(partial regression coefficient),是βi的估 计值,表示当方程中其他自变量保持常量时,自变量Xi变化 一个计量单位,反应变量Y的平均变化量。
Y值在预测范围内。
17
如何建立回归模型?
X1
胰岛素
X2
糖化血红蛋白
Y
糖尿病人的血糖
X3
血清总胆固醇
X4
甘油三脂
18
outline
多重线性回归模型的建立 多重线性回归的假设检验 多重线性回归 自变量筛选
多重线性回归
x1 x2 x3 . . . xm Y
1.1 多元线性回归模型简介
因变量 Y
自变量为X1, X2, , Xk
ˆ Y Y
2Hale Waihona Puke n213回归系数与相关系数的假设检验
第11章 多重线性回归分析1
t= b =
Sb
S Y ⋅X /
b
∑ (X − X )2
两个结果一致:
t= F
10
多重线性回归分析的基本目的是用以上的一组 自变量(X1,X2,…,XP)的数值估计一个反应变
量(Y)及其变异性的统计分析方法。
多重线性回归的数学模型为: Y的平均数 = β0 + β1X1 + β2 X 2 + ⋅⋅⋅ + βP X P (11-1)
5
3. Cp统计量 C即Criterion,p为所选模型中变量的个数
由Mallows(1966)提出的Cp统计量近年来受 到了广泛的重视,其定义为:
CP
=
SS残,p MS残,全
+ (2 P +1)− n
(11-9)
模拟多个预测值,选择较小的Cp值,相应
的回归方程最优。详见下表。
31
32
结论:体重指数和瘦素每减少一个单位,脂联 素的平均水平改变1.08和0.75单位,从标准化回 归系数可看出瘦素对脂联素的影响较大。
此标准的缺陷?
每增加一个自变量,残差平方和总会减 少一些,决定系数总会增大,即使增加 无统计学意义的自变量,也会如此。
建议选用所有自变量进入进行分析比较。
29
2.残差均方(MS残)缩小或调整决定 系数(R2)增大
残差均方与残差平方和的关系式为:
MS残
=
n
SS残 − p −1
希望MS残愈小愈好,作为选择自变量的准则。 事实上,调整决定系数R2愈大愈好与MS残最小 化完全等价,分析见教材p198中段 。
33
二、自变量筛选的常用方法
α1:设为入选标准;α2设为剔除标准。
多重线性回归分析
16
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
下即使变得对因变量有较大的贡献了,也不能再 次被选入回归方程并参与检验。
38
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,
根据F统计量和P值大小按sle水平决定该自变量是 否入选。
39
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,
模型的显著性检验步骤为: 第一步,建立检验假设。
H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第二步,计算统计量F的值。
FSS残S/S回 n /kk1~Fk,nk1
归方程中的各个自变量所产生的F统计量和P值, 当P值小于sls(规定的从方程中踢除变量的临界水 准)则将此变量保留在方程中。
36
三、分析步骤
• 2.4.2 后退法 否则,从最大的P值所对应的自变量开始逐一
踢除,直到回归方程中没有变量可以被踢除时为 止。
37
三、分析步骤
• 2.4.2 后退法 局限性: sls大时,任何一个自变量都不能被踢除; sls小时,开始被踢除的自变量后来在新条件
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
下即使变得对因变量有较大的贡献了,也不能再 次被选入回归方程并参与检验。
38
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,
根据F统计量和P值大小按sle水平决定该自变量是 否入选。
39
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,
模型的显著性检验步骤为: 第一步,建立检验假设。
H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第二步,计算统计量F的值。
FSS残S/S回 n /kk1~Fk,nk1
归方程中的各个自变量所产生的F统计量和P值, 当P值小于sls(规定的从方程中踢除变量的临界水 准)则将此变量保留在方程中。
36
三、分析步骤
• 2.4.2 后退法 否则,从最大的P值所对应的自变量开始逐一
踢除,直到回归方程中没有变量可以被踢除时为 止。
37
三、分析步骤
• 2.4.2 后退法 局限性: sls大时,任何一个自变量都不能被踢除; sls小时,开始被踢除的自变量后来在新条件
多重线性回归分析1
23:17
4
根据研究的目的和收集到的数据,拟回答如下问题:
单位时间内过往的汽车数(千辆)、气温(℃)、空气 湿度(%)、风速(m/s)这四个因素是否都对空气中一 氧化氮(NO)的浓度(ppm)有影响?
如何定量地描述这些因素对一氧化氮浓度的影响?
哪个因素对一氧化氮浓度的影响最大?哪个因素的 影响最小?
23:17
26
2.6 变量筛选
为确保回归方程包含所有对反应变量有较大 影响的自变量,而把对反应变量作用不大或 可有可无的自变量排除在方程之外,这一统 计过程称为自变量的选择。
23:17
27
自变量筛选的统计学标准
1. 残差平方和(SSE)缩小与确定系数(R2)增大;
R2 1 SSE SST
23:17
12
X
* i
Xi Xi Si
标准化偏回归系数(standardized partial
regression coefficient),又称为通径系数(path coefficient)。标准化偏回归系数b’j较大的自变量对 反应变量Y 的影响较大。
23:17
13
2.2 回归参数的估计:
自由度 回归系数 标准误 t
P 标准化偏回归系数
19
0.116 0.027 4.23 0.0005
0.592
19
0.004 0.002 2.36 0.0289
0.273
19 -6.5510-6 0.001 -0.01 0.9925
-0.001
19
-0.035 0.011 -3.21 0.005
-0.448
一般采用检验推断总体偏回归系数是否为零。检 验的假设为
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
19
三、分析步骤
这就是自变量的选择问题,或称为变量筛选。 选择时,
一要尽可能地不漏掉重要的自变量; 二要尽可能地减少自变量的个数,保持模型的精简。
就回归方程而言,每个变量均有两种可能性, 即被选择或被踢除。所以,所有可能的模型有2k个 (k为自变量个数)。
自变量个数较多时,计算量过大。此时,需要 一定的变量筛选方法。
变量之间的线性依存关系,称为多重线性回归分 析(multiple linear regression analysis)。
自变量是相互独立的连续型变量或分类变量。
4
一、方法简介
• 1.3 数据结构
表1 进行多重线性回归分析资料的数据结构
编号
X1
X2
…
Xk
Y
1
X11
X12
…
X1k
Y1
2
X21
X22
…
若要考察一个自变量对Y 的影响,就必 须假设其他自变量保持不变。
因此,多重线性回归模型中的回归系数 为偏回归系数。
它反映的是当模型中的其他自变量不变 时,其中一个自变量对因变量Y 的均值的影 响。
7
二、基本原理
• 2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、
独立性(Independence)、正态性(Normality)和方 差齐性(Equal variance),即LINE条件。
22
三、分析步骤
当回归方程中变量少时某变量不符合入选标 准,但随着回归方程中变量逐次增多时,该变量就 可能符合入选标准;这样直到没有变量可入选为 止。
具体而言,是从仅含常数项(即截距项)的最 简单模型开始,逐步在模型中添加自变量。
23
三、分析步骤
局限性: sle取值小时,可能没有一个变量能入选; sle取值大时,开始选入的变量后来在新条件
假设检验; 对自变量进行共线性诊断,对观测值进行异常
值诊断; 结合统计学知识和专业知识,对回归方程进行
合理的解释,并加以应用。
10
三、分析步骤
• 2. 具体步骤 • 2.1 回归参数估计
多重线性回归分析的参数估计,常采用最小 二乘法(OLS)进行。
参数估计值为:
ˆ X X -1 X Y
11
三、分析步骤
下不再进行检验,因而不能剔除后来变得无统计 学意义的变量。
14
三、分析步骤
第二步,计算统计量F的值。
F SS回 / k
SS残 / n k 1
~ Fk,nk1
第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
除此之外,还要求多个自变量之间相关性不 要太强。
8
二、基本原理
• 2.2 前提条件 线性——指自变量与因变量之间的关系是线性的
独立性——指各观测值之间是相互独立的
正态性——指自变量取不同值时,因变量服从正 态分布
方差齐性——指自变量取不同值时,因变量的方 差相等
9
三、分析步骤
• 1. 基本任务 求出模型中参数的估计值,对模型和参数进行
X2k
Y2
:
:
:
:
:
n
Xn1
Xn2
…
Xnk
Yn
5
二、基本原理
• 2.1 原理简介 多重线性回归模型: Y=b0+b1X1+b2X2+…+bkXk+e=bX+e
其中,bj (j=0, 1 , 2 … , k)为未知参数,e为随机误 差项。
6
二、基本原理
多重线性回归模型中包含多个自变量, 它们同时对因变量Y 发生作用。
若t > ta/2(n-k-1)或t <- ta/2(n-k-1),则P<a。此
时,拒绝H0,接受H1,认为该回归系数不等于0。 反之,则接受H0,认为该回归系数为0。
18
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选
不是所有的自变量Βιβλιοθήκη 对因变量的作用都有统 计学意义。故需要找到一个较好的回归方程,使之满足: 方程内的自变量对回归都有统计学意义,方程外 的自变量对回归都无统计学意义。
第十一章 多重线性回归分析
内容
方法简介 基本原理 分析步骤 几点补充
2
一、方法简介
• 1.1 分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时 简单线性回归分析 研究一个因变量与多个自变量间的线性关系时 多重线性回归分析
3
一、方法简介
• 1.2 概念 用回归方程定量地刻画一个因变量与多个自
SS回归(回归平方和) v回归=1
SS残差(残差平方和) v残差=n-p-1
自变量的个数
SS总= SS回归+ SS残差 v总= v回归+ v残差
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第一步,建立检验假设。 H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
回归方程有统计学意义,可以说明整体上自 变量对Y 有影响,但并不意味着每个自变量对因 变量的影响都有统计学意义。
考察各个自变量对因变量的影响,即检验其 系数是否为0。
若某自变量对因变量的影响无统计学意义, 可将其从模型中删除,重新建立回归方程。
• 2. 具体步骤 • 2.2 模型检验
根据方差分析的思想,将总的离均差平方和 SS总分解为回归平方和SS回和残差平方和SS残两部 分。
SS总的自由度为n-1, SS回的自由度为k, SS 残的自由度为n-k-1。
12
Y Y 2 Yˆ Y 2 Y Yˆ2
{ { {
SS总(总平方和) v总=n-1
20
全局择优法
• 变量筛选 逐步选择法
校正决定系数R2c 选择法 Cp选择法
前进法 后退法
逐步回归法
三、分析步骤
• 2.4.1 前进法(FORWARD) 回归方程中变量从无到有依次选择一个自变
量进入回归方程,并根据该变量在回归方程中的 Ⅱ型离差平方和(SS2)计算F统计量及P值。
当P小于sle (规定的选变量进入方程的临界水 平)则该变量入选,否则不能入选。
16
三、分析步骤
• 对自变量Xi的系数是否为0进行假设检验, 步骤为: 第一步,建立检验假设。 H0:bi=0 H1: bi≠0
17
三、分析步骤
第二步,计算检验统计量。
t ˆi S ˆi
v n k 1
第三步,确定P值。
根据自由度和临界水平,查t分布表,可得双 侧界值为ta/2(n-k-1)。
三、分析步骤
这就是自变量的选择问题,或称为变量筛选。 选择时,
一要尽可能地不漏掉重要的自变量; 二要尽可能地减少自变量的个数,保持模型的精简。
就回归方程而言,每个变量均有两种可能性, 即被选择或被踢除。所以,所有可能的模型有2k个 (k为自变量个数)。
自变量个数较多时,计算量过大。此时,需要 一定的变量筛选方法。
变量之间的线性依存关系,称为多重线性回归分 析(multiple linear regression analysis)。
自变量是相互独立的连续型变量或分类变量。
4
一、方法简介
• 1.3 数据结构
表1 进行多重线性回归分析资料的数据结构
编号
X1
X2
…
Xk
Y
1
X11
X12
…
X1k
Y1
2
X21
X22
…
若要考察一个自变量对Y 的影响,就必 须假设其他自变量保持不变。
因此,多重线性回归模型中的回归系数 为偏回归系数。
它反映的是当模型中的其他自变量不变 时,其中一个自变量对因变量Y 的均值的影 响。
7
二、基本原理
• 2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、
独立性(Independence)、正态性(Normality)和方 差齐性(Equal variance),即LINE条件。
22
三、分析步骤
当回归方程中变量少时某变量不符合入选标 准,但随着回归方程中变量逐次增多时,该变量就 可能符合入选标准;这样直到没有变量可入选为 止。
具体而言,是从仅含常数项(即截距项)的最 简单模型开始,逐步在模型中添加自变量。
23
三、分析步骤
局限性: sle取值小时,可能没有一个变量能入选; sle取值大时,开始选入的变量后来在新条件
假设检验; 对自变量进行共线性诊断,对观测值进行异常
值诊断; 结合统计学知识和专业知识,对回归方程进行
合理的解释,并加以应用。
10
三、分析步骤
• 2. 具体步骤 • 2.1 回归参数估计
多重线性回归分析的参数估计,常采用最小 二乘法(OLS)进行。
参数估计值为:
ˆ X X -1 X Y
11
三、分析步骤
下不再进行检验,因而不能剔除后来变得无统计 学意义的变量。
14
三、分析步骤
第二步,计算统计量F的值。
F SS回 / k
SS残 / n k 1
~ Fk,nk1
第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
除此之外,还要求多个自变量之间相关性不 要太强。
8
二、基本原理
• 2.2 前提条件 线性——指自变量与因变量之间的关系是线性的
独立性——指各观测值之间是相互独立的
正态性——指自变量取不同值时,因变量服从正 态分布
方差齐性——指自变量取不同值时,因变量的方 差相等
9
三、分析步骤
• 1. 基本任务 求出模型中参数的估计值,对模型和参数进行
X2k
Y2
:
:
:
:
:
n
Xn1
Xn2
…
Xnk
Yn
5
二、基本原理
• 2.1 原理简介 多重线性回归模型: Y=b0+b1X1+b2X2+…+bkXk+e=bX+e
其中,bj (j=0, 1 , 2 … , k)为未知参数,e为随机误 差项。
6
二、基本原理
多重线性回归模型中包含多个自变量, 它们同时对因变量Y 发生作用。
若t > ta/2(n-k-1)或t <- ta/2(n-k-1),则P<a。此
时,拒绝H0,接受H1,认为该回归系数不等于0。 反之,则接受H0,认为该回归系数为0。
18
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选
不是所有的自变量Βιβλιοθήκη 对因变量的作用都有统 计学意义。故需要找到一个较好的回归方程,使之满足: 方程内的自变量对回归都有统计学意义,方程外 的自变量对回归都无统计学意义。
第十一章 多重线性回归分析
内容
方法简介 基本原理 分析步骤 几点补充
2
一、方法简介
• 1.1 分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时 简单线性回归分析 研究一个因变量与多个自变量间的线性关系时 多重线性回归分析
3
一、方法简介
• 1.2 概念 用回归方程定量地刻画一个因变量与多个自
SS回归(回归平方和) v回归=1
SS残差(残差平方和) v残差=n-p-1
自变量的个数
SS总= SS回归+ SS残差 v总= v回归+ v残差
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第一步,建立检验假设。 H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
回归方程有统计学意义,可以说明整体上自 变量对Y 有影响,但并不意味着每个自变量对因 变量的影响都有统计学意义。
考察各个自变量对因变量的影响,即检验其 系数是否为0。
若某自变量对因变量的影响无统计学意义, 可将其从模型中删除,重新建立回归方程。
• 2. 具体步骤 • 2.2 模型检验
根据方差分析的思想,将总的离均差平方和 SS总分解为回归平方和SS回和残差平方和SS残两部 分。
SS总的自由度为n-1, SS回的自由度为k, SS 残的自由度为n-k-1。
12
Y Y 2 Yˆ Y 2 Y Yˆ2
{ { {
SS总(总平方和) v总=n-1
20
全局择优法
• 变量筛选 逐步选择法
校正决定系数R2c 选择法 Cp选择法
前进法 后退法
逐步回归法
三、分析步骤
• 2.4.1 前进法(FORWARD) 回归方程中变量从无到有依次选择一个自变
量进入回归方程,并根据该变量在回归方程中的 Ⅱ型离差平方和(SS2)计算F统计量及P值。
当P小于sle (规定的选变量进入方程的临界水 平)则该变量入选,否则不能入选。
16
三、分析步骤
• 对自变量Xi的系数是否为0进行假设检验, 步骤为: 第一步,建立检验假设。 H0:bi=0 H1: bi≠0
17
三、分析步骤
第二步,计算检验统计量。
t ˆi S ˆi
v n k 1
第三步,确定P值。
根据自由度和临界水平,查t分布表,可得双 侧界值为ta/2(n-k-1)。