第十二讲多重线性回归资料

合集下载

第12章-多重线性回归分析

第12章-多重线性回归分析
8
6 因变量总变异的分解
P
(X,Y)

Y
(Y Y) (Y Y)

(Y Y)
Y X

Y
Y
9
Y的总变异分解
Y Y Yˆ Y Y Yˆ
Y Y 2 Yˆ Y 2 Y Yˆ 2
总变异 SS总
回归平方和 剩余平方和
SS回
SS剩
10
Y的总变异分解
病程 (X2)
10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0
表 12-1 脂联素水平与相关因素的测量数据
空腹
回归模空型腹 ?
瘦素
脂联 BMI 病程 瘦素
脂联
(X3)

血糖 (X4)
素(Y)
(X1)
(X2)
(X3)
血糖 素(Y) (X4)
5.75 13.6 29.36 21.11 9.0 4.90 6.0 17.28
H 0: 1 2 3 4 0 ,即总体中各偏回归系数均为0; H 1:总体中各偏回归系数不为0或不全为0;
= 0.05。
2 计算检验统计量: 3 确定P值,作出推断结论。
拒绝H0,说明从整体上而言,用这四个自变量构成 的回归方程解释糖尿病患者体内脂联素的变化是有统 计学意义的。
的平方和 (Y Yˆ)2为最小。
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因 素,某医师测定30例患者的BMI、病程、瘦素、空腹血糖, 数据如表12-1所示。
BMI (X1)
24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86

卫生统计学:12多重线性回归分析

卫生统计学:12多重线性回归分析
校正决定系数、Cp准则、AIC准则
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000

课件:多重线性回归与相关

课件:多重线性回归与相关

一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为确定系
数(coefficient of determination),或决定系数,记 为R2 ,用于反映线性回归模型能在多大程度上解释反 应变量Y的变异性。定义为R2 =SSR/SST.它的取值范围 为0-1之间。它越接近1,表示样本数据很好地拟合了 所选用线性回归模型。 R2直接反映了回归方程中所有 自变量解释反应变量Y总变异的百分比,或者说, R2 也可以解释为回归方程使反应变量Y的总变异减少的百
的78.74%
复相关系数(multiple correlation
coefficient)R,定义为确定系数的算术平方根,
即 R
SSR 表示变量Y与k个自变量的线性相关的
SST
密切程度。
对本例R=0.8515。表示肺活量与三个自变量的复相关
系数为0.8515。
调整决定系数(Adjusted R-Square)
变异来源 回归模型
残差 总变异
SS
df
3.436
3
1.302 16 4.738 19
MS
F
P
1.145 14.067 <0.001
0.081
SS回它反应在Y的总变异中由于X与Y的直线关系而使 Y变异减少的部分.它越大说明回归效果越好. SS剩它反应X对Y的线性影响之外的一切因素对Y的变异 的作用.它越小,说明直线回归的估计误差越小.
河北省省级精品课程
卫生统计学
课程负责人: 尹素凤
第12章 多重线性回归与相关 主讲人:武建辉
第十二章 多重线性回归与相关
第一节 第二节 第三节 第四节
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选

多重线性回归

多重线性回归

(2)有序多分类
• 按照有序的顺序,从低到高(或从 小到大)依次赋值:0,1,2,…。
• 如:家庭月收入情况(元):<50, 50-,500-,2000,≥10000分为5个等级, 可依次赋值为:0,1,2,3,4。
(3)无序多分类
• 如:若设W代表血型变量,则W的状态就有 4种情况,即W=A型、W=B型、W=AB型、 W=O型。此时需引入3个哑变量。现假设以O 型为基准,则3个哑变量X1、X2、X3可按如下 方式来定义:
Rc2
1 (1
R2)
(n
n 1 1)
p
1 SS残 /(n 1 p) =1- MS残
SS总 /(n 1)
MS总
R
2 c
R
2,考虑了自变
量个
数的
影响
Coe fficientsa
Standardi
偏系U回 数nCso归teafnfdica标ierdnizt准sed误
标准zed化偏 回Co归eftfsi系cien数
• 优点:
– 1次能引入多个自变量,若两个变量在一起时效果好 容易被选中。
• 缺点:
– 只出不进。
逐步回归法(stepwise)
• 将前进和后退两种方法结合起来,既考虑引入变 量又考虑剔除变量。
a. Predictors: (Constant), X3, X2, X1
b. Dependent Variable: Y
F
Sig.
5.617
.035a
决定系数 ( determination coefficient)
R2 SS回 1 SS残
SS总
SS总
说明所有自变量能解释Y变化的百分比。 取值(0,1),越接近1模型拟合越好

多重线性回归

多重线性回归

x1
x2
2.989 1.292
4.647
F0.05,(1,37)=4.11
23
评价回归方程的标准
• 复相关系数 • 校正复相关系数 • 剩余标准差
24
复相关系数
(multiple correlation coefficient)
• 0≤R≤1
R R2 SS回归 SS总
• R反映的是因变量与所有自变量的总的相关关 系,当方程中自变量个数增加时,R总是增加的。 当只有一个因变量y与一个自变量x时,R就等 于y与x的简单相关系数之绝对值:R= | ryx |。
SS (n k 1) 剩余
1
20
例20-1
总胆固醇和甘油三酯对空腹血糖的影响
• 模型检验结果
A NOVAb
Model 1
R egre ssio n R esidua l To t al
Sum of Sq ua re s
4. 2 81 10 . 293 14 . 574
df 2
37 39
Mean Square 2. 1 40 . 27 8
1 R2
1 MS误差 MS总
26
剩余标准差
• 剩余标准差 小则估计值与实测值接近,反 之则估计值与实测值相差较大,它是反映回 归方程精度的指标
s y,x1x2 xk
n
yi yˆi 2
i 1
n m 1
SS剩余 n m 1
MS剩余
27
自变量的筛选
• 全面分析法 • 前进法 • 后退法 • 逐步回归法
P3=0.223
• Y与x2 , x5
P4=0.635
• 选入X3 方程中有二个变量

多重线性回归课件

多重线性回归课件
也 可 采 用 矩 阵 计 算 偏 回 归 系 数 向 量
BX'X1X'Y
多重线性回归课件
2005年11月
SAS软件输出结果
Parameter Estimates
Parameter Standard
Standardized
Variable DF Estimate
Error t Value Pr > |t| Estimate
Intercept 28 42.78878 9.88159 4.33 0.0002
0
tj bj Sbj bj (SY|12...p Cj ), np1;
1
Cj
ljj
(1R2j|1,2,...,
j1,
) j1,...,p
R2 j|1,2,...,
j1,
j1,...,p为Xj与其余自变量间的决定系数
多重线性回归课件
x2x3 x1x3 x4 x1 x1x2 x3 x2
ADJRSQ 0.40748 0.37522 0.34653 0.28443 0.27478 0.23063 0.17864
CP AIC 3 46.66 3 48.091 2 48.405 2 50.857 3 52.116 2 52.814 2 54.579
多重线性回归课件
2005年11月
F j SS SS 残 回 ( nS S回 p( j1 ));11;2np1
Full Model
多重线性回归课件
Reduced Model
2005年11月
实例计算
用表 15-1 数据计算偏回归平方和,并进行 F 检验
平方和
方程的自变量 方程 SS 回 SS 回-SS 回-j

多重线性回归分析

多重线性回归分析
16
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
下即使变得对因变量有较大的贡献了,也不能再 次被选入回归方程并参与检验。
38
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,
根据F统计量和P值大小按sle水平决定该自变量是 否入选。
39
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,
模型的显著性检验步骤为: 第一步,建立检验假设。
H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第二步,计算统计量F的值。
FSS残S/S回 n /kk1~Fk,nk1
归方程中的各个自变量所产生的F统计量和P值, 当P值小于sls(规定的从方程中踢除变量的临界水 准)则将此变量保留在方程中。
36
三、分析步骤
• 2.4.2 后退法 否则,从最大的P值所对应的自变量开始逐一
踢除,直到回归方程中没有变量可以被踢除时为 止。
37
三、分析步骤
• 2.4.2 后退法 局限性: sls大时,任何一个自变量都不能被踢除; sls小时,开始被踢除的自变量后来在新条件

【卫生统计学】12章 多重线性相关与回归

【卫生统计学】12章 多重线性相关与回归
0.05
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y

2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回

F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述

多重线性回归

多重线性回归

目的:作出以多个自变量估计应变量的 多元线性回归方程 资料:
应变量为定量指标 自变量最好全部或大部分是定量指标,如有 少数定性或等级指标要转换成定量
用途:解释和预报
多元回归分析数据格式
一、回归模型简介
(一)多元线性回归模型的一般形式
(二)多元线性回归分析的一般步骤
二、多元线性回归方程的建立
Model 1 2
3
4
5
(Constant) 糖 化 血红 蛋 白 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 胰岛素 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 胰岛素 甘 油 三脂 (Constant) 糖 化 血红 蛋 白 胰岛素 甘 油 三脂
R R 0.6008 0.7751
说明所有自变量与Y间的线性相关程度。 即观察值Y与估计值 ˆ之间的相关程度。 Y 如果只有一个自变量,此时 R | r |
2
ˆ Y
2 Rc
SS残 /(n 1 p) n 1 1 (1 R ) 1 (n 1) p SS总 /(n 1)
2 “最优”回归方程指Rc 最大者,此时MS残最小
(一) Cp准则的计算公式
1964年CL Mallows 提出 ( SS 残 ) p Cp ( n 2 p) ( MS 残 ) m ( n p 1)( MS 残 ) p ( MS 残 ) m ( n 2 p)
C p 接近(p 1)的模型为最佳
多元线性回归分析
Multiple linear regression

人的体重与身高、胸围

血压值与年龄、性别、劳动强度、饮食 习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋 白、血清总胆固醇、甘油三脂

多重线性回归

多重线性回归
yi 的变异分解为两个部分:
ˆi ; (1) 由自变量解释的部分,即 yi 的估计值 y
(2) 不能由自变量解释的部分,即残差 ei
回归方程的各部分也可用矩阵表示为:
y1 y2 Y yn n1
b0 b1 B= bm m 11
i
述。
因此,以 x1.x2 x p 中的一个自变量(记为 xk )为应 变量,以其它 x i k 为自变量建立回归方程,考察其
i
决定系数 Rk , 若 Rk 较大, 说明 xk 与其它自变量间存在
2 2
近似的线性关系。
方差膨胀因子--VIF多重共线性严重程度的指标。
2 bk 的 回归系数 bk 的方差与 1 Rk2 有关。Rk 越大,
回归的贡献,回归平方和: U l yy Q (Y Y )2 (sum of squares due to regression)

Y的总变异分解为两部分:
• 回归贡献U
• 剩余变异Q
整个方程是否有意义,就看回归所能解释的变 异U比剩余Q大多少而定。
假设检验为:
H 0 :各总体偏回归系数βj均为0;


R2可用于检验多重回归方程的统计学意义:
H0:2=0; H1:20。
检验统计量为:
R2 n m 1 F ~ F( m ,n m 1) 2 1 R m
复相关系数: R 反映的是应变量与自变量线性组合 的总的相关关系,其性质: 0≤R≤1。
当只有一个因变量y与一个自变量x时,R就等于y与 x的简单相关系数之绝对值:R= | ryx |
估计值与残差
编号 1 3 y 1.75 2.75

统计学第六版贾俊平12章多元线性回归

统计学第六版贾俊平12章多元线性回归

二元回归方程的直观解释
二元线性回归模型
回归面
y
y b0 b1x1 b2x2
(观察到的y)
} b0
i
x2
(x1,x2)
x1
E( y) b0 b1x1 b2x2
估计的多元回归方程
估计的多元回归的方程
(estimated multiple regression equation)
12.1 多元线性回归模型
一 多元回归模型与回归方程 二 估计的多元回归方程 三 参数的最小二乘估计
多元回归模型与回归方程
多元回归模型
(multiple regression model)
1. 一个因变量与两个及两个以上自变量的回归
2. 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项 的方程,称为多元回归模型
2. 如果出现下列情况,暗示存在多重共线性
模型中各对自变量之间显著相关。 当模型的线性关系检验(F检验)显著时,几乎所有回
归系数的t检验却不显著 回归系数的正负号与其的相反。
Excel 输出结果的分析
多重共线性
(例题分析)
【例】判别各自变量之间是否存在多重共线性
贷款余额、应收贷款、贷款项目、固定资产投资额之间的相关矩阵
1. 用样本统计量 bˆ0 , bˆ1 , bˆ2 , , bˆ p 估计回归方 程中的 参数 b0 , b1 , b2 , , b p 时得到的方程
2. 由最小二乘法求得 3. 一般形式为
yˆ bˆ0 bˆ1x1 bˆ2x2 bˆpxp
▪ bˆ0 , bˆ1 , bˆ2 , , bˆ p是 b0 , b1 , b2 , , b p

十二、多重线性回归模型解读

十二、多重线性回归模型解读



n = 样本含量(观察数)
R2 = 未校正的R2
校正R2
• 校正R2是近似无偏的
• 校正R2的优点:

只有新引入的自变量对回归方程有贡献时,新的校正R2值才会较原来的
校正R2值增大

如新引入的自变量对y不起作用,校正R2值不增加
• 当n >> k时,R2 ≈ 校正R2。
多变量线性回归方程的评价(续)
获得满意结果。
“最优回归模型”
• 所谓“最优回归模型”是指:
• (1)全模型及其各参数估计值均有统计学显著性意义
• (2)如效果相似,模型所包含的变量数越少越好 • (3)各个变量在专业上都有实际意义
变量选择的常用方法
• 逐步回归(stepwise regression) • 在供选的多个自变量xi中,按其对y的作用大小(即偏回归平方和的大小), 由大到小将自变量逐个引入方程 • 每引入一个自变量,对其作显著性检验,如有显著性才可将其列入方程 • 每引入一个新自变量,再对原方程中的各自变量重新作显著性检验,将退 变为无显著性作用的自变量剔除出方程

ν= 自由度
• 算得F值后,查F值表即可知P值
直线回归方程的评价(续)
• t检验 • b b • t = ── = ───────────,ν= n-2 • sb √[Σ(yi-y)2 /(n-2)]
• 上式 b = 回归系数 • • • sb = 回归系数b的标准误 用于衡量y的估计值yi的精确性 可用于估计b的可信区间
• (j = 0,1,2,3……k)
• (i = 观察对象序号)
• 上式 y = 因变量(连续变量)
• b0 = 常数项,其含义同简单直线回归中的a

多重线性回归

多重线性回归

R 2 1 [(
in1Uˆi2 /(n k )
n i1
(Yi
Yn )2 ] /(n
1)

R2

k 1 nk
(1
R2 ).
調整的判定係數是模型配適能力與模型複雜度折衷後的
結果,其值不一定隨解釋變數的增加而遞增。
多元迴歸模型的古典條件
為了推導最小平方估計式的性質,考慮以下的古典條件:
的變動幅度。 在控制其他變數可能產生的影響之後,斜率係數代表了該 解釋變數的「淨」效果。因此,解釋變數有時亦被稱作控 制變數。
標準方程式的代數性質
由標準方程式,可得到代數性質:
n
n
n
Uˆi 0; X 2iUˆi 0;;
X kiUˆi 0.
i 1
i 1
i 1
n
n
n
n
YˆiUˆi ˆ1n Uˆi ˆ2n X 2iUˆi ˆkn X kiUˆi 0.
N
(0,
2 0
)
條件 [D2](ii) 中 σ02 的最小平方估計式為
ˆ
2 n

1 nk
n

2 i
.
i 1
最小平方法估計式的性質
在 [D1] 與 [D2](i) 之下,最小平方估計式是真實參數的 線性且不偏的估計式。
(高斯—馬可夫): 在 [D1] 與 [D2]之下,最小平方法估 計式是真實參數的最佳線性不偏估計式。
1 n
n
(Yi
i 1
1 Байду номын сангаас X 2i
k X ki)2.
最小平方法
分別對 k 個參數作偏微分,我們可以得到 k 個線性標準方 程式。若方程式間沒有線性相依的關係,就可以得到 k 個

12多重线性回归分析(研)

12多重线性回归分析(研)
➢校正决定系数(考虑了自变量的个数) ➢Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) ➢AIC (Akaike’s Information Criterion)准则;
AIC越小越好
(二)逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)
➢ 向前引入法:由一个自变量开始,每次引入一个 有统计学意义的自变量,由少到多,直到无自变 量可以引入为止。此法建立的方程有时不够精炼
➢ 逐步筛选法:取上述两种方法的优点,引入和剔 除交替进行,直到无变量可以引入,同时也无自 变量可以剔除为止。目前比较常用
SPSS操作
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Stepwise OK
(一)回归方程的方差分析
H0:所有回归系数为0 H1:至少有一个回归系数不为0
ANO VbA
Mo d el
Su m o f Squ ares d f Mean Squ are F
1
Reg re2ss6i6o4n4 8 4 .4 9 4
838 8 16 1 .49 8 1 9 .0 2 6
Resid u a7l4 6 89 0 .50 6
X2
3 8. 55 0
1 3. 34 6
.444 2.889
X3
104.585
7 4. 36 1
.260 1.406
a. Dep en den t Variab le: Y

多重线性回归

多重线性回归

多重线性回归的假设检验
对回归方程检验H0:β1=β2=…βm=0 对各偏回归系数检验H1:βi=0
1.多元线性回归方程的假设检验: 检验应变量y与k个自变量之间是否存在线 性回归关系,用方差分析
MSR
SSR / k
R2 /k
F
MSE SSE /(n k 1) (1 R2 ) /(n k 1)
R SSR SST
多重线性回归的假设检验
2.偏回归系数的假设检验: t检验
计算一个包含m个自变量的多元线性回归 方程,再用t检验法对各偏回归系数进行 假设检验。
tbi
bi S bi
自变量量化
(1)二分类定性指标:可取0, 1或1, 2。
(2)多分类的定性指标: Dummy Variable,(类别 数-1)两分类变量。如血型:
前进法 (Forward):根据 统计学意义,自变 量一一进入回归 方程 加权最小二乘回 归
分类
曲线回归: 如Logistic回归, Cox回归等
多重线性回归(1对多:Y/ X1,X2,…
Xm)
后退法
逐步法
多元线性回归(多对多:Y1, Y2, …Yk/X1,X2,…Xm) 最优子集法(all possible
(4) 采用不同的变量筛选方法得到的结果 可能不完全一致。一般说来, 前进法用于 各变量的协同作用不太大以及变量较多 的情形;后退法用于各变量协同作用较 大以及变量不太多的情形。逐步法则兼 有二者的优点, 用得最多。
多重线性回归的注意事项
(5) 筛选变量时用的检验水准(可规定一定的F值或P值) 不同得到的结果也不相同。一般取P值为0.05,但如选
进入标准: pin (0.05) 剔除标准: pout(0.10)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

8
七、决定系数
R2=SS回 /SS总 校正决定系数是衡量方 程好坏的常用指标之一
八、标准化偏回归系数
Ra2d
1
MS剩 MS总
bi bi lii / lYY
9
九、残差分析
残差 ei Yi Yˆi ,标准化残差 ei
ei MS残差
。通常以标准化残差为纵坐标,以Yˆi
为横
坐标作残差图进行分析。残差分析可以用于评价回归模型和验证资料是否满足多重线性
4
三、多重线性回归分析的步骤
1.估计参数,建立多重线性回归模型。 根据样本提供的数据资料,采用最小二乘法原理求得多重线性回归模型参数 0 ,1 , 2 ,…,m 的估计值,即求得 b0 ,b1 ,b2 ,…,bm ,从而得到Yˆ b0 b1X1 b2X2 .... bmXm 多重线性回归模型。 2.对整个模型进行假设检验,模型有统计学意义的前提下,再对各偏回归系数进行 假设检验。对求得的多重线性回归方程及各自变量进行假设检验,检验自变量 X1, X 2 ,…, X m 与应变量Y 之间是否存在线性关系。 3.计算相应指标,评价回归模型的拟合效果。 4.残差分析。 5.自变量的选择。 6.回归诊断与评价。
14
十二、自变量间交互作用的分析
将自变量的交互项引入方程进行检验分析。
【例17-1】 大白鼠作受试对象,分析乌头碱不 同注射速度x1、常咯啉的不同剂量x2,大鼠体重 x3 与应变量延缓心律失常发生的时间Y的关系。
编号 X1 X2 X3 Y
1
2
3
4
5
6
78Biblioteka 91011
12
13
14
15
4.8
5.6
7.1
中医药统计学与软件应用
曹治清
成都中医药大学管理学院 数学与统计教研室 czq9771@
第10讲 非参数检验
概述 多重线性回归的应用以及注意事项 多重线性回归的电脑实验
2
第11讲 多重线性回归—引言
在医药研究中,应变量的变化往往受到多个因 素的影响,此时就需要用多重线性回归 (Multiple Linear Regression),多重线性回归 是直线回归的扩展。例如,人的体重与身高、 胸围有关;人的心率与年龄、体重、肺活量有 关。因此,采用两个或多个影响因素作为自变 量(Xi)来解释应变量(Y)的变化,建立最优组合模 型来预测或估计因变量,比只用一个自变量进 行预测或估计更有效,更符合实际。
回归条件等。
10
从上到下从左到右依次编号为①-⑧:①散点均匀分布在以 0 为中心,与横轴平行 的带状区域内,可以认为基本满足线性和方差齐性的假定条件;②③散点呈现曲线趋势, 提示资料不满足线性的假设;④⑤⑥散点随预测值的变化而变化,提示资料不满足方差 齐性的假定;⑦⑧散点随预测值的变化而变化且呈曲线趋势,提示资料不满足方差齐性 的假定。
5
四、多重共线性问题
如果一些自变量之间存在较强的线性关系,称 多重共线性。判断多重共线有相关系数、容忍度、 方差膨胀因子等指标。
一般来说,相关系数r>0.8的变量可能存在共线 问题,r>0.9的变量存在共线。
容忍度=1-R2,愈小说明共线问题愈严重,如 果某个自变量的容忍度<0.1,共线问题严重。
4.9
2.6
6.6
5.2
5.5
4.7
6.8
5.4
2.9
4.0
3.1
3.1
0.08 0.07 0.01 0.07 0.11 0.11 0.07 0.11 0.03 0.01 0.02 0.21 0.01 0.11 0.10
方差膨胀因子 = 容忍度的倒数,愈大说明共线 问题愈严重。
消除多重共线性的方法有多种,如岭回归、主 成分回归等。
6
五、多重回归的样本含量
只要例数n多于自变量个数m即可,一般要求n 为m的5倍以上。 六、多重回归的检验
多元线性回归方程的假设检验:①对整个方程 的综合检验,即对回归方程的线性假设检验;②对 每一个自变量的检验,即对每个偏回归系数的假设 检验。
(2)同时调整多个混杂因素的作用(类似多元 协方差分析调整多个混杂因素的作用)。
(3)估计与预测,用较易测量的多个自变量来 估计难以测得应变量总体均数μY或预测个体Y值。
(4)多重回归分析是进一步学习logistic回归、 判别分析、 主成分分析、 因子分析等多元统计分析 方法的基础。
十一、筛选自变量方法
7
⑴ 回归方程的方差分析
F MS回 SS回 / m (n m 1) SS回
MS剩 SS剩 /(n m 1)
m SS剩
剩余标准差
sY 12 m
SS剩 n m 1
剩余标准差的平方是残差的方差,又称均方误 差,记为MSE,其值越小越好
(2) 偏回归系数的假设检验
分别考察每一个自变量 xi 与应变量 Y 是否都有 直线回归关系
11
资料不满足其条件时,常用的处理方法有:修 改模型或者采用曲线拟合;变量变换,常用的 变量变换有对数变换、平方根变换、倒数变换 等。变量变换对自变量或(和)应变量均适宜; 如果方差不齐,可采用加权最小二乘法估计偏 回归系数。
12
十、多元回归分析的应用
(1)分析因素的相对重要性,找出对因变量最 大的关键因素。
13
(1)全局择优法:m 个自变量的不同组合共有 2m-1 种,分别建立回归方程进行比较后择优。择优 的准则有多种,准则不同,筛选的结果可能不同。 如果用最大校正决定系数准则,则挑选校正决定系 数R2a最大者来获得“最优子集”的回归方程。 SPSS为Enter法。
(2)逐步选择法: 备选自变量较多时,全局择 优的计算量非常大, 用逐步回归法选择可减少计算 量。常用逐步(Stepwise)、向前(Forward)、向 后(Backward)法。向后法考虑了自变量的组合作 用,但变量数不能太多。3种逐步回归方法选中的自 变量不一定相同。 逐步回归得到只是局部最优,不 一定是全局最优回归方程。
3
第一节 多重线性回归 一、多重线性回归模型
Y=β0+β1X1+β2X2+…+βmXm+e
Yˆ b0 b1X1 b2 X2 .... bm Xm
二、多重线性回归的基本条件
多重线性回归模型的应用条件同直线回归,即线性 (linearity)、独立性(indepen-dency)、正态性和方差 齐性(normal distribution and equal variance)等条 件,简记LINE。还要注意个自变量间不能存在多重共线性。
相关文档
最新文档