卫生统计学:12多重线性回归分析
医学统计学 多重线性回归分析
检验统计量: F
MS回归 MS残差
回归 残差
SS残差
SS回归 SS残差 n2
查F界值表(P468),确定单侧临界值Fa(v回归, v残差),
求概率值 P,下结论
检验过程:
1. 建立假设,确定检验水准 H0 : β1=β2=β3=…=βi=0 ; H1 :至少有一个 βi ≠ 0。
之间的线性相关程度,即Y 和该组自变量的密切程度。
SS回归 SS总
本题:R
1773 .343 0.8551 2425 .301
3. 调整确定系数(adjust coefficient of determination, Rad2)
R
2 ad
p 1 R R n p 1
2 2
数模: Y X , X ,...,X 0 1 X 1 2 X 2 ... p X p
1 2 n
β0:截距参数,是常数项。 βi:变量Xj的总体偏回归系数(partial regression coefficient)
表示在其它自变量固定不变的情况下,Xj每增加或减少 一个计量单位,反应变量Y的平均变化 βi 个单位,或说所 引起应变量Y的平均改变量为βi个单位。
由表13-3可以看出,BMI、病程和空腹血糖对脂联素的 影响无统计学意义,P > 0.05,而瘦素的影响有统计学意 义P< 0.05。
回归方程的解释: ——这四个因素对糖尿病患者体内脂联素水平的 影响有多大?
1. 确定系数/决定系数
(coefficient of determination ,R2 )
ˆ2 SS残差: Y Y
总变异中无法用X1、 反应自变量X以外因素对Y X2…等和Y的回归关 的变异的影响。表示考虑 (残差平方和) 系解释的那部分变异 回归之后,Y的随机误差。
第十二讲多重线性回归
共线性诊断大鼠体重和常咯啉剂量的容忍度都为 0.940, 方差膨胀因子都为1.064, 可认为不存在共线 问题。建立线性回归方程为
Y=45.110+28.844×常咯啉剂量-0.123×大鼠体重 大鼠体重、常咯啉剂量的标准回归系数分别为
-0.682、0.564。可见对延缓心律失常时间影响的重 要性大鼠体重大于常咯啉剂量。
-2.213 -1.400
a. Dependent Variable: 延缓心律失常时间
Sig. .086 .471 .129 .480 .212 .421 .199
(1)全局择优法:m 个自变量的不同组合共有 2m-1 种,分别建立回归方程进行比较后择优。择优 的准则有多种,准则不同,筛选的结果可能不同。 如果用最大校正决定系数准则,则挑选校正决定系 数R2a最大者来获得“最优子集”的回归方程。 SPSS为Enter法。
(2)逐步选择法: 备选自变量较多时,全局择 优的计算量非常大, 用逐步回归法选择可减少计算 量。常用逐步(Stepwise)、向前(Forward)、向 后(Backward)法。向后法考虑了自变量的组合作 用,但变量数不能太多。3种逐步回归方法选中的自 变量不一定相同。 逐步回归得到只是局部最优,不 一定是全局最优回归方程。
AdjusteSdtdR. Error of
Model R R SquareSquarethe Estimate
1
.990a .980
.964
.5274
a.Predictors: (Constant), X23, 大鼠体重, 乌头碱 速度, X12, X13, 常咯啉剂量
方差分析F值63.724,方程有统计学意义
t 1.957
乌头 碱注 射速 度 1.795
《医学统计学》之多元(重)线性回归
多元(重)线性回归模型的假设
1 线性关系
假设自变量与因变量之间存在线性关系,即因变量可以用自变量的线性组合来表示。
2 独立性
假设误差项之间相互独立,即每个观测值的误差项不受其他观测值的影响。
3 常数方差
假设误差项具有常数方差,即各个观测值的误差方差相同。
多元(重)线性回归模型的估计方法
最小二乘法
多元(重)线性回归模型的模型选择方法
前向选择法
从不包含自变量的空模型开 始,逐步添加自变量,选择 最佳的组合。
后向消除法
从包含所有自变量的全模型 开始,逐步删除自变量,选 择最简单且最有效的模型。
逐步回归法
结合前向选择法和后向消除 法,逐步调整自变量,找到 最优的模型。
多元(重)线性回归模型的实际应用
医学研究
用于分析多个影响因素对疾病发生、病程进展和治 疗效果的影响。
市场分析
用于预测市场需求和销售量,并确定最佳的市场推 广策略。
财务预测
社会科学
用于预测企业的财务状况,并制定相应的经营决策。
用于研究社会现象和群体行为,解释和预测社会现 象的变化。
通过方差膨胀因子等指标,判断自变量之间是否存在高度相关性,以避免估计结果的不 准确性。
多元(重)线性回归模型的模型检验
1
残差分析
通过观察残差的分布和模式,检验回归模型是否符合基本假设。
2
拟合优度检验
通过比较拟合优度指标(如决定系数R²)和假设分布,评估回归模型的拟合程度。
3
异常值检验
通过检测异常值对回归分析结果的影响,判断数据中是否存在异常观测值。
《医学统计学》之多元 (重)线性回归
在医学统计学中,多元(重)线性回归是一种强大的数据分析方法,可用于探索 和建立多个自变量与因变量之间的关系。
《医学统计学》之多元(重)线性回归
在本课程中,我们将深入研究医学统计学中的多元(重)线性回归分析。掌握回 归模型的基础知识,并学习如何评估模型、诊断回归方程以及拟合策略。
模块一:回归分析基础知识
了解回归分析的基本原理和应用场景,掌握回归方程的建立和参数估计的方 法。
模块二:多元线性回归模型
学习多元线性回归模型的概念、假设条件和模型参数的估计方法。
模块七:应用案例与实战经验
通过真实的医学案例和实战经验,加深对多元(重)线性回归的理解,并了解统计概念,包括方差膨胀因子、共线性检验和异常值检测。
模块四:模型评估与解释
学习如何评估回归模型的拟合优度和预测精度,并解释模型中的系数含义。
模块五:回归诊断
掌握回归诊断的基本方法,包括残差分析、离群值检测和共线性诊断。
模块六:回归模型拟合策略
学习选择合适的自变量、建立最佳模型和验证模型的方法,以及防止过拟合和欠拟合。
多重线性回归分析
一要尽可能地不漏掉重要的自变量; 二要尽可能地减少自变量的个数,保持模型 的精简。
30
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选
就回归方程而言,每个变量均有两种可能性, 即被选择或被踢除。所以,所有可能的模型有2k 个(k为自变量个数)。
8
二、基本原理
• 2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、
独立性(Independence)、正态性(Normality)和方 差齐性(Equal variance),即LINE条件。
除此之外,还要求多个自变量之间相关性不 要太强。
9
二、基本原理
• 2.2 前提条件 线性——指自变量与因变量之间的关系是线性的
踢除
41
三、分析步骤
• 2.4.3 逐步回归法 逐步回归法比前进法和后退法都能更好地选
出变量构造模型,但它也有局限性: 其一,当有m个变量入选后,选第m+1个变
量时,对它来说,前m个变量不一定是最佳组合; 其二,选入或踢除自变量仅以F值和P值作标
准,完全没考虑其它标准。
42
三、分析步骤
• 2.4.4 SAS应用 在SAS编程法中,通过在model语句中增加适
SS总的自由度为n-1, SS回的自由度为k, SS 残的自由度为n-k-1。
13
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
SS总 y y 2
S S 回 yˆ y 2
S S 残 y yˆ 2
14
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
回归方程有统计学意义,可以说明整体上自 变量对Y 有影响,但并不意味着每个自变量对因 变量的影响都有统计学意义。
医学统计学多重回归
4.逐步选择(stepwise selection)
逐步选择法又称逐步回归,其本质是前向选择法,为了 克服向前选择法在后续变量进入模型后可能使已在方程中 的变量变得不重要的缺点,同时吸收了向后剔除的作法。即 在逐步选择过程中,把经 F 检验有意义的变量引入方程后, 又对已在方程中的自变量进行一次关于剔除的 F 检验,保留 有统计学意义的变量,而剔除无统计学意义的变量。反复进 行引入、剔除过程,直到既没有变量被引入,也没有变量被 剔除为止。
bj为自变量Xj 的偏回归系数(partial regression coefficient),是βj的估计值,表示当方程中其他 自变量保持常量时,自变量Xj变化一个计量单位, 反应变量Y的平均值变化的单位数。
X
* i
Xi Si
Xi
标准化偏回归系数(standardized partial regression coefficient),又称为通径系数(path coefficient)。标准化偏回归系数b’j较大的自变 量在数值上对反应变量Y的作用较大。
先指定的临界值( Fin )比较,如果 F < Fin 程序停止,否则将其最
大 F 值所对应的自变量引入模型;然后在有一个自变量的模型基础 上,重复以上比较过程;如此反复,每次加一个变量到模型中,直到
剩下的变量中再无一个能使其 F 值大于 Fin 值为止。
3. 后向选择 (backward selection)
R2 0.06396 0.7874 0.08123
由此说明,用包含气车流量、气温、气湿与 风速这四个自变量的回归方程可解释交通 点空气 NO 浓度变异性的 78.74%。
复相关系数(multiple correlation coefficient) R
【卫生统计学】12章 多重线性相关与回归
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述
医学统计学多重线性回归分析
医学统计学多重线性回归分析多重线性回归分析是一种用于确定多个自变量与一个因变量之间关系的统计方法。
在医学研究中,多重线性回归可以用于探讨多个潜在因素对人体健康和疾病发生的影响。
在多重线性回归中,因变量是要被预测或解释的变量,而自变量是可以用来预测或解释因变量的变量。
医学研究中可能存在多个自变量,因为人体健康和疾病发生是受多个因素综合影响的。
多重线性回归分析可以帮助我们确定每个自变量对因变量的相对重要性,并估计它们的效应。
多重线性回归模型可以表示为:Y=β0+β1X1+β2X2+...+βnXn+ε其中,Y是因变量,X1,X2,...,Xn是自变量,β0,β1,β2,...,βn 是模型的回归系数,ε是误差项。
多重线性回归分析的目标是通过估计回归系数来确定自变量对因变量的影响。
回归系数表示自变量单位变化对因变量的影响程度。
通过检验回归系数的显著性,可以判断自变量是否对因变量有统计上显著的影响。
此外,回归系数的符号可以指示自变量与因变量之间的正向或负向关系。
多重线性回归分析的步骤如下:1.收集数据:收集包括因变量和自变量的数据,通常需要足够的样本量来保证结果的可靠性。
2.数据清洗:对数据进行初步的清洗和整理,包括处理缺失值、异常值和离群值等。
3.模型构建:根据研究目的和理论背景选择自变量,并构建多重线性回归模型。
4.模型估计:通过最小二乘法估计回归系数。
最小二乘法通过最小化观测值与模型预测值之间的差异来确定回归系数。
5.模型诊断:对模型进行诊断检验,包括检验残差的正态性、线性性、同方差性等。
如果模型不符合假设条件,需要进行适当的修正。
6.结果解释:通过回归系数的显著性和效应大小来解释结果,确定自变量的影响和重要性。
多重线性回归分析常用的统计指标包括回归系数、标准误、P值和决定系数。
回归系数表示自变量单位变化对因变量的平均影响。
标准误表示回归系数的估计精度。
P值表示回归系数是否统计显著,一般认为P值小于0.05为显著。
多重线性回归分析方法
多重线性回归分析方法多重线性回归分析是一种常用的统计方法,用于揭示自变量对因变量的影响。
它可以帮助我们理解多个自变量如何共同影响因变量,并通过建立一个数学模型来预测因变量的值。
本文将介绍多重线性回归分析的基本原理、步骤以及常见的模型评估方法。
一、基本原理多重线性回归分析是建立在线性回归模型的基础上的。
在简单线性回归模型中,只有一个自变量可以解释因变量的变化;而在多重线性回归模型中,有多个自变量同时对因变量产生影响。
其模型可表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y代表因变量,X1, X2, ..., Xn代表自变量,β0, β1, β2, ..., βn代表回归系数,ε代表误差项。
二、分析步骤进行多重线性回归分析时,通常可以遵循以下步骤:1. 收集数据:首先,需要收集相关的自变量和因变量的数据,并确保数据的准确性和完整性。
2. 建立模型:根据收集到的数据,可以利用统计软件或编程工具建立多重线性回归模型。
确保选择合适的自变量,并对数据进行预处理,如去除异常值、处理缺失值等。
3. 模型拟合:利用最小二乘法或其他拟合方法,对模型进行拟合,找到最优的回归系数。
4. 模型评估:通过各种统计指标来评估模型的拟合效果,比如决定系数(R^2)、调整决定系数、F统计量等。
这些指标可以帮助我们判断模型的可靠性和解释力。
5. 解释结果:根据回归系数的正负和大小,以及显著性水平,解释不同自变量对因变量的影响。
同时,可以进行预测分析,根据模型的结果预测未来的因变量值。
三、模型评估方法在多重线性回归分析中,有多种方法可评估模型的拟合效果。
以下是几种常见的模型评估方法:1. 决定系数(R^2):决定系数是用来衡量模型拟合数据的程度,取值范围为0到1。
其值越接近1,表示模型能够较好地解释数据的变异。
2. 调整决定系数:调整决定系数是在决定系数的基础上,考虑自变量的数量和样本量后进行修正。
卫生统计学课件12多重线性回归分析(研)
多重线性回归分析的步骤
(一)估计各项参数,建立多重线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提 下,再分别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。
多重线性回归方程的建立
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Enter OK
Mo del S um mary
Model 1
Std. Error of
R R Square Adju sted R Square the E stimate
.8 84a .7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
(二)偏回归系数的假设检验及其评价
各偏回归系数的t检验
C oe fficien tas
Unstand ardized Co efficients
St an d ard ized Co efficients
Model
B
Std. Error
Bet a
1
(Constant) -2262.081 1081 .870
(三)有关评价指标
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
216.0570680
Std.Error of the Estimate (剩余标准差)
SY ,12...m
医学统计学:多元线性回归分析
2.11
16.28
7.9
0.63
6.59
7.1
1.97
3.61
8.7
1.97
6.61
7.8
1.93
7.57
9.9
1.18
1.42
6.9
2.06
10.35
10.5
1.78
8.53
8.0
2.40
4.53
10.3
3.67
12.79
7.1
1.03
2.53
8.9
1.71
5.28
9.9
3.36
2.96
8.0
1.13
应变量与各自变量相关系数大小
C or r el a ti o ns
总胆固醇
Pearson Correlation Sig. (2-tailed) N
b. Dependent Variable: 血糖
Sig. .000a
(3)当总的方程有统计学意义时
应对每个自变量的偏回归系数再进行假设检验, 若某个自变量的偏回归系数无显著性,则应把该变量 剔除,重新建立不包含该变量的多元回归方程。
对新建立的多元回归方程及偏回归系数按上述 程序进行检验,直到余下的偏回归系数都具有统计意 义为止。最后得到最优方程。
coefficient)
意义:如 b1 表示在X2、X3 ¨¨¨ Xp固定条件下,
X1 每增减一个单位对Y的效应(Y增减 b 个单位)。
二. 多元回归分析步骤
(1)用各变量的数据建立回归方程;
序号 i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
十二、多重线性回归模型解读
•
•
n = 样本含量(观察数)
R2 = 未校正的R2
校正R2
• 校正R2是近似无偏的
• 校正R2的优点:
•
只有新引入的自变量对回归方程有贡献时,新的校正R2值才会较原来的
校正R2值增大
•
如新引入的自变量对y不起作用,校正R2值不增加
• 当n >> k时,R2 ≈ 校正R2。
多变量线性回归方程的评价(续)
获得满意结果。
“最优回归模型”
• 所谓“最优回归模型”是指:
• (1)全模型及其各参数估计值均有统计学显著性意义
• (2)如效果相似,模型所包含的变量数越少越好 • (3)各个变量在专业上都有实际意义
变量选择的常用方法
• 逐步回归(stepwise regression) • 在供选的多个自变量xi中,按其对y的作用大小(即偏回归平方和的大小), 由大到小将自变量逐个引入方程 • 每引入一个自变量,对其作显著性检验,如有显著性才可将其列入方程 • 每引入一个新自变量,再对原方程中的各自变量重新作显著性检验,将退 变为无显著性作用的自变量剔除出方程
•
ν= 自由度
• 算得F值后,查F值表即可知P值
直线回归方程的评价(续)
• t检验 • b b • t = ── = ───────────,ν= n-2 • sb √[Σ(yi-y)2 /(n-2)]
• 上式 b = 回归系数 • • • sb = 回归系数b的标准误 用于衡量y的估计值yi的精确性 可用于估计b的可信区间
• (j = 0,1,2,3……k)
• (i = 观察对象序号)
• 上式 y = 因变量(连续变量)
• b0 = 常数项,其含义同简单直线回归中的a
第12章 多重线性回归分析
R表示脂联素水平与体重指数、病程DY、瘦素LEP与空腹血糖这
四个自变量总的线性相关的密切程度。R2用包含体重指数、病程 DY、瘦素LEP与空腹血糖这四个自变量的回归方程可解释脂联素 水平变异性的73.12%。
2.2 偏相关系数 partial correlation coefficient
扣除其他变量的影响后,Y和X的相关,称为Y 与X的偏相关系数。
10
Y的总变异分解
SS总 SS回 SS剩
总 回 剩
总 n 1, 回 1, 剩 n 2
11
方差分析表
变异来源
回 归 剩 余 总变异
SS
SS回 SS剩 SS总
v
1 n-2 n-1
MS
F
SS回/1 MS回/ MS剩 SS剩/n-2
12
决定系数
R
ˆ 基本思想:使各实测值Y与对应的估计值 Y 之差 ˆ 为最小。 的平方和 (Y Y ) 2
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因 素,某医师测定30例患者的BMI、病程、瘦素、空腹血糖, 数据如表12-1所示。
表 12-1 BMI (X1) 24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86 病程 (X2) 10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0 瘦素 (X3) 5.75 9.32 2.50 5.66 2.83 6.86 3.22 4.90 3.54 4.51 8.47 9.92 空腹 血糖 (X4) 13.6 6.2 11.1 9.7 7.3 7.3 7.7 6.0 6.7 7.2 9.1 8.1 脂联素水平与相关因素的测量数据 脂联 素(Y) 29.36 14.31 26.08 19.62 42.82 22.76 31.00 17.28 30.25 24.28 18.94 16.08 BMI (X1) 21.11 23.32 24.34 24.22 19.03 23.39 19.49 23.39 19.49 24.38 23.82 22.86 病程 (X2) 9.0 5.0 2.0 3.0 15.0 3.0 4.0 3.0 4.0 6.0 8.0 20.0 瘦素 (X3) 4.90 3.54 4.51 9.32 2.50 5.66 2.83 5.66 2.83 6.86 8.47 9.92
卫生统计学《多重线性回归与相关》课件
当模型或方程是用极大似然法估计时:
AIC 2ln(L) 2 p
式中,p为模型中参数的个数,L是模型的极大似然函数,n为 样本量。AIC由两部分组成,左边部分反映回归方程的拟合精度, 其值越小越好;右边反映了回归中变量数的多少,即模型复杂程度 ,实际上也是对自变量或参数个数进行的“惩罚”。因而AIC越小 越好。
1
3.利用软件包对例12-1的3个偏回归系数进行t检 验,并计算标准化偏回归系数的结果如表所示。
第三节 复相关系数与偏相关系数
一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为决 定系数或确定系数,记为R2
R2=SS回/SS总
它的取值范围为0-1之间。它越接近1,表示样本数据 很好地拟合了所选用线性回归模型。 R2直接反映了回归方程中所有自变量解释反应变量Y的 变异性,或者说, R2也可以解释为回归方程使因变量Y 的总变异减少的百分比。
30
2.86
6
45.3
74.8
32
1.91
7
51.4
73.7
36.5
2.98
8
53.8
79.4
37
3.28
9
49
72.6
30.1
2.52
10
53.9
79.5
37.1
3.27
11
48.8
83.8
33.9
3.1
12
52.6
88.4
38
3.28
13
42.7
78.2
30.9
1.92
14
52.5
88.3
38.1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000
a. Predictors: (Constant), X 3 b. Predictors: (Constant), X 3, X2 c. Predictors: (Constant), X 3, X2, X1 d. Predictors: (Constant), X 2, X1 e. Dependent Variable: Y
.3 42 .4 44 .2 60
t -2.09 1 2.182 2.889 1.406
Si g . .0 53 .0 44 .0 11 .1 79
为什么要筛选自变量?
变量多增加了模型的复杂度 计算量增大 估计和预测的精度下降 模型应用费用增加
筛选自变量的常用方法:
全局择优法
7468 90.50 6
16 4668 0.657
To t al
3411 375.0 00
19
a. Predictors: (Constant), X3, X2, X1
b. Dependent Variable: Y
C oe ffi ci e n tas
F 19.026
U nstand ardi zed Co effi ci ents
第 十 五 章
流行病与卫生统计学教研室 胡利人
引言
多因素分析是研究多种因素互相联系、互相制约 的规律性的一个重要而活跃的统计学分支。70年 代后在医学领域应用广泛,常用的方法有:
多重线性回归(多元线性回归) logistic 回归 Cox 回归 判别分析、聚类分析 主成分分析、因子分析
216.0570680
Std.Error of the Estimate (剩余标准差)
SY ,12...m
(Y Yˆ)2 /(n m 1)
SS残(n m 1) MS残
46680.657 216.057
反映了回归方程的精度,其值越小说明回归 效果越好
决定系数(determination coefficient)
R2 SS回 1 SS残
SS总
SS总
2664484.494=0.781 3411375.000
说明所有自变量能解释Y变化的百分比。取 值(0,1),越接近1模型拟合越好
Yˆ
复相关系数(multiple correlation coefficient)
R R2 0.781 0.884
情况下,自变量Xj每改变一个单位时,单独引 起应变量 y 的平均改变量
参数估计
求参数估计值的常用方法是最小二乘法,即使残差平 方和达到最小的方法
假设检验
• 对整个回归方程进行假设检验
F
SS回归 /回归
MS回归
SS误差 /(n 回归 1) MS误差
• 对偏回归系数进行假设检验
t(bj)=bj/s(bj)
SS回( j) (n p 1)
;1
1; 2
n
p
1
向后剔除法:先建立一个包含全部自变量的回归 方程,然后每次剔除一个无统计学意义的自变量, 直到不能剔除时为止。此法计算量大,有时不能 实现
向前引入法:由一个自变量开始,每次引入一个 有统计学意义的自变量,由少到多,直到无自变 量可以引入为止。此法建立的方程有时不够精炼
B
Std. Error
1
(Constant) -2262.081 1081 .870
X1
48.135 22.058
X2
38.550 13.346
X3
104.585 74.361
a. Dependent Variable: Y
St an d ard ized Co efficients
Bet a
.3 42 .4 44 .2 60
216.0570680
Yˆ 2262.081 48.135X1 38.550X2 104.585X3
ANO VAb
Model
Sum of Squ ares
1
Regression 2664 484.4 94
df Mean Sq uare 3 8881 61.49 8
Res i d u al
df 3
16 19
Mean Sq uare 8881 61.49 8
4668 0.657
F 19.026
Si g. .0 00a
(二)偏回归系数的假设检验及其评价
各偏回归系数的t检验
C oe fficien tas
Unstand ardized Co efficients
St an d ard ized Co efficients
AIC越小越好
(二)逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)
它们的共同特点是每一步只引入或剔除一 个自变量。决定其取舍则基于对偏回归平
方和的F 检验
Fj
SS回 SS残
逐步筛选法:取上述两种方法的优点,引入和剔 除交替进行,直到无变量可以引入,同时也无自 变量可以剔除为止。目前比较常用
SPSS操作
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Stepwise OK
说明所有自变量与Y间的线性相关程度。
如果只有一个自变量,此时 R | r |
Yˆ
校正决定系数(Adjusted
determination coefficient)
Rc2
1 (1
R2)
n 1 (n 1)
p
1
SS残 /(n 1 p) SS总 /(n 1)
=1- MS残 =1 746890.506 /16 0.740
多重线性回归分析
用途
探讨多个自变量与应变量之间的依存关系以及各 个自变量对应变量的相对贡献大小,从而探讨应 变量的主要影响因素
人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、
吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清 总胆固醇、甘油三脂
应用条件
• 应变量为定量变量,自变量可以是定量变量,也
.3 42 .4 44 .2 60
t -2.09 1 2.182 2.889 1.406
Si g . .0 00a
Si g. .0 53 .0 44 .0 11 .1 79
回归方程的假设检验与评价
(一)回归方程的假设检验 (二)偏回归系数的假设检验 (三)有关评价指标
(一)回归方程的方差分析
H0:所有回归系数为0 H1:至少有一个回归系数不为0
Model
B
Std. Error
1
(Constant) -2262.081 1081 .870
X1
48.135 22.058
X2
38.550 13.346
X3
104.585 74.361
a. Dependent Variable: Y
St an d ard ized Co efficients
Bet a
【例15-1】 为探讨女大学生的体重、胸围 与胸围呼吸差对肺活量的影响,某研究者调 查了20名女大学生的相关资料,见表15-1, 并分别用体重、胸围与胸围呼吸差对肺活量 进行线性回归分析
多重线性回归分析的步骤
(一)估计各项参数,建立多重线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提 下,再分别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。
df 1
18 19
2 17 19
3 16 19
2 17 19
Mean Sq uare 2042 821.830
7603 0.73 2
1221 095.274 5701 0.85 0