第十三章 多重线性回归与相关
线性回归与相关分析
线性回归与相关分析一、引言线性回归和相关分析是统计学中常用的两种数据分析方法。
线性回归用于建立两个或多个变量之间的线性关系,而相关分析则用于衡量变量之间的相关性。
本文将介绍线性回归和相关分析的基本原理、应用场景和计算方法。
二、线性回归线性回归是一种建立自变量和因变量之间线性关系的统计模型。
它的基本思想是通过找到最佳拟合直线来描述自变量与因变量之间的关系。
线性回归模型可以表示为:Y = β0 + β1X + ε,其中Y表示因变量,X表示自变量,β0和β1分别表示截距和斜率,ε表示误差项。
线性回归的目标是最小化观测值与模型预测值之间的差异,常用的优化方法是最小二乘法。
线性回归的应用场景非常广泛。
例如,我们可以利用线性回归来分析广告费用和销售额之间的关系,或者分析学生学习时间和考试成绩之间的关系。
线性回归还可以用于预测未来趋势。
通过建立一个合适的线性回归模型,我们可以根据历史数据来预测未来的销售额或者股票价格。
在计算线性回归模型时,我们首先需要收集相关的数据。
然后,可以使用统计软件或者编程语言如Python、R等来计算最佳拟合直线的参数。
通过计算截距和斜率,我们可以得到一个最佳拟合线,用于描述自变量和因变量之间的关系。
此外,我们还可以借助评价指标如R 平方来衡量模型的拟合程度。
三、相关分析相关分析是一种用于衡量两个变量之间相关性的统计方法。
它可以帮助我们判断变量之间的线性关系的强度和方向。
相关系数是表示相关性的一个指标,常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数适用于测量两个连续变量之间的线性关系,其取值范围在-1到1之间。
当相关系数接近1时,表示两个变量呈正相关,即随着一个变量增加,另一个变量也增加。
当相关系数接近-1时,表示两个变量呈负相关,即随着一个变量增加,另一个变量减小。
当相关系数接近0时,表示两个变量之间没有线性关系。
斯皮尔曼相关系数适用于测量两个有序变量之间的单调关系,其取值范围也在-1到1之间。
13-多重线性回归分析(7年制).
本题:
Ra2
0.7312
4 (1 0.7312) 30 4 1
0.6882
二、偏相关系数
partial correlation coefficient
1. 在多重相关分析中,有时需要分析当其它 变量固定不变时,说明某两个变量间相关 程度和方向的统计指标,称为偏相关系数。
例如:分析3个变
总的来说,若该回归方程成立,则这些回归系数里 面至少有一个不为0,只要有一个不为0,这个方程
来说总的就是成立的。
H0:β1=β2=β3=…=βi=0 H1:至少有一个 βi ≠ 0
1. 回归模型的假设检验—方差分析
Y Y 2 Yˆ Y 2 Y Yˆ2
{ { {
SS总(总平方和) v总=n-1
量(X
1、X
2和X
)间关系时,
3
可计算三个偏相关系数r12.3、r13.2、r23.1。
其中r12.3表示当X
3固定时,X
1和X
间的
2
相关
系
数,与此类推。
糖尿病患者脂联素数据例题中,控制3个自变量的影响 后,才能正真看到Y与另外一个变量的相关性。 扣除其它变量的影响后,称为变量Y与X的偏相关系数。
为了估计模型中的未知参数,需要从总体中随 机抽取一个样本,从而求得样本回归方程:
Yˆ b0 b1X1 b2 X2 ... bp X p
Yˆ是反应变量Y的总体平均值Y
X1,X 2,...,
的估计值
XP
b0:截距参数,常数项;是总体参数β0 的估计值。
bi:变量Xj的偏回归系数(partial regression coefficient), 是总体参数βi 的估计值
多重线性回归与相关
冷饮销售量(元)X1
3000
( )X2
游 2000 人泳 人 数
1000
r23=0.97617
0
28
30
32
34
36X3
( )X1
1200
1000
冷
元饮 销
800
售
量
600
400
r13=0.9809
200
28
30
32
34
36
38
40
气温(0C)X3
同理,汽车与污染数据例中,控制 三个自变量的影响后,才能真正看得 出Y与另一个自变量的相关性,一般地, 控制其它变量的影响后,变量Y与X的 相关,称为变量Y与X的偏相关系数 (partial correlation coefficient), 经计算,例13-1中空气中NO浓度与 车流、气温、气湿、风速相关的简单 相关系数与偏相关系数由表13-5给出。
调整复相关系数(Adjusted R-Square) 当回归方程中包含有很多自变量,即使其 中有一些自变量对解释反应变量变异的贡 献极小,随回归方程自变量个数的增加,
调整复相关系数R2记为R2,定义为
R2
R2
k 1 R2 n k 1
对于本例,R2=0.7874,n=23,k=4,则调
整R2为:
R2
0.7874
41 0.7874
23 4 1
0.7874 0.0445789 0.7426
二、偏相关系数
表13-4 冷饮销售量、游泳人数与气温数据
冷饮销 游泳人 气温 冷饮销 游泳人 气温
售量X1 数X2 (0C) X3 售量X1 数X2 (0C) X3
267 722
13 多重线性回归与相关
第十三章 多重线性回归与相关[教学要求]了解: 多重共线性的概念及其对回归分析结果的影响;通径分析的基本过程及其应用。
熟悉:多重相关与回归分析的基本原理与方法。
掌握:掌握多重相关与回归分析结果的解释;相关、回归、简单相关、偏相关与复相关,简单回归、偏回归与全回归等概念。
[重点难点]第一节 多重线性回归的概念及其统计描述一、变量(Y )关于k 个自变量()的多重线性回归的数学模型为:k X X X ,...,,21i ki k i i i X X X Y εββββ+++++=...22110。
实质是将每个Y 的观测值用该模型在最小残 差平方和的原则下进行分解。
二、标准回归系数为将各个变量按ii i i S X X X −=*变换后,再进行多重回归计算所得的 回归系数。
因为通过标准化过程消除了各个变量的计量单位不同对回归系数的影响, 所以各个标准回归系数的大小能直接反映该自变量对Y 变量的回归效应的大小。
三、多重回归分析的前提条件完全与简单线性回归相同:线性、独立、正态和等方差,即 LINE 。
第二节 多重线性回归的假设检验一、 整体回归效应的假设检验(方差分析)的原假设为H 0: 0...321=====k ββββ;其过程 是通过对Y 的总变异进行分解,用回归均方与残差均方的比值构造F 检验统计量,然后根 据相应的F 分布决定是否拒绝原假设。
二、偏回归系数的t 检验的的原假设为H 0: βi =0,即第i 个总体偏回归系数为零;其过程是 用第i 个偏回归系数的估计b i 与该偏回归系数的标准误之比值构造t 统计量:bi ibi S b t =然后根据相应的t 分布决定是否拒绝原假设。
第三节 复相关系数与偏相关系数一、 确定系数、复相关系数与调整确定系数1、复相关系数的平方称为确定系数(coefficient of determination)或决定系数,记为R 2,用以反映线性回归模型能在多大程度上解释反应变量Y 的变异性。
13 多重线性回归与相关
Multiple Linear Regression
and Correlation
多重线性回归
多重线性回归的概念; 多重线性回归是简单线性回归 的推广。它研究一个应变量与多个 自变量之间的线性依存关系。
如:一个人的血压水平受年龄、饮食 结构、遗传特性等许多因素的影响。
多重线性回归
多重线性回归
自变量筛选:
在建立的多重回归模型中,有的自变量有 统计学意义,有的没有。 建立一个所有对应变量作用有统计学意义 的自变量,不包括无统计学意义的自变量。 多重共线性(Multi-co-linearity):自变 量之间存在相似的线性关系。
多重线性回归
筛选准则:
残差平方和(SSE)缩小
决定系数( R2 )增大
调整决定系数( RA2 )增大
多重线性回归
筛选自变量的方法:
最优子集法(the best subset):自变 量所有可能的组合与因变量进行回归, 选择残差最小。 强制法(enter):即所有自变量均进 入方程。 向前法(forward):从仅有截距的 方程开始,把变量逐个引入方程。
2. 多重线性回归方程的建立
ˆ y b0 b1 x1 b2 x2 bk xk
b1,b2…bk称偏回归系数(Partial
regression coefficient),b0为截距
(intercept)。
多重线性回归
偏回归系数(Partial regression coefficient):
调整的R2 (adjusted R-square):调 整因自变量个数的增加导致的复相关系 数的增大。
多重线性相关
偏相关系数(partial correlation coefficient):
卫生统计学第八版李晓松第十三章 多重回归分析简介
第一节 多重线性回归
(四)多重线性回归用途及注意事项
1.多重线性回归的用途
(1)影响因素分析。 (2)估计与预测。
...
p xp
y=1发生的概率记为 ,y=0的概率为1- ;0 为常数项,
1, 2 ,..., p 为logistic回归系数。
第二节 logistic回归
2. logistic回归系数的流行病学意义 logistic回归模型的回归系数具有特殊含义,其解释可与流行病 学中的优势比(odds ratio,OR )联系起来:
年龄
x2 2 4 4 4 4 … 4 3 4 3 1
文化程度
x3 2 4 1 2 1 … 2 1 2 1 1
社会医 疗保障
x4 1 1 1 1 1 … 1 1 1 1 1
自感疾病 最近医疗点 年人均
严重程度 距离
收入
x5
x6
x7
2
0
1
3
0
4
2
0
1
2
0
4
1
1
3
…
…
…
2
0
4
2
0
4
2
0
3
1
0
3
2
0
3
城乡 类型
第一节 多重线性回归
变量筛选结果
变量
截距 体重x1 胸围x2
自由度 偏回归系数 标准误
1
-4.908
多重线性回归相关
t1 = 2.265
界值表得: 0.05(17) 2.110, 查t界值表得:t0.05(17)=2.110,t1> 0.05,因此在α=0.05 α=0.05水 t0.05(17),P<0.05,因此在α=0.05水 0.05(17) 平上,拒绝H 平上,拒绝H0,可以认为收缩压与年龄 之间有线性回归关系。 之间有线性回归关系。
(i = 1,2,⋅ ⋅ ⋅, m )
165602 . 8812 . = 836.70 l11 = 41467− = 265895 l22 = 1379535 − . 20 20
SS总=58.9388
l11 2658.95 s1 = = = 11.8298 n −1 20 − 1
l22 836.70 s2 = = = 6.6360 n −1 20 − 1
265895b1 − 277.30b2 = 91.28 . − 277.30b1 + 836.70b2 = 147.49 解方程得: b1 = 0.0546 b2 = 0.1944 ,
(
)
b0 = 17.82 − (0.0546 × 44.05 + 0.1944 × 82.80 ) = −0.6815
ˆ Y = −0.6815 + 0.0546 X 1 + 0.1944 X 2
假设检验
Yi = β 1 + β 1 X 1i + β 2 X 2 i + ...... β m X mi + ε i
由样本计算得到得偏回归系数b 是总体偏回归系数β 由样本计算得到得偏回归系数bi是总体偏回归系数βi的估 计值,即使总体偏回归系数等于0 但由于抽样误差, 计值,即使总体偏回归系数等于0,但由于抽样误差,仍可使样 本偏回归系数b 不等于0 因此仍要作假设检验, 本偏回归系数bi不等于0,因此仍要作假设检验,以判断其是否 有统计学意义。 有统计学意义。 假设检验包括方程的假设检验和每个偏回归系数的假设检验。 假设检验包括方程的假设检验和每个偏回归系数的假设检验。 (一)多元回归方程的假设检验 1. 建立假设和确定检验水准: 建立假设和确定检验水准: H0:β1=β2=β3…=βm=0 H1:β1、β2、β3、…、βm不全为 、 不全为0 、 α=0.05
多重线性回归与相关
样本的多重线性回归方程:
Y ˆ b 0 b 1 x 1 b 2 x 2 b 3 x 3 . .b .p x p
标准化偏回归系数(standardized partial regression coefficient):
第13章 多重线性回归与相关
(multiple linear regression & multiple correlation)
多元线性回归的应用
1. 影响因素分析 例如影响高血压的因素可能有年龄、饮食习惯、 吸烟状况、工作紧张度和家族史等,在影响 高血压的众多可疑因素中,需要研究哪些因 素有影响,哪些因素影响较大。
量的影响大小,标准化回归系数越大, 软件包
(1)求偏回归系数b0,b1,b2, ,bk
建立回归方程(样本)
一
般 步
Y ˆ b 0 b 1 X 1 b 2 X 2 b kX k
骤
(2)检验并评价回归方程 及各自变量的作用大小
第二节 多重线性回归的假设检验
一、 回归方程的假设检验——方差分析法:
H0 : 1 2 k 0 , H1 : 各(j j=1,2,,k)不全为 0,
0.05
S总 SS回 SS残 S
FSS残S( /S回 n/kk1)M MSS回 残
F~F(k,nk1)
多元线性回归方差分析表 ( 0.05)
变异来源 自由度 SS
MS
➢ 条件:Y与X呈线性关系;各个体观测资料彼此独立; 各X处的Y呈正态分布;不同X处Y的方差相等。
第一节 多重线性回归的概念与统计描述
多元相关与回归
一、数据与模型
例13-1 为了研究有关糖尿病患者体内脂联
素水平的影响因素,某医师测定了30名患者的体
重指数BMI(kg/m2)、病程DY(年)、瘦素
LEP(ng/mL)、空腹血糖FPG(mmol/L)及脂
联素ADI(ng/mL)水平,数据如表13-1所示。
表 13-1 体重 指数 ( X1) 24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86 24.49 23.37 20.81 病程 瘦素 空腹 血糖 ( X4) 13.6 6.2 11.1 9.7 7.3 7.3 7.7 6.0 6.7 7.2 9.1 8.1 7.0 6.3 7.1
( 13-1)
其中,
0 为常数项,也称截距; j 为自变量 X j 的偏回归系数( partial
j
regression coefficient) , 表示当方程中其他自变量保持不变时, 自变量 X 变化一个计量单位 ,反应变量 Y 的平均值变化的单位数。
相应的由样本估计而得的多重线性回归方程为
很好地拟合了所选用线性回归模型。 R2直接反映了回
归方程中所有自变量解释反应变量Y总变异的百分比, 或者说, R2也可以解释为回归方程使反应变量Y的总
变异减少的百分比。
利用决定系数对回归方程进行拟合优度的假设检验完全等价于对 整个回归方程的方差分析,因为
R2 / p F SS残 /(n p 1) (1 R 2 ) /(n p 1) SS回 / p
( X3) 10.21 19.31 8.65 8.54 7.21 8.75 13.07 8.90 23.26 19.05 19.44 17.33 14.59 22.06 20.56
卫生统计学《多重线性回归与相关》课件
当模型或方程是用极大似然法估计时:
AIC 2ln(L) 2 p
式中,p为模型中参数的个数,L是模型的极大似然函数,n为 样本量。AIC由两部分组成,左边部分反映回归方程的拟合精度, 其值越小越好;右边反映了回归中变量数的多少,即模型复杂程度 ,实际上也是对自变量或参数个数进行的“惩罚”。因而AIC越小 越好。
1
3.利用软件包对例12-1的3个偏回归系数进行t检 验,并计算标准化偏回归系数的结果如表所示。
第三节 复相关系数与偏相关系数
一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为决 定系数或确定系数,记为R2
R2=SS回/SS总
它的取值范围为0-1之间。它越接近1,表示样本数据 很好地拟合了所选用线性回归模型。 R2直接反映了回归方程中所有自变量解释反应变量Y的 变异性,或者说, R2也可以解释为回归方程使因变量Y 的总变异减少的百分比。
30
2.86
6
45.3
74.8
32
1.91
7
51.4
73.7
36.5
2.98
8
53.8
79.4
37
3.28
9
49
72.6
30.1
2.52
10
53.9
79.5
37.1
3.27
11
48.8
83.8
33.9
3.1
12
52.6
88.4
38
3.28
13
42.7
78.2
30.9
1.92
14
52.5
88.3
38.1
第13部分多重线回归与相关
复相关系数的平方称为确定系数(coefficient of
determination), 或决定系数,记为R2,用以反映线性回
归模型能在多大程度上解释反应变量Y的变异性。其定义
为
R2 SS回 1 SS残
SS总
SS总
0 R 2 1 ,说明自变量 X1, X 2 , , X k 能够解释 Y 变
content
第一节 第二节 第三节 第四节 第五节
多重线性回归的概念与统计推断 假设检验及其评价 复相关系数与偏相关系数 自变量筛选 多元线性回归的应用与注意事项
▪ 目的:作出以多个自变量估计应变量的多元
线性回归方程。
▪ 资料:应变量为定量指标;自变量全部或大
部分为定量指标,若有少量定性或等级指标 需作转换。
▪ 用途:解释和预报。更精确 ▪ 意义:由于事物间的联系常常是多方面的,
一个应变量的变化可能受到其它多个自变量 的影响,如糖尿病人的血糖变化可能受胰岛 素、糖化血红蛋白、血清总胆固醇、甘油三 脂等多种生化指标的影响。
第一节 多重线性回归的概念 与统计推断
一、数据与多元线性回归模型
• 变量:应变量 1 个,自变量k 个,共 k+1 个。
0.7426
偏相关系数
冷饮销售量(元)
X1
267 397 451 528 618 655 690 740 780 889 996
游泳人数(人)
X2
722 814 924 1066 1253 1369 1593 1761 1931 2231 2749
气温 (oC)
X3
29 30 31 32 33 34 35 36 37 38 39
j
Y
的平均变化
第13章 多重线性回归与相关
多重线性回归的概念及其统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选 关于多重线性回归的应用
多重线性回归的概念及其统计描述
由于事物之间存在诸多联系,医学研究中的指 标会受到多个变量的影响。此时则使用多元线性分 析方法。 它是一个应变量与多个自变量间联系的线性回 归模型和相关关系。是简单线性回归与相关延续。
复相关系数与偏相关系数
简单回归系数
因变量Y和自变量Xi的直线回归方程中,b为简单回归系数。
Y = a + bX i
偏回归系数
因变量Y和多个自变量X1,X2,…,Xi ,…,Xp的直线回归方程 中,bi为(样本)偏回归系数。
ˆ Y = a + b1 X 1 + b2 X 2 + ⋯ + bi X + b p X p
选择适当的自变量使得建立的回归模型达到 较好的回归效果。 若将对反映变量无影响或影响很小的自变量引 入方程,会加大计算量并使回归参数的估计和预测 精度降低。 若未将对反映变量影响大的自变量包含在模型 中,则回归参数的估计往往是有偏的。 回归模型的正确选择在根本上是依赖与研究问题本 身的专业问题
自变量的筛选
ˆ Y = 11.012 + 1.693 X 1 − 2.159 X 2 + 0.007 X 3
多重线性回归的应用
三、多重共线性问题 识别: 1、回归系数的符号与专业知识不符 2、变量的重要性与专业不符 3、决定系数大,但自变量对应回归系数均无统计学意义 解决办法: 1、自变量筛选 2、主成分分析
多重线性回归的假设检验
当只有一个自变量时(直线回归)除了t检验,也 可用方差分析对回归系数进行假设检验 F ~ F (1, n − 2) 因此有:
多重回归分析
i 、…、 m 的估计值 b0 、 b1 、 b2 、…、 bi 、…、 bm ,从而得到 Y 的估计表达式:
ˆ b b X b X b X Y 0 1 1 i i m m
例13-1测量了30名中学生的身高X1(cm)、体重X2(kg)、胸 围X3(cm)、坐高X4(cm)与肺活量Y(L),数据见表13-2 。 试对Y与X1、X2、X3、X4做多重线性回归分析。
共线性(collinearity)诊断
共线性:各自变量X1、X2、…、Xi、…、Xm之间不是独立 的因素变量,即彼此间有强的相关关系存在,其中某个自变 量可以通过其它的自变量来表达,叫作存在共线性,它会增 加所拟合的回归方程的方差而造成结果的不稳定性,甚至有 时无法得出合理的结果。 诊断方法: 相关分析 (r>0.7) 方差膨胀因子VIF(Variance Inflation Factor, >10) 条件指数(Condition Index, >100)
H1:各 i (i=1、2、…、m)不全为 0
α =0.05
F
SS误差 / n m 1
表 13-3 多重线性回归方差分析表
SS回归 / m
变异来源 回 归 误 差 总变异
自由度 m n-m-1 n-1
SS SS 回 SS 误 SS 总
MS
F
P
SS 回/m MS 回/MS 误 SS 误/(n-m-1)
满足的条件
应变量Y与自变量X1、X2、…、Xi、…、Xm之
间具有线性关系; 残差 ~ N (0, 2 ) ,即要求对任意一组自变量X1、 X2、…、Xi、…、Xm值所对应的应变量Y应相 互独立、服从正态分布、方差相等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用多元线性回归的目的
✓考察几个地位平等的影响因素对应变量的影响,如上例 ✓根据X前系数考察主要因素扣除其他干扰因素(不易做 到均衡可比)后的效应,如在研究新药作用时,可将一些 干扰因素纳入多元回归方程。
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
多重线性回归的概念及其统计描述
应用场合:
定量地刻画一个因变量Y与多个自变量X1,X2,……间
的线性依存关系。
资料要求: 因变量一定是随机变量(LINE); 自变量可以是随机变量,也可以是人为给定的。
多重线性回归的概念及其统计描述
一、数据与模型
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
Ra2
R2
k(1 R2 ) n k 1
第二节 自变量选择方法
自变量的筛选
选择适当的自变量使得建立的回归模型达到较好的回归 效果。
若将对反映变量无影响或影响很小的自变量引入方程, 会加大计算量并使回归参数的估计和预测精度降低。
若未将对反映变量影响大的自变量包含在模型中,则回 归参数的估计往往是有偏的。
回归模型的正确选择在根本上是依赖与研究问题本身的 专业问题
自变量的筛选
一、自变量筛选的标准与原则 1、残差平方和(SSE)缩小与确定系数(R2)增大
若某一自变量的引入使得SSE缩小很多,说明该变量对Y 的作用大,则引入;否则不被引入。
若某一变量从模型中被剔除后使得SSE增加很多,说明 该变量对Y的作用大,不应剔除;否则剔除。 决定系数R2=1-SSE/SST,它增大与SSE缩小完全等价
方程的评价
1、剩余标准差 反映了回归方程的精度,其值越小说明回归效果越好
S Y|12 k
SSE SST
MS E
方程的评价
2、决定系数
说明所有自变量能解释Y变异的百分比。取值(0,1)
越接近1模型拟合越好
R2 SSR 1 SSE
SST
SST
方程的评价
3、校正决定系数 考虑了自变Байду номын сангаас个数的影响
2.决定系数R2
R2 SS回 133.7107 0.6008 SS总 222.5519
血糖含量变异的60%可由总胆固醇、甘油三酯、 胰岛素和糖化血红蛋白的变异解释。
多重线性回归的假设检验
当只有一个自变量时(直线回归)除了t检验,也 可用方差分析对回归系数进行假设检验
因此有: F ~ F(1,n 2)
3.标准化回归系数
X 'j
Xj Xj Sj
标准化回归方程
标准化回归系数bj’ 的绝对值用来比较各个自变量
Xj 对Y的影响程度大小;绝对值越大影响越大。
标准化回归方程的截距为0。
标准化回归系数与一般回归方程的回归系
数的关系:
b'j b j
l jj l YY
b j
Sj SY
b1'
0.1424
H0 : 1 2 m 0 H1 : j( j 1,2, , m)不全为0。
SS回 b1l1Y b2l 2Y bmlmY
SS残 SS总 SS回
F
SS残
SS回 /(n
/m m
1)
MS 回 MS 残
表 15-3 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
P
总变异 回归 残差
多重线性回归和相关是一个应变量与多个自变量 间联系的线性回归模型和相关关系。是简单线性回归 与相关延续。
多重线性回归的概念及其统计描述
例子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损 半径与辐射的温度、与照射的时间
复相关系数与偏相关系数
一、决定系数、复相关系数、调整确定系数 1、决定系数
复相关系数与偏相关系数
2、复相关系数
复相关系数与偏相关系数
3、调整决定系数
复相关系数与偏相关系数
二、偏相关系数 复相关系数反映了Y与所有自变量之间的密切程度,但
往往需要了解Y与自变量两两之间的关系或两个自变量间的关系。 每两个变量间都可能存在相关,因此计算每两个变量间
1.5934 2.9257
0.0776
b'2
0.3515
2.5748 2.9257
0.3093
b'3
0.2706
3.6706 2.9257
0.3395
b'4
0.6382
1.8234 2.9257
0.3977
对血糖影响大小的顺序依次为糖化血红蛋白(X4)、 胰岛素(X3)、甘油三酯(X2)与总胆固醇 (X1)。胰 岛素为负向影响。
二、回归参数的估计
多元线性回归方程的形式及建立过程
66.0103 67.3608 - 53.9523 31.3687 67.6962
67.3608 172.3648 - 9.4929 26.7286 89.8025
lij
-
53.9523
- 9.4929
350.3106
-
57.3863
序号 i
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
Yˆ 5.9433 0.1424X1 0.3515X2 0.2706X3 0.6382X4
多重线性回归的假设检验
二、偏回归系数的假设检验 在回归方程具有统计学意义的情况下,检验某个
总体偏回归系数是否等于零,据以判断其对应的自变量对 回归是否有贡献。
使用t检验
多重线性回归的假设检验
tj
bj Sbj
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 Sb1 0.3656 Sb2 0.2042 Sb3 0.1214 Sb4 0.2433
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp实施标准化变换后的直
线回归方程中,bi 为(样本)标准偏回归系数。
Yˆ a b1X1 b2 X2 biX bp Xp
复相关系数与偏相关系数
简单相关系数
单纯考虑因变量Y和自变量Xi的直线相关关系,ri为简单相关系数。
复相关系数
刻画因变量Y(随机变量)和一组自变量X1,X2,…,Xi ,…,Xp的线性
复相关系数与偏相关系数
简单回归系数
因变量Y 和自变量Xi的直线回归方程中,b为简单回归系数。
偏回归系数
Y a bXi
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp的直线回归方程中,bi为
(样本)偏回归系数。
Yˆ a b1X1 b2 X2 bi X bp X p
标准偏回归系数
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 X1 5.8126 X2 2.8407 X3 6.1467 X4 9.1185 Y 11.9259
b0 Y (b1X1 b2X2 bmXm) 5.9433
n-1 m
n-m-1
SS 总 SS 回 SS 残
SS 回/m
MS 回/MS 残
SS 残/(n-m-1)
表 15-4 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
总变异
26 222.5519
回归
4 133.7107 33.4277 8.28
残差
22
88.8412 4.0382
P <0.01
F0.01(4,22)=4.31
0.1424 t1 0.3656 0.390 P 0.05
0.3515 t2 0.2042 1.721 P 0.05
0.2706 t3 0.1214 2.229 P 0.05
0.6382 t4 0.2433 2.623
P 0.05
t 0.05/ 2,22 2.074
胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有 线性回归关系。
第十三章 多重线性回归与相关
➢多重线性回归的概念及其统计描述 ➢多重线性回归的假设检验 ➢复相关系数与偏相关系数 ➢自变量筛选 ➢关于多重线性回归的应用
多重线性回归的概念及其统计描述
在医学现象中,影响人的生理、病理现象及疾病 的因素很多,疾病的发生发展往往是多因素作用的结 果,且各因素之间不独立,存在相关性,仅仅进行单 因素研究结果不理想。需进行多因素分析。