(医学)北京大学医学部医学统计学进阶1第1讲 多重线性回归与相关
合集下载
回归与相关(卫生统计学课件)
• a - 截距(intercept)或常数项(constant term);
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
医学统计学-第11章 多重线性回归精简1-1
18
复相关系数R
(multiple correlation coefficient)
定义:Biblioteka R = SS回 SS总(11-6)
意义:表示变量Y与p个自变量(X1,X2, ‥,Xp) 的密切相关程度。本例: R = 0.7312 = 0.8551
表示四个变量的复相关关系
19
复相关系数有缺点:
当回归方程中包含有很多自变量,即使其中有一些自 变量对反应变量变异的贡献极小,随着回归方程的自 变量的增加,R2值表现为只增不减。此时要用调整的 确定系数(常用),定义为:
问题:我们能不能根据回归方程下结论?
13
11.2.3 统计推断
一、整体回归效应的假设检验(方差分析)
对例题1,整体方程进行假设检验,方差分析结果 见下表所示,建立假设检验:
H0 : β1 = β2 = β3 = β4 = 0
由上表显示:P<0.0001,拒绝H0。说明 从整体上而言,用这四个自变量构成的 回归方程解释糖尿病患者体内脂联素的 变化是有统计学意义的。
一、概述 例1 为了研究有关糖尿病患者体内脂联素水平
的影响因素,某医师测定了30名患者的体重 指数BMI(㎏/㎡)、病程DY(年)、瘦素 LEP(ng/ml)、空腹血糖FPG(mmol/L)及脂联 素水平,数据如下表所示:
以上数据表可见,除增加了自变量的列数之外,数据结 构与简单回归的数据表完全相同。
(11-5)
见例1
公式(11-5)
20
二、回归系数的假设检验
偏回归系数的t检验是在回归方程具有统计学 意义的情况下,检验某个总体偏回归系数等于 零的假设,以判断是否相应的自变量对回归确 有贡献。如欲检验
H0 : βi = 0 , H1 : βi ≠ 0
复相关系数R
(multiple correlation coefficient)
定义:Biblioteka R = SS回 SS总(11-6)
意义:表示变量Y与p个自变量(X1,X2, ‥,Xp) 的密切相关程度。本例: R = 0.7312 = 0.8551
表示四个变量的复相关关系
19
复相关系数有缺点:
当回归方程中包含有很多自变量,即使其中有一些自 变量对反应变量变异的贡献极小,随着回归方程的自 变量的增加,R2值表现为只增不减。此时要用调整的 确定系数(常用),定义为:
问题:我们能不能根据回归方程下结论?
13
11.2.3 统计推断
一、整体回归效应的假设检验(方差分析)
对例题1,整体方程进行假设检验,方差分析结果 见下表所示,建立假设检验:
H0 : β1 = β2 = β3 = β4 = 0
由上表显示:P<0.0001,拒绝H0。说明 从整体上而言,用这四个自变量构成的 回归方程解释糖尿病患者体内脂联素的 变化是有统计学意义的。
一、概述 例1 为了研究有关糖尿病患者体内脂联素水平
的影响因素,某医师测定了30名患者的体重 指数BMI(㎏/㎡)、病程DY(年)、瘦素 LEP(ng/ml)、空腹血糖FPG(mmol/L)及脂联 素水平,数据如下表所示:
以上数据表可见,除增加了自变量的列数之外,数据结 构与简单回归的数据表完全相同。
(11-5)
见例1
公式(11-5)
20
二、回归系数的假设检验
偏回归系数的t检验是在回归方程具有统计学 意义的情况下,检验某个总体偏回归系数等于 零的假设,以判断是否相应的自变量对回归确 有贡献。如欲检验
H0 : βi = 0 , H1 : βi ≠ 0
医学统计学 多重线性回归分析
SS回归
检验统计量: F
MS回归 MS残差
回归 残差
SS残差
SS回归 SS残差 n2
查F界值表(P468),确定单侧临界值Fa(v回归, v残差),
求概率值 P,下结论
检验过程:
1. 建立假设,确定检验水准 H0 : β1=β2=β3=…=βi=0 ; H1 :至少有一个 βi ≠ 0。
之间的线性相关程度,即Y 和该组自变量的密切程度。
SS回归 SS总
本题:R
1773 .343 0.8551 2425 .301
3. 调整确定系数(adjust coefficient of determination, Rad2)
R
2 ad
p 1 R R n p 1
2 2
数模: Y X , X ,...,X 0 1 X 1 2 X 2 ... p X p
1 2 n
β0:截距参数,是常数项。 βi:变量Xj的总体偏回归系数(partial regression coefficient)
表示在其它自变量固定不变的情况下,Xj每增加或减少 一个计量单位,反应变量Y的平均变化 βi 个单位,或说所 引起应变量Y的平均改变量为βi个单位。
由表13-3可以看出,BMI、病程和空腹血糖对脂联素的 影响无统计学意义,P > 0.05,而瘦素的影响有统计学意 义P< 0.05。
回归方程的解释: ——这四个因素对糖尿病患者体内脂联素水平的 影响有多大?
1. 确定系数/决定系数
(coefficient of determination ,R2 )
ˆ2 SS残差: Y Y
总变异中无法用X1、 反应自变量X以外因素对Y X2…等和Y的回归关 的变异的影响。表示考虑 (残差平方和) 系解释的那部分变异 回归之后,Y的随机误差。
检验统计量: F
MS回归 MS残差
回归 残差
SS残差
SS回归 SS残差 n2
查F界值表(P468),确定单侧临界值Fa(v回归, v残差),
求概率值 P,下结论
检验过程:
1. 建立假设,确定检验水准 H0 : β1=β2=β3=…=βi=0 ; H1 :至少有一个 βi ≠ 0。
之间的线性相关程度,即Y 和该组自变量的密切程度。
SS回归 SS总
本题:R
1773 .343 0.8551 2425 .301
3. 调整确定系数(adjust coefficient of determination, Rad2)
R
2 ad
p 1 R R n p 1
2 2
数模: Y X , X ,...,X 0 1 X 1 2 X 2 ... p X p
1 2 n
β0:截距参数,是常数项。 βi:变量Xj的总体偏回归系数(partial regression coefficient)
表示在其它自变量固定不变的情况下,Xj每增加或减少 一个计量单位,反应变量Y的平均变化 βi 个单位,或说所 引起应变量Y的平均改变量为βi个单位。
由表13-3可以看出,BMI、病程和空腹血糖对脂联素的 影响无统计学意义,P > 0.05,而瘦素的影响有统计学意 义P< 0.05。
回归方程的解释: ——这四个因素对糖尿病患者体内脂联素水平的 影响有多大?
1. 确定系数/决定系数
(coefficient of determination ,R2 )
ˆ2 SS残差: Y Y
总变异中无法用X1、 反应自变量X以外因素对Y X2…等和Y的回归关 的变异的影响。表示考虑 (残差平方和) 系解释的那部分变异 回归之后,Y的随机误差。
《医学统计学》之多元(重)线性回归
多元(重)线性回归模型的假设
1 线性关系
假设自变量与因变量之间存在线性关系,即因变量可以用自变量的线性组合来表示。
2 独立性
假设误差项之间相互独立,即每个观测值的误差项不受其他观测值的影响。
3 常数方差
假设误差项具有常数方差,即各个观测值的误差方差相同。
多元(重)线性回归模型的估计方法
最小二乘法
多元(重)线性回归模型的模型选择方法
前向选择法
从不包含自变量的空模型开 始,逐步添加自变量,选择 最佳的组合。
后向消除法
从包含所有自变量的全模型 开始,逐步删除自变量,选 择最简单且最有效的模型。
逐步回归法
结合前向选择法和后向消除 法,逐步调整自变量,找到 最优的模型。
多元(重)线性回归模型的实际应用
医学研究
用于分析多个影响因素对疾病发生、病程进展和治 疗效果的影响。
市场分析
用于预测市场需求和销售量,并确定最佳的市场推 广策略。
财务预测
社会科学
用于预测企业的财务状况,并制定相应的经营决策。
用于研究社会现象和群体行为,解释和预测社会现 象的变化。
通过方差膨胀因子等指标,判断自变量之间是否存在高度相关性,以避免估计结果的不 准确性。
多元(重)线性回归模型的模型检验
1
残差分析
通过观察残差的分布和模式,检验回归模型是否符合基本假设。
2
拟合优度检验
通过比较拟合优度指标(如决定系数R²)和假设分布,评估回归模型的拟合程度。
3
异常值检验
通过检测异常值对回归分析结果的影响,判断数据中是否存在异常观测值。
《医学统计学》之多元 (重)线性回归
在医学统计学中,多元(重)线性回归是一种强大的数据分析方法,可用于探索 和建立多个自变量与因变量之间的关系。
《医学统计学》之多元(重)线性回归
《医学统计学》之多元 (重)线性回归
在本课程中,我们将深入研究医学统计学中的多元(重)线性回归分析。掌握回 归模型的基础知识,并学习如何评估模型、诊断回归方程以及拟合策略。
模块一:回归分析基础知识
了解回归分析的基本原理和应用场景,掌握回归方程的建立和参数估计的方 法。
模块二:多元线性回归模型
学习多元线性回归模型的概念、假设条件和模型参数的估计方法。
模块七:应用案例与实战经验
通过真实的医学案例和实战经验,加深对多元(重)线性回归的理解,并了解统计概念,包括方差膨胀因子、共线性检验和异常值检测。
模块四:模型评估与解释
学习如何评估回归模型的拟合优度和预测精度,并解释模型中的系数含义。
模块五:回归诊断
掌握回归诊断的基本方法,包括残差分析、离群值检测和共线性诊断。
模块六:回归模型拟合策略
学习选择合适的自变量、建立最佳模型和验证模型的方法,以及防止过拟合和欠拟合。
在本课程中,我们将深入研究医学统计学中的多元(重)线性回归分析。掌握回 归模型的基础知识,并学习如何评估模型、诊断回归方程以及拟合策略。
模块一:回归分析基础知识
了解回归分析的基本原理和应用场景,掌握回归方程的建立和参数估计的方 法。
模块二:多元线性回归模型
学习多元线性回归模型的概念、假设条件和模型参数的估计方法。
模块七:应用案例与实战经验
通过真实的医学案例和实战经验,加深对多元(重)线性回归的理解,并了解统计概念,包括方差膨胀因子、共线性检验和异常值检测。
模块四:模型评估与解释
学习如何评估回归模型的拟合优度和预测精度,并解释模型中的系数含义。
模块五:回归诊断
掌握回归诊断的基本方法,包括残差分析、离群值检测和共线性诊断。
模块六:回归模型拟合策略
学习选择合适的自变量、建立最佳模型和验证模型的方法,以及防止过拟合和欠拟合。
医学北京大学医学部医学统计学进阶1多重线性回归与相关
相关就是用于研究和解释两个变量之 间相互关系的。
复习: 直线相关
Linear Correlation
一、相关的类型 二、相关系数 三、相关系数的假设检验
为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。 它的形状象一块橄榄状的 云,中间的点密集,边沿 的点稀少,其主要部分是 一个椭圆。
产 儿 体重
**. Correlation is significant at the 0.01 level (2-tailed).
另外的例子:
识字数,鞋大小 游泳票与冰激凌销售量
21
24
3.0
2.8
29
30
22
25
4.0
3.9
15
16
15
16
3.2
3.2
31
24
4.3
SPSS计算程序
1.做散点图: GRAPHS-SCATTERT-SIMPLE-DEFINE
2. 相关分析: ANALYZE--CORRELATION – BIVARIATE -VARIABLES
孕妇尿中雌三醇含量与产儿体重之间的关系
一个产科医师发现孕妇尿中雌三醇含量与产儿的 体重有关。 于是设想,通过测量待产妇尿中雌三醇含量,可 以预测产儿体重,以便对低出生体重进行预防。 因此收集了31例待产妇24小时的尿,测量其中的 雌三醇含量,同时记录产儿的体重。
问尿中雌三醇含量与产儿体重之间相关系数是多 少?是正相关还是负相关?
对相关系数的假设检验,常用t检验,选用 统计量t的计算公式如下:
t
r 0
sr
医学统计学多重回归
4.逐步选择(stepwise selection)
逐步选择法又称逐步回归,其本质是前向选择法,为了 克服向前选择法在后续变量进入模型后可能使已在方程中 的变量变得不重要的缺点,同时吸收了向后剔除的作法。即 在逐步选择过程中,把经 F 检验有意义的变量引入方程后, 又对已在方程中的自变量进行一次关于剔除的 F 检验,保留 有统计学意义的变量,而剔除无统计学意义的变量。反复进 行引入、剔除过程,直到既没有变量被引入,也没有变量被 剔除为止。
bj为自变量Xj 的偏回归系数(partial regression coefficient),是βj的估计值,表示当方程中其他 自变量保持常量时,自变量Xj变化一个计量单位, 反应变量Y的平均值变化的单位数。
X
* i
Xi Si
Xi
标准化偏回归系数(standardized partial regression coefficient),又称为通径系数(path coefficient)。标准化偏回归系数b’j较大的自变 量在数值上对反应变量Y的作用较大。
先指定的临界值( Fin )比较,如果 F < Fin 程序停止,否则将其最
大 F 值所对应的自变量引入模型;然后在有一个自变量的模型基础 上,重复以上比较过程;如此反复,每次加一个变量到模型中,直到
剩下的变量中再无一个能使其 F 值大于 Fin 值为止。
3. 后向选择 (backward selection)
R2 0.06396 0.7874 0.08123
由此说明,用包含气车流量、气温、气湿与 风速这四个自变量的回归方程可解释交通 点空气 NO 浓度变异性的 78.74%。
复相关系数(multiple correlation coefficient) R
【卫生统计学】12章 多重线性相关与回归
0.05
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述
医学统计人卫线性相关与回归PPT课件
误差越小。
第21页/共29页
SS总
(Y Y )2
Y 2 ( Y)2 n
SS回
blXY
l
2 XY
l XX
SS剩= SS总 - SS回
F SS回 /回 MS回 SS剩 / 剩 MS剩
υ总=υ回+υ剩 υ总= n-1, υ回= 1,
υ剩= n-2
第22页/共29页
二、直线回归
(五)直线回归方程的假设检验 2. t检验:作b与ß的比较判断回归方程是否成立。 ➢ 实际应用中,由于相关系数的检验简单并与之等价,故一般用相关系数r的检验来
1.作直线相关和回归分析要有实际意义;
2.在进行分析之前,应先绘制散点图,当其分布 有直线趋势时,才适宜作直线相关回归分析。 散点图还能提示资料有无异常点。
3.两变量间存在直线相关关系,并不一定是因果 关系,可能是伴随关系;
4.直线回归方程的适用范围一般以自变量的取值
范围为限,在此范围内求出的估计值称内插;
方和中可以用X解释的部分。SS回越大,说明回归效 果越好,即SS总中可用X与Y线性关系解释的变异越多。
➢S S 剩 为 剩 余 平 方 和 , 它 反 映 X 对 Y 的 线 性 影 响 之 外 的 一切因素对Y的变异的作用,也就是在总平方和SS总 中无法用X解释的部分。在散点图中,各实测点离回
归直线越近, SS剩也就越小,说明直线回归的估计
第19页/共29页
任一点P的纵坐标被回归直线与均数 Y 截成三段
((YYˆ YYˆ))即表Y示估实计测值点PYˆ与与回
Y
P(X,Y)
归均直数线之的Y差纵向,距它离与,回即归实系
(Y Y)
(Y Yˆ)
际数的值大Y与小估有计关值。|Ybˆ|值之越差大,,
医学统计学教学课件-回归和相关
Today: 2019/11/29
回归参数计算的实例
编号 1 2 3 4 5 6 7 8 9 10
合计
母X 1.21 1.30 1.39 1.42 1.47
脐Y 3.90 4.50 4.20 4.83 4.16
X2 1.4641 1.6900 1.9321 2.0164 2.1609
Y2 15.2100 20.2500 17.6400 23.3289 17.3056
Today: 2019/11/29
三、回归系数的假设检验
b≠0原因:① 由于抽样误差引起,总体回归系数β=0
② 存在回归关系,总体回归系数β ≠0
(一) t 检验; (二) 方差分析
公式
t b0= b
Sb
Sb
,υ=n-2
Sb为回归系数的标准误 Sb=
SY.X
XX2
SY.X lXX
编号 母X
脐Y
X2
Y2
XY (YY)2Y2(Y)2/nlYY
1
1.21 3.90 1.4641 15.2100 4.7190 21.7031945.732/101.6086
2 3 4
1.30 1.39 1.42
4.50 4.20 4.83
1.6900 1.9321 2.0164
20.2500 17.6400 23.3289
SY.X为Y的剩余标准差——扣除X的影响后Y的变异程度。
sYX
YYˆ 2 n2
Y Y ˆ2 = Y Y2 X X X Y X 2 Y2
Today: 2019/11/29
Y Y ˆ2 = Y Y 2 X X X Y X 2 Y 2 1 .60 0 .7 84 6 0 .5 84 63
医学统计学--回归与相关祥解
3、对回归系数b作假设检验(方法:a. F
检验 b. t检验 c. 用r检验来代替)。
4、如果x与y存在直线关系( b假设检验的结 果P<0.05),列出回归方程。否则,不列回 归方程。
例 11.1
(1)画散点图
(2)计算a、b
求ΣX、ΣY、ΣX2、ΣY2及ΣXY;
本例:ΣX=592.6、ΣY=1428.70;
南方人理想体重=(身高cm-150)×0.6+48(kg)
回归与相关是研究变量之间相互关系的 统计分析方法,它是一类双变量或多变量统 计分析方法(本章主要介绍双变量分析方 法),在实际之中有着广泛的应用。如年龄
与体重、年龄与血压、身高与体重、体重与
肺活量、体重与体表面积、毒物剂量与动物
死亡率、污染物浓度与污染源距离等都要运
(592 .6) 2 41222 .14 6104 .66 10
lyy (Y Y ) Y
2 2
( Y ) 2 n
(1428 .70) 2 220360 .47 16242 .10 10
lxy XY
( X )( Y ) n
(592.6)(1428 .7) 91866 .46 7201 .70 10
lxy 7201 .70 b 1.1797 lxx 6104 .66
a Y b X 142.87 1.1797 59.26 72.9610
(3)对回归系数b作假设检验(见下)
(4) 列出回归方程:
Y 72.9610 1.1797X
三、回归系数b的假设检验
所建立的回归方程,不一定都有意义,
ΣX2=41222.14,ΣY2=220360.47 ; ΣXY=91866.46 计算 X 、 Y 、lxx、lyy、lxy;
医学统计学课件:线性回归与相关
表1 饮水氟含量(mg/L)与骨X线改变指数
调查对象 1 2 3 4 5 6 7 8 9
合计
饮水氟含量 骨X线改变 (X) 指数(Y)
0.24
0.40
0.80
0.56
1.00
1.91
1.80
0.86
3.12
5.25
4.10
3.40
5.60
58.38
10.27
70.33
10.81
116.30
37.74
257.39
XY
0.10 0.45 1.91 1.55 16.38 13.94 326.93 722.29 1257.20 2340.75
X2
0.06 0.64 1.00 3.24 9.73 16.81 31.36 105.47 116.86 285.17
Y2
0.16 0.31 3.65 0.74 27.56 11.56 3408.22 4946.31 13525.69 21924.20
示应变量Y 值对于回归直线的离散程度。
• 例1数据建立回归方程后,进行t 检ห้องสมุดไป่ตู้,过程如下: (1)建立假设检验
H0: =0 H1 : 0
0.05
Hypothesis test
(2)计算统计量
2025.07
SY X
17.01 7
17.01
Sb
1.510 126.91
t | 9.94 0 | 6.58 1.51
代入公式得:
simple regression
XY
37.74 257.39
b
l XY lXX
XY
n
X 2 X 2
n
《医学统计学》相关与回归
1000 .909 82.727
三、相关系数的显著性检验
与前面讲的其它统计量一样,根据样本资料 计算出来的相关系数同样存在抽样误差。即假设
r 在一个X与Y无关总体中作随机抽样,由于抽样误
r
差的影响,所得的样本相关系数也常常不等于零。
因此要判断两个变量X与Y是否真的存在相关
关系,仍需根据作总体相关系数ρ是否为零的假 设检验。
则,回归方程为
Yˆ 4.087 1.523X
3. 作回归直线
按求得的回归方程,在 X 实测值的范围内(本例为 2~22)任取两个 相距较远的点 A(X1,Yˆ1) 、 B(X 2 ,Yˆ2 ) ,连接 A、B 两点即得到回归直线。 本例可取 X1 3 ,计算出Yˆ1 8.65 ; X2 21,计算出Yˆ2 36.06 ,过(3, 8.65)和(21,36.06)两点的连线即为所求的回归直线(regression line)
低度相关 中度相关 高度相关
相关系数计算
1. 公式:
Pearson r
n
xi x yi y
i 1
=
n
xi x 2 yi y 2
i 1
Lxy Lxx gLyy
1 r 1
2. 原理:取图形的中心点O’( X ,Y ),任 意一点P(x,y)
例10.1 从男青年总体中随机抽取11名男青年组成样 本,分别测量每个男青年的身高和前臂长,身高和前臂长 均以cm为单位,测量结果如下表所示,试计算身高与前 臂长之间的相关系数。
三、回归方程的假设检验
与直线相关一样,直线回归方程也是从样本资料 计算而得的,同样也存在着抽样误差问题。所以, 需要对样本的回归系数b进行假设检验,以判断b 是否从回归系数为零的总体中抽得。为了判断抽 样误差的影响,需对回归系数进行假设检验。总
第十三章 多重线性回归与相关
-
142.4347
31.3687 26.7286 - 57.3863 86.4407 84.5570
67.6962
89.8025 -142.4347 84.5570
222.5519
66.0103b1 67.3608b2 - 53.9523b3 31.3687b4 67.6962 67.3608b1 172.3648b2 - 9.4929b3 26.7286b4 89.8025 - 53.9523b1 - 9.4929b2 350.3106b3 - 57.3863b4 - 142.4347 31.3687b1 26.7286b2 - 57.3863 b3 86.4407b4 84.5570
2. Cp选择法
Cp ((MSSS残残))pm n 2p 1
pm
P为方程中自变量个数。 最优方程的Cp期望值是p+1。
应选择Cp最接近P+1的回归方程为最优。
Ra2
R2
k(1 R2 ) n k 1
第二节 自变量选择方法
自变量的筛选
选择适当的自变量使得建立的回归模型达到较好的回归 效果。
若将对反映变量无影响或影响很小的自变量引入方程, 会加大计算量并使回归参数的估计和预测精度降低。
若未将对反映变量影响大的自变量包含在模型中,则回 归参数的估计往往是有偏的。
多重线性回归和相关是一个应变量与多个自变量 间联系的线性回归模型和相关关系。是简单线性回归 与相关延续。
多重线性回归的概念及其统计描述
例子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损 半径与辐射的温度、与照射的时间
卫生统计学《多重线性回归与相关》课件
AIC n ln((n p) / n) MSE) 2 p
当模型或方程是用极大似然法估计时:
AIC 2ln(L) 2 p
式中,p为模型中参数的个数,L是模型的极大似然函数,n为 样本量。AIC由两部分组成,左边部分反映回归方程的拟合精度, 其值越小越好;右边反映了回归中变量数的多少,即模型复杂程度 ,实际上也是对自变量或参数个数进行的“惩罚”。因而AIC越小 越好。
1
3.利用软件包对例12-1的3个偏回归系数进行t检 验,并计算标准化偏回归系数的结果如表所示。
第三节 复相关系数与偏相关系数
一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为决 定系数或确定系数,记为R2
R2=SS回/SS总
它的取值范围为0-1之间。它越接近1,表示样本数据 很好地拟合了所选用线性回归模型。 R2直接反映了回归方程中所有自变量解释反应变量Y的 变异性,或者说, R2也可以解释为回归方程使因变量Y 的总变异减少的百分比。
30
2.86
6
45.3
74.8
32
1.91
7
51.4
73.7
36.5
2.98
8
53.8
79.4
37
3.28
9
49
72.6
30.1
2.52
10
53.9
79.5
37.1
3.27
11
48.8
83.8
33.9
3.1
12
52.6
88.4
38
3.28
13
42.7
78.2
30.9
1.92
14
52.5
88.3
38.1
当模型或方程是用极大似然法估计时:
AIC 2ln(L) 2 p
式中,p为模型中参数的个数,L是模型的极大似然函数,n为 样本量。AIC由两部分组成,左边部分反映回归方程的拟合精度, 其值越小越好;右边反映了回归中变量数的多少,即模型复杂程度 ,实际上也是对自变量或参数个数进行的“惩罚”。因而AIC越小 越好。
1
3.利用软件包对例12-1的3个偏回归系数进行t检 验,并计算标准化偏回归系数的结果如表所示。
第三节 复相关系数与偏相关系数
一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为决 定系数或确定系数,记为R2
R2=SS回/SS总
它的取值范围为0-1之间。它越接近1,表示样本数据 很好地拟合了所选用线性回归模型。 R2直接反映了回归方程中所有自变量解释反应变量Y的 变异性,或者说, R2也可以解释为回归方程使因变量Y 的总变异减少的百分比。
30
2.86
6
45.3
74.8
32
1.91
7
51.4
73.7
36.5
2.98
8
53.8
79.4
37
3.28
9
49
72.6
30.1
2.52
10
53.9
79.5
37.1
3.27
11
48.8
83.8
33.9
3.1
12
52.6
88.4
38
3.28
13
42.7
78.2
30.9
1.92
14
52.5
88.3
38.1
医学统计学相关线性回归
由X推算Y的方程: X ax. y bx. yY
由Y推算X的方程: Y a y.x by.x X
2、应用不同:说明两变量间依存变化的数量关系 用回归,说明变量间的相关关系用相关。
3、意义不同:b表示X每增(减)一个单位,Y平 均改变b个单位;r说明具有直线关系的两个变量间 相关关系的密切程度与相关的方向。
判断回归方程效果的指标: 1、剩余标准差 2、残差 3、决定系数
P444
回归分析的一般步骤: 1. 绘制散点图,初步判断是否呈直线
趋势
2.计算a、b。(如果基本呈直线趋势)
3.对b作假设检验
方法: (1) F检验 (2) t检验 (3) 用r检验来代替。
4.作结论
如P≤0.05, 说明方程成立,列出回归方程; 如P >0.05, 说明方程不成立,不列回归 方程。
Unstandardized Standardized Adjusted S.E of mean predictions
应变量原始预测值
标准化后的预测值,预测值的均数为0, 标准差为1
不考虑当前记录,当前模型对该记录应 变量的预测值
预测值的标准差
Mean
条件均数的置信区间
Individual 个体 y 值的容许区间
散点呈随机分布,
斜率为0,说明误差项独 立,独立性假设成立。
不能直接采用 直线回归分析。
体重与学生化残差散点图
由X推Y的回归方程为: Y=-58.235+0.716X
相关分析的一般步骤: 1.绘制散点图 2.求r 3. 对r作假设检验: (1) t检验; (2) 查表 4.作结论:有无相关及其方向
输出系列相关残差的Durbin-Watson检验和残差与预测值
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、相关的类型
★正相关 ★负相关 ★完全正相关 ★完全负相关 ★零相关
二、相关系数
◆样本的相关系数用r (correlation coefficient) ◆相关系数r的值在-1和1之间。正相关时,r值在0
和1之间,这时一个变量增加,另一个变量也增 加;负相关时,r值在-1和0之间,此时一个变量 增加,另一个变量将减少。 ◆r的绝对值越接近1,两变量的关联程度越强,r 的绝对值越接近0,两变量的关联程度越弱。
41.20
r
0.61
677.42 6.74
从计算结果可以知道,31例待产妇尿中雌三醇含 量与产儿体重之间呈正相关,相关系数是0.61。
根据资料类型选择不同的方法计算r
Pearson: 连续变量,双变量正态分布资料 Kendall: 资料不服从双变量正态分布或
总体分布未知,等级资料。 Spearman:等级资料
产儿体重 kg(3)
3.2 3.2 3.4 3.4 3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
SPSS计算程序
1.做散点图: GRAPHS-SCATTERT-SIMPLE-DEFINE
2. 相关分析: ANALYZE--CORRELATION – BIVARIATE -VARIABLES
孕妇尿中雌三醇含量与产儿体重之间的关系
4.5
4.0
3.5
3.0
产儿体重
2.5
2.0
0
10
20
30
尿雌三醇
Correlations
尿雌三醇 产儿体重
尿 雌 三 醇 Pear son C or relation
1
.610* *
Sig. (2-tailed)
.
.000
N
31
31
产 儿 体 重 Pear son C or relation
另外的例子:
识字数,鞋大小 游泳票与冰激凌销售量
一个产科医师发现孕妇尿中雌三醇含量与产儿的 体重有关。
于是设想,通过测量待产妇尿中雌三醇含量,可 以预测产儿体重,以便对低出生体重进行预防。 因此收集了31例待产妇24小时的尿,测量其中的 雌三醇含量,同时记录产儿的体重。
问尿中雌三醇含量与产儿体重之间相关系数是多 少?是正相关还是负相关?
分析问题:总体-样本、 目的、变量、关系
编号 (1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
待产妇尿雌三醇含量与产儿体重关系
尿雌三醇 mg/24h(2
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15 16
产儿体重 kg(3)
=0.05 r=0.61, n=31, 代入公式 t= r
t=4.14
n2 1 r2
=n-2=31-2=29
查t值表,t0.05 (29) =2.045,
查t值表, t0.05(29) =2.045, 上述计算t=4.14>2.045,由t所 推断的P值小于0.05 按=0.05水准拒绝??,接受?? 认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有 正相关关系。
.610* *
1
Sig. (2-tailed)
.000
.
N
31
31
**. C orrelation is significant at the 0.01 lev el (2-tailed).
r
(x x) (y y) lxy
(x x)2 (y y)2 lxx lyy
多重线性回归与相关
王海俊 北京大学公共卫生学院
主要内容
第一节 偏相关 第二节 多元线性回归
医学上,许多现象之间都有相互联系,例 如:身高与体重、父亲身高与儿子身高、 体温与脉搏、产前检查与婴儿体重、乙肝 病毒与乙肝等。
在这些有关系的现象中,它们之间联系的 程度和性质也各不相同。
关系:可以说乙肝病毒感染是前因,得了乙肝 是后果,乙肝病毒和乙肝之间是因果关系;但 是,有的现象之间因果不清,只是伴随关系, 例如丈夫的身高和妻子的身高之间,就不能说 有因醇含量与产儿体重之间成正相关, 相关系数是0.61?为什么?
三、相关系数的假设检验
上例中的相关系数r等于0.61,说明了31例样本中雌三醇 含量与出生体重之间存在相关关系。但是,这31例只是 总体中的一个样本,由此得到的相关系数会存在抽样误 差。
因为,总体相关系数()为零时,由于抽样误差,从
相关就是用于研究和解释两个变量之 间相互关系的。
复习: 直线相关
Linear Correlation
一、相关的类型 二、相关系数 三、相关系数的假设检验
为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。
它的形状象一块橄榄状的 云,中间的点密集,边沿 的点稀少,其主要部分是 一个椭圆。
总体抽出的31例,其r可能不等于零。 这就要对r进行假设检验,判断r不等于零是由于抽样误差
所致,还是两个变量之间确实存在相关关系。
对相关系数的假设检验,常用t检验,选用 统计量t的计算公式如下:
t r0 r r n2
sr
1 r2
1 r2
n2
=n-2
H0 : =0 H1 : ≠0
2.5 2.5 2.5 2.7 2.7 2.7 2.4 3.0 3.0 3.1 3.0 3.1 3.0 2.8 3.2 3.2
编号 (1)
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
尿雌三醇 mg/24h(2)
17 25 27 15 15 15 16 19 18 17 18 20 22 25 24
Correlations
尿雌三醇 产儿体重
尿 雌 三 醇 Pear son C or relation
1
.610* *
Sig. (2-tailed)
.
.000
N
31
31
产 儿 体 重 Pear son C or relation
.610* *
1
Sig. (2-tailed)
.000
.
N
31
31
**. C orrelation is significant at the 0.01 lev el (2-tailed).