回归与相关(卫生统计学课件)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• a - 截距(intercept)或常数项(constant term);
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
变异来源 总变异 回归 残差
表4 回归方程方差分析表
SS
MS
35.803
19
22.807
1
22.807
12.996
18
0.722
F 31.589
P值 < 0.01
实际中最好给出更准确的P 值,如P<0.0001
二、t 检验
➢ 回归系数检验也可以采用t 检验的方法,即
b0 tb Sb
, n 2
图2 11名男青年身高与前臂长关系散点图
结论: 前臂长与身高呈正相关关系, 而且相关程度较高。
小结
线性相关表示两个变量之间的相互关系是双向的。 相关系数 1 r 1 。
相关系数可以用于描述两个变量间相互关系的密 切程度和方向。
20 12731.62 499.292
20
0.29
合计
499.29
125.58
3213.09 12731.62
824.32
Yˆ 1.0108 0.292X
a Y b X 6.279 0.292 24.965 1.0108
➢ 回 归 方 程 为 : Yˆ 1.0108 0.292X
直线回归系数的含义
直线回归系数的含义
➢ 线性回归方程用于描述两个变量间依存变化的数量关系。也称简单回归。
Y a bX
• X - 自变量(independent variable);
• Y - 因变量(dependent variable);
• Y - 给定X 时Y 的估计值;
• a - 截距(intercept)或常数项(constant term);
实例
例1 从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前 臂长,测量结果如下表所示,试计算身高与前臂长之间的相关系数。
表1 11名男青年身高与前臂长的测量结果(cm)
编号 1 2 3 4 ┊ 9 10 11
合计
身高 X 170 173 160 155 ┊ 180 165 166 1891
X2 1,027.84 973.44 902.40 836.94
… 401.20 387.30 12731.62
Y2 70.06 71.74 54.32 62.41
… 26.32 36.00 824.32
Y a bX
图1 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
➢ 由散点图可见,BMI与肝脏硬度指数LSM之间存在着直线趋势,可以考虑建立二者之 间的线性回归方程。
直线回归方程的建立
直线回归方程的建立
一、线性回归方程的概念
➢ 线性回归方程用于描述两个变量间依存变化的数量关系。也称简单回归。
Y a bX
• X - 自变量(independent variable);
• Y - 因变量(dependent variable);
• Y - 给定X 时Y 的估计值;
Francis Galton
• b - 回归系数(regression coefficient)。表示X每变动1单位,平均而言,Y将
变动b单位。
小结
回归方程式
Y
a bX
中之斜率b,称为回归系数,表示X每变动1单
位,平均而言,Y将变动b单位。
回归系数越大表示x 对y 影响越大,正回归系数表示y 随x 增大而增 大,负回归系数表示y 随x 增大而减小。
二、线性回归方程的估计
➢ 回归系数 b 和常数项 a 是线性回归方程中需要估计的两个量,估计的原理是最小二乘
法(method of least squares),该方法的原则是保证各实测点到回归直线的纵向距离的
平方和最小,即使
Q
(Y
Yˆ
2
)
最小,从而使计算出的回归直线最能代表实测数据所
反映出的直线趋势。
H1 :回归系数 0, 即BMI和LSM间有线性回归关系 =0.05
2. 计算各变异统计量
SY|X
13.00 18
0.850
,
Sb
0.85 0.052 267.10
tb
|
0.292 0.052
0
|
5.62
,
20 2 18
3. 确定 P 值,作出结论
根据 =18, 查 t 界值表(附表2),t0.01/2,18 2.878 , P 0.01 ,拒绝 H0,结论与方差
调查对象 1 2 3 4 … 19 20
合计
BMI(X) 32.06 31.20 30.04 28.93 … 20.03 19.68 499.29
LSM(Y) 8.37 8.47 7.37 7.90 … 5.13 6.00
125.58
XY 268.34 264.26 221.39 228.55
… 102.75 118.08 3213.09
3. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直 线相关关系,则可以对变换后的数据采用上述公式建立模型。
直线相关系数的含义与计算
一、线性相关的概念
➢ 当两事物或现象在数量上的协同变化呈直线趋势时则称为直线相关(linear correlation),又称简单相关(simple correlation),用于分析双变量正态分 布资料。表示两变量相关关系的重要指标就是相关系数。例如11名男青年身高与 前臂长之间存在线性相关关系。
11名男青年身高与前臂长散点图
Karl Pearson
图1 线性相关性质示意图
二、相关系数及其计算
➢ 相关系数(correlation coefficient):说明具有线性相关关系的两个数值变量间相关的密 切程度与相关方向的统计量。样本线性相关系数( r )又称Pearson相关系数,简称相关系 数。其计算公式为
SS总 总 =n 1 SS回 回归 =1 SS残差 残差 =n 2
MS回归
SS回归
回归
MS残差
SS残差 残差
F MS回归 MS残差
实例 对例1数据建立的回归方程进行假设检验:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
H1 :回归系数 0 ,即BMI和LSM间有线性回归关系 =0.05
➢ 回归系数的假设检验可用下面的简化公式计算
SS总
(Y
Y )2
Y
2
(Y )2 n
SS回归 blXY
l 2XY lXX
b2lXX
SS残差 SS总 SS回归
表3 方差分析表
f (F)
1=1, 2 =2 1=1, 2 =18
两线基本重合
1=1, 2 =30
F
变异来源
SS
MS
F
P值
总变异 回归 残差
分析相同。可以看出,统计量 F 与 t 之间存在确定的数量关系,即 F t,本
例 31.589=5.62 。
Yˆ 1.0108 0.292X
图5 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 回归系数的假设检验可以使用方差分析或者t 检验方法。
2. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增大,Y 也增大;反之亦然。
┊ 2401 1849 1936 22810
经计算: X 1891 , X 2 326081 , n =11
Y 500 , Y 2 22810 , XY 86185
lXX
X 2 ( X )2 326081 18912 1000.909
n
11
lYY
Y2 (
Y )2
5002
前臂长 Y 47 42 44 41 ┊ 49 43 44 500
XY 7990 7266 7040 6355
┊ 8820 7095 7304 86185
X2 28900 29929 25600 24025
┊ 32400 27225 27556 326081
Y2 2209 1764 1936 1681
Y2
70.06 71.74 54.32 62.41
… … … … … …
XY 3213.09
19
20.03
5.13
102.75
401.20
26.32
20
19.68
6.00
118.08
387.30
36.00
b
lXY lXX
XY X Y
n
X 2 X 2
n
3213.09 499.29125.58
表2 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
调查对象 1 2 3 4
BMI(X) 32.06 31.20 30.04 28.93
LSM(Y) 8.37 8.47 7.37 7.90
XY
268.34 264.26 221.39 228.55
X2
1,027.84 973.44 902.40 836.94
2. 计算各变异统计量
SS总
Y 2
(Y )2 n
125.582 824.32
20
35.803
SS回归
lX2Y lXX
78.052 22.807 267.10
SS残差 SS总 SS回归 12.996
3. 列出方差分析表,得出统计分析结论
查 F 界值表(附表4),F0.01(1,18)=8.28,F>F0.01(1,18),P<0.01,拒绝 H0,可以认 为成人 BMI 与肝脏硬度指数 LSM 之间存在线性回归关系。
➢ 依据最小二乘法推导出的结果:
X Y
b
lXY lXX
( X X )( Y Y ) ( X X )2
XY n
X 2 X 2
n
a Y bX
Y
(xi, yi) di yi yˆi
(xi , yˆi )
X 0
图2 双变量线性回归残差示意图
回归方程的参数估计
X 499.29 , X 2 12731.62 , X 24.965 Y 125.58 , Y 2 824.32 , Y 6.279
22810
82.727
n
11
lXY
XY
(
X )(Y )
n
86185 1891500 11
230.455
相关系数为: r lXY lXX lYY
230.455
0.8009Biblioteka 1000.909 82.727
前臂长(cm)
52
50
48
46
44
42
40
150
160
170
180
190
身高(cm)
r lXY (X X )(Y Y )
lXX lYY
(X X )2(Y Y )2
➢ 相关系数 r 没有度量衡单位,其数值为 1 r 1 。r 0 表示正相关; r 0 表示负相关;
r 0 表示无相关, 即无直线关系。当 r 1 时称为完全相关。
➢ 相关系数的绝对值愈接近 1,表示相关愈密切;相关系数愈接近 0,表示相关愈不密切。
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
变异来源 总变异 回归 残差
表4 回归方程方差分析表
SS
MS
35.803
19
22.807
1
22.807
12.996
18
0.722
F 31.589
P值 < 0.01
实际中最好给出更准确的P 值,如P<0.0001
二、t 检验
➢ 回归系数检验也可以采用t 检验的方法,即
b0 tb Sb
, n 2
图2 11名男青年身高与前臂长关系散点图
结论: 前臂长与身高呈正相关关系, 而且相关程度较高。
小结
线性相关表示两个变量之间的相互关系是双向的。 相关系数 1 r 1 。
相关系数可以用于描述两个变量间相互关系的密 切程度和方向。
20 12731.62 499.292
20
0.29
合计
499.29
125.58
3213.09 12731.62
824.32
Yˆ 1.0108 0.292X
a Y b X 6.279 0.292 24.965 1.0108
➢ 回 归 方 程 为 : Yˆ 1.0108 0.292X
直线回归系数的含义
直线回归系数的含义
➢ 线性回归方程用于描述两个变量间依存变化的数量关系。也称简单回归。
Y a bX
• X - 自变量(independent variable);
• Y - 因变量(dependent variable);
• Y - 给定X 时Y 的估计值;
• a - 截距(intercept)或常数项(constant term);
实例
例1 从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前 臂长,测量结果如下表所示,试计算身高与前臂长之间的相关系数。
表1 11名男青年身高与前臂长的测量结果(cm)
编号 1 2 3 4 ┊ 9 10 11
合计
身高 X 170 173 160 155 ┊ 180 165 166 1891
X2 1,027.84 973.44 902.40 836.94
… 401.20 387.30 12731.62
Y2 70.06 71.74 54.32 62.41
… 26.32 36.00 824.32
Y a bX
图1 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
➢ 由散点图可见,BMI与肝脏硬度指数LSM之间存在着直线趋势,可以考虑建立二者之 间的线性回归方程。
直线回归方程的建立
直线回归方程的建立
一、线性回归方程的概念
➢ 线性回归方程用于描述两个变量间依存变化的数量关系。也称简单回归。
Y a bX
• X - 自变量(independent variable);
• Y - 因变量(dependent variable);
• Y - 给定X 时Y 的估计值;
Francis Galton
• b - 回归系数(regression coefficient)。表示X每变动1单位,平均而言,Y将
变动b单位。
小结
回归方程式
Y
a bX
中之斜率b,称为回归系数,表示X每变动1单
位,平均而言,Y将变动b单位。
回归系数越大表示x 对y 影响越大,正回归系数表示y 随x 增大而增 大,负回归系数表示y 随x 增大而减小。
二、线性回归方程的估计
➢ 回归系数 b 和常数项 a 是线性回归方程中需要估计的两个量,估计的原理是最小二乘
法(method of least squares),该方法的原则是保证各实测点到回归直线的纵向距离的
平方和最小,即使
Q
(Y
Yˆ
2
)
最小,从而使计算出的回归直线最能代表实测数据所
反映出的直线趋势。
H1 :回归系数 0, 即BMI和LSM间有线性回归关系 =0.05
2. 计算各变异统计量
SY|X
13.00 18
0.850
,
Sb
0.85 0.052 267.10
tb
|
0.292 0.052
0
|
5.62
,
20 2 18
3. 确定 P 值,作出结论
根据 =18, 查 t 界值表(附表2),t0.01/2,18 2.878 , P 0.01 ,拒绝 H0,结论与方差
调查对象 1 2 3 4 … 19 20
合计
BMI(X) 32.06 31.20 30.04 28.93 … 20.03 19.68 499.29
LSM(Y) 8.37 8.47 7.37 7.90 … 5.13 6.00
125.58
XY 268.34 264.26 221.39 228.55
… 102.75 118.08 3213.09
3. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直 线相关关系,则可以对变换后的数据采用上述公式建立模型。
直线相关系数的含义与计算
一、线性相关的概念
➢ 当两事物或现象在数量上的协同变化呈直线趋势时则称为直线相关(linear correlation),又称简单相关(simple correlation),用于分析双变量正态分 布资料。表示两变量相关关系的重要指标就是相关系数。例如11名男青年身高与 前臂长之间存在线性相关关系。
11名男青年身高与前臂长散点图
Karl Pearson
图1 线性相关性质示意图
二、相关系数及其计算
➢ 相关系数(correlation coefficient):说明具有线性相关关系的两个数值变量间相关的密 切程度与相关方向的统计量。样本线性相关系数( r )又称Pearson相关系数,简称相关系 数。其计算公式为
SS总 总 =n 1 SS回 回归 =1 SS残差 残差 =n 2
MS回归
SS回归
回归
MS残差
SS残差 残差
F MS回归 MS残差
实例 对例1数据建立的回归方程进行假设检验:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
H1 :回归系数 0 ,即BMI和LSM间有线性回归关系 =0.05
➢ 回归系数的假设检验可用下面的简化公式计算
SS总
(Y
Y )2
Y
2
(Y )2 n
SS回归 blXY
l 2XY lXX
b2lXX
SS残差 SS总 SS回归
表3 方差分析表
f (F)
1=1, 2 =2 1=1, 2 =18
两线基本重合
1=1, 2 =30
F
变异来源
SS
MS
F
P值
总变异 回归 残差
分析相同。可以看出,统计量 F 与 t 之间存在确定的数量关系,即 F t,本
例 31.589=5.62 。
Yˆ 1.0108 0.292X
图5 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 回归系数的假设检验可以使用方差分析或者t 检验方法。
2. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增大,Y 也增大;反之亦然。
┊ 2401 1849 1936 22810
经计算: X 1891 , X 2 326081 , n =11
Y 500 , Y 2 22810 , XY 86185
lXX
X 2 ( X )2 326081 18912 1000.909
n
11
lYY
Y2 (
Y )2
5002
前臂长 Y 47 42 44 41 ┊ 49 43 44 500
XY 7990 7266 7040 6355
┊ 8820 7095 7304 86185
X2 28900 29929 25600 24025
┊ 32400 27225 27556 326081
Y2 2209 1764 1936 1681
Y2
70.06 71.74 54.32 62.41
… … … … … …
XY 3213.09
19
20.03
5.13
102.75
401.20
26.32
20
19.68
6.00
118.08
387.30
36.00
b
lXY lXX
XY X Y
n
X 2 X 2
n
3213.09 499.29125.58
表2 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
调查对象 1 2 3 4
BMI(X) 32.06 31.20 30.04 28.93
LSM(Y) 8.37 8.47 7.37 7.90
XY
268.34 264.26 221.39 228.55
X2
1,027.84 973.44 902.40 836.94
2. 计算各变异统计量
SS总
Y 2
(Y )2 n
125.582 824.32
20
35.803
SS回归
lX2Y lXX
78.052 22.807 267.10
SS残差 SS总 SS回归 12.996
3. 列出方差分析表,得出统计分析结论
查 F 界值表(附表4),F0.01(1,18)=8.28,F>F0.01(1,18),P<0.01,拒绝 H0,可以认 为成人 BMI 与肝脏硬度指数 LSM 之间存在线性回归关系。
➢ 依据最小二乘法推导出的结果:
X Y
b
lXY lXX
( X X )( Y Y ) ( X X )2
XY n
X 2 X 2
n
a Y bX
Y
(xi, yi) di yi yˆi
(xi , yˆi )
X 0
图2 双变量线性回归残差示意图
回归方程的参数估计
X 499.29 , X 2 12731.62 , X 24.965 Y 125.58 , Y 2 824.32 , Y 6.279
22810
82.727
n
11
lXY
XY
(
X )(Y )
n
86185 1891500 11
230.455
相关系数为: r lXY lXX lYY
230.455
0.8009Biblioteka 1000.909 82.727
前臂长(cm)
52
50
48
46
44
42
40
150
160
170
180
190
身高(cm)
r lXY (X X )(Y Y )
lXX lYY
(X X )2(Y Y )2
➢ 相关系数 r 没有度量衡单位,其数值为 1 r 1 。r 0 表示正相关; r 0 表示负相关;
r 0 表示无相关, 即无直线关系。当 r 1 时称为完全相关。
➢ 相关系数的绝对值愈接近 1,表示相关愈密切;相关系数愈接近 0,表示相关愈不密切。