检验医学数据常用的相关性分析(理论依据)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5. 不能直接根据样本相关系数r 绝对值的大小来说明 两变量间有无相关关系及相关的紧密程度,而需要 对总体相关系数作假设检验。
六、线性回归分析与线性相关分析的区别和联系
(一)区别 1.资料要求不同
线性回归分析
X 是可以精确测量和严格控制的 变量 Y 是服从正态分布的随机变量
线性相关分析 X, Y 服从双变量正态分布
P <0.001,按=0.05水准拒绝H0,接受H1,可以认为神经功
X
-1<r<0
X
正相关(0 < r < 1)
Y Y
负相关(-1< r < 0)
r=1
X
r=-1
X
完全正相关(r =1)
完全负相关(r = -1)
相关系数 r 的取值及两变量间相关关系的直观图示:
Y Y
r=0
X Y
r=0
X
Y
r=0
X
r=0
X
零相关(r = 0)
三、线性相关系数的计算和检验
(1)线性相关系数的计算 例 计算表12-1中尿铅和血铅的相关系数。
尿铅(Y) 0.14 0.25 0.28 0.25 0.28 0.10 0.27 0.09 0.24 0.30 0.16 0.05 0.20 0.32 0.24
0.35 0.30
血铅(mmoL/L)
0.25 0.20 0.15 0.10 0.05 0.00 0.00 0.05 0.20 0.25 0.30 0.35 尿铅(mmol/L) 12-1 15例自愿者的尿铅与血铅的散点图 图13-1 0.10 0.15 0.40
r
( X i X )(Yi Y ) ( X i X )
2
l XY 2 l XX lYY (Yi Y )
总体相关系数用符号ρ 表示,样本相关系数用 符号r 表示;取值范围:-1≤ r ≤1 或 -1≤ ρ ≤1 。
相关系数 r 的取值及两变量间相关关系的直观图示:
Y Y
0<r<1
X2 0.0121
Y2 0.0196
XY 0.0154
0.7168
0.7681
0.7388
r
( X i X )(Yi Y ) ( X i X ) 2 (Yi Y ) 2
3 3.17 0.7388 15 0.9787 32 3.17 2 (0.7168 )(0.7681 ) 15 15
二、直线相关系数的含义
相关系数(linear correlation coefficient)是描
述两个随机变量之间线性相关关系的方向和密切程
度的统计指标。
线性相关系数又称积差 相关系数, 简称pearson 相关系数或相关系数。
Karl Pearson (1857-1936)England
相关系数 r 的计算公式:
例 计算表12-1中尿铅和血铅的相关系数。 解: 1.绘制散点图,观察两变量之间是否有线性趋势。
例 计算表12-1中尿铅和血铅的相关系数。 解: 1.绘制散点图,观察两变量之间是否有线性趋势。
0.35 0.30
血铅(mmoL/L)
0.25 0.20 0.15 0.10 0.05 0.00 0.00
17.189
② 计算检验统计量。本例,n =15, r =0.9787,
tr
r 1 r2 n2
0.9787 1 0.97872 15 2
17.189
③查界值表,确定P 值,下结论。
t0.001/ 2,13 4.221 , tr t0.001/ 2,13 , 按 v=13 查 t 界值表,
(X )
(Y )
0.35 0.30
血铅(mmoL/L)
0.25 0.20 0.15 0.10 0.05 0.00 0.00
(Y )
0.20 0.30 尿铅(mmol/L) 12-1 15例自愿者的尿铅与血铅的散点图 图13-1
0.10
0.40
(X )
可见,尿铅值较大者,其血铅值也较大,且呈 直线趋势。将两个变量间这种伴随增大或伴随减小 的直线变化趋势称线性相关。由此图提示该资料适 宜作线性相关分析。
四、相关系数的可信区间 计算总体相关系数的可信区间时,由于r 呈非 正态分布,所以需要先对r 作 Z 转换:
1 (1 r ) z ln 2 (1 r )
计算总体相关系数的可信区间:
①对 r 作 Z 变换:
1 (1 r ) z ln 2 (1 r )
②按正态近似原理计算 Z 的(1-)可信区间:
■ 查表法
H0: = 0 (两变量间不存在线性相关关系);
H1: ≠0 (两变量间有线性相关关系);
= 0.05
r = 0.9787
查 r 界值表,v =14 , , ,
r r0.01/2,14 ,所以 P < 0.01,按 相关关系。
水准拒绝H0,
接受H1,可认为体重指数和收缩压之间存在正
(2)相关系数的假设检验 假设检验的目的是推断总体相关系数 是否等于0 ? 方法: ■ t 检验法
■ 查表法
■ t 检验法
检验统计量 t 的计算公式:
r 0 tr Sr
r 1 r n2
2
v n2
例 根据上例的样本相关系数,对总体相关系数 作
假设检验。
例 根据上例的样本相关系数,对总体相关系数 作
2
例12-3 某医生收集12例急性脑梗塞(AMI)病人,
记录了患者在抢救期间的总胆固醇,用爱丁堡-斯 堪的纳维亚神经病学卒中SNSS量表评分标准评定
患者的神经功能缺损程度,试分析总胆固醇与神
经功能评分是否相关。
表 12-3 12例AMI患者的量表评分与总胆固醇测量值与编秩
量表评分 X 10 44 15 19 14 12 15 11 99 11 12 11 总胆固醇 Y 4.04 6.21 4.83 5.23 4.71 4.44 4.38 3.73 6.00 4.38 4.00 4.36 量表评分的秩 RX 总胆固醇的秩 RY 1 11 8.5 10 7 5.5 8.5 3 12 3 5.5 3 3 12 9 10 8 7 5.5 1 11 5.5 2 4
3.还原得 的95%可信区间:
(0.935,0.993) 即血铅与24小时尿铅的总体线性相关系数的 95%可信区间为(0.935,0.993)。
线性相关分析的一般步骤:
(1)绘制散点图;若点的分布有直线趋势,则 (2)计算样本相关系数 r 值;
(3)检验总体相关系数 ==0 ? ;若 ≠0,则
初步分析:由于量表评分X呈偏态分布,不宜作
Pearson直线相关分析,可用Spearman秩相关
分析量表评分X与总胆固醇Y的相关性。
① 建立假设,确定检验水准。 H0:s=0,即量表评分与总胆固醇不相关 H1:s 0,即量表评分与总胆固醇相关
=0.05
② 对X、Y 编秩,计算平均秩,并计算Spearman秩 相关系数。
■ 查表法
H0: = 0 (两变量间不存在线性相关关系);
H1: ≠0 (两变量间有线性相关关系);
= 0.05
r = 0.9787
查 r 界值表,v =13 ,r0.001/2,13 = 0.760 ,r r0.001/2,13 ,
所以 P < 0.001,按
结论同上。
0.05 水准拒绝H0,接受H1,
正常成年人的血铅 X
(moL/L)和24小时 的尿铅 Y(moL/L) 如表12-1,试分析血 铅与24小时的尿铅之 间是否直线相关。
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
血铅(X ) 0.11 0.25 0.23 0.24 0.26 0.09 0.25 0.06 0.23 0.33 0.15 0.04 0.20 0.34 0.22
z u / 2 / n 3
③对Z 的上下限作反变换,还原得到 r 的(1-)
可信区间:
e2 z 1 r 2z e 1
例 前例得r =0.9787,求总体相关系数 的 95%可信区间。 解: 1.先将r 值转换为Z值:
2.查 Z 界值表得 Z0.05/2=1.96,代入公式计算Z的95%可信区间:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
尿铅(X ) 0.11 0.25 0.23 0.24 0.26 0.09 0.25 0.06 0.23 0.33 0.15 0.04 0.20 0.34 0.22 3.00
血铅(Y) 0.14 0.25 0.28 0.25 0.28 0.10 0.27 0.09 0.24 0.30 0.16 0.05 0.20 0.32 0.24 3.17
第二节
Spearman秩相关
由于直线相关的统计推断要求两个变量服从
双变量正态分布,但在实际应用中有时满足不了
这样的条件。这时,需采用非参数的秩相关,常
用Spearman秩相关。
rs
( R R )( R R ) (R R ) (R R )
xi x yi y 2 xi x yi y
假设检验。
解:
① 建立假设,确定检验水准。
H0: = 0 (两变量间不存在线性相关关系);
H1: ≠0 (两变量间有线性相关关系);
= 0.05
② 计算检验统计量。本例,n =15, r =0.9787,
tr
r 1 r2 n2
0.9787 1 0.97872 15 2
则 P <0.001,按=0.05水准拒绝H0,接受H1,可认为血铅
和尿铅之间存在正相关关系。
■ 查表法
= 0.05
r = 0.9110
查 r 界值表,v =14 , , ,
r r0.01/2,14 ,所以 P < 0.01,按 相关关系。
水准拒绝H0,
接受H1,可认为体重指数和收缩压之间存在正
第十二章
(
线性相关
linear correlation )
第一节
直线相关
线性相关( linear correlation) ,即直线 相关,是分析两变量间有无直线相关关系的
一种统计分析方法。
表12-1 15例自愿者的血铅和24小时的尿铅测量值(moL/L)
一、直线相关的意义
例12-1 测得某地15名
rs
( R R )( R R ) (R R ) (R R )
xi x yi y 2 xi x yi y
2
120.25 0.8514 140 142.5
③查界值表(n≤50),判断 s=0 ?
按 n =12 查 rs 界值表,rs ,0.001 0.846 ,rs 0.846 ,则
60 50
Y
Hale Waihona Puke Baidu
30 20 10 0 0 10 20 30 40 50 60 70
Y
40 30 20 10 0 100
150
200
250
300
350
400
450
500
X
X
错误1 曲线关系误作直线相关
错误2 离群值误导出假相关
3. 作相关分析时,要注意两变量之间是否存在实际意 义。不能将毫无实际意义的两种现象作相关。 4. 相关系数的意义仅限于原始资料中变量的实测范围。 超出这个范围就不一定仍具有线性关系或仍保持同 样的线性关系了。
(Y)
(X )
0.20 0.30 尿铅(mmol/L) 图13-1 15例自愿者的尿铅与血铅的散点图 0.10 0.40
例
解:
计算表12-1中尿铅和血铅的相关系数。
1.绘制散点图,观察两变量之间是否有直线趋势。 2.计算相关系数。列表计算基本数据。
表12-1 15例自愿者的血铅和24小时的尿铅测量值(moL/L)
2.应用的情况不同
说明两变量间的依存关系,可以用一
线性回归分析 个变量的数值推算另一个变量的数值。
说明两变量间的相互关系,包括描述
线性相关分析 两变量 X,Y 相互之间呈线性关系的
方向和密切程度。
(二)联系
1. 方向一致:在同一资料中,计算所得 r与 b 值的正、 负号相同。 2. 假设检验等价:在同一资料中,对回归系数的假 设检验和对相关系数的假设检验等价且二者所得检 验统计量 t 值相等,即 t r= t b。 3. 对于不同组资料来说,相关系数 r 与 回归系数 b 二者的数值大小之间无直接联系,且二者含义不同。
(4)利用分析结果。(如:描述 X,Y 之间的线性关系
以及对总体相关系数进行估计等。)
五、线性相关分析的注意事项
1.线性相关分析要求两变量 X , Y 服从双变量正态分布。
f ( x, y )
0
Y X
2. 作直线相关分析前应先绘制散点图。当观察点的分
布有直线趋势时,才适宜作直线相关分析。
60 50 40
六、线性回归分析与线性相关分析的区别和联系
(一)区别 1.资料要求不同
线性回归分析
X 是可以精确测量和严格控制的 变量 Y 是服从正态分布的随机变量
线性相关分析 X, Y 服从双变量正态分布
P <0.001,按=0.05水准拒绝H0,接受H1,可以认为神经功
X
-1<r<0
X
正相关(0 < r < 1)
Y Y
负相关(-1< r < 0)
r=1
X
r=-1
X
完全正相关(r =1)
完全负相关(r = -1)
相关系数 r 的取值及两变量间相关关系的直观图示:
Y Y
r=0
X Y
r=0
X
Y
r=0
X
r=0
X
零相关(r = 0)
三、线性相关系数的计算和检验
(1)线性相关系数的计算 例 计算表12-1中尿铅和血铅的相关系数。
尿铅(Y) 0.14 0.25 0.28 0.25 0.28 0.10 0.27 0.09 0.24 0.30 0.16 0.05 0.20 0.32 0.24
0.35 0.30
血铅(mmoL/L)
0.25 0.20 0.15 0.10 0.05 0.00 0.00 0.05 0.20 0.25 0.30 0.35 尿铅(mmol/L) 12-1 15例自愿者的尿铅与血铅的散点图 图13-1 0.10 0.15 0.40
r
( X i X )(Yi Y ) ( X i X )
2
l XY 2 l XX lYY (Yi Y )
总体相关系数用符号ρ 表示,样本相关系数用 符号r 表示;取值范围:-1≤ r ≤1 或 -1≤ ρ ≤1 。
相关系数 r 的取值及两变量间相关关系的直观图示:
Y Y
0<r<1
X2 0.0121
Y2 0.0196
XY 0.0154
0.7168
0.7681
0.7388
r
( X i X )(Yi Y ) ( X i X ) 2 (Yi Y ) 2
3 3.17 0.7388 15 0.9787 32 3.17 2 (0.7168 )(0.7681 ) 15 15
二、直线相关系数的含义
相关系数(linear correlation coefficient)是描
述两个随机变量之间线性相关关系的方向和密切程
度的统计指标。
线性相关系数又称积差 相关系数, 简称pearson 相关系数或相关系数。
Karl Pearson (1857-1936)England
相关系数 r 的计算公式:
例 计算表12-1中尿铅和血铅的相关系数。 解: 1.绘制散点图,观察两变量之间是否有线性趋势。
例 计算表12-1中尿铅和血铅的相关系数。 解: 1.绘制散点图,观察两变量之间是否有线性趋势。
0.35 0.30
血铅(mmoL/L)
0.25 0.20 0.15 0.10 0.05 0.00 0.00
17.189
② 计算检验统计量。本例,n =15, r =0.9787,
tr
r 1 r2 n2
0.9787 1 0.97872 15 2
17.189
③查界值表,确定P 值,下结论。
t0.001/ 2,13 4.221 , tr t0.001/ 2,13 , 按 v=13 查 t 界值表,
(X )
(Y )
0.35 0.30
血铅(mmoL/L)
0.25 0.20 0.15 0.10 0.05 0.00 0.00
(Y )
0.20 0.30 尿铅(mmol/L) 12-1 15例自愿者的尿铅与血铅的散点图 图13-1
0.10
0.40
(X )
可见,尿铅值较大者,其血铅值也较大,且呈 直线趋势。将两个变量间这种伴随增大或伴随减小 的直线变化趋势称线性相关。由此图提示该资料适 宜作线性相关分析。
四、相关系数的可信区间 计算总体相关系数的可信区间时,由于r 呈非 正态分布,所以需要先对r 作 Z 转换:
1 (1 r ) z ln 2 (1 r )
计算总体相关系数的可信区间:
①对 r 作 Z 变换:
1 (1 r ) z ln 2 (1 r )
②按正态近似原理计算 Z 的(1-)可信区间:
■ 查表法
H0: = 0 (两变量间不存在线性相关关系);
H1: ≠0 (两变量间有线性相关关系);
= 0.05
r = 0.9787
查 r 界值表,v =14 , , ,
r r0.01/2,14 ,所以 P < 0.01,按 相关关系。
水准拒绝H0,
接受H1,可认为体重指数和收缩压之间存在正
(2)相关系数的假设检验 假设检验的目的是推断总体相关系数 是否等于0 ? 方法: ■ t 检验法
■ 查表法
■ t 检验法
检验统计量 t 的计算公式:
r 0 tr Sr
r 1 r n2
2
v n2
例 根据上例的样本相关系数,对总体相关系数 作
假设检验。
例 根据上例的样本相关系数,对总体相关系数 作
2
例12-3 某医生收集12例急性脑梗塞(AMI)病人,
记录了患者在抢救期间的总胆固醇,用爱丁堡-斯 堪的纳维亚神经病学卒中SNSS量表评分标准评定
患者的神经功能缺损程度,试分析总胆固醇与神
经功能评分是否相关。
表 12-3 12例AMI患者的量表评分与总胆固醇测量值与编秩
量表评分 X 10 44 15 19 14 12 15 11 99 11 12 11 总胆固醇 Y 4.04 6.21 4.83 5.23 4.71 4.44 4.38 3.73 6.00 4.38 4.00 4.36 量表评分的秩 RX 总胆固醇的秩 RY 1 11 8.5 10 7 5.5 8.5 3 12 3 5.5 3 3 12 9 10 8 7 5.5 1 11 5.5 2 4
3.还原得 的95%可信区间:
(0.935,0.993) 即血铅与24小时尿铅的总体线性相关系数的 95%可信区间为(0.935,0.993)。
线性相关分析的一般步骤:
(1)绘制散点图;若点的分布有直线趋势,则 (2)计算样本相关系数 r 值;
(3)检验总体相关系数 ==0 ? ;若 ≠0,则
初步分析:由于量表评分X呈偏态分布,不宜作
Pearson直线相关分析,可用Spearman秩相关
分析量表评分X与总胆固醇Y的相关性。
① 建立假设,确定检验水准。 H0:s=0,即量表评分与总胆固醇不相关 H1:s 0,即量表评分与总胆固醇相关
=0.05
② 对X、Y 编秩,计算平均秩,并计算Spearman秩 相关系数。
■ 查表法
H0: = 0 (两变量间不存在线性相关关系);
H1: ≠0 (两变量间有线性相关关系);
= 0.05
r = 0.9787
查 r 界值表,v =13 ,r0.001/2,13 = 0.760 ,r r0.001/2,13 ,
所以 P < 0.001,按
结论同上。
0.05 水准拒绝H0,接受H1,
正常成年人的血铅 X
(moL/L)和24小时 的尿铅 Y(moL/L) 如表12-1,试分析血 铅与24小时的尿铅之 间是否直线相关。
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
血铅(X ) 0.11 0.25 0.23 0.24 0.26 0.09 0.25 0.06 0.23 0.33 0.15 0.04 0.20 0.34 0.22
z u / 2 / n 3
③对Z 的上下限作反变换,还原得到 r 的(1-)
可信区间:
e2 z 1 r 2z e 1
例 前例得r =0.9787,求总体相关系数 的 95%可信区间。 解: 1.先将r 值转换为Z值:
2.查 Z 界值表得 Z0.05/2=1.96,代入公式计算Z的95%可信区间:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
尿铅(X ) 0.11 0.25 0.23 0.24 0.26 0.09 0.25 0.06 0.23 0.33 0.15 0.04 0.20 0.34 0.22 3.00
血铅(Y) 0.14 0.25 0.28 0.25 0.28 0.10 0.27 0.09 0.24 0.30 0.16 0.05 0.20 0.32 0.24 3.17
第二节
Spearman秩相关
由于直线相关的统计推断要求两个变量服从
双变量正态分布,但在实际应用中有时满足不了
这样的条件。这时,需采用非参数的秩相关,常
用Spearman秩相关。
rs
( R R )( R R ) (R R ) (R R )
xi x yi y 2 xi x yi y
假设检验。
解:
① 建立假设,确定检验水准。
H0: = 0 (两变量间不存在线性相关关系);
H1: ≠0 (两变量间有线性相关关系);
= 0.05
② 计算检验统计量。本例,n =15, r =0.9787,
tr
r 1 r2 n2
0.9787 1 0.97872 15 2
则 P <0.001,按=0.05水准拒绝H0,接受H1,可认为血铅
和尿铅之间存在正相关关系。
■ 查表法
= 0.05
r = 0.9110
查 r 界值表,v =14 , , ,
r r0.01/2,14 ,所以 P < 0.01,按 相关关系。
水准拒绝H0,
接受H1,可认为体重指数和收缩压之间存在正
第十二章
(
线性相关
linear correlation )
第一节
直线相关
线性相关( linear correlation) ,即直线 相关,是分析两变量间有无直线相关关系的
一种统计分析方法。
表12-1 15例自愿者的血铅和24小时的尿铅测量值(moL/L)
一、直线相关的意义
例12-1 测得某地15名
rs
( R R )( R R ) (R R ) (R R )
xi x yi y 2 xi x yi y
2
120.25 0.8514 140 142.5
③查界值表(n≤50),判断 s=0 ?
按 n =12 查 rs 界值表,rs ,0.001 0.846 ,rs 0.846 ,则
60 50
Y
Hale Waihona Puke Baidu
30 20 10 0 0 10 20 30 40 50 60 70
Y
40 30 20 10 0 100
150
200
250
300
350
400
450
500
X
X
错误1 曲线关系误作直线相关
错误2 离群值误导出假相关
3. 作相关分析时,要注意两变量之间是否存在实际意 义。不能将毫无实际意义的两种现象作相关。 4. 相关系数的意义仅限于原始资料中变量的实测范围。 超出这个范围就不一定仍具有线性关系或仍保持同 样的线性关系了。
(Y)
(X )
0.20 0.30 尿铅(mmol/L) 图13-1 15例自愿者的尿铅与血铅的散点图 0.10 0.40
例
解:
计算表12-1中尿铅和血铅的相关系数。
1.绘制散点图,观察两变量之间是否有直线趋势。 2.计算相关系数。列表计算基本数据。
表12-1 15例自愿者的血铅和24小时的尿铅测量值(moL/L)
2.应用的情况不同
说明两变量间的依存关系,可以用一
线性回归分析 个变量的数值推算另一个变量的数值。
说明两变量间的相互关系,包括描述
线性相关分析 两变量 X,Y 相互之间呈线性关系的
方向和密切程度。
(二)联系
1. 方向一致:在同一资料中,计算所得 r与 b 值的正、 负号相同。 2. 假设检验等价:在同一资料中,对回归系数的假 设检验和对相关系数的假设检验等价且二者所得检 验统计量 t 值相等,即 t r= t b。 3. 对于不同组资料来说,相关系数 r 与 回归系数 b 二者的数值大小之间无直接联系,且二者含义不同。
(4)利用分析结果。(如:描述 X,Y 之间的线性关系
以及对总体相关系数进行估计等。)
五、线性相关分析的注意事项
1.线性相关分析要求两变量 X , Y 服从双变量正态分布。
f ( x, y )
0
Y X
2. 作直线相关分析前应先绘制散点图。当观察点的分
布有直线趋势时,才适宜作直线相关分析。
60 50 40