双变量关联性分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
coefficient
):
定量描述两变量间直线关系的方向和密切
程度。
直线相关系数(linear correlation coefficient )
又称Pearson 积矩相关系数(product moment correlation coefficient)
离均差乘积和
r lxy (x x)( y y)
120
夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ―
秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5
13.5 13.5 13.5 13.5 120
某医生欲研究血小板浓度和出血症的关系,测 得12名病人的血小板浓度(109/L)和出血症 如下表:
r lxy 0.875 lxx l yy
➢ 相关系数的统计推断(假设检验)
1. t检验
(1)建立假设检验,确定检验水准
H 0 : 0,即体重和双肾体积之间无直线相关关系
H1 : 0,即体重和双肾体积之间有直线相关关系 0.05
(2)计算检验统计量
tr
r 0 Sr
r 0 (1 r2 ) / (n 2)
σ
2 X
1, σY2
1, ρ XY
0
X Y 0
σ
2 X
2, σY2
4, ρ XY
0.75
注意事项
➢ 相关关系不一定是因果关系 例如:树苗与儿童身高的关系
注意事项
➢ 观察例数较少(如n<15)时,相关系数容易 受个别观察对象的特殊值影响
➢ 分层资料不可盲目合并(图13.3)
直线回归与直线相关分析的联系与区别
区别
资料要求:直线相关要求双变量正态分布,直 线回归要求给定自变量值时,因变量服从正态 分布
应用及意义:相关系数说明两变量间相互关系 的方向与密切程度 ;回归系数说明两变量的 数量依存关系
计算公式:r lxy / lxx lyy b l xy / lxx
取值范围: 1 r 1 b
及 qi 的秩源自文库直接代入直线相关系数的计算公式可得到
Spearman秩相关系数 rs 。
rs
( pi pi )(qi qi ) ( pi pi )2 (qi qi )2
问题
➢ 胸围与肺活量 ➢ 药剂量与疗效 ➢ 凝血酶浓度与凝血时间
双变量关联性分析
关联性分析的目的
推断从某一总体中随机抽取的同一份样 本观测到的两个变量间是否存在关联性, 以及这种关联性的密切程度如何。
主要内容
➢ 直线相关 ➢ 秩相关 ➢ 分类变量的关联性分析
直线相关
linear correlation
联系
对于服从双变量正态分布的同一组数据,既 可作直线相关分析又可作直线回归分析,相关 系数与回归系数正负号一致。本例:r=0.762 b=2.11
对于同一样本,相关系数与回归系数的假设检 验等价 ,即tb=tr
对于服从双变量正态分布的同一组资料 r = bSx
Sy
用回归可以解释相关: R2 SS回 / SS总 r 2
n2
tr
r 1 r2
0.875 6.517 1 0.8752
n2
15 2
n 2 13
(3)确定P值并作出统计推断
➢ 查t界值表,得 P, 0按.001=0.05水准,拒绝 , 接受 H,0 相关系H数1有统计学意义,可以认为体重 和双肾体积之间有直线相关关系。
2. 查表法
直接查相关系数界值表, ,13
问题的提出
某医师测量了15名正常成年人的体重(kg)与 CT双肾体积(ml)大小,如下表。据此回答两变 量是否有关联?其方向与密切程度如何?
直观方法:绘制散点图(scatter plot)
➢ 统计学上两个随机变量之间呈直线趋势的 关系被称为直线相关。
➢
直线相关系数(linear
correlation
基本思想
对于不符合正态分布的资料,不用原始数据 计算相关系数,而是按其取值由小到大排秩, 然后根据其秩次来计算秩相关系数。
设有 n 例观察对象,对每一例观察对象同时取得两
个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到
大排秩为1, 2, …, n。它们的秩分别为 pi 与 qi ,将pi
r0.05,13 =0.514, r0.00=1,103 .760, 法一致。
P,结0.0果01 与 t 检验
注意事项
➢ 进行相关分析前应先绘制散点图
➢ 有无线性关系 ➢ 有无离群点(outlier)
➢ 出现离群点时慎用相关
(a)
注意事项
➢ 线性相关分析要求两个随机变量服从二元 正态分布。
X Y 0
病例号 血小板数 出血症状
1 120
++
2 130
+++
3 160
4 310
-
5 420
+
6 540
+
病例号 血小板数 出血症状
7
740
-
8
1060
-
9
1260
-
10 1230
-
11 1440
++
12 2000
-
秩相关的适用条件
➢ 不服从二元正态分布 ➢ 用等级资料表示的原始资料 ➢ 总体分布未知或边界不确定的资料
单位:相关系数无单位,回归系数有单位
秩相关(等级相关)
rank correlation
问题的提出
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研 究,试分析两者的关联性。资料列于下表。
表 13.2 15 例成年男子的舒张压与夜间最低血氧含量分级测量值
lxxlyy
(x x)2(y y)2
xy x y / n
[( x2 ( x)2 / n][ y2 ( y)2 / n]
相关系数 r 的性质
➢ 1 r 1 ,其正负表示两变量间直线相关 的方向;
➢ r 绝对值大小表示两变量之间直线联系的 密切程度。
具体步骤
➢ 绘制散点图观察两变量间是否有直线趋势。 ➢ 计算相关系数
编号
(1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
舒张压 x (2) 75 80 80 90 90 90 90 95 95
100 100 110 115 120 125 ―
秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15