双变量关联性分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
问题

胸围与肺活量 药剂量与疗效

凝血酶浓度与凝血时间
双变量关联性分析
关联性分析的目的
推断从某一总体中随机抽取的同一份样 本观测到的两个变量间是否存在关联性, 以及这种关联性的密切程度如何。
主要内容

直线相关 秩相关


分类变量的关联性分析
直线相关
linear correlation
问题的提出
r
2 n
2
本例r=0.481

列联系数r取值范围为0~1,数值越接近 1,关联性 越强。
2 其假设检验等价于上述的两分类变量独立性的
检验。
例13.7 为研究自我效能感与领导行为类型是否有 关,某研究者抽样调查了来自某省各三甲医院的 238名护士长,并对每个个体按自我效能感和领导 行为类型两种属性交叉分类,如表13.5所示。试 分析两变量的关联性。
设有 n 例观察对象,对每一例观察对象同时取得两
个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到 大排秩为1, 2, …, n。它们的秩分别为 pi 与 qi ,将pi 及 qi 的秩次直接代入直线相关系数的计算公式可得到 Spearman秩相关系数
rs

rs
( pi pi )(qi qi ) ( pi pi ) (qi qi )
| rs | r 15,0.001
分类变量的关联性分析
两个分类变量间的关联性可用Pearson列联 系数(contingency coefficient)等统计量来描 2 述,其假设检验可采用列联表的独立性 检验。
关联性分析
2×2 列联表 R×C列联表

例13.6 为研究青少年在校情况与对艾滋病知 晓情况之间的关系,某研究者在某地共调查了
2
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用 2 McNemer检验,什么情况下用Pearson 检验?
作业
P416 1 2 3
某医师测量了15名正常成年人的体重(kg)与
CT双肾体积(ml)大小,如下表。据此回答两变
量是否有关联?其方向与密切程度如何?
直观方法:绘制散点图(scatter plot)

统计学上两个随机变量之间呈直线趋势的 关系被称为直线相关。

直线相关系数(linear correlation coefficient ):
(2)计算检验统计量
2 A 2 n( 1) 34.213 nR nC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒
绝 H0 ,接受 H1 ,可以认为自我效能感与 领导行为类型之间有关联 。
进一步计算列联系数:
115.508 r 0.481 2 n 115.508 384
表 13.2 编号 (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
15 例成年男子的舒张压与夜间最低血氧含量分级测量值 秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15 120 夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ― 秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5 13.5 13.5 13.5 13.5 120
舒张压 x (2) 75 80 80 90 90 90 90 95 95 100 100 110 115 120 125 ―
某医生欲研究血小板浓度和出血症的关系,测 得12名病人的血小板浓度(109/L)和出血症 如下表:
病例号 血小板数 出血症状 1 120 ++ 2 130 +++ 3 160 4 310 5 420 + 6 540 +
1
(3)确定P值,作出统计推断
查 2 界值表(附表 9),得 2 20.005, 7.88 , P < 0.005 ,按 0.05 水准, 拒绝 H 0 ,接受 H1 ,可以认为青少年是否在校与对艾滋病是否知晓之间有关联。
若需了解两个分类变量的关联程度,需进 一步计算列联系数。
n2
tr
r 1 r2 n2

0.875 1 0.8752 15 2
6.517
n 2 13
(3)确定P值并作出统计推断

0.001 =0.05水准,拒绝 查t界值表,得 P ,按 , H1 接受 H,相关系数有统计学意义,可以认为体 0 重和双肾体积之间有直线相关关系。
2. 查表法 直接查相关系数界值表, , 13
r0.05,13 =0.514, r0.001,13 =0.760,
P,结果与 0.001
t 检验
法一致。
注意事项

进行相关分析前应先绘制散点图
有无线性关系 有无离群点(outlier)


出现离群点时慎用相关
(a)
注意事项

线性相关分析要求两个随机变量服从二元 正态分布。
分层资料不可盲目合并(图13.3)

直线回归与直线相关分析的联系与区别
联系

对于服从双变量正态分布的同一组数据,既 可作直线相关分析又可作直线回归分析,相关 系数与回归系数正负号一致。本例:r=0.762 b=2.11

对于同一样本,相关系数与回归系数的假设检 验等价 ,即tb=tr
bS x 对于服从双变量正态分布的同一组资料 r = Sy
X Y 0
2 2 σX 1, σ Y 1, ρ X Y 0
2 2 X Y 0 σ X 2, σ Y 4, ρ X Y 0.75
注意事项

相关关系不一定是因果关系 例如:树苗与儿童身高的关系
注意事项

观察例数较少(如n<15)时,相关系数容易 受个别观察对象的特殊值影响
2 2

xy x y / n
[( x2 ( x)2 / n][ y 2 ( y)2 / n]
相关系数 r 的性质

1 r 1 ,其正负表示两变量间直线相关 的方向;

r 绝对值大小表示两变量之间直线联系的 密切程度。
具体步骤

绘制散点图观察两变量间是否有直线趋势。 计算相关系数
病例号 血小板数 出血症状 7 740 8 1060 9 1260 10 1230 11 1440 ++ 12 2000 -
秩相关的适用条件

不服从二元正态分布 用等级资料表示的原始资料
总体分布未知或边界不确定的资料


基本思想
对于不符合正态分布的资料,不用原始数 据计算相关系数,而是按其取值由小到大排 秩,然后根据其秩次来计算秩相关系数。
定量描述两变量间直线关系的方向和密切

程度。
直线相关系数(linear correlation coefficient )
又称Pearson 积矩相关系数(product moment correlation coefficient)
离均差乘积和
r
lxy lxxl yy

( x x )( y y ) (x x ) ( y y)
表13.5 自我效能感与领导行为交叉分类表 领导行为类型
自我效能感
低 高 合计
pm 67 32 99
pM 25 12 37
Pm 13 34 47
PM 17 38 55
合计 122 116 238
(1)建立检验假设
H0:自我效能感与领导行为类型间无关联 H1:自我效能感与领导行为类型间有关联
=0.05
0.05
(2)计算检验统计量
< 50 本例 n = 15 ,直接查等级相关系数界值表,得 r15,0.001 =0.779 。
(3)确定 P 值并作出统计推断 =0.779,P<0.001,按 0.05 水 准,拒绝 ,接受 ,可以认为舒张压与夜 H1 H0 间最低血氧含量分级之间有正相关关系。
2 2
rs 的假设检验

当n≤50时,可用查表法(查附表15,rs 界值表)。
当n>50时,按式(13.4)和(13.5)进行 t 检验。
t
rs 0 (1 r ) /(n 2)
2 s
ν=n-2
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研
r lxy lxx l yy 0.875


相关系数的统计推断(假设检验)
1. t检验
(1)建立假设检验,确定检验水准
H 0 : 0,即体重和双肾体积之间无直线相关关系
Leabharlann Baidu
H1 : 0,即体重和双肾体积之间有直线相关关系
0.05
(2)计算检验统计量
r 0 r 0 tr 2 Sr (1 r ) / (n 2)
b l xy / l xx
b

取值范围: 1
r 1

单位:相关系数无单位,回归系数有单位
秩相关(等级相关)
rank correlation
问题的提出
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研 究,试分析两者的关联性。资料列于下表。
舒张压 x (2) 75 80 80 90 90 90 90 95 95 100 100 110 115 120 125 ―
具体步骤

计算相关系数
rs
l pq l pp lqq
0.897

建立假设检验,确定检验水准
H 0 : s 0 ,即舒张压与夜间最低血氧含量分级无相关关系
H1 : s 0 ,即舒张压与夜间最低血氧含量分级有相关关系
H 0 : 两变量互相独立(无关系)
H1
: 两变量互相关联(有关系)
=0.05
(2)计算检验统计量
2 2 ( A T ) ( ad bc ) n 2 T (a b)(c d )(a c)(b d )
(156 139 62 27) 2 384 115.508 218 166 183 201

用回归可以解释相关: R2 SS回 / SS总 r 2
区别


资料要求:直线相关要求双变量正态分布,直 线回归要求给定自变量值时,因变量服从正态 分布 应用及意义:相关系数说明两变量间相互关系 的方向与密切程度 ;回归系数说明两变量的 数量依存关系

r l xy / l xx l yy 计算公式:
究,试分析两者的关联性。资料列于下表。
表 13.2 编号 (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
15 例成年男子的舒张压与夜间最低血氧含量分级测量值 秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15 120 夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ― 秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5 13.5 13.5 13.5 13.5 120
384名青少年,并对每名青少年按是否在校和
对艾滋病是否知晓两种属性交叉分类,如表
13.3所示。试问两变量是否存在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
是否知晓
是否在校
是 否 合计

156 27 183

62 139 201
合计
218 166 384
(1)建立检验假设
相关文档
最新文档