双变量关联性分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
McNemer检验,什么情况下用Pearson 检验?
2
P416 1 2 3
作业
谢谢!
基本思想
对于不符合正态分布的资料,不用原始数据计算相关系数,而是按其取值由小到大排秩,然后根据其秩次来计算秩 相关系数。
设有 n 例观察对象,对每一例观察对象同时取得两 个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到 大排秩为1, 2, …, n。它们的秩分别为 与 ,将 及 的秩次直接代入直线相关系数的计算公式可得到 Spearman秩相关系数 。
2
➢ 2×2 列联表 ➢ R×C列联表
关联性分析
例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年, 并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存
在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
nRnC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒绝 H0 ,接受 H1 ,可以认为自我效能感与领导行为类型之间有关 联。
进一步计算列联系数:
r
2 2n
115.508 0.481 115.508384
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用
病例号
1 2 3 4 5 6
血小板数
120 130 160 310 420 540
出血症状
++ +++
+ +
病例号
7 8 9 10 11 12
血小板数
740 1060 1260 1230 1440 2000
出血症状
++ -
秩相关的适用条件

不服从二元正态分布

用等级资料表示的原始资料

总体分布未知或边界不确定的资料
r lxy (xx)(yy) lxxlyy (xx)2(yy)2
离均差乘积和
xyxy/n
[(x2(x)2/n][y2(y)2/n]
相关系数 r 的性质
1r1 ➢
,其正负表示两变量间直线相关的方向;
➢ r 绝对值大小表示两变量之间直线联系的密切程度。
具体步骤 ➢ 绘制散点图观察两变量间是否有直线趋势。 ➢ 计算相关系数
➢ 建立假设检验,确定检验水准
H : 0 0 s
,即舒张压与夜间最低血氧含量分级无相关关系
H : 0 1 s
,即舒张压与夜间最低血氧含量分级有相关关系
0.05
(2)计算检验统计量
本例
,直接查等级相关系数界值表,得
=0.779 。
n 15 50 (3)确定 P 值并作出统计推断
r =0.779,P<0.001,按
qi
rs
pi qi
pi
rs
(pi pi)(qi qi) (pi pi)2(qi qi)2
rs
的假设检验
➢ 当n≤50时,可用查表法(查附表15, 界值表)。 ➢ 当n>50时,按式(13.4)和(13.5)进行 t 检验。
rs
t
rs 0
(1rs2)/(n2)
ν=n-2
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研 究,试分析两者的关联性。资料列于下表。
, ,结果与 t 检验法一致。
r0 .0 5 ,1 3
r0 .0 0 1 ,1 3
13
P0.001
➢ 进行相关分析前应先绘制散点图
➢ 有无线性关系 ➢ 有无离群点(outlier)
➢ 出现离群点时慎用相关
注意事项
(a)
注意事项 ➢ 线性相关分析要求两个随机变量服从二元正态分布。
X Y 0 σX 21σ,Y 21,ρXY 0
r 1r2
0.875 6.517 10.8752
n2 152
n213
(3)确定P值并作出统计推断
P0.001 ➢
查t界值表,得 ,按 =0.05水准,拒绝 ,接受 ,相关系数有统计学意义,可以认为体重和双肾体积之间有直线
相关关系。
H0
H1
2. 查表法
直接查相关系数界值表,
=0.514,
=0.760,
表 13.2 15 例成年男子的舒张压与夜间最低血氧含量分级测量值
编号
(1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
舒张压 x (2) 75 80 80 90 90 90 90 95 95
100 100 110 115 120 125 ―
秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15
120
夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ―
秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5
13.5 13.5 13.5 13.5 120
具体步骤
➢ 计算相关系数
rs
lpq 0.897 l lpp qq
双变量关联性分析
双变量关联性分析
关联性分析的目的
推断从某一总体中随机抽取的同一份样本观测到的两个变量间是否存在关联性,以及这种关联性的密切程 度如何。
➢ 直线相关 ➢ 秩相关 ➢ 分类变量的关联性分析
主要内容
直线相关 linear correlation
பைடு நூலகம்
问题的提出
某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,如下表。据此回答两变量是否有关联?其 方向与密切程度如何?
➢其假设检验等价于上述的两分类变量独立性的 检验。
本例r=0.481
2
例13.7 为研究自我效能感与领导行为类型是否有关,某研究者抽样调查了来自某省各三甲医院的238名护士长, 并对每个个体按自我效能感和领导行为类型两种属性交叉分类,如表13.5所示。试分析两变量的关联性。
自我效能感
低 高 合计
表13.5 自我效能感与领导行为交叉分类表 领导行为类型
pm
pM
Pm
PM
67
25
13
17
32
12
34
38
99
37
47
55
合计
122 116 238
(1)建立检验假设
H0:自我效能感与领导行为类型间无关联 H1:自我效能感与领导行为类型间有关联 =0.05
(2)计算检验统计量
2n(
A2 1)34.213
表 13.2 15 例成年男子的舒张压与夜间最低血氧含量分级测量值
编号
(1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
舒张压 x (2) 75 80 80 90 90 90 90 95 95
100 100 110 115 120 125 ―
秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15
r lxy 0.875 lxxlyy
➢ 相关系数的统计推断(假设检验) 1. t检验 (1)建立假设检验,确定检验水准
H : 0,即体重和双肾体积之间无直线相关关系 0
H :0,即体重和双肾体积之间有直线相关关系 1 0.05
(2)计算检验统计量
tr
r0 Sr
r0 (1r2)/(n2)
n2
tr
计算公式: 取值范围:
r lxy / lxx lyy blxy/lxx
单位:相关系数无单位,回归系数有单位
1r1 b
秩相关(等级相关) rank correlation
问题的提出
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研 究,试分析两者的关联性。资料列于下表。
1
(3)确定P值,作出统计推断

2
界值表(附表
9),得
2
2 0.005,
7.88,
P
0.005 ,按 0.05 水准,
拒绝 H0 ,接受 H1,可以认为青少年是否在校与对艾滋病是否知晓之间有关联。
若需了解两个分类变量的关联程度,需进一步计算列联系数。
r 2 2 n
➢列联系数r取值范围为0~1,数值越接近 1,关联性 越强。
120
夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ―
秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5
13.5 13.5 13.5 13.5 120
某医生欲研究血小板浓度和出血症的关系,测得12名病人的血小板浓度(109/L)和出血症如下表:
对于同一样本,相关系数与回归系数的假设检验等价 ,即tb=tr
对于服从双变量正态分布的同一组资料 用回归可以解释相关:
r bSx Sy
R2SS回/SS总r2
区别
资料要求:直线相关要求双变量正态分布,直线回归要求给定自变量值时,因变量服从正态分布 应用及意义:相关系数说明两变量间相互关系的方向与密切程度 ;回归系数说明两变量的数量依存关系
直观方法:绘制散点图(scatter plot)
➢ 统计学上两个随机变量之间呈直线趋势的关系被称为直线相关。 ➢ 直线相关系数(linear correlation coefficient ):定量描述两变量间直线关系的方向和密切程度。
直线相关系数(linear correlation coefficient ) 又称Pearson 积矩相关系数(product moment correlation coefficient)
分级之间1 5有,正0 .相0 0关1关系。
水准,拒绝
,接受 ,可以认为舒张压与夜间最低血氧含量
| rs | r15,0.001
H0
H1
0.05
分类变量的关联性分析
两个分类变量间的关联性可用Pearson列联系数(contingency coefficient)等统计量来描述,其假设检验可采用 列联表的独立性 检验。
X Y 0 σX 22σ,Y 24,ρXY 0.75
➢ 相关关系不一定是因果关系 例如:树苗与儿童身高的关系
注意事项
注意事项
➢ 观察例数较少(如n<15)时,相关系数容易受个别观察对象的特殊值影响 ➢ 分层资料不可盲目合并(图13.3)
直线回归与直线相关分析的联系与区别
联系
对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,相关系数与回归系数 正负号一致。本例:r=0.762 b=2.11
是否在校
是否知晓


合计

156
62
218

27
139
166
合计
183
201
384
(1)建立检验假设
H : 两变量互相独立(无关系) 0 : 两变量互相关联(有关系)
H 1 =0.05
(2)计算检验统计量
2
(A T )2
(a d b c)2n
T (ab )(cd)(ac)(bd)
(1 5 6 1 3 96 22 7)23 8 41 1 5 .5 0 8 2 1 8 1 6 6 1 8 32 0 1
相关文档
最新文档