双变量关联性分析(研)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 编秩、求秩次的差值d •计算等级相关系数:
2016/7/14
rs 1
n( n 1)
2
6 d
2
d 每对观察值xi,yi所对应的秩次之差 n 为对子数
rs 样本秩相关系数
38
表 12-3 肝癌死亡率与黄曲霉毒素相对含量 乡编号 (1) 1 2 3 4 5 6 7 8 9 10 合计
…
15
…
20.2
…
58.0
…
408.04
…
3364.00
…
1171.60
16
合计
2016/7/14
21.0
366.0
57.0
926.6
441.00
8548.30
2 x
3249.00
53813.56
2 y
1197.00
21332.38
x
y
xy
18
• x的离均差平方和
lxx x x x
plot) • 以两条互相垂直的座标轴分别表示两个变量,n 对观察值对应于座标平面的 n 个点,便构成一幅 散点图。
2016/7/14
5
散点图
2016/7/14
6
第一节 直线相关
2016/7/14
7
一、概述
概念
又称简单相关或 Pearson 相关分析,用于研究
具有直线关系的两个变量间相关关系的密切程度
,观察每种剂量下动物的反应;
– 摸索化学反应的适宜条件,人们选定几种温度
,观察各温度下生成物的数量。
2016/7/14 32
三、对相关的解释
• 相关分析中对变量的选择及统计结果的解释一定
要结合专业背景,切不可把任意两个变量拉在一
起盲目下结论。 • 例如,某人喜得贵子,庭前种一小树,每月测子 高与树高,计算发现子高与树高间的相关有统计 意义(r=0.89),难道两者真有内在联系?
( z u / 2
然后 r tanh z
2016/7/14
n 3 , z u / 2
或
n 3)
e2z 1 r 2z ,将 z 可信区间变换回到 r 尺度。 e 1
27
决定系数的意义
• 决定系数即相关系数r的平方r 2
– 它反映应变量y的总变异中可用回归关系解释 的比例
与相关方向的一种统计分析方法
应用条件 要求两个变量均服从正态分布 (双变量正态分布 )
2016/7/14 8
相关系数的意义及计算
又称积差相关系数或 Pearson 相关系数,说 明具有直线关系的两个变量间相关关系的密切程 度与相关方向的指标
r 表示样本相关系数,ρ 表示总体相关系数
2016/7/14
2016/7/14
黄曲霉毒素相对含量
肝癌死亡率(1/10 万)
d
d2
(7)=(6)2 4 0 4 9 1 9 1 9 1 4 42
39
x
(2) 0.7 1.0 1.7 3.7 4.0 5.1 5.5 5.7 5.9 10.0 -
秩次 (3) 1 2 3 4 5 6 7 8 9 10 -
y
(4) 21.5 18.9 14.4 46.5 27.3 64.6 46.3 34.2 77.6 55.1 -
2
2
lxy lxxl yy
366 926.6 21332.38 16 r 0.8343 2 2 366 926.6 8548.30 53813.56 16 16
2016/7/14 20
二、相关系数的假设检验
r≠0原因:① 由于抽样误差引起,ρ=0
同一变量或不同变量的数值,而产生一对观察值。
2016/7/14
3
• 为讨论父子身高间的线性相关程度,南方某地在 应届中学毕业生花名册中随机抽取 20 名男生,分 别测量他们和他们的父亲的身高(cm),得样本资 料如下表所示:
2016/7/14
4
• 考察相关性最简单而直观的办法是散点图(scatter
之间是否存在线性联系,此联系是正向还是负向
以及联系的程度如何?
2016/7/14 2
• 如果两个连续型变量 X和 Y 都随机变动且不分主次 ,可通过线性相关(linear correlation)分析来估计 它们之间可能存在的线性联系的方向与程度。 • 两个随机变量 X 和 Y ,可以是对同一观察单位同时 测量 X 与 Y 的数值,也可以是测量成对观察单位的
2
402.5 6 d
2
6 402.5 rs 1 2 1 0.407 2 n(n 1) 12(12 1)
2016/7/14
44
相同秩次较多时rs的校正
当X 及Y 中,相同秩次均较多( 均超过
n×25%)时,用下式进行校正:
3
r
' s
n n / 6 T T d n n / 6 2T n n / 6 2T
9
r
x x y y x x y y
2
2
lxy lxxl yy
• 没有单位,取值介于-1与1之间 • 相关方向用正负号表示 • 相关的密切程度用绝对值表示
2016/7/14 10
• -1 ≤ r ≤ 1
r 值为正 ——正相关
为负 ——负相关
的估计值
存在着抽样误差,故计算出 rs 后, 需作 s 是否为0的假设检验: 当 n 50时,可查 rs 界值表(p350)作出判断
当n>50时,可用正态近似法进行检验
检验统计量z的计算公式为:
z rs n 1
2016/7/14 42
补充例题
2016/7/14
43
n 12
d
|r|=1 --- 完全相关
r=0 --- 零相关
2016/7/14
11
相关关系密切程度的判断
r 0.4
0.4 r 0.7
r 0.7
2016/7/14
低度相关
中度相关
高度相关
12
相关关系图示
2016/7/14
13
变量相关关系的类型
2016/7/14
14
• 【例12-1】2000年测得某地16名7岁男孩体重 与胸围资料,见表12-1。
2
0.8343 1 0.8343 16 2
2
5.6623
2016/7/14
25
3.确定P值,做出统计推断 • 按自由度 =n-2=16-2=14 ,查附表4,得 P<0.001,按 = 0.05水准,拒绝H0,接受 H1,差异有统计学意义,可认为2000年该 地7岁男孩体重与胸围之间有相关关系
2016/7/14
26
总体相关系数的区间估计*
必须先对 r 作 z 变换
z tanh 1 r 或
1 (1 r ) z ln 2 (1 r )
公式中 tanh 为双曲(hyperbolic)正切函数;tanh-1 为反双曲正切函数, r 的取值范围 -1<r<1,相应的 z 值范围 -∞< z < +∞。 按正态近似原理,z 的 1- 可信区间为:
计算基础数据,并列成相关系数计算表
2 2 y 求出 x、 、 、 x y 、 xy (见表12-2)
代入公式,求出相关系数
r
值
2016/7/14
17
表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表
编号 (1)
1 2 3 4
x体重(kg) (2)
24.5 27.0 23.5 28.5
秩次 (5) 3 2 1 7 4 9 6 5 10 8 -
(6)=(3)-(5) 2 0 2 -3 1 -3 1 3 1 2 -
rs 1
n( n 1)
2
6 d
2
6 42 rs 1 0 . 746 2 10 (10 1)
2016/7/14 40
当x或y中相同秩次较多时,宜对 进行校正:
r
2
l
2 xy
l xx l yy
l / l xx l yy
2 xy
SS回 SS总
– 反映回归直线的拟合程度,即回归方程估计可 靠程度的高低。取值范围在[ 0 , 1 ] 之间
r2
2016/7/14
1,说明回归方程拟合的越好 0,说明回归方程拟合的越差
28
r2
相关分析应用中应注意的问题
2016/7/14
第 十 二 章
广东医学院公共卫生学院 统计与流行病学教研室
黄志刚
2016/7/14 1
• 前面描述性统计及假设检验只涉及到一个变量,
如体重、红细胞数、血压下降值等,着重于描述某
一变量的统计特征或比较该变量的组间差别。
• 在大量的医学问题研究中常常还要分析两个随机
源自文库
变量之间的关系,如体重与肺活量、年龄与血压
② 存在相关关系, ρ≠ 0
查表法,按v=n-2查r界值表,做出推断结论 t检验
r 0 tr Sr
21
2016/7/14
• 查表法
– 根据自由度 =n-2,查附表14,将所得 r 值与某 概率水平(如0.05)对应的 r 界值相比较,若 r 值小于 r 界值,则P大于相应的概率水平,反之 ,P小于相应的概率水平,然后作出推断
表12-1 2000年某地16名7岁男孩体重与胸围资料
编号 1 2 3 4 5 6 7 8
9
体重(kg) 24.5 24.8 胸围(cm) 61.0 58.5
2016/7/14
10
27.0 19.7 62.0 56.0
11
23.5 19.5 60.0 55.6
12
28.5 17.2 64.0 54.5
四、慎重合并分层资料
2016/7/14
35
第二节 等级相关
(秩相关,Spearman相关)
2016/7/14
36
一、适用条件
不服从双变量正态分布而不宜作积差相关分析
(Pearson 相关) 总体分布型未知 开口型或半开口型的资料 原始数据是用等级表示
2016/7/14 37
二、方法步骤
• 时间变量与两者的潜在联系造成了子高与树高相
关的假象。
2016/7/14 33
• 即使专业上有理由作相关,两变量的地位也是平 等的,所揭示的可能仅仅是一种统计学上的关联 性,不一定是因果联系。 偶然联系:树高---身高(专业常识判断) 伴随联系:兄弟身高 因果联系:父子身高
2016/7/14
34
2016/7/14
22
• t 检验方法
r 0 tr Sr
Sr
2016/7/14
n2
2
1 r n2
23
【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0
H1 : 0
0.05
2016/7/14 24
2.计算检验统计量 t r 值
tr
r 0 1 r n2
2
2
x n
2
2
• y的离均差平方和
l yy y y y
2
2
y n
• x与y间的离均差积和
lxy x x y y
2016/7/14
x y xy n
19
r
x x y y x x y y
rs
rs'
n n / 6 2T n n / 6 2T
3 3 x
3 2 n n / 6 T T d x y
y
Tx或Ty t 3 t /12
t为x或y中相同秩次的个数
2016/7/14 41
rs是总体等级相关系数 s
2 x y 3 3 x
y
式中,Tx ( 或TY )=Σ ( t3-t )/12;
t:X ( 或Y )中相同秩次的个数
2016/7/14 45
2016/7/14
46
计算分析过程
H0:ρs=0,即血小板数与出血症状无相关关系 H1:ρs≠0,即血小板数与出血症状有相关关系 α=0.05 分别依实测值Xi,Yi从小到大编秩 求每对数据秩次之差d 因出血症状Y 中,相同秩次较多,需计算校正r`s 值 TX=0 TY=Σ(t3-t)/12=[(63-6)+(23-2)+( 23-2)]/12 =18.5
13
23.0 20.0 59.3 53.0
14
26.7 19.0 58.4 52.0
15
26.8 20.2 58.6 58.0
16
24.6 21.0 58.7 57.0
15
散点图
2016/7/14
图12-2 2000年某地16名7岁男孩体重与胸围散点图
16
计算例12-1中体重与胸围间相关系数
29
一、散点图的重要性
2016/7/14
30
60 50
预后指数Y
40 30 20 10 0 0 20 40 60 80
住院天数X
2016/7/14
31
二、变量取值非随机时莫作相关 • 某些医学问题研究中,一个变量随机变动
,另一个变量的数值却是人为选定的。
– 研究药物的剂量反应关系,人们选定 n 种剂量
y胸围(cm) (3)
61.0 62.0 60.0 64.0
x2 (4)=(2)2
600.25 725.00 552.25 812.25
y2 (5)=(3)2
3721.00 3844.00 3600.00 4096.00
xy (6)=(2)×(3)
1494.50 1674.00 1410.00 1824.00