第四讲关联性研究的设计与数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
c 2 = (178´1486 - 79´1411)2 ´ 3154 = 39.90
1589´1565´ 257´ 2897
, c
2 0.005,1
=
7.879
c2
>
c
2 0.005,1
P<0.005,说明行为类型与冠
心病之间存在着关联性。
关联系数(association coefficient)
470
950
910 480 160
2500
H0 : 民族与血型无关联。
H1 :民族与血型有关联。 α=0.05
å å R
c 2 = n(
2
A
2 ij
-1)
n m i=1 j=1 i j
c 2 = 284.826 n = 6
P<0.005,拒绝H0,说明民族与血型有关联。
c2
r=
=
284 . 826 = 0.320
(2)对数变换:
z = 1 ln 1 + r 2 1-r
z - Za /2 / n - 3, z + Za /2 /
r
=
e2z e2z
-1 +1
n-3
实例分析结果:
1. 首先绘制散点图;
2. 计算得Pearson相关系数r=0.929;
3. 假设检验: H0:ρ=0 H1:ρ≠0a = 0.05
3 0 .0 0 1 4 5 .0 0
1 5 0 .0 0
1 5 5 .0 0
1 6 0 .0 0
1 6 5 .0 0
身高(cm)
1 7 0 .0 0
1 7 5 .0 0
2.相关系数的计算
Pearson积矩相关系数(productmoment
correlation coefficient)
应用条件:随机变量,呈双变量正态分
属性 B
2
A12 ( p 12 ) A22 (p 22 ) m2 (pc2 )
合计
n1 (p r1 ) n2 ( p r2 ) n(1.0)
H 0 :属性 A 与 B 互相独立, H 0 :属性 A 与 B 互相关联。
独立性检验:考察 p ij = p rip cj 成立与否。
检验公式:
å c 2 = ( Aij - Tij )2
布,散点图呈线性趋势,各观察值间相互
独立。
r=
X和 Y的协方差
( X的方差 )( Y的方差 )
协方差(covariance)的定义:
X的样本方差 =
n
å(
i=1
Xi
-
X
)2
n-1
Y的样本方差 =
n
å(
i=1
Yi
-Y
)2
n-1
n
X和Y的样本协方差
=
å(
i=1
Xi
-
X
)(Yi
-Y
)
n-1
双变量协方差示意图
(五)线性相关分析的注意事项
1.正确理解相关关系。“相关不等于因果” 2.正确理解检验结果不拒绝零假设。 3.注意数据中的异常值。
二、两个分类变量的关联分析
对分类变量间的联系,可作关联 (association)分析,即对两个分类 变量交叉分类计数所得的频数资料 (列联表)作关于两种属性独立性的 c2 检验。
(X) 体重
30.84 42.64 33.11 44.00 36.29 40.82 32.66 35.38 33.11 31.75
(Y )
(二)直线相关的统计学描述
1. 散点图(Scatter plot)
44.00
42.00
40.00
体 38.00 重
3 6 .0 0
(kg)
3 4 .0 0
3 2 .0 0
独立是指一个指标的取值与另一指标取值 多少无关。两指标间不独立则为相关,即某一 指标的取值与另一指标的取值多少有关。
统计学中用一个统计量描述线性相关的密 切程度,称相关系数(Correlation coefficient)。
两个连续型随机变量间联系的强度用 相关系数(correlation coefficient)来描述。 如果就总体而言,则称为总体相关系数,
(1)相关系数r的绝对值必然在0到1之间, 1 £ r £ 1 。 (2)r=0,表示无相关; |r|=1,表示完全函数关系。 (3)相关系数的符号表示相关的方向。
(4)总体相关系数r的绝对值表示相关的密切程度。
3. 相关的各种形式
(a) r > 0
(b) r < 0
(c) r = 0
(d) r = 0
i, j
Tij
c2 =
(ad - bc)2 × n
(a + b)(c + d )(a + c)(b + d )
H0 :行为类型与冠心病之间互相独立
H1 :行为类型与冠心病之间有关联
a =0.05
将表中各数据代入公式, c 2 =
(ad - bc)2 × n
(a + b)(c + d )(a + c)(b + d )
n 适用于:不服从双变量正态分布; 总体分布类型未知; 数据本身有不确定值; 等级资料。
1. Spearman秩相关系数的计算
例2 十名病人参加家庭计划的时间长度 (天)和每名病人每天的费用(元)见表2。 请问参加的时间长度和费用是否相关?
表 2 10 名病人参加家庭计划的时间和每名病人每天的费用
n 如果就总体而言,则称为总体相关系数,
记为r ;如果计算数据取自样本,则称为
样本相关系数,记为r 。 n 1 £ r £ 1
(三)线性相关的统计推断
H0:ρ=0 H1:ρ≠0
1.相关系数的假设检验
H0: r =0 H1: r ≠0
a =0.05
常用的检验方法
(1)查相关系数临界值表(查统计学附表) (2)t 检验,统计量为:
A 方法
A+ A 合计
表 5 两种检查结果的比较 B 方法
B+
B
50
15
8
30
58
45
合计 65 38 103
c 2 = (50´ 30 - 15 ´ 8)2 ´103 = 30.43
65 ´ 38 ´ 58 ´ 45
源自文库c2
30.43
r=
c2+n =
= 0.477 30.43 + 103
(二)多分类资料的关联分析
表 3 行为类型与冠心病的关系
冠心病(属性 B)
行为类型(属性 A)
合计
有(1) 无(2)
类型 A(1)
178
1411 1589
类型 B(2)
79
1486 1565
合计
257 2897 3154
表4
属性 A
1 2 合计
2×2 交叉分类频数表的一般形式及概率表达
1
A11 (p 11 ) A21 (p 21 ) m1 (p c1 )
c 2 + n 284.826 + 2500
记为r ;如果计算数据取自样本,则称为样
本相关系数,记为r 。 1 £ r £ 1
2.相关系数的特点:
两个连续型随机变量间联系的强度用相关系数 (correlation coefficient)来描述。
如果就总体而言,则称为总体相关系数,记为r ;如
果计算数据取自样本,则称为样本相关系数,记为r 。
c2 r = c2 +n
c2
39 . 90
r=
c2 +n =
= 0.112 39.90 + 3154
对于 2´ 2列联表,关联系数在0到 1 - 1
之间。即0到 0.5 = 0.71之间。
min( R,C )
n 例4 设有研究者对103例病人进行了影像 学检查(A)和生化检验(B),结果均分 为疾病(+)和正常()两类,数据如表 95,现欲分析A、B两法的检验结果的关 联性。
关联性研究的设计 与数据分析
公共卫生学院 医学统计与流行病学系
林爱华
前面的学习阶段,介绍了单个变量的统计 分析方法,着重于比较单个变量的组间差别。
医学研究中,常常还需要分析两个随机变 量之间的关系以及一个变量如何随着另一个变 量的变化而变化。
例:胸围与肺活量的关系,肺活量随着胸围的 变化如何变化。
r-0 tr = Sr = 7.10
n = n - 2 = 10 - 2 = 8
P<0.001 ,拒绝H0 ,说明学龄儿童身高和 体重之间呈正向线性相关关系。
4. 95%置信区间: (0.721,0.983)。
(四)等级相关(秩相关)
n 等级相关(rank correlation)或称Spearman 秩相关。
(e) r = 0
图 1 常见的典型散点图
(f) r = 0 (曲线相关)
4.相关分析的资料来源
(1)从研究总体随机抽取n个对象,每个对象观 察X和Y两项指标; (2)或者从已经配成对子的研究总体中随机抽 取n对对象,每对对象观察同一指标。 (3)如果X和Y服从正态分布,这样的研究所获 得的资料就可以做相关分析。
例1 表1为一项关于儿童健康和发育的研究中10名学 龄儿童的身高和体重资料,试对学龄儿童的身高(cm) 和体重(kg)进行相关分析。
表 1 10 名学龄儿童的身高和体重
儿童
1
2
3
4
5
6
7
8
9
10
编号
身高
149.35 167.64 146.30 170.69 161.54 164.59 155.45 158.50 149.35 152.40
一、两个连续型随机变量的线性相关分析 二、两个分类变量的关联分析 三、两个连续型随机变量的线性回归分析
一、两个连续型随机变量的线性相关分析
(一)线性相关的基本概念 (二)线性相关的统计学描述 (三)线性相关的统计推断 (四)等级相关 (五)线性相关分析的注意事项
(一)线性相关的基本概念
1.线性相关的概念:
年龄与血压的关系,血压随着年龄的变化 如何变化。
主要内容:
1. 两个连续型随机变量间的线性相关。 2. 两个分类变量间的关联。 3. 两个连续型随机变量间的线性回归。
一般两个连续型随机变量间的线性联系称为线性 相关(linear correlation)与回归,也称为简单相关与 回归(simple correlation)。 两个分类变量间的联系则称为关联(association)。
病人 编号
1 2 3 4 5 6 7 8 9 10
时间( X ) 秩次( pi ) 费用( Y ) 秩次( qi )
10
1
516
10
150
10
122
3
143
9
82
1
25
2
262
7
132
8
135
4
65
3
300
9
118
6
86
2
129
7
268
8
70
4
203
6
92
5
164
5
r = å (X - X )(Y - Y ) å (X - X )2 å (Y - Y )2
(一)交叉分类2×2列联表 (二)多分类资料的关联分析
(一)交叉分类2×2列联表
n 对含量为n的一份随机样本同时按照两个 二项分类的特征(属性)进行交叉分类形 成一个2×2交叉分类资料表, 也称为2×2 列联表(contingency table)。
n 例3 为观察行为类型与冠心病的关系,某研究 组收集了一份包含3154个个体的样本,研究者将 观察对象按行为类型分为A型(较具野心、进取 心和有竞争性),B型(较沉着、轻松、和做事 不慌忙)。对每个个体分别观察是否为冠心病患 者和行为类型两种属性,2×2种结果分类记数如 表3所示。试分析两种属性的关联性。
例5 有研究表明,不同民族人的血型是 不同的。现有人在某地随机抽取2500名 居民,记录其民族与血型,资料见表6, 请问民族与血型是否有关?
表6 不同民族人的血型分布资料
民族
血型
O
A
B
AB
合计
民族甲 民族乙 民族丙
合计
490
440 120 50
1100
280
240 320 90
930
180
230 40 20
以秩次代入公式计算。
2.等级相关系数的假设检验
H0: r s =0 H1: r s ≠0
a =0.05
(1)当 n ≤50 时,可查 rs 界值表(见统计学附表),若秩相
关系数超过临界值,则拒绝 H0 。
(2) n>50,也可用t检验。
( ) t = rs - 0 =
rs
sr
1 - rs2 (n - 2)
n =n-2
3.实例分析结果
n 计算秩相关系数,得 rs=0.770;
n 假设检验: H0: ρ=0 H1: ρ ≠ 0 α=0.05
查临界值表,r0.02,10=0.745, r0.01,10=0.794, 0.01<P<0.02,可以认为参加家庭计划的时间 长度和每天的费用之间有负向的等级相关关系。
r-0 tr = Sr
1- r2 Sr = n - 2
n =n-2
2. 相关系数的区间估计
r计算时经过了标准化,r值在[1,1],不服出正态分 布,需要在估计置信区间前先对r进行转换。
(1)反双曲正切变换
z = tanh -1 r
z - Za /2 / n - 3, z + Za /2 / n - 3 r = tanh z
n
r=
å(
i =1
xi
-
x
)(
yi
-
y
)
n
å(
i =1
xi
-
x
)2
n
å(
i =1
yi
-
y
)2
å xy - å xå y / n =
[ å x2 - ( å x )2 / n ][ å y2 - ( å y )2 / n ]
= 0.9296
3. 线性关联强度的指标
n 两个连续型随机变量间联系的强度用相关 系数(correlation coefficient)来描述。