医学统计学-第9章 关联性分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双向有序分类资料的关联性检验某矿工医院探讨矽肺不同期次患者的胸部片密度变化492例患者资料整理如下表所示问矽肺患者肺门密度的增加与期次有无关本表是按两个变量从小到大顺序分类整理出来的目的为研究两个变量之间有无关联性此从表的左上角往右下角方向看频数有集中于此对角线偏上趋势即肺门密度有随着矽肺期次增加而变大趋势换言之这两个变量似有关联性
关于两种属性的关联程度,我们用pearson
列联系数表达:
对于2×2列联表
关联系数r介于
(9-10)(110-1~2) 0.5 = 0.71 之 间, 该值越大,关
联程度越高。
理论上我们还要作总体为列联系数为0的假设 检验,但这个假设等价于以上的χ2检验。
例9-3 为观察行为类型与冠心病的关系,某研究
r的取值范围在±1之间,为正值时,正相关。 为负值时,负相关。 r=0时为零相关。 ρ是总 体相关系数,r是ρ的估计值。 假设是建立ρ的基础上。。。
相关系数的计算
利用例题的资料试计算凝血酶浓度X与凝 血时间Y之间的样本相关系数。
4.相关分析条件
用于双变量正态分布资料, X、Y都是正态分布。
9.2 两个连续随机变量间的相关分析
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
计算结果如下:
九
(9-11)
关联系数为:
关联系数的范围:
其中,R是列联表的行数,C是列联表列数。
双向有序分类资料的关联性检验
例 某矿工医院探讨矽肺不同期次患者的胸部
片密度变化,492例患者资料整理如下表所 示,问矽肺患者肺门密度的增加与期次有无关 系? 本表是按两个变量从小到大顺序分类整理出来 的,目的为研究两个变量之间有无关联性,此 类表又称列联表。
意义和表达同Pearson,同样也要对总体为ρ的推断。
Spearman秩相关系数的统计推断
假设 ; H 0 : ρ S = 0, H1 : ρ S ≠ 0
当n ≤ 50,可查 rS界值表(附表 C12教材 P582),若秩相关系数超出
临界值,则拒绝 H 0 ; 若n > 50对, 也可采用公式 (9 − 2)作t检验。
9.2.1 解决什么问题? ⑴统计描述:推断两变量是否有联系?是否
线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
从表的左上角往右下角方向看,频数有集中于此对角 线(偏上)趋势,即肺门密度有随着矽肺期次增加而 变大趋势,换言之,这两个变量似有关联性。若频数 在这些格子均匀地分布,或各行分布(构成比)相 同,且各列分布(构成比)相同,则表示两个变量无
关联性了。
首先建立假设 H0:矽肺期次与肺门密度无关联。 H1:矽肺期次与肺门密度有关联。 α=0.05
怀疑T31=78×50/492=7.93符合R×C表 的χ2检验条件。
求卡方值:
查χ2界值表得到:
χ2 0.05,4
=
9.49;
χ2 0.005,
4
= 14.86
P < 0.05同时P < 0.005
求关联系数: r =
χ2 = χ2 +n
163.01 = 0.499 163.01+ 492
统计和专业结论:
量分析。重点强调设计!!
2.了解和熟悉: 利用散点图分析样本相关系数
可能出现的各种假象,并作出合理解释。对不同类型 的变量,用不同的统计方法去分析它们之间的关系。
选择题
1.相关系数的检验可用
。
A.散点图直接观察法代替
B. t检验
C.秩和检验
D.χ2检验
E.以上都可以
2.计算pearson积矩相关系数要求 。
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
按α=0.05水准拒绝H0,接受H1,故可认为 门密度与矽肺期次有关联。结合本资料可见 肺门密度有随矽肺期次增高而增加的趋势。
1.重点掌握:详见教材本章小结
利用散点图确定两个定量变量之间有否线性关系;能 把握利用Pearson积矩相关、Spearman等级相关的 应用条件并能计算相应的相关系数,同时进行假设检 验;对分类计数频数表资料的两变量间的关联性作定
9.1.2 基本概念
通过简单的例题说明
⑴散点图 ⑵相关种类 ⑶关联强度指标 ⑷相关分析条件
例 随机抽取15名健康成人,测定血液的凝血酶
浓度(单位/毫升)及凝固时间,数据如下表所示。 如何判断这两项指标间是否相关?
X Y
针对本题目两指标是否存在关联性? 1. 观察散点图分布 直线相关 liner correlation
tr
=
r−0 Sr
=
r ,
1− r2 n−2
ν = n−2
例 对上例的秩相关系数作假设检验。
已知rs = −0.422, n = 12,查附表C12,等级相关界值表,rs < r10,0.05 = 0.648,
p
>
0.05,
按α=0.05水准,不拒绝H
,可认为急性白血病患
0
儿的出血症
状与血小板数之间无相 关关系。
组在当地随机调查了3154名居民。研究者将观察对 象按行为分为A型和B型。对每个个体分别观察是否 为冠心病患者和行为类型两种属性,2×2种结果分
类计数如表9-3所示。试分析两种属性的关联性。
首先建立假设
(9-5)
采用关联系数计算,代入9-10公式, 结果如下:
对于2×2列联表,关联系数r的范围0~0.7之 间,其值越大,关联程度越高,是否有统计 学意义?与χ2检验的结果一致。
又称简单相关 simple correlation
(1.1,14)
例题
关联强度指标用相关系数r表示 通过散点图观察数据分布的趋势。
负相关
零相关
正相关
零相关
零相关
呈曲线趋势
2.样本相关系数计算公式为:
(9-1)
3. 相关系数的意义
相关系数又称Pearson积矩相关系数,它是说 具有直线关系的两个变量间,相关关系的密切 程度与相关方向的指标。
9.3.3 R ×C表分类资料的关联性分析
例 某地居民主要有三种祖籍,均流行甲状腺肿。为探
讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺 肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分 类,得下表资料。问甲状腺肿类型与祖籍间有否关联?
分析:本例一次筛查1436人,看作总体中一份样
按两种属性交叉分类统计频数。作关联分析。
关于两类定性和两种属性资料分类计数作 关联分析,用统计量为χ2检验。
一、交叉分类2×2表的关联分析 二、 2×2配对资料的关联分析 三、R ×C表分类资料的关联性分析
一、交叉分类2×2表的关联分析
9-4
πij看成相应的的联合概率, πij = πri πcj , 属性X和属性Y相互独立,指它们的概率分布相互无 关,否则存在相互关联。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
4.在相关性研究中,相关系数的统计推断P
值越小,则
。
A. 两变量相关性越好 B. 结论可信度大 C. 认为总体具有线性相关的理由越充分 D. 抽样误差越小 E. 抽样误差越大
9.5 案例讨论
案例9-1? 案例9-2? 案例9-3?
表9-9
表C2
例题
为观察婴儿腹泻是否与喂养方式有关,某医院 儿科随机收集了消化不良的婴儿 82例,如果把 该院儿科所有消化不良的患儿视为一个总体, 则该82例患儿可看作是一份随机样本。对每个 个体分别观察腹泻与否和喂养方式两种属性, 2×2种结果分类计数见下表,分析两种属性是 否有关联性?
表11-3
实际数 actual
∑ ( ) χ 2 =
A−T 2 T
理论数theoretical
与我们前面讲的公式完全一样,但设计和讨论的问题 完全不一样,研究目的、设计方案、数据结构以及对 于结果的解释都不一样。
题
例11-6展开
(9-5)
(9-9)
查χ2界值表,χ2>χ20.05,1, P<0.05, 拒绝原假 设H0,可认为婴儿腹泻与喂养方式之间存在相 关联性。
9.3.2 2×2配对资料的关联分析
例 有56份咽喉涂抹标本,把每份标本一分为二,依
同样的条件分别接种于甲、乙两种白喉杆菌培养基 上,观察白喉杆菌生长的情况,结果如下表所示,问 两种培养基的结果有无关联?
作两种关联性分析
(9-9)
例9-4 设有研究者对103例患者进行影像学检查A
生化检验B,结果分为疾病+和正常—两类,数据见 表9-5,现分析A、B两法的检验结果的关联性。
9.2.4 线性相关应用中注意问题
1. 散点图直观并有相关趋势,才能进一步分析。 2. 线性相关分析要求两变量是随机变量并正态分
布或近似正态分布。 3. 出现异常值时慎用相关 。 4. 相关不一定因果关系,要从专业角度考虑。 5. 分层资料盲目合并易出假象 。
如图9-3所示:
图11-3
图9-3
9.3 分类变量的关联性分析
用t检验,公式为:
注意:自由度变化
tr
=
r−0 Sr
=
r ,
1− r2 n−2
ν =n−2
(9-2)
相关系数标准误
假设检验有两种方法: ⑴查附表C11 r界值表,教材p581 ⑵查附表C2 t界值表,教材p560
例 上例题所得︱r︱=0.926, 检验凝血酶浓
度与凝血时间是否有统计学意义。
H0:ρ=0 两变量间无直线关系 H1:ρ≠0 两变量间有直线关系 α=0.05
A. 因变量Y是正态变量,而自变量X可以不满 足正态要求
B. 自变量X是正态变量,而因变量Y可以不满 足正态要求
C. 两变量服从正态分布 D. 两变量只要是测量指标就行 E. 因变量Y是定量指标,而自变量X可以是任
何类型的数据
3.对R×C列联表资料作频数分布的比
较与作两变量关联性分析
。
A. 设计不同,χ2统计量一样 B. 两者仅假设不同 .两者仅结论不同 D. 两者的P值不同 E. 两者的检验水准不同
资料分两大类
参数 统计
数值变量 分类变量 9章 关联性分析
分布不清?
非参数 统计
9 两变量关联性分析
9.1 概述
如:年龄与血压的关系,随着年龄的增长血 压是否有增高的可能?随着药物剂量的加 大与动物死亡增加的关系,儿童身高与体 重的关系,疗效与药物剂量等关系都属于 双变量分析的范畴,仅涉及到两个变量X和 Y,而且它们之间呈线性联系,探讨两个分 类变量间是否有关联性。
关于两种属性的关联程度,我们用pearson
列联系数表达:
对于2×2列联表
关联系数r介于
(9-10)(110-1~2) 0.5 = 0.71 之 间, 该值越大,关
联程度越高。
理论上我们还要作总体为列联系数为0的假设 检验,但这个假设等价于以上的χ2检验。
例9-3 为观察行为类型与冠心病的关系,某研究
r的取值范围在±1之间,为正值时,正相关。 为负值时,负相关。 r=0时为零相关。 ρ是总 体相关系数,r是ρ的估计值。 假设是建立ρ的基础上。。。
相关系数的计算
利用例题的资料试计算凝血酶浓度X与凝 血时间Y之间的样本相关系数。
4.相关分析条件
用于双变量正态分布资料, X、Y都是正态分布。
9.2 两个连续随机变量间的相关分析
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
计算结果如下:
九
(9-11)
关联系数为:
关联系数的范围:
其中,R是列联表的行数,C是列联表列数。
双向有序分类资料的关联性检验
例 某矿工医院探讨矽肺不同期次患者的胸部
片密度变化,492例患者资料整理如下表所 示,问矽肺患者肺门密度的增加与期次有无关 系? 本表是按两个变量从小到大顺序分类整理出来 的,目的为研究两个变量之间有无关联性,此 类表又称列联表。
意义和表达同Pearson,同样也要对总体为ρ的推断。
Spearman秩相关系数的统计推断
假设 ; H 0 : ρ S = 0, H1 : ρ S ≠ 0
当n ≤ 50,可查 rS界值表(附表 C12教材 P582),若秩相关系数超出
临界值,则拒绝 H 0 ; 若n > 50对, 也可采用公式 (9 − 2)作t检验。
9.2.1 解决什么问题? ⑴统计描述:推断两变量是否有联系?是否
线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
从表的左上角往右下角方向看,频数有集中于此对角 线(偏上)趋势,即肺门密度有随着矽肺期次增加而 变大趋势,换言之,这两个变量似有关联性。若频数 在这些格子均匀地分布,或各行分布(构成比)相 同,且各列分布(构成比)相同,则表示两个变量无
关联性了。
首先建立假设 H0:矽肺期次与肺门密度无关联。 H1:矽肺期次与肺门密度有关联。 α=0.05
怀疑T31=78×50/492=7.93符合R×C表 的χ2检验条件。
求卡方值:
查χ2界值表得到:
χ2 0.05,4
=
9.49;
χ2 0.005,
4
= 14.86
P < 0.05同时P < 0.005
求关联系数: r =
χ2 = χ2 +n
163.01 = 0.499 163.01+ 492
统计和专业结论:
量分析。重点强调设计!!
2.了解和熟悉: 利用散点图分析样本相关系数
可能出现的各种假象,并作出合理解释。对不同类型 的变量,用不同的统计方法去分析它们之间的关系。
选择题
1.相关系数的检验可用
。
A.散点图直接观察法代替
B. t检验
C.秩和检验
D.χ2检验
E.以上都可以
2.计算pearson积矩相关系数要求 。
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
按α=0.05水准拒绝H0,接受H1,故可认为 门密度与矽肺期次有关联。结合本资料可见 肺门密度有随矽肺期次增高而增加的趋势。
1.重点掌握:详见教材本章小结
利用散点图确定两个定量变量之间有否线性关系;能 把握利用Pearson积矩相关、Spearman等级相关的 应用条件并能计算相应的相关系数,同时进行假设检 验;对分类计数频数表资料的两变量间的关联性作定
9.1.2 基本概念
通过简单的例题说明
⑴散点图 ⑵相关种类 ⑶关联强度指标 ⑷相关分析条件
例 随机抽取15名健康成人,测定血液的凝血酶
浓度(单位/毫升)及凝固时间,数据如下表所示。 如何判断这两项指标间是否相关?
X Y
针对本题目两指标是否存在关联性? 1. 观察散点图分布 直线相关 liner correlation
tr
=
r−0 Sr
=
r ,
1− r2 n−2
ν = n−2
例 对上例的秩相关系数作假设检验。
已知rs = −0.422, n = 12,查附表C12,等级相关界值表,rs < r10,0.05 = 0.648,
p
>
0.05,
按α=0.05水准,不拒绝H
,可认为急性白血病患
0
儿的出血症
状与血小板数之间无相 关关系。
组在当地随机调查了3154名居民。研究者将观察对 象按行为分为A型和B型。对每个个体分别观察是否 为冠心病患者和行为类型两种属性,2×2种结果分
类计数如表9-3所示。试分析两种属性的关联性。
首先建立假设
(9-5)
采用关联系数计算,代入9-10公式, 结果如下:
对于2×2列联表,关联系数r的范围0~0.7之 间,其值越大,关联程度越高,是否有统计 学意义?与χ2检验的结果一致。
又称简单相关 simple correlation
(1.1,14)
例题
关联强度指标用相关系数r表示 通过散点图观察数据分布的趋势。
负相关
零相关
正相关
零相关
零相关
呈曲线趋势
2.样本相关系数计算公式为:
(9-1)
3. 相关系数的意义
相关系数又称Pearson积矩相关系数,它是说 具有直线关系的两个变量间,相关关系的密切 程度与相关方向的指标。
9.3.3 R ×C表分类资料的关联性分析
例 某地居民主要有三种祖籍,均流行甲状腺肿。为探
讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺 肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分 类,得下表资料。问甲状腺肿类型与祖籍间有否关联?
分析:本例一次筛查1436人,看作总体中一份样
按两种属性交叉分类统计频数。作关联分析。
关于两类定性和两种属性资料分类计数作 关联分析,用统计量为χ2检验。
一、交叉分类2×2表的关联分析 二、 2×2配对资料的关联分析 三、R ×C表分类资料的关联性分析
一、交叉分类2×2表的关联分析
9-4
πij看成相应的的联合概率, πij = πri πcj , 属性X和属性Y相互独立,指它们的概率分布相互无 关,否则存在相互关联。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
4.在相关性研究中,相关系数的统计推断P
值越小,则
。
A. 两变量相关性越好 B. 结论可信度大 C. 认为总体具有线性相关的理由越充分 D. 抽样误差越小 E. 抽样误差越大
9.5 案例讨论
案例9-1? 案例9-2? 案例9-3?
表9-9
表C2
例题
为观察婴儿腹泻是否与喂养方式有关,某医院 儿科随机收集了消化不良的婴儿 82例,如果把 该院儿科所有消化不良的患儿视为一个总体, 则该82例患儿可看作是一份随机样本。对每个 个体分别观察腹泻与否和喂养方式两种属性, 2×2种结果分类计数见下表,分析两种属性是 否有关联性?
表11-3
实际数 actual
∑ ( ) χ 2 =
A−T 2 T
理论数theoretical
与我们前面讲的公式完全一样,但设计和讨论的问题 完全不一样,研究目的、设计方案、数据结构以及对 于结果的解释都不一样。
题
例11-6展开
(9-5)
(9-9)
查χ2界值表,χ2>χ20.05,1, P<0.05, 拒绝原假 设H0,可认为婴儿腹泻与喂养方式之间存在相 关联性。
9.3.2 2×2配对资料的关联分析
例 有56份咽喉涂抹标本,把每份标本一分为二,依
同样的条件分别接种于甲、乙两种白喉杆菌培养基 上,观察白喉杆菌生长的情况,结果如下表所示,问 两种培养基的结果有无关联?
作两种关联性分析
(9-9)
例9-4 设有研究者对103例患者进行影像学检查A
生化检验B,结果分为疾病+和正常—两类,数据见 表9-5,现分析A、B两法的检验结果的关联性。
9.2.4 线性相关应用中注意问题
1. 散点图直观并有相关趋势,才能进一步分析。 2. 线性相关分析要求两变量是随机变量并正态分
布或近似正态分布。 3. 出现异常值时慎用相关 。 4. 相关不一定因果关系,要从专业角度考虑。 5. 分层资料盲目合并易出假象 。
如图9-3所示:
图11-3
图9-3
9.3 分类变量的关联性分析
用t检验,公式为:
注意:自由度变化
tr
=
r−0 Sr
=
r ,
1− r2 n−2
ν =n−2
(9-2)
相关系数标准误
假设检验有两种方法: ⑴查附表C11 r界值表,教材p581 ⑵查附表C2 t界值表,教材p560
例 上例题所得︱r︱=0.926, 检验凝血酶浓
度与凝血时间是否有统计学意义。
H0:ρ=0 两变量间无直线关系 H1:ρ≠0 两变量间有直线关系 α=0.05
A. 因变量Y是正态变量,而自变量X可以不满 足正态要求
B. 自变量X是正态变量,而因变量Y可以不满 足正态要求
C. 两变量服从正态分布 D. 两变量只要是测量指标就行 E. 因变量Y是定量指标,而自变量X可以是任
何类型的数据
3.对R×C列联表资料作频数分布的比
较与作两变量关联性分析
。
A. 设计不同,χ2统计量一样 B. 两者仅假设不同 .两者仅结论不同 D. 两者的P值不同 E. 两者的检验水准不同
资料分两大类
参数 统计
数值变量 分类变量 9章 关联性分析
分布不清?
非参数 统计
9 两变量关联性分析
9.1 概述
如:年龄与血压的关系,随着年龄的增长血 压是否有增高的可能?随着药物剂量的加 大与动物死亡增加的关系,儿童身高与体 重的关系,疗效与药物剂量等关系都属于 双变量分析的范畴,仅涉及到两个变量X和 Y,而且它们之间呈线性联系,探讨两个分 类变量间是否有关联性。