双变量关联性分析(研)
第13章思考与练习
![第13章思考与练习](https://img.taocdn.com/s3/m/671be85d7cd184254b35355a.png)
第十三章双变量关联性分析【思考与习题】一、思考题1.两变量间的关联性是否可解释为因果关系2.2⨯2列联表的关联性分析与两样本率比较的2χ检验有何不同3.相关系数r经假设检验有统计学意义,且得到的P值很小,是否表示两变量间一定有很强的直线关系4.简述Pearson积矩相关与Spearman秩相关的区别与联系。
二、案例辨析题为研究年龄与牙齿AKP酶反应活性之间的关系,某医生在其接诊的患者中随机抽取281例,按年龄(岁)分为三组进行观测,测量各患者牙齿的AKP酶反应活性,如表13-1所示。
问年龄与牙齿AKP酶反应活性之间有无关系表13-1 281例患者年龄与牙齿AKP酶反应活性的分布年龄AKP酶反应活性合计—+++<31517365831~234549051~249712133合计31148102 281按照R×C表的2χ检验结果,得2χ=,005.0<P,故按α=水准,拒绝H,可认为不同年龄患者的AKP酶反应活性不同,两者之间有关系。
以上分析正确吗三、最佳选择题1.Pearson积矩相关系数的假设检验,其自由度为A.1-nB.2-nC .12-nD .)1(2-nE .n2.积矩相关系数的计算公式是 A .xy xy yyl r l l =B.r =C.l r =D.l r =E.r =3. 直线相关分析中,若0.05,||r r ν>,则可认为两变量之间 A. 有一定关系B. 不存在直线相关关系C. 有直线相关关系D. 有直线相关关系,且为正相关E. 有直线相关关系,且为负相关 4.下列指标中可正可负的是 A .F 统计量 B .2χ统计量 C .21()nxx i l x x ==-∑D .1()()nxy i l x x y y ==--∑E .21()nyy i l y y ==-∑5.研究18岁女大学生体重和肺活量的关系时,表达正确的无效假设是 A .体重与肺活量无关联 B .体重与肺活量有关联 C .体重与肺活量有直线关系 D .体重与肺活量有因果关系 E .体重与肺活量无因果关系 6.计算Pearson 列联系数的公式为 A.l r =B .nr +=22χχC .22χχnr +=D .12-=n r χE .nr +=22χχ7.某放射科医师收集脑外伤患者30例,观察脑出血直径和病人昏迷的程度(轻度、中度、重度),欲分析昏迷程度是否与病灶大小有关,可进行 A .Pearson 相关分析 B .Spearman 秩相关分析 C .两小样本比较的t 检验 D .方差分析 E .2χ检验8.对两个分类变量的频数表资料作关联性分析,可用 A .积矩相关或等级相关B .积矩相关或列联系数C .列联系数或等级相关D .积矩相关E .等级相关9.两组数据分别进行直线相关分析,对1r 进行假设检验得到P <,对2r 进行假设检验,得到P <,可以认为A .第一组的两个变量关系比第二组密切B .第二组的两个变量关系比第一组密切C .更有理由认为第一组的两个变量之间有直线关系D .更有理由认为第二组的两个变量之间有直线关系E .两组变量关系同样密切四、综合分析题1.为研究某病成年男性患者血浆清蛋白含量与血红蛋白含量的关系,某医生测得10名患者血浆清蛋白含量(g/L)及血红蛋白含量(g/L)见表13-2所示,试分析二者是否有关联。
两变量关联性分析
![两变量关联性分析](https://img.taocdn.com/s3/m/36692c66cf84b9d528ea7a9a.png)
线性相关分析的步骤
1. 绘制散点图
凝血酶时间(秒)
18 17 16 15 14 13 12
0.5
0.7
0.9
1.1 1.3
凝血酶浓度(毫升)
图1 例11-1中数据的散点图
2. 计算相关系数
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2
lXX lYY
二 秩相关
适用条件:
①资料不服从双变量正态分布而不宜作积差 相关分析;
②总体分布型未知,一端或两端是不确定数 值(如<10岁,≥65岁)的资料;
③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
2. 计算公式
研究目的:分析两个变量之间有无相关关系 相关系数: (linear correlation coefficient)
描述两变量间线性相关的密切程度 和相关方向的统计量
简单线性相关
当一个变量X由小到大,另一个变量Y亦 相应地由小到大(或由大到小),两变量的 散点图呈直线趋势,那么这两个变量之间有 线性关系。分析这种线性关系的理论和方法, 统称为直线相关或线性相关。
受H1 ,认为凝血酶浓度与凝血酶时间之间存在负相关。 此结果与查表的结果是一致的。
(二)查表法
• 查 r 界值表(附表15)
n2
线性相关中应注意的问题
• 1.样本的相关系数接近零并不意味着两变量 间一定无相关性.
• 2.一个变量的数值人为选定时莫作相关. • 3.出现异常值时甚用相关. • 4.相关未必真有内在联系. • 5.分层资料盲目合并易出假象.
医学统计学 -第11章 两变量关联性分析
![医学统计学 -第11章 两变量关联性分析](https://img.taocdn.com/s3/m/4c5255c8f5335a8103d2202e.png)
为负:负相关 |r|=1:完全相关
❖ r的正负号表示线性相关的方向 ❖ r绝对值的大小表示线性相关的密切程度,越接近±1, 其线性密切程度越高;越接近0,线性密切程度越低
例11.2 计算例11.1中基础代谢Y与体重X之间样本 相关系数。
由例11-1得
三、相关系数的统计推断
(一)假设检验方法: 查表法
按自由度υ=n-2查r界值表,如果样本相关系数r大于界值,
则具有统计学意义,线性相关关系存在
t检验法
tr
r0 sr
υ=n-2
sr
1 r2 n2
例11-3 继例11-2中算得r=0.964后,试检验相 关是否具有统计学意义
H0 : 0 ,H1 : 0 , =0.05
(x x)2 1144.5771 (y y)2 4645447.0121 (x x)(y y) 70303.2329
r
(x x)(y y)
(x x)2 (y y)2
70303.2329
1144.5771 4645447.0121
0.964
即基础代谢与体重之间的相关系数为0.964,呈正相关, 说明基础代谢随体重的增加而升高
查表法
本例 n=14,r=0.964,按υ=14-2=12,查r界值表,得 r0.05,12=0.532
因此P<0.05,即相关系数有统计学意义,可以认 为基础代谢与体重之间存在线性正相关,且相关系 数为0.964
t检验法
本例 n=14,r=0.964,代入公式
t 0.964 12.559 1 0.9642 14 2
正相关(positive correlation) 散点呈直线变化趋势 Y随X的增加而有增加的趋势 当散点全部在一条直线上时, 为完全正相关
两变量关联性分析
![两变量关联性分析](https://img.taocdn.com/s3/m/163770006bd97f192279e95f.png)
N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
卫生统计学两变量关联性分析
![卫生统计学两变量关联性分析](https://img.taocdn.com/s3/m/06031fc50066f5335b8121c0.png)
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和相关方向的统 计指标。
N
(x x)(y y)
i1
, 为总体相关系数
N
N
(x x)2(y y)2
i1
i1
.
13
在实际工作中,我们常常只能获得样本的信息或有关
r 数据,据此我们只能计算样本相关系数,记为 。
.
21
(二) 采用t 检验,实际应用中使用得比较普遍
r0 tr Sr 其中,Sr为样本相关系数r的标准误
Sr
1 r2 n2
H0成立时,tr服从自由度为 n 2的t分布
.
22
例3 在例2算得r=0.875后,试检验相关是否有统计学意 义。
①. 建立假设 H0:ρ=0 H1:ρ≠0
②. 确定检验水准 α=0.05
1 1
0.6574
ρ的上限:r
e2z e2z
1 1
e ( 21.9198 ) e ( 21.9198 )
1 1
0.9579
故体重与双肾体积总体相关系数的95%置信区间为 (0.6574,0.9579)
.
28
四、线性相关应用中应注意的问题
1. 样本的相关系数接近零并不意味着两变量间一定 无相关性。 通常应先绘出样本值的散点图,利用散点图可直观 地判断两变量之间是否具有线性联系。
Cramer V系数和Pearson列联系数来度量。
2
n
V 2 , k min(R,C)
n(k 1)
Pearson列联系数r
2 2 n
.
44
这三个系数值越接近于0,说明两个分类变量之间几乎
《医学统计课件:双变量分析》
![《医学统计课件:双变量分析》](https://img.taocdn.com/s3/m/d991374d854769eae009581b6bd97f192279bfd5.png)
3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估
统计学:两变量关联性分析
![统计学:两变量关联性分析](https://img.taocdn.com/s3/m/cda04a12ba1aa8114431d991.png)
l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6
2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82
10两变量关联性分析
![10两变量关联性分析](https://img.taocdn.com/s3/m/11e6e2c73c1ec5da51e2707b.png)
线性相关(linear correlation)
可见两个变量间的关系并不是函数式的确定关 系——非函数式确定性关系
总的来说,体重轻者基础代谢低,重者基础代谢 高,二者变化趋势呈正向关系——正相关
各点的态势趋近一条直线呈线性——线性相关 线性相关(linear correlation),又称简单相关,
人的肺活量往往随着胸围的增加而增加,二者 间是否有联系?
举重运动员所能举起的最大重量是否与他的体 重有关?
在水碘含量不同的地区,甲状腺肿大的患病情 况不太相同,它们间是否有关联?
相关关系与确定性关系
所谓确定性关系是指两变量间的关系是函数关系:已知一个变量的值, 另一个变量的值可以通过这种函数关系精确计算出来。
第十章:两变量 关联性分析
问题的提出
前面的章节已经讨论的统计学方法着重于比较单 个变量的组间差别(例如:均数的差别、率的差别、 构成比的差别、中位数的差别等)
但是在医学研究中,还需要对两个随机变量间的 关系进行量化研究
问题的提出
人的体重往往随着身高的增加而增加,算方法如下:
rs
l xy lxx l yy
将X、Y变量所对应的秩次作为新变量,代入上述公式
计算器求得:
56.5
rs
-0.741 82.5 70.5
秩相关系数的假设检验
因此样本资料的秩相关系数为-0.741,意味着两变量间可 能存在负关联
rs来自10个个体值组成的样本,存在着抽样误差,故计算 出rs后,需作的假设检验
n
( Xi X )(Yi Y )
r
i 1
0.964
n
(
Xi
X
)2
n
(Yi
双变量相关性分析方法
![双变量相关性分析方法](https://img.taocdn.com/s3/m/fb1ca6fe370cba1aa8114431b90d6c85ec3a88c8.png)
双变量相关性分析方法
双变量相关性分析方法是一种通过检验两个变量之间的相关性,来研究它们之间是否存在某种关联关系的统计方法。
它可以帮助我们了解两个变量之间的关系密切程度,从而对变量进行评估和预测。
双变量相关性分析的常用方法有:
1. 相关系数:相关系数是衡量变量之间关系强弱的指标,它是一个介于-1到+1之间的数字,当相关系数等于0时表明两个变量之间没有任何相关性,当相关系数大于0时表明两个变量之间存在正相关,当相关系数小于0时表明两个变量之间存在负相关。
2. 回归分析:回归分析是一种用来预测一个变量随另一变量变化情况的方法,它可以用来研究变量之间的关系及影响程度。
3. 卡方检验:卡方检验是一种用来检验两个变量之间关系的方法,它可以用来比较不同变量之间的关联情况,从而得出两个变量之间的相关度。
4. t检验:t检验是一种用来检验某一组数据是否服从正态分布的方法,它可以用来比较两组数据之间的差异情况,从而得出它们之间的相关性。
【医学统计学】8双变量关联性分析
![【医学统计学】8双变量关联性分析](https://img.taocdn.com/s3/m/09769a91336c1eb91a375ddd.png)
列联表的关联性分析
【分析】 (1)该资料是计数资料,是两个定性变量交叉分
类的列联表资料。 (2)完全随机设计中两个样本是独立的。 (3)两个分类变量的关联性分析,先进行 检验,
然后计算关联系数,分析两分类变量关联的程度。
2
列联表的关联性分析
表12-4 吸烟习惯和慢性支气管炎情况
吸烟习惯 吸烟 不吸烟
图12-2 16名大学一年级男生身高和前臂长散点图
直线相关
r x x y y x x 2 y y 2
没有单位,取值介于-1与1之间 相关方向用正负号表示 相关的密切程度用绝对值表示
直线相关
计算例12-1中身高与前臂长间相关系数 计算基础数据,并列成相关系数计算表
求出 、x 、y 、x2 、y2 (xy见表12-2)
xy
直线相关
r
264
0.924
974 83.75
直线相关
相关系数的假设检验
查表法
根据自由度 n 2 ,查附表14,将所得 r 值与 某概率水平(如0.05)对应的 r 界值相比较,若
r 值小于 r 界值,则P大于相应的概率水平,反
之,P小于相应的概率水平,然后作出推断。
直线相关
相关系数的假设检验
177
170
46
42
41
47
49
45
48
43
43
46
44
42
45
43
直线相关
【问题12-1】 该资料属于哪种类型?有何特点? 利用资料分析两变量的关联性时,应采用何种统 计方法?
【分析】 两变量均属于定量资料 。 可以探讨它们之间的相关关系,根据数据
特征采用直线相关分析或等级相关分析。
CH11
![CH11](https://img.taocdn.com/s3/m/a84b3b126edb6f1aff001f7c.png)
思考与练习
7. 思考题 (1)Pearson积矩相关系数 经检验无统计学意义,是否 积矩相关系数r经检验无统计学意义 积矩相关系数 经检验无统计学意义, 意味着两变量间一定无关系? 意味着两变量间一定无关系? 答:对满足二元正态分布的随机样本,若直接计算 Pearson积矩相关系数且经检验无统计学意义,并不意味着 两变量间一定无关系,若两者之间是非线性关系的话,其 Pearson积矩相关系数也会无统计学意义,因此在确定两变 量间有无线性关系时应先绘出散点图进行直观考察后再作 出判断. (2)Pearson积矩相关系数 经检验有统计学意义,P值 积矩相关系数r经检验有统计学意义 积矩相关系数 经检验有统计学意义, 值 很小,是否意味着两变量间一定有很强的线性关系? 很小,是否意味着两变量间一定有很强的线性关系? 答:Pearson积矩相关系数r经检验有统计学意义,且P值 很小,并不意味着两变量间一定有很强的线性关系.参看 本章第一节线性相关应用中应注意的问题中的2,3,4,5 点.
χ2 χ2 +n
关于 Pearson 列联系数是否为零的检验等价于 Pearson χ 2 检验.
思考与练习
1.对某省 8 个地区水质的碘含量及其甲状腺肿的患病率作了调查后得到表 11-13 的数据,试问不同地区的甲状腺肿的患病率高低与本地区水质的碘含量有无关联?
第十章 两变量相关性分析
![第十章 两变量相关性分析](https://img.taocdn.com/s3/m/aeab7b3d0975f46526d3e10a.png)
二、相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXXlYY
XY ( X )(Y) / n
[ X 2 ( X )2 / n][Y 2 (Y )2 / n]
式中 (X X )2 为X的离均差平方和, 用 lXX 代替;
按自由度v=n-2查相关系数界值表(附表12,P425)。 2. t 检验 (n>50)
公式 t r 0 = r
,υ=n-2
Sr
1 r2
n2
Sr---- 相关系数的标准误 求得 t 值后查t 界值表得P值。
本例n=21,故采用查表法:按v= n-2 = 21-2 = 19 查附表12可知, r0.05/ 2,19 0.433
0.81
16
4.60
0.85
17
3.58
0.83
18
3.57
0.84
19
3.49
0.73
20
3.63
1.27
21
3.89
0.78
计算相关系数的一般步骤为:
1. 绘制散点图。 (见图10-2)。
散点图显示两 变量有直线趋势
图10-2 肝癌病人血清胆固醇与甘油三酯关系散点图
2. 计算基础数据,并列出相关系数计算表,
病人序号
血清胆固醇
甘油三脂
1
3.89
1.71
2
3.41
1.01
35.700.Fra bibliotek746.84
1.78
5
2.93
1.25
6
3.98
0.70
7
4.23
1.33
第十一讲卫生统计学两变量关联性分析
![第十一讲卫生统计学两变量关联性分析](https://img.taocdn.com/s3/m/667570a6647d27284a73518b.png)
第一节 线性相关
一、线性相关的概念
线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性 质可由图11-2散点图直观的说明。
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。例 如,每人的身高和体重。然后在直角坐标系 上描述这些点,这一组点集称为散点图。
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
医学上,许多现象之间也都有相互联系,例如:身高与体 重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不 相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之 间的关系密切得多,而体重和身高的关系则介与二者之间。 另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝 病毒和乙肝之间是因果关系;但是,有的现象之间因果不清, 只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能 说有因果关系。相关与回归就是用于研究和解释两个变量之 间相互关系的。
为了研究父亲与成年 儿子身高之间的关系,卡 尔·皮尔逊测量了1078对父 子的身高。把1078对数字 表示在坐标上,如图。用 水平轴X上的数代表父亲 身高,垂直轴Y上的数代 表儿子的身高,1078个点 所形成的图形是一个散点 图。它的形状象一块橄榄 状的云,中间的点密集, 边沿的点稀少,其主要部 分是一个椭圆。
相关系数的计算公式:
r
( X X )( Y Y ) l XY
( X X ) 2 (Y Y ) 2
l XX l YY
第12章双变量关联性分析
![第12章双变量关联性分析](https://img.taocdn.com/s3/m/37e4f23024c52cc58bd63186bceb19e8b8f6eca2.png)
21332.38 366926.6
r
16
0.8343
8548.30
3662 16
53813.56
926.62 16
2024/8/3
28
二、相关系数的假设检验
r≠0原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
查表法,按v=n-2查r界值表,做出推断结论
t检验
tr
1 r2 n2
2024/8/3
31
【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0 H1 : 0 0.05
2024/8/3
32
2.计算检验统计量 tr 值
r0
0.8343
tr
1 r2
5.6623 1 0.83432
n2
16 2
2024/8/3
33
3.确定P值,做出统计推断
• 在大量的医学问题研究中常常还要分析两个随机 变量之间的关系,如体重与肺活量、年龄与血压 之间是否存在线性联系,此联系是正向还是负向 以及联系的程度如何?
2024/8/3
4
• 如果两个连续型变量 X和 Y 都随机变动且不分主次 ,可通过线性相关(linear correlation)分析来估计 它们之间可能存在的线性联系的方向与程度。
• 前面讨论的线性相关用于描述两个随机变 量X与Y之间线性联系的程度,结论所反映 的是它们相互之间的关系,两变量并无主 次之分
2024/8/3
39
• 随着所探索问题的深入,研究者通常更感兴趣于 其中的一个变量如何定量地影响另一变量的取值 :例如医学研究中常需要从某项指标估算另一项 指标,如果这指标分别是测量变量X和Y,我们希 望由X推算Y的值。
两变量关联性分析
![两变量关联性分析](https://img.taocdn.com/s3/m/4653f103f78a6529647d53b5.png)
170例某病患者的治疗效果资料 疗效 患者年龄(岁) 无效 好转 治愈 <18 5 32 20 18~ 30 38 10 50~ 15 10 10 合计 50 80 40
合计 57 78 35 170
两变量关联性分析
43
170例某病患者的治疗效果资料 患者年龄 <18 18~ 50~ 合计 累积频数 秩次范围 疗效 无效 5 30 15 50 50 1~50 好转 32 38 10 80 130 51~130 治愈 20 10 10 40 170 131~170 合计 累积频数秩次范围 57 78 35 170 57 135 平均秩次
两变量关联性分析
14
2013-2-2
(二)线性相关分析步骤
绘制散点图
散点图呈线性趋势时,计算样本相关系数
对样本相关系数进行假设检验
相关系数有统计学意义时,解释相关系数的统计学意义
两变量关联性分析
16
2013-2-2
(二)线性相关分析步骤
对样本相关系数进行假设检验 由样本的相关系数不为零,推断总体的相关系数是 否为零。
绘制散点图(scatter plot)
将其中一个变量作为X轴变量,另一个变量作为Y 轴变量,以一一对应的(X,Y)绘制散点。
例如:教材195页例11-1(散点图图11-1)
注意观察散点的变化方向和密集程度
医学现象中,常见的散点图见教材196页
正相关、负相关、曲线相关、零相关
两变量关联性分析
8
2013-2-2
二、秩相关
秩相关系数假设检验
查表法(查rs界值表)
t检验
t
rs 0 1 rs n2
2
n2
两变量关联性分析
10两变量关联性分析
![10两变量关联性分析](https://img.taocdn.com/s3/m/201fb0721ed9ad51f01df23b.png)
三、线性相关系数的统计推断
r是样本相关系数,它是总体相关系数ρ的估计值。要
判断X、Y间是否有相关关系,就要检验r是否来自总体相关 系数ρ为零的总体。 1
r1
== ?
2
r2
== ?
对相关系数的假设检验方法有两种:
1、查表法
2、采用t检验
P480
附表13
检验统计量为:
r 0 r t , n 2 2 Sr 1 r n2
ρ的置信区间:
1.对r进行z变换 1 1 r e2 z 1 z ln( ) r 2z 2 1 r e 1 1 1 1 2. z ~ N( ln( ), ) 2 1 n 3 1 1 3.计算z的总体均数 ln( )的1 置信区间 2 1 z z (z , z ) n3 n3 4.将z的置信区间转换成的置信区间 e2 z 1 将第三步置信区间上下限分别代入到 r 2 z e 1
p
n
2
82.5
lqq
q2
q
n
2
70.5
l pq rs
p q pq 56.5
n 56.5 0.741 82.5 70.5
l pq l pplqq
第二节 秩相关
一、秩相关的概念及其描述 二、秩相关系数的统计推断
第十章
两变量关联性分析
主讲人:武建辉
前面章节中讲述了单一数值变量的统计分 析方法,但在医学科学研究中,常要分析变量间 的关系,如年龄与血压、身高与体重,回归与相 关就是研究这种关系的统计方法,属于双变量 分析范畴。
第一节 线性相关
一、线性相关的概念及其统计描述 例10-1 在某地一项膳食调查中,随机抽取了14名40-60岁的健 康妇女,测得每人的基础代谢(kj/d)与体重(kg)数据,见表10-1. 据此数据如何判断这两项指标间有无关联 表10-1 14名中年健康妇女的基础代谢与体重的测定值
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章广东医学院公共卫生学院统计与流行病学教研室黄志刚•前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。
•在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?•如果两个连续型变量X和Y 都随机变动且不分主次,可通过线性相关(linear correlation)分析来估计它们之间可能存在的线性联系的方向与程度。
•两个随机变量X 和Y ,可以是对同一观察单位同时测量X 与Y 的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。
•为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20 名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如下表所示:•考察相关性最简单而直观的办法是散点图(scatter plot)•以两条互相垂直的座标轴分别表示两个变量,n 对观察值对应于座标平面的n 个点,便构成一幅散点图。
散点图第一节直线相关一、概述概念又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法应用条件要求两个变量均服从正态分布(双变量正态分布)相关系数的意义及计算又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标r表示样本相关系数,ρ表示总体相关系数•没有单位,取值介于-1与1之间•相关方向用正负号表示•相关的密切程度用绝对值表示()()()()22xyxx yyl x x y y r l l x x y y --==--∑∑∑•-1 ≤ r ≤1r 值为正——正相关为负——负相关|r|=1 ---完全相关r=0 ---零相关相关关系密切程度的判断低度相关中度相关高度相关4.0≤r 7.04.0<<r 7.0≥r相关关系图示变量相关关系的类型•【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。
表12-1 2000年某地16名7岁男孩体重与胸围资料编号12345678 910111213141516体重(kg)24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0胸围(cm)61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0散点图计算例12-1中体重与胸围间相关系数●计算基础数据,并列成相关系数计算表●求出、、、、(见表12-2)●代入公式,求出相关系数值∑x ∑y ∑2x ∑2y ∑xy r表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表编号(1)x体重(kg)(2)y胸围(cm)(3)x2(4)=(2)2y2(5)=(3)2xy(6)=(2)×(3)124.561.0600.253721.001494.50 227.062.0725.003844.001674.00 323.560.0552.253600.001410.00 428.564.0812.254096.001824.00………………1520.258.0408.043364.001171.60 1621.057.0441.003249.001197.00合计366.0926.68548.3053813.5621332.38∑x∑y∑2x∑2y∑xy•x 的离均差平方和•y 的离均差平方和•x 与y 间的离均差积和()()222yy y l y y yn=-=-∑∑∑()()222xx x l x x xn=-=-∑∑∑()()()()xy x y l x x y y xy n=--=-∑∑∑∑22366926.621332.38160.8343366926.68548.3053813.561616r ⨯-==⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭()()()()22xy xx yyl x x y y r l l x x y y --==--∑∑∑r ≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0t 检验查表法,按v=n-2查r 界值表,做出推断结论二、相关系数的假设检验0r rr t S -=•查表法–根据自由度 =n-2,查附表14,将所得r 值与某概率水平(如0.05)对应的r界值相比较,若r值小于r 界值,则P大于相应的概率水平,反之,P小于相应的概率水平,然后作出推断•t 检验方法2-=n ν0r rr t S -=212--=n r S r【检验步骤】1. 建立检验假设,确定检验水准0:0Hρ=1:0Hρ≠05.0=α2.计算检验统计量值r t 6623.52168343.018343.021022=--=---=n r r t r3.确定P值,做出统计推断•按自由度ν=n-2=16-2=14 ,查附表4,得P<0.001,按α= 0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为2000年该地7岁男孩体重与胸围之间有相关关系总体相关系数ρ的区间估计*必须先对r 作z 变换 r z 1tanh-= 或 )1()1(ln21r r z -+=公式中tanh 为双曲(hyperbolic)正切函数;tanh -1为反双曲正切函数,r 的取值范围 -1<r <1,相应的z 值范围 -∞< z < +∞。
按正态近似原理,z 的1-α可信区间为:/2/2(3,3)z u n z u n αα--+-然后z r tanh = 或 1122+-=z ze e r ,将z 可信区间变换回到r 尺度。
决定系数的意义•决定系数即相关系数r 的平方r2–它反映应变量y 的总变异中可用回归关系解释的比例–反映回归直线的拟合程度,即回归方程估计可靠程度的高低。
取值范围在[ 0 , 1 ] 之间r 2 1,说明回归方程拟合的越好r 2 0,说明回归方程拟合的越差总回SS SS l l l l l lr yyxx xyyyxx xy===/222相关分析应用中应注意的问题一、散点图的重要性010********60020406080住院天数X预后指数Y二、变量取值非随机时莫作相关•某些医学问题研究中,一个变量随机变动,另一个变量的数值却是人为选定的。
–研究药物的剂量反应关系,人们选定n 种剂量,观察每种剂量下动物的反应;–摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。
三、对相关的解释•相关分析中对变量的选择及统计结果的解释一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。
•例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义(r=0.89),难道两者真有内在联系?•时间变量与两者的潜在联系造成了子高与树高相关的假象。
•即使专业上有理由作相关,两变量的地位也是平等的,所揭示的可能仅仅是一种统计学上的关联性,不一定是因果联系。
偶然联系:树高---身高(专业常识判断)伴随联系:兄弟身高因果联系:父子身高四、慎重合并分层资料第二节等级相关(秩相关,Spearman相关)一、适用条件不服从双变量正态分布而不宜作积差相关分析(Pearson相关)总体分布型未知开口型或半开口型的资料原始数据是用等级表示二、方法步骤•编秩、求秩次的差值d •计算等级相关系数:d 每对观察值x i ,y i 所对应的秩次之差 n 为对子数r s 样本秩相关系数)1(6122--=∑n n dr s表12-3 肝癌死亡率与黄曲霉毒素相对含量黄曲霉毒素相对含量肝癌死亡率(1/10万)d2d 乡编号(1) x(2)秩次(3)y(4)秩次(5) (6)=(3)-(5) (7)=(6)21 0.7 1 21.5 32 42 1.0 2 18.9 2 0 03 1.7 3 14.4 1 2 44 3.7 4 46.5 7 -3 95 4.0 5 27.3 4 1 16 5.1 6 64.6 9 -3 97 5.5 7 46.3 6 1 18 5.7 8 34.2 5 3 99 5.9 9 77.6 10 1 110 10.0 10 55.1 8 2 4 合计-----42746.0)110(1042612=-⨯⨯-=s r )1(6122--=∑n n dr ssr ()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑()∑-=12/3t t T T y x 或当x 或y 中相同秩次较多时,宜对进行校正:t 为x 或y 中相同秩次的个数是总体等级相关系数的估计值当时,可查界值表(p350)作出判断s r s ρ50≤n 1s z r n =-存在着抽样误差,故计算出后,需作是否为0的假设检验:当n >50时,可用正态近似法进行检验检验统计量z 的计算公式为:s ρs r s r补充例题407.0)112(125.40261)1(615.402122222=-⨯-=--===∑∑n n d r d n s相同秩次较多时r s 的校正当X 及Y 中,相同秩次均较多( 均超过n ×25%)时,用下式进行校正:式中,T x (或T Y )=Σ(t 3-t )/12;t :X (或Y )中相同秩次的个数()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑计算分析过程H 0:ρs =0,即血小板数与出血症状无相关关系H 1:ρs ≠0,即血小板数与出血症状有相关关系α=0.05分别依实测值X i ,Y i 从小到大编秩求每对数据秩次之差d因出血症状Y 中,相同秩次较多,需计算校正r`s 值T X =0T Y =Σ(t 3-t)/12=[(63-6)+(23-2)+( 23-2)]/12=18.5计算校正相关系数:依n=12,查r s 界值表,得0.10>P >0.05,按α=0.05 水准,不拒绝H 0,尚不能认为血小板数与出血症状有相关关系。
[][][]()[]()()[]()[]5095.05.1826/121206/12125.4025.1806/121226)(26)()(6)(3333323'=⨯-----+--=-----+--=∑Y X Y X s T n n T n n d T T n n r第三节列联表的关联性分析•【例12-4】某研究者欲研究幽门螺杆菌感染(HP)与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果家庭成员有胃病史组182例,HP阳性125例;家庭成员无胃病史组417例,HP阳性198例。