双变量关联性分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三章双变量关联性分析
在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。这类关系在统计学上称为两个随机变量之间的关联性。如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。
第一节直线相关
一、直线相关的概念及其统计描述
例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。据此回答两变量是否有关联?其方向与密切程度如何?
表13.1 15名正常成年人体重和双肾体积的测量值
编号体重(kg) 双肾体积(ml)
1 43 217.22
2 74 316.18
3 51 231.11
4 58 220.96
5 50 254.70
6 65 293.84
7 54 263.28
8 57 271.73
9 67 263.46
10 69 276.53
11 80 341.15
12 48 261.00
13 38 213.20
14 85 315.12
15 54 252.08
初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测
点的分布情况,称为散点图(scatter plot),如图13.1所示。
体重(kg) x
图13.115名正常成年人体重和双肾体积的散点图
由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。
(a) (b) (c) (d)
图13.2 常见的散点图
图13.2(a)、(b)中散点近似呈椭圆形分布,其变化趋势接近一直线,其中图13.2(a)中两变量同时增大或减小,变化趋势同向,称为正相关(positive correlation)。图13.2(b)中一个变量随着另一个变量的增大而减小,变化趋势相反,称为负相关(negative correlation)。如全部数据点恰好散布在一条直线上,称为完全相关,这种特殊情况在实际医学研究中并不存在。图13.2(c)中各点总的趋势杂乱无章或大致呈圆形散布,则该两变量间无相关,也称零相关(zero correlation)。图13.2(d)中各点散布也非直线趋势,亦属无相关,由于统计学中提到的相关通常是指直线相关,故无相关是指无直线关系,但可能存在非直线相关。
二、相关系数的意义及计算
双
肾
体
积
(
m
l
)
y
定量描述两个变量间直线关系的方向和密切程度的指标,称为直线相关系数(linear correlation coefficient),又称Pearson积矩相关系数(Pearson product moment coefficient),其公式为:
()()
x x y y
l
r
--
å
==(13.1)
=
相关系数r没有单位,取值范围在[1,1]
-之间,其正负表示两变量间直线相关的方向,大于0为正相关,小于0为负相关,等于0为零相关。相关系数的绝对值大小表示两变量间直线相关的密切程度,绝对值越接近于1,说明相关密切程度越高;绝对值越接近于0,说明相关密切程度越低。
现结合图13.1解释相关系数的含义。经横纵坐标上x与y处两条相互垂直的直线可将此图分为4个象限,若两变量呈正相关,多数数据处于第一、三象限,此时式(13.1)的分子为正数,0
r>;若两变量呈负相关,多数数据处于第二、四象限,此时式(13.1)的分子为负数,0
r<。其中一个极端是所有数据均位于经过点(x,y)的直线上,即全部数据点要么都在第一、三象限,要么都在第二、四象限,此时式(13.1)的分子各项的正负号完全相同,相加后得到其最大或最小值,1
r=或1
r=-,分别对应于完全正相关或完全负相关;另一个极端是所有数据围绕点(x,y)成圆形均匀分布在4个象限内,此时式(13.1)的分子各项相加后正负号相互抵消,分子为0,0
r=,即零相关。
通过以上解释可知,式(13.1)中位于分子的离均差乘积和(
xy
l)可反映两变量直线相关的方向和密切程度。如同在单变量描述中,用离均差平方和的平均值即方差来反映数据的离散程度,以消除样本含量不同的影响一样,可将两变量的离均差乘积之和取平均,得到样本协方差,以便不同样本含量的问题比较其相关性。协方差用符号Cov表示,计算公式为:
(,)
1
xy
l
Cov x y
n
=
-
(13.2)
协方差的取值大小与x、y的量纲有关,不同实际问题中的协方差不可直接比较。为了消除量纲的影响,将两变量分别进行标准化(每个观察值减去均数再
除以其标准差)后再计算协方差,使之成为无单位的系数,便于不同问题进行比较。如此得到标准化的协方差,即相关系数的另一种形式:
(,)
x y
Cov x y r S S =
(13.3)
当上式右端分别为总体协方差和总体标准差时(其各自分子除以n 而非
1-n ),左端便是总体相关系数,习惯上记为ρ。若ρ≠0,称两总体有直线相关关系;若ρ=0,则称两总体无直线相关关系。
例13.2 计算例13.1中体重与双肾体积之间的样本相关系数。 由式(13.1)分别算出
22()/2555.733xx l x x n =-=∑∑
22()/20270.495yy l y y n =-=∑∑
()/6301.038xy l xy x y n =-=∑∑∑
0.875l r =
=
说明两变量间呈正相关,双肾体积随体重增加而增大,但需进行假设检验以推断总体上这种相关关系是否存在。
三、相关系数的统计推断
用样本计算出来的相关系数r 是一个样本统计量,存在抽样误差,需要对总体相关系数ρ是否为0作假设检验。假定随机变量x 和y 均服从正态分布,可用以下方法进行推断:
1. t 检验
r r
r t S -=
(13.4) 式中, r S 为样本相关系数r 的标准误,计算公式为:
2
12
--=n r S r (13.5)
当0H 成立时, r t 服从自由度为2-=n ν的t 分布。 2. 查表法
根据自由度2-=n ν,查相关系数界值表(附表14),||r 越大,P 值越小;||
r