双变量关联性分析

合集下载

卫生统计学两变量关联性分析

卫生统计学两变量关联性分析

.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设

第13章思考与练习

第13章思考与练习

第十三章双变量关联性分析【思考与习题】一、思考题1.两变量间的关联性是否可解释为因果关系2.2⨯2列联表的关联性分析与两样本率比较的2χ检验有何不同3.相关系数r经假设检验有统计学意义,且得到的P值很小,是否表示两变量间一定有很强的直线关系4.简述Pearson积矩相关与Spearman秩相关的区别与联系。

二、案例辨析题为研究年龄与牙齿AKP酶反应活性之间的关系,某医生在其接诊的患者中随机抽取281例,按年龄(岁)分为三组进行观测,测量各患者牙齿的AKP酶反应活性,如表13-1所示。

问年龄与牙齿AKP酶反应活性之间有无关系表13-1 281例患者年龄与牙齿AKP酶反应活性的分布年龄AKP酶反应活性合计—+++<31517365831~234549051~249712133合计31148102 281按照R×C表的2χ检验结果,得2χ=,005.0<P,故按α=水准,拒绝H,可认为不同年龄患者的AKP酶反应活性不同,两者之间有关系。

以上分析正确吗三、最佳选择题1.Pearson积矩相关系数的假设检验,其自由度为A.1-nB.2-nC .12-nD .)1(2-nE .n2.积矩相关系数的计算公式是 A .xy xy yyl r l l =B.r =C.l r =D.l r =E.r =3. 直线相关分析中,若0.05,||r r ν>,则可认为两变量之间 A. 有一定关系B. 不存在直线相关关系C. 有直线相关关系D. 有直线相关关系,且为正相关E. 有直线相关关系,且为负相关 4.下列指标中可正可负的是 A .F 统计量 B .2χ统计量 C .21()nxx i l x x ==-∑D .1()()nxy i l x x y y ==--∑E .21()nyy i l y y ==-∑5.研究18岁女大学生体重和肺活量的关系时,表达正确的无效假设是 A .体重与肺活量无关联 B .体重与肺活量有关联 C .体重与肺活量有直线关系 D .体重与肺活量有因果关系 E .体重与肺活量无因果关系 6.计算Pearson 列联系数的公式为 A.l r =B .nr +=22χχC .22χχnr +=D .12-=n r χE .nr +=22χχ7.某放射科医师收集脑外伤患者30例,观察脑出血直径和病人昏迷的程度(轻度、中度、重度),欲分析昏迷程度是否与病灶大小有关,可进行 A .Pearson 相关分析 B .Spearman 秩相关分析 C .两小样本比较的t 检验 D .方差分析 E .2χ检验8.对两个分类变量的频数表资料作关联性分析,可用 A .积矩相关或等级相关B .积矩相关或列联系数C .列联系数或等级相关D .积矩相关E .等级相关9.两组数据分别进行直线相关分析,对1r 进行假设检验得到P <,对2r 进行假设检验,得到P <,可以认为A .第一组的两个变量关系比第二组密切B .第二组的两个变量关系比第一组密切C .更有理由认为第一组的两个变量之间有直线关系D .更有理由认为第二组的两个变量之间有直线关系E .两组变量关系同样密切四、综合分析题1.为研究某病成年男性患者血浆清蛋白含量与血红蛋白含量的关系,某医生测得10名患者血浆清蛋白含量(g/L)及血红蛋白含量(g/L)见表13-2所示,试分析二者是否有关联。

11.19双变量关联性分析和直线回归作业

11.19双变量关联性分析和直线回归作业

问题一:某研究者欲比较A 、B 、C 三种方案治疗轻、中度高血压的疗效,将年龄在50~70岁的240例轻、中度高血压患者随机等分为3组,分别采用3种方案治疗。

一个疗程后观察疗效,结果见下表。

采用多样本率比较的2χ检验,得868.132=χ,P <0.005,按0.05α=水准,认为3种方案治疗轻、中度高血压的有效率不全相同。

研究者认为,既然不同方案有不同的治疗效果,则治疗效果与不同的方案之间必定有关联,其关联的程度可用Pearson 列联系数r 来描述,253.0203868.13868.1322=+=+=nr χχ。

你同意该观点吗?请说明理由。

表 3种方案治疗轻、中度高血压的效果方案 有效 无效 合计 有效率(%) A 74 6 80 92.50 B 58 22 80 72.50 C 71 9 80 88.75 合计 2033724084.58问题二:软件结果分析题某研究测量了10名20岁男青年的身高(cm )和前臂长(cm ),结果如下:编 号 1 2 3 4 5 6 7 8 9 10 前臂长x 45 42 44 41 47 50 47 46 49 43 身高y170173160155173188178183180165SSPP 统计分析结果如下:Model SummaryCoefficients(a)**. Correlation is significant at the 0.01 level (2-tailed).结合统计分析结果:(1) x与y的相关系数是多少?并解释其意义。

(2)请写出拟合的回归方程,并解释回归系数的意义。

(3)总体回归系数是否等于零?请结合软件分析结果对回归系数进行假设检验。

问题三:某医生以20岁男青年前臂长(cm)估计身高(cm),建立的直线回归方程为ˆ41.63 2.88=+,相关系数r=-0.21,对相关系数检验的P值为0.001,试问该研究结果y x是否正确,并说明理由。

两变量关联性分析

两变量关联性分析

N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

医学统计学-第9章 关联性分析

医学统计学-第9章 关联性分析
9.2.1 解决什么问题? ⑴统计描述:推断两变量是否有联系?是否
线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:

《医学统计课件:双变量分析》

《医学统计课件:双变量分析》

3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估

统计学:两变量关联性分析

统计学:两变量关联性分析
2
l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6

2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82

(完整版)SPSS双变量相关性分析

(完整版)SPSS双变量相关性分析

数学建模SPSS双变量相关性分析
关键词:数学建模相关性分析SPSS
摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时,要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出评价结果。

本文由数学建模中的双变量分析出发,首先阐述最主要的三种数据分析:Pearson系数,Spearman系数和Kendall系数的原理与应用,再由实际建模问题出发,阐述整个建模过程和结果。

r s=
∑(P i−P ave)(Q i−Q ave)√∑(P i−P ave)2(Q i−Q ave)2
在SPSS中打开数据,点击:分析—>相关—>双变量,打开对话窗口,选择需要分析的两个变量、Spearman秩相关系数分析以及双侧检验。

需要说明两点:
(1)因各体重与各体质数据之间的相关性正负未知,需选用双侧检验;
(2)除了数据满足非正态分布以外,Spearman秩相关系数分析还需要数据分级,以计算秩。

但在SPSS中程序会自动生成秩,无需再手动分级。

注意要保证总体相关系数ρ与样本相关系数r保持一致,还须考虑Sig值。

由数据,Sig<0.5表示接受原假设,即Rho>|r|。

Sig<0.5则拒绝原假设,两者不相关。

而r值则代表了正负相关性,以及相关性大小。

结果见表。

10两变量关联性分析

10两变量关联性分析

线性相关(linear correlation)
可见两个变量间的关系并不是函数式的确定关 系——非函数式确定性关系
总的来说,体重轻者基础代谢低,重者基础代谢 高,二者变化趋势呈正向关系——正相关
各点的态势趋近一条直线呈线性——线性相关 线性相关(linear correlation),又称简单相关,
人的肺活量往往随着胸围的增加而增加,二者 间是否有联系?
举重运动员所能举起的最大重量是否与他的体 重有关?
在水碘含量不同的地区,甲状腺肿大的患病情 况不太相同,它们间是否有关联?
相关关系与确定性关系
所谓确定性关系是指两变量间的关系是函数关系:已知一个变量的值, 另一个变量的值可以通过这种函数关系精确计算出来。
第十章:两变量 关联性分析
问题的提出
前面的章节已经讨论的统计学方法着重于比较单 个变量的组间差别(例如:均数的差别、率的差别、 构成比的差别、中位数的差别等)
但是在医学研究中,还需要对两个随机变量间的 关系进行量化研究
问题的提出
人的体重往往随着身高的增加而增加,算方法如下:
rs
l xy lxx l yy
将X、Y变量所对应的秩次作为新变量,代入上述公式
计算器求得:
56.5
rs
-0.741 82.5 70.5
秩相关系数的假设检验
因此样本资料的秩相关系数为-0.741,意味着两变量间可 能存在负关联
rs来自10个个体值组成的样本,存在着抽样误差,故计算 出rs后,需作的假设检验
n
( Xi X )(Yi Y )
r
i 1
0.964
n
(
Xi
X
)2
n
(Yi

双变量相关性分析方法

双变量相关性分析方法

双变量相关性分析方法
双变量相关性分析方法是一种通过检验两个变量之间的相关性,来研究它们之间是否存在某种关联关系的统计方法。

它可以帮助我们了解两个变量之间的关系密切程度,从而对变量进行评估和预测。

双变量相关性分析的常用方法有:
1. 相关系数:相关系数是衡量变量之间关系强弱的指标,它是一个介于-1到+1之间的数字,当相关系数等于0时表明两个变量之间没有任何相关性,当相关系数大于0时表明两个变量之间存在正相关,当相关系数小于0时表明两个变量之间存在负相关。

2. 回归分析:回归分析是一种用来预测一个变量随另一变量变化情况的方法,它可以用来研究变量之间的关系及影响程度。

3. 卡方检验:卡方检验是一种用来检验两个变量之间关系的方法,它可以用来比较不同变量之间的关联情况,从而得出两个变量之间的相关度。

4. t检验:t检验是一种用来检验某一组数据是否服从正态分布的方法,它可以用来比较两组数据之间的差异情况,从而得出它们之间的相关性。

【医学统计学】8双变量关联性分析

【医学统计学】8双变量关联性分析

列联表的关联性分析
【分析】 (1)该资料是计数资料,是两个定性变量交叉分
类的列联表资料。 (2)完全随机设计中两个样本是独立的。 (3)两个分类变量的关联性分析,先进行 检验,
然后计算关联系数,分析两分类变量关联的程度。
2
列联表的关联性分析
表12-4 吸烟习惯和慢性支气管炎情况
吸烟习惯 吸烟 不吸烟
图12-2 16名大学一年级男生身高和前臂长散点图
直线相关
r x x y y x x 2 y y 2
没有单位,取值介于-1与1之间 相关方向用正负号表示 相关的密切程度用绝对值表示
直线相关
计算例12-1中身高与前臂长间相关系数 计算基础数据,并列成相关系数计算表
求出 、x 、y 、x2 、y2 (xy见表12-2)
xy
直线相关
r
264
0.924
974 83.75
直线相关
相关系数的假设检验
查表法
根据自由度 n 2 ,查附表14,将所得 r 值与 某概率水平(如0.05)对应的 r 界值相比较,若
r 值小于 r 界值,则P大于相应的概率水平,反
之,P小于相应的概率水平,然后作出推断。
直线相关
相关系数的假设检验
177
170
46
42
41
47
49
45
48
43
43
46
44
42
45
43
直线相关
【问题12-1】 该资料属于哪种类型?有何特点? 利用资料分析两变量的关联性时,应采用何种统 计方法?
【分析】 两变量均属于定量资料 。 可以探讨它们之间的相关关系,根据数据
特征采用直线相关分析或等级相关分析。

CH11

CH11
表 11-14 编号 1 2 3 4 5 10 名正常成年男性的血浆清蛋白含量及血红蛋白含量检测结果 血浆清蛋 白含量(x) 35.5 36.5 38.5 37.5 36.5 血红蛋白含 量(y) 119.5 120.5 127.5 126.5 120.5 编号 6 7 8 9 10 血浆清蛋 白含量(x) 35.4 34.5 34.2 34.6 33.5 血红蛋白 含量(y) 118.5 110.5 109.2 108.5 105.3
思考与练习
7. 思考题 (1)Pearson积矩相关系数 经检验无统计学意义,是否 积矩相关系数r经检验无统计学意义 积矩相关系数 经检验无统计学意义, 意味着两变量间一定无关系? 意味着两变量间一定无关系? 答:对满足二元正态分布的随机样本,若直接计算 Pearson积矩相关系数且经检验无统计学意义,并不意味着 两变量间一定无关系,若两者之间是非线性关系的话,其 Pearson积矩相关系数也会无统计学意义,因此在确定两变 量间有无线性关系时应先绘出散点图进行直观考察后再作 出判断. (2)Pearson积矩相关系数 经检验有统计学意义,P值 积矩相关系数r经检验有统计学意义 积矩相关系数 经检验有统计学意义, 值 很小,是否意味着两变量间一定有很强的线性关系? 很小,是否意味着两变量间一定有很强的线性关系? 答:Pearson积矩相关系数r经检验有统计学意义,且P值 很小,并不意味着两变量间一定有很强的线性关系.参看 本章第一节线性相关应用中应注意的问题中的2,3,4,5 点.
χ2 χ2 +n
关于 Pearson 列联系数是否为零的检验等价于 Pearson χ 2 检验.
思考与练习
1.对某省 8 个地区水质的碘含量及其甲状腺肿的患病率作了调查后得到表 11-13 的数据,试问不同地区的甲状腺肿的患病率高低与本地区水质的碘含量有无关联?

第十章 两变量相关性分析

第十章 两变量相关性分析
r ——样本相关系数;ρ ——总体相关系数。
二、相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXXlYY
XY ( X )(Y) / n
[ X 2 ( X )2 / n][Y 2 (Y )2 / n]
式中 (X X )2 为X的离均差平方和, 用 lXX 代替;
按自由度v=n-2查相关系数界值表(附表12,P425)。 2. t 检验 (n>50)
公式 t r 0 = r
,υ=n-2
Sr
1 r2
n2
Sr---- 相关系数的标准误 求得 t 值后查t 界值表得P值。
本例n=21,故采用查表法:按v= n-2 = 21-2 = 19 查附表12可知, r0.05/ 2,19 0.433
0.81
16
4.60
0.85
17
3.58
0.83
18
3.57
0.84
19
3.49
0.73
20
3.63
1.27
21
3.89
0.78
计算相关系数的一般步骤为:
1. 绘制散点图。 (见图10-2)。
散点图显示两 变量有直线趋势
图10-2 肝癌病人血清胆固醇与甘油三酯关系散点图
2. 计算基础数据,并列出相关系数计算表,
病人序号
血清胆固醇
甘油三脂
1
3.89
1.71
2
3.41
1.01
35.700.Fra bibliotek746.84
1.78
5
2.93
1.25
6
3.98
0.70
7
4.23
1.33

第12章双变量关联性分析

第12章双变量关联性分析

21332.38 366926.6
r
16
0.8343
8548.30
3662 16
53813.56
926.62 16
2024/8/3
28
二、相关系数的假设检验
r≠0原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
查表法,按v=n-2查r界值表,做出推断结论
t检验
tr
1 r2 n2
2024/8/3
31
【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0 H1 : 0 0.05
2024/8/3
32
2.计算检验统计量 tr 值
r0
0.8343
tr
1 r2
5.6623 1 0.83432
n2
16 2
2024/8/3
33
3.确定P值,做出统计推断
• 在大量的医学问题研究中常常还要分析两个随机 变量之间的关系,如体重与肺活量、年龄与血压 之间是否存在线性联系,此联系是正向还是负向 以及联系的程度如何?
2024/8/3
4
• 如果两个连续型变量 X和 Y 都随机变动且不分主次 ,可通过线性相关(linear correlation)分析来估计 它们之间可能存在的线性联系的方向与程度。
• 前面讨论的线性相关用于描述两个随机变 量X与Y之间线性联系的程度,结论所反映 的是它们相互之间的关系,两变量并无主 次之分
2024/8/3
39
• 随着所探索问题的深入,研究者通常更感兴趣于 其中的一个变量如何定量地影响另一变量的取值 :例如医学研究中常需要从某项指标估算另一项 指标,如果这指标分别是测量变量X和Y,我们希 望由X推算Y的值。

两变量相关性分析

两变量相关性分析

第十章 两变量关联性分析一、线性相关描述• 问题:两变量间是否存在相关或关联?n身高与体重n尿铅排出量与血铅含量n凝血时间与凝血酶浓度n血压与年龄第一节线性相关例10­1 在某地一项膳食调查中,随机抽取了14名40~60岁的 健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数 据,见表10­1。

据此数据如何判断这两变量间有无关联?表10­1 14例中年健康妇女的基础代谢与体重测量值编号 基础代谢(kJ /d)体重(kg)编号基础代谢(kJ /d)体重(kg)1 4175.6 50.7 8 3970.6 48.62 4435.0 53.7 9 3983.2 44.63 3460.2 37.1 10 5050.1 58.64 4020.8 51.7 11 5355.5 71.05 3987.4 47.8 12 4560.6 59.76 4970.6 62.8 13 4874.4 62.17 5359.7 67.3 14 5029.2 61.5n 散点图 (scatter plot)28003300 3800 4300 4800 5300 5800 303540455055 60 65 70 75体重 (kg)基础代谢 (K J /d a y )图10­1 14例中年健康妇女基础代谢与体重的散点图n 线性相关(linear correlation)n两变量关联类型正相关(positive correlation) 负相关(negative correlation) 线性无关n 线性相关系数 (linear correlation coefficient ,Pearson product moment coefficient)))( ( 的方差 的方差 的协方差 和 相关系数 Y X Y X =()121- - =å = n xx n i i的样本方差 X ( )121- - =å = n y y ni i的样本方差 Y ( )( )11- - - =å = n y y x xni i i的样本协方差 和Y X( )( )11- - - =å = n y y x xn i i i的样本协方差 和Y X( )( )( ) ( )å å å = = = - - - - ==n i ni iiini iyy xxxy y y x x y y x x l l l r 11221样本相关系数的定义n r 是表示两个随机变量之间线性相关强度和方向的统计量,它没有单位 n ­1<r <1n r 的正负值表示两变量之间线性相关的方向n r 的绝对值大小则表示两变量之间线性相关的密切程度例10­2 计算例10­1中基础代谢Y 与体重X 之间的样本相关系数。

两变量关联性分析

两变量关联性分析

170例某病患者的治疗效果资料 疗效 患者年龄(岁) 无效 好转 治愈 <18 5 32 20 18~ 30 38 10 50~ 15 10 10 合计 50 80 40
合计 57 78 35 170
两变量关联性分析
43
170例某病患者的治疗效果资料 患者年龄 <18 18~ 50~ 合计 累积频数 秩次范围 疗效 无效 5 30 15 50 50 1~50 好转 32 38 10 80 130 51~130 治愈 20 10 10 40 170 131~170 合计 累积频数秩次范围 57 78 35 170 57 135 平均秩次
两变量关联性分析
14
2013-2-2
(二)线性相关分析步骤
绘制散点图
散点图呈线性趋势时,计算样本相关系数
对样本相关系数进行假设检验
相关系数有统计学意义时,解释相关系数的统计学意义
两变量关联性分析
16
2013-2-2
(二)线性相关分析步骤
对样本相关系数进行假设检验 由样本的相关系数不为零,推断总体的相关系数是 否为零。
绘制散点图(scatter plot)
将其中一个变量作为X轴变量,另一个变量作为Y 轴变量,以一一对应的(X,Y)绘制散点。
例如:教材195页例11-1(散点图图11-1)
注意观察散点的变化方向和密集程度
医学现象中,常见的散点图见教材196页
正相关、负相关、曲线相关、零相关
两变量关联性分析
8
2013-2-2
二、秩相关
秩相关系数假设检验
查表法(查rs界值表)
t检验
t
rs 0 1 rs n2
2
n2
两变量关联性分析
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单位:相关系数无单位,回归系数有单位
秩相关(等级相关)
rank correlation
问题的提出
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研 究,试分析两者的关联性。资料列于下表。
表 13.2 15 例成年男子的舒张压与夜间最低血氧含量分级测量值
问题
➢ 胸围与肺活量 ➢ 药剂量与疗效 ➢ 凝血酶浓度与凝血时间
双变量关联性分析
关联性分析的目的
推断从某一总体中随机抽取的同一份样 本观测到的两个变量间是否存在关联性, 以及这种关联性的密切程度如何。
主要内容
➢ 直线相关 ➢ 秩相关 ➢ 分类变量的关联性分析
直线相关
linear correlation
编号
(1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
舒张压 x (2) 75 80 80 90 90 90 90 95 95
100 100 110 115 120 125 ―
秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15
120
夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ―
秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5
13.5 13.5 13.5 13.5 120
某医生欲研究血小板浓度和出血症的关系,测 得12名病人的血小板浓度(109/L)和出血症 如下表:
coefficient
):
定量描述两变量间直线关系的方向和密切
程度。
直线相关系数(linear correlation coefficient )
又称Pearson 积矩相关系数(product moment correlation coefficient)
离均差乘积和
r lxy (x x)( y y)
r lxy 0.875 lxx l yy
➢ 相关系数的统计推断(假设检验)
1. t检验
(1)建立假设检验,确定检验水准
H 0 : 0,即体重和双肾体积之间无直线相关关系
H1 : 0,即体重和双肾体积之间有直线相关关系 0.05
(2)计算检验统计量
tr
r 0 Sr
r 0 (1 r2 ) / (n 2)
r0.05,13 =0.514, r0.00=1,103 .760, 法一致。
P,结0.0果01 与 t 检验
注意事项
➢ 进行相关分析前应先绘制散点图
➢ 有无线性关系 ➢ 有无离群点(outlier)
➢ 出现离群点时慎用相关
(a)
注意事项
➢ 线性相关分析要求两个随机变量服从二元 正态分布。
X Y 0
lxxlyy
(x x)2(y y)2
xy x y / n
[( x2 ( x)2 / n][ y2 ( y)2 / n]
相关系数 r 的性质
➢ 1 r 1 ,其正负表示两变量间直线相关 的方向;
➢ r 绝对值大小表示两变量之间直线联系的 密切程度。
具体步骤
➢ 绘制散点图观察两变量间是否有直线趋势。 ➢ 计算相关系数
病例号 血小板数 出血症状
1 120
++
2 130
+++
3 160
4 310
-
5 420
+
6 540
+
病例号 血小板数 出血症状
7
740
-
8
1060
-
9
1260
-10 1230源自-11 1440++
12 2000
-
秩相关的适用条件
➢ 不服从二元正态分布 ➢ 用等级资料表示的原始资料 ➢ 总体分布未知或边界不确定的资料
及 qi 的秩次直接代入直线相关系数的计算公式可得到
Spearman秩相关系数 rs 。
rs
( pi pi )(qi qi ) ( pi pi )2 (qi qi )2
联系
对于服从双变量正态分布的同一组数据,既 可作直线相关分析又可作直线回归分析,相关 系数与回归系数正负号一致。本例:r=0.762 b=2.11
对于同一样本,相关系数与回归系数的假设检 验等价 ,即tb=tr
对于服从双变量正态分布的同一组资料 r = bSx
Sy
用回归可以解释相关: R2 SS回 / SS总 r 2
n2
tr
r 1 r2
0.875 6.517 1 0.8752
n2
15 2
n 2 13
(3)确定P值并作出统计推断
➢ 查t界值表,得 P, 0按.001=0.05水准,拒绝 , 接受 H,0 相关系H数1有统计学意义,可以认为体重 和双肾体积之间有直线相关关系。
2. 查表法
直接查相关系数界值表, ,13
区别
资料要求:直线相关要求双变量正态分布,直 线回归要求给定自变量值时,因变量服从正态 分布
应用及意义:相关系数说明两变量间相互关系 的方向与密切程度 ;回归系数说明两变量的 数量依存关系
计算公式:r lxy / lxx lyy b l xy / lxx
取值范围: 1 r 1 b
σ
2 X
1, σY2
1, ρ XY
0
X Y 0
σ
2 X
2, σY2
4, ρ XY
0.75
注意事项
➢ 相关关系不一定是因果关系 例如:树苗与儿童身高的关系
注意事项
➢ 观察例数较少(如n<15)时,相关系数容易 受个别观察对象的特殊值影响
➢ 分层资料不可盲目合并(图13.3)
直线回归与直线相关分析的联系与区别
问题的提出
某医师测量了15名正常成年人的体重(kg)与 CT双肾体积(ml)大小,如下表。据此回答两变 量是否有关联?其方向与密切程度如何?
直观方法:绘制散点图(scatter plot)
➢ 统计学上两个随机变量之间呈直线趋势的 关系被称为直线相关。

直线相关系数(linear
correlation
基本思想
对于不符合正态分布的资料,不用原始数据 计算相关系数,而是按其取值由小到大排秩, 然后根据其秩次来计算秩相关系数。
设有 n 例观察对象,对每一例观察对象同时取得两
个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到
大排秩为1, 2, …, n。它们的秩分别为 pi 与 qi ,将pi
相关文档
最新文档