双变量关联性分析

合集下载

卫生统计学两变量关联性分析

卫生统计学两变量关联性分析

.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设

第13章思考与练习

第13章思考与练习

第十三章双变量关联性分析【思考与习题】一、思考题1.两变量间的关联性是否可解释为因果关系2.2⨯2列联表的关联性分析与两样本率比较的2χ检验有何不同3.相关系数r经假设检验有统计学意义,且得到的P值很小,是否表示两变量间一定有很强的直线关系4.简述Pearson积矩相关与Spearman秩相关的区别与联系。

二、案例辨析题为研究年龄与牙齿AKP酶反应活性之间的关系,某医生在其接诊的患者中随机抽取281例,按年龄(岁)分为三组进行观测,测量各患者牙齿的AKP酶反应活性,如表13-1所示。

问年龄与牙齿AKP酶反应活性之间有无关系表13-1 281例患者年龄与牙齿AKP酶反应活性的分布年龄AKP酶反应活性合计—+++<31517365831~234549051~249712133合计31148102 281按照R×C表的2χ检验结果,得2χ=,005.0<P,故按α=水准,拒绝H,可认为不同年龄患者的AKP酶反应活性不同,两者之间有关系。

以上分析正确吗三、最佳选择题1.Pearson积矩相关系数的假设检验,其自由度为A.1-nB.2-nC .12-nD .)1(2-nE .n2.积矩相关系数的计算公式是 A .xy xy yyl r l l =B.r =C.l r =D.l r =E.r =3. 直线相关分析中,若0.05,||r r ν>,则可认为两变量之间 A. 有一定关系B. 不存在直线相关关系C. 有直线相关关系D. 有直线相关关系,且为正相关E. 有直线相关关系,且为负相关 4.下列指标中可正可负的是 A .F 统计量 B .2χ统计量 C .21()nxx i l x x ==-∑D .1()()nxy i l x x y y ==--∑E .21()nyy i l y y ==-∑5.研究18岁女大学生体重和肺活量的关系时,表达正确的无效假设是 A .体重与肺活量无关联 B .体重与肺活量有关联 C .体重与肺活量有直线关系 D .体重与肺活量有因果关系 E .体重与肺活量无因果关系 6.计算Pearson 列联系数的公式为 A.l r =B .nr +=22χχC .22χχnr +=D .12-=n r χE .nr +=22χχ7.某放射科医师收集脑外伤患者30例,观察脑出血直径和病人昏迷的程度(轻度、中度、重度),欲分析昏迷程度是否与病灶大小有关,可进行 A .Pearson 相关分析 B .Spearman 秩相关分析 C .两小样本比较的t 检验 D .方差分析 E .2χ检验8.对两个分类变量的频数表资料作关联性分析,可用 A .积矩相关或等级相关B .积矩相关或列联系数C .列联系数或等级相关D .积矩相关E .等级相关9.两组数据分别进行直线相关分析,对1r 进行假设检验得到P <,对2r 进行假设检验,得到P <,可以认为A .第一组的两个变量关系比第二组密切B .第二组的两个变量关系比第一组密切C .更有理由认为第一组的两个变量之间有直线关系D .更有理由认为第二组的两个变量之间有直线关系E .两组变量关系同样密切四、综合分析题1.为研究某病成年男性患者血浆清蛋白含量与血红蛋白含量的关系,某医生测得10名患者血浆清蛋白含量(g/L)及血红蛋白含量(g/L)见表13-2所示,试分析二者是否有关联。

两变量关联性分析

两变量关联性分析

线性相关分析的步骤
1. 绘制散点图
凝血酶时间(秒)
18 17 16 15 14 13 12
0.5
0.7
0.9
1.1 1.3
凝血酶浓度(毫升)
图1 例11-1中数据的散点图
2. 计算相关系数
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2
lXX lYY
二 秩相关
适用条件:
①资料不服从双变量正态分布而不宜作积差 相关分析;
②总体分布型未知,一端或两端是不确定数 值(如<10岁,≥65岁)的资料;
③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
2. 计算公式
研究目的:分析两个变量之间有无相关关系 相关系数: (linear correlation coefficient)
描述两变量间线性相关的密切程度 和相关方向的统计量
简单线性相关
当一个变量X由小到大,另一个变量Y亦 相应地由小到大(或由大到小),两变量的 散点图呈直线趋势,那么这两个变量之间有 线性关系。分析这种线性关系的理论和方法, 统称为直线相关或线性相关。
受H1 ,认为凝血酶浓度与凝血酶时间之间存在负相关。 此结果与查表的结果是一致的。
(二)查表法
• 查 r 界值表(附表15)
n2
线性相关中应注意的问题
• 1.样本的相关系数接近零并不意味着两变量 间一定无相关性.
• 2.一个变量的数值人为选定时莫作相关. • 3.出现异常值时甚用相关. • 4.相关未必真有内在联系. • 5.分层资料盲目合并易出假象.

两变量关联性分析

两变量关联性分析

N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

医学统计学-第9章 关联性分析

医学统计学-第9章 关联性分析
9.2.1 解决什么问题? ⑴统计描述:推断两变量是否有联系?是否
线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:

《医学统计课件:双变量分析》

《医学统计课件:双变量分析》

3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估

统计学:两变量关联性分析

统计学:两变量关联性分析
2
l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6

2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82

(完整版)SPSS双变量相关性分析

(完整版)SPSS双变量相关性分析

数学建模SPSS双变量相关性分析
关键词:数学建模相关性分析SPSS
摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时,要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出评价结果。

本文由数学建模中的双变量分析出发,首先阐述最主要的三种数据分析:Pearson系数,Spearman系数和Kendall系数的原理与应用,再由实际建模问题出发,阐述整个建模过程和结果。

r s=
∑(P i−P ave)(Q i−Q ave)√∑(P i−P ave)2(Q i−Q ave)2
在SPSS中打开数据,点击:分析—>相关—>双变量,打开对话窗口,选择需要分析的两个变量、Spearman秩相关系数分析以及双侧检验。

需要说明两点:
(1)因各体重与各体质数据之间的相关性正负未知,需选用双侧检验;
(2)除了数据满足非正态分布以外,Spearman秩相关系数分析还需要数据分级,以计算秩。

但在SPSS中程序会自动生成秩,无需再手动分级。

注意要保证总体相关系数ρ与样本相关系数r保持一致,还须考虑Sig值。

由数据,Sig<0.5表示接受原假设,即Rho>|r|。

Sig<0.5则拒绝原假设,两者不相关。

而r值则代表了正负相关性,以及相关性大小。

结果见表。

10两变量关联性分析

10两变量关联性分析

线性相关(linear correlation)
可见两个变量间的关系并不是函数式的确定关 系——非函数式确定性关系
总的来说,体重轻者基础代谢低,重者基础代谢 高,二者变化趋势呈正向关系——正相关
各点的态势趋近一条直线呈线性——线性相关 线性相关(linear correlation),又称简单相关,
人的肺活量往往随着胸围的增加而增加,二者 间是否有联系?
举重运动员所能举起的最大重量是否与他的体 重有关?
在水碘含量不同的地区,甲状腺肿大的患病情 况不太相同,它们间是否有关联?
相关关系与确定性关系
所谓确定性关系是指两变量间的关系是函数关系:已知一个变量的值, 另一个变量的值可以通过这种函数关系精确计算出来。
第十章:两变量 关联性分析
问题的提出
前面的章节已经讨论的统计学方法着重于比较单 个变量的组间差别(例如:均数的差别、率的差别、 构成比的差别、中位数的差别等)
但是在医学研究中,还需要对两个随机变量间的 关系进行量化研究
问题的提出
人的体重往往随着身高的增加而增加,算方法如下:
rs
l xy lxx l yy
将X、Y变量所对应的秩次作为新变量,代入上述公式
计算器求得:
56.5
rs
-0.741 82.5 70.5
秩相关系数的假设检验
因此样本资料的秩相关系数为-0.741,意味着两变量间可 能存在负关联
rs来自10个个体值组成的样本,存在着抽样误差,故计算 出rs后,需作的假设检验
n
( Xi X )(Yi Y )
r
i 1
0.964
n
(
Xi
X
)2
n
(Yi

双变量相关性分析方法

双变量相关性分析方法

双变量相关性分析方法
双变量相关性分析方法是一种通过检验两个变量之间的相关性,来研究它们之间是否存在某种关联关系的统计方法。

它可以帮助我们了解两个变量之间的关系密切程度,从而对变量进行评估和预测。

双变量相关性分析的常用方法有:
1. 相关系数:相关系数是衡量变量之间关系强弱的指标,它是一个介于-1到+1之间的数字,当相关系数等于0时表明两个变量之间没有任何相关性,当相关系数大于0时表明两个变量之间存在正相关,当相关系数小于0时表明两个变量之间存在负相关。

2. 回归分析:回归分析是一种用来预测一个变量随另一变量变化情况的方法,它可以用来研究变量之间的关系及影响程度。

3. 卡方检验:卡方检验是一种用来检验两个变量之间关系的方法,它可以用来比较不同变量之间的关联情况,从而得出两个变量之间的相关度。

4. t检验:t检验是一种用来检验某一组数据是否服从正态分布的方法,它可以用来比较两组数据之间的差异情况,从而得出它们之间的相关性。

双变量的统计分析相关分析演示文稿

双变量的统计分析相关分析演示文稿

双变量的统计分析相关分析演示文稿主题:双变量的统计分析相关分析引言:大家好,我是XX,今天我将为大家介绍双变量的统计分析中的相关分析。

统计学是一门非常重要的学科,它可以帮助我们理解数据之间的关系和趋势。

相关分析是其中一种常用的统计方法,通过分析两个变量之间的关系,我们可以揭示出他们之间的相关性并获得有价值的信息。

接下来,我将为大家介绍相关分析的基本原理、步骤以及一些注意事项。

一、相关分析的基本原理1.1什么是相关性相关性表示两个变量之间的关系强度和方向。

当两个变量的数值同时增加或减少时,我们称它们为正相关性;当两个变量的数值一个增加一个减少时,我们称它们为负相关性;当两个变量之间没有明显的关联时,我们称它们为无相关性。

1.2相关系数相关系数是衡量两个变量之间相关性强度的指标。

常用的相关系数包括皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。

皮尔逊相关系数适用于度量两个连续变量之间的线性关系,而斯皮尔曼相关系数适用于度量有序变量之间的关系。

二、相关分析的步骤2.1确定假设在进行相关分析前,我们需要明确假设,通常我们主要关注两个方面:一是相关性是否存在;二是相关性的方向。

2.2收集数据收集所需的原始数据,并进行必要的数据处理,确保数据的正确性和完整性。

2.3计算相关系数根据选定的相关系数公式,计算出两个变量之间的相关系数。

例如,计算皮尔逊相关系数可以利用公式:r = Σ((Xi - Xmean)*(Yi - Ymean)) / sqrt(Σ(Xi - Xmean)^2 * Σ(Yi - Ymean)^2),其中,Xi和Yi分别表示两个变量的取值,Xmean和Ymean表示两个变量的平均值。

2.4统计推断通过对相关系数进行假设检验,判断相关性是否显著。

常用的假设检验方法包括t检验和F检验等。

三、相关分析的注意事项3.1样本容量样本容量的大小对相关分析的结果有重要影响。

样本容量越大,相关性的准确性就越高。

第十章 两变量相关性分析

第十章 两变量相关性分析
r ——样本相关系数;ρ ——总体相关系数。
二、相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXXlYY
XY ( X )(Y) / n
[ X 2 ( X )2 / n][Y 2 (Y )2 / n]
式中 (X X )2 为X的离均差平方和, 用 lXX 代替;
按自由度v=n-2查相关系数界值表(附表12,P425)。 2. t 检验 (n>50)
公式 t r 0 = r
,υ=n-2
Sr
1 r2
n2
Sr---- 相关系数的标准误 求得 t 值后查t 界值表得P值。
本例n=21,故采用查表法:按v= n-2 = 21-2 = 19 查附表12可知, r0.05/ 2,19 0.433
0.81
16
4.60
0.85
17
3.58
0.83
18
3.57
0.84
19
3.49
0.73
20
3.63
1.27
21
3.89
0.78
计算相关系数的一般步骤为:
1. 绘制散点图。 (见图10-2)。
散点图显示两 变量有直线趋势
图10-2 肝癌病人血清胆固醇与甘油三酯关系散点图
2. 计算基础数据,并列出相关系数计算表,
病人序号
血清胆固醇
甘油三脂
1
3.89
1.71
2
3.41
1.01
35.700.Fra bibliotek746.84
1.78
5
2.93
1.25
6
3.98
0.70
7
4.23
1.33

第12章双变量关联性分析

第12章双变量关联性分析

21332.38 366926.6
r
16
0.8343
8548.30
3662 16
53813.56
926.62 16
2024/8/3
28
二、相关系数的假设检验
r≠0原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
查表法,按v=n-2查r界值表,做出推断结论
t检验
tr
1 r2 n2
2024/8/3
31
【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0 H1 : 0 0.05
2024/8/3
32
2.计算检验统计量 tr 值
r0
0.8343
tr
1 r2
5.6623 1 0.83432
n2
16 2
2024/8/3
33
3.确定P值,做出统计推断
• 在大量的医学问题研究中常常还要分析两个随机 变量之间的关系,如体重与肺活量、年龄与血压 之间是否存在线性联系,此联系是正向还是负向 以及联系的程度如何?
2024/8/3
4
• 如果两个连续型变量 X和 Y 都随机变动且不分主次 ,可通过线性相关(linear correlation)分析来估计 它们之间可能存在的线性联系的方向与程度。
• 前面讨论的线性相关用于描述两个随机变 量X与Y之间线性联系的程度,结论所反映 的是它们相互之间的关系,两变量并无主 次之分
2024/8/3
39
• 随着所探索问题的深入,研究者通常更感兴趣于 其中的一个变量如何定量地影响另一变量的取值 :例如医学研究中常需要从某项指标估算另一项 指标,如果这指标分别是测量变量X和Y,我们希 望由X推算Y的值。

两变量关联性分析

两变量关联性分析

170例某病患者的治疗效果资料 疗效 患者年龄(岁) 无效 好转 治愈 <18 5 32 20 18~ 30 38 10 50~ 15 10 10 合计 50 80 40
合计 57 78 35 170
两变量关联性分析
43
170例某病患者的治疗效果资料 患者年龄 <18 18~ 50~ 合计 累积频数 秩次范围 疗效 无效 5 30 15 50 50 1~50 好转 32 38 10 80 130 51~130 治愈 20 10 10 40 170 131~170 合计 累积频数秩次范围 57 78 35 170 57 135 平均秩次
两变量关联性分析
14
2013-2-2
(二)线性相关分析步骤
绘制散点图
散点图呈线性趋势时,计算样本相关系数
对样本相关系数进行假设检验
相关系数有统计学意义时,解释相关系数的统计学意义
两变量关联性分析
16
2013-2-2
(二)线性相关分析步骤
对样本相关系数进行假设检验 由样本的相关系数不为零,推断总体的相关系数是 否为零。
绘制散点图(scatter plot)
将其中一个变量作为X轴变量,另一个变量作为Y 轴变量,以一一对应的(X,Y)绘制散点。
例如:教材195页例11-1(散点图图11-1)
注意观察散点的变化方向和密集程度
医学现象中,常见的散点图见教材196页
正相关、负相关、曲线相关、零相关
两变量关联性分析
8
2013-2-2
二、秩相关
秩相关系数假设检验
查表法(查rs界值表)
t检验
t
rs 0 1 rs n2
2
n2
两变量关联性分析

双变量关联性分析

双变量关联性分析

双 肾 体 积 (ml) y
体重 (kg) x
图13.1 15名正常成年人体重和双肾体积的散点图
直线相关的计算步骤
计算样本相关系数(本例r =0.875)
离均差积和
r
(xx)(yy) lxy
(xx)2 (yy)2 lxxlyy
相关系数的假设检验
检验r是否来自总体相关系数为零的总体。
➢ 单变量分析方法(univariate
analysis):t检验、u检验、方差分析
➢ 双变量分析方法(bivariable analysis) :直线回归与相关、秩相 关等
直线相关
直线相关的概念
用相关系数描述两变量间直线关系的 密切程度和方向
相关系数又称Pearson 积矩相关系数, 样本相关系数用r表示,总体相关系
联系
1、方向一致:对同一组数据若同时计 算r和b,其正负号是一致的
Question: r和b的大小有关系吗?r较大, 是否b也较大?
联系
2、假设检验等价:r和b的假设检验是等 价的,即对同一样本,两者的t值相等, 检验结果完全一致
联系
3、用回归解释相关 r的平方称为决定系数
r2 l2xy l2xy lxx SS回
数用 表示
相关的种类
0< r <1
-1< r <0
r=1
r = -1
r=0
r=0
相关的种类
正相关:0< r <1 完全正相关: r =1 负相关:-1< r <0 完全负相关: r =-1 零相关:r =0 相关系数没有单位,其值为-1≤r≤1
相关系数的意义
相关密切程度:用r的大小表示,r的绝对 值越接近于1,说明相关越密切
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2

xy x y / n
[( x2 ( x)2 / n][ y 2 ( y)2 / n]
相关系数 r 的性质

1 r 1 ,其正负表示两变量间直线相关 的方向;

r 绝对值大小表示两变量之间直线联系的 密切程度。
具体步骤

绘制散点图观察两变量间是否有直线趋势。 计算相关系数
2
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用 2 McNemer检验,什么情况下用Pearson 检验?
作业
P416 1 2 3
n2
tr
r 1 r2 n2

0.875 1 0.8752 15 2
6.517
n 2 13
(3)确定P值并作出统计推断

0.001 =0.05水准,拒绝 查t界值表,得 P ,按 , H1 接受 H,相关系数有统计学意义,可以认为体 0 重和双肾体积之间有直线相关关系。
| rs | r 15,0.001
分类变量的关联性分析
两个分类变量间的关联性可用Pearson列联 系数(contingency coefficient)等统计量来描 2 述,其假设检验可采用列联表的独立性 检验。
关联性分析
2×2 列联表 R×C列联表

例13.6 为研究青少年在校情况与对艾滋病知 晓情况之间的关系,某研究者在某地共调查了
舒张压 x (2) 75 80 80 90 90 90 90 95 95 100 100 110 115 120 125 ―
某医生欲研究血小板浓度和出血症的关系,测 得12名病人的血小板浓度(109/L)和出血症 如下表:
病例号 血小板数 出血症状 1 120 ++ 2 130 +++ 3 160 4 310 5 420 + 6 540 +
分层资料不可盲目合并(图13.3)

直线回归与直线相关分析的联系与区别
联系

对于服从双变量正态分布的同一组数据,既 可作直线相关分析又可作直线回归分析,相关 系数与回归系数正负号一致。本例:r=0.762 b=2.11

对于同一样本,相关系数与回归系数的假设检 验等价 ,即tb=tr
bS x 对于服从双变量正态分布的同一组资料 r = Sy
表 13.2 编号 (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
15 例成年男子的舒张压与夜间最低血氧含量分级测量值 秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15 120 夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ― 秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5 13.5 13.5 13.5 13.5 120
病例号 血小板数 出血症状 7 740 8 1060 9 1260 10 1230 11 1440 ++ 12 2000 -
秩相关的适用条件

不服从二元正态分布 用等级资料表示的原始资料
总体分布未知或边界不确定的资料


基本思想
对于不符合正态分布的资料,不用原始数 据计算相关系数,而是按其取值由小到大排 秩,然后根据其秩次来计算秩相关系数。
(2)计算检验统计量
2 A 2 n( 1) 34.213 nR nC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒
绝 H0 ,接受 H1 ,可以认为自我效能感与 领导行为类型之间有关联 。
进一步计算列联系数:
115.508 r 0.481 2 n 115.508 384
384名青少年,并对每名青少年按是否在校和
对艾滋病是否知晓两种属性交叉分类,如表
13.3所示。试问两变量是否存在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
是否知晓
是否在校
是 否 合计

156 27 183

62 139 201
合计
218 166 384
(1)建立检验假设
定量描述两变量间直线关系的方向和密切

程度。
直线相关系数(linear correlation coefficient )
又称Pearson 积矩相关系数(product moment correlation coefficient)
离均差乘积和
r
lxy lxxl yy

( x x )( y y ) (x x ) ( y y)

用回归可以解释相关: R2 SS回 / SS总 r 2
区别


资料要求:直线相关要求双变量正态分布,直 线回归要求给定自变量值时,因变量服从正态 分布 应用及意义:相关系数说明两变量间相互关系 的方向与密切程度 ;回归系数说明两变量的 数量依存关系

r l xy / l xx l yy 计算公式:
r
2 n
2
本例r=0.481

列联系数r取值范围为0~1,数值越接近 1,关联性 越强。
2 其假设检验等价于上述的两分类变量独立性的
检验。
例13.7 为研究自我效能感与领导行为类型是否有 关,某研究者抽样调查了来自某省各三甲医院的 238名护士长,并对每个个体按自我效能感和领导 行为类型两种属性交叉分类,如表13.5所示。试 分析两变量的关联性。
表13.5 自我效能感与领导行为交叉分类表 领导行为类型
自我效能感
低 高 合计
pm 67 32 99
pM 25 12 37
Pm 13 34 47
PM 17 38 55
合计 122 116 238
(1)建立检验假设
H0:自我效能感与领导行为类型间无关联 H1:自我效能感与领导行为类型间有关联
=0.05
X Y 0
2 2 σX 1, σ Y 1, ρ X Y 0
2 2 X Y 0 σ X 2, σ Y 4, ρ X Y 0.75
注意事项

相关关系不一定是因果关系 例如:树苗与儿童身高的关系
注意事项

观察例数较少(如n<15)时,相关系数容易 受个别观察对象的特殊值影响
舒张压 x (2) 75 80 80 90 90 90 90 95 95 100 100 110 115 120 125 ―
具体步骤

计算相关系数
rs
l pq l pp lqq
0.897

建立假设检验,确定检验水准
H 0 : s 0 ,即舒张压与夜间最低血氧含量分级无相关关系
H1 : s 0 ,即舒张压与夜间最低血氧含量分级有相关关系
H 0 : 两变量互相独立(无关系)
H1
: 两变量互相关联(有关系)
=0.05
(2)计算检验统计量
2 2 ( A T ) ( ad bc ) n 2 T (a b)(c d )(a c)(b d )
(156 139 62 27) 2 384 115.508 218 166 183 201
0.05
(2)计算检验统计量
< 50 本例 n = 15 ,直接查等级相关系数界值表,得 r15,0.001 =0.779 。
(3)确定 P 值并作出统计推断 =0.779,P<0.001,按 0.05 水 准,拒绝 ,接受 ,可以认为舒张压与夜 H1 H0 间最低血氧含量分级之间有正相关关系。
r lxy lxx l yy 0.875


相关系数的统计推断(假设检验)
1. t检验
(1)建立假设检验,确定检验水准
H 0 : 0,即体重和双肾体积之间无直线相关关系
H1 : 0,即体重和双肾体积之间有直线相关关系
0.05
(2)计算检验统计量
r 0 r 0 tr 2 Sr (1 r ) / (n 2)
2. 查表法 直接查相关系数界值表, , 13
r0.05,13 =0.514, r0.001,13 =0.760,
P,结果与 0.001
t 检验
法一致。
注意事项

进行相关分析前应先绘制散点图
有无线性关系 有无离群点(outlier)


出现离群点时慎用相关
(a)
注意事项

线性相关分析要求两个随机变量服从二元 正态分布。
b l xy / l xx
b

取值范围: 1
r 1

单位:相关系数无单位,回归系数有单位
秩相关(等级相关)
rank correlation
问题的提出
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研 究,试分析两者的关联性。资料列于下表。
2 2
rs 的假设检验

当n≤50时,可用查表法(查附表15,rs 界值表)。
当n>50时,按式(13.4)和(13.5)进行 t 检验。
t
rs 0 (1 r ) /(n 2)
2 s
ν=n-2
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研
相关文档
最新文档