(卫生统计学)第十一章 两变量关联性分析

合集下载

卫生统计学两变量关联性分析

卫生统计学两变量关联性分析

.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设

医学统计学课件:双变量关联性分析(研究生)-推荐

医学统计学课件:双变量关联性分析(研究生)-推荐

等级相关(自学内容)
等级相关应用范围: (1)不服从双变量正态分布的资料 (2)总体分布类型未知的资料 (3)等级资料
Spearman等级相关系数的取值和意义与Pearson直线相关 系数相同 计算得到的等级相关系数,需对其进行假设检验
列联表的关联性分析
2×2列联表的关联性分析
【例12-4】 某研究者欲研究幽门螺杆菌感染(HP) 与家庭成员胃病史的关联性,随机抽取599例慢 性胃炎或胃溃疡的患者,分成家庭成员有胃病史 组和家庭成员无胃病史组,结果家庭成员有胃病 史组182例,HP阳性125例;家庭成员无胃病史组 417例,HP阳性198例。
之,P小于相应的概率水平,然后作出推断。
直线相关 相关系数的假设检验
t检验方法
tr
r0 Sr
Sr
1 r2 n2
n2
直线相关
下面对例12-1所得相关系数进行假设检验 【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0 H1 : 0
0.05
直线相关
【检验步骤】
2.计算检验统计量 tr 值
【分析】 (1)该资料是计数资料,是两个定性变量交叉分
类的列联表资料。 (2)该研究者使用的统计方法是正确的。应用四
格表资料的 2 检验,然后计算列联系数,分析 两分类变量关联的程度。
列联表的关联性分析
表12-4 幽门螺杆菌感染(HP)与家庭成员胃病史的关联性
因素
有胃病史 无胃病史
合计
阳性
阴性
合 计 感染率(%)
直线相关
计算例12-1中体重与胸围间相关系数 • 计算基础数据,并列成相关系数计算表
• 求出 x 、 y 、x2 、 y2 、 xy(见表12-2)

《卫生统计学》考试重点复习资料

《卫生统计学》考试重点复习资料

卫生统计学Statistics第一章绪论统计学:是一门通过收集、分析、解释、表达数据,目的是求得可靠的结果。

总体:根据研究目的确定的同质(大同小异)的观察单位的全体。

分为目标总体和研究总体。

样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。

样本应具有代表性。

所谓有代表性的样本,是指用随机抽样方法获得的样本。

抽样:从研究总体中抽取少量有代表性的个体。

变量:表现出个体变异性的任何特征或属性。

分定型变量和定量变量。

定型变量:1)分类变量或名义变量:最简单的是二分类变量。

0-1变量也常称为假变量或哑变量。

2)有序变量或等级变量。

定量变量:分离散型变量和连续型变量。

变量只能由高级向低级转化:定量→有序→分类→二值。

常见的三种资料类型1)计量或测量或数值资料,如身高、体重等。

2)计数资料或分类资料,如性别、血型等。

3)等级资料,如尿蛋白含量-、+、++、+++、…第一章定量变量的统计描述此章节x即为样本均数(X拔)1.离散型定量变量的取值是不连续的。

累计频数为该组及前面各组的频数之和。

累计频率表示各组累计频数在总例数中所占的比例。

可用直条图表达。

2.编制频数表的步骤与要点步骤:1确定极差2确定组数3确定各组段的上下限4列表要点(注意事项)1)制表是为了揭示数据的分布特征,故分组不宜过粗或过细。

2)为计算方便,组段下限一般取较整齐的数值3)第一组段应包含最小值,最后一个组段应包含最大值。

3.频率分布表(图)的用途1)描述变量的分布类型2)揭示变量的分布特征3)便于发现某些离群值或极端值4)便于进一步计算统计指标和统计分析。

4.描述平均水平的统计指标算术均数(mean):描述一组数据在数量上的平均水平。

总体均数用μ表示,样本均数用X表示。

适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能反应全部观察值的平均水平。

分:直接法和频率表法。

即所有变量值加和除以总数n或所有频数f k乘以组中值X0k后求和再除以总数n。

两变量关联性分析

两变量关联性分析

线性相关分析的步骤
1. 绘制散点图
凝血酶时间(秒)
18 17 16 15 14 13 12
0.5
0.7
0.9
1.1 1.3
凝血酶浓度(毫升)
图1 例11-1中数据的散点图
2. 计算相关系数
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2
lXX lYY
二 秩相关
适用条件:
①资料不服从双变量正态分布而不宜作积差 相关分析;
②总体分布型未知,一端或两端是不确定数 值(如<10岁,≥65岁)的资料;
③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
2. 计算公式
研究目的:分析两个变量之间有无相关关系 相关系数: (linear correlation coefficient)
描述两变量间线性相关的密切程度 和相关方向的统计量
简单线性相关
当一个变量X由小到大,另一个变量Y亦 相应地由小到大(或由大到小),两变量的 散点图呈直线趋势,那么这两个变量之间有 线性关系。分析这种线性关系的理论和方法, 统称为直线相关或线性相关。
受H1 ,认为凝血酶浓度与凝血酶时间之间存在负相关。 此结果与查表的结果是一致的。
(二)查表法
• 查 r 界值表(附表15)
n2
线性相关中应注意的问题
• 1.样本的相关系数接近零并不意味着两变量 间一定无相关性.
• 2.一个变量的数值人为选定时莫作相关. • 3.出现异常值时甚用相关. • 4.相关未必真有内在联系. • 5.分层资料盲目合并易出假象.

医学统计学 -第11章 两变量关联性分析

医学统计学  -第11章  两变量关联性分析
r无度量单位 -1 ≤r≤ 1 r 值为正:正相关
为负:负相关 |r|=1:完全相关
❖ r的正负号表示线性相关的方向 ❖ r绝对值的大小表示线性相关的密切程度,越接近±1, 其线性密切程度越高;越接近0,线性密切程度越低
例11.2 计算例11.1中基础代谢Y与体重X之间样本 相关系数。
由例11-1得
三、相关系数的统计推断
(一)假设检验方法: 查表法
按自由度υ=n-2查r界值表,如果样本相关系数r大于界值,
则具有统计学意义,线性相关关系存在
t检验法
tr
r0 sr
υ=n-2
sr
1 r2 n2
例11-3 继例11-2中算得r=0.964后,试检验相 关是否具有统计学意义
H0 : 0 ,H1 : 0 , =0.05
(x x)2 1144.5771 (y y)2 4645447.0121 (x x)(y y) 70303.2329
r
(x x)(y y)
(x x)2 (y y)2
70303.2329
1144.5771 4645447.0121
0.964
即基础代谢与体重之间的相关系数为0.964,呈正相关, 说明基础代谢随体重的增加而升高
查表法
本例 n=14,r=0.964,按υ=14-2=12,查r界值表,得 r0.05,12=0.532
因此P<0.05,即相关系数有统计学意义,可以认 为基础代谢与体重之间存在线性正相关,且相关系 数为0.964
t检验法
本例 n=14,r=0.964,代入公式
t 0.964 12.559 1 0.9642 14 2
正相关(positive correlation) 散点呈直线变化趋势 Y随X的增加而有增加的趋势 当散点全部在一条直线上时, 为完全正相关

卫生统计学 两变量关联性分析

卫生统计学   两变量关联性分析
2z
(21.9198)
故体重与双肾体积总体相关系数的95%置信区间为
(0.6574,0.9579)
四、线性相关应用中应注意的问题 1. 样本的相关系数接近零并不意味着两变量间一定
无相关性。
通常应先绘出样本值的散点图,利用散点图可直观
地判断两变量之间是否具有线性联系。
2. 一个变量的数值人为选定时不应作相关。相关分析
115.508 0.548 n 384
2
二、2×2 配对资料的关联性分析 例7 有132份食品标本,把每份标本一分为二,分别
用甲、乙两种检验方法作沙门菌检验,检验结果如表
4,问两种检验方法的结果是否存在关联?
表4 两种检测方法的结果比较
前面我们用McNemar检验解决了两种培养基的阳性 率是否相等的问题。但如要了解两种培养基结果之间 是否有关联,则需作两种属性的关联性分析。
n 15
y 3991.56, xy 243931.9
lxx 2555.733 l yy 20270.495 lxy 6301.038
2 y 1082440.5572, n 15
代入公式得: r lxy lxx l yy
0.875
说明双肾体积随体重增加而增大,两变量呈正相关。
氧含量分级之间存在相关关系,且为正相关。
第三节 分类变量的关联性分析
对定性变量之间的联系通常用的方法是根据两个定性变
量交叉分类计数所得的频数资料(列联表)作关联分析,
即关于两种属性独立性的卡方检验。
一、交叉分类 2×2 表的关联分析 例6 为研究青少年在校情况与对艾滋病知晓情况之间的 关系,某研究者在某地共调查了384名青少年,并对每名 青少年按是否在校和对艾滋病是否知晓两种属性交叉分 类,如表3所示。试问青少年在校情况与对艾滋病知晓情 况之间是否存在关联性?

《卫生统计学》考试重点复习资料

《卫生统计学》考试重点复习资料

②权衡两类错误的危害以确定α的大小。 ③正确理解 P 值的意义,如果 P<α,宜说差异“有统计学意义”。
第八章 方差分析
名词解释
总变异:样本中全部实验单位差异称为总变异。其大小可以用全部观察值的均方(方差)表 示。 组间变异:各处理组样本均数之间的差异,受处理因素的影响,这种变异称为组间变异,其 大小可用组间均方表示。 组内变异: 各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。 随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象 的特征相同或相近,且受试对象数与处理因素的水平数相等。然后再将每个区组内的观察对 象随机地分配到各处理组,这种设计叫做随机区组设计。
构成比
某一组成部分的观察单 位数 同一事物各组成部分的 观察单位总数
100 %
③比又称相对比,是 A、B 两个有关指标之比,说明两者的对比水平,常以倍数或百分数表
示,其公式为:相对比=甲指标 / 乙指标(或 100%)
甲乙两个指标可以是绝对数、相对数或平均数等。
应用相对数时应注意哪些问题?
答:应用相对数时应注意的问题有:
相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、
构成比、比等。
标准化法:是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就
是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使
之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
料间的相对水平。 3) 报告比较结果时必须说明所选用的“标准”和理由。 4) 两样本标准化率是样本值,存在抽样误差。当样本含量较小时,还应作假设检验。

第十一讲卫生统计学两变量关联性分析

第十一讲卫生统计学两变量关联性分析

第一节 线性相关
一、线性相关的概念
线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性 质可由图11-2散点图直观的说明。
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。例 如,每人的身高和体重。然后在直角坐标系 上描述这些点,这一组点集称为散点图。
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
医学上,许多现象之间也都有相互联系,例如:身高与体 重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不 相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之 间的关系密切得多,而体重和身高的关系则介与二者之间。 另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝 病毒和乙肝之间是因果关系;但是,有的现象之间因果不清, 只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能 说有因果关系。相关与回归就是用于研究和解释两个变量之 间相互关系的。
为了研究父亲与成年 儿子身高之间的关系,卡 尔·皮尔逊测量了1078对父 子的身高。把1078对数字 表示在坐标上,如图。用 水平轴X上的数代表父亲 身高,垂直轴Y上的数代 表儿子的身高,1078个点 所形成的图形是一个散点 图。它的形状象一块橄榄 状的云,中间的点密集, 边沿的点稀少,其主要部 分是一个椭圆。
相关系数的计算公式:
r
( X X )( Y Y ) l XY
( X X ) 2 (Y Y ) 2
l XX l YY

11两变量关联性分析

11两变量关联性分析

统计学的两个主要内容
总体参数的估计和检验 假设检验 计量资料 方差分析 计数资料 卡方检验
• 指标变量之间关系的研究 – 相关分析 – 回归分析
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
3
教学内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
第十一章 两变量关联性分析
2010-12-17
Pro. Xuezhong SHI, College of Public Health
1
主讲人: 施 学 忠
卫生统计学教研室 公 共 卫 生 学 院
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
2
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
12
【案例解析】
实验设计类型:完全随机设计 研究目的:了解凝血时间与凝血酶浓度两个变 量之间的关系 ——相关 相关(correlation) 相关 ——回归 回归(regression) 回归
2010-12-17
—确定两个变量间有否联系及联系程度如何。 —定量地确定它们之间的互依关系。
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
9
例如:
• 高血压患者的舒张压和年龄 • 药片的厚度与药物的含量 • 药片的硬度和药片的消溶速度 • 婴儿的身高、体重和胸围
Sr 是ρ的估计值 的标准误 的估计值r 的估计值
查ν=n-2 的 t-分布表(附表2)。

双变量关联性分析双变量关联性分析在医学研究中

双变量关联性分析双变量关联性分析在医学研究中

第十三章双变量关联性分析在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。

这类关系在统计学上称为两个随机变量之间的关联性。

如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。

需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。

本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。

第一节直线相关一、直线相关的概念及其统计描述例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。

据此回答两变量是否有关联?其方向与密切程度如何?表13.1 15名正常成年人体重和双肾体积的测量值编号体重(kg) 双肾体积(ml)1 43 217.222 74 316.183 51 231.114 58 220.965 50 254.706 65 293.847 54 263.288 57 271.739 67 263.4610 69 276.5311 80 341.1512 48 261.0013 38 213.2014 85 315.1215 54 252.08初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测点的分布情况,称为散点图(scatter plot),如图13.1所示。

体重(kg) x图13.115名正常成年人体重和双肾体积的散点图由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。

在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。

卫生统计学客件: 两变量关联性分析

卫生统计学客件: 两变量关联性分析

二、相關係數的意義及計算
線性相關係數 (linear correlation coefficient)
又稱 Pearson積矩相關係數(Pearson product moment coefficient)
相關係數 =
X和Y的协方差
( X的方差)(Y的方差)
總體相關係數ρ:若ρ≠0, 稱X和Y線性相關, 簡稱
相關;若ρ=0, 則簡稱X和Y不相關。 樣本相關係數r
協方差(covariance)的定義、含義
X的樣本方差 =
n
(Xi X)2
i 1
n 1
n
(Yi Y )2
Y的樣本方差 = i1
n 1
X和Y的樣本協方差 =
n
(X i X )(Yi Y )
i1
n 1
圖11-3 雙變數協方差示意圖
n
方法二:t 檢驗
Hale Waihona Puke 根據公式:tr 0.964 12.559 1 (0.964)2
14 2
注意據:自由P 度值越小並14不查2表t臨1示2界相值關表,性得就雙越側強!
|t|> t0.001 2 ,12 , 4P.3<18 0.001, 故拒絕 。可以H認0 為基礎
代謝與體重之間存在正相關。此結果與查表檢驗的結
職業
胃病 淺表性胃炎 慢性胃炎 胃潰瘍
合計
機關幹部
80
工廠工人
52
公車司機
20
48
4
132
62
12
126
22
10
52
合計
152
132
26
310
H0 : 胃病類型與職業無關聯
H: 1胃病類型與職業有關聯

两变量间关联性分析-11

两变量间关联性分析-11

分类资料的关联性分析与频数分布的假设检验
检验公式、理论频数计算公式和自由度的计算 公式完全相同。 研究目的、设计方案、数据结构以及最后对于 结果的解释都是不同的。
建立假设,确定检验水准
H0:喂养方式与婴儿腹泻之间互相独立 H1:喂养方式与婴儿腹泻之间有关联
α=0.05
计算检验统计量: 2

(30 25
i 1
i 1
负相关

216.7 (14.7)(224) /15
[14.81 (14.7)2 15][3368 (224)2 15]
0.926
相关系数的假设检验
查表法:r界值表(附表13) t检验
相关系数的假设检验---查表法
建立假设,确定检验水准 H0:ρ=0,凝血酶浓度与凝血时间无相关关系; H1:ρ≠0 ,凝血酶浓度与凝血时间有相关关系;
(1)正相关
(2)负相关
(3)非线性相关
(4)零相关
Pearson积差相关系数
定量地描述线性相关程度的一个常用指标; 总体相关系数用希腊字母ρ表示; 样本相关系数用r表示;
Pearson积差相关系数的计算
r X X Y Y
lXY
X X 2 Y Y 2
4016 2432
确定P值,下结论 p<0.05,可认为甲、乙两种培养基之间存在关联性。
计算列联系数: r 2 8.43 0.3617 n 2 8.43 56
例11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为 探讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状
腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分 类,得表11-6的资料。问甲状腺肿类型与祖籍间有否关 联?

(卫生统计学)第十一章 两变量关联性分析

(卫生统计学)第十一章 两变量关联性分析
注意:相关关系不是因果关系
2. .相关系数的意义及计算
相关系数(coefficient of correlation),是描述两个变量的密切程度与方向的指标,用r表示:
r
( xi x)( yi y )
( xi x) 2
( yi y)2
lxy lxx lyy
n
n
n
xi yi
l xy
本例 n=12
二、 相同秩次较多时rs的校正
1.校正公式rs’
rs,
[(n3 n)/6](Tx Ty) di2 [(n3 n)/6]2Tx [(n3 n)/6]2Ty
式中T( x 或 Ty)
(t3 t) 12(t表示 x或y中相秩次的个例 11-4 中
12 312/6 232333636 378
秩次qi 11.5 9.0 7.0 3.5 9.0 9.0 3.5 3.5 3.5 3.5 11.5 3.5 78
d=p-q -10.5
-7 -4 0.5 -4 -3 3.5 4.5 5.5 6.5 -0.5 8.5 —
d2 110.25
49 16 0.25 16 9 12.25 20.25 30.25 42.25 0.25 72.25 378
i 1
i 1
例11-2 就例11-1资料计算相关系数
r 2.82 0.926 0.40422.933
二、相关系数的统计推断
原假设H0: ρ=0 (两变量无直线关系)
检验方法: (1)t检验
t r 0 , v n2 1r2
n2
例11-3 就例11-2所得r =﹣ 0.926 值作显著性检验
t 0.926 8.874, v n 2 13
第二节 秩相关 rank correlation 目的: 用秩和法作直线相关分析 资料条件: (1)不服从双变量正态分布而不宜作积差相关分析 (2)总体分布类型未知 (3)一个变量数据是等级指标,另一个是连续型指标

卫生统计学第十一章相对数分析详解演示文稿

卫生统计学第十一章相对数分析详解演示文稿
:利用标准年龄别死亡率与相互比较的两组 年龄别人口数计算求得的死亡率
选用间接法的条件:
有被比较的两组资料的各年龄别人口数及总 死亡率(或数)
已知作为标准的某一人口各年龄别死亡率及 其总死亡率
常用于:实际各年龄组死亡率未知时
第24页,共32页。
计算步骤:以P145表1-12为例
1、将各年龄组标准死亡率分别乘以各县相 应年龄组的人口数,得出各年龄组预期死亡 数nipi
第7页,共32页。
有些教科书中的分类:三类
频率型指标:
近似地反映某一事件出现的机会大小。=(某事 件发生的个体数/可能发生某事件的个体数)*K, 是频率或概率的近似
强度型指标:
指一段时间内的平均概率.强度是单位时段内 某现象发生的频率.=(某事件发生的个体数 /(可能发生某事件的个体数时间))*K
2、各年龄组预期死亡数相加,得预期总死 亡人数Nipi,将预期总死亡数除以标准总人 口数,得出直接标化率
采用标准人口构成比时,计算见P144表11
选用直接标化的条件:
有被比较的两组资料的年龄别死亡率资料 有标准人口构成或构成比
第23页,共32页。
(二)间接法indirect standardization
第8页,共32页。
相对比型指标:
指任何两个相关联的变量A和B之比。它表示相 对于B的一个单位A有多少个单位。=A/B
第9页,共32页。
常用指标:
1、对比指标:两个同类事物某种指标之比。 如性别比、某指标随时间的变化
2、关系指标:指两个有关的、但非同类事 物的数量比。如医务从员与床位比、
第4页,共32页。
常用率有:
患病率prevalence rate:时点和期间患病率 感染率infection rate 发病率morbidity rate, incidence rate 死亡率death rate, mortality rate 病死率fatality rate 治愈率cure rate

两变量关联性分析

两变量关联性分析

9
1260
9 81 -
10
1290 10 100 -
11
1438 11 121 +++
12
2004 12 144 -
合计

78 650 -
秩次 q2
pq
q
(6)
(7) (8)=(3).(6)
11.5 132.25 11.5
9.0
81
18
7.0
49
21
3.5 12.25
14
9.0
81
45
9.0
81
54
p 0.005
,
拒绝原假设,说明婴儿腹泻与喂养
方式之间存在关联性.
表11-3 婴儿腹泻与喂养方式的关系
喂养方式
人工 母乳 合计
腹泻


30
10
17
25
47
35
合计
40 42 82
两个分类变量关联的程度--Pearson列联系数 (contingency coefficient)
r 2 2 n
说明相关性越差.
• 例11-2 计算例11-1中凝血酶浓度X与凝血 酶时间Y之间样本相关系数。
由例11-1得
15
xi 14.7
i 1
15
yi 224
i 1
, 15 xi2 14.81 i1
, 15 xi yi 216.7 i 1
n 15
15
yi2 3368
3.5 2.25 24.5
3.5 12.25
28
3.5 12.25 31.5
3.5 12.25
35

第11章 两变量关联性分析

第11章 两变量关联性分析

二、秩相关
Pearson积差相关要求X,Y均服从正态分布。 对不服从正态分布、总体分布未知或原始数据用等 级表示的资料采用秩相关(等级相关)来度量两变 量间相关的程度与方向。称为Spearman秩相关。 利用两变量的秩次大小作线性相关分析。 以两变量对应的秩次代替变量值本身带入Pearson 积差公式得到Spearman秩相关系数。 例11-4
一、线性相关
正相关:X,Y同时增减(同向) 负相关:X,Y此增彼减(逆向) 零相关:X,Y互不影响或者无直线相关关系 完全正相关:当所有的点都集中在一条直线上并且变 化趋势相同 完全负相关:当所有的点都集中在一条直线上并且变 化趋势相反
一、线性相关
一、线性相关
因为散点图能够直观的反映两变量间有无关系, 所以在研究两变量间的关系时都应该先绘制散点图, 之后再确定它们之间的量化关系。
二、秩相关
二、秩相关
秩相关系数的统计推断 由样本的秩相关系数不为零,推断总体的相关 系数是否为零。
ρs 因:① 由于抽样误差引起,ρs=0
② 存在相关关系,
ρs≠0
二、秩相关
秩相关系数统计推断步骤: (与Pearson相关系数统计推断的步骤相同) 统计量为rs ,通过查rs界值表(附表14)得到P值。
积差相关与秩相关的联系与区别
联系: 两者均刻画了两变量间线性相关的方向与密切程度, 取值范围与数值大小的统计学意义解释相同 Spearman秩相关系数可用对秩次的Pearson积差 相关系数计算来实现 区别: Pearson积差相关要求数据服从正态分布,属于参 数统计量;而Spearman秩相关不要求正态分布, 属非参数统计量 两者总体参数的检验方法不完全相同
(ad − bc) 2 n χ2 = (a + b)(c + d )(a + c)(b + d )

变量之间的关联性分析

变量之间的关联性分析

变量之间的关联性分析六、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析七、回归分析1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。

2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2, (X))可以为连续型变量、有序分类变量或二分类变量。

如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。

1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

1)非配对的情况:用非条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2)配对的情况:用条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

双变量关联性分析

双变量关联性分析
McNemer检验,什么情况下用Pearson 检验?
2
P416 1 2 3
作业
谢谢!
基本思想
对于不符合正态分布的资料,不用原始数据计算相关系数,而是按其取值由小到大排秩,然后根据其秩次来计算秩 相关系数。
设有 n 例观察对象,对每一例观察对象同时取得两 个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到 大排秩为1, 2, …, n。它们的秩分别为 与 ,将 及 的秩次直接代入直线相关系数的计算公式可得到 Spearman秩相关系数 。
2
➢ 2×2 列联表 ➢ R×C列联表
关联性分析
例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年, 并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存
在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
nRnC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒绝 H0 ,接受 H1 ,可以认为自我效能感与领导行为类型之间有关 联。
进一步计算列联系数:
r
2 2n
115.508 0.481 115.508384
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用
病例号
1 2 3 4 5 6
血小板数
120 130 160 310 420 540
出血症状
++ +++
+ +

11 两变量关联性分析

11 两变量关联性分析

第十章 两变量关联性分析[教学要求]了解:利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。

熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。

掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson 积差相关、Spearman 等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。

[重点难点]第一节 线性相关对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson 积差相关系数;∑∑∑===−−−−==n i n i n i yy xx xyy y x x y y x x l l l r 11221)()())(( 对积差相关系数r 的假设检验可用查表法或t 检验。

这里要注意的是不可用相关系数检验所得P 值的大小来判断有否线性关系。

一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。

第二节 秩相关对不满足正态分布的两变量随机样本,可采用Spearman 秩相关来分析。

这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中的一个,也可以是两个。

教材中的例10-5是研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足Pearson 积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。

Spearman秩相关系数或等级相关系数的计算公式同Pearson积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson积差相关系数的计算公式中去计算;秩相关系数用表示,对其检验也是用查表法或t 检验。

若以表示X s r i p i 秩次;表示Y i q i 的秩次,d i =-表示成对秩次的差值,则Spearman秩相关系数的计算也可采用下式:i p i q )1(6112−−=∑=n n d r ni i s显然Pearson 积差相关与Spearman 秩相关之间有联系也有区别。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当n5时 0 ,统rs计 1量 n 6(n2 di1 2) vn 查附 15表
当n5时 0 ,统Z计 rs量 n1 1rs1
4.确定P值作出结论
例11-4 某地研究2~7岁急性白血病患儿的血小板数与出血症状程度的相关性。
第十一章 两变量关联性分析
( analysis correlation of two variable )
要求: 1.掌握相关的应用条件和pearson相关系数算法 2.了解等级资料秩相关的spearman相关系数算法 3.掌握分类变量的相关性分析的列联系数算法
第一节 线性相关
前面几章主要讨论了单变量(univariate)资料的统计 分析,着重于描述某一变量的统计特征或比较该变量的组 间差别。但是在大量的医学科研与实践中,经常会遇到对 两个变量之间关系的研究,如年龄与血压、体重与身高、 药物剂量与疗效、污染程度与污染源距离等,相关就是研 究这种两个变量之间关系的统计方法。
例11-9
某地1043人按2种血型划分的结果(双向无序资料表)
ABO血型 M
MN血型
N
MN
O
85
100
150A56Fra bibliotek78120
B
98
132
170
AB
23
25
6
合计
262
335
446
合计
335 254 400 54
1043
2
10
433
852 352
6
23
1002 3533
... 62 5 5444
61
18
17
凝血时间(秒)
16
15
14 13
12
0.5
0.7
0.9
1.1
1.3
凝血酶浓度(毫升)
图11-1 例11-1中数据散点图
计算器计算过程
浓度x 时间
1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 … … … 0.7 14 13 15 15 13 14 16 17 … … … 17
秩次qi 11.5 9.0 7.0 3.5 9.0 9.0 3.5 3.5 3.5 3.5 11.5 3.5 78
d=p-q -10.5
-7 -4 0.5 -4 -3 3.5 4.5 5.5 6.5 -0.5 8.5 —
d2 110.25
49 16 0.25 16 9 12.25 20.25 30.25 42.25 0.25 72.25 378
2 2 n
9.98 0.329 9.98 82
二、2×2配对资料的关联性分析
例11-7 观察不同培养基与白喉杆菌生长的关联性。
甲培养基
+ - 合计
乙培养基
+

22
18
2
14
24
32
合计
40 16 56
H0 : 两种培养基的结果之互间相独立
2 (2214182)2 56 8.43 P 0.05
资料条件:
(1)两个变量都是分类变量,其中分析指标是等级(有序)指标;
(2)两个变量都是等级(有序)指标
(3)两个变量都是无序指标 方法:根据两个变量交叉分类计数所得的频数资料(列联表)用 χ2 检验作关联
分析 ,统计量为列联系数 r 。 2
r
2 n
0r1
r1表明两变量关联,性 r越 0表强明两变量独立。性越强
第二节 秩相关 rank correlation 目的: 用秩和法作直线相关分析 资料条件: (1)不服从双变量正态分布而不宜作积差相关分析 (2)总体分布类型未知 (3)一个变量数据是等级指标,另一个是连续型指标
步骤:
一、 Spearman 等级相关
1.将两个变量x与y的观察值分别按从小到大编秩,即(xi,yi )→(pi,qi),
1 0.9262
15 2
查t界值表,t0.001/2,13 4.221, P 0.001
拒绝H0,可认为凝血酶浓度与凝血时间存在负相关。
(2) r检验
查r 界值表(附表13) v=n-2
r界值表
三、线性相关应用中注意的问题
1.样本相关系数接近零并不意味着两变量间一定无相关关系。 2.人为选定变量数值时莫做相关 3.出现异常值时慎用相关 4.相关未必真有内在关系 5.分层资料盲目合并易出假象
编号 1 2 3 4 5 6 7 8 9 10 11 12
合计
血小板x 121 138 165 310 426 540 740 1060 1260 1290 1438 2004 —
秩次pi 1 2 3 4 5 6 7 8 9 10 11 12 78
出血症状y +++ ++ + ++ ++ +++ —
rs'
12
12 312/6 12 312/62 232333636
12
0.422
2.用Person 积差相关系数方法对(pi , qi)求r
r lpq 56 0.422 结果与上相同 lpplqq 143123
rs界值表
第三节 分类资料的关联性分析
目的: 用χ2法作直线相关分析
本例 n=12
二、 相同秩次较多时rs的校正
1.校正公式rs’
rs,
[(n3 n)/6](Tx Ty) di2 [(n3 n)/6]2Tx [(n3 n)/6]2Ty
式中T( x 或 Ty)
(t3 t) 12
(t表示 x或y中相同秩次的个
例 11-4 中
12 312/6 232333636 378
1436
H0:甲状腺肿类型与祖籍无关 α=0.05
2
1436
4862 492 719
22 492 577
...
852 500140
1
723.783
v (3 1)(3 1) 4 , P 0.005 ,
可认为甲状腺肿类型与祖籍有关联。
列联系数r
2 2 n
723.783 0.579 723.783 1436
2
5.9
2
5
v(41)(31) 6 , P0.005 , 可认为两种血型系 有统 关间 联。
列联系数 r
2 2 n
25.925 0.15( 6 较小) 25.9251043
表明:两种血型系 虽统 有间 统计学意义, 系但 不关 太密切(实际 不意 大义 )。
一、交叉分类2×2表的关联性分析
例11-6 观察对婴儿的不同喂养方式与婴儿腹泻之间的关系。
喂养方式
有腹泻
无腹泻
合计
人工
30
10
40
母乳
17
25
42
合计
47
35
82
H0 :喂养方式与腹泻无关(两变量独立)
2 (30251710)2 82 9.98 P 0.005
40 42 47 35
列联系数 r
40162432
列联系数 r 2 8.43 0.3617 2 n 8.4356
三、 双向无序分类资料的关联性检验
例11-8
祖籍
甲 乙 丙 合计
某地居民按甲状腺肿类型分类与三种祖籍的观察结果
甲状腺肿类型
弥漫型
结节型
混合型
486
2
4
133
260
51
100
315
85
719
577
140
合计
492 444 500
一、线性相关的概念及其统计描述
例11-1 随机抽取15名健康人,测定血液的凝血酶浓度(单位/毫升)及凝固时间, 数据如下。据此如何判断这两项指标间有否相关?
受试者 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 浓度 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 1.1 1 0.7 时间 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17
开机 mode → 2 → shift → AC → 1.1 → xD,yD → 14 → DATA
1.2 → xD,yD → 13 → DATA → … → … → …
n x iy i
n
x i2
n
y i2
n
x i
n
y i
ko u 调 t 出 sh i调 ft 出
i 1
i 1
i 1
i 1
i 1
例11-2 就例11-1资料计算相关系数
r 2.82 0.926 0.40422.933
二、相关系数的统计推断
原假设H0: ρ=0 (两变量无直线关系)
检验方法: (1)t检验
t r 0 , v n2 1r2
n2
例11-3 就例11-2所得r =﹣ 0.926 值作显著性检验
t 0.926 8.874, v n 2 13
相关文档
最新文档