医学统计学课件:双变量关联性分析(研究生)-推荐

合集下载

卫生统计学两变量关联性分析

卫生统计学两变量关联性分析

图1 15名正常成年人体重和双肾体积的散点图
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
例2 计算上述例1中体重与双肾体积之间的样本相关系数。 本例计算过程如下表:
由原始数据可算出:
x 893, x2 55719, n 15 y 3991.56, y2 1082440.5572, n 15 xy 243931.9
lxx 2555.733 lyy 20270.495
n2 ④. 确定概率P值
15 2
v=n-2=15-2=13,tr=6.517,查 t 界值表, 得p<0.001。
⑤. 下结论
因为p<0.001,按=0.05水准,拒绝H0,接受 H1,差异有统计学意义。即双肾体积与体重之间 存在直线相关关系。
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需 要计算总体相关系数的ρ置信区间。由于一般情况下 (ρ≠0时) ρ的分布并不对称,故先对r按(1)式作z变换:
第二节 秩相关
一、秩相关的概念及其统计描述
Pearson积矩相关的假设检验要求x和y均服从正态分 布。 对不服从正态分布的资料,或是总体分布未知的资料或 者原始数据用等级表示的资料,需采用秩相关来描述两 变量的相关性。 秩相关是利用两变量的秩次大小作直线相关分析,对 原 变量的分布不作要求,属非参数统计方法。 其中最常用的统计量是Spearman秩相关系数rs,又称等
四、线性相关应用中应注意的问题

双变量关联性分析双变量关联性分析在医学研究中

双变量关联性分析双变量关联性分析在医学研究中

第十三章双变量关联性分析在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。

这类关系在统计学上称为两个随机变量之间的关联性。

如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。

需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。

本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。

第一节直线相关一、直线相关的概念及其统计描述例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。

据此回答两变量是否有关联?其方向与密切程度如何?表13.1 15名正常成年人体重和双肾体积的测量值编号体重(kg) 双肾体积(ml)1 43 217.222 74 316.183 51 231.114 58 220.965 50 254.706 65 293.847 54 263.288 57 271.739 67 263.4610 69 276.5311 80 341.1512 48 261.0013 38 213.2014 85 315.1215 54 252.08初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测点的分布情况,称为散点图(scatter plot),如图13.1所示。

体重(kg) x图13.115名正常成年人体重和双肾体积的散点图由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。

在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。

医学统计学 -第11章 两变量关联性分析

医学统计学  -第11章  两变量关联性分析
r无度量单位 -1 ≤r≤ 1 r 值为正:正相关
为负:负相关 |r|=1:完全相关
❖ r的正负号表示线性相关的方向 ❖ r绝对值的大小表示线性相关的密切程度,越接近±1, 其线性密切程度越高;越接近0,线性密切程度越低
例11.2 计算例11.1中基础代谢Y与体重X之间样本 相关系数。
由例11-1得
三、相关系数的统计推断
(一)假设检验方法: 查表法
按自由度υ=n-2查r界值表,如果样本相关系数r大于界值,
则具有统计学意义,线性相关关系存在
t检验法
tr
r0 sr
υ=n-2
sr
1 r2 n2
例11-3 继例11-2中算得r=0.964后,试检验相 关是否具有统计学意义
H0 : 0 ,H1 : 0 , =0.05
(x x)2 1144.5771 (y y)2 4645447.0121 (x x)(y y) 70303.2329
r
(x x)(y y)
(x x)2 (y y)2
70303.2329
1144.5771 4645447.0121
0.964
即基础代谢与体重之间的相关系数为0.964,呈正相关, 说明基础代谢随体重的增加而升高
查表法
本例 n=14,r=0.964,按υ=14-2=12,查r界值表,得 r0.05,12=0.532
因此P<0.05,即相关系数有统计学意义,可以认 为基础代谢与体重之间存在线性正相关,且相关系 数为0.964
t检验法
本例 n=14,r=0.964,代入公式
t 0.964 12.559 1 0.9642 14 2
正相关(positive correlation) 散点呈直线变化趋势 Y随X的增加而有增加的趋势 当散点全部在一条直线上时, 为完全正相关

卫生统计学 两变量关联性分析

卫生统计学   两变量关联性分析
2z
(21.9198)
故体重与双肾体积总体相关系数的95%置信区间为
(0.6574,0.9579)
四、线性相关应用中应注意的问题 1. 样本的相关系数接近零并不意味着两变量间一定
无相关性。
通常应先绘出样本值的散点图,利用散点图可直观
地判断两变量之间是否具有线性联系。
2. 一个变量的数值人为选定时不应作相关。相关分析
115.508 0.548 n 384
2
二、2×2 配对资料的关联性分析 例7 有132份食品标本,把每份标本一分为二,分别
用甲、乙两种检验方法作沙门菌检验,检验结果如表
4,问两种检验方法的结果是否存在关联?
表4 两种检测方法的结果比较
前面我们用McNemar检验解决了两种培养基的阳性 率是否相等的问题。但如要了解两种培养基结果之间 是否有关联,则需作两种属性的关联性分析。
n 15
y 3991.56, xy 243931.9
lxx 2555.733 l yy 20270.495 lxy 6301.038
2 y 1082440.5572, n 15
代入公式得: r lxy lxx l yy
0.875
说明双肾体积随体重增加而增大,两变量呈正相关。
氧含量分级之间存在相关关系,且为正相关。
第三节 分类变量的关联性分析
对定性变量之间的联系通常用的方法是根据两个定性变
量交叉分类计数所得的频数资料(列联表)作关联分析,
即关于两种属性独立性的卡方检验。
一、交叉分类 2×2 表的关联分析 例6 为研究青少年在校情况与对艾滋病知晓情况之间的 关系,某研究者在某地共调查了384名青少年,并对每名 青少年按是否在校和对艾滋病是否知晓两种属性交叉分 类,如表3所示。试问青少年在校情况与对艾滋病知晓情 况之间是否存在关联性?

卫生统计学两变量关联性分析

卫生统计学两变量关联性分析

二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和相关方向的统 计指标。
N
(x x)(y y)
i1
, 为总体相关系数
N
N
(x x)2(y y)2
i1
i1
.
13
在实际工作中,我们常常只能获得样本的信息或有关
r 数据,据此我们只能计算样本相关系数,记为 。
.
21
(二) 采用t 检验,实际应用中使用得比较普遍
r0 tr Sr 其中,Sr为样本相关系数r的标准误
Sr
1 r2 n2
H0成立时,tr服从自由度为 n 2的t分布
.
22
例3 在例2算得r=0.875后,试检验相关是否有统计学意 义。
①. 建立假设 H0:ρ=0 H1:ρ≠0
②. 确定检验水准 α=0.05
1 1
0.6574
ρ的上限:r
e2z e2z
1 1
e ( 21.9198 ) e ( 21.9198 )
1 1
0.9579
故体重与双肾体积总体相关系数的95%置信区间为 (0.6574,0.9579)
.
28
四、线性相关应用中应注意的问题
1. 样本的相关系数接近零并不意味着两变量间一定 无相关性。 通常应先绘出样本值的散点图,利用散点图可直观 地判断两变量之间是否具有线性联系。
Cramer V系数和Pearson列联系数来度量。
2
n
V 2 , k min(R,C)
n(k 1)
Pearson列联系数r
2 2 n
.
44
这三个系数值越接近于0,说明两个分类变量之间几乎

第12章双变量关联性分析

第12章双变量关联性分析

1. 解:以体重指数为变量X,收缩压为 变量Y作散点图,见下图。可见,体 重指数与收缩压有比较密切的线性相 关关系。
25
收缩压(kpa)
20
15
10
2.5
3
3.5
4
4.5
体重指数
图13-1 16名中年女性体重指数和收缩压的散点图
•实 例
某地方病研究所调查了 8名正常儿童的尿肌 酐含量(mmol/24h)如表9-1。估计尿肌酐含
量(Y)对其年龄(X)的相关关系。
表14-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h)
编号
1
2
3
4
5
67
8
年龄X 尿肌酐含量 Y
13 11 9
6
8 10 12 7
3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
尿肌酐含量(mmol/24h)Y
3.6
r 值为正 ——正相关 r 值为负 ——负相关
|r|=1 --- 完全相关 r=0 --- 零相关
2019/10/18
20
相关关系密切程度的判断
r 0.4
低度相关
0.4 r 0.7 中度相关
r 0.7
高度相关
2019/10/18
21
相关系数的计算:
r
(XX)Y (Y) lXY
• 没有单位,取值介于-1与1之间 • 相关方向用正负号表示 • 相关的密切程度用绝对值表示
2019/10/18
16
相关系数,说明具有直线关系的两个变 量间相关关系的密切程度与相关方向的 指标. r 表示样本相关系数,ρ表示总体相 关系数, -1≤ r ≤1

《医学统计课件:双变量分析》

《医学统计课件:双变量分析》

3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估

卫生统计学客件: 两变量关联性分析

卫生统计学客件: 两变量关联性分析

二、相關係數的意義及計算
線性相關係數 (linear correlation coefficient)
又稱 Pearson積矩相關係數(Pearson product moment coefficient)
相關係數 =
X和Y的协方差
( X的方差)(Y的方差)
總體相關係數ρ:若ρ≠0, 稱X和Y線性相關, 簡稱
相關;若ρ=0, 則簡稱X和Y不相關。 樣本相關係數r
協方差(covariance)的定義、含義
X的樣本方差 =
n
(Xi X)2
i 1
n 1
n
(Yi Y )2
Y的樣本方差 = i1
n 1
X和Y的樣本協方差 =
n
(X i X )(Yi Y )
i1
n 1
圖11-3 雙變數協方差示意圖
n
方法二:t 檢驗
Hale Waihona Puke 根據公式:tr 0.964 12.559 1 (0.964)2
14 2
注意據:自由P 度值越小並14不查2表t臨1示2界相值關表,性得就雙越側強!
|t|> t0.001 2 ,12 , 4P.3<18 0.001, 故拒絕 。可以H認0 為基礎
代謝與體重之間存在正相關。此結果與查表檢驗的結
職業
胃病 淺表性胃炎 慢性胃炎 胃潰瘍
合計
機關幹部
80
工廠工人
52
公車司機
20
48
4
132
62
12
126
22
10
52
合計
152
132
26
310
H0 : 胃病類型與職業無關聯
H: 1胃病類型與職業有關聯

医学统计学课件(研究生)8双变量关联性分析

医学统计学课件(研究生)8双变量关联性分析
直线相关系数(linear correlation coefficient)亦称 Pearson积矩相关系数,是定量描述两个变量间直线 关系的方向和密切程度的指标
总体相关系数用 表示,样本相关系数用r表示
关联分析
5
直线相关
进行相关分析时,首先绘制散点图(scatter plot), 初步判断两变量间的关系。
1849 2116 1764 1681 2209
7310 7958 6720 6478 8131
15 177
45
16 170
43
合计 2744 x
714
y
31329 28900 471570
x2
2025 1849 31946
y2
7965 7310 122715
xy
关联分析
11
直线相关
r
264
Spearman等级相关系数的取值和意义与Pearson直线相关 系数相同 计算得到的等级相关系数,需对其进行假设检验
关联分析
18
列联表的关联性分析
2×2列联表的关联性分析
【案例12-8】 欲研究吸烟与慢性支气管炎的关系, 随机调查了360名45岁以上人的吸烟习惯和慢性 支气管炎情况。见表12-4。
(a) 0< r <1
关联分析
(b) -1< r <0
(c) r =1
(d) r =-1
6
直线相关
(e) r =0
(f) r =0
(g) r =0
(h) r =0
关联分析
7
直线相关
图12-2 16名大学一年级男生身高和前臂长散点图
关联分析
8
直线相关

第十一讲卫生统计学两变量关联性分析

第十一讲卫生统计学两变量关联性分析

第一节 线性相关
一、线性相关的概念
线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性 质可由图11-2散点图直观的说明。
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。例 如,每人的身高和体重。然后在直角坐标系 上描述这些点,这一组点集称为散点图。
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
医学上,许多现象之间也都有相互联系,例如:身高与体 重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不 相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之 间的关系密切得多,而体重和身高的关系则介与二者之间。 另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝 病毒和乙肝之间是因果关系;但是,有的现象之间因果不清, 只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能 说有因果关系。相关与回归就是用于研究和解释两个变量之 间相互关系的。
为了研究父亲与成年 儿子身高之间的关系,卡 尔·皮尔逊测量了1078对父 子的身高。把1078对数字 表示在坐标上,如图。用 水平轴X上的数代表父亲 身高,垂直轴Y上的数代 表儿子的身高,1078个点 所形成的图形是一个散点 图。它的形状象一块橄榄 状的云,中间的点密集, 边沿的点稀少,其主要部 分是一个椭圆。
相关系数的计算公式:
r
( X X )( Y Y ) l XY
( X X ) 2 (Y Y ) 2
l XX l YY

双变量关联性分析双变量关联性分析在医学研究中

双变量关联性分析双变量关联性分析在医学研究中

第十三章双变量关联性分析在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。

这类关系在统计学上称为两个随机变量之间的关联性。

如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。

需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。

本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。

第一节直线相关一、直线相关的概念及其统计描述例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。

据此回答两变量是否有关联?其方向与密切程度如何?表13.1 15名正常成年人体重和双肾体积的测量值编号体重(kg) 双肾体积(ml)1 43 217.222 74 316.183 51 231.114 58 220.965 50 254.706 65 293.847 54 263.288 57 271.739 67 263.4610 69 276.5311 80 341.1512 48 261.0013 38 213.2014 85 315.1215 54 252.08初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测点的分布情况,称为散点图(scatter plot),如图13.1所示。

体重(kg) x图13.115名正常成年人体重和双肾体积的散点图由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。

在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。

研究生医学统计学-关联性分析课件

研究生医学统计学-关联性分析课件
研究生医学统计学-关联性分 析课件
目录
• 关联性分析概述 • 常见关联性分析方法 • 关联性分析的步骤 • 关联性分析的应用场景 • 关联性分析的注意事项
01
关联性分析概述
定义与目的
定义
关联性分析是探讨两个或多个变量之 间关系的统计学方法。
目的
确定变量之间的关系强度、方向和显 著性,为进一步的研究和决策提供依 据。
结果解读
根据相关系数的值判断变量间的关联 程度和方向。
结果解释与报告
要点一
结果解释
结合研究背景和目的,解释相关系数的意义和实际意义。
要点二
报告撰写
按照学术规范撰写报告,包括研究目的、方法、结果和结 论等部分。
04
关联性分析的应用场景
探索两个变量之间的关系
描述两个变量之间的关联程度
通过计算相关系数(如Pearson相关系数、Spearman秩相关系数等),可以描 述两个变量之间的线性或非线性关系,从而了解它们之间的关联程度。
探索疾病影响因素
通过分析不同人群中疾病与相关因素的关联 程度,可以了解疾病的危险因素或保护因素
,为制定预防措施提供依据。
05
关联性分析的注意事项
数据质量与完整性
确保数据来源可靠, 收集方法科学,数据 准确无误。
核实数据单位和测量 方法的统一性,确保 数据可比性。
检查数据是否完整, 避免缺失值和异常值 对分析结果的影响。
偏相关系数
总结词
控制其他变量的影响,适用于多变量之间的 相关性分析。
详细描述
偏相关系数是一种控制其他变量的影响的统 计方法,用于分析两个或多个变量之间的相 关性。通过控制其他变量的影响,偏相关系 数能够更准确地反映变量之间的相关性。在 医学研究中,偏相关系数常用于分析多变量 之间的相关性,尤其是在存在多个潜在影响 因素的情况下。

8-2第八讲两变量关联分析- PPT课件

8-2第八讲两变量关联分析- PPT课件
2

l XY l XX lYY
例 11 -2 计算例 11 - 1 中凝血酶浓度与凝血时 例 11-2 计算例11-1 中凝血酶浓度与凝血时间之间 的样本相关系数 之间的样本相关系数 由原始出 xi 14.7, xi2 14.81,n 15
i i n n

i
n
yi 224, yi2 3368, xi yi 216.7
当样本值为(x1,y1), (x2,y2),… (xn,yn)时,
x和Y的样本均数分别为
X的样本方差
x和y
y的样本方差
x x
i
n
y y
i
n
n 1
n i
n 1
X和Y的样本协方差
r
x x y y
n 1
2
X X Y Y X X Y Y
第一节 线性相关
一、直线相关的概念及其统计描述
二、相关系数的假设检验
三、相关系数的适用条件
四、直线相关系数的意义 五、线性相关应用中应注意的问题
r是样本相关系数,它是总体相关系数

估计值。要判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数
为零的总体。
对相关系数的假设检验方法有两种:


8.874, 15 2 13
查t界值表, 得P 0.001, 按 0.05水准拒绝H 0 , 接受H1 , 就可认为健康成人凝血酶浓度与凝血时间负的直线关系.
第一节 线性相关
一、直线相关的概念及其统计描述
二、相关系数的假设检验
三、相关系数的适用条件
四、直线相关系数的意义 五、线性相关应用中应注意的问题

第12章双变量关联性分析

第12章双变量关联性分析
• 没有单位,取值介于-1与1之间 • 相关方向用正负号表示 • 相关的密切程度用绝对值表示
2019/12/7
16
相关系数,说明具有直线关系的两个变 量间相关关系的密切程度与相关方向的 指标. r 表示样本相关系数,ρ表示总体相 关系数, -1≤ r ≤1
r 的计算结果说明了两个变量X与Y之 间关联的密切程度(绝对值大小)与关联 的性质或方向(正负号)。
tr

r0 Sr
n2
Sr
1 r2 n2
2019/12/7
32
【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0
H1 : 0
0.05
2019/12/7
33
2.计算检验统计量 t r 值
r0
0.8343
tr
1r2

5.6623 10.83423
1. 解:以体重指数为变量X,收缩压为 变量Y作散点图,见下图。可见,体 重指数与收缩压有比较密切的线性相 关关系。
25
收缩压(kpa)
20
15
10
2.5
3
3.5
4
4.5
体重指数
图13-1 16名中年女性体重指数和收缩压的散点图
•实 例
某地方病研究所调查了 8名正常儿童的尿肌 酐含量(mmol/24h)如表9-1。估计尿肌酐含
21332.38366926.6
r
16
0.8343
8548.3031666253813.5692166.62
2019/12/7
29
二、相关系数的假设检验
r≠0原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
查表法,按v=n-2查r界值表,做出推断结论

医学统计学 两指标间的相关分析_PPT幻灯片

医学统计学 两指标间的相关分析_PPT幻灯片
11
分析步骤
➢ 1、散点图 ➢ 2、计算相关系数计算 ➢ 3、相关系数的假设检验
12
10名3岁男童体重与体表面积散点图
6.5
体 表
6.0
面 积 Y/ 5.5 103cm2
5.0
11
12
13
14
15
16
体重/kg X
13
例10.1资料相关系数的计算
X = 13.44,Y5.7266,lX X24.9040 lYY1.5439,lX Y5.9396
➢ 将相关系数 r 变换为 z 值,并按正态分布原
理估计 z 的 100(1- )%的可信限
zu/2sz zu/2
1 n3
然后再进行反变换,求出的可信区间
以例10.1数据为例,试计算总体相关系数
的95%及99%可信区间
➢ z的95%可信区间: 1.9198±1.96×0.3780 = (1.1789,2.6607)
0.0266
2为列联表的2。
41
列联系数的假设检验
等价于四个表卡方检验和列联表的构成比的
假设检验。
2
(a db)c 2n
(ab)a (c)b (d)c(d)
2 n( A2 1)
nRnC
42
10.4 等级资料的相关(rank correlation)
➢ Spearman等级相关 ➢ 将各变量X,Y分别编秩RX, RY; ➢ 计算RX与RY的Pearson相关;10.12
编号 体重(X,kg) 体表面积(Y,103cm2) 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.602 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

等级相关(自学内容)
等级相关应用范围: (1)不服从双变量正态分布的资料 (2)总体分布类型未知的资料 (3)等级资料
Spearman等级相关系数的取值和意义与Pearson直线相关 系数相同 计算得到的等级相关系数,需对其进行假设检验
列联表的关联性分析
2×2列联表的关联性分析
【例12-4】 某研究者欲研究幽门螺杆菌感染(HP) 与家庭成员胃病史的关联性,随机抽取599例慢 性胃炎或胃溃疡的患者,分成家庭成员有胃病史 组和家庭成员无胃病史组,结果家庭成员有胃病 史组182例,HP阳性125例;家庭成员无胃病史组 417例,HP阳性198例。
之,P小于相应的概率水平,然后作出推断。
直线相关 相关系数的假设检验
t检验方法
tr
r0 Sr
Sr
1 r2 n2
n2
直线相关
下面对例12-1所得相关系数进行假设检验 【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0 H1 : 0
0.05
直线相关
【检验步骤】
2.计算检验统计量 tr 值
【分析】 (1)该资料是计数资料,是两个定性变量交叉分
类的列联表资料。 (2)该研究者使用的统计方法是正确的。应用四
格表资料的 2 检验,然后计算列联系数,分析 两分类变量关联的程度。
列联表的关联性分析
表12-4 幽门螺杆菌感染(HP)与家庭成员胃病史的关联性
因素
有胃病史 无胃病史
合计
阳性
阴性
合 计 感染率(%)
直线相关
计算例12-1中体重与胸围间相关系数 • 计算基础数据,并列成相关系数计算表
• 求出 x 、 y 、x2 、 y2 、 xy(见表12-2)
• 代入公式,求出相关系数 r 值。
直线相关
表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表
x 编号
体重kg
(1)
(2)
y 胸围cm
125(98.14) 198(224.86)
323
57(83.86)
182
219(192.14)
417
276
599
68.68 47.48
53.92
列联表的关联性分析
【检验步骤】 1. 建立检验假设,确定检验水准
H0:HP与家庭成员胃病史之间相互独立 H1:HP与家庭成员胃病史之间有关联
0.05
(a) 0< r <1
(b) -1< r <0
(c) r =1
(d) r =-1
直线相关
(e) r =0
(f) r =0
(g) r =0
(h) r =0
直线相关
图12-2 2000年某地16名7岁男孩体重与胸围散点图
直线相关
r x x y y x x 2 y y 2
没有单位,取值介于-1与1之间 相关方向用正负号表示 相关的密切程度用绝对值表示
析两变量之间的数量依存关系 。
直线相关
相关分析的概念
直 线 相 关 (1inear correlation) , 又 称 简 单 相 关 (simple correlation),是用来描述具有直线关系的 两变量x、y的相互关系的统计方法。 要求两变量均来自于双变量正态总体的随机变量。
直线相关
相关系数的意义及计算
列联表的关联性分析
2×2列联表的关联性分析
该研究者采用检验进行假设检验,结 果 2 22.917 ,P<0.005,差异有统计学意义, 故认为幽门螺杆菌感染(HP)与家庭成员胃病 史有关联性。
【问题12-4】 (1)该资料为何种类型资料? (2)该研究者所用统计方法是否正确?
列联表的关联性分析
列联表的关联性分析
直线相关系数(linear correlation coefficient)亦称 Pearson积矩相关系数,是定量描述两个变量间直线 关系的方向和密切程度的指标
总体相关系数用 表示,样本相关系数用r表示
直线相关
进行相关分析时,首先绘制散点图(scatter plot), 初步判断两变量间的关系。
r0
0.8343
tr
1 r2
5.6623 1 0.83432
n2
16 2
直线相关
【检验步骤】 3.确定P值,做出统计推断 按自由度 n - 2 16- 2 14 ,查附表4,P 0.001 按水准,拒绝H0,接受H1,差异有统计学意义, 可认为2000年该地7岁男孩体重与胸围之间有相 关关系。
xy
直线相关
21332.38 366 926.6
r
16
0.8343
8548.30
3662 16
53813.56
926.6 16
2
直线相关
相关系数的假设检验
查表法
根据自由度 n 2 ,查附表14,将所得 r 值与 某概率水平(如0.05)对应的 r 界值相比较,若
r 值小于 r 界值,则P大于相应的概率水平,反
直线相关
【例12-1】 2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。
表12-1 2000年某地16名7岁男孩体重与胸围资料
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
体 重(kg) 24.5
27.0
23.5
28.5
23.0
26.7
26.8
24.6
24.8
19.7
19.5
17.2
20.0
19.0
20.2
21.0
胸 围(cm) 61.0
62.0
60.0
64.0
59.3
58.4
58.6
58.7
58.5
56.0
55.6
54.5
53.0
52.0
58.0
57.0
直线相关
【问题12-1】 该资料有何特点? 该资料应做何种统计分析?步骤如何?
【分析】 • 连续型随机变量,属于定量资料 。 • 可以探讨它们之间的相关关系,还可分
4096.00 1824.00
5 23.0
59.3
529.00
3516.49 1363.90
15 20.2 16 21.0
合计 366.0 x
58.0 57.0 926.6
y
408.04 441.00 8548.30
x2
3364.00 3249.00 53813.56
y2
1171.60 1197.00 21332.38
(3)
x 2(4)=(2)2 y 2 (5)=(3)2 xy (6)=(2)×(3)
1 24.5
61.0
60ቤተ መጻሕፍቲ ባይዱ.25
3721.00 1494.50
2 27.0
62.0
725.00
3844.00 1674.00
3 23.5
60.0
552.25
3600.00 1410.00
4 28.5
64.0
812.25
相关文档
最新文档