双变量关联性分析 ppt
第11章 两变量关联性分析
![第11章 两变量关联性分析](https://img.taocdn.com/s3/m/448b2f16be1e650e52ea99da.png)
样本相关系数r
协方差(covariance)的定义、含义
X的样本方差 =
n
(Xi X)2
i 1
n 1
Y的样本方差 =
n
(Yi Y )2
i1
n 1
X和Y的样本协方差 =
n
(X i X )(Yi Y )
i1
n 1
图11-3 双变量协方差示意图
n
r lXY
( X i X )(Yi Y )
trs
rs 0 Srs
Srs
1 rs2 n2
第三节 分类变量的关联性分析
对两个定量变量的关联性,我们可用Pearson积矩相 关系数或秩相关系数来描述;对两个分类变量,通常是 先根据交叉分类计数所得的列联表进行两种属性独立性 的检验,然后计算关联系数。
一、交叉分类2×2表的关联分析
例11-6: 研究吸烟方式与患慢性气管炎是否有关,某研究者 随机调查了200例年龄相仿的吸烟者,对每个个体分别观察慢 性气管炎与否和吸烟方式两种属性,2×2种结果分类记数如 表11-3所示。试分析两种属性的关联性。
二、相关系数的意义及计算
线性相关系数 (linear correlation coefficient)
又称 Pearson积矩相关系数(Pearson product moment coefficient)
相关系数 =
X和Y的协方差
( X的方差)(Y的方差)
总体相关系数ρ:若ρ≠0, 称X和Y线性相关, 简称相关;若ρ=0, 则
:H吸0 烟方式与慢性气管炎有无之间互相独立
:H吸1 烟方式与慢性气管炎有无之间有关联 α=0.05 将表中各数据代入公式(9-7)
卫生统计学两变量关联性分析
![卫生统计学两变量关联性分析](https://img.taocdn.com/s3/m/06031fc50066f5335b8121c0.png)
.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设
两变量关联性分析
![两变量关联性分析](https://img.taocdn.com/s3/m/163770006bd97f192279e95f.png)
N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
《医学统计课件:双变量分析》
![《医学统计课件:双变量分析》](https://img.taocdn.com/s3/m/d991374d854769eae009581b6bd97f192279bfd5.png)
3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估
关联性分析课件
![关联性分析课件](https://img.taocdn.com/s3/m/621f6acdbdeb19e8b8f67c1cfad6195f302be844.png)
1. 它们在客观上是有一定联系的; 特点: 2. 在观察时是独立地去测量的;
3.这两个随机变量都服从正态分布; 例如:父子的身高(X)、儿子的身高(Y)
X1 Y1 、X2 Y2 、 X3 Y3 、 … 、 Xn Yn
相关分析和回归分析
是否有联系,联系的方 向、程度如何?
相关或关联
定量指示相关或关联的 指标:如相关系数
定量描述其 依存关系
回归分析
依存性 (relationship)
数学模型:如Y=f (x)
如何保证一份作关联性研究的样本合格?
抽样研究
保证样本的合格性
随机抽样 保证样本间相互独立
关联性分析
9.1 概述 9.2 两个连续型随机变量的相关分析 9.3 两个分类变量间的关联分析
(b)
(d)
(f)
(h)
散点图能直观地看出两变量是否存在相关关系。故研 究两变量关系应先绘散点图,再量化两者的关系。
Positive Correlation
Negative Correlation
Zero Correlation
Curvilinear relationship
(a)
(c)
Linear Relationship
相关系数反应线性相关性:
Y
Y
5.0
Y
7.5
Y
6
2.2
4.5
Y
7.0
2.0
5
4.0
1.8
6.5
4
3.5
1.6 3.0
6.0
3
1.4
2.5
5.5
1.2
2
2.0
1.0
统计学:两变量关联性分析
![统计学:两变量关联性分析](https://img.taocdn.com/s3/m/cda04a12ba1aa8114431d991.png)
l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6
2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82
10两变量关联性分析
![10两变量关联性分析](https://img.taocdn.com/s3/m/11e6e2c73c1ec5da51e2707b.png)
线性相关(linear correlation)
可见两个变量间的关系并不是函数式的确定关 系——非函数式确定性关系
总的来说,体重轻者基础代谢低,重者基础代谢 高,二者变化趋势呈正向关系——正相关
各点的态势趋近一条直线呈线性——线性相关 线性相关(linear correlation),又称简单相关,
人的肺活量往往随着胸围的增加而增加,二者 间是否有联系?
举重运动员所能举起的最大重量是否与他的体 重有关?
在水碘含量不同的地区,甲状腺肿大的患病情 况不太相同,它们间是否有关联?
相关关系与确定性关系
所谓确定性关系是指两变量间的关系是函数关系:已知一个变量的值, 另一个变量的值可以通过这种函数关系精确计算出来。
第十章:两变量 关联性分析
问题的提出
前面的章节已经讨论的统计学方法着重于比较单 个变量的组间差别(例如:均数的差别、率的差别、 构成比的差别、中位数的差别等)
但是在医学研究中,还需要对两个随机变量间的 关系进行量化研究
问题的提出
人的体重往往随着身高的增加而增加,算方法如下:
rs
l xy lxx l yy
将X、Y变量所对应的秩次作为新变量,代入上述公式
计算器求得:
56.5
rs
-0.741 82.5 70.5
秩相关系数的假设检验
因此样本资料的秩相关系数为-0.741,意味着两变量间可 能存在负关联
rs来自10个个体值组成的样本,存在着抽样误差,故计算 出rs后,需作的假设检验
n
( Xi X )(Yi Y )
r
i 1
0.964
n
(
Xi
X
)2
n
(Yi
【医学统计学】8双变量关联性分析
![【医学统计学】8双变量关联性分析](https://img.taocdn.com/s3/m/09769a91336c1eb91a375ddd.png)
列联表的关联性分析
【分析】 (1)该资料是计数资料,是两个定性变量交叉分
类的列联表资料。 (2)完全随机设计中两个样本是独立的。 (3)两个分类变量的关联性分析,先进行 检验,
然后计算关联系数,分析两分类变量关联的程度。
2
列联表的关联性分析
表12-4 吸烟习惯和慢性支气管炎情况
吸烟习惯 吸烟 不吸烟
图12-2 16名大学一年级男生身高和前臂长散点图
直线相关
r x x y y x x 2 y y 2
没有单位,取值介于-1与1之间 相关方向用正负号表示 相关的密切程度用绝对值表示
直线相关
计算例12-1中身高与前臂长间相关系数 计算基础数据,并列成相关系数计算表
求出 、x 、y 、x2 、y2 (xy见表12-2)
xy
直线相关
r
264
0.924
974 83.75
直线相关
相关系数的假设检验
查表法
根据自由度 n 2 ,查附表14,将所得 r 值与 某概率水平(如0.05)对应的 r 界值相比较,若
r 值小于 r 界值,则P大于相应的概率水平,反
之,P小于相应的概率水平,然后作出推断。
直线相关
相关系数的假设检验
177
170
46
42
41
47
49
45
48
43
43
46
44
42
45
43
直线相关
【问题12-1】 该资料属于哪种类型?有何特点? 利用资料分析两变量的关联性时,应采用何种统 计方法?
【分析】 两变量均属于定量资料 。 可以探讨它们之间的相关关系,根据数据
特征采用直线相关分析或等级相关分析。
双变量的统计分析相关分析演示文稿
![双变量的统计分析相关分析演示文稿](https://img.taocdn.com/s3/m/369e327f0812a21614791711cc7931b764ce7b6a.png)
双变量的统计分析相关分析演示文稿主题:双变量的统计分析相关分析引言:大家好,我是XX,今天我将为大家介绍双变量的统计分析中的相关分析。
统计学是一门非常重要的学科,它可以帮助我们理解数据之间的关系和趋势。
相关分析是其中一种常用的统计方法,通过分析两个变量之间的关系,我们可以揭示出他们之间的相关性并获得有价值的信息。
接下来,我将为大家介绍相关分析的基本原理、步骤以及一些注意事项。
一、相关分析的基本原理1.1什么是相关性相关性表示两个变量之间的关系强度和方向。
当两个变量的数值同时增加或减少时,我们称它们为正相关性;当两个变量的数值一个增加一个减少时,我们称它们为负相关性;当两个变量之间没有明显的关联时,我们称它们为无相关性。
1.2相关系数相关系数是衡量两个变量之间相关性强度的指标。
常用的相关系数包括皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。
皮尔逊相关系数适用于度量两个连续变量之间的线性关系,而斯皮尔曼相关系数适用于度量有序变量之间的关系。
二、相关分析的步骤2.1确定假设在进行相关分析前,我们需要明确假设,通常我们主要关注两个方面:一是相关性是否存在;二是相关性的方向。
2.2收集数据收集所需的原始数据,并进行必要的数据处理,确保数据的正确性和完整性。
2.3计算相关系数根据选定的相关系数公式,计算出两个变量之间的相关系数。
例如,计算皮尔逊相关系数可以利用公式:r = Σ((Xi - Xmean)*(Yi - Ymean)) / sqrt(Σ(Xi - Xmean)^2 * Σ(Yi - Ymean)^2),其中,Xi和Yi分别表示两个变量的取值,Xmean和Ymean表示两个变量的平均值。
2.4统计推断通过对相关系数进行假设检验,判断相关性是否显著。
常用的假设检验方法包括t检验和F检验等。
三、相关分析的注意事项3.1样本容量样本容量的大小对相关分析的结果有重要影响。
样本容量越大,相关性的准确性就越高。
第十章 两变量相关性分析
![第十章 两变量相关性分析](https://img.taocdn.com/s3/m/aeab7b3d0975f46526d3e10a.png)
二、相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXXlYY
XY ( X )(Y) / n
[ X 2 ( X )2 / n][Y 2 (Y )2 / n]
式中 (X X )2 为X的离均差平方和, 用 lXX 代替;
按自由度v=n-2查相关系数界值表(附表12,P425)。 2. t 检验 (n>50)
公式 t r 0 = r
,υ=n-2
Sr
1 r2
n2
Sr---- 相关系数的标准误 求得 t 值后查t 界值表得P值。
本例n=21,故采用查表法:按v= n-2 = 21-2 = 19 查附表12可知, r0.05/ 2,19 0.433
0.81
16
4.60
0.85
17
3.58
0.83
18
3.57
0.84
19
3.49
0.73
20
3.63
1.27
21
3.89
0.78
计算相关系数的一般步骤为:
1. 绘制散点图。 (见图10-2)。
散点图显示两 变量有直线趋势
图10-2 肝癌病人血清胆固醇与甘油三酯关系散点图
2. 计算基础数据,并列出相关系数计算表,
病人序号
血清胆固醇
甘油三脂
1
3.89
1.71
2
3.41
1.01
35.700.Fra bibliotek746.84
1.78
5
2.93
1.25
6
3.98
0.70
7
4.23
1.33
第十一讲卫生统计学两变量关联性分析
![第十一讲卫生统计学两变量关联性分析](https://img.taocdn.com/s3/m/667570a6647d27284a73518b.png)
第一节 线性相关
一、线性相关的概念
线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性 质可由图11-2散点图直观的说明。
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。例 如,每人的身高和体重。然后在直角坐标系 上描述这些点,这一组点集称为散点图。
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
医学上,许多现象之间也都有相互联系,例如:身高与体 重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不 相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之 间的关系密切得多,而体重和身高的关系则介与二者之间。 另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝 病毒和乙肝之间是因果关系;但是,有的现象之间因果不清, 只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能 说有因果关系。相关与回归就是用于研究和解释两个变量之 间相互关系的。
为了研究父亲与成年 儿子身高之间的关系,卡 尔·皮尔逊测量了1078对父 子的身高。把1078对数字 表示在坐标上,如图。用 水平轴X上的数代表父亲 身高,垂直轴Y上的数代 表儿子的身高,1078个点 所形成的图形是一个散点 图。它的形状象一块橄榄 状的云,中间的点密集, 边沿的点稀少,其主要部 分是一个椭圆。
相关系数的计算公式:
r
( X X )( Y Y ) l XY
( X X ) 2 (Y Y ) 2
l XX l YY
两变量关联性分析
![两变量关联性分析](https://img.taocdn.com/s3/m/4653f103f78a6529647d53b5.png)
170例某病患者的治疗效果资料 疗效 患者年龄(岁) 无效 好转 治愈 <18 5 32 20 18~ 30 38 10 50~ 15 10 10 合计 50 80 40
合计 57 78 35 170
两变量关联性分析
43
170例某病患者的治疗效果资料 患者年龄 <18 18~ 50~ 合计 累积频数 秩次范围 疗效 无效 5 30 15 50 50 1~50 好转 32 38 10 80 130 51~130 治愈 20 10 10 40 170 131~170 合计 累积频数秩次范围 57 78 35 170 57 135 平均秩次
两变量关联性分析
14
2013-2-2
(二)线性相关分析步骤
绘制散点图
散点图呈线性趋势时,计算样本相关系数
对样本相关系数进行假设检验
相关系数有统计学意义时,解释相关系数的统计学意义
两变量关联性分析
16
2013-2-2
(二)线性相关分析步骤
对样本相关系数进行假设检验 由样本的相关系数不为零,推断总体的相关系数是 否为零。
绘制散点图(scatter plot)
将其中一个变量作为X轴变量,另一个变量作为Y 轴变量,以一一对应的(X,Y)绘制散点。
例如:教材195页例11-1(散点图图11-1)
注意观察散点的变化方向和密集程度
医学现象中,常见的散点图见教材196页
正相关、负相关、曲线相关、零相关
两变量关联性分析
8
2013-2-2
二、秩相关
秩相关系数假设检验
查表法(查rs界值表)
t检验
t
rs 0 1 rs n2
2
n2
两变量关联性分析
10两变量关联性分析
![10两变量关联性分析](https://img.taocdn.com/s3/m/201fb0721ed9ad51f01df23b.png)
三、线性相关系数的统计推断
r是样本相关系数,它是总体相关系数ρ的估计值。要
判断X、Y间是否有相关关系,就要检验r是否来自总体相关 系数ρ为零的总体。 1
r1
== ?
2
r2
== ?
对相关系数的假设检验方法有两种:
1、查表法
2、采用t检验
P480
附表13
检验统计量为:
r 0 r t , n 2 2 Sr 1 r n2
ρ的置信区间:
1.对r进行z变换 1 1 r e2 z 1 z ln( ) r 2z 2 1 r e 1 1 1 1 2. z ~ N( ln( ), ) 2 1 n 3 1 1 3.计算z的总体均数 ln( )的1 置信区间 2 1 z z (z , z ) n3 n3 4.将z的置信区间转换成的置信区间 e2 z 1 将第三步置信区间上下限分别代入到 r 2 z e 1
p
n
2
82.5
lqq
q2
q
n
2
70.5
l pq rs
p q pq 56.5
n 56.5 0.741 82.5 70.5
l pq l pplqq
第二节 秩相关
一、秩相关的概念及其描述 二、秩相关系数的统计推断
第十章
两变量关联性分析
主讲人:武建辉
前面章节中讲述了单一数值变量的统计分 析方法,但在医学科学研究中,常要分析变量间 的关系,如年龄与血压、身高与体重,回归与相 关就是研究这种关系的统计方法,属于双变量 分析范畴。
第一节 线性相关
一、线性相关的概念及其统计描述 例10-1 在某地一项膳食调查中,随机抽取了14名40-60岁的健 康妇女,测得每人的基础代谢(kj/d)与体重(kg)数据,见表10-1. 据此数据如何判断这两项指标间有无关联 表10-1 14名中年健康妇女的基础代谢与体重的测定值
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-
31
-
32
联系
2、假设检验等价:r和b的假设检验是等 价的,即对同一样本,两者的t值相等, 检验结果完全一致
-
33
联系
3、用回归解释相关 r的平方称为决定系数
r2 l2xy l2xy lxx SS回
lxxlyy
lyy
SS总
-
-
43
秩相关
-
44
秩相关适用条件
原始数据只能以等级表示 总体分布未知 不服从双变量正态分布
-
45
P169 例13.4
某研究者对15例30~50岁成年男子的舒张压 (mmHg)与夜间最低血氧含量分级进行研究, 结果见表13.2,试分析两者的关联性。
-
46
rs的计算
将x及y的秩次直接代入直线相关系数的计算公式 可得到rs 。
-
41
应用直线回归和相关的注意点
5、不能只根据相关系数的绝对值大小来 判断相关的密切程度,应首先作假设 检验
例:r=0.601 n=8 p=0.10~0.20 r=0.401 n=42 p=0.005~0.01
-
42
应用直线回归和相关的注意点
6、 和 为零仅说明没有变量间没有
直线关系,不能说明变量间没有关系
-
21
2. 出现离群点时慎用相关
-
22
3. 分层资料不可盲目合并
-
23
3. 分层资料不可盲目合并
-
24
3. 分层资料不可盲目合并
-
25
3. 分层资料不可盲目合并
-
26
直线回归与直线相关的区别与联系
-
27
区别
1、资料要求不同 回归:y服从正态分布,x没有特别的 要求 相关:x和y服从双变量正态分布
-
12
相关系数的意义
相关密切程度:用r的大小表示,r的绝对 值越接近于1,说明相关越密切
相 关 方 向 : 用r的正负号表示
-
13
P164 例13.1
某医师测量了15名正常成年人的体重(kg)与 CT双肾体积(ml)大小,数据如表13.1所示。 据此回答两变量是否有关联?其方向与密 切程度如何?
34
决定系数r2
表示回归平方和占总平方和的比例,即应 变量y的总变异中由自变量x可以解释的比例。
SS回越接近于SS总,则r2越接近于1,说明引 入相关变量的效果越好
当相关系数较小时,若引入回归,可能由 于减少的误差太少而无实际意义
-
35
ቤተ መጻሕፍቲ ባይዱ example
如 r=0.20,n=100时,P<0.05,r有统 计学意义。但r2=0.04,表示SS回在SS总 中仅占4%,说明两变量相关分析的实 际意义不大。
应用直线回归和相关的注意点
4、相关关系不一定是因果关系,也可能 是伴随关系
-
39
如某生春种一植物,不久长出幼苗。恰邻 院盖楼,细心观测,苗长楼增。计算发现, 苗高与楼高具有相关性。
两者是否真有内在联系?
-
40
例:1875~1920,美国年铁制品产量与 英国年出生率相关系数为-0.98
因素:社会、经济、技术
(xx)2 (yy)2 lxxlyy
-
17
相关系数的假设检验
检验r是否来自总体相关系数为零的总体。
常用t检验:
r0 tr Sr
r 1 r2 n2
n2
-
18
Ho: =0,两变量间无直线相关关系
H1=: 0≠.005 两变量间有直线相关关系
0.875
t
6.517
1(0.875)2
15213
-
50
单一样本,按两种属性分级,故称 双向有序列联表
数用 表示
-
4
相关的种类
-
5
0< r <1
-
6
-1< r <0
-
7
r=1
-
8
r = -1
-
9
r=0
-
10
r=0
-
11
相关的种类
正相关:0< r <1 完全正相关: r =1 负相关:-1< r <0 完全负相关: r =-1 零相关:r =0 相关系数没有单位,其值为-1≤r≤1
-
36
应用直线回归和相关的注意点
1、作回归和相关分析之前,先绘制散点图 2、据资料的性质正确选用回归和相关 3、用回归方程进行预测的时候,应当谨慎。
X不能偏离实测范围太远,否则偏差太大。
-
37
example
y ˆ81.541.222x
x:20~50妇女年龄 y:血压
x=0时,yˆ 81.54
-
38
双变量 关联性分析
授课教师:殷菲
-
1
➢ 单变量分析方法(univariate
analysis):t检验、u检验、方差分析
➢ 双变量分析方法(bivariable analysis) :直线回归与相关、秩相 关等
-
2
直线相关
-
3
直线相关的概念
用相关系数描述两变量间直线关系的 密切程度和方向
相关系数又称Pearson 积矩相关系数, 样本相关系数用r表示,总体相关系
-
47
rs的假设检验
当n≤50时,检验ρs是否为零可用查表法(查 附表15,rs界值表)。
当n>50时,按式(13-4)和(13-5)计算检验统计 量。
-
48
分类变量的关联性分析
-
49
什么是关联性分析?
对一组观察对象, 分别观察其两种分类 变量的表现, 归纳成双向交叉排列的统计 表, 这类统计表用以描述行变量和列变量 之 间 的 关 系 , 亦 称 为 列 联 表 (contingency table)。
(若x数值系人为选定,莫作相关 例 药物的剂量-反应关系)
-
28
区别
2、应用情况不同 回归:反映两变量间的数量关系(b) 相关:反映两变量间互依的程度和方向(r)
-
29
提问方式不同 年龄增加,血压发生什么样的变化? 年龄和血压之间有关系吗?
-
30
联系
1、方向一致:对同一组数据若同时计 算r和b,其正负号是一致的
-
14
直线相关的计算步骤
绘制散点图:观察散点是否随一变量的 变化而变化,所有散点是否呈直线关系
-
15
双 肾 体 积
(ml) y
体重 (kg) x
图13.1 15名正常成年人体重和双肾体积的散点图
-
16
直线相关的计算步骤
计算样本相关系数(本例r =0.875)
离均差积和
r
(xx)(yy) lxy
152
查附表3,t界值表,得p<0.001,,拒绝Ho,可以 认为体重和双肾体积之间有直线相关关系。
-
19
相关分析应用中应注意的问题
-
20
1. 进行相关分析前应先绘制散点图
散点图能使我们直观地看出两变量间有无 线性关系并发现可能的离群点(outlier),当 散点有线性趋势时,才能进行相关分析。