相关回归(关联性)分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 两变量关联性分析
两变量关联性分析包括: 定量资料的直线相关分析 等级资料的秩相关分析 分类资料的关联性分析
学习要点
1、掌握基本概念: 直线相关、直线相关分析、相关系数、 直线回归、直线回归分析、 回归系数的意义;
2、熟悉直线相关分析、直线回归分析过程; 3、熟悉直线相关与回归的联系与区别; 4、掌握相关回归的图示方法。
第三节 分类变量的关联性分析
一、交叉分类2×2表的关联分析:(四格表的) 公式:可用基本公式或四格表专用公式
例11-6 研究吸烟方式与慢性气管炎 是否有关,某研究 者随机调查了200例年龄相仿的吸烟者,对每个个体 分别观察慢性气管炎 与否和吸烟方式两种属性,结果 如下表,试分析两种属性的关联性。
71.0
5
3987.4
47.8
12
4560.6
59.7
6
4970.6
62.8
13
4874.4
62.1
7
5359.7
67.3
14
5029.2
61.5
36
四、分析步骤:
1、由原始数据绘散点图,从图的散点分布趋势上 看,存在着直线趋势。
2、求
3、求回归系数b:
五、回归系数的假设检验 (即对β进行推断)
表11-1 14名中年健康妇女的基础代谢与体重的测量值
编号
1 2 3 4 5 6 7
基础代谢 (kJ/d)
4175.6 4435.0 3460.2 4020.8 3987.4 4970.6 5359.7
体重 (Kg)
50.7 53.7 37.1 51.7 47.8 62.8 67.3
编号
8 9 10 11 12 13 14
即y随x增大而增大 b<0表示直线从左上走向右下,
即y随x增大而减少 b=0表示直线与x轴平行,即x与y无关。
b的意义: 当x每变动一个单位时,y相应平均变动的数量。 ⑶ 求a、b并建立方程
Lxy:x y的离均差积和,Lxx:x的离均差平方和。
例11-1 在某地一项膳食调查中,随机抽取了14名40~60 岁的健康妇女,测得每人的基础代谢与体重数据,据 此数据如何判断两项指标间有无相关?
表11-6 310名胃病患者按胃病类型与职业属性
胃
病
职业
合计
浅表性胃炎 慢性胃炎 胃溃疡
机关干部
80
48
4
132
工厂工人
52
62
12
126
公交车司机
20
22
10
52
合计
152
132
26
310
H0:胃病类型与职业无关联 H1:胃病类型与职业有关联
根据
查界值表,判断P值,
今 拒绝H0,接受H1,可认为胃病类型与职业有关联 。 列联系数:
基础代谢 (kJ/d)
3970.6 3983.2 5050.1 5355.5 4560.6 4874.4 5029.2
体重 (Kg)
48.6 44.6 5/8.6 71.0 59.7 62.1 61.5
5800
5300
4800
基
础 代
4300
谢 (KJ/d) 3800
3300
2800
30 35 40 45 50 55 60 65 70 75 体重(Kg)
-
3
9
21
8
12.3
8
64
-
3
9
24
9
13.5
9
81
-
10
13.8
10
100
-
合计
-
55
385
-
3
9
27
3
9
30
55
373Baidu Nhomakorabea
246
二、秩相关系数的统计推断: 推断意义同直线相关系数的推断。
1、查表法:
根据n查p487 rs界值表,本例rs=-0.741 n=10,查得 rs0.05(10)=0.648 今 按0.05的水准,拒绝H0 ,认为贫血患儿的血红蛋白含量 与贫血体征间有相关关系,即血红蛋白含量越低贫血体 征越明显。
区别
回归
相关
资料 要求y服从正态分布, 要x 、y 双变量正 态分
要求上 x可以精确测量
布
应用上
说明两变量的依存变 说明两变量有无关系、
动数量关系
方向、密切程度。
二、联系: 1、同一份资料同时作相关、回归分析, 所得 r、b正负一致; 2、对r和b的检验是等价的,即同一份资料,同作回归相关分
析时,对r和b的检验虽用公式不同,但结论一样。
图11-1 14名中老年健康妇女基础代谢与体重的关系 6
二、相关系数r意义及计算: 又称积差相关系数或简单相关系数,
是表示两变量有无相关、方向、密切程度的指标。其 波动范围:-1~+1,无单位。 见P196图11-2
0<r<1 正相关 一变量增加,另一变量增加 -1<r<0 负相关 一变量增加,另一变量减少 r=0 零相关 无直线关系
32
二、直线回归分析的步骤:
1、建立回归方程式 ⑴一般表达式: 式中:x :自变量 y :应变量 , :y的估计值, a 常数 b回归系数 ⑵ a和b的意义: a 式中为常数,在图中为截距,即回归直线在 y轴上的交点。
a>0 表示直线与y轴的交点在原点之上 a<0 表示直线与y轴的交点在原点之下 a=0 表示直线通过原点。 b: 回归系数,在图中为直线斜率 b>0 表示直线从左下走向右上,
如 大气NO2含量与 汽车流量关系
五、应用直线相关回归时应注意:
1、作相关回归分析要有实际意义;
2、在作相关回归分析前,先绘散点图,根据散点分布 有直线趋势时才选线性回归分析;
3、回归分析时,应在实测范围内应用,不可外延。
如,儿童年龄与体重
,应在12岁以内用,
超出实测范围后,不一定呈直线趋势。
表11-1 14名中年健康妇女的基础代谢与体重的测量值
编号 1
基础代谢 (kJ/d)
4175.6
体重 (Kg)
50.7
编号 8
基础代谢 (kJ/d)
3970.6
体重 (Kg)
48.6
2
4435.0
53.7
9
3983.2
44.6
3
3460.2
37.1
10
5050.1
58.6
4
4020.8
51.7
11
5355.5
3、用回归解释相关,r2为决定系数
二、秩相关系数:
表11-2 贫血患儿的血红蛋白(g/dl)与贫血体征
编号 血红蛋白 秩次p
p2
贫血体征 秩次q
q2
pq
x
y
1
5.0
1
1
+++
10
100
10
2
5.8
2
4
++
8
64
16
3
6.1
3
9
+
6
36
18
4
7.3
4
16
-
3
9
12
5
8.8
5
25
++
8
64
40
6
9.1
6
36
++
8
64
48
7
11.1
7
49
建立回归方程后,只要b不等于0,就建立了方程式, 但要考虑, b不等于0,是因为总体回归系数β不等于 0?还是抽样误差造成的b不等于0?所以,应对总体 回归系数β作是否为0的假设检验。
检验方法有两种: 1、方差分析
2、t检验 方差分析与t检验的关系是:
F= t2 即
1、怎样进行F检验呢?
(1) H0:=0 H1: 0α=0.05。
3、过点(37,2272.5)和(70,5406.2)连线,即回归 线。
5800
5300
4800
基 础 代 4300 谢 (KJ/d) 3800
3300
y =1106.79+61.42x r = 0.964 p<0.001
2800
30 35 40 45 50 55 60 65 70 75 体重(Kg)
图11-1 14名中老年健康妇女基础代谢与体重的关系
第二节 直线回归(方程)的应用:
一、描述两变量的数量依存变化关系
如本例描述为:y=1106.79+61.42x
中老年妇女体重每增加1kg时,基础代谢每天平均增加 61.42 KJ。
二、利用回归方程进行统计控制(逆估计)
如要求y 变量在某一范围内波动时,可通过控制自变量x 的取值来实现。
95%CI:
Sb:回归系数的标准误
五、直线回归方程的图示(补充)
为了直观形象的分析,可在方格纸上作图,步骤如下: 1、绘出纵、横坐标、标目、图题。见图 2、在x的实测范围内任取相距较远的两x值,代入方程
求y1,y2。 如x1=37 y1=1106.7864+61.42*37=2272.5
x2=70 y2=1106.7864+61.42*70=5406.2
表11-3 吸烟习惯与患慢性气管炎
吸烟方式
自卷纸烟 过滤嘴
合计
慢性气管炎
有
无
22
53
15
110
37
163
合计
75 125 200
检验步骤: H0:两种属性之间无关联 H1:两种属性之间有关联
据自由度1查 界值表得: 拒明绝吸H0烟,方可式认不为同两对种患属气性管之炎间有有影关响联。,可以说
两个分类变量的关联程度可用Pearson列联系数 r描述,列联系数r越大关联性越强:
谢 (KJ/d) 3800
3300
2800
30
35
40
45
50
55
60
65
70
75
体重(Kg)
图11-1 14名中老年健康妇女基础代谢与体重的关系
29
由上图可见,中老年健康妇女的体重(x)与基础代 谢(y)存在一种依存变化的数量关系,当体重增加 时,其基础代谢也增加,所有散点呈线性趋势。
直线回归:当一变量随另一变量有规律的依存变化时, 此依存变化的数量关系称直线回归关系,简称回归。
2、 t 检验法:
(1) H0:=0 H1: 0α=0.05
(2)
式中:Sb为回归系数的标准误, Syx为 的标准误,又称剩余标准差,
即残差。
根据n-2定自由度,查t界值表,得t0.001(13)=4.221 按所定检验水准,拒绝H0 ,可认为有回归关系。
3、总体回归系数的置信区间
直线回归分析:据实测值建立一条回归方程式 (在图上绘一条最接近各实测点的直线), 描述其两变量的数量变化关系的方法过程。
5800
5300
4800
基 础 代 4300 谢 (KJ/d) 3800
3300
2800
30
35
40
45
50
55
60
65
70
75
体重(Kg)
图11-1 14名中老年健康妇女基础代谢与体重的关系
根据
查r界值表,查得r0.001(12)=0.780 本例
r=0.964
P<0.001 所得结论与t检验一致。
相关程度
>0.7
密切相关
0.4~0.7 中度相关
<0.4
低度相关
第二节 秩相关 Rank correlation
一、秩相关分析(Spearman秩相关)定义:
研究两非正态分布(或未知分布、等级)变量有无相 关、方向、密切程度的相关方法。是一种非参数统计方 法。
第一节 线性相关
Linear correlation
一、概念 相关: 指两个变量间存在着相互关系,为
相关关系,简称相关。 直线相关:
指两定量变量的数量变化在散点图上呈 直线趋势的相互关系。
直线相关分析:研究两定量正态分布变量有 无关系、方向、密切程度的方法。
例11-1 在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女, 测得每人的基础代谢与体重数据,据此数据如何判断两项指标间有 无相关?
直线回归(linear regression)是回归分析中 最基本、最简单的一种,故又称简单回归 (simple regression),或者称简单线性回归。
一、直线回归概念:
为了直观地说明直线回归的概念,现以表11-1 数据在直角坐标系中描点绘散点图,如下:
5800
5300
4800
基
础 代
4300
(2)求SS总,SS回,SS剩,F。
方差分析表
变异来源
SS
v
MS
F
总变异 4645447.042 13
回归
4318229.172 1 4318229.172 158.36
剩余
327217.87 12
27268.16
(3)据v回,v剩,查F界值表,F> 绝 间H有F0回,0可.0归1认(1,关1为2)系=中9..老33年,健P<康0.0妇1,女按体α重=与0.基05础水代准谢,之拒
介于0~1间 ,无单位
二、2×2配对资料的关联性分析
问有无关联:四格表专用公式,见204页。 问有无差别:b+c>40
三、R×C表分类资料的关联性分析
例11-8 欲探讨职业类型与胃病类型是否有关联,某 医生将收治的310名胃病患者按主要的职业类型与胃 病类型两种属性交叉分类,分析职业类型与胃病类 型是否有关联。
用计算器的SD功能求:
10
三、相关系数r的统计推断(假设检验):
根据样本资料计算的r不等于0,并不能说明总体 相关系数也不等于0,要考虑会不会出现总体上是无相 关关系的,但因抽样误差的原因,使得样本相关系数r 不等于0呢?所以应对相关系数r的进行统计推断。
方法:1、t检验
2、查r表
2、查表法
两变量关联性分析包括: 定量资料的直线相关分析 等级资料的秩相关分析 分类资料的关联性分析
学习要点
1、掌握基本概念: 直线相关、直线相关分析、相关系数、 直线回归、直线回归分析、 回归系数的意义;
2、熟悉直线相关分析、直线回归分析过程; 3、熟悉直线相关与回归的联系与区别; 4、掌握相关回归的图示方法。
第三节 分类变量的关联性分析
一、交叉分类2×2表的关联分析:(四格表的) 公式:可用基本公式或四格表专用公式
例11-6 研究吸烟方式与慢性气管炎 是否有关,某研究 者随机调查了200例年龄相仿的吸烟者,对每个个体 分别观察慢性气管炎 与否和吸烟方式两种属性,结果 如下表,试分析两种属性的关联性。
71.0
5
3987.4
47.8
12
4560.6
59.7
6
4970.6
62.8
13
4874.4
62.1
7
5359.7
67.3
14
5029.2
61.5
36
四、分析步骤:
1、由原始数据绘散点图,从图的散点分布趋势上 看,存在着直线趋势。
2、求
3、求回归系数b:
五、回归系数的假设检验 (即对β进行推断)
表11-1 14名中年健康妇女的基础代谢与体重的测量值
编号
1 2 3 4 5 6 7
基础代谢 (kJ/d)
4175.6 4435.0 3460.2 4020.8 3987.4 4970.6 5359.7
体重 (Kg)
50.7 53.7 37.1 51.7 47.8 62.8 67.3
编号
8 9 10 11 12 13 14
即y随x增大而增大 b<0表示直线从左上走向右下,
即y随x增大而减少 b=0表示直线与x轴平行,即x与y无关。
b的意义: 当x每变动一个单位时,y相应平均变动的数量。 ⑶ 求a、b并建立方程
Lxy:x y的离均差积和,Lxx:x的离均差平方和。
例11-1 在某地一项膳食调查中,随机抽取了14名40~60 岁的健康妇女,测得每人的基础代谢与体重数据,据 此数据如何判断两项指标间有无相关?
表11-6 310名胃病患者按胃病类型与职业属性
胃
病
职业
合计
浅表性胃炎 慢性胃炎 胃溃疡
机关干部
80
48
4
132
工厂工人
52
62
12
126
公交车司机
20
22
10
52
合计
152
132
26
310
H0:胃病类型与职业无关联 H1:胃病类型与职业有关联
根据
查界值表,判断P值,
今 拒绝H0,接受H1,可认为胃病类型与职业有关联 。 列联系数:
基础代谢 (kJ/d)
3970.6 3983.2 5050.1 5355.5 4560.6 4874.4 5029.2
体重 (Kg)
48.6 44.6 5/8.6 71.0 59.7 62.1 61.5
5800
5300
4800
基
础 代
4300
谢 (KJ/d) 3800
3300
2800
30 35 40 45 50 55 60 65 70 75 体重(Kg)
-
3
9
21
8
12.3
8
64
-
3
9
24
9
13.5
9
81
-
10
13.8
10
100
-
合计
-
55
385
-
3
9
27
3
9
30
55
373Baidu Nhomakorabea
246
二、秩相关系数的统计推断: 推断意义同直线相关系数的推断。
1、查表法:
根据n查p487 rs界值表,本例rs=-0.741 n=10,查得 rs0.05(10)=0.648 今 按0.05的水准,拒绝H0 ,认为贫血患儿的血红蛋白含量 与贫血体征间有相关关系,即血红蛋白含量越低贫血体 征越明显。
区别
回归
相关
资料 要求y服从正态分布, 要x 、y 双变量正 态分
要求上 x可以精确测量
布
应用上
说明两变量的依存变 说明两变量有无关系、
动数量关系
方向、密切程度。
二、联系: 1、同一份资料同时作相关、回归分析, 所得 r、b正负一致; 2、对r和b的检验是等价的,即同一份资料,同作回归相关分
析时,对r和b的检验虽用公式不同,但结论一样。
图11-1 14名中老年健康妇女基础代谢与体重的关系 6
二、相关系数r意义及计算: 又称积差相关系数或简单相关系数,
是表示两变量有无相关、方向、密切程度的指标。其 波动范围:-1~+1,无单位。 见P196图11-2
0<r<1 正相关 一变量增加,另一变量增加 -1<r<0 负相关 一变量增加,另一变量减少 r=0 零相关 无直线关系
32
二、直线回归分析的步骤:
1、建立回归方程式 ⑴一般表达式: 式中:x :自变量 y :应变量 , :y的估计值, a 常数 b回归系数 ⑵ a和b的意义: a 式中为常数,在图中为截距,即回归直线在 y轴上的交点。
a>0 表示直线与y轴的交点在原点之上 a<0 表示直线与y轴的交点在原点之下 a=0 表示直线通过原点。 b: 回归系数,在图中为直线斜率 b>0 表示直线从左下走向右上,
如 大气NO2含量与 汽车流量关系
五、应用直线相关回归时应注意:
1、作相关回归分析要有实际意义;
2、在作相关回归分析前,先绘散点图,根据散点分布 有直线趋势时才选线性回归分析;
3、回归分析时,应在实测范围内应用,不可外延。
如,儿童年龄与体重
,应在12岁以内用,
超出实测范围后,不一定呈直线趋势。
表11-1 14名中年健康妇女的基础代谢与体重的测量值
编号 1
基础代谢 (kJ/d)
4175.6
体重 (Kg)
50.7
编号 8
基础代谢 (kJ/d)
3970.6
体重 (Kg)
48.6
2
4435.0
53.7
9
3983.2
44.6
3
3460.2
37.1
10
5050.1
58.6
4
4020.8
51.7
11
5355.5
3、用回归解释相关,r2为决定系数
二、秩相关系数:
表11-2 贫血患儿的血红蛋白(g/dl)与贫血体征
编号 血红蛋白 秩次p
p2
贫血体征 秩次q
q2
pq
x
y
1
5.0
1
1
+++
10
100
10
2
5.8
2
4
++
8
64
16
3
6.1
3
9
+
6
36
18
4
7.3
4
16
-
3
9
12
5
8.8
5
25
++
8
64
40
6
9.1
6
36
++
8
64
48
7
11.1
7
49
建立回归方程后,只要b不等于0,就建立了方程式, 但要考虑, b不等于0,是因为总体回归系数β不等于 0?还是抽样误差造成的b不等于0?所以,应对总体 回归系数β作是否为0的假设检验。
检验方法有两种: 1、方差分析
2、t检验 方差分析与t检验的关系是:
F= t2 即
1、怎样进行F检验呢?
(1) H0:=0 H1: 0α=0.05。
3、过点(37,2272.5)和(70,5406.2)连线,即回归 线。
5800
5300
4800
基 础 代 4300 谢 (KJ/d) 3800
3300
y =1106.79+61.42x r = 0.964 p<0.001
2800
30 35 40 45 50 55 60 65 70 75 体重(Kg)
图11-1 14名中老年健康妇女基础代谢与体重的关系
第二节 直线回归(方程)的应用:
一、描述两变量的数量依存变化关系
如本例描述为:y=1106.79+61.42x
中老年妇女体重每增加1kg时,基础代谢每天平均增加 61.42 KJ。
二、利用回归方程进行统计控制(逆估计)
如要求y 变量在某一范围内波动时,可通过控制自变量x 的取值来实现。
95%CI:
Sb:回归系数的标准误
五、直线回归方程的图示(补充)
为了直观形象的分析,可在方格纸上作图,步骤如下: 1、绘出纵、横坐标、标目、图题。见图 2、在x的实测范围内任取相距较远的两x值,代入方程
求y1,y2。 如x1=37 y1=1106.7864+61.42*37=2272.5
x2=70 y2=1106.7864+61.42*70=5406.2
表11-3 吸烟习惯与患慢性气管炎
吸烟方式
自卷纸烟 过滤嘴
合计
慢性气管炎
有
无
22
53
15
110
37
163
合计
75 125 200
检验步骤: H0:两种属性之间无关联 H1:两种属性之间有关联
据自由度1查 界值表得: 拒明绝吸H0烟,方可式认不为同两对种患属气性管之炎间有有影关响联。,可以说
两个分类变量的关联程度可用Pearson列联系数 r描述,列联系数r越大关联性越强:
谢 (KJ/d) 3800
3300
2800
30
35
40
45
50
55
60
65
70
75
体重(Kg)
图11-1 14名中老年健康妇女基础代谢与体重的关系
29
由上图可见,中老年健康妇女的体重(x)与基础代 谢(y)存在一种依存变化的数量关系,当体重增加 时,其基础代谢也增加,所有散点呈线性趋势。
直线回归:当一变量随另一变量有规律的依存变化时, 此依存变化的数量关系称直线回归关系,简称回归。
2、 t 检验法:
(1) H0:=0 H1: 0α=0.05
(2)
式中:Sb为回归系数的标准误, Syx为 的标准误,又称剩余标准差,
即残差。
根据n-2定自由度,查t界值表,得t0.001(13)=4.221 按所定检验水准,拒绝H0 ,可认为有回归关系。
3、总体回归系数的置信区间
直线回归分析:据实测值建立一条回归方程式 (在图上绘一条最接近各实测点的直线), 描述其两变量的数量变化关系的方法过程。
5800
5300
4800
基 础 代 4300 谢 (KJ/d) 3800
3300
2800
30
35
40
45
50
55
60
65
70
75
体重(Kg)
图11-1 14名中老年健康妇女基础代谢与体重的关系
根据
查r界值表,查得r0.001(12)=0.780 本例
r=0.964
P<0.001 所得结论与t检验一致。
相关程度
>0.7
密切相关
0.4~0.7 中度相关
<0.4
低度相关
第二节 秩相关 Rank correlation
一、秩相关分析(Spearman秩相关)定义:
研究两非正态分布(或未知分布、等级)变量有无相 关、方向、密切程度的相关方法。是一种非参数统计方 法。
第一节 线性相关
Linear correlation
一、概念 相关: 指两个变量间存在着相互关系,为
相关关系,简称相关。 直线相关:
指两定量变量的数量变化在散点图上呈 直线趋势的相互关系。
直线相关分析:研究两定量正态分布变量有 无关系、方向、密切程度的方法。
例11-1 在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女, 测得每人的基础代谢与体重数据,据此数据如何判断两项指标间有 无相关?
直线回归(linear regression)是回归分析中 最基本、最简单的一种,故又称简单回归 (simple regression),或者称简单线性回归。
一、直线回归概念:
为了直观地说明直线回归的概念,现以表11-1 数据在直角坐标系中描点绘散点图,如下:
5800
5300
4800
基
础 代
4300
(2)求SS总,SS回,SS剩,F。
方差分析表
变异来源
SS
v
MS
F
总变异 4645447.042 13
回归
4318229.172 1 4318229.172 158.36
剩余
327217.87 12
27268.16
(3)据v回,v剩,查F界值表,F> 绝 间H有F0回,0可.0归1认(1,关1为2)系=中9..老33年,健P<康0.0妇1,女按体α重=与0.基05础水代准谢,之拒
介于0~1间 ,无单位
二、2×2配对资料的关联性分析
问有无关联:四格表专用公式,见204页。 问有无差别:b+c>40
三、R×C表分类资料的关联性分析
例11-8 欲探讨职业类型与胃病类型是否有关联,某 医生将收治的310名胃病患者按主要的职业类型与胃 病类型两种属性交叉分类,分析职业类型与胃病类 型是否有关联。
用计算器的SD功能求:
10
三、相关系数r的统计推断(假设检验):
根据样本资料计算的r不等于0,并不能说明总体 相关系数也不等于0,要考虑会不会出现总体上是无相 关关系的,但因抽样误差的原因,使得样本相关系数r 不等于0呢?所以应对相关系数r的进行统计推断。
方法:1、t检验
2、查r表
2、查表法