【统计学】10两变量关联性分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章 两变量关联性分析
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
1
变量间的关系
•血压-年龄 •动物死亡率-毒物剂量 •身高-体重 •肺活量-体重
2
第一节 线性相关
一、 线性相关的概念 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量
正态分布(bivariate normal distribution)资料。
3
Galton数据散点图(英寸)
height of son
75
70
65
60
60
65
70
75
height of father 4
函数关系与相关关系
y x
y
x
5
相关关系示意图
6
7
散点图
8
二、相关系数的意义及计算
1725
454
298525
20690
78541
∑X
∑Y
∑X2
∑Y2
∑XY
16
•(1)由原始数据绘制散点图,本资料 呈直线相关趋势。
17
• (2)根据原始数据计算出∑X,∑Y,∑X2,∑Y2,∑XY 。 • 本例∑X=1725,∑Y=454, • ∑X2=298525,∑Y2=20690,∑XY=78541。 • (3)计算X、Y的离均差平方和与离均差积和
t r 0.8227 4.09 1 r 2 1 0.82272
n2
10 2
24
•(3)确定P值,作出推断结论 •
按 υ = n-2=8 查 t 界 值 表 , 得 0.002<P<0.005,按α=0.05水准, 拒绝Ho,接受H1,故可认为20岁男 青年身高与前臂长呈正直线相关关 系。与查表法所得结果相同。
21
1、查表法
查附表13(P480), r界值表 列出了相关系数r与0差别显著性的 判断界值,按υ=n-2查r界值表, 当r≥rα,n-2时,则P≤α ;反之, r < rα,n-2 时 , 则 P > α 。 例 10.3中r=0.8227,大于r0.05(8)= 0.632 ,故P<0.05,所得相关系数 有统计学意义。
相关系数(correlation coefficient),又称 积 差 相 关 系 数 ( coefficient of product – moment correlation),或 Pearson 相关系 数(软件中常用此名称)
说明相关的密切程度和方向的指标。 r ——样本相关系数 ρ——总体相关系数
9
相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXX lYY
• 式中lXX与lYY分别为变量X与Y的离均差平方和, lXY为两变量X 、Y的离均差积和。
10
双变量协方差示意图
11
相关系数的特点
1.相关系数r是一个无量纲的数值, 且-1≤r≤1;
2. r 值为正 ——正相关, r 值为负 ——负相关; 3. |r|的绝对值越接近于1,说明相关性越好; |r|越接近于0,说明
相关性越差。
|r|=1 --- 完全相关, |r|=0 --- 零相关。
12
计算公式:
l XX
X2
( X )2 n
lYY
Y 2
(Y )2
nห้องสมุดไป่ตู้
l XY
XY
( X )(Y ) n
13
14
•一般认为,当样本含量较大的情况下 (n>100),大致可按下列标准估计两
变量相关的程度
• │r│≥0.7 •0.7>│r│≥0.4 •0.4>│r│≥0.2
l XX
X2
( X )2 n
298525
1725 2 10
962 .5
lYY
Y 2
(Y )2 n
20690
454 2 10
78.4
18
l XY
XY ( X )(Y ) n
78541 1725 454 10
226
•(4)求相关系数r
r lXY
226
0.8227
lXX lYY 962.5 78.4
1764
7266
160
44
25600
1936
7040
155
41
24025
1681
6355
173
47
29929
2209
8131
188
50
35344
2500
9400
178
47
31684
2209
8366
183
46
33489
2116
8418
180
49
32400
2401
8820
165
43
27225
1849
7095
25
第二节 秩相关
• 当遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲 的直线相关分析,而常用等级相关处理资料。
• 等级相关(rank correlation)亦称为秩相关。本节主要介绍 Spearman等级相关法。
等级相关系数 rs(即Spearman Correlation Coefficient)——反映两变量间相关的密切程度 与方向 。
22
2、t 检验法
t |r0| |r|
Sr
Sr
1 r2 Sr n 2
23
• 例10-4 对例10-3资料所得r值,检验20岁男青年 身高与前臂长是否有直线相关关系。
• (1)建立检验假设 • Ho:ρ=0 ,两变量间无直线相关关系 • H1:ρ≠0 ,两变量间有直线相关关系 • α=0.05 • (2)计算t值 本例n=10, r=0.8227
26
适用条件:
①资料不服从双变量正态分布而不宜作 积差相关分析; ②总体分布型未知,一端或两端是不确 定数值(如<10岁,≥65岁)的资料; ③原始数据用等级表示的资料。
27
Spearman等级相关系数的计算
① 分别将X与Y从小到大编秩,若遇相 同值取平均秩次; ② 然后按前面介绍的 Pearson相关系 数的计算方法求解
19
三、相关系数的统计推断
•检验r是否来自总体相关系数ρ为零的总 体。
20
相关系数的假设检验
根据样本计算出的相关系数r,是总体 相关系数ρ的估计值。从ρ=0(无直线相关) 的总体中抽取样本,其r不一定为0。因此, 得到r≠0后,由于存在抽样误差,则有必 要检验r是否来自ρ=0的总体,以判定两变 量间是否有直线相关关系。
高度相关 中度相关 低度相关
15
• 例10-3 某研究者测量10名20岁男青年身高与前臂长。见表10-2。问 身高与前臂长有无直线相关关系?
表10-2 身高与前臂长数据与计算表
身高(cm) 前臂长(cm)
X
Y
X2
Y2
XY
(1)
(2)
(3)
(4)
(5)
170
45
28900
2025
7650
173
42
29929
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
1
变量间的关系
•血压-年龄 •动物死亡率-毒物剂量 •身高-体重 •肺活量-体重
2
第一节 线性相关
一、 线性相关的概念 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量
正态分布(bivariate normal distribution)资料。
3
Galton数据散点图(英寸)
height of son
75
70
65
60
60
65
70
75
height of father 4
函数关系与相关关系
y x
y
x
5
相关关系示意图
6
7
散点图
8
二、相关系数的意义及计算
1725
454
298525
20690
78541
∑X
∑Y
∑X2
∑Y2
∑XY
16
•(1)由原始数据绘制散点图,本资料 呈直线相关趋势。
17
• (2)根据原始数据计算出∑X,∑Y,∑X2,∑Y2,∑XY 。 • 本例∑X=1725,∑Y=454, • ∑X2=298525,∑Y2=20690,∑XY=78541。 • (3)计算X、Y的离均差平方和与离均差积和
t r 0.8227 4.09 1 r 2 1 0.82272
n2
10 2
24
•(3)确定P值,作出推断结论 •
按 υ = n-2=8 查 t 界 值 表 , 得 0.002<P<0.005,按α=0.05水准, 拒绝Ho,接受H1,故可认为20岁男 青年身高与前臂长呈正直线相关关 系。与查表法所得结果相同。
21
1、查表法
查附表13(P480), r界值表 列出了相关系数r与0差别显著性的 判断界值,按υ=n-2查r界值表, 当r≥rα,n-2时,则P≤α ;反之, r < rα,n-2 时 , 则 P > α 。 例 10.3中r=0.8227,大于r0.05(8)= 0.632 ,故P<0.05,所得相关系数 有统计学意义。
相关系数(correlation coefficient),又称 积 差 相 关 系 数 ( coefficient of product – moment correlation),或 Pearson 相关系 数(软件中常用此名称)
说明相关的密切程度和方向的指标。 r ——样本相关系数 ρ——总体相关系数
9
相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXX lYY
• 式中lXX与lYY分别为变量X与Y的离均差平方和, lXY为两变量X 、Y的离均差积和。
10
双变量协方差示意图
11
相关系数的特点
1.相关系数r是一个无量纲的数值, 且-1≤r≤1;
2. r 值为正 ——正相关, r 值为负 ——负相关; 3. |r|的绝对值越接近于1,说明相关性越好; |r|越接近于0,说明
相关性越差。
|r|=1 --- 完全相关, |r|=0 --- 零相关。
12
计算公式:
l XX
X2
( X )2 n
lYY
Y 2
(Y )2
nห้องสมุดไป่ตู้
l XY
XY
( X )(Y ) n
13
14
•一般认为,当样本含量较大的情况下 (n>100),大致可按下列标准估计两
变量相关的程度
• │r│≥0.7 •0.7>│r│≥0.4 •0.4>│r│≥0.2
l XX
X2
( X )2 n
298525
1725 2 10
962 .5
lYY
Y 2
(Y )2 n
20690
454 2 10
78.4
18
l XY
XY ( X )(Y ) n
78541 1725 454 10
226
•(4)求相关系数r
r lXY
226
0.8227
lXX lYY 962.5 78.4
1764
7266
160
44
25600
1936
7040
155
41
24025
1681
6355
173
47
29929
2209
8131
188
50
35344
2500
9400
178
47
31684
2209
8366
183
46
33489
2116
8418
180
49
32400
2401
8820
165
43
27225
1849
7095
25
第二节 秩相关
• 当遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲 的直线相关分析,而常用等级相关处理资料。
• 等级相关(rank correlation)亦称为秩相关。本节主要介绍 Spearman等级相关法。
等级相关系数 rs(即Spearman Correlation Coefficient)——反映两变量间相关的密切程度 与方向 。
22
2、t 检验法
t |r0| |r|
Sr
Sr
1 r2 Sr n 2
23
• 例10-4 对例10-3资料所得r值,检验20岁男青年 身高与前臂长是否有直线相关关系。
• (1)建立检验假设 • Ho:ρ=0 ,两变量间无直线相关关系 • H1:ρ≠0 ,两变量间有直线相关关系 • α=0.05 • (2)计算t值 本例n=10, r=0.8227
26
适用条件:
①资料不服从双变量正态分布而不宜作 积差相关分析; ②总体分布型未知,一端或两端是不确 定数值(如<10岁,≥65岁)的资料; ③原始数据用等级表示的资料。
27
Spearman等级相关系数的计算
① 分别将X与Y从小到大编秩,若遇相 同值取平均秩次; ② 然后按前面介绍的 Pearson相关系 数的计算方法求解
19
三、相关系数的统计推断
•检验r是否来自总体相关系数ρ为零的总 体。
20
相关系数的假设检验
根据样本计算出的相关系数r,是总体 相关系数ρ的估计值。从ρ=0(无直线相关) 的总体中抽取样本,其r不一定为0。因此, 得到r≠0后,由于存在抽样误差,则有必 要检验r是否来自ρ=0的总体,以判定两变 量间是否有直线相关关系。
高度相关 中度相关 低度相关
15
• 例10-3 某研究者测量10名20岁男青年身高与前臂长。见表10-2。问 身高与前臂长有无直线相关关系?
表10-2 身高与前臂长数据与计算表
身高(cm) 前臂长(cm)
X
Y
X2
Y2
XY
(1)
(2)
(3)
(4)
(5)
170
45
28900
2025
7650
173
42
29929