线性相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
线性相关系数的意义
(linear correlation coefficient ) 又称为积差相关系数或Pearson相 关系数,用符号r表示,用于描述 两个随机变量线性相关关系的密切 程度与相关方向。相关系数没有单 位,其值介于-1与+1之间,绝对 值越大表示相关程度越高
11
12
相关系数的计算
3.相关系数与回归系数可以互相换算
r = b l XX / lYY
b = r lYY / l XX
39
4.用回归进一步解释相关
决定系数(coefficient of determination),定 义为回归平方和与总平方和之比,其计算公 式为: 2 l 2 / l XX SS回 XY l XY 2 = = r = SS 总 lYY l XX lYY 决定系数取值在0到1之间,其数值大小反映 了回归贡献的相对程度,也就是在 Y 的总变 异中回归关系所能解释的百分比
rs 1− r n−2
2 S
, υ = n−2
对求得的Spearman秩相关系数进行检验:
1. 建立检验假设,确定检验水准 H0:ρs=0(钉螺密度与血吸虫感染率无关) H1:ρs ≠ 0 (钉螺密度与血吸虫感染率有关) 2.计算t统计量 rs 0.8171 t= = = 4.01 1 − rS2 1 − (0.8171) 2 10 − 2 n−2 υ = n−2=8
相关
2.应用
相关——反映两变量间的相关关系; 回归——反映两变量间依存变化的数量关系,可 由一个变量值推算另一个变量值
38
线性回归与相关的区别与联系 联系:
1.方向一致。对于同一组资料,若同时计算
r与b,它们的正负号是一致的
2.假设检验等价。对同一样本,r和b的假设
检验得到的t值相等,结论完全等价
60
体重(kg)
50
40
30
20 140 150 160 身高(cm) 170 180
208名14岁男中学生身高与体重的散点图
7
二、线性相关
线性相关:
如果两个变量的散点图呈直线趋势,一个增大, 另一个也增大;或是一个增大,另一个减小,表 明这两个变量间可能存在线性相关关系
线性相关分析: 线性相关分析
2
25
收缩压(kPa)
20
15
正 相 关
10 2.5 3 3.5 体重指数(kg/m ) 图13-1 16名中年女性体重指数和收缩压的散点图
2
4
4.5
r = 0.9110
第三节 相关系数的假设检验
r = 0.9110
r≠0原因:
①由于抽样误差引起,总体相关系数 ρ=0 ②存在线性相关关系,总体相关系数 ρ≠0
35
两图表明,收入与受教育程度间是有相关关系的, 而且在年老一些的人群中要强一些。(弱相关是社会 科学研究中的通例。问题:受教育程度对哪一组人 群收入的影响更大?)
36
貌似无相关性,实际上却 有相关性的分层资料
37
线性回归与相关的区别与联系 区别:
1.资料
回归 ①Y正态随机变量,X为选定变量 ② X、Y服从双变量正态分布
R.A. Fisher(1921) 的Z变换
1 ⎛ 1+ r ⎞ Z = ln⎜ ⎟ 2 ⎝ 1− r ⎠ e −1 r = 2Z e +1
2Z
Z近似服从均数为
标准差为 1 /
n−3
1 2
ln[(1 + r ) /(1 − r )],
的正态分布
21
相关系数的可信区间估计
(1) 将 r 变换为 Z (2) 根据Z服从正态分布,估计 Z 的可信 区间:
截距a
相关系数r
回归系数b
14
表 13-1 16 名中年女性的体重指数 kg/m ) 和收缩压(kPa) ( 的测量值 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 合计 体重指数(X ) 2.86 3.41 3.62 3.20 2.79 2.96 3.84 4.01 3.75 3.96 3.36 3.62 3.91 4.12 3.33 3.76 56.50 收缩压(Y) 18.00 18.93 20.00 17.60 16.00 16.80 21.47 21.87 19.20 20.27 19.33 20.93 20.67 22.67 19.87 21.07 314.66
t=
0.9110 (1 − 0.9110 2 ) /(16 − 2)
= 8.2653
ν=16-2=14
3. 确定P值下结论 查界值表得t0.05/2,14=2.977,P<0.05。按α=0.05水准拒 绝H0,接受H1,故可以认为体重指数和收缩压之间存 在正相关关系
第四节 相关系数的可信区间
20
6 × 30 rs = 1 − = 0.8171 2 10 × (10 − 1)
Σd
2
Spearman秩相关系数的假设检验——t 检验 查表法:计算出rs 后,查附表14(rs 界值表), 得到P值 t检验法:当n超出附表14范围时(n>50),用 公式(14-10)检验总体秩相关系数是否为零
t=
TX = ∑ (t − t ) / 12
3
TY = ∑ (t − t ) / 12
3
48
秩相关的含义
• 秩相关反映的是两变量的秩之间的相关, 并不反映两变量间的数值关系
例1 例2 例3 例4
X 1 2 3 4 5
Y 1 2 3 4 5
X 1 2 3
Y 1 4 9
X 1
Y 1
X 1 2
Y 1 10
2 1.1 3 1.2 4 1.3 5 1.4
某地160名20岁男子身高与体重散点图 (双变量正态分布)
29
大白鼠进食量(X,g)与体重增加量(Y,g)的关系
30
离群值对相关的影响
31
相关系数应用的注意事项
4.不能仅根据相关系数r绝对值的大小来推断两 变量间有无相关及相关的密切程度,必须对 总体相关系数ρ进行假设检验 5. 不要把相关系数假设检验的 P 值的大小误解 为两事物或现象相关的强度 6.同一个观察指标的两次重复测量结果间的相 关系数表示测量结果的可靠性
2. 数据录入: 305.7
[(… χD,yD
23.6 RUN 188.6
14.7 RUN ……………… 200.6
40
第十四章 基于秩次的统计方法 第五节 Spearman秩相关
Spearman秩相关的适用范围
1.不服从双变量正态分布而不宜作
积差相关分析的资料 2.总体分布类型未知的资料 3.原始资料类型为等级资料
42
一、Spearman秩相关
概念:是用Spearman秩相关系数rs来 说明两个变量间相关关系的密切程度 与相关方向。rs 没有单位,其值介
1 ⎛ 1 + 0.9110 ⎞ Z = ln⎜ ⎟ = 1.5334 2 ⎝ 1 − 0.9110 ⎠
Z的95%可信区间为:
1.5334 ± 1.96 / 16 − 3 = (0.9898,2.0770)
总体相关系数ρ的95%可信区间为 :
−1 e −1 e ~ 2×2.0770 = (0.76,0.97 ) 2×0.9898 +1 e +1 e
3. 下结论: t0.05/2,8=2.306,P<0.05。在α = 0.05 水准上,拒绝H0 ,接受H1 ,认为该地区钉螺 密度与感染率之间有相关关系
二、相同秩次较多时rs的校正
r =
' s
[(n − n) / 6] − (TX + TY ) − Σd
3 3 3
2
[(n − n) / 6] − 2TX [(n − n) / 6] − 2TY
32
相关系数应用的注意事项
7.应审慎对待相关分析的样本的合并与分 层问题 • 样本甲观察点
样本乙观察点
(a)
(b)
33
样本的合并可能对相关性造成的误导
貌似有相关性,实际上无相关性的 分层资料:某人关于一所小学的小学生 生长发育情况与家庭收入关系的调查
34
美国关于男子的收入与受教育程度关系的研究
r= Σ( X − X )(Y − Y ) Σ( X − X )
2
Σ(Y − Y )
2
=
l XY l XX lYY
(ΣX )(ΣY ) l XY = Σ( X − X )(Y − Y ) = ΣXY − n 2 ( ΣX ) 2 2 l XX = Σ( X − X ) = ΣX − n
lYY = ∑ (Y − Y ) 2 = ∑ Y 2 − (∑ Y )2 n
3 100 4 1000 5 10000
49
4 16 5 25
本章重点内容
一、相关系数r的意义 二、相关系数r的计算和总体相关系数 ρ的假设检验 三、线性回归与相关的区别与联系 四、Spearman秩相关系数的应用
50
fx-3600PV型计算器的使用
1. 进入相关与回归模式: MODE 2 [(… χD,yD
4
1.4 低 密 度 脂 蛋 白 1.2 1.0 0.8 0.6 0.4 3 4 血清胆固醇 5 6
8名健康成人血清胆固醇与低密度脂蛋白的关系
5
240
胰 190 岛 素
(IU/L)
140
90
40 6 10 14 血糖(m m o l / L ) 18 22
10名糖尿病患者血糖和胰岛素测定值
6
70
Z ± uα / 2 / n − 3
(3) 再将 Z变换回 r
22
相关系数的可信区间估计
Fisher’s 变换
r
Z
近似正态
ρ的95%CI
Fisher’s 反变换
Z的95%CI
23
总体相关系数ρ的区间估计
例13-4 例13-2 中已求得体重指数与收缩压的相 关系数r=0.9110,试求总体相关系数 ρ 的95%可 信区间
(一) t 检验;(二)查表法
相关系数的假设检验——t 检验
t =
r−0
=
r 1−r
2
sr
ν=n-2
n−2
Sr :样本相关系数的标准误
相关系数的假设检验步骤 :
1. 建立假设检验并确定检验水准 H0:ρ=0 (两变量间无线性相关关系); H1:ρ≠0 (两变量间有线性相关关系); α=0.05 2. 计算检验统计量t值
于-1与+1之间,绝对值越大表示 相关程度越高
43
一、Spearman秩相关
基本思想:就是将成对的两组观察值 分别由小到大编秩,数据相同时取平 均秩次,再计算每对观察值的秩次之 差 d ,然后带入公式计算出Spearman 秩相关系数rs
Байду номын сангаас6Σd rs = 1 − 2 n(n − 1)
2
44
表 14-7 10 个乡的钉螺密度与血吸虫感染率(%) 乡编号 1 2 3 4 5 6 7 8 9 10 螺密度 X 33 52 22 42 35 49 31 39 45 43 感染率 Y 17 24 13 27 19 23 18 18 24 20 X 的秩 V 3.0 10.0 1.0 6.0 4.0 9.0 2.0 5.0 8.0 7.0 Y 的秩 W 2 8.5 1 10 5 7 3.5 3.5 8.5 6 d 1.0 1.5 0.0 -4.0 -1.0 2.0 -1.5 1.5 -.5 1.0 30.0
第十三章
(linear correlation analysis)
Department of Health Statistics, SMMU
相关(correlation)的由来
Francis Galton “遗传学研究”
Karl Pearson 子与父身高的关系——“回归”方程 兄弟与姐妹身高的关系?? 2
2×0.9898
2× 2.0770
24
第五节 相关系数应用的注意事项
25
相关系数应用的注意事项
1.相关分析一定要有实际意义,且相关系数 的意义仅限于原始资料中变量的实测范 围
孩子的身高与小树的高度间 显示出着显著的相关性
27
相关系数应用的注意事项
2.相关关系不一定是因果关系 3. 进行线性相关分析前要先绘制 散点图 , 从散点图的趋势判断是否可以作线性相 关分析,并观测有无远离群体的极端值 存在
第一节 线性相关的概念 (linear correlation )
3
8名健康成人血清胆固醇与低密度脂蛋白含量
编号 1 2 3 4 5 6 7 8
X1 4.27 5.17 5.69 5.17 3.77 5.17 5.66 3.31
X2 0.80 1.23 1.31 1.33 0.68 1.12 1.29 0.46
描述两变量间是否有线性相关关系以及线性相关 关系的方向和密切程度的分析方法
条件: 条件
两变量(X,Y)都是来自正态分布的随机变量
70
60 抑 郁 得 分
50
40
30
20 0 5 10 15 TSB 20 25 30
50名患者TSB、抑郁得分散点图
9
第二节 线性相关系数
(linear correlation coefficient )