相关与回归PPT课件PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)求Spearman等级相关系数。
rs
l X ’Y ’
l l X ’X ‘Y ’Y ‘
59.5 0.7539 82.5 75.5
第19页/共40页
2. Spearman等级相关系数的假设检验:
H0:ρS=0
H1: ρS ≠0
=0.05
本例n=10, rs=-0.7539,查rs界值表得:
Y
Y
2
lYY
l XY
2 / l XX lYY bl XY
sy为x 各观察值y 距回归线( )ˆy 的标准差,反映x
的影响被扣除后y 的变异,故称为剩余标准差。
第32页/共40页
Y
Y
2
36.7324 (74.308)2
/ 228.2 12.541
12.541
SY .X
1.1199 12 2
1.1199
sb
0.0741 228.25
0.3256
tb
4.392
0.0741
3.确定P值,判断结果: 按 12 2 10 ,
查t 值表,t0.01(10)=3.169,tb> t0.01(13) ,P<0.01, 按α=0.05水准,拒绝H0 ,接受H1,认为糖尿病患 者血糖和胰岛素之间存在负的直线回归关系。
rs(10,0.02)=0.745,rs> rs(10,0.02) ,则P<0.02,按
α=0.05水准,拒绝H0,接受H1,认为rs有统计
学意义,说明患者血小板数与出血程度呈负
的等级相关关系。
第20页/共40页
第三节 直线回归
随着所探索问题的深入,研究者通常更感兴趣于 其中的一个变量如何定量地影响另一变量的取值, 如医学研究中常需要从某项指标估算另一项指标, 如果这指标分别是测量变量X 和Y,我们希望由X 推算Y的值。
( X ’ X ’)2 (Y ’ Y ’)2
l X ’Y ’ l X ’X ‘lY ’Y ‘
将成对的两组变量的观察值分别由小到大 编秩次,当观察值相同时,取平均秩次,然后对 秩次进行积差相关分析。式中X’、Y’分别为每对 观察值X、Y的秩次。
第17页/共40页
例12-3 某医师测得一组患者血小板数及出血程度的 资料如下表12-2,试分析二者之间的关系。
第22页/共40页
即观察值不是全落在回归线上,而是散 布在回归线周围。但离回归线越近,观察值 越多,偏离较远的观察值极少,这种不完全 呈函数关系,但又有一定数量的关系的现象 称回归。
第23页/共40页
二、直线回归的统计描述:
(一)散点图:见图12-2。
血糖(mmol/L)
15
14
13
12
11
10
第7页/共40页
例12-1 某医生随机抽查了12名糖尿病患者 的空腹血糖及胰岛素值,数据见下表,试做 相关分析。
12 名糖尿病患者的空腹血糖(mmol/L)及胰岛素(mU/L)测定值
编号 1
2
3
4 5 6 7 8 9 10 11 12
胰 岛 素 10.3 11.2 14.0 15.2 16.2 18.4 18.7 19.2 19.8 22.0 23.1 25.0
患者编号 血小板数(109/L)
出血程度
计数(X) 秩次(X’) 程度(Y) 秩次(Y’)
1
120
1
++
9
2
130
2
+++
10
3
160
3
±
5
4
310
4
+
7
5
420
5
+
7
6
540
6

2.5
7
1060
7

2.5
8
1140
8
+
7
9
1230
9

2.5
10
2000
10

2.5
第18页/共40页
计算等级相关系数的步骤如下: (1)将每个变量的观察值分别由小到大排列编秩,当观察值相同时,取平均秩 次。
第30页/共40页
三、回归系数的假设检验: 样本回归系数的假设检验(t检验):
1. 建立检验假设: H0:β=0,H1:β≠0,α=0.05
2. 计算统计量t: b0
tb 为回归系数的标准S误b 。
sb
第31页/共40页
υ=n-2
Sb
SY .X lxx
SY .X
(Y Yˆ )2 n2
主要内容
• 直线相关 • 等级相关 • 直线回归 • 直线相关与回归的区别与联系
第1页/共40页
前面我们讨论了对单个变量的统计分析方法,着重于比较该单个变量的 组间差别。
医学研究中常需分析变量间的关系,如血压与年龄。
相关(correlation) 与回归(regression)是研究 两个或多个随机变量之间相互关系的重要的 统计分析方法,应用广泛。
2. 联系:
(1)同一组资料,r与b正负号一致。
(2)同一样本,tr =tb 。 (3)用回归解释相关。
r2
l2 XY
l2 XY
/ l XX
SS回
l XX .lYY
lYY
SS总
(r2为确定系数。)
第36页/共40页
二、应用相关与回归分析时应注意的问题:
1.要求应变量Y服从正态分布,通常自变量X 为可以精确测量或严格控制的因素。 2. 进行相关与回归分析时要有实际意义。 3. 相关关系不一定是因果关系,也可能仅是表 面上的伴随关系。 4. 不能只根据相关系数绝对值的大小来推断两 事物现象之间有无相关以及相关的密切程度, 而必须进行相关系数的假设检验。
(分子决定正负号)
lXX
XX
2 X 2 X 2
n
lYY
Y
Y
2
Y 2 Y 2
n
lxy
X
X
Y
Y
XY
X Y
n
第11页/共40页
根据例12-1的资料,散点图已观察两变量之 间有直线趋势,现计算相关系数。
本例,
X 2 4012.55
代入公式,得
X 213.1 Y2 1311.87
第2页/共40页
相关是研究随机变量之间相互联系 的密切程度和方向。 回归是研究随机变量之间的数量依 存关系。
本章介绍两个变量间的直线回归与相关,及等级相关。
第3页/共40页
第一节 直线相关
一、直线相关的概念: 当两指标间不独立则为相关,即某一指标的
取值与另一指标的取值多少有关。探讨两个正 态分布的随机变量有无直线关系时,统计学中 用一个统计量描述直线相关的密切程度和方向, 这个统计量称相关系数,记为r。 相关系数的绝对值必然在0到1之间,即:
9
8
7
6
5
5
10
15
20
25
30
胰岛素(mU/L)
图12-2 12名糖尿病患者血糖与胰岛素散点图
第24页/共40页
(二)直线回归的方程:
Yˆ a bX
式中a,b是决定回归直线的两个系数。 a为截距(intercept),b为回归系数,即直 线的斜率(slope) 。 b的统计学意义:X每增加(减)一个单位,Y 平均改变b个单位。
本资料绘制成散点图(Scatter plot)如下:
第9页/共40页
血糖(mmol/L)
15
14
13
12
11
10
9
8
7
6
5
5
10
15
20
25
30
胰岛素(mU/L)
图12-2 12名糖尿病患者血糖与胰岛素散点图
第10页/共40页
2. 相关系数的计算:
r ( X X )(Y Y ) lXY ( X X )2 (Y Y )2 lXX lYY
第15页/共40页
第二节 Spearman等级相关
线性相关适用于双变量正态分布,在实际应用中,当资料不符合上述条件时, 可采用等级相关推断其相关性。 ①不服从双变量正态分布。 ②总体分布类型未知。 ③等级资料。
第16页/共40页
1. 等级相关系数rs的计算:
rs
( X ’ X ’)(Y ’ Y ’)
一、直线回归与相关的区别和联系:
1.区别:
资料上: 相关要求X与Y为随机变量,且X和Y 服从正态分布(双变量正态分布)。 回归要求Y为随机变量,服从正态分布;X可 人为取值,称Ⅰ型回归。 X与Y为随机变量,均服从正态分布;称Ⅱ型 回归。
第35页/共40页
应用上: 说明变量间的依存变化关系用回归; 说明变量间的相互变化关系用相关。
血 糖 13.32 10.82 12.04 12.21 11.1 9.49 11.54 9.05 7.88 10.16 8.38 7.71
第8页/共40页
三、直线相关的统计描述: 1.散点图:
考察相关性最简单而直观的办法是散点图。以两条互相垂直的座标轴分别表示 两个变量,n对观察值对应于座标平面的n个点,便构成一幅散点图。
y
直线回归方程的求解:最小二乘原理
yˆ a bx
yi yˆi
保证各实测点距回归直线 的纵向距离平方和最小。 x
第27页/共40页
例12-2 仍以例12-1的资料为例,已计算得 糖尿病患者血糖和胰岛素之间存在负的相 关关系,试继续进行直线回归分析。 1. 绘制散点图:见图1。
2. 计算基本数据:
第33页/共40页
四、 回归方程的应用:
1. 描述两个变量之间的数量依存关系。 2. 利用回归方程进行预测:由X预测Y的值。 3. 利用回归方程进行控制:由Y值控制X的 取值范围。
已知空气氮氧化物(Y )的污染与汽车流量 (X )的回归关系,当确定Y的标准后,控制X 的值。
第34页/共40页
第四节 直线相关与回归分析的关系
直线相关关系。
第14页/共40页
(二)查表法:
根据自由度,查相关系数r界值表,查出 r0.05(),若r r0.05() ,则认为P0.05,不拒绝H0。
若r r0.05() , 则认为P0.05,拒绝H0,接受H1。 本例=12-2=10,查r界值表,r0.05(10)=0.576,
r0.01(10)=0.708, │r│ =0.8115> r0.01(13) , P<0.01, 按=0.05的水准,按=0.05的水准,拒绝H0 ,接 受H1 ,与t检验结论相同。
第25页/共40页
怎样的最好地代表了所有的Y,需要有
个标准。 经典的标准是最小二乘(least squares)
原则: 即每个观察点距离回归直线的纵向距离
的平方和最小,即( Yˆ )2 最小。
b
(
X X )( Y Y ( X X )2
)
l xy l xx
a Y bX
第26页/共40页
我们称X为自变量,Y则称为依赖于X 的因变 量。 如果Y与X的关系呈线性时,我们可以用直线回归 (linear regression)描述两者的关系。
第21页/共40页
一、回归的概念:
100多年前,有位英国遗传学家(Galton)注意到当父亲身高很高时,他的儿子的 身高一般不会比父亲身高更高。同样如果父亲很矮,他的儿子也一般不会比父亲矮, 而会向一般人的均值靠拢。当时这位英国遗传学家将这现象称为回归,现在将这概 念引伸到随机变量有向回归线集中的趋势。
α=0.05
2.计算检验统计量:
tr
r0 Sr
r
1 r 2 / n 2
Sr为相关系数r的标准误 自由度为 n 2
第13页/共40页
tr
0.8115
12 2 1 (0.8115)2
4.392
3.确定P值和判断结果:
=12-2=10, 查t值表t0.01(10)=3.169, 本例的│tr│=4.392 t0.01(10) , P0.01, 按=0.05的水准,拒绝H0,接受H1, 认为糖尿病患者血糖和胰岛素之间存在负的
1r 1
第4页/共40页
相关系数的大小表示相关的密切程度, 例:体重与肺活量,胸围与肺活量 相关系数的符号表示相关的方向, 例:身高与体重,年龄与钙的吸收量
第5页/共40页
第6页/共40页
二. 相关分析的资料来源:
从研究总体随机抽取n个对象,每个对象观察X和 Y两项指标,或者从已经配成对子的研究总体中随 机抽取n对对象,每对对象观察同一指标。 要求:独立随机的成对样本,并且X 和Y来自正态 总体,这样的研究所获得的资料就可以做直线相关 分析。
l=X2X28.25
X=17.76
l XY=-74.308
Y =10.308
第28页/共40页
b lxy 74.308/ 228.25 0.3256 lxx
a Y bX 10.308 (0.3256)*17.76 16.0907
3. 建立回归方程:
Y 16.0907 0.3256X
第29页/共40页
4. 直线回归方程的图示:
为了进行直观分析,可按求出的回归方程在方格 坐标纸上作图。
在自变量X的实测范围内任取相距较远且易读数 的两个X值,代入上式。
如上例取X1=10.3,得Y1=12.74;取X2=25.0, 得Y2=7.95。
在图上确定(10.3,12.74)和(25.0,7.95)两个点, 以直线连接,即得到直线回归方程的图形,见图 12-2。
Y 123.70 XY 2122.40
lXX 228.25 lYY 36.73 lXY 74.31
r lXY
74.31
0.8115
lXX lYY 228.2536.73
第12页/共40页
四.相关系数的假设检验:
常用方法有t 检验和查表法。
(一) t 检验: 1. 检验假设: H0:ρ=0 H1:ρ≠0
相关文档
最新文档