医学统计学9直线相关与回归

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 本例∑X=1725,∑Y=454,
• ∑X2=298525,∑Y2=20690,∑XY=78541

• (lX3X ) 计X 2算 (X、nX )2Y的29离8525均 1差71205平2 方962和.5 与离均差积

lYY
Y 2
(Y )2 n
20690
454 2 10
78.4
l XY
截距,b 为回归系数即回归方程的斜率。
• 二、直线回归方程的求法
• 求直线回归方程,关键在于计算a、b两个
系数,根据数学上的最小二乘法原理即保
证各实测点至回归直线的纵向距离的平方
和最小。
b (X X )(Y Y ) lXY
( X X )2
l XX
a Y bX
• 例9.3 利用例9.1资料已知20岁男青年身高 与前臂长之间存在直线相关关系,现求身 高与前臂长的直线回归方程。
• 计算公式为:
l XX
X2
( X )2 n
lYY
Y 2
(Y )2 n
l XY
XY
( X )(Y ) n
• 例9.1 某研究者测量10名20岁男青年身高 与前臂长。见表9-1。问身高与前臂长有无 直线相关关系?
• 计算步骤:
• (1)由原始数据绘制散点图9-2,本资料 呈直线相关趋势。
同。
第二节 直线回归
• 一、直线回归的概念
• 1。回归:反映两变量数量依存的关系,即 指由一个变量推算另一个变量的数量关系。 直线回归是回归分析中最基本最简单的一种 ,故又称简单回归(simple regression)
Yˆ a bX 。
• 2。反映回归关系的方程称为直线回归方程 。式中 Yˆ 为应变量Y的估计值,a 为回归直线Y轴上的
X (2)
等级 (3)
肝癌死亡率(1/10 万)
Y
等级
(4)
(5)
0.7
1
21.5
3
1.0
2
18.9
2
1.7
3
14.4
1
3.7
4
46.5
7
4.0
5
27.3
4
5.1
6
64.6
9
5.6
7
46.3
6
5.7
8
34.2
5
5.9
9
77.6
10
10.0
10
55.1
8




d
(6)
-2 0 2 -3 1 -3 1 3 -1 2 —
第9章直线相关与回归 目录
第一节 直线相关 第二节 直线回归 第三节 进行直线相关与回归应注意的 问题 第四节 等级相关
第五节 曲线直线化
第九章 直线相关与回归
第一节 直线相关
1。当两事物或现象在数量上的协同变化呈直 线趋势时则称为直线相关(linear
correlation),又称简单相关(simple correlation),用于分析双变量正态分布 资料。表示两变量相关关系的重要指标就
• (3)求回归系数b
和截距a
b lXY 226 0.2348 l XX 962 .5
a Y bX 45.4 0.2348172.5 4.897
(4)列出回归方程
将求出的 a 和 b
代入公式(9.7)得
Yˆ 4.897 0.2348 X
• 三、回归直线的绘制
• 在自变量X的实测值范围,任意指定相距较
1 r2 Sr n 2
• 例9.2 对例9.1资料所得r值,检验20岁
男青年身高与前臂长是否有直线相关关系

• (1)建立检验假设
Ho:ρ=0 ,两变量间无直线相关关系 H1:ρ≠0 ,两变量间有直线相关关系
• α=0.05
• ( 按公2)式计t( 算91.tr5值r)2 和本公10.式例08.282(2n72=7912.06,)4.09r计=0算.8t2值27 ,
HH01: :ββ=≠00,,即即身身高高与与前前臂臂长长无有直直线线回回归归关关系系
α=0.05
( 2 )计 算t 值 前面 已经求 得 lXX=962.5 ,
lXY(Y=2Yˆ2)26,lYY l llYXX2YXY =7788.4.492,6226.25代 25入.33公式(9.13)有
SYX
(Y Yˆ)2 n2
25.33 1.78 10 2
Sb
SYX l XX
1.78 0.0574 962.5
tb
b0 Sb
b Sb
0.2348 0.0574
4.09
• (3)确定P值,作出推断结论 本例υ =10-2=8 , 查 附 表 2 , t 界 值 表 得 t0.005(8)=3.833, 现 t>t0.005(8) , 故 P<0.005
个范围,X与Y就不一定仍然呈线性关系。
7. 同一组资料由X推Y和由Y推X的直线回归
方程是不同的。
•由X推Y: 回归系数
截距
bYX
l XY l XX
a Y bYX X
回归方程
Yˆ a bYX Xˆ
由Y推X:

回 归 系bXY
l XY lYY
•截 距 a X bXYY
•回归方程 Xˆ a bXY Y
• 回归系数b为样本回归系数,假设在总体回 归系数β=0的总体中抽样,得出样本的b不
一定为0,因此需作总体回归系数β是否为
0的假设检验,常用t检验或方差分析。因
方差分析计算较为繁琐不在此讲述。
tb
|b0| Sb
|b| Sb
• Sb为回归系数的标准误,Syx为各观察值 Y 距回归直线的标准差,即剩余标准差;为
称为负相关。当│r│愈接近1,表示两变量 的相关愈密切;当│r│愈接近0时,表示两 变量相关程度愈低;当│r│=0时,称为零
相关,表示两变量无直线相关关系,见示意 图9-1。
• 一般认为,当样本含量较大的情况下(
n>100),大致可按下列标准估计两变量相
关的程度
│r│≥0.7 高度相关
0.7>│r│≥0.4 中度相关
是相关系数。
一、相关系数的意义
• 相关系数(correlation coefficient)又称为
积差相关系数,用符号r表示。它描述两变量
间相关关系的密切程度和相关方向。其数值
1≥r≥-1,当r为正值时,表示一变量随另 一变量的增加而增加称为正相关;当r为负值
时,表示一变量随另一变量的增加而减少,
298525 ∑X2
Y2
(4)
2025 1764 1936 1681 2209 2500 2209 2116 2401 1849
20690 ∑Y2
XY
(5)
7650 7266 7040 6355 8131 9400 8366 8418 8820 7095
78541 ∑XY
• (2)根据表9-1原始数据计算出∑X,∑Y ,∑X2,∑Y2,∑XY 。
8. 建立Fra Baidu bibliotek归方程的条件(时间、地点、方法、测量仪 器等)一旦改变,原回归方程就不宜继续使用。
第四节 等级相关
❖当遇到有些资料并不呈正态分布,对于此 类资料就不宜用上述所讲的直线相关与回 归分析,而常用等级相关处理资料。
❖等级相关(rank correlation)亦称为秩 相关,适用于分布类型不明的资料、偏态 分布资料和等级资料的相关分析。本节主 要介绍Spearman等级相关法。
0.4>│r│≥0.2 低度相关
图9-1 相关系数示意
第一节 直线相关
• 二、相关系数的计算
• 相关系数r的计算公式:
r
(X X )(Y Y )
l XY
( X X )2 (Y Y )2
l XX lYY
• 式中lXX与lYY分别为变量X与Y的离均差平方和,lXY为两 变量X 、Y的离均差积和。
• 计算步骤:
• (1)列回归系数计算表同表9-1,求出ΣX ,ΣY ,ΣXY , X2 , ΣY2 。
• 本例ΣX=1725 ,ΣY=454 ,ΣXY=78541 X,ΣXX2=219782552517,2.Σ5 Y2=2Y0690Y。 前45面4 已45经.4
计算n出 lx1x0=962.5 ,lxy=226n 10
表9-1 身高与前臂长数据与计算表
身高(cm) X
(1)
170 173
160 155
173 188 178
183 180 165
1725 ∑X
前臂长(cm) Y
(2)
45 42
44 41
47 50 47
46 49 43
454 ∑Y
X2
(3)
28900 29929 25600 24025 29929 35344 31684 33489 32400 27225
• 4.直线相关与回归的区别
• ①在资料需求上,相关分析要求两变量X 与Y均为服从正态分布的随机变量,即两者 都不能预先指定;回归分析要求Y是正态随 机变量,而X可以不是正态随机变量而是一 确定值,此时回归分析称为Ⅰ型回归,X也
可以是正态随机变量,此时回归分析称为 Ⅱ型回归。
• ②在意义上,相关反映两变量的相关关系 ;回归反映两变量间的依存关系。
XY
( X )(Y ) n
78541 1725 454 10
226
• (4)求相关系数r
r lXY
226
0.8227
lXX lYY 962.5 78.4
• 三、相关系数的检验假设
• 检验r是否来自总体相关系数ρ为零的总体

• 1。t 检验法 t检验的计算公式
t |r0| |r|
Sr
Sr
• (三)利用回归方程进行统计控制
• 通过X取值来控制Y的变化。
第三节 进行直线相关与回归分
析时
• 1.作相关回应归注分析意要的有问实际题意义。不要把
毫无联系的两种现象作相关回归分析。
• 2.相关关系不一定是因果关系,也可能是 伴随关系。
• 3.在进行直线相关与回归分析之前,应先 绘制散点图,当观察到点的分布呈直线趋 势时,方可进行分析,如散点图呈曲线趋 势,应进行曲线回归分析。
• ③在应用上,说明两变量间的相关程度及
• 5. 相关与回归的联系
• ①在同一组数据,相关系数r与回归系数b
的符号一致。
• ②同一组数据,r与b的假设检验是等价的 ,即tr=tb。因r的假设检验可直接查表,较 为简便,故可代替b的假设检验。
• 6. 回归方程一般只适用于自变量X的原始
数据范围内,不能任意外延。因为超出这
d2
(7)
4 0 4 9 1 9 1 9 1 4 42
剩余平方和,它反映X对Y的线性影响之外
的因素对Y的变异作用。在散点图中,各实
测点离回归直线越近,越小,说明直线回
归的估计误差越小。
Sb
SYX l XX
SYX
(Y Yˆ)2 n2
(Y
Yˆ)2
lYY
l
2 XY
l XX
例9.4 根据例9.3所得b值,检验身高与前臂
长是否有直线回归关系。
(1)建立检验假设
。 按α=0.05的水准,拒绝Ho,接受H1,可 认为20岁男青年身高与前臂长有直线回归
关系。
• 五、直线回归方程的应用 • (一)描述两变量间的依存关系 • 可用直线回归来描述 。Yˆ 4.897 0.2348 X • (二)利用回归方程进行预测
• 将X代入直线回归方程,可得到应变量Y的
估计值。

• 例9.5在肝癌病因研究中,某地调查了10个 乡肝癌死亡率(1/10万)与某种食物中黄 曲霉毒素相对含量,见表9-2。试分析黄曲 霉毒素相对含量与肝癌死亡率有无相关的 关系。
• 表9-2 黄曲霉毒素相对含量与肝癌死亡
乡编 号
(1)
1 2 3 4 5 6 7 8 9 10 合计

黄曲霉毒素相对含量
n2
10 2
• (3)确定P值,作出推断结论
按υ
=n-2=8查t界值表,得 0.002<P<0.005,
按α =0.05水准,拒绝Ho,接受H1,故可
认为20岁男青年身高与前臂长呈正直线相
关关系。
• 2.查表法 查附表14, r界值表列出了相关 系数r与0差别显著性的判断界值,按自由 度 = n-2 查 r 界 值 表 , 当 r≥rα,n-2 时 , 则 P≤α ;反之,r< rα,n-2 时,则P>α 。 本例r=0.8227,大于r0.05(8)=0.738 ,故 P<0.05。r值有意义。检验结果与t检验相
• 其分析步骤如下:
• 1. 先将 X、Y 分别由小到大列出等级,即
编秩次,数字相同时需要求平均等级;
• 2. 求出每一对 X、Y 的等级之差 d 值; • 3. 按下列公式计算等级相关系数 rs
式d2中为r等s 为级等之级差相,关n 系为数样,
本含量。
rs
1
6d2 n(n2 1)
• 4. 根据n查附表15,rs界值表,确定P值。 如rs≥ rα ,n ,,则P≤α ,说明X、Y两 变量相关有统计学意义;如rs< rα ,n ,则 P>α ,说明X、Y两变量相关无统计学意义
远且易读的两个数值,代入直线回归方程
,求出相应的Y的估计值,确定两点,用直 线连接。如本例取X1=155,则 ;X2=185,
则。在图上确定(155,41.291)和(185 ,48.335)两个点,直线连接,即得出直 线回归方程的图形,
图9-2
20岁男青年身高与前臂长散点 图
• 四、回归系数的假设检验
相关文档
最新文档