第十章线性相关与回归-68页精选文档
合集下载
线性相关与回归
a Y bX
建立直线回归方程旳环节
1.用实测数据绘制散点图 2.计算回归系数b与截距a,
下面以例9-1资料阐明建立直线回归 方程旳详细环节:
lxx 24.9040, lXY 5.9396, X 13.44, Y 5.7266 b lXY 5.9396 0.2385
lXX 24.9040 a Y bX 5.7266 0.2385 13.44 2.5212 Yˆ 2.5212 0.2385X 取X 12, Yˆ 2.5121 0.2385 12 5.3832 取X 15, Yˆ 2.5212 0.2385 15 6.0990
等级有关
等级有关
第一节简介旳积差有关系数合用于 双变量正态分布旳资料,但有时其中一 种甚至两个变量都不服从正态分布,这 时需用非参数有关分析措施。
本节简介由spearman提出旳秩有 关分析措施。本措施合用于下列情况:
①不服从双变量正态分布而不宜作 积差有关分析旳资料;
②总体分布类型未知旳资料;
(6) 1 0 .5 24.0 21.0 14.0 42.5 51.0 24.5 28.0 31.5 35.0 115.5 42.0 ΣRXRY =439.5
d
d2
(7) -9.5 -10.0 -4.0 +0.5 -3.5 -2.5 +3.5 +4.5 +5.5 +6.5 +0.5 +8.5
(8) 90.25 100.00 16.00 0.25 12.25 6.25 12.25 20.25 30.25 42.25 0.25 72.25 Σd2=402.50
总体中抽取样本,因为存在抽样误差, 其b不一定等于0。所以,得到b≠0后,
必须检验b是否来自β=0旳总体,以鉴
建立直线回归方程旳环节
1.用实测数据绘制散点图 2.计算回归系数b与截距a,
下面以例9-1资料阐明建立直线回归 方程旳详细环节:
lxx 24.9040, lXY 5.9396, X 13.44, Y 5.7266 b lXY 5.9396 0.2385
lXX 24.9040 a Y bX 5.7266 0.2385 13.44 2.5212 Yˆ 2.5212 0.2385X 取X 12, Yˆ 2.5121 0.2385 12 5.3832 取X 15, Yˆ 2.5212 0.2385 15 6.0990
等级有关
等级有关
第一节简介旳积差有关系数合用于 双变量正态分布旳资料,但有时其中一 种甚至两个变量都不服从正态分布,这 时需用非参数有关分析措施。
本节简介由spearman提出旳秩有 关分析措施。本措施合用于下列情况:
①不服从双变量正态分布而不宜作 积差有关分析旳资料;
②总体分布类型未知旳资料;
(6) 1 0 .5 24.0 21.0 14.0 42.5 51.0 24.5 28.0 31.5 35.0 115.5 42.0 ΣRXRY =439.5
d
d2
(7) -9.5 -10.0 -4.0 +0.5 -3.5 -2.5 +3.5 +4.5 +5.5 +6.5 +0.5 +8.5
(8) 90.25 100.00 16.00 0.25 12.25 6.25 12.25 20.25 30.25 42.25 0.25 72.25 Σd2=402.50
总体中抽取样本,因为存在抽样误差, 其b不一定等于0。所以,得到b≠0后,
必须检验b是否来自β=0旳总体,以鉴
第十章线性相关与回归-文档资料
他和英国统计学家 Karl Pearson对上千个家庭的身
高、臂长、拃长(伸开大拇指与中指两端的最大 长度)做了测量,并做成散点图。
发现:
2019/3/9 4
儿子身高( Y ,英寸)与父亲身高( X ,英寸)
存在线性关系:
ˆ Y 3 3 . 7 30 . 5 1 6 X
即高个子父代的子代在成年之后的身高平均来
秩和检验
试问:为何说是单变量? 因为每种类型只牵涉一个变量。
2019/3/9 2
医学上,许多现象之间(即变量之间)都有相互联系, 例如:身高与体重、父亲身高与儿子身高、体温与脉搏、 产前检查与婴儿体重、乙肝病毒与乙肝等。
在这些有关系的现象中,它们之间联系的程度和性质也 各不相同。比如:
乙肝病毒感Hale Waihona Puke 是前因,得了乙肝是后果,乙肝病毒和乙
2019/3/9
14
线性相关的类型
X和Y伴随同时上升或伴随下降称为线性正相关 (Linear Positive Correlation) X与Y的反方向伴随直线变化趋势称为线性负相关 (linear negative correlation) X和Y无任何直线伴随变化趋势,则称为零相关 (零线性相关) 。
2019/3/9
10
第一节 线性相关
2019/3/9
11
线性相关的掌握要点
线性相关描述了什么问题? 线性相关分析的具体步骤是什么? 线性相关分析对资料有什么要求?
如何对这些要求进行检查或检验?
仅用样本线性相关系数能否说明相关程度?
总体相关系数非常接近1,能否说明Y=X?
2019/3/9
12
例:考察身高与体重的伴随关系
线性相关关系回归方程
1.某公司的广告费支出x(单位:万元)与销售额y(单位:万元)
之间有下列对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
资料显示y对x呈线性相关关系.
根据上表提供的数据得到回归方程 y bx a 中的 b =6.5,预测
销售额为115万元时约需 万元广告费.
【解析】1.
2+4+5+6+8 =5, x= 5
学科网
A.①②
B.①③
C.②③
D.②④
4.下列两变量间具有相关关系的是( A.角度和它的余弦值
D
)
B.正方形的边长和面积
C.汽车的行驶速度与路程
D.汽车的重量和百公里耗油量.
二、两个变量的线性相关 1.散点图 将n个数据点(xi,yi)(i=1,2,„,n)描在平面直角坐 相关关系 标系中,以表示具有_________的两个变量的图形叫做散点图. 2.两类特殊的相关关系 右上角 左下角 (1)正相关:散点图中的点散布的位置是从_______到_______ 左上角到 的区域.(2)负相关:散点图中的点散布的位置是从_______ 右下角 _______的区域. 3.散点图的作用是什么? 提示:判断两个变量是否相关.
1.一位母亲记录了她儿子3岁到9岁的身高,建立了儿子身高
ˆ =7.19x+73.93,用这个方程 (单位:cm)与年龄的回归方程为 y
预测儿子10岁时的身高,则下面的叙述正确的是
( C ) (A)她儿子10岁时的身高一定是145.83 cm
(B)她儿子10岁时的身高在145.83 cm以上
(C)她儿子10岁时的身高在145.83 cm左右 (D)她儿子10岁时的身高在145.83 cm以下
06.线性相关与回归
6 12 . 5 8 8 1
2
0 . 85
查等级相关系数界值表, s 8 ( 0 .05 ) 0 . 738 , P 0 . 05 按0.05检验水 r 准拒绝H0,接受H1,认为饮水中氟含量与氟骨症患病率之间
存在正相关关系。
本章小结
conclusion
(intercept,constant)
截距a
几何意义
a >0: 回归线与纵轴交点在原点上方。
a <0: 回归线与纵轴交点在原点下方。 a =0: 回归线通过原点。 统计学意义 a 表示自变量X取值为0时相应Y的估计值。
回归系数b的几何意义
ˆ Y a bX b 0
Y
ˆ Y a bX b 0
0 . 8342
表示体重与身高呈现正的相关关系
线形相关系数的假设检验
查表法
n 12 , r 0 . 8342 , n 2 12 2 10
r0 .001 10 0 . 823 0 . 8342 , P 0 . 001 .
按检验水准0.05拒绝H0,可以认为女大学生身高与体重之间存在正相关性。
等级相关
Rank correlation
资料要求: 1. 变量不服从正态分布;
2. 变量是等级资料
等级相关系数:Spearman 等级相关系数
rs 1
n n 1
2
6 d
2
例10.4 某医生做一种研究,欲了解人群中氟骨症患病率(%)与饮水中氟
含量(mg/L)之间的关系。
rs 1
均值越远,所受到回归的压力也越大。“回归”这个词
就由此而来。
第十章 线性相关与回归
相关与回归
28
直线回归就是用来研究两个连续性变量x 直线回归就是用来研究两个连续性变量 之间的数量依存关系。 和y之间的数量依存关系。其中 为自变 之间的数量依存关系 其中x为自变 y为因变量 它依赖于x。 为因变量, 量,y为因变量,它依赖于x。 直线回归适用于单变量正态分布资料, 直线回归适用于单变量正态分布资料,即 y为随机正态变量,x为可以精确测量的 为随机正态变量, 为可以精确测量的 为随机正态变量 值。
31
根据上例的数据,求男青年身高与前臂长之间的回归 方程。 从相关系数的计算中,已经求得:
• • • • • • ∑X=1891 ∑Y=500 ∑ X2=89599 ∑ Y2=22810 ∑XY=86185 N=11
相关与回归 12
例 10.1
• 从男青年总体中随机抽取11名男青年的身 高和前臂长,身高和前臂长均以cm为单位, 测量结果如表10-1所示,试计算身高与前 臂长之间的相关系数?是正相关还是负相 关?
相关与回归
13
表10-1 11例男青年身高与前臂长的测量结果 例男青年身高与前臂长的测量结果
编号 1 2 3 4 5 6 7 8 9 10 11 身高(cm) 170 173 160 155 173 188 178 183 180 165 166 前臂长(cm) 47 42 44 41 47 50 47 46 46 43 44
X、Y 变化趋势相同---变化趋势相同---完全正相关; 完全正相关; 反向变化----完全负相关。 反向变化----完全负相关。 ----完全负相关
图12-3 12相关系数示意图
相关与回归
9
X、Y 变化互不影响----零 变化互不影响-------零
相关(zero 相关(zero correlation)
统计学课件之线性相关与回归
➢ 线性关系是否存在、关系的密切程度 以及方向性
back
➢ 积差相关系数 ➢ 用ρ(总体)或r(样本)表示 ➢ 用来对线性关系的密切程度与方向
进行统计描述的指标
back
r lxy x xy y
lxxlyy
x x2 y y2
其中,lxy是x与y的离均差积和
lxx与lyy分别是x与y的离均差平方和
0.14
2
0.25
0.25
3
0.23
0.28
4
0.24
0.25
5
0.26
0.28
6
0.09
0.10
7
0.25
0.27
8
0.06
0.09
9
0.23
0.24
10
0.33
0.30
11
0.15
0.16
12
0.04
0.05
13
0.20
0.20
14
0.34
0.32
15
0.22
0.24 back
➢ 针对上例,请做线性回归分析。 ➢ a = 0.0319 b = 0.8973 ➢ F = MS回/ MS残 = 295.46 tb = 17.189 ➢ R2 = 0.9578 = ( 0.9787 )^2 = r^2
➢ 简单回归
➢ 研究两个连续性变量x与y之间的数量变化 依存关系
➢ 要求——y是服从正态分布的随机变量, 而对x无太严格要求
➢ 主要任务——找出合适的直线回归方程, 以确定一条最接近于各实测点的直线,描 述两个变量之间的线性回归关系。
back
➢ yˆ相当于y的计算值,与y的实测值不完全相同
back
➢ 积差相关系数 ➢ 用ρ(总体)或r(样本)表示 ➢ 用来对线性关系的密切程度与方向
进行统计描述的指标
back
r lxy x xy y
lxxlyy
x x2 y y2
其中,lxy是x与y的离均差积和
lxx与lyy分别是x与y的离均差平方和
0.14
2
0.25
0.25
3
0.23
0.28
4
0.24
0.25
5
0.26
0.28
6
0.09
0.10
7
0.25
0.27
8
0.06
0.09
9
0.23
0.24
10
0.33
0.30
11
0.15
0.16
12
0.04
0.05
13
0.20
0.20
14
0.34
0.32
15
0.22
0.24 back
➢ 针对上例,请做线性回归分析。 ➢ a = 0.0319 b = 0.8973 ➢ F = MS回/ MS残 = 295.46 tb = 17.189 ➢ R2 = 0.9578 = ( 0.9787 )^2 = r^2
➢ 简单回归
➢ 研究两个连续性变量x与y之间的数量变化 依存关系
➢ 要求——y是服从正态分布的随机变量, 而对x无太严格要求
➢ 主要任务——找出合适的直线回归方程, 以确定一条最接近于各实测点的直线,描 述两个变量之间的线性回归关系。
back
➢ yˆ相当于y的计算值,与y的实测值不完全相同
线性相关与回归
)
12
12
0.7495
检验步骤
例1:根据样本相关系数,对总体相关系数
ρ=0进行假设检验
(1) 建立假设,确定检验水准α H0: ρ=0(变量间不存在线性相关关系) H1: ρ≠0(变量间有线性相关关系)
α=0.05
检验步骤
(2)计算检验统计量t
本例n=12,r=0.7495,
t r
0 .7 4 9 5
1.000 0.980 0.934 0.882 0.833
… 0.612 0.592 0.574 0.558
0.005 0.01
1.000 0.990 0.959 0.917 0.875
… 0.661 0.641 0.623 0.606
0.001 0.002
1.000 0.998 0.986 0.963 0.935
173 170 170 176 178 174 173 178 176 180
lXY ( X X )(Y Y ) 1059.4 lXX ( X X )2 1859.2 lYY (Y Y )2 698.55
l
r
xy
1059.4
0.9296
ll xx yy
( X )( Y )
XY
r
n
(
X
2
(
X )2
)( Y 2
( Y )2 )
n
n
∑X=592、∑Y= 34.83、∑X2=29512、
∑Y2=102.9833、∑XY=1736.32
592 34.83 17.3632
r
12
5922
34.832
(29512
第10章 线性相关与回归
r = rXY =
∑( X X)(Y Y) ∑( X X) ∑(Y Y)
2 i i
=
LXY LXX.LYY
2
相关系数r没有测量单位,其数值为-1≤≤+1 没有测量单位,其数值为-
相关系数的计算方法
计算时分别可用下面公式带入相关系数r 计算时分别可用下面公式带入相关系数r的 计算公式中
∑ (X ∑ (Y ∑ (X
四,进行线性相关分析的注意事项
⒊ 依据公式计算出的相关系数仅是样本相关系
数,它是总体相关系数的一个估计值,与总体 它是总体相关系数的一个估计值, 相关系数之间存在着抽样误差,要判断两个事 相关系数之间存在着抽样误差, 物之间有无相关及相关的密切程度, 物之间有无相关及相关的密切程度,必须作假 设检验. 设检验.
蛙蛙蛙 蛙蛙蛙
20
10
0 0 10 20 30
温度
2.计算回归系数与常数项 2.计算回归系数与常数项
在本例中:
∑ X = 132
∑ Y = 246
∑X ∑Y
2
= 2024
= 6610
X = 12
2
Y = 22.363
∑ XY = 3622
l b = XY = l XX
∑
XY
∑
( ∑ X )( ∑ Y ) (132)(246) 3622 670 n 11 = = = 1.523 2 2 (∑ X ) 132 440 2 2024 X 11 n
X2
4 16 36 64 100 144 196 256 324 400 484 2024
Y2
25 121 121 196 484 529 1024 841 1024 1156 1089 6610
∑( X X)(Y Y) ∑( X X) ∑(Y Y)
2 i i
=
LXY LXX.LYY
2
相关系数r没有测量单位,其数值为-1≤≤+1 没有测量单位,其数值为-
相关系数的计算方法
计算时分别可用下面公式带入相关系数r 计算时分别可用下面公式带入相关系数r的 计算公式中
∑ (X ∑ (Y ∑ (X
四,进行线性相关分析的注意事项
⒊ 依据公式计算出的相关系数仅是样本相关系
数,它是总体相关系数的一个估计值,与总体 它是总体相关系数的一个估计值, 相关系数之间存在着抽样误差,要判断两个事 相关系数之间存在着抽样误差, 物之间有无相关及相关的密切程度, 物之间有无相关及相关的密切程度,必须作假 设检验. 设检验.
蛙蛙蛙 蛙蛙蛙
20
10
0 0 10 20 30
温度
2.计算回归系数与常数项 2.计算回归系数与常数项
在本例中:
∑ X = 132
∑ Y = 246
∑X ∑Y
2
= 2024
= 6610
X = 12
2
Y = 22.363
∑ XY = 3622
l b = XY = l XX
∑
XY
∑
( ∑ X )( ∑ Y ) (132)(246) 3622 670 n 11 = = = 1.523 2 2 (∑ X ) 132 440 2 2024 X 11 n
X2
4 16 36 64 100 144 196 256 324 400 484 2024
Y2
25 121 121 196 484 529 1024 841 1024 1156 1089 6610
线性相关与回归PPT教案
170 173 160 155 173 188 178 183 180 165 166 1891
前臂长(cm)
XY
(Y)
47
7990
42
7266
44
7040
41
6355
47
8131
50
9400
47
8366
46
8418
49
8820
43
7095
44
3174
500
86185
第8页/共43页
X2
28900 29929 25600 24025 29929 35344 31684 33489 32400 27225 28561 326081
第22页/共43页
b为回归系数,即直线的斜率 ➢ b>0,直线从左下方走向右上方,Y 随
X 增大而增大 ➢ b<0,直线从左上方走向右下方,Y 随
X 增大而减小 ➢ b=0,表示直线与 X 轴平行,X 与Y 无
直线关系
b 的统计学意义是:X 每增加(减)一个单位, Y 平均改变b个单位
第23页/共43页
二、线性回归方程的计算
对象
温度(X) 心率(Y) XY
1
2
5
10
2
4
11
44
3
6
11
66
4
8
14
112
5
10
22
220
6
12
23
276
7
14
32
448
8
16
29
464
9
18
32
576
10
20
前臂长(cm)
XY
(Y)
47
7990
42
7266
44
7040
41
6355
47
8131
50
9400
47
8366
46
8418
49
8820
43
7095
44
3174
500
86185
第8页/共43页
X2
28900 29929 25600 24025 29929 35344 31684 33489 32400 27225 28561 326081
第22页/共43页
b为回归系数,即直线的斜率 ➢ b>0,直线从左下方走向右上方,Y 随
X 增大而增大 ➢ b<0,直线从左上方走向右下方,Y 随
X 增大而减小 ➢ b=0,表示直线与 X 轴平行,X 与Y 无
直线关系
b 的统计学意义是:X 每增加(减)一个单位, Y 平均改变b个单位
第23页/共43页
二、线性回归方程的计算
对象
温度(X) 心率(Y) XY
1
2
5
10
2
4
11
44
3
6
11
66
4
8
14
112
5
10
22
220
6
12
23
276
7
14
32
448
8
16
29
464
9
18
32
576
10
20
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 分析问题:总体-样本、 目的、变量、关系
30.03.2020
19
表10-1 11名男青年身高与前臂长的测量结果(cm)
编号
1 2 3 4 5 6 7 8 9 10 11 合计
身高(cm) (X) 170 173 160 155 173 188 178 183 180 165 166 1891
前臂长(cm) (Y) 47 42 44 41 47 50 47 46 49 43 44 500
试问:为何说是单变量? 因为每种类型只牵涉一个变量。
30.03.2020
1
医学上,许多现象之间(即变量之间)都有相互联系,
例如:身高与体重、父亲身高与儿子身高、体温与脉搏、 产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也 各不相同。比如:
➢ 乙肝病毒感
发现:
30.03.2020
3
儿子身高(Y,英寸)与父亲身高(X,英寸) 存在线性关系:
Yˆ33.730.516X
即高个子父代的子代在成年之后的身高平均来 说不是更高,而是稍矮于其父代水平,而矮个子 父代的子代的平均身高不是更矮,而是稍高于其 父代水平。Galton将这种趋向于种族稳定的现象 称之“回归”。
➢ 第一节 线性相关 ➢ 第二节 线性回归 ➢ 第三节 相关与回归的关系 ➢ 第四节 等级相关 (自学)
30.03.2020
9
第一节 线性相关
30.03.2020
10
线性相关的掌握要点
线性相关描述了什么问题? 线性相关分析的具体步骤是什么? 线性相关分析对资料有什么要求? 如何对这些要求进行检查或检验? 仅用样本线性相关系数能否说明相关程度? 总体相关系数非常接近1,能否说明Y=X?
第2、第3、第5和第9章介绍了计量资料单变量的 统计描述与统计推断。比如:
计算140名成年男子红细胞数的平均指标与变异指 标。 ( X , S )
比较药物+饮食疗法(试验组)与仅药物疗法(对照组) 降低糖尿病人的空腹血糖值有无差别。 t 检验
研究白血病时,比较四组鼠脾DNA含量有无差别。
秩和检验
30.03.2020
4
Regression 释义
210=1024
30.03.2020
5
30.03.2020
6
小插曲——F.Galton
Galton(1822-1911)是一位人类学家,著名生物 学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。 尽管他的数学不是很好,但在人类学和优生学研究中 萌发的统计学思想,对生物统计的发展产生了深远影 响,如“回归”、 “双变量正态分布”的概念等。 他没有子女,但一生写了9部书,发表了近200篇论文。 1860年当选英国皇家学会会员,1909年被封为爵士, 1910年获得英国皇家学会Copley奖。
实例分析
• 健康调查发现男青年身高与他的前臂长有关; • 于是设想,通过测量男青年的身高,可以预测其
前臂长,以便更好对男青年的发育情况进行评价。 因此随机抽取了11名男青年组成样本,分别测量 每个人的身高和前臂长。见表10-1 • 问男青年的身高与前臂长之间的相关系数是多少? 是正相关还是负相关?
30.03.2020
14
★ 正相关 ★负相关 ★称零相关
★ 完全正相关 ★完全负相关
30.03.2020
15
线性相关系数
线性相关系数 (linear correlation coeffiecient) , 简称相关系数。或 Pearson相关系数
相关系数是描述两个变量之间线性相关的程度 和相关方向的统计指标。样本相关系数用 r 表示, 总体相关系数用ρ表示。
30.03.2020
7
Karl Pearson (英,1857~1936)是 Francis Galton 的得 意门生,他开创了统 计方法学。他对统计 学的主要贡献:变异 数据的处理、分布曲 线的选配、卡方检验 的提出、回归与相关 的发展。
30.03.2020
Karl Pearson
8
基本内容
➢ 有的现象之间因果不清,只是伴随关系,例如哥哥的身 高和弟弟的身高之间,就不能说有因果关系。
相关与回归就是用于研究和解释两个变量之间相互关系的。
30.03.2020
2
历史背景:
十九世纪英国人类学家 F.Galton首次在《自然 遗传》一书中,提出并阐明了“相关”和“相关 系数”两个概念,为相关论奠定了基础。其后, 他和英国统计学家 Karl Pearson对上千个家庭的身 高、臂长、拃长(伸开大拇指与中指两端的最大 长度)做了测量,并做成散点图。
30.03.2020
11
例:考察身高与体重的伴随关系
体重
散点图
身高
问题:通过散点图可以得出什么结论?
30.03.2020
12
线性相关的概念
图中不是每个身材较高的对象必有较重的体 重,但大多数对象的体重Y与其身高X的变化呈 一种伴随增大或减小的直线变化趋势,这种现象 称为直线相关 。
刻画两个随机变量之间线性相关程度称为 线性相关(linear correlation)
30.03.2020
16
相关系数的特点:
-1 ≤ r ≤ 1 r>0为正相关 r<0为负相关 r=0为零相关或无相关
|r| < 0.4 为低度线性相关; 0.4≤ |r| <0.7为中度线性相关; 0.7≤|r| <1.0为高度线性相关。
30.03.2020
17
相关系数的计算公式
lxx (x 的离均差平方和 ) lyy (y 的离均差平方和 ) lxy (x和y的离均差乘积和,简称乘积和)
r (XX)(YY) lXY (XX)2(YY)2 lXXlYY
lXXX2
(X)2 n
lYY
Y2
(Y)2 n
( X) (Y)
lXY XY
n
30.03.2020
18
上一张 下一张 首 页 退 出
30.03.2020
13
线性相关的类型
X和Y伴随同时上升或伴随下降称为线性正相关 (Linear Positive Correlation)
X与Y的反方向伴随直线变化趋势称为线性负相关 (linear negative correlation)
X和Y无任何直线伴随变化趋势,则称为零相关 (零线性相关) 。
30.03.2020
19
表10-1 11名男青年身高与前臂长的测量结果(cm)
编号
1 2 3 4 5 6 7 8 9 10 11 合计
身高(cm) (X) 170 173 160 155 173 188 178 183 180 165 166 1891
前臂长(cm) (Y) 47 42 44 41 47 50 47 46 49 43 44 500
试问:为何说是单变量? 因为每种类型只牵涉一个变量。
30.03.2020
1
医学上,许多现象之间(即变量之间)都有相互联系,
例如:身高与体重、父亲身高与儿子身高、体温与脉搏、 产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也 各不相同。比如:
➢ 乙肝病毒感
发现:
30.03.2020
3
儿子身高(Y,英寸)与父亲身高(X,英寸) 存在线性关系:
Yˆ33.730.516X
即高个子父代的子代在成年之后的身高平均来 说不是更高,而是稍矮于其父代水平,而矮个子 父代的子代的平均身高不是更矮,而是稍高于其 父代水平。Galton将这种趋向于种族稳定的现象 称之“回归”。
➢ 第一节 线性相关 ➢ 第二节 线性回归 ➢ 第三节 相关与回归的关系 ➢ 第四节 等级相关 (自学)
30.03.2020
9
第一节 线性相关
30.03.2020
10
线性相关的掌握要点
线性相关描述了什么问题? 线性相关分析的具体步骤是什么? 线性相关分析对资料有什么要求? 如何对这些要求进行检查或检验? 仅用样本线性相关系数能否说明相关程度? 总体相关系数非常接近1,能否说明Y=X?
第2、第3、第5和第9章介绍了计量资料单变量的 统计描述与统计推断。比如:
计算140名成年男子红细胞数的平均指标与变异指 标。 ( X , S )
比较药物+饮食疗法(试验组)与仅药物疗法(对照组) 降低糖尿病人的空腹血糖值有无差别。 t 检验
研究白血病时,比较四组鼠脾DNA含量有无差别。
秩和检验
30.03.2020
4
Regression 释义
210=1024
30.03.2020
5
30.03.2020
6
小插曲——F.Galton
Galton(1822-1911)是一位人类学家,著名生物 学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。 尽管他的数学不是很好,但在人类学和优生学研究中 萌发的统计学思想,对生物统计的发展产生了深远影 响,如“回归”、 “双变量正态分布”的概念等。 他没有子女,但一生写了9部书,发表了近200篇论文。 1860年当选英国皇家学会会员,1909年被封为爵士, 1910年获得英国皇家学会Copley奖。
实例分析
• 健康调查发现男青年身高与他的前臂长有关; • 于是设想,通过测量男青年的身高,可以预测其
前臂长,以便更好对男青年的发育情况进行评价。 因此随机抽取了11名男青年组成样本,分别测量 每个人的身高和前臂长。见表10-1 • 问男青年的身高与前臂长之间的相关系数是多少? 是正相关还是负相关?
30.03.2020
14
★ 正相关 ★负相关 ★称零相关
★ 完全正相关 ★完全负相关
30.03.2020
15
线性相关系数
线性相关系数 (linear correlation coeffiecient) , 简称相关系数。或 Pearson相关系数
相关系数是描述两个变量之间线性相关的程度 和相关方向的统计指标。样本相关系数用 r 表示, 总体相关系数用ρ表示。
30.03.2020
7
Karl Pearson (英,1857~1936)是 Francis Galton 的得 意门生,他开创了统 计方法学。他对统计 学的主要贡献:变异 数据的处理、分布曲 线的选配、卡方检验 的提出、回归与相关 的发展。
30.03.2020
Karl Pearson
8
基本内容
➢ 有的现象之间因果不清,只是伴随关系,例如哥哥的身 高和弟弟的身高之间,就不能说有因果关系。
相关与回归就是用于研究和解释两个变量之间相互关系的。
30.03.2020
2
历史背景:
十九世纪英国人类学家 F.Galton首次在《自然 遗传》一书中,提出并阐明了“相关”和“相关 系数”两个概念,为相关论奠定了基础。其后, 他和英国统计学家 Karl Pearson对上千个家庭的身 高、臂长、拃长(伸开大拇指与中指两端的最大 长度)做了测量,并做成散点图。
30.03.2020
11
例:考察身高与体重的伴随关系
体重
散点图
身高
问题:通过散点图可以得出什么结论?
30.03.2020
12
线性相关的概念
图中不是每个身材较高的对象必有较重的体 重,但大多数对象的体重Y与其身高X的变化呈 一种伴随增大或减小的直线变化趋势,这种现象 称为直线相关 。
刻画两个随机变量之间线性相关程度称为 线性相关(linear correlation)
30.03.2020
16
相关系数的特点:
-1 ≤ r ≤ 1 r>0为正相关 r<0为负相关 r=0为零相关或无相关
|r| < 0.4 为低度线性相关; 0.4≤ |r| <0.7为中度线性相关; 0.7≤|r| <1.0为高度线性相关。
30.03.2020
17
相关系数的计算公式
lxx (x 的离均差平方和 ) lyy (y 的离均差平方和 ) lxy (x和y的离均差乘积和,简称乘积和)
r (XX)(YY) lXY (XX)2(YY)2 lXXlYY
lXXX2
(X)2 n
lYY
Y2
(Y)2 n
( X) (Y)
lXY XY
n
30.03.2020
18
上一张 下一张 首 页 退 出
30.03.2020
13
线性相关的类型
X和Y伴随同时上升或伴随下降称为线性正相关 (Linear Positive Correlation)
X与Y的反方向伴随直线变化趋势称为线性负相关 (linear negative correlation)
X和Y无任何直线伴随变化趋势,则称为零相关 (零线性相关) 。