医学统计学课件--第九章-双变量回归与相关(第9章)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( Y Y ) 2 ( Y ˆ Y ) 2 2 ( Y ˆ Y ) Y ( Y ˆ ) ( Y Y ˆ ) 2
2 ( Y ˆY )Y (Y ˆ)0 Y ˆab,X aYbX , blXY /lXX
( Y Y )2 ( Y ˆ Y )2 ( Y Y ˆ)2
SS =SS +SS 总 20.01.2022
SHIFT
DEL
说
明
进入线性回归模式 LR
清除以前储存数据
数据输入
显示相关系数 0.8818 显示截距 1.6617 显示回归系数 0.1392 删除输错的一对数据
Y 3.6
尿
肌 3.4
酐 含
3.2
量3
2.8
2.6
2.4
4
(12,3.3)
(8,2.8)
Y1.66107.13X 92
6
8
10
12
14
称为直线回归方程。
20.01.2022
医学统计学
17
二、直线回归方程的求法
最小二乘法 (Y Y)2 在所有直线中最小
b lXY (XX)(YY)
lXX
(XX)2
XY(X)(Y)/n 5.8450
X2 (X)2 /n
0.1392
42
a YbX 2.98380.13929.5 1.6617
20.01.2022
医学统计学
9
Regression 释义
210=1024
20.01.2022
医学统计学
10
2F0.01r.2a022ncis Galton
Francis Galton 爵士
(英,1822~1911) 是达
尔文(Charles Darwin)
的表弟。他对统计学
的主要贡献是提出
“相关”与“回归”
的概念,用统计方法
Y ˆ abX
➢ a 截距(intercept, constant) ➢ X=0 时,Y的估计值 ➢ a的单位与Y值相同 ➢ 当X可能取0时,a才有实际意义。
20.01.2022
医学统计学
23
回归直线的有关性质
➢ 直线通过均点 (X, Y )
➢ 各点到该回归线纵向距离平方和较到其它任何直 线者为小。
20.01.2022
医学统计学
7
一、直线回归的概念
➢“回归”是一个借用已久因而相沿成习 的统计学术语。
➢直线回归是分析成对观测数据中两变量 间线性依存关系的方法。
20.01.2022
医学统计学
8
生物遗传学上的“回归”
Pearson K(英,1857~1936)1903年搜集了1078
个家庭人员的身高、前臂长等指标的记录,
医学统计学
31
2. t 检验
b0 t
Sb Sb SY.X
l XX
n2
SY· X
(YY ˆ)2
n2
SS 残回归的剩余标准差 n2
扣除了X的影响后Y方面的变异;
20.01.2022引进回归方程后医学, 统Y计方学 面的变异。
32
(1)建立检验假设并确定检验水准
(2)计算检验统计量 t 值
SY.X
36
2.个体Y值的容许区间 给定X后对应个体Y值波动范围
Y ˆ0 t/2,SY0
SY0 SYX
11(X0X)2 n (XX)2
20.01.2022
医学统计学
37
例 某地10名三岁儿童体重与体表面积
X (体重,kg)
11.0 11.8 12.0 12.3 13.1 13.7 14.4 14.9 15.2 16.0
20.01.2022
Y
(体表面积,103cm2 )
5.283
5.299 5.358 5.292 5.602 6.014 5.830 6.102 6.075 6.411
医学统计学
38
可信区间与容许区间示意 (confidence band & tolerance band)
Model
BStd. ErroBr eta
t
SLig o.werU BpopuenrdBound
1 (Con1s.6 ta6n2t).297
5.595 .001 .935 2.388
年龄( .1岁 39) .030 .8824.579 .004 .065 .214
aD . ependent Variable: 尿肌酐含量(mmol/L)
20.01.2022
医学统计学
29
(3)计算检验统计量F值
SS总=lYY =1.0462
SS回=blXY=l2XY/lXX=5.8452/42=0.8134
SS残= SS总-SS回=1.0462-0.8134=0.2328 v总=v回+v剩 v总=n-1,v回=1, v残=n-2
S回 S /v回 M 回S0.8134
08.232280.197S0b
0.19700.0304 42
t 0.13924.579 0.0304
(3)确定P值下结论
t4 .57 t0 9 .00 /2 ,6 54 .31P 7 0.005
F (1 , )2.9 0 7 4 .57 t 9 /2 ( )
20.01.2022
医学统计学
33
(Y Y)2
➢
YabX为来自
YXX的一个样本
对于X各个取值,相
应Y的总体均数
20.01.2022
医学统计学
24
YabX 为来 Y自 XX的一个样本
Y
20.01.2022
X医学统计学
25
三、直线回归方程中的统计推断
(一)回归方程的假设检验
1.方差分析
(1)建立检验假设并确定检验水准
H0:β=0 H1: β≠0 α=0.05
年龄(岁)X
名儿童的年龄与其尿肌酐含量 8 20.01.2022
医学统计学
21
b 的意义 ➢斜率(slope)
Y ˆ1.66 10.1 73X 92
年龄每增加1岁, 尿肌酐含量平均增加0.1392(mmol/24h)
➢b的单位为 (Y的单位/X的单位)
20.01.2022
医学统计学
22
a 的意义
大家好
第9章
双变量回归与相关
Bivariate Regression & Correlation
第二军医大学卫生统计学教研室 张罗漫
20.01.2022
医学统计学
2
讲课内容:
第一节 直线回归(重点) 第二节 直线相关(重点) 第三节 秩相关 第六节 两条回归直线的比较 第七节 曲线拟合
20.01.2022
医学统计学
3
第2、第3、第4章介绍了计量资料单变量的统
计描述与统计推断:
P.13 例2-1:计算101名成年女子血清总胆固
醇的平均指标与变异指标。
P.51 例3-7:比较阿卡波糖胶囊(试验组)与拜
糖苹胶囊(对照组)降低糖尿病人的空腹血糖值
有无差别。
P.73 例4-2:比较安慰剂组、降血脂新药2.4g
组、降血脂新药4.8g组、降血脂新药7.2g组降
低患者的低密度脂蛋白含量有无差别。
20.01.2022
医学统计学
4
在医学研究中常要分析两变量间或多变 量间的关系:
年龄与血压 药物剂量与动物死亡率 肺活量与身高、体重、胸围和肩宽等
. . .
20.01.2022
医学统计学
5
事物间的相关关系
确定性关系 两变量间的函数表达式
对进化论中的变异进
行研究,开创了生物
统计学。
医学统计学
11
Karl Pearson (英,1857~1936)是 Francis Galton 的得 意门生,他开创了统 计方法学。他对统计 学的主要贡献:变异 数据的处理、分布曲 线的选配、卡方检验 的提出、回归与相关 的发展。
20.01.2022
医学统计学 Karl Pearson 12
天文学上的“回归” 地球绕太阳公转,在公转的同时本身还自转, 在本身自转的同时地球的假设轴心还来回摆 动。由于地球轴心的来回摆动,太阳光垂直 照射到地球上就有南、北两个极限位置(南、 北纬23027’),分别称南、北回归线,太阳光 对赤道“回归”垂直照射到南、北回归线的 时间分别为我国农历的冬至与夏至。
(2)(Y-Y)2 的分解
重点
20.01.2022
医学统计学
26
因变量Y总变异 (YY)2的分解
Y
Y
Y
( Y Y)
( Y Y)
( Y Y)
Y
X
20.01.2022
医学统计学
27
Y Y (Y ˆY ) (Y Y ˆ) Y Y (Y ˆY ) (Y Y ˆ)
( Y Y ) 2 ( Y ˆ Y ) 2 2 ( Y ˆ Y ) Y ( Y ˆ ) ( Y Y ˆ ) 2
20.01.2022
医学统计学
13
日常生活中的“回归”现象 1岁姜二狗,7岁姜二狗同学,20岁小姜同志, 30岁姜科长,40岁姜处长,50岁姜局长,60 岁姜老,70岁老姜,80岁姜二狗。
目前“回归”已成为表示变量之间数量依 存关系的统计术语,并且衍生出“回归方 程”、 “回归系数”等统计学概念。
医学统计学
18
20.01.2022
医学统计学
19
CASIO fx-3600PV计算器计算a、b与r
步骤 键
盘
1 MODE 2
2 SHIFT
KAC
3 13 XDYD 3.54 DATA
11 XDYD 3.01 DATA
9 XDYD 3.09 DATA
4 SHIFT
r
5 SHIFT
a
6 SHIFT
b
(二)总体回归系数的可信区间
bt0.05/2,6Sb 0.1392 2.4470.0304 (0.064, 80.213) 6
此区间不包括β=0,结论为b有统计学意义。
20.01.2022
医学统计学
34
SPSS结果
ANOVbA
Sum of
Model
Squares
1
Regression.813
df Mean Square F
F
2.9 07
SS /v 20.01.2022 残 残 M 残医S学0 统.计0学 388
30
例 9-1 的方差分析表
变异来源 自由度 SS
MS
F
P
总变异
7
1.0462
回归
1
0.8134 0.8134 20.97 <0.01
残差
6
0.2328 0.0388
F0.01(1,6)=13.74
20.01.2022
发现儿子身高(Y,英寸)与父亲身高间(X,英寸)
存在线性依存关系:
Yˆ =33.73+0.516 X 但不少身材高的父亲的儿子成年后身高比其
父亲矮,不少身材矮的父亲的儿子成年后身
高比其父亲高。
Galton F (英,1822~1911 ) 将这种现象称之为
子一代身高向人群平均身高的“回归”。
20.01.2022
圆的周长与半径的关系: C=2R
路程与速度、时间的关系:L=ST
数学中X与Y的直线函数关系:Y=a+bX
非确定性关系 两变量间存在关系,但未精
确到可以用函数表达式来描述。
年龄与血脂的关系;
身高Байду номын сангаас体重的关系;
体重与体表面积的关系。
20.01.2022
医学统计学
6
第一节 直线回归 Linear Regression
回
残 医学统计学
28
Y的总变异分解
➢ 未引进回归时的总变异:
(YY)2
(sum of squares of deviation from mean)
➢ 引进回归以后的剩余变异:
(Y Y)2
(sum of squares of residuals)
➢ 回归的贡献,回归平方和:
(Y Y)2
(sum of squares due to regression)
20.01.2022
医学统计学
15
3.6
Y
尿 3.4
肌 酐
3.2
含3
量
2.8
2.6
2.4
4
hat
YabX
6
8
10
12
年龄(岁)X
8名儿童的年龄与其尿肌酐含量
20.01.2022
医学统计学
14
16
➢各散点呈直线趋势 ➢但并非均在一条直线上 ➢根据原始数据拟合的直线方程与数理 上二元一次函数方程在内涵上有区别,
1
.813 20.968
Sig. .004a
Residual .233
6
.039
Total
1.046
7
a.Predictors: (Constant), 年龄(岁)
b.Dependent Variable: 尿肌酐含量(mmol/L)
Coefficieants
UnstandaS rdta izneddardized CoefficieC no tsefficient9s5% Confidence Interval for B
20.01.2022
医学统计学
14
例 某地方病研究所调查了8名正常儿童的尿 肌酐含量(mmol/24h),试估计尿肌酐含量(Y) 对其年龄(X)的回归方程。
8 名正常儿童的年龄X(岁) 与尿肌酐含量Y(mmol/24h)
编号 1 2 3 4 5 6 7 8 年 龄 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
20.01.2022
医学统计学
35
(三)利用回归方程进行估计与预测
1.总体均数 Y X 的可信区间
Y X : 给定X后对应Y的总体均数
Yˆ 0 : 给定X后对应Y的样本均数
Yˆ 0 t S / 2, Yˆ0
S SYX Y0
1 (X0 X)2 n (X X)2
20.01.2022
医学统计学