双变量回归与相关(第9章)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p02otential li04fe lost
16 15
1
1
30
-1
1
56
-4
16
96
0
0
81
-4
16
140
4
16
77
1
1
132
3
9
130
1
1
182
-3
9
270
-1
1
272
2
4
255
2
4
288
—
92
2063
表 9–3 某省 1995 年到 1999 年居民死因构成与 WYPLL 构成
死因类别
(1)
SS回=blXY=l2XY/lXX=5.8452/42=0.8134
SS残= SS总- SS回=1.0462-0.8134=0.2328 v总=v回+v剩 v总=n-1,v回=1, v残=n-2
F SS回 / v回 MS回 0.8134 20.97 SS残 / v残 MS残 0.0388
表 9–2 例 9-1 的方差分析表
编号 1 2 3 4 5 6 7 8
年 龄X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
表9–7 10名大骨节病患儿的年龄X(岁)与尿肌酐含量Y(mmol/24h)
学术语。返回原来的地方。 生物遗传学上的“回归”:英国统计学家 Pearson K(1857~1936)1903年搜集了1078个 家庭人员的身高、前臂长等指标的记录,发现 儿子身高(Y,英寸)与父亲身高(X,英寸) 存在线Yˆ形关系: =33.73+0.516 X ,即高个子父 代的子一
代在成年之后的身高平均来说不是比其父代更高, 而是稍矮于其父代水平;而矮个子父代的子一代, 成年之后的身高平均来说不是比其父代更矮,而 是稍高于其父代水平。英国生物遗传学和统计学 家Galton F(1822~1911)将这种趋向于种族稳 定的现象称之为“回归”。 天文学上的“回归”:地球绕太阳公转,在公转 的同时,本身还自转,本身自转的同时,地球的 轴心(假设)还来回摆动,由于地球轴心的来回 摆
第三节 秩相关
1.不服从双变量正态分布而不宜作积差 相关分析;
2.总体分布类型未知; 3.原始数据用等级表示。
一、Spearman秩相关
表 9–3 某省 1995 年到 1999 年居民死因构成与 WYPLL 构成
死因类别
(1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
变异来源 自由度 SS MS F P
总变异 7 1.0462
回归
1 0.8134 0.8134 20.97 <0.01
残差
6 0.2328 0.0388
2.t 检验
t b0 Sb
n2
Sb SY . X lXX
SY . X
n2 (Y Yˆ )2
n-2 SS残
(1)建立检验假设并确定检验水准
Y 3.6
尿 3.4
肌
酐 3.2
含 量
3
2.8
2.6
Y a bX
2.4
4
6
8
10
12
14
年龄(岁)X
8名儿童的年龄与其尿肌酐含量
y
Y X X
x
二、直线回归方程的求法
最小二乘法 (Y Yˆ)2最小
b lXY (X X )(Y Y )
lXX
(X X )2
XY X2
( X (
显示出着显著的相关性
102
100 140 150 160 170 180 190 小树的高度(cm)
11岁组 10岁组 9岁组 8岁组 7岁组
貌似有相关性,实际上无相关性的 分层资料:某人关于一所小学的小学生 生长发育情况与家庭收入关系的调查
2.进行相关、回归分析前要绘制散点图 有无异常点,谨慎剔除。 相关:X与Y服从正态双变量。 回归:同上或X为严格控制的非随机变量。
(Y Y)2 (Yˆ Y)2 2(Yˆ Y )(Y Yˆ) (Y Yˆ)2
2 (Yˆ Y )(Y Yˆ) 0 Yˆ a bX , a Y bX , b lXY / lXX (Y Y )2 (Yˆ Y )2 (Y Yˆ)2
SS总=SS回+SS残
(3)计算检验统计量F值
SS总=lYY =1.0462
n3
可信限变换:r
tanh(Z )
或
r
e2Z 1 e2Z 1
四、决定系数
R2 SS回
l
2 XY
/ lXX
(0.8818)2 0.7775
SS总
lYY
• 0﹤R2﹤1,回归贡献的相对程度
Y的总变异中回归关系所能解释的百分比
年龄可解释尿肌酐含量变异性的77.75%
• 直线回归拟合优度检验等价对假设检验
82
tr 4.579 t0.005/ 2,6 4.317 P 0.005
r 0.8818 r0..005/2,6 0.870 P 0.005
(二)总体相关系数的可信区间
相关系数的抽样分布在≠0时呈偏态分布
Z tanh1 r 或 Z 1 ln (1 r) 2 (1 r)
1 可信区间:Z u / 2
平均将有100×(1-)个个体值在求出的范围内
第二节 直线相关
一、直线相关的概念
不要求由X估计Y 先不考虑由X估计Y 相关关系不一定是因果关系
正相关
0< r <1
负相关
-1< r <0
不相关r = 0
完全相关
r =1
r = -1
相关示意图
二、相关系数的意义与计算
r X X Y Y
2
合计
死因构成(%)
X(2) P(3)
0.03
1
0.14
2
0.20
3
0.43
4
0.44
5
0.45
6
0.47
7
0.65
8
0.95
9
0.96
10
2.44
11
2.69
12
3.07
13
7.78
14
9.82
15
18.93
16
22.59
17
27.96
18
—
171
WYPLL 构成(%)
Y(4) Q(5)
0.05
1
0.34
(2)计算检验统计量t值
SY .X
0.2328 82
0.1970
Sb
0.1970 42
0.0304
t 0.1392 4.579 0.0304
(3)确定P值下结论
t 4.579 t0.005/ 2,6 4.317 P 0.005
F 20.97 4.579 t
(二)总体回归系数的可信区间
第九章
双变量回归与相关
Bivariate Regression & Correlation
第2、第3、第4章介绍计量资料单变量统计分布 特征或比较该变量的组间差别:
P.9 例2-1 计算101名成年女子血清总胆固 醇的平均指标与变异指标。
P.33 例3-7 比较阿卡波糖(试验组)与拜 糖苹(对照组)降低糖尿病人的空腹血糖值有 无差别。
)( Y X )2 /
)/ n
n
5.8450 42
0.1392
a Y bX 2.9838 0.13929.5 1.6617
CASIO fx-3600计算器
计算a、b与r的步骤
步骤 键盘
说明
1 MODE 2
进入线性回归模式 LR
2 SHIFT(INV) KAC 清除原来储存数据
3 13 XDYD 3.54 DATA 数据输入
10
12
14
年龄(岁)X
8名儿童的年龄与其尿肌酐含量
三、直线回归方程中的统计推断
(一)回归方程的假设检验
1.方差分析 (1)建立检验假设并确定检验水准
H0:β=0 H1: β≠0 α=0.05
(2)lYY的分解
Y
y
Y Yˆ
Yˆ -Y
Y
Y
X
x
Y
y
Y Yˆ
Yˆ -Y Yˆ -Y
Y
Y
X
x
Y Y (Yˆ Y) (Y Yˆ) Y Y (Yˆ Y) (Y Yˆ) (Y Y)2 (Yˆ Y)2 (2 Yˆ Y )(Y Yˆ) (Y Yˆ)2
22.59
17
27.96
18
—
171
WYPLL 构成(%)
Y(4) Q(5)
0.05
1
0.34
2
0.93
6
0.69
4
0.38
3
0.79
5
1.19
8
4.74
12
2.31
9
5.95
14
1.11
7
3.53
11
3.48
10
5.65
13
33.95
18
17.16
17
8.42
15
9.33
16
—
171
d
d2
(6)=(3)(- 5) (7)=(6)2
F
R2
1 R2 /n 2
SS回 /1
SS残 /n 2
五、直线回归与相关应用的注意事项
1.根据分析目的选择变量及统计方法 相关:X与Y没有主次,为双向。 回归:Y依X变化而变化,为单向;把易
于 精确测量的变量作为X。
要有实际意义。
108
孩子的身高(cm)
106
孩子的身高与小树的高度间
104
2
0.93
6
0.69
4
0.38
3
0.79
5
1.19
8
4.74
12
2.31
9
5.95
14
1.11
7
3.53
11
3.48
10
5.65
13
33.95
18
17.16
17
8.42
15
9.33
16
—
171
d
d2
PQ
(6)=(3)(- 5) (7)=(6)2 (8)=(3)(5)
0
0
1
0
0
4
W-3 ork year9s of 18
2
X X Y Y
l XY
lXX lYY
5.845 0.8818 42 1.046
三、相关系数的统计推断
(一)相关系数的假设检验
H0 : 0 尿肌酐含量与年龄之间无直线相关关系
H1 : 0 0.05
tr
r 0 Sr
r 1 r n2
0.8818 1 0.8818
4.579 tb
0
0
0
0
-3
9
0
0
2
4
1
1
-1
1
-4
16
பைடு நூலகம்
0
0
-4
16
4
16
1
1
3
9
1
1
-3
9
-1
1
2
4
2
4
—
92
PQ
(8)=(3)(5)
1 4 18 16 15 30 56 96 81 140 77 132 130 182 270 272 255 288
2063
H0 : S 0 H1 : S 0 0.05
11 XDYD 3.01 DATA
9 XDYD 3.09 DATA
4 SHIFT (INV) r 显示相关系数 5 SHIFT (INV) a 显示截距 6 SHIFT (INV) b 显示回归系数
Y 3.6
尿 3.4
肌
酐 3.2
含 量
3
2.8
2.6
Y 1.6617 0.1392X
2.4
4
6
8
动,太阳光垂直照射到地球上就有南、北两个 极限位置(南、北纬度23027’),分别称为南、 北回归线,分别为我国农历的冬至与夏至。以 上现象称为太阳光对赤道的“回归”。 日常生活中的“回归”现象:穿军装…;智商高或低
的父代与子代…;1岁姜二狗,7岁姜二狗同学,20岁小姜同志, 30岁姜科长,40岁姜处长,50岁姜老,60岁老姜;70岁姜二狗。
b t / 2, sb 0.1392 2.447 0.0304 (0.0648,0.2136)
此区间不包括0
(三)利用回归方程进行估计与预测
1.总体均数 Y X 的可信区间
Yˆ 0 t / 2, SYˆ0 平均有100×(1-)个可信区间包括总体均数
2.个体Y值的预测区间 Yˆ 0 t / 2, SY0
3.用残差图考察数据是否符合模型假设条件 回归模型应用前提条件: Y与X为线形关系、误差服从均数为0的正态
分布且方差相等、各观察独立。
ei Yi Yˆi
e
0
ˆy
e
e
0
0
ˆy
ˆy
e
e
0
0
ˆy
时间
4.结果的解释及正确应用 P值越小越有理由认为变量间直线关系存在,
不能说关系越密切。 直线回归用于预测时不能外延。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
合计
死因构成(%)
X(2) P(3)
0.03
1
0.14
2
0.20
3
0.43
4
0.44
5
0.45
6
0.47
7
0.65
8
0.95
9
0.96
10
2.44
11
2.69
12
3.07
13
7.78
14
9.82
15
18.93
16
6d2
6 92
rS 1 n(n 1) 1 183 18 0.905
rS rS 0.001, n 18 0.728 P 0.001
或用秩Pi、Qi直接作积差相关系数r计算
第六节 两条回归直线的比较
一、两个回归系数的比较 二、两个截距的比较
表9–1 8名正常儿童的年龄X(岁)与尿肌酐含量Y(mmol/24h)
目前“回归”已成为表示变量之间某种数量关 系的统计术语,并且衍生出“回归方程”、 “回归系数”等统计学概念。
表9–1 8名正常儿童的年龄X(岁)与尿肌酐含量Y(mmol/24h)
编号 1 2 3 4 5 6 7 8 年 龄X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
P.54 例4-2 比较安慰剂组、降血脂新药2.4g 组、降血脂新药4.8g组、降血脂新药7.2g组降低 患者的低密度脂蛋白含量有无差别。
在医学研究中常要分析变量间的关系:如 年龄与血压,药物剂量与动物死亡率,肺 活量与体重、胸围和肩宽等指标的关系。
第一节 直线回归
一、直线回归的概念 “回归”是一个借用已久因而相沿成习的统计