第十章 线性回归与协方差

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理论上要求观察变量服从正态分布, 1. 理论上要求观察变量服从正态分布,各观察 变量相互独立,各样本方差齐性; 变量相互独立,各样本方差齐性; 各总体客观存在线性回归关系且斜率相同。 2. 各总体客观存在线性回归关系且斜率相同。
实例: 实例:比较城市和乡村儿童的身高
22
假定X与 线性关系存在且各回归线平行 线性关系存在且各回归线平行, 假定 与Y线性关系存在且各回归线平行, 则有: 则有: 处理组 对照组 Y1=α1+βX+e1 + Y0=α0+βX+e0 +
第十章
线性回归与协方差分析
1
回归分析:用于拟合变量间的关系, 回归分析:用于拟合变量间的关系,通过回 归分析可以估计反应变量与一系列自变量之 间的回归关系,同时建立具体的回归方程。 间的回归关系,同时建立具体的回归方程。
自变量为连续变量。
方差分析: 方差分析:用于比较两组或者多组总体均数 之间的差异,推论相应的处理效应间的差异。 之间的差异,推论相应的处理效应间的差异。
Xi − X j
6.75 11.625 4.875
组数a 组数 2 3 2
q 6.61 11.38 4.77
q0.05 2.95 3.58 2.95
q0.01 4.02 4.64 4.02
P <0.01 <0.01 <0.01
三组猪的初始重量两两比较均有差别, 三组猪的初始重量两两比较均有差别 , A 组初始重量最低, 组最高 组最高。 组初始重量最低,C组最高。
(10-1) )
把各自的均数带入公式10-1得: 得 把各自的均数带入公式 处理组 对照组
Y1 = α1 + β X 1 Y0 = α 0 + β X 0
23
第二节 完全随机设计 资料的协方差分析
24
例13-1 13-
为研究A 为研究A、B、C三种饲料对猪的催肥效
果,用每种饲料喂养8头猪一段时间,测得每头 用每种饲料喂养8头猪一段时间, 猪的初始重量(X)和增重(Y)数据见表13-3 和增重( 数据见表13 13猪的初始重量( 上半部。 上半部。试分析三种饲料对猪的催肥效果是否 相同? 相同?
8
1.4
血 清 载 脂 蛋 白 含 量
(g/L)
1.3 1.2 1.1 1.0 0.9 0 10 20
妊娠时间( 妊娠时间 ( 周 )
30
40
10名正常孕妇妊娠时间与血清载脂蛋白含量 名正常孕妇妊娠时间与血清载脂蛋白含量
9
原则:各实测点至直线纵向距离的平方和为最小 原则:
y
求解回归直线
x
10
直线回归方程的计算
A饲料 饲料 X1 15 13 11 12 12 16 14 17 Y1 85 83 65 76 80 91 84 90 B饲料 饲料 X2 17 16 18 18 21 22 19 18 8 149 784 203 5267 19911 2803 77016 14667 Y2 97 90 100 95 103 106 99 94 X3 22 24 20 23 25 27 30 32 8 775 75645 462 C饲料 饲料 Y3 89 91 83 95 100 102 105 110 24 2213 43681
自变量为分类变量。
两者可统一于一般线性模型
2
第一节 协方差分析的 基本思想和步骤
3
假定这样一个问题:已知某变量 对观察指标 假定这样一个问题:已知某变量X对观察指标 Y有影响(称X为协变量),由方差分析得到 有影响( 为协变量),由方差分析得到 有影响 为协变量), 不同的处理组Y的总体均数之间有差别, 不同的处理组 的总体均数之间有差别,那么 的总体均数之间有差别 这个差别是因为各组处理效应确有不同还是因 这个差别是因为各组处理效应确有不同还是因 为协变量X的影响所致? 为协变量 的影响所致? 的影响所致 如何鉴别? 如何鉴别? 需要通过一种方法,该方法可以消除 对 需要通过一种方法,该方法可以消除X对Y 的影响。 的影响。
( y − y)2 = ∑
ˆ)2 + ∑( y − y
ˆ − y)2 ∑( y

SS总 = SS剩 + SS回
2
定 数 决 系 R =
SS回 / SS总
14
协方差分析: 协方差分析:把回归分析和方差分析 结合起来的一种统计分析方法, 结合起来的一种统计分析方法,综合了两 种方法的优点,提供了一个比较组间处理 种方法的优点, 效应更加有效的方法。 效应更加有效的方法。由Fisher(1932) ( ) 最早提出。 最早提出。
均值
13.750 81.750
18.625 98.000
25.375 96.875
5
完全随机设计类型的方差分析
方差分析表
变异来源 自由度 总变异 组间变异 组内变异 23 2 21 SS 2555.958 1317.583 1238.375 658.792 58.970 11.17 <0.01 MS F P
18
协方差分析:可以消除由于对比各组 值 协方差分析:可以消除由于对比各组X值 不同对Y所产生的影响, 不同对 所产生的影响,从而提高了方差 所产生的影响 分析结论的精确性。 分析结论的精确性。
19
一、基本思想
将定量变量X(难以控制的因素)对Y的影 将定量变量 (难以控制的因素) 的影 响看作协变量,建立应变量 随协变量 随协变量X变化的 响看作协变量,建立应变量Y随协变量 变化的 线性回归关系,并利用这种回归关系把 值化为 线性回归关系,并利用这种回归关系把X值化为 相等后再进行Y的校正(修正) 相等后再进行 的校正(修正)均数间差别的假 的校正 设检验。 设检验。
4
三种饲料喂养猪的初始重量与增重(单位: ) 表13-3 三种饲料喂养猪的初始重量与增重(单位:kg) 编号
1 2 3 4 5 6 7 8 A饲料 饲料 X1 15 13 11 12 12 16 14 17 Y1 85 83 65 76 80 91 84 90 B饲料 饲料 X2 17 16 18 18 21 22 19 18 Y2 97 90 100 95 103 106 99 94 X3 22 24 20 23 25 27 30 32 C饲料 饲料 Y3 89 91 83 95 100 102 105 110
462 2213 C1 = = 8893.5 C2 = = 204057.04 24 24 462×2213 C3 = = 42600.25 24
2
2
30
(2)总的离均差平方和、离均差积和及自由度 )总的离均差平方和、
lXX = 9614 −8893.5 = 720.5 lYY = 206613− 204057.04 = 2555.96 lXY = 43681− 42600.25 =1080.75
∑(x − x)( y − y) = l b= x− l ∑(x − x)
2
xy xx
a = y − bx
11
1.4
血 清 载 脂 蛋 白 含 量
(g/L)
1.3 1.2 1.1 1.0 0.9 0
ˆ y = 0.8947 + 0.0094x
10
20
妊娠时间( 妊娠时间 ( 周 )
30
40
10名正常孕妇妊娠时间 周)与血清载脂蛋白含量 名正常孕妇妊娠时间(周 与血清载脂蛋白含量 名正常孕妇妊娠时间
20
二、协方差分析的实质
通过回归分析, 通过回归分析,从Y的总平方和中扣 的总平方和中扣 除协变量X对Y的回归平方和,对残差平方 的回归平方和, 除协变量 对 的回归平方和 和作进一步分解后再进行方差分析, 和作进一步分解后再进行方差分析,更好 地评价各种处理的效应。 地评价各种处理的效应。
21
三、应用条件
15
表10-1 某城市学校和某乡村学校儿童身高及年龄 10学生 城市学校 身高( ) 年龄( 年龄(月) 身高(cm) 乡村学校 身高( ) 年龄( 年龄(月) 身高(cm)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
均数
109 113 115 116 119 120 121 124 126 129 130 133 134 135 137 139 141 142 126.8
ν = 24 源自文库1 = 23
31
(3)组间离均差平方和、离均差积和及自由度 )组间离均差平方和、
110 +149 + 203 lXX = −8893.5 = 545.25 8 6542 + 7842 + 7752 lYY = − 204057.04 =1317.58 8 110×654 +149×784 + 203×775 − 42600.25 = 659.88 lXY = 8 ν = 3−1 = 2
17
利用协方差分析: 利用协方差分析: 消除年龄的影响,对组间差异 消除年龄的影响,对组间差异2.8cm进行 进行 校正,得到更为准确的一个差值。 校正,得到更为准确的一个差值。
结果:校正之后的组间差异为5.5cm, 结果:校正之后的组间差异为5.5cm,差 异具有统计学意义( ),可以认为 异具有统计学意义(P<0.05),可以认为 ), 城乡儿童的身高有差异。 城乡儿童的身高有差异。
25
三种饲料喂养猪的初始重量与增重(单位: ) 表13-3 三种饲料喂养猪的初始重量与增重(单位:kg) 编号
1 2 3 4 5 6 7 8 A饲料 饲料 X1 15 13 11 12 12 16 14 17 Y1 85 83 65 76 80 91 84 90 B饲料 饲料 X2 17 16 18 18 21 22 19 18 Y2 97 90 100 95 103 106 99 94 X3 22 24 20 23 25 27 30 32 C饲料 饲料 Y3 89 91 83 95 100 102 105 110
均值
13.750 81.750
18.625 98.000
25.375 96.875
26
协方差分析步骤: 协方差分析步骤:
1.H0:各总体增重的修正均数相等 . H1:各总体增重的修正均数不全相等
α= 0.05
2.列表并计算初步结果 .
27
三种饲料喂养猪的初始重量与增重(单位: ) 表13-3 三种饲料喂养猪的初始重量与增重(单位:kg)
6
初始体重的组间比较
方差分析表 变异来源 自由度 总变异 组间 组内 23 2 21 SS 720.50 545.25 175.25 272.63 8.35 32.67 <0.01 MS F P
7
多个均数两两比较表
对比组 C组与 组 组与B组 组与 C组与 组 组与A组 组与 B组与 组 组与A组 组与
139.0 140.9 134.9 149.5 148.7 131.0 142.3 139.9 142.9 147.7 147.7 134.6 135.8 148.5
133.1
141.7
16
方差分析结果: 方差分析结果: 两组平均身高的差值: 两组平均身高的差值:144.5-141.7= = 2.8cm,F=1.121,P=0.298,还不能认 , , , 为城乡儿童的身高有差异。 为城乡儿童的身高有差异。 另有:两组平均年龄的差值: 另有:两组平均年龄的差值:133.1126.8=6.3月,那么,如果城乡儿童年 = 月 那么, 龄分布相同,结果会怎样? 龄分布相同,结果会怎样?
137.6 147.8 136.8 140.7 132.7 145.4 135.0 133.0 148.5 148.3 147.5 148.8 133.2 148.7 152.0 150.6 165.3 149.9 144.5
121 121 128 129 131 132 133 134 138 138 138 140 140 140
12
y
ˆ ˆ ( y − y) = ( y − y) + ( y − y) P
ˆ ( y − y)
ˆ ( y − y)
( y − y)
y
x
应变量 y 离均差平方和划分示意图
x
13
对于所有观测点,都有: 对于所有观测点,都有:
ˆ ˆ ( y − y) = ( y − y) + ( y − y)
总离均差平方和的分解: 总离均差平方和的分解:
28
合计 X Y
n 8 ∑X(∑Y) 110 654 ∑X 2 (∑Y2 ) 1544 53952 9103 ∑XY
9614 206613
协方差分析计算表模式
变异来源
离均差平方和及积和 ν
估计误差 ν
lXX
总变异
组间变异 组内变异 修正均数
lXY
lYY
∑(Y −Y)

2
F
MS
29
3.计算相应的校正数、总的、组间及组内的 .计算相应的校正数、总的、 离均差平方和、 离均差平方和、离均差积和及自由度 (1)校正数 )
相关文档
最新文档