广义线性回归分析(协方差分析)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其意义是使得方差分析和回归分析的实用 性和准确性得到进一步提高。
两个典型的广义线性模型分析方法
协方差分析
含有数值型自变量 的方差分析
广义线性回归分析
含有分类型自变量 的回归分析
第二节 协方差分析
协方差分析是将方差分析原理和线性回归 分析原理结合起来的一种方差分析方法。 它消除了混杂变量(协变量)对因变量的 影响,使得方差分析结果更加准确。
R-Square
C.V. Root MSE
Y Mean
0.676261 50.70604 4.0057775
7.9000000
②
Source
DF Type I SS Mean Square F Value Pr > F
DRUG
2 293.60000000 146.80000000 9.15 0.0010
协方差分析的意义
• 可以消除多个混杂因素对处理效应的影响, 得到校正均值;
• 提高方差分析结果的准确性和真实性; • 医学研究中应用广泛,解决了很多条件不易
控制的实验问题。
协方差分析和随机区组设计的区别:
• 随机区组设计资料的方差分析仅可以消除一 个混杂因素(分类型变量)对因变量的影响;
• 协方差分析可以消除多个混杂因素对因变量 的影响。
① Dependent Variable: Y
Sum of
Mean
Source
DF Squares Square
F Value Pr > F
Model
3 871.49740304 290.49913435 18.10 0.0001
Error
26 417.20259696 16.04625373
Corrected Total 29 1288.70000000
多元统计分析方法
The Methods of Multivariate Statistical Analysis
回忆
主要的统计分析方法
反 分类型 应 变 量 数值型
卡方分析 方差分析 回归分析
异同点?
比较率 比较均值 依存关系
方差分析
分析效应因子A对反应变量Y的影响,即, 分析效应因子A的不同水平对反应变量Y 的作用差异。
cards; 11 6 6 0 16 13 …… 3 0 15 9 12 20
run;
(一) 检验协方差分析的4个假设条件是否满足 (1) 检验正态性: proc sort data=eg6_1; by drug;run; proc univariate data=eg6_1 normal;var y;by drug;run; (2) 检验方差齐性: proc discrim data=eg6_1 pool=test;class drug;var y;run; (3) 检验线性相关性: proc reg data=eg6_1; model y=x; by drug;run; (4) 检验平行性: proc glm data=eg6_1;model y=drug x drug*x ;run;
Drug A
来自百度文库
5.20
6.72
Drug D
6.10
6.82
Drug F
13.10
10.16
【结果解释】 ① 模型的总体检验结果:
p=0.0001,R2=0.676,说明模型有统计意义, 即drug和x 对y 的联合作用是显著的。 ② TyepI SS 对参数的检验结果: 因为drug排在协变量x之前,根据第一类SS定义,检 验drug 对y 的影响效应时,没有对x 进行校正。此结果 说明,不考虑治疗前的病情状况,这三种治疗方法是有 显著性区别的(p=0.0010)。
(3) 检验线性相关性的结果:(H0: 线性无关,H1:线性相关) A组:F=11.23,df=(1,8),p=0.0101 D组:F=39.24,df=(1,8),p=0.0002 F组:F= 6.21,df=(1,8),p=0.0374 --------说明三个组上 y 与 x 均近似呈线性关系。
协方差分析在医学中的应用
1)借助协方差分析来排除非处理因素的干扰,从而 准确地估计处理因素的试验效应。
2)协方差分析和方差分析一样,包括各种类型的模 型,因此可以用来处理医学研究中各种不同设计资 料的分析,例如,完全随机设计资料,随机区组设 计资料等等。
第三节 广义线性回归分析
广义线性回归分析是将线性回归分析原理和方 差分析原理相结合起来的一种线性回归分析方 法,它和线性回归分析的区别是模型的自变量 可以是任意类型的变量。 其主要目的是扩大线性回归分析的应用范围, 使得它的应用价值得到进一步提高。
方差分析和回归分析的不同点
结合?
自变量: 方差分析: 回归分析:
自变量---分类型 自变量---连续型
第六章
广义线性模型分析
General Linear Model Analysis
主要内容
Ø 什么是广义线性模型分析? Ø 协方差分析 Ø 广义线性回归分析
第一节 广义线性模型分析的概念
广义线性模型分析是将方差分析和回归分 析的基本原理结合起来,用来分析连续型 因变量与任意型自变量之间各种关系的一 种统计分析方法。
随机误差
混杂因子 年龄 身高
解决的办法
处理效应Y
效应因子 A,B,C,…
混杂因子 X1,X2,…
消除混杂 因子的影响
选取条件相同的样本
协方差分析
在方差分析模型中加入混杂因子
一、协方差分析的原理
分解总体变异:
SST = SSA + SSX + SSE
Y的总体变异 舒张压
因子A所解释 的部分
性别
混杂因子X 所解释的部分
Parameter INTERCEPT DRUG A
D F X
Estimate -0.434671164 B -3.446138280 B -3.337166948 B 0.000000000 B
0.987183811
T for H0: Parameter=0
-0.18 -1.83 -1.80
. 6.00
方差分析存在的问题:结果不够准确
用方差分析结果来对下面问题作结论,合适吗?
。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 。大学生和运动员之间肺活量的差异
年龄 用药前水平 身高
方差分析不够准确的原因:
SST = SSA + SSE
Y的总体变异 被因子A 所 残差 解释的部分
肺活量
职业
【SAS 部分输出结果】 (1) 检验正态分布的结果:(H0: y 服从正态分布)
A组:W= 0.928405, P=0.4166 D组:W= 0.871798, P= 0.1002 F组:W= 0.972136, P= 0.9023 -------说明三个组的y 值均近似服从正态分布。 (2) 检验方差齐性的结果:(H0: 方差相等) Chi-Square =1.551005,DF=2,P= 0.4605, --------说明三个组的方差在统计意义上是相等的。
Pr > |T|
0.8617 0.0793 0.0835
. 0.0001
Std Error of Estimate 2.47135356 1.88678065 1.85386642 . 0.16449757
Least Squares Means
DRUG
Y Pr > |T| H0: LSMEAN(i)=LSMEAN(j)
。收缩压和胆固醇的依存关系 。肺活量和体重的关系 。污染物浓度和污染源距离之间的关系
回归分析的原理
分解总体变异: SST = SSX + SSE
Y的总体变异
舒张压
被自变量X 所 解释的部分
胆固醇
残差
方差分析和回归分析的相同点
模型:
因变量 = 自变量 + 残差
方法原理: 因变量:
分解总体变异 SST = SSA + SSE SST = SSX + SSE 连续型数值变量
区别(2):模型
方差分析模型
μi 是组均值 (group mean) εij 是随机误差
协方差分析模型
μi 是校正的组均值 (adjusted group mean) εij 是随机误差 β是协变量x对因变量y的影响
区别(3):假设条件
方差分析
协方差分析
Ø 在效应因子的每一 个水平上,因变量y 服从正态分布;
X
1 577.89740304 577.89740304 36.01 0.0001
③
Source
DF Type III SS Mean Square F Value Pr > F
DRUG
2 68.55371060 34.27685530 2.14 0.1384
X
1 577.89740304 577.89740304 36.01 0.0001
Ø 方差相等。
Ø 在效应因子的每一个水平上, 因变量y服从正态分布;
Ø 方差相等; Ø 在效应因子的每一个水平上,
因变量y和协变量x呈线性关系; Ø 斜率相同。
三、协方差分析的方法步骤
o 检验数据是否满足假设条件: § 正态分布性 § 方差齐性 § 线性相关性 § 平行性
o 检验效应因子的显著性 o 估计校正的组均值 o 检验校正的组均值之间的差异
LSMEAN i/j 1
2
3
A
6.7149635 1 .
0.9521 0.0793
D
6.8239348 2 0.9521 .
0.0835
F
10.1611017 3 0.0793 0.0835 .
均值和校正均值
The means and adjusted means
means
adjusted means
数据:
解:这是一个完全随机设计资料。令 x 表示治疗前病人身体的癫疯病菌数量, y 表示治疗后病人身体的癫疯病菌数量, drug 表示用药方式,取值为A、D和F,分别 表示使用抗生素A、抗生素D和安慰剂。
首先建立SAS数据集
data eg6_1; do id=1 to 10; do drug='A', 'D', 'F'; input x y @@; output; end; end;
③ TyepIII SS 对参数的检验结果。根据第三类SS定义,检验 模型中每一个自变量时,都校正模型中的其它变量对y 的 影响。此结果说明,校正了治疗前的病情状况后,这三种 治疗方法是没有显著性区别的(p=0.1384)。
④ 给出了三个处理组的校正均值,即,校正了治疗前的病情 状况后三个组的均值,以及每一对均值的差异比较。因为 上面结果已经说明三种治疗方法没有显著性差别,因此不 需要解释这一部分的结果。 因为数据满足协方差分析的 假设条件,因此,上述协方差分析结果是可靠的。
class drug; model y=drug x; lsmeans drug / pdiff; run; 【SAS 输出结果】 General Linear Models Procedure Class Level Information Class Levels Values DRUG 3 A D F Number of observations in data set = 30
(4) 检验平行性的结果:(H0: 斜率相等) F= 0.59,df=(2,24),p=0.560, --------说明三条直线近似平行。
注意,以上检验过程应逐条进行,若发现有不满足假设条件 的,应当选取适当的变量变换,使之尽可能接近假设条件。
(二) 假设条件满足后,再进行协方差分析: 【SAS 程序】 proc glm;
年龄
随机误差 协变量
二、方差分析和协方差分析的区别
区别(1):数据
方差分析
协方差分析
AY 1 y11 1 y12 ∶∶ 1 y1.n1 2 y21 2 y22 ∶∶ 2 y2,n2
AY 1 y11 1 y12 ∶∶ 1 y1,n1 2 y21 2 y22 ∶∶ 2 y2,n2
X x11 x12 ∶ x1,n1 x21 x22 ∶ x2,n2
四、协方差分析的应用举例
【例6_1】为了研究两种药物对癫疯病菌的治疗效 果,将30名病人随机分成3组,一组使用抗生素A, 一组使用抗生素D,另一组作为对照组使用安慰剂。 治疗前和治疗后分别对病人身体的癫疯病菌数量进 行了检测,病菌的数量是由每一个病人身体上六个 部位病菌感染的程度而定的,数据列在下表中。试 对该试验研究进行统计分析。
。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 。大学生和运动员之间肺活量的差异
方差分析的原理
分解总体变异: SST = SSA + SSE
Y的总体变异 舒张压
被因子A 所 解释的部分
性别
残差
回归分析
分析自变量X对因变量Y的依存关系,即, 分析自变量X改变一个单位时,因变量Y的 改变量大小。
两个典型的广义线性模型分析方法
协方差分析
含有数值型自变量 的方差分析
广义线性回归分析
含有分类型自变量 的回归分析
第二节 协方差分析
协方差分析是将方差分析原理和线性回归 分析原理结合起来的一种方差分析方法。 它消除了混杂变量(协变量)对因变量的 影响,使得方差分析结果更加准确。
R-Square
C.V. Root MSE
Y Mean
0.676261 50.70604 4.0057775
7.9000000
②
Source
DF Type I SS Mean Square F Value Pr > F
DRUG
2 293.60000000 146.80000000 9.15 0.0010
协方差分析的意义
• 可以消除多个混杂因素对处理效应的影响, 得到校正均值;
• 提高方差分析结果的准确性和真实性; • 医学研究中应用广泛,解决了很多条件不易
控制的实验问题。
协方差分析和随机区组设计的区别:
• 随机区组设计资料的方差分析仅可以消除一 个混杂因素(分类型变量)对因变量的影响;
• 协方差分析可以消除多个混杂因素对因变量 的影响。
① Dependent Variable: Y
Sum of
Mean
Source
DF Squares Square
F Value Pr > F
Model
3 871.49740304 290.49913435 18.10 0.0001
Error
26 417.20259696 16.04625373
Corrected Total 29 1288.70000000
多元统计分析方法
The Methods of Multivariate Statistical Analysis
回忆
主要的统计分析方法
反 分类型 应 变 量 数值型
卡方分析 方差分析 回归分析
异同点?
比较率 比较均值 依存关系
方差分析
分析效应因子A对反应变量Y的影响,即, 分析效应因子A的不同水平对反应变量Y 的作用差异。
cards; 11 6 6 0 16 13 …… 3 0 15 9 12 20
run;
(一) 检验协方差分析的4个假设条件是否满足 (1) 检验正态性: proc sort data=eg6_1; by drug;run; proc univariate data=eg6_1 normal;var y;by drug;run; (2) 检验方差齐性: proc discrim data=eg6_1 pool=test;class drug;var y;run; (3) 检验线性相关性: proc reg data=eg6_1; model y=x; by drug;run; (4) 检验平行性: proc glm data=eg6_1;model y=drug x drug*x ;run;
Drug A
来自百度文库
5.20
6.72
Drug D
6.10
6.82
Drug F
13.10
10.16
【结果解释】 ① 模型的总体检验结果:
p=0.0001,R2=0.676,说明模型有统计意义, 即drug和x 对y 的联合作用是显著的。 ② TyepI SS 对参数的检验结果: 因为drug排在协变量x之前,根据第一类SS定义,检 验drug 对y 的影响效应时,没有对x 进行校正。此结果 说明,不考虑治疗前的病情状况,这三种治疗方法是有 显著性区别的(p=0.0010)。
(3) 检验线性相关性的结果:(H0: 线性无关,H1:线性相关) A组:F=11.23,df=(1,8),p=0.0101 D组:F=39.24,df=(1,8),p=0.0002 F组:F= 6.21,df=(1,8),p=0.0374 --------说明三个组上 y 与 x 均近似呈线性关系。
协方差分析在医学中的应用
1)借助协方差分析来排除非处理因素的干扰,从而 准确地估计处理因素的试验效应。
2)协方差分析和方差分析一样,包括各种类型的模 型,因此可以用来处理医学研究中各种不同设计资 料的分析,例如,完全随机设计资料,随机区组设 计资料等等。
第三节 广义线性回归分析
广义线性回归分析是将线性回归分析原理和方 差分析原理相结合起来的一种线性回归分析方 法,它和线性回归分析的区别是模型的自变量 可以是任意类型的变量。 其主要目的是扩大线性回归分析的应用范围, 使得它的应用价值得到进一步提高。
方差分析和回归分析的不同点
结合?
自变量: 方差分析: 回归分析:
自变量---分类型 自变量---连续型
第六章
广义线性模型分析
General Linear Model Analysis
主要内容
Ø 什么是广义线性模型分析? Ø 协方差分析 Ø 广义线性回归分析
第一节 广义线性模型分析的概念
广义线性模型分析是将方差分析和回归分 析的基本原理结合起来,用来分析连续型 因变量与任意型自变量之间各种关系的一 种统计分析方法。
随机误差
混杂因子 年龄 身高
解决的办法
处理效应Y
效应因子 A,B,C,…
混杂因子 X1,X2,…
消除混杂 因子的影响
选取条件相同的样本
协方差分析
在方差分析模型中加入混杂因子
一、协方差分析的原理
分解总体变异:
SST = SSA + SSX + SSE
Y的总体变异 舒张压
因子A所解释 的部分
性别
混杂因子X 所解释的部分
Parameter INTERCEPT DRUG A
D F X
Estimate -0.434671164 B -3.446138280 B -3.337166948 B 0.000000000 B
0.987183811
T for H0: Parameter=0
-0.18 -1.83 -1.80
. 6.00
方差分析存在的问题:结果不够准确
用方差分析结果来对下面问题作结论,合适吗?
。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 。大学生和运动员之间肺活量的差异
年龄 用药前水平 身高
方差分析不够准确的原因:
SST = SSA + SSE
Y的总体变异 被因子A 所 残差 解释的部分
肺活量
职业
【SAS 部分输出结果】 (1) 检验正态分布的结果:(H0: y 服从正态分布)
A组:W= 0.928405, P=0.4166 D组:W= 0.871798, P= 0.1002 F组:W= 0.972136, P= 0.9023 -------说明三个组的y 值均近似服从正态分布。 (2) 检验方差齐性的结果:(H0: 方差相等) Chi-Square =1.551005,DF=2,P= 0.4605, --------说明三个组的方差在统计意义上是相等的。
Pr > |T|
0.8617 0.0793 0.0835
. 0.0001
Std Error of Estimate 2.47135356 1.88678065 1.85386642 . 0.16449757
Least Squares Means
DRUG
Y Pr > |T| H0: LSMEAN(i)=LSMEAN(j)
。收缩压和胆固醇的依存关系 。肺活量和体重的关系 。污染物浓度和污染源距离之间的关系
回归分析的原理
分解总体变异: SST = SSX + SSE
Y的总体变异
舒张压
被自变量X 所 解释的部分
胆固醇
残差
方差分析和回归分析的相同点
模型:
因变量 = 自变量 + 残差
方法原理: 因变量:
分解总体变异 SST = SSA + SSE SST = SSX + SSE 连续型数值变量
区别(2):模型
方差分析模型
μi 是组均值 (group mean) εij 是随机误差
协方差分析模型
μi 是校正的组均值 (adjusted group mean) εij 是随机误差 β是协变量x对因变量y的影响
区别(3):假设条件
方差分析
协方差分析
Ø 在效应因子的每一 个水平上,因变量y 服从正态分布;
X
1 577.89740304 577.89740304 36.01 0.0001
③
Source
DF Type III SS Mean Square F Value Pr > F
DRUG
2 68.55371060 34.27685530 2.14 0.1384
X
1 577.89740304 577.89740304 36.01 0.0001
Ø 方差相等。
Ø 在效应因子的每一个水平上, 因变量y服从正态分布;
Ø 方差相等; Ø 在效应因子的每一个水平上,
因变量y和协变量x呈线性关系; Ø 斜率相同。
三、协方差分析的方法步骤
o 检验数据是否满足假设条件: § 正态分布性 § 方差齐性 § 线性相关性 § 平行性
o 检验效应因子的显著性 o 估计校正的组均值 o 检验校正的组均值之间的差异
LSMEAN i/j 1
2
3
A
6.7149635 1 .
0.9521 0.0793
D
6.8239348 2 0.9521 .
0.0835
F
10.1611017 3 0.0793 0.0835 .
均值和校正均值
The means and adjusted means
means
adjusted means
数据:
解:这是一个完全随机设计资料。令 x 表示治疗前病人身体的癫疯病菌数量, y 表示治疗后病人身体的癫疯病菌数量, drug 表示用药方式,取值为A、D和F,分别 表示使用抗生素A、抗生素D和安慰剂。
首先建立SAS数据集
data eg6_1; do id=1 to 10; do drug='A', 'D', 'F'; input x y @@; output; end; end;
③ TyepIII SS 对参数的检验结果。根据第三类SS定义,检验 模型中每一个自变量时,都校正模型中的其它变量对y 的 影响。此结果说明,校正了治疗前的病情状况后,这三种 治疗方法是没有显著性区别的(p=0.1384)。
④ 给出了三个处理组的校正均值,即,校正了治疗前的病情 状况后三个组的均值,以及每一对均值的差异比较。因为 上面结果已经说明三种治疗方法没有显著性差别,因此不 需要解释这一部分的结果。 因为数据满足协方差分析的 假设条件,因此,上述协方差分析结果是可靠的。
class drug; model y=drug x; lsmeans drug / pdiff; run; 【SAS 输出结果】 General Linear Models Procedure Class Level Information Class Levels Values DRUG 3 A D F Number of observations in data set = 30
(4) 检验平行性的结果:(H0: 斜率相等) F= 0.59,df=(2,24),p=0.560, --------说明三条直线近似平行。
注意,以上检验过程应逐条进行,若发现有不满足假设条件 的,应当选取适当的变量变换,使之尽可能接近假设条件。
(二) 假设条件满足后,再进行协方差分析: 【SAS 程序】 proc glm;
年龄
随机误差 协变量
二、方差分析和协方差分析的区别
区别(1):数据
方差分析
协方差分析
AY 1 y11 1 y12 ∶∶ 1 y1.n1 2 y21 2 y22 ∶∶ 2 y2,n2
AY 1 y11 1 y12 ∶∶ 1 y1,n1 2 y21 2 y22 ∶∶ 2 y2,n2
X x11 x12 ∶ x1,n1 x21 x22 ∶ x2,n2
四、协方差分析的应用举例
【例6_1】为了研究两种药物对癫疯病菌的治疗效 果,将30名病人随机分成3组,一组使用抗生素A, 一组使用抗生素D,另一组作为对照组使用安慰剂。 治疗前和治疗后分别对病人身体的癫疯病菌数量进 行了检测,病菌的数量是由每一个病人身体上六个 部位病菌感染的程度而定的,数据列在下表中。试 对该试验研究进行统计分析。
。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 。大学生和运动员之间肺活量的差异
方差分析的原理
分解总体变异: SST = SSA + SSE
Y的总体变异 舒张压
被因子A 所 解释的部分
性别
残差
回归分析
分析自变量X对因变量Y的依存关系,即, 分析自变量X改变一个单位时,因变量Y的 改变量大小。