_广义线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的影响。
协方差分析在医学中的应用
1)借助协方差分析来排除非处理因素的干扰,从而 准确地估计处理因素的试验效应。
2)协方差分析和方差分析一样,包括各种类型的模 型,因此可以用来处理医学研究中各种不同设计资 料的分析,例如,完全随机设计资料,随机区组设 计资料等等。
第三节
广义线性回归分析
广义线性回归分析是将线性回归分析原理和方 差分析原理相结合起来的一种线性回归分析方 法,它和线性回归分析的区别是模型的自变量 可以是任意类型的变量。 其主要目的是扩大线性回归分析的应用范围, 使得它的应用价值得到进一步提高。
LSMEAN
A D F 6.7149635 6.8239348 10.1611017
i/j
1 2 3 .
1
2
0.9521 . 0.0835
3
0.0793 0.0835 .
0.9521 0.0793
均值和校正均值 The means and adjusted means
means
Drug A 5.20
① Dependent Variable: Y
Sum of Mean Source DF Squares Square F Value Pr > F Model 3 871.49740304 290.49913435 18.10 0.0001 Error 26 417.20259696 16.04625373 Corrected Total 29 1288.70000000 R-Square C.V. Root MSE Y Mean 0.676261 50.70604 4.0057775 7.9000000 ② Source DF Type I SS Mean Square F Value Pr > F DRUG 2 293.60000000 146.80000000 9.15 0.0010 X 1 577.89740304 577.89740304 36.01 0.0001 ③ Source DF Type III SS Mean Square F Value Pr > F DRUG 2 68.55371060 34.27685530 2.14 0.1384 X 1 577.89740304 577.89740304 36.01 0.0001
(二) 假设条件满足后,再进行协方差分析:
【SAS 程序】 proc glm; class drug; model y=drug x; lsmeans drug / pdiff; run; 【SAS 输出结果】 General Linear Models Procedure Class Level Information Class Levels Values DRUG 3 AD F Number of observations in data set = 30
X x11 x12 ∶ x1,n1 x21 x22 ∶ x2,n2
区别(2):模型
方差分析模型 协方差分析模型
μi 是组均值
(group mean) εi j 是随机误差
μi 是校正的组均值
(adjusted group mean) εi j 是随机误差 β是协变量x对因变量y的影响
区别(3):假设条件
F组:F= 6.21,df=(1,8),p=0.0374
--------说明三个组上 y 与 x 均近似呈线性关系。 (4) 检验平行性的结果:(H0: 斜率相等) F= 0.59,df=(2,24),p=0.560, --------说明三条直线近似平行。 注意,以上检验过程应逐条进行,若发现有不满足假设条件 的,应当选取适当的变量变换,使之尽可能接近假设条件。
【SAS 部分输出结果】 (1) 检验正态分布的结果:(H0: y 服从正态分布) A组:W= 0.928405, P=0.4166 D组:W= 0.871798, P= 0.1002 F组:W= 0.972136, P= 0.9023 -------说明三个组的y 值均近似服从正态分布。
(2) 检验方差齐性的结果:(H0: 方差相等)
协方差分析的意义
• 可以消除多个混杂因素对处理效应的影响, 得到校正均值;
• 提高方差分析结果的准确性和真实性;
• 医学研究中应用广泛,解决了很多条件不易
控制的实验问题。
协方差分析和随机区组设计的区别:
• 随机区组设计资料的方差分析仅可以消除一 个混杂因素(分类型变量)对因变量的影响;
• 协方差分析可以消除多个混杂因素对因变量
验drug 对y 的影响效应时,没有对x 进行校正。此结果 说明,不考虑治疗前的病情状况,这三种治疗方法是有 显著性区别的(p=0.0010)。
③ TyepIII SS 对参数的检验结果。根据第三类SS定义,检验
模型中每一个自变量时,都校正模型中的其它变量对y 的 影响。此结果说明,校正了治疗前的病情状况后,这三种 治疗方法是没有显著性区别的(p=0.1384)。 ④ 给出了三个处理组的校正均值,即,校正了治疗前的病情 状况后三个组的均值,以及每一对均值的差异比较。因为 上面结果已经说明三种治疗方法没有显著性差别,因此不 需要解释这一部分的结果。 因为数据满足协方差分析的 假设条件,因此,上述协方差分析结果是可靠的。
proc discrim data=eg6_1 pool=test;class drug;var y;run;
(3) 检验线性相关性: proc reg data=eg6_1; model y=x; by drug;run; (4) 检验平行性: proc glm data=eg6_1;model y=drug x drug*x ;run;
方差分析 在效应因子的每一 个水平上,因变量y 服从正态分布; 方差相等。 协方差分析 在效应因子的每一个水平上, 因变量y服从正态分布;
方差相等;
在效应因子的每一个水平上, 因变量y和协变量x呈线性关系;
斜率相同。
三、协方差分析的方法步骤
o 检验数据是否满足假设条件: 正态分布性 方差齐性 线性相关性 平行性 o 检验效应因子的显著性 o 估计校正的组均值 o 检验校正的组均值之间的差异
do drug='A', 'D', 'F';
input x y @@; output; end; end; cards; 11 6 6 0 16 13 …… 3 0 15 9 12 20 run;
(一) 检验协方差分析的4个假设条件是否满足
(1) 检验正态性: proc sort data=eg6_1; by drug;run; proc univariate data=eg6_1 normal;var y;by drug;run; (2) 检验方差齐性:
T for H0:
Parameter INTERCEPT DRUG A D F X Estimate -0.434671164 B -3.446138280 B -3.337166948 B 0.000000000 B 0.987183811 Parameter=0 -0.18 -1.83 -1.80 . 6.00
对该试验研究进行统计分析。
数据:
解:这是一个完全随机设计资料。令 x 表示治疗前病人身体的癫疯病菌数量, y 表示治疗后病人身体的癫疯病菌数量, drug 表示用药方式,取值为A、D和F,分别 表示使用抗生素A、抗生素D和安慰剂。
首先建立SAS数据集
data eg6_1; do id=1 to 10;
多ห้องสมุดไป่ตู้统计分析方法
The Methods of Multivariate Statistical Analysis
回忆
主要的统计分析方法
分类型 卡方分析 方差分析 数值型 回归分析
异同点?
反 应 变 量
比较率
比较均值 依存关系
方差分析
分析效应因子A对反应变量Y的影响,即,
分析效应因子A的不同水平对反应变量Y 的作用差异。 。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 。大学生和运动员之间肺活量的差异
Pr > |T|
Std Error of
Estimate
0.8617 0.0793 0.0835 . 0.0001
2.47135356 1.88678065 1.85386642 . 0.16449757
Least Squares Means DRUG Y Pr > |T| H0: LSMEAN(i)=LSMEAN(j)
方差分析存在的问题:结果不够准确 用方差分析结果来对下面问题作结论,合适吗? 。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 年龄 用药前水平 身高
。大学生和运动员之间肺活量的差异
方差分析不够准确的原因: SST = SSA + SSE 随机误差 Y的总体变异
被因子A 所 解释的部分 职业
结合?
自变量---分类型 自变量---连续型
回归分析:
第五章
广义线性模型分析
General Linear Model
Analysis
主要内容
什么是广义线性模型分析? 协方差分析 广义线性回归分析
第一节 广义线性模型分析的概念
广义线性模型分析是将方差分析和回归分 析的基本原理结合起来,用来分析连续型 因变量与任意型自变量之间各种关系的一 种统计分析方法。
残差 混杂因子
肺活量
年龄 身高
解决的办法
处理效应Y
效应因子 A,B,C,… 混杂因子 X1,X2,…
选取条件相同的样本 消除混杂 因子的影响
协方差分析
在方差分析模型中加入混杂因子
一、协方差分析的原理
分解总体变异:
SST = SSA + SSX + SSE
Y的总体变异 舒张压 因子A所解释 的部分
其意义是使得方差分析和回归分析的实用 性和准确性得到进一步提高。
两个典型的广义线性模型分析方法
含有数值型自变量 的方差分析
协方差分析
广义线性回归分析
含有分类型自变量 的回归分析
第二节
协方差分析
协方差分析是将方差分析原理和线性回归 分析原理结合起来的一种方差分析方法。 它消除了混杂变量(协变量)对因变量的 影响,使得方差分析结果更加准确。
方差分析的原理
分解总体变异:
SST = SSA + SSE
Y的总体变异
舒张压
被因子A 所 解释的部分 性别
残差
回归分析
分析自变量X对因变量Y的依存关系,即,
分析自变量X改变一个单位时,因变量Y的 改变量大小。 。收缩压和胆固醇的依存关系
。肺活量和体重的关系
。污染物浓度和污染源距离之间的关系
回归分析的原理
adjusted means
6.72
Drug D
Drug F
6.10
13.10
6.82
10.16
【结果解释】
① 模型的总体检验结果: p=0.0001,R2=0.676,说明模型有统计意义, 即drug和x 对y 的联合作用是显著的。 ② TyepI SS 对参数的检验结果:
因为drug排在协变量x之前,根据第一类SS定义,检
四、协方差分析的应用举例
【例6_1】为了研究两种药物对癫疯病菌的治疗效
果,将30名病人随机分成3组,一组使用抗生素A, 一组使用抗生素D,另一组作为对照组使用安慰剂。
治疗前和治疗后分别对病人身体的癫疯病菌数量进
行了检测,病菌的数量是由每一个病人身体上六个
部位病菌感染的程度而定的,数据列在下表中。试
分解总体变异:
SST = SSX + SSE Y的总体变异
舒张压 胆固醇
被自变量X 所 解释的部分
残差
方差分析和回归分析的相同点
模型:
方法原理:
因变量 = 自变量 + 残差
分解总体变异
SST = SSA + SSE
SST = SSX + SSE
因变量:
连续型数值变量
方差分析和回归分析的不同点
自变量: 方差分析:
Chi-Square =1.551005,DF=2,P= 0.4605, --------说明三个组的方差在统计意义上是相等的。
(3) 检验线性相关性的结果:(H0: 线性无关,H1:线性相关)
A组:F=11.23,df=(1,8),p=0.0101 D组:F=39.24,df=(1,8),p=0.0002
混杂因子X 所解释的部分
年龄
随机误差
性别
协变量
二、方差分析和协方差分析的区别
区别(1):数据
方差分析 A Y 1 y11 1 y12 ∶ ∶ 1 y1.n1 2 y21 2 y22 ∶ ∶ 2 y2,n2 协方差分析 A Y 1 y11 1 y12 ∶ ∶ 1 y1,n1 2 y21 2 y22 ∶ ∶ 2 y2,n2
协方差分析在医学中的应用
1)借助协方差分析来排除非处理因素的干扰,从而 准确地估计处理因素的试验效应。
2)协方差分析和方差分析一样,包括各种类型的模 型,因此可以用来处理医学研究中各种不同设计资 料的分析,例如,完全随机设计资料,随机区组设 计资料等等。
第三节
广义线性回归分析
广义线性回归分析是将线性回归分析原理和方 差分析原理相结合起来的一种线性回归分析方 法,它和线性回归分析的区别是模型的自变量 可以是任意类型的变量。 其主要目的是扩大线性回归分析的应用范围, 使得它的应用价值得到进一步提高。
LSMEAN
A D F 6.7149635 6.8239348 10.1611017
i/j
1 2 3 .
1
2
0.9521 . 0.0835
3
0.0793 0.0835 .
0.9521 0.0793
均值和校正均值 The means and adjusted means
means
Drug A 5.20
① Dependent Variable: Y
Sum of Mean Source DF Squares Square F Value Pr > F Model 3 871.49740304 290.49913435 18.10 0.0001 Error 26 417.20259696 16.04625373 Corrected Total 29 1288.70000000 R-Square C.V. Root MSE Y Mean 0.676261 50.70604 4.0057775 7.9000000 ② Source DF Type I SS Mean Square F Value Pr > F DRUG 2 293.60000000 146.80000000 9.15 0.0010 X 1 577.89740304 577.89740304 36.01 0.0001 ③ Source DF Type III SS Mean Square F Value Pr > F DRUG 2 68.55371060 34.27685530 2.14 0.1384 X 1 577.89740304 577.89740304 36.01 0.0001
(二) 假设条件满足后,再进行协方差分析:
【SAS 程序】 proc glm; class drug; model y=drug x; lsmeans drug / pdiff; run; 【SAS 输出结果】 General Linear Models Procedure Class Level Information Class Levels Values DRUG 3 AD F Number of observations in data set = 30
X x11 x12 ∶ x1,n1 x21 x22 ∶ x2,n2
区别(2):模型
方差分析模型 协方差分析模型
μi 是组均值
(group mean) εi j 是随机误差
μi 是校正的组均值
(adjusted group mean) εi j 是随机误差 β是协变量x对因变量y的影响
区别(3):假设条件
F组:F= 6.21,df=(1,8),p=0.0374
--------说明三个组上 y 与 x 均近似呈线性关系。 (4) 检验平行性的结果:(H0: 斜率相等) F= 0.59,df=(2,24),p=0.560, --------说明三条直线近似平行。 注意,以上检验过程应逐条进行,若发现有不满足假设条件 的,应当选取适当的变量变换,使之尽可能接近假设条件。
【SAS 部分输出结果】 (1) 检验正态分布的结果:(H0: y 服从正态分布) A组:W= 0.928405, P=0.4166 D组:W= 0.871798, P= 0.1002 F组:W= 0.972136, P= 0.9023 -------说明三个组的y 值均近似服从正态分布。
(2) 检验方差齐性的结果:(H0: 方差相等)
协方差分析的意义
• 可以消除多个混杂因素对处理效应的影响, 得到校正均值;
• 提高方差分析结果的准确性和真实性;
• 医学研究中应用广泛,解决了很多条件不易
控制的实验问题。
协方差分析和随机区组设计的区别:
• 随机区组设计资料的方差分析仅可以消除一 个混杂因素(分类型变量)对因变量的影响;
• 协方差分析可以消除多个混杂因素对因变量
验drug 对y 的影响效应时,没有对x 进行校正。此结果 说明,不考虑治疗前的病情状况,这三种治疗方法是有 显著性区别的(p=0.0010)。
③ TyepIII SS 对参数的检验结果。根据第三类SS定义,检验
模型中每一个自变量时,都校正模型中的其它变量对y 的 影响。此结果说明,校正了治疗前的病情状况后,这三种 治疗方法是没有显著性区别的(p=0.1384)。 ④ 给出了三个处理组的校正均值,即,校正了治疗前的病情 状况后三个组的均值,以及每一对均值的差异比较。因为 上面结果已经说明三种治疗方法没有显著性差别,因此不 需要解释这一部分的结果。 因为数据满足协方差分析的 假设条件,因此,上述协方差分析结果是可靠的。
proc discrim data=eg6_1 pool=test;class drug;var y;run;
(3) 检验线性相关性: proc reg data=eg6_1; model y=x; by drug;run; (4) 检验平行性: proc glm data=eg6_1;model y=drug x drug*x ;run;
方差分析 在效应因子的每一 个水平上,因变量y 服从正态分布; 方差相等。 协方差分析 在效应因子的每一个水平上, 因变量y服从正态分布;
方差相等;
在效应因子的每一个水平上, 因变量y和协变量x呈线性关系;
斜率相同。
三、协方差分析的方法步骤
o 检验数据是否满足假设条件: 正态分布性 方差齐性 线性相关性 平行性 o 检验效应因子的显著性 o 估计校正的组均值 o 检验校正的组均值之间的差异
do drug='A', 'D', 'F';
input x y @@; output; end; end; cards; 11 6 6 0 16 13 …… 3 0 15 9 12 20 run;
(一) 检验协方差分析的4个假设条件是否满足
(1) 检验正态性: proc sort data=eg6_1; by drug;run; proc univariate data=eg6_1 normal;var y;by drug;run; (2) 检验方差齐性:
T for H0:
Parameter INTERCEPT DRUG A D F X Estimate -0.434671164 B -3.446138280 B -3.337166948 B 0.000000000 B 0.987183811 Parameter=0 -0.18 -1.83 -1.80 . 6.00
对该试验研究进行统计分析。
数据:
解:这是一个完全随机设计资料。令 x 表示治疗前病人身体的癫疯病菌数量, y 表示治疗后病人身体的癫疯病菌数量, drug 表示用药方式,取值为A、D和F,分别 表示使用抗生素A、抗生素D和安慰剂。
首先建立SAS数据集
data eg6_1; do id=1 to 10;
多ห้องสมุดไป่ตู้统计分析方法
The Methods of Multivariate Statistical Analysis
回忆
主要的统计分析方法
分类型 卡方分析 方差分析 数值型 回归分析
异同点?
反 应 变 量
比较率
比较均值 依存关系
方差分析
分析效应因子A对反应变量Y的影响,即,
分析效应因子A的不同水平对反应变量Y 的作用差异。 。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 。大学生和运动员之间肺活量的差异
Pr > |T|
Std Error of
Estimate
0.8617 0.0793 0.0835 . 0.0001
2.47135356 1.88678065 1.85386642 . 0.16449757
Least Squares Means DRUG Y Pr > |T| H0: LSMEAN(i)=LSMEAN(j)
方差分析存在的问题:结果不够准确 用方差分析结果来对下面问题作结论,合适吗? 。男性和女性之间收缩压的差异 。试验药和对照药之间的作用差异 年龄 用药前水平 身高
。大学生和运动员之间肺活量的差异
方差分析不够准确的原因: SST = SSA + SSE 随机误差 Y的总体变异
被因子A 所 解释的部分 职业
结合?
自变量---分类型 自变量---连续型
回归分析:
第五章
广义线性模型分析
General Linear Model
Analysis
主要内容
什么是广义线性模型分析? 协方差分析 广义线性回归分析
第一节 广义线性模型分析的概念
广义线性模型分析是将方差分析和回归分 析的基本原理结合起来,用来分析连续型 因变量与任意型自变量之间各种关系的一 种统计分析方法。
残差 混杂因子
肺活量
年龄 身高
解决的办法
处理效应Y
效应因子 A,B,C,… 混杂因子 X1,X2,…
选取条件相同的样本 消除混杂 因子的影响
协方差分析
在方差分析模型中加入混杂因子
一、协方差分析的原理
分解总体变异:
SST = SSA + SSX + SSE
Y的总体变异 舒张压 因子A所解释 的部分
其意义是使得方差分析和回归分析的实用 性和准确性得到进一步提高。
两个典型的广义线性模型分析方法
含有数值型自变量 的方差分析
协方差分析
广义线性回归分析
含有分类型自变量 的回归分析
第二节
协方差分析
协方差分析是将方差分析原理和线性回归 分析原理结合起来的一种方差分析方法。 它消除了混杂变量(协变量)对因变量的 影响,使得方差分析结果更加准确。
方差分析的原理
分解总体变异:
SST = SSA + SSE
Y的总体变异
舒张压
被因子A 所 解释的部分 性别
残差
回归分析
分析自变量X对因变量Y的依存关系,即,
分析自变量X改变一个单位时,因变量Y的 改变量大小。 。收缩压和胆固醇的依存关系
。肺活量和体重的关系
。污染物浓度和污染源距离之间的关系
回归分析的原理
adjusted means
6.72
Drug D
Drug F
6.10
13.10
6.82
10.16
【结果解释】
① 模型的总体检验结果: p=0.0001,R2=0.676,说明模型有统计意义, 即drug和x 对y 的联合作用是显著的。 ② TyepI SS 对参数的检验结果:
因为drug排在协变量x之前,根据第一类SS定义,检
四、协方差分析的应用举例
【例6_1】为了研究两种药物对癫疯病菌的治疗效
果,将30名病人随机分成3组,一组使用抗生素A, 一组使用抗生素D,另一组作为对照组使用安慰剂。
治疗前和治疗后分别对病人身体的癫疯病菌数量进
行了检测,病菌的数量是由每一个病人身体上六个
部位病菌感染的程度而定的,数据列在下表中。试
分解总体变异:
SST = SSX + SSE Y的总体变异
舒张压 胆固醇
被自变量X 所 解释的部分
残差
方差分析和回归分析的相同点
模型:
方法原理:
因变量 = 自变量 + 残差
分解总体变异
SST = SSA + SSE
SST = SSX + SSE
因变量:
连续型数值变量
方差分析和回归分析的不同点
自变量: 方差分析:
Chi-Square =1.551005,DF=2,P= 0.4605, --------说明三个组的方差在统计意义上是相等的。
(3) 检验线性相关性的结果:(H0: 线性无关,H1:线性相关)
A组:F=11.23,df=(1,8),p=0.0101 D组:F=39.24,df=(1,8),p=0.0002
混杂因子X 所解释的部分
年龄
随机误差
性别
协变量
二、方差分析和协方差分析的区别
区别(1):数据
方差分析 A Y 1 y11 1 y12 ∶ ∶ 1 y1.n1 2 y21 2 y22 ∶ ∶ 2 y2,n2 协方差分析 A Y 1 y11 1 y12 ∶ ∶ 1 y1,n1 2 y21 2 y22 ∶ ∶ 2 y2,n2