第八章 一般线性模型――General Linear Model菜单详解

合集下载

(优选)中一般线性模型.

(优选)中一般线性模型.

16:21
7
Ⅱ、建立自定义模型
Factors&Covariates 框中 自动列出可以作为因素的 变量名,其后面的括号中 标有字母“F”(固定因 子)、“R”(随机因子) 或者“C”(协变量)。
16:21
8
A、选择效应类型
Interactin:交互效应 Main effects:主效应 All2-way: 所有2维交互效应 All3-way:所有3维交互效应 All4-Way:所有4维交互效应 All5-Way:所有5维交互效应
(优选)中一般线性模型
一般线性模型
一般线性模型单变量分析的基本过程 完全随机设计资料的方差分析 随机区组(单位组)设计资料的方差分析
16:21
2
一、一般线性模型单变量分析的基本过程
General Linear Model(GLM,一般线性模型)
包括:
Univariate(单因变量多因素方差分析), Multivariate(多因变量方差分析), Repeated Measures(重复测量方差分析), Variance(方差分量分析)
6
2.1 Model按钮
Ⅰ、在Specify Model栏中指定模型类型
Full Factorial,全模型,系统 默认。包括所有因素的主效应 和所有的交互效应。例如有三 个因素变量,全模型包括三个 因素的主效应、两两的交互效 应和三个因素的高级交互效应。
Custom,自定义模型。选择此 项激活下面各操作框
TYPE Ⅲ(系统默认、最常 用)
TYPEIV(不完整数据)。
16:21
13
2.2 Contrasts按钮
Factors框中显示出所有在 主对话框中选中的因素, 其后的括号中是当前的对 比方法了;

广义估计方程

广义估计方程

总结
其特点归纳如下: 1)建模稳健。即使作业相关矩阵指定不正确
,只要联接函数正确,仍然可以得到稳定的参 数估计值。
2)充分利用资料信息。对多次重复测量的纵 向数据,广义估计方程利用了每次测量的结果 ,较少损失资料的信息。
总结3)应变量不是连续性变量时,考察应变量之间
联合分布和协方差矩阵非常困难,常规的统计模 型难以处理这个问题。利用广义估计方程不仅解 决了这类资料的建模问题,还可得到相关矩阵以 衡量重复测量之间相关性的大小,是一种较好的 分析策略。
一般线性模型
方差分析
一般线性模型
应用: 用于研究某个指标(应变量,记为Yi)与一
组指标(Xi1, Xi2,… ,Xij)之间的线性关系 。 表达式:
yi=β0+ β1Xi1+ β2Xi2+ … βjXij+ei
一般线性模型
一般线性模型对于残差分布的三个重要假设: (1)独立 (2)符合正态分布,且均数为0 (3)方差齐性,即ei的方差相等
纵向数据
传统的统计方法一般都要求应变量是独立 的,因而,由于应变量之间的相关,纵向数据 不能用传统的方法来分析。因为如果忽略重复 测量间的相关性,将损失数据中的信息,参数 估计可能不准确。因此,Liang和Zeger等创立 了广义估计方程(generalized estimating equations) 。
4)模型可以引入多种形式的自变量,考察分类 、等级、连续的或其他形式的自变量对应变量影 响的大小。
应用举例
表2 某药物抗癫痫的随机对照临床试验对照组每2周的发作次数
ID Base Visit4
Visit1
Visit2 Visit3
1
11

1.GENERAL LINEAR MODEL ANALYSIS-33页文档资料

1.GENERAL LINEAR MODEL ANALYSIS-33页文档资料

Effect A B
A*B
表 6-1b Type Ⅱ SS
Sum of square
SS( A | , B ) SS( B | , A ) SS( A * B | )
Effect A B
A*B
表 6-1b Type Ⅲ & Ⅳ SS Sum of square
SS( A | , B ) SS( B | , A ) SS( A * B | , A , B )
Ⅰ=Ⅱ=Ⅲ=Ⅳ
第二节 协方差分析
协变量:影响处理效应且无法控制的因 素。
将直线回归与方差分析结合,把与Y有 直线关系的X化成相等后,再来检验Y之 间的差异。
前提假设:各样本均来自方差齐同的正 态总体;各总体中存在回归关系且斜率 相同。
一、协方差分析的基本思想
方差分析的主要目的是检验效应因子对因变 量的作用。它的基本方法是通过一个模型将 因变量的总体变异分解成几部分,其中,有 的是效应因子的主效应引起的变异,有的是 效应因子之间的交互效应引起的变异,其余 的是误差引起的变异,然后根据每一部分对 总体变异的贡献来估计效应因子的统计重要 意义。
将混杂因子作为一个自变量放入方差分析模 型中,再进行方差分析。它既利用了回归分 析的基本方法,又用到了方差分析的基本原 理,这就是协方差分析的基本思想。
二、协方差分析的数学模型
假设效应因子 A 有 g 个水平,因变量 y 和协变量 x 在 A 的第 j 个水平上有 n j 个观察值,yij
是因变量 y 在效应因子 A 上的第 j 个水平上的第 i 个观察值,xij 是协变量 x 在效应因子 A 上的
第 j 个水平上的第 i 个观察值,i 1,2,, n j ; j 1,2,, g ,那么,因变量 y 关于效应因子 A 和

generalized linear model结果解释-概述说明以及解释

generalized linear model结果解释-概述说明以及解释

generalized linear model结果解释-概述说明以及解释1.引言1.1 概述概述部分的内容可以包括对广义线性模型的简要介绍以及结果解释的重要性。

以下是一种可能的编写方式:在统计学和机器学习领域,广义线性模型(Generalized Linear Model,简称GLM)是一种常用的统计模型,用于建立因变量与自变量之间的关系。

与传统的线性回归模型不同,广义线性模型允许因变量(也称为响应变量)的分布不服从正态分布,从而更适用于处理非正态分布的数据。

广义线性模型的理论基础是广义线性方程(Generalized Linear Equation),它通过引入连接函数(Link Function)和系统误差分布(Error Distribution)的概念,从而使模型能够适应不同类型的数据。

结果解释是广义线性模型分析中的一项重要任务。

通过解释模型的结果,我们可以深入理解自变量与因变量之间的关系,并从中获取有关影响因素的信息。

结果解释能够帮助我们了解自变量的重要性、方向性及其对因变量的影响程度。

通过对结果进行解释,我们可以推断出哪些因素对于观察结果至关重要,从而对问题的本质有更深入的认识。

本文将重点讨论如何解释广义线性模型的结果。

我们将介绍广义线性模型的基本概念和原理,并指出结果解释中需要注意的要点。

此外,我们将提供实际案例和实例分析,以帮助读者更好地理解结果解释的方法和过程。

通过本文的阅读,读者将能够更全面地了解广义线性模型的结果解释,并掌握解释结果的相关技巧和方法。

本文的目的是帮助读者更好地理解和运用广义线性模型,从而提高统计分析和机器学习的能力。

在接下来的章节中,我们将详细介绍广义线性模型及其结果解释的要点,希望读者能够从中受益。

1.2文章结构文章结构部分的内容应该是对整篇文章的结构进行简要介绍和概述。

这个部分通常包括以下内容:文章结构部分的内容:本文共分为引言、正文和结论三个部分。

其中,引言部分主要概述了广义线性模型的背景和重要性,并介绍了文章的目的。

spss中一般线性模型解析

spss中一般线性模型解析


Simple:对预测变量或因素变量的每一水平都与参照水平进行比 较。选择Last或First作为参照水平;
Difference:对预测变量或因素每一水平的效应,除第一水平以 外,都与其前面各水平的平均效应进行比较。与Helmert对照方 法相反;

注: 只有Deviation和Simple 需要选择参考水平,Last(系统 默认)和First。
08:44
8
A、选择效应类型

Interactin:交互效应 Main effects:主效应 All2-way: 所有2维交互效应 All3-way:所有3维交互效应
All4-Way:所有4维交互效应
All5-Way:所有5维交互效应
08:44
9
B、选择模型中的主效应 (Model)

模型中包括所有3维效应,

定义效应类型为All3-way,
单击变量Llight、 Device、 Target。 单击箭头按钮, Model框中出现3维交互效应项:Ligh*Device*Target。
08:44 12
Ⅲ、选择平方和分解的方法

Sum of squares:

TYPEⅠ(嵌套设计)、 TYPEⅡ(平衡设计、仅主 效应)、 TYPE Ⅲ(系统默认、最常 用) TYPEIV(不完整数据)。

08:44
11
C. 建立模型中的交互项

模型中包括三个变量的所有2维交互效应项,

定义效应类型为All2-way, 单击light、Device、Target三个变量名, 单击箭头按钮。 Model中出现三个 2维交互效应项: Light*Device、 Light*Target、 Device*Target。

SPSS6-一般线性模

SPSS6-一般线性模
在二因素实验设计当中(如2X2两因素实验设计,研 究A、B两个变量对C的影响)
如果两个自变量存在交互效应时(即A对C的影响因 为B的水平b1、b2的变化而不一致),我们就可以考 虑A变量在分别在b1(或b2)水平上对C因素的影响, 这个时候我们考察的就是A变量在b1(或b2)水平上 的简单效应。
将生活事件以上下27%分为界,分为三个组别。 将社会支持状况以M±SD为划界标准,分为三
个组别。
1、 以大学生的数据为例,分析不同应激水平、 社会支持状况的大学生在心理健康水平上有何 特点,是否存在交互效应?
2、协方差分析(Analysis of covariance,ANCOVA)
基本思想:在扣除了某一个或多个协变量因素对因 变量的线性影响后,比较各处理因素不同水平间的 差异及分析各处理因素间是否存在交互作用。
协方差分析中会影响实验结果,但非研究者操控的 自变量,称为协变量,协变量必须为连续性变量。
协方差分析是借助统计控制方式以控制协变量的干 扰效果,来减少实验误差,增进实验研究的内在效 度。
协方差分析需要满足的条件:
(1)正态分布:每个实验条件样本≥15,可 不考虑
(2)方差齐性 (3)独立性 (4)斜率同质:在自变量的各水平上,协变
3*3交互分析图示:
主效应1
主效应2
简 单 主 效 应 简单主效应1\2\3
4\5\6
1、两因素析因设计的方差分析
参考练习:教材P140数据:11章_数据1.sav Analyze→General Linear Model → Univariate
Univariate:Profile Plots
12位被试阅读理解的测量成绩
数据:阅读理解.sav
3、重复测量方差分析(Repeated Measures)

关于广义线性模型和一般线性模型的数学理论和应用

关于广义线性模型和一般线性模型的数学理论和应用

关于广义线性模型和一般线性模型的数学理论和应用线性模型是统计学领域非常重要的一类模型,其中包括广义线性模型(Generalized Linear Models,简称GLM)和一般线性模型(General Linear Models,简称GLM)。

GLM和GLM有着紧密的联系,但也各自有着特点和应用。

本文将探讨GLM和GLM的数学理论和应用。

一、广义线性模型广义线性模型是由Mcullagh和Nelder于1982年提出的,它是线性模型的扩展,可以适应更为复杂的数据结构和变异模式。

与传统的线性模型相比,GLM的形式更为灵活,不仅能够模拟标量数据,还能够模拟其他类型的数据,比如二元数据、计数数据、序数数据等。

GLM的最大特点是可以将因变量的均值与自变量联系起来,并将自变量的参数与因变量的概率分布函数联系起来。

具体地说,GLM的一般形式为:$$ g(E(Y_i))=\beta_0+\beta_1x_{1i}+\dots+\beta_px_{pi} $$其中,$Y_i$表示因变量,$x_i$是自变量,$g$是一个连续函数,称为连接函数(link function),一般为对数函数、逆正弦函数、逆双曲正切函数等。

$\beta_0,\beta_1,\dots,\beta_p$是待求参数。

通常情况下,GLM的因变量$Y$的概率分布函数是指数分布族,具体包括正态分布、二项分布、泊松分布、伽马分布等。

GLM的优点是可以拟合非正态分布的数据,并且能够建立出统一的推导框架。

在实际应用中,GLM广泛用于医疗、金融、风险分析等领域。

二、一般线性模型一般线性模型是经典的线性模型,也是广义线性模型的一种特殊情况。

一般线性模型将因变量$Y$视为自变量的一个线性组合,即:$$ Y=X\beta+\epsilon $$其中,$X$是一个$n\times(p+1)$的矩阵,第一列全为1,$\beta$是$p+1$个待求参数,$\epsilon$是一个$n$维的随机误差向量,假设$\epsilon$服从正态分布$N(0,\sigma^2I)$。

一般线性模型ppt课件ppt课件

一般线性模型ppt课件ppt课件
相对比较,如研究A、B的单独效应之和是否等于它们 的交互效应,或A、B的效应是否相等。
均值的多重比较是研究因素单元对因变量的影响之间
是否存在显著性差异。如A、B的疗效是否存在显著性 差异。
6.单元均值、边际均值:
在多因素方差分析中,每种因素水平组合的因变量均
值称为单元均值。一个因素水平的因变量均值称为边
9
某湖水不同季节氯 化物含量测定值如, 分析不同季节氯化 物含量有无差别?
10
方法1:compare means –one way ANOVA
11
一般线性模型
12
13
14
例 对小白鼠喂以A、B、C三种不同的 营养素,目的是了解不同营养素增重的 效果。采用随机区组设计方法,以窝别 作为划分区组的特征,以消除遗传因素 对体重增长的影响。现将同品系同体重 的24只小白鼠分为8个区组,每个区组3 只小白鼠。三周后体重增量结果(克)列于 下表,问小白鼠经三种不同营养素喂养 后所增体重有无差别?
18
因素及其类型
(F)固定因素 (R)随机因素 (C)协变量
模型方式
进入模型的因素交互作 用级别,即是分析主效 应、两阶交互、三阶交 互、还是全部分析
方差分析模型类别
是否在模型中包括截距
19
20
【Contrast钮】
弹出Contrast对话框,用于对精细趋势检验和精确两两 比较的选项进行定义,使用频率少;
【Plots钮】
用于指定用模型的某些参数作图,比如用food和group 来作图,用的也比较少(指国内,因为它主要是用来做 模型诊断用的)。
【Post Hoc钮】
该按钮弹出的两两比较对话框。本题对food作两两比较, 方法为SNK法。

广义线性模型(GLM,GeneralizedLinearModel)

广义线性模型(GLM,GeneralizedLinearModel)

⼴义线性模型(GLM,GeneralizedLinearModel)
引⾔:通过⾼斯模型得到最⼩⼆乘法(线性回归),即:
通过伯努利模型得到逻辑回归,即:
这些模型都可以通过⼴义线性模型得到。

⼴义线性模型是把⾃变量的线性预测函数当作因变量的估计值。

在机器学习中,有很多模型都是基于⼴义线性模型的,⽐如传统的线性回归模型,最⼤熵模型,Logistic回归,softmax回归,等等。

今天主要来学习如何来针对某类型的分布建⽴相应的⼴义线性模型。

1. ⼴义线性模型
⼴义线性模型:⼴义线性模型是基于指数分布族(Exponential Family),⽽指数分布族的原型如下:
其中,η是⾃然参数(Natural Parameter),T(y)为充分统计量(Sufficient Statistic),通常T(y)=y。

实际上,许多分布(如,⾼斯分布、指数分布、泊松分布、伽马分布灯)都属于指数分布族。

所以,线性回归、逻辑回归等都是⼴义线性模型的特例,实际上,性分布中,y服从⾼斯分布那么⼴义线性模型为线性回归,y服从伯努利分布为逻辑回归。

在使⽤⼴义线性模型构建其他模型之前,⾸先有三个假设:
(1) y|x; θ~ExpFamily;
(2) 给定x,⽬标是输出期望E[T(y)|x],得到h(x)= E[T(y)|x];
(3) η与x的关系是线性的,即:
1. 常见概率模型由⼴义线性模型的推导
(1) ⾼斯模型
⾼斯分布可以表⽰为:
⾼斯模型的⾃然参数与均值成线性分布,所以
(2) 伯努利模型
伯努利模型可以表⽰为:
其中,b(y)=1。

从⽽得到逻辑回归模型。

带⼊a(η)可以得到:。

spss菜单栏中英文对照

spss菜单栏中英文对照

DATA菜单中英文对照
•Define Variable Properties,定义变量属性 •Copy Data Properties,复制数据属性 •New Custom Attribute,新建设定属性 •Define Dates,定义日期 •Define Multiple Response Sets, 定义多重响应集 •Validation, 验证(Load Predefined Rules, 加载预定义 规则;Define Rules, 定义规则;Validate Date, 验证数据) •Identify Duplicate Cases, 标识重复个案 •Identify Unusual Cases, 标识异常个案 •Sort Cases,排序个案 •Sort Variables, 排列变量 •Transpose,转置 •Restructure,重组 •Merge Files,合并文件 •Aggregate,分类汇总 •Orthogonal Design, 正交设计 •Copy Dataset,复制数据集 •Split File, 拆分文件 •Select Cases, 选择个案 •Weight Cases, 加权个案
Frequencies, 频率;Crosstabs, 交叉表) Complex Samples, 复杂抽样(Select a Sample, 选择样本;
Prepare for Analysis, 准备分析;Frequencies, 频率;Descriptive, 描述;Crosstabs, 交叉表;Ratios, 比率;General Linear Model, 一 般线性模型;Logistic Regression, Logistic回归;Ordinal Regression, 序数回归;Cox Regression, Cox 回归) Quality Control 质量控制(Control Chart, 控制图;Pareto Chart, 排 列图)

广义线性模型(GeneralizedLinearModels)

广义线性模型(GeneralizedLinearModels)

⼴义线性模型(GeneralizedLinearModels)转载请注明出⾃BYRans博客:前⾯的⽂章已经介绍了⼀个回归和⼀个分类的例⼦。

在模型中我们假设:在分类问题中我们假设:他们都是⼴义线性模型中的⼀个例⼦,在理解⼴义线性模型之前需要先理解指数分布族。

指数分布族(The Exponential Family)如果⼀个分布可以⽤如下公式表达,那么这个分布就属于指数分布族:公式中y是随机变量;h(x)称为基础度量值(base measure);η称为分布的⾃然参数(natural parameter),也称为标准参数(canonical parameter);T(y)称为充分统计量,通常T(y)=y;a(η)称为对数分割函数(log partition function);本质上是⼀个归⼀化常数,确保概率和为1。

当T(y)被固定时,a(η)、b(y)就定义了⼀个以η为参数的⼀个指数分布。

我们变化η就得到这个分布的不同分布。

伯努利分布属于指数分布族。

伯努利分布均值为φ,写为Bernoulli(φ),是⼀个⼆值分布,y ∈ {0, 1}。

所以p(y = 1; φ) = φ; p(y = 0; φ) = 1 −φ。

当我们变化φ就得到了不同均值的伯努利分布。

伯努利分布表达式转化为指数分布族表达式过程如下:其中,再举⼀个⾼斯分布的例⼦,⾼斯分布也属于指数分布族。

由⾼斯分布可以推导出线性模型(推导过程将在EM算法中讲解),由线型模型的假设函数可以得知,⾼斯分布的⽅差与假设函数⽆关,因⽽为了计算简便,我们设⽅差=1。

⾼斯分布转化为指数分布族形式的推导过程如下:其中许多其他分部也属于指数分布族,例如:伯努利分布(Bernoulli)、⾼斯分布(Gaussian)、多项式分布(Multinomial)、泊松分布(Poisson)、伽马分布(Gamma)、指数分布(Exponential)、β分布、Dirichlet分布、Wishart分布。

广义线性模型

广义线性模型

广义线性模型广义线性模型(Generalized Linear Model,GLM)是一种在统计学中常用的模型,它是对普通线性模型的扩展和推广。

在广义线性模型中,因变量不需要满足正态分布的假设,而是通过连接函数(link function)与线性组合的结果进行建模。

广义线性模型的应用领域十分广泛,涵盖了回归分析、分类分析以及其他众多领域。

1. 普通线性模型普通线性模型是一种经典的建模方法,其基本形式为:$$ Y = \\beta_0 + \\beta_1 X_1 + \\beta_2 X_2 + ... + \\beta_k X_k + \\epsilon $$ 其中,Y表示因变量,X1,X2,...,X k表示自变量,$\\beta_0, \\beta_1,\\beta_2, ..., \\beta_k$为模型参数,$\\epsilon$为误差项。

普通线性模型的关键假设是因变量Y服从正态分布。

2. 广义线性模型的基本原理广义线性模型是对普通线性模型的推广,其基本形式为:$$ g(\\mu) = \\beta_0 + \\beta_1 X_1 + \\beta_2 X_2 + ... + \\beta_k X_k $$其中,g()为连接函数(link function),$\\mu$表示期望的因变量Y,其他符号的含义同普通线性模型。

通过连接函数g(),广义线性模型在一般性上不再要求因变量Y服从正态分布。

3. 连接函数(Link Function)连接函数g()的选择是广义线性模型的关键之一,不同的连接函数对应不同的模型形式。

常见的连接函数包括:•恒等连接函数(Identity link function): $g(\\mu) = \\mu$,对应普通线性模型。

•对数连接函数(Log link function): $g(\\mu) = log(\\mu)$,常用于泊松回归等模型。

•逆连接函数(Inverse link function): $g(\\mu) = \\frac{1}{\\mu}$,用于逻辑回归等模型。

spss中一般线性模型解析

spss中一般线性模型解析

09:03
16
2.4 Post Hoc按钮
均数多重比较(事后检验)
09:03
17
2.5 Save按钮(选择保存运算值)
通过在对话框中的选择, 可以将所计算的预测值、 残差和诊断值(回归分析 时)作为新的变量保存在 编辑数据文件中。以便在 其他统计分析中使用这些 值ve按钮(选择保存运算值)
09:03
11
C. 建立模型中的交互项
模型中包括三个变量的所有2维交互效应项, 定义效应类型为All2-way,
单击light、Device、Target三个变量名, 单击箭头按钮。 Model中出现三个 2维交互效应项: Light*Device、 Light*Target、
注: 只有Deviation和Simple 需要选择参考水平,Last(系统 默认)和First。
09:03
15
2.3 Plots按钮
Factor:主对话框中所选因素 变量名;
Horizontal:横坐标框
Separate Lines:确定分线变量
Separate Plots:确定分图变量
Predicted Values(预测值)
Unstandardized:非标准化 预测值
Weighted:如果在主对话 框选择了WLS变量,选中 该复选项将保存加权非标准 化预测值
09:03
6
2.1 Model按钮
Ⅰ、在Specify Model栏中指定模型类型
Full Factorial,全模型,系统 默认。包括所有因素的主效应 和所有的交互效应。例如有三 个因素变量,全模型包括三个 因素的主效应、两两的交互效 应和三个因素的高级交互效应。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第八章一般线性模型――General Linear Model菜单详解请注意,本章的标题用了一些修辞手法,一般线性模型可不是用一章就可以说清楚的,因为它包括的内容实在太多了。

那么,究竟我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差分析粘边的都可以用他来做。

比如成组设计的方差分析(即单因素方差分析)、配伍设计的方差分析(即两因素方差分析)、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。

因此,能真正掌握GLM菜单的用法,会使大家的统计分析能力有极大地提高。

实际上一般线性模型包括的统计模型还不止这些,我这里举出来的只是从用SPSS作统计分析的角度而言的一些。

好了,既然一般线性模型的能力如此强大,那么下属的四个子菜单各自的功能是什么呢?请看:∙Univariate子菜单:四个菜单中的大哥大,绝大部分的方法分析都在这里面进行。

∙Multivariate子菜单:当结果变量(应变量)不止一个时,当然要用他来分析啦!∙Repeted Measures子菜单:顾名思义,重复测量的数据就要用他来分析,这一点我可能要强调一下,用前两个菜单似乎都可以分析出来结果,但在许多情况下该结果是不正确的,应该用重复测量的分析方法才对(不能再讲了,再讲下去就会扯到多水平模型去了)。

∙Variance Components子菜单:用于作方差成份模型的,这个模型实在太深,不是一时半会说的请的,所以我在这里就干脆不讲了。

出于模型复杂性、篇幅、应用范围及乱七八糟一系列的理由,当然主要是我懒得一一解释,我决定本章采用举例讲解的方式,及讲解一些常见的分析实例,通过这种方法来熟悉那些最为常用的分析方法。

对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课:论统计软件中的数据录入格式,会大有帮助的。

§8.1两因素方差分析下面的这个例子来自《卫生统计学》第四版,书还没有出来,大家先尝尝鲜。

例8.1 对小白鼠喂以A、B、C三种不同的营养素,目的是了解不同营养素增重的效果。

采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。

现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。

三周后体重增量结果(克)列于下表,问小白鼠经三种不同营养素喂养后所增体重有无差别?区组号A营养素B营养素C营养素1 50.10 58.20 64.502 47.80 48.50 62.403 53.10 53.80 58.604 63.50 64.20 72.505 71.20 68.40 79.306 41.40 45.70 38.407 61.90 53.00 51.208 42.20 39.80 46.20根据统计分析的要求,我们建立了三个变量来包括上述信息,即group 表示区组,food代表使用的营养素,weight表示最终的重量,即:group food weight1 1 50.011 2 58.20依此类推。

8.1.1 univarate对话框界面说明这里只有一个结果变量weight,要采用univarate对话框,如下所示:在上面的这些框框钮钮中,最常用的有:Dependent Variable框、Fixed Factors框、Model钮、Post Hoc钮,下面我们来一一解释。

【Dependent Variable框】选入需要分析的变量(应变量),只能选入一个。

这里我们的应变量为weight,将他选入即可。

【Fixed Factors框】即固定因素,说的通俗一些,就是--哎呀,我都不知道怎么解释好了,这样,如果你搞不明白,那么绝大多数要分析的因素都应该往里面选。

这里我们要分析的是group和food两个变量,把他们全都给我抓进去!固定因素指的是在样本中它所有可能的取值都出现了,比如例中的food,只可能有1、2、3这三个值,并且都出现了,就被称作固定效应;而相对应的随机效应的因素指的是所有可能的取值在样本中没有都出现,或不可能都出现,如本例中的group,实际上总体中当然不可能只有这8窝,因此要用样本中group 的情况来推论总体中group未出现的那些取值的情况时就会存在误差,因此被称为随机因素。

我这里让group也选入固定框是基于下面的事实:这样做统计分析的结论是完全相同的。

不同的只是推论的那部分。

【Random Factors框】用于选入随机因素,如果你弄不明白,假装没看见他就是了。

【Covariate框】用于选入协方差分析时的协变量,现在还用不到,不过下一个例子我们就要给他送礼了。

【WLS Weight框】即用于选入最小二乘法权重系数。

别理他,根据我的理解,只有统计分析的变态狂才会想起来用他(如有雷同,纯属巧合)!【Model钮】单击后出现一个对话框,用于设置在模型中包含哪些主效应和交互因子,默认情况为Full factorial,即分析所有的主效应和交互作用。

我们这里没有交互作用可分析,所以要改一下,否则将作不出结果来。

将按钮切换到右侧的custum,这时中部的Build Term下拉列表框就变黑可用,该框用于选择进入模型的因素交互作用级别,即是分析主效应、两阶交互、三阶交互、还是全部分析。

这里我们只能分析主效应:选择main,再用黑色箭头将group和food选入右侧的model框中,如果对这段叙述不太清楚,请参考下面的动画。

该对话框中还有两个元素:左下方的Sum of squares框用于选择方差分析模型类别,有1型到4型四种,如果你搞不清他们之间的区别,使用默认的3型即可;中下部有个Include intercept in model复选框,用于选择是否在模型中包括截距,不用改动,默认即可。

【Contrast钮】弹出Contrast对话框,用于对精细趋势检验和精确两两比较的选项进行定义,在这里,该对话框比单因素方差分析的时候还要专业,使用频率也更少,反正我都没用过,就干脆就不介绍了。

【Plots钮】用于指定用模型的某些参数作图,比如用food和group来作图,用的也比较少(指国内,因为它主要是用来做模型诊断用的)。

【Post Hoc钮】该按钮弹出的两两比较对话框和第7章单因素方差分析中的一模一样,不再重复。

本题对food作两两比较,方法为SNK法。

【Save钮】将模型拟合时产生的中间结果或参数保存为新变量供继续分析时用,可保存的东东有预测值、残差、诊断用指标等。

【Options钮】当然是定义选项啦!可以定义输出哪些指标的估计均数、并做所选择的两两比较,还有其他一些输出,如常用描述指标、方差齐性检验等。

好了,都解释完了,再重复以下,我们所作的操作为:1.Analyze==>General Lineal model==>Univariate2.Dependent Variable框:选入weight3.Fixed Factors框:选入group和food4.Model钮:单击5. Custom单选钮:选中6. Model框:选入group和food7.单击OK8.Post Hoc钮:单击9. Post Hoc test for框:选入food10. SNK复选框:选中11. 单击OK12.单击OK8.1.2 结果解释按照上题的操作,结果输出如下:Univariate Analysis of Variance这是一个所分析因素的取值情况列表,没有什么不好懂的。

现在大家看到的是一个典型的方差分析表,只不过是两因素的而已,我来解释一下:首先是所用方差分析模型的检验,F值为00.517,P小于0.05,因此所用的模型有统计学意义,可以用它来判断模型中系数有无统计学意义;第二行是截距,它在我们的分析中没有实际意义,忽略即可;第三行是变量GROUP,可见它也有统计学意义,不过我们关心的也不是他;第四行是我们真正要分析的FOOD,非常遗憾,它的P值为0.084,还没有统计学意义。

尽管不太愿意,我们的结论也只能是:尚不能认为三种营养素喂养的小白鼠体重增量有差别。

上表的标题内容翻译如下:Post Hoc TestsFOODHomogeneous Subsets现在是两两比较的结果,方法为SNK法,由于前面总的比较无差异,所以这里三种食物均在一个亚组内,检验无差异,P值为0.121。

前面方差分析FOOD的P值不是0.084吗?这里又是0.121,究竟哪个为准?两两比较只是近似的比较结果,应以前面方差分析的P为准,不过这两个P值不会在检验结果上发生质的冲突,一般只是大小不同而已。

好了,上面是正确的结果,如果model选择是采用Full factor又如何呢?会得出方差分析表如下:看到了吗?由于所谓的交互作用将自由度给全部“吃”掉了,没有误差可用于统计分析,什么结果也做不出来。

§8.2协方差分析例8.2 某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。

而胆固醇含量与年龄有关,资料见下表。

正常组超重组年龄(X1) 胆固醇(Y1) 年龄(X2) 胆固醇(Y2)48 3.5 58 7.333 4.6 41 4.751 5.8 71 8.443 5.8 76 8.844 4.9 49 5.163 8.7 33 4.949 3.6 54 6.742 5.5 65 6.440 4.9 39 6.047 5.1 52 7.541 4.1 45 6.441 4.6 58 6.856 5.1 67 9.2该题选自《医学统计学》第二版第七章。

考虑到统计分析对数据格式的要求,我们这里建立三个变量:GROUP表示组别,AGE代表年龄,CHOL则表示胆固醇。

8.2.1 分析步骤由于协方差分析涉及到许多较深的统计理论,这里我只好采用照本宣科的方法,告诉大家如何作,而不作过多解释,欲进一步了解原理的朋友请参考《医学统计学》原书。

首先应进行预分析,了解资料是否符合协方差分析的要求,最重要的一点就是看age的影响在两组中是否相同,这可以用age与group是否存在交互作用来表示。

对该问题,粗糙的方法可以是作分组散点图,差不多就可以,也可以进行预分析,看交互作用有无统计学意义,这里用后一种方法中最为精确的步骤来讲解。

预分析步骤:1.Analyze==>General Lineal model==>Univariate2.Dependent Variable框:选入chol3.Fixed Factors框:选入group4.Model钮:单击5. Custom单选钮:选中6. Model框:选入group、age和group*age(后者用interaction方法就可选入)7. Sum of squares列表框:改为Model I8.单击OK9.单击OK该步骤用于判断group和age间是否存在交互作用,如存在,则协方差分析的条件不满足,分析不能继续。

相关文档
最新文档