统计学第5章 方差分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中央财经大学统计学院 9




5.1.1 基本概念

方差分析主要用来研究一个定量因变量与 一个或多个定性自变量的关系 只有一个自变量的方差分析称为单因素方 差分析。


研究多个因素对因变量的影响的方差分析 称为多因素方差分析,其中最简单的情况 是双因素方差分析。
中央财经大学统计学院 10
5.1.1 :固定效应与随机效应模型
中央财经大学统计学院
29
例2 热带雨林 (4)

2、提出零假设和备择假设 零假设:雨林采伐对林木数量没有显著影 响(各组均值相等); 备择假设:雨林采伐对是有显著影响(各 组均值不全相等)。
中央财经大学统计学院
30
例2 热带雨林 (5)

3、方差分析表
SS 625.16 820.72 1445.88 df 2 30 32 MS 312.58 27.36 F 11.43 Pvalue 0.0002 F crit 3.32
中央财经大学统计学院
12
(1)正态性的检验



各组数据的直方图 峰度系数、偏度系数 Q-Q图, K-S检验*
中央财经大学统计学院
13
(2)等方差性的检验


经验方法:计算各组数据的标准差,如果最大值 与最小值的比例小于2:1,则可认为是同方差的。 最大值和最小值的比例等于1.83<2 Levene检验 *
X ij i ij i ij
中央财经大学统计学院 17
5.2.2 :总变差(离差平方和)的分解
总变差
SST ( xi x )2
i 1 n
组间离差平方和
SSA m( xi x )
i 1 r 2
组内离差平方和
SSE ( xij xi )2
样本1
2 x1, s1
样本2
2 x2 , s2
样本3
2 x3 , s3
样本4
2 x4 , s4
1 2 3 4 ??
中央财经大学统计学院 5
各个总体的均值相等吗?
f(X)
1 2 3 4
f(X)
X
3 1 2 4
中央财经大学统计学院 6
X
研究方法:两样本的t检验?

用t检验比较两个均值: 每次只能比较两个均值,要解决上述问题 需要进行6次t检验……

在整体检验中犯第一类错误的概率显著增 加: 如果在每次t检验中犯第一类错误的概率 等于5%,则在整体检验中等于1-(10.05)6=0.2649
中央财经大学统计学院 7
方差分析可以用来比较多个均值

方差分析(Analysis of variance,ANOVA) 的主要目的是通过对方差的比较来检验多 个均值之间差异的显著性。 可以看作t检验的扩展,只比较两个均值时 与t检验等价。 20世纪20年代由英国统计学家费希尔(R. A. Fisher)最早提出的,开始应用于生物 和农业田间试验,以后在许多学科中得到 了广泛应用。
例2 热带雨林 (2)

从未采 伐过 27 22 29 21 19 33 16 20 24 27 28 19 1年前采 8年前采 伐过 伐过 12 18 12 4 15 22 9 15 20 18 18 19 17 22 14 12 14 12 2 17 19
中央财经大学统计学院 28
1、正态性检验:直方图
(I) 采伐类型 (J) 采伐类型 均值差 (I-J) 标准 误 p-值 95% 置信区间 下限 上限
N
1 2 3 4 6 6 6 6
均值
3433 3450 2733 2400
中央财经大学统计学院 14
标准差
378 596 505 420
(3) 其它说明

方差分析对前两个假设条件是稳健的, 允许一定程度的偏离。
独立性的假设条件一般可以通过对数据 搜集过程的控制来保证。 如果确实严重偏离了前两个假设条件, 则需要先对数据进行数学变换,也可以 使用非参数的方法来比较各组的均值。


1、根据前面的分析,数据符合方差分 析的假设条件。 2、提出零假设和备择假设: H0:μ1=μ2=μ3=μ4, H1:μ1、μ2、μ3、μ4不全相等。
中央财经大学统计学院 25
起薪的例子(2)

3、计算F统计量的实际值和p值。下面是SPSS计 算的方差分析表。由于 p 值 0.002 0.05, 因此拒绝零假设。

固定效应模型:因素的所有水平都是由实 验者审慎安排而不是随机选择的。

随机效应模型:因素的水平是从多个可能 的水平中随机选择的。 固定效应和随机效应模型在假设的设置和 参数估计上有所差异,本章研究的都是固 定效应模型。
中央财经大学统计学院 11

5.1.2:方差分析中的基本假设


(1)在各个总体中因变量都服从正态分布; (2)在各个总体中因变量的方差都相等; (3)各个观测值之间是相互独立的。
一份研究伐木业对热带雨林影响的统计研究报告指 出,“环保主义者对于林木采伐、开垦和焚烧导致 的热带雨林的破坏几近绝望”。这项研究比较了类 似地块上树木的数量,这些地块有的从未采伐过, 有的1年前采伐过,有的8年前采伐过。根据数据, 采伐对树木数量有显著影响吗?显著性水平α=0.05。
中央财经大学统计学院 27
只受随机 因素的影响
中央财经大学统计学院
20
5.2.2 :方差分析的基本思想
组间方差
SSA MSA r 1
F=

SSE 组内方差 MSE nr


如果因素A的不同水平对结果没有影响,那么在组间 方差中只包含有随机误差,两个方差的比值会接近1 如果不同水平对结果有影响,组间方差就会大于组 内方差,组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之 间存在显著差异,或者说因素A对结果有显著影响。
第5章 方差分析
Analysis of Variance (ANOVA)
5.1 方差分析简介 5.2 单因素方差分析 5.3 双因素方差分析
中央财经大学统计学院
学习目标

掌握方差分析中的基本概念; 掌握方差分析的基本思想和原理; 掌握单因素方差分析的方法及应用; 初步了解多重比较方法的应用; 了解双因素方差分析的方法及应用。
中央财经大学统计学院
19
5.2.2 :组间方差和组内方差
组间离差平方和
SSA m( xi x )
i 1 r 2
组内离差平方和
SSE ( xij xi ) 2
i 1 j 1 r m
组间方差
组内方差
SSA MSA r 1
受因素A和 随 机 因素的影响
SSE MSE nr
变差源 组间 组内 总计

4、结论。 F值=11.43>3.32,p-值=0.0002<0.05,因此检 验的结论是采伐对林木数量有显著影响。
中央财经大学统计学院 31
5.2.4 方差分析中的多重比较

在方差分析中,当零假设被拒绝时我们可以确定 至少有两个总体的均值有显著差异。但要进一步 检验哪些均值之间有显著差异还需要采用多重比 较的方法进行分析。这在方差分析中称为事后检 验(Post Hoc test)。 多重比较是对各个总体均值进行的两两比较。方 法很多,如Fisher最小显著差异(Least Significant Difference,LSD)方法、Tukey的诚 实显著差异(HSD)方法或Bonferroni的方法等。 这里我们只介绍最小显著差异方法。
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2
F检验的临界值和拒绝域 拒绝域
p-值
α
2.5 3 3.5 实际值 4 4.5 临界值
24
5
5.5
6
中央财经大学统计学院
起薪的例子(1)
在起薪的例子中,设显著性水平= 0.05, 试分析专业对起薪的影响已否显著 。
中央财经大学统计学院 15


5.2. 单因素方差分析



5.2.1 单因素方差分析模型 5.2.2方差分析的基本原理 5.2.3 单因素方差分析的步骤 5.2.4 方差分析中的多重比较
中央财经大学统计学院
16
5.2.1 单因素方差分析模型

单因素方差分析: 模型中有一个自变量 (因素)和一个因变量。 在失业保险实验中假设张三在高奖金组,则 张三的失业时间 =高奖金组的平均失业时间 +随机因素带来的影响 =总平均失业时间 +高奖金组平均值与总平均值之差 + 随机因素带来的影响
i 1 j 1 r m
因素A导致的变差
随机因素导致的变差
SST=SSA+SSE
中央财经大学统计学院 18
5.2.2 :组间方差和组内方差


各离差平方和的大小与观察值的多少有关,为了 消除观察值多少对离差平方和大小的影响,需要 将其平均,这就是均方。 计算方法是用离差平方和除以相应的自由度 三个平方和的自由度分别是 SST 的自由度为n-1,n为全部观察值的个数 SSA的自由度为r-1,其中r为因素水平的个数 SSE 的自由度为n-r
22
5.2.3 :方差分析的步骤

3.根据样本计算F统计量的值。
方差分析表
离差平方和 SS 变差来源 SSA 组 间 组 内 总变异 SSHale Waihona Puke Baidu SST
自由度 df r-1 n-r n-1
均方 MS MSA MSE
F值 MSA/MSE
中央财经大学统计学院
23
5.2.3 :方差分析的步骤

4.确定决策规则并根据实际值与临界值的 比较,或者p-值与α 的比较得出检验结论。 在零假设成立时组间方差与组内方差的比 值服从服从自由度为(r-1, n-r) 的 F 分布
例2 热带雨林 (3)

同方差性检验:最大值与最小值之比等于 33.19 / 4.81=1.34,明显小于4,因此可以认 为是等方差的。 组 从未采伐过 1年前采伐过 8年前采伐过 计数 12 12 9 求和 285 169 142 平均 23.75 14.08 15.78 方差 25.66 24.81 33.19
中央财经大学统计学院 32

用LSD法进行多重比较的步骤

1、提出假设

H0: i = j H1: i j
t
xi x j 1 1 MSE ( ) ni n j

2、计算检验的统计量
3a、 如果
3b、计算

t t / 2

t t / 2
则拒绝H0。

xi x j 的置信区间: ( xi x j ) t / 2
平方和 组间
组内
df
均方 3 1642638.889
F 7.078
p值 0.002
4927916.667
4641666.667
20
232083.333
总数
9569583.333
23
中央财经大学统计学院 26
例2 热带雨林 (1)

各水平下的样本容量不同时单因素方差分析的 方法也完全适用,只是公式的形式稍有不同, 在使用软件进行分析时几乎看不出这种差别。
1 1 MSE ( ) ni n j
如果0包含在该置信区间内则不能拒绝H0,否则拒绝H0。
中央财经大学统计学院 33
实例:热带雨林采伐

很多统计软件都可以直接进行多重比较。下表是 SPSS对热带雨林例子的输出结果。 置信区间5.31~14.03,3.26~12.68不包括0,差异 显著。 置信区间-6.04~3.02包括了0,差异不显著。
中央财经大学统计学院 8


5.1.1 方差分析中的几个基本概念
因变量:我们实际测量的、作为结果的变 量,例如失业持续时间。 自变量:作为原因的、把观测结果分成几 个组以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素 (factor)。 因素的不同表现,即每个自变量的不同取 值称为因素的水平。
中央财经大学统计学院 21
5.2.3 :方差分析的步骤

1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设:


零假设:各总体的均值之间没有显著差异,即
H0 : 1 2 r

备择假设:至少有两个均值不相等,即
H1 : 1, 2 ,, r不全相等
中央财经大学统计学院
中央财经大学统计学院
2
5.1 方差分析中的基本概念 和假设
中央财经大学统计学院
3
为什么要进行方差分析?
为了比较四个专业的起薪,我们 从某高校四个专业的毕业生中分 别随机选择6人调查他们的起薪。 如何根据样本数据比较不同专业 毕业生的平均起薪?
中央财经大学统计学院
4
要研究的问题
总体1,μ1 (专业=1) 总体2,μ2 (专业=2) 总体3,μ3 (专业=3) 总体4,μ4 (专业=4)
相关文档
最新文档