第3章 方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f(X)
X
3 1 2 4
5
X
失业保险案例:实验结果……
110 100 90 80 70 1 2 3 4
失 业 时 间
奖金水平
1=无奖金 2=低奖金 3=中奖金 4=高奖金。根 据实验结果,可以认为各总体的平均失业 时间相同吗?
6
研究方法:两样本的t检验?
用t检验比较两个均值: 每次只能比较两个均值,要解决上述问题 需要进行6次t检验……
2
3
4
*. The mean difference is significant at the 0.05 level.
从整个表反映出来四种饲料相互之间均存在显著性差异,从效果来看是第4 种最好,其次是第3种,第1种最差。 30
均值折线图
上图为几种饲料均值的折线图,可以看出均值分布比较陡峭,均值 差异也较大。
26
不同饲料的方差齐性检验结果 Test of Homogeneity of Variances 猪重
Levene Statistic
.024
df1
3
df2
15
Sig.
.995
方差齐性检验的H0假设是:方差相等。从上表可看出相伴根据 Sig.=0.995> (0.05)说明应该接受H0假设(即方差相等)。故 下面就用方差相等的检验方法。
19
3.2.2 :组间方差和组内方差
组间离差平方和
SSA m( xi x )
i 1 r 2
组内离差平方和
SSE ( xij xi ) 2
i 1 j 1 r m
组间方差
组内方差
SSA MSA r 1
受因素A和 随 机 因素的影响
SSE MSE nr
只受随机 因素的影响
3.1.1 基本概念
方差分析主要用来研究一个定量因变量与 一个或多个定性自变量的关系 只有一个自变量的方差分析称为单因素方 差分析。
研究多个因素对因变量的影响的方差分析 称为多因素方差分析,其中最简单的情况 是双因素方差分析。
10
固定效应与随机效应模型
固定效应模型:因素的所有水平都是由实 验者审慎安排而不是随机选择的。
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2
F检验的临界值和拒绝域 拒绝域
p-值
α
2.5 3 3.5 实际值 4 4.5 临界值
24
5
5.5
6
SPSS实例分析
【例】用四种饲料喂猪,共19头分为四组,每一组用一种饲 料。一段时间后称重,猪体重增加数据如下表所示,比较四 种饲料对猪体重增加的作用有无不同。
均值
88.44 85.33 82.56 77.11
N
9 9 9 9
标准差
6.82 11.02 8.38 6.01
14
(3) 其它说明
方差分析对前两个假设条件是稳健的, 允许一定程度的偏离。
独立性的假设条件一般可以通过对数据 搜集过程的控制来保证。 如果确实严重偏离了前两个假设条件, 则需要先对数据进行数学变换,也可以 使用非参数的方法来比较各组的均值。
第3章 方差分析
Analysis of Variance (ANOVA)
3.1 方差分析简介 3.2 单因素方差分析 3.3 双因素方差分析
3.1 方差分析中的基本概念 和假设
2
失业保险案例:为什么要进行方差 分析?
为了减小失业保险支出、促进 就业,政府试图为失业者提供再 就业奖励:如果失业者可以在限 定的时间内重新就业,他将可以 获得一定数额的奖金。政策会有 效吗?
随机效应模型:因素的水平是从多个可能 的水平中随机选择的。 固定效应和随机效应模型在假设的设置和 参数估计上有所差异,本章研究的都是固 定效应模型。
11
3.1.2:方差分析中的基本假设
(1)在各个总体中因变量都服从正态分布; (2)在各个总体中因变量的方差都相等; (3)各个观测值之间是相互独立的。
因素A导致的变差
随机因素导致的变差
SST=SSA+SSE
18
3.2.2 :组间方差和组内方差
各离差平方和的大小与观察值的多少有关,为了 消除观察值多少对离差平方和大小的影响,需要 将其平均,这就是均方。 计算方法是用离差平方和除以相应的自由度 三个平方和的自由度分别是 SST 的自由度为n-1,n为全部观察值的个数 SSA的自由度为r-1,其中r为因素水平的个数 SSE 的自由度为n-r
在整体检验中犯第一类错误的概率显著增 加: 如果在每次t检验中犯第一类错误的概率 等于5%,则在整体检验中等于1-(10.05)6=0.2649
7
方差分析可以用来比较多个均值
方差分析(Analysis of variance,ANOVA) 的主要目的是通过对方差的比较来检验多 个均值之间差异的显著性。 可以看作t检验的扩展,只比较两个均值时 与t检验等价。 20世纪20年代由英国统计学家R. A. Fisher 最早提出的,开始应用于生物和农业田间 试验,以后在许多学科中得到了广泛应用。
饲料A 133.8 125.3 饲料B 151.2 149.0 饲料C 193.4 185.3 饲料D 225.8 224.6
143.1
128.9 135.7
162.7
143.8 153.5
182.8
188.5 198.6
220.4
212.3
25
第1步 分析:由于考虑的是一个控制变量(饲料) 对一个观测变量(猪体重)的影响,而且是4种饲 料,所以不适宜用独立样本T检验(仅适用两组数 据),应采用单因素方差分析。 第2步 数据的组织:数据分成两列,一列是猪的 体重,变量名为“weight”,另一变量是饲料品种 (变量值分别为1,2,3,4),变量名为“fodder”,输 入数据并保存。 第3步 方差相等的齐性检验:由于方差分析的前 提是各个水平下(这里是不同的饲料folder影响下 的体重weight)的总体服从方差相等的正态分布, 且各组方差具有齐性。其中正态分布的要求并不是 很严格,但对于方差相等的要求是比较严格的,因 此必须对方差相等的前提进行检验。
上表是几种饲料方差分析的结果,组间(Between Groups)平方和 (Sum of Squares)为20538.698,自由度(df)为3,均方为6846.233; 组内(Within Groups)平方和为652.159,自由度为15,均方为43.477; F统计量为157.467。由于组间比较的相伴概率Sig.(p值)=0.000<0.05, 故应拒绝H0假设(四种饲料喂猪效果无显著差异),说明四种饲料对养猪 的效果有显著性差异。
3.根据样本计算F统计量的值。
方差分析表
离差平方和 SS 变差来源 SSA 组 间 组 内 总变异 SSE SST
自由度 df r-1 n-r n-1
均方 MS MSA MSE
F值 MSA/MSE
23
3.2.3 :方差分析的步骤
4.确定决策规则并根据实际值与临界值的 比较,或者p-值与α 的比较得出检验结论。 在零假设成立时组间方差与组内方差的比 值服从服从自由度为(r-1, n-r) 的 F 分布
8
3.1.1 方差分析中的几个基本概念
因变量:我们实际测量的、作为结果的变 量,例如失业持续时间。 自变量:作为原因的、把观测结果分成几 个组以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素 (factor)。 因素的不同表现,即每个自变量的不同取 值称为因素的水平。
9
27
几种饲料的方差检验(ANOVA)结果
猪重 Sum of Squares Between Groups 20538.698 df 3 Mean Square 6846.233 F 157.467 Sig. .000
Within Groups
Total
652.159
21190.858
15
18
43.477
21
3.2.3 :方差分析的步骤
ቤተ መጻሕፍቲ ባይዱ
1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设:
零假设:各总体的均值之间没有显著差异,即
H0 : 1 2 r
备择假设:至少有两个均值不相等,即
H1 : 1, 2 ,, r不全相等
22
3.2.3 :方差分析的步骤
28
第4步 多重比较分析:通过上面的步骤,只能判 断4种饲料喂猪效果是否有显著差异。如果想进一 步了解究竟是哪种饲料与其他组有显著性的均值差 别(即哪种饲料更好)等细节问题,就需要在多个 样本均值间进行两两比较。由于第3步检验出来方 差具有齐性,故选择一种方差相等的方法,这里选 LSD方法;显著性水平默认取0.05;
12
(1)正态性的检验
各组数据的直方图 峰度系数、偏度系数 Q-Q图, K-S检验*
13
(2)等方差性的检验
经验方法:计算各组数据的标准差,如果最大值 与最小值的比例小于2:1,则可认为是同方差的。 最大值和最小值的比例等于1.83<2 Levene检验 * 奖金水 平 1 2 3 4
X ij i ij i ij
17
3.2.2 :总变差(离差平方和)的分解
总变差
SST ( xi x )2
i 1 n
组间离差平方和
SSA m( xi x )
i 1 r 2
组内离差平方和
SSE ( xij xi )2
i 1 j 1 r m
15
3.2. 单因素方差分析
3.2.1 单因素方差分析模型 3.2.2 方差分析的基本原理 3.2.3 单因素方差分析的步骤
16
3.2.1 单因素方差分析模型
单因素方差分析: 模型中有一个自变量 (因素)和一个因变量。 在失业保险实验中假设张三在高奖金组,则 张三的失业时间 =高奖金组的平均失业时间 +随机因素带来的影响 =总平均失业时间 +高奖金组平均值与总平均值之差 + 随机因素带来的影响
3
要研究的问题
总体1,μ1 (奖金=1) 总体2,μ2 (奖金=2) 总体3,μ3 (奖金=3) 总体4,μ4 (奖金=4)
样本1
2 x1, s1
样本2
2 x2 , s2
样本3
2 x3 , s3
样本4
2 x4 , s4
1 2 3 4 ??
4
各个总体的均值相等吗?
f(X)
1 2 3 4
29
第5步
运行主要结果及分析:
多重比较(Multiple Comparisons)结果
猪重 LSD (I) 饲料品种 1 (J) 饲料品种 2 3 4 1 3 4 1 2 4 1 2 3 Mean Difference (I-J) -18.68000* -56.36000* -87.41500* 18.68000* -37.68000* -68.73500* 56.36000* 37.68000* -31.05500* 87.41500* 68.73500* 31.05500* Std. Error 4.17024 4.17024 4.42321 4.17024 4.17024 4.42321 4.17024 4.17024 4.42321 4.42321 4.42321 4.42321 Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 95% Confidence Interval Lower Bound Upper Bound -27.5687 -9.7913 -65.2487 -47.4713 -96.8428 -77.9872 9.7913 27.5687 -46.5687 -28.7913 -78.1628 -59.3072 47.4713 65.2487 28.7913 46.5687 -40.4828 -21.6272 77.9872 96.8428 59.3072 78.1628 21.6272 40.4828
20
3.2.2 :方差分析的基本思想
组间方差
SSA MSA r 1
F=
SSE 组内方差 MSE nr
如果因素A的不同水平对结果没有影响,那么在组间 方差中只包含有随机误差,两个方差的比值会接近1 如果不同水平对结果有影响,组间方差就会大于组 内方差,组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之 间存在显著差异,或者说因素A对结果有显著影响。
X
3 1 2 4
5
X
失业保险案例:实验结果……
110 100 90 80 70 1 2 3 4
失 业 时 间
奖金水平
1=无奖金 2=低奖金 3=中奖金 4=高奖金。根 据实验结果,可以认为各总体的平均失业 时间相同吗?
6
研究方法:两样本的t检验?
用t检验比较两个均值: 每次只能比较两个均值,要解决上述问题 需要进行6次t检验……
2
3
4
*. The mean difference is significant at the 0.05 level.
从整个表反映出来四种饲料相互之间均存在显著性差异,从效果来看是第4 种最好,其次是第3种,第1种最差。 30
均值折线图
上图为几种饲料均值的折线图,可以看出均值分布比较陡峭,均值 差异也较大。
26
不同饲料的方差齐性检验结果 Test of Homogeneity of Variances 猪重
Levene Statistic
.024
df1
3
df2
15
Sig.
.995
方差齐性检验的H0假设是:方差相等。从上表可看出相伴根据 Sig.=0.995> (0.05)说明应该接受H0假设(即方差相等)。故 下面就用方差相等的检验方法。
19
3.2.2 :组间方差和组内方差
组间离差平方和
SSA m( xi x )
i 1 r 2
组内离差平方和
SSE ( xij xi ) 2
i 1 j 1 r m
组间方差
组内方差
SSA MSA r 1
受因素A和 随 机 因素的影响
SSE MSE nr
只受随机 因素的影响
3.1.1 基本概念
方差分析主要用来研究一个定量因变量与 一个或多个定性自变量的关系 只有一个自变量的方差分析称为单因素方 差分析。
研究多个因素对因变量的影响的方差分析 称为多因素方差分析,其中最简单的情况 是双因素方差分析。
10
固定效应与随机效应模型
固定效应模型:因素的所有水平都是由实 验者审慎安排而不是随机选择的。
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2
F检验的临界值和拒绝域 拒绝域
p-值
α
2.5 3 3.5 实际值 4 4.5 临界值
24
5
5.5
6
SPSS实例分析
【例】用四种饲料喂猪,共19头分为四组,每一组用一种饲 料。一段时间后称重,猪体重增加数据如下表所示,比较四 种饲料对猪体重增加的作用有无不同。
均值
88.44 85.33 82.56 77.11
N
9 9 9 9
标准差
6.82 11.02 8.38 6.01
14
(3) 其它说明
方差分析对前两个假设条件是稳健的, 允许一定程度的偏离。
独立性的假设条件一般可以通过对数据 搜集过程的控制来保证。 如果确实严重偏离了前两个假设条件, 则需要先对数据进行数学变换,也可以 使用非参数的方法来比较各组的均值。
第3章 方差分析
Analysis of Variance (ANOVA)
3.1 方差分析简介 3.2 单因素方差分析 3.3 双因素方差分析
3.1 方差分析中的基本概念 和假设
2
失业保险案例:为什么要进行方差 分析?
为了减小失业保险支出、促进 就业,政府试图为失业者提供再 就业奖励:如果失业者可以在限 定的时间内重新就业,他将可以 获得一定数额的奖金。政策会有 效吗?
随机效应模型:因素的水平是从多个可能 的水平中随机选择的。 固定效应和随机效应模型在假设的设置和 参数估计上有所差异,本章研究的都是固 定效应模型。
11
3.1.2:方差分析中的基本假设
(1)在各个总体中因变量都服从正态分布; (2)在各个总体中因变量的方差都相等; (3)各个观测值之间是相互独立的。
因素A导致的变差
随机因素导致的变差
SST=SSA+SSE
18
3.2.2 :组间方差和组内方差
各离差平方和的大小与观察值的多少有关,为了 消除观察值多少对离差平方和大小的影响,需要 将其平均,这就是均方。 计算方法是用离差平方和除以相应的自由度 三个平方和的自由度分别是 SST 的自由度为n-1,n为全部观察值的个数 SSA的自由度为r-1,其中r为因素水平的个数 SSE 的自由度为n-r
在整体检验中犯第一类错误的概率显著增 加: 如果在每次t检验中犯第一类错误的概率 等于5%,则在整体检验中等于1-(10.05)6=0.2649
7
方差分析可以用来比较多个均值
方差分析(Analysis of variance,ANOVA) 的主要目的是通过对方差的比较来检验多 个均值之间差异的显著性。 可以看作t检验的扩展,只比较两个均值时 与t检验等价。 20世纪20年代由英国统计学家R. A. Fisher 最早提出的,开始应用于生物和农业田间 试验,以后在许多学科中得到了广泛应用。
饲料A 133.8 125.3 饲料B 151.2 149.0 饲料C 193.4 185.3 饲料D 225.8 224.6
143.1
128.9 135.7
162.7
143.8 153.5
182.8
188.5 198.6
220.4
212.3
25
第1步 分析:由于考虑的是一个控制变量(饲料) 对一个观测变量(猪体重)的影响,而且是4种饲 料,所以不适宜用独立样本T检验(仅适用两组数 据),应采用单因素方差分析。 第2步 数据的组织:数据分成两列,一列是猪的 体重,变量名为“weight”,另一变量是饲料品种 (变量值分别为1,2,3,4),变量名为“fodder”,输 入数据并保存。 第3步 方差相等的齐性检验:由于方差分析的前 提是各个水平下(这里是不同的饲料folder影响下 的体重weight)的总体服从方差相等的正态分布, 且各组方差具有齐性。其中正态分布的要求并不是 很严格,但对于方差相等的要求是比较严格的,因 此必须对方差相等的前提进行检验。
上表是几种饲料方差分析的结果,组间(Between Groups)平方和 (Sum of Squares)为20538.698,自由度(df)为3,均方为6846.233; 组内(Within Groups)平方和为652.159,自由度为15,均方为43.477; F统计量为157.467。由于组间比较的相伴概率Sig.(p值)=0.000<0.05, 故应拒绝H0假设(四种饲料喂猪效果无显著差异),说明四种饲料对养猪 的效果有显著性差异。
3.根据样本计算F统计量的值。
方差分析表
离差平方和 SS 变差来源 SSA 组 间 组 内 总变异 SSE SST
自由度 df r-1 n-r n-1
均方 MS MSA MSE
F值 MSA/MSE
23
3.2.3 :方差分析的步骤
4.确定决策规则并根据实际值与临界值的 比较,或者p-值与α 的比较得出检验结论。 在零假设成立时组间方差与组内方差的比 值服从服从自由度为(r-1, n-r) 的 F 分布
8
3.1.1 方差分析中的几个基本概念
因变量:我们实际测量的、作为结果的变 量,例如失业持续时间。 自变量:作为原因的、把观测结果分成几 个组以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素 (factor)。 因素的不同表现,即每个自变量的不同取 值称为因素的水平。
9
27
几种饲料的方差检验(ANOVA)结果
猪重 Sum of Squares Between Groups 20538.698 df 3 Mean Square 6846.233 F 157.467 Sig. .000
Within Groups
Total
652.159
21190.858
15
18
43.477
21
3.2.3 :方差分析的步骤
ቤተ መጻሕፍቲ ባይዱ
1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设:
零假设:各总体的均值之间没有显著差异,即
H0 : 1 2 r
备择假设:至少有两个均值不相等,即
H1 : 1, 2 ,, r不全相等
22
3.2.3 :方差分析的步骤
28
第4步 多重比较分析:通过上面的步骤,只能判 断4种饲料喂猪效果是否有显著差异。如果想进一 步了解究竟是哪种饲料与其他组有显著性的均值差 别(即哪种饲料更好)等细节问题,就需要在多个 样本均值间进行两两比较。由于第3步检验出来方 差具有齐性,故选择一种方差相等的方法,这里选 LSD方法;显著性水平默认取0.05;
12
(1)正态性的检验
各组数据的直方图 峰度系数、偏度系数 Q-Q图, K-S检验*
13
(2)等方差性的检验
经验方法:计算各组数据的标准差,如果最大值 与最小值的比例小于2:1,则可认为是同方差的。 最大值和最小值的比例等于1.83<2 Levene检验 * 奖金水 平 1 2 3 4
X ij i ij i ij
17
3.2.2 :总变差(离差平方和)的分解
总变差
SST ( xi x )2
i 1 n
组间离差平方和
SSA m( xi x )
i 1 r 2
组内离差平方和
SSE ( xij xi )2
i 1 j 1 r m
15
3.2. 单因素方差分析
3.2.1 单因素方差分析模型 3.2.2 方差分析的基本原理 3.2.3 单因素方差分析的步骤
16
3.2.1 单因素方差分析模型
单因素方差分析: 模型中有一个自变量 (因素)和一个因变量。 在失业保险实验中假设张三在高奖金组,则 张三的失业时间 =高奖金组的平均失业时间 +随机因素带来的影响 =总平均失业时间 +高奖金组平均值与总平均值之差 + 随机因素带来的影响
3
要研究的问题
总体1,μ1 (奖金=1) 总体2,μ2 (奖金=2) 总体3,μ3 (奖金=3) 总体4,μ4 (奖金=4)
样本1
2 x1, s1
样本2
2 x2 , s2
样本3
2 x3 , s3
样本4
2 x4 , s4
1 2 3 4 ??
4
各个总体的均值相等吗?
f(X)
1 2 3 4
29
第5步
运行主要结果及分析:
多重比较(Multiple Comparisons)结果
猪重 LSD (I) 饲料品种 1 (J) 饲料品种 2 3 4 1 3 4 1 2 4 1 2 3 Mean Difference (I-J) -18.68000* -56.36000* -87.41500* 18.68000* -37.68000* -68.73500* 56.36000* 37.68000* -31.05500* 87.41500* 68.73500* 31.05500* Std. Error 4.17024 4.17024 4.42321 4.17024 4.17024 4.42321 4.17024 4.17024 4.42321 4.42321 4.42321 4.42321 Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 95% Confidence Interval Lower Bound Upper Bound -27.5687 -9.7913 -65.2487 -47.4713 -96.8428 -77.9872 9.7913 27.5687 -46.5687 -28.7913 -78.1628 -59.3072 47.4713 65.2487 28.7913 46.5687 -40.4828 -21.6272 77.9872 96.8428 59.3072 78.1628 21.6272 40.4828
20
3.2.2 :方差分析的基本思想
组间方差
SSA MSA r 1
F=
SSE 组内方差 MSE nr
如果因素A的不同水平对结果没有影响,那么在组间 方差中只包含有随机误差,两个方差的比值会接近1 如果不同水平对结果有影响,组间方差就会大于组 内方差,组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之 间存在显著差异,或者说因素A对结果有显著影响。