统计学第五章PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在零假设成立时组间方差与组内方差的比值服从服从自 由度为(r-1, n-r) 的 F 分布
0.7
0.6
F检验的临界值和拒绝域
0.5
0.4
0.3
0.2
0.1
α
拒绝域
p-值
临界值 实际值 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
方差分析表
离差平方
变差来 和
源
SS
第5章 方差分析 Analysis of Variance (ANOVA)
7.1 单因素实验的方差分析 7.2 双因素实验的方差分析
【 例 】为了对几个行业的服务质量进行评价,消费者协会 在四个行业分别抽取了不同的企业作为样本。最近一年中消 费者对总共23家企业投诉的次数如下表
观测值
1 2 3 4 5 6 7
消费者对四个行业的投诉次数
行业
零售业
旅游业
航空公司
57
68
31
66
39
Βιβλιοθήκη Baidu
49
49
29
21
40
45
34
34
56
40
53
51
44
家电制造业
44 51 65 77 58
1. 分析四个行业之间的服务质量是否有显著差异, 也就是要判断“行业”对“投诉次数”是否有显 著影响.
2. 作出这种判断最终被归结为检验这四个行业被投 诉次数的均值是否相等.
• Levene检验 *
奖金水 平
均值
N
标准差
1
88.44
9
6.82
2
85.33
9
11.02
3
82.56
9
8.38
4
77.11
9
6.01
二.提出假设
1. 一般提法
▪ H0 : m1 = m2 =…= mk
2. 系统误差
▪ 因素的不同水平(不同总体)下,各观察值之间的差异 ▪ 不同水平造成的差异叫系统误差
1.水平之间的差异( SSA )
包括随机误差和系统误差
2.水平内部的差异( SSE )
包括随机误差
总变差(离差平方和)的分解
总变差
n
SST (xij x)2 i1
组间离差平方和
r
SSA ni(xi x)2 i1
• 可以看作t检验的扩展,只比较两个均值时与t检验等价。
• 20世纪20年代由英国统计学家费喧(R. A. Fisher)最早提 出的,开始应用于生物和农业田间试验,以后在许多学科 中得到了广泛应用。
方差分析中的几个基本概念
1. 因变量:我们实际测量的、作为结果的变量。例如:投诉 次数。
2. 因素:所要研究的变量,它可能对自变量产生影响。如: 行业。
• 方差分析对正态性假设条件是稳健的, 允许 一定程度的偏离。
• 如果确实严重偏离了前两个假设条件,则需要先对数据进行数 学变换,也可以使用非参数的方法来比较各组的均值。
• 经验方法:计算各组数据的标准差,如果最大值 与最小值的比例小于2:1,则可认为是同方差的。
最大值和最小值的比例等于1.83<2
因素(A) i
水平A2
…
x21
…
x22
…
:
:
:
:
x2n
…
水平Ak
xk1 xk2 : : xkn
方差分析的基本思想和原理
80
60
被投诉次数
40
20
0
0
零1 售业 2旅游业 3航空公司 4 家电制造 5
不同行业被投诉次数的散点图
行业
1. 随机误差
▪ 因素的同一水平(总体)下,样本各观察值之间的差异 ▪ 是随机因素的影响,称为随机误差
自由度 df
组 间 SSA
r-1
组 内 SSE
n-r
总变异 SST
n-1
均方 MS
F值
MSA MSE
MSA/MS E
单因素方差分析的步骤
• 检验数据是否符合方差分析的假设条件 • 提出假设 • 构造检验的统计量 • 决策
• 一.检验数据是否符合方差分析的假 设条件
• 独立性的假设条件一般可以通过对数据搜集 过程的控制来保证。
• 只有一个自变量的方差分析称为单因素方差分析。
• 研究多个因素对因变量的影响的方差分析称为多因素 方差分析,其中最简单的情况是双因素方差分析。
方差分析中的基本假设
1.样本的独立性,各组观测数据是从相互独立的总体中抽取 的(只有独立的样本才能保证变异的可加性)。
2.在各个总体中因变量都服从正态分布;且方差相等。
3. 水平
▪ 指因素的具体表现。如不同的行业就是因素的不同取
值。
4.实验
▪ 这里只涉及一个因素,因此称为单因素四水平的试
验
5.总体 ▪ 因素的每一个水平可以看作是一个总体 ▪ 比如不同的行业可以看作是四个总体
6.样本数据 ▪ 投诉次数可以看作是从这四个总体中抽取的样本数
据
• 方差分析主要用来研究一个定量因变量与一个或多个 定性自变量的关系
组内离差平方和
rm
SSE
(xij xi)2
i1 j1
SST=SSA+SSE
• 各离差平方和的大小与观察值的多少有关,为了消除 观察值多少对离差平方和大小的影响,需要将其平均, 这就是均方,也称为方差。
• 计算方法是用离差平方和除以相应的自由度
• 三个平方和的自由度分别是 – SST 的自由度为n-1,n为全部观察值的个数 – SSA的自由度为r-1,其中r为因素水平的个数 – SSE 的自由度为n-r
5.1. 单因素方差分析
• 1 .单因素方差分析的数据结构 • 2. 单因素方差分析的基本思想和原理 • 3 .单因素方差分析的步骤 • 4 .方差分析中的多重比较
单因素方差分析的数据结构 (one-way analysis of variance)
观察值 ( j )
1 2 : : n
水平A1
x11 x12 : : x1n
组间方差和组内方差
组间离差平方和
r
SSA ni(xi x)2 i1
组内离差平方和
rm
SSE
(xij xi)2
i1 j1
组间方差
MSA SSA r 1
受因素A和 随 机
因素的影响
组内方差
MSE SSE nr
只受随机 因素的影响
F=
组间方差 MSA SSA r 1
组内方差 MSE SSE
nr
• 如果因素A的不同水平对结果没有影响,那么在组间方差 中只包含有随机误差,两个方差的比值会接近1
研究方法:两样本的t检验?
• 用t检验比较两个均值: – 每次只能比较两个均值,要解决上述问题需要进行 6次t检验……
– 在整体检验中犯第一类错误的概率显著增加: 如果在每次t检验中犯第一类错误的概率等于5%, 则在整体检验中等于1-(1-0.05)6=0.2649
方差分析可以用来比较多个均值
• 方差分析(Analysis of variance,ANOVA)的主要目的是 通过对方差的比较来检验多个均值之间差异的显著性。