统计学课件
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.1.1 什么是方差分析?
统计学
STATISTICS (第三版)
什么是方差分析(ANOVA)?
(analysis of variance)
1. 方差分析的基本原理是在20世纪20年代由英国统计 学家Ronald A.Fisher在进行实验设计时为解释实验 数据而首先引入的
2. 检验多个总体均值是否相等
1. 判断原假设是否成立,就是判断组间方差与组 内方差是否有显著差异
2. 若原假设成立,组间均方与组内均方的数值就 应该很接近,它们的比值就会接近1
3. 若原假设不成立,组间均方会大于组内均方, 它们之间的比值就会大于1
4. 当这个比值大到某种程度时,就可以说不同水 平之间存在着显著差异,即自变量对因变量有 影响
2. 组内平方和除以相应的自由度结果称为组内方差 (within-group variance);组间平方和除以相应的 自 由 度 结 果 称 为 组 间 方 差 (between-group
variance)
7 - 16
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分析)
统计学
(第三版)
统计学
STATISTICS (第三版)
统计名言
警惕过多地假设检验。你对数据越 苛求,数据会越多地向你供认,但 在威逼下得到的供词,在科学询查 的法庭上是不容许的。
——Stephen M.Stigler
7-2
2008年8月
第 7 章 方差分析与实验设计
7.1 方差分析的基本原理 7.2 单因子方差分析 7.3 双因子方差分析 7.4 实验设计初步
▪ H0 :m1 = m2 =…= mk
• 自变量对因变量没有显著影响
▪ H1 :m1 ,m2 ,… ,mk不全相等
• 自变量对因变量有显著影响
2. 注意:拒绝原假设,只表明至少有两个总 体的均值不相等,并不意味着所有的均值 都不相等
7 - 25
2008年8月
统计学
STATISTICS (第三版)
2. 方差分析要解决的问题就是判断超市的位置对销售额是 否有显著影响。设商业区、居民小区和写字楼3个位置超 市的销售额均值是否相同
7 - 11
2008年8月
7.1 方差分析的基本原理
7.1.2 从误差分析入手
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分解)
1. 总误差(total error)
统计学
STATISTICS (第三版)
什么是方差分析?
(例题分析)
【 例 】确定超市的位置和竞争者的数量对销售额是否有 显著影响,获得的年销售额数据(单位:万元)如下表
因子
7 - 10
水平或处理
样本数据
2008年8月
统计学
STATISTICS (第三版)
什么是方差分析?
(例题分析)
1. 如果只考虑“超市位置”对销售额是否有显著影响,实 际上也就是要判断不同位置超市的销售额均值是否相同
【例】检验 超市位 置对销 售额是 否有显 著影响
(=0.05)
单因子方差分析
(例题分析)
7 - 29
2008年8月
统计学
STATISTICS (第三版)
单因子方差分析
(例题分析)
1. 提出假设。设不同位置超市销售额的均值分
别为m1(商业区)、 m2(居民小区)和m3 (写字楼) ,
提出的假设为
▪ H0 :m1 m2 m3 ▪ H1 :m1 , m2 , m3 不全相等
▪ 通过分析数据的误差判断各总体均值是否相等
3. 研究分类型自变量对数值型因变量的影响
▪ 一个或多个分类型自变量
两个或多个 (k 个) 处理水平或分类
▪ 一个数值型因变量
4. 有单因子方差分析和双因子方差分析
单因子方差分析:涉及一个分类的自变量 双因子方差分析:涉及两个分类的自变量
7-9
2008年8月
若它们的均值相同,意味着“超市位置”对销售额没有显著影 响;若均值不全相同,则意味着“超市位置”对销售额有显著 影响
“超市位置”就是分类自变量,“销售额”则是数值因变量。 “超市位置”是要检验的对象,称为因子(factor),商业区、居 民小区、写字楼是因子的3个取值,称为水 平(level)或处 理 (treatment)。每个因子水平下得到的销售额为样本观测值
error)
▪ 不同的处理影响所造成的误差 ▪ 反映样本之间数据的差异
7 - 13
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分解)
1. 数据的误差用平方和(sum of squares)表示,记为SS
2. 总平方和(sum of squares for total)记为SST
统计学
STATISTICS (第三版)
学习目标
方差分析的基本思想和原理 单因子方差分析 多重比较 双因子方差分析的方法 实验设计方法与数据分析
7-4
2008年8月
统计学
STATISTICS 不同运动队的平均成绩之间是否有显著差异?
(第三版)
奥运会女子团体射箭 比赛,每个对有3名 运动员。进入最后决 赛的运动队需要进行 4组射击,每个队员 进行两次射击。这样, 每个组共射出6箭, 4组共射出24箭
f(X)
7 - 21
m1 m2 m3
X
2008年8月
第 7 章 方差分析与实验设计
7.2 单因子方差分析
7.2.1 检验步骤 7.2.2 关系有多强? 7.2.3 哪些均值之间有显著差异?
7.2 单因子方差分析
7.2.1 检验步骤
统计学
STATISTICS (第三版)
单因子方差分析
(one-way analysis of variance)
▪ 若F>F ,不拒绝原假设H0 ,无证据表明所
检验的因子对观察值有显著影响
7 - 27
2008年8月
统计学
STATISTICS (第三版)
作出决策 (F分布与拒绝域)
如果均值相等, F=MS组间/MS组内1
不拒绝H0
拒绝H0
0
F
F(k-1,n-k)
F 分布
7 - 28
2008年8月
统计学
STATISTICS (第三版)
▪ 反映全部观测数据的误差称 ▪ 所抽取的全部36家超市的销售额之间差异
2. 随机误差(random error)—组内误差(within-group error)
▪ 由于抽样的随机性造成的误差 ▪ 反映样本内部数据之间的随机误差
3. 处 理 误 差 (treatment error)— 组 间 误 差 (between-group
构造检验的统计量F
1. 将组间方差MS组间除以组内方差MS组内即得到所 需要的检验统计量F
2. 当H0为真时,二者的比值服从分子自由度为k-1、 分母自由度为 n-k 的 F 分布,即
F MS组间 ~ F (k 1, n k)
MS组内
k ni
组间平方和 SS组间
(xi x)2
i1 j1
组内平方和
不同位置超市的平均销售额相等
意味着每个样本都来自均值为m、方差为 2的同一
正态总体
f(X)
7 - 20
m1 m2 m3 m4
X
2008年8月
统计学
STATISTICS (第三版)
方差分析中基本假定
若备择假设成立,即H1 :mi (i=1,2,3)不全相等
至少有一个总体的均值是不同的
3个样本分别来自均值不同的3个正态总体
单因子方差分析
(方差分析假定的判断)
概率图分析
7 - 32
2008年8月
统计学
STATISTICS (第三版)
用Excel进行方差分析
第1步:选择“工具 ”下拉菜单 第2步:选择【数据分析】选项 第3步:在分析工具中选择【单因子方差分析】 ,
然后选择【确定】 第4步:当对话框出现时
2. 检验方差分析的前提
3. 进行分析并做出决策
7 - 30
2008年8月
统计学
STATISTICS 源自文库第三版)
600 500 400 300 200 100
7 - 31
单因子方差分析
(方差分析假定的判断)
箱线图分析
好像不一样?
商业区
居民小区
写字楼
2008年8月
统计学
STATISTICS (第三版)
7 - 17
2008年8月
7.1 方差分析的基本原理
7.1.3 在什么样的前提下分析?
统计学
STATISTICS (第三版)
方差分析的基本假定
1. 正态性(normality)。每个总体都应服从正态分布,即对于 因子的每一个水平,其观测值是来自正态分布总体的简单 随机样本
在例7.1中,要求每个位置超市的销售额必须服从正态分布
k
SS组内
ni
(xij xi )2
i1 j1
7 - 26
2008年8月
统计学
STATISTICS (第三版)
做出决策
将统计量的值F与给定的显著性水平的临
界值F进行比较(或计算出统计量的P值), 做出决策
▪ 若P< ,拒绝原假设H0 ,表明均值之间的
差异是显著的,所检验的因子对观察值有显 著影响
检验总体是否服从正态分布的方法有很多,包括对样本数据作 直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以 进行非参数检验等
2. 方差齐性(homogeneity variance)。各个总体的方差必须 相同,对于分类变量的个水平,有12=22=…=k2
在例7.1中,要求不同位置超市的销售额的方差都相同
在2008年8月10日进 行 的 第 29 届 北 京 奥 运会女子团体射箭比 赛中,获得前3名的 运动队最后决赛的成 绩如下表所示
7-5
2008年8月
统计学
STATISTICS 不同运动队的平均成绩之间是否有显著差异?
(第三版)
每个队伍的24箭成绩可以看作是该队伍射箭成绩的一个 随机样本。获得金牌、银牌和铜牌的队伍之间的射箭成 绩是否有显著差异呢?
1. 只考虑一个分类型自变量影响的方差分析
比如,在例7.1中,只考虑超市位置一个因子 对销售额度影响,或者只考虑竞争者数量对销 售额的影响,都属于单因子方差分析
2. 分析步骤包括
提出假设 构造检验统计量 做出决策
7 - 24
2008年8月
统计学
STATISTICS (第三版)
提出假设
1. 一般提法
考虑所有的样本数据,一次检验即可判断多个总体的均值是否相 同,这不仅排除了犯错误的累积概率,也提高了检验的效率
7-6
2008年8月
第 7 章 方差分析与实验设计
7.1 方差分析的基本原理
7.1.1 什么是方差分析? 7.1.2 从误差分析入手 7.1.3 在什么样的前提下分析?
7.1 方差分析的基本原理
▪ 反映组间误差大小的平方和
• 比如,同位置超市销售额之间的误差平方和
▪ 既包括随机误差,也包括处理误差
7 - 14
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分解)
误差平方和的分解及其关系
总误差 = 随机误差 + 处理误差
总平方和 (SST)
组内平方和
组间平方和
=
3. 独立性(independence)。每个样本数据是来自因子各水平 的独立样本(该假定不满足对结果影响较大)
在例7.1中,3个样本数据是来自不同位置超市的3个独立样本
7 - 19
2008年8月
统计学
STATISTICS (第三版)
方差分析中基本假定
如果原假设成立,即H0 :m1=m2=m3
如果采用第6章介绍的假设检验方法,用分布做两两的比 较,则需要做次比较。这样做不仅繁琐,而且每次检验 犯第Ι类错误的概率都是,作多次检验会使犯第Ι类错误的 概率相应地增加,检验完成时,犯第Ι类错误的概率会大 于。同时,随着检验的次数的增加,偶然因素导致差别 的可能性也会增加
采用方差分析方法很容易解决这样的问题,它是同时考 虑所有的样本数据,一次检验即可判断多个总体的均值 是否相同,这不仅排除了犯错误的累积概率,也提高了 检验的效率方差分析方法就很容易解决这样的问题,它是同时
+
(SS组内)
(SS组间)
7 - 15
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分析)
1. 误差的大小用均方(mean square)来表示,也称为 方差(variance)
平方和除以相应的自由度
总平方和(SST)的自由度为n-1;组内平方和(SS组内) 的自由度为n-k ;组间平方和(SS组间)的自由度为k-1
反映全部数据总误差大小的平方和
抽取的全部36家超市销售额之间的误差平方和
3. 组内平方和(within-group sum of squares)记为SS组内 ▪ 反映组内误差大小的平方和
• 比如,每个位置超市销售额的误差平方和
▪ 只包含随机误差 4. 组间平方和(between-group sum of squares)记为SS组间
统计学
STATISTICS (第三版)
什么是方差分析(ANOVA)?
(analysis of variance)
1. 方差分析的基本原理是在20世纪20年代由英国统计 学家Ronald A.Fisher在进行实验设计时为解释实验 数据而首先引入的
2. 检验多个总体均值是否相等
1. 判断原假设是否成立,就是判断组间方差与组 内方差是否有显著差异
2. 若原假设成立,组间均方与组内均方的数值就 应该很接近,它们的比值就会接近1
3. 若原假设不成立,组间均方会大于组内均方, 它们之间的比值就会大于1
4. 当这个比值大到某种程度时,就可以说不同水 平之间存在着显著差异,即自变量对因变量有 影响
2. 组内平方和除以相应的自由度结果称为组内方差 (within-group variance);组间平方和除以相应的 自 由 度 结 果 称 为 组 间 方 差 (between-group
variance)
7 - 16
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分析)
统计学
(第三版)
统计学
STATISTICS (第三版)
统计名言
警惕过多地假设检验。你对数据越 苛求,数据会越多地向你供认,但 在威逼下得到的供词,在科学询查 的法庭上是不容许的。
——Stephen M.Stigler
7-2
2008年8月
第 7 章 方差分析与实验设计
7.1 方差分析的基本原理 7.2 单因子方差分析 7.3 双因子方差分析 7.4 实验设计初步
▪ H0 :m1 = m2 =…= mk
• 自变量对因变量没有显著影响
▪ H1 :m1 ,m2 ,… ,mk不全相等
• 自变量对因变量有显著影响
2. 注意:拒绝原假设,只表明至少有两个总 体的均值不相等,并不意味着所有的均值 都不相等
7 - 25
2008年8月
统计学
STATISTICS (第三版)
2. 方差分析要解决的问题就是判断超市的位置对销售额是 否有显著影响。设商业区、居民小区和写字楼3个位置超 市的销售额均值是否相同
7 - 11
2008年8月
7.1 方差分析的基本原理
7.1.2 从误差分析入手
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分解)
1. 总误差(total error)
统计学
STATISTICS (第三版)
什么是方差分析?
(例题分析)
【 例 】确定超市的位置和竞争者的数量对销售额是否有 显著影响,获得的年销售额数据(单位:万元)如下表
因子
7 - 10
水平或处理
样本数据
2008年8月
统计学
STATISTICS (第三版)
什么是方差分析?
(例题分析)
1. 如果只考虑“超市位置”对销售额是否有显著影响,实 际上也就是要判断不同位置超市的销售额均值是否相同
【例】检验 超市位 置对销 售额是 否有显 著影响
(=0.05)
单因子方差分析
(例题分析)
7 - 29
2008年8月
统计学
STATISTICS (第三版)
单因子方差分析
(例题分析)
1. 提出假设。设不同位置超市销售额的均值分
别为m1(商业区)、 m2(居民小区)和m3 (写字楼) ,
提出的假设为
▪ H0 :m1 m2 m3 ▪ H1 :m1 , m2 , m3 不全相等
▪ 通过分析数据的误差判断各总体均值是否相等
3. 研究分类型自变量对数值型因变量的影响
▪ 一个或多个分类型自变量
两个或多个 (k 个) 处理水平或分类
▪ 一个数值型因变量
4. 有单因子方差分析和双因子方差分析
单因子方差分析:涉及一个分类的自变量 双因子方差分析:涉及两个分类的自变量
7-9
2008年8月
若它们的均值相同,意味着“超市位置”对销售额没有显著影 响;若均值不全相同,则意味着“超市位置”对销售额有显著 影响
“超市位置”就是分类自变量,“销售额”则是数值因变量。 “超市位置”是要检验的对象,称为因子(factor),商业区、居 民小区、写字楼是因子的3个取值,称为水 平(level)或处 理 (treatment)。每个因子水平下得到的销售额为样本观测值
error)
▪ 不同的处理影响所造成的误差 ▪ 反映样本之间数据的差异
7 - 13
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分解)
1. 数据的误差用平方和(sum of squares)表示,记为SS
2. 总平方和(sum of squares for total)记为SST
统计学
STATISTICS (第三版)
学习目标
方差分析的基本思想和原理 单因子方差分析 多重比较 双因子方差分析的方法 实验设计方法与数据分析
7-4
2008年8月
统计学
STATISTICS 不同运动队的平均成绩之间是否有显著差异?
(第三版)
奥运会女子团体射箭 比赛,每个对有3名 运动员。进入最后决 赛的运动队需要进行 4组射击,每个队员 进行两次射击。这样, 每个组共射出6箭, 4组共射出24箭
f(X)
7 - 21
m1 m2 m3
X
2008年8月
第 7 章 方差分析与实验设计
7.2 单因子方差分析
7.2.1 检验步骤 7.2.2 关系有多强? 7.2.3 哪些均值之间有显著差异?
7.2 单因子方差分析
7.2.1 检验步骤
统计学
STATISTICS (第三版)
单因子方差分析
(one-way analysis of variance)
▪ 若F>F ,不拒绝原假设H0 ,无证据表明所
检验的因子对观察值有显著影响
7 - 27
2008年8月
统计学
STATISTICS (第三版)
作出决策 (F分布与拒绝域)
如果均值相等, F=MS组间/MS组内1
不拒绝H0
拒绝H0
0
F
F(k-1,n-k)
F 分布
7 - 28
2008年8月
统计学
STATISTICS (第三版)
▪ 反映全部观测数据的误差称 ▪ 所抽取的全部36家超市的销售额之间差异
2. 随机误差(random error)—组内误差(within-group error)
▪ 由于抽样的随机性造成的误差 ▪ 反映样本内部数据之间的随机误差
3. 处 理 误 差 (treatment error)— 组 间 误 差 (between-group
构造检验的统计量F
1. 将组间方差MS组间除以组内方差MS组内即得到所 需要的检验统计量F
2. 当H0为真时,二者的比值服从分子自由度为k-1、 分母自由度为 n-k 的 F 分布,即
F MS组间 ~ F (k 1, n k)
MS组内
k ni
组间平方和 SS组间
(xi x)2
i1 j1
组内平方和
不同位置超市的平均销售额相等
意味着每个样本都来自均值为m、方差为 2的同一
正态总体
f(X)
7 - 20
m1 m2 m3 m4
X
2008年8月
统计学
STATISTICS (第三版)
方差分析中基本假定
若备择假设成立,即H1 :mi (i=1,2,3)不全相等
至少有一个总体的均值是不同的
3个样本分别来自均值不同的3个正态总体
单因子方差分析
(方差分析假定的判断)
概率图分析
7 - 32
2008年8月
统计学
STATISTICS (第三版)
用Excel进行方差分析
第1步:选择“工具 ”下拉菜单 第2步:选择【数据分析】选项 第3步:在分析工具中选择【单因子方差分析】 ,
然后选择【确定】 第4步:当对话框出现时
2. 检验方差分析的前提
3. 进行分析并做出决策
7 - 30
2008年8月
统计学
STATISTICS 源自文库第三版)
600 500 400 300 200 100
7 - 31
单因子方差分析
(方差分析假定的判断)
箱线图分析
好像不一样?
商业区
居民小区
写字楼
2008年8月
统计学
STATISTICS (第三版)
7 - 17
2008年8月
7.1 方差分析的基本原理
7.1.3 在什么样的前提下分析?
统计学
STATISTICS (第三版)
方差分析的基本假定
1. 正态性(normality)。每个总体都应服从正态分布,即对于 因子的每一个水平,其观测值是来自正态分布总体的简单 随机样本
在例7.1中,要求每个位置超市的销售额必须服从正态分布
k
SS组内
ni
(xij xi )2
i1 j1
7 - 26
2008年8月
统计学
STATISTICS (第三版)
做出决策
将统计量的值F与给定的显著性水平的临
界值F进行比较(或计算出统计量的P值), 做出决策
▪ 若P< ,拒绝原假设H0 ,表明均值之间的
差异是显著的,所检验的因子对观察值有显 著影响
检验总体是否服从正态分布的方法有很多,包括对样本数据作 直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以 进行非参数检验等
2. 方差齐性(homogeneity variance)。各个总体的方差必须 相同,对于分类变量的个水平,有12=22=…=k2
在例7.1中,要求不同位置超市的销售额的方差都相同
在2008年8月10日进 行 的 第 29 届 北 京 奥 运会女子团体射箭比 赛中,获得前3名的 运动队最后决赛的成 绩如下表所示
7-5
2008年8月
统计学
STATISTICS 不同运动队的平均成绩之间是否有显著差异?
(第三版)
每个队伍的24箭成绩可以看作是该队伍射箭成绩的一个 随机样本。获得金牌、银牌和铜牌的队伍之间的射箭成 绩是否有显著差异呢?
1. 只考虑一个分类型自变量影响的方差分析
比如,在例7.1中,只考虑超市位置一个因子 对销售额度影响,或者只考虑竞争者数量对销 售额的影响,都属于单因子方差分析
2. 分析步骤包括
提出假设 构造检验统计量 做出决策
7 - 24
2008年8月
统计学
STATISTICS (第三版)
提出假设
1. 一般提法
考虑所有的样本数据,一次检验即可判断多个总体的均值是否相 同,这不仅排除了犯错误的累积概率,也提高了检验的效率
7-6
2008年8月
第 7 章 方差分析与实验设计
7.1 方差分析的基本原理
7.1.1 什么是方差分析? 7.1.2 从误差分析入手 7.1.3 在什么样的前提下分析?
7.1 方差分析的基本原理
▪ 反映组间误差大小的平方和
• 比如,同位置超市销售额之间的误差平方和
▪ 既包括随机误差,也包括处理误差
7 - 14
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分解)
误差平方和的分解及其关系
总误差 = 随机误差 + 处理误差
总平方和 (SST)
组内平方和
组间平方和
=
3. 独立性(independence)。每个样本数据是来自因子各水平 的独立样本(该假定不满足对结果影响较大)
在例7.1中,3个样本数据是来自不同位置超市的3个独立样本
7 - 19
2008年8月
统计学
STATISTICS (第三版)
方差分析中基本假定
如果原假设成立,即H0 :m1=m2=m3
如果采用第6章介绍的假设检验方法,用分布做两两的比 较,则需要做次比较。这样做不仅繁琐,而且每次检验 犯第Ι类错误的概率都是,作多次检验会使犯第Ι类错误的 概率相应地增加,检验完成时,犯第Ι类错误的概率会大 于。同时,随着检验的次数的增加,偶然因素导致差别 的可能性也会增加
采用方差分析方法很容易解决这样的问题,它是同时考 虑所有的样本数据,一次检验即可判断多个总体的均值 是否相同,这不仅排除了犯错误的累积概率,也提高了 检验的效率方差分析方法就很容易解决这样的问题,它是同时
+
(SS组内)
(SS组间)
7 - 15
2008年8月
统计学
STATISTICS (第三版)
方差分析的基本原理
(误差分析)
1. 误差的大小用均方(mean square)来表示,也称为 方差(variance)
平方和除以相应的自由度
总平方和(SST)的自由度为n-1;组内平方和(SS组内) 的自由度为n-k ;组间平方和(SS组间)的自由度为k-1
反映全部数据总误差大小的平方和
抽取的全部36家超市销售额之间的误差平方和
3. 组内平方和(within-group sum of squares)记为SS组内 ▪ 反映组内误差大小的平方和
• 比如,每个位置超市销售额的误差平方和
▪ 只包含随机误差 4. 组间平方和(between-group sum of squares)记为SS组间