第十章 方差分析cjm
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 检验饮料的颜色对销售量是否有影响,也就 是检验四种颜色饮料的平均销售量是否相同 • 设 1 为无色饮料的平均销售量, 2 粉色饮料 的平均销售量, 3 为橘黄色饮料的平均销售 量, 4 为绿色饮料的平均销售量,也就是检 验下面的假设 H0: 1 2 3 4 H1: 1 , 2 , 3 , 4 不全相等 • 检验上述假设所采用的方法就是方差分析
——反映全部观察数据的差异程度。
SST y ij y
i 1 j 1
k
ni
2
方差分析的基本思想和原理
(方差的分解——续)
2. 组内平方和
——各水平内部的观察值与该水平均值的离差平方和。
SSE
2 y y ij i k i 1 j 1
ni
• 反映同一水平下样本观察值的差异程度,所以不包 含系统误差,只包含随机误差。 • 比如,同种颜色的饮料的销售量差异。
方差分析的基本思想和原理
(方差的分解——续) • 3. 组间平方和
– —各组平均数与总平均数的离差平方和。
SSA y i y ni y i y
2 i 1 j 1 i 1
k
ni
k
2
– – –
反映因素的不同水平 ( 不同总体 ) 下各样本均 值之间的差异; 既包括随机误差,也包括系统误差; 如四种颜色的饮料平均销售量之间的差异
方差
总方差分解
不可解释的方差
定距测量 层次:用 均值预测 所导致的 全部误差
可解释的方差 F比值= 不可解释的方差
方差F比值的意义
• F比值愈大,表示可解释掉的误差越多, 说明X与Y在总体中愈可能是相关的。 • F比值究竟大到什么程度可以通过检验, 这就需要借助F分布表。 • 因为F值满足F抽样分布曲线,所以可以 直接借助F分布,判断X与Y总体中是否 相关。
将 MSA 和 MSE 进行对比,即得到所需要的检验统计 量F;
当 H0 为真时,二者的比值服从分子自由度为 k-1 、分 母自由度为 n-k 的 F 分布,即 :
M SA F ~ F ( k 1, n k ) M SE
3. 计算检验的统计量值
(上例的计算过程 )
三种班次工人的劳动效率及均值
三、方差分析的基本思想和原理
(几个基本概念)
1.因素或因子 所要检验的对象称为因子 在上例中,颜色就是要检验的因素或因子。 2.水平 因素的具体表现称为水平(也称为类别或处理方案) . 在上例中四种颜色就是因素的四个水平。 3.观察值 在第 i 个水平下的 j 个观察值,记为 yij 上例中,每种颜色的销售量就是观察值.
百度文库
三、方差分析中基本假定
• 如果原假设成立,即H0: 1 = 2 = 3 = 4
– 四种颜色饮料销售的均值都相等 – 没有系统误差
•
这意味着每个样本都来自均值为、方差为 2的同一正态总体
f(X)
1 2 3 4
X
方差分析中基本假定
• 如果备择假设成立,即H1: i (i=1,2,3,4)不全相 等
方差分析就是检验定类变量和定距变量之间的关系。
【例】某饮料生产企业研制出一种新型饮料。饮料的颜色
共有四种,分别为橘黄色、粉色、绿色和无色透明。这四 种饮料的营养含量、味道、价格、包装等可能影响销售量 的因素全部相同。现从地理位置相似、经营规模相仿的五 家超级市场上收集了前一时期该饮料的销售情况,见表。 试分析饮料的颜色是否对销售量产生影响
方差分析的基本思想
(方差的比较)
1. 如果不同水平(颜色)对结果(销售量)没有影
响,那么在组间方差中只包含有随机误差,而没 有系统误差。这时,组间方差与组内方差就应该 很接近,两个方差的比值就会接近1; 反之,如果不同的水平对结果有影响,在组间方 差中除了包含随机误差外,还会包含有系统误差 ,这时组间方差就会显著地大于组内方差,组间 方差与组内方差之间的比值就会大于1; 当这个比值大到某种程度时,就可以说不同水平 的总体均值之间存在显著差异(存在系统误差).
方差分析中的基本假定
1. 在上述假定条件下,判断颜色对销售量是否有 显著影响,实际上也就是检验具有同方差的四 个正态总体的均值是否相等的问题 2. 如果四个总体的均值相等,可以期望四个样本 的均值也会很接近 四个样本的均值越接近,我们推断四个总体均值
相等的证据也就越充分 样本均值越不同,我们推断总体均值不同的证据 就越充分
工人 ( j ) 1 2 早班 34 37 中班 49 47 晚班 39 40
3
4 5 6 7
35
33 33 35 36
51
48 50 51 51
y2=49.571
42
39 41 42 40
y3=40.429
各水平均值
y1 =34.714
y =41.571
SST
y ij y
2 SSE y ij y i
i
4. 计算 k n 检验的统计量值(续)
i 1 j 1
= (34-34.714)2 +… +(49-49.571)2 +...+(40-40.429)2=38.857
MSA SSA /( k 1) F MSE SSE /( n k )
方差分析的基本思想和原理
(几个基本概念)
试验 每一次随机抽样可看成一次随机试验 这里只涉及一个因素,因此称为单因素试验。 总体 因素的每一个水平可以看作是一个总体; 比如上例中四种颜色可以看作是四个总体。 样本数据 上面的数据可以看作是从这四个总体中抽取的样本数据
观察值的两种误差
• 设各水平下的观察值表示为:
3. 检验上述假设就需要采用方差分析。
1. 提出假设
一般提法
H0: 1 = 2 =…= k (因素有k个水平) H1: 1 、2 、… 、 k 不全相等
对上述例子
H0: 1 = 2 = 3
班次对劳动效率没有影响
H1: 1、2 、3 不全相等
班次对劳动效率有影响
2. 构造检验的统计量
一、什么是方差分析?
从两总体的均值差异比较说起: • 两总体的均值差异比较(第七章) 如果均值差异显著,说明? • 多个总体均值的差异比较呢?
方差分析与均值差异检验
方差分析是均值差检验的推广,一般可用于检 验定类变量与定距变量之间的关系。 其中,定类变量被看作是“自变量”,或者影 响因素变量,而定距变量则被看作“因变量”
786 .286 /(3 1) F 182 .118 38.857 /(21 3)
计算结果常常列为表格——方差分析表
方差 来源 组间A 组内E 总和
离差平方和
自由度
均方
F值
786.29 38.86
2
393.15 2.16
182.1
—
18
—
825.15
—
5. 统计决策
将统计量的值 F 与给定的显著性水平 的临界值 F ( k-1,n-k )进行比较,作出接受或拒绝原 假设H0的决策。
比如,对任一饮料来说,不同颜色的销量可
能都有明显差异,这可能是由于所研究因素 ——颜色不同而造成的
观察值的两种误差(续)
2.随机误差 由于偶然因素而产生的差异,或者说是由于抽 样的随机性所造成的。 即在因素的同一水平(同一个总体)下,样本 的各观察值之间的差异; 比如,同一种颜色的饮料的销售量是有差异的
例2某工厂实行早、中、晚三班工作制。工厂管理部 门想了解不同班次工人劳动效率是否存在明显的差异。 每个班次随机抽出了7个工人,得工人的劳动效率资料 (件/人)如表。分析不同班次工人的劳动效率是否有 显著性差异。
序号 1 2 3 早班 34 37 35 中班 49 47 51 晚班 39 40 42
yij i ij
=该水平的总体均值+ 随机项
所有观察值 yij 之间的差异,可能来源于 两个方面:
观察值的两种误差(续)
1.系统误差(条件误差)
各水平的总体均值不同,从而导致了各水平
下的样本观察值也有差异;
由于所研究因素改变而产生的试验结果的差
异,即在因素的不同水平(总体)下,各观 察值间的差异;
2.
3.
第二节 单因素方差分析
• 一、分析步骤 • 提出假设 • 构造检验的统计量 • 给定检验的显著性水平 • 计算检验统计量的值 • 统计决策(结论)
方差分析中的基本假定
1. 每个总体都应服从正态分布 对于因素的每一个水平,其观察值是来自服从正 态分布总体的简单随机样本 比如,每种颜色饮料的销售量必需服从正态分布 2. 各个总体的方差必须相同 对于各组观察数据,是从具有相同方差的总体中 抽取的 如四种颜色饮料的销售量的方差都相同 3. 观察值是独立的 如每个超市的销售量都与其他超市的销售量独立
观察值的两种误差(续)
方差分析就是要判断有无系统误差存在。
若观察值的差异不仅来源于随机误差,
也包含系统误差,则说明存在明显的因 素效应(即所研究因素不同水平下的总 体均值不全相等)。 为此,要对观察值的差异进行分析。
方差分析的基本思想和原理
(方差的分解)
1. 1.总离差平方和
——全部观察值与总平均数的离差平方和;
构造检验的统计量
1. 为检验H0是否成立,需确定检验的统计量 2. 构造统计量需要计算 水平的均值 全部观察值的总均值 SST:总离差平方和 SSR:组内平方和(剩余平方和):各个观
测值对本组平均值的离差平方和 SSB:组间平方和:观测值的组平均值对总 平均值的离差平方和
单因方差分析与F检验
i
计算过程(续) k n
2
i 1 j 1
= (34-41.571)2+…+(40-41.571)2=825.1429
SSA
y i i j
k
1 1
ni
y
2
ni y i i
k
1
y
2
= 7×(34.714-41.571)2 +...+7×(40.429 -41.571)2 =786.286
4
5 6 7
33
33 35 36
48
50 51 51
39
41 42 40
问题的提出
1. 检验班次对劳动效率是否有影响,也就是 检验三种班次的平均劳动效率是否相同; 2. 设三种班次的总体平均劳动效率分别为: 1
、2 、3 ,也就是检验下面的假设:
H0: 1 2 3
H1: 1 , 2 , 3 不全相等
第九章
方差分析
• 第一节 方差分析概述 • 第二节 单因素方差分析 • 第三节 多因素方差分析(略)
第一节 方差分析的概念与基本原理
一、什么是方差分析? 二、方差分析的基本思路 三、方差分析的基本假定
• • • •
方差分析适用范围:定类-定距变量 方差分析分类: 自变量的个数:单因素 多因素 因变量的个数:一元方差分析、二元方差 分析以及多元方差分析
– 基本逻辑: 将全部方差(以SST估计,自由度为:n-1)分 解为两个部分:消减方差(以SSB估计,自由度 为k-1)和剩余方差(以SSR估计,自由度为 n-k),然后从相互比较中推论X与Y在总体中 是否相关。 F=总体的消减误差/总体的剩余误差 即F=(SSB/df1)/(SSR/df2); 或F=组间方差/组内方差
– 至少有一个总体的均值是不同的 – 有系统误差
•
体
这意味着四个样本分别来自均值不同的四个正态总
f(X)
3 1 2 4
X
单因方差分析与F检验
• 单方差分析中的F检验: 通过对各观察数据误差来源的分析来判断 多个总体均值是否相等; 是参数检定法的一种;
– 目的:推算在各组总体中的均值是否相等。
,或者称为被分析的变量,定类变量的几个取
值往往被称为影响因素的几个水平或类别。
方差分析: 定类、序(自变量,x)——定距(因变量,y) 思考: 不同类别的总体均值差异显著,说明定类变 量与定距变量之间——? 不同类别的总体均值差异不显著,说明—— ?
定类与定距变量间的关系
举例: 地区与平均寿命之间的关系; 职业与人际交往频次的关系; 学校类型与学生成绩的关系; ……
表8-1 该饮料在五家超市的销售情况
超市
1 2 3 4 5
无色
26.5 28.7 25.1 29.1 27.2
粉色
31.2 28.3 30.8 27.9 29.6
橘黄色
27.9 25.1 28.5 24.2 26.5
绿色
30.8 29.6 32.4 31.7 32.8
二、方差分析的基本思想
可解释的方差