数学建模之方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一讲 方差分析
▪ 1.1 方差分析的概念 ▪ 1.2 单因素方差分析 ▪ 1.3 有交互作用的双因素方差分析 ▪ 1.4 无交互作用的双因素方差分析
1.1 方差分析的概念
一、问题的引入 在实际应用中,我们常常会遇到需要对两个
以及两个以上总体均值是否相等进行检验,从而 判断某一种因素对我们所研究的对象是否产生了 显著的影响。
2.估计未知参数1 , 2 , , s , 2 .
数学模型的等价形式
s个水平
记n
s
nj,
j1
1 n
s j 1
nj
j
.
总平均
水 平A j的 效 应,表示水平
A
下
j
的
总体
平均值与总
平均的差异.
j j , j 1,2, , s. n1 1 n2 2 ns s 0.
原数学模型 X ij j ij ,
j1
检验假设
等价于
H0 : 1 2 s , H1 : 1 , 2 , , s不全相等.
检验假设 H0 : 1 2 s 0, H1 : 1 , 2 , , s不全为零.
二、平方和的分解
X
1 n
s j 1
nj i 1
X ij
—数据的总平均
s nj
ST
( X ij X )2 —总离差平方和(总变差)
B=A'; % 将矩阵转置,Matlab中要求各列为不同水平
p=anova1(B)
运行后得到一表一图,表是方差分析表(重要); 图是各列数据的盒子图,离盒子图中心线较远的对应于 较大的F值,较小的概率p.
表中所列出的各项意义如下:
Source 方差来源
SS 平方和
df 自由度
MS均方差
Columns
s nj
2
( X ij X • j )( X • j X )
j1 i1
0
s nj
s nj
ST
( X ij X• j )2
(X•j X )2
j1 i1
j1 i1
SE SA
s nj
SE
( X ij X• j )2
j1 i1
组内平方和 —误差(残差)平方和
s nj
s
SA
X ij j ij ,
ij~N (0, 2 ),各 ij 独立 ,
i 1,2, ,nj , j 1,2, , s ,
j 与 2 均未知.
单因素试验方差分析的数学模型
需要解决的问题
1.检验假设
H0 : 1 2 s , H1 : 1 , 2 , , s不全相等.
输入X各列的元素相同,即各总体的样本大小相等, 称为均衡数据的方差分析,不均衡时用下面的命令
p=anova1(X,group)
输入:X是一个向量,从第一个总体的样本到第r个总 体的样本依次排列,group是与X有相同长度的向量, 表示X中的元素是如何分组的. group中某元素等于i,表 示X中这个位置的数据来自第i个总体.因此group中分 量必须取正整数,从1直到r.
2.水平:因子在实验中的不同状态。 如:例1中橘黄色、粉色、绿色和无色透明四
种颜色就是因素的四个水平。
3.交互影响:如果因子间存在相互作用,称之为 “交互影响”;如果因子间是相互独立的,则称 为无交互影响。
4.观察值:在每个因素不同水平下得到的样本值。 如例1中每种颜色饮料的销售量就是观察值。
三、方差分析的基本思想
ij~N (0, 2 ), 各 ij 独立,
i 1,2, ,nj , j 1,2, , s,
改写为
j 与 2 均未知.
X ij j ij ,
ij~N (0, 2 ), 各 ij 独立 ,
i 1,2, , nj , j 1,2, , s,
s
nj j 0.
例1:某饮料生产企业研制出一种新型饮料。饮料 的颜色共有四种,分别为橘黄色、粉色、绿色和无色 透明。这四种饮料的营养含量、味道、价格、包装等 可能影响销售量的因素全部相同。现从地理位置相似、 经营规模相仿的五家超级市场上收集了前一时期该饮 料的销售情况,见下表,试分析饮料的颜色是否对销 售量产生影响。
, X nj j来自具有相同方差 2 ,均值分别为 j ( j 1, 2, , s)的正态总体N ( j , 2 ), j与 2均未知;
2.不同水平Aj下的样本之间相互独立.
因为X ij~N ( j , 2 ), 所以X ij j~N (0, 2 ).
记X ij j ij ,表示随机误差,那么X ij可写成
nj i 1
X
2 ij
T•2• n
,
S A
s T•2j j1 n j
T•2• , n
SE ST SA .
四、单因素方差分析的Matlab实现
p=anova1(X) %比较X中各列数据的均值是否相等
此时输出的p是零假设成立时,数据的概率,当p<0.05 称差异是显著的,当p<0.01称差异是高度显著的.
该饮料在五家超市的销售情况
超市 无色 粉色 橘黄色 绿色
1
26.5
31.2
27.9
30.8
2
28.7
28.3
25.1
29.6
3
25.1
30.8
28.5
32.4
4
29.1
27.9
24.2
31.7
5
27.2
29.6
26.5
32.8
例2 某公司为了研究三种不同内容的广告宣传对某种 无季节性的大型机械的销售量是否有显著影响,经调查统 计,一年四个季度的销售量(单位:台)如下:
比如,同一家超市,不同颜色饮料的销售量也是不 同的。这种差异可能是由于抽样的随机性所造成的,也 可能是由于颜色本身所造成的,后者所形成的误差是由 系统性因素造成的,称为系统误差。
比较的基础是方差比
组内方差、组间方差 组内方差:因素的同一水平(同一个总体)下样本
数据的方差。
比如,无色饮料在5家超市销售数量的方差。组内方 差只包含随机误差
要原因,通常用A、B、C……表示。
如:要分析饮料的颜色对销售量是否有影响,颜色
是要检验的因素或因子.
又如:要分析新闻广告的内容对某种机械的销售量
是否有显著影响,新闻广告类型是所要检验的因素。
单因素方差分析:在实验中考察的因素只有一个。 双因素方差分析:在实验中考察的因素有两个。 多因素方差分析:在实验中考察的因素有两个以上。
▪ 方差分析:在若干个能够相互比较的资料组中, 判别各组资料是否存在差异以及分析差异原因的 方法和技术。
▪ 方差分析由英国统计学家R.A.Fisher首创,为纪 念Fisher,方差分析又称 F 检验 (F test)。用 于推断多个总体均值有无差异
二、基本概念
可以控制 的试验条
1.因素又称因子,指需要考察的引起数件据变动的主
j1 i1
1 nj
X•j
nj
X ij
i 1
— 水平Aj下的样本平均值
s nj
ST
( X ij X )2
j1 i1
s nj
[( X ij X • j ) ( X • j X )]2
j1 i1
s nj
s nj
( X ij X• j )2
(X•j X )2
j1 i1
j1 i1
所以 H0 为真时 ,
组间均 方差 S A
组内均
SA (s 1) S A 2 SE 2 ~F (s 1, n s).
SE (n s) (s 1) (n s)
方差SE
检验假设 H0 : 1 2 s 0, H1 : 1 , 2 , , s不全为零.
拒绝域为
F
SA SE
(s 1) (n s)
(X•j X )2 nj (X•j X )2
j1 i1
j 1
s
n j X • j 2 nX 2 —组间离差平方和(效应平方和)
j1
s nj
ST
( X ij X )2
j1 i1
▪ ST是全部观察值与总平均值的离差平方和,反映 全部观察值的离散状况,从而反映了全部数据总
的误差程度。
s nj
1,2, , s)下,进行nj (nj 2)次独立试验,得到如下表
的结果.
表1
观察结果 水平
A1
A2
As
X 11
X 12
XFra Baidu biblioteks
X 21
X 22
X 2s
X n11
X n2 2
样本总和
T•1
T•2
样本均值 总体均值
X1•1
X
•2 2
X nss T•s X •s
s
假设 1.各个水平Aj ( j 1,2, , s)下的样本X1 j , X 2 j ,
F (s 1,n
s).
单因素试验方差分析表
方差来源 平方和 自由度 均 方
F比
因 素A S A
s1
SA
SA s1
F SA SE
误
差 SE
n s
SE
SE ns
总 和 ST n 1
nj
s nj
记 T• j X ij , j 1, , s,T••
X ij ,
i 1
j1 i1
ST
s j1
• 组间方差:因素的不同水平(不同总体)下各样 本之间的方差
比如,例1中橘黄色、粉色、绿色和无色 透明四种颜色饮料销售量之间的方差。组间 方差既包括随机误差,也包括系统误差。
▪ 方差的比较
如果不同颜色(水平)对销售量(结果)没有影响, 那么在组间方差中只包含有随机误差,而没有 系统误差。这时,组间方差与组内方差就应该 很接近,两个方差的比值就会接近1。
▪ 如果不同的水平对结果有影响,在组间方差 中除了包含随机误差外,还会包含有系统误差, 这时组间方差就会大于组内方差,组间方差与 组内方差的比值就会大于1。
▪ 当这个比值大到某种程度时,就可以说不同
水平之间存在着显著差异。
四、基本假定
1.每个总体都应服从正态分布
• 对于因素的每一个水平,其观察值是来自服从正态分
比较两类误差 以检验均值是否相等
随机误差和系统误差
随机误差:在因素的同一水平(同一个总体)下, 样本的各观察值之间的差异。
比如,同一种颜色的饮料在不同超市上的销售量 是不同的。不同超市销售量的差异可以看成是随机因 素的影响,或者说是由于抽样的随机性所造成的,称 为随机误差 。
系统误差:在因素的不同水平(不同总体)下,各观 察值之间的差异。
▪ 反之,如果波动的主要部分来自组内方差,则因 子的影响就不明显,没有充足理由认为因子对实验或 抽样的结果有显著作用。
▪ 判断因子的不同水平是否对其观察值有影响,实 际上就是比较组间方差与组内方差之间差异的大小。
▪ 检验这种差异,需要构造一个用于检验的统计量。
三、假设检验
因为H0为真时, SA / 2~ 2 (s 1), SE 2~ 2 (n s),
广告类型 第一季度 第二季度 第三季度 第四季度
A1
163
176
170
185
A2
184
198
179
190
A3
206
191
218
224
A1是强调运输方便性的广告,A2是强调节省燃料的经 济性的广告,A3是强调噪音低的优良性的广告.试判断:新 闻广告的类型对该种机械的销售量是否有显著影响?若影 响显著,哪一种广告内容为好?
布总体的简单随机样本
• 比如,每种颜色饮料的销售量必须服从正态分布
2.各个总体的方差必须相同
• 对于各组观察数据,是从具有相同方差的总体中抽取
的。
• 比如,四种颜色饮料的销售量的方差都相同。
3.不同水平下的样本相互独立
1.2 单因素方差分析
一、数学模型
设因素A有s个水平A1 , A2 , , As ,在水平Aj ( j
s
SA
(X•j X )2 nj (X•j X )2
j1 i1
j 1
▪ SA既包括随机误差,也包括系统误差,反映的是 随机误差和系统误差的大小。
ST SA SE
总误差平方和=组间误差平方和+组内误差平方和 ▪ 如果组间方差明显高于组内方差,说明样本数据
波动的主要来源是组间方差,因子是引起波动的主要 原因,可认为因子对实验的结果存在显著的影响;
例1 某水产研究所为了比较四种不同配合饲料对 鱼的饲喂效果,选取了条件基本相同的鱼20尾, 随机分成四组,投喂不同饲料,经一个月试验以 后,各组鱼的增重结果列于下表。
表1 饲喂不同饲料的鱼的增(单位:10g)
饲料
鱼的增重(xij)
A1 31.9 27.9 31.8 28.4 35.9
A2 24.8 25.7 26.8 27.9 26.2
SSA
(因素A组间)
r-1
SS/(r-1)
Error误差
A3 22.1 23.6 27.3 24.9 25.8
A4 27.0 30.8 29.0 24.5 28.5
四种不同饲料对鱼的增重效果是否显著 ?
解:这是单因素均衡数据的方差分析,Matlab程序 如下:
A=[31.9 27.9 31.8 28.4 35.9 24.8 25.7 26.8 27.9 26.2 22.1 23.6 27.3 24.9 25.8 27.0 30.8 29.0 24.5 28.5]; %原始数据输入
▪ 1.1 方差分析的概念 ▪ 1.2 单因素方差分析 ▪ 1.3 有交互作用的双因素方差分析 ▪ 1.4 无交互作用的双因素方差分析
1.1 方差分析的概念
一、问题的引入 在实际应用中,我们常常会遇到需要对两个
以及两个以上总体均值是否相等进行检验,从而 判断某一种因素对我们所研究的对象是否产生了 显著的影响。
2.估计未知参数1 , 2 , , s , 2 .
数学模型的等价形式
s个水平
记n
s
nj,
j1
1 n
s j 1
nj
j
.
总平均
水 平A j的 效 应,表示水平
A
下
j
的
总体
平均值与总
平均的差异.
j j , j 1,2, , s. n1 1 n2 2 ns s 0.
原数学模型 X ij j ij ,
j1
检验假设
等价于
H0 : 1 2 s , H1 : 1 , 2 , , s不全相等.
检验假设 H0 : 1 2 s 0, H1 : 1 , 2 , , s不全为零.
二、平方和的分解
X
1 n
s j 1
nj i 1
X ij
—数据的总平均
s nj
ST
( X ij X )2 —总离差平方和(总变差)
B=A'; % 将矩阵转置,Matlab中要求各列为不同水平
p=anova1(B)
运行后得到一表一图,表是方差分析表(重要); 图是各列数据的盒子图,离盒子图中心线较远的对应于 较大的F值,较小的概率p.
表中所列出的各项意义如下:
Source 方差来源
SS 平方和
df 自由度
MS均方差
Columns
s nj
2
( X ij X • j )( X • j X )
j1 i1
0
s nj
s nj
ST
( X ij X• j )2
(X•j X )2
j1 i1
j1 i1
SE SA
s nj
SE
( X ij X• j )2
j1 i1
组内平方和 —误差(残差)平方和
s nj
s
SA
X ij j ij ,
ij~N (0, 2 ),各 ij 独立 ,
i 1,2, ,nj , j 1,2, , s ,
j 与 2 均未知.
单因素试验方差分析的数学模型
需要解决的问题
1.检验假设
H0 : 1 2 s , H1 : 1 , 2 , , s不全相等.
输入X各列的元素相同,即各总体的样本大小相等, 称为均衡数据的方差分析,不均衡时用下面的命令
p=anova1(X,group)
输入:X是一个向量,从第一个总体的样本到第r个总 体的样本依次排列,group是与X有相同长度的向量, 表示X中的元素是如何分组的. group中某元素等于i,表 示X中这个位置的数据来自第i个总体.因此group中分 量必须取正整数,从1直到r.
2.水平:因子在实验中的不同状态。 如:例1中橘黄色、粉色、绿色和无色透明四
种颜色就是因素的四个水平。
3.交互影响:如果因子间存在相互作用,称之为 “交互影响”;如果因子间是相互独立的,则称 为无交互影响。
4.观察值:在每个因素不同水平下得到的样本值。 如例1中每种颜色饮料的销售量就是观察值。
三、方差分析的基本思想
ij~N (0, 2 ), 各 ij 独立,
i 1,2, ,nj , j 1,2, , s,
改写为
j 与 2 均未知.
X ij j ij ,
ij~N (0, 2 ), 各 ij 独立 ,
i 1,2, , nj , j 1,2, , s,
s
nj j 0.
例1:某饮料生产企业研制出一种新型饮料。饮料 的颜色共有四种,分别为橘黄色、粉色、绿色和无色 透明。这四种饮料的营养含量、味道、价格、包装等 可能影响销售量的因素全部相同。现从地理位置相似、 经营规模相仿的五家超级市场上收集了前一时期该饮 料的销售情况,见下表,试分析饮料的颜色是否对销 售量产生影响。
, X nj j来自具有相同方差 2 ,均值分别为 j ( j 1, 2, , s)的正态总体N ( j , 2 ), j与 2均未知;
2.不同水平Aj下的样本之间相互独立.
因为X ij~N ( j , 2 ), 所以X ij j~N (0, 2 ).
记X ij j ij ,表示随机误差,那么X ij可写成
nj i 1
X
2 ij
T•2• n
,
S A
s T•2j j1 n j
T•2• , n
SE ST SA .
四、单因素方差分析的Matlab实现
p=anova1(X) %比较X中各列数据的均值是否相等
此时输出的p是零假设成立时,数据的概率,当p<0.05 称差异是显著的,当p<0.01称差异是高度显著的.
该饮料在五家超市的销售情况
超市 无色 粉色 橘黄色 绿色
1
26.5
31.2
27.9
30.8
2
28.7
28.3
25.1
29.6
3
25.1
30.8
28.5
32.4
4
29.1
27.9
24.2
31.7
5
27.2
29.6
26.5
32.8
例2 某公司为了研究三种不同内容的广告宣传对某种 无季节性的大型机械的销售量是否有显著影响,经调查统 计,一年四个季度的销售量(单位:台)如下:
比如,同一家超市,不同颜色饮料的销售量也是不 同的。这种差异可能是由于抽样的随机性所造成的,也 可能是由于颜色本身所造成的,后者所形成的误差是由 系统性因素造成的,称为系统误差。
比较的基础是方差比
组内方差、组间方差 组内方差:因素的同一水平(同一个总体)下样本
数据的方差。
比如,无色饮料在5家超市销售数量的方差。组内方 差只包含随机误差
要原因,通常用A、B、C……表示。
如:要分析饮料的颜色对销售量是否有影响,颜色
是要检验的因素或因子.
又如:要分析新闻广告的内容对某种机械的销售量
是否有显著影响,新闻广告类型是所要检验的因素。
单因素方差分析:在实验中考察的因素只有一个。 双因素方差分析:在实验中考察的因素有两个。 多因素方差分析:在实验中考察的因素有两个以上。
▪ 方差分析:在若干个能够相互比较的资料组中, 判别各组资料是否存在差异以及分析差异原因的 方法和技术。
▪ 方差分析由英国统计学家R.A.Fisher首创,为纪 念Fisher,方差分析又称 F 检验 (F test)。用 于推断多个总体均值有无差异
二、基本概念
可以控制 的试验条
1.因素又称因子,指需要考察的引起数件据变动的主
j1 i1
1 nj
X•j
nj
X ij
i 1
— 水平Aj下的样本平均值
s nj
ST
( X ij X )2
j1 i1
s nj
[( X ij X • j ) ( X • j X )]2
j1 i1
s nj
s nj
( X ij X• j )2
(X•j X )2
j1 i1
j1 i1
所以 H0 为真时 ,
组间均 方差 S A
组内均
SA (s 1) S A 2 SE 2 ~F (s 1, n s).
SE (n s) (s 1) (n s)
方差SE
检验假设 H0 : 1 2 s 0, H1 : 1 , 2 , , s不全为零.
拒绝域为
F
SA SE
(s 1) (n s)
(X•j X )2 nj (X•j X )2
j1 i1
j 1
s
n j X • j 2 nX 2 —组间离差平方和(效应平方和)
j1
s nj
ST
( X ij X )2
j1 i1
▪ ST是全部观察值与总平均值的离差平方和,反映 全部观察值的离散状况,从而反映了全部数据总
的误差程度。
s nj
1,2, , s)下,进行nj (nj 2)次独立试验,得到如下表
的结果.
表1
观察结果 水平
A1
A2
As
X 11
X 12
XFra Baidu biblioteks
X 21
X 22
X 2s
X n11
X n2 2
样本总和
T•1
T•2
样本均值 总体均值
X1•1
X
•2 2
X nss T•s X •s
s
假设 1.各个水平Aj ( j 1,2, , s)下的样本X1 j , X 2 j ,
F (s 1,n
s).
单因素试验方差分析表
方差来源 平方和 自由度 均 方
F比
因 素A S A
s1
SA
SA s1
F SA SE
误
差 SE
n s
SE
SE ns
总 和 ST n 1
nj
s nj
记 T• j X ij , j 1, , s,T••
X ij ,
i 1
j1 i1
ST
s j1
• 组间方差:因素的不同水平(不同总体)下各样 本之间的方差
比如,例1中橘黄色、粉色、绿色和无色 透明四种颜色饮料销售量之间的方差。组间 方差既包括随机误差,也包括系统误差。
▪ 方差的比较
如果不同颜色(水平)对销售量(结果)没有影响, 那么在组间方差中只包含有随机误差,而没有 系统误差。这时,组间方差与组内方差就应该 很接近,两个方差的比值就会接近1。
▪ 如果不同的水平对结果有影响,在组间方差 中除了包含随机误差外,还会包含有系统误差, 这时组间方差就会大于组内方差,组间方差与 组内方差的比值就会大于1。
▪ 当这个比值大到某种程度时,就可以说不同
水平之间存在着显著差异。
四、基本假定
1.每个总体都应服从正态分布
• 对于因素的每一个水平,其观察值是来自服从正态分
比较两类误差 以检验均值是否相等
随机误差和系统误差
随机误差:在因素的同一水平(同一个总体)下, 样本的各观察值之间的差异。
比如,同一种颜色的饮料在不同超市上的销售量 是不同的。不同超市销售量的差异可以看成是随机因 素的影响,或者说是由于抽样的随机性所造成的,称 为随机误差 。
系统误差:在因素的不同水平(不同总体)下,各观 察值之间的差异。
▪ 反之,如果波动的主要部分来自组内方差,则因 子的影响就不明显,没有充足理由认为因子对实验或 抽样的结果有显著作用。
▪ 判断因子的不同水平是否对其观察值有影响,实 际上就是比较组间方差与组内方差之间差异的大小。
▪ 检验这种差异,需要构造一个用于检验的统计量。
三、假设检验
因为H0为真时, SA / 2~ 2 (s 1), SE 2~ 2 (n s),
广告类型 第一季度 第二季度 第三季度 第四季度
A1
163
176
170
185
A2
184
198
179
190
A3
206
191
218
224
A1是强调运输方便性的广告,A2是强调节省燃料的经 济性的广告,A3是强调噪音低的优良性的广告.试判断:新 闻广告的类型对该种机械的销售量是否有显著影响?若影 响显著,哪一种广告内容为好?
布总体的简单随机样本
• 比如,每种颜色饮料的销售量必须服从正态分布
2.各个总体的方差必须相同
• 对于各组观察数据,是从具有相同方差的总体中抽取
的。
• 比如,四种颜色饮料的销售量的方差都相同。
3.不同水平下的样本相互独立
1.2 单因素方差分析
一、数学模型
设因素A有s个水平A1 , A2 , , As ,在水平Aj ( j
s
SA
(X•j X )2 nj (X•j X )2
j1 i1
j 1
▪ SA既包括随机误差,也包括系统误差,反映的是 随机误差和系统误差的大小。
ST SA SE
总误差平方和=组间误差平方和+组内误差平方和 ▪ 如果组间方差明显高于组内方差,说明样本数据
波动的主要来源是组间方差,因子是引起波动的主要 原因,可认为因子对实验的结果存在显著的影响;
例1 某水产研究所为了比较四种不同配合饲料对 鱼的饲喂效果,选取了条件基本相同的鱼20尾, 随机分成四组,投喂不同饲料,经一个月试验以 后,各组鱼的增重结果列于下表。
表1 饲喂不同饲料的鱼的增(单位:10g)
饲料
鱼的增重(xij)
A1 31.9 27.9 31.8 28.4 35.9
A2 24.8 25.7 26.8 27.9 26.2
SSA
(因素A组间)
r-1
SS/(r-1)
Error误差
A3 22.1 23.6 27.3 24.9 25.8
A4 27.0 30.8 29.0 24.5 28.5
四种不同饲料对鱼的增重效果是否显著 ?
解:这是单因素均衡数据的方差分析,Matlab程序 如下:
A=[31.9 27.9 31.8 28.4 35.9 24.8 25.7 26.8 27.9 26.2 22.1 23.6 27.3 24.9 25.8 27.0 30.8 29.0 24.5 28.5]; %原始数据输入