第七章 方差分析.
第七章方差分析与F检验
• 方差分析又称做变异分析,它的主 要功能在于分析实验数据中不同来 源的变异对总变异的贡献大小,如 实验处理引起的变异、被试个体差 异带来的变异、实验误差带来的变 异等,从而确定实验中的自变量是 否对因变量有重要影响。
第一节 方差分析的基本原理
一、方差分析的基本原理:综合的F检验 (一)综合虚无假设与部分虚无假设 方差分析主要处理多于两个以上的平均数
1、建立假设:H0:μ1=μ2=…=μk H1:至少有两个总体平均数是不
同的,即处理效应不全为0 2、计算离差平方和 3、求均方 4、计算F值 5、进行F检验
6、列出方差分析表
变异来源
组间变异 (处理)
组内变异 (误差)
总变异
自由度 平方和 均方 F
dfb=k-1
SSb MSA MSA/
Dfw=∑(n-1) SSw MSE MSE
(六)陈列方差分析表
二、方差分析的基本条件
1、数据所代表的总体必须是正态分布, 即样本必须来自属于正态分布。
2、变异具有可分解性。
3、各组内的方差应无显著差异。因此 理论上在做方差分析之前应先对各 组方差的一致性进行检验。
第二节 单因素完全随机化设 计的方差分析
完全随机设计的方差分析,就是对单因素 组间设计的方差分析。在这种实验研究 设计中,各种处理的分类仅以单个实验 变量为基础,因而把它称为单因素方差 分析或单向方差分析。
③计算均方
MSb=MSA=SSb/dfb=43.33/2=21.67 MSw=MSE=SSw/dfw=30.00/12=2.50 ④计算F值,进行F检验,做出决断
F= MSb/ MSw=21.67/2.50=8.67 查F表,F0.05(2,12)=3.88 8.67>3.88,拒绝虚无假设,可以认为在
第七章方差分析(心理)
ΣX 217.40 216.20 213.20 214.40 nk=12
(ΣX)2 47262.76 46742.44 45454.24 45967.36 185426.80
1 2 3 4 n ΣX ΣX2 X
n
4 283.9 20151.51
4 290.50 21098.45
4 286.80 20564.90
SSB
n
n
SSW
2 X X 2
n
2
SST X
2
X
n
dfT dfB dfW
组间自由度
dfB k 1
组内自由度
dfW n k
dfT n 1
总自由度
计算方差 组间方差
SSB MS B dfB
MSW SSW dfW
ij X t k n
X
n j 1 i 1
ij X j
n X
k j 1
j
Xt
2
令SSt X ij X t
j 1 i 1
2
总平方和,自由度为N 1,
k
SS b n X j X t
j 1 k n
k
2
n X j X t
随机区组设计由于同一区组接受所有实验处理,试实 验处理之间有相关,所以也称为相关组设计(被试内设 计)。它把区组效应从组内平方和中分离出来。这时, 总平方和=组间平方和+区组平方和+误差项平方和
随机区组设计中平方和的分解:
SST SSB SSR SSE
SST
2 X X 2
Fmax
第七章 1单因素方差分析
j 1
s
s
因为
nj [ nj ( X j X )] nj ( X j X )
j1
j1
s nj
Xij nX 0
j1 i1
所以 SA 的自由度为s 1.
SA与SE独立 , H0为真时,
S
A 2
~
2
(
s
1).
四、假设检验问题的拒绝域
检验假设 H1 : 1 2 s 0,
H0 :
1,
2,
,
不全为零
s
.
构造检验统计量 因为H0为真时,
F SA (s 1) . SE (n s)
S
E2~
2
(n
s
),
S
A2~
2
(
s
1),
SA (s 1) SA 2
SE (n s) (s 1)
SE 2 ~F (s 1, n s).
j1 i1
s
nj
2 ( X j X )[ ( Xij X j )]
j 1
i 1
s
nj
2 ( X j X )[ Xij nj X j ]
j 1
i 1
0
于是ST可分解为 ST SE SA,
s nj
其中 SE
( Xij X j )2
X n11
A2
X12 X 22
X n2 2
T1
T2
X 1
X2
1
2
As
X1s
统计学原理第七章 方差分析
三、方差分析的基本假定
1.观测值是来自于服从正态分布总体的随 机样本 2.各总体的方差相同。 3.各总体相互独立。
四、方差分析的基本步骤
• 第一步:提出假设 • 第二步:构造检验统计量F • 第三步:查表得Fα,进行统计决策(右侧 检验)
• 若F>F,则拒绝原假设 • 若F<F,则不能拒绝原假设
2.构造并计算检验统计量
• • • • SSR:行因素误差平方和 SSC:列因素误差平方和 SSE:随机因素误差平方和 SST:总因素误差平方和 SST=SSR+SSC+SSE
计算方差
平方和 自由度 方差
行因素
列因素 随机因素 总和
SSR
SSC SSE SST
K-1
r-1
(K-1)(r-1)
• 方差分析中涉及两个分类型自变量时, 称为双因素方差分析。
• 例如,在分析空调销售额的影响因素时, 除了品牌因素之外,还需考虑地区、价 格、质量等因素。
方差分析
单因素方差分析 双因素方差分析
无交互作用
有交互作用
• 1.无交互作用的双因素分析(无重复双 因素分析)
• 因素间的影响是相互独立的
• 2.有交互作用的双因素分析(可重复双 因素方差分析)
万元
1.提出假设:
• 原假设H0: μ1=μ2=μ3=μ4
• 品牌对空调销售额没有显著影响 • 品牌对空调销售额有显著影响
• 备择假设H1: μ1、μ2、μ3、μ4不完全相等
2.计算检验统计量
各水平的均值与方差 观测数
品牌A
品牌B 品牌C 品牌D
求和
2121
1746 1634 1408
平均
353.5
第七章方差分析与F检验
• 5、主效应:实验中由一个因素的不 同水平引起的变异。
• 6、交互作用:当一个因素的水平在 另一个因素的不同水平上变化趋势 不一致时,称两个因素之间存在交 互作用。
• 7、处理效应:指实验的总变异中由 自变量引起的变异。如主效应、交 互作用。
• 8、误差变异:指总变异中不能由自变量或 明显的无关变量解释的那部分变异。包括 单元内误差和残差。
1、计算离差平方和:
1总平方和 :
SSt
X
2
X
N
2
2组间平方和 :
SSb
X
n
2
X
N
2
3组内平方和 :
SSw
X
2
X
n
2
(二)计算自由度
总自由度:dft=N-1 组间自由度: dfb=k-1 组内自由度: dfw=k(n-1) (三)计算均方
组间均方:MSb=MSA=SSb/dfb 组内均方:MSw=MSE=SSw/dfw (四)计算F值
一、几个基本术语
• 1、因素:指研究者在实验中感兴趣 的一个变量,研究者通过操纵、改 变它,来估价它对因变量的影响, 也叫自变量。
• 2、因素的水平:实验中所操纵的变 量的每个标定的值。这些值既可以 是数量的,如时间、年龄,也可以 是类别的,如职业、性别等。
• 3、因素设计:通常指多于一个因素的 实验设计。如一个含有两个因素,每个
F= MSb/ MSw
(五)查F值表进行检验并做出决断
假如拒绝虚无假设的p值定为0.05,如 果计算的值大于所确定的显著性水平 的临界值,表明F值出现的机率小于 0.05,就可拒绝虚无假设,可以说不 同组的平均数之间在统计上至少有一 对有显著差异。
如果计算的F值小于p为0.05的临界值, 就不能拒绝虚无假设,只能说不同组 的平均数之间没有显著差异。
第七章 方差分析
第三节 平均数的多重比较
F检验是一种整体性检验,当经方差分析鉴别 多个正态总体的平均数有显著时,并不能说明 各组水平之间都存在显著差异,只是说至少有 一对差异显著,究竟哪些均数差异显著,哪些 差异不显著,则还需进行均数的多重比较。
一、图凯法
是一种能将所有各对平均值同时比较的方法。 设因素A分成两组,每组有相等的含量,并经
第二节 单因素方差分析
概念
观察的因素只有一个的实验叫单因素实验。对 此种实验结果进行方差分析的方法叫单因素方 差分析。
单因素方差分析所讨论的是k个总体标准差皆 相等的条件下,解决k个总体平均数是否相等 的问题。
一、计算步骤(见P140~142)
1、依据表中数据,计算各组内的 x,x2, xi,n 2、然后计算 x,x2,n, 并令
过方差分析判别各组之间存在显著性差异,为 了比较两者之间差异显著性,可按下式计算T
值: T QS x
其中Q值按预先确定的α水平,组数K和组内 自由度(N-k)查附表获得。
任何一对平均值之差,只要超过T值,就表明 这一对平均值之间的差别是显著的。
图凯法要求所有的样本含量都相等。
例题:P147~148 当各组被试不相等时,可采用S法检验进行两
X x, X 2 x2, N n
3、计算离差平方和:(总离差平方和、组间 离差平方和和组内离差平方和)
4、计算方差:(组间方差和组内方差) 5、计算F值
二、方差分析的计算
见课本P142~143
方差分析计算的两种情况:
当样本含量相等时:
当样本含量不等时: 例题7.2,P144~146
二、实验误差与条件误差
在方差分析的试验中,即使各水平的试验条件 完全相同,但由于随机抽样或试验过程中随机 因素的影响,其试验结果(指标)仍然会存在 偏差,我们称这种偏差为试验误差或随机误差。
第七章 方差分析
表示
调查分析师资格培训--天津商业大学
二、方差分析的数据结构模型
y = µ + αi + β j + γ k + L + ε
其中:y是所观测的变量 µ为常数,代表共同的环境对观测变量的影响,称为平 均效应 αβγ则代表各个因子的某个水平对观测的变量的影响 ε代表实验观测的随机误差,独立同分布于正态分布
调查分析师资格培训--天津商业大学
三、方差分析的意义
一个因子的各个水平作用是否相同,即这个 因子对所观察变量的影响是否显著。 如果是显著的找出该最佳的水平或者各个显 著因子的最佳配合
调查分析师资格培训--天津商业大学
第二节 单因子方差分析
单因子数据结构模型 模型参数估计 单因子方差分析表 各水平效应的多重比较
第四节 两个因子方差分析
两个因子数据结构模型 模型参数的估计 方差分析表的构造 各个水平效应的多重比较
调查分析师资格培训--天津商业大学
一、随机区组因子数据结构模型
yijk = µ + α i + β j + (αβ ) ij + ε ijk i = 1, L p; j = 1, L , q; k = 1, L , n
检验假设
H 0 : α1 = α 2 = L = α m = 0 H1 : 至少α i ≠ 0 or H 0 : µ1 = µ 2 = L = µ m
m ni m
H1 : 至少µi ≠ 0
m ni
总变动平方和分解(SST=SSA+SSE)
( yij − y ) 2 = ∑ ni ( yi − y ) 2 + ∑∑ ( yij − yi ) 2 ∑∑
i =1 j =1 i =1 i =1 j =1
高级统计学:第七章方差分析
第七章方差分析第一节方差分析的基本原理方差分析(Analysis of variance,简称ANOV A)是对多个总体均值是否相等这一假设进行检验的一种方法。
一、方差分析的内容1实例[例] 某饮料生产企业研制出一种新型饮料。
饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。
这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。
现从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况,见表7—1。
新型饮料在五家超市的销售情况表解:从表7—1中看到20个数据各不相同,什么原因使其不同呢?2产生的原因①是销售地点的影响;②是饮料颜色的影响。
A 有可能是抽样的随机性造成的;B 有可能是由于人们对不同颜色有所偏爱。
可以将上述问题就归结为一个检验问题——检验饮料颜色对销售量是否有影响,即要检验各个水平的均值k μμμ,,21 是否相等。
二、方差分析的原理1基本概念因素:一个独立的变量就称为一个因素。
如,颜色水平:将因素中不同的现象称为水平。
(每一水平也称为一组) 单因素方差分析:方差分析只针对一个因素进行。
多因素方差分析:同时针对多个因素进行分析。
观察值之间的差异产生来自于两个方面:①是由因素中的不同水平造成系统性差异的; ②是由于抽选样本的随机性产生的差异。
方差分析数据结构表7-2在一元情形下假设:ik i2i1X ,,X ,X ,i=1,2…n j ,j=1,2,…k,为来自总体)N(2σ,μ的随机样本。
如果假设k H μμμ=== 210:也可表达为 j j αμμ+=其中j α是第j 个水平的偏差。
如果各水平下均值相等,则可以表述为: 0:210====k H ααα对于第j 个因素有ij j ij X εαμ++=其中()2,0~σεN ij 为独立同分布随机变量。
对于观察值则有)()(j ij j ij x x x x xx -+-+=将式两端减去x 然后平方,得))((2)()()(222j ij j j ij j ij x x x x x x x x x x --+-+-=-等式两边求和,有也即如上例可以建立如下的假设:43210:μμμμ===H ;43211,,,:μμμμH 不全相等。
第七章方差分析第一节单因素)
一、各处理重复数相等的方差分析
【例1】 某水产研究所为了比较四种不同 配合饲料对鱼的饲喂效果, 配合饲料对鱼的饲喂效果,选取了条件基 本相同的鱼20尾,随机分成四组, 随机分成四组,投喂不 同饲料, 同饲料,经一个月试验以后, 经一个月试验以后,各组鱼的增 重结果列于下表。 重结果列于下表。
上一张 下一张 主 页
型。在这个模型中表示为总平均数μ、处理效 应αi、试验误差εij之和。尽管各总体的均数可 以不等或相等,σ2则必须是相等的。 所以,单因素试验的数学模型可归纳为: 效应的可加性(additivity)、分布的正态性 (normality)、方差的同质性 (homogeneity)。这也是进行其它类型方差分
F=MSt/MSe =46.5×20/38.84×4=5.99**
3.统计推断: 统计推断: F0.05(4,20) =2.87,F0.01(4,20) =4.43,F> F0.01(4,20),P<0.01,表明品种间差异极显著。 表明品种间差异极显著。
上一张 下一张 主 页
退 出
SS MS e = e = df e =
t
t
1 = n
∑
T
∑
e
= SS
ni ≠ n
Ti2 − C ni
j
总自由度的剖分
总自由度
dfT = kn −1 = N −1
处理自由度 dft = k −1 误差自由度 dfe = dfT − dft = kn − k = N − K
MSt = SSt / df t MSe = SS e / df e MSt F= MS e
析的前提或基本假定。
xij = µ + α i + ε ij = µ + ( µi − µ ) + ( xij − µi )
第七章方差分析ppt课件
精选课件ppt
13
4、各种方差、F值的计算:
各种方差的计算: (1)组间方差:
s
2 A
SS A df A
(2)组内方差:
s
2 e
SS e df e
F检验及其实质: F
s
2 A
s
2 e
本质差异
= —————
试验误差
精选课件ppt
14
第二节 单方面分类的方差分析
例:整地深度(A,cm)对比试验,试分析不同的 整地深度对苗木的高生长有否显著的影响?
5*5拉丁方设计
D BC A E E DACB A CBED B AEDC C EDBA
精选课件ppt
20
第二节 三方面分类的方差分析
分析造成差异的原因? 1、横行间 2、直行间 3、处理间(类间) 4、机误
精选课件ppt
21
第二节 三方面分类的方差分析
三方面分类的方差分析:
SS总=SS横行间+SS直行间+ SS类间+SS误差 即
小:0.05
结论的可靠性
低:统计量的自由 高:统计量的自由度大 度小(df =18) (df =45)
精选课件ppt
3
第一节 方差分析的基本原理
二、方差分析的种类:
1、单因子试验的方差分析 (1)单方面分类的方差分析----完全随机排列、成组法等 (2)双方面分类的方差分析----随机区组设计、配对法等 (3)三方面分类的方差分析----拉丁方设计 2、复因子试验的方差分析 (1)无交互作用的方差分析 (2)有交互作用的方差分析
d
m
LS 0.0D 5t0.05 sd
LS 0.0D 1 t0.01 sd
第七篇 方差分析(stata统计分析与应用)
主要选项
描述
category(varlist) class(varlist) repeated(varlist) partial sequential noconstant regress [no]anova
分类变量
分类变量,与上同义。如不注明,Stata默 认所有变量都是分类变量。
重复观测因子
使用边际平方和,默认选项
描述
bonferroni 多重比较检验 scheffe 多重比较检验 sidak 多重比较检验 产生列表 [不]显示均值 [不]显示标准差 [不]显示频数 [不]显示观测个数 不显示方差分析表 以数值形式显示,而不是以标签形式 列表不隔开 将缺失值作P为age一类10
STATA从入门到精通
■ longway命令的基本格式如下: ■ loneway response_var group_var [ i f ] [ i n ] [weight] [ , options]
■ 表7-15 员工信息表
minority educ
salary
beginsalar y
gender
0
8
15750
10200
Female
0
8
15900
10200
Female
0
8
16200
9750
Female
0
8
16650
9750
Female
0
8
16800
10200
Female
0
8
16950
10200
喝减肥茶后体 重(公斤) 63 71 79 73 74 65 67 73 60 76 71 72 75 62
方差分析 - 第七章方差分析
L A
X ij2
X ij2
n i
N
X ij2 c n i
(3)组内离差平方和
LELTLA
3、计算自由度
(1)总自由度 (2)组间自由度 (3)组内自由度 4、计算方差 (1)组间方差
nT N1
nA k1
n EN kn T n A
MS
A
LA n A
(2)组内方差
MS E
LE n E
FF0.0(1n1 ,n2 )
p0.01 因素对试验 显 结 著 果 性 有
对[例1]进行单因素方差分析
H 0:1234
方方方方 法法法法 一二三四 1 3.3 3.0 0.4 3.6
2 1.2 2.3 1.7 4.5
3 0 2.4 2.3 4.2
4 2.7 1.1 4.5 4.4
5 3.0 4.0 3.6 3.7
二、单因素方差分析的基本原理
[例1]为考查不同训练方法对磷酸肌酸增长的 影响,我们采用了四种不同的训练方法。每 种方法选取条件相仿的6名运动员,通过三个 月的训练以后,其磷酸肌酸的增长值(单 位:mg/100ml)如下表。试检验训练方法对 运动员磷酸肌酸增长值有无显著性影响?即 四种训练方法运动员磷酸肌酸平均增长值差
xij23
xi2j 493
C232 29.389
18
LT 49329.38946.6311
LA
302 352
57
182
6
2
9.3
893
7.691
1
LE 46.631137.691184.000
n T 1 1 1 8n 7 A 3 1 2n E 1 3 1 85
MAS372.691118.8905
第七章方差分析(AnalysisofVariance,ANOVA)
第七章方差分析(Analysis of Variance, ANOVA)7.1 方差分析概述7.2 单因素方差分析7.3 无重复双因素方差分析7.4 可重复双因素方差分析7.5 案例研究7.6 试验设计初步7-17.1 方差分析概述⒈方差分析的概念⒉方差分析中的基本术语⒊ANOVA:对比多个总体的均值⒋方差分析中的基本假定7-27-3方差分析的概念方差分析:通过检验多个总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
解决:①A 、B 、C 是否Y 的重要影响因素;②如果为重要影响因素,最优水平?研究系统A B C分类型自变量Y数值型因变量A (a 1,a 2,a 3,…)B (b 1,b 2,b 3,…)C (c 1,c 2,c 3,…)7-4方差分析中的基本术语第1周第9周第14周第2周第7周第16周第4周第12周第17周第5周第10周第13周第3周第8周第18周第6周第11周第15周AB品牌底部中部顶部货架位置因素因素水平实验单元:“一周”响应变量:“每周销售量”处理:品牌—货架位置组合随机安排试验例:一项市场营销研究。
考察品牌和货架位置对咖啡周销售量的影响。
试验单元(experiment unit )、响应变量(responsevariable )、因素(factor )、因素水平(factor level )、处理(treatment )。
ANOVA:对比多个总体的均值佣金固定薪金佣金加固定薪金165120140981151561309022021012611219510713418715523524080总平均样本均值175.00113.29166.17151.48三类报酬构成的推销人员的月销售额(千美元)问题:(1)三种报酬类型销售人员的销售业绩是否存在显著差异?(2)如果存在差异,哪类销售人员的业绩最佳?三个总体的均值是否相等?7-57-6散点图佣金固定薪金佣金+固定薪金50100150200250300分类型自变量销售业绩均值差异分析:(1)同一总体内部的差异(随机差异)?(2)不同总体之间的差异(随机差异+系统差异)?(3)两类差异大小分析?7-71x 2x 3x ()f x x31x 2x 3x ()f x x2 1 H 0为真时,样本均值的抽样分布H 0为假时,样本均值的抽样分布方差分析中的基本假定•基本假定:•(1)每个总体均服从正态分布;•(2)每个总体的方差相等;•(3)来自每一总体的样本都是独立随机样本三个总体均值是否相等?012311::H H 23,,不全相等7.2 单因素方差分析(One-way Analysis of Variance)⒈基本概念与数据结构表⒉ANOVA:k个总体均值的检验⒊ANOVA表:单因素方差分析⒋最佳方案的选择7-87-9基本概念与数据结构研究一个分类型自变量对一个数值型因变量的影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章方差分析方差分析(analysis of variance)是检验多个总体均值是否相等的统计方法。
目的:通过检验多个总体的均值是否相等来判断定类变量对定距变量是否有显著影响。
第一节方差分析引述一、方差分析的基本思想和原理例1:想了解四个行业的服务质量如何,得到以下数据:消费者对四个行业的投诉次数自变量行业是分类变量,因变量被投诉次数是定距变量。
想知道行业对被投诉次数的影响,就要分析不同行业的被投诉次数之间是否有显著差异,即检验四个行业被投诉次数的总体均值是否相等(注意不是样本均值)。
如果相等,行业对投诉次数无影响;如果均值不全相等,有影响。
为什么不用均值检验的方法?均值检验一次只研究两个样本,要检验4个总体均值是否相等,需要6次检验(1-2,1-3,1-4,2-3,2-4,3-4)。
每次检验犯第一类错误的概率是α,作多次检验会增加犯错概率和降低置信水平。
而方差分析同时将所有样本信息结合在一起,增加了分析的可靠性,降低了犯错的概率,避免拒绝真实的原假设。
如何用样本均值检验总体均值即判断行业对投诉次数是否有影响?各行业被投诉次数的样本均值不相等,是否可说明不同行业被投诉次数有明显差异?不一定,也许各行业总体均值无差异,仅仅因为抽样的随机性造成了彼此之间的差异/随机误差。
(来自同一个总体的各个样本之间因为随机性而造成的均值差异和来自不同总体的样本之间的均值差异在散点图上是有差异的。
)所以,方差分析就是对于差异来源进行分析(来源于随机误差还是不同总体间的真实差异),从而判断不同总体均值是否相等。
在例1中,在同一行业(同一总体)下,样本的各观测值不同,其差异可看作抽样的随机性造成的,称之为随机误差。
在不同行业(不同总体)下,各观测值也是不同的,这种差异可能是由于抽样的随机性造成的,也可能是由于行业本身的不同而造成的系统误差。
衡量同一行业下样本数据的误差,称为组内误差;衡量不同行业下样本之间的误差,称为组间误差。
组内误差只包括随机误差,组间误差既包括随机误差也包括系统误差。
如果行业对投诉次数没有影响,组间误差里就只包含随机误差而没有系统误差。
这时,组间误差与组内误差的比值应接近1;反之,如果行业对投诉次数有影响,组间误差中除随机误差外还有系统误差,组间误差与组内误差之比就应该大于1。
当这个比值达到某种程度时,就可以说不同行业的投诉次数之间有显著差异,即行业对投诉次数有显著影响。
二、方差分析的基本假定1、自变量每一个取值对应的分布都应服从正态分布,以例1为例,每个行业的投诉次数都应服从正态分布。
2、自变量每一个取值对应的分布都应有相等的方差,即自变量的各组数据是从具有相同方差的正态总体中抽取的。
注意,仅要求总体方差相等,而非样本方差。
通常自变量各组数据的样本方差中最大值不超过最小值的二三倍,就可以视为等总体方差。
3、观测值是独立的。
每个被抽中企业被投诉次数与其它企业被投诉次数的次数是独立的。
三、问题的提法设自变量共有m类,每类的总体均值分别用μm表示,要检验m类总体均值是否相等,需要提出以下假设:H 0:μ1=μ2=….=μm,自变量对因变量没有显著影响H 1:至少有一个以上的类别均值不等或μ1、μ2….μm不全相等。
第二节一元方差分析分析一个分类型自变量对数值型因变量的影响时使用一元方差分析/单因素方差分析。
一、数据结构设自变量A共分m类,A1,A2,..,Am。
现从A1类中随机抽取n1个,A2类中随机抽取n2个,……,从Am类中随机抽取nm个(n1, n2,…nm可以不等),根据各个观测值可得到如下统计表:二、分析步骤 1、提出假设2、构造检验统计量(1)计算各样本均值11niijj iyi yn ==∑(2)计算全部观测值的总均值11111m ni mij i i j i y y n yi n n =====∑∑∑(3)计算误差平方和①总误差平方和TSS :全部观测值与总均值的误差平方和,反映了全部观测量的离散状况,TSS=211()mniij i j y y ==-∑∑;根据例1计算:TSS=(57-47.9)2+…..+(58-47.9)2≈4164.6 ②组内误差平方和RSS RSS=211()mniij i j y yi ==-∑∑根据例1:零售业组内误差平方和=(57-47.9)2+(66-47.9)2+….+(44-49)2=700,同理,旅游业924,民航业434,制造业650,RSS=700+924+434+650=2708 ③组间误差平方和BSSBSS=211()m ni i j yi y ==-∑∑=21()mi i n yi y =-∑(注意要乘以n i )根据例1计算:BSS=7(49-47.9)2+6(48-47.9)2+5(35-47.9)2+5(59-47.9)2=1456.6三个误差平方和的关系:TSS= RSS+BSS总结:BSS 是对随机误差和系统误差大小的度量,可以反映自变量对因变量的影响;RSS 是对随机误差大小的度量,反映了除自变量对因变量的影响外,其他因素对因变量的总影响,也称残差变量;TSS 是对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响。
如果原假设成立μ1=μ2=….=μm ,则表明没有系统误差,BSS 除以其自由度后的均方与RSS 除以其自由度后的均方(即方差)就不会有太大差异(为何要除以自由度?因为误差平方和大小与观测值多少有关);如果组间均方明显大于组内均方,说明自变量各水平之间的差异不仅有随机误差,还有系统误差。
所以,判断自变量对因变量的影响就是要比较组内均方与组间均方之间的差异大小。
(4)计算统计量TSS 的自由度为(n-1),n 表示全部观测值数量 BSS 的自由度为 (m-1),m 表示自变量的类别 RSS (n-m),(n-1)-(m-1)BSS 的均方BSS =BSS/ (m-1);RSS 的均方RSS = RSS/(n-m),检验统计量F=BSS /RSS ~F (m-1,n-m )(要比较的是组间均方和组内均方的差异) 当原假设为真时,二者比值服从第一自由度为m-1,第二自由度为n-m 的F 分布。
根据例1计算:F= /(1)/()BSS m RSS n m --=1456.6/(41)2708/(234)--≈3.4073、统计决策计算出F 值后,将其与给定的显著性水平α的临界值相比较,从而做出对原假设的决策。
在对F 值进行检验时的原假设是BSS /RSS =1,备选假设是BSS /RSS >1。
根据给定的显著性水平,在F 分布表上查找与第一自由度m-1,第二自由度n-m 相对应的临界值F α(m-1,n-m)。
如果F >F α,则拒绝原假设,表明自变量对因变量有显著影响;如果F <F α,则不能拒绝原假设,没有数据表明自变量不同水平的总体均值有显著差异,所以不能认为自变量对因变量有显著影响。
根据例1计算出F=3.407,假定α=0.05,查F 分布表得到F 0.05(3,19)=3.13。
由于F=3.407>3.13,所以拒绝原假设,表明行业对被投诉次数有显著影响。
4、方差分析表三、关系强度的测量——相关比率方差分析表明,组间平方和与残差平方和的比例反映了自变量行业与因变量被投诉次数的关系,当组间平方和比残差平方和大,且达到一定程度时,就意味着自变量和因变量的关系显著,大的越多,关系越强。
如何判断自变量与因变量的关系强度?可用组间平方和(BSS )及残差平方和(RSS )占总平方和(TSS )的比例大小来反映。
其中,E 2=BSS/TSS ,算术平方根E 可用来表示两个变量之间的关系强度。
可用消减误差比例原理PRE=(E 1-E 2)/E 1来解释。
E 1是不知道因变量与自变量有关时预测y 所犯的错误,这时使用样本总平均值来预测y ,错误大小为TSS=211()mniij i j y y ==-∑∑。
E 2为知道因变量与自变量有关后,预测y 时犯的错误,这时使用自变量各组均值来预测的,错误大小为RSS=211()m niij i j y yi ==-∑∑。
E 1-E 2反映了知道自变量与y 相关后减小的预测错误。
所以E 2=(TSS-RSS)/TSS=BSS/TSS 。
根据例1计算:E 2=BSS/TSS=1456.6/4164.6=0.351277=35.1277%;E=0.592686 解释:行业可以解释被投诉次数差异的35.1277%,其他因素所解释的比例占64.8723%;行业与被投诉次数之间有较强相关关系。
第二节 二元方差分析一、二元方差分析的类型分析两个定类自变量对定距变量的影响时,需要用二元方差分析。
例2:有四个品牌的彩电在五个地区销售,为分析品牌和地区对销售量是否有影响,对每个品牌在各个地区的销售量取得以下数据,分析品牌和地区对销售量是否有显著影响?(α=0.05)在二元方差分析中,如果两个因素对因变量的影响是独立的,称为无交互作用的二元方差分析;如果两个因素对因变量的影响除了各自的单独影响之外,两个因素相互之间的关系还会对因变量产生新的影响,就称为有交互作用的二元方差分析,或可重复的二元方差分析。
二、无交互作用的二元方差分析/无重复情况下的二元方差分析 1、数据结构获取数据时,将一个因素安排在行,另一个因素安排在列。
设行因素有a 个类别,列因素有b 个类别,行因素和列因素的每一个类别都可搭配成一组,观测它们对因变量的影响,共抽取ab 个观察数据,如下表:方差分析的基本假定:每一个观测值都可看作由行因素的a 个类别和列因素的b 个类别所组合成的ab 个总体中抽取的容量为1的独立随机样本。
这ab 个总体中的每一个总体都服从正态分布,且有相同的方差。
i y ∙是行因素的第i 个类别下各观测值的平均值,j y ∙是列因素的第j 个类别下个观测值的平均值;y 是全部ab 个样本数据的总平均值。
2、分析步骤 (1)提出假设行因素的假设:H 0:μ1=μ2=….=μa , 行因素对因变量没有显著影响 H 1:μi (i=1,2,…,a)不全相等 行因素对因变量有显著影响列因素的假设:H 0:μ1=μ2=….=μb , 列因素对因变量没有显著影响 H 1:μj (j=1,2,…,b)不全相等 列因素对因变量有显著影响 (2)构造检验统计量分别确定检验行因素和列因素的统计量。
TSS=211()abij i j y y ==-∑∑=211()a bi i j yy ∙==-∑∑+211()a b j i j y y ∙==-∑∑+211()a bij i ji j y y y y ∙∙==--+∑∑ 分解后的第一项是行因素所产生的误差平方和,记为BSS A ,反映了行变量对因变量的影响;第二项是列因素所产生的误差平方和,记为BSS B ,反映了列变量对因变量的影响;第三项是除去行因素和列因素之外的剩余因素影响产生的误差平方和,即随机误差平方和,记作RSS ,反映了随机因素对因变量的影响。