应用统计学课件第三章方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A课程
B课程
C
方差分析的
1 2
2058 2176
3339
2777
2228 2578
检验方法:
3
3449
3020
1227
4
2517
2437
2044
基本思路:
5 均值
944
2228.8
3067
2928
1681
1951.6
判断样本均值的变异是由于因素的不同水平造 成的,还是纯粹由于随机因素造成的。
研究数据间的“变异”(也称为平方和), 即离差平方和:
多重比较检验方法
df 2
12 14
Mean Square 1265897.867 399232.333
F 3.171
Sig. .078
Байду номын сангаас
结论:在0.05水平上培训对销售业绩的影响不显著。
单因素方差分析的一般模型
设:因素有r个水平,各水平的实验次数 为nj ,得到样本数据如表
因素水平 试验次数
1
2
1
x11 x12
2
x21 x22
3000
sales 组间
平方和 2531795.7
A NO V A
df
均方
2 1265897.9
F 3.171
2800
2600
2400
显著性 .0 2200 78
Mean of SALES
组内 4790788.0
12 399232.33
2000
总数 7322583.7
14
1800
1
2
3
TRAINSTA
三个离差平方和的关系为:
SST SSE SSA
证明:
(xij x)2
((xij x j ) (x j x))2
(xij x j )2
(x j x)2
r nj
2
(xij x j )(x j x)
j1 i1
r nj
r
nj
(xij x j )(x j x) [(x j x) (xij x j )] 0
1
3 .986
d均f值1 差 (I-J) df标2 准误 277.220000 399.6112598
显显著著性性 ..470118
95% 置信区间
下限
上限
-722.7890 1277.1890
2
3
976.40000 399.61598
.056 -23.5890 1976.3890
a. Dunnett t 检验将一个组视为一个控制组,并将其与所有其他组进行比较。
4、计算检验统计量 和假设检验
建立假设 H0 : x1 x2 x j xr H1 : 各组均值不全相等
F
MSA MSE
SSA/(r 1) SSE /(n r)
~F(r-1,n-r)
培训例
⒈ 计 算 水 平 均 值 和 总 均 值
i
j A课程
1
2058
2
2176
3
3449
4
2517
方差分析的类型
单因素方差分析(一维方差分析):检验由单一因素 影响的一个或几个独立的响应变量的组间均值差异是 否显著。如上例,一个影响因素(培训)的不同水平 对一个响应变量(销售业绩)的影响分析。(oneway ANOVA 过程)
单响应变量多因素方差分析:对一个响应变量是否受 一个或多个因素影响进行分析,包括协方差分析。常 用的是双因素方差分析。(Univariate 过程)
第三章 方差分析
概述 单因素方差分析(one-way ANOVA) 单响应变量方差分析(ANOVA) 协方差分析(ANCOVA) 多响应变量方差分析(MANOVA)
一、概述
方差分析: 英国统计兼遗传学家费舍尔在设计多 种农业试验,特别是田间试验,并对试验进行评 估中发展起来的。
主要用于研究某种因素(如广告)对所感兴趣的 因变量(如销售额)是否有显著影响
同一组中的数据看成是来自同一总体,它们有一个理论 上的均值,
不同组的数据来自不同总体,一般认为这些总体具有相 同方差(其他条件保持不变),而它们的均值可能相同, 也可能不同。
方差分析的目的:通过假设检验,判断实验因素对响应变 量是否有显著影响,即各组均值是相同,还是不同 一般地,有 r个水平的因素,H0:1=2=…=r= 对上例,r=3
r 1
31
接受域 拒绝域
3500.00
3
3000.00
2500.00
s a le s
2000.00 1500.00
1000.00 5
F (n1, n2 )
500.00
1
2
3
tra in s ta
F MSA 1265897.87 3.17
MSE 399232.33
0.05时
F0.05(2,12) 3.89
方差不等时可选 择的比较方法
与对照组的 配对比较
“选项”对话框:输出统计量
描述统计量
固定因素和随机 效应的统计量
等方差检验 显示均值图
培训-销售业绩SPSS输出结果
方 差 齐 性多检重验比 较
因变量: sales
Dunnett t(双sa侧l)esa
Levene 统
(I) trainsta 计(J)量trainsta
组内差异:随机因素造成
组间差异:培训和随机因素造成
如果三组销售人员的平均业绩没有显著 差别(组间差异不明显),则说明销售 训练失败
如果接受销售训练的销售人员的业绩显 著突出,则说明销售训练成功
A课程
B课程
C
3500.00
3
1
2058
3339
2228
3000.00
2
2176
2777
2578
3
检验方法:组间变异是否远大于组内变异
方差分析的术语
因素:一个独立的变量,是方差分析研究的对象。 在例1中,“培训”就是一个待研究的因素。
水平:因素的不同状态就称为“水平”。分组是 按因素的不同水平划分的。例1中,因素“培训” 分为三个水平(A课程、B课程、无训练)。
响应变量(性能指标):在分组试验中,对试验对 象所观测记录的变量称为“响应变量”,它是受 “因素”影响的变量,如例1中“销售业绩”。
抽样得到的实验数据显示出实验结果的差异性, 其原因可能有三类:
观测条件不同(影响因素)引起试验结果有所不同
此结果差异是系统性的
其他影响因素不同引起试验结果有所不同
协方差分析
此结果差异是系统性的——干扰:其他条件不变
由于各种随机因素的干扰,试验结果也会有所不同
此差异是偶然性的
方差分析的目的
1227
2517
2437
2044
944
2228.8
3067
2928
1681
1951.6
902.028 339.333 518.551
注意 不仅不同组中销售员的业绩有区别,同一组 中接受相同培训的销售员的业绩也有区别
销售培训会提高销售人员的业绩吗?
影响业绩 的因素:
培训课程 随机因素:如个人特质、运气
销售训练会提高销售业绩呢?当然这种差异也许是
由于随机因素所造成,所以需要进行统计检验。
方差分析的假设为:
H0 : 1 2 3 H1 : 1, 2 , 3不全相等
• 如果原假设成立,说明培训对销售业绩没有显著影响, 组间差异与各组内差异都是随机因素造成的。
• 如果备择假设成立,说明培训对销售业绩有显著影响,各 组内的差异由随机因素造成,而组间差异则由随机因素和 销售训练所导致的系统性差异造成。
3449
3020
1227
2500.00
s a le s
4
2517
2437
2044
2000.00
5
944
3067
1681
1500.00
均值 2228.8 2928 1951.6
1000.00 5
影响业绩
培训课程
500.00
的因素:
随机因素:如个人特质、运气 1
2
3
tra in s ta
• 从上表可以看出,各组样本数据差异较大,尤其是 3组与1、2组的均值具有一定的差异。这是否说明
培训例-续
SST
(xij x)2
(2058 2369.467)2 (2176 2369.467)2
(1681 2369.467)2
7322583.73
SSE
( xij
x
j
)
2
j i
(2058 2228.8)2 (944 2228.8)2
(3339 2928)2 (3339 2928)2
(22281951.6)2 (16811951.6)2
4790788
SSA SST SSE 7322583.73 4790783 2531795.73
组内均方和: MSE SSE 4790788 399232 .33 n r 15 3
组间均方和:
MSA SSA 2531795 .73 1265897 .87
F=3.17<3.89,接受原假设,培训没有显著效果
单因素方差分析过程 one-way ANOVA
分析→比较均值→单因素 ANVOA
响应变量
因素
“对比”对话框:均值多项式比较
例如:4mean1-mean3
“两两比较…”对话框:选择均 值多重比较方法
方差相等时可选 择的比较方法
用t检验完成各组 均值的配对比较
将观测条件不同而引起的系统差异与随 机因素引起的偶然差异用数量形式区别 开来,以确定在实验中有没有系统性因 素在起作用。
例1 某公司希望对新进销售人员进行销售培训 以保证销售业绩。如何培训才能达到好的效果 成为公司关注的问题。为此设置了两组培训课 程。为了比较它们的有效性,进行了一项实验: 随机选择三组新进销售人员,每组五人。
5
944
水平均值 2228.8
观测值个数 5
总均值 2369.467
B课程
3339
2777 3020 2437 3067
2928
5
C
2228 2578 1227 2044 1681
1951.6
5
水平均值
nj
xij
x j i1 nj
j 1,2,3
总均值为 x xij n
本例r=3。
3
n n j j 1
j1 i1
j 1
i1
(xij x)2
(xij x j )2
(x j x)2
SST
SSE
SSA
3、计算均方和
均方和
离差平方和 自由度
离差平方和 自由度
SSA
r-1
SSE
r(nj-1)=n-r
SST
n-1
均方和MS MSA=SSA/(r-1) MSE=SSE/(n-r)
自由度:观测值的个数约束条件数 (n 1) (n r) (r 1)
多响应变量多因素方差分析:研究一个或多个因素变 量与多个响应变量集之间的关系。(Multivariate 过 程)
重复测量方差分析:因素对响应变量影响的试验如果 是重复测量的,就需要用重复测量方差分析。 (Repeated Measures过程)
二、单因素方差分析
问题的表述和假设
按实验因素水平形成分组数据
2、计算离差平方和
总离差平方和(总变异S总)
SST
(xij x)2
误差项离差平方和:组内变异S组内
SSE
( xij
x
j
)
2
j i
水平项离差平方和:组间变异S组间
nj
SSA
(x j x)2 n j (x j x)2
j i1
j
三个离差平方和的关系为: SST SSE SSA
1
2
3 …j … r
1
x11 x12
x13 x1j
x1r
2
x21 x22
x2j
x2r
…
i
xi1 xi2
xij
xir
… …
… …
…
xn11 xn2 2
xn j j
xnr r
水平均值 x1 x2
x j xr
nj
xij
水平均值:x j i1 nj
总均值为 x xij
r
j 1,2,, r
n n n j j 1
一组接受A课程销售训练 一组接受销售B课程销售训练 另一组C没有参与任何训练(对照组)
当前两组的训练课程结束后,三组人员都开始 实践。两个星期后统计了各组销售人员的销售 记录如下:
销售业绩:
1 2 3 4 5 均值 标准差
A课程
B课程
C
2058
3339
2228
2176
2777
2578
3449
3020
检验统计量:
F
S组间 S组内
/自由度 /自由度
平方和/自由度=均方和 服从F分布
通过F值与其临界值的比较,推断各组均值是否相同。
A NOVA
S A LE S
Between Groups Within Groups Total
Sum of S qu ar es
2531796 4790788 7322584
3
x31 x32
3 …j … r
x13 x1j
x1r
x2j
x2r
x3j
x3r
…
i
xi1 xi2
xij
xir
… …
… …
…
xn11 xn2 2
xn j j
xnr r
方差分析步骤
计算各水平均值和 总均值
计算离差平方和:S
F检验
计算检验统计量F
计算均方和: S/自由度
⒈计算水平均值和总均值
因素水平 试验次数
变异来源分解,
组内变异(样本与组均值的离差平方和): 随机因素造成,记作S组内。
组间变异(组均值与总均值的离差平方和): 可能单纯由于随机因素造成,也可能是因素 的不同水平造成,记作S组间。
S组内+ S组间=S总(总变异:样本与总均值的离差平方和)
S组间和S组内的比值反映了两种差异大小的对比, 比值越大说明因素各个水平引起的差异越显著