统计学-第七章 方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SST 的自由度为n-1,n为全部观察值的个数
SSA的自由度为k-1,k为因素水平(总体)的个数 SSE 的自由度为n-k
平方和
组内(误差项) 组间(水平) 总 SSE SSA SST
自由度
n-K K-1 n-1
方差
MSE MSA MST
将MSA和MSE进行对比,即得到检验统计量
MSA F ~ F (k 1, n k ) MSE
349.2 326.8 281.6
方差
705.9
253.7 777.7 62.8
6
5 5 5
误差平方和、方差、检验统计量
差异源 组间 组内 SS 16899.7 7906.3 df 3 17 MS 5633.233 465.0765 F 12.11249 P-value 0.000174 F crit 3.196777
1 2 3 4 5 6 平均
品牌A
365 340 350 343 323 400 353.5
品牌B
345 330 363 368 340 349.2
品牌C
358 300 323 353 300 326.8
• • • •
要分析品牌对空调的销售额是否有显著差异,可以判断4 种品牌销售额的均值是否相等。 若它们的均值相等,就意味着不同品牌空调销售额无差 异,即“品牌”对“销售额”没有显著影响; 若均值不全相等,则意味着“品牌”对“销售额”有显 著影响。 但是这还不能提供充分的证据,因为平均销售额是根据 随机样本的数值计算的,均值的差异可能是由于抽样随 机性造成的。因此,需要有更准确的方法来检验这种差 异是否是显著,就需要进行方差分析。
2.构造并计算检验统计量
• • • • SSR:行因素误差平方和 SSC:列因素误差平方和 SSE:随机因素误差平方和 SST:总因素误差平方和 SST=SSR+SSC+SSE
计算方差
平方和 自由度 方差
行因素
列因素 随机因素 总和
SSR
SSC SSE SST
K-1
r-1
(K-1)(r-1)
MSE
MSA MST
• 行因素的检验统计量 :
自变量对因变量有显著影响
注意:备择假设并不意味着所有的均值都不相等
2.构造并计算检验统计量
• 均值:各水平的均值、全部观察值的均值 • 组内误差平方和:SSE ( xij xi )2
i 1 j 1
K
k
ni
• 组间误差平方和:SSA ni
I 1
x x
i
• 总误差平方和: SST xij x
方差分析的有关术语
1.因素或因子 所要检验的对象称为因素或因子。 上例中,要分析品牌对销售额是否有影响,“品牌” 是所要检验的对象——因素或因子。 2.水平或处理 因素的不同表现称为水平或处理。
品牌A 、品牌B 、品牌 C 、品牌D 是“品牌”这一因素的具 体表现,称为水平或处理。本例有四个水平。
双因素方差分析:
涉及两个分类型自变量对数值型因变量的影响
【例7-1】某市场调查公司为了研究品牌对空调销售额的影 响,对四个品牌空调的销售情况进行了调查,结果如下表。 试分析品牌对空调的销售额是否有显著影响。
不同品牌空调的销售额数据
品牌
万元 品牌D
288 290 280 270 280 281.6
观测值
总计
24806
20
3.统计决策
从上表中可见 • 检验统计量F=12.11249, • Fα =3.196777, • 故:拒绝原假设,即品牌对空调销售额有显著 影响。 P值决策: • 若P>α ,则不能拒绝原假设
上表中P-value 为根据样本数据计算的P值,为 0.000174 ,小于α =0.05,故拒绝原假设。得到同 样的结论。
显著的,所检验的因素对观察值有显著影响 若F<F ,则不拒绝H0 ,不能认为所检验的因 素对观察值有显著影响
F分布与拒绝域
如果均值相等, F=MSA/MSE1
不拒绝H0 0
拒绝H0
F
F(k-1,n-k) F 分布
例题分析
【例7-2】根据下表调查数据,试分析品牌对空调的销售额 是否有显著影响(显著性水平α=0.05)。
万元
1.提出假设:
• 原假设H0: μ1=μ2=μ3=μ4
• 品牌对空调销售额没有显著影响 • 品牌对空调销售额有显著影响
• 备择假设H1: μ1、μ2、μ3、μ4不完全相等
2.计算检验统计量
各水平的均值与方差 观测数
品牌A
品牌B 品牌C 品牌D
求和
2121
1746 1634 1408
平均
353.5
从上表中可以看出,各品牌的平均销售 额不同,但这还不能提供充分的证据证 明品牌对销售额有显著的影响,因为这 种差异也可能是由于抽样的随机性所造 成的。 在判断均值之间是否有差异时需借助于 反映变异程度的指标 —— 方差,所以叫 方差分析。
这个名字也表示:它是通过对数据误差来源的 分析,来判断不同总体的均值是否相等。因此, 进行方差分析时,需要考察数据误差的来源。
• 方差分析中涉及两个分类型自变量时, 称为双因素方差分析。
• 例如,在分析空调销售额的影响因素时, 除了品牌因素之外,还需考虑地区、价 格、质量等因素。
方差分析
单因素方差分析 双因素方差分析
无交互作用
有交互作用
• 1.无交互作用的双因素分析(无重复双 因素分析)
• 因素间的影响是相互独立的
• 2.有交互作用的双因素分析(可重复双 因素方差分析)
当 H0 为真时, F 服从分子自由度(第一自由
度)为 k-1 、分母自由度(第二自由度)为 n-k 的 F 分布。
3.统计决策
根据给定的显著性水平 ,在 F 分布表中查找与第一自 由度(分子自由度)df1=k-1、第二自由度(分母 自由度) df2=n-k 相应的临界值 F
若F>F ,则拒绝H0 ,表明均值之间的差异是
1 2 : :
x11 x12
: :
x21 x22
: :
n
x1n
x2n
… … : : …
xk1 xk2
: :
xkn
二、分析的步骤
1.提出假设 2.构造并计算检验统计量 3.统计决策
1.提出假设
一般提法
H0: m1 = m2 =…= mk
自变量对因变量没有显著影响
H1: m1 ,m2 ,… ,mk不全相等
i 1 j 1
k
ni
2
三个平方和的关系
SST =SSA+SSE
即
总平方和=组间平方和+组内误差平方和
方差MS
各误差平方和的大小与观察值的多少有关,为 消除观察值多少对误差平方和大小的影响,需 要将其平均,这就是均方,也称为方差 计算方法是用误差平方和除以相应的自由度 三个平方和对应的自由度分别是
不同品牌空调的销售额数据
品牌 观测值 1 2 3 4 5 6 平均 品牌A 365 340 350 343 323 400 353.5 品牌B 345 330 363 368 340 349.2 品牌C 358 300 323 353 300 326.8 品牌D 288 290 280 270 280 281.6
R2 SSA(组间平方和) SST (总平方和)
它反映了自变量对因变量的影响效应占总影响
效应的比例。如例7-2的计算结果为:
SSA 16914 .45 R 70 .70 % SST 23922 .95
2
表明品牌(自变量)对销售额(因变量)的影
响效应占总效应的70.70%,而残差效应则占 29.30%。
第七章 方差分析
主要内容
• • • • 一、方差分析及其有关术语 二、方差分析的基本思想和原理 三、单因素方差分析 四、双因素方差分析
• 第一节 方差分析的一般问题
一、 什么是方差分析
• 通过检验各总体的均值是否相等来判断分类型 自变量对数值型因变量是否有显著的影响。 单因素方差分析:
只涉及一个分类型自变量对数值型因变量的影响
Excel的应用
1.列出数据结构表; 2.工具-数据分析-单因素方差分 析-确定; 3.填写对话框;确定。
三、关系强度的测量
拒绝原假设表明因素(自变量)与观测值之间有关
系
自变量与因变量的关系强度如何测定?
变量间关系的强度用组间平方和 (SSA) 占总平方
和(SST)的比例大小记为R2来反映,即
3.观测值 每个水平下的样本数据称为观测值。
本例不品牌的销售额就是观测值 。
4.总体 因素的每一个水平可以看做是一个总体。
如品牌A、品牌B等。
5.样本数据 调查得到的数据可以看做从总体中抽取的样本 数据。
本例各品牌的销售额即为样本数据。
• 二、方差分析的基本思想和原理
【例7-1】某市场调查公司为了研究品牌对空调销售额的影 响,对四个品牌空调的销售情况进行了调查,结果如下表。 试分析品牌对空调的销售额是否有显著影响。
不同品牌空调的销售额数据
品牌
万元 品牌D
288 290 280 270 280 281.6
观测值
1 2 3 4 5 6 平均
品牌A
365 340 350 343 323 400 353.5
品牌B
345 330 363 368 340 349.2
品牌C
358 300 323 353 300 326.8
关于误差
1. 组内误差(随机误差)
同一水平(总体)下样本各观察值之间的差异 这种差异可以看成是随机因素的影响,称为随机误差
2. 组间误差(随机误差、系统误差)
不同水平(总体)下各观察值之间的差异 这种差异可能是由于抽样的随机性所造成的 —— 随机 误差,也可能是由于品牌本身所造成的,称为系统误
• 也可以用R2的平方根R测量自变量和因 变量之间的关系强度,其值介于0和1之 间,其绝对值越接近于1,说明关系强度 越高。 • 根据上面的结果,可以计算出品牌与销 售额之间的关系强度为0.84,这表明品 牌(自变量)与销售额)(因变量)关 系强度较高。
• 第三节 双因素方差分析
一、双因素方差分析及其类型
• • • •
要分析品牌对空调的销售额是否有显著差异,可以判断4 种品牌销售额的均值是否相等。 若它们的均值相等,就意味着不同品牌空调销售额无差 异,即“品牌”对“销售额”没有显著影响; 若均值不全相等,则意味着“品牌”对“销售额”有显 著影响。 但是这还不能提供充分的证据,因为平均销售额是根据 随机样本的数值计算的,均值的差异可能是由于抽样随 机性造成的。因此,需要有更准确的方法来检验这种差 异是否是显著,就需要进行方差分析。
分析步骤
1.提出假设 需要针对行因素和列因素分别提出假设 行因素 • H0:u1=u2=u3=,……,=un • 行因素对因变量没有显著影响 • H1:u1、u2、u3、……un不全相等 行因素对因变量有显著影响
列因素 • H0:u1=u2=u3=,……,=un • 列因素对因变量没有显著影响 • H1:u1、u2、u3、……un不全相等 列因素对因变量有显著影响
• 因素之间产生交互作用,两个因素的组合产 生了新的效应 。 如某个地区对某种品牌的 空调具有特殊偏好
• 二、无交互作用的双因素方差分析
数据结构
列因素B( j ) B1 行 因 素 A (i) A1 A2 … Ak x11 x21 … xk1 B2 x12 x22 … xk2 … … … … … Br x1r x2r … xkr
三、方差分析的基本假定
1.观测值是来自于服从正态分布总体的随 机样本 2.各总体的方差相同。 3.各总体相互独立。
四、方差分析的基本步骤
• 第一步:提出假设 • 第二步:构造检验统计量F • 第三步:查表得Fα,进行统计决策(右侧 检验)
• 若F>F,则拒绝原假设 • 若F<F,则不能拒绝原假设
第二节 单因素方差分析
要点: • 一、数据结构 • 二、分析步骤 • 三、关系强度 • 四、Excel的应用
因素(A) i
观察值 (j ) A1 A2 … Ak
1
x11
x21
…
xk1
2
x12
x22
…
xk2
…
…
…
…
…
n
x1n
x2n
…
一、数百度文库结构
观察值 ( j ) 水平A1 水平A2 … 水平Ak
差
两个误差的比值
1. 若品牌对空调销售额没有影响,则组间误差中
2. 若品牌对空调销售额有影响,在组间误差中除 3. 当这个比值大到某种程度时,就可以说不同水
平之间存在着显著差异,也就是自变量对因变 量有影响。 了包含随机误差外,还会包含有系统误差,这 时它们之间的比值就会大于1; 只包含随机误差,没有系统误差。这时,组间 误差与组内误差的比值就会接近1;