统计学原理第七章方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• • • •
要分析品牌对空调的销售额是否有显著差异,可以判断4 种品牌销售额的均值是否相等。 若它们的均值相等,就意味着不同品牌空调销售额无差 异,即“品牌”对“销售额”没有显著影响; 若均值不全相等,则意味着“品牌”对“销售额”有显 著影响。 但是这还不能提供充分的证据,因为平均销售额是根据 随机样本的数值计算的,均值的差异可能是由于抽样随 机性造成的。因此,需要有更准确的方法来检验这种差 异是否是显著,就需要进行方差分析。
第七章 方差分析
主要内容
• • • • 一、方差分析及其有关术语 二、方差分析的基本思想和原理 三、单因素方差分析 四、双因素方差分析
• 第一节 方差分析的一般问题
一、 什么是方差分析
• 通过检验各总体的均值是否相等来判断分类型 自变量对数值型因变量是否有显著的影响。 单因素方差分析:
只涉及一个分类型自变量对数值型因变量的影响
3.观测值 每个水平下的样本数据称为观测值。
本例不品牌的销售额就是观测值 。
4.总体 因素的每一个水平可以看做是一个总体。
如品牌A、品牌B等。
5.样本数据 调查得到的数据可以看做从总体中抽取的样本 数据。
本例各品牌的销售额即为样本数据。
• 二、方差分析的基本思想和原理
【例7-1】某市场调查公司为了研究品牌对空调销售额的影 响,对四个品牌空调的销售情况进行了调查,结果如下表。 试分析品牌对空调的销售额是否有显著影响。
1 2 3 4 5 6 平均
品牌A
365 340 350 343 323 400 353.5
品牌B
345 330 363 368 340 349.2
品牌C
358 300 323 353 300 326.8
• • • •
要分析品牌对空调的销售额是否有显著差异,可以判断4 种品牌销售额的均值是否相等。 若它们的均值相等,就意味着不同品牌空调销售额无差 异,即“品牌”对“销售额”没有显著影响; 若均值不全相等,则意味着“品牌”对“销售额”有显 著影响。 但是这还不能提供充分的证据,因为平均销售额是根据 随机样本的数值计算的,均值的差异可能是由于抽样随 机性造成的。因此,需要有更准确的方法来检验这种差 异是否是显著,就需要进行方差分析。
从上表中可以看出,各品牌的平均销售 额不同,但这还不能提供充分的证据证 明品牌对销售额有显著的影响,因为这 种差异也可能是由于抽样的随机性所造 成的。 在判断均值之间是否有差异时需借助于 反映变异程度的指标 —— 方差,所以叫 方差分析。
这个名字也表示:它是通过对数据误差来源的 分析,来判断不同总体的均值是否相等。因此, 进行方差分析时,需要考察数据误差的来源。
方差分析的有关术语
1.因素或因子 所要检验的对象称为因素或因子。 上例中,要分析品牌对销售额是否有影响,“品牌” 是所要检验的对象——因素或因子。 2.水平或处理 因素的不同表现称为水平或处理。
品牌A 、品牌B 、品牌 C 、品牌D 是“品牌”这一因素的具 体表现,称为水平或处理。本例有四个水平。
双因素方差分析:
涉及两个分类型自变量对数值型因变量的影响
【例7-1】某市场调查公司为了研究品牌对空调销售额的影 响,对四个品牌空调的销售情况进行了调查,结果如下表。 试分析品牌对空调的销售额是否有显著影响。
不同品牌空调的销售额数据
品牌
万元 品牌D
288 290 280 270 280 281.6
观测值
自变量对因变量有显著影响
注意:备择假设并不意味着所有的均值都不相等
2.构造并计算检验统计量
• 均值:各水平的均值、全部观察值的均值 • 组内误差平方和:SSE ( xij xi )2
i 1 j 1
K
k
ni
• 组间误差平方和:SSA ni
I 1
x x
i
• 总误差平方和: SST xij x
1 2 : :
x11 x12
: :
x21 x22
: :
n
x1n
x2n
… … : : …
xk1 xk2
: :
xkn
二、分析的步骤
1.提出假设 2.构造并计算检验统计量 3.统计决策
1.提出假设
一般提法
H0: m1 = m2 =…= mk
自变量对因变量没有显著影响
H1: m1 ,m2 ,… ,mk不全相等
差
两个误差的比值
1. 若品牌对空调销售额没有影响,则组间误差中
2. 若品牌对空调销售额有影响,在组间误差中除 3. 当这个比值大到某种程度时,就可以说不同水
平之间存在着显著差异,也就是自变量对因变 量有影响。 了包含随机误差外,还会包含有系统误差,这 时它们之间的比值就会大于1; 只包含随机误差,没有系统误差。这时,组间 误差与组内误差的比值就会接近1;
第二节 单因素方差分析
要点: • 一、数据结构 • 二、分析步骤 • 三、关系强度 • 四、Excel的应用
因素(A) i
观察值 (j ) A1 A2 … Ak
1
x11
x21
…
xk1
2
x12
x22
…
xk2
…
…
…
…
…
n
x1n
x2n
…
一、数据结构
观察值 ( j ) 水平A1 水平A2 … 水平Ak
不同品牌空调的销售额数据
品牌
万元 品牌D
288 290 280 270 280 281.6
观测值
1 2 3 4 5 6 平均
品wk.baidu.comA
365 340 350 343 323 400 353.5
品牌B
345 330 363 368 340 349.2
品牌C
358 300 323 353 300 326.8
关于误差
1. 组内误差(随机误差)
同一水平(总体)下样本各观察值之间的差异 这种差异可以看成是随机因素的影响,称为随机误差
2. 组间误差(随机误差、系统误差)
不同水平(总体)下各观察值之间的差异 这种差异可能是由于抽样的随机性所造成的 —— 随机 误差,也可能是由于品牌本身所造成的,称为系统误
三、方差分析的基本假定
1.观测值是来自于服从正态分布总体的随 机样本 2.各总体的方差相同。 3.各总体相互独立。
四、方差分析的基本步骤
• 第一步:提出假设 • 第二步:构造检验统计量F • 第三步:查表得Fα,进行统计决策(右侧 检验)
• 若F>F,则拒绝原假设 • 若F<F,则不能拒绝原假设