第四章方差分析概论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可控因子:可用某种控制方式将其状态(即水平) 做审慎改变的因子,简称因子,常用大写字母表示。 如反应时间、反应温度、原材料产地、机器编号等。
不可控因子:在实际操作中不能控制、或难以控 制、或要花费昂贵才能控制、或试验人员尚未意识到 对试验结果会有影响的因子,又称为噪声因子或误差 因子,如环境温度与湿度、机器的老化等。
定量指标:用测量结果表示的指标称为定量指标, 如种子的苗高,粮食的产量,橡胶件的强度等。
定性指标:用等级评分等表示的指标称为定性指标, 如药物的疗效、物质的光谱度、布料的柔软度等。
注意:由于测量数据含有的信息丰富,故在试验中 要尽量选用定量指标。
因子与水平
影响试验结果的因素称为因子,因子所处的状态 (位级)称为水平。
其中
y 1 n
的估计
ˆ s [ 1
n
n
yi
i 1
n i 1
(
yi
y)2 ]1/ 2
提供均值 的更为精确的估计
ˆ y ~ N(, 2 / n)
2. 随机化 定义:试验材料的分配和各试验点的试验次序都 要随机确定。 意义: 随机化常能使各次试验结果相互独立,这是试验 设计中正确使用统计方法分析试验结果的基石;
它是试验误差的源泉
注意:在试验中,噪声因子会对试验结果起干扰 作用,要消除这种干扰通常是不可能的,只能尽量限 制它,使其减少干扰
试验设计的任务:是在尽量限制噪声因子的条件 下考察可控因子的变化对试验结果(指标值)的影响, 从中寻找可控因子水平的最佳搭配,使产品的指标值 接近目标值,且指标值的波动尽量小。
试验误差 定义:试验结果常用指标的测量值(或评分值)y表示,
测量值y与指标真值之间的偏差 =y 称为试验误差,简
称误差。 注意:
(1) 是一个随机变量。
(2) 的分布 根据中心极限定理,只要把每个不可控 因子都限制在一定的范围内,随机误差 总可认为是服从 均值为0,方差为 2 的正态分布的随机变量。
实施区组技术的意义:把区组间的差异估计出来, 从而有可能把区组对试验结果的干扰排除或减少到最 低程度,保证统计分析结果的正确性。
㈢历史回顾 Ronald A. Fisher爵士是一位在试验设计中应用 统计方法的创新者。多年来,他在英国伦敦的 Rothamsted农业站担负起统计和数据分析的任务。 Fisher开发了并首先应用了方差分析作为试验设计的 统计分析的基本方法。于1933年,Fisher在伦敦大学 取得教授职位。随后,他在剑桥大学任教并成为世界 上很多大学的客座教授。除了开拓者Fisher外,许多 学者也对试验设计文献做出了显著的贡献。
可以使不可控因子的影响部分“抵消”,不至于 积累成灾;可使试验误差得到准确的估计。
3. 区组 定义:把试验单元分为若干个小组,使每组内的 试验条件相同或近似相同,而组与组之间在试验条件 上允许有较大差异,这样的小组在试验设计中被称为 区组。
如 农田试验中按地的肥沃、日照和水分等,将试 验田分成若干区组;工业试验中,按操作时间(早、 晚、晚)把试验单元分成若干个区组。
产量 试验
A1
A2
A3
A4
1
18
23
22
26
2
20
22
18
21
3
19
25
21
28
4
15
22
15
25
平均值
18
23
19
25
试验中有一可控制的条件(因素)——药剂,用A表示。 四种不同的药剂称为A 的四个不同的水平,分别记为
A1 , A2 , A3 , A4
Ai药剂处理过的种子的水稻产量Xi是一个随机变量, 在该药剂下经试验所得的水稻产量可以认为是来自总体Xi 的一个样本。
表中的四组数据可以看成是分别来自四个不同总体的样本。 Ai药剂下的第j 次试验结果记为Xij
从表中数据可以看出:不同药剂处理过的种子,其平 均产量是有差异的。第二种药剂和第四种药剂处理过的水 稻平均产量要明显高于另两种药剂处理过的水稻平均产量。 此外,用同一种药剂处理的四块试验田中水稻产量之间也 有差异。
㈠例4.1. 为了研究用来处理水稻种子的四种不同药剂 对水稻产量的影响。选择一块各种条件(气候、土质、管 理)基本相同的土地,将其分成16块作为试验田。在每四 块试验地里种下用同一种药剂处理过的水稻种子。试验的 结果—水稻产量(单位:kg)。由下表给出。
表4.1, 不同的药剂处理种子的水稻来自百度文库量
药剂
(3) 的意义 标准差是衡量随机误差大小的尺度。 越小试验误差
就越小,这说明试验的组织实施很好;
越大试验误差就越大,这说明不可控因子干扰较
大,要努力改进试验的实施。
过大会使试验误差淹没了可控因子变化而产生的
影响,这将导致试验失败。
二、试验设计 ㈠定义:在明确所要考察的(可控)因子及其水平后, 对试验进行总体安排称为试验设计。
㈡试验基本原则 三个基本原则:重复、随机化和区组。
——这三个基本原则在每个试验中都必须考虑
1. 重复
定义:在相同条件下进行若干次试验。
若重复进行n次试验,试验结果分别记为x1,…,xn, 它就是一个样本。
通重常复假有定两:个X作i=用+:i , i ~N(0, 2), i=1,2,…,n
提供标准差
有效试验设计的注意点: 要尽量减少试验误差。Fisher在进行农业田间试验发 现,在田间试验中,环境条件难以严格控制,试验误差不 可忽视,故提出对试验方案必须做合理安排,以减轻随机 误差的影响。
尽量减少试验次数。
便于对试验结果(指标值)进行统计分析。由于在试 验中存在随机误差,并体现在指标的测量值上,所以对指 标值的分析需用统计方法。
第四章
方差分析
英国统计学家费歇在20年代首先把方差分析应用到农业 试验中,经过几十年的发展其内容已十分丰富,方差分析是 数理统计中具有广泛应用的基础方法之一———是工农业生 产和科学试验中分析数据的一个重要工具。本章我们仅介绍 单因素和双因素的方差分析。
第一节 单因子试验的设计和方差分析
一、试验例子与基本概念
造成这些差异的原因有两方面:
一是由于因素A取不同水平所引起的差异。 另一方面,是由于随机而引起的差异,是由于试验误 差引起的这类差异。 现在的问题是要通过试验所得的数据来判断产量之间 的差异主要是由试验误差造成的,还是由不同药剂的变化 造成的。
㈡单因子试验名词解释
指标 用于衡量试验结果好坏的特性值称为指标。在有些 设计中,指标又称为响应。 指标的分类:定量指标和定性指标。
不可控因子:在实际操作中不能控制、或难以控 制、或要花费昂贵才能控制、或试验人员尚未意识到 对试验结果会有影响的因子,又称为噪声因子或误差 因子,如环境温度与湿度、机器的老化等。
定量指标:用测量结果表示的指标称为定量指标, 如种子的苗高,粮食的产量,橡胶件的强度等。
定性指标:用等级评分等表示的指标称为定性指标, 如药物的疗效、物质的光谱度、布料的柔软度等。
注意:由于测量数据含有的信息丰富,故在试验中 要尽量选用定量指标。
因子与水平
影响试验结果的因素称为因子,因子所处的状态 (位级)称为水平。
其中
y 1 n
的估计
ˆ s [ 1
n
n
yi
i 1
n i 1
(
yi
y)2 ]1/ 2
提供均值 的更为精确的估计
ˆ y ~ N(, 2 / n)
2. 随机化 定义:试验材料的分配和各试验点的试验次序都 要随机确定。 意义: 随机化常能使各次试验结果相互独立,这是试验 设计中正确使用统计方法分析试验结果的基石;
它是试验误差的源泉
注意:在试验中,噪声因子会对试验结果起干扰 作用,要消除这种干扰通常是不可能的,只能尽量限 制它,使其减少干扰
试验设计的任务:是在尽量限制噪声因子的条件 下考察可控因子的变化对试验结果(指标值)的影响, 从中寻找可控因子水平的最佳搭配,使产品的指标值 接近目标值,且指标值的波动尽量小。
试验误差 定义:试验结果常用指标的测量值(或评分值)y表示,
测量值y与指标真值之间的偏差 =y 称为试验误差,简
称误差。 注意:
(1) 是一个随机变量。
(2) 的分布 根据中心极限定理,只要把每个不可控 因子都限制在一定的范围内,随机误差 总可认为是服从 均值为0,方差为 2 的正态分布的随机变量。
实施区组技术的意义:把区组间的差异估计出来, 从而有可能把区组对试验结果的干扰排除或减少到最 低程度,保证统计分析结果的正确性。
㈢历史回顾 Ronald A. Fisher爵士是一位在试验设计中应用 统计方法的创新者。多年来,他在英国伦敦的 Rothamsted农业站担负起统计和数据分析的任务。 Fisher开发了并首先应用了方差分析作为试验设计的 统计分析的基本方法。于1933年,Fisher在伦敦大学 取得教授职位。随后,他在剑桥大学任教并成为世界 上很多大学的客座教授。除了开拓者Fisher外,许多 学者也对试验设计文献做出了显著的贡献。
可以使不可控因子的影响部分“抵消”,不至于 积累成灾;可使试验误差得到准确的估计。
3. 区组 定义:把试验单元分为若干个小组,使每组内的 试验条件相同或近似相同,而组与组之间在试验条件 上允许有较大差异,这样的小组在试验设计中被称为 区组。
如 农田试验中按地的肥沃、日照和水分等,将试 验田分成若干区组;工业试验中,按操作时间(早、 晚、晚)把试验单元分成若干个区组。
产量 试验
A1
A2
A3
A4
1
18
23
22
26
2
20
22
18
21
3
19
25
21
28
4
15
22
15
25
平均值
18
23
19
25
试验中有一可控制的条件(因素)——药剂,用A表示。 四种不同的药剂称为A 的四个不同的水平,分别记为
A1 , A2 , A3 , A4
Ai药剂处理过的种子的水稻产量Xi是一个随机变量, 在该药剂下经试验所得的水稻产量可以认为是来自总体Xi 的一个样本。
表中的四组数据可以看成是分别来自四个不同总体的样本。 Ai药剂下的第j 次试验结果记为Xij
从表中数据可以看出:不同药剂处理过的种子,其平 均产量是有差异的。第二种药剂和第四种药剂处理过的水 稻平均产量要明显高于另两种药剂处理过的水稻平均产量。 此外,用同一种药剂处理的四块试验田中水稻产量之间也 有差异。
㈠例4.1. 为了研究用来处理水稻种子的四种不同药剂 对水稻产量的影响。选择一块各种条件(气候、土质、管 理)基本相同的土地,将其分成16块作为试验田。在每四 块试验地里种下用同一种药剂处理过的水稻种子。试验的 结果—水稻产量(单位:kg)。由下表给出。
表4.1, 不同的药剂处理种子的水稻来自百度文库量
药剂
(3) 的意义 标准差是衡量随机误差大小的尺度。 越小试验误差
就越小,这说明试验的组织实施很好;
越大试验误差就越大,这说明不可控因子干扰较
大,要努力改进试验的实施。
过大会使试验误差淹没了可控因子变化而产生的
影响,这将导致试验失败。
二、试验设计 ㈠定义:在明确所要考察的(可控)因子及其水平后, 对试验进行总体安排称为试验设计。
㈡试验基本原则 三个基本原则:重复、随机化和区组。
——这三个基本原则在每个试验中都必须考虑
1. 重复
定义:在相同条件下进行若干次试验。
若重复进行n次试验,试验结果分别记为x1,…,xn, 它就是一个样本。
通重常复假有定两:个X作i=用+:i , i ~N(0, 2), i=1,2,…,n
提供标准差
有效试验设计的注意点: 要尽量减少试验误差。Fisher在进行农业田间试验发 现,在田间试验中,环境条件难以严格控制,试验误差不 可忽视,故提出对试验方案必须做合理安排,以减轻随机 误差的影响。
尽量减少试验次数。
便于对试验结果(指标值)进行统计分析。由于在试 验中存在随机误差,并体现在指标的测量值上,所以对指 标值的分析需用统计方法。
第四章
方差分析
英国统计学家费歇在20年代首先把方差分析应用到农业 试验中,经过几十年的发展其内容已十分丰富,方差分析是 数理统计中具有广泛应用的基础方法之一———是工农业生 产和科学试验中分析数据的一个重要工具。本章我们仅介绍 单因素和双因素的方差分析。
第一节 单因子试验的设计和方差分析
一、试验例子与基本概念
造成这些差异的原因有两方面:
一是由于因素A取不同水平所引起的差异。 另一方面,是由于随机而引起的差异,是由于试验误 差引起的这类差异。 现在的问题是要通过试验所得的数据来判断产量之间 的差异主要是由试验误差造成的,还是由不同药剂的变化 造成的。
㈡单因子试验名词解释
指标 用于衡量试验结果好坏的特性值称为指标。在有些 设计中,指标又称为响应。 指标的分类:定量指标和定性指标。