精选生物统计学方差分析讲义.
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ck2
k! 2!(k
次 2)!
例如4个样本均数需比较次数为6次。
假设每次比较所确定的检验水准为0.05,
则每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95; 那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351,
而犯第一类错误的概率为0.2649
第七页,共166页。
方差分析的意义
解:(1)假设 H 0: 0 3,0 即该棉花品种纤维长度不能达到纺织
品生产要求含量。对
H A : 0
(2)选取显著水平 0.05
(3)检验计算 s s 2.5 0.125
x n 400
u x 30.2 30.0 1.6
sx
0.125
(4)推断 u<u0.05=1.64, P>0.05 ,显著水平上接受H0,拒绝HA。
例 2.2 为了探讨不同窝的动物的出生重是 否存在差异,随机选取4窝动物,每窝中均有4只 幼仔,结果如下:
动物号
1 2 3 4 和 平均数
表2-2 4窝动物的出生重(克)
窝
别
Ⅰ
Ⅱ
Ⅲ
34.7
33.2
27.1
33.3
26.0
23.3
26.2
28.6
27.8
31.6
32.3
26.7
125.8
120.1
104.9
解为不同来源的平方和及自由度
3、计算不同方差估计值的比值
4、检验各样本所属的平均数是否相等 • 实际上是观察值变异原因的数量分析
第十二页,共166页。
方差分析的应用条件和用途
方差分析应用条件:
1、各样本须是相互独立的随机样本
2、各样本来自正态分布总体 3、各总体方差相等,即方差齐
方差分析基本用途: 1、多个样本平均数的比较
(random effect mo-del)。例2.2 的动物窝
别,是从动物所有可能的窝别中随机选出来的, 实验的目的是考查在窝别之间,出生重是否存在 差异,因而“窝别”是随机因素。
第二十七页,共166页。
有时固定因素和随机因素很难区分,除上述 所讲的原则外,还可以从另一角度鉴别。固定因
素是指因素水平,可以严格地人为控制。在水 平固定之后,它的效应值也是固定的。例如, 研究三种温度对胰蛋白酶水解产物的影响。 因为温度水平是可以严格控制的,即每一温 度水平,在各个重复之间都可以准确地控制 在一个固定值上,所以在重复该实验时,水 解产物的产量也是固定的。简单地说,在水 平(不同温度)固定以后,其效应值(产量) 也是固定的。因此,温度是固定因素。
基本概念
第三页,共166页。
两个样本数据平均数比较
1、当总体方差
和
2 1
已22 知,或总体方差
和 12
未 22知
,但两样本均为大样本
u 检验
2、当总体方差
和 2
1
未22 知,且两样本均为小样本
t 检验
— 成对数据:直接t检验
— 成组数据:首先F检验,考察12=or 12,然后再t检验
第四页,共1661,2,, a 1,2,n
(2 1)
其中:xij 是在第 i 水平(处理)下的第 j 次观察
值。μ是对所有观察值的一个参量,称为总平均数
(overall mean)。αi是仅限于对第 i 次处理的一个
参量,称为第i次处理效应(treatment effect)。方差
分析的目的,就是要检验处理效应的大小或有无。ij
称品系这一因素共有5个水平(level)。5个品系可以
认为是5个总体,表 2-1的数据是从5个总体中抽 出的5个样本,通过比较这5个样本,判断这5个总 体是否存在差异。
株号
1 2 3 4 5 和
平均数
表 2-1
Ⅰ 64.6 65.3 64.8 66.0 65.8 326.5
65.3
5个小麦品系株高调查结果
所有对之间做 t 检验。但这样做会提高犯Ⅰ 型错误的概率,因而是不可取的。
第九页,共166页。
方差分析由英国统
计学家R.A.Fisher首创, 为纪念Fisher,以F命名
,故方差分析又称 F 检
验 (F -test)。用于推 断多个总体均数有无差
异
第十页,共166页。
方差分析的定义
方差分析是对两个或多个样本平均数差异显著性检 验的方法。它是将测量数据的总变异按照变异来 源分解为处理效应和试验误差,并做出其数量估 计。
第二十五页,共166页。
在这些情况中,因素的水平是特意选择的,所
检验的是关于ai 的假设,得到的结论只适合与方 差分析中所考虑的那几个水平,并不能将其结 论扩展到未加考虑的其它类似水平上。所以上 述的那些因素:温度、药物、品种等,称为固 定因素。处理这样的因素所用的模型称为固定
效应模型(fixed effect model)。例2.1中的5 个小麦品系是特意选择的,目的是从这5 个 品系中,选出最优者,因而“品系”这个因 素属于固定因素,所用的模型是固定效应模 型。
k个样本均数的比较: 如果仍用t检验或u检验,有以下问题:
1、检验过程繁琐
2、无统一的试验误差,误差估计的精确性和检 验的灵敏性低
3、推断的可靠性降低,犯第1类错误的概率增加
第八页,共166页。
方差分析:是一类特定情况下的统计假设检验,
或者说是平均数差异显著性检验的一种引伸。 u 检验和t 检验可以判断两组数据平均数的差异 的显著性, 而方差分析则可以同时判断多组数 据平均数之间的差异的显著性。当然,在多组 数据的平均数之间做比较时,可以在平均数的
第十七页,共166页。
二、方差分析的基本原理
方差分析是关于k(k≥3)个样本平均数的假设测验方
法,是将总变异按照来源分为处理效应和试验误差,并 做出其数量估计。
发现各变异原因在总变异中相对重要程度的一种统计 分析方法。
第十八页,共166页。
二、方差分析的基本原理
总变异分解为组间变异和组内变异。 组内变异是个体差异所致,是抽样误差。 组间变异可能由两种原因所致,
31.450 30.025 26.225
Ⅳ 32.9 31.4 25.7 28.0 118.0
29.500
通过对以上数据的分析,判断不同窝别动物出生重是否存在差异。
第二十二页,共166页。
以上两个例子的共同点是:每个实验都 只有一个因素,该因素有a个水平或称为有a 个处理(treatment),这样的实验称为单因素实
31.6
32.3
26.7
125.8
120.1
104.9
31.450 30.025 26.225
Ⅳ 32.9 31.4 25.7 28.0 118.0
29.500
通过对以上数据的分析,判断不同窝别动物出 生重是否存在差异。
第六页,共166页。
方差分析的意义
k个样本均数的比较:
如果仍用t检验或u检验,需比较次数为:
它将所有处理的观测值作为一个整体,一次比较就对多 有各组间样本平均数是否有差异做出判断。如果差异不 显著,则认为它们都是相同的;如果差异显著,再进一 步比较是哪组数据与其它数据不同。
第十一页,共166页。
方差分析的意义
方差分析基本思想:
1、把k个总体当作一个整体看待
2、把观察值的总变异的平方和及自由度分
第二十八页,共166页。
随机因素的水平是不能严格地人为控制的, 在水平确定之后,它的效应值并不固定。例如, 在研究不同农家肥施用量对作物产量的影响试验 中,农家肥是因素,不同施用量是该因素的不同 水平,作物的产量是它的效应值。由于农家肥的 有效成份很复杂,不能像控制温度那样,将农家 肥的有效成份严格地控制在某一个固定值上。在 重复试验时即使施以相同数量的肥料,也得不到 一个固定的效应值。即在因素的水平(施肥量) 固定之后,它的效应值(产量)并不固定,因而 农家肥是一随机因素。
• 试验处理(Treatment):实施在试验单位上的具体项目,简 称处理。
–单因素:试验因素的一个水平
–多因素:试验因素的一个水平组合
第十六页,共166页。
一、相关术语
• 试验单位(Experimental unit):试验载体,即根据研究 目的而确定的观测总体
• 重复(Repetition):一个处理实施在两个或者两个以上的 试验单位上,称为处理有重复。 试验单位数称为处理的重复数
验。 从单因素实验的每一处理所得到的结果都 是一随机变量X i。对于a个处理,各重复n次
(或者说做n次观察)的单因素方差分析的一 般化表示方法见表2-3 。
表 2-3 单因素方差分析的典型数据
1 2 3 :
j ∶
n
平均数
X1 x11 x12
x:13 x:1j
x1n
x1 ·
X2 X3 x21 x31 x22 x32
即认为该棉花品种纤维长度不符合纺织品种生产要求
第五页,共166页。
例 为了探讨不同窝的动物的出生重是否存在差
异,随机选取4窝动物,每窝中均有4只幼仔,结
果如下:
动物号
1 2 3 4 和 平均数
表 4窝动物的出生重(克)
窝
别
Ⅰ
Ⅱ
Ⅲ
34.7
33.2
27.1
33.3
26.0
23.3
26.2
28.6
27.8
1、可控因素(固定因素):人为可控
2、非控因素(随机因素):不能人为控制
试验因素的表示:
大写字母A, B, C, …等来表示
第十五页,共166页。
一、相关术语
• 因素水平(Level of factor):试验因素所处的特定状态或者 数量等级。简称水平 水平的表示方法:
用代表该因素的字母添加下标表示,如A1,A2,B1,B2…
… x1j x2j … xij … xkj
… x1n x2n … xin … xkn T1. T2. … Ti. … Tk.
T xij
平均 xi
x1 x2 … xi … xk
x
第二十页,共166页。
例 2.1 调查了5个不同小麦品系的株高,结 果列于表2-1。
在这个例子中,只出现“品系”这样一个因素 (factor),故称单因素。共有5 个不同的品系,我们
一是抽样误差; 二是处理不同。
在抽样研究中抽样误差是不可避免的,故导致 组间变异的第一种原因肯定存在;第二种原因是否存 在,需通过假设检验作出推断
第十九页,共166页。
三、数学模型
每组具有n个观测值的k组样本数据资料
处理 A1 A2 … Ai … Ak
重 复
总和Ti.
x11 x21 … xi1 … xk1 x12 x22 … xi2 … xk2
是随机误差成份。
第二十四页,共166页。
上述模型中,包括两类不同的处理效应。 第一类处理效应称为固定效应(fixed effect),它 是由固定因素(fixed factor)所引起的效应。若 因素的a个水平是经过特意选择的,则该因素
称为固定因素。例如,几个不同的实验温度, 几个不同的化学药物或一种药物的几种不同浓 度,几个作物品种以及几个不同的治疗方案和 治疗效果等。
第二十六页,共166页。
第二类处理效应称为随机效应(random effect),它是由随机因素(random factor)所引起的效应。若因素的a 个水平,是
从该因素全部水平的总体中随机抽出的样本,则该
因素称为随机因素。从随机因素的a 个水平所得 到的结论,可以推广到这个因素的所有水平上。 处理随机因素所用的模型称为随机效应模型
(优选)生物统计学方差分析
第一页,共166页。
基本概念
方差分析:方差分析是对两个或两个以上样 本平均数差异显著性检验的方法。
例:为研究某种生物材料的生物学性能,将材
料分成三组,分别与成骨细胞共培养1,7,11
天后测试细胞活性。为避免误差,每组测试5个 样品,试判断材料的生物学性能。
第二页,共166页。
株
高
Ⅱ
64.5 65.3 64.6 63.7 63.9 322.0
Ⅲ
76.8 66.3 67.1 66.8 68.5 336.5
Ⅳ
71.8 72.1 70.0 69.1 71.0 354.0
64.4
67.3
70.8
Ⅴ
69.2 68.2 69.8 68.3 67.5 343.0
68.6
第二十一页,共166页。
例:生产某种纺织品,要求棉花纤维长度平均在30mm以上。现有 一棉花品种,以n=400进行抽样,测得纤维平均长度为30.2mm,标 准差为2.5mm,问该棉花品种的纤维长度是否合格?
分析:1)已知0; 30.0mm; x 30.2mm; s 2.5mm, n 400, u检验
2)由于只能大于30mm才能合格,故单尾检验
x:23 x:33 x:2j x:3j
x2n x3n
x2 · x3 ·
……
Xi xi1 xi2
x:i3 x:ij
xin
xi·
……
Xa xa1 xa2
xa:3 xa:j
xan
xa·
第二十三页,共166页。
每一个观察值可以通过如下常用的所谓线性统计
模型(linear statistical model)描述:
2、多个因素间的交互作用 3、回归方程的假设检验
4、方差的同质性检验
第十三页,共166页。
第一节 方差分析的基本原理
第十四页,共166页。
一、相关术语
• 试验指标(Experimental index):试验测定的项目或者性
状。 –日增重、产仔数、瘦肉率
• 试验因素(Experimental factor):影响试验指标的因素, 也称:处理因素,简称因素或因子。