第六章 方差分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章方差分析
方差的计算公式
()2
2
1
x X
S
n
-
=
-
∑
【离均差平方和:()2
x X
-
∑;分母为自由度:n-1】
第一节方差分析的基本思想
用途:检验3组及以上总体均数是否相等。通过分析处理组均数之间的差别,推论它们所代表的k个总体均数间是否存在差别,或k个处理组间的差别是否具有统计学意义。
= 组间变异+ 组内变异
SS总
组内。
F= MS组间/ MS组内
如果:各样本均数来自同一总体(H0: ),即各组均数之间无差别。
则:组间变异与组内变异均只能反映随机误差,此时:F 值应接近1。
反之,若各样本均数不是来自同一总体,组间变异应较大,F 值将明显大于1,则不能认为组间的变异仅反映随机误差,也就是认为处理因素有作用。
F值要到多大才有统计学意义呢?
在各样本来自正态总体,各样本所来自的总体方差相等的假定之下,当H0成立时,检验统计量F 服从自由度ν组间=k-1,ν组内=N-k的F 分布,表示为:F ~ F (ν组间, ν组内)
可由F界值表查出在某一α水准下F分布的单尾界值F α。当F < F(ν组间, ν组内), P> α。
方差分析的基本思想
1·根据资料的设计类型,将全部观察值总的离均差平方和及自由度分解为两个或多个部分,
2·除随机误差(如SS组内)外,其余每个部分的变异(如SS组间)可由某个因素的作用(或某几个因素的交互作用,如A因素×B因素)加以解释。
3·通过比较不同变异来源的均方,借助F分布作出统计推断,从而了解该因素对观测指标有无影响。方差分析对数据的基本假设(方差分析的应用条件)
1·任何两个观察值之间均不相关
2·每一水平下的观察值均来自正态总体
3·各总体方差相等,即方差齐性(homogeneity of variance)
第二节完全随机设计资料的单因素方差分析
1·在实验研究中,将受试对象随机分配到一个研究因素的多个水平中去,然后观察实验效应。
如将30名乙型脑炎患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗(药物这个研究因素分为3个水平),观察治疗后的退热时间。
2·在观察研究中,按某个因素的不同水平分组,比较该因素的效应。
如比较糖尿病患者,IGT异常和正常人的载脂蛋白有无差别(人群这个研究因素分为3个水平)。
一、完全随机设计
如何分组:可以利用随机数字表(医学统计中的研究设计介绍)
二、变异分解:
例:某社区随机抽取了30名糖尿病患者(11例),IGT异常(9例)和正常人(10例)进行载脂蛋白(mg/dL)测定,问三种人的载脂蛋白有无差别?
1.完全随机设计方差分析中变异的分解
总变异= 组间变异+ 组内变异
2. 分析计算步骤建立检验假设和确定检验水准
H0: 三种人载脂蛋白的总体均数相等,即
H1: 三种人载脂蛋白的总体均数不全相等
α=0.05
计算检验统计量F值
3.确定P值和作出推断结论
当k=2时,对同一资料,F=t2。
第三节随机区组设计的方差分析【亦称配伍组设计,是配对设计的扩大】
例对小白鼠喂以A、B、C三种不同的营养素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。三周后体重增量结果(克)列于下表。问小白鼠经三种不同营养素喂养后所增体重有无差别?
一、随机区组设计
如何分组:
1·先将全部受试对象按某种或某些特征分为若干个区组(block),使每个区组内的观察对象随机地接受研究因素某一水平的处理。
2·由于区组内的个体特征比较一致,减少了个体差异对结果的影响。
二、变异分解
1. 随机区组设计方差分析中变异的分解:SS总=SS处理+SS区组+SS误差
2. 分析计算步骤:建立检验假设和确定检验水准
H0: 三种营养素喂养的小白鼠体重增量相等,即
H1:三种营养素喂养的小白鼠体重增量不全相等
α=0.05
计算检验统计量F值
确定P值和作出推断结论:
一般而言,随机区组设计较成组设计更容易检验出处理组间的差别,提高了研究效率。但不是在任何情况下都能提高研究效率。如果区组效应无统计学意义,则并不能提高研究效率,甚至会降低研究效率。(如果MS区组< MS误差)
区组效应是否具有统计学意义是重要的,它表明区组的划分是否成功。
即达到:区组内各实验单位很均匀,而不同区组内的实验单位具有很大差异。
若没有足够理由显示不同区组间的差别确有统计学意义,则宁可不分区组。
第四节多个样本均数间的多重比较multiple comparison
一、概念
指出哪几组均数之间的差别具有或不具有统计学意义。
当对比组数大于2时,为什么不能用t检验?因为会增加第一类错误的概率,使本来无无差别的两总体均数判为有差别。如有5个样本均数,可作10次t检验。每次不犯第一类错误的概率为1-0.05=0.95。每次比较均不犯第一类错误的概率仅为0.9510=0.5987,每次犯第一类错误的概率为1-0.5987=0.4013,明显增加了犯第一类错误的概率。
二、无效假设的两种情况
1·检验某几个特定总体均数是否相等,其无效假设称为部分无效假设。
2·检验全部k个总体均数是否相等,其无效假设称为完全无效假设。
1. 检验某几个特定总体均数是否相等
H0:
在试验设计阶段就根据研究目的或专业知识决定了某些均数间的两两比较,常用于事先有明确研究假设的证实性研究。如多个处理组与对照组比较;处理后不同时间与处理前比较;几个特定的处理组间比较