方差分析和协方差分析,协变量和控制变量教学提纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差分析和协方差分析,协变量和控制变量
方差分析
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
假定条件和假设检验?
1. 方差分析的假定条件为:(1)各处理条件下的样本是随机的。(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。(4)各处理条件下的样本方差相同,即具有齐效性。
2. 方差分析的假设检验假设有K个样本,如果原假设H0样本均数都相同,K个样本有共同的方差σ,则K个样本来自具有共同方差σ和相同均值的总体。如果经过计算,组间均方远远大于组内均方,则推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义。否则承认原假设,样本来自相同总体,处理间无差异。
作用
一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。经过方差分析若拒绝了检验假设,只能说明多个样本总体均值不相等或不全相等。若要得到各组均值间更详细的信息,应在方差分析的基础上进行多个样本均值的两两比较。多个样本均值间两两比较多个样本均值间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:建立检验假设-->样本均值排序-->计算q值-->查q界值表判断结果。多个实验组与一个对照组均值间两两比较多个实验组与一个对照组均值间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD 法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q'界值表。
基本思想
基本思想
通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
举例分析
下面我们用一个简单的例子来说明方差分析的基本思想:如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87问该地克山病患者与健康人的血磷值是否不同?从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均值的变异情况,则总变异有以下两个来源:组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;组间变异,即由于克山病的影响使得患者与健康人组的血磷值均值大小不等。而且:SS总=SS组间+SS组内v总=v组间+v组内如果用均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,则方差分析就是用组间均方去除组内均方的商(即F值)与1相比较,若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。利用统计学软件分析结果如下:data a;input type num @@;cards;
1 0.84 1 1.05 1 1.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11
2 0.54 2 0.64 2 0.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.56 2 1.87;run;proc anova;class type;model num=type;means type;run;
自由度离差平方和均方
F
值
P值
SS组间(处理因1 1.134181851.134181856.370.0193(有统计学意
素)义)
SS组内(抽样误
22 3.917613990.17807336
差)
总和23 5.05179583
分类及举例
单因素方差分析
(一)单因素方差分析概念理解步骤是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。(二)单因素方差分析原理总结容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,