(整理)实习四均值比较方差分析.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实习四均值比较和方差分析
一均值比较与方差分析的概念
统计分析常常采取抽样研究的方法。
即从总体中随机抽取一定数量的样本进行研究来推论总体的特性。
由于总体中的每个个体间均存在差异,即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同。
由此可以得出这样的认识:均值不相等的两个样本不一定来自均值不同的总体。
能否用样本均数估计总体均数,两个变量均数接近的样本是否来自均值相同的总体?换句话说,两个样本某变量均值不同,其差异是否具有统计意义,能否说明总体差异?这是各种研究工作中经常提出的问题。
这就要进行均值比较。
对来自正态总体的两个样本进行均值比较常使用T检验的方法。
T检验要求两个被比较的样本来自正态总体。
两个样本方差相等与不等时使用的计算t值的公式不同。
进行方差齐次性检验使用F检验。
对应的零假设是:两组样本方差相等。
p值小于0.05说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。
F值的计算公式是:F=S12(较大)/S22(较小)
方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。
二实习目的和原理
假设检验的目的:推断两个总体均数是否相等
均值过程
单一样本T检验(One-Sample T Test)
独立样本T检验(Independent-Sample T Test)
配对样本T检验(Paired-Sample T Test)
方差分析(One-Way ANOVA)
附正态分布的检验
数据要求(t检验适用范围):使用T检验法对两个独立样本的均值进行比较,除要求这两个样本都来自正态总体或近似正态分布(包括偏态转换),还要对两个正态总体的方差是否相等加以区分,即需要确定两个正态总体是否具有方差齐性。
t检验适用于可比性资料,即除了欲比较的因素外,其它所有可影响的因素应相似。
假设检验的注意事项
1 假设检验的P值不能反映总体均数差别的大小。
P值越小,越有理由(越有把握)认为两总体均数不相等。
2 假设检验的结论具有概率性。
H0原本正确, 但P≤0.05,拒绝H0 :第一类错误(α)
H0原本不正确,但P>0.05,不拒绝H0 :第二类错误(β)
α为事先指定的检验水平(一般取0.05),β未知;α越小,β越大;α越大,β越小;
增大样本量n,可以同时减小α和β。
三实习内容与步骤
4.1 Means过程
4.1.1 界面说明
4.1.2 结果解释
4.2 One-Samples T Test过程
4.2.1 界面说明
4.2.2 结果解释
4.3 Independent-Samples T Test过程
4.3.1 界面说明
4.3.2结果解释
4.4 Paired-Samples T Test过程
4.4.1界面说明
4.4.2分析实例
4.4.3结果解释
4.5One-Way ANOVA过程
4.5.1界面说明
4.5.2分析实例
4.5.3结果解释
该菜单集中了几个用于计量资料均数间比较的过程。
具体有:
∙Means过程对准备比较的各组计算描述指标,进行预分析,也可直接比较。
∙One-Samples T Test过程进行样本均数与已知总体均数的比较。
∙Independent-Samples T Test过程进行两样本均数差别的比较,即通常所说的两组资料的t检验。
∙Paired-Samples T Test过程进行配对资料的显著性检验,即配对t检验。
∙One-Way ANOV A过程进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。
§4.1 Means过程
和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。
显然要方便的多。
4.1.1界面说明
【Dependent List框】
用于选入需要分析的变量。
【Independent List框】
用于选入分组变量。
【Options钮】
弹出Options对话框,选择需要计算的描述统计量和统计分析:o Statistics框可选的描述统计量。
它们是:
1.sum,number of cases 总和,记录数
2.mean, geometric mean, harmonic mean 均数,几何均数,修正均数
3.standard deviation,variance,standard error of the mean 标
准差,均数的标准误,方差
4.median, grouped median 中位数,频数表资料中位数(比如30岁组
有5人,40岁组有6人,则在计算grouped median时均按组中值35
和45进行计算)。
5.minimum,maximum,range 最小值,最大值,全距
6.kurtosis, standard error of kurtosis 峰度系数,峰度系数的标
准误
7.skewness, standard error of skewness 偏度系数,偏度系数的标
准误
8.percentage of total sum, percentage of total N 总和的百分比,
样本例数的百分比
o Cell Statistics框选入的描述统计量。
o Statistics for First layer复选框组
1.Anova table and eta 对分组变量进行单因素方差分析,并计算用于
度量变量相关程度的eta值。
2.Test for linearity 检验线性相关性,实际上就是上面的单因素方
差分析。
4.1.2结果解释
有了上一章的基础,Means过程的输出看起来就不太困难了。
以第一章的数据为例,输出如下:
Means
上表还是缺失值报告。
常用统计描述量报表。
这里按默认情况输出均数,样本量和标准差。
由于我们选择了分组变量,因此三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。
上表为单因素方差分析表。
在选择了Anova table and eta或Test for linearity 复选框时出现。
实际上就是在检验各组间均数有无差异。
上面各项的具体含义将在单因素方差分析一节中解释。
相关性度量指标,给出Eta值以及Eta值的平方根。
§4.2 One-Samples T Test过程
One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。
4.2.1界面说明
【Test Variables框】
用于选入需要分析的变量。
【Test Value框】
在此处输入已知的总体均数,默认值为0。
【Options钮】
弹出Options对话框,用于定义相关的选项,有:
o Confidence Interval框输入需要计算的均数差值可信区间范围,默认为95%。
如果是和总体均数为0相比,则此处计算的就是样本所在总体均数的可信区间。
o Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量
有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。
默认为前者,以充分利用数据。
4.2.2结果解释
One-Samples T Test过程的输出也是比较简单的,由描述统计表和t检验表组成,比如要检验数据li1_1.sav中血磷值的总体均数是否等于1,则输出如下:T-Test
所分析变量的基本情况描述,有样本量、均数、标准差和标准误。
上表为单样本t检验表,第一行注明了用于比较的已知总体均数为1,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(Mean Difference)、差值的95%可信区间。
由上表可知:t=2.975,P=0.007。
因此可以认为血磷值的总体均数不等于1。
§4.3 Independent-Samples T Test过程
Independent-Samples T Test过程用于进行两样本均数的比较,即常用的两样本t检验。
该对话框的界面我们在第一章已经见过了,和上面的One-Samples T Test对话框非常相似。
4.3.1界面说明
【Test Variables框】
用于选入需要分析的变量。
【Grouping Variable框】
用于选入分组变量。
注意选入变量后还要定义需比较的组别。
【Define Groups框】
用于定义需要相互比较的两组的分组变量值。
可以这样来理解:如果分组变量有3个取值(即有三组),而我们做t检验是比较其中的某两组,这时就可以用Define Groups框来指定需比较的两组。
当然,如果分组变量只有2个取值时,我们仍然要再该框中进行定义,这也算是SPSS 对话框存在的一个小缺陷吧。
【Options钮】
和One-Samples T Test对话框的Options钮完全相同,此处不再重复。
4.3.2结果解释
比如要检验数据li1_1.sav中克山病患者与健康人的血磷值是否相同,用Independent-Samples T Test过程的结果输出如下:
T-Test
两组需检验变量的基本情况描述。
可见该结果分为两大部分:第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为F = 0.032,P = 0.860,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t= 2.524,ν=22,P=0.019。
从而最终的统计结论为按α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。
最后面还附有一些其他指标,如两组均数的可信区间等,以对差异情况有更直观的了解。
§4.4Paired-Samples T Test过程
该过程用于进行配对设计的差值均数与总体均数0比较的t检验,对统计学比较熟悉的朋友可以看出,他的功能实际上是和One-Samples T Test过程相重复的
(等价于已知总体均数为0的情况),但Paired-Samples T Test过程使用的数据输入格式和前者不同,即我们所称的统计表格格式,因此仍然有存在的价值。
4.4.1界面说明
整个界面上只有一个Paired Variable框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。
选入变量需要成对成对的选
入,即按住Ctrl键,选中两个成对变量,再单击将其选入。
如果只选中一个变量,则按钮为灰色,不可用。
4.4.2分析实例
例4.1 某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(卫统第三版例4.5)?
大白鼠对号正常饲料组维生素E缺乏
1 3550 2450
2 2000 2400
3 3000 1800
4 3950 3200
5 3800 3250
6 3750 2700
7 3450 2500
8 3050 1750
解:为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。
操作如下:
1.同时选中G1、G2:选入Paired Variables框
2.单击OK钮
4.4.3结果解释
以例4.1为例,其输出结果如下:
T-Test
配对变量各自的统计描述,此处只有1对,故只有Pair 1。
此处进行配对变量间的相关性分析。
等价于
Analyze==>Correlate==>Bivariate。
配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。
§4.5 One-Way ANOVA过程
One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,他是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。
对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课:论统计软件中的数据录入格式,会大有帮助的。
4.5.1界面说明
【Dependent List框】
选入需要分析的变量,可选入多个结果变量(应变量)。
【Factor框】
选入需要比较的分组因素,只能选入一个。
【Contrast钮】
弹出Contrast对话框,用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。
o Polynomial复选框定义是否在方差分析中进行趋势检验。
o Degree下拉列表和Polynomial复选框配合使用,可选则从线性趋势一直到最高五次方曲线来进行检验。
o Coefficients框定义精确两两比较的选项。
这里按照分组变量升序给每组一个系数值,注意最终所有系数值相加应为0。
如果不为0仍可检验,只不过结果是错的。
比如说在下面的例4.2中要对第一、三组进行单独比较,则在这里给三组分配系数为1、0、-1,就会在结果中给出相应的检验内容。
【Post Hoc钮】
弹出Post Hoc Multiple Comparisons对话框,用于选择进行各组间两两比较的方法,有:
o Equar Variances Assumed复选框组一组当各组方差齐时可用的两两比较方法,共有14中种这里不一一列出了,其中最常用的为LSD和S-N-K法。
o Equar Variances Not Assumed复选框组一组当各组方差不齐时可用的两两比较方法,共有4种,其中以Dunnetts's C法较常用。
o Significance Level框定义两两比较时的显著性水平,默认为0.05。
此处只是介绍可用的方法,并不是要推荐说那种最好,使用时请认真参考有关统计书籍。
【Options钮】
弹出Options对话框,用于定义相关的选项,有:
o Statistics复选框组选择一些附加的统计分析项目,有统计描述(Descriptive)和方差齐性检验(Homogeneity-of-variance)。
o Means plot复选框用各组均数做图,以直观的了解它们的差异。
o Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。
默认为前者,以充分利用数据。
4.5.2分析实例
例4.2 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别(卫统第三版例5.1)?
石棉肺患者可疑患者非患者
1.8
2.3 2.9
1.4
2.1
3.2
1.5
2.1 2.7
2.1 2.1 2.8
1.9
2.6 2.7
3.0
1.7
2.5
1.8
2.3
3.4
1.9
2.4
3.0
3.4
1.8
2.4
1.8
3.3
2.0
3.5
解:设数据已经输好,分组变量为group,三组取值分别为1、2、3,结果变量为X。
此处先进行单因素方差分析,然后进行两两比较,这里选择S-N-K法进行两两比较。
操作如下:
o
o Dependent List框:选入X
o Factor框:选入group
o Post Hoc钮:选中S-N-K复选框:单击Continue钮
o单击OK钮
4.5.3结果解释
上题的输出结果如下:
Oneway
上面实际上是一个典型的方差分析表。
给出了单因素方差分析的结果,可见
F=84.544,P<0.001。
因此可认为三组矿工用力肺活量不同。
上表的标题内容翻
Post Hoc Tests
Homogeneous Subsets
上表是用S-N-K法进行两两比较的结果,简单的说,在表格的纵向上各组均数按大小排序,然后在表格的横向上被分成了若干个亚组,不同亚组间的P值小于0.05,而同一亚组内的各组均数比较的P值则大于0.05。
从上表可见,石棉肺患者、可疑患者和非患者被分在了三个不同的亚组中,因此三组间两两比较均有差异;由于各个亚组均只有1个组别进入,因此最下方的组内两两比较P值均为1.000(自己和自己比较,当然绝对不会有差异了)。
从上面的解释大家可以得知:SPSS进行两两比较时,如果有差异,则只会告诉你P值小于预定的界值(默认为0.05),而不会给出具体的概率P有多大。
四实习题目
实习一
为了判断某种新型快速水分测定仪的可靠性,用该仪器测定了某湿基含水量为7.5%的标准样品,5次测定结果(%)为7.6,7.8,8.5,8.3,8.7。
对于给定的显著性水平α=0.05,
试检验:(1)该仪器的测量结果是否存在显著的系统误差?(2)该仪器的测量结果较标准值是否明显偏大?
实习二
用烘箱发(方法一)和一种快速水分测定仪(2)测定某样品的含水量,测定结果(%)如下:方法一:12.2,14.7,18.3,14.6,18.6
方法二:17.3,17.9,16.3,17.4,17.6,16.9,17.3
对于给定的显著性水平α=0.05,试检验两种方法之间是否存在系统误差?
实习三
用两种方法测定某水剂型铝粉膏(加气混凝土用)的发气率,测定4分钟发气率(%)的数据如下:方法一:44,45,50,55,48,49,53,42,
方法二:48,51,53,57,56,41,47,50
试问两种方法之间是否存在系统误差?(α=0.05)
实习四
对于大气某污染物浓度进行了三批样品的采集,数据见spss 4大气某污染物浓度,已知该污染物的居民区国家标准是0.14mg/m3,请问这三批样品某污染物浓度是否等于国家标准?是否超标?(α=0.05)
实习五
某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下(另见spss 5), 问该地急性克山病患者与健康人的血磷值是否不同?(α=0.05)
患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(数据另见spss 6)? (α=0.05)
大白鼠对号正常饲料组维生素E缺乏
1 3550 2450
2 2000 2400
3 3000 1800
4 3950 3200
5 3800 3250
6 3750 2700
7 3450 2500
8 3050 1750
实习七
采集了20个高砷地区的地下水样品随机分成两组,分别采用两种措施去除,测得试验前后的数据(10-2mk/L)如下表2(另见excel 表1)。
请问甲乙两种措施是否均有效?甲乙两种措施效果是否相同?(17分)
表1 两种措施污染物去除效果
甲措施样品号 1 2 3 4 5 6 7 8 9 10
处理前10 13 6 11 10 7 8 8 5 9
处理后 6 9 3 10 10 4 2 5 3 3 乙措施样品号 1 2 3 4 5 6 7 8 9 10
处理前9 10 9 13 8 6 10 11 10 10
处理后 6 3 5 3 3 5 8 2 7 4
实验室质量控制工作中,令4个操作人员对同一环境水样的镉元素含量进行10次重复测定,测定结果见表3(另见excel 表2 ),操作人员使用同一套测量仪器和测量方法,试用0.05的置信水平通过方差分析判断操作人员是否对测定结果有显著影响?
12345678910
甲2222.521.723.122.821.521.422.923.521.2
乙21.820.922.721.220.220.721.12221.520.6
丙21.923.223.822.92422.821.222.723.423.8
丁22.122.821.621.722.42323.22221.823
五附正态分布的检验
一、图示法
1、P-P图
以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。
如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。
2、Q-Q图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。
如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。
以上两种方法以Q-Q图为佳,效率较高。
3、直方图
判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
4、箱式图
判断方法:观测离群值和中位数。
5、茎叶图
类似与直方图,但实质不同。
二、计算法
1、偏度系数(Skewness)和峰度系数(Kurtosis)
计算公式:
g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。
两种检验同时得出U<U0.05=1.96,即p>0.05的结论时,才可以认为该组
资料服从正态分布。
由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。
2、非参数检验方法
非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W 检验)。
SAS中规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。
SPSS 规定:当样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为难,当样本含量n > 5000 结果以Kolmogorov - Smirnov 为准。
对于此两种检验,如果P值大于0.05,表明资料服从正态分布。
三、SPSS操作示例
SPSS中有很多操作可以进行正态检验,在此只介绍最主要和最全面最方便的操作:
1、工具栏--分析—描述性统计—探索性
2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项(Both)。
3、Output结果
(1)Descriptives:描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。
S k=0,K u=0时,分布呈正态,Sk>0时,分布呈正偏态,Sk<0时,分布呈负偏态,时,Ku>0曲线比较陡峭,Ku<0时曲线比较平坦。
由此可判断本数据分布为正偏态(朝左偏),较陡峭。
(2)Tests of Normality:D检验和W检验均显示数据不服从正态分布,当然在此,数据样本量为1000,应以W检验为准。
(3)直方图
直方图验证了上述检验结果。
(4)此外还有茎叶图、P-P图、Q-Q图、箱式图等输出结果,不再赘述。
结果同样验证数据不符合正态分布。