科技论文中平均差、标准差、标准误和误差线的正确使用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科技论文中平均差、标准差、标准误和误差线的正确使用
王海科
【摘要】本文阐述了科技论文统计分析时如何正确使用平均差、标准差和标准误,对误差线的使用状况进行调查,并给出了在使用误差线中应该注意的问题和解决办法。%A problem often occurs, that is accurately using average
deviation ,standard deviation, standard er-ror and error lines during analyzing scientific research results and writing scientific and technical papers .The first,how to properly use the average deviation ,standard deviation and standard error when statistical analyzing in scientific and technical papers was analyzed .And then the usage of error lines was investigated .Last, the problems and solutions should be noted were given .【期刊名称】《和田师范专科学校学报》
【年(卷),期】2013(000)002
【总页数】4页(P118-121)
【关键词】平均差;标准差;标准误;误差线;正确使用
【作者】王海科
【作者单位】郑州大学学报编辑部,河南 450001
【正文语种】中文
在科学研究过程中,常常需要对试验结果进行统计分析,平均差(Average
deviation)、标准差(Standard deviation)和标准误(Standard error)是数据分析
中经常用到的3个统计量。在科研结果的整理和论文写作过程中,如何正确合理
的应用平均差、标准差与标准误也是常常碰到的问题。本文从中国知网随机抽查2011-2012年度使用excel进行数据处理和作图的100篇自然科学领域的论文,调查论文图表中对标准差、标准误和误差线的使用情况及应注意的问题进行讨论。
一、平均差、标准差的区别
平均差和标准差都是用来描述总体的变异程度的指标。平均差是指样本中各测量值与其算术平均数离差绝对值的算术平均数,用公式表示为(1),其中,xi为样本中
各观测值,n为观测次数,-x为所有观测值的平均数。标准差是指样本测量值与其算术平均数离差平方的算术平均数的平方根,用公式表示为S=(2),下面通过实例来说明平均差和标准差的区别和联系。表1给出了2010年两小麦新品种在不同地区的株高测量结果,可用平均差和标准差来比较两品种在不同地区的小麦株高的稳定性。按公式(1)、(2)可计算出两品种的平均差和标准差分别为:AD甲=1.2cm,AD 乙 =cm,S甲 =1.6cm,S乙 =7.9cm。
2010年两小麦新品种在不同地区的株高(表1)地区株高/cm甲品种乙品种安阳
78 70周口82 75南阳79 80郑州80 85洛阳80 80 81 90平均株高( -x)
计算说明,不论是用标准差还是平均差,都说明对于不同地区来说,甲品种比乙品种的株高稳定性好。
虽然标准差和平均差都说明了观测值之间的离散程度,但是在某些情况下,对于同一套数据进行计算,二者却得出不同的结论。我们仍以小麦两品种在不同地区种植的株高数据为例来进行说明。
2011年两小麦新品种在不同地区的株高(表2)地区株高/cm丙品种丁品种安阳
72 70周口88 78
南阳75 80郑州80 82洛阳80 80 85 90平均株高( -x)
表2给出了2011年两小麦新品种在不同地区的株高测量结果,按公式(1)、(2)计
算出两品种的平均差和标准差分别为:AD丙=6.5cm,AD丁=6.0cm,S丙
=6.7cm,S丁=7.2cm。平均差的计算结果说明丁品种的株高稳定性好于丙品种,但标准差的计算结果说明丙品种的株高稳定性好于丁品种。产生以上结果的原因可从公式(1)、(2)变形后看出来。(4)(3)式说明平均差不论对于较大的离差还是较小
的离差,权重均为,所以平均差既不夸大离差,也不缩小离差。而从(4)式可以看出,标准差将离差平方,相当于离差大,权重也就大,离差小,权重也就小。客观上,标准差相应增强了极端值对变异离散程度的影响。在统计计算过程中及统计学教材中,一般认为标准差去掉了绝对值符号,计算起来较为方便,因此较多地采用标准差来描述样本离散程度。
二、标准差、标准误的区别
标准差S与样本均数()同时用,可以对正态或近似正态分布的总体正常值范围进行估计。一般±1.96S表示双侧95%正常值范围,±S表示双侧 68%正常值范围,
+1.65S 或-1.65S表示单侧95%正常值范围等,只有在正常值范围估计时才使用±S。当正态分布的样本容量太小(小于30或100),或者数据与正态分布相差很大时不宜用±S估计正常值范围。标准误(S-x)是主要描述小样本试验中,样本容量
相同的同质的多个样本均数()间的变异程度的统计量,标准误的计算公式是适用于正态或近似正态分布的数据。即如果一个试验进行多次重复,可获多个,它们之间的变异程度用表示。可知越小,的变异就越小,越稳定估计总体均数就越可靠。科技论文中,为说明-x的稳定性、可靠性,应当用± 描述数据。与一起使用还能
够给出正态总体均值的可信区间估计,常用± t0.05(n- 1)表示总体均值的95%可信区间,表示总体均值有95%的把握在所给范围内〔其中t0.05(n-1)为样本容量,是n的t界值〕。
三、标准差与标准误的正确使用
科技期刊上不断出现有标准差和标准误的错误使用,这严重影响了科技文章的科学价值和学术水平。为使科学研究者熟知这一知识,使各类科技期刊在交流中能统一标准,正确使用标准差和标准误,需要了解两者的联系和区别。标准差和标准误既有密切的联系,又有显著的区别,标准差描述了观测值个体间的变异,即个体差异,表示观察值间波动的大小,标准差小,表示观察值围绕均数的波动较小,反之波动则大[1-2]。如在一项农业研究中,某小麦品种甲20株株高平均为82.7cm,其标准差为7.12cm,这种情况下,约68%的小麦株高数值将落在平均数上、下
各一个标准差内,95%的数值将落在平均数上下各1.96个标准差内,99%的数值将落在平均数上下各2.58个标准差内。这一特点使标准差成为表示观测值个体间
离散程度的最好方法。这些数据不仅使研究者知道品种甲株高的集中趋势,同时还能清晰的知道品种甲株高95%的数值将落在68.5~96.9cm之间。又假如小麦品
种乙20株株高平均值为80cm,其标准差为6.98cm,品种乙的标准差小于品种甲,说明品种乙株高观察值围绕均数的波动较小,该平均值更能作为所有观测值的代表。标准误是说明统计量的抽样误差,即样本统计量与总体参数的离差程度[3]。比如在进行小麦株高的调查研究中,研究者不可能调查所有对象,而是仅研究一小都分作为代表性样本,从这一样本所得出的株高平均数是所有对象的真正株高平均数的估计值之一,同理还可以算出第二、第三个样本均数。从理论上讲可以计算出全部可能样本的平均数,这些所有可能样本株高平均数的标准差既是平均数的标准误。由此可见,标准误并不能象标准差那样指示观察数值的变异范围,而是指示一个样本均数在估计真正总平均数时的误差,即说明样本均数这一变量值离散程度的指标。标准误常用于比较两样本均数相差的显著性检验,即研究两组计量资料的均数间有没有显著差别。上面例子中要考察两品种的株高平均值是否有显著差异,就需计算± t0.05,看品种乙株高平均值80cm是否落在该范围内,如果落