绪论第一章数据的误差分析.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验设计与数据处理
南京工业大学环境学院 王海玲 Wanghailing_76@
ቤተ መጻሕፍቲ ባይዱ论
1、引言
本课程研究内容:
研究如何合理地安排实验,有效地获得实验 数据,然后对实验数据进行综合的科学分析,以 求尽快达到优化实验的目的。
本课程开设的目的:
将数学的纯理论转向实际应用,利用数学工 具解决实际的环境专业问题,无论是对于目前大 家即将面临的专业课学习、大四的毕业论文实验, 还是将来的生产实践,都是很有必要的。
3)变异系数 =Stdev(…,…,…)/Average(…,…,…) 用于度量单位不同或平均数相差悬殊的两组 或多组资料变异程度的比较 4)偏度系数(skewness) 又称斜度系数,是样本分布是否偏离及如 何偏离对称性的量度。
g1
3 ( Xi X ) 3
nS
Skew(…,…,…)
若g1=0,表示样本分布对称(正态); g1<0,表示样本呈负偏态分布,频数分布曲线高峰偏右; g1>0,表示样本呈正偏态分布,曲线高峰偏左。

使用软件:




附属型统计应用分析软件 Office中的Excel软件 独立型统计应用分析软件 SPSS (Statistical Program for Social Science) SAS (Statistical Analysis System) Statgraphics 计算机统计图形程序 数值计算软件Origin、Matlab、Mathcad等

Excel 分析工具库的安装
“工具”中的“加载宏”Add-ins
选取“分析工具库”,单击“确定”即


使用方法
“工具”菜单中“数据分析”功能
第一部分 数据处理基础
第一章 实验数据的误差分析
误差理论是实验设计与数据处理的基础; 深入了解误差及其相关概念和计算等;
主要掌握误差的概念、来源和分类、误差
(1)绝对误差:实验值-真值 一般可取测量仪器上注明的最小刻度值作为最大绝对误差, 而取其最小刻度的一半作为绝对误差的计算值。 (2)相对误差:绝对误差/真值 相对误差无单位,一般用百分数或千分数表示。 (3)算术平均误差(不常用, Excel函数avedev) 实验值与算术平均值间的偏差的平均值。可以反映一组实 验数据的误差大小,但是无法表达出各实验值间的彼此符合 程度。
算术平均差可以反映一组实验数据的误差大小,但是无法表达 出各实验值间的彼此符合程度;
标准差不但与一组实验值中每一个数据有关,而且对其中较大 或较小的误差敏感性很强,能明显地反映出较大的个别误差。
例1-3:有两批数据,各次测量的偏差分别是: +0.3 -0.2 -0.4 +0.2 +0.1 +0.4 0.0 0.0 -0.3 +0.2 -0.3
(4)标准误差(标准差,standard deviation),又称均方根误 差,标准偏差。 实验值与算术平均值偏差的平方和的平均值的平方根。 计算标准差时,对单次实验数据偏差加以平方,这样做 的好处不仅是避免单次测量偏差相加时正负抵消,更重要的 是使大偏差能更显著地反映出来,故能更好地说明数据的分 散程度。
除了以上几个平均值可以表示数据的集中趋势外, 还有两个指标常用到:
(1)中位数 : Excel函数Median(…,…,…) (2)众数: Excel函数Mode(…,…,…)
二、 误差的基本概念
要求:了解几种误差的表示方法,特别要熟练掌握常 用的几个误差的计算方法以及Excel中对应的函数计 算。
考核方式:课后作业+考试(上机 or 闭卷)
2、关于实验设计与数据处理
本课程中主要应用的是数理统计中的统计方法理论,主要考
虑的是与实验设计有关的分析并解释实验结果的统计方法。 如误差检验、方差分析、回归分析等。。
凡是涉及到数据的问题,只要数据中包含有相当大的实验误
差,则获得满意结果的唯一稳妥的处理方法就是统计方法, 除此之外别无他择。
3)特点:具有统计规律

小误差比大误差出现机会多


正、负误差出现的次数近似相等
当试验次数足够多时,误差的平均值趋向于零 可以通过增加试验次数减小随机误差 随机误差不可完全避免的
(2) 系统误差(systematic error)
1)定义: 一定试验条件下,由某个或某些因素按照某一确 定的规律起作用而形成的误差 2)产生的原因:由于某种确定的因素造成,当造成误差的这 种因素不存在时,系统误差自然会消失。
标准差不但与一组实验值中每一个数据有关,而且对其 中较大或较小的误差敏感性很强,能明显地反映出较大的个 别误差,常用来表示实验值的精密度,标准差越小,则实验 数据精密度越好。
Excel函数:样本标准差s=stdev(…) Excel函数:总体标准差σ=stdevp(…)
标准差与算术平均误差的比较:
3、本课程的讲授内容安排 (1)数据处理基础:误差理论、数据的表 示方法; (2)数据处理部分:有限数据的统计处理、 方差分析、回归分析; (3)实验设计部分:优选法实验设计、正 交实验设计。 4、教材 《试验设计与数据处理》(第二版),李 云雁、胡传荣编著,化工出版社,2008

此例题说明了对环境问题的分析程序是:提出假设——采 样——获取数据——分析数据——从样本推断总体。
涉及到的一些基本术语: 总体:欲研究对象的全体,又称母体 个体:组成总体的每个单元为个体(总体单位) 样本:总体的一部分,即从总体中抽取的部分 个体(子样) 数据(data):对研究对象进行调查和观察的结果。
在每一章中,都介绍了应用Excel软件进行数据 处理的一些方法,借助例题给予解答,目的是充 分利用计算机工具解决实际问题,力求使繁琐的 数学运算不再成为统计学应用的障碍。 目前,通过计算机工具实现数理统计的计算的方 法很多,传统的大多是采用程序设计语言,但随 着计算机技术的不断发展,这种方法越来越不够 实用,近几年来出现了大量的数理统计应用软件。
方法1:运用统计函数进行计算 方法2:运用描述统计的数据分析工具进行计算
三、误差的来源及分类
要求:理解三种误差的来源与差别。 (1)随机误差(又称偶然误差)(random error):
1)定义:一定试验条件下,以不可预知的规律变化着的误差, 绝对误差时正时负,时大时小
2)产生的原因: 随机的、偶然因素
的计算以及有效数字运算等。
主要内容:
真值与平均值
误差的基本概念 误差的来源及分类 误差的性质 有效数字及其运算规则 误差传递
一、 真值与平均值
要求:了解平均值的种类以及计算方法,熟练掌握 Excel中对应的函数计算。
(1)算术平均值(Excel函数average(…,…,…)) (2)加权平均值(见例题1-1和1-2,加权平均值的计算,加深 了解) (3)对数平均值(不常用) (4)几何平均值( Excel函数Geomean(…,…,…)) (5)调和平均值(不常用)
为了回答这个问题,调查组沿着该河干流和支流进行了实地考 察,在不同的地段采集鱼样共144条(由假设拟定抽样调查 的方案);对采集来的鱼样进行分类、称重、测量长度,然 后用有机溶剂提取鱼肉中的DDT,测定鱼肉中的DDT含量 (从调查和试验中获取数据)。很明显,这项调查并不是去 捕捞河里所有的鱼,144个DDT测定值代表着从河中之鱼 DDT含量这个总体中收集的一个样本,利用收集到的数据 可以比较不同地段和不同鱼种之间鱼肉中DDT的含量,并 确定鱼的长度和重量与DDT含量之间是否有定量关系等等 (分析数据——从样本推断总体)。
(定性数据、定量数据) 变量(variable):具有变异性的特征或性状的量
变量:采集地点、鱼种、鱼长、鱼重、鱼中DDT的浓度 定量数据:鱼长、鱼重、DDT浓度产生的数据 定性数据:采集地点、鱼种变量产生的数据
环境工程专业中的实验可归纳为以下几种类型:
(1)物化性质研究:
一般不常用统计方法;
(2)产品、原料等的常规分析:
Cv(方法一)=0.016/17.2*100%=0.093% Cv(方法二)=0.007/3.21*100%=0.22%,
显然,方法二的变异系数较大,亦即方法二 的检测精密度要较方法一的差。
——数据分析工具:描述统计 (Descriptive Statistics)
Excel不仅提供了丰富的统计函数描述总体分布的特征, 同时也提供了“描述统计”工具来计算上述的统计指标。 “工具” “数据分析” “描述统计”
系统误差大于随机误差,对误差需进行一定的设计, 若想获得可靠的估计值,最好的方法就是采用统计方法;
(3)材料特性试验:
随机误差较大, 为了获得可靠的估计值,必须从相当 数量的观测值中取均值,凡是涉及此类实验的研究工作, 均需采用统计法的合理设计; (4)过程研究:主要涉及的是各种实验条件的优化实验, 需要对各种条件变化对过程的影响进行系统性研究,需要 用到统计法的实验设计与数据处理知识。
例1-5:
硒对生物既是营养元素又是有毒元素,硒的价态可用气相 色谱法区分和定量,对一地下水样重复测定7次,硒(IV)和硒 (VI)的含量(ppb)如下: 硒(IV) 1.05 1.25 1.40 1.25 1.30 1.35 1.00 硒(VI) 0.95 1.00 1.25 1.00 0.95 1.05 1.85 要求:计算7测定硒(IV)和硒(VI)的算术平均数、中位数、众 数、方差、标准偏差、全距等统计量。
统计方法应当作为从事工业生产的科技人员所必须掌握的一
门技术,用来有效地处理工业生产中的各种问题。
鉴于此,本课程重点讲授应用统计学理论来解决环境科学与
工程中的遇到的实验问题。
举例说明统计学在环境科学中的应用:
“化工厂经常把有毒废弃物排放到附近的河流中,这些有毒化 学品对栖息在河流中的动植物往往会产生有害的影响。众所 周知的DDT就对鱼类特别有害。对生活在某河流中的鱼类 进行DDT含量的调查曾是一项研究工作的一部分。该河流 是一条东西流向的河流,穿过一个水库,生态学家担心受污 染的鱼会从河口迁移到水库危及那里的依赖鱼类生存的其他 野生动物。该河干流及其支流的鱼是否被DDT污染?受污 染的鱼能迁移到上游多远的地方?(提出了假设)
+0.1 -0.7 +0.2 -0.1 -0.2 +0.5 -0.2 +0.3 +0.1
第一批与第二批的数据算术平均误差均为 0.24,但明显可以看出,第二批的数据较为分 散,其中有两个较大的偏差。所以,用平均偏 差反映不出两批数据的好坏,但如果用标准差 来表示,情况便很清楚了,其标准差分别为:
S1
5)峭度(kurtosis) 又称峰态系数,用来衡量样本分布的峰形陡峭程度
g2
( Xi X ) nS
4
4
3
Kurt(…,…,…)
若g2=0,表示峰度适中,为正态峰; g2<0,表示高峰平坦,为平阔峰; g2>0,表示高峰陡峭,为尖峭峰。
例1-4:用方法一检测一植物样品的有机砷含量为 17.2mg/L,标准差为0.016mg/L;用方法二检测 另一植物样品的有机砷含量为3.21mg/L,标准差 为0.007mg/L,显然,方法一的标准差比方法二 的标准差大,但这不能说明方法一的误差大,应 该比较变异系数。
2 di
10 1
2 di
0.28
S2
10 1
0.33
可见,第一批数据的精密度较好。
以上指标反映的是实验数据的变异程度,对于 平均数相同的两组数据,变异程度可能不同,变异 程度反映了集中趋势指标的代表性情况,变异程度 越小,其代表性越好。只有将集中趋势指标与变异 程度指标结合使用才能对数据进行全面的统计学描 述。 反映数据变异程度的指标还有: 1)全距(极差) =Max(…,…,…)-Min(…,…,…) 2)方差:标准差的平方 Var(…,…,…)
3)特点:

系统误差大小及其符号在同一试验中是恒定的 它不能通过多次试验被发现,也不能通过取多次试验值的 平均值而减小 只要对系统误差产生的原因有了充分的认识,才能对它进 行校正,或设法消除。

系统误差的产生原因:
相关文档
最新文档