科学研究中的数据处理方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

❖ 异常值,先求出这组数据的平均值 及标准偏差S,
然后求出统计量T。

若怀疑x1为异常值,则:
T
1
s
❖ 若怀疑xn为异常值,则: T n
s
若计算T值大于表中所列临界值 g0(n,α) ,为异常值舍弃, 否则保留。
Ex:用格鲁布斯法判断前例中的40.02是否应舍弃,设
p 95%
则α=0.05 n=5
一、异常值及剔除
❖ Ex: 测定碱灰的总碱量(Na2O)得到5个数据, 40.02;40.13;40.15;40.16;40.20 试问 40.02是否应舍弃?
❖ 这是异常值的检验问题,如何判断是否属于 异常值?这就要求我们必须对测量误差有所 认识,对其分布规律有所了解,才能给出合 理的置信限并做出正确判断。为了解决这一 问题,下面我们介绍实验误差的分布规律。
❖ 这是H.M.Goodwin 提出的简单的判断方法,为了方 便起见,可以用单次测量的平均偏差δ代替σ,由于 δ≈0.80σ 3σ≈4δ(n→∞)
❖ 对于一般的有限次测量用平均偏差 d 代替δ,即略 去可疑观测值后,计算其余各观测值的平均值及平 均偏差,然后计算出可疑观测值与平均值的偏差, 若其大于等于4 d 者舍去”。
我们先研究
y f ( x) a0 a1x a2 x2
的最小二乘拟合
残差的平方和为:
Q ( y a0 a1x a2 x2 )2
求极值:
Q a0
2( y a0
a1x a2 x2 ) 0
k b 2.80 1.99 1.405
y 0.502x1.99
4、将原始数据代入验证:
x
0.5 1.0 1.5 2.0 2.5 3.0
y
0.13 0.5 1.12 1.99 3.11 4.47
通过验证基本符合,假定成立。
注意:上述处理是基于消除了系统误差,偶然误差不大较理想的前提下得到
的,但我们知道,常规实验,即使是消除了系统误差,偶然误差也是存 在的,有时是很大的,所以这种处理是粗糙的,亦是不严格的,更为精 确和严格的拟合可以采用最小二乘法。
解方程:
y b x
a n
将 b 代入 a
b
xy
1 n
x
y
x2
1 n
(
x)2
x2 y x xy
a
n x2 ( x)2
我们通过实验测得一系列数据 xi 、yi 后,分别求出 x 、 y
x、2 、 xy ,代入公式就可以求出参数 a 、b 的值。
2、用多项式(最小二乘)拟合曲线 方程
0.611<0.642
❖ 40.02应保留。
总结
❖ 有人用实例作了一些初步分析,认为狄克逊 法稍宽,而格拉布斯法比较适中,在仅有一 个异常值时,格拉布斯法效果好;但存在多 个异常值时,狄克逊法好,但在粗大误差剔 除中,是不允许大量剔除的,选择较小的α 值可以达到限制的目的,这样处理虽然标准 偏差略大,但相对安全。
举例
❖ Ex: 用狄克逊法判断前例中的40.02是否应舍弃? ❖ 解:将数据排列,取 α =0.05 ❖ 40.02 40.13 40.15 40.16 40.20
40.13 40.02 0.11 f10 40.20 40.02 0.18 0.611
❖ Q f(5,0.05) 0.642

(1) (2) L (n) 当 xi 服从正态分布时
❖ 用不同的公式求得 f 值,再经过查表,得到相应的临界值,进
行比较,若计算值>f(n, α)视为异常值,舍弃;再对剩余数值进
行检验,直到没有异常值为止。狄克逊通过模拟实验认为:
n≤7,使用 f10 ;8≤n≤10,用 f11 ;11≤n≤13,用 f21 ;n≥14,用 f22 效果好。
❖ 通过比较,4 d 法显得更粗糙。
建议:在较为精密的实验中,可以选用二、三种 方法加以判别,当一致认为某值应剔除或保留时, 可以放心地予以剔除或保留。当几种方法的判别 结果有矛盾时,应慎重考察,一般不予以剔除。
二、数据处理方法
❖ (一)列表法 ❖ (二)作图法 ❖ 以上方法比较简单,我们在实验讲座中已经
(五)线性参数的最小二乘估计
❖ 1、直线方程的最小二乘拟合 ❖ 最小二乘法的基本思想:最佳结果应能使标
准误差最小,所以残差的平方和应为最小。 ❖ 我们假定:在 xi 、yi 两个量中,xi 的测量
误差远小于 yi 的测量误差,用Q表示残差的 平方和,我们可以写出:
n
Q ( yi a bxi )2 i 1
正态分布(连续型分布)
❖ 正态分布最初是从误差理论的研究中提出来 的,高斯于1795年推导出它的函数形式,所 以又称为高斯分布。
❖ 正态分布是应用最多的一种分布,很多随机 变量都近似服从正态分布。如泊松分布,当 它的数学期望值比较大时,可以证明它趋近 于正态分布。正态分布概率密度函数为:
f (x)
❖ 从数学上说,给定了几个数据点,我们总能 求得一条多项式曲线的方程,使之恰好通过 这n个数据点,一般来说若有n对测量数据 (xi,yi)i =1,2,…n,则函数y = f(x)总可以用 一个含有(k+1)个参数的k阶多项式来逼近, (k+1 < n)即
y f (x) a0 a1x a2 x2 L ak xk
则:
b ln a
ln x
将数据列表 12
δ — -0.693
3 4 5 67
0.000 0.405 0.693 0.916 1.10
η— -2.12 -0.693 0.030 0.693 1.16 1.50
绘制 η-δ曲线
得到一条直线,由截距 0 ln a 0.69 解得: a =0.502
介绍,就不赘述。 ❖ (三)插值法计算数值 ❖ 1、作图插值法
Ex:用分光光度计法测定溶液中铁的含量,测得标准曲线数据如下:
Fe+3(μg/mL) 2
4
6
8 10 12
吸光度(A) 0.097 0.200 0.304 0.408 0.510 0.613
测得未知液的吸光度为0.413,试求未知液中铁的含量。
=
1
1
2 1
exp( y2 )dy
2
将exp(-y2)展开成级数
exp( y2 ) 1 y2 y4 y6 L 2! 3!
取四项近似,有 P(a-σx<X≤a+σx)
=
1
1
2 1
(1
2
y2
y4 2!
y6 )dy 3!
=
1
( y 1 y3 1
3
10
y5 1 42
y7 )
1
2 1
2
=0.6825
Ex:制作
y 2 x x3 的差分表。
表中△y表示y的依次差值,△y2表示y的差值的差值,以此类推。
在上面的例子中,x的差值为1,实际上x的差值可 以为任意恒量,令此恒量为h,做出差分表的通式。
牛顿内插公式的推导:
❖ 设 y a0 a1x a2 x2 L ❖ 式中系数均为常数。令数据表中x等差变化,
1
(x a)2
exp[
2 x
2 x2
]
式中:
x
n
(xi a)2
i 1
n 1
(均方根差)
有了分布函数,我们就可以计算以x为中心的某个区间 (x – kσx,x + kσx)内包含真值a的概率P(x-kσx≤a≤x+kσx)。 这里K是以σx为单位的区间半径,称为置信系数。但是为了求 出P(x-kσx≤a≤x+kσx),我们可以反过来说,它等于任一测 量值 x 落在以a为中心,以kσx为半径的区间内的概率。
同理:
a 2
f (x)dx 0.9550
a 2
a 3
f ( x)dx 0.9974
a 3
计算结果表明:偏差大于3σ的测量值出现的概率约 为0.26%,这属于小概率事件,在有限次实验中是不 可能发生的,如果在实验中出现就可作为异常值,应 舍弃。从而给出合理的置信限。
(二)异常值的检验
1、 4倍偏差法yanhya nyan(n 1) 2!
2
ya
n(n
1)(n 3!
2)
3
ya
L
n ya
❖ 即得牛顿内插公式。其表面上看是一个无限级数, 但实际上,Δx 若取得很小时,高次项均可略去不计。
举例
❖ 下表是水的表面张力系数随温度变化的数据及差分 表。试用牛顿内插公式求13.2℃时的表面张力系数。
(四)经验公式拟合方法
但异常值检验方法的选择与测量次数有关,可以证明 当n≤10时,4倍法失效,后面的例子也可以说明这一点。
2、格鲁布斯法(grubbs)法
格鲁布斯导出了T= xi x max / s 统计量所服从的 理论分布。取定显著性水平α(相当于犯
“弃真”错误的概率)为0.05或0.01,可由
P{T≥g0(n,α)}=α求得临界值g0(n,α)。 ❖ 将一组数据从小到大,排列,其中x1 或 xn 可能为
1科学研究中的数据处理方法简介周广运前言所谓科学研究包括在实验室这个特定的条件下人为地再现自然界所发生的量变现象的研究常常需要借助于各种各样的实验与测量来进行通过实验结果的整理归纳分析寻找变化的规律借以认识我们周围所发生的客观过程从而能动地改造客观世界
科学研究中的数据处理方法 (简介)
周广运
前言
❖ 所谓科学研究,包括在实验室这个特定的条 件下,人为地再现自然界所发生的量变现象 的研究,常常需要借助于各种各样的实验与 测量来进行,通过实验结果的整理、归纳、 分析、寻找变化的规律,借以认识我们周围 所发生的客观过程,从而能动地改造客观世 界。
(一)实验误差的分布规律
❖ 我们的前人对实验误差(随机误差)的产生及分布 规律作了大量研究,发现随机变量的分布函数有很 多种,离散型分布有二项式分布、泊松分布、超几 何分布等;连续分布有正态分布、均匀分布、 2 分 布、t分布等。由于在物理测量及化学测量中遇到最 多的是连续型正态分布,所以主要介绍正态分布。
❖ 值得注意的是 d ≠δ,用其代替δ会产生误差,但 该方法比较简单,因此仍常被采用。
举例
❖ Ex: 用4倍法判断前例中40.02是否应舍弃? ❖ 解:除去40.02后
❖ x =40.16,d =0.02
❖ 4 d =0.08 ❖ Q ∣40.02-40.16∣= 0.14>0.08 ❖ 40.02应舍弃。
❖ 拟合过程大体分为如下几个环节: ❖ 1、判断和假设 ❖ 2、改直 ❖ 3、检验 ❖ 下面以例子说明:
❖ 设已测得一组数据如下: ❖ 首先将数据绘成曲线,如图;
2、根据曲线的形状判断,类似指数曲线,且通过原点, 判断无常数项,假定经验公式为:
y axb
3、改直:在等式两边取对数
令: ln y b ln x ln a ln y
即P(x-kσx≤a≤x+kσx)= P(a-kσx≤x≤a+kσx)
Ex: 用积分的方法求正态随机变量在区间P[a -σx,a +σx]的 概率。
解: P(a –σx≤X≤a +σx)
2
=
a x a x
1 2 x
exp[
1 2
xa
x
]dx

y xa
2 x
则 P(a -σx<X≤a +σx)
根据差分表通式归纳各项,使得y值均用各级 差分的首项表示,得到下列结果:
❖ 设差分表中的a是自变量x的首项,h是x的公 差,n 是x 的项序,则有 x =a+nh, n x a
h
证明
ya2h yah yah ya ya ya 2 ya ya 2ya 2 ya
❖ 以此类推,推广到n项得:
吸光度(A)
工作曲线
0.7 0.6 0.5
y = 0.0516x - 0.0061 R2 = 1
0.4
0.3 0.2 0.1
0
0
2
4
6
8
10 12 14
Fe的浓度(μg/mL)
在图的纵坐标上0.413处找到直线上对应点,读出其 对应的横坐标即为未知液中铁的含量 8.122
2、比例法
yb ya yb yc
xb xa
xb xc
所以
yc
yb (xb
xa ) ( yb xb xa
ya )(xb
xc )
此式即为比例法内插公式, 从图上可看出,因为用yc 代替了yd,产生了
y yd yc 的误差。
3、牛顿内插公式
❖ 一般的非线性函数都可以展开为多项式
y a0 a1x a2x2 L anxn
根据最小二乘法的基本思想,最佳结果应使残差的平方和最小, 可对该式求极值,即:
Q 2
a
( yi a bxi ) 0
Q 2
b
( yi a bxi )xi 0
将其展开:
2 y 2na 2b x 0
2 xy 2 ax 2 bx2 0
移项消掉系数2,就得到正规方程:
an b x y a x b x2 xy
解: T 40.13 40.02 1.62
0.068
查grubbs表:
由表可见
T(5,0.05) =1.672
T<T(0.05,5 )
40.02应保留。
3、狄克逊(dixon)法
狄克逊采用极差比的方法,经严密推算和简化而得到的准则。 ❖ 狄克逊研究了n次测量结果,按其数值大小排列成如下次序:
相关文档
最新文档