第二章分析化学中的数据处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
于t分布曲线,当t一定时,由于f不同,相
应曲线所包括的面积,即概率也就不同。
为此引入置信度的概念,置信度P-人们对
所作判断的把握程度,其实质为某事件出
Leabharlann Baidu
现的概率,在此表示某一t值时,平均值落
在(
)区t间sx内的概率。落在此范围
之外的概率为(1-P)称为显著性水平,
用α表示。
③不同概率P与f值所对应的t值,表示为tα,f 。 如 t 0.05,10 代表置信度95%,自由度为10时 的t值。t值表见书P61表3-3,概率P都是指 双边值,即虽然表中所列的t值均为正值,实 际上每个t值对应的概率p是指直线t=-t表和 t= t表之间所夹曲线下的面积,例如:当f= 3,p=0.95时,t0.05,3 =3.18,是指在自由 度f=3的那条t分布曲线下,直线t=-3.18 与直线t=3.18之间所夹的面积为0.95。
x 3
2×0.4987= 99.7%
从计算结果可知,95%以上的测量值都会 落在范围内,随机误差x-μ超过 3 的 大误差(或测量值)出现的概率<0.3%,一 般化学分析是作几次测定,所以可以认为 实际上是不可能出现的,如一旦出现,可 认为其不是由于随机因素引起的,应弃去。
例:P57 例7、例8、例9
§2.1 几个概念(P52)
研究对象的某种特性值的全体叫总体; 从总体中随机取出的一组数据叫样本; 样本所含测量值的数目叫样本容量。例 如,对某矿石中Fe的含量作了无限次测 定,所得无限多个数据的集合就是总体, 其中每个数据就是个体,从中随机取出 一组数据(例如8个数据)就是样本,样 本容量为8。
将 x 、µ代入(2-8)式得
x-
t计算= S
n
(2-10)
步骤:
1)计算 t计算
2)选定P(一般取95%),查 t,f 表
3)t计算 x t,f, 处于以µ为中心的95%
概率区间之外,这种数据出现的机会是
极明少有的系,统则误差x存与在µ存;t在计算显著 性t差,f异,,则说无
X-µ表示随机误差,若以X-µ为横坐标, 则曲线最高点横坐标为0,即为随机误差 的正态分布曲线
由图可看到随机误差有以下 规律性:
1)偏差大小相等、符号相反的 测定值出现的概率大致相等
2)偏差小的测定值比偏差较大 的测定值出现的概率大,偏 差很大的测定值出现的概率 极小,趋近于0
3)大多数测定值集中在µ的附 近,所以µ为最可信赖值或 最佳值
三.平均值的置信区间(P61)
在一定置信度上,根据 x(样本)估计µ(总体
平均值)可能存在的区间,只有当 n ,x ,
显然做不到,少数测量得到的总带有一定的不
确定性,所以只能在一定置信度上,根据 x 对
µ可能存在的区间作出估计
由t分布(2-8)式
x ts x t
④理论上当f=∞时,各置信度对应的t 值才与u值一致,但实际当f=20时,t与 u已很接近。
二.一般分析结果的统计表示法
多次重复测定得到一系列测定值,在报告 分析结果时,要反映出数据的集中趋势和
分散性,一般采用下列三项值,① x -
是总体μ的最佳估计值,反映数据的集中 趋势。②S-是σ 的估计值,反映数据的 离散程度。③测定次数n-用于求自由度f, 反映数据的可靠程度
正态分布曲线随µ、σ值不同而不同,应
用起来不方便,为此,采用变量转换的
方法,将其化为同一分布-标准正态分
布
即
u= x-
令 代入(2-5)式得
y=f(x)=
1
- u2
e2
2
又 dx= du
所以
f(x)dx=
1
- u2
e 2 du (u)du
2
即将式(2-5)转化为只有变量u的方程
显著性差异,x 与µ的差异是由随机误差
引起的
例 (P63例11)采用某种新方法测定基准明矾
中%值A,为l2n1O0=.37的97,%含已,量知问,明该得矾新:x中方=ω法(1是0.A7否l92有%O3系,)统S的=误理0差.论0?4
解: x-
t计算= s
10.79-10.77 n
0.04
不可能完全相同。 英国的统计学家兼化
学家戈塞特(W.S.GOSSET)提出了t分
布规律 t x x n
s
s
(平2-均8值)的(书标P准60偏公x差式3-s 29有误s)
x
n
µ-总体平均值,无系统 误差时就是真值,t分布 曲线如图2-2(P60图3 -6)所示,纵坐标仍为 概率密度,横坐标为t,t
这样的区间毫无意义;置信度定得太
低则不能保证判断的可靠性。分析中 通常将P定在95%或90%
四 测定数据的评价
(一)显著性检验 在分析工作中常遇到这样的情况,某人对标样
进(行µ分)析不,一得致到;的或平采均用值两(种不x 同)的与分标析准方值法分
析同一试样,得到的两组测定数据的平均值
试不x1 样一与进 致x行 。2 不分 如一析这致时种;,差或两异两组是个数由不据随同的机分平误析均差人值引员起x1对,与同则一是x2
设样本容量为n,则其平均值为 x
x
1 n
x
当测量次数无限多时,所得平均值 即为 总体平均值μ:
lim 1 x
n n
(2-1)
若没有系统误差,则总体平均值µ就是真
实值 xT
在分析化学中,广泛采用标准偏差来衡 量数据的分散(离散)程度
①总体标准偏差
当测量次数为无限多次时,各测量值对总 体平均值µ的偏离,用总体标准偏差σ表示:
e 2 du 1
2
(2-7)
随机误差或测量值在某一区间出现的概率可取不同u值
对式(2-7)进行定积分,求得面积(即为概率),并
制得标准正态分布概率积分表。表的形式有很多种,为
了区别,在表上方一般绘图说明表中所列值是什么区间
的概率,表中列出的面积与图中阴影部分相对应(P57
表3-2),表示随机误差在此区间的概率,若是求
分布曲线与正态分布曲线 相似,只是① t分布曲线 随自由度f(f= n-1)而改
变,当 n 时,f ,
t分布曲线即正态分布曲 线。
②与正态分布曲线一样,t分布曲线下面一
定范围内的面积,即是该范围内测定值出
现的概率,但应注意,对于正态分布曲线,
只要u值一定,相应的概率也就一定;但对
s
(2-9)
x
n
这表示在一定置信度下,以平均值
x
为中心,
包括总体平均值µ范围,就叫平均值的置信区间
(P61)。
例1:已知=35.21%,S=0.06%,n=4, 求P=0.95,0.99时,平均值的置信区间
解: P=0.95 , t0.05,3 =3.18
(35.21 3.18 0.06)% (35.21 0.10)%
区间的概率,利用正态u 分布的对称性,必须乘以2
随机误差出现 的区间
u 1
测量值出现的 概率P 区间
2×0.3413=
x 1 68.3%
2×0.4773=
u 2 x 2 95.5%
u 2.6
x 2.6
2×0.4953= 99.1%
u 3
y=(u)
1
- u2
e2
2
(2-6)
因此曲线的形状与σ大小无关,即不同σ
曲线皆合为一条
标准正态分布曲线见P56图3-4
2.随机误差的区间概率
正态分布曲线与横坐标-∞到+∞之间所夹的面积代表
全部数据出现概率的总和,显然应当是100%,即为1
P=
(u)du
1
u2
不可避免的(正常的),可以认为差异不显著; 如这种差异是由系统误差引起,则认为它们之 间存在“显著性”差异
1.平均值( x )与标准值(µ)的显著 性检验-t检验
为检查某一新分析方法或某操作过程是 否存在系统误差,可用标样或基准物质 作几次测定,然后用t检验法检验 x 与µ 之间是否存在显著性差异
n n 1
n
同时s
③平均值的标准偏差(P58)
单次测定值的标准差S反映的是单次测定
值x1,x2,x3 xn
之间的离散性
平各均平值均的值标准差X反1,映X 的2...是之.X若间n 干的组离平散行性测定,
若对某试样作若干批测定,每批又作n个 平行测定
则
S
=
X
S n
由此可见:
(2-4)
①平均值的精密度比单次测定的精密度
更次好数,的SX平方S根;成平反均比值.的②标增准加偏测差定与次测数定,
可使平均值的标准偏差减小。
作
s x
:
n
关系图如P59图3-5所示。
s
s x
开少始很时快,,s n随>5变n 化减较 慢,而当n>10时, 变化很小,进一步增 加测定次数,徒劳无 益,对提高分析结果 可靠性并无更多好处。 实际中,一般的分析 作3~5次平行测定 即可,而标样、物理 常数、原子量的测定 则次数较多
§2.3 少量数据的统计处理
对无限次测量而言,总体平均值µ衡量数 据的集中趋势,总体标准差σ反映了数据 的离散程度,但是,分析化学中常常只 作有限次测定。下面将讨论如何通过有 限次测定结果对µ和σ进行估计,从而合 理地推断总体的特性
一.有限次测量时的随机误差
正态分布是无限次测量数据的分布规律,
而实际测定只能是有限次,其分布规律
设两组数据为 :
n1、s1、x1;n2、s2、x2
(1) F检验-检验两组数据的精密度s1、 s总 a2.体有)无F计显算=著SS差大 小22 异S(2 s-1,方s2是差否(来2自-同11一) 因 S大2 (方差较大,标准偏差较大)作
(x )2
n
②样本标准偏差
(2-2)
当测量值不多,总体平均值又不知道时, 用样本的标准偏差s来衡量该组数据的分 散程度。
s (x x)2 n 1
当测量次数非常多时,测量次数n与自由度
(n-1)的区别就很小了,此时 x
即
lim (x x)2 (x )2
4
理解为:在区间(35.21 0.10)% 中包括总
体平均值µ的把握(概率)有95%。
P=0.99 t0.01,3 =5.84 µ(35.21 0.18)% 参 P62例10
置信度越高,t曲线下面积越大,置信 区间就越大,即所估计的区间包括真 值的可能性也就越大。P=100%,则 意味着区间无限大,肯定会包括真值,
式中y-y为=f概(率x)=密度12x-e-(为x2-测2)2 量值
(2-5)
µ-为总体平均值,即无限次测定数据的 平均值,相应于曲线最高点的横坐标值, 在没有系统误差时,它即为真值 ,它
反映xT无限个测量数据分布的集中趋势
σ-总体标准偏差,是µ到曲线两拐点之一 的距离,它表征数据的分散程度,σ小, 数据集中,曲线瘦高;σ大,数据分散, 曲线矮胖。
所以分析结果报告如下: x =37.34% ,
s=0.13%,n=5
注意:
1)S结果保留几位,要根据 x 值而定,
如 x =0.9987,则s可为0.0015,也可写为
0.002,最多与可疑位“7”相齐。
2)如 x 无%,则s不带%,如 x =20.36
%,s可写为0.04%,此时才用“%”
例 测某铁矿样中Fe的含量,得:37.45%, 37.30%,37.20%,37.50%,37.25%,报 告分析结果
解:x =37.34%
di(i=1,2…..5)分别为:+0.11 , -0.04 , -0.14 ,+0.16 , -0.09 (%)
5
d2 i
s i1 0.13% 5 1
9 =1.5
t0.05,8 =2.314 ,所以 t计算 t0.05,8 x与µ无显著性差异
2.两组平均值的显著性检验-F检验+t 检验
不同分析人员、或同一分析人员采用不 同方法分析同一试样所得两组数据平均 值往往是不一致的,要判断这两组数据 之间是否存在系统误差(显著性差异), 通常按如下步骤进行:
§2.2随机误差的正态分布(P53)
随机误差是由一些偶然因素造成的误 差,其大小、方向都不固定,难以预 计,不能测量也无法消除。它的出现 似乎很不规律,但实质上,它的出现 和分布服从统计规律
1.正态分布(高斯GAUSS分布)
它在概率统计中占有特别重要的地位,因为 许多随机变量都服从或近似服从正态分布, 分析测定中的随机误差也是这样的,P55图 3-3即为正态分布曲线,它的数学表达式为: