高等教育出版社 分析化学 第三版03 有限测定数据的统计处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
未知 已知
n 5, x 37.34%, s 0.13%
置信度为95%,t 0.05, 4 = 2.78
n 5, x 37.34%, 0.13%
置信度为95%,u 0.05= 1.96
( x t a, f s , x t a , f s ) n n (37.18%, 37.50%)
n 1
1.39
据 x t p ,f
s 得 n
置信区间
1.39 50.18 1.15(%) 6 1.39 50.18 2.57 50.18 1.46(%) 6 50.18 2.02 50.18 4.03 1.39 50.18 2.29(%) 6
14
例3 测定某试样中SiO2质量分数得 s = 0.05%。若测定的 精密度保持不变,当P=0.95时,欲使置信区间的置信 限 t p ,f s x 0.05% ,问至少应对试样平行测定多少次? 解:根据
x t p ,f x t p ,f s x x t p ,f s n
s n
表示数据的集中趋势。
准确度:置信限 t p ,f s x 越窄,准确度越高。 精密度: S 表示数据的分散程度。 可靠程度: P 测定次数: n= f+1
21
定量分析数据的评价-解决两类问题:
(1) 可疑数据的取舍 过失误差的判断 方法:4d法、Q检验法和格鲁布斯(Grubbs)检验法 确定某个数据是否可用。 (2) 分析方法的准确性系统误差及偶然误差的判断 显著性检验:利用统计学的方法,检验被处理的问题是否 存在 统计上的显著性差异。 方法:t 检验法和F 检验法 确定某种方法是否可用,判断实验室测定结果准确性
13
例2 从一批鱼中随机抽出6条,测定鱼组织中的汞含量,得到如 下结果:2.06、1.93、2.12、2.16、1.89、1.95(ppm)。求置信度为 95%时这批鱼组织中汞含量 x 的置信区间。
解:
x=(2.06+1.93+2.12+2.16+1.89+1.95)/6=2.02(ppm)
sx=0.11(ppm) n=6, f=6-1=5 tα、f=t0.05、5=2.57
3
σ未知时: t 分布曲线
有限次测量得到的x带有一定的不准确性,由于σ 不知道 ,只能用S 代替σ,必然引起正态分布的偏离, 所以用t 代替u,应考虑n加以补偿,即t分布。
x t sx x n s
由少量测定结果均值估计μ的置信区间
s x t sx x t n
5
6) P:置信度, 测量值落在(μ+uσ)或(μ+ts) 范围内的概率 7) 显著性水平α:落在此范围之外的概率
1 P
一定P下,t t , f
t0.05,10 表示置信度为95%,自由度为10的t值 t0.01,4 表示置信度为99%,自由度为4的t值
6
说明: (1) t 分布曲线与正态分布曲线一样, t 分布曲线下面某区间的面积也表示随机误差在 此区间的概率. (2)t 与 u 的区别:u仅与概率有关; t与概率和测定 次数有关.
1
总体平均值的置信区间
概率 区间大小
置信区间的确定
σ已知时:
(1)由单次测量结果估计μ的置信区间
x u
(2)由多次测量的样本平均值估计μ的置信区间
x u
x
xu
n
2
置信度与μ的 置信区间 用有限次的测定结果,在一定概率下,μ可能存在 的范围称μ 置信的区间;其概率称为置信度(P)。它表 明了人们对所作的判断有把握的程度。 ∞时, 例:x = μ ±1σ 概率为68.3%, 意思为:当n 测量值x 落在μ± 1σ 范围内的概率为68.3%。 显著性水平:测量值落在置信区间之外的概率。 α=1-P μ= χ ± 1σ 意思为:在有限次的测定中,有68.3%的把握 说, 在 x ±1σ区间内包含真值。 或在置信区间 x ±1σ内,能以68.3%的概率 将真值μ包含在内。
4
1) 与u分布不同的是,曲 线形状随f而变化 2) n→∞时, t 分布=u分布 3) f:自由度 f= (n-1) 4) t 随P和f而变化,当f=20 时,t≈u 5) tP,f的下角标表示:置信 度P,自由度 f=(n-1)时的t 值 t 分布曲线 例如:写作为 t0.95, 6=tP,f
•
•置信限: 结论:
u
u
ts
置信度越高,置信区间越大,估计区间包含真值的可能性变大 置信区间——反映估计的精密度 置信度——说明估计的把握程度
12
例1:测定铁矿石中铁含量 x=35.21%,s=0.06%,n=5 求P分别为0.50,0.95,和0.99时平均值的置信区间,并 简要说明这一区间的含义。 解:f = n -1 = 4 (1) P = 0.50, t0.50,4 = 0.74
9
理论上,只有当f= ∞时,各置信 度对应的 t 值才与相应的u值一致。 但 从 t 表可以看出:当f=20时,t 值与 u值 已充分接近了。进一步说明,n在4~6 之间即可。
10
平均值的置信区间
总体平均值
x 有限次测量均值
(1)由单次测量结果估计μ的置信区间 x u (2)由多次测量的样本平均值估计μ的置信区间
x
t , f s x n 35.21 0.74 0.06 ( 35.21 0.02)(%) 5
含义:有50%的把握认为区间35.210.02内包括真值 (2) P = 0.95, t0.05,4 = 2.78 = 35.21 0.07 含义:有95%的把握认为区间35.210.07内包括真值 (3) P = 0.99, t0.01,4 = 4.60 = 35.21 0.12 含义:有99%的把握认为区间35.210.12内包括真值
x
为总体均值
为总体标准差
s为有限次测量值的标准 差
x t s
3.两者所包含面积均是一定范围内测量值出现的概率P 正态分布:P 随u 变化;u 一定,P一定 t 分布:P 随 t 和f 变化;t 一定,概率P与f 有关,
f n 1
注:f t u
18
比较总体标准偏差已知与未知情况下的 总体平均值的置信区间
7
t值表(t: 某一置信度下的几率系数)
自由度 f =(n-1) 1 2 3 4 5 6 7 8 9 10 20 50% 1.00 0.82 0.76 0.74 0.73 0.72 0.71 0.71 0.70 0.70 0.69 0.67 置信度P 90% 95% 6.31 12.71 2.92 4.30 2.35 3.18 2.13 2.78 2.02 2.57 1.94 2.45 1.90 2.37 1.86 2.31 1.83 2.26 1.81 2.23 1.73 2.09 1.65 1.96 99% 63.66 9.93 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 2.85 2.58
1. 置信度不变时:
n 增加,t 变小,
置信区间变小 2. n不变时: 置信度增加,
t 变大,
置信区间变大
8
例:当f =3,P = 0.95时,查表t= 3.18 置信区间为 = x 3.18s 如何理解?
以个别测量值x为中心的(x 3.18s)区间内包 括总体平均值的概率为95%。或者说有95%的把 握在(x 3.18s)区间内包括总体平均值。 不能认为 落在(x 3.18s)区间内的概率是多 少,因为是客观存在的确定值。
由本例可以看出,置信度越高,置信区间就越宽,即所估计区间包括真 值的可能性也就越大。但过大的置信区间将使其失去实际意义。一般 P=95%或90%
17
正态分布与 t 分布区别
1.正态分布——描述无限次测量数据 t 分布——描述有限次测量数据 2.正态分布——横坐标为 u ,t 分布——横坐标为 t
u
x u x u
s x ts x t n
n
(3)由少量测定结果均值估计μ的置信区间
x t p, f s x t p, f
s n
11
•
置信区间:一定置信度下,以测量结果为中心,包括总 体均值的可信范围。 平均值的置信区间:一定置信度下,以测量结果的均值 为中心,包括总体均值的可信范围。
16
例5 分析某合金试样中一成分的含量,重复测定6次,其结果为:49.69 50.90 48.49 51.75 51.47 48.80(%),求平均值在90%、95%和99%的置信 度的置信区间。
解: x 50.18 置信度 90% 95% 99%
s
tp,f 2.02 2.57 4.03
2 ( x x ) i
和题设得: 故
t
p ,f
s 0 .05% 已知 s = 0.05% n
n
1
查P57表3-2得知,当f = n-1=5时,t0.95,5 =2.57,此时 即至少应平行测定6次,才能满足要求。
wenku.baidu.com
2.57 1 6
15
例4 某车间生产滚珠,从长期的实践中已知滚珠的直径服从正 态分布,σ2 = 0.05,某天从产品中随机抽样6个,量得直径 (mm)如下:14.70 15.00 14.90 14.80 15.20 15.10 试估计该产品直径的置信区间(设P=95%)。 使用
查t分布值表 所以置信区间为
即
(2.02-0.12,2.02+0.12) (1.90,2.14)
sx sx x t 0 . 05 、 ( x t 0 . 05 、 , ) 5 5 n n 0 . 11 0 . 11 ( 2 . 02 2 . 57 , 2 . 02 2 . 57 ) 6 6
( x ua , x ua ) n n (37.20%, 37.48%)
19
置信度越小,置信区间就越小 置信度越大,置信区间就越大
分析化学中,一般将置信度定为95%或90%
20
正确表示分析结果
1、首先检验是否有可疑值; 2、两种方法表示结果 统计处理:x 上 式 表 明 测 定 结 果 的 s n 置信区间: x t p ,f s x x t p ,f 大小: x
第四节
有限测定数据的统计处理
要求:1、正确理解置信度、置信区间的概念。 2、了解有限次测量中随机误差的 t 分布。 3、掌握应用 t 分布表计算平均值的置信区间。 4、理解显著性检验的方法:t 检验法和F检验法。 5、掌握可疑值(离群值)取舍的方法。
正态分布规律是建立在无限次测量基础上 的,实际工作中通常只做有限次测量。如何以 统计的方法,通过这些有限次测量数据对和 进行估计,这是本节要讨论的问题。
x u x x u n
解:已知置信度为95% u = 1.96 时, 14.7 15.00 14.90 14.80 15.20 15.10
x 6
xu n
14.95mm
根据
0.05 得: 14.95 1.96 14.96 0.18(mm) 6 结果表明,有95%的把握,认为该区间包含当天的总体平均值μ。
22
可疑值的取舍
可疑值:明显偏大或偏小的测量值
可疑值
来源于过失误差 来源于过失误差 舍弃 舍弃 不明原因 不明原因 统计检验 统计检验
23
(自学) 4 d 法
_
_
(1) 去掉可疑值后,计算 (2) |可疑值否则保留
x
和d 舍弃
x
_
| 4 d ,异常值 d
24
Q检验法
可疑值(也叫离群值、异常值、极端值) 在平行测定的数据中,有时会出现一二个与其它结果相 差较大的测定值。 (一) Q检验法 步骤: 1、将测定值由小到大按顺序排列:x1 、x2 、… xn -1 、xn, 其中可疑值为x1或xn。 2、计算统计量Q (称舍弃商) xn- xn -1 x2-x1 Q= 或 Q = xn- x1 x -x 3、查QP,n (P59表3-3),一般P = 0.90 若
n 5, x 37.34%, s 0.13%
置信度为95%,t 0.05, 4 = 2.78
n 5, x 37.34%, 0.13%
置信度为95%,u 0.05= 1.96
( x t a, f s , x t a , f s ) n n (37.18%, 37.50%)
n 1
1.39
据 x t p ,f
s 得 n
置信区间
1.39 50.18 1.15(%) 6 1.39 50.18 2.57 50.18 1.46(%) 6 50.18 2.02 50.18 4.03 1.39 50.18 2.29(%) 6
14
例3 测定某试样中SiO2质量分数得 s = 0.05%。若测定的 精密度保持不变,当P=0.95时,欲使置信区间的置信 限 t p ,f s x 0.05% ,问至少应对试样平行测定多少次? 解:根据
x t p ,f x t p ,f s x x t p ,f s n
s n
表示数据的集中趋势。
准确度:置信限 t p ,f s x 越窄,准确度越高。 精密度: S 表示数据的分散程度。 可靠程度: P 测定次数: n= f+1
21
定量分析数据的评价-解决两类问题:
(1) 可疑数据的取舍 过失误差的判断 方法:4d法、Q检验法和格鲁布斯(Grubbs)检验法 确定某个数据是否可用。 (2) 分析方法的准确性系统误差及偶然误差的判断 显著性检验:利用统计学的方法,检验被处理的问题是否 存在 统计上的显著性差异。 方法:t 检验法和F 检验法 确定某种方法是否可用,判断实验室测定结果准确性
13
例2 从一批鱼中随机抽出6条,测定鱼组织中的汞含量,得到如 下结果:2.06、1.93、2.12、2.16、1.89、1.95(ppm)。求置信度为 95%时这批鱼组织中汞含量 x 的置信区间。
解:
x=(2.06+1.93+2.12+2.16+1.89+1.95)/6=2.02(ppm)
sx=0.11(ppm) n=6, f=6-1=5 tα、f=t0.05、5=2.57
3
σ未知时: t 分布曲线
有限次测量得到的x带有一定的不准确性,由于σ 不知道 ,只能用S 代替σ,必然引起正态分布的偏离, 所以用t 代替u,应考虑n加以补偿,即t分布。
x t sx x n s
由少量测定结果均值估计μ的置信区间
s x t sx x t n
5
6) P:置信度, 测量值落在(μ+uσ)或(μ+ts) 范围内的概率 7) 显著性水平α:落在此范围之外的概率
1 P
一定P下,t t , f
t0.05,10 表示置信度为95%,自由度为10的t值 t0.01,4 表示置信度为99%,自由度为4的t值
6
说明: (1) t 分布曲线与正态分布曲线一样, t 分布曲线下面某区间的面积也表示随机误差在 此区间的概率. (2)t 与 u 的区别:u仅与概率有关; t与概率和测定 次数有关.
1
总体平均值的置信区间
概率 区间大小
置信区间的确定
σ已知时:
(1)由单次测量结果估计μ的置信区间
x u
(2)由多次测量的样本平均值估计μ的置信区间
x u
x
xu
n
2
置信度与μ的 置信区间 用有限次的测定结果,在一定概率下,μ可能存在 的范围称μ 置信的区间;其概率称为置信度(P)。它表 明了人们对所作的判断有把握的程度。 ∞时, 例:x = μ ±1σ 概率为68.3%, 意思为:当n 测量值x 落在μ± 1σ 范围内的概率为68.3%。 显著性水平:测量值落在置信区间之外的概率。 α=1-P μ= χ ± 1σ 意思为:在有限次的测定中,有68.3%的把握 说, 在 x ±1σ区间内包含真值。 或在置信区间 x ±1σ内,能以68.3%的概率 将真值μ包含在内。
4
1) 与u分布不同的是,曲 线形状随f而变化 2) n→∞时, t 分布=u分布 3) f:自由度 f= (n-1) 4) t 随P和f而变化,当f=20 时,t≈u 5) tP,f的下角标表示:置信 度P,自由度 f=(n-1)时的t 值 t 分布曲线 例如:写作为 t0.95, 6=tP,f
•
•置信限: 结论:
u
u
ts
置信度越高,置信区间越大,估计区间包含真值的可能性变大 置信区间——反映估计的精密度 置信度——说明估计的把握程度
12
例1:测定铁矿石中铁含量 x=35.21%,s=0.06%,n=5 求P分别为0.50,0.95,和0.99时平均值的置信区间,并 简要说明这一区间的含义。 解:f = n -1 = 4 (1) P = 0.50, t0.50,4 = 0.74
9
理论上,只有当f= ∞时,各置信 度对应的 t 值才与相应的u值一致。 但 从 t 表可以看出:当f=20时,t 值与 u值 已充分接近了。进一步说明,n在4~6 之间即可。
10
平均值的置信区间
总体平均值
x 有限次测量均值
(1)由单次测量结果估计μ的置信区间 x u (2)由多次测量的样本平均值估计μ的置信区间
x
t , f s x n 35.21 0.74 0.06 ( 35.21 0.02)(%) 5
含义:有50%的把握认为区间35.210.02内包括真值 (2) P = 0.95, t0.05,4 = 2.78 = 35.21 0.07 含义:有95%的把握认为区间35.210.07内包括真值 (3) P = 0.99, t0.01,4 = 4.60 = 35.21 0.12 含义:有99%的把握认为区间35.210.12内包括真值
x
为总体均值
为总体标准差
s为有限次测量值的标准 差
x t s
3.两者所包含面积均是一定范围内测量值出现的概率P 正态分布:P 随u 变化;u 一定,P一定 t 分布:P 随 t 和f 变化;t 一定,概率P与f 有关,
f n 1
注:f t u
18
比较总体标准偏差已知与未知情况下的 总体平均值的置信区间
7
t值表(t: 某一置信度下的几率系数)
自由度 f =(n-1) 1 2 3 4 5 6 7 8 9 10 20 50% 1.00 0.82 0.76 0.74 0.73 0.72 0.71 0.71 0.70 0.70 0.69 0.67 置信度P 90% 95% 6.31 12.71 2.92 4.30 2.35 3.18 2.13 2.78 2.02 2.57 1.94 2.45 1.90 2.37 1.86 2.31 1.83 2.26 1.81 2.23 1.73 2.09 1.65 1.96 99% 63.66 9.93 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 2.85 2.58
1. 置信度不变时:
n 增加,t 变小,
置信区间变小 2. n不变时: 置信度增加,
t 变大,
置信区间变大
8
例:当f =3,P = 0.95时,查表t= 3.18 置信区间为 = x 3.18s 如何理解?
以个别测量值x为中心的(x 3.18s)区间内包 括总体平均值的概率为95%。或者说有95%的把 握在(x 3.18s)区间内包括总体平均值。 不能认为 落在(x 3.18s)区间内的概率是多 少,因为是客观存在的确定值。
由本例可以看出,置信度越高,置信区间就越宽,即所估计区间包括真 值的可能性也就越大。但过大的置信区间将使其失去实际意义。一般 P=95%或90%
17
正态分布与 t 分布区别
1.正态分布——描述无限次测量数据 t 分布——描述有限次测量数据 2.正态分布——横坐标为 u ,t 分布——横坐标为 t
u
x u x u
s x ts x t n
n
(3)由少量测定结果均值估计μ的置信区间
x t p, f s x t p, f
s n
11
•
置信区间:一定置信度下,以测量结果为中心,包括总 体均值的可信范围。 平均值的置信区间:一定置信度下,以测量结果的均值 为中心,包括总体均值的可信范围。
16
例5 分析某合金试样中一成分的含量,重复测定6次,其结果为:49.69 50.90 48.49 51.75 51.47 48.80(%),求平均值在90%、95%和99%的置信 度的置信区间。
解: x 50.18 置信度 90% 95% 99%
s
tp,f 2.02 2.57 4.03
2 ( x x ) i
和题设得: 故
t
p ,f
s 0 .05% 已知 s = 0.05% n
n
1
查P57表3-2得知,当f = n-1=5时,t0.95,5 =2.57,此时 即至少应平行测定6次,才能满足要求。
wenku.baidu.com
2.57 1 6
15
例4 某车间生产滚珠,从长期的实践中已知滚珠的直径服从正 态分布,σ2 = 0.05,某天从产品中随机抽样6个,量得直径 (mm)如下:14.70 15.00 14.90 14.80 15.20 15.10 试估计该产品直径的置信区间(设P=95%)。 使用
查t分布值表 所以置信区间为
即
(2.02-0.12,2.02+0.12) (1.90,2.14)
sx sx x t 0 . 05 、 ( x t 0 . 05 、 , ) 5 5 n n 0 . 11 0 . 11 ( 2 . 02 2 . 57 , 2 . 02 2 . 57 ) 6 6
( x ua , x ua ) n n (37.20%, 37.48%)
19
置信度越小,置信区间就越小 置信度越大,置信区间就越大
分析化学中,一般将置信度定为95%或90%
20
正确表示分析结果
1、首先检验是否有可疑值; 2、两种方法表示结果 统计处理:x 上 式 表 明 测 定 结 果 的 s n 置信区间: x t p ,f s x x t p ,f 大小: x
第四节
有限测定数据的统计处理
要求:1、正确理解置信度、置信区间的概念。 2、了解有限次测量中随机误差的 t 分布。 3、掌握应用 t 分布表计算平均值的置信区间。 4、理解显著性检验的方法:t 检验法和F检验法。 5、掌握可疑值(离群值)取舍的方法。
正态分布规律是建立在无限次测量基础上 的,实际工作中通常只做有限次测量。如何以 统计的方法,通过这些有限次测量数据对和 进行估计,这是本节要讨论的问题。
x u x x u n
解:已知置信度为95% u = 1.96 时, 14.7 15.00 14.90 14.80 15.20 15.10
x 6
xu n
14.95mm
根据
0.05 得: 14.95 1.96 14.96 0.18(mm) 6 结果表明,有95%的把握,认为该区间包含当天的总体平均值μ。
22
可疑值的取舍
可疑值:明显偏大或偏小的测量值
可疑值
来源于过失误差 来源于过失误差 舍弃 舍弃 不明原因 不明原因 统计检验 统计检验
23
(自学) 4 d 法
_
_
(1) 去掉可疑值后,计算 (2) |可疑值否则保留
x
和d 舍弃
x
_
| 4 d ,异常值 d
24
Q检验法
可疑值(也叫离群值、异常值、极端值) 在平行测定的数据中,有时会出现一二个与其它结果相 差较大的测定值。 (一) Q检验法 步骤: 1、将测定值由小到大按顺序排列:x1 、x2 、… xn -1 、xn, 其中可疑值为x1或xn。 2、计算统计量Q (称舍弃商) xn- xn -1 x2-x1 Q= 或 Q = xn- x1 x -x 3、查QP,n (P59表3-3),一般P = 0.90 若