实验数据分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
20
有效数字注意事项
• “0”的问题,20.50中的“0”表示有效数字(4位), 而0.0115中的“0”为定位作用(3位);
• pH, pM和pK等有效数字取决于小数部分的位数, 整数部分只是10的方次(power)。如pH=5.25为2 位;
• 科学计数法的有效位数:3.4×1012,2位; • 单位变换有效位数不变:1.1g=1100mg,2位; • 常数π,e等认为有效位数无限多。
• 将普通正态分布 y~N(μ,σ2) 转换成标准正态分 布 y~N(0,1) 利用以下公式:(Excel有函数转 换:standardize)
u= x−μ σ
f (x) = 1 e−x2 /2

34
【例】
测定次数 1 2 3 4 5 6 7 8 9 10
出水BOD 10.00 11.00 13.00 15.00 7.00 8.00 12.00 9.00 7.00 9.00
腊字母表示。
43
参数的区间估计interval estimation
• 概率密度函数点上的概率为零,随机变量 X 不可
能恰好落在μ上,即:测定必有误差,物理量的
正确值是不可能得到。
• 区间估计利用 X 最接近μ,因而用 X 的一个邻域 去包括μ,然后计算该区间概率。计算的概率及
为置信概率(confidential probability)或置信度 (degree of confidence).
5
准确度(accuracy)和精密度(precision)
• 准确度表示测试值和真值间的接近程度。
• 精密度表示多次分析结果之间的接近程度,用重 复性(repeatability)和再现性(reproducibility)表 示。 精密度高不一定准确度高(系统误差的影响),精 密度低一定准确度低。
• 相关特征参数:表示变量可能存在的关系,如相 关系数等。
4
误差
• 误差是不可避免的,是测试值与真值间的差值。 • 包括系统误差和偶然误差 • 系统误差(system error, bias):由某种特定因素
造成,具有单向性。 包括:方法误差、仪器和试剂误差、操作误差、 主观误差和过失误差。 • 偶然误差(random error):由一些随机的、偶然 的因素决定,符合统计学规律。
23
有效数字及计算规则
当几个数据相乘除时,其有效数字的保留应以有 效数字位数最少(最大相对误差)的那个数为依据。
乘除运算时首位为9可以多算一位有效数字
0.0121 × 25.64 × 1.05782 0.0121 × 25.6 × 1.06 = 0.328 0.0121 × 25.64 × 1.058 = 0.3282 = 0.328
22
有效数字及计算规则
在大量数据的运算中,为使误差不迅速积累,对参 加运算的数据可以多保留一位有效数字。待运算完成 后在进行舍入。加减运算以小数点后位数最少的为准 (最大绝对误差)。
5.2727 + 0.075 + 3.7 + 2.12 5.27 + 0.08 + 3.7 + 2.12 = 11.17 = 11.2
μ=0,σ =1时为标准正态分布
31
正态分布曲线
• 正态分布曲线呈钟型; • 最高点与总体均值对应; • 正态曲线是对称的; • 标准差决定曲线的宽度; • 曲线与X轴所围面积为1; • 正态随机变量的概率由曲线以
下面积决定。
32
mode:众数 median:中值 mean:均值
33
标准正态分布
RSD = s ×100% X源自文库
• 反应数据相对波动的大小,当两组数据标准偏差 相等时就采用RSD这一数字特征。
13
极差(range)
• 最大检测值与最小检测值之差:R=Xmax-Xmin
• 优点:计算方便,可以度量数据波动大小,在正 交实验的直观分析中,用极差值可以比较出因素 的主次,因而还是有实际意义的。
总体(population)和样本(sample)
• 实验分析中,是通过分析样本的特性来估计总体 的特征。(样本是从总体中随机抽取的)
• 当样本容量无限接近总体容量时,样本均值 X就 是总体均值μ。若无系统误差,则总体均值就是 真值μ0。
∑ •
单次测量的平均偏差 δ
=1 n
n i =1
Xi −μ
• 若测量次数较少(样本容量较小),则单次测量的 平均偏差为 d 。即用样本均值替代总体均值。
因∑di= ∑(Xi-X)=0,故常用平均偏差表示精密度 d=(∑|Xi-X|)/n
9
真值true value
• 真值客观存在,但是测量均有误差,因此真值难 以取得。
• 可能知道的真值有三种: 理论真值:三角形内角和 约定真值:国际原子量委员会修订的原子量标准 相对真值:标准试样中有关成分的含量
10
此正态分布是其合理的模型表达。
• 正态分布又称高斯分布(Gauss distribution) • 概率分布:随即变量的概率构成。
离散性的随机变量:概率分布 连续性随机变量:概率密度函数分布
29
中心极限定理: (a)从正态总体
中取样
(b) 从非正态总
体中取样
30
正态分布(常态分布, normal distribution)
24
有效数字运算实例
• 1.389+17.2+8.67+94.12=121.4; • 12.385×2.2=27; • 56.472=3.188 ×103; • ln58.6=4.07;
• π4.52=64; • π45.2132=6.4220 ×103;
25
有限数据统计处理
Statistical Treatment of Limited Data
• 若要求滴定分析结果的相对误差不大于0.2%,那 么在称量和滴定中对于试样重量和试剂体积有何 要求? (1)称量相对误差控制在0.1%以内。电光天平精 度为0.1mg,称量1次读数2次,估绝对误差 0.2mg。需称量200mg才能满足误差要求。 (2)滴定相对误差也控制在0.1%以内。50mL滴 定管的精度为0.01mL,也是两次读书,绝对误差 为0.02mL。需滴定剂体积不小于20mL。
3、数据大都具有一定的统计规律性。
4、实验过程是一个随机过程,实验结果(响应因子) 是随机变量。
3
实验数据的特征参数
• 位置特征参数:用来描述实验数据取值的平均位 置和特定位置的,常用的有均值、中值、极大 值、极小值等。
z 分散特征参数:用来描述实验数据的分散程度, 常用的有极差,标准差、方差、变异系数等。
0.03
0.12
0.08
0.21
0.11
0.76
0.12
0.34
0.14
0.12
0.08
0.34 累计频率
0.14
39
概率密度
标准正态分布概率计算Normsdist
40
Norminv (通过累计频率获得x)
41
Normsinv(标准正态分布通过累计频率获得x)
42
参数的点估计point estimation
6
7
8
误差(error)和偏差(deviation)
• 误差(E)标示测试值(X)与真值(μ0)的差值
E=X-μ0
分为绝对误差(absolute error, E)和相对误差
(relative error) :Er=(E/μ0 )*100%
• 偏差(d)用以表示多次平行测试的精密度。 di=Xi-X
• 缺点:只与两极端值有关,而与观测次数无关, 即没有充分利用全部数据提供的信息,过份依赖 个别的实验数据。故代表性较差,仅反映精密度 的高低,比较粗糙
14
误差的传递
• 不能直接测定的指标需要通过直接测定指标的计 算,因此存在误差传递问题。
• 误差传递的一般公式:
dR = ∂R dA + ∂R dB + ⋅⋅⋅, R = f ( A, B ⋅⋅⋅) ∂A ∂B
19
实验数据的表达
• 测量值反映了数量大小和测量精确度。
• 有效数字(significant figures)可以定义为与仪器 精度相符的测量值的位数。
台秤读数: 0.4g 相对误差 Er=0.2/0.4=50%;
万分之一天平读数: 0.4000g 相对误差 Er=0.0002/0.4=0.05%;
15
误差传递公式
16
误差传递公式
17
误差分配(error allocation)
• 首先确定分析结果的误差,再由此对各测量值的 误差提出要求,称为误差分配。
• 误差分配应该合理,否则难以达到。 • 根据结果的误差要求以及某次测量的绝对误差来
确定最小剂量。(例:天平称量、移液)
18
【例】误差分配实例:
37
【例】Excel的正态分布概率计算Normsdist
38
测定次数
1 2
测定值
10.00 11.00
3
13.00
4
15.00
5
7.00
6
8.00
7
12.00
8
9.00
9
7.00
10
9.00
均值 标准差
10.1
2.64
TRUE
0.48 0.63
FALSE
0.15 0.14
0.86
0.08
0.97
21
数字修约(rounding-off)规则
• 基本原则是:四舍六入五成双
• 1、2、3、4舍去的负误差(negative error)与6、 7、8、9作为10进位的正误差(positive error)抵 消, 因此五不能随意进位(常见四舍五入),否则会 产生积累性的舍入误差;
• 尾数为5,则舍掉后保证尾数5的前一位是偶数, 即偶数直接舍,奇数进位。
i =1
n −1
• 因为偏差之和为0,故自由度f减少1个;(n-1)替代 n就是为了校正X代替μ引起的误差。n→∞, 则 s→δ.
• 方差为标准差的平方,量纲不同。
12
相对标准偏差(RSD)
• 相对标准偏差(relative standard deviation)又称 变异系数(coefficient of variance, CV),
• 样本均值 X 是总体均值μ的优良(无偏unbiased、
有效effective、充分sufficient)估计。 E(X ) = μ
• 样本标准差s是总体标准差σ的优良估计
E(s) = σ
• 样本方差s2 是总体方差σ2的优良估计。
E(s2) = σ 2 • 样本统计参数用罗马字母表示;整体统计参数用希
average 10.1
stdev 2.64
standardize -0.04 0.34 1.10 1.85 -1.17 -0.79 0.72 -0.42 -1.17 -0.42
35
标准正态分布表 (how to use?)
P(u < 1.40) = ?;0.9192 or 91.92 %
36
• P( u < - 2.15) = ?;0.0158
实验设计与数据分析
Experimental Design and Data Analysis
城环学院硕士课程 02
授课人:阳春
1
误差和数据表达
Error and Data Expression
2
实验数据的基本特点
1、总是以有限次数给出并具有一定波动性。
2、总存在误差,且是综合性的,即随机误差、系统 误差、过失误差同时存在。
中位数median
Min
28
总体的参数估计 (parameter estimation of population)
• 偶然误差服从正态分布(normal distribution)。
9 依据中心极限定理The Central Limit Theorem; 9 实验偶然误差来自多个独立源,且以加法形式出现,因
• 正态概率密度函数 (normal probability density
function)
其中:
f (x) = 1 e−(x−μ )2 / 2σ 2
2π σ
μ = 总体均值 (mean)
σ = 标准差(standard deviation)
π = 3.14159
e = 2.71828
E(x)=μ, D(x)=σ
11
标准差(standard deviation)和方差
• 统计分析中常用SD来度量数据的分散程度,用以
更显著地显示较大的偏差。
• 总体标准偏差
σ=
∑ 1
n
n i =1
(Xi
2
− μ)
• 样本标准偏差 s =
∑ 1
n −1
n
(Xi
i =1
2
− X)
=
n
n
∑ ∑ X
2 i

(
Xi)2 / n
i =1
26
有限数据的图形表达 (给出样本信息)
点图(dot diagram)
可以快速获得观测值的总体位置或中心趋势(central tendency)以及分散程度(spread)。
27
盒图Box plot/带触点盒图box & whisker plot
上四分位数
Max
75th percentile
下四分位数 25th percentile
相关文档
最新文档