实验数据整理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
3)变异系数Cr (coefficient of variation)
Cr
(标准差)
x(算术平均值)
变异系数又叫相对标准偏差, 反映数据相对波动的大小, 当两组 数据标准偏差相等时,我们就利用变异系数 Cr 这一数字特征。如强 度、重量、尺寸、输出电压等,在数理统计上,常用 Cr。当 x 大时, 表明这组数据 Cr 小,即这组数据相对波动小;当 数据 Cr 大,即这组数据相对波动大。
1、一组测量值中离群数据的检验方 法
1) 格拉布斯(Grubbs)检验法
设有一组观测值 x1, x2…… xn, ,观测次数为 n,其中 x1 检验步骤如 下: ① 计算几个测量数据的平均值 x (包括可疑值) ; ② 计算标准误差 d; ③ 计算格拉布斯临界值 T 值 .
Ti
xi x d
3、多组测量值方差的离群数据检 —Cochran最大方差检验法
① 将 m 个组测定的每组标准差按大小顺序排列 1 , 2 …… m ,最大 记为 max ,按下式计算统计量 c:
C
m
2 max 2 i
i 1
其中: max ——m 个组中方差最大的值;
2
i 1
m
2)肖维涅准则
本方法是借助于肖维涅数据取舍标准来决定 可疑值取舍,方法如下: ① 计算标准误差 d 和 n 个数据的平均值 x ; ② 根据观测次数 n 查肖维涅数据取舍标准表得系 数 K。计算极限误差 k d , k d kd ; ③ 用 xi x 与 kd 进行比较, 若 xi 弃去,反之,则保留。
所以 1.40 应保留。
3 法则
当实验数据的总体是正态分布(一般实验数据多为此分 布) 时, 先计算出数列的标准误差, 求其极限误差 K
3
,
此时测量数据落于 x 3 范围内的可能性为 99.7%,也就 是说,落于此区间外的数据只有 0.3%的可能性,这在一 般测量次数不多的实验中是不易出现的, 若出现了这种情 况则可认为是由于某种错误造成的。 因此这些特殊点的误 差超过极限误差后,可以舍弃。
1)极差R
• 范围误差(range),是指一组实验数据最大 R xmax xmin 值与最小值之差,计算式为 • 极差的优点:计算方便,可以度量数据波动大 小,在正交实验的直观分析中,用极差值可以 比较出因素的主次,因而还是有实际意义的。
• 极差的缺点:只与两极端值有关,而与观测次 数无关,即没有充分利用全部数据提供的信息, 过份依赖个别的实验数据。故代表性较差,仅 反映精密度的高低,比较粗糙。
2、多组测量值均值的离群数据检验 -Grubbs检验法
① 计算各组测量的平均值 x1 , x2 …… xm ,m 为组数,并将各组均值按 大小顺序排列,其中最大、最小均值记为 x max , x min 。
② 计算上列Hale Waihona Puke Baidu值的平均值 x (总平均值) ,和标准误差 x
1 x m
x
i 1
m
i
1、总是以有限次数给出并具有一定波动 性。 2、总存在误差,且是综合性的,即随机 误差、系统误差、过失误差同时存在。
3、数据大都具有一定的统计规律性。
二、几个重要数字特征
• 1、位置特征参数及其计算 实验数据的位置特征参数,是用来描述实验 数据取值的平均位置和特定位置的,常用的有 均值、中值、极大值、极小值、众值等。 • 2、分散特征参数及其计算 分散特征参数被用来描述实验数据的分散程 度,常用的有极差,标准差、方差、变异系数 等。 • 3、相关特征参数 相关特征参数将用来表示变量可能存在的关 系。
2 i
——m 个组测定结果的方差之和。
②根据给定的显著性水平 a 及测定组数 m ,每组测定 数 n,查 Cochran 最大方检验临界值 Cr 表查得 Ca 值。 ③判断 当 C>C0.01,则可疑方差为离群方差, 说明该组数据 精密度过低,应予剔除。 当 C0.05<C<C0.01,则可疑方差为偏离方差。 若 C≤ C0.05 则可疑方差为正常方差。 *以上 Cochran 最大方差检验法可用于剔除多组测定 中精密度较差的一组数据, 也可用于多组测定值的方差 一致性检验。
2)方差和标准差
标准差即均方误差,是以均值为中心的分散 特征参数。其计算式为
1 n ( xi x) 2 标准差 n 1 i 1
从式中看出,标准差越大,则实验数据与均 值之间差距越大,表明实验所取数据愈分散;标准 差越小,实验所取数据愈集中,标准差单位同实验 数据单位一致。 方差就是标准 的平方 。标准差大,方差 大;标准差小,方差小。方差单位与实验数据单位 不一致,其量纲为观测值量纲的平方。 方差与标准差都可反映实验数据取值的分散 程度。
1 m x ( x i x) 2 m 1 i 1
③ 计算 T 值(统计量)
T
x max x
x
或
T
x x min
x
④ 根据给定的显著性水平 和测定的组数 m, 查离群数据分析判断表中格 拉布斯检验临界值 T 表,得临界值 T 。 ⑤ 判断. 若 T T0.01 ,则可疑均值为离群数值,可舍去;若 T0.05 T T0.01 ,则 T 为 偏离数值;若 T T0.05 ,则为正常数值。
2多组测量值均值的离群数据检验grubbs检验法m为组数并将各组均值按大小顺序排列其中最大最小均值记为minmax计算上列均值的平均值x总平均值和标准误差计算t值统计量根据给定的显著性水平和测定的组数m查离群数据分析判断表中格拉布斯检验临界值则可疑均值为离群数值可舍去
第二节
实验数据整理
• 一、实验数据的基本特点
解
x (1.25 1.2) 1.31 1.40 / 4 1.31
d
(x
i
x) 2
n 1
0.062 0.042 0 2 0.092 0.066 3
x4 x 1.40 1.31 T 4 1.36 d 0.066
查格拉布斯临界值表,得 n=4 时,T=1.463 T4<T,所以 1.40 应保留。
x 小时,表明这组
显著性水平(a)与置信水平 (1-a)
显著性水平 a (也称显著度) 是一个概率值,常用百分数表 示。置信水平(1-a)%(也称置信度) 。 如取显著性水平 a=0.1,表明所作出的显著性与否的判 断有 90%的把握,或者判断的可信程度是 90%,误判的可 能性有 10%。 若 a=0.05 则 1-a=1-0.05=0.95=95% 若 a=0.01,则 1-a=1-0.01=0.99=99% 由于判断的结论不可避免的存在误差 ,为了减少差错的 出现机率,在特别重要的实验中,显著性水平 a 尽可能取小 值,使判断的结论具有较高的置信度。
算出的 Ti 若大于表( Grubbs 临界值 T 表)的 T 值,则 xi 弃去; Ti 若小于等于表( Grubbs 临界值 T 表)的 T 值,则 xi 留下。
例 1:某河流的 BOD5 测定结果为 1.25,1.27,1.31,1.40,问 1.40 这个数是否要保留(显著度为 a=0.05)
x kd
, 则 xi
例 2: 某河流的 BOD5 测定结果为 1.25, 1.27, 1.31, 1.40, 问 1.40 这个数是否要保留 (显著度为 a=0.05) 解:查表得,观测次数 n=4 时,k=1.53.
k d kd 1.53 0.066 0.101
1.40 1.31 0.09 k d 0.101
三、实验数据中可疑数据的取舍
• 可疑数据并不一定都是离群数据。 • 必须遵循一定的数据处理原则用偶然误差分布的 规律来分析判断,区别可疑数据是否离群数据。 该留则留,该舍则舍。 • 检验方法包括格拉布斯检验法,肖维涅法则, Cochran检验法,狄克逊法等等。 • 本章介绍 1)用于一组测量值的离群数据的检验 2)用于多组测量值均值的离群数据的检验 3)用于多组测量值方差的离群数据检验法
3)变异系数Cr (coefficient of variation)
Cr
(标准差)
x(算术平均值)
变异系数又叫相对标准偏差, 反映数据相对波动的大小, 当两组 数据标准偏差相等时,我们就利用变异系数 Cr 这一数字特征。如强 度、重量、尺寸、输出电压等,在数理统计上,常用 Cr。当 x 大时, 表明这组数据 Cr 小,即这组数据相对波动小;当 数据 Cr 大,即这组数据相对波动大。
1、一组测量值中离群数据的检验方 法
1) 格拉布斯(Grubbs)检验法
设有一组观测值 x1, x2…… xn, ,观测次数为 n,其中 x1 检验步骤如 下: ① 计算几个测量数据的平均值 x (包括可疑值) ; ② 计算标准误差 d; ③ 计算格拉布斯临界值 T 值 .
Ti
xi x d
3、多组测量值方差的离群数据检 —Cochran最大方差检验法
① 将 m 个组测定的每组标准差按大小顺序排列 1 , 2 …… m ,最大 记为 max ,按下式计算统计量 c:
C
m
2 max 2 i
i 1
其中: max ——m 个组中方差最大的值;
2
i 1
m
2)肖维涅准则
本方法是借助于肖维涅数据取舍标准来决定 可疑值取舍,方法如下: ① 计算标准误差 d 和 n 个数据的平均值 x ; ② 根据观测次数 n 查肖维涅数据取舍标准表得系 数 K。计算极限误差 k d , k d kd ; ③ 用 xi x 与 kd 进行比较, 若 xi 弃去,反之,则保留。
所以 1.40 应保留。
3 法则
当实验数据的总体是正态分布(一般实验数据多为此分 布) 时, 先计算出数列的标准误差, 求其极限误差 K
3
,
此时测量数据落于 x 3 范围内的可能性为 99.7%,也就 是说,落于此区间外的数据只有 0.3%的可能性,这在一 般测量次数不多的实验中是不易出现的, 若出现了这种情 况则可认为是由于某种错误造成的。 因此这些特殊点的误 差超过极限误差后,可以舍弃。
1)极差R
• 范围误差(range),是指一组实验数据最大 R xmax xmin 值与最小值之差,计算式为 • 极差的优点:计算方便,可以度量数据波动大 小,在正交实验的直观分析中,用极差值可以 比较出因素的主次,因而还是有实际意义的。
• 极差的缺点:只与两极端值有关,而与观测次 数无关,即没有充分利用全部数据提供的信息, 过份依赖个别的实验数据。故代表性较差,仅 反映精密度的高低,比较粗糙。
2、多组测量值均值的离群数据检验 -Grubbs检验法
① 计算各组测量的平均值 x1 , x2 …… xm ,m 为组数,并将各组均值按 大小顺序排列,其中最大、最小均值记为 x max , x min 。
② 计算上列Hale Waihona Puke Baidu值的平均值 x (总平均值) ,和标准误差 x
1 x m
x
i 1
m
i
1、总是以有限次数给出并具有一定波动 性。 2、总存在误差,且是综合性的,即随机 误差、系统误差、过失误差同时存在。
3、数据大都具有一定的统计规律性。
二、几个重要数字特征
• 1、位置特征参数及其计算 实验数据的位置特征参数,是用来描述实验 数据取值的平均位置和特定位置的,常用的有 均值、中值、极大值、极小值、众值等。 • 2、分散特征参数及其计算 分散特征参数被用来描述实验数据的分散程 度,常用的有极差,标准差、方差、变异系数 等。 • 3、相关特征参数 相关特征参数将用来表示变量可能存在的关 系。
2 i
——m 个组测定结果的方差之和。
②根据给定的显著性水平 a 及测定组数 m ,每组测定 数 n,查 Cochran 最大方检验临界值 Cr 表查得 Ca 值。 ③判断 当 C>C0.01,则可疑方差为离群方差, 说明该组数据 精密度过低,应予剔除。 当 C0.05<C<C0.01,则可疑方差为偏离方差。 若 C≤ C0.05 则可疑方差为正常方差。 *以上 Cochran 最大方差检验法可用于剔除多组测定 中精密度较差的一组数据, 也可用于多组测定值的方差 一致性检验。
2)方差和标准差
标准差即均方误差,是以均值为中心的分散 特征参数。其计算式为
1 n ( xi x) 2 标准差 n 1 i 1
从式中看出,标准差越大,则实验数据与均 值之间差距越大,表明实验所取数据愈分散;标准 差越小,实验所取数据愈集中,标准差单位同实验 数据单位一致。 方差就是标准 的平方 。标准差大,方差 大;标准差小,方差小。方差单位与实验数据单位 不一致,其量纲为观测值量纲的平方。 方差与标准差都可反映实验数据取值的分散 程度。
1 m x ( x i x) 2 m 1 i 1
③ 计算 T 值(统计量)
T
x max x
x
或
T
x x min
x
④ 根据给定的显著性水平 和测定的组数 m, 查离群数据分析判断表中格 拉布斯检验临界值 T 表,得临界值 T 。 ⑤ 判断. 若 T T0.01 ,则可疑均值为离群数值,可舍去;若 T0.05 T T0.01 ,则 T 为 偏离数值;若 T T0.05 ,则为正常数值。
2多组测量值均值的离群数据检验grubbs检验法m为组数并将各组均值按大小顺序排列其中最大最小均值记为minmax计算上列均值的平均值x总平均值和标准误差计算t值统计量根据给定的显著性水平和测定的组数m查离群数据分析判断表中格拉布斯检验临界值则可疑均值为离群数值可舍去
第二节
实验数据整理
• 一、实验数据的基本特点
解
x (1.25 1.2) 1.31 1.40 / 4 1.31
d
(x
i
x) 2
n 1
0.062 0.042 0 2 0.092 0.066 3
x4 x 1.40 1.31 T 4 1.36 d 0.066
查格拉布斯临界值表,得 n=4 时,T=1.463 T4<T,所以 1.40 应保留。
x 小时,表明这组
显著性水平(a)与置信水平 (1-a)
显著性水平 a (也称显著度) 是一个概率值,常用百分数表 示。置信水平(1-a)%(也称置信度) 。 如取显著性水平 a=0.1,表明所作出的显著性与否的判 断有 90%的把握,或者判断的可信程度是 90%,误判的可 能性有 10%。 若 a=0.05 则 1-a=1-0.05=0.95=95% 若 a=0.01,则 1-a=1-0.01=0.99=99% 由于判断的结论不可避免的存在误差 ,为了减少差错的 出现机率,在特别重要的实验中,显著性水平 a 尽可能取小 值,使判断的结论具有较高的置信度。
算出的 Ti 若大于表( Grubbs 临界值 T 表)的 T 值,则 xi 弃去; Ti 若小于等于表( Grubbs 临界值 T 表)的 T 值,则 xi 留下。
例 1:某河流的 BOD5 测定结果为 1.25,1.27,1.31,1.40,问 1.40 这个数是否要保留(显著度为 a=0.05)
x kd
, 则 xi
例 2: 某河流的 BOD5 测定结果为 1.25, 1.27, 1.31, 1.40, 问 1.40 这个数是否要保留 (显著度为 a=0.05) 解:查表得,观测次数 n=4 时,k=1.53.
k d kd 1.53 0.066 0.101
1.40 1.31 0.09 k d 0.101
三、实验数据中可疑数据的取舍
• 可疑数据并不一定都是离群数据。 • 必须遵循一定的数据处理原则用偶然误差分布的 规律来分析判断,区别可疑数据是否离群数据。 该留则留,该舍则舍。 • 检验方法包括格拉布斯检验法,肖维涅法则, Cochran检验法,狄克逊法等等。 • 本章介绍 1)用于一组测量值的离群数据的检验 2)用于多组测量值均值的离群数据的检验 3)用于多组测量值方差的离群数据检验法