第10章 数据处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
§ 10-2 单随机变量的数据处理
随机误差正态分布特 征:
1 y e 2 ( x i x )2 2 2
式中 y为测量误差 ( xi x ) 的概率密度。
3 2
x
2 3
13
§ 10-2 单随机变量的数据处理
在某一区间内将y积分可得计 算误差落在此区间内的测量值 出现的概率: 误差区间 -σ~ +σ -2σ~ +2σ -3σ~ +3σ 概率(%) 68%; 95%; 99.7%。
x1 x2 xn e1 e2 en x x0 n n
9
§ 10-2 单随机变量的数据处理
2.标准误差
2 x x i i 1 n
σ标准误差(样本均方差、
标准离差、标准差)
n1
标准误差σ反映了测量值在算术平均值附近的分散和 偏离程度。
(2) 剔除可疑值:第8个数据18.3疑为可疑数据,
d10 18.30 15.60 2.29 1.99 1.16 d
故18.3应当剔除。
18
§ 10-2 单随机变量的数据处理
(3) 再计算其余9个值的算术平均值和标准误差:
c 15.3MPa
σ 0.786MPa
解方程得
( x x )( y y ) b ( x x)
i i 2 i
a y bx
29
§ 10-3 多变量数据的处理
——经验公式的建立
求出a和b之后.还必须检验两个变量间相关的密切程 度,只有二者相关密切时,直线方程才有意义。
现在进一步分析残差平方和Q:
Q yi a bxi yi y bx bxi
在余下的9个数据中再检查可疑数据,取与平均值偏差最 大的第7个数据16.8,
d d 16.8 15.3 1.908 10 1.92 0.786
这个数据是合理的。
19
§ 10-2 单随机变量的数据处理
(4) 处理结果用算术平均值和极限误差表示为
c c 3 15.3 3 0.786
23
§ 10-2 单随机变量的数据处理
[例2] 岩石抗压强度均值15.3MPa, 标准差为0.786MPa
k 1
k 2
c c 14.5 (MPa)
c c 2 13.7 (MPa)
大于该值保证率50% 大于该值保证率95%
大于该值保证率99.7%
k 3
3. 粗大误差
又称过失误差,它是由于设计错误或接线错误、或操 作者粗心大意看错、读错、记错等原因造成的误差。
6
§ 10-1 测量误差
二、精密度、准确度和精度
精密度表征在相同条件下多次重复测量中测量结果的互相 接近,互相密集的程度,它反映随机误差的大小。准确度表 征测量结果与 被测量真值的 接近程度,它 反映系统误差 的大小。而精 度则反映测量 的总误差。
c c 3 12.9 (MPa)
[例3] 含水量平均值为40%, 标准差为5%
k 1 k 2 k 3 w w 45% w w 2 50% w w 3 55%
大于该值保证率50%
大于该值保证率95%
大于该值保证率99.7%
24
§ 10-3 多变量数据的处理
F> F0.01(1,n-2) ,回归高度显著(在0.01水平上显著);
F0.05(1,n-2)~ F0.01(1,n-2) ,回归显著(在0.05水平上显著); F0.10(1,n-2)~ F0.05(1,n-2) ,回归在0.1水平上显著; F< F0.1(1,n-2),回归不显著—y对x的线性关系不密切。
15
§ 10-2 单随机变量的数据ห้องสมุดไป่ตู้理
如果测量了300次以上,就有可能遇到超出±3σ的误 差,因此,有的大的误差仍属于随机误差,不应该舍去。 由此可见,对数据保留的合理误差范围是同测量次数n有 关的。下表为一种试验值舍弃标准,超过的可以舍去,其 中n为测量次数,di是合理的误差限,σ是根据测量数据算 得的标准误差。
有较大的差异。
26
§ 10-3 多变量数据的处理
——经验公式的建立
(3) 解析法。也称方程表示法和计算法,是通过对试验数 据的计算,求出表示各变量间关系的经验公式。其优点 是结果的统一性克服了图解法存在的主观因素的影响。
最简单的情况是对于两个或多个存在着统计相关的
随机变量,根据大量有关的测量数据来确定它们之间的 回归方程(经验公式)。这种数学处理过程也称为拟合过
7
§ 10-2 单随机变量的数据处理
一、误差估计
' x Q
测量误差 测量值
真值
' x Q
绝对误差
'
Q
8
相对误差
§ 10-2 单随机变量的数据处理
在实际测量中,测量误差是随机变量,因而测量值也 是随机变量。因真值无法测到,故用大量观测次数的平 均值近似地表示,并对误差的特性和范围作出估计。 1. 算术平均值 当未知量x0被测量n次,并被记录为x1,x2,…,xn个数, 那么,xr=x0+er,其中er是观测中的不确定度,或正或负。 n次测量的算术平均值为
2.00
2.58 3.00
95.0
99.0 99.7
22
3
2
x
2
3
§ 10-2 单随机变量的数据处理
在实用上,保证值是以偏于安全为原则来选 取最大值或最小值。如承载力等指标采用最小 值 x k ;含水量等指标采用最大值 x k 。 采用最小值时,保证值表示大于该值的数据出现 的概率等于所选取的保证率,采用最大值时,保 证值表示小于该值的数据出现的概率等于所选取 的保证率。
第十章
试验数据处理
1
本章主要内容
• § 10-1 测量误差
• § 10-2 单随机变量的数据处理
• § 10-3 多变量数据的处理 • § 10-4 其它方法
2
§ 10-1 测量误差
一、误差分类
测量值与真值之间的差叫做测量误差,它是由使用仪 器、测量方法、周围环境、人的技术熟练程度和人的感
官条件等的技术水平和客观条件的限制所引的。
17
§ 10-2 单随机变量的数据处理
四、处理结果的表示
1.实例 [例1] 同一岩体的10个岩石试件的抗压强度分别为:15.2, 14.6,16.1,15.4,15.5,14.9,16.8,18.3,14.6,15.0。 (1) 计算平均值和标准误差:
c 15.6MPa
σ 1.16MPa
15.3 2.36 (MPa)
根据误差的分布特征,该种岩石的抗压强度在12.94~ 17.66MPa的概率是99.7%,正常情况下的测试结果不 会超出该范围。
20
§ 10-2 单随机变量的数据处理
2. 保证极限法 K 0.00 保证率 0.0
0.67
1.00 1.645
50.0
68.0 90.0
在一般情况下,99.7%已 可认为代表多次测量的全体, 所以把±3σ叫作极限误差。
3 2
x
2 3
14
§ 10-2 单随机变量的数据处理
三、可疑数据的舍弃
在多次测量中,有时会遇到个别测值和其它多数测值 相差较大的情况,这些个别数据就是所谓的可疑数据。
对于可疑数据,可以利用正态分布来决定取舍。因为 在多次测量中,误差在-3σ~ +3σ之间时,其出现概率为 99.7%,也就是说,在此范围之外的误差出现的概率只有 0.3%,即测量300多次才可能遇上1次。若只进行10~20 次的有限测量,可以认为超出±3σ的误差已不属于随机误 差,应将其舍弃。
16
§ 10-2 单随机变量的数据处理
[使用方法] (1)计算测量数据的均值 x 和标准误差 。 (2)找出可疑值
x ,计算 di / xk x /
(3)将计算出的di/σ值与表中值相比,若大于表中值则应 当舍弃,舍弃后再对下一个可疑值进行检验,若小于表中 值,则可疑值是合理的。 注意:这种方法只适合误差只是由测试技术原因样本 代表性不足的数据的处理,对现场测试和探索性试验中出 现的可疑数据的舍弃,必须要有严格的科学依据,而不能 简单地用数学方法来舍弃。
3.变异系数Cv
Cv
x
11
§ 10-2 单随机变量的数据处理
二、误差的分布规律
随机误差一般具有以下特征(正态分布): (1)单峰值。绝对值小的误差比绝对值大的误差出现 的次数多。 (2)对称性。绝对值相等的正误差与负误差出现的次 数相等。 (3)抵偿性。随着测量次数的增加,随机误差的平均 值趋于0。 (4)有界性。在怀定的测量条件下,随机误差的绝对 值不会超过一定界限。
——经验公式的建立
在试验研究中,不但要测量随机变量的平均值和分布 特性,更重要的是要研究一些变量之间的相互关系,以探 求物理量之间相互变化的内在规律。对于两个以上变化着 的物理量的试验数据处理,通常有如下三种方法: (1) 列表法。根据试验的预期目的和内容,合理地设计 数表的规格和形式,使其具有明确的名称和标题,能够对 重要的数据和计算结果突出表示,有清楚的分项栏目、必 要的说明和备注,试验数据易于填写等。该法简单易作, 数据易于参考比较,形式紧凑,同一表中可表示多个变量 的变化,但数据变化趋势不如图解法明了直观。
2
式中 r——线性相关系数。
r=±1,表示完全线性相关;r=0表示线性不相关。 因而 r 表示两量的相关密切程度。注意: 只有当r的绝对值 大到一定程度时,才可用回归直线来近似地表示 x 与 y 的关系。此时称相关系数显著,即 x 与 y 关系密切。通 常也只有在此情况下,才能判定 x 与 y 存在线性关系。
程。回归方程的求解包括两个内容:
① 回归方程的数学形式的确定; ② 回归方程中所含参数的估计。
27
§ 10-3 多变量数据的处理
——经验公式的建立
一、一元线性回归
设有一组试验数据:(x1,y1).(x2,y2),…,(xn,yn),一 元线性回归分析的目的就是要找出一条直线方程,使它既 能反映各散点的总的规律,又能使其与各散点之间的差值 的平方和最小。 设欲求的直线方程为
1.随机误差 随机误差的发生是随机的,其数值变化规律符合一定 统计规律,通常为正态分布规律。因此,随机误差的度 量是用标准偏差。随机误差通常是由于环境条件的波动 以及观察者的精神状态等测量条件引起的。
5
§ 10-1 测量误差
2. 系统误差 系统误差是在一组测量中,常保持同一数值和同一符 号的误差,因而系统误差有一定的大小和方向,它是由 于测量原理的方法本身的缺陷、测试系统的性能、外界 环境(如温度、湿度、压力等)的改变、个人习惯偏向等 因素所引起的误差。
2 2
或 Q yi y b 2 xi x
2 2
若Q=0,则全部散点均落在直线上,则
2 2 2 y y b x x 0 i i
30
§ 10-3 多变量数据的处理
——经验公式的建立
令
r2 b2 xi x
2 y y i
ˆ a bx y
则要求
ˆ yi a bxi Q yi y
2
2
min
28
§ 10-3 多变量数据的处理
——经验公式的建立
根据极值定理,有
Q 0: a
Q 0: b
na b xi yi
a x i b x 2 x i yi i
31
§ 10-3 多变量数据的处理
——经验公式的建立
32
§ 10-3 多变量数据的处理
——经验公式的建立
通常,回归方程的显著性检验采用F检验法。
U F Q /( n 2) ˆ i y )2 U ( y
i 1 n
查F分布表(一元回归,ν1=1,ν2=n-2) 中三种不同显著 性水平α的数值,设记为Fα(1,n-2),将这三个数与由上 式计算的F值进行比较:
25
§ 10-3 多变量数据的处理
——经验公式的建立
(2) 图形表示法。在选定的坐标系中,根据试验数据画 出几何图形来表示试验结果,通常采用散点图。其优点 是:数据变化的趋向能够得到直观、形象的反映。缺点 是:超过三个变量就难于用图形来表示,绘图含有人为
的因素,同一原始数据因选择的坐标和比例尺的不同也
§ 10-2 单随机变量的数据处理
随机误差正态分布特 征:
1 y e 2 ( x i x )2 2 2
式中 y为测量误差 ( xi x ) 的概率密度。
3 2
x
2 3
13
§ 10-2 单随机变量的数据处理
在某一区间内将y积分可得计 算误差落在此区间内的测量值 出现的概率: 误差区间 -σ~ +σ -2σ~ +2σ -3σ~ +3σ 概率(%) 68%; 95%; 99.7%。
x1 x2 xn e1 e2 en x x0 n n
9
§ 10-2 单随机变量的数据处理
2.标准误差
2 x x i i 1 n
σ标准误差(样本均方差、
标准离差、标准差)
n1
标准误差σ反映了测量值在算术平均值附近的分散和 偏离程度。
(2) 剔除可疑值:第8个数据18.3疑为可疑数据,
d10 18.30 15.60 2.29 1.99 1.16 d
故18.3应当剔除。
18
§ 10-2 单随机变量的数据处理
(3) 再计算其余9个值的算术平均值和标准误差:
c 15.3MPa
σ 0.786MPa
解方程得
( x x )( y y ) b ( x x)
i i 2 i
a y bx
29
§ 10-3 多变量数据的处理
——经验公式的建立
求出a和b之后.还必须检验两个变量间相关的密切程 度,只有二者相关密切时,直线方程才有意义。
现在进一步分析残差平方和Q:
Q yi a bxi yi y bx bxi
在余下的9个数据中再检查可疑数据,取与平均值偏差最 大的第7个数据16.8,
d d 16.8 15.3 1.908 10 1.92 0.786
这个数据是合理的。
19
§ 10-2 单随机变量的数据处理
(4) 处理结果用算术平均值和极限误差表示为
c c 3 15.3 3 0.786
23
§ 10-2 单随机变量的数据处理
[例2] 岩石抗压强度均值15.3MPa, 标准差为0.786MPa
k 1
k 2
c c 14.5 (MPa)
c c 2 13.7 (MPa)
大于该值保证率50% 大于该值保证率95%
大于该值保证率99.7%
k 3
3. 粗大误差
又称过失误差,它是由于设计错误或接线错误、或操 作者粗心大意看错、读错、记错等原因造成的误差。
6
§ 10-1 测量误差
二、精密度、准确度和精度
精密度表征在相同条件下多次重复测量中测量结果的互相 接近,互相密集的程度,它反映随机误差的大小。准确度表 征测量结果与 被测量真值的 接近程度,它 反映系统误差 的大小。而精 度则反映测量 的总误差。
c c 3 12.9 (MPa)
[例3] 含水量平均值为40%, 标准差为5%
k 1 k 2 k 3 w w 45% w w 2 50% w w 3 55%
大于该值保证率50%
大于该值保证率95%
大于该值保证率99.7%
24
§ 10-3 多变量数据的处理
F> F0.01(1,n-2) ,回归高度显著(在0.01水平上显著);
F0.05(1,n-2)~ F0.01(1,n-2) ,回归显著(在0.05水平上显著); F0.10(1,n-2)~ F0.05(1,n-2) ,回归在0.1水平上显著; F< F0.1(1,n-2),回归不显著—y对x的线性关系不密切。
15
§ 10-2 单随机变量的数据ห้องสมุดไป่ตู้理
如果测量了300次以上,就有可能遇到超出±3σ的误 差,因此,有的大的误差仍属于随机误差,不应该舍去。 由此可见,对数据保留的合理误差范围是同测量次数n有 关的。下表为一种试验值舍弃标准,超过的可以舍去,其 中n为测量次数,di是合理的误差限,σ是根据测量数据算 得的标准误差。
有较大的差异。
26
§ 10-3 多变量数据的处理
——经验公式的建立
(3) 解析法。也称方程表示法和计算法,是通过对试验数 据的计算,求出表示各变量间关系的经验公式。其优点 是结果的统一性克服了图解法存在的主观因素的影响。
最简单的情况是对于两个或多个存在着统计相关的
随机变量,根据大量有关的测量数据来确定它们之间的 回归方程(经验公式)。这种数学处理过程也称为拟合过
7
§ 10-2 单随机变量的数据处理
一、误差估计
' x Q
测量误差 测量值
真值
' x Q
绝对误差
'
Q
8
相对误差
§ 10-2 单随机变量的数据处理
在实际测量中,测量误差是随机变量,因而测量值也 是随机变量。因真值无法测到,故用大量观测次数的平 均值近似地表示,并对误差的特性和范围作出估计。 1. 算术平均值 当未知量x0被测量n次,并被记录为x1,x2,…,xn个数, 那么,xr=x0+er,其中er是观测中的不确定度,或正或负。 n次测量的算术平均值为
2.00
2.58 3.00
95.0
99.0 99.7
22
3
2
x
2
3
§ 10-2 单随机变量的数据处理
在实用上,保证值是以偏于安全为原则来选 取最大值或最小值。如承载力等指标采用最小 值 x k ;含水量等指标采用最大值 x k 。 采用最小值时,保证值表示大于该值的数据出现 的概率等于所选取的保证率,采用最大值时,保 证值表示小于该值的数据出现的概率等于所选取 的保证率。
第十章
试验数据处理
1
本章主要内容
• § 10-1 测量误差
• § 10-2 单随机变量的数据处理
• § 10-3 多变量数据的处理 • § 10-4 其它方法
2
§ 10-1 测量误差
一、误差分类
测量值与真值之间的差叫做测量误差,它是由使用仪 器、测量方法、周围环境、人的技术熟练程度和人的感
官条件等的技术水平和客观条件的限制所引的。
17
§ 10-2 单随机变量的数据处理
四、处理结果的表示
1.实例 [例1] 同一岩体的10个岩石试件的抗压强度分别为:15.2, 14.6,16.1,15.4,15.5,14.9,16.8,18.3,14.6,15.0。 (1) 计算平均值和标准误差:
c 15.6MPa
σ 1.16MPa
15.3 2.36 (MPa)
根据误差的分布特征,该种岩石的抗压强度在12.94~ 17.66MPa的概率是99.7%,正常情况下的测试结果不 会超出该范围。
20
§ 10-2 单随机变量的数据处理
2. 保证极限法 K 0.00 保证率 0.0
0.67
1.00 1.645
50.0
68.0 90.0
在一般情况下,99.7%已 可认为代表多次测量的全体, 所以把±3σ叫作极限误差。
3 2
x
2 3
14
§ 10-2 单随机变量的数据处理
三、可疑数据的舍弃
在多次测量中,有时会遇到个别测值和其它多数测值 相差较大的情况,这些个别数据就是所谓的可疑数据。
对于可疑数据,可以利用正态分布来决定取舍。因为 在多次测量中,误差在-3σ~ +3σ之间时,其出现概率为 99.7%,也就是说,在此范围之外的误差出现的概率只有 0.3%,即测量300多次才可能遇上1次。若只进行10~20 次的有限测量,可以认为超出±3σ的误差已不属于随机误 差,应将其舍弃。
16
§ 10-2 单随机变量的数据处理
[使用方法] (1)计算测量数据的均值 x 和标准误差 。 (2)找出可疑值
x ,计算 di / xk x /
(3)将计算出的di/σ值与表中值相比,若大于表中值则应 当舍弃,舍弃后再对下一个可疑值进行检验,若小于表中 值,则可疑值是合理的。 注意:这种方法只适合误差只是由测试技术原因样本 代表性不足的数据的处理,对现场测试和探索性试验中出 现的可疑数据的舍弃,必须要有严格的科学依据,而不能 简单地用数学方法来舍弃。
3.变异系数Cv
Cv
x
11
§ 10-2 单随机变量的数据处理
二、误差的分布规律
随机误差一般具有以下特征(正态分布): (1)单峰值。绝对值小的误差比绝对值大的误差出现 的次数多。 (2)对称性。绝对值相等的正误差与负误差出现的次 数相等。 (3)抵偿性。随着测量次数的增加,随机误差的平均 值趋于0。 (4)有界性。在怀定的测量条件下,随机误差的绝对 值不会超过一定界限。
——经验公式的建立
在试验研究中,不但要测量随机变量的平均值和分布 特性,更重要的是要研究一些变量之间的相互关系,以探 求物理量之间相互变化的内在规律。对于两个以上变化着 的物理量的试验数据处理,通常有如下三种方法: (1) 列表法。根据试验的预期目的和内容,合理地设计 数表的规格和形式,使其具有明确的名称和标题,能够对 重要的数据和计算结果突出表示,有清楚的分项栏目、必 要的说明和备注,试验数据易于填写等。该法简单易作, 数据易于参考比较,形式紧凑,同一表中可表示多个变量 的变化,但数据变化趋势不如图解法明了直观。
2
式中 r——线性相关系数。
r=±1,表示完全线性相关;r=0表示线性不相关。 因而 r 表示两量的相关密切程度。注意: 只有当r的绝对值 大到一定程度时,才可用回归直线来近似地表示 x 与 y 的关系。此时称相关系数显著,即 x 与 y 关系密切。通 常也只有在此情况下,才能判定 x 与 y 存在线性关系。
程。回归方程的求解包括两个内容:
① 回归方程的数学形式的确定; ② 回归方程中所含参数的估计。
27
§ 10-3 多变量数据的处理
——经验公式的建立
一、一元线性回归
设有一组试验数据:(x1,y1).(x2,y2),…,(xn,yn),一 元线性回归分析的目的就是要找出一条直线方程,使它既 能反映各散点的总的规律,又能使其与各散点之间的差值 的平方和最小。 设欲求的直线方程为
1.随机误差 随机误差的发生是随机的,其数值变化规律符合一定 统计规律,通常为正态分布规律。因此,随机误差的度 量是用标准偏差。随机误差通常是由于环境条件的波动 以及观察者的精神状态等测量条件引起的。
5
§ 10-1 测量误差
2. 系统误差 系统误差是在一组测量中,常保持同一数值和同一符 号的误差,因而系统误差有一定的大小和方向,它是由 于测量原理的方法本身的缺陷、测试系统的性能、外界 环境(如温度、湿度、压力等)的改变、个人习惯偏向等 因素所引起的误差。
2 2
或 Q yi y b 2 xi x
2 2
若Q=0,则全部散点均落在直线上,则
2 2 2 y y b x x 0 i i
30
§ 10-3 多变量数据的处理
——经验公式的建立
令
r2 b2 xi x
2 y y i
ˆ a bx y
则要求
ˆ yi a bxi Q yi y
2
2
min
28
§ 10-3 多变量数据的处理
——经验公式的建立
根据极值定理,有
Q 0: a
Q 0: b
na b xi yi
a x i b x 2 x i yi i
31
§ 10-3 多变量数据的处理
——经验公式的建立
32
§ 10-3 多变量数据的处理
——经验公式的建立
通常,回归方程的显著性检验采用F检验法。
U F Q /( n 2) ˆ i y )2 U ( y
i 1 n
查F分布表(一元回归,ν1=1,ν2=n-2) 中三种不同显著 性水平α的数值,设记为Fα(1,n-2),将这三个数与由上 式计算的F值进行比较:
25
§ 10-3 多变量数据的处理
——经验公式的建立
(2) 图形表示法。在选定的坐标系中,根据试验数据画 出几何图形来表示试验结果,通常采用散点图。其优点 是:数据变化的趋向能够得到直观、形象的反映。缺点 是:超过三个变量就难于用图形来表示,绘图含有人为
的因素,同一原始数据因选择的坐标和比例尺的不同也