常用数据分析处理方法PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,上、下截断点分别为: μ+2.698 σ, μ-2.698 σ。数据落在上
、下截断点之外的概率为0.00698。
2、凡残余误差大于三倍标准差的误差就是粗大误差
vb xbx 3
11
• 表示数据分布形状的统计量
• 偏度和峰度是描述数据分布形状的指标。
• 1. 偏度(skewness):偏度是刻画数据对称性的指标。 偏度的计算公式为:
x
的
• 设数据是总体X的样本,则数据的方差s2、标准差s、变异系 数CV分别是总体方差σ2=Var(X)、总体标准差σ、总体变异系数 r= σ/μ的相合估计:即当样本容量n充分大时,有σ2 ≈ s2, σ ≈ s,
r≈CV
• 正态总体N(μ, σ2)的上、下四位数分别为
• ξ0.75= μ+0.6745 σ, ξ0.25= μ-0.6745 σ
n ( xi x )4 3(n 1)2
(n 1)(n 2)(n 3) i1 s
(n 2)(n 3)
• 利用峰度研究数据分布的形状是以正态分布为标准 (假定正态分布的方差与所研究分布的方差相等)比 较两端极端数据的分布情况,若 1 近似于标准正态分布,则峰度接近于零; 2 尾部较正态分布更分散,则峰度为正,称为轻尾; 3 尾部较正态分布更集中,则峰度为负,称为厚尾。
• 总体的四分位极差为r1= ξ0.75- ξ0.25=1.349 σ,则有
•
σ= r1 / 1.349
1、上、下截断点( ξ0.75 +1.5 r1 , ξ0.25 - 1.5 r1 ):用来判断异常值 的简便方法。大于上截断点的数据为特大值,小于下截断点
的数据为特小值,都视为异常值。总体为正态分布N(μ, σ2)时
通常得到的数据可能有两个变量,比如家庭的收 入和支出情况的数据,这里家庭总收入是一个变量, 而家庭总支出是第二个变量。希望通过图形了解收入 和支出的关系,这时可以用一个变量为横坐标(如家 庭总收入),另一个为纵坐标(这里是家庭总支出) 来作图。这种图称为散点图(Scatter Plot)。
折线图 • 折线图(Line Plot)用来表示变量间的
图示法
(1)必须用坐标
确定作图的参量后,根据情况选择直角、 对数、半对数、或其它坐标。
(2)坐标比例的选取与标度 自变量作横坐标(X轴),因变量作纵坐 标(Y轴),标明所代表的物理量(或符号)、 单位。
坐标比例。
过小,损害数据的准确度;
过大,夸大数据的准确度。
最小二乘法拟合经验方程
y = f(x) 线性关系:y = a + bx 实验结果: x x1 x2 x3 … xn
( L ) Su
数据分析误区
误区一:展示元素不宜大于3个
1000000 900000 800000 700000 600000 500000 400000 300000 200000 100000 0 12月 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
13
f(δ)
1 2 3
σ1 σ2
σ3
O
δ
14
常用的数据分析方法
列表法 图示法 最小二乘法拟合经验方程 逐差法 数据统计量
列表法
列表法没有统一的格式。 设计表格,能充分反映列表法的优点, 要注意: (1)栏目的名称、单位要注明; (2)栏目的顺序要注意数据间的联系、计 算顺序,力求简明、齐全、有条理; (3)反映测量值函数关系的数据表格,应 按自变量由小到大、或由大到小顺序排列。
g1 (n1) nn(2)i n1(xisx)3
• 关于均值对称的数据其偏度为g1=0; • 左侧更为分散的数据,其偏度为负(g1<0),
称为左偏; • 右侧更为分散的数据,其偏度为正(g1>0) ,
称为右偏。 12
• 2. 峰度kurtosis:峰度描述数据向分布尾端散布 的趋势
K
n(n 1)
1、线性、指数、 对数、幂次 2、周期
数据统计量
1、均值(Mean):是所有观测值的平均值,是描述数据取值中心位置的一个度量。
x
n x 1 n i i 1
x
1
nxn
2、中位数(Median或Med)表示一组数据按照大小的顺序排列时中间位置的数值。
3、方差(Variance或Var) :是由各观测值到均值距离的平方和除以观测量组数减1, 是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方。方差的开方 称为标准差。贝塞尔公式用算术平均值 代替真值μ,用残余误差vi代替真误差δi。
取值变化情况,有单式和复式两种 (图2-25)。 • 在复式线图中可用不同颜色的实线来 标志区别,如图2-25右所示。
21
直方图 以小区间 [ti-1,ti] 为底,yi=fi / d ( i=1, 2, …, m) 为高作一系列小矩形,组成了频率直方图。
22
1、利用排列图寻找改善重点; 2、利用排列图验证改善效果;
极差= x(n) - x(1) = max{xi} – min{xi}
对某一个量作n次重复测量
每次(组)多次实验所得平均值都不会相同。这些平均值也会形成 一种分布。平均值的标准偏差便是代表这些不同的平均值的可能差异 性(精密度)。一般等精度测量的测量次数取n≤10即可。
当n>10后,n再增加时,
减小效果已不明显。
y y1 y2 y3 … yn
yi = a + bxi i = 1、2、3、…、n
S与 ny=i2a+ nbx的yi差异abix2
i1
n1
逐差法
自变量物理量呈线性关系、等间隔变化 时。
用逐差法计算因变量变化的平均值。 测量的数据(偶数组)分成前后两组, 将对应项分别相减,然后计算平均值 。
散点图
sˆ
1n n1i 1
xi x2
n1 1i n 1vi2
4、变异系数(Coefficient of VaBiblioteka Baiduiation或CV):是将标准差表示为均值的百分 数,是观测数据相对分散性的一个度量。
CV
100
s x
(%)
5、极差就是数据中的最大值和最小值之间的差。极差有许多特殊的应用,如质 量控制图中的极差图。
之前
100%
之后
实现的改善
100%
排列图的应用
当特性值符合规定标准时,其对应的直方图,必定在标准范围之内。符合规 定的直方图大致有下面四种类型:
T
T
B
B
SL ( S )
T B
( L ) Su
SL ( S )
( L ) Su
T B
SL ( S )
( L ) Su
SL ( S )
直方图在标准范围内的情况