常用数据分析处理方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n(n 1)
n ( xi x )4 3(n 1)2
(n 1)(n 2)(n 3) i1 s
(n 2)(n 3)
• 利用峰度研究数据分布的形状是以正态分布为标准 (假定正态分布的方差与所研究分布的方差相等)比 较两端极端数据的分布情况,若
1 近似于标准正态分布,则峰度接近于零;
2 尾部较正态分布更分散,则峰度为正,称为轻尾;
实验结果: x x1 x2 x3 … xn
y y1 y2 y3 … yn
yi = a + bxi i = 1、2、3、…、n 与y = a + bx的差异
S
n
i2
n
yi a bxi 2
i 1
n 1
S最小——最小二乘法。
逐差法
自变量物理量呈线性关系、等间隔变化时。 用逐差法计算因变量变化的平均值。 测量的数据(偶数组)分成前后两组,将 对应项分别相减,然后计算平均值 。
,上、下截断点分别为: μ+2.698 σ, μ-2.698 σ。数据落在上
、下截断点之外的概率为0.00698。
2、凡残余误差大于三倍标准差的误差就是粗大误差
vb xb x 3
11
• 表示数据分布形状的统计量
• 偏度和峰度是描述数据分布形状的指标。
• 1. 偏度(skewness):偏度是刻画数据对称性的指标。 偏度的计算公式为:
g1
(n
n 1)(n
n (xi 2) i 1 s
x )3
• 关于均值对称的数据其偏度为g1=0; • 左侧更为分散的数据,其偏度为负(g1<0),
称为左偏;
• 右侧更为分散的数据,其偏度为正(g1>0) , 称为右偏。
12
• 2. 峰度kurtosis:峰度描述数据向分布尾端散布 的趋势
K
取值变化情况,有单式和复式两种 (图2-25)。 • 在复式线图中可用不同颜色的实线来 标志区别,如图2-25右所示。
21
直方图 以小区间 [ti-1,ti] 为底,yi=fi / d ( i=1, 2, …, m) 为高作一系列小矩形,组成了频率直方图。
22
1、利用排列图寻找改善重点; 2、利用排列图验证改善效果;
• 总体的四分位极差为r1= ξ0.75- ξ0.25=1.349 σ,则有
•
σ= r1 / 1.349
1、上、下截断点( ξ0.75 +1.5 r1 , ξ0.25 - 1.5 r1 ):用来判断异常值 的简便方法。大于上截断点的数据为特大值,小于下截断点
的数据为特小值,都视为异常值。总体为正态分布N(μ, σ2)时
( L ) Su
数据分析误区
误区一:展示元素不宜大于3个
1000000 900000 800000 700000 600000 5Hale Waihona Puke Baidu0000 400000 300000 200000 100000 0 12月 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
误区二:时间序列数据最好使用折线图,而不宜使 用柱状图等
3 尾部较正态分布更集中,则峰度为负,称为厚尾。
13
f(δ)
1 2 3
σ1 σ2
σ3
O
δ
14
常用的数据分析方法
列表法 图示法 最小二乘法拟合经验方程 逐差法 数据统计量
列表法
列表法没有统一的格式。 设计表格,能充分反映列表法的优点, 要注意: (1)栏目的名称、单位要注明; (2)栏目的顺序要注意数据间的联系、计 算顺序,力求简明、齐全、有条理; (3)反映测量值函数关系的数据表格,应 按自变量由小到大、或由大到小顺序排列。
s ˆ
1n n 1 i1
xi x 2
1 n 1
n i 1
vi2
4、变异系数(Coefficient of Variation或CV):是将标准差表示为均值的百分 数,是观测数据相对分散性的一个度量。
CV
100
s x
(%)
5、极差就是数据中的最大值和最小值之间的差。极差有许多特殊的应用,如质 量控制图中的极差图。
散点图
通常得到的数据可能有两个变量,比如家庭的收 入和支出情况的数据,这里家庭总收入是一个变量, 而家庭总支出是第二个变量。希望通过图形了解收入 和支出的关系,这时可以用一个变量为横坐标(如家 庭总收入),另一个为纵坐标(这里是家庭总支出) 来作图。这种图称为散点图(Scatter Plot)。
折线图 • 折线图(Line Plot)用来表示变量间的
之前
100%
之后
实现的改善
100%
排列图的应用
当特性值符合规定标准时,其对应的直方图,必定在标准范围之内。符合规 定的直方图大致有下面四种类型:
T
T
B
B
SL ( S )
T B
( L ) Su
SL ( S )
( L ) Su
T B
SL ( S )
( L ) Su
SL ( S )
直方图在标准范围内的情况
在主体直方图的左侧或右侧出现孤立的小块, 像一个孤立的小岛。出现孤岛型直方图,说 明有特殊事件发生。
双峰型直方图是指在直方图中有左右两个峰, 出现双峰型直方图,这是由于观测值来自两 个总体、两种分布,数据混在一起。
折齿型直方图形状凹凸相隔,象梳子折断齿一 样。出现折齿型直方图,是处理数据时分组不 适当等原因造成
图示法
(1)必须用坐标
确定作图的参量后,根据情况选择直角、 对数、半对数、或其它坐标。
(2)坐标比例的选取与标度 自变量作横坐标(X轴),因变量作纵坐 标(Y轴),标明所代表的物理量(或符号)、 单位。
坐标比例。
过小,损害数据的准确度;
过大,夸大数据的准确度。
最小二乘法拟合经验方程
y = f(x) 线性关系:y = a + bx
12月 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
误区四:为避免图表的欺骗性,图线最好占据2/3 至3/4的高度(调整Y轴刻度)
100%
85%
83.5%
90%
80% 70%
83.5%
73.7%
71.5% 68.1%
75.4% 69.0%
79.0% 72.9%
7735..18%%
绝壁型直方图左右不对称,并且其中一侧像高 山绝壁的形状,剔除特性值数据不当导致的。
1、线性、指数、 对数、幂次 2、周期
数据统计量
1、均值(Mean):是所有观测值的平均值,是描述数据取值中心位置的一个度量。
x
1
n
n
xi
i 1
x1 xn n
2、中位数(Median或Med)表示一组数据按照大小的顺序排列时中间位置的数值。
3、方差(Variance或Var) :是由各观测值到均值距离的平方和除以观测量组数减1, 是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方。方差的开方 称为标准差。贝塞尔公式用算术平均值 代替真值μ,用残余误差vi代替真误差δi。
x
的
• 设数据是总体X的样本,则数据的方差s2、标准差s、变异系 数CV分别是总体方差σ2=Var(X)、总体标准差σ、总体变异系数 r= σ/μ的相合估计:即当样本容量n充分大时,有σ2 ≈ s2, σ ≈ s,
r≈CV
• 正态总体N(μ, σ2)的上、下四位数分别为
• ξ0.75= μ+0.6745 σ, ξ0.25= μ-0.6745 σ
73.7% 71.5%
72.9% 73.1%
72.9% 70.9% 71.9% 71.6%
40%
70%
69.0%
68.9% 69.0%
30%
68.1%
67.7% 67.1%
20%
65%
10%
0% 12月 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
62.2%
60% 12月 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
7756..69%%
74.5% 70.9%
7618..99%%
7712..69%%
77.3% 69.0%
67.7%
79.6% 75.57%5.7% 67.1%
80%
60%
62.2%
75%
79.0%
76.9% 75.4% 75.8% 75.6%
74.5%
79.6%
77.3% 75.5%75.7%
50%
1000000 900000 800000 700000 600000 500000 400000 300000 200000 100000 0 12月 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
误区三:研究用数据最好不使用三维立体图
1000000 900000 800000 700000 600000 500000 400000 300000 200000 100000 0 S3 S1
极差= x(n) - x(1) = max{xi} – min{xi}
对某一个量作n次重复测量
每次(组)多次实验所得平均值都不会相同。这些平均值也会形成 一种分布。平均值的标准偏差便是代表这些不同的平均值的可能差异 性(精密度)。一般等精度测量的测量次数取n≤10即可。
当n>10后,n再增加时,
减小效果已不明显。