基本统计知识和图形方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我们关注正态曲线分布
光滑的曲线连接每个柱的中心 柱的中心
测量单位
正态曲线是描述正态分布的数学表达式的图形表示;
精益广合与您成功共享
正态分布
•
“正态” 分布是具有一定相同特性的数据分布
• 这些特性对理解我们的流程特征十分有用,我们将从此流 程中获得数据
• 大多数自然现象和人工过程是正态分布,或者可以被描述 成近似的正态分布
在两个值之 间获得累积 概率值
95%
99.73%
0
1
2
3
4
离开均值的标准偏差数
精益广合与您成功共享
产生具有正态曲线的柱状图
Histogram of Rate
Normal 25
Mean 22.03 StDev 2.841 N 150
20
Frequency
15
10
5
0 14 16 18 20 22 Rate 24 26 28
精益广合与您成功共享
单值图( Individuals Chart )
• 单值图看上去像一个运行图,但现在它们为数据提供了一 些流程控制限
应用的前提是数据必须是正态的
精益广合与您成功共享
单值图
I Chart of Rate
30 UCL=30.57
Individual Value
25 _ X=22.03 20
S (Xi - X)2 = 样本中每个数值的波动平方和 n - 1= 数据总数 – 1,表示自由度
方差是波动平方和的平均
精益广合与您成功共享
方差的构成
一个流程输出变量的总的变化 (方差) 可以分割成各
流程输入的变化 (注意:这里是指总体的情况)
2 ; 如果stotal = 过程输出的方差 2 sX = 源于输入变量 X1 的方差 ; 1 2 sX = 源于输入变量 X2 的方差 ; 2
精益广合与您成功共享
数据类型
计数型数据( Attribute or Discrete Data) (又可称为定性的或离散 的数据) – 种类 – 好/坏 – 机器1, 机器2, 机器3 – 班次 – 计数事件 (文件中的错误数, 装船的货品数等 )
计量型数据( Variable or Continuous Data ) (又可称为定量的或连 续的数据) – 连续的数据 (有意义的小数) • 时间(秒) • 压力 (psi) • 传送带速度 (ft/min) • Rate (inches)……
精益广合与您成功共享
数据中心趋向的度量
• 均值: 一组数据的算术平均 – 反映所有数据的影响 – 受极端值影响很大 • 中位值: 把一组数据排序后的中心值 – 在计算中不必要包括所有的数值 – 对极端数值很“稳健” • 众值: 是出现频次最多的数值. – 不是很常用.
在流程改善的工作中,为什么我们使用均值, 而很少使用中位值 ?
对总体的完全分析可能性有多大? 用样本代表总体
精益广合与您成功共享
统计学基础
• 数据类型
• 数据中心的度量
– 均值(Mean)
– 中位值(Median)
– 众值 (Mode)
• 数据变差的度量
– 极差(Range) – 方差(Variance) – 标准偏差( Standard Deviation )
Units of Measure
完全描述,只需知道:
– 均值, 和 – 标准偏差
1s
1s
变差小, s就小.
USL
1s 精益广合与您成功共享
变差大, s就大.
正态曲线和概率面积与标准偏差的关系
• 特性2: 曲线下部的面积可用来估计特定“事件” 发
生的累积概率
68%
40%
样本值的概率
30% 20% 10% 0% -4 -3 -2 -1
15 LCL=13.48 1 16 31 46 61 76 91 Observation 106 121 136
精益广合与您成功共享
因此,
• 在分析流程数据的第一步必须先诊断流程随时间的稳定性
– 不要一开始就用直方图或描述性统计来解释数据
• 只有当没有出现系统性的转变模式时,才可以构建直方图 来看看它的分布 • 如果出现系统性的转变模式,需要先分析流程有什么异常 的原因导致这样的结果,或采用其它的统计方法模型来分 析
107 102 103 106 106 111 103 105 108 108
仅仅看这些堆在一起的数据能得到什么结论?
精益广合与您成功共享
抽样概述: 总体和样本
. 总体:研究对象的全体,构成总体的每个基本单位称为个体. . 样本: 从总体中抽取一部分个体进行观察,被抽到的个体组成
总体的一个样本
. 样本容量(样本量): 样本中个体的数量
精益广合与您成功共享
时序图
Time Series Plot of Rate
30.0 27.5 25.0
Rate
22.5 20.0 17.5 15.0 1 15 30 45 60 75 Index 90 105 120 135 150
精益广合与您成功共享
随机稳定性的诊断工具
• 时序图(Time Series Plot) • 运行图(Run Chart) • 运行图或链图(Runs Test) • 控制图(Individual Chart)
Bimodal Distribution
Percent
0
50
100 Mystery
150
200
特点: 双峰或多峰, 通常较对称
数据来自两个或多个不同的总体或流程,比如,把来自2个操作员或2台设备 加工的产品混为一批等
精益广合与您成功共享
倾斜度Skewed -右偏或正偏的分布曲线
Positive Skewed Distribution
精益广合与您成功共享
正态分布
1)运用背景 大部分业务流程质量特性服从正态或近似正态分布
X~N(μ,σ2)
2)密度函数
1 f ( x) = e s 2 ( x - )2 2s 2
3)数字特征 E(X)=μ
Var(X)=σ2
精益广合与您成功共享
正态分布
拐点
• 特性1: 正态分布密 度以均值μ为对称轴, 并且在μ处达到最大 值;正态分布可以被
.80 .50 .20 .05 .01 .001
正态分布
Average: 70 Std Dev: 10 N of data: 500
26
36
46
56
66
76
86
96
106
Normal
Anderson-Darling Normality Test A-Squared: 0.418 p-value: 0.328
精益广合与您成功共享
变差的度量
• 极差(R):一组数据中极限值间的距离(最高-最低) • 方差(s 和 S2 ):每个数据点与其均值离差平方和的均值
• 标准偏差 ( s 和 S ):方差的平方根
方差和标准偏差反映了所有数据的情况,是测量离散/变差应用最多 的一种度量方法 方差和标准差有总体和样本之分
Percent
P>0.05,数据呈正态 分布
15
20 RFra Baidu bibliotekte
25
30
精益广合与您成功共享
均值、中值、众数
众数
均值
中位数
众数 1
众数 2 均值 中位数
均值 中位数 众数
分布形状提供了关于流程的重要信息
精益广合与您成功共享
正态分布曲线
Normal Distribution
.999 .99 .95
P robability
精益广合与您成功共享
统计学导入
102 107 107 108 105 109 103 110 106 109
108 111 105 107 111 104 104 113 113 111
107 102 109 107 108 109 112 110 106 108
108 105 107 105 103 108 105 107 106 107
最后,我们把数据看成光滑的分布(红线),在这个例子中使用了“正 态分布”的假设 (我们将稍后讨论)。如果我们收集了一组无限的数据点 ,它提供了一个近似的数据分析结果 。
精益广合与您成功共享
正态概率图
精益广合与您成功共享
概率图示例
Probability Plot of Rate
Normal
99.9 99 95 90 80 70 60 50 40 30 20 10 5 1 0.1 Mean StDev N AD P-Value 22.03 2.841 150 0.361 0.442
我们能知道多少流程的表现吗?
理解变差需要不止一个观察值!, 通常研究一个分布至少需要30个以上的数据,50个以上最好
精益广合与您成功共享
一些随机变量的概率分布曲线
正态分布
双峰分布
指数分布
负指数分布
正(右)偏分布
负(左)偏分布
这些分布曲线都有可能代表了一个稳定的流程,有不同的原因引起这样的分布
精益广合与您成功共享
2
• 有时候标准偏差还可以表示为:
s =mR / d 2
精益广合与您成功共享
(其中d2 是常数,可以通过查表得到)
方差的计算
样本方差 总体方差
2
s 2 = s2 = i =1
这里 :
S ( Xi - X )
n
n -1
S(Xi -
s2 =
i =1
S ( Xi -μ )2
N
N
Xi – μ:每个数据的偏离(Deviation) μ)2 或SST: 每个数值的偏离均值 的平方和—波动平方和,反映数据总的 偏离或波动情况 N= 数据总数
.999 .99
Probability
.95 .80 .50 .20 .05
右偏分布
.01 .001
60
70
80
90
100
110
120
130
Pos Skew
Average: 70 Std Dev: 10 N of data: 500 Anderson-Darling Normality Test A-Squared: 46.447 p-value: 0.000
.999 .99 .95 .80
Probability
.50 .20 .05 .01 .001
左偏分布
0 10 20 30 40 50 60 70 80
Neg Skew
Average: 70 Std Dev: 10 N of data: 500 Anderson-Darling Normality T est A-Squared: 43.953 p-value: 0.000
极差比方差对极端值更敏感
精益广合与您成功共享
标准偏差
标准偏差是方差的平方根,波动的标准测量值,表示数据与均值距离的 平均值. 相对应地,有总体的标准偏差和样本的标准偏差之分
• 对总体的无偏估计
• 样本标准偏差的计算
2
s
S
n
=
i =1
( Xi - μ )
N
s
^
S
n
= s =
i =1
( Xi - X ) n-1
2 2 2 s = s + s , 那么 Total X1 X2
2 2 + s , sTotal = sX 所以 X2 1
前提是:只要X1和X2是独立的
精益广合与您成功共享
变量的分布
n=1 n=5 x x x x x n = 30
x xxxx xxxxxxxxx xxxxxxxxxxxxxxxx
x
基本统计知识和图形方法
x
s
2012年7月27日
精益广合与您成功共享
模块内容
统计思维
变差的概述
统计学基础
- 数据种类
- 中心, 变差 ,形状
图表技术
分布
数据分析举例及练习
精益广合与您成功共享
统计工具与项目的关系?
六西格玛项目改善的关注点:
• 客户驱动 • 用数据与事实说话 如何用数据与事实说话? • 真实的历史数据 + 专业知识 + 统计工具和应用软件 项目完成的质量 = 统计工具的复杂程度?
特点: 对称, 单峰,围绕一个目标值的左右两个方向波动 变差得到控制的大部分流程的特点
精益广合与您成功共享
双峰或多峰式分布曲线
Probability Plot of Mystery
Normal
99.9 99 95 90 80 70 60 50 40 30 20 10 5 1 0.1 Mean 100.0 StDev 32.38 N 500 AD 27.108 P-Value <0.005
特点: 单一众数,尾巴拖向左侧;在业务中,通常表现为不可 能大于某一个值,但可以达到任何小的值;如生产合格率; 在生产加工中,可能是由于单向公差(形位偏差)要求或加工习 惯等引起的
精益广合与您成功共享
时序图( Time Series Plots )
• 时序图和柱状图显示同样的数据,但说明的是时间趋向 • 使用文件PUMPING.MPJ的数据,让我们作一个时序图
特点: 单一众数,尾巴拖向右侧 在业务中,通常表现为不可能小于某一个值,但可以达到 任何大的值; 如员工的收入,交付周期时间等;在生产加工中,可能是 由于单向公差(形位偏差)要求或加工习惯等引起的
精益广合与您成功共享
倾斜度Skewed -左偏或负偏的分布曲线
Negative Skewed Distribution