了解六西格玛中的统计分布
6sigma统计基础(Fysip)

等)、水文气象(年最高气温、雨量、水位、
② P(X>180) = 1-0.9854 = 0.0146
风速波高)等
③ P(160≤X≤180) = 0.9854-0.0729 = 0.9125
峰度:分布平坦性的度量
=
(−)4
4
- 3 参考样本峰度
V()
1
=
=
1
V( (1 +
2
1
2)
(n
2
2 + ⋯ + ))
2
=
参考中心极限定理
n
随机变量的标准差,正态分布曲线
① V(C) = 0
拐点到中心线的距离 = ()
② V(aX) = 2 V(X)
③ X1和X2相互独立时,V(aX1±2) =
2 V(X1) + 2 V(X2)
1
− 1 +
ν+1
1
2 ∗ 1 ∗
ν
2
2
1+
2
2
2
2+ ( − 1)
1
+1
2
2
− 1 +
2
1
− 2 1 +
期望0,方差
−2
ν1
ν1−ν2
ν1+ν2
2
2
2
∗ ν1
∗
ν1 +2 ν2
ν2
•X3k+2 + 0.25 (X3k+2 – X3k+1) = 32.25(n = 40+2)
正态分布6西格玛概率 解释说明以及概述

正态分布6西格玛概率解释说明以及概述1. 引言1.1 概述引言部分将对文章的主题进行概述和介绍。
在本文中,我们将探讨正态分布六西格玛概率的解释说明以及概述。
正态分布是一种重要的统计分布,它具有许多优秀的性质和应用领域。
而六西格玛原理则是基于正态分布而发展起来的一种质量管理方法,它通过计算事件发生在六个标准差之内的概率来评估过程或产品是否稳定。
1.2 文章结构本文共分为五个部分进行论述。
首先,在第二部分我们将介绍正态分布的定义与性质,同时探讨其常见应用领域以及参数估计与假设检验方法。
然后,在第三部分中,我们将回顾六西格玛原理的背景和发展历程,并详细解释其核心概念和特点。
此外,还将深入研究六西格玛在不同应用场景中的优势和实际价值。
在第四部分中,我们将系统地介绍正态分布六西格玛概率计算方法。
具体包括Z-score转化与标准化方法以及六西格玛事件发生概率计算步骤的详细介绍。
通过实例分析和案例研究,我们将进一步展示如何应用这些方法来评估潜在风险并进行决策。
最后,在结论部分,我们将总结本研究的重要成果,并对正态分布六西格玛概率在实际应用中的前景进行展望。
1.3 目的本文旨在提供关于正态分布六西格玛概率的全面说明和概述。
通过对正态分布和六西格玛原理进行深入探讨,读者将能够了解到这两个领域的基本定义、性质以及应用方法。
同时,通过具体案例和实证研究的呈现,读者还将获得运用这些方法进行质量管理、风险评估和决策制定方面的指导思路。
通过本文的阅读,读者将更加深入地理解正态分布与六西格玛原理之间的关系,并能够灵活运用相关计算方法来解决实际问题。
希望本文能为读者提供有益的信息,并促进相关领域的学术研究和实践应用。
2. 正态分布:正态分布,又称高斯分布或钟形曲线,是概率论和统计学中最为重要的连续型概率分布之一。
它的特点是对称且呈现钟形曲线状,由于具有良好的性质与广泛的应用领域,被广泛地使用于数据建模、参数估计以及假设检验等方面。
(六西格玛管理)六西格玛简介

(六西格玛管理)六西格玛简介六西格玛简介什么是六西格玛?六西格玛是壹项以数据为基础,追求几乎完美的质量管理方法。
西格玛是壹个希腊字母σ的中文译音,统计学用来表示标准偏差,即数据的分散程度。
对连续可计量的质量特性:用"σ"度量质量特性总体上对目标值的偏离程度。
几个西格玛是壹种表示品质的统计尺度。
任何壹个工作程序或工艺过程均可用几个西格玛表示。
六个西格玛可解释为每壹百万个机会中有3.4个出错的机会,即合格率是99.99966%。
而三个西格玛的合格率只有93.32%。
六个西格玛的管理方法重点是将所有的工作作为壹种流程,采用量化的方法分析流程中影响质量的因素,找出最关键的因素加以改进从而达到更高的客户满意度。
于6个西格码管理法中,“Sigma”的定义是根据俄国数学家P.L.Chebyshtv(1821-1894)的理论形成的。
根据他的计算,于所有的产成品中有69%的合格率,而且次品的分布是正态分布的话,反映到图形上面就是2个sigma(±2Sigma,或StandardDeviation)。
即,69%的合格产品是集中于中值左右2个标准方差的地方。
六西格玛(SixSigma)是于九十年代中期开始从壹种全面质量管理方法演变成为壹个高度有效的企业流程设计、改善和优化技术,且提供了壹系列同等地适用于设计、生产和服务的新产品开发工具。
继而和全球化、产品服务、电子商务等战略齐头且进,成为全世界上追求管理卓越性的企业最为重要的战略举措。
六西格玛逐步发展成为以顾客为主体来确定企业战略目标和产品开发设计的标尺,追求持续进步的壹种质量管理哲学。
六西格玛类似于SPC(统计性工作程序控制)吗?六西格玛是壹个致力于完美和追求客户满意的管理理,SPC是壹个支持六西格玛这个管理理念的工具。
所有那些传统的质量管理工具,像SPC、MSA、FMEA、QFD等均是实现六西格玛必不可少的工具。
六西格玛起源和发展?从70年代到80年代,摩托罗拉于同日本的竞争中失掉了收音机和电视机的市场,后来又失掉了BP机和半导体的市场。
六西格码管理图概念及解释方法课件

六西格玛管理图特点
六西格玛管理图具有数据可视化、分析深入、预测准确等特点。
六西格玛管理图通过图形化的方式展示数据,帮助管理者快 速了解数据分布和变异情况。它能够深入分析潜在原因,找 到关键因素,从而提高改进效果。同时,六西格玛管理图还 能对未来情况进行预测,为决策提供依据。
六西格玛管理图绘制方法
数据收集与整理
确定测量对象
明确需要测量的产品或过程的关 键特性,确保数据的准确性和可
靠性。
数据采集计划
制定详细的数据采集计划,包括采 集时间、采集人员、采集方法等, 确保数据的一致性和可追溯性。
数据整理
对收集到的数据进行清洗、筛选和 整理,确保数据的准确性和完整性。
绘制六西格玛管理图
VS
传统的六西格玛管理图通常以纸质或 简单的电子表格形式呈现,难以满足 现代企业的需求。数字化转型可以使 六西格玛管理图更加直观、动态和交 互式,方便团队成员更好地理解和分 析数据,从而提高改进的效率和效果。
六西格玛管理图的国际化发展
随着全球化的加速,六西格玛管理图正逐渐成为国际上广泛接受的管理工具,有助于企业实现跨文化、跨地域的管理和改进。
对图表中的数据进行深入 分析,发现数据之间的关 联和规律,为改进提供依 据。
解读图表
根据数据分析结果,对图 表进行解读,找出问题所 在,提出改进措施和建议。
制定改进计划
根据解读结果,制定具体 的改进计划,明确改进目 标、措施、时间表等,推 动改进的实施。
03
六西格玛管理图解读
生产管理中六西格玛(6σ)的含义

六西格玛(6σ)的含义
"六西格玛(6σ)"是1980~1990年代由美国通信设备制造商摩托罗拉开发的改善组织和品质管理的手法。
据说摩托罗拉是日本企业盛行实施的,参考了在职场内小组实施的自发性质量管理活动“QC小组”。
20 世纪 90 年代,美国企业集团 GE(通用电气)采用了这种方法。
以世界各地的主要制造商为中心,作为质量控制方法传播。
从广义上讲,它表明,它将继续开展各种活动,以提高管理质量,目标是将经营业务时可能发生的各种错误和缺陷的发生率控制在百万分之 3.4 之间。
在统计的标准偏差正态分布中,6σ表示 99.99966% 的范围。
典型的例子包括"六西格玛(SS)",旨在"改进现有流程,提高运营/产品和服务的质量",以及精益六西格玛(LSS)、新流程、新产品、有"六西格玛设计"(DFSS),旨在开发新服务,提高客户的价值。
精益是一个英语单词,显示"没有浪费"和"没有肉"(人或动物),在生产中具有"浪费"的含义。
精益六西格玛是精益和六西格玛的融合技术。
在精益六西格玛,我们将通过"DMAIC"循环进行改进活动,该周期分为五个步骤:定义、测量、分析、改进和管理。
在设计六西格玛中,DMADV 周期分为五个阶段:定义、测量、分析、设计和验证。
无论采用六西格玛方法,都必须在实施前提下强调"VOC(客户的声音),并提取真正的客户需求。
六西格玛介绍(2)

提高绩效 对顾客真正的关注 由数据和事实驱动的管理 对流程的关注 无边界的合作
1. 提高绩效
6 Sigma 项目选择标准问题与关键业务事项有关问题与明确规定的过程相联系您可以找到使用或接受本过程产物的内部客户或外部客户您能清楚地找到缺陷并计算它的发生率您能够证明改进过程将会如何提高财务绩效有适当的组织支持(总负责人,过程主管人)
确定周期时间并找出瓶颈。寻找造成缺陷的错误或不足之处。
S
U
P
P
L
I
E
R
S
Inputs
C
U
S
T
O
M
E
R
S
Outputs
Process
供应商
投入
过程
产出
客户
复印机
色粉
电力
原件
您自己
供电公司
办公用品供应公司
复印件
制造商
复印
您
档案
其它
过程步骤
纸张
SIPOC示例
过程能力
4.无界线的合作
— 什么才是我真正需要的数据或信息?
— 我们怎么使用这些数据信息,使我们的收益最大化?
帮助我们分析数据的工具 -- MINITAB
案例研究:交货期
一家大计算机制造商需要提高其竞争力。目标:缩短一个最受欢迎的产品的交货期时间现有资料表明,过去供应订货需要5–10天 管理部门的目标:本产品的订货95%在3天之内供应几个月之后,分区工厂报告结果
普通原因:在过程中总是有某种程度的存在
根据变差类型采取相应的措施
增大变差
将特殊原因当作普通原因变差处理实际上意味着什么?
六西格玛黑带考试-知识点硬货

常见概率分布对应的考题
对于流水线上生产的一大批二极管的输出电压进行了测定。经计算得知,它们的中位数为2.3V。5 月8 日上午,从该批随机 抽取了400 个二极管,对于它们的输出电压进行了测定。记X 为输出电压比2.3V 大的电子管数,结果发现,X=258 支。为了检测 此时的生产是否正常。先要确定X 的分布。可以断言:答案 B
概率密度有多种形式,有的位置不同,有的散布不同,有的形状不同
均值不变标准差取值不同
3
标准差不变均值取值不同
概率统计基础
概率密度和概率分布
分布曲线下方的面积就是整个概率空间,总面积等于1,下图斜杠区域的面积就是X值取3.23114 到3.24686之间的概率
4
概率统计基础
决定概率分布的常见的统计量
假设总实验次数N不变,分布的形状会随着P的变化而改变,下图列出列出了当试 验次数为10,p从0.7-0.05变化时概率分布直方图形状的变化
假设每次实验成功的概率保持不变,但n值变大(实验次数增多)二项概率分布的 图形会更对称如(右上图)
10
几种常见的概率分布——泊松分布(离散型分布)
泊松概率分布(Poisson probability distribution)描述的是在特定区间内某种事件发 生的次数。区间可以是时间、距离、面积或者体积。分布基于两个条件: 一是概率和区间的长度成比例,区间越长概率越大 二是每个区间都是独立的,一个区间发生的次数并不影响另一个区间发生的次数 常见的泊松分布场景: 一块滤纸上的金属颗粒数 一条生产线每天的停机次数 一段时间内迟到的人数 泊松分布随着均值的增大而逐渐变的对称 泊松分布的均值和方差都为λ
A. X 近似为均值是200,标准差是20 的正态分布。 B. X 近似为均值是200,标准差是10 的正态分布。 C. X 是(180,220)上的均匀分布。 D. X 是(190,210)上的均匀分布。 解析: 考点1:题目说明中位数为2.3V,则可认为X服从n=400,p=0.5的二项分布。 p=0.5的二项分布可以近似看做正态分布。 考点2:正态分布的均值公式为=np=400X0.5=200, 标准差公式为Stdev(X)=(np(1-p))^(1/2)=(200X0.5)^0.5=10
统计学常识标准差,正态分布,西格玛

统计学常识标准差,正态分布,西格玛为非负数值,与测量资料具有相同单位。
一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。
标准差的观念是由卡尔·皮尔逊(KarlPearson)引入到统计中。
标准差可以当作不确定性的一种测量。
例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。
当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。
这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。
标准差应用于投资上,可作为量度回报稳定性的指标。
标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。
相反,标准差数值越小,代表回报较为稳定,风险亦较小。
在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。
大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
在实际应用上,常考虑一组数据具有近似于正态分布的机率分布。
若其假设正确,则约68%数值分布在距离平均值有1个标准差之内的范围,约95%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。
称为68-95-99.7法则。
从几何学的角度出发,标准差可以理解为一个从n维空间的一个点到一条直线的距离的函数。
举一个简单的例子,一组数据中有3个值,X1,X2,X3。
它们可以在3维空间中确定一个点P=(X1,X2,X3)。
想像一条通过原点的直线。
如果这组数据中的3个值都相等,则点P就是直线L上的一个点,P到L的距离为0,所以标准差也为0。
若这3个值不都相等,过点P作垂线PR垂直于L,PR交L于点R,则R的坐标为这3个值的平均数,运用一些代数知识,不难发现点P与点R之间的距离(也就是点P到直线L的距离)是。
六西格玛

(2)六-西格玛管理(简称6σ):1.六–西格玛管理定义:实质是对过程的持续改进,它是一种持续改进的方法。
六-西格玛管理活动体现了“只有能够衡量,才可以实施改进”的思想。
要改进质量,首先必须能够衡量质量。
摩托罗拉公司创造性地引入了一个衡量质量的通用指标,称为“百万机会缺陷数”(简称DPMO,Defects Per Million Opportunity )。
由于DPMO是一个比率,从而可以将之与正态分布曲线上的σ西格玛范围内所包括的面积相对应,每一个DPMO的取值都可以用一个相应的西格玛来表示,反之也一样(在将DPMO与西格玛值进行对应时,正态分布曲线设定为离心值有1.5西格玛的偏移)。
DPMO的值越小,对应的西格玛值就越大,意味着质量水平就越高。
因此从这个角度来说,西格玛值可以用于度量质量水平。
1-西格玛的质量水平对应DPMO为690000,2-西格玛的质量水平对应DPMO为308000,3-西格玛的质量水平对应DPMO为66800,4-西格玛的质量水平对应DPMO为6210,5-西格玛的质量水平对应DPMO为233,6-西格玛的质量水平对应DPMO为3.4。
2.六-西格玛管理的循环也称为DMAIC循环;在企业追求6-西格玛的过程中,有很多方法和工具。
其中一个重要的方法,是一个五个阶段的改进步骤DMAIC(发音为Deh-maik):界定(Define)、衡量(Measure)、分析(Analyze)、改善(Improve)与控制(Control)。
透过这些步骤,企业的投资报酬率自然会增加。
1.界定(Define):界定核心流程和关键顾客,站在顾客的立场,找出对他们来说最重要的事项,也就是“品质关键要素”(Critical to Quality,CTQ)。
理清团队章程,以及核心事业流程。
2.衡量(Measure):找出关键评量,就是要为流程中的瑕疪,建立衡量基本步骤。
人员必须接受基础机率与统计学的训练,及统计分析软件与测量分析等课程。
六西格玛的概念和作用

六西格玛的概念和作用1、六西格玛的概念六西格玛是一套系统的、集成的业务改进方法体系,是旨在持续改进企业业务流程,实现客户满意的管理方法。
它通过系统地、集成地采用业务改进流程,实现缺陷的过程设计(design for six sigma,DFSS),并对现有过程进行过程界定(define)、测量(measure)、分析(analyze)、改进(improve)、控制(control)——简称DMAIC流程,消除过程缺陷或无价值作业,从而提高质量和服务、降低成本、缩短运转周期,达到客户完全满意,增强企业竞争力.(1)六西格玛的统计含义σ是一个希腊字母,读作“西格玛”,在数理统计中表示“标准差”,是用来表征任意一组数据或过程输出结果的离散程度的指标,是一种评估产品和生产过程特性波动大小的参数。
西格玛质量水平则是将过程输出的平均值、标准差与质量要求的目标值、规格限联系起来进行比较,是对过程满足质量要求能力的一种度量。
西格玛水平越高,过程满足质量要求能力就越强;反之,西格玛水平越低,过程满足质量要求的能力就越低.六西格玛质量水平意味着百万出错机会(DPMO)中不超过3。
4个缺陷。
如图1-1所示的正态分布中,当上下规格限之差为12σ(±6σ),且过程无漂移,即实际分布中心与规格中心重合时,低于下规格限LSL和高于上规格限USL的面积(概率)均为0。
001ppm,总缺陷概率为十亿分之二。
图中μ为正态分布的中心值,M为规格中心,σ为标准差。
但实际上,过程输出质量特性的分布中心与规格中心重合的可能性很小,对于典型的制造过程,由于影响过程输出的基本质量因素(人、机、料、法、环、测)的动态变化,过程输出的均值出现漂移是正常的,如图1—2所示。
在计算过称长期运行中出现缺陷的概率时,一般考虑将上述正态分布的中心向左或向右偏移1。
5σ,此时一侧的缺陷为3。
4ppm,另一侧因数量级极小可忽略不计,总缺陷概率为百万分之3.4,如图1—3所示.图1—1 过程特性分布图(无漂移)图1—2 长期过程绩效(短期过程合成图)图1-3 过程输出特性正态分布图(±1.5σ漂移)因此通常所说的六西格玛质量水平代表3.4DPMO,是考虑了过程在长期运行中,分布中心相对规格中心漂移±1.5σ后出现缺陷的概率。
六西格玛黑带知识点(卡方检验、卡方分布)

一、***卡方检验、卡方分布B假设宽严程度相同。
卡方值较大,同时,P值小于0.05显著,因此,显著不同MINITAB分析步骤新制作表格题目:BA. 将C2及C3两列数据放入卡方检验表,进行卡方检验B. 将C2及C4两列数据放入卡方检验表,进行卡方检验C. 将C2及C5两列数据放入卡方检验表,进行卡方检验D. 将C3及C4两列数据放入卡方检验表,进行卡方检验B、C、DA. 卡方检验的P值小于0.05,则说明3条生产线的不良率没有显著差异B. 卡方检验的P值小于0.05,则说明3条生产线的不良率有显著差异C. 卡方贡献最大者在生产线1行中不良数项上,其值为8.352,1号生产线的不良数23高于期望的12.7,这说明1号生产线不良率显著高于其他条生产线D. 卡方贡献次大者在生产线2行中不良数项上,其值为4.259,2号生产线的不良数15低于期望的25.4,这说明2号生产线不良率显著低于其他条生产线CA.把C7、C8两列输入MINITAB,进行卡方检验B.把C7、C9两列输入MINITAB,进行卡方检验C.把C2列当作行因子,把C3列当作列因子,把C1列当作层因子,进行卡方检验D.把C1列当作行因子,把C3列当作列因子,把C2列当作层因子,进行卡方检验卡方为六个相加,DF=3-1题目:某企业在下料过程中需要从一块钢板上截出一些边长为X的正方形块料。
已知X服从正态分布,工程师们关注的关键质量特性是正方形块料的面积X^2,他们想了解块料面积的分布,有关块料面积应服从的分布,下列说法正确的是:AA. 块料面积一定不再是正态分布B. 块料面积仍是正态分布C. 块料面积通常会是双峰分布D. 块料面积一定是指数分布变量可以被分为连续性变量(定距、定比)和分类变量,后者又被细分为有序、无序变量两种。
对于各组所在总体的定量变量(即连续性变量)的平均水平,可以使用t检验和方差分析方法进行比较,秩和检验则用于比较各组所在总体为有序分类变量的分布情况是否相同。
精益六西格玛 测量阶段概述

36, 42, 40, 41,43, 39, 40, 41, 40, 37, 38
观察每种尺码出现的数值,可以发现40是模数。
20
集中趋势的衡量
平均值或者均值 (Average or Mean) 一组数据的平均值仅仅是所有数据的几何平均
X
x
i 1
n
i
n
这里 X 代表观察到的变量,xi代表一组数据中的第i个 数据,S代表求和, X 代表所有数据的平均.
To Obtain the Same Level of Understanding
cr D is
e te
$
Sparse Information
Continuous
$
Rich With Information
1_03_01_005
Scales of Measure
离散型数据需要更多的数据点才能进行有效的分析
确定项目的问题所在(改善的焦点)
为了达到以上的目的,我们将要回答以下的问题:
我们的数据可靠吗? 流程现状能力如何(长期能力)? 流程的潜在最好能力能满足要求吗(短期能力)? 是管理问题还是技术问题? 改善的目标如何? 是哪些问题引起了大部分缺陷的产生(项目的焦点)?
2
测量阶段的工作流程
在测量阶段,我们将按照以下流程开展工作
我们会经常使用自由度这个概念,因为大多数的统计工作 可以利用样本来分析 。
25
自由度 (Degree of freedom)
数学意思 : 样本数当中减去线性制约条件的值 例) Σxi ☞ 自由度 : n Σ(xi-x)2 ☞ 自由度 : n-1 附加说明 : 假设在某一集团当中选出2个data时,第一个data可 以任意抽出,但是第二个data选择不能在同样的data范围当中选 择。 下面拼图当中必须是 少一个才能移动。
简话六西格玛

简话六西格玛摘要:为消除对六西格玛的神秘化、高深化认识,在实践中有效推进六西格玛管理,本文尽可能地用通俗的语言,深入浅出地解释“什么是六西格玛”,“为什么推行六西格玛”,“怎样推行六西格玛”。
本文强调了“统计思考”的重要性,解释了追求完美与质量相对性的关系,总结了六西格玛方法的应用流程、工具,提倡用从“开展人民战争”到“攻打碉堡”的多种形式推行六西格玛。
近年来,六西格玛管理风靡全国,人们对六西格玛的神奇效果津津乐道,但同时又对其高深的理论、神秘而复杂的工具望而生畏。
在实际工作中,往往是仰望其高高的门槛敬而远之。
本文用简单、通俗的语言揭开六西格玛的神秘面纱,阐述其原理、剖析其本质,使大家能够了解它的精髓,从而正确地看待它、熟练地运用它。
一、六西格玛在统计学中的含义(一)西格玛的统计学含义1. 怎样描述一组数据在工作中经常需要描述一组数据的特征,如测量一批50根轴的某一直径,可得到50个数据,我们需要描述这50个数据的整体特征。
那么,怎样描述一组数据呢?算术平均值是一个好方法,但它并不全面。
如:甲组三个人的身高分别为:160cm,170cm,180cm;乙组三个人的身高分别为169cm,170cm,171cm。
两组平均身高相等都是170cm,但我们不能说这两组人身高状况是一样的。
由此可见,仅用平均值描述一组数据还不够。
难怪有人说“如果你相信平均值,那么斑马就是灰色的”。
甲、乙两组身高数据的差别在哪里?在于数据距离平均值的远近即分散程度(或数据的一致性)不同。
很显然,乙组数据的分散程度小于甲组数据。
怎样来描述一组数据分散程度?最常用的是以“标准差”来描述。
因此,常用的描述一组数据的量有两个,一个是表示数据期望值的算数平均值,另一个是表示数据分散程度的标准差。
2. 常见的数据分类我们工作中用到的数据分为两类、三种形式,即连续数据、非连续数据两类,连续型数据、区分型数据、计数型数据三种形式。
(1)连续型数据:实测数值,如12.36mm。
运用6sigma过程中的多种数据类型分析

/运用6sigma过程中的多种数据类型分析在六西格玛管理项目实施的过程中,需要不断地与数据打交道,需要不断地依据数据进行决策,需要处理各种数据,是利用数据来量化流程的表现,即利用数据来测量流程能力。
但是从统计的角度来说,这些测量数据可以分为两种基本类型,即连续型数据和非连续或离散型数据。
六西格玛咨询公司运用6sigma过程中的多种数据类型分析:连续型数据(continuous data):也称为计量型数据,指用连续坐标进行测量并得出的数据,或者说用测量仪器或量具测量的可以连续取值的数据。
连续型数据记录的是一个输出单位上某一特性的测量结果,如尺寸、重量、时间、温度等。
连续型数据的特点是反映产品或流程的特性,是量的问题,可以比较敏感地反映特性过程的变化,包含的信息丰富。
连续型数据测量单位可以进行细分,并且有一定的实际意义。
在统计分析时,可以利用较少的样本量获得分析结论。
但一般来说,连续型数据均使用一种度量单位,如米、千克、小时等,对测量手段要求较高,测量成本较高。
非连续型数据或离散型数据(discrete data):也可以称为计数数据。
离散型数据可分为可区分型数据和可数型数据。
可区分型数据记录单位是否满足顾客的需要,即好与坏、合格与不合格的问题,如合格/不合格、通过/失败、是/否、接受/不接受等。
可数型数据是记录一个输出单位所包含的缺点数,如裂纹数量、缺陷数量等。
离散型数据在反映流程的变化方面不如连续型数据那样敏感,只反映是否满足顾客的需要、反映缺陷发生的次数,所包含的信息少。
离散型数据在统计分析过程中,往往需要大量的样本量或较长的测量周期才能得出分析结论。
但一般来说,离散型数据只是类别的信息,对测量手段和精度要求不高,测量成本低。
连续型数据属于正态分布,可区分型数据属于二项分布,可数型数据属于泊松分布。
(1)正态分布:大家比较熟悉,图形为钟形,左右对称,曲线下面积为1。
正态分布的两个重要的参数:平均值和标准差,如图7-3所示。
六西格玛基础与统计数据分析

Defect
+
-
+
-
Root Cause Verification
Defect Reduced
l l l
Before
Effect
l l l
After
Indicator from DEFINE
Good
Before
After
Target
Target
Solution Selection Matrix
Control
USL
Six Sigma…World Class Standard
8
6σ 是衡量质量的指标
合格率 s水平 DPMO
30.85%
1
691,500
69.15%
2
308,537
93.32%
3
66,807
99.38%
4
6,210
99.977% 5
233
99.99966% 6
3.4
* 每百万个机会中的缺陷数
对流程进行控制以防倒退
DMAIC Storyboard
Project Planning Worksheet
Flowchart
Define
Graph
Good
Measure
Pareto Chart
l l l
Root Cause Analysis (Fishbone)
Analyze
Root Cause
Initial Problem Statement
Process Management System
Gap Data Collection Plan
Improve
Final Problem Statement
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
了解六西格玛中的统计分布
摘要: 许多顾问会做假设的测试模板来决定进行何种类型的测试。
无论如何要考虑所取得的数据的类型。
如果仅有总结性的数据,如何应用它来得到结论?原始数据最能反映事情的状况,但是它可能不直观,那就仍然需要进行测试 ...
为演绎数据,顾问需要了解分布。
本文讨论了如何了解统计分布的不同类型、不同分布的应用以及给出一个已知分布的假设。
-许多顾问会做假设的测试模板来决定进行何种类型的测试。
无论如何要考虑所取得的数据的类型。
如果仅有总结性的数据,如何应用它来得到结论?原始数据最能反映事情的状况,但是它可能不直观,那就仍然需要进行测试。
为了不仅是看到数据,还要演绎它,顾问需要了解分布。
本文讨论了以下几点:
l 了解统计分布的不同类型。
l 了解不同分布的应用。
l 给出一个已知分布的假设。
l
六西格玛绿带的培训集中在图形、中心和宽度。
图形的概念受限于连续数据的正态分布。
本文会通过分布所表现出来的(包括总体和样本)而在图形概念上进行延展。
回到基本原理
建立在一个假设模型基础上,用概率,陈述估计必然事件发生的机会。
对于数据统计学说,观察数据习惯上确定一个描述这个数据的模型。
该模型与数据的分布有关。
统计是从样本推断到总体,而概率是从总体到样本。
推断性统计是基于样本数据描述总体参数的一门科学。
推断性统计可以应用于:
l 确定过程能力(确定百万分缺陷数)。
l 利用分布来估计给出已知参数的变量事件的发生概率。
推断性统计基于正态分布。
Figure 1: Normal Curve and Probability Areas
图1:正态曲线和概率面积
正态曲线分布可以扩展获得其它分布。
结合收集到的数据类型在对过程策划和分布离差或图形理解的基础上指定恰当的分布。
它可以帮助我们得到最好的分析结果。
分布的类型
分布的分类与数据分类相同-连续和离散:
l 连续概率分布是随机变量相关的概率,在一个区间内可以取无限多个数值即为随机变量。
l 离散概率分布列出一个实验所有可能的结果和它们各自发生的概率。
分布描述
概率质量函数(pmf)-对于离散变量来说,pmf是随机变量取值x的概率。
概率密度函数(pdf)-对连续变量来说,pdf是取值为x的随机变量在两点之间总体分布概率。
在通常意义上来说,人们在一个连续整体中无法给出一个特定x的概率,而是一些特定(很小)的X围。
补充一下,可以想象成x+Dx, Dx很小。
Pdf的符号是f(x)。
对于离散分布:
f(x) = P(X = x)
自从用于评估离散质量的概率开始,有些人把离散分布归类到概率质量函数。
对于连续分布来说,无法建立一个点的概率质量函数。
累积密度函数(cdf)-变量取值小于等于x的概率。
Figure 2: Normal Distribution Cdf
图2:正态分布Cdf
总平均
Cdf最大值是1,因为没有大于1的概率。
再次,cdf是F(x) = P(X < x)。
适应于连续和离散分布。
参数
参数是总体分布。
顾问依靠参数来描述分布的特征。
下面有三个参数:
l 位置参数-变量X围(考虑到平均)的下限或中心(分布规定的)
l 比例参数-决定x(x轴比例的大小)的测量比例尺(考虑到标准偏差)
l 图形参数-画出一组图形中的pdf的图形。
不是所有的分布都有所有的参数。
例如,正态分布参数只有平均值和标准偏差。
描述一个正态总体仅需要这两个参数。
分布概述
本文剩下的部分将会主要概述各种图形,基本假设和分布的应用。
记住每个分布都有不同的pdf 和不同的分布参数。
正态分布(高斯分布)
Figure 3: Normal Distribution Shape
基本假设
l 关于平均值的对称分布(钟形曲线)。
l 通常用于推断性统计。
l 用m和s来表征的一组分布。
用途包括:
l 独立事件随时间变化以一个固定比率发生的概率评估分布。
l 平均值与泊松分布相反。
l 图形可以表征不合格率(在函数习惯用法上是常数)。
l
指数分布
Figure 4:Exponential Distribution Shape
图4:指数分布图形
基本假设
n 用m表征的一组分布。
n 独立事件随时间变化以固定比率发生的分布。
n 平均值与泊松分布相反。
n 图形可以表征不合格率(在函数习惯用法上是常数)。
包含概率评估的用法:
l 平均故障间隔时间(MTBF)。
l 到达次数。
l 受关注事件发生的时间、距离和空间的间隔。
l 队列或等待线原理。
对数分布
Figure 5: Lognormal Distribution Shape
图5:对数分布图形
基本假设
l 起于0的不对称和绝对偏斜分布。
l 可以显示许多pdf图形的分布。
l 描述数据取值X围巨大。
l 可以用m和s来表征。
l
包含模拟的用途:
l 设备停工时间。
l 持续时间。
l 绝对偏斜(背向右侧)的现象
威布尔分布
Figure 6: Weibull Distribution Pdf
图6:威布尔分布Pdf
基本假设
l 一组分布。
l 可用于描述多种类型的数据。
l 符合许多常见分布(正态、指数和对数)。
l 不同因子是尺度和形状参数。
用途:
l 生命周期分布。
l 可靠性应用。
l 随时变化的失效概率。
l 可以描述生命周期中老化、随机的和疲劳阶段(澡盆曲线)二项分布
Figure 7: Binomial Distribution Shape
图7:二项分布图形
基本假设
l 离散分布。
l 测试数量固定。
l 独立测试。
l 所有测试出现概率相同。
l
用途
l 评估任何一套在成功或失败测试结果发生的概率。
l 抽样特性(接受抽样)。
l 一组尺寸n的缺陷项目数量。
l 清单里面要求的项目数量。
几何
Figure 8: Geometric Distribution Pdf
图8:几何分布Pdf
基本假设
l 离散分布。
l 每次测试恰好有两个结果。
l 所有测试是独立的。
l 所有测试有相同的发生概率。
l 直到首次发生的等待时间。
l
用途
l 挨次试验在得到首次成功前失败的次数用每次测试成功概率p表示。
l 发现首次缺陷项目前检查的项目数量-例如,发现首个可接受的求职者之前进行面试数量。
负二项式
Figure 9: Negative Binomial Distribution Pdf
图9:负二项分布Pdf
基本假设
l 离散分布。
l 设定发生的数量-s.
l 每次测试恰好有两个结果。
l 所有测试是独立的。
l 所有的测试有相同的发生概率。
l
用途
l 挨次试验在得到第s次成功前失败的次数用每次测试成功概率p表示。
l 在发现第s次缺陷项目前检查的好的项目的次数。
Poisson Distribution
泊松分布
Figure 10: Poisson Distribution Pdf
图10:泊松分布Pdf
Basic assumptions:
基本假设
l 离散分布。
l 预先固定观察周期(或区域)的长度。
l 事件以一个固定平均比率发生。
l 事件独立。
l 小概率事件。
l
Uses include:
用途
l 当事件以固定比率发生时,在时间(或面积)区间内发生的事件数量。
l 一批随机尺寸的项目数量。
l 设计可靠性测试,此测试是考虑到失效比率固定的一种常用函数。
Hypergeometric
超几何分布
图形与二项/泊松分布相似
Basic assumptions:
基本假设
•
l 离散分布。
l 预先固定测试数量。
l 每次测试恰好有两个结果。
l 所有测试是独立的。
l 抽样不放回。
l 这是一个精确分布-二项和泊松分布是它的近似值。
l
其它分布
其它分布-例如,抽样分布和X2, t 和F分布。
总结
分布适用于表述过程的变化,测绘一个变量显示为一个特定值或X围发生的次数,而不是测绘数值本身。
人们常说,一X照片胜过一千句话。
对于读者来说,通过图形观察数据会留下更深刻的印象。
合适的各种分布可以帮助顾问更好地演绎数据。