六西格玛基本统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
则样本平均值和样本中值是多少? 据此你有何结论?
中值
Median vs Mean 中值与均值
因为中值不象均值对极端值敏感,因此,当有极端 大或极端小值时,中值比均值更能代表数据的位置 典型的例子是一个城市居民的收入中位值
中值有时会有欺骗性
50%-50% Rule ? 一半一半准则? 以下一组数据的中值是多少? 2,2,2,2,2,2,90 可以用一半一半准则吗?
找到因子(xi)的 控制输入 (xi) 避 水平和操作窗口, 免输出/缺陷 保证输出 (Y) 是 在可接受范围内
统计思想
统计思想是 遵守以下四种根本原则的学习,思考和实践的一种哲学。
所有作业是相互关联的工序的系统
例) 线路板作业过程 原料投入
所有工序中都存在散布
同样原料 同样生产工艺
贴插装
四分值
答案
Q1的位置:(n+1)/4=(20+1)/4=21/4=5.25 Q2的位置: 2(n+1)/4=2(20+1)/4=2*21/4=10.5 Q3的位置: 3(n+1)/4=3(20+1)/4=3*21/4=15.75 则: Q1=366+(454-366)*0.25=388 Q2=924+(1216-924)*0.5=1070 Q3=1542=(2480-1542)*0.75=2245.5
众数
众数是样本中出现次数最多的观测值。 众数可以是唯一的,也可以有不止一个,有 时并不存在众数。
众数
练习六 如果样本观测值为: (a) 6 9 13 5 8 13 4 6 13 1 10 13 (b) 6 9 13 5 8 13 4 6 13 1 10 6 2 5 6 13 (c) 4 3 7 2 6 8 1 众数是什么? 具有一个众数,两个众数或多于两个众数分布的数据分 布叫什么?(单峰分布„)
x 4
x
中值
将一组观测值按大小顺序排列,位于中心的数 值即为中值
若观测值的个数为偶数,则中值为中间2个数值的平均
若观测值的个数为奇数,则位于中心的数值即中值
中值
样本中值 假如x (1),x (2) ,„,x (n) )是按大小排序的样本值,则样本中 值为:
x ([ n 1] / 2 ) Me x ( n / 2 ) x ([ n / 2 ] 1) 2
x
N i 1
xi
N
均值
练习三 10个连接线的拉拔强度为 : 260 230 240 236 248 248 252 278 265 262 拉拔强度的均值是多少? 10个观测值的均值为:
x
n
i 1
百度文库
xi
n
260 230 240 ... 262 10
均值
练习四 199X年一个行动中,战机进行了3000次战斗,总共 用时6900小时。那末每次战斗平均用时多少? 每次战斗平均用时为:
离散型的
• 不可以以更小的单位来测量 • 只能选择几个有限的数值
连续型数据
益处 :
1.能够为使用相对小范围抽样的过程提供详细的信息
2.适用于低缺陷率
3. 能够预估发展趋势和情况
缺点 :
1.通常较难得到数据
2.分析更为复杂
离散型数据
益处 : 1. 容易得到数据,并且计算方法简单 2. 数据容易理解 3. 数据随时可得 缺点 : 1.无法显示缺陷怎样发生及过程如何变化
方差与标准差
若x1, x2, „,xn 是一个具有N个观测值的样本,则样本 方差为: n 2
s
2
i 1
( xi x )
n 1
样本标准差是样本方差的算术平方根,即:
s
n i 1
( xi x )
2
n 1
方差计算
s
2
( xi x) i 1 n 1
n
2
练习八: 计算下列观测值的方差和标准差. 30 50 70 90 110 130
方差计算
2
s
i 1 2 3 4 5 6
i
n
i 1
( xi x)
xi-x -50 -30 -10 10 30 50
2
xi 30 50 70 90 110 130
n 1
(xi-x)2 2500 900 100 100 900 2500
i
x 480 ( xi x) 0
( x x)2 7000
参数 • 总体平均值 • 总体标准差
σ x
统计学基本术语
总体
样本 从总体抽出的部分数据 统计量 用样本的所有数据计算出的数值(如均值, 标准差), 称为样本的统计量
样本
统计量 • 样本平均值 • 样本标准差
s x
描述计量型数据集
一组计量型数据能显示以下3个特性: 中央趋势 (均值, 中值, 众数) 变异(全距, 标准差, 方差) 形状
x 480 6 80 s2 7,000 (6 1) 1,400
方差与标准差
再考虑以下2个样本. Sample A : 10 20 50 60 70 90 Sample B : 10 40 40 40 40 90 Sample A 80 ?? ?? Sample 80 ?? ??
清洗喷胶
发生散布
可避免原因 不可避免原因
同样作业者
同样方法
统计思想
调查散布和减少散布的活动
减少工序散 布的活动
减少产品质量 散布
顾客满足
费用降低
考虑判断失误的错误
注意从样本数据的结果判断时发生错误 举例:去年公司的顾客满意率为80%,今年调查了100位顾客,有 85位顾客表示满意,满意率达到85%。能否说今年的顾客满意率比 去年提高了5%?
过程偏差
– 确定过程是否稳定 如果过程不稳定,鉴别并消除不稳定的要因 – 确定过程的平均值的位置 - 它在目标线上吗? 如果不在,确定影响平均值的变量,并决定最优的 设 置以达到目标值 – 估计总散布的幅度 - 与顾客的要求(规格限)比起来,是可接受的吗? 如果不是, 确定散布源,而后消除或减少他们对过 程的 影响。
众数
为何使用众数? 当观测值为分类式(如名义数据, 序列数据)时.众数是描 述数据位置的最好的指标.
典型的例子是,一个公司内员工收入的众数
众数的重要信息 当众数不止1个时,从中抽取样本的总体通常是多个总体 的混合
均值、中值、众数的比较
2 1
x
正态分布 MO= Me = x
MO Me x 偏上分布 MO≤ Me≤ x
210 216 252 300 366 454 624 720 816 924 1216 1296 1392 1488 1542 2480 2856 3192 3528 3710 请确定三个四分值.
计算方法:先确定位置再计算四分值 Q1的位置:(n+1)/4 Q2的位置:2(n+1)/4=(n+1)/2 Q3的位置:3(n+1)/4
统计领域中偏差的处理
统计领域用下列方法处理偏差
描述型统计--用图表或总结性的数字(中心值,方差,标准偏差)
来描述一系列数据的特征.
统计推论--当结果的差异可能因为随机偏差或不能归属为随
机偏差时所作的决定。(置信区间和假设检验)
试验设计(DOE)--收集并分析数据,以估计过程并改变效果.
Data
数据对六西格玛很重要
使用统计学来解决真实的问题
统计学 解决方案 真实的 解决方案
真实的问题
统计学问题
理解(xi) 与流程输 出(Y)的关系 Y = f(x1, x2, x3...) 影响流程表现的关 键因子是什么?
把问题转换为数 字 (Y) 定义 Y 的规格(可 接受范围)
参数和统计量符号
总体(参数) Mean 均值 Variance 方差 Standard Deviation标准差 样本(统计量)
Proportion 比例
μ σ σ π
х 2 s s p
数据位置测量
中心趋势 均值 中值 众数
四分值
均值
样本均值 若样本(样本量为n)的观测值为x1,x2,„xn,则样本均 值为: n x1 x 2 ... xn i 1 xi x n n 类似地,一个有着大量但限个(N个)观测值的总体, 其总体均值 为:
1 2 x Me M O
偏下分布 MO≥ Me ≥ x
四分值
将一组按大小顺序排列的数据平均分为四部分,分界点 即四分值. 第一四分值(低四分值),约25%的观测值小于它.
第二四分值,约50%的观测值小于它, 即中值.
第三四分值(高分值),约75%的观测值小于它.
四分值
练习七 以下为20个电灯泡失效期间的观测值, 已按递增顺序排列.
第二部分
数据分类
数据的种类
连续型的
• 不间断的 • 总是可以以更小的单位来测量 • 经常与测量系统一起出现
举例 举例 – 时间, 重量, 金额, 长度 – 二元的: 男/女, 好/坏, Yes/no – 分类的: 周一-周日, 地点 (Paris, London, Beijing, ...) – 计数: 一张发票上的错误数目, 一个月内 发生意外的次数
六西格玛内训课件 基础统计
基础统计理论
1 统计目的 目录 2 数据分类 3 统计概述 4 基本图表 5 六西格玛度量的种类
第一部分
统计目的
你看到了什么?
你需要整个图片!
数据的重要性
数据是来自观察的,由一个过程所搜集得来的数据可让 我们描绘过程,了解过程,改善过程甚至控制过程.
数据驱动决策和行动
2.不适合低缺陷率(需要大量的抽样)
3.不能预测发展趋势和情况
数据类型比较
连续型数据 连续数据 通常为正态分布 实际数值 实际定义严谨 需少量抽样 离散型数据 计数数据 通常为二项式分布或泊松分布 合格/不合格 数据定义较差 需大量抽样
练习: 这是什么种类的数据 ?
申请贷款所需要的时间
每张发票上的错误数目
注意所使用的符号
xi i 1
N
N
6900 2.3hours 3000
均值的特性
均值的计算使用了每个观测值;每个 观测值对均值都有影响。 所有观测值对均值的偏差的总和为零。
均值对极端的观测值很敏感,极端值 △6 会导致均值向他偏移。
△2
△4
X 6
x 3
x 5
x 1
x x 2 7
if n is odd n为奇数 if n is even n为偶数
中值的优点是不受极端大或极端小的观测值的影响。
中值
练习五 (a)假设一个样本观测值为 : 3 1 2 4 7 8 6
样本均值和样本中值是多少?
这2个值是测量数据中心趋势的合理指标吗?
中值
(b) 假如最后一个数值改变为 : 3 1 2 4 7 8 2680
统计思想不是单纯的数字组合或计算,而是为质量革新而思考的方法,也是
思考的过程。 统计思想不是统计知识或工具,更不是软件的具体操作,而是学会用统计思维 看待和分析问题,避免只看到表面层次的现象就去下结论作决策。
偏差
当重复测量时,经常产生不同的结果,这就是偏差
偏差的类型:
通常原因的偏差:
测量中的差异是被期望的并可以预测的
每张发票上的缺陷百分比 一天内销售酒的数量 导线的长度 办公室的地点 申请贷款所需要的时间 (天) 销售人员一天内拜访的客户数量
赢得招标的百分比
销售人员的销售额 销售人员的名字
第三部分
统计概述
统计学基本术语
总体
总体 想要测量对象的全部
参数 用总体的所有数据计算出的数值(如均值, 标准差), 称为总体的参数
数据散布的测量(变异)
Range Variance Standard Deviation Inter-Quartile Range 极差 方差 标准差 四分植极差
极差
样本极差为样本中最大和最小观测值之间的差别,即:
r =xmax - xmin
极差是测量数据散布或变异的最简单的方法 但它忽略了最大和最小值之间的所有信息
特殊原因的偏差(随机): 测量中的差异是不可预测的
偏差
我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题 如果所有的区域的产品的销售量完全相同,我们将怀疑数据的真 实性. 偏差的存在使我们的工作更有挑战性 我们通常不相信来源于单个数据的结果,通常收集多个数据并注意 收集的方法以减少偏差
结论:偏差是自然存在的,被期望的并是统计的基础
极差
试考虑以下的2个样本: { 10 20 50 60 70 90 } 40, 90} 具有相同的极差(r= 80)
and { 10, 40, 40,
但是,第二个样本的变异只是2个极端数值的变异,而在第1 个样本,中间的数值也有相当大的变异.
当样本量较小(n≤10)时,极差丢失信息的问题不是很严重