数据整理及质量管理常用统计方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于连续变量,取某个特定值的概率都是 零,而只有变量取值于某个(或若干个) 区间的概率才可能大于0。
连续变量密度函数曲线(这里用f表示)下 面覆盖的总面积为1,即
f (x)dx 1
§2.4.1 正态分布
在北京市场上的精制盐很多是一公斤袋装 ,上面标有“净含量1kg”的字样。但当你 用稍微精确一些的天平称那些袋装盐的重 量时,会发现有些可能会重些,有些可能 会轻些;但都是在1kg左右。多数离1kg不 远,离1kg越近就越可能出现,离1kg越远 就越不可能。
p=0 .1
0.60
p=0 .2
p=0 .3
0.40
概 率
0.20
0.00
p=0 .4
0.60
p=0 .5
p=0 .6
0.40
概 率
0.20
0.00
p=0 .7
0.60
p=0 .8
p=0 .9
0.40
概 率
0.20
0.00
0
1
2
3
4
5

0
1
2
3
4
5

0
1
2
3
4
5

§2.3.3 Poisson分布
另一个常用离散分布是Poisson分布 (翻译成“泊松分布”或“普阿松分布” )。
§2.3.1 二项分布
下面试验可看成为Bernoulli试验:
每一个进入某商场的顾客是否购买某 商品
每个被调查者是否认可某种产品
每一个新出婴儿的性别。
根据这种简单试验的分布,可以得到 基于这个试验的更加复杂事件的概率 。
§2.3.1 二项分布
为了方便,人们通常称Bernoulli试验 的两种结果为“成功”和“失败”。
合格产品数目m,不放回抽样的数目t
;而样本中有x个不合格产品的概率

m n m
p(x)
x
t
x
,
x 0,1,...,t
n
t
§2.4 连续变量的分布
取连续值的变量,如高度、长度、重 量、时间、距离等等;它们被称为连 续变量(continuous variable)。
换言之,一个随机变量如果能够在一 区间(无论这个区间多么小)内取任 何值,则该变量称为在此区间内是连 续的,其分布称为连续型概率分布。
信息 资源的组合
输入
信息
中间产品 半成品 零部件 ……
输出
二、质量特性值的分布
1、质量特性及质量特性值(数据)
数据是质量管理活动的基础,一个具体的产品 往往需要一系列数据来反映它的质量,如尺寸 、重量、强度、成分、功率和外观等。这些数 据反映出产品特定性质,称为质量特性。测定 质量特性所得的数值叫质量特性值。所以
基于此,二项分布用符号B(n,p)或 Bin(n,p)表示。
由于n和p可以根据实际情况取各种不 同的值,因此二项分布是一族分布,
族内的分布以这两个参数来区分。
§2.3.1 二项分布
二项分布的概率通常用二项分布表来 查出。但一般统计软件可以很容易得 到这个概率。
在目前统计软件发达的情况下,涉及 的二项分布一般都自动处理了;在处 理实际问题中很少会遇到直接计算二 项分布概率的情况。
这里点间.3的连线没有意义,仅仅为读者容易识别而画, 因为Poisson变量仅取非负整数值
.2
概率
.1
Poisson 分 布
P(10)
0.0 0
P(6)
P(3)
5
10
15
20
k
§2.3.4 超几何分布
假定有一批500个产品,而其中有5个 次品。假定该产品的质量检查采取随 机抽取20个产品进行检查。如果抽到 的20个产品中含有2个或更多不合格 产品,则整个500个产品将会被退回 。
因此,Poisson分布也是一个分布族 。族中不同成员的区别在于事件出现 数目的均值l不一样。
§2.3.3 Poisson分布 参数为l的Poisson分布变量的概率分
布为(p(k)表示Poisson变量等于k的 概率)
P(k) el l k , k 0,1, 2,...
k!
参数为3、6、10的Poisson分布(只标出 了20之内的部分)
1.2一个过程增加了反馈系统后就称为过程控制系统。反 馈系统是指在过程中和过程输出处增加了信息收集,采 用一系列统计方法进行信息的加工处理,发现问题,寻 找原因,再反馈给过程的输入,并调整输入中的某些资 源,以保证过程的正常运行。如图:
图2.1 过程+反馈系统=过程控制系统
统计方法
行 动人
设备 材料 方法 环境
第二章 数据整理及质量管理常用统计方法
第一节 质量特性及数据整理 第二节质量管理常用的统计方法 第三节过程能力分析
第一节 质量特性及数据整理
1.过程和过程控制系统
1.1过程可以是一个工段、一道工序或一项操作等,它是 将人、设备、材料、方法和环境等输入资源,按一定要 求组合起来,并转化为中间产品、半成品、零部件等输 出的活动。
它可以认为是衡量某种事件在一定期 间出现的数目的概率。
比如说在一定时间内顾客的人数、打 入电话总机电话的个数、放射性物质 放射出来并到达某区域的粒子数等等 。
§2.3.3 Poisson分布
在不同条件下,同样事件在单位时间 中出现同等数目的概率不尽相同。
比如中午和晚上某商店在10分钟内出 现5个顾客的概率就不一定相同。
和Bernoulli试验相关的最常见的问题 是:如果进行n次Bernoulli试验,每 次成功的概率为p,那么成功k次的概 率是多少?
这个概率的分布就是所谓的二项分布 (binomial distribution)。
§2.3.1 二项分布
这个分布有两个参数,一个是试验次 数n,另一个是每次试验成功的概率p 。
它们的概率分布很难准确地用离散变 量概率的条形图表示。
§2.4 连续变量的分布
想象连续变量观测值的直方图;如果其纵 坐标为相对频数,那么所有这些矩形条的 高度和为1;完全可以重新设置量纲,使得 这些矩形条的面积和为1。
不断增加观测值及直方图的矩形条的数目 ,直方图就会越来越像一条光滑曲线,其 下面的面积和为1。
两条正态分布的密度曲线。左边是 N(-2,0.5)分布,右边是N(0, 1)分布
0.8
0.6
N(-2,0.5)
N(0,1)
0.4
0.2
0.0
-4
-2
0ห้องสมุดไป่ตู้
2
4
§2.4.1 正态分布
当然,和所有连续变量一样,正态变量落在某 个区间的概率就等于在这个区间上,密度曲线 下面的面积。
比如,标准正态分布变量落在区间(0.51,1.57)中 的概率,就是在标准正态密度曲线下面在0.51和 1.57之间的面积。
一般认为这种重量分布近似地服从最常用 的正态分布(normal distribution,又叫高 斯分布,Gaussian distribution)。
§2.4.1 正态分布
近似地服从正态分布的变量很常 见,象测量误差、商品的重量或 尺寸、某年龄人群的身高和体重 等等。
在一定条件下,许多不是正态分 布的样本均值在样本量很大时, 也可用正态分布来近似。
§2.3.1 二项分布
但这里还是给出其一般公式。下面 p(k)代表在n次Bernoulli试验中成功 的次数的概率,p为每次试验成功的 概率。有
p(k)
这里
n
k
n
k
pk (1 p)nk
n! k !(n
k)!
,
k 0,1,..., n
为二项式系数,或记为 Cnk
图3.1 九个二项分布B(5,p) (p=0.1到0.9)的概率分布图
中位数、方差、标准差等,并用直方图直观的 反映计量数据的统计规律性,其分布用概率密 度函数表示。见p2—4页。
2.3 不同数据的整理
2.3.2 离散数据的整理 对记数数据只能列出频数、频率、分布表并
画出条形图,因此离散数据用分布列表示。见 p4—5页。
三、质量管理中的常见分布
每个产品的质量特性X取什么值是随机的, 但一大批产品的质量特性的取值就会呈现出某 种规律性。测量了一定数据的产品后,就会形 成一条曲线,这就形成了质量特性X的分布。 1、正态分布:记为N(μ,σ2) 2、对数正态分布:记为LN(μ,σ2) 3、指数分布:记为Exp(λ)
标准差为1的正态分布N(0, 1)称为标准正态 分布(standard normal distribution)。
标准正态分布的密度函数用f(x)表示。
任何具有正态分布N(m,s)的随机变量X都可 以用简单的变换(减去其均值m,再除以 标准差s):Z=(X-m)/s,而成为标准正态 随机变量。这种变换和标准得分的意义类 似。
1.1 质量特性:是指产品(服务)在某方面的 特定性质,用X表示。如一个具体的尺寸、重 量、强度、成分、功率和外观等
二、质量特性值的分布
1.2 质量特性值:是测定质量特性所得的数据 ,即质量特性的观察值,通常是定量的,并简 称为数据。质量管理中数据有两类数据:
2、两类数据 2.1 连续数据(计量数据) 计量数据可以在某一区间取任何值,其取值可
比如用p代表得到硬币正面的概率, 那么1-p则是得到反面的概率。
如果知道p,这个抛硬币的试验的概 率分布也就都知道了。
§2.3.1 二项分布
这种有两个可能结果的试验有两个特 点:
一是各次试验互相独立,
二是每次试验得到一种结果的概率不 变(这里是得到正面的概率总是p) 。
类似于抛硬币的仅有两种结果的重复 独立试验被称为Bernoulli试验( Bernoulli trials)。
由某种量具、仪器等测量获得,他们可以在某 一区间任意取任何值。如轴的直径、钢的强度 等。
二、质量特性值的分布
2.2 离散数据(计数数据或属性数据) 计数数据往往只能取非负的整数。如产品不合
格的个数,铸件上的气泡数等。 2.3 不同数据的整理 对不同性质的数据有不同的整理方法。 2.3.1 连续数据的整理 对计量数据可以计算样本的最大值、平均值、
这时,人们想知道,该批产品被退回 的概率是多少?这种概率就满足超几 何分布(hypergeometric distribution )。
§2.3.4 超几何分布
这是一种所谓的“不放回抽样”,也就
是说,一次抽取若干物品,每检查一 个之后并不放回;
超几何分布族的成员被三个参数决定
,这里相应于产品总个数n,其中不
当然离散变量不不仅仅限于取非负整数值 。
一般来说,某离散随机变量的每一个可能 取概值 率x应i都该相满应足于关取系该值的概率p(xi),这些
p(xi ) 1, p(xi ) 0 i
§2.3.1 二项分布
最简单的离散分布应该是基于可重复 的有两结果(比如成功和失败)的相 同独立试验(每次试验成功概率相同 )的分布,例如抛硬币。
以上分布均用于计量数据,其分布图形分别 见p5, p7, p8,
三、质量管理中的常见分布
4、二项分布 5、泊松分布 6、超几何分布 以上分布均用于计数数据,其分布图形分别
见p10, p11, p12,
§2.3 离散变量的分布
离散变量只取离散的值,比如骰子的点数 、网站点击数、顾客人数等等。每一种取 值都有某种概率。各种取值点的概率总和 应该是1。
该曲线即所谓概率密度函数(probability density function,pdf),简称密度函数或 密度。下图为这样形成的密度曲线。
逐渐增加矩形条数目的直方图和一个 形状类似的密度曲线。
(1)
(2)
(3)
(4)
0.0 0.1 0.2 0.3 0.4
-2
0
2
§2.4 连续变量的分布
连续变量落入某个区间的概率就是概率密 度函数的曲线在这个区间上所覆盖的面积 ;因此,理论上,这个概率就是密度函数 在这个区间上的积分。
§2.4.1 正态分布
正态分布的密度曲线是一个对称的钟 型曲线(最高点在均值处)。正态分 布也是一族分布,各种正态分布根据 它们的均值和标准差不同而有区别。
一个正态分布用N(m,s)表示;其中m 为均值,而s为标准差。也常用 N(m,s2)来表示,这里s2为方差(标准 差的平方)。
§2.4.1 正态分布
很容易得到这个面积等于0.24682;也就是说, 标准正态变量在区间(0.51,1.57)中的概率等于
1.1 质量特性:是指产品(服务)在某方面的 特定性质,用X表示。如一个具体的尺寸、重 量、强度、成分、功率和外观等
二、质量特性值的分布
1、质量特性及质量特性值(数据)
数据是质量管理活动的基础,一个具体的产品 往往需要一系列数据来反映它的质量,如尺寸 、重量、强度、成分、功率和外观等。这些数 据反映出产品特定性质,称为质量特性。测定 质量特性所得的数值叫质量特性值。所以
相关文档
最新文档