统计方法基础知识概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P( X
2)
C52
C152 1005
0.1377
C15 100
2. 二项分布
二项分布来源于独立重复试验; 每次试验结果出现的概率都不依赖于其
它各次试验的结果; 对于n次独立的试验,如果每次试验只
有两个可能结果:A与 A
设随机变量所有可能取的值为零和正整 数:0,1,2,…,n,且有
Pn (k ) Cnk p k q nk k=0,1,2…,n
趋于泊松分布。在这种场合,泊
松分布中的参数λ用二项分布的代
之。
在质量管理中,泊松分布的 典型用途是用作单位产品上 所发生的缺陷数的数学模型。
例:在产品的加工过程中,观察产 品在装配中发现的缺陷,经统计 每台产品的平均装配缺陷
数 0.5 ,试求在检验中发现
恰有1个缺陷的概率是多大?
解:∵ 0.5
密度函数为: p(x)
1
e
(
x) 2 2
2
2
记为: X 〜 N(, 2)
其中 为平均数, 为方差。
正态分布的概率分布密度曲线为:
重要特性: A.正态分布密度函数曲线是单峰、
对称的钟形曲线;
B. f (x)在x 处取得最大值,
最大值是:f (x) 1
2
C.正态分布有两个参数: 和
正态分布的概率分布函数为
参数n、p有如下关系:
μ=np, σ=
npq
在n较大,np、nq较接近时,二
项分布近似于正态分布;当 n→∞时,二项分布的极限分布 是正态分布。
在产品质量检验中,当采取有放回的抽样 时,这时样本中取到的次品数的概率服 从二项分布。不放回的抽样在样本量相 对总体很小时,也可以近似看作为放回 抽样,超几何分布可利用二项分布来近 似计算概率。
(二) 统计方法的性质
1. 描述性 ——利用统计方法对统计数据进行整理和描述,以便 展示统计数据的规律; ——统计数据可用数量值加以度量,如平均数、中位 数、极差和标准差等,亦可用统计图表予以显示,如条 形图、折线图、频数直方图、频数曲线等。
2. 推断性 ——统计方法都要通过详细研究样本来达到了解、推 测总体状况的目的,因此它具有由局部推断整体的性质。
(三) 统计方法的用途
5. 研究取样和试验方法,确定合理的试验方 案;(抽样方法、抽样检验、试验设计、可靠 性试验) 6. 发现质量问题,分析和掌握质量数据的分 布状况和动态变化;(频数直方图、控制图、 排列图) 7. 描述质量形成过程。(流程图、控制图)
二 产品质量波动
(一) 正常波动 (二) 异常波动
B.一般正态分布的概率计算: 服从正态分布N (, 2 )的随机变量
X在[x1, x2]内取值的概率=服从
标准正态分布的随机变量U在
[ (x1 ) / , (x2 ) /]
关于一般正态分布,经常用到以下几个概率: 0.6826 0.9545 0.9973 0.95 0.99
(二) 计数数据
判断
数据
数据
数据
五 随机抽样方法
(一) 简单随机抽样法 (二) 系统抽样法 (三) 分层抽样法 (四) 整群抽样法
(一) 简单随机抽样法
——又叫随机抽样法,是指总体中的每个个体被抽 到的机会是相同的。
优点:抽样误差小 缺点:抽样手续比较繁杂。
(二) 系统抽样法
——又叫等距抽样法或机械抽样法。 优点:操作简便,实施不易出差错。 缺点:容易出较大偏差。 不适用场合:总体发生周期性变化的场合,不宜使 用这种方法。
其中p≠0,q>0,p+q=1,则称随机变量
服从参数为n和p的二项分布,记作 B(n,p) 。
注意:一批产品,批量为无限大, 假定产品总体的不合格品率为P。 从总体中抽取容量为n的样本,样 本中恰含有x个不合格品的概率服 从二项分布。
二项分布由n和p两个参数决定: (1)当p值较小且n不大时,分布是
布趋于对称(如图所示)。在实际工
作中,当λ≥20时就可以用正态分布
来近似地处理泊松分布的问题。
图 不同λ的泊松分布
应当注意,二项分布的应用条件也 是泊松分布的应用条件。
二项分布要求n 次试验是相互独立 的,这也是泊松分布的要求。
对于二项分布,在n→∞, p→0,且
np=λ(较小常数)情况下,二项分布
照明、噪声、震动等;
三 统计数据及其分类
(一) 计量数据 (二) 计数数据
(一) 计量数据
——凡是可以连续取值的,或者说可以用测量工 具具体测量出小数点以下数值的这类数据。如:长度、 容积、质量、化学成分、温度、产量、职工工资总额 等。
——计量数据一般服从正态分布。
正态分布
(1)正态分布的定义及其特征分布
P( X
k)
C
k D
C
nk ND
C
n N
,
k 0,1,2 , min(D, n)
例 设有100件产品,其中有5% 的不合格品,今从中不放回的 随机抽取15件,求恰有2件不 合格品的概率。
解:100件产品中有不合格品=100× 5%=5,随机抽取的15件产品所出现的 不合格数X服从超几何分布,其概率分 布为:
熟练程度、身体素质等 ; 机器(Machine):机器设备、工夹具的精度、维护保养
状况等; 材料(Material):材料的化学成分、物理性能和外观质
量等; 方法(Method):加工工艺、操作规程和作业指导书的
正确程度等; 测量(Measure):测量设备、试验手段和测试方法等; 环境(Environment):工作场地的温度、湿度、含尘度、
3. 风险性 ——统计方法既然要用部分推断整体,那么这种由推 断而得出的结论就不会是百分之百正确,即可能有错误。 犯错误就要担风险。
(三) 统计方法的用途
1. 提供表示事物特征的数据;(平均值、中位数、标准偏 差、方差、极差) 2. 比较两事物的差异;(假设检验、显著性检验、方差 分析、水平对比法) 3. 分析影响事物变化的因素; (因果图、调查表、散布 图、分层法、树图、方差分析) 4. 分析事物之间的相互关系; (散布图、试验设计法)
——凡是不能连续取值的,或者说即使使用测量 工具也得不到小数点以下数值,而只能得到0或1,2, 3,•••,等自然数的这类数据。
——计数数据还可细分为记件数据和记点数据。 记件数据是指按件计数的数据,如不合格品数、彩色 电视机台数、质量检测项目数等;记点数据是指按缺 陷点(项)计数的数据,如疵点数、砂眼数、气泡数、 单位(产品)缺陷数等。
个体:组成总体的每个单元(产品)叫做个体。
四 总体与样本
总体容量(总体大小):总体中所含的个体数, 常用N表示。
样本(子样):是指从总体中随机抽取出来并且 要对它进行详细研究分析的一部分个体(产品);样 本是由1个或若干个样品组成的。
样本容量(样本大小):样本中所含的样品数目, 常用n表示。
四 总体与样本
优点:抽样实施方便。 缺点:代表性差,抽样误差大。 适用场合:常用在工序控制中。
案例
某种成品零件分装在20个零件箱内,每箱各装50个, 总共是1000个。如果想从中取100个零件作为样本进 行测试研究。
简单随机抽样:将20箱零件倒在一起,混合均匀, 并将零件从1~ 1000编号,然后用查随机数表或抽签 的办法从中抽出编号毫无规律的100个零件组成样本。
(二) 样本中位数
把收集到的统计数据X 1,X 2 , X 3 , ….X n ,按 大小顺序重新排列,排在正中间的那个数就叫作中 位数,用符号 来表示。
当 n 为奇数时,正中间的数只有一个; 当 n 为偶数时,正中间的数有两个,此时,中 位数为正中两个数的算术平均值。
偏倚的。但随着n的增大 ,分布逐 渐趋于对称,如图所示;
图 n值不同的二项分布比较 图 p值不同的二项分布比较
(2)当p值趋于0.5时,分布趋于对称, 如上图所示;
(3)对于固定的n及p,当k增加时, Pn(k)先随之增加并达到其极大值,以 后又下降。
(4)服从二项分布B(n,p)的随机
变量之平均数μ、标准差σ与
(2)标准正态分布 0, 1
分布密度函数:
(u)
1
u2
e2
2
注意:
对于任何一个服从正态分布 N (, 2 )
的随机变量X,都可以通过标准化变换:
U X
将其变换为服从正态分布的随机变量。
(3)正态分布的概率计算 A.标准正态分布的计算:
P(u1 U u2) (u2) (u1)
∴
P( X
1)
k e
k!
k 1
0.51 1!
e 0.5
0.5 0.6065 0.3033
四 总体与样本
总体(母体):是指在某一次统计分析中 研究对象的全体。
有限总体:被研究对象是有限的,如一 批产品的总数;
无限总体:被研究对象是无限的,如某个企业、 某个生产过程从前、现在、将来生产的全部产品。
抽样:是指从总体中随机抽取样品组 成样本的活动过程。
随机抽样:是指要使总体中的每一个 个体(产品)都有同等机会被抽取出来 组成样本的活动过程。
四 总体与样本
数据、样本和总体的关系
目的
总体
对工序进行分 无
析控制
限 总
工序
体
样本
一批 半成品
样本
判断
对一批产品质 有 一批
量进行判断,
限 总
产品
样本
确定是否合格 体
(一) 正常波动
——正常波动是由随机原因引起的产品质量波动; ——仅有正常波动的生产过程称为处于统计控制 状态,简称为控制状态或稳定状态。
(二)异常波动
——异常波动是由系统原因引起的产品质量波动; ——有异常波动的生产过程称为处于非统计控制 状态,简称为失控状态或不稳定状态。
(二) 异常波动
引起产品波动的原因主要来自六个方面(5 M1E ): 人(Man) :操作者的质量意识、技术水平、文化素养、
统计方法基础知识概述
一 统计方法及其用途 二 产品质量波动 三 统计数据及其分类 四 总体与样本 五 随机抽样方法 六 统计特征数 七 两类错误和风险
一 统计方法及其用途
(一) 什么是统计方法 (二) 统计方法的性质 (三) 统计方法的用途
(一) 什么是统计方法
统计方法:是指有关收集、整理、分析和解释统 计数据,并对其所反映的问题作出一定结论的方法。
系统抽样:将20箱零件倒在一起,混合均匀, 并将零件从1~ 1000编号,然后用查随机数表 或抽签的办法先决定起始编号,按相同的尾数 抽取100个零件组成样本。
分层抽样:20箱零件,每箱都随机抽取5个零件, 共100个组成样本。
整群抽样:先从20箱零件随机抽出2箱,该2箱 零件组成样本。
六 统计特征数
描述性统计方法: ——是对统计数据进行整理和描述的方法; ——常用曲线、表格、图形等反映统计数据和描 述观测结果,以使数据更加容易理解,例如,可将 统计数据整理成折线图、曲线图和频数直方图等。 推断性统计方法: ——是在对统计数据描述的基础上,进一步对其 所反映的问题进行分析、解释和作出推断性结论的方 法。
(一) 样本平均值 (二) 样本中位数
表示数据的集中位置
(三) 样本方差
(四) 样本标准偏差 (五) 样本极差
表示数据的离散程度
(一) 样本平均值
如果从总体中抽取一个样本,得到一批数据X 1,
X 2,X 3….X n,则样本的平均值 :
_
x
1 n
n i 1
xi
x :样本的算术平均值;
n :样本大小。
(二) 计数数据
——记件数据一般服从超几何分布或二项 分布,记点数据一般服从泊松分布。
——当数据以百分率表示时,要判断它是 计量数据还是计数数据,应取决于给出数 据的计算公式的分子。
1.超几何分布
在产品质量检验的不放回抽样中,若N 件产品中有D件不合格品,则抽检n件 时所得不合格品数出现的概率服从超 几何分布,其概率分布为:
(三) 分层抽样法
——也叫类型抽样法。它是从一个可以分成不同于 总体的总体(或称为层)中,按规定的比例从不同层 中随机抽取样品(个体)的方法。 优点:样本的代表性比较好,抽样误差比较小。 缺点:抽样手续有时较简单随机抽样还要繁杂。 适用场合:常用于产品质量验收。
(四) 整群抽样法
——又叫集团抽样法。是将总体分成许多群,每个 群由个体按一定方式结合而成,然后随机抽取若干群, 并由这些群中的所有个体组成样本。
3.泊松分布
Fra Baidu bibliotek
若随机变量只取零和正整数值0,1,2,…,
且其概率分布为 k=0,1,……
P(X k) k e
k!
其中λ>0;e =2.7182…是自然对数的底数, 则称服从参数为λ的泊松分布,记为X~ P(λ)。
泊松分布的重要特征:
即μ= 2=λ。
λ是泊松分布所依赖的唯一参数。λ值 愈小分布愈偏倚,随着λ的增大,分