6 Sigma_分析阶段_Estimation And Confidence Interval估计与置信区间

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标准差:
1
−y2
0.30 2 0.26 2 0.0900 + 0.0676 0.1576 ≈ + = = = 0.040 100 100 100 100
两台焊机之间是否存在差别?若存在,哪台焊机更好 两台焊机之间是否存在差别 若存在,哪台焊机更好? 若存在
30
边际误差和置信区间
置信度: 边际误差 95%置信度:
1.1 估计总体平均值: 示例 估计总体平均值:
假设你要求供应商提供平均厚度为2.0毫米的材料 你随机抽取材料的64个部分作为样本,以确定供应商送来的 材料是不是2.0 毫米。
点估计
从64个样本中得到:

总体平均值估计:
y
=1.915 S=0.133
µ=1.915
我们如何确定 95% 的置信区间? 既然这是一个大样本 (n > 30), 应使用标准正态分布。
18
边际误差E 边际误差E (Margin of Error)
边际误差E是 总体参数实值 µ 与观察样本平均值Ῡ 之间的最大差异
E = Zα
2
σ • n
95% 置信区间:
σ (1.96) 0.133 = = 0.033 E = 1.96 • n 64
19
95% 置信区间
Ῡ-E<µ<Ῡ+E
1.915 - 0.033 < µ < 1.915 + 0.033
µ=y=
∑y
i =1
n
i
n
=
454 + 448 + 447 + 451+ 462 + 457 2719 = ≈ 453.2 6 6 5.71 453 .2 ± .015 2 6 5.71 453.2 ± .571 2 6 5.71 453 .2 ± .032 4 6
11
样本统计 (sample statistics)
定义: 样本统计用于估计总体参数。
示例: 1. 估计总体平均值: µ=y=
n
∑y
i =1
i
n
2. 估计两个总体平均值之差: µ 1-µ 2 ≈ (Ῡ1-Ῡ2)
12
点估计 point estimate
• 点估计 是对总体参数取近似值所得的单一值(或 点)。 •样本平均数Ῡ是总体平均值µ的最佳点估计。
2
学习目标
1. 根据样本数据,估计总体参数,如平均值。 2. 设定估计置信区间。
3
六西格玛进程图— 六西格玛进程图—估计和置信区间
衡量 使用样本数据 预测可能的 总体参数范围
分析
改进
控制
4
统计推论
样 本 y s s2
µ

σ
体 σ2
• •
统计推论的内容是根据样本中的信息,作出有关总体参数的推论(估计)。 统计推论的内容是根据样本中的信息,作出有关总体参数的推论(估计)。 总体参数是总体的描述性衡量标准, 总体参数是总体的描述性衡量标准,如:
1.882 < µ < 1.948
由此看来,供应商是否提供了平均厚度为2.0 毫米的材料呢?
20
95%置信度的临界值 95%置信度的临界值 Critical Values for 95% Confidence
置信度: 置信度 95%
α
2 = 0.025
α
2 = 0.025
− Zα
2
Z=0
临界值 critical value
问题: 1. 两台焊机彼此间是否存在差别? 2. 若存在, 差别有多大?
28
估计两个平均值之差
两个总体平均值之差的点估计值为: (Ῡ1-Ῡ2)
2 σ1 σ2 = + 2 n1 n2
估计值的标准差为:
σ( y
1−y2
)
边际误差为:
E = zα / 2
2 σ1 σ2 + 2 n1 n2
样本方差,s12 和 s22 和 , 可用于估计σ12 和σ22 。 (注: n1 和 n2 应大于 30。)
边际误差: = α E t s 2 n
t α
2
的自由度为 n - 1
置信区间:
注: 假设总体呈正态分布 查t表时左列为自由度(数据量-1)顶。
Ῡ-E<µ<Ῡ+ E
25
小样本总体平均值估计
例:随机抽取6个新产品进行检验。 硬度衡量结果 如下(单位:牛顿) :
454 448 447 451 462 457, ∴ s = 5.71 由以下公式估计这批材料的平均硬度:
置信区间 1.912<µ<1.918 1.911<µ<1.919 1.910<µ<1.920
23
1.2 小样本总体平均值推论
n=∞ n = 10
n=1
0
t
对于小样本 (n< 30) ,用学生 t 分布,代替Z进行总体平均值推论。 随着n 增大,t 分布渐近z 的分布形态, s渐近σ 。
24
从小样本中进行总体平均值估计
总体平均值点估计:
µ=Ῡ=38.9
95% 置信区间:
33.71< µ<44.09
在 95% 的确定情况下, 我们相信真正的总体平均值可能…… 介于 33.71 天和44.09 天之间
10
术语定义
• 样本统计(sample statistics) • 点估计(point estimate) • 置信区间(confidence interval) • 置信水平(degree of confidence)
估计和置信区间
Estimation & Confidence Intervals
1
内容
总体平均值估计(a population mean) 大小样本(large & small samples) 两个总体平均值之差的估计(two population means) 大小样本 总体比率估计(population proportion) 两个总体比率之差的估计
37
估计两个总体比率之差
^ ^ 点估计 : (p1 - p2 ) = (p1 - p 2 )
• 但是,这一招聘过程平均就职时间的评估,在通常情况下,是基于 30个数据的样本之上。 • 如果又获取了一个包括30个数据的样本,该如何处理? • 我们是否有可能得到一个不同的估计总体平均值? • 什么是真正的总体平均值?
9
估计的置信区间
当我们在样本基础上预测总体平均值(或任何其他参数)时…… 我们按预测值大约设立一个置信区间。
我们仅以样本的平均数来估计总体平均值:
µ =Ῡ=
Σy 1167 = = 38.90 天 n 30
8
估计是否有效? 估计是否有效?
就职时间 (天数)
47 37 49 68 30 41 32 64 37 20 57 25 41 55 28 45 23 36 29 22 50 19 51 62 42 39 29 36 38 15
2.) 95%置信水平下的边际误差是什么?
E = 1.96
pq ˆˆ = 1.96 n
(0.30 )(0.70 ) = 0.028
1000
3. 什么是95% 置信区间?
ˆ ˆ p−E < p < p+E
0.30-0.028 < p< 0.30+0.028 0.272 < p <0.328
35
使用Minitab 使用Minitab
为获取前一样本的置信水平(估计缺陷比率):
输入实验数 和 成功次数(缺陷数) 。
• 注: 默认为 95% 置信水平(参阅 Options)。
36
两个总体比率之差
假设部门 A 和部门 B都开具发票。并且,我们希望比较两组之间的误 差率。 P1 = 部门A的缺陷发票比率。 P2 = 部门B的缺陷发票比率。 我们可以估计部门之间的差异: 差异 = (P1 – P2)
22
厚度示例的置信区间
从64个样本中得到: Ῡ =1.915 S=0.133
点估计为: µ=1.915
σy =
σ 0.133 = = 0.002 n 64
置信水平 90% 95% 99%
边际误差 1.645(0.002)=0.003 1.96 (0.002)=0.004 2.58 (0.002)=0.005
E=( 1.96 )(0 .040 ) = 0.078
置信区间: 95% 置信区间: 0.3 - 0.078 < µ1 − µ 2 < 0.3 + 0.078 0.222 < µ1 − µ 2 <0.378
两台焊机之间是否存在差别?
31
是否存在差别? 是否存在差别?
0.222 < µ1 − µ 2 <0.378
– – – – 平均值 µ 标准差 σ 方差 σ2 随机变量的两个值之间的区域
5
两种推论方法 two methods of inference
• 估计和置信区间
• 假设检验 (hypothesis test)
6
什么是估计? 什么是估计? estimation
假设我们从一个招聘过程中得到一个数据样本? 就职时间 (天数)
1. y 可有效估计 µ。 2. y 的标准差等于:
− − −
σy =
σy
n
条件:与样本大小n相比,总体规模很大。 3. 当 n 很大时,根据中心极限定理,将近似正态分布。
16
个体分布和平均值分布
个体衡量分布
σ=
y
Σ (yi -y)2
N
N=数据总量
平均值
σ=σ n
y
y
平均值分布
N=子组的数据量
平均值的均值 17
30个数据
47 37 49
68 30 41
32 64 37
20 57 25
41 55 28
45 23 36
29 22 50
19 51 62
42 39 29
36 38 15
我们如何运用这一样本预测一般招聘过程的平均就职时间 ?
7
估计平均就职时间
就职时间 (天数)
47 37 49 68 30 41 32 64 37 20 57 25 41 55 28 45 23 36 29 22 50 19 51 62 42 39 29 36 38 15
21

2
− 1.96
1.96
大样本 µ 的置信阀限 Confidence Limits for µ, Large Samples
置信水平 90% 95% 99% Zα/2 1.645 1.960 2.580 置信上下限 Ῡ+1.645 σ
n Ῡ+1.960 σ n σ
Ῡ+2.580
n
当置信水平上升时,置信区间的宽度有何变化?
p 估计的 边际 误差 : E = Zα
2 ˆˆ pq n
ˆ ˆ 当 q = 1-p
: 总体比率 p的 置信区间 :
^ ^- E < p < p+E p
34
示例:估计总体比率
抽取1000 张发票进行检查。发现有 300 张存在误差。 1.) 假设过程稳定,估计其中缺陷发票的比率。
p = ˆ
y 300 = = 0.30 n 1000
从30个数据的样本得到:
Ῡ=38.9天
总体估计:
µ=38.9天
13
置信区间和置信水平 confidence interval & degree of confidence
• 置信区间 是一系列 可能 • 置信水平 是置信区间 包含总体参数实值的 包含总体参数实值的 值。 概率。
根据30个数据的样本,我们以 95%的置信水平推断:
在 95% 的置信水平下, 两台焊机之差应大于 0.222 毫米并小于 0.378 毫米。 若置信区间包含零值, 我们无法作出两台焊机之间存 在差别的结论(95%置信水平)。
32
使用 Minitab
33
3 估计总体比率
我们通常处理以比率(或百分比)形式书写的 属性数据(计算数据)。 ^ 点估计: 样本比率 p 是总体比率 p的最佳点估计 ^=y p n (样本大小n中的y成功比率)
26
பைடு நூலகம்
90% 置信区间为: 95% 置信区间为: 99% 置信区间为:
448.5<µ<457.9
447.2<µ<459.2
443.8<µ<462.6
使用 Minitab
27
2.1 估计两个均值之差—大样本
示例: 通过检查每台焊机的n1 = n2 = 100 个样本,对两台焊机进行比较。 衡量焊区(焊点直径)的平均直径。 (最小的可接受直径为 2.5 毫米; 6.0 毫米为优质。) 焊机 A Ῡ=5.1 mm S=0.30 mm 注意,两个总体对应于两台焊机。 焊机 B Ῡ=4.8 mm S=0.26 mm
29
估计值的标准差
回顾焊机示例 (n1 = n2 =100):
焊机 A Ῡ=5.1 mm S=0.30 mm 焊机 B Ῡ=4.8 mm S=0.26 mm
(µ1 - µ2)的点估计为:
y1 − y 2 = 5.1 − 4.8 = 0.3
σ (y
2 2 2 σ1 σ2 s1 s2 2 = + ≈ + ) n1 n2 n1 n2
33.71 < µ < 44.09
14
总体估计 Estimating for the Population
我们首先演示下列情况的估计…… 估计总体 平均值。 然后我们会展示如何估计: • 两个总体平均值之差 • 总体比率 • 两个总体比率之差
15
总体平均值的点估计
不考虑总体概率分布,y 的概率分布有以下特点:
相关文档
最新文档