置信区间与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
34
Lean Six Sigma Training—ZeroCost Copyright
置信区间的灵敏度
变量(2或 S2 ) 样本量(n) 置信水平 (1-) 置信区间 ? ? ? ? ? ?
σ ?
σ
σ
σ
σ
σ
Lean Six Sigma Training—ZeroCost Copyright
4
总体参数对比样本统计
随机抽样,样本量=4
总体
x1 , s1 x2 , s2 x3 , s3
,
总体的统计参数:均值与标准偏差
x4 , s4
总体的统计参数:均值与标准偏差
Lean Six Sigma Training—ZeroCost Copyright
六西格玛培训
置信区间和假设检验
Lean Six Sigma Training—ZeroCost Copyright
学习目的
介绍基本描述性统计,如:
–总体、样本、总体参数、样本统计、样本均值、样本标准偏差
显示如何将中心极限定理应用于样本均值分布 介绍置信区间以表示样本统计中的不确定性以及如何 计算某些普通情况的置信区间 对假设检验进行概述 熟悉假设检验术语 使假设检验与其他统计工具相联系 学会如何用Minitab进行假设检验
Lean Six Sigma Training—ZeroCost Copyright
10
样本变动例子
在C1和C25栏中选择 若干栏,并同时选择 均值统计栏C26。
Lean Six Sigma Training—ZeroCost Copyright
11
样本变动例子
例如,C1-C25 中的一个栏。
Lean Six Sigma Training—ZeroCost Copyright
32
用Minitab计算置信区间
在 在95% 95%置信情况下,实际均值 置信情况下,实际均值 介于 介于54.3882 54.3882和 和55.3318 55.3318之间。 之间。 有 有5% 5%的机会不在此范围 的机会不在此范围
的95%置信区间:
54.3882 55.3318
的95%置信区间:
样本变动例子
计算 > 行统计量
Lean Six Sigma Training—ZeroCost Copyright
8
样本变动例子
C1-C25均值统 计存入C26 栏中
Lean Six Sigma Training—ZeroCost Copyright
9
样本变动例子
统计>基本统计量 > 显示描述性统计
28
在未知标准偏差情况下 均值 的置信区间
要记住非常重要的一点是,在许多情况下我们并不知 道总体标准偏差。我们通常依靠样本来估计均值和标 准偏差。 样本规模小于100时,最好使用稍后解释的t分布。 再次强调,在许多情况下,真正总体未知,所以我们 用样本估计值(s)。在这种情况下,置信区间变成:
n=5
n=3
x
x
n
n=1
Lean Six Sigma Training—ZeroCost Copyright
14
中心极限定理
如果: x1, x2, …, xn 是来自总体的独立衡量值,(即,随机 样本规模为n), 其中X的均值是, X的标准偏差是, 那么:分布 X 给出:
X 1 X 2 X n n
– – – – – 正确处理不确定性 更加客观 证实或否定假设 控制做出错误决策或结论的风险 如何设置和说明统计检验
Lean Six Sigma Training—ZeroCost Copyright
3
问题: 为什么这么多分布是正态?
为什么这么复杂的东西如此的普遍?
μ
1 P( x) e 2 ( x )2 2 2
30
用Minitab计算置信区间
练习: 文档
HT&CI >工作表 <炼油>
Lean Six Sigma Training—ZeroCost Copyright
31
用Minitab计算置信区间
现在选择: 统计>基本统计量 > 图形 化汇总
Lean Six Sigma Training—ZeroCost Copyright
统计,例如均值和标准偏差,只是总体均值() 和标准偏差()的估计值,而且是基于有限的 数据。 因为不同的样本中估计值不尽相同,我们可以用 统计学的置信区间来量化不确定性。置信区间为 总体参数 ( 和 )提供了似真值范围。
Lean Six Sigma Training—ZeroCost Copyright
Lean Six Sigma Training—ZeroCost Copyright
18
样本量指南
(a) Normal (b) Uniform (c) Exponential (d) Parabolic
不管总体总体的形状如何,X-bar样 本分布很快接近正态分布 经验之谈 若总体是正态,X-bar对任何样本规 模来说都是正态的。 若总体至少是对称的,5~20个样本 规模应当是可行的。 较坏的情况是:不管总体离正态多远 ,样本规模30个应足以使X-bar接近 正态。
12.8 % s= 3.46
Lean Six Sigma Training—ZeroCost Copyright
24
新车
当想知道汽车正常的每加仑汽油行驶英里数范 围,以及该范围是否包括代理商声称的每加仑 汽油行驶英里数时,可以用下面解释的“置信 区间”。
Lean Six Sigma Training—ZeroCost Copyright
2
Lean Six Sigma Training—ZeroCost Copyright
我应当了解什么?
计算置信区间以表示样本统计中的不确定性,以及能 计算普通情况的置信度 了解置信区间随着样本规模改变而改变 了解统计检验、检验统计和显著性水平的基础 学习有关假设检验使我们能:
27
为何需要置信区间?
置信区间会考虑在估计总体或过程数中的随机误 差。 一般我们计算95%置信区间。这就是说:
–我们95%肯定真正的总体参数(如, 或 )是在我 们计算区间内。 –换言之,我们用于计算置信区间的样本有95%的可能 会给我们一个包括真正总体参数的区间。
Lean Six Sigma Training—ZeroCost Copyright
sn sn t x μ t x
Lean Six Sigma Training—ZeroCost Copyright
1 n , 2 / α
1 n , 2 / α
或
x t
α/2, n 1
s n
29
在未知标准偏差情况下 均值的置信区间
例如 炼油厂顾客期望平均每桶石油为55.0加仑。您决定随机取 20桶样本来确定实际平均数。在20桶样本中,发现样本均 值x等于54.860加仑,标准偏差s是1.008加仑。 实际数据如下:
22
新车
您可能想知道两件事情中的一件:
– 那辆车正常的每加仑汽油行驶英里数是多少。(置信 区间) – 您所经历的每加仑汽油行驶英里是否正常。(假设检 验)
Lean Six Sigma Training—ZeroCost Copyright
23
新车
假如我们知道这个?
该车每加仑 汽油行驶英 里数的分布
Parent Population
Sam pling Distributions of x for n = 2
Sampling Distributions of x for n = 5
Sampling Distributions of x for n = 30
经允许重印自Schmidt和Berdine的《基本统计学》 (1997年)
的均值和标准偏差由下列公式
X
和
X
n
当n足够大时,那么X 的分布大致是正态的(“钟形曲线”)
Lean Six Sigma Training—ZeroCost Copyright
15
回到样本变动例子
s= 0.29
Lean Six Sigma Training—ZeroCost Copyright
12
样本变动例子
C1-C25均值栏
Lean Six Sigma Training—ZeroCost Copyright
13
均值的变动性
样本统计估计总体参数: 总体 ( , ) 样本 ( x1 , s1 ), ( x 2 , s 2 ), [取样 ] ˆ , ˆ ) [ 推论 ] 样本 ( x , s ) 总体估计值 ( 样本均值的变动性 vs.总体的变动性
0.7666 1.4724
Lean Six Sigma Training—ZeroCost Copyright
33
练习
让我们观察一个正态分布的总体,
– 已知均值=65 – 标准偏差=4 – 这些来自数据集 <置信区间>
班上每名成员从总体(在Minitab中,用 计算>随机数据>来自列 的样本)中随机抽取25个数据点 从C1中抽取25个数据行并将结果存入C2中 以25个样本数据点为基础,运用图形描述性统计计算均值和 sigma的95%置信区间。它们是否包括均值65 和sigma 4? 如果班级人数为25,我们预计一个置信区间不包括均值65,也不 包括sigma 4。
Lean Six Sigma Training—ZeroCost Copyright
20
新车
假设得到一份新工作,作为付出,您决定购买一辆用 了一年的Honda Civic车,以节省汽油钱。以前的车主 保留了原来的标签,您很高兴地看到,在该标签上美 国环保暑估计该车每加仑汽油能行驶31英里。 购买该车后,您立刻将油箱加满,打算全家驱车外出 并在第二天上班去。 几天后,您再次加满油箱,并计算油箱中的汽油能行 驶的英里数。按计算器上的“=”号,显示只有27.1。
5
样本变动例子
计算 > 随机数据 > 均匀
Lean Six Sigma Training—ZeroCost Copyright
6
样本变动例子
均匀分布中设n = 2500 产生25个样本并存入 C1-C25栏中。
Lean Six Sigma Training—ZeroCost Copyright
7
Lean Six Sigma Training—ZeroCost Copyright
21
新车
是否将车送到机工那儿检查问题? 是否得出结论美国环保暑的估计只不过是错误? 是否在代理商应答机上留下难堪的留言? 结论是什么?
Lean Six Sigma Training—ZeroCost Copyright
Lean Six Sigma Tra来自百度文库ning—ZeroCost Copyright
19
总体对比样本
样本量通常较小,总体的标准偏差() 经常是未知数 我们可以用样本标准偏差(S)取代总体标准偏差() 为了使我们的分析更加保守,我们使用t-分布而不是正 态分布 当样本规模较大时,结果是相同的
16
样本变动例子
S/n = 0.286/25 = 0.286/5 = 0.057
Lean Six Sigma Training—ZeroCost Copyright
17
中心极限定理
该定理主要用于确定总体均值的合理值,因为假设是正 态,它被应用于统计和质量控制的许多方面 当进行平均值(置信区间、假设检验、ANOVA、控制图 等)的统计检验时,中心极限定理有助于我们满足正态假 设。样本规模越大,我们对正态担心越小
54.1,53.3,56.1,55.7,54.0,54.1,54.5,57.1,55.2,53.8, 54.1,54.1,56.1,55.0,55.9,56.0,54.9,54.3,53.9,55.0
对于每桶石油的真正均值来说,95%的置信区间是什么?
Lean Six Sigma Training—ZeroCost Copyright
25
什么是置信区间?
置信区间一般有叠加的不确定性: 估计值±误差范围
样本统计± [ ___ X ___ ]
例如 x,s
置信 因子
可变动性 衡量
在有些情况下,不确定性是不对称的 (叠加的),如 。
Lean Six Sigma Training—ZeroCost Copyright
26
为何需要置信区间?
Lean Six Sigma Training—ZeroCost Copyright
置信区间的灵敏度
变量(2或 S2 ) 样本量(n) 置信水平 (1-) 置信区间 ? ? ? ? ? ?
σ ?
σ
σ
σ
σ
σ
Lean Six Sigma Training—ZeroCost Copyright
4
总体参数对比样本统计
随机抽样,样本量=4
总体
x1 , s1 x2 , s2 x3 , s3
,
总体的统计参数:均值与标准偏差
x4 , s4
总体的统计参数:均值与标准偏差
Lean Six Sigma Training—ZeroCost Copyright
六西格玛培训
置信区间和假设检验
Lean Six Sigma Training—ZeroCost Copyright
学习目的
介绍基本描述性统计,如:
–总体、样本、总体参数、样本统计、样本均值、样本标准偏差
显示如何将中心极限定理应用于样本均值分布 介绍置信区间以表示样本统计中的不确定性以及如何 计算某些普通情况的置信区间 对假设检验进行概述 熟悉假设检验术语 使假设检验与其他统计工具相联系 学会如何用Minitab进行假设检验
Lean Six Sigma Training—ZeroCost Copyright
10
样本变动例子
在C1和C25栏中选择 若干栏,并同时选择 均值统计栏C26。
Lean Six Sigma Training—ZeroCost Copyright
11
样本变动例子
例如,C1-C25 中的一个栏。
Lean Six Sigma Training—ZeroCost Copyright
32
用Minitab计算置信区间
在 在95% 95%置信情况下,实际均值 置信情况下,实际均值 介于 介于54.3882 54.3882和 和55.3318 55.3318之间。 之间。 有 有5% 5%的机会不在此范围 的机会不在此范围
的95%置信区间:
54.3882 55.3318
的95%置信区间:
样本变动例子
计算 > 行统计量
Lean Six Sigma Training—ZeroCost Copyright
8
样本变动例子
C1-C25均值统 计存入C26 栏中
Lean Six Sigma Training—ZeroCost Copyright
9
样本变动例子
统计>基本统计量 > 显示描述性统计
28
在未知标准偏差情况下 均值 的置信区间
要记住非常重要的一点是,在许多情况下我们并不知 道总体标准偏差。我们通常依靠样本来估计均值和标 准偏差。 样本规模小于100时,最好使用稍后解释的t分布。 再次强调,在许多情况下,真正总体未知,所以我们 用样本估计值(s)。在这种情况下,置信区间变成:
n=5
n=3
x
x
n
n=1
Lean Six Sigma Training—ZeroCost Copyright
14
中心极限定理
如果: x1, x2, …, xn 是来自总体的独立衡量值,(即,随机 样本规模为n), 其中X的均值是, X的标准偏差是, 那么:分布 X 给出:
X 1 X 2 X n n
– – – – – 正确处理不确定性 更加客观 证实或否定假设 控制做出错误决策或结论的风险 如何设置和说明统计检验
Lean Six Sigma Training—ZeroCost Copyright
3
问题: 为什么这么多分布是正态?
为什么这么复杂的东西如此的普遍?
μ
1 P( x) e 2 ( x )2 2 2
30
用Minitab计算置信区间
练习: 文档
HT&CI >工作表 <炼油>
Lean Six Sigma Training—ZeroCost Copyright
31
用Minitab计算置信区间
现在选择: 统计>基本统计量 > 图形 化汇总
Lean Six Sigma Training—ZeroCost Copyright
统计,例如均值和标准偏差,只是总体均值() 和标准偏差()的估计值,而且是基于有限的 数据。 因为不同的样本中估计值不尽相同,我们可以用 统计学的置信区间来量化不确定性。置信区间为 总体参数 ( 和 )提供了似真值范围。
Lean Six Sigma Training—ZeroCost Copyright
Lean Six Sigma Training—ZeroCost Copyright
18
样本量指南
(a) Normal (b) Uniform (c) Exponential (d) Parabolic
不管总体总体的形状如何,X-bar样 本分布很快接近正态分布 经验之谈 若总体是正态,X-bar对任何样本规 模来说都是正态的。 若总体至少是对称的,5~20个样本 规模应当是可行的。 较坏的情况是:不管总体离正态多远 ,样本规模30个应足以使X-bar接近 正态。
12.8 % s= 3.46
Lean Six Sigma Training—ZeroCost Copyright
24
新车
当想知道汽车正常的每加仑汽油行驶英里数范 围,以及该范围是否包括代理商声称的每加仑 汽油行驶英里数时,可以用下面解释的“置信 区间”。
Lean Six Sigma Training—ZeroCost Copyright
2
Lean Six Sigma Training—ZeroCost Copyright
我应当了解什么?
计算置信区间以表示样本统计中的不确定性,以及能 计算普通情况的置信度 了解置信区间随着样本规模改变而改变 了解统计检验、检验统计和显著性水平的基础 学习有关假设检验使我们能:
27
为何需要置信区间?
置信区间会考虑在估计总体或过程数中的随机误 差。 一般我们计算95%置信区间。这就是说:
–我们95%肯定真正的总体参数(如, 或 )是在我 们计算区间内。 –换言之,我们用于计算置信区间的样本有95%的可能 会给我们一个包括真正总体参数的区间。
Lean Six Sigma Training—ZeroCost Copyright
sn sn t x μ t x
Lean Six Sigma Training—ZeroCost Copyright
1 n , 2 / α
1 n , 2 / α
或
x t
α/2, n 1
s n
29
在未知标准偏差情况下 均值的置信区间
例如 炼油厂顾客期望平均每桶石油为55.0加仑。您决定随机取 20桶样本来确定实际平均数。在20桶样本中,发现样本均 值x等于54.860加仑,标准偏差s是1.008加仑。 实际数据如下:
22
新车
您可能想知道两件事情中的一件:
– 那辆车正常的每加仑汽油行驶英里数是多少。(置信 区间) – 您所经历的每加仑汽油行驶英里是否正常。(假设检 验)
Lean Six Sigma Training—ZeroCost Copyright
23
新车
假如我们知道这个?
该车每加仑 汽油行驶英 里数的分布
Parent Population
Sam pling Distributions of x for n = 2
Sampling Distributions of x for n = 5
Sampling Distributions of x for n = 30
经允许重印自Schmidt和Berdine的《基本统计学》 (1997年)
的均值和标准偏差由下列公式
X
和
X
n
当n足够大时,那么X 的分布大致是正态的(“钟形曲线”)
Lean Six Sigma Training—ZeroCost Copyright
15
回到样本变动例子
s= 0.29
Lean Six Sigma Training—ZeroCost Copyright
12
样本变动例子
C1-C25均值栏
Lean Six Sigma Training—ZeroCost Copyright
13
均值的变动性
样本统计估计总体参数: 总体 ( , ) 样本 ( x1 , s1 ), ( x 2 , s 2 ), [取样 ] ˆ , ˆ ) [ 推论 ] 样本 ( x , s ) 总体估计值 ( 样本均值的变动性 vs.总体的变动性
0.7666 1.4724
Lean Six Sigma Training—ZeroCost Copyright
33
练习
让我们观察一个正态分布的总体,
– 已知均值=65 – 标准偏差=4 – 这些来自数据集 <置信区间>
班上每名成员从总体(在Minitab中,用 计算>随机数据>来自列 的样本)中随机抽取25个数据点 从C1中抽取25个数据行并将结果存入C2中 以25个样本数据点为基础,运用图形描述性统计计算均值和 sigma的95%置信区间。它们是否包括均值65 和sigma 4? 如果班级人数为25,我们预计一个置信区间不包括均值65,也不 包括sigma 4。
Lean Six Sigma Training—ZeroCost Copyright
20
新车
假设得到一份新工作,作为付出,您决定购买一辆用 了一年的Honda Civic车,以节省汽油钱。以前的车主 保留了原来的标签,您很高兴地看到,在该标签上美 国环保暑估计该车每加仑汽油能行驶31英里。 购买该车后,您立刻将油箱加满,打算全家驱车外出 并在第二天上班去。 几天后,您再次加满油箱,并计算油箱中的汽油能行 驶的英里数。按计算器上的“=”号,显示只有27.1。
5
样本变动例子
计算 > 随机数据 > 均匀
Lean Six Sigma Training—ZeroCost Copyright
6
样本变动例子
均匀分布中设n = 2500 产生25个样本并存入 C1-C25栏中。
Lean Six Sigma Training—ZeroCost Copyright
7
Lean Six Sigma Training—ZeroCost Copyright
21
新车
是否将车送到机工那儿检查问题? 是否得出结论美国环保暑的估计只不过是错误? 是否在代理商应答机上留下难堪的留言? 结论是什么?
Lean Six Sigma Training—ZeroCost Copyright
Lean Six Sigma Tra来自百度文库ning—ZeroCost Copyright
19
总体对比样本
样本量通常较小,总体的标准偏差() 经常是未知数 我们可以用样本标准偏差(S)取代总体标准偏差() 为了使我们的分析更加保守,我们使用t-分布而不是正 态分布 当样本规模较大时,结果是相同的
16
样本变动例子
S/n = 0.286/25 = 0.286/5 = 0.057
Lean Six Sigma Training—ZeroCost Copyright
17
中心极限定理
该定理主要用于确定总体均值的合理值,因为假设是正 态,它被应用于统计和质量控制的许多方面 当进行平均值(置信区间、假设检验、ANOVA、控制图 等)的统计检验时,中心极限定理有助于我们满足正态假 设。样本规模越大,我们对正态担心越小
54.1,53.3,56.1,55.7,54.0,54.1,54.5,57.1,55.2,53.8, 54.1,54.1,56.1,55.0,55.9,56.0,54.9,54.3,53.9,55.0
对于每桶石油的真正均值来说,95%的置信区间是什么?
Lean Six Sigma Training—ZeroCost Copyright
25
什么是置信区间?
置信区间一般有叠加的不确定性: 估计值±误差范围
样本统计± [ ___ X ___ ]
例如 x,s
置信 因子
可变动性 衡量
在有些情况下,不确定性是不对称的 (叠加的),如 。
Lean Six Sigma Training—ZeroCost Copyright
26
为何需要置信区间?