抽样及样本容量统计课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样及样本容量 (Sampling & Sample Size)
样本容量-1
什么是抽样及为何要进行抽样?
– 抽样是 • 收集所有数据的一部分。 • 使用该部分数据得出结论(进行推论)。
– 为什么要进行抽样?因为查看所有数据可能 • 成本太高。 • 费时太长。 • 造成破坏(例如、品尝测试)。
– 一般可从比较少量的数据得出可靠的结论。
监视过程性能、必要时采取补救措施、并预测未来的性能; (在控制图上绘出新过程的样本数据)
样本容量-5
为什么要区别总体抽样和过程抽样?
– 样本容量公式是为定义明确的静态(而且常常是理论上的) 总体情况设计的。 • 但是大多数抽样应用是针对动态的、尚未知的过程情况。 • 将样本容量公式应用于过程抽样情况可能得出错误的结论、 除非满足一定的条件。
可能的话,需要收集更多的数据。
• 存在特殊原因时,需要更大的样本容量,因为长期变动大于短期变异。 • 使用公式时,您必须估计s(或 p);您必须判断特殊原因如何
影响该估计值,并根据您认为过程将会是什么情况来调整它。
样本容量-8
从不稳定的过程中抽样(续)
– 当进行组之间的比较时: • 尽量在相同时间内获取每组的样本。 • 当作结论或报告结论时、会存在这样一个风险、即这些结论可能 不适用于将来。
(稳定的、可预测的过程)
65 60 55 50 45 40
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41
样本容量-7
从不稳定的过程中抽样
– 然而许多过程是不稳定的。 – 无论如何总要收集数据、并绘制控制图或时间曲线图。
• 识别特殊原因并清除之。 – 使用样本容量公式求出的值是您应认为最小的数字;
C
DD D
C DD D
样本
AABBBBCDDD
•从每个组随机抽样一个成比例的数字
样本容量-13
•系统 抽样
•整群 抽样
总体 或过程
样本
保持时间顺序
过程
9:00 9:30 10:00 10:30
样本
保持时间顺序
•每隔 n 个抽样(如每隔三个抽样)
•每经过时间 t 抽样 n 个单元(例如, 每小时抽样三个单元);然后计算每 个小组的平均值 (比例)
样本容量-3
总体和过程(续)
•过程 – 情况:过程是动态的且不断变化的;过程中的个体并不是全可以鉴定的、
因为某些个体尚不存在(如明天制造的那些个体)。
以时间顺序排列的过程输出
昨天
今天
明天
??
抽样数据的时间曲线图
?
20%
15%
?
10%
5%
?
使用样本 对过程 未来的行为 进行推论
保存时间顺序!
– 目的:了解过程、以便采取行动改进或预测过程未来的行为。 – 示例:我们估计下月发票中有 5% 至 20% 有错误(除非更改该过程)。
--2-1、系统误差:指由于非随机因素引起的样本代表性不足而产生的误差, 表现为样本估计量的值系统性偏高或偏低,故也称偏差,[尽量避免]
如抽样框与目标总体不一致、有意多选较好或较差的单位等; --2-2、随机误差:又称偶然性误差,指遵循随机抽样原则,由于随机因素
样本容量-4
抽样和改进项目
改进项目一般是对过程情况进行抽样:
❖ 确定过程周期和缺陷比率的基准性能; (例如:在控制图上绘出样本数据)
估计过程能力; (例如:计算一件样本中的缺陷)
确定造成性能低下或数据变动的因素 (X); (利用样本数据绘制图表、进行假设测试或回归分析)
验证建议的改进工作; (比较从过程中抽取的新数据与从该过程抽取的旧数据)
样本容量-2
总体和过程
•总体 – 情况:在操作上您可以定义现存的总体的边界、以便可以认出
总体的每个个体、在理论上还可以进行编号。
样本
– 抽样目的: 描述该总体的特征。
使用样本对总体进行推论: 例如。平均值 = X、比例 = p
– 示例:抽样调查(8 月 31 日以前毕业的)大学校友、以确定 在今后两年中他们至少将一个小孩送进大学的百分比。
– 要使推论有效、样本必须真实地代表总体或过程。 • 总体所需的抽样策略不同于过程所需的抽样策略、 以确保样本具有代表性(在下一节中讨论)。
样本容量-6
从稳定的过程中抽样
– 如果过程是稳定的、样本容量公式可应用于过程情况。
• 可获得具有特定精度的可靠估计值。 • 当进行比较时、如果存在的差异具有一定功效、便可找出它们。
样本容量-10
抽样方法
样本容量-11
代表性样本
•要使结论有效,样本必须具有代表性。
– 数据应真实地表示总体或过程 – 收集的数据与未收集的数据之间不应存在有系统性的差异。
样本容量-12
概率抽样
•随机 抽样
总体
样本
•每个单元具有相同被选中的机会
•分层 随机 抽样
总体பைடு நூலகம்
A A
AA
B
BB BB B BB
– 如果过程是不稳定的,可能的话,将一段很长的时间里得到的数据 绘制于一张控制图上,并圈出或特别标示您的样本所代表的数据点 或时间区间。 • 允许您和他人可直接从曲线观察过程的行为。 • 帮助您判断这些结论在未来的可靠性。
样本容量-9
从过程中抽样
•对于过程情况,我们希望确保能够理解过程的行为。因此我们: – 在一段时间内进行系统或整群(非随机)抽样。 • 即使随机抽样能适用于稳定过程,我们仍采用系统或整群抽样,并保持时间顺序 以便能更好地表示过程行为。 – 尽量从足够长的时间段中进行抽样,以便真实地表示过程中的变化源。 • 运用您自己的判断和有关变化源的过程知识来确定多长时间进行一次抽样 (每隔 10 个个体、每隔 7 个个体、每天、每月等)。 – 一般情况下、更加频繁地收集小样本、可确保随着时间的过去能真实地表示过程行为。 – 绘制控制图或时间曲线图,以确定该过程是稳定的还是不稳定的(寻找非正常值、偏移、 趋势或其它模式)。
样本容量-14
抽样误差
统计调查的误差(抽样误差):是指调查所得结果与总体真实数值之间的差异。 可分
1、登记性误差:指在调查和汇总过程中,由于观察、测量、登记、计算等 方面的差错或被调查者提供虚假资料而造成的误差。 (不是抽样调查独有的)[尽量避免]
2、代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构 不一致、样本不能完全代表总体而产生的误差。它又分
相关文档
最新文档