基础统计学概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

采样的目的 使用采样的原因: • 收集所有的数据通常是不现实或是成本太高; • 有时收集数据是一个破坏性的过程; • 通常可以利用相对少量的数据来做出合理的结论.
总体与样本
总体
总体 样本
实际的关系 样本
图形关系
采样的类型和方式
样本
运作的过程
• 过程采样:帮助我们了解过程的实情和状况
采样的类型和方式 • 总体采样: 总体采样: 确定总体的特性
特征 进行推断的原理和方法。
[<数理统计学>)]
认识什么是不确定性? 认识什么是不确定性?
The odds of finding two identical fingerprints were 1 in 64 billion. —Francis Galton 两个随机个体具有相同DNA 图形的概率为3×10-11;如 果同时用两种探针进行比较, 两个个体完全相同的概率小 于5×10-19。 每支枪的枪管都有独一无二 的特征,这种特征影响了它 所发射的每一发子弹。 —司法弹道学
活动与思考
• 某糖厂用自动打包机包装糖, 某糖厂用自动打包机包装糖,每包重量服从 N (100, 0.5 ) 分布 ,某日开工后随机测得9 某日开工后随机测得9包重量( 包重量(单位:KG) 单位:KG)如下 :KG)如下: 如下: 99.3 ,98.7,100.5,101.2,98.3,99.7,99.5,102.1,100.5 请问这一天打包机工作正常吗? 请问这一天打包机工作正常吗?
练习 计算每个数据组的均值、中位数、众数和极差
组 1 1 2 5 8 9
组 2 1 2 5 8 9
组 3 1 2 5 8 9
偏差 • 偏差 是每个数据和所在数据组均值之差
偏差 = ( X − 均值)
• 目的是衡量数据组的变差。
(X i − 均值)
X
总体标准差的计算公式
总体标准差 (σ)公式
(X i − µ)
均值 =
样本方差
∑x
i =1
i
n
n i i =1
+x +x x =
1 2
3
Hale Waihona Puke Baidu
+ ... + xn
n
∑ (x
s =
2
− x)
2
n −1
练习-样本统计量的不确定性 • 假如我们想知道本公司员工的平均身高并欲通过 抽样方法进行统计,用样本中员工身高的平均值来 推测全体员工身高的平均值. • 假如你的小组构成了一个样本,请统计并计算你的 小组成员身高的平均值. • 请你观察,每个样本的平均值一样吗? • 样本统计量具有不确定性. 样本统计量具有不确定性. • 样本平均值与总体”真值”相等吗?
双样本的 T-Test
• 当遇到连续性的数据时使用 例子: • 我们有一个工序的输出Y:压强PSI • 我们想要提高PSI • 我们取10个样品为基准,下面的方法都显示有了改进.
证明提高了工艺水平
数据 (单位: PSI)
Baseline 9.9603 9.9568 10.0364 10.0356 9.9217 10.1931 9.819 10.1276 10.0604 9.8348 改进后(Alt1) 10.1891 10.245 10.0369 10.1398 10.1714 10.4335 10.3232 10.1073 10.212 10.1382
0 .1 4 0 .1 2
期望值 = µ = np 标准差 = σ = npq ˆ=x n p
f( x )
0 .1 0
0 .0 8
0 .0 6
0 .0 4
0 .0 2
0 .0 0 0 10 20 30 40 50
例子: N次抛硬币试验中,出现”正面”的次数为x的概率。 零件go/ngo的检查。
B in o m ia l
统计基本术语
衡量中心位置
• 均值 均值: : 某组观测值的算术平均数; • 中位数: 中位数: 按大小顺序排列的数据组之中点位置对应的数值; • 众数: 众数: 出现频次最高的观测值。
Histogram of C3
100
众数 = 20
80 Frequency
中位数 = 33.5 均值 = 51.8
40
50
60
70 Normal
80
90
100
110
活动与思考( 活动与思考(选做) 选做) • 在重庆,找到身高大于175cm的男朋友的机会是多 大?
• 福克斯的三包期究竟多长合适?
二项分布 – 离散分布
二项分布:一个试验被重复做了n次,试验之间是相互独立的。每次试验中 事件A发生的概率为p,则在n次重复试验中,事件A发生x次的概率. 试验只有2种结果,一种结果出现的概率为p,另外一种出现的概率为q = (1 – p ).
Maximum 10.1931 10.434
我们可以从上面的平均值看出改进后 在数值上比基准是不同的而且非常接近.
但是它们真的有统计上的不同吗
威布尔分布
• 威布尔分布–连续分布,在可靠性工程中被广泛应用,尤其适用于机 电类产品的磨损累计失效的分布形式。
f ( t ) = bθ t
− b b−1
exp( −( t / θ ) )
b
其它几个重要的抽样分布 • 卡方分布 • T分布 • F分布
假设检验
统计量
• 定义:设X1,X2,X3, ,XN为总体X的一个样 本,f(x1,x2, ,xn)是n维的连续函数,且该函数不包 含任何未知参数,则称f(X1,X2,X3, ,XN)为一个统计 量. • 常用的统计量如下: 样本均值 n
47 47 47 48
49 49 50 51
51 52 53 54 众数 是: 47
衡量分散程度
极差 方差 标准差
极差 •极差: 某组数据中, 最大观测值与最小观测值之差 就是极差. •极差 = 最大值 – 最小值 例子: •求下列数据组的极差: •日常开具发票出错的数量:
2 3 2 1 0 0 4 6 2 1 3 4 4 4
s=
i =1
n −1
n 是样本量大小
x
是样本均值
样本标准差计算练习 计算下列数据组的样本标准差
• 数据组:1 2 • 均值是 2 • 样本量n = 3 3
∑ (x − x )
i
n
2
s= s=
i =1
n −1
(1 − 2)2 + (2 − 2)2 + (3 − 2)2
2
s = 1 = 1.00
统计抽样
• 为了获得对过程特性准确的估计
我们怎样来做? 我们怎样来做?
样本量通常的指导原则
具体的特性数据样本量 :
–粗略估计需要: 100 –更加精确的估计需要: 大约 1,000
具体的变量数据样本量:
–粗略估计需要: 30 –更加精确的估计需要: 大约 200
常用的统计分布
•正态分布 •二项分布 •威布尔分布 •其他分布
越高越好
数据组的比较 • 我们通过居中性(平均值)和分布范围(标准偏差) 来比较不同的数据组(Mean) and (Standard Deviation). • 怎样计算数据的平均值和标准偏差呢?
–Minitab 会帮我们计算
计算结果
Descriptive Statistics: Baseline, 改进后 Variable N Baseline 10 改进后 10 Variable Baseline 改进后 Mean 9.9946 10.200 Minimum 9.8190 10.037 Median 9.9979 10.180 TrMean StDev SE Mean 9.9917 0.1198 0.0379 10.191 0.113 0.036 Q1 9.8999 10.131 Q3 10.0772 10.265
Probability Plot of Normal
Normal
99.9
99 95 90 80 70 60 50 40 30 20 10 5 1 0.1
Mean StDev N AD P-Value
70.00 10.00 500 0.418 0.328
Percent
P 值>0.05, 是正态分布
30
2
偏差 偏差的平方 偏差平方和 = SS
∑ (x − µ )
i
N
(X i − µ)
2
σ=
i =1
N
2 ( ) X − µ ∑ i
μ为总体均值
N
2 ( X − µ ) ∑ i
方差
N
= 求和符号

i =1
∑(Xi −µ) N
2
标准差
样本标准差的计算公式 样本标准差 (s) 公式
2 ( ) − x ∑ xi n
•卡方分布 •T分布 •F分布
正态分布 正态分布 • 正态分布是一条对称的光滑钟形曲线。 • 用 N ( µ,σ 2) 表示
正态分布
标准正态分布 标准正态分布是正态分布的一种特殊情形。 用 N(0,1) 表示。
68.26%
95.44%
99.73%
-4
-3
-2
-1
0
1
2
3
4
AndersonAnderson-Darling正态性检验 Darling正态性检验
基础统计
——长安福特马自达(重庆)6-Sigma推进团队

• 统计基本术语 • 统计抽样 • 常用的统计分布 • 假设检验 • 单因素方差分析

什么是统计学? 什么是统计学?
统计学是一套收集数据和分析信 统计学 息的方法和原则,以帮助人们在 面对 不确定性 不确定 时制定决策。(< 社会统计学>) 统计学是研究如何搜集、整理、 统计学 分析反映事物 总体 信息的数字 资料,并以此为依据,对 总体
60
40
20
0
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360
C3
均值例子
n
均值 =
例子
∑x
i =1
i
n
+x +x x =
1 2
3
+ ... + xn
n
n = 所有数据点的 个数
平均迟到的天数:
1 + 2 + 3 + 4 + 5 5
很有可能是由这个变化造成的
Ha = 假设有变化
Ho = 假设没有变化
我们怎样判定结果是不是有不同呢? 我们怎样判定结果是不是有不同呢
P值: • 通常来说,我们有95%的置信度证明结果发生了变化.这样 就有5%的机会出错. • “P”的值表明了发生错误的几率.(犯拒真错误的概率)
• 如果“P”的值大于5% (>.05),我们就认为没有实质的变化 (因为出错的机会太大了). • 如果“P”的值小于5% (<.05),我们就认为有了实质的改变.
为什么要进行假设检验? 为什么要进行假设检验?
• 用来验证改进问题的不同方法存在那些不同 用来验证改进问题的不同方法存在那些不同. . • 下面先看一看这个实例. 下面先看一看这个实例 – 我们已经生产了十年的产品,一年100件. – 在这十年的每一年中,100件产品中有10件不合格(这是在一年中任 意查出来的). – 现在是解决这个问题的时候了. – 今年1月份做了改进解决了这个问题. 我只作了一个产品,这个产品合格了, 所以缺陷率是0%我可以说我 已经解决了这个问题吗?
样本
采样的方法
任意采样 层化了的任意采样
每个单元都有相同被选择的概率
把总体“ 把总体“层化” 层化”成许多组; 成许多组; 在每个组里面任意选择
系统抽样法
每隔n 每隔n个单元选择一个
系统分组采样
运作的过程
在这个位置每小时采3 在这个位置每小时采3个样本
样本量 • 样本量建议
通常
–样本量应该足够小 • 获取数据的过程是花钱的过程,这要看能支付多 少钱来决定样本量 –样本量要足够大
常用的假设检验
• 连续数据 • 双样本的 T-Test –它检查了从同一个工序 或是不同的工序的两个 采样的平均值是否有实 质的区别(如:改进后和 改进前的工艺) • 离散数据 • 一个或两个样本的比例检验 –它们检查了从同一个工 序或是不同的工序的废 品率(成品率)是否有实 质的区别(如:改进前和 改进后的工艺)
=
3.0
中位数例子 •一个样本量n为奇数的数据组,中位数就是处在中点 位置的数值; •否则是中间两个数的平均值。 例子 n 是奇数:
1, 3, 7, 8, 10, 13, 17
中位数是 “8” n 是偶数: 1, 3, 7, 10, 11, 16, 17, 20 中位数是 “10.5”
众数例子 •众数是数据组中出现频次最高的数据. 例子 数据组: 45 46 47 47
我们怎么知道措施对结果有变化? 我们怎么知道措施对结果有变化? • 什么是假设性检验? 什么是假设性检验
–它是一种数学验证,它可以决定事情的结果,是偶然发 生的可能性还是真的发生了实质的改变。
假设检验可能出现的结果
只有两种可能出现的结果
结果 1 工艺上并没有变化,不同是 由自然的波动引起的
或者
结果 2 工艺上有变化,而且结果上的不同
相关文档
最新文档