1.基本统计学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程回顾 实验设计步骤和实验设计类型 2k全因子设计:交互作用和因子主效果 部分因子设计:筛选设计 部分因子设计: 别名关系和分辨率 部分因子设计:折叠设计和饱和设计 课程回顾 RSM法简介 DOE案例分析 课程总结 考试
BYD COMPANY LIMITED Version 1.1
DOE
例1
这里有27个球, 其中有且只有一个球质量为9克, 其 它26个都为10克。给你一架天平,请找出重为9克的那个 球。 请问,你至少要称几次?
BYD COMPANY LIMITED Version 1.1
DOE
方差与标准差
若X,X,…,X是一个具有n个观察值得样本,则样本方 差为: 2
(x i -x) s=
n 2 i=1
-
n-1
注:当样本数小于30时,采用该公式;当样本很大时(n >30),(n-1)取n 样本标准差是样本方差的算术平方根,即:
BYD COMPANY LIMITED Version 1.1
DOE
参数和统计量计算方式
1.EXCEL 2.手动计算 3.minitab(统计》基本统计量》显示描述性统计 量)打开文件basic stat.mtw,第一列有30个 产品品质特性的测量值,确定其统计量。
BYD COMPANY LIMITED Version 1.1
BYD COMPANY LIMITED Version 1.1
缺点
属性
DOE
计数型数据的转化
计数型数据可以转化成计量型数据
计数型数据
计量型数据
BYD COMPANY LIMITED Version 1.1
DOE
数据分类例题
题 目
顾客平均消费,电话待机时间 ZIP drive中发生S/W冲突 职员-张三,李四,老五 支出与预算相符 输入支出费用的时间 支付晚到 板材次品数 产品周期 要返工的报表百分数 报表中的错误
参数 均值 方差 标准差 µ σ σ
2
统计量
x
S2 S
比例
π
p
BYD COMPANY LIMITED Version 1.1
DOE
描述计量型数据集
一组计量型数据能显示以下三个特性: 1)中央趋势(均值,中值,众数,四分值) 2)变异(全距(range),标准差,方差, 四分值极差) 3)形状
BYD COMPANY LIMITED Version 1.1
DOE
实验设计
Design of Experiment 为什么要进行试验设计?
==>我们要进行试验设计!
BYD COMPANY LIMITED Version 1.1
DOE
实验设计的意义及其优点
实验设计的意义: 应用数理统计学的基本知识,讨论如何合理地安排试验、取得 数据,然后进行综合科学分析,从而尽快获得最优组合方案。在 工程学领域是改进制造过程性能的非常重要的手段。在开发新工 序中亦有着广泛的应用。 在工序开发的早期应用实验设计方法能得出以下成果: 1. 提高产量; 2. 减少变异性,与额定值或目标值更为一致; 3. 减少开发时间; 4. 减少总成本;
BYD COMPANY LIMITED Version 1.1
DOE
数据的分类
数据是来自观察的,由一个过程搜集得来的数据可让我们 描绘过程、了解过程、改善过程甚至控制过程。 数据在过程改善中的重要性。 数据分为计数型和计量型两类。
BYD COMPANY LIMITED Version 1.1
DOE
计量型数据和计数型数据都有什么优缺点?
BYD COMPANY LIMITED Version 1.1
DOE
小组讨论
计量型和计数型数据的优ቤተ መጻሕፍቲ ባይዱ点?
数据类型 优点
计量型数据
计数型数据
1)能够为使用相对小范围抽样 1)容易得到数据,并且计算方法简单 的过程提供详细的信息 2)数据容易理解 2)适用于低缺陷率 3)数据随时可得 3)能够预估计发展趋势和情况 1)无法显示缺陷怎样发生及过程如何 变化(如身高直方图) 1)不易得到,依测量工具获得 2)不适合低缺陷(需大量抽样) 2)分析更为复杂 3)不能预测发展趋势和情况 1)连续数据 2)通常为正态分布 3)实际数值 4)数据定义严格 5)需少量抽样 1)计数数据 2)通常为二项式分布后泊松分布 3)合格/不合格 4)数据定义较差 5)需大量抽样
分析方法
多 元 回 归 分 析
试验规划
极 差 分 析 等
方 差 分 析
均 分 设 计 等
因 子 设 计
响 应 面 设 计
BYD COMPANY LIMITED Version 1.1
DOE
1. 基本统计学
BYD COMPANY LIMITED Version 1.1
DOE
目 录
数据分类 计量型数据 位置的测量/中心趋势 变异(散布)的测量 Minitab中描述 正态分布及检验
BYD COMPANY LIMITED Version 1.1
DOE
均值的特性
1)均值的计算使用了每个观测值;每个观测值 对均值都有影响 2)所有观测值对均值的偏差的总和为零 3)均值对极端值很敏感,极端值会导致均值向 他偏移
BYD COMPANY LIMITED Version 1.1
DOE
中值
BYD COMPANY LIMITED Version 1.1
DOE
例2
这里有9框球(每框100个), 其中有且只有一框里的球质 量全为9克, 其它8框里的球都为10克。给你一架天平,请找 出里面的球重为9克的那个框。 请问,你至少要称几次?
BYD COMPANY LIMITED Version 1.1
BYD COMPANY LIMITED Version 1.1
DOE
计量型数据
学习目的 1)利用数据的分布形状,中央趋势和变异大小进行特性化 2)如果数据是正态分布的,计算Z值,利用Z值确定超出某 一数值的比例
BYD COMPANY LIMITED Version 1.1
DOE
统计学基本术语
总体:想要测量对象的全体 参数:用总体的数据计算出的数值(如均值,标准差),称为总体的参数 样本:从总体中抽出的部分数据 统计量:用样本的所有数据计算的数值(如均值,标准差),称为样本的统计量 整体: 1)以制造或将要制造对象的全体集合,用所关注的特性描述 2)我们究竟能否知道真正的整体参数 样本: 1)统计研究中实际测量的目标组 2)样本通常是整体的子集
BYD COMPANY LIMITED Version 1.1
DOE
四分值
定义:将一组按大小顺序排列的数据平分为四部分,分界点 即四分值 第一四分值,约25%的观测值小于它,用Q1表示 第二四分值,约50%的观测值小于它,即中值,用Q2表示 第三四分值,约75%的观测值小于它,用Q3表示 注:四分位不一定是一个值,或不一定有数值,这时候需要 求最邻近的两个数的平均值。 例:214,216,245,252,454,624,720,816,942, 1216,1296,1392,1448,1542,2856,3192, 3528,3710,请确定三个四分值。
将一组观测值按大小顺序排列,位于中心点数值即为中值 注:1)若观测值的个数为偶数,则中值为中间两个数值的 平均值; 2)若观测值的个数为基数,则位于中心点数值即为中值。 优点:不受极端大或极端小的观测值的影响
BYD COMPANY LIMITED Version 1.1
DOE
众数
定义:样本中出现次数最多的观测值 众数可以是唯一的,也可以是不止一个,有时 并不存在众数。 当观测值为分类式(如名义数据,序列数据) 时,众数是描述数据位置的最好指标(例如一个公 司员工收入的众数) 众数的重要信息:当众数不止1个时,从中抽 取样本通常来自于多个总体的混合。
类型数据 名目型 顺序型
测量数据 连续型 计数型
离散型数据
变量数据
BYD COMPANY LIMITED Version 1.1
DOE
数据分类定义
计量型数据“连续数据” (又称计量数据):用连续坐标 进行测量并得出的数据,或者说,用测量仪器或量具测量出 的可以连续取值的数据类型,可以无限细分。 离散数据:1)计数:只能统计出现,没有出现的统计不 出 2)离散的属性(均可统计出):(出现,未出现); (正面,反面),百分比
DOE 培训
DOE
Content
基本统计学 假设检验简介 均值比较 一般线性回归分析 实验设计简介 2k因子实验设计简介 23全因子实验 部分因子设计 响应曲面法 DOE案例
BYD COMPANY LIMITED Version 1.1
DOE
第一天 上午 下午 第二天 上午 下午
s=
(x i -x)2 i=1
n
-
n-1
BYD COMPANY LIMITED Version 1.1
DOE
方差与标准差
总体方差:类似于样本方差s2,用总体的所有数据 计算出总体变异-总体方差σ 2,总体标准差是总体 方差的算术平方根
BYD COMPANY LIMITED Version 1.1
DOE
正态分布
正态分布是一种具有特定的、非常有用的特性 的数据分布。这些特性对我们理解所研究之 过程的特性十分有用
BYD COMPANY LIMITED Version 1.1
DOE
特性1:只需要知道两项参数就可以完整描述正 态分布(均值和标准差) 特性2:曲线下的面积可用来估算某一特定事件 发生的累积概率 当一组数据不是最理想正态分布时,特性2累积 概率规则仍可应用 比较理论(理想)正态分布和经验(现实)分 布
BYD COMPANY LIMITED Version 1.1
DOE
散布的测量(变异)
极差 方差 标准差 四分值极差
BYD COMPANY LIMITED Version 1.1
DOE
极差
样本极差为样本中最大值和最小观测值之间的差别 极差是测量数据散布或变异的最简单的方法 但它忽略了最大和最小值之间的所有信息
课程安排
课程介绍 数据的分类:离散数据和连续数据 参数和统计量:位置的测量和变异的测量 正态分布及检验方法 假设检验:零假设和备选假设 (Ⅰ类和Ⅱ类错误) 课程回顾 检验单个总体均值是否等于目标值 检验两个总体均值是否等于目标值 检验两个以上总体均值是否等于目标值 一般线性回归方法 具有影响的数据点:界外点和杠杆点
数据类型(A-计数型,V-计量型)
(V) (A) (A) (A) (V) (V) (A) (V) (A) (A)
BYD COMPANY LIMITED Version 1.1
DOE
对数据的认识水平
推理性统计-预测过程绩效:能 力分析,回归和实验计划法
描述性统计数据-中数,标准差等
分组的数据-图表
搜集了数据,但只看数据多少 没有数据,只有经验 没有数据,也没有经验-只有观点
BYD COMPANY LIMITED Version 1.1
DOE
试验设计在生产/制造过程中的位置
可控制因素
生产/
制造过程
不可控制因素
X Y=f(x)
Process
Y
建模过程
BYD COMPANY LIMITED Version 1.1
DOE被看作一个以总成本最低,获得卓越品质的方法。
DOE
DOE有两大技术支柱
DOE
方差特性
方差计算使用了所有观察值,每个观测值对方 差都有影响 方差对极端值很敏感,因平方的缘故,极端大 的观测值会严重地放大方差
BYD COMPANY LIMITED Version 1.1
DOE
四分值极差
四分值极差是测量散布的另一个指标 IQR=Q3-Q1 四分值极差不如极差对极端值敏感 当分布不显著对称时,用它衡量散布会更好 {10,20,50,60, 90} {10,40,40,40,90} 四分值极差分别是40和0
DOE
位置测量-中心趋势
均值 中值 众数 四分值
BYD COMPANY LIMITED Version 1.1
DOE
均值
样本均值
x1 x2 xn i 1 xi x n n
n
总体均值
x1 x2 L xN i 1 xi N N
N
注:所使用的符号!
BYD COMPANY LIMITED Version 1.1
DOE
极差
考虑以下的2个样本: {10,20,50,60,70,90} {10,40,40,40,90} 第二个样本的变异只是2个极端值的变异,而在第一个 样本,中间的数值也有相当大的变异。 当样本量较小(n≤10)时,极差丢失信息的问题不是 很严重。