DOE培训文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新技术应用推广中心
但在实际工作里,求出概率分布函数或者概率密度函数 往往比较困难,有时甚至求不出来。这种情况下,怎么 办? 办法: 找一些数字,这些数字可以简明地表示随机变 量的统计规律和特性 。 • 描述数据总体趋势的特征数; • 描述数据离散程度(或称为变异程度)的特征数。 一般情况下,将这两者结合起来才能全面了解数据的分 布情况及特点。
连续型的变量数据:
可能取得的数值有无限多种,并且两个任意接近的数值之间还 存在无数多种可能取得的值,取得某一个具体得值的概率为0。 例如:在一片水稻试验田种随机抽取一植株,量测它的株高。 这时,株高的可能取值就有无限多个。因此测试的结果也有无 数可能的值。
新技术应用推广中心
对于连续型随机变量的数据, 由于无法计算取得具体某个 值的概率,只能得出取得某 一个区间范围的概率。我们 用一个狭小的长方形表示随 机变量的值出现在这个区间 的概率。如果区间划得非常 小,这些狭小长方形得顶端 就会连成一条曲线。我们称 这条曲线为这个随机变量的 概率密度曲线,如右图所 示:
s = SS1 /( n − 1) = 2 / 2 = 1
2 1
s = SS 2 /(n − 1) = 1152 / 2 = 576
2 2
显然,第一组人的方差大大小于第二组人的方差, 这也反应了第一组人具有较小的离散程度。
新技术应用推广中心
不足之处:因为方差的单位是原数据单位的平方, 所以在进行实际意义解释时,却令人难以理解。例 如前述两组人的方差单位是岁2。但这不会影响数据 分散程度的衡量。 所以,将方差开方,即得到标准差(standard deviation)。
新技术应用推广中心
其实,当过程处于稳定状 态时,从同一过程抽取足 够的样本,一般会得到 “钟”形的分布形状,我们 称这种分布为正态分布。 正态,即正常状态下的分 布,是一条光滑、单峰、 左右对称的曲线。
新技术应用推广中心
的正态分布。正 态图形与横轴之间的面积代表事件发生的概率。
新技术应用推广中心
从上图可以看出, σ 变 小,可以使平均值分布的区 域更集中,即出现偏差的概 率更小,从生产角度看,就 是不合格率会降低。
新技术应用推广中心
正态分布在DOE中很重要,表现在: (1)、很多科学实验中收集到的、用连续型随机变量表示的数 量指标都可以看作是服从正态分布的,这种类型的随机变量 的概率都可以用正态分布函数来计算。 (2)、一些服从非正态分布(如二项分布)的数据资料在适当 的条件下也可以用正态分布来近似计算; (3)、无论原来的随机变量服不服从正态分布,只要样本容量 足够大,其平均数都会服从正态分布。 所以在实际生产中,对于抽样取的样本都认为符合正态分 布。
新技术应用推广中心
1.5 试验设计的步骤
选择合适的试验方法 证明最佳生产条件 组合的再现性
进行试验,并收集数据
确定最佳的 生产条件组合
对数据进行分析
筛选出显著因子
新技术应用推广中心
1.6 试验设计方法和分析工具
试验类型 全因子设计 部分因子设计 筛选设计 中心复合设计 目标 1. 寻找最有利于输出的因素水平 2. 建立可评估所有交互影响的数学模型 1. 寻找最有利输出的因子水平; 2. 建立可评估部分交互影响的数学模型 从大量因子中发现少数关键因子(即显著因子),不评估因 子的交互作用 1. 优化 2. 建立非线性影响存在时的数学模型(常用回归设计法) 1. 优化 2. 在存在噪声因子变化的场合发现输出最小变异时对应的因 子水平 1. 优化 2. 优化产品或制造过程的函数 3. 使输出对噪声因子敏感性最小,对输入因子敏感性最大 典型可控因素数 4 因子以内 5 因子以上 7 因子以上 3 因子以上
x 2 − (∑ x) 2 / N ∑ N
样本方差:
(x − x ) 2 SS ∑ s2 = = = n −1 n −1
x 2 − (∑ x) 2 / n ∑ n −1
其中,样本方差的分母n-1称为样本方差的自由度(degree of freedom)。
新技术应用推广中心
拿前面的例子来计算样本方差分别为:
新技术应用推广中心
1.2 试验设计发展的状况
• 试验设计最早出现在20世30年代,是由费雪在农业试验时 提出的; • 60年代日本的田口玄一博士将试验设计方法用于产品品质 改善,取得巨大成功,从而使该方法得以普及和发展; • 到20世纪80年代中期兴起的6sigma管理系统中,作为 DMAIC模式的重要一环,试验设计成为过程改善不可缺少 的利器; • 目前在我国,试验设计应用的范围不广,仅局限在科研机构 和少数行业,这些行业的应用也主要应用在产品设计上 。
新技术应用推广中心
二、试验结果的分析和整理—一些基本概念
对试验数据进行分析和处理时,由于需要用到概率、抽样 理论和参数估计、统计假设检验的知识。为了便于理解,我 们仅介绍相关的一些基础概念。
2.1、收集的数据类型
离散型的变量数据 连续型的变量数据
新技术应用推广中心
离散型的变量数据:
具有有限或无限多个可能的取值,并且取得每种可能值的概率 是确定的。这种数据不能在两个相邻随机变量之间再取值 。 例如:抛硬币,只有两种结果:“正面朝上”和“背面朝 下”,两种结果出现概率各为50%。
新技术应用推广中心
正态分布中, 为总体平均分布,它代表了数据的总体分 µ 布趋势,若 σ 不变, 改变 µ ,使曲线左右移动,形状不变, 若 µ =0,则对称轴与纵轴重合,见下图。
新技术应用推广中心
σ 为总体的标准差,它衡量了资料的变异程度。
当 µ 不变,改变 σ 使曲线形状改变而对称轴不变,当 σ 变小时,曲 线变高瘦,中间面积变大,当 σ 变大时,曲 线变矮胖,中部面积变 小,见下图。
新技术应用推广中心
衡量资料的分散程度—方差
介绍方差之前,要引进一 个概念:离均差。 离均差:是各观察值和平 均值之差,它本身就衡量 了这个观察值离平均数的 距离。常用d表示。见下 图。 能否将整个资料所有观察 值的离均差加起来衡量整 个资料的分散程度呢?不 能,因为所有观察值的离 均差之和为0。 解决的办法是:先将离 均差平方以消除负号,然 后再相加,这就引出了离 均差平方和的概念。
新技术应用推广中心
2.3 衡量数据的特征数
能反映数据总体趋势的特征数: • 算术平均数 • 加权算术平均数 • 中数 • 众数 • 几何平均数 • 调和平均数 其中算术平均数应用得最广泛,其他的平均数均应用于特别的情况。而加 权平均数考虑到了各个数据的重要性(即权重)对平均数的影响。 表示数据离散程度变异程度: • • • • 极差( range) 方差(variance) 标准差(standard deviation) 变异系数(coefficient of variation)
新技术应用推广中心
• 从样本收集到样本测量的时间 一般来说,样本在试验后需立即进行测量,防止时间间隔太 久,从而产生潜在的未知因素对样本特性产生好的或坏的 影响,使试验数据偏离真值 • 测量方法的统一性 • 试验误差的影响 对试验结果进行分析时,会发现试验结果中不可解释的部 分(即误差),此成分的比例须给予充分考虑,如其过 大,说明试验中还有重要的未知因素包含在试验中,这时 须考虑重新设置试验因素,重新试验,直至试验误差降至 合理水平。
试验设计培训(第一部分) The Training for Design of Experiment(Part One)
新技术应用推广中心
一、前言
1.1 什么是试验设计 1.2 试验设计的发展状况 1.3 为什么要进行试验设计 1.4 在进行试验设计需考虑的问题 1.5 试验设计的步骤
二、数理统计和抽样理论、参数估计的 一些 基本概念
SS = ∑ x 2 − (∑ x) 2 / n = ∑ x 2 − nx 2
新技术应用推广中心
当比较两组观察值数目不同的资料时,还要考虑到观察值数 目的影响。将离均差平方和除以资料中观察值的数目就引进 了方差(variance)的概念。有时方差也称均方。 总体方差:
2 ( SS ∑ x − u ) = = σ2 = N N
新技术应用推广中心
1.4 在进行试验设计时须考虑的问题
• • • • 了解试验过程的稳定状况 只有过程处于稳定状态,得到的数据才是可靠和有价值. 错误数据对试验结果的影响 潜在因素的影响 测量精度 数据的可靠性直接影响决策的正确性,故设计前对测量系统进 行充分分析是十分必要的。 • • • • 抽样、测试成本 劳动力成本 试验对生产的影响 将试验结果用图表来表示
新技术应用推广中心15试验设计的步骤选择合适的试验方法证明最佳生产条件组合的再现性进行试验并收集数据筛选出显著因子确定最佳的生产条件组合对数据进行分析新技术应用推广中心16试验设计方法和分析工具试验类型目标典型可控因素数全因子设计因子以内部分因子设计因子以上筛选设计从大量因子中发现少数关键因子即显著因子不评估因子的交互作用因子以上中心复合设计因子以上可靠性设计在存在噪声因子变化的场合发现输出最小变异时对应的因子水平因子以上田口动态可靠设计因子以上如果试验水平较多达4个以上时有一种叫均匀试验的方法更适合使用
新技术应用推广中心
衡量资料中心位置的特征数—平均数
平均数指出了一组数据的中心位置,能很好地表示一些资料 的一般水平,作为这组数据的代表值。 例如:有两组人,各由3个人组成,第一组人的年龄分别为 24、25、26岁,第二组人的年龄分别为1、25、49岁。两组 人的平均数都是25岁,但我们却不能得出两组人都是年轻人 的结论。可见,第一组人的平均数有代表性, 第二组人的平 均性就没有代表性。 不足之处: 平均数是否能代表整体水平,还需要通过分析数据的分散程 度来确定。
可靠性设计
5 因子以上
田口动态可靠 设计
7 因子以上
如果试验水平较多,达4个以上时,有一种叫“均匀试验”的方法更适合使 用。这是一种新兴的科学方法,最大的优点是能以较少的试验次数完成 很多因素和水平的试验,且精度不差。
新技术应用推广中心
分析工具
常用的分析工具有:
• 方差分析 • 假设检验(含显著性检验) • 回归分析
新技术应用推广中心
2.1收集的数据类型 2.2正态总体的理论 2.3衡量数据的特征数 2.4抽样理论和参数估计 2.5假设检验 2.6显著性检验
三、试验分析的工具
3.1 方差分析 3.2 回归分析
新技术应用推广中心
1.1 什么是试验设计
• 试验设计是一种研究和处理多因素,并应用数理统计的方 法进行试验的科学方法。 • 它在6 σ 的分析阶段可以对大量的输入变量进行筛选;在 改善阶段确定关键的影响因素。 (6 σ 的突破模式为:定义、测量、分析、改善及控制) • 科学分析,找出各种因素对试验结果的影响程度,从而确 定各因子的主次,找出最优的参数组合的试验方案,然后 用于指导实际生产。
SS = ∑ ( x − x )
新技术应用推广中心
2
上个例子中,SS1=(24-25)2+(25-25)2+(26-25)2=2 SS2=(1-25)2+(25-25)2+(49-25)2=1152 从上述可以看出,第二组的平方和大过第一组的平方和 许多,这说明,第二组的变异远大于第一组的变异,第 一组的平均数代表性大大高于第二组的平均数。 如果平均数是经过四舍五入的近似数字,用上述公式计 算就会引入较大的计算误差。这时,可以采用以下公式 计算可以减少计算误差:
新技术应用推广中心
1.3 为什么要进行试验设计
• 采用试验设计可以对优化试验方案设计、降低实验误差和 生产费用、减少实验工作量 • 避免了传统试验方法(OFAT,one factor at a time)的 粗糙性、试验周期长等缺点 • 可快速、有效地找出影响结果的关键因子 ,并允许探讨 变量间可能存在的交互作用
新技术应用推广中心
衡量资料的分散程度—极差
极差可以用来表示资料的分散程度。资料的极差越大,资 料的分散程度就越大,该资料的平均数就没有代表性。 例如:前述的例子中,第一组的极差R1=26-24=2,第二组 的极差R2=49-1=48。 所以第一组的平均数代表性高,而第二组的平均数代表性 低。 不足之处: 但极差只考虑了资料的两个极端值(最大和最小),未能 充分利用其他数据提供的全部信息,因此应用不太广泛。
新技术应用推广中心
衡量资料的分散程度—标准差
总体标准差:
σ =
SS = N (x − u ) 2 ∑ N = x 2 − (∑ x ) 2 / N ∑ N
样本标准差:
s= SS = n −1 (x − x ) 2 ∑ n −1 = x 2 − (∑ x ) 2 / n ∑ n −1
拿前述例子,分别计算两组的标准差:
相关文档
最新文档