均匀设计应注意的要点概要
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
均匀设计应注意的要点
• 在实际应用中看到一些初期应用均匀设计 法的论文,这类论文中有的存在某些应用 不当或欠妥之处,对于读者,这样的应用 实例在某种意义上来说将会形成错误的引 导,易导致新用户进入误区。本文就几个 常见的问题根据我们的体会做些分析说明, 希望在今后的应用中,不犯类似的错误。
(一)试验次数与自变量个数的选择
•
•
均匀设计法实施要点
• • 4、试验次数不宜过少。我们搞试验,就是希望发现规律,并运用规律进行工 艺参数优化。 实现参数的最优组合,达到优质、高产、低耗的愿望。信息存在于数据 之中,数据少,则其所携带的信息也少。搞试验设计的目的就是少安排试验, 而且还要获取尽可能多的信息。试验次数过少,实现参数的最优化组合有时 就有困难。在经费、时间容许的情况下多安排几批试验,还是值得的,这也 是少投入多产出。 5.数据是基础,数据的准确程度关系到试验成功之关键。 6.建立能够描述规律的回归方程。建立数学模型时,对于选择X的变量 模式,原则是能用简单的就不用复杂的。实践是检验真理的唯一标准。方程 建立得好不好,要作试验来验证。 7.使用方程预报时X的取值应在区间内,不应外延到区间外,因为在区 间外无数据支持,预报精度大为下降。
•
•
建立回归模型的注意事项
• 4均匀设计用得是否有效,除了前面提到的正确选用均匀设计表外, 很大程度取决于回归分析。 • 5许多人认为回归谁不知道,谁不会用,实际一用又用得不对,还找 不到原因[2]。实践证明,许多问题出在回归分析上。这方面容易出现 的问题有: • • 6回归时片面追求回归模型的项数,片面追求大的R2,误差自由 度过小等。 7上述问题易造成:回报不错,预报不好,可靠性差等问题。解 决的办法是:选n稍大的均匀设计表,误差自由度5,回归模型数最好 不大于10,在已知实际背景时少用多项式,在采用多项式时尽量考虑 二次的。
(二)水平数与区间的选择
• 正弦曲线Y=sin(x),x从0~360度之间的规律如下:0一 60的Y=sin(x)近似为正相关;60一120的Y=sin(x) 为开口向下的二次曲线;120一240的Y=sin(x)为负相 关;240~300的Y=sin(x)为开口向上的二次曲线; 300~360的Y=sin(x)为正相关。 • 在一个区间内,点选得多,则描述这个规律也越细腻 和准确。线性可用3点描述。二次曲线显然用3个点就不如 用5个点好。但当Y=sin(x),x的区间加大到0~360时, 用5个点描述将会是一个锯齿型,当用9个点时便可准确地 描述正弦曲线的走向,预报的精度亦可达到万分之几。
• 选择试验设计的目的是能在少作试验的情况下得到最佳工 艺参数。希望能少作几批试验,但不是追求最少的试验次 数,因为均匀设计使用最小的试验次数时不一定能获得最 佳工艺参数。选择试验次数与试验中需要考察的自变量X 的个数有关。试验次数多一些,揭示的规律准确程度就高 一些。试验次数与自变量个数之间如何权衡需用户进行选 择,在力所能及时的情况下,以试验次数安排得多一些为 佳。笔者与方开泰教授多次就此问题讨论过,认为不宜提 倡选择最少的实验次数,选择的试验次数³自变量个数的2 一3倍为妥。 • 笔者应用"均匀设计"法原发表过的论文中曾用过6个X 做10次试验的例子。现在看来试验次数略少了一点,建立 数学模型时感觉有某种困难。化工部沈阳化工研究院用我 们研制的“均匀设计软件包”作了一个5个X进行10次试 验的例子,效果良好,从现在的认识来看选12次试验效果 可能更好。
水平数与区间的选择
• 从这个实例可以看出,对于较为复杂的问题,自 变量分成多个等份,则可以较好地描述出客观存 在的规律,分得越细,描述得越好。反之,水平 数选得太少,描述规律不可能细腻。均匀设计的 特点是水平选得多,试验次数增加并不多。使用 均匀设计时,选用多个水平,揭示规律较好。
• 拟水平:在水平数选得较多时,有些因素可 以选得多些,由于试验条件的限制,某些因素水 平数不能选择大多,此时则要使用拟水平。选拟 水平时的原则是宜多不宜少,选的水平数越少则 均匀性越差。
• •
•
(二)水平数与区间的选择
• 水平数与区间的选择以能够实施为首要原则,水平数选得多些,区间 选得大些,容易描述复杂的规律。提示规律和运用规律是进行试验设 计的出发点和归宿。 • 规律是客观存在的,但有时它是体会得到,但摸不着看不见。规 律隐含在数据中,如何从数据中把规律提取出来,对科研人员来讲这 是个非常有用的实际问题。下面通过一个大家熟悉的例子来说明,区 间选得不同,提示出来的规律也不同,区间选得足够大时,才能看到 规律的全貌。在一个不太大的范围内,规律一般可描述正相关或负相 关,可用回归直线描述,线性关系为Y=B0+B1X。当然也有可能是二 次曲线,Y=B0+B1X +B2X· X。当B2>0.则是开口向上的二次曲线, B2<0是开口向下的曲线。再复杂一些,象滴定曲线,则属于三次曲 线,在某一点出现突变。在一般憎况下,在一个区间内有正相关、负 相关,又有开口向上和开口向下的曲线,如此复杂的机会一般不会大 多,如果这样复杂的规律都能描述和提示出来,那么对于揭示普通的 规律就更不成问题了。
试验次数与自变量个数的选择
• 特别说明一点,有些刊物上发表的均匀设计使用表中因 素数可安排得很多,如U5表最多可安排4个X,U7表最多 可安排6个X等,笔者认为这样使用欠妥。使用的均匀设计 表应以方开泰有关书为准。选用X的个数过多,在建模时 会发生困难。因为,用这种方法进行实验设计后要用多元 逐步回归建立数学模型,模型引入的变量模式个数最多为 试验次数减2。也就是说,安排4个X用U5表,倘若存在线 性和非线佐关系时,一次项有4个,二次项也有4个,总共 有8项,但建模时最多仅能引入三种变量模式,因此不可 能准确描述复杂的过程。而有的论文在使用U3表时安排 了4个自变量X,用U7表安排了6个X,笔者认为这种表与 方开泰教授最近出版的《均匀设计与均匀设计表》一书的 附表不一致。试验次数太少,信息量也相对少,不易实现 参数优化。我们在研制“均匀设计软件包”2.4版本时针 对上述情况进行锁定,不让用户、选择优秀的工艺路线。工艺路线良好是成功的前题,再采用先 进的试验设计可以少做 试验,而迅速地实现工艺参数优化.使经济技 术指标达到很高的水平。但参数组合不好,指标不高,可能导致放弃 该路线,使它被束之高阁,成为憾事。但是,工艺路线即使不是处于 最好水平,在这一基础进行工艺参数优化,仍可使经济技术指标有所 提高,达到更上一层楼的境界,或许还能发现某些新规律。 2、选择重要的因素,宜多不宜少。抓主要矛盾,问题可迎刃而 解。在主次难分时,可利用计算机在建立数学模型时将次要因素剔除。 对某些了解较多的因素,在进行试验设计时亦应引入,以便考察是否 与其它因素之间还存在交互作用,可深化认识,发现新规律。 3、选择因素的水平区间时宜宽不宜窄。水平区间选得窄,因素 的变化梯度小,有些特殊的规律难以发现。区间大,可在大的范围内 考察,容易发现整体规律。我们需要知道的是事物发展的全貌,而不 是局部,误用局部代替全貌有时是危险的。
(三)建立回归模型的注意事项
• 1.选变量模式时的原则是能用简单的描述就不用复杂的 描述,应首先选一次项和二次项,选交互项时应能解释其 物理意义。 2.建立模型时,变量引入的F临界值高些方程的稳 定性比较好。 3.建立模型时,引入的变量个数宜适宜,不宜过多, 这样可以突出主要矛盾,抓主要矛盾问题迎刃而解;引入 变量过多,有时只是在表面作文章,中看不中用,使回归 方程的预报能力下降。
• 在实际应用中看到一些初期应用均匀设计 法的论文,这类论文中有的存在某些应用 不当或欠妥之处,对于读者,这样的应用 实例在某种意义上来说将会形成错误的引 导,易导致新用户进入误区。本文就几个 常见的问题根据我们的体会做些分析说明, 希望在今后的应用中,不犯类似的错误。
(一)试验次数与自变量个数的选择
•
•
均匀设计法实施要点
• • 4、试验次数不宜过少。我们搞试验,就是希望发现规律,并运用规律进行工 艺参数优化。 实现参数的最优组合,达到优质、高产、低耗的愿望。信息存在于数据 之中,数据少,则其所携带的信息也少。搞试验设计的目的就是少安排试验, 而且还要获取尽可能多的信息。试验次数过少,实现参数的最优化组合有时 就有困难。在经费、时间容许的情况下多安排几批试验,还是值得的,这也 是少投入多产出。 5.数据是基础,数据的准确程度关系到试验成功之关键。 6.建立能够描述规律的回归方程。建立数学模型时,对于选择X的变量 模式,原则是能用简单的就不用复杂的。实践是检验真理的唯一标准。方程 建立得好不好,要作试验来验证。 7.使用方程预报时X的取值应在区间内,不应外延到区间外,因为在区 间外无数据支持,预报精度大为下降。
•
•
建立回归模型的注意事项
• 4均匀设计用得是否有效,除了前面提到的正确选用均匀设计表外, 很大程度取决于回归分析。 • 5许多人认为回归谁不知道,谁不会用,实际一用又用得不对,还找 不到原因[2]。实践证明,许多问题出在回归分析上。这方面容易出现 的问题有: • • 6回归时片面追求回归模型的项数,片面追求大的R2,误差自由 度过小等。 7上述问题易造成:回报不错,预报不好,可靠性差等问题。解 决的办法是:选n稍大的均匀设计表,误差自由度5,回归模型数最好 不大于10,在已知实际背景时少用多项式,在采用多项式时尽量考虑 二次的。
(二)水平数与区间的选择
• 正弦曲线Y=sin(x),x从0~360度之间的规律如下:0一 60的Y=sin(x)近似为正相关;60一120的Y=sin(x) 为开口向下的二次曲线;120一240的Y=sin(x)为负相 关;240~300的Y=sin(x)为开口向上的二次曲线; 300~360的Y=sin(x)为正相关。 • 在一个区间内,点选得多,则描述这个规律也越细腻 和准确。线性可用3点描述。二次曲线显然用3个点就不如 用5个点好。但当Y=sin(x),x的区间加大到0~360时, 用5个点描述将会是一个锯齿型,当用9个点时便可准确地 描述正弦曲线的走向,预报的精度亦可达到万分之几。
• 选择试验设计的目的是能在少作试验的情况下得到最佳工 艺参数。希望能少作几批试验,但不是追求最少的试验次 数,因为均匀设计使用最小的试验次数时不一定能获得最 佳工艺参数。选择试验次数与试验中需要考察的自变量X 的个数有关。试验次数多一些,揭示的规律准确程度就高 一些。试验次数与自变量个数之间如何权衡需用户进行选 择,在力所能及时的情况下,以试验次数安排得多一些为 佳。笔者与方开泰教授多次就此问题讨论过,认为不宜提 倡选择最少的实验次数,选择的试验次数³自变量个数的2 一3倍为妥。 • 笔者应用"均匀设计"法原发表过的论文中曾用过6个X 做10次试验的例子。现在看来试验次数略少了一点,建立 数学模型时感觉有某种困难。化工部沈阳化工研究院用我 们研制的“均匀设计软件包”作了一个5个X进行10次试 验的例子,效果良好,从现在的认识来看选12次试验效果 可能更好。
水平数与区间的选择
• 从这个实例可以看出,对于较为复杂的问题,自 变量分成多个等份,则可以较好地描述出客观存 在的规律,分得越细,描述得越好。反之,水平 数选得太少,描述规律不可能细腻。均匀设计的 特点是水平选得多,试验次数增加并不多。使用 均匀设计时,选用多个水平,揭示规律较好。
• 拟水平:在水平数选得较多时,有些因素可 以选得多些,由于试验条件的限制,某些因素水 平数不能选择大多,此时则要使用拟水平。选拟 水平时的原则是宜多不宜少,选的水平数越少则 均匀性越差。
• •
•
(二)水平数与区间的选择
• 水平数与区间的选择以能够实施为首要原则,水平数选得多些,区间 选得大些,容易描述复杂的规律。提示规律和运用规律是进行试验设 计的出发点和归宿。 • 规律是客观存在的,但有时它是体会得到,但摸不着看不见。规 律隐含在数据中,如何从数据中把规律提取出来,对科研人员来讲这 是个非常有用的实际问题。下面通过一个大家熟悉的例子来说明,区 间选得不同,提示出来的规律也不同,区间选得足够大时,才能看到 规律的全貌。在一个不太大的范围内,规律一般可描述正相关或负相 关,可用回归直线描述,线性关系为Y=B0+B1X。当然也有可能是二 次曲线,Y=B0+B1X +B2X· X。当B2>0.则是开口向上的二次曲线, B2<0是开口向下的曲线。再复杂一些,象滴定曲线,则属于三次曲 线,在某一点出现突变。在一般憎况下,在一个区间内有正相关、负 相关,又有开口向上和开口向下的曲线,如此复杂的机会一般不会大 多,如果这样复杂的规律都能描述和提示出来,那么对于揭示普通的 规律就更不成问题了。
试验次数与自变量个数的选择
• 特别说明一点,有些刊物上发表的均匀设计使用表中因 素数可安排得很多,如U5表最多可安排4个X,U7表最多 可安排6个X等,笔者认为这样使用欠妥。使用的均匀设计 表应以方开泰有关书为准。选用X的个数过多,在建模时 会发生困难。因为,用这种方法进行实验设计后要用多元 逐步回归建立数学模型,模型引入的变量模式个数最多为 试验次数减2。也就是说,安排4个X用U5表,倘若存在线 性和非线佐关系时,一次项有4个,二次项也有4个,总共 有8项,但建模时最多仅能引入三种变量模式,因此不可 能准确描述复杂的过程。而有的论文在使用U3表时安排 了4个自变量X,用U7表安排了6个X,笔者认为这种表与 方开泰教授最近出版的《均匀设计与均匀设计表》一书的 附表不一致。试验次数太少,信息量也相对少,不易实现 参数优化。我们在研制“均匀设计软件包”2.4版本时针 对上述情况进行锁定,不让用户、选择优秀的工艺路线。工艺路线良好是成功的前题,再采用先 进的试验设计可以少做 试验,而迅速地实现工艺参数优化.使经济技 术指标达到很高的水平。但参数组合不好,指标不高,可能导致放弃 该路线,使它被束之高阁,成为憾事。但是,工艺路线即使不是处于 最好水平,在这一基础进行工艺参数优化,仍可使经济技术指标有所 提高,达到更上一层楼的境界,或许还能发现某些新规律。 2、选择重要的因素,宜多不宜少。抓主要矛盾,问题可迎刃而 解。在主次难分时,可利用计算机在建立数学模型时将次要因素剔除。 对某些了解较多的因素,在进行试验设计时亦应引入,以便考察是否 与其它因素之间还存在交互作用,可深化认识,发现新规律。 3、选择因素的水平区间时宜宽不宜窄。水平区间选得窄,因素 的变化梯度小,有些特殊的规律难以发现。区间大,可在大的范围内 考察,容易发现整体规律。我们需要知道的是事物发展的全貌,而不 是局部,误用局部代替全貌有时是危险的。
(三)建立回归模型的注意事项
• 1.选变量模式时的原则是能用简单的描述就不用复杂的 描述,应首先选一次项和二次项,选交互项时应能解释其 物理意义。 2.建立模型时,变量引入的F临界值高些方程的稳 定性比较好。 3.建立模型时,引入的变量个数宜适宜,不宜过多, 这样可以突出主要矛盾,抓主要矛盾问题迎刃而解;引入 变量过多,有时只是在表面作文章,中看不中用,使回归 方程的预报能力下降。