关于均匀设计表的应用
军事医学科学院统计学教研室 张学中
摘要 对均匀设计表和正交表的使用方法进行比较,按五种优良性或均匀性准则对均匀设计表进行计算,从对计算结果的分析中得出使用时值得注意之点。为了用回归分析方法分析试验结果,建议采用条件数作为均匀性准则之一。关键词 均匀设计 多因素试验 条件数 均匀设计表
均匀设计文献比[1,2,4,5]中,已给出大量的均匀设计表及相配合的使用表。在用均匀设计方法设计试验时,需要根据自己的情况从中选出合适的表。本文与正交设计作比较,介绍选择和使用这些均匀设计表的体会和看法。 一.正交表和均匀设计表的比较 从表的结构和使用方法上看,正交表和均匀设计表是相似的,有过一些利用正交法设计实验经验的人,要注意均匀设计与它的差别: (1)正交表的“正交性”是严格确定的,每个正交表的信息矩阵条件数严格为1;均匀设计表及相配的使用表的“均匀性”则是相对的,甚至有不同的“均匀性标准”。因而不同作者算出的均匀表就不完全一样,[1]中的表与过去所发表过的[4,5,9]也不一样。实践证明,这些表都可以用,但千万要注意所选表的实验次数不能过少。 (2)正交试验的各因素实际水平的安排不一定是等间隔的[3];而直接按均匀设计表安排试验则要求各水平都是等间隔的,当实际上有不等间隔水平的因素时,最好把实际值代入表后再算算它的均匀性,与表中所附的均匀性函数值作比较、用不同拟水平法调整到最佳为止。 (3)对二水平的正交表,可将特定的列用于分析交互作用,三水平以上表的交互作用列总会有严重的混淆:均匀设计实验因素的交互作用的存在应通过增加实验次数或适当重复才能设定和进行分析,实验人员有很大选择余地。 二.条件数作为均匀性准则 根据均匀设计表及相配的使用表从因素空间选出所需试验的点集,称为设计矩阵X,它与其转量矩阵X´ 相乘,得到矩阵X´X称为信息矩阵。它的各特征根和特征向量,在回归分析和其它多元分析中有着极为重要的意义。而条件数则是把各特征很作为一个整体而定义出的一个量。条件指数(conditionindices)定义为:最大特征根与每个特征根比值的平方根。未退化的设计矩阵的条件指数数目等于因素数,显然最小一个条件指数为1,而其中最大的条件指数称为X´X的条件数(conditionnumber),有时也称为X的条件数。 当一个设计矩阵的条件数趋于无穷大,说明这些变量,包括常数项在内,是线性相关的:这一数值大,说明这些变量之间共线性强,使回归结果不移定,甚至使离开试验点的各估计值或予计值毫无意义。条件数大于10,认为有中等共线牲[10],它不仅说明按线性回归所得预计值不稳定,即它们的误差大,同时这也是一种不均匀:在这里,“均匀”指试验各点不处于同一条广义直线上的程度高:相反,如果各试验点近似在同一条线上,即说明在多维空间的分布接近是降维的,其不均匀的直觉意义是显然的。我们用BASIC和SAS编出程序,计算条件数,找出许多条件数趋于1的表,再以其它标准衡量也不坏,于是我们建议用条件数作为优良性或均匀性一个标准,判断和挑选均匀设计表及适合的拟水平办法。 三.关于有“*”号各表的稳定性问题通过大量计算和实际比较,不难看出,当因素数和试验次数都相同时,
[1]中所附的有“*”号各表的偏差明显要小,但稳定性不一定好,举例比较如表1。对于[1]中的*号表两个较大列数使用表的部分计算结果如表2。 表1 不同生成来源的均匀设计表的各种均匀函数的比较| 作者 | 设计表(23水平) | 4因素水平表 |
性能函数值 | ||||||
(设计表列号) |
D | UN | CN | SD | |||||
| Fang[1] | U23(2313) | 1 | 13 | 14 | 17 | 0.1930 | 0.9886 | 1.779 | 2377 |
| Fang[1] | U*23(237) | 1 | 7 | 13 | 19 | 0.1310 | 0.5702 | 2.25 | 2568 |
| Zhang[8] | U23(2322) | 1 | 9 | 19 | 20 | 1.0003 | 1.49 | 2219 | |
| Zhang[8] | U*23(238) | 1 | 5 | 11 | 17 | 0.5702 | 2.25 | 2568 | |
注: D-偏差;UN-均匀性偏差近似函数;CN-条件数平方;SD-最大邻差和
表2 有“*”号设计表的两个最大使用表条件数设计表行数 |
使用表列数 |
条件数平方 |
设计表行数 |
使用表列数 |
条件数平方 |
6 |
3 |
1.75 |
16 |
6 |
11.063 |
6 |
4 |
999999 |
16 |
7 |
999999 |
7 |
2 |
1.3333 |
17 |
3 |
1.2 |
7 |
3 |
999999 |
17 |
4 |
999999 |
8 |
3 |
3 |
18 |
6 |
6.3116 |
8 |
4 |
999999 |
18 |
7 |
8.5944 |
9 |
2 |
1 |
19 |
4 |
4 |
9 |
3 |
999999 |
19 |
5 |
999999 |
10 |
5 |
3.5353 |
20 |
5 |
5.7810 |
10 |
6 |
999999 |
20 |
6 |
9 |
11 |
2 |
1.0370 |
21 |
4 |
1.9664 |
11 |
3 |
999999 |
21 |
5 |
999999 |
12 |
6 |
5.5108 |
22 |
6 |
3.4927 |
12 |
7 |
999999 |
22 |
7 |
8.7176 |
13 |
3 |
2.2857 |
23 |
4 |
2.25 |
13 |
4 |
999999 |
23 |
5 |
999999 |
14 |
3 |
3.0120 |
24 |
6 |
6.0427 |
14 |
4 |
4.5 |
24 |
7 |
6.4014 |
15 |
4 |
1.7142 |
25 |
4 |
1.8216 |
15 |
5 |
999999 |
25 |
5 |
999999 |
从表
1可以看出,无“*”号表及其使用表的偏差明显大于相同行与列的“*”号表,但条件数无“*”号的要小,因而表的稳定性好。我们通过逐对进行比较,看出本例在[1]中有普遍性,但也有例外:表A1.30的7因素的设计条件数趋于无穷大。限于篇幅,本文没有列出更具体的计算结果,读者用几条SAS语句就可以算出来,如果用其他计算机语言编程计算,可参考[8]列出的各种均匀性函数值,须注意其中条件数是平方值。四.混合表的拟水平
我们从一个事例出发:一项试验的各因素实际上只有三水平,但从试验次数考虑,需要把它硬看作六个水平,可以有表3所列的几种办法来实现。
表3 混合表的拟水平办法| 因素 | 实际水平数 | 拟水平取值 | 拟水平办法 |
|||||
| 1 | 2 | 3 | 4 | 5 | 6 | |||
| 1 | 3 | 1 | 2 | 3 | 1 | 2 | 3 | 循环补成6 |
| 2 | 3 | 1 | 1 | 2 | 2 | 3 | 3 | 连续均衡重复补成6 |
| 3 | 3 | 1 | 2 | 2 | 2 | 3 | 3 | 不均衡重复补成6 |
按我们的计算,
[1]书中第149页几个四因素表不好用于线性全回归模型。 凭一些实际计算,得出因素1的拟水平法稳定性较好,但有时按其它方法也能选出按几种均匀性准则都更好的表。 文献[1]在附录11的混合表因为不是以条件数为准则,因而条件数有些比较大,例如,A2.211作为设计矩阵的条件数趋于无穷大。混合表的可能因素水平组合比均匀设计表及使用表的可能组合还多,因而关于产生混合表的理论和计算问题部有待深入研究解决。 五、更均匀的设计表我们国前收集到共计约有
70余篇应用均匀设计的文献,其中用到表U7(73)和U12(124)的较多。因此我们最近用新方法进行了详细计算,按五种均匀性标准[8]找到了更好的均匀设计表(表4,表5)。 表4.![]()
| 1 | 2 | 3 | |
1 |
3 |
7 |
4 |
2 |
6 |
6 |
6 |
3 |
2 |
1 |
5 |
4 |
1 |
5 |
2 |
5 |
4 |
2 |
7 |
6 |
5 |
4 |
1 |
7 |
7 |
3 |
3 |
表5.
1 |
2 |
3 |
4 |
|
1 |
9 |
6 |
3 |
5 |
2 |
6 |
12 |
5 |
1 |
3 |
12 |
8 |
1 |
11 |
4 |
8 |
3 |
11 |
7 |
5 |
3 |
5 |
7 |
2 |
6 |
5 |
1 |
2 |
4 |
7 |
1 |
11 |
4 |
10 |
8 |
11 |
7 |
10 |
9 |
9 |
7 |
2 |
9 |
6 |
10 |
2 |
4 |
6 |
12 |
11 |
4 |
10 |
12 |
8 |
12 |
10 |
9 |
8 |
3 |
到目前为止,寻找和证明最优设计用表的努力一直在进行着[11,12].正交设计,旋转设计,组合设计,D-最优设计等领域都按严格定义提供了一些表,然而,这类表可实用者的数量是很有限的。按照这些设计用表所设计出的试验做完以后,’在对结果进行分析时,还要求响应变量的分布满足一定条件,例如,通常要求响应和各因素效应之间关系是某种广义线性模型,……实际上这些都是未知的,难于严格做到。与此相对照,数量很大的,各种各样的均匀设计表却有可能适合于实际的因素一水平,并且比那些针对性强的严格用表对实际问题可能更有代表性。于是均匀设计思想一经提出,就受到实际工作者的欢迎,并被实践证明是一种有效的试验设计方法。我们深知,比我们这里所提的表4和表5更好的表是存在的,但从实际应用上说,最均匀的表又不一定有最好的回归效果。所以不受严格定义限制的各种均匀表却有广阔的实际用途。
六.正交表与均匀表的关系
正交表可以通过对均匀表进行拟水平得到。现举例说明。一个实际问题的因素-水平组表6。
| 实际水平1 | 实际水平2 | 实际水平3 | 实际水平4 | 实际水平5 | |
| 因素1 | 28 | 32 | 36 | 40 | 44 |
| 因素2 | 80 | 85 | 90 | 95 | 100 |
| 因素3 | 0.10 | 0.15 | 0.20 | 0.25 | 0.30 |
| 因素4 | 4 | 8 | 12 | 16 | 20 |
为了用均匀设计安排这一试验,可以选25水平四因素的均匀表U25(254)如表7[8],该表条件数平方为1.16.采用连续均衡重复办法拟水平后,得出实验安排为如表8,其条件数为1,恰好与用正交表
L25(54)安排的结果完全一样。
表7.1 |
2 |
3 |
4 |
1 |
11 |
16 |
21 |
2 |
22 |
7 |
17 |
3 |
8 |
23 |
13 |
4 |
19 |
14 |
9 |
5 |
5 |
5 |
5 |
6 |
16 |
21 |
1 |
7 |
2 |
12 |
22 |
| … | … | … | … |
22 |
17 |
2 |
12 |
23 |
3 |
18 |
8 |
24 |
14 |
9 |
4 |
25 |
25 |
25 |
25 |
表8.试验安排
| run | Factors |
|||
| 1 | 2 | 3 | 4 | |
| 1 | 28 | 90 | -25 | 20 |
| 2 | 28 | 100 | -15 | 16 |
| 3 | 28 | 85 | -3 | 12 |
| 4 | 28 | 95 | -2 | 8 |
| 5 | 28 | 80 | -1 | 4 |
| 6 | 32 | 95 | -3 | 4 |
| 7 | 32 | 80 | -2 | 20 |
| 8 | 32 | 90 | -1 | 16 |
| 9 | 32 | 100 | -25 | 12 |
| 10 | 32 | 85 | -15 | 8 |
| 11 | 36 | 100 | -1 | 8 |
| 12 | 36 | 85 | -25 | 4 |
| 13 | 36 | 95 | -15 | 20 |
| 14 | 36 | 80 | -3 | 16 |
| 15 | 36 | 90 | -2 | 12 |
| 16 | 40 | 80 | -15 | 12 |
| 17 | 40 | 90 | -3 | 8 |
| 18 | 40 | 100 | -2 | 4 |
| 19 | 40 | 85 | -1 | 20 |
| 20 | 40 | 95 | -25 | 16 |
| 21 | 44 | 85 | -2 | 16 |
| 22 | 44 | 95 | -1 | 12 |
| 23 | 44 | 80 | -25 | 8 |
| 24 | 44 | 90 | -15 | 4 |
| 25 | 44 | 100 | -3 | 20 |
我们用这种办法,对各种均匀设计表进行不同的拟水平处理,算出了不少正交表,因而推测:正交表是均匀设计表的特例,正交表可以通过这种办法方便地产生。
鸣谢 本文在写作过程中多次得到方开泰教授的帮助,并照他的宝贵意见进行了修改和补充。