数据分析作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数据处理与实验设计》考试答卷
1.答:根据题意,可用格鲁布斯法或者拉依达准则判断该可疑数据x p=8
2.6的
取舍。
法1:采用格鲁布斯法
①将浓度值按照从大到小顺序排列
59.9,60.3,60.4,61.4,63.5,64.8,65.7,67.8,68.9,69.4,70.6,73.6,74.1,
74.7,76.3,76.8,77.9,78.3,79.3,80.5,81.5,82.6
②计算包括可疑值82.6在内的平均值及标准偏差s:
=71.3,s=7.487
为可疑值,则
T=1.51
③查表可知T(0.05,22)=2.60:
T< T(0.05,22)=2.60
可疑数据x p=82.6不应该舍去。
法2:拉依达准则
①计算包括可疑值82.6在内的平均值及标准偏差s:
=71.3,s=7.487
②计算、2s和3s:
===11.3
2s=27.487=14.97
3s=27.487=22.46
③比较与2s和3s:
<3s且<2s
所以,依据拉依达准则,当显著性水平α=0.05和0.01时,可疑数据x p=82.6不应该舍去。
2.答:(1) 利用Excel工具对已知数据进行回归分析,利用“数据分析”中的“回归”功能,对x和y值之间进行回归分析,求得x与y值之间的相关系数r=0.843。
检验x与y值是否线性相关,有如下方法:
①相关系数检验法:
当α=0.05,n=10,m=1时,查得相关系数临界值r min=0.632。
所以,>r min,即当显著性水平α=0.05,x与y线性相关。
② F检验(方差分析):
根据以上的Excel表格的计算,可得方差分析表如下:
表1 方差分析表
差异源df SS MS F F0.05(1,8) 显著性回归 1 6.801515 6.801515 19.72537 5.3177 *
误差8 2.758485 0.344811
总和9 9.56
由于F> F0.05(1,8),所以,当显著性水平α=0.05,x与y线性相关,即x与y 有显著的线性关系。
③残差分析
由表1可知,残差平方和为=2.758485,所以,残差的标准差为:
题目所给测量值和预测值如下表所示:
表2 试验值与预测值表
年份1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
x 92 90 95 92 108 115 123 130 138 145
y 10.2 10 12 11.5 11 11.8 12.2 12.5 12.8 13
10.8 10.7 10.9 10.8 11.5 11.8 12.1 12.4 12.8 13.1
10.2 10.1 10.4 10.2 10.9 11.2 11.5 11.8 12.2 12.5
11.4 11.3 11.5 11.4 12.1 12.4 12.7 13.0 13.4 13.6
由表2可知,10个试验值y i均落在范围内,所以,x与y曲线拟合的很好。
(2) 利用Excel表格计算y与x之间的线性回归方程为:y=0.0423x+6.9288,且当x取150kg时,可得,y=6.9288+0.042315013.3 mg/L。
所以,每单位面积施肥150kg时,污水中的磷含量为13.3mg/L。
3.答:对试验结果进行统计分析,主要有两种方法:直观分析法和方差分析法。
本题中,由于无须考虑交互作用,不用估计误差的大小,可采用直观分析法:列出本题的试验方案及试验结果分析表:
表3 试验方案及试验结果分析表
1
K2262 232 235 233
K3207 214 219 216
k165.3 73.0 70.3 72.0
k287.3 77.3 78.3 77.7
k369.0 71.3 73.0 72.0
极差R 66 18 24 17
因素主→次A→B→C
优方案A2B2C2
极差R最大的那一列,即因素的水平对试验结果影响最大的因素,为最主要的因素。
由表3可知,由于R A>R B>R C,所以各因素从主到次的顺序为:A、B、C。
由题意可知,本例的指标为产率,故指标越大越好,确定最佳试验方案时,应挑选每个因素的K1,K2,K3(或k1,k2,k3)中最大的值对应的那个水平,由于:
A因素列:K2>K3>K1
B因素列:K2>K3>K1
C因素列:K2>K3=K1
所以,最佳试验方案为A2B2C2。
4.答:本题为对双因素无重复试验进行方差分析的问题。
A因素代表温度,B 因素代表PH值。
因素A的水平数r=4,i=1,2,3,4;因素B的水平数s=4,j=1,2,3,4;总试验次数n=rs=16,计算如表4所示:
表4 题4计算表
148 150 169 169 T=636
2
2190 4 2250
2856
1
2856
1
=10152
6
5602 5950 7565 7211 Q=2632
8
所以,离差平方和:
自由度:
均方:
F值:
从F分布表中查得,
,由于,,所以因素A,即温度对试验结果有非常显著的影响,而pH对试验结果没有显著的影响。
方差分析表见表5:
表5 方差分析表
5.答:(1) 建立回归方程:
试验次数n=8,因素数m=3。
本例要求用最小二乘法求出三元线性回归方程
中的系数a,,,。
进行相关计算,如表6所示:
表6 题5数据计算表
将表中的相关数据代入正规方程组,可得如下方程组:
解得:
a=97.3875,b1=-0.1175,b2=-0.1950,b3=-1.3375 于是,三元线性回归方程为:
(2) 方差分析及因素主次的确定:
由表6的数据和相关公式,可求得:
总平方和:
回归平方和:
偏回归平方和:
残差平方和:
得下表7所示的方差分析表:
表7 题5方差分析表
由于,,,
,由表7可以看出,因素X2对试验结果有显著性的影响,因素X1和X3对试验结果有非常显著的影响。
根据F j(j=1,2,3)的大小,可以知道三个因素的主次顺序为:X3>X1>X2,即初始浓度>温度>时间。
如果对偏回归系数进行标准化:
-
-
-
因标准回归系数越大,对应的因素越重要,所以因素的主次顺序为:
X3>X1>X2,这与上述的分析结果是一致的。
6.答:日粮能量为因素A,其水平数r=2,i=1,2;日粮蛋白质为因素B,其水平数s=2,j=1,2;在因素A,B的每种组合水平上重复试验次数c=7;总试验次数,先求出有关的和,如表8所示:
表8 题6有关和的计算表
所以,
又,
所以,
可得方差分析表:
表9 题6方差分析表
从F分布表中查得,,所以,只有因素A,即日粮能量对试验结果有非常显著性的影响,因素B和交互作用对试验结果的影响不显著。
7.答:(1)利用Design-Expert软件,采用中心组合设计(CCD)方法,可绘
制出相应的二阶响应面3D模型如下图所示:
(2)利用Design-Expert软件求得相应的拟合方程为:
式中,A——水量,%
B——C型絮凝剂,%
C——A型絮凝剂,%
Y——实际回收率,%
方差分析如下表:
表10 题7方差分析表
从上表可知,由于Model F值为4.95,P值=0.0099<0.01,所以该回归方程是非常显著的,对所给数据拟合的非常好;Lack of fit的F值有9.15,失拟的可能性仅有1.48%。
此外,由于只有AB的P值=0.0003<0.01,所以,只有AB的交互作用对试验结果有着非常显著性的影响。
(3)根据前面所交代的操作,可确定可能的最优实验条件:因素A(水量)为250%,因素B(C型絮凝剂)为14%,因素C(A型絮凝剂)为14%。
此时相应的预测回收率为78.76%。