SAS和R在正交设计分析中应用效果比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS和R在正交设计分析中应用效果比较
高志永
【摘要】为对比SAS和R在正交分析的应用效果,本文借助已有正交试验数据,利用SAS和R分析作物密度、滴水量、施肥量对籽棉产量影响。
结果表明,SAS 分析作物密度、滴水量、施肥量均对籽棉产量影响极显著,而R分析仅作物密度对籽棉产量影响显著,通过对二者的比较,两者均能应用到正交分析中,但SAS 编程简单,易于掌握,而且分析全面,应用效果较好。
%In order to compare the application effects of SAS and R in orthogonal analysis ,with orthogonal experimental data , this paper analyzed the effect of cropping intensity ,drip irrigation ,and fertilizer on cotton yield using SAS and R .The result of SAS analysis showed that cropping intensity ,drip irrigation ,and fertilizer had very significant impact on cotton yield ,but re‐sult of R analysis indicated that cropping intensity had great impact on cotton yield .Through the comparison between the two , SAS programming is simple ,easy to master ,and is a comprehensive analysis with good applying effect .
【期刊名称】《杨凌职业技术学院学报》
【年(卷),期】2016(015)003
【总页数】3页(P43-44,48)
【关键词】方差分析;SAS;R
【作者】高志永
【作者单位】杨凌职业技术学院,陕西杨凌712100; 中国有色金属工业西安勘察
设计研究院,陕西西安 710000
【正文语种】中文
【中图分类】S11+4
新疆作为我国大面积旱地种棉基地,自1996年在新疆石河子地区试验了膜下滴灌技术,其成效显著,目前滴灌面积达67万公顷以上[1]。
棉花的产量与当地人民群众的经济收入息息相关。
对于广大人民群众而言,其最关心的是如何能够少施肥、少灌水,以减少相应的成本投入而获得较大的收益。
针对以上问题,富飞等[2]采
用正交设计方法对滴水量、施肥量和种植密度进行了分析,并采用了方差分析和极差法通过计算,选取最优组合。
正交设计中要进行大量计算,为提高计算效率和准确性,本文利用已有正交试验数据,并借助应用广泛的SAS和R软件编程分析,
通过对比软件的应用效果,找出易于使用的软件,为正交分析提供参考。
R是一套完整的数据处理、计算和制图软件系统。
与其说R软件是一种统计软件,还不如说R软件是一种数学计算环境。
因为R软件提供了有弹性的、互动的环境
来分析和处理数据;它提供了若干统计程序包,以及一些集成的统计工具和各种数学计算、统计计算的函数。
使用R软件可以简化数据分析过程,从数据的存取,
到计算结果的分享,R软件提供更加方便的计算工具,帮助用户更好地决策[3]。
SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及
多变数分析的多种统计分析过程,几乎囊括了所有最新分析方法,其分析技术先进,可靠。
分析方法的实现通过过程调用完成。
许多过程同时提供了多种算法和选项。
SAS以一个通用的数据(DATA)步产生数据集,尔后以不同的过程调用完成各种数
据分析。
其编程语句简洁,短小,通常只需很小的几句语句即可完成一些复杂的运算,得到满意的结果[4]。
正交试验方法是挑选部分有代表性的水平组合进行试验,对比部分试验结果,以达到
了解全面试验的目的,从而找出最优化水平组合,为生产实践服务。
试验中把所要考
察的结果称为指标,把对试验指标可能有影响的因素简称为因素,把每个因素在正交
试验中要比较的具体条件称为水平[3]。
因此,正交试验设计减少了试验成本的投入,同时又具有代表性。
本试验采用三因素,基于已有的正交表,故选水平为三水平,见表1,利用正交表L9(34),对其正交设计,试验数据[2]见表2。
方差分析必须满足三个基本假设,即效应的可加性、分布的正态性和方差的同质性。
因此,在方差分析前应进行分布的正态性和方差的同质性检验。
正态性检验用夏皮罗-威尔克(Shapiro-Wilk)法[4],由运算可知夏皮罗-威尔克正态性检验统计量为0.908796,检验的显著性概率值为0.3075,在0.05的水平下,即认为籽棉产量服从正态分布。
方差齐性是指各个处理的方差相等,由于本试验各个处理只有一组数据,因此,各个处理的数学期望等于数据本身,则各个处理的方差均为零,所以必为齐性。
在满足基本假设的条件下,利用SAS中的方差分析功能,根据正交试验设计方案
进行方差分析,运行结果表明,作物密度、滴水量、肥料均对籽棉产量影响极显著(P<0.0001);即密度、滴水量、肥料各自的3个因素之间存在差异。
为了选出作
物密度、滴水量、肥料的最优组合,则需对各因素进行多重比较,本文选用新复极差法,以便挑选出最优水平。
新复极差测验结果表明,种植密度的3个水平差异
性均显著(p<0.05),选择种植密度为22.5万株/ha。
作物的种植密度不易过密,
过密种植会大量消耗农田土壤水分,使得表层土壤含水量下降,甚至达到凋萎系数。
滴水量的水平2与水平1,水平3与水平1差异均显著,而水平2与水平3差异
不显著,对滴水量选取水平2,即滴水量为330 mm。
棉花灌水太多易形成无效水,以蒸发形式损失,同时,太多的水促使棉花的茎叶迅速增长,籽棉数量减少;反之,如果灌水太少,无法满足棉花的生长需水量,促使植株之间竞争加剧,影响
产量。
施肥量的各水平间无显著差异,为了节省投资,则选用施肥量为1 875
kg/ha。
正态性检验用夏皮罗-威尔克(Shapiro-Wilk)法,由运算可知夏皮罗-威尔克正态性检验p值为0.3075,大于0.05,即认为籽棉产量服从正态分布。
方差齐性是指各个处理的方差相等,由于本试验各个处理只有一组数据,因此,各个处理的数学期望等于数据本身,则各个处理的方差均为零,所以必为齐性。
在满足基本假设的条件下,利用R中的方差分析函数(anova函数),根据正交试验设计方案进行方差分析,运行结果显示,仅有作物密度对籽棉产量影响显著,滴水量和施肥量对籽棉产量影响不显著。
为选出最优的组合,本文采用求因素物密度(A)、滴水量(B)、施肥量(C)各水平的均值,然后通过对比与实际相结合的方法确
定最优组合。
图1为各水平组合条件下籽棉产量均值图,从图1表明,A2B2C1为最优组合,
新疆地区棉花适宜种植密度为22.5万株/ha,滴水量为330 mm,施肥量为1
875 kg/ha。
西北地区干旱少雨,水是影响作物产量的主要因素,而作物的种植密度在一定程度上与耗水量紧密相关。
作物种植的太稠密,大量消耗农田土壤水分,农田土壤水分的缺失,使得作物竞争加剧。
如果种植稀疏,籽棉产量相对下降,影响农民的经济收入。
土壤肥力与土壤水分相互作用,影响着彼此的效果和籽棉产量。
如果土壤肥力过高,土壤水的溶质势增加,植株根系无法吸收并维持生长和生理所需要的水分,会出现萎蔫死亡的现象,土壤肥力过低,则会直接影响籽棉的产量。
综上分析,选用棉花种植密度22.5万株/ha,滴水量为330 mm,施肥量为1
875 kg/ha为宜。
(1)正态分析中,SAS和R软件均用到了夏皮罗-威尔克(Shapiro-Wilk)正态性检验,但各自的表现形式有所不同。
(2)在方差分析中,SAS只需输入几个相对格式化的编程即可实现因素间的显著性
检验和同一因素不同水平间的多重比较。
R需要大量的编程,调运较多相关函数,在aov()函数中并没有包含多重比较函数,只有通过调运Pairwise.t.test()函数另行编程,才能进行多重比较。
(3)单组数据致使方差齐性,虽然减少了运算量,但在试验过程中,由于数据的单一而未重复,使得随机误差增加,难以全面的反映事物间的本质。
(4)方差分析过程中需要若干条件才能成立,有时我们所采集的数据常常不能满足这些条件。
对于两样本比较时,我们不妨将数据转化为秩统计量,这样可以摆脱总体分布的约束[5,6]。