如何使用统计软件SPSS进行回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
软件设计开发
本栏目责任编辑:谢媛媛
1引言
回归分析用来研究多个预报因子对预报量的影响程度,然后建立它们的统计关系的方程式,对未来时刻的预报量做出预报估计,是目前气象业务与研究中最为常用的一种统计分析与预报方法[1-8]。
逐步回归可从影响预报量的许多因子中,挑选出一批相关较好的作为预报因子,在气象业务中应用甚广[9-11]。
回归分析在气象业务和研究中应用非常广,但该过程目前基本上都是编程来实现,编程复杂、易出错,基层气象工作者较难掌握不利于推广应用。
SPSS(StatisticalProductandServiceSolutions)意
为统计产品与服务解决方案,统计和数据分析功能强大,界面友好,易学易用,目前是非统计专业人员应用最多的统计软件
[12-13]。
SPSS提供了多种回归分析过
程,如Linear(线性回归)、Nonlinear(非线性回归)、
CurveEstimation(曲线拟合)、BinaryLogistic(二分类,
即事件概率回归)等。
本文简要介绍如何使用统计软件SPSS进行线性回归分析,为便于与传统编程方式对比,分析实例采用目前气象常用统计教科书中介绍“逐步回归分析”一节中的经典案例,逐步回归分析的原理和编程实现过程可参考文献[1-2]。
2线性逐步回归分析过程
首先根据表1建立数据文件,其中y为预报量,
x1、x2、x3和x4为预报因子。
表1预报因子与预报量资料表
在SPSS菜单栏上选择Analyze→Regression→
Linear(图1左),则出现LinearRegression(线性回归
分析)主对话框(图1右)。
将“y”选入Dependent(因变量)框中,“x1”、“x2”、“x3”和“x4”
选入Independent(自变量)框中,Method框选择Stepwise(逐步回归);Save子对话框中选择PredictedValues下的Unstandardized(将预报量的估计值另存为新变量),Options子对话框选择UseFValue;其余默认,点OK,则得线性逐步
回归分析结果。
图1线性回归分析过程(左为Regression菜单;右为
LinearRegression主对话框)
收稿日期:2007-12-17
作者简介:罗凤明,男,工程师,主要从事网络维护,业务开发及服务工作。
如何使用统计软件SPSS进行回归分析
罗凤明,邱劲飚,李明华,肖炳坤(惠州市气象局,广东惠州516001)
摘要:简要介绍如何使用统计软件SPSS进行线性回归分析,并给出了逐步回归分析实例。
使用SPSS进行回归分析操作简单且全面,与编程相比大大减小了难度、节约了时间。
关键词:计算机应用;SPSS;回归分析;逐步回归中图分类号:TP312
文献标识码:A
文章编号:1009-3044(2008)02-10293-02
HowtodoRegressionAnalysisbyStatisticalSoftwareSPSS
LUOFeng-ming,QIUJin-biao,LIMing-hua,XIAOBin-kun(HuizhouMeteorologicalStation,Huizhou516001,China)
Abstract:IntroducedinbriefhowtodolinearregressionanalysisbystatisticalsoftwareSPSS,andgaveanex-ampleofstepwiseregressionanalysis.ItissimplyandroundlytodoregressionanalysisbySPSS,andiseasierandtimesavingcomparedwithprogramme.
Keywords:computerapllication;SPSS;regressionanalysis;stepwise
regression
LinearRegression过程Method单选框中提供了Enter(强制引进法)、Stepwise、Remove(强制剔除法)、Backward(逐步剔除法)和Forward(逐步引进法)5种方法,Method单选框与Block按钮组的组合使用,可对引入的不同变量组进入回归方程的方法进行单独设置。
Statistics子对话框可供用户选择更多的输出统计量。
Plots子对话框中提供了散点图、标准化残差图等,主要用于残差序列的分析。
Save子对话框中提供了将预测值、残差等分析结果存为数据编辑窗口中新变量的功能,以便进一步分析。
Options子对话框可供用户设置多元线性回归分析中纳入和排除的标准以及缺失值的处理方式。
3线性逐步回归分析结果
表2、表3和表4给出了线性逐步回归分析的部分结果。
表2给出了回归模型(方程)的拟合优度,表3给出了回归系数,表4给出了回归模型方差分析结果。
由表2、表3和表4可知:
回归方程1:y!=117.568-0.738x4,R为0.821,校正的决定系数Ra2为0.645,残差均方差σ!2为80.352,回归方程和回归系数都通过了0.01的显著性检验。
回归方程2:y!=103.097+1.440x1-0.614x4,R为0.986,校正的决定系数Ra2为0.967,残差均方差σ!2为7.476,回归方程和回归系数都通过了0.01的显著性检验。
回归方程3:y!=71.648+1.452x1+0.416x2-0.237x4,R为0.991,校正的决定系数Ra2为0.976,残差均方差σ!2为5.330,回归方程通过了0.01的显著性检验,但预报因子x2和x4的回归系数未通过0.05的显著性检验。
回归方程4:y!=52.577+1.468x1+0.662x2,R为0.989,校正的决定系数Ra2为0.974,残差均方差σ!2为5.790,回归方程和回归系数都通过了0.01的显著性检验,该方程为“最优”回归方程,分析结果与参考文献一致。
应用统计学中逐步回归筛选自变量的准则,一般有残差平方准则和统计量显著性检验准则2种。
前者是将自变量个数与残差平方和的值结合起来(σ!2)考虑选取哪些自变量构造模型,但SPSS目前尚未提供该项功能;后者是通过对回归系数进行显著性检验,选择有统计学意义的自变量构成模型,SPSS目前支持该项功能。
而气象统计分析中常根据因子既显著、方程的残差均方差σ!2又最小的原则来挑选“最优”回归方程,此时可以对多个回归模型通过人工判断找出“最优”回归方程。
由上面的分析可知,回归方程2和方程4较好,其中方程4为“最优”回归方程,与参考文献的分析结果一致。
图2给出了预报量和预报方程2和方程4估计量的变化图。
由图2可知,预报量与预报方程2和方程4的估计量的变化趋势基本一致,2个回归方程拟合都较好。
表2ModelSummary(回归模型拟合优度)
表3Coefficients(回归系数)
表4ANOVA(回归模型方差分析结果)
图2预报量与预报方程的估计量变化图
由上面的回归分析过程可知,统计软件SPSS集数据处理、多种回归分析方法、回归检验、回归预测、残差分析和绘制图表等功能于一身,回归分析功能强大且易学易用。
使用统计软件SPSS进行回归分析非常简单,靠鼠标点击即可完成操作,同时利用Paste键可将操作过程存为程序,方便下次直接调用,与教科书中提供的编程方法相比提供了更多回归分析功能、提高了方程的精度、且大大减小了操作难度、节约了时间。
参考文献:
[1]黄嘉佑.气象统计分析与预报方法[M].第3版.北京:气象出版社,2004:58-72.
(下转第304页)
(上接第294页)
[2]施能.气象科研与预报中的多元分析方法[M].第2版.北京:气象出版社,2002:46-55.
[3]林良勋.广东省天气预报技术手册[M].北京:气象出版社,2006.
[4]徐海量,陈亚宁.塔里木河下游荒漠化多元回归模型分析[J].干旱区资源与环境,2003,17(4):78-82.[5]李丽.用深层地温资料建立多元非线性回归方程预报韶关站前汛期降水量[J].广东气象,2003,25(2):8-9.[6]彭武坚.主分量逐步回归法在桂东南低温阴雨预报的应用[J].广西气象,2005,26(S1):41-44.
[7]孔宁谦,陈润珍.用统计动力方法作盛夏南海中北部热带气旋强度预报[J].广西气象,2006,27(1):4-5.
[8]唐毓勇,蒋国兴.均生函数残差预报模型在降水预报中的试验研究[J].广西气象,2006,27(3):5-8.[9]曾琮,陈创买.主分量逐步回归在气温预测中的应用[J].中山大学学报:自然科学版,2006,45(4):107-110.[10]陈慧娴,黄露菁,陈创买.用逐步回归方法预报番禺年降水量[J].广东气象,2004,26(4):7-9.
[11]彭端,黄天文,郭媚媚,等.用逐步回归模型预测肇庆市汛期降水[J].广东气象,2005,27(2):16-17.[12]张文彤.SPSS11统计分析教程(高级篇)[M].北京:希望电子出版社,2002.
[13]张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004.
(1)计算信息系统S的区分矩阵M(S);
(2)根据区分矩阵M(S)计算相关的区分函数fm(s);
(3)计算区分函数fm(s)的最小析取范式,求出所有的约简。
下面给出基于区分矩阵的算法:
输入:一个目标决策系统S=(U,A,V,f),其中U是论域,A=CUD,C是条件属性集合,D是决策属性集合。
输出:S的属性约简及核属性。
(1)计算“U/IND(C),令Core=0,Reduct=0,n={U/IND(C)},定义一个nxn的矩阵结构M(n,n),并令其所有元素为O;
(2)生成区分矩阵:
fori=1ton{
forj=i+lton{
fork=1to|C|{
ifCk(Xi)≠Ck(Xj)andD(Xi)≠D(Xj)thenM(i,j)=M(i,j)∪Ck
}}}
(3)求约简及核值:
fori=lton{
forj=i+1ton{
if|M(i,j)|=1thenCore=Core∪M(i,j)
Reduct=Reduct∩M(i,j)
}}
Core为核值,Reduct为约简。
该算法的优点是能够直接提取出规则,缺点是计算的复杂度高。
因此,只能处理非常小的数据。
考虑到区分矩阵算法复杂度的问题,从而提出了区分矩阵的简化方法。
所谓简化方法就是一边从信息系统中提取关于属性值是区分的属性并构成区分合取范式,一边做这种逻辑公式的等价变化,直接得到最小析取范式,从而避免生成区分矩阵的中间环节,最终达到节省空间和时间,降低约简算法复杂度。
当然建立在区分矩阵的基础上,还有很多改进算法,而且在一定程度上,都对算法复杂度有一定的降低。
另外,观察区分矩阵,不难发现,如果矩阵中存在元素,其取值只有单个属性元素,则表明该属性是区分所对于的两个样本所必须的属性,也是唯一能区分所对应的两个样本的属性,因此该属性就是核值属性。
所以,算法可以首先将这些属性取出加入到约简集中,并将其值修改为0,然后在用区分函数计算最小析取范式,最后再把所有核属性加入到析取范式中的每个合取项,最终得出约简结果。
4结束语
粗糙集是数据挖掘的有效工具,具有坚实的理论基础。
粗糙集理论自1982年由Pawlak提出以来,已在许多领域得到了应用。
但作为一种新事物,粗糙集在使用中也遇到了许多困难。
本文以粗糙集为理论基础,采用理论和实际结合的方法,研究了常见的粗糙集模型,以及基于其上的属性约简算法。
在研究过程中,立足理论,着眼于粗糙集在数据挖掘中的应用,并结合其它软计算方法,最终使算法具有较高的实用性和可扩展性。
参考文献:
[1]邵峰晶,于忠清.数据挖掘一原理与算法.北京:中国水利水电出版社,2002.
[2]JiaweiHan,MichelineKambr.数据挖掘概念与技术(影印版).北京:高等教育出版社,2001.
[3]王瑜,苗夺谦,周育健.关于RoughSet理论与应用的综述.模式识别与人工智能,1996,9:337-344.[4]韩祯样,张琦,文福诊粗集理论极其应用综述.控制理论与应用,1999,4:35-39.。