如何使用统计软件SPSS进行回归分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

软件设计开发
本栏目责任编辑：谢媛媛
１引言
回归分析用来研究多个预报因子对预报量的影响程度，然后建立它们的统计关系的方程式，对未来时刻的预报量做出预报估计，是目前气象业务与研究中最为常用的一种统计分析与预报方法［１－８］。

逐步回归可从影响预报量的许多因子中，挑选出一批相关较好的作为预报因子，在气象业务中应用甚广［９－１１］。

回归分析在气象业务和研究中应用非常广，但该过程目前基本上都是编程来实现，编程复杂、易出错，基层气象工作者较难掌握不利于推广应用。

ＳＰＳＳ（ＳｔａｔｉｓｔｉｃａｌＰｒｏｄｕｃｔａｎｄＳｅｒｖｉｃｅＳｏｌｕｔｉｏｎｓ）意
为统计产品与服务解决方案，统计和数据分析功能强大，界面友好，易学易用，目前是非统计专业人员应用最多的统计软件
［１２－１３］。

ＳＰＳＳ提供了多种回归分析过
程，如Ｌｉｎｅａｒ（线性回归）、Ｎｏｎｌｉｎｅａｒ（非线性回归）、
ＣｕｒｖｅＥｓｔｉｍａｔｉｏｎ（曲线拟合）、ＢｉｎａｒｙＬｏｇｉｓｔｉｃ（二分类，
即事件概率回归）等。

本文简要介绍如何使用统计软件ＳＰＳＳ进行线性回归分析，为便于与传统编程方式对比，分析实例采用目前气象常用统计教科书中介绍“逐步回归分析”一节中的经典案例，逐步回归分析的原理和编程实现过程可参考文献［１－２］。

２线性逐步回归分析过程
首先根据表１建立数据文件，其中ｙ为预报量，
ｘ１、ｘ２、ｘ３和ｘ４为预报因子。

表１预报因子与预报量资料表
在ＳＰＳＳ菜单栏上选择Ａｎａｌｙｚｅ→Ｒｅｇｒｅｓｓｉｏｎ→
Ｌｉｎｅａｒ（图１左），则出现ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ（线性回归
分析）主对话框（图１右）。

将“ｙ”选入Ｄｅｐｅｎｄｅｎｔ（因变量）框中，“ｘ１”、“ｘ２”、“ｘ３”和“ｘ４”
选入Ｉｎｄｅｐｅｎｄｅｎｔ（自变量）框中，Ｍｅｔｈｏｄ框选择Ｓｔｅｐｗｉｓｅ（逐步回归）；Ｓａｖｅ子对话框中选择ＰｒｅｄｉｃｔｅｄＶａｌｕｅｓ下的Ｕｎｓｔａｎｄａｒｄｉｚｅｄ（将预报量的估计值另存为新变量），Ｏｐｔｉｏｎｓ子对话框选择ＵｓｅＦＶａｌｕｅ；其余默认，点ＯＫ，则得线性逐步
回归分析结果。

图１线性回归分析过程（左为Ｒｅｇｒｅｓｓｉｏｎ菜单；右为
ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ主对话框）
收稿日期：２００７－１２－１７
作者简介：罗凤明，男，工程师，主要从事网络维护，业务开发及服务工作。

如何使用统计软件ＳＰＳＳ进行回归分析
罗凤明，邱劲飚，李明华，肖炳坤（惠州市气象局，广东惠州５１６００１）
摘要：简要介绍如何使用统计软件ＳＰＳＳ进行线性回归分析，并给出了逐步回归分析实例。

使用ＳＰＳＳ进行回归分析操作简单且全面，与编程相比大大减小了难度、节约了时间。

关键词：计算机应用；ＳＰＳＳ；回归分析；逐步回归中图分类号：ＴＰ３１２
文献标识码：Ａ
文章编号：１００９－３０４４（２００８）０２－１０２９３－０２
ＨｏｗｔｏｄｏＲｅｇｒｅｓｓｉｏｎＡｎａｌｙｓｉｓｂｙＳｔａｔｉｓｔｉｃａｌＳｏｆｔｗａｒｅＳＰＳＳ
ＬＵＯＦｅｎｇ－ｍｉｎｇ，ＱＩＵＪｉｎ－ｂｉａｏ，ＬＩＭｉｎｇ－ｈｕａ，ＸＩＡＯＢｉｎ－ｋｕｎ（ＨｕｉｚｈｏｕＭｅｔｅｏｒｏｌｏｇｉｃａｌＳｔａｔｉｏｎ，Ｈｕｉｚｈｏｕ５１６００１，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：ＩｎｔｒｏｄｕｃｅｄｉｎｂｒｉｅｆｈｏｗｔｏｄｏｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓｂｙｓｔａｔｉｓｔｉｃａｌｓｏｆｔｗａｒｅＳＰＳＳ，ａｎｄｇａｖｅａｎｅｘ－ａｍｐｌｅｏｆｓｔｅｐｗｉｓｅｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓ．ＩｔｉｓｓｉｍｐｌｙａｎｄｒｏｕｎｄｌｙｔｏｄｏｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓｂｙＳＰＳＳ，ａｎｄｉｓｅａｓｉｅｒａｎｄｔｉｍｅｓａｖｉｎｇｃｏｍｐａｒｅｄｗｉｔｈｐｒｏｇｒａｍｍｅ．
Ｋｅｙｗｏｒｄｓ：ｃｏｍｐｕｔｅｒａｐｌｌｉｃａｔｉｏｎ；ＳＰＳＳ；ｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓ；ｓｔｅｐｗｉｓｅ
ｒｅｇｒｅｓｓｉｏｎ
ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ过程Ｍｅｔｈｏｄ单选框中提供了Ｅｎｔｅｒ（强制引进法）、Ｓｔｅｐｗｉｓｅ、Ｒｅｍｏｖｅ（强制剔除法）、Ｂａｃｋｗａｒｄ（逐步剔除法）和Ｆｏｒｗａｒｄ（逐步引进法）５种方法，Ｍｅｔｈｏｄ单选框与Ｂｌｏｃｋ按钮组的组合使用，可对引入的不同变量组进入回归方程的方法进行单独设置。

Ｓｔａｔｉｓｔｉｃｓ子对话框可供用户选择更多的输出统计量。

Ｐｌｏｔｓ子对话框中提供了散点图、标准化残差图等，主要用于残差序列的分析。

Ｓａｖｅ子对话框中提供了将预测值、残差等分析结果存为数据编辑窗口中新变量的功能，以便进一步分析。

Ｏｐｔｉｏｎｓ子对话框可供用户设置多元线性回归分析中纳入和排除的标准以及缺失值的处理方式。

３线性逐步回归分析结果
表２、表３和表４给出了线性逐步回归分析的部分结果。

表２给出了回归模型（方程）的拟合优度，表３给出了回归系数，表４给出了回归模型方差分析结果。

由表２、表３和表４可知：
回归方程１：ｙ!＝１１７．５６８－０．７３８ｘ４，Ｒ为０．８２１，校正的决定系数Ｒａ２为０．６４５，残差均方差σ!２为８０．３５２，回归方程和回归系数都通过了０．０１的显著性检验。

回归方程２：ｙ!＝１０３．０９７＋１．４４０ｘ１－０．６１４ｘ４，Ｒ为０．９８６，校正的决定系数Ｒａ２为０．９６７，残差均方差σ!２为７．４７６，回归方程和回归系数都通过了０．０１的显著性检验。

回归方程３：ｙ!＝７１．６４８＋１．４５２ｘ１＋０．４１６ｘ２－０．２３７ｘ４，Ｒ为０．９９１，校正的决定系数Ｒａ２为０．９７６，残差均方差σ!２为５．３３０，回归方程通过了０．０１的显著性检验，但预报因子ｘ２和ｘ４的回归系数未通过０．０５的显著性检验。

回归方程４：ｙ!＝５２．５７７＋１．４６８ｘ１＋０．６６２ｘ２，Ｒ为０．９８９，校正的决定系数Ｒａ２为０．９７４，残差均方差σ!２为５．７９０，回归方程和回归系数都通过了０．０１的显著性检验，该方程为“最优”回归方程，分析结果与参考文献一致。

应用统计学中逐步回归筛选自变量的准则，一般有残差平方准则和统计量显著性检验准则２种。

前者是将自变量个数与残差平方和的值结合起来（σ!２）考虑选取哪些自变量构造模型，但ＳＰＳＳ目前尚未提供该项功能；后者是通过对回归系数进行显著性检验，选择有统计学意义的自变量构成模型，ＳＰＳＳ目前支持该项功能。

而气象统计分析中常根据因子既显著、方程的残差均方差σ!２又最小的原则来挑选“最优”回归方程，此时可以对多个回归模型通过人工判断找出“最优”回归方程。

由上面的分析可知，回归方程２和方程４较好，其中方程４为“最优”回归方程，与参考文献的分析结果一致。

图２给出了预报量和预报方程２和方程４估计量的变化图。

由图２可知，预报量与预报方程２和方程４的估计量的变化趋势基本一致，２个回归方程拟合都较好。

表２ＭｏｄｅｌＳｕｍｍａｒｙ（回归模型拟合优度）
表３Ｃｏｅｆｆｉｃｉｅｎｔｓ（回归系数）
表４ＡＮＯＶＡ（回归模型方差分析结果）
图２预报量与预报方程的估计量变化图
由上面的回归分析过程可知，统计软件ＳＰＳＳ集数据处理、多种回归分析方法、回归检验、回归预测、残差分析和绘制图表等功能于一身，回归分析功能强大且易学易用。

使用统计软件ＳＰＳＳ进行回归分析非常简单，靠鼠标点击即可完成操作，同时利用Ｐａｓｔｅ键可将操作过程存为程序，方便下次直接调用，与教科书中提供的编程方法相比提供了更多回归分析功能、提高了方程的精度、且大大减小了操作难度、节约了时间。

参考文献：
［１］黄嘉佑．气象统计分析与预报方法［Ｍ］．第３版．北京：气象出版社，２００４：５８－７２．
（下转第３０４页）
（上接第２９４页）
［２］施能．气象科研与预报中的多元分析方法［Ｍ］．第２版．北京：气象出版社，２００２：４６－５５．
［３］林良勋．广东省天气预报技术手册［Ｍ］．北京：气象出版社，２００６．
［４］徐海量，陈亚宁．塔里木河下游荒漠化多元回归模型分析［Ｊ］．干旱区资源与环境，２００３，１７（４）：７８－８２．［５］李丽．用深层地温资料建立多元非线性回归方程预报韶关站前汛期降水量［Ｊ］．广东气象，２００３，２５（２）：８－９．［６］彭武坚．主分量逐步回归法在桂东南低温阴雨预报的应用［Ｊ］．广西气象，２００５，２６（Ｓ１）：４１－４４．
［７］孔宁谦，陈润珍．用统计动力方法作盛夏南海中北部热带气旋强度预报［Ｊ］．广西气象，２００６，２７（１）：４－５．
［８］唐毓勇，蒋国兴．均生函数残差预报模型在降水预报中的试验研究［Ｊ］．广西气象，２００６，２７（３）：５－８．［９］曾琮，陈创买．主分量逐步回归在气温预测中的应用［Ｊ］．中山大学学报：自然科学版，２００６，４５（４）：１０７－１１０．［１０］陈慧娴，黄露菁，陈创买．用逐步回归方法预报番禺年降水量［Ｊ］．广东气象，２００４，２６（４）：７－９．
［１１］彭端，黄天文，郭媚媚，等．用逐步回归模型预测肇庆市汛期降水［Ｊ］．广东气象，２００５，２７（２）：１６－１７．［１２］张文彤．ＳＰＳＳ１１统计分析教程（高级篇）［Ｍ］．北京：希望电子出版社，２００２．
［１３］张文彤．ＳＰＳＳ统计分析高级教程［Ｍ］．北京：高等教育出版社，２００４．
（１）计算信息系统Ｓ的区分矩阵Ｍ（Ｓ）；
（２）根据区分矩阵Ｍ（Ｓ）计算相关的区分函数ｆｍ（ｓ）；
（３）计算区分函数ｆｍ（ｓ）的最小析取范式，求出所有的约简。

下面给出基于区分矩阵的算法：
输入：一个目标决策系统Ｓ＝（Ｕ，Ａ，Ｖ，ｆ），其中Ｕ是论域，Ａ＝ＣＵＤ，Ｃ是条件属性集合，Ｄ是决策属性集合。

输出：Ｓ的属性约简及核属性。

（１）计算“Ｕ／ＩＮＤ（Ｃ），令Ｃｏｒｅ＝０，Ｒｅｄｕｃｔ＝０，ｎ＝｛Ｕ／ＩＮＤ（Ｃ）｝，定义一个ｎｘｎ的矩阵结构Ｍ（ｎ，ｎ），并令其所有元素为Ｏ；
（２）生成区分矩阵：
ｆｏｒｉ＝１ｔｏｎ｛
ｆｏｒｊ＝ｉ＋ｌｔｏｎ｛
ｆｏｒｋ＝１ｔｏ｜Ｃ｜｛
ｉｆＣｋ（Ｘｉ）≠Ｃｋ（Ｘｊ）ａｎｄＤ（Ｘｉ）≠Ｄ（Ｘｊ）ｔｈｅｎＭ（ｉ，ｊ）＝Ｍ（ｉ，ｊ）∪Ｃｋ
｝｝｝
（３）求约简及核值：
ｆｏｒｉ＝ｌｔｏｎ｛
ｆｏｒｊ＝ｉ＋１ｔｏｎ｛
ｉｆ｜Ｍ（ｉ，ｊ）｜＝１ｔｈｅｎＣｏｒｅ＝Ｃｏｒｅ∪Ｍ（ｉ，ｊ）
Ｒｅｄｕｃｔ＝Ｒｅｄｕｃｔ∩Ｍ（ｉ，ｊ）
｝｝
Ｃｏｒｅ为核值，Ｒｅｄｕｃｔ为约简。

该算法的优点是能够直接提取出规则，缺点是计算的复杂度高。

因此，只能处理非常小的数据。

考虑到区分矩阵算法复杂度的问题，从而提出了区分矩阵的简化方法。

所谓简化方法就是一边从信息系统中提取关于属性值是区分的属性并构成区分合取范式，一边做这种逻辑公式的等价变化，直接得到最小析取范式，从而避免生成区分矩阵的中间环节，最终达到节省空间和时间，降低约简算法复杂度。

当然建立在区分矩阵的基础上，还有很多改进算法，而且在一定程度上，都对算法复杂度有一定的降低。

另外，观察区分矩阵，不难发现，如果矩阵中存在元素，其取值只有单个属性元素，则表明该属性是区分所对于的两个样本所必须的属性，也是唯一能区分所对应的两个样本的属性，因此该属性就是核值属性。

所以，算法可以首先将这些属性取出加入到约简集中，并将其值修改为０，然后在用区分函数计算最小析取范式，最后再把所有核属性加入到析取范式中的每个合取项，最终得出约简结果。

４结束语
粗糙集是数据挖掘的有效工具，具有坚实的理论基础。

粗糙集理论自１９８２年由Ｐａｗｌａｋ提出以来，已在许多领域得到了应用。

但作为一种新事物，粗糙集在使用中也遇到了许多困难。

本文以粗糙集为理论基础，采用理论和实际结合的方法，研究了常见的粗糙集模型，以及基于其上的属性约简算法。

在研究过程中，立足理论，着眼于粗糙集在数据挖掘中的应用，并结合其它软计算方法，最终使算法具有较高的实用性和可扩展性。

参考文献：
［１］邵峰晶，于忠清．数据挖掘一原理与算法．北京：中国水利水电出版社，２００２．
［２］ＪｉａｗｅｉＨａｎ，ＭｉｃｈｅｌｉｎｅＫａｍｂｒ．数据挖掘概念与技术（影印版）．北京：高等教育出版社，２００１．
［３］王瑜，苗夺谦，周育健．关于ＲｏｕｇｈＳｅｔ理论与应用的综述．模式识别与人工智能，１９９６，９：３３７－３４４．［４］韩祯样，张琦，文福诊粗集理论极其应用综述．控制理论与应用，１９９９，４：３５－３９．。