资料回归分析-逐步回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

逐步回归分析

在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x 之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x 因子的筛选,这样建立的多元回归模型预测效果会更较好。

逐步回归分析,首先要建立因变量y 与自变量x 之间的总回归方程,再对总的方程及每—个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对y 影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。

回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。

逐步回归在病虫预报中的应用实例:

以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见DATA6.xls ),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。对1984~1995年的病情指数进行回检,然后对1996~1998年的病情进行预报,再检验预报的效果。

变量说明如下:

y :历年病情指数 x1:前年冬季油菜越冬时的蚜量(头/株) x2:前年冬季极端气温 x3:5月份最高气温 x4:5月份最低气温 x5:3~5月份降水量 x6:4~6月份降水量 x7:3~5月份均温 x8:4~6月份均温 x9:4月份降水量 x11:5月份均温

x12:5月份降水量

x13:6月份均温

x14:6月份降水量

x15:第一次蚜迁高峰期百株烟草有翅蚜量

x16:5月份油菜百株蚜量

x17:7月份降水量

x18:8月份降水量

x19:7月份均温

x20:8月份均温

x21:元月均温

x10:4月份均温

1)准备分析数据

在SPSS数据编辑窗口中,用“File→Open→Data”命令,打开“DATA6.xls”数据文件。数据工作区如下图3-1显示。

图3-1

2)启动线性回归过程

单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图3-2所示的线性回归过程窗口。

图3-2 线性回归对话窗口

3) 设置分析变量

设置因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。

设置自变量:将左边变量列表中的“x1”~“x21”变量,全部选移到“Independent(S)”自变量栏里。

设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。

选择标签变量: 选择“年份”为标签变量。

选择加权变量: 本例子没有加权变量,因此不作任何设置。

4)回归方式

在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。设置后的对话窗口如图3-3。

图3-3

5)设置变量检验水平

在图6-15主对话框里单击“Options”按钮,将打开如图3-4所示的对话框。

图3-4

“Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。

其中“Use probability of F”选项,提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置F检验概率时,应使进入值小于剔除值。

“Ues F value”选项,提供设置显著性F检验的分布值。如果一个变量的F 值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置F分布值时,应该使进入值大于剔除值。

本例子使用显著性F检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图6-17所示。

图6-17窗口中的其它设置参照一元回归设置。

6)设置输出统计量

在主对话图3-2窗口中,单击“Statistics”按钮,将打开如图6-18所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:

图3-5 “Statistics”对话框

①“Regression Coefficients”回归系数选项:

“Estimates”输出回归系数和相关统计量。

“Confidence interval”回归系数的95%置信区间。

“Covariance matrix”回归系数的方差-协方差矩阵。

本例子选择“Estimates”输出回归系数和相关统计量。

②“Residuals”残差选项:

“Durbin-Watson”Durbin-Watson检验。

“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:

“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;

“All cases”选择所有观测量。

本例子都不选。

③其它输入选项

“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA 表。

“R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。

“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。

“Part and partial correlation”相关系数和偏相关系数。

“Collinearity diagnostics”显示单个变量和共线性分析的公差。

相关文档
最新文档