SPSS统计分析-第7章 回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• • •
• • •
7.1.3 回归分析的基本步骤
• • • • •
具体地说,回归分析的一般过程分成四步,分别是: (1)提出回归模型的假设 (2)获取数据 (3)建立回归方程 (4)回归方程的检验
7.2 一元线性回归分析
• 想要了解两个变量之间的因果关系,可用一元线性回归分
析来得出,例如要知道雏鸭的重量对50日龄鸭的重量的影 响,只要收集到相关的数据就可建立回归模型,从而由雏 鸭的重量大致推断出50日龄鸭的重量,一下将对一元线性 回归做详细介绍。
(9)在“线性回归”主对话框中单击“选项”按钮,打开如下 图所示的“线性回归:选项”子对话框。此子对话框的功能 在于界定采用逐步回归分析法时,选择进入回归方程式的自 变量的准则,以及是否输出常数项(截距)等。在回归分析 程序中,该子对话框中的选项保持程序默认的就可以,不用 更改。单击“继续”按钮,回到主对话框。
(6)单击“统计量”按钮,打开如下图所示的“线性回归:统 计量”子对话框。该对话框中设置要输出的统计量。这里勾 选“估计”、“模型拟合度复选框”。单击“继续”按钮, 回到“线性回归”主对话框中。
(7)单击“绘制”按钮,打开如下图所示的“线性回归:图” 子对话框,在“线性回归:图”子对话框中的“标准化残差 图”选项组中勾选“正态概率图”复选框,以便对残差的正 态分布进行分析。单击“继续”按钮回到“线性回归”主对 话框。
7.3.2 各种回归分析方法的实例分析
• 接下来会举三个例子来分别说明“强迫选入法”、“逐步
回归法”和“阶层多元回归法”是如何运用的。
• 【例7.2】强迫选入法:某医院的一位优秀的男医生,想
研究男性胃癌患者发生术后院内感染的影响因素,在研究 了多名病人之后,他得到了数据资料,请通过多元线性回 归统计方法找出哪些因素是对术后感染产生影响的。其中 数据资料如下页所示。
7.1.2 回归分析的对数据的要求
• 要进行回归分析,对数据是有一定的要求的,有学者提出
了,在应用多元回归时,所分析的数据必须符合以下基本 假定: (1)正态性假定 (2)因变量的各个观察值之间必须是相互独立的。 ( 3)各个自变量之间不能有多元共线性关系,也就是说 各个自变量彼此之间不能有较高的相关(相关系数大于 0.700)。 (4)线性关系 (5)各个残差之间相互独立假定 (6)残差的等分散性假定
(5)在“线性回归”主对话框的右上方,单击“统计量”按钮, 弹出如下所示的“线性回归:统计量”对话框。
(6)上面的对话框中,在“回归系数”选项组中勾选“估计” 复选框,勾选“模型拟合度”、“R方变化”、“描述性”、 “共线性诊断”等复选框,在“残差”选项组中勾选 “Durbin-Watson(U)”复选框。单击“继续”按钮,回到 “线性回归”主对话框中。
(5)残差统计量 • 如下表所示为残差统计量,其中包括“预测值”、“残 差”、“标准化预测值”和“标准化残差”的描述性统计 量(“最小值”、“最大值”、“平均数”、“标准差” 和“个数”),“预测值”的最小值为 2319.158 ,最大值 为 3187.645 ,平均值为 2720.833 ,标准差为 268.724. 由于 本例是为了方便说明回归分析的操作步骤,所以选取的样 本量较少,实际研究中取样应多一些为好,这样会让回归 分析方程更加稳定有效。
• 事物或现象之间的相互依存关系大致可分成两种,一种是
函数关系,是一种确定性的关系,即一个事物或现象的数 值发生变化是,与其相关的事物或现象的数值也发生着相 对应变化。还有一种是相关关系,是指事物或现象之间确 实存在的一定的关系,但是这种关系又不能用固定的因果 关系来描述。与此同时,虽然相关关系并不是确定的,但 是从概率学的意义上来说, 类的关系我们可以使用相关分析和回归分析来描述,接下 来将详细介绍回归分析。
(9) 在“线性回归”主对话框中,单击“确定”按钮,运行 SPSS程序。
2.强迫选入法结果解释 (1)描述性统计:如下图所示为 SPSS 输出的关于 1 个因变量和 6 个自变量的描述性统计,其中包含“平均数”、“标准差”和 “个数”。
(2)相关矩阵:下表为7个变量之间的积差相关矩阵,以及相关 系数显著性检验的概率值( P 值)矩阵、有效样本个数(其作 用不大,故在此处略去)。根据分析可知,“营养状态”和 “手术创伤程度”这两个变量之间可能存在共线性问题,其他 自变量之间均呈中低程度相关。
(8)单击“保存”按钮,在弹出如下图所示的“线性回归:保 存”子对话框右侧的“残差”选项组中,勾选“未标准化” 复选框,这样可以在数据文件中生成一个变量名为 res_1的残 差变量,以便对残差进行进一步分析。“线性回归:保存” 子对话框的功能在于将回归分析的各种结果所得到的各种预 测值、残差值,以及相关统计量都以一个新变量名称增列在 “SPSS数据编辑程序”窗口中。 • 该子对话框是将一些数据收集起来以便进一步的分析,在 一般的实际应用中,此子对话框应用的机会比较少。单击 “继续”按钮,回到“线性回归”主对话框。
• 所以根据不同的,可以从不同的角度去分析变量之间的关
系,当只是要知道变量之间的关系的密切程度时,一般可 以同过求变量间的相关系数得到相关信息,这个过程就叫 相关分析。但是如果研究的目的是要确定变量之间数量关 系的可能形式,找出变量之间的依存关系的合理的数学模 型,用数学模型来表示变量之间的关系,这就叫回归分析。
(5)方差分析:如下表所示为回归模型方差分析的摘要表。
(6)回归系数显著性检验:以上方差分析结果只能大致说明该 模型是否合理,但是要知道各个自变量的回归系数是否在统计 学意义上显著,还要看回归系数的 t 检验。在下表中可以看到 结果。
(4)回归系数 • 如下表所示为回归模型的回归系数及回归系数的显著性差 异,包括为标准化的回归系数、未标准化的回归系数、回 归系数的显著性的t值。标准化回归系数的绝对值越大,表 示该预测变量对因变量的影响越大,其解释因变量的变异 量也就会越大。从表中可以得到为标准化的回归方程: 50日龄鸭重=582.185+21.712*雏鸭重
7.3 多元线性回归分析
• 自然界的万事万物都是相互联系和关联的,所以一个因变
量往往同时受到很多个自变量的影响。如本章开篇时讲到 的那个例子,男性胃癌患者发生术后院内感染的影响因素 有很多,如年龄、手术创伤程度、营养状态、术前预防性 抗菌、白细胞数以及癌肿病理分度。这时我们如果要更加 精确的、有效的预测男性胃癌患者发生术后院内感染的具 体情况这个因变量,就必须引入多个自变量,建立多元回 归模型。
(7)在“线性回归”主对话框的右上方,单击“绘制”按钮, 弹出如下所示的“线性回归:图”对话框。
(8)在上面的对话框中,选择左侧的“*ZPRED”(标准化预测 值),选入右侧的 X2(X) 文本框中;选择左侧的“ *ZRESID ” (标准化的残差值),选入右侧的Y(Y)文本框中。在“标准化 残差图”选项组中,勾选“直方图”和“正态概率图”复选框。 单击“继续”按钮,回到“线性回归”主对话框中。
4
2 1 2 4 2 3 4 1 2 1 3 3 1
2
1 1 1 3 2 2 3 1 2 1 2 1 2
无
无 有 有 有 有 无 有 有 无 有 有 有 有
4.3
9.6 10.9 9.9 6.9 3.0 7.0 8.0 5.8 9.2 8.3 5.4 4.5 12.6
5
4 6 5 5 5 6 7 4 6 7 5 3 4
(3)选入/删除的变量:下表为在回归分析时使用的方法及选入 和删除的变量。
(4)模型摘要:下表所示为回归模型的一些基本信息,每个模 型中包括“多元相关系数R”、“多元相关系数R平方”、“调 整后的R平方”以及“估计标准误”,其中还包括5个变更统计 量,分别是R平方的改变量、F改变、分子自由度、分母自由度、 显著性F改变,最后还有一个Durbin-Waston检验。
7.2.1 一元线性回归的基本概念
源自文库
• 当只探究一个自变量和一个因变量之间的数学关系,同时 •
两变量之间为线性关系时,所建立的回归模型为一元线性 回归模型,可用如下公式表示: Y = bX +a
7.2.2 实例分析:雏鸭体重与日龄
• 【例7.1】在安徽的白鸭的生长情况研究中,得到如下一
组关于雏鸭重(g)与50日龄鸭重(g)的数据,试建立50 日龄鸭重(y)与雏鸭重(x)的线性回归方程。
1.强迫选入法操作过程 (1)建立数据文件:首先将上表中所有关于术后感染影响因素 资料的数据输入到SPSS中,输入格式和数据文件如图所示:
(2)选择“分析”|“回归” |“线性”命令,打开“线性回归” 主对话框,如下图所示:
(3) 在“线性回归”主对话框左侧的变量列表框中选中变量 “术后感染”,将其移入右侧的“因变量”文本框中。 (4)在“线性回归”主对话框左侧的变量列表框中分别选中变 量“年龄”、“手术创伤程度”、“营养状态”、“术前预防 性抗菌”、“白细胞数”和“癌肿病理分度”,将它们选入右 侧的“自变量”列表框中。在中间的“方法”文本框系统默认 是“进入”选项,无需修改。
(10) 在“线性回归”主对话框中,单击“确定”按钮,完成 SPSS操作,输出结果。
2、结果分析 (1)选入和删除的变量 • 在本例中,只有一个自变量“雏鸭重”,所以如下表所示, 在选入的变量中只有“雏鸭重”,没有删除的变量,使用 的方法是“选入”。
•
(3)方差分析 • 如下表所示为回归模型的方差分析摘要表,其中的变异量 显著性检验的 F 值为 213.808 ,显著性检验的 p 值为 0.000 , 小雨 0.05 的显著水平,表示回归模型整体解释变异量达到 显著水平。也就是说回归系数不等于0,即预测变量会达到 显著水平。
7.3.1 多元线性回归的基本概念
• 多元回归模型是指含有两个或者两个以上的自变量的线性 • •
• • • •
回归模型,用于揭示因变量与多个自变量之间的线性关系。 多元回归的方程式为: Y=b0+b1X1+b2X2+„biXi 以下呈现的是在计算多元回归模型时一般采用的几种方法 以及方法的选择: (1)逐步回归法 (2)强迫进入法 (3)阶层回归分析法 (4)方法的选择
术后感染 年龄 手术创伤程度 营养状态 术后预防性抗菌 (有无) (岁) (5等级) (3等级) (有无) 有 70 5 3 无
白细胞数 (*109/ L) 5.5
癌肿病理分度 (TNM得分总和) 10
有
无 无 无 有 无 有 有 无 无 无 无 无 无
71
56 40 33 68 56 53 54 57 63 34 40 45 51
7.1.1 回归分析与相关分析的关系
• 回归分析和相关分析都是用来描述相关关系的方法,都是
用来度量两个或两个以上的变量之间的关系的方法,确定 变量之间是否存在关系,这是回归分析和相关分析共同的 起点。因此从广义上讲,回归分析是从属于相关分析的, 但是严格来将两者有存在区别,回归分析使用数学公式的 方式来表示变量之间的关系,而相关分析是通过检验和度 量变量之间关系的密切程度,两者相辅相成。
1、操作过程 (1)打开数据文件“鸭重 一元回归案例”。 (2) 选择“分析”|“回归”|“线性”命令。 (3)打开“线性回归”对话框,如下如所示:
(4)将上图中左侧变量列表框中的变量“50日龄鸭重”移入右 侧的“因变量”文本框中;变量“雏鸭重”移入右侧的“自 变量”文本框中。 (5) 在“方法”文本框中共有 5 种方法可选,分别是“进入”、 “逐步”、“删除(R)”、“向后”、“向前”(分别对应 “强迫进入变量法”、“逐步回归分析法”、“删除法”、 “向后法”和“向前法”)。本利可采用强迫进入变量法。
第7章 回归分析
• 研究人员想进一步了解各种影响因素各自在多大程度上对
男性胃癌患者在术后发生院内感染产生影响。想要了解这 个问题,既要用到“回归分析”这一统计方法。
7.1 回归分析概述
• 事物是普遍联系的,并且彼此之间是有机地联系着,相互
依赖着,相互制约着的。离开周围的事物和条件而孤立地 存在的事物是没有的。因此,统计学在研究某一事件的时 候,就不能只是研究其本身,同时还要研究其与其它事物 之间的相互联系,并找出合理的方法确定它们之间的关系。