第七章 回归分析及回归方程的建立
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在实际分析中,可以根据测量变量的个数、变量的类型以及 变量间的相关关系,将回归分析划分为:一元线性回归分析、多 元线性回归分析、非线性回归分析、曲线估计、时间序列曲线估
计、含虚拟自变量的回归分析和逻辑回归分析等类型。我们这 里只介绍两种最简单的回归分析,即:一元线性回归 分析、多元线性回归分析。
二、一元线性回归分析
序号
1 2 3 4 5 6 7 8 9 10
难度
-1.5 -1.3 -1.0 -0.8 -0.7 -0.5 -0.5 -0.4 -0.3 -0.3
能力 层次
1 1 2 1 2 1 2 2 3 3
内容 深度
1 2 1 1 1 2 2 3 2 3
题目 类型
3 2 1 4 3 1 5 4 2 5
序号
11 12 13 14 15 16 17 18 19 20
当前我们讨论的“回归”,不再具有其最初的含义,而是指 在依据大样本数据作出的变量间关系的散点图中,可以找到一条 特定的直线或曲线,使得被预测的变量从各点距离该直线或曲线 的变异总体上最小,这样就可以把这条直线或曲线叫做其它测量 变量与被预测变量之间关系的回归线,它能够最理想的反映变量
间的预测关系。 (用容易测量的变量,预测不易测量的变量; 用当前的变量,预测将来的变量)
一元线性回归方程建立练习
打开文件:c:\program files\spss\Employee data,
然后建立雇员被雇用初期的薪水与当前薪水的关系的回
归方程,并对回归方程的拟合度、显著性水平、回归常
数及回归系数的显著性水平进行检验。如果回归方程达
到显著性水平,再估计:如果三名雇员被雇佣初期的薪
1. 确定研究目标,即明确建立回归方程的测量变量和预 测变量(也有的叫自变量和因变量),然后在一定样本 中取得这两个变量对应的观测值。通常,预测变量是现 实中容易测量的,被预测变量则是现实中较难测量或是 指未来发展的结果;
2. 利用散点图或相关分析确定两变量是否存在线性关系;
3.利用确定的计算方法或计算机软件计算回归方程的回 归常数和回归系数,得到回归方程;
4. 回归系数显著性检验中,如果发现某些变量的回归系数 比较小,其显著性远未达到显著性水平,说明其对因变量 影响不大,可以剔出。
多元线性回归分析的实例练习
调用教师机共享文档中的数据文件:“员工心理因素 与员工满意度”,然后完成以下处理任务:
1. 建立完全的回归方程,以实现从多个心理因素预测员工 满意度。用调整后的判定系数评价回归方程的拟合优度如 何?回归方程显著性水平如何?各自变量回归系数的显著 性水平如何?
一元线性回归分析是一种比较理想化的回归分析,即 假定其它变量不产生影响或其影响确定不变,然后以一个 测量变量预测另一个变量。通常我们是在抽取的样本中测 量两个变量得到一批测量数据,然后以样本数据计算回归 方程。接着对这一回归方程进行检验以确定其能否比较可 靠地反映两个变量之间的关系。如果回归方程比较可靠就 可用于对被预测变量的预测。
第七章 回归分析及回归方程的建立
一、有趣的发现
英国著名的统计学家F.Galton及其弟子K.Pearson , 研究了1078对夫妇及其一个成年儿子的身高关系。他们 以儿子身高作为纵坐标、夫妇平均身高为横坐标作散点 图,结果发现二者的关系近似于一条直线。经计算得到 了如下方程:
由此方程可以看到 :夫妇平均身高增加或减少一 个单位,儿子的身高只增加或减少 0.516个单位。也就 是说,子代的身高就不像父辈身高那样分化 ,而是逐 渐向平均身高回归 。Galton引进“回归”(regression) 一词来表达这种变化关系。不过后来人们研究其它变 量间的关系时,并没有发现如上所述的回归现象,但 仍沿用 “回归” 的概念以纪念统计学家F.Galton。
2. 分别剔出影响力最小的1个自变量、2个自变量建立两个 不同的回归方程,比较它们的拟合优度。
3. 从数据表中任选两个个案的心理因素测量值,计算其满
意度的估计值,并与实际值对照。
SPSS过程演示
练习题
1. 合成纤维的强度与其拉伸倍数有关,测得数据如下表所示。求合 成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系,如果有 显著的线性相关关系则建立二者的回归方程。
F=t2
一元线性回归分析的SPSS过程
准备样本观测数据文件:包含两个拟准备回归分析的变量
点击Analyze,然后选择Regression中的Linear……打开对话框
选择因变量、自变量和默认回归方法“Enter”
点击Statistics,然后确认“Estimates”和 “Model fit”
点击OK输出回归分析结果 :进入方程的自变量、自变量与因变量 的相关系数R、拟合度判定系数R2、回归方程的方差分析、回归常 数和回归系数以及对二者进行的显著性t 检验,最后得到回归方程
难度
-0.2 0.0 0.1 0.1 0.2 0.3 0.3 0.5 0.8 1.0
能力 层次
2 3 4 3 4 4 4 5 4 5
内容 深度
4 3 3 4 5 4 3 4 5 5
题目 类型
4 5 3 1 2 2 1 4 3 2
序号 1 2 3 4 5 6 7 8 9 10 11 12
拉伸倍数 2.0 2.5 2.7 3.5 4.0 4.5 5.2 6.3 7.1 8.0 9.0 10.0
强度(kg/mm2) 1.6 2.4 2.5 2.7 3.5 4.2 5.0 6.4 6.5 7.3 8.0 8.1
2. 某研究者欲建立一个线性回归方程,帮助命题者估计试题难度。他设想试题难 度受到试题的能力层次、内容深度和试题类型三个因素的影响,因此把每个因素 都按对难度影响强度大小分为五个层次并加以界定,然后对20道抽样试题分因素 评分并且又计算了这20道试题的实际难度值(以标准分数表示),数据如下表所 示。请你帮助他建立一个估计试题难度的三元线性回归方程。
下边我们用图示说明,线性回归方程显著性的方差分析!
从上图看出,变量 y 的变异量可以分解为两部分 ,一部分是可 用回归线解释的部分、一部分是不能用回归线解释的部分,而且相 对来说,不被回归线解释的部分越小,散点越是靠近回归线,回归 线越是能够反映x和y的线性关系,我们就说这个回归线越显著。
一元线性回归方程建立的基本程序
4.进行拟合优度检验。就是检验样本数据聚集在样本回 归线周围的密集程度,从而判断回归方程对样本数据的 代表程度。检验的方法是使用判定系数R2,R2等于回归 线解释的y的离差平方和除以y的总离差平方和,取值范 围在0≼R2≼1。当其等于0时,x与y 没有任何关系;当其 为1 时,回归线是完全拟合的,即所有散点均落在回归 线上;其越接近于1,回归线拟合得越好;
水分别为10000美元、15000美元和20000 美元,那么他
们当前的薪水大约分别在什么范围?
SPSS过程演示
三、多元线性回归分析
在实际的调研中,影响因变量的因素往往不只一 个,所以我们在许多情况下需要用多个变量来预测某 一因变量,这就是多元线性回归分析。多元线性回归 分析与一元线性回归分析的过程是一样的。但需要注 意四点不同:
5.回归方程的显著性检验。回归方程显著性检验是对因 变量与自变量之间线性关系是否显著的一种检验。检验 方法采用方差分析 :F值等于平均的回归平方和与平均 的残差平方和之比,对于一元线性回归方程来说:
6.对回归系数的显著性检验(t 检验)。回归方程显著 性检验是从总体上显示回归系数显著,如果是多元线性 回归,还需分别检验各回归系数的显著性;如果是一元 回归,就可以使用回归方程检验代替回归系数检验,因 为在这种情况下,二者有一一对应的关系:
1. 在拟合度检验中,引入的自变量数量不同,R2的大 小也不同,而且加入自变量时R2提高并不代表拟合度 的提高。所以比较不同回归方程的拟合度时需要使用 调整后的拟合度判定系数。
ຫໍສະໝຸດ Baidu
2. 在变量进入的方式上可以根据具体情况具体选择,常用 的有Enter、Backward等两种形式。
3. 在回归方程的显著性检验中,F其实是反映了y的预测值 与实际值的相关关系,F也可以反映回归方程的拟合度。
计、含虚拟自变量的回归分析和逻辑回归分析等类型。我们这 里只介绍两种最简单的回归分析,即:一元线性回归 分析、多元线性回归分析。
二、一元线性回归分析
序号
1 2 3 4 5 6 7 8 9 10
难度
-1.5 -1.3 -1.0 -0.8 -0.7 -0.5 -0.5 -0.4 -0.3 -0.3
能力 层次
1 1 2 1 2 1 2 2 3 3
内容 深度
1 2 1 1 1 2 2 3 2 3
题目 类型
3 2 1 4 3 1 5 4 2 5
序号
11 12 13 14 15 16 17 18 19 20
当前我们讨论的“回归”,不再具有其最初的含义,而是指 在依据大样本数据作出的变量间关系的散点图中,可以找到一条 特定的直线或曲线,使得被预测的变量从各点距离该直线或曲线 的变异总体上最小,这样就可以把这条直线或曲线叫做其它测量 变量与被预测变量之间关系的回归线,它能够最理想的反映变量
间的预测关系。 (用容易测量的变量,预测不易测量的变量; 用当前的变量,预测将来的变量)
一元线性回归方程建立练习
打开文件:c:\program files\spss\Employee data,
然后建立雇员被雇用初期的薪水与当前薪水的关系的回
归方程,并对回归方程的拟合度、显著性水平、回归常
数及回归系数的显著性水平进行检验。如果回归方程达
到显著性水平,再估计:如果三名雇员被雇佣初期的薪
1. 确定研究目标,即明确建立回归方程的测量变量和预 测变量(也有的叫自变量和因变量),然后在一定样本 中取得这两个变量对应的观测值。通常,预测变量是现 实中容易测量的,被预测变量则是现实中较难测量或是 指未来发展的结果;
2. 利用散点图或相关分析确定两变量是否存在线性关系;
3.利用确定的计算方法或计算机软件计算回归方程的回 归常数和回归系数,得到回归方程;
4. 回归系数显著性检验中,如果发现某些变量的回归系数 比较小,其显著性远未达到显著性水平,说明其对因变量 影响不大,可以剔出。
多元线性回归分析的实例练习
调用教师机共享文档中的数据文件:“员工心理因素 与员工满意度”,然后完成以下处理任务:
1. 建立完全的回归方程,以实现从多个心理因素预测员工 满意度。用调整后的判定系数评价回归方程的拟合优度如 何?回归方程显著性水平如何?各自变量回归系数的显著 性水平如何?
一元线性回归分析是一种比较理想化的回归分析,即 假定其它变量不产生影响或其影响确定不变,然后以一个 测量变量预测另一个变量。通常我们是在抽取的样本中测 量两个变量得到一批测量数据,然后以样本数据计算回归 方程。接着对这一回归方程进行检验以确定其能否比较可 靠地反映两个变量之间的关系。如果回归方程比较可靠就 可用于对被预测变量的预测。
第七章 回归分析及回归方程的建立
一、有趣的发现
英国著名的统计学家F.Galton及其弟子K.Pearson , 研究了1078对夫妇及其一个成年儿子的身高关系。他们 以儿子身高作为纵坐标、夫妇平均身高为横坐标作散点 图,结果发现二者的关系近似于一条直线。经计算得到 了如下方程:
由此方程可以看到 :夫妇平均身高增加或减少一 个单位,儿子的身高只增加或减少 0.516个单位。也就 是说,子代的身高就不像父辈身高那样分化 ,而是逐 渐向平均身高回归 。Galton引进“回归”(regression) 一词来表达这种变化关系。不过后来人们研究其它变 量间的关系时,并没有发现如上所述的回归现象,但 仍沿用 “回归” 的概念以纪念统计学家F.Galton。
2. 分别剔出影响力最小的1个自变量、2个自变量建立两个 不同的回归方程,比较它们的拟合优度。
3. 从数据表中任选两个个案的心理因素测量值,计算其满
意度的估计值,并与实际值对照。
SPSS过程演示
练习题
1. 合成纤维的强度与其拉伸倍数有关,测得数据如下表所示。求合 成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系,如果有 显著的线性相关关系则建立二者的回归方程。
F=t2
一元线性回归分析的SPSS过程
准备样本观测数据文件:包含两个拟准备回归分析的变量
点击Analyze,然后选择Regression中的Linear……打开对话框
选择因变量、自变量和默认回归方法“Enter”
点击Statistics,然后确认“Estimates”和 “Model fit”
点击OK输出回归分析结果 :进入方程的自变量、自变量与因变量 的相关系数R、拟合度判定系数R2、回归方程的方差分析、回归常 数和回归系数以及对二者进行的显著性t 检验,最后得到回归方程
难度
-0.2 0.0 0.1 0.1 0.2 0.3 0.3 0.5 0.8 1.0
能力 层次
2 3 4 3 4 4 4 5 4 5
内容 深度
4 3 3 4 5 4 3 4 5 5
题目 类型
4 5 3 1 2 2 1 4 3 2
序号 1 2 3 4 5 6 7 8 9 10 11 12
拉伸倍数 2.0 2.5 2.7 3.5 4.0 4.5 5.2 6.3 7.1 8.0 9.0 10.0
强度(kg/mm2) 1.6 2.4 2.5 2.7 3.5 4.2 5.0 6.4 6.5 7.3 8.0 8.1
2. 某研究者欲建立一个线性回归方程,帮助命题者估计试题难度。他设想试题难 度受到试题的能力层次、内容深度和试题类型三个因素的影响,因此把每个因素 都按对难度影响强度大小分为五个层次并加以界定,然后对20道抽样试题分因素 评分并且又计算了这20道试题的实际难度值(以标准分数表示),数据如下表所 示。请你帮助他建立一个估计试题难度的三元线性回归方程。
下边我们用图示说明,线性回归方程显著性的方差分析!
从上图看出,变量 y 的变异量可以分解为两部分 ,一部分是可 用回归线解释的部分、一部分是不能用回归线解释的部分,而且相 对来说,不被回归线解释的部分越小,散点越是靠近回归线,回归 线越是能够反映x和y的线性关系,我们就说这个回归线越显著。
一元线性回归方程建立的基本程序
4.进行拟合优度检验。就是检验样本数据聚集在样本回 归线周围的密集程度,从而判断回归方程对样本数据的 代表程度。检验的方法是使用判定系数R2,R2等于回归 线解释的y的离差平方和除以y的总离差平方和,取值范 围在0≼R2≼1。当其等于0时,x与y 没有任何关系;当其 为1 时,回归线是完全拟合的,即所有散点均落在回归 线上;其越接近于1,回归线拟合得越好;
水分别为10000美元、15000美元和20000 美元,那么他
们当前的薪水大约分别在什么范围?
SPSS过程演示
三、多元线性回归分析
在实际的调研中,影响因变量的因素往往不只一 个,所以我们在许多情况下需要用多个变量来预测某 一因变量,这就是多元线性回归分析。多元线性回归 分析与一元线性回归分析的过程是一样的。但需要注 意四点不同:
5.回归方程的显著性检验。回归方程显著性检验是对因 变量与自变量之间线性关系是否显著的一种检验。检验 方法采用方差分析 :F值等于平均的回归平方和与平均 的残差平方和之比,对于一元线性回归方程来说:
6.对回归系数的显著性检验(t 检验)。回归方程显著 性检验是从总体上显示回归系数显著,如果是多元线性 回归,还需分别检验各回归系数的显著性;如果是一元 回归,就可以使用回归方程检验代替回归系数检验,因 为在这种情况下,二者有一一对应的关系:
1. 在拟合度检验中,引入的自变量数量不同,R2的大 小也不同,而且加入自变量时R2提高并不代表拟合度 的提高。所以比较不同回归方程的拟合度时需要使用 调整后的拟合度判定系数。
ຫໍສະໝຸດ Baidu
2. 在变量进入的方式上可以根据具体情况具体选择,常用 的有Enter、Backward等两种形式。
3. 在回归方程的显著性检验中,F其实是反映了y的预测值 与实际值的相关关系,F也可以反映回归方程的拟合度。