实验四 线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

变量的剔除过程,在模型三中,剔除专著数的情况下,如果保留投入高级职 称的人年数,那么它的标准化回归系数是-0.439,但P=0.343>α,回归系数的 检验不显著;同理,剔除高级职称的人年数,如果保留专著数,那么它的标 准化回归系数是-0.103,但P=0.559>α,回归系数的检验不显著。
分析→回归→线性→绘制→选正态概率图→继续→确 定→查看输出窗口→数据点围绕基准线还存在一定的规 律性。
异常点
分析→回归→线性→保存→选残差的标准化→图形→旧对话框→散点→ 简ห้องสมุดไป่ตู้分布→把残差放到Y轴,把贷款余额放入X轴→确定→查看输出窗口 →如果误差项ɛ服从正态分布这一假设成立,那么标准化残差的分布也应 服从正态分布。图中除一点外,标准化残差都在-2~+2之间,这表明误差 项ɛ服从正态分布的假定成立。(所谓残差是指观测值与预测值(拟合值) 之间的差,即是实际观察值与回归估计值的差。)
分析→回归→曲线估计→因变量教育支出;自变量年人均消费性支出 →模型选二次项,立方,复合,幂→确定→查看输出窗口
有12个缺失值
由于二次曲线年人均可支配收入的回归系数为负值,与实 际情况不吻合,因此不采纳。三次曲线回归系数的显著性检 验P=0.374> α=0.05,回归系数不显著的解释变量,因此,该 模型不采用。
⑴人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。 ⑵计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
最终方程为第六个:P=0<α=0.05,被解释变量与解释变量间 的线性关系显著,建立线性模型是恰当的。
第六个模型:P=0<α=0.05,说明投入人年数与被解释变量间的线性关系显著, 它保留在模型中是合理的。最终方程是 立项课题数=-94.524+0.492投入人年数 意味着投入人年数每增加一个单位会使立项课题数增加0.492个单位。注:通常情 况下,即使常数项在模型中不显著,我们也会在模型中保留,去掉它会对模型带 来不利的影响。
复合函数的拟合优度高于幂函数,值的增长速度高于幂函数,从居民消费 未来趋势看,教育支出将可能占消费性支出的较大比例,并呈快速增长的趋 势,因此,采用复合函数。方程是 教育支出=20.955× 1.0004年人均消费性支出
复合函数、幂函数的拟合回归线,说明复合 函数拟合高于幂函数。
案例9-3
特征根
条件指数
方差比(比例之和等于1)
回归方程的显著性检验:P=0<α=0.05应拒绝原假设,认为各回归系数不同时为0,被 解释变量与解释变量全体的线性关系是显著的,可建立线性模型。回归系数显著性检 验:有的P>α=0.05,因此不拒绝原假设,认为这些偏回归系数与0无显著差异,它们与 被解释变量的线性关系是不显著的,不应保留在方程中。从容忍度和方程膨胀因子看, 投入高级职称的人年数与其他变量的多重共线性很严重,可考虑剔除该变量。第七个 特征根既能解释投入人年数方差的84%,也能解释高级职称的人年数方差的98%,还 可以解释专著数方差的44%,这些变量存在多重共线性;5,6,7条件指数都大于10。
分析→回归→线性→把课题总数放入因变量框;把投入人年 数、投入高级职称的人数、投入科研事业费、专著数、论文数、 获奖数放入自变量框→方法点进入→ 点统计量→ 选共线性诊断 → 继续→确定→查看输出窗口→由于该方程中含有多个变量, 所以看调整R方=0.924,拟合优度较高,被解释变量可以被模型 解释的部分较多,不能被解释的部分较小。
二、实验作业: •一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施 建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该 银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银 行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者 希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款 的办法。该银行所属的25家分行2002年的有关业务数据是“例 11.6.xls”。 1.试绘制散点图,并分析不良贷款与贷款余额、累计应收贷款、 贷款项目个数、固定资产投资额之间的关系; 2.计算不良贷款、贷款余额、累计应收贷款、贷款项目个数、固 定资产投资额之间的相关系数; 3.求不良贷款对贷款余额的估计方程; 4.检验不良贷款与贷款余额之间线性关系的显著性(α=0.05); 回归系数的显著性(α=0.05); 5.绘制不良贷款与贷款余额回归的残差图。
拟合优度R方=0.938,比较理想;回归方程显著的显著性检验: P=0<0.05,通过检验;回归方程系数的显著性检验:P=0<0.05,通过检验, 说明模型可用;回归方程是 在外就餐=12.522*e0.154个案顺序
在外就餐的拟合回归线;2003,2004年的预测值分 别为683.49853,797.2。
收集到1981-2002年居民在外就餐消费的数据, 现希望对居民未来在外就餐的趋势进行分析和预 测。数据“年人均消费支出和教育.sav”
分析→预测→序列图→把在外就餐放入变量框,把年份放入 时间轴标签→确定→查看输出窗口→大致呈指数形式,可利用 曲线估计进行分析。
分析→回归→曲线估计→因变量在外就餐;自变量年份→模型选指数分 布,点保存,预测值,预测范围,观测值输入27 →继续→确定→查看输出 窗口
图形→散点→矩阵分布→把变量放入矩阵变量中→确定→从图中看它 们之间都有一定的线性关系。不良贷款与贷款余额的线性关系比较密 切,与固定资产投资最不密切。
分析→相关→双变量→把要分析的变量放入变量框中→确定→查看输出 窗口→不良贷款与其他变量都属于正线性相关关系,其中与各项贷款余额 最密切(r=0.844),与本年度固定资产最不密切(r=0.519)。
分析→回归→线性→把课题总数放入因变量框;把投入人年 数、投入高级职称的人数、投入科研事业费、专著数、论文数、 获奖数放入自变量框→方法点向后→ 点统计量→ 选共线性诊 断、残差的Dubin-Watson→ 继续→确定→查看输出窗口
拟合优度的检验:经过六步,完成回归方程的建立,最终为第六个模 型。随着解释变量的不断减少,方程的拟合优度下降了。说明建立回归 方程并不是一味追求高的拟合优度为唯一目标的,还要重点考察解释变 量是否对被解释变量有贡献。方程的DW检验值为1.747,残差存在一定 程度的正自相关。(P296)
案例9-2 收集到1990-2002年全国人均消费性支出和教育支 出的数据,希望对居民家庭教育支出和消费性支 出之间的关系进行研究。文件名“年人均消费支 出和教育.sav”
散点图:图形→旧对话框→散点图→简单分布→定义→教育支出放Y轴, 年人均消费性支出放X轴→确定→查看输出窗口→说明两变量之间呈非线 性关系,可尝试二次曲线、三次曲线、复合函数、幂函数模型。
⑴绘制产量与生产费用的散点图,判断二者之间的关系形态。
⑵计算产量与生产费用之间的线性相关系数 ⑶对相关系数的显著性进行检验(α=0.05),并说明二者之间的关 系强度。
正线性相关关系
r=0.92,P=0<α=0.05,拒绝原假设,表明产量与生产 费用之间的线性关系显著。
11.6 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统 计数据:
图形→旧对话框→散点图→简单分布→定义→把计划面积放入Y轴; 家庭收入放入X轴→确定→查看输出窗口→说明大部分的数据点集中 在一定区域中,有少部分数据点“脱离”整体数据较远,家庭收入与 计划购买住房面积之间存在一定正的弱相关。
2、根据教材P274“SPSS计算相关系数的基本步骤”, 在练习1绘制散点图的基础上,对于案例8-1,练习通 过计算相关系数,判定分析家庭收入与打算购买的住 房面积之间相关关系的强弱。
分析→回归→线性→保存,选距离中cook距离,杠杆值→继续→确定→ 查看输出窗口→没有发现强影响点。(库克距离大于1对应的解释变量为 强影响点。杠杆值越高,对应的解释变量就越可能是强影响点)
*4、练习教材中P320案例9-2、案例9-3,了解曲 线估计的一般原理和操作方法。对应的数据文件 为“年人均消费支出和教育.sav”。
一、实验目的 掌握spss 绘制散点图和计算相关系数的方法 掌握回归分析的一般步骤和回归的统计检验 (包括回归方程的拟合优度检验、回归方程的显 著性检验、回归系数的显著性检验和残差分析)
二、实验内容 1、练习教材中P264案例8-1,通过绘制散点图, 分析家庭收入与打算购买的住房面积存在怎样的 统计关系,数据文件为“住房状况调查.sav”
2.练习《统计学》教材P330 练习题11.1、 11.6、11.7、11.8、11.15,对应的数据文件
为“习题11.1.xls”、 “习题11.6.xls”、 “习
题11.7.xls”、 “习题11.8.xls”、 “习题
11.15.xls”。(任选两题)
11.1 从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:
单样本柯尔莫哥洛夫-斯米诺夫检验
分析→回归→线性→保存,选残差中的标准化→继续→确定→分析→非参数检验 →1样本k-s(1) →把standardized residual 放入检验变量列表→确定→查看输出窗 口→P=0.809,表明标准化残差和标准正态分布不存在显著差异,可以认为残差满 足了线性模型的前提要求。
分析→回归→线性→把不良贷款放入因变量;各项贷款余额放入自变量 →确定→查看输出窗口→方程是 不良贷款余额=-0.830+0.038各项贷款余额
R方=0.712,通过拟合优度的检验;回归方程的显著性检验,P=0,拒绝 原假设,变量之间存在显著的线性关系;回归系数的显著性检验P=0,拒 绝原假设,自变量对因变量有显著影响,即两变量之间存在显著的线性关 系。
分析→回归→线性→绘制→把ZRESD放入Y轴、ZPRED放入X轴;继续→确定→ 查看输出窗口→随着标准化预测值的变化,残差点在0线周围随机分布,但残差的 等方差性并不完全满足,方差似乎有增大的趋势。分析→回归→线性→保存→在残 差中选标准化,在预测值中选标准化→继续→确定→分析→相关→双变量→把预测 值和残差值选到变量窗口,相关系数选spearman →确定→查看输出窗口→说明残 差与预测值的spearman等级相关系数为-0.176,且P=0.344,检验不显著,因此认 为异方差现象并不明显。
分析→相关→双变量→把家庭收入、计划面积放入变量框→确定→查 看输出窗口→家庭收入与计划面积的简单相关系数为0.323,存在弱的 正相关。P=0<0.01=α,认为两总体不是零相关。
3、练习教材中P309案例9-1,掌握线性回归分析的
基本操作,理解回归参数的普通最小二乘估计的原理, 掌握回归方程的拟合优度检验、回归方程显著性检验、 回归系数显著性检验、残差分析的基本概念、原理和 判断规则。数据文件为“高校科研研究.sav”
1、容忍度
是测量解释变量间多重共线性的重要统计量。容忍度的取值范围在0~1之间,越接近于0 表示多重共线性越强;越接近于1表示多重共线性越弱。 2、方差膨胀因子 方差膨胀因子是容忍度的倒数,方差膨胀因子的取值大于等于1。通常,如果膨胀因子大 于等于10,说明解释变量xi与方程中其余解释变量之间有严重的多重共线性。 3、特征根和方差比 特征根是诊断解释变量间是否存在严重的多重共线性的另一种有效方法。最大特征根的 值远远大于其他特征根的值,则说明这些解释变量间具有相当多的重叠信息,原因是仅 通过这一个特征根就基本刻画出了所有解释变量的绝大部分信息。 解释变量标准化后它的方差为1。如果某个特征根既能够刻画某解释变量方差的较大部分 (0.7以上),同时又可以刻画另一根解释变量方差的较大部分,则说明这两个解释变量 间存在较强的线性相关关系。 4、条件指数 条件指数反映解释变量间多重共线性的指标。当0<=Ki<10时,多重共线性较弱;当 10<=Ki<100时,认为多重共线性较强;Ki>=100时,认为多重共线性很强。
相关文档
最新文档