(整理)基于SPSS的多元统计分析三种算法的实例研究.
完整版本多元统计分析实例汇总
多元统计剖析实例院系 : 商学院学号 :姓名 :多元统计剖析实例本文采集了 2012 年 31 个省市自治区的农林牧渔和有关农业数据 , 经过对对采集的数据进行比较剖析对 31 个省市自治区进行分类 . 选用了 6个指标农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值 , 乡村居民家庭经营耕地面积 .数据以下表 :一. 聚类法设定 4 个群聚 , 采纳了系统聚类法 . 下表为 spss 剖析以后的结果 .聚类表群集组合初次出现阶群集阶群集 1 群集 2 系数群集 1 群集 2 下一阶1 5 7 226.381 0 0 132 2 9 1715.218 0 0 53 22 24 1974.098 0 0 74 1 29 5392.690 0 0 65 2 30 6079.755 2 0 66 1 2 11120.902 4 5 87 4 22 21528.719 0 3 118 1 26 23185.444 6 0 149 12 20 26914.251 0 0 1910 27 31 35203.443 0 0 2011 4 28 50321.121 7 0 2212 11 13 65624.068 0 0 2413 5 25 114687.756 1 0 1714 1 21 169600.075 8 0 2215 8 18 188500.814 0 0 2116 17 19 204825.463 0 0 2117 5 14 268125.103 13 0 2018 3 23 387465.457 0 0 2619 6 12 425667.984 0 9 2320 5 27 459235.019 17 10 2321 8 17 499195.430 15 16 2522 1 4 559258.810 14 11 2823 5 6 708176.881 20 19 2424 5 11 854998.386 23 12 2825 8 10 1042394.608 21 0 2626 3 8 1222229.597 18 25 2927 15 16 1396048.280 0 0 2928 1 5 1915098.014 22 24 3029 3 15 3086204.552 26 27 3030 1 3 6791755.637 28 29 0Rescaled Distance Cluster CombineCASE 0 5 1015 20 25 Label Num +--------- +--------- +--------- +--------- +---------+内蒙 5 -+吉林7 -+云南25 -+-+江西14 -+ +-+陕西27 -+-+ |新疆31 -+ +-+安徽12 -+-+ | |广西20 -+ +-+ +------- +辽宁 6 ---+ | |浙江11 -+----- + |福建13 -+ |重庆22 -+ +--------------------------------- +贵州24 -+ | |山西 4 -+--- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 -+ +--------- + |天津 2 -+ | |上海9 -+ | |宁夏30 -+--- + |西藏26 -+ |海南21 -+ |河北 3 ---+----- + |四川23 ---+ | |黑龙江8 -+-+ +------------- + |湖南18 -+ +--- + | | |湖北17 -+-+ +-+ +------------------------- + 广东19 -+ | |江苏10 ------- + |山东15 ----------- +----------- +河南16 ----------- +群集成员事例 4 群集1: 北京 12: 天津 13: 河北 14: 山西 15: 内蒙 26: 辽宁 17: 吉林 28: 黑龙江 29: 上海 110: 江苏 111: 浙江 112: 安徽 113: 福建 114: 江西 115: 山东 316: 河南 117: 湖北 118: 湖南 119: 广东 120: 广西 121: 海南 122: 重庆 123: 四川 124: 贵州 125: 云南 126: 西藏 427: 陕西 128: 甘肃 129: 青海 130: 宁夏 131: 新疆 2从 SPSS剖析结果能够获得 , 内蒙 , 吉林 , 黑龙江 , 新疆为第 2族群 , 这一族群的特色是农业收入可能不高 , 可是农民的固定财产 , 和耕地面积特别高 , 农民的充裕程度或许机械化程度较高; 山东是第 3族群 , 这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平并且农民充裕; 西藏处于第 4族群 , 这是因为 , 西藏人员较少 , 自然条件恶劣 , 可使用耕地少 , 可是 , 因为国家的扶助 , 农民的固定 财产许多 , 农民相对而言比较富裕 ; 大部分省份属于第 1族群 , 这一族群的特色在 于六项指标都没有较为突出的一项, 或许农林牧渔收入的原来就少, 或许是农民 的固然比较辛苦 , 整体的农业收入较高 , 可是农民的收入水平比较低, 固定财产较 少 .三. 鉴别法X 1,X 2,X 3,X 4,X 5,X 6分别代表农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值, 乡村居民家庭经营耕地面积 .剖析事例办理纲要未加权事例N百分比有效31 100.0清除的缺失或越界组代码 0 .0 起码一个缺失鉴别变量 0 .0 缺失或越界组代码还有起码一 0.0个缺失鉴别变量共计 0 .0 共计31 100.0实验结果剖析 :组统计量有效的 N (列表状态)Average Linkage (Between Groups) 均值 标准差 未加权的已加权的1农业总产值 1463.8900 1062.0348625 25.000 林业总产值 118.5768 87.02052 25 25.000 牧业总产值 830.3664 671.10440 25 25.000渔业总产值291.4128346.719022525.000乡村居民家庭拥有生产性固定14432.3400 5287.92950 25 25.000 财产原值乡村居民家庭经营耕地面积 1.5496 .88484 25 25.000 2 农业总产值1582.2975 543.92851 4 4.000林业总产值93.3500 37.71131 4 4.000 牧业总产值1021.3175 372.88255 4 4.000 渔业总产值38.3500 27.49067 4 4.000 乡村居民家庭拥有生产性固定30226.4175 4233.77839 4 4.000 财产原值乡村居民家庭经营耕地面积9.4975 3.30626 4 4.000 3 农业总产值3960.6200 . a 1 1.000林业总产值107.0100a1 1.000 .牧业总产值2285.9200 . a 1 1.000 渔业总产值1267.0700 . a 1 1.000 乡村居民家庭拥有生产性固定19168.1400 . a 1 1.000 财产原值乡村居民家庭经营耕地面积 1.6400 . a 1 1.000 4 农业总产值53.3900 . a 1 1.000林业总产值 2.5600 . a 1 1.000牧业总产值59.0200a1 1.000 .渔业总产值.2200 . a 1 1.000乡村居民家庭拥有生产性固定52935.0700 . a 1 1.000财产原值乡村居民家庭经营耕地面积 1.8900 . a 1 1.000 从表上能够看出 , 组均值之间差值很大 . 各个分组 , 在 6 项指标上均值有较明显的差别 .组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值乡村居民家庭经营耕地面积.190 38.263 3 27 .000 由表中能够知道 ,13456 指标之间的 sig 值较小 ,2 指标 sig 值有 0.561 较大 ,可是仍说明接受原假定 , 各指标族群间差别较大 .汇聚的组内矩阵农业总产值林业总产值牧业总产值渔业总产值有关性农业总产值 1.000 .449 .895 .400 林业总产值.449 1.000 .489 .481牧业总产值.895 .489 1.000 .294渔业总产值.400 .481 .294 1.000乡村居民家庭拥有生产性固定-.093 -.262 -.052 -.040财产原值乡村居民家庭经营耕地面积.056 -.033 .181 -.104汇聚的组内矩阵乡村居民家庭拥有生产性固定资乡村居民家庭经产原值营耕地面积有关性农业总产值-.093 .056林业总产值-.262 -.033牧业总产值-.052 .181渔业总产值-.040 -.104乡村居民家庭拥有生产性固定 1.000 .326财产原值乡村居民家庭经营耕地面积.326 1.000从表中能够知道 , 查验结果 p 值>0.05, 此时 , 说明协方差矩阵相等,能够进行 bayes 查验 .Fisher剖析法协方差矩阵的均等性的箱式查验对数队列式AverageLinkage(BetweenGroups) 秩对数队列式1 6 61.1252 . a . b3 . c . b4 . c . b汇聚的组内 6 62.351打印的队列式的秩和自然对数是组协方差矩阵的秩和自然对数。
利用spss对某个班成绩的多元统计分析.doc
对一所重点学校某个班成绩的综合分析摘要随着社会竞争的越来越激烈,家长和老师对于学生成绩的态度愈加重视,对于学生将来的发展与前途也同样感到一丝忧虑,因此及时公布学生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。
本文利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣,以达到取长补短的目的,主要应用了SPSS软件对成绩进行了综合性的分析。
关键词:综合分析;SPSS软件;成绩目录1.对应分析的概述 (1)2.聚类分析的概述 (3)2.1聚类分析的定义 (3)2.2聚类的方法分类 (3)2.3系统聚类法的基本步骤 (3)3.判别分析的概述 (4)3.1判别分析的基本思想 (4)3.2判别分析与聚类分析的关系 (4)4.在SPSS软件上的操作步骤 (5)4.1对应分析的操作步骤 (5)4.2聚类分析与判别分析的操作步骤 (6)5.结果分析 (7)5.1对应表 (7)5.2汇总 (7)5.3概述行点和概述列点 (8)5.6 特征值 (11)5.7 显著性检验 (11)5.8 标准化典型判别式函数系数 (11)5.9 结构矩阵 (12)5.10 群组重心的函数 (12)5.11 分类函数系数 (13)6.结论 (14)7.对创新的认识 (15)参考文献 (16)附录 (17)1.对应分析的概述对应分析(correspondence analysis )又称为相应分析,是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元统计分析方法。
根据分析资料的类型不同,对应分析分为定性资料(分类资料)的对应分析和连续性资料的对应分析(基于均数的对应分析)。
其中,根据分析变量个数的多少,定性资料的对应分析又分为简单对应分析和多重对应分析。
对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
对应分析实际是在R 型因子分析和Q 型因子分析的基础上发展起来的一种方法。
基于SPSS的多元统计分析三种算法的实例研究
摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。
关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。
根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。
本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。
1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。
为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。
文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。
1.3 模型建立 1.3.1 理论背景多元线性回归模型如下:εββββ+++++=p p X X X Y (22110)Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。
对于n 组观测值,其方程组形式为εβ+=X Y 即模型假设: ⑴零均值假设:()0i E ε= i=1,2,…,n⑵同方差:()2i Var εσ=⑶无自相关:⑷误差与自变量不相关:(),0ik i Cov X ε= i=1,2,…,n , k=0,1,…,p ⑸自变量之间无多重共线性 ()1rank X p =+1.3.2模型建立及SPSS 运算结果分析假设因变量Y (农村居民年人均生活消费支出)与自变量X 1(农村居民人均纯收入)、X 2(商品零售价格定基指数)、X 3(消费价格定基指数)、X 4(家庭恩格尔系数)、X 5(人均住宅建筑面积)满足下述等式:01122334455y X X X X X ββββββ=+++++强行回归:在SPSS 中进行强行回归,会得到如下表格:⑴输入变量从表1-1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数。
SPSS多元统计分析实验报告
实 验 课名称:SPSS统计分析
实验项目名称:多元线性回归分析
专 业 名 称:统计学
班 级:
学 号:
学 生 姓 名:
教 师 姓 名:
2014年12月20日
组别同组同学
实验日期2014年12月20日 实验名称多元统计分析
一、实验名称:
多元统计分析
二、实验目的和要求:
通过运用SPSS软件的多元统计分析揭示主管性格与雇员对其整体满意度之间的关系掌握多元统计分析的原理及建模过程。
六、实验结果与分析
通过以上建模和检验过程,最后得到的符合实际且具有统计意义的方程为:Y=0.78X1,即雇员对主管的满意程度只与主管处理雇员的抱怨有关,且成正相关。
七、讨论和回答问题及体会:
1.通过学习,我掌握了多元线性回归的基本原理和步骤,并学会运用SPSS软件进行处理该类问题和比较熟练地分析结果。
设随机变量y与一般变量x1,x2……xk的线性回归模型为:
y=β0+β1*x1+β2*x2+……+βk*xk+ε
其中β0,β1,β2……+βk是k+1个未知参数,β0称为回归常数,β1,β2……+βk称为回归系数,y称为被解释变量;x1,x2……xk称为解释变量。通过最小二乘法估算出各系数,并测定方程的拟合程度、检验回归方程和回归系数的显著性,得到最后的方程。
3运用SPSS软件进行多元分析对模型进行整理,比较调整的R系数、方差分析表、回归分析结果(各系数机器t检验等)、共显性检验等统计方法,得出结果。
四、实验仪器与设备:
SPSS软件、兼容SPSS软件的电脑一台、老师给的数据素材。
五、实验原理:
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一员线性回归模型类似,计算公式如下:
运用SPSS做多元回归分析
结果二:方差分析表
• 表中显著度(Sig)<0.001,表明整个方程是显著的,也 就是说自变量与因变量之间具有显著的线性关系。 • 但这并不意味着每个自变量与因变量都具有显著的线性关 系,具体的结论还需要看后面对每个自变量的回归系数的 检验结果。
结果三:回归系数表
• 表中B栏的非标准化回归系数表明:
FOR EXAMPLE
一个变量的变化直接与另一组变量的变化有关:
人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂
多元回归分析数据格式
编号 1 2 ┇ i ┇ n
X1
X 11
X2
X 12
┅ ┅ ┅ ┇ ┅ ┇ ┅
多元回归模型必须满足的假定条件
1. 2.
因变量是连续随机变量; 自变量是固定数值型变量,且相互独立;
3.
4. 5. 6.
每一个自变量与因变量呈线性关系;
每一个自变量与随机误差相互独立; 观察个体的随机误差之间相互独立; 残差是随机变量,均值为零。
不良贷款(亿元)各项贷款余额(亿元)本年累计应收贷款(亿元)贷款项目个数(个) 本年固定资产投资额(亿元) 0.9 67.3 6.8 5 51.9 1.1 111.3 19.8 16 90.9 4.8 173 7.7 17 73.7 3.2 80.8 7.2 10 14.5 7.8 199.7 16.5 19 63.2 12.5 185.4 27.1 18 43.8 1 96.1 1.7 10 55.9 2.6 72.8 9.1 14 64.3 0.3 64.2 2.1 11 42.7 4 132.2 11.2 23 76.7 0.8 58.6 6 14 22.8 3.5 174.6 12.7 26 117.1 10.2 263.5 15.6 34 146.7 0.2 14.8 0.6 2 42.1 0.4 73.5 5.9 11 25.3 1 24.7 5 4 13.4 6.8 139.4 7.2 28 64.3 11.6 368.2 16.8 32 163.9 1.6 95.7 3.8 10 44.5 1.2 109.6 10.3 14 67.9 7.2 196.2 15.8 16 39.7
SPSS中多元回归分析实例解析
SPSS中多元回归分析实例解析多元回归分析是一种统计方法,用于研究一个因变量与多个自变量之间的关系。
在SPSS中,可以使用该方法来构建、估计和解释多元回归模型。
下面将以一个实例来解析SPSS中的多元回归分析。
假设我们想要研究一个教育投资项目的效果,该项目包括多个自变量,例如教育资金、教育设施、学生人数等,并且我们希望预测该项目对学生学习成绩的影响。
首先,我们需要准备好数据并导入SPSS中。
数据应包含每个教育投资项目的多个观测值,以及与之相关的自变量和因变量。
例如,可以将每个项目作为一个观测值,并将教育资金、教育设施、学生人数等作为自变量,学生学习成绩作为因变量。
在SPSS中,可以通过选择“Analyze”菜单中的“Regression”选项来打开回归分析对话框。
然后,选择“Linear”选项来进行多元回归分析。
接下来,可以将自变量和因变量添加到对话框中。
在自变量列表中,选择教育资金、教育设施、学生人数等自变量,并将它们移动到“Independent(s)”框中。
在因变量框中,选择学生学习成绩。
然后,点击“OK”按钮开始进行分析。
SPSS将输出多元回归的结果。
关键的统计指标包括回归系数、显著性水平和拟合度。
回归系数表示每个自变量对因变量的影响程度,可以根据系数的大小和正负来判断影响的方向。
显著性水平表示自变量对因变量的影响是否显著,一般以p值小于0.05为标准。
拟合度指示了回归模型对数据的拟合程度,常用的指标有R方和调整后的R方。
在多元回归分析中,可以通过检查回归系数的符号和显著性水平来判断自变量对因变量的影响。
如果回归系数为正且显著,表示该自变量对因变量有正向影响;如果回归系数为负且显著,表示该自变量对因变量有负向影响。
此外,还可以使用其他方法来进一步解释和验证回归模型,例如残差分析、模型诊断等。
需要注意的是,在进行多元回归分析时,需要满足一些前提条件,例如自变量之间应该独立、与因变量之间应该是线性关系等。
多元统计分析与SPSS
图 系统聚类法主界面
• 2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类 分析统计量。这里我们选择系统默认值,点击Continue按 钮,返回主界面。 • 3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析 统计图。选中Dendrogram复选框和Icicle栏中的None单选 按钮,即只给出聚类树形图,而不给出冰柱图。单击 Continue按钮,返回主界面。
K均值聚类分析主界面
2. 点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框用于设定K-means算法迭代的最大次数, Convergence Criterion参数框用于设定算法的收敛判据, 其值应该介于0和1之间。例如判据设置为0.02,则当一次 完整的迭代不能使任何一个类中心距离的变动与原始类中 心距离的比小于2时,迭代停止。设置完这两个参数之后, 只要在迭代的过程中先满足了其中的参数,则迭代过程就 停止。这里我们选择系统默认的标准。单击Continue,返 回主界面。
我国各地区三次产业产值(单位:亿元)
第二产 业 X2 1311.86 1245.29 3657.19 1389.33 973.94 2898.89 1143.39 2532.45 3130.72 6787.11 4941.00 1780.60 2492.73 1227.38 6656.85 3551.94 第三产 业 X3 2255.60 1112.71 2377.04 852.07 756.38 2487.85 892.33 1396.75 3029.45 4567.37 3726.00 1458.97 2046.50 1043.08 4298.41 2256.95 地区 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 第一产 业 X1 798.35 886.47 1093.52 652.28 248.33 336.36 1128.61 298.37 502.84 40.62 320.03 236.61 46.15 55.50 412.90 第二产 业 X2 2580.58 1794.21 7307.08 1007.96 151.16 977.30 2266.06 579.31 1069.29 47.99 1133.56 607.62 184.26 192.00 796.84 第三产 业 X3 2022.78 1958.05 5225.27 1074.89 271.44 936.90 2061.65 478.43 893.16 95.89 944.99 460.37 159.80 137.84 667.87
第8讲.SPSS的多元统计分析:因子分析、聚类分析、判别分析
该方法假设变量是因子的纯线性 组合。第一主成份有最大的方差, 后续成分可解释的方差逐个递减。
输出未经旋转的因 子提取结果。 该图显示了按特征值大小排列的 因子序号,有助于确定保留多少 个因子。典型的碎石图会有一个 明显的拐点,在该拐点之前是与 大因子连接的陡峭的折线,之后 是与小因子相连的缓坡折线。 提取特征值大于指定数值的因子。 系统默认特征值为1.
输出原始分析变量间 的相关系数矩阵。 相关系数的逆矩阵
因子分析后的相关矩 阵以及残差矩阵
前者用于检验变量间的偏相关是否 很小;后者用于检验相关系数矩阵 是否为单位矩阵,如果是,则表明 不合适采用因子模型。
反映像相关矩阵包括偏相关系数 的负数;反映像协方差矩阵包括 偏协方差的负数;一个好的因子 模型,对角线上的元素应较大, 非对角线元素则较小。
因子分析
整体分析与设计的内容
四、输出分析
5.旋转后的因子载荷矩阵(待续)
从表中可知:第一主因子在 “交通和通信”、“医疗保健” 等 5 个指标上具有较大的载荷 系数; 第二主因子在“居住”和“衣 着”指标上系数较大。 第三主因子在“杂项商品与服 务”上的系数最大。 此时,各个因子的含义更加突 出。 第一主因子,是享受性消费因子,从系数的正负值可知:有的消费在递增,有的则递减。 第二主因子,是发展性消费因子,也包含了递增和递减的消费项目。 第三主因子,是其他类型的消费因子。
确定因子
因子旋转 求各因子得分 综合得分
因子分析
整体分析与设计的内容
三、操作
数据文件:“居民消费结构的变化.sav” 菜单:“分析→降维→因子分析”
选择符合条件的样本进行分析
因子分析
整体分析与设计的内容
三、操作
1.“描述”统计量
spss多元回归分析案例
spss多元回归分析案例SPSS多元回归分析是一种常用的统计方法,可以通过分析多个自变量对一个或多个因变量的影响程度,帮助研究者理解变量之间的关系以及预测变量之间的变化情况。
以下是一个关于人们消费意愿的多元回归分析的案例。
假设我们想研究人们的消费意愿受到收入水平、年龄和受教育水平的影响程度。
我们收集了100个参与者的数据,包括他们的收入、年龄、受教育水平以及消费意愿。
下面将介绍如何使用SPSS进行多元回归分析。
首先,在SPSS软件中打开数据文件,并选择"回归"菜单下的"线性回归"选项。
然后将因变量(消费意愿)拉入"因变量"框中,将自变量(收入、年龄、受教育水平)拉入"自变量"框中。
其次,点击"统计"按钮,在弹出的对话框中勾选"无多重共线性检验"、"离群值"和"样本相关矩阵"选项,并点击"确定"按钮。
接下来,点击"模型"按钮,在弹出的对话框中选择"全量"和"因素样本相关系数"选项,并点击"确定"按钮。
然后,点击"保存"按钮,在弹出的对话框中输入保存路径和文件名,并勾选"标准化残差"、"标准化预测值"和"离群值的DFITS"选项,并点击"确定"按钮。
最后,点击"OK"按钮开始进行多元回归分析。
在分析结果中,我们可以查看每个自变量的回归系数、标准误、t值以及显著性水平。
还可以查看整体模型的解释力、统计显著性和调整R 平方。
根据分析结果,我们可以得出结论:收入水平、年龄和受教育水平对消费意愿有显著影响。
收入水平对消费意愿的影响最大,其次是受教育水平,年龄对消费意愿的影响较小。
SPSS多元回归分析实例(最新整理)
多元回归分析在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。
可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型:其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。
多元回归在病虫预报中的应用实例:某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。
分级别数值列成表2-1。
预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。
预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。
表2-1x1 x2 x3 x4 y年蛾量级别卵量级别降水量级别雨日级别幼虫密度级别1960102241121 4.3121101 1961300144030.111141 196269936717.511191 196318764675417.1474554 1965431801 1.912111 19664222201010131 19678063510311.8232283 1976115124020.612171 197171831460418.4442454 19728033630413.4332263 19735722280213.224216219742641330342.243219219751981165271.84532331976461214017.515328319777693640444.7432444197825516510101112数据保存在“DATA6-5.SAV”文件中。
SPSS软件的应用——多元统计分析
多元统计分析学院:理学与信息科学学院专业班级:信息与计算科学 2012级01 班姓名:韩祖良(20125991)****:***2015 年6月1日作业1 方差分析三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表:1、方差分析的前提条件要求各总体服从正态分布,请给出正态分布的检验结果,另要求各总体方差齐性,给出方差齐性检验结果。
2、检验三组贫血患者的指标x1,x2间是否有显著差异,进行多元方差分析。
如果有显著差异,分析三组患者间x1指标是否有显著差异,x2指标是否有显著差异?3、最后进行两两比较,给出更具体的分析结果。
4. 画出三组患者x1,x2两指标的均值图。
答:1.将所需分析数据输入到SPSS中,首先判断各总体是否服从正态分布:对文件进行拆分:数据→拆分文件→按组组织输出→确定。
然后进行正态性检验:文件→描述统计→探索,在绘制对话框中,选择按因子水平分组和带检验的正态图,最后单击确定按钮。
最后得出结果如图(1),(2),(3)所示:表(1)由表(1)可以看出,A组的X1指标的Sig=0.907,X2的Sig=0.914,在检验标准为0.05的条件下,接受H0,拒绝H1,故得A组服从正态分布。
表(2)由表(2)可以看出,B组的X1指标的Sig=0.406,X2的Sig=0.765,在检验标准为0.05的条件下,接受H0,拒绝H1,故得B组服从正态分布。
表(3)由表(3)可以看出,C组的X1指标的Sig=0.337,X2的Sig=0.839,在检验标准为0.05的条件下,接受H0,拒绝H1,故得C组服从正态分布。
再检验各总体是否满足方差齐性:首先取消文件的拆分,对所有个案进行分析。
然后进行方差齐性检验:分析→一般线性模型→多变量,在选项对话框中,选择方差齐性检验,所得结果如下:表(4)上表是对协方差阵相等的检验,由Sig=0.670>0.05,故在显著性水平为0.05的条件下,接受H0,拒绝H1,即观测到的因变量的协方差矩阵在所有组中均相等,可得三组符合方差齐性。
SPSS的多元统计分析
计的因子得分与实际因子得分值之间的复相关系数的平方。 ● Bartlett:巴特利特法。选择此项,因子得分均值为0。超出变量范
围的各因子平方和被最小化。 ●Anderson-Rubin:安德森一鲁宾法。选择此项,是为了保证因子的正
交性。 本例选中“Regression”项。 ③ 在输出窗中显示因子得分。 ● Display factor score coefficient matrix:输出因子得分系数矩
阵。
9.1 SPSS在因子分析中的应用
第9章 SPSS的多元统计分析
9.1 SPSS在因子分析中的应用
9.1.1 因子分析的基本原理 1、方法概述
人们在研究实际问题时,往往希望尽可能多的收集相关变量,以期 望对问题有比较全面、完整的把握和认识 。 为解决这些问题,最简单和最直接的解决方案是减少变量数目,但 这必然又会导致信息丢失或不完整等问题。为此,人们希望探索一种 有效的解决方法,它既能减少参与数据分析的变量个数,同时也不会 造成统计信息的大量浪费和丢失。 因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多 个 变量减少为少数几个因子的方法。这几个因子可以高度概括大量 数据中的信息,这样,既减少了变量个数,又同样能再现变量之间的 内在联系。
选取公共因子的原则
是使其尽可能多的包含原始变量中的信息,建立模型 X AF ,忽
略
, 以F代替X,用它再现原始变量X的信息,达到简化变量降低维数的目
的。
9.1 SPSS在因子分析中的应用
3、基本步骤
由于实际中数据背景、特点均不相同,故采用因子分析步骤上可能 略有差异,但是一个较完整的因子分析主要包括如下几个过程: (1) 确认待分析的原变量是否适合作因子分析 因子分析的主要任务是将原有变量的信息重叠部分提取和综合成因 子,进而最终实现减少变量个数的目的。故它要求原始变量之间应存 在较强的相关关系。进行因子分析前,通常可以采取计算相关系数矩 阵、巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采 用因子分析。 (2)构造因子变量
[整理]SPSS处理多元方差分析例子.
实验三多元方差分析一、实验目的用多元方差分析说明民族和城乡对人均收入和文化程度的影响。
二、实验要求调查24个社区,得到民族与城乡有关数据如下表所示,其中人均收入为年均,单位百元。
文化程度指15岁以上小学毕业文化程度者所占百分比。
试依此数据通过方差分析说明民族和城乡对人均收入和文化程度的影响。
三、实验内容1.依次点击“分析”---- “常规线性模型”----“多变量”,将“人均收入”和“文化程度”加到“因变量”中,将“民族”和“居民”加到“固定因子”中,如下图一所示。
民族农村城市人均收入文化程度人均收入文化程度1 46,50,60,68 70,78,90,93 52,58,72,75 82,85,96,982 52,53,63,71 71,75,86,88 59,60,73,77 76,82,92,933 54,57,68,69 65,70,77,81 63,64,76,78 71,76,86,90【图一】2.点击“选项”,将“输出”中的相关选项选中,如下图二所示:【图二】3.点击“继续”,“确定”得到如下表一的输出:【表一】常规线性模型主体间因子值标签N民族 1.00 1 82.00 2 83.00 3 8居民 1.00 农村122.00 城市12描述性统计量民族居民均值标准差N人均收入 1 农村56.00009.93311 4 城市64.250011.026484 总计60.1250 10.6695582 农村59.7500 8.99537 4城市67.2500 9.10586 4总计63.5000 9.28901 8 3 农村62.0000 7.61577 4城市70.2500 7.84750 4总计66.1250 8.40812 8 总计农村59.2500 8.45442 12 城市67.2500 8.89458 12总计63.2500 9.41899 24文化程度1 农村82.7500 10.68878 4城市90.2500 7.93200 4总计86.5000 9.59166 8 2 农村80.0000 8.28654 4城市85.7500 8.18026 4总计82.8750 8.21910 8 3 农村73.2500 7.13559 4城市80.7500 8.77021 4总计77.0000 8.41767 8 总计农村78.6667 9.00841 12 城市85.5833 8.53291 12总计82.1250 9.27977 24协方差矩阵等同性的 Box 检验(a)Box 的 M 12.397F .587df1 15df2 1772.187Sig. .887检验零假设,即观测到的因变量的协方差矩阵在所有组中均相等。
上机部分-多元统计分析的SPSS实现
要给出Fisher判别函数的系数。这个复选框的名字之所以为 Fisher’s,是因为按判别函数值最大的一组进行归类这种思想 是由Fisher提出来的。这里极易混淆,请读者注意辨别。) Unstandardized:给出未标准化的Fisher判别函数(即典型判 别函数)的系数(SPSS默认给出标准化的Fisher判别函数系 数)。
Function 1 -2.177 -2.270 -2.741 -3.199 -2.582 9.674 8.332 10.128 8.342 9.491 -6.687 -7.163 -8.655 -4.766 -5.727 -20.714 -3.319 14.008 -7.595
Function 2 1.364 1.375 1.323 .638 .366 .231 -.613 -2.518 1.760 -.145 -.394 -.685 -1.823 -.608 -.270 -13.498 .831 2.086 -1.752
图4.4 Classify…子对话框
5. 单击Save按钮,指定在数据文件中生成代表判别分组结果 和判别得分的新变量,生成的新变量的含义分别为:
Predicted group membership:存放判别样品所属组别的值; Discriminant scores:存放Fisher判别得分的值,有几个典型
表4.4 个案观察结果表
Case wise Statistic s Highe st Group Squared Mahalanobis Dista nce to Centroid .297 .236 .117 .507 .418 .469 .868 5.985 4.793 .101 .139 .322 5.365 3.384 .998 361.567 .558 28.668 1.982 Disc riminant Sc ores
spss多元回归分析案例讲解
分析Coefficient表
四、得出各个模型中偏相关系数值: 1、B( 偏回归系数) ( 第2 列) 是控制了其他变量 后得到的。 2、除了两个模型的常数项系数显著性水平 >0.05,不影响。其他的系数的显著性水平为0. 000, 它们都<0. 05, 故属于小概率事件, 即拒 绝回归系数为零的假设, 即每个回归方程都有 意义。
y=-15038.574+1.365X1 +5859.585X219.553X3+154.698X4+539.642X5 注释:X1 初始工资、X2工作种类、X3过去经验、X4受 雇时间、X5受教育程度 注意:B( 偏回归系数) , 有一个缺点就是单位数量级不 一致时, 对它的比较毫无意义。 如:初始工资的单位为1, 而工作种类的单位为1 000 , 显然这时工作种类前面的回归系数可能很小。 故对它需要进行改进, 这就是Beta 系数。把所有 变量都事先进行标准化,消除偏回归系数带来的数 量单位的影响。
举例量474.所给变量共有6个:当前工资、初始 工资、工作种类、过去经验、受雇时间、受 教育程度。 准备建立一个以当前工资为因变量,其他变量 为自变量的回归方程。 判断哪些变量进入方程,并且给出对应系数。
1、选变量
要建立一个模型首先要选择变量,解释变量 和因变量之间要有一定的关系。 方法:散点图直接判断相关性和偏相关性系 数。 所要判断的变量:初始工资、工作种类、过 去经验、受雇时间、受教育程度
分析 ANOVA表
二、判断每一步模型总显著性 1、方差分析表显示了回归拟合过程中每一步的 方差分析结果。 2、F值的Sig.值均<0.001.每个模型都拒绝回归 系数均为0的假设,每个方程都是显著的。也 就是说一个新的变量进入模型后,模型仍然 显著,该模型不剔除某个变量,进入模型的 变量都包括。(逐步回归法)
SPSS中多元回归分析实例解析
1965 43 1 80 1 1.9 1 2 1 1
1
1966 422 2 20 1 0 1 0 1 3
1
1967 806 3 510 3 11.8 2 3 2 28 3
1976 115 1 240 2 0.6 1 2 1 7
1
1971 718 3 1460 4 18.4 4 4 2 45 4
1972 803 3 630 4 13.4 3 3 2 26 3
某地区病虫测报站用相关系数法选取了以下 4 个预报因子;x1 为最多连续 10 天 诱蛾量(头);x2 为 4 月上、中旬百束小谷草把累计落卵量(块);x3 为 4 月中旬降 水量(毫米),x4 为 4 月中旬雨日(天);预报一代粘虫幼虫发生量 y(头/m2)。 分级别数值列成表 2-1。
预报量 y:每平方米幼虫 0~10 头为 1 级,11~20 头为 2 级,21~40 头为 3 级, 40 头以上为 4 级。
1978 255 1 65 1 0 1 0 1 11 2
数据保存在“DATA6-5.SAV”文件中。
1)准备分析数据
在 SPSS 数据编辑窗口中,创建“年份”、“蛾量”、“卵量”、“降水量”、“雨日”和“幼 虫密度”变量,并输入数据。再创建蛾量、卵量、降水量、雨日和幼虫密度的分 级变量“x1”、“x2”、“x3”、“x4”和“y”,它们对应的分级数值可以在 SPSS 数据编 辑窗口中通过计算产生。编辑后的数据显示如图 2-1。
本例选中“Unstandardized”非标准化预测值。
②“Distances”距离栏选项:
Mahalanobis: 距离。 Cook’s”: Cook 距离。 Leverage values: 杠杆值。
③“Prediction Intervals”预测区间选项:
多元统计分析案例具体操作
多元统计分析案例具体操作一、多元回归分析高磷钢的效率(Y)与高磷钢的出钢量(X1)及高磷钢中的FeO含量(X2)有关, 所测数据如下表, 请用线性回归模型拟合上述数据。
试验序号出钢量X1 FeO含量X2 效率Y1 87.9 13.2 822 101.4 13.5 843 109.8 20 804 93.0 14.2 88.65 88.0 16.4 81.56 115.3 14.2 83.57 56.9 14.9 738 103.4 13 889 101 14.9 91.410 80.3 12.9 8111 96.5 14.6 7812 110.6 15.3 86.513 102.9 18.2 83.4利用SPSS统计软件,其解答过程如下:拟建立回归方程:Y=b0+b1*X1+b2*X2,步骤如下:(1)操作过程在数据输入之后,依次单击“分析”——“回归”——“线性”,在弹出的“线性回归”对话框中,将出钢量X1和FeO含量X2设为自变量,效率设为因变量,回归方法设为“进入”。
如下图:图1.1 (2)(3回归方程的回归系数:b0=75.144,b1=0.215,b2=-0.843拟合回归方程:Y=0.215*X1-0.843*X2+75.144 1)回归方程的显著性检验(F 检验):检验假设:012:0mH βββ==⋅⋅⋅==,1:jH β⋅⋅⋅各(j=1,2,,m)不全为0,0.05α=SS 总=SS 回+SS 残,其中F ~F(m ,n-m-1)残回残回(MS MS m n SS m SS F =--=)1//根据方差分析表(Anova ),MS 回=66.799,MS 残=14.759,从而F=4.515,F>F 0.05(2,10)(Sig<0.05),可知在显著性水平α=0.05,拒绝原假设H 0,自变量和因变量之间存在显著性的线性关系。
2)回归方程拟合优度检验: R 2=0.475,说明高磷钢的效率变异的47.5%可由其岀钢量和FeO 的含量的变化来解释。
多元统计分析及spss实现
2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与 失去样品的类,重新计算中心坐标;
3.重复步骤2,直到所有的样品都不能再分配时为止。
K-均值聚类法步骤流程图
寻找k个凝聚点: xi1 , xi 2 ,, xik
0 0 0 0 d ( x , x ) min d ( x , x ) G , G , , G x G 若 l im 1 jk l ij 则 l 1 2 k m;得
一、数据处理——建立数据文件:数据编辑
(1)数据的排序: 数据→排序个案… 数据→排列变量… (2)数据的转置: 数据→转置…
分割文件、重组、选择个案等
一、数据处理——制图
主要通过“Graph”菜单中的选项来创建图形
二、描述性统计
例2.1:数据2.1给出了员工代码、性别、起始薪金、 当前薪金等信息:
1.利用频率计算当前薪金的描述性统计量,并绘制
带正态检验的直方图;
2.利用探索性分析不同性别员工当前薪金情况;
3.用比率分析比较不同性别员工的薪金增长率是否 有较大差异; 4.用P-P图和Q-Q图检验当前薪金是否符合正态分布
二、描述性统计
1.利用频率计算当前薪金的描述性统计量,并绘制带正态 检验的直方图
系统聚类法与聚类步骤流程图
初始分类:
G1 x1, G2 x2 ,Gn xn ; k n
若 Gi 与 G j 距离最小,合并为一类
k n 1
k mBiblioteka noyes输出分类结果
三、聚类分析——常见聚类方法
B)K均值聚类
系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步 都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的 容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定 的困难。而K—均值法是一种快速聚类法,采用该方法得到的结果比较 简单易懂,对计算机的性能要求不高,因此应用也比较广泛。 K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想 是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包 括以下三个步骤: 1.将所有的样品分成K个初始类;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于SPSS的多元统计分析三种算法的实例研究摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。
关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。
根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。
本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。
1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。
为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。
文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。
1.3 模型建立 1.3.1 理论背景多元线性回归模型如下:εββββ+++++=p p X X X Y ......22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。
对于n 组观测值,其方程组形式为εβ+=X Y 即模型假设: ⑴零均值假设:()0i E ε= i=1,2,…,n⑵同方差:()2i Var εσ=⑶无自相关:⑷误差与自变量不相关:(),0ik i Cov X ε= i=1,2,…,n , k=0,1,…,p ⑸自变量之间无多重共线性 ()1r a n k X p =+1.3.2模型建立及SPSS 运算结果分析假设因变量Y (农村居民年人均生活消费支出)与自变量X 1(农村居民人均纯收入)、X 2(商品零售价格定基指数)、X 3(消费价格定基指数)、X 4(家庭恩格尔系数)、X 5(人均住宅建筑面积)满足下述等式:01122334455y X X X X X ββββββ=+++++强行回归:在SPSS 中进行强行回归,会得到如下表格:⑴输入变量从表1-1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数。
表1-1 输入的变量输入/移去的变量模型输入的变量移去的变量方法1X5, X2, X4, X1, X3a. 输入a. 已输入所有请求的变量。
描述性统计量均值标准偏差N Y 1847.2585 983.03837 20 X1 2391.890 1292.8874 20 X2 335.255 59.9815 20 X3 298.050 69.4300 20 X4 50.952 6.3407 20 X5 24.943 4.8762 20⑵拟合优度检验表1-2 拟合优度检验模型汇总b模型RR方调整 R方标准估计的误差更改统计量Durbin-WatsonR 方更改 F 更改df1df2Sig. F 更改1 .999a .998.997 56.89386 .998 1131.6725 14 .000 1.197a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-2是对回归方程的拟合优度检验的说明样本决定系数20.998R ,说明自变量可以解释因变量99.8%的变化,而调整后的样本决定系数2211(1)0.9971n R R n p -=--=--,这两个值非常接近1,所以拟合程度比较高。
⑶方程显著性检验表1-3 方程显著性检验Anova b模型平方和 df 均方 F Sig. 1回归 1.832E7 5 3663121.534 1131.672.000a 残差 45316.766 14 3236.912总计1.836E719a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-3是对回归方程显著性检验的说明统计量1131.672F =,对应的概率值0.000p =,说明回归方程显著成立(我们给定显著水平为0.05)。
⑷参数求解及其显著性检验表1-4 参数求解及显著性检验系数a模型非标准化系数标准系数 tSig.相关性共线性统计量B标准 误差 试用版 零阶 偏 部分 容差 VIF 1(常量) -1457.646 936.744-1.556 .142X1 .836.065 1.100 12.808 .000 .998 .960 .170 .024 41.819 X23.417 3.837 .209 .891 .388 .755 .232.012 .003310.892 X3 -5.293 4.780 -.374 -1.107 .287 .888 -.284 -.015 .002 646.608X4 16.657 11.904 .107 1.399 .184 -.896 .350.019 .030 33.443X5 35.611 24.308 .177 1.465 .165 .969 .365.019 .012 82.463a. 因变量: Y表1-4是对参数的求解及显著性检验的说明我们可以从上表看出系数向量()012345,,,,,Tβββββββ=的估计值,其中01457.646β∧=-,10.836β∧=,2 3.417β∧=,3 5.293β∧=-,416.657β∧=,535.611β∧= 则拟合的回归方程为123451457.6460.836 3.417 5.29316.65735.611Y X X X X X =-++-++另外,由上表中的t 检验(我们给定显著水平为0.10)知:只有自变量X 1(其对应的概率p=0.000)与因变量Y 在总体上存在比较显著的线性关系,其余自变量与因变量的线性关系不显著。
⑸多重共线性检验表1-5 共线性检验共线性诊断a模型 维数 特征值 条件索引方差比例(常量) X1 X2 X3 X4 X5 11 5.782 1.000 .00 .00 .00 .00 .00 .00 2.201 5.357 .00 .01 .00 .00 .00 .00 3 .014 20.626 .00 .04 .00 .00 .00 .00 4 .003 44.800 .00 .36 .00 .00 .04 .06 5 .000218.270.88 .29 .01 .01 .49 .87 63.947E-5 382.720.12.29.99.99.47.06a. 因变量: Y关于多重共线性的检测,我们采用计算条件索引或方差膨胀因子的方式。
当条件索引小于30的时候,说明共线性不明显。
从表1-5中可以看出,X 3、X 4、X 5所对应的条件索引都大于30,说明有一定的共线性。
另外从表1-4中可以看出方差膨胀因子VIF i (一般认为该值小于10时,说明不存在共线性)都大于10,说明变量之间存在严重的共线性。
⑹自相关检验从表1-2的Durbin-Watson 列我们得到回归模型的 1.197DW =,在(0,2)区间范围内,属于部分正自相关。
1.4 模型修正再运算与结果分析虽然上述的强行回归建立的线性回归方程具有很好的拟合度,并且方程的显著性也很高,但是部分参数的显著性并不高且具有比较严重的多重共线性关系。
所以本文又分别用逐步回归、向前回归、向后回归、岭回归对模型进行一定的修正,所得结果如下。
㈠逐步回归所谓逐步回归就是在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,然后从两端分别将影响显著的自变量选入和将影响不显著的变量剔除。
通过SPSS对附表一中的数据做逐步回归分析,得到下列数据表格:表1-6输入/移去的变量a模型输入的变量移去的变量方法1 X1 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
2 X4 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
3 X3 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
a. 因变量: Y表1-7模型汇总d模型R R 方调整 R 方标准估计的误差Durbin-Watson1 .998a.995 .995 70.621792 .998b.996 .996 63.892823 .999c.997 .997 57.49027 1.045a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-8Anova d模型平方和df 均方 F Sig.1 回归 1.827E7 1 1.827E7 3663.434 .000a 残差89773.881 18 4987.438总计 1.836E7 192 回归 1.829E7 2 9145762.730 2240.350 .000b 残差69398.978 17 4082.293总计 1.836E7 193 回归 1.831E7 3 6102680.780 1846.426 .000c 残差52882.098 16 3305.131总计 1.836E7 19a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-9系数a模型非标准化系数标准系数t Sig.相关性共线性统计量B标准误差试用版零阶偏部分容差VIF1 (常量)33.053 33.879 .976 .342X1 .758 .013 .998 60.526 .000 .998 .998 .998 1.000 1.0002 (常量)-741.801348.188-2.130 .048X1 .815 .028 1.071 29.525 .000 .998 .990 .440 .169 5.923 X4 12.569 5.626 .081 2.234 .039 -.896 .476 .033 .169 5.9233 (常量)-605.786319.15-1.898 .076X1 .866 .034 1.138 25.696 .000 .998 .988 .345 .092 10.903 X4 13.275 5.072 .086 2.617 .019 -.896 .548 .035 .168 5.946 X3 -.985 .441 -.070 -2.235 .040 .888 -.488 -.030 .186 5.385a. 因变量: Y表1-10共线性诊断a模型维数特征值条件索引方差比例(常量) X1 X4 X3 11 1.885 1.000 .06 .062 .115 4.044 .94 .942 1 2.805 1.000 .00 .00 .002 .194 3.800 .00 .13 .003 .001 53.599 1.00 .87 1.003 1 3.793 1.000 .00 .00 .00 .002 .200 4.359 .00 .06 .00 .003 .007 24.004 .01 .54 .02 .994 .001 62.482 .99 .40 .98 .01a. 因变量: Y从上述表格可以看出,SPSS在做逐步回归的时候,共得到了三个比较好的回归方程,及三种剔除变量的情况。