多元统计分析论文
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y1 0.4128 X 1 0.3230 X 2 0.4203 X 3 0.4172 X 4 0.4199 X 5 0.3177 X 6 0.31 37X 7 Y1 0.1642 X 1 0.5387 X 2 0.1642 X 3 0.2153 X 4 0.2020 X 5 0.5328 X 6 0.53 37X 7
由上可得:主成分对各原始变量的信息提取都很充分,达 90% 以上,信息损失 量较小,主成分对各原始变量的信息提取相对充分。
6
多元统计分析课程论文
表 3-3 解 释 的总 方 差 初始 特征 值 方差 成份 原始 1 2 3 4 5 6 7 重 新 标 1 度 2 3 4 5 6 7 合计 5.073 1.424 .206 .144 .079 .044 .031 5.073 1.424 .206 .144 .079 .044 .031 的 % 72.471 20.347 2.941 2.051 1.123 .628 .439 72.471 20.347 2.941 2.051 1.123 .628 .439 累积 % 72.471 92.818 95.759 97.810 98.933 99.561 100.000 72.471 92.818 95.759 97.810 98.933 99.561 100.000 5.073 1.424 72.471 20.347 72.471 92.818 合计 5.073 1.424 方差 的 % 72.471 20.347 累积 % 72.471 92.818
1.4 研究内容
研究35个省份的房价差异及其分组;将影响房价的七个指标降维,在损失很 小的情况下,得出几个主成分,使问题得到简化,提高分析效率;因子分析可以 提高对经济现象的分析和解释。
2
多元统计分析课程论文
2 聚类分析
通过聚类分析,得出 35 个省份按房价综合指标的分类。我首先对原始变量标 准化,采用组间的类平均法,距离计算选择平方欧氏距离,对样品进行聚类。 聚类分析输出结果:
表 2-1 聚类表 群集 组合 阶 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 群集 1 32 17 26 8 4 8 8 7 3 4 8 4 8 3 11 22 17 7 8 4 8 3 6 7 群集 2 33 25 32 18 35 15 30 12 9 16 14 34 19 20 13 31 26 21 29 17 22 8 28 11 系数 .121 .153 .181 .203 .209 .246 .341 .352 .369 .375 .407 .421 .562 .615 .645 .680 .725 .751 .782 .923 .987 1.221 1.327 1.407 首次 出现 阶群 集 群集 1 0 0 0 0 0 4 6 0 0 5 7 10 11 9 0 0 2 8 13 12 19 14 0 18 群集 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 17 16 21 0 15 下一 阶 3 17 17 6 10 7 11 18 14 12 13 20 19 22 24 21 20 24 21 25 22 27 30 27
表 3-5 主成 分 1 X1 X2 X3 X4 X5 X6 X7 0.4128 0.3230 0.4203 0.4172 0.4199 0.3177 0.3137 主成 分 2 0.1642 0.5387 - 0.1642 - 0.2153 - 0.2020 0.5328 - 0.5337
由上表得到前两个主成分 Y1 、 Y2 的线性组合为:
3
多元统计ቤተ መጻሕፍቲ ባይዱ析课程论文
25 26 27 28 29 30 31 32 33 34
4 2 3 1 3 3 3 2 2 1
5 23 7 10 24 6 4 3 27 2
1.448 1.816 2.012 2.163 2.688 3.548 4.567 5.570 8.518 14.000
20 0 22 0 27 29 30 26 32 28
5
多元统计分析课程论文
3 主成分分析
通过主成分分析, 在损失很少信息的前提下, 把七个指标转化为几个综合指标, 转化成的综合指标即为主成分,其中每个主成分都是原始变量的线性组合,且各个 主成分之间互不相关,这样使得主成分比原始变量具有更优越的性能。 主成分分析结果:
表 3-1 相 关 矩阵 Zscore (X1) 相关 Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) 1.000 .820 .809 .821 .803 .722 .534 Zscore(X 2) .820 1.000 .552 .489 .511 .885 .147 Zscore(X 3) .809 .552 1.000 .934 .942 .556 .760 表3-2 公 因子 方差 初始 Zscore( 房地 产开 发投 资额 ) Zscore( 商品 房销 售面 积 ) Zscore( 国内 生产 总值 ) Zscore( 城乡 居民 储蓄 年末 余款 ) Zscore( 地方 财政 预算 内收 入 ) Zscore( 年末 总人 口数 ) Zscore( 在岗 职员 平均 工资 ) 提取 方法 :主 成份 分析 。 1.000 1.000 1.000 1.000 1.000 1.000 1.000 提取 .902 .943 .934 .948 .951 .915 .905 Zscore(X 4) .821 .489 .934 1.000 .957 .513 .781 Zscore(X 5) .803 .511 .942 .957 1.000 .540 .787 Zscore(X 6) .722 .885 .556 .513 .540 1.000 .110 Zscore(X7) .534 .147 .760 .781 .787 .110 1.000
.727 .946 .939 .945 .715 .706
.643 -.196 -.257 -.241 .636 -.637
.727 .946 .939 .945 .715 .706
.643 -.196 -.257 -.241 .636 -.637
由成分矩阵表中的结果可以得到: 第一主成分对各个原始指标信息的提取量较大,第二指标较小。 0.929^2+0.727^2+0.946^2+0.939^2+0.945^2+0.715^2+0.706^2=5.065268= 第 一 主成分的方差 0.196^2+0.643^2+(-0.196)^2+(-0.257)^2+(-0.241)^2+0.636^2+(-0.637)^2=1.4246 76= 第二主成分的方差 对 SPSS 的因子分析模块运行结果输出的成分矩阵的第 i 列的每个元素分别除 以第 i 个特征根的平方根,就得到主成分分析的第 i 个主成分的系数,输出结果见 表 3-5 。
多元统计分析课程论文
本科生课程论文
课程名称: 多元统计分析 题 目:关于房价的分析研究
专业班级:统计 姓 名: 李 学 号:
完成时间: 2014 年 11 月 25 日
多元统计分析课程论文
关于房价的分析研究 摘 要
为了进一步研究中国房价上涨的原因,我选取了房地产开发投资额、商品房销 售面积、国内生产总值、城乡居民储蓄年末余款、地方财政预算内收入、年末总人 口数以及在岗职员平均工资这七个指标对这个问题进行分析。 由于各个指标的单位 不一致,故先将各指标数据进行标准化。然后就这七个指标对 35 个省份进行聚类 分析,得出各地房价的差异性。继而对这七个指标进行主成分分析,分析这七个变 量之间的相关关系,找出两个可以代表全局的主成分。最后再进行因子分析,根据 相关性的大小把原始变量分组,从而找出少数几个主要因子。以下是 通过 SPSS 软 件分析房价问题的起因,针对 2012 年各省份关于房地产的的数据,进一步深入探 究房价出现种种问题的根源所在,了解房价上涨的内在原因。 关键词:房价上涨,SPSS 软件,聚类分析,主成分分析,因子分析
a
提取 平方 和载 入
提取 方法 :主 成份 分析 。 a. 分析 协方 差矩 阵时 ,初 始特 征值 在整 个原 始解 和重 标刻 度解 中均 相同 。
Y2 的方差和占全部方差的比例为 92.82% 。 由输出结果可得, 前两个主成分 Y1 、 因此选取 Y1 为第一主成分,Y2 为第二主成分,且这两个主成分的方差和占全部方 差的 92.82% ,即 基本上保留了 原来指 标的信息,这样由原 来的 7 个指标转化 为 2 个新指标,起到了降维的作用。
表 3-4 成 份 矩阵 原始 成份 1 Zscore(X1) .929 2 .196 1 .929
a
重新 标度 成份 2 .196
7
多元统计分析课程论文
Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) 提取 方法 :主成 份。 a. 已提 取了 2 个成 份。
利用 SPSS 软件,运用聚类分析、主成分分析以及因子分析的方法,对关于房 价的数据进行分析,得出结论。采用 2012 年我国 35 个主要省份的房地产开发投资 额、商品房销售面积、国内生产总值、城乡居民储蓄年末余款、地方财政预算内收 入、年末总人口数以及在岗职员平均工资这七个指标,来研究影响房价的因素。
0 0 24 0 0 23 25 31 0 33
31 32 29 34 30 31 32 33 34 0
4
多元统计分析课程论文
图 2-2
根据聚类分析的输出结果,35 个省份根据这七个指标可以分为四类。在距离 为 10 的位置往下切,得到如下的分类结果:1:{北京,上海};2:{重庆};3:{天 津,广州};其他的省份分到第 4 类。从各个省份的实际指标值看,重庆在七项指 标上都与其他省份存在显著差异, 归为一类比较合适。 北京和上海的经济比较发达, 故其可分为一类。天津和广州差异很小,故单独归为一类。由此可看出,经济越发 达的城市,房价水平越高,经济水平相近的城市,房价水平也相近。
其中 X 1 、 X 2 、 X 3 、 X 4 、 X 5 、 X 6 、 X 7 是对原始变量标准化后的变量。 此案例中有 7 个指标,这 7 个指标有很强的依赖性,通过主成分计算后,我们 选择了 2 个主成分,这 2 个主成分具有明显的经济意义。第一个主成分中,房地产
1
多元统计分析课程论文
1
绪 论
2000 年 以来进入本世 纪,中国大陆房地 产市场改革在 新的一波 房 地产投资 热
1.1 课题研究背景及目的
潮的推动下迅速升温。2001 年房地产投资 6245 亿元,占全社会总投资 36898 亿元 的 16.9%, 到 2004 年 房 地产 投 资升高 到 14480.75 亿元 , 占社 会 总投 资 58620.28 亿元的 24.7%(2005 年上半年房地产业投资 6193 亿元,总投资 32895 亿元,占比 18。8%)。与此同时,政府也出台多项优惠政策,以期望房地产业成为新兴的支柱 产业。使用的方法包括,退还个人所得税,降低交易契税,放宽银行贷款条件,加 大房地产业扶持力度等等。在这种背景下,房价开始迅速窜升。 针对 2012 年天价房地产的的现状,进一步深入探究房价出现种种问题的根源 所在,加强对当前我国房价的认识,我就房价问题展开了深入的分析研究。
1.2 研究现状
目前国内有很多关于房价上涨的报道,其原因也多种多样。自进入 21 世纪以 来, 房价问题的社会关注度不断提高, 不断攀升的房价让越来越多的民众叫苦不迭, 买房难成了社会上的普遍问题。尽管如此,地方政府的抬价,开发商的炒作,媒体 的肆意报道,买房投资者的推波助澜,让房价泡沫日趋增大。
1.3 研究方法
由上可得:主成分对各原始变量的信息提取都很充分,达 90% 以上,信息损失 量较小,主成分对各原始变量的信息提取相对充分。
6
多元统计分析课程论文
表 3-3 解 释 的总 方 差 初始 特征 值 方差 成份 原始 1 2 3 4 5 6 7 重 新 标 1 度 2 3 4 5 6 7 合计 5.073 1.424 .206 .144 .079 .044 .031 5.073 1.424 .206 .144 .079 .044 .031 的 % 72.471 20.347 2.941 2.051 1.123 .628 .439 72.471 20.347 2.941 2.051 1.123 .628 .439 累积 % 72.471 92.818 95.759 97.810 98.933 99.561 100.000 72.471 92.818 95.759 97.810 98.933 99.561 100.000 5.073 1.424 72.471 20.347 72.471 92.818 合计 5.073 1.424 方差 的 % 72.471 20.347 累积 % 72.471 92.818
1.4 研究内容
研究35个省份的房价差异及其分组;将影响房价的七个指标降维,在损失很 小的情况下,得出几个主成分,使问题得到简化,提高分析效率;因子分析可以 提高对经济现象的分析和解释。
2
多元统计分析课程论文
2 聚类分析
通过聚类分析,得出 35 个省份按房价综合指标的分类。我首先对原始变量标 准化,采用组间的类平均法,距离计算选择平方欧氏距离,对样品进行聚类。 聚类分析输出结果:
表 2-1 聚类表 群集 组合 阶 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 群集 1 32 17 26 8 4 8 8 7 3 4 8 4 8 3 11 22 17 7 8 4 8 3 6 7 群集 2 33 25 32 18 35 15 30 12 9 16 14 34 19 20 13 31 26 21 29 17 22 8 28 11 系数 .121 .153 .181 .203 .209 .246 .341 .352 .369 .375 .407 .421 .562 .615 .645 .680 .725 .751 .782 .923 .987 1.221 1.327 1.407 首次 出现 阶群 集 群集 1 0 0 0 0 0 4 6 0 0 5 7 10 11 9 0 0 2 8 13 12 19 14 0 18 群集 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 17 16 21 0 15 下一 阶 3 17 17 6 10 7 11 18 14 12 13 20 19 22 24 21 20 24 21 25 22 27 30 27
表 3-5 主成 分 1 X1 X2 X3 X4 X5 X6 X7 0.4128 0.3230 0.4203 0.4172 0.4199 0.3177 0.3137 主成 分 2 0.1642 0.5387 - 0.1642 - 0.2153 - 0.2020 0.5328 - 0.5337
由上表得到前两个主成分 Y1 、 Y2 的线性组合为:
3
多元统计ቤተ መጻሕፍቲ ባይዱ析课程论文
25 26 27 28 29 30 31 32 33 34
4 2 3 1 3 3 3 2 2 1
5 23 7 10 24 6 4 3 27 2
1.448 1.816 2.012 2.163 2.688 3.548 4.567 5.570 8.518 14.000
20 0 22 0 27 29 30 26 32 28
5
多元统计分析课程论文
3 主成分分析
通过主成分分析, 在损失很少信息的前提下, 把七个指标转化为几个综合指标, 转化成的综合指标即为主成分,其中每个主成分都是原始变量的线性组合,且各个 主成分之间互不相关,这样使得主成分比原始变量具有更优越的性能。 主成分分析结果:
表 3-1 相 关 矩阵 Zscore (X1) 相关 Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) 1.000 .820 .809 .821 .803 .722 .534 Zscore(X 2) .820 1.000 .552 .489 .511 .885 .147 Zscore(X 3) .809 .552 1.000 .934 .942 .556 .760 表3-2 公 因子 方差 初始 Zscore( 房地 产开 发投 资额 ) Zscore( 商品 房销 售面 积 ) Zscore( 国内 生产 总值 ) Zscore( 城乡 居民 储蓄 年末 余款 ) Zscore( 地方 财政 预算 内收 入 ) Zscore( 年末 总人 口数 ) Zscore( 在岗 职员 平均 工资 ) 提取 方法 :主 成份 分析 。 1.000 1.000 1.000 1.000 1.000 1.000 1.000 提取 .902 .943 .934 .948 .951 .915 .905 Zscore(X 4) .821 .489 .934 1.000 .957 .513 .781 Zscore(X 5) .803 .511 .942 .957 1.000 .540 .787 Zscore(X 6) .722 .885 .556 .513 .540 1.000 .110 Zscore(X7) .534 .147 .760 .781 .787 .110 1.000
.727 .946 .939 .945 .715 .706
.643 -.196 -.257 -.241 .636 -.637
.727 .946 .939 .945 .715 .706
.643 -.196 -.257 -.241 .636 -.637
由成分矩阵表中的结果可以得到: 第一主成分对各个原始指标信息的提取量较大,第二指标较小。 0.929^2+0.727^2+0.946^2+0.939^2+0.945^2+0.715^2+0.706^2=5.065268= 第 一 主成分的方差 0.196^2+0.643^2+(-0.196)^2+(-0.257)^2+(-0.241)^2+0.636^2+(-0.637)^2=1.4246 76= 第二主成分的方差 对 SPSS 的因子分析模块运行结果输出的成分矩阵的第 i 列的每个元素分别除 以第 i 个特征根的平方根,就得到主成分分析的第 i 个主成分的系数,输出结果见 表 3-5 。
多元统计分析课程论文
本科生课程论文
课程名称: 多元统计分析 题 目:关于房价的分析研究
专业班级:统计 姓 名: 李 学 号:
完成时间: 2014 年 11 月 25 日
多元统计分析课程论文
关于房价的分析研究 摘 要
为了进一步研究中国房价上涨的原因,我选取了房地产开发投资额、商品房销 售面积、国内生产总值、城乡居民储蓄年末余款、地方财政预算内收入、年末总人 口数以及在岗职员平均工资这七个指标对这个问题进行分析。 由于各个指标的单位 不一致,故先将各指标数据进行标准化。然后就这七个指标对 35 个省份进行聚类 分析,得出各地房价的差异性。继而对这七个指标进行主成分分析,分析这七个变 量之间的相关关系,找出两个可以代表全局的主成分。最后再进行因子分析,根据 相关性的大小把原始变量分组,从而找出少数几个主要因子。以下是 通过 SPSS 软 件分析房价问题的起因,针对 2012 年各省份关于房地产的的数据,进一步深入探 究房价出现种种问题的根源所在,了解房价上涨的内在原因。 关键词:房价上涨,SPSS 软件,聚类分析,主成分分析,因子分析
a
提取 平方 和载 入
提取 方法 :主 成份 分析 。 a. 分析 协方 差矩 阵时 ,初 始特 征值 在整 个原 始解 和重 标刻 度解 中均 相同 。
Y2 的方差和占全部方差的比例为 92.82% 。 由输出结果可得, 前两个主成分 Y1 、 因此选取 Y1 为第一主成分,Y2 为第二主成分,且这两个主成分的方差和占全部方 差的 92.82% ,即 基本上保留了 原来指 标的信息,这样由原 来的 7 个指标转化 为 2 个新指标,起到了降维的作用。
表 3-4 成 份 矩阵 原始 成份 1 Zscore(X1) .929 2 .196 1 .929
a
重新 标度 成份 2 .196
7
多元统计分析课程论文
Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) 提取 方法 :主成 份。 a. 已提 取了 2 个成 份。
利用 SPSS 软件,运用聚类分析、主成分分析以及因子分析的方法,对关于房 价的数据进行分析,得出结论。采用 2012 年我国 35 个主要省份的房地产开发投资 额、商品房销售面积、国内生产总值、城乡居民储蓄年末余款、地方财政预算内收 入、年末总人口数以及在岗职员平均工资这七个指标,来研究影响房价的因素。
0 0 24 0 0 23 25 31 0 33
31 32 29 34 30 31 32 33 34 0
4
多元统计分析课程论文
图 2-2
根据聚类分析的输出结果,35 个省份根据这七个指标可以分为四类。在距离 为 10 的位置往下切,得到如下的分类结果:1:{北京,上海};2:{重庆};3:{天 津,广州};其他的省份分到第 4 类。从各个省份的实际指标值看,重庆在七项指 标上都与其他省份存在显著差异, 归为一类比较合适。 北京和上海的经济比较发达, 故其可分为一类。天津和广州差异很小,故单独归为一类。由此可看出,经济越发 达的城市,房价水平越高,经济水平相近的城市,房价水平也相近。
其中 X 1 、 X 2 、 X 3 、 X 4 、 X 5 、 X 6 、 X 7 是对原始变量标准化后的变量。 此案例中有 7 个指标,这 7 个指标有很强的依赖性,通过主成分计算后,我们 选择了 2 个主成分,这 2 个主成分具有明显的经济意义。第一个主成分中,房地产
1
多元统计分析课程论文
1
绪 论
2000 年 以来进入本世 纪,中国大陆房地 产市场改革在 新的一波 房 地产投资 热
1.1 课题研究背景及目的
潮的推动下迅速升温。2001 年房地产投资 6245 亿元,占全社会总投资 36898 亿元 的 16.9%, 到 2004 年 房 地产 投 资升高 到 14480.75 亿元 , 占社 会 总投 资 58620.28 亿元的 24.7%(2005 年上半年房地产业投资 6193 亿元,总投资 32895 亿元,占比 18。8%)。与此同时,政府也出台多项优惠政策,以期望房地产业成为新兴的支柱 产业。使用的方法包括,退还个人所得税,降低交易契税,放宽银行贷款条件,加 大房地产业扶持力度等等。在这种背景下,房价开始迅速窜升。 针对 2012 年天价房地产的的现状,进一步深入探究房价出现种种问题的根源 所在,加强对当前我国房价的认识,我就房价问题展开了深入的分析研究。
1.2 研究现状
目前国内有很多关于房价上涨的报道,其原因也多种多样。自进入 21 世纪以 来, 房价问题的社会关注度不断提高, 不断攀升的房价让越来越多的民众叫苦不迭, 买房难成了社会上的普遍问题。尽管如此,地方政府的抬价,开发商的炒作,媒体 的肆意报道,买房投资者的推波助澜,让房价泡沫日趋增大。
1.3 研究方法