最新多元统计分析-实验三
多元统计分析实验报告
第二部分:实验过程记录(可加页) (包括实验原始数据记录,实验现象记录,实验过程发现的问题
等) 操作步骤: 1、 执行“分析”—“比较均值”—“单因素方差分析” ; 2、 在弹出的单因素方差分析对话框中,将时期选为因子,将 X1、X2、X3、X4 选为因变量; 3、 单击“对比” ,选择“多项式” ,在后面的下拉菜单中选择“线性” ,然后继续; 4、 单击“两两比较” ,选择“LSD”和“S-N-K” ,显著性水平默认为 0.05,然后继续; 5、 单击“选项” ,选择“方差同质性检验”和“均值图” ,然后继续,点击“确定”后即可输出结果。
12
题目:研究者提出,随着时间的推移头骨尺寸会发生变化,这是外来移民与原住民人口民族融合的证据。表 6.13 是古埃及三个时期的男性头骨的四个观测值得观测数据,这是个观测变量是: X1=头骨最大的最大宽度 X2=头骨高度 X3=头骨底穴至齿槽的长度 X4=头骨鼻梁高度 对古埃及头骨数据构造单因子 MANOVA 表, a=0.05.并构造 95%联合置信区间来判断在三个时期中哪个分 令 量的均值发生了改变。同常的 MANOVA 假设对这些数据是不是合理的?请解释。 部分数据如下:
实验课程名称:多元统计分析-均值向量检验
实验项目名称 实 验 者 同 组 者
均值向量检验习题 均值向量检验习题 6.24
专业班级
实验成绩 实验成绩 组 别 年 月 日
实验日期
一部分:实验预习报告(包括实验目的、意义,实验基本原理与方法,主要仪器设备及耗材,实验
方案与技术路线等) 实验目的:深入了解方差分析及方差分析的概念,掌握方差分析的基本原理;掌握方差分析的过程;增强实 践能力,能够动手用统计软件解决实际问题,熟练掌握方差分析的基本操作。 实验原理:多个正态总体均值向量检验(多元方差分析) 设 有 k 个 p 元 正 态 总 体 N p ( µ1 , Σ), L , N p ( µ k , Σ) , 从 每 个 总 体 抽 取 独 立 样 品 个 数 分 别 为
多元统计分析与统计软件实验指导书——实验三 判别分析
实验三判别分析【实验目的】1.通过上机操作使学生掌握判别分析方法在SPSS软件中的实现。
2.要求学生重点掌握该方法的用途,能正确解释软件处理的结果。
【实验性质】必修,基础层次【实验仪器及软件】计算机及SPSS软件【实验内容】学会判别分析的基本操作,熟悉各对话窗口,对输出的分析结果进行解读并给出分析结论。
【实验学时】4学时【实验注意事项】1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。
2.遇到各种难以处理的问题,请询问指导教师。
3.为保证计算机的安全,上机过程中非经指导教师和实验室管理人员同意,禁止使用移动存储器。
4.每次上机,个人应按规定要求使用同一计算机,如因故障需更换,应报指导教师或实验室管理人员同意。
5.上机时间,禁止使用计算机从事与课程无关的工作。
【实验例题】为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。
试建立判别函数,判定广东、西藏分别属于哪个收入类型。
判别指标及原始数据见表1。
表1:1991年30个省、市、自治区城镇居民月平均收人数据表单位:元/人x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体)x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体)x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入x4:人均集体所有制工资收入 x9:个体劳动者收入x5:人均集体所有制职工标准工资样品序地区x1x2x3x4x5x6x7x8x9类序G11 北京170.03110.259.768.38 4.4926.8016.4411.90.412 天津141.5582.5850.9813.49.3321.3012.369.21 1.053 河北119.4083.3353.3911.07.5217.3011.7912.00.704 上海194.53107.860.2415.68.8831.0021.0111.80.165 山东130.4686.2152.3015.910.520.6l12.149.610.476 湖北119.2985.4153.0213.18.4413.8716.478.380.517 广西134.46 98.6148.188.90 4.3421.4926.1213.6 4.568 海南143.79 99.97 45.60 6.30 1.56 18.67 29.49 11.8 3.829 四川128.05 74.96 50.13 13.9 9.62 16.14 10.18 14.5 1.2110 云南127.41 93.54 50.57 10.5 5.87 19.41 21.20 12.6 0.9011 新疆122.96 101.4 69.70 6.30 3.86 11.30 18.96 5.62 4.62G21 山西102.49 71.72 47.72 9.42 6.96 13.12 7.9 6.66 0.612 内蒙古106.14 76.27 46.19 9.65 6.27 9.655 20.1O 6.97 0.963 吉林104.93 72.99 44.60 13.7 9.01 9.435 20.61 6.65 1.684 黑龙江103.34 62.99 42.95 11.1 7.4l 8.342 10.19 6.45 2.685 江西98.089 69.45 43.04 11.4 7.95 10.59 16.50 7.69 1.086 河南104.12 72.23 47.31 9.48 6.43 13.14 10.43 8.30 1.117 贵州108.49 80.79 47.52 6.06 3.42 13.69 16.53 8.37 2.858 陕西113.99 75.6 50.88 5.21 3.86 12.94 9.492 6.77 1.279 甘肃114.06 84.31 52.78 7.81 5.44 10.82 16.43 3.79 1.1910 青海108.80 80.41 50.45 7.27 4.07 8.371 18.98 5.95 0.8311 宁夏115.96 88.2l 51.85 8.81 5.63 13.95 22.65 4.75 0.97G31 辽宁128.46 68.91 43.4l 22.4 15.3 13.88 12.42 9.01 1.412 江苏135.24 73.18 44.54 23.9 15.2 22.38 9.661 13.9 1.193 浙江162.53 80.11 45.99 24.3 13.9 29.54 10.90 13.0 3.474 安徽111.77 71.07 43.64 19.4 12.5 16.68 9.698 7.02 0.635 福建139.09 79.09 44.19 18.5 10.5 20.23 16.47 7.67 3.086 湖南124.00 84.66 44.05 13.5 7.47 19.11 20.49 10.3 1.76待判1 广东211.30 114.0 41.44 33.2 11.2 48.72 30.77 14.9 11.12 西藏175.93 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0.00贝叶斯判别的SPSS操作方法:1. 建立数据文件2.单击Analyze→Classify→Discriminant,打开Discriminant Analysis判别分析对话框如图1所示:图1 Discriminant Analysis判别分析对话框3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。
多元统计分析课程多元统计分析实验指导书
统计学专业《多元统计分析》课程实验指导书主撰人:李燕辉主审人:潘文荣刖言《多元统计分析》是统计学专业的一门重要的专业主干课。
它主要用于研究多维随机变量之间相互关系及内在统计规律,是认识和探索社会经济现象数量方面关系的重要方法和工具,在实际工作中具有广泛的应用前景。
由于其理论涉及的数学知识多而深,是本科生中最难学的一门课。
传统的教学方法主要是从理论上讲授,由于计算复杂、工作量大、分析过程长、计算工具和硬件条件等原因,讲授过程中举例比较困难,脱离实践,教学效果不理想。
由于统计专业学习多元统计分析,主要是掌握每个方法的基本原理,能够运用多元统计分析方法分析社会经济现象,该课程的教学更应强调方法的应用、学生实际操作能力和解决实际问题能力的培养。
为此,我们对该课程的教学进行多方面改革,以培养学生应用能力为主线,将多媒体技术、统计分析软件、案例教学、实践教学等有机结合起来,达到提高课堂教学效率和教学质量的目的,使学生真正掌握多元统计分析方法,培养了学生动手能力、数据分析能力、使用统计分析软件能力以及对实际经济问题的综合统计分析能力。
在我们的教学实践中,将《多元统计分析》总课时分解为课堂教学和实验教学两个部分。
该实验指导书就是为《多元统计分析》实验课设计的。
目录第一部份绪论(2)第二部份基本实验指导(3)实验一均值检验、多元方差分析(3)实验二聚类分析、判别分析(3)实验三因子分析、主成分分析(4)实验四联合分析(5)实验五对应分析(6)实验六多元数据综合分析(7)第一部份绪论本指导书是根据《多元统计分析》课程实验教学大纲编写的,适用于统计学专业。
一、本课程实验的作用与任务本课程为统计学专业必修的技术课程。
通过实验教学,使学生能够更好地了解多元统计分析的基本概念和基本原理,对一些常用的多元统计思想和统计方法有更深的认识,提高学生处理常见的多元统计问题的实际操作能力。
要求学生密切关注社会经济中的热点问题,独立进行思考,查找自己感兴趣的研究资料,自己动手设计多元变量,以提高学生解决实际问题的能力。
多元统计分析实验报告
1.正态性检验Kolmogorov-Smirnov a Shapiro-Wilk统计量df Sig. 统计量df Sig.净资产收益率.113 35 .200*.978 35 .677总资产报酬率.121 35 .200*.964 35 .298资产负债率.086 35 .200*.962 35 .265总资产周转率.180 35 .006 .864 35 .000流动资产周转率.164 35 .018 .885 35 .002已获利息倍数.281 35 .000 .551 35 .000销售增长率.103 35 .200*.949 35 .104资本积累率.251 35 .000 .655 35 .000*. 这是真实显著水平的下限。
a. Lilliefors 显著水平修正此表给出了对每一个变量进行正态性检验的结果,因为该例中样本中n=35<2000,所以此处选用Shapiro-Wilk统计量。
由Sig.值可以看到,总资产周转率、流动资产周转率、已获利息倍数及资本积累率均明显不遵从正态分布,因此,在下面的分析中,我们只对净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标进行比较,并认为这四个变量组成的向量遵从正态分布(尽管事实上并非如此)。
这四个指标涉及公司的获利能力、资本结构及成长能力,我们认为这四个指标可以对公司运营能力做出近似的度量。
2.主体间因子N行业电力、煤气及水的生产和供应业11 房地行业15 信息技术业9多变量检验a效应值 F 假设df 误差df Sig.截距Pillai 的跟踪.967 209.405b 4.000 29.000 .000 Wilks 的Lambda .033 209.405b 4.000 29.000 .000 Hotelling 的跟踪28.883 209.405b 4.000 29.000 .000 Roy 的最大根28.883 209.405b 4.000 29.000 .000行业Pillai 的跟踪.481 2.373 8.000 60.000 .027 Wilks 的Lambda .563 2.411b8.000 58.000 .025 Hotelling 的跟踪.698 2.443 8.000 56.000 .024Roy 的最大根.559 4.193c 4.000 30.000 .008a. 设计: 截距+ 行业b. 精确统计量c. 该统计量是F 的上限,它产生了一个关于显著性级别的下限。
SPSS多元统计分析实验报告
实 验 课名称:SPSS统计分析
实验项目名称:多元线性回归分析
专 业 名 称:统计学
班 级:
学 号:
学 生 姓 名:
教 师 姓 名:
2014年12月20日
组别同组同学
实验日期2014年12月20日 实验名称多元统计分析
一、实验名称:
多元统计分析
二、实验目的和要求:
通过运用SPSS软件的多元统计分析揭示主管性格与雇员对其整体满意度之间的关系掌握多元统计分析的原理及建模过程。
六、实验结果与分析
通过以上建模和检验过程,最后得到的符合实际且具有统计意义的方程为:Y=0.78X1,即雇员对主管的满意程度只与主管处理雇员的抱怨有关,且成正相关。
七、讨论和回答问题及体会:
1.通过学习,我掌握了多元线性回归的基本原理和步骤,并学会运用SPSS软件进行处理该类问题和比较熟练地分析结果。
设随机变量y与一般变量x1,x2……xk的线性回归模型为:
y=β0+β1*x1+β2*x2+……+βk*xk+ε
其中β0,β1,β2……+βk是k+1个未知参数,β0称为回归常数,β1,β2……+βk称为回归系数,y称为被解释变量;x1,x2……xk称为解释变量。通过最小二乘法估算出各系数,并测定方程的拟合程度、检验回归方程和回归系数的显著性,得到最后的方程。
3运用SPSS软件进行多元分析对模型进行整理,比较调整的R系数、方差分析表、回归分析结果(各系数机器t检验等)、共显性检验等统计方法,得出结果。
四、实验仪器与设备:
SPSS软件、兼容SPSS软件的电脑一台、老师给的数据素材。
五、实验原理:
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一员线性回归模型类似,计算公式如下:
多元统计实验报告
多元统计实验报告多元统计实验报告关于某校导师研究⽣指标的分配问题班级:***姓名:***学号:***⽬录⼀.问题背景 (4)⼆.实验要求 (4)三.数据预处理 (4)3.1 数据分离3.2 数量化3.3 归⼀化四.建模及求解 (6)4.1多元线性回归填补模型 (6)4.1.1 多元线性回归模型简介4.1.1.1 向前选择法4,1.1.2 向后消去法4.1.1.3 逐步删选法4.1.2 多元线性回归填补模型4.1.2.1 建模4.1.2.1 求解A. 向前选择法B. 向后消去发C. 逐步删选法4.2判别分析填补模型 (9)4.2.1 判别分析模型简介4.2.1.1 概论4.2.1.2 分类4.2.1.3 常⽤判别⽅法A. 距离判别法B. Fisher判别法C. Bayes判别法4.2.2 判别分析填补模型4.2.2.1 建模4.2.2.2 求解4.3主成分分析验证模型 (12)4.3.1 主成分分析简介4.3.1.1 概论4.3.1.2 数学模型4.3.1.3 主成分分析步骤4.3.2 主成分分析验证模型4.3.2.1 建模4.3.2.2 求解4.4典型相关分析验证模型 (15)4.4.1 典型相关性分析简介4.4.1.1 概论4.4.1.2 数学模型4.4.2 典型相关性分析验证模型4.4.2.1 建模4.4.2.2 求解A. 典型相关结果B. 多种多元统计结果⽐较C. 典型变量的标准线性⽅程D. 原始变量与典型变量的相关度4.5聚类分析 (18)4.5.1 聚类分析简介4.5.1.1 概论4.5.1.2 常⽤⽅法A.最短距离法B.平均距离法C.Ward法4.5.1 聚类分析4.5.1.1 建模4.5.1.2 求解A.聚类图形表⽰B.Ward聚类详解C.基于Ward分类的预测五.体会及建议 (24)六.SAS程序 (25)七.附录 (28)⼀.问题背景⾼等学校研究⽣招⽣指标分配问题,对研究⽣的培养质量、教育资源利⽤率、学科建设和科研成果的取得有直接影响。
多元统计分析实验报告(精选多篇)
多元统计分析实验报告(精选多篇)第一篇:多元统计分析实验报告多元统计分析得实验报告院系:数学系班级:13级 B 班姓名:陈翔学号:20131611233 实验目得:比较三大行业得优劣性实验过程有如下得内容:(1)正态性检验;(2)主体间因子,多变量检验a;(3)主体间效应得检验;(4)对比结果(K 矩阵);(5)多变量检验结果;(6)单变量检验结果;(7)协方差矩阵等同性得Box 检验a,误差方差等同性得Levene 检验 a;(8)估计;(9)成对比较,多变量检验;(10)单变量检验。
实验结果:综上所述,我们对三个行业得运营能力进行了具体得比较分析,所得数据表明,从总体来瞧,信息技术业要稍好于电力、煤气及水得生产与供应业以及房地产业。
1。
正态性检验Kolmogorov-SmirnovaShapir o—Wilk 统计量 df Sig.统计量df Sig、净资产收益率。
113 35、200*。
978 35。
677 总资产报酬率。
121 35、200*。
964 35、298 资产负债率。
086 35。
200*.962 35、265 总资产周转率.180 35、006。
864 35。
000流动资产周转率、164 35、018.88535、002 已获利息倍数、28135.000。
55135、000 销售增长率.103 35、200*。
949 35、104 资本积累率。
251 35。
000、655 35。
000 *。
这就是真实显著水平得下限。
a。
Lilliefors显著水平修正此表给出了对每一个变量进行正态性检验得结果,因为该例中样本中n=35<2000,所以此处选用 Shapiro—W ilk 统计量。
由 Sig。
值可以瞧到,总资产周转率、流动资产周转率、已获利息倍数及资本积累率均明显不遵从正态分布,因此,在下面得分析中,我们只对净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标进行比较,并认为这四个变量组成得向量遵从正态分布(尽管事实上并非如此)。
多元均值检验实验报告(3篇)
第1篇一、实验目的本实验旨在通过多元均值检验,探讨不同样本群体在多个指标上的均值是否存在显著差异。
实验通过对多个样本群体进行统计分析,验证多元均值假设,为实际应用提供理论依据。
二、实验背景在现实研究中,我们常常需要对多个指标同时进行考察,以全面了解研究对象的特点。
然而,在多个指标同时存在的情况下,如何判断不同样本群体在多个指标上的均值是否存在显著差异,成为了一个重要问题。
多元均值检验作为一种常用的统计方法,能够帮助我们解决这一问题。
三、实验方法1. 数据来源:本次实验数据来源于某高校学生体质健康测试,包括身高、体重、肺活量、立定跳远等四个指标。
2. 样本分组:将实验对象分为两组,分别为男生组和女生组。
3. 统计方法:采用多元均值检验方法,对两组样本在身高、体重、肺活量、立定跳远四个指标上的均值进行检验。
4. 软件工具:SPSS 26.0四、实验过程1. 数据录入:将实验数据录入SPSS数据编辑器中。
2. 描述性统计:对四个指标进行描述性统计分析,包括均值、标准差、最大值、最小值等。
3. 正态性检验:对四个指标进行正态性检验,以确定是否满足多元均值检验的前提条件。
4. 多元均值检验:运用SPSS中的多元方差分析(MANOVA)功能,对两组样本在四个指标上的均值进行检验。
5. 结果分析:根据多元均值检验结果,分析两组样本在四个指标上的均值是否存在显著差异。
五、实验结果1. 描述性统计结果:男生组在身高、体重、肺活量、立定跳远四个指标上的均值分别为(175.5±5.2)cm、(70.3±8.1)kg、(4000±200)ml、(2.5±0.3)m;女生组在身高、体重、肺活量、立定跳远四个指标上的均值分别为(163.8±4.5)cm、(55.2±6.7)kg、(3000±150)ml、(2.0±0.2)m。
2. 正态性检验结果:四个指标均满足正态分布的前提条件。
《多元统计分析分析》实验报告
《多元统计分析分析》实验报告2012 年月日学院经贸学院姓名学号实验实验成绩名称一、实验目的(一)利用SPSS对主成分回归进行计算机实现.(二)要求熟练软件操作步骤,重点掌握对软件处理结果的解释.二、实验内容以教材例题7.2为实验对象,应用软件对例题进行操作练习,以掌握多元统计分析方法的应用三、实验步骤(以文字列出软件操作过程并附上操作截图)1、数据文件的输入或建立:(文件名以学号或姓名命名)将表7.2数据输入spss:点击“文件”下“新建”——“数据”见图1:图1点击左下角“变量视图”首先定义变量名称及类型:见图2:图2:然后点击“数据视图”进行数据输入(图3):图3完成数据输入2、具体操作分析过程:(1)首先做因变量Y与自变量X1-X3的普通线性回归:在变量视图下点击“分析”菜单,选择“回归”-“线性”(图4):图4将因变量Y调入“因变量”栏,将x1-x3调入“自变量”栏(图5):然后选择相关要输出的结果:①点击右上角“统计量(s)”:“回归系数”下选择“估计”;“残差”下选择“D.W”;在右上角选择输出“模型拟合度”、“部分相关和偏相关”“共线性诊断”(后两项是做多重共线性检验)。
选完后点击“继续”(见图6)②如果需要对因变量与残差进行图形分析则需要在“绘制”下选择相关项目(图7),一般不需要则继续③如果需要将相关结果如因变量预测值、残差等保存则点击“保存”(图8),选择要保存的项目④如果是逐步回归法或者设置不带常数项的回归模型则点击“选项”(图9)其他选项按软件默认。
最后点击“确定”,运行线性回归,输出相关结果(见表1-3)图5 图6图7图8图9回归分析输出结果:的协差阵也就是相关阵进行分解做因子分析或主成分分析),如果不需要对变量做标准化处理就选“协方差矩阵”;“输出”中的两项都选,要求输出没有旋转的因子解(主成分分析必选项)和碎石图(用图形决定提取的主成分或因子的个数);“抽取“下,默认的是基于特征值(大于1表示提取的因子或主成分至少代表1个单位标准差的变量信息,因为标准化后的变量方差为1,因子或者主成分作为提取的综合变量应该至少代表1个变量的信息),也可以自选提取的因子个数(即第二项),本例中做主成分回归,选择提取全部可能的3个主成分,所以自选个数填3。
多元统计分析 实验报告
多元统计分析实验报告多元统计分析实验报告一、引言多元统计分析是一种研究多个变量之间关系的统计方法,可以帮助我们更全面地了解数据集中的信息。
本实验旨在通过多元统计分析方法,探索不同变量之间的关系,并分析其对研究结果的影响。
二、数据收集与处理在本实验中,我们收集了一份关于学生学业成绩的数据集。
数据集包括学生的性别、年龄、家庭背景、学习时间、考试成绩等多个变量。
为了方便分析,我们对数据进行了清洗和预处理,包括删除缺失值、标准化处理等。
三、描述性统计分析在进行多元统计分析之前,我们首先对数据进行了描述性统计分析。
通过计算各变量的均值、标准差、最小值、最大值等统计量,我们对数据的整体情况有了初步的了解。
例如,我们发现男生和女生的平均成绩存在差异,家庭背景与学习时间之间存在一定的相关性等。
四、相关性分析为了探索不同变量之间的关系,我们进行了相关性分析。
通过计算各个变量之间的相关系数,我们可以了解它们之间的线性关系强弱。
通过绘制相关系数矩阵的热力图,我们可以直观地观察到各个变量之间的相关性。
例如,我们发现学习时间与考试成绩之间存在较强的正相关关系,而年龄与考试成绩之间的相关性较弱。
五、主成分分析主成分分析是一种常用的降维方法,可以将多个相关变量转化为少数几个无关的主成分。
在本实验中,我们应用主成分分析方法对数据进行了降维处理。
通过计算各个主成分的解释方差比例,我们可以确定保留的主成分个数。
通过绘制主成分得分图,我们可以观察到不同变量在主成分上的贡献程度。
例如,我们发现第一主成分主要与学习时间和考试成绩相关,而第二主成分主要与家庭背景和性别相关。
六、聚类分析聚类分析是一种将样本按照相似性进行分类的方法,可以帮助我们发现数据集中的潜在模式和群体。
在本实验中,我们应用聚类分析方法对学生进行了分类。
通过选择适当的聚类算法和距离度量,我们可以将学生分为不同的群体。
通过绘制聚类结果的散点图,我们可以观察到不同群体之间的差异。
多元统计分析实验报告3
黑龙江八一农垦大学
多元统计分析实验报告
实验项目因子分析
专业信息与计算科学专业
年级班
姓名
学号
黑龙江八一农垦大学文理学院数学实验室
学生实验守则
1、参加实验的学生必须按时到实验室上实验课,按指定的席位操作,不得迟到早退。
迟到10分钟,禁止实验。
2、遵守实验室的一切规章制度,不喧哗,不吸烟,保持室内安静、整洁。
3、学生实验前要认真预习实验内容,接受指导教师的提问和检查。
4、严格遵守操作规程。
5、应认真记录原始数据,填写实验报告,及时送交实验报告。
6、不准动用与本实验无关的仪器设备和室内的其它设施。
7、实验中发生事故时,要保持镇静,并立即采取抢救措施,及时向指导教师报告。
8、损坏实验设备应主动向指导教师报告,由指导教师根据情况进行处理,需要赔偿的应写出书面报告,填写赔偿单。
9、实验结束,将实验结果交实验教师检查,合格后,经指导教师同意后,方可离开实验室。
10、实验完毕后,应按时写出实验报告,及时交指导教师审阅,不交者,该实验无成绩。
实验报告。
多元统计分析——对应分析实验报告
多元统计分析实验报告表2-2 对应分析数据(老龄化数据)三、实验过程在spss16.0软件中,对表2-2数据做对应分析。
首先应对个案进行加权操作。
选择【Date】—【Weight Cases】,出现表3对话框。
选择frequency作为加权,如图3-1所示。
图3-1 加权个案对个案加权后,开始做对应分析。
选择【Analyze】—【Date Reduction】—【Corespondence Analysis】,会出现图3-2对话画框。
图3-2 对应分析对话框接下来对行变量和列变量进行设置。
将selfassess(自评健康状况)选入Row,作为行变量,并选择【Define Range】,填写范围后点击【Update】—【Continue】,如图3-3所示;按同样的步骤,将independence(生活自理能力)选入Column(列变量),并设置列变量,如图3-4所示;最终设置结果如图3-5所示。
图3-3 行变量设置图3-4 列变量设置图3-5 对应分析设置结果点击【OK】,便可得到对应分析结果。
四、实验过程表4-1为对应分析的版本信息。
图中显示为1.1版本。
表4-1 对应分析版本信息表4-2是列联表,列示了在各个水平下的人数。
表4-2 列联表表4-3为对应分析总述表。
表中显示了奇异值(Singular Value),第一个维度的奇异值为0.253,第二个维度的奇异值为0.125;惯量(Inertia)为特征根,就是奇异值的平方;Chi Square 值为212.593,是总样本数除以总的Inertia 觉原假设,认为两个随机变量不是相互独立的,本例中就是自评健康状况和生活自理能力不是相互独立的;贡献率(Accounted for)显示,第一个维度解释了总变异的80.4%,第二个维度解释了19.6%,两个维度解释了所有的变异;接下来依次为累计贡献率(Cumulative)、奇异值的方差(Standard Deviation)、奇异值的相关系数(Correlation)。
多元统计分析实验报告3
黑龙江八一农垦大学
多元统计分析实验报告
实验项目因子分析
专业信息与计算科学专业
年级班
姓名
学号
黑龙江八一农垦大学文理学院数学实验室
学生实验守则
1、参加实验的学生必须按时到实验室上实验课,按指定的席位操作,不得迟到早退。
迟到10分钟,禁止实验。
2、遵守实验室的一切规章制度,不喧哗,不吸烟,保持室内安静、整洁。
3、学生实验前要认真预习实验内容,接受指导教师的提问和检查。
4、严格遵守操作规程。
5、应认真记录原始数据,填写实验报告,及时送交实验报告。
6、不准动用与本实验无关的仪器设备和室内的其它设施。
7、实验中发生事故时,要保持镇静,并立即采取抢救措施,及时向指导教师报告。
8、损坏实验设备应主动向指导教师报告,由指导教师根据情况进行处理,需要赔偿的应写出书面报告,填写赔偿单。
9、实验结束,将实验结果交实验教师检查,合格后,经指导教师同意后,方可离开实验室。
10、实验完毕后,应按时写出实验报告,及时交指导教师审阅,不交者,该实验无成绩。
实验报告。
多元统计分析实验
实验一 Matlab软件的简单熟悉一、实验目的1、熟悉在M atlab中数据的录入、保存和调用方法。
2、熟悉Matlab中关于矩阵运算和函数运算的各种命令。
二、实验内容1、矩阵和数组的输入2、矩阵的运算3、矩阵的裁剪与拼接4、变量与函数Matlab的变量由字母、数字和下列线组成,最多31个字符,区分大小写字字母。
当输入一个变量时,Matlab自动建立变量并为其分配内存空间。
几个特殊的量:pi 圆周率;lnf 正无穷大指 1/0;NaN不定数,指0/0。
常用的函数:三角函数 sin cos tan cot sec csc ;其他基本函数:sqrt exp log ln abs(绝对值) round(四舍五入)。
这些函数本质是作用与标量的,当它们作用于矩阵时,使作用于矩阵的一个元素。
向量函数:max min sum mean(平均值) sort(从小到大排序) 矩阵函数:构造函数 zeros(0阵) ones(1阵) eye(单位阵) Rand(随机库)。
矩阵计算函数:求秩rank(A) 求逆inv(A) 求迹trace(A)求行列式det(A) 求特征值eig(A)5、命令和环境窗口三、实验要求在数学实验室根据Matlab软件应用统计实验指导应用Matlab软件进行实验操作。
四、实验过程在数学实验室中,通过应用通过实验指导,按照里面所给的具体内容一步一步进行认真地操作,直到完成。
五、实验体会通过这节实验课更加的了解Matlab的基本知识和应用,为后面的实验打下坚实的基础。
实验二统计数据的描述性分析一实验目的熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、概率密度函数、概率分布函数df、随机数生成md。
二实验内容1、频数表和直方图2、基本统计量3、几个重要的概率分布4、Matlab中的调和曲线5、二元正态分布密度函数立体图6、用Excel做折线图、雷达图三实验过程1.数和直方图。
多元统计分析--判别分析SPSS实验报告
实验课程名称: __多元统计分析--判别分析___准则判别归类,则可写成:⎪⎩⎪⎨⎧=>∈<∈),(),( ,),(),(,),(),(,21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当题目:表11.5的数据包含三种鸢尾的X2=萼片宽度与X4=花瓣的宽度的观测值。
对每种鸢尾有n1=n2=n3=50个观测值。
部分数据:第二部分:实验过程记录(可加页)(包括实验原始数据记录,实验现象记录,实验过程发现的问题等)散点图:图形→旧对话框→散点图,打开简单散点图子对话框;将想X2选入X轴变量,X4选入Y轴变量,将总体选入设置标记框中,点击确定。
判别分析:步骤:1、选择分析→分类→判别,打开判别分析子对话框。
2、选择变量“总体”,单击→,将其加入到分组变量栏中。
3、打开定义范围子对话框,最小值输入1,最大值输入3。
4、将变量“X2萼片宽度”、“X4花瓣的宽度”选入自变量栏中。
选择“一起输入自变量”的方法。
5、打开统计变量子对话框,选择均值、单变量ANOVA、Box’M、未标准化、组内协方差、分组协方差及总体协方差,单击继续。
6、打开分类子对话框,选择不考虑该个案时的分类,其余为默认值。
7、打开保存,选择所有的变量。
相关系数矩阵a总体萼片宽度X2 花瓣宽度X4合计萼片宽度X2 .190 -.122花瓣宽度X4 -.122 .581对数行列式总体秩对数行列式1 2 -6.4962 2 -6.1413 2 -5.189汇聚的组内 2 -5.583检验结果箱的M 52.832F 近似。
8.632df1 6df2 538562.769Sig. .000Wilks 的Lambda函数检验Wilks 的Lambda 卡方df Sig.1 到2 .038 477.868 4 .0002 .809 31.075 1 .000典型判别式函数系数函数1 2萼片宽度X2 -1.987 2.680花瓣宽度X4 5.477 .817(常量) -.494 -9.174非标准化系数组质心处的函数总体函数1 21 -5.958 .2152 1.265 -.6673 4.693 .452分类结果b,c总体预测组成员1 2 3 合计初始计数 1 50 0 0 502 0 49 1 503 04 46 50% 1 100.0 .0 .0 100.02 .0 98.0 2.0 100.03 .0 8.0 92.0 100.0 交叉验证a计数 1 50 0 0 502 0 48 2 503 04 46 50% 1 100.0 .0 .0 100.02 .0 96.0 4.0 100.03 .0 8.0 92.0 100.0。
《多元统计》课程实验报告-回归分析
《多元统计与程序设计》课程实验报告1 实验内容(1)掌握回归分析和逐步回归分析的思想和计算步骤;(2)用Matlab实现回归分析和逐步回归分析;2 模型建立与求解2.1回归分析2.1.1模型的建立设随机变量y与m个自变量存在线性关系:y= (2.1.1)式(2.1.1)称为回归方程,其中称为回归系数,为随机变量,称为随机误差,它可理解为y无法用表示的是其他各种随机因素造成的误差。
要用来估计随机变量y的均值E(y),即E(y)=此处假定,y。
其中,,是与无关的待定系数。
设有n组样本观测值数据:其中表示第i次试验或第i个样本关于变量的观测值。
于是有:==………(2.1.2)其中,为m+1个待定系数,为n 个相互独立的且服从同一正态分布的随机变量,式(2.1.2)称为多元(m 元)线性回归数学模型。
式(2.1.2)也可写成矩阵形式,设⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nm n n m m x x x x x xx x x X 212222111211111则式(2.1.2)可表示为(2.1.3)式(2.1.3)称为多元线性回归模型的矩阵形式。
2.1.2回归模型中参数的确定采用最小二乘法来对回归模型式(2.3)中的作最小二乘估计。
设m 3210,b,,b ,b ,b b 分别是的最小二乘估计值,于是有 m m 22110x b x b x b b yˆ++++=(2.1.4)式(2.1.4)中:yˆ是y 中的一个最小二乘估计。
对于每一个试验数据。
由式(2.1.4),可得一个i ˆy,即:n i x b x b b yim m i i ,,2,1ˆ110 =+++=,。
这里称i ˆy 为实际值i y 的回归值。
显然,回归值i yˆ与实际值i y 有误差,即 i y -i ˆy=n i x b x b b y im m i i ,,2,1110 =+++-, 当然我们希望i ˆy与i y 值偏离程度越小越好,这样才能使回归值i ˆy 与实际值i y 拟合得最好。
多元统计分析实验报告3-聚类分析剖析
2015——2016学年第一学期实验报告课程名称:多元统计分析实验项目:聚类分析实验类别:综合性□√设计性□验证性□专业班级:13统计班姓名:张淑娟学号:20134046030 实验地点:总理楼60801实验时间:2015年11月25日星期三指导教师:成绩:一、实验数据、参考资料与实验目的实验数据来源于文件《聚类分析.rar》内的chapter 12,主要参考书为《spss统计分析从入门到精通.pdf》。
实验目的:1、掌握聚类分析的基本方法,主要有快速聚类、分层聚类、系统聚类和分层聚类等方法;2、至少应用所给数据进行两种及两种以上的聚类分析,并对其进行比较。
具体数据由自己选择。
二、SPSS操作方法或程序类平均法聚类操作方法:1、打开分析→分类→系统聚类,打开系统聚类分析对话框,将聚类指标选入变量栏中,将表示地区的变量选入注标个案栏。
2、点击绘制,选中谱系图,点击继续返回主对话框;3、再点击方法按钮,在聚类方法下拉菜单中选择组间连接法选项,返回主对话框,点击确定。
最短距离法聚类操作方法:1、2、同类平均法1、2;3、再点击方法按钮,在聚类方法下拉菜单中选择最短距离法选项,返回主对话框,点击确定。
最长距离法聚类操作方法:1、2、同类平均法1、2;3、再点击方法按钮,在聚类方法下拉菜单中选择最长距离法选项,返回主对话框,点击确定。
三、程序运行结果(不能截图,需要导出)指标的相关系数:相关性编号食品衣着燃料住房生活用品文化支出组别编号Pearson 相关性 1 -.720**-.387*-.136 -.743**-.710**-.687**.439*显著性(双侧).000 .042 .490 .000 .000 .000 .032 N 28 28 28 28 28 28 28 24食品Pearson 相关性-.720** 1 .518**.517**.778**.707**.613**-.680**显著性(双侧).000 .005 .005 .000 .000 .001 .000 N 28 28 28 28 28 28 28 24衣着Pearson 相关性-.387*.518** 1 .133 .579**.752**.181 -.593**显著性(双侧).042 .005 .501 .001 .000 .357 .002 N 28 28 28 28 28 28 28 24燃料Pearson 相关性-.136 .517**.133 1 .133 .210 .456*-.641**显著性(双侧).490 .005 .501 .500 .283 .015 .001 N 28 28 28 28 28 28 28 24住房Pearson 相关性-.743**.778**.579**.133 1 .843**.353 -.636**显著性(双侧).000 .000 .001 .500 .000 .065 .001 N 28 28 28 28 28 28 28 24生活用品Pearson 相关性-.710**.707**.752**.210 .843** 1 .336 -.697**显著性(双侧).000 .000 .000 .283 .000 .081 .000 N 28 28 28 28 28 28 28 24文化支出Pearson 相关性-.687**.613**.181 .456*.353 .336 1 -.439*显著性(双侧).000 .001 .357 .015 .065 .081 .032 N 28 28 28 28 28 28 28 24组别Pearson 相关性.439*-.680**-.593**-.641**-.636**-.697**-.439* 1 显著性(双侧).032 .000 .002 .001 .001 .000 .032N 24 24 24 24 24 24 24 24**. 在 .01 水平(双侧)上显著相关。
(整理)多元统计分析-实验三.
实验三一、实验内容1、实验背景近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域性特征。
2、实验目的根据2008年中国31个省、市、自治区房地市场的房屋平均销售价格、住宅平均销售价格、别墅与高档公寓平均销售价格、经济适用房平均销售价格等九项指标的统计数据(见下表3),对各省市进行区域性分类。
3、实验要求试根据这些数据分别进行R型和Q型聚类分析。
二、实验报告1、实验数据选取全国31个省市地区的房屋平均销售价格、住宅平均销售价格、别墅与高档公寓平均销售价格、经济适用房平均销售价格、办公楼平均销售价格、商业营业用房平均销售价格、其他平均销售价格、商品房销售面积、住宅销售面积等9项指标作为观测量进行分析。
数据见下表3。
表3注:X1:房屋平均销售价格;X2:住宅平均销售价格;X3:别墅、高档公寓平均销售价格;X4:经济适用房平均销售价格;X5:办公楼平均销售价格;X6:商业营业用房平均销售价格;X7:其他平均销售价格;X8:商品房销售面积;X9:住宅销售面积。
2、数据处理数据中无异常值或缺失值,因此不需要进行处理。
3、数据分析1)、Q型聚类分析操作步骤如下:(1)打开SPSS统计软件,将数据输入数据文件中。
(2)在菜单的选项中选择Analyze→Classify命令,在Classify命令下选择Hierarchical cluster(系统聚类法)。
(3)Cluster下选择Cases单选框。
将9个变量移入Variables框中,将省份变量移入Label Cases by框中作为标识变量。
(4)选择Statistics选项,选中Agglomeration schedule复选框;Cluster Membership 栏中选择Range of solution并在其后两个小矩形框中分别填入2和8。
单击Continue继续。
(5)选择Plots选项,选中Dendrogram复选框,其他默认,单击Continue继续。
实验报告-判别分析(多元统计)精选全文完整版
可编辑修改精选全文完整版实验报告5判别分析(设计性实验)(Discriminant analysis)实验原理:判别分析是判别样品所属类型的一种统计方法。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析。
实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数。
实验题目一:为了检测潜在的血友病A携带者,下表中给出了两组数据:(t11a8)其中x1=log10(AHF activity),x2=log10(AHF antigen)。
下表给出了五个新的观测,试对这些观测判别归类;(t11b8)实验要求:(1)分别检验两组数据是否大致满足二元正态性;(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(6)比较方法(4)和方法(5)的误判率。
实验题目二:某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:接受,不接受,待定。
下表中给出了三类申请者的GPA与GMAT成绩:(t11a6)GPA (x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.96 596 1 2.54 446 2 2.86 494 33.14 473 1 2.43 425 2 2.85 496 3 3.22 482 1 2.2 474 2 3.14 419 3 3.29 527 1 2.36 531 2 3.28 371 3 3.69 505 1 2.57 542 2 2.89 447 3 3.46 693 1 2.35 406 2 3.15 313 3 3.03 626 1 2.51 412 2 3.5 402 3 3.19 663 1 2.51 458 2 2.89 485 3 3.63 447 1 2.36 399 2 2.8 444 33.59 588 1 2.36 482 2 3.13 416 33.3 563 1 2.66 420 2 3.01 471 33.4 553 1 2.68 414 2 2.79 490 33.5 572 1 2.48 533 2 2.89 431 33.78 591 1 2.46 509 2 2.91 446 33.44 692 1 2.63 504 2 2.75 546 33.48 528 1 2.44 336 2 2.73 467 33.47 552 1 2.13 408 2 3.12 463 33.35 520 1 2.41 469 2 3.08 440 33.39 543 1 2.55 538 2 3.03 419 33.28 523 1 2.31 505 2 3 509 33.21 530 1 2.41 489 2 3.03 438 33.58 564 1 2.19 411 2 3.05 399 33.33 565 1 2.35 321 2 2.85 483 33.4 431 1 2.6 394 2 3.01 453 33.38 605 1 2.55 528 2 3.03 414 33.26 664 1 2.72 399 2 3.04 446 33.6 609 1 2.85 381 23.37 559 1 2.9 384 23.8 521 13.76 646 13.24 467 1实验要求:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(4)比较方法(2)和方法(3)的误判率;(5)现有一新申请者的GPA为3.21,GMAT成绩为497。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析-实验三实验三一、实验内容1、实验背景近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域性特征。
2、实验目的根据2008年中国31个省、市、自治区房地市场的房屋平均销售价格、住宅平均销售价格、别墅与高档公寓平均销售价格、经济适用房平均销售价格等九项指标的统计数据(见下表3),对各省市进行区域性分类。
3、实验要求试根据这些数据分别进行R型和Q型聚类分析。
二、实验报告1、实验数据选取全国31个省市地区的房屋平均销售价格、住宅平均销售价格、别墅与高档公寓平均销售价格、经济适用房平均销售价格、办公楼平均销售价格、商业营业用房平均销售价格、其他平均销售价格、商品房销售面积、住宅销售面积等9项指标作为观测量进行分析。
数据见下表3。
表3注:X1:房屋平均销售价格;X2:住宅平均销售价格;X3:别墅、高档公寓平均销售价格;X4:经济适用房平均销售价格;X5:办公楼平均销售价格;X6:商业营业用房平均销售价格;X7:其他平均销售价格;X8:商品房销售面积;X9:住宅销售面积。
2、数据处理数据中无异常值或缺失值,因此不需要进行处理。
3、数据分析1)、Q型聚类分析操作步骤如下:(1)打开SPSS统计软件,将数据输入数据文件中。
(2)在菜单的选项中选择Analyze→Classify命令,在Classify命令下选择Hierarchical cluster(系统聚类法)。
(3)Cluster下选择Cases单选框。
将9个变量移入Variables框中,将省份变量移入Label Cases by框中作为标识变量。
(4)选择Statistics选项,选中Agglomeration schedule复选框;Cluster Membership栏中选择Range of solution并在其后两个小矩形框中分别填入2和8。
单击Continue继续。
(5)选择Plots选项,选中Dendrogram复选框,其他默认,单击Continue 继续。
(6)选择Method选项,Cluster Method下拉列表中分别选择Between—groups linkage(组间联结法,即类平均法)、Nearest Neighbor(最短距离法)和Furthest Neighbor(最长距离法);在Measure的Interval下拉列表中选择Squared Euclidean distance;在Transform value栏中Standardize 下拉列表中选择range 0 to 1;其他默认,单击Continue继续。
(7)其他为默认项,单击OK,得到聚类结果如下。
表 3-1-1 聚类凝聚过程表(Q型聚类)Agglomeration ScheduleStage Cluster Combined Coefficients Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 21 7 8 .011 0 0 122 20 27 .020 0 0 43 16 18 .020 0 0 104 17 20 .023 0 2 115 5 12 .023 0 0 86 28 29 .026 0 0 137 4 31 .030 0 0 158 5 22 .035 5 0 109 10 15 .046 0 0 2110 5 16 .047 8 3 1611 17 25 .047 4 0 1412 7 24 .052 1 0 1413 28 30 .054 6 0 1514 7 17 .063 12 11 1815 4 28 .080 7 13 1716 3 5 .104 0 10 1817 4 14 .117 15 0 2018 3 7 .139 16 14 2019 6 23 .171 0 0 2120 3 4 .213 18 17 2221 6 10 .280 19 9 2722 3 13 .332 20 0 2423 11 19 .399 0 0 2624 3 26 .473 22 0 2525 3 21 .528 24 0 2726 9 11 .561 0 23 2827 3 6 .837 25 21 2928 2 9 .977 0 26 2929 2 3 1.372 28 27 3030 1 2 4.491 0 29 03:河北 3 3 3 3 3 3 2 4:山西 3 3 3 3 3 3 2 5:内蒙古 3 3 3 3 3 3 2 6:辽宁 4 4 4 4 3 3 2 7:吉林 3 3 3 3 3 3 2 8:黑龙江 3 3 3 3 3 3 2 9:上海 5 5 5 5 4 2 2 10:江苏 4 4 4 4 3 3 2 11:浙江 6 6 6 5 4 2 2 12:安徽 3 3 3 3 3 3 2 13:福建 3 3 3 3 3 3 2 14:江西 3 3 3 3 3 3 2 15:山东 4 4 4 4 3 3 2 16:河南 3 3 3 3 3 3 2 17:湖北 3 3 3 3 3 3 2 18:湖南 3 3 3 3 3 3 2 19:广东 6 6 6 5 4 2 2 20:广西 3 3 3 3 3 3 2 21:海南7 7 3 3 3 3 2 22:重庆 3 3 3 3 3 3 2 23:四川 4 4 4 4 3 3 2 24:贵州 3 3 3 3 3 3 2 25:云南 3 3 3 3 3 3 2 26:西藏8 3 3 3 3 3 2 27:陕西 3 3 3 3 3 3 2 28:甘肃 3 3 3 3 3 3 2 29:青海 3 3 3 3 3 3 2 30:宁夏 3 3 3 3 3 3 2 31:新疆 3 3 3 3 3 3 2图 3-1-1 冰柱图(Q型聚类)(A)(B)(C)图 3-1-2 树形聚类图(Q型聚类)2)、R型聚类分析操作步骤如下:(1)依次选择Analyze→Classify命令,在Classify命令下选择Hierarchical cluster(系统聚类法)。
(2)Cluster下选择Variables单选框。
将9个变量移入Variables框中。
(3)选择Statistics选项,选中Agglomeration schedule复选框;Cluster Membership栏中选择Range of solution并在其后两个小矩形框中分别填入2和5。
单击Continue继续。
(4)选择Plots选项,选中Dendrogram复选框,其他默认,单击Continue继续。
(5)选择Method选项,Cluster Method下拉列表中分别选择Between—groups linkage(组间联结法,即类平均法)、Nearest Neighbor(最短距离法)和Furthest Neighbor(最长距离法);在Measure的Interval下拉列表中选择Squared Euclidean distance,在Transform value栏中Standardize 下拉列表中选择range 0 to 1;其他默认,单击Continue继续。
(6)其他为默认项,单击OK,得到变量聚类结果如下。
表 3-2-1 聚类的凝聚过程表(R型聚类)Agglomeration ScheduleStage Cluster Combined Coefficients Stage Cluster First Appears Next StageCluster 1 Cluster 2 Cluster 1 Cluster 21 12 .005 0 0 32 8 9 .015 0 0 83 1 3 .155 1 0 44 1 6 .270 3 0 55 1 5 .351 4 0 66 17 .630 5 0 77 1 4 1.334 6 0 88 1 8 2.757 7 2 0表 3-2-2 分为2~5类的聚类结果Cluster MembershipCase 5 Clusters 4 Clusters 3 Clusters 2 Clusters X1 1 1 1 1 X2 1 1 1 1 X3 1 1 1 1 X4 2 2 2 1 X5 3 1 1 1 X6 1 1 1 1 X7 4 3 1 1 X8 5 4 3 2 X9 5 4 3 2图 3-2-1 冰柱图(R型聚类)(A)(B)(C)图 3-2-2 树形聚类图(R型聚类)4、结果分析1)、Q型聚类:(1)表3-1-1是Cluster过程的输出。
其中:●Stage,聚类步顺序号。
Cluster1,Cluster2是该步被合并的两类中的观测量号。
●Coefficient,距离测度值,表明不相似性的系数。
由于选择了欧氏距离平方作为距离测度,因此表中可以看出数值较小的两项比数值较大的两项先合并。
第一步是第7个观测量与第8个观测量合并;第二步为第20个观测量与第27个观测量合并。
●Stage Cluster First Appears,合并的两项第一次出现的聚类步序号。
●Next Stage,此步合并结果在下一步合并时的步序号。
(2)表3-1-2聚类结果表明各观测量分别被分到哪一类。
(3)图3-1-1所示冰柱图。
从出现空白处分解,可以看出各类的划分。
从图中可以清楚地看到那些国家被归为一类,从而得出最后的分类结论。
(4)图3-1-2中(A)、(B)、(C)分别反映的是利用类平均法、最短距离法和最长距离法进行聚类的树形图。
直观看出,类平均法分为三类:{北京}为第一类,{天津,上海,广东,浙江}为第二类,其他为第三类;最短距离法分为三类:{北京}为第一类,{天津}为第二类,其他为第三类;最长距离法也分为三类:{北京}为第一类,{天津,上海,广东。
浙江}为第二类,其他为第三类。
可以看出,类平均法和最长距离法的分类结果是一致的。
综上所述可以得出结论,根据房地产价格的区域性特征将全国31个省市地区分为三类比较合适,分别为:{北京}为第一类,{天津,上海,广东,浙江}为第二类,其他为第三类。
2)、R型聚类:看图3-2-2中(A)、(B)和(C),很显然三种聚类法得出的聚类结果完全一致。
因此可以得出结论,可以将X1:房屋平均销售价格;X2:住宅平均销售价格;X3:别墅、高档公寓平均销售价格;X4:经济适用房平均销售价格;X5:办公楼平均销售价格;X6:商业营业用房平均销售价格;X7:其他平均销售价格;X8:商品房销售面积;X9:住宅销售面积这九项指标分为三类:{X8:商品房销售面积,X9:住宅销售面积}为第一类,{ X4:经济适用房平均销售价格}为第二类,其他为第三类。