计量地理学实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
湖北文理学院
《计量地理学》实验报告
专业班级:地科1311
姓名:
学号:2013113130
任课教师:
实验一描述性统计分析
一.实验目的
利用spss进行描述性统计分析。
要求掌握频数分析(Frequencies过程)、描述性分析(Descriptives过程)、探索分析(Explore过程)。
二.实验时间、地点
2015年5月11日周一19:00,五栋412
三.实验内容及步骤
1.实验内容:
下表给出的是1951-1970年实测的由一次降雨导致的土壤侵蚀量。
试分析田间小区的土壤侵蚀量分布特征,并绘制频数表、直方图,计算平均值、标准差、变异系数等描述统计量。
年份日期土壤侵蚀量(t/km^2)
1951 9.27 4380
1952 8.26 10130
1953 8.28 2750
1954 6.16 5970
1955 8.23 2510
1956 7.14 1600
1957 8.02 7530
1958 9.11 1770
1959 7.21 17
1960 7.05 1523.3
1961 8.04 0.1
1962 8.08 830
1963 8.28 620
1964 6.26 6540
1965 8.15 12670
1966 8.14 90
1967 6.27 12440
1968 7.17 10733
1969 8.19 180
1970 8.24 384
2.实验步骤
(1)打开相关数据文件,选择菜单“Analyze-Descriptives
Statistics-Frequencies”
(2)选择进行频数分析变量。
选择“土壤侵蚀量”进入“Variables”列表框,
在该框中将列出所有要分析的变量。
(3)设置输出频数分布表。
选中“频数分析”中的“Display frequency tables”,
要求输出变量的频数分布表。
(4)设置输出有关描述统计量。
单击“频数分析”对话框下部的“Statistic”按
钮,根据题目要求选择需要输出的描述统计量。
(5)设置有关图形输出,单击“频数分析”对话框下部的“Chart”按钮,选择
有关类型的图形输出。
(6)设置有关输出格式。
单击“频数分析”对话框下部的“Format”按钮,选
择升降序问题。
(7)设置完成后,单击“Continue”按钮,单击“OK”按钮,等待输出结果。
3、输出结果
”
图1 土壤侵蚀量
N Valid 20
Missing 0
Mean 4133.370
Std. Error of Mean 985.2024
Median 2140.000
Mode .1(a)
Std. Deviation 4405.959
Variance 1941247
5.0401
Skewness .891
Std. Error of Skewness .512
Kurtosis -.639
Std. Error of Kurtosis .992
Range 12669.9
Minimum .1
Maximum 12670.0
Sum 82667.4
Percentiles 10 24.300
20 220.800
25 443.000
30 683.000
40 1553.980
50 2140.000
60 3728.000
70 6369.000
75 7282.500
80 9610.000
90 12269.30
a Multiple modes exist. The smallest value is shown
图2 土壤侵蚀量
Frequency
Percent Valid Percent
Cumulative
Percent
Valid
.1 1 3.7 5.0 5.0 17.0 1 3.7 5.0 10.0 90.0 1 3.7 5.0 15.0 180.0 1 3.7 5.0 20.0 384.0 1 3.7 5.0 25.0 620.0 1 3.7 5.0 30.0 830.0 1 3.7 5.0 35.0 1523.3 1 3.7 5.0 40.0 1600.0 1 3.7 5.0 45.0 1770.0 1 3.7 5.0 50.0 2510.0 1 3.7 5.0 55.0 2750.0 1 3.7 5.0 60.0 4380.0 1 3.7 5.0 65.0 5970.0 1 3.7 5.0 70.0 6540.0 1 3.7 5.0 75.0 7530.0 1 3.7 5.0 80.0 10130.0 1 3.7 5.0 85.0 10733.0 1 3.7 5.0 90.0 12440.0 1 3.7 5.0 95.0 12670.0 1 3.7 5.0 100.0
Total
20 74.1 100.0 Missing System 7 25.9 Total 27
100.0
图3
土壤侵蚀
12000.0
10000.0
8000.0
6000.0
4000.0
2000.0
0.0
土壤侵蚀
F r e q u e n c y
8
6
4
2
Std. Dev = 4405.96 Mean = 4133.4
N = 20.00
4、结果分析
(1)从图1可以看出,有效样品数为20个,没有缺失值。
1951-1970年黄土
高原某地区的次降水平均土壤侵蚀量为4133.370(t/km^2),标准差为4405.9590(t/km^2),25%、50%、75%百分位数的值分别是443.000、2140.000、7282.500。
(2)图2给出了土壤侵蚀量的频数分布。
在该表中从左到右各列分别为有效变
量数值、频数、频数所占总数的百分比、有效数占总数的百分比和累计百分比。
(3)图3是此次降雨土壤侵蚀量的直方图,从图中可以看出次降雨土壤侵蚀量
主要集中在1000(t/km^2)以下,出现次数在6次以上。
实验二均值比较和T检验
一、实验目的
(1)掌握均值比较,用于计算指定变量的综合描述统计量;
(2)掌握独立样本T检验(Independent Samples Test),用于检验两组来自独立总体的样本,企图理综题的均值或中心位置是否一样
二、实验时间和地点
2015年5月18日周一19:00,5栋412
三、实验内容及步骤
1、实验内容
列出某单位的男女职员年薪,从中可以比较该单位不同性别之间的薪水的差异。
2.实验步骤
(1)输入数据
编号性别年薪/元
1 男57000
2 男40200
3 女21450
4 女21900
5 男45000
6 男32100
7 男36000
8 女21900
9 女27900
10 女24000
11 女30300
12 男28350
13 男27750
14 女35100
15 男27300
16 男40800
17 男46000
18 男103750
19 男42300
20 女26250
(2)打开相关数据文件,选择“Anlyze--Compare Means--Means”
(3)选择进行描述性统计分析变量
(4)选择自己要比较的选项
(5)所有设置完成后单机“继续”
(6)所有设置确认无误后,单机“确认”,得出输出结果。
(7)输出结果
均值
图1
案例处理摘要
案例
已包含已排除总计
N 百分比N 百分比N 百分比
年薪 * 性
20 100% 0 0% 20 100.0%
别
图2
报告
年薪
性别极小值均值N 标准差中值均值的标准误极大值方差
男27300 43879.17 12 20812.894 40500.00 6008.165 103750 433176571.970 女21450 26100.00 8 4828.709 25125.00 1707.206 35100 23316428.571 总计21450 36767.50 20 18418.285 31200.00 4118.454 103750 339233230.263
四、实验结果分析
(1)处理样本统计,图1表示,共有20个样本,,占全部样本数的100%,即分析计
算中没有因数据缺测或其他原因等导致样本剔除。
(2)图2表示,该单位职员男性12人,平均薪水43879.17元,标准差为20812.894
元;女性8人,平均薪水26100.00元,标准差为4828.709元。
结果表明该单
位不同性别的薪水有很大差异,男性比女性薪水明显要高。
实验三方差分析
一、实验目的
(1)学习利用spss进行单因素方差分析和多因素方差分析。
(2)掌握单因素方差分析。
单因素方差分析也称作一维方差分析。
它检验由单一
因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的
差异是否具有统计意义。
还可以对该因素的若干水平分组中哪一组与其他各
组均值间具有显著性差异进行分析,即进行均值的多重比较。
二、实验时间和地点:
2015年5月25日周一19:00,5栋412
三、实验内容及实验步骤
1.实验内容:
某城市从4个排污口取水,进行某种处理后检测大肠杆菌数量,单位面积内菌数量如下表所示,请分析各个排污口的大肠杆菌数量是否有差别。
某城市四个排污口测量的大肠杆菌数量
排污口 A B C D
大肠杆菌数量9,12,7,5 20,14,18,12 12,7,6,10 23,13,16,21
2.实验步骤
(1)数据输入整理,在建立数据文件时要定义三个变量,即编号,大肠杆菌数量
以及排污口。
1-4代表排污口A-D。
(2)选择“Anlyze—CompareMeans—One Way ANOVA”,弹出“单因素方差分析”
对话框。
(3)选择需要进行单因素方差分析的变量和分组因素,从对话框左侧的变量选择
“大肠杆菌数量”,使之进入因变量列表,选“排污口”进入因子列表。
(4)对组间平方和进行线性分析并检验。
单机“对比”,选择所需要的分析。
(5)选择进行各组间两两比较的方法。
(6)选择选项按钮选择定义相关统计选项以及缺失值。
(7)完成设置后单机“确定”按钮,执行单因素方差分析
(8)结果输出
图1
描述
大肠杆菌
N 均值标准差标准误均值的 95% 置信区间极小值极大值
下限上限
1 4 8.25 2.986 1.493 3.50 13.00 5 12
2 4 16.00 3.651 1.826 10.19 21.81 12 20
3 4 8.75 2.754 1.377 4.37 13.13 6 12
4 4 18.2
5 4.573 2.287 10.97 25.53 13 23 总数1
6 12.81 5.540 1.385 9.86 15.76 5 23
图2
方差齐性检验
大肠杆菌
Levene 统计量df1 df2 显著性
1.269 3 12 .329
图3
单因素方差分析
大肠杆菌
平方和df 均方 F 显著性
组间
(组合)308.188 3 102.729 8.097 .003
线性项
对比103.513 1 103.513 8.159 .014
偏差204.675 2 102.338 8.066 .006
组内152.250 12 12.688
总数460.438 15
图4
多重比较
因变量: 大肠杆菌
(I) 排污口(J) 排污口均值差
(I-J) 标准误显著性95% 置信区间
下限上限
Tukey HSD 1
2 -7.750* 2.519 .041 -15.2
3 -.27
3 -.500 2.519 .997 -7.98 6.98
4 -10.000* 2.519 .009 -17.48 -2.52 2
1 7.750* 2.519 .041 .27 15.23
3 7.250 2.519 .058 -.23 14.73
4 -2.250 2.519 .808 -9.73 5.23 3
1 .500 2.519 .997 -6.98 7.98
2 -7.250 2.519 .058 -14.7
3 .23
4 -9.500* 2.519 .012 -16.98 -2.02 4
1 10.000* 2.519 .009 2.5
2 17.48
2 2.250 2.519 .808 -5.2
3 9.73
3 9.500* 2.519 .012 2.02 16.98
LSD 1 2 -7.750* 2.519 .010 -13.24 -2.26
3 -.500 2.519 .846 -5.99 4.99
4 -10.000* 2.519 .002 -15.49 -4.51
2 1 7.750* 2.519 .010 2.26 13.24
3 7.250* 2.519 .01
4 1.76 12.74
4 -2.250 2.519 .389 -7.74 3.24
3 1 .500 2.519 .846 -4.99 5.99
2 -7.250* 2.519 .014 -12.74 -1.76 4 -9.500* 2.519 .00
3 -14.99 -4.01
4 1 10.000* 2.519 .002 4.51 15.49
2 2.250 2.519 .389 -3.24 7.74
3 9.500* 2.519 .003 4.01 14.99
Tamhane 1
2 -7.750 2.358 .101 -16.97 1.47
3 -.500 2.031 1.000 -8.33 7.33
4 -10.000 2.731 .080 -21.27 1.27 2
1 7.750 2.358 .101 -1.47 16.97
3 7.250 2.287 .121 -1.83 16.33
4 -2.250 2.926 .978 -13.74 9.24 3
1 .500 2.031 1.000 -7.33 8.33
2 -7.250 2.287 .121 -16.3
3 1.83
4 -9.500 2.669 .096 -20.80 1.80 4
1 10.000 2.731 .080 -1.27 21.27
2 2.250 2.926 .978 -9.24 13.74
3 9.500 2.669 .096 -1.80 20.80
*. 均值差的显著性水平为 0.05。
图5均值图
四、实验结果分析
(1)图1给出了一些基本描述性统计量,输出统计量包括各组样品数,均值,标准误、均值95%置信区间、最小值和最大值,如各组参与分析的样品数量均为4,总样品数为16。
(2)图2是方差其次性检验结果。
从表可知,输出的相伴概率sig为0.329,远大于显著水平0.05,因此可认为各组总体方差相等。
(3)图3输出的是方差分析表。
从表中可知,总离差平方和为460.438,组间离差平方和为308.188,组内离差平方和为152.250,组间离差平方和中能被线性解释部分为103.513,方差检验F=8,097,对应的相伴率为0.03,小于显著性水平0.05,因此认为4组之间至少有一个组与另一个组差异显著,但不能说明是哪两组之间差异显著。
(4)图4输出的是多重比较表。
从表中可知,排污口A和排污口C之间,排污口B和排污口D之间的相伴概率都大于显著水平0.05,说明这两组之间的差异不明显,其他各种组合的两组之间的相伴概率都小于0.05,说明两组之间的差异显著。
(5)图5为输出的各组均值折线图,可以看出排污口A和排污口C的均值相对较小。
实验四相关分析
一、实验目的:
调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。
调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。
实验内容:从某校学生中随机抽出15个学生,调查他们英语、数学、物理和化学等4门功课的考试成绩,数据文件如下图所示。
试用二元变量相关分析过程分析各科成绩之间是否存在线性相关关系。
二、实验时间和地点:
2015年5月28日星期四,5栋412
三、实验步骤:
1.打开Bivariate Corrrlations对话框,选择变量“English、math、physics、chemical”移入Variables框中。
输入数据
number english math physics chemical
1 76 75 78 82
2 66 65 60 54
3 65 78 80 75
4 68 86 8
5 85
5 78 80 90 83
6 65 75 78 78
7 82 85 89 95
8 65 78 73 80
9 68 82 84 85
2.打开options对话框进行相关设置。
3.单机主对话框中的OK提交系统运行。
4.输出结果及分析如下
输出结果
描述统计量表
Descriptive Statistics
Mean
Std. Deviation N
ENGLIS
H
70.33 6.538 9 MATH 78.22 6.320 9 PHYSICS 79.67 9.206 9 CHEMIC
AL
79.67 11.136 9
各课程成绩的相关矩阵表Correlations
ENGLIS
H MATH PHYSIC
S
CHEMIC
AL
ENGLISH Pearson
Correlation
1 .376 .590 .577
Sig.
(2-tailed)
. .318 .095 .104 Sum of
Squares and
Cross-produ
cts
342.000 124.333 284.000 336.000
Covariance 42.750 15.542 35.500 42.000
N 9 9 9 9
MATH Pearson
Correlation .376 1
.884(**
)
.905(**)
Sig.
(2-tailed)
.318 . .002 .001 Sum of
Squares and
Cross-produ
cts
124.333 319.556 411.667 509.667
Covariance 15.542 39.944 51.458 63.708 N 9 9 9 9
PHYSICS Pearson
Correlation .590
.884(**
)
1 .889(**)
Sig.
(2-tailed)
.095 .002 . .001 Sum of
Squares and
Cross-produ
cts
284.000 411.667 678.000 729.000
Covariance 35.500 51.458 84.750 91.125 N 9 9 9 9
CHEMICAL Pearson
Correlation .577
.905(**
)
.889(**
)
1
Sig.
(2-tailed)
.104 .001 .001 . Sum of
Squares and
Cross-produ
cts
336.000 509.667 729.000 992.000 Covariance 42.000 63.708 91.125 124.000
N 9 9 9 9
** Correlation is significant at the 0.01 level (2-tailed).
四、结果分析:
英语成绩与数学、物理、化学成绩之间的相关系数依次为0.376、0.590、0.577,英语成绩与这几门理科课程的成绩虽有一定的正相关关系,但是相关系数普遍较低,说明文理科之间的差异。
数学与物理、化学成绩的相关系数分别为0.884、0.905,物理与化学的相关系数为0.889,都反映了理科各科课程之间具有高度的正相关关系。
实验五回归分析
一、实验目的
掌握线性回归分析的基本思想和具体操作,能够读懂分析结果,并能够写出回归方程,对回归方程进行各种统计检验。
二、实验时间及地点
2014年6月1日周一19:00,5栋412
三、实验内容及步骤
1、实验内容:
表为全国以及各地的供水情况,给出了供水管道长度(公里)和全年供水总量(万立方米)。
试采用一元回归分析方法,根据供水管道长度变化,来分析全年供水总量的变化情况。
2.实验步骤:
(1)输入相关数据
地区供水管道长度(公里)全年供水总量(万立方米)
全国333288.8 4752548
北京15896 128823
天津6822 64537
河北10771.2 160132
山西5669.3 77525
内蒙古5635.5 59276
辽宁21999 280510
吉林6384.9 159570
黑龙江9065.9 153387
上海22098.8 308309
江苏36632.4 380395
浙江24126.9 235535
安徽7389.4 204128
福建6270.4 118512
江西5094.7 143240
山东26073.9 259782
河南11405.6 185092
湖北15668.6 257787
湖南9341.8 262691
广东35728.8 568949
广西6923.1 134412
海南1726.7 20241
重庆6082.7 71077
四川12251.3 165632
贵州3275.3 45198
云南5208.5 52742
西藏364.9 5363
陕西4270 73580
甘肃5010 62127
青海893 14390
宁夏1538.2 22921
新疆3670.2 76685
(2)选择“Analyze—Regression--Linear”,弹出“线性回归”对话框。
(3)设置参与回归分析的变量。
将“供水总量”设为因变量,“供水管长”设为
自变量。
(4)回归分析结果的描述统计量输出设置。
(5)回归分析结果的有关图形输出设置
(6)回归分析结果有关表格文件输出设置。
(7)表格设置完成后单击“确认”。
(8)结果输出
图1
图2
模型汇总b
模型R R 方调整 R 方标准估计的误
差
1 .998a.995 .995 58314.742
a. 预测变量: (常量), 供水管长。
b. 因变量: 全年供水总量
图3
Anova a
模型平方和df 均方 F Sig.
1 回归208E+13 1 2.805E+13 6130.970 .000b 残差 1.02E+11 30 3400609170.353
总计 2.01E+13 31
a. 因变量:全年供水总量输入/移去的变量a
模型输入的变量移去的变量方法
1 供水管长b. 输入
a. 因变量: 供水总量
b. 已输入所有请求的变量。
b. 预测变量: (常量), 供水管长。
图4
系数a
模型非标准化系数标准系数t Sig. B 的 95.0% 置信区间
B 标准误差试用版下限上限
(常量) 1486.758 10977.983 .135 .893 -20933.273 23906.790 1
供水管长14.188 .181 .998 78.301 .000 13.818 14.558
a. 因变量: 全年供水总量
图5
残差统计量a
极小值极大值均值标准偏差N
预测值6664.02 4730245.00 297034.25 820091.102 32
残差-140838.516 128661.188 .000 57366.472 32
标准预测值-.354 5.406 .000 1.000 32
标准残差-2.415 2.206 .000 .984 32
a. 因变量: 全年供水总量
图6
图7
图8
四、实验结果分析
(1)图1为回归分析过程变量进入/退出模型的情况。
(2)图2反映的是一元线性回归模型拟合情况,相关系数R为0.998,决定系数R^2为0.995,而调整决定系数为0.995,可见,模型拟合效果很理想。
(3)图3为一元回归的方差分析表。
从表中看出离差平方和为2.01E+13,残差平方和为1.02E+11,而回归平方和为2.08E+13。
回归方程的显著性检验中,统计量为F=6130.968,对应的置信水平为0.000,远比常用的置信水平0.05要小,因此可以认为方程是极显著的。
(4)图4是回归方程系数以及对回归方程系数的检验结果,系数显著性检验采用t 检验。
未标准化回归方程的常数项为1486.892,自变量系数为14.188。
对回归方程的检验结果,常数项检验对应的置信水平位0.893,远比常用的0.05要大,常数项不显著,可以考虑去除常数项的回归方程;自变量系数检验对应的置信水平为0.000,远比常用的置信水平0.05要小,因此可以认为该系数是显著的,不等于0.
(5)图5是有关残差的统计结果表。
(6)图6为标准化残差的直方图,用来表示残差的分布情况。
(7)图7为正态分布图,该图是用来观察标准化残差的分布是否符合正态发布,如果是,则图中散点应该近似为一条直线,且与对角线近似重叠。
(8)因变量、预测值间的散点图,用来反映因变量和预测值的关系,图中可见,因变量和预测值间的散点图散落集中。
实验六聚类分析
一、实验目的
聚类分析,它是研究多要素事物分类问题的数量方法,它是根据本身的属性,用数学方法按照某种相似性或者差异性指标,定量确定样本之间的亲疏关系,并按照这种亲疏关系程度对样本进行聚类。
通过spss,了解聚类分析的步骤与应用
二、实验时间及地点
2015年6月4日周四5栋412
三、实验内容和步骤
1.实验内容:
下表给出了2003年我国各省市的土地利用情况(单位),依据给出的数据对全国各省市的土地利用结构进行分类。
地区园地牧草地居民点及工矿用地交通用地水利设施
北京11.92 0.2 25.74 2.48 2.62
天津 3.68 0.06 23.53 1.46 6.42
河北57.54 81.5 146.98 10.03 12.13
山西28.56 65.44 73.88 5.66 3.21
内蒙古7.33 6622.21 116.9 13.71 8.96
辽宁60.7 36.99 110.43 8.03 14.2
吉林11.59 104.74 82.6 6.14 15.47
黑龙江 6.04 228.08 114.13 11.33 20.76
上海 1.08 0 20.74 1.75 0.19
江苏29.57 0.51 144.48 10.17 19.8
浙江56.82 0.15 66.7 6.34 14.38
安徽34.31 3.77 128.37 8.62 22.88
副建61.34 0.27 44.17 6.32 5.93
江西26.99 0.38 62.37 6.17 20.35
山东102.38 4.14 193.6 14.93 25.03
河南32.08 1.45 183.25 11.04 18.16
湖北42.57 5.46 96.92 7.79 29.73
湖南50.25 10.51 104.11 8.81 19.31
广东84.95 2.82 133.34 10.82 21.1
广西47.01 73.83 65.56 7.31 14.79
海南53.02 1.94 21.74 3.93 6.02
重庆21 23.84 45.66 12.35 4.4
四川69.52 1373.43 131.18 5.22 9.81
贵州11.32 162.18 43.8 8.85 3.5
云南78.12 78.48 58.52 2.09 7.54
西藏0.17 6444.58 3.8 5.84 0.09
陕西65.1 315.99 69.07 6.07 3.92
甘肃19.38 1264.78 87.12 2.69 2.82
青海0.77 4038.57 23.95 2.69 4.39
宁夏 3.38 233.39 16.66 1.52 0.51
新疆29.58 5131.49 96.12 5.76 18.08
2.实验步骤
(1)选择“分析—分类—系统聚类”,弹出“系统聚类”的对话框。
(2)将“园林、牧草地、居民点及工矿用地、交通用地、水利设施用地”选入“变量”,将“地区”选入“标注个案”中。
(3)系统聚类分析的有关参数设置。
(4)系统聚类的统计量输出。
(5)系统聚类的统计图输出。
3.实验结果
图1聚类
案例处理汇总a
案例
有效缺失总计
N 百分比N 百分比N 百分比
31 100.0 0 .0 31 100.0
a. 平均联结(组之间)
图2
聚类表
阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 2
1 2 9 53.445 0 0 2
2 1 2 118.63
3 0 1 9
3 17 18 245.798 0 0 8
4 10 12 304.516 0 0 12
5 13 21 580.83
6 0 0 10
6 4 20 616.836 0 0 11
7 11 14 944.301 0 0 10
8 6 17 1311.826 0 3 12
9 1 22 1444.270 2 0 14
10 11 13 1743.621 7 5 14
11 4 25 2006.243 6 0 15
12 6 10 2070.099 8 4 13
13 6 19 2694.080 12 0 18
14 1 11 2921.318 9 10 20
15 4 7 3445.402 11 0 20
16 15 16 5118.778 0 0 19
17 24 30 5933.156 0 0 21
18 3 6 6801.189 0 13 19
19 3 15 7489.825 18 16 22
20 1 4 8968.789 14 15 22
21 8 24 9831.513 0 17 24
22 1 3 13384.627 20 19 26
23 23 28 16315.387 0 0 28
24 8 27 18055.149 21 0 26
25 5 26 44535.906 0 0 29
26 1 8 55309.013 22 24 28
27 29 31 1200709.492 0 0 29
28 1 23 1607362.732 26 23 30
29 5 29 4107643.979 25 27 30
30 1 5 30475588.662 28 29 0 图3
群集成员
案例 5 群集
1:北京 1
2:天津 1
3:河北 1
4:山西 1
5:内蒙古 2
6:辽宁 1
7:吉林 1
8:黑龙江 1
9:上海 1
10:江苏 1
11:浙江 1
12:安徽 1
13:副建 1
14:江西 1
15:山东 1
16:河南 1
17:湖北 1
18:湖南 1
19:广东 1
20:广西 1
21:海南 1
22:重庆 1
23:四川 3
24:贵州 1
25:云南 1
26:西藏 2
27:陕西 1
28:甘肃 3
29:青海 4
30:宁夏 1
31:新疆 5
图4
平均联结(组之间)
图5
聚类表
阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 2
1 2 9 53.445 0 0 2
2 1 2 118.63
3 0 1 9
3 17 18 245.798 0 0 8
4 10 12 304.516 0 0 12
5 13 21 580.83
6 0 0 10
6 4 20 616.836 0 0 11
7 11 14 944.301 0 0 10
8 6 17 1311.826 0 3 12
9 1 22 1444.270 2 0 14
10 11 13 1743.621 7 5 14
11 4 25 2006.243 6 0 15
12 6 10 2070.099 8 4 13
13 6 19 2694.080 12 0 18
14 1 11 2921.318 9 10 20
15 4 7 3445.402 11 0 20
16 15 16 5118.778 0 0 19
17 24 30 5933.156 0 0 21
18 3 6 6801.189 0 13 19
19 3 15 7489.825 18 16 22
20 1 4 8968.789 14 15 22
21 8 24 9831.513 0 17 24
22 1 3 13384.627 20 19 26
23 23 28 16315.387 0 0 28
24 8 27 18055.149 21 0 26
25 5 26 44535.906 0 0 29
26 1 8 55309.013 22 24 28
27 29 31 1200709.492 0 0 29
28 1 23 1607362.732 26 23 30
29 5 29 4107643.979 25 27 30
30 1 5 30475588.662 28 29 0
四、实验结果分析
(1)图1给出了参加系统聚类分析的6个变量的记录数统计结果。
共31个有效数据
参加了分析,无缺失值,总记录数为31个。
(2)图2为聚类过程的凝聚过程表,首先样品2和样品9合成一类:距离系数为
59.488;合并两项是第一次出现,所以聚类群为0,;合并结果取小序号,即归
为第二类,该步合并结果在第二步出现。
其余的以此类推。
(3)图3给出了分类结果的类成员。
根据前面的设置要求,本例输出划分了4-7类
时,每一个样品属于某一类别的结果。
如黑龙江划分成4类或5类时,属于同一类,划分成6或7类,属于第3类。
(4)图4是分类结果的垂直冰柱图。
在途中,第一列阶表示分多少类,因系统聚类
聚合法,所以从聚类过程看该表应该从下往上看。
(5)图5为聚类分析树状图,直观地显示了样品逐步合并的过程。
实验七因子分析
一、实验目的
理解主成分(因子)分析的基本原理,熟悉掌握SPSS中主成分(因子)分析方法及其主要应用。
二、实验时间及地点
2015年6月8日周一19:00,5栋412
三、实验内容及步骤
1.实验内容:
利用下表的数据对我国8个省的经济发展状况做因子分析。
地区地区生产
总产值
居民消
费水平
基本建设
投资
职工平
均工资
居民消费
价格指数
商品零售
价格
货物周
转量
工业总
产值
北京3663.1 10584 558.7801 25312 100.2 98.2251 462.5 1032.03 天津2447.66 7836 501.3698 18648 101 97.3546 6521.1 1136.24 河北7098.56 3452 845.8997 11189 102.2 100.2415 3223.2 3212.96 山西2654.59 2934 498.2473 10729 101.8 100.3497 1259.1 1192.74 辽宁6002.54 5159 683.1553 13008 101.07 98.8954 2385.2 2556.82 黑龙江4430 4645 593.0769 11038 100.9 99.7056 991.4 2248.59 上海6250.81 15866 899.2687 27304 100.1 99.0407 8492.3 2865.85 新疆1877.61 3237 621.5878 13255 100.4113 99.2355 636.6 571 2.实验步骤:
(1)选择菜单“分析—降维—因子分析”,进入“因子分析”对话框。
(2)选择参与因子分析的变量,即将地区以外的其他七项选入右边的变量框。
(3)设置因子分析的有关控制参数设置,点击“抽取”进入抽取菜单栏。
(4)继续在“因子分析”对话框中单击“旋转”,系统弹出“因子旋转”对话
框。
(5)单击“描述”,设置输出描述统计量和初始分析结果。
(6)单击“得分”,设置有关因子得分的选项。
(7)单击“选项”,设置相关有关输出的选择项。
3.实验结果
图1 描述统计量
均值 标准差 分析 N
地区生产总值 4303.108750 1962.6954983 8 居民消费水平 6714.125000 4531.0397242 8 基本建设投资 650.173200 150.7595020 8 职工平均工资 16310.375000 6684.4456750
8 居民消费价格指数 100.960163 .7443858 8 商品零售价格 99.131013 1.0070777 8 货物周转量 2996.425000 2978.0379954 8 工业总产值
1852.028750
985.2053248
8
图2
图3
公因子方差
初始 提取 地区生产总值 1.000 1.000 居民消费水平 1.000 1.000 基本建设投资 1.000 1.000 职工平均工资 1.000 1.000 居民消费价格指数 1.000 1.000 商品零售价格 1.000 1.000 货物周转量 1.000 1.000 工业总产值
1.000
1.000
提取方法:主成份分析。
图4
相关矩阵a,b
地区生产总值 居民消费水平 基本建设投资 职工平均工资
居民消费价格指数
商品零售价格 货物周转量 工业总产值 相
关 地区生产总值 1.000
.256
.838 .080 .228
.305
.335 .966 居民消费水平 .256 1.000 .389
.955 -.683 -.493 .673 .189 基本建设投资 .838 .389 1.000 .240
-.016
.295
.492 .806 职工平均工资
.080
.955
.240 1.000 -.735 -.602 .532
-.037 居民消费价格指数
.228 -.683 -.016 -.735 1.000
.568 -.160
.314 商品零售价格 .305 -.493 .295 -.602 .568 1.000 -.361 .368 货物周转量 .335 .673 .492
.532
-.160 -.361 1.000 .408 工业总产值 .966
.189
.806 -.037
.314
.368
.408
1.000
a. 行列式 = .000
b. 此矩阵不是正定矩阵。
图5
四、实验结果分析
(1)图1是描述统计表,显示了各个变量的均值,标准误差和参与计算的样品数
(2)图2为相关系数矩阵的逆矩阵。
(3)图3显示了公共因子方差。
初始为初始因子方差,表示因子提取前各个变量的
全部公共因子的载荷系数平方和,公共因子数等于变量数,所以初始公共因子方差均为1。
提取对应的是提取公共因子方差,对应的是根据某种原则提取的公共因子,公共因子数小于等于变量数。
(4)图4是因子分析结果的碎石图。
碎石图的Y轴为特征值,X轴为特征值序号,特征值岸大小进行了排序。
典型的碎石图会有一个明显的拐点,该点之前是与大因子连接的陡峭的折线,之后是与小因子连接的缓坡折线。
分析本例碎石图,明显拐点为3,可以保留前3个因子将能概况大部分信息。
(5)图5是旋转后的三维因子载荷散点图。
分别以第1、第2、第3主因子为X轴、Y 轴和Z轴,根据旋转后的因子载荷矩阵作图。
从图中可以看出各成分的变量的分布集中程度。
实验八判别分析
一、实验目的
利用SPSS软件实现判别分析及其应用。
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。
据此即可确定某一样本属于何类。
二、实验时间及地点
2015年6月15日周一19:00,5栋412
三、实验内容及步骤
1.实验内容:
下表给出华北地区及长江中下游地区一些观测站记录到的六月降水天数和八月降水天数以及八月和六月降水量之比的数据资料,同时给出两地区中间地带的一些观测数据,试用判别分析功能判别这些中间地带的降水变化的类型。
id site rainday6 rainday8 ratio region
1 北京9.7 14.3 3.46 1
2 天津8.9 12.1 2.45 1
3 保定9 12.5 3.26 1
4 石家庄8.
5 13 3.39 1
5 太原10.
6 13.3 2.13 1
6 大同11.6 12.
7 2.05 1
7 张家口11.4 12.7 2.05 1
8 榆林7.8 12.5 1.82 1
9 兴县10.1 13.3 3.01 1
10 五台山16.4 18.1 1.8 1
11 上海13.1 10 0.74 2
12 南京10.9 11.5 0.87 2
13 合肥10.3 10.1 1.18 2
14 汉口11.7 8.05 0.61 2
15 九江13.6 9.4 0.61 2
16 安庆12.3 9.5 0.44 2
17 芜湖10.5 10.9 0.76 2
18 溧阳11.3 12.2 0.75 2
19 黄石14 10.4 0.64 2
20 东山12.5 11.7 1.01 2
21 青岛13.7 11.6 1.68
22 兖州10.5 13.7 1.75
23 临沂10 12 1.65
24 徐州8.3 11.1 1.48
25 阜阳8.6 10.9 1.07
“1”代表华东地区,“2”代表长江中下游地区
2.实验步骤
(1)点击“分析—分类—判别”,进入“判别分析”主菜单栏;
(2)选择相应的自变量,分组变量;
(3)分别点击“统计量”“方法”“分类”“保存”等按钮,设置相关的需要输
出的要求;
(4)设置完成后点击“确定”,等待结果。
3.实验结果
图1
分析案例处理摘要
未加权案例N 百分比
有效20 80.0
排除的缺失或越界组代码 5 20.0 至少一个缺失判别变量0 .0 缺失或越界组代码还有至少
一个缺失判别变量
0 .0 合计 5 20.0
合计25 100.0
图2
组统计量
region 均值标准差有效的 N(列表状态)
未加权的已加权的
1.00 rainday6 10.4000
2.44131 10 10.000 rainday8 1
3.4500 1.74308 10 10.000 ratio 2.5420 .66921 10 10.000
2.00 rainday6 12.0200 1.29254 10 10.000 rainday8 10.3750 1.24571 10 10.000 ratio .7610 .21429 10 10.000
合计rainday6 11.2100 2.07489 20 20.000 rainday8 11.9125 2.15931 20 20.000 ratio 1.6515 1.03374 20 20.000
图3
汇聚的组内矩阵a
rainday6 rainday8 ratio
协方差rainday6 3.815 1.594 -.459 rainday8 1.594 2.295 -.061 ratio -.459 -.061 .247
相关性rainday6 1.000 .539 -.473 rainday8 .539 1.000 -.081 ratio -.473 -.081 1.000
a. 协方差矩阵的自由度为 18。
图4
检验结果
箱的 M 13.180
F 近似。
3.865 df1 3 df2 58320.000 Sig. .009
对相等总体协方差矩阵的零假设
进行检验。
图5
分类函数系数
region
1.00
2.00
rainday8 6.173 4.632
ratio 11.815 4.222
(常量) -57.224 -26.330
Fisher 的线性判别式函数
图6
分类结果a
region 预测组成员合计
1.00
2.00
初始计数
1.00 10 0 10
2.00 0 10 10
未分组的案例 2 3 5
% 1.00 100.0 .0 100.0
2.00 .0 100.0 100.0 未分组的案例40.0 60.0 100.0
a. 已对初始分组案例中的 100.0% 个进行了正确分类。
四、实验结果分析
(1)图1为判别计算结果图,参加判别分析的总数为25,而有效测量数为20,占
80%:包含缺失值或分类变量范围之外的观测数为5,占20%。
(2)图2给出各自变量按照区划类别以及全部观测量计算的均值、标准值等。
(3)图3的上半部分为自变量间合并的协方差矩阵,下半部为自变量间相关系数矩
阵。
协方差矩阵的自由度为18,。
从相关系数值可知,各自变量的线性相关关系不协调。
(4)图4列出检验协方差矩阵相等的统计值为23.509>0.05,从而在显著性水平
0.05下认为各类协方差矩阵相等;F检验的显著性概率Sig=0.04<0.05,从而
认为判别分析是显著的,说明错判率将很小
(5)图5中给出了分类函数系数
区划1 q1=2.760*rainday6+4.535*rainday8+15.526*ratio-65.094
区划2 q2=3.158*rainday6+2.702*rainday8+9.152*ratio-37.233
(6)图6给出最后的分类结果,对于原始数据中分别属于区划类1,区划类2的各10
个观测量仍然归于原类,全部判对;待判的5个测量值有2个归入区划1,3个归入区划类2.。