气象观测站优化模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
气象观测站的优化模型
气象观测站的优化模型
摘要:
本文进行合理的的进行假设和建立模型,在保证得到降水量信息足够大的情况下减少气象观测站的数目,从而节省开支。用SPSS软件对12个观测站运用模糊聚类法进行聚类,得到12种聚类方案。我们运用2R统计量方法得到最优的分类方案,分为7类,即{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9}。为了得到最终的优化方案,我们要从12个站中去除5个站,去除原则:设变量服从同一分布,经比较各变量的均值、标准差与总体的均值、标准差接近度几乎相同,我们标准差大的信息量大,因此保留标准差大的。
最终的优化方案:去除5个站分别是7x、8x、10x、11x、12x。
关键字:模糊聚类分析,2R统计量,伪F统计量
一、问题重述
某地区有12个气象观察站,为了节省开支,计划减少气象观察站的数目。已知该地区12个气象观测站的位置,以及10年来各站测得的年降水量,要求减少哪些观测站可以使所得的降水量的信息足够大。
二、模型假设与符号说明
2.1 模型假设
1.表中数据库存在误差,但没有错误;
2.在10年中降水量偏差较小的气象站之间具有较大的相似性;
3.相近地域的气象特征具有较大的相似性和相关性,它们之间的影响可以近似为一种线性关系;
4.该地区的地理特征具有一定的均匀性,而不是表现为复杂多变的地理特征; 5.在距离较远的条件下,由于地形、环境因素而造成不同区域的年降水量相似的可能性很小,可以被忽略。不同区域的降水量的差异主要与距离有关;
6.不考虑其它区域对本地区的影响;
7.相似性较大的气象站的降水量服从同一分布,具有相同的期望和方差。
2.2 符号说明
k S :表示类k G 中样品的类内离差平方和; k x :表示类k G 的重心;
T : 表示所有样品的总离差平方和; 2
i R :有i 个样品被聚合成一类;
i x :表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i ;
)D i x (:表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i 。
三、问题分析
题目要求我们减少一些观测站,但获得的降水量的信息要足够大。我们首先要考虑降水量的信息问题。对一个观测站而言,减少观测站的个数,得到的信息量也必将减少,但由此可以节省开支,因此最优的结果是既要满足气象观测站的个数比较少,同时得到的信息量足够大。在这两个互相制约的方面,观测站的个数和信息量之间,应主要考虑信息量,因为信息量减少到一定程度,气象观测站就失去意义了。因此问题就是求怎样减少观测站的个数,在信息量不少于一定值的条件下使观测站的个数尽量减少。
但是,信息量是一个比较模糊的概念。为了保证信息量,我们认为在相似性很好的n个站可以去掉n-1个站,让剩下的一个站来反映这n个站的共同特点,而原始数据中的与其他站联系不大的站就保留下来。由于去掉的站是相关性好的,因此去掉的站可以用剩下的站来表示,而且误差较小。
对于此问题,我们可以利用SPSS软件将12个观测站进行聚类,再用谱系聚类法中R2统计量来评价每次合并时聚类的效果,然后确定聚成几类。
四.模型建立与求解
4.1.模型准备
4.1.1在SPSS软件中实现聚类,聚类结果如下图:
1)聚为11类:{1}、{2}、{3}、{4}、{5}、{6、11}、{7}、{8}、{9}、{10}、{12} 2)聚为10类:{1}、{2}、{3}、{4}、{5、10}、{6、11}、{7}、{8}、{9}、{12} 3)聚为9类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8}、{9}、{12} 4)聚为8类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8、9}、{12} 5)聚为7类:{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9} 6)聚为6类:{1}、{3}、{4、7、12}、{2、5、10}、{6、11}、{8、9} 7)聚为5类:{1}、{4、7、12}、{2、5、10}、{3、6、11}、{8、9} 8)聚为4类:{1}、{2、4、5、7、10、12}、{3、6、11}、{8、9} 9)聚为3类:{1}、{2、4、5、7、10、12}、{3、6、8、9、11} 10)聚为2类:{1}、{2、3、4、5、6、7、8、9、10、11、12} 11)聚为1类:{1、2、3、4、5、6、7、8、9、10、11、12}
4.1.2设某谱系水平上类的个数是G 类,k G 中样品的类内离差平方和为:
2k ||||)()
(S k
G i i
k i T
k
G i i
x
x x x x x k
k
-=
--=
∑∑∈∈
k S 的值越小,则说明k G 中样品越相似; 在谱系的第G 层共有G 类且定义∑==G
k k S 1G P
又以T 记所有样品的总离差平方和:
2
1
1||||()(∑∑==-=--=n
i i i T
n
i i x x x x x x T ) 其中∑==n
i i x n x 11
定义T
P R G
-
=12 2R 统计量可用于评价每次合并时的聚类效果。显然1R 0≤≤,当n 个样品各自成
一类时,12=R ;当n 个样品合并成一类时,02=R 。2R 的值总是随着分类数目的减少而减少,可以从2R 的值的变化看n 个样品分成几类最合适。
4.2模型的求解 4.2.1.根据T
P R G -
=12求得2
i R 2
i R 2
1R 2
2R 2
3R 2
4R 2
5R 2
6R
1
0.965
2
0.933
3
0.892
4
0.847
6
0.798
2
i R 2
7R 2
8R 2
9R 2
10R 2
11R 2
12R
0.627
7 0.505
1
0.336
6.
0.157
6
0.134
4
4.2.2根据2R 统计量的变化量来确定分为几类比较合适。 令11,2++-=i i i i R R R )11,2,1(⋅⋅⋅=i
1
,2+i i R
2,12R 3,22R 4,32R 5,42R ,652R ,762R
0.030.030.040.040.040.17