气象观测站优化模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

气象观测站的优化模型

气象观测站的优化模型

摘要:

本文进行合理的的进行假设和建立模型,在保证得到降水量信息足够大的情况下减少气象观测站的数目,从而节省开支。用SPSS软件对12个观测站运用模糊聚类法进行聚类,得到12种聚类方案。我们运用2R统计量方法得到最优的分类方案,分为7类,即{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9}。为了得到最终的优化方案,我们要从12个站中去除5个站,去除原则:设变量服从同一分布,经比较各变量的均值、标准差与总体的均值、标准差接近度几乎相同,我们标准差大的信息量大,因此保留标准差大的。

最终的优化方案:去除5个站分别是7x、8x、10x、11x、12x。

关键字:模糊聚类分析,2R统计量,伪F统计量

一、问题重述

某地区有12个气象观察站,为了节省开支,计划减少气象观察站的数目。已知该地区12个气象观测站的位置,以及10年来各站测得的年降水量,要求减少哪些观测站可以使所得的降水量的信息足够大。

二、模型假设与符号说明

2.1 模型假设

1.表中数据库存在误差,但没有错误;

2.在10年中降水量偏差较小的气象站之间具有较大的相似性;

3.相近地域的气象特征具有较大的相似性和相关性,它们之间的影响可以近似为一种线性关系;

4.该地区的地理特征具有一定的均匀性,而不是表现为复杂多变的地理特征; 5.在距离较远的条件下,由于地形、环境因素而造成不同区域的年降水量相似的可能性很小,可以被忽略。不同区域的降水量的差异主要与距离有关;

6.不考虑其它区域对本地区的影响;

7.相似性较大的气象站的降水量服从同一分布,具有相同的期望和方差。

2.2 符号说明

k S :表示类k G 中样品的类内离差平方和; k x :表示类k G 的重心;

T : 表示所有样品的总离差平方和; 2

i R :有i 个样品被聚合成一类;

i x :表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i ;

)D i x (:表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i 。

三、问题分析

题目要求我们减少一些观测站,但获得的降水量的信息要足够大。我们首先要考虑降水量的信息问题。对一个观测站而言,减少观测站的个数,得到的信息量也必将减少,但由此可以节省开支,因此最优的结果是既要满足气象观测站的个数比较少,同时得到的信息量足够大。在这两个互相制约的方面,观测站的个数和信息量之间,应主要考虑信息量,因为信息量减少到一定程度,气象观测站就失去意义了。因此问题就是求怎样减少观测站的个数,在信息量不少于一定值的条件下使观测站的个数尽量减少。

但是,信息量是一个比较模糊的概念。为了保证信息量,我们认为在相似性很好的n个站可以去掉n-1个站,让剩下的一个站来反映这n个站的共同特点,而原始数据中的与其他站联系不大的站就保留下来。由于去掉的站是相关性好的,因此去掉的站可以用剩下的站来表示,而且误差较小。

对于此问题,我们可以利用SPSS软件将12个观测站进行聚类,再用谱系聚类法中R2统计量来评价每次合并时聚类的效果,然后确定聚成几类。

四.模型建立与求解

4.1.模型准备

4.1.1在SPSS软件中实现聚类,聚类结果如下图:

1)聚为11类:{1}、{2}、{3}、{4}、{5}、{6、11}、{7}、{8}、{9}、{10}、{12} 2)聚为10类:{1}、{2}、{3}、{4}、{5、10}、{6、11}、{7}、{8}、{9}、{12} 3)聚为9类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8}、{9}、{12} 4)聚为8类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8、9}、{12} 5)聚为7类:{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9} 6)聚为6类:{1}、{3}、{4、7、12}、{2、5、10}、{6、11}、{8、9} 7)聚为5类:{1}、{4、7、12}、{2、5、10}、{3、6、11}、{8、9} 8)聚为4类:{1}、{2、4、5、7、10、12}、{3、6、11}、{8、9} 9)聚为3类:{1}、{2、4、5、7、10、12}、{3、6、8、9、11} 10)聚为2类:{1}、{2、3、4、5、6、7、8、9、10、11、12} 11)聚为1类:{1、2、3、4、5、6、7、8、9、10、11、12}

4.1.2设某谱系水平上类的个数是G 类,k G 中样品的类内离差平方和为:

2k ||||)()

(S k

G i i

k i T

k

G i i

x

x x x x x k

k

-=

--=

∑∑∈∈

k S 的值越小,则说明k G 中样品越相似; 在谱系的第G 层共有G 类且定义∑==G

k k S 1G P

又以T 记所有样品的总离差平方和:

2

1

1||||()(∑∑==-=--=n

i i i T

n

i i x x x x x x T ) 其中∑==n

i i x n x 11

定义T

P R G

-

=12 2R 统计量可用于评价每次合并时的聚类效果。显然1R 0≤≤,当n 个样品各自成

一类时,12=R ;当n 个样品合并成一类时,02=R 。2R 的值总是随着分类数目的减少而减少,可以从2R 的值的变化看n 个样品分成几类最合适。

4.2模型的求解 4.2.1.根据T

P R G -

=12求得2

i R 2

i R 2

1R 2

2R 2

3R 2

4R 2

5R 2

6R

1

0.965

2

0.933

3

0.892

4

0.847

6

0.798

2

i R 2

7R 2

8R 2

9R 2

10R 2

11R 2

12R

0.627

7 0.505

1

0.336

6.

0.157

6

0.134

4

4.2.2根据2R 统计量的变化量来确定分为几类比较合适。 令11,2++-=i i i i R R R )11,2,1(⋅⋅⋅=i

1

,2+i i R

2,12R 3,22R 4,32R 5,42R ,652R ,762R

0.030.030.040.040.040.17

相关文档
最新文档