数学建模海洋表面温度建模分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 3.4 台湾海峡观测点 Birch 聚类结果分析
台湾海峡观测点 Birch 聚类结果分析如图 3.4 所示。从图中可以分析得出, 台湾海峡的样本观测点数,随着所给定 K 值的增加,轮廓系数也在变化,值越大,
表示聚类效果越好,因此当 K=2 时,得到最大轮廓系数 0.566,故最终台湾海峡 的集群数目应为 2。 3.4、K-均值方法对各个海区观测点聚类结论与分析 3.4.1 东海观测点聚类分析:
是基于当前已经处理过的数据点,而不是基于全局的数据点。
(4)如果簇不是球形的,BIRCH 不能很好的工作,因为它用了半径或直径的
概念来控制聚类的边界。
考虑对于一个 n 个 d 维的数据对象集{ }。其中 i=1,2……n,该聚类簇的
中心 C 和半径 R 定义为:
C
x N
i1 i
N
R (
1、对于第 I 个元素 x_i ,计算 x_i 与其同一个簇内的所有其他元素距离的 平均值,记作 a_i,用于量化簇内的凝聚度。
2、选取 x_i 外的一个簇 b,计算 x_i 与 b 中所有点的平均距离,遍历所有 其他簇,找到最近的这个平均距离,记作 b_i,用于量化簇之间分离度。
3、对于元素 x_i,轮廓系数 s_i = (b_i – a_i)/max(a_i,b_i) 4、计算所有 x 的轮廓系数,求出平均值即为当前聚类的整体轮廓系数 从上面的公式,不难发现若 s_i 小于 0,说明 x_i 与其簇内元素的平均距离 小于最近的其他簇,表示聚类效果不好。如果 a_i 趋于 0,或者 b_i 足够大,那 么 s_i 趋近与 1,说明聚类效果比较好。
图 3.3 南海观测点 Birch 聚类结果分析
南海观测点 Birch 聚类结果分析如图 3.3 所示。从图中可以分析得出,南海 的样本观测点数,随着所给定 K 值的增加,轮廓系数也在变化,值越大,表示聚 类效果越好,因此当 K=3 时,得到最大轮廓系数 0.520,故最终南海的集群数目 应为 3。 3.3.4 台湾海峡观测点聚类分析:
问题一:通过每个海区的观测的观测数据,对观测点进行聚类分析。 问题二:对同一类观察点对于给定数据建立反映温度变化规律的数学模型, 依据建立的模型对该区域的海洋表面温度的变化特点进行说明(比如季节,温度 的变化趋势)。 问题三: 综合几个海区的情况对全球海洋表面温度变化特点进行描述,评估 其变化趋势对人类的生活影响,同时为了不出现不良影响,人类的生活应该如何 改变。
针对问题三:根据前面的问题二的模型分析,四大海域的海水表面温度在逐 渐升高,近年来海域沿海周边大型工业城市 GDP 急速增长,工业污染程度逐年猛 增,二氧化碳的排放量飞速增长,这些都是引起海洋表面温度变化的关键因素。 同时我们通过灰色关联分析法,对海洋表面温度变化与 GDP 之间的关系进行分 析。结合以上几点分析了温度变化趋势对现代人们生活和社会发展带来的巨大影 响。同时为了应对全球海洋表面温度的变化对人们生产生活出现的不良影响,我 们提出几点应对措施。
在实际问题中,反映同一事物特征的变量有很多,根据所研究问题的重点, 通常可以选择某些具有代表性的变量进行研究。也就是说,对描述观测事物的变 量进行归类,使得每一类都代表观测事物某一方面的特征,这就是变量聚类。
3.2 聚类方法对比介绍
表 1 四种聚类方法对比
方法名称 参数 可扩展性
用例 几何
K-均值
近些年来温室效应加剧,海平面上升也加剧,作为全球重要环境问题的海平 面变化,已经越来越成为海洋科学家和气象学家共同关注的热点问题。
海洋表面温度变化能够从分体现环境的变化情况,海洋表面污染的增多和全 球的环境的污染以及二氧化碳的排放致使气温的升高,都会引起海洋表面温度的 升高,同时海洋温度同时又有四季的周期变化的特点,本题给出了东海、杭州湾、 南海、台湾海峡四个海区的温度 10 年间的日观测数据,通过数据建模回答以下 问题。 1.2 研究问题:
公式中, 是个体 x 的第 i 个变量的变量值, 是个体 y 的第 i 个变量的变 量值。
3.2.2、Birch 聚类方法 Birch(Balanced Iterative Reducing and Clustering Using Hierarchies)
算法全称是:利用层次方法的平衡迭代规约和聚类。BIRCH 算法是 1996 年由 Tian Zhang 提出来的。首先,BIRCH 是一种聚类算法,它最大的特点是能利用有限的 内存资源完成对大数据集的高质量的聚类,同时通过单遍扫描数据集能最小化 I/O 代价。
图 3.6 杭州湾观测点 K-means 聚类结果分析
杭州湾观测点 K-means 聚类结果分析如图 3.6 所示。从图中可以分析得出, 杭州湾的样本观测点数,随着所给定 K 值的增加,轮廓系数也在变化,值越大,
表示聚类效果越好,因此当 K=3 时,得到最大轮廓系数 0.453,故最终杭州湾的 集群数目应为 3。 3.4.3 南海观测点聚类分析:
关键词:观测点 聚类分析 K-means Birch
一、问题重述
1.1 研究背景: 海洋表面温度是海洋物理性质中的最基本要素之一。海洋水团的划分、海水
不同层次的锋面结构、海流的性质判别等都离不开海水温度这一要素。海洋表面 温度是认识和了解上层海洋生物地球物理化学过程和海气相互作用的一把钥匙。 掌握水温的分布变化规律对巩固国防、推动国民经济发展有着重要的意义。
针对问题一:结合聚类分析的理论和方法,分别采用 K-means、Birch 方法 建立数学模型,使用 Python 和 MATLAB 语言及其工具包进行编程,在合理的假 设下,确定了各个海区众多观测点的具体集群数目。
针对问题二:由问题一的对于杭州湾的聚类分析,我们对杭州湾同一类观察 点给定数据通过插值拟合的方式得出了呈周期性变化的函数表达式。杭州湾气温 随季节变化最为明显,杭州湾周边大型城市较多,例如上海、杭州、宁波等,距 离陆地较近,受到热岛效应及全球变暖及陆地季节变化等影响出现了四季分明的 温度变化趋势,而东海和南海距离陆地较远,海域面积较广,其年温差最小且海 洋表面温度保持在 20 以上,证实了海洋表面的自我温控能力,台湾海峡地处大 陆与台湾之间,海洋表面温度同样四季分明,温差接近与杭州湾,这一变化趋势 来源于其二者之间的独特的地理位置。故以杭州湾为例,结合其周边新一线城市 杭州近年来的 GDP 以及碳排放量等重要数据,对海洋表面温度变化规律及影响因 素进行探究。
成 K 维空间上的点,以距离作为测试个体“亲疏程度”的指标,并通过牺牲多个
解为代价换得高的执行效率。
欧式距离(Euclidean distance)指两个个体的 K 个变量值之差的平方和的
平方根,其数学定义为:
������
d = √∑(������������ − ������������)2
������=1
3.2.4、K 值选取: 在本题中, k 一般不会设置很大。故可以通过枚举,令 k 从 2 到一个固定
值,本题中取最大为 8,在每个 k 值上重复运行数次,并计算当前 k 的轮廓系数, 最后选取轮廓系数最大的值所对应的 k 作为最终的集群数目。 3.3、Birch 聚类方法对各个海区观测点聚类结论与分析 3.3.1、东海观测点聚类分析:
团簇数目
非常大的 n_samples,中 的 n_clusters, MiniBatch 代
码 通用的即使群 集大小、 平面 几何、 没有太 多的集群 点之间的距离
DBSCAN
邻域大小
非常大的 n_samples,中 等 n_clusters
非平面几何, 不均匀的簇大 小
最近的点之间 的距离
Gaussian mixtures 很多
不可扩展
平面几何,好 为密度估计
马氏距离到中 心
Birch
分支因子,阈 值,可选的全 局聚类器
大的 n_samples,大 的 n_clusters
大型数据集
点之间的欧几 里得距离
3.2.1、K-mean 聚类方法
K-means 聚类也称快速聚类,是由 MacQueen 于 1967 年提出的,它将数据看
二、模型假设
假设一:题目中所提供的东海、杭州湾、南海、台湾海峡四个海区的温度 10 年间的日观测数据具有真实可靠性。
假设二:四个海区中的列数据表示不同的观测点 假设三:四个海区中的行数据表示从第一年到第十年每日数据 假设四:四个海区中十年数据每月按 30 天计算
三、各海域观测点聚类模型建立与求解
3.1、聚类分析原理及其分类介绍: 3.1.1、聚类分析概念及其原理:
3.1.2、聚类分析的分类: 聚类分析就是根据事物本身的特性,按照一定的类定义准则,对研究的事物
进行归类。以分类对象的标准,我们可以把聚类分为变量聚类和观测聚类。 观测聚类:
观测聚类又称为样本聚类,是指根据被研究对象的总体特征对其进行聚类。 根据观测聚类定义,在对事类:
图 3.5 东海观测点 K-means 聚类结果分析
东海观测点 K-means 聚类结果分析如图 3.5 所示。从图中可以分析得出,东 海的样本观测点数,随着所给定 K 值的增加,轮廓系数也在变化,值越大,表示 聚类效果越好,因此当 K=3 时,得到最大轮廓系数 0.672,故最终东海的集群数 目应为 3。 3.4.2 杭州湾观测点聚类分析:
海洋表面温度观测数据建模分析 摘要
本文针对海洋表面温度观测数据进行分析,使用聚类分析的方法,分别采用 K-means、Birch 方法建立数学模型,使用 Python 和 MATLAB 语言及其工具包进 行编程,在合理的假设下,确定了各个海区众多观测点的具体集群数目,并且对 某一海区同一类观察点给定数据通过插值拟合的方式,建立反映温度变化规律的 数学模型,同时依据建立的模型对该区域的海洋表面温度的温度变化特点进行了 分析说明。
图 3.1 东海观测点 Birch 聚类结果分析
东海观测点 Birch 聚类结果分析如图 3.1 所示。从图中可以分析得出,东海 的样本观测点数,随着所给定 K 值的增加,轮廓系数也在变化,值越大,表示聚 类效果越好,因此当 K=3 时,得到最大轮廓系数 0.688,故最终东海的集群数目 应为 3。 3.3.2、杭州湾观测点聚类分析:
图 3.7 南海观测点 K-means 聚类结果分析
南海观测点 K-means 聚类结果分析如图 3.7 所示。从图中可以分析得出,杭 州湾的样本观测点数,随着所给定 K 值的增加,轮廓系数也在变化,值越大,表 示聚类效果越好,因此当 K=3 时,得到最大轮廓系数 0.505,故最终南海的集群 数目应为 3。 3.4.4 台湾海峡观测点聚类分析:
N ||
i 1
xi

C
||2
1
)2
N
其中 R 为一个聚类簇中的所有数据对象到聚类中心对象的平均距离。
3.2.3、轮廓系数: 轮廓系数(Silhouette Coefficient)结合了聚类的凝聚度(Cohesion)和
分离度(Separation),用于评估聚类的效果。该值处于-1~1 之间,值越大, 表示聚类效果越好。具体计算方法如下:
Birch 算法特点:
(1)BIRCH 试图利用可用的资源来生成最好的聚类结果,给定有限的主存,
一个重要的考虑是最小化 I/O 时间。
(2)BIRCH 采用了一种多阶段聚类技术:数据集的单边扫描产生了一个基本
的聚类,一或多遍的额外扫描可以进一步改进聚类质量。
(3)BIRCH 是一种增量的聚类方法,因为它对每一个数据点的聚类的决策都
图 3.2 杭州湾观测点 Birch 聚类结果分析
杭州湾观测点 Birch 聚类结果分析如图 3.2 所示。从图中可以分析得出,杭
州湾的样本观测点数,随着所给定 K 值的增加,轮廓系数也在变化,值越大,表 示聚类效果越好,因此当 K=3 时,得到最大轮廓系数 0.413,故最终杭州湾的集 群数目应为 3。 3.3.3 南海观测点聚类分析:
聚类分析是研究“物以类聚”的一种方法。聚类分析又称为群分析,是指依 据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医 学等领域,都有广泛的应用。聚类分析是一种建立分类的多元统计分析方法,他 能够将一批样本(或变量)数据根据其诸多特征,按照性质上的亲疏关系在没有 先验知识的情况下进行分类,产生多个分类结果。各分类内部个体特征之间具有 相似性,不同分类之间个体特征的差异性较大。
相关文档
最新文档