西北太平洋热带气旋的问题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

西北太平洋热带气旋问题

摘要

随着社会经济的不断发展,自然灾害带给人类生活的影响也在扩大,热带气旋作为主要自然灾害之一,一直是人类重点研究关注的对象。本文从热带气旋信息基础要素之间相关性关系,以及构建热带气旋发生频率模型和对热带气旋等级标准的评估与优化展开讨论。

针对问题一,基于西北太平洋热带气旋基础信息数据,利用相关性和显著性指标分析各信息要素间相关性水平,分析出各个基础信息要素之间是否存在的相关关系,以及其相关关系程度。

针对问题二,根据所给数据中历年台风发生次数,建立台风发生次数模型,并结合最小二乘法拟合图像,在此基础上进行模型优化,使得模型拟合度最高。经分析近年来热带气旋发生频率整体呈震荡趋势,在最近三年有所上升,并根据此模型预测2014年发生频率为21次。

针对问题三,经过问题分析我们发现国家等级划分标准过于单一,无法准确评估热带气旋,因此本文引进多项指标作为评定标准。首先将热带气旋各信息要素进行聚类,从而简化信息要素,再根据简化后各要素对数据进行聚类,依据各类的指标,将其划为四类,接着对所划分标准与相关参考资料进行比对和考证,说明划分标准的可靠性。

关键词:相关性、曲线拟合、聚类

1.问题的重述

20世纪是人类历史上物质文明发展最快的世纪,科学技术取得了巨大的进展,数值天气预报的成功也重要展现了社会和科技的进步。但是,经济越发展自然灾害造成的损失就越大,21世纪人类仍将面临频繁发生的自然灾害的威胁,热带气旋是世界上主要的自然灾害之一。在我国, 气象灾害频数占整个自然灾害的70%以上,造成的经济损失占国内生产总值的3%-6%,这一比率比一般发达国家高,而台风灾害在气象灾害中占有相当一部分。

附录1给出了2000-2013年的西北太平洋热带气旋基础信息,附录2给出了2006年修订的热带气旋等级国家标准。

试利用附录1给出的2000-2013年的西北太平洋热带气旋基础信息分析如下问题:1)西北太平洋热带气旋基础信息要素之间相关吗?若相关,关系如何?

2)近年来西北太平洋热带气旋发生频率在升高吗?2014年西北太平洋上会发生多少个热带气旋?

3)2006年修订的热带气旋等级国家标准还合适吗?若不合适,你认为应该怎样调整?

2.模型的假设

(1)假设附录所给数据真实可靠;

(2)假设数据足够精确,能够放映出改热带气旋的各项指标;

(3)假设附录中测量的数据有足够的依据。

3.符号说明

符号含义

x年份

y台风发生次数

4.问题的分析

4.1 问题一的分析

问题一是在给定326条西北太平洋热带气旋基础信息的基本数据,和11项基础信息下的不同数据的分析,寻找基础信息要素之间是否存在相关关系,以及相关关系的程度。其关键在于分析各个基础要素之间的相关性和显著性。因此,本文拟用相关性和显著性这两个指标对各个因素逐一分析,找出存在的相关关系并求出相关关系程度。

4.2 问题二的分析

问题要求根据所给数据中历年台风次数判断近年来台风次数的趋势,并预测2014年的台风次数,即需要建立与年份相关的台风次数预测模型。因此,建立以年份为x轴与以台风次数为y轴坐标轴,在此坐标轴上画出年份与台风次数的散点图,观察并考虑采用最小二乘法拟合图像,即观测值与预测值的差值平方和达到最小。在次基础上改进模型,判断比较回归平方和与总离差平方和的比值2R。2R介于0和1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合度比较高。

4.3 问题三的分析

本文问题三在于讨论2006年修订的热带气旋等级国家标准是否合适,经过问题一的分析,我们发现,国家制定的等级标准评定标准过于单一,只以最大风速为参考标准,因此本文考虑引进多项因素作为评定标准,从而更加客观的评定热带气旋等级,此题首先根据问题一求解结果,利用SPSS软件将热带气旋的基础信息要素进行聚类,从而简化信息要素,再利用简化后信息要素将数据资料进行聚类,从而分为三类,并根据每类特点制定等级划分标准,再通过历史文献资料的比对考证,证明划分标准的可靠性。

5.模型的建立与求解

5.1 问题一模型的建立与求解

Step1:Pearson相关系数

Pearson相关系数用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有

Pearson 简单相关系数值域等级的解释(见表 1 )

表 1 相关系数和值域等级

系数值域

等级解释

0.8-1.0 极强相关 0.6-0.8 强相关 0.4-0.6 中等程度相关 0.2-0.4 弱相关

0.0-0.2

极弱相关或无相关

Pearson 计算公式:

i i cov(X ,Y )cov(X ,X )cov(Y ,Y )i i i i i R =

展开得:

2

2

2

2

=

N X ()()i i i i

i i i i i N X Y X Y R X N Y Y -⎡⎤⎡⎤--⎣⎦⎣⎦

∑∑∑∑∑∑∑

其中i X 、i Y 代表各个基础信息要素,i R 代表各个基础信息要素之间的Pearson

系数。

Step2:显著性水平P 检验

显著性的含义是指两个群体的态度之间的任何差异是由于系统因素而不是偶然因素的影响。我们假定控制了可能影响两个群体之间的差异的所有其他因素,因此,余下的解释就是我们所推断的因素,而这个因素不能够100%保证,所以有一定的概率值,叫显著性水平。显著性水平是估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用α表示。显著性是对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,一类是随机差异。它是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。

P 值的理解:假设检验是推断统计中的一项重要内容。用SAS 、SPSS 等专业统计软件进行假设检验,在假设检验中常见到P 值( P-Value ,Probability ,Pr),P 值是进行检验决策的另一个依据。

P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著,P<0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。

相关文档
最新文档