综述-阈值的选择-3-0524

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(1991)认为 POT 法也可以配合 Gumbel 分布,Weibull 分布等各种不同的概率模 型拟合超阈序列[王超, 刘德辅. 设计波浪选取中的不确定性分析[J]. 海洋学报, 1991, 13(6):874-881.]。
过阈法对我国水文观测现状有重要意义,我国的水文观测最长的不过的资 料,而且早期由于观测仪器设备简陋,精度不高甚至不能使用,可用的的原始数 据长度十分有限,因此从有限的数据中获取更多的信息对我国的现状十分重要。 过阈法能一定程度上丰富样本数量,有效弥补我国水文观测年限不足的缺点。
极值分布理论及其应用[J]. 应用数学学报, 1979, 2(4):366-375.]。我国《海港水文规范》 中也明确规定:在进行波高或周期的频率分析时,连续的资料年数不宜少于 20 年。年极值取样一般配合的的概率分布模型有极值Ⅰ和Ⅲ型分布,P-Ⅲ分布, Log-normal 分布等。在海岸工程设计中,我国《海港水文规范》中规定采用年频 率统计的方法推求年一遇的高、低潮位作为极端水位,推荐极值Ⅰ型分布拟合年 最值;波高和周期的重现期值也是采用年频率统计方法推求,主要采用的分布是 纯经验性的 P-Ⅲ分布,该分布没有理论基础,用适线法进行参数拟合时受人为 判断影响;计算结果不够稳定,利用短期样本估计结果偏差可能较大;在分方向 统计波高重现期值时,需要每年每个方向都有较大波高,这样对样本资料要求较 高,有时原始样本数据难以满足要求。该类传统的方法主要是利用年极值进行重 现期的推求,以波高重现期为例,选取每年最大波高来拟合 P-Ⅲ分布,通过重 现期与累积概率间关系得到各波高的重现期值。[罗耀. 基于超阈法的海洋工程极端
海洋数据的阈值选取综述----原理、方法和应用
当观测序列有限时可以确定某一观测值下界,即阈值,凡是超过此值的均列 入统计序列,而后通过某种长期理论分布进行适线。这种方法要求的序列长度不 及年极值法,而且充分利用已有的观测信息,但此法在国内应用不多,如何确定 阈值是解决问题的关键所在[董胜, 李奉利, 孙瑞文. 风暴增水随机分析的过阈法及其统 计计算模式[J]. 中国海洋大学学报(自然科学版), 2000, 30(3):542-548.]。
分布理论及其工程应用[D]. 中国海洋大学, 2005.]
1.1 年极值法
目前年极值法已经被各国学者广泛使用在各个领域,但是年极值法存在一些 不足,Ton 和 Yin 指出年极值法极大的浪费数据,比如极值波高的估算中,选取 每年波高最大值作为样本,可能出现有些小浪年的极大值小于大浪年的次大值, 甚至更小,造成大浪年的很多合理的较大波高数据被舍弃;马逢时和刘德辅(1979) 认为短期资料年限无法使用年极值法,且计算结果不够稳定[马逢时, 刘德辅. 复合
of Hydrology, 1979, 41(1):189-190.]中有详细论述。水文统计中叫做超过阈值的峰 (peaks over threshold),简称 POT。文wenku.baidu.com将方法具体分为以下几个步骤:
1.按照一定原则如时间、天气过程等将所有数据分组; 2.找出每组最佳阈值和最大超出量; 3.假定组最大值是独立的,拟合超出量分布; POT 法增加了数据的利用率,从样本数据能获取更多样本信息。Mazas(2008) 认为平均每年所选样本个数λ 大约在 2~5 个[Mazas F, Hamm L. A multi-distribution
Multivariate Generalised Pareto Distributions[J]. Chalmers University of Technology, 1996.] , Rootzén 和 Tajvid ( 2006 ) [Rootzén H, Tajvidi N. Multivariate Generalized Pareto Distributions[J]. Bernoulli, 2006, 12(5):917-930.]使用另外一种取阈方法,选用仅一个分 量超过阈值的观测数据,如下图中的区域Ⅰ、Ⅱ和Ⅲ。该两种方法选取同时发生 的事件,有效的保证了同步性。利用点过程理论建立多维超阈分布模型时,需要 把原有坐标转换到径向分量和角度分量上去,可以根据径向分量选择共同阈值 [史道济. 实用极值统计方法[M]. 天津科学技术出版社, 2006.]。该方法选择阈值的实际 操作方法不多,其应用受限制。
2. 选择阈值的常用方法
[罗耀. 基于超阈法的海洋工程极端环境条件重现期值计算理论与方法研究[D]. 华南理工大 学, 2013.]
超阈模型都面临阈值选取的难题,经过调查可知,现有的取阈方法基本都 受人为判断影响,且不能经过数学方法,利用计算机程序进行客观定量选定阈值。 但是阈值对最后重现期特征值的计算结果有一定影响,王超和刘德辅(1991)分 析南海某水文观测站波浪数据时分别以 2.0m,4.0m,5.0m 及 6.0m 为阈值,得 到不同样本用于计算百年一遇设计波高推算的最小值和最大值分别为 8.3m 和 9.8m,相差达 1.5m,认为不同阈值对结果影响较大。Goda(1988)的研究也表明 超阈模型计算结果可能和阈值的取值有相关关系。Goda 和 Konaga(2000)等在分 析日本海域波浪数据后认为阈值的调整影响分布函数的拟合效果。
法研究[D]. 华南理工大学, 2013.]
多维超阈模型能提高数据利用率,在有限的原始数据中获取尽可能多的信 息,具有计算稳定性好,易于短期资料的分析等天然优势。在多维联合概率分析 中,多维超阈模型尚在研究之中,但是如何建立简单、参数和阈值易确定的的多 维超阈法的模型仍是海洋工程中研究的重点。但是目前为止,超阈模型的实际应 用还有许多难点需要突破,最重要有两个问题:阈值如何定量选取,不受人为因 素影响;应该如何确定分组方法,以拓宽超阈模型的应用范围。
1.阈值法简介
阈值法既是指达到或超过某一固定较大值“阈”的各个资料均选入作为概率 分析的样本。根据资料本身特点资料年限较短,年极值数据少,若采用年最大值作 概率分析必然带来较大的误差,且结果不稳定,因此采用阈值法比较合适。此方法 不仅扩充了样本容量,且比较灵活。
阈值法无论在一元极值分布或多元极值分布中均被广泛采用效果良好。其中 最成功的例子是,Coles,Tawn 的研究,以 Immingham,Lowesloft 和 Sheerness 三地点 的实测水位为代表,通过隐式相关函数的对称 Logistic、负 Logistic 等多种模型的 迭代计算,求出三地点水位的联合分布,作为英国东海岸该区段的设计水位。上述 三地点的实测水位均采用阈值法取样,相应的阈值分别为 0.8m,0.9m 和 1.0m。又 如 Zarchary 等对北海北部 1。44.17'E,60。48.5'N,范围内的风速、波高、波周期三者 综合作用的研究,也是通过非参数方法估计其联合分布来实现的,计算中采用的风 速、波高、波周期值样本阈值分别为 16.5m/s,6.5m 和 7.5s。[王莉萍. 多维复合极值
1.3 多维超阈法
所谓多维超阈法就是选取阈值(共同阈值或者分量阈值)以上的变量作为统 计样本,具体个变量可以有多种不同的组合方式。Davison 和 Smith(1990)使用广 义 pareto 分布拟合适当较高的阈值的超阈数据,Coles 和 Twan(1991)认为该取样 方法通过增加了数据量,估计精度高于其他经典模型,并在多维极值分布分析中 使用了超阈取样的方法。Coles 和 Twan(1994)利用过阈法分析了 Newlyn 港的极 端潮位和波浪数据,并给出了三维分析过程,首次较为完整的展现了多维极值分 析方法实际应用的过程,提出了选择共同阈值的新的实用方法。Ledford 和 Twan 指出经典多元极值理论及参数模型只能给出十分有限的相关性结构,不能包括很 多自然界中出现的现象,并提出了一个新的研究思路:不以分量最大值作为分析 对象,而是以随机向量的各个分量都超出某一较高阈值的分量为样本进行研究分 析,建立新的多维阈值模型。但是该模型建立过程较为复杂,且没有明确共同阈 值 确 立 方 法 和 使 用 多 维 广 义 paretro 分 布 (Multivariate Generalized Paretro Distribution,MGPD)。[罗耀. 基于超阈法的海洋工程极端环境条件重现期值计算理论与方
多维分布阈值可以由边缘分布阈值确定,选取各分量超阈数据作为样本,但 是选择多维联合分布超阈样本时可有多种方法。Coles(2001)取所有分量都超过阈 值 的 观 测 数 据 进 行 计 算 [Coles S. An Introduction to Statistical Modeling of Extreme Values[M]. 世界图书出版公司, 2008],如下图中区域Ⅰ。这种方法限制较多,对数据 总体要求高,假设原始样本年限很短,在分别取阈后,两个分量都大于阈值的样 本则很少,随后的曲线拟合则很不稳定,忽略很多重要的数据,丧失了阈值法的 优点;Tajvidi(1996)[Tajvidi N. Characterisation and Some Statistical Aspects of Univariate and
目前主要的取阈手段是依靠观测剩余生命图进行阈值的判定,Godes(2001) 推荐根据剩余生命图,判断剩余生命图上直线段的起止位置来确定阈值[Coles S. An Introduction to Statistical Modeling of Extreme Values[M]. 世界图书出版公司, 2008],该方 法有可靠的理论依据,但是在许多情况下作为统计特征的直线段不明显,个人经 验和理解不同可以得到不同的结果;刘德辅等(2004)在分析天文大潮、长江洪水 和风暴增水对某市防洪影响时,利用平均剩余生命图方法得到天文大潮、长江洪 水和风暴增水三分量的阈值,采用超阈法来取样[刘德辅, 王莉萍, 宋艳,等. 复合极值 分布理论及其工程应用[J]. 中国海洋大学学报(自然科学版), 2004, 34(5):893-902.];同样 GP 分布参数估计的稳定性也能被用于估计阈值的位置,通过计算不同阈值下,GP 分布参数的稳定程度判断选择阈值位置,但是往往稳定段不是明显,取阈过程同 样需要人为经验介入。
[吴香华. 极值分布模型及其在气象领域的初步应用[D]. 南京信息工程大学, 2006.]
为进行下面的方法说明,首先进行介绍两个定理。
广义极值分布的函数为
GX
x
exp
1
x
1
/
exp
exp
x
x / 0
/ x 0
x
0
其中,-∞< μ< ∞为位置参数,σ> 0 为尺度参数,-∞< ξ< ∞。当ξ> 0 和ξ< 0 时,分 别对应于 Frechet 和 Weibull 分布。当ξ= 0,对应于 Gumbel 分布。 结合其他定理,可得: 定理 1:若有常数序列{an>0}和{bn},使得
approach to POT methods for determining extreme wave heights[J]. Coastal Engineering, 2011,
58(5):385-394.],数据利用率明显优于年极值取样法。根据极值理论可知,POT 法 中超阈量的理论概率模型为广义帕累托(Pareto)分布。由于广义 Pareto 分布与极 值分布只是从不同的角度刻画了极值的行为,两者线型比较接近,王超和刘德辅
环境条件重现期值计算理论与方法研究[D]. 华南理工大学, 2013.]
1.2 过阈法
过阈法由水文学家首先提出,文献[Garrick M F. Flood studies report, volumes I–
VNatural Environment Research Council, London, 1975, 1189 pages (available from the Institute of Hydrology, Wallingford, Oxon CX10 8BB, England — UK £ 40.00 plus postage)[J]. Journal
相关文档
最新文档